Clarifying ecological complexity: unsupervised learning determines the global marine ecological province

Предлага се метод на обучение без надзор за определяне на глобални морски екологични провинции (еко-провинции) въз основа на структурата на планктонната общност и данните за потока на хранителните вещества.Методът на систематичната интегрирана екологична провинция (SAGE) може да идентифицира екологични провинции в силно нелинейни модели на екосистеми.За да се адаптира към негаусовата ковариация на данните, SAGE използва случайно съседно вграждане (t-SNE), за да намали размерността.С помощта на приложението за шум, базирано на алгоритъма за пространствено клъстериране, базирано на плътност (DBSCAN), могат да бъдат идентифицирани повече от сто екологични провинции.Използвайки картата на свързаност с екологични различия като мярка за разстояние, стабилна агрегирана екологична провинция (AEP) е обективно дефинирана чрез вложени екологични провинции.Използвайки AEPs, беше проучен контролът на скоростта на доставка на хранителни вещества върху структурата на общността.Еко-провинция и AEP са уникални и могат да помогнат при интерпретацията на модела.Те могат да улеснят сравненията между моделите и могат да подобрят разбирането и мониторинга на морските екосистеми.
Провинциите са региони, където сложната биогеография на морето или сушата е организирана в съгласувани и смислени области (1).Тези провинции са много важни за сравняване и контрастиране на местоположения, характеризиране на наблюдения, мониторинг и защита.Сложните и нелинейни взаимодействия, които произвеждат тези провинции, правят методите за неконтролирано машинно обучение (ML) много подходящи за обективно определяне на провинции, тъй като ковариацията в данните е сложна и не е Гаусова.Тук се предлага метод на ML, който систематично идентифицира уникални морски екологични провинции (еко-провинции) от глобалния триизмерен (3D) физически/екосистемен модел на Дарвин (2).Терминът „уникален“ се използва, за да посочи, че идентифицираната област не се припокрива достатъчно с други области.Този метод се нарича метод на системно интегрирана екологична провинция (SAGE).За да се извърши полезна класификация, алгоритъмният метод трябва да позволява (i) глобална класификация и (ii) многомащабен анализ, който може да бъде вложен/обединен в пространството и времето (3).В това изследване за първи път беше предложен методът SAGE и бяха обсъдени идентифицираните екологични провинции.Екопровинциите могат да насърчат разбирането на факторите, които контролират структурата на общността, да осигурят полезна информация за стратегии за мониторинг и да помогнат за проследяване на промените в екосистемата.
Сухоземните провинции обикновено се класифицират според приликите в климата (валежи и температура), почвата, растителността и фауната и се използват за спомагателно управление, изследване на биоразнообразието и контрол на болестите (1, 4).Морските провинции са по-трудни за дефиниране.Повечето организми са микроскопични, с течни граници.Longhurst и др.(5) Осигурява една от първите глобални класификации на Министерството на океанографията въз основа на условията на околната среда.Дефиницията на тези провинции „Лонгхърст“ включва променливи като скорост на смесване, стратификация и излъчване, както и обширния опит на Лонгхърст като морски океанограф, който има други важни условия за морските екосистеми.Longhurst се използва широко, например, за оценка на първичното производство и въглеродните потоци, подпомагане на риболова и планиране на дейности за наблюдение in situ (5-9).За да се дефинират по-обективно провинциите, са използвани методи като размита логика и регионално неконтролирано клъстериране/статистика (9-14).Целта на такива методи е да се идентифицират значими структури, които могат да идентифицират провинции в наличните данни от наблюдения.Например, динамичните морски провинции (12) използват самоорганизиращи се карти за намаляване на шума и използват йерархично (базирано на дърво) групиране, за да определят морски цветни продукти, получени от регионални сателити [хлорофил a (Chl-a), нормализирана височина на флуоресцентна линия и цветна разтворена органична материя] и физическо поле (температура и соленост на морската повърхност, абсолютна динамична топография и морски лед).
Структурата на общността на планктона е повод за безпокойство, тъй като неговата екология има голямо влияние върху по-високите нива на хранителни вещества, абсорбцията на въглерод и климата.Независимо от това, все още е предизвикателна и неуловима цел да се определи глобална екологична провинция въз основа на структурата на планктонната общност.Морските цветни сателити потенциално могат да дадат представа за едрозърнестата класификация на фитопланктона или да предложат предимствата на функционалните групи (15), но в момента не са в състояние да предоставят подробна информация за структурата на общността.Скорошни проучвания [напр. Tara Ocean (16)] осигуряват безпрецедентни измервания на структурата на общността;понастоящем има само оскъдни наблюдения на място в глобален мащаб (17).Предишни проучвания до голяма степен са определили „Биогеохимичната провинция“ (12, 14, 18) въз основа на определянето на биохимичните прилики (като първично производство, Chl и налична светлина).Тук цифровият модел се използва за изход [Darwin(2)], а екологичната провинция се определя според структурата на общността и потока на хранителни вещества.Численият модел, използван в това проучване, има глобално покритие и може да бъде сравнен със съществуващи полеви данни (17) и полета за дистанционно наблюдение (Бележка S1).Данните от числения модел, използвани в това проучване, имат предимството на глобално покритие.Моделната екосистема се състои от 35 вида фитопланктон и 16 вида зоопланктон (моля, вижте материалите и методите).Моделните типове планктон взаимодействат нелинейно с не-гаусовите ковариационни структури, така че простите диагностични методи не са подходящи за идентифициране на уникални и последователни модели в нововъзникващите структури на общността.Методът SAGE, въведен тук, предоставя нов начин за проверка на резултатите от сложни модели на Дарвин.
Мощните трансформационни способности на технологията за наука за данни/ML могат да позволят изключително сложни моделни решения за разкриване на сложни, но стабилни структури в ковариацията на данните.Надеждният метод се дефинира като метод, който може вярно да възпроизведе резултатите в рамките на даден диапазон на грешка.Дори в прости системи, определянето на стабилни модели и сигнали може да бъде предизвикателство.Докато не се определи обосновката, водеща до наблюдавания модел, възникващата сложност може да изглежда сложна/трудна за разрешаване.Ключовият процес на определяне на състава на екосистемата е нелинеен по природа.Съществуването на нелинейни взаимодействия може да обърка стабилната класификация, така че е необходимо да се избягват методи, които правят силни предположения относно основното статистическо разпределение на ковариацията на данните.Високомерните и нелинейни данни са често срещани в океанографията и могат да имат ковариационна структура със сложна, негаусова топология.Въпреки че данните с не-гаусова ковариационна структура могат да попречат на стабилната класификация, методът SAGE е нов, защото е предназначен да идентифицира клъстери с произволни топологии.
Целта на метода SAGE е обективно идентифициране на възникващи модели, които могат да помогнат за по-нататъшното екологично разбиране.След базиран на клъстер работен процес, подобен на (19), променливите на екологичния и хранителния поток се използват за определяне на единствения клъстер в данните, наречен екологична провинция.Методът SAGE, предложен в това проучване (Фигура 1), първо намалява размерността от 55 на 11 измерения чрез сумиране на функционалните групи на планктона, дефинирани a priori (вижте Материали и методи).Използвайки метода на t-случайно съседно вграждане (t-SNE), размерът се намалява допълнително чрез проектиране на вероятността в 3D пространството.Неконтролираното клъстериране може да идентифицира екологично близки зони [базирано на плътност пространствено клъстериране (DBSCAN) за приложения, базирани на шум].Както t-SNE, така и DBSCAN са приложими към присъщите нелинейни данни на числения модел на екосистемата.След това препроектирайте получената екологична провинция върху земята.Идентифицирани са повече от сто уникални екологични провинции, подходящи за регионални изследвания.За да се разгледа глобално последователният модел на екосистемата, методът SAGE се използва за агрегиране на екологичните провинции в агрегирани екологични провинции (AEP), за да се подобри ефективността на екологичните провинции.Нивото на агрегиране (наречено „сложност“) може да се коригира до необходимото ниво на детайлност.Определете минималната сложност на стабилен AEP.Фокусът на селекцията е методът SAGE и изследване на случаите на AEP с най-малка сложност, за да се определи контролът върху структурата на спешната общност.След това моделите могат да бъдат анализирани, за да се осигурят екологични прозрения.Методът, въведен тук, може също да се използва за по-широко сравнение на модели, например чрез оценка на местоположенията на подобни екологични провинции, открити в различни модели, за да се подчертаят разликите и приликите, така че да се сравнят моделите.
(A) Схематична диаграма на работния процес за определяне на екологичната провинция;използване на сумата във функционалната група за редуциране на оригиналните 55-измерни данни до 11-измерен изходен модел, включително биомасата на седем функционални/хранителни планктона и четири скорости на доставка на хранителни вещества.Пренебрежимо малка стойност и трайна ледена покривка.Данните са стандартизирани и стандартизирани.Осигурете 11-измерни данни на алгоритъма t-SNE, за да подчертаете статистически подобни комбинации от характеристики.DBSCAN внимателно ще избере клъстера, за да зададе стойността на параметъра.Накрая проектирайте данните обратно към проекцията за географска ширина/дължина.Моля, имайте предвид, че този процес се повтаря 10 пъти, тъй като може да се генерира лека произволност чрез прилагане на t-SNE.(B) обяснява как да получите AEP, като повторите работния процес в (A) 10 пъти.За всяко от тези 10 приложения, междупровинциалната матрица на различията на Брей-Къртис (BC) беше определена въз основа на биомасата на 51 вида фитопланктон.Определете разликата в BC между провинциите, от сложност 1 AEP до пълна сложност 115. Еталонът на BC се определя от провинция Лонгхърст.
Методът SAGE използва резултата от глобалния 3D физически/екосистемен цифров модел, за да дефинира екологичната провинция [Дарвин (2);вижте Материали и методи и бележка S1].Компонентите на екосистемата са съставени от 35 вида фитопланктон и 16 вида зоопланктон, със седем предварително дефинирани функционални групи: прокариоти и еукариоти, адаптирани към среда с ниско съдържание на хранителни вещества, кокцидии с покритие от калциев карбонат и силна азотфиксация. Азотни хранителни вещества (обикновено липсват важни хранителни вещества), със силициево покритие, могат да направят друга фотосинтеза на планктон и паша със смесени хранителни вещества флагелати и пастири на зоопланктон.Обхватът на размера е от 0,6 до 2500 μm еквивалентен сферичен диаметър.Разпределението на модела на размера на фитопланктона и функционалното групиране улавя цялостните характеристики, наблюдавани при сателитни наблюдения и наблюдения на място (вижте фигури S1 до S3).Сходството между числения модел и наблюдавания океан показва, че провинциите, дефинирани от модела, могат да бъдат приложими към in situ океана.Моля, обърнете внимание, че този модел улавя само определено разнообразие от фитопланктон и само определени диапазони на физическо и химическо въздействие на in situ океана.Методът SAGE може да позволи на хората да разберат по-добре силно регионалния контролен механизъм на моделната структура на общността.
Чрез включването само на сумата от повърхностна биомаса (със средно време от 20 години) във всяка планктонна функционална група, размерността на данните може да бъде намалена.След като по-ранни проучвания показаха тяхната ключова роля в определянето на структурата на общността, те също така включваха термини на повърхностния източник за хранителни потоци (доставяне на азот, желязо, фосфат и силициева киселина) [напр. (20, 21)].Сумирането на функционалните групи намалява проблема от 55 (51 планктон и 4 хранителни потока) до 11 измерения.В това първоначално проучване, поради изчислителните ограничения, наложени от алгоритъма, дълбочината и променливостта във времето не са взети предвид.
Методът SAGE е в състояние да идентифицира важни връзки между нелинейни процеси и ключови характеристики на взаимодействията между биомасата на функционалната група и потока на хранителни вещества.Използването на 11-измерни данни, базирани на евклидови методи за дистанционно обучение (като K-средни), не може да получи надеждни и възпроизводими провинции (19, 22).Това е така, защото не се открива форма на Гаус в основното разпределение на ковариацията на ключовите елементи, които определят екологичната провинция.K-средните стойности на клетките на Вороной (правите линии) не могат да запазят основното негаусово разпределение.
Биомасата на седем планктонни функционални групи и четири хранителни потока образуват 11-измерен вектор x.Следователно, x е векторно поле в мрежата на модела, където всеки елемент xi представлява 11-измерен вектор, дефиниран в хоризонталната мрежа на модела.Всеки индекс i уникално идентифицира точка на мрежата върху сферата, където (long, lat) = (ϕi, θi).Ако биомасата на модула на решетката на модела е по-малка от 1,2×10-3 mg Chl/m3 или степента на ледено покритие надвишава 70%, дневникът на данните за биомасата се използва и изхвърля.Данните са нормализирани и стандартизирани, така че всички данни са в диапазона от [0 до 1], средната стойност се премахва и мащабира до дисперсия на единица.Това се прави така, че характеристиките (биомаса и поток на хранителни вещества) да не се ограничават от контраста в обхвата на възможните стойности.Групирането трябва да улавя връзката на промяната от ключовото вероятностно разстояние между характеристиките, а не от географското разстояние.Чрез количественото определяне на тези разстояния се появяват важни характеристики, докато ненужните подробности се изхвърлят.От екологична гледна точка това е необходимо, тъй като някои видове фитопланктон с малка биомаса могат да имат по-големи биогеохимични ефекти, като фиксиране на азот от диазотрофни бактерии.При стандартизиране и нормализиране на данни тези типове ковариати ще бъдат подчертани.
Чрез подчертаване на близостта на характеристиките във високомерното пространство в нискомерно представяне, алгоритъмът t-SNE се използва, за да направи съществуващите подобни региони по-ясни.Предишна работа, насочена към изграждане на дълбоки невронни мрежи за приложения за дистанционно наблюдение, използва t-SNE, който доказа своите умения в разделянето на ключови характеристики (23).Това е необходима стъпка за идентифициране на стабилно групиране в данните за характеристиките, като същевременно се избягват неконвергентни решения (забележка S2).Използвайки гаусови ядра, t-SNE запазва статистическите свойства на данните, като картографира всеки високомерен обект към точка в 3D фазовото пространство, като по този начин гарантира, че вероятността за подобни обекти във високи и ниски посоки е висока във високо- пространствено пространство (24).Като се има предвид набор от N високомерни обекта x1,…,xN, алгоритъмът t-SNE намалява чрез минимизиране на дивергенцията на Kullback-Leibler (KL) (25).Дивергенцията на KL е мярка за това колко различно е вероятностното разпределение от второ референтно вероятностно разпределение и може ефективно да оцени възможността за корелация между нискоразмерни представяния на високоразмерни характеристики.Ако xi е i-тият обект в N-мерно пространство, xj е j-тият обект в N-мерно пространство, yi е i-тият обект в нискомерно пространство и yj е j-тият обект в ниско -дименсионално пространство, тогава t -SNE дефинира вероятността за сходство ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), а за набора за намаляване на размерността q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Фигура 2А илюстрира ефекта от намаляването на векторите на потока от биомаса и хранителни вещества на 11-измерната комбинация до 3D.Мотивацията за прилагане на t-SNE може да се сравни с мотивацията на анализа на главните компоненти (PCA), който използва атрибута на дисперсията, за да подчертае областта/атрибута на данните, като по този начин намалява размерността.Установено е, че методът t-SNE превъзхожда PCA при предоставянето на надеждни и възпроизводими резултати за екоминистерството (вижте Бележка S2).Това може да се дължи на факта, че предположението за ортогоналност на PCA не е подходящо за идентифициране на критични взаимодействия между силно нелинейни интерактивни характеристики, тъй като PCA се фокусира върху линейни ковариационни структури (26).Използвайки данни от дистанционно наблюдение, Lunga et al.(27) илюстрира как да се използва методът SNE за подчертаване на сложни и нелинейни спектрални характеристики, които се отклоняват от разпределението на Гаус.
(A) Моделирана скорост на снабдяване с хранителни вещества, биомаса на функционална група на фитопланктон и зоопланктон, начертана от алгоритъма t-SNE и оцветена по провинция с помощта на DBSCAN.Всяка точка представлява точка във високомерното пространство, както е показано на Фигура 6B, повечето точки са уловени.Валовете се отнасят за „t-SNE“ размери 1, 2 и 3. (B) Географската проекция на провинцията, открита от DBSCAN върху мрежата за географска ширина и дължина на произхода.Цветът трябва да се разглежда като всеки цвят, но трябва да съответства на (A).
Точките в диаграмата на разсейване на t-SNE на Фигура 2А са съответно свързани с географската ширина и дължина.Ако двете точки на Фигура 2А са близо една до друга, това е защото тяхната биомаса и хранителни потоци са сходни, а не поради географска близост.Цветовете на фигура 2A са клъстери, открити с помощта на метода DBSCAN (28).Когато търси плътни наблюдения, алгоритъмът DBSCAN използва разстоянието в 3D представянето между точките (ϵ = 0,39; за информация относно този избор вижте Материали и методи), а броят на подобни точки е необходим за дефиниране на клъстера (тук 100 точки, моля вижте по-горе).Методът DBSCAN не прави никакви предположения относно формата или броя на клъстерите в данните, както е показано по-долу:
3) За всички точки, идентифицирани като в рамките на разстоянието, повторете стъпка 2 итеративно, за да определите границата на клъстера.Ако броят точки е по-голям от зададената минимална стойност, той се обозначава като клъстер.
Данните, които не отговарят на минималния член на клъстера и показателя за разстояние ϵ, се считат за „шум“ и не им се присвоява цвят.DBSCAN е бърз и мащабируем алгоритъм с O(n2) производителност в най-лошия случай.За настоящия анализ това всъщност не е случайно.Минималният брой точки се определя от експертна оценка.След коригиране на разстоянието след това, резултатът не е достатъчно стабилен в диапазона от ≈±10.Това разстояние се задава с помощта на свързаност (Фигура 6A) и процентно покритие на океана (Фигура 6B).Свързването се определя като съставен брой клъстери и е чувствително към параметъра ϵ.По-ниската свързаност показва недостатъчно напасване, изкуствено групиране на региони заедно.Високата свързаност показва прекомерно оборудване.Възможно е да се използва по-висок минимум, но ако минимумът надвишава ca, е невъзможно да се постигне надеждно решение.135 (За повече подробности вижте Материали и методи).
115-те клъстера, идентифицирани на фигура 2A, са проектирани обратно на земята на фигура 2B.Всеки цвят съответства на съгласувана комбинация от биогеохимични и екологични фактори, идентифицирани от DBSCAN.След като клъстерите са определени, асоциирането на всяка точка от Фигура 2A с конкретна географска ширина и дължина се използва за проектиране на клъстерите обратно към географската област.Фигура 2B илюстрира това със същите цветове на клъстера като Фигура 2A.Подобните цветове не трябва да се тълкуват като екологично сходство, тъй като те се присвояват от реда, в който клъстерите са открити от алгоритъма.
Областта на фигура 2B може да бъде качествено подобна на установена зона във физическата и/или биогеохимията на океана.Например клъстерите в Южния океан са зоново-симетрични, появяват се олиготрофни вихри, а резкият преход показва влиянието на пасатите.Например в екваториалната част на Тихия океан се виждат различни региони, свързани с издигането.
За да се разбере екологичната среда на еко-провинцията, беше използвана вариация на индекса на разликата на Брей-Къртис (BC) (29) за оценка на екологията в клъстера.Индикаторът BC е статистически данни, използвани за количествено определяне на разликата в структурата на общността между два различни обекта.Измерването на BC е приложимо за биомасата на 51 вида фитопланктон и зоопланктон BCninj = 1-2CninjSni + Snj
BCninj се отнася до сходството между комбинация ni и комбинация nj, където Cninj е минималната стойност на един тип биомаса, която съществува и в двете комбинации ni и nj, а Sni представлява сумата от всички биомаси, които съществуват и в двете комбинации ni и Snj.Разликата BC е подобна на мярката за разстояние, но работи в неевклидово пространство, което вероятно ще бъде по-подходящо за екологични данни и тяхното тълкуване.
За всеки клъстер, идентифициран на фигура 2B, може да се оцени сходството на вътрешнопровинциалния и междупровинциалния BC.Разликата в BC в рамките на една провинция се отнася до разликата между средната стойност на провинцията и всяка точка в провинцията.Разликата между провинциите пр. н. е. се отнася до сходството между една провинция и други провинции.Фигура 3А показва симетрична BC матрица (0, черно: напълно съответстващо; 1, бяло: напълно различно).Всеки ред в графиката показва модел в данните.Фигура 3B показва географското значение на резултатите от BC на фигура 3A за всяка провинция.За провинция в район с ниско хранене и ниско съдържание на хранителни вещества, Фигура 3B показва, че симетрията на големи области около екватора и Индийския океан е основно сходна, но по-високите географски ширини и зоните на издигане са значително различни.
(A) Степента на разликата в BC, оценена за всяка провинция въз основа на глобалната 20-годишна средна глобална повърхностна средна стойност от 51 планктона.Обърнете внимание на очакваната симетрия на стойностите.(B) Пространствената проекция на колона (или ред).За провинция в дистрофичен кръг беше оценено глобалното разпределение на мярката за сходство на BC и беше оценена глобалната 20-годишна средна стойност.Черно (BC = 0) означава същата област, а бяло (BC = 1) означава липса на прилика.
Фигура 4A илюстрира разликата в BC във всяка провинция на фигура 2B.Определено чрез използване на средната комбинация от средната площ в клъстер и определяне на разликата между BC и средната стойност на всяка точка от мрежата в провинцията, това показва, че методът SAGE може добре да раздели 51 вида въз основа на екологично сходство Тип на данни за модела.Общото средно клъстерно BC различие на всичките 51 типа е 0,102±0,0049.
(A, B и D) Разликата в BC в рамките на провинцията се оценява като средната разлика в BC между всяка общност от точки на мрежата и средната провинция и сложността не се намалява.(2) Глобалната средна вътрешнопровинциална разлика в BC е 0,227±0,117.Това е еталонът на класификацията, базирана на екологична мотивация, предложена от тази работа [зелена линия в (C)].(C) Средна вътрешнопровинциална разлика в BC: Черната линия представлява вътрешнопровинциалната разлика в BC с нарастваща сложност.2σ идва от 10 повторения на процеса на идентифициране на еко-провинция.За общата сложност на провинциите, открити от DBSCAN, (A) показва, че BC разликата в провинцията е 0,099, а класификацията на сложността, предложена от (C), е 12, което води до BC разлика от 0,200 в провинцията.както показва снимката.(Д).
На фигура 4B биомасата на 51 типа планктон се използва за представяне на еквивалентната разлика в BC в провинция Longhurst.Общата средна стойност за всяка провинция е 0,227, а стандартното отклонение на точките на мрежата по отношение на разликата в провинция пр.н.е. е 0,046.Това е по-голямо от клъстера, идентифициран на фигура 1B.Вместо това, използвайки сумата от седемте функционални групи, средното вътресезонно различие на пр.н.е. в Longhurst се увеличи до 0,232.
Глобалната карта на еко-провинцията предоставя сложни подробности за уникалните екологични взаимодействия и са направени подобрения в използването на цялата структура на екосистемата на провинция Лонгхърст.Очаква се Министерството на екологията да даде представа за процеса на контролиране на екосистемата на числения модел и тази представа ще помогне за изследването на теренната работа.За целите на това изследване не е възможно да се покажат напълно повече от сто провинции.Следващият раздел представя метода SAGE, който обобщава провинциите.
Една от целите на провинцията е да насърчи разбирането за местоположението и управлението на провинцията.За определяне на извънредни ситуации, методът на фигура 1B илюстрира гнезденето на екологично подобни провинции.Еко-провинциите са групирани заедно въз основа на екологично сходство и такова групиране на провинции се нарича AEP.Задайте регулируема „сложност“ въз основа на общия брой провинции, които трябва да се вземат предвид.Терминът „сложност“ се използва, защото позволява да се коригира нивото на аварийните атрибути.За да се определят смислени агрегации, като еталон се използва средната вътрешнопровинциална разлика в BC от 0,227 от Longhurst.Под този показател комбинираните провинции вече не се считат за полезни.
Както е показано на фигура 3B, глобалните екологични провинции са съгласувани.Използвайки междупровинциалните разлики преди новата ера, може да се види, че някои конфигурации са много „често срещани“.Вдъхновени от методите на генетиката и теорията на графите, „свързаните графики“ се използват за сортиране на >100 провинции въз основа на провинциите, които са най-сходни с тях.Метриката за „свързаност“ тук се определя с помощта на междупровинциалните различия преди новата ера (30).Броят на провинциите с по-голямо пространство за класификация от> 100 провинции може да се нарече тук сложност.AEP е продукт, който категоризира повече от 100 провинции като най-доминиращите/най-близките екологични провинции.Всяка екологична провинция е присвоена на доминиращата/силно свързана екологична провинция, която е най-подобна на тях.Това агрегиране, определено от разликата BC, позволява вложен подход към глобалната екология.
Избраната сложност може да бъде всяка стойност от 1 до пълната сложност от ФИГ.2А.При по-ниска сложност AEP може да се изроди поради вероятностната стъпка на намаляване на размерността (t-SNE).Израждането означава, че екологичните провинции могат да бъдат присвоени на различни AEP между итерациите, като по този начин се променя обхванатият географски район.Фигура 4C илюстрира разпространението на различията на BC в рамките на провинциите в AEP с нарастваща сложност в 10 реализации (илюстрация на фигура 1B).На Фигура 4C 2σ (синя зона) е мярка за влошаване при 10 реализации, а зелената линия представлява еталонната стойност на Longhurst.Фактите са доказали, че сложността на 12 може да поддържа разликата в BC в провинцията под бенчмарка на Longhurst при всички реализации и да поддържа относително малка деградация на 2σ.В обобщение, минималната препоръчителна сложност е 12 AEP, а средната разлика в BC в рамките на провинцията, оценена с помощта на 51 вида планктон, е 0,198±0,013, както е показано на Фигура 4D.Използвайки сумата от седем планктонни функционални групи, средната разлика в BC в рамките на провинцията е 2σ вместо 0,198±0,004.Сравнението между разликите в BC, изчислени с общата биомаса на седемте функционални групи или биомасата на всичките 51 вида планктон, показва, че въпреки че методът SAGE е приложим за 51-измерната ситуация, той е за общата биомаса на седемте функционални групи За обучение.
В зависимост от целта на всяко изследване могат да се разглеждат различни нива на сложност.Регионалните проучвания може да изискват пълна сложност (т.е. всички 115 провинции).Като пример и за яснота помислете за минималната препоръчителна сложност от 12.
Като пример за полезността на метода SAGE, тук се използват 12 AEP с минимална сложност от 12, за да се изследва контролът на структурата на общността за спешни случаи.Фигура 5 илюстрира екологичните прозрения, групирани по AEP (от A до L): В стехиометрията на Redfield, географският обхват (Фигура 5C), съставът на биомасата на функционалната група (Фигура 5A) и доставката на хранителни вещества (Фигура 5B) се извършват от N Zoomed.Показано е съотношението (N:Si:P:Fe, 1:1:16:16×103).За последния панел P, умножено по 16 и Fe, умножено по 16×103, така че лентовата графика е еквивалентна на хранителните изисквания на фитопланктона.
Провинциите са класифицирани в 12 AEP от A до L. (A) Биомаса (mgC/m3) на екосистемите в 12 провинции.(B) Скоростта на потока на хранителни вещества от разтворен неорганичен азот (N), желязо (Fe), фосфат (P) и силициева киселина (Si) (mmol/m3 на година).Fe и P се умножават съответно по 16 и 16 × 103, така че лентите да са стандартизирани спрямо изискванията за стехиометрия на фитопланктона.(C) Обърнете внимание на разликата между полярните региони, субтропичните циклони и основните сезонни/възходящи региони.Станциите за мониторинг са обозначени както следва: 1, СЕДАЛКИ;2, ALOHA;3, гара П;и 4, ПРИЛЕПИ.
Идентифицираният AEP е уникален.Има известна симетрия около екватора в Атлантическия и Тихия океан, а подобна, но разширена зона съществува в Индийския океан.Някои AEP обхващат западната страна на континента, свързан с изкачването.Циркумполярното течение на Южния полюс се счита за голяма зонална характеристика.Субтропичният циклон е сложна серия от олиготрофни AEP.В тези провинции познатият модел на разликите в биомасата между доминираните от планктон олиготрофни вихри и богатите на диатомеи полярни региони е очевиден.
AEP с много подобна обща биомаса на фитопланктон могат да имат много различни структури на общността и да покриват различни географски области, като D, H и K, които имат подобна обща биомаса на фитопланктон.AEP H съществува главно в екваториалния Индийски океан и има повече диазотрофни бактерии.AEP D се намира в няколко басейна, но е особено забележим в Тихия океан около зоните с висок добив около екваториалното издигане.Формата на тази тихоокеанска провинция напомня на планетарен вълнов влак.В AEP D има малко диазобактерии и повече конуси.В сравнение с другите две провинции, AEP K се среща само във високите части на Северния ледовит океан и има повече диатомеи и по-малко планктони.Заслужава да се отбележи, че количеството планктон в тези три региона също е много различно.Сред тях изобилието на планктон на AEP K е относително ниско, докато това на AEP D и H е относително високо.Следователно, въпреки тяхната биомаса (и следователно подобни на Chl-a), тези провинции са доста различни: базираното на Chl тестване на провинция може да не улови тези разлики.
Очевидно е също, че някои AEPs с много различна биомаса могат да бъдат сходни по отношение на структурата на общността на фитопланктона.Например, това се вижда в AEP D и E. Те са близо един до друг, а в Тихия океан AEP E е близо до високопродуктивния AEPJ.По същия начин няма ясна връзка между биомасата на фитопланктона и изобилието на зоопланктон.
AEP може да се разбере по отношение на хранителните вещества, които им се предоставят (Фигура 5B).Диатомеите съществуват само там, където има достатъчно количество силициева киселина.Като цяло, колкото по-голямо е количеството силициева киселина, толкова по-висока е биомасата на диатомеите.Диатомеите могат да се видят в AEP A, J, K и L. Съотношението на диатомовата биомаса спрямо другия фитопланктон се определя от N, P и Fe, предоставени спрямо търсенето на диатом.Например AEP L е доминиран от диатомеи.В сравнение с други хранителни вещества Si има най-голям запас.Обратно, въпреки по-високата производителност, AEP J има по-малко диатомеи и по-малко количество силиций (всички и в сравнение с други хранителни вещества).
Диазониевите бактерии имат способността да фиксират азот, но растат бавно (31).Те съществуват съвместно с друг фитопланктон, където желязото и фосфорът са прекомерни спрямо търсенето на недиазониеви хранителни вещества (20, 21).Струва си да се отбележи, че диазотрофната биомаса е сравнително висока и предлагането на Fe и P е относително голямо спрямо предлагането на N. По този начин, въпреки че общата биомаса в AEP J е по-висока, диазониевата биомаса в AEP H е по-голям от този в J. Моля, имайте предвид, че AEP J и H са географски много различни, а H се намира в екваториалния Индийски океан.
Ако уникалната структура на екосистемата не е разделена на провинции, прозренията, получени от 12-те модела с най-ниска сложност на AEP, няма да бъдат толкова ясни.AEP, генериран от SAGE, улеснява съгласуваното и едновременно сравняване на сложна и високомерна информация от модели на екосистеми.AEP ефективно подчертава защо Chl не е добър и алтернативен метод за определяне на структурата на общността или изобилието на зоопланктон при по-високи нива на хранителни вещества.Подробният анализ на текущите изследователски теми е извън обхвата на тази статия.Методът SAGE предоставя начин за изследване на други механизми в модела, който е по-лесен за работа от гледането от точка до точка.
Методът SAGE се предлага да помогне за изясняване на изключително сложни екологични данни от глобални физически/биогеохимични/екосистемни цифрови модели.Екологичната провинция се определя от общата биомаса на кръстосани планктонни функционални групи, прилагането на алгоритъм за намаляване на размерността на вероятността t-SNE и групирането с помощта на неконтролирания ML метод DBSCAN.Междупровинциалната BC разлика/теория на графиките за метода на влагане се прилага за извличане на стабилен AEP, който може да се използва за глобална интерпретация.По отношение на строителството Еко-провинция и AEP са уникални.Вмъкването на AEP може да се регулира между пълната сложност на първоначалната екологична провинция и препоръчителния минимален праг от 12 AEP.Влагането и определянето на минималната сложност на AEP се считат за ключови стъпки, тъй като вероятността t-SNE дегенерира AEP с <12 сложност.Методът SAGE е глобален и неговата сложност варира от> 100 AEP до 12. За простота настоящият фокус е върху сложността на 12 глобални AEP.Бъдещи изследвания, особено регионални проучвания, могат да намерят по-малка пространствена подгрупа от глобалните еко-провинции за полезна и могат да бъдат агрегирани в по-малка област, за да се възползват от същите екологични прозрения, обсъдени тук.Той предоставя предложения за това как тези екологични провинции и прозренията, получени от тях, могат да бъдат използвани за по-нататъшно екологично разбиране, улесняване на сравнението на модели и потенциално подобряване на мониторинга на морските екосистеми.
Екологичната провинция и AEP, идентифицирани чрез метода SAGE, се основават на данните в числения модел.По дефиниция численият модел е опростена структура, която се опитва да улови същността на целевата система и различните модели ще имат различно разпределение на планктона.Численият модел, използван в това изследване, не може напълно да улови някои от наблюдаваните модели (например в оценките на Chl за екваториалния регион и Южния океан).Само малка част от разнообразието в истинския океан се улавя и мезо- и суб-мезомащабите не могат да бъдат разрешени, което може да повлияе на хранителния поток и структурата на общността в по-малък мащаб.Въпреки тези недостатъци се оказва, че AEP е много полезно за разбирането на сложни модели.Като оценява къде се намират подобни екологични провинции, AEP предоставя потенциален инструмент за сравнение на числени модели.Настоящият числен модел улавя цялостния модел на концентрацията на Chl-a при дистанционно наблюдение на фитопланктона и разпределението на размера и функционалната група на планктона (Бележка S1 и Фигура S1) (2, 32).
Както е показано от 0,1 mgChl-a/m-3 контурна линия, AEP е разделен на олиготрофна област и мезотрофна зона (Фигура S1B): AEP B, C, D, E, F и G са олиготрофни области, а останалите области са разположена Висша Хл-а.AEP показва известно съответствие с провинция Лонгхърст (Фигура S3A), например Южния океан и екваториалния Тихи океан.В някои региони AEP покрива множество региони на Лонгхърст и обратно.Тъй като намерението за разграничаване на провинции в тази област и Лонгхърст е различно, се очаква да има различия.Множество AEP в провинция Лонгхърст показват, че определени области с подобна биогеохимия може да имат много различни структури на екосистемите.AEP проявява известна кореспонденция с физическите състояния, както се разкрива с помощта на неконтролирано обучение (19), като например в състояния с високо повдигане (например Южния океан и екваториалния Тихи океан; Фигура S3, C и D).Тези съответствия показват, че структурата на общността на планктона е силно повлияна от динамиката на океана.В райони като Северния Атлантик AEP пресича физически провинции.Механизмът, който причинява тези разлики, може да включва процеси като транспортиране на прах, което може да доведе до напълно различни хранителни програми дори при подобни физически условия.
Министерството на екологията и AEP посочиха, че използването само на Chl не може да идентифицира екологичните компоненти, както общността на морската екология вече е осъзнала.Това се наблюдава при AEP с подобна биомаса, но значително различен екологичен състав (като D и E).За разлика от тях AEPs като D и K имат много различна биомаса, но подобен екологичен състав.AEP подчертава, че връзката между биомасата, екологичния състав и изобилието на зоопланктона е сложна.Например, въпреки че AEP J се откроява по отношение на фитопланктон и планктонна биомаса, A и L на AEP имат сходна планктонна биомаса, но A има по-високо изобилие на планктон.AEP подчертава, че фитопланктонната биомаса (или Chl) не може да се използва за прогнозиране на зоопланктонната биомаса.Зоопланктонът е в основата на хранителната верига на рибарството и по-точните оценки могат да доведат до по-добро управление на ресурсите.Бъдещите морски цветни сателити [например PACE (планктон, аерозол, облак и морска екосистема)] може да са по-добре позиционирани, за да помогнат при оценката на общностната структура на фитопланктона.Използването на прогноза на AEP може потенциално да улесни оценката на зоопланктона от космоса.Методи като SAGE, съчетани с нови технологии и все повече теренни данни, налични за наземни проучвания на истината (като Tara и последващи изследвания), могат съвместно да направят крачка към сателитно базирано наблюдение на здравето на екосистемите.
Методът SAGE осигурява удобен начин за оценка на някои механизми, които контролират характеристиките на провинцията, като биомаса/Chl, нетно първично производство и структура на общността.Например, относителното количество диатомеи се определя от дисбаланс в доставките на Si, N, P и Fe по отношение на стехиометричните изисквания на фитопланктона.При балансиран процент на предлагане общността е доминирана от диатомеи (L).Когато нивото на предлагане е небалансирано (т.е. предлагането на силиций е по-ниско от търсенето на хранителни вещества от диатомите), диатомите представляват само малка част от дял (K).Когато доставките на Fe и P надвишават доставките на N (например E и H), диазотрофните бактерии ще растат енергично.Чрез контекста, предоставен от AEP, изследването на механизмите за контрол ще стане по-полезно.
Еко-провинцията и AEP са райони със сходни обществени структури.Времевият ред от определено място в екологична провинция или AEP може да се разглежда като референтна точка и може да представлява зоната, покрита от екологичната провинция или AEP.Станциите за дългосрочен мониторинг на място предоставят такива времеви серии.Дългосрочните масиви от данни на място ще продължат да играят неизчислима роля.От гледна точка на мониторинга на структурата на общността, методът SAGE може да се разглежда като начин за подпомагане определянето на най-полезното местоположение на новите сайтове.Например, времевият ред от дългосрочната оценка на олиготрофното местообитание (ALOHA) е в AEP B на олиготрофната зона (Фигура 5C, етикет 2).Тъй като ALOHA е близо до границата на друг AEP, времевият ред може да не е представителен за цялата област, както беше предложено по-рано (33).В същия AEP B времевият ред SEATS (времеви редове от Югоизточна Азия) се намира в югозападен Тайван (34), по-далеч от границите на други AEP (Фигура 5C, етикет 1) и може да се използва като по-добро място за наблюдение AEPB.Времевият ред на BATS (Bermuda Atlantic Time Series Study) (Фигура 5C, етикет 4) в AEPC е много близо до границата между AEP C и F, което показва, че наблюдението на AEP C с помощта на BATS времеви редове може директно да бъде проблематично.Станция P в AEP J (Фигура 5C, етикет 3) е далеч от границата на AEP, така че е по-представителна.Eco-Province и AEP могат да помогнат за установяването на рамка за мониторинг, подходяща за оценка на глобалните промени, тъй като разрешението на провинциите да оценят къде вземането на проби на място може да предостави ключови прозрения.Методът SAGE може да бъде доразвит, за да се прилага към климатични данни за оценка на спестяващата време променливост.
Успехът на метода SAGE се постига чрез внимателно прилагане на методите за наука за данни/ML и специфични за домейна знания.По-конкретно, t-SNE се използва за извършване на намаляване на размерността, което запазва структурата на ковариацията на данни с голямо измерение и улеснява визуализацията на топологията на ковариацията.Данните са подредени под формата на ивици и ковариации (Фигура 2A), което показва, че измерванията, базирани изцяло на разстояние (като K-средни), не са подходящи, тъй като те обикновено използват разпределение на базата на Гаус (кръгово) (обсъдено в Бележка S2) .Методът DBSCAN е подходящ за всяка ковариационна топология.Докато обръщате внимание на настройката на параметрите, може да се осигури надеждна идентификация.Изчислителната цена на алгоритъма t-SNE е висока, което ограничава настоящото му приложение до по-голямо количество данни, което означава, че е трудно да се приложи към дълбоки или променящи се във времето полета.Работата по скалируемостта на t-SNE е в ход.Тъй като KL разстоянието е лесно за паралелизиране, алгоритъмът t-SNE има добър потенциал за разширяване в бъдеще (35).Досега други обещаващи методи за намаляване на размерността, които могат по-добре да намалят размера, включват техники за приближение и проекция на унифициран колектор (UMAP), но оценката в контекста на океанските данни е необходима.Значението на по-добра мащабируемост е например класифициране на глобални климати или модели с различна сложност на смесен слой.Областите, които не успяват да бъдат класифицирани от SAGE в нито една провинция, могат да се разглеждат като останалите черни точки на Фигура 2A.Географски тези райони са предимно в силно сезонни зони, което предполага, че улавянето на екологични провинции, които се променят с времето, ще осигури по-добро покритие.
За да се конструира методът SAGE, са използвани идеи от сложни системи/наука за данни, като се използва способността за определяне на клъстери от функционални групи (възможността да бъдат много близки в 11-измерно пространство) и определяне на провинции.Тези провинции изобразяват специфични обеми в нашето 3D t-SNE фазово пространство.По подобен начин частта на Поанкаре може да се използва за оценка на „обема“ на пространството на състоянието, заето от траекторията, за да се определи „нормалното“ или „хаотично“ поведение (36).За изхода на статичен 11-измерен модел обемът, зает след като данните се преобразуват в 3D фазово пространство, може да бъде обяснен по подобен начин.Връзката между географската област и площта в 3D фазовото пространство не е проста, но може да се обясни от гледна точка на екологично сходство.Поради тази причина се предпочита по-конвенционалната мярка за несходство на BC.
Бъдещата работа ще използва повторно метода SAGE за сезонно променящи се данни за оценка на пространствената променливост на идентифицираните провинции и AEP.Бъдещата цел е да се използва този метод, за да се определи кои провинции могат да бъдат определени чрез сателитни измервания (като Chl-a, отразяваща способност за дистанционно наблюдение и температура на морската повърхност).Това ще позволи оценка на екологичните компоненти чрез дистанционно наблюдение и много гъвкав мониторинг на екологичните провинции и тяхната променливост.
Целта на това изследване е да се въведе методът SAGE, който определя екологична провинция чрез нейната уникална структура на планктонната общност.Тук ще бъде предоставена по-подробна информация за физическия/биогеохимичния/екосистемен модел и избора на параметри на t-SNE и DBSCAN алгоритмите.
Физическите компоненти на модела идват от оценката на океанската циркулация и климат [ECCOv4;(37) глобалната оценка на състоянието, описана от (38).Номиналната разделителна способност на оценката на състоянието е 1/5.Методът на най-малките квадрати с метода на множителя на Лагранж се използва за получаване на началните и граничните условия и вътрешните параметри на модела, коригирани чрез наблюдение, като по този начин се генерира свободно работещ модел на общ цикъл на MIT (MITgcm) (39), моделът След оптимизация резултатите могат да бъдат проследени и наблюдавани.
Биогеохимията/екосистемата има по-пълно описание (т.е. уравнения и стойности на параметри) в (2).Моделът улавя циркулацията на C, N, P, Si и Fe през неорганични и органични езера.Използваната тук версия включва 35 вида фитопланктон: 2 вида микропрокариоти и 2 вида микроеукариоти (подходящи за среда с ниско съдържание на хранителни вещества), 5 вида Cryptomonas sphaeroides (с покритие от калциев карбонат), 5 вида диазоний (може да фиксира азот, така че не е ограничено) наличието на разтворен неорганичен азот), 11 диатомеи (образуващи силициево покритие), 10 смесено-вегетативни флагелати (могат да фотосинтезират и да ядат друг планктон) и 16 зоопланктон (пасат друг планктон).Те се наричат "биогеохимични функционални групи", защото имат различни ефекти върху морската биогеохимия (40, 41) и често се използват при наблюдения и моделни изследвания.В този модел всяка функционална група е съставена от няколко планктона с различни размери, с обхват от 0,6 до 2500 μm еквивалентен сферичен диаметър.
Параметрите, влияещи върху растежа, пашата и потъването на фитопланктона, са свързани с размера и има специфични разлики между шестте функционални групи на фитопланктона (32).Въпреки различните физически рамки, резултатите от 51 планктонни компонента на модела са използвани в редица скорошни проучвания (42-44).
От 1992 г. до 2011 г. моделът на свързване на физически/биогеохимични/екосистеми работи в продължение на 20 години.Резултатът от модела включва биомаса на планктон, концентрация на хранителни вещества и скорост на доставяне на хранителни вещества (DIN, PO4, Si и Fe).В това проучване 20-годишната средна стойност на тези резултати е използвана като вход на екологичната провинция.Chl, разпределението на планктонната биомаса и концентрацията на хранителни вещества и разпределението на функционалните групи се сравняват със сателитни наблюдения и наблюдения на място [виж (2, 44), Бележка S1 и фигура.S1 до S3].
За метода SAGE основният източник на случайност идва от стъпката t-SNE.Случайността пречи на повторяемостта, което означава, че резултатите са ненадеждни.Методът SAGE стриктно тества устойчивостта чрез определяне на набор от параметри на t-SNE и DBSCAN, които могат последователно да идентифицират клъстери, когато се повтарят.Определянето на „объркаността“ на параметъра t-SNE може да се разбира като определяне на степента, до която картографирането от високи към ниски измерения трябва да зачита локалните или глобалните характеристики на данните.Достигна объркването на 400 и 300 итерации.
За алгоритъма за клъстериране DBSCAN трябва да се определи минималният размер и показателят за разстояние на точките от данни в клъстера.Минималният брой се определя под ръководството на експерти.Това знание знае какво отговаря на текущата рамка и резолюция на численото моделиране.Минималният брой е 100. Може да се има предвид по-висока минимална стойност (по-малко от <135, преди горната граница на зеленото да стане по-широка), но тя не може да замени метода на агрегиране, базиран на различието на BC.Степента на свързване (Фигура 6A) се използва за задаване на параметъра ϵ, което води до по-високо покритие (Фигура 6B).Свързването се определя като съставен брой клъстери и е чувствително към параметъра ϵ.По-ниската свързаност показва недостатъчно напасване, изкуствено групиране на региони заедно.Високата свързаност показва прекомерно оборудване.Пренастройването също е проблематично, защото показва, че първоначалните произволни предположения могат да доведат до невъзпроизводими резултати.Между тези две крайности рязкото увеличение (обикновено наричано „лакът“) показва най-доброто ϵ.На Фигура 6A виждате рязко увеличение в зоната на платото (жълто,> 200 клъстера), последвано от рязко намаляване (зелено, 100 клъстера), до около 130, заобиколени от много малко клъстери (синьо, <60 клъстера) ).В поне 100 сини зони или един клъстер доминира над целия океан (ϵ <0,42), или по-голямата част от океана не е класифицирана и се счита за шум (ϵ> 0,99).Жълтата зона има силно променливо, невъзпроизводимо клъстерно разпределение.Когато ϵ намалява, шумът се увеличава.Рязко нарастващата зелена площ се нарича лакът.Това е оптимален регион.Въпреки че се използва вероятността t-SNE, разликата в BC в рамките на провинцията все още може да се използва за определяне на надеждно групиране.Като използвате фигура 6 (A и B), задайте ϵ на 0,39.Колкото по-голям е минималният брой, толкова по-малка е вероятността за достигане на ϵ, което позволява надеждна класификация, и толкова по-голяма е зелената зона със стойност, по-голяма от 135. Увеличаването на тази област показва, че лакътят ще бъде по-труден за намиране или не- съществуващ.
След задаване на параметрите на t-SNE, общият брой намерени клъстери ще се използва като мярка за свързаност (A) и процента на данните, разпределени за клъстера (B).Червената точка показва най-добрата комбинация от покритие и свързаност.Минималният брой е определен според минималния брой, свързан с екологията.
За допълнителни материали към тази статия, моля, вижте http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Това е статия със свободен достъп, разпространявана съгласно условията на Creative Commons Attribution License.Статията позволява неограничено използване, разпространение и възпроизвеждане във всеки носител, при условие че оригиналното произведение е правилно цитирано.
Забележка: Молим ви само да предоставите вашия имейл адрес, така че лицето, което препоръчвате на страницата, да знае, че искате да види имейла и че той не е спам.Няма да улавяме имейл адреси.
Този въпрос се използва, за да се провери дали сте посетител и да се предотврати автоматично изпращане на спам.
Глобалното министерство на морската екология е решено да решава сложни проблеми и използва безконтролно машинно обучение, за да изследва структурите на общността.
Глобалното министерство на морската екология е решено да решава сложни проблеми и използва безконтролно машинно обучение, за да изследва структурите на общността.

Време на публикуване: 12 януари 2021 г

Изясняване на екологичната сложност: обучението без надзор определя глобалната морска екологична провинция