topimg

Objasnenie ekologickej zložitosti: Učenie bez dozoru určuje globálnu morskú ekologickú provinciu

Navrhuje sa metóda učenia bez dozoru na určenie globálnych morských ekologických provincií (ekoprovincií) na základe štruktúry planktónového spoločenstva a údajov o toku živín.Metóda systematickej integrovanej ekologickej provincie (SAGE) dokáže identifikovať ekologické provincie vo vysoko nelineárnych modeloch ekosystémov.Aby sa prispôsobila negaussovskej kovariancii údajov, SAGE používa t náhodné vkladanie susedov (t-SNE) na zníženie rozmerov.Pomocou aplikácie šumu založenej na algoritme priestorového zhlukovania založeného na hustote (DBSCAN) je možné identifikovať viac ako sto ekologických provincií.Pomocou mapy konektivity s ekologickými rozdielmi ako meradlom vzdialenosti je objektívne definovaná robustná agregovaná ekologická provincia (AEP) prostredníctvom vnorených ekologických provincií.Pomocou AEP sa skúmala kontrola rýchlosti dodávky živín v štruktúre komunity.Ekoprovincia a AEP sú jedinečné a môžu pomôcť modelovať interpretáciu.Môžu uľahčiť porovnávanie medzi modelmi a môžu zlepšiť pochopenie a monitorovanie morských ekosystémov.
Provincie sú regióny, v ktorých je komplexná biogeografia na mori alebo pevnine organizovaná do súvislých a zmysluplných oblastí (1).Tieto provincie sú veľmi dôležité pre porovnávanie a porovnávanie lokalít, charakterizovanie pozorovaní, monitorovania a ochrany.Komplexné a nelineárne interakcie, ktoré vytvárajú tieto provincie, robia metódy strojového učenia bez dozoru (ML) veľmi vhodnými na objektívne určenie provincií, pretože kovariancia v údajoch je komplexná a negaussovská.Tu sa navrhuje metóda ML, ktorá systematicky identifikuje jedinečné morské ekologické provincie (ekoprovincie) z Darwinovho globálneho trojrozmerného (3D) fyzického/ekosystémového modelu (2).Pojem „jedinečný“ sa používa na označenie toho, že identifikovaná oblasť sa dostatočne neprekrýva s inými oblasťami.Táto metóda sa nazýva metóda System Integrated Ecological Province (SAGE).Na vykonanie užitočnej klasifikácie musí metóda algoritmu umožňovať (i) globálnu klasifikáciu a (ii) analýzu vo viacerých mierkach, ktoré možno vnoriť/agregovať v priestore a čase (3).V tomto výskume bola najprv navrhnutá metóda SAGE a diskutovalo sa o identifikovaných ekologických provinciách.Ekoprovincie môžu podporiť pochopenie faktorov, ktoré riadia štruktúru komunity, poskytnúť užitočné poznatky pre stratégie monitorovania a pomôcť sledovať zmeny v ekosystéme.
Suchozemské provincie sú zvyčajne klasifikované podľa podobností v klíme (zrážky a teplota), pôde, vegetácii a faune a používajú sa na pomocný manažment, výskum biodiverzity a kontrolu chorôb (1, 4).Námorné provincie sa definujú ťažšie.Väčšina organizmov je mikroskopická, s hranicami tekutín.Longhurst a kol.(5) Poskytol jednu z prvých globálnych klasifikácií ministerstva oceánografie na základe podmienok prostredia.Definícia týchto provincií „Longhurst“ zahŕňa premenné, ako je rýchlosť miešania, stratifikácia a ožiarenosť, ako aj rozsiahle skúsenosti Longhursta ako morského oceánografa, ktorý má ďalšie dôležité podmienky pre morské ekosystémy.Longhurst sa vo veľkej miere využíva napríklad na hodnotenie primárnej produkcie a tokov uhlíka, na podporu rybolovu a plánovanie pozorovacích činností in situ (5-9).Na objektívnejšie definovanie provincií sa použili metódy ako fuzzy logika a regionálne nekontrolované zhlukovanie/štatistika (9-14).Účelom takýchto metód je identifikovať zmysluplné štruktúry, ktoré dokážu identifikovať provincie v dostupných pozorovacích údajoch.Napríklad dynamické morské provincie (12) používajú samoorganizujúce sa mapy na zníženie hluku a hierarchické (stromové) zoskupovanie na určenie morských farebných produktov odvodených z regionálnych satelitov [chlorofyl a (Chl-a), normalizovaná výška fluorescenčnej čiary a sfarbená rozpustená organická hmota] a fyzikálne pole (teplota a slanosť morského povrchu, absolútna dynamická topografia a morský ľad).
Štruktúra komunity planktónu je znepokojujúca, pretože jeho ekológia má veľký vplyv na vyššie hladiny živín, absorpciu uhlíka a klímu.Určiť globálnu ekologickú provinciu založenú na štruktúre planktónového spoločenstva je však stále náročným a nepolapiteľným cieľom.Morské farebné satelity môžu potenciálne poskytnúť pohľad na hrubozrnnú klasifikáciu fytoplanktónu alebo navrhnúť výhody funkčných skupín (15), ale v súčasnosti nie sú schopné poskytnúť podrobné informácie o štruktúre komunity.Nedávne prieskumy [napr. Tara Ocean (16)] poskytujú bezprecedentné merania štruktúry komunity;v súčasnosti existujú v globálnom meradle len zriedkavé pozorovania in-situ (17).Predchádzajúce štúdie do značnej miery určili „biogeochemickú provinciu“ (12, 14, 18) na základe stanovenia biochemických podobností (ako je primárna produkcia, Chl a dostupné svetlo).Tu sa na výstup používa numerický model [Darwin(2)] a ekologická provincia sa určuje podľa štruktúry komunity a toku živín.Numerický model použitý v tejto štúdii má globálne pokrytie a možno ho porovnať s existujúcimi údajmi z terénu (17) a poľami diaľkového snímania (Poznámka S1).Údaje numerického modelu použité v tejto štúdii majú výhodu globálneho pokrytia.Modelový ekosystém pozostáva z 35 druhov fytoplanktónu a 16 druhov zooplanktónu (pozri materiály a metódy).Modelové typy planktónu interagujú nelineárne s negaussovskými kovariančnými štruktúrami, takže jednoduché diagnostické metódy nie sú vhodné na identifikáciu jedinečných a konzistentných vzorov vo vznikajúcich komunitných štruktúrach.Tu uvedená metóda SAGE poskytuje nový spôsob kontroly výstupu zložitých Darwinových modelov.
Výkonné transformačné schopnosti technológie dátovej vedy/ML môžu umožniť ohromne komplexným modelovým riešeniam odhaliť zložité, ale robustné štruktúry v dátovej kovariancii.Robustná metóda je definovaná ako metóda, ktorá dokáže verne reprodukovať výsledky v rámci daného rozsahu chýb.Aj v jednoduchých systémoch môže byť určovanie robustných vzorov a signálov výzvou.Kým sa neurčia dôvody vedúce k pozorovanému vzoru, vznikajúca zložitosť sa môže zdať komplikovaná/ťažko riešiteľná.Kľúčový proces nastavenia zloženia ekosystému má nelineárny charakter.Existencia nelineárnych interakcií môže zmiasť robustnú klasifikáciu, preto je potrebné vyhnúť sa metódam, ktoré vytvárajú silné predpoklady o základnom štatistickom rozložení kovariancie údajov.Vysokorozmerné a nelineárne údaje sú bežné v oceánografii a môžu mať kovariančnú štruktúru s komplexnou, negaussovskou topológiou.Hoci údaje s negaussovskou kovariančnou štruktúrou môžu brániť robustnej klasifikácii, metóda SAGE je nová, pretože je určená na identifikáciu zhlukov s ľubovoľnými topológiami.
Cieľom metódy SAGE je objektívne identifikovať vznikajúce vzorce, ktoré môžu pomôcť ďalšiemu ekologickému porozumeniu.Po pracovnom postupe založenom na klastri, ktorý je podobný ako v (19), sa premenné ekologického toku a toku živín používajú na určenie jediného klastra v údajoch, ktorý sa nazýva ekologická provincia.Metóda SAGE navrhovaná v tejto štúdii (obrázok 1) najskôr znižuje rozmer z 55 na 11 rozmerov súčtom funkčných skupín planktónu definovaných a priori (pozri Materiály a metódy).Pomocou metódy t-random sused embedding (t-SNE) sa veľkosť ďalej zmenšuje premietnutím pravdepodobnosti do 3D priestoru.Zhlukovanie bez dozoru môže identifikovať ekologicky blízke oblasti [priestorové zoskupovanie založené na hustote (DBSCAN) pre aplikácie založené na hluku].t-SNE aj DBSCAN sú použiteľné pre inherentné údaje numerického modelu nelineárneho ekosystému.Potom premietnite výslednú ekologickú provinciu na Zem.Bolo identifikovaných viac ako sto jedinečných ekologických provincií vhodných na regionálny výskum.Na zváženie globálne konzistentného modelu ekosystému sa metóda SAGE používa na agregáciu ekologických provincií do agregovaných ekologických provincií (AEP), aby sa zlepšila efektívnosť ekologických provincií.Úroveň agregácie (nazývaná „zložitosť“) je možné upraviť na požadovanú úroveň detailov.Určite minimálnu zložitosť robustného AEP.Ťažiskom výberu je metóda SAGE a skúmanie prípadov AEP s najmenšou zložitosťou na určenie kontroly nad štruktúrou núdzovej komunity.Vzory sa potom môžu analyzovať, aby sa získali ekologické poznatky.Metóda, ktorá je tu predstavená, sa môže použiť aj na porovnávanie modelov vo väčšom rozsahu, napríklad vyhodnotením umiestnení podobných ekologických provincií nachádzajúcich sa v rôznych modeloch, aby sa zvýraznili rozdiely a podobnosti, aby sa porovnali modely.
(A) Schematický diagram pracovného postupu na určenie ekologickej provincie;použitie súčtu vo funkčnej skupine na redukciu pôvodných 55-rozmerných údajov na 11-rozmerný modelový výstup, vrátane biomasy siedmich funkčných/živinových planktónov a štyroch dávok živín.Zanedbateľná hodnota a odolná oblasť ľadovej pokrývky.Údaje boli štandardizované a štandardizované.Poskytnite 11-rozmerné údaje algoritmu t-SNE na zvýraznenie štatisticky podobných kombinácií funkcií.DBSCAN starostlivo vyberie klaster na nastavenie hodnoty parametra.Nakoniec premietnite údaje späť do projekcie zemepisnej šírky/dĺžky.Upozorňujeme, že tento proces sa opakuje 10-krát, pretože použitím t-SNE môže vzniknúť mierna náhodnosť.(B) vysvetľuje, ako získať AEP zopakovaním pracovného postupu v (A) 10-krát.Pre každú z týchto 10 implementácií bola stanovená medziprovinciálna matica Bray-Curtis (BC) na základe biomasy 51 typov fytoplanktónu.Určte rozdiel BC medzi provinciami, od zložitosti 1 AEP po úplnú zložitosť 115. Benchmark BC stanovuje provincia Longhurst.
Metóda SAGE využíva výstup globálneho 3D fyzického/ekosystémového numerického modelu na definovanie ekologickej provincie [Darwin (2);pozri Materiály a metódy a poznámka S1].Komponenty ekosystému pozostávajú z 35 druhov fytoplanktónu a 16 druhov zooplanktónu so siedmimi preddefinovanými funkčnými skupinami: prokaryoty a eukaryoty prispôsobené na prostredie s nízkym obsahom živín, kokcídie s povlakom uhličitanu vápenatého a ťažká fixácia dusíka Živiny dusíka (zvyčajne chýbajú dôležité živiny), s kremičitým pokrytím, môžu uskutočňovať fotosyntézu planktónu a pasúce sa bičíkovce so zmiešanými živinami a pastieri zooplanktónu.Veľkosť rozpätia je 0,6 až 2500 μm ekvivalentný sférický priemer.Modelové rozloženie veľkosti a funkčného zoskupenia fytoplanktónu zachytáva celkové charakteristiky pozorované pri satelitných a in-situ pozorovaniach (pozri obrázky S1 až S3).Podobnosť medzi numerickým modelom a pozorovaným oceánom naznačuje, že provincie definované modelom môžu byť použiteľné pre oceán in-situ.Upozorňujeme, že tento model zachytáva iba určitú rozmanitosť fytoplanktónu a iba určité rozsahy fyzikálneho a chemického pôsobenia v oceáne in situ.Metóda SAGE môže ľuďom umožniť lepšie pochopiť vysoko regionálny kontrolný mechanizmus modelovej štruktúry komunity.
Zahrnutím iba súčtu povrchovej biomasy (s priemerným časom 20 rokov) do každej funkčnej skupiny planktónu je možné znížiť rozmernosť údajov.Po skorších štúdiách, ktoré ukázali ich kľúčovú úlohu pri nastavovaní štruktúry spoločenstva, zahŕňali aj termíny povrchových zdrojov pre toky živín (dodávka dusíka, železa, fosforečnanu a kyseliny kremičitej) [napr. (20, 21)].Sumácia funkčných skupín znižuje problém z 55 (51 planktónu a 4 toky živín) na 11 rozmerov.V tejto počiatočnej štúdii sa v dôsledku výpočtových obmedzení uložených algoritmom nezohľadnila hĺbka a časová variabilita.
Metóda SAGE je schopná identifikovať dôležité vzťahy medzi nelineárnymi procesmi a kľúčovými vlastnosťami interakcií medzi biomasou funkčnej skupiny a tokom živín.Pomocou 11-rozmerných údajov založených na metódach euklidovského dištančného vzdelávania (ako sú K-means) nemožno získať spoľahlivé a reprodukovateľné provincie (19, 22).Je to preto, že v základnom rozložení kovariancie kľúčových prvkov, ktoré definujú ekologickú provinciu, sa nenachádza žiadny Gaussov tvar.K-priemery Voronoiových buniek (priame čiary) nemôžu zachovať negaussovské základné rozdelenie.
Biomasa siedmich funkčných skupín planktónu a štyroch tokov živín tvorí 11-rozmerný vektor x.Preto x je vektorové pole na modelovej mriežke, kde každý prvok xi predstavuje 11-rozmerný vektor definovaný na modelovej horizontálnej mriežke.Každý index i jednoznačne identifikuje bod mriežky na gule, kde (lon, lat) = (ϕi, θi).Ak je biomasa modelovej mriežkovej jednotky nižšia ako 1,2 × 10-3 mg Chl/m3 alebo miera pokrytia ľadom presahuje 70 %, použije sa protokol údajov o biomase a zahodí sa.Údaje sú normalizované a štandardizované, takže všetky údaje sú v rozsahu [0 až 1], priemer je odstránený a škálovaný na jednotkový rozptyl.Deje sa tak preto, aby znaky (biomasa a tok živín) neboli obmedzené kontrastom v rozsahu možných hodnôt.Zoskupovanie by malo zachytávať vzťah zmien z kľúčovej pravdepodobnostnej vzdialenosti medzi prvkami, a nie z geografickej vzdialenosti.Vyčíslením týchto vzdialeností sa objavia dôležité vlastnosti, zatiaľ čo zbytočné detaily sa vyradia.Z ekologického hľadiska je to potrebné, pretože niektoré typy fytoplanktónu s malou biomasou môžu mať väčšie biogeochemické účinky, ako je fixácia dusíka diazotrofnými baktériami.Pri štandardizácii a normalizácii údajov budú tieto typy kovariátov zvýraznené.
Zdôraznením blízkosti prvkov vo vysokorozmernom priestore v nízkorozmernom zobrazení sa algoritmus t-SNE používa na objasnenie existujúcich podobných oblastí.Predchádzajúca práca zameraná na budovanie hlbokých neurónových sietí pre aplikácie diaľkového prieskumu využívala t-SNE, ktorý dokázal svoju zručnosť pri oddeľovaní kľúčových funkcií (23).Toto je nevyhnutný krok na identifikáciu robustného klastrovania v dátach vlastností a zároveň sa vyhýbajte nekonvergentným riešeniam (poznámka S2).Pomocou gaussovských jadier zachováva t-SNE štatistické vlastnosti údajov mapovaním každého vysokorozmerného objektu do bodu v 3D fázovom priestore, čím zaisťuje, že pravdepodobnosť podobných objektov v hornom a nízkom smere je vysoká vo vysokom rozmerný priestor (24).Vzhľadom na množinu N vysokorozmerných objektov x1,…,xN algoritmus t-SNE znižuje minimalizáciou Kullback-Leiblerovej (KL) divergencie (25).KL divergencia je mierou toho, ako sa líši rozdelenie pravdepodobnosti od druhého referenčného rozdelenia pravdepodobnosti, a môže efektívne vyhodnotiť možnosť korelácie medzi nízkorozmernými reprezentáciami vysokorozmerných znakov.Ak xi je i-tý objekt v N-rozmernom priestore, xj je j-tý objekt v N-rozmernom priestore, yi je i-tý objekt v nízkorozmernom priestore a yj je j-tý objekt v nízkorozmernom priestore. -rozmerný priestor, potom t -SNE definuje pravdepodobnosť podobnosti ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), a pre redukciu rozmerov nastavte q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Obrázok 2A znázorňuje účinok zníženia vektorov toku biomasy a živín 11-rozmernej kombinácie na 3D.Motiváciu aplikácie t-SNE možno porovnať s motiváciou analýzy hlavných komponentov (PCA), ktorá využíva atribút rozptylu na zdôraznenie oblasti/atribútu údajov, čím sa znižuje dimenzionalita.Zistilo sa, že metóda t-SNE je lepšia ako PCA v poskytovaní spoľahlivých a reprodukovateľných výsledkov pre eko-ministerstvo (pozri poznámku S2).Môže to byť spôsobené tým, že predpoklad ortogonality PCA nie je vhodný na identifikáciu kritických interakcií medzi vysoko nelineárnymi interaktívnymi prvkami, pretože PCA sa zameriava na lineárne kovariančné štruktúry (26).Pomocou údajov diaľkového prieskumu Zeme Lunga a spol.(27) ilustruje, ako použiť metódu SNE na zvýraznenie zložitých a nelineárnych spektrálnych prvkov, ktoré sa odchyľujú od Gaussovho rozdelenia.
(A) Modelovaná rýchlosť dodávky živín, biomasa funkčnej skupiny fytoplanktónu a zooplanktónu nakreslená algoritmom t-SNE a zafarbená podľa provincií pomocou DBSCAN.Každý bod predstavuje bod vo vysokorozmernom priestore, ako je znázornené na obrázku 6B, väčšina bodov je zachytená.Hriadele sa vzťahujú na „t-SNE“ veľkosti 1, 2 a 3. (B) Geografická projekcia provincie nájdená pomocou DBSCAN na mriežke zemepisnej šírky a dĺžky pôvodu.Farba by sa mala považovať za akúkoľvek farbu, ale mala by zodpovedať (A).
Body v grafe rozptylu t-SNE na obrázku 2A súvisia so zemepisnou šírkou a dĺžkou.Ak sú dva body na obrázku 2A blízko seba, je to preto, že ich toky biomasy a živín sú podobné, nie kvôli geografickej blízkosti.Farby na obrázku 2A sú zhluky objavené pomocou metódy DBSCAN (28).Pri hľadaní hustých pozorovaní používa algoritmus DBSCAN vzdialenosť v 3D zobrazení medzi bodmi (ϵ = 0,39; informácie o tejto voľbe nájdete v časti Materiály a metódy) a počet podobných bodov je potrebný na definovanie klastra (tu 100 bodov, pozri vyššie).Metóda DBSCAN nevytvára žiadne predpoklady o tvare alebo počte klastrov v údajoch, ako je uvedené nižšie:
3) Pre všetky body identifikované ako v rámci vzdialenosti opakujte krok 2 iteratívne, aby ste určili hranicu klastra.Ak je počet bodov väčší ako nastavená minimálna hodnota, označuje sa ako zhluk.
Údaje, ktoré nespĺňajú minimálny člen klastra a metriku vzdialenosti ϵ, sa považujú za „šum“ a nie je im priradená farba.DBSCAN je rýchly a škálovateľný algoritmus s výkonom O(n2) v najhoršom prípade.Pre súčasnú analýzu to v skutočnosti nie je náhodné.Minimálny počet bodov je určený odborným hodnotením.Po úprave vzdialenosti potom nie je výsledok dostatočne stabilný v rozsahu ≈±10.Táto vzdialenosť sa nastavuje pomocou konektivity (obrázok 6A) a percenta pokrytia oceánom (obrázok 6B).Konektivita je definovaná ako zložený počet klastrov a je citlivá na parameter ϵ.Nižšia konektivita naznačuje nedostatočné prispôsobenie, umelé zoskupovanie regiónov.Vysoká konektivita svedčí o nadmernej montáži.Je možné použiť vyššie minimum, ale ak minimum presiahne ca, nie je možné dosiahnuť spoľahlivé riešenie.135 (Podrobnejšie pozri Materiály a metódy).
115 zhlukov identifikovaných na obrázku 2A je premietnutých späť na zem na obrázku 2B.Každá farba zodpovedá koherentnej kombinácii biogeochemických a ekologických faktorov identifikovaných pomocou DBSCAN.Keď sú zhluky určené, spojenie každého bodu na obrázku 2A so špecifickou zemepisnou šírkou a dĺžkou sa použije na premietnutie zhlukov späť do geografickej oblasti.Obrázok 2B to znázorňuje s rovnakými farbami zhlukov ako obrázok 2A.Podobné farby by sa nemali interpretovať ako ekologická podobnosť, pretože sú priradené podľa poradia, v ktorom sú zhluky objavené algoritmom.
Oblasť na obrázku 2B môže byť kvalitatívne podobná etablovanej oblasti vo fyzickej a/alebo biogeochémii oceánu.Napríklad zhluky v južnom oceáne sú zónovo symetrické, objavujú sa oligotrofné víry a ostrý prechod naznačuje vplyv pasátov.Napríklad v rovníkovej oblasti Tichého oceánu sú viditeľné rôzne oblasti súvisiace s nárastom.
Aby sme porozumeli ekologickému prostrediu Eko-provincie, na vyhodnotenie ekológie v klastri sa použila variácia Bray-Curtisovho (BC) rozdielového indexu (29).Indikátor BC je štatistický údaj používaný na kvantifikáciu rozdielu v štruktúre komunity medzi dvoma rôznymi lokalitami.Meranie BC je použiteľné pre biomasu 51 druhov fytoplanktónu a zooplanktónu BCninj = 1-2CninjSni + Snj
BCninj označuje podobnosť medzi kombináciou ni a kombináciou nj, kde Cninj je minimálna hodnota jedného typu biomasy, ktorá existuje v oboch kombináciách ni a nj, a Sni predstavuje súčet všetkých biomás, ktoré existujú v oboch kombináciách ni a Snj.Rozdiel BC je podobný meraniu vzdialenosti, ale funguje v neeuklidovskom priestore, ktorý bude pravdepodobne vhodnejší pre ekologické údaje a ich interpretáciu.
Pre každý zhluk identifikovaný na obrázku 2B možno posúdiť podobnosť intraprovinciálneho a interprovinčného BC.Rozdiel BC v rámci provincie sa vzťahuje na rozdiel medzi priemernou hodnotou provincie a každým bodom v provincii.Rozdiel medzi provinciami BC sa týka podobnosti medzi jednou provinciou a inými provinciami.Obrázok 3A ukazuje symetrickú maticu BC (0, čierna: úplne zodpovedajúca; 1, biela: úplne nepodobná).Každý riadok v grafe zobrazuje vzor v údajoch.Obrázok 3B ukazuje geografický význam výsledkov BC na obrázku 3A pre každú provinciu.Pre provinciu v oblasti s nízkym obsahom živín a živín, obrázok 3B ukazuje, že symetria veľkých oblastí okolo rovníka a Indického oceánu je v zásade podobná, ale vyššie zemepisné šírky a oblasti stúpania sú výrazne odlišné.
(A) Stupeň rozdielu BC vyhodnotený pre každú provinciu na základe globálneho priemeru globálneho povrchu za 20 rokov 51 planktónu.Všimnite si očakávanú symetriu hodnôt.(B) Priestorová projekcia stĺpca (alebo riadku).Pre provinciu v dystrofickom kruhu sa vyhodnotila globálna distribúcia miery podobnosti BC a vyhodnotil sa globálny 20-ročný priemer.Čierna (BC = 0) znamená rovnakú oblasť a biela (BC = 1) znamená žiadnu podobnosť.
Obrázok 4A znázorňuje rozdiel v BC v rámci každej provincie na obrázku 2B.Určené použitím priemernej kombinácie priemernej plochy v zhluku a určením odlišnosti medzi BC a priemerom každého bodu mriežky v provincii ukazuje, že metóda SAGE dokáže dobre oddeliť 51 druhov na základe ekologickej podobnosti Typ údaje modelu.Celková priemerná odlišnosť klastra BC všetkých 51 typov je 0,102±0,0049.
(A, B a D) Rozdiel BC v rámci provincie sa hodnotí ako priemerný rozdiel BC medzi každou komunitou bodov mriežky a priemernou provinciou a zložitosť sa nezníži.(2) Globálny priemerný vnútroprovinčný rozdiel BC je 0,227±0,117.Toto je meradlo klasifikácie založenej na ekologickej motivácii, ktorú navrhuje táto práca [zelená čiara v (C)].(C) Priemerný intraprovinciálny rozdiel BC: Čierna čiara predstavuje intraprovinciálny rozdiel BC so zvyšujúcou sa zložitosťou.2σ pochádza z 10 opakovaní procesu identifikácie ekoprovincie.Pre celkovú zložitosť provincií objavených DBSCAN, (A) ukazuje, že BC odlišnosť v provincii je 0,099 a klasifikácia zložitosti navrhovaná (C) je 12, čo vedie k BC odlišnosti 0,200 v provincii.ako ukazuje obrázok.(D).
Na obrázku 4B je použitá biomasa 51 typov planktónu na vyjadrenie ekvivalentného rozdielu BC v provincii Longhurst.Celkový priemer každej provincie je 0,227 a štandardná odchýlka bodov mriežky vzhľadom na rozdiel v provincii BC je 0,046.Toto je väčšie ako zoskupenie identifikované na obrázku 1B.Namiesto toho, použitím súčtu siedmich funkčných skupín, sa priemerná vnútrosezónna odlišnosť BC v Longhurste zvýšila na 0,232.
Globálna mapa ekoprovincie poskytuje zložité podrobnosti o jedinečných ekologických interakciách a zlepšeniach, ktoré sa dosiahli pri využívaní celej štruktúry ekosystému provincie Longhurst.Očakáva sa, že ministerstvo ekológie poskytne pohľad na proces riadenia ekosystému numerického modelu a tento pohľad pomôže pri skúmaní terénnych prác.Na účely tohto výskumu nie je možné úplne zobraziť viac ako sto provincií.Ďalšia časť predstavuje metódu SAGE, ktorá sumarizuje provincie.
Jedným z cieľov provincie je podporiť pochopenie polohy a riadenia provincie.Na určenie núdzových situácií metóda na obrázku 1B ilustruje hniezdenie ekologicky podobných provincií.Ekoprovincie sú zoskupené na základe ekologickej podobnosti a takéto zoskupenie provincií sa nazýva AEP.Nastavte nastaviteľnú „zložitosť“ na základe celkového počtu provincií, ktoré sa majú zvážiť.Termín „zložitosť“ sa používa, pretože umožňuje upraviť úroveň núdzových atribútov.Na definovanie zmysluplných agregácií sa ako referenčná hodnota používa priemerný vnútroprovinčný rozdiel BC 0,227 od Longhurstu.Pod touto referenčnou hodnotou sa spojené provincie už nepovažujú za užitočné.
Ako je znázornené na obrázku 3B, globálne ekologické provincie sú koherentné.Pomocou rozdielov medzi provinciami BC je možné vidieť, že niektoré konfigurácie sú veľmi „bežné“.Inšpirované genetikou a metódami teórie grafov sa „spojené grafy“ používajú na triedenie viac ako 100 provincií na základe provincií, ktoré sú im najviac podobné.Metrika „konektivity“ sa tu určuje pomocou rozdielov medzi provinciami BC (30).Počet provincií s väčším priestorom na klasifikáciu > 100 provincií tu možno označiť ako zložitosť.AEP je produkt, ktorý kategorizuje viac ako 100 provincií ako najdominantnejšie/najbližšie ekologické provincie.Každá ekologická provincia je priradená k dominantnej/vysoko prepojenej ekologickej provincii, ktorá je im najviac podobná.Táto agregácia určená rozdielom BC umožňuje vnorený prístup ku globálnej ekológii.
Zvolená zložitosť môže byť akákoľvek hodnota od 1 do úplnej zložitosti z obr.2A.Pri nižšej zložitosti môže AEP degenerovať v dôsledku kroku zníženia pravdepodobnosti rozmerov (t-SNE).Degenerácia znamená, že ekologické provincie môžu byť medzi iteráciami priradené rôznym AEP, čím sa mení pokrytá geografická oblasť.Obrázok 4C ilustruje rozšírenie rozdielov medzi BC v rámci provincií v AEP so zvyšujúcou sa zložitosťou v rámci 10 implementácií (ilustrácia na obrázku 1B).Na obrázku 4C je 2σ (modrá oblasť) mierou degradácie v 10 implementáciách a zelená čiara predstavuje benchmark Longhurst.Fakty ukázali, že zložitosť 12 môže udržať rozdiel BC v provincii pod benchmarkom Longhurst vo všetkých implementáciách a zachovať relatívne malú degradáciu 2σ.Stručne povedané, minimálna odporúčaná zložitosť je 12 AEP a priemerný rozdiel medzi BC v rámci provincie vyhodnotený pomocou 51 typov planktónu je 0,198 ± 0,013, ako je znázornené na obrázku 4D.Pri použití súčtu siedmich funkčných skupín planktónu je priemerný rozdiel BC v rámci provincie 2σ namiesto 0,198±0,004.Porovnanie medzi rozdielmi BC vypočítanými s celkovou biomasou siedmich funkčných skupín alebo biomasou všetkých 51 typov planktónu ukazuje, že hoci metóda SAGE je použiteľná na 51-rozmernú situáciu, platí pre celkovú biomasu siedmich funkčných skupín. Na tréning.
V závislosti od účelu akéhokoľvek výskumu možno zvážiť rôzne úrovne zložitosti.Regionálne štúdie môžu vyžadovať úplnú komplexnosť (tj všetkých 115 provincií).Ako príklad a kvôli prehľadnosti zvážte minimálnu odporúčanú zložitosť 12.
Ako príklad užitočnosti metódy SAGE sa tu používa 12 AEP s minimálnou zložitosťou 12 na preskúmanie kontroly štruktúry núdzovej komunity.Obrázok 5 ilustruje ekologické poznatky zoskupené podľa AEP (od A do L): V Redfieldovej stechiometrii geografický rozsah (obrázok 5C), zloženie biomasy funkčnej skupiny (obrázok 5A) a prísun živín (obrázok 5B) vykonáva N Zoomed.Je znázornený pomer (N:Si:P:Fe, 1:1:16:16x103).Pre druhý panel sa P vynásobilo 16 a Fe sa vynásobilo 16 × 103, takže stĺpcový graf je ekvivalentný nutričným požiadavkám fytoplanktónu.
Provincie sú klasifikované do 12 AEP A až L. (A) Biomasa (mgC/m3) ekosystémov v 12 provinciách.(B) Rýchlosť toku živín rozpusteného anorganického dusíka (N), železa (Fe), fosforečnanu (P) a kyseliny kremičitej (Si) (mmol/m3 za rok).Fe a P sa vynásobia 16 a 16x103, v tomto poradí, takže prúžky sú štandardizované podľa požiadaviek stechiometrie fytoplanktónu.(C) Všimnite si rozdiel medzi polárnymi oblasťami, subtropickými cyklónmi a hlavnými sezónnymi / stúpajúcimi oblasťami.Monitorovacie stanice sú označené nasledovne: 1, SEDADLÁ;2, ALOHA;3, stanica P;a 4, BATS.
Identifikovaný AEP je jedinečný.Okolo rovníka v Atlantickom a Tichom oceáne existuje určitá symetria a podobná, ale rozšírená oblasť existuje v Indickom oceáne.Niektoré AEP objímajú západnú stranu kontinentu spojenú s výstupom.Cirkumpolárny prúd južného pólu sa považuje za veľký zonálny prvok.Subtropický cyklón je komplexná séria oligotrofných AEP.V týchto provinciách je zrejmý známy vzor rozdielov v biomase medzi oligotrofnými vírmi s dominanciou planktónu a polárnymi oblasťami bohatými na rozsievky.
AEP s veľmi podobnou celkovou biomasou fytoplanktónu môžu mať veľmi odlišné štruktúry spoločenstva a pokryť rôzne geografické oblasti, ako sú D, H a K, ktoré majú podobnú celkovú biomasu fytoplanktónu.AEP H existuje hlavne v rovníkom Indickom oceáne a existuje viac diazotrofných baktérií.AEP D sa nachádza v niekoľkých povodiach, ale je obzvlášť prominentný v Pacifiku okolo oblastí s vysokým výnosom okolo rovníkového vzostupu.Tvar tejto tichomorskej provincie pripomína vlak s planetárnymi vlnami.V AEP D je málo diazobaktérií a viac čapíkov.V porovnaní s ostatnými dvoma provinciami sa AEP K nachádza iba vo vysočinách Severného ľadového oceánu a je tam viac rozsievok a menej planktónov.Stojí za zmienku, že množstvo planktónu v týchto troch regiónoch je tiež veľmi odlišné.Medzi nimi je početnosť planktónu AEP K relatívne nízka, zatiaľ čo početnosť AEP D a H je relatívne vysoká.Preto, napriek ich biomase (a teda podobnej Chl-a), sú tieto provincie celkom odlišné: testovanie provincií založené na Chl nemusí zachytiť tieto rozdiely.
Je tiež zrejmé, že niektoré AEP s veľmi odlišnou biomasou môžu byť podobné z hľadiska štruktúry spoločenstva fytoplanktónu.Napríklad je to viditeľné v AEP D a E. Sú blízko seba a v Tichom oceáne je AEP E blízko vysoko produktívneho AEPJ.Podobne neexistuje jasné prepojenie medzi biomasou fytoplanktónu a množstvom zooplanktónu.
AEP možno chápať z hľadiska živín, ktoré sa im poskytujú (obrázok 5B).Rozsievky existujú len tam, kde je dostatok kyseliny kremičitej.Všeobecne platí, že čím vyššia je zásoba kyseliny kremičitej, tým vyššia je biomasa rozsievok.Rozsievky možno vidieť v AEP A, J, K a L. Pomer biomasy rozsievky v porovnaní s iným fytoplanktónom je určený poskytnutými N, P a Fe vo vzťahu k dopytu po rozsievke.Napríklad v AEP L dominujú rozsievky.V porovnaní s inými živinami má Si najvyšší prísun.Na rozdiel od toho, napriek vyššej produktivite má AEP J menej rozsievok a menej zásob kremíka (všetko a v porovnaní s ostatnými živinami).
Baktérie diazónium majú schopnosť fixovať dusík, ale rastú pomaly (31).Koexistujú s iným fytoplanktónom, kde sú železo a fosfor nadmerné v porovnaní s dopytom po nediazóniových živinách (20, 21).Stojí za zmienku, že diazotrofná biomasa je relatívne vysoká a zásoba Fe a P je relatívne veľká v porovnaní so zásobou N. Týmto spôsobom, hoci celková biomasa v AEP J je vyššia, diazóniová biomasa v AEP H je väčší ako v J. Upozorňujeme, že AEP J a H sú geograficky veľmi odlišné a H sa nachádza v rovníkovej časti Indického oceánu.
Ak sa jedinečná štruktúra ekosystému nerozdelí na provincie, poznatky získané z 12 modelov s najnižšou zložitosťou AEP nebudú také jasné.AEP generovaný SAGE uľahčuje koherentné a súčasné porovnanie zložitých a vysokorozmerných informácií z modelov ekosystémov.AEP účinne zdôrazňuje, prečo Chl nie je dobrou a alternatívnou metódou na určenie štruktúry komunity alebo množstva zooplanktónu pri vyšších úrovniach živín.Podrobná analýza prebiehajúcich výskumných tém presahuje rámec tohto článku.Metóda SAGE poskytuje spôsob na preskúmanie iných mechanizmov v modeli, ktorý sa dá ľahšie zvládnuť ako prezeranie z bodu do bodu.
Metóda SAGE je navrhnutá tak, aby pomohla objasniť extrémne zložité ekologické údaje z globálnych fyzikálnych/biogeochemických/ekosystémových numerických modelov.Ekologická provincia je určená celkovou biomasou funkčných skupín skríženého planktónu, aplikáciou algoritmu redukcie pravdepodobnosti dimenzionality t-SNE a zhlukovaním pomocou nekontrolovanej ML metódy DBSCAN.Teória rozdielov/grafov medzi provinciami BC pre metódu hniezdenia sa používa na odvodenie robustného AEP, ktorý možno použiť na globálnu interpretáciu.Z hľadiska výstavby sú Ekoprovincia a AEP jedinečné.Hniezdenie AEP je možné upraviť medzi úplnou zložitosťou pôvodnej ekologickej provincie a odporúčaným minimálnym prahom 12 AEP.Vnorenie a určenie minimálnej zložitosti AEP sa považujú za kľúčové kroky, pretože pravdepodobnosť t-SNE degeneruje AEP s komplexnosťou <12.Metóda SAGE je globálna a jej komplexnosť sa pohybuje od > 100 AEP do 12. Pre jednoduchosť sa v súčasnosti zameriavame na zložitosť 12 globálnych AEP.Budúci výskum, najmä regionálne štúdie, môže považovať za užitočnú menšiu priestorovú podskupinu globálnych ekoprovincií a možno ich agregovať na menšom území, aby sa využili rovnaké ekologické poznatky, o ktorých sa tu diskutuje.Poskytuje návrhy, ako môžu byť tieto ekologické provincie a poznatky z nich získané na ďalšie ekologické porozumenie, uľahčenie porovnávania modelov a potenciálne zlepšenie monitorovania morských ekosystémov.
Ekologická provincia a AEP identifikované metódou SAGE sú založené na údajoch v numerickom modeli.Podľa definície je numerický model zjednodušenou štruktúrou, ktorá sa snaží zachytiť podstatu cieľového systému a rôzne modely budú mať rôzne rozloženie planktónu.Numerický model použitý v tejto štúdii nedokáže plne zachytiť niektoré pozorované vzorce (napríklad v odhadoch Chl pre rovníkovú oblasť a Južný oceán).Zachytená je len malá časť diverzity v skutočnom oceáne a mezo a sub-mezoškály sa nedajú vyriešiť, čo môže ovplyvniť tok živín a štruktúru komunity v menšom meradle.Napriek týmto nedostatkom sa ukazuje, že AEP je veľmi užitočný pri porozumení zložitých modelov.Vyhodnotením, kde sa nachádzajú podobné ekologické provincie, poskytuje AEP potenciálny nástroj na porovnávanie numerických modelov.Súčasný numerický model zachytáva celkový vzorec koncentrácie fytoplanktónu Chl-a na diaľku a distribúciu veľkosti planktónu a funkčnej skupiny (poznámka S1 a obrázok S1) (2, 32).
Ako ukazuje vrstevnica 0,1 mgChl-a/m-3, AEP je rozdelená na oligotrofnú oblasť a mezotrofnú oblasť (obrázok S1B): AEP B, C, D, E, F a G sú oligotrofné oblasti a zvyšné oblasti sú nachádza Vyššia Chl-a.AEP ukazuje určitú korešpondenciu s provinciou Longhurst (obrázok S3A), napríklad s južným oceánom a rovníkovým Pacifikom.V niektorých regiónoch AEP pokrýva viacero oblastí Longhurst a naopak.Keďže zámer vymedziť provincie v tejto oblasti a Longhurst je odlišný, očakáva sa, že budú existovať rozdiely.Viaceré AEP v provincii Longhurst naznačujú, že určité oblasti s podobnou biogeochémiou môžu mať veľmi odlišné štruktúry ekosystémov.AEP vykazuje určitú korešpondenciu s fyzikálnymi stavmi, ako sa ukázalo pomocou učenia bez dozoru (19), ako sú stavy s vysokým vzostupom (napríklad južný oceán a rovníkový Pacifik; obrázok S3, C a D).Tieto korešpondencie naznačujú, že štruktúra komunity planktónu je silne ovplyvnená dynamikou oceánov.V oblastiach, ako je severný Atlantik, AEP prechádza fyzickými provinciami.Mechanizmus, ktorý spôsobuje tieto rozdiely, môže zahŕňať procesy, ako je transport prachu, ktorý môže viesť k úplne odlišným výživovým programom aj za podobných fyzikálnych podmienok.
Ministerstvo ekológie a AEP upozornili, že samotné používanie Chl nemôže identifikovať ekologické zložky, ako si komunita morskej ekológie už uvedomila.Je to vidieť v AEP s podobnou biomasou, ale výrazne odlišným ekologickým zložením (ako napríklad D a E).Naproti tomu AEP ako D a K majú veľmi odlišnú biomasu, ale podobné ekologické zloženie.AEP zdôrazňuje, že vzťah medzi biomasou, ekologickým zložením a množstvom zooplanktónu je zložitý.Napríklad, hoci AEP J vyniká z hľadiska biomasy fytoplanktónu a planktónu, AEP A a L majú podobnú biomasu planktónu, ale A má vyšší výskyt planktónu.AEP zdôrazňuje, že biomasu fytoplanktónu (alebo Chl) nemožno použiť na predpovedanie biomasy zooplanktónu.Zooplanktón je základom potravinového reťazca rybolovu a presnejšie odhady môžu viesť k lepšiemu riadeniu zdrojov.Budúce morské farebné satelity [napríklad PACE (planktón, aerosól, oblak a morský ekosystém)] môžu byť lepšie umiestnené, aby pomohli odhadnúť štruktúru komunity fytoplanktónu.Použitie predikcie AEP môže potenciálne uľahčiť odhad zooplanktónu z vesmíru.Metódy ako SAGE v spojení s novými technológiami a čoraz viac terénnych údajov dostupných pre prieskumy pozemnej pravdy (ako je Tara a následný výskum) môžu spoločne urobiť krok smerom k satelitnému monitorovaniu zdravia ekosystémov.
Metóda SAGE poskytuje pohodlný spôsob hodnotenia niektorých mechanizmov, ktoré kontrolujú charakteristiky provincie, ako je biomasa/Chl, čistá primárna produkcia a štruktúra komunity.Napríklad relatívne množstvo rozsievok je dané nerovnováhou v dodávke Si, N, P a Fe v porovnaní so stechiometrickými požiadavkami fytoplanktónu.Pri vyváženej miere ponuky v spoločenstve dominujú rozsievky (L).Keď je miera ponuky nevyvážená (to znamená, že zásoba kremíka je nižšia ako potreba živín rozsievok), rozsievky tvoria len malú časť podielu (K).Keď prísun Fe a P prevýši zásobu N (napríklad E a H), diazotrofné baktérie budú intenzívne rásť.Prostredníctvom kontextu, ktorý poskytuje AEP, sa prieskum kontrolných mechanizmov stane užitočnejším.
Ekoprovincia a AEP sú oblasti s podobnými komunitnými štruktúrami.Časový rad z určitého miesta v rámci ekologickej provincie alebo AEP možno považovať za referenčný bod a môže predstavovať oblasť pokrytú ekologickou provinciou alebo AEP.Takéto časové rady poskytujú dlhodobé monitorovacie stanice na mieste.Dlhodobé súbory údajov in situ budú naďalej zohrávať nevyčísliteľnú úlohu.Z pohľadu monitorovania štruktúry komunity možno metódu SAGE vnímať ako spôsob, ako pomôcť určiť najužitočnejšie umiestnenie nových lokalít.Napríklad časový rad z dlhodobého hodnotenia oligotrofného biotopu (ALOHA) je v AEP B oligotrofnej oblasti (obrázok 5C, označenie 2).Pretože ALOHA je blízko hranice iného AEP, časový rad nemusí byť reprezentatívny pre celú oblasť, ako sa predtým navrhovalo (33).V tom istom AEP B sa časový rad SEATS (časový rad pre juhovýchodnú Áziu) nachádza v juhozápadnom Taiwane (34), ďalej od hraníc iných AEP (obrázok 5C, štítok 1) a možno ho použiť ako lepšie miesto na monitorovanie. AEPB.Časový rad BATS (Bermuda Atlantic Time Series Study) (obrázok 5C, označenie 4) v AEPC je veľmi blízko k hranici medzi AEP C a F, čo naznačuje, že monitorovanie AEP C pomocou časových radov BATS môže byť priamo problematické.Stanica P v AEP J (obrázok 5C, označenie 3) je ďaleko od hranice AEP, takže je reprezentatívnejšia.Eco-Province a AEP môžu pomôcť vytvoriť monitorovací rámec vhodný na hodnotenie globálnych zmien, pretože povolenie provincií posúdiť, kde odber vzoriek na mieste môže poskytnúť kľúčové poznatky.Metóda SAGE sa môže ďalej rozvíjať, aby sa mohla použiť na klimatické údaje na posúdenie variability šetriacej čas.
Úspech metódy SAGE sa dosahuje starostlivým uplatňovaním metód vedy o údajoch/ML a znalostí špecifických pre danú doménu​​.Konkrétne sa t-SNE používa na zníženie dimenzionality, ktorá zachováva kovariančnú štruktúru vysokorozmerných údajov a uľahčuje vizualizáciu kovariančnej topológie.Údaje sú usporiadané vo forme pruhov a kovariancií (obrázok 2A), čo naznačuje, že čisto založené merania na vzdialenosti (ako sú K-priemery) nie sú vhodné, pretože zvyčajne používajú gaussovské (kruhové) základné rozdelenie (diskutované v poznámke S2). .Metóda DBSCAN je vhodná pre akúkoľvek kovariančnú topológiu.Pokiaľ venujete pozornosť nastaveniu parametrov, je možné zabezpečiť spoľahlivú identifikáciu.Výpočtové náklady algoritmu t-SNE sú vysoké, čo obmedzuje jeho súčasné použitie na väčšie množstvo údajov, čo znamená, že je ťažké ho aplikovať na hlboké alebo časovo premenlivé polia.Prebiehajú práce na škálovateľnosti t-SNE.Keďže vzdialenosť KL sa dá ľahko paralelizovať, algoritmus t-SNE má dobrý potenciál na rozšírenie v budúcnosti (35).Zatiaľ ďalšie sľubné metódy znižovania rozmerov, ktoré môžu lepšie znížiť veľkosť, zahŕňajú techniky jednotnej aproximácie a projekcie (UMAP), ale je potrebné vyhodnotenie v kontexte údajov o oceánoch.Zmyslom lepšej škálovateľnosti je napríklad klasifikácia globálnej klímy alebo modelov s rôznou zložitosťou na zmiešanej vrstve.Oblasti, ktoré sa nepodarilo klasifikovať pomocou SAGE v žiadnej provincii, možno považovať za zostávajúce čierne bodky na obrázku 2A.Geograficky sa tieto oblasti nachádzajú hlavne vo vysoko sezónnych oblastiach, čo naznačuje, že zachytenie ekologických provincií, ktoré sa časom menia, poskytne lepšie pokrytie.
Na zostavenie metódy SAGE boli použité nápady z komplexných systémov/veda o údajoch s využitím schopnosti určiť zhluky funkčných skupín (možnosť byť veľmi blízko v 11-rozmernom priestore) a určiť provincie.Tieto provincie zobrazujú špecifické objemy v našom 3D fázovom priestore t-SNE.Podobne môže byť časť Poincarého použitá na vyhodnotenie „objemu“ stavového priestoru, ktorý zaberá trajektória, na určenie „normálneho“ alebo „chaotického“ správania (36).Pre výstup statického 11-rozmerného modelu možno podobne vysvetliť objem zaberaný po konverzii údajov do 3D fázového priestoru.Vzťah medzi geografickou oblasťou a oblasťou v 3D fázovom priestore nie je jednoduchý, ale dá sa vysvetliť z hľadiska ekologickej podobnosti.Z tohto dôvodu sa uprednostňuje konvenčnejšia miera odlišnosti BC.
Budúca práca znovu použije metódu SAGE na sezónne sa meniace údaje na posúdenie priestorovej variability identifikovaných provincií a AEP.Budúcim cieľom je použiť túto metódu na pomoc pri určovaní, ktoré provincie možno určiť pomocou satelitných meraní (ako je Chl-a, odrazivosť diaľkového snímania a teplota povrchu mora).To umožní diaľkové hodnotenie ekologických zložiek a vysoko flexibilné monitorovanie ekologických provincií a ich variability.
Účelom tohto výskumu je predstaviť metódu SAGE, ktorá definuje ekologickú provinciu prostredníctvom svojej jedinečnej štruktúry planktónového spoločenstva.Tu budú uvedené podrobnejšie informácie o fyzikálnom/biogeochemickom/ekosystémovom modeli a výbere parametrov algoritmov t-SNE a DBSCAN.
Fyzické komponenty modelu pochádzajú z odhadu oceánskej cirkulácie a klímy [ECCOv4;(37) odhad globálneho stavu opísaný v (38).Nominálne rozlíšenie odhadu stavu je 1/5.Metóda najmenších štvorcov s metódou Lagrangovho multiplikátora sa používa na získanie počiatočných a okrajových podmienok a parametrov vnútorného modelu upravených pozorovaním, čím sa vygeneruje voľne bežiaci model všeobecného cyklu MIT (MITgcm) (39), model Po optimalizácii môžu byť výsledky byť sledované a pozorované.
Biogeochémia/ekosystém má úplnejší popis (tj rovnice a hodnoty parametrov) v (2).Model zachytáva cirkuláciu C, N, P, Si a Fe cez anorganické a organické jazierka.Tu použitá verzia obsahuje 35 druhov fytoplanktónu: 2 druhy mikroprokaryotov a 2 druhy mikroeukaryotov (vhodné do prostredia s nízkym obsahom živín), 5 druhov Cryptomonas sphaeroides (s povlakom uhličitanu vápenatého), 5 druhov diazónia ( Dokáže fixovať dusík, napr. nie je obmedzená) dostupnosť rozpusteného anorganického dusíka), 11 rozsievok (tvoriacich kremičitú pokrývku), 10 zmiešano-vegetatívnych bičíkovcov (môžu fotosyntetizovať a požierať iný planktón) a 16 zooplanktónu (pasú sa na inom planktóne).Tieto sa nazývajú "biogeochemické funkčné skupiny", pretože majú rôzne účinky na morskú biogeochémiu (40, 41) a často sa používajú pri pozorovaní a modelových štúdiách.V tomto modeli je každá funkčná skupina zložená z niekoľkých planktónov rôznych veľkostí s rozpätím ekvivalentného guľového priemeru 0,6 až 2500 μm.
Parametre ovplyvňujúce rast fytoplanktónu, spásanie a potápanie súvisia s veľkosťou a medzi šiestimi funkčnými skupinami fytoplanktónu existujú špecifické rozdiely (32).Napriek rôznym fyzikálnym rámcom boli výsledky 51 komponentov planktónu v modeli použité v mnohých nedávnych štúdiách (42-44).
Od roku 1992 do roku 2011 model spojenia fyzikálnych/biogeochemických/ekosystémov prebiehal 20 rokov.Výstup modelu zahŕňa biomasu planktónu, koncentráciu živín a rýchlosť prísunu živín (DIN, PO4, Si a Fe).V tejto štúdii bol ako vstup Ekologickej provincie použitý 20-ročný priemer týchto výstupov.Chl, distribúcia biomasy planktónu a koncentrácia živín a distribúcia funkčných skupín sa porovnávajú so satelitnými a in-situ pozorovaniami [pozri (2, 44), poznámka S1 a obrázok.S1 až S3].
Pre metódu SAGE pochádza hlavný zdroj náhodnosti z kroku t-SNE.Náhodnosť bráni opakovateľnosti, čo znamená, že výsledky sú nespoľahlivé.Metóda SAGE dôsledne testuje robustnosť stanovením súboru parametrov t-SNE a DBSCAN, ktoré dokážu pri opakovaní konzistentne identifikovať klastre.Určenie „zmätenosti“ parametra t-SNE možno chápať ako určenie miery, do akej by mapovanie z vysokých do nízkych dimenzií malo rešpektovať lokálne alebo globálne charakteristiky údajov.Dosiahol zmätok 400 a 300 iterácií.
Pre klastrovací algoritmus DBSCAN je potrebné určiť minimálnu veľkosť a metriku vzdialenosti údajových bodov v klastri.Minimálny počet sa určuje pod vedením odborníkov.Tieto znalosti vedia, čo vyhovuje súčasnému rámcu a rozlíšeniu numerického modelovania.Minimálny počet je 100. Môže sa zvážiť vyššia minimálna hodnota (menej ako <135, kým sa horná hranica zelenej nerozšíri), ale nemôže nahradiť metódu agregácie založenú na odlišnosti BC.Stupeň pripojenia (obrázok 6A) sa používa na nastavenie parametra ϵ, čo vedie k vyššiemu pokrytiu (obrázok 6B).Konektivita je definovaná ako zložený počet klastrov a je citlivá na parameter ϵ.Nižšia konektivita naznačuje nedostatočné prispôsobenie, umelé zoskupovanie regiónov.Vysoká konektivita svedčí o nadmernej montáži.Nadmerné vybavenie je tiež problematické, pretože ukazuje, že počiatočné náhodné odhady môžu viesť k nereprodukovateľným výsledkom.Medzi týmito dvoma extrémami prudký nárast (zvyčajne nazývaný „lakť“) označuje najlepšie ϵ.Na obrázku 6A vidíte prudký nárast plochy náhornej plošiny (žltá, > 200 zhlukov), po ktorom nasleduje prudký pokles (zelená, 100 zhlukov), až na približne 130, obklopená veľmi malým počtom zhlukov (modrá, < 60 zhlukov) ).V najmenej 100 modrých oblastiach buď jeden zhluk dominuje celému oceánu (ϵ <0,42), alebo väčšina oceánu nie je klasifikovaná a považuje sa za šum (ϵ> 0,99).Žltá oblasť má veľmi variabilnú, nereprodukovateľnú distribúciu zhlukov.Keď sa ϵ znižuje, zvyšuje sa hluk.Prudko sa zväčšujúca zelená plocha sa nazýva lakeť.Toto je optimálny región.Aj keď sa používa pravdepodobnosť t-SNE, odlišnosť BC v rámci provincie sa stále môže použiť na určenie spoľahlivého zhlukovania.Pomocou obrázku 6 (A a B) nastavte ϵ na 0,39.Čím väčšie je minimálne číslo, tým menšia je pravdepodobnosť dosiahnutia hodnoty ϵ, ktorá umožňuje spoľahlivú klasifikáciu, a tým väčšia je zelená plocha s hodnotou väčšou ako 135. Zväčšenie tejto oblasti naznačuje, že lakeť bude ťažšie nájsť alebo nebude existujúci.
Po nastavení parametrov t-SNE sa celkový počet nájdených klastrov použije ako miera konektivity (A) a percento údajov pridelených klastri (B).Červená bodka označuje najlepšiu kombináciu pokrytia a konektivity.Minimálny počet je stanovený podľa minimálneho počtu súvisiaceho s ekológiou.
Doplnkové materiály k tomuto článku nájdete na http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Toto je článok s otvoreným prístupom distribuovaný za podmienok licencie Creative Commons Attribution License.Článok umožňuje neobmedzené používanie, distribúciu a reprodukciu na akomkoľvek médiu za predpokladu, že je správne citované pôvodné dielo.
Poznámka: Uveďte svoju e-mailovú adresu iba preto, aby osoba, ktorú odporúčate na stránku, vedela, že chcete, aby e-mail videla a že nejde o spam.Nebudeme zachytávať žiadne e-mailové adresy.
Táto otázka sa používa na testovanie, či ste návštevník a na zabránenie automatickému odosielaniu spamu.
Globálne ministerstvo morskej ekológie je odhodlané riešiť zložité problémy a využíva ML bez dozoru na skúmanie štruktúr komunity.
Globálne ministerstvo morskej ekológie je odhodlané riešiť zložité problémy a využíva ML bez dozoru na skúmanie štruktúr komunity.


Čas odoslania: 12. januára 2021