topimg

Vyjasnění ekologické složitosti: učení bez dozoru určuje globální mořskou ekologickou provincii

Je navržena metoda učení bez dozoru pro určení globálních mořských ekologických provincií (ekoprovincií) na základě struktury planktonového společenství a údajů o toku živin.Metoda systematické integrované ekologické provincie (SAGE) dokáže identifikovat ekologické provincie ve vysoce nelineárních modelech ekosystémů.Aby se přizpůsobila negaussovské kovarianci dat, SAGE používá t náhodné vkládání sousedů (t-SNE) ke snížení dimenzionality.Pomocí hlukové aplikace založené na algoritmu prostorového shlukování založeného na hustotě (DBSCAN) lze identifikovat více než sto ekologických provincií.Pomocí mapy konektivity s ekologickými rozdíly jako měřítkem vzdálenosti je objektivně definována robustní agregovaná ekologická provincie (AEP) prostřednictvím vnořených ekologických provincií.Pomocí AEPs byla zkoumána kontrola míry dodávky živin na strukturu komunity.Ekoprovincie a AEP jsou jedinečné a mohou pomoci modelovat interpretaci.Mohou usnadnit srovnání mezi modely a mohou zlepšit porozumění a monitorování mořských ekosystémů.
Provincie jsou regiony, kde je komplexní biogeografie na moři nebo na pevnině organizována do soudržných a smysluplných oblastí (1).Tyto provincie jsou velmi důležité pro porovnávání a kontrasty lokalit, charakterizující pozorování, sledování a ochranu.Díky komplexním a nelineárním interakcím, které produkují tyto provincie, jsou metody strojového učení bez dozoru (ML) velmi vhodné pro objektivní určení provincií, protože kovariance v datech je komplexní a negaussovská.Zde je navržena metoda ML, která systematicky identifikuje jedinečné mořské ekologické provincie (ekoprovincie) z Darwinova globálního trojrozměrného (3D) fyzického/ekosystémového modelu (2).Termín „unikátní“ se používá k označení toho, že se identifikovaná oblast dostatečně nepřekrývá s jinými oblastmi.Tato metoda se nazývá metoda System Integrated Ecological Province (SAGE).Aby bylo možné provést užitečnou klasifikaci, musí metoda algoritmu umožňovat (i) globální klasifikaci a (ii) víceškálovou analýzu, kterou lze vnořovat/agregovat v prostoru a čase (3).V tomto výzkumu byla nejprve navržena metoda SAGE a byly diskutovány identifikované ekologické provincie.Ekoprovincie mohou podporovat porozumění faktorům, které řídí strukturu komunity, poskytují užitečné poznatky pro strategie monitorování a pomáhají sledovat změny v ekosystému.
Suchozemské provincie jsou obvykle klasifikovány podle podobností v klimatu (srážky a teplota), půdě, vegetaci a fauně a používají se pro pomocný management, výzkum biologické rozmanitosti a kontrolu nemocí (1, 4).Námořní provincie je obtížnější definovat.Většina organismů je mikroskopická, s hranicemi tekutin.Longhurst a kol.(5) Poskytlo jednu z prvních globálních klasifikací ministerstva oceánografie na základě podmínek prostředí.Definice těchto provincií „Longhurst“ zahrnuje proměnné, jako je rychlost míšení, stratifikace a ozáření, stejně jako rozsáhlé zkušenosti Longhurstu jako mořského oceánografa, který má další důležité podmínky pro mořské ekosystémy.Longhurst se široce využívá například k hodnocení primární produkce a toků uhlíku, podpoře rybolovu a plánování pozorovacích činností in situ (5–9).Aby bylo možné definovat provincie objektivněji, byly použity metody jako fuzzy logika a regionální nekontrolované shlukování/statistika (9-14).Účelem těchto metod je identifikovat smysluplné struktury, které mohou identifikovat provincie v dostupných pozorovacích datech.Například dynamické mořské provincie (12) používají samoorganizující se mapy ke snížení šumu a používají hierarchické (stromové) shlukování k určení produktů mořské barvy odvozených z regionálních satelitů [chlorofyl a (Chl-a), normalizovaná výška fluorescenční čáry a barevná rozpuštěná organická hmota] a fyzikální pole (teplota a slanost mořského povrchu, absolutní dynamická topografie a mořský led).
Struktura společenství planktonu je znepokojivá, protože jeho ekologie má velký vliv na vyšší hladiny živin, absorpci uhlíku a klima.Určit globální ekologickou provincii založenou na struktuře planktonového společenství je však stále náročným a těžko uchopitelným cílem.Mořské barevné satelity mohou potenciálně poskytnout vhled do hrubozrnné klasifikace fytoplanktonu nebo navrhnout výhody funkčních skupin (15), ale v současné době nejsou schopny poskytnout podrobné informace o struktuře komunity.Nedávné průzkumy [např. Tara Ocean (16)] poskytují bezprecedentní měření struktury komunity;v současné době existují v celosvětovém měřítku pouze řídká pozorování in-situ (17).Předchozí studie z velké části určily „Biogeochemickou provincii“ (12, 14, 18) na základě stanovení biochemických podobností (jako je primární produkce, Chl a dostupné světlo).Zde se k výstupu použije numerický model [Darwin(2)] a ekologická provincie se určí podle struktury komunity a toku živin.Numerický model použitý v této studii má globální pokrytí a lze jej porovnat se stávajícími terénními daty (17) a oblastmi dálkového průzkumu Země (poznámka S1).Data numerického modelu použitá v této studii mají výhodu globálního pokrytí.Modelový ekosystém se skládá z 35 druhů fytoplanktonu a 16 druhů zooplanktonu (viz materiály a metody).Modelové typy planktonu interagují nelineárně s negaussovskými kovariančními strukturami, takže jednoduché diagnostické metody nejsou vhodné pro identifikaci jedinečných a konzistentních vzorců ve vznikajících komunitních strukturách.Zde představená metoda SAGE poskytuje nový způsob kontroly výstupu komplexních Darwinových modelů.
Výkonné transformační schopnosti technologie datové vědy/ML mohou umožnit ohromně komplexním modelovým řešením odhalit složité, ale robustní struktury v kovarianci dat.Robustní metoda je definována jako metoda, která dokáže věrně reprodukovat výsledky v daném rozsahu chyb.I v jednoduchých systémech může být stanovení robustních vzorů a signálů výzvou.Dokud není stanoveno zdůvodnění vedoucí k pozorovanému vzoru, může se vznikající složitost zdát komplikovaná/obtížně řešitelná.Klíčový proces nastavení složení ekosystému má nelineární povahu.Existence nelineárních interakcí může zmást robustní klasifikaci, proto je nutné se vyhnout metodám, které vytvářejí silné předpoklady o základní statistické distribuci kovariance dat.Vysokorozměrná a nelineární data jsou v oceánografii běžná a mohou mít kovarianční strukturu s komplexní negaussovskou topologií.Ačkoli data s negaussovskou kovarianční strukturou mohou bránit robustní klasifikaci, metoda SAGE je nová, protože je navržena tak, aby identifikovala shluky s libovolnými topologiemi.
Cílem metody SAGE je objektivně identifikovat vznikající vzorce, které mohou pomoci dalšímu ekologickému porozumění.Po pracovním postupu založeném na shlucích podobném (19) jsou proměnné ekologické a tok živin použity k určení jediného shluku v datech, nazývaného ekologická provincie.Metoda SAGE navrhovaná v této studii (obrázek 1) nejprve redukuje dimenzionalitu z 55 na 11 rozměrů sečtením funkčních skupin planktonu definovaných a priori (viz Materiály a metody).Pomocí metody t-random sousedního vkládání (t-SNE) je velikost dále redukována promítnutím pravděpodobnosti do 3D prostoru.Shlukování bez dozoru může identifikovat ekologicky blízké oblasti [prostorové shlukování založené na hustotě (DBSCAN) pro aplikace založené na hluku].Jak t-SNE, tak DBSCAN jsou použitelné pro inherentní data numerického modelu nelineárního ekosystému.Výslednou ekologickou provincii pak znovu promítněte na Zemi.Bylo identifikováno více než sto unikátních ekologických provincií vhodných pro regionální výzkum.Aby bylo možné zvážit globálně konzistentní model ekosystému, používá se metoda SAGE k agregaci ekologických provincií do agregovaných ekologických provincií (AEP), aby se zlepšila efektivita ekologických provincií.Úroveň agregace (nazývaná „složitost“) lze upravit na požadovanou úroveň detailů.Určete minimální složitost robustního AEP.Těžištěm výběru je metoda SAGE a zkoumání případů AEP s nejmenší složitostí k určení kontroly struktury nouzové komunity.Vzorce pak mohou být analyzovány, aby poskytly ekologické poznatky.Zde představená metoda může být také použita pro porovnávání modelů v širším měřítku, například vyhodnocením lokalit podobných ekologických provincií nalezených v různých modelech, aby se zvýraznily rozdíly a podobnosti, aby bylo možné porovnat modely.
(A) Schematický diagram pracovního postupu pro určení ekologické provincie;použití součtu ve funkční skupině k redukci původních 55-dimenzionálních dat na 11-rozměrný modelový výstup, včetně biomasy sedmi funkčních/živinových planktonů a čtyř úrovní dodávky živin.Zanedbatelná hodnota a odolná oblast ledové pokrývky.Data byla standardizována a standardizována.Poskytněte 11rozměrná data algoritmu t-SNE, abyste zvýraznili statisticky podobné kombinace funkcí.DBSCAN pečlivě vybere cluster pro nastavení hodnoty parametru.Nakonec promítněte data zpět do projekce zeměpisné šířky/délky.Vezměte prosím na vědomí, že tento proces se opakuje 10krát, protože použitím t-SNE může dojít k mírné náhodnosti.(B) vysvětluje, jak získat AEP opakováním pracovního postupu v (A) 10krát.Pro každou z těchto 10 implementací byla stanovena meziprovinční matice Bray-Curtis (BC) na základě biomasy 51 typů fytoplanktonu.Určete rozdíl BC mezi provinciemi, od složitosti 1 AEP po plnou složitost 115. Benchmark BC nastavuje provincie Longhurst.
Metoda SAGE využívá výstup globálního 3D fyzického/ekosystémového numerického modelu k definování ekologické provincie [Darwin (2);viz Materiály a metody a Poznámka S1].Složky ekosystému se skládají z 35 druhů fytoplanktonu a 16 druhů zooplanktonu se sedmi předem definovanými funkčními skupinami: prokaryota a eukaryota přizpůsobená prostředí s nízkým obsahem živin, kokcidie s povlakem uhličitanu vápenatého a těžká fixace dusíku Živiny dusíku (obvykle chybí důležité živiny), s křemičitým obalem, mohou provádět fotosyntézu planktonu a pasoucí se bičíkovci se smíšenými živinami a pastevci zooplanktonu.Velikostní rozpětí je 0,6 až 2500 μm ekvivalentní sférickému průměru.Modelová distribuce velikosti a funkčního seskupení fytoplanktonu zachycuje celkové charakteristiky pozorované při satelitním a in-situ pozorování (viz obrázky S1 až S3).Podobnost mezi numerickým modelem a pozorovaným oceánem naznačuje, že provincie definované modelem mohou být použitelné pro oceán in-situ.Upozorňujeme, že tento model zachycuje pouze určitou rozmanitost fytoplanktonu a pouze určité rozsahy fyzikálních a chemických vlivů oceánu in situ.Metoda SAGE může lidem umožnit lépe porozumět vysoce regionálnímu kontrolnímu mechanismu modelové struktury komunity.
Zahrnutím pouze součtu povrchové biomasy (s průměrnou dobou 20 let) do každé funkční skupiny planktonu lze snížit rozměrnost dat.Poté, co dřívější studie ukázaly jejich klíčovou roli v nastavení struktury komunity, zahrnovaly také termíny povrchových zdrojů pro toky živin (dodávka dusíku, železa, fosfátu a kyseliny křemičité) [např. (20, 21)].Součet funkčních skupin redukuje problém z 55 (51 planktonu a 4 toky živin) na 11 dimenzí.V této počáteční studii nebyla vzhledem k výpočetním omezením uloženým algoritmem uvažována hloubka a časová variabilita.
Metoda SAGE je schopna identifikovat důležité vztahy mezi nelineárními procesy a klíčovými rysy interakcí mezi biomasou funkční skupiny a tokem živin.Použití 11-dimenzionálních dat založených na euklidovských distančních metodách (jako je K-means) nemůže získat spolehlivé a reprodukovatelné provincie (19, 22).V základní distribuci kovariance klíčových prvků, které definují ekologickou provincii, se totiž nenachází žádný Gaussův tvar.K-průměry Voronoiových buněk (přímky) nemohou zachovat negaussovské základní rozdělení.
Biomasa sedmi funkčních skupin planktonu a čtyř toků živin tvoří 11-rozměrný vektor x.Proto je x vektorové pole na modelové mřížce, kde každý prvek xi představuje 11-rozměrný vektor definovaný na modelové horizontální mřížce.Každý index i jednoznačně identifikuje bod mřížky na kouli, kde (lon, lat) = (ϕi, θi).Pokud je biomasa modelové mřížkové jednotky menší než 1,2×10-3mg Chl/m3 nebo míra pokrytí ledem přesahuje 70 %, použije se protokol údajů o biomase a zahodí se.Data jsou normalizována a standardizována, takže všechna data jsou v rozmezí [0 až 1], průměr je odstraněn a škálován na jednotkový rozptyl.To je provedeno tak, aby vlastnosti (biomasa a tok živin) nebyly omezeny kontrastem v rozsahu možných hodnot.Shlukování by mělo zachytit vztah změny z klíčové pravděpodobnostní vzdálenosti mezi prvky spíše než geografické vzdálenosti.Vyčíslením těchto vzdáleností se objeví důležité rysy, zatímco zbytečné detaily jsou vyřazeny.Z ekologického hlediska je to nutné, protože některé typy fytoplanktonu s malou biomasou mohou mít větší biogeochemické účinky, jako je fixace dusíku diazotrofními bakteriemi.Při standardizaci a normalizaci dat budou tyto typy kovariát zvýrazněny.
Zdůrazněním blízkosti prvků ve vysokorozměrném prostoru v nízkorozměrné reprezentaci se algoritmus t-SNE používá ke zpřehlednění existujících podobných oblastí.Předchozí práce zaměřené na budování hlubokých neuronových sítí pro aplikace dálkového průzkumu využívaly t-SNE, který prokázal svou dovednost v oddělování klíčových funkcí (23).Toto je nezbytný krok k identifikaci robustního shlukování v datech funkcí a zároveň se vyhnete nekonvergentním řešením (poznámka S2).Pomocí Gaussových jader zachovává t-SNE statistické vlastnosti dat mapováním každého vysokorozměrného objektu do bodu ve 3D fázovém prostoru, čímž zajišťuje, že pravděpodobnost výskytu podobných objektů ve vysokých a nízkých směrech je vysoká při vysoké dimenzionální prostor (24).Vzhledem k množině N vysokorozměrných objektů x1,…,xN algoritmus t-SNE snižuje minimalizací Kullback-Leiblerovy (KL) divergence (25).KL divergence je měřítkem toho, jak odlišné je rozdělení pravděpodobnosti od druhého referenčního rozdělení pravděpodobnosti, a může efektivně vyhodnotit možnost korelace mezi nízkorozměrnými reprezentacemi vysokorozměrných znaků.Jestliže xi je i-tý objekt v N-rozměrném prostoru, xj je j-tý objekt v N-rozměrném prostoru, yi je i-tý objekt v nízkorozměrném prostoru a yj je j-tý objekt v nízkorozměrném prostoru. -rozměrný prostor, pak t -SNE definuje pravděpodobnost podobnosti ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), a pro redukci dimenzionality nastavte q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Obrázek 2A ilustruje účinek snížení vektorů toku biomasy a živin 11-rozměrné kombinace na 3D.Motivaci aplikace t-SNE lze porovnat s motivací analýzy hlavních komponent (PCA), která využívá atribut rozptylu ke zdůraznění oblasti/atributu dat, a tím ke snížení dimenzionality.Bylo zjištěno, že metoda t-SNE je lepší než PCA v poskytování spolehlivých a reprodukovatelných výsledků pro ministerstvo životního prostředí (viz poznámka S2).To může být způsobeno tím, že předpoklad ortogonality PCA není vhodný pro identifikaci kritických interakcí mezi vysoce nelineárními interaktivními prvky, protože PCA se zaměřuje na lineární kovarianční struktury (26).Pomocí dat dálkového průzkumu Země Lunga a spol.(27) ilustruje, jak použít metodu SNE ke zvýraznění komplexních a nelineárních spektrálních rysů, které se odchylují od Gaussova rozdělení.
(A) Modelovaná rychlost dodávky živin, biomasa funkční skupiny fytoplanktonu a zooplanktonu nakreslená algoritmem t-SNE a obarvená podle provincií pomocí DBSCAN.Každý bod představuje bod ve vysokorozměrném prostoru, jak je znázorněno na obrázku 6B, většina bodů je zachycena.Hřídele odkazují na „t-SNE“ velikosti 1, 2 a 3. (B) Geografická projekce provincie nalezená pomocí DBSCAN na mřížce zeměpisné šířky a délky původu.Barva by měla být považována za jakoukoli barvu, ale měla by odpovídat (A).
Body v t-SNE bodovém grafu na obrázku 2A jsou příslušně spojeny se zeměpisnou šířkou a délkou.Pokud jsou dva body na obrázku 2A blízko sebe, je to proto, že jejich toky biomasy a živin jsou podobné, nikoli kvůli geografické blízkosti.Barvy na obrázku 2A jsou shluky objevené pomocí metody DBSCAN (28).Při hledání hustých pozorování používá algoritmus DBSCAN vzdálenost ve 3D reprezentaci mezi body (ϵ = 0,39; informace o této volbě viz Materiály a metody) a počet podobných bodů je nutný k definování shluku (zde 100 bodů, viz výše).Metoda DBSCAN nevytváří žádné předpoklady o tvaru nebo počtu shluků v datech, jak je uvedeno níže:
3) Pro všechny body označené jako uvnitř vzdálenosti opakujte krok 2 iterativně, abyste určili hranici shluku.Pokud je počet bodů větší než nastavená minimální hodnota, je označen jako shluk.
Data, která nesplňují minimální člen klastru a metriku vzdálenosti ϵ, jsou považována za „šum“ a není jim přiřazena barva.DBSCAN je rychlý a škálovatelný algoritmus s výkonem O(n2) v nejhorším případě.Pro současnou analýzu to vlastně není náhodné.Minimální počet bodů je určen odborným hodnocením.Po úpravě vzdálenosti poté není výsledek dostatečně stabilní v rozsahu ≈±10.Tato vzdálenost je nastavena pomocí konektivity (obrázek 6A) a procenta pokrytí oceánu (obrázek 6B).Konektivita je definována jako složený počet shluků a je citlivá na parametr ϵ.Nižší konektivita ukazuje na nedostatečné přizpůsobení, uměle seskupující oblasti dohromady.Vysoká konektivita svědčí o přetížení.Je myslitelné použít vyšší minimum, ale pokud minimum přesahuje ca, není možné dosáhnout spolehlivého řešení.135 (Další podrobnosti viz Materiály a metody).
115 shluků identifikovaných na obrázku 2A se promítá zpět na zem na obrázku 2B.Každá barva odpovídá koherentní kombinaci biogeochemických a ekologických faktorů identifikovaných pomocí DBSCAN.Jakmile jsou shluky určeny, asociace každého bodu na obrázku 2A se specifickou zeměpisnou šířkou a délkou se použije k promítnutí shluků zpět do geografické oblasti.Obrázek 2B to znázorňuje se stejnými shlukovými barvami jako na obrázku 2A.Podobné barvy by neměly být interpretovány jako ekologická podobnost, protože jsou přiřazeny podle pořadí, ve kterém jsou shluky objeveny algoritmem.
Oblast na obrázku 2B může být kvalitativně podobná zavedené oblasti ve fyzické a/nebo biogeochemii oceánu.Například shluky v jižním oceánu jsou zónově symetrické, objevují se oligotrofní víry a ostrý přechod ukazuje na vliv pasátů.Například v rovníkovém Pacifiku jsou vidět různé oblasti související se vzestupem.
Aby bylo možné porozumět ekologickému prostředí Ekoprovincie, byla k hodnocení ekologie v klastru použita variace rozdílového indexu Bray-Curtis (BC) (29).Indikátor BC je statistická data používaná ke kvantifikaci rozdílu ve struktuře komunity mezi dvěma různými lokalitami.Měření BC je použitelné pro biomasu 51 druhů fytoplanktonu a zooplanktonu BCninj = 1-2CninjSni + Snj
BCninj odkazuje na podobnost mezi kombinací ni a kombinací nj, kde Cninj je minimální hodnota jednoho typu biomasy, která existuje v obou kombinacích ni a nj, a Sni představuje součet všech biomas, které existují v obou kombinacích ni a Snj.Rozdíl BC je podobný měření vzdálenosti, ale funguje v neeuklidovském prostoru, který bude pravděpodobně vhodnější pro ekologická data a jejich interpretaci.
Pro každý shluk identifikovaný na obrázku 2B lze posoudit podobnost intra-provinciálního a inter-provinciálního BC.Rozdíl BC v rámci provincie se týká rozdílu mezi průměrnou hodnotou provincie a každým bodem v provincii.Rozdíl mezi provinciemi BC odkazuje na podobnost mezi jednou provincií a ostatními provinciemi.Obrázek 3A ukazuje symetrickou matici BC (0, černá: zcela odpovídající; 1, bílá: zcela nepodobná).Každý řádek v grafu ukazuje vzor v datech.Obrázek 3B ukazuje geografický význam výsledků BC na obrázku 3A pro každou provincii.Pro provincii v oblasti s nízkým obsahem živin a živin ukazuje obrázek 3B, že symetrie velkých oblastí kolem rovníku a Indického oceánu je v zásadě podobná, ale vyšší zeměpisné šířky a oblasti s nadmořskou výškou se výrazně liší.
(A) Stupeň rozdílu BC hodnocený pro každou provincii na základě globálního 20letého průměrného globálního povrchového průměru 51 planktonu.Všimněte si očekávané symetrie hodnot.(B) Prostorová projekce sloupce (nebo řádku).Pro provincii v dystrofickém kruhu byla vyhodnocena globální distribuce míry podobnosti BC a vyhodnocen globální 20letý průměr.Černá (BC = 0) znamená stejnou oblast a bílá (BC = 1) znamená žádnou podobnost.
Obrázek 4A znázorňuje rozdíl v BC v každé provincii na obrázku 2B.Stanoveno použitím průměrné kombinace průměrné plochy ve shluku a určením odlišnosti mezi BC a průměrem každého bodu mřížky v provincii ukazuje, že metoda SAGE může dobře oddělit 51 druhů na základě ekologické podobnosti Typ modelová data.Celková průměrná odlišnost klastru BC všech 51 typů je 0,102±0,0049.
(A, B a D) Rozdíl BC v rámci provincie je vyhodnocen jako průměrný rozdíl BC mezi každou komunitou bodů mřížky a průměrnou provincií a složitost není snížena.(2) Globální průměrný intraprovinciální rozdíl BC je 0,227±0,117.Toto je měřítko klasifikace založené na ekologické motivaci navržené touto prací [zelená čára v (C)].(C) Průměrný intraprovinciální rozdíl BC: Černá čára představuje intraprovinciální rozdíl BC se zvyšující se složitostí.2σ pochází z 10 opakování procesu identifikace ekoprovincie.Pro celkovou složitost provincií objevených DBSCAN, (A) ukazuje, že BC odlišnost v provincii je 0,099 a klasifikace složitosti navržená (C) je 12, což má za následek BC odlišnost 0,200 v provincii.jak ukazuje obrázek.(D).
Na obrázku 4B je použita biomasa 51 typů planktonu k reprezentaci ekvivalentního rozdílu BC v provincii Longhurst.Celkový průměr každé provincie je 0,227 a standardní odchylka bodů mřížky s odkazem na rozdíl v provincii BC je 0,046.To je větší než shluk identifikovaný na obrázku 1B.Místo toho se při použití součtu sedmi funkčních skupin průměrná odlišnost BC v rámci sezóny v Longhurstu zvýšila na 0,232.
Globální mapa ekoprovincie poskytuje složité podrobnosti o jedinečných ekologických interakcích a byla provedena vylepšení při používání celé struktury ekosystému provincie Longhurst.Očekává se, že ministerstvo ekologie poskytne vhled do procesu řízení numerického modelu ekosystému a tento vhled pomůže při průzkumu terénních prací.Pro účely tohoto výzkumu není možné plně zobrazit více než sto provincií.Další část představuje metodu SAGE, která shrnuje provincie.
Jedním z účelů provincie je podporovat porozumění umístění a řízení provincie.Pro určení nouzových situací metoda na obrázku 1B ilustruje hnízdění ekologicky podobných provincií.Ekoprovincie jsou seskupeny na základě ekologické podobnosti a takové seskupení provincií se nazývá AEP.Nastavte nastavitelnou „složitost“ na základě celkového počtu provincií, které je třeba vzít v úvahu.Termín „složitost“ se používá, protože umožňuje upravit úroveň atributů nouze.Za účelem definování smysluplných agregací se jako měřítko používá průměrný intraprovinciální rozdíl BC 0,227 od Longhurstu.Pod tímto měřítkem již nejsou kombinované provincie považovány za užitečné.
Jak ukazuje obrázek 3B, globální ekologické provincie jsou koherentní.Pomocí rozdílů mezi provinciemi BC lze vidět, že některé konfigurace jsou velmi „běžné“.„Spojené grafy“, inspirované genetikou a metodami teorie grafů, se používají k třídění > 100 provincií na základě provincií, které jsou jim nejpodobnější.Metrika „konektivity“ je zde určena pomocí meziprovinční odlišnosti BC (30).Počet provincií s větším prostorem pro klasifikaci > 100 provincií lze zde označit jako složitost.AEP je produkt, který kategorizuje více než 100 provincií jako nejvíce dominantní/nejbližší ekologické provincie.Každá ekologická provincie je přiřazena k dominantní/vysoce propojené ekologické provincii, která je jim nejvíce podobná.Tato agregace určená rozdílem BC umožňuje vnořený přístup ke globální ekologii.
Zvolená složitost může být jakákoliv hodnota od 1 do úplné složitosti z OBR.2A.Při nižší složitosti může AEP degenerovat v důsledku kroku snížení pravděpodobnosti dimenzionality (t-SNE).Degenerace znamená, že ekologické provincie mohou být mezi iteracemi přiřazeny k různým AEP, čímž se změní pokrytá geografická oblast.Obrázek 4C ilustruje rozšíření odlišností BC v rámci provincií v AEP se zvyšující se složitostí napříč 10 implementacemi (ilustrace na obrázku 1B).Na obrázku 4C je 2σ (modrá oblast) mírou degradace v 10 implementacích a zelená čára představuje benchmark Longhurst.Fakta prokázala, že složitost 12 může udržet rozdíl BC v provincii pod benchmarkem Longhurst ve všech implementacích a udržet relativně malou degradaci 2σ.Stručně řečeno, minimální doporučená složitost je 12 AEP a průměrný rozdíl mezi BC v rámci provincie hodnocený pomocí 51 typů planktonu je 0,198±0,013, jak je znázorněno na obrázku 4D.Při použití součtu sedmi funkčních skupin planktonu je průměrný rozdíl BC v rámci provincie 2σ místo 0,198±0,004.Srovnání mezi rozdíly BC vypočtené s celkovou biomasou sedmi funkčních skupin nebo biomasou všech 51 typů planktonu ukazuje, že ačkoliv je metoda SAGE použitelná pro 51-rozměrnou situaci, je pro celkovou biomasu sedmi funkčních skupin Pro trénink.
V závislosti na účelu jakéhokoli výzkumu lze uvažovat o různých úrovních složitosti.Regionální studie mohou vyžadovat úplnou složitost (tj. všech 115 provincií).Jako příklad a pro srozumitelnost zvažte minimální doporučenou složitost 12.
Jako příklad užitečnosti metody SAGE je zde použito 12 AEP s minimální složitostí 12 k prozkoumání řízení struktury nouzové komunity.Obrázek 5 ilustruje ekologické poznatky seskupené podle AEP (od A do L): V Redfieldově stechiometrii jsou geografický rozsah (obrázek 5C), složení biomasy funkční skupiny (obrázek 5A) a zásoba živin (obrázek 5B) prováděny pomocí N Zoomed.Je zobrazen poměr (N:Si:P:Fe, 1:1:16:16x103).U druhého panelu P násobeno 16 a Fe násobeno 16×103, takže sloupcový graf odpovídá nutričním požadavkům fytoplanktonu.
Provincie jsou klasifikovány do 12 AEP A až L. (A) Biomasa (mgC/m3) ekosystémů ve 12 provinciích.(B) Rychlost toku živin rozpuštěného anorganického dusíku (N), železa (Fe), fosforečnanu (P) a kyseliny křemičité (Si) (mmol/m3 za rok).Fe a P se vynásobí 16 a 16x103, v tomto pořadí, takže proužky jsou standardizovány podle požadavků stechiometrie fytoplanktonu.(C) Všimněte si rozdílu mezi polárními oblastmi, subtropickými cyklóny a hlavními sezónními/rostoucími oblastmi.Monitorovací stanice jsou označeny následovně: 1, SEDADLA;2, ALOHA;3, stanice P;a 4, NEtopýři.
Identifikovaný AEP je jedinečný.Kolem rovníku existuje určitá symetrie v Atlantském a Tichém oceánu a podobná, ale zvětšená oblast existuje v Indickém oceánu.Některé AEP objímají západní stranu kontinentu spojenou s výstupem.Cirkumpolární proud jižního pólu je považován za velký zonální útvar.Subtropický cyklón je komplexní řada oligotrofních AEP.V těchto provinciích je zřejmý známý vzorec rozdílů v biomase mezi oligotrofními víry s převahou planktonu a polárními oblastmi bohatými na rozsivky.
AEP s velmi podobnou celkovou biomasou fytoplanktonu mohou mít velmi odlišné struktury společenství a pokrýt různé geografické oblasti, jako jsou D, H a K, které mají podobnou celkovou biomasu fytoplanktonu.AEP H se vyskytuje hlavně v rovníkovém Indickém oceánu a existuje více diazotrofních bakterií.AEP D se nachází v několika pánvích, ale je zvláště prominentní v Pacifiku kolem oblastí s vysokým výnosem kolem rovníkového vzestupu.Tvar této pacifické provincie připomíná vlak planetárních vln.V AEP D je málo diazobakterií a více čípků.Ve srovnání s ostatními dvěma provinciemi se AEP K nachází pouze ve vysočinách Severního ledového oceánu a je zde více rozsivek a méně planktonů.Stojí za zmínku, že množství planktonu v těchto třech regionech je také velmi odlišné.Mezi nimi je výskyt planktonu u AEP K relativně nízký, zatímco u AEP D a H je relativně vysoký.Proto jsou tyto provincie navzdory své biomase (a tedy podobné Chl-a) zcela odlišné: testování provincií založené na Chl nemusí tyto rozdíly zachytit.
Je také zřejmé, že některé AEP s velmi odlišnou biomasou mohou být podobné z hlediska struktury společenstva fytoplanktonu.Je to vidět například u AEP D a E. Jsou blízko sebe a v Tichém oceánu je AEP E blízko vysoce produktivní AEPJ.Podobně neexistuje jasná souvislost mezi biomasou fytoplanktonu a množstvím zooplanktonu.
AEP lze chápat z hlediska živin, které jim jsou poskytovány (obrázek 5B).Rozsivky existují pouze tam, kde je dostatek kyseliny křemičité.Obecně platí, že čím vyšší je přísun kyseliny křemičité, tím vyšší je biomasa rozsivek.Rozsivky lze vidět v AEP A, J, K a L. Poměr biomasy rozsivek vzhledem k ostatnímu fytoplanktonu je určen poskytnutými N, P a Fe ve vztahu k poptávce po rozsivek.Například AEP L dominují rozsivky.Ve srovnání s ostatními živinami má Si nejvyšší zásobu.Naproti tomu, navzdory vyšší produktivitě, AEP J má méně rozsivek a méně zásob křemíku (všechny a v poměru k ostatním živinám).
Bakterie diazonium mají schopnost vázat dusík, ale rostou pomalu (31).Koexistují s jiným fytoplanktonem, kde jsou železo a fosfor nadměrné vzhledem k poptávce po nediazoniových živinách (20, 21).Stojí za zmínku, že diazotrofní biomasa je relativně vysoká a zásoba Fe a P je relativně velká vzhledem k zásobě N. Tímto způsobem, ačkoli celková biomasa v AEP J je vyšší, je diazoniová biomasa v AEP H větší než v J. Vezměte prosím na vědomí, že AEP J a H jsou geograficky velmi odlišné a H se nachází v rovníkovém Indickém oceánu.
Pokud nebude jedinečná struktura ekosystému rozdělena do provincií, poznatky získané z modelů 12 s nejnižší složitostí AEP nebudou tak jasné.AEP generovaný SAGE usnadňuje koherentní a simultánní srovnání komplexních a vysokorozměrných informací z modelů ekosystémů.AEP účinně zdůrazňuje, proč není Chl dobrou a alternativní metodou ke stanovení struktury společenstva nebo množství zooplanktonu při vyšších úrovních živin.Podrobná analýza probíhajících výzkumných témat je nad rámec tohoto článku.Metoda SAGE poskytuje způsob, jak prozkoumat další mechanismy v modelu, se kterým se snáze manipuluje než s prohlížením z bodu do bodu.
Metoda SAGE je navržena, aby pomohla objasnit extrémně složitá ekologická data z globálních fyzikálních/biogeochemických/ekosystémových numerických modelů.Ekologická provincie je určena celkovou biomasou funkčních skupin zkříženého planktonu, aplikací t-SNE pravděpodobnostního algoritmu pro redukci dimenzionality a shlukováním pomocí nekontrolované ML metody DBSCAN.K odvození robustního AEP, který lze použít pro globální interpretaci, je aplikována meziprovinční teorie rozdílů/grafů BC pro metodu hnízdění.Z hlediska výstavby jsou Ekoprovincie a AEP jedinečné.Hnízdění AEP lze upravit v rozsahu plné složitosti původní ekologické provincie a doporučeného minimálního prahu 12 AEP.Vnoření a stanovení minimální složitosti AEP jsou považovány za klíčové kroky, protože pravděpodobnost t-SNE degeneruje AEP s <12 složitostí.Metoda SAGE je globální a její složitost se pohybuje od > 100 AEP do 12. Pro jednoduchost se v současnosti zaměřujeme na složitost 12 globálních AEP.Budoucí výzkum, zejména regionální studie, může najít užitečnou menší prostorovou podmnožinu globálních ekoprovincií a může být agregován na menší ploše, aby bylo možné využít stejných ekologických poznatků, o nichž se zde diskutuje.Poskytuje návrhy, jak lze tyto ekologické provincie a poznatky z nich získané k dalšímu ekologickému porozumění, usnadnit srovnání modelů a potenciálně zlepšit monitorování mořských ekosystémů.
Ekologická provincie a AEP identifikované metodou SAGE vycházejí z údajů v numerickém modelu.Numerický model je z definice zjednodušenou strukturou, která se snaží zachytit podstatu cílového systému a různé modely budou mít různé rozložení planktonu.Numerický model použitý v této studii nemůže plně zachytit některé pozorované vzorce (například v odhadech Chl pro rovníkovou oblast a jižní oceán).Je zachycena pouze malá část diverzity ve skutečném oceánu a mezo a sub-mezoškály nelze vyřešit, což může ovlivnit tok živin a strukturu komunity v menším měřítku.Navzdory těmto nedostatkům se ukazuje, že AEP je velmi užitečný při porozumění složitým modelům.Vyhodnocením toho, kde se nacházejí podobné ekologické provincie, poskytuje AEP potenciální nástroj pro porovnání numerických modelů.Současný numerický model zachycuje celkový vzorec koncentrace fytoplanktonu Chl-a dálkového průzkumu Země a distribuci velikosti planktonu a funkční skupiny (poznámka S1 a obrázek S1) (2, 32).
Jak ukazuje vrstevnice 0,1 mgChl-a/m-3, AEP se dělí na oligotrofní oblast a mezotrofní oblast (obrázek S1B): AEP B, C, D, E, F a G jsou oligotrofní oblasti a zbývající oblasti jsou nachází Vyšší Chl-a.AEP ukazuje určitou shodu s provincií Longhurst (obrázek S3A), například s jižním oceánem a rovníkovým Pacifikem.V některých regionech AEP pokrývá více regionů Longhurst a naopak.Vzhledem k tomu, že záměr vymezit provincie v této oblasti a Longhurst je odlišný, očekává se, že zde budou rozdíly.Několik AEP v provincii Longhurst naznačuje, že určité oblasti s podobnou biogeochemií mohou mít velmi odlišné struktury ekosystémů.AEP vykazuje určitou shodu s fyzikálními stavy, jak bylo odhaleno pomocí učení bez dozoru (19), jako jsou stavy s vysokým vzestupem (například jižní oceán a rovníkový Pacifik; obrázek S3, C a D).Tyto korespondence ukazují, že struktura společenství planktonu je silně ovlivněna dynamikou oceánů.V oblastech, jako je severní Atlantik, AEP prochází fyzickými provinciemi.Mechanismus, který tyto rozdíly způsobuje, může zahrnovat procesy, jako je transport prachu, který může vést ke zcela odlišným nutričním programům i za podobných fyzikálních podmínek.
Ministerstvo ekologie a AEP upozornily, že samotné použití Chl nemůže identifikovat ekologické složky, jak si komunita mořské ekologie již uvědomila.To je vidět u AEP s podobnou biomasou, ale výrazně odlišným ekologickým složením (jako D a E).Naproti tomu AEP jako D a K mají velmi odlišnou biomasu, ale podobné ekologické složení.AEP zdůrazňuje, že vztah mezi biomasou, ekologickým složením a množstvím zooplanktonu je složitý.Například, ačkoli AEP J vyniká z hlediska biomasy fytoplanktonu a planktonu, AEP A a L mají podobnou biomasu planktonu, ale A má vyšší výskyt planktonu.AEP zdůrazňuje, že biomasu fytoplanktonu (nebo Chl) nelze použít k predikci biomasy zooplanktonu.Zooplankton je základem potravního řetězce rybolovu a přesnější odhady mohou vést k lepšímu řízení zdrojů.Budoucí mořské barevné satelity [například PACE (plankton, aerosol, oblačnost a mořský ekosystém)] mohou být lépe umístěny, aby pomohly odhadnout strukturu komunity fytoplanktonu.Použití predikce AEP může potenciálně usnadnit odhad zooplanktonu z vesmíru.Metody jako SAGE ve spojení s novými technologiemi a stále více terénních dat dostupných pro pozemní pravdivostní průzkumy (jako je Tara a následný výzkum) mohou společně učinit krok směrem k satelitnímu monitorování zdraví ekosystémů.
Metoda SAGE poskytuje pohodlný způsob hodnocení některých mechanismů, které řídí charakteristiky provincie, jako je biomasa/Chl, čistá primární produkce a struktura komunity.Například relativní množství rozsivek je dáno nerovnováhou v dodávce Si, N, P a Fe vzhledem ke stechiometrickým požadavkům fytoplanktonu.Při vyváženém poměru nabídky převládají ve společenstvu rozsivky (L).Když je míra nabídky nevyvážená (to znamená, že nabídka křemíku je nižší než poptávka po živinách rozsivek), tvoří rozsivky pouze malou část podílu (K).Když přísun Fe a P převýší přísun N (například E a H), diazotrofní bakterie budou intenzivně růst.Prostřednictvím kontextu poskytnutého AEP se průzkum kontrolních mechanismů stane užitečnějším.
Ekoprovincie a AEP jsou oblasti s podobnými komunitními strukturami.Časovou řadu z určitého místa v rámci ekologické provincie nebo AEP lze považovat za referenční bod a může představovat oblast pokrytou ekologickou provincií nebo AEP.Takové časové řady poskytují dlouhodobé monitorovací stanice na místě.Dlouhodobé in-situ datové soubory budou i nadále hrát nevyčíslitelnou roli.Z pohledu monitorování struktury komunity lze metodu SAGE vnímat jako způsob, jak pomoci určit nejužitečnější umístění nových stránek.Například časová řada z dlouhodobého hodnocení oligotrofních stanovišť (ALOHA) je v AEP B oligotrofní oblasti (obrázek 5C, štítek 2).Protože ALOHA je blízko hranice jiného AEP, časová řada nemusí být reprezentativní pro celou oblast, jak bylo dříve navrženo (33).Ve stejném AEP B se časová řada SEATS (Southeast Asian Time Series) nachází na jihozápadním Tchaj-wanu (34), dále od hranic ostatních AEP (obrázek 5C, štítek 1), a lze ji použít jako lepší místo pro sledování. AEPB.Časová řada BATS (Bermuda Atlantic Time Series Study) (obrázek 5C, štítek 4) v AEPC je velmi blízko hranici mezi AEP C a F, což naznačuje, že monitorování AEP C pomocí časových řad BATS může být přímo problematické.Stanice P v AEP J (obrázek 5C, štítek 3) je daleko od hranice AEP, takže je reprezentativnější.Eco-Province a AEP mohou pomoci vytvořit monitorovací rámec vhodný pro hodnocení globálních změn, protože povolení provincií posuzovat, kde odběr vzorků na místě může poskytnout klíčové poznatky.Metodu SAGE lze dále rozvinout, aby ji bylo možné aplikovat na klimatická data k posouzení variability šetřící čas.
Úspěchu metody SAGE je dosaženo pečlivým uplatňováním metod datové vědy/ML a znalostí specifických pro doménu​​.Konkrétně se t-SNE používá k provedení redukce rozměrů, která zachovává kovarianční strukturu vysokorozměrných dat a usnadňuje vizualizaci kovarianční topologie.Data jsou uspořádána ve formě pruhů a kovariancí (obrázek 2A), což naznačuje, že čistě měření na základě vzdálenosti (jako jsou K-průměry) nejsou vhodná, protože obvykle používají rozdělení na Gaussově (kruhové) bázi (diskutované v poznámce S2). .Metoda DBSCAN je vhodná pro jakoukoli kovarianční topologii.Pokud věnujete pozornost nastavení parametrů, lze zajistit spolehlivou identifikaci.Výpočetní náklady algoritmu t-SNE jsou vysoké, což omezuje jeho současnou aplikaci na větší množství dat, což znamená, že je obtížné jej aplikovat na hluboká nebo časově proměnná pole.Práce na škálovatelnosti t-SNE právě probíhají.Vzhledem k tomu, že vzdálenost KL lze snadno paralelizovat, má algoritmus t-SNE dobrý potenciál pro budoucí rozšíření (35).Mezi další slibné metody redukce rozměrů, které mohou velikost lépe zmenšit, zatím patří techniky sjednocené mnohonásobné aproximace a projekce (UMAP), ale je nezbytné vyhodnocení v kontextu oceánských dat.Smyslem lepší škálovatelnosti je například klasifikace globálního klimatu nebo modelů s různou složitostí na smíšenou vrstvu.Oblasti, které se nepodařilo klasifikovat SAGE v žádné provincii, lze považovat za zbývající černé tečky na obrázku 2A.Geograficky se tyto oblasti nacházejí převážně ve vysoce sezónních oblastech, což naznačuje, že zachycení ekologických provincií, které se v průběhu času mění, zajistí lepší pokrytí.
Ke konstrukci metody SAGE byly použity myšlenky z komplexních systémů/vědy o datech, s využitím schopnosti určit shluky funkčních skupin (možnost být velmi blízko v 11-rozměrném prostoru) a určit provincie.Tyto provincie zobrazují specifické objemy v našem 3D fázovém prostoru t-SNE.Podobně lze Poincarého část použít k vyhodnocení „objemu“ stavového prostoru obsazeného trajektorií k určení „normálního“ nebo „chaotického“ chování (36).Pro výstup statického 11-rozměrného modelu lze podobně vysvětlit objem obsazený po převedení dat do 3D fázového prostoru.Vztah mezi geografickou oblastí a oblastí ve 3D fázovém prostoru není jednoduchý, ale lze jej vysvětlit z hlediska ekologické podobnosti.Z tohoto důvodu je preferováno konvenčnější měření odlišnosti BC.
Budoucí práce znovu použijí metodu SAGE pro sezónně se měnící data k posouzení prostorové variability identifikovaných provincií a AEP.Budoucím cílem je pomocí této metody pomoci určit, které provincie lze určit pomocí satelitních měření (jako je Chl-a, odrazivost dálkového průzkumu a teplota mořské hladiny).To umožní dálkové hodnocení ekologických složek a vysoce flexibilní monitorování ekologických provincií a jejich variability.
Účelem tohoto výzkumu je představit metodu SAGE, která definuje ekologickou provincii prostřednictvím své jedinečné struktury planktonového společenstva.Zde budou uvedeny podrobnější informace o fyzikálním/biogeochemickém/ekosystémovém modelu a výběru parametrů algoritmů t-SNE a DBSCAN.
Fyzikální komponenty modelu pocházejí z odhadu oceánské cirkulace a klimatu [ECCOv4;(37) odhad globálního stavu popsaný v (38).Nominální rozlišení odhadu stavu je 1/5.Metoda nejmenších čtverců s metodou Lagrangova multiplikátoru se používá k získání počátečních a okrajových podmínek a parametrů vnitřního modelu upravených pozorováním, čímž se generuje volně běžící model obecného cyklu MIT (MITgcm) (39), model Po optimalizaci lze výsledky být sledován a pozorován.
Biogeochemie/ekosystém má úplnější popis (tj. rovnice a hodnoty parametrů) v (2).Model zachycuje cirkulaci C, N, P, Si a Fe přes anorganické a organické rybníky.Zde použitá verze zahrnuje 35 druhů fytoplanktonu: 2 druhy mikroprokaryot a 2 druhy mikroeukaryot (vhodné pro prostředí s nízkým obsahem živin), 5 druhů Cryptomonas sphaeroides (s povlakem uhličitanu vápenatého), 5 druhů diazonia ( Dokáže fixovat dusík, tzn. není omezena) dostupnost rozpuštěného anorganického dusíku), 11 rozsivek (tvořících křemičitý obal), 10 smíšeně vegetativních bičíků (umí fotosyntetizovat a požírat jiný plankton) a 16 zooplanktonu (pasou se na jiném planktonu).Ty se nazývají „biogeochemické funkční skupiny“, protože mají různé účinky na mořskou biogeochemii (40, 41) a často se používají při pozorování a modelových studiích.V tomto modelu je každá funkční skupina složena z několika planktonů různých velikostí s rozpětím 0,6 až 2500 μm ekvivalentního sférického průměru.
Parametry ovlivňující růst fytoplanktonu, pastvu a potopení souvisí s velikostí a mezi šesti funkčními skupinami fytoplanktonu existují specifické rozdíly (32).Navzdory různým fyzikálním rámcům byly výsledky 51 složek planktonu v modelu použity v řadě nedávných studií (42-44).
Od roku 1992 do roku 2011 běžel model propojení fyzikální/biogeochemický/ekosystémový po dobu 20 let.Výstup modelu zahrnuje biomasu planktonu, koncentraci živin a rychlost dodávky živin (DIN, PO4, Si a Fe).V této studii byl jako vstup Ekologické provincie použit 20letý průměr těchto výstupů.Chl, rozložení biomasy planktonu a koncentrace živin a rozložení funkčních skupin jsou porovnány se satelitními a in-situ pozorováními [viz (2, 44), poznámka S1 a obrázek.SI až S3].
U metody SAGE pochází hlavní zdroj náhodnosti z kroku t-SNE.Náhodnost brání opakovatelnosti, což znamená, že výsledky jsou nespolehlivé.Metoda SAGE důsledně testuje robustnost stanovením sady parametrů t-SNE a DBSCAN, které mohou při opakování konzistentně identifikovat shluky.Určení „zmatenosti“ parametru t-SNE lze chápat jako stanovení míry, do jaké by mapování z vysokých do nízkých dimenzí mělo respektovat lokální nebo globální charakteristiky dat.Dosáhlo se záměny 400 a 300 iterací.
Pro shlukovací algoritmus DBSCAN je třeba určit minimální velikost a metriku vzdálenosti datových bodů v shluku.Minimální počet je stanoven pod vedením odborníků.Tyto znalosti vědí, co vyhovuje současnému rámci numerického modelování a rozlišení.Minimální počet je 100. Lze uvažovat o vyšší minimální hodnotě (méně než <135, než se horní hranice zelené rozšíří), ale nemůže nahradit metodu agregace založenou na odlišnosti BC.Stupeň připojení (obrázek 6A) se používá k nastavení parametru ϵ, což vede k vyššímu pokrytí (obrázek 6B).Konektivita je definována jako složený počet shluků a je citlivá na parametr ϵ.Nižší konektivita ukazuje na nedostatečné přizpůsobení, uměle seskupující oblasti dohromady.Vysoká konektivita svědčí o přetížení.Nadměrná montáž je také problematická, protože ukazuje, že počáteční náhodné odhady mohou vést k nereprodukovatelným výsledkům.Mezi těmito dvěma extrémy ukazuje prudký nárůst (obvykle nazývaný „loket“) nejlepší ϵ.Na obrázku 6A vidíte prudký nárůst plochy náhorní plošiny (žlutá, > 200 shluků), následovaný prudkým poklesem (zelená, 100 shluků), až na přibližně 130, obklopenou velmi malým počtem shluků (modrá, <60 shluků) ).V nejméně 100 modrých oblastech buď jeden shluk dominuje celému oceánu (ϵ <0,42), nebo většina oceánu není klasifikována a je považována za šum (ϵ> 0,99).Žlutá oblast má vysoce variabilní, nereprodukovatelné rozložení shluků.Jak se ϵ snižuje, zvyšuje se hluk.Prudce se zvětšující zelená plocha se nazývá loket.Toto je optimální region.I když se používá pravděpodobnost t-SNE, k určení spolehlivého shlukování lze stále použít odlišnost BC v rámci provincie.Pomocí obrázku 6 (A a B) nastavte ϵ na 0,39.Čím větší je minimální číslo, tím menší je pravděpodobnost dosažení ϵ, která umožňuje spolehlivou klasifikaci, a tím větší je zelená plocha s hodnotou větší než 135. Zvětšení této oblasti naznačuje, že loket bude obtížnější najít nebo nebude existující.
Po nastavení parametrů t-SNE bude celkový počet nalezených shluků použit jako míra konektivity (A) a procento dat přidělených shluku (B).Červená tečka označuje nejlepší kombinaci pokrytí a konektivity.Minimální počet je stanoven podle minimálního počtu souvisejícího s ekologií.
Doplňkové materiály k tomuto článku naleznete na http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Toto je článek s otevřeným přístupem distribuovaný za podmínek licence Creative Commons Attribution License.Článek umožňuje neomezené použití, distribuci a reprodukci na jakémkoli médiu za podmínky, že původní dílo je řádně citováno.
Poznámka: Uveďte svou e-mailovou adresu pouze proto, aby osoba, kterou na stránku doporučujete, věděla, že chcete, aby e-mail viděla a že se nejedná o spam.Nebudeme zaznamenávat žádné e-mailové adresy.
Tato otázka se používá k testování, zda jste návštěvník, a k zamezení automatického odesílání spamu.
Globální ministerstvo mořské ekologie je odhodláno řešit složité problémy a využívá ML bez dozoru k prozkoumání komunitních struktur.
Globální ministerstvo mořské ekologie je odhodláno řešit složité problémy a využívá ML bez dozoru k prozkoumání komunitních struktur.


Čas odeslání: 12. ledna 2021