En uovervåget læringsmetode foreslås til at bestemme globale havøkologiske provinser (øko-provinser) baseret på planktonsamfundsstruktur og næringsstoffluxdata.Den systematiske integrerede økologiske provins (SAGE) metode kan identificere økologiske provinser i meget ikke-lineære økosystemmodeller.For at tilpasse sig den ikke-Gaussiske kovarians af dataene, bruger SAGE t tilfældig naboindlejring (t-SNE) for at reducere dimensionaliteten.Ved hjælp af støjapplikationen baseret på den densitetsbaserede rumlige clustering (DBSCAN) algoritme kan mere end hundrede økologiske provinser identificeres.Ved at bruge forbindelseskortet med økologiske forskelle som afstandsmål defineres en robust aggregeret økologisk provins (AEP) objektivt gennem indlejrede økologiske provinser.Ved hjælp af AEP'er blev kontrollen af næringsstofforsyningshastigheden på samfundsstrukturen undersøgt.Eco-provinsen og AEP er unikke og kan hjælpe med modelfortolkning.De kan lette sammenligninger mellem modeller og kan forbedre forståelsen og overvågningen af marine økosystemer.
Provinser er regioner, hvor kompleks biogeografi på havet eller på land er organiseret i sammenhængende og meningsfulde områder (1).Disse provinser er meget vigtige for at sammenligne og kontrastere steder, karakterisere observationer, overvågning og beskyttelse.De komplekse og ikke-lineære interaktioner, der producerer disse provinser, gør uovervågede maskinlæringsmetoder (ML) meget velegnede til at bestemme provinser objektivt, fordi kovariansen i dataene er kompleks og ikke-Gaussisk.Her foreslås en ML-metode, som systematisk identificerer unikke marine økologiske provinser (øko-provinser) ud fra Darwins globale tredimensionelle (3D) fysiske/økosystemmodel (2).Udtrykket "unik" bruges til at angive, at det identificerede område ikke i tilstrækkelig grad overlapper andre områder.Denne metode kaldes System Integrated Ecological Province (SAGE) metoden.For at udføre nyttig klassificering skal en algoritmemetode tillade (i) global klassificering og (ii) multiskalaanalyse, der kan indlejres/aggregeres i rum og tid (3).I denne forskning blev SAGE-metoden først foreslået, og de identificerede økologiske provinser blev diskuteret.Øko-provinser kan fremme forståelsen af de faktorer, der styrer samfundsstrukturen, give nyttig indsigt til overvågningsstrategier og hjælpe med at spore ændringer i økosystemet.
Terrestriske provinser klassificeres normalt efter ligheder i klima (nedbør og temperatur), jordbund, vegetation og fauna og bruges til hjælpeforvaltning, biodiversitetsforskning og sygdomsbekæmpelse (1, 4).Marine provinser er sværere at definere.De fleste organismer er mikroskopiske med væskegrænser.Longhurst et al.(5) Leveret en af de første globale klassifikationer af ministeriet for oceanografi baseret på miljøforhold.Definitionen af disse "Longhurst" provinser inkluderer variabler såsom blandingshastighed, lagdeling og irradians, samt Longhursts omfattende erfaring som marine oceanograf, der har andre vigtige betingelser for marine økosystemer.Longhurst er blevet brugt i vid udstrækning, for eksempel til at vurdere primærproduktion og kulstofstrømme, støtte fiskeriet og planlægge in situ observationsaktiviteter (5-9).For at definere provinser mere objektivt er metoder som fuzzy logic og regional uovervåget klyngedannelse/statistik blevet brugt (9-14).Formålet med sådanne metoder er at identificere meningsfulde strukturer, der kan identificere provinser i de tilgængelige observationsdata.For eksempel bruger dynamiske marine provinser (12) selvorganiserende kort til at reducere støj og bruger hierarkisk (træbaseret) klyngedannelse til at bestemme marine farveprodukter afledt af regionale satellitter [klorofyl a (Chl-a), normaliseret fluorescenslinjehøjde og farvet opløst organisk stof] og fysisk felt (havoverfladetemperatur og saltholdighed, absolut dynamisk topografi og havis).
Planktons samfundsstruktur giver anledning til bekymring, fordi dets økologi har stor indflydelse på højere næringsstofniveauer, kulstofabsorption og klima.Ikke desto mindre er det stadig et udfordrende og uhåndgribeligt mål at bestemme en global økologisk provins baseret på planktonsamfundets struktur.Marine farvesatellitter kan potentielt give indsigt i den grovkornede klassificering af fytoplankton eller foreslå fordelene ved funktionelle grupper (15), men de er i øjeblikket ikke i stand til at give detaljerede oplysninger om samfundsstruktur.Nylige undersøgelser [f.eks. Tara Ocean (16)] giver hidtil usete målinger af samfundsstruktur;i øjeblikket er der kun sparsomme in-situ observationer på globalt plan (17).Tidligere undersøgelser har i vid udstrækning bestemt "Biogeochemical Province" (12, 14, 18) baseret på bestemmelse af biokemiske ligheder (såsom primærproduktion, Chl og tilgængeligt lys).Her bruges den numeriske model til output [Darwin(2)], og den økologiske provins bestemmes i henhold til samfundsstrukturen og næringsstofstrømmen.Den numeriske model brugt i denne undersøgelse har global dækning og kan sammenlignes med eksisterende feltdata (17) og fjernmålingsfelter (Note S1).De numeriske modeldata brugt i denne undersøgelse har fordelen af global dækning.Modeløkosystemet består af 35 arter af fytoplankton og 16 arter af zooplankton (se venligst materialer og metoder).Modelplanktontyper interagerer ikke-lineært med ikke-Gaussiske kovariansstrukturer, så simple diagnostiske metoder er ikke egnede til at identificere unikke og konsistente mønstre i nye samfundsstrukturer.SAGE-metoden introduceret her giver en ny måde at kontrollere outputtet af komplekse Darwin-modeller på.
Datavidenskabens/ML-teknologiens kraftfulde transformative egenskaber kan gøre det muligt for overvældende komplekse modelløsninger at afsløre komplekse, men robuste strukturer i datakovarians.En robust metode defineres som en metode, der trofast kan gengive resultaterne inden for et givet fejlområde.Selv i simple systemer kan det være en udfordring at bestemme robuste mønstre og signaler.Indtil begrundelsen, der fører til det observerede mønster, er fastlagt, kan den opståede kompleksitet virke kompliceret/svær at løse.Nøgleprocessen med at fastlægge sammensætningen af økosystemet er ikke-lineær af natur.Eksistensen af ikke-lineære interaktioner kan forvirre robust klassifikation, så det er nødvendigt at undgå metoder, der gør stærke antagelser om den grundlæggende statistiske fordeling af datakovarians.Højdimensionelle og ikke-lineære data er almindelige i oceanografi og kan have en kovariansstruktur med kompleks, ikke-Gaussisk topologi.Selvom data med en ikke-Gaussisk kovariansstruktur kan hindre robust klassificering, er SAGE-metoden ny, fordi den er designet til at identificere klynger med vilkårlige topologier.
Målet med SAGE-metoden er objektivt at identificere nye mønstre, der kan hjælpe med yderligere økologisk forståelse.Efter en klyngebaseret arbejdsgang svarende til (19), bruges de økologiske og næringsstoffluxvariabler til at bestemme den eneste klynge i dataene, kaldet den økologiske provins.SAGE-metoden foreslået i denne undersøgelse (figur 1) reducerer først dimensionaliteten fra 55 til 11 dimensioner ved at summere de planktonfunktionelle grupper defineret a priori (se Materialer og metoder).Ved at bruge t-random neighbor embedding-metoden (t-SNE) reduceres størrelsen yderligere ved at projicere sandsynligheden ind i 3D-rummet.Uovervåget klyngedannelse kan identificere økologisk tætte områder [density-based spatial clustering (DBSCAN) til støjbaserede applikationer].Både t-SNE og DBSCAN kan anvendes på de iboende ikke-lineære økosystems numeriske modeldata.Reprojekter derefter den resulterende økologiske provins på jorden.Mere end hundrede unikke økologiske provinser er blevet identificeret, egnede til regional forskning.For at overveje den globalt konsistente økosystemmodel, bruges SAGE-metoden til at aggregere de økologiske provinser i aggregerede økologiske provinser (AEP) for at forbedre effektiviteten af de økologiske provinser.Aggregeringsniveauet (kaldet "kompleksitet") kan justeres til det krævede detaljeringsniveau.Bestem minimumskompleksiteten af en robust AEP.Fokus for udvælgelsen er SAGE-metoden og udforskning af de mindste komplekse AEP-sager for at bestemme kontrollen af nødsamfundsstrukturen.Mønstrene kan derefter analyseres for at give økologiske indsigter.Metoden introduceret her kan også bruges til modelsammenligning mere omfattende, for eksempel ved at evaluere placeringen af lignende økologiske provinser fundet i forskellige modeller for at fremhæve forskelle og ligheder, for at sammenligne modeller.
(A) Skematisk diagram af arbejdsgangen til bestemmelse af den økologiske provins;ved at bruge summen i den funktionelle gruppe til at reducere de oprindelige 55-dimensionelle data til et 11-dimensionelt modeloutput, inklusive biomassen af syv funktionel/næringsplankton og fire næringsstoftilførselshastigheder.Ubetydelig værdi og holdbart isdækkeområde.Dataene er blevet standardiseret og standardiseret.Giv 11-dimensionelle data til t-SNE-algoritmen for at fremhæve statistisk lignende funktionskombinationer.DBSCAN vil omhyggeligt vælge klyngen for at indstille parameterværdien.Projektér til sidst dataene tilbage til bredde-/længdegradsprojektionen.Bemærk venligst, at denne proces gentages 10 gange, fordi der kan genereres en lille tilfældighed ved at anvende t-SNE.(B) forklarer, hvordan man får AEP ved at gentage arbejdsgangen i (A) 10 gange.For hver af disse 10 implementeringer blev den inter-provinsielle Bray-Curtis (BC) ulighedsmatrix bestemt baseret på biomassen af 51 fytoplanktontyper.Bestem BC-forskellen mellem provinser, fra kompleksitet 1 AEP til fuld kompleksitet 115. BC-benchmark er fastsat af Longhurst-provinsen.
SAGE-metoden bruger outputtet fra den globale 3D fysiske/økosystem-numeriske model til at definere den økologiske provins [Darwin (2);se materialer og metoder og note S1].Komponenterne i økosystemet er sammensat af 35 arter af fytoplankton og 16 arter af zooplankton med syv foruddefinerede funktionelle grupper: prokaryoter og eukaryoter tilpasset miljøer med lavt næringsstofindhold, coccidier med en calciumcarbonatbelægning og kraftig nitrogenfiksering Nitrogennæringsstoffer mangler (normalt). vigtige næringsstoffer), med kiselholdig dækning, kan lave andre planktonfotosyntese og græssende blandede næringsstoffer flagellater og dyreplanktonhyrder.Størrelsesspændet er 0,6 til 2500 μm ækvivalent sfærisk diameter.Modelfordelingen af fytoplanktonstørrelse og funktionel gruppering fanger de overordnede karakteristika set i satellit- og in-situ observationer (se figur S1 til S3).Ligheden mellem den numeriske model og det observerede hav indikerer, at provinser defineret af modellen kan være anvendelige på in-situ oceanet.Bemærk venligst, at denne model kun fanger en vis mangfoldighed af fytoplankton og kun visse fysiske og kemiske forceringsområder i in situ oceanet.SAGE-metoden kan sætte folk i stand til bedre at forstå den meget regionale kontrolmekanisme i modelsamfundsstrukturen.
Ved kun at inkludere summen af overfladebiomasse (med en gennemsnitstid på 20 år) i hver planktonfunktionel gruppe, kan dimensionaliteten af dataene reduceres.Efter at tidligere undersøgelser viste deres nøglerolle i fastlæggelsen af samfundsstrukturen, inkluderede den også overfladekildetermer for næringsstoffluxer (tilførsel af nitrogen, jern, fosfat og kiselsyre) [f.eks. (20, 21)].Sammenlægningen af funktionelle grupper reducerer problemet fra 55 (51 plankton- og 4 næringsstoffluxer) til 11 dimensioner.I denne indledende undersøgelse, på grund af de beregningsmæssige begrænsninger pålagt af algoritmen, blev dybde- og tidsvariabilitet ikke taget i betragtning.
SAGE-metoden er i stand til at identificere vigtige forhold mellem ikke-lineære processer og nøgletræk ved interaktioner mellem funktionel gruppebiomasse og næringsstofflux.Brug af 11-dimensionelle data baseret på euklidiske fjernundervisningsmetoder (såsom K-middel) kan ikke opnå pålidelige og reproducerbare provinser (19, 22).Dette skyldes, at der ikke findes nogen gaussisk form i den grundlæggende fordeling af kovariansen af de nøgleelementer, der definerer den økologiske provins.K-midlet af Voronoi-celler (lige linjer) kan ikke bevare den ikke-Gaussiske grundfordeling.
Biomassen af syv planktonfunktionelle grupper og fire næringsstofstrømme danner en 11-dimensionel vektor x.Derfor er x et vektorfelt på modelgitteret, hvor hvert element xi repræsenterer en 11-dimensionel vektor defineret på modellens horisontale gitter.Hvert indeks i identificerer entydigt et gitterpunkt på kuglen, hvor (lon, lat) = (ϕi, θi).Hvis biomassen af modelgitteretheden er mindre end 1,2×10-3mg Chl/m3, eller isdækningsgraden overstiger 70 %, bruges loggen over biomassedata og kasseres.Dataene er normaliseret og standardiseret, så alle data er i området [0 til 1], middelværdien fjernes og skaleres til enhedsvarians.Dette gøres for at funktionerne (biomasse og næringsstofflux) ikke begrænses af kontrasten i rækken af mulige værdier.Clustering bør fange ændringsforholdet fra nøglesandsynlighedsafstanden mellem funktionerne snarere end den geografiske afstand.Ved at kvantificere disse afstande opstår vigtige funktioner, mens unødvendige detaljer kasseres.Fra et økologisk synspunkt er dette nødvendigt, fordi nogle typer fytoplankton med lille biomasse kan have større biogeokemiske effekter, såsom nitrogenfiksering af diazotrofe bakterier.Ved standardisering og normalisering af data vil disse typer af kovariater blive fremhævet.
Ved at understrege nærheden af funktioner i højdimensionelt rum i lavdimensionel repræsentation bruges t-SNE-algoritmen til at gøre eksisterende lignende områder klarere.Tidligere arbejde med henblik på at bygge dybe neurale netværk til fjernmålingsapplikationer brugte t-SNE, som beviste sin evne til at adskille nøglefunktioner (23).Dette er et nødvendigt trin for at identificere robust klyngedannelse i funktionsdataene og samtidig undgå ikke-konvergerende løsninger (bemærk S2).Ved at bruge gaussiske kerner bevarer t-SNE de statistiske egenskaber af dataene ved at kortlægge hvert højdimensionelt objekt til et punkt i 3D-faserummet, og derved sikre, at sandsynligheden for lignende objekter i høj- og lavretningen er høj i en høj- og lav retning. dimensionelt rum (24).Givet et sæt af N højdimensionelle objekter x1,…,xN, reduceres t-SNE-algoritmen ved at minimere Kullback-Leibler (KL) divergensen (25).KL divergens er et mål for, hvor forskellig en sandsynlighedsfordeling er fra en anden referencesandsynlighedsfordeling og kan effektivt evaluere muligheden for korrelation mellem lavdimensionelle repræsentationer af højdimensionelle træk.Hvis xi er det i-te objekt i det N-dimensionale rum, er xj det j-te objekt i det N-dimensionale rum, yi er det i-te objekt i det lav-dimensionale rum, og yj er det j-te objekt i det lave rum. -dimensionelt rum, så definerer t -SNE lighedssandsynligheden ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), og for dimensionsreduktionssættet q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Figur 2A illustrerer effekten af at reducere biomasse- og næringsstoffluxvektorerne af den 11-dimensionelle kombination til 3D.Motivationen for at anvende t-SNE kan sammenlignes med motivationen for principal component analysis (PCA), som bruger variansattributten til at understrege arealet/attributten af dataene og derved reducere dimensionaliteten.t-SNE-metoden viste sig at være overlegen i forhold til PCA ved at give pålidelige og reproducerbare resultater for økoministeriet (se note S2).Dette kan skyldes, at ortogonalitetsantagelsen af PCA ikke er egnet til at identificere kritiske interaktioner mellem meget ikke-lineære interaktive funktioner, fordi PCA fokuserer på lineære kovariansstrukturer (26).Ved at bruge fjernmålingsdata har Lunga et al.(27) illustrerer, hvordan man bruger SNE-metoden til at fremhæve komplekse og ikke-lineære spektrale træk, der afviger fra den Gaussiske fordeling.
(A) En modelleret næringsstoftilførselshastighed, fytoplankton- og zooplanktonfunktionel gruppebiomasse tegnet af t-SNE-algoritmen og farvet efter provins ved hjælp af DBSCAN.Hvert punkt repræsenterer et punkt i det højdimensionelle rum, som vist i figur 6B, de fleste punkter er fanget.Skakter refererer til "t-SNE" størrelse 1, 2 og 3. (B) Den geografiske projektion af provinsen fundet af DBSCAN på oprindelsens bredde- og længdegradsgitter.Farven skal betragtes som enhver farve, men skal svare til (A).
Punkterne i t-SNE spredningsplottet i figur 2A er henholdsvis forbundet med breddegrad og længdegrad.Hvis de to punkter i figur 2A er tæt på hinanden, er det fordi deres biomasse og næringsstofstrømme er ens, ikke på grund af geografisk nærhed.Farverne i figur 2A er klynger opdaget ved hjælp af DBSCAN-metoden (28).Når man leder efter tætte observationer, bruger DBSCAN-algoritmen afstanden i 3D-repræsentationen mellem punkterne (ϵ = 0,39; for information om dette valg, se Materialer og metoder), og antallet af lignende punkter er påkrævet for at definere klyngen (her) 100 point, se venligst ovenfor).DBSCAN-metoden gør ingen antagelser om formen eller antallet af klynger i dataene, som vist nedenfor:
3) For alle punkter identificeret som inden for afstanden inden for, gentag trin 2 iterativt for at bestemme klyngegrænsen.Hvis antallet af point er større end den indstillede minimumsværdi, betegnes det som en klynge.
Data, der ikke opfylder minimum klyngemedlem og afstand ϵ-metriske, betragtes som "støj" og tildeles ikke en farve.DBSCAN er en hurtig og skalerbar algoritme med O(n2) ydeevne i værste fald.For den aktuelle analyse er det faktisk ikke tilfældigt.Minimumsantallet af point bestemmes ved ekspertvurdering.Efter justering af afstanden efter, er resultatet ikke stabilt nok i området ≈±10.Denne afstand indstilles ved hjælp af tilslutningsmuligheder (Figur 6A) og havdækningsprocent (Figur 6B).Forbindelse er defineret som det sammensatte antal klynger og er følsomt over for ϵ-parameteren.Lavere tilslutningsmuligheder indikerer utilstrækkelig tilpasning, kunstigt gruppering af områder sammen.Høj tilslutning indikerer overfitting.Det er tænkeligt at bruge et højere minimum, men hvis minimum overstiger ca, er det umuligt at opnå en pålidelig løsning.135 (For flere detaljer, se Materialer og metoder).
De 115 klynger identificeret i figur 2A er projiceret tilbage på jorden i figur 2B.Hver farve svarer til en sammenhængende kombination af biogeokemiske og økologiske faktorer identificeret af DBSCAN.Når først klyngerne er bestemt, bruges associeringen af hvert punkt i figur 2A med en specifik bredde- og længdegrad til at projicere klyngerne tilbage til det geografiske område.Figur 2B illustrerer dette med de samme klyngefarver som figur 2A.Lignende farver bør ikke fortolkes som økologisk lighed, fordi de tildeles efter den rækkefølge, hvori klynger opdages af algoritmen.
Området i figur 2B kan kvalitativt ligne et etableret område i havets fysiske og/eller biogeokemi.For eksempel er klyngerne i det sydlige ocean zonesymmetriske, hvor der opstår oligotrofe hvirvler, og den skarpe overgang indikerer påvirkningen af passatvinde.For eksempel i det ækvatoriale Stillehav ses forskellige regioner relateret til stigningen.
For at forstå det økologiske miljø i Øko-provinsen blev en variation af Bray-Curtis (BC) forskelsindekset (29) brugt til at evaluere økologien i klyngen.BC-indikatoren er en statistisk data, der bruges til at kvantificere forskellen i samfundsstruktur mellem to forskellige steder.BC-målingen gælder for biomassen af 51 arter af planteplankton og zooplankton BCninj = 1-2CninjSni + Snj
BCninj refererer til ligheden mellem kombination ni og kombination nj, hvor Cninj er minimumsværdien af en enkelt type biomasse, der findes i begge kombinationer ni og nj, og Sni repræsenterer summen af alle biomasser, der findes i begge kombinationer ni og Snj.BC-forskellen svarer til afstandsmålet, men fungerer i ikke-euklidisk rum, som sandsynligvis vil være mere egnet til økologiske data og deres fortolkning.
For hver klynge identificeret i figur 2B kan ligheden mellem intra-provinsiel og inter-provinsiel BC vurderes.BC-forskellen inden for en provins refererer til forskellen mellem den gennemsnitlige værdi af provinsen og hvert punkt i provinsen.Forskellen mellem BC-provinser refererer til ligheden mellem en provins og andre provinser.Figur 3A viser en symmetrisk BC-matrix (0, sort: fuldstændigt tilsvarende; 1, hvid: fuldstændig uens).Hver linje i grafen viser et mønster i dataene.Figur 3B viser den geografiske betydning af resultaterne af BC i figur 3A for hver provins.For en provins i et område med lav ernæring og lavt næringsstof, viser figur 3B, at symmetrien af store områder omkring ækvator og Det Indiske Ocean grundlæggende er ens, men de højere breddegrader og opstrømningsområder er væsentligt forskellige.
(A) Graden af BC-forskel evalueret for hver provins baseret på det globale 20-årige gennemsnitlige globale overfladegennemsnit på 51 plankton.Bemærk den forventede symmetri af værdierne.(B) Den rumlige projektion af en kolonne (eller række).For en provins i en dystrofisk cirkel blev den globale fordeling af BC-lighedsmålet evalueret, og det globale 20-årige gennemsnit blev evalueret.Sort (BC = 0) betyder det samme område, og hvid (BC = 1) betyder ingen lighed.
Figur 4A illustrerer forskellen i BC inden for hver provins i figur 2B.Bestemt ved at bruge den gennemsnitlige kombination af det gennemsnitlige areal i en klynge, og bestemme forskellen mellem BC og middelværdien af hvert gitterpunkt i provinsen, viser det, at SAGE-metoden godt kan adskille 51 arter baseret på den økologiske lighed Type af modeldata.Den samlede gennemsnitlige klynge BC-forskel af alle 51 typer er 0,102±0,0049.
(A, B og D) BC-forskellen inden for provinsen vurderes som den gennemsnitlige BC-forskel mellem hvert gitterpunktfællesskab og den gennemsnitlige provins, og kompleksiteten reduceres ikke.(2) Den globale gennemsnitlige intra-provinsielle BC-forskel er 0,227±0,117.Dette er benchmark for økologisk motivationsbaseret klassificering foreslået af dette arbejde [grøn linje i (C)].(C) Gennemsnitlig intra-provinsiel BC-forskel: Den sorte linje repræsenterer den intra-provinsielle BC-forskel med stigende kompleksitet.2σ kommer fra 10 gentagelser af øko-provinsens identifikationsprocessen.For den samlede kompleksitet af provinserne opdaget af DBSCAN, viser (A), at BC-uligheden i provinsen er 0,099, og kompleksitetsklassificeringen foreslået af (C) er 12, hvilket resulterer i en BC-ulighed på 0,200 i provinsen.som billedet viser.(D).
I figur 4B bruges biomassen af 51 planktontyper til at repræsentere den ækvivalente BC-forskel i Longhurst-provinsen.Det samlede gennemsnit for hver provins er 0,227, og standardafvigelsen for gitterpunkterne med reference til forskellen i BC-provinsen er 0,046.Dette er større end klyngen identificeret i figur 1B.I stedet, ved at bruge summen af de syv funktionelle grupper, steg den gennemsnitlige intra-sæson BC ulighed i Longhurst til 0,232.
Det globale øko-provinskort giver indviklede detaljer om unikke økologiske interaktioner, og der er foretaget forbedringer i brugen af hele økosystemstrukturen i Longhurst-provinsen.Økologiministeriet forventes at give indsigt i processen med at kontrollere det numeriske modeløkosystem, og denne indsigt vil hjælpe udforskningen af feltarbejdet.Med henblik på denne forskning er det ikke muligt fuldt ud at vise mere end hundrede provinser.Det næste afsnit introducerer SAGE-metoden, der opsummerer provinserne.
Et af formålene med provinsen er at fremme forståelsen af provinsens beliggenhed og ledelse.For at bestemme nødsituationer illustrerer metoden i figur 1B indlejring af økologisk lignende provinser.Øko-provinser er grupperet sammen baseret på økologisk lighed, og en sådan gruppering af provinser kaldes AEP.Indstil en justerbar "kompleksitet" baseret på det samlede antal provinser, der skal tages i betragtning.Udtrykket "kompleksitet" bruges, fordi det gør det muligt at justere niveauet af nødattributter.For at definere meningsfulde aggregeringer bruges den gennemsnitlige intra-provinsielle BC-forskel på 0,227 fra Longhurst som benchmark.Under dette benchmark anses de kombinerede provinser ikke længere for at være nyttige.
Som vist i figur 3B er de globale økologiske provinser sammenhængende.Ved at bruge inter-provinsielle BC-forskelle kan det ses, at nogle konfigurationer er meget "almindelige".Inspireret af genetik og grafteoretiske metoder bruges "forbundne grafer" til at sortere >100 provinser baseret på de provinser, der ligner dem mest."Connektivitet"-metrikken her bestemmes ved hjælp af inter-provinsiel BC-ulighed (30).Antallet af provinser med en større plads til klassificering af > 100 provinser kan heri betegnes som kompleksitet.AEP er et produkt, der kategoriserer mere end 100 provinser som de mest dominerende/nærmeste økologiske provinser.Hver økologisk provins er tildelt den dominerende/højt forbundne økologiske provins, der ligner dem mest.Denne aggregering bestemt af BC-forskellen tillader en indlejret tilgang til den globale økologi.
Den valgte kompleksitet kan være en hvilken som helst værdi fra 1 til den fuldstændige kompleksitet i fig.2A.Ved lavere kompleksitet kan AEP degenerere på grund af det probabilistiske dimensionsreduktionstrin (t-SNE).Degeneration betyder, at økologiske provinser kan tildeles forskellige AEP'er mellem iterationer og derved ændre det geografiske område, der dækkes.Figur 4C illustrerer spredningen af BC-uligheder inden for provinser i AEP'er med stigende kompleksitet på tværs af 10 implementeringer (illustration i figur 1B).I figur 4C er 2σ (blåt område) et mål for nedbrydning i 10 implementeringer, og den grønne linje repræsenterer Longhurst benchmark.Fakta har bevist, at kompleksiteten af 12 kan holde BC-forskellen i provinsen under Longhurst benchmark i alle implementeringer og opretholde en relativt lille 2σ nedbrydning.Sammenfattende er den anbefalede minimumskompleksitet 12 AEP'er, og den gennemsnitlige intra-provins BC-forskel evalueret ved brug af 51 planktontyper er 0,198±0,013, som vist i figur 4D.Ved at bruge summen af syv planktonfunktionelle grupper er den gennemsnitlige BC-forskel inden for provinsen 2σ i stedet for 0,198±0,004.Sammenligningen mellem BC-forskellene beregnet med den samlede biomasse af de syv funktionelle grupper eller biomassen af alle 51 planktontyper viser, at selvom SAGE-metoden er anvendelig til den 51-dimensionelle situation, er den for den samlede biomasse af de syv funktionelle grupper Til træning.
Afhængigt af formålet med enhver forskning, kan forskellige niveauer af kompleksitet overvejes.Regionale undersøgelser kan kræve fuld kompleksitet (dvs. alle 115 provinser).Som et eksempel og for klarhedens skyld kan du overveje den anbefalede minimumskompleksitet på 12.
Som et eksempel på anvendeligheden af SAGE-metoden bruges 12 AEP'er med en minimumskompleksitet på 12 her til at udforske kontrollen af nødsamfundsstrukturen.Figur 5 illustrerer de økologiske indsigter grupperet efter AEP (fra A til L): I Redfield støkiometri udføres geografisk udstrækning (Figur 5C), sammensætning af funktionel gruppe biomasse (Figur 5A) og næringsstofforsyning (Figur 5B) af N Zoomed.Forholdet (N:Si:P:Fe, 1:1:16:16×103) er vist.For sidstnævnte panel er P ganget med 16 og Fe ganget med 16×103, så søjlediagrammet svarer til fytoplanktons ernæringsmæssige behov.
Provinserne er klassificeret i 12 AEP'er A til L. (A) Biomasse (mgC/m3) af økosystemer i 12 provinser.(B) Næringsstofstrømningshastigheden for opløst uorganisk nitrogen (N), jern (Fe), fosfat (P) og kiselsyre (Si) (mmol/m3 pr. år).Fe og P ganges med henholdsvis 16 og 16×103, således at strimlerne standardiseres til fytoplanktonstøkiometrikrav.(C) Bemærk forskellen mellem polære områder, subtropiske cykloner og store sæsonbestemte / stigende regioner.Kontrolstationerne er markeret som følger: 1, SÆDER;2, ALOHA;3, station P;og 4, BATS.
Den identificerede AEP er unik.Der er en vis symmetri omkring ækvator i Atlanterhavet og Stillehavet, og et lignende, men udvidet område findes i Det Indiske Ocean.Nogle AEP'er omfavner den vestlige side af kontinentet i forbindelse med opstigningen.Sydpolens cirkumpolære strøm betragtes som et stort zonetræk.Subtropisk cyklon er en kompleks serie af oligotrofe AEP.I disse provinser er det velkendte mønster af biomasseforskelle mellem plankton-dominerede oligotrofe hvirvler og kiselalgerrige polære områder indlysende.
AEP'er med meget ens total fytoplanktonbiomasse kan have meget forskellige samfundsstrukturer og dække forskellige geografiske områder, såsom D, H og K, som har lignende total fytoplanktonbiomasse.AEP H findes hovedsageligt i det ækvatoriale Indiske Ocean, og der er flere diazotrofe bakterier.AEP D findes i flere bassiner, men den er særligt fremtrædende i Stillehavet omkring højudbytteområder omkring den ækvatoriale opstrømning.Formen på denne stillehavsprovins minder om et planetarisk bølgetog.Der er få diazobakterier i AEP D, og flere kegler.Sammenlignet med de to andre provinser findes AEP K kun i højlandet i det arktiske hav, og der er flere kiselalger og færre planktoner.Det er værd at bemærke, at mængden af plankton i disse tre regioner også er meget forskellig.Blandt dem er planktonindholdet af AEP K relativt lavt, mens AEP D og H er relativt højt.På trods af deres biomasse (og derfor ligner Chl-a), er disse provinser derfor ret forskellige: Chl-baserede provinstests fanger muligvis ikke disse forskelle.
Det er også indlysende, at nogle AEP'er med meget forskellig biomasse kan være ens med hensyn til fytoplanktonsamfundsstruktur.Dette er for eksempel synligt i AEP D og E. De er tæt på hinanden, og i Stillehavet er AEP E tæt på den højproduktive AEPJ.På samme måde er der ingen klar sammenhæng mellem fytoplanktonbiomasse og dyreplanktonoverflod.
AEP kan forstås ud fra de næringsstoffer, de får (figur 5B).Kiselalger findes kun, hvor der er rigeligt med kiselsyre.Generelt gælder det, at jo højere tilførslen af kiselsyre, jo højere er biomassen af kiselalger.Kiselalger kan ses i AEP A, J, K og L. Forholdet mellem kiselalgerbiomasse i forhold til andet fytoplankton bestemmes af det tilførte N, P og Fe i forhold til kiselalgerbehovet.For eksempel er AEP L domineret af kiselalger.Sammenlignet med andre næringsstoffer har Si den højeste forsyning.På trods af højere produktivitet har AEP J derimod færre kiselalger og mindre siliciumforsyning (alle og i forhold til andre næringsstoffer).
Diazoniumbakterier har evnen til at fiksere nitrogen, men vokser langsomt (31).De eksisterer side om side med andet fytoplankton, hvor jern og fosfor er for høje i forhold til efterspørgslen efter ikke-diazonium næringsstoffer (20, 21).Det er værd at bemærke, at den diazotrofe biomasse er relativt høj, og tilførslen af Fe og P er relativt stor i forhold til tilførslen af N. På denne måde, selvom den samlede biomasse i AEP J er højere, er diazoniumbiomassen i AEP H større end i J. Bemærk venligst, at AEP J og H er geografisk meget forskellige, og H ligger i det ækvatoriale Indiske Ocean.
Hvis den unikke økosystemstruktur ikke er opdelt i provinser, vil indsigten fra de 12 AEP's laveste kompleksitetsmodeller ikke være så klar.AEP genereret af SAGE letter den sammenhængende og samtidige sammenligning af kompleks og højdimensionel information fra økosystemmodeller.AEP understreger effektivt, hvorfor Chl ikke er en god og alternativ metode til at bestemme samfundsstruktur eller dyreplanktonoverflod ved højere næringsstofniveauer.En detaljeret analyse af igangværende forskningsemner ligger uden for denne artikels omfang.SAGE-metoden giver mulighed for at udforske andre mekanismer i modellen, som er nemmere at håndtere end punkt-til-punkt-visning.
SAGE-metoden foreslås for at hjælpe med at afklare ekstremt komplekse økologiske data fra globale fysiske/biogeokemiske/økosystemnumeriske modeller.Den økologiske provins bestemmes af den samlede biomasse af tværplanktonfunktionelle grupper, anvendelsen af t-SNE-sandsynlighedsdimensionalitetsreduktionsalgoritmen og klyngingen ved hjælp af den uovervågede ML-metode DBSCAN.Den interprovinsielle BC-forskel/grafteori for indlejringsmetode anvendes til at udlede en robust AEP, der kan bruges til global fortolkning.Med hensyn til konstruktion er Eco-provinsen og AEP unikke.AEP-nestingen kan justeres mellem den fulde kompleksitet af den oprindelige økologiske provins og den anbefalede minimumstærskel på 12 AEP'er.Indlejring og bestemmelse af minimumskompleksiteten af AEP betragtes som nøgletrin, fordi sandsynligheden for, at t-SNE degenererer AEP'er med <12 kompleksitet.SAGE-metoden er global, og dens kompleksitet spænder fra > 100 AEP'er til 12. For nemheds skyld er det nuværende fokus på kompleksiteten af 12 globale AEP'er.Fremtidig forskning, især regionale undersøgelser, kan finde en mindre rumlig delmængde af de globale øko-provinser nyttig og kan samles i et mindre område for at drage fordel af de samme økologiske indsigter, der er diskuteret her.Den giver forslag til, hvordan disse økologiske provinser og den indsigt, der opnås fra dem, kan bruges til yderligere økologisk forståelse, lette modelsammenligning og potentielt forbedre overvågningen af marine økosystemer.
Den økologiske provins og AEP identificeret ved SAGE-metoden er baseret på dataene i den numeriske model.Per definition er den numeriske model en forenklet struktur, der forsøger at fange essensen af målsystemet, og forskellige modeller vil have forskellig fordeling af plankton.Den numeriske model, der er brugt i denne undersøgelse, kan ikke fuldt ud fange nogle af de observerede mønstre (for eksempel i Chl-estimaterne for ækvatorialregionen og det sydlige ocean).Kun en lille del af mangfoldigheden i det virkelige hav er fanget, og meso- og sub-mesoskalaen kan ikke opløses, hvilket kan påvirke næringsstofstrømmen og samfundsstrukturen i mindre skala.På trods af disse mangler viser det sig, at AEP er meget nyttig til at hjælpe med at forstå komplekse modeller.Ved at evaluere, hvor lignende økologiske provinser findes, giver AEP et potentielt værktøj til sammenligning af numeriske modeller.Den nuværende numeriske model fanger det overordnede mønster af fjernmåling af phytoplankton Chl-a-koncentration og fordelingen af planktonstørrelse og funktionel gruppe (Note S1 og Figur S1) (2, 32).
Som vist ved 0,1 mgChl-a/m-3 konturlinjen er AEP opdelt i oligotrofiske områder og mesotrofiske områder (figur S1B): AEP B, C, D, E, F og G er oligotrofe områder, og de resterende områder er beliggende højere Chl-a.AEP viser en vis korrespondance med Longhurst-provinsen (figur S3A), for eksempel det sydlige ocean og det ækvatoriale Stillehav.I nogle regioner dækker AEP flere Longhurst-regioner og omvendt.Da hensigten med at afgrænse provinser i dette område og Longhurst er anderledes, forventes det, at der vil være forskelle.Flere AEP'er i en Longhurst-provins indikerer, at visse områder med lignende biogeokemi kan have meget forskellige økosystemstrukturer.AEP udviser en vis overensstemmelse med fysiske tilstande, som afsløret ved hjælp af uovervåget læring (19), såsom i høje opwellende stater (for eksempel det sydlige ocean og det ækvatoriale Stillehav; figur S3, C og D).Disse korrespondancer indikerer, at planktons samfundsstruktur er stærkt påvirket af havets dynamik.I områder som Nordatlanten krydser AEP fysiske provinser.Mekanismen, der forårsager disse forskelle, kan omfatte processer som støvtransport, som kan føre til helt forskellige ernæringsprogrammer selv under lignende fysiske forhold.
Økologiministeriet og AEP påpegede, at anvendelse af Chl alene ikke kan identificere økologiske komponenter, som det havøkologiske samfund allerede har indset.Dette ses i AEP'er med lignende biomasse, men signifikant forskellig økologisk sammensætning (såsom D og E).I modsætning hertil har AEP'er som D og K meget forskellig biomasse, men ens økologisk sammensætning.AEP understreger, at forholdet mellem biomasse, økologisk sammensætning og dyreplanktonoverflod er komplekst.For eksempel, selvom AEP J skiller sig ud med hensyn til fytoplankton og planktonbiomasse, har AEP's A og L lignende planktonbiomasse, men A har en højere planktonoverflod.AEP understreger, at fytoplanktonbiomasse (eller Chl) ikke kan bruges til at forudsige zooplanktonbiomasse.Zooplankton er grundlaget for fiskeriets fødekæde, og mere nøjagtige skøn kan føre til bedre ressourceforvaltning.Fremtidige marine farvesatellitter [for eksempel PACE (plankton, aerosol, sky og marine økosystem)] kan være bedre positioneret til at hjælpe med at estimere samfundsstrukturen af fytoplankton.Brug af AEP-forudsigelse kan potentielt lette estimeringen af zooplankton fra rummet.Metoder som SAGE, kombineret med nye teknologier og flere og flere feltdata, der er tilgængelige for jordsandhedsundersøgelser (såsom Tara og opfølgende forskning), kan i fællesskab tage et skridt hen imod satellitbaseret økosystemsundhedsovervågning.
SAGE-metoden giver en bekvem måde at evaluere nogle mekanismer, der kontrollerer provinsens karakteristika, såsom biomasse/Chl, netto primærproduktion og samfundsstruktur.For eksempel er den relative mængde af kiselalger sat af en ubalance i tilførslen af Si, N, P og Fe i forhold til fytoplanktonets støkiometriske krav.Ved en afbalanceret udbudshastighed er samfundet domineret af kiselalger (L).Når forsyningshastigheden er ubalanceret (det vil sige, at forsyningen af silicium er lavere end kiselalgernes næringsstofbehov), udgør kiselalger kun en lille del Andel (K).Når tilførslen af Fe og P overstiger tilførslen af N (for eksempel E og H), vil de diazotrofe bakterier vokse kraftigt.Gennem den kontekst, som AEP giver, vil udforskningen af kontrolmekanismer blive mere nyttig.
Økoprovinsen og AEP er områder med lignende samfundsstrukturer.Tidsserierne fra et bestemt sted inden for en økologisk provins eller AEP kan betragtes som et referencepunkt og kan repræsentere det område, der er dækket af den økologiske provins eller AEP.Langsigtede overvågningsstationer på stedet giver sådanne tidsserier.Langsigtede in-situ datasæt vil fortsat spille en uoverskuelig rolle.Ud fra overvågningen af samfundsstrukturen kan SAGE-metoden ses som en måde at hjælpe med at bestemme den mest nyttige placering af nye steder.For eksempel er tidsserien fra den langsigtede oligotrofiske habitatvurdering (ALOHA) i AEP B i det oligotrofe område (Figur 5C, etiket 2).Fordi ALOHA er tæt på grænsen til en anden AEP, er tidsserien muligvis ikke repræsentativ for hele området, som tidligere foreslået (33).I samme AEP B er tidsserien SEATS (Southeast Asian Time Series) placeret i det sydvestlige Taiwan (34), længere fra grænserne for andre AEP'er (Figur 5C, etiket 1), og kan bruges som et bedre sted at overvåge AEPB.BATS-tidsserien (Bermuda Atlantic Time Series Study) (Figur 5C, etiket 4) i AEPC er meget tæt på grænsen mellem AEP C og F, hvilket indikerer, at overvågning af AEP C ved hjælp af BATS-tidsserier kan være direkte problematisk.Station P i AEP J (Figur 5C, etiket 3) er langt fra AEP-grænsen, så den er mere repræsentativ.Eco-provinsen og AEP kan hjælpe med at etablere en overvågningsramme, der er egnet til at vurdere globale ændringer, fordi provinsernes tilladelse til at vurdere, hvor prøvetagning på stedet kan give nøgleindsigt.SAGE-metoden kan videreudvikles til at blive anvendt på klimadata for at vurdere tidsbesparende variabilitet.
Succesen med SAGE-metoden opnås gennem omhyggelig anvendelse af datavidenskab/ML-metoder og domænespecifik viden.Specifikt bruges t-SNE til at udføre dimensionalitetsreduktion, som bevarer kovariansstrukturen af højdimensionelle data og letter visualisering af kovarianstopologi.Dataene er arrangeret i form af striber og kovarianser (Figur 2A), hvilket indikerer, at rent afstandsbaserede mål (såsom K-midler) ikke er passende, fordi de normalt bruger en Gaussisk (cirkulær) basisfordeling (diskuteret i Note S2) .DBSCAN-metoden er velegnet til enhver kovarianstopologi.Så længe du er opmærksom på indstilling af parametre, kan pålidelig identifikation tilvejebringes.Beregningsomkostningerne for t-SNE-algoritmen er høje, hvilket begrænser dens nuværende anvendelse til en større mængde data, hvilket betyder, at den er svær at anvende på dybe eller tidsvarierende felter.Arbejdet med skalerbarheden af t-SNE er i gang.Da KL-afstand er let at parallelisere, har t-SNE-algoritmen et godt potentiale for udvidelse i fremtiden (35).Indtil videre omfatter andre lovende dimensionalitetsreduktionsmetoder, der bedre kan reducere størrelsen, unified manifold approksimation and projection (UMAP) teknikker, men evaluering i sammenhæng med havdata er nødvendig.Betydningen af bedre skalerbarhed er for eksempel at klassificere globale klimaer eller modeller med forskellig kompleksitet på et blandet lag.Områder, der ikke kan klassificeres af SAGE i nogen provins, kan betragtes som de resterende sorte prikker i figur 2A.Geografisk er disse områder hovedsageligt i meget sæsonbetonede områder, hvilket tyder på, at indfangning af økologiske provinser, der ændrer sig over tid, vil give bedre dækning.
For at konstruere SAGE-metoden er der brugt ideer fra komplekse systemer/datavidenskab ved at bruge evnen til at bestemme klynger af funktionelle grupper (muligheden for at være meget tæt i et 11-dimensionelt rum) og bestemme provinser.Disse provinser afbilder specifikke volumener i vores 3D t-SNE faserum.På samme måde kan Poincaré-delen bruges til at evaluere "volumen" af det tilstandsrum, der er optaget af banen for at bestemme "normal" eller "kaotisk" adfærd (36).For det statiske 11-dimensionelle modeloutput kan volumen optaget, efter at dataene er konverteret til et 3D-faserum, forklares på samme måde.Forholdet mellem geografisk område og område i 3D-faserum er ikke simpelt, men det kan forklares ud fra økologisk lighed.Af denne grund foretrækkes det mere konventionelle BC-ulighedsmål.
Fremtidigt arbejde vil genbruge SAGE-metoden til sæsonbestemte data for at vurdere den rumlige variabilitet af de identificerede provinser og AEP.Det fremtidige mål er at bruge denne metode til at hjælpe med at bestemme, hvilke provinser der kan bestemmes gennem satellitmålinger (såsom Chl-a, fjernmålingsreflektivitet og havoverfladetemperatur).Dette vil muliggøre fjernmålingsvurdering af økologiske komponenter og meget fleksibel overvågning af økologiske provinser og deres variabilitet.
Formålet med denne forskning er at introducere SAGE-metoden, som definerer en økologisk provins gennem dens unikke planktonsamfundsstruktur.Her vil der blive givet mere detaljeret information om den fysiske/biogeokemiske/økosystemmodel og parametervalg af t-SNE og DBSCAN algoritmerne.
De fysiske komponenter i modellen kommer fra estimering af havcirkulation og klima [ECCOv4;(37) den globale tilstandsvurdering beskrevet af (38).Den nominelle opløsning af statsestimat er 1/5.Mindste kvadraters metode med Lagrangian multiplikator metode bruges til at opnå start- og randbetingelser og interne modelparametre justeret ved observation, hvorved der genereres en fritløbende MIT generel cyklusmodel (MITgcm) (39), modellen Efter optimering kan resultaterne spores og observeres.
Biogeokemien/økosystemet har en mere fuldstændig beskrivelse (dvs. ligninger og parameterværdier) i (2).Modellen fanger cirkulationen af C, N, P, Si og Fe gennem uorganiske og organiske damme.Den version, der bruges her, omfatter 35 arter af fytoplankton: 2 arter af mikroprokaryoter og 2 arter af mikroeukaryoter (velegnet til miljøer med lavt næringsstof), 5 arter af Cryptomonas sphaeroides (med calciumcarbonatbelægning), 5 arter af diazonium (Kan fiksere nitrogen, så det er ikke begrænset) tilgængeligheden af opløst uorganisk nitrogen), 11 kiselalger (danner et kiselholdigt dæksel), 10 blandede vegetative flagellater (kan fotosyntetisere og spise andet plankton) og 16 Zooplankton (græsser på andet plankton).Disse kaldes "biogeokemiske funktionelle grupper", fordi de har forskellige effekter på marin biogeokemi (40, 41) og bruges ofte i observations- og modelstudier.I denne model er hver funktionel gruppe sammensat af flere planktoner af forskellige størrelser med et spænd på 0,6 til 2500 μm ækvivalent sfærisk diameter.
De parametre, der påvirker fytoplanktonvækst, afgræsning og synkning er relateret til størrelse, og der er specifikke forskelle mellem de seks funktionelle fytoplanktongrupper (32).På trods af de forskellige fysiske rammer er resultaterne af modellens 51 planktonkomponenter blevet brugt i en række nyere undersøgelser (42-44).
Fra 1992 til 2011 kørte den fysisk/biogeokemiske/økosystemkoblingsmodel i 20 år.Modellens output inkluderer planktonbiomasse, næringsstofkoncentration og næringsstoftilførselshastighed (DIN, PO4, Si og Fe).I denne undersøgelse blev det 20-årige gennemsnit af disse output brugt som input fra den økologiske provins.Chl, fordelingen af planktonbiomasse og næringsstofkoncentration og fordelingen af funktionelle grupper sammenlignes med satellit- og in-situ observationer [se (2, 44), Note S1 og figur.S1 til S3].
For SAGE-metoden kommer hovedkilden til tilfældighed fra t-SNE-trinnet.Tilfældighed hindrer gentagelse, hvilket betyder, at resultaterne er upålidelige.SAGE-metoden tester strengt robustheden ved at bestemme et sæt parametre for t-SNE og DBSCAN, som konsekvent kan identificere klynger, når de gentages.Bestemmelse af "forvirringen" af t-SNE-parameteren kan forstås som at bestemme, i hvilken grad kortlægningen fra høje til lave dimensioner skal respektere de lokale eller globale karakteristika for dataene.Nåede forvirringen af 400 og 300 iterationer.
For klyngealgoritmen DBSCAN skal minimumsstørrelsen og afstandsmetrikken for datapunkterne i klyngen bestemmes.Minimumsantallet fastlægges under vejledning af eksperter.Denne viden ved, hvad der passer til den nuværende numeriske modelleringsramme og opløsning.Minimumsantallet er 100. En højere minimumsværdi (mindre end <135 før den øvre grænse for green bliver bredere) kan overvejes, men den kan ikke erstatte aggregeringsmetoden baseret på BC-forskel.Tilslutningsgraden (figur 6A) bruges til at indstille ϵ-parameteren, hvilket er befordrende for højere dækning (figur 6B).Forbindelse er defineret som det sammensatte antal klynger og er følsomt over for ϵ-parameteren.Lavere tilslutningsmuligheder indikerer utilstrækkelig tilpasning, kunstigt gruppering af områder sammen.Høj tilslutning indikerer overfitting.Overfitting er også problematisk, fordi det viser, at indledende tilfældige gæt kan føre til ureproducerbare resultater.Mellem disse to yderpunkter indikerer en kraftig stigning (normalt kaldet "albue") den bedste ϵ.I figur 6A ser du en kraftig stigning i plateauområdet (gul, > 200 klynger), efterfulgt af et kraftigt fald (grøn, 100 klynger), op til omkring 130, omgivet af meget få klynger (blå, <60 klynger) ).I mindst 100 blå områder dominerer enten én klynge hele havet (ϵ <0,42), eller det meste af havet er ikke klassificeret og betragtes som støj (ϵ> 0,99).Det gule område har en meget variabel, ikke-reproducerbar klyngefordeling.Når ϵ falder, øges støjen.Det stærkt stigende grønne område kaldes en albue.Dette er en optimal region.Selvom sandsynligheden t-SNE bruges, kan BC-forskellen inden for provinsen stadig bruges til at bestemme pålidelig klyngedannelse.Indstil ϵ til 0,39 ved hjælp af figur 6 (A og B).Jo større minimumstal, jo mindre er sandsynligheden for at nå den ϵ, der tillader pålidelig klassificering, og jo større er det grønne område med en værdi større end 135. Forstørrelsen af dette område indikerer, at albuen vil være sværere at finde eller ikke- eksisterende.
Efter indstilling af parametrene for t-SNE, vil det samlede antal fundne klynger blive brugt som et mål for tilslutning (A) og procentdelen af data allokeret til klyngen (B).Den røde prik angiver den bedste kombination af dækning og tilslutning.Minimumsantallet er fastsat i henhold til minimumsantallet relateret til økologi.
For supplerende materialer til denne artikel, se venligst http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Dette er en artikel med åben adgang distribueret under vilkårene i Creative Commons Attribution License.Artiklen tillader ubegrænset brug, distribution og reproduktion i ethvert medie under forudsætning af, at det originale værk er korrekt citeret.
Bemærk: Vi beder dig kun om at oplyse din e-mailadresse, så den person, du anbefaler til siden, ved, at du ønsker, at de skal se e-mailen, og at det ikke er spam.Vi vil ikke fange nogen e-mailadresser.
Dette spørgsmål bruges til at teste, om du er en besøgende og forhindre automatisk indsendelse af spam.
Det globale ministerium for havøkologi er fast besluttet på at løse komplekse problemer og bruger uovervåget ML til at udforske samfundsstrukturer.
Det globale ministerium for havøkologi er fast besluttet på at løse komplekse problemer og bruger uovervåget ML til at udforske samfundsstrukturer.
Indlægstid: 12-jan-2021