En uovervåket læringsmetode foreslås for å bestemme globale marine økologiske provinser (øko-provinser) basert på planktonsamfunnsstruktur og næringsfluksdata.Metoden for systematisk integrert økologisk provins (SAGE) kan identifisere økologiske provinser i svært ikke-lineære økosystemmodeller.For å tilpasse seg den ikke-Gaussiske kovariansen til dataene, bruker SAGE t random neighbor embedding (t-SNE) for å redusere dimensjonaliteten.Ved hjelp av støyapplikasjonen basert på den tetthetsbaserte spatial clustering (DBSCAN) algoritmen, kan mer enn hundre økologiske provinser identifiseres.Ved å bruke tilkoblingskartet med økologiske forskjeller som et avstandsmål, er en robust aggregert økologisk provins (AEP) objektivt definert gjennom nestede økologiske provinser.Ved å bruke AEPer ble kontrollen av næringstilførselshastigheten på samfunnsstrukturen utforsket.Eco-provinsen og AEP er unike og kan hjelpe til med modelltolkning.De kan lette sammenligninger mellom modeller og kan øke forståelsen og overvåkingen av marine økosystemer.
Provinser er regioner der kompleks biogeografi på havet eller på land er organisert i sammenhengende og meningsfulle områder (1).Disse provinsene er svært viktige for å sammenligne og kontrastere steder, karakterisere observasjoner, overvåking og beskyttelse.De komplekse og ikke-lineære interaksjonene som produserer disse provinsene gjør metoder for uovervåket maskinlæring (ML) svært egnet for å bestemme provinser objektivt, fordi kovariansen i dataene er kompleks og ikke-Gaussisk.Her foreslås en ML-metode, som systematisk identifiserer unike marine økologiske provinser (øko-provinser) fra Darwins globale tredimensjonale (3D) fysiske/økosystemmodell (2).Begrepet "unikt" brukes for å indikere at det identifiserte området ikke i tilstrekkelig grad overlapper andre områder.Denne metoden kalles System Integrated Ecological Province (SAGE)-metoden.For å utføre nyttig klassifisering, må en algoritmemetode tillate (i) global klassifisering og (ii) multiskalaanalyse som kan nestes/aggregeres i rom og tid (3).I denne forskningen ble SAGE-metoden først foreslått og de identifiserte økologiske provinsene ble diskutert.Økoprovinser kan fremme forståelse av faktorene som styrer samfunnsstrukturen, gi nyttig innsikt for overvåkingsstrategier og bidra til å spore endringer i økosystemet.
Terrestriske provinser klassifiseres vanligvis etter likheter i klima (nedbør og temperatur), jord, vegetasjon og fauna, og brukes til hjelpeforvaltning, forskning på biologisk mangfold og sykdomskontroll (1, 4).Marine provinser er vanskeligere å definere.De fleste organismer er mikroskopiske, med flytende grenser.Longhurst et al.(5) Gir en av de første globale klassifiseringene til departementet for oseanografi basert på miljøforhold.Definisjonen av disse "Longhurst"-provinsene inkluderer variabler som blandingshastighet, stratifisering og irradians, samt Longhursts omfattende erfaring som marin oseanograf, som har andre viktige forhold for marine økosystemer.Longhurst har blitt brukt mye, for eksempel for å vurdere primærproduksjon og karbonflukser, hjelpe fiskeri og planlegge in situ observasjonsaktiviteter (5-9).For å definere provinser mer objektivt er det brukt metoder som fuzzy logic og regional uovervåket klynging/statistikk (9-14).Hensikten med slike metoder er å identifisere meningsfulle strukturer som kan identifisere provinser i tilgjengelige observasjonsdata.For eksempel bruker dynamiske marine provinser (12) selvorganiserende kart for å redusere støy, og bruker hierarkisk (trebasert) klynging for å bestemme marine fargeprodukter avledet fra regionale satellitter [klorofyll a (Chl-a), normalisert fluorescenslinjehøyde og farget oppløst organisk materiale] og fysisk felt (havoverflatetemperatur og saltholdighet, absolutt dynamisk topografi og havis).
Samfunnsstrukturen til plankton er bekymringsfull fordi dens økologi har stor innflytelse på høyere næringsnivåer, karbonabsorpsjon og klima.Likevel er det fortsatt et utfordrende og unnvikende mål å bestemme en global økologisk provins basert på planktonsamfunnsstrukturen.Marine fargesatellitter kan potensielt gi innsikt i den grovkornede klassifiseringen av planteplankton eller foreslå fordelene med funksjonelle grupper (15), men de er foreløpig ikke i stand til å gi detaljert informasjon om samfunnsstruktur.Nylige undersøkelser [f.eks. Tara Ocean (16)] gir enestående målinger av samfunnsstruktur;foreløpig er det kun sparsomme observasjoner in situ på global skala (17).Tidligere studier har i stor grad bestemt "Biogeochemical Province" (12, 14, 18) basert på bestemmelse av biokjemiske likheter (som primærproduksjon, Chl og tilgjengelig lys).Her brukes den numeriske modellen for å produsere [Darwin(2)], og den økologiske provinsen bestemmes i henhold til samfunnsstrukturen og næringsfluksen.Den numeriske modellen brukt i denne studien har global dekning og kan sammenlignes med eksisterende feltdata (17) og fjernmålingsfelt (merknad S1).De numeriske modelldataene som brukes i denne studien har fordelen av global dekning.Modelløkosystemet består av 35 arter av planteplankton og 16 arter av dyreplankton (se materialer og metoder).Modellplanktontyper samhandler ikke-lineært med ikke-Gaussiske kovariansstrukturer, så enkle diagnostiske metoder er ikke egnet for å identifisere unike og konsistente mønstre i nye samfunnsstrukturer.SAGE-metoden introdusert her gir en ny måte å sjekke utdataene fra komplekse Darwin-modeller.
De kraftige transformative egenskapene til datavitenskap/ML-teknologi kan gjøre det mulig for overveldende komplekse modellløsninger å avsløre komplekse, men robuste strukturer i datakovarians.En robust metode er definert som en metode som trofast kan gjengi resultatene innenfor et gitt feilområde.Selv i enkle systemer kan det være en utfordring å bestemme robuste mønstre og signaler.Inntil begrunnelsen som fører til det observerte mønsteret er bestemt, kan den nye kompleksiteten virke komplisert/vanskelig å løse.Nøkkelprosessen for å sette sammensetningen av økosystemet er ikke-lineær i naturen.Eksistensen av ikke-lineære interaksjoner kan forvirre robust klassifisering, så det er nødvendig å unngå metoder som gjør sterke antagelser om den grunnleggende statistiske fordelingen av datakovarians.Høydimensjonale og ikke-lineære data er vanlige i oseanografi og kan ha en kovariansstruktur med kompleks, ikke-Gaussisk topologi.Selv om data med en ikke-Gaussisk kovariansstruktur kan hindre robust klassifisering, er SAGE-metoden ny fordi den er designet for å identifisere klynger med vilkårlige topologier.
Målet med SAGE-metoden er å objektivt identifisere nye mønstre som kan bidra til ytterligere økologisk forståelse.Etter en klyngebasert arbeidsflyt som ligner på (19), brukes de økologiske og næringsfluksvariablene for å bestemme den eneste klyngen i dataene, kalt den økologiske provinsen.SAGE-metoden foreslått i denne studien (figur 1) reduserer først dimensjonaliteten fra 55 til 11 dimensjoner ved å summere planktonfunksjonelle grupper definert a priori (se Materialer og metoder).Ved å bruke metoden t-random neighbor embedding (t-SNE) reduseres størrelsen ytterligere ved å projisere sannsynligheten inn i 3D-rommet.Uovervåket clustering kan identifisere økologisk nære områder [tetthetsbasert romlig clustering (DBSCAN) for støybaserte applikasjoner].Både t-SNE og DBSCAN er anvendelige for de iboende ikke-lineære økosystemets numeriske modelldata.Deretter projiserer den resulterende økologiske provinsen på jorden.Mer enn hundre unike økologiske provinser er identifisert, egnet for regional forskning.For å vurdere den globalt konsistente økosystemmodellen, brukes SAGE-metoden til å aggregere de økologiske provinsene til aggregerte økologiske provinser (AEP) for å forbedre effektiviteten til de økologiske provinsene.Aggregeringsnivået (kalt "kompleksitet") kan justeres til detaljnivået som kreves.Bestem minimumskompleksiteten til en robust AEP.Fokuset for utvalget er SAGE-metoden og å utforske de minste komplekse AEP-sakene for å bestemme kontrollen av krisesamfunnsstrukturen.Mønstrene kan deretter analyseres for å gi økologisk innsikt.Metoden som er introdusert her kan også brukes for modellsammenligning mer omfattende, for eksempel ved å evaluere plasseringen av lignende økologiske provinser funnet i forskjellige modeller for å fremheve forskjeller og likheter, for å sammenligne modeller.
(A) Skjematisk diagram av arbeidsflyten for å bestemme den økologiske provinsen;bruke summen i den funksjonelle gruppen for å redusere de opprinnelige 55-dimensjonale dataene til en 11-dimensjonal modellutgang, inkludert biomassen til syv funksjonelt/næringsplankton og fire næringstilførselsrater.Ubetydelig verdi og holdbart isdekkeområde.Dataene har blitt standardisert og standardisert.Gi 11-dimensjonale data til t-SNE-algoritmen for å fremheve statistisk lignende funksjonskombinasjoner.DBSCAN vil nøye velge klyngen for å angi parameterverdien.Projiser til slutt dataene tilbake til breddegrad/lengdegradsprojeksjonen.Vær oppmerksom på at denne prosessen gjentas 10 ganger fordi en liten tilfeldighet kan genereres ved å bruke t-SNE.(B) forklarer hvordan du får AEP ved å gjenta arbeidsflyten i (A) 10 ganger.For hver av disse 10 implementeringene ble den inter-provinsielle Bray-Curtis (BC) ulikhetsmatrisen bestemt basert på biomassen til 51 planteplanktontyper.Bestem BC-forskjellen mellom provinser, fra kompleksitet 1 AEP til full kompleksitet 115. BC-referansen er satt av Longhurst-provinsen.
SAGE-metoden bruker utdata fra den globale 3D fysiske/økosystem-numeriske modellen for å definere den økologiske provinsen [Darwin (2);se materialer og metoder og note S1].Komponentene i økosystemet er sammensatt av 35 arter av planteplankton og 16 arter av dyreplankton, med syv forhåndsdefinerte funksjonelle grupper: prokaryoter og eukaryoter tilpasset miljøer med lite næringsstoffer, koksidier med kalsiumkarbonatbelegg og tung nitrogenfiksering Nitrogennæringsstoffer mangler (vanligvis mangler) viktige næringsstoffer), med kiselholdig dekning, kan lage annen planktonfotosyntese og beite blandede næringsstoffflagellater og dyreplanktongjetere.Størrelsesspennet er 0,6 til 2500 μm ekvivalent sfærisk diameter.Modellfordelingen av planteplanktonstørrelse og funksjonell gruppering fanger opp de generelle egenskapene sett i satellitt- og in-situ-observasjoner (se figurene S1 til S3).Likheten mellom den numeriske modellen og det observerte havet indikerer at provinser definert av modellen kan være anvendelige for in-situ havet.Vær oppmerksom på at denne modellen bare fanger opp et visst mangfold av planteplankton, og bare visse fysiske og kjemiske kraftområder i in situ-havet.SAGE-metoden kan gjøre det mulig for folk å bedre forstå den svært regionale kontrollmekanismen til modellsamfunnsstrukturen.
Ved å inkludere kun summen av overflatebiomasse (med en gjennomsnittlig tid på 20 år) i hver plankton funksjonell gruppe, kan dimensjonaliteten til dataene reduseres.Etter at tidligere studier viste deres nøkkelrolle i å sette samfunnsstrukturen, inkluderte den også overflatekildetermer for næringsflukser (tilførsel av nitrogen, jern, fosfat og kiselsyre) [f.eks. (20, 21)].Summen av funksjonelle grupper reduserer problemet fra 55 (51 plankton- og 4 næringsflukser) til 11 dimensjoner.I denne innledende studien, på grunn av beregningsbegrensningene pålagt av algoritmen, ble dybde- og tidsvariabilitet ikke vurdert.
SAGE-metoden er i stand til å identifisere viktige forhold mellom ikke-lineære prosesser og nøkkeltrekk ved interaksjoner mellom funksjonell gruppebiomasse og næringsfluks.Å bruke 11-dimensjonale data basert på euklidiske fjernundervisningsmetoder (som K-means) kan ikke oppnå pålitelige og reproduserbare provinser (19, 22).Dette er fordi det ikke finnes noen gaussisk form i den grunnleggende fordelingen av kovariansen til nøkkelelementene som definerer den økologiske provinsen.K-midlene til Voronoi-celler (rette linjer) kan ikke beholde den ikke-Gaussiske grunnfordelingen.
Biomassen til syv planktonfunksjonelle grupper og fire næringsflukser danner en 11-dimensjonal vektor x.Derfor er x et vektorfelt på modellnettet, der hvert element xi representerer en 11-dimensjonal vektor definert på modellens horisontale rutenett.Hver indeks i identifiserer unikt et rutenettpunkt på sfæren, der (lon, lat) = (ϕi, θi).Hvis biomassen til modellnettenheten er mindre enn 1,2×10-3mg Chl/m3 eller isdekningsgraden overstiger 70 %, brukes loggen over biomassedata og kastes.Dataene er normalisert og standardisert, så alle data er i området [0 til 1], gjennomsnittet fjernes og skaleres til enhetsvarians.Dette gjøres slik at funksjonene (biomasse og næringsfluks) ikke begrenses av kontrasten i rekkevidden av mulige verdier.Clustering bør fange opp endringsforholdet fra nøkkelsannsynlighetsavstanden mellom funksjonene i stedet for den geografiske avstanden.Ved å kvantifisere disse avstandene kommer viktige funksjoner frem, samtidig som unødvendige detaljer forkastes.Fra et økologisk synspunkt er dette nødvendig fordi enkelte typer planteplankton med lite biomasse kan ha større biogeokjemiske effekter, som nitrogenfiksering av diazotrofe bakterier.Ved standardisering og normalisering av data vil disse typer kovariater fremheves.
Ved å understreke nærheten til funksjoner i høydimensjonalt rom i lavdimensjonal representasjon, brukes t-SNE-algoritmen for å gjøre eksisterende lignende regioner klarere.Tidligere arbeid rettet mot å bygge dype nevrale nettverk for fjernmålingsapplikasjoner brukte t-SNE, som beviste sin ferdighet i å skille nøkkelfunksjoner (23).Dette er et nødvendig skritt for å identifisere robust klynging i funksjonsdataene samtidig som man unngår ikke-konvergerende løsninger (merknad S2).Ved å bruke gaussiske kjerner, bevarer t-SNE de statistiske egenskapene til dataene ved å kartlegge hvert høydimensjonalt objekt til et punkt i 3D-faserommet, og dermed sikre at sannsynligheten for lignende objekter i høy- og lavretningen er høy i en høy- dimensjonalt rom (24).Gitt et sett med N høydimensjonale objekter x1,...,xN, reduseres t-SNE-algoritmen ved å minimere Kullback-Leibler (KL) divergensen (25).KL-divergens er et mål på hvor forskjellig en sannsynlighetsfordeling er fra en andre referansesannsynlighetsfordeling, og kan effektivt evaluere muligheten for korrelasjon mellom lavdimensjonale representasjoner av høydimensjonale trekk.Hvis xi er det i-te objektet i N-dimensjonalt rom, er xj det j-te objektet i N-dimensjonalt rom, yi er det i-te objektet i lavdimensjonalt rom, og yj er det j-te objektet i lavt -dimensjonalt rom, så definerer t -SNE likhetssannsynligheten ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), og for dimensjonalitetsreduksjonssettet q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Figur 2A illustrerer effekten av å redusere biomasse- og næringsfluksvektorene til den 11-dimensjonale kombinasjonen til 3D.Motivasjonen for å bruke t-SNE kan sammenlignes med motivasjonen for hovedkomponentanalyse (PCA), som bruker variansattributtet for å understreke arealet/attributtet til dataene, og dermed redusere dimensjonaliteten.t-SNE-metoden ble funnet å være overlegen PCA når det gjelder å gi pålitelige og reproduserbare resultater for økodepartementet (se note S2).Dette kan skyldes at ortogonalitetsantakelsen til PCA ikke er egnet for å identifisere kritiske interaksjoner mellom svært ikke-lineære interaktive funksjoner, fordi PCA fokuserer på lineære kovariansstrukturer (26).Ved å bruke fjernmålingsdata, Lunga et al.(27) illustrerer hvordan man bruker SNE-metoden for å fremheve komplekse og ikke-lineære spektrale trekk som avviker fra Gauss-fordelingen.
(A) En modellert næringstilførselshastighet, plante- og dyreplanktonfunksjonell gruppebiomasse tegnet av t-SNE-algoritmen og farget etter provins ved hjelp av DBSCAN.Hvert punkt representerer et punkt i det høydimensjonale rommet, som vist i figur 6B, de fleste punktene er fanget.Sjakter refererer til "t-SNE" størrelse 1, 2 og 3. (B) Den geografiske projeksjonen av provinsen funnet av DBSCAN på breddegrad-lengdegrad-nettet til opprinnelsen.Fargen skal betraktes som hvilken som helst farge, men skal svare til (A).
Punktene i t-SNE spredningsplottet i figur 2A er henholdsvis assosiert med breddegrad og lengdegrad.Hvis de to punktene i figur 2A er nær hverandre, er det fordi deres biomasse- og næringsflukser er like, ikke på grunn av geografisk nærhet.Fargene i figur 2A er klynger oppdaget ved hjelp av DBSCAN-metoden (28).Når man leter etter tette observasjoner, bruker DBSCAN-algoritmen avstanden i 3D-representasjonen mellom punktene (ϵ = 0,39; for informasjon om dette valget, se Materialer og metoder), og antall lignende punkter kreves for å definere klyngen (her) 100 poeng, se ovenfor).DBSCAN-metoden gjør ingen antakelser om formen eller antallet klynger i dataene, som vist nedenfor:
3) For alle punkter identifisert som innenfor avstanden innenfor, gjenta trinn 2 iterativt for å bestemme klyngegrensen.Hvis antall poeng er større enn den angitte minimumsverdien, utpekes det som en klynge.
Data som ikke oppfyller minimum klyngemedlem og avstand ϵ-metriske regnes som "støy" og er ikke tildelt en farge.DBSCAN er en rask og skalerbar algoritme med O(n2) ytelse i verste fall.For den nåværende analysen er det faktisk ikke tilfeldig.Minste antall poeng fastsettes ved ekspertvurdering.Etter justering av avstanden etter, er resultatet ikke stabilt nok i området ≈±10.Denne avstanden angis ved hjelp av tilkobling (Figur 6A) og havdekningsprosent (Figur 6B).Tilkobling er definert som det sammensatte antallet klynger og er følsomt for ϵ-parameteren.Lavere tilkobling indikerer utilstrekkelig tilpasning, kunstig gruppering av områder.Høy tilkobling indikerer overmontering.Det kan tenkes å bruke et høyere minimum, men dersom minimum overstiger ca, er det umulig å oppnå en pålitelig løsning.135 (For flere detaljer, se Materialer og metoder).
De 115 klyngene identifisert i figur 2A er projisert tilbake på jorden i figur 2B.Hver farge tilsvarer en sammenhengende kombinasjon av biogeokjemiske og økologiske faktorer identifisert av DBSCAN.Når klyngene er bestemt, brukes assosiasjonen av hvert punkt i figur 2A med en spesifikk breddegrad og lengdegrad for å projisere klyngene tilbake til det geografiske området.Figur 2B illustrerer dette med de samme klyngefargene som figur 2A.Lignende farger bør ikke tolkes som økologisk likhet, fordi de tildeles i rekkefølgen som klynger oppdages av algoritmen.
Området i figur 2B kan kvalitativt ligne på et etablert område i havets fysiske og/eller biogeokjemi.For eksempel er klyngene i Sørishavet sonesymmetriske, med oligotrofe virvler som vises, og den skarpe overgangen indikerer påvirkning av passatvinden.For eksempel, i det ekvatoriale Stillehavet, sees forskjellige regioner relatert til økningen.
For å forstå det økologiske miljøet i Øko-provinsen, ble en variant av Bray-Curtis (BC) forskjellsindeksen (29) brukt for å evaluere økologien i klyngen.BC-indikatoren er statistiske data som brukes til å kvantifisere forskjellen i fellesskapsstruktur mellom to forskjellige nettsteder.BC-målingen gjelder biomassen til 51 arter av planteplankton og dyreplankton BCninj = 1-2CninjSni + Snj
BCninj refererer til likheten mellom kombinasjon ni og kombinasjon nj, der Cninj er minimumsverdien av en enkelt type biomasse som finnes i begge kombinasjonene ni og nj, og Sni representerer summen av alle biomasser som finnes i begge kombinasjonene ni og Snj.BC-forskjellen ligner avstandsmålet, men opererer i ikke-euklidisk rom, som sannsynligvis vil være mer egnet for økologiske data og tolkningen av dem.
For hver klynge identifisert i figur 2B, kan likheten mellom intra-provinsiell og inter-provinsiell BC vurderes.BC-forskjellen i en provins refererer til forskjellen mellom gjennomsnittsverdien av provinsen og hvert punkt i provinsen.Forskjellen mellom BC-provinser refererer til likheten mellom en provins og andre provinser.Figur 3A viser en symmetrisk BC-matrise (0, svart: helt tilsvarende; 1, hvit: helt ulik).Hver linje i grafen viser et mønster i dataene.Figur 3B viser den geografiske betydningen av resultatene av BC i figur 3A for hver provins.For en provins i et lavernærings- og lavnæringsområde viser figur 3B at symmetrien til store områder rundt ekvator og Det indiske hav i utgangspunktet er lik, men de høyere breddegradene og oppvekstområdene er vesentlig forskjellige.
(A) Graden av BC-forskjell evaluert for hver provins basert på det globale 20-års gjennomsnittlige globale overflategjennomsnittet på 51 plankton.Legg merke til den forventede symmetrien til verdiene.(B) Den romlige projeksjonen av en kolonne (eller rad).For en provins i en dystrofisk sirkel ble den globale fordelingen av BC-likhetsmålet evaluert, og det globale 20-årsgjennomsnittet ble evaluert.Svart (BC = 0) betyr det samme området, og hvitt (BC = 1) betyr ingen likhet.
Figur 4A illustrerer forskjellen i BC innenfor hver provins i figur 2B.Bestemt ved å bruke gjennomsnittskombinasjonen av gjennomsnittlig areal i en klynge, og bestemme ulikheten mellom BC og gjennomsnittet for hvert rutenettpunkt i provinsen, viser det at SAGE-metoden godt kan skille 51 arter basert på den økologiske likheten Type av modelldata.Den generelle gjennomsnittlige klynge BC-forskjellen for alle 51 typene er 0,102±0,0049.
(A, B og D) BC-forskjellen i provinsen vurderes som den gjennomsnittlige BC-forskjellen mellom hvert nettpunktfellesskap og den gjennomsnittlige provinsen, og kompleksiteten reduseres ikke.(2) Den globale gjennomsnittlige intra-provinsielle BC-forskjellen er 0,227±0,117.Dette er referansen for økologisk motivasjonsbasert klassifisering foreslått av dette arbeidet [grønn linje i (C)].(C) Gjennomsnittlig intra-provinsiell BC-forskjell: Den svarte linjen representerer den intra-provinsielle BC-forskjellen med økende kompleksitet.2σ kommer fra 10 repetisjoner av øko-provinsidentifikasjonsprosessen.For den totale kompleksiteten til provinsene oppdaget av DBSCAN, viser (A) at BC-forskjellen i provinsen er 0,099, og kompleksitetsklassifiseringen foreslått av (C) er 12, noe som resulterer i en BC-forskjell på 0,200 i provinsen.som bildet viser.(D).
I figur 4B brukes biomassen til 51 planktontyper for å representere den ekvivalente BC-forskjellen i Longhurst-provinsen.Det totale gjennomsnittet for hver provins er 0,227, og standardavviket for rutenettpunktene med referanse til forskjellen i BC-provinsen er 0,046.Dette er større enn klyngen identifisert i figur 1B.I stedet, ved å bruke summen av de syv funksjonelle gruppene, økte den gjennomsnittlige intra-sesong BC ulikheten i Longhurst til 0,232.
Det globale øko-provinskartet gir intrikate detaljer om unike økologiske interaksjoner og forbedringer er gjort i bruk av hele økosystemstrukturen i Longhurst-provinsen.Økologidepartementet forventes å gi innsikt i prosessen med å kontrollere det numeriske modellens økosystem, og denne innsikten vil hjelpe utforskningen av feltarbeid.For formålet med denne forskningen er det ikke mulig å vise mer enn hundre provinser fullt ut.Den neste delen introduserer SAGE-metoden som oppsummerer provinsene.
Et av formålene med provinsen er å fremme forståelsen av beliggenheten og ledelsen av provinsen.For å bestemme nødsituasjoner, illustrerer metoden i figur 1B hekking av økologisk like provinser.Øko-provinser er gruppert sammen basert på økologisk likhet, og en slik gruppering av provinser kalles AEP.Angi en justerbar "kompleksitet" basert på det totale antallet provinser som skal vurderes.Begrepet "kompleksitet" brukes fordi det gjør det mulig å justere nivået på nødattributter.For å definere meningsfulle aggregasjoner, brukes den gjennomsnittlige intra-provinsielle BC-forskjellen på 0,227 fra Longhurst som referanse.Under denne målestokken anses ikke lenger de kombinerte provinsene som nyttige.
Som vist i figur 3B er de globale økologiske provinsene sammenhengende.Ved å bruke inter-provinsielle BC-forskjeller, kan det sees at noen konfigurasjoner er veldig "vanlige".Inspirert av genetikk og grafteoretiske metoder, brukes "koblede grafer" til å sortere >100 provinser basert på provinsene som ligner mest på dem."Connektivitet"-beregningen her bestemmes ved å bruke inter-provinsiell BC-forskjellighet (30).Antall provinser med større plass for klassifisering av > 100 provinser kan her refereres til som kompleksitet.AEP er et produkt som kategoriserer mer enn 100 provinser som de mest dominerende/nærmeste økologiske provinsene.Hver økologisk provins er tilordnet den dominerende/svært tilknyttede økologiske provinsen som ligner mest på dem.Denne aggregeringen bestemt av BC-forskjellen tillater en nestet tilnærming til den globale økologien.
Den valgte kompleksiteten kan være en hvilken som helst verdi fra 1 til den fullstendige kompleksiteten på fig.2A.Ved lavere kompleksitet kan AEP degenerere på grunn av trinnet for probabilistisk dimensjonalitetsreduksjon (t-SNE).Degenerasjon betyr at økologiske provinser kan tildeles forskjellige AEP-er mellom iterasjoner, og dermed endre det geografiske området som dekkes.Figur 4C illustrerer spredningen av BC-ulikheter i provinser i AEP-er med økende kompleksitet på tvers av 10 implementeringer (illustrasjon i figur 1B).I figur 4C er 2σ (blått område) et mål på degradering i 10 implementeringer, og den grønne linjen representerer Longhurst-referansen.Fakta har bevist at kompleksiteten til 12 kan holde BC-forskjellen i provinsen under Longhurst-standarden i alle implementeringer og opprettholde en relativt liten 2σ-degradering.Oppsummert er minimum anbefalt kompleksitet 12 AEPs, og den gjennomsnittlige BC-forskjellen i provinsen evaluert ved bruk av 51 planktontyper er 0,198±0,013, som vist i figur 4D.Ved å bruke summen av syv funksjonelle planktongrupper, er den gjennomsnittlige BC-forskjellen i provinsen 2σ i stedet for 0,198±0,004.Sammenligningen mellom BC-forskjellene beregnet med den totale biomassen til de syv funksjonelle gruppene eller biomassen til alle 51 planktontyper viser at selv om SAGE-metoden er anvendelig for den 51-dimensjonale situasjonen, er den for den totale biomassen til de syv funksjonelle gruppene For trening.
Avhengig av formålet med enhver forskning, kan ulike nivåer av kompleksitet vurderes.Regionale studier kan kreve full kompleksitet (dvs. alle 115 provinser).Som et eksempel og for klarhet, vurder minimum anbefalt kompleksitet på 12.
Som et eksempel på nytten av SAGE-metoden, brukes 12 AEP-er med en minimumskompleksitet på 12 her for å utforske kontrollen av krisesamfunnsstrukturen.Figur 5 illustrerer den økologiske innsikten gruppert etter AEP (fra A til L): I Redfield støkiometri utføres geografisk utstrekning (Figur 5C), funksjonell gruppe biomassesammensetning (Figur 5A) og næringstilførsel (Figur 5B) av N Zoomed.Forholdet (N:Si:P:Fe, 1:1:16:16×103) er vist.For sistnevnte panel multipliseres P med 16 og Fe multiplisert med 16×103, slik at søylediagrammet tilsvarer næringsbehovet til planteplankton.
Provinsene er klassifisert i 12 AEPs A til L. (A) Biomasse (mgC/m3) av økosystemer i 12 provinser.(B) Næringsflukshastigheten for oppløst uorganisk nitrogen (N), jern (Fe), fosfat (P) og kiselsyre (Si) (mmol/m3 per år).Fe og P multipliseres med henholdsvis 16 og 16×103, slik at stripene standardiseres til fytoplanktonstøkiometrikrav.(C) Legg merke til forskjellen mellom polare områder, subtropiske sykloner og store sesongmessige / stigende regioner.Overvåkingsstasjonene er merket som følger: 1, SETER;2, ALOHA;3, stasjon P;og 4, BATS.
Den identifiserte AEP er unik.Det er en viss symmetri rundt ekvator i Atlanterhavet og Stillehavet, og et lignende, men utvidet område finnes i Det indiske hav.Noen AEP-er omfavner den vestlige siden av kontinentet knyttet til oppstigningen.Sørpolens sirkumpolare strøm blir sett på som et stort sonetrekk.Subtropisk syklon er en kompleks serie av oligotrofe AEP.I disse provinsene er det kjente mønsteret av biomasseforskjeller mellom planktondominerte oligotrofe virvler og kiselalgerrike polare områder åpenbart.
AEP-er med veldig lik total planteplanktonbiomasse kan ha svært forskjellige samfunnsstrukturer og dekke forskjellige geografiske områder, som D, H og K, som har lignende total planteplanktonbiomasse.AEP H finnes hovedsakelig i det ekvatoriale Indiahavet, og det er flere diazotrofe bakterier.AEP D finnes i flere bassenger, men den er spesielt fremtredende i Stillehavet rundt høyavkastningsområder rundt ekvatorial oppstrømning.Formen til denne stillehavsprovinsen minner om et planetarisk bølgetog.Det er få diazobakterier i AEP D, og flere kjegler.Sammenlignet med de to andre provinsene finnes AEP K bare i høylandet i Polhavet, og det er flere kiselalger og færre planktoner.Det er verdt å merke seg at mengden plankton i disse tre regionene også er svært forskjellig.Blant dem er planktonmengden til AEP K relativt lav, mens den til AEP D og H er relativt høy.Derfor, til tross for deres biomasse (og derfor lik Chl-a), er disse provinsene ganske forskjellige: Chl-basert provinstesting fanger kanskje ikke opp disse forskjellene.
Det er også åpenbart at noen AEP-er med svært forskjellig biomasse kan være like når det gjelder planteplanktonsamfunnsstruktur.Dette er for eksempel synlig i AEP D og E. De er nær hverandre, og i Stillehavet er AEP E nær den høyproduktive AEPJ.Tilsvarende er det ingen klar sammenheng mellom planteplanktonbiomasse og dyreplanktonoverflod.
AEP kan forstås i form av næringsstoffene som de får (Figur 5B).Kiselalger eksisterer bare der det er god tilgang på kiselsyre.Generelt, jo høyere tilførsel av kiselsyre, jo høyere er biomassen av kiselalger.Kiselalger kan sees i AEP A, J, K og L. Forholdet mellom kiselalgerbiomasse i forhold til annet planteplankton bestemmes av N, P og Fe tilført i forhold til kiselalgerbehovet.For eksempel er AEP L dominert av kiselalger.Sammenlignet med andre næringsstoffer har Si høyest tilførsel.Til tross for høyere produktivitet har AEP J derimot færre kiselalger og mindre silisiumtilførsel (alle og i forhold til andre næringsstoffer).
Diazoniumbakterier har evnen til å fiksere nitrogen, men vokser sakte (31).De eksisterer side om side med annet planteplankton, der jern og fosfor er for høyt i forhold til etterspørselen etter ikke-diazoniumnæringsstoffer (20, 21).Det er verdt å merke seg at den diazotrofe biomassen er relativt høy, og tilgangen på Fe og P er relativt stor i forhold til tilgangen på N. På denne måten, selv om den totale biomassen i AEP J er høyere, er diazoniumbiomassen i AEP H større enn den i J. Vær oppmerksom på at AEP J og H er geografisk svært forskjellige, og H ligger i det ekvatoriale Indiahavet.
Hvis den unike økosystemstrukturen ikke er delt inn i provinser, vil ikke innsikten fra 12 AEPs laveste kompleksitetsmodeller være så tydelig.AEP generert av SAGE forenkler den sammenhengende og samtidige sammenligningen av kompleks og høydimensjonal informasjon fra økosystemmodeller.AEP understreker effektivt hvorfor Chl ikke er en god og alternativ metode for å bestemme samfunnsstruktur eller dyreplanktonoverflod ved høyere næringsnivåer.En detaljert analyse av pågående forskningstemaer ligger utenfor rammen av denne artikkelen.SAGE-metoden gir en måte å utforske andre mekanismer i modellen som er lettere å håndtere enn punkt-til-punkt-visning.
SAGE-metoden er foreslått for å bidra til å klargjøre ekstremt komplekse økologiske data fra globale fysiske/biogeokjemiske/økosystem numeriske modeller.Den økologiske provinsen bestemmes av den totale biomassen av funksjonelle grupper på tvers av plankton, anvendelsen av t-SNE sannsynlighetsdimensjonalitetsreduksjonsalgoritme og klyngingen ved bruk av den uovervåkede ML-metoden DBSCAN.Den interprovinsielle BC-forskjellen/grafteorien for hekkemetoden brukes for å utlede en robust AEP som kan brukes for global tolkning.Konstruksjonsmessig er Eco-Province og AEP unike.AEP-hekkingen kan justeres mellom den fulle kompleksiteten til den opprinnelige økologiske provinsen og den anbefalte minimumsterskelen på 12 AEPer.Nesting og bestemmelse av minimumskompleksiteten til AEP betraktes som nøkkeltrinn, fordi sannsynligheten for at t-SNE degenererer AEPer med <12 kompleksitet.SAGE-metoden er global, og dens kompleksitet varierer fra > 100 AEP-er til 12. For enkelhets skyld er dagens fokus på kompleksiteten til 12 globale AEP-er.Fremtidig forskning, spesielt regionale studier, kan finne en mindre romlig delmengde av de globale økoprovinsene nyttig, og kan samles i et mindre område for å dra nytte av den samme økologiske innsikten som er diskutert her.Den gir forslag til hvordan disse økologiske provinsene og innsikten oppnådd fra dem kan brukes til ytterligere økologisk forståelse, lette modellsammenligning og potensielt forbedre overvåkingen av marine økosystemer.
Den økologiske provinsen og AEP identifisert av SAGE-metoden er basert på dataene i den numeriske modellen.Per definisjon er den numeriske modellen en forenklet struktur som prøver å fange essensen av målsystemet, og ulike modeller vil ha ulik fordeling av plankton.Den numeriske modellen brukt i denne studien kan ikke fullt ut fange noen av de observerte mønstrene (for eksempel i Chl-estimatene for ekvatorialregionen og Sørishavet).Bare en liten del av mangfoldet i det virkelige havet fanges opp, og meso- og sub-mesoskalaen kan ikke løses, noe som kan påvirke næringsfluks og mindre skala samfunnsstruktur.Til tross for disse manglene, viser det seg at AEP er svært nyttig for å hjelpe til med å forstå komplekse modeller.Ved å evaluere hvor lignende økologiske provinser finnes, gir AEP et potensielt verktøy for sammenligning av numeriske modeller.Den nåværende numeriske modellen fanger opp det generelle mønsteret for fjernmåling av planteplankton Chl-a-konsentrasjon og fordelingen av planktonstørrelse og funksjonell gruppe (merknad S1 og figur S1) (2, 32).
Som vist av 0,1 mgChl-a/m-3 konturlinjen, er AEP delt inn i oligotrofisk område og mesotrofisk område (Figur S1B): AEP B, C, D, E, F og G er oligotrofe områder, og de resterende områdene er ligger Høyere Chl-a.AEP viser noe korrespondanse med Longhurst-provinsen (Figur S3A), for eksempel Sørishavet og det ekvatoriale Stillehavet.I noen regioner dekker AEP flere Longhurst-regioner, og omvendt.Siden intensjonen om å avgrense provinser i dette området og Longhurst er annerledes, forventes det at det vil være forskjeller.Flere AEP-er i en Longhurst-provins indikerer at visse områder med lignende biogeokjemi kan ha svært forskjellige økosystemstrukturer.AEP viser en viss korrespondanse med fysiske tilstander, som avslørt ved bruk av uovervåket læring (19), for eksempel i høye oppvekststater (for eksempel Sørishavet og det ekvatoriale Stillehavet; figur S3, C og D).Disse korrespondansene indikerer at samfunnsstrukturen til plankton er sterkt påvirket av havdynamikk.I områder som Nord-Atlanteren, krysser AEP fysiske provinser.Mekanismen som forårsaker disse forskjellene kan inkludere prosesser som støvtransport, som kan føre til helt andre ernæringsprogrammer selv under lignende fysiske forhold.
Økologidepartementet og AEP påpekte at bruk av Chl alene ikke kan identifisere økologiske komponenter, slik det marine økologimiljøet allerede har innsett.Dette sees i AEP-er med lignende biomasse, men betydelig forskjellig økologisk sammensetning (som D og E).I motsetning til dette har AEP-er som D og K svært forskjellig biomasse, men lik økologisk sammensetning.AEP understreker at forholdet mellom biomasse, økologisk sammensetning og dyreplanktonoverflod er komplekst.For eksempel, selv om AEP J skiller seg ut når det gjelder planteplankton og planktonbiomasse, har AEPs A og L lignende planktonbiomasse, men A har en høyere planktonoverflod.AEP understreker at planteplanktonbiomasse (eller Chl) ikke kan brukes til å forutsi dyreplanktonbiomasse.Zooplankton er grunnlaget for fiskeriets næringskjede, og mer nøyaktige estimater kan føre til bedre ressursforvaltning.Fremtidige marine fargesatellitter [for eksempel PACE (plankton, aerosol, sky og marint økosystem)] kan være bedre posisjonert for å hjelpe til med å estimere samfunnsstrukturen til planteplankton.Å bruke AEP-prediksjon kan potensielt lette estimeringen av dyreplankton fra verdensrommet.Metoder som SAGE, kombinert med ny teknologi, og flere og flere feltdata tilgjengelig for bakkesannhetsundersøkelser (som Tara og følgeforskning), kan i fellesskap ta et skritt mot satellittbasert helseovervåking av økosystemer.
SAGE-metoden gir en praktisk måte å evaluere noen mekanismer som kontrollerer provinsens egenskaper, for eksempel biomasse/Chl, netto primærproduksjon og samfunnsstruktur.For eksempel er den relative mengden kiselalger satt av en ubalanse i tilførselen av Si, N, P og Fe i forhold til de støkiometriske kravene til planteplankton.Ved en balansert forsyningshastighet er samfunnet dominert av kiselalger (L).Når tilførselsraten er ubalansert (det vil si at tilgangen på silisium er lavere enn næringsbehovet til kiselalger), utgjør kiselalger kun en liten del Andel (K).Når tilgangen på Fe og P overstiger tilgangen på N (for eksempel E og H), vil de diazotrofe bakteriene vokse kraftig.Gjennom konteksten gitt av AEP, vil utforskningen av kontrollmekanismer bli mer nyttig.
Økoprovinsen og AEP er områder med lignende samfunnsstrukturer.Tidsserien fra et bestemt sted innenfor en økologisk provins eller AEP kan betraktes som et referansepunkt og kan representere området som dekkes av den økologiske provinsen eller AEP.Langsiktige overvåkingsstasjoner på stedet gir slike tidsserier.Langsiktige in-situ datasett vil fortsette å spille en uberegnelig rolle.Fra perspektivet til å overvåke fellesskapsstrukturen, kan SAGE-metoden sees på som en måte å hjelpe med å bestemme den mest nyttige plasseringen av nye nettsteder.For eksempel er tidsserien fra den langsiktige oligotrofiske habitatvurderingen (ALOHA) i AEP B i det oligotrofe området (Figur 5C, etikett 2).Fordi ALOHA er nær grensen til en annen AEP, kan det hende at tidsserien ikke er representativ for hele området, som tidligere antydet (33).I samme AEP B ligger tidsserien SEATS (Southeast Asian Time Series) i det sørvestlige Taiwan (34), lenger unna grensene til andre AEP-er (Figur 5C, etikett 1), og kan brukes som et bedre sted å overvåke AEPB.BATS-tidsserien (Bermuda Atlantic Time Series Study) (Figur 5C, etikett 4) i AEPC er svært nær grensen mellom AEP C og F, noe som indikerer at overvåking av AEP C ved bruk av BATS-tidsserier kan være direkte problematisk.Stasjon P i AEP J (Figur 5C, etikett 3) er langt fra AEP-grensen, så den er mer representativ.Økoprovinsen og AEP kan bidra til å etablere et overvåkingsrammeverk som er egnet for å vurdere globale endringer, fordi provinsenes tillatelse til å vurdere hvor prøvetaking på stedet kan gi nøkkelinnsikt.SAGE-metoden kan videreutvikles til å brukes på klimadata for å vurdere tidsbesparende variasjon.
Suksessen til SAGE-metoden oppnås gjennom nøye anvendelse av datavitenskap/ML-metoder og domenespesifikk kunnskap.Spesifikt brukes t-SNE til å utføre dimensjonalitetsreduksjon, som bevarer kovariansstrukturen til høydimensjonale data og letter visualisering av kovarianstopologi.Dataene er ordnet i form av striper og kovarianser (Figur 2A), noe som indikerer at rent avstandsbaserte mål (som K-midler) ikke er passende fordi de vanligvis bruker en Gaussisk (sirkulær) basisfordeling (diskutert i Note S2) .DBSCAN-metoden er egnet for enhver kovarianstopologi.Så lenge du legger merke til parametere, kan pålitelig identifikasjon gis.Beregningskostnaden for t-SNE-algoritmen er høy, noe som begrenser dens nåværende anvendelse til en større mengde data, noe som betyr at den er vanskelig å bruke på dype eller tidsvarierende felt.Arbeidet med skalerbarheten til t-SNE pågår.Siden KL-avstand er lett å parallellisere, har t-SNE-algoritmen et godt potensial for utvidelse i fremtiden (35).Så langt inkluderer andre lovende dimensjonalitetsreduksjonsmetoder som bedre kan redusere størrelsen unified manifold approksimation and projection (UMAP) teknikker, men evaluering i sammenheng med havdata er nødvendig.Betydningen av bedre skalerbarhet er for eksempel å klassifisere globale klimaer eller modeller med ulik kompleksitet på et blandet lag.Områder som ikke kan klassifiseres av SAGE i noen provins kan betraktes som de gjenværende svarte prikkene i figur 2A.Geografisk ligger disse områdene hovedsakelig i svært sesongbaserte områder, noe som tyder på at å fange økologiske provinser som endrer seg over tid vil gi bedre dekning.
For å konstruere SAGE-metoden har man brukt ideer fra komplekse systemer/datavitenskap, ved å bruke evnen til å bestemme klynger av funksjonelle grupper (muligheten for å være svært nær i et 11-dimensjonalt rom) og bestemme provinser.Disse provinsene viser spesifikke volumer i vårt 3D t-SNE faserom.På samme måte kan Poincaré-delen brukes til å evaluere "volumet" av tilstandsrommet som er okkupert av banen for å bestemme "normal" eller "kaotisk" oppførsel (36).For den statiske 11-dimensjonale modellutgangen kan volumet som er okkupert etter at dataene er konvertert til et 3D-faserom forklares på samme måte.Forholdet mellom geografisk område og område i 3D-faserom er ikke enkelt, men det kan forklares i form av økologisk likhet.Av denne grunn foretrekkes det mer konvensjonelle BC-ulikhetsmålet.
Fremtidig arbeid vil gjenbruke SAGE-metoden for sesongendrende data for å vurdere den romlige variabiliteten til de identifiserte provinsene og AEP.Det fremtidige målet er å bruke denne metoden for å hjelpe til med å bestemme hvilke provinser som kan bestemmes gjennom satellittmålinger (som Chl-a, fjernmålingsreflektivitet og havoverflatetemperatur).Dette vil tillate fjernmålingsvurdering av økologiske komponenter og svært fleksibel overvåking av økologiske provinser og deres variasjon.
Formålet med denne forskningen er å introdusere SAGE-metoden, som definerer en økologisk provins gjennom sin unike planktonsamfunnsstruktur.Her vil det bli gitt mer detaljert informasjon om den fysiske/biogeokjemiske/økosystemmodellen og parametervalget til t-SNE og DBSCAN algoritmene.
De fysiske komponentene i modellen kommer fra estimering av havsirkulasjon og klima [ECCOv4;(37) den globale tilstandsestimatet beskrevet av (38).Den nominelle oppløsningen for statsestimat er 1/5.Minste kvadraters metoden med Lagrangian multiplikatormetoden brukes for å oppnå start- og grensebetingelsene og interne modellparametere justert ved observasjon, for derved å generere en frittgående MIT generell syklusmodell (MITgcm) (39), modellen Etter optimalisering kan resultatene spores og observeres.
Biogeokjemien/økosystemet har en mer fullstendig beskrivelse (dvs. ligninger og parameterverdier) i (2).Modellen fanger opp sirkulasjonen av C, N, P, Si og Fe gjennom uorganiske og organiske dammer.Versjonen som brukes her inkluderer 35 arter av planteplankton: 2 arter av mikroprokaryoter og 2 arter av mikroeukaryoter (egnet for miljøer med lite næringsstoffer), 5 arter av Cryptomonas sphaeroides (med kalsiumkarbonatbelegg), 5 arter av diazonium ( Kan fikse nitrogen, så det er ikke begrenset) tilgjengeligheten av oppløst uorganisk nitrogen), 11 kiselalger (som danner et kiselholdig dekke), 10 blandede vegetative flagellater (kan fotosyntetisere og spise annet plankton) og 16 dyreplankton (beite på annet plankton).Disse kalles «biogeokjemiske funksjonelle grupper» fordi de har ulik effekt på marin biogeokjemi (40, 41) og brukes ofte i observasjons- og modellstudier.I denne modellen er hver funksjonsgruppe sammensatt av flere planktoner av forskjellige størrelser, med et spenn på 0,6 til 2500 μm ekvivalent sfærisk diameter.
Parametrene som påvirker planteplanktonvekst, beiting og synking er relatert til størrelse, og det er spesifikke forskjeller mellom de seks funksjonelle planteplanktongruppene (32).Til tross for de ulike fysiske rammeverkene har resultatene av de 51 planktonkomponentene i modellen blitt brukt i en rekke nyere studier (42-44).
Fra 1992 til 2011 gikk den fysiske/biogeokjemiske/økosystemkoblingsmodellen i 20 år.Resultatet av modellen inkluderer planktonbiomasse, næringskonsentrasjon og næringstilførselshastighet (DIN, PO4, Si og Fe).I denne studien ble 20-årsgjennomsnittet av disse utdataene brukt som input fra den økologiske provinsen.Chl, fordelingen av planktonbiomasse og næringskonsentrasjon og fordelingen av funksjonelle grupper sammenlignes med satellitt- og in-situ observasjoner [se (2, 44), Note S1 og figur.S1 til S3].
For SAGE-metoden kommer hovedkilden til tilfeldighet fra t-SNE-trinnet.Tilfeldighet hindrer repeterbarhet, noe som betyr at resultatene er upålitelige.SAGE-metoden tester robustheten grundig ved å bestemme et sett med parametere for t-SNE og DBSCAN, som konsekvent kan identifisere klynger når de gjentas.Å bestemme "forvirringen" til t-SNE-parameteren kan forstås som å bestemme i hvilken grad kartleggingen fra høye til lave dimensjoner skal respektere de lokale eller globale egenskapene til dataene.Nådde forvirringen av 400 og 300 iterasjoner.
For klyngealgoritmen DBSCAN, må minimumsstørrelsen og avstandsmetrikken for datapunktene i klyngen bestemmes.Minimumsantallet fastsettes under veiledning av eksperter.Denne kunnskapen vet hva som passer dagens numeriske modelleringsrammeverk og oppløsning.Minimumstallet er 100. En høyere minimumsverdi (mindre enn <135 før den øvre grensen for grønn blir bredere) kan vurderes, men den kan ikke erstatte aggregeringsmetoden basert på BC-forskjell.Graden av tilkobling (Figur 6A) brukes til å angi ϵ-parameteren, som bidrar til høyere dekning (Figur 6B).Tilkobling er definert som det sammensatte antallet klynger og er følsomt for ϵ-parameteren.Lavere tilkobling indikerer utilstrekkelig tilpasning, kunstig gruppering av områder.Høy tilkobling indikerer overmontering.Overtilpasning er også problematisk, fordi det viser at innledende tilfeldige gjetninger kan føre til ureproduserbare resultater.Mellom disse to ytterpunktene indikerer en kraftig økning (vanligvis kalt "albue") den beste ϵ.I figur 6A ser du en kraftig økning i platåområdet (gul,> 200 klynger), etterfulgt av en kraftig nedgang (grønn, 100 klynger), opp til ca. 130, omgitt av svært få klynger (blå, <60 klynger) ).I minst 100 blå områder dominerer enten én klynge hele havet (ϵ <0,42), eller det meste av havet er ikke klassifisert og regnes som støy (ϵ> 0,99).Det gule området har en svært variabel, ikke-reproduserbar klyngefordeling.Når ϵ avtar, øker støyen.Det sterkt økende grøntområdet kalles en albue.Dette er en optimal region.Selv om sannsynligheten t-SNE brukes, kan BC-forskjellen i provinsen fortsatt brukes til å bestemme pålitelig klynging.Bruk figur 6 (A og B), og sett ϵ til 0,39.Jo større minimumstall, jo mindre er sannsynligheten for å nå ϵ som tillater pålitelig klassifisering, og jo større er det grønne området med en verdi større enn 135. Forstørrelsen av dette området indikerer at albuen vil være vanskeligere å finne eller ikke- eksisterende.
Etter å ha angitt parameterne til t-SNE, vil det totale antallet klynger som er funnet, brukes som et mål på tilkobling (A) og prosentandelen av data som er allokert til klyngen (B).Den røde prikken indikerer den beste kombinasjonen av dekning og tilkobling.Minimumsantallet settes i henhold til minimumsantallet knyttet til økologi.
For tilleggsmateriell for denne artikkelen, se http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Dette er en åpen artikkel distribuert under vilkårene i Creative Commons Attribution License.Artikkelen tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium under forutsetning av at originalverket er korrekt sitert.
Merk: Vi ber deg kun oppgi e-postadressen din slik at personen du anbefaler til siden vet at du vil at de skal se e-posten og at det ikke er spam.Vi vil ikke fange opp noen e-postadresser.
Dette spørsmålet brukes til å teste om du er en besøkende og forhindre automatisk innsending av søppelpost.
Det globale departementet for marin økologi er fast bestemt på å løse komplekse problemer og bruker uovervåket ML for å utforske samfunnsstrukturer.
Det globale departementet for marin økologi er fast bestemt på å løse komplekse problemer og bruker uovervåket ML for å utforske samfunnsstrukturer.
Innleggstid: Jan-12-2021