En oövervakad inlärningsmetod föreslås för att fastställa globala marina ekologiska provinser (ekoprovinser) baserat på planktonsamhällets struktur och data om näringsflöden.Den systematiska integrerade ekologiska provinsen (SAGE)-metoden kan identifiera ekologiska provinser i mycket olinjära ekosystemmodeller.För att anpassa sig till den icke-Gaussiska kovariansen av data, använder SAGE t slumpmässig granninbäddning (t-SNE) för att minska dimensionaliteten.Med hjälp av bullerapplikationen baserad på densitetsbaserade spatialklustringsalgoritmen (DBSCAN) kan mer än hundra ekologiska provinser identifieras.Med hjälp av anslutningskartan med ekologiska skillnader som avståndsmått definieras en robust aggregerad ekologisk provins (AEP) objektivt genom kapslade ekologiska provinser.Med hjälp av AEPs undersöktes kontrollen av näringstillförselhastigheten på samhällsstrukturen.Eco-provinsen och AEP är unika och kan hjälpa till med modelltolkning.De kan underlätta jämförelser mellan modeller och kan förbättra förståelsen och övervakningen av marina ekosystem.
Provinser är regioner där komplex biogeografi på havet eller på land är organiserad i sammanhängande och meningsfulla områden (1).Dessa provinser är mycket viktiga för att jämföra och kontrastera platser, karakterisera observationer, övervakning och skydd.De komplexa och icke-linjära interaktionerna som producerar dessa provinser gör metoder för oövervakad maskininlärning (ML) mycket lämpliga för att bestämma provinser objektivt, eftersom kovariansen i data är komplex och icke-Gaussisk.Här föreslås en ML-metod, som systematiskt identifierar unika marina ekologiska provinser (ekoprovinser) från Darwins globala tredimensionella (3D) fysiska/ekosystemmodell (2).Termen "unik" används för att indikera att det identifierade området inte tillräckligt överlappar andra områden.Denna metod kallas SAGE-metoden (System Integrated Ecological Province).För att utföra användbar klassificering måste en algoritmmetod tillåta (i) global klassificering och (ii) multi-skala analys som kan kapslas/aggregeras i rum och tid (3).I denna forskning föreslogs först SAGE-metoden och de identifierade ekologiska provinserna diskuterades.Ekoprovinser kan främja förståelsen för de faktorer som styr samhällsstrukturen, ge användbara insikter för övervakningsstrategier och hjälpa till att spåra förändringar i ekosystemet.
Terrestra provinser klassificeras vanligtvis efter likheter i klimat (nederbörd och temperatur), jord, vegetation och fauna, och används för hjälpförvaltning, forskning om biologisk mångfald och sjukdomsbekämpning (1, 4).Marina provinser är svårare att definiera.De flesta organismer är mikroskopiska, med vätskegränser.Longhurst et al.(5) Tillhandahöll en av de första globala klassificeringarna av ministeriet för oceanografi baserat på miljöförhållanden.Definitionen av dessa "Longhurst"-provinser inkluderar variabler som blandningshastighet, stratifiering och irradians, samt Longhursts omfattande erfarenhet som marin oceanograf, som har andra viktiga förutsättningar för marina ekosystem.Longhurst har använts i stor utsträckning, till exempel för att bedöma primärproduktion och kolflöden, stödja fiske och planera in situ observationsaktiviteter (5-9).För att definiera provinser mer objektivt har metoder som fuzzy logic och regional oövervakad klustring/statistik använts (9-14).Syftet med sådana metoder är att identifiera meningsfulla strukturer som kan identifiera provinser i tillgängliga observationsdata.Till exempel använder dynamiska marina provinser (12) självorganiserande kartor för att minska brus, och använder hierarkisk (trädbaserad) klustring för att bestämma marina färgprodukter som härrör från regionala satelliter [klorofyll a (Chl-a), normaliserad fluorescenslinjehöjd och färgat löst organiskt material] och fysiskt fält (havsyttemperatur och salthalt, absolut dynamisk topografi och havsis).
Planktons samhällsstruktur är oroande eftersom dess ekologi har stor inverkan på högre näringsnivåer, kolabsorption och klimat.Ändå är det fortfarande ett utmanande och svårfångat mål att fastställa en global ekologisk provins baserat på planktonsamhällets struktur.Marina färgsatelliter kan potentiellt ge insikter i den grovkorniga klassificeringen av växtplankton eller föreslå fördelarna med funktionella grupper (15), men de kan för närvarande inte ge detaljerad information om samhällsstrukturen.Nyligen genomförda undersökningar [t.ex. Tara Ocean (16)] ger oöverträffade mätningar av samhällsstrukturen;för närvarande finns det bara glesa in-situ observationer på global skala (17).Tidigare studier har till stor del bestämt den "Biogeokemiska provinsen" (12, 14, 18) baserat på bestämning av biokemiska likheter (såsom primärproduktion, Chl och tillgängligt ljus).Här används den numeriska modellen för att producera [Darwin(2)], och den ekologiska provinsen bestäms enligt samhällsstrukturen och näringsflödet.Den numeriska modellen som används i denna studie har global täckning och kan jämföras med befintliga fältdata (17) och fjärranalysfält (Anm. S1).De numeriska modelldata som används i denna studie har fördelen av global täckning.Modellekosystemet består av 35 arter av växtplankton och 16 arter av djurplankton (se material och metoder).Modellplanktontyper interagerar olinjärt med icke-Gaussiska kovariansstrukturer, så enkla diagnostiska metoder är inte lämpliga för att identifiera unika och konsekventa mönster i framväxande samhällsstrukturer.SAGE-metoden som introduceras här ger ett nytt sätt att kontrollera resultatet av komplexa Darwin-modeller.
Datavetenskapens/ML-teknikens kraftfulla transformativa förmåga kan göra det möjligt för överväldigande komplexa modelllösningar att avslöja komplexa men robusta strukturer i datakovarians.En robust metod definieras som en metod som troget kan återge resultaten inom ett givet felintervall.Även i enkla system kan det vara en utmaning att fastställa robusta mönster och signaler.Tills skälet som leder till det observerade mönstret är fastställt kan den framväxande komplexiteten tyckas komplicerad/svår att lösa.Nyckelprocessen för att fastställa ekosystemets sammansättning är olinjär till sin natur.Förekomsten av icke-linjära interaktioner kan förvirra robust klassificering, så det är nödvändigt att undvika metoder som gör starka antaganden om den grundläggande statistiska fördelningen av datakovarians.Högdimensionella och olinjära data är vanliga inom oceanografi och kan ha en kovariansstruktur med komplex, icke-Gaussisk topologi.Även om data med en icke-Gaussisk kovariansstruktur kan hindra robust klassificering, är SAGE-metoden ny eftersom den är utformad för att identifiera kluster med godtyckliga topologier.
Målet med SAGE-metoden är att objektivt identifiera framväxande mönster som kan bidra till ytterligare ekologisk förståelse.Efter ett klusterbaserat arbetsflöde som liknar (19), används de ekologiska och näringsmässiga flödesvariablerna för att bestämma det enda klustret i data, som kallas den ekologiska provinsen.SAGE-metoden som föreslagits i denna studie (Figur 1) reducerar först dimensionaliteten från 55 till 11 dimensioner genom att summera de planktonfunktionella grupperna definierade a priori (se Material och metoder).Genom att använda t-random neighbor embedding-metoden (t-SNE) reduceras storleken ytterligare genom att projicera sannolikheten i 3D-utrymmet.Oövervakad klustring kan identifiera ekologiskt närliggande områden [densitetsbaserad spatial klustring (DBSCAN) för bullerbaserade applikationer].Både t-SNE och DBSCAN är tillämpliga på de inneboende icke-linjära ekosystemets numeriska modelldata.Projektera sedan om den resulterande ekologiska provinsen på jorden.Mer än hundra unika ekologiska provinser har identifierats, lämpliga för regional forskning.För att överväga den globalt konsekventa ekosystemmodellen används SAGE-metoden för att aggregera de ekologiska provinserna till aggregerade ekologiska provinser (AEP) för att förbättra effektiviteten i de ekologiska provinserna.Aggregeringsnivån (kallad "komplexitet") kan justeras till den detaljnivå som krävs.Bestäm minsta komplexitet för en robust AEP.Fokus för urvalet är SAGE-metoden och att utforska de minsta komplexa AEP-fallen för att bestämma kontrollen av nödsamhällesstrukturen.Mönstren kan sedan analyseras för att ge ekologiska insikter.Metoden som introduceras här kan också användas för att jämföra modeller mer omfattande, till exempel genom att utvärdera placeringen av liknande ekologiska provinser som finns i olika modeller för att belysa skillnader och likheter, för att jämföra modeller.
(A) Schematiskt diagram över arbetsflödet för att bestämma den ekologiska provinsen;använda summan i den funktionella gruppen för att reducera de ursprungliga 55-dimensionella data till en 11-dimensionell modellutgång, inklusive biomassan av sju funktionellt/näringsämnesplankton och fyra näringstillförselhastigheter.Försumbart värde och hållbart istäckesområde.Uppgifterna har standardiserats och standardiserats.Tillhandahåll 11-dimensionell data till t-SNE-algoritmen för att lyfta fram statistiskt liknande funktionskombinationer.DBSCAN kommer noggrant att välja klustret för att ställa in parametervärdet.Projicera slutligen data tillbaka till latitud/longitudprojektionen.Observera att denna process upprepas 10 gånger eftersom en liten slumpmässighet kan genereras genom att tillämpa t-SNE.(B) förklarar hur man får AEP genom att upprepa arbetsflödet i (A) 10 gånger.För var och en av dessa 10 implementeringar bestämdes den interprovinsiella Bray-Curtis (BC) olikhetsmatrisen baserat på biomassan av 51 växtplanktontyper.Bestäm BC-skillnaden mellan provinser, från komplexitet 1 AEP till full komplexitet 115. BC-riktmärket sätts av Longhurst-provinsen.
SAGE-metoden använder utdata från den globala 3D fysiska/ekosystem-numeriska modellen för att definiera den ekologiska provinsen [Darwin (2);se Material och metoder och not S1].Ekosystemets komponenter är sammansatta av 35 arter av växtplankton och 16 arter av djurplankton, med sju fördefinierade funktionella grupper: prokaryoter och eukaryoter anpassade till miljöer med låga näringsämnen, koccidier med en kalciumkarbonatbeläggning och kraftig kvävefixering Kvävenäringsämnen saknas (vanligtvis saknas). viktiga näringsämnen), med kiselhaltig täckning, kan göra andra planktonfotosynteser och bete blandade näringsämnen flagellater och djurplanktonskötare.Storleksspannet är 0,6 till 2500 μm ekvivalent sfärisk diameter.Modellfördelningen av växtplanktonstorlek och funktionell gruppering fångar de övergripande egenskaperna som ses i satellit- och in-situ-observationer (se figurerna S1 till S3).Likheten mellan den numeriska modellen och det observerade havet indikerar att provinser som definieras av modellen kan vara tillämpliga på in-situ oceanen.Observera att denna modell endast fångar en viss mångfald av växtplankton och endast vissa fysiska och kemiska kraftområden i in situ-havet.SAGE-metoden kan göra det möjligt för människor att bättre förstå den mycket regionala kontrollmekanismen för modellgemenskapsstrukturen.
Genom att endast inkludera summan av ytbiomassa (med en genomsnittlig tid på 20 år) i varje funktionell planktongrupp, kan dimensionaliteten hos datan reduceras.Efter att tidigare studier visat deras nyckelroll i att fastställa samhällsstrukturen, inkluderade den också ytkällastermer för näringsflöden (tillförsel av kväve, järn, fosfat och kiselsyra) [t.ex. (20, 21)].Summeringen av funktionella grupper minskar problemet från 55 (51 plankton och 4 näringsflöden) till 11 dimensioner.I denna första studie, på grund av de beräkningsbegränsningar som algoritmen ålägger, beaktades inte djup- och tidsvariabilitet.
SAGE-metoden kan identifiera viktiga samband mellan icke-linjära processer och nyckelfunktioner i interaktioner mellan funktionell gruppbiomassa och näringsflöde.Att använda 11-dimensionell data baserad på euklidiska distansutbildningsmetoder (som K-means) kan inte erhålla tillförlitliga och reproducerbara provinser (19, 22).Detta beror på att ingen gaussisk form finns i den grundläggande fördelningen av kovariansen av de nyckelelement som definierar den ekologiska provinsen.K-medel för Voronoi-celler (räta linjer) kan inte behålla den icke-Gaussiska grundfördelningen.
Biomassan av sju planktonfunktionella grupper och fyra näringsflöden bildar en 11-dimensionell vektor x.Därför är x ett vektorfält på modellrutnätet, där varje element xi representerar en 11-dimensionell vektor definierad på modellens horisontella rutnät.Varje index i identifierar unikt en rutnätspunkt på sfären, där (lon, lat) = (ϕi, θi).Om biomassan för modellnätenheten är mindre än 1,2×10-3mg Chl/m3 eller om istäckningsgraden överstiger 70 %, används loggen över biomassadata och kasseras.Uppgifterna är normaliserade och standardiserade, så alla data ligger i intervallet [0 till 1], medelvärdet tas bort och skalas till enhetsvarians.Detta görs så att egenskaperna (biomassa och näringsflöde) inte begränsas av kontrasten i intervallet av möjliga värden.Clustering bör fånga förändringsförhållandet från nyckelsannolikhetsavståndet mellan funktionerna snarare än det geografiska avståndet.Genom att kvantifiera dessa avstånd framträder viktiga egenskaper, samtidigt som onödiga detaljer kasseras.Ur ekologisk synvinkel är detta nödvändigt eftersom vissa typer av växtplankton med liten biomassa kan ha större biogeokemiska effekter, såsom kvävefixering av diazotrofa bakterier.Vid standardisering och normalisering av data kommer dessa typer av kovariater att markeras.
Genom att betona närheten till funktioner i högdimensionellt utrymme i lågdimensionell representation, används t-SNE-algoritmen för att göra befintliga liknande regioner tydligare.Tidigare arbete som syftade till att bygga djupa neurala nätverk för fjärranalysapplikationer använde t-SNE, vilket bevisade sin skicklighet i att separera nyckelfunktioner (23).Detta är ett nödvändigt steg för att identifiera robust klustring i funktionsdata samtidigt som man undviker icke-konvergenta lösningar (not S2).Med hjälp av gaussiska kärnor bevarar t-SNE de statistiska egenskaperna hos datan genom att kartlägga varje högdimensionellt objekt till en punkt i 3D-fasrymden, och därigenom säkerställa att sannolikheten för liknande objekt i de höga och låga riktningarna är hög i en hög- dimensionellt utrymme (24).Givet en uppsättning av N högdimensionella objekt x1,...,xN, reduceras t-SNE-algoritmen genom att minimera Kullback-Leibler (KL) divergens (25).KL-divergens är ett mått på hur olik en sannolikhetsfördelning är från en andra referenssannolikhetsfördelning och kan effektivt utvärdera möjligheten till korrelation mellan lågdimensionella representationer av högdimensionella egenskaper.Om xi är det i:te objektet i det N-dimensionella rymden, är xj det j:te objektet i det N-dimensionella rummet, yi är det i:te objektet i det lågdimensionella rummet och yj är det j:te objektet i det låga rummet. -dimensionellt utrymme, då definierar t -SNE likhetssannolikheten ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), och för dimensionsreduktionsmängden q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Figur 2A illustrerar effekten av att reducera biomassa- och näringsflödesvektorerna för den 11-dimensionella kombinationen till 3D.Motivationen för att tillämpa t-SNE kan jämföras med motivationen för principal component analysis (PCA), som använder variansattributet för att betona arean/attributet för data, och därigenom minska dimensionaliteten.t-SNE-metoden visade sig vara överlägsen PCA när det gäller att ge tillförlitliga och reproducerbara resultat för ekoministeriet (se not S2).Detta kan bero på att antagandet om ortogonalitet för PCA inte är lämpligt för att identifiera kritiska interaktioner mellan mycket olinjära interaktiva funktioner, eftersom PCA fokuserar på linjära kovariansstrukturer (26).Genom att använda fjärranalysdata har Lunga et al.(27) illustrerar hur man använder SNE-metoden för att lyfta fram komplexa och olinjära spektrala egenskaper som avviker från den Gaussiska fördelningen.
(A) En modellerad näringstillförselhastighet, växtplankton- och djurplanktonfunktionsgruppbiomassa ritad av t-SNE-algoritmen och färgad efter provins med hjälp av DBSCAN.Varje punkt representerar en punkt i det högdimensionella utrymmet, som visas i figur 6B, de flesta punkter fångas.Schakt hänvisar till "t-SNE" storlekarna 1, 2 och 3. (B) Den geografiska projektionen av provinsen som hittats av DBSCAN på ursprungets latitud-longitud-rutnät.Färgen ska betraktas som vilken färg som helst, men ska motsvara (A).
Punkterna i t-SNE-spridningsdiagrammet i figur 2A är associerade med latitud respektive longitud.Om de två punkterna i figur 2A ligger nära varandra beror det på att deras biomassa och näringsflöden är lika, inte på grund av geografisk närhet.Färgerna i figur 2A är kluster som upptäckts med hjälp av DBSCAN-metoden (28).När man letar efter täta observationer använder DBSCAN-algoritmen avståndet i 3D-representationen mellan punkterna (ϵ = 0,39; för information om detta val, se Material och metoder), och antalet liknande punkter krävs för att definiera klustret (här 100 poäng, se ovan).DBSCAN-metoden gör inga antaganden om formen eller antalet kluster i data, som visas nedan:
3) För alla punkter som identifieras som inom avståndet inom, upprepa steg 2 iterativt för att bestämma klustergränsen.Om antalet poäng är större än det inställda minimivärdet, betecknas det som ett kluster.
Data som inte uppfyller den lägsta klustermedlemmen och avståndet ϵ-mått anses vara "brus" och tilldelas ingen färg.DBSCAN är en snabb och skalbar algoritm med O(n2) prestanda i värsta fall.För den aktuella analysen är det faktiskt inte slumpmässigt.Minsta antal poäng bestäms av expertutvärdering.Efter justering av avståndet efter är resultatet inte tillräckligt stabilt i intervallet ≈±10.Detta avstånd ställs in med hjälp av anslutningsmöjligheter (Figur 6A) och havstäckningsprocent (Figur 6B).Anslutning definieras som det sammansatta antalet kluster och är känsligt för parametern ϵ.Lägre anslutningsmöjligheter indikerar otillräcklig passning, artificiellt gruppering av regioner.Hög anslutningsförmåga indikerar övermontering.Det är tänkbart att använda ett högre minimum, men om minimumet överstiger ca är det omöjligt att uppnå en tillförlitlig lösning.135 (För mer information, se Material och metoder).
De 115 klustren som identifieras i figur 2A projiceras tillbaka på jorden i figur 2B.Varje färg motsvarar en sammanhängande kombination av biogeokemiska och ekologiska faktorer som identifierats av DBSCAN.När väl klustren har bestämts används associeringen av varje punkt i figur 2A med en specifik latitud och longitud för att projicera klustren tillbaka till det geografiska området.Figur 2B illustrerar detta med samma klusterfärger som figur 2A.Liknande färger bör inte tolkas som ekologisk likhet, eftersom de tilldelas i den ordning i vilken kluster upptäcks av algoritmen.
Området i figur 2B kan kvalitativt likna ett etablerat område i havets fysiska och/eller biogeokemi.Till exempel är klustren i södra oceanen zonsymmetriska, med oligotrofa virvlar som uppträder, och den skarpa övergången indikerar påverkan av passadvindar.Till exempel, i det ekvatoriala Stilla havet, ses olika regioner relaterade till uppgången.
För att förstå den ekologiska miljön i ekoprovinsen användes en variation av Bray-Curtis (BC) skillnadsindex (29) för att utvärdera ekologin i klustret.BC-indikatorn är en statistisk data som används för att kvantifiera skillnaden i gemenskapsstruktur mellan två olika platser.BC-mätningen är tillämplig på biomassan av 51 arter av växtplankton och djurplankton BCninj = 1-2CninjSni + Snj
BCninj hänvisar till likheten mellan kombination ni och kombination nj, där Cninj är minimivärdet för en enda typ av biomassa som finns i båda kombinationerna ni och nj, och Sni representerar summan av alla biomassor som finns i båda kombinationerna ni och Snj.BC-skillnaden liknar avståndsmåttet, men verkar i icke-euklidiskt utrymme, vilket sannolikt är mer lämpat för ekologiska data och dess tolkning.
För varje kluster som identifieras i figur 2B kan likheten mellan intra-provinsiell och inter-provinsiell BC bedömas.BC-skillnaden inom en provins avser skillnaden mellan medelvärdet för provinsen och varje punkt i provinsen.Skillnaden mellan BC-provinser hänvisar till likheten mellan en provins och andra provinser.Figur 3A visar en symmetrisk BC-matris (0, svart: helt motsvarande; 1, vit: helt olik).Varje linje i grafen visar ett mönster i data.Figur 3B visar den geografiska betydelsen av resultaten av BC i figur 3A för varje provins.För en provins i ett område med låg- och näringsfattigt område visar figur 3B att symmetrin för stora områden runt ekvatorn och Indiska oceanen i grunden är likartad, men de högre breddgraderna och uppväxtområdena skiljer sig markant.
(A) Graden av BC-skillnad utvärderad för varje provins baserat på det globala 20-åriga genomsnittliga globala ytsnittet på 51 plankton.Notera den förväntade symmetrin hos värdena.(B) Den rumsliga projektionen av en kolumn (eller rad).För en provins i en dystrofisk cirkel utvärderades den globala fördelningen av BC-likhetsmåttet och det globala 20-årsgenomsnittet utvärderades.Svart (BC = 0) betyder samma område, och vitt (BC = 1) betyder ingen likhet.
Figur 4A illustrerar skillnaden i BC inom varje provins i figur 2B.Fastställt genom att använda den genomsnittliga kombinationen av medelarean i ett kluster, och bestämma skillnaden mellan BC och medelvärdet för varje rutnätspunkt i provinsen, visar det att SAGE-metoden väl kan separera 51 arter baserat på den ekologiska likheten Typ av modelldata.Den totala genomsnittliga olikheten i kluster BC för alla 51 typer är 0,102±0,0049.
(A, B och D) BC-skillnaden inom provinsen utvärderas som den genomsnittliga BC-skillnaden mellan varje gridpunktsgemenskap och den genomsnittliga provinsen, och komplexiteten reduceras inte.(2) Den globala genomsnittliga skillnaden i BC inom provinsen är 0,227±0,117.Detta är riktmärket för ekologisk motivationsbaserad klassificering som föreslås i detta arbete [grön linje i (C)].(C) Genomsnittlig intraprovinsiell BC-skillnad: Den svarta linjen representerar den intraprovinsiella BC-skillnaden med ökande komplexitet.2σ kommer från 10 upprepningar av processen för identifiering av ekoprovinsen.För den totala komplexiteten för provinserna som upptäckts av DBSCAN, visar (A) att BC-skillnaden i provinsen är 0,099, och komplexitetsklassificeringen som föreslås av (C) är 12, vilket resulterar i en BC-olikhet på 0,200 i provinsen.som bilden visar.(D).
I figur 4B används biomassan för 51 planktontyper för att representera den ekvivalenta BC-skillnaden i Longhurst-provinsen.Det totala genomsnittet för varje provins är 0,227, och standardavvikelsen för rutnätspunkterna med hänvisning till skillnaden i BC-provinsen är 0,046.Detta är större än klustret som identifieras i figur IB.Istället, med hjälp av summan av de sju funktionella grupperna, ökade den genomsnittliga olikheten under säsong f.Kr. i Longhurst till 0,232.
Den globala ekoprovinsskartan ger intrikata detaljer om unika ekologiska interaktioner och förbättringar har gjorts i att använda hela ekosystemstrukturen i Longhurst-provinsen.Ekologiministeriet förväntas ge insikter i processen för att kontrollera det numeriska modellens ekosystem, och denna insikt kommer att hjälpa utforskningen av fältarbete.För denna forskning är det inte möjligt att helt visa mer än hundra provinser.Nästa avsnitt introducerar SAGE-metoden som sammanfattar provinserna.
Ett av syftena med provinsen är att främja förståelsen för provinsens läge och förvaltning.För att fastställa nödsituationer illustrerar metoden i figur 1B häckningen av ekologiskt likartade provinser.Ekoprovinser grupperas tillsammans baserat på ekologisk likhet, och en sådan gruppering av provinser kallas AEP.Ställ in en justerbar "komplexitet" baserat på det totala antalet provinser som ska beaktas.Termen "komplexitet" används för att den gör det möjligt att justera nivån på nödattributen.För att definiera meningsfulla aggregationer används den genomsnittliga intraprovinsiella BC-skillnaden på 0,227 från Longhurst som riktmärke.Under detta riktmärke anses de sammanslagna provinserna inte längre vara användbara.
Som visas i figur 3B är de globala ekologiska provinserna sammanhängande.Med hjälp av interprovinsiella BC-skillnader kan det ses att vissa konfigurationer är mycket "vanliga".Inspirerad av genetik och grafteoretiska metoder används "anslutna grafer" för att sortera >100 provinser baserat på de provinser som liknar dem mest."Anslutningsmåttet" här bestäms med hjälp av interprovinsiell BC-skillnad (30).Antalet provinser med ett större utrymme för klassificering av > 100 provinser kan här betecknas som komplexitet.AEP är en produkt som kategoriserar mer än 100 provinser som de mest dominerande/närmaste ekologiska provinserna.Varje ekologisk provins tilldelas den dominerande/högt sammankopplade ekologiska provinsen som är mest lik dem.Denna aggregering bestäms av BC-skillnaden tillåter en kapslad inställning till den globala ekologin.
Den valda komplexiteten kan vara vilket värde som helst från 1 till den fullständiga komplexiteten i FIG.2A.Vid lägre komplexitet kan AEP degenerera på grund av steget för probabilistisk dimensionalitetsreduktion (t-SNE).Degeneration innebär att ekologiska provinser kan tilldelas olika AEP:er mellan iterationerna, och därigenom ändra det geografiska området som täcks.Figur 4C illustrerar spridningen av BC-olikheter inom provinser i AEP:er av ökande komplexitet över 10 implementeringar (illustration i figur 1B).I figur 4C är 2σ (blått område) ett mått på degradering i 10 implementeringar, och den gröna linjen representerar Longhurst-riktmärket.Fakta har visat att komplexiteten hos 12 kan hålla BC-skillnaden i provinsen under Longhurst-riktmärket i alla implementeringar och upprätthålla en relativt liten 2σ-försämring.Sammanfattningsvis är den minsta rekommenderade komplexiteten 12 AEPs, och den genomsnittliga BC-skillnaden inom provinsen utvärderad med 51 planktontyper är 0,198±0,013, som visas i figur 4D.Med hjälp av summan av sju planktonfunktionella grupper är den genomsnittliga BC-skillnaden inom provinsen 2σ istället för 0,198±0,004.Jämförelsen mellan BC-skillnaderna beräknade med den totala biomassan för de sju funktionella grupperna eller biomassan för alla 51 planktontyper visar att även om SAGE-metoden är tillämpbar på den 51-dimensionella situationen, är den för den totala biomassan för de sju funktionella grupperna För träning.
Beroende på syftet med eventuell forskning kan olika nivåer av komplexitet övervägas.Regionala studier kan kräva full komplexitet (dvs alla 115 provinser).Som ett exempel och för tydlighetens skull, överväg den minsta rekommenderade komplexiteten på 12.
Som ett exempel på användbarheten av SAGE-metoden används här 12 AEP:er med en minsta komplexitet på 12 för att utforska kontrollen av nödsamhällesstrukturen.Figur 5 illustrerar de ekologiska insikterna grupperade efter AEP (från A till L): I Redfield stökiometri utförs geografisk utsträckning (Figur 5C), sammansättning av funktionell grupp biomassa (Figur 5A) och näringstillförsel (Figur 5B) av N Zoomed.Förhållandet (N:Si:P:Fe, 1:1:16:16×103) visas.För den senare panelen multipliceras P med 16 och Fe multiplicerat med 16×103, så stapeldiagrammet motsvarar växtplanktonets näringsbehov.
Provinserna är klassificerade i 12 AEPs A till L. (A) Biomassa (mgC/m3) av ekosystem i 12 provinser.(B) Näringsflödeshastigheten för löst oorganiskt kväve (N), järn (Fe), fosfat (P) och kiselsyra (Si) (mmol/m3 per år).Fe och P multipliceras med 16 respektive 16×103, så att remsorna är standardiserade till växtplanktonstökiometrikrav.(C) Notera skillnaden mellan polära områden, subtropiska cykloner och stora säsongsbetonade/stigande regioner.Övervakningsstationerna är markerade enligt följande: 1, SÄTEN;2, ALOHA;3, station P;och 4, BATS.
Den identifierade AEP är unik.Det finns viss symmetri runt ekvatorn i Atlanten och Stilla havet, och ett liknande men förstorat område finns i Indiska oceanen.Vissa AEP:er omfamnar den västra sidan av kontinenten i samband med uppstigningen.Sydpolens cirkumpolära ström betraktas som en stor zonfunktion.Subtropisk cyklon är en komplex serie av oligotrofa AEP.I dessa provinser är det välbekanta mönstret av biomassaskillnader mellan planktondominerade oligotrofa virvlar och kiselalgerrika polära områden uppenbart.
AEP:er med mycket liknande total växtplanktonbiomassa kan ha mycket olika samhällsstrukturer och täcka olika geografiska områden, såsom D, H och K, som har liknande total växtplanktonbiomassa.AEP H finns främst i Indiska oceanen, och det finns fler diazotrofa bakterier.AEP D finns i flera bassänger, men det är särskilt framträdande i Stilla havet runt högavkastande områden runt ekvatorns uppväxt.Formen på denna Stillahavsprovins påminner om ett planetvågståg.Det finns få diazobakterier i AEP D, och fler kottar.Jämfört med de två andra provinserna finns AEP K bara i höglandet i Norra ishavet, och det finns fler kiselalger och färre planktoner.Det är värt att notera att mängden plankton i dessa tre regioner också är mycket olika.Bland dem är planktonförekomsten av AEP K relativt låg, medan den för AEP D och H är relativt hög.Därför, trots sin biomassa (och därför liknar Chl-a), är dessa provinser ganska olika: Chl-baserade provinstester kanske inte fångar dessa skillnader.
Det är också uppenbart att vissa AEP:er med mycket olika biomassa kan likna varandra när det gäller växtplanktonsamhällets struktur.Detta är till exempel synligt i AEP D och E. De ligger nära varandra, och i Stilla havet ligger AEP E nära den högproduktiva AEPJ.På samma sätt finns det inget tydligt samband mellan växtplanktonbiomassa och djurplanktonförekomst.
AEP kan förstås i termer av de näringsämnen som tillförs dem (Figur 5B).Kiselalger finns bara där det finns gott om tillgång på kiselsyra.Generellt gäller att ju högre tillgång på kiselsyra, desto högre biomassa av kiselalger.Kiselalger kan ses i AEP A, J, K och L. Förhållandet mellan kiselalgerbiomassa i förhållande till annat växtplankton bestäms av N, P och Fe som tillhandahålls i förhållande till kiselalgerbehovet.Till exempel domineras AEP L av kiselalger.Jämfört med andra näringsämnen har Si den högsta tillgången.Däremot, trots högre produktivitet, har AEP J färre kiselalger och mindre kiseltillförsel (alla och i förhållande till andra näringsämnen).
Diazoniumbakterier har förmågan att fixera kväve, men växer långsamt (31).De samexisterar med annat växtplankton, där järn och fosfor är för höga i förhållande till efterfrågan på icke-diazoniumnäringsämnen (20, 21).Det är värt att notera att den diazotrofa biomassan är relativt hög, och tillgången på Fe och P är relativt stor i förhållande till tillgången på N. På detta sätt, även om den totala biomassan i AEP J är högre, är diazoniumbiomassan i AEP H större än den i J. Observera att AEP J och H är geografiskt mycket olika och H ligger i Indiska oceanen.
Om den unika ekosystemstrukturen inte delas upp i provinser kommer insikterna från de 12 AEP:s lägsta komplexitetsmodeller inte att vara så tydliga.AEP som genereras av SAGE underlättar den sammanhängande och samtidiga jämförelsen av komplex och högdimensionell information från ekosystemmodeller.AEP betonar effektivt varför Chl inte är en bra och alternativ metod för att fastställa samhällsstruktur eller djurplanktonöverflöd vid högre näringsnivåer.En detaljerad analys av pågående forskningsämnen ligger utanför ramen för denna artikel.SAGE-metoden ger ett sätt att utforska andra mekanismer i modellen som är lättare att hantera än punkt-till-punkt-visning.
SAGE-metoden föreslås för att hjälpa till att klargöra extremt komplexa ekologiska data från globala fysiska/biogeokemiska/ekosystem numeriska modeller.Den ekologiska provinsen bestäms av den totala biomassan av cross-plankton funktionella grupper, tillämpningen av t-SNE sannolikhetsdimensionalitet reduktionsalgoritm och klustringen med den oövervakade ML-metoden DBSCAN.Den interprovinsiella BC-differens/grafteorin för kapslingsmetod används för att härleda en robust AEP som kan användas för global tolkning.Konstruktionsmässigt är Eco-Province och AEP unika.AEP-häckningen kan justeras mellan den ursprungliga ekologiska provinsens fulla komplexitet och den rekommenderade lägsta tröskeln på 12 AEP.Kapsling och bestämning av minsta komplexitet för AEP betraktas som nyckelsteg, eftersom sannolikheten att t-SNE degenererar AEP med <12 komplexitet.SAGE-metoden är global och dess komplexitet sträcker sig från > 100 AEP till 12. För enkelhetens skull ligger det nuvarande fokus på komplexiteten hos 12 globala AEP.Framtida forskning, särskilt regionala studier, kan finna en mindre rumslig delmängd av de globala ekoprovinserna användbar och kan samlas i ett mindre område för att dra nytta av samma ekologiska insikter som diskuteras här.Den ger förslag på hur dessa ekologiska provinser och insikterna från dem kan användas för ytterligare ekologisk förståelse, underlätta modelljämförelser och potentiellt förbättra övervakningen av marina ekosystem.
Den ekologiska provinsen och AEP som identifierats med SAGE-metoden baseras på data i den numeriska modellen.Per definition är den numeriska modellen en förenklad struktur, som försöker fånga essensen av målsystemet, och olika modeller kommer att ha olika fördelning av plankton.Den numeriska modellen som används i denna studie kan inte helt fånga några av de observerade mönstren (till exempel i Chl-uppskattningarna för ekvatorialregionen och södra oceanen).Endast en liten del av mångfalden i det verkliga havet fångas, och meso- och submesoskalorna kan inte lösas upp, vilket kan påverka näringsflödet och mindre skala samhällsstruktur.Trots dessa brister visar det sig att AEP är mycket användbart för att hjälpa till att förstå komplexa modeller.Genom att utvärdera var liknande ekologiska provinser finns, tillhandahåller AEP ett potentiellt numeriskt modelljämförelseverktyg.Den nuvarande numeriska modellen fångar det övergripande mönstret av fjärranalys av växtplankton-Chl-a-koncentrationen och fördelningen av planktonstorlek och funktionell grupp (not S1 och figur S1) (2, 32).
Som framgår av konturlinjen på 0,1 mgChl-a/m-3 är AEP uppdelat i oligotrofiska områden och mesotrofa områden (Figur S1B): AEP B, C, D, E, F och G är oligotrofa områden, och de återstående områdena är belägen Högre Chl-a.AEP visar viss korrespondens med Longhurst-provinsen (Figur S3A), till exempel södra oceanen och det ekvatoriala Stilla havet.I vissa regioner täcker AEP flera Longhurst-regioner och vice versa.Eftersom avsikten att avgränsa provinser i detta område och Longhurst är olika, förväntas det bli skillnader.Flera AEPs i en Longhurst-provins indikerar att vissa områden med liknande biogeokemi kan ha mycket olika ekosystemstrukturer.AEP uppvisar en viss överensstämmelse med fysiska tillstånd, vilket avslöjas med hjälp av oövervakad inlärning (19), såsom i högt uppväxande tillstånd (till exempel södra oceanen och ekvatorial Stilla havet; figur S3, C och D).Dessa överensstämmelser indikerar att planktonets gemenskapsstruktur är starkt påverkad av havets dynamik.I områden som Nordatlanten passerar AEP fysiska provinser.Mekanismen som orsakar dessa skillnader kan innefatta processer som dammtransport, vilket kan leda till helt andra näringsprogram även under liknande fysiska förhållanden.
Ekologiministeriet och AEP påpekade att användningen av Chl ensam inte kan identifiera ekologiska komponenter, vilket den marina ekologigemenskapen redan har insett.Detta ses i AEP med liknande biomassa men signifikant olika ekologisk sammansättning (som D och E).Däremot har AEPs som D och K väldigt olika biomassa men liknande ekologisk sammansättning.AEP betonar att förhållandet mellan biomassa, ekologisk sammansättning och djurplanktonförekomst är komplext.Till exempel, även om AEP J sticker ut när det gäller växtplankton och planktonbiomassa, har AEP:s A och L liknande planktonbiomassa, men A har ett högre planktonförekomst.AEP betonar att växtplanktonbiomassa (eller Chl) inte kan användas för att förutsäga djurplanktonbiomassa.Zooplankton är grunden för fiskets näringskedja, och mer exakta uppskattningar kan leda till bättre resursförvaltning.Framtida marina färgsatelliter [till exempel PACE (plankton, aerosol, moln och marina ekosystem)] kan vara bättre positionerade för att hjälpa till att uppskatta samhällsstrukturen för växtplankton.Att använda AEP-förutsägelser kan potentiellt underlätta uppskattningen av djurplankton från rymden.Metoder som SAGE, i kombination med ny teknik och mer och mer fältdata tillgänglig för marksanningsundersökningar (som Tara och uppföljande forskning), kan tillsammans ta ett steg mot satellitbaserad hälsoövervakning av ekosystem.
SAGE-metoden ger ett bekvämt sätt att utvärdera vissa mekanismer som kontrollerar provinsens egenskaper, såsom biomassa/Chl, netto primärproduktion och samhällsstruktur.Till exempel bestäms den relativa mängden kiselalger av en obalans i tillförseln av Si, N, P och Fe i förhållande till de stökiometriska kraven på växtplankton.Vid en balanserad utbudstakt domineras samhället av kiselalger (L).När utbudet är obalanserat (det vill säga tillgången på kisel är lägre än näringsbehovet för kiselalger), står kiselalger endast för en liten del Andel (K).När tillgången på Fe och P överstiger tillgången på N (till exempel E och H), kommer de diazotrofa bakterierna att växa kraftigt.Genom det sammanhang som AEP tillhandahåller kommer utforskningen av kontrollmekanismer att bli mer användbar.
Eco-provinsen och AEP är områden med liknande samhällsstrukturer.Tidsserierna från en viss plats inom en ekologisk provins eller AEP kan ses som en referenspunkt och kan representera det område som täcks av den ekologiska provinsen eller AEP.Långsiktiga övervakningsstationer på plats tillhandahåller sådana tidsserier.Långsiktiga in-situ-datauppsättningar kommer att fortsätta att spela en oöverskådlig roll.Ur perspektivet att övervaka samhällsstrukturen kan SAGE-metoden ses som ett sätt att hjälpa till att bestämma den mest användbara platsen för nya platser.Till exempel är tidsserien från den långsiktiga oligotrofa habitatbedömningen (ALOHA) i AEP B för det oligotrofa området (Figur 5C, etikett 2).Eftersom ALOHA är nära gränsen för en annan AEP, kanske tidsserien inte är representativ för hela området, som tidigare föreslagits (33).I samma AEP B är tidsserien SEATS (Southeast Asian Time Series) belägen i sydvästra Taiwan (34), längre från gränserna för andra AEP:er (Figur 5C, etikett 1), och kan användas som en bättre plats för att övervaka AEPB.BATS-tidsserien (Bermuda Atlantic Time Series Study) (Figur 5C, etikett 4) i AEPC ligger mycket nära gränsen mellan AEP C och F, vilket indikerar att övervakning av AEP C med hjälp av BATS-tidsserier direkt kan vara problematisk.Station P i AEP J (Figur 5C, etikett 3) ligger långt från AEP-gränsen, så den är mer representativ.Eco-provinsen och AEP kan hjälpa till att upprätta ett övervakningsramverk som är lämpligt för att bedöma globala förändringar, eftersom provinsernas tillstånd att bedöma var provtagning på plats kan ge viktiga insikter.SAGE-metoden kan vidareutvecklas för att tillämpas på klimatdata för att bedöma tidsbesparande variabilitet.
Framgången för SAGE-metoden uppnås genom noggrann tillämpning av datavetenskap/ML-metoder och domänspecifik kunskap.Specifikt används t-SNE för att utföra dimensionsreduktion, vilket bevarar kovariansstrukturen för högdimensionell data och underlättar visualisering av kovarianstopologi.Data är ordnade i form av ränder och kovarianser (Figur 2A), vilket indikerar att rent avståndsbaserade mått (som K-medel) inte är lämpliga eftersom de vanligtvis använder en Gaussisk (cirkulär) basfördelning (diskuterat i not S2) .DBSCAN-metoden är lämplig för alla kovarianstopologier.Så länge du är uppmärksam på att ställa in parametrar kan tillförlitlig identifiering tillhandahållas.Beräkningskostnaden för t-SNE-algoritmen är hög, vilket begränsar dess nuvarande tillämpning till en större mängd data, vilket innebär att den är svår att tillämpa på djupa eller tidsvarierande fält.Arbete med skalbarheten av t-SNE pågår.Eftersom KL-avstånd är lätt att parallellisera har t-SNE-algoritmen en god potential för expansion i framtiden (35).Hittills har andra lovande dimensionsreduktionsmetoder som bättre kan minska storleken inkluderar unified manifold approximation and projection (UMAP) tekniker, men utvärdering i samband med havsdata är nödvändig.Meningen med bättre skalbarhet är till exempel att klassificera globala klimat eller modeller med olika komplexitet på ett blandat lager.Områden som inte kan klassificeras av SAGE i någon provins kan betraktas som de återstående svarta prickarna i figur 2A.Geografiskt ligger dessa områden främst i mycket säsongsbetonade områden, vilket tyder på att fångst av ekologiska provinser som förändras över tiden kommer att ge bättre täckning.
För att konstruera SAGE-metoden har idéer från komplexa system/datavetenskap använts, med hjälp av förmågan att bestämma kluster av funktionella grupper (möjligheten att vara mycket nära i ett 11-dimensionellt utrymme) och bestämma provinser.Dessa provinser visar specifika volymer i vårt 3D t-SNE-fasutrymme.På liknande sätt kan Poincaré-delen användas för att utvärdera "volymen" av tillståndsutrymmet som upptas av banan för att bestämma "normalt" eller "kaotiskt" beteende (36).För den statiska 11-dimensionella modellutgången kan volymen som upptas efter att data konverterats till ett 3D-fasutrymme förklaras på liknande sätt.Förhållandet mellan geografiskt område och område i 3D-fasrymden är inte enkelt, men det kan förklaras i termer av ekologisk likhet.Av denna anledning föredras det mer konventionella BC-olikhetsmåttet.
Framtida arbete kommer att återanvända SAGE-metoden för säsongsmässigt växlande data för att bedöma den rumsliga variabiliteten för de identifierade provinserna och AEP.Det framtida målet är att använda denna metod för att hjälpa till att bestämma vilka provinser som kan bestämmas genom satellitmätningar (som Chl-a, fjärravkänningsreflektivitet och havsytans temperatur).Detta kommer att möjliggöra fjärranalysbedömning av ekologiska komponenter och mycket flexibel övervakning av ekologiska provinser och deras variation.
Syftet med denna forskning är att introducera SAGE-metoden, som definierar en ekologisk provins genom dess unika planktongemenskapsstruktur.Här kommer mer detaljerad information om den fysiska/biogeokemiska/ekosystemmodellen och parametervalet för t-SNE- och DBSCAN-algoritmerna att tillhandahållas.
De fysiska komponenterna i modellen kommer från uppskattningen av havscirkulationen och klimatet [ECCOv4;(37) den globala tillståndsuppskattningen som beskrivs av (38).Den nominella upplösningen av statens uppskattning är 1/5.Minsta kvadratmetoden med lagrangisk multiplikatormetoden används för att erhålla initiala och randvillkor och interna modellparametrar justerade genom observation, och därigenom generera en frigående MIT generell cykelmodell (MITgcm) (39), modellen Efter optimering kan resultaten spåras och observeras.
Biogeokemin/ekosystemet har en mer fullständig beskrivning (dvs. ekvationer och parametervärden) i (2).Modellen fångar cirkulationen av C, N, P, Si och Fe genom oorganiska och organiska dammar.Den version som används här inkluderar 35 arter av växtplankton: 2 arter av mikroprokaryoter och 2 arter av mikroeukaryoter (lämpliga för miljöer med låga näringsämnen), 5 arter av Cryptomonas sphaeroides (med kalciumkarbonatbeläggning), 5 arter av diazonium (kan fixera kväve, så det är inte begränsat) tillgången på löst oorganiskt kväve), 11 kiselalger (bildar ett kiselhaltigt täcke), 10 blandade vegetativa flagellater (kan fotosyntetisera och äta annat plankton) och 16 djurplankton (betar på annat plankton).Dessa kallas "biogeokemiska funktionella grupper" eftersom de har olika effekter på marin biogeokemi (40, 41) och används ofta i observations- och modellstudier.I denna modell är varje funktionell grupp sammansatt av flera planktoner av olika storlekar, med en spännvidd på 0,6 till 2500 μm ekvivalent sfärisk diameter.
Parametrarna som påverkar växtplanktontillväxt, bete och sjunkande är relaterade till storlek och det finns specifika skillnader mellan de sex funktionella grupperna av växtplankton (32).Trots de olika fysiska ramarna har resultaten av modellens 51 planktonkomponenter använts i ett antal nyare studier (42-44).
Från 1992 till 2011 pågick den fysiska/biogeokemiska/ekosystemkopplingsmodellen i 20 år.Resultatet av modellen inkluderar planktonbiomassa, näringsämneskoncentration och näringstillförselhastighet (DIN, PO4, Si och Fe).I den här studien användes 20-årsgenomsnittet av dessa resultat som indata för den ekologiska provinsen.Chl, fördelningen av planktonbiomassa och näringsämneskoncentration och fördelningen av funktionella grupper jämförs med satellit- och in-situ observationer [se (2, 44), not S1 och figur.S1 till S3].
För SAGE-metoden kommer huvudkällan till slumpmässighet från t-SNE-steget.Slumpmässighet hindrar repeterbarhet, vilket gör att resultaten är opålitliga.SAGE-metoden testar noggrant robustheten genom att bestämma en uppsättning parametrar för t-SNE och DBSCAN, som konsekvent kan identifiera kluster när de upprepas.Att bestämma "förvirringen" hos t-SNE-parametern kan förstås som att bestämma i vilken grad kartläggningen från höga till låga dimensioner ska respektera de lokala eller globala egenskaperna hos datan.Nådde förvirringen av 400 och 300 iterationer.
För klustringsalgoritmen DBSCAN måste minimistorleken och avståndsmåttet för datapunkterna i klustret bestämmas.Minsta antalet bestäms under ledning av experter.Denna kunskap vet vad som passar den nuvarande numeriska modelleringsramen och upplösningen.Minsta antalet är 100. Ett högre minimivärde (mindre än <135 innan den övre gränsen för grönt blir bredare) kan övervägas, men det kan inte ersätta aggregeringsmetoden baserad på BC-skillnad.Graden av anslutning (Figur 6A) används för att ställa in parametern ϵ, vilket bidrar till högre täckning (Figur 6B).Anslutning definieras som det sammansatta antalet kluster och är känsligt för parametern ϵ.Lägre anslutningsmöjligheter indikerar otillräcklig passning, artificiellt gruppering av regioner.Hög anslutning tyder på överanpassning.Övermontering är också problematiskt, eftersom det visar att initiala slumpmässiga gissningar kan leda till oreproducerbara resultat.Mellan dessa två ytterligheter indikerar en kraftig ökning (vanligen kallad "armbåge") det bästa ϵ.I figur 6A ser du en kraftig ökning av platåområdet (gul, > 200 kluster), följt av en kraftig minskning (grön, 100 kluster), upp till cirka 130, omgiven av väldigt få kluster (blå, <60 kluster) ).I minst 100 blå områden dominerar antingen ett kluster hela havet (ϵ <0,42), eller så är det mesta av havet inte klassificerat och anses vara buller (ϵ> 0,99).Det gula området har en mycket variabel, oreproducerbar klusterfördelning.När ϵ minskar ökar bruset.Det kraftigt ökande grönområdet kallas armbåge.Detta är en optimal region.Även om sannolikheten t-SNE används, kan BC-olikheten inom provinsen fortfarande användas för att bestämma tillförlitlig klustring.Använd figur 6 (A och B) och ställ in ϵ till 0,39.Ju större minimital, desto mindre är sannolikheten att nå ϵ som tillåter tillförlitlig klassificering, och desto större är grönområdet med ett värde större än 135. Förstoringen av detta område indikerar att armbågen blir svårare att hitta eller inte existerande.
Efter att ha ställt in parametrarna för t-SNE kommer det totala antalet hittade kluster att användas som ett mått på anslutning (A) och procentandelen data som allokerats till klustret (B).Den röda pricken indikerar den bästa kombinationen av täckning och anslutning.Minsta antal ställs in enligt minimiantalet relaterat till ekologi.
För kompletterande material till den här artikeln, se http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Detta är en artikel med öppen tillgång som distribueras under villkoren i Creative Commons Attribution License.Artikeln tillåter obegränsad användning, distribution och reproduktion i vilket medium som helst under förutsättning att originalverket är korrekt citerat.
Obs: Vi ber dig endast att ange din e-postadress så att personen du rekommenderar till sidan vet att du vill att den ska se mejlet och att det inte är spam.Vi kommer inte att fånga några e-postadresser.
Denna fråga används för att testa om du är en besökare och förhindra automatisk skräppost.
Det globala ministeriet för marin ekologi är fast beslutet att lösa komplexa problem och använder oövervakad ML för att utforska samhällsstrukturer.
Det globala ministeriet för marin ekologi är fast beslutet att lösa komplexa problem och använder oövervakad ML för att utforska samhällsstrukturer.
Posttid: 2021-jan-12