topimg

Het verduidelijken van de ecologische complexiteit: leren zonder toezicht bepaalt de mondiale mariene ecologische provincie

Er wordt een leermethode zonder toezicht voorgesteld om mondiale mariene ecologische provincies (ecoprovincies) te bepalen op basis van de structuur van de planktongemeenschap en gegevens over de flux van voedingsstoffen.De systematische geïntegreerde ecologische provincie (SAGE) -methode kan ecologische provincies identificeren in zeer niet-lineaire ecosysteemmodellen.Om zich aan te passen aan de niet-Gaussiaanse covariantie van de gegevens, gebruikt SAGE t willekeurige buurinbedding (t-SNE) om de dimensionaliteit te verminderen.Met behulp van de geluidstoepassing op basis van het Density Based Spatial Clustering (DBSCAN) algoritme kunnen ruim honderd ecologische provincies worden geïdentificeerd.Met behulp van de connectiviteitskaart met ecologische verschillen als afstandsmaatstaf wordt een robuuste geaggregeerde ecologische provincie (AEP) objectief gedefinieerd door middel van geneste ecologische provincies.Met behulp van AEP's werd de controle van de nutriëntentoevoer op de gemeenschapsstructuur onderzocht.Eco-provincie en AEP zijn uniek en kunnen helpen bij de interpretatie van modellen.Ze kunnen vergelijkingen tussen modellen vergemakkelijken en het begrip en de monitoring van mariene ecosystemen verbeteren.
Provincies zijn regio's waar de complexe biogeografie op zee of op het land is georganiseerd in samenhangende en betekenisvolle gebieden (1).Deze provincies zijn erg belangrijk voor het vergelijken en contrasteren van locaties, het karakteriseren van observaties, monitoring en bescherming.De complexe en niet-lineaire interacties die deze provincies opleveren, maken onbewaakte machine learning-methoden (ML) zeer geschikt voor het objectief bepalen van provincies, omdat de covariantie in de gegevens complex en niet-Gaussiaans is.Hier wordt een ML-methode voorgesteld, die op systematische wijze unieke mariene ecologische provincies (ecoprovincies) identificeert uit het mondiale driedimensionale (3D) fysieke/ecosysteemmodel van Darwin (2).De term ‘uniek’ wordt gebruikt om aan te geven dat het geïdentificeerde gebied onvoldoende overlapt met andere gebieden.Deze methode wordt de System Integrated Ecological Province (SAGE)-methode genoemd.Om bruikbare classificatie uit te voeren, moet een algoritmemethode (i) globale classificatie en (ii) analyse op meerdere schaal mogelijk maken die kan worden genest/geaggregeerd in ruimte en tijd (3).In dit onderzoek werd eerst de SAGE-methode voorgesteld en werden de geïdentificeerde ecologische provincies besproken.Ecoprovincies kunnen het begrip bevorderen van de factoren die de gemeenschapsstructuur controleren, nuttige inzichten bieden voor monitoringstrategieën en veranderingen in het ecosysteem helpen volgen.
Terrestrische provincies worden gewoonlijk geclassificeerd op basis van overeenkomsten in klimaat (neerslag en temperatuur), bodem, vegetatie en fauna, en worden gebruikt voor aanvullend beheer, onderzoek naar biodiversiteit en ziektebestrijding (1, 4).Mariene provincies zijn moeilijker te definiëren.De meeste organismen zijn microscopisch klein, met vloeiende grenzen.Longhurst et al.(5) Biedt een van de eerste mondiale classificaties van het Ministerie van Oceanografie op basis van omgevingsomstandigheden.De definitie van deze 'Longhurst'-provincies omvat variabelen zoals mengsnelheid, gelaagdheid en instraling, evenals de uitgebreide ervaring van Longhurst als mariene oceanograaf, die andere belangrijke voorwaarden heeft voor mariene ecosystemen.Longhurst is bijvoorbeeld op grote schaal gebruikt om de primaire productie en koolstofstromen te beoordelen, de visserij te ondersteunen en in situ observatieactiviteiten te plannen (5-9).Om provincies objectiever te definiëren zijn methoden als fuzzy logic en regionale ongecontroleerde clustering/statistieken gebruikt (9-14).Het doel van dergelijke methoden is om betekenisvolle structuren te identificeren die provincies kunnen identificeren in de beschikbare observatiegegevens.Dynamische mariene provincies (12) gebruiken bijvoorbeeld zelforganiserende kaarten om ruis te verminderen, en gebruiken hiërarchische (op bomen gebaseerde) clustering om mariene kleurproducten te bepalen die zijn afgeleid van regionale satellieten [chlorofyl a (Chl-a), genormaliseerde fluorescentielijnhoogte en gekleurde opgeloste organische stof] en het fysieke veld (temperatuur en zoutgehalte van het zeeoppervlak, absolute dynamische topografie en zee-ijs).
De gemeenschapsstructuur van plankton is zorgwekkend omdat de ecologie ervan een grote invloed heeft op hogere nutriëntenniveaus, koolstofopname en klimaat.Niettemin is het nog steeds een uitdagend en ongrijpbaar doel om een ​​mondiale ecologische provincie te bepalen op basis van de structuur van de planktongemeenschap.Mariene kleurensatellieten kunnen potentieel inzicht verschaffen in de grofkorrelige classificatie van fytoplankton of de voordelen van functionele groepen suggereren (15), maar ze zijn momenteel niet in staat gedetailleerde informatie te verschaffen over de gemeenschapsstructuur.Recente onderzoeken [bijvoorbeeld Tara Ocean (16)] leveren ongekende metingen op van de gemeenschapsstructuur;momenteel zijn er slechts schaarse in-situ-waarnemingen op wereldschaal (17).Eerdere studies hebben de ‘biogeochemische provincie’ (12, 14, 18) grotendeels bepaald op basis van de bepaling van biochemische overeenkomsten (zoals primaire productie, Chl en beschikbaar licht).Hier wordt het numerieke model gebruikt om uit te voeren [Darwin(2)], en wordt de ecologische provincie bepaald op basis van de gemeenschapsstructuur en de nutriëntenstroom.Het numerieke model dat in dit onderzoek wordt gebruikt, heeft een mondiale dekking en kan worden vergeleken met bestaande veldgegevens (17) en teledetectievelden (noot S1).De in dit onderzoek gebruikte numerieke modelgegevens hebben het voordeel van een mondiale dekking.Het modelecosysteem bestaat uit 35 soorten fytoplankton en 16 soorten zoöplankton (zie materialen en methoden).Modelplanktontypen interageren niet-lineair met niet-Gaussiaanse covariantiestructuren, dus eenvoudige diagnostische methoden zijn niet geschikt voor het identificeren van unieke en consistente patronen in opkomende gemeenschapsstructuren.De hier geïntroduceerde SAGE-methode biedt een nieuwe manier om de output van complexe Darwin-modellen te controleren.
De krachtige transformatieve mogelijkheden van data science/ML-technologie kunnen overweldigend complexe modeloplossingen mogelijk maken om complexe maar robuuste structuren in datacovariantie bloot te leggen.Een robuuste methode wordt gedefinieerd als een methode die de resultaten getrouw kan reproduceren binnen een bepaald foutbereik.Zelfs in eenvoudige systemen kan het bepalen van robuuste patronen en signalen een uitdaging zijn.Totdat de grondgedachte die tot het waargenomen patroon leidt, is vastgesteld, kan de opkomende complexiteit ingewikkeld/moeilijk op te lossen lijken.Het belangrijkste proces voor het bepalen van de samenstelling van het ecosysteem is niet-lineair van aard.Het bestaan ​​van niet-lineaire interacties kan robuuste classificatie verwarren, dus het is noodzakelijk om methoden te vermijden die sterke aannames doen over de fundamentele statistische verdeling van datacovariantie.Hoogdimensionale en niet-lineaire gegevens komen veel voor in de oceanografie en kunnen een covariantiestructuur hebben met een complexe, niet-Gaussiaanse topologie.Hoewel gegevens met een niet-Gaussiaanse covariantiestructuur een robuuste classificatie kunnen belemmeren, is de SAGE-methode nieuw omdat deze is ontworpen om clusters met willekeurige topologieën te identificeren.
Het doel van de SAGE-methode is om op objectieve wijze opkomende patronen te identificeren die kunnen bijdragen aan een verder ecologisch begrip.Volgens een clustergebaseerde workflow vergelijkbaar met (19), worden de ecologische en nutriëntenstroomvariabelen gebruikt om de enige cluster in de gegevens te bepalen, de ecologische provincie genaamd.De in dit onderzoek voorgestelde SAGE-methode (Figuur 1) reduceert eerst de dimensionaliteit van 55 naar 11 dimensies door de a priori gedefinieerde plankton-functionele groepen op te tellen (zie Materialen en methoden).Met behulp van de t-random neighbour embedding (t-SNE)-methode wordt de grootte verder verkleind door de waarschijnlijkheid in de 3D-ruimte te projecteren.Clustering zonder toezicht kan ecologisch nabije gebieden identificeren [op dichtheid gebaseerde ruimtelijke clustering (DBSCAN) voor op geluid gebaseerde toepassingen].Zowel t-SNE als DBSCAN zijn toepasbaar op de inherente niet-lineaire numerieke modelgegevens van ecosystemen.Projecteer vervolgens de resulterende ecologische provincie opnieuw op de aarde.Er zijn ruim honderd unieke ecologische provincies geïdentificeerd, geschikt voor regionaal onderzoek.Om het mondiaal consistente ecosysteemmodel in overweging te nemen, wordt de SAGE-methode gebruikt om de ecologische provincies samen te voegen tot geaggregeerde ecologische provincies (AEP) om de effectiviteit van de ecologische provincies te verbeteren.Het aggregatieniveau (“complexiteit” genoemd) kan worden aangepast aan het vereiste detailniveau.Bepaal de minimale complexiteit van een robuust AEP.De focus van de selectie ligt op de SAGE-methode en het onderzoeken van de kleinste complexiteit van AEP-gevallen om de controle over de noodgemeenschapsstructuur te bepalen.De patronen kunnen vervolgens worden geanalyseerd om ecologische inzichten te verschaffen.De hier geïntroduceerde methode kan ook uitgebreider worden gebruikt voor modelvergelijking, bijvoorbeeld door de locaties van vergelijkbare ecologische provincies in verschillende modellen te evalueren om verschillen en overeenkomsten te benadrukken, om zo modellen te vergelijken.
(A) Schematisch diagram van de workflow voor het bepalen van de ecologische provincie;het gebruik van de som in de functionele groep om de oorspronkelijke 55-dimensionale gegevens terug te brengen tot een 11-dimensionale modeluitvoer, inclusief de biomassa van zeven functionele/voedingsstofplankton en vier nutriëntentoevoersnelheden.Verwaarloosbare waarde en duurzaam ijsbedekkingsgebied.De gegevens zijn gestandaardiseerd en gestandaardiseerd.Lever 11-dimensionale gegevens aan het t-SNE-algoritme om statistisch vergelijkbare functiecombinaties te benadrukken.DBSCAN selecteert zorgvuldig het cluster om de parameterwaarde in te stellen.Projecteer ten slotte de gegevens terug naar de breedtegraad-/lengtegraadprojectie.Houd er rekening mee dat dit proces 10 keer wordt herhaald, omdat er een lichte willekeur kan ontstaan ​​door het toepassen van t-SNE.(B) legt uit hoe u de AEP kunt verkrijgen door de workflow in (A) 10 keer te herhalen.Voor elk van deze 10 implementaties werd de interprovinciale Bray-Curtis (BC) ongelijkheidsmatrix bepaald op basis van de biomassa van 51 fytoplanktontypen.Bepaal het BC-verschil tussen provincies, van complexiteit 1 AEP tot volledige complexiteit 115. De BC-benchmark wordt bepaald door de provincie Longhurst.
De SAGE-methode gebruikt de output van het mondiale 3D fysieke/ecosysteem numerieke model om de ecologische provincie te definiëren [Darwin (2);zie Materialen en methoden en noot S1].De componenten van het ecosysteem zijn samengesteld uit 35 soorten fytoplankton en 16 soorten zoöplankton, met zeven vooraf gedefinieerde functionele groepen: prokaryoten en eukaryoten aangepast aan omgevingen met weinig voedingsstoffen, coccidia met een calciumcarbonaatcoating en sterke stikstoffixatie. Stikstofvoedingsstoffen (die meestal ontbreken belangrijke voedingsstoffen), met een kiezelhoudende bedekking, kunnen ander plankton fotosynthese en begrazing van flagellaten met gemengde voedingsstoffen en zoöplanktonherders maken.De grootte bedraagt ​​0,6 tot 2500 μm equivalente sferische diameter.De modelverdeling van de grootte van het fytoplankton en de functionele groepering geeft de algemene kenmerken weer die te zien zijn bij satelliet- en in-situ-observaties (zie figuren S1 tot S3).De gelijkenis tussen het numerieke model en de waargenomen oceaan geeft aan dat de door het model gedefinieerde provincies van toepassing kunnen zijn op de in-situ oceaan.Houd er rekening mee dat dit model alleen een bepaalde diversiteit aan fytoplankton vastlegt, en alleen bepaalde fysische en chemische krachtgebieden van de in situ oceaan.De SAGE-methode kan mensen in staat stellen het zeer regionale controlemechanisme van de modelgemeenschapsstructuur beter te begrijpen.
Door alleen de som van de oppervlaktebiomassa (met een gemiddelde tijd van 20 jaar) in elke functionele planktongroep op te nemen, kan de dimensionaliteit van de gegevens worden verminderd.Nadat eerdere studies hun sleutelrol bij het bepalen van de gemeenschapsstructuur hadden aangetoond, werden ook termen voor oppervlaktebronnen voor nutriëntenstromen (aanvoer van stikstof, ijzer, fosfaat en kiezelzuur) opgenomen [bijv. (20, 21)] .De optelling van functionele groepen reduceert het probleem van 55 (51 plankton en 4 nutriëntenstromen) naar 11 dimensies.In deze eerste studie werd, vanwege de rekenbeperkingen die het algoritme oplegde, geen rekening gehouden met diepte- en tijdvariabiliteit.
De SAGE-methode is in staat om belangrijke relaties te identificeren tussen niet-lineaire processen en belangrijke kenmerken van interacties tussen functionele groepsbiomassa en nutriëntenstroom.Met behulp van 11-dimensionale gegevens gebaseerd op Euclidische afstandsonderwijsmethoden (zoals K-means) kunnen geen betrouwbare en reproduceerbare provincies worden verkregen (19, 22).Dit komt doordat er geen Gaussiaanse vorm wordt aangetroffen in de basisverdeling van de covariantie van de sleutelelementen die de ecologische provincie definiëren.De K-gemiddelden van Voronoi-cellen (rechte lijnen) kunnen de niet-Gaussiaanse basisverdeling niet behouden.
De biomassa van zeven functionele planktongroepen en vier nutriëntenstromen vormen een 11-dimensionale vector x.Daarom is x een vectorveld op het modelraster, waarbij elk element xi een 11-dimensionale vector vertegenwoordigt die is gedefinieerd op het horizontale modelraster.Elke index i identificeert op unieke wijze een roosterpunt op de bol, waarbij (lon, lat) = (ϕi, θi).Als de biomassa van de modelrastereenheid minder is dan 1,2 x 10-3 mg Chl/m3 of de ijsbedekkingsgraad groter is dan 70%, wordt het logboek van biomassagegevens gebruikt en weggegooid.De gegevens zijn genormaliseerd en gestandaardiseerd, dus alle gegevens liggen in het bereik van [0 tot 1], het gemiddelde wordt verwijderd en geschaald naar eenheidsvariantie.Dit wordt gedaan zodat de kenmerken (biomassa en nutriëntenstroom) niet worden beperkt door het contrast in het bereik van mogelijke waarden.Clustering zou de veranderingsrelatie moeten vastleggen op basis van de belangrijkste waarschijnlijkheidsafstand tussen de kenmerken in plaats van op basis van de geografische afstand.Door deze afstanden te kwantificeren komen belangrijke kenmerken naar voren, terwijl onnodige details worden weggegooid.Vanuit ecologisch oogpunt is dit noodzakelijk omdat sommige soorten fytoplankton met weinig biomassa grotere biogeochemische effecten kunnen hebben, zoals stikstofbinding door diazotrofe bacteriën.Bij het standaardiseren en normaliseren van gegevens zullen dit soort covariaten worden benadrukt.
Door de nadruk te leggen op de nabijheid van kenmerken in een hoogdimensionale ruimte in een laagdimensionale representatie, wordt het t-SNE-algoritme gebruikt om bestaande vergelijkbare gebieden duidelijker te maken.Eerder werk gericht op het bouwen van diepe neurale netwerken voor teledetectietoepassingen maakte gebruik van t-SNE, dat zijn vaardigheid bewees in het scheiden van belangrijke kenmerken (23).Dit is een noodzakelijke stap om robuuste clustering in de kenmerkgegevens te identificeren en tegelijkertijd niet-convergente oplossingen te vermijden (noot S2).Met behulp van Gaussiaanse kernels behoudt t-SNE de statistische eigenschappen van de gegevens door elk hoogdimensionaal object in kaart te brengen naar een punt in de 3D-faseruimte, waardoor wordt gegarandeerd dat de waarschijnlijkheid van vergelijkbare objecten in de hoge en lage richtingen hoog is in een hoge- en lage richting. dimensionale ruimte (24).Gegeven een set van N hoogdimensionale objecten x1,…,xN, reduceert het t-SNE-algoritme door de Kullback-Leibler (KL)-divergentie te minimaliseren (25).KL-divergentie is een maatstaf voor hoe verschillend een waarschijnlijkheidsverdeling is van een tweede referentiekansverdeling, en kan effectief de mogelijkheid van correlatie tussen laagdimensionale representaties van hoogdimensionale kenmerken evalueren.Als xi het i-de object in de N-dimensionale ruimte is, is xj het j-de object in de N-dimensionale ruimte, is yi het i-de object in de laag-dimensionale ruimte, en is yj het j-de object in de lage-dimensionale ruimte. -dimensionale ruimte, dan definieert t -SNE de gelijkeniskans ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), en voor de dimensionaliteitsreductieset q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Figuur 2A illustreert het effect van het verminderen van de biomassa- en nutriëntenfluxvectoren van de 11-dimensionale combinatie naar 3D.De motivatie voor het toepassen van t-SNE kan worden vergeleken met de motivatie voor hoofdcomponentenanalyse (PCA), waarbij het variantie-attribuut wordt gebruikt om het gebied/attribuut van de gegevens te benadrukken, waardoor de dimensionaliteit wordt verminderd.De t-SNE-methode bleek superieur aan PCA wat betreft het verschaffen van betrouwbare en reproduceerbare resultaten voor het Eco-Ministerie (zie Toelichting S2).Dit kan zijn omdat de orthogonaliteitsaanname van PCA niet geschikt is voor het identificeren van kritische interacties tussen zeer niet-lineaire interactieve kenmerken, omdat PCA zich richt op lineaire covariantiestructuren (26).Met behulp van teledetectiegegevens hebben Lunga et al.(27) illustreert hoe de SNE-methode kan worden gebruikt om complexe en niet-lineaire spectrale kenmerken te benadrukken die afwijken van de Gaussiaanse verdeling.
(A) Een gemodelleerde toevoersnelheid van nutriënten, fytoplankton en functionele zoöplankton-biomassa, getekend door het t-SNE-algoritme en gekleurd per provincie met behulp van DBSCAN.Elk punt vertegenwoordigt een punt in de hoogdimensionale ruimte, zoals weergegeven in figuur 6B; de meeste punten zijn vastgelegd.Assen verwijzen naar “t-SNE” maten 1, 2 en 3. (B) De geografische projectie van de provincie gevonden door DBSCAN op het breedtegraad-lengteraster van de oorsprong.De kleur moet als elke kleur worden beschouwd, maar moet overeenkomen met (A).
De punten in de t-SNE-spreidingsdiagram in Figuur 2A zijn respectievelijk geassocieerd met de breedte- en lengtegraad.Als de twee punten in figuur 2A dicht bij elkaar liggen, komt dat doordat hun biomassa- en nutriëntenstromen vergelijkbaar zijn, en niet vanwege geografische nabijheid.De kleuren in figuur 2A zijn clusters die zijn ontdekt met behulp van de DBSCAN-methode (28).Bij het zoeken naar dichte waarnemingen gebruikt het DBSCAN-algoritme de afstand in de 3D-weergave tussen de punten (ϵ = 0,39; voor informatie over deze keuze, zie Materialen en methoden), en het aantal vergelijkbare punten is vereist om het cluster te definiëren (hier 100 punten, zie hierboven).De DBSCAN-methode doet geen aannames over de vorm of het aantal clusters in de gegevens, zoals hieronder weergegeven:
3) Voor alle punten die zijn geïdentificeerd als binnen de afstand daarbinnen, herhaalt u stap 2 iteratief om de clustergrens te bepalen.Indien het aantal punten groter is dan de ingestelde minimumwaarde, wordt er sprake van een cluster.
Gegevens die niet voldoen aan het minimale clusterlid en de minimale afstand ϵ-metriek worden beschouwd als 'ruis' en krijgen geen kleur toegewezen.DBSCAN is een snel en schaalbaar algoritme met O(n2)-prestaties in het ergste geval.Voor de huidige analyse is het niet echt willekeurig.Het minimumaantal punten wordt bepaald door deskundigenevaluatie.Nadat u de afstand daarna hebt aangepast, is het resultaat niet stabiel genoeg in het bereik van ≈±10.Deze afstand wordt ingesteld met behulp van connectiviteit (Figuur 6A) en het dekkingspercentage van de oceaan (Figuur 6B).Connectiviteit wordt gedefinieerd als het samengestelde aantal clusters en is gevoelig voor de parameter ϵ.Een lagere connectiviteit duidt op onvoldoende aanpassing, waardoor regio's kunstmatig worden gegroepeerd.Hoge connectiviteit duidt op overfitting.Het is denkbaar om een ​​hoger minimum te hanteren, maar als het minimum groter is dan ca, is het onmogelijk om tot een betrouwbare oplossing te komen.135 (zie Materialen en methoden voor meer details).
De 115 clusters geïdentificeerd in Figuur 2A worden in Figuur 2B terug op de aarde geprojecteerd.Elke kleur komt overeen met een coherente combinatie van biogeochemische en ecologische factoren geïdentificeerd door DBSCAN.Zodra de clusters zijn bepaald, wordt de associatie van elk punt in figuur 2A met een specifieke lengte- en breedtegraad gebruikt om de clusters terug naar het geografische gebied te projecteren.Figuur 2B illustreert dit met dezelfde clusterkleuren als figuur 2A.Soortgelijke kleuren mogen niet worden geïnterpreteerd als ecologische gelijkenis, omdat ze worden toegewezen op basis van de volgorde waarin clusters door het algoritme worden ontdekt.
Het gebied in figuur 2B kan kwalitatief vergelijkbaar zijn met een gevestigd gebied in de fysieke en/of biogeochemie van de oceaan.De clusters in de Zuidelijke Oceaan zijn bijvoorbeeld zonesymmetrisch, waarbij oligotrofe wervels optreden, en de scherpe overgang duidt op de invloed van passaatwinden.In de equatoriale Stille Oceaan zijn bijvoorbeeld verschillende regio's te zien die verband houden met de stijging.
Om de ecologische omgeving van de Eco-Province te begrijpen, werd een variatie van de Bray-Curtis (BC) verschilindex (29) gebruikt om de ecologie in de cluster te evalueren.De BC-indicator is een statistische gegevens die wordt gebruikt om het verschil in gemeenschapsstructuur tussen twee verschillende locaties te kwantificeren.De BC-meting is toepasbaar op de biomassa van 51 soorten fytoplankton en zoöplankton BCninj = 1-2CninjSni + Snj
BCninj verwijst naar de gelijkenis tussen combinatie ni en combinatie nj, waarbij Cninj de minimumwaarde is van een enkel type biomassa dat bestaat in beide combinaties ni en nj, en Sni de som vertegenwoordigt van alle biomassa die bestaat in beide combinaties ni en Snj.Het BC-verschil is vergelijkbaar met de afstandsmeting, maar werkt in een niet-Euclidische ruimte, die waarschijnlijk geschikter is voor ecologische gegevens en de interpretatie ervan.
Voor elke cluster geïdentificeerd in figuur 2B kan de gelijkenis van intraprovinciaal en interprovinciaal BC worden beoordeeld.Het BC-verschil binnen een provincie verwijst naar het verschil tussen de gemiddelde waarde van de provincie en elk punt in de provincie.Het verschil tussen BC-provincies verwijst naar de gelijkenis tussen de ene provincie en andere provincies.Figuur 3A toont een symmetrische BC-matrix (0, zwart: volledig overeenkomend; 1, wit: volledig ongelijk).Elke lijn in de grafiek laat een patroon in de gegevens zien.Figuur 3B toont de geografische betekenis van de resultaten van BC in Figuur 3A voor elke provincie.Voor een provincie in een gebied met weinig voeding en weinig voedingsstoffen laat figuur 3B zien dat de symmetrie van grote gebieden rond de evenaar en de Indische Oceaan in wezen vergelijkbaar is, maar dat de hogere breedtegraden en opwellingsgebieden aanzienlijk verschillen.
(A) De mate van BC-verschil geëvalueerd voor elke provincie op basis van het mondiale 20-jarige gemiddelde mondiale oppervlaktegemiddelde van 51 plankton.Let op de verwachte symmetrie van de waarden.(B) De ruimtelijke projectie van een kolom (of rij).Voor een provincie in een dystrofische cirkel werd de mondiale verdeling van de BC-gelijkenismaatstaf geëvalueerd, en werd het mondiale 20-jarige gemiddelde geëvalueerd.Zwart (BC = 0) betekent hetzelfde gebied, en wit (BC = 1) betekent geen gelijkenis.
Figuur 4A illustreert het verschil in BC binnen elke provincie in Figuur 2B.Bepaald door gebruik te maken van de gemiddelde combinatie van het gemiddelde gebied in een cluster, en het bepalen van de ongelijkheid tussen het BC en het gemiddelde van elk rasterpunt in de provincie, laat dit zien dat de SAGE-methode 51 soorten goed kan scheiden op basis van de ecologische gelijkenis. modelgegevens.De algemene gemiddelde cluster BC-ongelijkheid van alle 51 typen is 0,102 ± 0,0049.
(A, B en D) Het BC-verschil binnen de provincie wordt geëvalueerd als het gemiddelde BC-verschil tussen elke rasterpuntgemeenschap en de gemiddelde provincie, en de complexiteit wordt niet verminderd.(2) Het mondiale gemiddelde intraprovinciale BC-verschil bedraagt ​​0,227 ± 0,117.Dit is de maatstaf voor op ecologische motivatie gebaseerde classificatie die in dit werk wordt voorgesteld [groene lijn in (C)].(C) Gemiddeld intraprovinciaal BC-verschil: De zwarte lijn vertegenwoordigt het intraprovinciaal BC-verschil met toenemende complexiteit.2σ komt van 10 herhalingen van het identificatieproces van de ecoprovincie.Voor de totale complexiteit van de provincies ontdekt door DBSCAN laat (A) zien dat de BC-ongelijkheid in de provincie 0,099 is, en de door (C) voorgestelde complexiteitsclassificatie 12, resulterend in een BC-ongelijkheid van 0,200 in de provincie.zoals de afbeelding laat zien.(D).
In Figuur 4B wordt de biomassa van 51 soorten plankton gebruikt om het equivalente BC-verschil in de provincie Longhurst weer te geven.Het algemene gemiddelde van elke provincie is 0,227, en de standaardafwijking van de rasterpunten met betrekking tot het verschil in de BC-provincie is 0,046.Dit is groter dan het cluster dat in figuur 1B wordt geïdentificeerd.In plaats daarvan nam, op basis van de som van de zeven functionele groepen, de gemiddelde BC-ongelijkheid binnen het seizoen in Longhurst toe tot 0,232.
De mondiale kaart van de ecoprovincie biedt ingewikkelde details van unieke ecologische interacties en er zijn verbeteringen aangebracht in het gebruik van de volledige ecosysteemstructuur van de provincie Longhurst.Van het Ministerie van Ecologie wordt verwacht dat het inzicht verschaft in het proces van het beheersen van het ecosysteem van numerieke modellen, en dit inzicht zal helpen bij het verkennen van veldwerk.Voor dit onderzoek is het niet mogelijk om meer dan honderd provincies volledig weer te geven.In het volgende gedeelte wordt de SAGE-methode geïntroduceerd die de provincies samenvat.
Eén van de doelstellingen van de provincie is het bevorderen van het inzicht in de ligging en het beheer van de provincie.Om noodsituaties te bepalen illustreert de methode in figuur 1B het nestelen van ecologisch vergelijkbare provincies.Ecoprovincies worden gegroepeerd op basis van ecologische gelijkenis, en een dergelijke groepering van provincies wordt AEP genoemd.Stel een aanpasbare “complexiteit” in op basis van het totale aantal provincies waarmee rekening moet worden gehouden.De term ‘complexiteit’ wordt gebruikt omdat hierdoor het niveau van de noodattributen kan worden aangepast.Om zinvolle aggregaties te definiëren, wordt het gemiddelde intraprovinciale BC-verschil van 0,227 ten opzichte van Longhurst als benchmark gebruikt.Beneden deze benchmark worden de gecombineerde provincies niet langer als nuttig beschouwd.
Zoals blijkt uit figuur 3B zijn de mondiale ecologische provincies coherent.Uit interprovinciale BC-verschillen blijkt dat sommige configuraties zeer “gewoon” zijn.Geïnspireerd door genetica en grafentheoretische methoden worden ‘verbonden grafieken’ gebruikt om >100 provincies te sorteren op basis van de provincies die er het meest op lijken.De ‘connectiviteit’-metriek wordt hier bepaald aan de hand van de interprovinciale BC-ongelijkheid (30).Het aantal provincies met een grotere classificatieruimte van > 100 provincies kan hierin worden aangeduid als complexiteit.AEP is een product dat meer dan 100 provincies categoriseert als de meest dominante/dichtstbijzijnde ecologische provincies.Elke ecologische provincie wordt toegewezen aan de dominante/sterk verbonden ecologische provincie die er het meest op lijkt.Deze aggregatie, bepaald door het BC-verschil, maakt een geneste benadering van de mondiale ecologie mogelijk.
De geselecteerde complexiteit kan elke waarde van 1 tot de volledige complexiteit van FIG.2A.Bij lagere complexiteit kan AEP degenereren als gevolg van de probabilistische dimensionaliteitsreductiestap (t-SNE).Degeneratie betekent dat ecologische provincies tussen iteraties aan verschillende AEP's kunnen worden toegewezen, waardoor het bestreken geografische gebied verandert.Figuur 4C illustreert de verspreiding van BC-verschillen binnen provincies in AEP's met toenemende complexiteit over 10 implementaties (illustratie in Figuur 1B).In figuur 4C is 2σ (blauw gebied) een maatstaf voor degradatie in 10 implementaties, en de groene lijn vertegenwoordigt de Longhurst-benchmark.Feiten hebben bewezen dat de complexiteit van 12 het BC-verschil in de provincie in alle implementaties onder de Longhurst-benchmark kan houden en een relatief kleine 2σ-degradatie kan handhaven.Samenvattend is de minimaal aanbevolen complexiteit 12 AEP's, en het gemiddelde BC-verschil tussen de provincies, geëvalueerd met behulp van 51 planktontypen, is 0,198 ± 0,013, zoals weergegeven in figuur 4D.Als we de som van zeven functionele planktongroepen gebruiken, is het gemiddelde BC-verschil binnen de provincie 2σ in plaats van 0,198 ± 0,004.De vergelijking tussen de BC-verschillen berekend met de totale biomassa van de zeven functionele groepen of de biomassa van alle 51 planktontypen laat zien dat, hoewel de SAGE-methode toepasbaar is op de 51-dimensionale situatie, dit geldt voor de totale biomassa van de zeven functionele groepen. Voor training.
Afhankelijk van het doel van welk onderzoek dan ook, kunnen verschillende niveaus van complexiteit in overweging worden genomen.Voor regionale studies kan de volledige complexiteit nodig zijn (dwz alle 115 provincies).Beschouw als voorbeeld en voor de duidelijkheid de minimaal aanbevolen complexiteit van 12.
Als voorbeeld van het nut van de SAGE-methode worden hier 12 AEP's met een minimale complexiteit van 12 gebruikt om de controle over de structuur van de noodgemeenschap te onderzoeken.Figuur 5 illustreert de ecologische inzichten gegroepeerd op AEP (van A tot L): In Redfield-stoichiometrie worden de geografische omvang (Figuur 5C), de samenstelling van de functionele groep biomassa (Figuur 5A) en de toevoer van voedingsstoffen (Figuur 5B) uitgevoerd door N Zoomed.De verhouding (N:Si:P:Fe, 1:1:16:16×103) wordt weergegeven.Voor dit laatste paneel werd P vermenigvuldigd met 16 en Fe vermenigvuldigd met 16×103, dus het staafdiagram komt overeen met de voedingsbehoeften van fytoplankton.
De provincies zijn ingedeeld in 12 AEP's A tot en met L. (A) Biomassa (mgC/m3) van ecosystemen in 12 provincies.(B) De nutriëntenstroomsnelheid van opgeloste anorganische stikstof (N), ijzer (Fe), fosfaat (P) en kiezelzuur (Si) (mmol/m3 per jaar).Fe en P worden vermenigvuldigd met respectievelijk 16 en 16×103, zodat de stroken worden gestandaardiseerd volgens de stoichiometrievereisten van fytoplankton.(C) Let op het verschil tussen de poolgebieden, subtropische cyclonen en grote seizoens-/stijgingsgebieden.De meetstations zijn als volgt gemarkeerd: 1, STOELEN;2, ALOHA;3, station P;en 4, BATTEN.
Het geïdentificeerde AEP is uniek.Er bestaat enige symmetrie rond de evenaar in de Atlantische en Stille Oceaan, en een soortgelijk maar groter gebied bestaat in de Indische Oceaan.Sommige AEP's omvatten de westelijke kant van het continent dat verband houdt met de beklimming.De zuidpool-circucumpolaire stroom wordt beschouwd als een groot zonaal kenmerk.Subtropische cycloon is een complexe reeks oligotrofe AEP.In deze provincies is het bekende patroon van biomassaverschillen tussen door plankton gedomineerde oligotrofe wervels en diatomeeënrijke poolgebieden duidelijk zichtbaar.
AEP's met een zeer vergelijkbare totale fytoplanktonbiomassa kunnen zeer verschillende gemeenschapsstructuren hebben en verschillende geografische gebieden bestrijken, zoals D, H en K, die een vergelijkbare totale fytoplanktonbiomassa hebben.AEP H komt voornamelijk voor in de equatoriale Indische Oceaan, en er zijn meer diazotrofe bacteriën.AEP D wordt in verschillende bekkens aangetroffen, maar is vooral prominent aanwezig in de Stille Oceaan rond gebieden met hoge opbrengst rond de equatoriale opwelling.De vorm van deze provincie in de Stille Oceaan doet denken aan een planetaire golftrein.Er zijn weinig diazobacteriën in AEP D en meer kegeltjes.Vergeleken met de andere twee provincies wordt AEP K alleen aangetroffen in de hooglanden van de Noordelijke IJszee, en zijn er meer diatomeeën en minder plankton.Het is vermeldenswaard dat de hoeveelheid plankton in deze drie regio’s ook heel verschillend is.Onder hen is de plankton-abundantie van AEP K relatief laag, terwijl die van AEP D en H relatief hoog is.Daarom zijn deze provincies, ondanks hun biomassa (en daarom vergelijkbaar met Chl-a), behoorlijk verschillend: op Chl gebaseerde provincietests kunnen deze verschillen mogelijk niet vastleggen.
Het is ook duidelijk dat sommige AEP's met zeer verschillende biomassa vergelijkbaar kunnen zijn wat betreft de structuur van de fytoplanktongemeenschap.Dit is bijvoorbeeld zichtbaar in AEP D en E. Ze liggen dicht bij elkaar, en in de Stille Oceaan ligt AEP E dicht bij de hoogproductieve AEPJ.Op dezelfde manier bestaat er geen duidelijk verband tussen de biomassa van fytoplankton en de overvloed aan zoöplankton.
AEP kan worden begrepen in termen van de voedingsstoffen die eraan worden verstrekt (Figuur 5B).Diatomeeën bestaan ​​alleen als er voldoende aanbod van kiezelzuur is.Over het algemeen geldt dat hoe hoger het aanbod van kiezelzuur, hoe hoger de biomassa van diatomeeën.Diatomeeën zijn te zien in AEP A, J, K en L. De verhouding van diatomeeënbiomassa ten opzichte van ander fytoplankton wordt bepaald door de geleverde N, P en Fe in verhouding tot de diatomeeënvraag.AEP L wordt bijvoorbeeld gedomineerd door diatomeeën.Vergeleken met andere voedingsstoffen heeft Si het hoogste aanbod.Ondanks de hogere productiviteit heeft AEP J daarentegen minder diatomeeën en minder siliciumaanvoer (allemaal en in verhouding tot andere voedingsstoffen).
Diazoniumbacteriën hebben het vermogen stikstof vast te leggen, maar groeien langzaam (31).Ze bestaan ​​naast ander fytoplankton, waar ijzer en fosfor buitensporig zijn in verhouding tot de vraag naar niet-diazoniumvoedingsstoffen (20, 21).Het is vermeldenswaard dat de diazotrofe biomassa relatief hoog is, en het aanbod van Fe en P relatief groot is in verhouding tot het aanbod van N. Op deze manier is de totale biomassa in AEP J hoger, maar de diazoniumbiomassa in AEP H is groter dan die in J. Houd er rekening mee dat AEP J en H geografisch heel verschillend zijn, en H zich in de equatoriale Indische Oceaan bevindt.
Als de unieke ecosysteemstructuur niet in provincies wordt verdeeld, zullen de inzichten uit de twaalf AEP-modellen met de laagste complexiteit niet zo duidelijk zijn.Het door SAGE gegenereerde AEP vergemakkelijkt de coherente en gelijktijdige vergelijking van complexe en hoogdimensionale informatie uit ecosysteemmodellen.AEP benadrukt effectief waarom Chl geen goede en alternatieve methode is om de gemeenschapsstructuur of de overvloed aan zoöplankton bij hogere nutriëntenniveaus te bepalen.Een gedetailleerde analyse van lopende onderzoeksonderwerpen valt buiten het bestek van dit artikel.De SAGE-methode biedt een manier om andere mechanismen in het model te verkennen die gemakkelijker te hanteren zijn dan point-to-point-weergave.
De SAGE-methode wordt voorgesteld om uiterst complexe ecologische gegevens uit mondiale fysische/biogeochemische/ecosysteem-numerieke modellen te helpen verduidelijken.De ecologische provincie wordt bepaald door de totale biomassa van planktonoverschrijdende functionele groepen, de toepassing van het t-SNE-algoritme voor waarschijnlijkheidsdimensionaliteitsreductie en de clustering met behulp van de niet-gecontroleerde ML-methode DBSCAN.De interprovinciale BC-verschil/grafiekentheorie voor de nestmethode wordt toegepast om een ​​robuuste AEP af te leiden die kan worden gebruikt voor globale interpretatie.Qua bebouwing zijn de Eco-Provincie en AEP uniek.De AEP-nesten kan worden aangepast tussen de volledige complexiteit van de oorspronkelijke ecologische provincie en de aanbevolen minimumdrempel van 12 AEP's.Het nesten en bepalen van de minimale complexiteit van AEP worden als sleutelstappen beschouwd, omdat de waarschijnlijkheid t-SNE AEP's met een complexiteit <12 degenereert.De SAGE-methode is mondiaal en de complexiteit ervan varieert van> 100 AEP's tot 12. Voor de eenvoud ligt de huidige focus op de complexiteit van 12 mondiale AEP's.Toekomstig onderzoek, vooral regionale studies, zou een kleinere ruimtelijke subset van de mondiale ecoprovincies nuttig kunnen vinden, en zou in een kleiner gebied kunnen worden samengevoegd om voordeel te halen uit dezelfde ecologische inzichten die hier worden besproken.Het geeft suggesties over hoe deze ecologische provincies en de daaruit verkregen inzichten kunnen worden gebruikt voor verder ecologisch inzicht, het vergemakkelijken van modelvergelijking en mogelijk het monitoren van mariene ecosystemen.
De ecologische provincie en AEP geïdentificeerd door de SAGE-methode zijn gebaseerd op de gegevens in het numerieke model.Per definitie is het numerieke model een vereenvoudigde structuur, die probeert de essentie van het doelsysteem vast te leggen, en verschillende modellen zullen een verschillende verdeling van plankton hebben.Het numerieke model dat in dit onderzoek wordt gebruikt, kan sommige van de waargenomen patronen niet volledig weergeven (bijvoorbeeld in de Chl-schattingen voor het equatoriale gebied en de Zuidelijke Oceaan).Slechts een klein deel van de diversiteit in de echte oceaan wordt vastgelegd, en de meso- en sub-mesoschalen kunnen niet worden opgelost, wat de nutriëntenstroom en de kleinschalige gemeenschapsstructuur kan beïnvloeden.Ondanks deze tekortkomingen blijkt dat AEP zeer nuttig is bij het helpen begrijpen van complexe modellen.Door te evalueren waar vergelijkbare ecologische provincies worden gevonden, biedt AEP een potentieel hulpmiddel voor het vergelijken van numerieke modellen.Het huidige numerieke model legt het algemene patroon vast van de teledetectie-fytoplankton Chl-a-concentratie en de verdeling van de planktongrootte en functionele groep (noot S1 en figuur S1) (2, 32).
Zoals blijkt uit de 0,1 mgChl-a/m-3-contourlijn, is AEP verdeeld in oligotroof gebied en mesotroof gebied (Figuur S1B): AEP B, C, D, E, F en G zijn oligotrofe gebieden, en de overige gebieden zijn gelegen Hoger Chl-a.AEP vertoont enige correspondentie met de provincie Longhurst (Figuur S3A), bijvoorbeeld de Zuidelijke Oceaan en de equatoriale Stille Oceaan.In sommige regio's bestrijkt AEP meerdere Longhurst-regio's, en omgekeerd.Omdat de bedoeling om provincies in dit gebied en Longhurst af te bakenen anders is, wordt verwacht dat er verschillen zullen zijn.Meerdere AEP's in een provincie Longhurst geven aan dat bepaalde gebieden met vergelijkbare biogeochemie zeer verschillende ecosysteemstructuren kunnen hebben.AEP vertoont een zekere overeenkomst met fysieke toestanden, zoals blijkt uit leren zonder toezicht (19), zoals in toestanden met hoge opwelling (bijvoorbeeld de Zuidelijke Oceaan en de equatoriale Stille Oceaan; figuur S3, C en D).Deze overeenkomsten geven aan dat de gemeenschapsstructuur van plankton sterk wordt beïnvloed door de oceaandynamiek.In gebieden zoals de Noord-Atlantische Oceaan doorkruist AEP fysieke provincies.Het mechanisme dat deze verschillen veroorzaakt, kan processen omvatten zoals stoftransport, wat zelfs onder vergelijkbare fysieke omstandigheden tot totaal verschillende voedingsprogramma's kan leiden.
Het Ministerie van Ecologie en AEP wezen erop dat het gebruik van Chl alleen ecologische componenten niet kan identificeren, zoals de gemeenschap van de mariene ecologie zich al heeft gerealiseerd.Dit is te zien in AEP's met vergelijkbare biomassa maar een aanzienlijk verschillende ecologische samenstelling (zoals D en E).Daarentegen hebben AEP's zoals D en K een zeer verschillende biomassa, maar een vergelijkbare ecologische samenstelling.AEP benadrukt dat de relatie tussen biomassa, ecologische samenstelling en de overvloed aan zoöplankton complex is.Hoewel AEP J bijvoorbeeld opvalt in termen van fytoplankton en planktonbiomassa, hebben AEP's A en L een vergelijkbare planktonbiomassa, maar A heeft een hogere plankton-abundantie.AEP benadrukt dat fytoplanktonbiomassa (of Chl) niet kan worden gebruikt om de biomassa van zoöplankton te voorspellen.Zoöplankton vormt de basis van de voedselketen van de visserij, en nauwkeurigere schattingen kunnen leiden tot een beter beheer van de hulpbronnen.Toekomstige mariene kleurensatellieten [bijvoorbeeld PACE (plankton, aerosol, cloud en marien ecosysteem)] zijn mogelijk beter gepositioneerd om de gemeenschapsstructuur van fytoplankton te helpen schatten.Het gebruik van AEP-voorspelling kan mogelijk de schatting van zoöplankton vanuit de ruimte vergemakkelijken.Methoden als SAGE, gekoppeld aan nieuwe technologieën en steeds meer veldgegevens die beschikbaar zijn voor ground Truth surveys (zoals Tara en vervolgonderzoek), kunnen gezamenlijk een stap zetten in de richting van satellietgebaseerde monitoring van de gezondheid van ecosystemen.
De SAGE-methode biedt een handige manier om een ​​aantal mechanismen te evalueren die de kenmerken van provincies controleren, zoals biomassa/Chl, netto primaire productie en gemeenschapsstructuur.De relatieve hoeveelheid diatomeeën wordt bijvoorbeeld bepaald door een onevenwicht in de toevoer van Si, N, P en Fe ten opzichte van de stoichiometrische behoeften van fytoplankton.Bij een evenwichtig aanbod wordt de gemeenschap gedomineerd door diatomeeën (L).Wanneer het aanbod onevenwichtig is (dat wil zeggen, het aanbod van silicium is lager dan de vraag naar voedingsstoffen van diatomeeën), nemen diatomeeën slechts een klein deel van het aandeel (K) voor hun rekening.Wanneer de aanvoer van Fe en P groter is dan de aanvoer van N (bijvoorbeeld E en H), zullen de diazotrofe bacteriën krachtig groeien.Door de context die door AEP wordt geboden, zal het verkennen van controlemechanismen nuttiger worden.
De Eco-Provincie en AEP zijn gebieden met vergelijkbare gemeenschapsstructuren.De tijdreeksen vanaf een bepaalde locatie binnen een ecologische provincie of AEP kunnen als referentiepunt worden beschouwd en kunnen het gebied weergeven dat door de ecologische provincie of AEP wordt bestreken.Lange termijn meetstations ter plaatse bieden dergelijke tijdreeksen.In-situ datasets op lange termijn zullen een onberekenbare rol blijven spelen.Vanuit het perspectief van het monitoren van de gemeenschapsstructuur kan de SAGE-methode worden gezien als een manier om de meest bruikbare locatie van nieuwe locaties te helpen bepalen.De tijdreeksen van de lange termijn oligotrofe habitatbeoordeling (ALOHA) bevinden zich bijvoorbeeld in de AEP B van het oligotrofe gebied (Figuur 5C, label 2).Omdat ALOHA dicht bij de grens van een ander AEP ligt, is de tijdreeks mogelijk niet representatief voor het hele gebied, zoals eerder werd gesuggereerd (33).In hetzelfde AEP B bevindt de tijdreeks SEATS (Southeast Asian Time Series) zich in het zuidwesten van Taiwan (34), verder van de grenzen van andere AEP's (Figuur 5C, label 1), en kan worden gebruikt als een betere locatie om te monitoren AEPB.De tijdreeksen van BATS (Bermuda Atlantic Time Series Study) (Figuur 5C, label 4) in AEPC liggen zeer dicht bij de grens tussen AEP C en F, wat aangeeft dat het monitoren van AEP C met behulp van BATS-tijdreeksen direct problematisch kan zijn.Station P in AEP J (Figuur 5C, label 3) ligt ver van de AEP-grens en is dus representatiever.De Eco-Provincie en AEP kunnen helpen bij het opzetten van een monitoringkader dat geschikt is voor het beoordelen van mondiale veranderingen, omdat de toestemming van de provincies om te beoordelen waar monsters ter plaatse worden genomen belangrijke inzichten kan opleveren.De SAGE-methode kan verder worden ontwikkeld om te worden toegepast op klimaatgegevens om tijdbesparende variabiliteit te beoordelen.
Het succes van de SAGE-methode wordt bereikt door zorgvuldige toepassing van data science/ML-methoden en domeinspecifieke kennis.Specifiek wordt t-SNE gebruikt om dimensionaliteitsreductie uit te voeren, waardoor de covariantiestructuur van hoogdimensionale gegevens behouden blijft en de visualisatie van de covariantietopologie wordt vergemakkelijkt.De gegevens zijn gerangschikt in de vorm van strepen en covarianties (Figuur 2A), wat aangeeft dat puur op afstand gebaseerde metingen (zoals K-gemiddelden) niet geschikt zijn omdat ze gewoonlijk een Gaussiaanse (circulaire) basisverdeling gebruiken (besproken in Toelichting S2) .De DBSCAN-methode is geschikt voor elke covariantietopologie.Zolang u aandacht besteedt aan het instellen van parameters, kan een betrouwbare identificatie worden geboden.De rekenkosten van het t-SNE-algoritme zijn hoog, waardoor de huidige toepassing ervan beperkt wordt tot een grotere hoeveelheid gegevens, wat betekent dat het moeilijk toepasbaar is op diepe of tijdsvariërende velden.Er wordt gewerkt aan de schaalbaarheid van t-SNE.Omdat de KL-afstand gemakkelijk te parallelliseren is, heeft het t-SNE-algoritme een goed potentieel voor uitbreiding in de toekomst (35).Tot nu toe omvatten andere veelbelovende methoden voor het verminderen van de dimensionaliteit die de omvang beter kunnen verkleinen onder meer Unified Manifold Approach and Projection (UMAP) technieken, maar evaluatie in de context van oceaangegevens is noodzakelijk.De betekenis van betere schaalbaarheid is bijvoorbeeld het classificeren van mondiale klimaten of modellen met verschillende complexiteit op een gemengde laag.Gebieden die in geen enkele provincie door SAGE worden geclassificeerd, kunnen worden beschouwd als de resterende zwarte stippen in figuur 2A.Geografisch gezien bevinden deze gebieden zich voornamelijk in zeer seizoensgebonden gebieden, wat erop wijst dat het veroveren van ecologische provincies die in de loop van de tijd veranderen een betere dekking zal opleveren.
Om de SAGE-methode te construeren zijn ideeën uit complexe systemen/datawetenschap gebruikt, waarbij gebruik is gemaakt van het vermogen om clusters van functionele groepen te bepalen (de mogelijkheid om heel dichtbij te zijn in een 11-dimensionale ruimte) en om provincies te bepalen.Deze provincies geven specifieke volumes weer in onze 3D t-SNE-faseruimte.Op dezelfde manier kan het Poincaré-deel worden gebruikt om het ‘volume’ van de toestandsruimte die door het traject wordt ingenomen te evalueren om ‘normaal’ of ‘chaotisch’ gedrag te bepalen (36).Voor de statische 11-dimensionale modeluitvoer kan het volume dat wordt ingenomen nadat de gegevens zijn omgezet in een 3D-faseruimte op soortgelijke wijze worden verklaard.De relatie tussen het geografische gebied en het gebied in de 3D-faseruimte is niet eenvoudig, maar kan worden verklaard in termen van ecologische gelijkenis.Om deze reden wordt de voorkeur gegeven aan de meer conventionele BC-ongelijkheidsmaatstaf.
Toekomstig werk zal de SAGE-methode hergebruiken voor seizoensveranderingsgegevens om de ruimtelijke variabiliteit van de geïdentificeerde provincies en AEP te beoordelen.Het toekomstige doel is om deze methode te gebruiken om te helpen bepalen welke provincies kunnen worden bepaald door middel van satellietmetingen (zoals Chl-a, teledetectiereflectiviteit en zeeoppervlaktetemperatuur).Dit maakt teledetectiebeoordeling van ecologische componenten en zeer flexibele monitoring van ecologische provincies en hun variabiliteit mogelijk.
Het doel van dit onderzoek is om de SAGE-methode te introduceren, die een ecologische provincie definieert aan de hand van zijn unieke planktongemeenschapsstructuur.Hier zal meer gedetailleerde informatie over het fysisch/biogeochemische/ecosysteemmodel en de parameterselectie van de t-SNE- en DBSCAN-algoritmen worden verstrekt.
De fysieke componenten van het model komen uit de schatting van de oceaancirculatie en het klimaat [ECCOv4;(37) de schatting van de mondiale toestand beschreven door (38).De nominale resolutie van de staatsschatting is 1/5.De kleinste kwadratenmethode met Lagrangiaanse vermenigvuldigingsmethode wordt gebruikt om de initiële en randvoorwaarden en interne modelparameters te verkrijgen die door observatie zijn aangepast, waardoor een vrijlopend MIT-algemene-cyclusmodel (MITgcm) (39) wordt gegenereerd. Na optimalisatie kunnen de resultaten gevolgd en geobserveerd worden.
De biogeochemie/ecosysteem heeft een completere beschrijving (dwz vergelijkingen en parameterwaarden) in (2).Het model registreert de circulatie van C, N, P, Si en Fe door anorganische en organische vijvers.De hier gebruikte versie omvat 35 soorten fytoplankton: 2 soorten microprokaryoten en 2 soorten micro-eukaryoten (geschikt voor omgevingen met weinig voedingsstoffen), 5 soorten Cryptomonas sphaeroides (met calciumcarbonaatcoating), 5 soorten diazonium (kan stikstof binden, dus het is niet beperkt) de beschikbaarheid van opgeloste anorganische stikstof), 11 diatomeeën (die een kiezelachtige bedekking vormen), 10 gemengd-vegetatieve flagellaten (kunnen fotosynthetiseren en ander plankton eten) en 16 zoöplankton (grazen op ander plankton).Deze worden ‘biogeochemische functionele groepen’ genoemd omdat ze verschillende effecten hebben op de mariene biogeochemie (40, 41) en vaak worden gebruikt in observatie- en modelstudies.In dit model bestaat elke functionele groep uit verschillende planktons van verschillende grootte, met een spanwijdte van 0,6 tot 2500 μm equivalente bolvormige diameter.
De parameters die de groei, begrazing en zinking van fytoplankton beïnvloeden, houden verband met de grootte, en er zijn specifieke verschillen tussen de zes functionele fytoplanktongroepen (32).Ondanks de verschillende fysieke raamwerken zijn de resultaten van de 51 planktoncomponenten van het model in een aantal recente onderzoeken gebruikt (42-44).
Van 1992 tot 2011 liep het fysisch/biogeochemisch/ecosysteemkoppelingsmodel twintig jaar lang.De output van het model omvat planktonbiomassa, nutriëntenconcentratie en nutriëntentoevoer (DIN, PO4, Si en Fe).In dit onderzoek is het twintigjarig gemiddelde van deze outputs gebruikt als input van de Ecologische Provincie.Chl, de verdeling van de planktonbiomassa en nutriëntenconcentratie en de verdeling van functionele groepen worden vergeleken met satelliet- en in-situ waarnemingen [zie (2, 44), noot S1 en figuur.S1 tot S3].
Voor de SAGE-methode komt de belangrijkste bron van willekeur voort uit de t-SNE-stap.Willekeurigheid belemmert de herhaalbaarheid, wat betekent dat de resultaten onbetrouwbaar zijn.De SAGE-methode test de robuustheid rigoureus door een reeks parameters van t-SNE en DBSCAN te bepalen, die bij herhaling consistent clusters kunnen identificeren.Het bepalen van de ‘verbijstering’ van de t-SNE-parameter kan worden opgevat als het bepalen van de mate waarin de mapping van hoge naar lage dimensies de lokale of globale kenmerken van de gegevens moet respecteren.Bereikte de verwarring van 400 en 300 iteraties.
Voor het clusteralgoritme DBSCAN moeten de minimale grootte en afstandsmetriek van de datapunten in het cluster worden bepaald.Het minimumaantal wordt onder begeleiding van deskundigen bepaald.Deze kennis weet wat past bij het huidige numerieke modelleringskader en de huidige resolutie.Het minimumaantal is 100. Een hogere minimumwaarde (minder dan <135 voordat de bovengrens van groen breder wordt) kan worden overwogen, maar deze kan de aggregatiemethode op basis van BC-ongelijkheid niet vervangen.De mate van verbinding (Figuur 6A) wordt gebruikt om de parameter ϵ in te stellen, wat bevorderlijk is voor een hogere dekking (Figuur 6B).Connectiviteit wordt gedefinieerd als het samengestelde aantal clusters en is gevoelig voor de parameter ϵ.Een lagere connectiviteit duidt op onvoldoende aanpassing, waardoor regio's kunstmatig worden gegroepeerd.Hoge connectiviteit duidt op overfitting.Overfitting is ook problematisch, omdat het aantoont dat initiële willekeurige gissingen tot niet-reproduceerbare resultaten kunnen leiden.Tussen deze twee uitersten geeft een scherpe toename (meestal “elleboog” genoemd) de beste ϵ aan.In Figuur 6A zie je een scherpe toename van het plateaugebied (geel,> 200 clusters), gevolgd door een scherpe afname (groen, 100 clusters), tot ongeveer 130, omgeven door zeer weinig clusters (blauw, <60 clusters) ).In ten minste 100 blauwe gebieden domineert één cluster de hele oceaan (ϵ <0,42), of het grootste deel van de oceaan is niet geclassificeerd en wordt als ruis beschouwd (ϵ> 0,99).Het gele gebied heeft een zeer variabele, niet-reproduceerbare clusterverdeling.Naarmate ϵ afneemt, neemt de ruis toe.Het sterk toenemende groene gebied wordt een elleboog genoemd.Dit is een optimale regio.Hoewel de waarschijnlijkheid t-SNE wordt gebruikt, kan de BC-ongelijkheid binnen de provincie nog steeds worden gebruikt om betrouwbare clustering te bepalen.Stel met behulp van figuur 6 (A en B) ϵ in op 0,39.Hoe groter het minimumgetal, hoe kleiner de kans op het bereiken van de ϵ die een betrouwbare classificatie mogelijk maakt, en hoe groter het groene gebied met een waarde groter dan 135. De vergroting van dit gebied geeft aan dat de elleboog moeilijker te vinden zal zijn of niet- bestaand.
Na het instellen van de parameters van t-SNE wordt het totale aantal gevonden clusters gebruikt als maatstaf voor de connectiviteit (A) en het percentage gegevens dat aan het cluster is toegewezen (B).De rode stip geeft de beste combinatie van dekking en connectiviteit aan.Het minimumaantal wordt vastgesteld op basis van het minimumaantal met betrekking tot ecologie.
Voor aanvullende materialen bij dit artikel, zie http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Dit is een open access-artikel dat wordt verspreid onder de voorwaarden van de Creative Commons Attribution License.Het artikel staat onbeperkt gebruik, distributie en reproductie op elk medium toe, op voorwaarde dat het originele werk correct wordt geciteerd.
Opmerking: we vragen u alleen om uw e-mailadres op te geven, zodat de persoon die u aanbeveelt op de pagina weet dat u wilt dat hij of zij de e-mail ziet en dat deze geen spam is.Wij zullen geen e-mailadressen vastleggen.
Deze vraag wordt gebruikt om te testen of u een bezoeker bent en om automatische spamverzending te voorkomen.
Het Global Ministry of Marine Ecology is vastbesloten om complexe problemen op te lossen en gebruikt ML zonder toezicht om gemeenschapsstructuren te verkennen.
Het Global Ministry of Marine Ecology is vastbesloten om complexe problemen op te lossen en gebruikt ML zonder toezicht om gemeenschapsstructuren te verkennen.


Posttijd: 12 januari 2021