Es wird eine unbeaufsichtigte Lernmethode vorgeschlagen, um globale marine ökologische Provinzen (Öko-Provinzen) auf der Grundlage der Struktur der Planktongemeinschaft und der Daten zum Nährstofffluss zu bestimmen.Mit der Methode der systematischen integrierten ökologischen Provinz (SAGE) können ökologische Provinzen in hochgradig nichtlinearen Ökosystemmodellen identifiziert werden.Um sich an die nicht-Gaußsche Kovarianz der Daten anzupassen, verwendet SAGE t Random Neighbor Embedding (t-SNE), um die Dimensionalität zu reduzieren.Mit Hilfe der Lärmanwendung, die auf dem Density-based Spatial Clustering (DBSCAN)-Algorithmus basiert, können mehr als hundert ökologische Provinzen identifiziert werden.Unter Verwendung der Konnektivitätskarte mit ökologischen Unterschieden als Entfernungsmaß wird eine robuste aggregierte ökologische Provinz (AEP) objektiv durch verschachtelte ökologische Provinzen definiert.Mithilfe von AEPs wurde die Steuerung der Nährstoffversorgungsrate auf die Gemeinschaftsstruktur untersucht.Öko-Provinz und AEP sind einzigartig und können bei der Modellinterpretation helfen.Sie können Vergleiche zwischen Modellen erleichtern und das Verständnis und die Überwachung mariner Ökosysteme verbessern.
Provinzen sind Regionen, in denen komplexe Biogeographie auf dem Meer oder an Land in zusammenhängende und bedeutsame Gebiete organisiert ist (1).Diese Provinzen sind sehr wichtig für den Vergleich und die Gegenüberstellung von Standorten, die Charakterisierung von Beobachtungen, die Überwachung und den Schutz.Aufgrund der komplexen und nichtlinearen Wechselwirkungen, die diese Provinzen erzeugen, eignen sich unüberwachte Methoden des maschinellen Lernens (ML) sehr gut zur objektiven Bestimmung von Provinzen, da die Kovarianz in den Daten komplex und nicht-gaußförmig ist.Hier wird eine ML-Methode vorgeschlagen, die systematisch einzigartige marine ökologische Provinzen (Ökoprovinzen) aus dem globalen dreidimensionalen (3D) physikalischen/Ökosystemmodell von Darwin identifiziert (2).Der Begriff „einzigartig“ wird verwendet, um darauf hinzuweisen, dass sich das identifizierte Gebiet nicht ausreichend mit anderen Gebieten überschneidet.Diese Methode wird als SAGE-Methode (System Integrated Ecological Province) bezeichnet.Um eine sinnvolle Klassifizierung durchzuführen, muss eine Algorithmusmethode (i) eine globale Klassifizierung und (ii) eine Analyse auf mehreren Skalen ermöglichen, die in Raum und Zeit verschachtelt/aggregiert werden kann (3).In dieser Forschung wurde zunächst die SAGE-Methode vorgeschlagen und die identifizierten ökologischen Provinzen diskutiert.Öko-Provinzen können das Verständnis der Faktoren fördern, die die Gemeinschaftsstruktur steuern, nützliche Erkenntnisse für Überwachungsstrategien liefern und dabei helfen, Veränderungen im Ökosystem zu verfolgen.
Landprovinzen werden in der Regel nach Ähnlichkeiten im Klima (Niederschlag und Temperatur), Boden, Vegetation und Fauna klassifiziert und für Hilfsmanagement, Biodiversitätsforschung und Krankheitsbekämpfung genutzt (1, 4).Meeresprovinzen sind schwieriger zu definieren.Die meisten Organismen sind mikroskopisch klein und haben fließende Grenzen.Longhurst et al.(5) Bereitstellung einer der ersten globalen Klassifizierungen des Ministeriums für Ozeanographie basierend auf Umweltbedingungen.Die Definition dieser „Longhurst“-Provinzen umfasst Variablen wie Mischungsrate, Schichtung und Bestrahlungsstärke sowie Longhursts umfangreiche Erfahrung als Meeresozeanograph, der über andere wichtige Bedingungen für Meeresökosysteme verfügt.Longhurst wurde ausgiebig genutzt, um beispielsweise die Primärproduktion und Kohlenstoffflüsse zu bewerten, die Fischerei zu unterstützen und In-situ-Beobachtungsaktivitäten zu planen (5-9).Um Provinzen objektiver zu definieren, wurden Methoden wie Fuzzy-Logik und regionale unbeaufsichtigte Clusterbildung/Statistik verwendet (9-14).Der Zweck solcher Methoden besteht darin, aussagekräftige Strukturen zu identifizieren, die Provinzen in den verfügbaren Beobachtungsdaten identifizieren können.Dynamische Meeresprovinzen (12) verwenden beispielsweise selbstorganisierende Karten, um Lärm zu reduzieren, und verwenden hierarchisches (baumbasiertes) Clustering, um Meeresfarbprodukte zu bestimmen, die von regionalen Satelliten abgeleitet werden [Chlorophyll a (Chl-a), normalisierte Fluoreszenzlinienhöhe und farbige gelöste organische Materie] und physikalisches Feld (Meeresoberflächentemperatur und Salzgehalt, absolute dynamische Topographie und Meereis).
Die Gemeinschaftsstruktur des Planktons ist besorgniserregend, da seine Ökologie einen großen Einfluss auf den höheren Nährstoffgehalt, die Kohlenstoffaufnahme und das Klima hat.Dennoch ist es immer noch ein herausforderndes und schwer zu erreichendes Ziel, eine globale ökologische Provinz auf der Grundlage der Struktur der Planktongemeinschaft zu bestimmen.Meeresfarbsatelliten können möglicherweise Einblicke in die grobkörnige Klassifizierung von Phytoplankton liefern oder die Vorteile funktioneller Gruppen vorschlagen (15), sie sind jedoch derzeit nicht in der Lage, detaillierte Informationen über die Gemeinschaftsstruktur zu liefern.Aktuelle Untersuchungen [z. B. Tara Ocean (16)] liefern beispiellose Messungen der Gemeinschaftsstruktur;Derzeit gibt es nur wenige In-situ-Beobachtungen auf globaler Ebene (17).Frühere Studien haben die „Biogeochemische Provinz“ (12, 14, 18) weitgehend auf der Grundlage der Bestimmung biochemischer Ähnlichkeiten (wie Primärproduktion, Chl und verfügbares Licht) bestimmt.Hier wird das numerische Modell zur Ausgabe von [Darwin(2)] verwendet und die ökologische Provinz wird anhand der Gemeinschaftsstruktur und des Nährstoffflusses bestimmt.Das in dieser Studie verwendete numerische Modell hat eine globale Abdeckung und kann mit vorhandenen Felddaten (17) und Fernerkundungsfeldern (Anmerkung S1) verglichen werden.Die in dieser Studie verwendeten numerischen Modelldaten haben den Vorteil einer globalen Abdeckung.Das Modellökosystem besteht aus 35 Phytoplanktonarten und 16 Zooplanktonarten (siehe Materialien und Methoden).Modellplanktontypen interagieren nichtlinear mit nicht-Gaußschen Kovarianzstrukturen, sodass einfache Diagnosemethoden nicht zur Identifizierung einzigartiger und konsistenter Muster in entstehenden Gemeinschaftsstrukturen geeignet sind.Die hier vorgestellte SAGE-Methode bietet eine neuartige Möglichkeit, die Ausgabe komplexer Darwin-Modelle zu überprüfen.
Die leistungsstarken transformativen Fähigkeiten der Datenwissenschaft/ML-Technologie können es ermöglichen, dass überwältigend komplexe Modelllösungen komplexe, aber robuste Strukturen in der Datenkovarianz aufdecken.Eine robuste Methode ist als eine Methode definiert, die die Ergebnisse innerhalb eines bestimmten Fehlerbereichs zuverlässig reproduzieren kann.Selbst in einfachen Systemen kann die Bestimmung robuster Muster und Signale eine Herausforderung sein.Bis die Begründung für das beobachtete Muster geklärt ist, kann die entstehende Komplexität kompliziert/schwer zu lösen erscheinen.Der Schlüsselprozess zur Festlegung der Zusammensetzung des Ökosystems ist nichtlinearer Natur.Das Vorhandensein nichtlinearer Wechselwirkungen kann eine robuste Klassifizierung verwirren. Daher müssen Methoden vermieden werden, die starke Annahmen über die grundlegende statistische Verteilung der Datenkovarianz treffen.Hochdimensionale und nichtlineare Daten kommen in der Ozeanographie häufig vor und können eine Kovarianzstruktur mit komplexer, nicht-Gaußscher Topologie aufweisen.Obwohl Daten mit einer nicht-Gaußschen Kovarianzstruktur eine robuste Klassifizierung behindern können, ist die SAGE-Methode neu, da sie darauf ausgelegt ist, Cluster mit willkürlichen Topologien zu identifizieren.
Das Ziel der SAGE-Methode besteht darin, aufkommende Muster objektiv zu identifizieren, die zum weiteren ökologischen Verständnis beitragen können.Nach einem Cluster-basierten Arbeitsablauf ähnlich wie (19) werden die ökologischen und Nährstoffflussvariablen verwendet, um den einzigen Cluster in den Daten zu bestimmen, der als ökologische Provinz bezeichnet wird.Die in dieser Studie vorgeschlagene SAGE-Methode (Abbildung 1) reduziert zunächst die Dimensionalität von 55 auf 11 Dimensionen, indem sie die a priori definierten Plankton-Funktionsgruppen summiert (siehe Materialien und Methoden).Mithilfe der T-Random Neighbor Embedding (t-SNE)-Methode wird die Größe weiter reduziert, indem die Wahrscheinlichkeit in den 3D-Raum projiziert wird.Durch unbeaufsichtigtes Clustering können ökologisch nahegelegene Gebiete identifiziert werden [dichtebasiertes räumliches Clustering (DBSCAN) für lärmbasierte Anwendungen].Sowohl t-SNE als auch DBSCAN sind auf die inhärenten nichtlinearen numerischen Modelldaten des Ökosystems anwendbar.Projizieren Sie dann die resultierende ökologische Provinz auf die Erde.Es wurden mehr als hundert einzigartige ökologische Provinzen identifiziert, die für regionale Forschung geeignet sind.Um das global konsistente Ökosystemmodell zu berücksichtigen, wird die SAGE-Methode verwendet, um die ökologischen Provinzen zu aggregierten ökologischen Provinzen (AEP) zusammenzufassen, um die Wirksamkeit der ökologischen Provinzen zu verbessern.Der Aggregationsgrad („Komplexität“ genannt) kann an den erforderlichen Detaillierungsgrad angepasst werden.Bestimmen Sie die minimale Komplexität eines robusten AEP.Der Schwerpunkt der Auswahl liegt auf der SAGE-Methode und der Untersuchung kleinster AEP-Fälle, um die Kontrolle über die Struktur der Notfallgemeinschaft zu bestimmen.Die Muster können dann analysiert werden, um ökologische Erkenntnisse zu gewinnen.Die hier vorgestellte Methode kann auch für umfassendere Modellvergleiche verwendet werden, indem beispielsweise die Standorte ähnlicher ökologischer Provinzen in verschiedenen Modellen ausgewertet werden, um Unterschiede und Gemeinsamkeiten hervorzuheben und so Modelle zu vergleichen.
(A) Schematische Darstellung des Arbeitsablaufs zur Bestimmung der ökologischen Provinz;Verwenden der Summe in der Funktionsgruppe, um die ursprünglichen 55-dimensionalen Daten auf eine 11-dimensionale Modellausgabe zu reduzieren, einschließlich der Biomasse von sieben Funktions-/Nährstoffplankton und vier Nährstoffversorgungsraten.Vernachlässigbarer Wert und dauerhafte Eisbedeckungsfläche.Die Daten wurden standardisiert und standardisiert.Stellen Sie dem t-SNE-Algorithmus 11-dimensionale Daten zur Verfügung, um statistisch ähnliche Merkmalskombinationen hervorzuheben.DBSCAN wählt den Cluster sorgfältig aus, um den Parameterwert festzulegen.Projizieren Sie die Daten abschließend zurück in die Breiten-/Längengradprojektion.Bitte beachten Sie, dass dieser Vorgang zehnmal wiederholt wird, da durch die Anwendung von t-SNE eine leichte Zufälligkeit erzeugt werden kann.(B) erklärt, wie man den AEP erhält, indem man den Arbeitsablauf in (A) zehnmal wiederholt.Für jede dieser 10 Implementierungen wurde die interprovinzielle Bray-Curtis (BC)-Unähnlichkeitsmatrix basierend auf der Biomasse von 51 Phytoplanktonarten ermittelt.Bestimmen Sie den BC-Unterschied zwischen Provinzen, von der Komplexität 1 AEP bis zur vollen Komplexität 115. Der BC-Benchmark wird von der Provinz Longhurst festgelegt.
Die SAGE-Methode verwendet die Ausgabe des globalen numerischen 3D-Physik-/Ökosystemmodells, um die ökologische Provinz zu definieren [Darwin (2);siehe Materialien und Methoden und Anmerkung S1].Die Komponenten des Ökosystems bestehen aus 35 Arten von Phytoplankton und 16 Arten von Zooplankton mit sieben vordefinierten funktionellen Gruppen: Prokaryoten und Eukaryoten, die an nährstoffarme Umgebungen angepasst sind, Kokzidien mit einer Kalziumkarbonatbeschichtung und starke Stickstofffixierung. Stickstoffnährstoffe (normalerweise fehlen). wichtige Nährstoffe), mit silikatischer Hülle, können andere Plankton-Photosynthese betreiben und Flagellaten und Zooplanktonhirten mit gemischten Nährstoffen grasen.Die Größenspanne beträgt 0,6 bis 2500 μm äquivalenter Kugeldurchmesser.Die Modellverteilung der Phytoplanktongröße und der funktionellen Gruppierung erfasst die Gesamtmerkmale, die bei Satelliten- und In-situ-Beobachtungen beobachtet wurden (siehe Abbildungen S1 bis S3).Die Ähnlichkeit zwischen dem numerischen Modell und dem beobachteten Ozean weist darauf hin, dass die durch das Modell definierten Provinzen möglicherweise auf den In-situ-Ozean anwendbar sind.Bitte beachten Sie, dass dieses Modell nur eine bestimmte Vielfalt des Phytoplanktons und nur bestimmte physikalische und chemische Antriebsbereiche des In-situ-Ozeans erfasst.Die SAGE-Methode kann es den Menschen ermöglichen, den stark regionalen Kontrollmechanismus der Modellgemeinschaftsstruktur besser zu verstehen.
Indem nur die Summe der Oberflächenbiomasse (mit einer durchschnittlichen Zeit von 20 Jahren) in jeder Planktonfunktionsgruppe einbezogen wird, kann die Dimensionalität der Daten reduziert werden.Nachdem frühere Studien ihre Schlüsselrolle bei der Festlegung der Gemeinschaftsstruktur gezeigt hatten, wurden auch Oberflächenquellenbegriffe für Nährstoffflüsse (Versorgung mit Stickstoff, Eisen, Phosphat und Kieselsäure) einbezogen [z. B. (20, 21)].Die Summierung funktioneller Gruppen reduziert das Problem von 55 (51 Plankton- und 4 Nährstoffflüsse) auf 11 Dimensionen.In dieser ersten Studie wurden aufgrund der durch den Algorithmus auferlegten Rechenbeschränkungen Tiefen- und Zeitvariabilität nicht berücksichtigt.
Die SAGE-Methode ist in der Lage, wichtige Beziehungen zwischen nichtlinearen Prozessen und Schlüsselmerkmalen der Wechselwirkungen zwischen Biomasse funktioneller Gruppen und Nährstofffluss zu identifizieren.Mit 11-dimensionalen Daten, die auf euklidischen Fernlernmethoden (wie K-Means) basieren, können keine zuverlässigen und reproduzierbaren Provinzen ermittelt werden (19, 22).Dies liegt daran, dass in der Grundverteilung der Kovarianz der Schlüsselelemente, die die ökologische Provinz definieren, keine Gaußsche Form zu finden ist.Die K-Mittelwerte der Voronoi-Zellen (gerade Linien) können die nicht-Gaußsche Grundverteilung nicht beibehalten.
Die Biomasse von sieben funktionellen Planktongruppen und vier Nährstoffflüssen bilden einen 11-dimensionalen Vektor x.Daher ist x ein Vektorfeld auf dem Modellgitter, wobei jedes Element xi einen 11-dimensionalen Vektor darstellt, der auf dem horizontalen Modellgitter definiert ist.Jeder Index i identifiziert eindeutig einen Gitterpunkt auf der Kugel, wobei (lon, lat) = (ϕi, θi).Wenn die Biomasse der Modellgittereinheit weniger als 1,2×10-3 mg Chl/m3 beträgt oder die Eisbedeckungsrate 70 % übersteigt, wird das Protokoll der Biomassedaten verwendet und verworfen.Die Daten sind normalisiert und standardisiert, sodass alle Daten im Bereich von [0 bis 1] liegen. Der Mittelwert wird entfernt und auf die Einheitsvarianz skaliert.Dies geschieht, damit die Merkmale (Biomasse und Nährstofffluss) nicht durch den Kontrast im Bereich möglicher Werte eingeschränkt werden.Beim Clustering sollte die Änderungsbeziehung anhand der Schlüsselwahrscheinlichkeitsentfernung zwischen den Features und nicht anhand der geografischen Entfernung erfasst werden.Durch die Quantifizierung dieser Abstände kommen wichtige Merkmale zum Vorschein, während unnötige Details verworfen werden.Aus ökologischer Sicht ist dies notwendig, da einige Arten von Phytoplankton mit geringer Biomasse möglicherweise größere biogeochemische Effekte haben, wie beispielsweise die Stickstofffixierung durch diazotrophe Bakterien.Bei der Standardisierung und Normalisierung von Daten werden diese Arten von Kovariaten hervorgehoben.
Durch die Betonung der Nähe von Merkmalen im hochdimensionalen Raum in der niedrigdimensionalen Darstellung wird der t-SNE-Algorithmus verwendet, um vorhandene ähnliche Regionen klarer zu machen.Frühere Arbeiten zum Aufbau tiefer neuronaler Netze für Fernerkundungsanwendungen nutzten t-SNE, das seine Fähigkeit bei der Trennung von Schlüsselmerkmalen unter Beweis stellte (23).Dies ist ein notwendiger Schritt, um robustes Clustering in den Merkmalsdaten zu identifizieren und gleichzeitig nicht konvergente Lösungen zu vermeiden (Hinweis S2).Unter Verwendung von Gaußschen Kerneln bewahrt t-SNE die statistischen Eigenschaften der Daten, indem es jedes hochdimensionale Objekt einem Punkt im 3D-Phasenraum zuordnet und so sicherstellt, dass die Wahrscheinlichkeit ähnlicher Objekte in der Hoch- und Tiefrichtung hoch ist. Dimensionsraum (24).Bei einer Menge von N hochdimensionalen Objekten x1,…,xN reduziert der t-SNE-Algorithmus durch Minimierung der Kullback-Leibler (KL)-Divergenz (25).Die KL-Divergenz ist ein Maß dafür, wie unterschiedlich eine Wahrscheinlichkeitsverteilung von einer zweiten Referenzwahrscheinlichkeitsverteilung ist, und kann die Möglichkeit einer Korrelation zwischen niedrigdimensionalen Darstellungen hochdimensionaler Merkmale effektiv bewerten.Wenn xi das i-te Objekt im N-dimensionalen Raum ist, ist xj das j-te Objekt im N-dimensionalen Raum, yi ist das i-te Objekt im niedrigdimensionalen Raum und yj ist das j-te Objekt im niedrigen -dimensionalen Raum, dann definiert t -SNE die Ähnlichkeitswahrscheinlichkeit ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2) und für den Dimensionsreduktionssatz q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Abbildung 2A veranschaulicht den Effekt der Reduzierung der Biomasse- und Nährstoffflussvektoren der 11-dimensionalen Kombination auf 3D.Die Motivation für die Anwendung von t-SNE kann mit der Motivation für die Hauptkomponentenanalyse (PCA) verglichen werden, bei der das Varianzattribut verwendet wird, um den Bereich/das Attribut der Daten hervorzuheben und dadurch die Dimensionalität zu verringern.Es wurde festgestellt, dass die t-SNE-Methode der PCA überlegen ist, da sie zuverlässige und reproduzierbare Ergebnisse für das Umweltministerium liefert (siehe Anmerkung S2).Dies kann daran liegen, dass die Orthogonalitätsannahme von PCA nicht zur Identifizierung kritischer Wechselwirkungen zwischen hochgradig nichtlinearen interaktiven Merkmalen geeignet ist, da sich PCA auf lineare Kovarianzstrukturen konzentriert (26).Unter Verwendung von Fernerkundungsdaten haben Lunga et al.(27) veranschaulicht, wie die SNE-Methode verwendet wird, um komplexe und nichtlineare Spektralmerkmale hervorzuheben, die von der Gaußschen Verteilung abweichen.
(A) Eine modellierte Nährstoffversorgungsrate, Phytoplankton- und Zooplankton-Funktionsgruppenbiomasse, die mit dem t-SNE-Algorithmus erstellt und mithilfe von DBSCAN nach Provinz eingefärbt wurde.Jeder Punkt stellt einen Punkt im hochdimensionalen Raum dar. Wie in Abbildung 6B dargestellt, werden die meisten Punkte erfasst.Schächte beziehen sich auf „t-SNE“-Größen 1, 2 und 3. (B) Die von DBSCAN gefundene geografische Projektion der Provinz auf dem Breiten-Längen-Gitter des Ursprungs.Die Farbe ist als beliebige Farbe zu betrachten, sollte jedoch (A) entsprechen.
Die Punkte im t-SNE-Streudiagramm in Abbildung 2A sind jeweils dem Breiten- und Längengrad zugeordnet.Wenn die beiden Punkte in Abbildung 2A nahe beieinander liegen, liegt das daran, dass ihre Biomasse- und Nährstoffflüsse ähnlich sind, und nicht an der geografischen Nähe.Die Farben in Abbildung 2A sind Cluster, die mit der DBSCAN-Methode (28) entdeckt wurden.Bei der Suche nach dichten Beobachtungen verwendet der DBSCAN-Algorithmus den Abstand in der 3D-Darstellung zwischen den Punkten (ϵ = 0,39; Informationen zu dieser Auswahl finden Sie unter Materialien und Methoden), und die Anzahl ähnlicher Punkte ist erforderlich, um den Cluster zu definieren (hier). 100 Punkte, siehe oben).Die DBSCAN-Methode macht keine Annahmen über die Form oder Anzahl der Cluster in den Daten, wie unten gezeigt:
3) Für alle Punkte, die innerhalb der Entfernung identifiziert wurden, wiederholen Sie Schritt 2 iterativ, um die Clustergrenze zu bestimmen.Ist die Anzahl der Punkte größer als der eingestellte Mindestwert, spricht man von einem Cluster.
Daten, die die Mindestmetrik für Clustermitglieder und Entfernung ϵ nicht erfüllen, werden als „Rauschen“ betrachtet und erhalten keine Farbe.DBSCAN ist ein schneller und skalierbarer Algorithmus mit einer Leistung von O(n2) im schlimmsten Fall.Für die aktuelle Analyse ist es nicht wirklich zufällig.Die Mindestpunktzahl wird durch Expertenbewertung ermittelt.Nach Anpassung des Abstands ist das Ergebnis im Bereich von ≈±10 nicht stabil genug.Diese Entfernung wird anhand der Konnektivität (Abbildung 6A) und des Prozentsatzes der Ozeanabdeckung (Abbildung 6B) festgelegt.Konnektivität ist als die zusammengesetzte Anzahl von Clustern definiert und reagiert empfindlich auf den ϵ-Parameter.Eine geringere Konnektivität weist auf eine unzureichende Anpassung hin, da Regionen künstlich gruppiert werden.Eine hohe Konnektivität weist auf eine Überanpassung hin.Es ist denkbar, ein höheres Minimum zu verwenden, aber wenn das Minimum ca überschreitet, ist es unmöglich, eine zuverlässige Lösung zu erreichen.135 (Weitere Einzelheiten finden Sie unter Materialien und Methoden).
Die in Abbildung 2A identifizierten 115 Cluster werden in Abbildung 2B auf die Erde zurückprojiziert.Jede Farbe entspricht einer kohärenten Kombination biogeochemischer und ökologischer Faktoren, die von DBSCAN identifiziert wurden.Sobald die Cluster bestimmt sind, wird die Zuordnung jedes Punktes in Abbildung 2A zu einem bestimmten Breiten- und Längengrad verwendet, um die Cluster zurück auf das geografische Gebiet zu projizieren.Abbildung 2B veranschaulicht dies mit den gleichen Clusterfarben wie Abbildung 2A.Ähnliche Farben sollten nicht als ökologische Ähnlichkeit interpretiert werden, da sie durch die Reihenfolge zugewiesen werden, in der Cluster vom Algorithmus entdeckt werden.
Der Bereich in Abbildung 2B kann qualitativ einem etablierten Bereich in der physikalischen und/oder biogeochemischen Zusammensetzung des Ozeans ähneln.Beispielsweise sind die Cluster im Südpolarmeer zonensymmetrisch, es treten oligotrophe Wirbel auf, und der scharfe Übergang weist auf den Einfluss von Passatwinden hin.Beispielsweise sind im äquatorialen Pazifik verschiedene Regionen zu beobachten, die mit dem Anstieg zusammenhängen.
Um das ökologische Umfeld der Öko-Provinz zu verstehen, wurde eine Variation des Bray-Curtis (BC)-Differenzindex (29) zur Bewertung der Ökologie im Cluster verwendet.Der BC-Indikator ist ein statistischer Datenwert, der zur Quantifizierung des Unterschieds in der Gemeinschaftsstruktur zwischen zwei verschiedenen Standorten verwendet wird.Die BC-Messung ist auf die Biomasse von 51 Arten von Phytoplankton und Zooplankton anwendbar. BCninj = 1-2CninjSni + Snj
BCninj bezieht sich auf die Ähnlichkeit zwischen der Kombination ni und der Kombination nj, wobei Cninj der Minimalwert einer einzelnen Biomasseart ist, die in beiden Kombinationen ni und nj existiert, und Sni die Summe aller Biomassen darstellt, die in beiden Kombinationen ni und Snj vorkommen.Die BC-Differenz ähnelt dem Distanzmaß, operiert jedoch im nichteuklidischen Raum, der für ökologische Daten und deren Interpretation wahrscheinlich besser geeignet ist.
Für jeden in Abbildung 2B identifizierten Cluster kann die Ähnlichkeit von BC innerhalb der Provinz und zwischen den Provinzen beurteilt werden.Die BC-Differenz innerhalb einer Provinz bezieht sich auf die Differenz zwischen dem Durchschnittswert der Provinz und jedem Punkt in der Provinz.Der Unterschied zwischen BC-Provinzen bezieht sich auf die Ähnlichkeit zwischen einer Provinz und anderen Provinzen.Abbildung 3A zeigt eine symmetrische BC-Matrix (0, schwarz: völlig übereinstimmend; 1, weiß: völlig unähnlich).Jede Linie im Diagramm zeigt ein Muster in den Daten.Abbildung 3B zeigt die geografische Bedeutung der Ergebnisse von BC in Abbildung 3A für jede Provinz.Für eine Provinz in einem ernährungs- und nährstoffarmen Gebiet zeigt Abbildung 3B, dass die Symmetrie großer Gebiete rund um den Äquator und den Indischen Ozean grundsätzlich ähnlich ist, die höheren Breiten und Auftriebsgebiete jedoch deutlich unterschiedlich sind.
(A) Der Grad des BC-Unterschieds, der für jede Provinz auf der Grundlage des globalen 20-Jahres-Durchschnitts von 51 Plankton an der Oberfläche bewertet wurde.Beachten Sie die erwartete Symmetrie der Werte.(B) Die räumliche Projektion einer Spalte (oder Zeile).Für eine Provinz in einem dystrophischen Kreis wurde die globale Verteilung des BC-Ähnlichkeitsmaßes sowie der globale 20-Jahres-Durchschnitt bewertet.Schwarz (BC = 0) bedeutet gleiche Fläche und Weiß (BC = 1) bedeutet keine Ähnlichkeit.
Abbildung 4A veranschaulicht den Unterschied in BC innerhalb jeder Provinz in Abbildung 2B.Durch die Verwendung der durchschnittlichen Kombination der durchschnittlichen Fläche in einem Cluster und die Bestimmung der Unähnlichkeit zwischen BC und dem Mittelwert jedes Gitterpunkts in der Provinz zeigt sich, dass die SAGE-Methode 51 Arten basierend auf der ökologischen Ähnlichkeit gut trennen kann Typ von Modelldaten.Die gesamte durchschnittliche Cluster-BC-Unähnlichkeit aller 51 Typen beträgt 0,102 ± 0,0049.
(A, B und D) Der BC-Unterschied innerhalb der Provinz wird als durchschnittlicher BC-Unterschied zwischen jeder Gitterpunktgemeinde und der durchschnittlichen Provinz bewertet, und die Komplexität wird nicht verringert.(2) Der globale durchschnittliche Unterschied zwischen den Provinzen BC beträgt 0,227 ± 0,117.Dies ist der Maßstab der in dieser Arbeit vorgeschlagenen ökologischen Motivationsklassifizierung [grüne Linie in (C)].(C) Durchschnittlicher BC-Unterschied innerhalb der Provinz: Die schwarze Linie stellt den BC-Unterschied innerhalb der Provinz mit zunehmender Komplexität dar.2σ ergibt sich aus 10 Wiederholungen des Öko-Provinz-Identifizierungsprozesses.Für die Gesamtkomplexität der von DBSCAN entdeckten Provinzen zeigt (A), dass die BC-Unähnlichkeit in der Provinz 0,099 beträgt und die von (C) vorgeschlagene Komplexitätsklassifizierung 12 beträgt, was zu einer BC-Unähnlichkeit von 0,200 in der Provinz führt.wie das Bild zeigt.(D).
In Abbildung 4B wird die Biomasse von 51 Planktonarten verwendet, um den äquivalenten BC-Unterschied in der Provinz Longhurst darzustellen.Der Gesamtdurchschnitt jeder Provinz beträgt 0,227 und die Standardabweichung der Gitterpunkte in Bezug auf die Differenz in der Provinz BC beträgt 0,046.Dies ist größer als der in Abbildung 1B identifizierte Cluster.Stattdessen stieg die durchschnittliche BC-Unähnlichkeit innerhalb der Saison in Longhurst unter Verwendung der Summe der sieben Funktionsgruppen auf 0,232.
Die globale Öko-Provinzkarte bietet detaillierte Details zu einzigartigen ökologischen Wechselwirkungen und es wurden Verbesserungen bei der Nutzung der gesamten Ökosystemstruktur der Provinz Longhurst vorgenommen.Vom Ministerium für Ökologie wird erwartet, dass es Einblicke in den Prozess der Steuerung des numerischen Modellökosystems gewährt, und diese Einblicke werden bei der Erkundung der Feldarbeit hilfreich sein.Für die Zwecke dieser Untersuchung ist es nicht möglich, mehr als hundert Provinzen vollständig darzustellen.Im nächsten Abschnitt wird die SAGE-Methode vorgestellt, die die Provinzen zusammenfasst.
Eines der Ziele der Provinz besteht darin, das Verständnis für die Lage und Verwaltung der Provinz zu fördern.Um Notfallsituationen zu bestimmen, veranschaulicht die Methode in Abbildung 1B die Verschachtelung ökologisch ähnlicher Provinzen.Öko-Provinzen werden aufgrund ihrer ökologischen Ähnlichkeit in Gruppen zusammengefasst. Eine solche Gruppierung von Provinzen wird als AEP bezeichnet.Legen Sie eine anpassbare „Komplexität“ basierend auf der Gesamtzahl der zu berücksichtigenden Provinzen fest.Der Begriff „Komplexität“ wird verwendet, weil er die Anpassung des Niveaus der Notfallattribute ermöglicht.Um aussagekräftige Aggregationen zu definieren, wird die durchschnittliche intraprovinzielle BC-Differenz von 0,227 von Longhurst als Benchmark verwendet.Unterhalb dieser Grenze gelten die zusammengefassten Provinzen nicht mehr als sinnvoll.
Wie in Abbildung 3B dargestellt, sind die globalen ökologischen Provinzen kohärent.Anhand der Unterschiede zwischen den Provinzen BC lässt sich erkennen, dass einige Konfigurationen sehr „gemeinsam“ sind.Inspiriert durch Methoden der Genetik und der Graphentheorie werden „verbundene Graphen“ verwendet, um mehr als 100 Provinzen nach den Provinzen zu sortieren, die ihnen am ähnlichsten sind.Die „Konnektivität“-Metrik wird hier anhand der interprovinziellen BC-Unterschiede bestimmt (30).Die Anzahl der Provinzen mit einem größeren Klassifizierungsraum von > 100 Provinzen kann hier als Komplexität bezeichnet werden.AEP ist ein Produkt, das mehr als 100 Provinzen als die dominantesten/nächsten ökologischen Provinzen kategorisiert.Jeder ökologischen Provinz wird die dominante/stark vernetzte ökologische Provinz zugeordnet, die ihr am ähnlichsten ist.Diese durch die BC-Differenz bestimmte Aggregation ermöglicht einen verschachtelten Ansatz für die globale Ökologie.
Die ausgewählte Komplexität kann einen beliebigen Wert von 1 bis zur vollständigen Komplexität von FIG.2A.Bei geringerer Komplexität kann AEP aufgrund des probabilistischen Dimensionsreduktionsschritts (t-SNE) degenerieren.Degeneration bedeutet, dass ökologische Provinzen zwischen den Iterationen unterschiedlichen AEPs zugewiesen werden können, wodurch sich das abgedeckte geografische Gebiet ändert.Abbildung 4C veranschaulicht die Ausbreitung von BC-Unterschiede innerhalb der Provinzen in AEPs mit zunehmender Komplexität über 10 Implementierungen hinweg (Abbildung in Abbildung 1B).In Abbildung 4C ist 2σ (blauer Bereich) ein Maß für die Verschlechterung in 10 Implementierungen und die grüne Linie stellt den Longhurst-Benchmark dar.Fakten haben gezeigt, dass die Komplexität von 12 den BC-Unterschied in der Provinz in allen Implementierungen unter dem Longhurst-Benchmark halten und eine relativ kleine 2σ-Verschlechterung aufrechterhalten kann.Zusammenfassend beträgt die empfohlene Mindestkomplexität 12 AEPs, und der durchschnittliche BC-Unterschied innerhalb der Provinz, bewertet unter Verwendung von 51 Planktonarten, beträgt 0,198 ± 0,013, wie in Abbildung 4D dargestellt.Unter Verwendung der Summe von sieben Funktionsgruppen des Planktons beträgt der durchschnittliche BC-Unterschied innerhalb der Provinz 2σ statt 0,198 ± 0,004.Der Vergleich zwischen den BC-Differenzen, die mit der Gesamtbiomasse der sieben Funktionsgruppen oder der Biomasse aller 51 Planktonarten berechnet wurden, zeigt, dass die SAGE-Methode zwar auf die 51-dimensionale Situation anwendbar ist, jedoch für die Gesamtbiomasse der sieben Funktionsgruppen Für das Training.
Je nach Forschungszweck können unterschiedliche Komplexitätsgrade berücksichtigt werden.Regionalstudien erfordern möglicherweise die volle Komplexität (dh alle 115 Provinzen).Betrachten Sie als Beispiel und zur Verdeutlichung die empfohlene Mindestkomplexität von 12.
Als Beispiel für den Nutzen der SAGE-Methode werden hier 12 AEPs mit einer Mindestkomplexität von 12 verwendet, um die Kontrolle der Notfallgemeinschaftsstruktur zu untersuchen.Abbildung 5 zeigt die ökologischen Erkenntnisse gruppiert nach AEP (von A bis L): Bei der Redfield-Stöchiometrie werden die geografische Ausdehnung (Abbildung 5C), die Zusammensetzung der Funktionsgruppen-Biomasse (Abbildung 5A) und die Nährstoffversorgung (Abbildung 5B) durch N Zoomed ermittelt.Das Verhältnis (N:Si:P:Fe, 1:1:16:16×103) wird angezeigt.Für das letztere Panel wird P mit 16 multipliziert und Fe mit 16×103 multipliziert, sodass das Balkendiagramm dem Nährstoffbedarf von Phytoplankton entspricht.
Die Provinzen sind in 12 AEPs A bis L eingeteilt. (A) Biomasse (mgC/m3) der Ökosysteme in 12 Provinzen.(B) Die Nährstoffflussrate von gelöstem anorganischem Stickstoff (N), Eisen (Fe), Phosphat (P) und Kieselsäure (Si) (mmol/m3 pro Jahr).Fe und P werden mit 16 bzw. 16×103 multipliziert, sodass die Streifen auf die Anforderungen der Phytoplankton-Stöchiometrie standardisiert sind.(C) Beachten Sie den Unterschied zwischen Polarregionen, subtropischen Wirbelstürmen und großen saisonalen/ansteigenden Regionen.Die Überwachungsstationen sind wie folgt gekennzeichnet: 1, SITZPLÄTZE;2, ALOHA;3, Station P;und 4, Fledermäuse.
Das identifizierte AEP ist eindeutig.Im Atlantischen und Pazifischen Ozean herrscht eine gewisse Symmetrie rund um den Äquator, und im Indischen Ozean gibt es ein ähnliches, aber vergrößertes Gebiet.Einige AEPs umfassen die mit dem Aufstieg verbundene Westseite des Kontinents.Der Südpol-Zirkumpolarstrom wird als großes zonales Merkmal angesehen.Subtropischer Zyklon ist eine komplexe Reihe oligotropher AEP.In diesen Provinzen ist das bekannte Muster der Biomasseunterschiede zwischen planktondominierten oligotrophen Wirbeln und kieselalgenreichen Polarregionen offensichtlich.
AEPs mit sehr ähnlicher Gesamt-Phytoplankton-Biomasse können sehr unterschiedliche Gemeinschaftsstrukturen aufweisen und unterschiedliche geografische Gebiete wie D, H und K abdecken, die eine ähnliche Gesamt-Phytoplankton-Biomasse aufweisen.AEP H kommt hauptsächlich im äquatorialen Indischen Ozean vor, und es gibt dort mehr diazotrophe Bakterien.AEP D kommt in mehreren Becken vor, besonders ausgeprägt ist es jedoch im Pazifik in der Nähe von Hochertragsgebieten rund um den äquatorialen Auftrieb.Die Form dieser pazifischen Provinz erinnert an einen planetarischen Wellenzug.In AEP D gibt es wenige Diazobakterien und mehr Zapfen.Im Vergleich zu den beiden anderen Provinzen kommt AEP K nur im Hochland des Arktischen Ozeans vor, dort gibt es mehr Kieselalgen und weniger Plankton.Bemerkenswert ist, dass auch die Planktonmenge in diesen drei Regionen sehr unterschiedlich ist.Unter ihnen ist die Planktonhäufigkeit von AEP K relativ gering, während die von AEP D und H relativ hoch ist.Daher sind diese Provinzen trotz ihrer Biomasse (und daher ähnlich zu Chl-a) ziemlich unterschiedlich: Chl-basierte Provinztests erfassen diese Unterschiede möglicherweise nicht.
Es ist auch offensichtlich, dass einige AEPs mit sehr unterschiedlicher Biomasse hinsichtlich der Struktur der Phytoplanktongemeinschaft ähnlich sein können.Dies ist beispielsweise bei AEP D und E sichtbar. Sie liegen nahe beieinander, und im Pazifischen Ozean liegt AEP E nahe beim hochproduktiven AEPJ.Ebenso gibt es keinen klaren Zusammenhang zwischen der Phytoplankton-Biomasse und der Zooplankton-Häufigkeit.
AEP kann im Hinblick auf die ihnen zugeführten Nährstoffe verstanden werden (Abbildung 5B).Kieselalgen kommen nur dort vor, wo ausreichend Kieselsäure vorhanden ist.Generell gilt: Je höher das Angebot an Kieselsäure, desto höher ist die Biomasse der Kieselalgen.Kieselalgen sind in AEP A, J, K und L zu sehen. Das Verhältnis der Kieselalgen-Biomasse im Verhältnis zu anderem Phytoplankton wird durch die bereitgestellten N-, P- und Fe-Werte im Verhältnis zum Kieselalgenbedarf bestimmt.Beispielsweise wird AEP L von Kieselalgen dominiert.Im Vergleich zu anderen Nährstoffen weist Si den höchsten Gehalt auf.Im Gegensatz dazu weist AEP J trotz höherer Produktivität weniger Kieselalgen und ein geringeres Siliziumangebot auf (alle und im Vergleich zu anderen Nährstoffen).
Diazoniumbakterien haben die Fähigkeit, Stickstoff zu binden, wachsen aber langsam (31).Sie koexistieren mit anderem Phytoplankton, wo Eisen und Phosphor im Verhältnis zum Bedarf an Nicht-Diazonium-Nährstoffen im Übermaß vorhanden sind (20, 21).Es ist erwähnenswert, dass die diazotrophe Biomasse relativ hoch ist und das Angebot an Fe und P im Verhältnis zum Angebot an N relativ groß ist. Auf diese Weise ist zwar die Gesamtbiomasse in AEP J höher, die Diazoniumbiomasse in AEP H jedoch höher größer als in J. Bitte beachten Sie, dass AEP J und H geografisch sehr unterschiedlich sind und H im äquatorialen Indischen Ozean liegt.
Wenn die einzigartige Ökosystemstruktur nicht in Provinzen unterteilt wird, sind die Erkenntnisse aus den zwölf AEP-Modellen mit der geringsten Komplexität nicht so klar.Das von SAGE generierte AEP ermöglicht den kohärenten und gleichzeitigen Vergleich komplexer und hochdimensionaler Informationen aus Ökosystemmodellen.AEP unterstreicht effektiv, warum Chl keine gute und alternative Methode zur Bestimmung der Gemeinschaftsstruktur oder der Zooplanktonhäufigkeit bei höheren Nährstoffgehalten ist.Eine detaillierte Analyse aktueller Forschungsthemen würde den Rahmen dieses Artikels sprengen.Die SAGE-Methode bietet eine Möglichkeit, andere Mechanismen im Modell zu untersuchen, die einfacher zu handhaben ist als die Punkt-zu-Punkt-Betrachtung.
Die SAGE-Methode soll dabei helfen, äußerst komplexe ökologische Daten aus globalen physikalischen/biogeochemischen/ökosystemaren numerischen Modellen zu klären.Die ökologische Provinz wird durch die Gesamtbiomasse planktonübergreifender funktioneller Gruppen, die Anwendung des t-SNE-Algorithmus zur Wahrscheinlichkeitsdimensionalitätsreduktion und die Clusterbildung mithilfe der unbeaufsichtigten ML-Methode DBSCAN bestimmt.Die interprovinzielle BC-Differenz-/Graphentheorie für die Verschachtelungsmethode wird angewendet, um ein robustes AEP abzuleiten, das für die globale Interpretation verwendet werden kann.Bautechnisch sind die Öko-Provinz und AEP einzigartig.Die AEP-Verschachtelung kann zwischen der vollen Komplexität der ursprünglichen ökologischen Provinz und dem empfohlenen Mindestschwellenwert von 12 AEPs angepasst werden.Die Verschachtelung und die Bestimmung der minimalen Komplexität von AEP gelten als Schlüsselschritte, da die Wahrscheinlichkeit t-SNE AEPs mit einer Komplexität von <12 degeneriert.Die SAGE-Methode ist global und ihre Komplexität reicht von > 100 AEPs bis 12. Der Einfachheit halber liegt der Fokus derzeit auf der Komplexität von 12 globalen AEPs.Zukünftige Forschungen, insbesondere regionale Studien, könnten eine kleinere räumliche Teilmenge der globalen Öko-Provinzen als nützlich erachten und diese möglicherweise in einem kleineren Gebiet aggregieren, um die gleichen hier diskutierten ökologischen Erkenntnisse zu nutzen.Es liefert Vorschläge, wie diese ökologischen Provinzen und die daraus gewonnenen Erkenntnisse für ein tieferes ökologisches Verständnis genutzt werden können, den Modellvergleich erleichtern und möglicherweise die Überwachung mariner Ökosysteme verbessern können.
Die mit der SAGE-Methode identifizierten ökologischen Provinzen und AEP basieren auf den Daten im numerischen Modell.Per Definition ist das numerische Modell eine vereinfachte Struktur, die versucht, die Essenz des Zielsystems zu erfassen, und verschiedene Modelle weisen unterschiedliche Planktonverteilungen auf.Das in dieser Studie verwendete numerische Modell kann einige der beobachteten Muster nicht vollständig erfassen (z. B. in den Chl-Schätzungen für die Äquatorregion und den Südpolarmeer).Nur ein kleiner Teil der Vielfalt im echten Ozean wird erfasst, und die Meso- und Submesoskalen können nicht aufgelöst werden, was sich auf den Nährstofffluss und die Gemeinschaftsstruktur im kleineren Maßstab auswirken kann.Trotz dieser Mängel zeigt sich, dass AEP sehr nützlich ist, um komplexe Modelle zu verstehen.Durch die Bewertung, wo ähnliche ökologische Provinzen gefunden werden, bietet AEP ein potenzielles Tool zum Vergleich numerischer Modelle.Das aktuelle numerische Modell erfasst das Gesamtmuster der Fernerkundungs-Phytoplankton-Chl-a-Konzentration und die Verteilung der Planktongröße und Funktionsgruppe (Anmerkung S1 und Abbildung S1) (2, 32).
Wie die 0,1 mgChl-a/m-3-Konturlinie zeigt, ist AEP in oligotrophe Bereiche und mesotrophe Bereiche unterteilt (Abbildung S1B): AEP B, C, D, E, F und G sind oligotrophe Bereiche und die übrigen Bereiche sind es befindet sich höher Chl-a.AEP zeigt einige Übereinstimmungen mit der Provinz Longhurst (Abbildung S3A), beispielsweise dem Südpolarmeer und dem äquatorialen Pazifik.In einigen Regionen deckt AEP mehrere Longhurst-Regionen ab und umgekehrt.Da die Absicht, die Provinzen in diesem Gebiet und in Longhurst abzugrenzen, unterschiedlich ist, wird erwartet, dass es Unterschiede geben wird.Mehrere AEPs in einer Provinz Longhurst weisen darauf hin, dass bestimmte Gebiete mit ähnlicher Biogeochemie möglicherweise sehr unterschiedliche Ökosystemstrukturen aufweisen.AEP weist eine gewisse Übereinstimmung mit physikalischen Zuständen auf, wie durch unüberwachtes Lernen (19) gezeigt wurde, beispielsweise in Staaten mit hohem Auftrieb (z. B. im Südpolarmeer und im äquatorialen Pazifik; Abbildung S3, C und D).Diese Korrespondenzen weisen darauf hin, dass die Gemeinschaftsstruktur des Planktons stark von der Dynamik des Ozeans beeinflusst wird.In Gebieten wie dem Nordatlantik durchquert AEP physische Provinzen.Zu den Mechanismen, die diese Unterschiede verursachen, können Prozesse wie der Staubtransport gehören, die auch unter ähnlichen körperlichen Bedingungen zu völlig unterschiedlichen Ernährungsprogrammen führen können.
Das Ministerium für Ökologie und AEP wiesen darauf hin, dass die Verwendung von Chl allein keine ökologischen Komponenten identifizieren kann, wie die Meeresökologie-Gemeinschaft bereits erkannt hat.Dies ist bei AEPs mit ähnlicher Biomasse, aber deutlich unterschiedlicher ökologischer Zusammensetzung (wie D und E) zu beobachten.Im Gegensatz dazu haben AEPs wie D und K eine sehr unterschiedliche Biomasse, aber eine ähnliche ökologische Zusammensetzung.AEP betont, dass der Zusammenhang zwischen Biomasse, ökologischer Zusammensetzung und Zooplanktonreichtum komplex ist.Obwohl sich beispielsweise AEP J in Bezug auf Phytoplankton und Planktonbiomasse hervorhebt, weisen A und L von AEP eine ähnliche Planktonbiomasse auf, A weist jedoch eine höhere Planktonhäufigkeit auf.AEP betont, dass Phytoplankton-Biomasse (oder Chl) nicht zur Vorhersage der Zooplankton-Biomasse herangezogen werden kann.Zooplankton ist die Grundlage der Nahrungskette der Fischerei, und genauere Schätzungen können zu einem besseren Ressourcenmanagement führen.Zukünftige Meeresfarbsatelliten [z. B. PACE (Plankton, Aerosol, Wolke und Meeresökosystem)] könnten besser positioniert sein, um bei der Abschätzung der Gemeinschaftsstruktur von Phytoplankton zu helfen.Die Verwendung der AEP-Vorhersage kann möglicherweise die Schätzung von Zooplankton aus dem Weltraum erleichtern.Methoden wie SAGE, gepaart mit neuen Technologien und immer mehr verfügbaren Felddaten für Ground-Truth-Erhebungen (wie Tara und Folgeforschung), können gemeinsam einen Schritt in Richtung einer satellitengestützten Überwachung der Ökosystemgesundheit machen.
Die SAGE-Methode bietet eine bequeme Möglichkeit, einige Mechanismen zu bewerten, die Provinzmerkmale steuern, wie z. B. Biomasse/Chl, Nettoprimärproduktion und Gemeindestruktur.Beispielsweise wird die relative Menge an Kieselalgen durch ein Ungleichgewicht in der Versorgung mit Si, N, P und Fe im Verhältnis zum stöchiometrischen Bedarf des Phytoplanktons bestimmt.Bei einer ausgeglichenen Versorgungsrate wird die Gemeinschaft von Kieselalgen (L) dominiert.Wenn die Versorgungsrate unausgeglichen ist (das heißt, das Angebot an Silizium ist geringer als der Nährstoffbedarf der Kieselalgen), machen Kieselalgen nur einen kleinen Anteil (K) aus.Wenn das Angebot an Fe und P das Angebot an N (z. B. E und H) übersteigt, wachsen die diazotrophen Bakterien kräftig.Durch den von AEP bereitgestellten Kontext wird die Erforschung von Kontrollmechanismen nützlicher.
Die Öko-Provinz und AEP sind Gebiete mit ähnlichen Gemeindestrukturen.Die Zeitreihe von einem bestimmten Ort innerhalb einer ökologischen Provinz oder eines AEP kann als Referenzpunkt angesehen werden und das von der ökologischen Provinz oder einem AEP abgedeckte Gebiet darstellen.Solche Zeitreihen liefern Langzeitüberwachungsstationen vor Ort.Langfristige In-situ-Datensätze werden weiterhin eine unkalkulierbare Rolle spielen.Aus der Perspektive der Überwachung der Community-Struktur kann die SAGE-Methode als eine Möglichkeit gesehen werden, den nützlichsten Standort neuer Standorte zu bestimmen.Beispielsweise befindet sich die Zeitreihe aus der Langzeitbewertung des oligotrophen Lebensraums (ALOHA) im AEP B des oligotrophen Gebiets (Abbildung 5C, Beschriftung 2).Da ALOHA nahe an der Grenze eines anderen AEP liegt, ist die Zeitreihe möglicherweise nicht repräsentativ für das gesamte Gebiet, wie bereits vermutet (33).Im selben AEP B befindet sich die Zeitreihe SEATS (Southeast Asian Time Series) im Südwesten Taiwans (34), weiter von den Grenzen anderer AEPs entfernt (Abbildung 5C, Beschriftung 1) und kann als besserer Standort für die Überwachung verwendet werden AEPB.Die BATS-Zeitreihe (Bermuda Atlantic Time Series Study) (Abbildung 5C, Beschriftung 4) in AEPC liegt sehr nahe an der Grenze zwischen AEP C und F, was darauf hindeutet, dass die Überwachung von AEP C mithilfe von BATS-Zeitreihen direkt problematisch sein kann.Station P in AEP J (Abbildung 5C, Beschriftung 3) liegt weit von der AEP-Grenze entfernt und ist daher repräsentativer.Die Öko-Provinz und das AEP können dazu beitragen, einen Überwachungsrahmen zu schaffen, der zur Bewertung globaler Veränderungen geeignet ist, da die Erlaubnis der Provinzen, zu beurteilen, wo Probenahmen vor Ort durchgeführt werden, wichtige Erkenntnisse liefern kann.Die SAGE-Methode kann weiterentwickelt werden, um auf Klimadaten angewendet zu werden und zeitsparende Variabilität zu bewerten.
Der Erfolg der SAGE-Methode wird durch sorgfältige Anwendung von Data Science/ML-Methoden und domänenspezifischem Wissen erreicht.Insbesondere wird t-SNE zur Dimensionsreduktion verwendet, wodurch die Kovarianzstruktur hochdimensionaler Daten erhalten bleibt und die Visualisierung der Kovarianztopologie erleichtert wird.Die Daten sind in Form von Streifen und Kovarianzen angeordnet (Abbildung 2A), was darauf hindeutet, dass rein abstandsbasierte Maße (wie K-Mittel) nicht geeignet sind, da sie normalerweise eine Gaußsche (zirkuläre) Basisverteilung verwenden (siehe Anmerkung S2). .Die DBSCAN-Methode ist für jede Kovarianztopologie geeignet.Solange Sie auf die Einstellungsparameter achten, kann eine zuverlässige Identifizierung gewährleistet werden.Der Rechenaufwand des t-SNE-Algorithmus ist hoch, was seine aktuelle Anwendung auf eine größere Datenmenge beschränkt, was bedeutet, dass er schwierig auf tiefe oder zeitlich variierende Felder anzuwenden ist.An der Skalierbarkeit von t-SNE wird derzeit gearbeitet.Da der KL-Abstand leicht zu parallelisieren ist, hat der t-SNE-Algorithmus ein gutes Potenzial für eine zukünftige Erweiterung (35).Zu den anderen vielversprechenden Methoden zur Dimensionsreduktion, mit denen sich die Größe besser reduzieren lässt, gehören bisher UMAP-Techniken (Unified Manifold Approximation and Projection). Eine Auswertung im Kontext von Meeresdaten ist jedoch erforderlich.Unter besserer Skalierbarkeit versteht man beispielsweise die Klassifizierung globaler Klimazonen oder Modelle unterschiedlicher Komplexität auf einem gemischten Layer.Gebiete, die in keiner Provinz von SAGE klassifiziert werden können, können als die verbleibenden schwarzen Punkte in Abbildung 2A betrachtet werden.Geografisch gesehen liegen diese Gebiete hauptsächlich in stark saisonalen Gebieten, was darauf hindeutet, dass die Erfassung ökologischer Provinzen, die sich im Laufe der Zeit ändern, eine bessere Abdeckung bietet.
Um die SAGE-Methode zu konstruieren, wurden Ideen aus der komplexen System-/Datenwissenschaft genutzt, wobei die Fähigkeit genutzt wurde, Cluster funktioneller Gruppen (die Möglichkeit, in einem 11-dimensionalen Raum sehr nahe beieinander zu sein) zu bestimmen und Provinzen zu bestimmen.Diese Provinzen stellen spezifische Volumina in unserem 3D-t-SNE-Phasenraum dar.In ähnlicher Weise kann der Poincaré-Teil verwendet werden, um das „Volumen“ des von der Trajektorie eingenommenen Zustandsraums zu bewerten und so „normales“ oder „chaotisches“ Verhalten zu bestimmen (36).Für die Ausgabe des statischen 11-dimensionalen Modells kann das nach der Konvertierung der Daten in einen 3D-Phasenraum eingenommene Volumen auf ähnliche Weise erklärt werden.Die Beziehung zwischen geografischer Fläche und Fläche im 3D-Phasenraum ist nicht einfach, kann aber durch ökologische Ähnlichkeit erklärt werden.Aus diesem Grund wird das konventionellere BC-Unähnlichkeitsmaß bevorzugt.
Zukünftige Arbeiten werden die SAGE-Methode für saisonal wechselnde Daten wiederverwenden, um die räumliche Variabilität der identifizierten Provinzen und des AEP zu bewerten.Das zukünftige Ziel besteht darin, mit dieser Methode zu bestimmen, welche Provinzen durch Satellitenmessungen (wie Chl-a, Fernerkundungsreflexion und Meeresoberflächentemperatur) bestimmt werden können.Dies wird eine Fernerkundungsbewertung ökologischer Komponenten und eine hochflexible Überwachung ökologischer Provinzen und ihrer Variabilität ermöglichen.
Der Zweck dieser Forschung besteht darin, die SAGE-Methode einzuführen, die eine ökologische Provinz durch ihre einzigartige Struktur der Planktongemeinschaft definiert.Hier werden detailliertere Informationen zum physikalischen/biogeochemischen/Ökosystemmodell und zur Parameterauswahl der t-SNE- und DBSCAN-Algorithmen bereitgestellt.
Die physikalischen Komponenten des Modells stammen aus der Schätzung der Ozeanzirkulation und des Klimas [ECCOv4;(37) die durch (38) beschriebene globale Zustandsschätzung.Die nominelle Auflösung der Zustandsschätzung beträgt 1/5.Die Methode der kleinsten Quadrate mit der Lagrange-Multiplikatormethode wird verwendet, um die Anfangs- und Randbedingungen sowie die internen Modellparameter zu erhalten, die durch Beobachtung angepasst werden, wodurch ein freilaufendes allgemeines MIT-Zyklusmodell (MITgcm) (39) generiert wird, das nach der Optimierung die Ergebnisse des Modells liefern kann verfolgt und beobachtet werden.
Die Biogeochemie/das Ökosystem hat eine vollständigere Beschreibung (dh Gleichungen und Parameterwerte) in (2).Das Modell erfasst die Zirkulation von C, N, P, Si und Fe durch anorganische und organische Teiche.Die hier verwendete Version umfasst 35 Arten von Phytoplankton: 2 Arten von Mikroprokaryoten und 2 Arten von Mikroeukaryonten (geeignet für nährstoffarme Umgebungen), 5 Arten von Cryptomonas sphaeroides (mit Kalziumkarbonatbeschichtung), 5 Arten von Diazonium (Kann Stickstoff binden, also (es ist nicht begrenzt) die Verfügbarkeit von gelöstem anorganischem Stickstoff), 11 Kieselalgen (bilden eine silikatische Hülle), 10 gemischt-vegetative Flagellaten (können Photosynthese betreiben und anderes Plankton fressen) und 16 Zooplankton (grasen auf anderem Plankton).Diese werden „biogeochemische funktionelle Gruppen“ genannt, da sie unterschiedliche Auswirkungen auf die marine Biogeochemie haben (40, 41) und häufig in Beobachtungs- und Modellstudien verwendet werden.In diesem Modell besteht jede Funktionsgruppe aus mehreren Planktonen unterschiedlicher Größe mit einer Spannweite von 0,6 bis 2500 μm äquivalentem Kugeldurchmesser.
Die Parameter, die das Wachstum, die Beweidung und das Absinken des Phytoplanktons beeinflussen, hängen von der Größe ab, und es gibt spezifische Unterschiede zwischen den sechs Funktionsgruppen des Phytoplanktons (32).Trotz der unterschiedlichen physikalischen Rahmenbedingungen wurden die Ergebnisse der 51 Planktonkomponenten des Modells in einer Reihe neuerer Studien verwendet (42-44).
Von 1992 bis 2011 lief das physikalische/biogeochemische/Ökosystem-Kopplungsmodell 20 Jahre lang.Die Ausgabe des Modells umfasst Planktonbiomasse, Nährstoffkonzentration und Nährstoffversorgungsrate (DIN, PO4, Si und Fe).In dieser Studie wurde der 20-Jahres-Durchschnitt dieser Outputs als Input der Ökologischen Provinz verwendet.Chl, die Verteilung der Planktonbiomasse und Nährstoffkonzentration sowie die Verteilung funktioneller Gruppen werden mit Satelliten- und In-situ-Beobachtungen verglichen [siehe (2, 44), Anmerkung S1 und Abbildung.S1 bis S3].
Bei der SAGE-Methode stammt die Hauptquelle der Zufälligkeit aus dem t-SNE-Schritt.Zufälligkeit behindert die Wiederholbarkeit, was bedeutet, dass die Ergebnisse unzuverlässig sind.Die SAGE-Methode testet die Robustheit rigoros, indem sie eine Reihe von Parametern von t-SNE und DBSCAN bestimmt, die bei Wiederholung konsistent Cluster identifizieren können.Die Bestimmung der „Perplexität“ des t-SNE-Parameters kann als Bestimmung des Ausmaßes verstanden werden, in dem die Zuordnung von hohen zu niedrigen Dimensionen die lokalen oder globalen Eigenschaften der Daten berücksichtigen sollte.Die Verwirrung von 400 und 300 Iterationen wurde erreicht.
Für den Clustering-Algorithmus DBSCAN müssen die Mindestgröße und die Abstandsmetrik der Datenpunkte im Cluster bestimmt werden.Die Mindestanzahl wird unter Anleitung von Experten ermittelt.Dieses Wissen weiß, was zum aktuellen Rahmen und der Auflösung der numerischen Modellierung passt.Die Mindestanzahl beträgt 100. Ein höherer Mindestwert (weniger als <135, bevor die Obergrenze von Grün breiter wird) kann in Betracht gezogen werden, kann jedoch die auf BC-Unähnlichkeit basierende Aggregationsmethode nicht ersetzen.Der Grad der Verbindung (Abbildung 6A) wird verwendet, um den ϵ-Parameter festzulegen, der einer höheren Abdeckung förderlich ist (Abbildung 6B).Konnektivität ist als die zusammengesetzte Anzahl von Clustern definiert und reagiert empfindlich auf den ϵ-Parameter.Eine geringere Konnektivität weist auf eine unzureichende Anpassung hin, da Regionen künstlich gruppiert werden.Eine hohe Konnektivität weist auf eine Überanpassung hin.Eine Überanpassung ist ebenfalls problematisch, da sie zeigt, dass anfängliche zufällige Schätzungen zu nicht reproduzierbaren Ergebnissen führen können.Zwischen diesen beiden Extremen zeigt ein starker Anstieg (normalerweise „Ellenbogen“ genannt) das beste ϵ an.In Abbildung 6A sehen Sie einen starken Anstieg im Plateaubereich (gelb, > 200 Cluster), gefolgt von einem starken Rückgang (grün, 100 Cluster) bis etwa 130, umgeben von sehr wenigen Clustern (blau, <60 Cluster). ).In mindestens 100 blauen Gebieten dominiert entweder ein Cluster den gesamten Ozean (ϵ <0,42) oder der größte Teil des Ozeans ist nicht klassifiziert und gilt als Lärm (ϵ> 0,99).Der gelbe Bereich weist eine sehr variable, nicht reproduzierbare Clusterverteilung auf.Wenn ϵ abnimmt, nimmt das Rauschen zu.Die stark zunehmende Grünfläche wird als Ellbogen bezeichnet.Dies ist eine optimale Region.Obwohl die Wahrscheinlichkeit t-SNE verwendet wird, kann die BC-Unähnlichkeit innerhalb der Provinz dennoch zur Bestimmung zuverlässiger Clusterbildung verwendet werden.Stellen Sie ϵ anhand von Abbildung 6 (A und B) auf 0,39 ein.Je größer die Mindestzahl, desto geringer ist die Wahrscheinlichkeit, das ϵ zu erreichen, das eine zuverlässige Klassifizierung ermöglicht, und desto größer ist der grüne Bereich mit einem Wert größer als 135. Die Vergrößerung dieses Bereichs weist darauf hin, dass der Ellenbogen schwieriger zu finden oder nicht zu finden ist. existent.
Nach dem Festlegen der Parameter von t-SNE wird die Gesamtzahl der gefundenen Cluster als Maß für die Konnektivität (A) und der Prozentsatz der dem Cluster zugewiesenen Daten (B) verwendet.Der rote Punkt zeigt die beste Kombination aus Abdeckung und Konnektivität an.Die Mindestanzahl richtet sich nach der ökologischen Mindestanzahl.
Ergänzende Materialien zu diesem Artikel finden Sie unter http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Dies ist ein Open-Access-Artikel, der unter den Bedingungen der Creative Commons Attribution License verbreitet wird.Der Artikel gestattet die uneingeschränkte Nutzung, Verbreitung und Vervielfältigung in jedem Medium unter der Bedingung, dass das Originalwerk ordnungsgemäß zitiert wird.
Hinweis: Wir bitten Sie lediglich um die Angabe Ihrer E-Mail-Adresse, damit die Person, die Sie der Seite empfehlen, weiß, dass Sie möchten, dass sie die E-Mail sieht und dass es sich nicht um Spam handelt.Wir erfassen keine E-Mail-Adressen.
Diese Frage wird verwendet, um zu testen, ob Sie ein Besucher sind, und um eine automatische Spam-Übermittlung zu verhindern.
Das Global Ministry of Marine Ecology ist entschlossen, komplexe Probleme zu lösen und nutzt unbeaufsichtigtes ML, um Gemeinschaftsstrukturen zu erkunden.
Das Global Ministry of Marine Ecology ist entschlossen, komplexe Probleme zu lösen und nutzt unbeaufsichtigtes ML, um Gemeinschaftsstrukturen zu erkunden.
Zeitpunkt der Veröffentlichung: 12. Januar 2021