Clarifying ecological complexity: unsupervised learning determines the global marine ecological province

Zaproponowano metodę uczenia się bez nadzoru w celu określenia globalnych morskich prowincji ekologicznych (ekoprowincji) w oparciu o strukturę społeczności planktonu i dane dotyczące przepływu składników odżywczych.Metoda systematycznej zintegrowanej prowincji ekologicznej (SAGE) umożliwia identyfikację prowincji ekologicznych w wysoce nieliniowych modelach ekosystemów.Aby dostosować się do niegaussowskiej kowariancji danych, SAGE wykorzystuje osadzanie losowych sąsiadów (t-SNE) w celu zmniejszenia wymiarowości.Za pomocą aplikacji hałasu opartej na algorytmie klastrowania przestrzennego opartego na gęstości (DBSCAN) można zidentyfikować ponad sto prowincji ekologicznych.Wykorzystując mapę połączeń z różnicami ekologicznymi jako miarę odległości, obiektywnie definiuje się solidną zagregowaną prowincję ekologiczną (AEP) poprzez zagnieżdżone prowincje ekologiczne.Za pomocą AEP zbadano kontrolę szybkości dostarczania składników odżywczych na strukturę społeczności.Ekoprowincja i AEP są wyjątkowe i mogą pomóc w interpretacji modelu.Mogą ułatwić porównania między modelami oraz poprawić zrozumienie i monitorowanie ekosystemów morskich.
Prowincje to regiony, w których złożona biogeografia morza lub lądu jest zorganizowana w spójne i znaczące obszary (1).Prowincje te odgrywają bardzo ważną rolę w porównywaniu i porównywaniu lokalizacji, charakteryzowaniu obserwacji, monitoringu i ochrony.Złożone i nieliniowe interakcje, które tworzą te prowincje, sprawiają, że metody uczenia maszynowego bez nadzoru (ML) są bardzo odpowiednie do obiektywnego określania prowincji, ponieważ kowariancja danych jest złożona i niegaussowska.W tym miejscu zaproponowano metodę ML, która systematycznie identyfikuje unikalne morskie prowincje ekologiczne (ekoprowincje) na podstawie globalnego trójwymiarowego (3D) modelu fizycznego/ekosystemu Darwina (2).Terminu „unikalny” używa się, aby wskazać, że zidentyfikowany obszar nie pokrywa się w wystarczającym stopniu z innymi obszarami.Metoda ta nazywana jest metodą Zintegrowanej Prowincji Ekologicznej Systemu (SAGE).Aby przeprowadzić użyteczną klasyfikację, metoda algorytmiczna musi umożliwiać (i) klasyfikację globalną oraz (ii) analizę wieloskalową, którą można zagnieżdżać/agregować w przestrzeni i czasie (3).W badaniach po raz pierwszy zaproponowano metodę SAGE i omówiono zidentyfikowane prowincje ekologiczne.Ekoprowincje mogą promować zrozumienie czynników kontrolujących strukturę społeczności, dostarczać przydatnych informacji na potrzeby strategii monitorowania i pomagać w śledzeniu zmian w ekosystemie.
Prowincje lądowe są zwykle klasyfikowane według podobieństwa klimatu (opady i temperatura), gleby, roślinności i fauny i są wykorzystywane do pomocniczego zarządzania, badań różnorodności biologicznej i zwalczania chorób (1, 4).Prowincje morskie są trudniejsze do zdefiniowania.Większość organizmów jest mikroskopijna i ma płynne granice.Longhursta i in.(5) Podana jedna z pierwszych światowych klasyfikacji Ministerstwa Oceanografii oparta na warunkach środowiskowych.Definicja prowincji „Longhurst” obejmuje zmienne, takie jak szybkość mieszania, rozwarstwienie i natężenie napromienienia, a także rozległe doświadczenie Longhurst jako oceanografa morskiego, który ma inne ważne warunki dla ekosystemów morskich.Longhurst było szeroko wykorzystywane, na przykład do oceny produkcji pierwotnej i przepływów węgla, wspomagania rybołówstwa i planowania działań w zakresie obserwacji in situ (5-9).W celu bardziej obiektywnego zdefiniowania prowincji zastosowano metody takie jak logika rozmyta i regionalne nienadzorowane klastry/statystyki (9-14).Celem takich metod jest identyfikacja znaczących struktur, które mogą identyfikować województwa na podstawie dostępnych danych obserwacyjnych.Na przykład dynamiczne prowincje morskie (12) wykorzystują samoorganizujące się mapy w celu ograniczenia hałasu i wykorzystują hierarchiczne (oparte na drzewach) grupowanie w celu określenia produktów koloru morskiego pochodzących z regionalnych satelitów [chlorofil a (Chl-a), znormalizowana wysokość linii fluorescencji i kolorowa rozpuszczona materia organiczna] i pole fizyczne (temperatura i zasolenie powierzchni morza, bezwzględna topografia dynamiczna i lód morski).
Struktura zbiorowiskowa planktonu budzi obawy, ponieważ jego ekologia ma ogromny wpływ na wyższy poziom składników odżywczych, absorpcję węgla i klimat.Niemniej jednak określenie globalnej prowincji ekologicznej w oparciu o strukturę społeczności planktonu jest nadal trudnym i nieuchwytnym celem.Kolorowe satelity morskie mogą potencjalnie zapewnić wgląd w gruboziarnistą klasyfikację fitoplanktonu lub zasugerować zalety grup funkcjonalnych (15), ale obecnie nie są w stanie dostarczyć szczegółowych informacji na temat struktury zbiorowisk.Niedawne badania [np. Tara Ocean (16)] dostarczają bezprecedensowych pomiarów struktury społeczności;obecnie prowadzi się jedynie nieliczne obserwacje in-situ w skali globalnej (17).Poprzednie badania w dużej mierze określiły „prowincję biogeochemiczną” (12, 14, 18) w oparciu o określenie podobieństw biochemicznych (takich jak produkcja pierwotna, Chl i dostępne światło).W tym przypadku do uzyskania wyników wykorzystano model numeryczny [Darwin(2)], a prowincję ekologiczną określono na podstawie struktury społeczności i przepływu składników odżywczych.Model numeryczny zastosowany w tym badaniu ma zasięg globalny i można go porównać z istniejącymi danymi terenowymi (17) i polami teledetekcyjnymi (Uwaga S1).Dane modelu numerycznego użyte w tym badaniu mają tę zaletę, że mają zasięg globalny.Modelowy ekosystem składa się z 35 gatunków fitoplanktonu i 16 gatunków zooplanktonu (patrz materiały i metody).Modelowe typy planktonu oddziałują nieliniowo z niegaussowskimi strukturami kowariancji, dlatego proste metody diagnostyczne nie nadają się do identyfikowania unikalnych i spójnych wzorców w powstających strukturach społeczności.Wprowadzona tutaj metoda SAGE zapewnia nowatorski sposób sprawdzania wyników złożonych modeli Darwina.
Potężne możliwości transformacyjne technologii data science/ML mogą umożliwić niezwykle złożonym rozwiązaniom modelowym ujawnienie złożonych, ale solidnych struktur kowariancji danych.Metodę solidną definiuje się jako metodę, która może wiernie odtworzyć wyniki w określonym zakresie błędów.Nawet w prostych systemach określenie solidnych wzorców i sygnałów może być wyzwaniem.Dopóki nie zostanie określone uzasadnienie prowadzące do zaobserwowanego wzorca, pojawiająca się złożoność może wydawać się skomplikowana/trudna do rozwiązania.Kluczowy proces ustalania składu ekosystemu ma charakter nieliniowy.Istnienie interakcji nieliniowych może dezorientować solidną klasyfikację, dlatego należy unikać metod, które przyjmują mocne założenia dotyczące podstawowego rozkładu statystycznego kowariancji danych.Dane wielowymiarowe i nieliniowe są powszechne w oceanografii i mogą mieć strukturę kowariancji ze złożoną topologią niegaussowską.Chociaż dane o strukturze kowariancji niegaussowskiej mogą utrudniać solidną klasyfikację, metoda SAGE jest nowatorska, ponieważ została zaprojektowana do identyfikacji klastrów o dowolnych topologiach.
Celem metody SAGE jest obiektywna identyfikacja pojawiających się wzorców, które mogą pomóc w dalszym zrozumieniu ekologii.Zgodnie z procedurą opartą na klastrach, podobną do (19), zmienne ekologiczne i strumienie składników odżywczych są wykorzystywane do określenia jedynego skupienia w danych, zwanego prowincją ekologiczną.Metoda SAGE zaproponowana w tym badaniu (ryc. 1) najpierw zmniejsza wymiarowość z 55 do 11 wymiarów poprzez sumowanie zdefiniowanych a priori grup funkcyjnych planktonu (patrz Materiały i metody).Stosując metodę osadzania t-losowego sąsiada (t-SNE), rozmiar jest dodatkowo zmniejszany poprzez rzutowanie prawdopodobieństwa na przestrzeń 3D.Klastrowanie bez nadzoru może identyfikować obszary bliskie ekologicznie [grupowanie przestrzenne oparte na gęstości (DBSCAN) do zastosowań opartych na hałasie].Zarówno t-SNE, jak i DBSCAN mają zastosowanie do nieodłącznych danych numerycznych modelu nieliniowego ekosystemu.Następnie ponownie rzutuj powstałą prowincję ekologiczną na ziemię.Zidentyfikowano ponad sto unikalnych prowincji ekologicznych, nadających się do badań regionalnych.Aby uwzględnić globalnie spójny model ekosystemu, stosuje się metodę SAGE do agregacji prowincji ekologicznych w zagregowane prowincje ekologiczne (AEP) w celu poprawy efektywności prowincji ekologicznych.Poziom agregacji (zwany „złożonością”) można dostosować do wymaganego poziomu szczegółowości.Określ minimalną złożoność solidnego AEP.Dobór skupia się na metodzie SAGE i badaniu przypadków AEP o najmniejszej złożoności w celu określenia kontroli struktury społeczności ratunkowej.Wzorce można następnie przeanalizować, aby uzyskać wgląd w kwestie ekologiczne.Wprowadzoną tutaj metodę można także wykorzystać do szerszego porównania modeli, na przykład poprzez ocenę lokalizacji podobnych prowincji ekologicznych znalezionych w różnych modelach, aby uwypuklić różnice i podobieństwa, aby porównać modele.
(A) Schematyczny diagram procedury określania prowincji ekologicznej;wykorzystanie sumy w grupie funkcyjnej w celu zredukowania pierwotnych 55-wymiarowych danych do 11-wymiarowego modelu wyjściowego, obejmującego biomasę siedmiu planktonu funkcjonalnego/składnikowego i cztery szybkości dostarczania składników odżywczych.Znikoma wartość i trwały obszar pokrywy lodowej.Dane zostały ujednolicone i ujednolicone.Dostarcz 11-wymiarowe dane do algorytmu t-SNE, aby wyróżnić statystycznie podobne kombinacje cech.DBSCAN starannie wybierze klaster, aby ustawić wartość parametru.Na koniec wyświetl dane z powrotem do projekcji szerokości/długości geograficznej.Należy pamiętać, że proces ten powtarza się 10 razy, ponieważ zastosowanie t-SNE może spowodować niewielką losowość.(B) wyjaśnia, jak uzyskać AEP, powtarzając procedurę z (A) 10 razy.Dla każdej z tych 10 realizacji wyznaczono międzywojewódzką macierz odmienności Braya-Curtisa (BC) w oparciu o biomasę 51 typów fitoplanktonu.Określ różnicę BC między prowincjami, od złożoności 1 AEP do pełnej złożoności 115. Punkt odniesienia BC jest ustalany przez prowincję Longhurst.
Metoda SAGE wykorzystuje wyniki globalnego trójwymiarowego modelu numerycznego fizycznego/ekosystemu do zdefiniowania prowincji ekologicznej [Darwin (2);patrz Materiały i metody oraz uwaga S1].Składniki ekosystemu składa się z 35 gatunków fitoplanktonu i 16 gatunków zooplanktonu, z siedmioma predefiniowanymi grupami funkcjonalnymi: prokarioty i eukarionty przystosowane do środowisk o niskiej zawartości składników odżywczych, kokcydia z powłoką z węglanu wapnia i silne wiązanie azotu Składniki azotowe (zwykle brakujące ważne składniki odżywcze), pokryte krzemionką, mogą powodować fotosyntezę innego planktonu i wypasać mieszane składniki odżywcze wiciowców i pasterzy zooplanktonu.Rozpiętość rozmiarów wynosi od 0,6 do 2500 μm równoważnej średnicy sferycznej.Modelowy rozkład wielkości i grupowania funkcjonalnego fitoplanktonu uwzględnia ogólną charakterystykę obserwowaną w obserwacjach satelitarnych i in-situ (patrz rysunki S1 do S3).Podobieństwo modelu numerycznego do obserwowanego oceanu wskazuje, że prowincje zdefiniowane w modelu mogą mieć zastosowanie do oceanu in-situ.Należy pamiętać, że model ten uwzględnia jedynie pewną różnorodność fitoplanktonu i tylko pewne fizyczne i chemiczne zasięgi oceanu in situ.Metoda SAGE może umożliwić ludziom lepsze zrozumienie wysoce regionalnego mechanizmu kontroli modelowej struktury społeczności.
Uwzględniając jedynie sumę biomasy powierzchniowej (ze średnim czasem trwania wynoszącym 20 lat) w każdej grupie funkcjonalnej planktonu, można zmniejszyć wymiarowość danych.Po tym, jak wcześniejsze badania wykazały ich kluczową rolę w ustalaniu struktury społeczności, uwzględniono w nich także terminy powierzchniowych źródeł przepływu składników odżywczych (dostawa azotu, żelaza, fosforanów i kwasu krzemowego) [np. (20, 21)] .Sumowanie grup funkcyjnych zmniejsza problem z 55 (51 planktonu i 4 przepływy składników odżywczych) do 11 wymiarów.W tym wstępnym badaniu, ze względu na ograniczenia obliczeniowe nałożone przez algorytm, nie uwzględniono zmienności głębokości i czasu.
Metoda SAGE pozwala zidentyfikować ważne zależności pomiędzy procesami nieliniowymi a kluczowymi cechami interakcji pomiędzy biomasą grup funkcyjnych a przepływem składników odżywczych.Używanie 11-wymiarowych danych opartych na euklidesowych metodach uczenia się na odległość (takich jak K-średnie) nie pozwala na uzyskanie rzetelnych i powtarzalnych prowincji (19, 22).Dzieje się tak, ponieważ w podstawowym rozkładzie kowariancji kluczowych elementów definiujących prowincję ekologiczną nie ma kształtu Gaussa.Średnie K komórek Woronoja (linie proste) nie mogą zachować podstawowego rozkładu niegaussowskiego.
Biomasa siedmiu grup funkcyjnych planktonu i cztery strumienie składników odżywczych tworzą 11-wymiarowy wektor x.Dlatego x jest polem wektorowym na siatce modelu, gdzie każdy element xi reprezentuje 11-wymiarowy wektor zdefiniowany na siatce poziomej modelu.Każdy indeks i jednoznacznie identyfikuje punkt siatki na kuli, gdzie (lon, lat) = (ϕi, θi).Jeżeli biomasa jednostki siatki modelowej jest mniejsza niż 1,2×10-3 mg Chl/m3 lub stopień pokrycia lodem przekracza 70%, log danych dotyczących biomasy jest wykorzystywany i odrzucany.Dane są znormalizowane i standaryzowane, więc wszystkie dane mieszczą się w przedziale od [0 do 1], średnia jest usuwana i skalowana do wariancji jednostkowej.Odbywa się to w taki sposób, aby cechy (biomasa i przepływ składników odżywczych) nie były ograniczone kontrastem w zakresie możliwych wartości.Grupowanie powinno uchwycić związek zmiany na podstawie odległości między cechami, a nie odległości geograficznej.Dzięki ilościowemu określeniu tych odległości wyłaniają się ważne cechy, a niepotrzebne szczegóły są odrzucane.Z ekologicznego punktu widzenia jest to konieczne, ponieważ niektóre rodzaje fitoplanktonu o małej biomasie mogą powodować większe skutki biogeochemiczne, takie jak wiązanie azotu przez bakterie diazotroficzne.Podczas standaryzacji i normalizacji danych tego typu współzmienne zostaną wyróżnione.
Podkreślając bliskość cech w przestrzeni wielowymiarowej w reprezentacji niskowymiarowej, algorytm t-SNE służy do zwiększenia przejrzystości istniejących podobnych regionów.Poprzednie prace mające na celu budowę głębokich sieci neuronowych do zastosowań teledetekcyjnych wykorzystywały t-SNE, który udowodnił swoją umiejętność oddzielania kluczowych cech (23).Jest to niezbędny krok, aby zidentyfikować solidne grupowanie w danych cech, unikając jednocześnie rozwiązań niezbieżnych (uwaga S2).Wykorzystując jądra Gaussa, t-SNE zachowuje właściwości statystyczne danych, odwzorowując każdy wielowymiarowy obiekt na punkt w przestrzeni fazowej 3D, zapewniając w ten sposób, że prawdopodobieństwo podobnych obiektów w wysokich i niskich kierunkach jest wysokie w wysokim przestrzeń wymiarowa (24).Mając zbiór N obiektów wielowymiarowych x1,…,xN, algorytm t-SNE redukuje poprzez minimalizację rozbieżności Kullbacka-Leiblera (KL) (25).Rozbieżność KL jest miarą tego, jak bardzo różni się rozkład prawdopodobieństwa od drugiego rozkładu odniesienia i może skutecznie ocenić możliwość korelacji między niskowymiarowymi reprezentacjami cech wielowymiarowych.Jeżeli xi jest i-tym obiektem w przestrzeni N-wymiarowej, xj jest j-tym obiektem w przestrzeni N-wymiarowej, yi jest i-tym obiektem w przestrzeni niskowymiarowej i yj jest j-tym obiektem w przestrzeni niskowymiarowej -przestrzeni wymiarowej, wówczas t -SNE definiuje prawdopodobieństwo podobieństwa ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), oraz dla zbioru redukcyjnego wymiarowości q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Rysunek 2A ilustruje efekt redukcji wektorów strumienia biomasy i składników odżywczych 11-wymiarowej kombinacji do 3D.Motywację stosowania t-SNE można porównać z motywacją analizy głównych składowych (PCA), która wykorzystuje atrybut wariancji do podkreślenia obszaru/atrybutu danych, zmniejszając w ten sposób wymiarowość.Stwierdzono, że metoda t-SNE jest lepsza od PCA pod względem zapewniania wiarygodnych i powtarzalnych wyników dla Eco-Ministerstwa (patrz uwaga S2).Może to wynikać z tego, że założenie o ortogonalności PCA nie jest odpowiednie do identyfikacji krytycznych interakcji pomiędzy wysoce nieliniowymi cechami interaktywnymi, ponieważ PCA skupia się na liniowych strukturach kowariancji (26).Korzystając z danych teledetekcyjnych, Lunga i in.(27) ilustruje, jak wykorzystać metodę SNE do uwypuklenia złożonych i nieliniowych cech widmowych, które odbiegają od rozkładu Gaussa.
(A) Modelowany wskaźnik podaży składników odżywczych, biomasa grup funkcjonalnych fitoplanktonu i zooplanktonu narysowana za pomocą algorytmu t-SNE i pokolorowana według prowincji za pomocą DBSCAN.Każdy punkt reprezentuje punkt w przestrzeni wielowymiarowej, jak pokazano na rysunku 6B. Przechwycono większość punktów.Wały odnoszą się do „t-SNE” w rozmiarach 1, 2 i 3. (B) Rzut geograficzny prowincji znaleziony przez DBSCAN na siatce szerokości i długości geograficznej początkowej.Za kolor należy uznać dowolny kolor, ale powinien on odpowiadać (A).
Punkty na wykresie punktowym t-SNE na rysunku 2A są odpowiednio powiązane z szerokością i długością geograficzną.Jeśli dwa punkty na rysunku 2A są blisko siebie, dzieje się tak dlatego, że ich przepływy biomasy i składników odżywczych są podobne, a nie z powodu bliskości geograficznej.Kolory na rysunku 2A to klastry odkryte metodą DBSCAN (28).Przy poszukiwaniu gęstych obserwacji algorytm DBSCAN wykorzystuje odległość w reprezentacji 3D pomiędzy punktami (ϵ = 0,39; informacje o tym wyborze patrz Materiały i Metody), a do zdefiniowania skupienia wymagana jest liczba podobnych punktów (tutaj 100 punktów, patrz wyżej).Metoda DBSCAN nie przyjmuje żadnych założeń dotyczących kształtu ani liczby skupień w danych, jak pokazano poniżej:
3) Dla wszystkich punktów zidentyfikowanych jako znajdujące się w odległości wewnątrz, powtórz krok 2 iteracyjnie, aby określić granicę klastra.Jeżeli liczba punktów jest większa od ustawionej wartości minimalnej, jest on określany jako klaster.
Dane, które nie spełniają minimalnego elementu klastra i metryki odległości ϵ, są uznawane za „szumy” i nie przypisuje się im koloru.DBSCAN to szybki i skalowalny algorytm z wydajnością O(n2) w najgorszym przypadku.W obecnej analizie nie jest to w rzeczywistości losowe.Minimalna liczba punktów ustalana jest na podstawie oceny eksperckiej.Po skorygowaniu odległości wynik nie jest wystarczająco stabilny w zakresie ≈±10.Odległość ta jest ustalana na podstawie łączności (rysunek 6A) i procentu zasięgu oceanu (rysunek 6B).Łączność definiuje się jako złożoną liczbę klastrów i jest wrażliwa na parametr ϵ.Niższa łączność wskazuje na niewystarczające dopasowanie i sztuczne grupowanie regionów.Wysoka łączność wskazuje na nadmierne dopasowanie.Można sobie wyobrazić użycie wyższego minimum, ale jeśli minimum przekracza ok., nie da się uzyskać niezawodnego rozwiązania.135 (Więcej szczegółów można znaleźć w części Materiały i metody).
115 gromad zidentyfikowanych na rysunku 2A jest rzutowanych z powrotem na Ziemię na rysunku 2B.Każdy kolor odpowiada spójnej kombinacji czynników biogeochemicznych i ekologicznych zidentyfikowanych przez DBSCAN.Po określeniu klastrów powiązanie każdego punktu na rysunku 2A z określoną szerokością i długością geograficzną służy do odwzorowania klastrów z powrotem na obszar geograficzny.Rysunek 2B ilustruje to za pomocą tych samych kolorów klastrów, co rysunek 2A.Podobnych kolorów nie należy interpretować jako podobieństwa ekologicznego, ponieważ przypisuje się je według kolejności odkrywania skupień przez algorytm.
Obszar na rysunku 2B może być jakościowo podobny do obszaru ustalonego pod względem fizycznym i/lub biogeochemicznym oceanu.Na przykład gromady na Oceanie Południowym są strefowo symetryczne, pojawiają się wiry oligotroficzne, a ostre przejście wskazuje na wpływ pasatów.Na przykład na równikowym Pacyfiku widoczne są różne regiony powiązane ze wzrostem.
Aby zrozumieć środowisko ekologiczne Ekoprowincji, do oceny ekologii w klastrze zastosowano odmianę wskaźnika różnicy Braya-Curtisa (BC) (29).Wskaźnik BC to dane statystyczne wykorzystywane do ilościowego określenia różnicy w strukturze społeczności pomiędzy dwoma różnymi lokalizacjami.Pomiar BC ma zastosowanie do biomasy 51 gatunków fitoplanktonu i zooplanktonu BCninj = 1-2CninjSni + Snj
BCninj odnosi się do podobieństwa pomiędzy kombinacją ni i kombinacją nj, gdzie Cninj to minimalna wartość pojedynczego rodzaju biomasy występującej w obu kombinacjach ni i nj, a Sni oznacza sumę wszystkich biomas występujących w obu kombinacjach ni i Snj.Różnica BC jest podobna do miary odległości, ale działa w przestrzeni nieeuklidesowej, która prawdopodobnie będzie bardziej odpowiednia dla danych ekologicznych i ich interpretacji.
Dla każdego klastra zidentyfikowanego na rysunku 2B można ocenić podobieństwo BC wewnątrzprowincjonalnego i międzywojewódzkiego.Różnica BC w prowincji odnosi się do różnicy pomiędzy średnią wartością prowincji a każdym punktem w prowincji.Różnica między prowincjami BC odnosi się do podobieństwa między jedną prowincją a innymi prowincjami.Rysunek 3A przedstawia symetryczną macierz BC (0, czarny: całkowicie odpowiadający; 1, biały: całkowicie odmienny).Każda linia na wykresie przedstawia wzór w danych.Rycina 3B przedstawia znaczenie geograficzne wyników BC z Ryc. 3A dla każdej prowincji.W przypadku prowincji znajdującej się na obszarze o niskim poziomie odżywienia i składników odżywczych Rysunek 3B pokazuje, że symetria dużych obszarów wokół równika i Oceanu Indyjskiego jest zasadniczo podobna, ale wyższe szerokości geograficzne i obszary upwellingowe znacznie się od siebie różnią.
(A) Stopień różnicy BC oszacowany dla każdej prowincji w oparciu o globalną średnią globalną powierzchnię z 20 lat wynoszącą 51 planktonu.Zwróć uwagę na oczekiwaną symetrię wartości.(B) Rzut przestrzenny kolumny (lub rzędu).Dla prowincji znajdującej się w kręgu dystroficznym oszacowano globalny rozkład miary podobieństwa BC i oszacowano globalną średnią z 20 lat.Czarny (BC = 0) oznacza ten sam obszar, a biały (BC = 1) oznacza brak podobieństwa.
Rysunek 4A ilustruje różnicę w BC w obrębie każdej prowincji na rysunku 2B.Określone za pomocą średniej kombinacji średniego obszaru w skupieniu i określenia odmienności między BC a średnią każdego punktu siatki w prowincji, pokazuje, że metoda SAGE może dobrze oddzielić 51 gatunków na podstawie podobieństwa ekologicznego. dane modelu.Ogólna średnia odmienność BC wszystkich 51 typów klastrów wynosi 0,102 ± 0,0049.
(A, B i D) Różnica BC w prowincji jest oceniana jako średnia różnica BC pomiędzy każdą społecznością punktów siatki a średnią prowincją, a złożoność nie jest zmniejszana.(2) Średnia globalna różnica między prowincjami BC wynosi 0,227 ± 0,117.Jest to punkt odniesienia dla klasyfikacji opartej na motywacji ekologicznej zaproponowanej w tej pracy [zielona linia w (C)].(C) Średnia różnica BC wewnątrz prowincji: Czarna linia przedstawia różnicę BC wewnątrz prowincji wraz ze wzrostem złożoności.2σ wynika z 10 powtórzeń procesu identyfikacji ekoprowincji.Dla całkowitej złożoności prowincji odkrytej przez DBSCAN, (A) pokazuje, że odmienność BC w prowincji wynosi 0,099, a klasyfikacja złożoności zaproponowana przez (C) wynosi 12, co daje w rezultacie odmienność BC wynoszącą 0,200 w prowincji.jak pokazuje zdjęcie.(D).
Na rysunku 4B biomasa 51 rodzajów planktonu została wykorzystana do przedstawienia równoważnej różnicy BC w prowincji Longhurst.Ogólna średnia dla każdego województwa wynosi 0,227, a odchylenie standardowe punktów siatki w odniesieniu do różnicy w prowincji BC wynosi 0,046.Jest on większy niż klaster wskazany na rysunku 1B.Zamiast tego, stosując sumę siedmiu grup funkcjonalnych, średnia odmienność BC wewnątrz sezonu w Longhurst wzrosła do 0,232.
Globalna mapa ekoprowincji dostarcza skomplikowanych szczegółów unikalnych interakcji ekologicznych, a wprowadzono ulepszenia w wykorzystaniu całej struktury ekosystemu prowincji Longhurst.Oczekuje się, że Ministerstwo Ekologii zapewni wgląd w proces kontrolowania ekosystemu modelu numerycznego, a wiedza ta pomoże w eksploracji prac terenowych.Na potrzeby niniejszego badania nie jest możliwe pełne wyświetlenie więcej niż stu województw.W kolejnej części przedstawiono metodę SAGE podsumowującą prowincje.
Jednym z celów prowincji jest promowanie zrozumienia lokalizacji i zarządzania województwem.Aby określić sytuacje awaryjne, metoda przedstawiona na rycinie 1B ilustruje zagnieżdżanie prowincji podobnych ekologicznie.Ekoprowincje grupuje się na podstawie podobieństwa ekologicznego i takie grupowanie prowincji nazywa się AEP.Ustaw regulowaną „złożoność” w oparciu o całkowitą liczbę prowincji, które należy uwzględnić.Używa się terminu „złożoność”, ponieważ pozwala on na dostosowanie poziomu atrybutów awaryjnych.W celu zdefiniowania znaczących agregacji jako punkt odniesienia przyjmuje się średnią różnicę BC wewnątrz prowincji wynoszącą 0,227 w stosunku do Longhurst.Poniżej tego poziomu połączone prowincje nie są już uważane za przydatne.
Jak pokazano na rysunku 3B, globalne prowincje ekologiczne są spójne.Korzystając z różnic międzywojewódzkich BC, można zauważyć, że niektóre konfiguracje są bardzo „wspólne”.Zainspirowane genetyką i metodami teorii grafów, „połączone wykresy” służą do sortowania > 100 prowincji na podstawie prowincji najbardziej do nich podobnych.Miernik „połączenia” jest tutaj określany na podstawie międzyprowincjonalnej odmienności BC (30).Liczbę województw, w przypadku której istnieje większa przestrzeń do klasyfikacji > 100 województw, można tu nazwać złożonością.AEP to produkt, który kategoryzuje ponad 100 województw jako najbardziej dominujące/najbliższe ekologicznie województwa.Każda prowincja ekologiczna jest przypisana do dominującej/silnie połączonej prowincji ekologicznej, która jest do niej najbardziej podobna.Ta agregacja określona przez różnicę BC pozwala na zagnieżdżone podejście do globalnej ekologii.
Wybrana złożoność może mieć dowolną wartość od 1 do całkowitej złożoności z FIG.2A.Przy niższej złożoności AEP może ulec degeneracji z powodu etapu redukcji wymiarowości probabilistycznej (t-SNE).Degeneracja oznacza, że prowincje ekologiczne można przypisać do różnych AEP pomiędzy iteracjami, zmieniając w ten sposób objęty obszar geograficzny.Rysunek 4C ilustruje rozprzestrzenianie się różnic w BC w prowincjach w AEP o rosnącej złożoności w 10 wdrożeniach (ilustracja na rysunku 1B).Na rysunku 4C 2σ (niebieski obszar) jest miarą degradacji w 10 wdrożeniach, a zielona linia przedstawia punkt odniesienia w Longhurst.Fakty wykazały, że złożoność 12 może utrzymać różnicę BC w prowincji poniżej wartości odniesienia w Longhurst we wszystkich wdrożeniach i utrzymać stosunkowo niewielką degradację 2σ.Podsumowując, minimalna zalecana złożoność wynosi 12 AEP, a średnia różnica BC wewnątrz prowincji oszacowana przy użyciu 51 typów planktonu wynosi 0,198 ± 0,013, jak pokazano na rysunku 4D.Korzystając z sumy siedmiu grup funkcjonalnych planktonu, średnia różnica BC w prowincji wynosi 2σ zamiast 0,198 ± 0,004.Porównanie różnic BC obliczonych na podstawie całkowitej biomasy siedmiu grup funkcjonalnych lub biomasy wszystkich 51 typów planktonu pokazuje, że chociaż metoda SAGE ma zastosowanie w sytuacji 51-wymiarowej, dotyczy to całkowitej biomasy siedmiu grup funkcjonalnych Na trening.
W zależności od celu badania można uwzględnić różne poziomy złożoności.Badania regionalne mogą wymagać pełnej złożoności (tj. wszystkich 115 województw).Jako przykład i dla przejrzystości rozważ minimalną zalecaną złożoność wynoszącą 12.
Jako przykład użyteczności metody SAGE wykorzystano tutaj 12 AEP o minimalnej złożoności 12 w celu zbadania kontroli struktury społeczności ratunkowej.Rycina 5 ilustruje spostrzeżenia ekologiczne pogrupowane według AEP (od A do L): W stechiometrii Redfielda zasięg geograficzny (ryc. 5C), skład biomasy grup funkcjonalnych (ryc. 5A) i podaż składników odżywczych (ryc. 5B) są określane za pomocą narzędzia N Zoomed.Pokazano stosunek (N:Si:P:Fe, 1:1:16:16×103).W przypadku tego ostatniego panelu P pomnożono przez 16, a Fe pomnożono przez 16×103, więc wykres słupkowy odpowiada wymaganiom żywieniowym fitoplanktonu.
Prowincje są podzielone na 12 AEP od A do L. (A) Biomasa (mgC/m3) ekosystemów w 12 prowincjach.(B) Natężenie przepływu składników odżywczych rozpuszczonego nieorganicznego azotu (N), żelaza (Fe), fosforanu (P) i kwasu krzemowego (Si) (mmol/m3 rocznie).Fe i P mnoży się odpowiednio przez 16 i 16×103, tak aby paski były standaryzowane pod kątem wymagań stechiometrycznych fitoplanktonu.(C) Zwróć uwagę na różnicę między regionami polarnymi, cyklonami subtropikalnymi i głównymi regionami sezonowymi/wschodzącymi.Stanowiska monitorujące oznaczone są następująco: 1, SIEDZENIA;2, ALOHA;3, stacja P;i 4, NIETOPERZY.
Zidentyfikowany AEP jest unikalny.Istnieje pewna symetria wokół równika na Oceanie Atlantyckim i Pacyfiku, a podobny, ale powiększony obszar istnieje na Oceanie Indyjskim.Niektóre AEP obejmują zachodnią część kontynentu związaną ze wspinaczką.Prąd okołobiegunowy na biegunie południowym jest uważany za duży obiekt strefowy.Cyklon subtropikalny to złożona seria oligotroficznych AEP.W tych prowincjach oczywisty jest znajomy wzór różnic w biomasie między zdominowanymi przez plankton wirami oligotroficznymi a regionami polarnymi bogatymi w okrzemki.
AEP o bardzo podobnej całkowitej biomasie fitoplanktonu mogą mieć bardzo różne struktury zbiorowisk i obejmować różne obszary geograficzne, takie jak D, H i K, które mają podobną całkowitą biomasę fitoplanktonu.AEP H występuje głównie w równikowej części Oceanu Indyjskiego, gdzie występuje więcej bakterii diazotroficznych.AEP D występuje w kilku basenach, ale jest szczególnie widoczny na Pacyfiku w pobliżu obszarów o wysokich plonach wokół upwellingu równikowego.Kształt tej prowincji Pacyfiku przypomina planetarny pociąg falowy.W AEP D jest niewiele diazobakterii i więcej szyszek.W porównaniu z dwoma pozostałymi prowincjami, AEP K występuje tylko na wyżynach Oceanu Arktycznego, gdzie występuje więcej okrzemek i mniej planktonu.Warto zauważyć, że ilość planktonu w tych trzech regionach również jest bardzo zróżnicowana.Wśród nich liczebność planktonu w AEP K jest stosunkowo niska, podczas gdy w AEP D i H jest stosunkowo wysoka.Dlatego pomimo swojej biomasy (a zatem podobnej do Chl-a), prowincje te są zupełnie inne: testy prowincji oparte na Chl mogą nie uchwycić tych różnic.
Oczywiste jest również, że niektóre AEP o bardzo różnej biomasie mogą być podobne pod względem struktury zbiorowisk fitoplanktonu.Widać to np. w AEP D i E. Są one blisko siebie, a na Pacyfiku AEP E jest blisko wysoce produktywnego AEPJ.Podobnie nie ma wyraźnego związku między biomasą fitoplanktonu a liczebnością zooplanktonu.
AEP można rozumieć w kategoriach dostarczanych im składników odżywczych (Rysunek 5B).Okrzemki istnieją tylko tam, gdzie jest wystarczająca ilość kwasu krzemowego.Generalnie im większa podaż kwasu krzemowego, tym większa biomasa okrzemek.Okrzemki można zobaczyć w AEP A, J, K i L. Stosunek biomasy okrzemek do innego fitoplanktonu jest określony przez dostarczane N, P i Fe w stosunku do zapotrzebowania okrzemek.Na przykład AEP L jest zdominowany przez okrzemki.W porównaniu z innymi składnikami odżywczymi, Si ma najwyższą podaż.Natomiast pomimo wyższej produktywności, AEP J ma mniej okrzemek i mniejszą podaż krzemu (w całości i w stosunku do innych składników odżywczych).
Bakterie diazoniowe mają zdolność wiązania azotu, ale rosną powoli (31).Współistnieją z innymi fitoplanktonami, gdzie żelazo i fosfor są nadmierne w stosunku do zapotrzebowania na składniki pokarmowe niediazoniowe (20, 21).Warto zauważyć, że biomasa diazotroficzna jest stosunkowo wysoka, a podaż Fe i P jest stosunkowo duża w stosunku do podaży N. W ten sposób, chociaż całkowita biomasa w AEP J jest wyższa, biomasa diazoniowa w AEP H jest większy niż w J. Należy pamiętać, że AEP J i H są bardzo różne geograficznie, a H znajduje się na równikowym Oceanie Indyjskim.
Jeśli unikalna struktura ekosystemu nie zostanie podzielona na prowincje, wnioski uzyskane z 12 modeli AEP o najniższym stopniu złożoności nie będą tak jasne.AEP wygenerowany przez SAGE ułatwia spójne i jednoczesne porównywanie złożonych i wielowymiarowych informacji z modeli ekosystemów.AEP skutecznie podkreśla, dlaczego Chl nie jest dobrą i alternatywną metodą określania struktury zbiorowisk lub liczebności zooplanktonu przy wyższych poziomach składników odżywczych.Szczegółowa analiza bieżących tematów badawczych wykracza poza zakres tego artykułu.Metoda SAGE umożliwia zbadanie innych mechanizmów w modelu, które są łatwiejsze w obsłudze niż oglądanie punkt-punkt.
Zaproponowano metodę SAGE, aby pomóc w wyjaśnieniu niezwykle złożonych danych ekologicznych z globalnych modeli numerycznych fizycznych/biogeochemicznych/ekosystemu.Prowincję ekologiczną wyznacza się na podstawie całkowitej biomasy międzyplanktonowych grup funkcjonalnych, zastosowania algorytmu redukcji wymiaru prawdopodobieństwa t-SNE oraz grupowania przy użyciu metody ML bez nadzoru DBSCAN.Międzyprowincjonalną teorię różnic/grafów BC dla metody zagnieżdżania stosuje się w celu uzyskania solidnego AEP, który można wykorzystać do globalnej interpretacji.Pod względem konstrukcyjnym EkoProwincja i AEP są wyjątkowe.Zagnieżdżanie AEP można regulować w zakresie od pełnej złożoności pierwotnej prowincji ekologicznej do zalecanego minimalnego progu 12 AEP.Zagnieżdżanie i określenie minimalnej złożoności AEP są uważane za kluczowe kroki, ponieważ prawdopodobieństwo t-SNE powoduje degenerację AEP o złożoności <12.Metoda SAGE ma charakter globalny, a jej złożoność waha się od> 100 AEP do 12. Dla uproszczenia obecnie skupiono się na złożoności 12 globalnych AEP.Przyszłe badania, zwłaszcza badania regionalne, mogą okazać się przydatne w mniejszym podzbiorze przestrzennym globalnych ekoprowincji i mogą zostać zagregowane na mniejszym obszarze, aby skorzystać z tych samych omówionych tutaj spostrzeżeń ekologicznych.Zawiera sugestie dotyczące tego, w jaki sposób te prowincje ekologiczne i zdobyte w nich spostrzeżenia można wykorzystać do dalszego zrozumienia ekologii, ułatwienia porównania modeli i potencjalnej poprawy monitorowania ekosystemów morskich.
Prowincja ekologiczna i AEP identyfikowane metodą SAGE opierają się na danych w modelu numerycznym.Z definicji model numeryczny jest strukturą uproszczoną, próbującą uchwycić istotę docelowego układu, a różne modele będą charakteryzowały się różnym rozmieszczeniem planktonu.Model numeryczny zastosowany w tym badaniu nie może w pełni uchwycić niektórych zaobserwowanych wzorców (na przykład w szacunkach Chl dla regionu równikowego i Oceanu Południowego).Uchwycona zostaje tylko niewielka część różnorodności prawdziwego oceanu i nie można rozróżnić mezo i submezoskal, co może mieć wpływ na przepływ składników odżywczych i strukturę społeczności na mniejszą skalę.Pomimo tych niedociągnięć okazuje się, że AEP jest bardzo przydatny w pomaganiu w zrozumieniu złożonych modeli.Oceniając, gdzie znajdują się podobne prowincje ekologiczne, AEP zapewnia potencjalne narzędzie do porównywania modeli numerycznych.Obecny model numeryczny oddaje ogólny wzór stężenia fitoplanktonu Chl-a za pomocą teledetekcji oraz rozkład wielkości planktonu i grup funkcjonalnych (Uwaga S1 i Rysunek S1) (2, 32).
Jak pokazuje linia konturowa 0,1 mgChl-a/m-3, AEP jest podzielony na obszar oligotroficzny i obszar mezotroficzny (rysunek S1B): AEP B, C, D, E, F i G to obszary oligotroficzne, a pozostałe obszary to położony Wyższy Chl-a.AEP wykazuje pewną zgodność z prowincją Longhurst (rysunek S3A), na przykład z Oceanem Południowym i równikowym Pacyfikiem.W niektórych regionach AEP obejmuje wiele regionów Longhurst i odwrotnie.Ponieważ zamiar wytyczenia prowincji na tym obszarze i na Longhurst jest inny, oczekuje się, że będą różnice.Wiele AEP w prowincji Longhurst wskazuje, że pewne obszary o podobnej biogeochemii mogą mieć bardzo różne struktury ekosystemów.AEP wykazuje pewną zgodność ze stanami fizycznymi, jak ujawniono za pomocą uczenia się bez nadzoru (19), na przykład w stanach o wysokim upwellingu (na przykład Ocean Południowy i równikowy Pacyfik; rysunek S3, C i D).Powiązania te wskazują, że na strukturę zbiorowisk planktonu duży wpływ ma dynamika oceanów.Na obszarach takich jak północny Atlantyk AEP przebiega przez prowincje fizyczne.Mechanizm powodujący te różnice może obejmować procesy takie jak transport kurzu, który może prowadzić do zupełnie odmiennych programów żywieniowych nawet w podobnych warunkach fizycznych.
Ministerstwo Ekologii i AEP zwróciły uwagę, że przy użyciu samego Chl nie można zidentyfikować komponentów ekologicznych, o czym już przekonała się społeczność zajmująca się ekologią morza.Jest to widoczne w AEP o podobnej biomasie, ale znacznie różnym składzie ekologicznym (takim jak D i E).Natomiast AEP, takie jak D i K, mają bardzo różną biomasę, ale podobny skład ekologiczny.AEP podkreśla, że związek pomiędzy biomasą, składem ekologicznym i liczebnością zooplanktonu jest złożony.Na przykład, chociaż AEP J wyróżnia się pod względem fitoplanktonu i biomasy planktonu, A i L AEP mają podobną biomasę planktonu, ale A ma większą liczebność planktonu.AEP podkreśla, że biomasy fitoplanktonu (lub Chl) nie można wykorzystać do przewidywania biomasy zooplanktonu.Zooplankton stanowi podstawę rybnego łańcucha pokarmowego, a dokładniejsze szacunki mogą prowadzić do lepszego zarządzania zasobami.Przyszłe kolorowe satelity morskie [na przykład PACE (plankton, aerozol, chmura i ekosystem morski)] mogą być lepiej umiejscowione, aby pomóc w oszacowaniu struktury zbiorowisk fitoplanktonu.Korzystanie z prognoz AEP może potencjalnie ułatwić ocenę zooplanktonu z kosmosu.Metody takie jak SAGE w połączeniu z nowymi technologiami i coraz większą liczbą danych terenowych dostępnych na potrzeby badań terenowych (takich jak Tara i badania uzupełniające) mogą wspólnie stanowić krok w kierunku satelitarnego monitorowania stanu ekosystemów.
Metoda SAGE zapewnia wygodny sposób oceny niektórych mechanizmów kontrolujących cechy prowincji, takie jak biomasa/Chl, pierwotna produkcja netto i struktura społeczności.Na przykład względna ilość okrzemek jest ustalana na podstawie braku równowagi w podaży Si, N, P i Fe w stosunku do stechiometrycznych wymagań fitoplanktonu.Przy zrównoważonym poziomie podaży zbiorowisko jest zdominowane przez okrzemki (L).Kiedy podaż jest niezrównoważona (tj. podaż krzemu jest niższa niż zapotrzebowanie okrzemek na składniki odżywcze), okrzemki stanowią jedynie niewielką część udziału (K).Kiedy podaż Fe i P przewyższa podaż N (na przykład E i H), bakterie diazotroficzne będą intensywnie rosły.Dzięki kontekstowi dostarczonemu przez AEP badanie mechanizmów kontroli stanie się bardziej przydatne.
Eko-Prowincja i AEP to obszary o podobnych strukturach społecznych.Szereg czasowy z określonej lokalizacji w prowincji ekologicznej lub AEP można uznać za punkt odniesienia i może reprezentować obszar objęty prowincją ekologiczną lub AEP.Takie szeregi czasowe zapewniają długoterminowe stacje monitoringu na miejscu.Długoterminowe zbiory danych in-situ będą w dalszym ciągu odgrywać nieobliczalną rolę.Z punktu widzenia monitorowania struktury społeczności metodę SAGE można postrzegać jako pomoc w określeniu najbardziej przydatnej lokalizacji nowych obiektów.Na przykład szereg czasowy z długoterminowej oceny siedlisk oligotroficznych (ALOHA) znajduje się w AEP B obszaru oligotroficznego (rysunek 5C, etykieta 2).Ponieważ ALOHA znajduje się blisko granicy innego AEP, szeregi czasowe mogą nie być reprezentatywne dla całego obszaru, jak sugerowano wcześniej (33).W tym samym AEP B szereg czasowy SEATS (Seria czasowa Azji Południowo-Wschodniej) znajduje się w południowo-zachodnim Tajwanie (34), dalej od granic innych AEP (rysunek 5C, etykieta 1) i może być wykorzystany jako lepsza lokalizacja do monitorowania AEPB.Szereg czasowy BATS (Bermuda Atlantic Time Series Study) (Rysunek 5C, etykieta 4) w AEPC jest bardzo blisko granicy między AEP C i F, co wskazuje, że monitorowanie AEP C za pomocą szeregów czasowych BATS może bezpośrednio być problematyczne.Stacja P w AEP J (Rysunek 5C, etykieta 3) jest daleko od granicy AEP, więc jest bardziej reprezentatywna.Ekoprowincja i AEP mogą pomóc w ustanowieniu ram monitorowania odpowiednich do oceny globalnych zmian, ponieważ pozwolenie prowincji na ocenę, gdzie pobieranie próbek na miejscu może dostarczyć kluczowych spostrzeżeń.Metodę SAGE można dalej rozwijać w celu zastosowania do danych klimatycznych w celu oceny zmienności oszczędzającej czas.
Sukces metody SAGE osiąga się dzięki starannemu zastosowaniu metod data science/ML oraz wiedzy specyficznej dla danej dziedziny.W szczególności t-SNE służy do redukcji wymiarowości, która zachowuje strukturę kowariancji danych wielowymiarowych i ułatwia wizualizację topologii kowariancji.Dane są ułożone w formie pasków i kowariancji (rysunek 2A), co wskazuje, że miary oparte wyłącznie na odległości (takie jak średnie K) nie są odpowiednie, ponieważ zwykle korzystają z rozkładu bazowego Gaussa (kołowego) (omówionego w Nocie S2). .Metoda DBSCAN jest odpowiednia dla dowolnej topologii kowariancji.Jeśli zwrócisz uwagę na ustawienie parametrów, możesz zapewnić niezawodną identyfikację.Koszt obliczeniowy algorytmu t-SNE jest wysoki, co ogranicza jego obecne zastosowanie do większej ilości danych, co oznacza, że trudno jest zastosować go do pól głębokich lub zmiennych w czasie.Trwają prace nad skalowalnością t-SNE.Ponieważ odległość KL jest łatwa do zrównoleglenia, algorytm t-SNE ma duży potencjał rozszerzenia w przyszłości (35).Jak dotąd inne obiecujące metody redukcji wymiarowości, które mogą lepiej zmniejszyć rozmiar, obejmują techniki ujednoliconej aproksymacji i projekcji rozmaitości (UMAP), ale konieczna jest ocena w kontekście danych oceanicznych.Znaczenie lepszej skalowalności polega na przykład na klasyfikowaniu klimatów globalnych lub modeli o różnej złożoności na warstwie mieszanej.Obszary, które nie zostały sklasyfikowane przez SAGE w żadnej prowincji, można uznać za pozostałe czarne kropki na rysunku 2A.Z geograficznego punktu widzenia obszary te znajdują się głównie na obszarach charakteryzujących się dużą sezonowością, co sugeruje, że uwzględnienie prowincji ekologicznych zmieniających się w czasie zapewni lepszy zasięg.
Do skonstruowania metody SAGE wykorzystano pomysły z systemów złożonych/data science, wykorzystując możliwość wyznaczania skupień grup funkcyjnych (możliwość bycia bardzo blisko siebie w 11-wymiarowej przestrzeni) oraz wyznaczania prowincji.Prowincje te przedstawiają określone objętości w naszej trójwymiarowej przestrzeni fazowej t-SNE.Podobnie część Poincarégo można wykorzystać do oceny „objętości” przestrzeni stanów zajmowanej przez trajektorię w celu określenia „normalnego” lub „chaotycznego” zachowania (36).W przypadku statycznego modelu 11-wymiarowego w podobny sposób można wyjaśnić objętość zajmowaną po przekształceniu danych w trójwymiarową przestrzeń fazową.Zależność między obszarem geograficznym a obszarem w przestrzeni fazowej 3D nie jest prosta, ale można ją wyjaśnić w kategoriach podobieństwa ekologicznego.Z tego powodu preferowana jest bardziej konwencjonalna miara odmienności BC.
W przyszłych pracach ponownie wykorzystana zostanie metoda SAGE do sezonowo zmieniających się danych w celu oceny zmienności przestrzennej zidentyfikowanych prowincji i AEP.Przyszłym celem jest wykorzystanie tej metody do określenia, które prowincje można określić za pomocą pomiarów satelitarnych (takich jak Chl-a, współczynnik odbicia teledetekcyjnego i temperatura powierzchni morza).Umożliwi to teledetekcyjną ocenę komponentów ekologicznych oraz wysoce elastyczne monitorowanie prowincji ekologicznych i ich zmienności.
Celem niniejszych badań jest wprowadzenie metody SAGE, która definiuje prowincję ekologiczną poprzez jej unikalną strukturę zbiorowiska planktonu.Tutaj zostaną podane bardziej szczegółowe informacje na temat modelu fizycznego/biogeochemicznego/ekosystemu oraz doboru parametrów algorytmów t-SNE i DBSCAN.
Fizyczne elementy modelu pochodzą z szacunków cyrkulacji oceanicznej i klimatu [ECCOv4;(37) estymacja stanu globalnego opisana wzorem (38).Nominalna rozdzielczość estymacji stanu wynosi 1/5.Metodą najmniejszych kwadratów z metodą mnożnika Lagrange'a uzyskuje się warunki początkowe i brzegowe oraz parametry modelu wewnętrznego skorygowane poprzez obserwację, generując w ten sposób swobodnie działający ogólny model cyklu MIT (MITgcm) (39), model po optymalizacji może uzyskać wyniki być śledzone i obserwowane.
Pełniejszy opis biogeochemii/ekosystemu (tj. równania i wartości parametrów) znajduje się w (2).Model rejestruje cyrkulację C, N, P, Si i Fe w stawach nieorganicznych i organicznych.Zastosowana tutaj wersja obejmuje 35 gatunków fitoplanktonu: 2 gatunki mikroprokariotów i 2 gatunki mikroeukariotów (odpowiednie dla środowisk o niskiej zawartości składników odżywczych), 5 gatunków Cryptomonas sphaeroides (z powłoką z węglanu wapnia), 5 gatunków diazoniów (mogą wiązać azot, dzięki czemu nie jest ograniczona) dostępność rozpuszczonego azotu nieorganicznego), 11 okrzemek (tworzących osłonę krzemionkową), 10 wiciowców mieszano-wegetatywnych (mogą fotosyntetyzować i zjadać inny plankton) i 16 zooplanktonu (pasą się na innym planktonie).Nazywa się je „biogeochemicznymi grupami funkcyjnymi”, ponieważ mają różny wpływ na biogeochemię morza (40, 41) i są często wykorzystywane w badaniach obserwacyjnych i modelowych.W tym modelu każda grupa funkcyjna składa się z kilku planktonów o różnej wielkości, o równoważnej średnicy sferycznej od 0,6 do 2500 µm.
Parametry wpływające na wzrost, wypas i tonięcie fitoplanktonu są powiązane z rozmiarem i istnieją specyficzne różnice pomiędzy sześcioma grupami funkcjonalnymi fitoplanktonu (32).Pomimo różnych ram fizycznych, w wielu niedawnych badaniach wykorzystano wyniki dotyczące 51 składników planktonu modelu (42-44).
Od 1992 r. do 2011 r. model sprzężenia fizycznego, biogeochemicznego i ekosystemowego obowiązywał przez 20 lat.Dane wyjściowe modelu obejmują biomasę planktonu, stężenie składników odżywczych i tempo dostarczania składników odżywczych (DIN, PO4, Si i Fe).W tym badaniu jako dane wejściowe Prowincji Ekologicznej wykorzystano średnią 20-letnią tych wyników.Chl, porównano rozkład biomasy planktonu i stężenia składników pokarmowych oraz rozkład grup funkcyjnych z obserwacjami satelitarnymi i in-situ [patrz (2, 44), uwaga S1 i rysunek.S1 do S3].
W przypadku metody SAGE głównym źródłem losowości jest krok t-SNE.Losowość utrudnia powtarzalność, co oznacza, że wyniki są niewiarygodne.Metoda SAGE rygorystycznie testuje odporność, określając zestaw parametrów t-SNE i DBSCAN, które mogą konsekwentnie identyfikować klastry, gdy są powtarzane.Określenie „zakłopotania” parametru t-SNE można rozumieć jako określenie stopnia, w jakim mapowanie z wysokich do niskich wymiarów powinno uwzględniać lokalne lub globalne cechy danych.Osiągnięto zamieszanie związane z 400 i 300 iteracjami.
W przypadku algorytmu grupowania DBSCAN należy określić minimalny rozmiar i metrykę odległości punktów danych w klastrze.Minimalna liczba jest ustalana pod okiem ekspertów.Dzięki tej wiedzy wiadomo, co pasuje do aktualnych ram modelowania numerycznego i rozdzielczości.Minimalna liczba to 100. Można rozważyć wyższą wartość minimalną (mniejszą niż <135 zanim górna granica zieleni stanie się szersza), ale nie może ona zastąpić metody agregacji opartej na odmienności BC.Stopień połączenia (rysunek 6A) służy do ustawienia parametru ϵ, który sprzyja większemu pokryciu (rysunek 6B).Łączność definiuje się jako złożoną liczbę klastrów i jest wrażliwa na parametr ϵ.Niższa łączność wskazuje na niewystarczające dopasowanie i sztuczne grupowanie regionów.Wysoka łączność wskazuje na nadmierne dopasowanie.Nadmierne dopasowanie jest również problematyczne, ponieważ pokazuje, że początkowe losowe domysły mogą prowadzić do niepowtarzalnych wyników.Pomiędzy tymi dwoma skrajnościami ostry wzrost (zwykle nazywany „łokciem”) wskazuje najlepsze ϵ.Na Rycinie 6A widać gwałtowny wzrost obszaru plateau (żółty, > 200 skupień), po którym następuje gwałtowny spadek (zielony, 100 skupień), do około 130, otoczony przez bardzo nieliczne skupiska (niebieski, <60 skupień) ).Na co najmniej 100 niebieskich obszarach albo jedno skupisko dominuje w całym oceanie (ϵ <0,42), albo większość oceanu nie jest sklasyfikowana i jest uważana za hałas (ϵ> 0,99).Obszar żółty charakteryzuje się bardzo zmiennym, nieodtwarzalnym rozkładem klastrów.Gdy ϵ maleje, szum wzrasta.Gwałtownie rosnący obszar zielony nazywany jest łokciem.To optymalny region.Chociaż stosuje się prawdopodobieństwo t-SNE, odmienność BC w obrębie prowincji nadal może być wykorzystana do określenia wiarygodnego grupowania.Korzystając z rysunku 6 (A i B), ustaw ϵ na 0,39.Im większa liczba minimalna, tym mniejsze prawdopodobieństwo osiągnięcia ϵ pozwalającego na wiarygodną klasyfikację i tym większy zielony obszar o wartości większej niż 135. Powiększenie tego obszaru oznacza, że łokieć będzie trudniejszy do znalezienia lub nie- istniejący.
Po ustawieniu parametrów t-SNE, całkowita liczba znalezionych klastrów zostanie wykorzystana jako miara łączności (A) i procent danych przydzielonych do klastra (B).Czerwona kropka wskazuje najlepszą kombinację zasięgu i łączności.Liczba minimalna ustalana jest zgodnie z liczbą minimalną związaną z ekologią.
Materiały dodatkowe do tego artykułu można znaleźć na stronie http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
To jest artykuł o otwartym dostępie, rozpowszechniany na warunkach licencji Creative Commons Uznanie autorstwa.Artykuł pozwala na nieograniczone wykorzystanie, dystrybucję i reprodukcję na dowolnym nośniku pod warunkiem prawidłowego cytowania oryginalnego dzieła.
Uwaga: Prosimy Cię jedynie o podanie adresu e-mail, aby osoba, którą polecisz stronie, wiedziała, że chcesz, aby zobaczyła wiadomość i że nie jest to spam.Nie będziemy przechwytywać żadnych adresów e-mail.
To pytanie służy do sprawdzenia, czy jesteś gościem i zapobiegania automatycznemu przesyłaniu spamu.
Globalne Ministerstwo Ekologii Morza jest zdeterminowane w rozwiązywaniu złożonych problemów i wykorzystuje ML bez nadzoru do badania struktur społecznych.
Globalne Ministerstwo Ekologii Morza jest zdeterminowane w rozwiązywaniu złożonych problemów i wykorzystuje ML bez nadzoru do badania struktur społecznych.

Czas publikacji: 12 stycznia 2021 r

Wyjaśnianie złożoności ekologicznej: uczenie się bez nadzoru określa globalną morską prowincję ekologiczną