Clarifying ecological complexity: unsupervised learning determines the global marine ecological province

Ang isang hindi pinangangasiwaang paraan ng pag-aaral ay iminungkahi upang matukoy ang mga pandaigdigang marine ecological province (eco-provinces) batay sa istruktura ng komunidad ng plankton at data ng nutrient flux.Ang sistematikong integrated ecological province (SAGE) na pamamaraan ay maaaring tumukoy ng mga ekolohikal na lalawigan sa napaka nonlinear na mga modelo ng ecosystem.Upang umangkop sa non-Gaussian covariance ng data, gumagamit ang SAGE ng t random neighbor embedding (t-SNE) upang bawasan ang dimensionality.Sa tulong ng noise application batay sa density-based spatial clustering (DBSCAN) algorithm, higit sa isang daang ekolohikal na probinsya ang makikilala.Gamit ang mapa ng pagkakakonekta na may mga pagkakaiba sa ekolohiya bilang sukatan ng distansya, ang isang matatag na pinagsama-samang lalawigang ekolohikal (AEP) ay layuning tinukoy sa pamamagitan ng mga nested ecological province.Gamit ang mga AEP, ang kontrol ng nutrient supply rate sa istruktura ng komunidad ay ginalugad.Ang Eco-province at AEP ay natatangi at maaaring makatulong sa modelong interpretasyon.Mapapadali nila ang mga paghahambing sa pagitan ng mga modelo at maaaring mapahusay ang pag-unawa at pagsubaybay sa mga marine ecosystem.
Ang mga lalawigan ay mga rehiyon kung saan ang kumplikadong biogeography sa dagat o lupa ay isinaayos sa magkakaugnay at makabuluhang mga lugar (1).Napakahalaga ng mga lalawigang ito para sa paghahambing at pag-iiba ng mga lokasyon, pagkilala sa mga obserbasyon, pagsubaybay at proteksyon.Ang mga kumplikado at hindi linear na pakikipag-ugnayan na gumagawa ng mga lalawigang ito ay gumagawa ng mga pamamaraan ng unsupervised machine learning (ML) na napaka-angkop para sa pagtukoy ng mga lalawigan nang walang saysay, dahil ang covariance sa data ay kumplikado at hindi Gaussian.Dito, iminungkahi ang isang paraan ng ML, na sistematikong tumutukoy sa mga natatanging marine ecological provinces (eco-provinces) mula sa Darwin global three-dimensional (3D) physical/ecosystem model (2).Ang terminong "natatangi" ay ginagamit upang ipahiwatig na ang natukoy na lugar ay hindi sapat na magkakapatong sa ibang mga lugar.Ang pamamaraang ito ay tinatawag na System Integrated Ecological Province (SAGE) na pamamaraan.Upang maisagawa ang kapaki-pakinabang na pag-uuri, kailangang payagan ng isang paraan ng algorithm ang (i) pandaigdigang pag-uuri at (ii) pagsusuri ng maraming sukat na maaaring ma-nest/pagsama-samahin sa espasyo at oras (3).Sa pananaliksik na ito, unang iminungkahi ang pamamaraan ng SAGE at tinalakay ang mga natukoy na ekolohikal na lalawigan.Maaaring isulong ng mga Eco-province ang pag-unawa sa mga salik na kumokontrol sa istruktura ng komunidad, magbigay ng mga kapaki-pakinabang na insight para sa mga diskarte sa pagsubaybay, at tumulong sa pagsubaybay sa mga pagbabago sa ecosystem.
Ang mga lalawigang terrestrial ay karaniwang inuuri ayon sa pagkakatulad sa klima (pag-ulan at temperatura), lupa, halaman, at fauna, at ginagamit para sa pantulong na pamamahala, pananaliksik sa biodiversity, at pagkontrol sa sakit (1, 4).Mas mahirap tukuyin ang mga probinsyang dagat.Karamihan sa mga organismo ay mikroskopiko, na may mga hangganan ng likido.Longhurst et al.(5) Nagbigay ng isa sa mga unang pandaigdigang klasipikasyon ng Ministry of Oceanography batay sa mga kondisyon sa kapaligiran.Kasama sa kahulugan ng mga lalawigang "Longhurst" na ito ang mga variable gaya ng mixing rate, stratification, at irradiance, pati na rin ang malawak na karanasan ni Longhurst bilang marine oceanographer, na may iba pang mahahalagang kondisyon para sa marine ecosystem.Malawakang ginamit ang Longhurst, halimbawa, upang masuri ang pangunahing produksyon at carbon flux, tumulong sa pangingisda, at magplano ng mga aktibidad sa pagmamasid sa lugar (5-9).Upang matukoy ang mga lalawigan nang mas obhetibo, ginamit ang mga pamamaraan tulad ng fuzzy logic at regional unsupervised clustering/statistics (9-14).Ang layunin ng mga ganitong pamamaraan ay tukuyin ang mga makabuluhang istruktura na maaaring matukoy ang mga lalawigan sa magagamit na datos ng obserbasyon.Halimbawa, ang mga dynamic na marine province (12) ay gumagamit ng mga mapa na self-organizing upang mabawasan ang ingay, at gumamit ng hierarchical (tree-based) clustering upang matukoy ang mga produktong kulay ng dagat na nagmula sa mga regional satellite [chlorophyll a (Chl-a), normalized Fluorescence line height at may kulay na dissolved organic matter] at pisikal na field (temperatura at kaasinan ng ibabaw ng dagat, absolute dynamic na topograpiya at sea ice).
Ang istruktura ng komunidad ng plankton ay nababahala dahil ang ekolohiya nito ay may malaking impluwensya sa mas mataas na antas ng sustansya, pagsipsip ng carbon at klima.Gayunpaman, isa pa rin itong mapaghamong at mailap na layunin upang matukoy ang isang pandaigdigang ekolohikal na lalawigan batay sa istruktura ng komunidad ng plankton.Ang mga satellite ng kulay ng dagat ay maaaring magbigay ng mga insight sa coarse-grained classification ng phytoplankton o nagmumungkahi ng mga pakinabang ng functional group (15), ngunit sa kasalukuyan ay hindi sila makapagbigay ng detalyadong impormasyon sa istruktura ng komunidad.Ang mga kamakailang survey [eg Tara Ocean (16)] ay nagbibigay ng mga hindi pa nagagawang sukat ng istruktura ng komunidad;sa kasalukuyan, mayroon lamang mga kalat-kalat na in-situ na obserbasyon sa isang pandaigdigang saklaw (17).Ang mga nakaraang pag-aaral ay higit na tinutukoy ang "Biogeochemical Province" (12, 14, 18) batay sa pagpapasiya ng biochemical na pagkakatulad (tulad ng pangunahing produksyon, Chl at magagamit na ilaw).Dito, ang numerical model ay ginagamit sa output [Darwin(2)], at ang ekolohikal na probinsya ay tinutukoy ayon sa istruktura ng komunidad at nutrient flux.Ang numerical model na ginamit sa pag-aaral na ito ay may pandaigdigang saklaw at maihahambing sa umiiral na field data (17) at remote sensing field (Tandaan S1).Ang data ng numerical model na ginamit sa pag-aaral na ito ay may bentahe ng global coverage.Ang modelong ecosystem ay binubuo ng 35 species ng phytoplankton at 16 na species ng zooplankton (mangyaring sumangguni sa mga materyales at pamamaraan).Ang mga uri ng modelong plankton ay nakikipag-ugnayan nang nonlinear sa mga non-Gaussian covariance na istruktura, kaya ang mga simpleng diagnostic na pamamaraan ay hindi angkop para sa pagtukoy ng natatangi at pare-parehong mga pattern sa mga umuusbong na istruktura ng komunidad.Ang pamamaraan ng SAGE na ipinakilala dito ay nagbibigay ng isang nobelang paraan upang suriin ang output ng mga kumplikadong modelo ng Darwin.
Ang makapangyarihang transformative na mga kakayahan ng data science/ML na teknolohiya ay maaaring magbigay-daan sa napakaraming kumplikadong mga solusyon sa modelo upang ipakita ang mga kumplikado ngunit matatag na istruktura sa data covariance.Ang isang matatag na paraan ay tinukoy bilang isang paraan na matapat na maaaring kopyahin ang mga resulta sa loob ng isang ibinigay na saklaw ng error.Kahit na sa mga simpleng system, maaaring maging isang hamon ang pagtukoy ng mga matatag na pattern at signal.Hanggang sa matukoy ang katwiran na humahantong sa naobserbahang pattern, ang lumalabas na pagiging kumplikado ay maaaring mukhang kumplikado/mahirap lutasin.Ang pangunahing proseso ng pagtatakda ng komposisyon ng ecosystem ay likas na nonlinear.Ang pagkakaroon ng mga non-linear na pakikipag-ugnayan ay maaaring malito ang matatag na pag-uuri, kaya kinakailangan upang maiwasan ang mga pamamaraan na gumagawa ng malakas na pagpapalagay tungkol sa pangunahing istatistikal na pamamahagi ng data covariance.Ang high-dimensional at nonlinear na data ay karaniwan sa oceanography at maaaring may covariance structure na may kumplikado, non-Gaussian topology.Bagama't ang data na may non-Gaussian covariance na istraktura ay maaaring hadlangan ang matatag na pag-uuri, ang pamamaraan ng SAGE ay nobela dahil ito ay idinisenyo upang makilala ang mga kumpol na may mga arbitrary na topologies.
Ang layunin ng pamamaraan ng SAGE ay upang matukoy ang mga umuusbong na pattern na maaaring makatulong sa karagdagang pag-unawa sa ekolohiya.Kasunod ng isang cluster-based na workflow na katulad ng (19), ang ecological at nutrient flux variable ay ginagamit upang matukoy ang tanging cluster sa data, na tinatawag na ecological province.Ang pamamaraan ng SAGE na iminungkahi sa pag-aaral na ito (Larawan 1) ay unang binabawasan ang dimensionality mula 55 hanggang 11 na dimensyon sa pamamagitan ng pagbubuod ng mga plankton functional group na tinukoy ng isang priori (tingnan ang Mga Materyal at Paraan).Gamit ang t-random neighbor embedding (t-SNE) na pamamaraan, ang laki ay higit pang nababawasan sa pamamagitan ng pag-project ng probabilidad sa 3D space.Maaaring matukoy ng unsupervised clustering ang mga ecologically close na lugar [density-based spatial clustering (DBSCAN) para sa noise-based na mga application].Parehong naaangkop ang t-SNE at DBSCAN sa inherent na non-linear na data ng numerical model ng ecosystem.Pagkatapos ay i-reproject ang resultang ecological province sa earth.Mahigit sa isang daang natatanging ekolohikal na lalawigan ang natukoy, na angkop para sa pananaliksik sa rehiyon.Upang isaalang-alang ang globally consistent na ecosystem model, ang SAGE method ay ginagamit para pagsama-samahin ang ecological provinces sa aggregated ecological provinces (AEP) para mapabuti ang pagiging epektibo ng ecological provinces.Ang antas ng pagsasama-sama (tinatawag na "kumplikado") ay maaaring iakma sa antas ng kinakailangang detalye.Tukuyin ang pinakamababang kumplikado ng isang matatag na AEP.Ang pokus ng pagpili ay ang pamamaraan ng SAGE at pagtuklas sa pinakamaliit na kumplikadong mga kaso ng AEP upang matukoy ang kontrol ng istruktura ng pang-emergency na komunidad.Ang mga pattern ay maaaring masuri upang magbigay ng mga ekolohikal na insight.Ang pamamaraang ipinakilala dito ay maaari ding gamitin para sa paghahambing ng modelo nang mas malawak, halimbawa, sa pamamagitan ng pagsusuri sa mga lokasyon ng magkatulad na mga probinsyang ekolohikal na matatagpuan sa iba't ibang mga modelo upang i-highlight ang mga pagkakaiba at pagkakatulad, upang maihambing ang mga modelo.
(A) Schematic diagram ng workflow para sa pagtukoy ng ekolohikal na lalawigan;gamit ang kabuuan sa functional group upang bawasan ang orihinal na 55-dimensional na data sa isang 11-dimensional na output ng modelo, kabilang ang biomass ng pitong functional/nutrient plankton at apat na nutrient supply rate.Hindi gaanong halaga at matibay na lugar ng takip ng yelo.Ang data ay na-standardize at na-standardize.Magbigay ng 11-dimensional na data sa t-SNE algorithm upang i-highlight ang mga kumbinasyon ng feature na katulad ng istatistika.Maingat na pipiliin ng DBSCAN ang cluster upang itakda ang halaga ng parameter.Sa wakas, i-project ang data pabalik sa latitude/longitude projection.Pakitandaan na ang prosesong ito ay inuulit ng 10 beses dahil ang isang bahagyang randomness ay maaaring mabuo sa pamamagitan ng paglalapat ng t-SNE.(B) nagpapaliwanag kung paano makuha ang AEP sa pamamagitan ng pag-uulit ng workflow sa (A) 10 beses.Para sa bawat isa sa 10 pagpapatupad na ito, ang inter-provincial Bray-Curtis (BC) dissimilarity matrix ay natukoy batay sa biomass ng 51 na uri ng phytoplankton.Tukuyin ang pagkakaiba ng BC sa pagitan ng mga lalawigan, mula sa pagiging kumplikado 1 AEP hanggang sa ganap na pagiging kumplikado 115. Ang benchmark ng BC ay itinakda ng Longhurst Province.
Ginagamit ng paraan ng SAGE ang output ng global 3D physical/ecosystem numerical model para tukuyin ang ekolohikal na lalawigan [Darwin (2);tingnan ang Mga Materyales at Paraan at Tandaan S1].Ang mga bahagi ng ecosystem ay binubuo ng 35 species ng phytoplankton at 16 na species ng zooplankton, na may pitong paunang natukoy na functional group: prokaryotes at eukaryotes na inangkop sa mga low-nutrient na kapaligiran, coccidia na may calcium carbonate coating, at heavy nitrogen fixation Nitrogen nutrients (karaniwang nawawala mahahalagang nutrients), na may siliceous covering, ay maaaring gumawa ng iba pang plankton photosynthesis at grazing mixed nutrient flagellates at zooplankton herders.Ang sukat ng span ay 0.6 hanggang 2500μm katumbas ng spherical diameter.Ang pamamahagi ng modelo ng laki ng phytoplankton at functional grouping ay nakukuha ang pangkalahatang katangian na nakikita sa satellite at in-situ na mga obserbasyon (tingnan ang Mga Figure S1 hanggang S3).Ang pagkakatulad sa pagitan ng numerical na modelo at ng naobserbahang karagatan ay nagpapahiwatig na ang mga lalawigang tinukoy ng modelo ay maaaring naaangkop sa in-situ na karagatan.Pakitandaan na ang modelong ito ay kumukuha lamang ng ilang partikular na pagkakaiba-iba ng phytoplankton, at ilang partikular na pisikal at kemikal na puwersang hanay ng in situ na karagatan.Ang pamamaraan ng SAGE ay maaaring magbigay-daan sa mga tao na mas maunawaan ang mataas na panrehiyong mekanismo ng kontrol ng modelong istruktura ng komunidad.
Sa pamamagitan lamang ng pagsasama ng kabuuan ng surface biomass (na may average na oras na 20 taon) sa bawat plankton functional group, ang dimensionality ng data ay maaaring mabawasan.Matapos ang mga naunang pag-aaral ay nagpakita ng kanilang pangunahing papel sa pagtatakda ng istruktura ng komunidad, kasama rin dito ang mga terminong pinagmumulan ng pang-ibabaw para sa mga nutrient flux (supply ng nitrogen, iron, phosphate at silicic acid) [eg (20, 21)].Ang pagsasama-sama ng mga functional na grupo ay binabawasan ang problema mula 55 (51 plankton at 4 na nutrient flux) hanggang 11 na dimensyon.Sa paunang pag-aaral na ito, dahil sa mga computational constraints na ipinataw ng algorithm, ang lalim at pagkakaiba-iba ng oras ay hindi isinasaalang-alang.
Natutukoy ng pamamaraan ng SAGE ang mahahalagang ugnayan sa pagitan ng mga nonlinear na proseso at mga pangunahing tampok ng mga pakikipag-ugnayan sa pagitan ng functional group biomass at nutrient flux.Ang paggamit ng 11-dimensional na data batay sa mga pamamaraan ng Euclidean distance learning (tulad ng K-means) ay hindi makakakuha ng maaasahan at maaaring kopyahin na mga lalawigan (19, 22).Ito ay dahil walang hugis Gaussian na matatagpuan sa pangunahing distribusyon ng covariance ng mga pangunahing elemento na tumutukoy sa ekolohikal na lalawigan.Ang K-means ng mga cell ng Voronoi (mga tuwid na linya) ay hindi maaaring mapanatili ang hindi Gaussian na pangunahing distribusyon.
Ang biomass ng pitong plankton functional group at apat na nutrient flux ay bumubuo ng 11-dimensional na vector x.Samakatuwid, ang x ay isang vector field sa model grid, kung saan ang bawat elemento xi ay kumakatawan sa isang 11-dimensional na vector na tinukoy sa horizontal grid ng modelo.Ang bawat index i ay natatanging kinikilala ang isang grid point sa globo, kung saan (lon, lat) = (ϕi, θi).Kung ang biomass ng model grid unit ay mas mababa sa 1.2×10-3mg Chl/m3 o ang rate ng saklaw ng yelo ay lumampas sa 70%, ang log ng biomass data ay ginagamit at itatapon.Ang data ay na-normalize at naka-standardize, kaya lahat ng data ay nasa hanay ng [0 hanggang 1], ang mean ay aalisin at ini-scale sa unit variance.Ginagawa ito upang ang mga tampok (biomass at nutrient flux) ay hindi limitado ng kaibahan sa hanay ng mga posibleng halaga.Dapat makuha ng clustering ang ugnayan ng pagbabago mula sa pangunahing probabilidad na distansya sa pagitan ng mga feature kaysa sa geographic na distansya.Sa pamamagitan ng pagsukat ng mga distansyang ito, lumalabas ang mahahalagang feature, habang itinatapon ang mga hindi kinakailangang detalye.Mula sa isang ekolohikal na pananaw, ito ay kinakailangan dahil ang ilang mga uri ng phytoplankton na may maliit na biomass ay maaaring magkaroon ng mas malaking biogeochemical effect, tulad ng nitrogen fixation ng diazotrophic bacteria.Kapag nag-standardize at nag-normalize ng data, ang mga ganitong uri ng covariates ay iha-highlight.
Sa pamamagitan ng pagbibigay-diin sa kalapitan ng mga feature sa high-dimensional na espasyo sa mababang-dimensional na representasyon, ginagamit ang t-SNE algorithm upang gawing mas malinaw ang mga kasalukuyang katulad na rehiyon.Ang nakaraang gawain na naglalayong bumuo ng malalim na mga neural network para sa mga remote sensing application ay ginamit ang t-SNE, na pinatunayan ang kakayahan nito sa paghihiwalay ng mga pangunahing tampok (23).Ito ay isang kinakailangang hakbang upang matukoy ang matatag na clustering sa data ng tampok habang iniiwasan ang mga hindi convergent na solusyon (tandaan S2).Gamit ang mga kernel ng Gaussian, pinapanatili ng t-SNE ang mga istatistikal na katangian ng data sa pamamagitan ng pagmamapa sa bawat high-dimensional na bagay sa isang punto sa 3D phase space, sa gayo'y tinitiyak na ang posibilidad ng magkatulad na mga bagay sa mataas at mababang direksyon ay mataas sa isang mataas na direksyon. dimensional na espasyo (24).Dahil sa isang set ng N high-dimensional na bagay x1,…,xN, ang t-SNE algorithm ay bumababa sa pamamagitan ng pagliit ng Kullback-Leibler (KL) divergence (25).Ang KL divergence ay isang sukatan kung gaano kaiba ang isang probability distribution mula sa isang pangalawang reference na probability distribution, at maaaring epektibong suriin ang posibilidad ng ugnayan sa pagitan ng mga mababang-dimensional na representasyon ng mga high-dimensional na feature.Kung ang xi ay ang i-th object sa N-dimensional space, ang xj ay ang j-th object sa N-dimensional space, yi ang i-th object sa low-dimensional space, at ang yj ay ang j-th object sa low -dimensional na espasyo, pagkatapos t -SNE ay tumutukoy sa posibilidad ng pagkakatulad ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), at para sa set ng pagbawas ng dimensional q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Ang Figure 2A ay naglalarawan ng epekto ng pagbabawas ng biomass at nutrient flux vectors ng 11-dimensional na kumbinasyon sa 3D.Ang motibasyon ng paglalapat ng t-SNE ay maihahambing sa motibasyon ng principal component analysis (PCA), na gumagamit ng variance attribute upang bigyang-diin ang area/attribute ng data, at sa gayon ay binabawasan ang dimensionality.Ang pamamaraang t-SNE ay napag-alaman na higit na nakahihigit sa PCA sa pagbibigay ng maaasahan at maaaring kopyahin na mga resulta para sa Eco-Ministry (tingnan ang Tala S2).Ito ay maaaring dahil ang orthogonality assumption ng PCA ay hindi angkop para sa pagtukoy ng mga kritikal na pakikipag-ugnayan sa pagitan ng mataas na nonlinear na interactive na mga tampok, dahil nakatutok ang PCA sa mga linear covariance na istruktura (26).Gamit ang remote sensing data, Lunga et al.(27) ay naglalarawan kung paano gamitin ang pamamaraan ng SNE upang i-highlight ang kumplikado at hindi linear na spectral na mga tampok na lumihis mula sa pamamahagi ng Gaussian.
(A) Isang modelong nutrient supply rate, phytoplankton at zooplankton functional group biomass na iginuhit ng t-SNE algorithm at kinulayan ng probinsya gamit ang DBSCAN.Ang bawat punto ay kumakatawan sa isang punto sa high-dimensional na espasyo, tulad ng ipinapakita sa Figure 6B, karamihan sa mga puntos ay nakuha.Ang mga shaft ay tumutukoy sa "t-SNE" na sukat 1, 2 at 3. (B) Ang geographic na projection ng lalawigan na natagpuan ng DBSCAN sa latitude-longitude grid ng pinagmulan.Ang kulay ay dapat ituring bilang anumang kulay, ngunit dapat tumutugma sa (A).
Ang mga punto sa t-SNE scatter plot sa Figure 2A ay ayon sa pagkakabanggit ay nauugnay sa latitude at longitude.Kung ang dalawang punto sa Figure 2A ay malapit sa isa't isa, ito ay dahil ang kanilang biomass at nutrient flux ay magkatulad, hindi dahil sa geographic proximity.Ang mga kulay sa Figure 2A ay mga kumpol na natuklasan gamit ang paraan ng DBSCAN (28).Kapag naghahanap ng mga siksik na obserbasyon, ginagamit ng DBSCAN algorithm ang distansya sa 3D na representasyon sa pagitan ng mga punto (ϵ = 0.39; para sa impormasyon tungkol sa pagpipiliang ito, tingnan ang Mga Materyales at Paraan), at ang bilang ng mga katulad na puntos ay kinakailangan upang tukuyin ang kumpol (dito 100 puntos, mangyaring tingnan sa itaas).Ang pamamaraan ng DBSCAN ay hindi gumagawa ng anumang mga pagpapalagay tungkol sa hugis o bilang ng mga kumpol sa data, tulad ng ipinapakita sa ibaba:
3) Para sa lahat ng puntong natukoy na nasa loob ng distansya sa loob, ulitin ang hakbang 2 nang paulit-ulit upang matukoy ang hangganan ng cluster.Kung ang bilang ng mga puntos ay mas malaki kaysa sa itinakdang minimum na halaga, ito ay itinalaga bilang isang kumpol.
Ang data na hindi nakakatugon sa minimum na miyembro ng cluster at sukatan ng distansya ϵ ay itinuturing na "ingay" at hindi binibigyan ng kulay.Ang DBSCAN ay isang mabilis at nasusukat na algorithm na may O(n2) na pagganap sa pinakamasamang kaso.Para sa kasalukuyang pagsusuri, hindi talaga ito random.Ang pinakamababang bilang ng mga puntos ay tinutukoy ng pagsusuri ng eksperto.Pagkatapos ayusin ang distansya pagkatapos, ang resulta ay hindi sapat na matatag sa hanay na ≈±10.Itinakda ang distansyang ito gamit ang pagkakakonekta (Larawan 6A) at porsyento ng saklaw ng karagatan (Larawan 6B).Ang pagkakakonekta ay tinukoy bilang ang pinagsama-samang bilang ng mga kumpol at sensitibo sa ϵ parameter.Ang mababang koneksyon ay nagpapahiwatig ng hindi sapat na angkop, artipisyal na pagsasama-sama ng mga rehiyon.Ang mataas na koneksyon ay nagpapahiwatig ng overfitting.Ito ay naiisip na gumamit ng mas mataas na minimum, ngunit kung ang minimum ay lumampas sa ca, imposibleng makamit ang isang maaasahang solusyon.135 (Para sa higit pang mga detalye, tingnan ang Mga Materyales at Paraan).
Ang 115 na kumpol na natukoy sa Figure 2A ay inaasahang pabalik sa lupa sa Figure 2B.Ang bawat kulay ay tumutugma sa isang magkakaugnay na kumbinasyon ng biogeochemical at ecological na mga kadahilanan na kinilala ng DBSCAN.Kapag natukoy na ang mga cluster, ang pagkakaugnay ng bawat punto sa Figure 2A na may partikular na latitude at longitude ay ginagamit upang i-project ang mga cluster pabalik sa geographic na lugar.Ang Figure 2B ay naglalarawan nito sa parehong mga kulay ng cluster gaya ng Figure 2A.Ang mga magkatulad na kulay ay hindi dapat bigyang-kahulugan bilang ekolohikal na pagkakatulad, dahil itinalaga ang mga ito ayon sa pagkakasunud-sunod kung saan ang mga kumpol ay natuklasan ng algorithm.
Ang lugar sa Figure 2B ay maaaring maging qualitatively katulad sa isang naitatag na lugar sa pisikal at/o biogeochemistry ng karagatan.Halimbawa, ang mga kumpol sa Southern Ocean ay zone-symmetrical, na may mga oligotrophic vortices na lumilitaw, at ang matalim na paglipat ay nagpapahiwatig ng impluwensya ng trade winds.Halimbawa, sa equatorial Pacific, makikita ang iba't ibang rehiyon na nauugnay sa pagtaas.
Upang maunawaan ang ekolohikal na kapaligiran ng Eco-Province, ginamit ang isang variation ng Bray-Curtis (BC) difference index (29) upang suriin ang ekolohiya sa cluster.Ang tagapagpahiwatig ng BC ay isang istatistikal na data na ginagamit upang mabilang ang pagkakaiba sa istruktura ng komunidad sa pagitan ng dalawang magkaibang mga site.Ang pagsukat ng BC ay naaangkop sa biomass ng 51 species ng phytoplankton at zooplankton BCninj = 1-2CninjSni + Snj
Ang BCninj ay tumutukoy sa pagkakapareho sa pagitan ng kumbinasyon ni at kumbinasyon ng nj, kung saan ang Cninj ay ang pinakamababang halaga ng isang solong uri ng biomass na umiiral sa parehong kumbinasyon ni at nj, at ang Sni ay kumakatawan sa kabuuan ng lahat ng biomass na umiiral sa parehong kumbinasyon ni at Snj.Ang pagkakaiba ng BC ay katulad ng sukatan ng distansya, ngunit gumagana sa espasyong hindi Euclidean, na malamang na mas angkop para sa data ng ekolohiya at interpretasyon nito.
Para sa bawat kumpol na natukoy sa Figure 2B, maaaring masuri ang pagkakatulad ng intra-provincial at inter-provincial BC.Ang pagkakaiba ng BC sa loob ng isang lalawigan ay tumutukoy sa pagkakaiba sa pagitan ng average na halaga ng lalawigan at bawat punto sa lalawigan.Ang pagkakaiba sa pagitan ng mga lalawigan ng BC ay tumutukoy sa pagkakatulad sa pagitan ng isang lalawigan at iba pang mga lalawigan.Ipinapakita ng Figure 3A ang isang simetriko BC matrix (0, itim: ganap na katumbas; 1, puti: ganap na hindi magkatulad).Ang bawat linya sa graph ay nagpapakita ng pattern sa data.Ipinapakita ng Figure 3B ang heyograpikong kahalagahan ng mga resulta ng BC sa Figure 3A para sa bawat lalawigan.Para sa isang lalawigan sa isang lugar na mababa ang nutrisyon at mababa ang sustansya, ipinapakita ng Figure 3B na ang simetrya ng malalaking lugar sa paligid ng ekwador at ng Indian Ocean ay karaniwang magkatulad, ngunit ang mas matataas na latitude at upwelling na mga lugar ay makabuluhang naiiba.
(A) Ang antas ng pagkakaiba ng BC na sinusuri para sa bawat lalawigan batay sa pandaigdigang 20-taong average na global surface average ng 51 plankton.Tandaan ang inaasahang simetrya ng mga halaga.(B) Ang spatial na projection ng isang column (o row).Para sa isang lalawigan sa isang dystrophic na bilog, ang pandaigdigang pamamahagi ng sukat ng pagkakatulad ng BC ay nasuri, at ang pandaigdigang 20-taong average ay nasuri.Ang itim (BC = 0) ay nangangahulugang iisang lugar, at ang puti (BC = 1) ay nangangahulugang walang pagkakatulad.
Ang Figure 4A ay naglalarawan ng pagkakaiba sa BC sa loob ng bawat lalawigan sa Figure 2B.Natukoy sa pamamagitan ng paggamit ng average na kumbinasyon ng average na lugar sa isang cluster, at pagtukoy ng pagkakaiba sa pagitan ng BC at ang mean ng bawat grid point sa lalawigan, ipinapakita nito na ang pamamaraan ng SAGE ay mahusay na makapaghihiwalay ng 51 species batay sa ekolohikal na pagkakatulad Uri ng data ng modelo.Ang pangkalahatang average na cluster BC dissimilarity ng lahat ng 51 na uri ay 0.102±0.0049.
(A, B, at D) Ang pagkakaiba ng BC sa loob ng lalawigan ay sinusuri bilang ang average na pagkakaiba ng BC sa pagitan ng bawat komunidad ng grid point at ng karaniwang lalawigan, at hindi nababawasan ang pagiging kumplikado.(2) Ang pandaigdigang average na intra-provincial BC na pagkakaiba ay 0.227±0.117.Ito ang benchmark ng ecological motivation-based classification na iminungkahi ng gawaing ito [berdeng linya sa (C)].(C) Average na intra-provincial BC na pagkakaiba: Ang itim na linya ay kumakatawan sa intra-provincial BC na pagkakaiba na may pagtaas ng pagiging kumplikado.Ang 2σ ay mula sa 10 pag-uulit ng proseso ng pagkilala sa eco-province.Para sa kabuuang kumplikado ng mga lalawigang natuklasan ng DBSCAN, (A) ay nagpapakita na ang BC dissimilarity sa lalawigan ay 0.099, at ang complexity classification na iminungkahi ng (C) ay 12, na nagreresulta sa isang BC dissimilarity na 0.200 sa lalawigan.gaya ng ipinapakita ng larawan.(D).
Sa Figure 4B, ang biomass ng 51 na uri ng plankton ay ginagamit upang kumatawan sa katumbas na pagkakaiba ng BC sa lalawigan ng Longhurst.Ang kabuuang average ng bawat probinsya ay 0.227, at ang standard deviation ng mga grid point na may reference sa pagkakaiba sa BC province ay 0.046.Ito ay mas malaki kaysa sa kumpol na natukoy sa Figure 1B.Sa halip, gamit ang kabuuan ng pitong functional group, ang average na intra-season BC dissimilarity sa Longhurst ay tumaas sa 0.232.
Ang pandaigdigang eco-province na mapa ay nagbibigay ng masalimuot na mga detalye ng mga natatanging ekolohikal na pakikipag-ugnayan at mga pagpapahusay na ginawa sa paggamit ng buong ecosystem structure ng Longhurst Province.Ang Ministry of Ecology ay inaasahang magbibigay ng insight sa proseso ng pagkontrol sa numerical model ecosystem, at ang insight na ito ay makakatulong sa pag-explore ng field work.Para sa layunin ng pananaliksik na ito, hindi posible na ganap na maipakita ang higit sa isang daang lalawigan.Ang susunod na seksyon ay nagpapakilala sa pamamaraan ng SAGE na nagbubuod sa mga lalawigan.
Isa sa mga layunin ng lalawigan ay isulong ang pag-unawa sa lokasyon at pamamahala ng lalawigan.Upang matukoy ang mga sitwasyong pang-emerhensiya, ang pamamaraan sa Figure 1B ay naglalarawan ng pagpupugad ng mga probinsya na magkatulad sa ekolohiya.Ang mga eko-probinsya ay pinagsama-sama batay sa ekolohikal na pagkakatulad, at ang naturang pagpapangkat ng mga lalawigan ay tinatawag na AEP.Magtakda ng adjustable na "complexity" batay sa kabuuang bilang ng mga lalawigan na isasaalang-alang.Ang terminong "kumplikado" ay ginagamit dahil pinapayagan nito ang antas ng mga katangiang pang-emergency na maisaayos.Upang matukoy ang mga makabuluhang pagsasama-sama, ang average na intra-provincial BC na pagkakaiba na 0.227 mula sa Longhurst ay ginagamit bilang benchmark.Sa ibaba ng benchmark na ito, ang pinagsamang mga lalawigan ay hindi na itinuturing na kapaki-pakinabang.
Tulad ng ipinapakita sa Figure 3B, ang mga pandaigdigang ekolohikal na lalawigan ay magkakaugnay.Gamit ang mga pagkakaiba ng inter-provincial BC, makikita na ang ilang mga pagsasaayos ay napaka-"karaniwan".Dahil sa inspirasyon ng genetika at mga pamamaraan ng teorya ng graph, ang "mga konektadong graph" ay ginagamit upang pagbukud-bukurin ang>100 mga lalawigan batay sa mga lalawigang pinakakatulad sa kanila.Ang sukatan ng "pagkakakonekta" dito ay tinutukoy gamit ang inter-provincial BC dissimilarity (30).Ang bilang ng mga lalawigan na may mas malaking espasyo para sa pag-uuri ng> 100 mga lalawigan ay maaaring tukuyin dito bilang pagiging kumplikado.Ang AEP ay isang produkto na kinategorya ang higit sa 100 mga lalawigan bilang ang pinaka nangingibabaw/pinakamalapit na mga ekolohikal na lalawigan.Ang bawat ekolohikal na lalawigan ay itinalaga sa nangingibabaw/mataas na konektadong ekolohikal na lalawigan na pinakakatulad sa kanila.Ang pagsasama-samang ito na tinutukoy ng pagkakaiba ng BC ay nagbibigay-daan sa isang nested na diskarte sa pandaigdigang ekolohiya.
Ang napiling pagiging kumplikado ay maaaring maging anumang halaga mula 1 hanggang sa kumpletong kumplikado ng FIG.2A.Sa mas mababang kumplikado, maaaring bumagsak ang AEP dahil sa probabilistic dimensionality reduction step (t-SNE).Ang degeneracy ay nangangahulugan na ang mga ekolohikal na probinsya ay maaaring italaga sa iba't ibang AEP sa pagitan ng mga pag-ulit, sa gayon ay binabago ang heyograpikong lugar na sakop.Ang Figure 4C ay naglalarawan ng pagkalat ng BC dissimilarities sa loob ng mga probinsya sa AEPs ng pagtaas ng pagiging kumplikado sa 10 pagpapatupad (ilustrasyon sa Figure 1B).Sa Figure 4C, ang 2σ (asul na lugar) ay isang sukatan ng pagkasira sa 10 pagpapatupad, at ang berdeng linya ay kumakatawan sa Longhurst benchmark.Napatunayan ng mga katotohanan na ang pagiging kumplikado ng 12 ay maaaring panatilihin ang pagkakaiba ng BC sa lalawigan sa ibaba ng benchmark ng Longhurst sa lahat ng mga pagpapatupad at mapanatili ang isang medyo maliit na 2σ degradation.Sa buod, ang pinakamababang inirerekomendang kumplikado ay 12 AEP, at ang average na intra-province BC na pagkakaiba na sinusuri gamit ang 51 na uri ng plankton ay 0.198±0.013, tulad ng ipinapakita sa Figure 4D.Gamit ang kabuuan ng pitong plankton functional group, ang average na pagkakaiba ng BC sa loob ng lalawigan ay 2σ sa halip na 0.198±0.004.Ang paghahambing sa pagitan ng mga pagkakaiba ng BC na kinakalkula sa kabuuang biomass ng pitong functional na grupo o ang biomass ng lahat ng 51 na uri ng plankton ay nagpapakita na kahit na ang pamamaraan ng SAGE ay naaangkop sa 51-dimensional na sitwasyon, ito ay para sa kabuuang biomass ng pitong functional na grupo. Para sa pagsasanay.
Depende sa layunin ng anumang pananaliksik, maaaring isaalang-alang ang iba't ibang antas ng pagiging kumplikado.Maaaring mangailangan ng ganap na kumplikado ang mga pag-aaral sa rehiyon (ibig sabihin, lahat ng 115 probinsya).Bilang isang halimbawa at para sa kalinawan, isaalang-alang ang minimum na inirerekomendang kumplikado ng 12.
Bilang isang halimbawa ng utility ng pamamaraan ng SAGE, 12 AEP na may pinakamababang kumplikadong 12 ang ginagamit dito upang tuklasin ang kontrol ng istruktura ng pang-emergency na komunidad.Ang Figure 5 ay naglalarawan ng mga ekolohikal na insight na naka-grupo ayon sa AEP (mula A hanggang L): Sa Redfield stoichiometry, geographic na lawak (Larawan 5C), functional group biomass composition (Larawan 5A) at nutrient supply (Figure 5B) ay ginagampanan ng N Zoomed.Ang ratio (N:Si:P:Fe, 1:1:16:16×103) ay ipinapakita.Para sa huling panel, ang P pinarami ng 16 at ang Fe na pinarami ng 16×103, kaya ang bar graph ay katumbas ng mga nutritional na kinakailangan ng phytoplankton.
Ang mga lalawigan ay inuri sa 12 AEPs A hanggang L. (A) Biomass (mgC/m3) ng mga ecosystem sa 12 lalawigan.(B) Ang nutrient flux rate ng dissolved inorganic nitrogen (N), iron (Fe), phosphate (P) at silicic acid (Si) (mmol/m3 bawat taon).Ang Fe at P ay pinarami ng 16 at 16×103, ayon sa pagkakabanggit, upang ang mga strip ay na-standardize sa mga kinakailangan ng phytoplankton stoichiometry.(C) Pansinin ang pagkakaiba sa pagitan ng mga polar region, subtropical cyclone at major seasonal/rising region.Ang mga istasyon ng pagsubaybay ay minarkahan ng mga sumusunod: 1, SEATS;2, ALOHA;3, istasyon P;at 4, BATS.
Ang natukoy na AEP ay natatangi.Mayroong ilang simetrya sa paligid ng ekwador sa Karagatang Atlantiko at Pasipiko, at may katulad ngunit pinalaki na lugar sa Karagatang Indian.Ang ilang mga AEP ay yumakap sa kanlurang bahagi ng kontinente na nauugnay sa pag-akyat.Ang South Pole Circumpolar Current ay itinuturing na isang malaking zonal feature.Ang subtropical cyclone ay isang kumplikadong serye ng oligotrophic AEP.Sa mga lalawigang ito, kitang-kita ang pamilyar na pattern ng mga pagkakaiba ng biomass sa pagitan ng mga plankton-dominated oligotrophic vortices at diatom-rich polar regions.
Ang mga AEP na may napakahawig na kabuuang phytoplankton biomass ay maaaring magkaroon ng ibang-iba na istruktura ng komunidad at sumasaklaw sa iba't ibang heyograpikong lugar, gaya ng D, H, at K, na may magkatulad na kabuuang phytoplankton biomass.Ang AEP H ay pangunahing umiiral sa ekwador na Indian Ocean, at mayroong higit pang diazotrophic bacteria.Ang AEP D ay matatagpuan sa ilang mga basin, ngunit ito ay partikular na kitang-kita sa Pasipiko sa paligid ng mga lugar na may mataas na ani sa paligid ng equatorial upwelling.Ang hugis ng lalawigang ito sa Pasipiko ay nakapagpapaalaala sa isang planetary wave train.Mayroong ilang mga diazobacteria sa AEP D, at higit pang mga cone.Kung ikukumpara sa iba pang dalawang probinsya, ang AEP K ay matatagpuan lamang sa kabundukan ng Arctic Ocean, at mayroong mas maraming diatom at mas kaunting plankton.Kapansin-pansin na ang dami ng plankton sa tatlong rehiyong ito ay ibang-iba rin.Kabilang sa mga ito, ang kasaganaan ng plankton ng AEP K ay medyo mababa, habang ang sa AEP D at H ay medyo mataas.Samakatuwid, sa kabila ng kanilang biomass (at samakatuwid ay katulad ng Chl-a), ang mga lalawigang ito ay medyo naiiba: Maaaring hindi makuha ng pagsubok sa lalawigan na nakabase sa Chl ang mga pagkakaibang ito.
Malinaw din na ang ilang AEP na may ibang-ibang biomass ay maaaring magkapareho sa mga tuntunin ng istruktura ng komunidad ng phytoplankton.Halimbawa, makikita ito sa AEP D at E. Malapit sila sa isa't isa, at sa Karagatang Pasipiko, malapit ang AEP E sa lubos na produktibong AEPJ.Katulad nito, walang malinaw na ugnayan sa pagitan ng biomass ng phytoplankton at kasaganaan ng zooplankton.
Ang AEP ay mauunawaan sa mga tuntunin ng mga sustansyang ibinibigay sa kanila (Larawan 5B).Umiiral lamang ang mga diatom kung saan mayroong sapat na supply ng silicic acid.Sa pangkalahatan, mas mataas ang supply ng silicic acid, mas mataas ang biomass ng diatoms.Ang mga diatom ay makikita sa AEP A, J, K at L. Ang ratio ng diatom biomass na may kaugnayan sa iba pang phytoplankton ay tinutukoy ng N, P at Fe na ibinigay kaugnay sa demand ng diatom.Halimbawa, ang AEP L ay pinangungunahan ng mga diatom.Kung ikukumpara sa iba pang nutrients, ang Si ang may pinakamataas na supply.Sa kabaligtaran, sa kabila ng mas mataas na produktibo, ang AEP J ay may mas kaunting mga diatom at mas kaunting supply ng silikon (lahat at nauugnay sa iba pang mga sustansya).
Ang diazonium bacteria ay may kakayahang ayusin ang nitrogen, ngunit dahan-dahang lumalaki (31).Nabubuhay sila kasama ng iba pang phytoplankton, kung saan ang iron at phosphorus ay labis na may kaugnayan sa pangangailangan para sa mga non-diazonium nutrients (20, 21).Kapansin-pansin na ang diazotrophic biomass ay medyo mataas, at ang supply ng Fe at P ay medyo malaki kaugnay sa supply ng N. Sa ganitong paraan, kahit na ang kabuuang biomass sa AEP J ay mas mataas, ang diazonium biomass sa AEP H ay mas malaki kaysa doon sa J. Pakitandaan na ang AEP J at H ay ibang-iba sa heograpiya, at ang H ay matatagpuan sa equatorial Indian Ocean.
Kung ang natatanging istruktura ng ecosystem ay hindi nahahati sa mga probinsya, ang mga insight na nakuha mula sa pinakamababang kumplikadong modelo ng 12 AEP ay hindi magiging malinaw.Ang AEP na nabuo ng SAGE ay nagpapadali sa magkakaugnay at sabay na paghahambing ng kumplikado at mataas na dimensyon na impormasyon mula sa mga modelo ng ecosystem.Epektibong binibigyang-diin ng AEP kung bakit ang Chl ay hindi isang mahusay at alternatibong paraan upang matukoy ang istruktura ng komunidad o kasaganaan ng zooplankton sa mas mataas na antas ng nutrient.Ang isang detalyadong pagsusuri ng mga patuloy na paksa ng pananaliksik ay lampas sa saklaw ng artikulong ito.Ang pamamaraan ng SAGE ay nagbibigay ng isang paraan upang galugarin ang iba pang mga mekanismo sa modelo na mas madaling hawakan kaysa sa point-to-point na pagtingin.
Ang pamamaraan ng SAGE ay iminungkahi upang makatulong na linawin ang napakasalimuot na data ng ekolohiya mula sa mga global na pisikal/biogeochemical/ecosystem na mga numerical na modelo.Ang ekolohikal na lalawigan ay tinutukoy ng kabuuang biomass ng cross-plankton functional group, ang aplikasyon ng t-SNE probability dimensionality reduction algorithm at ang clustering gamit ang unsupervised ML method na DBSCAN.Ang inter-provincial BC difference/graph theory para sa nesting method ay inilapat upang makakuha ng matatag na AEP na magagamit para sa pandaigdigang interpretasyon.Sa mga tuntunin ng konstruksyon, ang Eco-Province at AEP ay kakaiba.Ang AEP nesting ay maaaring isaayos sa pagitan ng buong kumplikado ng orihinal na ekolohikal na lalawigan at ang inirerekomendang minimum na threshold ng 12 AEP.Ang pagpupugad at pagtukoy sa minimum na pagiging kumplikado ng AEP ay itinuturing na mga pangunahing hakbang, dahil ang posibilidad na t-SNE ay nagpapababa ng mga AEP na <12 na kumplikado.Ang pamamaraan ng SAGE ay pandaigdigan, at ang pagiging kumplikado nito ay mula sa> 100 AEP hanggang 12. Para sa pagiging simple, ang kasalukuyang nakatuon ay sa pagiging kumplikado ng 12 pandaigdigang AEP.Ang pananaliksik sa hinaharap, lalo na ang mga pag-aaral sa rehiyon, ay maaaring makakita ng mas maliit na spatial na subset ng mga pandaigdigang eco-province na kapaki-pakinabang, at maaaring pagsama-samahin sa isang mas maliit na lugar upang samantalahin ang parehong mga ekolohikal na insight na tinalakay dito.Nagbibigay ito ng mga mungkahi kung paano magagamit ang mga ekolohikal na lalawigang ito at ang mga insight na nakuha mula sa mga ito para sa karagdagang ekolohikal na pag-unawa, mapadali ang paghahambing ng modelo, at potensyal na mapabuti ang pagsubaybay sa mga marine ecosystem.
Ang ekolohikal na lalawigan at AEP na kinilala ng pamamaraang SAGE ay batay sa data sa numerical model.Sa pamamagitan ng kahulugan, ang numerical na modelo ay isang pinasimpleng istraktura, sinusubukang makuha ang kakanyahan ng target na sistema, at ang iba't ibang mga modelo ay magkakaroon ng iba't ibang pamamahagi ng plankton.Ang numerical na modelo na ginamit sa pag-aaral na ito ay hindi maaaring ganap na makuha ang ilan sa mga naobserbahang pattern (halimbawa, sa mga pagtatantya ng Chl para sa rehiyon ng ekwador at Katimugang Karagatan).Maliit na bahagi lamang ng pagkakaiba-iba sa totoong karagatan ang nakukuha, at hindi malulutas ang meso at sub-mesoscales, na maaaring makaapekto sa nutrient flux at mas maliit na istruktura ng komunidad.Sa kabila ng mga pagkukulang na ito, lumalabas na ang AEP ay lubhang kapaki-pakinabang sa pagtulong na maunawaan ang mga kumplikadong modelo.Sa pamamagitan ng pagsusuri kung saan matatagpuan ang mga katulad na ekolohikal na probinsya, nagbibigay ang AEP ng potensyal na tool sa paghahambing ng numerical model.Kinukuha ng kasalukuyang numerical model ang pangkalahatang pattern ng remote sensing phytoplankton Chl-a na konsentrasyon at ang pamamahagi ng laki ng plankton at functional group (Tandaan S1 at Figure S1) (2, 32).
Tulad ng ipinapakita ng 0.1 mgChl-a/m-3 contour line, nahahati ang AEP sa oligotrophic area at mesotrophic area (Figure S1B): Ang AEP B, C, D, E, F at G ay mga oligotrophic na lugar, at ang natitirang mga lugar ay matatagpuan ang Higher Chl-a.Ang AEP ay nagpapakita ng ilang sulat sa Longhurst Province (Figure S3A), halimbawa, ang Southern Ocean at ang equatorial Pacific.Sa ilang rehiyon, saklaw ng AEP ang maraming rehiyon ng Longhurst, at kabaliktaran.Dahil magkaiba ang intensyon ng paglilimita ng mga lalawigan sa lugar na ito at Longhurst, inaasahang magkakaroon ng mga pagkakaiba.Ang maraming AEP sa isang lalawigan ng Longhurst ay nagpapahiwatig na ang ilang mga lugar na may katulad na biogeochemistry ay maaaring may ibang-iba na mga istruktura ng ecosystem.Ang AEP ay nagpapakita ng isang partikular na pakikipag-ugnayan sa mga pisikal na estado, tulad ng ipinahayag gamit ang hindi pinangangasiwaang pag-aaral (19), tulad ng sa mataas na mga estado ng upwelling (halimbawa, ang Southern Ocean at ang equatorial Pacific; Figure S3, C at D).Ang mga sulat na ito ay nagpapahiwatig na ang istraktura ng komunidad ng plankton ay malakas na naiimpluwensyahan ng dinamika ng karagatan.Sa mga lugar tulad ng North Atlantic, binabagtas ng AEP ang mga pisikal na probinsya.Ang mekanismo na nagdudulot ng mga pagkakaibang ito ay maaaring kabilang ang mga proseso tulad ng pagdadala ng alikabok, na maaaring humantong sa ganap na magkakaibang mga nutritional program kahit na sa ilalim ng mga katulad na pisikal na kondisyon.
Itinuro ng Ministri ng Ekolohiya at AEP na ang paggamit lamang ng Chl ay hindi matukoy ang mga bahagi ng ekolohiya, gaya ng natanto na ng komunidad ng ekolohiya sa dagat.Ito ay makikita sa mga AEP na may katulad na biomass ngunit makabuluhang magkaibang ekolohikal na komposisyon (tulad ng D at E).Sa kabaligtaran, ang mga AEP tulad ng D at K ay may ibang-iba na biomass ngunit magkatulad na komposisyon ng ekolohiya.Binibigyang-diin ng AEP na ang ugnayan sa pagitan ng biomass, ekolohikal na komposisyon at kasaganaan ng zooplankton ay kumplikado.Halimbawa, kahit na ang AEP J ay namumukod-tangi sa mga tuntunin ng phytoplankton at plankton biomass, ang AEP's A at L ay may magkatulad na plankton biomass, ngunit ang A ay may mas mataas na plankton abundance.Binibigyang-diin ng AEP na ang phytoplankton biomass (o Chl) ay hindi maaaring gamitin upang mahulaan ang zooplankton biomass.Ang zooplankton ay ang pundasyon ng fishery food chain, at ang mas tumpak na mga pagtatantya ay maaaring humantong sa mas mahusay na pamamahala ng mapagkukunan.Ang mga hinaharap na marine color satellite [halimbawa, PACE (plankton, aerosol, cloud, at marine ecosystem)] ay maaaring mas mahusay na nakaposisyon upang makatulong sa pagtatantya ng istruktura ng komunidad ng phytoplankton.Ang paggamit ng hula sa AEP ay maaaring potensyal na mapadali ang pagtatantya ng zooplankton mula sa kalawakan.Ang mga pamamaraan tulad ng SAGE, kasama ng mga bagong teknolohiya, at higit pang field data na available para sa ground truth survey (gaya ng Tara at follow-up na pananaliksik), ay maaaring magkasabay na gumawa ng hakbang patungo sa satellite-based na pagsubaybay sa kalusugan ng ecosystem.
Ang pamamaraan ng SAGE ay nagbibigay ng isang maginhawang paraan upang suriin ang ilang mga mekanismo na kumokontrol sa mga katangian ng lalawigan, tulad ng biomass/Chl, netong pangunahing produksyon, at istruktura ng komunidad.Halimbawa, ang relatibong dami ng mga diatom ay itinatakda ng isang imbalance sa supply ng Si, N, P, at Fe na nauugnay sa mga kinakailangan sa stoichiometric ng phytoplankton.Sa balanseng supply rate, ang komunidad ay pinangungunahan ng mga diatoms (L).Kapag ang supply rate ay hindi balanse (iyon ay, ang supply ng silicon ay mas mababa kaysa sa nutrient demand ng diatoms), diatoms account para lamang sa isang maliit na bahagi Share (K).Kapag ang supply ng Fe at P ay lumampas sa supply ng N (halimbawa, E at H), ang diazotrophic bacteria ay lalago nang masigla.Sa pamamagitan ng kontekstong ibinigay ng AEP, ang paggalugad ng mga mekanismo ng kontrol ay magiging mas kapaki-pakinabang.
Ang Eco-Province at AEP ay mga lugar na may katulad na istruktura ng komunidad.Ang serye ng oras mula sa isang partikular na lokasyon sa loob ng isang ekolohikal na lalawigan o AEP ay maaaring ituring bilang isang reference point at maaaring kumatawan sa lugar na sakop ng ekolohikal na lalawigan o AEP.Ang mga pangmatagalang on-site monitoring station ay nagbibigay ng ganitong serye ng oras.Ang mga pangmatagalang in-situ na set ng data ay patuloy na gaganap ng isang hindi makalkulang papel.Mula sa pananaw ng pagsubaybay sa istruktura ng komunidad, ang pamamaraan ng SAGE ay makikita bilang isang paraan upang makatulong na matukoy ang pinakakapaki-pakinabang na lokasyon ng mga bagong site.Halimbawa, ang serye ng oras mula sa pangmatagalang oligotrophic habitat assessment (ALOHA) ay nasa AEP B ng oligotrophic area (Larawan 5C, label 2).Dahil malapit ang ALOHA sa hangganan ng isa pang AEP, maaaring hindi kinatawan ng serye ng oras ang buong lugar, gaya ng iminungkahing dati (33).Sa parehong AEP B, ang time series SEATS (Southeast Asian Time Series) ay matatagpuan sa timog-kanluran ng Taiwan (34), mas malayo sa mga hangganan ng iba pang AEP (Figure 5C, label 1), at maaaring magamit bilang isang mas magandang lokasyon upang masubaybayan AEPB.Ang serye ng oras ng BATS (Bermuda Atlantic Time Series) (Figure 5C, label 4) sa AEPC ay napakalapit sa hangganan sa pagitan ng AEP C at F, na nagpapahiwatig na ang pagsubaybay sa AEP C gamit ang BATS time series ay maaaring direktang maging problema.Ang Station P sa AEP J (Figure 5C, label 3) ay malayo sa hangganan ng AEP, kaya mas kinatawan ito.Makakatulong ang Eco-Province at AEP na magtatag ng balangkas ng pagsubaybay na angkop para sa pagtatasa ng mga pandaigdigang pagbabago, dahil ang pahintulot ng mga lalawigan na tasahin kung saan ang on-site sampling ay maaaring magbigay ng mga pangunahing insight.Ang pamamaraan ng SAGE ay maaaring higit pang mabuo upang mailapat sa data ng klima upang masuri ang pagkakaiba-iba na nakakatipid sa oras.
Ang tagumpay ng pamamaraan ng SAGE ay nakakamit sa pamamagitan ng maingat na aplikasyon ng mga pamamaraan ng data science/ML at kaalamang partikular sa domain.Sa partikular, ang t-SNE ay ginagamit upang magsagawa ng pagbawas ng dimensionality, na pinapanatili ang covariance structure ng high-dimensional na data at pinapadali ang visualization ng covariance topology.Ang data ay inayos sa anyo ng mga stripes at covariances (Figure 2A), na nagpapahiwatig na ang puro distance-based na mga sukat (gaya ng K-means) ay hindi angkop dahil kadalasan ay gumagamit sila ng Gaussian (circular) na batayan na distribution (tinalakay sa Note S2) .Ang pamamaraan ng DBSCAN ay angkop para sa anumang covariance topology.Hangga't binibigyang pansin mo ang pagtatakda ng mga parameter, maaaring magbigay ng maaasahang pagkakakilanlan.Mataas ang computational cost ng t-SNE algorithm, na naglilimita sa kasalukuyang aplikasyon nito sa mas malaking halaga ng data, na nangangahulugang mahirap ilapat sa malalim o time-varying field.Kasalukuyang ginagawa ang scalability ng t-SNE.Dahil madaling i-parallelize ang distansya ng KL, ang t-SNE algorithm ay may magandang potensyal para sa pagpapalawak sa hinaharap (35).Sa ngayon, ang iba pang promising na mga paraan ng pagbabawas ng dimensionality na mas makakabawas sa laki ay kinabibilangan ng pinag-isang manifold approximation at projection (UMAP) na mga diskarte, ngunit kinakailangan ang pagsusuri sa konteksto ng data ng karagatan.Ang kahulugan ng mas mahusay na scalability ay, halimbawa, pag-uuri ng mga pandaigdigang klima o mga modelo na may iba't ibang kumplikado sa isang halo-halong layer.Ang mga lugar na hindi ma-classify ng SAGE sa alinmang probinsya ay maaaring ituring bilang ang natitirang mga itim na tuldok sa Figure 2A.Sa heograpiya, ang mga lugar na ito ay pangunahin sa mga lugar na may mataas na panahon, na nagmumungkahi na ang pagkuha ng mga ekolohikal na lalawigan na nagbabago sa paglipas ng panahon ay magbibigay ng mas mahusay na saklaw.
Upang mabuo ang pamamaraan ng SAGE, ginamit ang mga ideya mula sa mga kumplikadong sistema/data science, gamit ang kakayahang matukoy ang mga kumpol ng mga functional na grupo (ang posibilidad na maging napakalapit sa isang 11-dimensional na espasyo) at matukoy ang mga lalawigan.Ang mga probinsyang ito ay naglalarawan ng mga partikular na volume sa aming 3D t-SNE phase space.Katulad nito, ang bahagi ng Poincaré ay maaaring gamitin upang suriin ang "volume" ng espasyo ng estado na inookupahan ng trajectory upang matukoy ang "normal" o "magulo" na pag-uugali (36).Para sa static na 11-dimensional na output ng modelo, ang volume na inookupahan pagkatapos ma-convert ang data sa isang 3D phase space ay maaaring ipaliwanag nang katulad.Ang ugnayan sa pagitan ng heyograpikong lugar at lugar sa 3D phase space ay hindi simple, ngunit maaari itong ipaliwanag sa mga tuntunin ng ekolohikal na pagkakatulad.Para sa kadahilanang ito, mas gusto ang mas kumbensyonal na sukat ng pagkakaiba-iba ng BC.
Gagamitin muli ng gawain sa hinaharap ang pamamaraan ng SAGE para sa pana-panahong pagbabago ng data upang masuri ang spatial na pagkakaiba-iba ng mga natukoy na lalawigan at AEP.Ang layunin sa hinaharap ay gamitin ang paraang ito upang makatulong na matukoy kung aling mga lalawigan ang maaaring matukoy sa pamamagitan ng mga pagsukat ng satellite (tulad ng Chl-a, remote sensing reflectivity at temperatura sa ibabaw ng dagat).Ito ay magbibigay-daan sa remote sensing na pagtatasa ng mga bahagi ng ekolohiya at lubos na nababaluktot na pagsubaybay sa mga lalawigang ekolohikal at ang kanilang pagkakaiba-iba.
Ang layunin ng pananaliksik na ito ay ipakilala ang pamamaraan ng SAGE, na tumutukoy sa isang ekolohikal na lalawigan sa pamamagitan ng natatanging istraktura ng komunidad ng plankton.Dito, ibibigay ang mas detalyadong impormasyon tungkol sa modelong pisikal/biogeochemical/ecosystem at ang pagpili ng parameter ng t-SNE at DBSCAN algorithm.
Ang mga pisikal na bahagi ng modelo ay nagmula sa pagtatantya ng sirkulasyon ng karagatan at klima [ECCOv4;(37) ang pandaigdigang pagtatantya ng estado na inilarawan ng (38).Ang nominal na resolusyon ng pagtatantya ng estado ay 1/5.Ang least squares method na may Lagrangian multiplier method ay ginagamit para makuha ang initial at boundary conditions at internal model parameters na inaayos sa pamamagitan ng observation, at sa gayon ay bumubuo ng free-running MIT general cycle model (MITgcm) (39), ang modelo Pagkatapos ng optimization, ang mga resulta ay maaaring subaybayan at obserbahan.
Ang biogeochemistry/ecosystem ay may mas kumpletong paglalarawan (ibig sabihin, mga equation at parameter value) sa (2).Kinukuha ng modelo ang sirkulasyon ng C, N, P, Si at Fe sa pamamagitan ng mga inorganic at organic na pond.Kasama sa bersyong ginamit dito ang 35 species ng phytoplankton: 2 species ng microprokaryotes at 2 species ng microeukaryotes (angkop para sa mga low-nutrient na kapaligiran), 5 species ng Cryptomonas sphaeroides (na may calcium carbonate coating), 5 species ng diazonium ( Maaaring ayusin ang nitrogen, kaya ito ay hindi limitado) ang pagkakaroon ng dissolved inorganic nitrogen), 11 diatoms (na bumubuo ng siliceous cover), 10 mixed-vegetative flagellates (maaaring mag-photosynthesize at kumain ng iba pang plankton) at 16 Zooplankton (graze sa ibang plankton).Ang mga ito ay tinatawag na "biogeochemical functional group" dahil mayroon silang iba't ibang epekto sa marine biogeochemistry (40, 41) at kadalasang ginagamit sa pagmamasid at pag-aaral ng modelo.Sa modelong ito, ang bawat functional group ay binubuo ng ilang plankton na may iba't ibang laki, na may span na 0.6 hanggang 2500 μm na katumbas na spherical diameter.
Ang mga parameter na nakakaapekto sa paglaki ng phytoplankton, pagpapastol at paglubog ay nauugnay sa laki, at may mga tiyak na pagkakaiba sa pagitan ng anim na phytoplankton functional group (32).Sa kabila ng iba't ibang pisikal na balangkas, ang mga resulta ng 51 plankton na bahagi ng modelo ay ginamit sa ilang kamakailang pag-aaral (42-44).
Mula 1992 hanggang 2011, ang modelo ng physical/biogeochemical/ecosystem coupling ay tumakbo sa loob ng 20 taon.Kasama sa output ng modelo ang plankton biomass, nutrient concentration at nutrient supply rate (DIN, PO4, Si at Fe).Sa pag-aaral na ito, ang 20-taong average ng mga output na ito ay ginamit bilang input ng Ecological Province.Chl, ang pamamahagi ng plankton biomass at nutrient na konsentrasyon at ang pamamahagi ng mga functional na grupo ay inihambing sa satellite at in-situ na mga obserbasyon [tingnan ang (2, 44), Tandaan S1 at figure.S1 hanggang S3].
Para sa pamamaraan ng SAGE, ang pangunahing pinagmumulan ng randomness ay mula sa t-SNE na hakbang.Ang pagiging random ay humahadlang sa pag-uulit, na nangangahulugan na ang mga resulta ay hindi mapagkakatiwalaan.Ang pamamaraan ng SAGE ay mahigpit na sumusubok sa katatagan sa pamamagitan ng pagtukoy ng isang set ng mga parameter ng t-SNE at DBSCAN, na maaaring patuloy na matukoy ang mga kumpol kapag naulit.Ang pagtukoy sa "perplexity" ng t-SNE parameter ay mauunawaan bilang pagtukoy sa antas kung saan dapat igalang ng pagmamapa mula sa mataas hanggang sa mababang dimensyon ang lokal o pandaigdigang katangian ng data.Naabot ang kalituhan ng 400 at 300 na pag-ulit.
Para sa clustering algorithm na DBSCAN, kailangang matukoy ang minimum na sukat at distansya ng mga punto ng data sa cluster.Ang pinakamababang bilang ay tinutukoy sa ilalim ng gabay ng mga eksperto.Alam ng kaalamang ito kung ano ang akma sa kasalukuyang numerical modeling framework at resolution.Ang pinakamababang numero ay 100. Maaaring isaalang-alang ang mas mataas na minimum na halaga (mas mababa sa <135 bago lumawak ang itaas na limitasyon ng berde), ngunit hindi nito mapapalitan ang paraan ng pagsasama-sama batay sa pagkakaiba ng BC.Ang antas ng koneksyon (Larawan 6A) ay ginagamit upang itakda ang parameter na ϵ, na nakakatulong sa mas mataas na saklaw (Larawan 6B).Ang pagkakakonekta ay tinukoy bilang ang pinagsama-samang bilang ng mga kumpol at sensitibo sa ϵ parameter.Ang mababang koneksyon ay nagpapahiwatig ng hindi sapat na angkop, artipisyal na pagsasama-sama ng mga rehiyon.Ang mataas na koneksyon ay nagpapahiwatig ng overfitting.Problema rin ang overfitting, dahil ipinapakita nito na ang mga paunang random na hula ay maaaring humantong sa mga hindi maibabalik na resulta.Sa pagitan ng dalawang sukdulang ito, ang isang matalim na pagtaas (karaniwang tinatawag na "siko") ay nagpapahiwatig ng pinakamahusay na ϵ.Sa Figure 6A, makikita mo ang isang matalim na pagtaas sa lugar ng talampas (dilaw,> 200 kumpol), na sinusundan ng isang matalim na pagbaba (berde, 100 kumpol), hanggang sa humigit-kumulang 130, na napapalibutan ng napakakaunting kumpol (asul, <60 kumpol) ).Sa hindi bababa sa 100 asul na lugar, alinman sa isang kumpol ang nangingibabaw sa buong karagatan (ϵ <0.42), o karamihan sa karagatan ay hindi inuri at itinuturing na ingay (ϵ> 0.99).Ang dilaw na lugar ay may mataas na variable, hindi nagagawang pamamahagi ng cluster.Habang bumababa ang ϵ, tumataas ang ingay.Ang matalas na pagtaas ng berdeng lugar ay tinatawag na siko.Ito ay isang pinakamainam na rehiyon.Bagama't ginagamit ang probability t-SNE, magagamit pa rin ang BC dissimilarity sa loob ng probinsya upang matukoy ang maaasahang clustering.Gamit ang Figure 6 (A at B), itakda ang ϵ sa 0.39.Kung mas malaki ang minimum na numero, mas maliit ang posibilidad na maabot ang ϵ na nagbibigay-daan sa maaasahang pag-uuri, at mas malaki ang berdeng lugar na may halagang higit sa 135. Ang paglaki ng lugar na ito ay nagpapahiwatig na ang siko ay magiging mas mahirap hanapin o hindi- umiiral.
Pagkatapos itakda ang mga parameter ng t-SNE, ang kabuuang bilang ng mga cluster na natagpuan ay gagamitin bilang isang sukatan ng pagkakakonekta (A) at ang porsyento ng data na inilaan sa cluster (B).Ang pulang tuldok ay nagpapahiwatig ng pinakamahusay na kumbinasyon ng saklaw at pagkakakonekta.Ang minimum na numero ay itinakda ayon sa pinakamababang numero na nauugnay sa ekolohiya.
Para sa mga karagdagang materyales para sa artikulong ito, pakitingnan ang http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Ito ay isang open access na artikulo na ipinamahagi sa ilalim ng mga tuntunin ng Creative Commons Attribution License.Ang artikulo ay nagbibigay-daan sa walang limitasyong paggamit, pamamahagi, at pagpaparami sa anumang medium sa ilalim ng kondisyon na ang orihinal na gawa ay wastong binanggit.
Tandaan: Hinihiling lang namin sa iyo na ibigay ang iyong email address upang malaman ng taong inirerekomenda mo sa page na gusto mong makita niya ang email at hindi ito spam.Hindi kami kukuha ng anumang mga email address.
Ang tanong na ito ay ginagamit upang subukan kung ikaw ay isang bisita at maiwasan ang awtomatikong pagsusumite ng spam.
Ang Global Ministry of Marine Ecology ay determinado na lutasin ang mga kumplikadong problema at gumagamit ng hindi pinangangasiwaang ML upang galugarin ang mga istruktura ng komunidad.
Ang Global Ministry of Marine Ecology ay determinado na lutasin ang mga kumplikadong problema at gumagamit ng hindi pinangangasiwaang ML upang galugarin ang mga istruktura ng komunidad.

Oras ng post: Ene-12-2021

Paglilinaw sa pagiging kumplikado ng ekolohiya: tinutukoy ng hindi pinangangasiwaang pag-aaral ang pandaigdigang marine ecological province