Es proposa un mètode d'aprenentatge no supervisat per determinar les províncies ecològiques marines globals (ecoprovíncies) basant-se en l'estructura de la comunitat de plàncton i les dades de flux de nutrients.El mètode de província ecològica integrada sistemàtica (SAGE) pot identificar províncies ecològiques en models d'ecosistemes altament no lineals.Per tal d'adaptar-se a la covariància no gaussiana de les dades, SAGE utilitza t random neighbor embedding (t-SNE) per reduir la dimensionalitat.Amb l'ajuda de l'aplicació de soroll basada en l'algorisme de agrupació espacial basada en densitat (DBSCAN), es poden identificar més de cent províncies ecològiques.Utilitzant el mapa de connectivitat amb diferències ecològiques com a mesura de distància, es defineix objectivament una província ecològica agregada (AEP) robust a través de províncies ecològiques imbricades.Utilitzant AEP, es va explorar el control de la taxa de subministrament de nutrients a l'estructura de la comunitat.L'ecoprovíncia i l'AEP són únics i poden ajudar a la interpretació del model.Poden facilitar les comparacions entre models i millorar la comprensió i el seguiment dels ecosistemes marins.
Les províncies són regions on la biogeografia complexa sobre el mar o la terra s'organitza en àrees coherents i significatives (1).Aquestes províncies són molt importants per comparar i contrastar ubicacions, caracteritzar les observacions, el seguiment i la protecció.Les interaccions complexes i no lineals que produeixen aquestes províncies fan que els mètodes d'aprenentatge automàtic (ML) no supervisats siguin molt adequats per determinar províncies de manera objectiva, perquè la covariància de les dades és complexa i no gaussiana.Aquí, es proposa un mètode ML, que identifica sistemàticament províncies ecològiques marines úniques (ecoprovíncies) a partir del model físic/ecosistema tridimensional (3D) global de Darwin (2).El terme "únic" s'utilitza per indicar que l'àrea identificada no es solapa prou amb altres àrees.Aquest mètode s'anomena mètode de Província Ecològica Integrada del Sistema (SAGE).Per dur a terme una classificació útil, un mètode d'algorisme ha de permetre (i) la classificació global i (ii) l'anàlisi multiescala que es pugui niar/agregar en l'espai i el temps (3).En aquesta investigació, primer es va proposar el mètode SAGE i es van discutir les províncies ecològiques identificades.Les ecoprovíncies poden promoure la comprensió dels factors que controlen l'estructura de la comunitat, proporcionar informació útil per a les estratègies de seguiment i ajudar a fer un seguiment dels canvis en l'ecosistema.
Les províncies terrestres solen classificar-se segons les similituds de clima (precipitació i temperatura), sòl, vegetació i fauna, i s'utilitzen per a la gestió auxiliar, la investigació de la biodiversitat i el control de malalties (1, 4).Les províncies marines són més difícils de definir.La majoria dels organismes són microscòpics, amb límits fluids.Longhurst et al.(5) Va proporcionar una de les primeres classificacions globals del Ministeri d'Oceanografia basada en les condicions ambientals.La definició d'aquestes províncies de "Longhurst" inclou variables com la taxa de mescla, l'estratificació i la irradiància, així com la àmplia experiència de Longhurst com a oceanògraf marí, que té altres condicions importants per als ecosistemes marins.Longhurst s'ha utilitzat àmpliament, per exemple, per avaluar la producció primària i els fluxos de carboni, ajudar a la pesca i planificar activitats d'observació in situ (5-9).Per tal de definir les províncies de manera més objectiva, s'han utilitzat mètodes com la lògica difusa i l'agrupació/estadística regional no supervisada (9-14).L'objectiu d'aquests mètodes és identificar estructures significatives que puguin identificar províncies a les dades d'observació disponibles.Per exemple, les províncies marines dinàmiques (12) utilitzen mapes autoorganitzats per reduir el soroll i utilitzen agrupacions jeràrquiques (basades en arbres) per determinar productes de color marins derivats de satèl·lits regionals [clorofil·la a (Chl-a), alçada normalitzada de la línia de fluorescència i matèria orgànica dissolta de colors] i camp físic (temperatura i salinitat de la superfície del mar, topografia dinàmica absoluta i gel marí).
L'estructura comunitària del plàncton és preocupant perquè la seva ecologia té una gran influència en els nivells més alts de nutrients, l'absorció de carboni i el clima.No obstant això, encara és un objectiu difícil i difícil de determinar determinar una província ecològica global basada en l'estructura de la comunitat de plàncton.Els satèl·lits de color marins poden proporcionar informació sobre la classificació de gra gruixut del fitoplàncton o suggerir els avantatges dels grups funcionals (15), però actualment no poden proporcionar informació detallada sobre l'estructura de la comunitat.Les enquestes recents [per exemple, Tara Ocean (16)] proporcionen mesures sense precedents de l'estructura de la comunitat;actualment, només hi ha escasses observacions in situ a escala global (17).Estudis anteriors han determinat en gran mesura la "província biogeoquímica" (12, 14, 18) a partir de la determinació de similituds bioquímiques (com ara la producció primària, Chl i la llum disponible).Aquí, el model numèric s'utilitza per produir [Darwin(2)], i la província ecològica es determina segons l'estructura de la comunitat i el flux de nutrients.El model numèric utilitzat en aquest estudi té cobertura global i es pot comparar amb les dades de camp existents (17) i els camps de teledetecció (Nota S1).Les dades del model numèric utilitzats en aquest estudi tenen l'avantatge de la cobertura global.L'ecosistema model consta de 35 espècies de fitoplàncton i 16 espècies de zooplàncton (consulteu els materials i els mètodes).Els tipus de plàncton model interaccionen de manera no lineal amb estructures de covariància no gaussianas, de manera que els mètodes de diagnòstic senzills no són adequats per identificar patrons únics i consistents en estructures de comunitats emergents.El mètode SAGE que s'introdueix aquí proporciona una manera nova de comprovar la sortida de models complexos de Darwin.
Les poderoses capacitats transformadores de la tecnologia de ciència de dades/ML poden permetre solucions de model aclaparadorament complexes per revelar estructures complexes però robustes en la covariància de dades.Un mètode robust es defineix com un mètode que pot reproduir fidelment els resultats dins d'un interval d'error determinat.Fins i tot en sistemes senzills, determinar patrons i senyals robusts pot ser un repte.Fins que no es determina la justificació que condueix al patró observat, la complexitat emergent pot semblar complicada/difícil de resoldre.El procés clau per establir la composició de l'ecosistema és de naturalesa no lineal.L'existència d'interaccions no lineals pot confondre una classificació robusta, per la qual cosa cal evitar mètodes que fan suposicions fortes sobre la distribució estadística bàsica de la covariància de dades.Les dades d'alta dimensió i no lineals són comunes a l'oceanografia i poden tenir una estructura de covariància amb una topologia complexa i no gaussiana.Tot i que les dades amb una estructura de covariància no gaussiana poden dificultar una classificació robusta, el mètode SAGE és nou perquè està dissenyat per identificar clústers amb topologies arbitràries.
L'objectiu del mètode SAGE és identificar de manera objectiva els patrons emergents que poden ajudar a una major comprensió ecològica.Seguint un flux de treball basat en clústers similar al (19), les variables ecològiques i de flux de nutrients s'utilitzen per determinar l'únic clúster de les dades, anomenat província ecològica.El mètode SAGE proposat en aquest estudi (figura 1) redueix primer la dimensionalitat de 55 a 11 dimensions sumant els grups funcionals de plàncton definits a priori (vegeu Materials i mètodes).Utilitzant el mètode d'incorporació t-aleatòria de veïnes (t-SNE), la mida es redueix encara més projectant la probabilitat a l'espai 3D.La agrupació no supervisada pot identificar àrees ecològicament properes [agrupació espacial basada en densitat (DBSCAN) per a aplicacions basades en el soroll].Tant t-SNE com DBSCAN són aplicables a les dades del model numèric de l'ecosistema no lineal inherents.A continuació, reprojecte la província ecològica resultant a la terra.S'han identificat més d'un centenar de províncies ecològiques úniques, aptes per a la investigació regional.Per tal de considerar el model d'ecosistema globalment coherent, s'utilitza el mètode SAGE per agregar les províncies ecològiques en províncies ecològiques agregades (AEP) per millorar l'eficàcia de les províncies ecològiques.El nivell d'agregació (anomenat "complexitat") es pot ajustar al nivell de detall requerit.Determineu la complexitat mínima d'un AEP robust.El focus de la selecció és el mètode SAGE i l'exploració dels casos d'AEP de menor complexitat per determinar el control de l'estructura de la comunitat d'emergència.A continuació, es poden analitzar els patrons per proporcionar coneixements ecològics.El mètode que s'introdueix aquí també es pot utilitzar per a la comparació de models de manera més àmplia, per exemple, avaluant les ubicacions de províncies ecològiques similars que es troben en diferents models per destacar diferències i similituds i comparar models.
(A) Diagrama esquemàtic del flux de treball per determinar la província ecològica;utilitzant la suma del grup funcional per reduir les dades originals de 55 dimensions a una sortida del model d'11 dimensions, inclosa la biomassa de set plàncton funcional/nutrient i quatre taxes de subministrament de nutrients.Valor insignificant i àrea de coberta de gel duradora.Les dades s'han normalitzat i estandarditzat.Proporcioneu dades d'11 dimensions a l'algorisme t-SNE per destacar combinacions de característiques estadísticament similars.DBSCAN seleccionarà acuradament el clúster per establir el valor del paràmetre.Finalment, torneu a projectar les dades a la projecció de latitud/longitud.Tingueu en compte que aquest procés es repeteix 10 vegades perquè es pot generar una lleugera aleatorietat aplicant t-SNE.(B) explica com obtenir l'AEP repetint el flux de treball a (A) 10 vegades.Per a cadascuna d'aquestes 10 implementacions, es va determinar la matriu de dissimilaritat interprovincial de Bray-Curtis (BC) a partir de la biomassa de 51 tipus de fitoplàncton.Determineu la diferència de BC entre províncies, des de la complexitat 1 AEP fins a la complexitat total 115. La província de Longhurst estableix el punt de referència de BC.
El mètode SAGE utilitza la sortida del model numèric global 3D físic/ecosistema per definir la província ecològica [Darwin (2);vegeu Materials i Mètodes i Nota S1].Els components de l'ecosistema estan formats per 35 espècies de fitoplàncton i 16 espècies de zooplàncton, amb set grups funcionals predefinits: procariotes i eucariotes adaptats a ambients poc nutrients, coccidis amb un recobriment de carbonat càlcic i una gran fixació de nitrogen Nutrients nitrogenats (generalment falten). nutrients importants), amb coberta silícea, poden fer altres fotosíntesis de plàncton i pasturar flagel·lats de nutrients barrejats i pastors de zooplàncton.L'abast de mida és de 0,6 a 2500 μm de diàmetre esfèric equivalent.El model de distribució de la mida del fitoplàncton i l'agrupació funcional captura les característiques generals observades en observacions per satèl·lit i in situ (vegeu les figures S1 a S3).La similitud entre el model numèric i l'oceà observat indica que les províncies definides pel model poden ser aplicables a l'oceà in situ.Tingueu en compte que aquest model només captura certa diversitat de fitoplàncton i només certs rangs de forçament físic i químic de l'oceà in situ.El mètode SAGE pot permetre a la gent entendre millor el mecanisme de control altament regional de l'estructura de la comunitat model.
En incloure només la suma de la biomassa superficial (amb un temps mitjà de 20 anys) a cada grup funcional de plàncton, es pot reduir la dimensionalitat de les dades.Després que estudis anteriors mostressin el seu paper clau en l'establiment de l'estructura de la comunitat, també incloïa termes superficials de fonts per als fluxos de nutrients (subministrament de nitrogen, ferro, fosfat i àcid silícic) [p. ex. (20, 21)].La suma de grups funcionals redueix el problema de 55 (51 fluxos de plàncton i 4 de nutrients) a 11 dimensions.En aquest estudi inicial, a causa de les limitacions computacionals imposades per l'algorisme, no es va tenir en compte la variabilitat de profunditat i temps.
El mètode SAGE és capaç d'identificar relacions importants entre processos no lineals i característiques clau de les interaccions entre la biomassa del grup funcional i el flux de nutrients.L'ús de dades d'11 dimensions basades en mètodes euclidians d'aprenentatge a distància (com ara K-means) no pot obtenir províncies fiables i reproduïbles (19, 22).Això es deu al fet que no es troba cap forma gaussiana en la distribució bàsica de la covariància dels elements clau que defineixen la província ecològica.Els K-means de les cèl·lules de Voronoi (línies rectes) no poden retenir la distribució bàsica no gaussiana.
La biomassa de set grups funcionals de plàncton i quatre fluxos de nutrients formen un vector x d'11 dimensions.Per tant, x és un camp vectorial a la graella del model, on cada element xi representa un vector d'11 dimensions definit a la graella horitzontal del model.Cada índex i identifica de manera única un punt de quadrícula a l'esfera, on (lon, lat) = (ϕi, θi).Si la biomassa de la unitat de quadrícula del model és inferior a 1,2 × 10-3mg Chl/m3 o la taxa de cobertura de gel supera el 70%, s'utilitza el registre de dades de biomassa i es descarta.Les dades estan normalitzades i estandarditzades, de manera que totes les dades es troben en el rang de [0 a 1], la mitjana s'elimina i s'escala a la variància de la unitat.Això es fa perquè les característiques (biomassa i flux de nutrients) no estiguin limitades pel contrast en el rang de valors possibles.L'agrupament hauria de capturar la relació de canvi a partir de la distància de probabilitat clau entre les característiques en lloc de la distància geogràfica.Quan es quantifiquen aquestes distàncies, sorgeixen característiques importants, mentre que es descarten detalls innecessaris.Des del punt de vista ecològic, això és necessari perquè alguns tipus de fitoplàncton amb poca biomassa poden tenir majors efectes biogeoquímics, com la fixació de nitrogen per bacteris diazotròfics.Quan s'estandarditzen i es normalitzen les dades, es destacaran aquests tipus de covariables.
En emfatitzar la proximitat de les característiques a l'espai d'alta dimensió en representació de dimensions baixes, s'utilitza l'algorisme t-SNE per fer més clares les regions similars existents.Els treballs anteriors destinats a construir xarxes neuronals profundes per a aplicacions de teledetecció utilitzaven t-SNE, que va demostrar la seva habilitat per separar les característiques clau (23).Aquest és un pas necessari per identificar agrupacions sòlides a les dades de les característiques alhora que s'evita solucions no convergents (nota S2).Utilitzant nuclis gaussians, t-SNE preserva les propietats estadístiques de les dades mitjançant el mapeig de cada objecte d'alta dimensió a un punt de l'espai de fase 3D, assegurant així que la probabilitat d'objectes similars en les direccions alta i baixa sigui alta en un punt alt. espai dimensional (24).Donat un conjunt de N objectes d'alta dimensió x1,...,xN, l'algorisme t-SNE es redueix minimitzant la divergència Kullback-Leibler (KL) (25).La divergència KL és una mesura de com de diferent és una distribució de probabilitat d'una segona distribució de probabilitat de referència i pot avaluar eficaçment la possibilitat de correlació entre representacions de dimensions baixes de característiques d'alta dimensió.Si xi és l'i-è objecte a l'espai N-dimensional, xj és l'i-è objecte a l'espai N-dimensional, yi és l'i-è objecte a l'espai de dimensions baixes i yj és l'objecte j-è a l'espai de dimensions baixes -dimensional, aleshores t -SNE defineix la probabilitat de semblança ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), i per al conjunt de reducció de dimensionalitat q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
La figura 2A il·lustra l'efecte de reduir els vectors de flux de biomassa i nutrients de la combinació d'11 dimensions a 3D.La motivació d'aplicar t-SNE es pot comparar amb la motivació de l'anàlisi de components principals (PCA), que utilitza l'atribut de variància per emfatitzar l'àrea/atribut de les dades, reduint així la dimensionalitat.Es va trobar que el mètode t-SNE era superior al PCA en proporcionar resultats fiables i reproduïbles per a l'Eco-Ministerio (vegeu la nota S2).Això pot ser perquè l'assumpció d'ortogonalitat de la PCA no és adequada per identificar interaccions crítiques entre característiques interactives altament no lineals, perquè la PCA se centra en estructures de covariància lineal (26).Utilitzant dades de teledetecció, Lunga et al.(27) il·lustra com utilitzar el mètode SNE per destacar característiques espectrals complexes i no lineals que es desvien de la distribució gaussiana.
(A) Una taxa de subministrament de nutrients modelada, una biomassa de grups funcionals de fitoplàncton i zooplàncton dibuixada per l'algorisme t-SNE i acolorida per província mitjançant DBSCAN.Cada punt representa un punt de l'espai d'alta dimensió, com es mostra a la figura 6B, la majoria dels punts es capturen.Els eixos fan referència a les mides "t-SNE" 1, 2 i 3. (B) La projecció geogràfica de la província trobada per DBSCAN a la quadrícula de latitud-longitud de l'origen.El color s'ha de considerar com qualsevol color, però ha de correspondre a (A).
Els punts del gràfic de dispersió t-SNE de la figura 2A estan associats respectivament amb la latitud i la longitud.Si els dos punts de la figura 2A estan a prop l'un de l'altre, és perquè els seus fluxos de biomassa i nutrients són similars, no per proximitat geogràfica.Els colors de la figura 2A són grups descoberts mitjançant el mètode DBSCAN (28).Quan es busquen observacions denses, l'algorisme DBSCAN utilitza la distància en la representació 3D entre els punts (ϵ = 0,39; per obtenir informació sobre aquesta elecció, vegeu Materials i mètodes) i es requereix el nombre de punts similars per definir el clúster (aquí 100 punts, vegeu més amunt).El mètode DBSCAN no fa cap hipòtesi sobre la forma o el nombre de clústers a les dades, tal com es mostra a continuació:
3) Per a tots els punts identificats com a dins de la distància interior, repetiu el pas 2 iterativament per determinar el límit del clúster.Si el nombre de punts és superior al valor mínim establert, es designa com a clúster.
Les dades que no compleixen la mètrica mínima del membre del clúster i la distància ϵ es consideren "soroll" i no se'ls assigna cap color.DBSCAN és un algorisme ràpid i escalable amb rendiment O(n2) en el pitjor dels casos.Per a l'anàlisi actual, en realitat no és aleatori.El nombre mínim de punts es determina per avaluació d'experts.Després d'ajustar la distància després, el resultat no és prou estable en el rang de ≈±10.Aquesta distància s'estableix mitjançant la connectivitat (figura 6A) i el percentatge de cobertura oceànica (figura 6B).La connectivitat es defineix com el nombre compost de clústers i és sensible al paràmetre ϵ.La connectivitat més baixa indica un ajust insuficient, agrupant les regions de manera artificial.Una connectivitat alta indica un sobreajust.És concebible utilitzar un mínim més alt, però si el mínim supera ca, és impossible aconseguir una solució fiable.135 (Per a més detalls, vegeu Materials i mètodes).
Els 115 cúmuls identificats a la figura 2A es projecten de nou a la terra a la figura 2B.Cada color correspon a una combinació coherent de factors biogeoquímics i ecològics identificats per DBSCAN.Un cop determinats els cúmuls, s'utilitza l'associació de cada punt de la figura 2A amb una latitud i una longitud específiques per projectar els cúmuls de nou a l'àrea geogràfica.La figura 2B ho il·lustra amb els mateixos colors de clúster que la figura 2A.Els colors similars no s'han d'interpretar com a similitud ecològica, perquè s'assignen per l'ordre en què l'algorisme descobreix els clústers.
L'àrea de la figura 2B pot ser qualitativament similar a una àrea establerta en la física i/o biogeoquímica de l'oceà.Per exemple, els cúmuls de l'oceà Austral són simètrics en zones, apareixen vòrtexs oligotròfics i la transició brusca indica la influència dels vents alisis.Per exemple, al Pacífic equatorial s'observen diferents regions relacionades amb la pujada.
Per tal d'entendre l'entorn ecològic de l'ecoprovíncia, es va utilitzar una variació de l'índex de diferència de Bray-Curtis (BC) (29) per avaluar l'ecologia del clúster.L'indicador BC és una dada estadística utilitzada per quantificar la diferència en l'estructura de la comunitat entre dos llocs diferents.La mesura BC és aplicable a la biomassa de 51 espècies de fitoplàncton i zooplàncton BCninj = 1-2CninjSni + Snj
BCninj fa referència a la similitud entre la combinació ni i la combinació nj, on Cninj és el valor mínim d'un sol tipus de biomassa que existeix en ambdues combinacions ni i nj, i Sni representa la suma de totes les biomasses que existeixen en ambdues combinacions ni i Snj.La diferència BC és similar a la mesura de la distància, però opera en un espai no euclidià, que és probable que sigui més adequat per a les dades ecològiques i la seva interpretació.
Per a cada clúster identificat a la figura 2B, es pot avaluar la similitud de BC intraprovincial i interprovincial.La diferència BC dins d'una província es refereix a la diferència entre el valor mitjà de la província i cada punt de la província.La diferència entre les províncies de BC fa referència a la similitud entre una província i altres províncies.La figura 3A mostra una matriu BC simètrica (0, negre: totalment corresponent; 1, blanc: completament diferent).Cada línia del gràfic mostra un patró a les dades.La figura 3B mostra la importància geogràfica dels resultats de BC a la figura 3A per a cada província.Per a una província d'una àrea de baixa nutrició i pocs nutrients, la figura 3B mostra que la simetria de grans àrees al voltant de l'equador i l'oceà Índic és bàsicament similar, però les latituds més altes i les zones de surgència són significativament diferents.
(A) El grau de diferència BC avaluat per a cada província en funció de la mitjana global de la superfície global de 20 anys de 51 plàncton.Observeu la simetria esperada dels valors.(B) La projecció espacial d'una columna (o fila).Per a una província en un cercle distròfic, es va avaluar la distribució global de la mesura de similitud de BC i es va avaluar la mitjana global de 20 anys.El negre (BC = 0) significa la mateixa àrea, i el blanc (BC = 1) significa cap semblança.
La figura 4A il·lustra la diferència de BC dins de cada província a la figura 2B.Determinat utilitzant la combinació mitjana de l'àrea mitjana en un clúster i determinant la dissimilaritat entre el BC i la mitjana de cada punt de la quadrícula de la província, mostra que el mètode SAGE pot separar bé 51 espècies en funció de la similitud ecològica. dades del model.La dissimilaritat mitjana global del clúster BC dels 51 tipus és de 0,102±0,0049.
(A, B i D) La diferència de BC dins de la província s'avalua com la diferència mitjana de BC entre cada comunitat de punts de la quadrícula i la província mitjana, i la complexitat no es redueix.(2) La diferència global mitjana intraprovincial BC és de 0,227±0,117.Aquest és el punt de referència de la classificació basada en la motivació ecològica que proposa aquest treball [línia verda a (C)].(C) Diferència mitjana intraprovincial de BC: la línia negra representa la diferència intra-provincial de BC amb una complexitat creixent.2σ prové de 10 repeticions del procés d'identificació d'ecoprovíncia.Per a la complexitat total de les províncies descobertes per DBSCAN, (A) mostra que la dissimilaritat BC a la província és de 0,099, i la classificació de complexitat proposada per (C) és 12, donant lloc a una dissimilaritat BC de 0,200 a la província.com mostra la imatge.(D).
A la figura 4B, la biomassa de 51 tipus de plàncton s'utilitza per representar la diferència equivalent de BC a la província de Longhurst.La mitjana global de cada província és de 0,227 i la desviació estàndard dels punts de la quadrícula amb referència a la diferència de la província de BC és de 0,046.Això és més gran que el clúster identificat a la figura 1B.En canvi, utilitzant la suma dels set grups funcionals, la dissimilaritat mitjana intratemporada de l'AC a Longhurst va augmentar fins a 0,232.
El mapa global de l'ecoprovíncia proporciona detalls complexos d'interaccions ecològiques úniques i s'han fet millores en l'ús de tota l'estructura de l'ecosistema de la província de Longhurst.S'espera que el Ministeri d'Ecologia proporcioni informació sobre el procés de control de l'ecosistema del model numèric, i aquesta visió ajudarà a l'exploració del treball de camp.Als efectes d'aquesta investigació, no és possible mostrar completament més de cent províncies.La següent secció presenta el mètode SAGE que resumeix les províncies.
Un dels propòsits de la província és promoure la comprensió de la ubicació i la gestió de la província.Per determinar situacions d'emergència, el mètode de la figura 1B il·lustra la nidificació de províncies ecològicament similars.Les ecoprovíncies s'agrupen en funció de la similitud ecològica, i aquesta agrupació de províncies s'anomena AEP.Establiu una "complexitat" ajustable en funció del nombre total de províncies a considerar.El terme "complexitat" s'utilitza perquè permet ajustar el nivell d'atributs d'emergència.Per tal de definir agregacions significatives, s'utilitza la diferència mitjana intraprovincial de BC de 0,227 respecte a Longhurst com a referència.Per sota d'aquest punt de referència, les províncies combinades ja no es consideren útils.
Com es mostra a la figura 3B, les províncies ecològiques globals són coherents.Utilitzant les diferències interprovincials de BC, es pot veure que algunes configuracions són molt “comuns”.Inspirats en la genètica i els mètodes de teoria de grafs, els "gràfics connectats" s'utilitzen per ordenar més de 100 províncies en funció de les províncies més semblants a elles.La mètrica de "connectivitat" aquí es determina mitjançant la dissimilaritat interprovincial de BC (30).El nombre de províncies amb un espai més gran per a la classificació de> 100 províncies es pot denominar aquí complexitat.AEP és un producte que classifica més de 100 províncies com les províncies ecològiques més dominants/més properes.Cada província ecològica s'assigna a la província ecològica dominant/altament connectada que s'assembla més a elles.Aquesta agregació determinada per la diferència BC permet una aproximació niuada a l'ecologia global.
La complexitat seleccionada pot ser qualsevol valor des d'1 fins a la complexitat completa de la FIG.2A.A menor complexitat, l'AEP pot degenerar a causa del pas de reducció de la dimensionalitat probabilística (t-SNE).La degeneració significa que les províncies ecològiques es poden assignar a diferents AEP entre iteracions, canviant així l'àrea geogràfica coberta.La figura 4C il·lustra la propagació de les diferències de BC dins de les províncies en AEP de complexitat creixent en 10 implementacions (il·lustració a la figura 1B).A la figura 4C, 2σ (àrea blava) és una mesura de degradació en 10 implementacions, i la línia verda representa el punt de referència de Longhurst.Els fets han demostrat que la complexitat de 12 pot mantenir la diferència BC a la província per sota del punt de referència de Longhurst en totes les implementacions i mantenir una degradació de 2σ relativament petita.En resum, la complexitat mínima recomanada és de 12 AEP i la diferència mitjana intraprovíncia BC avaluada amb 51 tipus de plàncton és de 0,198 ± 0,013, tal com es mostra a la figura 4D.Utilitzant la suma de set grups funcionals de plàncton, la diferència mitjana de BC dins de la província és de 2σ en lloc de 0,198±0,004.La comparació entre les diferències de BC calculades amb la biomassa total dels set grups funcionals o la biomassa dels 51 tipus de plàncton mostra que tot i que el mètode SAGE és aplicable a la situació de 51 dimensions, ho és per a la biomassa total dels set grups funcionals. Per entrenar.
Segons el propòsit de qualsevol recerca, es poden considerar diferents nivells de complexitat.Els estudis regionals poden requerir una complexitat total (és a dir, les 115 províncies).Com a exemple i per a més claredat, tingueu en compte la complexitat mínima recomanada de 12.
Com a exemple de la utilitat del mètode SAGE, aquí s'utilitzen 12 AEP amb una complexitat mínima de 12 per explorar el control de l'estructura de la comunitat d'emergència.La figura 5 il·lustra els coneixements ecològics agrupats per AEP (de A a L): a l'estequiometria de Redfield, l'extensió geogràfica (figura 5C), la composició de la biomassa del grup funcional (figura 5A) i el subministrament de nutrients (figura 5B) es realitza mitjançant N Zoomed.Es mostra la relació (N:Si:P:Fe, 1:1:16:16×103).Per a aquest darrer panell, P multiplicat per 16 i Fe multiplicat per 16×103, de manera que el gràfic de barres és equivalent als requeriments nutricionals del fitoplàncton.
Les províncies es classifiquen en 12 AEPs A a L. (A) Biomassa (mgC/m3) d'ecosistemes de 12 províncies.(B) La taxa de flux de nutrients de nitrogen inorgànic dissolt (N), ferro (Fe), fosfat (P) i àcid silícic (Si) (mmol/m3 per any).Fe i P es multipliquen per 16 i 16 × 103, respectivament, de manera que les tires estan estandarditzades segons els requisits de l'estequiometria del fitoplàncton.(C) Tingueu en compte la diferència entre les regions polars, els ciclons subtropicals i les principals regions estacionals/en ascens.Les estacions de vigilància estan senyalitzades de la següent manera: 1, SEients;2, ALOHA;3, estació P;i 4, BATS.
L'AEP identificat és únic.Hi ha certa simetria al voltant de l'equador als oceans Atlàntic i Pacífic, i existeix una àrea similar però ampliada a l'oceà Índic.Alguns AEP abracen el costat occidental del continent associat a l'ascens.El corrent circumpolar del pol sud es considera una gran característica zonal.El cicló subtropical és una sèrie complexa d'AEP oligotròfics.En aquestes províncies, el patró familiar de diferències de biomassa entre els vòrtexs oligotròfics dominats pel plàncton i les regions polars riques en diatomees és obvi.
Els AEP amb biomassa total de fitoplàncton molt similar poden tenir estructures comunitàries molt diferents i cobrir àrees geogràfiques diferents, com ara D, H i K, que tenen una biomassa total de fitoplàncton similar.AEP H existeix principalment a l'oceà Índic equatorial, i hi ha més bacteris diazotròfics.L'AEP D es troba a diverses conques, però és particularment destacat al Pacífic al voltant de les zones d'alt rendiment al voltant de la surgència equatorial.La forma d'aquesta província del Pacífic recorda un tren d'ones planetaris.Hi ha pocs diazobacteris en AEP D, i més cons.En comparació amb les altres dues províncies, l'AEP K només es troba a les terres altes de l'oceà Àrtic, i hi ha més diatomees i menys plànctons.Val la pena assenyalar que la quantitat de plàncton en aquestes tres regions també és molt diferent.Entre ells, l'abundància de plàncton d'AEP K és relativament baixa, mentre que la d'AEP D i H és relativament alta.Per tant, malgrat la seva biomassa (i, per tant, similar a Chl-a), aquestes províncies són força diferents: és possible que les proves de províncies basades en Chl no captin aquestes diferències.
També és obvi que alguns AEP amb biomassa molt diferent poden ser similars pel que fa a l'estructura de la comunitat de fitoplàncton.Per exemple, això és visible a AEP D i E. Estan a prop l'un de l'altre, i a l'oceà Pacífic, AEP E està a prop de l'AEPJ altament productiu.De la mateixa manera, no hi ha un vincle clar entre la biomassa de fitoplàncton i l'abundància de zooplàncton.
L'AEP es pot entendre en termes dels nutrients que se'ls proporcionen (figura 5B).Les diatomees només existeixen on hi ha un ampli subministrament d'àcid silícic.En general, com més gran sigui l'aportació d'àcid silícic, més gran serà la biomassa de diatomees.Les diatomees es poden veure a AEP A, J, K i L. La proporció de la biomassa de diatomees respecte d'altres fitoplànctons està determinada pel N, P i Fe proporcionats en relació amb la demanda de diatomees.Per exemple, l'AEP L està dominada per les diatomees.En comparació amb altres nutrients, el Si té el subministrament més alt.En canvi, malgrat la major productivitat, AEP J té menys diatomees i menys subministrament de silici (tots i en relació amb altres nutrients).
Els bacteris diazoni tenen la capacitat de fixar nitrogen, però creixen lentament (31).Coexisteixen amb altres fitoplànctons, on el ferro i el fòsfor són excessius en relació a la demanda de nutrients no diazoni (20, 21).Val a dir que la biomassa diazotròfica és relativament alta, i l'oferta de Fe i P és relativament gran en relació amb l'oferta de N. D'aquesta manera, tot i que la biomassa total en AEP J és més alta, la biomassa de diazoni en AEP H és més gran que la de J. Tingueu en compte que AEP J i H són geogràficament molt diferents, i H es troba a l'oceà Índic equatorial.
Si l'estructura única de l'ecosistema no es divideix en províncies, els coneixements obtinguts dels models de complexitat més baixa dels 12 AEP no seran tan clars.L'AEP generat per SAGE facilita la comparació coherent i simultània d'informació complexa i d'alta dimensió de models d'ecosistemes.AEP emfatitza eficaçment per què Chl no és un mètode bo i alternatiu per determinar l'estructura de la comunitat o l'abundància de zooplàncton a nivells de nutrients més alts.Una anàlisi detallada dels temes de recerca en curs està fora de l'abast d'aquest article.El mètode SAGE proporciona una manera d'explorar altres mecanismes del model que és més fàcil de manejar que la visualització punt a punt.
Es proposa el mètode SAGE per ajudar a aclarir dades ecològiques extremadament complexes a partir de models numèrics físics/biogeoquímics/ecosistemes globals.La província ecològica està determinada per la biomassa total de grups funcionals de plàncton creuat, l'aplicació de l'algoritme de reducció de la dimensionalitat de probabilitat t-SNE i l'agrupació mitjançant el mètode ML no supervisat DBSCAN.S'aplica la teoria de la diferència/gràfic interprovincial de BC per al mètode d'imbricació per obtenir un AEP robust que es pot utilitzar per a la interpretació global.Pel que fa a la construcció, l'Ecoprovíncia i l'AEP són únics.La nidificació d'AEP es pot ajustar entre la complexitat total de la província ecològica original i el llindar mínim recomanat de 12 AEP.La nidificació i la determinació de la complexitat mínima de l'AEP es consideren passos clau, perquè la probabilitat t-SNE degenera AEP de <12 complexitat.El mètode SAGE és global i la seva complexitat oscil·la entre> 100 AEP i 12. Per simplificar, l'enfocament actual se centra en la complexitat de 12 AEP globals.Les investigacions futures, especialment els estudis regionals, poden trobar útil un subconjunt espacial més petit de les ecoprovíncies globals i es poden agregar en una àrea més petita per aprofitar els mateixos coneixements ecològics que es discuteixen aquí.Proporciona suggeriments sobre com es poden utilitzar aquestes províncies ecològiques i els coneixements obtinguts per a una major comprensió ecològica, facilitar la comparació de models i, potencialment, millorar el seguiment dels ecosistemes marins.
La província ecològica i l'AEP identificades pel mètode SAGE es basen en les dades del model numèric.Per definició, el model numèric és una estructura simplificada, que intenta capturar l'essència del sistema objectiu, i diferents models tindran una distribució diferent del plàncton.El model numèric utilitzat en aquest estudi no pot capturar completament alguns dels patrons observats (per exemple, a les estimacions de Chl per a la regió equatorial i l'oceà Austral).Només es captura una petita part de la diversitat de l'oceà real i no es poden resoldre les escales meso i submeso, cosa que pot afectar el flux de nutrients i l'estructura de la comunitat a menor escala.Malgrat aquestes mancances, resulta que l'AEP és molt útil per ajudar a entendre models complexos.Mitjançant l'avaluació d'on es troben províncies ecològiques similars, AEP proporciona una eina potencial de comparació de models numèrics.El model numèric actual captura el patró general de la concentració de fitoplàncton de teledetecció Chl-a i la distribució de la mida del plàncton i el grup funcional (Nota S1 i Figura S1) (2, 32).
Tal com mostra la línia de contorn de 0,1 mgChl-a/m-3, l'AEP es divideix en àrea oligotròfica i àrea mesòtròfica (figura S1B): AEP B, C, D, E, F i G són àrees oligotròfiques, i les àrees restants són situat a Chl-a Superior.AEP mostra certa correspondència amb la província de Longhurst (figura S3A), per exemple, l'oceà Austral i el Pacífic equatorial.En algunes regions, AEP cobreix diverses regions de Longhurst i viceversa.Com que la intenció de delimitar províncies en aquesta zona i Longhurst és diferent, s'espera que hi hagi diferències.Múltiples AEP en una província de Longhurst indiquen que certes àrees amb biogeoquímica similar poden tenir estructures d'ecosistema molt diferents.L'AEP presenta una certa correspondència amb els estats físics, tal com es va revelar mitjançant l'aprenentatge no supervisat (19), com en estats de surgència elevada (per exemple, l'oceà Austral i el Pacífic equatorial; figura S3, C i D).Aquestes correspondències indiquen que l'estructura comunitària del plàncton està fortament influenciada per la dinàmica oceànica.A zones com l'Atlàntic Nord, AEP travessa províncies físiques.El mecanisme que provoca aquestes diferències pot incloure processos com el transport de pols, que pot conduir a programes nutricionals completament diferents fins i tot en condicions físiques similars.
El Ministeri d'Ecologia i AEP van assenyalar que l'ús de Chl sol no pot identificar components ecològics, com ja s'ha adonat la comunitat d'ecologia marina.Això es veu en AEP amb biomassa similar però composició ecològica significativament diferent (com D i E).En canvi, els AEP com el D i el K tenen una biomassa molt diferent però una composició ecològica similar.AEP subratlla que la relació entre la biomassa, la composició ecològica i l'abundància de zooplàncton és complexa.Per exemple, tot i que AEP J destaca pel que fa a fitoplàncton i biomassa de plàncton, A i L d'AEP tenen una biomassa de plàncton similar, però A té una abundància de plàncton més alta.AEP subratlla que la biomassa de fitoplàncton (o Chl) no es pot utilitzar per predir la biomassa de zooplàncton.El zooplàncton és la base de la cadena alimentària de la pesca, i estimacions més precises poden conduir a una millor gestió dels recursos.Els futurs satèl·lits de colors marins [per exemple, PACE (plàncton, aerosol, núvol i ecosistema marí)] poden estar millor posicionats per ajudar a estimar l'estructura comunitària del fitoplàncton.L'ús de la predicció AEP pot facilitar potencialment l'estimació del zooplàncton des de l'espai.Mètodes com SAGE, juntament amb noves tecnologies i cada cop més dades de camp disponibles per a les enquestes de la veritat terrestre (com ara Tara i la investigació de seguiment), poden fer conjuntament un pas cap al seguiment de la salut dels ecosistemes basat en satèl·lit.
El mètode SAGE proporciona una manera convenient d'avaluar alguns mecanismes que controlen les característiques de la província, com ara la biomassa/Chl, la producció primària neta i l'estructura de la comunitat.Per exemple, la quantitat relativa de diatomees es determina per un desequilibri en l'oferta de Si, N, P i Fe en relació amb els requisits estequiomètrics del fitoplàncton.A una taxa d'oferta equilibrada, la comunitat està dominada per les diatomees (L).Quan la taxa d'oferta està desequilibrada (és a dir, l'oferta de silici és inferior a la demanda de nutrients de les diatomees), les diatomees només representen una petita part (K).Quan el subministrament de Fe i P supera el subministrament de N (per exemple, E i H), els bacteris diazotròfics creixeran vigorosament.A través del context proporcionat per AEP, l'exploració dels mecanismes de control serà més útil.
L'Ecoprovíncia i l'AEP són zones amb estructures comunitàries similars.La sèrie temporal d'un lloc determinat dins d'una província ecològica o AEP es pot considerar com un punt de referència i pot representar l'àrea coberta per la província ecològica o AEP.Les estacions de monitoratge in situ a llarg termini proporcionen aquestes sèries temporals.Els conjunts de dades in situ a llarg termini continuaran jugant un paper incalculable.Des de la perspectiva del seguiment de l'estructura de la comunitat, el mètode SAGE es pot veure com una manera d'ajudar a determinar la ubicació més útil dels nous llocs.Per exemple, la sèrie temporal de l'avaluació de l'hàbitat oligotròfic a llarg termini (ALOHA) es troba a l'AEP B de l'àrea oligotròfica (figura 5C, etiqueta 2).Com que ALOHA està a prop del límit d'un altre AEP, la sèrie temporal pot no ser representativa de tota l'àrea, com s'ha suggerit anteriorment (33).A la mateixa AEP B, la sèrie temporal SEATS (Sèrie temporal del sud-est asiàtic) es troba al sud-oest de Taiwan (34), més lluny dels límits d'altres AEP (figura 5C, etiqueta 1) i es pot utilitzar com a millor ubicació per controlar AEPB.La sèrie temporal BATS (Bermuda Atlantic Time Series Study) (figura 5C, etiqueta 4) a l'AEPC està molt a prop del límit entre AEP C i F, cosa que indica que el seguiment de l'AEP C mitjançant sèries temporals BATS pot ser directament problemàtic.L'estació P de l'AEP J (figura 5C, etiqueta 3) està lluny del límit de l'AEP, de manera que és més representativa.L'Ecoprovíncia i l'AEP poden ajudar a establir un marc de seguiment adequat per avaluar els canvis globals, perquè el permís de les províncies per avaluar on el mostreig in situ pot proporcionar informació clau.El mètode SAGE es pot desenvolupar encara més per aplicar-lo a les dades climàtiques per avaluar la variabilitat d'estalvi de temps.
L'èxit del mètode SAGE s'aconsegueix mitjançant una aplicació acurada de mètodes de ciència de dades/ML i coneixements específics del domini.Concretament, t-SNE s'utilitza per realitzar la reducció de la dimensionalitat, que preserva l'estructura de covariància de les dades d'alta dimensió i facilita la visualització de la topologia de la covariància.Les dades es disposen en forma de ratlles i covariàncies (figura 2A), cosa que indica que les mesures basades purament en la distància (com ara les K-mitjanes) no són adequades perquè solen utilitzar una distribució de base gaussiana (circular) (que es parla a la Nota S2). .El mètode DBSCAN és adequat per a qualsevol topologia de covariància.Sempre que presteu atenció a la configuració dels paràmetres, es pot proporcionar una identificació fiable.El cost computacional de l'algorisme t-SNE és elevat, la qual cosa limita la seva aplicació actual a una quantitat més gran de dades, la qual cosa significa que és difícil d'aplicar a camps profunds o variables en el temps.S'està treballant sobre l'escalabilitat de t-SNE.Com que la distància KL és fàcil de paral·lelitzar, l'algorisme t-SNE té un bon potencial d'expansió en el futur (35).Fins ara, altres mètodes prometedors de reducció de la dimensionalitat que poden reduir millor la mida inclouen tècniques d'aproximació i projecció de múltiples unificades (UMAP), però és necessària una avaluació en el context de les dades oceàniques.El significat d'una millor escalabilitat és, per exemple, classificar climes globals o models amb complexitat diferent en una capa mixta.Les àrees que no es classifiquen per SAGE a cap província es poden considerar com els punts negres restants a la figura 2A.Geogràficament, aquestes àrees es troben principalment en zones altament estacionals, la qual cosa suggereix que la captura de províncies ecològiques que canvien amb el temps proporcionarà una millor cobertura.
Per construir el mètode SAGE, s'han utilitzat idees de sistemes complexos/ciència de dades, utilitzant la capacitat de determinar clústers de grups funcionals (la possibilitat d'estar molt a prop en un espai d'11 dimensions) i determinar províncies.Aquestes províncies representen volums específics al nostre espai de fase t-SNE 3D.De la mateixa manera, la part de Poincaré es pot utilitzar per avaluar el "volum" de l'espai d'estats ocupat per la trajectòria per determinar el comportament "normal" o "caòtic" (36).Per a la sortida del model estàtic d'11 dimensions, el volum ocupat després de convertir les dades en un espai de fase 3D es pot explicar de manera similar.La relació entre àrea geogràfica i àrea en l'espai de fase 3D no és senzilla, però es pot explicar en termes de similitud ecològica.Per aquest motiu, es prefereix la mesura de dissimilaritat BC més convencional.
El treball futur reutilitzarà el mètode SAGE per a dades de canvi estacional per avaluar la variabilitat espacial de les províncies i AEP identificades.L'objectiu futur és utilitzar aquest mètode per ajudar a determinar quines províncies es poden determinar mitjançant mesures per satèl·lit (com ara Chl-a, reflectivitat de teledetecció i temperatura de la superfície del mar).Això permetrà l'avaluació de la teledetecció dels components ecològics i un seguiment altament flexible de les províncies ecològiques i la seva variabilitat.
L'objectiu d'aquesta investigació és introduir el mètode SAGE, que defineix una província ecològica a través de la seva estructura de comunitat de plàncton única.Aquí es proporcionarà informació més detallada sobre el model físic/biogeoquímic/ecosistema i la selecció de paràmetres dels algorismes t-SNE i DBSCAN.
Els components físics del model provenen de l'estimació de la circulació oceànica i el clima [ECCOv4;(37) l'estimació de l'estat global descrita per (38).La resolució nominal de l'estimació estatal és d'1/5.El mètode dels mínims quadrats amb el mètode del multiplicador lagrangià s'utilitza per obtenir les condicions inicials i de contorn i els paràmetres interns del model ajustats per observació, generant així un model de cicle general del MIT (MITgcm) (39), el model Després de l'optimització, els resultats poden ser rastrejat i observat.
La biogeoquímica/ecosistema té una descripció més completa (és a dir, equacions i valors de paràmetres) a (2).El model captura la circulació de C, N, P, Si i Fe a través de basses inorgàniques i orgàniques.La versió que s'utilitza aquí inclou 35 espècies de fitoplàncton: 2 espècies de microprocariotes i 2 espècies de microeucariotes (adequades per a entorns baixos en nutrients), 5 espècies de Cryptomonas sphaeroides (amb recobriment de carbonat de calci), 5 espècies de diazoni (Pot fixar nitrogen, per tant no està limitat) la disponibilitat de nitrogen inorgànic dissolt), 11 diatomees (que formen una coberta silícea), 10 flagel·lats vegetatius mixtes (poden fotosintetitzar i menjar un altre plàncton) i 16 zooplàncton (pasturar amb un altre plàncton).Aquests s'anomenen "grups funcionals biogeoquímics" perquè tenen diferents efectes sobre la biogeoquímica marina (40, 41) i s'utilitzen sovint en estudis d'observació i models.En aquest model, cada grup funcional es compon de diversos plànctons de diferents mides, amb un abast de 0,6 a 2500 μm de diàmetre esfèric equivalent.
Els paràmetres que afecten el creixement, el pasturatge i l'enfonsament del fitoplàncton estan relacionats amb la mida, i hi ha diferències específiques entre els sis grups funcionals del fitoplàncton (32).Malgrat els diferents marcs físics, els resultats dels 51 components de plàncton del model s'han utilitzat en una sèrie d'estudis recents (42-44).
Del 1992 al 2011, el model d'acoblament físic/biogeoquímic/ecosistema va funcionar durant 20 anys.La sortida del model inclou la biomassa de plàncton, la concentració de nutrients i la taxa de subministrament de nutrients (DIN, PO4, Si i Fe).En aquest estudi, la mitjana de 20 anys d'aquestes sortides es va utilitzar com a input de la província ecològica.Chl, la distribució de la biomassa de plàncton i la concentració de nutrients i la distribució dels grups funcionals es comparen amb observacions per satèl·lit i in situ [vegeu (2, 44), Nota S1 i figura.S1 a S3].
Per al mètode SAGE, la principal font d'aleatorietat prové del pas t-SNE.L'atzar dificulta la repetibilitat, la qual cosa significa que els resultats no són fiables.El mètode SAGE prova rigorosament la robustesa determinant un conjunt de paràmetres de t-SNE i DBSCAN, que poden identificar de manera consistent els clústers quan es repeteixen.La determinació de la "perplexitat" del paràmetre t-SNE es pot entendre com la determinació del grau en què el mapeig de dimensions altes a baixes hauria de respectar les característiques locals o globals de les dades.S'ha arribat a la confusió de 400 i 300 iteracions.
Per a l'algorisme de agrupació DBSCAN, cal determinar la mida mínima i la mètrica de distància dels punts de dades del clúster.El nombre mínim es determina sota la guia d'experts.Aquest coneixement sap què s'adapta al marc i la resolució de modelització numèrica actuals.El nombre mínim és 100. Es pot considerar un valor mínim superior (menys de <135 abans que el límit superior del verd s'ampliï), però no pot substituir el mètode d'agregació basat en la dissimilaritat BC.El grau de connexió (figura 6A) s'utilitza per establir el paràmetre ϵ, que és propici per a una cobertura més gran (figura 6B).La connectivitat es defineix com el nombre compost de clústers i és sensible al paràmetre ϵ.La connectivitat més baixa indica un ajust insuficient, agrupant les regions de manera artificial.Una connectivitat alta indica un sobreajust.El sobreajust també és problemàtic, perquè demostra que les conjectures aleatòries inicials poden conduir a resultats irreproducibles.Entre aquests dos extrems, un fort augment (normalment anomenat "colze") indica el millor ϵ.A la figura 6A, es veu un fort augment a l'àrea de l'altiplà (groc, > 200 cúmuls), seguit d'una forta disminució (verd, 100 cúmuls), fins a uns 130, envoltat de molt pocs cúmuls (blau, <60 cúmuls) ).En almenys 100 zones blaves, un cúmul domina tot l'oceà (ϵ <0,42), o la major part de l'oceà no està classificat i es considera soroll (ϵ> 0,99).L'àrea groga té una distribució de clúster molt variable i irreproducible.A mesura que ϵ disminueix, el soroll augmenta.La zona verda que augmenta bruscament s'anomena colze.Aquesta és una regió òptima.Tot i que s'utilitza la probabilitat t-SNE, la dissimilaritat BC dins de la província encara es pot utilitzar per determinar agrupacions fiables.Utilitzant la figura 6 (A i B), establiu ϵ a 0,39.Com més gran sigui el nombre mínim, menor serà la probabilitat d'assolir la ϵ que permeti una classificació fiable, i més gran serà la zona verda amb un valor superior a 135. L'ampliació d'aquesta àrea indica que el colze serà més difícil de trobar o no serà existent.
Després de configurar els paràmetres de t-SNE, s'utilitzarà el nombre total de clústers trobats com a mesura de connectivitat (A) i el percentatge de dades assignades al clúster (B).El punt vermell indica la millor combinació de cobertura i connectivitat.El nombre mínim s'estableix segons el nombre mínim relacionat amb l'ecologia.
Per obtenir materials addicionals per a aquest article, consulteu http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Aquest és un article d'accés obert distribuït sota els termes de la llicència de reconeixement de Creative Commons.L'article permet l'ús, la distribució i la reproducció sense restriccions en qualsevol mitjà amb la condició que l'obra original sigui degudament citada.
Nota: només us demanem que proporcioneu la vostra adreça de correu electrònic perquè la persona que recomaneu a la pàgina sàpiga que voleu que vegi el correu electrònic i que no és correu brossa.No capturarem cap adreça de correu electrònic.
Aquesta pregunta s'utilitza per comprovar si sou un visitant i evitar l'enviament automàtic de correu brossa.
El Ministeri Global d'Ecologia Marina està decidit a resoldre problemes complexos i utilitza ML no supervisat per explorar les estructures de la comunitat.
El Ministeri Global d'Ecologia Marina està decidit a resoldre problemes complexos i utilitza ML no supervisat per explorar les estructures de la comunitat.
Hora de publicació: 12-gen-2021