Clarifying ecological complexity: unsupervised learning determines the global marine ecological province

Proponse un método de aprendizaxe non supervisado para determinar provincias ecolóxicas mariñas globais (ecoprovincias) baseándose na estrutura da comunidade de plancto e os datos do fluxo de nutrientes.O método de provincias ecolóxicas integradas sistemáticas (SAGE) pode identificar provincias ecolóxicas en modelos de ecosistemas altamente non lineais.Para adaptarse á covarianza non gaussiana dos datos, SAGE usa t random neighbor embedding (t-SNE) para reducir a dimensionalidade.Coa axuda da aplicación de ruído baseada no algoritmo de agrupación espacial baseada en densidade (DBSCAN), pódense identificar máis de cen provincias ecolóxicas.Usando o mapa de conectividade con diferenzas ecolóxicas como medida de distancia, unha provincia ecolóxica agregada robusta (AEP) defínese obxectivamente a través de provincias ecolóxicas aniñadas.Usando AEPs, explorou o control da taxa de subministración de nutrientes na estrutura da comunidade.A ecoprovincia e a AEP son únicas e poden axudar á interpretación do modelo.Poden facilitar as comparacións entre modelos e mellorar a comprensión e o seguimento dos ecosistemas mariños.
As provincias son rexións onde a bioxeografía complexa do mar ou da terra se organiza en áreas coherentes e significativas (1).Estas provincias son moi importantes para comparar e contrastar localizacións, caracterizar observacións, vixilancia e protección.As interaccións complexas e non lineais que producen estas provincias fan que os métodos de aprendizaxe automática (ML) non supervisados sexan moi axeitados para determinar provincias de forma obxectiva, porque a covarianza nos datos é complexa e non gaussiana.Aquí, proponse un método ML, que identifica sistematicamente provincias ecolóxicas mariñas únicas (ecoprovincias) a partir do modelo físico/ecosistema global tridimensional (3D) de Darwin (2).O termo "único" úsase para indicar que a área identificada non se solapa suficientemente con outras áreas.Este método chámase método de Provincia Ecolóxica Integrada do Sistema (SAGE).Para realizar unha clasificación útil, un método de algoritmo debe permitir (i) a clasificación global e (ii) a análise multi-escala que se poida aniñar/agregar no espazo e no tempo (3).Nesta investigación propúxose primeiro o método SAGE e discutíronse as provincias ecolóxicas identificadas.As ecoprovincias poden promover a comprensión dos factores que controlan a estrutura da comunidade, proporcionar información útil para as estratexias de seguimento e axudar a rastrexar os cambios no ecosistema.
As provincias terrestres adoitan clasificarse segundo semellanzas no clima (precipitación e temperatura), solo, vexetación e fauna, e utilízanse para a xestión auxiliar, a investigación da biodiversidade e o control de enfermidades (1, 4).As provincias mariñas son máis difíciles de definir.A maioría dos organismos son microscópicos, con límites fluídos.Longhurst et al.(5) Proporcionou unha das primeiras clasificacións mundiais do Ministerio de Oceanografía en función das condicións ambientais.A definición destas provincias de "Longhurst" inclúe variables como a taxa de mestura, a estratificación e a irradiación, así como a ampla experiencia de Longhurst como oceanógrafo mariño, que ten outras condicións importantes para os ecosistemas mariños.Longhurst utilizouse amplamente, por exemplo, para avaliar a produción primaria e os fluxos de carbono, axudar á pesca e planificar actividades de observación in situ (5-9).Para definir as provincias de forma máis obxectiva, utilizáronse métodos como a lóxica difusa e a agrupación/estatística rexional non supervisada (9-14).O obxectivo destes métodos é identificar estruturas significativas que poidan identificar provincias nos datos de observación dispoñibles.Por exemplo, as provincias mariñas dinámicas (12) usan mapas autoorganizados para reducir o ruído e usan agrupacións xerárquicas (baseadas en árbores) para determinar produtos de cores mariñas derivados de satélites rexionais [clorofila a (Chl-a), altura normalizada da liña de fluorescencia e materia orgánica disolta coloreada] e campo físico (temperatura e salinidade da superficie do mar, topografía dinámica absoluta e xeo mariño).
A estrutura comunitaria do plancto é preocupante porque a súa ecoloxía ten unha gran influencia nos niveis máis altos de nutrientes, na absorción de carbono e no clima.Non obstante, aínda é un obxectivo difícil e esquivo determinar unha provincia ecolóxica global baseada na estrutura da comunidade de plancto.Os satélites de cores mariños poden proporcionar información sobre a clasificación de gran groso do fitoplancto ou suxerir as vantaxes dos grupos funcionais (15), pero actualmente non poden proporcionar información detallada sobre a estrutura da comunidade.As enquisas recentes [p. ex. Tara Ocean (16)] proporcionan medicións sen precedentes da estrutura comunitaria;actualmente, só hai escasas observacións in situ a escala global (17).Estudos anteriores determinaron en gran medida a "Provincia bioxeoquímica" (12, 14, 18) baseándose na determinación de semellanzas bioquímicas (como a produción primaria, Chl e luz dispoñible).Aquí, o modelo numérico utilízase para producir [Darwin(2)], e a provincia ecolóxica determínase segundo a estrutura comunitaria e o fluxo de nutrientes.O modelo numérico utilizado neste estudo ten cobertura global e pódese comparar cos datos de campo existentes (17) e os campos de teledetección (Nota S1).Os datos do modelo numérico utilizados neste estudo teñen a vantaxe da cobertura global.O ecosistema modelo está formado por 35 especies de fitoplancto e 16 especies de zooplancto (consulte os materiais e métodos).Os tipos de plancto modelo interactúan de forma non lineal con estruturas de covarianza non gaussianas, polo que os métodos de diagnóstico sinxelos non son axeitados para identificar patróns únicos e consistentes en estruturas comunitarias emerxentes.O método SAGE que aquí se presenta proporciona unha nova forma de comprobar a saída de modelos Darwin complexos.
As poderosas capacidades transformadoras da tecnoloxía de ciencia de datos/ML poden permitir solucións de modelos extremadamente complexas para revelar estruturas complexas pero robustas na covarianza de datos.Un método robusto defínese como un método que pode reproducir fielmente os resultados dentro dun intervalo de erro determinado.Mesmo en sistemas sinxelos, determinar patróns e sinais robustos pode ser un reto.Ata que non se determine a razón que conduce ao patrón observado, a complexidade emerxente pode parecer complicada/difícil de resolver.O proceso clave para establecer a composición do ecosistema é de natureza non lineal.A existencia de interaccións non lineais pode confundir a clasificación robusta, polo que é necesario evitar métodos que fan suposicións fortes sobre a distribución estatística básica da covarianza de datos.Os datos de alta dimensión e non lineais son comúns na oceanografía e poden ter unha estrutura de covarianza cunha topoloxía complexa non gaussiana.Aínda que os datos cunha estrutura de covarianza non gaussiana poden dificultar unha clasificación robusta, o método SAGE é novo porque está deseñado para identificar clusters con topoloxías arbitrarias.
O obxectivo do método SAGE é identificar obxectivamente os patróns emerxentes que poden axudar a unha maior comprensión ecolóxica.Seguindo un fluxo de traballo baseado en clusters semellante ao (19), as variables ecolóxicas e de fluxo de nutrientes utilízanse para determinar o único cluster dos datos, chamado provincia ecolóxica.O método SAGE proposto neste estudo (Figura 1) reduce primeiro a dimensionalidade de 55 a 11 dimensións sumando os grupos funcionais do plancto definidos a priori (ver Materiais e Métodos).Usando o método t-random neighbor embedding (t-SNE), o tamaño redúcese aínda máis proxectando a probabilidade no espazo 3D.A agrupación sen supervisión pode identificar áreas ecoloxicamente próximas [agrupación espacial baseada en densidade (DBSCAN) para aplicacións baseadas no ruído].Tanto t-SNE como DBSCAN son aplicables aos datos do modelo numérico do ecosistema non lineal inherente.A continuación, reproxecta sobre a terra a provincia ecolóxica resultante.Identificáronse máis de cen provincias ecolóxicas únicas, aptas para a investigación rexional.Co fin de considerar o modelo de ecosistema globalmente consistente, úsase o método SAGE para agregar as provincias ecolóxicas en provincias ecolóxicas agregadas (AEP) para mellorar a eficacia das provincias ecolóxicas.O nivel de agregación (chamado "complexidade") pódese axustar ao nivel de detalle necesario.Determine a complexidade mínima dun AEP robusto.O foco da selección é o método SAGE e explora os casos AEP de menor complexidade para determinar o control da estrutura comunitaria de emerxencia.Despois pódense analizar os patróns para proporcionar coñecementos ecolóxicos.O método que aquí se presenta tamén se pode usar para a comparación de modelos de forma máis extensa, por exemplo, avaliando as localizacións de provincias ecolóxicas similares que se atopan en modelos diferentes para resaltar diferenzas e semellanzas e comparar modelos.
(A) Diagrama esquemático do fluxo de traballo para determinar a provincia ecolóxica;utilizando a suma do grupo funcional para reducir os datos orixinais de 55 dimensións a unha saída do modelo de 11 dimensións, incluíndo a biomasa de sete planctos funcionais/nutrientes e catro taxas de subministración de nutrientes.Valor insignificante e área de cuberta de xeo duradeira.Os datos foron estandarizados e estandarizados.Proporcione datos de 11 dimensións ao algoritmo t-SNE para resaltar combinacións de características estatisticamente similares.DBSCAN seleccionará coidadosamente o clúster para establecer o valor do parámetro.Finalmente proxecta os datos de volta á proxección de latitude/lonxitude.Teña en conta que este proceso repítese 10 veces porque se pode xerar unha lixeira aleatoriedade ao aplicar t-SNE.(B) explica como obter o AEP repetindo o fluxo de traballo en (A) 10 veces.Para cada unha destas 10 implementacións, determinouse a matriz de disemellanza interprovincial de Bray-Curtis (BC) en función da biomasa de 51 tipos de fitoplancto.Determine a diferenza de BC entre provincias, desde a complexidade 1 AEP ata a complexidade total 115. O punto de referencia BC está establecido pola provincia de Longhurst.
O método SAGE usa a saída do modelo numérico 3D físico/ecosistema global para definir a provincia ecolóxica [Darwin (2);ver Materiais e Métodos e Nota S1].Os compoñentes do ecosistema están compostos por 35 especies de fitoplancto e 16 especies de zooplancto, con sete grupos funcionais predefinidos: procariotas e eucariotas adaptados a ambientes con poucos nutrientes, coccidios con recubrimento de carbonato cálcico e gran fixación de nitróxeno Nutrientes nitróxenos (normalmente ausentes). nutrientes importantes), con cuberta silícea, poden facer fotosíntese doutros planctos e pastorear flaxelados de nutrientes mixtos e pastores de zooplancto.O tamaño é de 0,6 a 2500 μm de diámetro esférico equivalente.O modelo de distribución do tamaño do fitoplancto e da agrupación funcional recolle as características xerais observadas nas observacións por satélite e in situ (ver as figuras S1 a S3).A semellanza entre o modelo numérico e o océano observado indica que as provincias definidas polo modelo poden ser aplicables ao océano in situ.Teña en conta que este modelo só captura certa diversidade de fitoplancto e só certos intervalos de forzamento físico e químico do océano in situ.O método SAGE pode permitir que as persoas comprendan mellor o mecanismo de control altamente rexional da estrutura da comunidade modelo.
Ao incluír só a suma da biomasa superficial (cun tempo medio de 20 anos) en cada grupo funcional do plancto, pódese reducir a dimensionalidade dos datos.Despois de que estudos anteriores mostrasen o seu papel clave na definición da estrutura da comunidade, tamén incluíu termos de fontes de superficie para os fluxos de nutrientes (subministro de nitróxeno, ferro, fosfato e ácido silícico) [p. ex. (20, 21)].A suma de grupos funcionais reduce o problema de 55 (51 fluxos de plancto e 4 de nutrientes) a 11 dimensións.Neste estudo inicial, debido ás restricións computacionais impostas polo algoritmo, non se consideraron a variabilidade de profundidade e tempo.
O método SAGE é capaz de identificar relacións importantes entre procesos non lineais e características clave das interaccións entre a biomasa de grupos funcionais e o fluxo de nutrientes.Usando datos de 11 dimensións baseados en métodos euclidianos de aprendizaxe a distancia (como K-means) non pode obter provincias fiables e reproducibles (19, 22).Isto débese a que non se atopa ningunha forma gaussiana na distribución básica da covarianza dos elementos clave que definen a provincia ecolóxica.As K-medias das células de Voronoi (liñas rectas) non poden reter a distribución básica non gaussiana.
A biomasa de sete grupos funcionais de plancto e catro fluxos de nutrientes forman un vector x de 11 dimensións.Polo tanto, x é un campo vectorial na cuadrícula do modelo, onde cada elemento xi representa un vector de 11 dimensións definido na cuadrícula horizontal do modelo.Cada índice i identifica de forma única un punto da grella na esfera, onde (lon, lat) = (ϕi, θi).Se a biomasa da unidade de reixa modelo é inferior a 1,2 × 10-3 mg Chl/m3 ou a taxa de cobertura de xeo supera o 70 %, utilízase o rexistro de datos de biomasa e descartarase.Os datos están normalizados e estandarizados, polo que todos os datos están no intervalo de [0 a 1], a media elimínase e escala a varianza unitaria.Isto faise para que as características (fluxo de biomasa e nutrientes) non estean limitadas polo contraste no rango de valores posibles.A agrupación debe capturar a relación de cambio a partir da distancia de probabilidade clave entre as características en lugar da distancia xeográfica.Ao cuantificar estas distancias, xorden características importantes, mentres que se descartan detalles innecesarios.Dende o punto de vista ecolóxico, isto é necesario porque algúns tipos de fitoplancto con pouca biomasa poden ter maiores efectos bioxeoquímicos, como a fixación de nitróxeno por bacterias diazotróficas.Ao estandarizar e normalizar datos, destacaranse este tipo de covariables.
Ao enfatizar a proximidade das características no espazo de alta dimensión na representación de baixa dimensión, utilízase o algoritmo t-SNE para facer máis claras as rexións similares existentes.Traballos anteriores destinados a construír redes neuronais profundas para aplicacións de teledetección utilizaron t-SNE, que demostrou a súa habilidade para separar as características clave (23).Este é un paso necesario para identificar a agrupación robusta nos datos das características evitando solucións non converxentes (nota S2).Usando núcleos gaussianos, t-SNE preserva as propiedades estatísticas dos datos mapeando cada obxecto de gran dimensión a un punto do espazo de fase 3D, garantindo así que a probabilidade de obxectos similares nas direccións alta e baixa sexa alta nun punto alto. espazo dimensional (24).Dado un conxunto de N obxectos de alta dimensión x1,...,xN, o algoritmo t-SNE redúcese minimizando a diverxencia de Kullback-Leibler (KL) (25).A diverxencia KL é unha medida do diferente que é unha distribución de probabilidade dunha segunda distribución de probabilidade de referencia, e pode avaliar eficazmente a posibilidade de correlación entre representacións de baixa dimensión de características de alta dimensión.Se xi é o i-ésimo obxecto no espazo N-dimensional, xj é o j-ésimo obxecto no espazo N-dimensional, yi é o i-ésimo obxecto no espazo de baixa dimensión e yj é o j-ésimo obxecto en baixo. -dimensional, entón t -SNE define a probabilidade de semellanza ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), e para o conxunto de redución de dimensionalidade q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
A figura 2A ilustra o efecto de reducir a biomasa e os vectores de fluxo de nutrientes da combinación de 11 dimensións a 3D.A motivación de aplicar t-SNE pódese comparar coa motivación da análise de compoñentes principais (PCA), que utiliza o atributo de varianza para enfatizar a área/atributo dos datos, reducindo así a dimensionalidade.O método t-SNE resultou superior ao PCA ao proporcionar resultados fiables e reproducibles para o Eco-Ministerio (ver Nota S2).Isto pode deberse a que a suposición de ortogonalidade da PCA non é adecuada para identificar interaccións críticas entre características interactivas altamente non lineais, porque a PCA céntrase en estruturas de covarianza lineal (26).Usando datos de teledetección, Lunga et al.(27) ilustra como usar o método SNE para destacar características espectrais complexas e non lineais que se desvían da distribución gaussiana.
(A) Unha taxa de subministración de nutrientes modelada, unha biomasa de grupo funcional de fitoplancto e zooplancto debuxada polo algoritmo t-SNE e coloreada por provincia usando DBSCAN.Cada punto representa un punto no espazo de gran dimensión, como se mostra na Figura 6B, a maioría dos puntos son capturados.Os eixes refírense aos tamaños "t-SNE" 1, 2 e 3. (B) A proxección xeográfica da provincia atopada por DBSCAN na cuadrícula de latitude-lonxitude da orixe.A cor debe considerarse como calquera cor, pero debe corresponder a (A).
Os puntos do gráfico de dispersión t-SNE da Figura 2A están asociados respectivamente coa latitude e a lonxitude.Se os dous puntos da Figura 2A están preto un do outro, é porque os seus fluxos de biomasa e nutrientes son similares, non pola proximidade xeográfica.As cores da Figura 2A son agrupacións descubertas mediante o método DBSCAN (28).Cando se buscan observacións densas, o algoritmo DBSCAN usa a distancia na representación 3D entre os puntos (ϵ = 0,39; para obter información sobre esta elección, consulte Materiais e métodos), e é necesario o número de puntos similares para definir o clúster (aquí 100 puntos, ver arriba).O método DBSCAN non fai ningunha suposición sobre a forma ou o número de clústeres nos datos, como se mostra a continuación:
3) Para todos os puntos identificados como dentro da distancia dentro, repita o paso 2 iterativamente para determinar o límite do clúster.Se o número de puntos é superior ao valor mínimo establecido, desígnase como un clúster.
Os datos que non cumpren a métrica mínima do membro do clúster e da distancia ϵ considéranse "ruído" e non se lles asigna unha cor.DBSCAN é un algoritmo rápido e escalable con rendemento O(n2) no peor dos casos.Para a análise actual, en realidade non é aleatoria.O número mínimo de puntos determínase mediante avaliación de expertos.Despois de axustar a distancia despois, o resultado non é o suficientemente estable no rango de ≈±10.Esta distancia establécese mediante a conectividade (Figura 6A) e a porcentaxe de cobertura do océano (Figura 6B).A conectividade defínese como o número composto de clusters e é sensible ao parámetro ϵ.A menor conectividade indica unha axuste insuficiente, agrupando as rexións artificialmente.A alta conectividade indica unha sobreadaptación.É concebible utilizar un mínimo máis alto, pero se o mínimo supera ca, é imposible conseguir unha solución fiable.135 (Para máis detalles, consulte Materiais e métodos).
Os 115 cúmulos identificados na Figura 2A proxéctanse de novo na Terra na Figura 2B.Cada cor corresponde a unha combinación coherente de factores bioxeoquímicos e ecolóxicos identificados por DBSCAN.Unha vez que se determinan os cúmulos, utilízase a asociación de cada punto da Figura 2A cunha latitude e lonxitude específicas para proxectar os cúmulos de volta á área xeográfica.A figura 2B ilustra isto coas mesmas cores do grupo que a figura 2A.As cores semellantes non deben interpretarse como semellanza ecolóxica, xa que son asignadas pola orde na que o algoritmo descubre os clusters.
A área da Figura 2B pode ser cualitativamente similar a unha área establecida na física e/ou bioxeoquímica do océano.Por exemplo, os cúmulos do Océano Austral son simétricos pola zona, aparecen vórtices oligotróficos e a transición brusca indica a influencia dos ventos alisios.Por exemplo, no Pacífico ecuatorial vense diferentes rexións relacionadas co ascenso.
Para comprender o medio ecolóxico da Eco-Provincia, utilizouse unha variación do índice de diferenza de Bray-Curtis (BC) (29) para avaliar a ecoloxía no clúster.O indicador BC é un dato estatístico usado para cuantificar a diferenza na estrutura comunitaria entre dous sitios diferentes.A medición BC é aplicable á biomasa de 51 especies de fitoplancto e zooplancto BCninj = 1-2CninjSni + Snj
BCninj refírese á semellanza entre a combinación ni e a combinación nj, onde Cninj é o valor mínimo dun só tipo de biomasa que existe nas dúas combinacións ni e nj, e Sni representa a suma de todas as biomasas que existen nas dúas combinacións ni e Snj.A diferenza BC é semellante á medida de distancia, pero opera no espazo non euclidiano, o que é probable que sexa máis axeitado para os datos ecolóxicos e a súa interpretación.
Para cada clúster identificado na Figura 2B, pódese avaliar a semellanza de BC intraprovincial e interprovincial.A diferenza BC dentro dunha provincia refírese á diferenza entre o valor medio da provincia e cada punto da provincia.A diferenza entre as provincias de BC refírese á semellanza entre unha provincia e outras.A figura 3A mostra unha matriz BC simétrica (0, negro: completamente correspondente; 1, branco: completamente diferente).Cada liña do gráfico mostra un patrón nos datos.A figura 3B mostra a importancia xeográfica dos resultados de BC na figura 3A para cada provincia.Para unha provincia nunha zona de pouca nutrición e baixos nutrientes, a Figura 3B mostra que a simetría de grandes áreas ao redor do ecuador e do Océano Índico é basicamente similar, pero as latitudes máis altas e as áreas de afloramento son significativamente diferentes.
(A) O grao de diferenza BC avaliado para cada provincia baseándose na media global da superficie global de 20 anos de 51 planctos.Observe a simetría esperada dos valores.(B) A proxección espacial dunha columna (ou fila).Para unha provincia nun círculo distrófico, avaliouse a distribución global da medida de semellanza BC e a media global de 20 anos.O negro (BC = 0) significa a mesma área e o branco (BC = 1) non significa ningunha semellanza.
A figura 4A ilustra a diferenza en BC dentro de cada provincia na figura 2B.Determinado usando a combinación media da área media nun cluster, e determinando a disemellanza entre o BC e a media de cada punto da cuadrícula na provincia, mostra que o método SAGE pode ben separar 51 especies en función da semellanza ecolóxica Tipo de datos do modelo.A disemellanza media global do cluster BC dos 51 tipos é de 0,102±0,0049.
(A, B e D) A diferenza de BC dentro da provincia avalíase como a diferenza media de BC entre cada comunidade de puntos de cuadrícula e a provincia media, e a complexidade non se reduce.(2) A diferenza media global intraprovincial de BC é de 0,227±0,117.Este é o punto de referencia da clasificación baseada na motivación ecolóxica que propón este traballo [liña verde en (C)].(C) Diferenza media intraprovincial BC: a liña negra representa a diferenza intra-provincial BC con complexidade crecente.2σ procede de 10 repeticións do proceso de identificación da ecoprovincia.Para a complexidade total das provincias descubertas por DBSCAN, (A) mostra que a disemellanza BC na provincia é 0,099, e a clasificación de complexidade proposta por (C) é 12, o que resulta nunha disemellanza BC de 0,200 na provincia.como mostra a imaxe.(D).
Na figura 4B, a biomasa de 51 tipos de plancto úsase para representar a diferenza equivalente de BC na provincia de Longhurst.A media global de cada provincia é de 0,227, e a desviación estándar dos puntos da cuadrícula con referencia á diferenza na provincia de BC é de 0,046.Este é maior que o clúster identificado na Figura 1B.Pola contra, usando a suma dos sete grupos funcionais, a diferenza media de BC intratemporada en Longhurst aumentou a 0,232.
O mapa global da ecoprovincia ofrece detalles complexos de interaccións ecolóxicas únicas e fixéronse melloras ao utilizar toda a estrutura do ecosistema da provincia de Longhurst.Espérase que o Ministerio de Ecoloxía proporcione información sobre o proceso de control do ecosistema do modelo numérico, e esta visión axudará á exploración do traballo de campo.Para os efectos desta investigación, non é posible mostrar completamente máis de cen provincias.A seguinte sección presenta o método SAGE que resume as provincias.
Unha das finalidades da provincia é promover a comprensión da localización e xestión da provincia.Para determinar situacións de emerxencia, o método da Figura 1B ilustra a anidación de provincias ecoloxicamente similares.As ecoprovincias agrúpanse en función da semellanza ecolóxica, e esta agrupación de provincias denomínase AEP.Establece unha "complexidade" axustable en función do número total de provincias a considerar.O termo "complexidade" úsase porque permite axustar o nivel de atributos de emerxencia.Para definir agregacións significativas, utilízase como referencia a diferenza intra-provincial media de BC de 0,227 respecto de Longhurst.Por debaixo deste punto de referencia, as provincias combinadas xa non se consideran útiles.
Como se mostra na Figura 3B, as provincias ecolóxicas globais son coherentes.Usando diferenzas interprovinciais BC, pódese ver que algunhas configuracións son moi "comúns".Inspirados pola xenética e os métodos da teoría de grafos, os "gráficos conectados" utilízanse para ordenar >100 provincias en función das provincias máis semellantes a elas.A métrica de "conectividade" aquí determínase usando a disimilitude interprovincial de BC (30).O número de provincias cun espazo maior para a clasificación de > 100 provincias pódese denominar complexidade.AEP é un produto que clasifica máis de 100 provincias como as provincias ecolóxicas máis dominantes/máis próximas.Cada provincia ecolóxica atribúeselle á provincia ecolóxica dominante/moi conectada que se lle pareza máis.Esta agregación determinada pola diferenza BC permite unha aproximación aniñada á ecoloxía global.
A complexidade seleccionada pode ser calquera valor desde 1 ata a complexidade completa da FIG.2A.A menor complexidade, a AEP pode dexenerar debido ao paso de redución da dimensionalidade probabilística (t-SNE).A dexeneración significa que as provincias ecolóxicas poden ser asignadas a diferentes AEP entre iteracións, cambiando así a área xeográfica cuberta.A Figura 4C ilustra a propagación das diferenzas de BC dentro das provincias en AEPs de complexidade crecente en 10 implementacións (ilustración na Figura 1B).Na Figura 4C, 2σ (área azul) é unha medida da degradación en 10 implementacións, e a liña verde representa o punto de referencia de Longhurst.Os feitos demostraron que a complexidade de 12 pode manter a diferenza de BC na provincia por debaixo do punto de referencia de Longhurst en todas as implementacións e manter unha degradación de 2σ relativamente pequena.En resumo, a complexidade mínima recomendada é de 12 AEP, e a diferenza media intraprovincia de BC avaliada mediante 51 tipos de plancto é de 0,198±0,013, como se mostra na Figura 4D.Usando a suma de sete grupos funcionais de plancto, a diferenza media de BC dentro da provincia é de 2σ en lugar de 0,198±0,004.A comparación entre as diferenzas de BC calculadas coa biomasa total dos sete grupos funcionais ou a biomasa dos 51 tipos de plancto mostra que aínda que o método SAGE é aplicable á situación de 51 dimensións, é para a biomasa total dos sete grupos funcionais. Para adestramento.
Dependendo do propósito de calquera investigación, pódense considerar diferentes niveis de complexidade.Os estudos rexionais poden requirir unha complexidade total (é dicir, as 115 provincias).Como exemplo e para claridade, considere a complexidade mínima recomendada de 12.
Como exemplo da utilidade do método SAGE, utilízanse aquí 12 AEP cunha complexidade mínima de 12 para explorar o control da estrutura comunitaria de emerxencia.A Figura 5 ilustra os coñecementos ecolóxicos agrupados por AEP (de A a L): na estequiometría de Redfield, a extensión xeográfica (Figura 5C), a composición da biomasa do grupo funcional (Figura 5A) e a subministración de nutrientes (Figura 5B) realízanse mediante N Zoomed.Móstrase a relación (N:Si:P:Fe, 1:1:16:16×103).Para este último panel, P multiplicado por 16 e Fe multiplicado por 16×103, polo que a gráfica de barras equivale ás necesidades nutricionais do fitoplancto.
As provincias clasifícanse en 12 AEPs A a L. (A) Biomasa (mgC/m3) de ecosistemas en 12 provincias.(B) A taxa de fluxo de nutrientes de nitróxeno inorgánico disolto (N), ferro (Fe), fosfato (P) e ácido silícico (Si) (mmol/m3 por ano).Fe e P multiplícanse por 16 e 16×103, respectivamente, de xeito que as tiras están estandarizadas segundo os requisitos de estequiometría do fitoplancto.(C) Teña en conta a diferenza entre as rexións polares, os ciclóns subtropicais e as principais rexións estacionais/en ascenso.Os postos de vixilancia sinálanse do seguinte xeito: 1, PRAZAS;2, ALOHA;3, estación P;e 4, BATS.
O AEP identificado é único.Hai certa simetría ao redor do ecuador nos océanos Atlántico e Pacífico, e existe unha área similar pero ampliada no Océano Índico.Algunhas AEP abrazan o lado occidental do continente asociado ao ascenso.A Corrente Circumpolar do Polo Sur considérase unha gran característica zonal.O ciclón subtropical é unha serie complexa de AEP oligotrófico.Nestas provincias, o patrón familiar de diferenzas de biomasa entre os vórtices oligotróficos dominados polo plancto e as rexións polares ricas en diatomeas é obvio.
Os AEP cunha biomasa total de fitoplancto moi semellante poden ter estruturas comunitarias moi diferentes e cubrir diferentes áreas xeográficas, como D, H e K, que teñen unha biomasa total de fitoplancto similar.AEP H existe principalmente no océano Índico ecuatorial, e hai máis bacterias diazotróficas.A AEP D atópase en varias concas, pero é particularmente prominente no Pacífico ao redor de áreas de alto rendemento ao redor do afloramento ecuatorial.A forma desta provincia do Pacífico lembra a dun tren de ondas planetarias.Hai poucas diazobacterias en AEP D, e máis conos.En comparación coas outras dúas provincias, AEP K só se atopa nas terras altas do océano Ártico, e hai máis diatomeas e menos planctos.Cabe destacar que a cantidade de plancto nestas tres rexións tamén é moi diferente.Entre eles, a abundancia de plancto de AEP K é relativamente baixa, mentres que a de AEP D e H é relativamente alta.Polo tanto, a pesar da súa biomasa (e polo tanto semellante á Chl-a), estas provincias son bastante diferentes: as probas de provincias baseadas en Chl poden non captar estas diferenzas.
Tamén é obvio que algúns AEP con biomasa moi diferente poden ser similares en canto á estrutura da comunidade de fitoplancto.Por exemplo, isto é visible en AEP D e E. Están preto uns dos outros, e no Océano Pacífico, AEP E está preto da AEPJ altamente produtiva.Do mesmo xeito, non existe un vínculo claro entre a biomasa do fitoplancto e a abundancia do zooplancto.
A AEP pódese entender en función dos nutrientes que se lles proporcionan (Figura 5B).As diatomeas só existen onde hai unha ampla oferta de ácido silícico.Xeralmente, canto maior sexa a subministración de ácido silícico, maior será a biomasa de diatomeas.As diatomeas pódense ver en AEP A, J, K e L. A proporción da biomasa de diatomeas en relación con outro fitoplancto está determinada polo N, P e Fe proporcionados en relación coa demanda de diatomeas.Por exemplo, AEP L está dominada polas diatomeas.En comparación con outros nutrientes, o Si ten a maior oferta.Pola contra, a pesar da maior produtividade, AEP J ten menos diatomeas e menos subministración de silicio (todos e en relación con outros nutrientes).
As bacterias diazonio teñen a capacidade de fixar o nitróxeno, pero crecen lentamente (31).Coexisten con outro fitoplancto, onde o ferro e o fósforo son excesivos en relación á demanda de nutrientes non diazonios (20, 21).Cabe sinalar que a biomasa diazotrófica é relativamente alta, e a subministración de Fe e P é relativamente grande en relación coa subministración de N. Deste xeito, aínda que a biomasa total en AEP J é maior, a biomasa de diazonio en AEP H é maior que o de J. Teña en conta que AEP J e H son xeograficamente moi diferentes, e H está situado no océano Índico ecuatorial.
Se a estrutura única do ecosistema non se divide en provincias, os coñecementos obtidos a partir dos modelos de complexidade máis baixa dos 12 AEP non estarán tan claros.O AEP xerado por SAGE facilita a comparación coherente e simultánea de información complexa e de alta dimensión a partir de modelos de ecosistemas.AEP enfatiza eficazmente por que Chl non é un método bo e alternativo para determinar a estrutura comunitaria ou a abundancia de zooplancto a niveis máis altos de nutrientes.Unha análise detallada dos temas de investigación en curso está fóra do alcance deste artigo.O método SAGE proporciona unha forma de explorar outros mecanismos do modelo que é máis fácil de manexar que a visualización punto a punto.
O método SAGE proponse para axudar a clarificar datos ecolóxicos extremadamente complexos a partir de modelos numéricos físicos/bioxeoquímicos/de ecosistemas globais.A provincia ecolóxica está determinada pola biomasa total de grupos funcionais de plancto cruzado, a aplicación do algoritmo de redución da dimensionalidade de probabilidade t-SNE e a agrupación mediante o método ML non supervisado DBSCAN.A teoría interprovincial de diferenzas/grafos de BC para o método de anidación aplícase para derivar un AEP robusto que se pode usar para a interpretación global.En canto á construción, a Eco-Provincia e AEP son singulares.A nidificación de AEP pódese axustar entre a total complexidade da provincia ecolóxica orixinal e o limiar mínimo recomendado de 12 AEP.A anidación e a determinación da complexidade mínima de AEP considéranse pasos clave, porque a probabilidade de t-SNE dexenere AEPs de complexidade <12.O método SAGE é global, e a súa complexidade oscila entre > 100 AEP e 12. Para simplificar, o foco actual está na complexidade de 12 AEP globais.As investigacións futuras, especialmente os estudos rexionais, poden atopar útiles un subconxunto espacial máis pequeno das ecoprovincias globais, e poden agregarse nunha área máis pequena para aproveitar os mesmos coñecementos ecolóxicos que se comentan aquí.Ofrece suxestións sobre como se poden utilizar estas provincias ecolóxicas e os coñecementos obtidos con elas para unha maior comprensión ecolóxica, facilitar a comparación de modelos e mellorar potencialmente o seguimento dos ecosistemas mariños.
A provincia ecolóxica e a AEP identificadas polo método SAGE baséanse nos datos do modelo numérico.Por definición, o modelo numérico é unha estrutura simplificada, tentando captar a esencia do sistema obxectivo, e os diferentes modelos terán unha distribución diferente do plancto.O modelo numérico utilizado neste estudo non pode capturar completamente algúns dos patróns observados (por exemplo, nas estimacións de Chl para a rexión ecuatorial e o Océano Austral).Só se captura unha pequena parte da diversidade do océano real e non se poden resolver as meso e submesoescalas, o que pode afectar o fluxo de nutrientes e a estrutura comunitaria a menor escala.A pesar destas deficiencias, resulta que AEP é moi útil para axudar a comprender modelos complexos.Ao avaliar onde se atopan provincias ecolóxicas similares, AEP ofrece unha ferramenta de comparación de modelos numéricos potencial.O modelo numérico actual recolle o patrón global da concentración de fitoplancto Chl-a de teledetección e a distribución do tamaño do plancto e do grupo funcional (Nota S1 e Figura S1) (2, 32).
Como mostra a liña de contorno de 0,1 mgChl-a/m-3, AEP divídese en área oligotrófica e área mesotrófica (Figura S1B): AEP B, C, D, E, F e G son áreas oligotróficas, e as áreas restantes son áreas oligotróficas. situado Superior Chl-a.AEP mostra algunha correspondencia coa provincia de Longhurst (Figura S3A), por exemplo, o Océano Austral e o Pacífico ecuatorial.Nalgunhas rexións, AEP cobre varias rexións de Longhurst e viceversa.Dado que a intención de delimitar provincias nesta zona e Longhurst é diferente, espérase que haxa diferenzas.Múltiples AEP nunha provincia de Longhurst indican que certas áreas con bioxeoquímica similar poden ter estruturas de ecosistemas moi diferentes.AEP presenta unha certa correspondencia cos estados físicos, como se revela mediante a aprendizaxe non supervisada (19), como en estados de afloramento elevado (por exemplo, o Océano Austral e o Pacífico ecuatorial; Figura S3, C e D).Estas correspondencias indican que a estrutura comunitaria do plancto está fortemente influenciada pola dinámica oceánica.En zonas como o Atlántico Norte, AEP atravesa provincias físicas.O mecanismo que provoca estas diferenzas pode incluír procesos como o transporte de po, que pode levar a programas nutricionais completamente diferentes incluso en condicións físicas similares.
O Ministerio de Ecoloxía e AEP sinalaron que o uso de Chl só non pode identificar compoñentes ecolóxicos, como xa se decatou a comunidade de ecoloxistas mariños.Isto obsérvase en AEP con biomasa similar pero composición ecolóxica significativamente diferente (como D e E).Pola contra, os AEP como D e K teñen biomasa moi diferente pero composición ecolóxica similar.AEP subliña que a relación entre biomasa, composición ecolóxica e abundancia de zooplancto é complexa.Por exemplo, aínda que AEP J destaca en termos de fitoplancto e biomasa de plancto, A e L de AEP teñen unha biomasa de plancto similar, pero A ten unha maior abundancia de plancto.AEP subliña que a biomasa de fitoplancto (ou Chl) non se pode usar para predicir a biomasa de zooplancto.O zooplancto é a base da cadea alimentaria da pesca, e estimacións máis precisas poden levar a unha mellor xestión dos recursos.Os futuros satélites mariños de cores [por exemplo, PACE (plancto, aerosol, nube e ecosistema mariño)] poden estar mellor posicionados para axudar a estimar a estrutura comunitaria do fitoplancto.Usar a predición AEP pode facilitar potencialmente a estimación do zooplancto dende o espazo.Métodos como SAGE, xunto coas novas tecnoloxías e cada vez máis datos de campo dispoñibles para as enquisas de verdade en terreo (como Tara e investigacións de seguimento), poden dar un paso conxuntamente cara ao seguimento da saúde dos ecosistemas baseado en satélites.
O método SAGE proporciona un xeito cómodo de avaliar algúns mecanismos que controlan as características da provincia, como a biomasa/Chl, a produción primaria neta e a estrutura comunitaria.Por exemplo, a cantidade relativa de diatomeas está establecida por un desequilibrio na subministración de Si, N, P e Fe en relación aos requisitos estequiométricos do fitoplancto.A unha taxa de oferta equilibrada, a comunidade está dominada polas diatomeas (L).Cando a taxa de subministración está desequilibrada (é dicir, a subministración de silicio é menor que a demanda de nutrientes das diatomeas), as diatomeas representan só unha pequena parte de Share (K).Cando a subministración de Fe e P supera a subministración de N (por exemplo, E e H), as bacterias diazotróficas crecerán vigorosamente.A través do contexto proporcionado pola AEP, a exploración dos mecanismos de control será máis útil.
A Eco-Provincia e AEP son áreas con estruturas comunitarias similares.A serie temporal dunha determinada localización dentro dunha provincia ecolóxica ou AEP pode considerarse como un punto de referencia e pode representar a área cuberta pola provincia ecolóxica ou AEP.As estacións de vixilancia in situ a longo prazo proporcionan tales series temporais.Os conxuntos de datos in situ a longo prazo seguirán xogando un papel incalculable.Desde a perspectiva do seguimento da estrutura da comunidade, o método SAGE pódese ver como unha forma de axudar a determinar a localización máis útil dos novos sitios.Por exemplo, a serie temporal da avaliación do hábitat oligotrófico a longo prazo (ALOHA) está na AEP B da área oligotrófica (Figura 5C, etiqueta 2).Debido a que ALOHA está preto do límite doutro AEP, a serie temporal pode non ser representativa de toda a área, como se suxeriu anteriormente (33).No mesmo AEP B, a serie temporal SEATS (Serie Temporal do Sueste Asiático) está situada no suroeste de Taiwán (34), máis lonxe dos límites doutros AEP (Figura 5C, etiqueta 1), e pódese utilizar como mellor localización para monitorizar AEPB.A serie temporal BATS (Estudo de series temporais do Atlántico das Bermudas) (Figura 5C, etiqueta 4) en AEPC está moi preto do límite entre AEP C e F, o que indica que o seguimento da AEP C mediante series temporais BATS pode ser directamente problemático.A estación P en AEP J (Figura 5C, etiqueta 3) está lonxe do límite da AEP, polo que é máis representativa.A Eco-Provincia e AEP poden axudar a establecer un marco de seguimento axeitado para avaliar os cambios globais, porque o permiso das provincias para avaliar onde a mostraxe in situ pode proporcionar información clave.O método SAGE pódese desenvolver aínda máis para ser aplicado aos datos climáticos para avaliar a variabilidade de aforro de tempo.
O éxito do método SAGE conséguese mediante a aplicación coidadosa dos métodos de ciencia de datos/ML e coñecementos específicos do dominio.En concreto, t-SNE utilízase para realizar a redución da dimensionalidade, que preserva a estrutura de covarianza dos datos de alta dimensión e facilita a visualización da topoloxía de covarianza.Os datos están dispostos en forma de franxas e covarianzas (Figura 2A), o que indica que as medidas puramente baseadas na distancia (como as K-medias) non son apropiadas porque normalmente usan unha distribución de base gaussiana (circular) (discutida na Nota S2). .O método DBSCAN é adecuado para calquera topoloxía de covarianza.Sempre que preste atención á configuración dos parámetros, pódese proporcionar unha identificación fiable.O custo computacional do algoritmo t-SNE é elevado, o que limita a súa aplicación actual a unha maior cantidade de datos, o que significa que é difícil de aplicar a campos profundos ou variables no tempo.O traballo sobre a escalabilidade de t-SNE está en curso.Dado que a distancia KL é fácil de paralelizar, o algoritmo t-SNE ten un bo potencial de expansión no futuro (35).Ata agora, outros métodos prometedores de redución da dimensionalidade que poden reducir mellor o tamaño inclúen técnicas de aproximación e proxección de variedades unificadas (UMAP), pero é necesaria a avaliación no contexto dos datos oceánicos.O significado dunha mellor escalabilidade é, por exemplo, clasificar climas globais ou modelos con distinta complexidade nunha capa mixta.As áreas que non poden ser clasificadas por SAGE en calquera provincia poden considerarse como os puntos negros restantes na Figura 2A.Xeograficamente, estas áreas atópanse principalmente en áreas moi estacionais, o que suxire que a captura de provincias ecolóxicas que cambian co tempo proporcionará unha mellor cobertura.
Para construír o método SAGE utilizáronse ideas de sistemas complexos/ciencia de datos, utilizando a capacidade de determinar clusters de grupos funcionais (a posibilidade de estar moi preto nun espazo de 11 dimensións) e determinar provincias.Estas provincias representan volumes específicos no noso espazo de fase t-SNE 3D.Do mesmo xeito, a parte de Poincaré pódese utilizar para avaliar o "volume" do espazo de estado ocupado pola traxectoria para determinar o comportamento "normal" ou "caótico" (36).Para a saída do modelo estático de 11 dimensións, o volume ocupado despois de que os datos se convertan nun espazo de fase 3D pódese explicar de xeito similar.A relación entre área xeográfica e área no espazo de fase 3D non é sinxela, pero pódese explicar en termos de semellanza ecolóxica.Por este motivo, prefírese a medida de disemellanza BC máis convencional.
Os traballos futuros reutilizarán o método SAGE para os datos que cambian estacionalmente para avaliar a variabilidade espacial das provincias e AEP identificadas.O obxectivo futuro é utilizar este método para axudar a determinar que provincias se poden determinar mediante medicións por satélite (como Chl-a, reflectividade da teledetección e temperatura da superficie do mar).Isto permitirá a avaliación por teledetección dos compoñentes ecolóxicos e un seguimento altamente flexible das provincias ecolóxicas e da súa variabilidade.
O propósito desta investigación é introducir o método SAGE, que define unha provincia ecolóxica a través da súa estrutura comunitaria única de plancto.Aquí, ofrecerase información máis detallada sobre o modelo físico/bioxeoquímico/ecosistema e a selección de parámetros dos algoritmos t-SNE e DBSCAN.
Os compoñentes físicos do modelo proveñen da estimación da circulación oceánica e do clima [ECCOv4;(37) a estimación do estado global descrita por (38).A resolución nominal da estimación estatal é de 1/5.O método dos mínimos cadrados co método do multiplicador lagrangiano utilízase para obter as condicións iniciais e de contorno e os parámetros internos do modelo axustados mediante observación, xerando así un modelo de ciclo xeral do MIT (MITgcm) de execución libre (39), o modelo Despois da optimización, os resultados poden ser rastrexado e observado.
A bioxeoquímica/ecosistema ten unha descrición máis completa (é dicir, ecuacións e valores de parámetros) en (2).O modelo capta a circulación de C, N, P, Si e Fe a través de estanques inorgánicos e orgánicos.A versión utilizada aquí inclúe 35 especies de fitoplancto: 2 especies de microprocariotas e 2 especies de microeucariotas (adecuadas para ambientes con poucos nutrientes), 5 especies de Cryptomonas sphaeroides (con revestimento de carbonato de calcio), 5 especies de diazonio (Pode fixar nitróxeno, polo que non está limitado) a dispoñibilidade de nitróxeno inorgánico disolto), 11 diatomeas (que forman unha cuberta silícea), 10 flaxelados vexetativos mixtos (poden fotosintetizar e comer outro plancto) e 16 zooplancto (pastar noutro plancto).Estes chámanse "grupos funcionais bioxeoquímicos" porque teñen diferentes efectos na bioxeoquímica mariña (40, 41) e úsanse a miúdo en observación e estudos de modelos.Neste modelo, cada grupo funcional está composto por varios planctos de diferentes tamaños, cunha extensión de 0,6 a 2500 μm de diámetro esférico equivalente.
Os parámetros que afectan o crecemento, o pastoreo e o afundimento do fitoplancto están relacionados co tamaño, e hai diferenzas específicas entre os seis grupos funcionais do fitoplancto (32).A pesar dos diferentes marcos físicos, os resultados dos 51 compoñentes do plancto do modelo utilizáronse nunha serie de estudos recentes (42-44).
De 1992 a 2011, o modelo de acoplamento físico/bioxeoquímico/ecosistema funcionou durante 20 anos.O resultado do modelo inclúe a biomasa de plancto, a concentración de nutrientes e a taxa de subministración de nutrientes (DIN, PO4, Si e Fe).Neste estudo, a media de 20 anos destas saídas utilizouse como entrada da Provincia Ecolóxica.Chl, a distribución da biomasa de plancto e a concentración de nutrientes e a distribución dos grupos funcionais compáranse coas observacións satelitais e in situ [ver (2, 44), Nota S1 e figura.S1 a S3].
Para o método SAGE, a principal fonte de aleatoriedade provén do paso t-SNE.A aleatoriedade dificulta a repetibilidade, o que significa que os resultados non son fiables.O método SAGE proba rigorosamente a robustez determinando un conxunto de parámetros de t-SNE e DBSCAN, que poden identificar de forma consistente os clústeres cando se repiten.A determinación da "perplexidade" do parámetro t-SNE pode entenderse como a determinación do grao en que a cartografía de dimensións altas a baixas debe respectar as características locais ou globais dos datos.Chegou á confusión de 400 e 300 iteracións.
Para o algoritmo de agrupación DBSCAN, é necesario determinar o tamaño mínimo e a métrica de distancia dos puntos de datos do clúster.O número mínimo determínase baixo a orientación de expertos.Este coñecemento sabe o que se adapta ao marco e á resolución de modelado numérico actual.O número mínimo é 100. Pódese considerar un valor mínimo superior (menos de <135 antes de que o límite superior do verde se faga máis amplo), pero non pode substituír o método de agregación baseado na disemellanza BC.O grao de conexión (Figura 6A) utilízase para establecer o parámetro ϵ, o que favorece unha maior cobertura (Figura 6B).A conectividade defínese como o número composto de clusters e é sensible ao parámetro ϵ.A menor conectividade indica unha axuste insuficiente, agrupando as rexións artificialmente.A alta conectividade indica unha sobreadaptación.O sobreajuste tamén é problemático, porque mostra que as suposicións aleatorias iniciais poden levar a resultados irreproducibles.Entre estes dous extremos, un aumento brusco (normalmente chamado "cóbado") indica o mellor ϵ.Na Figura 6A, ves un aumento acentuado na área da meseta (amarelo, > 200 cúmulos), seguido dunha forte diminución (verde, 100 cúmulos), ata uns 130, rodeado de moi poucos cúmulos (azul, <60 cúmulos) ).En polo menos 100 áreas azuis, ou un cúmulo domina todo o océano (ϵ <0,42), ou a maior parte do océano non está clasificado e considérase ruído (ϵ> 0,99).A zona amarela ten unha distribución de racimos moi variable e irreproducible.Cando ϵ diminúe, o ruído aumenta.A zona verde que aumenta bruscamente chámase cóbado.Esta é unha rexión óptima.Aínda que se utiliza a probabilidade t-SNE, a disemellanza BC dentro da provincia aínda se pode usar para determinar a agrupación fiable.Usando a Figura 6 (A e B), establece ϵ en 0,39.Canto maior sexa o número mínimo, menor será a probabilidade de acadar o ϵ que permita unha clasificación fiable, e maior será a zona verde cun valor superior a 135. A ampliación desta área indica que o cóbado será máis difícil de atopar ou non. existente.
Despois de establecer os parámetros de t-SNE, o número total de clústeres atopados utilizarase como medida de conectividade (A) e a porcentaxe de datos asignados ao clúster (B).O punto vermello indica a mellor combinación de cobertura e conectividade.O número mínimo establécese segundo o número mínimo relacionado coa ecoloxía.
Para obter materiais complementarios para este artigo, consulte http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Este é un artigo de acceso aberto distribuído baixo os termos da licenza Creative Commons Attribution.O artigo permite o uso, distribución e reprodución sen restricións en calquera soporte, a condición de que a obra orixinal estea debidamente citada.
Nota: só che pedimos que proporciones o teu enderezo de correo electrónico para que a persoa que recomendas á páxina saiba que queres que vexa o correo electrónico e que non é spam.Non capturaremos ningún enderezo de correo electrónico.
Esta pregunta úsase para comprobar se es un visitante e evitar o envío automático de spam.
O Ministerio Global de Ecoloxía Mariña está decidido a resolver problemas complexos e utiliza ML sen supervisión para explorar estruturas comunitarias.
O Ministerio Global de Ecoloxía Mariña está decidido a resolver problemas complexos e utiliza ML sen supervisión para explorar estruturas comunitarias.

Hora de publicación: 12-xan-2021

Aclaración da complexidade ecolóxica: a aprendizaxe non supervisada determina a provincia ecolóxica mariña global