Clarifying ecological complexity: unsupervised learning determines the global marine ecological province

Se propone un método de aprendizaje no supervisado para determinar las provincias ecológicas marinas globales (ecoprovincias) basándose en la estructura de la comunidad de plancton y los datos del flujo de nutrientes.El método sistemático de provincia ecológica integrada (SAGE) puede identificar provincias ecológicas en modelos de ecosistemas altamente no lineales.Para adaptarse a la covarianza no gaussiana de los datos, SAGE utiliza t incrustación de vecinos aleatorios (t-SNE) para reducir la dimensionalidad.Con la ayuda de la aplicación de ruido basada en el algoritmo de agrupamiento espacial basado en densidad (DBSCAN), se pueden identificar más de cien provincias ecológicas.Utilizando el mapa de conectividad con diferencias ecológicas como medida de distancia, se define objetivamente una provincia ecológica agregada (AEP) robusta a través de provincias ecológicas anidadas.Utilizando AEP, se exploró el control de la tasa de suministro de nutrientes en la estructura comunitaria.La ecoprovincia y el AEP son únicos y pueden ayudar a modelar la interpretación.Pueden facilitar las comparaciones entre modelos y mejorar la comprensión y el seguimiento de los ecosistemas marinos.
Las provincias son regiones donde la compleja biogeografía marítima o terrestre se organiza en áreas coherentes y significativas (1).Estas provincias son muy importantes para comparar y contrastar ubicaciones, caracterizar observaciones, seguimiento y protección.Las interacciones complejas y no lineales que producen estas provincias hacen que los métodos de aprendizaje automático (ML) no supervisados sean muy adecuados para determinar provincias objetivamente, porque la covarianza en los datos es compleja y no gaussiana.Aquí, se propone un método ML, que identifica sistemáticamente provincias ecológicas marinas únicas (ecoprovincias) a partir del modelo físico/ecosistémico tridimensional (3D) global de Darwin (2).El término “único” se utiliza para indicar que el área identificada no se superpone suficientemente con otras áreas.Este método se denomina método de Provincia Ecológica Integrada (SAGE).Para realizar una clasificación útil, un método algorítmico debe permitir (i) una clasificación global y (ii) un análisis de múltiples escalas que pueda anidarse/agregarse en el espacio y el tiempo (3).En esta investigación, se propuso por primera vez el método SAGE y se discutieron las provincias ecológicas identificadas.Las ecoprovincias pueden promover la comprensión de los factores que controlan la estructura comunitaria, proporcionar información útil para las estrategias de monitoreo y ayudar a rastrear los cambios en el ecosistema.
Las provincias terrestres generalmente se clasifican según similitudes en clima (precipitación y temperatura), suelo, vegetación y fauna, y se utilizan para manejo auxiliar, investigación de biodiversidad y control de enfermedades (1, 4).Las provincias marinas son más difíciles de definir.La mayoría de los organismos son microscópicos, con límites fluidos.Longhurst et al.(5) Proporcionó una de las primeras clasificaciones globales del Ministerio de Oceanografía basada en las condiciones ambientales.La definición de estas provincias “Longhurst” incluye variables como tasa de mezcla, estratificación e irradiancia, así como la amplia experiencia de Longhurst como oceanógrafo marino, quien tiene otras condiciones importantes para los ecosistemas marinos.Longhurst se ha utilizado ampliamente, por ejemplo, para evaluar la producción primaria y los flujos de carbono, ayudar a la pesca y planificar actividades de observación in situ (5-9).Para definir las provincias de manera más objetiva, se han utilizado métodos como la lógica difusa y la agrupación/estadística regional no supervisada (9-14).El propósito de tales métodos es identificar estructuras significativas que puedan identificar provincias en los datos de observación disponibles.Por ejemplo, las provincias marinas dinámicas (12) utilizan mapas autoorganizados para reducir el ruido y utilizan agrupaciones jerárquicas (basadas en árboles) para determinar productos de color marino derivados de satélites regionales [clorofila a (Chl-a), altura de línea de fluorescencia normalizada y materia orgánica disuelta coloreada] y campo físico (temperatura y salinidad de la superficie del mar, topografía dinámica absoluta y hielo marino).
La estructura comunitaria del plancton es motivo de preocupación porque su ecología tiene una gran influencia en los niveles más altos de nutrientes, la absorción de carbono y el clima.Sin embargo, sigue siendo un objetivo desafiante y difícil de alcanzar determinar una provincia ecológica global basada en la estructura de la comunidad de plancton.Los satélites marinos en color pueden potencialmente proporcionar información sobre la clasificación gruesa del fitoplancton o sugerir las ventajas de los grupos funcionales (15), pero actualmente no pueden proporcionar información detallada sobre la estructura de la comunidad.Encuestas recientes [por ejemplo, Tara Ocean (16)] están proporcionando mediciones sin precedentes de la estructura comunitaria;Actualmente, existen escasas observaciones in situ a escala global (17).Estudios anteriores han determinado en gran medida la “Provincia Biogeoquímica” (12, 14, 18) basándose en la determinación de similitudes bioquímicas (como la producción primaria, Chl y la luz disponible).Aquí, se utiliza el modelo numérico para generar [Darwin (2)], y la provincia ecológica se determina de acuerdo con la estructura de la comunidad y el flujo de nutrientes.El modelo numérico utilizado en este estudio tiene cobertura global y se puede comparar con datos de campo existentes (17) y campos de detección remota (Nota S1).Los datos del modelo numérico utilizados en este estudio tienen la ventaja de una cobertura global.El ecosistema modelo consta de 35 especies de fitoplancton y 16 especies de zooplancton (consulte materiales y métodos).Los tipos de plancton modelo interactúan de forma no lineal con estructuras de covarianza no gaussianas, por lo que los métodos de diagnóstico simples no son adecuados para identificar patrones únicos y consistentes en estructuras comunitarias emergentes.El método SAGE presentado aquí proporciona una forma novedosa de comprobar el resultado de modelos complejos de Darwin.
Las poderosas capacidades transformadoras de la tecnología de ciencia de datos/ML pueden permitir que soluciones de modelos abrumadoramente complejos revelen estructuras complejas pero sólidas en la covarianza de datos.Un método robusto se define como un método que puede reproducir fielmente los resultados dentro de un rango de error determinado.Incluso en sistemas simples, determinar patrones y señales sólidos puede ser un desafío.Hasta que se determine la lógica que conduce al patrón observado, la complejidad emergente puede parecer complicada/difícil de resolver.El proceso clave para establecer la composición del ecosistema es de naturaleza no lineal.La existencia de interacciones no lineales puede confundir la clasificación robusta, por lo que es necesario evitar métodos que hagan suposiciones sólidas sobre la distribución estadística básica de la covarianza de los datos.Los datos de alta dimensión y no lineales son comunes en oceanografía y pueden tener una estructura de covarianza con una topología compleja no gaussiana.Aunque los datos con una estructura de covarianza no gaussiana pueden dificultar una clasificación sólida, el método SAGE es novedoso porque está diseñado para identificar grupos con topologías arbitrarias.
El objetivo del método SAGE es identificar objetivamente patrones emergentes que puedan ayudar a una mayor comprensión ecológica.Siguiendo un flujo de trabajo basado en conglomerados similar al (19), las variables ecológicas y de flujo de nutrientes se utilizan para determinar el único conglomerado en los datos, llamado provincia ecológica.El método SAGE propuesto en este estudio (Figura 1) primero reduce la dimensionalidad de 55 a 11 dimensiones sumando los grupos funcionales del plancton definidos a priori (ver Materiales y Métodos).Utilizando el método de incrustación de vecinos t-aleatorios (t-SNE), el tamaño se reduce aún más proyectando la probabilidad en el espacio 3D.La agrupación no supervisada puede identificar áreas ecológicamente cercanas [agrupación espacial basada en densidad (DBSCAN) para aplicaciones basadas en ruido].Tanto t-SNE como DBSCAN son aplicables a los datos inherentes del modelo numérico del ecosistema no lineal.Luego reproyecta la provincia ecológica resultante sobre la tierra.Se han identificado más de cien provincias ecológicas únicas, adecuadas para la investigación regional.Para considerar el modelo de ecosistema globalmente consistente, se utiliza el método SAGE para agregar las provincias ecológicas en provincias ecológicas agregadas (AEP) para mejorar la efectividad de las provincias ecológicas.El nivel de agregación (llamado “complejidad”) se puede ajustar al nivel de detalle requerido.Determinar la complejidad mínima de un AEP robusto.El enfoque de la selección es el método SAGE y la exploración de los casos AEP de menor complejidad para determinar el control de la estructura comunitaria de emergencia.Luego se pueden analizar los patrones para proporcionar información ecológica.El método presentado aquí también se puede utilizar para comparar modelos de manera más amplia, por ejemplo, evaluando las ubicaciones de provincias ecológicas similares encontradas en diferentes modelos para resaltar diferencias y similitudes, a fin de comparar modelos.
(A) Diagrama esquemático del flujo de trabajo para determinar la provincia ecológica;utilizando la suma en el grupo funcional para reducir los datos originales de 55 dimensiones a un resultado del modelo de 11 dimensiones, incluida la biomasa de siete plancton funcionales/nutritivos y cuatro tasas de suministro de nutrientes.Valor insignificante y área de cubierta de hielo duradera.Los datos han sido estandarizados y estandarizados.Proporcione datos de 11 dimensiones al algoritmo t-SNE para resaltar combinaciones de características estadísticamente similares.DBSCAN seleccionará cuidadosamente el grupo para establecer el valor del parámetro.Finalmente proyecte los datos nuevamente a la proyección de latitud/longitud.Tenga en cuenta que este proceso se repite 10 veces porque se puede generar una ligera aleatoriedad al aplicar t-SNE.(B) explica cómo obtener el AEP repitiendo el flujo de trabajo en (A) 10 veces.Para cada una de estas 10 implementaciones, se determinó la matriz de disimilitud interprovincial de Bray-Curtis (BC) con base en la biomasa de 51 tipos de fitoplancton.Determine la diferencia de BC entre provincias, desde la complejidad 1 AEP hasta la complejidad total 115. El punto de referencia de BC lo establece la provincia de Longhurst.
El método SAGE utiliza el resultado del modelo numérico físico/ecosistémico global 3D para definir la provincia ecológica [Darwin (2);ver Materiales y Métodos y Nota S1].Los componentes del ecosistema están compuestos por 35 especies de fitoplancton y 16 especies de zooplancton, con siete grupos funcionales predefinidos: procariotas y eucariotas adaptados a ambientes pobres en nutrientes, coccidios con una capa de carbonato de calcio y nutrientes de fijación pesada de nitrógeno (generalmente faltantes). nutrientes importantes), con cubierta silícea, pueden realizar la fotosíntesis de otros plancton y pastorear flagelados de nutrientes mixtos y pastores de zooplancton.El rango de tamaño es de 0,6 a 2500 μm de diámetro esférico equivalente.La distribución del modelo de tamaño del fitoplancton y agrupación funcional captura las características generales observadas en observaciones satelitales e in situ (ver Figuras S1 a S3).La similitud entre el modelo numérico y el océano observado indica que las provincias definidas por el modelo pueden ser aplicables al océano in situ.Tenga en cuenta que este modelo solo captura cierta diversidad de fitoplancton y solo ciertos rangos de forzamiento físico y químico del océano in situ.El método SAGE puede permitir a las personas comprender mejor el mecanismo de control altamente regional de la estructura comunitaria modelo.
Al incluir solo la suma de la biomasa superficial (con un tiempo promedio de 20 años) en cada grupo funcional del plancton, se puede reducir la dimensionalidad de los datos.Después de que estudios anteriores mostraran su papel clave en el establecimiento de la estructura de la comunidad, también incluyeron términos de fuentes superficiales para los flujos de nutrientes (suministro de nitrógeno, hierro, fosfato y ácido silícico) [por ejemplo, (20, 21)].La suma de grupos funcionales reduce el problema de 55 (51 plancton y 4 flujos de nutrientes) a 11 dimensiones.En este estudio inicial, debido a las limitaciones computacionales impuestas por el algoritmo, no se consideraron la variabilidad de profundidad y tiempo.
El método SAGE es capaz de identificar relaciones importantes entre procesos no lineales y características clave de las interacciones entre la biomasa del grupo funcional y el flujo de nutrientes.El uso de datos de 11 dimensiones basados en métodos euclidianos de aprendizaje a distancia (como K-means) no puede obtener provincias confiables y reproducibles (19, 22).Esto se debe a que no se encuentra ninguna forma gaussiana en la distribución básica de la covarianza de los elementos clave que definen la provincia ecológica.Las K-medias de las células de Voronoi (líneas rectas) no pueden conservar la distribución básica no gaussiana.
La biomasa de siete grupos funcionales del plancton y cuatro flujos de nutrientes forman un vector x de 11 dimensiones.Por lo tanto, x es un campo vectorial en la cuadrícula del modelo, donde cada elemento xi representa un vector de 11 dimensiones definido en la cuadrícula horizontal del modelo.Cada índice i identifica de forma única un punto de la cuadrícula en la esfera, donde (lon, lat) = (ϕi, θi).Si la biomasa de la unidad de cuadrícula del modelo es inferior a 1,2 × 10-3 mg Chl/m3 o la tasa de cobertura de hielo excede el 70 %, se utiliza y descarta el registro de datos de biomasa.Los datos están normalizados y estandarizados, por lo que todos los datos están en el rango de [0 a 1], la media se elimina y se escala a la varianza unitaria.Esto se hace para que las características (biomasa y flujo de nutrientes) no estén limitadas por el contraste en el rango de valores posibles.La agrupación debe capturar la relación de cambio a partir de la distancia de probabilidad clave entre las características en lugar de la distancia geográfica.Al cuantificar estas distancias, emergen características importantes, mientras se descartan detalles innecesarios.Desde un punto de vista ecológico, esto es necesario porque algunos tipos de fitoplancton con poca biomasa pueden tener mayores efectos biogeoquímicos, como la fijación de nitrógeno por bacterias diazotróficas.Al estandarizar y normalizar datos, se resaltarán estos tipos de covariables.
Al enfatizar la proximidad de características en un espacio de alta dimensión en una representación de baja dimensión, el algoritmo t-SNE se utiliza para aclarar regiones similares existentes.Trabajos anteriores destinados a construir redes neuronales profundas para aplicaciones de detección remota utilizaron t-SNE, que demostró su habilidad para separar características clave (23).Este es un paso necesario para identificar una agrupación sólida en los datos de características y al mismo tiempo evitar soluciones no convergentes (nota S2).Usando núcleos gaussianos, t-SNE preserva las propiedades estadísticas de los datos al mapear cada objeto de alta dimensión a un punto en el espacio de fase 3D, asegurando así que la probabilidad de objetos similares en las direcciones alta y baja sea alta en un espacio de fase 3D. espacio dimensional (24).Dado un conjunto de N objetos de alta dimensión x1,…,xN, el algoritmo t-SNE reduce minimizando la divergencia de Kullback-Leibler (KL) (25).La divergencia KL es una medida de qué tan diferente es una distribución de probabilidad de una segunda distribución de probabilidad de referencia y puede evaluar efectivamente la posibilidad de correlación entre representaciones de baja dimensión de características de alta dimensión.Si xi es el i-ésimo objeto en el espacio N-dimensional, xj es el j-ésimo objeto en el espacio N-dimensional, yi es el i-ésimo objeto en el espacio de baja dimensión e yj es el j-ésimo objeto en el espacio de baja dimensión. -espacio dimensional, entonces t -SNE define la probabilidad de similitud ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), y para el conjunto de reducción de dimensionalidad q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
La Figura 2A ilustra el efecto de reducir los vectores de flujo de biomasa y nutrientes de la combinación de 11 dimensiones a 3D.La motivación de aplicar t-SNE se puede comparar con la motivación del análisis de componentes principales (PCA), que utiliza el atributo de varianza para enfatizar el área/atributo de los datos, reduciendo así la dimensionalidad.Se descubrió que el método t-SNE era superior al PCA al proporcionar resultados confiables y reproducibles para el Ministerio de Ecología (ver Nota S2).Esto puede deberse a que el supuesto de ortogonalidad de PCA no es adecuado para identificar interacciones críticas entre características interactivas altamente no lineales, porque PCA se centra en estructuras de covarianza lineal (26).Utilizando datos de teledetección, Lunga et al.(27) ilustra cómo utilizar el método SNE para resaltar características espectrales complejas y no lineales que se desvían de la distribución gaussiana.
(A) Una tasa de suministro de nutrientes modelada, biomasa del grupo funcional de fitoplancton y zooplancton dibujada por el algoritmo t-SNE y coloreada por provincia usando DBSCAN.Cada punto representa un punto en el espacio de alta dimensión, como se muestra en la Figura 6B, la mayoría de los puntos son capturados.Los ejes se refieren a los tamaños 1, 2 y 3 de "t-SNE". (B) La proyección geográfica de la provincia encontrada por DBSCAN en la cuadrícula de latitud-longitud del origen.El color debe considerarse como cualquier color, pero debe corresponder a (A).
Los puntos en el diagrama de dispersión t-SNE en la Figura 2A están asociados respectivamente con la latitud y la longitud.Si los dos puntos de la Figura 2A están cerca uno del otro, es porque sus flujos de biomasa y nutrientes son similares, no por proximidad geográfica.Los colores de la Figura 2A son grupos descubiertos utilizando el método DBSCAN (28).Cuando se buscan observaciones densas, el algoritmo DBSCAN utiliza la distancia en la representación 3D entre los puntos (ϵ = 0,39; para obtener información sobre esta elección, consulte Materiales y métodos), y se requiere el número de puntos similares para definir el grupo (aquí 100 puntos, ver arriba).El método DBSCAN no hace ninguna suposición sobre la forma o la cantidad de grupos en los datos, como se muestra a continuación:
3) Para todos los puntos identificados como dentro de la distancia interna, repita el paso 2 iterativamente para determinar el límite del grupo.Si el número de puntos es mayor que el valor mínimo establecido, se designa como grupo.
Los datos que no cumplen con el miembro mínimo del grupo y la métrica de distancia ϵ se consideran "ruido" y no se les asigna un color.DBSCAN es un algoritmo rápido y escalable con rendimiento O(n2) en el peor de los casos.Para el análisis actual, en realidad no es aleatorio.El número mínimo de puntos se determina mediante evaluación de expertos.Después de ajustar la distancia, el resultado no es lo suficientemente estable en el rango de ≈±10.Esta distancia se establece utilizando la conectividad (Figura 6A) y el porcentaje de cobertura del océano (Figura 6B).La conectividad se define como el número compuesto de clústeres y es sensible al parámetro ϵ.Una conectividad más baja indica un ajuste insuficiente, lo que agrupa regiones artificialmente.Una alta conectividad indica sobreajuste.Es posible utilizar un mínimo más alto, pero si el mínimo excede ca, es imposible lograr una solución confiable.135 (Para más detalles, ver Materiales y Métodos).
Los 115 cúmulos identificados en la Figura 2A se proyectan nuevamente sobre la Tierra en la Figura 2B.Cada color corresponde a una combinación coherente de factores biogeoquímicos y ecológicos identificados por DBSCAN.Una vez que se determinan los grupos, la asociación de cada punto en la Figura 2A con una latitud y longitud específicas se utiliza para proyectar los grupos nuevamente al área geográfica.La Figura 2B ilustra esto con los mismos colores de grupo que la Figura 2A.Los colores similares no deben interpretarse como similitud ecológica, porque se asignan según el orden en que el algoritmo descubre los grupos.
El área de la Figura 2B puede ser cualitativamente similar a un área establecida en la física y/o biogeoquímica del océano.Por ejemplo, los cúmulos en el Océano Austral son simétricos en zonas, aparecen vórtices oligotróficos y la transición brusca indica la influencia de los vientos alisios.Por ejemplo, en el Pacífico ecuatorial se ven diferentes regiones relacionadas con el ascenso.
Para comprender el entorno ecológico de la Ecoprovincia, se utilizó una variación del índice de diferencia de Bray-Curtis (BC) (29) para evaluar la ecología en el grupo.El indicador BC es un dato estadístico que se utiliza para cuantificar la diferencia en la estructura comunitaria entre dos sitios diferentes.La medición de BC es aplicable a la biomasa de 51 especies de fitoplancton y zooplancton BCninj = 1-2CninjSni + Snj
BCninj se refiere a la similitud entre la combinación ni y la combinación nj, donde Cninj es el valor mínimo de un solo tipo de biomasa que existe en ambas combinaciones ni y nj, y Sni representa la suma de todas las biomasas que existen en ambas combinaciones ni y Snj.La diferencia BC es similar a la medida de distancia, pero opera en un espacio no euclidiano, que probablemente sea más adecuado para los datos ecológicos y su interpretación.
Para cada grupo identificado en la Figura 2B, se puede evaluar la similitud de BC intraprovincial e interprovincial.La diferencia de BC dentro de una provincia se refiere a la diferencia entre el valor promedio de la provincia y cada punto de la provincia.La diferencia entre provincias de BC se refiere a la similitud entre una provincia y otras provincias.La Figura 3A muestra una matriz BC simétrica (0, negro: completamente correspondiente; 1, blanco: completamente diferente).Cada línea del gráfico muestra un patrón en los datos.La Figura 3B muestra la importancia geográfica de los resultados de BC en la Figura 3A para cada provincia.Para una provincia en un área de baja nutrición y bajos nutrientes, la Figura 3B muestra que la simetría de grandes áreas alrededor del ecuador y el Océano Índico es básicamente similar, pero las latitudes más altas y las áreas de afloramiento son significativamente diferentes.
(A) El grado de diferencia de BC evaluado para cada provincia según el promedio global de superficie global de 20 años de 51 plancton.Tenga en cuenta la simetría esperada de los valores.(B) La proyección espacial de una columna (o fila).Para una provincia en un círculo distrófico, se evaluó la distribución global de la medida de similitud BC y se evaluó el promedio global de 20 años.Negro (BC = 0) significa la misma área y blanco (BC = 1) significa que no hay similitud.
La Figura 4A ilustra la diferencia en BC dentro de cada provincia en la Figura 2B.Determinado mediante el uso de la combinación promedio del área promedio en un grupo y determinando la disimilitud entre el BC y la media de cada punto de la cuadrícula en la provincia, muestra que el método SAGE puede separar 51 especies según la similitud ecológica. datos del modelo.La disimilitud promedio general de BC del grupo de los 51 tipos es 0,102 ± 0,0049.
(A, B y D) La diferencia de BC dentro de la provincia se evalúa como la diferencia de BC promedio entre cada comunidad de puntos de la cuadrícula y la provincia promedio, y la complejidad no se reduce.(2) La diferencia promedio global de BC intraprovincial es 0,227±0,117.Este es el punto de referencia de la clasificación basada en la motivación ecológica propuesta por este trabajo [línea verde en (C)].(C) Diferencia promedio de BC intraprovincial: la línea negra representa la diferencia de BC intraprovincial con complejidad creciente.2σ proviene de 10 repeticiones del proceso de identificación de ecoprovincias.Para la complejidad total de las provincias descubiertas por DBSCAN, (A) muestra que la disimilitud BC en la provincia es 0,099 y la clasificación de complejidad propuesta por (C) es 12, lo que da como resultado una disimilitud BC de 0,200 en la provincia.como muestra la imagen.(D).
En la Figura 4B, se utiliza la biomasa de 51 tipos de plancton para representar la diferencia de BC equivalente en la provincia de Longhurst.El promedio general de cada provincia es 0,227 y la desviación estándar de los puntos de la cuadrícula con referencia a la diferencia en la provincia de BC es 0,046.Esto es más grande que el grupo identificado en la Figura 1B.En cambio, utilizando la suma de los siete grupos funcionales, la disimilitud promedio de BC entre temporadas en Longhurst aumentó a 0,232.
El mapa global de ecoprovincias proporciona detalles intrincados de interacciones ecológicas únicas y se han realizado mejoras en el uso de toda la estructura del ecosistema de la provincia de Longhurst.Se espera que el Ministerio de Ecología proporcione información sobre el proceso de control del ecosistema del modelo numérico, y esta información ayudará a la exploración del trabajo de campo.A los efectos de esta investigación, no es posible mostrar en su totalidad más de cien provincias.La siguiente sección presenta el método SAGE que resume las provincias.
Uno de los propósitos de la provincia es promover la comprensión de la ubicación y gestión de la provincia.Para determinar situaciones de emergencia, el método de la Figura 1B ilustra la anidación de provincias ecológicamente similares.Las ecoprovincias se agrupan según su similitud ecológica, y dicha agrupación de provincias se denomina AEP.Establecer una “complejidad” ajustable en función del número total de provincias a considerar.El término “complejidad” se utiliza porque permite ajustar el nivel de los atributos de emergencia.Para definir agregaciones significativas, se utiliza como punto de referencia la diferencia promedio de BC intraprovincial de 0,227 con respecto a Longhurst.Por debajo de este punto de referencia, las provincias combinadas ya no se consideran útiles.
Como se muestra en la Figura 3B, las provincias ecológicas globales son coherentes.Utilizando las diferencias interprovinciales de BC, se puede ver que algunas configuraciones son muy "comunes".Inspirándose en los métodos de la genética y la teoría de grafos, los “gráficos conectados” se utilizan para ordenar >100 provincias en función de las provincias más similares a ellas.La métrica de “conectividad” aquí se determina utilizando la disimilitud interprovincial de BC (30).El número de provincias con un espacio mayor para clasificación de > 100 provincias puede denominarse aquí complejidad.AEP es un producto que categoriza a más de 100 provincias como las provincias ecológicas más dominantes/más cercanas.Cada provincia ecológica se asigna a la provincia ecológica dominante/altamente conectada que es más similar a ellas.Esta agregación determinada por la diferencia BC permite un enfoque anidado de la ecología global.
La complejidad seleccionada puede ser cualquier valor desde 1 hasta la complejidad completa de la FIG.2A.A menor complejidad, AEP puede degenerar debido al paso de reducción de dimensionalidad probabilística (t-SNE).La degeneración significa que las provincias ecológicas se pueden asignar a diferentes AEP entre iteraciones, cambiando así el área geográfica cubierta.La Figura 4C ilustra la distribución de las diferencias de BC dentro de las provincias en AEP de complejidad creciente en 10 implementaciones (ilustración en la Figura 1B).En la Figura 4C, 2σ (área azul) es una medida de degradación en 10 implementaciones y la línea verde representa el punto de referencia de Longhurst.Los hechos han demostrado que la complejidad de 12 puede mantener la diferencia de BC en la provincia por debajo del punto de referencia de Longhurst en todas las implementaciones y mantener una degradación de 2σ relativamente pequeña.En resumen, la complejidad mínima recomendada es 12 AEP, y la diferencia promedio de BC intraprovincial evaluada utilizando 51 tipos de plancton es 0,198 ± 0,013, como se muestra en la Figura 4D.Utilizando la suma de siete grupos funcionales de plancton, la diferencia promedio de BC dentro de la provincia es 2σ en lugar de 0,198±0,004.La comparación entre las diferencias de BC calculadas con la biomasa total de los siete grupos funcionales o la biomasa de los 51 tipos de plancton muestra que aunque el método SAGE es aplicable a la situación de 51 dimensiones, lo es para la biomasa total de los siete grupos funcionales. Para entrenamiento.
Dependiendo del propósito de cualquier investigación, se pueden considerar diferentes niveles de complejidad.Los estudios regionales pueden requerir complejidad total (es decir, las 115 provincias).Como ejemplo y para mayor claridad, considere la complejidad mínima recomendada de 12.
Como ejemplo de la utilidad del método SAGE, aquí se utilizan 12 AEP con una complejidad mínima de 12 para explorar el control de la estructura comunitaria de emergencia.La Figura 5 ilustra los conocimientos ecológicos agrupados por AEP (de A a L): en la estequiometría de Redfield, la extensión geográfica (Figura 5C), la composición de la biomasa del grupo funcional (Figura 5A) y el suministro de nutrientes (Figura 5B) se realizan mediante N Zoomed.Se muestra la relación (N:Si:P:Fe, 1:1:16:16×103).Para el último panel, P se multiplicó por 16 y Fe se multiplicó por 16×103, por lo que el gráfico de barras equivale a los requerimientos nutricionales del fitoplancton.
Las provincias están clasificadas en 12 AEP A a L. (A) Biomasa (mgC/m3) de ecosistemas en 12 provincias.(B) La tasa de flujo de nutrientes de nitrógeno inorgánico (N), hierro (Fe), fosfato (P) y ácido silícico (Si) disueltos (mmol/m3 por año).Fe y P se multiplican por 16 y 16×103, respectivamente, de modo que las tiras estén estandarizadas según los requisitos de estequiometría del fitoplancton.(C) Tenga en cuenta la diferencia entre las regiones polares, los ciclones subtropicales y las principales regiones estacionales/en ascenso.Las estaciones de monitoreo están señalizadas de la siguiente manera: 1, ASIENTOS;2, ALOHA;3, estación P;y 4, MURCIÉLAGOS.
El AEP identificado es único.Existe cierta simetría alrededor del ecuador en los océanos Atlántico y Pacífico, y existe una zona similar pero ampliada en el océano Índico.Algunos AEP abarcan el lado occidental del continente asociado con el ascenso.La corriente circumpolar del polo sur se considera una característica zonal importante.El ciclón subtropical es una serie compleja de AEP oligotróficos.En estas provincias, el patrón familiar de diferencias de biomasa entre los vórtices oligotróficos dominados por el plancton y las regiones polares ricas en diatomeas es obvio.
Las AEP con biomasa total de fitoplancton muy similar pueden tener estructuras comunitarias muy diferentes y cubrir diferentes áreas geográficas, como D, H y K, que tienen una biomasa total de fitoplancton similar.AEP H existe principalmente en el Océano Índico ecuatorial y hay más bacterias diazotróficas.AEP D se encuentra en varias cuencas, pero es particularmente prominente en el Pacífico alrededor de áreas de alto rendimiento alrededor del afloramiento ecuatorial.La forma de esta provincia del Pacífico recuerda a un tren de ondas planetarias.Hay pocas diazobacterias en AEP D y más conos.En comparación con las otras dos provincias, AEP K sólo se encuentra en las tierras altas del Océano Ártico y hay más diatomeas y menos plancton.Vale la pena señalar que la cantidad de plancton en estas tres regiones también es muy diferente.Entre ellos, la abundancia de plancton de AEP K es relativamente baja, mientras que la de AEP D y H es relativamente alta.Por lo tanto, a pesar de su biomasa (y por lo tanto similar a Chl-a), estas provincias son bastante diferentes: las pruebas provinciales basadas en Chl pueden no capturar estas diferencias.
También es obvio que algunas PEA con biomasa muy diferente pueden ser similares en términos de estructura de la comunidad de fitoplancton.Esto es visible, por ejemplo, en AEP D y E. Están cerca uno del otro, y en el Océano Pacífico, AEP E está cerca del altamente productivo AEPJ.De manera similar, no existe un vínculo claro entre la biomasa de fitoplancton y la abundancia de zooplancton.
Los PEA pueden entenderse en términos de los nutrientes que se les proporcionan (Figura 5B).Las diatomeas sólo existen donde hay un amplio suministro de ácido silícico.Generalmente, cuanto mayor es el aporte de ácido silícico, mayor es la biomasa de las diatomeas.Las diatomeas se pueden ver en AEP A, J, K y L. La proporción de biomasa de diatomeas en relación con otro fitoplancton está determinada por el N, P y Fe proporcionados en relación con la demanda de diatomeas.Por ejemplo, AEP L está dominado por diatomeas.En comparación con otros nutrientes, el Si tiene la mayor oferta.Por el contrario, a pesar de una mayor productividad, AEP J tiene menos diatomeas y menos suministro de silicio (todos y en relación con otros nutrientes).
Las bacterias diazonio tienen la capacidad de fijar nitrógeno, pero crecen lentamente (31).Coexisten con otros fitoplancton, donde el hierro y el fósforo son excesivos en relación con la demanda de nutrientes distintos del diazonio (20, 21).Vale la pena señalar que la biomasa diazotrófica es relativamente alta y el suministro de Fe y P es relativamente grande en relación con el suministro de N. De esta manera, aunque la biomasa total en AEP J es mayor, la biomasa de diazonio en AEP H es más grande que el de J. Tenga en cuenta que AEP J y H son geográficamente muy diferentes y H está ubicado en el Océano Índico ecuatorial.
Si la estructura única del ecosistema no se divide en provincias, los conocimientos obtenidos de los 12 modelos de menor complejidad del AEP no serán tan claros.El AEP generado por SAGE facilita la comparación coherente y simultánea de información compleja y de alta dimensión de modelos de ecosistemas.AEP enfatiza efectivamente por qué Chl no es un método bueno y alternativo para determinar la estructura de la comunidad o la abundancia del zooplancton en niveles más altos de nutrientes.Un análisis detallado de los temas de investigación en curso está más allá del alcance de este artículo.El método SAGE proporciona una forma de explorar otros mecanismos en el modelo que es más fácil de manejar que la visualización punto a punto.
El método SAGE se propone para ayudar a aclarar datos ecológicos extremadamente complejos a partir de modelos numéricos físicos, biogeoquímicos y de ecosistemas globales.La provincia ecológica está determinada por la biomasa total de los grupos funcionales de plancton cruzado, la aplicación del algoritmo de reducción de dimensionalidad de probabilidad t-SNE y la agrupación utilizando el método ML no supervisado DBSCAN.La teoría de grafos/diferencias interprovinciales de BC para el método de anidamiento se aplica para derivar un AEP sólido que puede usarse para una interpretación global.En términos de construcción, la Ecoprovincia y la AEP son únicas.La anidación de AEP se puede ajustar entre la complejidad total de la provincia ecológica original y el umbral mínimo recomendado de 12 AEP.Anidar y determinar la complejidad mínima de AEP se consideran pasos clave, porque la probabilidad t-SNE degenera AEP de <12 complejidad.El método SAGE es global y su complejidad varía de >100 AEP a 12. Para simplificar, el enfoque actual está en la complejidad de 12 AEP globales.Las investigaciones futuras, especialmente los estudios regionales, pueden encontrar útil un subconjunto espacial más pequeño de las ecoprovincias globales, y pueden agregarse en un área más pequeña para aprovechar los mismos conocimientos ecológicos discutidos aquí.Proporciona sugerencias sobre cómo estas provincias ecológicas y los conocimientos adquiridos a partir de ellas pueden utilizarse para una mayor comprensión ecológica, facilitar la comparación de modelos y potencialmente mejorar el seguimiento de los ecosistemas marinos.
La provincia ecológica y la PEA identificadas por el método SAGE se basan en los datos del modelo numérico.Por definición, el modelo numérico es una estructura simplificada que intenta capturar la esencia del sistema objetivo, y diferentes modelos tendrán diferentes distribuciones de plancton.El modelo numérico utilizado en este estudio no puede capturar completamente algunos de los patrones observados (por ejemplo, en las estimaciones de Chl para la región ecuatorial y el Océano Austral).Solo se captura una pequeña parte de la diversidad en el océano real, y las escalas meso y submesoescala no se pueden resolver, lo que puede afectar el flujo de nutrientes y la estructura de la comunidad a menor escala.A pesar de estas deficiencias, resulta que AEP es muy útil para ayudar a comprender modelos complejos.Al evaluar dónde se encuentran provincias ecológicas similares, AEP proporciona una posible herramienta de comparación de modelos numéricos.El modelo numérico actual captura el patrón general de la concentración de Chl-a del fitoplancton mediante teledetección y la distribución del tamaño del plancton y el grupo funcional (Nota S1 y Figura S1) (2, 32).
Como se muestra en la línea de contorno de 0,1 mgChl-a/m-3, AEP se divide en área oligotrófica y área mesotrófica (Figura S1B): AEP B, C, D, E, F y G son áreas oligotróficas, y las áreas restantes son ubicado Superior Chl-a.AEP muestra cierta correspondencia con la provincia de Longhurst (Figura S3A), por ejemplo, el Océano Austral y el Pacífico ecuatorial.En algunas regiones, AEP cubre varias regiones de Longhurst y viceversa.Dado que la intención de delimitar las provincias de esta zona y Longhurst es diferente, se espera que haya diferencias.Múltiples AEP en una provincia de Longhurst indican que ciertas áreas con biogeoquímica similar pueden tener estructuras ecosistémicas muy diferentes.AEP exhibe una cierta correspondencia con los estados físicos, como se revela mediante el aprendizaje no supervisado (19), como en los estados de alta surgencia (por ejemplo, el Océano Austral y el Pacífico ecuatorial; Figura S3, C y D).Estas correspondencias indican que la estructura comunitaria del plancton está fuertemente influenciada por la dinámica del océano.En áreas como el Atlántico Norte, AEP atraviesa provincias físicas.El mecanismo que causa estas diferencias puede incluir procesos como el transporte de polvo, que pueden conducir a programas nutricionales completamente diferentes incluso en condiciones físicas similares.
El Ministerio de Ecología y la AEP señalaron que el uso de Chl por sí solo no puede identificar componentes ecológicos, como ya se ha dado cuenta la comunidad de ecología marina.Esto se ve en AEP con biomasa similar pero composición ecológica significativamente diferente (como D y E).Por el contrario, los PEA como D y K tienen biomasa muy diferente pero composición ecológica similar.La AEP destaca que la relación entre biomasa, composición ecológica y abundancia de zooplancton es compleja.Por ejemplo, aunque AEP J se destaca en términos de fitoplancton y biomasa de plancton, AEP y L tienen una biomasa de plancton similar, pero A tiene una mayor abundancia de plancton.La AEP enfatiza que la biomasa de fitoplancton (o Chl) no se puede utilizar para predecir la biomasa de zooplancton.El zooplancton es la base de la cadena alimentaria pesquera y estimaciones más precisas pueden conducir a una mejor gestión de los recursos.Los futuros satélites marinos de color [por ejemplo, PACE (plancton, aerosol, nubes y ecosistema marino)] pueden estar mejor posicionados para ayudar a estimar la estructura comunitaria del fitoplancton.El uso de la predicción de AEP puede facilitar potencialmente la estimación del zooplancton desde el espacio.Métodos como SAGE, junto con nuevas tecnologías y cada vez más datos de campo disponibles para estudios reales sobre el terreno (como Tara y la investigación de seguimiento), pueden dar un paso conjunto hacia el monitoreo de la salud de los ecosistemas basado en satélites.
El método SAGE proporciona una manera conveniente de evaluar algunos mecanismos que controlan las características de la provincia, como la biomasa/Chl, la producción primaria neta y la estructura comunitaria.Por ejemplo, la cantidad relativa de diatomeas está determinada por un desequilibrio en el suministro de Si, N, P y Fe en relación con los requisitos estequiométricos del fitoplancton.Con una tasa de suministro equilibrada, la comunidad está dominada por diatomeas (L).Cuando la tasa de oferta está desequilibrada (es decir, la oferta de silicio es menor que la demanda de nutrientes de las diatomeas), las diatomeas representan solo una pequeña porción (K).Cuando el suministro de Fe y P excede el suministro de N (por ejemplo, E y H), las bacterias diazotróficas crecerán vigorosamente.A través del contexto proporcionado por la AEP, la exploración de mecanismos de control será más útil.
La Ecoprovincia y la AEP son áreas con estructuras comunitarias similares.La serie de tiempo de una determinada ubicación dentro de una provincia ecológica o AEP puede considerarse como un punto de referencia y puede representar el área cubierta por la provincia ecológica o AEP.Las estaciones de monitoreo in situ a largo plazo proporcionan dichas series temporales.Los conjuntos de datos in situ a largo plazo seguirán desempeñando un papel incalculable.Desde la perspectiva del seguimiento de la estructura comunitaria, el método SAGE puede verse como una forma de ayudar a determinar la ubicación más útil de nuevos sitios.Por ejemplo, la serie temporal de la evaluación de hábitat oligotrófico a largo plazo (ALOHA) se encuentra en el AEP B del área oligotrófica (Figura 5C, etiqueta 2).Debido a que ALOHA está cerca del límite de otro AEP, es posible que la serie temporal no sea representativa de toda el área, como se sugirió anteriormente (33).En el mismo AEP B, la serie temporal SEATS (Southeast Asian Time Series) se ubica en el suroeste de Taiwán (34), más alejada de los límites de otros AEP (Figura 5C, etiqueta 1), y puede usarse como una mejor ubicación para monitorear AEPB.La serie temporal BATS (Bermuda Atlantic Time Series Study) (Figura 5C, etiqueta 4) en AEPC está muy cerca del límite entre AEP C y F, lo que indica que monitorear AEP C utilizando series temporales BATS puede ser directamente problemático.La estación P en AEP J (Figura 5C, etiqueta 3) está lejos del límite de AEP, por lo que es más representativa.La Ecoprovincia y la AEP pueden ayudar a establecer un marco de seguimiento adecuado para evaluar los cambios globales, porque el permiso de las provincias para evaluar dónde el muestreo in situ puede proporcionar información clave.El método SAGE se puede desarrollar aún más para aplicarlo a datos climáticos para evaluar la variabilidad y ahorrar tiempo.
El éxito del método SAGE se logra mediante la aplicación cuidadosa de métodos de ciencia de datos/ML y conocimientos específicos del dominio.Específicamente, t-SNE se utiliza para realizar una reducción de dimensionalidad, lo que preserva la estructura de covarianza de datos de alta dimensión y facilita la visualización de la topología de covarianza.Los datos están organizados en forma de franjas y covarianzas (Figura 2A), lo que indica que las medidas basadas puramente en la distancia (como las K-medias) no son apropiadas porque generalmente usan una distribución de base gaussiana (circular) (que se analiza en la Nota S2). .El método DBSCAN es adecuado para cualquier topología de covarianza.Siempre que preste atención a la configuración de los parámetros, se puede proporcionar una identificación confiable.El costo computacional del algoritmo t-SNE es alto, lo que limita su aplicación actual a una mayor cantidad de datos, lo que significa que es difícil de aplicar a campos profundos o que varían en el tiempo.Se está trabajando en la escalabilidad de t-SNE.Dado que la distancia KL es fácil de paralelizar, el algoritmo t-SNE tiene un buen potencial de expansión en el futuro (35).Hasta ahora, otros métodos prometedores de reducción de dimensionalidad que pueden reducir mejor el tamaño incluyen técnicas de proyección y aproximación de colectores unificados (UMAP), pero la evaluación en el contexto de los datos oceánicos es necesaria.Una mejor escalabilidad significa, por ejemplo, clasificar climas globales o modelos con diferente complejidad en una capa mixta.Las áreas que no han sido clasificadas por el SAGE en ninguna provincia pueden considerarse como los puntos negros restantes en la Figura 2A.Geográficamente, estas áreas se encuentran principalmente en áreas altamente estacionales, lo que sugiere que capturar provincias ecológicas que cambian con el tiempo proporcionará una mejor cobertura.
Para construir el método SAGE se han utilizado ideas de sistemas complejos/ciencia de datos, utilizando la capacidad de determinar clusters de grupos funcionales (la posibilidad de estar muy cerca en un espacio de 11 dimensiones) y determinar provincias.Estas provincias representan volúmenes específicos en nuestro espacio de fase 3D t-SNE.De manera similar, la parte de Poincaré se puede utilizar para evaluar el "volumen" del espacio de estados ocupado por la trayectoria para determinar el comportamiento "normal" o "caótico" (36).Para la salida del modelo estático de 11 dimensiones, el volumen ocupado después de convertir los datos en un espacio de fase 3D se puede explicar de manera similar.La relación entre el área geográfica y el área en el espacio de fase 3D no es simple, pero puede explicarse en términos de similitud ecológica.Por esta razón, se prefiere la medida de disimilitud BC más convencional.
El trabajo futuro reutilizará el método SAGE para datos que cambian estacionalmente para evaluar la variabilidad espacial de las provincias identificadas y AEP.El objetivo futuro es utilizar este método para ayudar a determinar qué provincias se pueden determinar mediante mediciones satelitales (como Chl-a, reflectividad de teledetección y temperatura de la superficie del mar).Esto permitirá la evaluación por teledetección de los componentes ecológicos y un seguimiento muy flexible de las provincias ecológicas y su variabilidad.
El propósito de esta investigación es presentar el método SAGE, que define una provincia ecológica a través de su estructura comunitaria de plancton única.Aquí se proporcionará información más detallada sobre el modelo físico/biogeoquímico/ecosistema y la selección de parámetros de los algoritmos t-SNE y DBSCAN.
Los componentes físicos del modelo provienen de la estimación de la circulación oceánica y el clima [ECCOv4;(37) la estimación del estado global descrita por (38).La resolución nominal de la estimación del estado es 1/5.El método de mínimos cuadrados con el método del multiplicador lagrangiano se utiliza para obtener las condiciones iniciales y de contorno y los parámetros del modelo interno ajustados por observación, generando así un modelo de ciclo general MIT de funcionamiento libre (MITgcm) (39), el modelo Después de la optimización, los resultados pueden ser rastreado y observado.
La biogeoquímica/ecosistema tiene una descripción más completa (es decir, ecuaciones y valores de parámetros) en (2).El modelo captura la circulación de C, N, P, Si y Fe a través de estanques orgánicos e inorgánicos.La versión utilizada aquí incluye 35 especies de fitoplancton: 2 especies de microprocariotas y 2 especies de microeucariotas (adecuadas para ambientes bajos en nutrientes), 5 especies de Cryptomonas sphaeroides (con una capa de carbonato de calcio), 5 especies de diazonio (puede fijar nitrógeno, por lo que no está limitado) la disponibilidad de nitrógeno inorgánico disuelto), 11 diatomeas (que forman una cubierta silícea), 10 flagelados vegetativos mixtos (pueden realizar la fotosíntesis y comer otro plancton) y 16 zooplancton (pastan otros plancton).Estos se denominan "grupos funcionales biogeoquímicos" porque tienen diferentes efectos sobre la biogeoquímica marina (40, 41) y se utilizan a menudo en estudios de observación y modelos.En este modelo, cada grupo funcional está compuesto por varios plancton de diferentes tamaños, con una envergadura de 0,6 a 2500 μm de diámetro esférico equivalente.
Los parámetros que afectan el crecimiento, el pastoreo y el hundimiento del fitoplancton están relacionados con el tamaño, y existen diferencias específicas entre los seis grupos funcionales del fitoplancton (32).A pesar de los diferentes marcos físicos, los resultados de los 51 componentes planctónicos del modelo se han utilizado en varios estudios recientes (42-44).
De 1992 a 2011, el modelo de acoplamiento físico/biogeoquímico/ecosistema funcionó durante 20 años.El resultado del modelo incluye biomasa de plancton, concentración de nutrientes y tasa de suministro de nutrientes (DIN, PO4, Si y Fe).En este estudio, se utilizó el promedio de 20 años de estas producciones como insumo de la Provincia Ecológica.Chl, la distribución de la biomasa del plancton y la concentración de nutrientes y la distribución de los grupos funcionales se comparan con observaciones satelitales e in situ [ver (2, 44), Nota S1 y figura.S1 a S3].
Para el método SAGE, la principal fuente de aleatoriedad proviene del paso t-SNE.La aleatoriedad dificulta la repetibilidad, lo que significa que los resultados no son fiables.El método SAGE prueba rigurosamente la solidez determinando un conjunto de parámetros de t-SNE y DBSCAN, que pueden identificar consistentemente grupos cuando se repiten.La determinación de la "perplejidad" del parámetro t-SNE puede entenderse como determinar el grado en que el mapeo de dimensiones altas a bajas debe respetar las características locales o globales de los datos.Se alcanzó la confusión de 400 y 300 iteraciones.
Para el algoritmo de agrupamiento DBSCAN, es necesario determinar el tamaño mínimo y la métrica de distancia de los puntos de datos en el grupo.El número mínimo se determina bajo la guía de expertos.Este conocimiento sabe qué se ajusta al marco y la resolución del modelado numérico actual.El número mínimo es 100. Se puede considerar un valor mínimo más alto (menos de <135 antes de que el límite superior de verde se ensanche), pero no puede reemplazar el método de agregación basado en la disimilitud BC.El grado de conexión (Figura 6A) se utiliza para establecer el parámetro ϵ, que conduce a una mayor cobertura (Figura 6B).La conectividad se define como el número compuesto de clústeres y es sensible al parámetro ϵ.Una conectividad más baja indica un ajuste insuficiente, lo que agrupa regiones artificialmente.Una alta conectividad indica sobreajuste.El sobreajuste también es problemático, porque muestra que las conjeturas aleatorias iniciales pueden conducir a resultados irreproducibles.Entre estos dos extremos, un aumento brusco (generalmente llamado “codo”) indica el mejor ϵ.En la Figura 6A, se ve un fuerte aumento en el área de la meseta (amarillo, > 200 grupos), seguido de una fuerte disminución (verde, 100 grupos), hasta aproximadamente 130, rodeado por muy pocos grupos (azul, <60 grupos). ).En al menos 100 áreas azules, o un grupo domina todo el océano (ϵ <0,42) o la mayor parte del océano no está clasificado y se considera ruido (ϵ> 0,99).El área amarilla tiene una distribución de conglomerados muy variable e irreproducible.A medida que ϵ disminuye, el ruido aumenta.La zona verde que aumenta considerablemente se llama codo.Esta es una región óptima.Aunque se utiliza la probabilidad t-SNE, la disimilitud de BC dentro de la provincia aún se puede utilizar para determinar una agrupación confiable.Usando la Figura 6 (A y B), establezca ϵ en 0,39.Cuanto mayor sea el número mínimo, menor será la probabilidad de alcanzar el ϵ que permita una clasificación confiable, y mayor será el área verde con un valor mayor a 135. La ampliación de esta área indica que el codo será más difícil de encontrar o no. existente.
Después de configurar los parámetros de t-SNE, el número total de grupos encontrados se utilizará como medida de conectividad (A) y el porcentaje de datos asignados al grupo (B).El punto rojo indica la mejor combinación de cobertura y conectividad.El número mínimo se establece en función del número mínimo relacionado con la ecología.
Para obtener materiales complementarios para este artículo, consulte http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Este es un artículo de acceso abierto distribuido bajo los términos de la Licencia de Atribución Creative Commons.El artículo permite el uso, distribución y reproducción sin restricciones en cualquier medio bajo la condición de que se cite adecuadamente la obra original.
Nota: Sólo te pedimos que proporciones tu dirección de correo electrónico para que la persona que recomiendes a la página sepa que quieres que vea el correo electrónico y que no es spam.No capturaremos ninguna dirección de correo electrónico.
Esta pregunta se utiliza para comprobar si es un visitante y evitar el envío automático de spam.
El Ministerio Global de Ecología Marina está decidido a resolver problemas complejos y utiliza ML no supervisado para explorar estructuras comunitarias.
El Ministerio Global de Ecología Marina está decidido a resolver problemas complejos y utiliza ML no supervisado para explorar estructuras comunitarias.

Hora de publicación: 12 de enero de 2021

Aclarando la complejidad ecológica: el aprendizaje no supervisado determina la provincia ecológica marina global