Une méthode d'apprentissage non supervisée est proposée pour déterminer les provinces écologiques marines mondiales (écoprovinces) sur la base de la structure de la communauté planctonique et des données sur les flux de nutriments.La méthode des provinces écologiques systématiques intégrées (SAGE) peut identifier les provinces écologiques dans des modèles d'écosystèmes hautement non linéaires.Afin de s'adapter à la covariance non gaussienne des données, SAGE utilise l'intégration de voisins aléatoires (t-SNE) pour réduire la dimensionnalité.Grâce à l'application de bruit basée sur l'algorithme de regroupement spatial basé sur la densité (DBSCAN), plus d'une centaine de provinces écologiques peuvent être identifiées.En utilisant la carte de connectivité avec les différences écologiques comme mesure de distance, une province écologique agrégée (AEP) robuste est définie objectivement à travers des provinces écologiques imbriquées.À l’aide des AEP, le contrôle du taux d’apport en nutriments sur la structure de la communauté a été exploré.L'écoprovince et l'AEP sont uniques et peuvent aider à l'interprétation du modèle.Ils peuvent faciliter les comparaisons entre les modèles et améliorer la compréhension et la surveillance des écosystèmes marins.
Les provinces sont des régions où la biogéographie complexe, marine ou terrestre, est organisée en espaces cohérents et significatifs (1).Ces provinces sont très importantes pour comparer et contraster les lieux, caractériser les observations, la surveillance et la protection.Les interactions complexes et non linéaires qui produisent ces provinces rendent les méthodes d'apprentissage automatique (ML) non supervisées très adaptées pour déterminer objectivement les provinces, car la covariance des données est complexe et non gaussienne.Ici, une méthode ML est proposée, qui identifie systématiquement les provinces écologiques marines uniques (écoprovinces) à partir du modèle physique/écosystème tridimensionnel (3D) global de Darwin (2).Le terme « unique » est utilisé pour indiquer que la zone identifiée ne chevauche pas suffisamment d’autres zones.Cette méthode est appelée méthode SAGE (System Integrated Ecological Province).Afin d'effectuer une classification utile, une méthode algorithmique doit permettre (i) une classification globale et (ii) une analyse multi-échelle qui peut être imbriquée/agrégée dans l'espace et le temps (3).Dans cette recherche, la méthode SAGE a d'abord été proposée et les provinces écologiques identifiées ont été discutées.Les écoprovinces peuvent favoriser la compréhension des facteurs qui contrôlent la structure des communautés, fournir des informations utiles pour les stratégies de surveillance et aider à suivre les changements dans l'écosystème.
Les provinces terrestres sont généralement classées en fonction de similitudes en matière de climat (précipitations et température), de sol, de végétation et de faune, et sont utilisées à des fins de gestion auxiliaire, de recherche sur la biodiversité et de contrôle des maladies (1, 4).Les provinces maritimes sont plus difficiles à définir.La plupart des organismes sont microscopiques et présentent des limites fluides.Longhurst et coll.(5) Fourni l'une des premières classifications mondiales du ministère de l'Océanographie basée sur les conditions environnementales.La définition de ces provinces « Longhurst » inclut des variables telles que le taux de mélange, la stratification et l'irradiance, ainsi que la vaste expérience de Longhurst en tant qu'océanographe marin, qui possède d'autres conditions importantes pour les écosystèmes marins.Longhurst a été largement utilisé, par exemple, pour évaluer la production primaire et les flux de carbone, aider la pêche et planifier des activités d'observation in situ (5-9).Afin de définir les provinces de manière plus objective, des méthodes telles que la logique floue et le regroupement/statistiques régionales non supervisées ont été utilisées (9-14).Le but de ces méthodes est d'identifier des structures significatives permettant d'identifier les provinces dans les données d'observation disponibles.Par exemple, les provinces marines dynamiques (12) utilisent des cartes auto-organisées pour réduire le bruit et utilisent un regroupement hiérarchique (arborescent) pour déterminer les produits de couleur marine dérivés des satellites régionaux [chlorophylle a (Chl-a), hauteur de ligne de fluorescence normalisée et matière organique dissoute colorée] et le domaine physique (température et salinité de la surface de la mer, topographie dynamique absolue et glace de mer).
La structure des communautés planctoniques est préoccupante car son écologie a une grande influence sur les niveaux plus élevés de nutriments, l’absorption du carbone et le climat.Néanmoins, déterminer une province écologique mondiale basée sur la structure de la communauté planctonique reste un objectif difficile et insaisissable.Les satellites de couleurs marines peuvent potentiellement fournir des informations sur la classification à gros grains du phytoplancton ou suggérer les avantages des groupes fonctionnels (15), mais ils ne sont actuellement pas en mesure de fournir des informations détaillées sur la structure des communautés.Des études récentes [par exemple Tara Ocean (16)] fournissent des mesures sans précédent de la structure des communautés ;actuellement, il n’existe que peu d’observations in situ à l’échelle mondiale (17).Des études antérieures ont largement déterminé la « province biogéochimique » (12, 14, 18) sur la base de la détermination de similitudes biochimiques (telles que la production primaire, le Chl et la lumière disponible).Ici, le modèle numérique est utilisé pour produire [Darwin(2)], et la province écologique est déterminée en fonction de la structure de la communauté et du flux de nutriments.Le modèle numérique utilisé dans cette étude a une couverture mondiale et peut être comparé aux données de terrain existantes (17) et aux champs de télédétection (Note S1).Les données du modèle numérique utilisées dans cette étude présentent l’avantage d’une couverture mondiale.L'écosystème modèle est constitué de 35 espèces de phytoplancton et de 16 espèces de zooplancton (veuillez vous référer aux matériels et méthodes).Les types de plancton modèles interagissent de manière non linéaire avec les structures de covariance non gaussiennes, de sorte que les méthodes de diagnostic simples ne conviennent pas pour identifier des modèles uniques et cohérents dans les structures communautaires émergentes.La méthode SAGE présentée ici offre une nouvelle manière de vérifier les résultats de modèles Darwin complexes.
Les puissantes capacités de transformation de la science des données/de la technologie ML peuvent permettre à des solutions de modèles extrêmement complexes de révéler des structures complexes mais robustes dans la covariance des données.Une méthode robuste est définie comme une méthode capable de reproduire fidèlement les résultats dans une plage d’erreur donnée.Même dans des systèmes simples, déterminer des modèles et des signaux robustes peut s’avérer difficile.Jusqu’à ce que la justification du modèle observé soit déterminée, la complexité émergente peut sembler compliquée/difficile à résoudre.Le processus clé de définition de la composition de l’écosystème est de nature non linéaire.L'existence d'interactions non linéaires peut perturber une classification robuste. Il est donc nécessaire d'éviter les méthodes qui font des hypothèses fortes sur la distribution statistique de base de la covariance des données.Les données de grande dimension et non linéaires sont courantes en océanographie et peuvent avoir une structure de covariance avec une topologie complexe non gaussienne.Bien que les données présentant une structure de covariance non gaussienne puissent entraver une classification robuste, la méthode SAGE est nouvelle car elle est conçue pour identifier les clusters avec des topologies arbitraires.
L’objectif de la méthode SAGE est d’identifier objectivement les modèles émergents susceptibles de contribuer à une meilleure compréhension écologique.Suivant un flux de travail basé sur des clusters similaire à (19), les variables de flux écologique et nutritif sont utilisées pour déterminer le seul cluster dans les données, appelé la province écologique.La méthode SAGE proposée dans cette étude (Figure 1) réduit d'abord la dimensionnalité de 55 à 11 dimensions en sommant les groupes fonctionnels du plancton définis a priori (voir Matériels et méthodes).En utilisant la méthode d'incorporation de voisins aléatoires (t-SNE), la taille est encore réduite en projetant la probabilité dans l'espace 3D.Le regroupement non supervisé peut identifier des zones écologiquement proches [regroupement spatial basé sur la densité (DBSCAN) pour les applications basées sur le bruit].Le t-SNE et le DBSCAN sont tous deux applicables aux données inhérentes du modèle numérique d'écosystème non linéaire.Reprojetez ensuite la province écologique résultante sur la terre.Plus d'une centaine de provinces écologiques uniques ont été identifiées, propices à la recherche régionale.Afin de considérer le modèle d'écosystème globalement cohérent, la méthode SAGE est utilisée pour agréger les provinces écologiques en provinces écologiques agrégées (AEP) afin d'améliorer l'efficacité des provinces écologiques.Le niveau d'agrégation (appelé « complexité ») peut être ajusté au niveau de détail requis.Déterminez la complexité minimale d’un AEP robuste.La sélection se concentre sur la méthode SAGE et sur l'exploration des cas AEP les plus simples pour déterminer le contrôle de la structure communautaire d'urgence.Les modèles peuvent ensuite être analysés pour fournir des informations écologiques.La méthode présentée ici peut également être utilisée pour une comparaison de modèles plus approfondie, par exemple en évaluant les emplacements de provinces écologiques similaires trouvées dans différents modèles pour mettre en évidence les différences et les similitudes, afin de comparer les modèles.
(A) Diagramme schématique du flux de travail pour déterminer la province écologique ;utiliser la somme dans le groupe fonctionnel pour réduire les données originales à 55 dimensions à un résultat de modèle à 11 dimensions, y compris la biomasse de sept planctons fonctionnels/nutritifs et quatre taux d'apport de nutriments.Valeur négligeable et zone de couverture de glace durable.Les données ont été standardisées et standardisées.Fournissez des données en 11 dimensions à l’algorithme t-SNE pour mettre en évidence des combinaisons de fonctionnalités statistiquement similaires.DBSCAN sélectionnera soigneusement le cluster pour définir la valeur du paramètre.Enfin, projetez les données sur la projection latitude/longitude.Veuillez noter que ce processus est répété 10 fois car un léger caractère aléatoire peut être généré par l'application du t-SNE.(B) explique comment obtenir l’AEP en répétant le flux de travail en (A) 10 fois.Pour chacune de ces 10 mises en œuvre, la matrice de dissimilarité interprovinciale de Bray-Curtis (BC) a été déterminée sur la base de la biomasse de 51 types de phytoplancton.Déterminez la différence entre les provinces de la Colombie-Britannique, de la complexité 1 AEP à la complexité complète 115. Le point de référence de la Colombie-Britannique est fixé par la province de Longhurst.
La méthode SAGE utilise les résultats du modèle numérique physique/écosystème 3D global pour définir la province écologique [Darwin (2) ;voir Matériels et méthodes et note S1].Les composantes de l'écosystème sont composées de 35 espèces de phytoplancton et de 16 espèces de zooplancton, avec sept groupes fonctionnels prédéfinis : les procaryotes et les eucaryotes adaptés aux environnements pauvres en nutriments, les coccidies recouvertes de carbonate de calcium et les nutriments azotés fortement fixés (généralement manquants). nutriments importants), avec une couverture siliceuse, peut faire d'autres photosynthèses de plancton et brouter des flagellés de nutriments mélangés et des bergers de zooplancton.La plage de taille est de 0,6 à 2 500 μm de diamètre sphérique équivalent.La distribution du modèle de la taille du phytoplancton et du groupement fonctionnel capture les caractéristiques globales observées dans les observations par satellite et in situ (voir les figures S1 à S3).La similarité entre le modèle numérique et l'océan observé indique que les provinces définies par le modèle peuvent être applicables à l'océan in situ.Veuillez noter que ce modèle ne capture qu'une certaine diversité du phytoplancton et seulement certaines plages de forçage physique et chimique de l'océan in situ.La méthode SAGE peut permettre aux gens de mieux comprendre le mécanisme de contrôle hautement régional de la structure communautaire modèle.
En incluant uniquement la somme de la biomasse de surface (sur une durée moyenne de 20 ans) dans chaque groupe fonctionnel du plancton, la dimensionnalité des données peut être réduite.Après que des études antérieures aient montré leur rôle clé dans la définition de la structure de la communauté, elles incluaient également des termes sources de surface pour les flux de nutriments (apport d'azote, de fer, de phosphate et d'acide silicique) [par exemple (20, 21)] .La sommation des groupes fonctionnels réduit le problème de 55 (51 flux de plancton et 4 flux de nutriments) à 11 dimensions.Dans cette première étude, en raison des contraintes informatiques imposées par l’algorithme, la variabilité de la profondeur et du temps n’a pas été prise en compte.
La méthode SAGE est capable d'identifier des relations importantes entre les processus non linéaires et les caractéristiques clés des interactions entre la biomasse des groupes fonctionnels et le flux de nutriments.L’utilisation de données à 11 dimensions basées sur des méthodes euclidiennes d’apprentissage à distance (telles que les K-means) ne permet pas d’obtenir des provinces fiables et reproductibles (19, 22).En effet, aucune forme gaussienne n'est trouvée dans la distribution de base de la covariance des éléments clés qui définissent la province écologique.Les K-moyennes des cellules de Voronoï (lignes droites) ne peuvent pas conserver la distribution de base non gaussienne.
La biomasse de sept groupes fonctionnels du plancton et de quatre flux de nutriments forment un vecteur x à 11 dimensions.Par conséquent, x est un champ vectoriel sur la grille modèle, où chaque élément xi représente un vecteur à 11 dimensions défini sur la grille horizontale du modèle.Chaque indice i identifie de manière unique un point de grille sur la sphère, où (lon, lat) = (ϕi, θi).Si la biomasse de l'unité de grille du modèle est inférieure à 1,2 × 10-3 mg Chl/m3 ou si le taux de couverture de glace dépasse 70 %, le journal des données de biomasse est utilisé et rejeté.Les données sont normalisées et standardisées, de sorte que toutes les données sont comprises entre [0 et 1], la moyenne est supprimée et mise à l'échelle en fonction de la variance unitaire.Ceci est fait pour que les caractéristiques (biomasse et flux de nutriments) ne soient pas limitées par le contraste dans la plage des valeurs possibles.Le clustering doit capturer la relation de changement à partir de la distance de probabilité clé entre les entités plutôt que de la distance géographique.En quantifiant ces distances, des caractéristiques importantes apparaissent, tandis que les détails inutiles sont écartés.D'un point de vue écologique, cela est nécessaire car certains types de phytoplancton avec peu de biomasse peuvent avoir des effets biogéochimiques plus importants, comme la fixation de l'azote par les bactéries diazotrophes.Lors de la normalisation et de la normalisation des données, ces types de covariables seront mis en évidence.
En mettant l'accent sur la proximité des entités dans un espace de grande dimension dans une représentation de basse dimension, l'algorithme t-SNE est utilisé pour rendre plus claires les régions similaires existantes.Des travaux antérieurs visant à créer des réseaux neuronaux profonds pour les applications de télédétection utilisaient le t-SNE, qui a prouvé sa capacité à séparer les caractéristiques clés (23).Il s'agit d'une étape nécessaire pour identifier un clustering robuste dans les données de fonctionnalités tout en évitant les solutions non convergentes (note S2).À l'aide de noyaux gaussiens, le t-SNE préserve les propriétés statistiques des données en mappant chaque objet de grande dimension à un point de l'espace des phases 3D, garantissant ainsi que la probabilité d'objets similaires dans les directions haute et basse est élevée dans une perspective élevée. espace dimensionnel (24).Étant donné un ensemble de N objets de grande dimension x1,…,xN, l'algorithme t-SNE réduit en minimisant la divergence de Kullback-Leibler (KL) (25).La divergence KL est une mesure de la différence entre une distribution de probabilité et une seconde distribution de probabilité de référence, et peut évaluer efficacement la possibilité de corrélation entre des représentations de faible dimension de caractéristiques de haute dimension.Si xi est le i-ème objet dans l'espace à N dimensions, xj est le j-ème objet dans l'espace à N dimensions, yi est le i-ème objet dans l'espace à faible dimension et yj est le j-ème objet dans l'espace à faible dimension. -espace dimensionnel, alors t -SNE définit la probabilité de similarité ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), et pour l'ensemble de réduction de dimensionnalité q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
La figure 2A illustre l’effet de la réduction des vecteurs de flux de biomasse et de nutriments de la combinaison à 11 dimensions en 3D.La motivation de l'application du t-SNE peut être comparée à la motivation de l'analyse en composantes principales (ACP), qui utilise l'attribut de variance pour mettre l'accent sur la zone/l'attribut des données, réduisant ainsi la dimensionnalité.La méthode t-SNE s'est avérée supérieure à la PCA pour fournir des résultats fiables et reproductibles pour l'Eco-Ministère (voir note S2).Cela peut être dû au fait que l'hypothèse d'orthogonalité de l'ACP n'est pas adaptée pour identifier les interactions critiques entre des fonctionnalités interactives hautement non linéaires, car l'ACP se concentre sur les structures de covariance linéaire (26).À l’aide de données de télédétection, Lunga et al.(27) illustre comment utiliser la méthode SNE pour mettre en évidence des caractéristiques spectrales complexes et non linéaires qui s'écartent de la distribution gaussienne.
(A) Un taux d’approvisionnement en nutriments modélisé, la biomasse des groupes fonctionnels de phytoplancton et de zooplancton dessinés par l’algorithme t-SNE et colorés par province à l’aide de DBSCAN.Chaque point représente un point dans l'espace de grande dimension, comme le montre la figure 6B, la plupart des points sont capturés.Les arbres font référence aux tailles « t-SNE » 1, 2 et 3. (B) La projection géographique de la province trouvée par DBSCAN sur la grille latitude-longitude de l'origine.La couleur doit être considérée comme n’importe quelle couleur, mais doit correspondre à (A).
Les points du nuage de points t-SNE de la figure 2A sont respectivement associés à la latitude et à la longitude.Si les deux points de la figure 2A sont proches l’un de l’autre, c’est parce que leurs flux de biomasse et de nutriments sont similaires, et non en raison de leur proximité géographique.Les couleurs de la figure 2A sont des clusters découverts à l'aide de la méthode DBSCAN (28).Lors de la recherche d'observations denses, l'algorithme DBSCAN utilise la distance dans la représentation 3D entre les points (ϵ = 0,39 ; pour plus d'informations sur ce choix, voir Matériels et méthodes), et le nombre de points similaires est requis pour définir le cluster (ici 100 points, voir ci-dessus).La méthode DBSCAN ne fait aucune hypothèse sur la forme ou le nombre de clusters dans les données, comme indiqué ci-dessous :
3) Pour tous les points identifiés comme se trouvant à l’intérieur de la distance, répétez l’étape 2 de manière itérative pour déterminer la limite du cluster.Si le nombre de points est supérieur à la valeur minimale définie, il est désigné comme cluster.
Les données qui ne satisfont pas à la métrique minimale de membre de cluster et de distance ϵ sont considérées comme du « bruit » et ne se voient pas attribuer de couleur.DBSCAN est un algorithme rapide et évolutif avec des performances O(n2) dans le pire des cas.Pour l’analyse actuelle, ce n’est pas vraiment aléatoire.Le nombre minimum de points est déterminé par une expertise.Après avoir ajusté la distance, le résultat n'est pas suffisamment stable dans la plage ≈±10.Cette distance est définie à l’aide de la connectivité (Figure 6A) et du pourcentage de couverture océanique (Figure 6B).La connectivité est définie comme le nombre composite de clusters et est sensible au paramètre ϵ.Une connectivité inférieure indique un ajustement insuffisant, regroupant artificiellement les régions.Une connectivité élevée indique un surapprentissage.Il est envisageable d'utiliser un minimum plus élevé, mais si le minimum dépasse ca, il est impossible d'obtenir une solution fiable.135 (Pour plus de détails, voir Matériels et méthodes).
Les 115 clusters identifiés sur la figure 2A sont projetés sur la terre sur la figure 2B.Chaque couleur correspond à une combinaison cohérente de facteurs biogéochimiques et écologiques identifiés par DBSCAN.Une fois les clusters déterminés, l'association de chaque point de la figure 2A avec une latitude et une longitude spécifiques est utilisée pour projeter les clusters sur la zone géographique.La figure 2B illustre cela avec les mêmes couleurs de cluster que la figure 2A.Des couleurs similaires ne doivent pas être interprétées comme une similitude écologique, car elles sont attribuées en fonction de l'ordre dans lequel les clusters sont découverts par l'algorithme.
La zone de la figure 2B peut être qualitativement similaire à une zone établie dans la physique et/ou la biogéochimie de l'océan.Par exemple, les amas de l'océan Austral sont symétriques par zone, avec l'apparition de vortex oligotrophes, et la transition brusque indique l'influence des alizés.Par exemple, dans le Pacifique équatorial, on observe différentes régions liées à la hausse.
Afin de comprendre l'environnement écologique de l'éco-province, une variation de l'indice de différence de Bray-Curtis (BC) (29) a été utilisée pour évaluer l'écologie dans la grappe.L'indicateur BC est une donnée statistique utilisée pour quantifier la différence de structure communautaire entre deux sites différents.La mesure BC est applicable à la biomasse de 51 espèces de phytoplancton et zooplancton BCninj = 1-2CninjSni + Snj
BCninj fait référence à la similitude entre la combinaison ni et la combinaison nj, où Cninj est la valeur minimale d'un seul type de biomasse qui existe dans les deux combinaisons ni et nj, et Sni représente la somme de toutes les biomasses qui existent dans les deux combinaisons ni et Snj.La différence BC est similaire à la mesure de distance, mais opère dans un espace non euclidien, ce qui est probablement plus adapté aux données écologiques et à leur interprétation.
Pour chaque grappe identifiée à la figure 2B, la similarité de la Colombie-Britannique intra-provinciale et interprovinciale peut être évaluée.La différence entre la Colombie-Britannique au sein d'une province fait référence à la différence entre la valeur moyenne de la province et chaque point de la province.La différence entre les provinces de la Colombie-Britannique fait référence à la similitude entre une province et les autres provinces.La figure 3A montre une matrice BC symétrique (0, noir : complètement correspondant ; 1, blanc : complètement différent).Chaque ligne du graphique montre un modèle dans les données.La figure 3B montre l'importance géographique des résultats de la Colombie-Britannique dans la figure 3A pour chaque province.Pour une province située dans une zone à faible teneur en nutriments et en nutriments, la figure 3B montre que la symétrie de vastes zones autour de l'équateur et de l'océan Indien est fondamentalement similaire, mais que les latitudes plus élevées et les zones d'upwelling sont significativement différentes.
(A) Le degré de différence en Colombie-Britannique évalué pour chaque province sur la base de la moyenne mondiale de la surface mondiale sur 20 ans de 51 planctons.Notez la symétrie attendue des valeurs.(B) La projection spatiale d’une colonne (ou d’une ligne).Pour une province située dans un cercle dystrophique, la distribution mondiale de la mesure de similarité de la Colombie-Britannique a été évaluée, ainsi que la moyenne mondiale sur 20 ans.Le noir (BC = 0) signifie la même zone et le blanc (BC = 1) signifie aucune similitude.
La figure 4A illustre la différence entre la Colombie-Britannique et chaque province de la figure 2B.Déterminé en utilisant la combinaison moyenne de la superficie moyenne d'un groupe et en déterminant la dissimilarité entre la Colombie-Britannique et la moyenne de chaque point de grille de la province, il montre que la méthode SAGE peut bien séparer 51 espèces en fonction de la similarité écologique. données du modèle.La dissimilarité moyenne globale du cluster BC des 51 types est de 0,102 ± 0,0049.
(A, B et D) La différence de Colombie-Britannique au sein de la province est évaluée comme la différence moyenne de Colombie-Britannique entre chaque communauté de point de grille et la province moyenne, et la complexité n'est pas réduite.(2) La différence intraprovinciale moyenne mondiale en Colombie-Britannique est de 0,227 ± 0,117.C'est le référentiel de classification écologique basée sur la motivation proposé par ce travail [ligne verte en (C)].(C) Différence intra-provinciale moyenne en Colombie-Britannique : La ligne noire représente la différence intra-provinciale en Colombie-Britannique avec une complexité croissante.2σ provient de 10 répétitions du processus d’identification de l’éco-province.Pour la complexité totale des provinces découvertes par DBSCAN, (A) montre que la dissimilarité BC dans la province est de 0,099, et la classification de complexité proposée par (C) est de 12, ce qui donne une dissimilarité BC de 0,200 dans la province.comme le montre la photo.(D).
Dans la figure 4B, la biomasse de 51 types de plancton est utilisée pour représenter la différence équivalente en Colombie-Britannique dans la province de Longhurst.La moyenne globale de chaque province est de 0,227 et l'écart type des points de la grille par rapport à la différence dans la province de la Colombie-Britannique est de 0,046.C’est plus grand que le cluster identifié sur la figure 1B.Au lieu de cela, en utilisant la somme des sept groupes fonctionnels, la dissimilarité moyenne intra-saison de la Colombie-Britannique à Longhurst a augmenté à 0,232.
La carte mondiale de l'éco-province fournit des détails complexes sur les interactions écologiques uniques et des améliorations ont été apportées à l'utilisation de l'ensemble de la structure écosystémique de la province de Longhurst.Le ministère de l’Écologie devrait fournir un aperçu du processus de contrôle de l’écosystème des modèles numériques, et cet aperçu facilitera l’exploration des travaux sur le terrain.Aux fins de cette recherche, il n’est pas possible d’afficher entièrement plus d’une centaine de provinces.La section suivante présente la méthode SAGE qui résume les provinces.
L'un des objectifs de la province est de promouvoir la compréhension de l'emplacement et de la gestion de la province.Pour déterminer les situations d’urgence, la méthode de la figure 1B illustre l’imbrication de provinces écologiquement similaires.Les éco-provinces sont regroupées sur la base de similitudes écologiques, et ce regroupement de provinces est appelé AEP.Fixez une « complexité » ajustable en fonction du nombre total de provinces à considérer.Le terme « complexité » est utilisé car il permet d’ajuster le niveau des attributs d’urgence.Afin de définir des agrégations significatives, la différence intraprovinciale moyenne de la Colombie-Britannique de 0,227 par rapport à Longhurst est utilisée comme référence.En dessous de ce seuil, les provinces combinées ne sont plus considérées comme utiles.
Comme le montre la figure 3B, les provinces écologiques mondiales sont cohérentes.En utilisant les différences interprovinciales de la Colombie-Britannique, on peut constater que certaines configurations sont très « communes ».Inspirés des méthodes de la génétique et de la théorie des graphes, les « graphes connectés » sont utilisés pour trier plus de 100 provinces en fonction de celles qui leur ressemblent le plus.La mesure de la « connectivité » est ici déterminée à l’aide de la dissimilarité interprovinciale de la Colombie-Britannique (30).Le nombre de provinces avec un plus grand espace de classification > 100 provinces peut être appelé ici complexité.L'AEP est un produit qui classe plus de 100 provinces comme étant les provinces écologiques les plus dominantes/les plus proches.Chaque province écologique est affectée à la province écologique dominante/hautement connectée qui lui ressemble le plus.Cette agrégation déterminée par la différence BC permet une approche imbriquée de l'écologie globale.
La complexité sélectionnée peut être n'importe quelle valeur de 1 à la complexité complète de la Fig.2A.À une complexité moindre, l'AEP peut dégénérer en raison de l'étape de réduction de dimensionnalité probabiliste (t-SNE).La dégénérescence signifie que les provinces écologiques peuvent être attribuées à différents AEP entre les itérations, modifiant ainsi la zone géographique couverte.La figure 4C illustre la répartition des dissemblances de Colombie-Britannique au sein des provinces dans des AEP de complexité croissante sur 10 mises en œuvre (illustration dans la figure 1B).Dans la figure 4C, 2σ (zone bleue) est une mesure de dégradation dans 10 implémentations, et la ligne verte représente la référence de Longhurst.Les faits ont prouvé que la complexité de 12 peut maintenir la différence en Colombie-Britannique dans la province en dessous du point de référence de Longhurst dans toutes les mises en œuvre et maintenir une dégradation de 2σ relativement faible.En résumé, la complexité minimale recommandée est de 12 AEP et la différence moyenne intra-province en Colombie-Britannique évaluée à l'aide de 51 types de plancton est de 0,198 ± 0,013, comme le montre la figure 4D.En utilisant la somme de sept groupes fonctionnels du plancton, la différence moyenne en matière de BC au sein de la province est de 2σ au lieu de 0,198 ± 0,004.La comparaison entre les différences de BC calculées avec la biomasse totale des sept groupes fonctionnels ou la biomasse des 51 types de plancton montre que bien que la méthode SAGE soit applicable à la situation à 51 dimensions, elle l'est pour la biomasse totale des sept groupes fonctionnels. Pour s'entraîner.
Selon le but de toute recherche, différents niveaux de complexité peuvent être envisagés.Les études régionales peuvent nécessiter une complexité totale (c'est-à-dire les 115 provinces).À titre d'exemple et pour plus de clarté, considérons la complexité minimale recommandée de 12.
À titre d'exemple de l'utilité de la méthode SAGE, 12 AEP d'une complexité minimale de 12 sont utilisés ici pour explorer le contrôle de la structure communautaire d'urgence.La figure 5 illustre les informations écologiques regroupées par AEP (de A à L) : dans la stœchiométrie de Redfield, l'étendue géographique (figure 5C), la composition de la biomasse des groupes fonctionnels (figure 5A) et l'apport en nutriments (figure 5B) sont réalisés par N Zoomed.Le rapport (N:Si:P:Fe, 1:1:16:16×103) est indiqué.Pour ce dernier panel, P multiplié par 16 et Fe multiplié par 16×103, le graphique à barres équivaut donc aux besoins nutritionnels du phytoplancton.
Les provinces sont classées en 12 AEP A à L. (A) Biomasse (mgC/m3) des écosystèmes dans 12 provinces.(B) Le taux de flux de nutriments en azote inorganique dissous (N), en fer (Fe), en phosphate (P) et en acide silicique (Si) (mmol/m3 par an).Fe et P sont multipliés respectivement par 16 et 16 × 103, de sorte que les bandes soient standardisées selon les exigences de stœchiométrie du phytoplancton.(C) Notez la différence entre les régions polaires, les cyclones subtropicaux et les principales régions saisonnières/en hausse.Les stations de surveillance sont marquées comme suit : 1, SIÈGES ;2, ALOHA ;3, gare P ;et 4, CHAUVE-SOURIS.
L’AEP identifié est unique.Il existe une certaine symétrie autour de l’équateur dans les océans Atlantique et Pacifique, et une zone similaire mais élargie existe dans l’océan Indien.Certains AEP embrassent le côté ouest du continent associé à l’ascension.Le courant circumpolaire du pôle Sud est considéré comme une grande caractéristique zonale.Le cyclone subtropical est une série complexe d’AEP oligotrophes.Dans ces provinces, le schéma familier des différences de biomasse entre les vortex oligotrophes dominés par le plancton et les régions polaires riches en diatomées est évident.
Les AEP avec une biomasse totale de phytoplancton très similaire peuvent avoir des structures de communauté très différentes et couvrir différentes zones géographiques, telles que D, H et K, qui ont une biomasse totale de phytoplancton similaire.L'AEP H existe principalement dans l'océan Indien équatorial, et les bactéries diazotrophes sont plus nombreuses.L'AEP D est présente dans plusieurs bassins, mais elle est particulièrement importante dans le Pacifique, autour des zones à haut rendement autour de l'upwelling équatorial.La forme de cette province du Pacifique rappelle celle d’un train d’ondes planétaires.Il y a peu de diazobactéries dans l'AEP D, et davantage de cônes.Comparativement aux deux autres provinces, l'AEP K ne se trouve que dans les hautes terres de l'océan Arctique, et il y a plus de diatomées et moins de planctons.Il convient de noter que la quantité de plancton dans ces trois régions est également très différente.Parmi eux, l’abondance en plancton des AEP K est relativement faible, tandis que celle des AEP D et H est relativement élevée.Par conséquent, malgré leur biomasse (et donc similaire à Chl-a), ces provinces sont assez différentes : les tests provinciaux basés sur Chl peuvent ne pas refléter ces différences.
Il est également évident que certains AEP ayant une biomasse très différente peuvent être similaires en termes de structure de communauté phytoplanctonique.Par exemple, cela est visible dans les AEP D et E. Ils sont proches l’un de l’autre, et dans l’océan Pacifique, l’AEP E est proche de l’AEPJ, très productif.De même, il n’existe pas de lien clair entre la biomasse du phytoplancton et l’abondance du zooplancton.
L'AEP peut être comprise en termes de nutriments qui leur sont fournis (Figure 5B).Les diatomées n’existent que là où il y a suffisamment d’acide silicique.Généralement, plus l’apport en acide silicique est élevé, plus la biomasse des diatomées est élevée.Des diatomées peuvent être observées dans les AEP A, J, K et L. Le rapport entre la biomasse des diatomées et les autres phytoplanctons est déterminé par le N, le P et le Fe fournis par rapport à la demande en diatomées.Par exemple, l'AEP L est dominée par les diatomées.Comparé à d’autres nutriments, le Si est l’apport le plus élevé.En revanche, malgré une productivité plus élevée, l’AEP J contient moins de diatomées et moins de silicium (dans l’ensemble et par rapport aux autres nutriments).
Les bactéries diazonium ont la capacité de fixer l’azote, mais se développent lentement (31).Ils coexistent avec d’autres phytoplanctons, où le fer et le phosphore sont excessifs par rapport à la demande en nutriments autres que le diazonium (20, 21).Il convient de noter que la biomasse diazotrophique est relativement élevée et que l'apport de Fe et de P est relativement important par rapport à l'apport de N. De cette manière, bien que la biomasse totale dans l'AEP J soit plus élevée, la biomasse de diazonium dans l'AEP H est plus grand que celui de J. Veuillez noter que les AEP J et H sont géographiquement très différents et que H est situé dans l'océan Indien équatorial.
Si la structure unique de l'écosystème n'est pas divisée en provinces, les informations tirées des 12 modèles de complexité la plus faible des 12 AEP ne seront pas aussi claires.L'AEP généré par SAGE facilite la comparaison cohérente et simultanée d'informations complexes et de grande dimension provenant de modèles d'écosystèmes.L'AEP souligne efficacement pourquoi Chl n'est pas une bonne méthode alternative pour déterminer la structure des communautés ou l'abondance du zooplancton à des niveaux de nutriments plus élevés.Une analyse détaillée des sujets de recherche en cours dépasse le cadre de cet article.La méthode SAGE offre un moyen d'explorer d'autres mécanismes du modèle qui est plus facile à gérer que la visualisation point à point.
La méthode SAGE est proposée pour aider à clarifier des données écologiques extrêmement complexes à partir de modèles numériques physiques/biogéochimiques/écosystèmes globaux.La province écologique est déterminée par la biomasse totale des groupes fonctionnels interplanctoniques, l'application de l'algorithme de réduction de dimensionnalité de probabilité t-SNE et le regroupement à l'aide de la méthode ML non supervisée DBSCAN.La théorie interprovinciale des différences/graphiques de la Colombie-Britannique pour la méthode d'imbrication est appliquée pour dériver un AEP robuste qui peut être utilisé pour une interprétation globale.En termes de construction, l'Eco-Province et l'AEP sont uniques.L'imbrication des AEP peut être ajustée entre la complexité totale de la province écologique d'origine et le seuil minimum recommandé de 12 AEP.L'imbrication et la détermination de la complexité minimale de l'AEP sont considérées comme des étapes clés, car la probabilité que le t-SNE dégénère des AEP de complexité <12.La méthode SAGE est globale et sa complexité varie de > 100 AEP à 12. Par souci de simplicité, l'accent est actuellement mis sur la complexité de 12 AEP globaux.Les recherches futures, en particulier les études régionales, pourraient trouver utile un sous-ensemble spatial plus petit des éco-provinces mondiales et pourraient être regroupées dans une zone plus petite pour tirer parti des mêmes connaissances écologiques discutées ici.Il fournit des suggestions sur la manière dont ces provinces écologiques et les connaissances acquises grâce à elles peuvent être utilisées pour approfondir la compréhension écologique, faciliter la comparaison des modèles et potentiellement améliorer la surveillance des écosystèmes marins.
La province écologique et l'AEP identifiées par la méthode SAGE sont basées sur les données du modèle numérique.Par définition, le modèle numérique est une structure simplifiée, essayant de capturer l'essence du système cible, et différents modèles auront une répartition différente du plancton.Le modèle numérique utilisé dans cette étude ne peut pas pleinement capturer certaines des tendances observées (par exemple, dans les estimations Chl pour la région équatoriale et l'océan Austral).Seule une petite partie de la diversité de l'océan réel est capturée, et les méso et sous-mésoéchelles ne peuvent pas être résolues, ce qui peut affecter le flux de nutriments et la structure des communautés à plus petite échelle.Malgré ces défauts, il s’avère qu’AEP est très utile pour aider à comprendre des modèles complexes.En évaluant où se trouvent des provinces écologiques similaires, l'AEP fournit un outil potentiel de comparaison de modèles numériques.Le modèle numérique actuel capture le modèle global de la concentration de phytoplancton Chl-a par télédétection et la distribution de la taille et du groupe fonctionnel du plancton (note S1 et figure S1) (2, 32).
Comme le montre la courbe de niveau 0,1 mgChl-a/m-3, l'AEP est divisée en zone oligotrophe et zone mésotrophe (Figure S1B) : les AEP B, C, D, E, F et G sont des zones oligotrophes et les zones restantes sont situé Supérieur Chl-a.L'AEP montre une certaine correspondance avec la province de Longhurst (figure S3A), par exemple avec l'océan Austral et le Pacifique équatorial.Dans certaines régions, l'AEP couvre plusieurs régions de Longhurst, et vice versa.Étant donné que l'intention de délimiter les provinces dans cette zone et celle de Longhurst est différente, on s'attend à ce qu'il y ait des différences.Plusieurs AEP dans une province de Longhurst indiquent que certaines zones présentant une biogéochimie similaire peuvent avoir des structures écosystémiques très différentes.L'AEP présente une certaine correspondance avec les états physiques, comme le révèle l'apprentissage non supervisé (19), comme dans les états de forte remontée d'eau (par exemple, l'océan Austral et le Pacifique équatorial ; figures S3, C et D).Ces correspondances indiquent que la structure des communautés planctoniques est fortement influencée par la dynamique océanique.Dans des zones telles que l'Atlantique Nord, l'AEP traverse des provinces physiques.Le mécanisme à l’origine de ces différences peut inclure des processus tels que le transport de poussières, qui peuvent conduire à des programmes nutritionnels complètement différents, même dans des conditions physiques similaires.
Le ministère de l'Écologie et l'AEP ont souligné que l'utilisation de Chl seule ne permet pas d'identifier les composants écologiques, comme l'a déjà réalisé la communauté de l'écologie marine.Cela se voit dans les AEP avec une biomasse similaire mais une composition écologique significativement différente (telle que D et E).En revanche, les AEP tels que D et K ont une biomasse très différente mais une composition écologique similaire.L'AEP souligne que la relation entre la biomasse, la composition écologique et l'abondance du zooplancton est complexe.Par exemple, bien que l'AEP J se démarque en termes de phytoplancton et de biomasse planctonique, les AEP A et L ont une biomasse planctonique similaire, mais A a une abondance de plancton plus élevée.L'AEP souligne que la biomasse phytoplanctonique (ou Chl) ne peut pas être utilisée pour prédire la biomasse du zooplancton.Le zooplancton constitue le fondement de la chaîne alimentaire de la pêche, et des estimations plus précises pourraient conduire à une meilleure gestion des ressources.Les futurs satellites de couleur marine [par exemple, PACE (plancton, aérosol, nuage et écosystème marin)] pourraient être mieux positionnés pour aider à estimer la structure de la communauté du phytoplancton.L’utilisation de la prédiction AEP peut potentiellement faciliter l’estimation du zooplancton depuis l’espace.Des méthodes telles que SAGE, associées aux nouvelles technologies et à de plus en plus de données de terrain disponibles pour les enquêtes de vérité sur le terrain (telles que Tara et les recherches de suivi), peuvent conjointement faire un pas vers la surveillance de la santé des écosystèmes par satellite.
La méthode SAGE constitue un moyen pratique d'évaluer certains mécanismes qui contrôlent les caractéristiques de la province, telles que la biomasse/Chl, la production primaire nette et la structure communautaire.Par exemple, la quantité relative de diatomées est déterminée par un déséquilibre dans l’apport de Si, N, P et Fe par rapport aux besoins stœchiométriques du phytoplancton.À un taux d'approvisionnement équilibré, la communauté est dominée par les diatomées (L).Lorsque le taux d’approvisionnement est déséquilibré (c’est-à-dire que l’apport de silicium est inférieur à la demande en nutriments des diatomées), les diatomées ne représentent qu’une petite partie de la part (K).Lorsque l’apport de Fe et de P dépasse l’apport de N (par exemple E et H), les bactéries diazotrophes se développent vigoureusement.Grâce au contexte fourni par l'AEP, l'exploration des mécanismes de contrôle deviendra plus utile.
L'Eco-Province et l'AEP sont des territoires dotés de structures communautaires similaires.La série chronologique d'un certain emplacement au sein d'une province écologique ou AEP peut être considérée comme un point de référence et peut représenter la zone couverte par la province écologique ou AEP.Les stations de surveillance sur site à long terme fournissent de telles séries chronologiques.Les ensembles de données in situ à long terme continueront de jouer un rôle incalculable.Du point de vue du suivi de la structure des communautés, la méthode SAGE peut être considérée comme un moyen d'aider à déterminer l'emplacement le plus utile des nouveaux sites.Par exemple, la série chronologique de l’évaluation de l’habitat oligotrophe à long terme (ALOHA) se trouve dans l’AEP B de la zone oligotrophe (Figure 5C, étiquette 2).Comme ALOHA est proche de la limite d’un autre AEP, la série chronologique peut ne pas être représentative de l’ensemble de la zone, comme suggéré précédemment (33).Dans le même AEP B, la série chronologique SEATS (Southeast Asian Time Series) est située dans le sud-ouest de Taiwan (34), plus loin des limites des autres AEP (Figure 5C, étiquette 1), et peut être utilisée comme meilleur emplacement pour surveiller AEPB.La série chronologique BATS (Bermuda Atlantic Time Series Study) (Figure 5C, étiquette 4) dans l'AEPC est très proche de la limite entre AEP C et F, ce qui indique que la surveillance de l'AEP C à l'aide des séries chronologiques BATS peut être directement problématique.La station P dans l'AEP J (Figure 5C, étiquette 3) est éloignée de la limite de l'AEP, elle est donc plus représentative.L'Éco-Province et l'AEP peuvent aider à établir un cadre de surveillance adapté à l'évaluation des changements globaux, car l'autorisation accordée aux provinces d'évaluer où l'échantillonnage sur place peut fournir des informations clés.La méthode SAGE peut être développée davantage pour être appliquée aux données climatiques afin d’évaluer la variabilité, ce qui permettra de gagner du temps.
Le succès de la méthode SAGE est obtenu grâce à une application minutieuse des méthodes de science des données/ML et des connaissances spécifiques au domaine.Plus précisément, le t-SNE est utilisé pour effectuer une réduction de dimensionnalité, qui préserve la structure de covariance des données de grande dimension et facilite la visualisation de la topologie de covariance.Les données sont disposées sous forme de bandes et de covariances (Figure 2A), indiquant que les mesures purement basées sur la distance (telles que les K-moyennes) ne sont pas appropriées car elles utilisent généralement une distribution de base gaussienne (circulaire) (discutée dans la note S2) .La méthode DBSCAN convient à toute topologie de covariance.Tant que vous faites attention au réglage des paramètres, une identification fiable peut être fournie.Le coût de calcul de l’algorithme t-SNE est élevé, ce qui limite son application actuelle à une plus grande quantité de données, ce qui signifie qu’il est difficile de l’appliquer à des champs profonds ou variables dans le temps.Des travaux sur l’évolutivité du t-SNE sont en cours.Étant donné que la distance KL est facile à paralléliser, l’algorithme t-SNE présente un bon potentiel d’expansion dans le futur (35).Jusqu’à présent, d’autres méthodes prometteuses de réduction de dimensionnalité permettant de mieux réduire la taille comprennent les techniques d’approximation et de projection multiples unifiées (UMAP), mais une évaluation dans le contexte des données océaniques est nécessaire.Une meilleure évolutivité signifie, par exemple, classifier des climats globaux ou des modèles de complexité différente sur une couche mixte.Les zones qui ne parviennent pas à être classées par SAGE dans aucune province peuvent être considérées comme les points noirs restants de la figure 2A.Géographiquement, ces zones se trouvent principalement dans des zones très saisonnières, ce qui suggère que la capture des provinces écologiques qui changent au fil du temps offrira une meilleure couverture.
Afin de construire la méthode SAGE, des idées issues de la science des systèmes/données complexes ont été utilisées, en utilisant la capacité de déterminer des groupes de groupes fonctionnels (possibilité d'être très proches dans un espace à 11 dimensions) et de déterminer des provinces.Ces provinces représentent des volumes spécifiques dans notre espace de phase 3D t-SNE.De même, la partie Poincaré peut être utilisée pour évaluer le « volume » de l’espace d’état occupé par la trajectoire afin de déterminer un comportement « normal » ou « chaotique » (36).Pour la sortie du modèle statique à 11 dimensions, le volume occupé après la conversion des données en un espace de phase 3D peut être expliqué de la même manière.La relation entre la zone géographique et la zone dans l’espace des phases 3D n’est pas simple, mais elle peut s’expliquer en termes de similarité écologique.Pour cette raison, la mesure de dissimilarité BC, plus conventionnelle, est préférée.
Les travaux futurs réutiliseront la méthode SAGE pour les données à changement saisonnier afin d'évaluer la variabilité spatiale des provinces identifiées et de l'AEP.L'objectif futur est d'utiliser cette méthode pour aider à déterminer quelles provinces peuvent être déterminées grâce à des mesures satellitaires (telles que Chl-a, la réflectivité de télédétection et la température de la surface de la mer).Cela permettra une évaluation par télédétection des composantes écologiques et une surveillance très flexible des provinces écologiques et de leur variabilité.
Le but de cette recherche est d'introduire la méthode SAGE, qui définit une province écologique à travers sa structure communautaire planctonique unique.Ici, des informations plus détaillées sur le modèle physique/biogéochimique/écosystémique et la sélection des paramètres des algorithmes t-SNE et DBSCAN seront fournies.
Les composantes physiques du modèle proviennent de l'estimation de la circulation océanique et du climat [ECCOv4 ;(37) l’estimation de l’état global décrite par (38).La résolution nominale de l’estimation d’état est de 1/5.La méthode des moindres carrés avec la méthode du multiplicateur lagrangien est utilisée pour obtenir les conditions initiales et aux limites et les paramètres internes du modèle ajustés par observation, générant ainsi un modèle de cycle général du MIT (MITgcm) (39), le modèle après optimisation, les résultats peuvent être suivi et observé.
La biogéochimie/l'écosystème a une description plus complète (c'est-à-dire les équations et les valeurs des paramètres) dans (2).Le modèle capture la circulation de C, N, P, Si et Fe à travers des bassins inorganiques et organiques.La version utilisée ici comprend 35 espèces de phytoplancton : 2 espèces de microprocaryotes et 2 espèces de microeucaryotes (adaptées aux environnements pauvres en nutriments), 5 espèces de Cryptomonas sphaeroides (avec revêtement en carbonate de calcium), 5 espèces de diazonium (peut fixer l'azote, donc ce n'est pas limité) la disponibilité d'azote inorganique dissous), 11 diatomées (formant une couverture siliceuse), 10 flagellés mixtes-végétatifs (peuvent photosynthétiser et manger d'autres planctons) et 16 zooplanctons (paître d'autres planctons).Ceux-ci sont appelés « groupes fonctionnels biogéochimiques » car ils ont des effets différents sur la biogéochimie marine (40, 41) et sont souvent utilisés dans les études d'observation et de modélisation.Dans ce modèle, chaque groupe fonctionnel est composé de plusieurs planctons de tailles différentes, avec une envergure de 0,6 à 2 500 μm de diamètre sphérique équivalent.
Les paramètres affectant la croissance, le pâturage et l'affaissement du phytoplancton sont liés à la taille, et il existe des différences spécifiques entre les six groupes fonctionnels du phytoplancton (32).Malgré les différents cadres physiques, les résultats des 51 composants planctoniques du modèle ont été utilisés dans un certain nombre d'études récentes (42-44).
De 1992 à 2011, le modèle de couplage physique/biogéochimique/écosystème a duré 20 ans.Les résultats du modèle incluent la biomasse planctonique, la concentration en nutriments et le taux d'apport en nutriments (DIN, PO4, Si et Fe).Dans cette étude, la moyenne sur 20 ans de ces résultats a été utilisée comme entrée de la province écologique.Chl, la distribution de la biomasse planctonique et la concentration en nutriments ainsi que la distribution des groupes fonctionnels sont comparées aux observations par satellite et in situ [voir (2, 44), note S1 et figure.S1 à S3].
Pour la méthode SAGE, la principale source d’aléatoire provient de l’étape t-SNE.Le caractère aléatoire entrave la répétabilité, ce qui signifie que les résultats ne sont pas fiables.La méthode SAGE teste rigoureusement la robustesse en déterminant un ensemble de paramètres de t-SNE et DBSCAN, qui peuvent identifier de manière cohérente les clusters lorsqu'ils sont répétés.Déterminer la « perplexité » du paramètre t-SNE peut être compris comme déterminer dans quelle mesure la cartographie des dimensions élevées vers les dimensions faibles doit respecter les caractéristiques locales ou globales des données.Atteint la confusion de 400 et 300 itérations.
Pour l'algorithme de clustering DBSCAN, la taille minimale et la métrique de distance des points de données dans le cluster doivent être déterminées.Le nombre minimum est déterminé sous la direction d’experts.Ces connaissances savent ce qui correspond au cadre et à la résolution actuels de la modélisation numérique.Le nombre minimum est 100. Une valeur minimale plus élevée (inférieure à <135 avant que la limite supérieure du vert ne s'élargisse) peut être envisagée, mais elle ne peut pas remplacer la méthode d'agrégation basée sur la dissimilarité BC.Le degré de connexion (figure 6A) est utilisé pour définir le paramètre ϵ, qui favorise une couverture plus élevée (figure 6B).La connectivité est définie comme le nombre composite de clusters et est sensible au paramètre ϵ.Une connectivité inférieure indique un ajustement insuffisant, regroupant artificiellement les régions.Une connectivité élevée indique un surapprentissage.Le surapprentissage est également problématique, car il montre que les suppositions aléatoires initiales peuvent conduire à des résultats non reproductibles.Entre ces deux extrêmes, une forte augmentation (généralement appelée « coude ») indique le meilleur ϵ.Dans la figure 6A, vous constatez une forte augmentation de la surface du plateau (jaune, > 200 clusters), suivie d'une forte diminution (vert, 100 clusters), jusqu'à environ 130, entourée de très peu de clusters (bleu, <60 clusters). ).Dans au moins 100 zones bleues, soit un groupe domine l’ensemble de l’océan (ϵ < 0,42), soit la majeure partie de l’océan n’est pas classée et est considérée comme du bruit (ϵ > 0,99).La zone jaune présente une distribution de grappes très variable et non reproductible.À mesure que ϵ diminue, le bruit augmente.La zone verte qui augmente fortement s’appelle un coude.C'est une région optimale.Même si la probabilité t-SNE est utilisée, la dissimilarité de la Colombie-Britannique au sein de la province peut toujours être utilisée pour déterminer un regroupement fiable.À l’aide de la figure 6 (A et B), définissez ϵ sur 0,39.Plus le nombre minimum est grand, plus la probabilité d'atteindre le ϵ permettant une classification fiable est faible et plus la zone verte avec une valeur supérieure à 135 est grande. L'agrandissement de cette zone indique que le coude sera plus difficile à trouver ou non. existant.
Après avoir défini les paramètres de t-SNE, le nombre total de clusters trouvés sera utilisé comme mesure de la connectivité (A) et du pourcentage de données allouées au cluster (B).Le point rouge indique la meilleure combinaison de couverture et de connectivité.L'effectif minimum est fixé en fonction de l'effectif minimum lié à l'écologie.
Pour obtenir des documents supplémentaires pour cet article, veuillez consulter http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Il s'agit d'un article en libre accès distribué selon les termes de la licence Creative Commons Attribution.L'article permet une utilisation, une distribution et une reproduction sans restriction sur n'importe quel support à condition que l'œuvre originale soit correctement citée.
Remarque : Nous vous demandons uniquement de fournir votre adresse e-mail afin que la personne que vous recommandez sur la page sache que vous souhaitez qu'elle voie l'e-mail et qu'il ne s'agit pas de spam.Nous ne capturerons aucune adresse e-mail.
Cette question est utilisée pour tester si vous êtes un visiteur et empêcher l'envoi automatique de spam.
Le ministère mondial de l'écologie marine est déterminé à résoudre des problèmes complexes et utilise le ML non supervisé pour explorer les structures communautaires.
Le ministère mondial de l'écologie marine est déterminé à résoudre des problèmes complexes et utilise le ML non supervisé pour explorer les structures communautaires.
Heure de publication : 12 janvier 2021