Clarifying ecological complexity: unsupervised learning determines the global marine ecological province

提出了一种基于浮游生物群落结构和营养通量数据确定全球海洋生态省（生态省）的无监督学习方法。系统综合生态省（SAGE）方法可以识别高度非线性生态系统模型中的生态省。为了适应数据的非高斯协方差，SAGE使用t随机邻域嵌入（t-SNE）来降维。借助基于密度的空间聚类（DBSCAN）算法的噪声应用，可以识别一百多个生态省。利用以生态差异为距离度量的连通性图，通过嵌套生态省客观地定义了稳健的聚合生态省（AEP）。利用AEPs，探索了养分供给率对群落结构的控制。生态省和AEP是独特的，可以帮助模型解释。它们可以促进模型之间的比较，并可以增强对海洋生态系统的理解和监测。
省份是海洋或陆地上复杂的生物地理被组织成连贯且有意义的区域的区域 (1)。这些省份对于比较和对比地点、表征观察、监测和保护非常重要。产生这些省份的复杂且非线性的相互作用使得无监督机器学习（ML）方法非常适合客观地确定省份，因为数据中的协方差是复杂的且非高斯的。在此，提出了一种机器学习方法，该方法从达尔文全球三维（3D）物理/生态系统模型中系统地识别独特的海洋生态省（生态省）（2）。术语“唯一”用于指示所识别的区域与其他区域没有充分重叠。这种方法称为系统集成生态省（SAGE）方法。为了执行有用的分类，算法方法需要允许（i）全局分类和（ii）可以在空间和时间上嵌套/聚合的多尺度分析（3）。本研究首次提出了SAGE方法，并对识别的生态省进行了讨论。生态省可以促进对控制群落结构的因素的理解，为监测策略提供有用的见解，并帮助跟踪生态系统的变化。
陆地省份通常根据气候（降水和温度）、土壤、植被和动物区系的相似性进行分类，用于辅助管理、生物多样性研究和疾病控制 (1, 4)。海洋省份的定义更加困难。大多数生物体都是微观的，具有流体边界。朗赫斯特等人。（5）提供了海洋部首批基于环境条件的全球分类之一。这些“朗赫斯特”省份的定义包括混合率、分层和辐照度等变量，以及朗赫斯特作为海洋海洋学家的丰富经验，他拥有海洋生态系统的其他重要条件。朗赫斯特已被广泛用于评估初级生产和碳通量、援助渔业以及规划实地观测活动 (5-9)。为了更客观地定义省份，使用了模糊逻辑和区域无监督聚类/统计等方法（9-14）。此类方法的目的是确定有意义的结构，这些结构可以识别可用观测数据中的省份。例如，动态海洋省 (12) 使用自组织地图来减少噪声，并使用分层（基于树）聚类来确定源自区域卫星的海洋颜色产品 [叶绿素 a (Chl-a)、归一化荧光线高度和有色溶解有机物]和物理场（海面温度和盐度、绝对动态地形和海冰）。
浮游生物的群落结构备受关注，因为其生态对较高的营养水平、碳吸收和气候有很大影响。尽管如此，根据浮游生物群落结构确定全球生态省仍然是一个具有挑战性和难以实现的目标。海洋颜色卫星有可能提供对浮游植物粗粒度分类的深入了解或提出功能组的优势 (15)，但它们目前无法提供有关群落结构的详细信息。最近的调查[例如塔拉海洋（16）]提供了前所未有的群落结构测量；目前，全球范围内只有稀疏的现场观测（17）。以往的研究很大程度上是根据生化相似性（如初级生产、叶绿素和可用光）的确定来确定“生物地球化学省”（12、14、18）。这里采用数值模型输出[Darwin(2)]，根据群落结构和养分通量确定生态省。本研究使用的数值模型具有全球覆盖性，可以与现有的现场数据（17）和遥感领域（注S1）进行比较。本研究采用的数值模型数据具有覆盖全球的优势。模型生态系统由35种浮游植物和16种浮游动物组成（请参阅材料和方法）。模型浮游生物类型与非高斯协方差结构非线性相互作用，因此简单的诊断方法不适合识别新兴群落结构中独特且一致的模式。这里介绍的 SAGE 方法提供了一种检查复杂达尔文模型输出的新颖方法。
数据科学/机器学习技术强大的变革能力可以使极其复杂的模型解决方案揭示数据协方差中复杂但稳健的结构。鲁棒方法被定义为能够在给定误差范围内忠实再现结果的方法。即使在简单的系统中，确定稳健的模式和信号也可能是一个挑战。在确定导致观察到的模式的基本原理之前，新出现的复杂性可能看起来很复杂/难以解决。设定生态系统组成的关键过程本质上是非线性的。非线性相互作用的存在可能会混淆鲁棒分类，因此有必要避免对数据协方差的基本统计分布做出强烈假设的方法。高维和非线性数据在海洋学中很常见，并且可能具有复杂的非高斯拓扑的协方差结构。尽管具有非高斯协方差结构的数据可能会阻碍稳健分类，但 SAGE 方法很新颖，因为它旨在识别具有任意拓扑的簇。
SAGE 方法的目标是客观地识别可能有助于进一步理解生态的新兴模式。遵循类似于（19）的基于聚类的工作流程，生态和营养通量变量用于确定数据中唯一的聚类，称为生态省。本研究中提出的 SAGE 方法（图 1）首先通过对先验定义的浮游生物功能组进行求和，将维度从 55 维降低到 11 维（参见材料和方法）。使用 t 随机邻域嵌入 (t-SNE) 方法，通过将概率投影到 3D 空间来进一步减小尺寸。无监督聚类可以识别生态上接近的区域[用于基于噪声的应用的基于密度的空间聚类（DBSCAN）]。t-SNE和DBSCAN都适用于固有的非线性生态系统数值模型数据。然后将由此产生的生态省重新投影到地球上。已确定了一百多个独特的生态省份，适合进行区域研究。为了考虑全局一致的生态系统模型，采用SAGE方法将生态省聚合为聚合生态省（AEP），以提高生态省的有效性。聚合级别（称为“复杂性”）可以根据所需的详细程度进行调整。确定稳健 AEP 的最低复杂度。选择的重点是SAGE方法，探索最小复杂度AEP案例，以确定应急社区结构的控制。然后可以分析这些模式以提供生态见解。这里介绍的方法还可以更广泛地用于模型比较，例如通过评估不同模型中发现的相似生态省的位置，突出差异和相似之处，从而进行模型比较。
(A) 生态省确定流程示意图；利用功能组中的求和将原始55维数据减少为11维模型输出，包括七个功能/营养性浮游生物的生物量和四个营养物供应率。价值可忽略不计且持久的冰覆盖面积。数据已经标准化、规范化。向 t-SNE 算法提供 11 维数据，以突出统计上相似的特征组合。DBSCAN会仔细选择集群来设置参数值。最后将数据投影回纬度/经度投影。请注意，此过程重复 10 次，因为应用 t-SNE 可能会产生轻微的随机性。(B) 解释了如何通过重复 (A) 中的工作流程 10 次来获得 AEP。对于这 10 种实施方式中的每一种，都根据 51 种浮游植物类型的生物量确定了省际 Bray-Curtis (BC) 差异矩阵。确定各省之间的 BC 差异，从复杂度 1 AEP 到完全复杂度 115。BC 基准由朗赫斯特省设定。
SAGE方法使用全球3D物理/生态系统数值模型的输出来定义生态省[Darwin (2);参见材料和方法以及注释S1]。生态系统的组成部分由35种浮游植物和16种浮游动物组成，具有七个预定义的功能群：适应低营养环境的原核生物和真核生物、具有碳酸钙涂层的球虫和重固氮氮营养物（通常缺失）重要的营养物质），具有硅质覆盖，可以使其他浮游生物进行光合作用并放牧鞭毛虫和浮游动物牧民的混合营养物质。尺寸跨度为0.6至2500μm当量球径。浮游植物大小和功能分组的模型分布捕捉了卫星和现场观测中看到的总体特征（见图S1至S3）。数值模型与观测海洋的相似性表明模型定义的省份可能适用于原位海洋。请注意，该模型仅捕获浮游植物的某些多样性，以及原位海洋的某些物理和化学强迫范围。SAGE方法可以使人们更好地理解模型群落结构的高度区域控制机制。
通过仅包括每个浮游生物功能群的表面生物量总和（平均时间为20年），可以降低数据的维度。在早期研究表明它们在设定群落结构中的关键作用之后，它还包括养分通量的表面源项（氮、铁、磷酸盐和硅酸的供应）[例如（20, 21）]。功能组的求和将问题从 55 个维度（51 个浮游生物和 4 个营养通量）减少到 11 个维度。在这项初步研究中，由于算法施加的计算限制，没有考虑深度和时间变异性。
SAGE 方法能够识别非线性过程之间的重要关系以及官能团生物量和养分通量之间相互作用的关键特征。使用基于欧几里德远程学习方法（例如K-means）的11维数据无法获得可靠且可重复的省份（19, 22）。这是因为在定义生态省的关键元素的协方差的基本分布中没有发现高斯形状。Voronoi 单元（直线）的 K 均值无法保留非高斯基本分布。
七个浮游生物功能群的生物量和四个营养通量形成一个11维向量x。因此，x是模型网格上的向量场，其中每个元素xi代表模型水平网格上定义的11维向量。每个索引 i 唯一标识球体上的一个网格点，其中 (lon, lat) = (phii, θi)。如果模型网格单元的生物量小于1.2×10-3mg Chl/m3或冰覆盖率超过70%，则使用生物量数据的日志并丢弃。数据经过归一化和标准化，因此所有数据都在 [0 到 1] 范围内，均值被去除并缩放为单位方差。这样做是为了使特征（生物量和养分通量）不受可能值范围对比的限制。聚类应该从特征之间的关键概率距离而不是地理距离来捕获变化关系。通过量化这些距离，重要的特征就会出现，而不必要的细节就会被丢弃。从生态角度来看，这是必要的，因为某些类型的生物量很少的浮游植物可能具有更大的生物地球化学效应，例如固氮细菌的固氮作用。当对数据进行标准化和标准化时，这些类型的协变量将被突出显示。
t-SNE算法通过在低维表示中强调高维空间中特征的接近性，使现有的相似区域更加清晰。之前的工作旨在使用 t-SNE 构建用于遥感应用的深度神经网络，这证明了其分离关键特征的能力 (23)。这是识别特征数据中稳健聚类的必要步骤，同时避免不收敛的解决方案（注 S2）。t-SNE利用高斯核，通过将每个高维对象映射到3D相空间中的一个点，保留了数据的统计特性，从而保证了高维和低维方向上相似对象的概率在高维中较高。维度空间 (24)。给定一组 N 个高维对象 x1,…,xN，t-SNE 算法通过最小化 Kullback-Leibler (KL) 散度来减少 (25)。KL散度是概率分布与第二参考概率分布差异程度的度量，可以有效评估高维特征的低维表示之间相关性的可能性。设xi为N维空间中的第i个对象，xj为N维空间中的第j个对象，yi为低维空间中的第i个对象，yj为低维空间中的第j个对象-维空间，则 t -SNE 定义相似概率 ppj∣i = exp(-∥xi-xj∥2/2σi2)Σk≠iexp(-∥xi-xk∥2/2σi2)，且为降维集q∣j = (1+ ∥ yi-yj∥2)-1Σk≠i(1 +∥yj-yk∥2)-1
图2A说明了将11维组合的生物量和养分通量向量减少到3D的效果。应用t-SNE的动机可以与主成分分析（PCA）的动机进行比较，PCA使用方差属性来强调数据的区域/属性，从而降低维度。t-SNE 方法被发现在为生态部提供可靠且可重复的结果方面优于 PCA（参见注释 S2）。这可能是因为 PCA 的正交性假设不适合识别高度非线性交互特征之间的关键交互，因为 PCA 侧重于线性协方差结构 (26)。Lunga 等人利用遥感数据。(27) 说明了如何使用 SNE 方法突出显示偏离高斯分布的复杂且非线性的光谱特征。
(A) 通过 t-SNE 算法绘制的模拟养分供应率、浮游植物和浮游动物功能组生物量，并使用 DBSCAN 按省份着色。每个点代表高维空间中的一个点，如图6B所示，大多数点被捕获。轴指的是“t-SNE”尺寸 1、2 和 3。 (B) DBSCAN 找到的省份在原点经纬度网格上的地理投影。颜色应被视为任何颜色，但应对应于(A)。
图2A中t-SNE散点图中的点分别与纬度和经度相关。如果图 2A 中的两点彼此接近，那是因为它们的生物量和养分通量相似，而不是因为地理位置接近。图 2A 中的颜色是使用 DBSCAN 方法 (28) 发现的簇。在寻找密集观测值时，DBSCAN 算法使用 3D 表示中点之间的距离 (ϵ = 0.39；有关此选择的信息，请参阅材料和方法)，并且需要相似点的数量来定义簇（此处100分，见上文）。DBSCAN 方法不对数据中簇的形状或数量做出任何假设，如下所示：
3) 对于被识别为在该距离内的所有点，迭代地重复步骤2以确定簇边界。如果点的数量大于设定的最小值，则将其指定为簇。
不满足最小聚类成员和距离 ϵ 度量的数据被视为“噪声”，并且不会分配颜色。DBSCAN 是一种快速且可扩展的算法，在最坏情况下具有 O(n2) 性能。就目前的分析而言，它实际上并不是随机的。最低分数由专家评审确定。调整距离后，结果在≈±10范围内不够稳定。该距离是使用连通性（图 6A）和海洋覆盖百分比（图 6B）设置的。连接性定义为簇的复合数，并且对 ϵ 参数敏感。较低的连通性表明拟合不足，人为地将区域分组在一起。高连通性表明过度拟合。可以想象使用更高的最小值，但如果最小值超过ca，则不可能获得可靠的解决方案。135（更多详细信息，请参见材料和方法）。
图 2A 中识别的 115 个星团被投影回图 2B 中的地球。每种颜色对应于 DBSCAN 识别的生物地球化学和生态因素的连贯组合。一旦确定了聚类，就可以使用图 2A 中每个点与特定纬度和经度的关联将聚类投影回地理区域。图 2B 使用与图 2A 相同的簇颜色说明了这一点。相似的颜色不应被解释为生态相似性，因为它们是根据算法发现簇的顺序分配的。
图 2B 中的区域在质量上与海洋物理和/或生物地球化学中已确定的区域相似。例如，南大洋的星团是区域对称的，出现贫营养涡旋，急剧的转变表明信风的影响。例如，在赤道太平洋，可以看到与上升相关的不同区域。
为了了解生态省的生态环境，使用Bray-Curtis（BC）差异指数（29）的变体来评估集群中的生态。BC指标是用于量化两个不同地点之间群落结构差异的统计数据。BC测量适用于51种浮游植物和浮游动物的生物量 BCninj = 1-2CninjSni + Snj
BCninj是指组合ni和组合nj之间的相似度，其中Cninj是组合ni和nj中都存在的单一类型生物量的最小值，Sni表示组合ni和Snj中都存在的所有生物量之和。BC差值与距离度量类似，但在非欧几里得空间中运行，这可能更适合生态数据及其解释。
对于图 2B 中确定的每个聚类，可以评估省内和省际 BC 的相似性。省内BC差异是指省内平均值与省内各点的差异。BC省之间的差异是指一个省与其他省之间的相似性。图 3A 显示了对称 BC 矩阵（0，黑色：完全对应；1，白色：完全不相似）。图中的每条线都显示数据中的一种模式。图 3B 显示了图 3A 中 BC 结果对于每个省的地理显着性。对于处于低营养低营养区的省份，图3B显示，赤道和印度洋周边大片区域的对称性基本相似，但高纬度地区和上升流区域存在显着差异。
（A）根据全球20年平均51个浮游生物的全球表面平均值评估各省的BC差异程度。请注意值的预期对称性。(B) 列（或行）的空间投影。对于营养不良圈内的省份，评估BC相似性测度的全球分布，并评估全球20年平均值。黑色（BC = 0）表示相同区域，白色（BC = 1）表示不相似。
图 4A 说明了图 2B 中各省内 BC 的差异。利用簇内平均面积的平均组合进行确定，并确定BC与省内各网格点均值的相异度，表明SAGE方法可以很好地根据生态相似度区分出51个物种的类型模型数据。所有51个类型的总体平均聚类BC差异为0.102±0.0049。
（A、B、D）省内BC差异评估为每个网格点社区与平均省份之间的平均BC差异，复杂度不降低。(2)全球平均省内BC差异为0.227±0.117。这是这项工作提出的基于生态动机的分类的基准[(C)中的绿线]。(C) 平均省内 BC 差异：黑线代表省内 BC 差异，且复杂性不断增加。2σ来自10次重复的生态省识别过程。对于DBSCAN发现的省份的总复杂度，(A)显示该省的BC相异度为0.099，而(C)提出的复杂度分类为12，导致该省的BC相异度为0.200。如图所示。（四）。
在图 4B 中，51 种浮游生物类型的生物量用于表示朗赫斯特省的等效 BC 差异。各省总体平均值为0.227，参考BC省差异的网格点标准差为0.046。这比图 1B 中标识的簇更大。相反，使用七个功能组的总和，朗赫斯特的平均季节内 BC 差异增加到 0.232。
全球生态省地图提供了独特的生态相互作用的复杂细节，并且在利用朗赫斯特省的整个生态系统结构方面取得了改进。生态部预计将提供对控制数值模型生态系统过程的见解，这种见解将有助于实地工作的探索。出于本研究的目的，不可能完全显示一百多个省份。下一节介绍总结各省份的 SAGE 方法。
该省的目的之一是促进对该省的位置和管理的了解。为了确定紧急情况，图 1B 中的方法说明了生态相似省份的嵌套。生态省份根据生态相似性进行分组，这种省份分组称为AEP。根据要考虑的省份总数设置可调整的“复杂性”。使用术语“复杂性”是因为它允许调整紧急属性的级别。为了定义有意义的聚合，使用与 Longhurst 的平均省内 BC 差异 0.227 作为基准。低于这个基准，合并后的省份不再被认为是有用的。
如图 3B 所示，全球生态省是连贯的。利用省际BC差异可以看出，有些配置非常“通用”。受遗传学和图论方法的启发，“连通图”用于根据与其最相似的省份对超过 100 个省份进行排序。这里的“连通性”指标是使用省际BC差异来确定的（30）。具有大于100个省份的较大分类空间的省份的数量在本文中可以称为复杂度。AEP是将100多个省份归类为最具优势/最接近的生态省份的产品。每个生态省被分配给与其最相似的主导/高度关联的生态省。这种由 BC 差异决定的聚合允许对全球生态进行嵌套方法。
所选择的复杂度可以是从1到图2的完整复杂度的任何值。2A。在较低复杂度下，AEP 可能会由于概率降维步骤 (t-SNE) 而退化。简并性意味着生态省可以在迭代之间分配给不同的 AEP，从而改变覆盖的地理区域。图 4C 说明了 BC 差异在各省内的分布，AEP 的复杂性在 10 个实施中不断增加（图 1B 中的说明）。在图 4C 中，2σ（蓝色区域）是 10 种实现中退化的度量，绿线代表 Longhurst 基准。事实证明，12的复杂度可以在所有实现中使该省的BC差异保持在Longhurst基准以下，并保持相对较小的2σ退化。综上所述，推荐的最小复杂度为12个AEP，使用51种浮游生物类型评估的平均省内BC差异为0.198±0.013，如图4D所示。采用7个浮游生物功能群之和，省内平均BC差异为2σ，而不是0.198±0.004。与7个功能群的总生物量或全部51种浮游生物类型的生物量计算的BC差异的比较表明，虽然SAGE方法适用于51维的情况，但它是针对7个功能群的总生物量为了训练。
根据任何研究的目的，可以考虑不同程度的复杂性。区域研究可能需要完全复杂性（即所有 115 个省份）。作为示例并为了清楚起见，请考虑建议的最低复杂度 12。
作为 SAGE 方法实用性的一个例子，这里使用 12 个最小复杂度为 12 的 AEP 来探索紧急社区结构的控制。图 5 说明了按 AEP 分组的生态见解（从 A 到 L）：在 Redfield 化学计量中，地理范围（图 5C）、功能组生物量组成（图 5A）和养分供应（图 5B）由 N Zoomed 执行。显示了比率（N:Si:P:Fe，1:1:16:16×103）。对于后面板，P乘以16，Fe乘以16×103，因此条形图相当于浮游植物的营养需求。
将各省分为A至L 12个AEP。 (A) 12个省生态系统的生物量(mgC/m3)。(B) 溶解无机氮(N)、铁(Fe)、磷酸盐(P)和硅酸(Si)的养分通量率(mmol/m3每年)。Fe 和 P 分别乘以 16 和 16×103，以便将条带标准化为浮游植物化学计量要求。(C) 注意极地地区、副热带气旋和主要季节/上升地区之间的差异。监测站标记如下： 1、SEATS；2、阿罗哈；3、P站；4、蝙蝠。
所识别的 AEP 是唯一的。大西洋和太平洋的赤道周围存在一定的对称性，印度洋也存在类似但扩大的区域。一些 AEP 包括与上升相关的大陆西侧。南极绕极流被认为是一个大的纬向特征。副热带气旋是一系列复杂的寡营养AEP。在这些省份，以浮游生物为主的寡营养涡流和富含硅藻的极地地区之间常见的生物量差异模式是显而易见的。
具有非常相似的浮游植物总生物量的AEP可以具有非常不同的群落结构并覆盖不同的地理区域，例如具有相似的浮游植物总生物量的D、H和K。AEP H主要存在于赤道印度洋，固氮菌较多。AEP D 在多个盆地中都有发现，但在赤道上升流周围高产区的太平洋地区尤为突出。这个太平洋省份的形状让人想起行星波列。AEP D 中重氮细菌很少，而视锥细胞较多。与其他两个省份相比，AEP K仅存在于北冰洋高地，硅藻较多，浮游生物较少。值得注意的是，这三个地区的浮游生物数量也有很大差异。其中，AEP K的浮游生物丰度较低，而AEP D和H的浮游生物丰度较高。因此，尽管它们的生物量（因此与 Chl-a 相似），这些省份还是有很大不同：基于 Chl 的省份测试可能无法捕捉到这些差异。
同样明显的是，一些生物量差异很大的AEP在浮游植物群落结构方面可能相似。例如，这在 AEP D 和 E 中可见。它们彼此接近，并且在太平洋中，AEP E 与高产的 AEPJ 接近。同样，浮游植物生物量和浮游动物丰度之间也没有明确的联系。
AEP 可以根据提供给它们的营养来理解（图 5B）。硅藻只存在于硅酸供应充足的地方。一般来说，硅酸的供应量越高，硅藻的生物量就越高。硅藻可以在 AEPA、J、K 和 L 中看到。硅藻生物量相对于其他浮游植物的比率由相对于硅藻需求提供的 N、P 和 Fe 决定。例如，AEP L 以硅藻为主。与其他营养素相比，硅的供给量最高。相比之下，尽管生产率较高，但 AEP J 的硅藻和硅供应量较少（全部且相对于其他营养素）。
重氮细菌具有固氮能力，但生长缓慢 (31)。它们与其他浮游植物共存，其中铁和磷相对于非重氮营养物的需求过量 (20, 21)。值得注意的是，固氮生物量较高，Fe、P的供给量相对于N的供给量较大。这样，虽然AEP J中的总生物量较高，但AEP H中的重氮生物量却较低。比J中的要大。请注意，AEP J和H在地理上有很大不同，H位于赤道印度洋。
如果独特的生态系统结构不按省份划分，从 12 个 AEP 最低复杂度模型中获得的见解将不会那么清晰。SAGE 生成的 AEP 有助于对来自生态系统模型的复杂和高维信息进行连贯和同步比较。AEP 有效地强调了为什么 Chl 不是一种在较高营养水平下确定群落结构或浮游动物丰度的良好替代方法。对正在进行的研究主题的详细分析超出了本文的范围。SAGE 方法提供了一种探索模型中其他机制的方法，该方法比点对点查看更容易处理。
提出 SAGE 方法是为了帮助澄清全球物理/生物地球化学/生态系统数值模型中极其复杂的生态数据。通过跨浮游生物功能群的总生物量、应用t-SNE概率降维算法以及使用无监督ML方法DBSCAN进行聚类来确定生态省。应用嵌套方法的省际 BC 差异/图论来导出可用于全局解释的鲁棒 AEP。在建设方面，生态省和AEP是独一无二的。AEP嵌套可以在原生态省的完全复杂度和推荐的最小阈值12个AEP之间调整。嵌套和确定 AEP 的最小复杂度被认为是关键步骤，因为 t-SNE 概率会退化 <12 复杂度的 AEP。SAGE方法是全局的，其复杂度范围从>100个AEP到12个。为了简单起见，当前关注的是12个全局AEP的复杂度。未来的研究，特别是区域研究，可能会发现全球生态省的较小空间子集是有用的，并且可能会聚集在较小的区域中，以利用此处讨论的相同生态见解。它就如何利用这些生态省以及从中获得的见解来进一步了解生态、促进模型比较并有可能改善海洋生态系统的监测提供了建议。
SAGE方法识别的生态省和AEP是基于数值模型中的数据。根据定义，数值模型是一种简化的结构，试图捕捉目标系统的本质，不同的模型会有不同的浮游生物分布。本研究中使用的数值模型无法完全捕获一些观察到的模式（例如，赤道地区和南大洋的 Chl 估计）。仅捕获了真实海洋中的一小部分多样性，并且无法解析中尺度和亚中尺度，这可能会影响营养物通量和较小尺度的群落结构。尽管存在这些缺点，事实证明 AEP 在帮助理解复杂模型方面非常有用。通过评估相似生态省的位置，AEP 提供了一个潜在的数值模型比较工具。当前的数值模型捕获了遥感浮游植物叶绿素a浓度的总体模式以及浮游生物大小和功能组的分布（注S1和图S1）（2, 32）。
由0.1 mgChl-a/m-3等高线所示，AEP分为寡营养区和中营养区（图S1B）：AEP B、C、D、E、F、G为寡营养区，其余区域为位于较高叶绿素a。AEP显示了与朗赫斯特省的一些对应关系（图S3A），例如南大洋和赤道太平洋。在某些地区，AEP 覆盖多个朗赫斯特地区，反之亦然。由于该地区与朗赫斯特划定省份的意图不同，预计会出现分歧。朗赫斯特省的多个 AEP 表明，具有相似生物地球化学特征的某些地区可能具有截然不同的生态系统结构。正如使用无监督学习 (19) 所揭示的那样，AEP 与物理状态存在一定的对应关系，例如在高上升流状态（例如，南大洋和赤道太平洋；图 S3、C 和 D）。这些对应关系表明浮游生物的群落结构受到海洋动力学的强烈影响。在北大西洋等地区，AEP 跨越物理省份。造成这些差异的机制可能包括灰尘运输等过程，即使在相似的物理条件下，也可能导致完全不同的营养计划。
生态部和AEP指出，仅用叶绿素无法识别生态成分，海洋生态学界已经认识到这一点。这在具有相似生物量但生态组成显着不同的 AEP 中可见（例如 D 和 E）。相比之下，D 和 K 等 AEP 的生物量差异很大，但生态组成相似。AEP强调生物量、生态组成和浮游动物丰度之间的关系是复杂的。例如，虽然AEP J在浮游植物和浮游生物生物量方面表现突出，但AEP的A和L具有相似的浮游生物生物量，但A具有更高的浮游生物丰度。AEP 强调浮游植物生物量（或 Chl）不能用于预测浮游动物生物量。浮游动物是渔业食物链的基础，更准确的估计可能会带来更好的资源管理。未来的海洋彩色卫星[例如，PACE（浮游生物、气溶胶、云和海洋生态系统）]可能能够更好地帮助估计浮游植物的群落结构。使用 AEP 预测可能有助于从太空估计浮游动物。像 SAGE 这样的方法，加上新技术以及越来越多可用于地面实况调查的现场数据（例如 Tara 和后续研究），可以共同向基于卫星的生态系统健康监测迈出一步。
SAGE 方法提供了一种便捷的方法来评估一些控制省份特征的机制，例如生物量/叶绿素、净初级生产和群落结构。例如，硅藻的相对数量是由硅、氮、磷和铁的供应相对于浮游植物化学计量要求的不平衡决定的。在均衡供应率下，群落以硅藻（L）为主。当供给率不平衡时（即硅的供给低于硅藻的养分需求），硅藻只占很小的份额（K）。当Fe和P的供应量超过N（例如E和H）的供应量时，固氮菌就会旺盛生长。通过AEP提供的上下文，对控制机制的探索将变得更加有用。
生态省和 AEP 是具有相似社区结构的地区。生态省或AEP内某个位置的时间序列可以被视为参考点，并且可以代表生态省或AEP覆盖的面积。长期现场监测站提供了这样的时间序列。长期的现场数据集将继续发挥不可估量的作用。从监测群落结构的角度来看，SAGE方法可以被视为帮助确定新站点最有用位置的一种方法。例如，长期寡营养栖息地评估 (ALOHA) 的时间序列位于寡营养区域的 AEP B 中（图 5C，标签 2）。由于 ALOHA 靠近另一个 AEP 的边界，因此时间序列可能无法代表整个区域，如之前所建议的 (33)。在同一个AEP B中，时间序列SEATS（东南亚时间序列）位于台湾西南部（34），距离其他AEP的边界较远（图5C，标签1），可以作为更好的监测位置AEPB。AEPC中的BATS（百慕大大西洋时间序列研究）时间序列（图5C，标签4）非常接近AEP C和F之间的边界，这表明使用BATS时间序列监测AEP C可能直接存在问题。AEP J 中的 P 站（图 5C，标签 3）距离 AEP 边界较远，因此更具代表性。生态省和 AEP 可以帮助建立适合评估全球变化的监测框架，因为各省允许评估现场采样可以提供关键见解。SAGE 方法可以进一步开发应用于气候数据，以评估节省时间的变异性。
SAGE 方法的成功是通过仔细应用数据科学/ML 方法和特定领域知识而实现的。具体来说，t-SNE用于进行降维，保留了高维数据的协方差结构，并有利于协方差拓扑的可视化。数据以条纹和协方差的形式排列（图2A），表明纯粹基于距离的度量（例如K均值）并不合适，因为它们通常使用高斯（圆形）基分布（在注释S2中讨论）。DBSCAN 方法适用于任何协方差拓扑。只要注意设置参数，就能提供可靠的识别。t-SNE算法的计算成本较高，这限制了其当前的应用到较大数据量，这意味着它很难应用于深度或时变领域。t-SNE 的可扩展性工作正在进行中。由于KL距离易于并行化，因此t-SNE算法在未来具有良好的扩展潜力（35）。到目前为止，其他有前途的可以更好地减小尺寸的降维方法包括统一流形逼近和投影（UMAP）技术，但在海洋数据的背景下进行评估是必要的。更好的可扩展性的含义是，例如，在混合层上对具有不同复杂性的全球气候或模型进行分类。任何省份未能被SAGE分类的区域可以视为图2A中剩余的黑点。从地理上看，这些区域主要位于季节性强的地区，这表明捕获随时间变化的生态省将提供更好的覆盖范围。
为了构建 SAGE 方法，使用了复杂系统/数据科学的思想，利用确定功能组簇的能力（在 11 维空间中非常接近的可能性）并确定省份。这些省份描绘了 3D t-SNE 相空间中的特定体积。类似地，庞加莱部分可用于评估轨迹所占据的状态空间的“体积”，以确定“正常”或“混沌”行为（36）。对于静态11维模型输出，数据转换成3D相空间后所占用的体积可以类似地解释。3D相空间中的地理区域和面积之间的关系并不简单，但可以用生态相似性来解释。因此，更传统的 BC 相异性度量是首选。
未来的工作将重用 SAGE 方法来处理季节性变化的数据，以评估已识别省份和 AEP 的空间变异性。未来的目标是利用该方法帮助确定哪些省份可以通过卫星测量（如叶绿素a、遥感反射率和海面温度）来确定。这将实现对生态成分的遥感评估以及对生态省及其变异性的高度灵活的监测。
本研究的目的是介绍 SAGE 方法，该方法通过其独特的浮游生物群落结构来定义生态省。在这里，将提供有关物理/生物地球化学/生态系统模型以及 t-SNE 和 DBSCAN 算法参数选择的更多详细信息。
该模型的物理组成部分来自于海洋环流和气候的估计[ECCOv4；(37) (38) 描述的全局状态估计。状态估计的标称分辨率为 1/5。采用最小二乘法结合拉格朗日乘子法来获得初始和边界条件以及通过观测调整的内部模型参数，从而生成自由运行的MIT通用循环模型（MITgcm）（39），该模型经过优化后，结果可以被跟踪和观察。
生物地球化学/生态系统在(2)中有更完整的描述（即方程和参数值）。该模型捕捉了无机和有机池中碳、氮、磷、硅和铁的循环。这里使用的版本包括35种浮游植物：2种微型原核生物和2种微型真核生物（适合低营养环境），5种球形引藻（有碳酸钙涂层），5种重氮生物（可以固氮，所以不限于）溶解无机氮的可用性），11种硅藻（形成硅质覆盖层），10种混合营养鞭毛虫（可以光合作用并吃其他浮游生物）和16种浮游动物（吃其他浮游生物）。这些被称为“生物地球化学官能团”，因为它们对海洋生物地球化学有不同的影响(40, 41)，并且经常用于观测和模型研究。在该模型中，每个功能群由若干不同大小的浮游生物组成，跨度为0.6至2500μm当量球径。
影响浮游植物生长、摄食和下沉的参数与大小有关，六种浮游植物功能群之间存在具体差异（32）。尽管物理框架不同，但该模型的 51 个浮游生物组成部分的结果已在最近的许多研究中使用 (42-44)。
从1992年到2011年，物理/生物地球化学/生态系统耦合模型运行了20年。模型的输出包括浮游生物生物量、养分浓度和养分供给率（DIN、PO4、Si和Fe）。在本研究中，这些产出的20年平均值被用作生态省的投入。叶绿素、浮游生物生物量和养分浓度的分布以及功能类群的分布与卫星和现场观测进行了比较[见(2, 44)，注S1和图。S1至S3]。
对于SAGE方法，随机性的主要来源来自t-SNE步骤。随机性阻碍了可重复性，这意味着结果不可靠。SAGE方法通过确定t-SNE和DBSCAN的一组参数来严格测试鲁棒性，在重复时可以一致地识别簇。确定t-SNE参数的“困惑度”可以理解为确定从高维到低维的映射应尊重数据的局部或全局特征的程度。达到了400次和300次迭代的混乱程度。
对于聚类算法DBSCAN，需要确定聚类中数据点的最小尺寸和距离度量。最低数量是在专家的指导下确定的。这些知识知道什么适合当前的数值建模框架和分辨率。最小数量为100。可以考虑更高的最小值（在绿色上限变宽之前小于<135），但它不能取代基于BC相异性的聚合方法。连接度（图6A）用于设置ϵ参数，有利于更高的覆盖率（图6B）。连接性定义为簇的复合数，并且对 ϵ 参数敏感。较低的连通性表明拟合不足，人为地将区域分组在一起。高连通性表明过度拟合。过度拟合也是有问题的，因为它表明最初的随机猜测可能会导致不可重现的结果。在这两个极端之间，急剧增加（通常称为“肘部”）表示最佳的 ϵ。在图 6A 中，您可以看到高原区域急剧增加（黄色，> 200 个簇），然后急剧减少（绿色，100 个簇），最多达到 130 个左右，周围只有很少的簇（蓝色，< 60 个簇））。在至少 100 个蓝色区域中，要么一个簇主导整个海洋 (ϵ <0.42)，要么大部分海洋未分类并被视为噪声 (ϵ> 0.99)。黄色区域具有高度可变、不可重复的簇分布。随着 ϵ 减小，噪声增大。急剧增加的绿色区域称为肘部。这是一个最佳区域。虽然使用了概率t-SNE，但仍然可以使用省内的BC相异性来确定可靠的聚类。使用图 6（A 和 B），将 ϵ 设置为 0.39。最小数越大，达到允许可靠分类的 ϵ 的概率越小，并且值大于 135 的绿色区域越大。该区域的放大表明弯头将更难找到或非存在的。
设置 t-SNE 的参数后，找到的簇总数将用作连接性的度量 (A) 和分配给簇的数据百分比 (B)。红点表示覆盖范围和连接性的最佳组合。最小数量是根据生态相关的最小数量设定的。
有关本文的补充材料，请参阅 http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
这是根据知识共享署名许可条款分发的开放获取文章。在正确引用原作的情况下，该文章允许在任何媒体上不受限制地使用、分发和复制。
注意：我们只要求您提供您的电子邮件地址，以便您向该页面推荐的人知道您希望他们看到该电子邮件并且该电子邮件不是垃圾邮件。我们不会捕获任何电子邮件地址。
此问题用于测试您是否是访客并防止自动提交垃圾邮件。
全球海洋生态部决心解决复杂问题，并使用无监督机器学习来探索群落结构。
全球海洋生态部决心解决复杂问题，并使用无监督机器学习来探索群落结构。

发布时间：2021年1月12日

澄清生态复杂性：无监督学习决定全球海洋生态省