トピミング

生態学的複雑性の解明: 教師なし学習が世界の海洋生態学的領域を決定する

プランクトン群集構造と栄養塩フラックスデータに基づいて地球規模の海洋生態学的州(生態州)を決定するための教師なし学習方法が提案されています。体系的統合生態学的州 (SAGE) 手法は、高度に非線形の生態系モデルで生態学的州を特定できます。データの非ガウス共分散に適応するために、SAGE は t 個のランダム隣接埋め込み (t-SNE) を使用して次元を削減します。密度ベースの空間クラスタリング (DBSCAN) アルゴリズムに基づくノイズ アプリケーションの助けを借りて、100 以上の生態学的地域を識別できます。距離の尺度として生態学的差異を含む接続性マップを使用すると、ネストされた生態学的州を通じて堅牢な集約生態学的州 (AEP) が客観的に定義されます。AEP を使用して、群集構造に対する栄養塩供給速度の制御が検討されました。Eco-province と AEP は独自のものであり、モデルの解釈に役立ちます。これらはモデル間の比較を容易にし、海洋生態系の理解と監視を強化する可能性があります。
州は、海または陸の複雑な生物地理学が一貫した意味のあるエリアに編成されている地域です (1)。これらの州は、場所を比較対照し、観察、監視、保護を特徴付けるために非常に重要です。データの共分散が複雑で非ガウスであるため、これらの領域を生成する複雑で非線形の相互作用により、教師なし機械学習 (ML) 手法が領域を客観的に決定するのに非常に適しています。ここでは、ダーウィンの地球規模の 3 次元 (3D) 物理/生態系モデル (2) から固有の海洋生態学的州 (生態州) を体系的に特定する ML 手法が提案されています。「ユニーク」という用語は、識別された領域が他の領域と十分に重なり合っていないことを示すために使用されます。この手法はシステム統合生態省(SAGE)手法と呼ばれます。有用な分類を実行するには、アルゴリズム手法で、(i) グローバル分類と (ii) 空間と時間でネスト/集約できるマルチスケール分析が可能である必要があります (3)。この研究では、SAGE 法が最初に提案され、特定された生態学的地域が議論されました。エコプロヴィンスは、コミュニティ構造を制御する要因の理解を促進し、モニタリング戦略に役立つ洞察を提供し、エコシステムの変化を追跡するのに役立ちます。
陸地の州は通常、気候 (降水量と気温)、土壌、植生、動物相の類似性に基づいて分類され、補助的な管理、生物多様性の研究、疾病対策に使用されます (1、4)。海洋州を定義するのはさらに困難です。ほとんどの生物は微細であり、流体の境界があります。ロングハーストら。(5) 環境条件に基づいた海洋省の最初の世界的な分類の 1 つを提供しました。これらの「ロングハースト」州の定義には、混合率、層別、日射量などの変数に加え、海洋生態系にとって他の重要な条件を備えた海洋海洋学者としてのロングハースト氏の豊富な経験も含まれています。ロングハーストは、例えば、一次生産量と炭素フラックスの評価、漁業支援、現場観察活動の計画などに広く使用されています(5-9)。州をより客観的に定義するために、ファジー論理や地域の教師なしクラスタリング/統計などの方法が使用されています(9-14)。このような方法の目的は、利用可能な観測データから州を特定できる意味のある構造を特定することです。たとえば、動的な海洋州 (12) は、自己組織化マップを使用してノイズを低減し、階層型 (ツリーベース) クラスタリングを使用して、地域の衛星に由来する海洋の色生成物 [クロロフィル a (Chl-a)、正規化された蛍光線の高さ、および有色溶存有機物]と物理領域(海面水温と塩分、絶対動的地形と海氷)。
プランクトンの群集構造は、その生態がより高い栄養レベル、炭素吸収、気候に大きな影響を与えるため、懸念されています。それにもかかわらず、プランクトン群集の構造に基づいて地球規模の生態学的州を決定することは、依然として困難でとらえどころのない目標です。海洋カラー衛星は、植物プランクトンの大まかな分類についての洞察を提供したり、機能グループの利点を示唆したりできる可能性があります (15) が、現時点では群集構造に関する詳細な情報を提供することはできません。最近の調査 [例: タラ海洋 (16)] では群集構造に関する前例のない測定結果が得られています。現在、地球規模での現場観察はまばらにしか行われていない(17)。これまでの研究では主に、生化学的類似性 (一次生産、Chl、利用可能な光など) の決定に基づいて「生物地球化学領域」 (12、14、18) が決定されてきました。ここでは、数値モデルを使用して [Darwin(2)] を出力し、群集構造と栄養塩束に応じて生態学的州を決定します。この研究で使用された数値モデルは地球規模でカバーされており、既存のフィールドデータ (17) およびリモートセンシングフィールド (注 S1) と比較できます。この研究で使用される数値モデル データには、世界規模でカバーされるという利点があります。モデル生態系は 35 種の植物プランクトンと 16 種の動物プランクトンで構成されます (材料と方法を参照してください)。モデルプランクトンの種類は、非ガウス共分散構造と非線形に相互作用するため、単純な診断方法は、新たな群集構造における固有で一貫したパターンを特定するのには適していません。ここで紹介する SAGE メソッドは、複雑なダーウィン モデルの出力をチェックする新しい方法を提供します。
データ サイエンス/ML テクノロジーの強力な変革機能により、圧倒的に複雑なモデル ソリューションが可能になり、データの共分散における複雑だが堅牢な構造を明らかにすることができます。ロバストな方法とは、与えられた誤差範囲内で結果を忠実に再現できる方法として定義されます。単純なシステムであっても、堅牢なパターンと信号を決定することは困難な場合があります。観察されたパターンにつながる理論的根拠が決定されるまでは、新たな複雑性が複雑で解決が難しいように見えるかもしれません。生態系の構成を設定する重要なプロセスは、本質的に非線形です。非線形相互作用の存在はロバストな分類を混乱させる可能性があるため、データの共分散の基本的な統計分布について強い仮定を置く方法を避ける必要があります。高次元の非線形データは海洋学では一般的であり、複雑な非ガウス トポロジーによる共分散構造を持つ場合があります。非ガウス共分散構造を持つデータは堅牢な分類を妨げる可能性がありますが、SAGE 手法は任意のトポロジーを持つクラスターを識別するように設計されているため、新規です。
SAGE 法の目標は、生態学的理解をさらに進めるのに役立つ可能性のある新たなパターンを客観的に特定することです。(19) と同様のクラスターベースのワークフローに従って、生態学的および栄養フラックス変数を使用して、生態学的地域と呼ばれるデータ内の唯一のクラスターを決定します。この研究で提案された SAGE 法 (図 1) は、まず、アプリオリに定義されたプランクトン官能基を合計することによって、次元を 55 次元から 11 次元に削減します (「材料と方法」を参照)。t ランダム隣接埋め込み (t-SNE) 法を使用すると、確率を 3D 空間に投影することでサイズがさらに削減されます。教師なしクラスタリングは、生態学的に近い領域を特定できます [ノイズベースのアプリケーション向けの密度ベースの空間クラスタリング (DBSCAN)]。t-SNE と DBSCAN はどちらも、固有の非線形生態系数値モデル データに適用できます。次に、結果として得られる生態学的州を地球上に再投影します。地域研究に適した、生態学的にユニークな州が 100 以上特定されています。世界的に一貫した生態系モデルを検討するために、SAGE 手法を使用して生態学的州を集合生態学的州 (AEP) に集約し、生態学的州の有効性を向上させます。集約のレベル (「複雑さ」と呼ばれます) は、必要な詳細レベルに合わせて調整できます。堅牢な AEP の最小限の複雑さを決定します。選択の焦点は、SAGE メソッドと、緊急コミュニティ構造の制御を決定するための最小の複雑さの AEP ケースの探索です。その後、パターンを分析して生態学的洞察を得ることができます。ここで紹介した方法は、モデルを比較するために、異なるモデルで見つかった同様の生態学的地域の位置を評価して相違点と類似点を強調表示するなど、より広範なモデル比較にも使用できます。
(A) 生態学的地域を決定するためのワークフローの概略図。機能グループの合計を使用して、元の 55 次元データを 11 次元のモデル出力に縮小します。これには、7 つの機能/栄養素プランクトンのバイオマスと 4 つの栄養素供給率が含まれます。無視できる価値と耐久性のある氷被覆領域。データは標準化され標準化されています。11 次元データを t-SNE アルゴリズムに提供して、統計的に類似した特徴の組み合わせを強調表示します。DBSCAN は、パラメータ値を設定するクラスタを慎重に選択します。最後に、データを緯度/経度投影に戻します。t-SNEを適用することで若干のランダム性が生じる可能性があるため、この処理を10回繰り返すことに注意してください。(B) では、(A) のワークフローを 10 回繰り返して AEP を取得する方法を説明します。これら 10 の実装のそれぞれについて、51 種類の植物プランクトンのバイオマスに基づいて、州間のブレイ・カーティス (BC) 相違度マトリックスが決定されました。複雑さ 1 AEP から完全な複雑さ 115 までの州間の BC の違いを決定します。BC ベンチマークはロングハースト州によって設定されます。
SAGE メソッドは、地球規模の 3D 物理/生態系数値モデルの出力を使用して、生態学的領域を定義します [Darwin (2);「材料と方法」および「注 S1」を参照してください。生態系の構成要素は、35 種の植物プランクトンと 16 種の動物プランクトンで構成されており、あらかじめ定義された 7 つの機能グループがあります: 低栄養環境に適応した原核生物と真核生物、炭酸カルシウムでコーティングされたコクシジウム、および重窒素固定窒素栄養素 (通常は欠落しています)重要な栄養素)を珪質で覆い、他のプランクトンが光合成をしたり、混合栄養素の鞭毛虫や動物プランクトンの遊牧民を放牧したりすることができます。サイズスパンは球相当直径0.6~2500μmです。植物プランクトンのサイズと機能グループのモデル分布は、衛星および現場観察で見られる全体的な特徴を捉えています (図 S1 から S3 を参照)。数値モデルと観測された海洋の類似性は、モデルによって定義された領域が現場の海洋に適用できる可能性があることを示しています。このモデルは、植物プランクトンの特定の多様性と、現場の海洋の特定の物理的および化学的強制範囲のみを捕捉していることに注意してください。SAGE 手法を使用すると、モデル群集構造の高度に地域的な制御メカニズムをより深く理解できるようになります。
各プランクトン官能基の表面バイオマスの合計 (平均時間 20 年) のみを含めることにより、データの次元を減らすことができます。初期の研究で群集構造の設定におけるそれらの重要な役割が示された後、栄養フラックス(窒素、鉄、リン酸塩、ケイ酸の供給)の表面源項も含まれました [例 (20, 21)] 。官能基の合計により、問題は 55 (プランクトン 51 個と栄養フラックス 4 個) から 11 次元に減ります。この最初の研究では、アルゴリズムによって課せられた計算上の制約のため、深さと時間の変動は考慮されませんでした。
SAGE メソッドは、非線形プロセス間の重要な関係と、官能基バイオマスと栄養フラックス間の相互作用の主要な特徴を特定できます。ユークリッド距離学習法 (K 平均法など) に基づく 11 次元データを使用すると、信頼性と再現性のある領域を取得できません (19、22)。これは、生態学的領域を定義する主要な要素の共分散の基本分布にガウス形状が見つからないためです。ボロノイ セル (直線) の K 平均は、非ガウス基本分布を保持できません。
7 つのプランクトン官能基のバイオマスと 4 つの栄養フラックスは、11 次元ベクトル x を形成します。したがって、x はモデル グリッド上のベクトル フィールドであり、各要素 xi はモデルの水平グリッド上に定義された 11 次元のベクトルを表します。各インデックス i は球上のグリッド点を一意に識別します。ここで、(lon, lat) = (ϕi, θi) です。モデルグリッドユニットのバイオマスが 1.2×10-3mg Chl/m3 未満の場合、または氷被覆率が 70% を超える場合、バイオマスデータのログは使用され、破棄されます。データは正規化および標準化されているため、すべてのデータは [0 ~ 1] の範囲内にあり、平均は削除され、単位分散に合わせてスケーリングされます。これは、特徴 (バイオマスと栄養フラックス) が可能な値の範囲内のコントラストによって制限されないようにするために行われます。クラスタリングでは、地理的な距離ではなく、フィーチャ間の主要な確率距離から変化関係をキャプチャする必要があります。これらの距離を定量化することにより、重要な特徴が明らかになり、不必要な詳細は破棄されます。生態学的観点からすると、バイオマスの少ない一部の種類の植物プランクトンは、ジアゾ栄養細菌による窒素固定など、より大きな生物地球化学的影響を与える可能性があるため、これは必要です。データを標準化および正規化する場合、これらのタイプの共変量が強調表示されます。
t-SNE アルゴリズムを使用して、低次元表現で高次元空間内の特徴の近接性を強調することで、既存の類似領域をより明確にします。リモート センシング アプリケーション用のディープ ニューラル ネットワークの構築を目的とした以前の研究では t-SNE が使用され、主要な機能を分離するスキルが証明されました (23)。これは、非収束解を回避しながら、特徴データ内の堅牢なクラスタリングを特定するために必要なステップです (S2 に注意)。t-SNE は、ガウス カーネルを使用して、各高次元オブジェクトを 3D 位相空間内の点にマッピングすることでデータの統計的特性を保存します。これにより、高方向と低方向に類似したオブジェクトが存在する確率が高い状態で確実に高くなります。次元空間(24)。N 個の高次元オブジェクト x1,…,xN のセットが与えられると、t-SNE アルゴリズムは、カルバック-ライブラー (KL) 発散を最小限に抑えることによって減少します (25)。KL 発散は、確率分布が 2 番目の基準確率分布とどの程度異なるかを示す尺度であり、高次元特徴の低次元表現間の相関の可能性を効果的に評価できます。xi が N 次元空間の i 番目のオブジェクト、xj が N 次元空間の j 番目のオブジェクト、yi が低次元空間の i 番目のオブジェクト、yj が低次元空間の j 番目のオブジェクトである場合、 -次元空間の場合、t -SNE は類似確率 ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2) を定義し、次元削減セットについてq∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
図 2A は、11 次元の組み合わせのバイオマスと栄養素のフラックス ベクトルを 3D に削減した効果を示しています。t-SNE を適用する動機は、分散属性を使用してデータの領域/属性を強調し、それによって次元を削減する主成分分析 (PCA) の動機と比較できます。t-SNE 法は、環境省に信頼性と再現性のある結果を提供する点で PCA よりも優れていることが判明しました (注 S2 を参照)。これは、PCA が線形共分散構造に焦点を当てているため、PCA の直交性の仮定が高度に非線形のインタラクティブな特徴間の重要な相互作用を特定するのに適していないためである可能性があります (26)。リモートセンシングデータを使用して、Lunga et al.(27) は、SNE 法を使用して、ガウス分布から逸脱する複雑な非線形スペクトル特徴を強調表示する方法を示しています。
(A) t-SNE アルゴリズムによって描画され、DBSCAN を使用して州ごとに色分けされた、モデル化された栄養素供給率、植物プランクトンおよび動物プランクトンの官能基バイオマス。図 6B に示すように、各点は高次元空間内の点を表し、ほとんどの点がキャプチャされます。シャフトは、「t-SNE」サイズ 1、2、および 3 を指します。 (B) 原点の緯度経度グリッド上で DBSCAN によって検出された州の地理的投影。色は任意の色とみなされますが、(A)に該当する必要があります。
図 2A の t-SNE 散布図の点は、それぞれ緯度と経度に関連付けられています。図 2A の 2 つの点が互いに近い場合、それは地理的に近いためではなく、それらのバイオマスと栄養分の流束が類似しているためです。図 2A の色は、DBSCAN メソッドを使用して検出されたクラスターです (28)。高密度の観測を探す場合、DBSCAN アルゴリズムは 3D 表現での点間の距離 (ϵ = 0.39、この選択の詳細については「材料と方法」を参照) を使用し、クラスターを定義するには類似点の数が必要です (ここでは100点、上記参照)。DBSCAN メソッドでは、以下に示すように、データ内のクラスターの形状や数についていかなる仮定も行いません。
3) 以内の距離内にあると特定されたすべての点について、ステップ 2 を繰り返してクラスターの境界を決定します。点の数が設定された最小値より大きい場合、それはクラスターとして指定されます。
最小クラスター メンバーと距離 ϵ メトリックを満たさないデータは「ノイズ」とみなされ、色は割り当てられません。DBSCAN は、最悪の場合でも O(n2) のパフォーマンスを発揮する高速でスケーラブルなアルゴリズムです。現在の分析では、実際にはランダムではありません。最低ポイント数は専門家の評価によって決定されます。その後距離を調整すると、±10程度の範囲で結果が安定しません。この距離は、接続性 (図 6A) と海洋カバー率 (図 6B) を使用して設定されます。接続性はクラスターの合成数として定義され、ϵ パラメーターの影響を受けます。接続性が低い場合は、フィッティングが不十分で、領域が人為的にグループ化されていることを示します。接続性が高い場合は、過剰適合を示します。より高い最小値を使用することも考えられますが、最小値が ca を超える場合、信頼性の高い解決策を達成することは不可能になります。135 (詳細については、「材料と方法」を参照)。
図 2A で識別された 115 個のクラスターは、図 2B で地球に投影されています。各色は、DBSCAN によって特定された生物地球化学的要因と生態学的要因の一貫した組み合わせに対応しています。クラスターが決定されると、図 2A の各点と特定の緯度および経度の関連付けを使用して、クラスターを地理的エリアに投影します。図 2B は、これを図 2A と同じクラスターの色で示しています。類似した色は、アルゴリズムによってクラスターが発見された順序によって割り当てられるため、生態学的類似性として解釈されるべきではありません。
図 2B のエリアは、海洋の物理化学および/または生物地球化学において確立されたエリアと定性的に類似している可能性があります。たとえば、南極海のクラスターは帯対称で、貧栄養渦が出現しており、急激な遷移は貿易風の影響を示しています。たとえば、太平洋赤道では、上昇に関連するさまざまな地域が見られます。
Eco-Province の生態環境を理解するために、Bray-Curtis (BC) 差異指数 (29) のバリエーションを使用してクラスター内の生態を評価しました。BC 指標は、2 つの異なるサイト間のコミュニティ構造の違いを定量化するために使用される統計データです。BC 測定は 51 種の植物プランクトンおよび動物プランクトンの生物量に適用できます。 BCninj = 1-2CninjSni + Snj
BCninj は、組み合わせ ni と組み合わせ nj の間の類似度を指します。ここで、Cninj は、組み合わせ ni と nj の両方に存在する単一種類のバイオマスの最小値、Sni は​​、組み合わせ ni と Snj の両方に存在するすべてのバイオマスの合計を表します。BC 差は距離測定に似ていますが、非ユークリッド空間で機能するため、生態学的データとその解釈により適していると考えられます。
図 2B で特定された各クラスターについて、州内および州間の BC の類似性を評価できます。州内のBC差とは、州の平均値と州内の各地点との差を指します。BC 州間の違いは、ある州と他の州の類似性を指します。図 3A は、対称 BC マトリックス (0、黒: 完全に一致、1、白: 完全に異なる) を示しています。グラフの各線はデータのパターンを示しています。図 3B は、各州における図 3A の BC の結果の地理的重要性を示しています。図 3B は、低栄養地域と低栄養地域にある州の場合、赤道付近の広い地域とインド洋の対称性は基本的に似ていますが、高緯度地域と湧昇地域では大きく異なることを示しています。
(A) 51 個のプランクトンの 20 年間の地球表面平均に基づいて各州ごとに評価された BC 差異の程度。値の予想される対称性に注意してください。(B) 列 (または行) の空間投影。ジストロフィーサークル内の州については、BC 類似性尺度の世界的分布が評価され、世界的な 20 年間の平均が評価されました。黒 (BC = 0) は同じ領域を意味し、白 (BC = 1) は類似性がないことを意味します。
図 4A は、図 2B の各州内の BC の違いを示しています。クラスター内の平均面積の平均の組み合わせを使用し、BC と州内の各グリッド点の平均との間の相違度を決定することによって決定され、SAGE 方法が生態学的類似性に基づいて 51 種をうまく分離できることが示されています。モデルデータ。51 種類すべての全体の平均クラスター BC 非類似度は 0.102±0.0049 です。
(A、B、D) 州内の BC 差は、各格子点コミュニティと平均州との平均 BC 差として評価され、複雑さは軽減されません。(2) 世界平均の州内 BC 差は 0.227±0.117 です。これは、この研究によって提案された生態学的動機に基づく分類のベンチマークです [(C) の緑の線]。(C) 平均州内 BC 差: 黒い線は、複雑さが増加する州内の BC 差を表します。2σ は、エコプロヴィンスの特定プロセスを 10 回繰り返した結果から得られます。DBSCAN によって検出された州の合計複雑さについて、(A) は州の BC 相違度が 0.099 であり、(C) によって提案された複雑度分類は 12 であることを示しており、その結果、州の BC 相違度は 0.200 になります。写真が示すように。(D)。
図 4B では、51 種類のプランクトンのバイオマスを使用して、ロングハースト州の同等の BC 差を表しています。各州の全体平均は 0.227 で、BC 州の差を基準としたグリッド点の標準偏差は 0.046 です。これは、図 1B で特定されたクラスターよりも大きいです。代わりに、7 つの官能基の合計を使用すると、ロングハーストの平均シーズン内 BC 相違度は 0.232 に増加しました。
世界的なエコ州マップには、ユニークな生態学的相互作用の複雑な詳細が記載されており、ロングハースト州の生態系構造全体を使用する際に改善が加えられています。生態省は数値モデル生態系を制御するプロセスについての洞察を提供することが期待されており、この洞察はフィールド作業の調査に役立ちます。この調査の目的上、100 を超える州を完全に表示することはできません。次のセクションでは、州を要約する SAGE 手法を紹介します。
州の目的の 1 つは、州の位置と管理についての理解を促進することです。緊急事態を判断するために、図 1B の方法では、生態学的に類似した州のネストを示しています。エコ州は生態学的類似性に基づいてグループ化されており、そのような州のグループ化は AEP と呼ばれます。考慮する州の総数に基づいて、調整可能な「複雑さ」を設定します。「複雑さ」という用語は、緊急属性のレベルを調整できるために使用されます。意味のある集計を定義するために、ロングハーストからの州内の平均 BC 差 0.227 がベンチマークとして使用されます。このベンチマークを下回ると、結合された州は役に立たないとみなされます。
図 3B に示すように、世界の生態学的地域は一貫しています。州間の BC の違いを使用すると、一部の構成が非常に「一般的」であることがわかります。遺伝学とグラフ理論の手法にヒントを得た「接続グラフ」を使用して、最も類似した州に基づいて 100 を超える州を並べ替えます。ここでの「接続性」指標は、州間の BC の相違度 (30) を使用して決定されます。100を超える州を分類するためのより大きなスペースを有する州の数を、本明細書では複雑度と呼ぶことができる。AEP は、100 以上の州を最も優勢な/最も環境に近い州として分類する製品です。各生態学的州は、それらに最も類似した主要な/高度に関連性のある生態学的州に割り当てられます。BC の差によって決定されるこの集約により、地球規模の生態学への入れ子のアプローチが可能になります。
選択された複雑さは、1から図2の完全な複雑さまでの任意の値とすることができる。2A.複雑さが低い場合、AEP は確率的次元削減ステップ (t-SNE) により縮退する可能性があります。縮退とは、反復間で生態学的地域を異なる AEP に割り当てることができ、それによってカバーされる地理的エリアが変更されることを意味します。図 4C は、10 の実装にわたって複雑さが増す AEP における州内での BC の相違点の広がりを示しています (図 1B に図示)。図 4C では、2σ (青色の領域) は 10 回の実装における劣化の尺度であり、緑色の線はロングハースト ベンチマークを表します。事実は、複雑度 12 により、すべての実装において州内の BC 差をロングハースト ベンチマーク未満に保ち、比較的小さな 2σ 劣化を維持できることを証明しています。要約すると、図 4D に示すように、推奨される最小の複雑さは 12 AEP であり、51 種類のプランクトンを使用して評価された州内 BC の平均差は 0.198±0.013 です。7 つのプランクトン官能基の合計を使用すると、州内の平均 BC 差は 0.198±0.004 ではなく 2σ になります。7 つの機能グループの総バイオマス、または 51 種類すべてのプランクトンのバイオマスを使用して計算された BC 差を比較すると、SAGE 法は 51 次元の状況に適用可能であるが、それは 7 つの機能グループの総バイオマスに対するものであることがわかります。トレーニング用。
研究の目的に応じて、さまざまなレベルの複雑さが考慮されます。地域研究には完全な複雑さ (つまり、115 州すべて) が必要な場合があります。例として、わかりやすくするために、最小推奨複雑度 12 を考えてみましょう。
SAGE 法の有用性の例として、ここでは最小複雑度 12 の 12 個の AEP を使用して、緊急コミュニティ構造の制御を調査します。図 5 は、AEP (A から L) によってグループ化された生態学的洞察を示しています。レッドフィールド化学量論では、地理的範囲 (図 5C)、官能基のバイオマス組成 (図 5A)、および栄養素の供給 (図 5B) が N Zoomed によって実行されます。比率(N:Si:P:Fe、1:1:16:16×103)を示す。後者のパネルでは、P に 16 を乗算し、Fe に 16×103 を乗算したため、棒グラフは植物プランクトンの栄養所要量に相当します。
州は A ~ L の 12 の AEP に分類されます。 (A) 12 州の生態系のバイオマス (mgC/m3)。(B) 溶存無機窒素 (N)、鉄 (Fe)、リン酸塩 (P)、およびケイ酸 (Si) の栄養塩流動率 (mmol/m3/年)。Fe と P はそれぞれ 16 と 16×103 倍されるため、ストリップは植物プランクトンの化学量論要件に合わせて標準化されます。(C) 極地、亜熱帯低気圧、主要な季節/上昇地域の違いに注目してください。監視ステーションには次のようにマークが付けられています。 1、SEATS。2、アロハ。3、ステーションP;そして4、コウモリ。
識別された AEP は一意です。大西洋と太平洋の赤道付近にはある程度の対称性があり、インド洋にも同様だが拡大された領域が存在します。一部の AEP は、上昇に関連する大陸の西側を受け入れています。南極周極海流は大きな帯状の特徴と見なされます。亜熱帯低気圧は、貧栄養性 AEP の複雑な系列です。これらの州では、プランクトンが優勢な貧栄養渦巻きと珪藻が豊富な極地との間の生物量の違いに関するよく知られたパターンが明らかである。
植物プランクトン総バイオマスが非常に類似している AEP は、非常に異なる群集構造を持ち、植物プランクトン総バイオマスが類似している D、H、K などの異なる地理的エリアをカバーする場合があります。AEP H は主にインド洋赤道付近に存在し、さらにジアゾ栄養性細菌が存在します。AEP D はいくつかの盆地で見られますが、赤道湧昇付近の高収量地域周辺の太平洋で特に顕著です。この太平洋地域の形状は、惑星の波の列車を彷彿とさせます。AEP D にはジアゾバクテリアがほとんどなく、錐体菌がより多く存在します。他の 2 つの州と比較して、AEP K は北極海の高地でのみ発見され、珪藻が多くプランクトンが少ないです。これら 3 つの地域のプランクトンの量も大きく異なることは注目に値します。このうち、AEP K のプランクトン存在量は相対的に少なく、AEP D および H のプランクトン存在量は相対的に多い。したがって、それらのバイオマス(したがってChl-aに似ている)にもかかわらず、これらの州はまったく異なります。Chlに基づく州の検査では、これらの違いが捕捉できない可能性があります。
また、バイオマスが大きく異なるいくつかの AEP は、植物プランクトン群集構造の点で類似している可能性があることも明らかです。たとえば、これは AEP D と E に見られます。これらは互いに近く、太平洋では、AEP E は生産性の高い AEPJ に近いです。同様に、植物プランクトンのバイオマスと動物プランクトンの存在量の間に明確な関連性はありません。
AEP は、それらに提供される栄養素の観点から理解できます (図 5B)。珪藻は、ケイ酸が豊富に存在する場所にのみ存在します。一般に、ケイ酸の供給量が多ければ多いほど、珪藻のバイオマスは増加します。珪藻は、AEP A、J、K、L で見ることができます。他の植物プランクトンに対する珪藻バイオマスの比率は、珪藻需要に対して供給される N、P、Fe によって決まります。たとえば、AEP L は珪藻が大半を占めています。他の栄養素と比較して、Siは最も多く供給されています。対照的に、AEP J は生産性が高いにもかかわらず、珪藻の数が少なく、ケイ素の供給量も (他の栄養素と比べて) 少ないです。
ジアゾニウム細菌は窒素を固定する能力がありますが、成長は遅いです(31)。それらは他の植物プランクトンと共存しており、非ジアゾニウム栄養素の需要に比べて鉄とリンが過剰です(20, 21)。ジアゾ栄養性バイオマスが比較的高く、N の供給に比べて Fe と P の供給が比較的多いことは注目に値します。このように、AEP J の総バイオマスはより多くなりますが、AEP H のジアゾニウム バイオマスはAEP J と H は地理的に大きく異なり、H は赤道インド洋に位置することに注意してください。
独自の生態系構造が州に分割されていない場合、12 の AEP の最も複雑度の低いモデルから得られる洞察はそれほど明確ではありません。SAGE によって生成された AEP は、生態系モデルからの複雑で高次元の情報の一貫した同時比較を容易にします。AEPは、なぜChlが群集構造やより高い栄養レベルでの動物プランクトンの存在量を決定するための代替方法として適していないのかを効果的に強調している。現在進行中の研究トピックの詳細な分析は、この記事の範囲を超えています。SAGE メソッドは、ポイントツーポイント表示よりも扱いやすい、モデル内の他のメカニズムを調査する方法を提供します。
SAGE 手法は、地球規模の物理/生物地球化学/生態系数値モデルから極めて複雑な生態データを明らかにするために提案されています。生態学的領域は、クロスプランクトン機能グループの総バイオマス、t-SNE 確率次元削減アルゴリズムの適用、および教師なし ML 手法 DBSCAN を使用したクラスタリングによって決定されます。入れ子法の州間 BC 差分/グラフ理論を適用して、グローバルな解釈に使用できる堅牢な AEP を導き出します。建設という点では、エコプロビンスと AEP は独特です。AEP のネストは、元の生態学的州の完全な複雑さと、推奨される最小しきい値の 12 AEP の間で調整できます。t-SNE の確率により複雑度が 12 未満の AEP が縮退するため、AEP のネストと最小複雑度の決定が重要なステップと見なされます。SAGE メソッドはグローバルであり、その複雑さの範囲は 100 AEP を超えて 12 までです。簡単にするために、現在は 12 のグローバル AEP の複雑さに焦点を当てています。将来の研究、特に地域研究では、世界の生態省のより小さな空間サブセットが有用であることがわかり、ここで議論されているのと同じ生態学的洞察を活用するためにより小さな領域に集約される可能性があります。これらの生態学的州とそこから得られる洞察を、生態学的理解をさらに深め、モデルの比較を促進し、海洋生態系の監視を改善する可能性があるためにどのように使用できるかについての提案を提供します。
SAGE法により特定された生態学的州およびAEPは、数値モデルのデータに基づいています。定義上、数値モデルは対象システムの本質を捉えようとする単純化された構造であり、モデルが異なればプランクトンの分布も異なります。この研究で使用された数値モデルは、観察されたパターンの一部を完全に捉えることができません (たとえば、赤道地域と南極海の Chl 推定値)。実際の海洋の多様性のごく一部しか捕捉されず、メソスケールおよびサブメソスケールは解決できず、栄養塩の流動や小規模な群集構造に影響を与える可能性があります。これらの欠点にもかかわらず、AEP は複雑なモデルを理解するのに非常に役立つことがわかりました。AEP は、類似した生態学的地域がどこにあるかを評価することにより、潜在的な数値モデル比較ツールを提供します。現在の数値モデルは、リモートセンシングによる植物プランクトンの Chl-a 濃度とプランクトンのサイズと官能基の分布の全体的なパターンを捉えています (注 S1 および図 S1) (2、32)。
0.1 mgChl-a/m-3 等高線で示されるように、AEP は貧栄養領域と中栄養領域に分けられます (図 S1B): AEP B、C、D、E、F、G は貧栄養領域であり、残りの領域はより高いChl-aに位置します。AEP は、ロングハースト州 (図 S3A)、たとえば南極海や太平洋赤道との対応を示しています。一部の地域では、AEP は複数のロングハースト地域をカバーしており、その逆も同様です。この地域とロングハーストでは州を区切る意図が異なるため、相違が生じることが予想される。ロングハースト州の複数の AEP は、同様の生物地球化学を持つ特定の地域が非常に異なる生態系構造を持つ可能性があることを示しています。AEP は、教師なし学習 (19) を使用して明らかになったように、高湧昇状態 (たとえば、南極海や赤道太平洋、図 S3、C、D) などの物理状態と一定の対応を示します。これらの対応関係は、プランクトンの群集構造が海洋力学に強く影響されていることを示しています。北大西洋などの地域では、AEP は物理的な州を横断します。これらの違いを引き起こすメカニズムには、粉塵の輸送などのプロセスが含まれている可能性があり、同様の物理的条件下であっても、まったく異なる栄養プログラムにつながる可能性があります。
生態省とAEPは、海洋生態学のコミュニティがすでに認識しているように、Chlを単独で使用するだけでは生態学的要素を特定することはできないと指摘した。これは、バイオマスは類似しているが生態学的組成が大きく異なる AEP (D と E など) で見られます。対照的に、D や K などの AEP はバイオマスが大きく異なりますが、生態学的組成は類似しています。AEPは、バイオマス、生態学的構成、および動物プランクトンの存在量の間の関係は複雑であることを強調しています。たとえば、AEP J は植物プランクトンとプランクトン現存量の点で際立っていますが、AEP の A と L は同様のプランクトン現存量を持っていますが、A の方がプランクトンの存在量が高くなります。AEPは、植物プランクトンのバイオマス(またはChl)を動物プランクトンのバイオマスの予測に使用することはできないと強調している。動物プランクトンは漁業の食物連鎖の基盤であり、より正確な推定値が資源管理の改善につながる可能性があります。将来の海洋カラー衛星 [PACE (プランクトン、エアロゾル、雲、および海洋生態系) など] は、植物プランクトンの群集構造の推定に役立つ可能性があります。AEP 予測を使用すると、宇宙からの動物プランクトンの推定が容易になる可能性があります。SAGE のような手法と新しいテクノロジー、および地上真実調査 (タラ調査や追跡調査など) に利用できるますます多くの現場データを組み合わせることで、衛星ベースの生態系健全性モニタリングに向けて一歩を踏み出すことができます。
SAGE 法は、バイオマス/Chl、純一次生産、群集構造など、州の特性を制御するいくつかのメカニズムを評価する便利な方法を提供します。たとえば、珪藻の相対量は、植物プランクトンの化学量論的要件に対する Si、N、P、Fe の供給の不均衡によって決まります。バランスのとれた供給率では、群落は珪藻 (L) によって支配されます。供給速度がアンバランスな場合(つまり、ケイ素の供給が珪藻の栄養需要より低い場合)、珪藻が占めるシェア(K)はわずかです。FeやPの供給量がN(例えばEやH)の供給量を上回ると、ジアゾ栄養細菌が活発に増殖します。AEP によって提供されるコンテキストを通じて、制御メカニズムの探索がさらに便利になります。
Eco-Province と AEP は、同様のコミュニティ構造を持つ地域です。生態学的州または AEP 内の特定の場所からの時系列は、基準点と見なすことができ、生態学的州または AEP がカバーするエリアを表すことができます。長期的なオンサイト監視ステーションは、そのような時系列を提供します。長期の現場データセットは今後も計り知れない役割を果たし続けるでしょう。コミュニティ構造を監視するという観点から見ると、SAGE 手法は、新しいサイトの最も有用な場所を決定するのに役立つ方法と見なすことができます。たとえば、長期貧栄養生息地評価 (ALOHA) からの時系列は、貧栄養地域の AEP B にあります (図 5C、ラベル 2)。ALOHA は別の AEP の境界に近いため、以前に示唆されたように、時系列は地域全体を表していない可能性があります (33)。同じ AEP B では、時系列 SEATS (東南アジア時系列) は台湾南西部 (34) に位置し、他の AEP の境界から遠く離れており (図 5C、ラベル 1)、監視に適した場所として使用できます。 AEPB。AEPC の BATS (バミューダ大西洋時系列研究) 時系列 (図 5C、ラベル 4) は、AEP C と F の間の境界に非常に近いため、BATS 時系列を使用した AEP C の監視には直接的な問題がある可能性があることが示されています。AEP J のステーション P (図 5C、ラベル 3) は AEP 境界から遠く離れているため、より代表的です。エコ州と AEP は、地球規模の変化を評価するのに適したモニタリングの枠組みを確立するのに役立ちます。その理由は、現地でのサンプリングがどこで行われるかを評価する州の許可により重要な洞察が得られるからです。SAGE メソッドをさらに開発して気候データに適用し、時間を節約できる変動性を評価することができます。
SAGE 手法の成功は、データ サイエンス/ML 手法とドメイン固有の知識を注意深く適用することによって達成されます。具体的には、t-SNE を使用して次元削減を実行します。これにより、高次元データの共分散構造が保存され、共分散トポロジの視覚化が容易になります。データはストライプと共分散の形式で配置されており (図 2A)、純粋に距離に基づく測定 (K 平均など) は通常ガウス (円) 基底分布 (注 S2 で説明) を使用するため、適切ではないことを示しています。 。DBSCAN メソッドは、あらゆる共分散トポロジに適しています。パラメータの設定に注意すれば、信頼性の高い識別を行うことができます。t-SNE アルゴリズムの計算コストは​​高いため、現在の適用は大量のデータに限定されます。つまり、深いフィールドや時間変化するフィールドに適用するのは困難です。t-SNE のスケーラビリティに関する作業は進行中です。KL 距離は並列化が容易であるため、t-SNE アルゴリズムは将来拡張される可能性が十分にあります (35)。これまでのところ、サイズをより適切に削減できる他の有望な次元削減方法には、統合多様体近似および投影 (UMAP) 技術が含まれますが、海洋データのコンテキストでの評価が必要です。スケーラビリティの向上の意味は、たとえば、混合レイヤー上で異なる複雑さを持つ地球規模の気候やモデルを分類することです。どの県でも SAGE で分類できなかった地域は、図 2A の残りの黒点とみなすことができます。地理的には、これらの地域は主に季節性の高い地域にあり、時間の経過とともに変化する生態学的地域を捕捉すると、より適切にカバーできることが示唆されます。
SAGE メソッドを構築するために、複雑なシステム/データ サイエンスのアイデアが使用され、機能グループのクラスター (11 次元空間で非常に近い可能性) を決定し、領域を決定する機能が使用されています。これらの領域は、3D t-SNE 位相空間内の特定のボリュームを表します。同様に、ポアンカレ部分を使用して、軌道が占める状態空間の「体積」を評価し、「正常」または「カオス」動作を決定することができます (36)。静的な 11 次元モデル出力の場合、データが 3D 位相空間に変換された後に占有される体積も同様に説明できます。地理的領域と 3D 位相空間の領域の関係は単純ではありませんが、生態学的類似性の観点から説明できます。このため、より従来型の BC 非類似性尺度が推奨されます。
今後の研究では、特定された州と AEP の空間変動を評価するために、季節変化データに対して SAGE 手法を再利用する予定です。将来の目標は、この方法を使用して、衛星測定(Chl-a、リモートセンシング反射率、海面温度など)を通じてどの州を特定できるかを決定するのに役立つことです。これにより、生態学的要素のリモートセンシング評価と、生態学的地域とその変動性の非常に柔軟なモニタリングが可能になります。
この研究の目的は、ユニークなプランクトン群集構造を通じて生態学的州を定義する SAGE 手法を導入することです。ここでは、物理/生物地球化学/生態系モデルと、t-SNE および DBSCAN アルゴリズムのパラメーター選択に関するより詳細な情報が提供されます。
モデルの物理的コンポーネントは、海洋循環と気候の推定から得られます [ECCOv4;(37) (38) で説明されるグローバル状態推定。状態推定の公称解像度は 1/5 です。ラグランジュ乗数法を備えた最小二乗法を使用して、初期条件と境界条件、および観測によって調整された内部モデル パラメーターを取得し、それによって自走 MIT 一般サイクル モデル (MITgcm) (39) を生成します。最適化後のモデルは、次のようになります。追跡され、観察される。
生物地球化学/生態系については、(2) でより完全な説明 (つまり、方程式とパラメーター値) が説明されています。このモデルは、無機池と有機池を通る C、N、P、Si、Fe の循環を捉えます。ここで使用されるバージョンには、35 種の植物プランクトンが含まれています: 2 種の微原核生物と 2 種の微小真核生物 (低栄養環境に適しています)、5 種のクリプトモナス スフェロイデス (炭酸カルシウムでコーティング)、5 種のジアゾニウム (窒素を固定できるため、溶存無機窒素の利用可能性)、11 個の珪藻(珪質の覆いを形成する)、10 個の混合栄養鞭毛虫(光合成して他のプランクトンを食べることができる)、および 16 個の動物プランクトン(他のプランクトンを食べる)など、制限はありません。これらは海洋生物地球化学にさまざまな影響を与えるため「生物地球化学官能基」と呼ばれ (40, 41)、観察や模型研究でよく使用されます。このモデルでは、各官能基は、球相当直径 0.6 ~ 2500 μm の範囲を持つ、異なるサイズの複数のプランクトンで構成されています。
植物プランクトンの成長、放牧、沈下に影響を与えるパラメーターはサイズに関連しており、6 つの植物プランクトンの機能グループ間には特有の違いがあります (32)。物理的な枠組みが異なるにもかかわらず、モデルの 51 個のプランクトン コンポーネントの結果は、多くの最近の研究で使用されています (42-44)。
1992 年から 2011 年まで、物理/生物地球化学/生態系結合モデルは 20 年間実行されました。モデルの出力には、プランクトン バイオマス、栄養素濃度、栄養素供給率 (DIN、PO4、Si、Fe) が含まれます。この研究では、これらの産出量の 20 年間の平均が生態省の投入量として使用されました。Chl、プランクトンのバイオマスと栄養塩濃度の分布、および官能基の分布は、衛星および現場観察と比較されます[(2, 44)、注S1および図を参照。S1~S3]。
SAGE 法の場合、ランダム性の主な原因は t-SNE ステップにあります。ランダム性は再現性を妨げ、結果の信頼性が低くなります。SAGE メソッドは、t-SNE と DBSCAN の一連のパラメーターを決定することによって堅牢性を厳密にテストします。これにより、反復時にクラスターを一貫して識別できます。t-SNE パラメータの「複雑さ」を決定することは、高次元から低次元へのマッピングがデータのローカルまたはグローバル特性をどの程度尊重するかを決定することとして理解できます。反復回数 400 回と 300 回の混乱に達しました。
クラスタリング アルゴリズム DBSCAN の場合、クラスター内のデータ ポイントの最小サイズと距離メトリックを決定する必要があります。最小数は専門家の指導の下で決定されます。この知識により、現在の数値モデリング フレームワークと解像度に何が適合するかがわかります。最小値は 100 です。より高い最小値 (緑の上限が広くなる前に 135 未満) も考慮できますが、BC の相違度に基づく集計方法を置き換えることはできません。接続度 (図 6A) は、より高いカバレッジ (図 6B) に役立つ ϵ パラメーターの設定に使用されます。接続性はクラスターの合成数として定義され、ϵ パラメーターの影響を受けます。接続性が低い場合は、フィッティングが不十分で、領域が人為的にグループ化されていることを示します。接続性が高い場合は、過剰適合を示します。過剰適合にも問題があります。これは、初期のランダムな推測が再現不可能な結果につながる可能性があることを示しているためです。これら 2 つの極端な値の間で、急激な増加 (通常は「エルボ」と呼ばれます) が最良の ϵ を示します。図 6A では、プラトー領域が急激に増加し (黄色、クラスター 200 個を超える)、その後急激に減少し (クラスター 100 個)、最大約 130 まで減少し、非常に少数のクラスター (青色、クラスター <60 個) に囲まれていることがわかります。 )。少なくとも 100 の青い領域では、1 つのクラスターが海洋全体を支配するか (ϵ <0.42)、海洋の大部分が分類されずノイズとみなされます (ϵ> 0.99)。黄色の領域には、非常に変動性が高く、再現不可能なクラスター分布があります。ϵ が減少すると、ノイズが増加します。急激に増加する緑色の領域はエルボと呼ばれます。これは最適な領域です。確率 t-SNE が使用されますが、信頼できるクラスタリングを決定するために州内の BC の相違度を使用することもできます。図 6 (A および B) を使用して、ϵ を 0.39 に設定します。最小値が大きいほど、信頼性の高い分類を可能にする ϵ に到達する確率は小さくなり、値が 135 を超える緑色の領域が大きくなります。この領域の拡大は、肘を見つけるのがより困難になるか、肘を見つけることが困難になることを示します。存在する。
t-SNE のパラメータを設定した後、検出されたクラスターの総数が接続性 (A) およびクラスターに割り当てられたデータのパーセンテージ (B) の尺度として使用されます。赤い点は、カバレッジと接続の最適な組み合わせを示します。最小数は、エコロジーに関する最小数に応じて設定されます。
この記事の補足資料については、http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1 を参照してください。
これは、クリエイティブ コモンズ表示ライセンスの条件に基づいて配布されるオープン アクセスの記事です。この記事は、オリジナルの著作物が適切に引用されているという条件の下で、あらゆる媒体での無制限の使用、配布、複製を許可しています。
注: ページを推薦する人に、その電子メールを見てもらいたいこと、およびその電子メールがスパムではないことを知らせるために、電子メール アドレスの入力のみをお願いします。電子メール アドレスを取得することはありません。
この質問は、あなたが訪問者であるかどうかをテストし、スパムの自動送信を防ぐために使用されます。
世界海洋生態省は複雑な問題を解決することを決意しており、教師なし ML を使用してコミュニティ構造を調査しています。
世界海洋生態省は複雑な問題を解決することを決意しており、教師なし ML を使用してコミュニティ構造を調査しています。


投稿時間: 2021 年 1 月 12 日