플랑크톤 군집 구조와 영양분 플럭스 데이터를 기반으로 전 세계 해양 생태 지역(생태 지역)을 결정하기 위한 비지도 학습 방법이 제안되었습니다.체계적인 통합 생태 지역(SAGE) 방법은 고도로 비선형적인 생태계 모델에서 생태 지역을 식별할 수 있습니다.데이터의 비가우스 공분산에 적응하기 위해 SAGE는 t-SNE(Random Neighbor Embedding)를 사용하여 차원을 줄입니다.밀도 기반 공간 클러스터링(DBSCAN) 알고리즘을 기반으로 한 소음 적용을 통해 100개가 넘는 생태 지역을 식별할 수 있습니다.생태적 차이가 있는 연결 맵을 거리 측정값으로 사용하여 견고한 집계 생태 지역(AEP)은 중첩된 생태 지역을 통해 객관적으로 정의됩니다.AEP를 사용하여 지역 사회 구조에 대한 영양 공급 속도 제어를 탐구했습니다.Eco-province와 AEP는 독특하며 모델 해석에 도움이 될 수 있습니다.이는 모델 간의 비교를 용이하게 하고 해양 생태계에 대한 이해와 모니터링을 향상시킬 수 있습니다.
지방(Province)은 바다나 육지의 복잡한 생물지리학이 일관되고 의미 있는 지역으로 조직된 지역이다(1).이러한 지역은 위치를 비교 및 대조하고, 관찰을 특성화하고, 모니터링 및 보호하는 데 매우 중요합니다.이러한 지역을 생성하는 복잡하고 비선형적인 상호 작용은 데이터의 공분산이 복잡하고 비가우시안이기 때문에 비지도 기계 학습(ML) 방법을 객관적으로 결정하는 데 매우 적합합니다.여기서는 다윈 글로벌 3차원(3D) 물리적/생태계 모델(2)에서 고유한 해양 생태 지역(생태 지역)을 체계적으로 식별하는 ML 방법을 제안합니다."고유"라는 용어는 식별된 영역이 다른 영역과 충분히 겹치지 않음을 나타내는 데 사용됩니다.이 방법을 SAGE(System Integrated Ecological Province) 방법이라고 합니다.유용한 분류를 수행하기 위해서는 (i) 전역 분류와 (ii) 공간과 시간에 중첩/집합될 수 있는 다중 규모 분석이 가능한 알고리즘 방법이 필요합니다(3).본 연구에서는 SAGE 방법을 먼저 제안하고 확인된 생태학적 영역에 대해 논의하였다.생태지역은 커뮤니티 구조를 제어하는 요소에 대한 이해를 촉진하고, 모니터링 전략에 유용한 통찰력을 제공하며, 생태계의 변화를 추적하는 데 도움을 줄 수 있습니다.
육상 지역은 일반적으로 기후(강수량 및 온도), 토양, 식생 및 동물상의 유사성에 따라 분류되며 보조 관리, 생물 다양성 연구 및 질병 통제에 사용됩니다(1, 4).해양 지역은 정의하기가 더 어렵습니다.대부분의 유기체는 유체 경계가 있는 미세한 유기체입니다.Longhurstet al.(5) 환경 조건을 기반으로 해양부의 최초 글로벌 분류 중 하나를 제공했습니다.이러한 "롱허스트" 지역의 정의에는 혼합 비율, 성층화, 복사조도와 같은 변수뿐만 아니라 해양 생태계에 대한 다른 중요한 조건을 갖고 있는 해양 해양학자로서 Longhurst의 광범위한 경험도 포함됩니다.예를 들어 Longhurst는 1차 생산 및 탄소 플럭스 평가, 어업 지원, 현장 관찰 활동 계획 등에 광범위하게 사용되었습니다(5-9).지역을 보다 객관적으로 정의하기 위해 퍼지논리, 지역적 무감독 군집화/통계 등의 방법이 사용되었다(9-14).이러한 방법의 목적은 이용 가능한 관측 데이터에서 지역을 식별할 수 있는 의미 있는 구조를 식별하는 것입니다.예를 들어, 동적 해양 지역(12)은 자기 조직화 지도를 사용하여 노이즈를 줄이고 계층적(트리 기반) 클러스터링을 사용하여 지역 위성[엽록소 a(Chl-a), 정규화된 형광선 높이 및 착색된 용해 유기물] 및 물리적 장(해수면 온도 및 염도, 절대 동적 지형 및 해빙).
플랑크톤의 군집 구조는 플랑크톤의 생태가 더 높은 영양 수준, 탄소 흡수 및 기후에 큰 영향을 미치기 때문에 우려됩니다.그럼에도 불구하고 플랑크톤 군집 구조를 기반으로 지구 생태 지역을 결정하는 것은 여전히 어렵고 어려운 목표입니다.해양 컬러 위성은 잠재적으로 식물성 플랑크톤의 대략적인 분류에 대한 통찰력을 제공하거나 기능 그룹의 장점을 제안할 수 있지만(15), 현재는 군집 구조에 대한 자세한 정보를 제공할 수 없습니다.최근 조사[예: Tara Ocean(16)]에서는 커뮤니티 구조에 대한 전례 없는 측정 결과를 제공하고 있습니다.현재 전 세계적으로 현장 관측이 드물다(17).이전 연구에서는 주로 생화학적 유사성(예: 1차 생산, Chl 및 이용 가능한 빛) 결정을 기반으로 "생지화학적 영역"(12, 14, 18)을 결정했습니다.여기서는 수치모델을 이용하여 [Darwin(2)]을 출력하고, 군집 구조와 영양분 흐름에 따라 생태적 영역이 결정된다.본 연구에 사용된 수치 모델은 전 세계적으로 적용되며 기존 현장 데이터(17) 및 원격 감지 필드(참고 S1)와 비교할 수 있습니다.본 연구에서 사용된 수치모델 데이터는 글로벌 커버리지라는 장점을 가지고 있다.모델생태계는 식물성플랑크톤 35종, 동물플랑크톤 16종으로 구성되어 있습니다(재료 및 방법 참조).모델 플랑크톤 유형은 비가우시안 공분산 구조와 비선형적으로 상호 작용하므로 간단한 진단 방법은 신흥 군집 구조에서 독특하고 일관된 패턴을 식별하는 데 적합하지 않습니다.여기에 소개된 SAGE 방법은 복잡한 Darwin 모델의 출력을 확인하는 새로운 방법을 제공합니다.
데이터 과학/ML 기술의 강력한 혁신 기능을 통해 엄청나게 복잡한 모델 솔루션을 통해 데이터 공분산에서 복잡하지만 강력한 구조를 밝힐 수 있습니다.견고한 방법은 주어진 오류 범위 내에서 결과를 충실하게 재현할 수 있는 방법으로 정의됩니다.단순한 시스템에서도 강력한 패턴과 신호를 결정하는 것은 어려울 수 있습니다.관찰된 패턴으로 이어지는 이론적 근거가 결정될 때까지 새로 나타나는 복잡성은 해결하기 복잡하거나 어려워 보일 수 있습니다.생태계 구성을 설정하는 핵심 과정은 본질적으로 비선형적입니다.비선형 상호 작용의 존재는 강력한 분류를 혼란스럽게 할 수 있으므로 데이터 공분산의 기본 통계 분포에 대해 강력한 가정을 하는 방법을 피해야 합니다.고차원 및 비선형 데이터는 해양학에서 일반적이며 복잡하고 비가우시안 위상을 갖는 공분산 구조를 가질 수 있습니다.비가우스 공분산 구조를 가진 데이터는 강력한 분류를 방해할 수 있지만 SAGE 방법은 임의의 토폴로지를 사용하여 클러스터를 식별하도록 설계되었기 때문에 참신합니다.
SAGE 방법의 목표는 생태학적 이해를 높이는 데 도움이 될 수 있는 새로운 패턴을 객관적으로 식별하는 것입니다.(19)와 유사한 클러스터 기반 작업흐름에 따라 생태학적 및 영양분 플럭스 변수는 생태학적 영역이라고 불리는 데이터의 유일한 클러스터를 결정하는 데 사용됩니다.본 연구에서 제안된 SAGE 방법(그림 1)은 먼저 선험적으로 정의된 플랑크톤 작용기를 합산하여 차원을 55차원에서 11차원으로 줄입니다(재료 및 방법 참조).t-SNE(t-random neighbor embedding) 방법을 사용하여 확률을 3차원 공간에 투영하여 크기를 더욱 줄입니다.감독되지 않은 클러스터링은 생태학적으로 가까운 영역[소음 기반 애플리케이션을 위한 밀도 기반 공간 클러스터링(DBSCAN)]을 식별할 수 있습니다.t-SNE와 DBSCAN은 모두 고유의 비선형 생태계 수치 모델 데이터에 적용 가능합니다.그런 다음 결과적인 생태적 영역을 지구에 재투영합니다.지역 연구에 적합한 100개 이상의 독특한 생태 지역이 확인되었습니다.전 세계적으로 일관된 생태계 모델을 고려하기 위해 SAGE 방법을 사용하여 생태 영역을 집계 생태 영역(AEP)으로 집계하여 생태 영역의 효율성을 향상시킵니다.집계 수준("복잡성"이라고 함)은 필요한 세부 수준에 맞게 조정될 수 있습니다.강력한 AEP의 최소 복잡성을 결정합니다.선택의 초점은 SAGE 방법과 가장 복잡한 AEP 사례를 탐색하여 비상 커뮤니티 구조의 제어를 결정하는 것입니다.그런 다음 패턴을 분석하여 생태학적 통찰력을 제공할 수 있습니다.여기에 소개된 방법은 모델을 비교하기 위해 서로 다른 모델에서 발견된 유사한 생태학적 영역의 위치를 평가하여 차이점과 유사점을 강조함으로써 모델 비교에 보다 광범위하게 사용될 수도 있습니다.
(A) 생태적 영역을 결정하기 위한 워크플로우의 개략도;기능 그룹의 합을 사용하여 원래 55차원 데이터를 7가지 기능성/영양소 플랑크톤의 바이오매스와 4가지 영양분 공급 속도를 포함하는 11차원 모델 출력으로 축소합니다.무시할 수 있는 가치와 내구성 있는 얼음 덮개 영역.데이터는 표준화되고 표준화되었습니다.t-SNE 알고리즘에 11차원 데이터를 제공하여 통계적으로 유사한 특징 조합을 강조합니다.DBSCAN은 매개변수 값을 설정할 클러스터를 신중하게 선택합니다.마지막으로 데이터를 위도/경도 투영으로 다시 투영합니다.t-SNE를 적용하면 약간의 무작위성이 발생할 수 있으므로 이 과정을 10번 반복한다는 점에 유의하세요.(B)는 (A)의 작업흐름을 10회 반복하여 AEP를 얻는 방법을 설명합니다.이러한 10가지 구현 각각에 대해 주 간 Bray-Curtis(BC) 비유사성 매트릭스는 51가지 식물성 플랑크톤 유형의 바이오매스를 기반으로 결정되었습니다.복잡성 1 AEP에서 전체 복잡성 115까지 주 간의 BC 차이를 결정합니다. BC 벤치마크는 Longhurst Province에서 설정합니다.
SAGE 방법은 전 세계 3D 물리적/생태계 수치 모델의 출력을 사용하여 생태학적 영역을 정의합니다 [Darwin (2);재료 및 방법 및 참고 S1 참조].생태계의 구성 요소는 35종의 식물성 플랑크톤과 16종의 동물성 플랑크톤으로 구성되어 있으며, 저영양 환경에 적응한 원핵생물과 진핵생물, 탄산칼슘으로 코팅된 콕시디아, 중질소 고정 질소 영양소(보통 누락됨) 등 미리 정의된 7가지 기능 그룹이 있습니다. 중요한 영양소)는 규산질로 덮여 있어 다른 플랑크톤 광합성을 할 수 있고 혼합 영양 편모충과 동물성 플랑크톤 목자를 방목할 수 있습니다.크기 범위는 0.6 ~ 2500μm 상당 구형 직경입니다.식물성 플랑크톤 크기와 기능적 그룹화의 모델 분포는 위성 및 현장 관측에서 볼 수 있는 전반적인 특성을 포착합니다(그림 S1 ~ S3 참조).수치모델과 관측된 해양 사이의 유사성은 모델에 의해 정의된 지역이 현장 해양에 적용될 수 있음을 나타냅니다.이 모델은 식물성 플랑크톤의 특정 다양성과 현장 해양의 특정 물리적, 화학적 강제 범위만 포착한다는 점에 유의하십시오.SAGE 방법을 사용하면 사람들은 모델 커뮤니티 구조의 고도로 지역적인 제어 메커니즘을 더 잘 이해할 수 있습니다.
각 플랑크톤 기능 그룹에 표면 바이오매스의 합계(평균 20년)만 포함하면 데이터의 차원성이 줄어들 수 있습니다.초기 연구에서 군집 구조를 설정하는 데 중요한 역할을 한 후에 여기에는 영양분 플럭스(질소, 철, 인산염 및 규산 공급)에 대한 표면 소스 용어도 포함되었습니다[예: (20, 21)].작용기의 합은 문제를 55차원(플랑크톤 51개와 영양분 플럭스 4개)에서 11차원으로 줄입니다.이 초기 연구에서는 알고리즘에 의해 부과된 계산 제약으로 인해 깊이와 시간 변동성은 고려되지 않았습니다.
SAGE 방법은 비선형 프로세스 사이의 중요한 관계와 기능성 그룹 바이오매스와 영양분 플럭스 간의 상호 작용의 주요 특징을 식별할 수 있습니다.유클리드 원격 학습 방법(예: K-평균)을 기반으로 하는 11차원 데이터를 사용하면 신뢰할 수 있고 재현 가능한 영역을 얻을 수 없습니다(19, 22).이는 생태적 영역을 정의하는 핵심 요소의 공분산의 기본 분포에서 가우스 형태가 발견되지 않기 때문입니다.보로노이 셀(직선)의 K-평균은 비가우시안 기본 분포를 유지할 수 없습니다.
7개의 플랑크톤 작용기의 바이오매스와 4개의 영양 플럭스가 11차원 벡터 x를 형성합니다.따라서 x는 모델 격자의 벡터 필드입니다. 여기서 각 요소 xi는 모델 수평 격자에 정의된 11차원 벡터를 나타냅니다.각 인덱스 i는 (lon, lat) = (ψi, θi)인 구의 그리드 점을 고유하게 식별합니다.모델 그리드 단위의 바이오매스가 1.2×10-3mg Chl/m3 미만이거나 얼음 피복률이 70%를 초과하는 경우 바이오매스 데이터 로그를 사용하고 폐기합니다.데이터는 정규화 및 표준화되어 있으므로 모든 데이터는 [0~1] 범위에 있으며 평균은 제거되고 단위 분산으로 조정됩니다.이는 특성(바이오매스와 영양분 플럭스)이 가능한 값 범위의 대비에 의해 제한되지 않도록 수행됩니다.클러스터링은 지리적 거리가 아닌 피처 간의 주요 확률 거리에서 변화 관계를 포착해야 합니다.이러한 거리를 정량화하면 중요한 특징이 드러나고 불필요한 세부 사항은 삭제됩니다.생태학적 관점에서 볼 때, 이는 바이오매스가 거의 없는 일부 유형의 식물성 플랑크톤이 디아조영양 박테리아에 의한 질소 고정과 같은 더 큰 생지화학적 효과를 가질 수 있기 때문에 필요합니다.데이터를 표준화하고 정규화할 때 이러한 유형의 공변량이 강조 표시됩니다.
t-SNE 알고리즘은 저차원 표현에서 고차원 공간의 특징의 근접성을 강조함으로써 기존 유사 영역을 보다 명확하게 만드는 데 사용됩니다.원격 감지 애플리케이션을 위한 심층 신경망 구축을 목표로 한 이전 작업에서는 t-SNE를 사용하여 주요 기능을 분리하는 기술을 입증했습니다(23).이는 비수렴 솔루션을 피하면서 기능 데이터에서 강력한 클러스터링을 식별하는 데 필요한 단계입니다(참고 S2).t-SNE는 Gaussian 커널을 사용하여 각 고차원 객체를 3D 위상 공간의 한 지점에 매핑하여 데이터의 통계적 속성을 보존함으로써 높은 방향과 낮은 방향에서 유사한 객체가 나타날 확률이 높다는 것을 보장합니다. 차원 공간(24).N개의 고차원 객체 세트 x1,…,xN이 주어지면 t-SNE 알고리즘은 Kullback-Leibler(KL) 발산을 최소화하여 감소합니다(25).KL 발산은 확률 분포가 두 번째 기준 확률 분포와 얼마나 다른지 측정하는 것으로, 고차원 특징의 저차원 표현 간의 상관 가능성을 효과적으로 평가할 수 있습니다.xi가 N차원 공간의 i번째 객체이고, xj가 N차원 공간의 j번째 객체이고, yi가 저차원 공간의 i번째 객체이고, yj가 저차원 공간의 j번째 객체라고 하면 -차원 공간인 경우 t -SNE는 유사 확률 ppj∣i = exp(-|xi-xj||2/2σi2)∑k≠iexp(-||xi-xk|2/2σi2)를 정의하고 차원 감소 세트에 대해 q∣j = (1+ Bu yi-yj 2)-1∑k≠i(1 + yj-yk 2)-1
그림 2A는 11차원 조합의 바이오매스와 영양분 플럭스 벡터를 3D로 감소시키는 효과를 보여줍니다.t-SNE를 적용한 동기는 분산 속성을 사용하여 데이터의 영역/속성을 강조하여 차원을 줄이는 주성분 분석(PCA)의 동기와 비교할 수 있습니다.t-SNE 방법은 환경부(Eco-Ministry)에 신뢰할 수 있고 재현 가능한 결과를 제공한다는 점에서 PCA보다 우수한 것으로 밝혀졌습니다(참고 S2 참조).이는 PCA가 선형 공분산 구조(26)에 중점을 두기 때문에 PCA의 직교성 가정이 고도로 비선형적인 상호 작용 기능 간의 중요한 상호 작용을 식별하는 데 적합하지 않기 때문일 수 있습니다.원격 감지 데이터를 사용하여 Lunga et al.(27)은 SNE 방법을 사용하여 가우스 분포에서 벗어나는 복잡하고 비선형 스펙트럼 특징을 강조하는 방법을 보여줍니다.
(A) 모델링된 영양분 공급률, 식물성 플랑크톤 및 동물성 플랑크톤 작용기 바이오매스는 t-SNE 알고리즘으로 그려지고 DBSCAN을 사용하여 지역별로 색상이 지정됩니다.각 점은 그림 6B에 표시된 것처럼 고차원 공간의 점을 나타내며 대부분의 점이 캡처됩니다.샤프트는 "t-SNE" 크기 1, 2 및 3을 나타냅니다. (B) DBSCAN이 원점의 위도-경도 그리드에서 찾은 지역의 지리적 투영입니다.색상은 모든 색상으로 간주하되 (A)에 해당해야 합니다.
그림 2A의 t-SNE 분산형 플롯의 점은 각각 위도 및 경도와 연관되어 있습니다.그림 2A의 두 지점이 서로 가깝다면 이는 지리적 근접성 때문이 아니라 바이오매스와 영양분 플럭스가 유사하기 때문입니다.그림 2A의 색상은 DBSCAN 방법을 사용하여 발견된 클러스터입니다(28).조밀한 관찰을 찾을 때 DBSCAN 알고리즘은 점 사이의 3D 표현 거리(ϵ = 0.39; 이 선택에 대한 자세한 내용은 재료 및 방법 참조)를 사용하며 클러스터를 정의하려면 유사한 점의 수가 필요합니다(여기에서는 100점, 위 내용을 참조하세요).DBSCAN 방법은 아래와 같이 데이터의 클러스터 모양이나 수에 대해 어떠한 가정도 하지 않습니다.
3) 거리 내에 있는 것으로 식별된 모든 포인트에 대해 2단계를 반복적으로 반복하여 클러스터 경계를 결정합니다.포인트 개수가 설정된 최소값보다 클 경우 클러스터로 지정됩니다.
최소 클러스터 구성원 및 거리 ϵ 메트릭을 충족하지 않는 데이터는 "노이즈"로 간주되어 색상이 할당되지 않습니다.DBSCAN은 최악의 경우 O(n2) 성능을 제공하는 빠르고 확장 가능한 알고리즘입니다.현재 분석에서는 실제로 무작위가 아닙니다.최소 점수는 전문가 평가를 통해 결정됩니다.이후 거리를 조정한 결과 ≒±10 범위에서는 결과가 충분히 안정적이지 않습니다.이 거리는 연결성(그림 6A)과 해양 범위 비율(그림 6B)을 사용하여 설정됩니다.연결성은 클러스터의 복합 수로 정의되며 ϵ 매개변수에 민감합니다.연결성이 낮으면 피팅이 충분하지 않아 영역을 인위적으로 그룹화한다는 의미입니다.높은 연결성은 과적합을 나타냅니다.더 높은 최소값을 사용하는 것이 가능하지만 최소값이 ca를 초과하면 신뢰할 수 있는 솔루션을 얻는 것이 불가능합니다.135 (자세한 내용은 재료 및 방법 참조).
그림 2A에서 식별된 115개 클러스터는 그림 2B에서 지구로 다시 투영됩니다.각 색상은 DBSCAN으로 식별된 생지화학적 요인과 생태학적 요인의 일관된 조합에 해당합니다.클러스터가 결정되면 그림 2A의 각 지점과 특정 위도 및 경도의 연관성을 사용하여 클러스터를 지리적 영역에 다시 투영합니다.그림 2B에서는 그림 2A와 동일한 클러스터 색상을 사용하여 이를 보여줍니다.유사한 색상은 알고리즘에 의해 클러스터가 발견되는 순서에 따라 할당되므로 생태학적 유사성으로 해석되어서는 안 됩니다.
그림 2B의 영역은 해양의 물리적 및/또는 생지화학 분야에서 확립된 영역과 질적으로 유사할 수 있습니다.예를 들어, 남극해의 성단은 구역 대칭을 이루고 있으며 빈영양 소용돌이가 나타나며 급격한 변화는 무역풍의 영향을 나타냅니다.예를 들어 적도 태평양에서는 상승과 관련된 다양한 지역이 보입니다.
Eco-Province의 생태환경을 이해하기 위해 Bray-Curtis(BC) 차이지수(29)의 변형을 사용하여 클러스터 내 생태를 평가하였다.BC 지표는 서로 다른 두 사이트 간의 커뮤니티 구조 차이를 정량화하는 데 사용되는 통계 데이터입니다.BC 측정은 식물성 플랑크톤과 동물성 플랑크톤 51종의 바이오매스에 적용 가능 BCninj = 1-2CninjSni + Snj
BCninj는 ni 조합과 nj 조합 사이의 유사성을 나타내며, 여기서 Cninj는 ni와 nj 조합 모두에 존재하는 단일 유형의 바이오매스의 최소값이고, Sni는 ni와 Snj 조합에 모두 존재하는 모든 바이오매스의 합을 나타냅니다.BC 차이는 거리 측정과 유사하지만 비유클리드 공간에서 작동하므로 생태 데이터 및 해석에 더 적합할 가능성이 높습니다.
그림 2B에서 확인된 각 클러스터에 대해 주 내 및 주 간 BC의 유사성을 평가할 수 있습니다.지방 내 BC 차이는 해당 지방의 평균값과 해당 지방의 각 지점 간의 차이를 의미합니다.BC 주 간의 차이점은 한 주와 다른 주 간의 유사성을 나타냅니다.그림 3A는 대칭 BC 행렬을 보여줍니다(0, 검정색: 완전히 일치함, 1, 흰색: 완전히 다름).그래프의 각 선은 데이터의 패턴을 보여줍니다.그림 3B는 각 주별 그림 3A의 BC 결과의 지리적 중요성을 보여줍니다.저영양 및 저영양 지역에 있는 지방의 경우 그림 3B는 적도와 인도양 주변의 넓은 지역의 대칭이 기본적으로 유사하지만 고위도와 용승 지역이 상당히 다르다는 것을 보여줍니다.
(A) 전 세계 20년 평균 전 세계 표면 평균 51개 플랑크톤을 기준으로 각 지방에 대해 평가된 BC 차이 정도.예상되는 값의 대칭성을 확인하세요.(B) 열(또는 행)의 공간 투영입니다.영양 장애가 있는 지역에 대해 BC 유사성 측정값의 글로벌 분포를 평가하고 글로벌 20년 평균을 평가했습니다.검정색(BC = 0)은 동일한 면적을 의미하고, 흰색(BC = 1)은 유사성이 없음을 의미합니다.
그림 4A는 그림 2B의 각 주 내 BC의 차이를 보여줍니다.군집 내 평균 면적의 평균 조합을 이용하여 BC와 지방 내 각 그리드 포인트의 평균 간의 상이성을 구한 결과, SAGE 방법이 생태학적 유사성을 기준으로 51종을 잘 분리할 수 있음을 보여주었다. 모델 데이터.전체 51개 유형의 전체 평균 클러스터 BC 비유사도는 0.102±0.0049입니다.
(A, B, D) 지방 내 BC 차이는 각 그리드 포인트 커뮤니티와 평균 지방 간의 평균 BC 차이로 평가되며 복잡성은 줄어들지 않습니다.(2) 전 세계 평균 주내 BC 차이는 0.227±0.117이다.이는 본 연구에서 제안한 생태학적 동기 기반 분류의 벤치마크이다[(C)의 녹색 선].(C) 평균 주내 BC 차이: 검은색 선은 복잡성이 증가함에 따라 주내 BC 차이를 나타냅니다.2σ는 생태지역 식별 과정을 10번 반복하여 생성됩니다.DBSCAN이 발견한 지방의 전체 복잡도에 대해 (A)는 해당 지방의 BC 비유사도가 0.099이고, (C)가 제안한 복잡도 분류는 12로 해당 지방의 BC 비유사도가 0.200임을 나타냅니다.그림이 보여주는 것처럼.(디).
그림 4B에서는 51개 플랑크톤 유형의 바이오매스가 Longhurst 지방의 동등한 BC 차이를 나타내는 데 사용됩니다.각 주 전체 평균은 0.227이고, BC주 차이를 기준으로 한 격자점의 표준편차는 0.046이다.이는 그림 1B에서 식별된 클러스터보다 큽니다.대신, 7개 기능 그룹의 합을 사용하여 Longhurst의 시즌 내 평균 BC 비유사도는 0.232로 증가했습니다.
글로벌 생태 지역 지도는 독특한 생태학적 상호 작용에 대한 복잡한 세부 정보를 제공하며 롱허스트 지역의 전체 생태계 구조를 사용하여 개선이 이루어졌습니다.생태부는 수치모델 생태계를 제어하는 과정에 대한 통찰력을 제공할 것으로 기대되며, 이러한 통찰력은 현장 작업 탐색에 도움이 될 것입니다.본 연구의 목적상 100개가 넘는 지역을 모두 표시하는 것은 불가능합니다.다음 섹션에서는 지방을 요약하는 SAGE 방법을 소개합니다.
지방의 목적 중 하나는 지방의 위치와 관리에 대한 이해를 높이는 것입니다.긴급 상황을 결정하기 위해 그림 1B의 방법은 생태학적으로 유사한 지역의 중첩을 보여줍니다.생태지역은 생태학적 유사성을 기준으로 그룹화되며, 이러한 지역 그룹을 AEP라고 합니다.고려할 총 지역 수에 따라 조정 가능한 "복잡성"을 설정하십시오.“복잡성”이라는 용어는 긴급 속성의 수준을 조정할 수 있기 때문에 사용됩니다.의미 있는 집계를 정의하기 위해 Longhurst와의 평균 주 내 BC 차이 0.227이 벤치마크로 사용됩니다.이 기준 이하에서는 결합된 지역이 더 이상 유용한 것으로 간주되지 않습니다.
그림 3B에서 볼 수 있듯이 전 세계 생태 지역은 일관성이 있습니다.BC주 간 차이를 이용하면 일부 구성이 매우 "공통적"이라는 것을 알 수 있습니다.유전학과 그래프 이론 방법에서 영감을 받은 "연결된 그래프"는 가장 유사한 지역을 기준으로 100개 이상의 지역을 정렬하는 데 사용됩니다.여기서 "연결성" 측정 기준은 BC 주 간 차이점을 사용하여 결정됩니다(30).100개 이상의 지방으로 분류하기 위한 더 큰 공간을 가진 지방의 수는 여기서 복잡성이라고 할 수 있습니다.AEP는 100개 이상의 지역을 가장 지배적/가장 가까운 생태 지역으로 분류하는 제품입니다.각 생태 지역은 가장 유사한 지배적/연결성이 높은 생태 지역에 할당됩니다.BC 차이에 의해 결정되는 이러한 집계는 지구 생태계에 대한 중첩된 접근 방식을 허용합니다.
선택된 복잡도는 1부터 도 1의 완전한 복잡도까지의 임의의 값일 수 있다.2A.복잡성이 낮을수록 AEP는 확률적 차원 축소 단계(t-SNE)로 인해 퇴화될 수 있습니다.퇴화는 생태학적 영역이 반복 간에 서로 다른 AEP에 할당되어 적용되는 지리적 영역이 변경될 수 있음을 의미합니다.그림 4C는 10개 구현에 걸쳐 복잡성이 증가하는 AEP의 주 내 BC 차이점의 확산을 보여줍니다(그림 1B의 그림).그림 4C에서 2σ(파란색 영역)는 10개 구현의 성능 저하 측정값이고 녹색 선은 Longhurst 벤치마크를 나타냅니다.사실은 12의 복잡성이 모든 구현에서 Longhurst 벤치마크 아래 지방의 BC 차이를 유지하고 상대적으로 작은 2σ 저하를 유지할 수 있음을 입증했습니다.요약하면, 최소 권장 복잡성은 12개의 AEP이고, 51개의 플랑크톤 유형을 사용하여 평가된 BC 주 내 평균 차이는 그림 4D와 같이 0.198±0.013입니다.7개의 플랑크톤 기능 그룹의 합을 사용하면 지방 내 평균 BC 차이는 0.198±0.004가 아닌 2σ입니다.7개 관능기의 총 바이오매스 또는 51개 플랑크톤 유형 전체의 바이오매스로 계산된 BC 차이를 비교하면 SAGE 방법이 51차원 상황에 적용 가능하지만 7개 관능기의 총 바이오매스에 대한 것임을 알 수 있습니다. 훈련용.
연구 목적에 따라 다양한 수준의 복잡성이 고려될 수 있습니다.지역 연구에는 완전한 복잡성(즉, 115개 주 모두)이 필요할 수 있습니다.예를 들어 명확성을 위해 최소 권장 복잡도인 12를 고려하십시오.
SAGE 방법의 유용성에 대한 예로, 최소 복잡도가 12인 12개의 AEP가 여기에서 비상 커뮤니티 구조의 제어를 탐색하는 데 사용됩니다.그림 5는 AEP(A에서 L)로 그룹화된 생태학적 통찰력을 보여줍니다. Redfield 화학량론에서 지리적 범위(그림 5C), 기능기 바이오매스 구성(그림 5A) 및 영양분 공급(그림 5B)은 N Zoomed에 의해 수행됩니다.비율(N:Si:P:Fe, 1:1:16:16×103)이 표시됩니다.후자 패널의 경우 P에 16을 곱하고 Fe에 16×103을 곱하므로 막대 그래프는 식물성 플랑크톤의 영양 요구 사항과 동일합니다.
지방은 A부터 L까지 12개의 AEP로 분류됩니다. (A) 12개 지방의 생태계 바이오매스(mgC/m3).(B) 용해된 무기질소(N), 철(Fe), 인산염(P) 및 규산(Si)의 영양분 유량(mmol/m3/년).Fe와 P에 각각 16과 16×103을 곱하여 스트립이 식물성 플랑크톤 화학양론 요구 사항에 맞게 표준화되었습니다.(C) 극지방, 아열대 저기압 및 주요 계절/상승 지역 간의 차이에 주목하십시오.모니터링 스테이션은 다음과 같이 표시됩니다: 1, SEATS;2, 알로하;3, 스테이션 P;4, 박쥐.
식별된 AEP는 고유합니다.대서양과 태평양의 적도 주위에는 어느 정도 대칭이 있으며, 인도양에도 유사하지만 확대된 지역이 존재합니다.일부 AEP는 상승과 관련된 대륙의 서쪽을 포함합니다.남극 순환 전류는 큰 구역 특징으로 간주됩니다.아열대 저기압은 소수 영양 AEP의 복잡한 계열입니다.이 지역에서는 플랑크톤이 지배하는 빈영양 소용돌이와 규조류가 풍부한 극지방 사이의 바이오매스 차이에 대한 친숙한 패턴이 분명합니다.
매우 유사한 총 식물성 플랑크톤 바이오매스를 갖는 AEP는 매우 다른 군집 구조를 가질 수 있으며 유사한 총 식물성 플랑크톤 바이오매스를 갖는 D, H 및 K와 같은 다양한 지리적 영역을 포괄할 수 있습니다.AEP H는 주로 적도 인도양에 존재하며, 디아조영양 박테리아가 더 많습니다.AEP D는 여러 분지에서 발견되지만 특히 적도 용승 주변의 수확량이 많은 지역 주변의 태평양에서 두드러집니다.이 태평양 지방의 모양은 행성파동열차를 연상시킵니다.AEP D에는 디아조박테리아가 거의 없고 원뿔이 더 많습니다.다른 두 지역에 비해 AEP K는 북극해의 고지대에서만 발견되며 규조류는 더 많고 플랑크톤은 더 적습니다.이 세 지역의 플랑크톤 양도 매우 다르다는 점은 주목할 가치가 있습니다.그중 AEP K의 플랑크톤 풍부도는 상대적으로 낮은 반면, AEP D 및 H의 플랑크톤 풍부도는 상대적으로 높습니다.따라서 바이오매스(따라서 Chl-a와 유사함)에도 불구하고 이러한 지역은 상당히 다릅니다. Chl 기반 지역 테스트는 이러한 차이를 포착하지 못할 수 있습니다.
또한 매우 다른 바이오매스를 가진 일부 AEP가 식물성 플랑크톤 군집 구조 측면에서 유사할 수 있다는 것도 분명합니다.예를 들어, 이는 AEP D와 E에서 볼 수 있습니다. 그들은 서로 가깝고 태평양에서는 AEP E가 생산성이 높은 AEPJ에 가깝습니다.마찬가지로, 식물성 플랑크톤 바이오매스와 동물성 플랑크톤 풍부함 사이에는 명확한 연관성이 없습니다.
AEP는 그들에게 제공되는 영양분의 관점에서 이해될 수 있습니다(그림 5B).규조류는 규산이 충분한 곳에서만 존재합니다.일반적으로 규산 공급량이 많을수록 규조류의 바이오매스가 높아집니다.규조류는 AEP A, J, K 및 L에서 볼 수 있습니다. 다른 식물성 플랑크톤에 대한 규조류 바이오매스의 비율은 규조류 수요에 비해 제공된 N, P 및 Fe에 의해 결정됩니다.예를 들어, AEP L은 규조류가 지배적입니다.다른 영양소에 비해 Si의 공급량이 가장 높습니다.대조적으로, 생산성이 높음에도 불구하고 AEP J는 규조류와 실리콘 공급량이 적습니다(다른 영양소에 비해 모두).
Diazonium 박테리아는 질소를 고정하는 능력이 있지만 천천히 성장합니다(31).이들은 비다이아조늄 영양소에 대한 수요에 비해 철과 인이 과도한 다른 식물성 플랑크톤과 공존합니다(20, 21).디아조영양 바이오매스가 상대적으로 높고 Fe와 P의 공급이 N의 공급에 비해 상대적으로 크다는 점은 주목할 가치가 있습니다. 이러한 방식으로 AEP J의 총 바이오매스는 더 높지만 AEP H의 디아조늄 바이오매스는 AEP J와 H는 지리적으로 매우 다르며 H는 적도 인도양에 위치하고 있습니다.
고유한 생태계 구조가 지방으로 나누어지지 않으면 12개 AEP의 가장 낮은 복잡성 모델에서 얻은 통찰력이 그다지 명확하지 않을 것입니다.SAGE에서 생성된 AEP는 생태계 모델의 복잡하고 고차원적인 정보를 일관되고 동시적으로 비교할 수 있도록 해줍니다.AEP는 Chl이 더 높은 영양 수준에서 군집 구조 또는 동물성 플랑크톤 풍부도를 결정하는 좋은 대체 방법이 아닌 이유를 효과적으로 강조합니다.진행 중인 연구 주제에 대한 자세한 분석은 이 기사의 범위를 벗어납니다.SAGE 방법은 지점 간 보기보다 처리하기 더 쉬운 모델의 다른 메커니즘을 탐색하는 방법을 제공합니다.
SAGE 방법은 전지구적 물리적/생지화학적/생태계 수치 모델로부터 매우 복잡한 생태학적 데이터를 명확히 하는 데 도움을 주기 위해 제안되었습니다.생태적 영역은 교차 플랑크톤 작용기의 총 바이오매스, t-SNE 확률 차원 감소 알고리즘 적용 및 비지도 ML 방법 DBSCAN을 사용한 클러스터링에 의해 결정됩니다.중첩 방법에 대한 주 간 BC 차이/그래프 이론을 적용하여 전역 해석에 사용할 수 있는 강력한 AEP를 도출합니다.건설 측면에서 Eco-Province와 AEP는 독특합니다.AEP 중첩은 원래 생태 지역의 전체 복잡성과 권장되는 최소 임계값인 12 AEP 사이에서 조정될 수 있습니다.확률 t-SNE가 <12 복잡도의 AEP를 퇴화시키기 때문에 AEP의 최소 복잡도를 중첩하고 결정하는 것이 핵심 단계로 간주됩니다.SAGE 방법은 전역적이며 복잡성 범위는 100개 이상의 AEP에서 12개입니다. 단순화를 위해 현재 초점은 12개의 전역 AEP의 복잡성에 있습니다.향후 연구, 특히 지역 연구에서는 전 세계 생태 지역의 더 작은 공간 하위 집합이 유용할 수 있으며, 여기에서 논의된 것과 동일한 생태학적 통찰력을 활용하기 위해 더 작은 지역에 집계될 수 있습니다.이는 이러한 생태학적 영역과 여기에서 얻은 통찰력을 생태학적 이해를 심화하고 모델 비교를 촉진하며 잠재적으로 해양 생태계 모니터링을 개선하는 데 사용할 수 있는 방법에 대한 제안을 제공합니다.
SAGE 방법으로 식별된 생태학적 영역과 AEP는 수치 모델의 데이터를 기반으로 합니다.정의에 따르면, 수치 모델은 대상 시스템의 본질을 포착하려고 시도하는 단순화된 구조이며, 모델마다 플랑크톤의 분포가 다릅니다.본 연구에 사용된 수치 모델은 관측된 패턴 중 일부를 완전히 포착할 수 없습니다(예: 적도 지역과 남빙양에 대한 Chl 추정치).실제 해양의 다양성 중 극히 일부만이 포착되며 중간 및 하위 중간 규모는 해결될 수 없으며 이는 영양분 흐름과 소규모 군집 구조에 영향을 미칠 수 있습니다.이러한 단점에도 불구하고 AEP는 복잡한 모델을 이해하는 데 매우 유용하다는 것이 밝혀졌습니다.유사한 생태학적 지역이 발견되는 곳을 평가함으로써 AEP는 잠재적인 수치 모델 비교 도구를 제공합니다.현재의 수치 모델은 원격 감지 식물성 플랑크톤 Chl-a 농도의 전반적인 패턴과 플랑크톤 크기 및 기능 그룹의 분포를 포착합니다(참고 S1 및 그림 S1)(2, 32).
0.1 mgChl-a/m-3 등고선에서 볼 수 있듯이 AEP는 빈영양 영역과 중영양 영역으로 구분됩니다(그림 S1B). AEP B, C, D, E, F 및 G는 빈영양 영역이고 나머지 영역은 다음과 같습니다. 더 높은 Chl-a에 위치함.AEP는 롱허스트 주(그림 S3A), 예를 들어 남극해 및 적도 태평양과 일부 일치함을 보여줍니다.일부 지역에서는 AEP가 여러 Longhurst 지역을 포괄하며 그 반대의 경우도 마찬가지입니다.이 지역과 롱허스트의 지방 경계를 정하는 의도가 다르기 때문에 이견이 있을 것으로 예상된다.Longhurst 지방의 여러 AEP는 유사한 생지화학을 가진 특정 지역이 매우 다른 생태계 구조를 가질 수 있음을 나타냅니다.AEP는 높은 용승 상태(예: 남극해 및 적도 태평양, 그림 S3, C 및 D)와 같이 비지도 학습(19)을 사용하여 밝혀진 물리적 상태와 특정 일치성을 나타냅니다.이러한 대응은 플랑크톤의 군집 구조가 해양 역학에 크게 영향을 받는다는 것을 나타냅니다.북대서양과 같은 지역에서 AEP는 실제 지역을 횡단합니다.이러한 차이를 유발하는 메커니즘에는 먼지 이동과 같은 프로세스가 포함될 수 있으며, 이는 유사한 물리적 조건에서도 완전히 다른 영양 프로그램으로 이어질 수 있습니다.
생태부와 AEP는 해양 생태 공동체가 이미 알고 있듯이 Chl만으로는 생태 구성 요소를 식별할 수 없다고 지적했습니다.이는 바이오매스가 유사하지만 생태학적 구성이 크게 다른 AEP(예: D 및 E)에서 볼 수 있습니다.대조적으로, D 및 K와 같은 AEP는 바이오매스가 매우 다르지만 생태학적 구성은 유사합니다.AEP는 바이오매스, 생태학적 구성 및 동물성 플랑크톤 풍부함 사이의 관계가 복잡하다는 점을 강조합니다.예를 들어 AEP J는 식물성 플랑크톤과 플랑크톤 바이오매스 측면에서 두드러지지만 AEP의 A와 L은 플랑크톤 바이오매스가 비슷하지만 A는 플랑크톤 풍부도가 더 높습니다.AEP는 식물성 플랑크톤 바이오매스(또는 Chl)를 사용하여 동물성 플랑크톤 바이오매스를 예측할 수 없음을 강조합니다.동물플랑크톤은 어업 먹이사슬의 기초이며, 더 정확한 추정이 더 나은 자원 관리로 이어질 수 있습니다.미래의 해양 컬러 위성[예: PACE(플랑크톤, 에어로졸, 구름 및 해양 생태계)]은 식물성 플랑크톤의 군집 구조를 추정하는 데 더 나은 위치에 있을 수 있습니다.AEP 예측을 사용하면 우주에서 동물 플랑크톤을 추정하는 것이 잠재적으로 용이해질 수 있습니다.SAGE와 같은 방법과 신기술, 그리고 실측 조사(예: Tara 및 후속 연구)에 사용할 수 있는 점점 더 많은 현장 데이터를 함께 사용하면 위성 기반 생태계 상태 모니터링을 향한 한 걸음 더 나아갈 수 있습니다.
SAGE 방법은 바이오매스/Chl, 순 일차 생산 및 군집 구조와 같은 지역 특성을 제어하는 일부 메커니즘을 평가하는 편리한 방법을 제공합니다.예를 들어, 규조류의 상대적 양은 식물성 플랑크톤 화학량론적 요구 사항에 비해 Si, N, P 및 Fe 공급의 불균형에 의해 설정됩니다.균형 잡힌 공급률에서 지역 사회는 규조류(L)가 지배적입니다.공급률이 불균형한 경우(즉, 규소의 공급이 규조류의 영양분 수요보다 낮음) 규조류는 점유율(K)에서 아주 작은 부분만을 차지합니다.Fe와 P의 공급이 N의 공급(예: E와 H)을 초과하면 디아조영양 박테리아가 왕성하게 성장합니다.AEP가 제공하는 맥락을 통해 제어 메커니즘을 탐색하는 것이 더욱 유용해질 것입니다.
Eco-Province와 AEP는 유사한 커뮤니티 구조를 가진 지역입니다.생태지역 또는 AEP 내 특정 위치의 시계열은 기준점으로 간주될 수 있으며 생태지역 또는 AEP가 적용되는 지역을 나타낼 수 있습니다.장기 현장 모니터링 스테이션은 이러한 시계열을 제공합니다.장기간의 현장 데이터 세트는 계속해서 헤아릴 수 없는 역할을 할 것입니다.커뮤니티 구조를 모니터링하는 관점에서 SAGE 방법은 새로운 사이트의 가장 유용한 위치를 결정하는 데 도움이 되는 방법으로 볼 수 있습니다.예를 들어, 장기 올리고영양 서식지 평가(ALOHA)의 시계열은 올리고영양 지역의 AEP B에 있습니다(그림 5C, 라벨 2).ALOHA는 다른 AEP의 경계에 가깝기 때문에 시계열은 이전에 제안한 것처럼 전체 지역을 대표하지 않을 수 있습니다(33).동일한 AEP B에서 시계열 SEATS(동남아시아 시계열)는 대만 남서부(34)에 위치하며 다른 AEP의 경계에서 더 멀리 떨어져 있으며(그림 5C, 레이블 1) 모니터링하기 더 좋은 위치로 사용할 수 있습니다. AEPB.AEPC의 BATS(버뮤다 대서양 시계열 연구) 시계열(그림 5C, 레이블 4)은 AEP C와 F 사이의 경계에 매우 가깝습니다. 이는 BATS 시계열을 사용하여 AEP C를 모니터링하는 것이 직접적으로 문제가 될 수 있음을 나타냅니다.AEP J의 스테이션 P(그림 5C, 레이블 3)는 AEP 경계에서 멀리 떨어져 있으므로 더 대표적입니다.Eco-Province와 AEP는 글로벌 변화를 평가하는 데 적합한 모니터링 프레임워크를 구축하는 데 도움이 될 수 있습니다. 왜냐하면 지방의 현장 샘플링 평가 권한이 핵심 통찰력을 제공할 수 있기 때문입니다.SAGE 방법은 시간을 절약해 주는 변동성을 평가하기 위해 기후 데이터에 적용되도록 추가로 개발될 수 있습니다.
SAGE 방법의 성공은 데이터 과학/ML 방법과 도메인별 지식을 신중하게 적용함으로써 달성됩니다.특히 t-SNE는 차원 축소를 수행하는 데 사용됩니다. 이는 고차원 데이터의 공분산 구조를 보존하고 공분산 토폴로지의 시각화를 용이하게 합니다.데이터는 줄무늬와 공분산(그림 2A)의 형태로 배열되어 있으며, 이는 순수한 거리 기반 측정(예: K-평균)이 일반적으로 가우스(원형) 기반 분포(참고 S2에서 논의됨)를 사용하기 때문에 적절하지 않음을 나타냅니다. .DBSCAN 방법은 모든 공분산 토폴로지에 적합합니다.매개변수 설정에 주의를 기울이면 신뢰할 수 있는 식별이 제공될 수 있습니다.t-SNE 알고리즘의 계산 비용이 높기 때문에 현재 적용이 더 많은 양의 데이터로 제한됩니다. 이는 심층적이거나 시간에 따라 변하는 분야에 적용하기 어렵다는 것을 의미합니다.t-SNE의 확장성에 대한 작업이 진행 중입니다.KL 거리는 병렬화하기 쉽기 때문에 t-SNE 알고리즘은 향후 확장 가능성이 높습니다(35).지금까지 크기를 더 잘 줄일 수 있는 다른 유망한 차원 축소 방법에는 UMAP(Unified Manifold Approximation and Projection) 기술이 포함되지만 해양 데이터의 맥락에서 평가가 필요합니다.더 나은 확장성의 의미는 예를 들어 혼합 계층에서 지구 기후나 복잡성이 다른 모델을 분류하는 것입니다.모든 지방에서 SAGE로 분류되지 않은 지역은 그림 2A에 남아 있는 검은 점으로 간주될 수 있습니다.지리적으로 이들 지역은 주로 계절성이 높은 지역에 속하며, 이는 시간이 지남에 따라 변화하는 생태 지역을 포착하는 것이 더 나은 적용 범위를 제공할 것임을 시사합니다.
SAGE 방법을 구성하기 위해 기능 그룹의 클러스터(11차원 공간에서 매우 근접할 가능성)를 결정하고 영역을 결정하는 기능을 사용하여 복잡한 시스템/데이터 과학의 아이디어가 사용되었습니다.이 지역은 3D t-SNE 단계 공간의 특정 볼륨을 나타냅니다.마찬가지로, Poincaré 부분은 "정상" 또는 "혼돈" 동작을 결정하기 위해 궤도가 차지하는 상태 공간의 "부피"를 평가하는 데 사용될 수 있습니다(36).정적 11차원 모델 출력의 경우 데이터가 3D 위상 공간으로 변환된 후 차지하는 부피도 유사하게 설명할 수 있습니다.지리적 영역과 3차원 위상 공간에서의 영역의 관계는 단순하지 않지만 생태학적 유사성 측면에서 설명할 수 있습니다.이러한 이유로 보다 일반적인 BC 비유사성 측정이 선호됩니다.
향후 작업에서는 계절에 따라 변화하는 데이터에 SAGE 방법을 재사용하여 식별된 지역과 AEP의 공간적 변동성을 평가할 것입니다.향후 목표는 이 방법을 사용하여 위성 측정(예: Chl-a, 원격 감지 반사율 및 해수면 온도)을 통해 확인할 수 있는 지역을 결정하는 데 도움을 주는 것입니다.이를 통해 생태학적 구성요소에 대한 원격 감지 평가와 생태학적 영역 및 그 변동성에 대한 매우 유연한 모니터링이 가능해집니다.
본 연구의 목적은 독특한 플랑크톤 군집 구조를 통해 생태적 영역을 정의하는 SAGE 방법을 소개하는 것입니다.여기에서는 물리적/생지화학적/생태계 모델과 t-SNE 및 DBSCAN 알고리즘의 매개변수 선택에 대한 자세한 정보가 제공됩니다.
모델의 물리적 구성요소는 해양 순환과 기후의 추정에서 비롯됩니다[ECCOv4;(37) (38)에 설명된 전역 상태 추정.상태 추정의 명목상 분해능은 1/5입니다.라그랑지안 승수법을 이용한 최소자승법을 이용하여 초기 및 경계조건과 관찰에 의해 조정된 내부 모델 매개변수를 구하여 자유 실행 MIT 일반주기 모델(MITgcm)(39)을 생성하고, 모델을 최적화한 후 결과를 얻을 수 있다. 추적하고 관찰할 수 있습니다.
생지화학/생태계는 (2)에 더 완전한 설명(즉, 방정식 및 매개변수 값)이 있습니다.이 모델은 무기 및 유기 연못을 통한 C, N, P, Si 및 Fe의 순환을 포착합니다.여기에 사용된 버전에는 35종의 식물성 플랑크톤이 포함됩니다. 미세원핵생물 2종과 미세진핵생물 2종(저영양 환경에 적합), Cryptomonas sphaeroides 5종(탄산칼슘 코팅 포함), 디아조늄 5종(질소를 고정할 수 있으므로 질소를 고정할 수 있으므로 제한되지 않음) 용해된 무기질소의 가용성), 11종의 규조류(규질 덮개 형성), 10종의 혼합 식물성 편모류(광합성을 하고 다른 플랑크톤을 먹을 수 있음) 및 16종의 동물플랑크톤(다른 플랑크톤을 갉아먹음).이들은 해양 생지화학에 서로 다른 영향을 미치고(40, 41) 관측 및 모델 연구에 자주 사용되기 때문에 "생지화학적 기능 그룹"이라고 불립니다.이 모델에서 각 기능 그룹은 0.6~2500μm 등가 구형 직경의 범위를 갖는 다양한 크기의 여러 플랑크톤으로 구성됩니다.
식물성 플랑크톤 성장, 방목 및 침강에 영향을 미치는 매개변수는 크기와 관련이 있으며 6가지 식물성 플랑크톤 기능 그룹 간에는 특정한 차이가 있습니다(32).다양한 물리적 프레임워크에도 불구하고 모델의 51개 플랑크톤 구성 요소에 대한 결과가 최근 여러 연구에서 사용되었습니다(42-44).
1992년부터 2011년까지 물리적/생지화학적/생태계 연계 모델은 20년 동안 운영되었습니다.모델의 출력에는 플랑크톤 바이오매스, 영양분 농도 및 영양분 공급 속도(DIN, PO4, Si 및 Fe)가 포함됩니다.본 연구에서는 이러한 산출물의 20년 평균을 생태지역의 투입물로 사용하였다.Chl, 플랑크톤 바이오매스 분포 및 영양분 농도와 작용기 분포를 위성 및 현장 관측과 비교합니다 [(2, 44), Note S1 및 그림 참조.S1~S3].
SAGE 방법의 경우 무작위성의 주요 원인은 t-SNE 단계에서 나옵니다.무작위성은 반복성을 방해하므로 결과를 신뢰할 수 없습니다.SAGE 방법은 반복 시 클러스터를 일관되게 식별할 수 있는 t-SNE 및 DBSCAN의 매개변수 세트를 결정하여 견고성을 엄격하게 테스트합니다.t-SNE 매개변수의 "복잡성"을 결정하는 것은 높은 차원에서 낮은 차원으로의 매핑이 데이터의 로컬 또는 전역 특성을 존중해야 하는 정도를 결정하는 것으로 이해될 수 있습니다.400회와 300회 반복의 혼란에 도달했습니다.
클러스터링 알고리즘 DBSCAN의 경우 클러스터에 있는 데이터 포인트의 최소 크기와 거리 측정법을 결정해야 합니다.최소 수는 전문가의 지도에 따라 결정됩니다.이 지식은 현재 수치 모델링 프레임워크와 해상도에 적합한 것이 무엇인지 알고 있습니다.최소값은 100이다. 더 높은 최소값(녹색의 상한이 넓어지기 전 <135 미만)을 고려할 수 있으나 BC 비유사성에 기반한 집계 방식을 대체할 수는 없다.연결 정도(그림 6A)는 더 높은 적용 범위에 도움이 되는 ϵ 매개변수를 설정하는 데 사용됩니다(그림 6B).연결성은 클러스터의 복합 수로 정의되며 ϵ 매개변수에 민감합니다.연결성이 낮으면 피팅이 충분하지 않아 영역을 인위적으로 그룹화한다는 의미입니다.높은 연결성은 과적합을 나타냅니다.과적합도 문제가 됩니다. 초기 무작위 추측으로 인해 재현할 수 없는 결과가 발생할 수 있기 때문입니다.이 두 극단 사이에서 급격한 증가(보통 "엘보우"라고 함)는 최상의 ϵ를 나타냅니다.그림 6A에서는 고원 영역(노란색, > 200개 클러스터)이 급격히 증가한 후 급격한 감소(녹색, 100개 클러스터), 최대 약 130개, 극소수의 클러스터(파란색, <60개 클러스터)로 둘러싸여 있음을 볼 수 있습니다. ).100개 이상의 파란색 영역에서 하나의 클러스터가 전체 바다를 지배하거나(ϵ <0.42), 대부분의 바다가 분류되지 않고 노이즈로 간주됩니다(ϵ> 0.99).노란색 영역은 매우 가변적이고 재현할 수 없는 클러스터 분포를 갖습니다.ϵ가 감소하면 잡음이 증가합니다.급격히 증가하는 녹색 영역을 엘보우라고 합니다.최적의 지역입니다.확률 t-SNE가 사용되더라도 해당 지역 내 BC 비유사성은 여전히 신뢰할 수 있는 클러스터링을 결정하는 데 사용될 수 있습니다.그림 6(A 및 B)을 사용하여 ϵ를 0.39로 설정합니다.최소 수가 클수록 신뢰할 수 있는 분류를 허용하는 ϵ에 도달할 확률은 작아지고, 135보다 큰 값을 갖는 녹색 영역이 커집니다. 이 영역이 확대되면 팔꿈치를 찾기가 더 어렵거나 그렇지 않음을 나타냅니다. 존재한다.
t-SNE의 매개변수를 설정한 후 발견된 총 클러스터 수는 연결성(A) 및 클러스터에 할당된 데이터 비율(B)의 척도로 사용됩니다.빨간색 점은 적용 범위와 연결성의 최상의 조합을 나타냅니다.최소 개수는 생태와 관련된 최소 개수에 따라 설정됩니다.
이 기사에 대한 보충 자료는 http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1을 참조하세요.
이 글은 Creative Commons Attribution License의 조건에 따라 배포되는 오픈 액세스 글입니다.이 기사는 원본 저작물이 적절하게 인용된다는 조건 하에 모든 매체에서 제한 없이 사용, 배포 및 복제를 허용합니다.
참고: 우리는 귀하가 페이지에 추천한 사람이 귀하가 이메일을 보기를 원하며 그것이 스팸이 아니라는 것을 알 수 있도록 귀하의 이메일 주소를 제공하도록 요청합니다.우리는 어떤 이메일 주소도 수집하지 않습니다.
이 질문은 귀하가 방문자인지 여부를 테스트하고 자동 스팸 제출을 방지하는 데 사용됩니다.
세계해양생태부(Global Ministry of Marine Ecology)는 복잡한 문제를 해결하고 감독되지 않은 ML을 사용하여 커뮤니티 구조를 탐색하기로 결정했습니다.
세계해양생태부(Global Ministry of Marine Ecology)는 복잡한 문제를 해결하고 감독되지 않은 ML을 사용하여 커뮤니티 구조를 탐색하기로 결정했습니다.
게시 시간: 2021년 1월 12일