topimg

Làm rõ sự phức tạp của sinh thái: học tập không giám sát quyết định tỉnh sinh thái biển toàn cầu

Một phương pháp học tập không giám sát được đề xuất để xác định các tỉnh sinh thái biển toàn cầu (tỉnh sinh thái) dựa trên cấu trúc cộng đồng sinh vật phù du và dữ liệu dòng dinh dưỡng.Phương pháp tỉnh sinh thái tổng hợp có hệ thống (SAGE) có thể xác định các tỉnh sinh thái trong các mô hình hệ sinh thái phi tuyến tính cao.Để thích ứng với hiệp phương sai không phải Gaussian của dữ liệu, SAGE sử dụng phương pháp nhúng lân cận ngẫu nhiên (t-SNE) để giảm tính chiều.Với sự trợ giúp của ứng dụng tiếng ồn dựa trên thuật toán phân cụm không gian dựa trên mật độ (DBSCAN), có thể xác định được hơn một trăm tỉnh sinh thái.Sử dụng bản đồ kết nối với sự khác biệt về sinh thái làm thước đo khoảng cách, một tỉnh sinh thái tổng hợp (AEP) mạnh mẽ được xác định một cách khách quan thông qua các tỉnh sinh thái lồng nhau.Bằng cách sử dụng AEP, việc kiểm soát tốc độ cung cấp chất dinh dưỡng đối với cấu trúc cộng đồng đã được khám phá.Tỉnh sinh thái và AEP là duy nhất và có thể giúp giải thích mô hình.Chúng có thể tạo điều kiện thuận lợi cho việc so sánh giữa các mô hình và có thể nâng cao sự hiểu biết cũng như giám sát các hệ sinh thái biển.
Tỉnh là những vùng có địa sinh học phức tạp trên biển hoặc đất liền được tổ chức thành các khu vực mạch lạc và có ý nghĩa (1).Các tỉnh này rất quan trọng trong việc so sánh và đối chiếu các vị trí, mô tả đặc điểm quan sát, giám sát và bảo vệ.Các tương tác phức tạp và phi tuyến tính tạo ra các tỉnh này làm cho phương pháp học máy không giám sát (ML) rất phù hợp để xác định các tỉnh một cách khách quan, vì hiệp phương sai trong dữ liệu rất phức tạp và không phải Gaussian.Ở đây, một phương pháp ML được đề xuất, xác định một cách có hệ thống các tỉnh sinh thái biển (tỉnh sinh thái) độc nhất từ ​​mô hình vật lý/hệ sinh thái ba chiều (3D) toàn cầu Darwin (2).Thuật ngữ “duy nhất” được sử dụng để chỉ ra rằng khu vực được xác định không đủ trùng lặp với các khu vực khác.Phương pháp này được gọi là phương pháp Tỉnh sinh thái tổng hợp hệ thống (SAGE).Để thực hiện phân loại hữu ích, phương pháp thuật toán cần cho phép (i) phân loại toàn cầu và (ii) phân tích đa quy mô có thể được lồng/tổng ​​hợp trong không gian và thời gian (3).Trong nghiên cứu này, phương pháp SAGE lần đầu tiên được đề xuất và các tỉnh sinh thái được xác định đã được thảo luận.Các tỉnh sinh thái có thể thúc đẩy sự hiểu biết về các yếu tố kiểm soát cấu trúc cộng đồng, cung cấp những hiểu biết hữu ích cho các chiến lược giám sát và giúp theo dõi những thay đổi trong hệ sinh thái.
Các tỉnh trên cạn thường được phân loại theo những điểm tương đồng về khí hậu (lượng mưa và nhiệt độ), đất, thảm thực vật và động vật và được sử dụng để quản lý phụ trợ, nghiên cứu đa dạng sinh học và kiểm soát dịch bệnh (1, 4).Các tỉnh ven biển khó xác định hơn.Hầu hết các sinh vật đều có kích thước cực nhỏ, có ranh giới chất lỏng.Longhurst và cộng sự.(5) Cung cấp một trong những phân loại toàn cầu đầu tiên của Bộ Hải dương học dựa trên điều kiện môi trường.Định nghĩa về các tỉnh “Longhurst” này bao gồm các biến số như tốc độ pha trộn, phân tầng và bức xạ, cũng như kinh nghiệm sâu rộng của Longhurst với tư cách là nhà hải dương học biển, người có các điều kiện quan trọng khác đối với hệ sinh thái biển.Longhurst đã được sử dụng rộng rãi, ví dụ, để đánh giá sản lượng sơ cấp và dòng carbon, hỗ trợ nghề cá và lập kế hoạch cho các hoạt động quan sát tại chỗ (5-9).Để xác định các tỉnh một cách khách quan hơn, các phương pháp như logic mờ và phân cụm/thống kê không giám sát theo khu vực đã được sử dụng (9-14).Mục đích của các phương pháp này là xác định các cấu trúc có ý nghĩa có thể xác định các tỉnh trong dữ liệu quan sát có sẵn.Ví dụ: các tỉnh biển năng động (12) sử dụng bản đồ tự tổ chức để giảm tiếng ồn và sử dụng phân cụm theo cấp bậc (dựa trên cây) để xác định các sản phẩm màu biển có nguồn gốc từ các vệ tinh khu vực [diệp lục a (Chl-a), chiều cao vạch huỳnh quang chuẩn hóa và chất hữu cơ hòa tan có màu] và trường vật lý (nhiệt độ và độ mặn bề mặt nước biển, địa hình động tuyệt đối và băng biển).
Cấu trúc cộng đồng của sinh vật phù du là mối quan tâm vì hệ sinh thái của nó có ảnh hưởng lớn đến mức độ dinh dưỡng cao hơn, khả năng hấp thụ carbon và khí hậu.Tuy nhiên, việc xác định một tỉnh sinh thái toàn cầu dựa trên cấu trúc cộng đồng sinh vật phù du vẫn là một mục tiêu đầy thách thức và khó nắm bắt.Các vệ tinh màu biển có khả năng cung cấp những hiểu biết sâu sắc về phân loại thực vật phù du ở mức độ thô hoặc gợi ý những lợi thế của các nhóm chức năng (15), nhưng hiện tại chúng không thể cung cấp thông tin chi tiết về cấu trúc quần xã.Các cuộc khảo sát gần đây [ví dụ Tara Ocean (16)] đang cung cấp những thước đo chưa từng có về cấu trúc cộng đồng;hiện tại, chỉ có những quan sát tại chỗ thưa thớt trên quy mô toàn cầu (17).Các nghiên cứu trước đây phần lớn đã xác định “Tỉnh sinh địa hóa” (12, 14, 18) dựa trên việc xác định các điểm tương đồng về sinh hóa (chẳng hạn như sản xuất sơ cấp, Chl và ánh sáng sẵn có).Ở đây, mô hình số được sử dụng để đưa ra [Darwin(2)] và tỉnh sinh thái được xác định theo cấu trúc quần xã và dòng dinh dưỡng.Mô hình số được sử dụng trong nghiên cứu này có phạm vi bao phủ toàn cầu và có thể so sánh với dữ liệu hiện trường (17) và trường viễn thám (Lưu ý S1).Dữ liệu mô hình số được sử dụng trong nghiên cứu này có ưu điểm là bao phủ toàn cầu.Hệ sinh thái mô hình bao gồm 35 loài thực vật phù du và 16 loài động vật phù du (vui lòng tham khảo tài liệu và phương pháp thực hiện).Các loại sinh vật phù du mô hình tương tác phi tuyến với các cấu trúc hiệp phương sai phi Gaussian, vì vậy các phương pháp chẩn đoán đơn giản không phù hợp để xác định các mẫu duy nhất và nhất quán trong các cấu trúc cộng đồng mới nổi.Phương pháp SAGE được giới thiệu ở đây cung cấp một cách mới để kiểm tra kết quả đầu ra của các mô hình Darwin phức tạp.
Khả năng biến đổi mạnh mẽ của khoa học dữ liệu/công nghệ ML có thể cho phép các giải pháp mô hình cực kỳ phức tạp để lộ ra các cấu trúc phức tạp nhưng mạnh mẽ trong hiệp phương sai dữ liệu.Một phương pháp mạnh mẽ được định nghĩa là một phương pháp có thể tái tạo một cách trung thực các kết quả trong một phạm vi lỗi nhất định.Ngay cả trong các hệ thống đơn giản, việc xác định các mô hình và tín hiệu mạnh mẽ có thể là một thách thức.Cho đến khi xác định được cơ sở lý luận dẫn đến mô hình quan sát được, sự phức tạp đang nổi lên có thể có vẻ phức tạp/khó giải quyết.Quá trình chính để thiết lập thành phần của hệ sinh thái có bản chất phi tuyến tính.Sự tồn tại của các tương tác phi tuyến tính có thể gây nhầm lẫn cho việc phân loại mạnh mẽ, do đó cần tránh các phương pháp đưa ra các giả định mạnh mẽ về phân bố thống kê cơ bản của hiệp phương sai dữ liệu.Dữ liệu nhiều chiều và phi tuyến tính phổ biến trong hải dương học và có thể có cấu trúc hiệp phương sai với cấu trúc liên kết phức tạp, phi Gaussian.Mặc dù dữ liệu có cấu trúc hiệp phương sai không phải Gaussian có thể cản trở việc phân loại mạnh mẽ, nhưng phương pháp SAGE mới lạ vì nó được thiết kế để xác định các cụm có cấu trúc liên kết tùy ý.
Mục tiêu của phương pháp SAGE là xác định một cách khách quan các mô hình mới nổi có thể giúp hiểu rõ hơn về sinh thái.Theo quy trình làm việc dựa trên cụm tương tự như (19), các biến dòng sinh thái và dinh dưỡng được sử dụng để xác định cụm duy nhất trong dữ liệu, được gọi là tỉnh sinh thái.Phương pháp SAGE được đề xuất trong nghiên cứu này (Hình 1) trước tiên giảm kích thước từ 55 xuống 11 kích thước bằng cách tính tổng các nhóm chức năng của sinh vật phù du được xác định một cách tiên nghiệm (xem Vật liệu và Phương pháp).Sử dụng phương pháp nhúng hàng xóm t-ngẫu nhiên (t-SNE), kích thước được giảm hơn nữa bằng cách chiếu xác suất vào không gian 3D.Phân cụm không giám sát có thể xác định các khu vực gần gũi về mặt sinh thái [phân cụm không gian dựa trên mật độ (DBSCAN) cho các ứng dụng dựa trên tiếng ồn].Cả t-SNE và DBSCAN đều có thể áp dụng cho dữ liệu mô hình số hệ sinh thái phi tuyến tính vốn có.Sau đó, chiếu lại tỉnh sinh thái kết quả lên trái đất.Hơn một trăm tỉnh sinh thái độc đáo đã được xác định, phù hợp cho nghiên cứu khu vực.Để xem xét mô hình hệ sinh thái thống nhất toàn cầu, phương pháp SAGE được sử dụng để tổng hợp các tỉnh sinh thái thành các tỉnh sinh thái tổng hợp (AEP) nhằm nâng cao hiệu quả của các tỉnh sinh thái.Mức độ tổng hợp (được gọi là “độ phức tạp”) có thể được điều chỉnh theo mức độ chi tiết cần thiết.Xác định độ phức tạp tối thiểu của AEP mạnh mẽ.Trọng tâm của việc lựa chọn là phương pháp SAGE và khám phá các trường hợp AEP có độ phức tạp nhỏ nhất để xác định khả năng kiểm soát cấu trúc cộng đồng khẩn cấp.Các mô hình sau đó có thể được phân tích để cung cấp những hiểu biết sâu sắc về sinh thái.Phương pháp được giới thiệu ở đây cũng có thể được sử dụng để so sánh mô hình một cách rộng rãi hơn, ví dụ, bằng cách đánh giá vị trí của các tỉnh sinh thái tương tự được tìm thấy trong các mô hình khác nhau để làm nổi bật sự khác biệt và tương đồng, nhằm so sánh các mô hình.
(A) Sơ đồ quy trình xác định tỉnh sinh thái;sử dụng tổng trong nhóm chức năng để giảm dữ liệu 55 chiều ban đầu thành đầu ra mô hình 11 chiều, bao gồm sinh khối của bảy sinh vật phù du chức năng/dinh dưỡng và bốn tốc độ cung cấp chất dinh dưỡng.Giá trị không đáng kể và diện tích phủ băng bền.Dữ liệu đã được chuẩn hóa và chuẩn hóa.Cung cấp dữ liệu 11 chiều cho thuật toán t-SNE để làm nổi bật các kết hợp tính năng tương tự về mặt thống kê.DBSCAN sẽ cẩn thận chọn cụm để đặt giá trị tham số.Cuối cùng chiếu dữ liệu trở lại phép chiếu vĩ độ/kinh độ.Xin lưu ý rằng quá trình này được lặp lại 10 lần vì có thể tạo ra một chút ngẫu nhiên khi áp dụng t-SNE.(B) giải thích cách nhận AEP bằng cách lặp lại quy trình làm việc trong (A) 10 lần.Đối với mỗi trong số 10 triển khai này, ma trận khác biệt Bray-Curtis (BC) giữa các tỉnh được xác định dựa trên sinh khối của 51 loại thực vật phù du.Xác định sự khác biệt BC giữa các tỉnh, từ độ phức tạp 1 AEP đến độ phức tạp hoàn toàn 115. Điểm chuẩn BC do Tỉnh Longhurst đặt ra.
Phương pháp SAGE sử dụng đầu ra của mô hình số vật lý/hệ sinh thái 3D toàn cầu để xác định tỉnh sinh thái [Darwin (2);xem Vật liệu và Phương pháp và Lưu ý S1].Các thành phần của hệ sinh thái bao gồm 35 loài thực vật phù du và 16 loài động vật phù du, với bảy nhóm chức năng được xác định trước: sinh vật nhân sơ và sinh vật nhân chuẩn thích nghi với môi trường dinh dưỡng thấp, cầu trùng có lớp phủ canxi cacbonat và khả năng cố định đạm nặng. các chất dinh dưỡng quan trọng), có lớp phủ silic, có thể tạo ra các sinh vật phù du khác quang hợp và chăn thả các loài trùng roi dinh dưỡng hỗn hợp và động vật phù du.Khoảng kích thước là đường kính hình cầu tương đương 0,6 đến 2500μm.Sự phân bố mô hình về kích thước thực vật phù du và nhóm chức năng thể hiện các đặc điểm tổng thể được thấy trong các quan sát qua vệ tinh và tại chỗ (xem Hình S1 đến S3).Sự giống nhau giữa mô hình số và đại dương được quan sát cho thấy rằng các tỉnh được xác định bởi mô hình có thể áp dụng được cho đại dương tại chỗ.Xin lưu ý rằng mô hình này chỉ thể hiện sự đa dạng nhất định của thực vật phù du và chỉ một số phạm vi cưỡng bức vật lý và hóa học nhất định của đại dương tại chỗ.Phương pháp SAGE có thể giúp mọi người hiểu rõ hơn về cơ chế kiểm soát mang tính khu vực cao của cấu trúc cộng đồng kiểu mẫu.
Bằng cách chỉ bao gồm tổng sinh khối bề mặt (với thời gian trung bình là 20 năm) trong mỗi nhóm sinh vật phù du có chức năng, tính chiều của dữ liệu có thể giảm đi.Sau khi các nghiên cứu trước đó cho thấy vai trò chính của chúng trong việc thiết lập cấu trúc quần xã, nó cũng bao gồm các thuật ngữ nguồn bề mặt cho dòng dinh dưỡng (cung cấp nitơ, sắt, phốt phát và axit silicic) [ví dụ (20, 21)] .Việc tổng hợp các nhóm chức năng làm giảm vấn đề từ 55 (51 sinh vật phù du và 4 dòng dinh dưỡng) xuống còn 11 chiều.Trong nghiên cứu ban đầu này, do các hạn chế tính toán do thuật toán áp đặt, độ biến thiên độ sâu và thời gian không được xem xét.
Phương pháp SAGE có thể xác định mối quan hệ quan trọng giữa các quá trình phi tuyến tính và các đặc điểm chính của sự tương tác giữa sinh khối nhóm chức năng và dòng dinh dưỡng.Sử dụng dữ liệu 11 chiều dựa trên các phương pháp học từ xa Euclide (chẳng hạn như K-mean) không thể thu được các tỉnh đáng tin cậy và có thể tái tạo (19, 22).Điều này là do không tìm thấy hình dạng Gaussian nào trong phân bố cơ bản của hiệp phương sai của các yếu tố chính xác định tỉnh sinh thái.Phương tiện K của các ô Voronoi (đường thẳng) không thể giữ lại phân bố cơ bản phi Gaussian.
Sinh khối của bảy nhóm sinh vật phù du và bốn dòng dinh dưỡng tạo thành một vectơ x 11 chiều.Do đó, x là trường vectơ trên lưới mô hình, trong đó mỗi phần tử xi biểu thị một vectơ 11 chiều được xác định trên lưới ngang mô hình.Mỗi chỉ số i xác định duy nhất một điểm lưới trên hình cầu, trong đó (lon, lat) = (ϕi, θi).Nếu sinh khối của đơn vị lưới mô hình nhỏ hơn 1,2×10-3mg Chl/m3 hoặc tỷ lệ bao phủ băng vượt quá 70%, nhật ký dữ liệu sinh khối sẽ được sử dụng và loại bỏ.Dữ liệu được chuẩn hóa và chuẩn hóa, vì vậy tất cả dữ liệu đều nằm trong phạm vi [0 đến 1], giá trị trung bình sẽ bị loại bỏ và chia tỷ lệ thành phương sai đơn vị.Điều này được thực hiện sao cho các đặc điểm (sinh khối và dòng dinh dưỡng) không bị giới hạn bởi độ tương phản trong phạm vi giá trị có thể có.Việc phân cụm sẽ nắm bắt được mối quan hệ thay đổi từ khoảng cách xác suất chính giữa các đối tượng địa lý thay vì khoảng cách địa lý.Bằng cách định lượng những khoảng cách này, các tính năng quan trọng sẽ xuất hiện, trong khi các chi tiết không cần thiết sẽ bị loại bỏ.Từ quan điểm sinh thái, điều này là cần thiết vì một số loại thực vật phù du có ít sinh khối có thể có tác dụng sinh địa hóa lớn hơn, chẳng hạn như quá trình cố định đạm của vi khuẩn diazotrophic.Khi chuẩn hóa và chuẩn hóa dữ liệu, các loại hiệp phương sai này sẽ được đánh dấu.
Bằng cách nhấn mạnh sự gần gũi của các đối tượng trong không gian nhiều chiều trong biểu diễn chiều thấp, thuật toán t-SNE được sử dụng để làm cho các vùng tương tự hiện có trở nên rõ ràng hơn.Công việc trước đây nhằm mục đích xây dựng mạng lưới thần kinh sâu cho các ứng dụng viễn thám đã sử dụng t-SNE, điều này đã chứng tỏ khả năng phân tách các tính năng chính của nó (23).Đây là bước cần thiết để xác định khả năng phân cụm mạnh mẽ trong dữ liệu đối tượng đồng thời tránh các giải pháp không hội tụ (lưu ý S2).Sử dụng nhân Gaussian, t-SNE bảo toàn các thuộc tính thống kê của dữ liệu bằng cách ánh xạ từng đối tượng có chiều cao tới một điểm trong không gian pha 3D, do đó đảm bảo rằng xác suất của các đối tượng tương tự theo hướng cao và thấp là cao ở mức cao- không gian chiều (24).Cho một tập hợp N đối tượng có chiều cao x1,…,xN, thuật toán t-SNE giảm bằng cách giảm thiểu phân kỳ Kullback-Leibler (KL) (25).Phân kỳ KL là thước đo mức độ khác biệt của phân bố xác suất với phân bố xác suất tham chiếu thứ hai và có thể đánh giá hiệu quả khả năng tương quan giữa các biểu diễn chiều thấp của các đặc điểm chiều cao.Nếu xi là đối tượng thứ i trong không gian N chiều, xj là đối tượng thứ j trong không gian N chiều, yi là đối tượng thứ i trong không gian ít chiều và yj là đối tượng thứ j trong không gian thấp chiều. -không gian chiều, khi đó t -SNE xác định xác suất tương tự ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2) và cho tập giảm kích thước q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Hình 2A minh họa tác động của việc giảm vectơ dòng chất dinh dưỡng và sinh khối của tổ hợp 11 chiều thành 3D.Động lực của việc áp dụng t-SNE có thể được so sánh với động lực của phân tích thành phần chính (PCA), sử dụng thuộc tính phương sai để nhấn mạnh vùng/thuộc tính của dữ liệu, do đó làm giảm tính chiều.Phương pháp t-SNE được cho là vượt trội hơn PCA trong việc cung cấp kết quả đáng tin cậy và có thể lặp lại cho Bộ Sinh thái (xem Lưu ý S2).Điều này có thể là do giả định tính trực giao của PCA không phù hợp để xác định các tương tác quan trọng giữa các tính năng tương tác phi tuyến tính cao, vì PCA tập trung vào các cấu trúc hiệp phương sai tuyến tính (26).Sử dụng dữ liệu viễn thám, Lunga et al.(27) minh họa cách sử dụng phương pháp SNE để làm nổi bật các đặc điểm quang phổ phức tạp và phi tuyến lệch khỏi phân bố Gaussian.
(A) Tỷ lệ cung cấp chất dinh dưỡng được mô hình hóa, sinh khối nhóm chức năng thực vật phù du và động vật phù du được vẽ bằng thuật toán t-SNE và được tô màu theo tỉnh bằng DBSCAN.Mỗi điểm đại diện cho một điểm trong không gian nhiều chiều, như trong Hình 6B, hầu hết các điểm đều được ghi lại.Trục tham chiếu đến kích thước “t-SNE” 1, 2 và 3. (B) Hình chiếu địa lý của tỉnh được DBSCAN tìm thấy trên lưới vĩ độ-kinh độ của điểm gốc.Màu sắc nên được coi là bất kỳ màu nào, nhưng phải tương ứng với (A).
Các điểm trong biểu đồ phân tán t-SNE trong Hình 2A tương ứng được liên kết với vĩ độ và kinh độ.Nếu hai điểm trong Hình 2A gần nhau thì đó là do sinh khối và dòng dinh dưỡng của chúng tương tự nhau chứ không phải do khoảng cách địa lý.Các màu trong Hình 2A là các cụm được phát hiện bằng phương pháp DBSCAN (28).Khi tìm kiếm các quan sát dày đặc, thuật toán DBSCAN sử dụng khoảng cách trong biểu diễn 3D giữa các điểm (ϵ = 0,39; để biết thông tin về lựa chọn này, xem Vật liệu và Phương pháp) và số điểm tương tự được yêu cầu để xác định cụm (tại đây 100 điểm, vui lòng xem ở trên).Phương pháp DBSCAN không đưa ra bất kỳ giả định nào về hình dạng hoặc số lượng cụm trong dữ liệu, như được hiển thị bên dưới:
3) Đối với tất cả các điểm được xác định nằm trong khoảng cách bên trong, hãy lặp lại bước 2 để xác định ranh giới cụm.Nếu số điểm lớn hơn giá trị tối thiểu đã đặt thì nó được chỉ định là một cụm.
Dữ liệu không đáp ứng thành viên cụm tối thiểu và số liệu khoảng cách ϵ được coi là “nhiễu” và không được gán màu.DBSCAN là một thuật toán nhanh và có thể mở rộng với hiệu suất O(n2) trong trường hợp xấu nhất.Đối với phân tích hiện tại, nó không thực sự ngẫu nhiên.Số điểm tối thiểu được xác định theo đánh giá của chuyên gia.Sau khi điều chỉnh khoảng cách sau, kết quả không đủ ổn định trong khoảng ≈±10.Khoảng cách này được thiết lập bằng cách sử dụng khả năng kết nối (Hình 6A) và tỷ lệ phần trăm bao phủ đại dương (Hình 6B).Khả năng kết nối được định nghĩa là số cụm tổng hợp và nhạy cảm với tham số ϵ.Khả năng kết nối thấp hơn cho thấy không đủ sự phù hợp, nhóm các vùng lại với nhau một cách giả tạo.Khả năng kết nối cao cho thấy quá mức.Có thể sử dụng mức tối thiểu cao hơn, nhưng nếu mức tối thiểu vượt quá ca thì không thể đạt được giải pháp đáng tin cậy.135 (Để biết thêm chi tiết, xem Vật liệu và Phương pháp).
115 cụm được xác định trong Hình 2A được chiếu trở lại trái đất trong Hình 2B.Mỗi màu tương ứng với sự kết hợp mạch lạc của các yếu tố sinh địa hóa và sinh thái được DBSCAN xác định.Sau khi xác định được các cụm, sự liên kết của từng điểm trong Hình 2A với vĩ độ và kinh độ cụ thể sẽ được sử dụng để chiếu các cụm trở lại khu vực địa lý.Hình 2B minh họa điều này với các cụm màu giống như Hình 2A.Các màu tương tự không nên được hiểu là sự tương đồng về sinh thái, bởi vì chúng được chỉ định theo thứ tự các cụm được thuật toán phát hiện.
Khu vực trong Hình 2B có thể tương tự về mặt chất lượng với một khu vực đã được thiết lập về mặt vật lý và/hoặc hóa sinh của đại dương.Ví dụ, các cụm ở Nam Đại Dương có tính chất đối xứng theo đới, xuất hiện các xoáy ít dinh dưỡng và sự chuyển đổi mạnh cho thấy ảnh hưởng của gió mậu dịch.Ví dụ, ở xích đạo Thái Bình Dương, người ta thấy các vùng khác nhau liên quan đến sự gia tăng.
Để hiểu được môi trường sinh thái của Tỉnh Sinh thái, một biến thể của chỉ số chênh lệch Bray-Curtis (BC) (29) đã được sử dụng để đánh giá hệ sinh thái trong cụm.Chỉ báo BC là dữ liệu thống kê được sử dụng để định lượng sự khác biệt về cấu trúc cộng đồng giữa hai địa điểm khác nhau.Phép đo BC áp dụng cho sinh khối của 51 loài thực vật phù du và động vật phù du BCninj = 1-2CninjSni + Snj
BCninj đề cập đến sự tương đồng giữa sự kết hợp ni và sự kết hợp nj, trong đó Cninj là giá trị tối thiểu của một loại sinh khối tồn tại trong cả hai sự kết hợp ni và nj, và Sni đại diện cho tổng của tất cả các sinh khối tồn tại trong cả hai sự kết hợp ni và Snj.Hiệu BC tương tự như thước đo khoảng cách, nhưng hoạt động trong không gian phi Euclide, có thể phù hợp hơn với dữ liệu sinh thái và cách giải thích nó.
Đối với mỗi cụm được xác định trong Hình 2B, có thể đánh giá được sự tương đồng của BC nội tỉnh và liên tỉnh.Chênh lệch BC trong một tỉnh là chênh lệch giữa giá trị trung bình của tỉnh và từng điểm trong tỉnh.Sự khác biệt giữa các tỉnh BC ám chỉ sự tương đồng giữa tỉnh này với các tỉnh khác.Hình 3A thể hiện ma trận BC đối xứng (0, đen: hoàn toàn tương ứng; 1, trắng: hoàn toàn khác nhau).Mỗi dòng trong biểu đồ hiển thị một mẫu trong dữ liệu.Hình 3B thể hiện tầm quan trọng về mặt địa lý của kết quả BC trong Hình 3A đối với từng tỉnh.Đối với một tỉnh thuộc vùng dinh dưỡng thấp và vùng nghèo dinh dưỡng, Hình 3B cho thấy tính đối xứng của các khu vực rộng lớn xung quanh xích đạo và Ấn Độ Dương về cơ bản là giống nhau, nhưng các vĩ độ cao hơn và các vùng nước dâng có sự khác biệt đáng kể.
(A) Mức độ khác biệt BC được đánh giá cho mỗi tỉnh dựa trên mức trung bình bề mặt toàn cầu trung bình trong 20 năm của 51 sinh vật phù du.Lưu ý tính đối xứng mong đợi của các giá trị.(B) Hình chiếu không gian của một cột (hoặc hàng).Đối với một tỉnh trong vòng tròn loạn dưỡng, sự phân bố toàn cầu của thước đo độ tương tự BC đã được đánh giá và mức trung bình toàn cầu trong 20 năm được đánh giá.Màu đen (BC = 0) có nghĩa là cùng một khu vực và màu trắng (BC = 1) có nghĩa là không có sự tương đồng.
Hình 4A minh họa sự khác biệt về BC trong mỗi tỉnh trong Hình 2B.Xác định bằng cách sử dụng tổ hợp trung bình diện tích trung bình trong một cụm và xác định độ khác biệt giữa BC và giá trị trung bình của từng điểm lưới trong tỉnh cho thấy phương pháp SAGE có thể phân tách tốt 51 loài dựa trên mức độ tương đồng sinh thái. dữ liệu mô hình.Độ khác biệt trung bình tổng thể của cụm BC của tất cả 51 loại là 0,102±0,0049.
(A, B và D) Sự khác biệt BC trong tỉnh được đánh giá là chênh lệch BC trung bình giữa mỗi cộng đồng điểm lưới và tỉnh trung bình và độ phức tạp không giảm.(2) Chênh lệch BC nội tỉnh trung bình toàn cầu là 0,227±0,117.Đây là chuẩn mực của việc phân loại dựa trên động lực sinh thái được đề xuất bởi tác phẩm này [đường màu xanh lá cây ở (C)].(C) Chênh lệch BC nội tỉnh trung bình: Đường màu đen biểu thị chênh lệch BC nội tỉnh với mức độ phức tạp ngày càng tăng.2σ xuất phát từ 10 lần lặp lại quy trình xác định tỉnh sinh thái.Đối với tổng độ phức tạp của các tỉnh được DBSCAN phát hiện, (A) cho thấy độ khác biệt BC ở tỉnh là 0,099 và phân loại độ phức tạp do (C) đề xuất là 12, dẫn đến độ khác biệt BC ở tỉnh là 0,200.như hình ảnh cho thấy.(D).
Trong Hình 4B, sinh khối của 51 loại sinh vật phù du được sử dụng để thể hiện sự khác biệt BC tương đương ở tỉnh Longhurst.Điểm trung bình chung của mỗi tỉnh là 0,227 và độ lệch chuẩn của các điểm lưới có liên quan đến sự khác biệt ở tỉnh BC là 0,046.Cụm này lớn hơn cụm được xác định trong Hình 1B.Thay vào đó, bằng cách sử dụng tổng của bảy nhóm chức năng, mức chênh lệch BC trung bình giữa các mùa ở Longhurst đã tăng lên 0,232.
Bản đồ tỉnh sinh thái toàn cầu cung cấp các chi tiết phức tạp về các tương tác sinh thái độc đáo và những cải tiến đã được thực hiện khi sử dụng toàn bộ cấu trúc hệ sinh thái của Tỉnh Longhurst.Bộ Sinh thái dự kiến ​​sẽ cung cấp cái nhìn sâu sắc về quá trình kiểm soát hệ sinh thái mô hình số và cái nhìn sâu sắc này sẽ giúp ích cho việc khám phá công việc thực địa.Với mục đích của nghiên cứu này, không thể hiển thị đầy đủ hơn một trăm tỉnh.Phần tiếp theo giới thiệu phương pháp SAGE tổng hợp các tỉnh.
Một trong những mục đích của tỉnh là nâng cao hiểu biết về vị trí và cách quản lý của tỉnh.Để xác định các tình huống khẩn cấp, phương pháp trong Hình 1B minh họa sự lồng ghép của các tỉnh tương tự nhau về mặt sinh thái.Các tỉnh sinh thái được nhóm lại với nhau dựa trên sự tương đồng về sinh thái và việc nhóm các tỉnh như vậy được gọi là AEP.Đặt mức độ phức tạp có thể điều chỉnh được dựa trên tổng số tỉnh được xem xét.Thuật ngữ “độ phức tạp” được sử dụng vì nó cho phép điều chỉnh mức độ của các thuộc tính khẩn cấp.Để xác định các tập hợp có ý nghĩa, chênh lệch BC trung bình nội tỉnh là 0,227 so với Longhurst được sử dụng làm điểm chuẩn.Dưới mức chuẩn này, các tỉnh kết hợp không còn được coi là hữu ích nữa.
Như được hiển thị trong Hình 3B, các tỉnh sinh thái toàn cầu rất mạch lạc.Sử dụng sự khác biệt BC giữa các tỉnh, có thể thấy một số cấu hình rất “chung”.Lấy cảm hứng từ phương pháp di truyền và lý thuyết đồ thị, “đồ thị được kết nối” được sử dụng để sắp xếp >100 tỉnh dựa trên các tỉnh giống với chúng nhất.Chỉ số “kết nối” ở đây được xác định dựa trên sự khác biệt BC giữa các tỉnh (30).Số tỉnh có không gian phân loại lớn hơn > 100 tỉnh ở đây có thể coi là độ phức tạp.AEP là sản phẩm phân loại hơn 100 tỉnh thành các tỉnh sinh thái nổi trội/gần nhất.Mỗi tỉnh sinh thái được giao cho tỉnh sinh thái thống trị/có tính kết nối cao giống với tỉnh đó nhất.Tập hợp này được xác định bởi sự khác biệt BC cho phép một cách tiếp cận lồng nhau đối với hệ sinh thái toàn cầu.
Độ phức tạp được chọn có thể là bất kỳ giá trị nào từ 1 đến độ phức tạp hoàn toàn của FIG.2A.Ở độ phức tạp thấp hơn, AEP có thể bị suy biến do bước giảm kích thước xác suất (t-SNE).Suy thoái có nghĩa là các tỉnh sinh thái có thể được chỉ định cho các AEP khác nhau giữa các lần lặp, do đó làm thay đổi khu vực địa lý được bao phủ.Hình 4C minh họa sự lan rộng của sự khác biệt BC trong các tỉnh trong AEP với mức độ phức tạp ngày càng tăng trong 10 lần triển khai (minh họa trong Hình 1B).Trong Hình 4C, 2σ (vùng màu xanh lam) là thước đo mức độ xuống cấp trong 10 lần triển khai và đường màu xanh lục biểu thị điểm chuẩn Longhurst.Thực tế đã chứng minh rằng độ phức tạp của 12 có thể giữ chênh lệch BC ở tỉnh dưới mức chuẩn Longhurst trong tất cả các lần triển khai và duy trì mức suy giảm 2σ tương đối nhỏ.Tóm lại, độ phức tạp tối thiểu được khuyến nghị là 12 AEP và chênh lệch BC trung bình trong nội tỉnh được đánh giá bằng cách sử dụng 51 loại sinh vật phù du là 0,198±0,013, như trong Hình 4D.Sử dụng tổng của bảy nhóm sinh vật phù du, chênh lệch BC trung bình trong tỉnh là 2σ thay vì 0,198±0,004.So sánh giữa chênh lệch BC được tính toán với tổng sinh khối của bảy nhóm chức năng hoặc sinh khối của tất cả 51 loại sinh vật phù du cho thấy mặc dù phương pháp SAGE có thể áp dụng cho tình huống 51 chiều nhưng nó dành cho tổng sinh khối của bảy nhóm chức năng. Cho tập huấn.
Tùy thuộc vào mục đích của bất kỳ nghiên cứu nào, có thể xem xét mức độ phức tạp khác nhau.Các nghiên cứu khu vực có thể yêu cầu độ phức tạp hoàn toàn (tức là tất cả 115 tỉnh).Để làm ví dụ và để rõ ràng, hãy xem xét độ phức tạp tối thiểu được đề xuất là 12.
Là một ví dụ về tiện ích của phương pháp SAGE, 12 AEP với độ phức tạp tối thiểu là 12 được sử dụng ở đây để khám phá khả năng kiểm soát cấu trúc cộng đồng khẩn cấp.Hình 5 minh họa những hiểu biết sâu sắc về sinh thái được nhóm theo AEP (từ A đến L): Trong phép đo lượng hóa học Redfield, phạm vi địa lý (Hình 5C), thành phần sinh khối nhóm chức năng (Hình 5A) và nguồn cung cấp chất dinh dưỡng (Hình 5B) được thực hiện bởi N Zoomed.Tỷ lệ (N:Si:P:Fe, 1:1:16:16×103) được hiển thị.Đối với bảng sau, P nhân với 16 và Fe nhân với 16×103, do đó biểu đồ thanh tương đương với nhu cầu dinh dưỡng của thực vật phù du.
Các tỉnh được phân thành 12 AEP từ A đến L. (A) Sinh khối (mgC/m3) của các hệ sinh thái tại 12 tỉnh.(B) Tốc độ dòng dinh dưỡng của nitơ vô cơ hòa tan (N), sắt (Fe), photphat (P) và axit silicic (Si) (mmol/m3 mỗi năm).Fe và P được nhân tương ứng với 16 và 16×103, sao cho các dải này được chuẩn hóa theo yêu cầu cân bằng hóa học của thực vật phù du.(C) Lưu ý sự khác biệt giữa các vùng cực, xoáy thuận cận nhiệt đới và các vùng nước dâng/theo mùa chính.Các trạm quan trắc được đánh dấu như sau: 1, SEATS;2, ALOHA;3, trạm P;và 4, BATS.
AEP được xác định là duy nhất.Có một số đối xứng xung quanh đường xích đạo ở Đại Tây Dương và Thái Bình Dương, và một khu vực tương tự nhưng mở rộng hơn ở Ấn Độ Dương.Một số AEP bao trùm phía tây của lục địa gắn liền với quá trình đi lên.Dòng hải lưu vòng cực Nam được coi là một đặc điểm có tính chất đới rộng lớn.Xoáy thuận cận nhiệt đới là một chuỗi phức tạp của AEP thiểu dưỡng.Ở các tỉnh này, mô hình quen thuộc về sự khác biệt về sinh khối giữa các vùng xoáy ít dinh dưỡng chiếm ưu thế bởi sinh vật phù du và các vùng cực giàu tảo cát là rõ ràng.
Các AEP có tổng sinh khối thực vật phù du rất giống nhau có thể có cấu trúc quần xã rất khác nhau và bao phủ các khu vực địa lý khác nhau, chẳng hạn như D, H và K, có tổng sinh khối thực vật phù du tương tự nhau.AEP H chủ yếu tồn tại ở vùng xích đạo Ấn Độ Dương và có nhiều vi khuẩn diazotrophic hơn.AEP D được tìm thấy ở một số lưu vực, nhưng nó đặc biệt nổi bật ở Thái Bình Dương xung quanh các khu vực có năng suất cao xung quanh vùng nước dâng xích đạo.Hình dạng của tỉnh Thái Bình Dương này gợi nhớ đến một đoàn tàu sóng hành tinh.Có ít vi khuẩn diazobacteria trong AEP D và nhiều tế bào hình nón hơn.So với hai tỉnh còn lại, AEP K chỉ được tìm thấy ở vùng cao nguyên Bắc Băng Dương, có nhiều tảo cát và ít sinh vật phù du hơn.Điều đáng chú ý là lượng sinh vật phù du ở 3 vùng này cũng rất khác nhau.Trong số đó, lượng sinh vật phù du của AEP K tương đối thấp, trong khi lượng sinh vật phù du của AEP D và H tương đối cao.Do đó, mặc dù sinh khối của chúng (và do đó tương tự như Chl-a), các tỉnh này khá khác nhau: Thử nghiệm tỉnh dựa trên Chl có thể không nắm bắt được những khác biệt này.
Rõ ràng là một số AEP có sinh khối rất khác nhau có thể giống nhau về cấu trúc quần xã thực vật phù du.Ví dụ: điều này có thể thấy rõ ở AEP D và E. Chúng ở gần nhau và ở Thái Bình Dương, AEP E gần với AEPJ có năng suất cao.Tương tự, không có mối liên hệ rõ ràng giữa sinh khối thực vật phù du và sự phong phú của động vật phù du.
AEP có thể được hiểu theo nghĩa các chất dinh dưỡng được cung cấp cho chúng (Hình 5B).Tảo cát chỉ tồn tại ở nơi có nguồn cung cấp axit silicic dồi dào.Nói chung, nguồn cung cấp axit silicic càng cao thì sinh khối tảo cát càng cao.Tảo cát có thể được nhìn thấy ở AEP A, J, K và L. Tỷ lệ sinh khối tảo cát so với các thực vật phù du khác được xác định bởi lượng N, P và Fe được cung cấp so với nhu cầu tảo cát.Ví dụ, AEP L bị tảo cát chiếm ưu thế.So với các chất dinh dưỡng khác thì Si có nguồn cung cấp cao nhất.Ngược lại, mặc dù năng suất cao hơn nhưng AEP J có ít tảo cát hơn và cung cấp ít silicon hơn (tất cả và liên quan đến các chất dinh dưỡng khác).
Vi khuẩn Diazonium có khả năng cố định đạm nhưng phát triển chậm (31).Chúng cùng tồn tại với các thực vật phù du khác, nơi có quá nhiều sắt và phốt pho so với nhu cầu về chất dinh dưỡng không chứa diazonium (20, 21).Điều đáng chú ý là sinh khối diazotrophic tương đối cao và nguồn cung cấp Fe và P tương đối lớn so với nguồn cung cấp N. Theo cách này, mặc dù tổng sinh khối trong AEP J cao hơn nhưng sinh khối diazonium trong AEP H là lớn hơn ở J. Xin lưu ý rằng AEP J và H rất khác nhau về mặt địa lý và H nằm ở xích đạo Ấn Độ Dương.
Nếu cấu trúc hệ sinh thái độc đáo không được chia thành các tỉnh thì những hiểu biết sâu sắc thu được từ 12 mô hình có độ phức tạp thấp nhất của AEP sẽ không quá rõ ràng.AEP do SAGE tạo ra tạo điều kiện cho việc so sánh mạch lạc và đồng thời các thông tin phức tạp và đa chiều từ các mô hình hệ sinh thái.AEP nhấn mạnh một cách hiệu quả lý do tại sao Chl không phải là phương pháp tốt và thay thế để xác định cấu trúc quần xã hoặc sự phong phú của động vật phù du ở mức dinh dưỡng cao hơn.Một phân tích chi tiết về các chủ đề nghiên cứu đang diễn ra nằm ngoài phạm vi của bài viết này.Phương pháp SAGE cung cấp cách khám phá các cơ chế khác trong mô hình dễ xử lý hơn so với xem điểm-điểm.
Phương pháp SAGE được đề xuất để giúp làm rõ dữ liệu sinh thái cực kỳ phức tạp từ các mô hình số vật lý/hóa sinh/hệ sinh thái toàn cầu.Tỉnh sinh thái được xác định bởi tổng sinh khối của các nhóm chức năng sinh vật phù du, ứng dụng thuật toán giảm kích thước xác suất t-SNE và phân cụm bằng phương pháp ML không giám sát DBSCAN.Lý thuyết biểu đồ/sự khác biệt BC liên tỉnh cho phương pháp lồng được áp dụng để rút ra AEP mạnh mẽ có thể được sử dụng để giải thích toàn cầu.Về mặt xây dựng, Tỉnh Sinh thái và AEP là duy nhất.Việc lồng AEP có thể được điều chỉnh giữa mức độ phức tạp hoàn toàn của tỉnh sinh thái ban đầu và ngưỡng tối thiểu được đề xuất là 12 AEP.Việc lồng ghép và xác định độ phức tạp tối thiểu của AEP được coi là các bước quan trọng, vì xác suất t-SNE làm suy biến AEP có độ phức tạp <12.Phương pháp SAGE có tính toàn cầu và độ phức tạp của nó dao động từ> 100 AEP đến 12. Để đơn giản, trọng tâm hiện tại là độ phức tạp của 12 AEP toàn cầu.Nghiên cứu trong tương lai, đặc biệt là các nghiên cứu khu vực, có thể thấy hữu ích ở một tập hợp không gian nhỏ hơn của các tỉnh sinh thái toàn cầu và có thể được tổng hợp trong một khu vực nhỏ hơn để tận dụng những hiểu biết sâu sắc về sinh thái tương tự được thảo luận ở đây.Nó cung cấp các đề xuất về cách sử dụng các tỉnh sinh thái này và những hiểu biết thu được từ chúng để hiểu biết sâu hơn về sinh thái, tạo điều kiện thuận lợi cho việc so sánh mô hình và có khả năng cải thiện việc giám sát hệ sinh thái biển.
Tỉnh sinh thái và AEP được xác định bằng phương pháp SAGE dựa trên dữ liệu trong mô hình số.Theo định nghĩa, mô hình số là một cấu trúc được đơn giản hóa, cố gắng nắm bắt được bản chất của hệ thống mục tiêu và các mô hình khác nhau sẽ có sự phân bố sinh vật phù du khác nhau.Mô hình số được sử dụng trong nghiên cứu này không thể nắm bắt đầy đủ một số mẫu được quan sát (ví dụ: trong ước tính Chl cho khu vực xích đạo và Nam Đại Dương).Chỉ một phần nhỏ của sự đa dạng trong đại dương thực sự được nắm bắt và các quy mô trung bình và phụ không thể được giải quyết, điều này có thể ảnh hưởng đến dòng dinh dưỡng và cấu trúc cộng đồng quy mô nhỏ hơn.Bất chấp những hạn chế này, hóa ra AEP rất hữu ích trong việc giúp hiểu các mô hình phức tạp.Bằng cách đánh giá nơi tìm thấy các tỉnh sinh thái tương tự, AEP cung cấp một công cụ so sánh mô hình số tiềm năng.Mô hình số hiện tại nắm bắt mô hình tổng thể về nồng độ thực vật phù du Chl-a viễn thám và sự phân bố kích thước sinh vật phù du và nhóm chức năng (Lưu ý S1 và Hình S1) (2, 32).
Như được thể hiện bằng đường đồng mức 0,1 mgChl-a/m-3, AEP được chia thành vùng nghèo dinh dưỡng và vùng trung dưỡng (Hình S1B): AEP B, C, D, E, F và G là các vùng nghèo dinh dưỡng và các khu vực còn lại là nằm ở Chl-a cao hơn.AEP cho thấy một số sự tương ứng với Tỉnh Longhurst (Hình S3A), ví dụ, Nam Đại Dương và xích đạo Thái Bình Dương.Ở một số vùng, AEP bao gồm nhiều vùng Longhurst và ngược lại.Vì mục đích phân định các tỉnh ở khu vực này và Longhurst là khác nhau nên dự kiến ​​sẽ có sự khác biệt.Nhiều AEP ở tỉnh Longhurst chỉ ra rằng một số khu vực nhất định có cấu trúc hóa sinh tương tự có thể có cấu trúc hệ sinh thái rất khác nhau.AEP thể hiện sự tương ứng nhất định với các trạng thái vật lý, như được tiết lộ bằng cách sử dụng phương pháp học tập không giám sát (19), chẳng hạn như ở các trạng thái nước dâng cao (ví dụ: Nam Đại Dương và xích đạo Thái Bình Dương; Hình S3, C và D).Những sự tương ứng này chỉ ra rằng cấu trúc cộng đồng của sinh vật phù du bị ảnh hưởng mạnh mẽ bởi động lực đại dương.Ở những khu vực như Bắc Đại Tây Dương, AEP đi qua các tỉnh thực tế.Cơ chế gây ra những khác biệt này có thể bao gồm các quá trình như vận chuyển bụi, có thể dẫn đến các chương trình dinh dưỡng hoàn toàn khác nhau ngay cả trong những điều kiện vật lý giống nhau.
Bộ Sinh thái và AEP đã chỉ ra rằng chỉ sử dụng Chl không thể xác định được các thành phần sinh thái, như cộng đồng sinh thái biển đã nhận ra.Điều này được thấy ở các AEP có sinh khối tương tự nhưng thành phần sinh thái khác nhau đáng kể (chẳng hạn như D và E).Ngược lại, các AEP như D và K có sinh khối rất khác nhau nhưng thành phần sinh thái tương tự nhau.AEP nhấn mạnh rằng mối quan hệ giữa sinh khối, thành phần sinh thái và sự phong phú của động vật phù du rất phức tạp.Ví dụ, mặc dù AEP J nổi bật về sinh khối thực vật phù du và sinh vật phù du, A và L của AEP có sinh khối sinh vật phù du tương tự nhau, nhưng A có lượng sinh vật phù du cao hơn.AEP nhấn mạnh rằng sinh khối thực vật phù du (hoặc Chl) không thể được sử dụng để dự đoán sinh khối động vật phù du.Động vật phù du là nền tảng của chuỗi thức ăn thủy sản và việc ước tính chính xác hơn có thể giúp quản lý tài nguyên tốt hơn.Các vệ tinh màu biển trong tương lai [ví dụ: PACE (sinh vật phù du, khí dung, đám mây và hệ sinh thái biển)] có thể được định vị tốt hơn để giúp ước tính cấu trúc cộng đồng của thực vật phù du.Sử dụng dự đoán AEP có thể tạo điều kiện thuận lợi cho việc ước tính động vật phù du từ không gian.Các phương pháp như SAGE, kết hợp với các công nghệ mới và ngày càng có nhiều dữ liệu thực địa cho các cuộc khảo sát thực địa (chẳng hạn như Tara và nghiên cứu tiếp theo), có thể cùng nhau thực hiện một bước tiến tới giám sát sức khỏe hệ sinh thái dựa trên vệ tinh.
Phương pháp SAGE cung cấp một cách thuận tiện để đánh giá một số cơ chế kiểm soát các đặc điểm của tỉnh, chẳng hạn như sinh khối/Chl, sản lượng sơ cấp ròng và cấu trúc cộng đồng.Ví dụ, lượng tảo cát tương đối được thiết lập bởi sự mất cân bằng trong việc cung cấp Si, N, P và Fe so với các yêu cầu cân bằng hóa học của thực vật phù du.Với tỷ lệ cung cấp cân bằng, quần thể tảo cát (L) chiếm ưu thế.Khi tỷ lệ cung cấp không cân bằng (tức là nguồn cung silic thấp hơn nhu cầu dinh dưỡng của tảo cát) thì tảo cát chỉ chiếm một phần nhỏ Share (K).Khi nguồn cung cấp Fe và P vượt quá nguồn cung cấp N (ví dụ E và H), vi khuẩn diazotrophic sẽ phát triển mạnh mẽ.Thông qua bối cảnh do AEP cung cấp, việc khám phá các cơ chế kiểm soát sẽ trở nên hữu ích hơn.
Tỉnh sinh thái và AEP là những khu vực có cấu trúc cộng đồng tương tự nhau.Chuỗi thời gian từ một vị trí nhất định trong tỉnh sinh thái hoặc AEP có thể được coi là điểm tham chiếu và có thể biểu thị khu vực được bao phủ bởi tỉnh sinh thái hoặc AEP.Các trạm giám sát tại chỗ dài hạn cung cấp chuỗi thời gian như vậy.Các bộ dữ liệu tại chỗ dài hạn sẽ tiếp tục đóng một vai trò khôn lường.Từ góc độ giám sát cấu trúc cộng đồng, phương pháp SAGE có thể được coi là một cách giúp xác định vị trí hữu ích nhất của các địa điểm mới.Ví dụ: chuỗi thời gian từ đánh giá môi trường sống thiểu dưỡng dài hạn (ALOHA) nằm trong AEP B của khu vực thiểu dưỡng (Hình 5C, nhãn 2).Vì ALOHA gần với ranh giới của một AEP khác nên chuỗi thời gian có thể không đại diện cho toàn bộ khu vực như đã đề xuất trước đây (33).Trong cùng một AEP B, chuỗi thời gian SEATS (Dòng thời gian Đông Nam Á) nằm ở phía tây nam Đài Loan (34), cách xa ranh giới của các AEP khác (Hình 5C, nhãn 1) và có thể được sử dụng làm vị trí tốt hơn để giám sát AEPB.Chuỗi thời gian BATS (Nghiên cứu chuỗi thời gian Đại Tây Dương của Bermuda) (Hình 5C, nhãn 4) trong AEPC rất gần với ranh giới giữa AEP C và F, điều này cho thấy rằng việc giám sát AEP C bằng chuỗi thời gian BATS có thể trực tiếp gặp vấn đề.Trạm P trong AEP J (Hình 5C, nhãn 3) nằm xa ranh giới AEP nên mang tính đại diện hơn.Tỉnh sinh thái và AEP có thể giúp thiết lập một khung giám sát phù hợp để đánh giá những thay đổi toàn cầu, bởi vì sự cho phép của các tỉnh trong việc đánh giá nơi lấy mẫu tại chỗ có thể cung cấp những hiểu biết quan trọng.Phương pháp SAGE có thể được phát triển hơn nữa để áp dụng cho dữ liệu khí hậu nhằm đánh giá sự biến đổi tiết kiệm thời gian.
Thành công của phương pháp SAGE đạt được thông qua việc áp dụng cẩn thận các phương pháp khoa học dữ liệu/ML và kiến ​​thức về miền cụ thể​​.Cụ thể, t-SNE được sử dụng để thực hiện giảm kích thước, giúp duy trì cấu trúc hiệp phương sai của dữ liệu nhiều chiều và tạo điều kiện trực quan hóa cấu trúc liên kết hiệp phương sai.Dữ liệu được sắp xếp dưới dạng sọc và hiệp phương sai (Hình 2A), chỉ ra rằng các thước đo thuần túy dựa trên khoảng cách (chẳng hạn như K-mean) là không phù hợp vì chúng thường sử dụng phân bố cơ sở Gaussian (tròn) (được thảo luận trong Lưu ý S2) .Phương pháp DBSCAN phù hợp với mọi cấu trúc liên kết hiệp phương sai.Miễn là bạn chú ý đến việc cài đặt các tham số, bạn có thể nhận dạng đáng tin cậy.Chi phí tính toán của thuật toán t-SNE cao, điều này hạn chế ứng dụng hiện tại của nó ở lượng dữ liệu lớn hơn, điều đó có nghĩa là khó áp dụng cho các trường sâu hoặc thay đổi theo thời gian.Công việc nghiên cứu khả năng mở rộng của t-SNE đang được tiến hành.Do khoảng cách KL dễ dàng song song hóa nên thuật toán t-SNE có tiềm năng mở rộng tốt trong tương lai (35).Cho đến nay, các phương pháp giảm kích thước đầy hứa hẹn khác có thể giảm kích thước tốt hơn bao gồm các kỹ thuật xấp xỉ và chiếu đa tạp thống nhất (UMAP), nhưng việc đánh giá trong bối cảnh dữ liệu đại dương là cần thiết.Ý nghĩa của khả năng mở rộng tốt hơn là, ví dụ, phân loại khí hậu toàn cầu hoặc các mô hình có độ phức tạp khác nhau trên một lớp hỗn hợp.Các khu vực không được SAGE phân loại ở bất kỳ tỉnh nào có thể được coi là các chấm đen còn lại trong Hình 2A.Về mặt địa lý, những khu vực này chủ yếu nằm ở những khu vực có tính mùa vụ cao, điều này cho thấy rằng việc nắm bắt các tỉnh sinh thái thay đổi theo thời gian sẽ mang lại mức độ bao phủ tốt hơn.
Để xây dựng phương pháp SAGE, các ý tưởng từ các hệ thống/khoa học dữ liệu phức tạp đã được sử dụng, sử dụng khả năng xác định các cụm nhóm chức năng (khả năng rất gần nhau trong không gian 11 chiều) và xác định các tỉnh.Các tỉnh này mô tả các khối cụ thể trong không gian pha 3D t-SNE của chúng tôi.Tương tự, phần Poincaré có thể được sử dụng để đánh giá “thể tích” của không gian trạng thái bị quỹ đạo chiếm giữ nhằm xác định hành vi “bình thường” hoặc “hỗn loạn” (36).Đối với đầu ra mô hình 11 chiều tĩnh, thể tích chiếm dụng sau khi dữ liệu được chuyển đổi thành không gian pha 3D có thể được giải thích tương tự.Mối quan hệ giữa diện tích địa lý và diện tích trong không gian pha 3D không đơn giản nhưng có thể giải thích dưới dạng tương đồng sinh thái.Vì lý do này, thước đo độ chênh lệch BC thông thường hơn được ưa thích hơn.
Công việc trong tương lai sẽ sử dụng lại phương pháp SAGE cho dữ liệu thay đổi theo mùa để đánh giá sự biến đổi theo không gian của các tỉnh đã xác định và AEP.Mục tiêu trong tương lai là sử dụng phương pháp này để giúp xác định tỉnh nào có thể được xác định thông qua các phép đo vệ tinh (chẳng hạn như Chl-a, độ phản xạ viễn thám và nhiệt độ mặt nước biển).Điều này sẽ cho phép đánh giá viễn thám các thành phần sinh thái và giám sát rất linh hoạt các tỉnh sinh thái và sự biến đổi của chúng.
Mục đích của nghiên cứu này là giới thiệu phương pháp SAGE, phương pháp xác định một tỉnh sinh thái thông qua cấu trúc cộng đồng sinh vật phù du độc đáo.Tại đây, thông tin chi tiết hơn về mô hình vật lý/sinh địa hóa/hệ sinh thái và việc lựa chọn tham số của thuật toán t-SNE và DBSCAN sẽ được cung cấp.
Các thành phần vật lý của mô hình đến từ việc ước tính hoàn lưu đại dương và khí hậu [ECCOv4;(37) ước tính trạng thái toàn cầu được mô tả bởi (38).Độ phân giải danh nghĩa của ước tính trạng thái là 1/5.Phương pháp bình phương tối thiểu với phương pháp nhân tử Lagrangian được sử dụng để thu được các điều kiện ban đầu, điều kiện biên và các tham số mô hình bên trong được điều chỉnh bằng quan sát, từ đó tạo ra mô hình chu trình tổng quát MIT (MITgcm) chạy tự do (39), mô hình sau khi tối ưu hóa, kết quả có thể được theo dõi và quan sát.
Hóa sinh/hệ sinh thái có mô tả đầy đủ hơn (tức là các phương trình và giá trị tham số) trong (2).Mô hình ghi lại sự lưu thông của C, N, P, Si và Fe qua các ao vô cơ và hữu cơ.Phiên bản được sử dụng ở đây bao gồm 35 loài thực vật phù du: 2 loài vi nhân nhân sơ và 2 loài vi sinh vật nhân chuẩn (thích hợp với môi trường dinh dưỡng thấp), 5 loài Cryptomonas sphaeroides (có lớp phủ canxi cacbonat), 5 loài diazonium (Có thể cố định nitơ, vì vậy không giới hạn) sự sẵn có của nitơ vô cơ hòa tan), 11 tảo cát (tạo thành lớp phủ silic), 10 loài roi thực vật hỗn hợp (có thể quang hợp và ăn các sinh vật phù du khác) và 16 động vật phù du (ăn cỏ trên các sinh vật phù du khác).Chúng được gọi là “nhóm chức năng sinh địa hóa” vì chúng có tác dụng khác nhau đối với hóa sinh địa hóa biển (40, 41) và thường được sử dụng trong quan sát và nghiên cứu mô hình.Trong mô hình này, mỗi nhóm chức năng bao gồm một số sinh vật phù du có kích thước khác nhau, với đường kính hình cầu tương đương từ 0,6 đến 2500 μm.
Các thông số ảnh hưởng đến sự phát triển, chăn thả và chìm của thực vật phù du có liên quan đến kích thước và có sự khác biệt cụ thể giữa sáu nhóm chức năng thực vật phù du (32).Mặc dù có các khuôn khổ vật lý khác nhau nhưng kết quả của 51 thành phần sinh vật phù du của mô hình đã được sử dụng trong một số nghiên cứu gần đây (42-44).
Từ năm 1992 đến năm 2011, mô hình kết hợp vật lý/sinh địa hóa/hệ sinh thái đã hoạt động được 20 năm.Đầu ra của mô hình bao gồm sinh khối sinh vật phù du, nồng độ chất dinh dưỡng và tốc độ cung cấp chất dinh dưỡng (DIN, PO4, Si và Fe).Trong nghiên cứu này, kết quả đầu ra trung bình trong 20 năm này được sử dụng làm đầu vào của Tỉnh Sinh thái.Chl, sự phân bố sinh khối sinh vật phù du và nồng độ chất dinh dưỡng cũng như sự phân bố của các nhóm chức năng được so sánh với các quan sát vệ tinh và tại chỗ [xem (2, 44), Lưu ý S1 và hình.S1 đến S3].
Đối với phương pháp SAGE, nguồn ngẫu nhiên chính đến từ bước t-SNE.Tính ngẫu nhiên cản trở khả năng lặp lại, nghĩa là kết quả không đáng tin cậy.Phương pháp SAGE kiểm tra nghiêm ngặt độ tin cậy bằng cách xác định một bộ tham số t-SNE và DBSCAN, những tham số này có thể xác định các cụm một cách nhất quán khi lặp lại.Việc xác định “độ phức tạp” của tham số t-SNE có thể được hiểu là xác định mức độ mà ánh xạ từ kích thước cao đến kích thước thấp phải tôn trọng các đặc điểm cục bộ hoặc toàn cầu của dữ liệu.Đạt đến sự nhầm lẫn của 400 và 300 lần lặp.
Đối với thuật toán phân cụm DBSCAN, cần xác định kích thước tối thiểu và số liệu khoảng cách của các điểm dữ liệu trong cụm.Số lượng tối thiểu được xác định dưới sự hướng dẫn của các chuyên gia.Kiến thức này biết những gì phù hợp với khung và độ phân giải mô hình số hiện tại.Số tối thiểu là 100. Có thể xem xét giá trị tối thiểu cao hơn (nhỏ hơn <135 trước khi giới hạn trên của màu xanh lá cây trở nên rộng hơn), nhưng nó không thể thay thế phương pháp tổng hợp dựa trên độ lệch BC.Mức độ kết nối (Hình 6A) được sử dụng để đặt tham số ϵ, có lợi cho phạm vi phủ sóng cao hơn (Hình 6B).Khả năng kết nối được định nghĩa là số cụm tổng hợp và nhạy cảm với tham số ϵ.Khả năng kết nối thấp hơn cho thấy không đủ sự phù hợp, nhóm các vùng lại với nhau một cách giả tạo.Khả năng kết nối cao cho thấy trang bị quá mức.Việc trang bị quá mức cũng có vấn đề vì nó cho thấy những dự đoán ngẫu nhiên ban đầu có thể dẫn đến kết quả không thể lặp lại được.Giữa hai thái cực này, mức tăng mạnh (thường được gọi là “khuỷu tay”) cho thấy ϵ tốt nhất.Trong Hình 6A, bạn thấy vùng cao nguyên tăng mạnh (màu vàng, > 200 cụm), sau đó giảm mạnh (màu xanh lá cây, 100 cụm), lên tới khoảng 130, xung quanh có rất ít cụm (màu xanh, <60 cụm) ).Trong ít nhất 100 khu vực màu xanh lam, một cụm thống trị toàn bộ đại dương (ϵ <0,42) hoặc phần lớn đại dương không được phân loại và được coi là tiếng ồn (ϵ> 0,99).Vùng màu vàng có sự phân bố cụm rất khác nhau và không thể tái tạo được.Khi ϵ giảm, độ ồn tăng lên.Vùng màu xanh lá cây tăng mạnh được gọi là khuỷu tay.Đây là vùng tối ưuMặc dù xác suất t-SNE được sử dụng nhưng độ khác biệt BC trong tỉnh vẫn có thể được sử dụng để xác định phân cụm đáng tin cậy.Sử dụng Hình 6 (A và B), đặt ϵ thành 0,39.Số tối thiểu càng lớn thì xác suất đạt ϵ cho phép phân loại đáng tin cậy càng nhỏ và vùng màu xanh lá cây có giá trị lớn hơn 135 càng lớn. Việc mở rộng vùng này cho thấy khuỷu tay sẽ khó tìm hơn hoặc không tồn tại.
Sau khi thiết lập các tham số của t-SNE, tổng số cụm được tìm thấy sẽ được sử dụng làm thước đo khả năng kết nối (A) và tỷ lệ phần trăm dữ liệu được phân bổ cho cụm (B).Dấu chấm màu đỏ biểu thị sự kết hợp tốt nhất giữa vùng phủ sóng và khả năng kết nối.Số lượng tối thiểu được đặt theo số lượng tối thiểu liên quan đến sinh thái.
Để biết tài liệu bổ sung cho bài viết này, vui lòng xem http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Đây là bài viết truy cập mở được phân phối theo các điều khoản của Giấy phép Ghi nhận tác giả Creative Commons.Bài viết cho phép sử dụng, phân phối và sao chép không hạn chế dưới bất kỳ phương tiện nào với điều kiện tác phẩm gốc được trích dẫn hợp lý.
Lưu ý: Chúng tôi chỉ yêu cầu bạn cung cấp địa chỉ email của mình để người được bạn giới thiệu vào trang biết rằng bạn muốn họ xem email và đó không phải là thư rác.Chúng tôi sẽ không nắm bắt bất kỳ địa chỉ email nào.
Câu hỏi này được sử dụng để kiểm tra xem bạn có phải là khách truy cập hay không và ngăn chặn việc gửi thư rác tự động.
Bộ Sinh thái Biển Toàn cầu quyết tâm giải quyết các vấn đề phức tạp và sử dụng ML không được giám sát để khám phá các cấu trúc cộng đồng.
Bộ Sinh thái Biển Toàn cầu quyết tâm giải quyết các vấn đề phức tạp và sử dụng ML không được giám sát để khám phá các cấu trúc cộng đồng.


Thời gian đăng: Jan-12-2021