topimg

شفاف سازی پیچیدگی اکولوژیکی: یادگیری بدون نظارت استان اکولوژیکی دریایی جهانی را تعیین می کند

یک روش یادگیری بدون نظارت برای تعیین استان های اکولوژیکی دریایی جهانی (استان های زیست محیطی) بر اساس ساختار جامعه پلانکتون و داده های شار مواد مغذی پیشنهاد شده است.روش سیستماتیک استان یکپارچه اکولوژیکی (SAGE) می‌تواند استان‌های اکولوژیکی را در مدل‌های اکوسیستم بسیار غیرخطی شناسایی کند.به منظور انطباق با کوواریانس غیر گاوسی داده ها، SAGE از جاسازی همسایه تصادفی t (t-SNE) برای کاهش ابعاد استفاده می کند.با کمک برنامه نویز مبتنی بر الگوریتم خوشه بندی فضایی مبتنی بر تراکم (DBSCAN) می توان بیش از صد استان اکولوژیکی را شناسایی کرد.با استفاده از نقشه اتصال با تفاوت‌های زیست‌محیطی به‌عنوان اندازه‌گیری فاصله، یک استان اکولوژیکی جمع‌شده قوی (AEP) به طور عینی از طریق استان‌های بوم‌شناختی تودرتو تعریف می‌شود.با استفاده از AEPs، کنترل نرخ عرضه مواد مغذی بر ساختار جامعه مورد بررسی قرار گرفت.اکو استان و AEP منحصر به فرد هستند و می توانند به تفسیر مدل کمک کنند.آنها می توانند مقایسه بین مدل ها را تسهیل کنند و ممکن است درک و نظارت بر اکوسیستم های دریایی را افزایش دهند.
استان ها مناطقی هستند که جغرافیای زیستی پیچیده در دریا یا خشکی در مناطق منسجم و معنادار سازماندهی شده است (1).این استان ها برای مقایسه و مقایسه مکان ها، مشخص کردن مشاهدات، نظارت و حفاظت بسیار مهم هستند.تعاملات پیچیده و غیرخطی که این استان ها را تولید می کنند، روش های یادگیری ماشینی بدون نظارت (ML) را برای تعیین عینی استان ها بسیار مناسب می کند، زیرا کوواریانس در داده ها پیچیده و غیر گاوسی است.در اینجا، یک روش ML پیشنهاد می‌شود که به طور سیستماتیک استان‌های زیست‌محیطی دریایی منحصربه‌فرد (استان‌های زیست محیطی) را از مدل فیزیکی/اکوسیستم جهانی سه‌بعدی (3D) داروین شناسایی می‌کند (2).اصطلاح "منحصر به فرد" برای نشان دادن اینکه منطقه شناسایی شده به اندازه کافی با مناطق دیگر همپوشانی ندارد استفاده می شود.این روش را روش سیستم یکپارچه اکولوژیکی استان (SAGE) می نامند.برای انجام طبقه‌بندی مفید، یک روش الگوریتمی باید اجازه دهد (i) طبقه‌بندی کلی و (ب) تجزیه و تحلیل چند مقیاسی که می‌تواند در فضا و زمان تودرتو/تجمیع شود (3).در این تحقیق ابتدا روش SAGE پیشنهاد شد و استان های اکولوژیکی شناسایی شده مورد بحث قرار گرفت.استان‌های زیست‌محیطی می‌توانند درک عواملی را که ساختار جامعه را کنترل می‌کنند، ارتقا دهند، بینش مفیدی برای استراتژی‌های پایش ارائه دهند و به ردیابی تغییرات در اکوسیستم کمک کنند.
استان های خشکی معمولاً بر اساس شباهت ها در آب و هوا (بارش و دما)، خاک، پوشش گیاهی و جانوران طبقه بندی می شوند و برای مدیریت کمکی، تحقیقات تنوع زیستی و کنترل بیماری ها استفاده می شوند (1، 4).تعریف استان های دریایی دشوارتر است.بیشتر موجودات میکروسکوپی با مرزهای مایع هستند.لانگهرست و همکاران(5) ارائه یکی از اولین طبقه بندی های جهانی وزارت اقیانوس شناسی بر اساس شرایط محیطی.تعریف این استان‌های لانگ‌هورست شامل متغیرهایی مانند نرخ اختلاط، طبقه‌بندی و تابش و همچنین تجربه گسترده لانگ‌هورست به عنوان اقیانوس‌شناس دریایی است که شرایط مهم دیگری برای اکوسیستم‌های دریایی دارد.Longhurst به طور گسترده مورد استفاده قرار گرفته است، به عنوان مثال، برای ارزیابی تولید اولیه و شار کربن، کمک به ماهیگیری، و برنامه ریزی فعالیت های مشاهده درجا (5-9).به منظور تعریف عینی تر استان ها از روش هایی مانند منطق فازی و خوشه بندی/آمار بدون نظارت منطقه ای استفاده شده است (9-14).هدف از چنین روش‌هایی شناسایی ساختارهای معناداری است که می‌توانند استان‌ها را در داده‌های مشاهده‌ای موجود شناسایی کنند.به عنوان مثال، استان‌های دریایی پویا (12) از نقشه‌های خودسازماندهی برای کاهش نویز استفاده می‌کنند و از خوشه‌بندی سلسله مراتبی (مبتنی بر درخت) برای تعیین محصولات رنگ دریایی مشتق‌شده از ماهواره‌های منطقه استفاده می‌کنند [کلروفیل a (Chl-a)، ارتفاع خط فلورسانس عادی و مواد آلی محلول رنگی] و میدان فیزیکی (دمای سطح دریا و شوری، توپوگرافی دینامیکی مطلق و یخ دریا).
ساختار جامعه پلانکتون نگران کننده است زیرا اکولوژی آن تأثیر زیادی بر سطوح بالاتر مواد مغذی، جذب کربن و آب و هوا دارد.با این وجود، تعیین یک استان اکولوژیکی جهانی بر اساس ساختار جامعه پلانکتون هنوز یک هدف چالش برانگیز و دست نیافتنی است.ماهواره های رنگی دریایی به طور بالقوه می توانند بینشی در مورد طبقه بندی دانه درشت فیتوپلانکتون ها ارائه دهند یا مزایای گروه های عملکردی را پیشنهاد کنند (15)، اما آنها در حال حاضر قادر به ارائه اطلاعات دقیق در مورد ساختار جامعه نیستند.بررسی های اخیر [به عنوان مثال تارا اوشن (16)] اندازه گیری های بی سابقه ای از ساختار جامعه ارائه می دهد.در حال حاضر، تنها مشاهدات پراکنده در محل در مقیاس جهانی وجود دارد (17).مطالعات قبلی تا حد زیادی "استان بیوژئوشیمیایی" (12، 14، 18) را بر اساس تعیین شباهت های بیوشیمیایی (مانند تولید اولیه، Chl و نور موجود) تعیین کرده اند.در اینجا، مدل عددی برای خروجی [داروین(2)] استفاده می‌شود و استان اکولوژیکی با توجه به ساختار جامعه و شار مواد مغذی تعیین می‌شود.مدل عددی مورد استفاده در این مطالعه دارای پوشش جهانی است و می تواند با داده های میدانی موجود (17) و میدان های سنجش از دور (یادداشت S1) مقایسه شود.داده های مدل عددی مورد استفاده در این مطالعه دارای مزیت پوشش جهانی است.اکوسیستم مدل شامل 35 گونه فیتوپلانکتون و 16 گونه زئوپلانکتون است (لطفاً به مواد و روش ها مراجعه کنید).انواع پلانکتون مدل به صورت غیرخطی با ساختارهای کوواریانس غیر گاوسی تعامل دارند، بنابراین روش‌های تشخیصی ساده برای شناسایی الگوهای منحصربه‌فرد و سازگار در ساختارهای اجتماعی در حال ظهور مناسب نیستند.روش SAGE که در اینجا معرفی شده است، روش جدیدی برای بررسی خروجی مدل‌های پیچیده داروین ارائه می‌کند.
قابلیت‌های قدرتمند تحول‌دهنده فن‌آوری علم داده/ML می‌تواند راه‌حل‌های مدل بسیار پیچیده را برای آشکار ساختن ساختارهای پیچیده اما قوی در کوواریانس داده‌ها فعال کند.یک روش قوی به عنوان روشی تعریف می شود که می تواند نتایج را به طور صادقانه در یک محدوده خطای معین بازتولید کند.حتی در سیستم های ساده، تعیین الگوها و سیگنال های قوی می تواند یک چالش باشد.تا زمانی که منطق منتهی به الگوی مشاهده شده مشخص نشود، پیچیدگی در حال ظهور ممکن است پیچیده/سخت به نظر برسد.فرآیند کلیدی تنظیم ترکیب اکوسیستم ماهیت غیرخطی دارد.وجود برهمکنش‌های غیرخطی می‌تواند طبقه‌بندی قوی را گیج کند، بنابراین لازم است از روش‌هایی که مفروضات قوی در مورد توزیع آماری پایه کوواریانس داده‌ها ایجاد می‌کنند اجتناب شود.داده های با ابعاد بالا و غیرخطی در اقیانوس شناسی رایج هستند و ممکن است ساختار کوواریانس با توپولوژی پیچیده و غیر گاوسی داشته باشند.اگرچه داده‌هایی با ساختار کوواریانس غیر گاوسی ممکن است مانع طبقه‌بندی قوی شوند، روش SAGE جدید است زیرا برای شناسایی خوشه‌هایی با توپولوژی‌های دلخواه طراحی شده است.
هدف روش SAGE شناسایی عینی الگوهای در حال ظهور است که ممکن است به درک بیشتر اکولوژیکی کمک کند.به دنبال یک گردش کار مبتنی بر خوشه مشابه (19)، از متغیرهای شار اکولوژیکی و مواد مغذی برای تعیین تنها خوشه در داده‌ها به نام استان اکولوژیکی استفاده می‌شود.روش SAGE پیشنهاد شده در این مطالعه (شکل 1) ابتدا ابعاد را از 55 به 11 بعد با جمع کردن گروه های عاملی پلانکتون تعریف شده پیشینی کاهش می دهد (مواد و روش ها را ببینید).با استفاده از روش t-random embedding همسایه (t-SNE)، اندازه با نمایش احتمال به فضای سه بعدی کاهش می یابد.خوشه‌بندی بدون نظارت می‌تواند مناطق نزدیک به محیط زیست را شناسایی کند [خوشه‌بندی فضایی مبتنی بر تراکم (DBSCAN) برای کاربردهای مبتنی بر نویز].هر دو t-SNE و DBSCAN برای داده های مدل عددی اکوسیستم غیرخطی ذاتی قابل استفاده هستند.سپس استان اکولوژیکی حاصل را روی زمین بازتاب دهید.بیش از صد استان اکولوژیکی منحصر به فرد، مناسب برای تحقیقات منطقه ای شناسایی شده است.به منظور در نظر گرفتن مدل اکوسیستم سازگار در سطح جهانی، از روش SAGE برای تجمیع استان‌های زیست‌محیطی به استان‌های اکولوژیکی کل (AEP) برای بهبود اثربخشی استان‌های اکولوژیکی استفاده می‌شود.سطح تجمیع (که "پیچیدگی" نامیده می شود) را می توان با سطح جزئیات مورد نیاز تنظیم کرد.حداقل پیچیدگی یک AEP قوی را تعیین کنید.تمرکز انتخاب روش SAGE و بررسی کوچکترین موارد پیچیدگی AEP برای تعیین کنترل ساختار جامعه اضطراری است.سپس می توان الگوها را برای ارائه بینش های زیست محیطی تجزیه و تحلیل کرد.روش معرفی شده در اینجا همچنین می تواند برای مقایسه مدل به طور گسترده تر مورد استفاده قرار گیرد، به عنوان مثال، با ارزیابی مکان های استان های بوم شناختی مشابه که در مدل های مختلف یافت می شوند برای برجسته کردن تفاوت ها و شباهت ها، به منظور مقایسه مدل ها.
(الف) نمودار شماتیک گردش کار برای تعیین استان اکولوژیکی؛با استفاده از مجموع در گروه عاملی برای کاهش داده های 55 بعدی اصلی به خروجی مدل 11 بعدی، از جمله زیست توده هفت پلانکتون کاربردی/مغذی و چهار نرخ عرضه مواد مغذی.ارزش ناچیز و منطقه پوشش یخ بادوام.داده ها استاندارد و استاندارد شده است.داده های 11 بعدی را به الگوریتم t-SNE ارائه دهید تا ترکیبات ویژگی های مشابه آماری را برجسته کنید.DBSCAN برای تنظیم مقدار پارامتر، خوشه را با دقت انتخاب می کند.در نهایت داده ها را به پیش بینی طول و عرض جغرافیایی برگردانید.لطفاً توجه داشته باشید که این فرآیند 10 بار تکرار می شود زیرا ممکن است با اعمال t-SNE تصادفی جزئی ایجاد شود.(B) نحوه دریافت AEP را با تکرار گردش کار در (A) 10 بار توضیح می دهد.برای هر یک از این 10 پیاده سازی، ماتریس عدم تشابه بین استانی Bray-Curtis (BC) بر اساس زیست توده 51 نوع فیتوپلانکتون تعیین شد.تفاوت BC بین استان ها را از پیچیدگی 1 AEP تا پیچیدگی کامل 115 تعیین کنید. معیار BC توسط استان Longhurst تنظیم شده است.
روش SAGE از خروجی مدل عددی فیزیکی/اکوسیستم سه بعدی جهانی برای تعریف استان اکولوژیکی استفاده می کند [داروین (2).به مواد و روش ها و یادداشت S1 مراجعه کنید.اجزای اکوسیستم از 35 گونه فیتوپلانکتون و 16 گونه زئوپلانکتون، با هفت گروه عملکردی از پیش تعریف شده تشکیل شده است: پروکاریوت‌ها و یوکاریوت‌های سازگار با محیط‌های کم‌مغذی، کوکسیدی‌ها با پوشش کربنات کلسیم، و نیتروژن تثبیت‌کننده نیتروژن سنگین. مواد مغذی مهم)، با پوشش سیلیسی، می‌توانند سایر پلانکتون‌ها را فتوسنتز کنند و تاژک‌داران مخلوط مواد مغذی و گله‌داران زئوپلانکتون را در چرا کنند.دهانه اندازه 0.6 تا 2500μm قطر کروی معادل است.توزیع مدل اندازه فیتوپلانکتون و گروه بندی عملکردی ویژگی های کلی دیده شده در ماهواره و مشاهدات درجا را نشان می دهد (شکل های S1 تا S3 را ببینید).شباهت بین مدل عددی و اقیانوس مشاهده شده نشان می دهد که استان های تعریف شده توسط مدل ممکن است برای اقیانوس درجا قابل اجرا باشند.لطفاً توجه داشته باشید که این مدل فقط تنوع خاصی از فیتوپلانکتون‌ها و فقط محدوده‌های فیزیکی و شیمیایی خاصی از اقیانوس درجا را ثبت می‌کند.روش SAGE می تواند افراد را قادر سازد تا مکانیسم کنترل بسیار منطقه ای ساختار جامعه مدل را بهتر درک کنند.
با گنجاندن تنها مجموع زیست توده سطحی (با میانگین زمان 20 سال) در هر گروه عاملی پلانکتون، ابعاد داده ها را می توان کاهش داد.پس از اینکه مطالعات قبلی نقش کلیدی آنها را در تنظیم ساختار جامعه نشان داد، همچنین شامل شرایط منبع سطحی برای شار مواد مغذی (تامین نیتروژن، آهن، فسفات و اسید سیلیسیک) بود [به عنوان مثال (20، 21)].جمع گروه های عاملی مشکل را از 55 (51 پلانکتون و 4 شار مواد مغذی) به 11 بعد کاهش می دهد.در این مطالعه اولیه، به دلیل محدودیت های محاسباتی اعمال شده توسط الگوریتم، تنوع عمق و زمان در نظر گرفته نشد.
روش SAGE قادر به شناسایی روابط مهم بین فرآیندهای غیرخطی و ویژگی های کلیدی تعامل بین زیست توده گروه عاملی و شار مواد مغذی است.استفاده از داده های 11 بعدی مبتنی بر روش های آموزش از راه دور اقلیدسی (مانند K-means) نمی تواند استان های قابل اعتماد و قابل تکرار را به دست آورد (19، 22).این به این دلیل است که هیچ شکل گاوسی در توزیع اساسی کوواریانس عناصر کلیدی که استان اکولوژیکی را تعریف می‌کنند، یافت نمی‌شود.میانگین K سلولهای Voronoi (خطوط مستقیم) نمی تواند توزیع پایه غیر گاوسی را حفظ کند.
زیست توده هفت گروه عاملی پلانکتون و چهار شار مواد مغذی یک بردار 11 بعدی x را تشکیل می دهد.بنابراین، x یک میدان برداری در شبکه مدل است، که در آن هر عنصر xi یک بردار 11 بعدی تعریف شده در شبکه افقی مدل را نشان می دهد.هر شاخص i به طور منحصر به فرد یک نقطه شبکه را در کره مشخص می کند، جایی که (lon، lat) = (φi، θi).اگر زیست توده واحد شبکه مدل کمتر از 1.2×10-3mg Chl/m3 باشد یا نرخ پوشش یخ بیش از 70 درصد باشد، گزارش داده‌های زیست توده استفاده می‌شود و دور ریخته می‌شود.داده ها نرمال و استاندارد شده اند، بنابراین همه داده ها در محدوده [0 تا 1] هستند، میانگین حذف شده و به واریانس واحد مقیاس می شود.این کار به گونه ای انجام می شود که ویژگی ها (زیست توده و شار مواد مغذی) توسط کنتراست در محدوده مقادیر ممکن محدود نشود.خوشه بندی باید رابطه تغییر را از فاصله احتمال کلیدی بین ویژگی ها به جای فاصله جغرافیایی نشان دهد.با کمی کردن این فاصله ها، ویژگی های مهم ظاهر می شود، در حالی که جزئیات غیر ضروری کنار گذاشته می شوند.از نقطه نظر اکولوژیکی، این امر ضروری است زیرا برخی از انواع فیتوپلانکتون‌ها با زیست توده کم ممکن است اثرات بیوژئوشیمیایی بیشتری داشته باشند، مانند تثبیت نیتروژن توسط باکتری‌های دیازوتروف.هنگام استانداردسازی و عادی سازی داده ها، این نوع متغیرهای کمکی برجسته می شوند.
با تأکید بر مجاورت ویژگی‌ها در فضای با ابعاد بالا در نمایش کم‌بعد، از الگوریتم t-SNE برای شفاف‌تر کردن مناطق مشابه موجود استفاده می‌شود.کارهای قبلی با هدف ساخت شبکه های عصبی عمیق برای کاربردهای سنجش از دور از t-SNE استفاده می کردند که مهارت خود را در جداسازی ویژگی های کلیدی ثابت کرد (23).این یک مرحله ضروری برای شناسایی خوشه‌بندی قوی در داده‌های ویژگی و در عین حال اجتناب از راه‌حل‌های غیرهمگرا است (یادداشت S2).با استفاده از هسته های گاوسی، t-SNE ویژگی های آماری داده ها را با نگاشت هر جسم با ابعاد بالا به نقطه ای در فضای فاز سه بعدی حفظ می کند، در نتیجه اطمینان حاصل می کند که احتمال اشیاء مشابه در جهات بالا و پایین در یک نقطه بالا زیاد است. فضای ابعادی (24).با توجه به مجموعه ای از N اشیاء با ابعاد بالا x1،...،xN، الگوریتم t-SNE با به حداقل رساندن واگرایی Kullback-Leibler (KL) کاهش می یابد (25).واگرایی KL معیاری است از تفاوت یک توزیع احتمال با توزیع احتمال دوم مرجع، و می تواند به طور موثر امکان همبستگی بین نمایش های کم بعدی ویژگی های با ابعاد بالا را ارزیابی کند.اگر xi جسم i در فضای N بعدی باشد، xj j امین شی در فضای N بعدی، yi i امین شی در فضای کم بعدی و yj j امین شی در فضای کم است. فضای -بعدی، سپس t -SNE احتمال شباهت را تعریف می کند ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2)، و برای مجموعه کاهش ابعاد q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
شکل 2A اثر کاهش بردارهای زیست توده و شار مواد مغذی ترکیب 11 بعدی را به سه بعدی نشان می دهد.انگیزه استفاده از t-SNE را می توان با انگیزه تحلیل مؤلفه اصلی (PCA) مقایسه کرد، که از ویژگی واریانس برای تأکید بر ناحیه / ویژگی داده ها استفاده می کند و در نتیجه ابعاد را کاهش می دهد.روش t-SNE در ارائه نتایج قابل اعتماد و قابل تکرار برای وزارت محیط زیست برتر از PCA بود (به یادداشت S2 مراجعه کنید).این ممکن است به این دلیل باشد که فرض متعامد PCA برای شناسایی تعاملات حیاتی بین ویژگی‌های تعاملی بسیار غیرخطی مناسب نیست، زیرا PCA بر ساختارهای کوواریانس خطی تمرکز دارد (26).با استفاده از داده های سنجش از دور، Lunga و همکاران.(27) نحوه استفاده از روش SNE را برای برجسته کردن ویژگی‌های طیفی پیچیده و غیرخطی که از توزیع گاوسی منحرف می‌شوند را نشان می‌دهد.
(الف) نرخ عرضه مواد مغذی مدل‌سازی شده، زیست توده گروه عاملی فیتوپلانکتون و زئوپلانکتون که توسط الگوریتم t-SNE ترسیم شده و بر اساس استان با استفاده از DBSCAN رنگ‌آمیزی شده است.هر نقطه نشان دهنده یک نقطه در فضای با ابعاد بالا است، همانطور که در شکل 6B نشان داده شده است، اکثر نقاط گرفته شده اند.شفت ها به اندازه های 1، 2 و 3 "t-SNE" اشاره دارند. (B) پیش بینی جغرافیایی استان که توسط DBSCAN بر روی شبکه طول-طول جغرافیایی مبدا پیدا شده است.رنگ باید به عنوان هر رنگ در نظر گرفته شود، اما باید با (A) مطابقت داشته باشد.
نقاط در نمودار پراکندگی t-SNE در شکل 2A به ترتیب با طول و عرض جغرافیایی مرتبط هستند.اگر دو نقطه در شکل 2A به یکدیگر نزدیک هستند، به این دلیل است که زیست توده و شار مواد مغذی آنها مشابه هستند، نه به دلیل نزدیکی جغرافیایی.رنگ های شکل 2A خوشه هایی هستند که با استفاده از روش DBSCAN (28) کشف شده اند.هنگامی که به دنبال مشاهدات متراکم هستید، الگوریتم DBSCAN از فاصله در نمایش سه بعدی بین نقاط استفاده می کند (ε = 0.39؛ برای اطلاعات در مورد این انتخاب، به مواد و روش ها مراجعه کنید)، و تعداد نقاط مشابه برای تعریف خوشه مورد نیاز است (اینجا). 100 امتیاز، لطفا بالا را ببینید).روش DBSCAN هیچ فرضی در مورد شکل یا تعداد خوشه ها در داده ها ندارد، همانطور که در زیر نشان داده شده است:
3) برای تمام نقاط شناسایی شده در فاصله درونی، مرحله 2 را به طور مکرر برای تعیین مرز خوشه تکرار کنید.اگر تعداد نقاط از حداقل مقدار تعیین شده بیشتر باشد، به عنوان یک خوشه تعیین می شود.
داده‌هایی که معیار حداقل عضو خوشه و فاصله ϵ را برآورده نمی‌کنند «نویز» در نظر گرفته می‌شوند و رنگی به آنها اختصاص داده نمی‌شود.DBSCAN یک الگوریتم سریع و مقیاس پذیر با عملکرد O(n2) در بدترین حالت است.برای تحلیل فعلی، در واقع تصادفی نیست.حداقل امتیاز با ارزیابی کارشناسی تعیین می شود.پس از تنظیم فاصله پس از آن، نتیجه به اندازه کافی در محدوده ≈±10 پایدار نیست.این فاصله با استفاده از اتصال (شکل 6A) و درصد پوشش اقیانوس (شکل 6B) تنظیم می شود.اتصال به عنوان تعداد ترکیبی از خوشه ها تعریف می شود و به پارامتر ϵ حساس است.اتصال کمتر نشان‌دهنده عدم تناسب کافی، گروه‌بندی مصنوعی مناطق با هم است.اتصال بالا نشان دهنده بیش از حد اتصال است.استفاده از حداقل بالاتر قابل تصور است، اما اگر حداقل از ca بیشتر باشد، دستیابی به یک راه حل قابل اعتماد غیرممکن است.135 (برای جزئیات بیشتر، به مواد و روش ها مراجعه کنید).
115 خوشه شناسایی شده در شکل 2A در شکل 2B بر روی زمین بازتاب داده شده اند.هر رنگ مربوط به ترکیبی منسجم از عوامل بیوژئوشیمیایی و اکولوژیکی است که توسط DBSCAN شناسایی شده است.پس از تعیین خوشه ها، ارتباط هر نقطه در شکل 2A با طول و عرض جغرافیایی خاص برای بازتاب خوشه ها به منطقه جغرافیایی استفاده می شود.شکل 2B این را با همان رنگ های خوشه ای شکل 2A نشان می دهد.رنگ های مشابه نباید به عنوان شباهت زیست محیطی تفسیر شوند، زیرا آنها با ترتیبی که در آن خوشه ها توسط الگوریتم کشف می شوند، اختصاص داده می شوند.
منطقه در شکل 2B می تواند از نظر کیفی شبیه به یک منطقه ثابت در فیزیکی و/یا بیوژئوشیمی اقیانوس باشد.به عنوان مثال، خوشه ها در اقیانوس جنوبی متقارن منطقه هستند، با گرداب های الیگوتروف ظاهر می شوند، و انتقال شدید نشان دهنده تأثیر بادهای تجاری است.به عنوان مثال، در اقیانوس آرام استوایی، مناطق مختلف مربوط به خیزش دیده می شود.
به منظور درک محیط زیست بوم‌شناختی استان بوم‌گردی، از تنوع شاخص تفاوت Bray-Curtis (BC) (29) برای ارزیابی اکولوژی در خوشه استفاده شد.شاخص BC یک داده آماری است که برای تعیین کمیت تفاوت در ساختار جامعه بین دو سایت مختلف استفاده می شود.اندازه گیری BC برای زیست توده 51 گونه فیتوپلانکتون و زئوپلانکتون BCninj = 1-2CninjSni + Snj قابل اجرا است.
BCninj به شباهت بین ترکیب ni و ترکیب nj اشاره دارد، که در آن Cninj حداقل مقدار یک نوع زیست توده است که در هر دو ترکیب ni و nj وجود دارد، و Sni نشان دهنده مجموع تمام زیست توده هایی است که در هر دو ترکیب ni و Snj وجود دارد.تفاوت قبل از میلاد مشابه اندازه گیری فاصله است، اما در فضای غیر اقلیدسی عمل می کند، که احتمالا برای داده های بوم شناختی و تفسیر آن مناسب تر است.
برای هر خوشه شناسایی شده در شکل 2B، شباهت بین استانی و بین استانی قبل از میلاد را می توان ارزیابی کرد.تفاوت قبل از میلاد در یک استان به تفاوت بین ارزش متوسط ​​استان و هر نقطه در استان اشاره دارد.تفاوت بین استان های قبل از میلاد به شباهت یک استان با استان های دیگر اشاره دارد.شکل 3A یک ماتریس متقارن BC را نشان می دهد (0، سیاه: کاملاً متناظر؛ 1، سفید: کاملاً غیر مشابه).هر خط در نمودار یک الگو را در داده ها نشان می دهد.شکل 3B اهمیت جغرافیایی نتایج BC را در شکل 3A برای هر استان نشان می دهد.برای استانی در یک منطقه کم تغذیه و کم مواد مغذی، شکل 3B نشان می دهد که تقارن نواحی بزرگ در اطراف استوا و اقیانوس هند اساسا مشابه است، اما عرض های جغرافیایی بالاتر و نواحی بالا به طور قابل توجهی متفاوت هستند.
(الف) درجه تفاوت قبل از میلاد برای هر استان بر اساس میانگین جهانی 20 ساله متوسط ​​سطح جهانی 51 پلانکتون ارزیابی شده است.به تقارن مورد انتظار مقادیر توجه کنید.(ب) طرح فضایی یک ستون (یا ردیف).برای استانی در یک دایره دیستروفی، توزیع جهانی معیار شباهت قبل از میلاد مورد ارزیابی قرار گرفت و میانگین جهانی 20 ساله ارزیابی شد.سیاه (BC = 0) به معنای همان منطقه است و سفید (BC = 1) به معنای عدم شباهت است.
شکل 4A تفاوت BC در هر استان را در شکل 2B نشان می دهد.با استفاده از ترکیب میانگین مساحت متوسط ​​در یک خوشه و تعیین عدم تشابه بین قبل از میلاد و میانگین هر نقطه شبکه در استان، نشان می‌دهد که روش SAGE به خوبی می‌تواند 51 گونه را بر اساس شباهت اکولوژیکی تفکیک کند. داده های مدلمیانگین کلی عدم تشابه خوشه BC در تمام 51 نوع 0.0049±0.102 است.
(A، B، و D) تفاوت BC در داخل استان به عنوان میانگین اختلاف BC بین هر جامعه نقطه شبکه و استان متوسط ​​ارزیابی می شود و پیچیدگی کاهش نمی یابد.(2) میانگین جهانی تفاوت بین استانی قبل از میلاد 0.227±0.117 است.این معیار طبقه‌بندی مبتنی بر انگیزه بوم‌شناختی است که توسط این کار پیشنهاد شده است [خط سبز در (C)].(ج) میانگین اختلاف قبل از میلاد درون استانی: خط سیاه نشان دهنده اختلاف بین استانی قبل از میلاد با افزایش پیچیدگی است.2σ از 10 تکرار فرآیند شناسایی اکو استان بدست می آید.برای کل پیچیدگی استان های کشف شده توسط DBSCAN، (A) نشان می دهد که عدم تشابه BC در استان 0.099 است، و طبقه بندی پیچیدگی پیشنهاد شده توسط (C) 12 است که منجر به عدم تشابه BC 0.200 در استان می شود.همانطور که تصویر نشان می دهد.(د).
در شکل 4B، زیست توده 51 نوع پلانکتون برای نشان دادن تفاوت معادل BC در استان لانگهورست استفاده شده است.میانگین کلی هر استان 0.227 و انحراف معیار نقاط شبکه با توجه به تفاوت در استان قبل از میلاد 0.046 است.این بزرگتر از خوشه مشخص شده در شکل 1B است.در عوض، با استفاده از مجموع هفت گروه عملکردی، میانگین عدم تشابه درون فصل قبل از میلاد در Longhurst به 0.232 افزایش یافت.
نقشه جهانی اکو استان جزئیات پیچیده ای از فعل و انفعالات منحصر به فرد اکولوژیکی ارائه می دهد و بهبودهایی در استفاده از کل ساختار اکوسیستم استان لانگهورست انجام شده است.انتظار می رود وزارت محیط زیست بینشی در مورد فرآیند کنترل اکوسیستم مدل عددی ارائه دهد و این بینش به اکتشاف کار میدانی کمک خواهد کرد.برای هدف این تحقیق، نمایش کامل بیش از صد استان امکان پذیر نیست.بخش بعدی روش SAGE را معرفی می کند که استان ها را خلاصه می کند.
یکی از اهداف استان ارتقاء درک موقعیت و مدیریت استان است.برای تعیین موقعیت های اضطراری، روش شکل 1B لانه سازی استان های مشابه بوم شناختی را نشان می دهد.اکو استان ها بر اساس شباهت اکولوژیکی در کنار هم قرار می گیرند و به این دسته بندی استان ها AEP می گویند.یک «پیچیدگی» قابل تنظیم بر اساس تعداد کل استان‌هایی که باید در نظر گرفته شوند، تنظیم کنید.اصطلاح "پیچیدگی" به این دلیل استفاده می شود که اجازه می دهد سطح ویژگی های اضطراری تنظیم شود.به منظور تعریف تجمیع معنی دار، میانگین اختلاف بین استانی قبل از میلاد 0.227 از Longhurst به عنوان معیار استفاده می شود.در زیر این معیار، استان های ترکیبی دیگر مفید تلقی نمی شوند.
همانطور که در شکل 3B نشان داده شده است، استان های زیست محیطی جهانی منسجم هستند.با استفاده از تفاوت های بین استانی قبل از میلاد، می توان دریافت که برخی از پیکربندی ها بسیار "متداول" هستند.با الهام از روش‌های ژنتیک و تئوری گراف، «گراف‌های متصل» برای مرتب‌سازی بیش از 100 استان بر اساس استان‌هایی که شبیه‌ترین استان‌ها هستند، استفاده می‌شود.معیار "اتصال" در اینجا با استفاده از عدم تشابه بین استانی BC تعیین می شود (30).تعداد استان‌هایی که فضای بیشتری برای طبقه‌بندی بیش از 100 استان دارند، در اینجا پیچیدگی نامیده می‌شوند.AEP محصولی است که بیش از 100 استان را به عنوان غالب ترین/نزدیک ترین استان های زیست محیطی دسته بندی می کند.هر استان بوم‌شناختی به استان اکولوژیکی غالب/به‌شدت مرتبط اختصاص داده می‌شود که بیشترین شباهت را به آنها دارد.این تجمع تعیین شده توسط تفاوت قبل از میلاد امکان یک رویکرد تودرتو به اکولوژی جهانی را فراهم می کند.
پیچیدگی انتخاب شده می تواند هر مقداری از 1 تا پیچیدگی کامل شکل باشد.2A.در پیچیدگی کمتر، AEP ممکن است به دلیل گام کاهش ابعاد احتمالی (t-SNE) دچار انحطاط شود.انحطاط به این معنی است که استان‌های زیست‌محیطی را می‌توان به AEP‌های مختلف بین تکرارها اختصاص داد و در نتیجه منطقه جغرافیایی تحت پوشش را تغییر داد.شکل 4C گسترش تفاوت های BC را در استان ها در AEP ها با پیچیدگی فزاینده در 10 پیاده سازی نشان می دهد (تصویر در شکل 1B).در شکل 4C، 2σ (منطقه آبی) معیاری از تخریب در 10 پیاده سازی است، و خط سبز نشان دهنده معیار Longhurst است.واقعیت‌ها ثابت کرده‌اند که پیچیدگی 12 می‌تواند تفاوت BC در استان را در زیر معیار Longhurst در همه پیاده‌سازی‌ها نگه دارد و کاهش نسبتاً کوچک 2σ را حفظ کند.به طور خلاصه، حداقل پیچیدگی توصیه شده 12 AEP است، و میانگین تفاوت BC درون استانی که با استفاده از 51 نوع پلانکتون ارزیابی شده است، 0.013±0.198 است، همانطور که در شکل 4D نشان داده شده است.با استفاده از مجموع هفت گروه عاملی پلانکتون، میانگین اختلاف BC در استان به جای 0.004±0.198 2σ است.مقایسه بین تفاوت BC محاسبه شده با زیست توده کل هفت گروه عاملی یا زیست توده تمام 51 نوع پلانکتون نشان می دهد که اگرچه روش SAGE برای موقعیت 51 بعدی قابل اجرا است، اما برای کل زیست توده هفت گروه عاملی است. برای تمرین.
بسته به هدف هر تحقیق، سطوح مختلفی از پیچیدگی را می توان در نظر گرفت.مطالعات منطقه ای ممکن است به پیچیدگی کامل نیاز داشته باشد (یعنی تمام 115 استان).به عنوان مثال و برای وضوح، حداقل پیچیدگی توصیه شده 12 را در نظر بگیرید.
به عنوان نمونه ای از کاربرد روش SAGE، 12 AEP با حداقل پیچیدگی 12 در اینجا برای بررسی کنترل ساختار جامعه اضطراری استفاده می شود.شکل 5 بینش های اکولوژیکی گروه بندی شده توسط AEP (از A تا L) را نشان می دهد: در استوکیومتری ردفیلد، وسعت جغرافیایی (شکل 5C)، ترکیب زیست توده گروه عملکردی (شکل 5A) و تامین مواد مغذی (شکل 5B) توسط N Zoomed انجام می شود.نسبت (N:Si:P:Fe، 1:1:16:16×103) نشان داده شده است.برای پانل دوم، P ضرب در 16 و Fe در 16×103 ضرب می شود، بنابراین نمودار میله ای معادل نیازهای تغذیه ای فیتوپلانکتون است.
استان ها به 12 AEP A تا L طبقه بندی می شوند. (A) زیست توده (mgC/m3) اکوسیستم در 12 استان.(ب) نرخ شار مواد مغذی نیتروژن معدنی محلول (N)، آهن (Fe)، فسفات (P) و اسید سیلیسیک (Si) (mmol/m3 در سال).Fe و P به ترتیب در 16 و 103×16 ضرب می شوند، به طوری که نوارها مطابق با الزامات استوکیومتری فیتوپلانکتون استاندارد می شوند.(C) به تفاوت بین مناطق قطبی، طوفان های نیمه گرمسیری و مناطق اصلی فصلی/بالا رفتن توجه کنید.ایستگاه های نظارت به شرح زیر مشخص شده اند: 1، SEATS.2، ALOHA;3، ایستگاه P;و 4، خفاش.
AEP شناسایی شده منحصر به فرد است.در اطراف استوا در اقیانوس اطلس و اقیانوس آرام تقارن وجود دارد و یک منطقه مشابه اما بزرگ در اقیانوس هند وجود دارد.برخی از AEP ها سمت غربی قاره مرتبط با صعود را در آغوش می گیرند.جریان دایره ای قطب جنوب به عنوان یک ویژگی منطقه ای بزرگ در نظر گرفته می شود.طوفان نیمه گرمسیری یک سری پیچیده از AEP الیگوتروفیک است.در این استان‌ها، الگوی آشنای تفاوت‌های زیست توده بین گردابه‌های اولیگوتروفیک تحت سلطه پلانکتون و مناطق قطبی غنی از دیاتومه آشکار است.
AEP ها با زیست توده فیتوپلانکتون کل بسیار مشابه می توانند ساختارهای اجتماعی بسیار متفاوتی داشته باشند و مناطق جغرافیایی مختلفی را پوشش دهند، مانند D، H، و K که دارای زیست توده کل فیتوپلانکتون مشابه هستند.AEP H عمدتاً در اقیانوس هند استوایی وجود دارد و باکتری‌های دیازوتروف بیشتر هستند.AEP D در چندین حوضه یافت می شود، اما به ویژه در اقیانوس آرام در اطراف مناطق پرمحصول در اطراف بالا آمدن استوایی برجسته است.شکل این استان اقیانوس آرام یادآور قطار امواج سیاره ای است.تعداد کمی دیازوباکتری در AEP D و مخروط های بیشتری وجود دارد.در مقایسه با دو استان دیگر، AEP K فقط در ارتفاعات اقیانوس منجمد شمالی یافت می‌شود و دیاتوم‌های بیشتری و پلانکتون‌های کمتری وجود دارد.شایان ذکر است که میزان پلانکتون در این سه منطقه نیز بسیار متفاوت است.در میان آنها، فراوانی پلانکتون AEP K نسبتا کم است، در حالی که AEP D و H نسبتاً زیاد است.بنابراین، علیرغم زیست توده آنها (و بنابراین مشابه Chl-a)، این استان ها کاملاً متفاوت هستند: آزمایش استانی مبتنی بر Chl ممکن است این تفاوت ها را نشان ندهد.
همچنین واضح است که برخی از AEP ها با زیست توده بسیار متفاوت ممکن است از نظر ساختار جامعه فیتوپلانکتون مشابه باشند.به عنوان مثال، این در AEP D و E قابل مشاهده است. آنها به یکدیگر نزدیک هستند، و در اقیانوس آرام، AEP E نزدیک به AEPJ بسیار پربازده است.به طور مشابه، هیچ ارتباط واضحی بین زیست توده فیتوپلانکتون و فراوانی زئوپلانکتون وجود ندارد.
AEP را می توان از نظر مواد مغذی ارائه شده به آنها درک کرد (شکل 5B).دیاتومها فقط در جایی وجود دارند که مقدار زیادی اسید سیلیسیک وجود داشته باشد.به طور کلی، هر چه مقدار اسید سیلیسیک بیشتر باشد، زیست توده دیاتوم ها بیشتر است.دیاتومها را می توان در AEP A، J، K و L مشاهده کرد. نسبت زیست توده دیاتومها نسبت به سایر فیتوپلانکتونها توسط N، P و Fe که نسبت به تقاضای دیاتومها ارائه می شود تعیین می شود.به عنوان مثال، AEP L تحت سلطه دیاتومها است.در مقایسه با سایر مواد مغذی، Si بالاترین میزان عرضه را دارد.در مقابل، با وجود بهره‌وری بالاتر، AEP J دارای دیاتوم‌های کمتر و عرضه سیلیکون کمتری (همه و نسبت به سایر مواد مغذی) است.
باکتری دیازونیوم توانایی تثبیت نیتروژن را دارد، اما به کندی رشد می کند (31).آنها با سایر فیتوپلانکتون‌ها همزیستی می‌کنند، جایی که آهن و فسفر نسبت به تقاضا برای مواد مغذی غیر دیازونیوم بیش از حد است (20، 21).شایان ذکر است که زیست توده دیازوتروف نسبتاً زیاد است و عرضه آهن و فسفر نسبت به عرضه N نسبتاً زیاد است. به این ترتیب، اگرچه زیست توده کل در AEP J بیشتر است، زیست توده دیازونیوم در AEP H است. بزرگتر از آن در J. لطفاً توجه داشته باشید که AEP J و H از نظر جغرافیایی بسیار متفاوت هستند و H در اقیانوس هند استوایی قرار دارد.
اگر ساختار منحصربه‌فرد اکوسیستم به استان‌ها تقسیم نشود، بینش به‌دست‌آمده از 12 مدل کم‌پیچیدگی AEP چندان واضح نخواهد بود.AEP تولید شده توسط SAGE مقایسه منسجم و همزمان اطلاعات پیچیده و با ابعاد بالا از مدل‌های اکوسیستم را تسهیل می‌کند.AEP به طور موثر تأکید می کند که چرا Chl یک روش خوب و جایگزین برای تعیین ساختار جامعه یا فراوانی زئوپلانکتون در سطوح بالاتر مواد مغذی نیست.تجزیه و تحلیل دقیق موضوعات تحقیق در حال انجام خارج از حوصله این مقاله است.روش SAGE راهی برای کشف مکانیسم های دیگر در مدل ارائه می دهد که کار با آن آسان تر از مشاهده نقطه به نقطه است.
روش SAGE برای کمک به شفاف سازی داده های اکولوژیکی بسیار پیچیده از مدل های عددی فیزیکی/بیوژئوشیمیایی/اکوسیستم جهانی پیشنهاد شده است.استان اکولوژیکی توسط زیست توده کل گروه‌های عاملی متقابل پلانکتون، استفاده از الگوریتم کاهش ابعاد احتمال t-SNE و خوشه‌بندی با استفاده از روش ML بدون نظارت DBSCAN تعیین می‌شود.نظریه تفاوت/گراف بین استانی قبل از میلاد برای روش تودرتو برای استخراج یک AEP قوی که می‌تواند برای تفسیر کلی استفاده شود، استفاده می‌شود.از نظر ساخت و ساز، اکو استان و AEP منحصر به فرد هستند.تودرتوی AEP را می توان بین پیچیدگی کامل استان اصلی زیست محیطی و حداقل آستانه توصیه شده 12 AEP تنظیم کرد.لانه سازی و تعیین حداقل پیچیدگی AEP به عنوان مراحل کلیدی در نظر گرفته می شود، زیرا احتمال t-SNE باعث تخریب AEP های کمتر از 12 پیچیدگی می شود.روش SAGE جهانی است و پیچیدگی آن از بیش از 100 AEP تا 12 متغیر است. برای سادگی، تمرکز فعلی بر پیچیدگی 12 AEP جهانی است.تحقیقات آینده، به‌ویژه مطالعات منطقه‌ای، ممکن است زیرمجموعه فضایی کوچک‌تری از استان‌های زیست‌محیطی جهانی را مفید بیابند، و ممکن است در یک منطقه کوچک‌تر جمع شوند تا از همان بینش‌های اکولوژیکی که در اینجا بحث شد، استفاده کنند.این پیشنهادات را در مورد چگونگی استفاده از این استان‌های زیست‌محیطی و بینش‌های به‌دست‌آمده از آنها برای درک بیشتر زیست‌محیطی، تسهیل مقایسه مدل‌ها و بهبود بالقوه نظارت بر اکوسیستم‌های دریایی ارائه می‌کند.
استان اکولوژیکی و AEP شناسایی شده با روش SAGE بر اساس داده های مدل عددی است.طبق تعریف، مدل عددی یک ساختار ساده شده است که سعی می‌کند ماهیت سیستم هدف را به تصویر بکشد و مدل‌های مختلف توزیع متفاوتی از پلانکتون خواهند داشت.مدل عددی مورد استفاده در این مطالعه نمی تواند برخی از الگوهای مشاهده شده را به طور کامل نشان دهد (به عنوان مثال، در تخمین Chl برای منطقه استوایی و اقیانوس جنوبی).تنها بخش کوچکی از تنوع موجود در اقیانوس واقعی گرفته شده است، و مزو و مقیاس های فرعی را نمی توان حل کرد، که ممکن است بر شار مواد مغذی و ساختار جامعه در مقیاس کوچکتر تأثیر بگذارد.با وجود این کاستی ها، معلوم می شود که AEP برای کمک به درک مدل های پیچیده بسیار مفید است.با ارزیابی محل یافتن استان های بوم شناختی مشابه، AEP یک ابزار مقایسه مدل عددی بالقوه ارائه می دهد.مدل عددی کنونی الگوی کلی غلظت Chl-a فیتوپلانکتون سنجش از دور و توزیع اندازه پلانکتون و گروه عملکردی را نشان می‌دهد (یادداشت S1 و شکل S1) (2، 32).
همانطور که توسط خط کانتور 0.1 mgChl-a/m-3 نشان داده شده است، AEP به ناحیه الیگوتروفیک و ناحیه مزوتروفیک تقسیم می شود (شکل S1B): AEP B، C، D، E، F و G نواحی الیگوتروف هستند و نواحی باقی مانده عبارتند از واقع در بالاتر Chl-a.AEP برخی مکاتبات را با استان لانگهورست (شکل S3A) نشان می دهد، به عنوان مثال، اقیانوس جنوبی و اقیانوس آرام استوایی.در برخی از مناطق، AEP چندین منطقه Longhurst را پوشش می دهد و بالعکس.از آنجایی که قصد تحدید استان ها در این منطقه و لانگهورست متفاوت است، انتظار می رود تفاوت هایی نیز وجود داشته باشد.چندین AEP در استان لانگهرست نشان می دهد که مناطق خاصی با بیوژئوشیمی مشابه ممکن است ساختارهای اکوسیستمی بسیار متفاوتی داشته باشند.AEP مطابقت خاصی را با حالت‌های فیزیکی نشان می‌دهد، همانطور که با استفاده از یادگیری بدون نظارت (19)، مانند ایالات با بالا آمدن بالا (به عنوان مثال، اقیانوس جنوبی و اقیانوس آرام استوایی؛ شکل S3، C و D) آشکار شد.این مکاتبات نشان می دهد که ساختار جامعه پلانکتون به شدت تحت تأثیر دینامیک اقیانوس است.در مناطقی مانند اقیانوس اطلس شمالی، AEP از استان های فیزیکی عبور می کند.مکانیسمی که باعث این تفاوت ها می شود ممکن است شامل فرآیندهایی مانند انتقال گرد و غبار باشد که می تواند حتی در شرایط فیزیکی مشابه به برنامه های تغذیه ای کاملاً متفاوت منجر شود.
وزارت محیط زیست و AEP خاطرنشان کردند که استفاده از Chl به تنهایی نمی تواند اجزای اکولوژیکی را شناسایی کند، همانطور که جامعه اکولوژی دریایی قبلاً متوجه شده است.این در AEP ها با زیست توده مشابه اما ترکیب اکولوژیکی متفاوت (مانند D و E) دیده می شود.در مقابل، AEP ها مانند D و K دارای زیست توده بسیار متفاوت اما ترکیب اکولوژیکی مشابهی هستند.AEP تاکید می کند که رابطه بین زیست توده، ترکیب زیست محیطی و فراوانی زئوپلانکتون پیچیده است.به عنوان مثال، اگرچه AEP J از نظر زیست توده فیتوپلانکتون و پلانکتون متمایز است، AEP's A و L دارای زیست توده پلانکتون مشابهی هستند، اما A فراوانی پلانکتون بالاتری دارد.AEP تأکید می کند که زیست توده فیتوپلانکتون (یا Chl) نمی تواند برای پیش بینی زیست توده زئوپلانکتون استفاده شود.زئوپلانکتون پایه و اساس زنجیره غذایی شیلات است و برآوردهای دقیق تر ممکن است منجر به مدیریت بهتر منابع شود.ماهواره های رنگی دریایی آینده [به عنوان مثال، PACE (پلانکتون، آئروسل، ابر و اکوسیستم دریایی)] ممکن است برای کمک به تخمین ساختار جامعه فیتوپلانکتون ها در موقعیت بهتری قرار گیرند.استفاده از پیش‌بینی AEP به طور بالقوه می‌تواند تخمین زئوپلانکتون را از فضا تسهیل کند.روش‌هایی مانند SAGE، همراه با فن‌آوری‌های جدید، و داده‌های میدانی بیشتر و بیشتر در دسترس برای بررسی‌های حقیقت زمینی (مانند تارا و تحقیقات بعدی)، می‌توانند به طور مشترک گامی به سوی پایش سلامت اکوسیستم مبتنی بر ماهواره بردارند.
روش SAGE روشی مناسب برای ارزیابی مکانیسم‌هایی که ویژگی‌های استان را کنترل می‌کنند، مانند زیست توده/Chl، تولید اولیه خالص و ساختار جامعه فراهم می‌کند.به عنوان مثال، مقدار نسبی دیاتوم ها با عدم تعادل در عرضه Si، N، P و Fe نسبت به نیازهای استوکیومتری فیتوپلانکتون تعیین می شود.با نرخ عرضه متعادل، جامعه تحت سلطه دیاتومها (L) است.هنگامی که نرخ عرضه نامتعادل است (یعنی عرضه سیلیکون کمتر از تقاضای مواد مغذی دیاتوم ها است)، دیاتوم ها تنها سهم کمی را به خود اختصاص می دهند (K).هنگامی که عرضه آهن و فسفر از عرضه N (به عنوان مثال E و H) بیشتر شود، باکتری های دیازوتروف به شدت رشد می کنند.از طریق زمینه ارائه شده توسط AEP، کاوش مکانیسم های کنترل مفیدتر خواهد شد.
Eco-Province و AEP مناطقی با ساختارهای اجتماعی مشابه هستند.سری های زمانی از یک مکان خاص در یک استان بوم شناختی یا AEP را می توان به عنوان یک نقطه مرجع در نظر گرفت و می تواند منطقه تحت پوشش استان اکولوژیکی یا AEP را نشان دهد.ایستگاه های نظارت بلندمدت در محل چنین سری های زمانی را ارائه می دهند.مجموعه داده‌های درجا درازمدت همچنان نقش غیر قابل محاسبه ای ایفا خواهند کرد.از منظر نظارت بر ساختار جامعه، روش SAGE را می توان راهی برای کمک به تعیین مفیدترین مکان سایت های جدید در نظر گرفت.به عنوان مثال، سری زمانی از ارزیابی زیستگاه الیگوتروفیک بلندمدت (ALOHA) در AEP B منطقه اولیگوتروفیک است (شکل 5C، برچسب 2).از آنجایی که ALOHA نزدیک به مرز AEP دیگری است، سری زمانی ممکن است نماینده کل منطقه نباشد، همانطور که قبلاً پیشنهاد شد (33).در همان AEP B، سری زمانی SEATS (سری زمانی جنوب شرقی آسیا) در جنوب غربی تایوان (34)، دورتر از مرزهای سایر AEP ها (شکل 5C، برچسب 1) قرار دارد و می تواند به عنوان مکان بهتری برای نظارت استفاده شود. AEPB.سری زمانی BATS (مطالعه سری زمانی آتلانتیک برمودا) (شکل 5C، برچسب 4) در AEPC بسیار نزدیک به مرز بین AEP C و F است، که نشان می دهد نظارت بر AEP C با استفاده از سری زمانی BATS ممکن است مستقیماً مشکل ساز باشد.ایستگاه P در AEP J (شکل 5C، برچسب 3) از مرز AEP دور است، بنابراین نماینده بیشتری دارد.Eco-Province و AEP می توانند به ایجاد یک چارچوب نظارتی مناسب برای ارزیابی تغییرات جهانی کمک کنند، زیرا مجوز استان ها برای ارزیابی مکان هایی که نمونه برداری در محل می تواند بینش های کلیدی را ارائه دهد.روش SAGE را می توان بیشتر توسعه داد تا در داده های آب و هوایی برای ارزیابی تغییرپذیری صرفه جویی در زمان اعمال شود.
موفقیت روش SAGE از طریق استفاده دقیق از روش‌های علم داده/ML و دانش خاص دامنه به دست می‌آید.به طور خاص، t-SNE برای انجام کاهش ابعاد استفاده می شود، که ساختار کوواریانس داده های با ابعاد بالا را حفظ می کند و تجسم توپولوژی کوواریانس را تسهیل می کند.داده‌ها به شکل نوارها و کوواریانس‌ها مرتب شده‌اند (شکل 2A)، که نشان می‌دهد معیارهای صرفاً مبتنی بر فاصله (مانند میانگین K) مناسب نیستند زیرا معمولاً از توزیع پایه گاوسی (دایره‌ای) استفاده می‌کنند (مورد بحث در یادداشت S2). .روش DBSCAN برای هر توپولوژی کواریانسی مناسب است.تا زمانی که به تنظیم پارامترها توجه کنید، می توان شناسایی قابل اعتمادی را ارائه داد.هزینه محاسباتی الگوریتم t-SNE بالا است، که کاربرد فعلی آن را محدود به مقدار بیشتری از داده می‌کند، به این معنی که اعمال آن در زمینه‌های عمیق یا متغیر با زمان دشوار است.کار بر روی مقیاس پذیری t-SNE در حال انجام است.از آنجایی که فاصله KL به راحتی قابل موازی کردن است، الگوریتم t-SNE پتانسیل خوبی برای گسترش در آینده دارد (35).تا کنون، دیگر روش‌های کاهش ابعاد امیدوارکننده که می‌توانند اندازه را بهتر کاهش دهند، شامل تکنیک‌های تقریب منیفولد یکپارچه و پیش‌بینی (UMAP) است، اما ارزیابی در زمینه داده‌های اقیانوسی ضروری است.منظور از مقیاس پذیری بهتر، به عنوان مثال، طبقه بندی اقلیم های جهانی یا مدل هایی با پیچیدگی های مختلف بر روی یک لایه مخلوط است.مناطقی که توسط SAGE در هیچ استانی طبقه بندی نمی شوند را می توان به عنوان نقاط سیاه باقی مانده در شکل 2A در نظر گرفت.از نظر جغرافیایی، این مناطق عمدتاً در مناطق بسیار فصلی هستند، که نشان می دهد تصرف استان های اکولوژیکی که در طول زمان تغییر می کنند، پوشش بهتری را ارائه می دهد.
برای ساخت روش SAGE از ایده‌هایی از سیستم‌های پیچیده/علوم داده‌ها با استفاده از قابلیت تعیین خوشه‌های گروه‌های عملکردی (امکان نزدیک بودن در یک فضای 11 بعدی) و تعیین استان‌ها استفاده شده است.این استان ها حجم های خاصی را در فضای فاز سه بعدی t-SNE ما به تصویر می کشند.به طور مشابه، بخش پوانکاره می تواند برای ارزیابی "حجم" فضای حالت اشغال شده توسط مسیر برای تعیین رفتار "عادی" یا "آشوب" استفاده شود (36).برای خروجی مدل 11 بعدی استاتیک، حجم اشغال شده پس از تبدیل داده ها به فضای فاز سه بعدی را می توان به طور مشابه توضیح داد.رابطه بین منطقه جغرافیایی و منطقه در فضای فاز سه بعدی ساده نیست، اما می توان آن را از نظر شباهت اکولوژیکی توضیح داد.به همین دلیل، معیار متداول‌تر عدم تشابه BC ترجیح داده می‌شود.
کار آینده از روش SAGE برای تغییر فصلی داده ها برای ارزیابی تغییرپذیری فضایی استان های شناسایی شده و AEP استفاده مجدد خواهد کرد.هدف آینده استفاده از این روش برای کمک به تعیین اینکه کدام استان ها را می توان از طریق اندازه گیری های ماهواره ای (مانند Chl-a، بازتابی سنجش از دور و دمای سطح دریا) تعیین کرد.این امکان ارزیابی سنجش از دور اجزای اکولوژیکی و نظارت بسیار انعطاف پذیر استان های اکولوژیکی و تنوع آنها را فراهم می کند.
هدف از این تحقیق معرفی روش SAGE است که یک استان اکولوژیکی را از طریق ساختار منحصر به فرد جامعه پلانکتون تعریف می کند.در اینجا، اطلاعات دقیق‌تری در مورد مدل فیزیکی/بیوژئوشیمیایی/اکوسیستم و انتخاب پارامتر الگوریتم‌های t-SNE و DBSCAN ارائه خواهد شد.
اجزای فیزیکی مدل از تخمین گردش اقیانوس و آب و هوا می آیند [ECCOv4.(37) برآورد وضعیت جهانی که توسط (38) توصیف شده است.وضوح اسمی برآورد حالت 1/5 است.روش حداقل مربعات با روش ضریب لاگرانژی برای به دست آوردن شرایط اولیه و مرزی و پارامترهای مدل داخلی تنظیم شده توسط مشاهده استفاده می شود، در نتیجه یک مدل چرخه عمومی MIT آزاد (MITgcm) تولید می شود (39)، مدل پس از بهینه سازی، نتایج می تواند ردیابی و مشاهده شود.
بیوژئوشیمی/اکوسیستم توصیف کامل تری (یعنی معادلات و مقادیر پارامترها) در (2) دارد.این مدل گردش C، N، P، Si و Fe را از طریق حوضچه‌های معدنی و آلی ضبط می‌کند.نسخه استفاده شده در اینجا شامل 35 گونه فیتوپلانکتون است: 2 گونه میکروپروکاریوت و 2 گونه میکرویوکاریوت (مناسب برای محیط‌های کم مواد مغذی)، 5 گونه کریپتوموناس اسفارووئیدها (با پوشش کربنات کلسیم)، 5 گونه دیازونیوم (می‌تواند نیتروژن را برطرف کند، بنابراین محدود نیست) در دسترس بودن نیتروژن معدنی محلول)، 11 دیاتومه (تشکیل پوشش سیلیسی)، 10 تاژک دار مخلوط رویشی (می توانند پلانکتون های دیگر را فتوسنتز کنند و بخورند) و 16 زئوپلانکتون (در پلانکتون های دیگر چرا می کنند).این گروه‌ها «گروه‌های عاملی بیوژئوشیمیایی» نامیده می‌شوند زیرا اثرات متفاوتی بر بیوژئوشیمی دریایی دارند (40، 41) و اغلب در مطالعات مشاهده و مدل استفاده می‌شوند.در این مدل، هر گروه عاملی از چندین پلانکتون با اندازه های مختلف، با دهانه 0.6 تا 2500 میکرومتر قطر کروی معادل تشکیل شده است.
پارامترهای موثر بر رشد فیتوپلانکتون، چرا و غرق شدن به اندازه مربوط می شود و تفاوت های خاصی بین شش گروه عملکردی فیتوپلانکتون وجود دارد (32).با وجود چارچوب های فیزیکی متفاوت، نتایج 51 جزء پلانکتون مدل در تعدادی از مطالعات اخیر مورد استفاده قرار گرفته است (42-44).
از سال 1992 تا 2011، مدل جفت فیزیکی / بیوژئوشیمیایی / اکوسیستم به مدت 20 سال اجرا شد.خروجی مدل شامل زیست توده پلانکتون، غلظت مواد مغذی و نرخ عرضه مواد مغذی (DIN، PO4، Si و Fe) است.در این تحقیق از میانگین 20 ساله این خروجی ها به عنوان ورودی استان اکولوژیک استفاده شده است.Chl، توزیع زیست توده پلانکتون و غلظت مواد مغذی و توزیع گروه های عاملی با مشاهدات ماهواره ای و درجا مقایسه شده است [نگاه کنید به (2، 44)، یادداشت S1 و شکل.S1 تا S3].
برای روش SAGE، منبع اصلی تصادفی بودن از مرحله t-SNE می آید.تصادفی بودن مانع از تکرارپذیری می شود، به این معنی که نتایج غیرقابل اعتماد هستند.روش SAGE با تعیین مجموعه‌ای از پارامترهای t-SNE و DBSCAN، استحکام را به شدت آزمایش می‌کند، که می‌تواند به طور مداوم خوشه‌ها را در صورت تکرار شناسایی کند.تعیین "گیج کننده" پارامتر t-SNE را می توان به عنوان تعیین درجه ای درک کرد که نقشه برداری از ابعاد بالا به پایین باید به ویژگی های محلی یا جهانی داده ها احترام بگذارد.به سردرگمی 400 و 300 تکرار رسید.
برای الگوریتم خوشه‌بندی DBSCAN، حداقل اندازه و متریک فاصله نقاط داده در خوشه باید تعیین شود.حداقل تعداد با راهنمایی کارشناسان تعیین می شود.این دانش می‌داند که چه چیزی با چارچوب مدل‌سازی عددی و وضوح فعلی مطابقت دارد.حداقل عدد 100 است. حداقل مقدار بالاتر (کمتر از <135 قبل از اینکه حد بالای سبز گسترده تر شود) را می توان در نظر گرفت، اما نمی تواند جایگزین روش تجمع بر اساس عدم تشابه BC شود.درجه اتصال (شکل 6A) برای تنظیم پارامتر ϵ استفاده می شود که برای پوشش بالاتر مساعد است (شکل 6B).اتصال به عنوان تعداد ترکیبی از خوشه ها تعریف می شود و به پارامتر ϵ حساس است.اتصال کمتر نشان‌دهنده تناسب ناکافی، گروه‌بندی مصنوعی مناطق با هم است.اتصال بالا نشان دهنده بیش از حد اتصال است.برازش بیش از حد نیز مشکل ساز است، زیرا نشان می دهد که حدس های تصادفی اولیه ممکن است منجر به نتایج غیرقابل تکرار شود.بین این دو حد، افزایش شدید (معمولاً "آرنج" نامیده می شود) بهترین ϵ را نشان می دهد.در شکل 6A، یک افزایش شدید در ناحیه فلات (زرد،> 200 خوشه)، به دنبال آن کاهش شدید (سبز، 100 خوشه)، تا حدود 130، که توسط خوشه های بسیار کمی احاطه شده است (آبی، <60 خوشه) مشاهده می کنید. ).در حداقل 100 منطقه آبی، یا یک خوشه بر کل اقیانوس تسلط دارد (<0.42 ε) یا بیشتر اقیانوس طبقه بندی نشده است و نویز در نظر گرفته می شود (ε> 0.99).ناحیه زرد دارای توزیع خوشه ای بسیار متغیر و غیرقابل تکرار است.با کاهش ϵ، نویز افزایش می یابد.منطقه سبز به شدت در حال افزایش، آرنج نامیده می شود.این یک منطقه بهینه است.اگرچه از احتمال t-SNE استفاده می شود، تفاوت BC در داخل استان هنوز هم می تواند برای تعیین خوشه بندی قابل اعتماد استفاده شود.با استفاده از شکل 6 (A و B)، ϵ را روی 0.39 تنظیم کنید.هرچه مینیمم عدد بزرگتر باشد، احتمال رسیدن به ϵ که امکان طبقه بندی قابل اعتماد را فراهم می کند، کمتر می شود و منطقه سبز با مقدار بیشتر از 135 بیشتر است. بزرگ شدن این ناحیه نشان می دهد که یافتن آرنج دشوارتر خواهد بود یا غیر از آن. موجود
پس از تنظیم پارامترهای t-SNE، تعداد کل خوشه های یافت شده به عنوان معیار اتصال (A) و درصد داده های تخصیص یافته به خوشه (B) استفاده می شود.نقطه قرمز بهترین ترکیب پوشش و اتصال را نشان می دهد.حداقل تعداد با توجه به حداقل تعداد مربوط به اکولوژی تعیین می شود.
برای مطالب تکمیلی این مقاله، لطفاً به http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1 مراجعه کنید
این یک مقاله با دسترسی آزاد است که تحت شرایط Creative Commons Attribution License توزیع شده است.این مقاله استفاده، توزیع، و تکثیر نامحدود در هر رسانه ای را به شرطی که اثر اصلی به درستی ذکر شده باشد، اجازه می دهد.
توجه: ما فقط از شما می خواهیم آدرس ایمیل خود را ارائه دهید تا شخصی که به صفحه توصیه می کنید بداند که می خواهید ایمیل را ببیند و اسپم نیست.ما هیچ آدرس ایمیلی را نمی گیریم.
این سوال برای بررسی اینکه آیا شما یک بازدید کننده هستید و جلوگیری از ارسال خودکار هرزنامه استفاده می شود.
وزارت جهانی محیط زیست دریایی مصمم به حل مشکلات پیچیده است و از ML بدون نظارت برای کشف ساختارهای جامعه استفاده می کند.
وزارت جهانی محیط زیست دریایی مصمم به حل مشکلات پیچیده است و از ML بدون نظارت برای کشف ساختارهای جامعه استفاده می کند.


زمان ارسال: ژانویه-12-2021