Запропоновано метод неконтрольованого навчання для визначення глобальних морських екологічних провінцій (екопровінцій) на основі структури спільноти планктону та даних про потік поживних речовин.Метод систематичної інтегрованої екологічної провінції (SAGE) може ідентифікувати екологічні провінції в дуже нелінійних моделях екосистем.Щоб адаптуватися до негаусової коваріації даних, SAGE використовує вбудовування випадкових сусідів (t-SNE) для зменшення розмірності.За допомогою програми шуму на основі алгоритму просторової кластеризації на основі щільності (DBSCAN) можна ідентифікувати більше ста екологічних провінцій.Використовуючи карту зв’язності з екологічними відмінностями як міру відстані, надійна агрегована екологічна провінція (AEP) об’єктивно визначається через вкладені екологічні провінції.Використовуючи AEPs, було досліджено контроль швидкості постачання поживними речовинами на структуру спільноти.Екопровінція та AEP унікальні та можуть допомогти в інтерпретації моделі.Вони можуть полегшити порівняння між моделями та можуть покращити розуміння та моніторинг морських екосистем.
Провінції — це регіони, де складна біогеографія на морі чи суші організована в узгоджені та значущі області (1).Ці провінції дуже важливі для порівняння та порівняння місць, характеристики спостережень, моніторингу та захисту.Складні та нелінійні взаємодії, які створюють ці провінції, роблять методи неконтрольованого машинного навчання (ML) дуже придатними для об’єктивного визначення провінцій, оскільки коваріація в даних є складною та негаусовою.Тут пропонується метод ML, який систематично визначає унікальні морські екологічні провінції (еко-провінції) з глобальної тривимірної (3D) фізичної/екосистемної моделі Дарвіна (2).Термін «унікальний» використовується для вказівки на те, що ідентифікована область недостатньо перетинається з іншими областями.Цей метод називається методом системної інтегрованої екологічної провінції (SAGE).Щоб виконати корисну класифікацію, метод алгоритму повинен дозволяти (i) глобальну класифікацію та (ii) багатомасштабний аналіз, який можна вкладати/агрегувати в просторі та часі (3).У цьому дослідженні вперше було запропоновано метод SAGE та обговорено ідентифіковані екологічні провінції.Екопровінції можуть сприяти розумінню факторів, які контролюють структуру громади, надавати корисну інформацію для стратегій моніторингу та допомагати відстежувати зміни в екосистемі.
Наземні провінції зазвичай класифікуються відповідно до подібності клімату (опади та температура), ґрунту, рослинності та фауни та використовуються для допоміжного управління, дослідження біорізноманіття та боротьби з хворобами (1, 4).Морські провінції визначити складніше.Більшість організмів мікроскопічні, з рідинними межами.Longhurst та ін.(5) Запропонував одну з перших глобальних класифікацій Міністерства океанографії на основі екологічних умов.Визначення цих провінцій «Лонгхерст» включає такі змінні, як швидкість змішування, стратифікація та освітленість, а також великий досвід Лонгхерста як морського океанографа, який має інші важливі умови для морських екосистем.Longhurst широко використовувався, наприклад, для оцінки первинного виробництва та потоків вуглецю, сприяння рибальству та планування заходів спостереження на місці (5-9).Для більш об’єктивного визначення провінцій були використані такі методи, як нечітка логіка та регіональна неконтрольована кластеризація/статистика (9-14).Метою таких методів є виявлення значущих структур, які можуть ідентифікувати провінції в доступних даних спостережень.Наприклад, динамічні морські провінції (12) використовують самоорганізаційні карти для зменшення шуму та використовують ієрархічну (деревоподібну) кластеризацію для визначення продуктів морського кольору, отриманих від регіональних супутників [хлорофіл a (Chl-a), нормалізована висота лінії флуоресценції та кольорова розчинена органічна речовина] та фізичне поле (температура та солоність поверхні моря, абсолютний динамічний рельєф та морський лід).
Структура спільноти планктону викликає занепокоєння, оскільки його екологія має великий вплив на більш високий рівень поживних речовин, поглинання вуглецю та клімат.Тим не менш, визначити глобальну екологічну провінцію на основі структури спільноти планктону все ще залишається складною та недосяжною метою.Морські кольорові супутники потенційно можуть надати уявлення про грубозернисту класифікацію фітопланктону або запропонувати переваги функціональних груп (15), але наразі вони не можуть надати детальну інформацію про структуру спільноти.Останні дослідження [наприклад, океан Тара (16)] забезпечують безпрецедентні вимірювання структури громади;в даний час існують лише нечисленні спостереження на місці в глобальному масштабі (17).Попередні дослідження значною мірою визначили «Біогеохімічну провінцію» (12, 14, 18) на основі визначення біохімічних подібностей (таких як первинне виробництво, Chl та доступне світло).Тут числова модель використовується для виведення [Darwin(2)], а екологічна провінція визначається відповідно до структури спільноти та потоку поживних речовин.Числова модель, використана в цьому дослідженні, має глобальне охоплення і може бути порівняна з наявними польовими даними (17) і полями дистанційного зондування (Примітка S1).Дані числової моделі, використані в цьому дослідженні, мають перевагу глобального охоплення.Модельна екосистема складається з 35 видів фітопланктону та 16 видів зоопланктону (зверніться до матеріалів і методів).Модельні типи планктону нелінійно взаємодіють з негаусовими коваріаційними структурами, тому прості діагностичні методи не підходять для ідентифікації унікальних і послідовних моделей у нових структурах спільноти.Представлений тут метод SAGE забезпечує новий спосіб перевірки результатів складних моделей Дарвіна.
Потужні трансформаційні можливості технології data science/ML можуть уможливити надзвичайно складні модельні рішення для виявлення складних, але надійних структур у коваріації даних.Надійний метод визначається як метод, який може точно відтворити результати в заданому діапазоні помилок.Навіть у простих системах визначення стійких моделей і сигналів може бути складним завданням.Поки не буде визначено обґрунтування спостережуваної моделі, виникла складність може здаватися складною/важкою для вирішення.Ключовий процес встановлення складу екосистеми має нелінійний характер.Існування нелінійних взаємодій може ввести в оману надійну класифікацію, тому необхідно уникати методів, які роблять сильні припущення щодо основного статистичного розподілу коваріації даних.Багатовимірні та нелінійні дані поширені в океанографії та можуть мати коваріаційну структуру зі складною негаусовою топологією.Хоча дані з негаусовою структурою коваріації можуть перешкоджати надійній класифікації, метод SAGE є новим, оскільки він призначений для ідентифікації кластерів із довільною топологією.
Метою методу SAGE є об’єктивна ідентифікація нових моделей, які можуть допомогти подальшому екологічному розумінню.Після робочого процесу на основі кластерів, подібного до (19), екологічні змінні та змінні потоку поживних речовин використовуються для визначення єдиного кластера в даних, який називається екологічною провінцією.Метод SAGE, запропонований у цьому дослідженні (рис. 1), спочатку зменшує розмірність з 55 до 11 вимірювань шляхом підсумовування функціональних груп планктону, визначених апріорі (див. Матеріали та методи).За допомогою методу t-випадкового сусіднього вбудовування (t-SNE) розмір додатково зменшується шляхом проектування ймовірності в 3D-простір.Кластеризація без нагляду може ідентифікувати екологічно близькі території [просторова кластеризація на основі щільності (DBSCAN) для додатків на основі шуму].Як t-SNE, так і DBSCAN застосовні до даних числової моделі нелінійної екосистеми.Потім повторно спроектуйте отриману екологічну провінцію на землю.Виявлено понад сто унікальних екологічних провінцій, придатних для регіональних досліджень.Щоб розглянути глобально послідовну модель екосистеми, метод SAGE використовується для агрегування екологічних провінцій в агреговані екологічні провінції (AEP) для підвищення ефективності екологічних провінцій.Рівень агрегування (так званий «складність») можна налаштувати відповідно до необхідного рівня деталізації.Визначте мінімальну складність надійного AEP.У центрі уваги відбору – метод SAGE та дослідження випадків AEP найменшої складності для визначення контролю над структурою надзвичайних ситуацій.Зразки можна потім проаналізувати, щоб отримати екологічну інформацію.Представлений тут метод також можна використовувати для більш широкого порівняння моделей, наприклад, шляхом оцінки розташування подібних екологічних провінцій, знайдених у різних моделях, щоб підкреслити відмінності та подібності, щоб порівняти моделі.
(A) Схематична діаграма робочого процесу для визначення екологічної провінції;використання суми у функціональній групі для зменшення вихідних 55-вимірних даних до 11-вимірної моделі, включаючи біомасу семи функціональних/поживних планктону та чотирьох рівнів поживних речовин.Незначне значення і міцний льодовий покрив площі.Дані були стандартизовані та стандартизовані.Надайте 11-вимірні дані в алгоритм t-SNE, щоб виділити статистично подібні комбінації ознак.DBSCAN ретельно вибере кластер для встановлення значення параметра.Нарешті спроектуйте дані назад у проекцію широти/довготи.Будь ласка, зверніть увагу, що цей процес повторюється 10 разів, оскільки застосування t-SNE може створити невелику випадковість.(B) пояснює, як отримати AEP, повторивши робочий процес у (A) 10 разів.Для кожного з цих 10 реалізацій була визначена міжпровінційна матриця відмінностей Брей-Кертіса (BC) на основі біомаси 51 типу фітопланктону.Визначте різницю BC між провінціями, від складності 1 AEP до повної складності 115. Еталон BC встановлюється провінцією Лонгхерст.
Метод SAGE використовує результат глобальної 3D чисельної моделі фізичної/екосистеми для визначення екологічної провінції [Дарвін (2);див. матеріали та методи та примітку S1].Компоненти екосистеми складаються з 35 видів фітопланктону та 16 видів зоопланктону з сімома попередньо визначеними функціональними групами: прокаріоти та еукаріоти, пристосовані до середовища з низьким вмістом поживних речовин, кокцидії з кальцієво-карбонатним покриттям та сильна азотфіксація. Нітрогенні поживні речовини (як правило, відсутні) важливі поживні речовини), з кремнеземним покриттям, можуть спричинити фотосинтез іншого планктону та випасання змішаних поживних речовин джгутикових та пастухів зоопланктону.Діапазон розмірів становить від 0,6 до 2500 мкм еквівалентного сферичного діаметра.Розподіл розміру та функціонального угруповання фітопланктону моделі враховує загальні характеристики супутникових спостережень та спостережень на місці (див. малюнки S1-S3).Подібність між чисельною моделлю та спостережуваним океаном вказує на те, що провінції, визначені моделлю, можуть бути застосовані до океану на місці.Зауважте, що ця модель охоплює лише певне різноманіття фітопланктону та лише певні фізичні та хімічні діапазони впливу океану in situ.Метод SAGE може дозволити людям краще зрозуміти високорегіональний механізм контролю модельної структури громади.
Включаючи лише суму поверхневої біомаси (із середнім часом 20 років) у кожній функціональній групі планктону, можна зменшити розмірність даних.Після того, як попередні дослідження показали їхню ключову роль у встановленні структури спільноти, вони також включали умови поверхневого джерела для потоків поживних речовин (постачання азоту, заліза, фосфату та кремнієвої кислоти) [наприклад, (20, 21)].Підсумовування функціональних груп зменшує проблему з 55 (51 планктон і 4 потоки поживних речовин) до 11 вимірів.У цьому початковому дослідженні через обчислювальні обмеження, накладені алгоритмом, не враховувалися змінність глибини та часу.
Метод SAGE здатний визначити важливі взаємозв’язки між нелінійними процесами та ключовими особливостями взаємодії між біомасою функціональної групи та потоком поживних речовин.Використання 11-вимірних даних на основі евклідових методів дистанційного навчання (таких як K-середні) не може отримати надійні та відтворювані провінції (19, 22).Це пояснюється тим, що в базовому розподілі коваріації ключових елементів, які визначають екологічну провінцію, не знайдено форми Гауса.K-середні клітинок Вороного (прямі лінії) не можуть зберігати негаусівський базовий розподіл.
Біомаса семи функціональних груп планктону та чотирьох поживних потоків утворюють 11-мірний вектор x.Отже, x є векторним полем на сітці моделі, де кожен елемент xi представляє 11-вимірний вектор, визначений на горизонтальній сітці моделі.Кожен індекс, який я однозначно ідентифікує точку сітки на сфері, де (lon, lat) = (ϕi, θi).Якщо біомаса блоку модельної сітки менша ніж 1,2×10-3 мг Хл/м3 або коефіцієнт покриття льодом перевищує 70%, журнал даних біомаси використовується та відкидається.Дані нормалізовано та стандартизовано, тому всі дані знаходяться в діапазоні від [0 до 1], середнє значення видаляється та масштабується до одиниці дисперсії.Це робиться для того, щоб характеристики (біомаса та потік поживних речовин) не обмежувалися контрастом у діапазоні можливих значень.Кластеризація повинна фіксувати зв’язок змін на основі ключової ймовірної відстані між об’єктами, а не географічної відстані.За допомогою кількісного визначення цих відстаней з’являються важливі характеристики, а непотрібні деталі відкидаються.З екологічної точки зору це необхідно, оскільки деякі типи фітопланктону з невеликою біомасою можуть мати більший біогеохімічний вплив, наприклад фіксація азоту діазотрофними бактеріями.Під час стандартизації та нормалізації даних ці типи коваріат будуть виділені.
Підкреслюючи близькість функцій у високовимірному просторі в низьковимірному представленні, алгоритм t-SNE використовується для того, щоб зробити існуючі подібні регіони чіткішими.У попередній роботі, спрямованій на створення глибоких нейронних мереж для програм дистанційного зондування, використовувався t-SNE, який довів свою майстерність у розділенні ключових функцій (23).Це необхідний крок для виявлення надійної кластеризації в даних ознак, уникаючи при цьому неконвергентних рішень (примітка S2).Використовуючи ядра Гауса, t-SNE зберігає статистичні властивості даних, відображаючи кожен високовимірний об’єкт на точку в тривимірному фазовому просторі, таким чином гарантуючи, що ймовірність подібних об’єктів у високому та низькому напрямках є високою у високому. розмірний простір (24).Враховуючи набір із N високовимірних об’єктів x1,…,xN, алгоритм t-SNE зменшує, мінімізуючи розбіжність Кульбака-Лейблера (KL) (25).Розбіжність KL є мірою того, наскільки розподіл ймовірностей відрізняється від другого еталонного розподілу ймовірностей, і може ефективно оцінити можливість кореляції між низьковимірними представленнями високовимірних ознак.Якщо xi — i-й об’єкт у N-вимірному просторі, xj — j-й об’єкт у N-вимірному просторі, yi — i-й об’єкт у низьковимірному просторі, а yj — j-й об’єкт у низькому -вимірного простору, то t -SNE визначає ймовірність подібності ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), а для набору зменшення розмірності q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Рисунок 2A ілюструє ефект зменшення векторів біомаси та потоку поживних речовин 11-вимірної комбінації до 3D.Мотивацію застосування t-SNE можна порівняти з мотивацією аналізу головних компонентів (PCA), який використовує атрибут дисперсії, щоб підкреслити область/атрибут даних, тим самим зменшуючи розмірність.Було встановлено, що метод t-SNE перевершує PCA у забезпеченні надійних і відтворюваних результатів для Екоміністерства (див. Примітку S2).Це може бути тому, що припущення про ортогональність PCA не підходить для ідентифікації критичних взаємодій між дуже нелінійними інтерактивними функціями, оскільки PCA фокусується на лінійних коваріаційних структурах (26).Використовуючи дані дистанційного зондування, Lunga et al.(27) ілюструє, як використовувати метод SNE для виділення складних і нелінійних спектральних особливостей, які відхиляються від розподілу Гауса.
(A) Змодельована швидкість постачання поживними речовинами, біомаса функціональної групи фітопланктону та зоопланктону, намальована алгоритмом t-SNE та розфарбована за провінцією за допомогою DBSCAN.Кожна точка представляє точку у високовимірному просторі, як показано на малюнку 6B, більшість точок зафіксовано.Вали відносяться до «t-SNE» розмірів 1, 2 і 3. (B) Географічна проекція провінції, знайдена DBSCAN на сітці широт і довгот початку координат.Колір слід розглядати як будь-який колір, але повинен відповідати (А).
Точки на графіку розсіювання t-SNE на малюнку 2A відповідно пов’язані з широтою та довготою.Якщо дві точки на малюнку 2A розташовані близько одна до одної, це тому, що їх потоки біомаси та поживних речовин подібні, а не через географічну близькість.Кольори на малюнку 2A — це кластери, виявлені за допомогою методу DBSCAN (28).Під час пошуку щільних спостережень алгоритм DBSCAN використовує відстань у тривимірному представленні між точками (ϵ = 0,39; інформацію про цей вибір див. у матеріалах і методах), а кількість подібних точок потрібна для визначення кластера (тут 100 балів, див. вище).Метод DBSCAN не робить жодних припущень щодо форми або кількості кластерів у даних, як показано нижче:
3) Для всіх точок, визначених як такі, що знаходяться на відстані, повторіть крок 2 ітераційно, щоб визначити межу кластера.Якщо кількість балів перевищує встановлене мінімальне значення, він позначається як кластер.
Дані, які не відповідають мінімальному члену кластера та відстані ϵ метрика вважаються "шумом" і не присвоюються кольором.DBSCAN - це швидкий і масштабований алгоритм з продуктивністю O (N2) у найгіршому випадку.Для поточного аналізу він насправді не випадковий.Мінімальна кількість балів визначається експертною оцінкою.Після налаштування відстані результат недостатньо стабільний у діапазоні ≈±10.Ця відстань встановлюється за допомогою підключення (Малюнок 6A) і відсотка покриття океану (Малюнок 6B).Зв'язність визначається як сукупне число кластерів і чутлива до параметра ϵ.Нижча зв’язність вказує на недостатню відповідність, штучне групування регіонів разом.Високий рівень підключення свідчить про переобладнання.Можливе використання вищого мінімуму, але якщо мінімум перевищує ca, неможливо досягти надійного рішення.135 (Детальніше див. Матеріали і методи).
115 кластерів, визначених на малюнку 2A, проектуються назад на землю на малюнку 2B.Кожен колір відповідає узгодженій комбінації біогеохімічних і екологічних факторів, визначених DBSCAN.Після того, як кластери визначені, асоціація кожної точки на малюнку 2A з конкретною широтою та довготою використовується для проектування кластерів назад у географічну область.Малюнок 2B ілюструє це з такими ж кольорами кластерів, що й малюнок 2A.Подібні кольори не слід інтерпретувати як екологічну подібність, оскільки вони призначаються за порядком, у якому алгоритм виявляє кластери.
Область на малюнку 2B може бути якісно подібною до встановленої області у фізичній та/або біогеохімії океану.Наприклад, скупчення в Південному океані зонально-симетричні, з’являються оліготрофні вихори, різкий перехід свідчить про вплив пасатів.Наприклад, в екваторіальній частині Тихого океану видно різні регіони, пов’язані з підвищенням.
Для того, щоб зрозуміти екологічне середовище еко-провінції, для оцінки екології в кластері було використано варіацію індексу різниці Брей-Кертіса (BC) (29).Індикатор BC – це статистичні дані, які використовуються для кількісного визначення різниці в структурі спільноти між двома різними місцями.Вимірювання BC застосовне до біомаси 51 виду фітопланктону та зоопланктону BCninj = 1-2CninjSni + Snj
BCninj відноситься до подібності між комбінацією ni та комбінацією nj, де Cninj є мінімальним значенням одного типу біомаси, яка існує в обох комбінаціях ni та nj, а Sni представляє суму всіх біомас, які існують в обох комбінаціях ni та Snj.Різниця BC подібна до вимірювання відстані, але діє в неевклідовому просторі, який, ймовірно, більш підходить для екологічних даних та їх інтерпретації.
Для кожного кластеру, визначеного на малюнку 2b, можна оцінити подібність внутрішньопровінційної та міжпровінцикової БК.Різниця до нашої ери в провінції стосується різниці між середньою вартістю провінції та кожною точкою провінції.Різниця між провінціями БК відноситься до подібності між однією провінцією та іншими провінціями.На малюнку 3а показана симетрична матриця BC (0, чорний: повністю відповідає; 1, білий: повністю відрізняється).Кожен рядок на графіку показує шаблон у даних.На малюнку 3b показано географічне значення результатів БК на рисунку 3а для кожної провінції.Для провінції в районі з низьким рівнем харчування та поживними речовинами малюнок 3B показує, що симетрія великих територій навколо екватора та Індійського океану в основному подібна, але більш високі широти та області апвелінгу значно відрізняються.
(A) Ступінь різниці до БК, оцінена для кожної провінції на основі глобального середнього середнього глобального середнього поверхні 51 планктон.Зверніть увагу на очікувану симетрію значень.(B) Просторова проекція стовпця (або рядка).Для провінції в дистрофічному колі було оцінено глобальний розподіл міри подібності до BC, а також було оцінено глобальне середнє значення за 20 років.Чорний (BC = 0) означає однакову область, а білий (BC = 1) означає відсутність подібності.
Малюнок 4а ілюструє різницю в БК у кожній провінції на малюнку 2b.Визначено за допомогою середньої комбінації середньої площі в кластері та визначення відмінності між BC та середнім значенням кожної точки сітки в провінції, це показує, що метод SAGE може добре відокремити 51 вид на основі екологічної подібності типу дані моделі.Загальний середній кластер до нашої ери всіх 51 типів становить 0,102 ± 0,0049.
(A, B і D) Різниця BC в межах провінції оцінюється як середня різниця BC між кожною спільнотою точок сітки та середньою провінцією, і складність не зменшується.(2) Глобальна середня внутрішньопровінційна різниця BC становить 0,227±0,117.Це еталон класифікації на основі екологічної мотивації, запропонованої в цій роботі [зелена лінія в (C)].(C) Середня внутрішньопровінційна різниця BC: чорна лінія представляє внутрішньопровінційну різницю BC із зростаючою складністю.2σ походить від 10 повторів процесу ідентифікації еко-провінції.Для загальної складності провінцій, виявлених DBSCAN, (A) показує, що відмінність BC у провінції становить 0,099, а класифікація складності, запропонована (C), становить 12, що призводить до відмінності BC у провінції 0,200.Як показано малюнок.(D).
На малюнку 4B біомаса 51 типу планктону використовується для представлення еквівалентної різниці до нашої ери в провінції Лонгхерст.Загальне середнє для кожної провінції становить 0,227, а стандартне відхилення точок сітки з посиланням на різницю в провінції Британської Колумбії становить 0,046.Це більше, ніж кластер, визначений на малюнку 1B.Натомість, використовуючи суму семи функціональних груп, середня внутрішньосезонна відмінність до н.е. у Лонгхерсті зросла до 0,232.
Глобальна мапа екопровінції надає складні деталі унікальних екологічних взаємодій і покращень у використанні всієї структури екосистеми провінції Лонгхерст.Очікується, що Міністерство екології надасть уявлення про процес керування екосистемою числової моделі, і це уявлення допоможе дослідженню польових робіт.Для цілей цього дослідження неможливо повністю відобразити більше ста провінцій.У наступному розділі представлено метод SAGE, який узагальнює провінції.
Однією з цілей провінції є сприяння розумінню розташування та управління провінцією.Щоб визначити надзвичайні ситуації, метод на малюнку 1B ілюструє гніздування екологічно подібних провінцій.Екопровінції групуються на основі екологічної подібності, і таке групування провінцій називається AEP.Встановіть регульовану «складність» на основі загальної кількості провінцій, які слід враховувати.Термін «складність» використовується тому, що він дозволяє регулювати рівень аварійних атрибутів.Для того, щоб визначити значущі агрегації, середня внутрішньопровінційна різниця BC у 0,227 від Лонгхерста використовується як еталон.Нижче цього контрольного рівня об’єднані провінції більше не вважаються корисними.
Як показано на малюнку 3B, глобальні екологічні провінції є узгодженими.Використовуючи міжпровінційні відмінності BC, можна побачити, що деякі конфігурації є дуже «загальними».Натхненні методами генетики та теорії графів, «зв’язані графи» використовуються для сортування >100 провінцій на основі найбільш подібних до них провінцій.Показник «зв’язності» тут визначається за допомогою міжпровінційної відмінності до нашої ери (30).Кількість провінцій із більшим простором для класифікації понад 100 провінцій можна назвати тут складністю.AEP — це продукт, який класифікує понад 100 провінцій як найбільш домінуючі/найближчі екологічні провінції.Кожна екологічна провінція призначається до домінуючої/високо пов’язаної екологічної провінції, яка є найбільш схожою на них.Це агрегування, визначене різницею BC, дозволяє використовувати вкладений підхід до глобальної екології.
Вибрана складність може мати будь-яке значення від 1 до повної складності на ФІГ.2А.При нижчій складності AEP може вироджуватися через імовірнісний крок зменшення розмірності (t-SNE).Виродженість означає, що екологічні провінції можуть бути призначені різним AEP між ітераціями, таким чином змінюючи охоплену географічну територію.Рисунок 4C ілюструє поширення відмінностей BC в межах провінцій у AEP зростаючої складності в 10 реалізаціях (ілюстрація на малюнку 1B).На малюнку 4C 2σ (синя область) є мірою погіршення в 10 реалізаціях, а зелена лінія представляє еталонний тест Лонгхерста.Факти довели, що складність 12 може утримувати різницю BC у провінції нижче еталонного значення Longhurst у всіх реалізаціях і підтримувати відносно невелике погіршення 2σ.Підсумовуючи, мінімальна рекомендована складність становить 12 AEP, а середня різниця BC всередині провінції, оцінена з використанням 51 типу планктону, становить 0,198±0,013, як показано на малюнку 4D.Використовуючи суму семи функціональних груп планктону, середня різниця BC в межах провінції становить 2σ замість 0,198±0,004.Порівняння різниць BC, розрахованих із загальною біомасою семи функціональних груп або біомасою всіх 51 типів планктону, показує, що хоча метод SAGE застосовний до 51-вимірної ситуації, він для загальної біомаси семи функціональних груп Для навчання.
Залежно від мети будь-якого дослідження можуть розглядатися різні рівні складності.Для регіональних досліджень може знадобитися повна комплексність (тобто всі 115 провінцій).Як приклад і для ясності розглянемо мінімальну рекомендовану складність 12.
Як приклад користі методу SAGE, тут використовуються 12 AEP з мінімальною складністю 12 для дослідження контролю над структурою спільноти в надзвичайних ситуаціях.Рисунок 5 ілюструє екологічні висновки, згруповані за AEP (від A до L): у стехіометрії Редфілда географічний протяжність (рис. 5C), склад біомаси функціональної групи (рис. 5A) і запас поживних речовин (рис. 5B) виконуються за допомогою N Zoomed.Показано співвідношення (N:Si:P:Fe, 1:1:16:16×103).Для останньої панелі P, помножене на 16, і Fe, помножене на 16×103, тому гістограма еквівалентна харчовим потребам фітопланктону.
Провінції поділяються на 12 AEP від A до L. (A) Біомаса (мгC/м3) екосистем у 12 провінціях.(B) Швидкість потоку поживних речовин розчиненого неорганічного азоту (N), заліза (Fe), фосфату (P) і кремнієвої кислоти (Si) (ммоль/м3 на рік).Fe і P помножуються на 16 і 16×103 відповідно, щоб смуги були стандартизовані відповідно до вимог стехіометрії фітопланктону.(C) Зверніть увагу на різницю між полярними регіонами, субтропічними циклонами та основними сезонними регіонами/регіонами підвищення.Станції моніторингу позначені наступним чином: 1, МІСЦЯ;2, ALOHA;3, станція П;і 4, КАЖАНИ.
Виявлений АЕП є унікальним.Існує певна симетрія навколо екватора в Атлантичному та Тихому океанах, і подібна, але збільшена область існує в Індійському океані.Деякі AEP охоплюють західну сторону континенту, пов'язану зі сходженням.Південнополюсна циркумполярна течія вважається великою зональною структурою.Субтропічний циклон є складною серією оліготрофних АЕП.У цих провінціях очевидна знайома картина відмінностей біомаси між оліготрофними вихорами, де домінує планктон, і полярними регіонами, багатими діатомовими водоростями.
AEP з дуже подібною загальною біомасою фітопланктону можуть мати дуже різні структури спільнот і охоплювати різні географічні області, такі як D, H і K, які мають подібну загальну біомасу фітопланктону.AEP H в основному існує в екваторіальному Індійському океані, і там більше діазотрофних бактерій.AEP D зустрічається в кількох басейнах, але він особливо помітний у Тихому океані навколо високопродуктивних районів навколо екваторіального апвелінгу.Форма цієї тихоокеанської провінції нагадує планетарний шлейф хвиль.У AEP D мало діазобактерій, а колбочок більше.Порівняно з двома іншими провінціями, AEP K зустрічається лише у високогір’ях Північного Льодовитого океану, і тут більше діатомових водоростей і менше планктону.Варто відзначити, що кількість планктону в цих трьох регіонах також дуже різна.Серед них кількість планктону AEP K відносно низька, а AEP D і H відносно висока.Таким чином, незважаючи на їхню біомасу (і, отже, подібну до Chl-a), ці провінції досить різні: тестування провінцій на основі Chl може не вловити ці відмінності.
Також очевидно, що деякі AEP з дуже різною біомасою можуть бути подібними з точки зору структури фітопланктону.Наприклад, це видно в AEP D і E. Вони близькі один до одного, а в Тихому океані AEP E близький до високопродуктивного AEPJ.Так само немає чіткого зв’язку між біомасою фітопланктону та чисельністю зоопланктону.
AEP можна зрозуміти з точки зору наданих їм поживних речовин (рис. 5B).Діатомові водорості існують лише там, де є достатній запас кремнієвої кислоти.Як правило, чим більше запасів кремнієвої кислоти, тим вище біомаса діатомових водоростей.Діатомові водорості можна побачити в AEP A, J, K і L. Співвідношення біомаси діатомових водоростей відносно іншого фітопланктону визначається N, P і Fe, що забезпечуються відносно попиту на діатомові водорості.Наприклад, в AEP L переважають діатомові водорості.Порівняно з іншими поживними речовинами Si має найбільший запас.Навпаки, незважаючи на більш високу продуктивність, AEP J має менше діатомових водоростей і менше запасів кремнію (усі та відносно інших поживних речовин).
Діазонієві бактерії мають здатність фіксувати азот, але ростуть повільно (31).Вони співіснують з іншим фітопланктоном, де залізо та фосфор є надлишковими порівняно з потребою в недіазонієвих поживних речовинах (20, 21).Варто зазначити, що діазотрофна біомаса є відносно високою, а запаси Fe та P відносно великі щодо запасів N. Таким чином, хоча загальна біомаса в AEP J вища, біомаса діазонію в AEP H є більше, ніж у J. Будь ласка, зверніть увагу, що AEP J і H дуже відрізняються географічно, а H знаходиться в екваторіальній частині Індійського океану.
Якщо унікальну структуру екосистеми не розділити на провінції, уявлення, отримані за допомогою 12 моделей найнижчої складності AEP, не будуть такими чіткими.AEP, створений SAGE, полегшує узгоджене й одночасне порівняння складної та багатовимірної інформації з моделей екосистем.AEP ефективно підкреслює, чому Chl не є хорошим та альтернативним методом визначення структури спільноти або чисельності зоопланктону при вищих рівнях поживних речовин.Детальний аналіз актуальних тем дослідження виходить за рамки цієї статті.Метод SAGE надає спосіб досліджувати інші механізми в моделі, який легше використовувати, ніж перегляд точка-точка.
Метод SAGE пропонується допомогти уточнити надзвичайно складні екологічні дані з глобальних фізичних/біогеохімічних/екосистемних чисельних моделей.Екологічна провінція визначається загальною біомасою крос-планктонних функціональних груп, застосуванням алгоритму зменшення розмірності ймовірності t-SNE та кластеризації за допомогою неконтрольованого методу ML DBSCAN.Міжпровінційна теорія різниць/графів BC для методу гніздування застосовується для отримання надійного AEP, який можна використовувати для глобальної інтерпретації.З точки зору будівництва Еко-Провінція та АЕП унікальні.Вкладеність AEP можна регулювати між повною складністю початкової екологічної провінції та рекомендованим мінімальним порогом у 12 AEP.Вкладення та визначення мінімальної складності AEP вважаються ключовими кроками, оскільки ймовірність t-SNE вироджує AEP <12 складності.Метод SAGE є глобальним, і його складність коливається від> 100 AEP до 12. Для простоти наразі зосереджено увагу на складності 12 глобальних AEP.Майбутні дослідження, особливо регіональні дослідження, можуть виявити меншу просторову підмножину глобальних екопровінцій корисною та можуть бути об’єднані на меншій території, щоб скористатися тим самим екологічним розумінням, яке тут обговорюється.У ньому пропонуються пропозиції щодо того, як ці екологічні провінції та отримані з них знання можна використати для подальшого екологічного розуміння, полегшити порівняння моделей і потенційно покращити моніторинг морських екосистем.
Екологічна провінція та AEP, визначені методом SAGE, базуються на даних числової моделі.За визначенням, чисельна модель є спрощеною структурою, яка намагається охопити суть цільової системи, і різні моделі матимуть різний розподіл планктону.Числова модель, використана в цьому дослідженні, не може повністю відобразити деякі спостережувані закономірності (наприклад, в оцінках Хл для екваторіального регіону та Південного океану).Вловлюється лише невелика частина різноманіття в реальному океані, а мезо- та субмезомасштаби неможливо визначити, що може вплинути на потік поживних речовин і меншу структуру спільноти.Незважаючи на ці недоліки, виявляється, що AEP дуже корисна для того, щоб допомогти зрозуміти складні моделі.Оцінюючи, де виявляються подібні екологічні провінції, AEP забезпечує потенційний інструмент порівняння чисельної моделі.Поточна чисельна модель фіксує загальну структуру дистанційного зондування фітопланктону Chl-a та розподіл планктону за розміром і функціональною групою (Примітка S1 і Рисунок S1) (2, 32).
Як показано контурною лінією 0,1 мгХл-a/м-3, AEP поділяється на оліготрофну зону та мезотрофну зону (рис. S1B): AEP B, C, D, E, F і G є оліготрофними областями, а решта областей є розташований Вищий Хл-а.AEP показує деяку відповідність провінції Лонгхерст (рис. S3A), наприклад, Південний океан і екваторіальну частину Тихого океану.У деяких регіонах AEP охоплює кілька регіонів Лонгхерста, і навпаки.Оскільки намір розмежувати провінції в цій області та Лонгхерсті різний, очікується, що будуть розбіжності.Численні AEP у провінції Лонгхерст вказують на те, що певні території зі схожою біогеохімією можуть мати дуже різні структури екосистем.AEP демонструє певну відповідність фізичним станам, як виявлено за допомогою неконтрольованого навчання (19), наприклад, у станах з високим підйомом (наприклад, Південний океан і екваторіальна частина Тихого океану; малюнок S3, C і D).Ці відповідності вказують на те, що на структуру спільноти планктону сильно впливає динаміка океану.У таких областях, як Північна Атлантика, AEP перетинає фізичні провінції.Механізм, який викликає ці відмінності, може включати такі процеси, як транспортування пилу, що може призвести до абсолютно різних програм харчування навіть за схожих фізичних умов.
Міністерство екології та AEP зазначили, що за допомогою самого Хл неможливо ідентифікувати екологічні компоненти, як спільнота морських екологів вже усвідомила.Наприклад, хоча AEP J виділяється з точки зору фітопланктону та біомаси планктону, AEP A та L мають подібну біомасу планктону, але A має більшу кількість планктону.Майбутні морські кольорові супутники [наприклад, PACE (планктон, аерозоль, хмара та морська екосистема)] можуть мати кращі позиції, щоб допомогти оцінити структуру спільноти фітопланктону.Такі методи, як SAGE, у поєднанні з новими технологіями та дедалі більшою кількістю польових даних, доступних для наземних досліджень правдивості (таких як Tara та подальше дослідження), можуть спільно зробити крок до супутникового моніторингу стану екосистеми.
Метод SAGE забезпечує зручний спосіб оцінки деяких механізмів, які контролюють характеристики провінції, такі як біомаса/Хл, чисте первинне виробництво та структура громади.Наприклад, відносна кількість діатомових водоростей визначається дисбалансом у надходженні Si, N, P і Fe відносно стехіометричних потреб фітопланктону.При збалансованому забезпеченні у співтоваристві переважають діатомові водорості (L).Коли рівень постачання є незбалансованим (тобто запас кремнію нижчий, ніж потреба діатомових водоростей у поживних речовинах), на діатомові водорості припадає лише невелика частка (K).Коли надходження Fe і P перевищує надходження N (наприклад, E і H), діазотрофні бактерії будуть інтенсивно рости.Завдяки контексту, наданому AEP, дослідження механізмів контролю стане більш корисним.
Еко-провінція та AEP є територіями зі схожими громадськими структурами.Часовий ряд із певного місця в екологічній провінції або AEP можна розглядати як точку відліку та може представляти територію, охоплену екологічною провінцією або AEP.Такі часові ряди надають станції довгострокового моніторингу на місці.Довгострокові масиви даних на місці й надалі відіграватимуть неперевершену роль.З точки зору моніторингу структури спільноти, метод SAGE можна розглядати як спосіб допомогти визначити найбільш корисне розташування нових сайтів.Наприклад, часові ряди з довгострокової оцінки оліготрофного середовища існування (ALOHA) знаходяться в AEP B оліготрофної області (рис. 5C, мітка 2).Оскільки ALOHA знаходиться близько до межі іншого AEP, часовий ряд може не бути репрезентативним для всієї області, як було запропоновано раніше (33).У тому ж AEP B часовий ряд SEATS (часовий ряд Південно-Східної Азії) розташований на південному заході Тайваню (34), далі від кордонів інших AEP (рис. 5C, мітка 1), і може використовуватися як краще місце для моніторингу AEPB.Часовий ряд BATS (Bermuda Atlantic Time Series Study) (рис. 5C, мітка 4) в AEPC дуже близький до межі між AEP C і F, що вказує на те, що моніторинг AEP C за допомогою часових рядів BATS може бути безпосередньо проблематичним.Станція P в AEP J (Рис. 5C, мітка 3) знаходиться далеко від межі AEP, тому вона є більш репрезентативною.Eco-Province та AEP можуть допомогти створити систему моніторингу, придатну для оцінки глобальних змін, оскільки дозвіл провінцій оцінювати, де взяття проб на місці може дати ключову інформацію.Метод SAGE може бути вдосконалений для застосування до кліматичних даних для оцінки мінливості, що економить час.
Успіх методу SAGE досягається завдяки ретельному застосуванню методів науки про дані/ML та предметно-спеціальних знань.Зокрема, t-SNE використовується для зменшення розмірності, що зберігає коваріаційну структуру даних великої розмірності та полегшує візуалізацію коваріаційної топології.Дані впорядковано у формі смуг і коваріацій (рис. 2A), що вказує на те, що міри, засновані виключно на відстані (такі як K-середні), не підходять, оскільки вони зазвичай використовують гаусівський (круговий) базовий розподіл (обговорюється в Примітці S2) .Метод DBSCAN підходить для будь-якої коваріаційної топології.Поки ви звертаєте увагу на налаштування параметрів, можна забезпечити надійну ідентифікацію.Обчислювальна вартість алгоритму t-SNE є високою, що обмежує його поточне застосування до більшої кількості даних, що означає, що його важко застосувати до глибоких або змінних у часі полів.Робота над масштабованістю t-SNE триває.Оскільки відстань KL легко розпаралелювати, алгоритм t-SNE має хороший потенціал для розширення в майбутньому (35).Поки що інші багатообіцяючі методи зменшення розмірності, які можуть краще зменшити розмір, включають методи апроксимації та проекції уніфікованого колектора (UMAP), але оцінка в контексті даних океану є необхідною.Сенс кращої масштабованості полягає, наприклад, у класифікації глобальних кліматів або моделей різної складності на змішаному рівні.Області, які не вдається класифікувати SAGE в жодній провінції, можна розглядати як решту чорних крапок на малюнку 2A.Географічно ці території знаходяться переважно в сезонних зонах, що свідчить про те, що охоплення екологічних провінцій, які змінюються з часом, забезпечить краще покриття.
Щоб побудувати метод SAGE, були використані ідеї складних систем/науки про дані, використовуючи здатність визначати кластери функціональних груп (можливість бути дуже близькими в 11-вимірному просторі) і визначати провінції.Ці провінції зображують конкретні об’єми в нашому 3D фазовому просторі t-SNE.Аналогічно, частина Пуанкаре може бути використана для оцінки «обсягу» простору станів, зайнятого траєкторією, щоб визначити «нормальну» або «хаотичну» поведінку (36).Для виведення статичної 11-вимірної моделі об’єм, який займає після перетворення даних у тривимірний фазовий простір, можна пояснити подібним чином.Зв’язок між географічною територією та територією в тривимірному фазовому просторі непростий, але його можна пояснити з точки зору екологічної подібності.З цієї причини перевага надається більш звичайній мірі відмінності BC.
У майбутніх роботах повторно використовуватиметься метод SAGE для сезонних змін даних для оцінки просторової мінливості визначених провінцій та AEP.Майбутня мета полягає в тому, щоб використовувати цей метод, щоб допомогти визначити, які провінції можна визначити за допомогою супутникових вимірювань (таких як Chl-a, відбивна здатність дистанційного зондування та температура поверхні моря).Це дозволить дистанційно оцінювати екологічні компоненти та здійснювати дуже гнучкий моніторинг екологічних провінцій та їх мінливості.
Метою цього дослідження є впровадження методу SAGE, який визначає екологічну провінцію через її унікальну структуру спільноти планктону.Тут буде надано більш детальну інформацію про фізичну/біогеохімічну/модель екосистеми та вибір параметрів алгоритмів t-SNE і DBSCAN.
Фізичні компоненти моделі отримані з оцінки циркуляції океану та клімату [ECCOv4;(37) глобальна оцінка стану, описана (38).Номінальна роздільна здатність оцінки стану - 1/5.Метод найменших квадратів із методом множника Лагранжа використовується для отримання початкових і граничних умов і внутрішніх параметрів моделі, скоригованих шляхом спостереження, таким чином генеруючи модель загального циклу MIT (MITgcm) (39). Після оптимізації результати можуть відстежувати та спостерігати.
Біогеохімія/екосистема має більш повний опис (тобто рівняння та значення параметрів) у (2).Модель фіксує циркуляцію C, N, P, Si та Fe через неорганічні та органічні ставки.Використана тут версія включає 35 видів фітопланктону: 2 види мікропрокаріотів і 2 види мікроеукаріотів (придатні для середовищ із низьким вмістом поживних речовин), 5 видів Cryptomonas sphaeroides (з покриттям з карбонату кальцію), 5 видів діазонію (може фіксувати азот, тому це не обмежено) наявність розчиненого неорганічного азоту), 11 діатомових водоростей (утворюють кремнієвий покрив), 10 змішано-вегетативних джгутикових (можуть фотосинтезувати та поїдати інший планктон) і 16 зоопланктону (пасуться іншим планктоном).Їх називають «біогеохімічними функціональними групами», оскільки вони мають різний вплив на морську біогеохімію (40, 41) і часто використовуються в спостереженнях і моделюваннях.У цій моделі кожна функціональна група складається з кількох планктонів різних розмірів із діапазоном від 0,6 до 2500 мкм еквівалентного сферичного діаметра.
Параметри, що впливають на ріст, випас і занурення фітопланктону, пов’язані з розміром, і існують специфічні відмінності між шістьма функціональними групами фітопланктону (32).Незважаючи на різні фізичні рамки, результати 51 компонента планктону моделі були використані в ряді останніх досліджень (42-44).
З 1992 по 2011 роки модель зв’язку фізичних/біогеохімічних/екосистем діяла протягом 20 років.Вихідні дані моделі включають біомасу планктону, концентрацію поживних речовин і швидкість надходження поживних речовин (DIN, PO4, Si та Fe).У цьому дослідженні середнє значення цих результатів за 20 років було використано як вихідні дані екологічної провінції.Chl, розподіл біомаси планктону та концентрації поживних речовин, а також розподіл функціональних груп порівнюють із супутниковими спостереженнями та спостереженнями на місці [див. (2, 44), Примітку S1 та малюнок.S1 до S3].
Для методу SAGE основним джерелом випадковості є крок t-SNE.Випадковість перешкоджає повторюваності, а це означає, що результати є ненадійними.Метод SAGE суворо перевіряє надійність шляхом визначення набору параметрів t-SNE і DBSCAN, які можуть послідовно ідентифікувати кластери при повторенні.Визначення «заплутаності» параметра t-SNE можна розуміти як визначення ступеня, до якого відображення від високих до низьких розмірів має враховувати локальні або глобальні характеристики даних.Дійшов до плутанини 400 і 300 ітерацій.
Мінімальне число становить 100. Можна розглянути більш високе мінімальне значення (менше ніж <135 до того, як верхня межа зеленого стане ширшою), але воно не може замінити метод агрегування, заснований на відмінності BC.Зв'язність визначається як сукупне число кластерів і чутлива до параметра ϵ.Високий рівень підключення вказує на переобладнання.На малюнку 6A ви бачите різке збільшення площі плато (жовте, > 200 кластерів), а потім різке зменшення (зелене, 100 кластерів) приблизно до 130, оточених дуже малою кількістю кластерів (сині, <60 кластерів) ).Принаймні в 100 блакитних областях або один кластер домінує над усім океаном (ϵ <0,42), або більша частина океану не класифікується і вважається шумом (ϵ> 0,99).Жовта область має дуже мінливий, невідтворюваний розподіл кластерів.Зі зменшенням ϵ шум зростає.Різко зростаюча зелена зона називається ліктем.Це оптимальний регіон.Незважаючи на те, що ймовірність t-SNE використовується, різницю BC у межах провінції все ще можна використовувати для визначення надійної кластеризації.Використовуючи малюнок 6 (A і B), встановіть ϵ на 0,39.Чим більше мінімальне число, тим менша ймовірність досягнення ϵ, що дозволяє надійно класифікувати, і тим більше зелена зона зі значенням більше 135. Збільшення цієї області вказує на те, що лікоть буде важче знайти або не існуючий.
Після встановлення параметрів t-SNE загальна кількість знайдених кластерів буде використовуватися як міра зв’язності (A) і відсоток даних, виділених для кластера (B).Червона точка вказує на найкраще поєднання покриття та підключення.Мінімальна кількість встановлюється відповідно до мінімальної кількості, пов’язаної з екологією.
Додаткові матеріали до цієї статті див.
Це стаття відкритого доступу, яка розповсюджується на умовах ліцензії Creative Commons Attribution License.Стаття дозволяє необмежене використання, розповсюдження та відтворення на будь-якому носії за умови належного цитування оригінального твору.
Примітка: ми просимо вас надати свою електронну адресу лише для того, щоб особа, яку ви рекомендуєте на сторінку, знала, що ви хочете, щоб вона побачила електронний лист і що він не є спамом.Ми не будемо фіксувати жодні електронні адреси.
Це запитання використовується, щоб перевірити, чи є ви відвідувачем, і запобігти автоматичному надсиланню спаму.
Глобальне міністерство морської екології сповнене рішучості вирішувати складні проблеми та використовує ML без нагляду для дослідження громадських структур.
Глобальне міністерство морської екології сповнене рішучості вирішувати складні проблеми та використовує ML без нагляду для дослідження громадських структур.
Час публікації: 12 січня 2021 р