Предлагается метод обучения без учителя для определения глобальных морских экологических провинций (экопровинций) на основе структуры планктонного сообщества и данных о потоках питательных веществ.Метод систематической интегрированной экологической провинции (SAGE) может идентифицировать экологические провинции в сильно нелинейных моделях экосистем.Чтобы адаптироваться к негауссовой ковариации данных, SAGE использует встраивание случайных соседей (t-SNE) для уменьшения размерности.С помощью шумового приложения на основе алгоритма пространственной кластеризации на основе плотности (DBSCAN) можно идентифицировать более ста экологических провинций.Используя карту связности с экологическими различиями в качестве меры расстояния, надежная агрегированная экологическая провинция (AEP) объективно определяется через вложенные экологические провинции.С помощью AEP был изучен контроль скорости поступления питательных веществ в структуру сообщества.Эко-провинция и AEP уникальны и могут помочь в интерпретации модели.Они могут облегчить сравнение моделей и улучшить понимание и мониторинг морских экосистем.
Провинции – это регионы, в которых сложная биогеография моря или суши организована в последовательные и значимые территории (1).Эти провинции очень важны для сравнения и сопоставления мест, характеристики наблюдений, мониторинга и защиты.Сложные и нелинейные взаимодействия, которые создают эти провинции, делают методы машинного обучения (ML) без учителя очень подходящими для объективного определения провинций, поскольку ковариация в данных является сложной и негауссовой.Здесь предлагается метод ML, который систематически идентифицирует уникальные морские экологические провинции (экопровинции) на основе глобальной трехмерной (3D) физической/экосистемной модели Дарвина (2).Термин «уникальный» используется для обозначения того, что идентифицированная область недостаточно перекрывается с другими областями.Этот метод называется методом системно-интегрированной экологической провинции (SAGE).Чтобы выполнить полезную классификацию, метод алгоритма должен позволять (i) глобальную классификацию и (ii) многомасштабный анализ, который может быть вложен/агрегирован в пространстве и времени (3).В этом исследовании впервые был предложен метод SAGE и обсуждены выявленные экологические провинции.Эко-провинции могут способствовать пониманию факторов, которые контролируют структуру сообщества, предоставлять полезную информацию для стратегий мониторинга и помогать отслеживать изменения в экосистеме.
Наземные провинции обычно классифицируются по сходству климата (осадки и температура), почвы, растительности и фауны и используются для вспомогательного управления, исследования биоразнообразия и борьбы с болезнями (1, 4).Морские провинции определить сложнее.Большинство организмов микроскопические, с жидкостными границами.Лонгхерст и др.(5) Предоставила одну из первых глобальных классификаций Министерства океанографии, основанную на условиях окружающей среды.Определение этих провинций «Лонгхерст» включает такие переменные, как скорость перемешивания, стратификация и освещенность, а также обширный опыт Лонгхерста как морского океанографа, у которого есть другие важные условия для морских экосистем.Лонгхерст широко использовался, например, для оценки первичной продукции и потоков углерода, помощи рыболовству и планирования мероприятий по наблюдению на месте (5-9).Для более объективного определения провинций использовались такие методы, как нечеткая логика и региональная неконтролируемая кластеризация/статистика (9-14).Целью таких методов является выявление значимых структур, которые могут идентифицировать провинции в имеющихся данных наблюдений.Например, динамичные морские провинции (12) используют самоорганизующиеся карты для уменьшения шума и используют иерархическую (деревовидную) кластеризацию для определения продуктов цвета морской среды, полученных от региональных спутников [хлорофилл а (Chl-a), нормализованная высота линии флуоресценции и цветное растворенное органическое вещество] и физическое поле (температура и соленость поверхности моря, абсолютная динамическая топография и морской лед).
Структура сообщества планктона вызывает беспокойство, поскольку его экология оказывает большое влияние на более высокие уровни питательных веществ, поглощение углерода и климат.Тем не менее, определение глобальной экологической провинции на основе структуры планктонного сообщества по-прежнему остается сложной и труднодостижимой задачей.Морские цветные спутники потенциально могут дать представление о грубой классификации фитопланктона или указать на преимущества функциональных групп (15), но в настоящее время они не могут предоставить подробную информацию о структуре сообщества.Недавние исследования [например, Tara Ocean (16)] предоставили беспрецедентные измерения структуры сообщества;в настоящее время в глобальном масштабе проводятся лишь редкие наблюдения in-situ (17).Предыдущие исследования в значительной степени определили «Биогеохимическую провинцию» (12, 14, 18) на основе определения биохимических сходств (таких как первичное производство, Хл и доступный свет).Здесь для вывода используется численная модель [Дарвин(2)], а экологическая провинция определяется в соответствии со структурой сообщества и потоком питательных веществ.Численная модель, используемая в этом исследовании, имеет глобальный охват и может сравниваться с существующими полевыми данными (17) и полями дистанционного зондирования (Примечание S1).Данные численной модели, использованные в этом исследовании, имеют преимущество глобального охвата.Модельная экосистема состоит из 35 видов фитопланктона и 16 видов зоопланктона (см. материалы и методы).Типы модельного планктона нелинейно взаимодействуют с негауссовскими ковариационными структурами, поэтому простые диагностические методы не подходят для выявления уникальных и последовательных закономерностей в возникающих структурах сообщества.Представленный здесь метод SAGE обеспечивает новый способ проверки результатов сложных моделей Дарвина.
Мощные преобразующие возможности науки о данных/технологии машинного обучения могут позволить использовать чрезвычайно сложные модельные решения для выявления сложных, но надежных структур ковариации данных.Надежный метод определяется как метод, который может точно воспроизвести результаты в заданном диапазоне ошибок.Даже в простых системах определение устойчивых закономерностей и сигналов может оказаться непростой задачей.Пока не будет определено обоснование наблюдаемой закономерности, возникающая сложность может показаться сложной/трудноразрешимой.Ключевой процесс задания состава экосистемы носит нелинейный характер.Существование нелинейных взаимодействий может затруднить надежную классификацию, поэтому необходимо избегать методов, которые делают строгие предположения об основном статистическом распределении ковариации данных.Многомерные и нелинейные данные распространены в океанографии и могут иметь ковариационную структуру со сложной негауссовой топологией.Хотя данные с негауссовой ковариационной структурой могут препятствовать надежной классификации, метод SAGE является новым, поскольку он предназначен для идентификации кластеров с произвольной топологией.
Цель метода SAGE — объективно выявить возникающие закономерности, которые могут помочь дальнейшему пониманию экологии.Следуя рабочему процессу на основе кластеров, аналогичному (19), экологические переменные и переменные потока питательных веществ используются для определения единственного кластера в данных, называемого экологической провинцией.Метод SAGE, предложенный в этом исследовании (рис. 1), сначала уменьшает размерность с 55 до 11 измерений путем суммирования функциональных групп планктона, определенных априори (см. «Материалы и методы»).Используя метод внедрения t-случайных соседей (t-SNE), размер дополнительно уменьшается за счет проецирования вероятности в трехмерное пространство.Неконтролируемая кластеризация может идентифицировать экологически близкие области [пространственная кластеризация на основе плотности (DBSCAN) для приложений, основанных на шуме).И t-SNE, и DBSCAN применимы к данным численной модели нелинейной экосистемы.Затем перепроецируйте получившуюся экологическую провинцию на Землю.Выявлено более ста уникальных экологических провинций, пригодных для региональных исследований.Чтобы рассмотреть глобально согласованную модель экосистемы, метод SAGE используется для объединения экологических провинций в агрегированные экологические провинции (AEP) для повышения эффективности экологических провинций.Уровень агрегирования (называемый «сложностью») можно регулировать в соответствии с требуемым уровнем детализации.Определите минимальную сложность надежного AEP.В центре внимания отбора находится метод SAGE и изучение случаев AEP наименьшей сложности для определения контроля над структурой аварийного сообщества.Затем закономерности можно проанализировать, чтобы получить экологическую информацию.Представленный здесь метод также можно использовать для более широкого сравнения моделей, например, путем оценки местоположения схожих экологических провинций, обнаруженных в разных моделях, чтобы выделить различия и сходства и сравнить модели.
(A) Принципиальная схема рабочего процесса для определения экологической провинции;используя сумму в функциональной группе, чтобы уменьшить исходные 55-мерные данные до выходных данных 11-мерной модели, включая биомассу семи функциональных/питательных планктона и четыре скорости поступления питательных веществ.Незначительная ценность и прочный ледяной покров.Данные были стандартизированы и стандартизированы.Предоставьте 11-мерные данные алгоритму t-SNE, чтобы выделить статистически схожие комбинации признаков.DBSCAN тщательно выберет кластер для установки значения параметра.Наконец, спроецируйте данные обратно в проекцию широты/долготы.Обратите внимание, что этот процесс повторяется 10 раз, поскольку при применении t-SNE может возникнуть небольшая случайность.(B) объясняет, как получить AEP, повторив рабочий процесс (A) 10 раз.Для каждой из этих 10 реализаций межпровинциальная матрица различий Брея-Кёртиса (Британская Колумбия) была определена на основе биомассы 51 типа фитопланктона.Определите разницу BC между провинциями, от сложности 1 AEP до полной сложности 115. Контрольный показатель BC устанавливается провинцией Лонгхерст.
Метод SAGE использует результаты глобальной трехмерной численной модели физической/экосистемы для определения экологической провинции [Дарвин (2);см. «Материалы и методы» и примечание S1].Компоненты экосистемы состоят из 35 видов фитопланктона и 16 видов зоопланктона с семью заранее определенными функциональными группами: прокариоты и эукариоты, адаптированные к среде с низким содержанием питательных веществ, кокцидии с оболочкой из карбоната кальция и тяжелой азотфиксацией. важные питательные вещества), с кремнистым покрытием, могут осуществлять фотосинтез других планктона и выпасать жгутиконосцев со смешанными питательными веществами и пастухов зоопланктона.Диапазон размеров составляет от 0,6 до 2500 мкм, эквивалентный сферический диаметр.Модельное распределение размера и функциональной группировки фитопланктона отражает общие характеристики, наблюдаемые в спутниковых и натурных наблюдениях (см. рисунки S1–S3).Сходство между численной моделью и наблюдаемым океаном указывает на то, что провинции, определенные моделью, могут быть применимы к океану in-situ.Обратите внимание, что эта модель отражает только определенное разнообразие фитопланктона и только определенные диапазоны физических и химических воздействий на океан in situ.Метод SAGE может позволить людям лучше понять региональный механизм управления модельной структурой сообщества.
Включив в каждую функциональную группу планктона только сумму поверхностной биомассы (в среднем за 20 лет), размерность данных можно уменьшить.После того, как более ранние исследования показали их ключевую роль в установлении структуры сообщества, они также включили условия поверхностных источников для потоков питательных веществ (поставка азота, железа, фосфата и кремниевой кислоты) [например, (20, 21)] .Суммирование функциональных групп уменьшает проблему с 55 (51 планктон и 4 потока питательных веществ) до 11 измерений.В этом первоначальном исследовании из-за вычислительных ограничений, налагаемых алгоритмом, изменчивость глубины и времени не учитывалась.
Метод SAGE способен выявить важные взаимосвязи между нелинейными процессами и ключевыми особенностями взаимодействия между биомассой функциональных групп и потоком питательных веществ.Использование 11-мерных данных на основе евклидовых методов дистанционного обучения (таких как K-средние) не позволяет получить надежные и воспроизводимые провинции (19, 22).Это связано с тем, что в базовом распределении ковариации ключевых элементов, определяющих экологическую провинцию, не обнаружено гауссовой формы.K-средние ячеек Вороного (прямые линии) не могут сохранять негауссово базовое распределение.
Биомасса семи функциональных групп планктона и четырех потоков питательных веществ образует 11-мерный вектор x.Следовательно, x — векторное поле на сетке модели, где каждый элемент xi представляет 11-мерный вектор, определенный на горизонтальной сетке модели.Каждый индекс i однозначно идентифицирует точку сетки на сфере, где (lon, lat) = (φi, θi).Если биомасса единицы модельной сетки меньше 1,2×10-3мг Хл/м3 или степень ледяного покрова превышает 70%, журнал данных биомассы используется и отбрасывается.Данные нормализованы и стандартизированы, поэтому все данные находятся в диапазоне от [0 до 1], среднее значение удаляется и масштабируется до единичной дисперсии.Это сделано для того, чтобы характеристики (биомасса и поток питательных веществ) не ограничивались контрастом в диапазоне возможных значений.Кластеризация должна отражать взаимосвязь изменений на основе ключевого вероятностного расстояния между объектами, а не географического расстояния.Путем количественной оценки этих расстояний выявляются важные особенности, а ненужные детали отбрасываются.С экологической точки зрения это необходимо, поскольку некоторые виды фитопланктона с небольшой биомассой могут оказывать более сильные биогеохимические эффекты, например, фиксацию азота диазотрофными бактериями.При стандартизации и нормализации данных эти типы ковариат будут выделены.
Подчеркивая близость объектов в многомерном пространстве в низкомерном представлении, алгоритм t-SNE используется для того, чтобы сделать существующие похожие области более четкими.В предыдущей работе, направленной на создание глубоких нейронных сетей для приложений дистанционного зондирования, использовалась t-SNE, которая доказала свою способность разделять ключевые функции (23).Это необходимый шаг для выявления устойчивой кластеризации в данных объектов, избегая при этом неконвергентных решений (примечание S2).Используя ядра Гаусса, t-SNE сохраняет статистические свойства данных, сопоставляя каждый многомерный объект с точкой трехмерного фазового пространства, тем самым гарантируя, что вероятность появления подобных объектов в верхнем и низком направлениях высока в высоком. мерное пространство (24).Учитывая набор N многомерных объектов x1,…,xN, алгоритм t-SNE сокращается за счет минимизации расхождения Кульбака-Лейблера (KL) (25).Дивергенция KL является мерой того, насколько распределение вероятностей отличается от второго эталонного распределения вероятностей, и может эффективно оценивать возможность корреляции между низкоразмерными представлениями многомерных функций.Если xi — i-й объект в N-мерном пространстве, xj — j-й объект в N-мерном пространстве, yi — i-й объект в низкомерном пространстве, а yj — j-й объект в низкомерном пространстве. -мерного пространства, то t -SNE определяет вероятность подобия ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), а для множества понижения размерности q∣j = (1+ ∥yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Рисунок 2А иллюстрирует эффект уменьшения векторов потока биомассы и питательных веществ 11-мерной комбинации до 3D.Мотивацию применения t-SNE можно сравнить с мотивацией анализа главных компонент (PCA), который использует атрибут дисперсии, чтобы подчеркнуть область/атрибут данных, тем самым уменьшая размерность.Было обнаружено, что метод t-SNE превосходит метод PCA в обеспечении надежных и воспроизводимых результатов для Экологического министерства (см. Примечание S2).Это может быть связано с тем, что предположение об ортогональности PCA не подходит для выявления критических взаимодействий между сильно нелинейными интерактивными функциями, поскольку PCA фокусируется на линейных ковариационных структурах (26).Используя данные дистанционного зондирования, Лунга и др.(27) иллюстрирует, как использовать метод SNE для выделения сложных и нелинейных спектральных характеристик, которые отклоняются от распределения Гаусса.
(A) Смоделированная скорость поступления питательных веществ, биомасса функциональных групп фитопланктона и зоопланктона, нарисованная с помощью алгоритма t-SNE и раскрашенная по провинциям с использованием DBSCAN.Каждая точка представляет собой точку в многомерном пространстве, как показано на рисунке 6B, большинство точек фиксируется.Валы относятся к «t-SNE» размеров 1, 2 и 3. (B) Географическая проекция провинции, найденная с помощью DBSCAN на координатной сетке широты и долготы исходной точки.Цвет следует рассматривать как любой цвет, но он должен соответствовать (А).
Точки на диаграмме рассеяния t-SNE на рисунке 2A соответственно связаны с широтой и долготой.Если две точки на рисунке 2А расположены близко друг к другу, то это потому, что их биомасса и потоки питательных веществ схожи, а не из-за географической близости.Цвета на рисунке 2А — это кластеры, обнаруженные с помощью метода DBSCAN (28).При поиске плотных наблюдений алгоритм DBSCAN использует расстояние в 3D-представлении между точками (ϵ = 0,39; информацию об этом выборе см. в разделе «Материалы и методы»), а для определения кластера необходимо количество похожих точек (здесь 100 баллов, см. выше).Метод DBSCAN не делает никаких предположений о форме или количестве кластеров в данных, как показано ниже:
3) Для всех точек, определенных как находящиеся в пределах указанного расстояния, итеративно повторите шаг 2, чтобы определить границу кластера.Если количество точек превышает установленное минимальное значение, оно обозначается как кластер.
Данные, которые не соответствуют минимальному члену кластера и метрике расстояния ϵ, считаются «шумом» и им не присваивается цвет.DBSCAN — это быстрый и масштабируемый алгоритм с производительностью O(n2) в худшем случае.Для текущего анализа это на самом деле не случайно.Минимальное количество баллов определяется экспертной оценкой.После корректировки расстояния после результат оказывается недостаточно стабильным в диапазоне ≈±10.Это расстояние устанавливается с использованием возможности подключения (рис. 6A) и процента покрытия океана (рис. 6B).Связность определяется как составное число кластеров и чувствительна к параметру ϵ.Меньшая связность указывает на недостаточную подгонку, искусственно группируя регионы вместе.Высокая связность указывает на переобучение.Можно использовать более высокий минимум, но если минимум превышает ca, невозможно достичь надежного решения.135 (подробнее см. «Материалы и методы»).
115 скоплений, обозначенных на рисунке 2А, проецируются обратно на Землю на рисунке 2Б.Каждый цвет соответствует последовательной комбинации биогеохимических и экологических факторов, выявленных с помощью DBSCAN.После определения кластеров связь каждой точки на рисунке 2А с определенной широтой и долготой используется для проецирования кластеров обратно в географическую область.Рисунок 2B иллюстрирует это теми же цветами кластеров, что и рисунок 2A.Похожие цвета не следует интерпретировать как экологическое сходство, поскольку они назначаются в соответствии с порядком обнаружения кластеров алгоритмом.
Область на рисунке 2B может быть качественно подобна установленной области в физической и/или биогеохимии океана.Например, скопления в Южном океане зонально-симметричны, с появлением олиготрофных вихрей, а резкий переход указывает на влияние пассатов.Например, в экваториальной части Тихого океана видны разные регионы, связанные с подъемом.
Чтобы понять экологическую среду эко-провинции, для оценки экологии в кластере использовался вариант разностного индекса Брея-Кёртиса (BC) (29).Индикатор BC — это статистические данные, используемые для количественной оценки разницы в структуре сообщества между двумя разными участками.Измерение BC применимо к биомассе 51 вида фитопланктона и зоопланктона BCninj = 1-2CninjSni + Snj.
BCninj относится к сходству между комбинацией ni и комбинацией nj, где Cninj — минимальное значение одного типа биомассы, существующее в обеих комбинациях ni и nj, а Sni представляет собой сумму всех биомасс, существующих в обеих комбинациях ni и Snj.Разница БК аналогична мере расстояния, но действует в неевклидовом пространстве, которое, вероятно, больше подходит для экологических данных и их интерпретации.
Для каждого кластера, указанного на рисунке 2B, можно оценить сходство внутрипровинциальных и межпровинциальных БК.Разница БК внутри провинции представляет собой разницу между средним значением провинции и каждой точкой провинции.Разница между провинциями Британской Колумбии относится к сходству между одной провинцией и другими провинциями.На рисунке 3А показана симметричная матрица BC (0, черный: полностью соответствует; 1, белый: полностью различен).Каждая линия на графике показывает закономерность в данных.Рисунок 3B показывает географическое значение результатов Британской Колумбии на рисунке 3A для каждой провинции.Для провинции, расположенной в зоне с низким содержанием питательных веществ и питательных веществ, рисунок 3B показывает, что симметрия больших территорий вокруг экватора и Индийского океана в основном аналогична, но более высокие широты и области апвеллинга существенно различаются.
(A) Степень разницы в BC, оцененная для каждой провинции на основе глобального среднего глобального поверхностного показателя за 20 лет, составляющего 51 планктон.Обратите внимание на ожидаемую симметрию значений.(Б) Пространственная проекция столбца (или строки).Для провинции в дистрофическом круге оценивалось глобальное распределение меры сходства БК и оценивалось глобальное среднее значение за 20 лет.Черный (BC=0) означает одинаковую площадь, а белый (BC=1) означает отсутствие сходства.
Рисунок 4A иллюстрирует разницу в Британской Колумбии внутри каждой провинции на рисунке 2B.Полученный путем использования средней комбинации средней площади в кластере и определения различия между БК и средним значением каждой точки сетки в провинции, он показывает, что метод SAGE вполне может разделить 51 вид на основе экологического сходства. Тип данные модели.Суммарное среднее кластерное несходство БК всех 51 типа составляет 0,102±0,0049.
(A, B и D) Разница BC внутри провинции оценивается как средняя разница BC между каждым сообществом в точке сетки и средней провинцией, и сложность не уменьшается.(2) Глобальная средняя внутрипровинциальная разница БК составляет 0,227±0,117.Это эталон классификации, основанной на экологической мотивации, предложенной в этой работе [зеленая линия в (C)].(C) Средняя разница БК внутри провинции: черная линия представляет разницу БК внутри провинции с возрастающей сложностью.2σ получается в результате 10 повторений процесса идентификации экопровинции.Для общей сложности провинций, обнаруженных с помощью DBSCAN, (A) показывает, что различие BC в провинции составляет 0,099, а классификация сложности, предложенная (C), равна 12, в результате чего различие BC в провинции составляет 0,200.как показано на рисунке.(Д).
На рисунке 4B биомасса 51 типа планктона используется для представления эквивалентной разницы в BC в провинции Лонгхерст.Общее среднее значение для каждой провинции составляет 0,227, а стандартное отклонение точек сетки с учетом разницы в провинциях Британской Колумбии составляет 0,046.Это больше, чем кластер, показанный на рисунке 1B.Вместо этого, используя сумму семи функциональных групп, среднее внутрисезонное различие BC в Лонгхерсте увеличилось до 0,232.
Глобальная карта эко-провинции содержит подробные сведения об уникальных экологических взаимодействиях, а также были внесены улучшения в использование всей структуры экосистемы провинции Лонгхерст.Ожидается, что Министерство экологии предоставит понимание процесса управления экосистемой числовых моделей, и это понимание поможет в изучении полевых работ.Для целей данного исследования невозможно полностью отобразить более ста провинций.В следующем разделе представлен метод SAGE, суммирующий данные по провинциям.
Одна из целей провинции - способствовать пониманию местоположения и управления провинцией.Для определения чрезвычайных ситуаций метод на рисунке 1Б иллюстрирует вложение экологически схожих провинций.Экопровинции группируются по принципу экологического сходства, и такая группировка провинций называется AEP.Установите регулируемую «сложность» в зависимости от общего количества рассматриваемых провинций.Термин «сложность» используется потому, что он позволяет регулировать уровень атрибутов чрезвычайной ситуации.Чтобы определить значимые агрегаты, в качестве эталона используется средняя разница между провинциями Британской Колумбии и Лонгхерстом, составляющая 0,227.Ниже этого показателя объединенные провинции больше не считаются полезными.
Как показано на рисунке 3B, глобальные экологические провинции взаимосвязаны.Используя различия между провинциями БК, можно увидеть, что некоторые конфигурации очень «общие».Вдохновленные методами генетики и теории графов, «связные графы» используются для сортировки более 100 провинций по наиболее похожим на них провинциям.Показатель «связности» здесь определяется с использованием различий между провинциями Британской Колумбии (30).Количество провинций с большим пространством для классификации (> 100 провинций) можно назвать здесь сложностью.AEP — это продукт, который классифицирует более 100 провинций как наиболее доминирующие/ближайшие экологические провинции.Каждая экологическая провинция отнесена к доминирующей/тесно связанной экологической провинции, которая наиболее похожа на нее.Эта агрегация, определяемая разницей BC, позволяет использовать вложенный подход к глобальной экологии.
Выбранная сложность может иметь любое значение от 1 до полной сложности, показанной на фиг.2А.При более низкой сложности AEP может вырождаться из-за шага вероятностного уменьшения размерности (t-SNE).Вырождение означает, что экологические провинции могут быть назначены различным AEP между итерациями, тем самым изменяя охватываемую географическую область.Рисунок 4C иллюстрирует распространение различий BC внутри провинций в AEP возрастающей сложности в 10 реализациях (иллюстрация на рисунке 1B).На рисунке 4C 2σ (синяя область) является показателем ухудшения качества в 10 реализациях, а зеленая линия представляет собой эталонный тест Longhurst.Факты доказали, что сложность 12 может удерживать разницу BC в провинции ниже контрольного показателя Лонгхерста во всех реализациях и поддерживать относительно небольшую деградацию 2σ.Таким образом, минимальная рекомендуемая сложность составляет 12 AEP, а средняя разница BC внутри провинции, оцененная с использованием 51 типа планктона, составляет 0,198 ± 0,013, как показано на рисунке 4D.По сумме семи функциональных групп планктона средняя разница БК в пределах провинции составляет 2σ вместо 0,198±0,004.Сравнение различий БК, рассчитанных с использованием общей биомассы семи функциональных групп или биомассы всех 51 типа планктона, показывает, что, хотя метод SAGE применим к 51-мерной ситуации, он применим для общей биомассы семи функциональных групп. Для тренировки.
В зависимости от цели любого исследования могут рассматриваться различные уровни сложности.Региональные исследования могут потребовать полной сложности (т.е. всех 115 провинций).В качестве примера и для ясности рассмотрим минимальную рекомендуемую сложность 12.
В качестве примера полезности метода SAGE здесь используются 12 AEP с минимальной сложностью 12 для изучения управления структурой аварийного сообщества.Рисунок 5 иллюстрирует экологические данные, сгруппированные по AEP (от A до L): В стехиометрии Редфилда географическая протяженность (рис. 5C), состав биомассы функциональных групп (рис. 5A) и снабжение питательными веществами (рис. 5B) выполняются с помощью N Zoomed.Показано соотношение (N:Si:P:Fe, 1:1:16:16×103).Для последней панели P умножается на 16, а Fe умножается на 16×103, поэтому гистограмма эквивалентна потребностям фитопланктона в питании.
Провинции разделены на 12 AEP от A до L. (A) Биомасса (мгС/м3) экосистем в 12 провинциях.(B) Скорость потока питательных веществ растворенного неорганического азота (N), железа (Fe), фосфата (P) и кремниевой кислоты (Si) (ммоль/м3 в год).Fe и P умножаются на 16 и 16×103 соответственно, чтобы полоски были стандартизированы в соответствии с требованиями стехиометрии фитопланктона.(C) Обратите внимание на разницу между полярными регионами, субтропическими циклонами и основными сезонными/повышающимися регионами.ПЦН обозначены следующим образом: 1 — SEATS;2, АЛОХА;3 — станция П;и 4, летучие мыши.
Идентифицированный AEP уникален.Существует некоторая симметрия вокруг экватора в Атлантическом и Тихом океанах, и аналогичная, но увеличенная территория существует в Индийском океане.Некоторые AEP охватывают западную часть континента, связанную с восхождением.Южнополярное циркумполярное течение считается крупной зональной особенностью.Субтропический циклон представляет собой сложную серию олиготрофных АЭП.В этих провинциях очевидна знакомая картина различий в биомассе между олиготрофными вихрями с преобладанием планктона и полярными регионами, богатыми диатомовыми водорослями.
AEP с очень похожей общей биомассой фитопланктона могут иметь очень разные структуры сообществ и охватывать разные географические области, такие как D, H и K, которые имеют одинаковую общую биомассу фитопланктона.AEP H в основном существует в экваториальной части Индийского океана, где больше диазотрофных бактерий.AEP D встречается в нескольких бассейнах, но особенно заметен в Тихом океане вокруг высокопродуктивных районов вокруг экваториального апвеллинга.Форма этой тихоокеанской провинции напоминает планетарный волновой поезд.В АЭП Д мало диазобактерий, а шишек больше.По сравнению с двумя другими провинциями AEP K встречается только в высокогорьях Северного Ледовитого океана, где больше диатомей и меньше планктона.Стоит отметить, что количество планктона в этих трех регионах также сильно различается.Среди них численность планктона AEP K относительно низкая, а численность AEP D и H относительно высокая.Следовательно, несмотря на свою биомассу (и, следовательно, сходство с Chl-a), эти провинции совершенно разные: тестирование провинций на основе Chl может не уловить эти различия.
Очевидно также, что некоторые АЭП с очень разной биомассой могут быть схожими по структуре сообщества фитопланктона.Например, это видно по AEP D и E. Они расположены близко друг к другу, а в Тихом океане AEP E близок к высокопродуктивному AEPJ.Точно так же нет четкой связи между биомассой фитопланктона и численностью зоопланктона.
AEP можно понимать с точки зрения предоставляемых им питательных веществ (рис. 5B).Диатомовые водоросли существуют только там, где имеется достаточное количество кремниевой кислоты.Как правило, чем выше запас кремниевой кислоты, тем выше биомасса диатомей.Диатомеи можно увидеть в AEP A, J, K и L. Соотношение биомассы диатомей по отношению к другому фитопланктону определяется количеством N, P и Fe, предоставляемыми относительно потребности в диатомовых водорослях.Например, в AEP L преобладают диатомовые водоросли.По сравнению с другими питательными веществами, Si имеет самый высокий запас.Напротив, несмотря на более высокую продуктивность, AEP J содержит меньше диатомовых водорослей и меньшее количество кремния (всего и по сравнению с другими питательными веществами).
Диазониевые бактерии обладают способностью фиксировать азот, но растут медленно (31).Они сосуществуют с другим фитопланктоном, где железо и фосфор избыточны по сравнению с потребностью в недиазониевых питательных веществах (20, 21).Стоит отметить, что диазотрофная биомасса относительно высока, а поступление Fe и P относительно велико по сравнению с поступлением N. Таким образом, хотя общая биомасса в AEP J выше, биомасса диазония в AEP H больше, чем в J. Обратите внимание, что AEP J и H географически сильно различаются, а H расположен в экваториальной части Индийского океана.
Если уникальная структура экосистемы не будет разделена на провинции, выводы, полученные с помощью 12 моделей AEP самой низкой сложности, не будут столь ясными.AEP, созданный SAGE, облегчает последовательное и одновременное сравнение сложной и многомерной информации из моделей экосистем.AEP эффективно подчеркивает, почему Chl не является хорошим альтернативным методом определения структуры сообщества или численности зоопланктона при более высоких уровнях питательных веществ.Подробный анализ текущих тем исследований выходит за рамки данной статьи.Метод SAGE предоставляет возможность исследовать другие механизмы модели, с которыми проще работать, чем при просмотре «точка-точка».
Метод SAGE предлагается для уточнения чрезвычайно сложных экологических данных из глобальных физических/биогеохимических/экосистемных численных моделей.Экологическая провинция определяется общей биомассой функциональных групп кросс-планктона, применением алгоритма уменьшения размерности вероятности t-SNE и кластеризацией с использованием неконтролируемого метода ML DBSCAN.Межпровинциальная теория разностей/графов Британской Колумбии для метода гнездования применяется для получения надежного AEP, который можно использовать для глобальной интерпретации.С точки зрения строительства Эко-Провинция и АЭП уникальны.Вложенность AEP можно регулировать между полной сложностью исходной экологической провинции и рекомендуемым минимальным порогом в 12 AEP.Вложение и определение минимальной сложности AEP считаются ключевыми шагами, поскольку вероятность t-SNE приводит к вырождению AEP со сложностью <12.Метод SAGE является глобальным, а его сложность варьируется от > 100 AEP до 12. Для простоты в настоящее время основное внимание уделяется сложности 12 глобальных AEP.Будущие исследования, особенно региональные исследования, могут найти полезным меньшее пространственное подмножество глобальных эко-провинций и могут быть объединены на меньшей территории, чтобы воспользоваться теми же экологическими идеями, которые обсуждаются здесь.В нем представлены предложения о том, как эти экологические провинции и полученные на их основе знания могут быть использованы для дальнейшего экологического понимания, облегчения сравнения моделей и потенциально улучшения мониторинга морских экосистем.
Экологическая провинция и АЭП, определенные методом SAGE, основаны на данных численной модели.По определению, численная модель представляет собой упрощенную структуру, пытающуюся уловить суть целевой системы, и разные модели будут иметь разное распределение планктона.Используемая в работе численная модель не может полностью отразить некоторые наблюдаемые закономерности (например, в оценках Хл для экваториальной области и Южного океана).Уловлена лишь небольшая часть разнообразия реального океана, а мезо- и субмезомасштабы не могут быть решены, что может повлиять на поток питательных веществ и структуру сообществ меньшего масштаба.Несмотря на эти недостатки, оказывается, что AEP очень полезен для понимания сложных моделей.Оценивая, где находятся схожие экологические провинции, AEP предоставляет потенциальный инструмент сравнения численных моделей.Текущая численная модель отражает общую картину концентрации Chl-a в фитопланктоне дистанционного зондирования, а также распределение планктона по размерам и функциональным группам (примечание S1 и рисунок S1) (2, 32).
Как показано контурной линией 0,1 мгХл-а/м-3, AEP разделен на олиготрофную зону и мезотрофную зону (рис. S1B): AEP B, C, D, E, F и G представляют собой олиготрофные области, а остальные области расположен Высший Хл-а.AEP показывает некоторое соответствие с провинцией Лонгхерст (рис. S3A), например, с Южным океаном и экваториальной частью Тихого океана.В некоторых регионах AEP охватывает несколько регионов Лонгхерста, и наоборот.Поскольку намерения разграничить провинции в этой области и в Лонгхерсте разные, ожидается, что будут различия.Множественные AEP в провинции Лонгхерст указывают на то, что определенные районы со схожей биогеохимией могут иметь очень разные структуры экосистем.AEP демонстрирует определенное соответствие с физическими состояниями, как выяснилось с помощью обучения без учителя (19), например, в состояниях с сильным апвеллингом (например, Южный океан и экваториальная часть Тихого океана; рис. S3, C и D).Эти соответствия указывают на то, что структура сообщества планктона находится под сильным влиянием динамики океана.В таких регионах, как Северная Атлантика, AEP пересекает физические провинции.Механизм, вызывающий эти различия, может включать в себя такие процессы, как перенос пыли, что может привести к совершенно разным программам питания даже в одинаковых физических условиях.
Министерство экологии и AEP отметили, что использование только Chl не может идентифицировать экологические компоненты, как уже осознало сообщество морской экологии.Это наблюдается у АЭП со схожей биомассой, но существенно разным экологическим составом (например, D и E).Напротив, AEP, такие как D и K, имеют очень разную биомассу, но схожий экологический состав.АЕР подчеркивает, что взаимосвязь между биомассой, экологическим составом и численностью зоопланктона сложна.Например, хотя AEP J выделяется с точки зрения фитопланктона и биомассы планктона, AEP A и L имеют схожую биомассу планктона, но A имеет более высокую численность планктона.AEP подчеркивает, что биомасса фитопланктона (или Хл) не может использоваться для прогнозирования биомассы зоопланктона.Зоопланктон является основой пищевой цепи рыболовства, и более точные оценки могут привести к лучшему управлению ресурсами.Будущие спутники морского цвета [например, PACE (планктон, аэрозоль, облако и морская экосистема)] могут быть лучше приспособлены для оценки структуры сообщества фитопланктона.Использование прогнозирования AEP потенциально может облегчить оценку зоопланктона из космоса.Такие методы, как SAGE, в сочетании с новыми технологиями и все большим количеством полевых данных, доступных для наземных исследований (таких как Тара и последующие исследования), могут совместно сделать шаг к спутниковому мониторингу состояния экосистем.
Метод SAGE предоставляет удобный способ оценить некоторые механизмы, которые контролируют характеристики провинции, такие как биомасса/Хл, чистая первичная продукция и структура сообщества.Например, относительное количество диатомей определяется дисбалансом поступления Si, N, P и Fe относительно стехиометрических потребностей фитопланктона.При сбалансированном питании в сообществе преобладают диатомовые водоросли (L).Когда уровень предложения несбалансирован (то есть предложение кремния ниже, чем потребность диатомовых водорослей в питательных веществах), на диатомовые водоросли приходится лишь небольшая доля доли (K).Когда поступление Fe и P превышает поступление N (например, E и H), диазотрофные бактерии будут активно расти.Благодаря контексту, предоставленному AEP, исследование механизмов контроля станет более полезным.
Эко-провинция и AEP — это территории со схожей структурой сообществ.Временной ряд из определенного места в пределах экологической провинции или AEP можно рассматривать как контрольную точку и представлять территорию, охватываемую экологической провинцией или AEP.Такие временные ряды предоставляют станции долговременного мониторинга на местах.Наборы долгосрочных данных in-situ будут продолжать играть неоценимую роль.С точки зрения мониторинга структуры сообщества метод SAGE можно рассматривать как способ определения наиболее полезного местоположения новых участков.Например, временной ряд долгосрочной оценки среды обитания олиготрофов (ALOHA) находится в AEP B олиготрофной области (рис. 5C, метка 2).Поскольку ALOHA находится близко к границе другого AEP, временной ряд может не быть репрезентативным для всей территории, как предполагалось ранее (33).В том же AEP B временной ряд SEATS (временной ряд Юго-Восточной Азии) расположен на юго-западе Тайваня (34), дальше от границ других AEP (рис. 5C, метка 1) и может использоваться как лучшее место для мониторинга. АЭПБ.Временной ряд BATS (Исследование временных рядов Атлантических островов Бермудских островов) (рис. 5C, метка 4) в AEPC очень близок к границе между AEP C и F, что указывает на то, что мониторинг AEP C с использованием временных рядов BATS может быть напрямую проблематичным.Станция P в AEP J (рис. 5C, метка 3) находится далеко от границы AEP, поэтому она более репрезентативна.Эко-провинция и AEP могут помочь создать структуру мониторинга, подходящую для оценки глобальных изменений, поскольку разрешение провинций оценивать места, где отбор проб на месте может дать ключевую информацию.Метод SAGE можно доработать и применить к климатическим данным для оценки изменчивости, позволяющей экономить время.
Успех метода SAGE достигается за счет тщательного применения методов анализа данных/МО и знаний в конкретной предметной области.В частности, t-SNE используется для уменьшения размерности, что сохраняет ковариационную структуру многомерных данных и облегчает визуализацию ковариационной топологии.Данные расположены в виде полос и ковариаций (рис. 2А), что указывает на то, что измерения, основанные исключительно на расстоянии (такие как K-средние), не подходят, поскольку они обычно используют гауссово (круговое) базисное распределение (обсуждается в примечании S2). .Метод DBSCAN подходит для любой ковариационной топологии.Если вы уделяете внимание настройке параметров, можно обеспечить надежную идентификацию.Вычислительная стоимость алгоритма t-SNE высока, что ограничивает его текущее применение большим объемом данных, а это означает, что его трудно применить к глубоким или изменяющимся во времени полям.Работа над масштабируемостью t-SNE продолжается.Поскольку расстояние KL легко распараллелить, алгоритм t-SNE имеет хороший потенциал для расширения в будущем (35).На данный момент другие многообещающие методы уменьшения размерности, которые могут лучше уменьшить размер, включают методы унифицированной аппроксимации и проекции многообразия (UMAP), но необходима оценка в контексте океанических данных.Смысл лучшей масштабируемости заключается, например, в классификации глобального климата или моделей разной сложности на смешанном слое.Районы, которые не могут быть классифицированы SAGE ни в одной провинции, можно рассматривать как оставшиеся черные точки на рисунке 2А.Географически эти районы в основном находятся в районах с высокой сезонностью, что позволяет предположить, что учет экологических провинций, которые меняются с течением времени, обеспечит лучший охват.
Для построения метода SAGE были использованы идеи сложных систем/науки о данных, используя способность определять кластеры функциональных групп (возможность быть очень близкими в 11-мерном пространстве) и определять провинции.Эти провинции отображают определенные объемы в нашем трехмерном фазовом пространстве t-SNE.Аналогично, часть Пуанкаре может использоваться для оценки «объема» пространства состояний, занимаемого траекторией, для определения «нормального» или «хаотического» поведения (36).Для вывода статической 11-мерной модели объем, занимаемый после преобразования данных в трехмерное фазовое пространство, можно объяснить аналогичным образом.Отношения между географической областью и областью в трехмерном фазовом пространстве непросты, но их можно объяснить с точки зрения экологического сходства.По этой причине предпочтительнее использовать более традиционную меру несходства BC.
В дальнейшей работе метод SAGE будет повторно использоваться для сезонно меняющихся данных для оценки пространственной изменчивости выявленных провинций и AEP.Будущая цель — использовать этот метод, чтобы определить, какие провинции можно определить с помощью спутниковых измерений (например, Chl-a, отражательная способность дистанционного зондирования и температура поверхности моря).Это позволит осуществлять дистанционную оценку экологических компонентов и осуществлять весьма гибкий мониторинг экологических провинций и их изменчивости.
Целью данного исследования является внедрение метода SAGE, который определяет экологическую провинцию посредством уникальной структуры планктонного сообщества.Здесь будет предоставлена более подробная информация о физической/биогеохимической/экосистемной модели и выборе параметров алгоритмов t-SNE и DBSCAN.
Физические компоненты модели основаны на оценке циркуляции океана и климата [ECCOv4;(37) оценка глобального состояния, описываемая (38).Номинальное разрешение оценки состояния составляет 1/5.Метод наименьших квадратов с методом множителей Лагранжа используется для получения начальных и граничных условий, а также внутренних параметров модели, скорректированных путем наблюдения, тем самым создавая автономную модель общего цикла MIT (MITgcm) (39), модель. После оптимизации результаты можно отслеживать и наблюдать.
Биогеохимия/экосистема имеет более полное описание (т.е. уравнения и значения параметров) в (2).Модель отражает циркуляцию C, N, P, Si и Fe через неорганические и органические пруды.Использованная здесь версия включает 35 видов фитопланктона: 2 вида микропрокариот и 2 вида микроэукариот (подходящих для среды с низким содержанием питательных веществ), 5 видов Cryptomonas sphaeroides (с покрытием из карбоната кальция), 5 видов диазония (способны фиксировать азот, поэтому не ограничено) наличие растворенного неорганического азота), 11 диатомей (образующих кремнистый покров), 10 смешанно-вегетативных жгутиконосцев (могут фотосинтезировать и поедать другой планктон) и 16 зоопланктонов (пасутся на другом планктоне).Их называют «биогеохимическими функциональными группами», поскольку они оказывают различное влияние на морскую биогеохимию (40, 41) и часто используются в наблюдениях и модельных исследованиях.В этой модели каждая функциональная группа состоит из нескольких планктонов разного размера с эквивалентным сферическим диаметром от 0,6 до 2500 мкм.
Параметры, влияющие на рост, выпас и погружение фитопланктона, связаны с размером, и между шестью функциональными группами фитопланктона существуют определенные различия (32).Несмотря на различные физические основы, результаты 51 планктонного компонента модели использовались в ряде недавних исследований (42-44).
С 1992 по 2011 год модель взаимодействия физических/биогеохимических/экосистем действовала в течение 20 лет.Выходные данные модели включают биомассу планктона, концентрацию питательных веществ и скорость поступления питательных веществ (DIN, PO4, Si и Fe).В этом исследовании среднее значение этих результатов за 20 лет использовалось в качестве входных данных Экологической провинции.Хл, распределение биомассы планктона и концентрации питательных веществ, а также распределение функциональных групп сравниваются со спутниковыми и натурными наблюдениями [см. (2, 44), примечание S1 и рисунок.от S1 до S3].
Для метода SAGE основным источником случайности является шаг t-SNE.Случайность препятствует повторяемости, а это означает, что результаты ненадежны.Метод SAGE тщательно проверяет надежность, определяя набор параметров t-SNE и DBSCAN, которые могут последовательно идентифицировать кластеры при повторении.Определение «недоумения» параметра t-SNE можно понимать как определение степени, в которой отображение от высоких измерений к низким должно учитывать локальные или глобальные характеристики данных.Дошла путаница в 400 и 300 итераций.
Для алгоритма кластеризации DBSCAN необходимо определить минимальный размер и метрику расстояния между точками данных в кластере.Минимальное количество определяется под руководством экспертов.Эти знания знают, что соответствует текущей структуре и разрешению численного моделирования.Минимальное число — 100. Можно рассмотреть более высокое минимальное значение (менее <135, прежде чем верхний предел зеленого цвета станет шире), но оно не может заменить метод агрегирования, основанный на несходстве BC.Степень связи (рис. 6А) используется для установки параметра ϵ, что способствует более высокому охвату (рис. 6Б).Связность определяется как составное число кластеров и чувствительна к параметру ϵ.Меньшая связность указывает на недостаточную подгонку, искусственно группируя регионы вместе.Высокая связность указывает на переобучение.Переобучение также проблематично, поскольку оно показывает, что первоначальные случайные предположения могут привести к невоспроизводимым результатам.Между этими двумя крайностями резкое увеличение (обычно называемое «локоть») указывает на лучшее ϵ.На рисунке 6А вы видите резкое увеличение площади плато (желтый, > 200 кластеров), за которым следует резкое уменьшение (зеленый, 100 кластеров) примерно до 130, окруженное очень небольшим количеством кластеров (синий, <60 кластеров). ).По крайней мере, в 100 синих областях либо один кластер доминирует над всем океаном (ϵ <0,42), либо большая часть океана не классифицируется и считается шумовой (ϵ>0,99).Желтая область имеет весьма изменчивое и невоспроизводимое распределение кластеров.При уменьшении ϵ шум увеличивается.Резко увеличивающаяся зеленая зона называется локтем.Это оптимальный регион.Хотя используется вероятность t-SNE, различие BC внутри провинции все же можно использовать для определения надежной кластеризации.Используя рисунок 6 (A и B), установите ϵ равным 0,39.Чем больше минимальное число, тем меньше вероятность достижения ϵ, обеспечивающего надежную классификацию, и тем больше зеленая область со значением больше 135. Увеличение этой области указывает на то, что колено будет труднее найти или оно не будет найдено. существующий.
После установки параметров t-SNE общее количество найденных кластеров будет использоваться в качестве меры связности (A) и процента данных, выделенных кластеру (B).Красная точка указывает на лучшее сочетание покрытия и возможности подключения.Минимальное количество устанавливается в соответствии с минимальным количеством, связанным с экологией.
Дополнительные материалы к этой статье можно найти по адресу http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1.
Это статья в открытом доступе, распространяемая на условиях лицензии Creative Commons Attribution License.Статья разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии надлежащего цитирования оригинальной работы.
Примечание. Мы просим вас указать свой адрес электронной почты только для того, чтобы человек, которого вы рекомендуете на странице, знал, что вы хотите, чтобы он увидел это электронное письмо и что это не спам.Мы не будем захватывать адреса электронной почты.
Этот вопрос используется, чтобы проверить, являетесь ли вы посетителем, и предотвратить автоматическую рассылку спама.
Глобальное министерство морской экологии намерено решать сложные проблемы и использует неконтролируемое машинное обучение для изучения общественных структур.
Глобальное министерство морской экологии намерено решать сложные проблемы и использует неконтролируемое машинное обучение для изучения общественных структур.
Время публикации: 12 января 2021 г.