Viene proposto un metodo di apprendimento non supervisionato per determinare le province ecologiche marine globali (eco-province) sulla base della struttura della comunità di plancton e dei dati sul flusso di nutrienti.Il metodo sistematico integrato delle province ecologiche (SAGE) può identificare le province ecologiche in modelli di ecosistemi altamente non lineari.Per adattarsi alla covarianza non gaussiana dei dati, SAGE utilizza t incorporamento casuale dei vicini (t-SNE) per ridurre la dimensionalità.Con l'aiuto dell'applicazione del rumore basata sull'algoritmo di clustering spaziale basato sulla densità (DBSCAN) è possibile identificare più di cento province ecologiche.Utilizzando la mappa della connettività con le differenze ecologiche come misura della distanza, una provincia ecologica aggregata robusta (AEP) è oggettivamente definita attraverso province ecologiche nidificate.Utilizzando gli AEP, è stato esplorato il controllo del tasso di approvvigionamento di nutrienti sulla struttura della comunità.L'eco-provincia e l'AEP sono uniche e possono aiutare a modellare l'interpretazione.Possono facilitare i confronti tra modelli e migliorare la comprensione e il monitoraggio degli ecosistemi marini.
Le province sono regioni in cui la complessa biogeografia marittima o terrestre è organizzata in aree coerenti e significative (1).Queste province sono molto importanti per confrontare e contrapporre luoghi, caratterizzare osservazioni, monitorare e proteggere.Le interazioni complesse e non lineari che producono queste province rendono i metodi di machine learning (ML) senza supervisione molto adatti per determinare oggettivamente le province, perché la covarianza nei dati è complessa e non gaussiana.Qui viene proposto un metodo ML, che identifica sistematicamente province ecologiche marine uniche (eco-province) dal modello fisico/ecosistema tridimensionale (3D) globale di Darwin (2).Il termine “unico” viene utilizzato per indicare che l'area individuata non si sovrappone sufficientemente con altre aree.Questo metodo è chiamato metodo System Integrated Ecological Province (SAGE).Per eseguire una classificazione utile, un metodo algoritmo deve consentire (i) una classificazione globale e (ii) un'analisi multiscala che possa essere nidificata/aggregata nello spazio e nel tempo (3).In questa ricerca è stato proposto per la prima volta il metodo SAGE e sono state discusse le province ecologiche identificate.Le eco-province possono promuovere la comprensione dei fattori che controllano la struttura della comunità, fornire spunti utili per monitorare le strategie e aiutare a tenere traccia dei cambiamenti nell’ecosistema.
Le province terrestri sono solitamente classificate in base alle somiglianze di clima (precipitazioni e temperatura), suolo, vegetazione e fauna e vengono utilizzate per la gestione ausiliaria, la ricerca sulla biodiversità e il controllo delle malattie (1, 4).Le province marine sono più difficili da definire.La maggior parte degli organismi sono microscopici, con confini fluidi.Longhurst et al.(5) Fornita una delle prime classificazioni globali del Ministero dell'Oceanografia basata sulle condizioni ambientali.La definizione di queste province di "Longhurst" include variabili come il tasso di miscelazione, la stratificazione e l'irradiazione, nonché la vasta esperienza di Longhurst come oceanografo marino, che ha altre importanti condizioni per gli ecosistemi marini.Longhurst è stato ampiamente utilizzato, ad esempio, per valutare la produzione primaria e i flussi di carbonio, aiutare la pesca e pianificare attività di osservazione in situ (5-9).Per definire le province in modo più oggettivo, sono stati utilizzati metodi come la logica fuzzy e il clustering/statistica regionale non supervisionato (9-14).Lo scopo di tali metodi è identificare strutture significative in grado di identificare le province nei dati osservativi disponibili.Ad esempio, le province marine dinamiche (12) utilizzano mappe auto-organizzanti per ridurre il rumore e utilizzano clustering gerarchici (basati su alberi) per determinare i prodotti del colore marino derivati dai satelliti regionali [clorofilla a (Chl-a), altezza della linea di fluorescenza normalizzata e materia organica disciolta colorata] e campo fisico (temperatura e salinità della superficie del mare, topografia dinamica assoluta e ghiaccio marino).
La struttura della comunità del plancton è preoccupante perché la sua ecologia ha una grande influenza sui livelli più elevati di nutrienti, sull’assorbimento del carbonio e sul clima.Tuttavia, determinare una provincia ecologica globale basata sulla struttura della comunità del plancton è ancora un obiettivo impegnativo e sfuggente.I satelliti di colore marino possono potenzialmente fornire approfondimenti sulla classificazione a grana grossa del fitoplancton o suggerire i vantaggi dei gruppi funzionali (15), ma attualmente non sono in grado di fornire informazioni dettagliate sulla struttura della comunità.Recenti indagini [ad esempio Tara Ocean (16)] stanno fornendo misurazioni senza precedenti della struttura della comunità;attualmente esistono solo sparse osservazioni in-situ su scala globale (17).Studi precedenti hanno in gran parte determinato la “provincia biogeochimica” (12, 14, 18) basata sulla determinazione di somiglianze biochimiche (come produzione primaria, Chl e luce disponibile).Qui, il modello numerico viene utilizzato per produrre [Darwin(2)] e la provincia ecologica viene determinata in base alla struttura della comunità e al flusso di nutrienti.Il modello numerico utilizzato in questo studio ha una copertura globale e può essere confrontato con i dati esistenti sul campo (17) e con i campi di telerilevamento (Nota S1).I dati del modello numerico utilizzati in questo studio presentano il vantaggio della copertura globale.L'ecosistema modello è costituito da 35 specie di fitoplancton e 16 specie di zooplancton (fare riferimento a materiali e metodi).I tipi di plancton modello interagiscono in modo non lineare con le strutture di covarianza non gaussiana, quindi i metodi diagnostici semplici non sono adatti per identificare modelli unici e coerenti nelle strutture delle comunità emergenti.Il metodo SAGE qui introdotto fornisce un nuovo modo per verificare l'output di modelli Darwin complessi.
Le potenti capacità di trasformazione della scienza dei dati/tecnologia ML possono consentire a soluzioni di modelli straordinariamente complesse di rivelare strutture complesse ma robuste nella covarianza dei dati.Un metodo robusto è definito come un metodo in grado di riprodurre fedelmente i risultati entro un dato intervallo di errore.Anche nei sistemi semplici, determinare modelli e segnali robusti può essere una sfida.Fino a quando non verrà determinata la logica che porta al modello osservato, la complessità emergente può sembrare complicata/difficile da risolvere.Il processo chiave per definire la composizione dell’ecosistema è di natura non lineare.L’esistenza di interazioni non lineari può confondere una classificazione robusta, quindi è necessario evitare metodi che facciano ipotesi forti sulla distribuzione statistica di base della covarianza dei dati.I dati ad alta dimensionalità e non lineari sono comuni in oceanografia e possono avere una struttura di covarianza con topologia complessa e non gaussiana.Sebbene i dati con una struttura di covarianza non gaussiana possano ostacolare una classificazione robusta, il metodo SAGE è nuovo perché è progettato per identificare cluster con topologie arbitrarie.
L’obiettivo del metodo SAGE è identificare oggettivamente i modelli emergenti che potrebbero aiutare un’ulteriore comprensione ecologica.Seguendo un flusso di lavoro basato su cluster simile a (19), le variabili ecologiche e di flusso dei nutrienti vengono utilizzate per determinare l'unico cluster nei dati, chiamato provincia ecologica.Il metodo SAGE proposto in questo studio (Figura 1) riduce innanzitutto la dimensionalità da 55 a 11 dimensioni sommando i gruppi funzionali del plancton definiti a priori (vedi Materiali e metodi).Utilizzando il metodo t-random neighbor embedding (t-SNE), la dimensione viene ulteriormente ridotta proiettando la probabilità nello spazio 3D.Il clustering non supervisionato può identificare aree ecologicamente vicine [clustering spaziale basato sulla densità (DBSCAN) per applicazioni basate sul rumore].Sia t-SNE che DBSCAN sono applicabili ai dati del modello numerico dell'ecosistema non lineare intrinseco.Quindi riproiettate sulla terra la provincia ecologica risultante.Sono state identificate più di cento province ecologiche uniche, adatte alla ricerca regionale.Al fine di considerare il modello ecosistemico coerente a livello globale, il metodo SAGE viene utilizzato per aggregare le province ecologiche in province ecologiche aggregate (AEP) per migliorare l'efficacia delle province ecologiche.Il livello di aggregazione (chiamato “complessità”) può essere adattato al livello di dettaglio richiesto.Determinare la complessità minima di un AEP robusto.Il focus della selezione è il metodo SAGE e l'esplorazione dei casi AEP di più piccola complessità per determinare il controllo della struttura della comunità di emergenza.I modelli possono quindi essere analizzati per fornire approfondimenti ecologici.Il metodo qui introdotto può essere utilizzato anche per il confronto dei modelli in modo più ampio, ad esempio valutando le posizioni di province ecologiche simili trovate in diversi modelli per evidenziare differenze e somiglianze, in modo da confrontare i modelli.
(A) Diagramma schematico del flusso di lavoro per determinare la provincia ecologica;utilizzando la somma nel gruppo funzionale per ridurre i dati originali a 55 dimensioni in un output del modello a 11 dimensioni, inclusa la biomassa di sette plancton funzionali/nutrienti e quattro tassi di approvvigionamento di nutrienti.Valore trascurabile e superficie di copertura ghiacciata durevole.I dati sono stati standardizzati e standardizzati.Fornisci dati a 11 dimensioni all'algoritmo t-SNE per evidenziare combinazioni di caratteristiche statisticamente simili.DBSCAN selezionerà attentamente il cluster per impostare il valore del parametro.Infine proiettare nuovamente i dati sulla proiezione di latitudine/longitudine.Tieni presente che questo processo viene ripetuto 10 volte poiché l'applicazione di t-SNE potrebbe generare una leggera casualità.(B) spiega come ottenere l'AEP ripetendo il flusso di lavoro in (A) 10 volte.Per ciascuna di queste 10 implementazioni, la matrice di dissomiglianza interprovinciale di Bray-Curtis (BC) è stata determinata in base alla biomassa di 51 tipi di fitoplancton.Determinare la differenza BC tra le province, dalla complessità 1 AEP alla complessità completa 115. Il benchmark BC è stabilito dalla provincia di Longhurst.
Il metodo SAGE utilizza l'output del modello numerico fisico/ecosistema 3D globale per definire la provincia ecologica [Darwin (2);vedere Materiali e Metodi e Nota S1].I componenti dell'ecosistema sono composti da 35 specie di fitoplancton e 16 specie di zooplancton, con sette gruppi funzionali predefiniti: procarioti ed eucarioti adattati ad ambienti poveri di nutrienti, coccidi con rivestimento di carbonato di calcio e fissazione pesante dell'azoto Nutrienti azotati (solitamente mancanti nutrienti importanti), con copertura silicea, possono effettuare la fotosintesi di altro plancton e pascolare flagellati di nutrienti misti e pastori di zooplancton.L'intervallo dimensionale è compreso tra 0,6 e 2500 μm di diametro sferico equivalente.La distribuzione del modello delle dimensioni del fitoplancton e del raggruppamento funzionale cattura le caratteristiche generali osservate nelle osservazioni satellitari e in situ (vedere Figure da S1 a S3).La somiglianza tra il modello numerico e l'oceano osservato indica che le province definite dal modello possono essere applicabili all'oceano in situ.Si prega di notare che questo modello cattura solo una certa diversità di fitoplancton e solo alcuni intervalli di forzatura fisica e chimica dell'oceano in situ.Il metodo SAGE può consentire alle persone di comprendere meglio il meccanismo di controllo altamente regionale della struttura comunitaria modello.
Includendo solo la somma della biomassa superficiale (con un tempo medio di 20 anni) in ciascun gruppo funzionale del plancton, la dimensionalità dei dati può essere ridotta.Dopo che studi precedenti avevano dimostrato il loro ruolo chiave nella definizione della struttura della comunità, includevano anche termini di fonte superficiale per i flussi di nutrienti (fornitura di azoto, ferro, fosfato e acido silicico) [ad esempio (20, 21)].La somma dei gruppi funzionali riduce il problema da 55 (51 plancton e 4 flussi di nutrienti) a 11 dimensioni.In questo studio iniziale, a causa dei vincoli computazionali imposti dall’algoritmo, non sono state considerate la variabilità della profondità e del tempo.
Il metodo SAGE è in grado di identificare importanti relazioni tra processi non lineari e caratteristiche chiave delle interazioni tra la biomassa del gruppo funzionale e il flusso di nutrienti.Utilizzando dati 11-dimensionali basati su metodi di apprendimento a distanza euclidei (come K-mean) non è possibile ottenere province affidabili e riproducibili (19, 22).Questo perché non si trova alcuna forma gaussiana nella distribuzione di base della covarianza degli elementi chiave che definiscono la provincia ecologica.Le medie K delle celle di Voronoi (linee rette) non possono mantenere la distribuzione di base non gaussiana.
La biomassa di sette gruppi funzionali del plancton e quattro flussi di nutrienti formano un vettore x a 11 dimensioni.Pertanto, x è un campo vettoriale sulla griglia del modello, dove ciascun elemento xi rappresenta un vettore a 11 dimensioni definito sulla griglia orizzontale del modello.Ciascun indice i identifica univocamente un punto della griglia sulla sfera, dove (lon, lat) = (ϕi, θi).Se la biomassa dell'unità di rete modello è inferiore a 1,2×10-3 mg Chl/m3 o il tasso di copertura del ghiaccio supera il 70%, il registro dei dati sulla biomassa viene utilizzato e scartato.I dati sono normalizzati e standardizzati, quindi tutti i dati sono compresi nell'intervallo da [0 a 1], la media viene rimossa e scalata in base alla varianza unitaria.Questo viene fatto in modo che le caratteristiche (biomassa e flusso di nutrienti) non siano limitate dal contrasto nell'intervallo di valori possibili.Il clustering dovrebbe catturare la relazione di cambiamento dalla distanza di probabilità chiave tra le caratteristiche piuttosto che dalla distanza geografica.Quantificando queste distanze emergono caratteristiche importanti, mentre i dettagli non necessari vengono scartati.Da un punto di vista ecologico, ciò è necessario perché alcuni tipi di fitoplancton con poca biomassa possono avere maggiori effetti biogeochimici, come la fissazione dell'azoto da parte di batteri diazotrofici.Durante la standardizzazione e la normalizzazione dei dati, questi tipi di covariate verranno evidenziati.
Sottolineando la vicinanza delle caratteristiche nello spazio ad alta dimensionalità nella rappresentazione a bassa dimensionalità, l'algoritmo t-SNE viene utilizzato per rendere più chiare le regioni simili esistenti.Un lavoro precedente mirato alla costruzione di reti neurali profonde per applicazioni di telerilevamento utilizzava t-SNE, che ha dimostrato la sua abilità nel separare le caratteristiche chiave (23).Questo è un passaggio necessario per identificare un robusto clustering nei dati delle caratteristiche evitando soluzioni non convergenti (nota S2).Utilizzando i kernel gaussiani, t-SNE preserva le proprietà statistiche dei dati mappando ciascun oggetto ad alta dimensionalità in un punto nello spazio delle fasi 3D, garantendo così che la probabilità di oggetti simili nelle direzioni alta e bassa sia alta in un punto alto spazio dimensionale (24).Dato un insieme di N oggetti ad alta dimensionalità x1,…,xN, l'algoritmo t-SNE riduce minimizzando la divergenza di Kullback-Leibler (KL) (25).La divergenza KL è una misura di quanto è diversa una distribuzione di probabilità da una seconda distribuzione di probabilità di riferimento e può valutare efficacemente la possibilità di correlazione tra rappresentazioni a bassa dimensionalità di caratteristiche ad alta dimensionalità.Se xi è l'i-esimo oggetto nello spazio N-dimensionale, xj è il j-esimo oggetto nello spazio N-dimensionale, yi è l'i-esimo oggetto nello spazio a bassa dimensione e yj è il j-esimo oggetto nello spazio a bassa dimensione -dimensionale, allora t -SNE definisce la probabilità di similarità ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), e per l'insieme di riduzione della dimensionalità q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
La Figura 2A illustra l'effetto della riduzione dei vettori di biomassa e flusso di nutrienti della combinazione a 11 dimensioni in 3D.La motivazione dell'applicazione del t-SNE può essere paragonata alla motivazione dell'analisi delle componenti principali (PCA), che utilizza l'attributo della varianza per enfatizzare l'area/attributo dei dati, riducendo così la dimensionalità.Il metodo t-SNE è risultato superiore al PCA nel fornire risultati affidabili e riproducibili per l'Eco-Ministero (vedi Nota S2).Ciò potrebbe essere dovuto al fatto che l'assunzione di ortogonalità della PCA non è adatta per identificare le interazioni critiche tra caratteristiche interattive altamente non lineari, poiché la PCA si concentra su strutture di covarianza lineare (26).Utilizzando dati di telerilevamento, Lunga et al.(27) illustra come utilizzare il metodo SNE per evidenziare caratteristiche spettrali complesse e non lineari che deviano dalla distribuzione gaussiana.
(A) Un tasso di apporto di nutrienti modellato, biomassa del gruppo funzionale di fitoplancton e zooplancton disegnata dall'algoritmo t-SNE e colorata per provincia utilizzando DBSCAN.Ogni punto rappresenta un punto nello spazio ad alta dimensione, come mostrato nella Figura 6B, la maggior parte dei punti vengono catturati.Gli alberi si riferiscono alle dimensioni “t-SNE” 1, 2 e 3. (B) La proiezione geografica della provincia trovata da DBSCAN sulla griglia latitudine-longitudine dell'origine.Il colore deve essere considerato qualsiasi colore, ma deve corrispondere a (A).
I punti nel grafico a dispersione t-SNE nella Figura 2A sono rispettivamente associati alla latitudine e alla longitudine.Se i due punti nella Figura 2A sono vicini l’uno all’altro, è perché la loro biomassa e i flussi di nutrienti sono simili, non a causa della vicinanza geografica.I colori nella Figura 2A sono cluster scoperti utilizzando il metodo DBSCAN (28).Quando si cercano osservazioni dense, l'algoritmo DBSCAN utilizza la distanza nella rappresentazione 3D tra i punti (ϵ = 0,39; per informazioni su questa scelta, vedere Materiali e metodi) e il numero di punti simili è richiesto per definire l'ammasso (qui 100 punti, vedere sopra).Il metodo DBSCAN non fa alcuna ipotesi sulla forma o sul numero di cluster nei dati, come mostrato di seguito:
3) Per tutti i punti identificati come entro la distanza interna, ripetere il passaggio 2 in modo iterativo per determinare il confine del cluster.Se il numero di punti è maggiore del valore minimo impostato, viene designato come cluster.
I dati che non soddisfano il membro minimo del cluster e la metrica di distanza ϵ sono considerati "rumore" e non gli viene assegnato un colore.DBSCAN è un algoritmo veloce e scalabile con prestazioni O(n2) nel caso peggiore.Per l’analisi attuale, in realtà non è casuale.Il numero minimo di punti è determinato dalla valutazione di esperti.Dopo aver regolato la distanza, il risultato non è sufficientemente stabile nell'intervallo di ≈±10.Questa distanza viene impostata utilizzando la connettività (Figura 6A) e la percentuale di copertura oceanica (Figura 6B).La connettività è definita come il numero composito di cluster ed è sensibile al parametro ϵ.Una connettività inferiore indica un adattamento insufficiente, raggruppando artificialmente le regioni.Una connettività elevata indica un overfitting.È possibile utilizzare un minimo più elevato, ma se il minimo supera ca è impossibile raggiungere una soluzione affidabile.135 (Per maggiori dettagli vedere Materiali e Metodi).
I 115 ammassi identificati nella Figura 2A sono proiettati sulla terra nella Figura 2B.Ogni colore corrisponde a una combinazione coerente di fattori biogeochimici ed ecologici identificati da DBSCAN.Una volta determinati i cluster, l'associazione di ciascun punto nella Figura 2A con una latitudine e una longitudine specifiche viene utilizzata per proiettare nuovamente i cluster nell'area geografica.La Figura 2B lo illustra con gli stessi colori dei cluster della Figura 2A.I colori simili non dovrebbero essere interpretati come somiglianza ecologica, perché vengono assegnati in base all'ordine in cui i cluster vengono scoperti dall'algoritmo.
L'area nella Figura 2B può essere qualitativamente simile a un'area stabilita nella fisica e/o nella biogeochimica dell'oceano.Ad esempio, gli ammassi nell’Oceano Australe sono zona-simmetrici, con la comparsa di vortici oligotrofici e la brusca transizione indica l’influenza degli alisei.Ad esempio, nel Pacifico equatoriale si vedono diverse regioni legate all’innalzamento.
Per comprendere l'ambiente ecologico dell'Eco-Provincia, è stata utilizzata una variazione dell'indice di differenza di Bray-Curtis (BC) (29) per valutare l'ecologia nel cluster.L'indicatore BC è un dato statistico utilizzato per quantificare la differenza nella struttura della comunità tra due diversi siti.La misurazione BC è applicabile alla biomassa di 51 specie di fitoplancton e zooplancton BCninj = 1-2CninjSni + Snj
BCninj si riferisce alla somiglianza tra la combinazione ni e la combinazione nj, dove Cninj è il valore minimo di un singolo tipo di biomassa che esiste in entrambe le combinazioni ni e nj, e Sni rappresenta la somma di tutte le biomasse che esistono in entrambe le combinazioni ni e Snj.La differenza BC è simile alla misura della distanza, ma opera nello spazio non euclideo, che è probabilmente più adatto ai dati ecologici e alla loro interpretazione.
Per ciascun cluster identificato nella Figura 2B, è possibile valutare la somiglianza tra BC intra-provinciale e inter-provinciale.La differenza BC all'interno di una provincia si riferisce alla differenza tra il valore medio della provincia e ciascun punto della provincia.La differenza tra le province BC si riferisce alla somiglianza tra una provincia e le altre province.La Figura 3A mostra una matrice BC simmetrica (0, nero: completamente corrispondente; 1, bianco: completamente dissimile).Ogni linea nel grafico mostra uno schema nei dati.La Figura 3B mostra il significato geografico dei risultati di BC nella Figura 3A per ciascuna provincia.Per una provincia in un’area a basso contenuto nutrizionale e di nutrienti, la Figura 3B mostra che la simmetria di vaste aree intorno all’equatore e all’Oceano Indiano è sostanzialmente simile, ma le latitudini più elevate e le aree di risalita sono significativamente diverse.
(A) Il grado di differenza BC valutato per ciascuna provincia in base alla media globale della superficie globale su 20 anni di 51 plancton.Notare la simmetria prevista dei valori.(B) La proiezione spaziale di una colonna (o riga).Per una provincia in un circolo distrofico, è stata valutata la distribuzione globale della misura di somiglianza BC ed è stata valutata la media globale a 20 anni.Il nero (BC = 0) indica la stessa area e il bianco (BC = 1) indica nessuna somiglianza.
La Figura 4A illustra la differenza in BC all'interno di ciascuna provincia nella Figura 2B.Determinato utilizzando la combinazione media dell'area media in un cluster e determinando la dissomiglianza tra il BC e la media di ciascun punto della griglia nella provincia, mostra che il metodo SAGE può ben separare 51 specie in base alla somiglianza ecologica. dati del modello.La dissomiglianza media complessiva del cluster BC di tutti i 51 tipi è 0,102 ± 0,0049.
(A, B e D) La differenza BC all'interno della provincia viene valutata come la differenza BC media tra ciascuna comunità del punto della griglia e la provincia media e la complessità non viene ridotta.(2) La differenza media globale del BC intraprovinciale è 0,227±0,117.Questo è il punto di riferimento della classificazione basata sulla motivazione ecologica proposta da questo lavoro [linea verde in (C)].(C) Differenza BC intra-provinciale media: la linea nera rappresenta la differenza BC intra-provinciale con complessità crescente.2σ deriva da 10 ripetizioni del processo di identificazione dell'ecoprovincia.Per la complessità totale delle province scoperte da DBSCAN, (A) mostra che la dissomiglianza BC nella provincia è 0,099 e la classificazione di complessità proposta da (C) è 12, risultando in una dissomiglianza BC di 0,200 nella provincia.come mostra l'immagine.(D).
Nella Figura 4B, la biomassa di 51 tipi di plancton viene utilizzata per rappresentare la differenza BC equivalente nella provincia di Longhurst.La media complessiva di ciascuna provincia è 0,227 e la deviazione standard dei punti della griglia con riferimento alla differenza nella provincia BC è 0,046.Questo è più grande del cluster identificato nella Figura 1B.Invece, utilizzando la somma dei sette gruppi funzionali, la dissomiglianza media del BC intra-stagionale a Longhurst è aumentata a 0,232.
La mappa globale delle ecoprovincie fornisce dettagli intricati di interazioni ecologiche uniche e sono stati apportati miglioramenti nell'utilizzo dell'intera struttura ecosistemica della provincia di Longhurst.Si prevede che il Ministero dell'Ecologia fornirà informazioni dettagliate sul processo di controllo dell'ecosistema del modello numerico e queste informazioni aiuteranno l'esplorazione del lavoro sul campo.Ai fini della presente ricerca non è possibile visualizzare integralmente più di cento province.La sezione successiva introduce il metodo SAGE che riassume le province.
Uno degli scopi della provincia è promuovere la comprensione dell'ubicazione e della gestione della provincia.Per determinare le situazioni di emergenza, il metodo nella Figura 1B illustra la nidificazione di province ecologicamente simili.Le eco-province sono raggruppate insieme in base alla somiglianza ecologica e tale raggruppamento di province è chiamato AEP.Impostare una “complessità” regolabile in base al numero totale di province da considerare.Il termine “complessità” viene utilizzato perché consente di adeguare il livello degli attributi di emergenza.Al fine di definire aggregazioni significative, viene utilizzata come punto di riferimento la differenza media BC intraprovinciale di 0,227 rispetto a Longhurst.Al di sotto di questo parametro, le province combinate non sono più considerate utili.
Come mostrato nella Figura 3B, le province ecologiche globali sono coerenti.Utilizzando le differenze BC interprovinciali, si può vedere che alcune configurazioni sono molto “comuni”.Ispirati ai metodi della genetica e della teoria dei grafi, i “grafi connessi” vengono utilizzati per ordinare più di 100 province in base a quelle più simili a loro.La metrica della “connettività” qui è determinata utilizzando la dissomiglianza BC interprovinciale (30).Il numero di province con uno spazio di classificazione maggiore di > 100 province può essere qui definito complessità.AEP è un prodotto che classifica più di 100 province come le province ecologiche più dominanti/vicine.Ciascuna provincia ecologica è assegnata alla provincia ecologica dominante/altamente connessa che è più simile ad essa.Questa aggregazione determinata dalla differenza BC consente un approccio annidato all'ecologia globale.
La complessità selezionata può essere qualsiasi valore da 1 alla complessità completa di FIG.2A.A complessità inferiore, l'AEP può degenerare a causa della fase di riduzione della dimensionalità probabilistica (t-SNE).Degenerazione significa che le province ecologiche possono essere assegnate a diversi AEP tra le iterazioni, modificando così l'area geografica coperta.La Figura 4C illustra la diffusione delle differenze BC all'interno delle province negli AEP di crescente complessità in 10 implementazioni (illustrazione nella Figura 1B).Nella Figura 4C, 2σ (area blu) è una misura del degrado in 10 implementazioni e la linea verde rappresenta il benchmark di Longhurst.I fatti hanno dimostrato che la complessità di 12 può mantenere la differenza BC nella provincia al di sotto del benchmark di Longhurst in tutte le implementazioni e mantenere un degrado di 2σ relativamente piccolo.In sintesi, la complessità minima consigliata è di 12 AEP e la differenza media di BC intra-provinciale valutata utilizzando 51 tipi di plancton è 0,198 ± 0,013, come mostrato nella Figura 4D.Utilizzando la somma di sette gruppi funzionali del plancton, la differenza media di BC all'interno della provincia è di 2σ invece di 0,198±0,004.Il confronto tra le differenze BC calcolate con la biomassa totale dei sette gruppi funzionali o con la biomassa di tutti i 51 tipi di plancton mostra che, sebbene il metodo SAGE sia applicabile alla situazione a 51 dimensioni, lo è per la biomassa totale dei sette gruppi funzionali Per allenamento.
A seconda dello scopo di qualsiasi ricerca, possono essere considerati diversi livelli di complessità.Gli studi regionali possono richiedere la massima complessità (vale a dire, tutte le 115 province).A titolo di esempio e per chiarezza, si consideri la complessità minima consigliata pari a 12.
Come esempio dell'utilità del metodo SAGE, qui vengono utilizzati 12 AEP con una complessità minima di 12 per esplorare il controllo della struttura della comunità di emergenza.La Figura 5 illustra le informazioni ecologiche raggruppate per AEP (da A a L): nella stechiometria di Redfield, l'estensione geografica (Figura 5C), la composizione della biomassa del gruppo funzionale (Figura 5A) e l'apporto di nutrienti (Figura 5B) vengono eseguiti da N Zoomed.Viene mostrato il rapporto (N:Si:P:Fe, 1:1:16:16×103).Per quest'ultimo pannello, P moltiplicato per 16 e Fe moltiplicato per 16×103, quindi il grafico a barre è equivalente al fabbisogno nutrizionale del fitoplancton.
Le province sono classificate in 12 AEP da A a L. (A) Biomassa (mgC/m3) degli ecosistemi in 12 province.(B) Il tasso di flusso di nutrienti di azoto inorganico disciolto (N), ferro (Fe), fosfato (P) e acido silicico (Si) (mmol/m3 all'anno).Fe e P vengono moltiplicati rispettivamente per 16 e 16×103, in modo che le strisce siano standardizzate ai requisiti stechiometrici del fitoplancton.(C) Notare la differenza tra regioni polari, cicloni subtropicali e principali regioni stagionali/in aumento.Le postazioni di monitoraggio sono così contrassegnate: 1, POSTI;2, ALOHA;3, stazione P;e 4, PIPISTRELLI.
L'AEP identificato è unico.C'è una certa simmetria attorno all'equatore negli oceani Atlantico e Pacifico, ed esiste un'area simile ma ampliata nell'Oceano Indiano.Alcuni AEP abbracciano la parte occidentale del continente associata all'ascesa.La Corrente Circumpolare del Polo Sud è considerata una grande caratteristica zonale.Il ciclone subtropicale è una serie complessa di AEP oligotrofici.In queste province, il modello familiare delle differenze di biomassa tra vortici oligotrofici dominati dal plancton e regioni polari ricche di diatomee è evidente.
Gli AEP con biomassa fitoplanctonica totale molto simile possono avere strutture comunitarie molto diverse e coprire aree geografiche diverse, come D, H e K, che hanno una biomassa fitoplanctonica totale simile.L'AEP H esiste principalmente nell'Oceano Indiano equatoriale e sono presenti più batteri diazotrofici.L'AEP D si trova in diversi bacini, ma è particolarmente prominente nel Pacifico intorno alle aree ad alto rendimento intorno alla risalita equatoriale.La forma di questa provincia del Pacifico ricorda un treno d'onde planetario.Ci sono pochi diazobatteri nell'AEP D e più coni.Rispetto alle altre due province, l’AEP K si trova solo negli altopiani del Mar Glaciale Artico e ci sono più diatomee e meno plancton.Vale la pena notare che anche la quantità di plancton in queste tre regioni è molto diversa.Tra questi, l'abbondanza di plancton di AEP K è relativamente bassa, mentre quella di AEP D e H è relativamente alta.Pertanto, nonostante la loro biomassa (e quindi simili a Chl-a), queste province sono abbastanza diverse: i test provinciali basati su Chl potrebbero non catturare queste differenze.
È anche ovvio che alcuni AEP con biomassa molto diversa possono essere simili in termini di struttura della comunità di fitoplancton.Ad esempio, questo è visibile in AEP D ed E. Sono vicini l’uno all’altro e nell’Oceano Pacifico, AEP E è vicino all’AEPJ altamente produttivo.Allo stesso modo, non esiste un chiaro legame tra la biomassa del fitoplancton e l’abbondanza di zooplancton.
L'AEP può essere compreso in termini di nutrienti forniti loro (Figura 5B).Le diatomee esistono solo dove c'è un'ampia fornitura di acido silicico.In generale, maggiore è l'apporto di acido silicico, maggiore è la biomassa delle diatomee.Le diatomee possono essere viste in AEP A, J, K e L. Il rapporto tra la biomassa delle diatomee rispetto ad altro fitoplancton è determinato da N, P e Fe forniti rispetto alla domanda di diatomee.Ad esempio, AEP L è dominato dalle diatomee.Rispetto ad altri nutrienti, il Si ha l’apporto più elevato.Al contrario, nonostante una maggiore produttività, AEP J ha meno diatomee e meno apporto di silicio (tutto e rispetto ad altri nutrienti).
I batteri del diazonio hanno la capacità di fissare l'azoto, ma crescono lentamente (31).Coesistono con altri fitoplancton, dove ferro e fosforo sono eccessivi rispetto alla richiesta di nutrienti diversi dal diazonio (20, 21).Vale la pena notare che la biomassa diazotrofica è relativamente elevata e l'apporto di Fe e P è relativamente ampio rispetto all'apporto di N. In questo modo, sebbene la biomassa totale in AEP J sia maggiore, la biomassa di diazonio in AEP H è più grande di quello in J. Tieni presente che AEP J e H sono geograficamente molto diversi e H si trova nell'Oceano Indiano equatoriale.
Se la struttura unica dell’ecosistema non è divisa in province, le informazioni ottenute dai modelli a complessità più bassa dei 12 AEP non saranno così chiare.L'AEP generato da SAGE facilita il confronto coerente e simultaneo di informazioni complesse e ad alta dimensione provenienti da modelli di ecosistemi.L'AEP sottolinea efficacemente il motivo per cui Chl non è un metodo valido e alternativo per determinare la struttura della comunità o l'abbondanza di zooplancton a livelli di nutrienti più elevati.Un’analisi dettagliata dei temi di ricerca in corso va oltre lo scopo di questo articolo.Il metodo SAGE fornisce un modo per esplorare altri meccanismi nel modello che è più semplice da gestire rispetto alla visualizzazione punto a punto.
Il metodo SAGE è proposto per aiutare a chiarire dati ecologici estremamente complessi da modelli numerici fisici/biogeochimici/ecosistemi globali.La provincia ecologica è determinata dalla biomassa totale dei gruppi funzionali del cross-plancton, dall'applicazione dell'algoritmo di riduzione della dimensionalità della probabilità t-SNE e dal clustering utilizzando il metodo ML non supervisionato DBSCAN.La teoria della differenza/grafo BC interprovinciale per il metodo di nidificazione viene applicata per derivare un AEP robusto che può essere utilizzato per l'interpretazione globale.In termini di costruzione, l'Eco-Provincia e l'AEP sono uniche.La nidificazione AEP può essere regolata tra l'intera complessità della provincia ecologica originale e la soglia minima raccomandata di 12 AEP.L'annidamento e la determinazione della complessità minima dell'AEP sono considerati passaggi chiave, poiché la probabilità t-SNE degenera AEP di complessità <12.Il metodo SAGE è globale e la sua complessità varia da > 100 AEP a 12. Per semplicità, l'attenzione attuale è sulla complessità di 12 AEP globali.La ricerca futura, in particolare gli studi regionali, potrebbe trovare utile un sottoinsieme spaziale più piccolo delle eco-province globali e potrebbe essere aggregato in un’area più piccola per trarre vantaggio dalle stesse intuizioni ecologiche qui discusse.Fornisce suggerimenti su come queste province ecologiche e le conoscenze da esse acquisite possano essere utilizzate per un’ulteriore comprensione ecologica, facilitare il confronto dei modelli e potenzialmente migliorare il monitoraggio degli ecosistemi marini.
La provincia ecologica e l'AEP individuati con il metodo SAGE si basano sui dati del modello numerico.Per definizione, il modello numerico è una struttura semplificata, che cerca di catturare l'essenza del sistema target, e diversi modelli avranno una diversa distribuzione del plancton.Il modello numerico utilizzato in questo studio non può catturare completamente alcuni dei modelli osservati (ad esempio, nelle stime Chl per la regione equatoriale e l’Oceano Antartico).Solo una piccola parte della diversità nell’oceano reale viene catturata e le scale meso e sub-meso non possono essere risolte, il che può influenzare il flusso di nutrienti e la struttura della comunità su scala più piccola.Nonostante queste carenze, risulta che l’AEP è molto utile per aiutare a comprendere modelli complessi.Valutando dove si trovano province ecologiche simili, AEP fornisce un potenziale strumento di confronto dei modelli numerici.L'attuale modello numerico cattura il modello generale della concentrazione di fitoplancton Chl-a rilevata a distanza e la distribuzione delle dimensioni del plancton e del gruppo funzionale (Nota S1 e Figura S1) (2, 32).
Come mostrato dalla linea di contorno da 0,1 mgChl-a/m-3, l'AEP è diviso in area oligotrofica e area mesotrofica (Figura S1B): AEP B, C, D, E, F e G sono aree oligotrofiche e le restanti aree sono situato Chl-a superiore.L'AEP mostra una certa corrispondenza con la provincia di Longhurst (Figura S3A), ad esempio, con l'Oceano Australe e il Pacifico equatoriale.In alcune regioni, l'AEP copre più regioni di Longhurst e viceversa.Poiché l'intenzione di delimitare le province in quest'area e a Longhurst è diversa, si prevede che vi saranno delle differenze.Numerosi AEP in una provincia di Longhurst indicano che alcune aree con biogeochimica simile possono avere strutture ecosistemiche molto diverse.L'AEP mostra una certa corrispondenza con gli stati fisici, come rivelato utilizzando l'apprendimento non supervisionato (19), come negli stati di risalita elevata (ad esempio, l'Oceano Antartico e il Pacifico equatoriale; Figura S3, C e D).Queste corrispondenze indicano che la struttura comunitaria del plancton è fortemente influenzata dalle dinamiche oceaniche.In aree come il Nord Atlantico, l'AEP attraversa province fisiche.Il meccanismo che causa queste differenze può includere processi come il trasporto della polvere, che possono portare a programmi nutrizionali completamente diversi anche in condizioni fisiche simili.
Il Ministero dell'Ecologia e l'AEP hanno sottolineato che l'uso del solo Chl non può identificare componenti ecologici, come ha già capito la comunità dell'ecologia marina.Ciò si osserva negli AEP con biomassa simile ma composizione ecologica significativamente diversa (come D ed E).Al contrario, gli AEP come D e K hanno biomassa molto diversa ma composizione ecologica simile.L'AEP sottolinea che il rapporto tra biomassa, composizione ecologica e abbondanza di zooplancton è complesso.Ad esempio, sebbene AEP J si distingua in termini di fitoplancton e biomassa di plancton, AEP e L hanno una biomassa di plancton simile, ma A ha un'abbondanza di plancton maggiore.L'AEP sottolinea che la biomassa fitoplanctonica (o Chl) non può essere utilizzata per prevedere la biomassa zooplanctonica.Lo zooplancton è il fondamento della catena alimentare della pesca e stime più accurate potrebbero portare a una migliore gestione delle risorse.I futuri satelliti per i colori marini [ad esempio PACE (plancton, aerosol, nuvole ed ecosistema marino)] potrebbero essere in una posizione migliore per aiutare a stimare la struttura della comunità del fitoplancton.L'utilizzo della previsione AEP può potenzialmente facilitare la stima dello zooplancton dallo spazio.Metodi come SAGE, insieme alle nuove tecnologie e a un numero sempre maggiore di dati sul campo disponibili per le indagini sul campo (come Tara e la ricerca di follow-up), possono congiuntamente fare un passo avanti verso il monitoraggio della salute degli ecosistemi basato su satellite.
Il metodo SAGE fornisce un modo conveniente per valutare alcuni meccanismi che controllano le caratteristiche della provincia, come biomassa/Chl, produzione primaria netta e struttura della comunità.Ad esempio, la quantità relativa di diatomee è determinata da uno squilibrio nell’offerta di Si, N, P e Fe rispetto ai requisiti stechiometrici del fitoplancton.Con un tasso di approvvigionamento equilibrato, la comunità è dominata dalle diatomee (L).Quando il tasso di approvvigionamento è sbilanciato (ovvero, l'offerta di silicio è inferiore alla domanda di nutrienti delle diatomee), le diatomee rappresentano solo una piccola porzione della quota (K).Quando l'apporto di Fe e P supera l'apporto di N (ad esempio, E e H), i batteri diazotrofi cresceranno vigorosamente.Attraverso il contesto fornito dall’AEP, l’esplorazione dei meccanismi di controllo diventerà più utile.
L'Eco-Provincia e l'AEP sono aree con strutture comunitarie simili.Le serie temporali di una determinata località all'interno di una provincia ecologica o AEP possono essere considerate come punto di riferimento e possono rappresentare l'area coperta dalla provincia ecologica o AEP.Le stazioni di monitoraggio a lungo termine in loco forniscono tali serie temporali.I set di dati in situ a lungo termine continueranno a svolgere un ruolo incalcolabile.Dal punto di vista del monitoraggio della struttura della comunità, il metodo SAGE può essere visto come un modo per aiutare a determinare la posizione più utile dei nuovi siti.Ad esempio, la serie temporale della valutazione dell'habitat oligotrofico a lungo termine (ALOHA) si trova nell'AEP B dell'area oligotrofica (Figura 5C, etichetta 2).Poiché ALOHA è vicino al confine di un altro AEP, le serie temporali potrebbero non essere rappresentative dell'intera area, come suggerito in precedenza (33).Nella stessa AEP B, la serie temporale SEATS (Southeast Asian Time Series) si trova nel sud-ovest di Taiwan (34), più lontano dai confini di altre AEP (Figura 5C, etichetta 1), e può essere utilizzata come posizione migliore per monitorare AEPB.Le serie temporali BATS (Bermuda Atlantic Time Series Study) (Figura 5C, etichetta 4) in AEPC sono molto vicine al confine tra AEP C e F, il che indica che il monitoraggio dell'AEP C utilizzando le serie temporali BATS può essere direttamente problematico.La stazione P in AEP J (Figura 5C, etichetta 3) è lontana dal confine AEP, quindi è più rappresentativa.L'Eco-Provincia e l'AEP possono aiutare a stabilire un quadro di monitoraggio adatto a valutare i cambiamenti globali, perché il permesso delle province di valutare dove il campionamento in loco può fornire informazioni chiave.Il metodo SAGE può essere ulteriormente sviluppato per essere applicato ai dati climatici per valutare la variabilità che consente di risparmiare tempo.
Il successo del metodo SAGE si ottiene attraverso un'attenta applicazione dei metodi di data science/ML e della conoscenza specifica del dominio.Nello specifico, t-SNE viene utilizzato per eseguire la riduzione della dimensionalità, che preserva la struttura di covarianza dei dati ad alta dimensione e facilita la visualizzazione della topologia di covarianza.I dati sono organizzati sotto forma di strisce e covarianze (Figura 2A), indicando che le misure puramente basate sulla distanza (come le medie K) non sono appropriate perché di solito utilizzano una distribuzione su base gaussiana (circolare) (discussa nella Nota S2) .Il metodo DBSCAN è adatto a qualsiasi topologia di covarianza.Se si presta attenzione all'impostazione dei parametri, è possibile fornire un'identificazione affidabile.Il costo computazionale dell’algoritmo t-SNE è elevato, il che limita la sua attuale applicazione a una quantità maggiore di dati, il che significa che è difficile da applicare a campi profondi o variabili nel tempo.Sono in corso i lavori sulla scalabilità di t-SNE.Poiché la distanza KL è facile da parallelizzare, l'algoritmo t-SNE ha un buon potenziale di espansione futura (35).Finora, altri metodi promettenti di riduzione della dimensionalità che possono ridurre meglio le dimensioni includono tecniche di approssimazione e proiezione delle varietà unificate (UMAP), ma è necessaria la valutazione nel contesto dei dati oceanici.Il significato di una migliore scalabilità è, ad esempio, classificare i climi globali o i modelli con diversa complessità su uno strato misto.Le aree che non vengono classificate da SAGE in nessuna provincia possono essere considerate come i restanti punti neri nella Figura 2A.Geograficamente, queste aree si trovano principalmente in aree altamente stagionali, il che suggerisce che catturare le province ecologiche che cambiano nel tempo fornirà una copertura migliore.
Per costruire il metodo SAGE, sono state utilizzate idee provenienti da sistemi complessi/scienza dei dati, utilizzando la capacità di determinare cluster di gruppi funzionali (la possibilità di essere molto vicini in uno spazio a 11 dimensioni) e determinare province.Queste province rappresentano volumi specifici nel nostro spazio delle fasi t-SNE 3D.Allo stesso modo, la parte di Poincaré può essere utilizzata per valutare il “volume” dello spazio degli stati occupato dalla traiettoria per determinare un comportamento “normale” o “caotico” (36).Per l'output del modello statico a 11 dimensioni, il volume occupato dopo che i dati sono stati convertiti in uno spazio delle fasi 3D può essere spiegato in modo simile.La relazione tra area geografica e area nello spazio delle fasi 3D non è semplice, ma può essere spiegata in termini di somiglianza ecologica.Per questo motivo si preferisce la misura di dissomiglianza BC più convenzionale.
Il lavoro futuro riutilizzerà il metodo SAGE per i dati che cambiano stagionalmente per valutare la variabilità spaziale delle province identificate e dell'AEP.L'obiettivo futuro è utilizzare questo metodo per determinare quali province possono essere determinate attraverso misurazioni satellitari (come Chl-a, riflettività del telerilevamento e temperatura della superficie del mare).Ciò consentirà la valutazione del telerilevamento delle componenti ecologiche e il monitoraggio altamente flessibile delle province ecologiche e della loro variabilità.
Lo scopo di questa ricerca è introdurre il metodo SAGE, che definisce una provincia ecologica attraverso la sua struttura unica della comunità di plancton.Qui verranno fornite informazioni più dettagliate sul modello fisico/biogeochimico/ecosistema e sulla selezione dei parametri degli algoritmi t-SNE e DBSCAN.
Le componenti fisiche del modello provengono dalla stima della circolazione oceanica e del clima [ECCOv4;(37) la stima dello stato globale descritta da (38).La risoluzione nominale della stima statale è 1/5.Il metodo dei minimi quadrati con il metodo del moltiplicatore lagrangiano viene utilizzato per ottenere le condizioni iniziali e al contorno e i parametri del modello interno adeguati dall'osservazione, generando così un modello di ciclo generale MIT a esecuzione libera (MITgcm) (39), il modello Dopo l'ottimizzazione, i risultati possono essere monitorati e osservati.
La biogeochimica/ecosistema ha una descrizione più completa (cioè equazioni e valori dei parametri) in (2).Il modello cattura la circolazione di C, N, P, Si e Fe attraverso stagni inorganici e organici.La versione qui utilizzata comprende 35 specie di fitoplancton: 2 specie di microprocarioti e 2 specie di microeucarioti (adatti ad ambienti poveri di nutrienti), 5 specie di Cryptomonas sphaeroides (con rivestimento di carbonato di calcio), 5 specie di diazonio (può fissare l'azoto, quindi non è limitata) la disponibilità di azoto inorganico disciolto), 11 diatomee (che formano una copertura silicea), 10 flagellati misti-vegetativi (possono fotosintetizzare e mangiare altro plancton) e 16 Zooplancton (pascolano altro plancton).Questi sono chiamati "gruppi funzionali biogeochimici" perché hanno effetti diversi sulla biogeochimica marina (40, 41) e sono spesso utilizzati nell'osservazione e negli studi modello.In questo modello, ciascun gruppo funzionale è composto da diversi plancton di diverse dimensioni, con un diametro sferico equivalente compreso tra 0,6 e 2500 μm.
I parametri che influenzano la crescita, il pascolo e l'affondamento del fitoplancton sono legati alle dimensioni e esistono differenze specifiche tra i sei gruppi funzionali del fitoplancton (32).Nonostante le diverse strutture fisiche, i risultati dei 51 componenti planctonici del modello sono stati utilizzati in numerosi studi recenti (42-44).
Dal 1992 al 2011, il modello di accoppiamento fisico/biogeochimico/ecosistema è durato 20 anni.L'output del modello include la biomassa del plancton, la concentrazione dei nutrienti e il tasso di apporto dei nutrienti (DIN, PO4, Si e Fe).In questo studio, la media ventennale di questi risultati è stata utilizzata come input della Provincia Ecologica.Chl, la distribuzione della biomassa planctonica e la concentrazione dei nutrienti e la distribuzione dei gruppi funzionali vengono confrontati con osservazioni satellitari e in situ [vedi (2, 44), Nota S1 e figura.da S1 a S3].
Per il metodo SAGE, la principale fonte di casualità proviene dalla fase t-SNE.La casualità ostacola la ripetibilità, il che significa che i risultati non sono affidabili.Il metodo SAGE verifica rigorosamente la robustezza determinando una serie di parametri di t-SNE e DBSCAN, che possono identificare in modo coerente i cluster quando ripetuti.Determinare la “perplessità” del parametro t-SNE può essere inteso come determinare il grado in cui la mappatura dalle dimensioni alte a quelle basse dovrebbe rispettare le caratteristiche locali o globali dei dati.Raggiunta la confusione di 400 e 300 iterazioni.
Per l'algoritmo di clustering DBSCAN, è necessario determinare la dimensione minima e la metrica della distanza dei punti dati nel cluster.Il numero minimo è determinato sotto la guida di esperti.Questa conoscenza sa cosa si adatta all'attuale quadro di modellazione numerica e alla risoluzione.Il numero minimo è 100. È possibile considerare un valore minimo più elevato (meno di <135 prima che il limite superiore del verde diventi più ampio), ma non può sostituire il metodo di aggregazione basato sulla dissomiglianza BC.Il grado di connessione (Figura 6A) viene utilizzato per impostare il parametro ϵ, che favorisce una copertura più elevata (Figura 6B).La connettività è definita come il numero composito di cluster ed è sensibile al parametro ϵ.Una connettività inferiore indica un adattamento insufficiente, raggruppando artificialmente le regioni.Una connettività elevata indica un overfitting.Anche il sovradattamento è problematico, perché mostra che le ipotesi casuali iniziali possono portare a risultati non riproducibili.Tra questi due estremi, un forte aumento (solitamente chiamato “gomito”) indica il miglior ϵ.Nella Figura 6A, si vede un forte aumento nell'area dell'altopiano (giallo,> 200 grappoli), seguito da una forte diminuzione (verde, 100 grappoli), fino a circa 130, circondati da pochissimi grappoli (blu, <60 grappoli) ).In almeno 100 aree blu, o un cluster domina l'intero oceano (ϵ <0,42), oppure la maggior parte dell'oceano non è classificata ed è considerata rumore (ϵ> 0,99).L'area gialla ha una distribuzione a grappoli altamente variabile e non riproducibile.Al diminuire di ϵ il rumore aumenta.L'area verde in forte aumento è chiamata gomito.Questa è una regione ottimale.Sebbene venga utilizzata la probabilità t-SNE, la dissomiglianza BC all'interno della provincia può ancora essere utilizzata per determinare un clustering affidabile.Utilizzando la Figura 6 (A e B), impostare ϵ su 0,39.Maggiore è il numero minimo, minore è la probabilità di raggiungere la ϵ che consente una classificazione affidabile, e maggiore è l'area verde con un valore superiore a 135. L'ingrandimento di quest'area indica che il gomito sarà più difficile da trovare o meno. esistente.
Dopo aver impostato i parametri di t-SNE, il numero totale di cluster trovati verrà utilizzato come misura della connettività (A) e della percentuale di dati allocati al cluster (B).Il punto rosso indica la migliore combinazione di copertura e connettività.Il numero minimo è fissato in base al numero minimo relativo all'ecologia.
Per materiali supplementari per questo articolo, consultare http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Questo è un articolo ad accesso aperto distribuito secondo i termini della licenza Creative Commons Attribution.L'articolo consente l'uso, la distribuzione e la riproduzione illimitati con qualsiasi mezzo a condizione che l'opera originale sia adeguatamente citata.
Nota: ti chiediamo solo di fornire il tuo indirizzo e-mail in modo che la persona che consigli alla pagina sappia che desideri che veda l'e-mail e che non si tratta di spam.Non cattureremo alcun indirizzo email.
Questa domanda viene utilizzata per verificare se sei un visitatore e impedire l'invio automatico di spam.
Il Ministero globale dell’ecologia marina è determinato a risolvere problemi complessi e utilizza il machine learning senza supervisione per esplorare le strutture della comunità.
Il Ministero globale dell’ecologia marina è determinato a risolvere problemi complessi e utilizza il machine learning senza supervisione per esplorare le strutture della comunità.
Orario di pubblicazione: 12 gennaio 2021