topimg

Clarificarea complexității ecologice: învățarea nesupravegheată determină provincia ecologică marină globală

Este propusă o metodă de învățare nesupravegheată pentru a determina provinciile ecologice marine globale (eco-provincii) pe baza structurii comunității de plancton și a datelor despre fluxul de nutrienți.Metoda de provincie ecologică integrată sistematică (SAGE) poate identifica provincii ecologice în modele de ecosistem extrem de neliniare.Pentru a se adapta la covarianța non-Gauss a datelor, SAGE folosește t random neighbor embedding (t-SNE) pentru a reduce dimensionalitatea.Cu ajutorul aplicației de zgomot bazată pe algoritmul de clustering spațial bazat pe densitate (DBSCAN), pot fi identificate mai mult de o sută de provincii ecologice.Folosind harta de conectivitate cu diferențele ecologice ca măsură de distanță, o provincie ecologică agregată robustă (AEP) este definită în mod obiectiv prin provincii ecologice imbricate.Folosind AEP, a fost explorat controlul ratei de aprovizionare cu nutrienți pe structura comunității.Eco-provincia și AEP sunt unice și pot ajuta la interpretarea modelului.Ele pot facilita comparațiile între modele și pot îmbunătăți înțelegerea și monitorizarea ecosistemelor marine.
Provinciile sunt regiuni în care biogeografia complexă pe mare sau pe uscat este organizată în zone coerente și semnificative (1).Aceste provincii sunt foarte importante pentru compararea și contrastarea locațiilor, caracterizarea observațiilor, monitorizării și protecției.Interacțiunile complexe și neliniare care produc aceste provincii fac ca metodele de învățare automată nesupravegheată (ML) să fie foarte potrivite pentru determinarea obiectivă a provinciilor, deoarece covarianța în date este complexă și non-gaussiană.Aici, este propusă o metodă ML, care identifică sistematic provincii ecologice marine unice (eco-provincii) din modelul fizic/ecosistem global tridimensional (3D) Darwin (2).Termenul „unic” este folosit pentru a indica faptul că zona identificată nu se suprapune suficient cu alte zone.Această metodă este numită metoda System Integrated Ecological Province (SAGE).Pentru a realiza o clasificare utilă, o metodă de algoritm trebuie să permită (i) clasificarea globală și (ii) analiza multi-scală care poate fi imbricată/agregată în spațiu și timp (3).În această cercetare, metoda SAGE a fost propusă pentru prima dată și au fost discutate provinciile ecologice identificate.Ecoprovincile pot promova înțelegerea factorilor care controlează structura comunității, pot oferi informații utile pentru strategiile de monitorizare și pot ajuta la urmărirea schimbărilor din ecosistem.
Provinciile terestre sunt de obicei clasificate în funcție de similitudinile climatice (precipitații și temperatură), sol, vegetație și faună și sunt utilizate pentru managementul auxiliar, cercetarea biodiversității și controlul bolilor (1, 4).Provinciile marine sunt mai greu de definit.Majoritatea organismelor sunt microscopice, cu limite fluide.Longhurst şi colab.(5) A furnizat una dintre primele clasificări globale ale Ministerului Oceanografiei pe baza condițiilor de mediu.Definiția acestor provincii „Longhurst” include variabile precum rata de amestecare, stratificarea și iradierea, precum și experiența vastă a lui Longhurst ca oceanograf marin, care are alte condiții importante pentru ecosistemele marine.Longhurst a fost utilizat pe scară largă, de exemplu, pentru a evalua producția primară și fluxurile de carbon, pentru a ajuta pescuitul și pentru a planifica activități de observare in situ (5-9).Pentru a defini mai obiectiv provinciile, au fost folosite metode precum logica fuzzy și clustering-ul/statisticile regionale nesupravegheate (9-14).Scopul acestor metode este de a identifica structuri semnificative care pot identifica provincii în datele observaționale disponibile.De exemplu, provinciile marine dinamice (12) folosesc hărți auto-organizate pentru a reduce zgomotul și utilizează gruparea ierarhică (pe bază de arbore) pentru a determina produsele de culoare marine derivate de la sateliții regionali [clorofila a (Chl-a), înălțimea liniei de fluorescență normalizate și materie organică dizolvată colorată] și câmp fizic (temperatura și salinitatea suprafeței mării, topografia dinamică absolută și gheața de mare).
Structura comunității planctonului este îngrijorătoare, deoarece ecologia sa are o mare influență asupra nivelurilor mai ridicate de nutrienți, absorbției carbonului și climei.Cu toate acestea, este încă un obiectiv provocator și evaziv de a determina o provincie ecologică globală bazată pe structura comunității planctonului.Sateliții de culoare marină pot oferi informații despre clasificarea cu granulație grosieră a fitoplanctonului sau sugerează avantajele grupurilor funcționale (15), dar în prezent nu sunt în măsură să ofere informații detaliate despre structura comunității.Sondajele recente [de exemplu, Tara Ocean (16)] oferă măsurători fără precedent ale structurii comunității;în prezent, există doar rare observații in situ la scară globală (17).Studiile anterioare au determinat în mare măsură „Provincia biogeochimică” (12, 14, 18) pe baza determinării asemănărilor biochimice (cum ar fi producția primară, Chl și lumina disponibilă).Aici, modelul numeric este utilizat pentru a obține [Darwin(2)], iar provincia ecologică este determinată în funcție de structura comunității și fluxul de nutrienți.Modelul numeric utilizat în acest studiu are acoperire globală și poate fi comparat cu datele existente de câmp (17) și câmpurile de teledetecție (Nota S1).Datele modelului numeric utilizate în acest studiu au avantajul acoperirii globale.Ecosistemul model este format din 35 de specii de fitoplancton și 16 specii de zooplancton (vă rugăm să consultați materiale și metode).Tipurile de model de plancton interacționează neliniar cu structurile de covarianță non-Gauss, astfel încât metodele simple de diagnosticare nu sunt potrivite pentru identificarea modelelor unice și consistente în structurile comunitare emergente.Metoda SAGE introdusă aici oferă o modalitate nouă de a verifica rezultatul modelelor complexe Darwin.
Capacitățile puternice de transformare ale tehnologiei știința datelor/ML pot permite soluții de model covârșitor de complexe să dezvăluie structuri complexe, dar robuste în covarianța datelor.O metodă robustă este definită ca o metodă care poate reproduce cu fidelitate rezultatele într-un interval de eroare dat.Chiar și în sistemele simple, determinarea tiparelor și semnalelor robuste poate fi o provocare.Până când rațiunea care conduce la modelul observat nu este determinată, complexitatea emergentă poate părea complicată/dificil de rezolvat.Procesul cheie de stabilire a compoziției ecosistemului este de natură neliniară.Existența interacțiunilor neliniare poate încurca clasificarea robustă, de aceea este necesar să se evite metodele care fac ipoteze puternice despre distribuția statistică de bază a covarianței datelor.Datele dimensionale și neliniare sunt comune în oceanografie și pot avea o structură de covarianță cu topologie complexă, non-Gauss.Deși datele cu o structură de covarianță non-Gauss pot împiedica clasificarea robustă, metoda SAGE este nouă, deoarece este concepută pentru a identifica clustere cu topologii arbitrare.
Scopul metodei SAGE este de a identifica în mod obiectiv modelele emergente care ar putea ajuta la înțelegerea ecologică.În urma unui flux de lucru bazat pe cluster similar cu (19), variabilele ecologice și de flux de nutrienți sunt utilizate pentru a determina singurul cluster din date, numit provincie ecologică.Metoda SAGE propusă în acest studiu (Figura 1) reduce mai întâi dimensionalitatea de la 55 la 11 dimensiuni prin însumarea grupurilor funcționale de plancton definite a priori (vezi Materiale și Metode).Folosind metoda t-random neighbor incorporare (t-SNE), dimensiunea este redusă și mai mult prin proiectarea probabilității în spațiul 3D.Gruparea nesupravegheată poate identifica zone apropiate din punct de vedere ecologic [clustering spațial bazat pe densitate (DBSCAN) pentru aplicații bazate pe zgomot].Atât t-SNE, cât și DBSCAN sunt aplicabile datelor inerente ale modelului numeric al ecosistemului neliniar.Apoi reproiectați provincia ecologică rezultată pe pământ.Au fost identificate peste o sută de provincii ecologice unice, potrivite pentru cercetarea regională.Pentru a lua în considerare modelul ecosistemic consistent la nivel global, metoda SAGE este utilizată pentru a agrega provinciile ecologice în provincii ecologice agregate (AEP) pentru a îmbunătăți eficacitatea provinciilor ecologice.Nivelul de agregare (numit „complexitate”) poate fi ajustat la nivelul de detaliu necesar.Determinați complexitatea minimă a unui AEP robust.Accentul selecției este metoda SAGE și explorarea cazurilor AEP de cea mai mică complexitate pentru a determina controlul structurii comunității de urgență.Modelele pot fi apoi analizate pentru a oferi perspective ecologice.Metoda introdusă aici poate fi folosită și pentru compararea modelelor mai pe larg, de exemplu, prin evaluarea locațiilor provinciilor ecologice similare găsite în modele diferite pentru a evidenția diferențele și asemănările, astfel încât să compare modele.
(A) Schema schematică a fluxului de lucru pentru determinarea provinciei ecologice;folosind suma din grupul funcțional pentru a reduce datele originale de 55 dimensionale la un model de ieșire cu 11 dimensiuni, inclusiv biomasa a șapte plancton funcțional/nutrient și patru rate de aprovizionare cu nutrienți.Valoare neglijabilă și zonă durabilă de acoperire cu gheață.Datele au fost standardizate și standardizate.Furnizați date 11-dimensionale algoritmului t-SNE pentru a evidenția combinații de caracteristici similare statistic.DBSCAN va selecta cu atenție clusterul pentru a seta valoarea parametrului.În cele din urmă proiectați datele înapoi la proiecția latitudine/longitudine.Vă rugăm să rețineți că acest proces se repetă de 10 ori deoarece se poate genera o ușoară aleatorie prin aplicarea t-SNE.(B) explică cum să obțineți AEP prin repetarea fluxului de lucru în (A) de 10 ori.Pentru fiecare dintre aceste 10 implementări, matricea de disimilaritate inter-provincială Bray-Curtis (BC) a fost determinată pe baza biomasei a 51 de tipuri de fitoplancton.Determinați diferența BC între provincii, de la complexitatea 1 AEP până la complexitatea completă 115. Criteriul de referință BC este stabilit de provincia Longhurst.
Metoda SAGE utilizează rezultatul modelului numeric 3D fizic/ecosistem global pentru a defini provincia ecologică [Darwin (2);vezi Materiale și Metode și Nota S1].Componentele ecosistemului sunt compuse din 35 de specii de fitoplancton și 16 specii de zooplancton, cu șapte grupuri funcționale predefinite: procariote și eucariote adaptate la medii cu conținut scăzut de nutrienți, coccidii cu un strat de carbonat de calciu și fixare grea de azot Nutrienți azotați (de obicei lipsă). nutrienți importanți), cu acoperire silicioasă, pot face alte plancton fotosinteze și pășunat flagelate nutritive mixte și păstori zooplancton.Dimensiunea este de 0,6 până la 2500μm diametru sferic echivalent.Modelul de distribuție a dimensiunii fitoplanctonului și gruparea funcțională surprinde caracteristicile generale observate în observațiile prin satelit și in situ (a se vedea figurile S1 la S3).Asemănarea dintre modelul numeric și oceanul observat indică faptul că provinciile definite de model pot fi aplicabile oceanului in-situ.Vă rugăm să rețineți că acest model surprinde doar o anumită diversitate de fitoplancton și doar anumite intervale de forță fizice și chimice ale oceanului in situ.Metoda SAGE poate permite oamenilor să înțeleagă mai bine mecanismul de control regional al structurii comunitare model.
Prin includerea numai a sumei biomasei de suprafață (cu un timp mediu de 20 de ani) în fiecare grup funcțional de plancton, dimensionalitatea datelor poate fi redusă.După ce studiile anterioare au arătat rolul lor cheie în stabilirea structurii comunității, aceasta a inclus și termeni sursă de suprafață pentru fluxurile de nutrienți (furnizare de azot, fier, fosfat și acid silicic) [de exemplu (20, 21)] .Însumarea grupelor funcționale reduce problema de la 55 (51 de plancton și 4 fluxuri de nutrienți) la 11 dimensiuni.În acest studiu inițial, din cauza constrângerilor de calcul impuse de algoritm, nu au fost luate în considerare variabilitatea adâncimii și a timpului.
Metoda SAGE este capabilă să identifice relații importante între procesele neliniare și caracteristicile cheie ale interacțiunilor dintre biomasa grupului funcțional și fluxul de nutrienți.Folosirea datelor 11-dimensionale bazate pe metode euclidiene de învățare la distanță (cum ar fi K-means) nu poate obține provincii fiabile și reproductibile (19, 22).Acest lucru se datorează faptului că nicio formă gaussiană nu se găsește în distribuția de bază a covarianței elementelor cheie care definesc provincia ecologică.Mediile K ale celulelor Voronoi (linii drepte) nu pot reține distribuția de bază non-Gauss.
Biomasa a șapte grupuri funcționale de plancton și a patru fluxuri de nutrienți formează un vector x 11-dimensional.Prin urmare, x este un câmp vectorial pe grila modelului, unde fiecare element xi reprezintă un vector cu 11 dimensiuni definit pe grila orizontală a modelului.Fiecare indice i identifică în mod unic un punct al grilei pe sferă, unde (lon, lat) = (ϕi, θi).Dacă biomasa unității model de grilă este mai mică de 1,2×10-3mg Chl/m3 sau rata de acoperire cu gheață depășește 70%, se utilizează și se aruncă jurnalul de date de biomasă.Datele sunt normalizate și standardizate, astfel încât toate datele sunt în intervalul [0 la 1], media este eliminată și scalată la varianța unității.Acest lucru se face astfel încât caracteristicile (biomasă și fluxul de nutrienți) să nu fie limitate de contrastul în gama de valori posibile.Clusteringul ar trebui să surprindă relația de schimbare din distanța de probabilitate cheie dintre caracteristici, mai degrabă decât distanța geografică.Prin cuantificarea acestor distanțe, apar caracteristici importante, în timp ce detaliile inutile sunt eliminate.Din punct de vedere ecologic, acest lucru este necesar deoarece unele tipuri de fitoplancton cu biomasă mică pot avea efecte biogeochimice mai mari, cum ar fi fixarea azotului de către bacteriile diazotrofe.La standardizarea și normalizarea datelor, aceste tipuri de covariabile vor fi evidențiate.
Subliniind proximitatea caracteristicilor din spațiul de dimensiuni mari în reprezentarea de dimensiuni joase, algoritmul t-SNE este utilizat pentru a clarifica regiunile similare existente.Lucrările anterioare care au vizat construirea de rețele neuronale profunde pentru aplicațiile de teledetecție au folosit t-SNE, care și-a dovedit abilitatea de a separa caracteristicile cheie (23).Acesta este un pas necesar pentru a identifica gruparea robustă în datele caracteristicilor evitând în același timp soluțiile neconvergente (nota S2).Folosind nuclee gaussiene, t-SNE păstrează proprietățile statistice ale datelor prin maparea fiecărui obiect cu dimensiuni mari la un punct din spațiul de fază 3D, asigurând astfel că probabilitatea de apariție a obiectelor similare în direcțiile înalte și joase este mare într-un punct înalt. spațiu dimensional (24).Având în vedere un set de N obiecte de dimensiuni înalte x1,…,xN, algoritmul t-SNE reduce prin minimizarea divergenței Kullback-Leibler (KL) (25).Divergența KL este o măsură a cât de diferită este o distribuție de probabilitate de o a doua distribuție de probabilitate de referință și poate evalua în mod eficient posibilitatea de corelare între reprezentările de dimensiuni joase ale caracteristicilor de dimensiuni înalte.Dacă xi este al i-lea obiect din spațiul N-dimensional, xj este al-lea obiect din spațiul N-dimensional, yi este al i-lea obiect din spațiul cu dimensiuni reduse și yj este al-lea obiect din spațiul joasă -spațiu dimensional, atunci t -SNE definește probabilitatea de similitudine ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2), iar pentru mulțimea de reducere a dimensionalității q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
Figura 2A ilustrează efectul reducerii vectorilor de flux de biomasă și nutrienți ai combinației cu 11 dimensiuni la 3D.Motivația aplicării t-SNE poate fi comparată cu motivația analizei componentelor principale (PCA), care utilizează atributul de varianță pentru a sublinia aria/atributul datelor, reducând astfel dimensionalitatea.Sa constatat că metoda t-SNE este superioară PCA în ceea ce privește furnizarea de rezultate fiabile și reproductibile pentru Eco-Ministry (a se vedea nota S2).Acest lucru se poate datora faptului că ipoteza de ortogonalitate a PCA nu este potrivită pentru identificarea interacțiunilor critice între caracteristicile interactive extrem de neliniare, deoarece PCA se concentrează pe structurile de covarianță liniară (26).Folosind date de teledetecție, Lunga și colab.(27) ilustrează modul de utilizare a metodei SNE pentru a evidenția caracteristicile spectrale complexe și neliniare care deviază de la distribuția Gauss.
(A) O rată de aprovizionare cu nutrienți modelată, biomasă de grup funcțional de fitoplancton și zooplancton desenată de algoritmul t-SNE și colorată în funcție de provincie folosind DBSCAN.Fiecare punct reprezintă un punct în spațiul de dimensiuni mari, așa cum se arată în Figura 6B, majoritatea punctelor sunt capturate.Arborele se referă la dimensiunile „t-SNE” 1, 2 și 3. (B) Proiecția geografică a provinciei găsită de DBSCAN pe grila latitudine-longitudine a originii.Culoarea trebuie privită ca orice culoare, dar trebuie să corespundă cu (A).
Punctele din diagrama de dispersie t-SNE din Figura 2A sunt asociate cu latitudinea și longitudinea.Dacă cele două puncte din figura 2A sunt apropiate unul de celălalt, se datorează faptului că biomasa și fluxurile lor de nutrienți sunt similare, nu din cauza proximității geografice.Culorile din Figura 2A sunt clustere descoperite folosind metoda DBSCAN (28).Când caută observații dense, algoritmul DBSCAN folosește distanța în reprezentarea 3D dintre puncte (ϵ = 0,39; pentru informații despre această alegere, vezi Materiale și Metode), iar numărul de puncte similare este necesar pentru a defini clusterul (aici 100 de puncte, vezi mai sus).Metoda DBSCAN nu face ipoteze despre forma sau numărul de clustere din date, după cum se arată mai jos:
3) Pentru toate punctele identificate ca fiind în interiorul distanței, repetați pasul 2 în mod iterativ pentru a determina limita clusterului.Dacă numărul de puncte este mai mare decât valoarea minimă setată, acesta este desemnat ca un cluster.
Datele care nu îndeplinesc metrica minimă pentru membrul cluster și distanța ϵ sunt considerate „zgomot” și nu li se atribuie o culoare.DBSCAN este un algoritm rapid și scalabil cu performanță O(n2) în cel mai rău caz.Pentru analiza actuală, nu este de fapt aleatorie.Numărul minim de puncte este determinat de evaluarea unui expert.După ajustarea distanței după, rezultatul nu este suficient de stabil în intervalul ≈±10.Această distanță este setată folosind conectivitate (Figura 6A) și procentul de acoperire a oceanului (Figura 6B).Conectivitatea este definită ca numărul compus de clustere și este sensibilă la parametrul ϵ.Conectivitatea mai scăzută indică o potrivire insuficientă, grupând artificial regiunile.Conectivitatea ridicată indică supraadaptare.Este posibil să se folosească un minim mai mare, dar dacă minimul depășește ca, este imposibil să se obțină o soluție fiabilă.135 (Pentru mai multe detalii, vezi Materiale și Metode).
Cele 115 clustere identificate în Figura 2A sunt proiectate înapoi pe pământ în Figura 2B.Fiecare culoare corespunde unei combinații coerente de factori biogeochimici și ecologici identificați de DBSCAN.Odată ce clusterele sunt determinate, asocierea fiecărui punct din Figura 2A cu o anumită latitudine și longitudine este utilizată pentru a proiecta clusterele înapoi în zona geografică.Figura 2B ilustrează acest lucru cu aceleași culori de grup ca și Figura 2A.Culorile similare nu trebuie interpretate ca similaritate ecologică, deoarece sunt atribuite în ordinea în care clusterele sunt descoperite de algoritm.
Zona din figura 2B poate fi similară calitativ cu o zonă stabilită în fizica și/sau biogeochimia oceanului.De exemplu, clusterele din Oceanul de Sud sunt zona-simetrice, cu apariția vortexurilor oligotrofe, iar tranziția bruscă indică influența vântului alize.De exemplu, în Pacificul ecuatorial, se văd diferite regiuni legate de creștere.
Pentru a înțelege mediul ecologic al Eco-Provinciei, a fost utilizată o variație a indicelui de diferență Bray-Curtis (BC) (29) pentru a evalua ecologia în cluster.Indicatorul BC este o dată statistică utilizată pentru a cuantifica diferența în structura comunității între două situri diferite.Măsurarea BC este aplicabilă biomasei a 51 de specii de fitoplancton și zooplancton BCninj = 1-2CninjSni + Snj
BCninj se referă la asemănarea dintre combinația ni și combinația nj, unde Cninj este valoarea minimă a unui singur tip de biomasă care există în ambele combinații ni și nj, iar Sni reprezintă suma tuturor biomaselor care există în ambele combinații ni și Snj.Diferența BC este similară cu măsura distanței, dar operează în spațiu non-euclidian, care este probabil să fie mai potrivit pentru datele ecologice și interpretarea acestora.
Pentru fiecare grup identificat în Figura 2B, poate fi evaluată asemănarea BC intra-provincial și inter-provincial.Diferența BC într-o provincie se referă la diferența dintre valoarea medie a provinciei și fiecare punct din provincie.Diferența dintre provinciile BC se referă la asemănarea dintre o provincie și alte provincii.Figura 3A prezintă o matrice BC simetrică (0, negru: complet corespunzător; 1, alb: complet diferit).Fiecare linie din grafic arată un model în date.Figura 3B arată semnificația geografică a rezultatelor BC în Figura 3A pentru fiecare provincie.Pentru o provincie dintr-o zonă cu nutriție scăzută și cu conținut scăzut de nutrienți, Figura 3B arată că simetria zonelor mari din jurul ecuatorului și a Oceanului Indian este practic similară, dar latitudinile mai mari și zonele de upwelling sunt semnificativ diferite.
(A) Gradul de diferență BC evaluat pentru fiecare provincie pe baza mediei globale a suprafeței globale pe 20 de ani de 51 de plancton.Observați simetria așteptată a valorilor.(B) Proiecția spațială a unei coloane (sau a unui rând).Pentru o provincie dintr-un cerc distrofic, a fost evaluată distribuția globală a măsurătorii de similitudine BC și a fost evaluată media globală pe 20 de ani.Negrul (BC = 0) înseamnă aceeași zonă, iar albul (BC = 1) înseamnă nicio asemănare.
Figura 4A ilustrează diferența în BC în cadrul fiecărei provincii în Figura 2B.Determinată prin utilizarea combinației medii a suprafeței medii dintr-un cluster și determinând diferența dintre BC și media fiecărui punct al grilei din provincie, arată că metoda SAGE poate separa bine 51 de specii pe baza similitudinii ecologice Tipul de datele modelului.Disimilaritatea medie generală a clusterului BC a tuturor celor 51 de tipuri este de 0,102±0,0049.
(A, B și D) Diferența BC în cadrul provinciei este evaluată ca diferența medie BC între fiecare comunitate de puncte de grilă și provincia medie, iar complexitatea nu este redusă.(2) Diferența medie globală intra-provincială BC este de 0,227±0,117.Acesta este punctul de referință al clasificării bazate pe motivația ecologică propus de această lucrare [linia verde în (C)].(C) Diferența medie intra-provincială BC: Linia neagră reprezintă diferența intra-provincială BC cu o complexitate crescândă.2σ provine din 10 repetări ale procesului de identificare a eco-provinciei.Pentru complexitatea totală a provinciilor descoperite de DBSCAN, (A) arată că diferența BC în provincie este 0,099, iar clasificarea complexității propusă de (C) este 12, rezultând o diferență BC de 0,200 în provincie.după cum arată imaginea.(D).
În Figura 4B, biomasa a 51 de tipuri de plancton este utilizată pentru a reprezenta diferența echivalentă BC în provincia Longhurst.Media generală a fiecărei provincii este de 0,227, iar abaterea standard a punctelor grilei cu referire la diferența din provincia BC este 0,046.Acesta este mai mare decât clusterul identificat în Figura 1B.În schimb, folosind suma celor șapte grupuri funcționale, diferența medie BC intra-sezon în Longhurst a crescut la 0,232.
Harta globală a eco-provinciei oferă detalii complexe ale interacțiunilor ecologice unice și s-au făcut îmbunătățiri în utilizarea întregii structuri a ecosistemului din provincia Longhurst.Se așteaptă ca Ministerul Ecologiei să ofere o perspectivă asupra procesului de control al ecosistemului modelului numeric, iar această perspectivă va ajuta la explorarea muncii de teren.În scopul acestei cercetări, nu este posibilă afișarea completă a mai mult de o sută de provincii.Următoarea secțiune prezintă metoda SAGE care rezumă provinciile.
Unul dintre scopurile provinciei este de a promova înțelegerea locației și managementului provinciei.Pentru a determina situațiile de urgență, metoda din Figura 1B ilustrează cuibărirea provinciilor similare din punct de vedere ecologic.Ecoprovincile sunt grupate pe baza similitudinii ecologice, iar o astfel de grupare de provincii se numește AEP.Setați o „complexitate” ajustabilă pe baza numărului total de provincii care trebuie luate în considerare.Termenul „complexitate” este folosit deoarece permite ajustarea nivelului atributelor de urgență.Pentru a defini agregările semnificative, diferența medie intra-provincială BC de 0,227 față de Longhurst este utilizată ca punct de referință.Sub acest punct de referință, provinciile combinate nu mai sunt considerate utile.
După cum se arată în Figura 3B, provinciile ecologice globale sunt coerente.Folosind diferențele interprovinciale BC, se poate observa că unele configurații sunt foarte „comune”.Inspirate de metodele genetice și ale teoriei grafurilor, „grafurile conectate” sunt folosite pentru a sorta > 100 de provincii pe baza provinciilor care se aseamănă cel mai mult cu acestea.Metrica „conectivitate” aici este determinată folosind diferența inter-provincială BC (30).Numărul de provincii cu un spațiu mai mare de clasificare a > 100 de provincii poate fi denumit aici complexitate.AEP este un produs care clasifică peste 100 de provincii drept cele mai dominante/mai apropiate provincii ecologice.Fiecare provincie ecologică este atribuită provinciei ecologice dominante/foarte conectate care este cel mai asemănătoare cu ea.Această agregare determinată de diferența BC permite o abordare imbricată a ecologiei globale.
Complexitatea selectată poate fi orice valoare de la 1 la complexitatea completă din FIG.2A.La o complexitate mai mică, AEP poate degenera datorită etapei probabilistice de reducere a dimensionalității (t-SNE).Degenerarea înseamnă că provinciile ecologice pot fi atribuite diferitelor AEP-uri între iterații, modificând astfel aria geografică acoperită.Figura 4C ilustrează răspândirea diferențelor BC în provincii în AEP-uri de complexitate crescândă în 10 implementări (ilustrația din Figura 1B).În Figura 4C, 2σ (zona albastră) este o măsură a degradării în 10 implementări, iar linia verde reprezintă punctul de referință Longhurst.Faptele au dovedit că complexitatea lui 12 poate menține diferența BC în provincie sub valoarea de referință Longhurst în toate implementările și poate menține o degradare relativ mică de 2σ.În rezumat, complexitatea minimă recomandată este de 12 AEP, iar diferența medie de BC intra-provincie evaluată folosind 51 de tipuri de plancton este de 0,198±0,013, așa cum se arată în Figura 4D.Folosind suma a șapte grupuri funcționale de plancton, diferența medie BC în provincie este de 2σ în loc de 0,198±0,004.Comparația dintre diferențele BC calculate cu biomasa totală a celor șapte grupuri funcționale sau biomasa tuturor celor 51 de tipuri de plancton arată că, deși metoda SAGE este aplicabilă situației cu 51 dimensionale, este valabilă pentru biomasa totală a celor șapte grupuri funcționale. Pentru antrenament.
În funcție de scopul oricărei cercetări, pot fi luate în considerare diferite niveluri de complexitate.Studiile regionale pot necesita o complexitate totală (adică toate cele 115 provincii).Ca exemplu și pentru claritate, luați în considerare complexitatea minimă recomandată de 12.
Ca exemplu de utilitate a metodei SAGE, aici sunt folosite 12 AEP-uri cu o complexitate minimă de 12 pentru a explora controlul structurii comunității de urgență.Figura 5 ilustrează perspectivele ecologice grupate după AEP (de la A la L): În stoichiometria Redfield, extinderea geografică (Figura 5C), compoziția biomasei grupului funcțional (Figura 5A) și furnizarea de nutrienți (Figura 5B) sunt efectuate de N Zoomed.Este prezentat raportul (N:Si:P:Fe, 1:1:16:16×103).Pentru cel din urmă panou, P înmulțit cu 16 și Fe înmulțit cu 16×103, astfel încât graficul cu bare este echivalent cu cerințele nutriționale ale fitoplanctonului.
Provinciile sunt clasificate în 12 AEP-uri de la A la L. (A) Biomasă (mgC/m3) a ecosistemelor din 12 provincii.(B) Rata de flux de nutrienți a azotului anorganic dizolvat (N), fier (Fe), fosfat (P) și acid silicic (Si) (mmol/m3 pe an).Fe și P sunt înmulțite cu 16 și, respectiv, 16×103, astfel încât benzile să fie standardizate conform cerințelor stoichiometriei fitoplanctonului.(C) Observați diferența dintre regiunile polare, ciclonii subtropicali și regiunile majore sezoniere/în creștere.Posturile de monitorizare sunt marcate astfel: 1, LOCURI;2, ALOHA;3, statia P;și 4, BATS.
AEP-ul identificat este unic.Există o oarecare simetrie în jurul ecuatorului în Oceanul Atlantic și Pacific și o zonă similară, dar extinsă, există în Oceanul Indian.Unele AEP-uri îmbrățișează partea de vest a continentului asociată cu ascensiunea.Curentul circumpolar de la Polul Sud este considerat o caracteristică zonală mare.Ciclonul subtropical este o serie complexă de AEP oligotrofice.În aceste provincii, modelul familiar al diferențelor de biomasă dintre vortexurile oligotrofe dominate de plancton și regiunile polare bogate în diatomee este evident.
AEP-urile cu biomasă totală de fitoplancton foarte asemănătoare pot avea structuri comunitare foarte diferite și acoperă zone geografice diferite, cum ar fi D, H și K, care au o biomasă totală de fitoplancton similară.AEP H există în principal în Oceanul Indian ecuatorial și există mai multe bacterii diazotrofe.AEP D se găsește în mai multe bazine, dar este deosebit de proeminentă în Pacific în jurul zonelor cu producție mare din jurul afloririi ecuatoriale.Forma acestei provincii din Pacific amintește de un tren de valuri planetare.Există puține diazobacterii în AEP D și mai multe conuri.În comparație cu celelalte două provincii, AEP K se găsește doar în zonele înalte ale Oceanului Arctic și există mai multe diatomee și mai puține planctonuri.Este de remarcat faptul că cantitatea de plancton din aceste trei regiuni este, de asemenea, foarte diferită.Dintre acestea, abundența de plancton a AEP K este relativ scăzută, în timp ce cea a AEP D și H este relativ mare.Prin urmare, în ciuda biomasei lor (și, prin urmare, similare cu Chl-a), aceste provincii sunt destul de diferite: testarea provinciei pe bază de Chl poate să nu surprindă aceste diferențe.
De asemenea, este evident că unele AEP cu biomasă foarte diferită pot fi similare în ceea ce privește structura comunității fitoplanctonului.De exemplu, acest lucru este vizibil în AEP D și E. Sunt aproape unul de celălalt, iar în Oceanul Pacific, AEP E este aproape de AEPJ extrem de productiv.În mod similar, nu există o legătură clară între biomasa fitoplanctonului și abundența zooplanctonului.
AEP poate fi înțeles în ceea ce privește nutrienții furnizați acestora (Figura 5B).Diatomeele există doar acolo unde există o cantitate mare de acid silicic.În general, cu cât este mai mare cantitatea de acid silicic, cu atât este mai mare biomasa de diatomee.Diatomeele pot fi observate în AEP A, J, K și L. Raportul dintre biomasa de diatomee față de alt fitoplancton este determinat de N, P și Fe furnizate în raport cu cererea de diatomee.De exemplu, AEP L este dominată de diatomee.În comparație cu alți nutrienți, Si are cea mai mare aprovizionare.În schimb, în ​​ciuda productivității mai mari, AEP J are mai puține diatomee și o cantitate mai mică de siliciu (toate și comparativ cu alți nutrienți).
Bacteriile diazonium au capacitatea de a fixa azotul, dar cresc încet (31).Ele coexistă cu alt fitoplancton, unde fierul și fosforul sunt excesive în raport cu cererea de nutrienți non-diazoniu (20, 21).Este de remarcat faptul că biomasa diazotrofă este relativ mare, iar aportul de Fe și P este relativ mare în raport cu aportul de N. În acest fel, deși biomasa totală în AEP J este mai mare, biomasa de diazoniu în AEP H este mai mare decât cea din J. Vă rugăm să rețineți că AEP J și H sunt foarte diferite din punct de vedere geografic, iar H este situat în Oceanul Indian ecuatorial.
Dacă structura unică a ecosistemului nu este împărțită în provincii, informațiile obținute din cele 12 modele cu cea mai mică complexitate ale celor 12 AEP nu vor fi atât de clare.AEP generat de SAGE facilitează compararea coerentă și simultană a informațiilor complexe și cu dimensiuni înalte din modelele de ecosistem.AEP subliniază în mod eficient de ce Chl nu este o metodă bună și alternativă pentru a determina structura comunității sau abundența zooplanctonului la niveluri mai ridicate de nutrienți.O analiză detaliată a subiectelor de cercetare în curs depășește scopul acestui articol.Metoda SAGE oferă o modalitate de a explora alte mecanisme din model care este mai ușor de manevrat decât vizualizarea punct la punct.
Metoda SAGE este propusă pentru a ajuta la clarificarea datelor ecologice extrem de complexe din modelele numerice fizice/biogeochimice/ecosisteme globale.Provincia ecologică este determinată de biomasa totală a grupurilor funcționale încrucișate cu plancton, aplicarea algoritmului de reducere a dimensionalității probabilității t-SNE și gruparea folosind metoda ML nesupravegheată DBSCAN.Teoria diferențelor/grafice interprovinciale BC pentru metoda cuibării este aplicată pentru a obține un AEP robust care poate fi utilizat pentru interpretare globală.În ceea ce privește construcția, Eco-Provincia și AEP sunt unice.Cuibărirea AEP poate fi ajustată între complexitatea completă a provinciei ecologice originale și pragul minim recomandat de 12 AEP.Imbricarea și determinarea complexității minime a AEP sunt considerate pași cheie, deoarece probabilitatea t-SNE degenerează AEP de <12 complexitate.Metoda SAGE este globală, iar complexitatea sa variază de la> 100 AEP-uri la 12. Pentru simplitate, accentul actual este pus pe complexitatea a 12 AEP-uri globale.Cercetările viitoare, în special studiile regionale, pot găsi util un subset spațial mai mic al ecoprovinciilor globale și pot fi agregate într-o zonă mai mică pentru a profita de aceleași perspective ecologice discutate aici.Acesta oferă sugestii cu privire la modul în care aceste provincii ecologice și cunoștințele obținute din ele pot fi utilizate pentru o înțelegere ecologică ulterioară, pentru a facilita compararea modelelor și, eventual, a îmbunătăți monitorizarea ecosistemelor marine.
Provincia ecologică și AEP identificate prin metoda SAGE se bazează pe datele din modelul numeric.Prin definiție, modelul numeric este o structură simplificată, încercând să surprindă esența sistemului țintă, iar modelele diferite vor avea o distribuție diferită a planctonului.Modelul numeric utilizat în acest studiu nu poate surprinde pe deplin unele dintre modelele observate (de exemplu, în estimările Chl pentru regiunea ecuatorială și Oceanul de Sud).Doar o mică parte din diversitatea oceanului real este capturată, iar mezo și sub-mezoscalele nu pot fi rezolvate, ceea ce poate afecta fluxul de nutrienți și structura comunității la scară mai mică.În ciuda acestor deficiențe, se dovedește că AEP este foarte util pentru a ajuta la înțelegerea modelelor complexe.Evaluând unde se găsesc provincii ecologice similare, AEP oferă un potențial instrument de comparare a modelelor numerice.Modelul numeric actual surprinde modelul general al concentrației fitoplanctonului de teledetecție Chl-a și distribuția mărimii și grupului funcțional a planctonului (Nota S1 și Figura S1) (2, 32).
După cum arată linia de contur de 0,1 mgChl-a/m-3, AEP este împărțită în zonă oligotrofă și zonă mezotrofă (Figura S1B): AEP B, C, D, E, F și G sunt zone oligotrofe, iar zonele rămase sunt situat Superior Chl-a.AEP arată o anumită corespondență cu provincia Longhurst (Figura S3A), de exemplu, Oceanul de Sud și Pacificul ecuatorial.În unele regiuni, AEP acoperă mai multe regiuni Longhurst și invers.Deoarece intenția de delimitare a provinciilor în această zonă și Longhurst este diferită, se așteaptă să existe diferențe.Mai multe AEP dintr-o provincie Longhurst indică faptul că anumite zone cu biogeochimie similară pot avea structuri ecosistemice foarte diferite.AEP prezintă o anumită corespondență cu stările fizice, așa cum a fost dezvăluit folosind învățarea nesupravegheată (19), cum ar fi în stările de apariție ridicată (de exemplu, Oceanul de Sud și Pacificul ecuatorial; Figura S3, C și D).Aceste corespondențe indică faptul că structura comunității planctonului este puternic influențată de dinamica oceanului.În zone precum Atlanticul de Nord, AEP traversează provincii fizice.Mecanismul care provoacă aceste diferențe poate include procese precum transportul prafului, care poate duce la programe nutriționale complet diferite chiar și în condiții fizice similare.
Ministerul Ecologiei și AEP au subliniat că utilizarea numai a Chl nu poate identifica componentele ecologice, așa cum a realizat deja comunitatea ecologiei marine.Acest lucru se observă în AEP cu biomasă similară, dar compoziție ecologică semnificativ diferită (cum ar fi D și E).În schimb, AEP-urile precum D și K au biomasă foarte diferită, dar compoziție ecologică similară.AEP subliniază că relația dintre biomasă, compoziția ecologică și abundența zooplanctonului este complexă.De exemplu, deși AEP J iese în evidență în ceea ce privește fitoplanctonul și biomasa planctonului, AEP și L au biomasă de plancton similară, dar A are o abundență mai mare de plancton.AEP subliniază că biomasa fitoplanctonului (sau Chl) nu poate fi utilizată pentru a prezice biomasa zooplanctonului.Zooplanctonul este fundamentul lanțului alimentar piscicol, iar estimările mai precise pot duce la o mai bună gestionare a resurselor.Viitorii sateliți colorați marini [de exemplu, PACE (plancton, aerosoli, nor și ecosistem marin)] pot fi mai bine poziționați pentru a ajuta la estimarea structurii comunitare a fitoplanctonului.Utilizarea predicției AEP poate facilita estimarea zooplanctonului din spațiu.Metode precum SAGE, cuplate cu noile tehnologii și din ce în ce mai multe date de teren disponibile pentru studiile de adevăr la sol (cum ar fi Tara și cercetarea ulterioară), pot face împreună un pas către monitorizarea sănătății ecosistemului prin satelit.
Metoda SAGE oferă o modalitate convenabilă de a evalua unele mecanisme care controlează caracteristicile provinciei, cum ar fi biomasa/Chl, producția primară netă și structura comunității.De exemplu, cantitatea relativă de diatomee este stabilită de un dezechilibru în furnizarea de Si, N, P și Fe în raport cu cerințele stoichiometrice fitoplanctonului.La o rată de aprovizionare echilibrată, comunitatea este dominată de diatomee (L).Când rata de aprovizionare este dezechilibrată (adică, oferta de siliciu este mai mică decât cererea de nutrienți a diatomeelor), diatomeele reprezintă doar o mică parte a cotei (K).Când aportul de Fe și P depășește aportul de N (de exemplu, E și H), bacteriile diazotrofe vor crește viguros.Prin contextul oferit de AEP, explorarea mecanismelor de control va deveni mai utilă.
Eco-Provincia și AEP sunt zone cu structuri comunitare similare.Seria temporală dintr-o anumită locație dintr-o provincie ecologică sau AEP poate fi privită ca punct de referință și poate reprezenta aria acoperită de provincia ecologică sau AEP.Stațiile de monitorizare la fața locului pe termen lung oferă astfel de serii cronologice.Seturile de date in situ pe termen lung vor continua să joace un rol incalculabil.Din perspectiva monitorizării structurii comunității, metoda SAGE poate fi văzută ca o modalitate de a ajuta la determinarea celei mai utile locații a noilor site-uri.De exemplu, seria temporală din evaluarea pe termen lung a habitatului oligotrofic (ALOHA) se află în AEP B a zonei oligotrofice (Figura 5C, eticheta 2).Deoarece ALOHA este aproape de limita altui AEP, seria temporală poate să nu fie reprezentativă pentru întreaga zonă, așa cum sa sugerat anterior (33).În același AEP B, seria temporală SEATS (Serie temporală din Asia de Sud-Est) este situată în sud-vestul Taiwanului (34), mai departe de granițele altor AEP-uri (Figura 5C, eticheta 1) și poate fi folosită ca o locație mai bună pentru monitorizare. AEPB.Seria temporală BATS (Bermuda Atlantic Time Series Study) (Figura 5C, eticheta 4) din AEPC este foarte aproape de granița dintre AEP C și F, ceea ce indică faptul că monitorizarea AEP C folosind seriile temporale BATS poate fi direct problematică.Stația P din AEP J (Figura 5C, eticheta 3) este departe de limita AEP, deci este mai reprezentativă.Eco-Provincie și AEP pot ajuta la stabilirea unui cadru de monitorizare adecvat pentru evaluarea schimbărilor globale, deoarece permisiunea provinciilor de a evalua unde eșantionarea la fața locului poate oferi informații cheie.Metoda SAGE poate fi dezvoltată în continuare pentru a fi aplicată datelor climatice pentru a evalua variabilitatea care economisește timp.
Succesul metodei SAGE este obținut prin aplicarea atentă a metodelor științei datelor/ML și a cunoștințelor specifice domeniului.În mod specific, t-SNE este utilizat pentru a efectua reducerea dimensionalității, care păstrează structura de covarianță a datelor cu dimensiuni mari și facilitează vizualizarea topologiei de covarianță.Datele sunt aranjate sub formă de dungi și covarianțe (Figura 2A), indicând faptul că măsurile bazate pe distanță (cum ar fi mediile K) nu sunt adecvate, deoarece folosesc de obicei o distribuție de bază Gaussiană (circulară) (discută în Nota S2). .Metoda DBSCAN este potrivită pentru orice topologie de covarianță.Atâta timp cât acordați atenție setării parametrilor, poate fi furnizată o identificare fiabilă.Costul de calcul al algoritmului t-SNE este mare, ceea ce limitează aplicarea sa actuală la o cantitate mai mare de date, ceea ce înseamnă că este dificil de aplicat la câmpuri profunde sau care variază în timp.Lucrările privind scalabilitatea t-SNE sunt în desfășurare.Deoarece distanța KL este ușor de paralelizat, algoritmul t-SNE are un potențial bun de extindere în viitor (35).Până în prezent, alte metode promițătoare de reducere a dimensionalității, care pot reduce mai bine dimensiunea, includ tehnici de aproximare și proiecție unificată a varietatii (UMAP), dar evaluarea în contextul datelor oceanului este necesară.Sensul unei scalabilități mai bune este, de exemplu, clasificarea climatelor globale sau a modelelor cu complexitate diferită pe un strat mixt.Zonele care nu reușesc să fie clasificate de SAGE în orice provincie pot fi considerate puncte negre rămase în Figura 2A.Din punct de vedere geografic, aceste zone se află în principal în zone foarte sezoniere, ceea ce sugerează că capturarea provinciilor ecologice care se schimbă în timp va oferi o acoperire mai bună.
Pentru a construi metoda SAGE s-au folosit idei din sisteme complexe/știința datelor, folosind capacitatea de a determina clustere de grupuri funcționale (posibilitatea de a fi foarte aproape într-un spațiu de 11 dimensiuni) și de a determina provincii.Aceste provincii descriu volume specifice în spațiul nostru de fază 3D t-SNE.În mod similar, partea Poincaré poate fi utilizată pentru a evalua „volumul” spațiului de stare ocupat de traiectorie pentru a determina comportamentul „normal” sau „haotic” (36).Pentru ieșirea modelului static cu 11 dimensiuni, volumul ocupat după ce datele sunt convertite într-un spațiu de fază 3D poate fi explicat în mod similar.Relația dintre aria geografică și aria în spațiul de fază 3D nu este simplă, dar poate fi explicată în termeni de similitudine ecologică.Din acest motiv, este preferată măsura mai convențională a disimilarității BC.
Lucrările viitoare vor reutiliza metoda SAGE pentru datele care se schimbă sezonier pentru a evalua variabilitatea spațială a provinciilor identificate și AEP.Scopul viitor este de a utiliza această metodă pentru a ajuta la determinarea provinciilor care pot fi determinate prin măsurători prin satelit (cum ar fi Chl-a, reflectivitate prin teledetecție și temperatura suprafeței mării).Acest lucru va permite evaluarea prin teledetecție a componentelor ecologice și monitorizarea extrem de flexibilă a provinciilor ecologice și a variabilității acestora.
Scopul acestei cercetări este de a introduce metoda SAGE, care definește o provincie ecologică prin structura sa unică a comunității de plancton.Aici vor fi furnizate informații mai detaliate despre modelul fizic/biogeochimic/ecosistem și selecția parametrilor algoritmilor t-SNE și DBSCAN.
Componentele fizice ale modelului provin din estimarea circulației oceanice și a climei [ECCOv4;(37) estimarea stării globale descrisă de (38).Rezoluția nominală a estimării stării este 1/5.Metoda celor mai mici pătrate cu metoda multiplicatorului lagrangian este utilizată pentru a obține condițiile inițiale și limită și parametrii interni ai modelului ajustați prin observare, generând astfel un model de ciclu general MIT cu rulare liberă (MITgcm) (39), modelul După optimizare, rezultatele pot fi urmărit și observat.
Biogeochimia/ecosistemul are o descriere mai completă (adică ecuații și valori ale parametrilor) în (2).Modelul surprinde circulația C, N, P, Si și Fe prin iazuri anorganice și organice.Versiunea folosită aici include 35 de specii de fitoplancton: 2 specii de microprocariote și 2 specii de microeucariote (potrivite pentru medii cu conținut scăzut de nutrienți), 5 specii de Cryptomonas sphaeroides (cu acoperire cu carbonat de calciu), 5 specii de diazoniu (Poate fixa azotul, deci nu este limitat) disponibilitatea azotului anorganic dizolvat), 11 diatomee (formând un înveliș silicios), 10 flagelate mixt-vegetative (pot fotosintetiza și mânca alt plancton) și 16 zooplancton (pască pe alt plancton).Acestea sunt numite „grupuri funcționale biogeochimice” deoarece au efecte diferite asupra biogeochimiei marine (40, 41) și sunt adesea folosite în observații și studii de model.În acest model, fiecare grup funcțional este compus din mai multe planctoni de dimensiuni diferite, cu un diametru sferic echivalent între 0,6 și 2500 μm.
Parametrii care afectează creșterea, pășunatul și scufundarea fitoplanctonului sunt legați de mărime și există diferențe specifice între cele șase grupuri funcționale ale fitoplanctonului (32).În ciuda cadrelor fizice diferite, rezultatele celor 51 de componente de plancton ale modelului au fost utilizate într-un număr de studii recente (42-44).
Din 1992 până în 2011, modelul de cuplare fizic/biogeochimic/ecosistem a funcționat timp de 20 de ani.Rezultatele modelului includ biomasa planctonului, concentrația de nutrienți și rata de aprovizionare cu nutrienți (DIN, PO4, Si și Fe).În acest studiu, media pe 20 de ani a acestor ieșiri a fost utilizată ca intrare a provinciei ecologice.Chl, distribuția biomasei planctonului și concentrația de nutrienți și distribuția grupurilor funcționale sunt comparate cu observațiile satelitare și in situ [a se vedea (2, 44), Nota S1 și figura.S1 la S3].
Pentru metoda SAGE, principala sursă de aleatorie provine din pasul t-SNE.Aleatoria împiedică repetabilitatea, ceea ce înseamnă că rezultatele nu sunt de încredere.Metoda SAGE testează riguros robustețea determinând un set de parametri ai t-SNE și DBSCAN, care pot identifica în mod constant clusterele atunci când sunt repetate.Determinarea „perplexității” parametrului t-SNE poate fi înțeleasă ca determinarea gradului în care maparea de la dimensiunile înalte la cele mici ar trebui să respecte caracteristicile locale sau globale ale datelor.A ajuns la confuzia de 400 și 300 de iterații.
Pentru algoritmul de clustering DBSCAN, trebuie determinată dimensiunea minimă și metrica distanței a punctelor de date din cluster.Numărul minim este determinat sub îndrumarea experților.Aceste cunoștințe știu ce se potrivește cadrului și rezoluției actuale de modelare numerică.Numărul minim este 100. Se poate lua în considerare o valoare minimă mai mare (mai mică decât <135 înainte ca limita superioară a verdelui să devină mai lărgită), dar nu poate înlocui metoda de agregare bazată pe diferența BC.Gradul de conectare (Figura 6A) este utilizat pentru a seta parametrul ϵ, care este favorabil unei acoperiri mai mari (Figura 6B).Conectivitatea este definită ca numărul compus de clustere și este sensibilă la parametrul ϵ.Conectivitatea mai scăzută indică o potrivire insuficientă, grupând artificial regiunile.Conectivitatea ridicată indică supraadaptare.Supraadaptarea este, de asemenea, problematică, deoarece arată că presupunerile inițiale aleatorii pot duce la rezultate nereproductibile.Între aceste două extreme, o creștere bruscă (numită de obicei „cot”) indică cel mai bun ϵ.În Figura 6A, vedeți o creștere accentuată a zonei platoului (galben, > 200 de clustere), urmată de o scădere bruscă (verde, 100 de clustere), până la aproximativ 130, înconjurată de foarte puține clustere (albastru, <60 de clustere) ).În cel puțin 100 de zone albastre, fie un cluster domină întregul ocean (ϵ <0,42), fie cea mai mare parte a oceanului nu este clasificată și este considerată zgomot (ϵ> 0,99).Zona galbenă are o distribuție a clusterelor foarte variabilă, nereproductibilă.Pe măsură ce ϵ scade, zgomotul crește.Zona verde în creștere bruscă se numește cot.Aceasta este o regiune optimă.Deși probabilitatea t-SNE este utilizată, diferența BC în cadrul provinciei poate fi totuși utilizată pentru a determina gruparea fiabilă.Folosind Figura 6 (A și B), setați ϵ la 0,39.Cu cât este mai mare numărul minim, cu atât este mai mică probabilitatea de a atinge ϵ care permite o clasificare fiabilă și cu atât este mai mare zona verde cu o valoare mai mare de 135. Mărirea acestei zone indică faptul că cotul va fi mai greu de găsit sau nu va fi mai greu de găsit. existent.
După setarea parametrilor t-SNE, numărul total de clustere găsite va fi utilizat ca măsură a conectivității (A) și procentul de date alocate clusterului (B).Punctul roșu indică cea mai bună combinație de acoperire și conectivitate.Numărul minim este stabilit în funcție de numărul minim legat de ecologie.
Pentru materiale suplimentare pentru acest articol, vă rugăm să consultați http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
Acesta este un articol cu ​​acces deschis distribuit în conformitate cu termenii licenței de atribuire Creative Commons.Articolul permite utilizarea, distribuirea și reproducerea fără restricții pe orice mediu, cu condiția ca opera originală să fie citată în mod corespunzător.
Notă: Vă cerem doar să furnizați adresa dvs. de e-mail, astfel încât persoana pe care o recomandați paginii să știe că doriți ca ea să vadă e-mailul și că nu este spam.Nu vom captura nicio adresă de e-mail.
Această întrebare este folosită pentru a testa dacă sunteți un vizitator și pentru a preveni trimiterea automată de spam.
Ministerul Global al Ecologiei Marinei este hotărât să rezolve probleme complexe și folosește ML nesupravegheat pentru a explora structurile comunității.
Ministerul Global al Ecologiei Marinei este hotărât să rezolve probleme complexe și folosește ML nesupravegheat pentru a explora structurile comunității.


Ora postării: 12-ian-2021