มีการเสนอวิธีการเรียนรู้แบบไม่มีผู้ดูแลเพื่อกำหนดจังหวัดในระบบนิเวศทางทะเลทั่วโลก (จังหวัดเชิงนิเวศ) โดยพิจารณาจากโครงสร้างชุมชนแพลงก์ตอนและข้อมูลการไหลของสารอาหารวิธีการบูรณาการจังหวัดทางนิเวศน์อย่างเป็นระบบ (SAGE) สามารถระบุจังหวัดทางนิเวศในแบบจำลองระบบนิเวศที่ไม่เชิงเส้นสูงได้เพื่อปรับให้เข้ากับความแปรปรวนร่วมที่ไม่ใช่แบบเกาส์เซียนของข้อมูล SAGE จะใช้การฝังเพื่อนบ้านแบบสุ่ม (t-SNE) เพื่อลดมิติข้อมูลด้วยความช่วยเหลือของการประยุกต์ใช้สัญญาณรบกวนตามอัลกอริทึมการจัดกลุ่มเชิงพื้นที่ (DBSCAN) ตามความหนาแน่น ทำให้สามารถระบุจังหวัดในระบบนิเวศได้มากกว่าหนึ่งร้อยจังหวัดการใช้แผนที่การเชื่อมต่อที่มีความแตกต่างทางนิเวศวิทยาเป็นตัววัดระยะทาง จังหวัดทางนิเวศน์รวมที่แข็งแกร่ง (AEP) ได้รับการกำหนดอย่างเป็นกลางผ่านจังหวัดทางนิเวศที่ซ้อนกันการใช้ AEP มีการสำรวจการควบคุมอัตราการจัดหาสารอาหารในโครงสร้างชุมชนจังหวัดเชิงนิเวศและ AEP มีเอกลักษณ์เฉพาะตัวและสามารถช่วยตีความแบบจำลองได้พวกเขาสามารถอำนวยความสะดวกในการเปรียบเทียบระหว่างแบบจำลองและอาจเพิ่มความเข้าใจและการตรวจสอบระบบนิเวศทางทะเล
จังหวัดเป็นภูมิภาคที่มีการจัดระเบียบชีวภูมิศาสตร์ที่ซับซ้อนในทะเลหรือบนบกให้เป็นพื้นที่ที่สอดคล้องกันและมีความหมาย (1)จังหวัดเหล่านี้มีความสำคัญมากในการเปรียบเทียบและเปรียบเทียบสถานที่ การระบุลักษณะการสังเกต การติดตาม และการป้องกันการโต้ตอบที่ซับซ้อนและไม่เชิงเส้นที่สร้างจังหวัดเหล่านี้ทำให้วิธีการเรียนรู้ของเครื่องแบบไม่มีผู้ดูแล (ML) เหมาะสมมากสำหรับการกำหนดจังหวัดอย่างเป็นกลาง เนื่องจากความแปรปรวนร่วมในข้อมูลมีความซับซ้อนและไม่ใช่แบบเกาส์เซียนในที่นี้ มีการเสนอวิธี ML ซึ่งระบุจังหวัดทางนิเวศน์วิทยาทางทะเลที่เป็นเอกลักษณ์ (จังหวัดเชิงนิเวศ) อย่างเป็นระบบจากแบบจำลองทางกายภาพ/ระบบนิเวศสามมิติ (3D) ระดับโลกของดาร์วิน (2)คำว่า “ไม่ซ้ำกัน” ใช้เพื่อระบุว่าพื้นที่ที่ระบุไม่ทับซ้อนกับพื้นที่อื่นๆ เพียงพอวิธีนี้เรียกว่าวิธี System Integrated Ecoological Province (SAGE)เพื่อดำเนินการจำแนกประเภทที่เป็นประโยชน์ วิธีการอัลกอริทึมจำเป็นต้องอนุญาต (i) การจำแนกประเภททั่วโลกและ (ii) การวิเคราะห์หลายระดับที่สามารถซ้อนกัน/รวมในอวกาศและเวลา (3)ในการวิจัยนี้ ได้มีการเสนอวิธี SAGE เป็นครั้งแรก และได้มีการหารือเกี่ยวกับจังหวัดทางนิเวศที่ระบุจังหวัดเชิงนิเวศสามารถส่งเสริมความเข้าใจในปัจจัยที่ควบคุมโครงสร้างชุมชน ให้ข้อมูลเชิงลึกที่เป็นประโยชน์ในการติดตามกลยุทธ์ และช่วยติดตามการเปลี่ยนแปลงในระบบนิเวศ
จังหวัดภาคพื้นดินมักจำแนกตามความคล้ายคลึงกันในสภาพภูมิอากาศ (ปริมาณฝนและอุณหภูมิ) ดิน พืชพรรณ และสัตว์ต่างๆ และใช้สำหรับการจัดการเสริม การวิจัยความหลากหลายทางชีวภาพ และการควบคุมโรค (1, 4)จังหวัดทางทะเลนั้นยากกว่าที่จะกำหนดสิ่งมีชีวิตส่วนใหญ่มีขนาดเล็กมากและมีขอบเขตของของเหลวลองเฮิร์สต์ และคณะ(5) จัดให้เป็นหนึ่งในการจำแนกประเภทระดับโลกครั้งแรกของกระทรวงสมุทรศาสตร์โดยพิจารณาจากสภาพแวดล้อมคำจำกัดความของจังหวัด "ลองเฮิร์สต์" เหล่านี้รวมถึงตัวแปรต่างๆ เช่น อัตราการผสม การแบ่งชั้น และการฉายรังสี ตลอดจนประสบการณ์ที่กว้างขวางของลองเฮิร์สต์ในฐานะนักสมุทรศาสตร์ทางทะเล ซึ่งมีเงื่อนไขที่สำคัญอื่นๆ สำหรับระบบนิเวศทางทะเลLonghurst ถูกนำมาใช้อย่างกว้างขวาง เช่น ในการประเมินการผลิตขั้นปฐมภูมิและการไหลของคาร์บอน ช่วยเหลือการประมง และวางแผนกิจกรรมการสังเกตการณ์ในแหล่งกำเนิด (5-9)เพื่อกำหนดจังหวัดอย่างเป็นกลางมากขึ้น จึงมีการใช้วิธีการต่างๆ เช่น ตรรกะคลุมเครือ และการจัดกลุ่ม/สถิติในระดับภูมิภาคที่ไม่ได้รับการดูแล (9-14)วัตถุประสงค์ของวิธีการดังกล่าวคือการระบุโครงสร้างที่มีความหมายซึ่งสามารถระบุจังหวัดในข้อมูลเชิงสังเกตที่มีอยู่ตัวอย่างเช่น จังหวัดทางทะเลแบบไดนามิก (12) ใช้แผนที่ที่จัดระเบียบตัวเองเพื่อลดเสียงรบกวน และใช้การจัดกลุ่มแบบลำดับชั้น (ตามต้นไม้) เพื่อกำหนดผลิตภัณฑ์สีทางทะเลที่ได้มาจากดาวเทียมระดับภูมิภาค [คลอโรฟิลล์ a (Chl-a) ความสูงของเส้นฟลูออเรสเซนซ์ปกติและ อินทรียวัตถุที่ละลายด้วยสี] และสนามกายภาพ (อุณหภูมิและความเค็มของพื้นผิวน้ำทะเล ภูมิประเทศแบบไดนามิกสัมบูรณ์ และน้ำแข็งในทะเล)
โครงสร้างชุมชนของแพลงก์ตอนเป็นเรื่องที่น่ากังวลเนื่องจากระบบนิเวศของแพลงก์ตอนมีอิทธิพลอย่างมากต่อระดับสารอาหารที่สูงขึ้น การดูดซับคาร์บอน และสภาพอากาศอย่างไรก็ตาม การกำหนดจังหวัดทางนิเวศทั่วโลกตามโครงสร้างชุมชนแพลงก์ตอนยังคงเป็นเป้าหมายที่ท้าทายและยากจะเข้าใจยากดาวเทียมสีทางทะเลอาจให้ข้อมูลเชิงลึกเกี่ยวกับการจำแนกแพลงก์ตอนพืชแบบหยาบหรือแนะนำข้อดีของกลุ่มฟังก์ชัน (15) แต่ในปัจจุบันไม่สามารถให้ข้อมูลโดยละเอียดเกี่ยวกับโครงสร้างชุมชนได้การสำรวจล่าสุด [เช่น ทาราโอเชี่ยน (16)] ให้การวัดโครงสร้างชุมชนที่ไม่เคยมีมาก่อนปัจจุบันมีการสังเกตการณ์ในแหล่งกำเนิดเพียงกระจัดกระจายในระดับโลก (17)การศึกษาก่อนหน้านี้ได้กำหนด "จังหวัดทางชีวเคมี" เป็นส่วนใหญ่ (12, 14, 18) โดยอิงจากการพิจารณาความคล้ายคลึงทางชีวเคมี (เช่น การผลิตขั้นต้น Chl และแสงที่มีอยู่)ในที่นี้ แบบจำลองเชิงตัวเลขถูกใช้เพื่อส่งออก [ดาร์วิน(2)] และจังหวัดทางนิเวศถูกกำหนดตามโครงสร้างของชุมชนและการไหลของสารอาหารแบบจำลองเชิงตัวเลขที่ใช้ในการศึกษานี้มีความครอบคลุมทั่วโลก และสามารถเปรียบเทียบกับข้อมูลภาคสนามที่มีอยู่ (17) และสาขาการสำรวจระยะไกล (หมายเหตุ S1)ข้อมูลแบบจำลองเชิงตัวเลขที่ใช้ในการศึกษานี้มีข้อดีของการครอบคลุมทั่วโลกระบบนิเวศจำลองประกอบด้วยแพลงก์ตอนพืช 35 ชนิด และแพลงก์ตอนสัตว์ 16 ชนิด (โปรดดูวัสดุและวิธีการ)ประเภทของแพลงก์ตอนแบบจำลองโต้ตอบแบบไม่เชิงเส้นกับโครงสร้างความแปรปรวนร่วมแบบไม่ใช่เกาส์เซียน ดังนั้นวิธีการวินิจฉัยแบบง่าย ๆ จึงไม่เหมาะสำหรับการระบุรูปแบบที่เป็นเอกลักษณ์และสอดคล้องกันในโครงสร้างชุมชนที่เกิดขึ้นใหม่วิธีการ SAGE ที่แนะนำในที่นี้เป็นวิธีใหม่ในการตรวจสอบผลลัพธ์ของแบบจำลองดาร์วินที่ซับซ้อน
ความสามารถในการเปลี่ยนแปลงอันทรงพลังของวิทยาศาสตร์ข้อมูล/เทคโนโลยี ML ช่วยให้เกิดโซลูชันแบบจำลองที่ซับซ้อนอย่างท่วมท้น เพื่อเปิดเผยโครงสร้างที่ซับซ้อนแต่แข็งแกร่งในความแปรปรวนร่วมของข้อมูลวิธีการที่มีประสิทธิภาพถูกกำหนดให้เป็นวิธีการที่สามารถสร้างผลลัพธ์ได้อย่างเที่ยงตรงภายในช่วงข้อผิดพลาดที่กำหนดแม้ในระบบที่เรียบง่าย การกำหนดรูปแบบและสัญญาณที่แข็งแกร่งอาจเป็นเรื่องท้าทายจนกว่าจะมีการกำหนดเหตุผลที่นำไปสู่รูปแบบที่สังเกตได้ ความซับซ้อนที่เกิดขึ้นอาจดูเหมือนซับซ้อน/ยากต่อการแก้ไขกระบวนการสำคัญในการกำหนดองค์ประกอบของระบบนิเวศนั้นมีลักษณะไม่เชิงเส้นการมีอยู่ของการโต้ตอบแบบไม่เชิงเส้นสามารถสร้างความสับสนในการจำแนกประเภทที่เข้มงวด ดังนั้นจึงจำเป็นต้องหลีกเลี่ยงวิธีการที่สร้างสมมติฐานที่ชัดเจนเกี่ยวกับการกระจายทางสถิติพื้นฐานของความแปรปรวนร่วมของข้อมูลข้อมูลมิติสูงและไม่เป็นเชิงเส้นเป็นเรื่องปกติในสมุทรศาสตร์และอาจมีโครงสร้างความแปรปรวนร่วมที่มีโทโพโลยีที่ไม่ใช่แบบเกาส์เซียนที่ซับซ้อนแม้ว่าข้อมูลที่มีโครงสร้างความแปรปรวนร่วมที่ไม่ใช่แบบเกาส์เซียนอาจเป็นอุปสรรคต่อการจำแนกประเภทที่เข้มงวด แต่วิธี SAGE นั้นแปลกใหม่เพราะได้รับการออกแบบมาเพื่อระบุคลัสเตอร์ที่มีโทโพโลยีตามอำเภอใจ
เป้าหมายของวิธี SAGE คือการระบุรูปแบบที่เกิดขึ้นใหม่อย่างเป็นกลางซึ่งอาจช่วยให้เข้าใจระบบนิเวศได้มากขึ้นตามขั้นตอนการทำงานแบบคลัสเตอร์คล้ายกับ (19) ตัวแปรฟลักซ์ทางนิเวศวิทยาและสารอาหารจะถูกนำมาใช้เพื่อกำหนดคลัสเตอร์เดียวในข้อมูลที่เรียกว่าจังหวัดทางนิเวศน์วิธี SAGE ที่เสนอในการศึกษานี้ (รูปที่ 1) ขั้นแรกจะลดขนาดมิติจาก 55 เป็น 11 มิติโดยการรวมกลุ่มฟังก์ชันแพลงก์ตอนที่กำหนดนิรนัย (ดูวัสดุและวิธีการ)เมื่อใช้วิธีการฝังเพื่อนบ้านแบบ t-random (t-SNE) ขนาดจะลดลงอีกโดยการฉายความน่าจะเป็นในพื้นที่ 3 มิติการจัดกลุ่มแบบไม่ได้รับการดูแลสามารถระบุพื้นที่ปิดทางนิเวศวิทยาได้ [การจัดกลุ่มเชิงพื้นที่ตามความหนาแน่น (DBSCAN) สำหรับการใช้งานแบบอิงเสียงรบกวน]ทั้ง t-SNE และ DBSCAN สามารถใช้ได้กับข้อมูลแบบจำลองเชิงตัวเลขของระบบนิเวศที่ไม่ใช่เชิงเส้นโดยธรรมชาติจากนั้นจึงจำลองจังหวัดทางนิเวศน์ที่เกิดขึ้นบนโลกอีกครั้งมีการระบุจังหวัดทางนิเวศน์ที่ไม่ซ้ำกันมากกว่าหนึ่งร้อยแห่งซึ่งเหมาะสำหรับการวิจัยในระดับภูมิภาคเพื่อพิจารณาแบบจำลองระบบนิเวศที่สอดคล้องกันทั่วโลก วิธีการ SAGE ใช้เพื่อรวมจังหวัดทางนิเวศให้เป็นจังหวัดทางนิเวศรวม (AEP) เพื่อปรับปรุงประสิทธิภาพของจังหวัดทางนิเวศระดับการรวมกลุ่ม (เรียกว่า "ความซับซ้อน") สามารถปรับระดับของรายละเอียดที่ต้องการได้กำหนดความซับซ้อนขั้นต่ำของ AEP ที่แข็งแกร่งจุดเน้นของการคัดเลือกคือวิธีการของ SAGE และการสำรวจกรณี AEP ที่มีความซับซ้อนน้อยที่สุดเพื่อกำหนดการควบคุมโครงสร้างชุมชนฉุกเฉินจากนั้นสามารถวิเคราะห์รูปแบบเพื่อให้ข้อมูลเชิงลึกทางนิเวศวิทยาวิธีการที่แนะนำในที่นี้ยังสามารถนำไปใช้ในการเปรียบเทียบแบบจำลองได้อย่างกว้างขวางมากขึ้น เช่น โดยการประเมินตำแหน่งของจังหวัดทางนิเวศที่คล้ายกันซึ่งพบในแบบจำลองต่างๆ เพื่อเน้นความแตกต่างและความเหมือนเพื่อเปรียบเทียบแบบจำลอง
(A) แผนผังของขั้นตอนการทำงานเพื่อกำหนดจังหวัดทางนิเวศการใช้ผลรวมในกลุ่มฟังก์ชันเพื่อลดข้อมูล 55 มิติดั้งเดิมเป็นเอาต์พุตแบบจำลอง 11 มิติ รวมถึงชีวมวลของแพลงก์ตอนเชิงฟังก์ชัน/สารอาหาร 7 รายการ และอัตราการจัดหาสารอาหาร 4 อัตรามูลค่าเล็กน้อยและพื้นที่ปกคลุมน้ำแข็งที่ทนทานข้อมูลได้รับมาตรฐานและเป็นมาตรฐานให้ข้อมูล 11 มิติแก่อัลกอริทึม t-SNE เพื่อเน้นชุดคุณลักษณะที่คล้ายกันทางสถิติDBSCAN จะเลือกคลัสเตอร์อย่างระมัดระวังเพื่อตั้งค่าพารามิเตอร์สุดท้ายฉายข้อมูลกลับไปเป็นการฉายภาพละติจูด/ลองจิจูดโปรดทราบว่ากระบวนการนี้ทำซ้ำ 10 ครั้ง เนื่องจากอาจเกิดการสุ่มเล็กน้อยโดยการใช้ t-SNE(B) อธิบายวิธีการรับ AEP โดยทำซ้ำขั้นตอนการทำงานใน (A) 10 ครั้งสำหรับการใช้งานทั้ง 10 ครั้ง เมทริกซ์ความแตกต่างของ Bray-Curtis (BC) ระหว่างจังหวัดถูกกำหนดโดยพิจารณาจากชีวมวลของแพลงก์ตอนพืช 51 ชนิดหาค่าความแตกต่าง BC ระหว่างจังหวัดต่างๆ ตั้งแต่ความซับซ้อน 1 AEP ไปจนถึงความซับซ้อนทั้งหมด 115 เกณฑ์มาตรฐาน BC กำหนดโดย Longhurst Province
วิธี SAGE ใช้ผลลัพธ์ของแบบจำลองตัวเลขทางกายภาพ/ระบบนิเวศ 3 มิติทั่วโลกเพื่อกำหนดจังหวัดทางนิเวศน์ [ดาร์วิน (2);ดูวัสดุและวิธีการ และหมายเหตุ S1]ส่วนประกอบของระบบนิเวศประกอบด้วยแพลงก์ตอนพืช 35 ชนิด และแพลงก์ตอนสัตว์ 16 ชนิด โดยมีกลุ่มการทำงานที่กำหนดไว้ล่วงหน้า 7 กลุ่ม ได้แก่ โปรคาริโอตและยูคาริโอตที่ปรับให้เหมาะกับสภาพแวดล้อมที่มีสารอาหารต่ำ coccidia ที่มีการเคลือบแคลเซียมคาร์บอเนต และการตรึงไนโตรเจนหนัก สารอาหารไนโตรเจน (มักจะหายไป สารอาหารที่สำคัญ) ซึ่งมีชั้นทรายปกคลุม สามารถสร้างการสังเคราะห์ด้วยแสงของแพลงก์ตอนอื่นๆ และแทะเล็มสารอาหารผสมแฟลเจลเลตและผู้เลี้ยงแพลงก์ตอนสัตว์ได้ช่วงขนาดคือเส้นผ่านศูนย์กลางทรงกลมเทียบเท่า 0.6 ถึง 2500μmการกระจายแบบจำลองของขนาดแพลงก์ตอนพืชและการจัดกลุ่มฟังก์ชันจะจับลักษณะโดยรวมที่เห็นจากการสังเกตการณ์ด้วยดาวเทียมและการสังเกตการณ์ในแหล่งกำเนิด (ดูรูปที่ S1 ถึง S3)ความคล้ายคลึงกันระหว่างแบบจำลองเชิงตัวเลขกับมหาสมุทรที่สังเกตได้บ่งชี้ว่าจังหวัดที่กำหนดโดยแบบจำลองอาจนำไปใช้กับมหาสมุทรในแหล่งกำเนิดได้โปรดทราบว่าแบบจำลองนี้บันทึกเฉพาะแพลงก์ตอนพืชที่หลากหลาย และเฉพาะช่วงแรงทางกายภาพและเคมีบางอย่างของมหาสมุทรในแหล่งกำเนิดเท่านั้นวิธีการ SAGE ช่วยให้ผู้คนเข้าใจกลไกการควบคุมโครงสร้างชุมชนต้นแบบในระดับภูมิภาคได้ดียิ่งขึ้น
ด้วยการรวมเฉพาะผลรวมของมวลชีวมวลพื้นผิว (ด้วยเวลาเฉลี่ย 20 ปี) ในกลุ่มฟังก์ชันแพลงก์ตอนแต่ละกลุ่ม ขนาดของข้อมูลจึงสามารถลดลงได้หลังจากการศึกษาก่อนหน้านี้แสดงให้เห็นถึงบทบาทสำคัญของพวกเขาในการกำหนดโครงสร้างชุมชน นอกจากนี้ยังรวมเอาคำศัพท์ที่มาจากแหล่งพื้นผิวสำหรับการไหลของสารอาหาร (การจัดหาไนโตรเจน เหล็ก ฟอสเฟต และกรดซิลิซิก) [เช่น (20, 21)]การรวมกลุ่มฟังก์ชันช่วยลดปัญหาจาก 55 (แพลงก์ตอน 51 รายการและฟลักซ์สารอาหาร 4 รายการ) เป็น 11 มิติในการศึกษาเบื้องต้นนี้ เนื่องจากข้อจำกัดด้านการคำนวณที่กำหนดโดยอัลกอริธึม จึงไม่พิจารณาความแปรปรวนของความลึกและเวลา
วิธี SAGE สามารถระบุความสัมพันธ์ที่สำคัญระหว่างกระบวนการไม่เชิงเส้นและคุณลักษณะสำคัญของอันตรกิริยาระหว่างชีวมวลกลุ่มฟังก์ชันและฟลักซ์สารอาหารการใช้ข้อมูล 11 มิติตามวิธีการเรียนทางไกลแบบยุคลิด (เช่น K-means) ไม่สามารถรับจังหวัดที่เชื่อถือได้และทำซ้ำได้ (19, 22)เนื่องจากไม่พบรูปร่างแบบเกาส์เซียนในการกระจายพื้นฐานของความแปรปรวนร่วมขององค์ประกอบสำคัญที่กำหนดจังหวัดทางนิเวศน์ค่า K-mean ของเซลล์โวโรนอย (เส้นตรง) ไม่สามารถรักษาการกระจายตัวแบบพื้นฐานที่ไม่ใช่แบบเกาส์เซียนได้
ชีวมวลของหมู่ฟังก์ชันแพลงก์ตอนเจ็ดกลุ่มและฟลักซ์สารอาหารสี่ชนิดก่อให้เกิดเวกเตอร์ x ขนาด 11 มิติดังนั้น x คือสนามเวกเตอร์บนตารางโมเดล โดยที่แต่ละองค์ประกอบ xi แทนเวกเตอร์ 11 มิติที่กำหนดบนตารางแนวนอนของโมเดลแต่ละดัชนี i ระบุจุดตารางบนทรงกลมโดยไม่ซ้ำกัน โดยที่ (lon, lat) = (ϕi, θi)หากชีวมวลของหน่วยกริดแบบจำลองน้อยกว่า 1.2×10-3 มก. Chl/m3 หรืออัตราการครอบคลุมของน้ำแข็งเกิน 70% บันทึกข้อมูลชีวมวลจะถูกนำมาใช้และละทิ้งข้อมูลได้รับการทำให้เป็นมาตรฐานและเป็นมาตรฐาน ดังนั้นข้อมูลทั้งหมดจึงอยู่ในช่วง [0 ถึง 1] ค่าเฉลี่ยจะถูกลบออกและปรับขนาดตามความแปรปรวนของหน่วยสิ่งนี้ทำเพื่อให้คุณสมบัติ (ชีวมวลและการไหลของสารอาหาร) ไม่ได้ถูกจำกัดด้วยความแตกต่างในช่วงของค่าที่เป็นไปได้การจัดกลุ่มควรจับความสัมพันธ์การเปลี่ยนแปลงจากระยะห่างความน่าจะเป็นที่สำคัญระหว่างจุดสนใจมากกว่าระยะทางทางภูมิศาสตร์การหาปริมาณระยะทางเหล่านี้จะทำให้เกิดลักษณะสำคัญขึ้น ในขณะที่รายละเอียดที่ไม่จำเป็นจะถูกละทิ้งไปจากมุมมองทางนิเวศวิทยา สิ่งนี้มีความจำเป็นเนื่องจากแพลงก์ตอนพืชบางชนิดที่มีชีวมวลน้อยอาจมีผลกระทบทางชีวชีวเคมีมากกว่า เช่น การตรึงไนโตรเจนโดยแบคทีเรียไดโซโทรฟิคเมื่อสร้างมาตรฐานและทำให้ข้อมูลเป็นมาตรฐาน ตัวแปรร่วมประเภทนี้จะถูกเน้น
ด้วยการเน้นความใกล้ชิดของคุณลักษณะในพื้นที่มิติสูงในการแสดงมิติต่ำ อัลกอริธึม t-SNE จึงถูกใช้เพื่อทำให้บริเวณที่คล้ายกันที่มีอยู่มีความชัดเจนมากขึ้นงานก่อนหน้านี้มุ่งเป้าไปที่การสร้างโครงข่ายประสาทเทียมเชิงลึกสำหรับแอปพลิเคชันการสำรวจระยะไกลที่ใช้ t-SNE ซึ่งพิสูจน์ให้เห็นถึงทักษะในการแยกคุณสมบัติหลัก (23)นี่เป็นขั้นตอนที่จำเป็นในการระบุการจัดกลุ่มที่แข็งแกร่งในข้อมูลคุณลักษณะในขณะเดียวกันก็หลีกเลี่ยงโซลูชันที่ไม่มาบรรจบกัน (หมายเหตุ S2)การใช้เคอร์เนลเกาส์เซียน t-SNE จะรักษาคุณสมบัติทางสถิติของข้อมูลโดยการแมปวัตถุมิติสูงแต่ละชิ้นกับจุดในพื้นที่เฟส 3 มิติ ดังนั้นจึงมั่นใจได้ว่าความน่าจะเป็นของวัตถุที่คล้ายกันในทิศทางสูงและต่ำจะมีสูงในทิศทางสูง ปริภูมิมิติ (24)เมื่อพิจารณาชุดของวัตถุมิติสูง N x1,…,xN อัลกอริธึม t-SNE จะลดลงโดยการลดความแตกต่างของ Kullback-Leibler (KL) (25) ให้เหลือน้อยที่สุดความแตกต่างของ KL คือการวัดความแตกต่างระหว่างการแจกแจงความน่าจะเป็นจากการแจกแจงความน่าจะเป็นอ้างอิงครั้งที่สอง และสามารถประเมินความเป็นไปได้ของความสัมพันธ์ระหว่างการแสดงมิติต่ำของคุณลักษณะมิติสูงได้อย่างมีประสิทธิภาพถ้า xi เป็นวัตถุที่ i ในปริภูมิ N มิติ xj คือวัตถุที่ j ในปริภูมิ N มิติ yi คือวัตถุที่ i ในปริภูมิมิติต่ำ และ yj คือวัตถุที่ j ในระดับต่ำ -ปริภูมิมิติ จากนั้น t -SNE จะนิยามความน่าจะเป็นที่คล้ายคลึงกัน ppj∣i = exp(-∥xi-xj∥2/2σi2)∑k≠iexp(-∥xi-xk∥2/2σi2) และสำหรับชุดการลดขนาด q∣j = (1+ ∥ yi-yj∥2)-1∑k≠i(1 +∥yj-yk∥2)-1
รูปที่ 2A แสดงให้เห็นถึงผลกระทบของการลดเวกเตอร์มวลชีวภาพและฟลักซ์สารอาหารของการรวมกัน 11 มิติให้เป็น 3 มิติแรงจูงใจในการใช้ t-SNE สามารถเปรียบเทียบได้กับแรงจูงใจของการวิเคราะห์องค์ประกอบหลัก (PCA) ซึ่งใช้คุณลักษณะความแปรปรวนเพื่อเน้นพื้นที่/คุณลักษณะของข้อมูล ซึ่งจะช่วยลดมิติข้อมูลพบว่าวิธี t-SNE นั้นเหนือกว่า PCA ในการให้ผลลัพธ์ที่เชื่อถือได้และทำซ้ำได้สำหรับกระทรวงสิ่งแวดล้อม (ดูหมายเหตุ S2)อาจเป็นเพราะข้อสันนิษฐานมุมตั้งฉากของ PCA ไม่เหมาะสำหรับการระบุปฏิสัมพันธ์ที่สำคัญระหว่างคุณสมบัติเชิงโต้ตอบที่ไม่เป็นเชิงเส้นสูง เนื่องจาก PCA มุ่งเน้นไปที่โครงสร้างความแปรปรวนร่วมเชิงเส้น (26)การใช้ข้อมูลการสำรวจระยะไกล Lunga และคณะ(27) อธิบายวิธีการใช้วิธี SNE เพื่อเน้นคุณลักษณะสเปกตรัมที่ซับซ้อนและไม่เชิงเส้นซึ่งเบี่ยงเบนไปจากการแจกแจงแบบเกาส์เซียน
(A) อัตราการจัดหาสารอาหารแบบจำลอง ชีวมวลกลุ่มฟังก์ชันแพลงก์ตอนพืชและแพลงก์ตอนสัตว์ที่วาดโดยอัลกอริทึม t-SNE และระบายสีตามจังหวัดโดยใช้ DBSCANแต่ละจุดแสดงถึงจุดในพื้นที่มิติสูง ดังแสดงในรูปที่ 6B จุดส่วนใหญ่จะถูกจับเพลาอ้างอิงถึง “t-SNE” ขนาด 1, 2 และ 3 (B) การฉายภาพทางภูมิศาสตร์ของจังหวัดที่พบโดย DBSCAN บนตารางละติจูด-ลองจิจูดของแหล่งกำเนิดสีควรถือเป็นสีใดก็ได้ แต่ควรสอดคล้องกับ (A)
จุดในแผนกระจาย t-SNE ในรูปที่ 2A สัมพันธ์กับละติจูดและลองจิจูดตามลำดับหากจุดสองจุดในรูปที่ 2A อยู่ใกล้กัน อาจเป็นเพราะชีวมวลและการไหลของสารอาหารมีความคล้ายคลึงกัน ไม่ใช่เพราะความใกล้ชิดทางภูมิศาสตร์สีในรูปที่ 2A คือกระจุกที่ค้นพบโดยใช้วิธี DBSCAN (28)เมื่อมองหาการสังเกตที่หนาแน่น อัลกอริธึม DBSCAN จะใช้ระยะห่างในการแสดงภาพ 3 มิติระหว่างจุดต่างๆ (ϵ = 0.39 สำหรับข้อมูลเกี่ยวกับตัวเลือกนี้ โปรดดูวัสดุและวิธีการ) และต้องใช้จำนวนจุดที่คล้ายกันเพื่อกำหนดคลัสเตอร์ (ที่นี่ 100 คะแนน โปรดดูด้านบน)เมธอด DBSCAN ไม่ได้ตั้งสมมติฐานใดๆ เกี่ยวกับรูปร่างหรือจำนวนคลัสเตอร์ในข้อมูล ดังที่แสดงด้านล่าง:
3) สำหรับจุดทั้งหมดที่ระบุว่าอยู่ในระยะห่างภายใน ให้ทำซ้ำขั้นตอนที่ 2 ซ้ำๆ เพื่อกำหนดขอบเขตของคลัสเตอร์หากจำนวนคะแนนมากกว่าค่าต่ำสุดที่ตั้งไว้ ก็จะถูกกำหนดให้เป็นกลุ่ม
ข้อมูลที่ไม่ตรงตามสมาชิกคลัสเตอร์ขั้นต่ำและการวัดระยะทาง ϵ ถือเป็น "สัญญาณรบกวน" และไม่ได้กำหนดสีDBSCAN เป็นอัลกอริธึมที่รวดเร็วและปรับขนาดได้พร้อมประสิทธิภาพ O(n2) ในกรณีที่แย่ที่สุดสำหรับการวิเคราะห์ในปัจจุบันนั้นไม่ใช่การสุ่มจริงๆจำนวนคะแนนขั้นต่ำจะถูกกำหนดโดยการประเมินของผู้เชี่ยวชาญหลังจากปรับระยะห่างแล้ว ผลลัพธ์ที่ได้ไม่เสถียรพอในช่วง data±10ระยะห่างนี้กำหนดโดยใช้การเชื่อมต่อ (รูปที่ 6A) และเปอร์เซ็นต์ความครอบคลุมของมหาสมุทร (รูปที่ 6B)การเชื่อมต่อถูกกำหนดให้เป็นจำนวนรวมของคลัสเตอร์และไวต่อพารามิเตอร์ ϵการเชื่อมต่อที่ต่ำกว่าแสดงว่ามีอุปกรณ์เชื่อมต่อไม่เพียงพอ โดยจัดกลุ่มบริเวณต่างๆ เข้าด้วยกันโดยไม่ตั้งใจการเชื่อมต่อที่สูงแสดงว่ามีการติดตั้งมากเกินไปเป็นไปได้ที่จะใช้ค่าต่ำสุดที่สูงกว่า แต่หากค่าต่ำสุดเกิน ca ก็เป็นไปไม่ได้ที่จะบรรลุวิธีแก้ปัญหาที่เชื่อถือได้135 (สำหรับรายละเอียดเพิ่มเติม ดูวัสดุและวิธีการ)
กระจุก 115 กระจุกที่ระบุในรูปที่ 2A จะถูกฉายกลับลงมาบนพื้นโลกในรูปที่ 2Bแต่ละสีสอดคล้องกับการผสมผสานกันอย่างลงตัวของปัจจัยทางชีวชีวเคมีและระบบนิเวศที่ระบุโดย DBSCANเมื่อกำหนดกลุ่มแล้ว การเชื่อมโยงของแต่ละจุดในรูปที่ 2A กับละติจูดและลองจิจูดเฉพาะจะถูกนำมาใช้เพื่อฉายภาพกลุ่มกลับไปยังพื้นที่ทางภูมิศาสตร์รูปที่ 2B แสดงสิ่งนี้ด้วยสีคลัสเตอร์เดียวกันกับรูปที่ 2Aสีที่คล้ายกันไม่ควรตีความว่าเป็นความคล้ายคลึงกันทางนิเวศวิทยา เนื่องจากสีเหล่านี้ถูกกำหนดตามลำดับที่อัลกอริธึมค้นพบกลุ่ม
พื้นที่ในรูปที่ 2B สามารถมีคุณภาพคล้ายคลึงกับพื้นที่ที่กำหนดไว้ในทางกายภาพและ/หรือชีวธรณีเคมีของมหาสมุทรตัวอย่างเช่น กระจุกในมหาสมุทรใต้มีโซนสมมาตร โดยมีกระแสน้ำวนโอลิโกโทรฟิคปรากฏขึ้น และการเปลี่ยนผ่านอย่างรวดเร็วบ่งบอกถึงอิทธิพลของลมค้าขายตัวอย่างเช่น ในแถบเส้นศูนย์สูตรแปซิฟิก จะเห็นภูมิภาคต่างๆ ที่เกี่ยวข้องกับการเพิ่มขึ้น
เพื่อให้เข้าใจสภาพแวดล้อมทางนิเวศของจังหวัดเชิงนิเวศ จึงมีการใช้การเปลี่ยนแปลงของดัชนีความแตกต่าง Bray-Curtis (BC) (29) เพื่อประเมินระบบนิเวศในคลัสเตอร์ตัวบ่งชี้ BC เป็นข้อมูลทางสถิติที่ใช้ในการวัดความแตกต่างในโครงสร้างชุมชนระหว่างสถานที่สองแห่งที่ต่างกันการวัดค่า BC ใช้ได้กับชีวมวลของแพลงก์ตอนพืชและแพลงก์ตอนสัตว์ 51 ชนิด BCninj = 1-2CninjSni + Snj
BCninj อ้างถึงความคล้ายคลึงกันระหว่างชุดค่าผสม ni และชุดค่าผสม nj โดยที่ Cninj คือค่าต่ำสุดของชีวมวลประเภทเดียวที่มีอยู่ในทั้งชุดค่าผสม ni และ nj และ Sni แสดงถึงผลรวมของชีวมวลทั้งหมดที่มีอยู่ในชุดค่าผสม ni และ Snjความแตกต่าง BC นั้นคล้ายคลึงกับการวัดระยะทาง แต่ทำงานในพื้นที่ที่ไม่ใช่แบบยุคลิด ซึ่งมีแนวโน้มว่าจะเหมาะสมกับข้อมูลทางนิเวศวิทยาและการตีความมากกว่า
สำหรับแต่ละคลัสเตอร์ที่ระบุในรูปที่ 2B สามารถประเมินความคล้ายคลึงกันของ BC ภายในจังหวัดและระหว่างจังหวัดได้ความแตกต่าง BC ภายในจังหวัด หมายถึงความแตกต่างระหว่างค่าเฉลี่ยของจังหวัดและแต่ละจุดในจังหวัดความแตกต่างระหว่างจังหวัด BC หมายถึงความคล้ายคลึงกันระหว่างจังหวัดหนึ่งกับจังหวัดอื่นรูปที่ 3A แสดงเมทริกซ์ BC แบบสมมาตร (0, สีดำ: สอดคล้องกันอย่างสมบูรณ์; 1, สีขาว: ไม่เหมือนกันโดยสิ้นเชิง)แต่ละบรรทัดในกราฟจะแสดงรูปแบบในข้อมูลรูปที่ 3B แสดงความสำคัญทางภูมิศาสตร์ของผลลัพธ์ของ BC ในรูปที่ 3A สำหรับแต่ละจังหวัดสำหรับจังหวัดในพื้นที่ที่โภชนาการต่ำและพื้นที่ที่มีสารอาหารต่ำ รูปที่ 3B แสดงให้เห็นว่าความสมมาตรของพื้นที่ขนาดใหญ่รอบเส้นศูนย์สูตรและมหาสมุทรอินเดียโดยพื้นฐานแล้วจะคล้ายคลึงกัน แต่พื้นที่ละติจูดที่สูงกว่าและพื้นที่ที่ยกขึ้นนั้นแตกต่างกันอย่างมีนัยสำคัญ
(A) ระดับความแตกต่างของ BC ประเมินสำหรับแต่ละจังหวัดโดยพิจารณาจากค่าเฉลี่ยพื้นผิวโลกเฉลี่ย 20 ปีทั่วโลกที่ 51 แพลงก์ตอนสังเกตความสมมาตรที่คาดหวังของค่าต่างๆ(B) การฉายภาพเชิงพื้นที่ของคอลัมน์ (หรือแถว)สำหรับจังหวัดที่อยู่ในวงกลม dystrophic มีการประเมินการกระจายทั่วโลกของการวัดความคล้ายคลึงกันของ BC และประเมินค่าเฉลี่ย 20 ปีทั่วโลกสีดำ (BC = 0) หมายถึงพื้นที่เดียวกัน และสีขาว (BC = 1) หมายถึงไม่มีความคล้ายคลึงกัน
รูปที่ 4A แสดงให้เห็นความแตกต่างใน BC ภายในแต่ละจังหวัดในรูปที่ 2Bเมื่อพิจารณาโดยใช้ผลรวมเฉลี่ยของพื้นที่เฉลี่ยในกลุ่ม และพิจารณาความแตกต่างระหว่าง BC และค่าเฉลี่ยของจุดกริดแต่ละจุดในจังหวัด แสดงให้เห็นว่าวิธี SAGE สามารถแยกสายพันธุ์ 51 ชนิดได้ดีตามความคล้ายคลึงทางนิเวศวิทยา ประเภทของ ข้อมูลโมเดลความแตกต่าง BC ของคลัสเตอร์โดยเฉลี่ยโดยรวมของทั้ง 51 ประเภทคือ 0.102±0.0049
(A, B และ D) ความแตกต่าง BC ภายในจังหวัดได้รับการประเมินเป็นความแตกต่าง BC เฉลี่ยระหว่างชุมชนจุดกริดแต่ละแห่งและจังหวัดโดยเฉลี่ย และความซับซ้อนจะไม่ลดลง(2) ส่วนต่าง BC ภายในจังหวัดโดยเฉลี่ยทั่วโลกคือ 0.227±0.117นี่คือเกณฑ์มาตรฐานของการจำแนกประเภทตามแรงจูงใจในระบบนิเวศที่เสนอโดยงานนี้ [เส้นสีเขียวใน (C)](C) ความแตกต่าง BC ภายในจังหวัดโดยเฉลี่ย: เส้นสีดำแสดงถึงความแตกต่าง BC ภายในจังหวัดที่มีความซับซ้อนเพิ่มขึ้น2σมาจากกระบวนการระบุจังหวัดเชิงนิเวศซ้ำ 10 ครั้งสำหรับความซับซ้อนโดยรวมของจังหวัดที่ค้นพบโดย DBSCAN นั้น (A) แสดงให้เห็นว่าความแตกต่าง BC ในจังหวัดคือ 0.099 และการจำแนกความซับซ้อนที่เสนอโดย (C) คือ 12 ส่งผลให้ความแตกต่าง BC เท่ากับ 0.200 ในจังหวัดตามภาพที่แสดง(ง)
ในรูปที่ 4B ชีวมวลของแพลงก์ตอน 51 ชนิดถูกนำมาใช้เพื่อแสดงค่าความแตกต่าง BC ที่เท่ากันในจังหวัดลองเฮิร์สต์ค่าเฉลี่ยโดยรวมของแต่ละจังหวัดคือ 0.227 และค่าเบี่ยงเบนมาตรฐานของจุดตารางโดยอ้างอิงกับความแตกต่างในจังหวัด BC คือ 0.046ซึ่งมีขนาดใหญ่กว่าคลัสเตอร์ที่ระบุในรูปที่ 1Bแทนที่จะใช้ผลรวมของกลุ่มฟังก์ชันทั้ง 7 กลุ่ม ค่าเฉลี่ยความแตกต่างระหว่าง BC ระหว่างฤดูกาลในลองเฮิร์สต์ก็เพิ่มขึ้นเป็น 0.232
แผนที่จังหวัดเชิงนิเวศทั่วโลกให้รายละเอียดที่ซับซ้อนของการโต้ตอบทางนิเวศน์ที่เป็นเอกลักษณ์ และมีการปรับปรุงโดยใช้โครงสร้างระบบนิเวศทั้งหมดของจังหวัด Longhurstกระทรวงนิเวศวิทยาคาดว่าจะให้ข้อมูลเชิงลึกเกี่ยวกับกระบวนการควบคุมระบบนิเวศแบบจำลองเชิงตัวเลข และข้อมูลเชิงลึกนี้จะช่วยในการสำรวจงานภาคสนามเพื่อวัตถุประสงค์ของการวิจัยนี้ ไม่สามารถแสดงจังหวัดได้เกินร้อยจังหวัดอย่างสมบูรณ์ส่วนถัดไปจะแนะนำวิธีการ SAGE ที่สรุปจังหวัด
วัตถุประสงค์ประการหนึ่งของจังหวัดคือการส่งเสริมความเข้าใจเกี่ยวกับที่ตั้งและการบริหารจัดการของจังหวัดเพื่อระบุสถานการณ์ฉุกเฉิน วิธีการในรูปที่ 1B แสดงให้เห็นการทำรังของจังหวัดที่มีความคล้ายคลึงทางนิเวศน์จังหวัดเชิงนิเวศจัดกลุ่มเข้าด้วยกันตามความคล้ายคลึงกันของระบบนิเวศ และการจัดกลุ่มจังหวัดดังกล่าวเรียกว่า AEPตั้งค่า “ความซับซ้อน” ที่ปรับได้ตามจำนวนจังหวัดทั้งหมดที่จะพิจารณาคำว่า "ความซับซ้อน" ถูกใช้เพราะว่าสามารถปรับระดับคุณลักษณะฉุกเฉินได้เพื่อกำหนดการรวมกลุ่มที่มีความหมาย จึงใช้ค่าเฉลี่ยความแตกต่าง BC ภายในจังหวัดที่ 0.227 จากลองเฮิร์สต์เป็นเกณฑ์มาตรฐานหากต่ำกว่าเกณฑ์มาตรฐานนี้ จังหวัดที่รวมกันจะไม่ถือว่ามีประโยชน์อีกต่อไป
ดังแสดงในรูปที่ 3B จังหวัดทางนิเวศทั่วโลกมีความสอดคล้องกันจากการใช้ความแตกต่าง BC ระหว่างจังหวัด จะเห็นได้ว่าการกำหนดค่าบางอย่างเป็นเรื่อง "ทั่วไป" มากได้รับแรงบันดาลใจจากวิธีทางพันธุศาสตร์และทฤษฎีกราฟ "กราฟที่เชื่อมต่อ" ใช้เพื่อจัดเรียงจังหวัด > 100 จังหวัดตามจังหวัดที่คล้ายคลึงกันมากที่สุดตัวชี้วัด "การเชื่อมต่อ" ที่นี่ถูกกำหนดโดยใช้ความแตกต่างระหว่าง BC ระหว่างจังหวัด (30)จำนวนจังหวัดที่มีพื้นที่มากขึ้นในการจำแนกประเภท> 100 จังหวัดสามารถเรียกในที่นี้ว่ามีความซับซ้อนAEP เป็นผลิตภัณฑ์ที่จัดหมวดหมู่จังหวัดมากกว่า 100 จังหวัดให้เป็นจังหวัดทางนิเวศวิทยาที่โดดเด่นที่สุด/ใกล้เคียงที่สุดแต่ละจังหวัดนิเวศน์ได้รับมอบหมายให้เป็นจังหวัดนิเวศน์ที่มีความโดดเด่น/มีความเชื่อมโยงสูงซึ่งมีความคล้ายคลึงกับจังหวัดเหล่านี้มากที่สุดการรวมกลุ่มนี้กำหนดโดยความแตกต่างของ BC ช่วยให้สามารถเข้าใกล้ระบบนิเวศทั่วโลกได้
ความซับซ้อนที่เลือกสามารถเป็นค่าใดๆ ได้ตั้งแต่ 1 ถึงความซับซ้อนที่สมบูรณ์ของรูปที่2เอที่ความซับซ้อนต่ำกว่า AEP อาจลดลงเนื่องจากขั้นตอนการลดขนาดความน่าจะเป็น (t-SNE)ความเสื่อมหมายถึงจังหวัดทางนิเวศสามารถกำหนดให้กับ AEP ที่แตกต่างกันระหว่างการวนซ้ำ ดังนั้นจึงเปลี่ยนพื้นที่ทางภูมิศาสตร์ที่ครอบคลุมรูปที่ 4C แสดงให้เห็นการแพร่กระจายของความแตกต่าง BC ภายในจังหวัดใน AEP ของความซับซ้อนที่เพิ่มขึ้นในการนำไปใช้งาน 10 ครั้ง (ภาพประกอบในรูปที่ 1B)ในรูปที่ 4C 2σ (พื้นที่สีน้ำเงิน) คือการวัดความเสื่อมในการใช้งาน 10 ครั้ง และเส้นสีเขียวแสดงถึงเกณฑ์มาตรฐาน Longhurstข้อเท็จจริงได้พิสูจน์แล้วว่าความซับซ้อนของ 12 สามารถรักษาความแตกต่างของ BC ในจังหวัดให้ต่ำกว่าเกณฑ์มาตรฐาน Longhurst ในการใช้งานทั้งหมด และรักษาการย่อยสลาย2σที่ค่อนข้างเล็กโดยสรุป ความซับซ้อนขั้นต่ำที่แนะนำคือ 12 AEP และความแตกต่าง BC ภายในจังหวัดโดยเฉลี่ยที่ประเมินโดยใช้แพลงก์ตอน 51 ชนิดคือ 0.198±0.013 ดังแสดงในรูปที่ 4Dเมื่อใช้ผลรวมของกลุ่มฟังก์ชันแพลงก์ตอนเจ็ดกลุ่ม ค่า BC เฉลี่ยภายในจังหวัดคือ 2σ แทนที่จะเป็น 0.198±0.004การเปรียบเทียบระหว่างค่า BC ที่คำนวณกับชีวมวลรวมของกลุ่มการทำงานทั้ง 7 กลุ่ม หรือชีวมวลของแพลงก์ตอนทั้ง 51 ชนิด แสดงให้เห็นว่า แม้ว่าวิธี SAGE จะใช้ได้กับสถานการณ์ 51 มิติ แต่ก็ใช้สำหรับมวลชีวมวลรวมของกลุ่มการทำงานทั้ง 7 กลุ่ม สำหรับการฝึกอบรม
ขึ้นอยู่กับวัตถุประสงค์ของการวิจัยใด ๆ สามารถพิจารณาระดับความซับซ้อนที่แตกต่างกันได้การศึกษาระดับภูมิภาคอาจต้องการความซับซ้อนเต็มรูปแบบ (เช่น ทั้งหมด 115 จังหวัด)เพื่อเป็นตัวอย่างและเพื่อความชัดเจน ให้พิจารณาความซับซ้อนที่แนะนำขั้นต่ำที่ 12
ตามตัวอย่างของอรรถประโยชน์ของวิธี SAGE มีการใช้ AEP 12 AEP ที่มีความซับซ้อนขั้นต่ำ 12 เพื่อสำรวจการควบคุมโครงสร้างชุมชนฉุกเฉินรูปที่ 5 แสดงให้เห็นข้อมูลเชิงลึกทางนิเวศวิทยาที่จัดกลุ่มตาม AEP (จาก A ถึง L): ในปริมาณสารสัมพันธ์ของ Redfield ขอบเขตทางภูมิศาสตร์ (รูปที่ 5C) องค์ประกอบชีวมวลกลุ่มเชิงหน้าที่ (รูปที่ 5A) และการจัดหาสารอาหาร (รูปที่ 5B) ดำเนินการโดย N Zoomedอัตราส่วน (N:Si:P:Fe, 1:1:16:16×103) จะแสดงขึ้นสำหรับแผงหลัง P คูณด้วย 16 และ Fe คูณด้วย 16×103 ดังนั้นกราฟแท่งจึงเทียบเท่ากับความต้องการทางโภชนาการของแพลงก์ตอนพืช
จังหวัดแบ่งออกเป็น 12 AEPs A ถึง L. (A) ชีวมวล (mgC/m3) ของระบบนิเวศใน 12 จังหวัด(B) อัตราการไหลของสารอาหารของไนโตรเจนอนินทรีย์ที่ละลาย (N), เหล็ก (Fe), ฟอสเฟต (P) และกรดซิลิซิก (Si) (มิลลิโมล/ลูกบาศก์เมตรต่อปี)Fe และ P คูณด้วย 16 และ 16×103 ตามลำดับ เพื่อให้แถบดังกล่าวได้มาตรฐานตามข้อกำหนดปริมาณสัมพันธ์ของแพลงก์ตอนพืช(C) สังเกตความแตกต่างระหว่างบริเวณขั้วโลก พายุไซโคลนกึ่งเขตร้อน และพื้นที่ตามฤดูกาล/ที่เพิ่มขึ้นที่สำคัญสถานีตรวจสอบมีการทำเครื่องหมายดังนี้: 1, ที่นั่ง;2, อะโลฮ่า;3 สถานีพี;และ 4 ค้างคาว
AEP ที่ระบุไม่ซ้ำกันมีความสมมาตรบางส่วนรอบเส้นศูนย์สูตรในมหาสมุทรแอตแลนติกและมหาสมุทรแปซิฟิก และมีพื้นที่คล้ายกันแต่ขยายใหญ่ขึ้นในมหาสมุทรอินเดียAEP บางแห่งครอบคลุมพื้นที่ทางฝั่งตะวันตกของทวีปที่เกี่ยวข้องกับทางขึ้นกระแสน้ำรอบขั้วโลกใต้ถือเป็นลักษณะโซนขนาดใหญ่พายุไซโคลนกึ่งเขตร้อนเป็นอนุกรมที่ซับซ้อนของ AEP แบบโอลิโกโทรฟิคในจังหวัดเหล่านี้ รูปแบบที่คุ้นเคยของความแตกต่างชีวมวลระหว่าง vortices oligotrophic ที่ครอบงำด้วยแพลงก์ตอนและบริเวณขั้วโลกที่อุดมด้วยไดอะตอมนั้นชัดเจน
AEP ที่มีมวลชีวภาพรวมของแพลงก์ตอนพืชใกล้เคียงกันมากอาจมีโครงสร้างชุมชนที่แตกต่างกันมากและครอบคลุมพื้นที่ทางภูมิศาสตร์ที่แตกต่างกัน เช่น D, H และ K ซึ่งมีมวลชีวภาพรวมของแพลงก์ตอนพืชใกล้เคียงกันAEP H ส่วนใหญ่อยู่ในมหาสมุทรอินเดียบริเวณเส้นศูนย์สูตร และมีแบคทีเรียไดโซโทรฟิกมากกว่าAEP D พบได้ในแอ่งหลายแห่ง แต่มีความโดดเด่นเป็นพิเศษในมหาสมุทรแปซิฟิกบริเวณรอบพื้นที่ที่ให้ผลตอบแทนสูงบริเวณเส้นศูนย์สูตรที่ยกขึ้นรูปทรงของจังหวัดในมหาสมุทรแปซิฟิกแห่งนี้ชวนให้นึกถึงรถไฟคลื่นดาวเคราะห์มีไดโซแบคทีเรียน้อยใน AEP D และมีกรวยมากกว่าเมื่อเปรียบเทียบกับอีกสองจังหวัดอื่น AEP K จะพบได้เฉพาะบนที่ราบสูงของมหาสมุทรอาร์กติกเท่านั้น และมีไดอะตอมมากกว่าและแพลงก์ตอนน้อยกว่าเป็นที่น่าสังเกตว่าปริมาณแพลงก์ตอนในทั้งสามภูมิภาคนี้แตกต่างกันมากเช่นกันในหมู่พวกเขา ความอุดมสมบูรณ์ของแพลงก์ตอนของ AEP K ค่อนข้างต่ำ ในขณะที่ของ AEP D และ H ค่อนข้างสูงดังนั้น แม้จะมีชีวมวล (และคล้ายกับ Chl-a) จังหวัดเหล่านี้จึงค่อนข้างแตกต่างกัน การทดสอบจังหวัดที่ใช้ Chl อาจไม่สามารถจับความแตกต่างเหล่านี้ได้
เห็นได้ชัดว่า AEP บางตัวที่มีชีวมวลแตกต่างกันมากอาจมีความคล้ายคลึงกันในแง่ของโครงสร้างชุมชนแพลงก์ตอนพืชตัวอย่างเช่น สิ่งนี้สามารถมองเห็นได้ใน AEP D และ E ซึ่งอยู่ใกล้กัน และในมหาสมุทรแปซิฟิก AEP E นั้นอยู่ใกล้กับ AEPJ ที่มีประสิทธิผลสูงในทำนองเดียวกัน ไม่มีการเชื่อมโยงที่ชัดเจนระหว่างชีวมวลแพลงก์ตอนพืชกับความอุดมสมบูรณ์ของแพลงก์ตอนสัตว์
AEP สามารถเข้าใจได้ในแง่ของสารอาหารที่ได้รับ (รูปที่ 5B)ไดอะตอมมีอยู่เฉพาะเมื่อมีกรดซิลิซิกเพียงพอเท่านั้นโดยทั่วไป ยิ่งกรดซิลิซิกมีปริมาณมากเท่าใด มวลชีวภาพของไดอะตอมก็จะยิ่งสูงขึ้นตามไปด้วยไดอะตอมสามารถเห็นได้ใน AEP A, J, K และ L อัตราส่วนของชีวมวลไดอะตอมที่สัมพันธ์กับแพลงก์ตอนพืชอื่น ๆ จะถูกกำหนดโดย N, P และ Fe ที่ให้สัมพันธ์กับความต้องการของไดอะตอมตัวอย่างเช่น AEP L ถูกครอบงำโดยไดอะตอมเมื่อเทียบกับสารอาหารอื่นๆ Si มีปริมาณมากที่สุดในทางตรงกันข้าม แม้ว่าผลผลิตจะสูงกว่า แต่ AEP J ก็มีไดอะตอมน้อยกว่าและมีซิลิคอนน้อยกว่า (ทั้งหมดและสัมพันธ์กับสารอาหารอื่นๆ)
แบคทีเรีย Diazonium มีความสามารถในการตรึงไนโตรเจน แต่เติบโตช้า (31)พวกมันอยู่ร่วมกับแพลงก์ตอนพืชอื่น ๆ โดยที่ธาตุเหล็กและฟอสฟอรัสมีมากเกินไปเมื่อเทียบกับความต้องการสารอาหารที่ไม่ใช่ไดโซเนียม (20, 21)เป็นที่น่าสังเกตว่าชีวมวลไดโซโทรฟิคค่อนข้างสูง และอุปทานของ Fe และ P นั้นค่อนข้างมากเมื่อเทียบกับอุปทานของ N ด้วยวิธีนี้ แม้ว่าชีวมวลทั้งหมดใน AEP J จะสูงกว่า แต่ชีวมวลไดอะโซเนียมใน AEP H ก็คือ ใหญ่กว่านั้นใน J โปรดทราบว่า AEP J และ H นั้นแตกต่างกันทางภูมิศาสตร์มาก และ H ตั้งอยู่ในมหาสมุทรอินเดียเส้นศูนย์สูตร
หากโครงสร้างระบบนิเวศที่เป็นเอกลักษณ์ไม่แบ่งออกเป็นจังหวัด ข้อมูลเชิงลึกที่ได้รับจากแบบจำลองที่ซับซ้อนต่ำสุดของ AEP ทั้ง 12 รูปแบบจะไม่ชัดเจนนักAEP ที่สร้างโดย SAGE ช่วยให้การเปรียบเทียบข้อมูลที่ซับซ้อนและมิติสูงจากแบบจำลองระบบนิเวศเป็นไปอย่างสอดคล้องและพร้อมกันAEP เน้นย้ำอย่างมีประสิทธิภาพว่าเหตุใด Chl จึงไม่ใช่วิธีที่ดีและเป็นทางเลือกในการกำหนดโครงสร้างชุมชนหรือความอุดมสมบูรณ์ของแพลงก์ตอนสัตว์ในระดับสารอาหารที่สูงขึ้นการวิเคราะห์รายละเอียดของหัวข้อการวิจัยที่กำลังดำเนินอยู่อยู่นอกเหนือขอบเขตของบทความนี้วิธีการ SAGE มอบวิธีการในการสำรวจกลไกอื่นๆ ในแบบจำลองที่จัดการได้ง่ายกว่าการดูแบบจุดต่อจุด
มีการเสนอวิธีการ SAGE เพื่อช่วยชี้แจงข้อมูลระบบนิเวศที่ซับซ้อนอย่างยิ่งจากแบบจำลองเชิงตัวเลขทางกายภาพ/ชีวธรณีเคมี/ระบบนิเวศทั่วโลกจังหวัดทางนิเวศถูกกำหนดโดยชีวมวลรวมของกลุ่มฟังก์ชันแพลงก์ตอนข้าม การประยุกต์ใช้อัลกอริธึมการลดขนาดความน่าจะเป็นของ t-SNE และการจัดกลุ่มโดยใช้วิธี ML ที่ไม่มีผู้ดูแล DBSCANทฤษฎีกราฟ/ความแตกต่าง BC ระหว่างจังหวัดสำหรับวิธีการซ้อนถูกนำมาใช้เพื่อให้ได้ AEP ที่แข็งแกร่งซึ่งสามารถใช้สำหรับการตีความทั่วโลกในด้านการก่อสร้าง Eco-Province และ AEP มีเอกลักษณ์เฉพาะตัวการซ้อน AEP สามารถปรับเปลี่ยนได้ระหว่างความซับซ้อนทั้งหมดของจังหวัดทางนิเวศเดิม และเกณฑ์ขั้นต่ำที่แนะนำคือ 12 AEPการซ้อนและการกำหนดความซับซ้อนขั้นต่ำของ AEP ถือเป็นขั้นตอนสำคัญ เนื่องจากความน่าจะเป็นที่ t-SNE จะทำให้ AEP มีความซับซ้อน <12วิธีการของ SAGE เป็นแบบสากล และมีความซับซ้อนตั้งแต่> 100 AEP ถึง 12 เพื่อความง่าย ปัจจุบันมุ่งเน้นไปที่ความซับซ้อนของ AEP ทั่วโลก 12 แบบการวิจัยในอนาคต โดยเฉพาะอย่างยิ่งการศึกษาในระดับภูมิภาค อาจพบว่าส่วนย่อยเชิงพื้นที่ขนาดเล็กของจังหวัดเชิงนิเวศทั่วโลกมีประโยชน์ และอาจรวบรวมไว้ในพื้นที่ขนาดเล็กกว่าเพื่อใช้ประโยชน์จากข้อมูลเชิงลึกทางนิเวศวิทยาแบบเดียวกันที่กล่าวถึงในที่นี้โดยให้คำแนะนำว่าจังหวัดเชิงนิเวศน์เหล่านี้และข้อมูลเชิงลึกที่ได้รับจากจังหวัดเหล่านี้สามารถนำไปใช้เพื่อทำความเข้าใจระบบนิเวศเพิ่มเติม อำนวยความสะดวกในการเปรียบเทียบแบบจำลอง และอาจปรับปรุงการติดตามระบบนิเวศทางทะเลได้อย่างไร
จังหวัดทางนิเวศวิทยาและ AEP ที่ระบุโดยวิธี SAGE นั้นขึ้นอยู่กับข้อมูลในรูปแบบตัวเลขตามคำจำกัดความ แบบจำลองเชิงตัวเลขเป็นโครงสร้างที่เรียบง่าย โดยพยายามจับแก่นแท้ของระบบเป้าหมาย และแบบจำลองต่างๆ จะมีการกระจายตัวของแพลงก์ตอนที่แตกต่างกันแบบจำลองเชิงตัวเลขที่ใช้ในการศึกษานี้ไม่สามารถจับรูปแบบที่สังเกตได้บางส่วนได้ครบถ้วน (เช่น ในการประมาณค่า Chl สำหรับบริเวณเส้นศูนย์สูตรและมหาสมุทรใต้)มีเพียงส่วนเล็กๆ ของความหลากหลายในมหาสมุทรที่แท้จริงเท่านั้นที่ถูกจับได้ และเมโซและเมโซสเกลย่อยไม่สามารถแก้ไขได้ ซึ่งอาจส่งผลต่อการไหลของสารอาหารและโครงสร้างชุมชนที่มีขนาดเล็กลงแม้จะมีข้อบกพร่องเหล่านี้ แต่กลับกลายเป็นว่า AEP มีประโยชน์มากในการช่วยให้เข้าใจแบบจำลองที่ซับซ้อนด้วยการประเมินว่าพบจังหวัดทางนิเวศที่คล้ายกันที่ไหน AEP จึงมีเครื่องมือเปรียบเทียบแบบจำลองเชิงตัวเลขที่เป็นไปได้แบบจำลองตัวเลขปัจจุบันจับรูปแบบโดยรวมของความเข้มข้นของแพลงก์ตอนพืช Chl-a จากการสำรวจระยะไกล และการกระจายขนาดแพลงก์ตอนและกลุ่มฟังก์ชัน (หมายเหตุ S1 และรูปที่ S1) (2, 32)
ตามที่แสดงโดยเส้นชั้นความสูง 0.1 mgChl-a/m-3 AEP แบ่งออกเป็นพื้นที่โอลิโกโทรฟิคและพื้นที่มีโซโทรฟิค (รูปที่ S1B): AEP B, C, D, E, F และ G เป็นพื้นที่โอลิโกโทรฟิค และพื้นที่ที่เหลือคือ ตั้งอยู่สูงกว่า Chl-aAEP แสดงความสอดคล้องบางส่วนกับจังหวัดลองเฮิร์สต์ (รูปที่ S3A) เช่น มหาสมุทรใต้และมหาสมุทรแปซิฟิกเส้นศูนย์สูตรในบางภูมิภาค AEP ครอบคลุมภูมิภาค Longhurst หลายภูมิภาค และในทางกลับกันเนื่องจากความตั้งใจในการแบ่งเขตจังหวัดในพื้นที่นี้และลองเฮิร์สต์แตกต่างกันจึงคาดว่าจะมีความแตกต่างกันAEP หลายรายการในจังหวัด Longhurst ระบุว่าบางพื้นที่ที่มีชีวธรณีเคมีคล้ายคลึงกันอาจมีโครงสร้างระบบนิเวศที่แตกต่างกันมากAEP แสดงการโต้ตอบบางอย่างกับสภาวะทางกายภาพ ดังที่เปิดเผยโดยใช้การเรียนรู้แบบไม่มีผู้ดูแล (19) เช่น ในสภาวะที่มีการพองตัวสูง (เช่น มหาสมุทรใต้และมหาสมุทรแปซิฟิกเส้นศูนย์สูตร รูปที่ S3, C และ D)จดหมายโต้ตอบเหล่านี้บ่งชี้ว่าโครงสร้างชุมชนของแพลงก์ตอนได้รับอิทธิพลอย่างมากจากพลวัตของมหาสมุทรในพื้นที่เช่นมหาสมุทรแอตแลนติกเหนือ AEP ลัดเลาะไปตามจังหวัดทางกายภาพกลไกที่ทำให้เกิดความแตกต่างเหล่านี้อาจรวมถึงกระบวนการต่างๆ เช่น การเคลื่อนย้ายฝุ่น ซึ่งสามารถนำไปสู่โปรแกรมโภชนาการที่แตกต่างกันโดยสิ้นเชิงแม้ภายใต้สภาพทางกายภาพที่คล้ายคลึงกัน
กระทรวงนิเวศวิทยาและ AEP ชี้ให้เห็นว่าการใช้ Chl เพียงอย่างเดียวไม่สามารถระบุองค์ประกอบทางนิเวศน์ได้ ดังที่ชุมชนนิเวศวิทยาทางทะเลได้ตระหนักแล้วสิ่งนี้เห็นได้ใน AEP ที่มีชีวมวลคล้ายกัน แต่มีองค์ประกอบทางนิเวศที่แตกต่างกันอย่างมีนัยสำคัญ (เช่น D และ E)ในทางตรงกันข้าม AEP เช่น D และ K มีชีวมวลที่แตกต่างกันมาก แต่มีองค์ประกอบทางนิเวศวิทยาที่คล้ายคลึงกันAEP เน้นย้ำว่าความสัมพันธ์ระหว่างชีวมวล องค์ประกอบทางนิเวศ และความอุดมสมบูรณ์ของแพลงก์ตอนสัตว์นั้นมีความซับซ้อนตัวอย่างเช่น แม้ว่า AEP J จะโดดเด่นในแง่ของแพลงก์ตอนพืชและชีวมวลแพลงก์ตอน แต่ A และ L ของ AEP มีชีวมวลแพลงก์ตอนที่คล้ายกัน แต่ A มีความอุดมสมบูรณ์ของแพลงก์ตอนสูงกว่าAEP เน้นย้ำว่าชีวมวลแพลงก์ตอนพืช (หรือ Chl) ไม่สามารถใช้ในการทำนายมวลชีวภาพของแพลงก์ตอนสัตว์ได้แพลงก์ตอนสัตว์เป็นรากฐานของห่วงโซ่อาหารประมง และการประมาณการที่แม่นยำยิ่งขึ้นอาจนำไปสู่การจัดการทรัพยากรที่ดีขึ้นดาวเทียมสีทางทะเลในอนาคต [เช่น PACE (แพลงก์ตอน ละอองลอย เมฆ และระบบนิเวศทางทะเล)] อาจอยู่ในตำแหน่งที่ดีกว่าเพื่อช่วยประมาณโครงสร้างชุมชนของแพลงก์ตอนพืชการใช้การทำนาย AEP อาจช่วยในการประมาณค่าแพลงก์ตอนสัตว์จากอวกาศได้วิธีการต่างๆ เช่น SAGE ควบคู่ไปกับเทคโนโลยีใหม่ และข้อมูลภาคสนามที่มีมากขึ้นเรื่อยๆ สำหรับการสำรวจความจริงภาคพื้นดิน (เช่น Tara และการวิจัยติดตามผล) สามารถร่วมกันก้าวไปสู่การตรวจสอบสุขภาพของระบบนิเวศผ่านดาวเทียมได้
วิธีการ SAGE เป็นวิธีที่สะดวกในการประเมินกลไกบางอย่างที่ควบคุมคุณลักษณะของจังหวัด เช่น ชีวมวล/Chl การผลิตขั้นต้นสุทธิ และโครงสร้างชุมชนตัวอย่างเช่น จำนวนสัมพัทธ์ของไดอะตอมถูกกำหนดโดยความไม่สมดุลในการจัดหา Si, N, P และ Fe ที่สัมพันธ์กับข้อกำหนดปริมาณสัมพันธ์ของแพลงก์ตอนพืชในอัตราอุปทานที่สมดุล ชุมชนจะถูกครอบงำโดยไดอะตอม (L)เมื่ออัตราการจัดหาไม่สมดุล (นั่นคือ อุปทานของซิลิคอนต่ำกว่าความต้องการสารอาหารของไดอะตอม) ไดอะตอมจะคิดเป็นเพียงส่วนเล็กน้อยเท่านั้น (K)เมื่อปริมาณ Fe และ P เกินปริมาณ N (เช่น E และ H) แบคทีเรียไดโซโทรฟิคจะเติบโตอย่างแข็งแรงด้วยบริบทที่ AEP ระบุไว้ การสำรวจกลไกการควบคุมจะมีประโยชน์มากขึ้น
จังหวัดเชิงนิเวศและ AEP เป็นพื้นที่ที่มีโครงสร้างชุมชนคล้ายคลึงกันอนุกรมเวลาจากสถานที่บางแห่งภายในจังหวัดนิเวศน์หรือ AEP สามารถถือเป็นจุดอ้างอิงและสามารถแสดงถึงพื้นที่ที่ครอบคลุมโดยจังหวัดนิเวศน์หรือ AEPสถานีตรวจสอบในสถานที่ระยะยาวจะมีอนุกรมเวลาดังกล่าวชุดข้อมูลในแหล่งกำเนิดระยะยาวจะยังคงมีบทบาทที่ไม่สามารถคำนวณได้จากมุมมองของการติดตามโครงสร้างชุมชน วิธีการ SAGE ถือเป็นวิธีที่จะช่วยระบุตำแหน่งที่มีประโยชน์ที่สุดของไซต์ใหม่ได้ตัวอย่างเช่น อนุกรมเวลาจากการประเมินแหล่งที่อยู่อาศัยแบบโอลิโกโทรฟิคระยะยาว (ALOHA) อยู่ใน AEP B ของพื้นที่แบบโอลิโกโทรฟิค (รูปที่ 5C ป้ายกำกับ 2)เนื่องจาก ALOHA อยู่ใกล้ขอบเขตของ AEP อื่น อนุกรมเวลาจึงอาจไม่เป็นตัวแทนของพื้นที่ทั้งหมด ตามที่แนะนำไว้ก่อนหน้านี้ (33)ใน AEP B เดียวกัน อนุกรมเวลา SEATS (อนุกรมเวลาเอเชียตะวันออกเฉียงใต้) ตั้งอยู่ทางตะวันตกเฉียงใต้ของไต้หวัน (34) ซึ่งอยู่ห่างจากขอบเขตของ AEP อื่นๆ (รูปที่ 5C ป้ายกำกับ 1) และสามารถใช้เป็นตำแหน่งที่ดีกว่าในการตรวจสอบ เออีพีบี.อนุกรมเวลา BATS (การศึกษาอนุกรมเวลาแอตแลนติกเบอร์มิวดา) (รูปที่ 5C, ป้ายกำกับ 4) ใน AEPC อยู่ใกล้กับขอบเขตระหว่าง AEP C และ F มาก ซึ่งบ่งชี้ว่าการตรวจสอบ AEP C โดยใช้อนุกรมเวลา BATS อาจเป็นปัญหาโดยตรงสถานี P ใน AEP J (รูปที่ 5C ป้าย 3) อยู่ไกลจากขอบเขต AEP ดังนั้นจึงเป็นตัวแทนมากกว่าจังหวัดเชิงนิเวศและ AEP สามารถช่วยสร้างกรอบการติดตามที่เหมาะสมสำหรับการประเมินการเปลี่ยนแปลงทั่วโลก เนื่องจากการอนุญาตของจังหวัดในการประเมินว่าการสุ่มตัวอย่างในสถานที่ใดสามารถให้ข้อมูลเชิงลึกที่สำคัญได้สามารถพัฒนาวิธีการ SAGE เพิ่มเติมเพื่อนำไปใช้กับข้อมูลสภาพภูมิอากาศเพื่อประเมินความแปรปรวนในการประหยัดเวลาได้
ความสำเร็จของวิธี SAGE เกิดขึ้นได้จากการประยุกต์ใช้วิธีวิทยาศาสตร์ข้อมูล/ML และความรู้เฉพาะโดเมนอย่างระมัดระวังโดยเฉพาะอย่างยิ่ง t-SNE ใช้เพื่อลดขนาด ซึ่งรักษาโครงสร้างความแปรปรวนร่วมของข้อมูลมิติสูงและอำนวยความสะดวกในการแสดงภาพโทโพโลยีความแปรปรวนร่วมข้อมูลถูกจัดเรียงในรูปแบบของแถบและความแปรปรวนร่วม (รูปที่ 2A) ซึ่งบ่งชี้ว่าการวัดตามระยะทางล้วนๆ (เช่น K-mean) ไม่เหมาะสม เนื่องจากโดยปกติจะใช้การแจกแจงแบบพื้นฐานแบบเกาส์เซียน (วงกลม) (ตามที่กล่าวไว้ในหมายเหตุ S2) .วิธี DBSCAN เหมาะสำหรับโทโพโลยีความแปรปรวนร่วมใดๆตราบใดที่คุณใส่ใจกับการตั้งค่าพารามิเตอร์ ก็สามารถระบุตัวตนที่เชื่อถือได้ได้ต้นทุนการคำนวณของอัลกอริธึม t-SNE อยู่ในระดับสูง ซึ่งจำกัดการใช้งานในปัจจุบันให้มีข้อมูลจำนวนมากขึ้น ซึ่งหมายความว่าเป็นการยากที่จะนำไปใช้กับฟิลด์ที่ลึกหรือแปรผันตามเวลาการทำงานเกี่ยวกับความสามารถในการปรับขนาดของ t-SNE อยู่ระหว่างดำเนินการเนื่องจากระยะ KL นั้นขนานกันได้ง่าย อัลกอริธึม t-SNE จึงมีศักยภาพที่ดีในการขยายในอนาคต (35)จนถึงขณะนี้ วิธีการลดขนาดที่มีแนวโน้มอื่นๆ ที่สามารถลดขนาดได้ดีขึ้น ได้แก่ เทคนิคการประมาณค่าและการฉายภาพหลายเท่าแบบครบวงจร (UMP) แต่การประเมินในบริบทของข้อมูลมหาสมุทรเป็นสิ่งจำเป็นความหมายของความสามารถในการขยายขนาดที่ดีกว่า เช่น การจัดประเภทสภาพอากาศโลกหรือแบบจำลองที่มีความซับซ้อนต่างกันบนเลเยอร์แบบผสมพื้นที่ที่ไม่สามารถจำแนกประเภทโดย SAGE ในจังหวัดใดๆ ถือได้ว่าเป็นจุดสีดำที่เหลืออยู่ในรูปที่ 2Aในทางภูมิศาสตร์ พื้นที่เหล่านี้ส่วนใหญ่อยู่ในพื้นที่ตามฤดูกาล ซึ่งแสดงให้เห็นว่าการจับจังหวัดทางนิเวศที่เปลี่ยนแปลงไปตามกาลเวลาจะช่วยให้ครอบคลุมได้ดีขึ้น
เพื่อสร้างวิธีการ SAGE มีการใช้แนวคิดจากระบบที่ซับซ้อน/วิทยาศาสตร์ข้อมูล โดยใช้ความสามารถในการกำหนดกลุ่มของกลุ่มฟังก์ชัน (ความเป็นไปได้ที่จะอยู่ใกล้กันมากในพื้นที่ 11 มิติ) และกำหนดจังหวัดจังหวัดเหล่านี้แสดงถึงปริมาณเฉพาะในพื้นที่เฟส 3D t-SNE ของเราในทำนองเดียวกัน ส่วน Poincaré สามารถใช้เพื่อประเมิน "ปริมาตร" ของพื้นที่สถานะที่ถูกครอบครองโดยวิถีเพื่อกำหนดพฤติกรรม "ปกติ" หรือ "วุ่นวาย" (36)สำหรับเอาต์พุตโมเดล 11 มิติคงที่ ปริมาตรที่ใช้หลังจากข้อมูลถูกแปลงเป็นพื้นที่เฟส 3 มิติสามารถอธิบายได้ในทำนองเดียวกันความสัมพันธ์ระหว่างพื้นที่ทางภูมิศาสตร์และพื้นที่ในอวกาศระยะ 3 มิตินั้นไม่ใช่เรื่องง่าย แต่สามารถอธิบายได้ในแง่ของความคล้ายคลึงกันทางนิเวศวิทยาด้วยเหตุนี้ จึงแนะนำให้ใช้การวัดความแตกต่างของ BC แบบธรรมดามากกว่า
งานในอนาคตจะนำวิธี SAGE มาใช้ใหม่สำหรับข้อมูลที่เปลี่ยนแปลงตามฤดูกาลเพื่อประเมินความแปรปรวนเชิงพื้นที่ของจังหวัดที่ระบุและ AEPเป้าหมายในอนาคตคือการใช้วิธีการนี้เพื่อช่วยระบุจังหวัดที่สามารถกำหนดได้โดยการวัดด้วยดาวเทียม (เช่น Chl-a การสะท้อนแสงจากการสำรวจระยะไกล และอุณหภูมิพื้นผิวน้ำทะเล)ซึ่งจะช่วยให้สามารถประเมินการสำรวจระยะไกลขององค์ประกอบทางนิเวศน์และการตรวจสอบจังหวัดทางนิเวศที่มีความยืดหยุ่นสูงและความแปรปรวน
การวิจัยครั้งนี้มีวัตถุประสงค์เพื่อแนะนำวิธีการ SAGE ซึ่งกำหนดจังหวัดทางนิเวศผ่านโครงสร้างชุมชนแพลงก์ตอนที่เป็นเอกลักษณ์ที่นี่ จะมีข้อมูลโดยละเอียดเพิ่มเติมเกี่ยวกับแบบจำลองทางกายภาพ/ชีวชีวเคมี/ระบบนิเวศ และการเลือกพารามิเตอร์ของอัลกอริทึม t-SNE และ DBSCAN
องค์ประกอบทางกายภาพของแบบจำลองมาจากการประมาณค่าการไหลเวียนของมหาสมุทรและสภาพอากาศ [ECCOv4;(37) การประมาณสถานะทั่วโลกที่อธิบายโดย (38)ความละเอียดเล็กน้อยของการประมาณค่าของรัฐคือ 1/5วิธีกำลังสองน้อยที่สุดพร้อมวิธีตัวคูณลากรองจ์ใช้เพื่อให้ได้เงื่อนไขเริ่มต้นและเงื่อนไขขอบเขตและพารามิเตอร์แบบจำลองภายในที่ปรับโดยการสังเกต ดังนั้นจึงสร้างแบบจำลองวงจรทั่วไปของ MIT (MITgcm) ที่รันอย่างอิสระ (39) ซึ่งเป็นแบบจำลองหลังจากการเพิ่มประสิทธิภาพ ผลลัพธ์สามารถ จะถูกติดตามและสังเกต
ชีวธรณีเคมี/ระบบนิเวศมีคำอธิบายที่สมบูรณ์มากขึ้น (เช่น สมการและค่าพารามิเตอร์) ใน (2)แบบจำลองนี้บันทึกการไหลเวียนของ C, N, P, Si และ Fe ผ่านบ่ออนินทรีย์และอินทรีย์รุ่นที่ใช้ในที่นี้ประกอบด้วยแพลงก์ตอนพืช 35 ชนิด ได้แก่ ไมโครโปรคาริโอต 2 ชนิด และไมโครยูคาริโอต 2 ชนิด (เหมาะสำหรับสภาพแวดล้อมที่มีสารอาหารต่ำ) Cryptomonas sphaeroides 5 ชนิด (เคลือบด้วยแคลเซียมคาร์บอเนต) ไดโซเนียม 5 ชนิด (สามารถตรึงไนโตรเจนได้ดังนั้น ไม่จำกัด) ความพร้อมของไนโตรเจนอนินทรีย์ที่ละลายน้ำได้), ไดอะตอม 11 ตัว (ก่อตัวเป็นเปลือกทราย), แฟลเจลเลตจากพืชผสม 10 ตัว (สามารถสังเคราะห์แสงและกินแพลงก์ตอนอื่นได้) และแพลงก์ตอนสัตว์ 16 ตัว (กินหญ้าบนแพลงก์ตอนอื่น)สิ่งเหล่านี้เรียกว่า "กลุ่มฟังก์ชันชีวชีวเคมี" เนื่องจากมีผลกระทบที่แตกต่างกันต่อชีวธรณีเคมีทางทะเล (40, 41) และมักใช้ในการศึกษาแบบสังเกตและแบบจำลองในแบบจำลองนี้ แต่ละกลุ่มฟังก์ชันประกอบด้วยแพลงก์ตอนหลายขนาดที่มีขนาดต่างกัน โดยมีเส้นผ่านศูนย์กลางทรงกลมเทียบเท่ากับช่วง 0.6 ถึง 2500 ไมโครเมตร
พารามิเตอร์ที่ส่งผลต่อการเจริญเติบโตของแพลงก์ตอนพืช การแทะเล็มหญ้า และการจมนั้นสัมพันธ์กับขนาด และมีความแตกต่างเฉพาะระหว่างกลุ่มฟังก์ชันแพลงก์ตอนพืชทั้ง 6 กลุ่ม (32)แม้จะมีกรอบการทำงานทางกายภาพที่แตกต่างกัน แต่ผลลัพธ์ของส่วนประกอบแพลงก์ตอน 51 ชิ้นของแบบจำลองได้ถูกนำมาใช้ในการศึกษาล่าสุดจำนวนหนึ่ง (42-44)
ตั้งแต่ปี พ.ศ. 2535 ถึง พ.ศ. 2554 แบบจำลองการเชื่อมต่อทางกายภาพ/ชีวธรณีเคมี/ระบบนิเวศ ดำเนินการมาเป็นเวลา 20 ปีผลลัพธ์ของแบบจำลองประกอบด้วยมวลชีวภาพของแพลงก์ตอน ความเข้มข้นของสารอาหาร และอัตราการจัดหาสารอาหาร (DIN, PO4, Si และ Fe)ในการศึกษานี้ ค่าเฉลี่ย 20 ปีของผลลัพธ์เหล่านี้ถูกนำมาใช้เป็นข้อมูลนำเข้าของจังหวัดนิเวศน์Chl การกระจายตัวของมวลชีวภาพของแพลงก์ตอนและความเข้มข้นของสารอาหาร และการกระจายตัวของหมู่ฟังก์ชันเปรียบเทียบกับการสังเกตด้วยดาวเทียมและการสังเกตในแหล่งกำเนิด [ดู (2, 44) หมายเหตุ S1 และรูปS1 ถึง S3]
สำหรับวิธี SAGE แหล่งที่มาหลักของการสุ่มมาจากขั้นตอน t-SNEการสุ่มเป็นอุปสรรคต่อความสามารถในการทำซ้ำ ซึ่งหมายความว่าผลลัพธ์ไม่น่าเชื่อถือวิธี SAGE ทดสอบความทนทานอย่างเข้มงวดโดยการกำหนดชุดพารามิเตอร์ของ t-SNE และ DBSCAN ซึ่งสามารถระบุคลัสเตอร์ได้อย่างสม่ำเสมอเมื่อทำซ้ำการกำหนด "ความฉงนสนเท่ห์" ของพารามิเตอร์ t-SNE สามารถเข้าใจได้ว่าเป็นการกำหนดระดับที่การแมปจากมิติสูงไปต่ำควรเคารพลักษณะท้องถิ่นหรือระดับโลกของข้อมูลเข้าถึงความสับสนของการวนซ้ำ 400 และ 300
สำหรับอัลกอริธึมการจัดกลุ่ม DBSCAN จำเป็นต้องกำหนดขนาดและระยะทางขั้นต่ำของจุดข้อมูลในคลัสเตอร์จำนวนขั้นต่ำถูกกำหนดภายใต้คำแนะนำของผู้เชี่ยวชาญความรู้นี้รู้ว่าสิ่งใดที่เหมาะกับกรอบงานการสร้างแบบจำลองเชิงตัวเลขและความละเอียดในปัจจุบันจำนวนขั้นต่ำคือ 100 สามารถพิจารณาค่าต่ำสุดที่สูงกว่า (น้อยกว่า <135 ก่อนที่ขีดจำกัดบนของสีเขียวจะกว้างขึ้น) สามารถนำมาพิจารณาได้ แต่ไม่สามารถแทนที่วิธีการรวมกลุ่มโดยพิจารณาจากความแตกต่างของ BCระดับการเชื่อมต่อ (รูปที่ 6A) ใช้เพื่อตั้งค่าพารามิเตอร์ ϵ ซึ่งเอื้อต่อการครอบคลุมที่สูงขึ้น (รูปที่ 6B)การเชื่อมต่อถูกกำหนดให้เป็นจำนวนรวมของคลัสเตอร์และไวต่อพารามิเตอร์ ϵการเชื่อมต่อที่ต่ำกว่าแสดงว่ามีอุปกรณ์เชื่อมต่อไม่เพียงพอ โดยจัดกลุ่มบริเวณต่างๆ เข้าด้วยกันโดยไม่ตั้งใจการเชื่อมต่อที่สูงแสดงว่ามีการติดตั้งมากเกินไปการปรับมากเกินไปก็เป็นปัญหาเช่นกัน เพราะมันแสดงให้เห็นว่าการเดาแบบสุ่มครั้งแรกอาจนำไปสู่ผลลัพธ์ที่ไม่สามารถทำซ้ำได้ระหว่างสุดขั้วทั้งสองนี้ การเพิ่มขึ้นอย่างรวดเร็ว (มักเรียกว่า "ข้อศอก") บ่งชี้ถึง ϵ ที่ดีที่สุดในรูปที่ 6A คุณจะเห็นการเพิ่มขึ้นอย่างรวดเร็วในพื้นที่ราบสูง (สีเหลือง> 200 กระจุก) ตามด้วยการลดลงอย่างรวดเร็ว (สีเขียว 100 กระจุก) มาเป็นประมาณ 130 กระจุก ที่ล้อมรอบด้วยกระจุกน้อยมาก (สีน้ำเงิน <60 กระจุก) ).ในพื้นที่สีน้ำเงินอย่างน้อย 100 แห่ง กระจุกหนึ่งครองมหาสมุทรทั้งหมด (ϵ <0.42) หรือมหาสมุทรส่วนใหญ่ไม่ได้รับการจำแนกประเภทและถือเป็นเสียงรบกวน (ϵ> 0.99)พื้นที่สีเหลืองมีการกระจายคลัสเตอร์ที่แปรผันสูงและไม่สามารถทำซ้ำได้เมื่อ ϵ ลดลง เสียงก็จะเพิ่มขึ้นพื้นที่สีเขียวที่เพิ่มขึ้นอย่างรวดเร็วเรียกว่าข้อศอกนี่คือภูมิภาคที่เหมาะสมที่สุดแม้ว่าจะใช้ความน่าจะเป็น t-SNE แต่ความแตกต่าง BC ภายในจังหวัดยังคงสามารถใช้เพื่อกำหนดการจัดกลุ่มที่เชื่อถือได้ใช้รูปที่ 6 (A และ B) ตั้งค่า ϵ เป็น 0.39ยิ่งจำนวนขั้นต่ำมากเท่าไร ความน่าจะเป็นที่จะไปถึง ϵ ที่ช่วยให้การจำแนกประเภทที่เชื่อถือได้ก็ยิ่งน้อยลงเท่านั้น และพื้นที่สีเขียวที่มีค่ามากกว่า 135 ยิ่งมากขึ้น การขยายพื้นที่นี้บ่งชี้ว่าข้อศอกจะค้นหาได้ยากขึ้นหรือไม่- มีอยู่จริง
หลังจากตั้งค่าพารามิเตอร์ของ t-SNE แล้ว จำนวนคลัสเตอร์ทั้งหมดที่พบจะถูกใช้เป็นตัววัดการเชื่อมต่อ (A) และเปอร์เซ็นต์ของข้อมูลที่จัดสรรให้กับคลัสเตอร์ (B)จุดสีแดงแสดงถึงการผสมผสานที่ดีที่สุดของความครอบคลุมและการเชื่อมต่อจำนวนขั้นต่ำถูกกำหนดตามจำนวนขั้นต่ำที่เกี่ยวข้องกับระบบนิเวศ
หากต้องการข้อมูลเพิ่มเติมสำหรับบทความนี้ โปรดดูที่ http://advances.sciencemag.org/cgi/content/full/6/22/eaay4740/DC1
นี่เป็นบทความแบบเปิดที่เผยแพร่ภายใต้เงื่อนไขของ Creative Commons Attribution Licenseบทความนี้อนุญาตให้นำไปใช้ เผยแพร่ และทำซ้ำได้อย่างไม่จำกัดในสื่อใดๆ ภายใต้เงื่อนไขว่างานต้นฉบับได้รับการอ้างอิงอย่างถูกต้อง
หมายเหตุ: เราขอให้คุณระบุที่อยู่อีเมลของคุณเท่านั้น เพื่อให้คนที่คุณแนะนำไปยังเพจรู้ว่าคุณต้องการให้พวกเขาเห็นอีเมลและไม่ใช่สแปมเราจะไม่บันทึกที่อยู่อีเมลใดๆ
คำถามนี้ใช้เพื่อทดสอบว่าคุณเป็นผู้เข้าชมหรือไม่และป้องกันการส่งสแปมอัตโนมัติ
กระทรวงนิเวศวิทยาทางทะเลระดับโลกมุ่งมั่นที่จะแก้ไขปัญหาที่ซับซ้อน และใช้ ML ที่ไม่ได้รับการดูแลในการสำรวจโครงสร้างของชุมชน
กระทรวงนิเวศวิทยาทางทะเลระดับโลกมุ่งมั่นที่จะแก้ไขปัญหาที่ซับซ้อน และใช้ ML ที่ไม่ได้รับการดูแลในการสำรวจโครงสร้างของชุมชน
เวลาโพสต์: Jan-12-2021