ข้อมูลสังเคราะห์

Q: ข้อมูลสำคัญเกี่ยวกับ ข้อมูลสังเคราะห์

ข้อมูลสังเคราะห์คือข้อมูล ที่สร้างขึ้นโดยเทียม ไม่ได้เกิดจากเหตุการณ์ในโลกแห่งความเป็นจริง โดยทั่วไปสร้างขึ้นโดยใช้อัลกอริธึม

ข้อมูลสังเคราะห์คือข้อมูล ที่สร้างขึ้นโดยเทียม ไม่ได้เกิดจากเหตุการณ์ในโลกแห่งความเป็นจริง โดยทั่วไปสร้างขึ้นโดยใช้อัลกอริธึม ข้อมูลสังเคราะห์สามารถนำไปใช้เพื่อตรวจสอบความถูกต้องของแบบจำลองทางคณิตศาสตร์และเพื่อฝึกฝนแบบจำลองการเรียนรู้ของเครื่อง^{[ 1 ]}

ข้อมูลที่สร้างขึ้นจากการจำลองด้วยคอมพิวเตอร์สามารถมองได้ว่าเป็นข้อมูลสังเคราะห์ ซึ่งรวมถึงการประยุกต์ใช้แบบจำลองทางฟิสิกส์ส่วนใหญ่ เช่น เครื่องสังเคราะห์เสียงดนตรี หรือเครื่องจำลองการบิน ผลลัพธ์ของระบบดังกล่าวมีความใกล้เคียงกับของจริง แต่ทั้งหมดนั้นสร้างขึ้นด้วยอัลกอริทึม

ข้อมูลสังเคราะห์ถูกใช้ในหลากหลายสาขาในฐานะตัวกรองข้อมูลที่อาจกระทบต่อการรักษาความลับของข้อมูลบางด้าน ในแอปพลิเคชันที่ละเอียดอ่อนหลายแอปพลิเคชัน ชุดข้อมูลมีอยู่จริงในทางทฤษฎีแต่ไม่สามารถเปิดเผยต่อสาธารณะได้^{[ 2 ]}ข้อมูลสังเคราะห์ช่วยหลีกเลี่ยงปัญหาความเป็นส่วนตัวที่เกิดขึ้นจากการใช้ข้อมูลผู้บริโภคจริงโดยไม่ได้รับอนุญาตหรือค่าตอบแทน

ประโยชน์ใช้สอย

ข้อมูลสังเคราะห์ถูกสร้างขึ้นเพื่อตอบสนองความต้องการเฉพาะหรือเงื่อนไขบางประการที่อาจไม่พบในข้อมูลจริงดั้งเดิม อุปสรรคประการหนึ่งในการประยุกต์ใช้แนวทางการเรียนรู้ของเครื่องที่ทันสมัยสำหรับงานทางวิทยาศาสตร์ที่ซับซ้อนคือการขาดแคลนข้อมูลที่มีป้ายกำกับ ซึ่งเป็นช่องว่างที่ถูกเติมเต็มอย่างมีประสิทธิภาพโดยการใช้ข้อมูลสังเคราะห์ ซึ่งจำลองข้อมูลการทดลอง จริง ได้ อย่างใกล้เคียง ^{[ 3 ]}สิ่งนี้มีประโยชน์เมื่อออกแบบระบบต่างๆ มากมาย ตั้งแต่การจำลองตามค่าทางทฤษฎี ไปจนถึงตัวประมวลผลฐานข้อมูล เป็นต้น ซึ่งช่วยในการตรวจจับและแก้ไขปัญหาที่ไม่คาดคิด เช่น ข้อจำกัดในการประมวลผลข้อมูล ข้อมูลสังเคราะห์มักถูกสร้างขึ้นเพื่อเป็นตัวแทนของข้อมูลที่แท้จริงและช่วยให้สามารถกำหนดเกณฑ์พื้นฐานได้^{[ 4 ]}ประโยชน์อีกประการหนึ่งของข้อมูลสังเคราะห์คือการปกป้องความเป็นส่วนตัวและความลับของข้อมูลที่แท้จริง ในขณะที่ยังคงอนุญาตให้ใช้ในการทดสอบระบบ

ผู้เชี่ยวชาญด้านความปลอดภัยของคอมพิวเตอร์อ้างว่าข้อมูลสังเคราะห์ที่สร้างขึ้น "...ช่วยให้เราสร้างโปรไฟล์พฤติกรรมที่สมจริงสำหรับผู้ใช้และผู้โจมตี ข้อมูลนี้ใช้ในการฝึก ระบบตรวจจับ การฉ้อโกงเอง ซึ่งจะสร้างการปรับตัวที่จำเป็นของระบบให้เข้ากับสภาพแวดล้อมเฉพาะ" ^{[ 4 ]}ในบริบทด้านการป้องกันประเทศและการทหาร ข้อมูลสังเคราะห์ถือเป็นเครื่องมือที่มีศักยภาพในการพัฒนาและปรับปรุงระบบ AI ที่ซับซ้อน โดยเฉพาะอย่างยิ่งในบริบทที่ข้อมูลจริงคุณภาพสูงหายาก^{[ 5 ]}ในขณะเดียวกัน ข้อมูลสังเคราะห์ร่วมกับวิธีการทดสอบสามารถให้ความสามารถในการจำลองสถานการณ์ในโลกแห่งความเป็นจริงได้

ประวัติศาสตร์

การสร้างแบบจำลองทางวิทยาศาสตร์ของระบบทางกายภาพมีประวัติศาสตร์อันยาวนานที่ดำเนินไปพร้อมกับประวัติศาสตร์ของฟิสิกส์ตัวอย่างเช่น การวิจัยเกี่ยวกับการสังเคราะห์เสียงและคำพูดสามารถสืบย้อนไปได้ถึงช่วงทศวรรษ 1930 และก่อนหน้านั้น โดยได้รับแรงผลักดันจากการพัฒนาเทคโนโลยีโทรศัพท์และการบันทึกเสียง การแปลงเป็นดิจิทัลทำให้เกิดซอฟต์แวร์สังเคราะห์เสียงตั้งแต่ทศวรรษ 1970 เป็นต้นมา

ในบริบทของการวิเคราะห์ทางสถิติที่รักษาความเป็นส่วนตัว ในปี 1993 แนวคิดของข้อมูลสังเคราะห์ดั้งเดิมแบบเต็มรูปแบบถูกสร้างขึ้นโดยDonald Rubin [ ^{6 ] เดิมที} Rubin ออกแบบสิ่งนี้เพื่อสังเคราะห์คำตอบแบบฟอร์มยาวของสำมะโนประชากรทุกสิบปีสำหรับครัวเรือนแบบฟอร์มสั้น จากนั้นเขาได้เผยแพร่ตัวอย่างที่ไม่รวมบันทึกแบบฟอร์มยาวจริงใด ๆ ซึ่งในวิธีนี้เขารักษาความเป็นส่วนตัวของครัวเรือนไว้ได้^{[ 7 ]}ต่อมาในปีเดียวกันนั้น แนวคิดของข้อมูลสังเคราะห์ดั้งเดิมบางส่วนถูกสร้างขึ้นโดย Little Little ใช้แนวคิดนี้เพื่อสังเคราะห์ค่าที่ละเอียดอ่อนในไฟล์การใช้งานสาธารณะ^{[ 8 ]}

งานในปี 1993 ^{[ 9 ]}ได้ปรับแบบจำลองทางสถิติให้เข้ากับ ตัวเลข MNIST จำนวน 60,000 ตัว จากนั้นจึงใช้แบบจำลองดังกล่าวในการสร้างตัวอย่างมากกว่า 1 ล้านตัวอย่าง ซึ่งใช้ในการฝึกLeNet-4เพื่อให้ได้ประสิทธิภาพที่ทันสมัยที่สุด^{[ 10 ]}^{: 173}

ในปี พ.ศ. 2537 Stephen Fienbergได้นำเสนอ 'การปรับปรุงที่สำคัญ' ซึ่งใช้การแจกแจงการทำนายแบบเบื้องหลังเชิงพาราเมตริก (แทนที่จะใช้ Bayes bootstrap) ในการสุ่มตัวอย่าง^{[ 7 ]}ต่อมา ผู้มีส่วนร่วมสำคัญอื่นๆ ในการพัฒนาการสร้างข้อมูลสังเคราะห์ ได้แก่Trivellore Raghunathan , Jerry Reiter , Donald Rubin , John M. AbowdและJim Woodcock พวกเขาร่วมกันคิดค้นวิธีการจัดการกับข้อมูลสังเคราะห์บางส่วนที่มีข้อมูลที่หายไป ในทำนองเดียวกัน พวกเขาได้พัฒนาเทคนิคการเติมข้อมูลแบบหลายตัวแปร การถดถอยตามลำดับ^{[ 7 ]}

การคำนวณ

นักวิจัยทดสอบเฟรมเวิร์กบนข้อมูลสังเคราะห์ ซึ่งเป็น "แหล่งข้อมูลความจริงพื้นฐานเพียงแหล่งเดียวที่พวกเขาสามารถประเมินประสิทธิภาพของอัลกอริธึม ได้อย่างเป็นกลาง " ^{[ 11 ]}

สามารถสร้างข้อมูลสังเคราะห์ได้โดยใช้เส้นสุ่มที่มีทิศทางและตำแหน่งเริ่มต้นที่แตกต่างกัน^{[ 12 ]}ชุดข้อมูลอาจมีความซับซ้อนมากขึ้น สามารถสร้างชุดข้อมูลที่ซับซ้อนมากขึ้นได้โดยใช้การสร้างตัวสังเคราะห์ ในการสร้างตัวสังเคราะห์ ขั้นแรกให้ใช้ข้อมูลดั้งเดิมเพื่อสร้างแบบจำลองหรือสมการที่เหมาะสมกับข้อมูลได้ดีที่สุด แบบจำลองหรือสมการนี้จะเรียกว่าตัวสังเคราะห์ การสร้างนี้สามารถใช้เพื่อสร้างข้อมูลเพิ่มเติมได้^{[ 13 ]}

การสร้างตัวสังเคราะห์เกี่ยวข้องกับการสร้างแบบจำลองทางสถิติใน ตัวอย่างเส้น ถดถอยเชิงเส้นข้อมูลดั้งเดิมสามารถพล็อตได้ และ สามารถสร้าง เส้นตรง ที่เหมาะสมที่สุด จากข้อมูลได้เส้น นี้ คือตัวสังเคราะห์ที่สร้างขึ้นจากข้อมูลดั้งเดิม ขั้นตอนต่อไปคือการสร้างข้อมูลสังเคราะห์เพิ่มเติมจากตัวสังเคราะห์หรือจากสมการเส้นตรงนี้ ด้วยวิธีนี้ ข้อมูลใหม่สามารถนำไปใช้ในการศึกษาและวิจัยได้ และยังช่วยปกป้องความลับของข้อมูลดั้งเดิมอีกด้วย^{[ 13 ]}

David Jensen จากห้องปฏิบัติการการค้นพบความรู้ อธิบายวิธีการสร้างข้อมูลสังเคราะห์ว่า "นักวิจัยมักต้องการสำรวจผลกระทบของลักษณะข้อมูลบางอย่างต่อแบบจำลองข้อมูล ของพวกเขา " ^{[ 13 ]}เพื่อช่วยสร้างชุดข้อมูลที่แสดงคุณสมบัติเฉพาะ เช่นความสัมพันธ์อัตโนมัติหรือความแตกต่างของระดับ ความใกล้เคียงสามารถสร้างข้อมูลสังเคราะห์ที่มีโครงสร้างกราฟได้หลายประเภท ได้แก่กราฟสุ่มที่สร้างขึ้นโดยกระบวนการสุ่ม บาง อย่างกราฟแลตติสที่มีโครงสร้างวงแหวนกราฟแลตติสที่มีโครงสร้างตาราง เป็นต้น^{[ 13 ]} ในทุกกรณี กระบวนการสร้างข้อมูลจะเป็นไปตามกระบวนการเดียวกัน:

สร้างโครงสร้างกราฟ ว่าง เปล่า
สร้างค่าคุณลักษณะโดยอิงจากความน่าจะเป็นเบื้องต้นที่ผู้ใช้กำหนด

เนื่องจากค่าคุณลักษณะของวัตถุหนึ่งอาจขึ้นอยู่กับค่าคุณลักษณะของวัตถุที่เกี่ยวข้อง กระบวนการสร้างคุณลักษณะจึงกำหนดค่าร่วมกัน^{[ 13 ]}

แอปพลิเคชัน

ระบบตรวจจับการฉ้อโกงและการรักษาความลับ

การทดสอบและการฝึกอบรม ระบบตรวจจับ การฉ้อโกงและการรักษาความลับนั้นถูกออกแบบโดยใช้ข้อมูลสังเคราะห์ อัลกอริทึมและตัวสร้างเฉพาะได้รับการออกแบบเพื่อสร้างข้อมูลที่สมจริง^{[ 14 ]}ซึ่งจะช่วยในการสอนระบบให้ตอบสนองต่อสถานการณ์หรือเกณฑ์บางอย่าง ตัวอย่างเช่น ซอฟต์แวร์ตรวจจับการบุกรุกจะถูกทดสอบโดยใช้ข้อมูลสังเคราะห์ ข้อมูลนี้เป็นตัวแทนของข้อมูลจริงและอาจรวมถึงกรณีการบุกรุกที่ไม่พบในข้อมูลจริง ข้อมูลสังเคราะห์ช่วยให้ซอฟต์แวร์สามารถจดจำสถานการณ์เหล่านี้และตอบสนองได้อย่างเหมาะสม หากไม่ได้ใช้ข้อมูลสังเคราะห์ ซอฟต์แวร์จะได้รับการฝึกฝนให้ตอบสนองต่อสถานการณ์ที่ได้รับจากข้อมูลจริงเท่านั้น และอาจไม่สามารถจดจำการบุกรุกประเภทอื่นได้^{[ 4 ]}

การวิจัยทางวิทยาศาสตร์

นักวิจัยที่ทำการทดลองทางคลินิกหรือการวิจัยอื่น ๆ อาจสร้างข้อมูลสังเคราะห์เพื่อช่วยสร้างฐานข้อมูลพื้นฐานสำหรับการศึกษาและการทดสอบในอนาคต

ข้อมูลจริงอาจมีข้อมูลที่นักวิจัยอาจไม่ต้องการเปิดเผย^{[ 15 ]}ดังนั้นบางครั้งจึงใช้ข้อมูลสังเคราะห์เพื่อปกป้องความเป็นส่วนตัวและความลับของชุดข้อมูล การใช้ข้อมูลสังเคราะห์ช่วยลดปัญหาความลับและความเป็นส่วนตัว เนื่องจากไม่มีข้อมูลส่วนบุคคลและไม่สามารถติดตามกลับไปยังบุคคลใดบุคคลหนึ่งได้

นอกเหนือจากการปกป้องความเป็นส่วนตัวแล้ว ข้อมูลสังเคราะห์ยังถูกสำรวจเพื่อสร้างนวัตกรรมเชิงวิธีการในการพัฒนายา ตัวอย่างเช่น ข้อมูลสังเคราะห์อาจถูกนำมาใช้เพื่อสร้างกลุ่มควบคุมสังเคราะห์เพื่อเป็นทางเลือกแทนกลุ่มควบคุมภายนอกแบบดั้งเดิมที่อิงตามข้อมูลจริง (RWD) หรือการทดลองแบบสุ่มที่มีกลุ่มควบคุม (RCT) โดยรวมแล้ว หน่วยงานกำกับดูแล เช่น FDA และ EMA ดูเหมือนจะอยู่ในขั้นตอนต่างๆ ของการรับรู้และบูรณาการข้อมูลสังเคราะห์ที่สร้างโดย AI เข้ากับวิธีการของตน แม้ว่าจะมีความเห็นพ้องต้องกันมากขึ้นเกี่ยวกับศักยภาพของข้อมูลดังกล่าวในการสนับสนุนการพัฒนารูปแบบและวงจรชีวิตที่กว้างขึ้นของผลิตภัณฑ์ยา แต่จนถึงปัจจุบันยังไม่มีผลิตภัณฑ์ยาหรืออุปกรณ์ทางการแพทย์ใดได้รับการอนุมัติโดยใช้ข้อมูลสังเคราะห์เพียงอย่างเดียวหรือส่วนใหญ่ โดยเฉพาะอย่างยิ่งในฐานะกลุ่มเปรียบเทียบที่สร้างขึ้นโดยสมบูรณ์ผ่านอัลกอริทึมที่ขับเคลื่อนด้วยข้อมูล คุณภาพและการจัดการทางสถิติของข้อมูลสังเคราะห์คาดว่าจะมีความสำคัญมากขึ้นในการอภิปรายด้านกฎระเบียบในอนาคต โดยเฉพาะอย่างยิ่งในบริบทต่างๆ เช่น การสร้างแบบจำลองเชิงพยากรณ์ (เช่น ดิจิทัลทวิน) ซึ่งมีการอ้างอิงถึงแนวทางที่เป็นนวัตกรรมแล้ว^{[ 16 ]}

การเรียนรู้ของเครื่อง

ข้อมูลสังเคราะห์กำลังถูกนำมาใช้มากขึ้นเรื่อยๆ สำหรับ แอปพลิเคชัน การเรียนรู้ของเครื่อง : โมเดลได้รับการฝึกฝนบนชุดข้อมูลที่สร้างขึ้นโดยสังเคราะห์โดยมีจุดประสงค์เพื่อถ่ายโอนการเรียนรู้ไปยังข้อมูลจริง มีความพยายามที่จะทำให้ การทดลอง วิทยาศาสตร์ข้อมูล เป็นไปได้มากขึ้น ผ่านการสร้างตัวสร้างข้อมูลสังเคราะห์อเนกประสงค์ เช่น Synthetic Data Vault ^{[ 17 ]}โดยทั่วไป ข้อมูลสังเคราะห์มีข้อดีตามธรรมชาติหลายประการ:

เมื่อสภาพแวดล้อมจำลองพร้อมแล้ว การผลิตข้อมูลจำนวนมากตามต้องการก็จะทำได้อย่างรวดเร็วและประหยัดค่าใช้จ่าย
ข้อมูลสังเคราะห์สามารถมีป้ายกำกับที่ถูกต้องแม่นยำได้อย่างสมบูรณ์ รวมถึงป้ายกำกับที่อาจมีราคาแพงมากหรือเป็นไปไม่ได้ที่จะได้มาด้วยมือ
สภาพแวดล้อมจำลองสามารถปรับเปลี่ยนได้เพื่อปรับปรุงแบบจำลองและการฝึกอบรม
ข้อมูลสังเคราะห์สามารถใช้ทดแทนข้อมูลจริงบางส่วนที่มีข้อมูลสำคัญ เช่น ข้อมูลที่มีความอ่อนไหวได้

การใช้ข้อมูลสังเคราะห์นี้ได้รับการเสนอสำหรับแอปพลิเคชันการมองเห็นด้วยคอมพิวเตอร์ โดยเฉพาะอย่างยิ่งการตรวจจับวัตถุซึ่งสภาพแวดล้อมสังเคราะห์เป็นแบบจำลอง 3 มิติของวัตถุ^{[ 18 ]}และการเรียนรู้การนำทางสภาพแวดล้อมโดยใช้ข้อมูลภาพ

ในบริบทของ การฝึก โมเดลภาษาขนาดใหญ่การสร้างข้อมูลสังเคราะห์ได้กลายเป็นองค์ประกอบหลักของกระบวนการหลังการฝึก เทคนิคต่างๆ เช่น Self-Instruct ซึ่งใช้ชุดข้อมูลเริ่มต้นขนาดเล็กจำนวน 175 คำแนะนำที่เขียนโดยมนุษย์เพื่อสร้างตัวอย่างการปฏิบัติตามคำแนะนำสังเคราะห์จำนวน 52,000 ตัวอย่าง และ Persona Hub ซึ่งสร้างบุคลิกสังเคราะห์มากกว่าหนึ่งพันล้านรายการสำหรับการสร้างคำแนะนำที่หลากหลาย ทำให้สามารถสร้างชุดข้อมูลการฝึกอบรมขนาดใหญ่ได้ในราคาที่ต่ำกว่าการติดป้ายกำกับโดยมนุษย์มาก^{[ 19 ]}

ในขณะเดียวกัน การเรียนรู้แบบถ่ายโอนยังคงเป็นปัญหาที่ไม่ธรรมดา และข้อมูลสังเคราะห์ยังไม่แพร่หลาย ผลการวิจัยชี้ให้เห็นว่าการเพิ่มข้อมูลจริงจำนวนเล็กน้อยช่วยปรับปรุงการเรียนรู้แบบถ่ายโอนด้วยข้อมูลสังเคราะห์ได้อย่างมีนัยสำคัญ ความก้าวหน้าในเครือข่ายปฏิปักษ์เชิงสร้าง (GAN) นำไปสู่แนวคิดที่เป็นธรรมชาติว่าเราสามารถสร้างข้อมูลแล้วนำไปใช้ในการฝึกอบรมได้ ตั้งแต่ปี 2016 เป็นต้นมา การฝึกอบรมแบบปฏิปักษ์ดังกล่าวได้ถูกนำมาใช้เพื่อสร้างข้อมูลสังเคราะห์ที่มีคุณภาพเพียงพอที่จะสร้างผลลัพธ์ที่ทันสมัยในบางโดเมน โดยไม่จำเป็นต้องผสมข้อมูลจริงเข้ากับข้อมูลสังเคราะห์ที่สร้างขึ้นอีกด้วย^{[ 20 ]}

ตัวอย่าง

ในปี พ.ศ. 2530 ยานพาหนะอัตโนมัติ ของ Navlabใช้ภาพถนนสังเคราะห์จำนวน 1200 ภาพเป็นแนวทางหนึ่งในการฝึกอบรม^{[ 21 ]}

ในปี 2021 ไมโครซอฟต์ได้เผยแพร่ฐานข้อมูลใบหน้าสังเคราะห์จำนวน 100,000 ใบหน้า (โดยอิงจากใบหน้าจริง 500 ใบหน้า) ซึ่งอ้างว่า "ตรงกับข้อมูลจริงในด้านความแม่นยำ" ^{[ 21 ]}^{[ 22 ]}

ในปี 2023 วารสาร Natureได้ตีพิมพ์หน้าปก ชุด Nature's 10ซึ่งออกแบบโดยKim Albrechtจากโครงการ "Artificial Worldviews" ^{[ 23 ]}หน้าปกดังกล่าวมีแผนที่แสดงจุดข้อมูลที่สร้างขึ้นโดยสังเคราะห์มากกว่า 18,000 จุด ซึ่งได้รับแรงบันดาลใจจากChatGPTในหมวดหมู่ความรู้

DataFramer ได้เผยแพร่ชุดข้อมูลบนHugging Faceรวมถึงehr-multi-file-patient-samplesซึ่งเป็นชุดข้อมูลประวัติผู้ป่วยแบบหลายไฟล์สังเคราะห์^{[ 24 ]}และINSURE-Dialซึ่งเป็นชุดข้อมูลบทสนทนาสำหรับการตรวจจับขั้นตอนการโทรประกันภัยและการตรวจสอบการปฏิบัติตาม^{[ 25 ]}

ดูเพิ่มเติม

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

6 ] เดิมที

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]