อ่าน 6 นาที
ข้อมูลสังเคราะห์
ข้อมูลสังเคราะห์คือข้อมูล ที่สร้างขึ้นโดยเทียม ไม่ได้เกิดจากเหตุการณ์ในโลกแห่งความเป็นจริง โดยทั่วไปสร้างขึ้นโดยใช้อัลกอริธึม
ข้อมูลสังเคราะห์
ข้อมูลสังเคราะห์คือข้อมูล ที่สร้างขึ้นโดยเทียม ไม่ได้เกิดจากเหตุการณ์ในโลกแห่งความเป็นจริง โดยทั่วไปสร้างขึ้นโดยใช้อัลกอริธึม ข้อมูลสังเคราะห์สามารถนำไปใช้เพื่อตรวจสอบความถูกต้องของแบบจำลองทางคณิตศาสตร์และเพื่อฝึกฝนแบบจำลองการเรียนรู้ของเครื่อง[ 1 ]
ข้อมูลที่สร้างขึ้นจากการจำลองด้วยคอมพิวเตอร์สามารถมองได้ว่าเป็นข้อมูลสังเคราะห์ ซึ่งรวมถึงการประยุกต์ใช้แบบจำลองทางฟิสิกส์ส่วนใหญ่ เช่น เครื่องสังเคราะห์เสียงดนตรี หรือเครื่องจำลองการบิน ผลลัพธ์ของระบบดังกล่าวมีความใกล้เคียงกับของจริง แต่ทั้งหมดนั้นสร้างขึ้นด้วยอัลกอริทึม
ข้อมูลสังเคราะห์ถูกใช้ในหลากหลายสาขาในฐานะตัวกรองข้อมูลที่อาจกระทบต่อการรักษาความลับของข้อมูลบางด้าน ในแอปพลิเคชันที่ละเอียดอ่อนหลายแอปพลิเคชัน ชุดข้อมูลมีอยู่จริงในทางทฤษฎีแต่ไม่สามารถเปิดเผยต่อสาธารณะได้[ 2 ]ข้อมูลสังเคราะห์ช่วยหลีกเลี่ยงปัญหาความเป็นส่วนตัวที่เกิดขึ้นจากการใช้ข้อมูลผู้บริโภคจริงโดยไม่ได้รับอนุญาตหรือค่าตอบแทน
ประโยชน์ใช้สอย
ข้อมูลสังเคราะห์ถูกสร้างขึ้นเพื่อตอบสนองความต้องการเฉพาะหรือเงื่อนไขบางประการที่อาจไม่พบในข้อมูลจริงดั้งเดิม อุปสรรคประการหนึ่งในการประยุกต์ใช้แนวทางการเรียนรู้ของเครื่องที่ทันสมัยสำหรับงานทางวิทยาศาสตร์ที่ซับซ้อนคือการขาดแคลนข้อมูลที่มีป้ายกำกับ ซึ่งเป็นช่องว่างที่ถูกเติมเต็มอย่างมีประสิทธิภาพโดยการใช้ข้อมูลสังเคราะห์ ซึ่งจำลองข้อมูลการทดลอง จริง ได้ อย่างใกล้เคียง [ 3 ]สิ่งนี้มีประโยชน์เมื่อออกแบบระบบต่างๆ มากมาย ตั้งแต่การจำลองตามค่าทางทฤษฎี ไปจนถึงตัวประมวลผลฐานข้อมูล เป็นต้น ซึ่งช่วยในการตรวจจับและแก้ไขปัญหาที่ไม่คาดคิด เช่น ข้อจำกัดในการประมวลผลข้อมูล ข้อมูลสังเคราะห์มักถูกสร้างขึ้นเพื่อเป็นตัวแทนของข้อมูลที่แท้จริงและช่วยให้สามารถกำหนดเกณฑ์พื้นฐานได้[ 4 ]ประโยชน์อีกประการหนึ่งของข้อมูลสังเคราะห์คือการปกป้องความเป็นส่วนตัวและความลับของข้อมูลที่แท้จริง ในขณะที่ยังคงอนุญาตให้ใช้ในการทดสอบระบบ
ผู้เชี่ยวชาญด้านความปลอดภัยของคอมพิวเตอร์อ้างว่าข้อมูลสังเคราะห์ที่สร้างขึ้น "...ช่วยให้เราสร้างโปรไฟล์พฤติกรรมที่สมจริงสำหรับผู้ใช้และผู้โจมตี ข้อมูลนี้ใช้ในการฝึก ระบบตรวจจับ การฉ้อโกงเอง ซึ่งจะสร้างการปรับตัวที่จำเป็นของระบบให้เข้ากับสภาพแวดล้อมเฉพาะ" [ 4 ]ในบริบทด้านการป้องกันประเทศและการทหาร ข้อมูลสังเคราะห์ถือเป็นเครื่องมือที่มีศักยภาพในการพัฒนาและปรับปรุงระบบ AI ที่ซับซ้อน โดยเฉพาะอย่างยิ่งในบริบทที่ข้อมูลจริงคุณภาพสูงหายาก[ 5 ]ในขณะเดียวกัน ข้อมูลสังเคราะห์ร่วมกับวิธีการทดสอบสามารถให้ความสามารถในการจำลองสถานการณ์ในโลกแห่งความเป็นจริงได้
ประวัติศาสตร์
การสร้างแบบจำลองทางวิทยาศาสตร์ของระบบทางกายภาพมีประวัติศาสตร์อันยาวนานที่ดำเนินไปพร้อมกับประวัติศาสตร์ของฟิสิกส์ตัวอย่างเช่น การวิจัยเกี่ยวกับการสังเคราะห์เสียงและคำพูดสามารถสืบย้อนไปได้ถึงช่วงทศวรรษ 1930 และก่อนหน้านั้น โดยได้รับแรงผลักดันจากการพัฒนาเทคโนโลยีโทรศัพท์และการบันทึกเสียง การแปลงเป็นดิจิทัลทำให้เกิดซอฟต์แวร์สังเคราะห์เสียงตั้งแต่ทศวรรษ 1970 เป็นต้นมา
ในบริบทของการวิเคราะห์ทางสถิติที่รักษาความเป็นส่วนตัว ในปี 1993 แนวคิดของข้อมูลสังเคราะห์ดั้งเดิมแบบเต็มรูปแบบถูกสร้างขึ้นโดยDonald Rubin [ 6 ] เดิมที Rubin ออกแบบสิ่งนี้เพื่อสังเคราะห์คำตอบแบบฟอร์มยาวของสำมะโนประชากรทุกสิบปีสำหรับครัวเรือนแบบฟอร์มสั้น จากนั้นเขาได้เผยแพร่ตัวอย่างที่ไม่รวมบันทึกแบบฟอร์มยาวจริงใด ๆ ซึ่งในวิธีนี้เขารักษาความเป็นส่วนตัวของครัวเรือนไว้ได้[ 7 ]ต่อมาในปีเดียวกันนั้น แนวคิดของข้อมูลสังเคราะห์ดั้งเดิมบางส่วนถูกสร้างขึ้นโดย Little Little ใช้แนวคิดนี้เพื่อสังเคราะห์ค่าที่ละเอียดอ่อนในไฟล์การใช้งานสาธารณะ[ 8 ]
งานในปี 1993 [ 9 ]ได้ปรับแบบจำลองทางสถิติให้เข้ากับ ตัวเลข MNIST จำนวน 60,000 ตัว จากนั้นจึงใช้แบบจำลองดังกล่าวในการสร้างตัวอย่างมากกว่า 1 ล้านตัวอย่าง ซึ่งใช้ในการฝึกLeNet-4เพื่อให้ได้ประสิทธิภาพที่ทันสมัยที่สุด[ 10 ] : 173
ในปี พ.ศ. 2537 Stephen Fienbergได้นำเสนอ 'การปรับปรุงที่สำคัญ' ซึ่งใช้การแจกแจงการทำนายแบบเบื้องหลังเชิงพาราเมตริก (แทนที่จะใช้ Bayes bootstrap) ในการสุ่มตัวอย่าง[ 7 ]ต่อมา ผู้มีส่วนร่วมสำคัญอื่นๆ ในการพัฒนาการสร้างข้อมูลสังเคราะห์ ได้แก่Trivellore Raghunathan , Jerry Reiter , Donald Rubin , John M. AbowdและJim Woodcock พวกเขาร่วมกันคิดค้นวิธีการจัดการกับข้อมูลสังเคราะห์บางส่วนที่มีข้อมูลที่หายไป ในทำนองเดียวกัน พวกเขาได้พัฒนาเทคนิคการเติมข้อมูลแบบหลายตัวแปร การถดถอยตามลำดับ[ 7 ]
การคำนวณ
นักวิจัยทดสอบเฟรมเวิร์กบนข้อมูลสังเคราะห์ ซึ่งเป็น "แหล่งข้อมูลความจริงพื้นฐานเพียงแหล่งเดียวที่พวกเขาสามารถประเมินประสิทธิภาพของอัลกอริธึม ได้อย่างเป็นกลาง " [ 11 ]
สามารถสร้างข้อมูลสังเคราะห์ได้โดยใช้เส้นสุ่มที่มีทิศทางและตำแหน่งเริ่มต้นที่แตกต่างกัน[ 12 ]ชุดข้อมูลอาจมีความซับซ้อนมากขึ้น สามารถสร้างชุดข้อมูลที่ซับซ้อนมากขึ้นได้โดยใช้การสร้างตัวสังเคราะห์ ในการสร้างตัวสังเคราะห์ ขั้นแรกให้ใช้ข้อมูลดั้งเดิมเพื่อสร้างแบบจำลองหรือสมการที่เหมาะสมกับข้อมูลได้ดีที่สุด แบบจำลองหรือสมการนี้จะเรียกว่าตัวสังเคราะห์ การสร้างนี้สามารถใช้เพื่อสร้างข้อมูลเพิ่มเติมได้[ 13 ]
การสร้างตัวสังเคราะห์เกี่ยวข้องกับการสร้างแบบจำลองทางสถิติใน ตัวอย่างเส้น ถดถอยเชิงเส้นข้อมูลดั้งเดิมสามารถพล็อตได้ และ สามารถสร้าง เส้นตรง ที่เหมาะสมที่สุด จากข้อมูลได้เส้น นี้ คือตัวสังเคราะห์ที่สร้างขึ้นจากข้อมูลดั้งเดิม ขั้นตอนต่อไปคือการสร้างข้อมูลสังเคราะห์เพิ่มเติมจากตัวสังเคราะห์หรือจากสมการเส้นตรงนี้ ด้วยวิธีนี้ ข้อมูลใหม่สามารถนำไปใช้ในการศึกษาและวิจัยได้ และยังช่วยปกป้องความลับของข้อมูลดั้งเดิมอีกด้วย[ 13 ]
David Jensen จากห้องปฏิบัติการการค้นพบความรู้ อธิบายวิธีการสร้างข้อมูลสังเคราะห์ว่า "นักวิจัยมักต้องการสำรวจผลกระทบของลักษณะข้อมูลบางอย่างต่อแบบจำลองข้อมูล ของพวกเขา " [ 13 ]เพื่อช่วยสร้างชุดข้อมูลที่แสดงคุณสมบัติเฉพาะ เช่นความสัมพันธ์อัตโนมัติหรือความแตกต่างของระดับ ความใกล้เคียงสามารถสร้างข้อมูลสังเคราะห์ที่มีโครงสร้างกราฟได้หลายประเภท ได้แก่กราฟสุ่มที่สร้างขึ้นโดยกระบวนการสุ่ม บาง อย่างกราฟแลตติสที่มีโครงสร้างวงแหวนกราฟแลตติสที่มีโครงสร้างตาราง เป็นต้น[ 13 ] ในทุกกรณี กระบวนการสร้างข้อมูลจะเป็นไปตามกระบวนการเดียวกัน:
- สร้างโครงสร้างกราฟ ว่าง เปล่า
- สร้างค่าคุณลักษณะโดยอิงจากความน่าจะเป็นเบื้องต้นที่ผู้ใช้กำหนด
เนื่องจากค่าคุณลักษณะของวัตถุหนึ่งอาจขึ้นอยู่กับค่าคุณลักษณะของวัตถุที่เกี่ยวข้อง กระบวนการสร้างคุณลักษณะจึงกำหนดค่าร่วมกัน[ 13 ]
แอปพลิเคชัน
ระบบตรวจจับการฉ้อโกงและการรักษาความลับ
การทดสอบและการฝึกอบรม ระบบตรวจจับ การฉ้อโกงและการรักษาความลับนั้นถูกออกแบบโดยใช้ข้อมูลสังเคราะห์ อัลกอริทึมและตัวสร้างเฉพาะได้รับการออกแบบเพื่อสร้างข้อมูลที่สมจริง[ 14 ]ซึ่งจะช่วยในการสอนระบบให้ตอบสนองต่อสถานการณ์หรือเกณฑ์บางอย่าง ตัวอย่างเช่น ซอฟต์แวร์ตรวจจับการบุกรุกจะถูกทดสอบโดยใช้ข้อมูลสังเคราะห์ ข้อมูลนี้เป็นตัวแทนของข้อมูลจริงและอาจรวมถึงกรณีการบุกรุกที่ไม่พบในข้อมูลจริง ข้อมูลสังเคราะห์ช่วยให้ซอฟต์แวร์สามารถจดจำสถานการณ์เหล่านี้และตอบสนองได้อย่างเหมาะสม หากไม่ได้ใช้ข้อมูลสังเคราะห์ ซอฟต์แวร์จะได้รับการฝึกฝนให้ตอบสนองต่อสถานการณ์ที่ได้รับจากข้อมูลจริงเท่านั้น และอาจไม่สามารถจดจำการบุกรุกประเภทอื่นได้[ 4 ]
การวิจัยทางวิทยาศาสตร์
นักวิจัยที่ทำการทดลองทางคลินิกหรือการวิจัยอื่น ๆ อาจสร้างข้อมูลสังเคราะห์เพื่อช่วยสร้างฐานข้อมูลพื้นฐานสำหรับการศึกษาและการทดสอบในอนาคต
ข้อมูลจริงอาจมีข้อมูลที่นักวิจัยอาจไม่ต้องการเปิดเผย[ 15 ]ดังนั้นบางครั้งจึงใช้ข้อมูลสังเคราะห์เพื่อปกป้องความเป็นส่วนตัวและความลับของชุดข้อมูล การใช้ข้อมูลสังเคราะห์ช่วยลดปัญหาความลับและความเป็นส่วนตัว เนื่องจากไม่มีข้อมูลส่วนบุคคลและไม่สามารถติดตามกลับไปยังบุคคลใดบุคคลหนึ่งได้
นอกเหนือจากการปกป้องความเป็นส่วนตัวแล้ว ข้อมูลสังเคราะห์ยังถูกสำรวจเพื่อสร้างนวัตกรรมเชิงวิธีการในการพัฒนายา ตัวอย่างเช่น ข้อมูลสังเคราะห์อาจถูกนำมาใช้เพื่อสร้างกลุ่มควบคุมสังเคราะห์เพื่อเป็นทางเลือกแทนกลุ่มควบคุมภายนอกแบบดั้งเดิมที่อิงตามข้อมูลจริง (RWD) หรือการทดลองแบบสุ่มที่มีกลุ่มควบคุม (RCT) โดยรวมแล้ว หน่วยงานกำกับดูแล เช่น FDA และ EMA ดูเหมือนจะอยู่ในขั้นตอนต่างๆ ของการรับรู้และบูรณาการข้อมูลสังเคราะห์ที่สร้างโดย AI เข้ากับวิธีการของตน แม้ว่าจะมีความเห็นพ้องต้องกันมากขึ้นเกี่ยวกับศักยภาพของข้อมูลดังกล่าวในการสนับสนุนการพัฒนารูปแบบและวงจรชีวิตที่กว้างขึ้นของผลิตภัณฑ์ยา แต่จนถึงปัจจุบันยังไม่มีผลิตภัณฑ์ยาหรืออุปกรณ์ทางการแพทย์ใดได้รับการอนุมัติโดยใช้ข้อมูลสังเคราะห์เพียงอย่างเดียวหรือส่วนใหญ่ โดยเฉพาะอย่างยิ่งในฐานะกลุ่มเปรียบเทียบที่สร้างขึ้นโดยสมบูรณ์ผ่านอัลกอริทึมที่ขับเคลื่อนด้วยข้อมูล คุณภาพและการจัดการทางสถิติของข้อมูลสังเคราะห์คาดว่าจะมีความสำคัญมากขึ้นในการอภิปรายด้านกฎระเบียบในอนาคต โดยเฉพาะอย่างยิ่งในบริบทต่างๆ เช่น การสร้างแบบจำลองเชิงพยากรณ์ (เช่น ดิจิทัลทวิน) ซึ่งมีการอ้างอิงถึงแนวทางที่เป็นนวัตกรรมแล้ว[ 16 ]
การเรียนรู้ของเครื่อง
ข้อมูลสังเคราะห์กำลังถูกนำมาใช้มากขึ้นเรื่อยๆ สำหรับ แอปพลิเคชัน การเรียนรู้ของเครื่อง : โมเดลได้รับการฝึกฝนบนชุดข้อมูลที่สร้างขึ้นโดยสังเคราะห์โดยมีจุดประสงค์เพื่อถ่ายโอนการเรียนรู้ไปยังข้อมูลจริง มีความพยายามที่จะทำให้ การทดลอง วิทยาศาสตร์ข้อมูล เป็นไปได้มากขึ้น ผ่านการสร้างตัวสร้างข้อมูลสังเคราะห์อเนกประสงค์ เช่น Synthetic Data Vault [ 17 ]โดยทั่วไป ข้อมูลสังเคราะห์มีข้อดีตามธรรมชาติหลายประการ:
- เมื่อสภาพแวดล้อมจำลองพร้อมแล้ว การผลิตข้อมูลจำนวนมากตามต้องการก็จะทำได้อย่างรวดเร็วและประหยัดค่าใช้จ่าย
- ข้อมูลสังเคราะห์สามารถมีป้ายกำกับที่ถูกต้องแม่นยำได้อย่างสมบูรณ์ รวมถึงป้ายกำกับที่อาจมีราคาแพงมากหรือเป็นไปไม่ได้ที่จะได้มาด้วยมือ
- สภาพแวดล้อมจำลองสามารถปรับเปลี่ยนได้เพื่อปรับปรุงแบบจำลองและการฝึกอบรม
- ข้อมูลสังเคราะห์สามารถใช้ทดแทนข้อมูลจริงบางส่วนที่มีข้อมูลสำคัญ เช่น ข้อมูลที่มีความอ่อนไหวได้
การใช้ข้อมูลสังเคราะห์นี้ได้รับการเสนอสำหรับแอปพลิเคชันการมองเห็นด้วยคอมพิวเตอร์ โดยเฉพาะอย่างยิ่งการตรวจจับวัตถุซึ่งสภาพแวดล้อมสังเคราะห์เป็นแบบจำลอง 3 มิติของวัตถุ[ 18 ]และการเรียนรู้การนำทางสภาพแวดล้อมโดยใช้ข้อมูลภาพ
ในบริบทของ การฝึก โมเดลภาษาขนาดใหญ่การสร้างข้อมูลสังเคราะห์ได้กลายเป็นองค์ประกอบหลักของกระบวนการหลังการฝึก เทคนิคต่างๆ เช่น Self-Instruct ซึ่งใช้ชุดข้อมูลเริ่มต้นขนาดเล็กจำนวน 175 คำแนะนำที่เขียนโดยมนุษย์เพื่อสร้างตัวอย่างการปฏิบัติตามคำแนะนำสังเคราะห์จำนวน 52,000 ตัวอย่าง และ Persona Hub ซึ่งสร้างบุคลิกสังเคราะห์มากกว่าหนึ่งพันล้านรายการสำหรับการสร้างคำแนะนำที่หลากหลาย ทำให้สามารถสร้างชุดข้อมูลการฝึกอบรมขนาดใหญ่ได้ในราคาที่ต่ำกว่าการติดป้ายกำกับโดยมนุษย์มาก[ 19 ]
ในขณะเดียวกัน การเรียนรู้แบบถ่ายโอนยังคงเป็นปัญหาที่ไม่ธรรมดา และข้อมูลสังเคราะห์ยังไม่แพร่หลาย ผลการวิจัยชี้ให้เห็นว่าการเพิ่มข้อมูลจริงจำนวนเล็กน้อยช่วยปรับปรุงการเรียนรู้แบบถ่ายโอนด้วยข้อมูลสังเคราะห์ได้อย่างมีนัยสำคัญ ความก้าวหน้าในเครือข่ายปฏิปักษ์เชิงสร้าง (GAN) นำไปสู่แนวคิดที่เป็นธรรมชาติว่าเราสามารถสร้างข้อมูลแล้วนำไปใช้ในการฝึกอบรมได้ ตั้งแต่ปี 2016 เป็นต้นมา การฝึกอบรมแบบปฏิปักษ์ดังกล่าวได้ถูกนำมาใช้เพื่อสร้างข้อมูลสังเคราะห์ที่มีคุณภาพเพียงพอที่จะสร้างผลลัพธ์ที่ทันสมัยในบางโดเมน โดยไม่จำเป็นต้องผสมข้อมูลจริงเข้ากับข้อมูลสังเคราะห์ที่สร้างขึ้นอีกด้วย[ 20 ]
ตัวอย่าง
ในปี พ.ศ. 2530 ยานพาหนะอัตโนมัติ ของ Navlabใช้ภาพถนนสังเคราะห์จำนวน 1200 ภาพเป็นแนวทางหนึ่งในการฝึกอบรม[ 21 ]
ในปี 2021 ไมโครซอฟต์ได้เผยแพร่ฐานข้อมูลใบหน้าสังเคราะห์จำนวน 100,000 ใบหน้า (โดยอิงจากใบหน้าจริง 500 ใบหน้า) ซึ่งอ้างว่า "ตรงกับข้อมูลจริงในด้านความแม่นยำ" [ 21 ] [ 22 ]
ในปี 2023 วารสาร Natureได้ตีพิมพ์หน้าปก ชุด Nature's 10ซึ่งออกแบบโดยKim Albrechtจากโครงการ "Artificial Worldviews" [ 23 ]หน้าปกดังกล่าวมีแผนที่แสดงจุดข้อมูลที่สร้างขึ้นโดยสังเคราะห์มากกว่า 18,000 จุด ซึ่งได้รับแรงบันดาลใจจากChatGPTในหมวดหมู่ความรู้
DataFramer ได้เผยแพร่ชุดข้อมูลบนHugging Faceรวมถึงehr-multi-file-patient-samplesซึ่งเป็นชุดข้อมูลประวัติผู้ป่วยแบบหลายไฟล์สังเคราะห์[ 24 ]และINSURE-Dialซึ่งเป็นชุดข้อมูลบทสนทนาสำหรับการตรวจจับขั้นตอนการโทรประกันภัยและการตรวจสอบการปฏิบัติตาม[ 25 ]
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ข้อมูลสังเคราะห์
ข้อมูลสังเคราะห์คือข้อมูล ที่สร้างขึ้นโดยเทียม ไม่ได้เกิดจากเหตุการณ์ในโลกแห่งความเป็นจริง โดยทั่วไปสร้างขึ้นโดยใช้อัลกอริธึม
ประโยชน์ใช้สอย
ข้อมูลสังเคราะห์ถูกสร้างขึ้นเพื่อตอบสนองความต้องการเฉพาะหรือเงื่อนไขบางประการที่อาจไม่พบในข้อมูลจริงดั้งเดิม อุปสรรคประการหนึ่งในการประยุกต์ใช้แนวทางการเรียนรู้ของเครื่องที่ทันสมัยสำหรับงานทางวิทยาศาสตร์ที่ซับซ้อนคือการขาดแคลนข้อมูลที่มีป้ายกำกับ...
ประวัติศาสตร์
การสร้างแบบจำลองทางวิทยาศาสตร์ ของระบบทางกายภาพมีประวัติศาสตร์อันยาวนานที่ดำเนินไปพร้อมกับ ประวัติศาสตร์ของฟิสิกส์ ตัวอย่างเช่น การวิจัยเกี่ยวกับการสังเคราะห์ เสียง และ คำพูด สามารถสืบย้อนไปได้ถึงช่วงทศวรรษ 1930 และก่อนหน้านั้น...
การคำนวณ
นักวิจัยทดสอบเฟรมเวิร์กบนข้อมูลสังเคราะห์ ซึ่งเป็น "แหล่งข้อมูลความจริงพื้นฐานเพียงแหล่งเดียวที่พวกเขาสามารถประเมินประสิทธิภาพของ อัลกอริธึม ได้อย่างเป็นกลาง " [ 11 ]