อ่าน 2 นาที
การฝึกอบรมร่วมกัน
การฝึกฝนร่วม (Co-training) เป็น อัลกอริธึม การเรียนรู้ของเครื่อง ที่ใช้เมื่อมี ข้อมูลที่มีป้ายกำกับ จำนวนน้อย และข้อมูลที่ไม่มีป้ายกำกับจำนวนมาก การใช้งานอย่างหนึ่งคือ...
การฝึกอบรมร่วมกัน
การฝึกฝนร่วม (Co-training)เป็นอัลกอริธึมการเรียนรู้ของเครื่อง ที่ใช้เมื่อมีข้อมูลที่มีป้ายกำกับ จำนวนน้อย และข้อมูลที่ไม่มีป้ายกำกับจำนวนมาก การใช้งานอย่างหนึ่งคือการทำเหมืองข้อความสำหรับเครื่องมือค้นหา อั ลกอริธึม นี้ได้รับการแนะนำโดยAvrim BlumและTom Mitchellในปี 1998
การออกแบบอัลกอริทึม
การฝึกร่วม (Co-training) เป็น เทคนิค การเรียนรู้แบบกึ่งกำกับดูแล (semi-supervised learning)ที่ต้องใช้ข้อมูลสองมุมมองโดยถือว่าแต่ละตัวอย่างจะถูกอธิบายโดยใช้ชุดคุณลักษณะสองชุดที่แตกต่างกัน ซึ่งให้ข้อมูลเสริมเกี่ยวกับอินสแตนซ์ ในอุดมคติแล้ว มุมมองทั้งสองจะมีความเป็นอิสระต่อกันแบบมีเงื่อนไข (กล่าวคือ ชุดคุณลักษณะสองชุดของแต่ละอินสแตนซ์มีความเป็นอิสระต่อกันแบบมีเงื่อนไขเมื่อพิจารณาจากคลาส) และแต่ละมุมมองก็เพียงพอ (กล่าวคือ สามารถทำนายคลาสของอินสแตนซ์ได้อย่างแม่นยำจากแต่ละมุมมองเพียงอย่างเดียว) การฝึกร่วมจะเรียนรู้ตัวจำแนกแยกต่างหากสำหรับแต่ละมุมมองโดยใช้ตัวอย่างที่มีป้ายกำกับก่อน จากนั้นจะใช้การทำนายที่มั่นใจที่สุดของตัวจำแนกแต่ละตัวบนข้อมูลที่ไม่มีป้ายกำกับเพื่อสร้างข้อมูลการฝึกอบรม ที่มีป้ายกำกับเพิ่มเติมแบบ วน ซ้ำ [ 1 ]
เอกสารต้นฉบับเกี่ยวกับการฝึกร่วมกันได้อธิบายการทดลองโดยใช้การฝึกร่วมกันเพื่อจำแนกหน้าเว็บเป็น "หน้าแรกของหลักสูตรวิชาการ" หรือไม่ โดยตัวจำแนกสามารถจัดหมวดหมู่หน้าเว็บ 788 หน้าได้อย่างถูกต้อง 95% โดยใช้เพียง 12 หน้าเว็บที่มีป้ายกำกับเป็นตัวอย่าง[ 2 ]เอกสารนี้ได้รับการอ้างอิงมากกว่า 1,000 ครั้ง และได้รับรางวัล Best Paper Award ในรอบ 10 ปี ในการประชุมนานาชาติว่าด้วยการเรียนรู้ของเครื่อง ครั้งที่ 25 ( ICML 2008) ซึ่งเป็นการประชุมด้านวิทยาศาสตร์คอมพิวเตอร์ ที่มีชื่อเสียง [ 3 ] [ 4 ]
Krogel และ Scheffer แสดงให้เห็นในปี 2004 ว่าการฝึกร่วมกันจะมีประโยชน์ก็ต่อเมื่อชุดข้อมูลเป็นอิสระต่อกัน กล่าวคือ หากตัวจำแนกประเภทตัวใดตัวหนึ่งติดป้ายกำกับจุดข้อมูลได้อย่างถูกต้อง ในขณะที่ตัวจำแนกประเภทอีกตัวหนึ่งเคยจำแนกผิดมาก่อน หากตัวจำแนกประเภทเห็นพ้องต้องกันในข้อมูลที่ไม่ได้ติดป้ายกำกับทั้งหมด กล่าวคือ พวกมันขึ้นอยู่กัน การติดป้ายกำกับข้อมูลจะไม่สร้างข้อมูลใหม่ ในการทดลองที่การขึ้นอยู่กันของตัวจำแนกประเภทมีมากกว่า 60% ผลลัพธ์กลับแย่ลง[ 5 ]
การใช้งาน
การฝึกร่วม (Co-training) ถูกนำมาใช้ในการจำแนกประเภทเว็บเพจโดยใช้ข้อความบนหน้าเว็บเป็นมุมมองหนึ่ง และข้อความแองเคอร์ของไฮเปอร์ลิงก์บนหน้าเว็บอื่นที่ชี้ไปยังหน้าเว็บนั้นเป็นอีกมุมมองหนึ่ง กล่าวโดยง่าย ข้อความในไฮเปอร์ลิงก์บนหน้าเว็บหนึ่งสามารถให้ข้อมูลเกี่ยวกับหน้าเว็บที่เชื่อมโยงไปได้[ 2 ]การฝึกร่วมสามารถทำงานกับข้อความที่ "ไม่มีป้ายกำกับ" ซึ่งยังไม่ได้ถูกจำแนกหรือติดแท็กซึ่งเป็นเรื่องปกติสำหรับข้อความที่ปรากฏบนเว็บเพจและในอีเมล ตามที่ Tom Mitchell กล่าวไว้ว่า "คุณลักษณะที่อธิบายหน้าเว็บคือคำบนหน้าเว็บและลิงก์ที่ชี้ไปยังหน้าเว็บนั้น โมเดลการฝึกร่วมใช้ตัวจำแนกทั้งสองเพื่อกำหนดความเป็นไปได้ที่หน้าเว็บจะมีข้อมูลที่เกี่ยวข้องกับเกณฑ์การค้นหา" ข้อความบนเว็บไซต์สามารถตัดสินความเกี่ยวข้องของตัวจำแนกลิงก์ได้ ดังนั้นจึงใช้คำว่า "การฝึกร่วม" Mitchell อ้างว่าอัลกอริทึมการค้นหาอื่นๆ มีความแม่นยำ 86% ในขณะที่การฝึกร่วมมีความแม่นยำ 96% [ 6 ]
การฝึกอบรมร่วมกันถูกนำมาใช้ใน FlipDog.com ซึ่งเป็นเว็บไซต์หางาน และโดยกระทรวงแรงงานของสหรัฐอเมริกาสำหรับรายชื่อหลักสูตรการศึกษาต่อเนื่องและการศึกษาทางไกล[ 6 ]มีการนำไปใช้ในแอปพลิเคชันอื่นๆ อีกมากมาย รวมถึงการวิเคราะห์ทางสถิติและการตรวจจับภาพ[ 7 ]
ลิงก์ภายนอก
- การบรรยายโดยทอม มิตเชลล์ แนะนำการฝึกฝนร่วม (co-training) และการเรียนรู้ของเครื่องแบบกึ่งกำกับดูแล (semi-supervised machine learning) อื่นๆ สำหรับใช้กับข้อมูลที่ไม่มีป้ายกำกับ
- การบรรยายโดย Avrim Blum เกี่ยวกับการเรียนรู้แบบกึ่งกำกับดูแล รวมถึงการฝึกอบรมร่วมกัน
- กลุ่มฝึกอบรมร่วมที่ศูนย์วิทยาศาสตร์การเรียนรู้พิตต์สเบิร์ก
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การฝึกอบรมร่วมกัน
การฝึกฝนร่วม (Co-training) เป็น อัลกอริธึม การเรียนรู้ของเครื่อง ที่ใช้เมื่อมี ข้อมูลที่มีป้ายกำกับ จำนวนน้อย และข้อมูลที่ไม่มีป้ายกำกับจำนวนมาก การใช้งานอย่างหนึ่งคือ...
การออกแบบอัลกอริทึม
การฝึกร่วม (Co-training) เป็น เทคนิค การเรียนรู้แบบกึ่งกำกับดูแล (semi-supervised learning) ที่ต้องใช้ข้อมูลสอง มุมมอง โดยถือว่าแต่ละตัวอย่างจะถูกอธิบายโดยใช้ชุดคุณลักษณะสองชุดที่แตกต่างกัน ซึ่งให้ข้อมูลเสริมเกี่ยวกับอินสแตนซ์ ในอุดมคติแล้ว มุมมองทั้งสองจะ...
การใช้งาน
การฝึกร่วม (Co-training) ถูกนำมาใช้ในการจำแนกประเภทเว็บเพจโดยใช้ข้อความบนหน้าเว็บเป็นมุมมองหนึ่ง และ ข้อความแองเคอร์ ของ ไฮเปอร์ลิงก์ บนหน้าเว็บอื่นที่ชี้ไปยังหน้าเว็บนั้นเป็นอีกมุมมองหนึ่ง กล่าวโดยง่าย...
ลิงก์ภายนอก
การบรรยายโดยทอม มิตเชลล์ แนะนำการฝึกฝนร่วม (co-training) และการเรียนรู้ของเครื่องแบบกึ่งกำกับดูแล (semi-supervised machine learning) อื่นๆ สำหรับใช้กับข้อมูลที่ไม่มีป้ายกำกับ การบรรยายโดย Avrim Blum เกี่ยวกับการเรียนรู้แบบกึ่งกำกับดูแล รวมถึงการฝึกอบรมร่วมกัน...