อ่าน 4 นาที
Grokking (การเรียนรู้ของเครื่องจักร)
ใน การเรียนรู้ ของเครื่อง การ เข้าใจอย่างถ่องแท้หรือการสรุปผลแบบล่าช้าเป็นปรากฏการณ์ที่สังเกตได้ในบางสถานการณ์ที่แบบจำลองเปลี่ยนจากการโอเวอร์ฟิตติ้ง (ทำงานได้ดีเฉพาะกับข้อมูลฝึกฝน.
Grokking (การเรียนรู้ของเครื่องจักร)

ใน การเรียนรู้ ของเครื่อง การ เข้าใจอย่างถ่องแท้หรือการสรุปผลแบบล่าช้าเป็นปรากฏการณ์ที่สังเกตได้ในบางสถานการณ์ที่แบบจำลองเปลี่ยนจากการโอเวอร์ฟิตติ้ง (ทำงานได้ดีเฉพาะกับข้อมูลฝึกฝน ) ไปสู่การสรุปผล (ทำงานได้ดีทั้งกับข้อมูลฝึกฝนและข้อมูลทดสอบ) อย่างกะทันหัน หลังจากฝึกฝนหลายรอบโดยมีการปรับปรุงเพียงเล็กน้อยหรือไม่ปรับปรุงเลยในข้อมูลที่แยกไว้[ 2 ] : 2สิ่งนี้แตกต่างจากสิ่งที่สังเกตได้โดยทั่วไปในการเรียนรู้ของเครื่อง ซึ่งการสรุปผลเกิดขึ้นอย่างค่อยเป็นค่อยไปพร้อมกับประสิทธิภาพที่ดีขึ้นในข้อมูลฝึกฝน[ 3 ] [ 4 ]
ต้นทาง
คำว่าgrokkingถูกนำเสนอโดย Alethea Power นักวิจัย ของ OpenAIและเพื่อนร่วมงานในบทความเดือนมกราคม 2022 เรื่อง "Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets" [ 2 ]คำนี้มาจากคำว่าgrokที่Robert Heinlein บัญญัติขึ้น ในนวนิยายเรื่องStranger in a Strange Land [ 1 ] ใน งานวิจัยด้าน ML คำว่า "grokking" ไม่ได้ถูกใช้เป็นคำพ้องความหมายกับ "generalization" แต่เป็นชื่อเรียกปรากฏการณ์การฝึกอบรมแบบ generalization ที่ล่าช้าซึ่งบางครั้งพบเห็นได้ โดยที่ประสิทธิภาพในการฝึกอบรมและประสิทธิภาพในการทดสอบไม่ได้พัฒนาไปพร้อมกัน และประสิทธิภาพในการทดสอบจะเพิ่มขึ้นอย่างฉับพลันหลังจากช่วงเวลาอันยาวนานที่ประสิทธิภาพในการทดสอบได้ถึงค่าสูงสุดแล้ว ผู้เขียนยังวิเคราะห์ "grokking time" ซึ่งเป็นยุคหรือขั้นตอนที่การเปลี่ยนแปลงนี้เกิดขึ้นในสถานการณ์เหล่านั้น[ 2 ] : 10
การตีความ
Grokking สามารถเข้าใจได้ว่าเป็นการเปลี่ยนเฟสระหว่างกระบวนการฝึกฝน[ 5 ]โดยเฉพาะอย่างยิ่ง งานวิจัยล่าสุดแสดงให้เห็นว่า grokking อาจเกิดจาก การเปลี่ยนแปลงเฟส ความซับซ้อนในแบบจำลองระหว่างการฝึกฝน[ 6 ]แม้ว่า grokking จะถูกมองว่าเป็นปรากฏการณ์ของแบบจำลองที่ค่อนข้างตื้นเป็นส่วนใหญ่ แต่ก็มีการสังเกตพบ grokking ในเครือข่ายประสาทเทียมเชิงลึกและแบบจำลองที่ไม่ใช่ประสาทเทียม และเป็นหัวข้อของการวิจัยที่กำลังดำเนินอยู่[ 7 ] [ 8 ] [ 9 ] [ 10 ]
คำอธิบายที่เป็นไปได้ประการหนึ่งคือการลดน้ำหนัก (ส่วนประกอบของฟังก์ชันการสูญเสียที่ลงโทษค่าพารามิเตอร์เครือข่ายประสาทที่สูงขึ้น หรือเรียกว่าการทำให้เป็นระเบียบ ) เอื้อประโยชน์เล็กน้อยต่อวิธีแก้ปัญหาทั่วไปที่ง่ายกว่า (เนื่องจากเกี่ยวข้องกับค่าน้ำหนักที่ต่ำกว่า) แต่ก็หาได้ยากกว่าเช่นกัน ตามที่ Neel Nanda กล่าวไว้ กระบวนการเรียนรู้วิธีแก้ปัญหาทั่วไปอาจค่อยเป็นค่อยไป แม้ว่าการเปลี่ยนไปสู่วิธีแก้ปัญหาทั่วไปจะเกิดขึ้นอย่างฉับพลันในภายหลังก็ตาม[ 1 ]
ทฤษฎีล่าสุด[ 11 ] [ 12 ]ได้ตั้งสมมติฐานว่า grokking เกิดขึ้นเมื่อเครือข่ายประสาทเปลี่ยนจากระบอบ "การฝึกแบบขี้เกียจ" [ 13 ]ซึ่งน้ำหนักไม่เบี่ยงเบนไปจากค่าเริ่มต้นมากนัก ไปสู่ระบอบ "เข้มข้น" ซึ่งน้ำหนักเริ่มเคลื่อนที่ไปในทิศทางที่เกี่ยวข้องกับงานอย่างกะทันหัน งานเชิงประจักษ์และทฤษฎีที่ตามมา[ 14 ]ได้สะสมหลักฐานสนับสนุนมุมมองนี้ และนำเสนอมุมมองที่เป็นเอกภาพของงานก่อนหน้านี้ เนื่องจากเป็นที่ทราบกันดีว่าการเปลี่ยนจากไดนามิกการฝึกแบบขี้เกียจไปสู่แบบเข้มข้นเกิดขึ้นจากคุณสมบัติของตัวเพิ่มประสิทธิภาพแบบปรับตัวได้[ 15 ]การลดลงของน้ำหนัก[ 16 ]บรรทัดฐานน้ำหนักพารามิเตอร์เริ่มต้น[ 9 ]และอื่นๆ มุมมองนี้เป็นส่วนเสริมของกรอบงาน "ความเร็วในการเรียนรู้รูปแบบ" ที่เป็นเอกภาพซึ่งเชื่อมโยง grokking และdouble descent ภายใต้มุมมองนี้ การสรุปทั่วไปที่ล่าช้าสามารถเกิดขึ้นได้ตลอดช่วงเวลาการฝึกอบรม ("ตามยุคสมัย") หรือตามขนาดของโมเดล ("ตามโมเดล") และผู้เขียนรายงาน "การเข้าใจตามโมเดล" [ 17 ]
ดูเพิ่มเติม
- โอเวอร์ฟิตติ้ง
- ข้อผิดพลาดในการสรุปทั่วไป
- การลงสองครั้ง
- เคอร์เนลแทนเจนต์ประสาท
- การเรียนรู้คุณลักษณะ
- การแฮ็กรางวัล
- การจัดเรียง AI
- วิธีการคอขวดข้อมูล
- การทำให้เป็นระเบียบ (คณิตศาสตร์)
- ทฤษฎีการเรียนรู้เชิงสถิติ
แหล่งที่มา
- Power, Alethea; Burda, Yuri; Edwards, Harri; Babuschkin, Igor; Misra, Vedant (2022-01-06). "Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets". arXiv : 2201.02177 [ cs.LG ].
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ Grokking (การเรียนรู้ของเครื่องจักร)
ใน การเรียนรู้ ของเครื่อง การ เข้าใจอย่างถ่องแท้หรือการสรุปผลแบบล่าช้าเป็นปรากฏการณ์ที่สังเกตได้ในบางสถานการณ์ที่แบบจำลองเปลี่ยนจากการโอเวอร์ฟิตติ้ง (ทำงานได้ดีเฉพาะกับข้อมูลฝึกฝน.
ต้นทาง
คำว่า grokking ถูกนำเสนอโดย Alethea Power นักวิจัย ของ OpenAI และเพื่อนร่วมงานในบทความเดือนมกราคม 2022 เรื่อง "Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets" [ 2 ] คำนี้มาจากคำว่า grok ที่ Robert Heinlein บัญญัติขึ้น...
การตีความ
Grokking สามารถเข้าใจได้ว่าเป็นการ เปลี่ยนเฟส ระหว่างกระบวนการฝึกฝน [ 5 ] โดยเฉพาะอย่างยิ่ง งานวิจัยล่าสุดแสดงให้เห็นว่า grokking อาจเกิดจาก การเปลี่ยนแปลงเฟส ความซับซ้อน ในแบบจำลองระหว่างการฝึกฝน [ 6 ] แม้ว่า grokking...
ดูเพิ่มเติม
โอเวอร์ฟิตติ้ง ข้อผิดพลาดในการสรุปทั่วไป การลงสองครั้ง เคอร์เนลแทนเจนต์ประสาท การเรียนรู้คุณลักษณะ การแฮ็กรางวัล การจัดเรียง AI วิธีการคอขวดข้อมูล การทำให้เป็นระเบียบ (คณิตศาสตร์) ทฤษฎีการเรียนรู้เชิงสถิติ