Grokking (การเรียนรู้ของเครื่องจักร)

Q: ข้อมูลสำคัญเกี่ยวกับ Grokking (การเรียนรู้ของเครื่องจักร)

ใน การเรียนรู้ ของเครื่อง การ เข้าใจอย่างถ่องแท้หรือการสรุปผลแบบล่าช้าเป็นปรากฏการณ์ที่สังเกตได้ในบางสถานการณ์ที่แบบจำลองเปลี่ยนจากการโอเวอร์ฟิตติ้ง (ทำงานได้ดีเฉพาะกับข้อมูลฝึกฝน.

Q: ดูเพิ่มเติม

โอเวอร์ฟิตติ้ง ข้อผิดพลาดในการสรุปทั่วไป การลงสองครั้ง เคอร์เนลแทนเจนต์ประสาท การเรียนรู้คุณลักษณะ การแฮ็กรางวัล การจัดเรียง AI วิธีการคอขวดข้อมูล การทำให้เป็นระเบียบ (คณิตศาสตร์) ทฤษฎีการเรียนรู้เชิงสถิติ

ใน การเรียนรู้ ของเครื่อง การ เข้าใจอย่างถ่องแท้หรือการสรุปผลแบบล่าช้าเป็นปรากฏการณ์ที่สังเกตได้ในบางสถานการณ์ที่แบบจำลองเปลี่ยนจากการโอเวอร์ฟิตติ้ง (ทำงานได้ดีเฉพาะกับข้อมูลฝึกฝน ) ไปสู่การสรุปผล (ทำงานได้ดีทั้งกับข้อมูลฝึกฝนและข้อมูลทดสอบ) อย่างกะทันหัน หลังจากฝึกฝนหลายรอบโดยมีการปรับปรุงเพียงเล็กน้อยหรือไม่ปรับปรุงเลยในข้อมูลที่แยกไว้^{[ 2 ]}^{: 2}สิ่งนี้แตกต่างจากสิ่งที่สังเกตได้โดยทั่วไปในการเรียนรู้ของเครื่อง ซึ่งการสรุปผลเกิดขึ้นอย่างค่อยเป็นค่อยไปพร้อมกับประสิทธิภาพที่ดีขึ้นในข้อมูลฝึกฝน^{[ 3 ]}^{[ 4 ]}

ต้นทาง

คำว่าgrokkingถูกนำเสนอโดย Alethea Power นักวิจัย ของ OpenAIและเพื่อนร่วมงานในบทความเดือนมกราคม 2022 เรื่อง "Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets" ^{[ 2 ]}คำนี้มาจากคำว่าgrokที่Robert Heinlein บัญญัติขึ้น ในนวนิยายเรื่องStranger in a Strange Land [ ^{1 ] ใน} งานวิจัยด้าน ML คำว่า "grokking" ไม่ได้ถูกใช้เป็นคำพ้องความหมายกับ "generalization" แต่เป็นชื่อเรียกปรากฏการณ์การฝึกอบรมแบบ generalization ที่ล่าช้าซึ่งบางครั้งพบเห็นได้ โดยที่ประสิทธิภาพในการฝึกอบรมและประสิทธิภาพในการทดสอบไม่ได้พัฒนาไปพร้อมกัน และประสิทธิภาพในการทดสอบจะเพิ่มขึ้นอย่างฉับพลันหลังจากช่วงเวลาอันยาวนานที่ประสิทธิภาพในการทดสอบได้ถึงค่าสูงสุดแล้ว ผู้เขียนยังวิเคราะห์ "grokking time" ซึ่งเป็นยุคหรือขั้นตอนที่การเปลี่ยนแปลงนี้เกิดขึ้นในสถานการณ์เหล่านั้น^{[ 2 ]}^{: 10}

การตีความ

Grokking สามารถเข้าใจได้ว่าเป็นการเปลี่ยนเฟสระหว่างกระบวนการฝึกฝน^{[ 5 ]}โดยเฉพาะอย่างยิ่ง งานวิจัยล่าสุดแสดงให้เห็นว่า grokking อาจเกิดจาก การเปลี่ยนแปลงเฟส ความซับซ้อนในแบบจำลองระหว่างการฝึกฝน^{[ 6 ]}แม้ว่า grokking จะถูกมองว่าเป็นปรากฏการณ์ของแบบจำลองที่ค่อนข้างตื้นเป็นส่วนใหญ่ แต่ก็มีการสังเกตพบ grokking ในเครือข่ายประสาทเทียมเชิงลึกและแบบจำลองที่ไม่ใช่ประสาทเทียม และเป็นหัวข้อของการวิจัยที่กำลังดำเนินอยู่^{[ 7 ]}^{[ 8 ]}^{[ 9 ]}^{[ 10 ]}

คำอธิบายที่เป็นไปได้ประการหนึ่งคือการลดน้ำหนัก (ส่วนประกอบของฟังก์ชันการสูญเสียที่ลงโทษค่าพารามิเตอร์เครือข่ายประสาทที่สูงขึ้น หรือเรียกว่าการทำให้เป็นระเบียบ ) เอื้อประโยชน์เล็กน้อยต่อวิธีแก้ปัญหาทั่วไปที่ง่ายกว่า (เนื่องจากเกี่ยวข้องกับค่าน้ำหนักที่ต่ำกว่า) แต่ก็หาได้ยากกว่าเช่นกัน ตามที่ Neel Nanda กล่าวไว้ กระบวนการเรียนรู้วิธีแก้ปัญหาทั่วไปอาจค่อยเป็นค่อยไป แม้ว่าการเปลี่ยนไปสู่วิธีแก้ปัญหาทั่วไปจะเกิดขึ้นอย่างฉับพลันในภายหลังก็ตาม^{[ 1 ]}

ทฤษฎีล่าสุด^{[ 11 ]}^{[ 12 ]}ได้ตั้งสมมติฐานว่า grokking เกิดขึ้นเมื่อเครือข่ายประสาทเปลี่ยนจากระบอบ "การฝึกแบบขี้เกียจ" ^{[ 13 ]}ซึ่งน้ำหนักไม่เบี่ยงเบนไปจากค่าเริ่มต้นมากนัก ไปสู่ระบอบ "เข้มข้น" ซึ่งน้ำหนักเริ่มเคลื่อนที่ไปในทิศทางที่เกี่ยวข้องกับงานอย่างกะทันหัน งานเชิงประจักษ์และทฤษฎีที่ตามมา^{[ 14 ]}ได้สะสมหลักฐานสนับสนุนมุมมองนี้ และนำเสนอมุมมองที่เป็นเอกภาพของงานก่อนหน้านี้ เนื่องจากเป็นที่ทราบกันดีว่าการเปลี่ยนจากไดนามิกการฝึกแบบขี้เกียจไปสู่แบบเข้มข้นเกิดขึ้นจากคุณสมบัติของตัวเพิ่มประสิทธิภาพแบบปรับตัวได้^{[ 15 ]}การลดลงของน้ำหนัก^{[ 16 ]}บรรทัดฐานน้ำหนักพารามิเตอร์เริ่มต้น^{[ 9 ]}และอื่นๆ มุมมองนี้เป็นส่วนเสริมของกรอบงาน "ความเร็วในการเรียนรู้รูปแบบ" ที่เป็นเอกภาพซึ่งเชื่อมโยง grokking และdouble descent ภายใต้มุมมองนี้ การสรุปทั่วไปที่ล่าช้าสามารถเกิดขึ้นได้ตลอดช่วงเวลาการฝึกอบรม ("ตามยุคสมัย") หรือตามขนาดของโมเดล ("ตามโมเดล") และผู้เขียนรายงาน "การเข้าใจตามโมเดล" ^{[ 17 ]}

ดูเพิ่มเติม

แหล่งที่มา

Power, Alethea; Burda, Yuri; Edwards, Harri; Babuschkin, Igor; Misra, Vedant (2022-01-06). "Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets". arXiv : 2201.02177 [ cs.LG ].

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

Grokking (การเรียนรู้ของเครื่องจักร)

ต้นทาง

การตีความ

ดูเพิ่มเติม

แหล่งที่มา

ข้อมูลสำคัญจากบทความ