อัตราการเรียนรู้

Q: ดูเพิ่มเติม

ไฮเปอร์พารามิเตอร์ (การเรียนรู้ของเครื่อง) การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ การไล่ระดับแบบสุ่ม วิธีการวัดตัวแปร โอเวอร์ฟิตติ้ง การแพร่กระจายย้อนกลับ ออโต้เอ็มแอล การเลือกแบบจำลอง การปรับแต่งอัตโนมัติ

ในการเรียนรู้ของเครื่องและสถิติ อัตรา การเรียนรู้เป็นพารามิเตอร์การปรับแต่งในอัลกอริธึมการเพิ่มประสิทธิภาพที่กำหนดขนาดขั้นตอนในแต่ละรอบการทำซ้ำในขณะที่เคลื่อนไปสู่ค่าต่ำสุดของฟังก์ชันการสูญเสีย^{[ 1 ]}เนื่องจากมีอิทธิพลต่อขอบเขตที่ข้อมูลที่ได้รับใหม่จะแทนที่ข้อมูลเก่า จึงเปรียบเสมือนความเร็วที่แบบจำลองการเรียนรู้ของเครื่อง "เรียนรู้" ใน วรรณกรรมเกี่ยว กับการควบคุมแบบปรับตัวอัตราการเรียนรู้มักถูกเรียกว่ากำไร^{[ 2 ]}

ในการกำหนดอัตราการเรียนรู้ จะมีการแลกเปลี่ยนระหว่างอัตราการบรรจบกันและการโอเวอร์ชูตในขณะที่ทิศทางการลดลงมักจะถูกกำหนดจากเกรเดียนต์ของฟังก์ชันการสูญเสีย อัตราการเรียนรู้จะกำหนดว่าก้าวใหญ่แค่ไหนในทิศทางนั้น อัตราการเรียนรู้ที่สูงเกินไปจะทำให้การเรียนรู้กระโดดข้ามจุดต่ำสุด แต่อัตราการเรียนรู้ที่ต่ำเกินไปจะใช้เวลานานเกินไปในการบรรจบกันหรือติดอยู่ในจุดต่ำสุดเฉพาะที่ที่ไม่พึงประสงค์^{[ 3 ]}

เพื่อให้เกิดการบรรจบกันที่เร็วขึ้น ป้องกันการแกว่งและการติดอยู่ในจุดต่ำสุดเฉพาะที่ที่ไม่พึงประสงค์ อัตราการเรียนรู้มักจะถูกปรับเปลี่ยนระหว่างการฝึกอบรม ไม่ว่าจะตามตารางอัตราการเรียนรู้หรือโดยใช้อัตราการเรียนรู้แบบปรับได้^{[ 4 ]}อัตราการเรียนรู้และการปรับเปลี่ยนอาจแตกต่างกันไปตามพารามิเตอร์ ซึ่งในกรณีนี้จะเป็นเมทริกซ์แนวทแยงที่สามารถตีความได้ว่าเป็นค่าประมาณของ เมทริกซ์ผกผัน ของเมทริกซ์เฮสเซียนในวิธีของนิวตัน [ ^{5 ] อัตรา}การเรียนรู้เกี่ยวข้องกับความยาวขั้นตอนที่กำหนดโดยการค้นหาเส้น ที่ไม่แม่นยำ ในวิธีการควาซี-นิวตันและอัลกอริธึมการเพิ่มประสิทธิภาพที่เกี่ยวข้อง^{[ 6 ]}^{[ 7 ]}

ตารางอัตราการเรียนรู้

อัตราเริ่มต้นสามารถปล่อยไว้ตามค่าเริ่มต้นของระบบหรือสามารถเลือกได้โดยใช้เทคนิคต่างๆ^{[ 8 ]}ตารางอัตราการเรียนรู้จะเปลี่ยนอัตราการเรียนรู้ระหว่างการเรียนรู้ และมักจะเปลี่ยนระหว่างรอบ/การทำซ้ำ โดยส่วนใหญ่จะทำด้วยพารามิเตอร์สองตัวคือการลดลงและโมเมนตัมมีตารางอัตราการเรียนรู้ที่แตกต่างกันมากมาย แต่ที่พบได้บ่อยที่สุดคือแบบอิงเวลา แบบอิงขั้นตอนและแบบเลขชี้กำลัง^{[ 4 ]}

การลดลงช่วยให้การเรียนรู้มีเสถียรภาพและหลีกเลี่ยงการแกว่งไปมา ซึ่งอาจเกิดขึ้นเมื่ออัตราการเรียนรู้คงที่สูงเกินไป ทำให้การเรียนรู้กระโดดไปมาเหนือค่าต่ำสุด และถูกควบคุมโดยไฮเปอร์พารามิเตอร์

โมเมนตัมเปรียบเสมือนลูกบอลที่กลิ้งลงเนิน เราต้องการให้ลูกบอลไปหยุดอยู่ที่จุดต่ำสุดของเนิน (ซึ่งสอดคล้องกับค่าความคลาดเคลื่อนต่ำที่สุด) โมเมนตัมช่วยเร่งความเร็วในการเรียนรู้ (เพิ่มอัตราการเรียนรู้) เมื่อค่าความคลาดเคลื่อนมีแนวโน้มไปในทิศทางเดียวกันเป็นเวลานาน และยังช่วยหลีกเลี่ยงจุดต่ำสุดเฉพาะที่โดยการ "กลิ้งผ่าน" เนินเล็กๆ โมเมนตัมถูกควบคุมโดยพารามิเตอร์ที่คล้ายกับมวลของลูกบอล ซึ่งต้องเลือกด้วยตนเอง หากสูงเกินไป ลูกบอลจะกลิ้งผ่านจุดต่ำสุดที่เราต้องการหา หากต่ำเกินไปก็จะไม่บรรลุวัตถุประสงค์สูตรสำหรับการคำนวณโมเมนตัม มีความซับซ้อนกว่า สูตร สำหรับการลดทอน แต่ส่วนใหญ่มักจะรวมอยู่ในไลบรารีการเรียนรู้เชิงลึก เช่นKeras

ตารางการเรียนรู้ ตามเวลาจะปรับอัตราการเรียนรู้โดยขึ้นอยู่กับอัตราการเรียนรู้ของการทำซ้ำครั้งก่อนหน้า เมื่อคำนึงถึงการลดลงของอัตราการเรียนรู้ สูตรทางคณิตศาสตร์สำหรับอัตราการเรียนรู้จะเป็นดังนี้:

$\eta _{n+1}={\frac {\eta _{0}}{1+dn}}$

โดยที่คืออัตราการเรียนรู้คืออัตราการเรียนรู้เริ่มต้นคือพารามิเตอร์การลดลง และคือขั้นตอนการวนซ้ำ $\eta$ $\eta _{0}$ $d$ $n$

ตารางการเรียนรู้ แบบขั้นบันไดจะปรับเปลี่ยนอัตราการเรียนรู้ตามขั้นตอนที่กำหนดไว้ล่วงหน้า สูตรการประยุกต์ใช้การลดอัตราการเรียนรู้ในที่นี้กำหนดไว้ดังนี้:

$\eta _{n}=\eta _{0}d^{\left\lfloor {\frac {1+n}{r}}\right\rfloor }$

โดยที่คืออัตราการเรียนรู้ในการวนซ้ำคืออัตราการเรียนรู้เริ่มต้นคือจำนวนที่อัตราการเรียนรู้ควรเปลี่ยนแปลงในแต่ละครั้งของการลดลง (0.5 สอดคล้องกับการลดลงครึ่งหนึ่ง) และสอดคล้องกับอัตราการลดลง หรือความถี่ในการลดอัตรา (10 สอดคล้องกับการลดลงทุกๆ 10 การวนซ้ำ) ฟังก์ชัน floor ( ) ในที่นี้จะลดค่าของอินพุตเป็น 0 สำหรับค่าทั้งหมดที่น้อยกว่า 1 $\eta _{n}$ $n$ $\eta _{0}$ $d$ $r$ $\lfloor \dots \rfloor$

ตารางการเรียนรู้ แบบเลขชี้กำลังคล้ายกับแบบขั้นบันได แต่แทนที่จะใช้ขั้นบันได จะใช้ฟังก์ชันเลขชี้กำลังที่ลดลงแทน สูตรทางคณิตศาสตร์สำหรับการคำนึงถึงการลดลงมีดังนี้:

$\eta _{n}=\eta _{0}e^{-dn}$

โดยที่เป็นพารามิเตอร์การสลายตัว $d$

อัตราการเรียนรู้แบบปรับตัวได้

ปัญหาของตารางอัตราการเรียนรู้คือตารางเหล่านี้ขึ้นอยู่กับไฮเปอร์พารามิเตอร์ที่ต้องเลือกด้วยตนเองสำหรับแต่ละเซสชันการเรียนรู้ และอาจแตกต่างกันอย่างมากขึ้นอยู่กับปัญหาที่กำลังดำเนินการหรือแบบจำลองที่ใช้ เพื่อแก้ไขปัญหานี้ มีอัลกอริธึมการลดระดับความชันแบบปรับได้หลายประเภท^เช่น Adagrad , Adadelta , RMSpropและAdam ^{[ 9 ]}ซึ่งโดยทั่วไปจะถูกสร้างขึ้นในไลบรารีการเรียนรู้เชิงลึก เช่นKeras [ ^{10 ]}

ดูเพิ่มเติม

อ่านเพิ่มเติม

Géron, Aurélien (2017). "Gradient Descent" . Hands-On Machine Learning with Scikit-Learn and TensorFlow . O'Reilly. หน้า 113–124 . ISBN 978-1-4919-6229-9.
Plagianakos, VP; Magoulas, GD; Vrahatis, MN (2001). "การปรับอัตราการเรียนรู้ในการไล่ระดับแบบสุ่ม" . ความก้าวหน้าในการวิเคราะห์แบบนูนและการหาค่าเหมาะสมที่สุดทั่วโลก . Kluwer. หน้า 433–444 . ISBN 0-7923-6942-4.

ลิงก์ภายนอก

เดอ เฟรตัส, นันโด (12 กุมภาพันธ์ 2015). "การเพิ่มประสิทธิภาพ" . การบรรยายเรื่องการเรียนรู้เชิงลึก ครั้งที่ 6 . มหาวิทยาลัยออกซ์ฟอร์ด – ผ่านทางYouTube .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

5 ] อัตรา

[ 6 ]

[ 7 ]

[ 8 ]

เช่น

[ 9 ]