อ่าน 3 นาที
อัตราการเรียนรู้
ในการเรียนรู้ของเครื่องและสถิติ อัตรา การเรียนรู้เป็นพารามิเตอร์การปรับแต่งในอัลกอริธึมการเพิ่มประสิทธิภาพที่กำหนดขนาดขั้นตอนในแต่ละรอบการทำซ้ำในขณะที่เคลื่อนไปสู่ค่าต่ำสุดของฟังก์...
อัตราการเรียนรู้
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การเรียนรู้ของเครื่องจักรและการขุดข้อมูล |
|---|
ในการเรียนรู้ของเครื่องและสถิติ อัตรา การเรียนรู้เป็นพารามิเตอร์การปรับแต่งในอัลกอริธึมการเพิ่มประสิทธิภาพที่กำหนดขนาดขั้นตอนในแต่ละรอบการทำซ้ำในขณะที่เคลื่อนไปสู่ค่าต่ำสุดของฟังก์ชันการสูญเสีย[ 1 ]เนื่องจากมีอิทธิพลต่อขอบเขตที่ข้อมูลที่ได้รับใหม่จะแทนที่ข้อมูลเก่า จึงเปรียบเสมือนความเร็วที่แบบจำลองการเรียนรู้ของเครื่อง "เรียนรู้" ใน วรรณกรรมเกี่ยว กับการควบคุมแบบปรับตัวอัตราการเรียนรู้มักถูกเรียกว่ากำไร[ 2 ]
ในการกำหนดอัตราการเรียนรู้ จะมีการแลกเปลี่ยนระหว่างอัตราการบรรจบกันและการโอเวอร์ชูตในขณะที่ทิศทางการลดลงมักจะถูกกำหนดจากเกรเดียนต์ของฟังก์ชันการสูญเสีย อัตราการเรียนรู้จะกำหนดว่าก้าวใหญ่แค่ไหนในทิศทางนั้น อัตราการเรียนรู้ที่สูงเกินไปจะทำให้การเรียนรู้กระโดดข้ามจุดต่ำสุด แต่อัตราการเรียนรู้ที่ต่ำเกินไปจะใช้เวลานานเกินไปในการบรรจบกันหรือติดอยู่ในจุดต่ำสุดเฉพาะที่ที่ไม่พึงประสงค์[ 3 ]
เพื่อให้เกิดการบรรจบกันที่เร็วขึ้น ป้องกันการแกว่งและการติดอยู่ในจุดต่ำสุดเฉพาะที่ที่ไม่พึงประสงค์ อัตราการเรียนรู้มักจะถูกปรับเปลี่ยนระหว่างการฝึกอบรม ไม่ว่าจะตามตารางอัตราการเรียนรู้หรือโดยใช้อัตราการเรียนรู้แบบปรับได้[ 4 ]อัตราการเรียนรู้และการปรับเปลี่ยนอาจแตกต่างกันไปตามพารามิเตอร์ ซึ่งในกรณีนี้จะเป็นเมทริกซ์แนวทแยงที่สามารถตีความได้ว่าเป็นค่าประมาณของ เมทริกซ์ผกผัน ของเมทริกซ์เฮสเซียนในวิธีของนิวตัน [ 5 ] อัตราการเรียนรู้เกี่ยวข้องกับความยาวขั้นตอนที่กำหนดโดยการค้นหาเส้น ที่ไม่แม่นยำ ในวิธีการควาซี-นิวตันและอัลกอริธึมการเพิ่มประสิทธิภาพที่เกี่ยวข้อง[ 6 ] [ 7 ]
ตารางอัตราการเรียนรู้
อัตราเริ่มต้นสามารถปล่อยไว้ตามค่าเริ่มต้นของระบบหรือสามารถเลือกได้โดยใช้เทคนิคต่างๆ[ 8 ]ตารางอัตราการเรียนรู้จะเปลี่ยนอัตราการเรียนรู้ระหว่างการเรียนรู้ และมักจะเปลี่ยนระหว่างรอบ/การทำซ้ำ โดยส่วนใหญ่จะทำด้วยพารามิเตอร์สองตัวคือการลดลงและโมเมนตัมมีตารางอัตราการเรียนรู้ที่แตกต่างกันมากมาย แต่ที่พบได้บ่อยที่สุดคือแบบอิงเวลา แบบอิงขั้นตอนและแบบเลขชี้กำลัง[ 4 ]
การลดลงช่วยให้การเรียนรู้มีเสถียรภาพและหลีกเลี่ยงการแกว่งไปมา ซึ่งอาจเกิดขึ้นเมื่ออัตราการเรียนรู้คงที่สูงเกินไป ทำให้การเรียนรู้กระโดดไปมาเหนือค่าต่ำสุด และถูกควบคุมโดยไฮเปอร์พารามิเตอร์
โมเมนตัมเปรียบเสมือนลูกบอลที่กลิ้งลงเนิน เราต้องการให้ลูกบอลไปหยุดอยู่ที่จุดต่ำสุดของเนิน (ซึ่งสอดคล้องกับค่าความคลาดเคลื่อนต่ำที่สุด) โมเมนตัมช่วยเร่งความเร็วในการเรียนรู้ (เพิ่มอัตราการเรียนรู้) เมื่อค่าความคลาดเคลื่อนมีแนวโน้มไปในทิศทางเดียวกันเป็นเวลานาน และยังช่วยหลีกเลี่ยงจุดต่ำสุดเฉพาะที่โดยการ "กลิ้งผ่าน" เนินเล็กๆ โมเมนตัมถูกควบคุมโดยพารามิเตอร์ที่คล้ายกับมวลของลูกบอล ซึ่งต้องเลือกด้วยตนเอง หากสูงเกินไป ลูกบอลจะกลิ้งผ่านจุดต่ำสุดที่เราต้องการหา หากต่ำเกินไปก็จะไม่บรรลุวัตถุประสงค์สูตรสำหรับการคำนวณโมเมนตัม มีความซับซ้อนกว่า สูตร สำหรับการลดทอน แต่ส่วนใหญ่มักจะรวมอยู่ในไลบรารีการเรียนรู้เชิงลึก เช่นKeras
ตารางการเรียนรู้ ตามเวลาจะปรับอัตราการเรียนรู้โดยขึ้นอยู่กับอัตราการเรียนรู้ของการทำซ้ำครั้งก่อนหน้า เมื่อคำนึงถึงการลดลงของอัตราการเรียนรู้ สูตรทางคณิตศาสตร์สำหรับอัตราการเรียนรู้จะเป็นดังนี้:
โดยที่คืออัตราการเรียนรู้คืออัตราการเรียนรู้เริ่มต้นคือพารามิเตอร์การลดลง และคือขั้นตอนการวนซ้ำ
ตารางการเรียนรู้ แบบขั้นบันไดจะปรับเปลี่ยนอัตราการเรียนรู้ตามขั้นตอนที่กำหนดไว้ล่วงหน้า สูตรการประยุกต์ใช้การลดอัตราการเรียนรู้ในที่นี้กำหนดไว้ดังนี้:
โดยที่คืออัตราการเรียนรู้ในการวนซ้ำคืออัตราการเรียนรู้เริ่มต้นคือจำนวนที่อัตราการเรียนรู้ควรเปลี่ยนแปลงในแต่ละครั้งของการลดลง (0.5 สอดคล้องกับการลดลงครึ่งหนึ่ง) และสอดคล้องกับอัตราการลดลง หรือความถี่ในการลดอัตรา (10 สอดคล้องกับการลดลงทุกๆ 10 การวนซ้ำ) ฟังก์ชัน floor ( ) ในที่นี้จะลดค่าของอินพุตเป็น 0 สำหรับค่าทั้งหมดที่น้อยกว่า 1
ตารางการเรียนรู้ แบบเลขชี้กำลังคล้ายกับแบบขั้นบันได แต่แทนที่จะใช้ขั้นบันได จะใช้ฟังก์ชันเลขชี้กำลังที่ลดลงแทน สูตรทางคณิตศาสตร์สำหรับการคำนึงถึงการลดลงมีดังนี้:
โดยที่เป็นพารามิเตอร์การสลายตัว
อัตราการเรียนรู้แบบปรับตัวได้
ปัญหาของตารางอัตราการเรียนรู้คือตารางเหล่านี้ขึ้นอยู่กับไฮเปอร์พารามิเตอร์ที่ต้องเลือกด้วยตนเองสำหรับแต่ละเซสชันการเรียนรู้ และอาจแตกต่างกันอย่างมากขึ้นอยู่กับปัญหาที่กำลังดำเนินการหรือแบบจำลองที่ใช้ เพื่อแก้ไขปัญหานี้ มีอัลกอริธึมการลดระดับความชันแบบปรับได้หลายประเภทเช่น Adagrad , Adadelta , RMSpropและAdam [ 9 ]ซึ่งโดยทั่วไปจะถูกสร้างขึ้นในไลบรารีการเรียนรู้เชิงลึก เช่นKeras [ 10 ]
ดูเพิ่มเติม
อ่านเพิ่มเติม
- Géron, Aurélien (2017). "Gradient Descent" . Hands-On Machine Learning with Scikit-Learn and TensorFlow . O'Reilly. หน้า 113–124 . ISBN 978-1-4919-6229-9.
- Plagianakos, VP; Magoulas, GD; Vrahatis, MN (2001). "การปรับอัตราการเรียนรู้ในการไล่ระดับแบบสุ่ม" . ความก้าวหน้าในการวิเคราะห์แบบนูนและการหาค่าเหมาะสมที่สุดทั่วโลก . Kluwer. หน้า 433–444 . ISBN 0-7923-6942-4.
ลิงก์ภายนอก
- เดอ เฟรตัส, นันโด (12 กุมภาพันธ์ 2015). "การเพิ่มประสิทธิภาพ" . การบรรยายเรื่องการเรียนรู้เชิงลึก ครั้งที่ 6 . มหาวิทยาลัยออกซ์ฟอร์ด – ผ่านทางYouTube .
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ อัตราการเรียนรู้
ในการเรียนรู้ของเครื่องและสถิติ อัตรา การเรียนรู้เป็นพารามิเตอร์การปรับแต่งในอัลกอริธึมการเพิ่มประสิทธิภาพที่กำหนดขนาดขั้นตอนในแต่ละรอบการทำซ้ำในขณะที่เคลื่อนไปสู่ค่าต่ำสุดของฟังก์...
ตารางอัตราการเรียนรู้
อัตราเริ่มต้นสามารถปล่อยไว้ตามค่าเริ่มต้นของระบบหรือสามารถเลือกได้โดยใช้เทคนิคต่างๆ [ 8 ] ตารางอัตราการเรียนรู้จะเปลี่ยนอัตราการเรียนรู้ระหว่างการเรียนรู้ และมักจะเปลี่ยนระหว่างรอบ/การทำซ้ำ โดยส่วนใหญ่จะทำด้วยพารามิเตอร์สองตัวคือ การลดลง และ โมเมนตัม...
อัตราการเรียนรู้แบบปรับตัวได้
ปัญหาของตารางอัตราการเรียนรู้คือตารางเหล่านี้ขึ้นอยู่กับไฮเปอร์พารามิเตอร์ที่ต้องเลือกด้วยตนเองสำหรับแต่ละเซสชันการเรียนรู้ และอาจแตกต่างกันอย่างมากขึ้นอยู่กับปัญหาที่กำลังดำเนินการหรือแบบจำลองที่ใช้ เพื่อแก้ไขปัญหานี้...
ดูเพิ่มเติม
ไฮเปอร์พารามิเตอร์ (การเรียนรู้ของเครื่อง) การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ การไล่ระดับแบบสุ่ม วิธีการวัดตัวแปร โอเวอร์ฟิตติ้ง การแพร่กระจายย้อนกลับ ออโต้เอ็มแอล การเลือกแบบจำลอง การปรับแต่งอัตโนมัติ