กลับไปหน้าบทความ

อ่าน 3 นาที

อัตราการเรียนรู้

ในการเรียนรู้ของเครื่องและสถิติ อัตรา การเรียนรู้เป็นพารามิเตอร์การปรับแต่งในอัลกอริธึมการเพิ่มประสิทธิภาพที่กำหนดขนาดขั้นตอนในแต่ละรอบการทำซ้ำในขณะที่เคลื่อนไปสู่ค่าต่ำสุดของฟังก์...

อัตราการเรียนรู้

ในการเรียนรู้ของเครื่องและสถิติ อัตรา การเรียนรู้เป็นพารามิเตอร์การปรับแต่งในอัลกอริธึมการเพิ่มประสิทธิภาพที่กำหนดขนาดขั้นตอนในแต่ละรอบการทำซ้ำในขณะที่เคลื่อนไปสู่ค่าต่ำสุดของฟังก์ชันการสูญเสีย[ 1 ]เนื่องจากมีอิทธิพลต่อขอบเขตที่ข้อมูลที่ได้รับใหม่จะแทนที่ข้อมูลเก่า จึงเปรียบเสมือนความเร็วที่แบบจำลองการเรียนรู้ของเครื่อง "เรียนรู้" ใน วรรณกรรมเกี่ยว กับการควบคุมแบบปรับตัวอัตราการเรียนรู้มักถูกเรียกว่ากำไร[ 2 ]

ในการกำหนดอัตราการเรียนรู้ จะมีการแลกเปลี่ยนระหว่างอัตราการบรรจบกันและการโอเวอร์ชูตในขณะที่ทิศทางการลดลงมักจะถูกกำหนดจากเกรเดียนต์ของฟังก์ชันการสูญเสีย อัตราการเรียนรู้จะกำหนดว่าก้าวใหญ่แค่ไหนในทิศทางนั้น อัตราการเรียนรู้ที่สูงเกินไปจะทำให้การเรียนรู้กระโดดข้ามจุดต่ำสุด แต่อัตราการเรียนรู้ที่ต่ำเกินไปจะใช้เวลานานเกินไปในการบรรจบกันหรือติดอยู่ในจุดต่ำสุดเฉพาะที่ที่ไม่พึงประสงค์[ 3 ]

เพื่อให้เกิดการบรรจบกันที่เร็วขึ้น ป้องกันการแกว่งและการติดอยู่ในจุดต่ำสุดเฉพาะที่ที่ไม่พึงประสงค์ อัตราการเรียนรู้มักจะถูกปรับเปลี่ยนระหว่างการฝึกอบรม ไม่ว่าจะตามตารางอัตราการเรียนรู้หรือโดยใช้อัตราการเรียนรู้แบบปรับได้[ 4 ]อัตราการเรียนรู้และการปรับเปลี่ยนอาจแตกต่างกันไปตามพารามิเตอร์ ซึ่งในกรณีนี้จะเป็นเมทริกซ์แนวทแยงที่สามารถตีความได้ว่าเป็นค่าประมาณของ เมทริกซ์ผกผัน ของเมทริกซ์เฮสเซียนในวิธีของนิวตัน [ 5 ] อัตราการเรียนรู้เกี่ยวข้องกับความยาวขั้นตอนที่กำหนดโดยการค้นหาเส้น ที่ไม่แม่นยำ ในวิธีการควาซี-นิวตันและอัลกอริธึมการเพิ่มประสิทธิภาพที่เกี่ยวข้อง[ 6 ] [ 7 ]

ตารางอัตราการเรียนรู้

อัตราเริ่มต้นสามารถปล่อยไว้ตามค่าเริ่มต้นของระบบหรือสามารถเลือกได้โดยใช้เทคนิคต่างๆ[ 8 ]ตารางอัตราการเรียนรู้จะเปลี่ยนอัตราการเรียนรู้ระหว่างการเรียนรู้ และมักจะเปลี่ยนระหว่างรอบ/การทำซ้ำ โดยส่วนใหญ่จะทำด้วยพารามิเตอร์สองตัวคือการลดลงและโมเมนตัมมีตารางอัตราการเรียนรู้ที่แตกต่างกันมากมาย แต่ที่พบได้บ่อยที่สุดคือแบบอิงเวลา แบบอิงขั้นตอนและแบบเลขชี้กำลัง[ 4 ]

การลดลงช่วยให้การเรียนรู้มีเสถียรภาพและหลีกเลี่ยงการแกว่งไปมา ซึ่งอาจเกิดขึ้นเมื่ออัตราการเรียนรู้คงที่สูงเกินไป ทำให้การเรียนรู้กระโดดไปมาเหนือค่าต่ำสุด และถูกควบคุมโดยไฮเปอร์พารามิเตอร์

โมเมนตัมเปรียบเสมือนลูกบอลที่กลิ้งลงเนิน เราต้องการให้ลูกบอลไปหยุดอยู่ที่จุดต่ำสุดของเนิน (ซึ่งสอดคล้องกับค่าความคลาดเคลื่อนต่ำที่สุด) โมเมนตัมช่วยเร่งความเร็วในการเรียนรู้ (เพิ่มอัตราการเรียนรู้) เมื่อค่าความคลาดเคลื่อนมีแนวโน้มไปในทิศทางเดียวกันเป็นเวลานาน และยังช่วยหลีกเลี่ยงจุดต่ำสุดเฉพาะที่โดยการ "กลิ้งผ่าน" เนินเล็กๆ โมเมนตัมถูกควบคุมโดยพารามิเตอร์ที่คล้ายกับมวลของลูกบอล ซึ่งต้องเลือกด้วยตนเอง หากสูงเกินไป ลูกบอลจะกลิ้งผ่านจุดต่ำสุดที่เราต้องการหา หากต่ำเกินไปก็จะไม่บรรลุวัตถุประสงค์สูตรสำหรับการคำนวณโมเมนตัม มีความซับซ้อนกว่า สูตร สำหรับการลดทอน แต่ส่วนใหญ่มักจะรวมอยู่ในไลบรารีการเรียนรู้เชิงลึก เช่นKeras

ตารางการเรียนรู้ ตามเวลาจะปรับอัตราการเรียนรู้โดยขึ้นอยู่กับอัตราการเรียนรู้ของการทำซ้ำครั้งก่อนหน้า เมื่อคำนึงถึงการลดลงของอัตราการเรียนรู้ สูตรทางคณิตศาสตร์สำหรับอัตราการเรียนรู้จะเป็นดังนี้:

โดยที่คืออัตราการเรียนรู้คืออัตราการเรียนรู้เริ่มต้นคือพารามิเตอร์การลดลง และคือขั้นตอนการวนซ้ำ

ตารางการเรียนรู้ แบบขั้นบันไดจะปรับเปลี่ยนอัตราการเรียนรู้ตามขั้นตอนที่กำหนดไว้ล่วงหน้า สูตรการประยุกต์ใช้การลดอัตราการเรียนรู้ในที่นี้กำหนดไว้ดังนี้:

โดยที่คืออัตราการเรียนรู้ในการวนซ้ำคืออัตราการเรียนรู้เริ่มต้นคือจำนวนที่อัตราการเรียนรู้ควรเปลี่ยนแปลงในแต่ละครั้งของการลดลง (0.5 สอดคล้องกับการลดลงครึ่งหนึ่ง) และสอดคล้องกับอัตราการลดลง หรือความถี่ในการลดอัตรา (10 สอดคล้องกับการลดลงทุกๆ 10 การวนซ้ำ) ฟังก์ชัน floor ( ) ในที่นี้จะลดค่าของอินพุตเป็น 0 สำหรับค่าทั้งหมดที่น้อยกว่า 1

ตารางการเรียนรู้ แบบเลขชี้กำลังคล้ายกับแบบขั้นบันได แต่แทนที่จะใช้ขั้นบันได จะใช้ฟังก์ชันเลขชี้กำลังที่ลดลงแทน สูตรทางคณิตศาสตร์สำหรับการคำนึงถึงการลดลงมีดังนี้:

โดยที่เป็นพารามิเตอร์การสลายตัว

อัตราการเรียนรู้แบบปรับตัวได้

ปัญหาของตารางอัตราการเรียนรู้คือตารางเหล่านี้ขึ้นอยู่กับไฮเปอร์พารามิเตอร์ที่ต้องเลือกด้วยตนเองสำหรับแต่ละเซสชันการเรียนรู้ และอาจแตกต่างกันอย่างมากขึ้นอยู่กับปัญหาที่กำลังดำเนินการหรือแบบจำลองที่ใช้ เพื่อแก้ไขปัญหานี้ มีอัลกอริธึมการลดระดับความชันแบบปรับได้หลายประเภทเช่น Adagrad , Adadelta , RMSpropและAdam [ 9 ]ซึ่งโดยทั่วไปจะถูกสร้างขึ้นในไลบรารีการเรียนรู้เชิงลึก เช่นKeras [ 10 ]

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Géron, Aurélien (2017). "Gradient Descent" . Hands-On Machine Learning with Scikit-Learn and TensorFlow . O'Reilly. หน้า  113–124 . ISBN 978-1-4919-6229-9.
  • Plagianakos, VP; Magoulas, GD; Vrahatis, MN (2001). "การปรับอัตราการเรียนรู้ในการไล่ระดับแบบสุ่ม" . ความก้าวหน้าในการวิเคราะห์แบบนูนและการหาค่าเหมาะสมที่สุดทั่วโลก . Kluwer. หน้า  433–444 . ISBN 0-7923-6942-4.
  • เดอ เฟรตัส, นันโด (12 กุมภาพันธ์ 2015). "การเพิ่มประสิทธิภาพ" . การบรรยายเรื่องการเรียนรู้เชิงลึก ครั้งที่ 6 . มหาวิทยาลัยออกซ์ฟอร์ด – ผ่านทางYouTube .
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Learning_rate&oldid=1338171837#Adaptive_learning_rate "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ อัตราการเรียนรู้

ในการเรียนรู้ของเครื่องและสถิติ อัตรา การเรียนรู้เป็นพารามิเตอร์การปรับแต่งในอัลกอริธึมการเพิ่มประสิทธิภาพที่กำหนดขนาดขั้นตอนในแต่ละรอบการทำซ้ำในขณะที่เคลื่อนไปสู่ค่าต่ำสุดของฟังก์...

ตารางอัตราการเรียนรู้

อัตราเริ่มต้นสามารถปล่อยไว้ตามค่าเริ่มต้นของระบบหรือสามารถเลือกได้โดยใช้เทคนิคต่างๆ [ 8 ] ตารางอัตราการเรียนรู้จะเปลี่ยนอัตราการเรียนรู้ระหว่างการเรียนรู้ และมักจะเปลี่ยนระหว่างรอบ/การทำซ้ำ โดยส่วนใหญ่จะทำด้วยพารามิเตอร์สองตัวคือ การลดลง และ โมเมนตัม...

อัตราการเรียนรู้แบบปรับตัวได้

ปัญหาของตารางอัตราการเรียนรู้คือตารางเหล่านี้ขึ้นอยู่กับไฮเปอร์พารามิเตอร์ที่ต้องเลือกด้วยตนเองสำหรับแต่ละเซสชันการเรียนรู้ และอาจแตกต่างกันอย่างมากขึ้นอยู่กับปัญหาที่กำลังดำเนินการหรือแบบจำลองที่ใช้ เพื่อแก้ไขปัญหานี้...

ดูเพิ่มเติม

ไฮเปอร์พารามิเตอร์ (การเรียนรู้ของเครื่อง) การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ การไล่ระดับแบบสุ่ม วิธีการวัดตัวแปร โอเวอร์ฟิตติ้ง การแพร่กระจายย้อนกลับ ออโต้เอ็มแอล การเลือกแบบจำลอง การปรับแต่งอัตโนมัติ