อ่าน 22 นาที
การเรียนรู้แบบเสริมแรง
ในด้าน การเรียนรู้ของเครื่องจักร และ การควบคุมที่เหมาะสมที่สุด การเรียนรู้แบบเสริมแรง ( Reinforcement Learning : RL ) เกี่ยวข้องกับวิธีการที่ ตัวแทนอัจฉริยะ ควร ดำเนินการ...
การเรียนรู้แบบเสริมแรง

| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การเรียนรู้ของเครื่องจักรและการขุดข้อมูล |
|---|
ในด้านการเรียนรู้ของเครื่องจักรและการควบคุมที่เหมาะสมที่สุดการเรียนรู้แบบเสริมแรง ( Reinforcement Learning : RL ) เกี่ยวข้องกับวิธีการที่ตัวแทนอัจฉริยะควรดำเนินการในสภาพแวดล้อมแบบไดนามิกเพื่อ เพิ่มสัญญาณ รางวัลให้สูงสุดการเรียนรู้แบบเสริมแรงเป็นหนึ่งในสามกระบวนทัศน์พื้นฐานของการเรียนรู้ของเครื่องจักรควบคู่ไปกับการเรียนรู้แบบมีผู้กำกับดูแล (Supervised Learning ) และการเรียนรู้แบบไม่มีผู้กำกับดูแล (Unsupervised Learning )
ในขณะที่อัลกอริธึมการเรียนรู้แบบมีผู้กำกับดูแลและการเรียนรู้แบบไม่มีผู้กำกับดูแลพยายามค้นหารูปแบบในข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับตามลำดับ การเรียนรู้แบบเสริมแรงเกี่ยวข้องกับการฝึกตัวแทนผ่านการโต้ตอบกับสภาพแวดล้อม เพื่อเรียนรู้ที่จะเพิ่มรางวัลสูงสุดจากการโต้ตอบเหล่านี้ ตัวแทนจะตัดสินใจเลือกระหว่างการลองการกระทำใหม่ ๆ เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับสภาพแวดล้อม (การสำรวจ) หรือการใช้ความรู้ปัจจุบันของสภาพแวดล้อมเพื่อดำเนินการที่ดีที่สุด (การใช้ประโยชน์) [ 1 ]การค้นหาสมดุลที่เหมาะสมที่สุดระหว่างสองกลยุทธ์นี้เรียกว่าภาวะกลืนไม่เข้าคายไม่ออกของการสำรวจและการใช้ประโยชน์
โดยทั่วไปสภาพแวดล้อมจะระบุในรูปแบบของกระบวนการตัดสินใจแบบมาร์คอฟเนื่องจากอัลกอริธึมการเรียนรู้แบบเสริมแรงจำนวนมากใช้เทคนิคการเขียนโปรแกรมแบบไดนามิก[ 2 ]ความแตกต่างหลักระหว่างวิธีการเขียนโปรแกรมแบบไดนามิกแบบคลาสสิกและอัลกอริธึมการเรียนรู้แบบเสริมแรงคืออัลกอริธึมหลังไม่ถือว่ามีความรู้เกี่ยวกับแบบจำลองทางคณิตศาสตร์ที่แน่นอนของกระบวนการตัดสินใจแบบมาร์คอฟ และมุ่งเป้าไปที่กระบวนการตัดสินใจแบบมาร์คอฟขนาดใหญ่ซึ่งวิธีการที่แน่นอนไม่สามารถทำได้[ 3 ]
หลักการ
เนื่องจากความทั่วไปของทฤษฎีการเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) จึงมีการศึกษาในหลายสาขาวิชา เช่นทฤษฎีเกมทฤษฎีการควบคุมการวิจัยดำเนินงานทฤษฎีสารสนเทศการเพิ่มประสิทธิภาพโดยใช้การจำลองระบบหลายเอเจนต์ปัญญาแบบฝูงและสถิติในวรรณกรรมด้านการวิจัยดำเนินงานและการควบคุม RL ถูกเรียกว่าการเขียนโปรแกรมเชิงพลวัตโดยประมาณหรือการเขียนโปรแกรมเชิงพลวัตแบบประสาท (Neuro-dynamic programming)ปัญหาที่น่าสนใจใน RL ยังได้รับการศึกษาในทฤษฎีการควบคุมที่เหมาะสมที่สุดซึ่งส่วนใหญ่เกี่ยวข้องกับการมีอยู่และลักษณะเฉพาะของคำตอบที่เหมาะสมที่สุด และอัลกอริทึมสำหรับการคำนวณที่แม่นยำ และน้อยกว่าที่จะเกี่ยวข้องกับการเรียนรู้หรือการประมาณค่า (โดยเฉพาะอย่างยิ่งในกรณีที่ไม่มีแบบจำลองทางคณิตศาสตร์ของสภาพแวดล้อม)
การเรียนรู้แบบเสริมแรงขั้นพื้นฐานนั้นจำลองขึ้นโดยใช้กระบวนการตัดสินใจแบบมาร์คอฟ :
- ชุดของสถานะสิ่งแวดล้อมและตัวแทน (ปริภูมิสถานะ) ;
- ชุดของการกระทำ (พื้นที่การกระทำ) ของตัวแทน;
- ความน่าจะเป็นของการเปลี่ยนสถานะ (ณ เวลา t ) จากสถานะหนึ่งไปยังอีกสถานะหนึ่งภายใต้การกระทำ
- รางวัลทันทีหลังจากเปลี่ยนสถานะจากสถานะหนึ่งไปสู่ สถานะที่อยู่ภายใต้ การกระทำ
จุดประสงค์ของการเรียนรู้แบบเสริมแรงคือเพื่อให้ตัวแทนเรียนรู้นโยบายที่เหมาะสมที่สุด (หรือใกล้เคียงที่สุด) ที่เพิ่มฟังก์ชันรางวัลหรือสัญญาณเสริมแรงอื่น ๆ ที่ผู้ใช้กำหนดซึ่งสะสมจากรางวัลทันทีให้สูงสุด กระบวนการนี้คล้ายกับกระบวนการที่ดูเหมือนจะเกิดขึ้นในจิตวิทยาของสัตว์ ตัวอย่างเช่น สมองของสิ่งมีชีวิตถูกกำหนดให้ตีความสัญญาณเช่นความเจ็บปวดและความหิวเป็นตัวเสริมแรงเชิงลบ และตีความความสุขและการรับประทานอาหารเป็นตัวเสริมแรงเชิงบวก ในบางสถานการณ์ สัตว์เรียนรู้ที่จะปรับใช้พฤติกรรมที่เพิ่มรางวัลเหล่านี้ให้สูงสุด สิ่งนี้ชี้ให้เห็นว่าสัตว์มีความสามารถในการเรียนรู้แบบเสริมแรง[ 4 ] [ 5 ]
เอージェนต์การเรียนรู้แบบเสริมแรงพื้นฐานจะโต้ตอบกับสภาพแวดล้อมในขั้นตอนเวลาที่ไม่ต่อเนื่อง ในแต่ละขั้นตอนเวลาtเอージェนต์จะได้รับสถานะปัจจุบันและรางวัลจากนั้นจะเลือกการกระทำจากชุดการกระทำที่มีอยู่ ซึ่งจะถูกส่งไปยังสภาพแวดล้อมในภายหลัง สภาพแวดล้อมจะเปลี่ยนไปสู่สถานะใหม่และรางวัลที่เกี่ยวข้องกับการเปลี่ยนแปลงนั้นจะถูกกำหนด เป้าหมายของเอージェนต์การเรียนรู้แบบเสริมแรงคือการเรียนรู้นโยบาย :
ซึ่งจะทำให้ผลตอบแทนสะสมที่คาดหวังสูงสุด
การกำหนดปัญหาในรูปแบบกระบวนการตัดสินใจแบบมาร์คอฟ (Markov decision process) สมมติว่าตัวแทน (agent) สังเกตสถานะของสิ่งแวดล้อมในปัจจุบันได้โดยตรง ในกรณีนี้ ปัญหาจะเรียกว่ามี ความสามารถในการสังเกตได้อย่างสมบูรณ์ ( full observability ) หากตัวแทนเข้าถึงได้เพียงสถานะย่อย หรือหากสถานะที่สังเกตได้ถูกรบกวนด้วยสัญญาณรบกวน ตัวแทนจะเรียกว่ามี ความ สามารถในการสังเกตได้บางส่วน (partially observability ) และในทางทฤษฎี ปัญหาจะต้องถูกกำหนดในรูปแบบกระบวนการตัดสินใจแบบมาร์คอฟที่สังเกตได้บางส่วน (partially observable Markov decision process ) ในทั้งสองกรณี ชุดของการกระทำที่ตัวแทนสามารถทำได้สามารถถูกจำกัดได้ ตัวอย่างเช่น สถานะของยอดเงินในบัญชีอาจถูกจำกัดให้เป็นค่าบวก หากค่าปัจจุบันของสถานะคือ 3 และการเปลี่ยนสถานะพยายามลดค่าลง 4 การเปลี่ยนสถานะนั้นจะไม่ได้รับอนุญาต
เมื่อเปรียบเทียบประสิทธิภาพของเอージェนต์กับเอージェนต์ที่กระทำการอย่างเหมาะสมที่สุด ความแตกต่างของประสิทธิภาพจะก่อให้เกิดแนวคิดเรื่องความเสียใจเพื่อให้กระทำการได้ใกล้เคียงกับระดับที่เหมาะสมที่สุด เอージェนต์จะต้องใช้เหตุผลเกี่ยวกับผลที่ตามมาในระยะยาวของการกระทำของตน (เช่น การเพิ่มผลตอบแทนในอนาคตให้สูงสุด) แม้ว่าผลตอบแทนในทันทีที่เกี่ยวข้องกับสิ่งนี้อาจเป็นลบก็ตาม
ดังนั้น การเรียนรู้แบบเสริมแรงจึงเหมาะสมอย่างยิ่งสำหรับปัญหาที่เกี่ยวข้องกับการแลกเปลี่ยนระหว่างรางวัลระยะยาวและระยะสั้น มีการนำไปประยุกต์ใช้อย่างประสบความสำเร็จกับปัญหาต่างๆ มากมาย รวมถึงการจัดเก็บพลังงาน[ 6 ] การควบคุมหุ่นยนต์[ 7 ]เครื่องกำเนิดไฟฟ้าพลังงานแสงอาทิตย์ [ 8 ]แบ็กแกมมอนหมากรุก [ 9 ]โกะ ( AlphaGo ) และระบบขับขี่อัตโนมัติ[ 10 ]
องค์ประกอบสองประการที่ทำให้การเรียนรู้แบบเสริมแรงมีประสิทธิภาพสูง ได้แก่ การใช้ตัวอย่างเพื่อเพิ่มประสิทธิภาพ และการใช้การประมาณฟังก์ชันเพื่อจัดการกับสภาพแวดล้อมขนาดใหญ่ ด้วยองค์ประกอบสำคัญสองประการนี้ การเรียนรู้แบบเสริมแรงจึงสามารถนำไปใช้ในสภาพแวดล้อมขนาดใหญ่ได้ในสถานการณ์ต่อไปนี้:
- ทราบแบบจำลองของสภาพแวดล้อมแล้ว แต่ยังไม่มีวิธีการแก้ปัญหาเชิงวิเคราะห์
- มีเพียงแบบจำลองการจำลองสภาพแวดล้อมเท่านั้น (ซึ่งเป็นหัวข้อของการเพิ่มประสิทธิภาพตามการจำลอง ) [ 11 ]
- วิธีเดียวที่จะรวบรวมข้อมูลเกี่ยวกับสิ่งแวดล้อมได้คือการมีปฏิสัมพันธ์กับสิ่งแวดล้อมนั้น
ปัญหาสองข้อแรกอาจถือได้ว่าเป็นปัญหาการวางแผน (เนื่องจากมีแบบจำลองบางรูปแบบอยู่แล้ว) ในขณะที่ปัญหาข้อสุดท้ายอาจถือได้ว่าเป็นปัญหาการเรียนรู้ที่แท้จริง อย่างไรก็ตาม การเรียนรู้แบบเสริมแรงจะแปลงปัญหาการวางแผนทั้งสองให้เป็นปัญหา การเรียนรู้ของเครื่องจักร
การสำรวจ
การแลกเปลี่ยนระหว่างการสำรวจและการแสวงหาประโยชน์ได้รับการศึกษาอย่างละเอียดถี่ถ้วนที่สุดผ่าน ปัญหา multi-armed banditและสำหรับกระบวนการตัดสินใจ Markov ในพื้นที่สถานะจำกัดใน Burnetas และ Katehakis (1997) [ 12 ]
การเรียนรู้แบบเสริมแรงต้องการกลไกการสำรวจที่ชาญฉลาด การเลือกการกระทำแบบสุ่มโดยไม่คำนึงถึงการประมาณการกระจายความน่าจะเป็นจะให้ประสิทธิภาพที่ต่ำ กรณีของกระบวนการตัดสินใจแบบมาร์คอฟที่มีขนาดเล็กนั้นเป็นที่เข้าใจกันค่อนข้างดี อย่างไรก็ตาม เนื่องจากขาดอัลกอริธึมที่สามารถปรับขนาดได้ดีกับจำนวนสถานะ (หรือปรับขนาดให้เข้ากับปัญหาที่มีปริภูมิสถานะอนันต์) วิธีการสำรวจแบบง่ายจึงเป็นวิธีที่ใช้ได้จริงที่สุด
หนึ่งในวิธีการดังกล่าวคือ-greedy โดยที่เป็นพารามิเตอร์ที่ควบคุมปริมาณการสำรวจเทียบกับการใช้ประโยชน์ ด้วยความน่าจะเป็นการใช้ประโยชน์จะถูกเลือก และตัวแทนจะเลือกการกระทำที่เชื่อว่ามีผลดีที่สุดในระยะยาว (หากการกระทำใดมีผลเท่ากัน จะถูกเลือกแบบสุ่มอย่างสม่ำเสมอ) หรืออีกทางหนึ่ง ด้วยความน่าจะเป็นการสำรวจจะถูกเลือก และการกระทำจะถูกเลือกแบบสุ่มอย่างสม่ำเสมอโดยปกติจะเป็นพารามิเตอร์คงที่ แต่สามารถปรับได้ตามตารางเวลา (ทำให้ตัวแทนสำรวจน้อยลงเรื่อยๆ) หรือปรับเปลี่ยนตามหลักการเชิงฮิวริสติก[ 13 ]
อัลกอริทึมสำหรับการเรียนรู้การควบคุม
แม้ว่าจะละเลยประเด็นเรื่องการสำรวจ และแม้ว่าสถานะจะสามารถสังเกตได้ (ซึ่งจะสมมติไว้ต่อไปนี้) ปัญหาก็ยังคงอยู่ คือการใช้ประสบการณ์ในอดีตเพื่อค้นหาว่าการกระทำใดนำไปสู่ผลตอบแทนสะสมที่สูงกว่า
เกณฑ์ความเหมาะสมที่สุด
นโยบาย
การเลือกการกระทำของเอเจนต์นั้นถูกจำลองเป็นแผนที่ที่เรียกว่านโยบาย :
แผนที่นโยบายให้ความน่าจะเป็นของการดำเนินการเมื่ออยู่ในสถานะ[ 14 ] : 61 นอกจากนี้ยังมีนโยบายเชิงกำหนด ซึ่งแสดงถึงการกระทำที่ควรดำเนินการในสถานะ
ฟังก์ชันค่าสถานะ
ฟังก์ชันค่าสถานะถูกกำหนดให้เป็นผลตอบแทนส่วนลดที่คาดหวังโดยเริ่มต้นจากสถานะเช่นและตามนโยบายอย่างต่อเนื่องดังนั้นโดยคร่าวๆ ฟังก์ชันค่าจะประมาณว่าการอยู่ในสถานะที่กำหนดนั้น "ดีแค่ไหน" [ 14 ] : 60
โดยที่ตัวแปรสุ่มแสดงถึงผลตอบแทนที่คิดลดแล้วและถูกกำหนดให้เป็นผลรวมของรางวัลที่คิดลดในอนาคต:
โดยที่รางวัลสำหรับการเปลี่ยนสถานะจากสถานะหนึ่งไปยังอีกสถานะหนึ่งคืออัตราส่วนลดซึ่งมีค่าน้อยกว่า 1 ดังนั้นรางวัลในอนาคตอันไกลโพ้นจึงมีน้ำหนักน้อยกว่ารางวัลในอนาคตอันใกล้
อัลกอริทึมต้องค้นหานโยบายที่มีผลตอบแทนที่คาดหวังหลังหักส่วนลดสูงสุด จากทฤษฎีของกระบวนการตัดสินใจแบบมาร์คอฟ เป็นที่ทราบกันดีว่า โดยไม่เสียความเป็นทั่วไป การค้นหาสามารถจำกัดได้เฉพาะชุดของนโยบายที่เรียกว่านโยบายคงที่ นโยบายจะ คงที่หากการกระจายการกระทำที่ส่งคืนโดยนโยบายนั้นขึ้นอยู่กับสถานะสุดท้ายที่เยี่ยมชมเท่านั้น (จากประวัติของตัวแทนการสังเกต) การค้นหาสามารถจำกัดเพิ่มเติมได้เฉพาะนโยบายคงที่แบบกำหนดได้ นโยบาย คงที่แบบกำหนดได้จะเลือกการกระทำอย่างแน่นอนโดยอิงจากสถานะปัจจุบัน เนื่องจากนโยบายดังกล่าวสามารถระบุได้ด้วยการแมปจากชุดของสถานะไปยังชุดของการกระทำ ดังนั้นนโยบายเหล่านี้จึงสามารถระบุได้ด้วยการแมปดังกล่าวโดยไม่เสียความเป็นทั่วไป
กำลังดุร้าย
วิธี การแบบ ใช้กำลังอย่างเดียวประกอบด้วยสองขั้นตอน:
- สำหรับแต่ละนโยบายที่เป็นไปได้ ตัวอย่างผลตอบแทนขณะปฏิบัติตามนโยบายนั้น
- เลือกกรมธรรม์ที่มีอัตราผลตอบแทนส่วนลดที่คาดหวังสูงสุด
ปัญหาประการหนึ่งคือ จำนวนกรมธรรม์อาจมีมาก หรืออาจไม่มีที่สิ้นสุด อีกปัญหาหนึ่งคือ ความแปรปรวนของผลตอบแทนอาจมีมาก ซึ่งจำเป็นต้องใช้ตัวอย่างจำนวนมากเพื่อประมาณผลตอบแทนที่คิดลดแล้วของแต่ละกรมธรรม์ได้อย่างแม่นยำ
ปัญหาเหล่านี้สามารถบรรเทาได้หากเราสมมติโครงสร้างบางอย่างและอนุญาตให้ตัวอย่างที่สร้างขึ้นจากนโยบายหนึ่งมีอิทธิพลต่อการประมาณค่าที่ทำขึ้นสำหรับนโยบายอื่น แนวทางหลักสองประการในการบรรลุเป้าหมายนี้คือการประมาณค่าฟังก์ชันมูลค่าและการ ค้นหานโยบายโดยตรง
ฟังก์ชันค่า
แนวทางการใช้ฟังก์ชันมูลค่าพยายามค้นหานโยบายที่เพิ่มผลตอบแทนที่คิดลดแล้วให้สูงสุด โดยการรักษาชุดประมาณการผลตอบแทนที่คิดลดแล้วที่คาดหวังไว้สำหรับนโยบายบางอย่าง (โดยปกติจะเป็นนโยบาย "ปัจจุบัน" [ตามนโยบาย] หรือนโยบายที่เหมาะสมที่สุด [นอกนโยบาย])
วิธีการเหล่านี้อาศัยทฤษฎีของกระบวนการตัดสินใจแบบมาร์คอฟ ซึ่งนิยามของความเหมาะสมที่สุดนั้นมีความหมายที่เข้มข้นกว่าที่กล่าวมาข้างต้น กล่าวคือ นโยบายจะเหมาะสมที่สุดก็ต่อเมื่อสามารถให้ผลตอบแทนที่คาดหวังได้ดีที่สุดเมื่อคิดลดแล้วจาก สถานะเริ่มต้น ใดๆ (กล่าวคือ การกระจายตัวของสถานะเริ่มต้นไม่มีบทบาทในนิยามนี้) และเช่นเคย นโยบายที่เหมาะสมที่สุดสามารถพบได้เสมอในบรรดานโยบายที่อยู่ในสภาวะคงที่
เพื่อกำหนดนิยามของความเหมาะสมที่สุดในเชิงรูปแบบ ให้กำหนดค่าสถานะของนโยบายโดย
โดยที่ หมายถึงผลตอบแทนที่ลดลงซึ่งเกี่ยวข้องกับการติดตามจากสถานะเริ่มต้นกำหนดให้คือค่าสถานะสูงสุดที่เป็นไปได้ของโดยที่สามารถเปลี่ยนแปลงได้
นโยบายที่ทำให้ได้ค่าสถานะที่เหมาะสมที่สุดในแต่ละสถานะเรียกว่านโยบายที่เหมาะสมที่สุดเห็นได้ชัดว่านโยบายที่เหมาะสมที่สุดในแง่นี้ก็คือนโยบายที่เหมาะสมที่สุดในแง่ที่ว่ามันทำให้ผลตอบแทนที่คาดหวังหลังหักส่วนลดมีค่าสูงสุดด้วย เนื่องจากโดยที่คือสถานะที่สุ่มเลือกมาจาก1การแจกแจงของสถานะเริ่มต้น (ดังนั้น)
แม้ว่าค่าสถานะจะเพียงพอต่อการกำหนดความเหมาะสมที่สุด แต่การกำหนดค่าการกระทำก็มีประโยชน์เช่นกัน เมื่อกำหนดสถานะการกระทำและนโยบายแล้ว ค่าการกระทำของคู่ภายใต้จะถูกกำหนดโดย
โดยที่now หมายถึงผลตอบแทนส่วนลดแบบสุ่มที่เกี่ยวข้องกับการดำเนินการครั้งแรกในสถานะและตามด้วยสถานะถัดไป
ทฤษฎีของกระบวนการตัดสินใจแบบมาร์คอฟกล่าวว่า ถ้าเป็นนโยบายที่เหมาะสมที่สุด เราจะกระทำการอย่างเหมาะสมที่สุด (เลือกการกระทำที่เหมาะสมที่สุด) โดยเลือกการกระทำจากที่มีค่าการกระทำสูงสุดในแต่ละสถานะฟังก์ชันค่าการกระทำของนโยบายที่เหมาะสมที่สุดดังกล่าว ( ) เรียกว่าฟังก์ชันค่าการกระทำที่เหมาะสมที่สุดและโดยทั่วไปจะใช้สัญลักษณ์ โดยสรุปแล้ว ความรู้เกี่ยวกับฟังก์ชันค่าการกระทำที่เหมาะสมที่สุดเพียงอย่างเดียวก็เพียงพอที่จะรู้ว่าควรกระทำการอย่างไรให้เหมาะสมที่สุด
โดยสมมติว่ามีความรู้สมบูรณ์เกี่ยวกับกระบวนการตัดสินใจแบบมาร์คอฟ วิธีการพื้นฐานสองวิธีในการคำนวณฟังก์ชันค่าการกระทำที่เหมาะสมที่สุดคือการวนซ้ำค่าและการวนซ้ำนโยบายทั้งสองอัลกอริธึมคำนวณลำดับของฟังก์ชัน( ) ที่ลู่เข้าสู่การคำนวณฟังก์ชันเหล่านี้เกี่ยวข้องกับการคำนวณค่าคาดหวังเหนือปริภูมิสถานะทั้งหมด ซึ่งไม่สามารถทำได้จริงสำหรับกระบวนการตัดสินใจแบบมาร์คอฟทั้งหมด ยกเว้นกระบวนการที่เล็กที่สุด (จำกัด) ในวิธีการเรียนรู้แบบเสริมแรง ค่าคาดหวังจะถูกประมาณโดยการหาค่าเฉลี่ยเหนือตัวอย่าง และใช้เทคนิคการประมาณฟังก์ชันเพื่อรับมือกับความต้องการในการแสดงฟังก์ชันค่าเหนือปริภูมิสถานะ-การกระทำขนาดใหญ่
วิธีการมอนเตคาร์โล
วิธีการ Monte Carlo [ 15 ]ใช้ในการแก้ปัญหาการเรียนรู้แบบเสริมแรงโดยการหาค่าเฉลี่ยของผลตอบแทนตัวอย่าง แตกต่างจากวิธีการที่ต้องอาศัยความรู้เกี่ยวกับพลวัตของสภาพแวดล้อมอย่างครบถ้วน วิธีการ Monte Carlo อาศัยเพียงประสบการณ์จริงหรือการจำลอง —ลำดับของสถานะ การกระทำ และรางวัลที่ได้รับจากการโต้ตอบกับสภาพแวดล้อม ทำให้สามารถนำไปใช้ได้ในสถานการณ์ที่ไม่ทราบพลวัตทั้งหมด การเรียนรู้จากประสบการณ์จริงไม่จำเป็นต้องมีความรู้เกี่ยวกับสภาพแวดล้อมมาก่อน และยังสามารถนำไปสู่พฤติกรรมที่เหมาะสมที่สุดได้ เมื่อใช้ประสบการณ์จำลอง จำเป็นต้องมีเพียงแบบจำลองที่สามารถสร้างการเปลี่ยนผ่านตัวอย่างเท่านั้น แทนที่จะต้องระบุความน่าจะเป็นของการเปลี่ยนผ่าน อย่างครบถ้วน ซึ่งจำเป็นสำหรับวิธี การเขียนโปรแกรมแบบไดนามิก
วิธีการมอนเตคาร์โลใช้ได้กับงานที่มีลักษณะเป็นตอนๆ โดยที่ประสบการณ์จะถูกแบ่งออกเป็นตอนๆ ซึ่งจะสิ้นสุดลงในที่สุด การปรับปรุงนโยบายและฟังก์ชันมูลค่าจะเกิดขึ้นหลังจากเสร็จสิ้นแต่ละตอนเท่านั้น ทำให้วิธีการเหล่านี้เป็นแบบเพิ่มขึ้นทีละตอน ไม่ใช่แบบทีละขั้นตอน (ออนไลน์) คำว่า "มอนเตคาร์โล" โดยทั่วไปหมายถึงวิธีการใดๆ ที่เกี่ยวข้องกับการสุ่มตัวอย่างแต่ในบริบทนี้ หมายถึงวิธีการที่คำนวณค่าเฉลี่ยจาก ผลตอบแทน ทั้งหมดไม่ใช่ผลตอบแทน บางส่วน
วิธีการเหล่านี้ทำงานคล้ายกับอัลกอริธึมแบนดิตซึ่งผลตอบแทนจะถูกหาค่าเฉลี่ยสำหรับแต่ละคู่สถานะ-การกระทำ ความแตกต่างที่สำคัญคือ การกระทำที่เกิดขึ้นในสถานะหนึ่งจะส่งผลต่อผลตอบแทนของสถานะถัดไปภายในตอนเดียวกัน ทำให้ปัญหานี้ไม่คงที่เพื่อแก้ไขปัญหาที่ไม่คงที่นี้ วิธีการมอนเตคาร์โลใช้กรอบการทำงานของการวนซ้ำนโยบายทั่วไป (GPI) ในขณะที่การเขียนโปรแกรมแบบไดนามิกคำนวณฟังก์ชันค่าโดยใช้ความรู้ทั้งหมดของกระบวนการตัดสินใจแบบมาร์คอฟ วิธีการมอนเตคาร์โลเรียนรู้ฟังก์ชันเหล่านี้ผ่านผลตอบแทนตัวอย่าง ฟังก์ชันค่าและนโยบายโต้ตอบกันในลักษณะเดียวกับการเขียนโปรแกรมแบบไดนามิกเพื่อให้ได้ความเหมาะสมที่สุดโดยเริ่มจากการแก้ปัญหาการทำนายก่อน แล้วจึงขยายไปสู่การปรับปรุงและควบคุมนโยบาย ทั้งหมดนี้ขึ้นอยู่กับประสบการณ์ตัวอย่าง[ 14 ]
วิธีการหาความแตกต่างเชิงเวลา
ปัญหาแรกได้รับการแก้ไขโดยการอนุญาตให้กระบวนการเปลี่ยนแปลงนโยบาย (ในบางสถานะหรือทุกสถานะ) ก่อนที่ค่าจะคงที่ อย่างไรก็ตาม วิธีนี้ก็อาจเป็นปัญหาได้เช่นกัน เพราะอาจขัดขวางการบรรจบกัน อัลกอริทึมส่วนใหญ่ในปัจจุบันใช้วิธีนี้ ทำให้เกิดกลุ่มของอัลกอริทึมการวนซ้ำนโยบายแบบทั่วไป วิธีการแบบ Actor-Criticหลายวิธีจัดอยู่ในกลุ่มนี้
ปัญหาที่สองสามารถแก้ไขได้โดยการอนุญาตให้วิถีการเคลื่อนที่สามารถมีส่วนร่วมในคู่สถานะ-การกระทำใดๆ ในนั้นได้ ซึ่งอาจช่วยแก้ปัญหาที่สามได้ในระดับหนึ่ง แม้ว่าวิธีแก้ปัญหาที่ดีกว่าเมื่อผลตอบแทนมีความแปรปรวนสูงคือ วิธีการ ความแตกต่างเชิงเวลา (TD) ของ Sutton ซึ่งอิงตามสมการ Bellman แบบ วน ซ้ำ[ 16 ] [ 17 ]การคำนวณในวิธีการ TD สามารถเป็นแบบเพิ่มขึ้น (เมื่อหลังจากการเปลี่ยนผ่านแต่ละครั้ง หน่วยความจำจะถูกเปลี่ยนแปลงและการเปลี่ยนผ่านจะถูกทิ้งไป) หรือแบบกลุ่ม (เมื่อการเปลี่ยนผ่านถูกจัดกลุ่มและค่าประมาณจะถูกคำนวณเพียงครั้งเดียวโดยอิงจากกลุ่ม) วิธีการแบบกลุ่ม เช่น วิธีการความแตกต่างเชิงเวลาแบบกำลังสองน้อยที่สุด[ 18 ]อาจใช้ข้อมูลในตัวอย่างได้ดีกว่า ในขณะที่วิธีการแบบเพิ่มขึ้นเป็นทางเลือกเดียวเมื่อวิธีการแบบกลุ่มไม่สามารถใช้งานได้เนื่องจากความซับซ้อนในการคำนวณหรือหน่วยความจำสูง บางวิธีพยายามรวมสองแนวทางเข้าด้วยกัน วิธีการที่อิงตามความแตกต่างเชิงเวลายังช่วยแก้ปัญหาที่สี่ได้อีกด้วย
อีกปัญหาหนึ่งที่เฉพาะเจาะจงกับ TD มาจากการพึ่งพาสมการเบลล์แมนแบบเวียนซ้ำ วิธีการ TD ส่วนใหญ่มีสิ่งที่เรียกว่าพารามิเตอร์ที่สามารถประมาณค่าแบบต่อเนื่องระหว่างวิธีการมอนเตคาร์โลที่ไม่พึ่งพาสมการเบลล์แมนและวิธีการ TD พื้นฐานที่พึ่งพาสมการเบลล์แมนอย่างสมบูรณ์ ซึ่งอาจมีประสิทธิภาพในการบรรเทาปัญหานี้ได้
วิธีการประมาณฟังก์ชัน
เพื่อแก้ไขปัญหาข้อที่ห้าจึงใช้วิธีการประมาณค่าฟังก์ชัน การประมาณค่าฟังก์ชันเชิงเส้นเริ่มต้นด้วยการแมป ที่กำหนดเวกเตอร์มิติจำกัดให้กับคู่สถานะ-การกระทำแต่ละคู่ จากนั้น ค่าการกระทำของคู่สถานะ-การกระทำ จะได้รับโดยการรวมส่วนประกอบของเวกเตอร์เชิงเส้น เข้าด้วยกันโดยใช้ค่า น้ำหนักบางอย่าง:
จากนั้นอัลกอริธึมจะปรับน้ำหนักแทนที่จะปรับค่าที่เกี่ยวข้องกับคู่สถานะ-การกระทำแต่ละคู่ มีการสำรวจวิธีการที่อิงตามแนวคิดจากสถิติแบบไม่พาราเมตริก (ซึ่งสามารถมองได้ว่าสร้างคุณลักษณะของตนเอง)
การวนซ้ำค่าสามารถใช้เป็นจุดเริ่มต้นได้เช่นกัน ทำให้เกิด อัลกอริธึม Q-learningและรูปแบบต่างๆ มากมาย[ 19 ]รวมถึงวิธีการ Deep Q-learning เมื่อใช้โครงข่ายประสาทเทียมเพื่อแสดง Q โดยมีแอปพลิเคชันต่างๆ ในปัญหาการค้นหาแบบสุ่ม[ 20 ]
ปัญหาของการใช้ค่าการกระทำคือ อาจจำเป็นต้องมีการประมาณค่าการกระทำที่แข่งขันกันอย่างแม่นยำสูง ซึ่งอาจทำได้ยากเมื่อผลตอบแทนมีความผันผวน แม้ว่าปัญหานี้จะบรรเทาลงได้บ้างด้วยวิธีการความแตกต่างเชิงเวลา การใช้วิธีการประมาณค่าฟังก์ชันที่เข้ากันได้นั้นทำให้ความสามารถในการสรุปผลและประสิทธิภาพลดลง
ค้นหานโยบายโดยตรง
อีกวิธีหนึ่งคือการค้นหาโดยตรงในพื้นที่นโยบาย (หรือส่วนย่อยบางส่วนของพื้นที่นโยบาย) ซึ่งในกรณีนี้ปัญหาจะกลายเป็นกรณีของการเพิ่มประสิทธิภาพเชิงสุ่มวิธีการที่ใช้มีสองวิธี ได้แก่ วิธีที่ใช้การไล่ระดับ และวิธีที่ไม่ใช้การไล่ระดับ
วิธีการที่ใช้การ ไล่ระดับ ( วิธีการไล่ระดับนโยบาย ) เริ่มต้นด้วยการแมปจากพื้นที่มิติจำกัด (พารามิเตอร์) ไปยังพื้นที่ของนโยบาย: เมื่อกำหนดเวกเตอร์พารามิเตอร์ให้แทนนโยบายที่เกี่ยวข้องกับการกำหนดฟังก์ชันประสิทธิภาพโดยภายใต้เงื่อนไขที่ไม่รุนแรง ฟังก์ชันนี้จะสามารถหาอนุพันธ์ได้เป็นฟังก์ชันของเวกเตอร์พารามิเตอร์ หาก ทราบการไล่ระดับของ ก็สามารถใช้ การเพิ่มการไล่ระดับได้ เนื่องจากไม่มีนิพจน์เชิงวิเคราะห์สำหรับการไล่ระดับ จึงมีเพียงการประมาณค่าที่มีสัญญาณรบกวนเท่านั้น การประมาณค่าดังกล่าวสามารถสร้างขึ้นได้หลายวิธี ทำให้เกิดอัลกอริทึมเช่น วิธี REINFORCE ของวิลเลียมส์[ 21 ] (ซึ่งเป็นที่รู้จักในชื่อวิธีอัตราส่วนความน่าจะเป็นใน วรรณกรรม การเพิ่มประสิทธิภาพตามการจำลอง ) [ 22 ]
วิธีการจำนวนมากหลีกเลี่ยงการพึ่งพาข้อมูลเกรเดียนต์ ซึ่งรวมถึงการจำลองการอบอ่อน ( simulated annealing) การค้นหาแบบเอนโทร ปีไขว้ ( cross-entropy search)หรือวิธีการคำนวณเชิงวิวัฒนาการ (evolutionary computation ) วิธีการที่ไม่ใช้เกรเดียนต์หลายวิธีสามารถบรรลุจุดเหมาะสมที่สุดทั่วโลกได้ (ในทางทฤษฎีและในขีดจำกัด)
วิธีการค้นหานโยบายอาจบรรจบกันช้าเมื่อข้อมูลมีสัญญาณรบกวน ตัวอย่างเช่น สิ่งนี้เกิดขึ้นในปัญหาแบบเป็นตอนๆ เมื่อเส้นทางยาวและความแปรปรวนของผลตอบแทนมีขนาดใหญ่ วิธีการที่ใช้ฟังก์ชันค่าซึ่งอาศัยความแตกต่างตามเวลาอาจช่วยได้ในกรณีนี้ ในช่วงไม่กี่ปีที่ผ่านมาวิธีการแบบนักแสดง-นักวิจารณ์ได้รับการเสนอและทำงานได้ดีในปัญหาต่างๆ[ 23 ]
วิธีการค้นหานโยบายถูกนำมาใช้ในบริบทของหุ่นยนต์[ 24 ]วิธีการค้นหานโยบายหลายวิธีอาจติดอยู่ในจุดเหมาะสมเฉพาะที่ (เนื่องจากขึ้นอยู่กับการค้นหาเฉพาะที่ )
อัลกอริทึมแบบจำลอง
สุดท้ายนี้ วิธีการทั้งหมดข้างต้นสามารถรวมเข้ากับอัลกอริธึมที่เรียนรู้แบบจำลองของกระบวนการตัดสินใจแบบมาร์คอฟ ก่อน ซึ่งก็คือความน่าจะเป็นของแต่ละสถานะถัดไปเมื่อพิจารณาจากการกระทำที่เกิดขึ้นจากสถานะที่มีอยู่ ตัวอย่างเช่น อัลกอริธึม Dyna เรียนรู้แบบจำลองจากประสบการณ์ และใช้แบบจำลองนั้นเพื่อสร้างการเปลี่ยนผ่านแบบจำลองเพิ่มเติมสำหรับฟังก์ชันค่า นอกเหนือจากการเปลี่ยนผ่านจริง[ 25 ]บางครั้งวิธีการดังกล่าวสามารถขยายไปสู่การใช้แบบจำลองที่ไม่ใช่พารามิเตอร์ได้ เช่น เมื่อการเปลี่ยนผ่านถูกจัดเก็บและ "เล่นซ้ำ" กับอัลกอริธึมการเรียนรู้[ 26 ]
วิธีการตามแบบจำลองอาจใช้การคำนวณมากกว่าวิธีการที่ไม่ใช้แบบจำลอง และประโยชน์ของวิธีการเหล่านี้อาจถูกจำกัดด้วยขอบเขตที่สามารถเรียนรู้กระบวนการตัดสินใจของมาร์คอฟได้[ 27 ]
นอกจากการอัปเดตฟังก์ชันค่าแล้ว ยังมีวิธีอื่นในการใช้โมเดลอีกด้วย[ 28 ]ตัวอย่างเช่น ในการควบคุมแบบทำนายโมเดลโมเดลจะถูกใช้เพื่ออัปเดตพฤติกรรมโดยตรง
การเรียนรู้แบบเสริมแรงภายใต้การกำกับดูแลบางส่วน (PSRL)
การสำรวจที่มีค่าใช้จ่ายสูงซึ่งจำเป็นต่อการเรียนรู้นโยบายที่เหมาะสมที่สุดสามารถลดลงได้หากมีข้อมูลการกำกับดูแลอยู่บ้าง ตัวอย่างเช่น สามารถทำได้โดยการเรียนรู้นโยบายควบคุมแบบหยาบๆ และใช้นโยบายนี้ในการเริ่มต้นตาราง Q อย่างชาญฉลาดแทนที่จะใช้ค่าศูนย์[ 29 ]
ทฤษฎี
พฤติกรรมทั้งในระยะยาวและในตัวอย่างขนาดจำกัดของอัลกอริทึมส่วนใหญ่เป็นที่เข้าใจกันดี อัลกอริทึมที่มีประสิทธิภาพออนไลน์ที่ดีอย่างพิสูจน์ได้ (กล่าวคือ ในลักษณะที่สามารถพิสูจน์ได้) (ซึ่งแก้ไขปัญหาการสำรวจ) ก็เป็นที่รู้จักกันดี
การสำรวจกระบวนการตัดสินใจแบบมาร์คอฟที่มีประสิทธิภาพนั้นได้ระบุไว้ใน Burnetas และ Katehakis (1997) [ 12 ]ขอบเขตประสิทธิภาพในช่วงเวลาจำกัดก็ปรากฏขึ้นสำหรับอัลกอริทึมหลายตัวเช่นกัน แต่คาดว่าขอบเขตเหล่านี้จะค่อนข้างหลวม ดังนั้นจึงจำเป็นต้องมีการทำงานเพิ่มเติมเพื่อทำความเข้าใจข้อดีและข้อจำกัดที่เกี่ยวข้องให้ดียิ่งขึ้น
สำหรับอัลกอริธึมแบบเพิ่มทีละขั้น ปัญหาการลู่เข้าเชิงอะซิมโทติกได้รับการแก้ไขแล้ว อัลกอริธึมที่ใช้ความแตกต่างเชิงเวลาจะลู่เข้าภายใต้เงื่อนไขที่กว้างกว่าที่เคยเป็นไปได้ (ตัวอย่างเช่น เมื่อใช้กับการประมาณฟังก์ชันเรียบแบบใดๆ ก็ตาม)
วิจัย
หัวข้อการวิจัยได้แก่:
- สถาปัตยกรรมนักแสดง-นักวิจารณ์[ 30 ]
- สถาปัตยกรรมนักแสดง-นักวิจารณ์-ฉาก[ 3 ]
- วิธีการปรับตัวที่ทำงานโดยใช้พารามิเตอร์น้อยลง (หรือไม่มีเลย) ภายใต้เงื่อนไขจำนวนมาก
- การตรวจจับข้อบกพร่องในโครงการซอฟต์แวร์[ 31 ]
- การเรียนรู้อย่างต่อเนื่อง
- การผสมผสานกับกรอบงานตามตรรกะ (เช่น ข้อกำหนดตรรกะเชิงเวลา[ 32 ]เครื่องรางวัล[ 33 ]และการโต้แย้งเชิงความน่าจะเป็น) [ 34 ]
- การสำรวจในกระบวนการตัดสินใจแบบมาร์คอฟขนาดใหญ่
- การเรียนรู้แบบเสริมแรงตามเอนทิตี[ 35 ] [ 36 ] [ 37 ]
- ข้อเสนอแนะของมนุษย์[ 38 ]
- ปฏิสัมพันธ์ระหว่างการเรียนรู้โดยปริยายและการเรียนรู้โดยชัดแจ้งในการได้มาซึ่งทักษะ
- แรงจูงใจภายในซึ่งเป็นสิ่งที่แยกพฤติกรรมการแสวงหาข้อมูลและความอยากรู้อยากเห็นออกจากพฤติกรรมที่มุ่งเน้นเป้าหมายตามภารกิจ การประเมินเชิงประจักษ์ขนาดใหญ่
- พื้นที่การกระทำขนาดใหญ่ (หรือต่อเนื่อง)
- การเรียนรู้การเสริมแรงแบบโมดูลาร์และลำดับชั้น[ 39 ]
- การเรียนรู้แบบเสริมแรงแบบหลายเอเจนต์/แบบกระจายเป็นหัวข้อที่น่าสนใจ การใช้งานกำลังขยายตัว[ 40 ]
- การควบคุมที่เน้นผู้โดยสารเป็นศูนย์กลาง
- การเพิ่มประสิทธิภาพทรัพยากรการคำนวณ[ 41 ] [ 42 ] [ 43 ]
- ข้อมูลบางส่วน (เช่น การใช้การแสดงสถานะเชิงทำนาย )
- ฟังก์ชันรางวัลขึ้นอยู่กับการเพิ่มข้อมูลใหม่ให้สูงสุด[ 44 ] [ 45 ] [ 46 ]
- การวางแผนโดยใช้ตัวอย่าง (เช่นการค้นหาแบบต้นไม้ด้วยวิธีมอนเตคาร์โล )
- การซื้อขายหลักทรัพย์[ 47 ]
- การเรียนรู้แบบถ่ายโอน[ 48 ]
- TD learning modeling การเรียนรู้ที่อาศัย โดปามีนในสมองการส่งสัญญาณโดปามีนจากซับสแตน เซีย นิกรา ไปยังฐานสมองทำหน้าที่ในการคาดการณ์ความผิดพลาด
- วิธีการค้นหาฟังก์ชันค่าและนโยบาย
การเปรียบเทียบอัลกอริธึมหลัก
ตารางต่อไปนี้แสดงรายการอัลกอริธึมหลักสำหรับการเรียนรู้นโยบายโดยขึ้นอยู่กับเกณฑ์หลายประการ:
- อัลกอริทึมสามารถเป็นแบบ on-policy (โดยจะทำการอัปเดตนโยบายโดยใช้เส้นทางที่สุ่มตัวอย่างผ่านนโยบายปัจจุบัน) [ 49 ]หรือแบบ off-policy
- พื้นที่การกระทำอาจเป็นแบบไม่ต่อเนื่อง (เช่น พื้นที่การกระทำอาจเป็น "ขึ้น", "ไปทางซ้าย", "ไปทางขวา", "ลง", "อยู่กับที่") หรือแบบต่อเนื่อง (เช่น การขยับแขนด้วยมุมที่กำหนด)
- พื้นที่สถานะอาจเป็นแบบไม่ต่อเนื่อง (เช่น ตัวแทนอาจอยู่ในช่องใดช่องหนึ่งในตาราง) หรือแบบต่อเนื่อง (เช่น ตัวแทนอาจอยู่ที่ตำแหน่งใดตำแหน่งหนึ่งในระนาบ)
| อัลกอริทึม | คำอธิบาย | นโยบาย | พื้นที่ปฏิบัติการ | ปริภูมิสถานะ | ผู้ปฏิบัติงาน |
|---|---|---|---|---|---|
| มอนเตคาร์โล | ทุกครั้งที่มาเยือนมอนเตคาร์โล | ทั้ง | แยกส่วน | แยกส่วน | ค่าเฉลี่ยตัวอย่างของค่าสถานะหรือค่าการกระทำ |
| การเรียนรู้ TD | สถานะ–การกระทำ–รางวัล–สถานะ | นอกเหนือนโยบาย | แยกส่วน | แยกส่วน | ค่าสถานะ |
| คิวเลิร์นนิ่ง | สถานะ–การกระทำ–รางวัล–สถานะ | นอกเหนือนโยบาย | แยกส่วน | แยกส่วน | คุณค่าของการกระทำ |
| ซาร์ซ่า | สถานะ–การกระทำ–รางวัล–สถานะ–การกระทำ | ตามนโยบาย | แยกส่วน | แยกส่วน | คุณค่าของการกระทำ |
| ดีคิวเอ็น | เครือข่ายดีพคิว | นอกเหนือนโยบาย | แยกส่วน | ต่อเนื่อง | คุณค่าของการกระทำ |
| ดีดีพีจี | การไล่ระดับนโยบายเชิงกำหนดแบบลึก | นอกเหนือนโยบาย | ต่อเนื่อง | ต่อเนื่อง | คุณค่าของการกระทำ |
| เอ3ซี | อัลกอริทึม Actor-Critic ที่มีข้อได้เปรียบแบบอะซิงโครนัส | ตามนโยบาย | ต่อเนื่อง[ 50 ]หรือไม่ต่อเนื่อง | ต่อเนื่อง | ข้อได้เปรียบ (=ค่าการกระทำ - ค่าสถานะ) |
| ทรอปโป | การเพิ่มประสิทธิภาพนโยบายภูมิภาคความไว้วางใจ | ตามนโยบาย | ต่อเนื่องหรือไม่ต่อเนื่อง | ต่อเนื่อง | ข้อได้เปรียบ |
| พีพีโอ | การเพิ่มประสิทธิภาพนโยบายแบบใกล้เคียง | ตามนโยบาย | ต่อเนื่องหรือไม่ต่อเนื่อง | ต่อเนื่อง | ข้อได้เปรียบ |
| ทีดี3 | การไล่ระดับนโยบายเชิงกำหนดแบบลึกที่ล่าช้าคู่ | นอกเหนือนโยบาย | ต่อเนื่อง | ต่อเนื่อง | คุณค่าของการกระทำ |
| เอสเอซี | นักแสดง-นักวิจารณ์ผู้อ่อนโยน | นอกเหนือนโยบาย | ต่อเนื่อง | ต่อเนื่อง | ข้อได้เปรียบ |
| DSAC [ 51 ] [ 52 ] [ 53 ] | นักวิจารณ์นักแสดงซอฟต์ด้านการจัดจำหน่าย | นอกเหนือนโยบาย | ต่อเนื่อง | ต่อเนื่อง | การกระจายค่าการกระทำ |
การเรียนรู้เสริมแรงแบบเชื่อมโยง
งานการเรียนรู้เสริมแรงแบบเชื่อมโยงจะรวมเอาแง่มุมต่างๆ ของงานออโตมาตาการเรียนรู้แบบสุ่มและงานการจำแนกรูปแบบการเรียนรู้แบบมีผู้กำกับดูแล ในงานการเรียนรู้เสริมแรงแบบเชื่อมโยง ระบบการเรียนรู้จะโต้ตอบกับสภาพแวดล้อมในวงปิด[ 54 ]
การเรียนรู้เสริมแรงเชิงลึก
แนวทางนี้ขยายการเรียนรู้แบบเสริมแรงโดยใช้โครงข่ายประสาทเทียมเชิงลึกและไม่ต้องออกแบบพื้นที่สถานะอย่างชัดเจน[ 55 ]งานเกี่ยวกับการเรียนรู้เกม ATARI โดย Google DeepMindทำให้เกิดความสนใจใน การเรียน รู้แบบเสริมแรงเชิงลึกหรือการเรียนรู้แบบเสริมแรงแบบครบวงจร มากขึ้น [ 56 ]
การเรียนรู้เสริมแรงเชิงลึกแบบต่อต้าน
การเรียนรู้แบบเสริมแรงเชิงลึกแบบต่อต้านเป็นหัวข้อวิจัยที่กำลังได้รับความสนใจอย่างมากในการเรียนรู้แบบเสริมแรง โดยมุ่งเน้นไปที่จุดอ่อนของนโยบายที่เรียนรู้แล้ว ในหัวข้อวิจัยนี้ การศึกษาบางส่วนแสดงให้เห็นในเบื้องต้นว่านโยบายการเรียนรู้แบบเสริมแรงนั้นมีความอ่อนไหวต่อการจัดการแบบต่อต้านที่มองไม่เห็น[ 57 ] [ 58 ] [ 59 ]แม้ว่าจะมีการเสนอวิธีการบางอย่างเพื่อเอาชนะจุดอ่อนเหล่านี้ แต่ในการศึกษาล่าสุดพบว่าวิธีการแก้ปัญหาที่เสนอมานั้นยังห่างไกลจากการแสดงถึงจุดอ่อนในปัจจุบันของนโยบายการเรียนรู้แบบเสริมแรงเชิงลึกได้อย่างแม่นยำ[ 60 ]
การเรียนรู้เสริมแรงแบบฟัซซี
ด้วยการนำการอนุมานแบบฟัซซีมาใช้ในการเรียนรู้แบบเสริมแรง[ 61 ]การประมาณค่าฟังก์ชันสถานะ-การกระทำด้วยกฎฟัซซีในพื้นที่ต่อเนื่องจึงเป็นไปได้ รูปแบบ IF - THEN ของกฎฟัซซีทำให้วิธีการนี้เหมาะสมสำหรับการแสดงผลลัพธ์ในรูปแบบที่ใกล้เคียงกับภาษาธรรมชาติ การขยาย FRL ด้วยการแทรกกฎฟัซซี[ 62 ]ช่วยให้สามารถใช้ฐานกฎฟัซซีแบบเบาบางที่มีขนาดเล็กลงเพื่อเน้นกฎหลัก (ค่าสถานะ-การกระทำที่สำคัญที่สุด)
การเรียนรู้แบบเสริมแรงผกผัน
ในการเรียนรู้แบบเสริมแรงผกผัน (IRL) จะไม่มีการกำหนดฟังก์ชันรางวัล แต่ฟังก์ชันรางวัลจะถูกอนุมานจากพฤติกรรมที่สังเกตได้จากผู้เชี่ยวชาญ แนวคิดคือการเลียนแบบพฤติกรรมที่สังเกตได้ ซึ่งมักจะเป็นพฤติกรรมที่ดีที่สุดหรือใกล้เคียงกับพฤติกรรมที่ดีที่สุด[ 63 ]รูปแบบ IRL ที่ได้รับความนิยมอย่างหนึ่งเรียกว่า การเรียนรู้แบบเสริมแรงผกผันเอนโทรปีสูงสุด (MaxEnt IRL) [ 64 ] MaxEnt IRL ประมาณค่าพารามิเตอร์ของแบบจำลองเชิงเส้นของฟังก์ชันรางวัลโดยการเพิ่มเอนโทรปีของการกระจายความน่าจะเป็นของวิถีที่สังเกตได้ให้สูงสุด ภายใต้ข้อจำกัดที่เกี่ยวข้องกับการจับคู่จำนวนคุณลักษณะที่คาดหวัง เมื่อเร็วๆ นี้ ได้มีการแสดงให้เห็นว่า MaxEnt IRL เป็นกรณีเฉพาะของกรอบการทำงานทั่วไปที่เรียกว่า การเรียนรู้แบบเสริมแรงผกผันยูทิลิตี้แบบสุ่ม (RU-IRL) [ 65 ] RU-IRL อิงตามทฤษฎียูทิลิตี้แบบสุ่มและกระบวนการตัดสินใจแบบมาร์คอฟ ในขณะที่แนวทาง IRL ก่อนหน้านี้สันนิษฐานว่าพฤติกรรมสุ่มที่ปรากฏของตัวแทนที่ถูกสังเกตนั้นเกิดจากการที่ตัวแทนนั้นปฏิบัติตามนโยบายแบบสุ่ม แต่ RU-IRL สันนิษฐานว่าตัวแทนที่ถูกสังเกตนั้นปฏิบัติตามนโยบายแบบกำหนดได้ แต่ความสุ่มในพฤติกรรมที่สังเกตได้นั้นเกิดจากข้อเท็จจริงที่ว่าผู้สังเกตสามารถเข้าถึงคุณลักษณะที่ตัวแทนที่ถูกสังเกตใช้ในการตัดสินใจได้เพียงบางส่วนเท่านั้น ฟังก์ชันอรรถประโยชน์ถูกจำลองเป็นตัวแปรสุ่มเพื่ออธิบายถึงความไม่รู้ของผู้สังเกตเกี่ยวกับคุณลักษณะที่ตัวแทนที่ถูกสังเกตพิจารณาจริง ๆ ในฟังก์ชันอรรถประโยชน์ของมัน
การเรียนรู้เสริมแรงแบบหลายเป้าหมาย
การเรียนรู้แบบเสริมแรงหลายวัตถุประสงค์ (MORL) เป็นรูปแบบหนึ่งของการเรียนรู้แบบเสริมแรงที่เกี่ยวข้องกับทางเลือกที่ขัดแย้งกัน ซึ่งแตกต่างจากการเพิ่มประสิทธิภาพหลายวัตถุประสงค์ตรงที่เกี่ยวข้องกับตัวแทนที่กระทำการในสภาพแวดล้อม[ 66 ] [ 67 ]
การเรียนรู้เสริมแรงที่ปลอดภัย
การเรียนรู้แบบเสริมแรงที่ปลอดภัย (SRL) สามารถนิยามได้ว่าเป็นกระบวนการเรียนรู้นโยบายที่เพิ่มความคาดหวังของผลตอบแทนสูงสุดในปัญหาที่สำคัญต่อการรับประกันประสิทธิภาพของระบบที่สมเหตุสมผลและ/หรือเคารพข้อจำกัดด้านความปลอดภัยในระหว่างกระบวนการเรียนรู้และ/หรือการใช้งาน[ 68 ] [ 69 ]แนวทางอื่นคือการเรียนรู้แบบเสริมแรงที่หลีกเลี่ยงความเสี่ยง โดยแทนที่จะใช้ผลตอบแทนที่คาดหวัง จะใช้ การวัดความเสี่ยงของผลตอบแทนที่เหมาะสม เช่นค่าความเสี่ยงตามเงื่อนไข (CVaR) [ 70 ]นอกเหนือจากการลดความเสี่ยงแล้ว วัตถุประสงค์ของ CVaR ยังเพิ่มความทนทานต่อความไม่แน่นอนของแบบจำลอง[ 71 ] [ 72 ]อย่างไรก็ตาม การเพิ่มประสิทธิภาพ CVaR ใน RL ที่หลีกเลี่ยงความเสี่ยงนั้นต้องใช้ความระมัดระวังเป็นพิเศษ เพื่อป้องกันอคติของเกรเดียนต์[ 73 ]และการมองไม่เห็นความสำเร็จ[ 74 ]
การเรียนรู้แบบเสริมแรงตนเอง
การเรียนรู้แบบเสริมแรงตนเอง (หรือการเรียนรู้ด้วยตนเอง) เป็นรูปแบบการเรียนรู้ที่ไม่ใช้แนวคิดเรื่องรางวัลทันทีหลังจากเปลี่ยนจากสถานะหนึ่งไปอีกสถานะหนึ่งด้วยการกระทำมันไม่ใช้การเสริมแรงภายนอก แต่ใช้เพียงการเสริมแรงตนเองภายในของตัวผู้เรียนรู้เองเท่านั้น การเสริมแรงตนเองภายในนี้เกิดขึ้นจากกลไกของความรู้สึกและอารมณ์ ในกระบวนการเรียนรู้ อารมณ์จะถูกส่งย้อนกลับโดยกลไกการเสริมแรงรอง สมการการเรียนรู้ไม่ได้รวมถึงรางวัลทันที แต่รวมเฉพาะการประเมินสถานะเท่านั้น
อัลกอริทึมการเสริมแรงตนเองจะอัปเดตเมทริกซ์หน่วยความจำเพื่อให้ในแต่ละรอบการทำงานจะดำเนินการตามขั้นตอนการเรียนรู้ของเครื่องดังต่อไปนี้:
- ในสถานการณ์นั้นๆให้ลงมือปฏิบัติ
- ประสบกับสถานการณ์ที่ตามมา
- คำนวณการประเมินสถานะว่าการอยู่ในสถานการณ์ผลลัพธ์นั้นดีเพียงใด
- อัปเดตหน่วยความจำครอสบาร์
สภาวะเริ่มต้นของความทรงจำนั้นได้รับมาจากสภาพแวดล้อมทางพันธุกรรม มันเป็นระบบที่มีอินพุตเพียงหนึ่งเดียว (สถานการณ์) และเอาต์พุตเพียงหนึ่งเดียว (การกระทำ หรือพฤติกรรม)
การเสริมแรงตนเอง (การเรียนรู้ด้วยตนเอง) ได้รับการแนะนำในปี พ.ศ. 2525 พร้อมกับโครงข่ายประสาทเทียมที่สามารถเรียนรู้แบบเสริมแรงตนเองได้ ซึ่งมีชื่อว่า Crossbar Adaptive Array (CAA) [ 75 ] [ 76 ] CAA คำนวณทั้งการตัดสินใจเกี่ยวกับการกระทำและอารมณ์ (ความรู้สึก) เกี่ยวกับสถานะผลลัพธ์ในลักษณะครอสบาร์ ระบบนี้ขับเคลื่อนด้วยปฏิสัมพันธ์ระหว่างการรับรู้และอารมณ์[ 77 ]
การเปรียบเทียบทางสถิติของอัลกอริธึมการเรียนรู้แบบเสริมแรง
การเปรียบเทียบอัลกอริทึม RL อย่างมีประสิทธิภาพเป็นสิ่งสำคัญสำหรับการวิจัย การใช้งาน และการตรวจสอบระบบ RL ในการเปรียบเทียบอัลกอริทึมต่างๆ ในสภาพแวดล้อมที่กำหนด สามารถฝึกเอเจนต์สำหรับแต่ละอัลกอริทึมได้ เนื่องจากประสิทธิภาพขึ้นอยู่กับรายละเอียดการใช้งาน อัลกอริทึมทั้งหมดจึงควรถูกนำไปใช้ให้ใกล้เคียงกันมากที่สุด[ 78 ]หลังจากการฝึกเสร็จสิ้น เอเจนต์สามารถทำงานกับตัวอย่างของตอนทดสอบ และสามารถเปรียบเทียบคะแนน (ผลตอบแทน) ของพวกมันได้ เนื่องจากโดยทั่วไปแล้วตอนต่างๆ จะถือว่าเป็นอิสระและมีการกระจายเหมือนกัน จึงสามารถใช้เครื่องมือทางสถิติมาตรฐานสำหรับการทดสอบสมมติฐาน เช่นการทดสอบ Tและการทดสอบการเรียงสับเปลี่ยน [ 79 ] ซึ่งจำเป็นต้องสะสมรางวัลทั้งหมดภายในตอนหนึ่งๆ เข้าเป็นตัวเลขเดียว นั่นคือ ผลตอบแทนของตอน อย่างไรก็ตาม วิธีนี้ทำให้เกิดการสูญเสียข้อมูล เนื่องจากขั้นตอนเวลาที่แตกต่างกันจะถูกเฉลี่ยเข้าด้วยกัน ซึ่งอาจมีระดับสัญญาณรบกวนที่แตกต่างกัน เมื่อใดก็ตามที่ระดับสัญญาณรบกวนแตกต่างกันไปในแต่ละตอน พลังทางสถิติสามารถปรับปรุงได้อย่างมีนัยสำคัญ โดยการถ่วงน้ำหนักรางวัลตามสัญญาณรบกวนที่ประมาณไว้[ 80 ]
ความท้าทายและข้อจำกัด
แม้ว่าจะมีความก้าวหน้าอย่างมาก การเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) ยังคงเผชิญกับความท้าทายและข้อจำกัดหลายประการที่ขัดขวางการนำไปประยุกต์ใช้ในวงกว้างในสถานการณ์จริง
ประสิทธิภาพการสุ่มตัวอย่างต่ำ
อัลกอริทึม RL มักต้องการปฏิสัมพันธ์กับสภาพแวดล้อมจำนวนมากเพื่อเรียนรู้กลยุทธ์ที่มีประสิทธิภาพ ซึ่งนำไปสู่ต้นทุนการคำนวณสูงและใช้เวลานานในการฝึกฝนเอเจนต์ ตัวอย่างเช่น บอทเล่น Dota ของ OpenAIใช้การจำลองการเล่นเกมหลายพันปีเพื่อให้ได้ประสิทธิภาพในระดับมนุษย์ เทคนิคต่างๆ เช่น การเล่นซ้ำประสบการณ์และการเรียนรู้ตามหลักสูตรได้รับการเสนอเพื่อลดความไม่効率ของตัวอย่าง แต่เทคนิคเหล่านี้เพิ่มความซับซ้อนมากขึ้นและไม่เพียงพอเสมอไปสำหรับการใช้งานในโลกแห่งความเป็นจริง
ปัญหาด้านเสถียรภาพและการบรรจบกัน
การฝึกฝนโมเดล RL โดยเฉพาะอย่างยิ่งโมเดลโครงข่ายประสาทเทียมเชิงลึกอาจไม่เสถียรและมีแนวโน้มที่จะเกิดการเบี่ยงเบน การเปลี่ยนแปลงเล็กน้อยในนโยบายหรือสภาพแวดล้อมอาจนำไปสู่ความผันผวนอย่างมากในประสิทธิภาพ ทำให้ยากที่จะได้ผลลัพธ์ที่สม่ำเสมอ ความไม่เสถียรนี้จะยิ่งเพิ่มมากขึ้นในกรณีของพื้นที่การกระทำแบบต่อเนื่องหรือแบบมิติสูง ซึ่งขั้นตอนการเรียนรู้จะซับซ้อนและคาดเดาได้ยากขึ้น
การสรุปทั่วไปและการถ่ายโอนได้
เอージェนต์ RL ที่ได้รับการฝึกฝนในสภาพแวดล้อมเฉพาะ มักประสบปัญหาในการนำนโยบายที่เรียนรู้ไปใช้ในสถานการณ์ใหม่ที่ไม่เคยพบมาก่อน นี่คืออุปสรรคสำคัญที่ขัดขวางการประยุกต์ใช้ RL ในสภาพแวดล้อมจริงที่มีการเปลี่ยนแปลงตลอดเวลา ซึ่งความสามารถในการปรับตัวเป็นสิ่งสำคัญ ความท้าทายคือการพัฒนาอัลกอริธึมที่สามารถถ่ายทอดความรู้ข้ามงานและสภาพแวดล้อมโดยไม่ต้องฝึกฝนใหม่เป็นจำนวนมาก
ปัญหาเกี่ยวกับอคติและฟังก์ชันการให้รางวัล
การออกแบบฟังก์ชันรางวัลที่เหมาะสมมีความสำคัญอย่างยิ่งใน RL เนื่องจากฟังก์ชันรางวัลที่ออกแบบไม่ดีอาจนำไปสู่พฤติกรรมที่ไม่พึงประสงค์ นอกจากนี้ ระบบ RL ที่ฝึกฝนด้วยข้อมูลที่มีอคติอาจทำให้เกิดอคติที่มีอยู่และนำไปสู่ผลลัพธ์ที่เลือกปฏิบัติหรือไม่ยุติธรรม ปัญหาทั้งสองนี้จำเป็นต้องพิจารณาโครงสร้างรางวัลและแหล่งข้อมูลอย่างรอบคอบเพื่อให้มั่นใจถึงความยุติธรรมและพฤติกรรมที่ต้องการ
ในการประมวลผลภาษาธรรมชาติ
ในช่วงไม่กี่ปีที่ผ่านมา นับตั้งแต่ต้นทศวรรษ 2020 [ 81 ]การเรียนรู้แบบเสริมแรงได้กลายเป็นแนวคิดสำคัญในการประมวลผลภาษาธรรมชาติ (NLP) ซึ่งงานต่างๆ มักเป็นการตัดสินใจตามลำดับมากกว่าการจำแนกประเภทแบบคงที่ การเรียนรู้แบบเสริมแรงคือการที่ตัวแทนดำเนินการในสภาพแวดล้อมเพื่อเพิ่มการสะสมรางวัลให้สูงสุด กรอบงานนี้เหมาะสมที่สุดสำหรับงาน NLP หลายอย่าง รวมถึงการสร้างบทสนทนา การสรุปข้อความ และการแปลด้วยเครื่องจักร ซึ่งคุณภาพของผลลัพธ์ขึ้นอยู่กับการเพิ่มประสิทธิภาพเป้าหมายระยะยาวหรือเป้าหมายที่เน้นมนุษย์เป็นศูนย์กลางมากกว่าการทำนายป้ายกำกับที่ถูกต้องเพียงป้ายเดียว
การประยุกต์ใช้การเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) ในด้านการประมวลผลภาษาธรรมชาติ (NLP) ในยุคแรกเริ่มนั้นเกิดขึ้นในระบบสนทนา โดยการสนทนาถูกกำหนดให้เป็นชุดของการกระทำที่ได้รับการปรับให้เหมาะสมเพื่อความคล่องแคล่วและความสอดคล้อง การทดลองในยุคแรกๆ เหล่านี้ รวมถึงเทคนิคการไล่ระดับนโยบาย (policy gradient) และเทคนิคการฝึกฝนระดับลำดับ (sequence-level training) ได้วางรากฐานสำหรับการประยุกต์ใช้การเรียนรู้แบบเสริมแรงในวงกว้างขึ้นในด้านอื่นๆ ของ NLP
ความก้าวหน้าครั้งสำคัญเกิดขึ้นจากการนำการเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์ (RLHF) มาใช้ ซึ่งเป็นวิธีการที่ใช้การให้คะแนนผลตอบรับจากมนุษย์เพื่อฝึกฝนแบบจำลองรางวัลที่ชี้นำตัวแทน RL แตกต่างจากระบบแบบใช้กฎหรือแบบมีผู้กำกับดูแลแบบดั้งเดิม RLHF ช่วยให้แบบจำลองสามารถปรับพฤติกรรมให้สอดคล้องกับการตัดสินของมนุษย์ในงานที่ซับซ้อนและเป็นอัตวิสัย เทคนิคนี้ถูกนำมาใช้ครั้งแรกในการพัฒนาInstructGPTซึ่งเป็นแบบจำลองภาษาที่มีประสิทธิภาพที่ได้รับการฝึกฝนให้ปฏิบัติตามคำสั่งของมนุษย์ และต่อมาในChatGPTซึ่งรวมเอา RLHF เพื่อปรับปรุงการตอบสนองและสร้างความปลอดภัย
เมื่อไม่นานมานี้ นักวิจัยได้สำรวจการใช้ RL แบบออฟไลน์ใน NLP เพื่อปรับปรุงระบบบทสนทนาโดยไม่จำเป็นต้องมีการโต้ตอบกับมนุษย์แบบสด วิธีการเหล่านี้ปรับให้เหมาะสมสำหรับการมีส่วนร่วมของผู้ใช้ ความสอดคล้อง และความหลากหลายโดยอิงจากบันทึกการสนทนาในอดีตและแบบจำลองรางวัลที่ฝึกฝนไว้ล่วงหน้า[ 82 ]
ตัวอย่างหนึ่งคือ DeepSeek-R1 ซึ่งรวมการฝึกอบรมหลายขั้นตอนและข้อมูลเริ่มต้นเย็นก่อน RL DeepSeek-R1 บรรลุประสิทธิภาพที่เทียบเคียงได้กับ OpenAI-o1-1217 ในงานการให้เหตุผล โมเดลนี้ได้รับการฝึกฝนผ่าน RL ขนาดใหญ่โดยไม่มีการปรับแต่งละเอียดแบบมีผู้กำกับดูแล (SFT) เป็นขั้นตอนเบื้องต้น [ 83 ]
ดูเพิ่มเติม
- การเรียนรู้เชิงรุก (การเรียนรู้ของเครื่องจักร)
- การเรียนรู้จากการฝึกงาน
- การเรียนรู้ที่ขับเคลื่อนด้วยข้อผิดพลาด
- การเรียนรู้แบบไม่ใช้โมเดล (การเรียนรู้แบบเสริมแรง)
- การเรียนรู้เสริมแรงแบบหลายเอเจนต์
- การควบคุมที่เหมาะสมที่สุด
- คิวเลิร์นนิ่ง
- การเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์
- รูปแบบความสัมพันธ์ระหว่างสถานะ-การกระทำ-รางวัล-สถานะ-การกระทำ (SARSA)
- การเรียนรู้ความแตกต่างเชิงเวลา
อ่านเพิ่มเติม
- Annaswamy, Anuradha M. (3 พฤษภาคม 2023). "การควบคุมแบบปรับตัวและทางแยกด้วยการเรียนรู้แบบเสริมแรง" . วารสารประจำปีด้านการควบคุม หุ่นยนต์ และระบบอัตโนมัติ . 6 (1): 65– 93. doi : 10.1146/annurev-control-062922-090153 . ISSN 2573-5144 . S2CID 255702873 .
- Auer, Peter ; Jaksch, Thomas; Ortner, Ronald (2010). "ขอบเขตความเสียใจที่ใกล้เคียงค่าเหมาะสมที่สุดสำหรับการเรียนรู้แบบเสริมแรง"วารสารการวิจัยการเรียนรู้ของเครื่องจักร11 : 1563–1600
- Bertsekas, Dimitri P. (2023) [2019]. การเรียนรู้แบบเสริมแรงและการควบคุมที่เหมาะสมที่สุด (ฉบับพิมพ์ครั้งที่ 1). Athena Scientific. ISBN 978-1-886-52939-7.
- Busoniu, Lucian; Babuska, Robert; De Schutter, Bart ; Ernst, Damien (2010). การเรียนรู้แบบเสริมแรงและการเขียนโปรแกรมเชิงพลวัตโดยใช้ตัวประมาณฟังก์ชัน Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
- François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "บทนำสู่การเรียนรู้แบบเสริมแรงเชิงลึก" พื้นฐานและแนวโน้มในการเรียนรู้ของเครื่องจักร 11 ( 3– 4 ): 219– 354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . doi : 10.1561/2200000071 . S2CID 54434537 .
- Li, Shengbo Eben (2023). การเรียนรู้แบบเสริมแรงสำหรับการตัดสินใจตามลำดับและการควบคุมที่เหมาะสมที่สุด (ฉบับพิมพ์ครั้งที่ 1). Springer Verlag, สิงคโปร์. doi : 10.1007/978-981-19-7784-8 . ISBN 978-9-811-97783-1.
- พาวเวลล์, วอร์เรน (2011). การเขียนโปรแกรมเชิงพลวัตโดยประมาณ: การแก้ปัญหาคำสาปแห่งมิติ . ไวลีย์-อินเตอร์ไซแอนซ์. เก็บถาวรจากต้นฉบับเมื่อ 31 กรกฎาคม 2016. สืบค้นเมื่อ8 กันยายน 2010 .
- Sutton, Richard S. (1988). "การเรียนรู้การทำนายโดยวิธีความแตกต่างเชิงเวลา" . Machine Learning . 3 (1): 9– 44. Bibcode : 1988MLear...3....9S . doi : 10.1007/BF00115009 .
- Sutton, Richard S. ; Barto, Andrew G. (2018) [1998]. การเรียนรู้แบบเสริมแรง: บทนำ (ฉบับที่ 2). สำนักพิมพ์ MIT. ISBN 978-0-262-03924-6.
- Szita, Istvan; Szepesvari, Csaba (2010). "การเรียนรู้แบบเสริมแรงโดยใช้แบบจำลองที่มีขอบเขตความซับซ้อนของการสำรวจที่เกือบจะแน่นหนา" (PDF) . ICML 2010. Omnipress. หน้า 1031–1038 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2010-07-14.
ลิงก์ภายนอก
- การวิเคราะห์การเรียนรู้แบบเสริมแรง (Reinforcement Learning)ชุดบทความเกี่ยวกับการเรียนรู้แบบเสริมแรงด้วยโค้ด Python
- เจาะลึก (แบบยาว) เรื่องการเรียนรู้แบบเสริมแรง
- QSMM – การเรียนรู้แบบเสริมแรงผ่านโปรแกรมแอสเซมเบลอร์เชิงความน่าจะเป็นแบบปรับตัวได้
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การเรียนรู้แบบเสริมแรง
ในด้าน การเรียนรู้ของเครื่องจักร และ การควบคุมที่เหมาะสมที่สุด การเรียนรู้แบบเสริมแรง ( Reinforcement Learning : RL ) เกี่ยวข้องกับวิธีการที่ ตัวแทนอัจฉริยะ ควร ดำเนินการ...
หลักการ
เนื่องจากความทั่วไปของทฤษฎีการเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) จึงมีการศึกษาในหลายสาขาวิชา เช่นทฤษฎีเกม ทฤษฎี การ ควบคุม การวิจัยดำเนินงาน ทฤษฎีสารสนเทศ การ เพิ่มประสิทธิภาพโดยใช้การจำลอง ระบบ หลายเอเจน ต์ ปัญญาแบบฝูง และ สถิติ...
การสำรวจ
การ แลกเปลี่ยนระหว่างการสำรวจและการแสวงหาประโยชน์ ได้รับการศึกษาอย่างละเอียดถี่ถ้วนที่สุดผ่าน ปัญหา multi-armed bandit และสำหรับกระบวนการตัดสินใจ Markov ในพื้นที่สถานะจำกัดใน Burnetas และ Katehakis (1997) [ 12 ]
อัลกอริทึมสำหรับการเรียนรู้การควบคุม
แม้ว่าจะละเลยประเด็นเรื่องการสำรวจ และแม้ว่าสถานะจะสามารถสังเกตได้ (ซึ่งจะสมมติไว้ต่อไปนี้) ปัญหาก็ยังคงอยู่ คือการใช้ประสบการณ์ในอดีตเพื่อค้นหาว่าการกระทำใดนำไปสู่ผลตอบแทนสะสมที่สูงกว่า