กลับไปหน้าบทความ

อ่าน 22 นาที

การเรียนรู้แบบเสริมแรง

ในด้าน การเรียนรู้ของเครื่องจักร และ การควบคุมที่เหมาะสมที่สุด การเรียนรู้แบบเสริมแรง ( Reinforcement Learning : RL ) เกี่ยวข้องกับวิธีการที่ ตัวแทนอัจฉริยะ ควร ดำเนินการ...

การเรียนรู้แบบเสริมแรง

โดยทั่วไปแล้ว สถานการณ์การเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) จะมีรูปแบบดังนี้: ตัวแทน (agent) จะทำการกระทำต่างๆ ในสภาพแวดล้อม ซึ่งการกระทำเหล่านั้นจะถูกตีความออกมาเป็นรางวัลและการแสดงสถานะ จากนั้นจึงส่งข้อมูลเหล่านี้กลับไปยังตัวแทน

ในด้านการเรียนรู้ของเครื่องจักรและการควบคุมที่เหมาะสมที่สุดการเรียนรู้แบบเสริมแรง ( Reinforcement Learning : RL ) เกี่ยวข้องกับวิธีการที่ตัวแทนอัจฉริยะควรดำเนินการในสภาพแวดล้อมแบบไดนามิกเพื่อ เพิ่มสัญญาณ รางวัลให้สูงสุดการเรียนรู้แบบเสริมแรงเป็นหนึ่งในสามกระบวนทัศน์พื้นฐานของการเรียนรู้ของเครื่องจักรควบคู่ไปกับการเรียนรู้แบบมีผู้กำกับดูแล (Supervised Learning ) และการเรียนรู้แบบไม่มีผู้กำกับดูแล (Unsupervised Learning )

ในขณะที่อัลกอริธึมการเรียนรู้แบบมีผู้กำกับดูแลและการเรียนรู้แบบไม่มีผู้กำกับดูแลพยายามค้นหารูปแบบในข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับตามลำดับ การเรียนรู้แบบเสริมแรงเกี่ยวข้องกับการฝึกตัวแทนผ่านการโต้ตอบกับสภาพแวดล้อม เพื่อเรียนรู้ที่จะเพิ่มรางวัลสูงสุดจากการโต้ตอบเหล่านี้ ตัวแทนจะตัดสินใจเลือกระหว่างการลองการกระทำใหม่ ๆ เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับสภาพแวดล้อม (การสำรวจ) หรือการใช้ความรู้ปัจจุบันของสภาพแวดล้อมเพื่อดำเนินการที่ดีที่สุด (การใช้ประโยชน์) [ 1 ]การค้นหาสมดุลที่เหมาะสมที่สุดระหว่างสองกลยุทธ์นี้เรียกว่าภาวะกลืนไม่เข้าคายไม่ออกของการสำรวจและการใช้ประโยชน์

โดยทั่วไปสภาพแวดล้อมจะระบุในรูปแบบของกระบวนการตัดสินใจแบบมาร์คอฟเนื่องจากอัลกอริธึมการเรียนรู้แบบเสริมแรงจำนวนมากใช้เทคนิคการเขียนโปรแกรมแบบไดนามิก[ 2 ]ความแตกต่างหลักระหว่างวิธีการเขียนโปรแกรมแบบไดนามิกแบบคลาสสิกและอัลกอริธึมการเรียนรู้แบบเสริมแรงคืออัลกอริธึมหลังไม่ถือว่ามีความรู้เกี่ยวกับแบบจำลองทางคณิตศาสตร์ที่แน่นอนของกระบวนการตัดสินใจแบบมาร์คอฟ และมุ่งเป้าไปที่กระบวนการตัดสินใจแบบมาร์คอฟขนาดใหญ่ซึ่งวิธีการที่แน่นอนไม่สามารถทำได้[ 3 ]

หลักการ

เนื่องจากความทั่วไปของทฤษฎีการเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) จึงมีการศึกษาในหลายสาขาวิชา เช่นทฤษฎีเกมทฤษฎีการควบคุมการวิจัยดำเนินงานทฤษฎีสารสนเทศการเพิ่มประสิทธิภาพโดยใช้การจำลองระบบหลายเอเจนต์ปัญญาแบบฝูงและสถิติในวรรณกรรมด้านการวิจัยดำเนินงานและการควบคุม RL ถูกเรียกว่าการเขียนโปรแกรมเชิงพลวัตโดยประมาณหรือการเขียนโปรแกรมเชิงพลวัตแบบประสาท (Neuro-dynamic programming)ปัญหาที่น่าสนใจใน RL ยังได้รับการศึกษาในทฤษฎีการควบคุมที่เหมาะสมที่สุดซึ่งส่วนใหญ่เกี่ยวข้องกับการมีอยู่และลักษณะเฉพาะของคำตอบที่เหมาะสมที่สุด และอัลกอริทึมสำหรับการคำนวณที่แม่นยำ และน้อยกว่าที่จะเกี่ยวข้องกับการเรียนรู้หรือการประมาณค่า (โดยเฉพาะอย่างยิ่งในกรณีที่ไม่มีแบบจำลองทางคณิตศาสตร์ของสภาพแวดล้อม)

การเรียนรู้แบบเสริมแรงขั้นพื้นฐานนั้นจำลองขึ้นโดยใช้กระบวนการตัดสินใจแบบมาร์คอฟ :

  • ชุดของสถานะสิ่งแวดล้อมและตัวแทน (ปริภูมิสถานะ) ;
  • ชุดของการกระทำ (พื้นที่การกระทำ) ของตัวแทน;
  • ความน่าจะเป็นของการเปลี่ยนสถานะ (ณ เวลา t ) จากสถานะหนึ่งไปยังอีกสถานะหนึ่งภายใต้การกระทำ
  • รางวัลทันทีหลังจากเปลี่ยนสถานะจากสถานะหนึ่งไปสู่ สถานะที่อยู่ภายใต้ การกระทำ

จุดประสงค์ของการเรียนรู้แบบเสริมแรงคือเพื่อให้ตัวแทนเรียนรู้นโยบายที่เหมาะสมที่สุด (หรือใกล้เคียงที่สุด) ที่เพิ่มฟังก์ชันรางวัลหรือสัญญาณเสริมแรงอื่น ๆ ที่ผู้ใช้กำหนดซึ่งสะสมจากรางวัลทันทีให้สูงสุด กระบวนการนี้คล้ายกับกระบวนการที่ดูเหมือนจะเกิดขึ้นในจิตวิทยาของสัตว์ ตัวอย่างเช่น สมองของสิ่งมีชีวิตถูกกำหนดให้ตีความสัญญาณเช่นความเจ็บปวดและความหิวเป็นตัวเสริมแรงเชิงลบ และตีความความสุขและการรับประทานอาหารเป็นตัวเสริมแรงเชิงบวก ในบางสถานการณ์ สัตว์เรียนรู้ที่จะปรับใช้พฤติกรรมที่เพิ่มรางวัลเหล่านี้ให้สูงสุด สิ่งนี้ชี้ให้เห็นว่าสัตว์มีความสามารถในการเรียนรู้แบบเสริมแรง[ 4 ] [ 5 ]

เอージェนต์การเรียนรู้แบบเสริมแรงพื้นฐานจะโต้ตอบกับสภาพแวดล้อมในขั้นตอนเวลาที่ไม่ต่อเนื่อง ในแต่ละขั้นตอนเวลาtเอージェนต์จะได้รับสถานะปัจจุบันและรางวัลจากนั้นจะเลือกการกระทำจากชุดการกระทำที่มีอยู่ ซึ่งจะถูกส่งไปยังสภาพแวดล้อมในภายหลัง สภาพแวดล้อมจะเปลี่ยนไปสู่สถานะใหม่และรางวัลที่เกี่ยวข้องกับการเปลี่ยนแปลงนั้นจะถูกกำหนด เป้าหมายของเอージェนต์การเรียนรู้แบบเสริมแรงคือการเรียนรู้นโยบาย :

ซึ่งจะทำให้ผลตอบแทนสะสมที่คาดหวังสูงสุด

การกำหนดปัญหาในรูปแบบกระบวนการตัดสินใจแบบมาร์คอฟ (Markov decision process) สมมติว่าตัวแทน (agent) สังเกตสถานะของสิ่งแวดล้อมในปัจจุบันได้โดยตรง ในกรณีนี้ ปัญหาจะเรียกว่ามี ความสามารถในการสังเกตได้อย่างสมบูรณ์ ( full observability ) หากตัวแทนเข้าถึงได้เพียงสถานะย่อย หรือหากสถานะที่สังเกตได้ถูกรบกวนด้วยสัญญาณรบกวน ตัวแทนจะเรียกว่ามี ความ สามารถในการสังเกตได้บางส่วน (partially observability ) และในทางทฤษฎี ปัญหาจะต้องถูกกำหนดในรูปแบบกระบวนการตัดสินใจแบบมาร์คอฟที่สังเกตได้บางส่วน (partially observable Markov decision process ) ในทั้งสองกรณี ชุดของการกระทำที่ตัวแทนสามารถทำได้สามารถถูกจำกัดได้ ตัวอย่างเช่น สถานะของยอดเงินในบัญชีอาจถูกจำกัดให้เป็นค่าบวก หากค่าปัจจุบันของสถานะคือ 3 และการเปลี่ยนสถานะพยายามลดค่าลง 4 การเปลี่ยนสถานะนั้นจะไม่ได้รับอนุญาต

เมื่อเปรียบเทียบประสิทธิภาพของเอージェนต์กับเอージェนต์ที่กระทำการอย่างเหมาะสมที่สุด ความแตกต่างของประสิทธิภาพจะก่อให้เกิดแนวคิดเรื่องความเสียใจเพื่อให้กระทำการได้ใกล้เคียงกับระดับที่เหมาะสมที่สุด เอージェนต์จะต้องใช้เหตุผลเกี่ยวกับผลที่ตามมาในระยะยาวของการกระทำของตน (เช่น การเพิ่มผลตอบแทนในอนาคตให้สูงสุด) แม้ว่าผลตอบแทนในทันทีที่เกี่ยวข้องกับสิ่งนี้อาจเป็นลบก็ตาม

ดังนั้น การเรียนรู้แบบเสริมแรงจึงเหมาะสมอย่างยิ่งสำหรับปัญหาที่เกี่ยวข้องกับการแลกเปลี่ยนระหว่างรางวัลระยะยาวและระยะสั้น มีการนำไปประยุกต์ใช้อย่างประสบความสำเร็จกับปัญหาต่างๆ มากมาย รวมถึงการจัดเก็บพลังงาน[ 6 ] การควบคุมหุ่นยนต์[ 7 ]เครื่องกำเนิดไฟฟ้าพลังงานแสงอาทิตย์ [ 8 ]แบ็แกมมอนหมากรุก [ 9 ]โกะ ( AlphaGo ) และระบบขับขี่อัตโนมัติ[ 10 ]

องค์ประกอบสองประการที่ทำให้การเรียนรู้แบบเสริมแรงมีประสิทธิภาพสูง ได้แก่ การใช้ตัวอย่างเพื่อเพิ่มประสิทธิภาพ และการใช้การประมาณฟังก์ชันเพื่อจัดการกับสภาพแวดล้อมขนาดใหญ่ ด้วยองค์ประกอบสำคัญสองประการนี้ การเรียนรู้แบบเสริมแรงจึงสามารถนำไปใช้ในสภาพแวดล้อมขนาดใหญ่ได้ในสถานการณ์ต่อไปนี้:

ปัญหาสองข้อแรกอาจถือได้ว่าเป็นปัญหาการวางแผน (เนื่องจากมีแบบจำลองบางรูปแบบอยู่แล้ว) ในขณะที่ปัญหาข้อสุดท้ายอาจถือได้ว่าเป็นปัญหาการเรียนรู้ที่แท้จริง อย่างไรก็ตาม การเรียนรู้แบบเสริมแรงจะแปลงปัญหาการวางแผนทั้งสองให้เป็นปัญหา การเรียนรู้ของเครื่องจักร

การสำรวจ

การแลกเปลี่ยนระหว่างการสำรวจและการแสวงหาประโยชน์ได้รับการศึกษาอย่างละเอียดถี่ถ้วนที่สุดผ่าน ปัญหา multi-armed banditและสำหรับกระบวนการตัดสินใจ Markov ในพื้นที่สถานะจำกัดใน Burnetas และ Katehakis (1997) [ 12 ]

การเรียนรู้แบบเสริมแรงต้องการกลไกการสำรวจที่ชาญฉลาด การเลือกการกระทำแบบสุ่มโดยไม่คำนึงถึงการประมาณการกระจายความน่าจะเป็นจะให้ประสิทธิภาพที่ต่ำ กรณีของกระบวนการตัดสินใจแบบมาร์คอฟที่มีขนาดเล็กนั้นเป็นที่เข้าใจกันค่อนข้างดี อย่างไรก็ตาม เนื่องจากขาดอัลกอริธึมที่สามารถปรับขนาดได้ดีกับจำนวนสถานะ (หรือปรับขนาดให้เข้ากับปัญหาที่มีปริภูมิสถานะอนันต์) วิธีการสำรวจแบบง่ายจึงเป็นวิธีที่ใช้ได้จริงที่สุด

หนึ่งในวิธีการดังกล่าวคือ-greedy โดยที่เป็นพารามิเตอร์ที่ควบคุมปริมาณการสำรวจเทียบกับการใช้ประโยชน์ ด้วยความน่าจะเป็นการใช้ประโยชน์จะถูกเลือก และตัวแทนจะเลือกการกระทำที่เชื่อว่ามีผลดีที่สุดในระยะยาว (หากการกระทำใดมีผลเท่ากัน จะถูกเลือกแบบสุ่มอย่างสม่ำเสมอ) หรืออีกทางหนึ่ง ด้วยความน่าจะเป็นการสำรวจจะถูกเลือก และการกระทำจะถูกเลือกแบบสุ่มอย่างสม่ำเสมอโดยปกติจะเป็นพารามิเตอร์คงที่ แต่สามารถปรับได้ตามตารางเวลา (ทำให้ตัวแทนสำรวจน้อยลงเรื่อยๆ) หรือปรับเปลี่ยนตามหลักการเชิงฮิวริสติก[ 13 ]

อัลกอริทึมสำหรับการเรียนรู้การควบคุม

แม้ว่าจะละเลยประเด็นเรื่องการสำรวจ และแม้ว่าสถานะจะสามารถสังเกตได้ (ซึ่งจะสมมติไว้ต่อไปนี้) ปัญหาก็ยังคงอยู่ คือการใช้ประสบการณ์ในอดีตเพื่อค้นหาว่าการกระทำใดนำไปสู่ผลตอบแทนสะสมที่สูงกว่า

เกณฑ์ความเหมาะสมที่สุด

นโยบาย

การเลือกการกระทำของเอเจนต์นั้นถูกจำลองเป็นแผนที่ที่เรียกว่านโยบาย :

แผนที่นโยบายให้ความน่าจะเป็นของการดำเนินการเมื่ออยู่ในสถานะ[ 14 ] : 61 นอกจากนี้ยังมีนโยบายเชิงกำหนด ซึ่งแสดงถึงการกระทำที่ควรดำเนินการในสถานะ

ฟังก์ชันค่าสถานะ

ฟังก์ชันค่าสถานะถูกกำหนดให้เป็นผลตอบแทนส่วนลดที่คาดหวังโดยเริ่มต้นจากสถานะเช่นและตามนโยบายอย่างต่อเนื่องดังนั้นโดยคร่าวๆ ฟังก์ชันค่าจะประมาณว่าการอยู่ในสถานะที่กำหนดนั้น "ดีแค่ไหน" [ 14 ] : 60

โดยที่ตัวแปรสุ่มแสดงถึงผลตอบแทนที่คิดลดแล้วและถูกกำหนดให้เป็นผลรวมของรางวัลที่คิดลดในอนาคต:

โดยที่รางวัลสำหรับการเปลี่ยนสถานะจากสถานะหนึ่งไปยังอีกสถานะหนึ่งคืออัตราส่วนลดซึ่งมีค่าน้อยกว่า 1 ดังนั้นรางวัลในอนาคตอันไกลโพ้นจึงมีน้ำหนักน้อยกว่ารางวัลในอนาคตอันใกล้

อัลกอริทึมต้องค้นหานโยบายที่มีผลตอบแทนที่คาดหวังหลังหักส่วนลดสูงสุด จากทฤษฎีของกระบวนการตัดสินใจแบบมาร์คอฟ เป็นที่ทราบกันดีว่า โดยไม่เสียความเป็นทั่วไป การค้นหาสามารถจำกัดได้เฉพาะชุดของนโยบายที่เรียกว่านโยบายคงที่ นโยบายจะ คงที่หากการกระจายการกระทำที่ส่งคืนโดยนโยบายนั้นขึ้นอยู่กับสถานะสุดท้ายที่เยี่ยมชมเท่านั้น (จากประวัติของตัวแทนการสังเกต) การค้นหาสามารถจำกัดเพิ่มเติมได้เฉพาะนโยบายคงที่แบบกำหนดได้ นโยบาย คงที่แบบกำหนดได้จะเลือกการกระทำอย่างแน่นอนโดยอิงจากสถานะปัจจุบัน เนื่องจากนโยบายดังกล่าวสามารถระบุได้ด้วยการแมปจากชุดของสถานะไปยังชุดของการกระทำ ดังนั้นนโยบายเหล่านี้จึงสามารถระบุได้ด้วยการแมปดังกล่าวโดยไม่เสียความเป็นทั่วไป

กำลังดุร้าย

วิธี การแบบ ใช้กำลังอย่างเดียวประกอบด้วยสองขั้นตอน:

  • สำหรับแต่ละนโยบายที่เป็นไปได้ ตัวอย่างผลตอบแทนขณะปฏิบัติตามนโยบายนั้น
  • เลือกกรมธรรม์ที่มีอัตราผลตอบแทนส่วนลดที่คาดหวังสูงสุด

ปัญหาประการหนึ่งคือ จำนวนกรมธรรม์อาจมีมาก หรืออาจไม่มีที่สิ้นสุด อีกปัญหาหนึ่งคือ ความแปรปรวนของผลตอบแทนอาจมีมาก ซึ่งจำเป็นต้องใช้ตัวอย่างจำนวนมากเพื่อประมาณผลตอบแทนที่คิดลดแล้วของแต่ละกรมธรรม์ได้อย่างแม่นยำ

ปัญหาเหล่านี้สามารถบรรเทาได้หากเราสมมติโครงสร้างบางอย่างและอนุญาตให้ตัวอย่างที่สร้างขึ้นจากนโยบายหนึ่งมีอิทธิพลต่อการประมาณค่าที่ทำขึ้นสำหรับนโยบายอื่น แนวทางหลักสองประการในการบรรลุเป้าหมายนี้คือการประมาณค่าฟังก์ชันมูลค่าและการ ค้นหานโยบายโดยตรง

ฟังก์ชันค่า

แนวทางการใช้ฟังก์ชันมูลค่าพยายามค้นหานโยบายที่เพิ่มผลตอบแทนที่คิดลดแล้วให้สูงสุด โดยการรักษาชุดประมาณการผลตอบแทนที่คิดลดแล้วที่คาดหวังไว้สำหรับนโยบายบางอย่าง (โดยปกติจะเป็นนโยบาย "ปัจจุบัน" [ตามนโยบาย] หรือนโยบายที่เหมาะสมที่สุด [นอกนโยบาย])

วิธีการเหล่านี้อาศัยทฤษฎีของกระบวนการตัดสินใจแบบมาร์คอฟ ซึ่งนิยามของความเหมาะสมที่สุดนั้นมีความหมายที่เข้มข้นกว่าที่กล่าวมาข้างต้น กล่าวคือ นโยบายจะเหมาะสมที่สุดก็ต่อเมื่อสามารถให้ผลตอบแทนที่คาดหวังได้ดีที่สุดเมื่อคิดลดแล้วจาก สถานะเริ่มต้น ใดๆ (กล่าวคือ การกระจายตัวของสถานะเริ่มต้นไม่มีบทบาทในนิยามนี้) และเช่นเคย นโยบายที่เหมาะสมที่สุดสามารถพบได้เสมอในบรรดานโยบายที่อยู่ในสภาวะคงที่

เพื่อกำหนดนิยามของความเหมาะสมที่สุดในเชิงรูปแบบ ให้กำหนดค่าสถานะของนโยบายโดย

โดยที่ หมายถึงผลตอบแทนที่ลดลงซึ่งเกี่ยวข้องกับการติดตามจากสถานะเริ่มต้นกำหนดให้คือค่าสถานะสูงสุดที่เป็นไปได้ของโดยที่สามารถเปลี่ยนแปลงได้

นโยบายที่ทำให้ได้ค่าสถานะที่เหมาะสมที่สุดในแต่ละสถานะเรียกว่านโยบายที่เหมาะสมที่สุดเห็นได้ชัดว่านโยบายที่เหมาะสมที่สุดในแง่นี้ก็คือนโยบายที่เหมาะสมที่สุดในแง่ที่ว่ามันทำให้ผลตอบแทนที่คาดหวังหลังหักส่วนลดมีค่าสูงสุดด้วย เนื่องจากโดยที่คือสถานะที่สุ่มเลือกมาจาก1การแจกแจงของสถานะเริ่มต้น (ดังนั้น)

แม้ว่าค่าสถานะจะเพียงพอต่อการกำหนดความเหมาะสมที่สุด แต่การกำหนดค่าการกระทำก็มีประโยชน์เช่นกัน เมื่อกำหนดสถานะการกระทำและนโยบายแล้ว ค่าการกระทำของคู่ภายใต้จะถูกกำหนดโดย

โดยที่now หมายถึงผลตอบแทนส่วนลดแบบสุ่มที่เกี่ยวข้องกับการดำเนินการครั้งแรกในสถานะและตามด้วยสถานะถัดไป

ทฤษฎีของกระบวนการตัดสินใจแบบมาร์คอฟกล่าวว่า ถ้าเป็นนโยบายที่เหมาะสมที่สุด เราจะกระทำการอย่างเหมาะสมที่สุด (เลือกการกระทำที่เหมาะสมที่สุด) โดยเลือกการกระทำจากที่มีค่าการกระทำสูงสุดในแต่ละสถานะฟังก์ชันค่าการกระทำของนโยบายที่เหมาะสมที่สุดดังกล่าว ( ) เรียกว่าฟังก์ชันค่าการกระทำที่เหมาะสมที่สุดและโดยทั่วไปจะใช้สัญลักษณ์ โดยสรุปแล้ว ความรู้เกี่ยวกับฟังก์ชันค่าการกระทำที่เหมาะสมที่สุดเพียงอย่างเดียวก็เพียงพอที่จะรู้ว่าควรกระทำการอย่างไรให้เหมาะสมที่สุด

โดยสมมติว่ามีความรู้สมบูรณ์เกี่ยวกับกระบวนการตัดสินใจแบบมาร์คอฟ วิธีการพื้นฐานสองวิธีในการคำนวณฟังก์ชันค่าการกระทำที่เหมาะสมที่สุดคือการวนซ้ำค่าและการวนซ้ำนโยบายทั้งสองอัลกอริธึมคำนวณลำดับของฟังก์ชัน( ) ที่ลู่เข้าสู่การคำนวณฟังก์ชันเหล่านี้เกี่ยวข้องกับการคำนวณค่าคาดหวังเหนือปริภูมิสถานะทั้งหมด ซึ่งไม่สามารถทำได้จริงสำหรับกระบวนการตัดสินใจแบบมาร์คอฟทั้งหมด ยกเว้นกระบวนการที่เล็กที่สุด (จำกัด) ในวิธีการเรียนรู้แบบเสริมแรง ค่าคาดหวังจะถูกประมาณโดยการหาค่าเฉลี่ยเหนือตัวอย่าง และใช้เทคนิคการประมาณฟังก์ชันเพื่อรับมือกับความต้องการในการแสดงฟังก์ชันค่าเหนือปริภูมิสถานะ-การกระทำขนาดใหญ่

วิธีการมอนเตคาร์โล

วิธีการ Monte Carlo [ 15 ]ใช้ในการแก้ปัญหาการเรียนรู้แบบเสริมแรงโดยการหาค่าเฉลี่ยของผลตอบแทนตัวอย่าง แตกต่างจากวิธีการที่ต้องอาศัยความรู้เกี่ยวกับพลวัตของสภาพแวดล้อมอย่างครบถ้วน วิธีการ Monte Carlo อาศัยเพียงประสบการณ์จริงหรือการจำลอง —ลำดับของสถานะ การกระทำ และรางวัลที่ได้รับจากการโต้ตอบกับสภาพแวดล้อม ทำให้สามารถนำไปใช้ได้ในสถานการณ์ที่ไม่ทราบพลวัตทั้งหมด การเรียนรู้จากประสบการณ์จริงไม่จำเป็นต้องมีความรู้เกี่ยวกับสภาพแวดล้อมมาก่อน และยังสามารถนำไปสู่พฤติกรรมที่เหมาะสมที่สุดได้ เมื่อใช้ประสบการณ์จำลอง จำเป็นต้องมีเพียงแบบจำลองที่สามารถสร้างการเปลี่ยนผ่านตัวอย่างเท่านั้น แทนที่จะต้องระบุความน่าจะเป็นของการเปลี่ยนผ่าน อย่างครบถ้วน ซึ่งจำเป็นสำหรับวิธี การเขียนโปรแกรมแบบไดนามิก

วิธีการมอนเตคาร์โลใช้ได้กับงานที่มีลักษณะเป็นตอนๆ โดยที่ประสบการณ์จะถูกแบ่งออกเป็นตอนๆ ซึ่งจะสิ้นสุดลงในที่สุด การปรับปรุงนโยบายและฟังก์ชันมูลค่าจะเกิดขึ้นหลังจากเสร็จสิ้นแต่ละตอนเท่านั้น ทำให้วิธีการเหล่านี้เป็นแบบเพิ่มขึ้นทีละตอน ไม่ใช่แบบทีละขั้นตอน (ออนไลน์) คำว่า "มอนเตคาร์โล" โดยทั่วไปหมายถึงวิธีการใดๆ ที่เกี่ยวข้องกับการสุ่มตัวอย่างแต่ในบริบทนี้ หมายถึงวิธีการที่คำนวณค่าเฉลี่ยจาก ผลตอบแทน ทั้งหมดไม่ใช่ผลตอบแทน บางส่วน

วิธีการเหล่านี้ทำงานคล้ายกับอัลกอริธึมแบนดิตซึ่งผลตอบแทนจะถูกหาค่าเฉลี่ยสำหรับแต่ละคู่สถานะ-การกระทำ ความแตกต่างที่สำคัญคือ การกระทำที่เกิดขึ้นในสถานะหนึ่งจะส่งผลต่อผลตอบแทนของสถานะถัดไปภายในตอนเดียวกัน ทำให้ปัญหานี้ไม่คงที่เพื่อแก้ไขปัญหาที่ไม่คงที่นี้ วิธีการมอนเตคาร์โลใช้กรอบการทำงานของการวนซ้ำนโยบายทั่วไป (GPI) ในขณะที่การเขียนโปรแกรมแบบไดนามิกคำนวณฟังก์ชันค่าโดยใช้ความรู้ทั้งหมดของกระบวนการตัดสินใจแบบมาร์คอฟ วิธีการมอนเตคาร์โลเรียนรู้ฟังก์ชันเหล่านี้ผ่านผลตอบแทนตัวอย่าง ฟังก์ชันค่าและนโยบายโต้ตอบกันในลักษณะเดียวกับการเขียนโปรแกรมแบบไดนามิกเพื่อให้ได้ความเหมาะสมที่สุดโดยเริ่มจากการแก้ปัญหาการทำนายก่อน แล้วจึงขยายไปสู่การปรับปรุงและควบคุมนโยบาย ทั้งหมดนี้ขึ้นอยู่กับประสบการณ์ตัวอย่าง[ 14 ]

วิธีการหาความแตกต่างเชิงเวลา

ปัญหาแรกได้รับการแก้ไขโดยการอนุญาตให้กระบวนการเปลี่ยนแปลงนโยบาย (ในบางสถานะหรือทุกสถานะ) ก่อนที่ค่าจะคงที่ อย่างไรก็ตาม วิธีนี้ก็อาจเป็นปัญหาได้เช่นกัน เพราะอาจขัดขวางการบรรจบกัน อัลกอริทึมส่วนใหญ่ในปัจจุบันใช้วิธีนี้ ทำให้เกิดกลุ่มของอัลกอริทึมการวนซ้ำนโยบายแบบทั่วไป วิธีการแบบ Actor-Criticหลายวิธีจัดอยู่ในกลุ่มนี้

ปัญหาที่สองสามารถแก้ไขได้โดยการอนุญาตให้วิถีการเคลื่อนที่สามารถมีส่วนร่วมในคู่สถานะ-การกระทำใดๆ ในนั้นได้ ซึ่งอาจช่วยแก้ปัญหาที่สามได้ในระดับหนึ่ง แม้ว่าวิธีแก้ปัญหาที่ดีกว่าเมื่อผลตอบแทนมีความแปรปรวนสูงคือ วิธีการ ความแตกต่างเชิงเวลา (TD) ของ Sutton ซึ่งอิงตามสมการ Bellman แบบ วน ซ้ำ[ 16 ] [ 17 ]การคำนวณในวิธีการ TD สามารถเป็นแบบเพิ่มขึ้น (เมื่อหลังจากการเปลี่ยนผ่านแต่ละครั้ง หน่วยความจำจะถูกเปลี่ยนแปลงและการเปลี่ยนผ่านจะถูกทิ้งไป) หรือแบบกลุ่ม (เมื่อการเปลี่ยนผ่านถูกจัดกลุ่มและค่าประมาณจะถูกคำนวณเพียงครั้งเดียวโดยอิงจากกลุ่ม) วิธีการแบบกลุ่ม เช่น วิธีการความแตกต่างเชิงเวลาแบบกำลังสองน้อยที่สุด[ 18 ]อาจใช้ข้อมูลในตัวอย่างได้ดีกว่า ในขณะที่วิธีการแบบเพิ่มขึ้นเป็นทางเลือกเดียวเมื่อวิธีการแบบกลุ่มไม่สามารถใช้งานได้เนื่องจากความซับซ้อนในการคำนวณหรือหน่วยความจำสูง บางวิธีพยายามรวมสองแนวทางเข้าด้วยกัน วิธีการที่อิงตามความแตกต่างเชิงเวลายังช่วยแก้ปัญหาที่สี่ได้อีกด้วย

อีกปัญหาหนึ่งที่เฉพาะเจาะจงกับ TD มาจากการพึ่งพาสมการเบลล์แมนแบบเวียนซ้ำ วิธีการ TD ส่วนใหญ่มีสิ่งที่เรียกว่าพารามิเตอร์ที่สามารถประมาณค่าแบบต่อเนื่องระหว่างวิธีการมอนเตคาร์โลที่ไม่พึ่งพาสมการเบลล์แมนและวิธีการ TD พื้นฐานที่พึ่งพาสมการเบลล์แมนอย่างสมบูรณ์ ซึ่งอาจมีประสิทธิภาพในการบรรเทาปัญหานี้ได้

วิธีการประมาณฟังก์ชัน

เพื่อแก้ไขปัญหาข้อที่ห้าจึงใช้วิธีการประมาณค่าฟังก์ชัน การประมาณค่าฟังก์ชันเชิงเส้นเริ่มต้นด้วยการแมป ที่กำหนดเวกเตอร์มิติจำกัดให้กับคู่สถานะ-การกระทำแต่ละคู่ จากนั้น ค่าการกระทำของคู่สถานะ-การกระทำ จะได้รับโดยการรวมส่วนประกอบของเวกเตอร์เชิงเส้น เข้าด้วยกันโดยใช้ค่า น้ำหนักบางอย่าง:

จากนั้นอัลกอริธึมจะปรับน้ำหนักแทนที่จะปรับค่าที่เกี่ยวข้องกับคู่สถานะ-การกระทำแต่ละคู่ มีการสำรวจวิธีการที่อิงตามแนวคิดจากสถิติแบบไม่พาราเมตริก (ซึ่งสามารถมองได้ว่าสร้างคุณลักษณะของตนเอง)

การวนซ้ำค่าสามารถใช้เป็นจุดเริ่มต้นได้เช่นกัน ทำให้เกิด อัลกอริธึม Q-learningและรูปแบบต่างๆ มากมาย[ 19 ]รวมถึงวิธีการ Deep Q-learning เมื่อใช้โครงข่ายประสาทเทียมเพื่อแสดง Q โดยมีแอปพลิเคชันต่างๆ ในปัญหาการค้นหาแบบสุ่ม[ 20 ]

ปัญหาของการใช้ค่าการกระทำคือ อาจจำเป็นต้องมีการประมาณค่าการกระทำที่แข่งขันกันอย่างแม่นยำสูง ซึ่งอาจทำได้ยากเมื่อผลตอบแทนมีความผันผวน แม้ว่าปัญหานี้จะบรรเทาลงได้บ้างด้วยวิธีการความแตกต่างเชิงเวลา การใช้วิธีการประมาณค่าฟังก์ชันที่เข้ากันได้นั้นทำให้ความสามารถในการสรุปผลและประสิทธิภาพลดลง

อีกวิธีหนึ่งคือการค้นหาโดยตรงในพื้นที่นโยบาย (หรือส่วนย่อยบางส่วนของพื้นที่นโยบาย) ซึ่งในกรณีนี้ปัญหาจะกลายเป็นกรณีของการเพิ่มประสิทธิภาพเชิงสุ่มวิธีการที่ใช้มีสองวิธี ได้แก่ วิธีที่ใช้การไล่ระดับ และวิธีที่ไม่ใช้การไล่ระดับ

วิธีการที่ใช้การ ไล่ระดับ ( วิธีการไล่ระดับนโยบาย ) เริ่มต้นด้วยการแมปจากพื้นที่มิติจำกัด (พารามิเตอร์) ไปยังพื้นที่ของนโยบาย: เมื่อกำหนดเวกเตอร์พารามิเตอร์ให้แทนนโยบายที่เกี่ยวข้องกับการกำหนดฟังก์ชันประสิทธิภาพโดยภายใต้เงื่อนไขที่ไม่รุนแรง ฟังก์ชันนี้จะสามารถหาอนุพันธ์ได้เป็นฟังก์ชันของเวกเตอร์พารามิเตอร์ หาก ทราบการไล่ระดับของ ก็สามารถใช้ การเพิ่มการไล่ระดับได้ เนื่องจากไม่มีนิพจน์เชิงวิเคราะห์สำหรับการไล่ระดับ จึงมีเพียงการประมาณค่าที่มีสัญญาณรบกวนเท่านั้น การประมาณค่าดังกล่าวสามารถสร้างขึ้นได้หลายวิธี ทำให้เกิดอัลกอริทึมเช่น วิธี REINFORCE ของวิลเลียมส์[ 21 ] (ซึ่งเป็นที่รู้จักในชื่อวิธีอัตราส่วนความน่าจะเป็นใน วรรณกรรม การเพิ่มประสิทธิภาพตามการจำลอง ) [ 22 ]

วิธีการจำนวนมากหลีกเลี่ยงการพึ่งพาข้อมูลเกรเดียนต์ ซึ่งรวมถึงการจำลองการอบอ่อน ( simulated annealing) การค้นหาแบบเอนโทร ปีไขว้ ( cross-entropy search)หรือวิธีการคำนวณเชิงวิวัฒนาการ (evolutionary computation ) วิธีการที่ไม่ใช้เกรเดียนต์หลายวิธีสามารถบรรลุจุดเหมาะสมที่สุดทั่วโลกได้ (ในทางทฤษฎีและในขีดจำกัด)

วิธีการค้นหานโยบายอาจบรรจบกันช้าเมื่อข้อมูลมีสัญญาณรบกวน ตัวอย่างเช่น สิ่งนี้เกิดขึ้นในปัญหาแบบเป็นตอนๆ เมื่อเส้นทางยาวและความแปรปรวนของผลตอบแทนมีขนาดใหญ่ วิธีการที่ใช้ฟังก์ชันค่าซึ่งอาศัยความแตกต่างตามเวลาอาจช่วยได้ในกรณีนี้ ในช่วงไม่กี่ปีที่ผ่านมาวิธีการแบบนักแสดง-นักวิจารณ์ได้รับการเสนอและทำงานได้ดีในปัญหาต่างๆ[ 23 ]

วิธีการค้นหานโยบายถูกนำมาใช้ในบริบทของหุ่นยนต์[ 24 ]วิธีการค้นหานโยบายหลายวิธีอาจติดอยู่ในจุดเหมาะสมเฉพาะที่ (เนื่องจากขึ้นอยู่กับการค้นหาเฉพาะที่ )

อัลกอริทึมแบบจำลอง

สุดท้ายนี้ วิธีการทั้งหมดข้างต้นสามารถรวมเข้ากับอัลกอริธึมที่เรียนรู้แบบจำลองของกระบวนการตัดสินใจแบบมาร์คอฟ ก่อน ซึ่งก็คือความน่าจะเป็นของแต่ละสถานะถัดไปเมื่อพิจารณาจากการกระทำที่เกิดขึ้นจากสถานะที่มีอยู่ ตัวอย่างเช่น อัลกอริธึม Dyna เรียนรู้แบบจำลองจากประสบการณ์ และใช้แบบจำลองนั้นเพื่อสร้างการเปลี่ยนผ่านแบบจำลองเพิ่มเติมสำหรับฟังก์ชันค่า นอกเหนือจากการเปลี่ยนผ่านจริง[ 25 ]บางครั้งวิธีการดังกล่าวสามารถขยายไปสู่การใช้แบบจำลองที่ไม่ใช่พารามิเตอร์ได้ เช่น เมื่อการเปลี่ยนผ่านถูกจัดเก็บและ "เล่นซ้ำ" กับอัลกอริธึมการเรียนรู้[ 26 ]

วิธีการตามแบบจำลองอาจใช้การคำนวณมากกว่าวิธีการที่ไม่ใช้แบบจำลอง และประโยชน์ของวิธีการเหล่านี้อาจถูกจำกัดด้วยขอบเขตที่สามารถเรียนรู้กระบวนการตัดสินใจของมาร์คอฟได้[ 27 ]

นอกจากการอัปเดตฟังก์ชันค่าแล้ว ยังมีวิธีอื่นในการใช้โมเดลอีกด้วย[ 28 ]ตัวอย่างเช่น ในการควบคุมแบบทำนายโมเดลโมเดลจะถูกใช้เพื่ออัปเดตพฤติกรรมโดยตรง

การเรียนรู้แบบเสริมแรงภายใต้การกำกับดูแลบางส่วน (PSRL)

การสำรวจที่มีค่าใช้จ่ายสูงซึ่งจำเป็นต่อการเรียนรู้นโยบายที่เหมาะสมที่สุดสามารถลดลงได้หากมีข้อมูลการกำกับดูแลอยู่บ้าง ตัวอย่างเช่น สามารถทำได้โดยการเรียนรู้นโยบายควบคุมแบบหยาบๆ และใช้นโยบายนี้ในการเริ่มต้นตาราง Q อย่างชาญฉลาดแทนที่จะใช้ค่าศูนย์[ 29 ]

ทฤษฎี

พฤติกรรมทั้งในระยะยาวและในตัวอย่างขนาดจำกัดของอัลกอริทึมส่วนใหญ่เป็นที่เข้าใจกันดี อัลกอริทึมที่มีประสิทธิภาพออนไลน์ที่ดีอย่างพิสูจน์ได้ (กล่าวคือ ในลักษณะที่สามารถพิสูจน์ได้) (ซึ่งแก้ไขปัญหาการสำรวจ) ก็เป็นที่รู้จักกันดี

การสำรวจกระบวนการตัดสินใจแบบมาร์คอฟที่มีประสิทธิภาพนั้นได้ระบุไว้ใน Burnetas และ Katehakis (1997) [ 12 ]ขอบเขตประสิทธิภาพในช่วงเวลาจำกัดก็ปรากฏขึ้นสำหรับอัลกอริทึมหลายตัวเช่นกัน แต่คาดว่าขอบเขตเหล่านี้จะค่อนข้างหลวม ดังนั้นจึงจำเป็นต้องมีการทำงานเพิ่มเติมเพื่อทำความเข้าใจข้อดีและข้อจำกัดที่เกี่ยวข้องให้ดียิ่งขึ้น

สำหรับอัลกอริธึมแบบเพิ่มทีละขั้น ปัญหาการลู่เข้าเชิงอะซิมโทติกได้รับการแก้ไขแล้ว อัลกอริธึมที่ใช้ความแตกต่างเชิงเวลาจะลู่เข้าภายใต้เงื่อนไขที่กว้างกว่าที่เคยเป็นไปได้ (ตัวอย่างเช่น เมื่อใช้กับการประมาณฟังก์ชันเรียบแบบใดๆ ก็ตาม)

วิจัย

หัวข้อการวิจัยได้แก่:

  • สถาปัตยกรรมนักแสดง-นักวิจารณ์[ 30 ]
  • สถาปัตยกรรมนักแสดง-นักวิจารณ์-ฉาก[ 3 ]
  • วิธีการปรับตัวที่ทำงานโดยใช้พารามิเตอร์น้อยลง (หรือไม่มีเลย) ภายใต้เงื่อนไขจำนวนมาก
  • การตรวจจับข้อบกพร่องในโครงการซอฟต์แวร์[ 31 ]
  • การเรียนรู้อย่างต่อเนื่อง
  • การผสมผสานกับกรอบงานตามตรรกะ (เช่น ข้อกำหนดตรรกะเชิงเวลา[ 32 ]เครื่องรางวัล[ 33 ]และการโต้แย้งเชิงความน่าจะเป็น) [ 34 ]
  • การสำรวจในกระบวนการตัดสินใจแบบมาร์คอฟขนาดใหญ่
  • การเรียนรู้แบบเสริมแรงตามเอนทิตี[ 35 ] [ 36 ] [ 37 ]
  • ข้อเสนอแนะของมนุษย์[ 38 ]
  • ปฏิสัมพันธ์ระหว่างการเรียนรู้โดยปริยายและการเรียนรู้โดยชัดแจ้งในการได้มาซึ่งทักษะ
  • แรงจูงใจภายในซึ่งเป็นสิ่งที่แยกพฤติกรรมการแสวงหาข้อมูลและความอยากรู้อยากเห็นออกจากพฤติกรรมที่มุ่งเน้นเป้าหมายตามภารกิจ การประเมินเชิงประจักษ์ขนาดใหญ่
  • พื้นที่การกระทำขนาดใหญ่ (หรือต่อเนื่อง)
  • การเรียนรู้การเสริมแรงแบบโมดูลาร์และลำดับชั้น[ 39 ]
  • การเรียนรู้แบบเสริมแรงแบบหลายเอเจนต์/แบบกระจายเป็นหัวข้อที่น่าสนใจ การใช้งานกำลังขยายตัว[ 40 ]
  • การควบคุมที่เน้นผู้โดยสารเป็นศูนย์กลาง
  • การเพิ่มประสิทธิภาพทรัพยากรการคำนวณ[ 41 ] [ 42 ] [ 43 ]
  • ข้อมูลบางส่วน (เช่น การใช้การแสดงสถานะเชิงทำนาย )
  • ฟังก์ชันรางวัลขึ้นอยู่กับการเพิ่มข้อมูลใหม่ให้สูงสุด[ 44 ] [ 45 ] [ 46 ]
  • การวางแผนโดยใช้ตัวอย่าง (เช่นการค้นหาแบบต้นไม้ด้วยวิธีมอนเตคาร์โล )
  • การซื้อขายหลักทรัพย์[ 47 ]
  • การเรียนรู้แบบถ่ายโอน[ 48 ]
  • TD learning modeling การเรียนรู้ที่อาศัย โดปามีนในสมองการส่งสัญญาณโดปามีนจากซับสแตน เซีย นิกรา ไปยังฐานสมองทำหน้าที่ในการคาดการณ์ความผิดพลาด
  • วิธีการค้นหาฟังก์ชันค่าและนโยบาย

การเปรียบเทียบอัลกอริธึมหลัก

ตารางต่อไปนี้แสดงรายการอัลกอริธึมหลักสำหรับการเรียนรู้นโยบายโดยขึ้นอยู่กับเกณฑ์หลายประการ:

  • อัลกอริทึมสามารถเป็นแบบ on-policy (โดยจะทำการอัปเดตนโยบายโดยใช้เส้นทางที่สุ่มตัวอย่างผ่านนโยบายปัจจุบัน) [ 49 ]หรือแบบ off-policy
  • พื้นที่การกระทำอาจเป็นแบบไม่ต่อเนื่อง (เช่น พื้นที่การกระทำอาจเป็น "ขึ้น", "ไปทางซ้าย", "ไปทางขวา", "ลง", "อยู่กับที่") หรือแบบต่อเนื่อง (เช่น การขยับแขนด้วยมุมที่กำหนด)
  • พื้นที่สถานะอาจเป็นแบบไม่ต่อเนื่อง (เช่น ตัวแทนอาจอยู่ในช่องใดช่องหนึ่งในตาราง) หรือแบบต่อเนื่อง (เช่น ตัวแทนอาจอยู่ที่ตำแหน่งใดตำแหน่งหนึ่งในระนาบ)
อัลกอริทึมคำอธิบายนโยบายพื้นที่ปฏิบัติการปริภูมิสถานะผู้ปฏิบัติงาน
มอนเตคาร์โลทุกครั้งที่มาเยือนมอนเตคาร์โลทั้งแยกส่วนแยกส่วนค่าเฉลี่ยตัวอย่างของค่าสถานะหรือค่าการกระทำ
การเรียนรู้ TDสถานะ–การกระทำ–รางวัล–สถานะนอกเหนือนโยบายแยกส่วนแยกส่วนค่าสถานะ
คิวเลิร์นนิ่งสถานะ–การกระทำ–รางวัล–สถานะนอกเหนือนโยบายแยกส่วนแยกส่วนคุณค่าของการกระทำ
ซาร์ซ่าสถานะ–การกระทำ–รางวัล–สถานะ–การกระทำตามนโยบายแยกส่วนแยกส่วนคุณค่าของการกระทำ
ดีคิวเอ็นเครือข่ายดีพคิวนอกเหนือนโยบายแยกส่วนต่อเนื่องคุณค่าของการกระทำ
ดีดีพีจีการไล่ระดับนโยบายเชิงกำหนดแบบลึกนอกเหนือนโยบายต่อเนื่องต่อเนื่องคุณค่าของการกระทำ
เอ3ซีอัลกอริทึม Actor-Critic ที่มีข้อได้เปรียบแบบอะซิงโครนัสตามนโยบายต่อเนื่อง[ 50 ]หรือไม่ต่อเนื่องต่อเนื่องข้อได้เปรียบ (=ค่าการกระทำ - ค่าสถานะ)
ทรอปโปการเพิ่มประสิทธิภาพนโยบายภูมิภาคความไว้วางใจตามนโยบายต่อเนื่องหรือไม่ต่อเนื่องต่อเนื่องข้อได้เปรียบ
พีพีโอการเพิ่มประสิทธิภาพนโยบายแบบใกล้เคียงตามนโยบายต่อเนื่องหรือไม่ต่อเนื่องต่อเนื่องข้อได้เปรียบ
ทีดี3 การไล่ระดับนโยบายเชิงกำหนดแบบลึกที่ล่าช้าคู่ นอกเหนือนโยบาย ต่อเนื่อง ต่อเนื่อง คุณค่าของการกระทำ
เอสเอซี นักแสดง-นักวิจารณ์ผู้อ่อนโยน นอกเหนือนโยบาย ต่อเนื่อง ต่อเนื่อง ข้อได้เปรียบ
DSAC [ 51 ] [ 52 ] [ 53 ]นักวิจารณ์นักแสดงซอฟต์ด้านการจัดจำหน่ายนอกเหนือนโยบายต่อเนื่องต่อเนื่องการกระจายค่าการกระทำ

การเรียนรู้เสริมแรงแบบเชื่อมโยง

งานการเรียนรู้เสริมแรงแบบเชื่อมโยงจะรวมเอาแง่มุมต่างๆ ของงานออโตมาตาการเรียนรู้แบบสุ่มและงานการจำแนกรูปแบบการเรียนรู้แบบมีผู้กำกับดูแล ในงานการเรียนรู้เสริมแรงแบบเชื่อมโยง ระบบการเรียนรู้จะโต้ตอบกับสภาพแวดล้อมในวงปิด[ 54 ]

การเรียนรู้เสริมแรงเชิงลึก

แนวทางนี้ขยายการเรียนรู้แบบเสริมแรงโดยใช้โครงข่ายประสาทเทียมเชิงลึกและไม่ต้องออกแบบพื้นที่สถานะอย่างชัดเจน[ 55 ]งานเกี่ยวกับการเรียนรู้เกม ATARI โดย Google DeepMindทำให้เกิดความสนใจใน การเรียน รู้แบบเสริมแรงเชิงลึกหรือการเรียนรู้แบบเสริมแรงแบบครบวงจร มากขึ้น [ 56 ]

การเรียนรู้เสริมแรงเชิงลึกแบบต่อต้าน

การเรียนรู้แบบเสริมแรงเชิงลึกแบบต่อต้านเป็นหัวข้อวิจัยที่กำลังได้รับความสนใจอย่างมากในการเรียนรู้แบบเสริมแรง โดยมุ่งเน้นไปที่จุดอ่อนของนโยบายที่เรียนรู้แล้ว ในหัวข้อวิจัยนี้ การศึกษาบางส่วนแสดงให้เห็นในเบื้องต้นว่านโยบายการเรียนรู้แบบเสริมแรงนั้นมีความอ่อนไหวต่อการจัดการแบบต่อต้านที่มองไม่เห็น[ 57 ] [ 58 ] [ 59 ]แม้ว่าจะมีการเสนอวิธีการบางอย่างเพื่อเอาชนะจุดอ่อนเหล่านี้ แต่ในการศึกษาล่าสุดพบว่าวิธีการแก้ปัญหาที่เสนอมานั้นยังห่างไกลจากการแสดงถึงจุดอ่อนในปัจจุบันของนโยบายการเรียนรู้แบบเสริมแรงเชิงลึกได้อย่างแม่นยำ[ 60 ]

การเรียนรู้เสริมแรงแบบฟัซซี

ด้วยการนำการอนุมานแบบฟัซซีมาใช้ในการเรียนรู้แบบเสริมแรง[ 61 ]การประมาณค่าฟังก์ชันสถานะ-การกระทำด้วยกฎฟัซซีในพื้นที่ต่อเนื่องจึงเป็นไปได้ รูปแบบ IF - THEN ของกฎฟัซซีทำให้วิธีการนี้เหมาะสมสำหรับการแสดงผลลัพธ์ในรูปแบบที่ใกล้เคียงกับภาษาธรรมชาติ การขยาย FRL ด้วยการแทรกกฎฟัซซี[ 62 ]ช่วยให้สามารถใช้ฐานกฎฟัซซีแบบเบาบางที่มีขนาดเล็กลงเพื่อเน้นกฎหลัก (ค่าสถานะ-การกระทำที่สำคัญที่สุด)

การเรียนรู้แบบเสริมแรงผกผัน

ในการเรียนรู้แบบเสริมแรงผกผัน (IRL) จะไม่มีการกำหนดฟังก์ชันรางวัล แต่ฟังก์ชันรางวัลจะถูกอนุมานจากพฤติกรรมที่สังเกตได้จากผู้เชี่ยวชาญ แนวคิดคือการเลียนแบบพฤติกรรมที่สังเกตได้ ซึ่งมักจะเป็นพฤติกรรมที่ดีที่สุดหรือใกล้เคียงกับพฤติกรรมที่ดีที่สุด[ 63 ]รูปแบบ IRL ที่ได้รับความนิยมอย่างหนึ่งเรียกว่า การเรียนรู้แบบเสริมแรงผกผันเอนโทรปีสูงสุด (MaxEnt IRL) [ 64 ] MaxEnt IRL ประมาณค่าพารามิเตอร์ของแบบจำลองเชิงเส้นของฟังก์ชันรางวัลโดยการเพิ่มเอนโทรปีของการกระจายความน่าจะเป็นของวิถีที่สังเกตได้ให้สูงสุด ภายใต้ข้อจำกัดที่เกี่ยวข้องกับการจับคู่จำนวนคุณลักษณะที่คาดหวัง เมื่อเร็วๆ นี้ ได้มีการแสดงให้เห็นว่า MaxEnt IRL เป็นกรณีเฉพาะของกรอบการทำงานทั่วไปที่เรียกว่า การเรียนรู้แบบเสริมแรงผกผันยูทิลิตี้แบบสุ่ม (RU-IRL) [ 65 ] RU-IRL อิงตามทฤษฎียูทิลิตี้แบบสุ่มและกระบวนการตัดสินใจแบบมาร์คอฟ ในขณะที่แนวทาง IRL ก่อนหน้านี้สันนิษฐานว่าพฤติกรรมสุ่มที่ปรากฏของตัวแทนที่ถูกสังเกตนั้นเกิดจากการที่ตัวแทนนั้นปฏิบัติตามนโยบายแบบสุ่ม แต่ RU-IRL สันนิษฐานว่าตัวแทนที่ถูกสังเกตนั้นปฏิบัติตามนโยบายแบบกำหนดได้ แต่ความสุ่มในพฤติกรรมที่สังเกตได้นั้นเกิดจากข้อเท็จจริงที่ว่าผู้สังเกตสามารถเข้าถึงคุณลักษณะที่ตัวแทนที่ถูกสังเกตใช้ในการตัดสินใจได้เพียงบางส่วนเท่านั้น ฟังก์ชันอรรถประโยชน์ถูกจำลองเป็นตัวแปรสุ่มเพื่ออธิบายถึงความไม่รู้ของผู้สังเกตเกี่ยวกับคุณลักษณะที่ตัวแทนที่ถูกสังเกตพิจารณาจริง ๆ ในฟังก์ชันอรรถประโยชน์ของมัน

การเรียนรู้เสริมแรงแบบหลายเป้าหมาย

การเรียนรู้แบบเสริมแรงหลายวัตถุประสงค์ (MORL) เป็นรูปแบบหนึ่งของการเรียนรู้แบบเสริมแรงที่เกี่ยวข้องกับทางเลือกที่ขัดแย้งกัน ซึ่งแตกต่างจากการเพิ่มประสิทธิภาพหลายวัตถุประสงค์ตรงที่เกี่ยวข้องกับตัวแทนที่กระทำการในสภาพแวดล้อม[ 66 ] [ 67 ]

การเรียนรู้เสริมแรงที่ปลอดภัย

การเรียนรู้แบบเสริมแรงที่ปลอดภัย (SRL) สามารถนิยามได้ว่าเป็นกระบวนการเรียนรู้นโยบายที่เพิ่มความคาดหวังของผลตอบแทนสูงสุดในปัญหาที่สำคัญต่อการรับประกันประสิทธิภาพของระบบที่สมเหตุสมผลและ/หรือเคารพข้อจำกัดด้านความปลอดภัยในระหว่างกระบวนการเรียนรู้และ/หรือการใช้งาน[ 68 ] [ 69 ]แนวทางอื่นคือการเรียนรู้แบบเสริมแรงที่หลีกเลี่ยงความเสี่ยง โดยแทนที่จะใช้ผลตอบแทนที่คาดหวัง จะใช้ การวัดความเสี่ยงของผลตอบแทนที่เหมาะสม เช่นค่าความเสี่ยงตามเงื่อนไข (CVaR) [ 70 ]นอกเหนือจากการลดความเสี่ยงแล้ว วัตถุประสงค์ของ CVaR ยังเพิ่มความทนทานต่อความไม่แน่นอนของแบบจำลอง[ 71 ] [ 72 ]อย่างไรก็ตาม การเพิ่มประสิทธิภาพ CVaR ใน RL ที่หลีกเลี่ยงความเสี่ยงนั้นต้องใช้ความระมัดระวังเป็นพิเศษ เพื่อป้องกันอคติของเกรเดียนต์[ 73 ]และการมองไม่เห็นความสำเร็จ[ 74 ]

การเรียนรู้แบบเสริมแรงตนเอง

การเรียนรู้แบบเสริมแรงตนเอง (หรือการเรียนรู้ด้วยตนเอง) เป็นรูปแบบการเรียนรู้ที่ไม่ใช้แนวคิดเรื่องรางวัลทันทีหลังจากเปลี่ยนจากสถานะหนึ่งไปอีกสถานะหนึ่งด้วยการกระทำมันไม่ใช้การเสริมแรงภายนอก แต่ใช้เพียงการเสริมแรงตนเองภายในของตัวผู้เรียนรู้เองเท่านั้น การเสริมแรงตนเองภายในนี้เกิดขึ้นจากกลไกของความรู้สึกและอารมณ์ ในกระบวนการเรียนรู้ อารมณ์จะถูกส่งย้อนกลับโดยกลไกการเสริมแรงรอง สมการการเรียนรู้ไม่ได้รวมถึงรางวัลทันที แต่รวมเฉพาะการประเมินสถานะเท่านั้น

อัลกอริทึมการเสริมแรงตนเองจะอัปเดตเมทริกซ์หน่วยความจำเพื่อให้ในแต่ละรอบการทำงานจะดำเนินการตามขั้นตอนการเรียนรู้ของเครื่องดังต่อไปนี้:

  1. ในสถานการณ์นั้นๆให้ลงมือปฏิบัติ
  2. ประสบกับสถานการณ์ที่ตามมา
  3. คำนวณการประเมินสถานะว่าการอยู่ในสถานการณ์ผลลัพธ์นั้นดีเพียงใด
  4. อัปเดตหน่วยความจำครอสบาร์

สภาวะเริ่มต้นของความทรงจำนั้นได้รับมาจากสภาพแวดล้อมทางพันธุกรรม มันเป็นระบบที่มีอินพุตเพียงหนึ่งเดียว (สถานการณ์) และเอาต์พุตเพียงหนึ่งเดียว (การกระทำ หรือพฤติกรรม)

การเสริมแรงตนเอง (การเรียนรู้ด้วยตนเอง) ได้รับการแนะนำในปี พ.ศ. 2525 พร้อมกับโครงข่ายประสาทเทียมที่สามารถเรียนรู้แบบเสริมแรงตนเองได้ ซึ่งมีชื่อว่า Crossbar Adaptive Array (CAA) [ 75 ] [ 76 ] CAA คำนวณทั้งการตัดสินใจเกี่ยวกับการกระทำและอารมณ์ (ความรู้สึก) เกี่ยวกับสถานะผลลัพธ์ในลักษณะครอสบาร์ ระบบนี้ขับเคลื่อนด้วยปฏิสัมพันธ์ระหว่างการรับรู้และอารมณ์[ 77 ]

การเปรียบเทียบทางสถิติของอัลกอริธึมการเรียนรู้แบบเสริมแรง

การเปรียบเทียบอัลกอริทึม RL อย่างมีประสิทธิภาพเป็นสิ่งสำคัญสำหรับการวิจัย การใช้งาน และการตรวจสอบระบบ RL ในการเปรียบเทียบอัลกอริทึมต่างๆ ในสภาพแวดล้อมที่กำหนด สามารถฝึกเอเจนต์สำหรับแต่ละอัลกอริทึมได้ เนื่องจากประสิทธิภาพขึ้นอยู่กับรายละเอียดการใช้งาน อัลกอริทึมทั้งหมดจึงควรถูกนำไปใช้ให้ใกล้เคียงกันมากที่สุด[ 78 ]หลังจากการฝึกเสร็จสิ้น เอเจนต์สามารถทำงานกับตัวอย่างของตอนทดสอบ และสามารถเปรียบเทียบคะแนน (ผลตอบแทน) ของพวกมันได้ เนื่องจากโดยทั่วไปแล้วตอนต่างๆ จะถือว่าเป็นอิสระและมีการกระจายเหมือนกัน จึงสามารถใช้เครื่องมือทางสถิติมาตรฐานสำหรับการทดสอบสมมติฐาน เช่นการทดสอบ Tและการทดสอบการเรียงสับเปลี่ยน [ 79 ] ซึ่งจำเป็นต้องสะสมรางวัลทั้งหมดภายในตอนหนึ่งๆ เข้าเป็นตัวเลขเดียว นั่นคือ ผลตอบแทนของตอน อย่างไรก็ตาม วิธีนี้ทำให้เกิดการสูญเสียข้อมูล เนื่องจากขั้นตอนเวลาที่แตกต่างกันจะถูกเฉลี่ยเข้าด้วยกัน ซึ่งอาจมีระดับสัญญาณรบกวนที่แตกต่างกัน เมื่อใดก็ตามที่ระดับสัญญาณรบกวนแตกต่างกันไปในแต่ละตอน พลังทางสถิติสามารถปรับปรุงได้อย่างมีนัยสำคัญ โดยการถ่วงน้ำหนักรางวัลตามสัญญาณรบกวนที่ประมาณไว้[ 80 ]

ความท้าทายและข้อจำกัด

แม้ว่าจะมีความก้าวหน้าอย่างมาก การเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) ยังคงเผชิญกับความท้าทายและข้อจำกัดหลายประการที่ขัดขวางการนำไปประยุกต์ใช้ในวงกว้างในสถานการณ์จริง

ประสิทธิภาพการสุ่มตัวอย่างต่ำ

อัลกอริทึม RL มักต้องการปฏิสัมพันธ์กับสภาพแวดล้อมจำนวนมากเพื่อเรียนรู้กลยุทธ์ที่มีประสิทธิภาพ ซึ่งนำไปสู่ต้นทุนการคำนวณสูงและใช้เวลานานในการฝึกฝนเอเจนต์ ตัวอย่างเช่น บอทเล่น Dota ของ OpenAIใช้การจำลองการเล่นเกมหลายพันปีเพื่อให้ได้ประสิทธิภาพในระดับมนุษย์ เทคนิคต่างๆ เช่น การเล่นซ้ำประสบการณ์และการเรียนรู้ตามหลักสูตรได้รับการเสนอเพื่อลดความไม่効率ของตัวอย่าง แต่เทคนิคเหล่านี้เพิ่มความซับซ้อนมากขึ้นและไม่เพียงพอเสมอไปสำหรับการใช้งานในโลกแห่งความเป็นจริง

ปัญหาด้านเสถียรภาพและการบรรจบกัน

การฝึกฝนโมเดล RL โดยเฉพาะอย่างยิ่งโมเดลโครงข่ายประสาทเทียมเชิงลึกอาจไม่เสถียรและมีแนวโน้มที่จะเกิดการเบี่ยงเบน การเปลี่ยนแปลงเล็กน้อยในนโยบายหรือสภาพแวดล้อมอาจนำไปสู่ความผันผวนอย่างมากในประสิทธิภาพ ทำให้ยากที่จะได้ผลลัพธ์ที่สม่ำเสมอ ความไม่เสถียรนี้จะยิ่งเพิ่มมากขึ้นในกรณีของพื้นที่การกระทำแบบต่อเนื่องหรือแบบมิติสูง ซึ่งขั้นตอนการเรียนรู้จะซับซ้อนและคาดเดาได้ยากขึ้น

การสรุปทั่วไปและการถ่ายโอนได้

เอージェนต์ RL ที่ได้รับการฝึกฝนในสภาพแวดล้อมเฉพาะ มักประสบปัญหาในการนำนโยบายที่เรียนรู้ไปใช้ในสถานการณ์ใหม่ที่ไม่เคยพบมาก่อน นี่คืออุปสรรคสำคัญที่ขัดขวางการประยุกต์ใช้ RL ในสภาพแวดล้อมจริงที่มีการเปลี่ยนแปลงตลอดเวลา ซึ่งความสามารถในการปรับตัวเป็นสิ่งสำคัญ ความท้าทายคือการพัฒนาอัลกอริธึมที่สามารถถ่ายทอดความรู้ข้ามงานและสภาพแวดล้อมโดยไม่ต้องฝึกฝนใหม่เป็นจำนวนมาก

ปัญหาเกี่ยวกับอคติและฟังก์ชันการให้รางวัล

การออกแบบฟังก์ชันรางวัลที่เหมาะสมมีความสำคัญอย่างยิ่งใน RL เนื่องจากฟังก์ชันรางวัลที่ออกแบบไม่ดีอาจนำไปสู่พฤติกรรมที่ไม่พึงประสงค์ นอกจากนี้ ระบบ RL ที่ฝึกฝนด้วยข้อมูลที่มีอคติอาจทำให้เกิดอคติที่มีอยู่และนำไปสู่ผลลัพธ์ที่เลือกปฏิบัติหรือไม่ยุติธรรม ปัญหาทั้งสองนี้จำเป็นต้องพิจารณาโครงสร้างรางวัลและแหล่งข้อมูลอย่างรอบคอบเพื่อให้มั่นใจถึงความยุติธรรมและพฤติกรรมที่ต้องการ

ในการประมวลผลภาษาธรรมชาติ

ในช่วงไม่กี่ปีที่ผ่านมา นับตั้งแต่ต้นทศวรรษ 2020 [ 81 ]การเรียนรู้แบบเสริมแรงได้กลายเป็นแนวคิดสำคัญในการประมวลผลภาษาธรรมชาติ (NLP) ซึ่งงานต่างๆ มักเป็นการตัดสินใจตามลำดับมากกว่าการจำแนกประเภทแบบคงที่ การเรียนรู้แบบเสริมแรงคือการที่ตัวแทนดำเนินการในสภาพแวดล้อมเพื่อเพิ่มการสะสมรางวัลให้สูงสุด กรอบงานนี้เหมาะสมที่สุดสำหรับงาน NLP หลายอย่าง รวมถึงการสร้างบทสนทนา การสรุปข้อความ และการแปลด้วยเครื่องจักร ซึ่งคุณภาพของผลลัพธ์ขึ้นอยู่กับการเพิ่มประสิทธิภาพเป้าหมายระยะยาวหรือเป้าหมายที่เน้นมนุษย์เป็นศูนย์กลางมากกว่าการทำนายป้ายกำกับที่ถูกต้องเพียงป้ายเดียว

การประยุกต์ใช้การเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) ในด้านการประมวลผลภาษาธรรมชาติ (NLP) ในยุคแรกเริ่มนั้นเกิดขึ้นในระบบสนทนา โดยการสนทนาถูกกำหนดให้เป็นชุดของการกระทำที่ได้รับการปรับให้เหมาะสมเพื่อความคล่องแคล่วและความสอดคล้อง การทดลองในยุคแรกๆ เหล่านี้ รวมถึงเทคนิคการไล่ระดับนโยบาย (policy gradient) และเทคนิคการฝึกฝนระดับลำดับ (sequence-level training) ได้วางรากฐานสำหรับการประยุกต์ใช้การเรียนรู้แบบเสริมแรงในวงกว้างขึ้นในด้านอื่นๆ ของ NLP

ความก้าวหน้าครั้งสำคัญเกิดขึ้นจากการนำการเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์ (RLHF) มาใช้ ซึ่งเป็นวิธีการที่ใช้การให้คะแนนผลตอบรับจากมนุษย์เพื่อฝึกฝนแบบจำลองรางวัลที่ชี้นำตัวแทน RL แตกต่างจากระบบแบบใช้กฎหรือแบบมีผู้กำกับดูแลแบบดั้งเดิม RLHF ช่วยให้แบบจำลองสามารถปรับพฤติกรรมให้สอดคล้องกับการตัดสินของมนุษย์ในงานที่ซับซ้อนและเป็นอัตวิสัย เทคนิคนี้ถูกนำมาใช้ครั้งแรกในการพัฒนาInstructGPTซึ่งเป็นแบบจำลองภาษาที่มีประสิทธิภาพที่ได้รับการฝึกฝนให้ปฏิบัติตามคำสั่งของมนุษย์ และต่อมาในChatGPTซึ่งรวมเอา RLHF เพื่อปรับปรุงการตอบสนองและสร้างความปลอดภัย

เมื่อไม่นานมานี้ นักวิจัยได้สำรวจการใช้ RL แบบออฟไลน์ใน NLP เพื่อปรับปรุงระบบบทสนทนาโดยไม่จำเป็นต้องมีการโต้ตอบกับมนุษย์แบบสด วิธีการเหล่านี้ปรับให้เหมาะสมสำหรับการมีส่วนร่วมของผู้ใช้ ความสอดคล้อง และความหลากหลายโดยอิงจากบันทึกการสนทนาในอดีตและแบบจำลองรางวัลที่ฝึกฝนไว้ล่วงหน้า[ 82 ]

ตัวอย่างหนึ่งคือ DeepSeek-R1 ซึ่งรวมการฝึกอบรมหลายขั้นตอนและข้อมูลเริ่มต้นเย็นก่อน RL DeepSeek-R1 บรรลุประสิทธิภาพที่เทียบเคียงได้กับ OpenAI-o1-1217 ในงานการให้เหตุผล โมเดลนี้ได้รับการฝึกฝนผ่าน RL ขนาดใหญ่โดยไม่มีการปรับแต่งละเอียดแบบมีผู้กำกับดูแล (SFT) เป็นขั้นตอนเบื้องต้น [ 83 ]

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Annaswamy, Anuradha M. (3 พฤษภาคม 2023). "การควบคุมแบบปรับตัวและทางแยกด้วยการเรียนรู้แบบเสริมแรง" . วารสารประจำปีด้านการควบคุม หุ่นยนต์ และระบบอัตโนมัติ . 6 (1): 65– 93. doi : 10.1146/annurev-control-062922-090153 . ISSN  2573-5144 . S2CID  255702873 .
  • Auer, Peter ; Jaksch, Thomas; Ortner, Ronald (2010). "ขอบเขตความเสียใจที่ใกล้เคียงค่าเหมาะสมที่สุดสำหรับการเรียนรู้แบบเสริมแรง"วารสารการวิจัยการเรียนรู้ของเครื่องจักร11 : 1563–1600
  • Bertsekas, Dimitri P. (2023) [2019]. การเรียนรู้แบบเสริมแรงและการควบคุมที่เหมาะสมที่สุด (ฉบับพิมพ์ครั้งที่ 1). Athena Scientific. ISBN 978-1-886-52939-7.
  • Busoniu, Lucian; Babuska, Robert; De Schutter, Bart ; Ernst, Damien (2010). การเรียนรู้แบบเสริมแรงและการเขียนโปรแกรมเชิงพลวัตโดยใช้ตัวประมาณฟังก์ชัน Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
  • François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "บทนำสู่การเรียนรู้แบบเสริมแรงเชิงลึก" พื้นฐานและแนวโน้มในการเรียนรู้ของเครื่องจักร 11 ( 3– 4 ): 219– 354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . doi : 10.1561/2200000071 . S2CID  54434537 .
  • Li, Shengbo Eben (2023). การเรียนรู้แบบเสริมแรงสำหรับการตัดสินใจตามลำดับและการควบคุมที่เหมาะสมที่สุด (ฉบับพิมพ์ครั้งที่ 1). Springer Verlag, สิงคโปร์. doi : 10.1007/978-981-19-7784-8 . ISBN 978-9-811-97783-1.
  • พาวเวลล์, วอร์เรน (2011). การเขียนโปรแกรมเชิงพลวัตโดยประมาณ: การแก้ปัญหาคำสาปแห่งมิติ . ไวลีย์-อินเตอร์ไซแอนซ์. เก็บถาวรจากต้นฉบับเมื่อ 31 กรกฎาคม 2016. สืบค้นเมื่อ8 กันยายน 2010 .
  • Sutton, Richard S. (1988). "การเรียนรู้การทำนายโดยวิธีความแตกต่างเชิงเวลา" . Machine Learning . 3 (1): 9– 44. Bibcode : 1988MLear...3....9S . doi : 10.1007/BF00115009 .
  • Sutton, Richard S. ; Barto, Andrew G. (2018) [1998]. การเรียนรู้แบบเสริมแรง: บทนำ (ฉบับที่ 2). สำนักพิมพ์ MIT. ISBN 978-0-262-03924-6.
  • Szita, Istvan; Szepesvari, Csaba (2010). "การเรียนรู้แบบเสริมแรงโดยใช้แบบจำลองที่มีขอบเขตความซับซ้อนของการสำรวจที่เกือบจะแน่นหนา" (PDF) . ICML 2010. Omnipress. หน้า  1031–1038 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2010-07-14.
  • การวิเคราะห์การเรียนรู้แบบเสริมแรง (Reinforcement Learning)ชุดบทความเกี่ยวกับการเรียนรู้แบบเสริมแรงด้วยโค้ด Python
  • เจาะลึก (แบบยาว) เรื่องการเรียนรู้แบบเสริมแรง
  • QSMM – การเรียนรู้แบบเสริมแรงผ่านโปรแกรมแอสเซมเบลอร์เชิงความน่าจะเป็นแบบปรับตัวได้
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Reinforcement_learning&oldid=1360546539 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การเรียนรู้แบบเสริมแรง

ในด้าน การเรียนรู้ของเครื่องจักร และ การควบคุมที่เหมาะสมที่สุด การเรียนรู้แบบเสริมแรง ( Reinforcement Learning : RL ) เกี่ยวข้องกับวิธีการที่ ตัวแทนอัจฉริยะ ควร ดำเนินการ...

หลักการ

เนื่องจากความทั่วไปของทฤษฎีการเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) จึงมีการศึกษาในหลายสาขาวิชา เช่นทฤษฎีเกม ทฤษฎี การ ควบคุม การวิจัยดำเนินงาน ทฤษฎีสารสนเทศ การ เพิ่มประสิทธิภาพโดยใช้การจำลอง ระบบ หลายเอเจน ต์ ปัญญาแบบฝูง และ สถิติ...

การสำรวจ

การ แลกเปลี่ยนระหว่างการสำรวจและการแสวงหาประโยชน์ ได้รับการศึกษาอย่างละเอียดถี่ถ้วนที่สุดผ่าน ปัญหา multi-armed bandit และสำหรับกระบวนการตัดสินใจ Markov ในพื้นที่สถานะจำกัดใน Burnetas และ Katehakis (1997) [ 12 ]

อัลกอริทึมสำหรับการเรียนรู้การควบคุม

แม้ว่าจะละเลยประเด็นเรื่องการสำรวจ และแม้ว่าสถานะจะสามารถสังเกตได้ (ซึ่งจะสมมติไว้ต่อไปนี้) ปัญหาก็ยังคงอยู่ คือการใช้ประสบการณ์ในอดีตเพื่อค้นหาว่าการกระทำใดนำไปสู่ผลตอบแทนสะสมที่สูงกว่า