การเรียนรู้แบบเสริมแรง

Q: การสำรวจ

การ แลกเปลี่ยนระหว่างการสำรวจและการแสวงหาประโยชน์ ได้รับการศึกษาอย่างละเอียดถี่ถ้วนที่สุดผ่าน ปัญหา multi-armed bandit และสำหรับกระบวนการตัดสินใจ Markov ในพื้นที่สถานะจำกัดใน Burnetas และ Katehakis (1997) [ 12 ]

Q: อัลกอริทึมสำหรับการเรียนรู้การควบคุม

แม้ว่าจะละเลยประเด็นเรื่องการสำรวจ และแม้ว่าสถานะจะสามารถสังเกตได้ (ซึ่งจะสมมติไว้ต่อไปนี้) ปัญหาก็ยังคงอยู่ คือการใช้ประสบการณ์ในอดีตเพื่อค้นหาว่าการกระทำใดนำไปสู่ผลตอบแทนสะสมที่สูงกว่า

ในด้านการเรียนรู้ของเครื่องจักรและการควบคุมที่เหมาะสมที่สุดการเรียนรู้แบบเสริมแรง ( Reinforcement Learning : RL ) เกี่ยวข้องกับวิธีการที่ตัวแทนอัจฉริยะควรดำเนินการในสภาพแวดล้อมแบบไดนามิกเพื่อ เพิ่มสัญญาณ รางวัลให้สูงสุดการเรียนรู้แบบเสริมแรงเป็นหนึ่งในสามกระบวนทัศน์พื้นฐานของการเรียนรู้ของเครื่องจักรควบคู่ไปกับการเรียนรู้แบบมีผู้กำกับดูแล (Supervised Learning ) และการเรียนรู้แบบไม่มีผู้กำกับดูแล (Unsupervised Learning )

ในขณะที่อัลกอริธึมการเรียนรู้แบบมีผู้กำกับดูแลและการเรียนรู้แบบไม่มีผู้กำกับดูแลพยายามค้นหารูปแบบในข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับตามลำดับ การเรียนรู้แบบเสริมแรงเกี่ยวข้องกับการฝึกตัวแทนผ่านการโต้ตอบกับสภาพแวดล้อม เพื่อเรียนรู้ที่จะเพิ่มรางวัลสูงสุดจากการโต้ตอบเหล่านี้ ตัวแทนจะตัดสินใจเลือกระหว่างการลองการกระทำใหม่ ๆ เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับสภาพแวดล้อม (การสำรวจ) หรือการใช้ความรู้ปัจจุบันของสภาพแวดล้อมเพื่อดำเนินการที่ดีที่สุด (การใช้ประโยชน์) ^{[ 1 ]}การค้นหาสมดุลที่เหมาะสมที่สุดระหว่างสองกลยุทธ์นี้เรียกว่าภาวะกลืนไม่เข้าคายไม่ออกของการสำรวจและการใช้ประโยชน์

โดยทั่วไปสภาพแวดล้อมจะระบุในรูปแบบของกระบวนการตัดสินใจแบบมาร์คอฟเนื่องจากอัลกอริธึมการเรียนรู้แบบเสริมแรงจำนวนมากใช้เทคนิคการเขียนโปรแกรมแบบไดนามิก^{[ 2 ]}ความแตกต่างหลักระหว่างวิธีการเขียนโปรแกรมแบบไดนามิกแบบคลาสสิกและอัลกอริธึมการเรียนรู้แบบเสริมแรงคืออัลกอริธึมหลังไม่ถือว่ามีความรู้เกี่ยวกับแบบจำลองทางคณิตศาสตร์ที่แน่นอนของกระบวนการตัดสินใจแบบมาร์คอฟ และมุ่งเป้าไปที่กระบวนการตัดสินใจแบบมาร์คอฟขนาดใหญ่ซึ่งวิธีการที่แน่นอนไม่สามารถทำได้^{[ 3 ]}

หลักการ

เนื่องจากความทั่วไปของทฤษฎีการเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) จึงมีการศึกษาในหลายสาขาวิชา เช่นทฤษฎีเกมทฤษฎีการควบคุม การวิจัยดำเนินงาน ทฤษฎีสารสนเทศการเพิ่มประสิทธิภาพโดยใช้การจำลองระบบหลายเอเจนต์ปัญญาแบบฝูงและสถิติในวรรณกรรมด้านการวิจัยดำเนินงานและการควบคุม RL ถูกเรียกว่าการเขียนโปรแกรมเชิงพลวัตโดยประมาณหรือการเขียนโปรแกรมเชิงพลวัตแบบประสาท (Neuro-dynamic programming)ปัญหาที่น่าสนใจใน RL ยังได้รับการศึกษาในทฤษฎีการควบคุมที่เหมาะสมที่สุดซึ่งส่วนใหญ่เกี่ยวข้องกับการมีอยู่และลักษณะเฉพาะของคำตอบที่เหมาะสมที่สุด และอัลกอริทึมสำหรับการคำนวณที่แม่นยำ และน้อยกว่าที่จะเกี่ยวข้องกับการเรียนรู้หรือการประมาณค่า (โดยเฉพาะอย่างยิ่งในกรณีที่ไม่มีแบบจำลองทางคณิตศาสตร์ของสภาพแวดล้อม)

การเรียนรู้แบบเสริมแรงขั้นพื้นฐานนั้นจำลองขึ้นโดยใช้กระบวนการตัดสินใจแบบมาร์คอฟ :

ชุดของสถานะสิ่งแวดล้อมและตัวแทน (ปริภูมิสถานะ) ; ${\mathcal {S}}$
ชุดของการกระทำ (พื้นที่การกระทำ) ของตัวแทน; ${\mathcal {A}}$
$P_{a}(s,s')=\Pr(S_{t+1}{=}s'\mid S_{t}{=}s,A_{t}{=}a)$ ความน่าจะเป็นของการเปลี่ยนสถานะ (ณ เวลา t ) จากสถานะหนึ่งไปยังอีกสถานะหนึ่งภายใต้การกระทำ $t$ $s$ $s'$ $a$
$R_{a}(s,s')$ รางวัลทันทีหลังจากเปลี่ยนสถานะจากสถานะหนึ่งไปสู่ สถานะที่อยู่ภายใต้ การกระทำ $s$ $s'$ $a$

จุดประสงค์ของการเรียนรู้แบบเสริมแรงคือเพื่อให้ตัวแทนเรียนรู้นโยบายที่เหมาะสมที่สุด (หรือใกล้เคียงที่สุด) ที่เพิ่มฟังก์ชันรางวัลหรือสัญญาณเสริมแรงอื่น ๆ ที่ผู้ใช้กำหนดซึ่งสะสมจากรางวัลทันทีให้สูงสุด กระบวนการนี้คล้ายกับกระบวนการที่ดูเหมือนจะเกิดขึ้นในจิตวิทยาของสัตว์ ตัวอย่างเช่น สมองของสิ่งมีชีวิตถูกกำหนดให้ตีความสัญญาณเช่นความเจ็บปวดและความหิวเป็นตัวเสริมแรงเชิงลบ และตีความความสุขและการรับประทานอาหารเป็นตัวเสริมแรงเชิงบวก ในบางสถานการณ์ สัตว์เรียนรู้ที่จะปรับใช้พฤติกรรมที่เพิ่มรางวัลเหล่านี้ให้สูงสุด สิ่งนี้ชี้ให้เห็นว่าสัตว์มีความสามารถในการเรียนรู้แบบเสริมแรง^{[ 4 ]}^{[ 5 ]}

เอージェนต์การเรียนรู้แบบเสริมแรงพื้นฐานจะโต้ตอบกับสภาพแวดล้อมในขั้นตอนเวลาที่ไม่ต่อเนื่อง ในแต่ละขั้นตอนเวลา $t$ เอージェนต์จะได้รับสถานะปัจจุบันและรางวัลจากนั้นจะเลือกการกระทำจากชุดการกระทำที่มีอยู่ ซึ่งจะถูกส่งไปยังสภาพแวดล้อมในภายหลัง สภาพแวดล้อมจะเปลี่ยนไปสู่สถานะใหม่และรางวัลที่เกี่ยวข้องกับการเปลี่ยนแปลงนั้นจะถูกกำหนด เป้าหมายของเอージェนต์การเรียนรู้แบบเสริมแรงคือการเรียนรู้นโยบาย : $S_{t}$ $R_{t}$ $A_{t}$ $S_{t+1}$ $R_{t+1}$ $(S_{t},A_{t},S_{t+1})$

${\begin{aligned}&\pi :{\mathcal {S}}\times {\mathcal {A}}\to [0,1]\\&\pi (s,a)=\Pr(A_{t}{=}a\mid S_{t}{=}s)\end{aligned}}$

ซึ่งจะทำให้ผลตอบแทนสะสมที่คาดหวังสูงสุด

การกำหนดปัญหาในรูปแบบกระบวนการตัดสินใจแบบมาร์คอฟ (Markov decision process) สมมติว่าตัวแทน (agent) สังเกตสถานะของสิ่งแวดล้อมในปัจจุบันได้โดยตรง ในกรณีนี้ ปัญหาจะเรียกว่ามี ความสามารถในการสังเกตได้อย่างสมบูรณ์ ( full observability ) หากตัวแทนเข้าถึงได้เพียงสถานะย่อย หรือหากสถานะที่สังเกตได้ถูกรบกวนด้วยสัญญาณรบกวน ตัวแทนจะเรียกว่ามี ความ สามารถในการสังเกตได้บางส่วน (partially observability ) และในทางทฤษฎี ปัญหาจะต้องถูกกำหนดในรูปแบบกระบวนการตัดสินใจแบบมาร์คอฟที่สังเกตได้บางส่วน (partially observable Markov decision process ) ในทั้งสองกรณี ชุดของการกระทำที่ตัวแทนสามารถทำได้สามารถถูกจำกัดได้ ตัวอย่างเช่น สถานะของยอดเงินในบัญชีอาจถูกจำกัดให้เป็นค่าบวก หากค่าปัจจุบันของสถานะคือ 3 และการเปลี่ยนสถานะพยายามลดค่าลง 4 การเปลี่ยนสถานะนั้นจะไม่ได้รับอนุญาต

เมื่อเปรียบเทียบประสิทธิภาพของเอージェนต์กับเอージェนต์ที่กระทำการอย่างเหมาะสมที่สุด ความแตกต่างของประสิทธิภาพจะก่อให้เกิดแนวคิดเรื่องความเสียใจเพื่อให้กระทำการได้ใกล้เคียงกับระดับที่เหมาะสมที่สุด เอージェนต์จะต้องใช้เหตุผลเกี่ยวกับผลที่ตามมาในระยะยาวของการกระทำของตน (เช่น การเพิ่มผลตอบแทนในอนาคตให้สูงสุด) แม้ว่าผลตอบแทนในทันทีที่เกี่ยวข้องกับสิ่งนี้อาจเป็นลบก็ตาม

ดังนั้น การเรียนรู้แบบเสริมแรงจึงเหมาะสมอย่างยิ่งสำหรับปัญหาที่เกี่ยวข้องกับการแลกเปลี่ยนระหว่างรางวัลระยะยาวและระยะสั้น มีการนำไปประยุกต์ใช้อย่างประสบความสำเร็จกับปัญหาต่างๆ มากมาย รวมถึงการจัดเก็บพลังงาน^{[ 6 ]} การควบคุมหุ่นยนต์^{[ 7 ]}เครื่องกำเนิดไฟฟ้าพลังงานแสงอาทิตย์ [ ⁸^{]แบ็ก}แกมมอนหมากรุก [ ⁹^]โกะ ( AlphaGo ) และระบบขับขี่อัตโนมัติ^[¹⁰^]

องค์ประกอบสองประการที่ทำให้การเรียนรู้แบบเสริมแรงมีประสิทธิภาพสูง ได้แก่ การใช้ตัวอย่างเพื่อเพิ่มประสิทธิภาพ และการใช้การประมาณฟังก์ชันเพื่อจัดการกับสภาพแวดล้อมขนาดใหญ่ ด้วยองค์ประกอบสำคัญสองประการนี้ การเรียนรู้แบบเสริมแรงจึงสามารถนำไปใช้ในสภาพแวดล้อมขนาดใหญ่ได้ในสถานการณ์ต่อไปนี้:

ทราบแบบจำลองของสภาพแวดล้อมแล้ว แต่ยังไม่มีวิธีการแก้ปัญหาเชิงวิเคราะห์
มีเพียงแบบจำลองการจำลองสภาพแวดล้อมเท่านั้น (ซึ่งเป็นหัวข้อของการเพิ่มประสิทธิภาพตามการจำลอง ) ^{[ 11 ]}
วิธีเดียวที่จะรวบรวมข้อมูลเกี่ยวกับสิ่งแวดล้อมได้คือการมีปฏิสัมพันธ์กับสิ่งแวดล้อมนั้น

ปัญหาสองข้อแรกอาจถือได้ว่าเป็นปัญหาการวางแผน (เนื่องจากมีแบบจำลองบางรูปแบบอยู่แล้ว) ในขณะที่ปัญหาข้อสุดท้ายอาจถือได้ว่าเป็นปัญหาการเรียนรู้ที่แท้จริง อย่างไรก็ตาม การเรียนรู้แบบเสริมแรงจะแปลงปัญหาการวางแผนทั้งสองให้เป็นปัญหา การเรียนรู้ของเครื่องจักร

การสำรวจ

การแลกเปลี่ยนระหว่างการสำรวจและการแสวงหาประโยชน์ได้รับการศึกษาอย่างละเอียดถี่ถ้วนที่สุดผ่าน ปัญหา multi-armed banditและสำหรับกระบวนการตัดสินใจ Markov ในพื้นที่สถานะจำกัดใน Burnetas และ Katehakis (1997) ^{[ 12 ]}

การเรียนรู้แบบเสริมแรงต้องการกลไกการสำรวจที่ชาญฉลาด การเลือกการกระทำแบบสุ่มโดยไม่คำนึงถึงการประมาณการกระจายความน่าจะเป็นจะให้ประสิทธิภาพที่ต่ำ กรณีของกระบวนการตัดสินใจแบบมาร์คอฟที่มีขนาดเล็กนั้นเป็นที่เข้าใจกันค่อนข้างดี อย่างไรก็ตาม เนื่องจากขาดอัลกอริธึมที่สามารถปรับขนาดได้ดีกับจำนวนสถานะ (หรือปรับขนาดให้เข้ากับปัญหาที่มีปริภูมิสถานะอนันต์) วิธีการสำรวจแบบง่ายจึงเป็นวิธีที่ใช้ได้จริงที่สุด

หนึ่งในวิธีการดังกล่าวคือ-greedy โดยที่เป็นพารามิเตอร์ที่ควบคุมปริมาณการสำรวจเทียบกับการใช้ประโยชน์ ด้วยความน่าจะเป็นการใช้ประโยชน์จะถูกเลือก และตัวแทนจะเลือกการกระทำที่เชื่อว่ามีผลดีที่สุดในระยะยาว (หากการกระทำใดมีผลเท่ากัน จะถูกเลือกแบบสุ่มอย่างสม่ำเสมอ) หรืออีกทางหนึ่ง ด้วยความน่าจะเป็นการสำรวจจะถูกเลือก และการกระทำจะถูกเลือกแบบสุ่มอย่างสม่ำเสมอโดยปกติจะเป็นพารามิเตอร์คงที่ แต่สามารถปรับได้ตามตารางเวลา (ทำให้ตัวแทนสำรวจน้อยลงเรื่อยๆ) หรือปรับเปลี่ยนตามหลักการเชิงฮิวริสติก^[¹³^] $\varepsilon$ $0<\varepsilon <1$ $1-\varepsilon$ $\varepsilon$ $\varepsilon$

อัลกอริทึมสำหรับการเรียนรู้การควบคุม

แม้ว่าจะละเลยประเด็นเรื่องการสำรวจ และแม้ว่าสถานะจะสามารถสังเกตได้ (ซึ่งจะสมมติไว้ต่อไปนี้) ปัญหาก็ยังคงอยู่ คือการใช้ประสบการณ์ในอดีตเพื่อค้นหาว่าการกระทำใดนำไปสู่ผลตอบแทนสะสมที่สูงกว่า

เกณฑ์ความเหมาะสมที่สุด

นโยบาย

การเลือกการกระทำของเอเจนต์นั้นถูกจำลองเป็นแผนที่ที่เรียกว่านโยบาย : ${\begin{aligned}&\pi :{\mathcal {A}}\times {\mathcal {S}}\to [0,1]\\&\pi (a,s)=\Pr(A_{t}{=}a\mid S_{t}{=}s)\end{aligned}}$

แผนที่นโยบายให้ความน่าจะเป็นของการดำเนินการเมื่ออยู่ในสถานะ[ ¹⁴^]^:⁶¹นอกจากนี้ยังมีนโยบายเชิงกำหนด ซึ่งแสดงถึงการกระทำที่ควรดำเนินการในสถานะ $a$ $s$ $\pi$ $\pi (s)$ $s$

ฟังก์ชันค่าสถานะ

ฟังก์ชันค่าสถานะถูกกำหนดให้เป็นผลตอบแทนส่วนลดที่คาดหวังโดยเริ่มต้นจากสถานะเช่นและตามนโยบายอย่างต่อเนื่องดังนั้นโดยคร่าวๆ ฟังก์ชันค่าจะประมาณว่าการอยู่ในสถานะที่กำหนดนั้น "ดีแค่ไหน" ^[¹⁴^]^{: 60} $V_{\pi }(s)$ $s$ $S_{0}=s$ $\pi$

$V_{\pi }(s)=\operatorname {\mathbb {E} } [G\mid S_{0}{=}s]=\operatorname {\mathbb {E} } \left[\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}\mid S_{0}{=}s\right],$

โดยที่ตัวแปรสุ่มแสดงถึงผลตอบแทนที่คิดลดแล้วและถูกกำหนดให้เป็นผลรวมของรางวัลที่คิดลดในอนาคต: $G$

$G=\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}=R_{1}+\gamma R_{2}+\gamma ^{2}R_{3}+\cdots ,$

โดยที่รางวัลสำหรับการเปลี่ยนสถานะจากสถานะหนึ่งไปยังอีกสถานะหนึ่งคืออัตราส่วนลดซึ่งมีค่าน้อยกว่า 1 ดังนั้นรางวัลในอนาคตอันไกลโพ้นจึงมีน้ำหนักน้อยกว่ารางวัลในอนาคตอันใกล้ $R_{t+1}$ $S_{t}$ $S_{t+1}$ $0\leq \gamma <1$ $\gamma$

อัลกอริทึมต้องค้นหานโยบายที่มีผลตอบแทนที่คาดหวังหลังหักส่วนลดสูงสุด จากทฤษฎีของกระบวนการตัดสินใจแบบมาร์คอฟ เป็นที่ทราบกันดีว่า โดยไม่เสียความเป็นทั่วไป การค้นหาสามารถจำกัดได้เฉพาะชุดของนโยบายที่เรียกว่านโยบายคงที่ นโยบายจะ คงที่หากการกระจายการกระทำที่ส่งคืนโดยนโยบายนั้นขึ้นอยู่กับสถานะสุดท้ายที่เยี่ยมชมเท่านั้น (จากประวัติของตัวแทนการสังเกต) การค้นหาสามารถจำกัดเพิ่มเติมได้เฉพาะนโยบายคงที่แบบกำหนดได้ นโยบาย คงที่แบบกำหนดได้จะเลือกการกระทำอย่างแน่นอนโดยอิงจากสถานะปัจจุบัน เนื่องจากนโยบายดังกล่าวสามารถระบุได้ด้วยการแมปจากชุดของสถานะไปยังชุดของการกระทำ ดังนั้นนโยบายเหล่านี้จึงสามารถระบุได้ด้วยการแมปดังกล่าวโดยไม่เสียความเป็นทั่วไป

กำลังดุร้าย

วิธี การแบบ ใช้กำลังอย่างเดียวประกอบด้วยสองขั้นตอน:

สำหรับแต่ละนโยบายที่เป็นไปได้ ตัวอย่างผลตอบแทนขณะปฏิบัติตามนโยบายนั้น
เลือกกรมธรรม์ที่มีอัตราผลตอบแทนส่วนลดที่คาดหวังสูงสุด

ปัญหาประการหนึ่งคือ จำนวนกรมธรรม์อาจมีมาก หรืออาจไม่มีที่สิ้นสุด อีกปัญหาหนึ่งคือ ความแปรปรวนของผลตอบแทนอาจมีมาก ซึ่งจำเป็นต้องใช้ตัวอย่างจำนวนมากเพื่อประมาณผลตอบแทนที่คิดลดแล้วของแต่ละกรมธรรม์ได้อย่างแม่นยำ

ปัญหาเหล่านี้สามารถบรรเทาได้หากเราสมมติโครงสร้างบางอย่างและอนุญาตให้ตัวอย่างที่สร้างขึ้นจากนโยบายหนึ่งมีอิทธิพลต่อการประมาณค่าที่ทำขึ้นสำหรับนโยบายอื่น แนวทางหลักสองประการในการบรรลุเป้าหมายนี้คือการประมาณค่าฟังก์ชันมูลค่าและการ ค้นหานโยบายโดยตรง

ฟังก์ชันค่า

แนวทางการใช้ฟังก์ชันมูลค่าพยายามค้นหานโยบายที่เพิ่มผลตอบแทนที่คิดลดแล้วให้สูงสุด โดยการรักษาชุดประมาณการผลตอบแทนที่คิดลดแล้วที่คาดหวังไว้สำหรับนโยบายบางอย่าง (โดยปกติจะเป็นนโยบาย "ปัจจุบัน" [ตามนโยบาย] หรือนโยบายที่เหมาะสมที่สุด [นอกนโยบาย]) $\operatorname {\mathbb {E} } [G]$

วิธีการเหล่านี้อาศัยทฤษฎีของกระบวนการตัดสินใจแบบมาร์คอฟ ซึ่งนิยามของความเหมาะสมที่สุดนั้นมีความหมายที่เข้มข้นกว่าที่กล่าวมาข้างต้น กล่าวคือ นโยบายจะเหมาะสมที่สุดก็ต่อเมื่อสามารถให้ผลตอบแทนที่คาดหวังได้ดีที่สุดเมื่อคิดลดแล้วจาก สถานะเริ่มต้น ใดๆ (กล่าวคือ การกระจายตัวของสถานะเริ่มต้นไม่มีบทบาทในนิยามนี้) และเช่นเคย นโยบายที่เหมาะสมที่สุดสามารถพบได้เสมอในบรรดานโยบายที่อยู่ในสภาวะคงที่

เพื่อกำหนดนิยามของความเหมาะสมที่สุดในเชิงรูปแบบ ให้กำหนดค่าสถานะของนโยบายโดย $\pi$

$V^{\pi }(s)=\ชื่อผู้ดำเนินการ {\mathbb {E} } [G\mid s,\pi ],$

โดยที่ หมายถึงผลตอบแทนที่ลดลงซึ่งเกี่ยวข้องกับการติดตามจากสถานะเริ่มต้นกำหนดให้คือค่าสถานะสูงสุดที่เป็นไปได้ของโดยที่สามารถเปลี่ยนแปลงได้ $G$ $\pi$ $s$ $V^{*}(s)$ $V^{\pi }(s)$ $\pi$

$V^{*}(s)=\max _{\pi }V^{\pi }(s)$

นโยบายที่ทำให้ได้ค่าสถานะที่เหมาะสมที่สุดในแต่ละสถานะเรียกว่านโยบายที่เหมาะสมที่สุดเห็นได้ชัดว่านโยบายที่เหมาะสมที่สุดในแง่นี้ก็คือนโยบายที่เหมาะสมที่สุดในแง่ที่ว่ามันทำให้ผลตอบแทนที่คาดหวังหลังหักส่วนลดมีค่าสูงสุดด้วย เนื่องจากโดยที่คือสถานะที่สุ่มเลือกมาจาก1การแจกแจงของสถานะเริ่มต้น (ดังนั้น) $V^{*}(s)=\max _{\pi }\mathbb {E} [G\mid s,\pi ]$ $s$ $\mu$ $\mu (s)=\Pr(S_{0}=s)$

แม้ว่าค่าสถานะจะเพียงพอต่อการกำหนดความเหมาะสมที่สุด แต่การกำหนดค่าการกระทำก็มีประโยชน์เช่นกัน เมื่อกำหนดสถานะการกระทำและนโยบายแล้ว ค่าการกระทำของคู่ภายใต้จะถูกกำหนดโดย $s$ $a$ $\pi$ $(s,a)$ $\pi$

$Q^{\pi }(s,a)=\operatorname {\mathbb {E} } [G\mid s,a,\pi ],$

โดยที่now หมายถึงผลตอบแทนส่วนลดแบบสุ่มที่เกี่ยวข้องกับการดำเนินการครั้งแรกในสถานะและตามด้วยสถานะถัดไป $G$ $a$ $s$ $\pi$

ทฤษฎีของกระบวนการตัดสินใจแบบมาร์คอฟกล่าวว่า ถ้าเป็นนโยบายที่เหมาะสมที่สุด เราจะกระทำการอย่างเหมาะสมที่สุด (เลือกการกระทำที่เหมาะสมที่สุด) โดยเลือกการกระทำจากที่มีค่าการกระทำสูงสุดในแต่ละสถานะฟังก์ชันค่าการกระทำของนโยบายที่เหมาะสมที่สุดดังกล่าว ( ) เรียกว่าฟังก์ชันค่าการกระทำที่เหมาะสมที่สุดและโดยทั่วไปจะใช้สัญลักษณ์ โดยสรุปแล้ว ความรู้เกี่ยวกับฟังก์ชันค่าการกระทำที่เหมาะสมที่สุดเพียงอย่างเดียวก็เพียงพอที่จะรู้ว่าควรกระทำการอย่างไรให้เหมาะสมที่สุด $\pi ^{*}$ $Q^{\pi ^{*}}(s,\cdot )$ $s$ $Q^{\pi ^{*}}$ $Q^{*}$

โดยสมมติว่ามีความรู้สมบูรณ์เกี่ยวกับกระบวนการตัดสินใจแบบมาร์คอฟ วิธีการพื้นฐานสองวิธีในการคำนวณฟังก์ชันค่าการกระทำที่เหมาะสมที่สุดคือการวนซ้ำค่าและการวนซ้ำนโยบายทั้งสองอัลกอริธึมคำนวณลำดับของฟังก์ชัน( ) ที่ลู่เข้าสู่การคำนวณฟังก์ชันเหล่านี้เกี่ยวข้องกับการคำนวณค่าคาดหวังเหนือปริภูมิสถานะทั้งหมด ซึ่งไม่สามารถทำได้จริงสำหรับกระบวนการตัดสินใจแบบมาร์คอฟทั้งหมด ยกเว้นกระบวนการที่เล็กที่สุด (จำกัด) ในวิธีการเรียนรู้แบบเสริมแรง ค่าคาดหวังจะถูกประมาณโดยการหาค่าเฉลี่ยเหนือตัวอย่าง และใช้เทคนิคการประมาณฟังก์ชันเพื่อรับมือกับความต้องการในการแสดงฟังก์ชันค่าเหนือปริภูมิสถานะ-การกระทำขนาดใหญ่ $Q_{k}$ $k=0,1,2,\ldots$ $Q^{*}$

วิธีการมอนเตคาร์โล

วิธีการ Monte Carlo ^{[ 15 ]}ใช้ในการแก้ปัญหาการเรียนรู้แบบเสริมแรงโดยการหาค่าเฉลี่ยของผลตอบแทนตัวอย่าง แตกต่างจากวิธีการที่ต้องอาศัยความรู้เกี่ยวกับพลวัตของสภาพแวดล้อมอย่างครบถ้วน วิธีการ Monte Carlo อาศัยเพียงประสบการณ์จริงหรือการจำลอง —ลำดับของสถานะ การกระทำ และรางวัลที่ได้รับจากการโต้ตอบกับสภาพแวดล้อม ทำให้สามารถนำไปใช้ได้ในสถานการณ์ที่ไม่ทราบพลวัตทั้งหมด การเรียนรู้จากประสบการณ์จริงไม่จำเป็นต้องมีความรู้เกี่ยวกับสภาพแวดล้อมมาก่อน และยังสามารถนำไปสู่พฤติกรรมที่เหมาะสมที่สุดได้ เมื่อใช้ประสบการณ์จำลอง จำเป็นต้องมีเพียงแบบจำลองที่สามารถสร้างการเปลี่ยนผ่านตัวอย่างเท่านั้น แทนที่จะต้องระบุความน่าจะเป็นของการเปลี่ยนผ่าน อย่างครบถ้วน ซึ่งจำเป็นสำหรับวิธี การเขียนโปรแกรมแบบไดนามิก

วิธีการมอนเตคาร์โลใช้ได้กับงานที่มีลักษณะเป็นตอนๆ โดยที่ประสบการณ์จะถูกแบ่งออกเป็นตอนๆ ซึ่งจะสิ้นสุดลงในที่สุด การปรับปรุงนโยบายและฟังก์ชันมูลค่าจะเกิดขึ้นหลังจากเสร็จสิ้นแต่ละตอนเท่านั้น ทำให้วิธีการเหล่านี้เป็นแบบเพิ่มขึ้นทีละตอน ไม่ใช่แบบทีละขั้นตอน (ออนไลน์) คำว่า "มอนเตคาร์โล" โดยทั่วไปหมายถึงวิธีการใดๆ ที่เกี่ยวข้องกับการสุ่มตัวอย่างแต่ในบริบทนี้ หมายถึงวิธีการที่คำนวณค่าเฉลี่ยจาก ผลตอบแทน ทั้งหมดไม่ใช่ผลตอบแทน บางส่วน

วิธีการเหล่านี้ทำงานคล้ายกับอัลกอริธึมแบนดิตซึ่งผลตอบแทนจะถูกหาค่าเฉลี่ยสำหรับแต่ละคู่สถานะ-การกระทำ ความแตกต่างที่สำคัญคือ การกระทำที่เกิดขึ้นในสถานะหนึ่งจะส่งผลต่อผลตอบแทนของสถานะถัดไปภายในตอนเดียวกัน ทำให้ปัญหานี้ไม่คงที่เพื่อแก้ไขปัญหาที่ไม่คงที่นี้ วิธีการมอนเตคาร์โลใช้กรอบการทำงานของการวนซ้ำนโยบายทั่วไป (GPI) ในขณะที่การเขียนโปรแกรมแบบไดนามิกคำนวณฟังก์ชันค่าโดยใช้ความรู้ทั้งหมดของกระบวนการตัดสินใจแบบมาร์คอฟ วิธีการมอนเตคาร์โลเรียนรู้ฟังก์ชันเหล่านี้ผ่านผลตอบแทนตัวอย่าง ฟังก์ชันค่าและนโยบายโต้ตอบกันในลักษณะเดียวกับการเขียนโปรแกรมแบบไดนามิกเพื่อให้ได้ความเหมาะสมที่สุดโดยเริ่มจากการแก้ปัญหาการทำนายก่อน แล้วจึงขยายไปสู่การปรับปรุงและควบคุมนโยบาย ทั้งหมดนี้ขึ้นอยู่กับประสบการณ์ตัวอย่าง^{[ 14 ]}

วิธีการหาความแตกต่างเชิงเวลา

ปัญหาแรกได้รับการแก้ไขโดยการอนุญาตให้กระบวนการเปลี่ยนแปลงนโยบาย (ในบางสถานะหรือทุกสถานะ) ก่อนที่ค่าจะคงที่ อย่างไรก็ตาม วิธีนี้ก็อาจเป็นปัญหาได้เช่นกัน เพราะอาจขัดขวางการบรรจบกัน อัลกอริทึมส่วนใหญ่ในปัจจุบันใช้วิธีนี้ ทำให้เกิดกลุ่มของอัลกอริทึมการวนซ้ำนโยบายแบบทั่วไป วิธีการแบบ Actor-Criticหลายวิธีจัดอยู่ในกลุ่มนี้

ปัญหาที่สองสามารถแก้ไขได้โดยการอนุญาตให้วิถีการเคลื่อนที่สามารถมีส่วนร่วมในคู่สถานะ-การกระทำใดๆ ในนั้นได้ ซึ่งอาจช่วยแก้ปัญหาที่สามได้ในระดับหนึ่ง แม้ว่าวิธีแก้ปัญหาที่ดีกว่าเมื่อผลตอบแทนมีความแปรปรวนสูงคือ วิธีการ ความแตกต่างเชิงเวลา (TD) ของ Sutton ซึ่งอิงตามสมการ Bellman แบบ วน ซ้ำ^{[ 16 ]}^{[ 17 ]}การคำนวณในวิธีการ TD สามารถเป็นแบบเพิ่มขึ้น (เมื่อหลังจากการเปลี่ยนผ่านแต่ละครั้ง หน่วยความจำจะถูกเปลี่ยนแปลงและการเปลี่ยนผ่านจะถูกทิ้งไป) หรือแบบกลุ่ม (เมื่อการเปลี่ยนผ่านถูกจัดกลุ่มและค่าประมาณจะถูกคำนวณเพียงครั้งเดียวโดยอิงจากกลุ่ม) วิธีการแบบกลุ่ม เช่น วิธีการความแตกต่างเชิงเวลาแบบกำลังสองน้อยที่สุด^{[ 18 ]}อาจใช้ข้อมูลในตัวอย่างได้ดีกว่า ในขณะที่วิธีการแบบเพิ่มขึ้นเป็นทางเลือกเดียวเมื่อวิธีการแบบกลุ่มไม่สามารถใช้งานได้เนื่องจากความซับซ้อนในการคำนวณหรือหน่วยความจำสูง บางวิธีพยายามรวมสองแนวทางเข้าด้วยกัน วิธีการที่อิงตามความแตกต่างเชิงเวลายังช่วยแก้ปัญหาที่สี่ได้อีกด้วย

อีกปัญหาหนึ่งที่เฉพาะเจาะจงกับ TD มาจากการพึ่งพาสมการเบลล์แมนแบบเวียนซ้ำ วิธีการ TD ส่วนใหญ่มีสิ่งที่เรียกว่าพารามิเตอร์ที่สามารถประมาณค่าแบบต่อเนื่องระหว่างวิธีการมอนเตคาร์โลที่ไม่พึ่งพาสมการเบลล์แมนและวิธีการ TD พื้นฐานที่พึ่งพาสมการเบลล์แมนอย่างสมบูรณ์ ซึ่งอาจมีประสิทธิภาพในการบรรเทาปัญหานี้ได้ $\lambda$ $(0\leq \lambda \leq 1)$

วิธีการประมาณฟังก์ชัน

เพื่อแก้ไขปัญหาข้อที่ห้าจึงใช้วิธีการประมาณค่าฟังก์ชัน การประมาณค่าฟังก์ชันเชิงเส้นเริ่มต้นด้วยการแมป ที่กำหนดเวกเตอร์มิติจำกัดให้กับคู่สถานะ-การกระทำแต่ละคู่ จากนั้น ค่าการกระทำของคู่สถานะ-การกระทำ จะได้รับโดยการรวมส่วนประกอบของเวกเตอร์เชิงเส้น เข้าด้วยกันโดยใช้ค่า น้ำหนักบางอย่าง: $\phi$ $(s,a)$ $\phi (s,a)$ $\theta$

$Q(s,a)=\sum _{i=1}^{d}\theta _{i}\phi _{i}(s,a).$

จากนั้นอัลกอริธึมจะปรับน้ำหนักแทนที่จะปรับค่าที่เกี่ยวข้องกับคู่สถานะ-การกระทำแต่ละคู่ มีการสำรวจวิธีการที่อิงตามแนวคิดจากสถิติแบบไม่พาราเมตริก (ซึ่งสามารถมองได้ว่าสร้างคุณลักษณะของตนเอง)

การวนซ้ำค่าสามารถใช้เป็นจุดเริ่มต้นได้เช่นกัน ทำให้เกิด อัลกอริธึม Q-learningและรูปแบบต่างๆ มากมาย^{[ 19 ]}รวมถึงวิธีการ Deep Q-learning เมื่อใช้โครงข่ายประสาทเทียมเพื่อแสดง Q โดยมีแอปพลิเคชันต่างๆ ในปัญหาการค้นหาแบบสุ่ม^{[ 20 ]}

ปัญหาของการใช้ค่าการกระทำคือ อาจจำเป็นต้องมีการประมาณค่าการกระทำที่แข่งขันกันอย่างแม่นยำสูง ซึ่งอาจทำได้ยากเมื่อผลตอบแทนมีความผันผวน แม้ว่าปัญหานี้จะบรรเทาลงได้บ้างด้วยวิธีการความแตกต่างเชิงเวลา การใช้วิธีการประมาณค่าฟังก์ชันที่เข้ากันได้นั้นทำให้ความสามารถในการสรุปผลและประสิทธิภาพลดลง

ค้นหานโยบายโดยตรง

อีกวิธีหนึ่งคือการค้นหาโดยตรงในพื้นที่นโยบาย (หรือส่วนย่อยบางส่วนของพื้นที่นโยบาย) ซึ่งในกรณีนี้ปัญหาจะกลายเป็นกรณีของการเพิ่มประสิทธิภาพเชิงสุ่มวิธีการที่ใช้มีสองวิธี ได้แก่ วิธีที่ใช้การไล่ระดับ และวิธีที่ไม่ใช้การไล่ระดับ

วิธีการที่ใช้การ ไล่ระดับ ( วิธีการไล่ระดับนโยบาย ) เริ่มต้นด้วยการแมปจากพื้นที่มิติจำกัด (พารามิเตอร์) ไปยังพื้นที่ของนโยบาย: เมื่อกำหนดเวกเตอร์พารามิเตอร์ให้แทนนโยบายที่เกี่ยวข้องกับการกำหนดฟังก์ชันประสิทธิภาพโดยภายใต้เงื่อนไขที่ไม่รุนแรง ฟังก์ชันนี้จะสามารถหาอนุพันธ์ได้เป็นฟังก์ชันของเวกเตอร์พารามิเตอร์ หาก ทราบการไล่ระดับของ ก็สามารถใช้ การเพิ่มการไล่ระดับได้ เนื่องจากไม่มีนิพจน์เชิงวิเคราะห์สำหรับการไล่ระดับ จึงมีเพียงการประมาณค่าที่มีสัญญาณรบกวนเท่านั้น การประมาณค่าดังกล่าวสามารถสร้างขึ้นได้หลายวิธี ทำให้เกิดอัลกอริทึมเช่น วิธี REINFORCE ของวิลเลียมส์^[²¹^] (ซึ่งเป็นที่รู้จักในชื่อวิธีอัตราส่วนความน่าจะเป็นใน วรรณกรรม การเพิ่มประสิทธิภาพตามการจำลอง ) ^[²²^] $\theta$ $\pi _{\theta }$ $\theta$ $\rho (\theta )=\rho ^{\pi _{\theta }}$ $\theta$ $\rho$

วิธีการจำนวนมากหลีกเลี่ยงการพึ่งพาข้อมูลเกรเดียนต์ ซึ่งรวมถึงการจำลองการอบอ่อน ( simulated annealing) การค้นหาแบบเอนโทร ปีไขว้ ( cross-entropy search)หรือวิธีการคำนวณเชิงวิวัฒนาการ (evolutionary computation ) วิธีการที่ไม่ใช้เกรเดียนต์หลายวิธีสามารถบรรลุจุดเหมาะสมที่สุดทั่วโลกได้ (ในทางทฤษฎีและในขีดจำกัด)

วิธีการค้นหานโยบายอาจบรรจบกันช้าเมื่อข้อมูลมีสัญญาณรบกวน ตัวอย่างเช่น สิ่งนี้เกิดขึ้นในปัญหาแบบเป็นตอนๆ เมื่อเส้นทางยาวและความแปรปรวนของผลตอบแทนมีขนาดใหญ่ วิธีการที่ใช้ฟังก์ชันค่าซึ่งอาศัยความแตกต่างตามเวลาอาจช่วยได้ในกรณีนี้ ในช่วงไม่กี่ปีที่ผ่านมาวิธีการแบบนักแสดง-นักวิจารณ์ได้รับการเสนอและทำงานได้ดีในปัญหาต่างๆ^{[ 23 ]}

วิธีการค้นหานโยบายถูกนำมาใช้ในบริบทของหุ่นยนต์^{[ 24 ]}วิธีการค้นหานโยบายหลายวิธีอาจติดอยู่ในจุดเหมาะสมเฉพาะที่ (เนื่องจากขึ้นอยู่กับการค้นหาเฉพาะที่ )

อัลกอริทึมแบบจำลอง

สุดท้ายนี้ วิธีการทั้งหมดข้างต้นสามารถรวมเข้ากับอัลกอริธึมที่เรียนรู้แบบจำลองของกระบวนการตัดสินใจแบบมาร์คอฟ ก่อน ซึ่งก็คือความน่าจะเป็นของแต่ละสถานะถัดไปเมื่อพิจารณาจากการกระทำที่เกิดขึ้นจากสถานะที่มีอยู่ ตัวอย่างเช่น อัลกอริธึม Dyna เรียนรู้แบบจำลองจากประสบการณ์ และใช้แบบจำลองนั้นเพื่อสร้างการเปลี่ยนผ่านแบบจำลองเพิ่มเติมสำหรับฟังก์ชันค่า นอกเหนือจากการเปลี่ยนผ่านจริง^{[ 25 ]}บางครั้งวิธีการดังกล่าวสามารถขยายไปสู่การใช้แบบจำลองที่ไม่ใช่พารามิเตอร์ได้ เช่น เมื่อการเปลี่ยนผ่านถูกจัดเก็บและ "เล่นซ้ำ" กับอัลกอริธึมการเรียนรู้^{[ 26 ]}

วิธีการตามแบบจำลองอาจใช้การคำนวณมากกว่าวิธีการที่ไม่ใช้แบบจำลอง และประโยชน์ของวิธีการเหล่านี้อาจถูกจำกัดด้วยขอบเขตที่สามารถเรียนรู้กระบวนการตัดสินใจของมาร์คอฟได้^{[ 27 ]}

นอกจากการอัปเดตฟังก์ชันค่าแล้ว ยังมีวิธีอื่นในการใช้โมเดลอีกด้วย^{[ 28 ]}ตัวอย่างเช่น ในการควบคุมแบบทำนายโมเดลโมเดลจะถูกใช้เพื่ออัปเดตพฤติกรรมโดยตรง

การเรียนรู้แบบเสริมแรงภายใต้การกำกับดูแลบางส่วน (PSRL)

การสำรวจที่มีค่าใช้จ่ายสูงซึ่งจำเป็นต่อการเรียนรู้นโยบายที่เหมาะสมที่สุดสามารถลดลงได้หากมีข้อมูลการกำกับดูแลอยู่บ้าง ตัวอย่างเช่น สามารถทำได้โดยการเรียนรู้นโยบายควบคุมแบบหยาบๆ และใช้นโยบายนี้ในการเริ่มต้นตาราง Q อย่างชาญฉลาดแทนที่จะใช้ค่าศูนย์^{[ 29 ]}

ทฤษฎี

พฤติกรรมทั้งในระยะยาวและในตัวอย่างขนาดจำกัดของอัลกอริทึมส่วนใหญ่เป็นที่เข้าใจกันดี อัลกอริทึมที่มีประสิทธิภาพออนไลน์ที่ดีอย่างพิสูจน์ได้ (กล่าวคือ ในลักษณะที่สามารถพิสูจน์ได้) (ซึ่งแก้ไขปัญหาการสำรวจ) ก็เป็นที่รู้จักกันดี

การสำรวจกระบวนการตัดสินใจแบบมาร์คอฟที่มีประสิทธิภาพนั้นได้ระบุไว้ใน Burnetas และ Katehakis (1997) ^{[ 12 ]}ขอบเขตประสิทธิภาพในช่วงเวลาจำกัดก็ปรากฏขึ้นสำหรับอัลกอริทึมหลายตัวเช่นกัน แต่คาดว่าขอบเขตเหล่านี้จะค่อนข้างหลวม ดังนั้นจึงจำเป็นต้องมีการทำงานเพิ่มเติมเพื่อทำความเข้าใจข้อดีและข้อจำกัดที่เกี่ยวข้องให้ดียิ่งขึ้น

สำหรับอัลกอริธึมแบบเพิ่มทีละขั้น ปัญหาการลู่เข้าเชิงอะซิมโทติกได้รับการแก้ไขแล้ว อัลกอริธึมที่ใช้ความแตกต่างเชิงเวลาจะลู่เข้าภายใต้เงื่อนไขที่กว้างกว่าที่เคยเป็นไปได้ (ตัวอย่างเช่น เมื่อใช้กับการประมาณฟังก์ชันเรียบแบบใดๆ ก็ตาม)

วิจัย

หัวข้อการวิจัยได้แก่:

สถาปัตยกรรมนักแสดง-นักวิจารณ์^{[ 30 ]}
สถาปัตยกรรมนักแสดง-นักวิจารณ์-ฉาก^{[ 3 ]}
วิธีการปรับตัวที่ทำงานโดยใช้พารามิเตอร์น้อยลง (หรือไม่มีเลย) ภายใต้เงื่อนไขจำนวนมาก
การตรวจจับข้อบกพร่องในโครงการซอฟต์แวร์^{[ 31 ]}
การเรียนรู้อย่างต่อเนื่อง
การผสมผสานกับกรอบงานตามตรรกะ (เช่น ข้อกำหนดตรรกะเชิงเวลา^{[ 32 ]}เครื่องรางวัล^{[ 33 ]}และการโต้แย้งเชิงความน่าจะเป็น) ^{[ 34 ]}
การสำรวจในกระบวนการตัดสินใจแบบมาร์คอฟขนาดใหญ่
การเรียนรู้แบบเสริมแรงตามเอนทิตี^{[ 35 ]}^{[ 36 ]}^{[ 37 ]}
ข้อเสนอแนะของมนุษย์^{[ 38 ]}
ปฏิสัมพันธ์ระหว่างการเรียนรู้โดยปริยายและการเรียนรู้โดยชัดแจ้งในการได้มาซึ่งทักษะ
แรงจูงใจภายในซึ่งเป็นสิ่งที่แยกพฤติกรรมการแสวงหาข้อมูลและความอยากรู้อยากเห็นออกจากพฤติกรรมที่มุ่งเน้นเป้าหมายตามภารกิจ การประเมินเชิงประจักษ์ขนาดใหญ่
พื้นที่การกระทำขนาดใหญ่ (หรือต่อเนื่อง)
การเรียนรู้การเสริมแรงแบบโมดูลาร์และลำดับชั้น^{[ 39 ]}
การเรียนรู้แบบเสริมแรงแบบหลายเอเจนต์/แบบกระจายเป็นหัวข้อที่น่าสนใจ การใช้งานกำลังขยายตัว^{[ 40 ]}
การควบคุมที่เน้นผู้โดยสารเป็นศูนย์กลาง
การเพิ่มประสิทธิภาพทรัพยากรการคำนวณ^{[ 41 ]}^{[ 42 ]}^{[ 43 ]}
ข้อมูลบางส่วน (เช่น การใช้การแสดงสถานะเชิงทำนาย )
ฟังก์ชันรางวัลขึ้นอยู่กับการเพิ่มข้อมูลใหม่ให้สูงสุด^{[ 44 ]}^{[ 45 ]}^{[ 46 ]}
การวางแผนโดยใช้ตัวอย่าง (เช่นการค้นหาแบบต้นไม้ด้วยวิธีมอนเตคาร์โล )
การซื้อขายหลักทรัพย์^{[ 47 ]}
การเรียนรู้แบบถ่ายโอน^{[ 48 ]}
TD learning modeling การเรียนรู้ที่อาศัย โดปามีนในสมองการส่งสัญญาณโดปามีนจากซับสแตน เซีย นิกรา ไปยังฐานสมองทำหน้าที่ในการคาดการณ์ความผิดพลาด
วิธีการค้นหาฟังก์ชันค่าและนโยบาย

การเปรียบเทียบอัลกอริธึมหลัก

ตารางต่อไปนี้แสดงรายการอัลกอริธึมหลักสำหรับการเรียนรู้นโยบายโดยขึ้นอยู่กับเกณฑ์หลายประการ:

อัลกอริทึมสามารถเป็นแบบ on-policy (โดยจะทำการอัปเดตนโยบายโดยใช้เส้นทางที่สุ่มตัวอย่างผ่านนโยบายปัจจุบัน) ^{[ 49 ]}หรือแบบ off-policy
พื้นที่การกระทำอาจเป็นแบบไม่ต่อเนื่อง (เช่น พื้นที่การกระทำอาจเป็น "ขึ้น", "ไปทางซ้าย", "ไปทางขวา", "ลง", "อยู่กับที่") หรือแบบต่อเนื่อง (เช่น การขยับแขนด้วยมุมที่กำหนด)
พื้นที่สถานะอาจเป็นแบบไม่ต่อเนื่อง (เช่น ตัวแทนอาจอยู่ในช่องใดช่องหนึ่งในตาราง) หรือแบบต่อเนื่อง (เช่น ตัวแทนอาจอยู่ที่ตำแหน่งใดตำแหน่งหนึ่งในระนาบ)

อัลกอริทึม	คำอธิบาย	นโยบาย	พื้นที่ปฏิบัติการ	ปริภูมิสถานะ	ผู้ปฏิบัติงาน
มอนเตคาร์โล	ทุกครั้งที่มาเยือนมอนเตคาร์โล	ทั้ง	แยกส่วน	แยกส่วน	ค่าเฉลี่ยตัวอย่างของค่าสถานะหรือค่าการกระทำ
การเรียนรู้ TD	สถานะ–การกระทำ–รางวัล–สถานะ	นอกเหนือนโยบาย	แยกส่วน	แยกส่วน	ค่าสถานะ
คิวเลิร์นนิ่ง	สถานะ–การกระทำ–รางวัล–สถานะ	นอกเหนือนโยบาย	แยกส่วน	แยกส่วน	คุณค่าของการกระทำ
ซาร์ซ่า	สถานะ–การกระทำ–รางวัล–สถานะ–การกระทำ	ตามนโยบาย	แยกส่วน	แยกส่วน	คุณค่าของการกระทำ
ดีคิวเอ็น	เครือข่ายดีพคิว	นอกเหนือนโยบาย	แยกส่วน	ต่อเนื่อง	คุณค่าของการกระทำ
ดีดีพีจี	การไล่ระดับนโยบายเชิงกำหนดแบบลึก	นอกเหนือนโยบาย	ต่อเนื่อง	ต่อเนื่อง	คุณค่าของการกระทำ
เอ3ซี	อัลกอริทึม Actor-Critic ที่มีข้อได้เปรียบแบบอะซิงโครนัส	ตามนโยบาย	ต่อเนื่อง^{[ 50 ]}หรือไม่ต่อเนื่อง	ต่อเนื่อง	ข้อได้เปรียบ (=ค่าการกระทำ - ค่าสถานะ)
ทรอปโป	การเพิ่มประสิทธิภาพนโยบายภูมิภาคความไว้วางใจ	ตามนโยบาย	ต่อเนื่องหรือไม่ต่อเนื่อง	ต่อเนื่อง	ข้อได้เปรียบ
พีพีโอ	การเพิ่มประสิทธิภาพนโยบายแบบใกล้เคียง	ตามนโยบาย	ต่อเนื่องหรือไม่ต่อเนื่อง	ต่อเนื่อง	ข้อได้เปรียบ
ทีดี3	การไล่ระดับนโยบายเชิงกำหนดแบบลึกที่ล่าช้าคู่	นอกเหนือนโยบาย	ต่อเนื่อง	ต่อเนื่อง	คุณค่าของการกระทำ
เอสเอซี	นักแสดง-นักวิจารณ์ผู้อ่อนโยน	นอกเหนือนโยบาย	ต่อเนื่อง	ต่อเนื่อง	ข้อได้เปรียบ
DSAC ^{[ 51 ]}^{[ 52 ]}^{[ 53 ]}	นักวิจารณ์นักแสดงซอฟต์ด้านการจัดจำหน่าย	นอกเหนือนโยบาย	ต่อเนื่อง	ต่อเนื่อง	การกระจายค่าการกระทำ

การเรียนรู้เสริมแรงแบบเชื่อมโยง

งานการเรียนรู้เสริมแรงแบบเชื่อมโยงจะรวมเอาแง่มุมต่างๆ ของงานออโตมาตาการเรียนรู้แบบสุ่มและงานการจำแนกรูปแบบการเรียนรู้แบบมีผู้กำกับดูแล ในงานการเรียนรู้เสริมแรงแบบเชื่อมโยง ระบบการเรียนรู้จะโต้ตอบกับสภาพแวดล้อมในวงปิด^{[ 54 ]}

การเรียนรู้เสริมแรงเชิงลึก

แนวทางนี้ขยายการเรียนรู้แบบเสริมแรงโดยใช้โครงข่ายประสาทเทียมเชิงลึกและไม่ต้องออกแบบพื้นที่สถานะอย่างชัดเจน^{[ 55 ]}งานเกี่ยวกับการเรียนรู้เกม ATARI โดย Google DeepMindทำให้เกิดความสนใจใน การเรียน รู้แบบเสริมแรงเชิงลึกหรือการเรียนรู้แบบเสริมแรงแบบครบวงจร มากขึ้น ^{[ 56 ]}

การเรียนรู้เสริมแรงเชิงลึกแบบต่อต้าน

การเรียนรู้แบบเสริมแรงเชิงลึกแบบต่อต้านเป็นหัวข้อวิจัยที่กำลังได้รับความสนใจอย่างมากในการเรียนรู้แบบเสริมแรง โดยมุ่งเน้นไปที่จุดอ่อนของนโยบายที่เรียนรู้แล้ว ในหัวข้อวิจัยนี้ การศึกษาบางส่วนแสดงให้เห็นในเบื้องต้นว่านโยบายการเรียนรู้แบบเสริมแรงนั้นมีความอ่อนไหวต่อการจัดการแบบต่อต้านที่มองไม่เห็น^{[ 57 ]}^{[ 58 ]}^{[ 59 ]}แม้ว่าจะมีการเสนอวิธีการบางอย่างเพื่อเอาชนะจุดอ่อนเหล่านี้ แต่ในการศึกษาล่าสุดพบว่าวิธีการแก้ปัญหาที่เสนอมานั้นยังห่างไกลจากการแสดงถึงจุดอ่อนในปัจจุบันของนโยบายการเรียนรู้แบบเสริมแรงเชิงลึกได้อย่างแม่นยำ^{[ 60 ]}

การเรียนรู้เสริมแรงแบบฟัซซี

ด้วยการนำการอนุมานแบบฟัซซีมาใช้ในการเรียนรู้แบบเสริมแรง^{[ 61 ]}การประมาณค่าฟังก์ชันสถานะ-การกระทำด้วยกฎฟัซซีในพื้นที่ต่อเนื่องจึงเป็นไปได้ รูปแบบ IF - THEN ของกฎฟัซซีทำให้วิธีการนี้เหมาะสมสำหรับการแสดงผลลัพธ์ในรูปแบบที่ใกล้เคียงกับภาษาธรรมชาติ การขยาย FRL ด้วยการแทรกกฎฟัซซี^{[ 62 ]}ช่วยให้สามารถใช้ฐานกฎฟัซซีแบบเบาบางที่มีขนาดเล็กลงเพื่อเน้นกฎหลัก (ค่าสถานะ-การกระทำที่สำคัญที่สุด)

การเรียนรู้แบบเสริมแรงผกผัน

ในการเรียนรู้แบบเสริมแรงผกผัน (IRL) จะไม่มีการกำหนดฟังก์ชันรางวัล แต่ฟังก์ชันรางวัลจะถูกอนุมานจากพฤติกรรมที่สังเกตได้จากผู้เชี่ยวชาญ แนวคิดคือการเลียนแบบพฤติกรรมที่สังเกตได้ ซึ่งมักจะเป็นพฤติกรรมที่ดีที่สุดหรือใกล้เคียงกับพฤติกรรมที่ดีที่สุด^{[ 63 ]}รูปแบบ IRL ที่ได้รับความนิยมอย่างหนึ่งเรียกว่า การเรียนรู้แบบเสริมแรงผกผันเอนโทรปีสูงสุด (MaxEnt IRL) ^{[ 64 ]} MaxEnt IRL ประมาณค่าพารามิเตอร์ของแบบจำลองเชิงเส้นของฟังก์ชันรางวัลโดยการเพิ่มเอนโทรปีของการกระจายความน่าจะเป็นของวิถีที่สังเกตได้ให้สูงสุด ภายใต้ข้อจำกัดที่เกี่ยวข้องกับการจับคู่จำนวนคุณลักษณะที่คาดหวัง เมื่อเร็วๆ นี้ ได้มีการแสดงให้เห็นว่า MaxEnt IRL เป็นกรณีเฉพาะของกรอบการทำงานทั่วไปที่เรียกว่า การเรียนรู้แบบเสริมแรงผกผันยูทิลิตี้แบบสุ่ม (RU-IRL) ^{[ 65 ]} RU-IRL อิงตามทฤษฎียูทิลิตี้แบบสุ่มและกระบวนการตัดสินใจแบบมาร์คอฟ ในขณะที่แนวทาง IRL ก่อนหน้านี้สันนิษฐานว่าพฤติกรรมสุ่มที่ปรากฏของตัวแทนที่ถูกสังเกตนั้นเกิดจากการที่ตัวแทนนั้นปฏิบัติตามนโยบายแบบสุ่ม แต่ RU-IRL สันนิษฐานว่าตัวแทนที่ถูกสังเกตนั้นปฏิบัติตามนโยบายแบบกำหนดได้ แต่ความสุ่มในพฤติกรรมที่สังเกตได้นั้นเกิดจากข้อเท็จจริงที่ว่าผู้สังเกตสามารถเข้าถึงคุณลักษณะที่ตัวแทนที่ถูกสังเกตใช้ในการตัดสินใจได้เพียงบางส่วนเท่านั้น ฟังก์ชันอรรถประโยชน์ถูกจำลองเป็นตัวแปรสุ่มเพื่ออธิบายถึงความไม่รู้ของผู้สังเกตเกี่ยวกับคุณลักษณะที่ตัวแทนที่ถูกสังเกตพิจารณาจริง ๆ ในฟังก์ชันอรรถประโยชน์ของมัน

การเรียนรู้เสริมแรงแบบหลายเป้าหมาย

การเรียนรู้แบบเสริมแรงหลายวัตถุประสงค์ (MORL) เป็นรูปแบบหนึ่งของการเรียนรู้แบบเสริมแรงที่เกี่ยวข้องกับทางเลือกที่ขัดแย้งกัน ซึ่งแตกต่างจากการเพิ่มประสิทธิภาพหลายวัตถุประสงค์ตรงที่เกี่ยวข้องกับตัวแทนที่กระทำการในสภาพแวดล้อม^{[ 66 ]}^{[ 67 ]}

การเรียนรู้เสริมแรงที่ปลอดภัย

การเรียนรู้แบบเสริมแรงที่ปลอดภัย (SRL) สามารถนิยามได้ว่าเป็นกระบวนการเรียนรู้นโยบายที่เพิ่มความคาดหวังของผลตอบแทนสูงสุดในปัญหาที่สำคัญต่อการรับประกันประสิทธิภาพของระบบที่สมเหตุสมผลและ/หรือเคารพข้อจำกัดด้านความปลอดภัยในระหว่างกระบวนการเรียนรู้และ/หรือการใช้งาน^{[ 68 ]}^{[ 69 ]}แนวทางอื่นคือการเรียนรู้แบบเสริมแรงที่หลีกเลี่ยงความเสี่ยง โดยแทนที่จะใช้ผลตอบแทนที่คาดหวัง จะใช้ การวัดความเสี่ยงของผลตอบแทนที่เหมาะสม เช่นค่าความเสี่ยงตามเงื่อนไข (CVaR) ^{[ 70 ]}นอกเหนือจากการลดความเสี่ยงแล้ว วัตถุประสงค์ของ CVaR ยังเพิ่มความทนทานต่อความไม่แน่นอนของแบบจำลอง^{[ 71 ]}^{[ 72 ]}อย่างไรก็ตาม การเพิ่มประสิทธิภาพ CVaR ใน RL ที่หลีกเลี่ยงความเสี่ยงนั้นต้องใช้ความระมัดระวังเป็นพิเศษ เพื่อป้องกันอคติของเกรเดียนต์^{[ 73 ]}และการมองไม่เห็นความสำเร็จ^{[ 74 ]}

การเรียนรู้แบบเสริมแรงตนเอง

การเรียนรู้แบบเสริมแรงตนเอง (หรือการเรียนรู้ด้วยตนเอง) เป็นรูปแบบการเรียนรู้ที่ไม่ใช้แนวคิดเรื่องรางวัลทันทีหลังจากเปลี่ยนจากสถานะหนึ่งไปอีกสถานะหนึ่งด้วยการกระทำมันไม่ใช้การเสริมแรงภายนอก แต่ใช้เพียงการเสริมแรงตนเองภายในของตัวผู้เรียนรู้เองเท่านั้น การเสริมแรงตนเองภายในนี้เกิดขึ้นจากกลไกของความรู้สึกและอารมณ์ ในกระบวนการเรียนรู้ อารมณ์จะถูกส่งย้อนกลับโดยกลไกการเสริมแรงรอง สมการการเรียนรู้ไม่ได้รวมถึงรางวัลทันที แต่รวมเฉพาะการประเมินสถานะเท่านั้น $R_{a}(s,s')$ $s$ $s'$ $a$

อัลกอริทึมการเสริมแรงตนเองจะอัปเดตเมทริกซ์หน่วยความจำเพื่อให้ในแต่ละรอบการทำงานจะดำเนินการตามขั้นตอนการเรียนรู้ของเครื่องดังต่อไปนี้: $W=\|w(a,s)\|$

ในสถานการณ์นั้นๆให้ลงมือปฏิบัติ $s$ $a$
ประสบกับสถานการณ์ที่ตามมา $s'$
คำนวณการประเมินสถานะว่าการอยู่ในสถานการณ์ผลลัพธ์นั้นดีเพียงใด $v(s')$ $s'$
อัปเดตหน่วยความจำครอสบาร์ $w'(a,s)=w(a,s)+v(s')$

สภาวะเริ่มต้นของความทรงจำนั้นได้รับมาจากสภาพแวดล้อมทางพันธุกรรม มันเป็นระบบที่มีอินพุตเพียงหนึ่งเดียว (สถานการณ์) และเอาต์พุตเพียงหนึ่งเดียว (การกระทำ หรือพฤติกรรม)

การเสริมแรงตนเอง (การเรียนรู้ด้วยตนเอง) ได้รับการแนะนำในปี พ.ศ. 2525 พร้อมกับโครงข่ายประสาทเทียมที่สามารถเรียนรู้แบบเสริมแรงตนเองได้ ซึ่งมีชื่อว่า Crossbar Adaptive Array (CAA) ^{[ 75 ]}^{[ 76 ]} CAA คำนวณทั้งการตัดสินใจเกี่ยวกับการกระทำและอารมณ์ (ความรู้สึก) เกี่ยวกับสถานะผลลัพธ์ในลักษณะครอสบาร์ ระบบนี้ขับเคลื่อนด้วยปฏิสัมพันธ์ระหว่างการรับรู้และอารมณ์^{[ 77 ]}

การเปรียบเทียบทางสถิติของอัลกอริธึมการเรียนรู้แบบเสริมแรง

การเปรียบเทียบอัลกอริทึม RL อย่างมีประสิทธิภาพเป็นสิ่งสำคัญสำหรับการวิจัย การใช้งาน และการตรวจสอบระบบ RL ในการเปรียบเทียบอัลกอริทึมต่างๆ ในสภาพแวดล้อมที่กำหนด สามารถฝึกเอเจนต์สำหรับแต่ละอัลกอริทึมได้ เนื่องจากประสิทธิภาพขึ้นอยู่กับรายละเอียดการใช้งาน อัลกอริทึมทั้งหมดจึงควรถูกนำไปใช้ให้ใกล้เคียงกันมากที่สุด^{[ 78 ]}หลังจากการฝึกเสร็จสิ้น เอเจนต์สามารถทำงานกับตัวอย่างของตอนทดสอบ และสามารถเปรียบเทียบคะแนน (ผลตอบแทน) ของพวกมันได้ เนื่องจากโดยทั่วไปแล้วตอนต่างๆ จะถือว่าเป็นอิสระและมีการกระจายเหมือนกัน จึงสามารถใช้เครื่องมือทางสถิติมาตรฐานสำหรับการทดสอบสมมติฐาน เช่นการทดสอบ Tและการทดสอบการเรียงสับเปลี่ยน [ ^{79 ] ซึ่ง}จำเป็นต้องสะสมรางวัลทั้งหมดภายในตอนหนึ่งๆ เข้าเป็นตัวเลขเดียว นั่นคือ ผลตอบแทนของตอน อย่างไรก็ตาม วิธีนี้ทำให้เกิดการสูญเสียข้อมูล เนื่องจากขั้นตอนเวลาที่แตกต่างกันจะถูกเฉลี่ยเข้าด้วยกัน ซึ่งอาจมีระดับสัญญาณรบกวนที่แตกต่างกัน เมื่อใดก็ตามที่ระดับสัญญาณรบกวนแตกต่างกันไปในแต่ละตอน พลังทางสถิติสามารถปรับปรุงได้อย่างมีนัยสำคัญ โดยการถ่วงน้ำหนักรางวัลตามสัญญาณรบกวนที่ประมาณไว้^{[ 80 ]}

ความท้าทายและข้อจำกัด

แม้ว่าจะมีความก้าวหน้าอย่างมาก การเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) ยังคงเผชิญกับความท้าทายและข้อจำกัดหลายประการที่ขัดขวางการนำไปประยุกต์ใช้ในวงกว้างในสถานการณ์จริง

ประสิทธิภาพการสุ่มตัวอย่างต่ำ

อัลกอริทึม RL มักต้องการปฏิสัมพันธ์กับสภาพแวดล้อมจำนวนมากเพื่อเรียนรู้กลยุทธ์ที่มีประสิทธิภาพ ซึ่งนำไปสู่ต้นทุนการคำนวณสูงและใช้เวลานานในการฝึกฝนเอเจนต์ ตัวอย่างเช่น บอทเล่น Dota ของ OpenAIใช้การจำลองการเล่นเกมหลายพันปีเพื่อให้ได้ประสิทธิภาพในระดับมนุษย์ เทคนิคต่างๆ เช่น การเล่นซ้ำประสบการณ์และการเรียนรู้ตามหลักสูตรได้รับการเสนอเพื่อลดความไม่効率ของตัวอย่าง แต่เทคนิคเหล่านี้เพิ่มความซับซ้อนมากขึ้นและไม่เพียงพอเสมอไปสำหรับการใช้งานในโลกแห่งความเป็นจริง

ปัญหาด้านเสถียรภาพและการบรรจบกัน

การฝึกฝนโมเดล RL โดยเฉพาะอย่างยิ่งโมเดลโครงข่ายประสาทเทียมเชิงลึกอาจไม่เสถียรและมีแนวโน้มที่จะเกิดการเบี่ยงเบน การเปลี่ยนแปลงเล็กน้อยในนโยบายหรือสภาพแวดล้อมอาจนำไปสู่ความผันผวนอย่างมากในประสิทธิภาพ ทำให้ยากที่จะได้ผลลัพธ์ที่สม่ำเสมอ ความไม่เสถียรนี้จะยิ่งเพิ่มมากขึ้นในกรณีของพื้นที่การกระทำแบบต่อเนื่องหรือแบบมิติสูง ซึ่งขั้นตอนการเรียนรู้จะซับซ้อนและคาดเดาได้ยากขึ้น

การสรุปทั่วไปและการถ่ายโอนได้

เอージェนต์ RL ที่ได้รับการฝึกฝนในสภาพแวดล้อมเฉพาะ มักประสบปัญหาในการนำนโยบายที่เรียนรู้ไปใช้ในสถานการณ์ใหม่ที่ไม่เคยพบมาก่อน นี่คืออุปสรรคสำคัญที่ขัดขวางการประยุกต์ใช้ RL ในสภาพแวดล้อมจริงที่มีการเปลี่ยนแปลงตลอดเวลา ซึ่งความสามารถในการปรับตัวเป็นสิ่งสำคัญ ความท้าทายคือการพัฒนาอัลกอริธึมที่สามารถถ่ายทอดความรู้ข้ามงานและสภาพแวดล้อมโดยไม่ต้องฝึกฝนใหม่เป็นจำนวนมาก

ปัญหาเกี่ยวกับอคติและฟังก์ชันการให้รางวัล

การออกแบบฟังก์ชันรางวัลที่เหมาะสมมีความสำคัญอย่างยิ่งใน RL เนื่องจากฟังก์ชันรางวัลที่ออกแบบไม่ดีอาจนำไปสู่พฤติกรรมที่ไม่พึงประสงค์ นอกจากนี้ ระบบ RL ที่ฝึกฝนด้วยข้อมูลที่มีอคติอาจทำให้เกิดอคติที่มีอยู่และนำไปสู่ผลลัพธ์ที่เลือกปฏิบัติหรือไม่ยุติธรรม ปัญหาทั้งสองนี้จำเป็นต้องพิจารณาโครงสร้างรางวัลและแหล่งข้อมูลอย่างรอบคอบเพื่อให้มั่นใจถึงความยุติธรรมและพฤติกรรมที่ต้องการ

ในการประมวลผลภาษาธรรมชาติ

ในช่วงไม่กี่ปีที่ผ่านมา นับตั้งแต่ต้นทศวรรษ 2020 ^{[ 81 ]}การเรียนรู้แบบเสริมแรงได้กลายเป็นแนวคิดสำคัญในการประมวลผลภาษาธรรมชาติ (NLP) ซึ่งงานต่างๆ มักเป็นการตัดสินใจตามลำดับมากกว่าการจำแนกประเภทแบบคงที่ การเรียนรู้แบบเสริมแรงคือการที่ตัวแทนดำเนินการในสภาพแวดล้อมเพื่อเพิ่มการสะสมรางวัลให้สูงสุด กรอบงานนี้เหมาะสมที่สุดสำหรับงาน NLP หลายอย่าง รวมถึงการสร้างบทสนทนา การสรุปข้อความ และการแปลด้วยเครื่องจักร ซึ่งคุณภาพของผลลัพธ์ขึ้นอยู่กับการเพิ่มประสิทธิภาพเป้าหมายระยะยาวหรือเป้าหมายที่เน้นมนุษย์เป็นศูนย์กลางมากกว่าการทำนายป้ายกำกับที่ถูกต้องเพียงป้ายเดียว

การประยุกต์ใช้การเรียนรู้แบบเสริมแรง (Reinforcement Learning: RL) ในด้านการประมวลผลภาษาธรรมชาติ (NLP) ในยุคแรกเริ่มนั้นเกิดขึ้นในระบบสนทนา โดยการสนทนาถูกกำหนดให้เป็นชุดของการกระทำที่ได้รับการปรับให้เหมาะสมเพื่อความคล่องแคล่วและความสอดคล้อง การทดลองในยุคแรกๆ เหล่านี้ รวมถึงเทคนิคการไล่ระดับนโยบาย (policy gradient) และเทคนิคการฝึกฝนระดับลำดับ (sequence-level training) ได้วางรากฐานสำหรับการประยุกต์ใช้การเรียนรู้แบบเสริมแรงในวงกว้างขึ้นในด้านอื่นๆ ของ NLP

ความก้าวหน้าครั้งสำคัญเกิดขึ้นจากการนำการเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์ (RLHF) มาใช้ ซึ่งเป็นวิธีการที่ใช้การให้คะแนนผลตอบรับจากมนุษย์เพื่อฝึกฝนแบบจำลองรางวัลที่ชี้นำตัวแทน RL แตกต่างจากระบบแบบใช้กฎหรือแบบมีผู้กำกับดูแลแบบดั้งเดิม RLHF ช่วยให้แบบจำลองสามารถปรับพฤติกรรมให้สอดคล้องกับการตัดสินของมนุษย์ในงานที่ซับซ้อนและเป็นอัตวิสัย เทคนิคนี้ถูกนำมาใช้ครั้งแรกในการพัฒนาInstructGPTซึ่งเป็นแบบจำลองภาษาที่มีประสิทธิภาพที่ได้รับการฝึกฝนให้ปฏิบัติตามคำสั่งของมนุษย์ และต่อมาในChatGPTซึ่งรวมเอา RLHF เพื่อปรับปรุงการตอบสนองและสร้างความปลอดภัย

เมื่อไม่นานมานี้ นักวิจัยได้สำรวจการใช้ RL แบบออฟไลน์ใน NLP เพื่อปรับปรุงระบบบทสนทนาโดยไม่จำเป็นต้องมีการโต้ตอบกับมนุษย์แบบสด วิธีการเหล่านี้ปรับให้เหมาะสมสำหรับการมีส่วนร่วมของผู้ใช้ ความสอดคล้อง และความหลากหลายโดยอิงจากบันทึกการสนทนาในอดีตและแบบจำลองรางวัลที่ฝึกฝนไว้ล่วงหน้า^{[ 82 ]}

ตัวอย่างหนึ่งคือ DeepSeek-R1 ซึ่งรวมการฝึกอบรมหลายขั้นตอนและข้อมูลเริ่มต้นเย็นก่อน RL DeepSeek-R1 บรรลุประสิทธิภาพที่เทียบเคียงได้กับ OpenAI-o1-1217 ในงานการให้เหตุผล โมเดลนี้ได้รับการฝึกฝนผ่าน RL ขนาดใหญ่โดยไม่มีการปรับแต่งละเอียดแบบมีผู้กำกับดูแล (SFT) เป็นขั้นตอนเบื้องต้น ^{[ 83 ]}

ดูเพิ่มเติม

อ่านเพิ่มเติม

Annaswamy, Anuradha M. (3 พฤษภาคม 2023). "การควบคุมแบบปรับตัวและทางแยกด้วยการเรียนรู้แบบเสริมแรง" . วารสารประจำปีด้านการควบคุม หุ่นยนต์ และระบบอัตโนมัติ . 6 (1): 65– 93. doi : 10.1146/annurev-control-062922-090153 . ISSN 2573-5144 . S2CID 255702873 .
Auer, Peter ; Jaksch, Thomas; Ortner, Ronald (2010). "ขอบเขตความเสียใจที่ใกล้เคียงค่าเหมาะสมที่สุดสำหรับการเรียนรู้แบบเสริมแรง"วารสารการวิจัยการเรียนรู้ของเครื่องจักร11 : 1563–1600
Bertsekas, Dimitri P. (2023) [2019]. การเรียนรู้แบบเสริมแรงและการควบคุมที่เหมาะสมที่สุด (ฉบับพิมพ์ครั้งที่ 1). Athena Scientific. ISBN 978-1-886-52939-7.
Busoniu, Lucian; Babuska, Robert; De Schutter, Bart ; Ernst, Damien (2010). การเรียนรู้แบบเสริมแรงและการเขียนโปรแกรมเชิงพลวัตโดยใช้ตัวประมาณฟังก์ชัน Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "บทนำสู่การเรียนรู้แบบเสริมแรงเชิงลึก" พื้นฐานและแนวโน้มในการเรียนรู้ของเครื่องจักร 11 ( 3– 4 ): 219– 354. arXiv : 1811.12560 . Bibcode : 2018arXiv181112560F . doi : 10.1561/2200000071 . S2CID 54434537 .
Li, Shengbo Eben (2023). การเรียนรู้แบบเสริมแรงสำหรับการตัดสินใจตามลำดับและการควบคุมที่เหมาะสมที่สุด (ฉบับพิมพ์ครั้งที่ 1). Springer Verlag, สิงคโปร์. doi : 10.1007/978-981-19-7784-8 . ISBN 978-9-811-97783-1.
พาวเวลล์, วอร์เรน (2011). การเขียนโปรแกรมเชิงพลวัตโดยประมาณ: การแก้ปัญหาคำสาปแห่งมิติ . ไวลีย์-อินเตอร์ไซแอนซ์. เก็บถาวรจากต้นฉบับเมื่อ 31 กรกฎาคม 2016. สืบค้นเมื่อ8 กันยายน 2010 .
Sutton, Richard S. (1988). "การเรียนรู้การทำนายโดยวิธีความแตกต่างเชิงเวลา" . Machine Learning . 3 (1): 9– 44. Bibcode : 1988MLear...3....9S . doi : 10.1007/BF00115009 .
Sutton, Richard S. ; Barto, Andrew G. (2018) [1998]. การเรียนรู้แบบเสริมแรง: บทนำ (ฉบับที่ 2). สำนักพิมพ์ MIT. ISBN 978-0-262-03924-6.
Szita, Istvan; Szepesvari, Csaba (2010). "การเรียนรู้แบบเสริมแรงโดยใช้แบบจำลองที่มีขอบเขตความซับซ้อนของการสำรวจที่เกือบจะแน่นหนา" (PDF) . ICML 2010. Omnipress. หน้า 1031–1038 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2010-07-14.

ลิงก์ภายนอก

การวิเคราะห์การเรียนรู้แบบเสริมแรง (Reinforcement Learning)ชุดบทความเกี่ยวกับการเรียนรู้แบบเสริมแรงด้วยโค้ด Python
เจาะลึก (แบบยาว) เรื่องการเรียนรู้แบบเสริมแรง
QSMM – การเรียนรู้แบบเสริมแรงผ่านโปรแกรมแอสเซมเบลอร์เชิงความน่าจะเป็นแบบปรับตัวได้

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

8

]แบ็ก

[

[ 11 ]

[ 12 ]

[

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[

[

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

[ 62 ]

[ 63 ]

[ 64 ]

[ 65 ]

[ 66 ]

[ 67 ]

[ 68 ]

[ 69 ]

[ 70 ]

[ 71 ]

[ 72 ]

[ 73 ]

[ 74 ]

[ 75 ]

[ 76 ]

[ 77 ]

[ 78 ]

79 ] ซึ่ง

[ 80 ]

[ 81 ]

[ 82 ]

[ 83 ]