กระบวนการตัดสินใจแบบมาร์คอฟ

Q: คำนิยาม

กระบวนการตัดสินใจแบบมาร์คอฟเป็น ทูเพิล 4 ตัว โดยที่: ( เอส , เอ , พี เอ , อาร์ เอ ) {\displaystyle (S,A,P_{a},R_{a})}

กระบวนการตัดสินใจแบบมาร์คอฟ ( MDP )เป็นแบบจำลองทางคณิตศาสตร์สำหรับการตัดสินใจตามลำดับเมื่อผลลัพธ์ไม่แน่นอน^{[ 1 ]}เป็นกระบวนการตัดสินใจแบบสุ่มประเภทหนึ่ง^{[ 2 ]}และมักจะแก้ไขโดยใช้วิธีการของ การ เขียน โปรแกรมเชิงพลวัตแบบสุ่ม

MDPs ซึ่งมีต้นกำเนิดมาจากการวิจัยปฏิบัติการ ใน ช่วงทศวรรษ 1950 ^{[ 3 ]}^{[ 4 ]}ได้รับการยอมรับในหลากหลายสาขา รวมถึงนิเวศวิทยาเศรษฐศาสตร์การ ดูแลสุขภาพโทรคมนาคมและการเรียนรู้แบบเสริมแรง [ ^{5 ] การ}เรียนรู้แบบเสริมแรงใช้กรอบงาน MDP เพื่อจำลองปฏิสัมพันธ์ระหว่างตัวแทนการเรียนรู้กับสภาพแวดล้อม ในกรอบงานนี้ ปฏิสัมพันธ์จะถูกกำหนดลักษณะด้วยสถานะ การกระทำ และรางวัล กรอบงาน MDP ได้รับการออกแบบมาเพื่อให้การแสดงภาพที่เรียบง่ายขององค์ประกอบสำคัญของ ความท้าทาย ด้านปัญญาประดิษฐ์กรอบงานการสร้างแบบจำลองนี้รวมถึงความเข้าใจในสาเหตุและผลกระทบการจัดการความไม่แน่นอนและการไม่แน่นอน และการแสวงหาเป้าหมายที่ชัดเจน^{[ 5 ]}

ชื่อนี้มาจากความเชื่อมโยงกับลูกโซ่มาร์คอฟ (Markov chains)ซึ่งเป็นแนวคิดที่พัฒนาโดยนักคณิตศาสตร์ชาวรัสเซียอันเดรย์ มาร์คอฟ (Andrey Markov ) คำว่า "มาร์คอฟ" ใน "กระบวนการตัดสินใจแบบมาร์คอฟ" (Markov decision process) หมายถึงโครงสร้างพื้นฐานของการเปลี่ยนสถานะที่ยังคงเป็นไปตามคุณสมบัติของมาร์คอฟกระบวนการนี้เรียกว่า "กระบวนการตัดสินใจ" เพราะเกี่ยวข้องกับการตัดสินใจที่ส่งผลต่อการเปลี่ยนสถานะเหล่านี้ ซึ่งเป็นการขยายแนวคิดของลูกโซ่มาร์คอฟไปสู่ขอบเขตของการตัดสินใจภายใต้ความไม่แน่นอน

คำนิยาม

กระบวนการตัดสินใจแบบมาร์คอฟเป็นทูเพิล 4 ตัว โดยที่: $(S,A,P_{a},R_{a})$

$S$ คือเซตของสถานะที่เรียกว่าปริภูมิสถานะ ปริภูมิสถานะอาจเป็นแบบไม่ต่อเนื่องหรือแบบต่อเนื่อง เช่นเดียวกับเซตของจำนวนจริง
$A$ คือชุดของการกระทำที่เรียกว่าปริภูมิการกระทำ (หรืออีกนัยหนึ่งคือ ชุดของการกระทำที่มีให้เลือกจากสถานะ) สำหรับสถานะนั้น ชุดนี้อาจเป็นแบบไม่ต่อเนื่องหรือแบบต่อเนื่องก็ได้ $A_{s}$ $s$
$P_{a}(s,s')$ โดยพื้นฐานแล้ว อินทิกรัลคือความน่าจะเป็นที่การกระทำในสถานะณ เวลา t จะนำไปสู่สถานะณ เวลาt โดยทั่วไป ความน่าจะเป็นของการเปลี่ยนสถานะนี้ถูกกำหนดให้สอดคล้อง กับเงื่อนไข สำหรับทุกตัวแปรที่วัดได้ ในกรณีที่ปริภูมิสถานะเป็นแบบไม่ต่อเนื่อง อินทิกรัลจะพิจารณาจากมาตรวัดการนับ t ซึ่งทำให้มาตรวัดการนับง่ายขึ้นเป็น t = t(t) ในกรณีt(t) อินทิกรัลมักจะพิจารณาจากมาตรวัดเลเบส $a$ $s$ $t$ $s'$ $t+1$ $\Pr(s_{t+1}\in S'\mid s_{t}=s,a_{t}=a)=\int _{S'}P_{a}(s,s')ds',$ $S'\subseteq S$ $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ $S\subseteq \mathbb {R} ^{d}$
$R_{a}(s,s')$ คือรางวัลทันที (หรือรางวัลทันทีที่คาดว่าจะได้รับ) หลังจากดำเนินการเพื่อเปลี่ยนสถานะจากสถานะหนึ่งไปอีกสถานะหนึ่ง โดยทั่วไป แล้วรางวัลจะเป็นตัวแปรสุ่ม $a$ $s$ $s'$

ฟังก์ชันนโยบายคือการแมป (ซึ่งอาจเป็นแบบความน่าจะเป็น) จากพื้นที่สถานะ ( ) ไปยังพื้นที่การกระทำ ( ) $\pi$ $S$ $A$

วัตถุประสงค์ของการปรับให้เหมาะสม

เป้าหมายในกระบวนการตัดสินใจแบบมาร์คอฟคือการค้นหา "นโยบาย" ที่ดีสำหรับผู้ตัดสินใจ: ฟังก์ชันที่ระบุการกระทำที่ผู้ตัดสินใจจะเลือกเมื่ออยู่ในสถานะหนึ่งเมื่อกระบวนการตัดสินใจแบบมาร์คอฟถูกรวมเข้ากับนโยบายในลักษณะนี้แล้ว การกระทำสำหรับแต่ละสถานะจะถูกกำหนดตายตัว และการรวมกันที่ได้จะทำงานเหมือนกับลูกโซ่มาร์คอฟ (เนื่องจากการกระทำที่เลือกในสถานะหนึ่งถูกกำหนดโดยนโยบายอย่างสมบูรณ์) $\pi$ $\pi (s)$ $s$ $s$ $\pi (s)$

เป้าหมายคือการเลือกนโยบายที่จะเพิ่มค่าฟังก์ชันสะสมของรางวัลแบบสุ่มให้สูงสุด ซึ่งโดยทั่วไปแล้วจะเป็นผลรวมส่วนลดที่คาดหวังในช่วงเวลาที่อาจไม่มีที่สิ้นสุด: $\pi$

E\left[\sum _{t=0}^{\infty }{\gamma ^{t}R_{a_{t}}(s_{t},s_{t+1})}\right]

(โดยที่เราเลือกเช่น การกระทำที่กำหนดโดยนโยบาย) และความคาดหวังจะถูกนำมาใช้

a_{t}=\pi (s_{t})

s_{t+1}\sim P_{a_{t}}(s_{t},s_{t+1})

ปัจจัยส่วนลดที่ตรงตามเงื่อนไขนั้นอยู่ที่ใดซึ่งโดยปกติจะใกล้เคียงกับ(ตัวอย่างเช่นสำหรับอัตราส่วนลดบางอัตรา) ปัจจัยส่วนลดที่ต่ำกว่าจะทำให้ผู้ตัดสินใจมองการณ์สั้นลง เนื่องจากมองข้ามผลกระทบที่การปฏิบัติตามนโยบายปัจจุบันอาจมีในอนาคตที่ไกลออกไป $\ \gamma \$ $0\leq \ \gamma \ \leq \ 1$ $1$ $\gamma =1/(1+r)$ $r$

อีกหนึ่งเป้าหมายที่เป็นไปได้ แต่มีความเกี่ยวข้องอย่างเคร่งครัด และนิยมใช้กันคือ ผลตอบแทนตามขั้นตอน ในครั้งนี้ แทนที่จะใช้ปัจจัยส่วนลดตัวแทนจะสนใจเฉพาะขั้นตอนแรกของกระบวนการ โดยแต่ละรางวัลจะมีน้ำหนักเท่ากัน $H-$ $\ \gamma \$ $H$

E\left[\sum _{t=0}^{H-1}{R_{a_{t}}(s_{t},s_{t+1})}\right]

(โดยที่เราเลือกเช่น การกระทำที่กำหนดโดยนโยบาย) และความคาดหวังจะถูกนำมาใช้

a_{t}=\pi (s_{t})

s_{t+1}\sim P_{a_{t}}(s_{t},s_{t+1})

ขอบเขตเวลาอยู่ที่ไหน เมื่อเปรียบเทียบกับวัตถุประสงค์ก่อนหน้านี้ วัตถุประสงค์หลังนี้ถูกนำมาใช้ใน ทฤษฎีการเรียนรู้มากกว่า $\ H\$

นโยบายที่ทำให้ฟังก์ชันข้างต้นมีค่าสูงสุดเรียกว่านโยบายที่เหมาะสมที่สุดและโดยทั่วไปจะใช้สัญลักษณ์ แทนMDP หนึ่งๆ อาจมีนโยบายที่เหมาะสมที่สุดที่แตกต่างกันได้หลายแบบ เนื่องจากคุณสมบัติของมาร์คอฟจึงสามารถแสดงได้ว่านโยบายที่เหมาะสมที่สุดเป็นฟังก์ชันของสถานะปัจจุบัน ดังที่ได้สมมติไว้ข้างต้น เมื่อเป็นแบบกำหนดได้ จะมีนโยบายที่เหมาะสมที่สุดอยู่เสมอซึ่งเป็นแบบกำหนดได้เช่นกัน $\pi ^{*}$ $R_{a}(s,s')$ $\pi ^{*}$

[การพิสูจน์]

สมมติว่าเป็นแบบกำหนดได้ หมายความว่าสำหรับค่าคงที่ค่าก็จะคงที่เช่นกัน เนื่องจากเป็นที่ทราบกันว่ามีจุดตรึงเพียงจุดเดียวที่สอดคล้องกับการวนซ้ำค่า (สมการเบลล์แมน) $R$ $a,s,s'$ $R_{a}(s,s')$ $\gamma <1$ $V^{*}$

$V^{*}(s)=\max _{a}E\left[R_{a}(s,s')+\gamma V^{*}(s')\right]$

จากการตรวจสอบ พบว่าจุดคงที่นี้คือฟังก์ชันค่าที่เชื่อมโยงกับนโยบายต่อไปนี้

$\pi ^{*}(s):=\arg \max _{a}E\left[R_{a}(s,s')+\gamma V^{*}(s')\right]$

โดยการคลี่คลายการเรียกซ้ำของเบลล์แมน เราสามารถแสดงให้เห็นว่าเป็นค่าที่เหมาะสมที่สุด (พร้อมกันสำหรับทุกสถานะ) บนเซตของนโยบายเชิงกำหนด $V^{*}$

${\begin{aligned}V^{*}(s_{0})&=\max _{a_{0}}E\left[R_{a_{0}}(s_{0},s_{1})+\gamma V^{*}(s_{1})\right]\\&=\max _{a_{0}}E\left[R_{a_{0}}(s_{0},s_{1})+\gamma \max _{a_{1}}E\left[R_{a_{1}}(s_{1},s_{2})+\gamma V^{*}(s_{2})\right]\right]\\&=\max _{a_{0},a_{1}}E\left[R_{a_{0}}(s_{0},s_{1})+\gamma \begin{aligned}}} \left(R_{a_{1}}(s_{1},s_{2})+\gamma V^{*}(s_{2})\right)\right]\\&=\sup _{\{a_{t}\}_{t=0}^{\infty }}E\left[\sum _{t=0}^{\infty }\gamma ^{t}R_{a_{t}}(s_{t},s_{t+1})\right]\end{aligned}}$

พิจารณากรณีที่เป็นความน่าจะเป็น หมายความว่าการกระทำที่เกิดขึ้นเป็นตัวแปรสุ่ม เราสามารถแสดงให้เห็นได้ว่านโยบายที่ไม่แน่นอนใดๆ นั้นด้อยกว่านโยบายที่แน่นอนดังต่อไปนี้ $\pi$ $a:=\pi (s)$ $\pi ^{*}$

${\begin{aligned}V^{*}(s_{0})&=\max _{a_{0}}E\left[R_{a_{0}}(s_{0},s_{1})+\gamma V^{*}(s_{1})\right]\\&\geq E\left[R_{\pi (s_{0})}(s_{0},s_{1})+\gamma V^{*}(s_{1})\right]\\&=E\left[R_{\pi (s_{0})}(s_{0},s_{1})+\gamma \max _{a_{1}}E\left[R_{a_{1}}(s_{1},s_{2})+\gamma V^{*}(s_{2})\right]\right]\\&\geq E\left[R_{\pi (s_{0})}(s_{0},s_{1})+\gamma \left(R_{\pi (s_{1})}(s_{1},s_{2})+\gamma V^{*}(s_{2})\right)\right]\\&\geq E\left[\sum _{t=0}^{\infty }\gamma ^{t}R_{\pi (s_{t})}(s_{t},s_{t+1})\right]\end{aligned}}$

แบบจำลองจำลอง

ในหลายกรณี การแสดงการแจกแจงความน่าจะเป็นของการเปลี่ยนสถานะอย่างชัดเจนนั้นทำได้ยากในกรณีเช่นนี้ สามารถใช้โปรแกรมจำลองเพื่อจำลอง MDP โดยปริยายได้ โดยการสุ่มตัวอย่างจากการแจกแจงการเปลี่ยนสถานะ รูปแบบหนึ่งของแบบจำลอง MDP โดยปริยายที่พบได้ทั่วไปคือ โปรแกรมจำลองสภาพแวดล้อมแบบเป็นตอนๆ ซึ่งสามารถเริ่มต้นจากสถานะเริ่มต้นและให้ผลลัพธ์เป็นสถานะและรางวัลถัดไปทุกครั้งที่ได้รับอินพุตการกระทำ ด้วยวิธีนี้สามารถสร้าง วิถีของสถานะ การกระทำ และรางวัล ซึ่งมักเรียกว่า ตอนต่างๆ ได้ $P_{a}(s,s')$

อีกรูปแบบหนึ่งของโปรแกรมจำลองคือแบบจำลองเชิงกำเนิดซึ่งเป็นโปรแกรมจำลองแบบขั้นตอนเดียวที่สามารถสร้างตัวอย่างของสถานะและรางวัลถัดไปได้ โดยพิจารณาจากสถานะและการกระทำใดๆ^{[ 6 ]} (โปรดทราบว่านี่เป็นความหมายที่แตกต่างจากคำว่าแบบจำลองเชิงกำเนิดในบริบทของการจำแนกประเภททางสถิติ ) ในอัลกอริธึมที่แสดงโดยใช้รหัสเทียมมักใช้เพื่อแสดงถึงแบบจำลองเชิงกำเนิด ตัวอย่างเช่น นิพจน์อาจแสดงถึงการกระทำของการสุ่มตัวอย่างจากแบบจำลองเชิงกำเนิด โดยที่และคือสถานะและการกระทำปัจจุบัน และและคือสถานะและรางวัลใหม่ เมื่อเปรียบเทียบกับโปรแกรมจำลองแบบเป็นตอน แบบจำลองเชิงกำเนิดมีข้อได้เปรียบตรงที่สามารถสร้างข้อมูลจากสถานะใดๆ ก็ได้ ไม่ใช่เฉพาะสถานะที่พบในวิถีเท่านั้น $G$ $s',r\gets G(s,a)$ $s$ $a$ $s'$ $r$

คลาสของโมเดลเหล่านี้ก่อให้เกิดลำดับชั้นของเนื้อหาข้อมูล: โมเดลแบบชัดเจนจะสร้างโมเดลแบบสร้างขึ้นเองได้โดยง่ายผ่านการสุ่มตัวอย่างจากการกระจาย และการประยุกต์ใช้โมเดลแบบสร้างขึ้นเองซ้ำๆ จะสร้างตัวจำลองแบบเป็นตอนๆ ในทางตรงกันข้าม การเรียนรู้โมเดลโดยประมาณทำได้ผ่านการถดถอย เท่านั้น ประเภทของโมเดลที่มีให้สำหรับ MDP เฉพาะนั้นมีบทบาทสำคัญในการกำหนดว่าอัลกอริธึมการแก้ปัญหาใดเหมาะสม ตัวอย่างเช่น อัลก อริธึมการเขียนโปรแกรม เชิงพลวัตที่อธิบายไว้ในส่วนถัดไปต้องการโมเดลแบบชัดเจน และการค้นหาต้นไม้แบบมอนเตคาร์โลต้องการโมเดลแบบสร้างขึ้นเอง (หรือตัวจำลองแบบเป็นตอนๆ ที่สามารถคัดลอกได้ในทุกสถานะ) ในขณะที่ อัลกอริธึม การเรียนรู้แบบเสริมแรงส่วน ใหญ่ ต้องการเพียงตัวจำลองแบบเป็นตอนๆ เท่านั้น

ตัวอย่าง

ตัวอย่างหนึ่งของ MDP คือแบบจำลองการปรับสมดุลขั้ว ซึ่งมาจากทฤษฎีการควบคุมแบบคลาสสิก

ในตัวอย่างนี้ เรามี

$S$ คือเซตของทูเปิลเรียงลำดับที่กำหนดโดยมุมของเสา ความเร็วเชิงมุม ตำแหน่งของรถเข็น และความเร็วของรถเข็น $(\theta ,{\dot {\theta }},x,{\dot {x}})$
$A$ คือซึ่งสอดคล้องกับการออกแรงทางด้านซ้าย (ขวา) บนรถเข็น $\{-1,1\}$
$P_{a}(s,s')$ คือการเปลี่ยนแปลงของระบบ ซึ่งในกรณีนี้จะเป็นไปตามแบบแผนและขับเคลื่อนด้วยกฎของกลศาสตร์
$R_{a}(s,s')$ คือค่าของขั้วบวกหลังจากเปลี่ยนสถานะเป็นบวก และค่าของขั้วลบเป็นศูนย์ในกรณีอื่น ๆ ดังนั้น ฟังก์ชันนี้จึงขึ้นอยู่กับค่าของขั้วบวกในกรณีเฉพาะนี้ เท่านั้น $1$ $s'$

อัลกอริทึม

วิธีแก้ปัญหาสำหรับ MDP ที่มีสถานะและพื้นที่การกระทำจำกัดอาจพบได้ผ่านวิธีการต่างๆ เช่นการเขียนโปรแกรมแบบไดนามิก อัลกอริทึมในส่วนนี้ใช้กับ MDP ที่มีสถานะและพื้นที่การกระทำจำกัดและกำหนดความน่าจะเป็นการเปลี่ยนสถานะและฟังก์ชันรางวัลอย่างชัดเจน แต่แนวคิดพื้นฐานอาจขยายไปใช้กับปัญหาประเภทอื่นๆ ได้ เช่น การใช้การประมาณฟังก์ชันนอกจากนี้ กระบวนการบางอย่างที่มีสถานะและพื้นที่การกระทำที่นับได้ไม่จำกัดสามารถ ลดรูป ได้อย่างแม่นยำเป็นกระบวนการที่มีสถานะและพื้นที่การกระทำจำกัด^{[ 7 ]}

ชุดอัลกอริธึมมาตรฐานสำหรับการคำนวณนโยบายที่เหมาะสมที่สุดสำหรับ MDP ที่มีสถานะและการกระทำจำกัดนั้น ต้องการพื้นที่จัดเก็บข้อมูลสำหรับอาร์เรย์สองชุดที่จัดทำดัชนีตามสถานะ ได้แก่ อาร์เรย์ค่า (value ) ซึ่งมีค่าจริง และอาร์เรย์นโยบาย (policy ) ซึ่งมีค่าการกระทำ เมื่อสิ้นสุดอัลกอริธึม อาร์เรย์ค่าจะเก็บคำตอบ และอาร์เรย์นโยบายจะเก็บผลรวมส่วนลดของรางวัลที่จะได้รับ (โดยเฉลี่ย) โดยการปฏิบัติตามคำตอบนั้นจากสถานะ $V$ $\pi$ $\pi$ $V(s)$ $s$

อัลกอริทึมมีสองขั้นตอน (1) การอัปเดตค่า และ (2) การอัปเดตนโยบาย ซึ่งจะทำซ้ำตามลำดับบางอย่างสำหรับทุกสถานะจนกว่าจะไม่มีการเปลี่ยนแปลงเพิ่มเติมเกิดขึ้น ทั้งสองจะอัปเดตการประมาณค่าใหม่ของนโยบายและค่าสถานะที่เหมาะสมที่สุดโดยใช้การประมาณค่าเก่าของค่าเหล่านั้นแบบเรียกซ้ำ

V(s):=\sum _{s'}P_{\pi (s)}(s,s')\left(R_{\pi (s)}(s,s')+\gamma V(s')\right)

\pi (s):=\operatorname {argmax} _{a}\left\{\sum _{s'}P_{a}(s,s')\left(R_{a}(s,s')+\gamma V(s')\right)\right\}

ลำดับของขั้นตอนเหล่านี้ขึ้นอยู่กับรูปแบบของอัลกอริธึม นอกจากนี้ยังสามารถดำเนินการกับทุกสถานะพร้อมกันหรือทีละสถานะ และมักจะดำเนินการกับบางสถานะมากกว่าสถานะอื่น ตราบใดที่ไม่มีสถานะใดถูกยกเว้นอย่างถาวรจากขั้นตอนใดขั้นตอนหนึ่ง อัลกอริธึมก็จะสามารถหาคำตอบที่ถูกต้องได้ในที่สุด^{[ 8 ]}

รูปแบบที่น่าสนใจ

การวนซ้ำค่า

ในการวนซ้ำค่า ( Bellman 1957 ) ซึ่งเรียกอีกอย่างว่าการเหนี่ยวนำย้อนกลับ จะไม่มีการใช้ ฟังก์ชัน แต่ จะคำนวณค่าของ ภายใน เมื่อใดก็ตามที่ต้องการ การแทนที่การคำนวณของลงในการคำนวณของจะได้ขั้นตอนรวม $\pi$ $\pi (s)$ $V(s)$ $\pi (s)$ $V(s)$

V_{i+1}(s):=\max _{a}\left\{\sum _{s'}P_{a}(s,s')\left(R_{a}(s,s')+\gamma V_{i}(s')\right)\right\},

โดยที่คือหมายเลขการวนซ้ำ การวนซ้ำค่าเริ่มต้นที่และเป็นการคาดเดาฟังก์ชันค่าจากนั้นจะวนซ้ำ คำนวณซ้ำๆสำหรับทุกสถานะจนกระทั่งลู่เข้าโดยที่ด้านซ้ายมือเท่ากับด้านขวามือ (ซึ่งเป็น " สมการเบลล์แมน " สำหรับปัญหานี้) บทความของLloyd Shapley ในปี 1953 เกี่ยวกับ เกมสุ่มได้รวมวิธีการวนซ้ำค่าสำหรับ MDP ไว้เป็นกรณีพิเศษ^[⁹^]แต่ได้รับการยอมรับในภายหลังเท่านั้น^[¹⁰^] $i$ $i=0$ $V_{0}$ $V_{i+1}$ $s$ $V$

การวนซ้ำค่ารับประกันว่าจะลู่เข้าตามทฤษฎีบทจุดตรึงของบานาค $\gamma <1$

[การพิสูจน์]

ทฤษฎีบทจุดตรึงของบานาคกล่าวว่า การแมปแบบหดตัวที่กำหนดให้จะมีจุดตรึงที่ไม่ซ้ำกันเพียงจุดเดียว ยิ่งไปกว่านั้น เราสามารถเข้าใกล้จุดตรึงเหล่านี้ได้โดยการใช้การแมปแบบหดตัวซ้ำๆ ดังนั้นจึงเพียงพอที่จะแสดงว่าการวนซ้ำค่าเป็นการแมปแบบหดตัว ซึ่งแสดงไว้ด้านล่างสำหรับ $\gamma <1$

ใช้สัญลักษณ์และเพื่อความสะดวก $X_{a}^{V}(s):=\sum _{s'}P_{a}(s,s')\left(R_{a}(s,s')+\gamma V_{i}(s')\right)$ $({\mathcal {B}}V)(s):=\max _{a}X_{a}^{V}(s)$

${\begin{aligned}\|{\mathcal {B}}V-{\mathcal {B}}W\|_{\infty }&=\max _{s}\left|({\mathcal {B}}V)(s)-({\mathcal {B}}W)(s)\right|\\&=\max _{s}\left|\max _{a}X_{a}^{V}(s)-\max _{a}X_{a}^{W}(s)\right|\\&\leq \max _{s}\max _{a}\left|X_{a}^{V}(s)-X_{a}^{W}(s)\right|\\&=\max _{s}\max _{a}\gamma \left|\sum _{s'}P_{a}(s,s')\left(V_{i}(s')-W_{i}(s')\right)\right|\\&\leq \max _{s}\max _{a}\gamma \max _{s'}\left|V_{i}(s')-W_{i}(s')\right|\\&=\gamma \max _{s'}\left|V_{i}(s')-W_{i}(s')\right|\\&=\gamma \|V_{i}-W_{i}\|_{\infty }\end{aligned}}$

การทำซ้ำนโยบาย

ในการวนซ้ำนโยบาย^{[ 11 ]}ขั้นแรกจะทำการกำหนดค่าโดยการแก้หาค่าจากระบบเชิงเส้นที่อธิบายไว้ในขั้นตอนแรก จากนั้นจะทำการปรับปรุงนโยบายโดยการคำนวณตามขั้นตอนที่สอง จากนั้นทำซ้ำทั้งสองขั้นตอนจนกว่านโยบายจะบรรจบกัน (การวนซ้ำนโยบายถูกคิดค้นโดย Howard เพื่อเพิ่มประสิทธิภาพ การส่งจดหมายแคตตาล็อก ของ Searsซึ่งเขาได้เพิ่มประสิทธิภาพโดยใช้การวนซ้ำค่า^[¹²^] ) $V$ $\pi$

เนื่องจากการวนซ้ำนโยบายเป็นการสลับปัญหาผกผัน เชิงเส้นกับการดำเนินการที่ไม่เป็นเชิงเส้นอย่างมีประสิทธิภาพ จึงอาจตีความได้ว่าเป็น วิธี การผ่อนคลายประเภทหนึ่ง

รูปแบบนี้มีข้อดีคือมีเงื่อนไขการหยุดที่แน่นอน เนื่องจากมีวิธีแก้ปัญหาที่ไม่ซ้ำกันสำหรับแต่ละนโยบายอัลกอริทึมจะเสร็จสมบูรณ์เมื่อการปรับปรุงนโยบายสร้างนโยบายเดียวกันสองครั้งติดต่อกัน $V$ $\pi$

แม้ว่าจะมีบางสถานการณ์ที่การวนซ้ำนโยบายอาจเร็วกว่าการวนซ้ำค่า (เช่น เมื่อพื้นที่การกระทำมีขนาดใหญ่กว่าพื้นที่สถานะอย่างมาก) แต่โดยทั่วไปแล้วการวนซ้ำนโยบายจะช้ากว่าการวนซ้ำค่าสำหรับจำนวนสถานะที่เป็นไปได้จำนวนมาก

การทำซ้ำนโยบายที่แก้ไขแล้ว

ในการทำซ้ำนโยบายที่แก้ไขแล้ว ( van Nunen 1976 ; Puterman & Shin 1978 ) ขั้นตอนที่หนึ่งจะถูกทำซ้ำหลายครั้ง จากนั้นขั้นตอนที่สองจะถูกดำเนินการเพียงครั้งเดียว^{[ 13 ]}^{[ 14 ]}จากนั้นขั้นตอนที่หนึ่งจะถูกทำซ้ำอีกหลายครั้งและต่อไปเรื่อยๆ

การกวาดล้างที่ให้ความสำคัญเป็นอันดับแรก

ในรูปแบบนี้ ขั้นตอนต่างๆ จะถูกนำไปใช้กับสถานะที่มีความสำคัญในบางแง่มุมเป็นหลัก ไม่ว่าจะเป็นไปตามอัลกอริทึม (มีการเปลี่ยนแปลงครั้งใหญ่ในหรือรอบๆ สถานะเหล่านั้นเมื่อเร็วๆ นี้) หรือไปตามการใช้งาน (สถานะเหล่านั้นอยู่ใกล้กับสถานะเริ่มต้น หรือเป็นที่น่าสนใจสำหรับบุคคลหรือโปรแกรมที่ใช้อัลกอริทึม) $V$ $\pi$

ความซับซ้อนในการคำนวณ

มีอัลกอริธึมสำหรับการค้นหานโยบายที่เหมาะสมที่สุดด้วย ความซับซ้อน ^ของเวลาที่เป็นพหุนามตามขนาดของการแสดงปัญหาสำหรับ MDP แบบจำกัด ดังนั้นปัญหาการตัดสินใจที่อิงตาม MDP จึงอยู่ในคลาสความซับซ้อน ในการคำนวณ P ^{[ 15} ] อย่างไรก็ตาม เนื่องจากคำสาปของมิติขนาดของการแสดงปัญหามักจะเป็นเลขชี้กำลังตามจำนวนตัวแปรสถานะและการกระทำ ซึ่งจำกัดเทคนิคการแก้ปัญหาที่แม่นยำไว้เฉพาะปัญหาที่มีการแสดงแบบกระชับ ในทางปฏิบัติ เทคนิคการวางแผนแบบออนไลน์ เช่นการค้นหาต้นไม้แบบมอนเตคาร์โลสามารถค้นหาวิธีแก้ปัญหาที่มีประโยชน์ในปัญหาขนาดใหญ่ได้ และในทางทฤษฎี เป็นไปได้ที่จะสร้างอัลกอริธึมการวางแผนแบบออนไลน์ที่สามารถค้นหานโยบายที่ใกล้เคียงกับค่าที่เหมาะสมที่สุดได้โดยไม่มีความซับซ้อนในการคำนวณขึ้นอยู่กับขนาดของพื้นที่สถานะ^{[ 16 ]}

การขยายและการสรุปทั่วไป

กระบวนการตัดสินใจแบบมาร์คอฟเป็นเกมสุ่มที่มีผู้เล่นเพียงคนเดียว

การสังเกตได้บางส่วน

วิธีแก้ปัญหาข้างต้นตั้งอยู่บนสมมติฐานว่าทราบสถานะเมื่อต้องดำเนินการ มิฉะนั้นจะไม่สามารถคำนวณได้ เมื่อสมมติฐานนี้ไม่เป็นจริง ปัญหาดังกล่าวเรียกว่ากระบวนการตัดสินใจแบบมาร์คอฟที่สังเกตได้บางส่วน หรือ POMDP $s$ $\pi (s)$

กระบวนการตัดสินใจแบบมาร์คอฟที่มีข้อจำกัด

กระบวนการตัดสินใจแบบมาร์คอฟที่มีข้อจำกัด (CMDPS) เป็นส่วนขยายของกระบวนการตัดสินใจแบบมาร์คอฟ (MDPs) มีความแตกต่างพื้นฐานสามประการระหว่าง MDPs และ CMDPs ^{[ 17 ]}

การดำเนินการหนึ่งอย่างแทนที่จะเป็นการดำเนินการเดียว ส่งผลให้เกิดค่าใช้จ่ายหลายอย่าง
ปัญหา CMDP แก้ได้ด้วยโปรแกรมเชิงเส้นเท่านั้น และไม่สามารถใช้โปรแกรมเชิงพลวัต ได้
นโยบายสุดท้ายขึ้นอยู่กับสถานะเริ่มต้น

วิธีการใช้ตัวคูณลากรางจ์สามารถนำไปใช้กับ CMDP ได้ มีการพัฒนาอัลกอริธึมที่ใช้ลากรางจ์เป็นพื้นฐานอยู่มากมาย

วิธีการไล่ระดับนโยบายธรรมชาติแบบคู่หลัก^{[ 18 ]}

มีแอปพลิเคชันหลายอย่างสำหรับ CMDP โดยเพิ่งมีการนำไปใช้ใน สถานการณ์ การวางแผนการเคลื่อนที่ในหุ่นยนต์^{[ 19 ]}

กระบวนการตัดสินใจแบบมาร์คอฟแบบต่อเนื่อง

ในกระบวนการตัดสินใจแบบมาร์คอฟแบบเวลาไม่ต่อเนื่อง การตัดสินใจจะเกิดขึ้นในช่วงเวลาที่ไม่ต่อเนื่องกัน แต่สำหรับกระบวนการตัดสินใจแบบมาร์คอฟแบบเวลาต่อเนื่อง การตัดสินใจสามารถเกิดขึ้นได้ทุกเมื่อที่ผู้ตัดสินใจเลือก เมื่อเปรียบเทียบกับกระบวนการตัดสินใจแบบมาร์คอฟแบบเวลาไม่ต่อเนื่อง กระบวนการตัดสินใจแบบมาร์คอฟแบบเวลาต่อเนื่องสามารถจำลองกระบวนการตัดสินใจสำหรับระบบที่มีพลวัตต่อเนื่อง ได้ดีกว่า กล่าวคือ พลวัตของระบบถูกกำหนดโดยสมการเชิงอนุพันธ์สามัญ (ODE) กรอบการสร้างแบบจำลองนี้สามารถนำไปใช้ในด้านต่างๆ เช่นระบบคิวกระบวนการระบาด และกระบวนการประชากร

เช่นเดียวกับกระบวนการตัดสินใจแบบมาร์คอฟในเวลาไม่ต่อเนื่อง ในกระบวนการตัดสินใจแบบมาร์คอฟในเวลาต่อเนื่อง ตัวแทนมีเป้าหมายที่จะค้นหานโยบาย ที่เหมาะสมที่สุด ซึ่งจะเพิ่มผลตอบแทนสะสมที่คาดหวังให้สูงสุด ความแตกต่างที่สำคัญกับกรณีมาตรฐานคือ เนื่องจากลักษณะต่อเนื่องของตัวแปรเวลา การหาผลรวมจึงถูกแทนที่ด้วยการหาปริพันธ์:

\max \operatorname {E} _{\pi }\left[\left.\int _{0}^{\infty }\gamma ^{t}r(s(t),\pi (s(t)))\,dt\;\right|s_{0}\right]

ที่ไหน $0\leq \gamma <1.$

พื้นที่แบบไม่ต่อเนื่อง: การกำหนดสูตรการเขียนโปรแกรมเชิงเส้น

หากปริภูมิสถานะและปริภูมิการกระทำมีจำกัด เราสามารถใช้การเขียนโปรแกรมเชิงเส้นเพื่อค้นหานโยบายที่เหมาะสมที่สุด ซึ่งเป็นหนึ่งในแนวทางแรกๆ ที่นำมาใช้ ที่นี่เราพิจารณาเฉพาะแบบจำลองเออร์โกดิก ซึ่งหมายความว่า MDP แบบต่อเนื่องของเราจะกลายเป็นห่วงโซ่มาร์คอฟแบบต่อเนื่องเออร์โกดิก ภายใต้ นโยบาย คงที่ ภาย ใต้สมมติฐานนี้ แม้ว่าผู้ตัดสินใจจะสามารถตัดสินใจได้ตลอดเวลาในสถานะปัจจุบัน แต่ก็ไม่มีประโยชน์ในการดำเนินการหลายอย่าง การดำเนินการเฉพาะเมื่อระบบกำลังเปลี่ยนจากสถานะปัจจุบันไปยังสถานะอื่นจะดีกว่า ภายใต้เงื่อนไขบางประการ^{[ 20 ]}หากฟังก์ชันค่าที่เหมาะสมที่สุดของเราเป็นอิสระจากสถานะเราจะมีความไม่เท่าเทียมกันดังต่อไปนี้: $V^{*}$ $i$

g\geq R(i,a)+\sum _{j\in S}q(j\mid i,a)h(j)\quad \forall i\in S{\text{ and }}a\in A(i)

ถ้ามีฟังก์ชัน อยู่จริงแล้วจะเป็นค่าที่เล็กที่สุดที่สอดคล้องกับสมการข้างต้น ในการหาค่าเราสามารถใช้แบบจำลองการเขียนโปรแกรมเชิงเส้นต่อไปนี้ได้: $h$ ${\bar {V}}^{*}$ $g$ ${\bar {V}}^{*}$

โปรแกรมเชิงเส้นดั้งเดิม (P-LP)

{\begin{aligned}{\text{Minimize}}\quad &g\\{\text{s.t}}\quad &g-\sum _{j\in S}q(j\mid i,a)h(j)\geq R(i,a)\,\,\forall i\in S,\,a\in A(i)\end{aligned}}

โปรแกรมเชิงเส้นคู่ (D-LP)

{\begin{aligned}{\text{Maximize}}&\sum _{i\in S}\sum _{a\in A(i)}R(i,a)y(i,a)\\{\text{s.t.}}&\sum _{i\in S}\sum _{a\in A(i)}q(j\mid i,a)y(i,a)=0\quad \forall j\in S,\\&\sum _{i\in S}\sum _{a\in A(i)}y(i,a)=1,\\&y(i,a)\geq 0\qquad \forall a\in A(i){\text{ and }}\forall i\in S\end{aligned}}

$y(i,a)$ คำตอบที่เป็นไปได้ของ D-LP คือคำตอบที่สอดคล้องกับเงื่อนไขในปัญหา D-LP คำตอบที่เป็นไปได้ของ D-LP จะเรียกว่าเป็นคำตอบที่เหมาะสมที่สุด ถ้า $y(i,a)$ $y^{*}(i,a)$

{\begin{aligned}\sum _{i\in S}\sum _{a\in A(i)}R(i,a)y^{*}(i,a)\geq \sum _{i\in S}\sum _{a\in A(i)}R(i,a)y(i,a)\end{aligned}}

สำหรับคำตอบที่เป็นไปได้ทั้งหมดของ D-LP เมื่อเราพบคำตอบที่เหมาะสมที่สุดแล้ว เราสามารถใช้คำตอบนั้นเพื่อกำหนดนโยบายที่เหมาะสมที่สุดได้ $y(i,a)$ $y^{*}(i,a)$

พื้นที่ต่อเนื่อง: สมการแฮมิลตัน-จาโคบี-เบลล์แมน

ใน MDP แบบเวลาต่อเนื่อง หากปริภูมิสถานะและปริภูมิการกระทำเป็นแบบต่อเนื่อง เกณฑ์ที่เหมาะสมที่สุดสามารถหาได้โดยการแก้สมการเชิงอนุพันธ์ย่อยของ Hamilton–Jacobi–Bellman (HJB)เพื่อที่จะอธิบายสมการ HJB เราจำเป็นต้องกำหนดปัญหาของเราใหม่

{\begin{aligned}V(s(0),0)={}&\max _{a(t)=\pi (s(t))}\int _{0}^{T}r(s(t),a(t))\,dt+D[s(T)]\\{\text{s.t.}}\quad &{\frac {ds(t)}{dt}}=f[t,s(t),a(t)]\end{aligned}}

$D(\cdot )$ คือฟังก์ชันรางวัลสุดท้ายคือเวกเตอร์สถานะของระบบคือเวกเตอร์ควบคุมระบบที่เราพยายามค้นหาแสดงให้เห็นว่าเวกเตอร์สถานะเปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป สมการ Hamilton–Jacobi–Bellman มีดังนี้: $s(t)$ $a(t)$ $f(\cdot )$

0=\max _{a}(r(t,s,a)+{\frac {\partial V(t,s)}{\partial s}}f(t,s,a))

เราสามารถแก้สมการเพื่อหาฟังก์ชันค่า ที่เหมาะสมที่สุด ซึ่งจะนำไปสู่การควบคุมที่เหมาะสมที่สุดในแต่ละช่วงเวลาได้โดยผ่านทาง... $V^{*}$ $t$ $a(t)$ $a(t)={\underset {a}{\text{argmax}}}(r(t,s,a)+{\frac {\partial V^{*}(t,s)}{\partial s}}f(t,s,a)).$

การเรียนรู้แบบเสริมแรง

การเรียนรู้แบบเสริมแรงเป็นสาขาสหวิทยาการของการเรียนรู้ของเครื่องและการควบคุมที่เหมาะสมที่สุดโดยมีวัตถุประสงค์หลักคือการค้นหานโยบายที่เหมาะสมที่สุดโดยประมาณสำหรับ MDP ซึ่งความน่าจะเป็นของการเปลี่ยนสถานะและรางวัลไม่เป็นที่รู้จัก^{[ 21 ]}

การเรียนรู้แบบเสริมแรงสามารถแก้ปัญหา Markov-Decision Process (MDP) ได้โดยไม่ต้องระบุความน่าจะเป็นของการเปลี่ยนสถานะอย่างชัดเจน ซึ่งจำเป็นต่อการทำซ้ำนโยบาย ในบริบทนี้ ความน่าจะเป็นของการเปลี่ยนสถานะและรางวัลจะต้องเรียนรู้จากประสบการณ์ กล่าวคือ โดยการปล่อยให้ตัวแทนโต้ตอบกับ MDP เป็นจำนวนขั้นตอนที่กำหนด ทั้งในระดับทฤษฎีและระดับปฏิบัติ มีความพยายามในการเพิ่มประสิทธิภาพของตัวอย่างให้สูงสุด กล่าวคือ ลดจำนวนตัวอย่างที่จำเป็นในการเรียนรู้นโยบายที่มีประสิทธิภาพใกล้เคียงกับนโยบายที่ดีที่สุดให้เหลือน้อยที่สุด (เนื่องจากลักษณะสุ่มของกระบวนการ การเรียนรู้นโยบายที่ดีที่สุดด้วยจำนวนตัวอย่างที่จำกัดนั้นโดยทั่วไปเป็นไปไม่ได้) $\varepsilon -$

การเรียนรู้แบบเสริมแรงสำหรับ MDP แบบไม่ต่อเนื่อง

เพื่อจุดประสงค์ของหัวข้อนี้ การกำหนดฟังก์ชันเพิ่มเติมซึ่งสอดคล้องกับการดำเนินการและดำเนินการต่ออย่างเหมาะสมที่สุด (หรือตามนโยบายใดก็ตามที่มีอยู่ในปัจจุบัน) จะเป็นประโยชน์: $a$

\ Q(s,a)=\sum _{s'}P_{a}(s,s')(R_{a}(s,s')+\gamma V(s')).\

แม้ว่าฟังก์ชันนี้จะยังไม่เป็นที่รู้จัก แต่ประสบการณ์ระหว่างการเรียนรู้จะอิงตามคู่ (รวมถึงผลลัพธ์ด้วย กล่าวคือ "ฉันอยู่ในสถานะหนึ่งและฉันลองทำบางอย่างและสิ่งนั้นก็เกิดขึ้น") ดังนั้น เราจึงมีอาร์เรย์และใช้ประสบการณ์เพื่ออัปเดตอาร์เรย์นั้นโดยตรง นี่คือสิ่งที่เรียกว่าQ- learning $(s,a)$ $s'$ $s$ $a$ $s'$ $Q$

ขอบเขตอื่นๆ

การเรียนรู้อัตโนมัติ

การประยุกต์ใช้กระบวนการ MDP อีกอย่างหนึ่งใน ทฤษฎี การเรียนรู้ของเครื่องเรียกว่า ออโตมาตาการเรียนรู้ นี่เป็นการเรียนรู้แบบเสริมแรงประเภทหนึ่งเช่นกัน หากสภาพแวดล้อมเป็นแบบสุ่ม บทความเกี่ยวกับ ออโตมาตาการเรียนรู้ ฉบับแรก ได้รับการสำรวจโดยNarendraและ Thathachar (1974) ซึ่งเดิมทีได้อธิบายไว้อย่างชัดเจนว่าเป็น ออโต มาตาสถานะจำกัด^{[ 22 ]}เช่นเดียวกับการเรียนรู้แบบเสริมแรง อัลกอริทึมออโตมาตาการเรียนรู้ยังมีข้อดีในการแก้ปัญหาเมื่อไม่ทราบความน่าจะเป็นหรือรางวัล ความแตกต่างระหว่างออโตมาตาการเรียนรู้และ Q-learning คือเทคนิคแรกละเว้นหน่วยความจำของค่า Q แต่จะอัปเดตความน่าจะเป็นของการกระทำโดยตรงเพื่อค้นหาผลลัพธ์การเรียนรู้ ออโตมาตาการเรียนรู้เป็นแผนการเรียนรู้ที่มีการพิสูจน์การบรรจบกันอย่างเข้มงวด^{[ 23 ]}

ในทฤษฎีการเรียนรู้เกี่ยวกับออโตมาตา ออโตมาตาแบบสุ่มประกอบด้วย:

เซตxของข้อมูลป้อนเข้าที่เป็นไปได้
ชุด Φ = { Φ ₁ , ..., Φ _s } ของสถานะภายในที่เป็นไปได้
เซต α = { α ₁ , ..., α _r } ของผลลัพธ์หรือการกระทำที่เป็นไปได้ โดยที่r ≤ s
เวกเตอร์ความน่าจะเป็นสถานะเริ่มต้นp (0) = ≪ p ₁ (0), ..., p _s (0) ≫,
ฟังก์ชันที่คำนวณได้Aซึ่งหลังจากแต่ละช่วงเวลาtจะสร้างp ( t +1) จากp ( t ) อินพุตปัจจุบัน และสถานะปัจจุบัน และ
ฟังก์ชันG : Φ → α ซึ่งสร้างเอาต์พุตในแต่ละช่วงเวลา

สถานะของออโตมาตอนดังกล่าวสอดคล้องกับสถานะของ " กระบวนการมาร์คอฟ แบบสถานะไม่ต่อเนื่องและพารามิเตอร์ไม่ต่อเนื่อง " ^{[ 24 ]}ในแต่ละขั้นตอนเวลาt = 0,1,2,3,... ออโตมาตอนจะอ่านอินพุตจากสภาพแวดล้อม อัปเดต P( t ) เป็น P( t + 1) โดยAเลือกสถานะถัดไปแบบสุ่มตามความน่าจะเป็น P( t + 1) และส่งออกการกระทำที่สอดคล้องกัน ในทางกลับกัน สภาพแวดล้อมของออโตมาตอนจะอ่านการกระทำและส่งอินพุตถัดไปไปยังออโตมาตอน^{[ 23 ]}

การตีความเชิงทฤษฎีหมวดหมู่

นอกเหนือจากรางวัลแล้ว กระบวนการตัดสินใจแบบมาร์คอฟยังสามารถเข้าใจได้ในแง่ของทฤษฎีหมวดหมู่กล่าวคือ ให้แทนโมโนอิดอิสระที่มีเซตตัวสร้างAและ ให้Distแทนหมวดหมู่ไคลส์ลีของโมนาดกิรีจากนั้นฟังก์ชันเตอร์จะเข้ารหัสทั้งเซตSของสถานะและฟังก์ชันความน่าจะเป็นP $(S,A,P)$ ${\mathcal {A}}$ ${\mathcal {A}}\to \mathbf {Dist}$

ด้วยวิธีนี้ กระบวนการตัดสินใจแบบมาร์คอฟสามารถขยายจากโมโนอิด (หมวดหมู่ที่มีวัตถุเดียว) ไปสู่หมวดหมู่ใดๆ ก็ได้ เราอาจเรียกผลลัพธ์นี้ว่ากระบวนการตัดสินใจแบบมาร์คอฟที่ขึ้นอยู่กับบริบทเพราะการเปลี่ยนจากวัตถุหนึ่งไปยังอีกวัตถุหนึ่งจะเปลี่ยนชุดของการกระทำที่มีอยู่และชุดของสถานะที่เป็นไปได้ $({\mathcal {C}},F:{\mathcal {C}}\to \mathbf {Dist} )$ ${\mathcal {C}}$

สัญลักษณ์ทางเลือก

คำศัพท์และสัญลักษณ์สำหรับ MDP ยังไม่เป็นที่ตกลงกันอย่างเด็ดขาด มีสองแนวทางหลัก — แนวทางหนึ่งเน้นปัญหาการหาค่าสูงสุดจากบริบทต่างๆ เช่น เศรษฐศาสตร์ โดยใช้คำว่า การกระทำ รางวัล คุณค่า และเรียกตัวประกอบส่วนลดว่า $β$ หรือ $γ$ ในขณะที่อีกแนวทางหนึ่งเน้นปัญหาการหาค่าต่ำสุดจากวิศวกรรมและการนำทาง โดยใช้คำว่า การควบคุม ต้นทุน ต้นทุนที่ต้องเดินทาง และเรียกตัวประกอบส่วนลดว่า $α$ นอกจากนี้ สัญลักษณ์สำหรับความน่าจะเป็นของการเปลี่ยนสถานะก็แตกต่างกันไป

ในบทความนี้	ทางเลือก	ความคิดเห็น
การกระทำ $ก$	ควบคุม $คุณ$
รางวัล $R$	ต้นทุน $g$	$g$ คือค่าลบของ $R$
ค่า $V$	ค่าใช้จ่ายต่อการเดินทาง $J$	$J$ คือค่าลบของ $V$
นโยบาย $π$	นโยบาย $μ$
ปัจจัยส่วนลด $γ$	ปัจจัยส่วนลด $α$
ความน่าจะเป็นของการเปลี่ยนสถานะ $P_{a}(s,s')$	ความน่าจะเป็นของการเปลี่ยนสถานะ $p_{ss'}(a)$

นอกจากนี้ บางครั้งความน่าจะเป็นของการเปลี่ยนสถานะจะเขียนเป็นหรือในบางกรณีที่พบได้น้อย จะเขียนว่า $\Pr(s,a,s')$ $\Pr(s'\mid s,a)$ $p_{s's}(a).$

ดูเพิ่มเติม

แหล่งที่มา

เบลล์แมน, อาร์. (1957), การเขียนโปรแกรมเชิงพลวัต , สำนักพิมพ์มหาวิทยาลัยพรินซ์ตัน, ISBN 978-0-486-42809-3{{citation}}: ISBN / Date incompatibility (help)ฉบับปกอ่อนของสำนักพิมพ์ Dover (2003)

อ่านเพิ่มเติม

Bellman., RE (2003) [1957]. การเขียนโปรแกรมเชิงพลวัต (ฉบับปกอ่อนของ Dover). Princeton, NJ: Princeton University Press. ISBN 978-0-486-42809-3.
Bertsekas, D. (1995). การเขียนโปรแกรมเชิงพลวัตและการควบคุมที่เหมาะสมที่สุดเล่ม 2. MA: Athena.
Derman, C. (1970). กระบวนการตัดสินใจแบบมาร์โคเวียนสถานะจำกัด . สำนักพิมพ์ Academic Press.
Feinberg, EA; Shwartz, A., บรรณาธิการ (2002). คู่มือเกี่ยวกับกระบวนการตัดสินใจแบบมาร์คอฟ . บอสตัน, แมสซาชูเซตส์: Kluwer. ISBN 9781461508052.
Guo, X.; Hernández-Lerma, O. (2009). กระบวนการตัดสินใจแบบมาร์คอฟในเวลาต่อเนื่องการสร้างแบบจำลองเชิงสุ่มและความน่าจะเป็นประยุกต์ Springer. ISBN 9783642025464.
Meyn, SP (2007). เทคนิคการควบคุมสำหรับเครือข่ายที่ซับซ้อน . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-0-521-88441-9เก็บถาวรจากต้นฉบับเมื่อวันที่ 19 มิถุนายน 2553ภาคผนวกประกอบด้วยบทสรุปย่อของ"Meyn & Tweedie"จัดเก็บจากต้นฉบับเมื่อวันที่ 18 ธันวาคม 2012
Puterman., ML (1994). กระบวนการตัดสินใจแบบมาร์คอฟ . Wiley.
Ross, SM (1983). บทนำสู่การเขียนโปรแกรมเชิงพลวัตแบบสุ่ม (PDF)สำนักพิมพ์ Academic press. เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2022-03-04 สืบค้นเมื่อ2019-01-19
Sutton, RS; Barto, AG (2017). การเรียนรู้แบบเสริมแรง: บทนำ . เคมบริดจ์, แมสซาชูเซตส์: สำนักพิมพ์ MIT.
Tijms., HC (2003). หลักสูตรเบื้องต้นเกี่ยวกับแบบจำลองสุ่ม . Wiley. ISBN 9780470864289.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 6 ]

[ 7 ]

[ 8 ]

[

[

[ 11 ]

[

[ 13 ]

[ 14 ]

ของ

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]