สมการเบลล์แมน

Q: หลักการหาค่าเหมาะสมที่สุดของเบลล์แมน

วิธีการเขียนโปรแกรมเชิงพลวัตจะแบ่งปัญหาการตัดสินใจนี้ออกเป็นปัญหาย่อยที่เล็กกว่า หลักการหาค่าเหมาะสมที่สุด ของเบลล์แมน อธิบายวิธีการทำเช่นนั้น:

สมการเบลล์แมนซึ่งตั้งชื่อตามริชาร์ด อี. เบลล์แมนเป็นเทคนิคในการเขียนโปรแกรมเชิงพลวัตที่แบ่ง ปัญหา การหาค่าเหมาะสมที่สุดออกเป็นลำดับของปัญหาย่อยที่ง่ายกว่า ตามที่ "หลักการหาค่าเหมาะสมที่สุด" ของเบลล์แมนกำหนดไว้^{[ 1 ]}ถือเป็นเงื่อนไขที่จำเป็นสำหรับการหาค่าเหมาะสม ที่สุด ^{[ 2 ]} "ค่า" ของปัญหาการตัดสินใจ ณ จุดเวลาหนึ่งๆ จะถูกเขียนในรูปของผลตอบแทนจากการเลือกเริ่มต้นบางอย่าง และ "ค่า" ของปัญหาการตัดสินใจที่เหลืออยู่ซึ่งเป็นผลมาจากการเลือกเริ่มต้นเหล่านั้น^{[ 3 ]}สมการนี้ใช้ได้กับโครงสร้างพีชคณิตที่มีลำดับสมบูรณ์ สำหรับโครงสร้างพีชคณิตที่มีลำดับบางส่วน สามารถใช้สมการเบลล์แมนทั่วไปได้^{[ 4 ]}

สมการเบลล์แมนถูกนำไปใช้ครั้งแรกในทฤษฎีการควบคุม ทางวิศวกรรม และหัวข้ออื่นๆ ในคณิตศาสตร์ประยุกต์ และต่อมากลายเป็นเครื่องมือสำคัญในทฤษฎีเศรษฐศาสตร์แม้ว่าแนวคิดพื้นฐานของการเขียนโปรแกรมแบบไดนามิกจะถูกกล่าวถึงไว้ล่วงหน้าในทฤษฎีเกมและพฤติกรรมทางเศรษฐกิจของจอห์น ฟอน นอยมันน์และออสการ์ มอร์เก น ส เติร์น และการวิเคราะห์ลำดับของอับราฮัม วอลด์^[⁵^]คำว่า "สมการเบลล์แมน" มักหมายถึงสมการการเขียนโปรแกรมแบบไดนามิก (DPE) ที่เกี่ยวข้องกับปัญหาการเพิ่มประสิทธิภาพแบบเวลาไม่ต่อเนื่อง^[⁶^]ในปัญหาการเพิ่มประสิทธิภาพแบบเวลาต่อเนื่อง สมการที่คล้ายคลึงกันคือสมการเชิงอนุพันธ์ย่อยที่เรียกว่า สมการแฮมิล ตัน-จาโคบี-เบลล์แมน^[⁷^]^[⁸^]

ในเวลาแบบไม่ต่อเนื่อง ปัญหาการเพิ่มประสิทธิภาพหลายขั้นตอนใดๆ ก็สามารถแก้ไขได้โดยการวิเคราะห์สมการเบลล์แมนที่เหมาะสม สมการเบลล์แมนที่เหมาะสมสามารถพบได้โดยการแนะนำตัวแปรสถานะใหม่ (การเพิ่มสถานะ) ^{[ 9 ]}อย่างไรก็ตาม ปัญหาการเพิ่มประสิทธิภาพหลายขั้นตอนที่มีสถานะเพิ่มขึ้นจะมีปริภูมิสถานะที่มีมิติสูงกว่าปัญหาการเพิ่มประสิทธิภาพหลายขั้นตอนดั้งเดิม ซึ่งเป็นปัญหาที่อาจทำให้ปัญหาที่เพิ่มขึ้นนั้นไม่สามารถแก้ไขได้เนื่องจาก " คำสาปแห่งมิติ " ในทางกลับกัน ได้มีการแสดงให้เห็นว่าหากฟังก์ชันต้นทุนของปัญหาการเพิ่มประสิทธิภาพหลายขั้นตอนเป็นไปตามโครงสร้าง "แยกย้อนกลับได้" แล้ว สมการเบลล์แมนที่เหมาะสมสามารถพบได้โดยไม่ต้องเพิ่มสถานะ^{[ 10 ]}

แนวคิดเชิงวิเคราะห์ในการเขียนโปรแกรมเชิงพลวัต

เพื่อให้เข้าใจสมการของเบลล์แมน จำเป็นต้องแนะนำแนวคิดพื้นฐานหลายประการก่อน ประการแรก ปัญหาการหาค่าเหมาะสมที่สุดใดๆ ก็ตามย่อมมีจุดประสงค์บางอย่าง เช่น การลดเวลาเดินทาง การลดต้นทุน การเพิ่มผลกำไร การเพิ่มอรรถประโยชน์ เป็นต้น ฟังก์ชันทางคณิตศาสตร์ที่อธิบายจุดประสงค์นี้เรียกว่าฟังก์ชันวัตถุประสงค์^{[ 11 ]}

การเขียนโปรแกรมแบบไดนามิกจะแบ่งปัญหาการวางแผนหลายช่วงเวลาออกเป็นขั้นตอนที่ง่ายขึ้น ณ จุดเวลาต่างๆ ดังนั้นจึงจำเป็นต้องติดตามว่าสถานการณ์การตัดสินใจมีการเปลี่ยนแปลงอย่างไรเมื่อเวลาผ่านไป ข้อมูลเกี่ยวกับสถานการณ์ปัจจุบันที่จำเป็นต่อการตัดสินใจที่ถูกต้องเรียกว่า "สถานะ" ^{[ 12 ]}^{[ 13 ]}ตัวอย่างเช่น ในการตัดสินใจว่าจะบริโภคและใช้จ่ายเท่าใดในแต่ละจุดเวลา ผู้คนจำเป็นต้องทราบ (ในบรรดาสิ่งอื่นๆ) ความมั่งคั่งเริ่มต้นของตน ดังนั้นความมั่งคั่งจึงเป็นหนึ่งในตัวแปรสถานะ ของพวกเขา แต่ก็อาจจะมีตัวแปรอื่นๆ อีกด้วย $(W)$

ตัวแปรที่เลือก ณ จุดใดจุดหนึ่งในเวลา มักเรียกว่าตัวแปรควบคุมตัวอย่างเช่น เมื่อพิจารณาจากความมั่งคั่งในปัจจุบัน ผู้คนอาจตัดสินใจว่าจะบริโภคมากน้อยเพียงใดในตอนนี้ การเลือกตัวแปรควบคุมในตอนนี้อาจเทียบเท่ากับการเลือกสถานะต่อไป โดยทั่วไปแล้ว สถานะต่อไปจะได้รับผลกระทบจากปัจจัยอื่นๆ นอกเหนือจากตัวแปรควบคุมในปัจจุบัน ตัวอย่างเช่น ในกรณีที่ง่ายที่สุด ความมั่งคั่งในปัจจุบัน (สถานะ) และการบริโภค (ตัวแปรควบคุม) อาจกำหนดความมั่งคั่งในอนาคต (สถานะใหม่) ได้อย่างแม่นยำ แม้ว่าโดยปกติแล้วปัจจัยอื่นๆ ก็จะส่งผลต่อความมั่งคั่งในอนาคตด้วยเช่นกัน

แนวทางการเขียนโปรแกรมแบบไดนามิกอธิบายแผนที่เหมาะสมที่สุดโดยการค้นหากฎที่บอกว่าการควบคุมควรเป็นอย่างไร โดยพิจารณาจากค่าที่เป็นไปได้ของสถานะ ตัวอย่างเช่น หากการบริโภค ( c ) ขึ้นอยู่กับความมั่งคั่ง ( W ) เท่านั้นเราจะแสวงหากฎ ที่ให้การบริโภคเป็นฟังก์ชันของความมั่งคั่ง กฎดังกล่าวซึ่งกำหนดการควบคุมเป็นฟังก์ชันของสถานะ เรียกว่าฟังก์ชันนโยบาย^[¹⁴^]^[¹²^] $c(W)$

สุดท้ายนี้ ตามคำจำกัดความ กฎการตัดสินใจที่เหมาะสมที่สุดคือกฎที่ทำให้ได้ค่าที่ดีที่สุดเท่าที่จะเป็นไปได้ของเป้าหมาย ตัวอย่างเช่น หากบุคคลหนึ่งเลือกการบริโภค โดยพิจารณาจากความมั่งคั่ง เพื่อให้ได้ความสุขสูงสุด (โดยสมมติว่าความสุขHสามารถแสดงได้ด้วยฟังก์ชันทางคณิตศาสตร์ เช่น ฟังก์ชัน อรรถประโยชน์และเป็นสิ่งที่กำหนดโดยความมั่งคั่ง) แล้วแต่ละระดับความมั่งคั่งจะสัมพันธ์กับระดับความสุขสูงสุดที่เป็นไปได้ค่าที่ดีที่สุดเท่าที่จะเป็นไปได้ของเป้าหมาย ซึ่งเขียนเป็นฟังก์ชันของสถานะ เรียกว่าฟังก์ชัน คุณค่า $H(W)$

เบลล์แมนแสดงให้เห็นว่า ปัญหา การหาค่าเหมาะสม ที่สุดแบบไดนามิก ในเวลาไม่ต่อเนื่องสามารถระบุได้ใน รูปแบบ เวียนเกิดทีละขั้นตอนที่เรียกว่าการเหนี่ยวนำย้อนกลับโดยการเขียนความสัมพันธ์ระหว่างฟังก์ชันค่าในหนึ่งช่วงเวลาและฟังก์ชันค่าในอีกหนึ่งช่วงเวลา ความสัมพันธ์ระหว่างฟังก์ชันค่าทั้งสองนี้เรียกว่า "สมการเบลล์แมน" ในแนวทางนี้ นโยบายที่เหมาะสมที่สุดในรอบเวลาสุดท้ายจะถูกกำหนดไว้ล่วงหน้าเป็นฟังก์ชันของค่าตัวแปรสถานะในเวลานั้น และค่าที่เหมาะสมที่สุดของฟังก์ชันเป้าหมายที่ได้จึงแสดงออกมาในรูปของค่าตัวแปรสถานะนั้น ต่อมา การหาค่าเหมาะสมที่สุดในรอบเวลาก่อนสุดท้ายเกี่ยวข้องกับการเพิ่มค่าสูงสุดของผลรวมของฟังก์ชันเป้าหมายเฉพาะช่วงเวลานั้นและค่าที่เหมาะสมที่สุดของฟังก์ชันเป้าหมายในอนาคต ซึ่งจะทำให้นโยบายที่เหมาะสมที่สุดในรอบนั้นขึ้นอยู่กับค่าของตัวแปรสถานะ ณ การตัดสินใจในรอบเวลาก่อนสุดท้าย ตรรกะนี้ดำเนินต่อไปแบบวนซ้ำย้อนกลับไปในอดีต จนกระทั่งได้กฎการตัดสินใจของช่วงเวลาแรก ซึ่งเป็นฟังก์ชันของค่าตัวแปรสถานะเริ่มต้น โดยการหาค่าที่เหมาะสมที่สุดของผลรวมของฟังก์ชันเป้าหมายเฉพาะช่วงเวลาแรกและค่าของฟังก์ชันมูลค่าของช่วงเวลาที่สอง ซึ่งจะให้ค่าสำหรับทุกช่วงเวลาในอนาคต ดังนั้น การตัดสินใจในแต่ละช่วงเวลาจึงเกิดขึ้นโดยการยอมรับอย่างชัดเจนว่าการตัดสินใจในอนาคตทั้งหมดจะทำได้อย่างเหมาะสมที่สุด

อนุพันธ์

ปัญหาการตัดสินใจแบบไดนามิก

ให้เป็นสถานะ ณ เวลาt สำหรับการตัดสินใจที่เริ่มต้น ณ เวลา 0 เราจะถือว่าสถานะเริ่มต้น เป็นค่าที่กำหนด ไว้แล้ว ในทุกช่วงเวลา เซตของการกระทำที่เป็นไปได้จะขึ้นอยู่กับสถานะปัจจุบัน เราแสดงสิ่งนี้เป็น โดยที่การกระทำเฉพาะเจาะจงแทนค่าเฉพาะสำหรับตัวแปรควบคุมหนึ่งตัวหรือมากกว่า และคือเซตของการกระทำที่สามารถทำได้ ณ สถานะนอกจากนี้ยังถือว่าสถานะเปลี่ยนจากไปเป็นสถานะใหม่เมื่อมีการกระทำ และผลตอบแทนปัจจุบันจากการกระทำในสถานะคือสุดท้าย เราถือว่ามีความใจร้อน ซึ่งแสดงด้วยปัจจัย ส่วนลด $x_{t}$ $t$ $x_{0}$ $a_{t}\in \Gamma (x_{t})$ $a_{t}$ $\Gamma (x_{t})$ $x_{t}$ $x$ $T(x,a)$ $a$ $a$ $x$ $F(x,a)$ $0<\beta <1$

ภายใต้สมมติฐานเหล่านี้ ปัญหาการตัดสินใจในระยะเวลาอันไม่มีที่สิ้นสุดจะมีรูปแบบดังต่อไปนี้:

V(x_{0})\;=\;\max _{\left\{a_{t}\right\}_{t=0}^{\infty }}\sum _{t=0}^{\infty }\beta ^{t}F(x_{t},a_{t}),

ภายใต้ข้อจำกัด

a_{t}\in \Gamma (x_{t}),\;x_{t+1}=T(x_{t},a_{t}),\;\forall t=0,1,2,\dots

โปรดสังเกตว่าเราได้กำหนดสัญลักษณ์เพื่อแสดงค่าที่ดีที่สุดที่สามารถได้รับจากการเพิ่มค่าฟังก์ชันเป้าหมายนี้ให้สูงสุดภายใต้ข้อจำกัดที่กำหนดไว้ ฟังก์ชันนี้คือฟังก์ชันค่าซึ่งเป็นฟังก์ชันของตัวแปรสถานะเริ่มต้นเนื่องจากค่าที่ดีที่สุดที่ได้รับนั้นขึ้นอยู่กับสถานการณ์เริ่มต้น $V(x_{0})$ $x_{0}$

หลักการหาค่าเหมาะสมที่สุดของเบลล์แมน

วิธีการเขียนโปรแกรมเชิงพลวัตจะแบ่งปัญหาการตัดสินใจนี้ออกเป็นปัญหาย่อยที่เล็กกว่าหลักการหาค่าเหมาะสมที่สุด ของเบลล์แมน อธิบายวิธีการทำเช่นนั้น:

หลักการของความเหมาะสมที่สุด: นโยบายที่เหมาะสมที่สุดมีคุณสมบัติที่ว่าไม่ว่าสถานะเริ่มต้นและการตัดสินใจเริ่มต้นจะเป็นอย่างไร การตัดสินใจที่เหลือจะต้องประกอบเป็นนโยบายที่เหมาะสมที่สุดเกี่ยวกับสถานะที่เกิดจากการตัดสินใจครั้งแรก (ดู Bellman, 1957, บทที่ III.3) ^{[ 12 ]}^{[ 13 ]}^{[ 15 ]}

ในวิทยาการคอมพิวเตอร์ ปัญหาที่สามารถแบ่งย่อยได้เช่นนี้เรียกว่ามีโครงสร้างย่อยที่เหมาะสมที่สุดในบริบทของทฤษฎีเกม แบบไดนามิก หลักการนี้คล้ายคลึงกับแนวคิดของสมดุลที่สมบูรณ์แบบในเกมย่อยแม้ว่าสิ่งที่ถือว่าเป็นนโยบายที่เหมาะสมที่สุดในกรณีนี้จะขึ้นอยู่กับว่าฝ่ายตรงข้ามของผู้ตัดสินใจเลือกนโยบายที่เหมาะสมที่สุดในทำนองเดียวกันจากมุมมองของพวกเขาหรือไม่

ตามที่หลักการหาค่าที่เหมาะสมที่สุด ได้แนะนำไว้ เราจะพิจารณาการตัดสินใจครั้งแรกแยกต่างหาก โดยละเว้นการตัดสินใจในอนาคตทั้งหมด (เราจะเริ่มต้นใหม่ตั้งแต่เวลา 1 ด้วยสถานะใหม่) เมื่อรวบรวมการตัดสินใจในอนาคตไว้ในวงเล็บทางด้านขวา ปัญหาการตัดสินใจในระยะเวลาอันไม่มีที่สิ้นสุดข้างต้นจึงเทียบเท่ากับ: $x_{1}$

\max _{a_{0}}\left\{F(x_{0},a_{0})+\beta \left[\max _{\left\{a_{t}\right\}_{t=1}^{\infty }}\sum _{t=1}^{\infty }\beta ^{t-1}F(x_{t},a_{t}):a_{t}\in \Gamma (x_{t}),\;x_{t+1}=T(x_{t},a_{t}),\;\forall t\geq 1\right]\right\}

ภายใต้ข้อจำกัด

a_{0}\in \Gamma (x_{0}),\;x_{1}=T(x_{0},a_{0}).

ในที่นี้เรากำลังเลือกโดยรู้ว่าการเลือกของเราจะทำให้สถานะ ณ เวลา 1 เปลี่ยนไปเป็นสถานะใหม่นั้นจะส่งผลต่อปัญหาการตัดสินใจตั้งแต่เวลา 1 เป็นต้นไป ปัญหาการตัดสินใจในอนาคตทั้งหมดปรากฏอยู่ภายในวงเล็บเหลี่ยมทางด้านขวา $a_{0}$ $x_{1}=T(x_{0},a_{0})$

สมการเบลล์แมน

ดูเหมือนว่าจนถึงตอนนี้เรายิ่งทำให้ปัญหายุ่งยากขึ้นไปอีกด้วยการแยกการตัดสินใจในวันนี้ออกจากการตัดสินใจในอนาคต แต่เราสามารถทำให้ง่ายขึ้นได้โดยสังเกตว่าสิ่งที่อยู่ภายในวงเล็บเหลี่ยมทางด้านขวาคือค่าของปัญหาการตัดสินใจ ณ เวลา 1 โดยเริ่มต้นจากสถานะ. $x_{1}=T(x_{0},a_{0})$

ดังนั้น ปัญหาจึงสามารถเขียนใหม่ได้ในรูป นิยามแบบ เรียกซ้ำของฟังก์ชันค่า:

V(x_{0})=\max _{a_{0}}\{F(x_{0},a_{0})+\beta V(x_{1})\}

โดยอยู่ภายใต้ข้อจำกัดดังต่อไปนี้:

a_{0}\in \Gamma (x_{0}),\;x_{1}=T(x_{0},a_{0}).

นี่คือสมการของเบลล์แมน สามารถทำให้ง่ายขึ้นได้อีกหากตัดตัวเลขดัชนีเวลาออกและแทนค่าสถานะถัดไปลงไป:

V(x)=\max _{a\in \Gamma (x)}\{F(x,a)+\beta V(T(x,a))\}.

สมการเบลล์แมนจัดเป็นสมการเชิงฟังก์ชันเพราะการแก้สมการนี้หมายถึงการหาฟังก์ชันที่ไม่ทราบค่าซึ่งก็คือฟังก์ชันค่าโปรดจำไว้ว่าฟังก์ชันค่าอธิบายค่าที่ดีที่สุดที่เป็นไปได้ของเป้าหมาย โดยเป็นฟังก์ชันของสถานะโดยการคำนวณฟังก์ชันค่า เราจะพบฟังก์ชันที่อธิบายการกระทำที่เหมาะสมที่สุดโดยเป็นฟังก์ชันของสถานะด้วย ซึ่งเรียกว่าฟังก์ชัน นโยบาย $V$ $x$ $a(x)$

ในปัญหาเชิงสุ่ม

ในบริบทแบบกำหนดได้ นอกจากวิธีการเขียนโปรแกรมเชิงพลวัตแล้ว ยังสามารถใช้เทคนิคอื่นๆ ในการแก้ ปัญหา การควบคุมที่เหมาะสมที่สุด ข้างต้น ได้ อย่างไรก็ตาม สมการเบลล์แมนมักเป็นวิธีที่สะดวกที่สุดในการแก้ปัญหาการควบคุมที่เหมาะสมที่สุด แบบสุ่ม

สำหรับตัวอย่างเฉพาะจากเศรษฐศาสตร์ ลองพิจารณาผู้บริโภคที่มีอายุยืนยาวไม่จำกัด โดยมีทรัพย์สินเริ่มต้นณ ช่วงเวลาพวกเขามีฟังก์ชันอรรถประโยชน์ ทันที โดยที่แทนการบริโภค และคิดลดอรรถประโยชน์ในงวดถัดไปด้วยอัตราสมมติว่าสิ่งที่ไม่ได้บริโภคในช่วงเวลาจะถูกยกยอดไปยังงวดถัดไปด้วยอัตราดอกเบี้ยดังนั้นปัญหาการเพิ่มอรรถประโยชน์สูงสุดของผู้บริโภคคือการเลือกแผนการบริโภคที่แก้ปัญหา ได้ ${\color {Red}a_{0}}$ $0$ $u(c)$ $c$ $0<\beta <1$ $t$ $r$ $\{{\color {OliveGreen}c_{t}}\}$

\max \sum _{t=0}^{\infty }\beta ^{t}u({\color {OliveGreen}c_{t}})

ขึ้นอยู่กับ

{\color {Red}a_{t+1}}=(1+r)({\color {Red}a_{t}}-{\color {OliveGreen}c_{t}}),\;{\color {OliveGreen}c_{t}}\geq 0,

และ

\lim _{t\rightarrow \infty }{\color {Red}a_{t}}\geq 0.

ข้อจำกัดแรกคือการสะสมทุน/กฎการเคลื่อนที่ที่ระบุไว้ในโจทย์ ในขณะที่ข้อจำกัดที่สองคือเงื่อนไขความเท่าเทียมกันที่ผู้บริโภคจะต้องไม่มีหนี้สินเมื่อสิ้นสุดชีวิต สมการของเบลล์แมนคือ

V(a)=\max _{0\leq c\leq a}\{u(c)+\beta V((1+r)(a-c))\},

อีกทางเลือกหนึ่งคือ เราสามารถแก้ปัญหาลำดับโดยตรงได้โดยใช้สมการแฮมิลโทเนียนเป็นต้น

ทีนี้ ถ้าอัตราดอกเบี้ยเปลี่ยนแปลงไปในแต่ละช่วงเวลา ผู้บริโภคจะต้องเผชิญกับปัญหาการหาค่าเหมาะสมที่สุดแบบสุ่ม สมมติว่าอัตราดอกเบี้ยrเป็นไปตามกระบวนการมาร์คอฟ (Markov process)โดยมีฟังก์ชันการเปลี่ยนสถานะความน่าจะเป็นโดยที่แสดงถึงมาตรวัดความน่าจะเป็นที่ควบคุมการกระจายของอัตราดอกเบี้ยในงวดถัดไป หากอัตราดอกเบี้ยปัจจุบันคือในแบบจำลองนี้ ผู้บริโภคจะตัดสินใจเกี่ยวกับการบริโภคในงวดปัจจุบันหลังจากที่อัตราดอกเบี้ยในงวดปัจจุบันได้รับการประกาศแล้ว $Q(r,d\mu _{r})$ $d\mu _{r}$ $r$

แทนที่จะเลือกเพียงลำดับเดียวผู้บริโภคจะต้องเลือกลำดับสำหรับแต่ละความเป็นไปได้ของค่า a ในลักษณะที่ทำให้ประโยชน์ที่คาดหวังตลอดช่วงชีวิตของพวกเขามีค่าสูงสุด: $\{{\color {OliveGreen}c_{t}}\}$ $\{{\color {OliveGreen}c_{t}}\}$ $\{r_{t}\}$

\max _{\left\{c_{t}\right\}_{t=0}^{\infty }}\mathbb {E} {\bigg (}\sum _{t=0}^{\infty }\beta ^{t}u({\color {OliveGreen}c_{t}}){\bigg )}.

ค่าเฉลี่ยจะคำนวณโดยอ้างอิงจากมาตรวัดความน่าจะเป็นที่เหมาะสมซึ่งกำหนดโดยQบนลำดับของr เนื่องจาก r ถูกควบคุมโดยกระบวนการมาร์คอฟ การเขียนโปรแกรมเชิงพลวัตจึงช่วยลดความซับซ้อนของปัญหาได้อย่างมาก จากนั้นสมการของเบลล์แมนจึงมีดังนี้: $\mathbb {E}$

V(a,r)=\max _{0\leq c\leq a}\{u(c)+\beta \int V((1+r)(a-c),r')Q(r,d\mu _{r})\}.

ภายใต้สมมติฐานที่สมเหตุสมผลบางประการ ฟังก์ชันนโยบายที่เหมาะสมที่สุดg ( a , r ) ที่ได้นั้นสามารถวัดได้

สำหรับปัญหาการหาค่าเหมาะสมที่สุดแบบลำดับเชิงสุ่มทั่วไปที่มีการกระแทกแบบมาร์โคเวียน และตัวแทนต้องเผชิญกับการตัดสินใจภายหลังสมการของเบลล์แมนจะมีรูปแบบที่คล้ายคลึงกันมาก

V(x,z)=\max _{c\in \Gamma (x,z)}\{F(x,c,z)+\beta \int V(T(x,c),z')d\mu _{z}(z')\}.

วิธีการแก้ปัญหา

วิธีสัมประสิทธิ์ที่ไม่ทราบค่าหรือที่รู้จักกันในชื่อ 'เดาและตรวจสอบ' สามารถใช้เพื่อแก้สมการเบลล์แมนแบบอิสระ ที่มีขอบเขตอนันต์ได้ ^{[ 16 ]}
สมการเบลล์แมนสามารถแก้ไขได้โดยการเหนี่ยวนำย้อนกลับไม่ว่าจะโดยการวิเคราะห์ในบางกรณีพิเศษ หรือโดยเชิงตัวเลขบนคอมพิวเตอร์ การเหนี่ยวนำย้อนกลับเชิงตัวเลขสามารถนำไปใช้กับปัญหาได้หลากหลาย แต่อาจทำไม่ได้เมื่อมีตัวแปรสถานะจำนวนมาก เนื่องจากคำสาปของมิติ DP BertsekasและJN Tsitsiklisได้นำเสนอการเขียนโปรแกรมไดนามิกโดยประมาณโดยใช้เครือข่ายประสาทเทียม ( เพอร์เซปตรอนหลายชั้น ) เพื่อประมาณฟังก์ชันเบลล์แมน^{[ 17 ]}นี่เป็นกลยุทธ์การบรรเทาที่มีประสิทธิภาพในการลดผลกระทบของมิติโดยการแทนที่การจดจำการแมปฟังก์ชันที่สมบูรณ์สำหรับโดเมนพื้นที่ทั้งหมดด้วยการจดจำพารามิเตอร์เครือข่ายประสาทเพียงอย่างเดียว โดยเฉพาะอย่างยิ่งสำหรับระบบเวลาต่อเนื่อง ได้มีการนำเสนอวิธีการเขียนโปรแกรมไดนามิกโดยประมาณที่รวมการวนซ้ำนโยบายกับเครือข่ายประสาทเข้าด้วยกัน^{[ 18 ]}ในเวลาไม่ต่อเนื่อง ได้มีการนำเสนอแนวทางในการแก้สมการ HJB โดยการรวมการวนซ้ำค่าและเครือข่ายประสาท^{[ 19 ]}
โดยการคำนวณเงื่อนไขอันดับแรกที่เกี่ยวข้องกับสมการเบลล์แมน จากนั้นใช้ทฤษฎีซองจดหมายเพื่อกำจัดอนุพันธ์ของฟังก์ชันค่า ก็สามารถได้ระบบสมการผลต่างหรือสมการเชิงอนุพันธ์ที่เรียกว่า ' สมการออยเลอร์ ' ^{[ 20 ]}จากนั้นสามารถใช้เทคนิคมาตรฐานสำหรับการแก้สมการผลต่างหรือสมการเชิงอนุพันธ์เพื่อคำนวณพลวัตของตัวแปรสถานะและตัวแปรควบคุมของปัญหาการเพิ่มประสิทธิภาพได้

การประยุกต์ใช้ในเศรษฐศาสตร์

การประยุกต์ใช้ สมการเบลล์แมนในทางเศรษฐศาสตร์ครั้งแรกที่เป็นที่รู้จักนั้นมาจากมาร์ติน เบ็คแมนน์และริชาร์ด มูธ [ ^{21 ] มา}ร์ติน เบ็คแมนน์ยังเขียนเกี่ยวกับทฤษฎีการบริโภคโดยใช้สมการเบลล์แมนอย่างกว้างขวางในปี พ.ศ. 2502 ผลงานของเขามีอิทธิพลต่อเอ็ดมันด์ เอส. เฟลป์สและคนอื่นๆ

การประยุกต์ใช้สมการเบลล์แมนในทางเศรษฐศาสตร์ที่ได้รับการยกย่องคือบทความสำคัญของโรเบิร์ต ซี. เมอร์ตัน ในปี 1973 เกี่ยวกับ แบบจำลองการกำหนดราคาสินทรัพย์ทุนระหว่างช่วงเวลา^{[ 22 ]} (ดู ปัญหาพอร์ตโฟลิโอของเมอร์ตันด้วย) วิธีแก้ปัญหาของแบบจำลองเชิงทฤษฎีของเมอร์ตัน ซึ่งนักลงทุนเลือกระหว่างรายได้ในปัจจุบันและรายได้ในอนาคตหรือกำไรจากส่วนต่างราคา เป็นรูปแบบหนึ่งของสมการเบลล์แมน เนื่องจากการประยุกต์ใช้การเขียนโปรแกรมเชิงพลวัตในทางเศรษฐศาสตร์มักส่งผลให้สมการเบลล์แมนเป็นสมการผลต่าง นักเศรษฐศาสตร์จึงเรียกการเขียนโปรแกรมเชิงพลวัตว่า "วิธีการแบบเรียกซ้ำ" และปัจจุบัน เศรษฐศาสตร์แบบเรียกซ้ำได้ รับการยอมรับว่า เป็นสาขาย่อยในเศรษฐศาสตร์

แนนซี สโตคีย์ , โรเบิร์ต อี. ลูคัสและเอ็ดเวิร์ด เพรสคอตต์อธิบายการเขียนโปรแกรมเชิงพลวัตแบบสุ่มและไม่สุ่มโดยละเอียด และพัฒนาทฤษฎีบทสำหรับการมีอยู่ของคำตอบสำหรับปัญหาที่ตรงตามเงื่อนไขบางประการ พวกเขายังอธิบายตัวอย่างมากมายของการสร้างแบบจำลองปัญหาเชิงทฤษฎีในเศรษฐศาสตร์โดยใช้วิธีการแบบเรียกซ้ำ^{[ 23 ]}หนังสือเล่มนี้นำไปสู่การใช้การเขียนโปรแกรมเชิงพลวัตเพื่อแก้ปัญหาเชิงทฤษฎีที่หลากหลายในเศรษฐศาสตร์ รวมถึงการเติบโตทางเศรษฐกิจที่ เหมาะสม การสกัดทรัพยากรปัญหาตัวแทนหลัก การเงินสาธารณะ การลงทุนทางธุรกิจการกำหนดราคา สินทรัพย์ อุปทานปัจจัยและการจัดระเบียบอุตสาหกรรม ลาร์ส ลุงควิสต์และโทมัส ซาร์เจนท์ใช้การเขียนโปรแกรมเชิงพลวัตเพื่อศึกษาคำถามเชิงทฤษฎีที่หลากหลายในนโยบายการเงินนโยบายการคลังการเก็บภาษีการเติบโตทางเศรษฐกิจ ทฤษฎี การค้นหาและเศรษฐศาสตร์แรงงาน^{[ 24 ]}อาวินาช ดิกซิทและโรเบิร์ต พินดิคแสดงให้เห็นถึงคุณค่าของวิธีการนี้สำหรับการคิดเกี่ยวกับการจัดทำงบประมาณทุน^{[ 25 ]} แอนเดอร์ สันปรับเทคนิคนี้ให้เข้ากับการประเมินมูลค่าธุรกิจ รวมถึงธุรกิจเอกชน^{[ 26 ]}

การใช้การเขียนโปรแกรมแบบไดนามิกเพื่อแก้ปัญหาเฉพาะเจาะจงนั้นมีความซับซ้อนเนื่องจากปัญหาด้านข้อมูล เช่น การเลือกอัตราส่วนลดที่ไม่สามารถสังเกตได้ นอกจากนี้ยังมีปัญหาด้านการคำนวณ โดยปัญหาหลักคือคำสาปแห่งมิติที่เกิดจากจำนวนการกระทำที่เป็นไปได้และตัวแปรสถานะที่มีศักยภาพจำนวนมากที่ต้องพิจารณาก่อนที่จะสามารถเลือกกลยุทธ์ที่เหมาะสมที่สุดได้ สำหรับการอภิปรายอย่างละเอียดเกี่ยวกับปัญหาด้านการคำนวณ โปรดดู Miranda และ Fackler ^{[ 27 ]}และ Meyn 2007 ^{[ 28 ]}

ตัวอย่าง

ในกระบวนการตัดสินใจแบบมาร์คอฟสมการเบลล์แมนคือความสัมพันธ์เวียนเกิดสำหรับรางวัลที่คาดหวัง ตัวอย่างเช่น รางวัลที่คาดหวังสำหรับการอยู่ในสถานะs เฉพาะเจาะจง และปฏิบัติตามนโยบายที่กำหนดไว้จะมีสมการเบลล์แมนดังนี้: $\pi$

V^{\pi }(s)=R(s,\pi (s))+\gamma \sum _{s'}P(s'|s,\pi (s))V^{\pi }(s').\

สมการนี้อธิบายถึงผลตอบแทนที่คาดว่าจะได้รับจากการกระทำตามนโยบายที่กำหนดไว้ $\pi$

สมการสำหรับนโยบายที่เหมาะสมที่สุดเรียกว่าสมการความเหมาะสมของเบลล์แมน (Bellman optimality equation ):

V^{\pi *}(s)=\max _{a}\left\{{R(s,a)+\gamma \sum _{s'}P(s'|s,a)V^{\pi *}(s')}\right\}.\

โดยที่คือนโยบายที่เหมาะสมที่สุด และหมายถึงฟังก์ชันค่าของนโยบายที่เหมาะสมที่สุด สมการข้างต้นอธิบายถึงรางวัลสำหรับการกระทำที่ให้ผลตอบแทนที่คาดหวังสูงสุด ${\pi *}$ $V^{\pi *}$

ดูเพิ่มเติม

วิธีสเปกตรัมเทียมของเบลล์แมน
การเขียนโปรแกรมเชิงพลวัต – วิธีการเพิ่มประสิทธิภาพของปัญหา
สมการแฮมิลตัน-จาโคบี-เบลล์แมน – เงื่อนไขความเหมาะสมในทฤษฎีการควบคุมที่เหมาะสม
กระบวนการตัดสินใจแบบมาร์คอฟ – แบบจำลองทางคณิตศาสตร์สำหรับการตัดสินใจตามลำดับภายใต้ความไม่แน่นอน
ทฤษฎีการควบคุมที่เหมาะสมที่สุด – วิธีทางคณิตศาสตร์ในการบรรลุผลลัพธ์ที่ต้องการจากระบบพลวัต
โครงสร้างย่อยที่เหมาะสมที่สุด – คุณสมบัติของปัญหาการคำนวณ
สมดุลการแข่งขันแบบเรียกซ้ำ
การเขียนโปรแกรมเชิงพลวัตแบบสุ่ม – เทคนิคปี 1957 สำหรับการสร้างแบบจำลองปัญหาการตัดสินใจภายใต้ความไม่แน่นอน

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[

[

[

[

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

21 ] มา

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

สมการเบลล์แมน

แนวคิดเชิงวิเคราะห์ในการเขียนโปรแกรมเชิงพลวัต

อนุพันธ์

ปัญหาการตัดสินใจแบบไดนามิก

หลักการหาค่าเหมาะสมที่สุดของเบลล์แมน

สมการเบลล์แมน

ในปัญหาเชิงสุ่ม

วิธีการแก้ปัญหา

การประยุกต์ใช้ในเศรษฐศาสตร์

ตัวอย่าง

ดูเพิ่มเติม

ข้อมูลสำคัญจากบทความ