กลับไปหน้าบทความ

อ่าน 10 นาที

สมการเบลล์แมน

สมการเบลล์แมนซึ่งตั้งชื่อตามริชาร์ด อี. เบลล์แมนเป็นเทคนิคในการเขียนโปรแกรมเชิงพลวัตที่แบ่ง ปัญหา การหาค่าเหมาะสมที่สุดออกเป็นลำดับของปัญหาย่อยที่ง่ายกว่า ตามที่...

สมการเบลล์แมน

แผนผังการไหลของเบลล์แมน

สมการเบลล์แมนซึ่งตั้งชื่อตามริชาร์ด อี. เบลล์แมนเป็นเทคนิคในการเขียนโปรแกรมเชิงพลวัตที่แบ่ง ปัญหา การหาค่าเหมาะสมที่สุดออกเป็นลำดับของปัญหาย่อยที่ง่ายกว่า ตามที่ "หลักการหาค่าเหมาะสมที่สุด" ของเบลล์แมนกำหนดไว้[ 1 ]ถือเป็นเงื่อนไขที่จำเป็นสำหรับการหาค่าเหมาะสม ที่สุด [ 2 ] "ค่า" ของปัญหาการตัดสินใจ ณ จุดเวลาหนึ่งๆ จะถูกเขียนในรูปของผลตอบแทนจากการเลือกเริ่มต้นบางอย่าง และ "ค่า" ของปัญหาการตัดสินใจที่เหลืออยู่ซึ่งเป็นผลมาจากการเลือกเริ่มต้นเหล่านั้น[ 3 ]สมการนี้ใช้ได้กับโครงสร้างพีชคณิตที่มีลำดับสมบูรณ์ สำหรับโครงสร้างพีชคณิตที่มีลำดับบางส่วน สามารถใช้สมการเบลล์แมนทั่วไปได้[ 4 ]

สมการเบลล์แมนถูกนำไปใช้ครั้งแรกในทฤษฎีการควบคุม ทางวิศวกรรม และหัวข้ออื่นๆ ในคณิตศาสตร์ประยุกต์ และต่อมากลายเป็นเครื่องมือสำคัญในทฤษฎีเศรษฐศาสตร์แม้ว่าแนวคิดพื้นฐานของการเขียนโปรแกรมแบบไดนามิกจะถูกกล่าวถึงไว้ล่วงหน้าในทฤษฎีเกมและพฤติกรรมทางเศรษฐกิจของจอห์น ฟอน นอยมันน์และออสการ์ มอร์เก น ส เติร์น และการวิเคราะห์ลำดับของอับราฮัม วอลด์[ 5 ]คำว่า "สมการเบลล์แมน" มักหมายถึงสมการการเขียนโปรแกรมแบบไดนามิก (DPE) ที่เกี่ยวข้องกับปัญหาการเพิ่มประสิทธิภาพแบบเวลาไม่ต่อเนื่อง[ 6 ]ในปัญหาการเพิ่มประสิทธิภาพแบบเวลาต่อเนื่อง สมการที่คล้ายคลึงกันคือสมการเชิงอนุพันธ์ย่อยที่เรียกว่า สมการแฮมิล ตัน-จาโคบี-เบลล์แมน[ 7 ] [ 8 ]

ในเวลาแบบไม่ต่อเนื่อง ปัญหาการเพิ่มประสิทธิภาพหลายขั้นตอนใดๆ ก็สามารถแก้ไขได้โดยการวิเคราะห์สมการเบลล์แมนที่เหมาะสม สมการเบลล์แมนที่เหมาะสมสามารถพบได้โดยการแนะนำตัวแปรสถานะใหม่ (การเพิ่มสถานะ) [ 9 ]อย่างไรก็ตาม ปัญหาการเพิ่มประสิทธิภาพหลายขั้นตอนที่มีสถานะเพิ่มขึ้นจะมีปริภูมิสถานะที่มีมิติสูงกว่าปัญหาการเพิ่มประสิทธิภาพหลายขั้นตอนดั้งเดิม ซึ่งเป็นปัญหาที่อาจทำให้ปัญหาที่เพิ่มขึ้นนั้นไม่สามารถแก้ไขได้เนื่องจาก " คำสาปแห่งมิติ " ในทางกลับกัน ได้มีการแสดงให้เห็นว่าหากฟังก์ชันต้นทุนของปัญหาการเพิ่มประสิทธิภาพหลายขั้นตอนเป็นไปตามโครงสร้าง "แยกย้อนกลับได้" แล้ว สมการเบลล์แมนที่เหมาะสมสามารถพบได้โดยไม่ต้องเพิ่มสถานะ[ 10 ]

แนวคิดเชิงวิเคราะห์ในการเขียนโปรแกรมเชิงพลวัต

เพื่อให้เข้าใจสมการของเบลล์แมน จำเป็นต้องแนะนำแนวคิดพื้นฐานหลายประการก่อน ประการแรก ปัญหาการหาค่าเหมาะสมที่สุดใดๆ ก็ตามย่อมมีจุดประสงค์บางอย่าง เช่น การลดเวลาเดินทาง การลดต้นทุน การเพิ่มผลกำไร การเพิ่มอรรถประโยชน์ เป็นต้น ฟังก์ชันทางคณิตศาสตร์ที่อธิบายจุดประสงค์นี้เรียกว่าฟังก์ชันวัตถุประสงค์[ 11 ]

การเขียนโปรแกรมแบบไดนามิกจะแบ่งปัญหาการวางแผนหลายช่วงเวลาออกเป็นขั้นตอนที่ง่ายขึ้น ณ จุดเวลาต่างๆ ดังนั้นจึงจำเป็นต้องติดตามว่าสถานการณ์การตัดสินใจมีการเปลี่ยนแปลงอย่างไรเมื่อเวลาผ่านไป ข้อมูลเกี่ยวกับสถานการณ์ปัจจุบันที่จำเป็นต่อการตัดสินใจที่ถูกต้องเรียกว่า "สถานะ" [ 12 ] [ 13 ]ตัวอย่างเช่น ในการตัดสินใจว่าจะบริโภคและใช้จ่ายเท่าใดในแต่ละจุดเวลา ผู้คนจำเป็นต้องทราบ (ในบรรดาสิ่งอื่นๆ) ความมั่งคั่งเริ่มต้นของตน ดังนั้นความมั่งคั่งจึงเป็นหนึ่งในตัวแปรสถานะ ของพวกเขา แต่ก็อาจจะมีตัวแปรอื่นๆ อีกด้วย

ตัวแปรที่เลือก ณ จุดใดจุดหนึ่งในเวลา มักเรียกว่าตัวแปรควบคุมตัวอย่างเช่น เมื่อพิจารณาจากความมั่งคั่งในปัจจุบัน ผู้คนอาจตัดสินใจว่าจะบริโภคมากน้อยเพียงใดในตอนนี้ การเลือกตัวแปรควบคุมในตอนนี้อาจเทียบเท่ากับการเลือกสถานะต่อไป โดยทั่วไปแล้ว สถานะต่อไปจะได้รับผลกระทบจากปัจจัยอื่นๆ นอกเหนือจากตัวแปรควบคุมในปัจจุบัน ตัวอย่างเช่น ในกรณีที่ง่ายที่สุด ความมั่งคั่งในปัจจุบัน (สถานะ) และการบริโภค (ตัวแปรควบคุม) อาจกำหนดความมั่งคั่งในอนาคต (สถานะใหม่) ได้อย่างแม่นยำ แม้ว่าโดยปกติแล้วปัจจัยอื่นๆ ก็จะส่งผลต่อความมั่งคั่งในอนาคตด้วยเช่นกัน

แนวทางการเขียนโปรแกรมแบบไดนามิกอธิบายแผนที่เหมาะสมที่สุดโดยการค้นหากฎที่บอกว่าการควบคุมควรเป็นอย่างไร โดยพิจารณาจากค่าที่เป็นไปได้ของสถานะ ตัวอย่างเช่น หากการบริโภค ( c ) ขึ้นอยู่กับความมั่งคั่ง ( W ) เท่านั้นเราจะแสวงหากฎ ที่ให้การบริโภคเป็นฟังก์ชันของความมั่งคั่ง กฎดังกล่าวซึ่งกำหนดการควบคุมเป็นฟังก์ชันของสถานะ เรียกว่าฟังก์ชันนโยบาย[ 14 ] [ 12 ]

สุดท้ายนี้ ตามคำจำกัดความ กฎการตัดสินใจที่เหมาะสมที่สุดคือกฎที่ทำให้ได้ค่าที่ดีที่สุดเท่าที่จะเป็นไปได้ของเป้าหมาย ตัวอย่างเช่น หากบุคคลหนึ่งเลือกการบริโภค โดยพิจารณาจากความมั่งคั่ง เพื่อให้ได้ความสุขสูงสุด (โดยสมมติว่าความสุขHสามารถแสดงได้ด้วยฟังก์ชันทางคณิตศาสตร์ เช่น ฟังก์ชัน อรรถประโยชน์และเป็นสิ่งที่กำหนดโดยความมั่งคั่ง) แล้วแต่ละระดับความมั่งคั่งจะสัมพันธ์กับระดับความสุขสูงสุดที่เป็นไปได้ค่าที่ดีที่สุดเท่าที่จะเป็นไปได้ของเป้าหมาย ซึ่งเขียนเป็นฟังก์ชันของสถานะ เรียกว่าฟังก์ชัน คุณค่า

เบลล์แมนแสดงให้เห็นว่า ปัญหา การหาค่าเหมาะสม ที่สุดแบบไดนามิก ในเวลาไม่ต่อเนื่องสามารถระบุได้ใน รูปแบบ เวียนเกิดทีละขั้นตอนที่เรียกว่าการเหนี่ยวนำย้อนกลับโดยการเขียนความสัมพันธ์ระหว่างฟังก์ชันค่าในหนึ่งช่วงเวลาและฟังก์ชันค่าในอีกหนึ่งช่วงเวลา ความสัมพันธ์ระหว่างฟังก์ชันค่าทั้งสองนี้เรียกว่า "สมการเบลล์แมน" ในแนวทางนี้ นโยบายที่เหมาะสมที่สุดในรอบเวลาสุดท้ายจะถูกกำหนดไว้ล่วงหน้าเป็นฟังก์ชันของค่าตัวแปรสถานะในเวลานั้น และค่าที่เหมาะสมที่สุดของฟังก์ชันเป้าหมายที่ได้จึงแสดงออกมาในรูปของค่าตัวแปรสถานะนั้น ต่อมา การหาค่าเหมาะสมที่สุดในรอบเวลาก่อนสุดท้ายเกี่ยวข้องกับการเพิ่มค่าสูงสุดของผลรวมของฟังก์ชันเป้าหมายเฉพาะช่วงเวลานั้นและค่าที่เหมาะสมที่สุดของฟังก์ชันเป้าหมายในอนาคต ซึ่งจะทำให้นโยบายที่เหมาะสมที่สุดในรอบนั้นขึ้นอยู่กับค่าของตัวแปรสถานะ ณ การตัดสินใจในรอบเวลาก่อนสุดท้าย ตรรกะนี้ดำเนินต่อไปแบบวนซ้ำย้อนกลับไปในอดีต จนกระทั่งได้กฎการตัดสินใจของช่วงเวลาแรก ซึ่งเป็นฟังก์ชันของค่าตัวแปรสถานะเริ่มต้น โดยการหาค่าที่เหมาะสมที่สุดของผลรวมของฟังก์ชันเป้าหมายเฉพาะช่วงเวลาแรกและค่าของฟังก์ชันมูลค่าของช่วงเวลาที่สอง ซึ่งจะให้ค่าสำหรับทุกช่วงเวลาในอนาคต ดังนั้น การตัดสินใจในแต่ละช่วงเวลาจึงเกิดขึ้นโดยการยอมรับอย่างชัดเจนว่าการตัดสินใจในอนาคตทั้งหมดจะทำได้อย่างเหมาะสมที่สุด

อนุพันธ์

ปัญหาการตัดสินใจแบบไดนามิก

ให้เป็นสถานะ ณ เวลาt สำหรับการตัดสินใจที่เริ่มต้น ณ เวลา 0 เราจะถือว่าสถานะเริ่มต้น เป็นค่าที่กำหนด ไว้แล้ว ในทุกช่วงเวลา เซตของการกระทำที่เป็นไปได้จะขึ้นอยู่กับสถานะปัจจุบัน เราแสดงสิ่งนี้เป็น โดยที่การกระทำเฉพาะเจาะจงแทนค่าเฉพาะสำหรับตัวแปรควบคุมหนึ่งตัวหรือมากกว่า และคือเซตของการกระทำที่สามารถทำได้ ณ สถานะนอกจากนี้ยังถือว่าสถานะเปลี่ยนจากไปเป็นสถานะใหม่เมื่อมีการกระทำ และผลตอบแทนปัจจุบันจากการกระทำในสถานะคือสุดท้าย เราถือว่ามีความใจร้อน ซึ่งแสดงด้วยปัจจัย ส่วนลด

ภายใต้สมมติฐานเหล่านี้ ปัญหาการตัดสินใจในระยะเวลาอันไม่มีที่สิ้นสุดจะมีรูปแบบดังต่อไปนี้:

ภายใต้ข้อจำกัด

โปรดสังเกตว่าเราได้กำหนดสัญลักษณ์เพื่อแสดงค่าที่ดีที่สุดที่สามารถได้รับจากการเพิ่มค่าฟังก์ชันเป้าหมายนี้ให้สูงสุดภายใต้ข้อจำกัดที่กำหนดไว้ ฟังก์ชันนี้คือฟังก์ชันค่าซึ่งเป็นฟังก์ชันของตัวแปรสถานะเริ่มต้นเนื่องจากค่าที่ดีที่สุดที่ได้รับนั้นขึ้นอยู่กับสถานการณ์เริ่มต้น

หลักการหาค่าเหมาะสมที่สุดของเบลล์แมน

วิธีการเขียนโปรแกรมเชิงพลวัตจะแบ่งปัญหาการตัดสินใจนี้ออกเป็นปัญหาย่อยที่เล็กกว่าหลักการหาค่าเหมาะสมที่สุด ของเบลล์แมน อธิบายวิธีการทำเช่นนั้น:

หลักการของความเหมาะสมที่สุด: นโยบายที่เหมาะสมที่สุดมีคุณสมบัติที่ว่าไม่ว่าสถานะเริ่มต้นและการตัดสินใจเริ่มต้นจะเป็นอย่างไร การตัดสินใจที่เหลือจะต้องประกอบเป็นนโยบายที่เหมาะสมที่สุดเกี่ยวกับสถานะที่เกิดจากการตัดสินใจครั้งแรก (ดู Bellman, 1957, บทที่ III.3) [ 12 ] [ 13 ] [ 15 ]

ในวิทยาการคอมพิวเตอร์ ปัญหาที่สามารถแบ่งย่อยได้เช่นนี้เรียกว่ามีโครงสร้างย่อยที่เหมาะสมที่สุดในบริบทของทฤษฎีเกม แบบไดนามิก หลักการนี้คล้ายคลึงกับแนวคิดของสมดุลที่สมบูรณ์แบบในเกมย่อยแม้ว่าสิ่งที่ถือว่าเป็นนโยบายที่เหมาะสมที่สุดในกรณีนี้จะขึ้นอยู่กับว่าฝ่ายตรงข้ามของผู้ตัดสินใจเลือกนโยบายที่เหมาะสมที่สุดในทำนองเดียวกันจากมุมมองของพวกเขาหรือไม่

ตามที่หลักการหาค่าที่เหมาะสมที่สุด ได้แนะนำไว้ เราจะพิจารณาการตัดสินใจครั้งแรกแยกต่างหาก โดยละเว้นการตัดสินใจในอนาคตทั้งหมด (เราจะเริ่มต้นใหม่ตั้งแต่เวลา 1 ด้วยสถานะใหม่) เมื่อรวบรวมการตัดสินใจในอนาคตไว้ในวงเล็บทางด้านขวา ปัญหาการตัดสินใจในระยะเวลาอันไม่มีที่สิ้นสุดข้างต้นจึงเทียบเท่ากับ:

ภายใต้ข้อจำกัด

ในที่นี้เรากำลังเลือกโดยรู้ว่าการเลือกของเราจะทำให้สถานะ ณ เวลา 1 เปลี่ยนไปเป็นสถานะใหม่นั้นจะส่งผลต่อปัญหาการตัดสินใจตั้งแต่เวลา 1 เป็นต้นไป ปัญหาการตัดสินใจในอนาคตทั้งหมดปรากฏอยู่ภายในวงเล็บเหลี่ยมทางด้านขวา

สมการเบลล์แมน

ดูเหมือนว่าจนถึงตอนนี้เรายิ่งทำให้ปัญหายุ่งยากขึ้นไปอีกด้วยการแยกการตัดสินใจในวันนี้ออกจากการตัดสินใจในอนาคต แต่เราสามารถทำให้ง่ายขึ้นได้โดยสังเกตว่าสิ่งที่อยู่ภายในวงเล็บเหลี่ยมทางด้านขวาคือค่าของปัญหาการตัดสินใจ ณ เวลา 1 โดยเริ่มต้นจากสถานะ.

ดังนั้น ปัญหาจึงสามารถเขียนใหม่ได้ในรูป นิยามแบบ เรียกซ้ำของฟังก์ชันค่า:

โดยอยู่ภายใต้ข้อจำกัดดังต่อไปนี้:

นี่คือสมการของเบลล์แมน สามารถทำให้ง่ายขึ้นได้อีกหากตัดตัวเลขดัชนีเวลาออกและแทนค่าสถานะถัดไปลงไป:

สมการเบลล์แมนจัดเป็นสมการเชิงฟังก์ชันเพราะการแก้สมการนี้หมายถึงการหาฟังก์ชันที่ไม่ทราบค่าซึ่งก็คือฟังก์ชันค่าโปรดจำไว้ว่าฟังก์ชันค่าอธิบายค่าที่ดีที่สุดที่เป็นไปได้ของเป้าหมาย โดยเป็นฟังก์ชันของสถานะโดยการคำนวณฟังก์ชันค่า เราจะพบฟังก์ชันที่อธิบายการกระทำที่เหมาะสมที่สุดโดยเป็นฟังก์ชันของสถานะด้วย ซึ่งเรียกว่าฟังก์ชัน นโยบาย

ในปัญหาเชิงสุ่ม

ในบริบทแบบกำหนดได้ นอกจากวิธีการเขียนโปรแกรมเชิงพลวัตแล้ว ยังสามารถใช้เทคนิคอื่นๆ ในการแก้ ปัญหา การควบคุมที่เหมาะสมที่สุด ข้างต้น ได้ อย่างไรก็ตาม สมการเบลล์แมนมักเป็นวิธีที่สะดวกที่สุดในการแก้ปัญหาการควบคุมที่เหมาะสมที่สุด แบบสุ่ม

สำหรับตัวอย่างเฉพาะจากเศรษฐศาสตร์ ลองพิจารณาผู้บริโภคที่มีอายุยืนยาวไม่จำกัด โดยมีทรัพย์สินเริ่มต้นณ ช่วงเวลาพวกเขามีฟังก์ชันอรรถประโยชน์ ทันที โดยที่แทนการบริโภค และคิดลดอรรถประโยชน์ในงวดถัดไปด้วยอัตราสมมติว่าสิ่งที่ไม่ได้บริโภคในช่วงเวลาจะถูกยกยอดไปยังงวดถัดไปด้วยอัตราดอกเบี้ยดังนั้นปัญหาการเพิ่มอรรถประโยชน์สูงสุดของผู้บริโภคคือการเลือกแผนการบริโภคที่แก้ปัญหา ได้

ขึ้นอยู่กับ

และ

ข้อจำกัดแรกคือการสะสมทุน/กฎการเคลื่อนที่ที่ระบุไว้ในโจทย์ ในขณะที่ข้อจำกัดที่สองคือเงื่อนไขความเท่าเทียมกันที่ผู้บริโภคจะต้องไม่มีหนี้สินเมื่อสิ้นสุดชีวิต สมการของเบลล์แมนคือ

อีกทางเลือกหนึ่งคือ เราสามารถแก้ปัญหาลำดับโดยตรงได้โดยใช้สมการแฮมิลโทเนียนเป็นต้น

ทีนี้ ถ้าอัตราดอกเบี้ยเปลี่ยนแปลงไปในแต่ละช่วงเวลา ผู้บริโภคจะต้องเผชิญกับปัญหาการหาค่าเหมาะสมที่สุดแบบสุ่ม สมมติว่าอัตราดอกเบี้ยrเป็นไปตามกระบวนการมาร์คอฟ (Markov process)โดยมีฟังก์ชันการเปลี่ยนสถานะความน่าจะเป็นโดยที่แสดงถึงมาตรวัดความน่าจะเป็นที่ควบคุมการกระจายของอัตราดอกเบี้ยในงวดถัดไป หากอัตราดอกเบี้ยปัจจุบันคือในแบบจำลองนี้ ผู้บริโภคจะตัดสินใจเกี่ยวกับการบริโภคในงวดปัจจุบันหลังจากที่อัตราดอกเบี้ยในงวดปัจจุบันได้รับการประกาศแล้ว

แทนที่จะเลือกเพียงลำดับเดียวผู้บริโภคจะต้องเลือกลำดับสำหรับแต่ละความเป็นไปได้ของค่า a ในลักษณะที่ทำให้ประโยชน์ที่คาดหวังตลอดช่วงชีวิตของพวกเขามีค่าสูงสุด:

ค่าเฉลี่ยจะคำนวณโดยอ้างอิงจากมาตรวัดความน่าจะเป็นที่เหมาะสมซึ่งกำหนดโดยQบนลำดับของr เนื่องจาก r ถูกควบคุมโดยกระบวนการมาร์คอฟ การเขียนโปรแกรมเชิงพลวัตจึงช่วยลดความซับซ้อนของปัญหาได้อย่างมาก จากนั้นสมการของเบลล์แมนจึงมีดังนี้:

ภายใต้สมมติฐานที่สมเหตุสมผลบางประการ ฟังก์ชันนโยบายที่เหมาะสมที่สุดg ( a , r ) ที่ได้นั้นสามารถวัดได้

สำหรับปัญหาการหาค่าเหมาะสมที่สุดแบบลำดับเชิงสุ่มทั่วไปที่มีการกระแทกแบบมาร์โคเวียน และตัวแทนต้องเผชิญกับการตัดสินใจภายหลังสมการของเบลล์แมนจะมีรูปแบบที่คล้ายคลึงกันมาก

วิธีการแก้ปัญหา

  • วิธีสัมประสิทธิ์ที่ไม่ทราบค่าหรือที่รู้จักกันในชื่อ 'เดาและตรวจสอบ' สามารถใช้เพื่อแก้สมการเบลล์แมนแบบอิสระ ที่มีขอบเขตอนันต์ได้ [ 16 ]
  • สมการเบลล์แมนสามารถแก้ไขได้โดยการเหนี่ยวนำย้อนกลับไม่ว่าจะโดยการวิเคราะห์ในบางกรณีพิเศษ หรือโดยเชิงตัวเลขบนคอมพิวเตอร์ การเหนี่ยวนำย้อนกลับเชิงตัวเลขสามารถนำไปใช้กับปัญหาได้หลากหลาย แต่อาจทำไม่ได้เมื่อมีตัวแปรสถานะจำนวนมาก เนื่องจากคำสาปของมิติDP BertsekasและJN Tsitsiklisได้นำเสนอการเขียนโปรแกรมไดนามิกโดยประมาณโดยใช้เครือข่ายประสาทเทียม ( เพอร์เซปตรอนหลายชั้น ) เพื่อประมาณฟังก์ชันเบลล์แมน[ 17 ]นี่เป็นกลยุทธ์การบรรเทาที่มีประสิทธิภาพในการลดผลกระทบของมิติโดยการแทนที่การจดจำการแมปฟังก์ชันที่สมบูรณ์สำหรับโดเมนพื้นที่ทั้งหมดด้วยการจดจำพารามิเตอร์เครือข่ายประสาทเพียงอย่างเดียว โดยเฉพาะอย่างยิ่งสำหรับระบบเวลาต่อเนื่อง ได้มีการนำเสนอวิธีการเขียนโปรแกรมไดนามิกโดยประมาณที่รวมการวนซ้ำนโยบายกับเครือข่ายประสาทเข้าด้วยกัน[ 18 ]ในเวลาไม่ต่อเนื่อง ได้มีการนำเสนอแนวทางในการแก้สมการ HJB โดยการรวมการวนซ้ำค่าและเครือข่ายประสาท[ 19 ]
  • โดยการคำนวณเงื่อนไขอันดับแรกที่เกี่ยวข้องกับสมการเบลล์แมน จากนั้นใช้ทฤษฎีซองจดหมายเพื่อกำจัดอนุพันธ์ของฟังก์ชันค่า ก็สามารถได้ระบบสมการผลต่างหรือสมการเชิงอนุพันธ์ที่เรียกว่า ' สมการออยเลอร์ ' [ 20 ]จากนั้นสามารถใช้เทคนิคมาตรฐานสำหรับการแก้สมการผลต่างหรือสมการเชิงอนุพันธ์เพื่อคำนวณพลวัตของตัวแปรสถานะและตัวแปรควบคุมของปัญหาการเพิ่มประสิทธิภาพได้

การประยุกต์ใช้ในเศรษฐศาสตร์

การประยุกต์ใช้ สมการเบลล์แมนในทางเศรษฐศาสตร์ครั้งแรกที่เป็นที่รู้จักนั้นมาจากมาร์ติน เบ็คแมนน์และริชาร์ด มูธ [ 21 ] มาร์ติน เบ็คแมนน์ยังเขียนเกี่ยวกับทฤษฎีการบริโภคโดยใช้สมการเบลล์แมนอย่างกว้างขวางในปี พ.ศ. 2502 ผลงานของเขามีอิทธิพลต่อเอ็ดมันด์ เอส. เฟลป์สและคนอื่นๆ

การประยุกต์ใช้สมการเบลล์แมนในทางเศรษฐศาสตร์ที่ได้รับการยกย่องคือบทความสำคัญของโรเบิร์ต ซี. เมอร์ตัน ในปี 1973 เกี่ยวกับ แบบจำลองการกำหนดราคาสินทรัพย์ทุนระหว่างช่วงเวลา[ 22 ] (ดู ปัญหาพอร์ตโฟลิโอของเมอร์ตันด้วย) วิธีแก้ปัญหาของแบบจำลองเชิงทฤษฎีของเมอร์ตัน ซึ่งนักลงทุนเลือกระหว่างรายได้ในปัจจุบันและรายได้ในอนาคตหรือกำไรจากส่วนต่างราคา เป็นรูปแบบหนึ่งของสมการเบลล์แมน เนื่องจากการประยุกต์ใช้การเขียนโปรแกรมเชิงพลวัตในทางเศรษฐศาสตร์มักส่งผลให้สมการเบลล์แมนเป็นสมการผลต่าง นักเศรษฐศาสตร์จึงเรียกการเขียนโปรแกรมเชิงพลวัตว่า "วิธีการแบบเรียกซ้ำ" และปัจจุบัน เศรษฐศาสตร์แบบเรียกซ้ำได้ รับการยอมรับว่า เป็นสาขาย่อยในเศรษฐศาสตร์

แนนซี สโตคีย์ , โรเบิร์ต อี. ลูคัสและเอ็ดเวิร์ด เพรสคอตต์อธิบายการเขียนโปรแกรมเชิงพลวัตแบบสุ่มและไม่สุ่มโดยละเอียด และพัฒนาทฤษฎีบทสำหรับการมีอยู่ของคำตอบสำหรับปัญหาที่ตรงตามเงื่อนไขบางประการ พวกเขายังอธิบายตัวอย่างมากมายของการสร้างแบบจำลองปัญหาเชิงทฤษฎีในเศรษฐศาสตร์โดยใช้วิธีการแบบเรียกซ้ำ[ 23 ]หนังสือเล่มนี้นำไปสู่การใช้การเขียนโปรแกรมเชิงพลวัตเพื่อแก้ปัญหาเชิงทฤษฎีที่หลากหลายในเศรษฐศาสตร์ รวมถึงการเติบโตทางเศรษฐกิจที่ เหมาะสม การสกัดทรัพยากรปัญหาตัวแทนหลักการเงินสาธารณะการลงทุนทางธุรกิจการกำหนดราคา สินทรัพย์ อุปทานปัจจัยและการจัดระเบียบอุตสาหกรรมลาร์ส ลุงควิสต์และโทมัส ซาร์เจนท์ใช้การเขียนโปรแกรมเชิงพลวัตเพื่อศึกษาคำถามเชิงทฤษฎีที่หลากหลายในนโยบายการเงินนโยบายการคลังการเก็บภาษีการเติบโตทางเศรษฐกิจ ทฤษฎี การค้นหาและเศรษฐศาสตร์แรงงาน[ 24 ]อาวินาช ดิกซิทและโรเบิร์ต พินดิคแสดงให้เห็นถึงคุณค่าของวิธีการนี้สำหรับการคิดเกี่ยวกับการจัดทำงบประมาณทุน[ 25 ] แอนเดอร์ สันปรับเทคนิคนี้ให้เข้ากับการประเมินมูลค่าธุรกิจ รวมถึงธุรกิจเอกชน[ 26 ]

การใช้การเขียนโปรแกรมแบบไดนามิกเพื่อแก้ปัญหาเฉพาะเจาะจงนั้นมีความซับซ้อนเนื่องจากปัญหาด้านข้อมูล เช่น การเลือกอัตราส่วนลดที่ไม่สามารถสังเกตได้ นอกจากนี้ยังมีปัญหาด้านการคำนวณ โดยปัญหาหลักคือคำสาปแห่งมิติที่เกิดจากจำนวนการกระทำที่เป็นไปได้และตัวแปรสถานะที่มีศักยภาพจำนวนมากที่ต้องพิจารณาก่อนที่จะสามารถเลือกกลยุทธ์ที่เหมาะสมที่สุดได้ สำหรับการอภิปรายอย่างละเอียดเกี่ยวกับปัญหาด้านการคำนวณ โปรดดู Miranda และ Fackler [ 27 ]และ Meyn 2007 [ 28 ]

ตัวอย่าง

ในกระบวนการตัดสินใจแบบมาร์คอฟสมการเบลล์แมนคือความสัมพันธ์เวียนเกิดสำหรับรางวัลที่คาดหวัง ตัวอย่างเช่น รางวัลที่คาดหวังสำหรับการอยู่ในสถานะs เฉพาะเจาะจง และปฏิบัติตามนโยบายที่กำหนดไว้จะมีสมการเบลล์แมนดังนี้:

สมการนี้อธิบายถึงผลตอบแทนที่คาดว่าจะได้รับจากการกระทำตามนโยบายที่กำหนดไว้

สมการสำหรับนโยบายที่เหมาะสมที่สุดเรียกว่าสมการความเหมาะสมของเบลล์แมน (Bellman optimality equation ):

โดยที่คือนโยบายที่เหมาะสมที่สุด และหมายถึงฟังก์ชันค่าของนโยบายที่เหมาะสมที่สุด สมการข้างต้นอธิบายถึงรางวัลสำหรับการกระทำที่ให้ผลตอบแทนที่คาดหวังสูงสุด

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Bellman_equation&oldid=1349059105#Bellman's_principle_of_optimality "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ สมการเบลล์แมน

สมการเบลล์แมนซึ่งตั้งชื่อตามริชาร์ด อี. เบลล์แมนเป็นเทคนิคในการเขียนโปรแกรมเชิงพลวัตที่แบ่ง ปัญหา การหาค่าเหมาะสมที่สุดออกเป็นลำดับของปัญหาย่อยที่ง่ายกว่า ตามที่...

แนวคิดเชิงวิเคราะห์ในการเขียนโปรแกรมเชิงพลวัต

เพื่อให้เข้าใจสมการของเบลล์แมน จำเป็นต้องแนะนำแนวคิดพื้นฐานหลายประการก่อน ประการแรก ปัญหาการหาค่าเหมาะสมที่สุดใดๆ ก็ตามย่อมมีจุดประสงค์บางอย่าง เช่น การลดเวลาเดินทาง การลดต้นทุน การเพิ่มผลกำไร การเพิ่มอรรถประโยชน์ เป็นต้น...

ปัญหาการตัดสินใจแบบไดนามิก

ให้เป็นสถานะ ณ เวลาt สำหรับการตัดสินใจที่เริ่มต้น ณ เวลา 0 เราจะถือว่าสถานะเริ่มต้น เป็นค่าที่กำหนด ไว้แล้ว ในทุกช่วงเวลา เซตของการกระทำที่เป็นไปได้จะขึ้นอยู่กับสถานะปัจจุบัน เราแสดงสิ่งนี้เป็น...

หลักการหาค่าเหมาะสมที่สุดของเบลล์แมน

วิธีการเขียนโปรแกรมเชิงพลวัตจะแบ่งปัญหาการตัดสินใจนี้ออกเป็นปัญหาย่อยที่เล็กกว่า หลักการหาค่าเหมาะสมที่สุด ของเบลล์แมน อธิบายวิธีการทำเช่นนั้น: