อ่าน 8 นาที
เกมสุ่ม
ในทฤษฎีเกมเกมสุ่ม (หรือเกมมาร์คอฟ ) คือเกมที่เล่นซ้ำๆโดยมีการเปลี่ยนสถานะแบบสุ่มซึ่งผู้เล่นหนึ่งคนหรือมากกว่านั้นเล่น เกมจะเล่นเป็นลำดับในแต่ละขั้นตอน ในตอนเริ่มต้นของแต่ละขั้นตอน.
เกมสุ่ม
ในทฤษฎีเกมเกมสุ่ม (หรือเกมมาร์คอฟ ) คือเกมที่เล่นซ้ำๆโดยมีการเปลี่ยนสถานะแบบสุ่มซึ่งผู้เล่นหนึ่งคนหรือมากกว่านั้นเล่น เกมจะเล่นเป็นลำดับในแต่ละขั้นตอน ในตอนเริ่มต้นของแต่ละขั้นตอน เกมจะอยู่ในสถานะ ใดสถานะหนึ่ง ผู้เล่นจะเลือกการกระทำ และผู้เล่นแต่ละคนจะได้รับผลตอบแทนที่ขึ้นอยู่กับสถานะปัจจุบันและการกระทำที่เลือก จากนั้นเกมจะเปลี่ยนไปสู่สถานะสุ่มใหม่ ซึ่งการกระจายตัวของสถานะใหม่นั้นขึ้นอยู่กับสถานะก่อนหน้าและการกระทำที่ผู้เล่นเลือก กระบวนการนี้จะทำซ้ำในสถานะใหม่ และการเล่นจะดำเนินต่อไปเป็นจำนวนขั้นตอนที่จำกัดหรือไม่จำกัด ผลตอบแทนรวมของผู้เล่นมักจะคิดจากผลรวมที่ลดลงของผลตอบแทนในแต่ละขั้นตอน หรือค่าต่ำสุดของค่าเฉลี่ยของผลตอบแทนในแต่ละขั้นตอน
เกมสุ่มได้รับการแนะนำโดยLloyd Shapleyในช่วงต้นทศวรรษ 1950 [ 1 ] เกมเหล่านี้ขยายกระบวนการตัดสินใจของ Markovไปสู่ผู้ตัดสินใจหลายคนที่โต้ตอบกัน รวมถึงเกมรูปแบบเชิงกลยุทธ์ไปสู่สถานการณ์แบบไดนามิกที่สภาพแวดล้อมเปลี่ยนแปลงไปตามการเลือกของผู้เล่น[ 2 ]
เกมสำหรับผู้เล่นสองคน
เกมสุ่มแบบผู้เล่นสองคนบนกราฟแบบมีทิศทางถูกนำมาใช้กันอย่างแพร่หลายในการสร้างแบบจำลองและการวิเคราะห์ระบบแบบไม่ต่อเนื่องที่ทำงานในสภาพแวดล้อมที่ไม่รู้จัก (เป็นปฏิปักษ์) การกำหนดค่าที่เป็นไปได้ของระบบและสภาพแวดล้อมจะถูกแทนด้วยจุดยอด และการเปลี่ยนสถานะจะสอดคล้องกับการกระทำของระบบ สภาพแวดล้อม หรือ "ธรรมชาติ" การทำงานของระบบจึงสอดคล้องกับเส้นทางอนันต์ในกราฟ ดังนั้น ระบบและสภาพแวดล้อมจึงสามารถมองได้ว่าเป็นผู้เล่นสองคนที่มีเป้าหมายที่ขัดแย้งกัน โดยผู้เล่นคนหนึ่ง (ระบบ) มุ่งเป้าไปที่การเพิ่มความน่าจะเป็นของการทำงาน "ที่ดี" ให้สูงสุด ในขณะที่ผู้เล่นอีกคน (สภาพแวดล้อม) มุ่งเป้าไปที่สิ่งที่ตรงกันข้าม
ในหลายกรณี ค่าความน่าจะเป็นนี้จะมีค่าสมดุลอยู่ แต่กลยุทธ์ที่เหมาะสมที่สุดสำหรับผู้เล่นทั้งสองฝ่ายอาจไม่มีอยู่จริง

เราจะแนะนำแนวคิดพื้นฐานและคำถามเกี่ยวกับอัลกอริทึมที่ศึกษาในสาขานี้ และกล่าวถึงปัญหาที่ยังไม่ได้รับการแก้ไขมาอย่างยาวนาน จากนั้นเราจะกล่าวถึงผลลัพธ์ล่าสุดที่คัดเลือกมาบางส่วน
ทฤษฎี
ส่วนประกอบของเกมสุ่มมีดังนี้: ชุดผู้เล่นจำนวนจำกัด; ปริภูมิสถานะ(อาจเป็นเซตจำกัดหรือปริภูมิที่วัดได้ ); สำหรับผู้เล่นแต่ละคนชุดการกระทำ (อาจเป็นเซตจำกัดหรือปริภูมิที่วัดได้); ความน่าจะเป็นของการเปลี่ยนสถานะจากโดยที่คือชุดการกระทำ ไปยังโดยที่คือความน่าจะเป็นที่สถานะถัดไปจะเป็นเมื่อกำหนดสถานะปัจจุบันและชุดการกระทำปัจจุบัน; และฟังก์ชันผลตอบแทนจากไปยังโดยที่พิกัดที่ ของคือผลตอบแทนของผู้เล่นซึ่งเป็นฟังก์ชันของสถานะและชุดการกระทำ
เกมเริ่มต้นที่สถานะเริ่มต้นบางอย่างในแต่ละขั้นตอนผู้เล่นจะสังเกตก่อนจากนั้นเลือกการกระทำพร้อมกันจากนั้นสังเกตโปรไฟล์การกระทำและจากนั้นธรรมชาติจะเลือกตามความน่าจะเป็นการเล่นเกมสุ่มหนึ่งครั้งจะกำหนดลำดับของผลตอบแทนโดย ที่
เกมลดราคาที่มีปัจจัยส่วนลด( ) คือเกมที่ผลตอบแทนของผู้เล่นคือเกม-ขั้น คือเกมที่ผลตอบแทนของผู้เล่น คือ
ค่า ของเกมสุ่มแบบผล รวมเป็นศูนย์สำหรับผู้เล่นสองคนซึ่งมีสถานะและการกระทำจำนวนจำกัดนั้นมีอยู่จริง และ Truman BewleyและElon Kohlberg (1976) ได้พิสูจน์แล้วว่าลู่เข้าสู่ค่าจำกัดเมื่อเข้าสู่ค่าอนันต์ และลู่เข้าสู่ค่าจำกัดเดียวกันเมื่อเข้าสู่ค่าอนันต์
เกม "ไม่ลดราคา" คือเกมที่ผลตอบแทนของผู้เล่นคือ "ขีดจำกัด" ของค่าเฉลี่ยของผลตอบแทนในแต่ละขั้นตอน จำเป็นต้องมีข้อควรระวังบางประการในการกำหนดค่าของเกมผลรวมเป็นศูนย์แบบสองผู้เล่นและในการกำหนดค่าผลตอบแทนสมดุลของเกมผลรวมไม่เป็นศูนย์ค่าสม่ำเสมอของเกมสุ่มผลรวมเป็นศูนย์แบบสองผู้เล่นมีอยู่ ถ้าสำหรับทุกๆมีจำนวนเต็มบวก และคู่กลยุทธ์ของผู้เล่น 1 และผู้เล่น 2 เช่นนั้นสำหรับทุกๆและและทุกๆ ค่าคาดหวังของ เมื่อเทียบกับความน่าจะเป็นในการเล่นที่กำหนดโดยและมีค่าอย่างน้อยและค่าคาดหวังของ เมื่อเทียบกับความน่าจะเป็นในการเล่นที่กำหนดโดยและ มี ค่าอย่างมากJean-François MertensและAbraham Neyman (1981) พิสูจน์ว่าเกมสุ่มผลรวมเป็นศูนย์แบบสองผู้เล่นทุกเกมที่มีสถานะและการกระทำจำนวนจำกัดมีค่าสม่ำเสมอ[ 3 ]
การมีอยู่ของสมดุล
สมดุลแนช
ถ้าจำนวนผู้เล่นมีจำกัด และชุดการกระทำและชุดสถานะมีจำนวนจำกัด เกมสุ่มที่มีจำนวนขั้นตอนจำกัดจะมีสมดุลแนช เสมอ เช่นเดียวกันนี้ก็เป็นจริงสำหรับเกมที่มีจำนวนขั้นตอนไม่จำกัด หากผลตอบแทนรวมคือผลรวมที่คิดลดแล้ว
เกมสุ่มแบบผลรวมไม่เป็นศูนย์จะมีผลตอบแทนสมดุลสม่ำเสมอหากสำหรับทุก ๆมีจำนวนเต็มบวก และโปรไฟล์กลยุทธ์ที่สำหรับการเบี่ยงเบนฝ่ายเดียวของผู้เล่นทุก ๆ ครั้ง กล่าวคือ โปรไฟล์กลยุทธ์ ที่มีสำหรับทุก ๆและทุก ๆ ความคาดหวังของเมื่อเทียบกับความน่าจะเป็นในการเล่นที่กำหนดโดยมีค่าอย่างน้อยและความคาดหวังของเมื่อเทียบกับความน่าจะเป็นในการเล่นที่กำหนดโดย มี ค่าอย่างมากNicolas Vieilleได้แสดงให้เห็นว่าเกมสุ่มสองผู้เล่นทั้งหมดที่มีสถานะและพื้นที่การกระทำจำกัดจะมีผลตอบแทนสมดุลสม่ำเสมอ[ 4 ]
เกมสุ่มแบบผลรวมไม่เป็นศูนย์จะมีผลตอบแทนสมดุลเฉลี่ยแบบจำกัดหากสำหรับทุกๆจะมีโปรไฟล์กลยุทธ์ที่ทำให้สำหรับการเบี่ยงเบนฝ่ายเดียวของผู้เล่นแต่ละครั้งความคาดหวังของค่าต่ำสุดของค่าเฉลี่ยของผลตอบแทนในแต่ละขั้นตอนเมื่อเทียบกับความน่าจะเป็นในการเล่นที่กำหนดโดย มีค่าอย่างน้อยและความคาดหวังของค่าสูงสุดของค่าเฉลี่ยของผลตอบแทนในแต่ละขั้นตอนเมื่อเทียบกับความน่าจะเป็นในการเล่นที่กำหนดโดย มีค่า ไม่เกินJean-François MertensและAbraham Neyman (1981) พิสูจน์ว่าเกมสุ่มแบบผลรวมเป็นศูนย์สองผู้เล่นที่มีสถานะและการกระทำจำนวนจำกัดทุกเกมมีค่าเฉลี่ยแบบจำกัด[ 3 ]และNicolas Vieilleได้แสดงให้เห็นว่าเกมสุ่มแบบสองผู้เล่นทั้งหมดที่มีพื้นที่สถานะและการกระทำจำกัดมีผลตอบแทนสมดุลเฉลี่ยแบบจำกัด[ 4 ]โดยเฉพาะอย่างยิ่ง ผลลัพธ์เหล่านี้บ่งชี้ว่าเกมเหล่านี้มีค่าและผลตอบแทนสมดุลโดยประมาณ ซึ่งเรียกว่าผลตอบแทนสมดุลเฉลี่ยลิมินฟ์ (หรือผลตอบแทนสมดุลเฉลี่ยลิมินฟ์อัพ) เมื่อผลตอบแทนรวมเป็นลิมิตที่ต่ำกว่า (หรือลิมิตที่สูงกว่า) ของค่าเฉลี่ยของผลตอบแทนในแต่ละขั้นตอน
ไม่ว่าเกมสุ่มทุกเกมที่มีผู้เล่น สถานะ และการกระทำจำนวนจำกัด จะมีผลตอบแทนสมดุลที่สม่ำเสมอ หรือผลตอบแทนสมดุลเฉลี่ยแบบจำกัด หรือแม้แต่ผลตอบแทนสมดุลเฉลี่ยแบบลิมินฟ์หรือไม่นั้น ยังคงเป็นคำถามที่ท้าทายและยังไม่มีคำตอบ
โปรไฟล์ที่ยอมรับได้แบบ Minmax
โปรไฟล์กลยุทธ์เรียกว่าminmax-acceptable [ 5 ] [ 6 ]หากยูทิลิตี้ของผู้เล่นแต่ละคนมีค่าอย่างน้อยเท่ากับค่า minmax ของผู้เล่น
.
สมดุลแนชทุกแบบสามารถยอมรับได้ด้วยหลักการ minmax เนื่องจากในสมดุลแนชจะต้องมีคุณสมบัติที่เข้มงวดกว่าดังต่อไปนี้:
.
แต่สิ่งที่ตรงกันข้ามไม่จำเป็นต้องเป็นจริงเสมอไป Solan [ 5 ]และ Flesch และ Solan [ 6 ]ได้พิสูจน์ผลลัพธ์การมีอยู่ทั่วไปของโปรไฟล์ที่ยอมรับ Minmax ในเกมสุ่ม ซึ่งแตกต่างจากสมดุลแนชซึ่งโดยทั่วไปแล้วยังไม่เป็นที่ทราบแน่ชัดว่ามีอยู่จริงหรือไม่
แนวคิดสมดุลอื่นๆ
สมดุลมาร์คอฟที่สมบูรณ์แบบ (Markov perfect equilibrium)เป็นการปรับปรุงแนวคิดของสมดุลแนชที่สมบูรณ์แบบในเกมย่อย (sub-game perfect Nash equilibrium)สำหรับเกมสุ่ม (stochastic games)
เกมเบย์เซียนแบบสุ่ม
เกมสุ่มได้รับการรวมเข้ากับเกมเบย์เซียนเพื่อสร้างแบบจำลองความไม่แน่นอนเกี่ยวกับกลยุทธ์ของผู้เล่น[ 7 ] แบบจำลอง เกมเบย์เซียนสุ่มที่ได้จะได้รับการแก้ไขผ่านการรวมกันแบบวนซ้ำของสมการสมดุลแนชแบบเบย์เซียนและสมการความเหมาะสมของเบลล์แมน
การหยุดเกม
EB Dynkin [ 8 ]นำเสนอปัญหาต่อไปนี้ในทฤษฎีเกมที่เกี่ยวข้องกับการหยุดกระบวนการสุ่ม สมมติว่าเป็นลำดับที่เพิ่มขึ้นของ σ-algebras ในปริภูมิความน่าจะเป็น บางส่วนโดยที่ประกอบด้วย ทั้งหมดผู้เล่นสองคนสังเกตลำดับสุ่ม, , กล่าวคือ ฟังก์ชันที่วัดได้เทียบกับเกมสามารถหยุดได้ที่เวลา n โดยผู้เล่นคนแรกถ้าและโดยผู้เล่นคนที่สองถ้าถ้าเกมหยุดที่เวลา n ผู้เล่นคนแรกจะได้รับ จากผู้เล่นคนที่สองผู้เล่น 1 พยายามที่จะเพิ่มผลตอบแทนที่คาดหวังให้สูงสุด และผู้เล่น 2 พยายามที่จะลดให้น้อยที่สุด
ให้เป็นเวลาแบบมาร์คอฟโดยสัมพันธ์กับฟิลเทรชันและเป็นฟังก์ชันลักษณะเฉพาะของเหตุการณ์ให้ เป็นเซตของเวลาหยุดทั้งหมดโดยสัมพันธ์กับฟิลเทรชัน, , และให้เป็นเวลาหยุดที่ผู้เล่นคนแรก (หรือผู้เล่นคนที่สอง) เลือก ผลตอบแทน ซึ่งเป็นการจ่ายเงินของผู้เล่นคนที่สองให้กับผู้เล่นคนแรก จะถูกกำหนดดังนี้
ภายใต้เงื่อนไขที่ว่าDynkin [ 8 ] พิสูจน์ว่าค่าของเกมมีอยู่จริง เขาสร้างกลยุทธ์ ε-เหมาะสมที่สุด และแนะนำเงื่อนไขหลายประการสำหรับการมีอยู่ของกลยุทธ์ที่เหมาะสมที่สุด (สำหรับการขยายเพิ่มเติม โปรดดู Neveu [ 9 ]และ Yasuda [ 10 ] )
แอปพลิเคชัน
เกมสุ่มมีการประยุกต์ใช้ในเศรษฐศาสตร์ชีววิทยาเชิงวิวัฒนาการและเครือข่ายคอมพิวเตอร์[ 11 ] [ 12 ] เกมเหล่านี้เป็นการวางนัยทั่วไปของเกมซ้ำๆซึ่งสอดคล้องกับกรณีพิเศษที่มีสถานะเดียวเท่านั้น
ดูเพิ่มเติม
หมายเหตุ
- ^ Shapley, LS (1953). "เกมสุ่ม" . PNAS . 39 (10): 1095– 1100. Bibcode : 1953PNAS...39.1095S . doi : 10.1073/pnas.39.10.1095 . PMC 1063912 . PMID 16589380 .
- ^ Solan, Eilon; Vieille, Nicolas (2015). "เกมสุ่ม" . PNAS . 112 (45): 13743– 13746. doi : 10.1073/pnas.1513508112 . PMC 4653174 . PMID 26556883 .
- ^ a b Mertens, JF & Neyman, A. (1981). "เกมสุ่ม". วารสารทฤษฎีเกมระหว่างประเทศ10 (2): 53– 66. doi : 10.1007/BF01769259 . S2CID 189830419 .
- ^ a b Vieille, N. (2002). "เกมสุ่ม: ผลลัพธ์ล่าสุด". คู่มือทฤษฎีเกม . อัมสเตอร์ดัม: Elsevier Science. หน้า 1833–1850 . ISBN 0-444-88098-4.
- ^ a b Solan, Eilon (มีนาคม 2018). "รูปแบบกลยุทธ์ที่ยอมรับได้ในเกมสุ่ม" . Games and Economic Behavior . 108 : 523– 540. arXiv : 1608.05272 . doi : 10.1016/j.geb.2017.01.011 . ISSN 0899-8256 . เก็บถาวรจากต้นฉบับเมื่อ 2020-06-30.
- ^ a b Flesch, János; Solan, Eilon (สิงหาคม 2024). "เกมสุ่มที่มีฟังก์ชันผลตอบแทนทั่วไป"คณิตศาสตร์ของการวิจัยการดำเนินงาน 49 ( 3): 1349– 1371. doi : 10.1287/moor.2023.1385 . ISSN 0364-765X .
- ^ Albrecht, Stefano; Crandall, Jacob; Ramamoorthy, Subramanian (2016). "ความเชื่อและความจริงในพฤติกรรมที่ตั้งสมมติฐาน" ปัญญาประดิษฐ์ 235 : 63– 94. arXiv : 1507.07688 . doi : 10.1016/j.artint.2016.02.004 . S2CID 2599762 .
- ^ a b Dynkin, EB (1969). "เวอร์ชันทฤษฎีเกมของปัญหาการหยุดที่เหมาะสมที่สุด" (PDF) . Dokl. Akad. Nauk SSSR . 185 (1): 16– 19 – via ru.
- ^ Neveu, J. (1975). มาร์ติงเกลพารามิเตอร์แบบไม่ต่อเนื่อง (ในภาษาฝรั่งเศสและภาษาอังกฤษ) (ห้องสมุดคณิตศาสตร์นอร์ทฮอลแลนด์ ฉบับที่ 10). อัมสเตอร์ดัม: อ็อกซ์ฟอร์ด: บริษัทสำนักพิมพ์นอร์ทฮอลแลนด์; นิวยอร์ก: บริษัทสำนักพิมพ์อเมริกันเอลเซเวียร์ จำกัด หน้า viii+236 บทที่ 3
- ^ Yasuda, M. (1985-12-01). "เกี่ยวกับกลยุทธ์แบบสุ่มในปัญหาการหยุดของ Neveu"กระบวนการสุ่มและการประยุกต์ใช้ 21 ( 1): 159– 166. doi : 10.1016/0304-4149(85)90384-9 . ISSN 0304-4149 .
- ^เกมสุ่มแบบมีข้อจำกัดในเครือข่ายไร้สายโดย E.Altman, K.Avratchenkov, N.Bonneau, M.Debbah, R.El-Azouzi, DSMenasche
- ^ Djehiche, Boualem; Tcheukam, Alain; Tembine, Hamidou (2017-09-27). "เกมประเภทสนามเฉลี่ยในวิศวกรรม". AIMS Electronics and Electrical Engineering . 1 : 18– 73. arXiv : 1605.03281 . doi : 10.3934/ElectrEng.2017.1.18 . S2CID 16055840 .
อ่านเพิ่มเติม
- Filar, J. & Vrieze, K. (1997) กระบวนการตัดสินใจของมาร์คอฟที่แข่งขันได้ สปริงเกอร์-แวร์แลกไอเอสบีเอ็น 0-387-94805-8.
- Neyman, A. & Sorin, S. (2003). เกมสุ่มและการประยุกต์ใช้ . ดอร์เดรชท์: สำนักพิมพ์ Kluwer Academic Press. ISBN 1-4020-1492-9.
- Yoav Shoham; Kevin Leyton-Brown (2009). ระบบหลายเอเจนต์: รากฐานเชิงอัลกอริทึม ทฤษฎีเกม และตรรกะ สำนักพิมพ์มหาวิทยาลัยเค มบริดจ์ หน้า 153–156 ISBN 978-0-521-89943-7.(เหมาะสำหรับนักศึกษาปริญญาตรี; เนื้อหาหลัก ไม่มีบทพิสูจน์)
ลิงก์ภายนอก
- การบรรยายเรื่องเกมสองผู้เล่นแบบสุ่ม โดย อันโตนิน คูเซรา
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ เกมสุ่ม
ในทฤษฎีเกมเกมสุ่ม (หรือเกมมาร์คอฟ ) คือเกมที่เล่นซ้ำๆโดยมีการเปลี่ยนสถานะแบบสุ่มซึ่งผู้เล่นหนึ่งคนหรือมากกว่านั้นเล่น เกมจะเล่นเป็นลำดับในแต่ละขั้นตอน ในตอนเริ่มต้นของแต่ละขั้นตอน.
เกมสำหรับผู้เล่นสองคน
เกมสุ่มแบบผู้เล่นสองคนบน กราฟแบบมีทิศทาง ถูกนำมาใช้กันอย่างแพร่หลายในการสร้างแบบจำลองและการวิเคราะห์ระบบแบบไม่ต่อเนื่องที่ทำงานในสภาพแวดล้อมที่ไม่รู้จัก (เป็นปฏิปักษ์) การกำหนดค่าที่เป็นไปได้ของระบบและสภาพแวดล้อมจะถูกแทนด้วยจุดยอด...
ทฤษฎี
ส่วนประกอบของเกมสุ่มมีดังนี้: ชุดผู้เล่นจำนวนจำกัด; ปริภูมิสถานะ(อาจเป็นเซตจำกัดหรือ ปริภูมิที่วัดได้ ); สำหรับผู้เล่นแต่ละคนชุดการกระทำ (อาจเป็นเซตจำกัดหรือปริภูมิที่วัดได้); ความน่าจะเป็นของการเปลี่ยนสถานะจากโดยที่คือชุดการกระทำ...
สมดุลแนช
ถ้าจำนวนผู้เล่นมีจำกัด และชุดการกระทำและชุดสถานะมีจำนวนจำกัด เกมสุ่มที่มีจำนวนขั้นตอนจำกัดจะมี สมดุลแนช เสมอ เช่นเดียวกันนี้ก็เป็นจริงสำหรับเกมที่มีจำนวนขั้นตอนไม่จำกัด หากผลตอบแทนรวมคือผลรวมที่คิดลดแล้ว