ความมีเหตุผลขั้นสูงสุด

ในทางเศรษฐศาสตร์และทฤษฎีเกมผู้เข้าร่วมเกมจะมีความมีเหตุผลเหนือกว่า (หรือความมีเหตุผลที่ปรับค่าใหม่ ) หากผู้เข้าร่วมนั้นมีเหตุผลอย่างสมบูรณ์แบบ (เพิ่มอรรถประโยชน์ สูงสุด ) แต่สมมติว่าผู้เข้าร่วมคนอื่นๆ ทุกคนก็มีความมีเหตุผลเหนือกว่าเช่นกัน และผู้เข้าร่วมที่มีความมีเหตุผลเหนือกว่าทุกคนจะคิดกลยุทธ์เดียวกันกับผู้เข้าร่วมที่มีความมีเหตุผลเหนือกว่าคนอื่นๆ เสมอเมื่อเผชิญกับปัญหาเดียวกัน จากการใช้คำจำกัดความนี้ ผู้เล่นที่มีความมีเหตุผลเหนือกว่าในเกม Dilemma ของนักโทษ สองคน จะให้ความร่วมมือ ในขณะที่ผู้เล่นที่เห็นแก่ประโยชน์ส่วนตนอย่างมีเหตุผลจะเลือกที่จะไม่ร่วมมือ

กฎการตัดสินใจนี้ไม่ใช่แบบจำลองกระแสหลักในทฤษฎีเกมและได้รับการเสนอแนะโดยDouglas Hofstadterในบทความ ชุด และหนังสือMetamagical Themas ^{[ 1 ]}ในฐานะรูปแบบการตัดสินใจ อย่างมีเหตุผลแบบอื่น ที่แตกต่างจากทฤษฎีเกม ที่ได้รับการยอมรับอย่างกว้างขวาง Hofstadter ได้ให้คำจำกัดความนี้ว่า: "นักคิดที่มีเหตุผลเหนือกว่า ตามคำจำกัดความแบบวนซ้ำ จะรวมข้อเท็จจริงที่ว่าพวกเขาอยู่ในกลุ่มของนักคิดที่มีเหตุผลเหนือกว่าไว้ในการคำนวณของพวกเขา" ^{[ 1 ]}

แตกต่างจาก " มนุษย์ผู้มีปฏิสัมพันธ์ตอบแทน " ที่ถูกกล่าวอ้าง นักคิดที่มีเหตุผลเหนือกว่าจะไม่เลือกทางสายกลางที่ก่อให้เกิดประโยชน์สูงสุดต่อสังคมโดยรวมเสมอไป ดังนั้นจึงไม่ใช่ผู้ ใจบุญ

ปัญหาของนักโทษ

แนวคิดเรื่องความมีเหตุผลขั้นสูงสุด (superrationality) คือ เมื่อนักคิดเชิงตรรกะสองคนวิเคราะห์ปัญหาเดียวกัน พวกเขาจะได้คำตอบที่ถูกต้องเหมือนกัน ตัวอย่างเช่น ถ้าคนสองคนเก่งคณิตศาสตร์และได้รับโจทย์ปัญหาที่ซับซ้อนเหมือนกัน พวกเขาทั้งคู่จะได้คำตอบที่ถูกต้องเหมือนกัน ในวิชาคณิตศาสตร์ การรู้ว่าคำตอบทั้งสองจะเหมือนกันไม่ได้เปลี่ยนแปลงคุณค่าของปัญหา แต่ในทฤษฎีเกม การรู้ว่าคำตอบจะเหมือนกันอาจเปลี่ยนแปลงคำตอบนั้นได้

ปัญหาของนักโทษมักถูกนำเสนอในแง่ของโทษจำคุกสำหรับอาชญากร แต่ก็สามารถนำมาเปรียบเทียบกับรางวัลเงินสดได้เช่นกัน ผู้เล่นสองคนแต่ละคนมีสิทธิ์เลือกที่จะร่วมมือ (C) หรือไม่ร่วมมือ (D) ผู้เล่นเลือกโดยไม่รู้ว่าอีกฝ่ายจะทำอย่างไร หากทั้งคู่ร่วมมือ จะได้รับคนละ 100 ดอลลาร์ หากทั้งคู่ไม่ร่วมมือ จะได้รับคนละ 1 ดอลลาร์ หากคนหนึ่งร่วมมือและอีกคนไม่ร่วมมือ ผู้เล่นที่ไม่ร่วมมือจะได้รับ 150 ดอลลาร์ ในขณะที่ผู้เล่นที่ร่วมมือจะไม่ได้รับอะไรเลย

ผลลัพธ์ทั้งสี่แบบและผลตอบแทนที่ผู้เล่นแต่ละคนจะได้รับมีระบุไว้ด้านล่าง

	ผู้เล่น B ให้ความร่วมมือ	ผู้เล่น B มีข้อบกพร่อง
ผู้เล่น A ให้ความร่วมมือ	ทั้งคู่ได้รับ 100 ดอลลาร์	ผู้เล่น A: 0 ดอลลาร์ผู้เล่น B: 150 ดอลลาร์
ผู้เล่น A มีข้อบกพร่อง	ผู้เล่น A: 150 ดอลลาร์ผู้เล่น B: 0 ดอลลาร์	ทั้งคู่ได้รับคนละ 1 ดอลลาร์

วิธีหนึ่งที่ผู้เล่นสามารถใช้เหตุผลได้อย่างถูกต้องคือดังต่อไปนี้:

สมมติว่าผู้เล่นอีกฝ่ายไม่ร่วมมือ ถ้าฉันร่วมมือ ฉันจะไม่ได้รับอะไรเลย และถ้าฉันไม่ร่วมมือ ฉันจะได้เงินหนึ่งดอลลาร์
สมมติว่าผู้เล่นอีกฝ่ายให้ความร่วมมือ ฉันจะได้ 100 ดอลลาร์หากฉันให้ความร่วมมือ และจะได้ 150 ดอลลาร์หากฉันไม่ให้ความร่วมมือ
ดังนั้นไม่ว่าผู้เล่นคนอื่นจะทำอะไร ผลตอบแทนของฉันก็จะเพิ่มขึ้นจากการแปรพักตร์ แม้เพียงแค่หนึ่งดอลลาร์ก็ตาม

สรุปได้ว่า การกระทำที่สมเหตุสมผลที่สุดคือการแปรพักตร์ การให้เหตุผลแบบนี้เป็นการนิยามความสมเหตุสมผลในทฤษฎีเกม และผู้เล่นที่สมเหตุสมผลในทฤษฎีเกมสองคนที่เล่นเกมนี้ ต่างก็แปรพักตร์และได้รับเงินคนละหนึ่งดอลลาร์

ความมีเหตุผลขั้นสูงสุด (Superrationality) เป็นวิธีการให้เหตุผลอีกแบบหนึ่ง ประการแรก สมมติว่าคำตอบของปัญหาสมมาตรจะเหมือนกันสำหรับผู้เล่นที่มีเหตุผลขั้นสูงสุดทุกคน ดังนั้นจึงนำความเหมือนกันมาพิจารณาก่อนที่จะรู้ว่ากลยุทธ์จะเป็นอย่างไร กลยุทธ์จะถูกหาได้จากการเพิ่มผลตอบแทนสูงสุดให้กับผู้เล่นแต่ละคน โดยสมมติว่าพวกเขาทั้งหมดใช้กลยุทธ์เดียวกัน เนื่องจากผู้เล่นที่มีเหตุผลขั้นสูงสุดรู้ว่าผู้เล่นที่มีเหตุผลขั้นสูงสุดคนอื่นจะทำเช่นเดียวกัน ไม่ว่าสิ่งนั้นจะเป็นอะไรก็ตาม จึงมีเพียงสองทางเลือกสำหรับผู้เล่นที่มีเหตุผลขั้นสูงสุดสองคน ทั้งคู่จะร่วมมือกันหรือทั้งคู่จะทรยศ ขึ้นอยู่กับคุณค่าของคำตอบที่มีเหตุผลขั้นสูงสุด ดังนั้นผู้เล่นที่มีเหตุผลขั้นสูงสุดสองคนจะร่วมมือกัน เนื่องจากคำตอบนี้ทำให้ผลตอบแทนของพวกเขาสูงสุด ผู้เล่นที่มีเหตุผลขั้นสูงสุดสองคนในเกมนี้จะได้รับเงินคนละ 100 ดอลลาร์

ผู้เล่นที่มีเหตุผลเหนือกว่าปกติเมื่อเล่นกับผู้เล่นที่มีเหตุผลตามทฤษฎีเกมจะเลือกไม่เล่น เพราะกลยุทธ์นี้ตั้งอยู่บนสมมติฐานที่ว่าผู้เล่นที่มีเหตุผลเหนือกว่าปกติจะเห็นพ้องกันเท่านั้น

แม้ว่าทฤษฎีเกมมาตรฐานจะถือว่าผู้เล่นทุกคนมีความรู้ร่วมกันเกี่ยวกับความมีเหตุผล แต่ก็ทำเช่นนั้นในวิธีที่แตกต่างออกไป การวิเคราะห์เชิงทฤษฎีเกมจะเพิ่มผลตอบแทนสูงสุดโดยอนุญาตให้ผู้เล่นแต่ละคนเปลี่ยนกลยุทธ์ได้อย่างอิสระจากผู้อื่น แม้ว่าในท้ายที่สุดแล้วจะถือว่าคำตอบในเกมสมมาตรจะเหมือนกันสำหรับทุกคนก็ตาม นี่คือคำจำกัดความของสมดุลแนชเชิงทฤษฎีเกมซึ่งกำหนดกลยุทธ์ที่เสถียรว่าเป็นกลยุทธ์ที่ไม่มีผู้เล่นคนใดสามารถปรับปรุงผลตอบแทนได้โดยการเปลี่ยนแนวทางฝ่ายเดียว สมดุลเหนือเหตุผลในเกมสมมาตรคือสมดุลที่กลยุทธ์ของผู้เล่นทุกคนถูกบังคับให้เหมือนกันก่อนขั้นตอนการเพิ่มผลตอบแทนสูงสุด (แม้ว่าจะไม่มีการขยายแนวคิดเรื่องเหนือเหตุผลไปยังเกมที่ไม่สมมาตรที่ตกลงกันไว้ โปรดดู§ เกมที่ไม่สมมาตรสำหรับข้อมูลเพิ่มเติม)

บางคนโต้แย้งว่า ความมีเหตุผลขั้นสูงสุดนั้นหมายถึง การคิดแบบไสยศาสตร์ชนิดหนึ่งซึ่งผู้เล่นแต่ละคนจะคิดว่าการตัดสินใจที่จะร่วมมือจะทำให้ผู้เล่นคนอื่นร่วมมือด้วย แม้ว่าจะไม่มีการสื่อสารใดๆ ก็ตาม ฮอฟสตัดเตอร์ชี้ให้เห็นว่า แนวคิดเรื่อง "ทางเลือก" นั้นใช้ไม่ได้เมื่อเป้าหมายของผู้เล่นคือการหาคำตอบ และการตัดสินใจนั้นไม่ได้ทำให้ผู้เล่นคนอื่นร่วมมือ แต่ตรรกะเดียวกันต่างหากที่นำไปสู่คำตอบเดียวกันโดยไม่ขึ้นอยู่กับการสื่อสารหรือเหตุและผล การถกเถียงนี้เกี่ยวกับว่าการที่มนุษย์กระทำการในลักษณะที่มีเหตุผลขั้นสูงสุดนั้นสมเหตุสมผลหรือไม่ ไม่ใช่เกี่ยวกับความหมายของความมีเหตุผลขั้นสูงสุด และคล้ายกับการถกเถียงเกี่ยวกับว่าการที่มนุษย์กระทำการในลักษณะที่ "มีเหตุผล" นั้นสมเหตุสมผลหรือไม่ ตามที่อธิบายไว้ในทฤษฎีเกม (ซึ่งพวกเขาสามารถคาดเดาได้ว่าผู้เล่นคนอื่นจะทำอะไรหรือได้ทำอะไรไปแล้ว โดยการถามตัวเองว่า ฉันจะทำอย่างไรถ้าฉันเป็นพวกเขา และใช้การเหนี่ยวนำย้อนกลับและการกำจัดกลยุทธ์ที่ด้อยกว่าซ้ำๆ )

กลยุทธ์เชิงความน่าจะเป็น

เพื่อความง่าย ในการอธิบายเรื่องความมีเหตุผลสูงสุดข้างต้นนั้น ได้ละเลยกลยุทธ์แบบผสมผสาน ไป นั่นคือความเป็นไปได้ที่ทางเลือกที่ดีที่สุดอาจเป็นการโยนเหรียญ หรือโดยทั่วไปแล้วคือการเลือกผลลัพธ์ที่แตกต่างกันด้วยความน่าจะ เป็นบางอย่าง ในเกมปัญหาของนักโทษการร่วมมือกันด้วยความน่าจะเป็น 1 ถือเป็นความมีเหตุผลสูงสุด แม้ว่าจะยอมรับกลยุทธ์แบบผสมผสานแล้วก็ตาม เพราะผลตอบแทนเฉลี่ยเมื่อผู้เล่นคนหนึ่งร่วมมือและอีกคนหนึ่งไม่ร่วมมือจะเท่ากับเมื่อทั้งสองร่วมมือ ดังนั้นการไม่ร่วมมือจะเพิ่มความเสี่ยงที่ทั้งสองจะไม่ร่วมมือ ซึ่งจะลดผลตอบแทนที่คาดหวังลง แต่ในบางกรณี กลยุทธ์ที่มีเหตุผลสูงสุดอาจเป็นกลยุทธ์แบบผสมผสาน

ตัวอย่างเช่น หากผลตอบแทนเป็นดังนี้:

บัตรเครดิต – 100/100 ดอลลาร์

ซีดี – 0/1,000,000 ดอลลาร์

DC – 1,000,000 ดอลลาร์/0 ดอลลาร์

DD – $1/$1

ดังนั้น เมื่อการทรยศมีผลตอบแทนมหาศาล กลยุทธ์ที่สมเหตุสมผลอย่างยิ่งคือการทรยศด้วยความน่าจะเป็น 499,900/999,899 หรือมากกว่า 49.995% เล็กน้อย เมื่อผลตอบแทนเพิ่มขึ้นเป็นอนันต์ ความน่าจะเป็นจะเข้าใกล้ 1/2 มากขึ้นเท่านั้น และความสูญเสียจากการใช้กลยุทธ์ที่ง่ายกว่าคือ 1/2 (ซึ่งน้อยมากอยู่แล้ว) จะเข้าใกล้ 0 ในตัวอย่างที่ไม่สุดโต่งนัก หากผลตอบแทนสำหรับผู้ร่วมมือหนึ่งคนและผู้ทรยศหนึ่งคนคือ 400 ดอลลาร์และ 0 ดอลลาร์ตามลำดับ กลยุทธ์ผสมที่สมเหตุสมผลอย่างยิ่งจะทรยศด้วยความน่าจะเป็น 100/299 หรือประมาณ 1/3

ในสถานการณ์ที่คล้ายกันซึ่งมีผู้เล่นมากกว่านั้น การใช้อุปกรณ์สุ่มอาจเป็นสิ่งจำเป็น ตัวอย่างหนึ่งที่ฮอฟสตัดเตอร์กล่าวถึงคือปัญหาของเพลโต เนีย : มหาเศรษฐีผู้แปลกประหลาดคนหนึ่งติดต่อผู้คน 20 คน และบอกพวกเขาว่า หากมีเพียงคนเดียวเท่านั้นที่ส่งโทรเลขถึงเขาหรือเธอ (โดยสมมติว่าไม่มีค่าใช้จ่าย) ภายในเที่ยงของวันรุ่งขึ้น บุคคลนั้นจะได้รับเงินหนึ่งพันล้านดอลลาร์ หากพวกเขาได้รับโทรเลขมากกว่าหนึ่งฉบับหรือไม่ได้ส่งเลยสักฉบับ ก็จะไม่มีใครได้รับเงิน และห้ามการติดต่อระหว่างผู้เล่น ในสถานการณ์นี้ สิ่งที่สมเหตุสมผลที่สุดที่จะทำ (หากทราบว่าทั้ง 20 คนมีเหตุผลอย่างยิ่ง) คือการส่งโทรเลขด้วยความน่าจะเป็น p=1/20 นั่นคือ ผู้รับแต่ละคนจะทอยลูกเต๋า20 ด้านและส่งโทรเลขก็ต่อเมื่อได้เลข "1" เท่านั้น วิธีนี้จะเพิ่มความน่าจะเป็นที่จะได้รับโทรเลขเพียงหนึ่งฉบับให้สูงสุด

โปรดสังเกตว่านี่ไม่ใช่คำตอบในการวิเคราะห์เชิงทฤษฎีเกมแบบดั้งเดิม ผู้เล่นที่มีเหตุผลตามทฤษฎีเกมจำนวน 20 คน จะส่งโทรเลขไปคนละฉบับ และดังนั้นจึงไม่ได้รับอะไรเลย นี่เป็นเพราะการส่งโทรเลขเป็นกลยุทธ์ที่เหนือกว่าหากผู้เล่นแต่ละคนส่งโทรเลข พวกเขามีโอกาสได้รับเงิน แต่ถ้าพวกเขาไม่ส่งโทรเลข พวกเขาก็จะไม่ได้รับอะไรเลย (หากรับประกันว่าโทรเลขทุกฉบับจะมาถึง พวกเขาจะส่งเพียงฉบับเดียว และไม่มีใครคาดหวังว่าจะได้รับเงิน)

เกมที่ไม่สมมาตร

งานวิจัยเชิงวิชาการที่ขยายแนวคิดเรื่องความมีเหตุผลขั้นสูงสุดไปสู่เกมที่ไม่สมมาตรยังอยู่ในช่วงเริ่มต้น

งานหนึ่งที่พัฒนาโดย Ghislain Fourny ^{[ 2 ]}เสนออัลกอริทึมการตัดสินใจซึ่งเมื่อดำเนินการโดยกลุ่มตัวแทน จะนำไปสู่สิ่งที่เขาเรียกว่าสมดุลที่โปร่งใสอย่างสมบูรณ์:

ดุลยภาพทั่วไปเรียกว่าดุลยภาพโปร่งใสสมบูรณ์ (Perfectly Transparent Equilibrium: PTE) [...] แม้ว่ามันจะไม่ปรากฏอยู่เสมอ แต่เมื่อปรากฏแล้ว มันจะเป็นเอกลักษณ์เสมอ เป็นแบบพาเรโตที่ดีที่สุด เสมอ และสอดคล้องกับดุลยภาพของฮอฟสตัดเตอร์ในเกมสมมาตร

โดยทั่วไปแล้ว สามารถเข้าใจอัลกอริทึมนี้ได้จากลำดับขั้นตอนดังต่อไปนี้:

จงหาผลลัพธ์ที่ จะเกิดขึ้นหากผู้เล่นแต่ละคนใช้ กฎการตัดสินใจ แบบ maximinโดยพิจารณาจากตัวเลือกที่อาจมีให้แก่ผู้เล่นเรียกผลลัพธ์นี้ว่า $m$
ตัดผลลัพธ์ใดๆ ที่ไม่ใช่ผลลัพธ์ที่เหนือกว่าแบบพาเรโตออกไปจาก $การ$ พิจารณา
ทำซ้ำขั้นตอนที่ 1 และ 2 จนกว่าจะเหลือผลลัพธ์เพียงหนึ่งเดียว หรือจนกว่าจะมีผลลัพธ์อื่น ๆ ถูกกำจัดออกไป

ผลลัพธ์ที่จะผ่านกระบวนการคัดออกนี้ไปได้ (หากมี) ก็คือผลสอบ PTE

การกำหนดรูปแบบและแนวคิดที่เกี่ยวข้อง

คำถามเกี่ยวกับการร่วมมือกันในเกม Prisoner's Dilemma แบบเล่นครั้งเดียวในบางสถานการณ์ก็เกิดขึ้นในวรรณกรรมทฤษฎีการตัดสินใจเช่นกัน ซึ่งได้รับแรงบันดาลใจจากปัญหาของ Newcomb ทฤษฎีการตัดสินใจเชิงสาเหตุชี้ให้เห็นว่าความมีเหตุผลเหนือกว่านั้นไม่สมเหตุสมผล ในขณะที่ทฤษฎีการตัดสินใจเชิงประจักษ์สนับสนุนแนวทางการให้เหตุผลที่คล้ายกับความมีเหตุผลเหนือกว่าและแนะนำให้ร่วมมือกันในเกม Prisoner's Dilemma กับคู่ต่อสู้ที่คล้ายคลึงกัน^{[ 3 ]}^{[ 4 ]}

สมดุลของโปรแกรมได้รับการเสนอให้เป็นแบบจำลองเชิงกลไกของความมีเหตุผลขั้นสูง^{[ 5 ]}^{[ 6 ]}^{[ 7 ]}

ดูเพิ่มเติม

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]