การสุ่มตัวอย่างของทอมป์สัน

Q: ข้อมูลสำคัญเกี่ยวกับ การสุ่มตัวอย่างของทอมป์สัน

การสุ่มตัวอย่าง แบบ Thompson [ 1 ] [ 2 ] [ 3 ] ซึ่งตั้งชื่อตาม William R.

การสุ่มตัวอย่าง แบบThompson ^{[ 1 ]}^{[ 2 ]}^{[ 3 ]}ซึ่งตั้งชื่อตามWilliam R. Thompsonเป็นฮิวริสติกสำหรับการเลือกการกระทำที่แก้ไขปัญหาความขัดแย้งระหว่างการสำรวจและการใช้ประโยชน์ใน ปัญหา Multi-Armed Banditโดยประกอบด้วยการเลือกการกระทำที่เพิ่มผลตอบแทนที่คาดหวังสูงสุดโดยสัมพันธ์กับความเชื่อที่สุ่มเลือกมา

คำอธิบาย

พิจารณาชุดบริบทชุดการกระทำและรางวัลในเกม เป้าหมายของผู้เล่นคือการกระทำภายใต้บริบทต่างๆ เพื่อเพิ่มรางวัลสะสมให้สูงสุด โดยเฉพาะอย่างยิ่ง ในแต่ละรอบ ผู้เล่นจะได้รับบริบททำการกระทำและได้รับรางวัลตามการกระจายที่ขึ้นอยู่กับบริบทและการกระทำที่ทำไป ${\mathcal {X}}$ ${\mathcal {A}}$ $\mathbb {R}$ $x\in {\mathcal {X}}$ $a\in {\mathcal {A}}$ $r\in \mathbb {R}$

องค์ประกอบของการสุ่มตัวอย่างแบบ Thompson มีดังต่อไปนี้: ^{[ 3 ]}^{: มาตรา 4}

ฟังก์ชันความน่าจะเป็น ; $P(r|\theta ,a,x)$
ชุดพารามิเตอร์ของการกระจายของ; $\Theta$ $\theta$ $r$
การแจกแจงความน่าจะเป็นล่วงหน้า สำหรับพารามิเตอร์เหล่านี้ $P(\theta )$
การสังเกตการณ์ในอดีตสามชุด; ${\mathcal {D}}=\{(x;a;r)\}$
การแจกแจงความน่าจะเป็นภายหลัง โดยที่คือฟังก์ชันความน่าจะเป็น $P(\theta |{\mathcal {D}})\propto P({\mathcal {D}}|\theta )P(\theta )$ $P({\mathcal {D}}|\theta )$

การสุ่มตัวอย่างของ Thompson ประกอบด้วยการเล่นตามความน่าจะเป็นที่ทำให้รางวัลที่คาดหวังสูงสุดโดยเลือกการกระทำด้วยความน่าจะเป็น^[³^]^{: อัลกอริทึม 4} $a^{\ast }\in {\mathcal {A}}$ $a^{\ast }$

\int \mathbb {I} \left[\mathbb {E} (r|a^{\ast },x,\theta )=\max _{a'}\mathbb {E} (r|a',x,\theta )\right]P(\theta |{\mathcal {D}})d\theta ,

ฟังก์ชันตัวบ่งชี้ อยู่ที่ไหน $\mathbb {I}$

ในทางปฏิบัติ กฎนี้จะถูกนำไปใช้โดยการสุ่มตัวอย่าง ในแต่ละรอบ พารามิเตอร์จะถูกสุ่มจากค่าหลัง[ ³^]^{: 7} และ เลือกการกระทำ ที่ทำให้ค่าสูงสุด นั่นคือ รางวัลที่คาดหวัง ^โดยพิจารณาจากพารามิเตอร์ที่สุ่ม การกระทำ และบริบทปัจจุบัน ในเชิงแนวคิด หมายความว่าผู้เล่นจะสร้างความเชื่อของตนแบบสุ่มในแต่ละรอบตามการแจกแจงค่าหลัง จากนั้นจึงกระทำการอย่างเหมาะสมที่สุดตามความเชื่อเหล่านั้น ในการใช้งานจริงส่วนใหญ่ การรักษาและการสุ่มตัวอย่างจากการแจกแจงค่าหลังเหนือโมเดลนั้นต้องใช้การคำนวณมาก ดังนั้น การสุ่มตัวอย่างของ Thompson จึงมักใช้ร่วมกับเทคนิคการสุ่มตัวอย่างโดยประมาณ^[³^]^{: ส่วนที่ 5} $\theta ^{\ast }$ $P(\theta |{\mathcal {D}})$ $a^{\ast }$ $\mathbb {E} [r|\theta ^{\ast },a^{\ast },x]$

ประวัติศาสตร์

การสุ่มตัวอย่างของ Thompson ได้รับการอธิบายครั้งแรกโดย Thompson ในปี 1933 ^{[ 1 ]}ต่อมาได้มีการค้นพบใหม่หลายครั้งโดยอิสระในบริบทของปัญหา multi-armed bandit ^{[ 4 ]}^{[ 5 ]}^{[ 6 ]}^{[ 7 ] [}⁸^]^{[ 9}^]^การ^{พิสูจน์}^การลู่เข้าครั้งแรกสำหรับกรณี bandit ได้รับการแสดงให้เห็นในปี 1997 ^[⁴^]การประยุกต์ใช้ครั้งแรกกับกระบวนการตัดสินใจของ Markovเกิดขึ้นในปี 2000 ^[⁶^]แนวทางที่เกี่ยวข้อง (ดูกฎการควบคุมแบบ Bayesian ) ได้รับการตีพิมพ์ในปี 2010 ^[⁵^]ในปี 2010 ยังแสดงให้เห็นอีกว่าการสุ่มตัวอย่างของ Thompson สามารถแก้ไขตัวเองได้ทันที^[⁹^]ผลลัพธ์การบรรจบกันแบบอสิมโทติกสำหรับแบนดิตตามบริบทได้รับการตีพิมพ์ในปี 2011 ^[⁷^]การสุ่มตัวอย่างแบบทอมป์สันถูกนำมาใช้กันอย่างแพร่หลายในปัญหาการเรียนรู้ออนไลน์หลายอย่าง รวมถึงการทดสอบ A/Bในการออกแบบเว็บไซต์และการโฆษณาออนไลน์^[¹⁰^]และการเรียนรู้แบบเร่งในกระบวนการตัดสินใจแบบกระจายศูนย์^[¹¹^] อัลกอริทึม การสุ่มตัวอย่างแบบทอมป์สันคู่ (D-TS) ^[¹²^]ได้รับการเสนอสำหรับแบนดิตแบบดวลซึ่งเป็นรูปแบบหนึ่งของ MAB แบบดั้งเดิม โดยที่ผลตอบรับมาในรูปแบบของการเปรียบเทียบแบบคู่

ความสัมพันธ์กับแนวทางอื่นๆ

การจับคู่ความน่าจะเป็น

การจับคู่ความน่าจะเป็นเป็นกลยุทธ์การตัดสินใจที่การทำนายการเป็นสมาชิกของกลุ่มจะแปรผันตามอัตราพื้นฐานของกลุ่มนั้นๆ ดังนั้น หากในชุดข้อมูลฝึกฝนพบตัวอย่างที่เป็นบวก 60% ของเวลา และพบตัวอย่างที่เป็นลบ 40% ของเวลา ผู้สังเกตที่ใช้กลยุทธ์การจับคู่ความน่าจะเป็นจะทำนาย (สำหรับตัวอย่างที่ไม่มีป้ายกำกับ) ป้ายกำกับกลุ่ม "บวก" ใน 60% ของกรณี และป้ายกำกับกลุ่ม "ลบ" ใน 40% ของกรณี

กฎการควบคุมแบบเบย์เซียน

การขยายผลของการสุ่มตัวอย่างของ Thompson ไปสู่สภาพแวดล้อมแบบไดนามิกและโครงสร้างเชิงสาเหตุใดๆ ซึ่งรู้จักกันในชื่อกฎการควบคุมแบบเบย์เซียนได้รับการพิสูจน์แล้วว่าเป็นวิธีแก้ปัญหาที่ดีที่สุดสำหรับปัญหาการเข้ารหัสแบบปรับตัวด้วยการกระทำและการสังเกต^{[ 5 ]}ในการกำหนดสูตรนี้ ตัวแทนจะถูกมองว่าเป็นส่วนผสมของพฤติกรรมต่างๆ เมื่อตัวแทนมีปฏิสัมพันธ์กับสภาพแวดล้อม มันจะเรียนรู้คุณสมบัติเชิงสาเหตุและปรับใช้พฤติกรรมที่ลดเอนโทรปีสัมพัทธ์ให้น้อยที่สุดเมื่อเทียบกับพฤติกรรมที่มีการคาดการณ์พฤติกรรมของสภาพแวดล้อมได้ดีที่สุด หากพฤติกรรมเหล่านี้ได้รับการเลือกตามหลักการของอรรถประโยชน์ที่คาดหวังสูงสุด พฤติกรรมเชิงอะซิมโทติกของกฎการควบคุมแบบเบย์เซียนจะตรงกับพฤติกรรมเชิงอะซิมโทติกของตัวแทนที่มีเหตุผลอย่างสมบูรณ์แบบ

การตั้งค่าเป็นดังนี้ ให้เป็นการกระทำที่ตัวแทนดำเนินการจนถึงเวลาและให้เป็นการสังเกตที่ตัวแทนรวบรวมจนถึงเวลาจากนั้นตัวแทนจะดำเนินการด้วยความน่าจะเป็น: ^[⁵^] $a_{1},a_{2},\ldots ,a_{T}$ $T$ $o_{1},o_{2},\ldots ,o_{T}$ $T$ $a_{T+1}$

P(a_{T+1}|{\hat {a}}_{1:T},o_{1:T}),

โดยที่สัญลักษณ์ "หมวก" บ่งบอกถึงข้อเท็จจริงที่ว่าเป็นการแทรกแซงเชิงสาเหตุ (ดูความเป็นเหตุเป็นผล ) และไม่ใช่การสังเกตธรรมดา หากตัวแทนมีความเชื่อเกี่ยวกับพฤติกรรมของตนเอง กฎการควบคุมแบบเบย์เซียนก็จะกลายเป็น ${\hat {a}}_{t}$ $a_{t}$ $\theta \in \Theta$

P(a_{T+1}|{\hat {a}}_{1:T},o_{1:T})=\int _{\Theta }P(a_{T+1}|\theta ,{\hat {a}}_{1:T},o_{1:T})P(\theta |{\hat {a}}_{1:T},o_{1:T})\,d\theta

,

การแจกแจงความน่าจะเป็นภายหลังของพารามิเตอร์ที่กำหนดโดยการกระทำและการสังเกตนั้น อยู่ ที่ใด $P(\theta |{\hat {a}}_{1:T},o_{1:T})$ $\theta$ $a_{1:T}$ $o_{1:T}$

ในทางปฏิบัติ การควบคุมแบบเบย์เซียนเทียบเท่ากับการสุ่มเลือกพารามิเตอร์จากความน่าจะเป็นภายหลัง ในแต่ละช่วงเวลา โดยที่ความน่าจะเป็นภายหลังนั้นคำนวณโดยใช้กฎของเบย์ส โดยพิจารณาเฉพาะความน่าจะเป็น (เชิงสาเหตุ) ของการสังเกตการณ์และละเลยความน่าจะเป็น (เชิงสาเหตุ) ของการกระทำจากนั้นจึงสุ่มเลือกการกระทำจาก ความน่าจะเป็น ของการกระทำ $\theta ^{\ast }$ $P(\theta |{\hat {a}}_{1:T},o_{1:T})$ $o_{1},o_{2},\ldots ,o_{T}$ $a_{1},a_{2},\ldots ,a_{T}$ $a_{T+1}^{\ast }$ $P(a_{T+1}|\theta ^{\ast },{\hat {a}}_{1:T},o_{1:T})$

อัลกอริทึมขอบเขตความเชื่อมั่นบน (UCB)

การสุ่มตัวอย่างของ Thompson และอัลกอริธึมขอบเขตความเชื่อมั่นบนมีคุณสมบัติพื้นฐานร่วมกันซึ่งเป็นพื้นฐานของการรับประกันทางทฤษฎีหลายประการ โดยคร่าวๆ แล้ว อัลกอริธึมทั้งสองจะจัดสรรความพยายามในการสำรวจให้กับการกระทำที่อาจเหมาะสมที่สุดและในแง่นี้ถือว่า "มองโลกในแง่ดี" การใช้ประโยชน์จากคุณสมบัตินี้ทำให้สามารถแปลขอบเขตความเสียใจที่กำหนดขึ้นสำหรับอัลกอริธึม UCB ไปเป็น ขอบเขต ความเสียใจแบบเบย์เซียนสำหรับการสุ่มตัวอย่างของ Thompson ^{[ 13 ]}หรือรวมการวิเคราะห์ความเสียใจเข้าด้วยกันในอัลกอริธึมทั้งสองนี้และปัญหาหลายประเภท^{[ 14 ]}

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ] [

]

การ

[

[

[

[ 13 ]

[ 14 ]