กลับไปหน้าบทความ

อ่าน 7 นาที

การสุ่มตัวอย่างการแปลงผกผัน

การสุ่มตัวอย่างแบบแปลงผกผัน (หรือที่รู้จักกันในชื่อ การสุ่มตัวอย่างแบบผกผัน การ แปลงอินทิกรัลความน่าจะเป็นผกผัน วิธี การแปลงผกผัน หรือ การแปลง Smirnov ) เป็นวิธีการพื้นฐานสำหรับ...

การสุ่มตัวอย่างการแปลงผกผัน

การสุ่มตัวอย่างแบบแปลงผกผัน (หรือที่รู้จักกันในชื่อการสุ่มตัวอย่างแบบผกผันการแปลงอินทิกรัลความน่าจะเป็นผกผันวิธีการแปลงผกผันหรือการแปลงSmirnov ) เป็นวิธีการพื้นฐานสำหรับการสุ่มตัวอย่างตัวเลขสุ่มเทียม กล่าวคือ สำหรับการ สร้าง ตัวเลขตัวอย่างแบบสุ่มจากฟังก์ชันการกระจายความน่าจะเป็น ใดๆ โดยกำหนดฟังก์ชันการกระจายสะสม

การสุ่มตัวอย่างแบบแปลงผกผัน (Inverse transformation sampling) จะสุ่มตัวอย่างแบบสม่ำเสมอด้วยตัวเลขระหว่าง 0 ถึง 1 ซึ่งตีความได้ว่าเป็นความน่าจะเป็น แล้วส่งคืนตัวเลขที่เล็กที่สุดที่ทำให้ฟังก์ชันการแจกแจงสะสมของตัวแปรสุ่มนั้นเป็นจริง ตัวอย่างเช่น สมมติว่า คือ การแจกแจงปกติมาตรฐานที่มีค่าเฉลี่ยเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานเป็นหนึ่ง ตารางด้านล่างแสดงตัวอย่างที่ได้จากการแจกแจงแบบสม่ำเสมอและการแสดงผลบนการแจกแจงปกติมาตรฐาน

การเปลี่ยนจากตัวอย่างที่เป็นเนื้อเดียวกันไปเป็นปกติ
0.50
0.9751.95996
0.9952.5758
.9999994.75342
1-2 −528.12589
การสุ่มตัวอย่างแบบแปลงผกผันสำหรับการแจกแจงแบบปกติ

เราสุ่มเลือกสัดส่วนของพื้นที่ใต้เส้นโค้ง และส่งคืนค่าตัวเลขในโดเมน โดยที่สัดส่วนของพื้นที่นั้นจะปรากฏอยู่ทางด้านซ้ายของตัวเลขที่เลือกไว้ โดยสัญชาตญาณแล้ว เราไม่น่าจะเลือกตัวเลขที่อยู่ปลายสุดของเส้นโค้ง เพราะมีพื้นที่น้อยมาก ซึ่งจะทำให้ต้องเลือกตัวเลขที่ใกล้เคียงกับศูนย์หรือหนึ่งมาก

ในเชิงการคำนวณ วิธีนี้เกี่ยวข้องกับการคำนวณฟังก์ชันควอนไทล์ของการแจกแจง — กล่าวอีกนัยหนึ่งคือ การคำนวณฟังก์ชันการแจกแจงสะสม (CDF) ของการแจกแจง (ซึ่งแปลงตัวเลขในโดเมนเป็นความน่าจะเป็นระหว่าง 0 ถึง 1) แล้วจึงหาฟังก์ชันผกผันของฟังก์ชันนั้น นี่คือที่มาของคำว่า "ผกผัน" หรือ "การกลับด้าน" ในชื่อส่วนใหญ่ของวิธีนี้ โปรดทราบว่าสำหรับการแจกแจงแบบไม่ต่อเนื่องการคำนวณ CDF โดยทั่วไปไม่ใช่เรื่องยากเกินไป: เราเพียงแค่บวกความน่าจะเป็นแต่ละจุดของการแจกแจงเข้าด้วยกัน อย่างไรก็ตาม สำหรับการแจกแจงแบบต่อเนื่องเราจำเป็นต้องหาปริพันธ์ของฟังก์ชันความหนาแน่นความน่าจะเป็น (PDF) ของการแจกแจง ซึ่งเป็นไปไม่ได้ที่จะทำได้โดยวิธีวิเคราะห์สำหรับหลายๆ การแจกแจง (รวมถึงการแจกแจงปกติ ) ด้วยเหตุนี้ วิธีนี้อาจไม่มีประสิทธิภาพในการคำนวณสำหรับหลายๆ การแจกแจง และอาจนิยมใช้วิธีอื่นๆ มากกว่า อย่างไรก็ตาม วิธีนี้เป็นวิธีที่มีประโยชน์สำหรับการสร้างตัวสุ่มตัวอย่างที่ใช้งานได้ทั่วไปมากขึ้น เช่น ตัวสุ่มตัวอย่างที่ใช้การ สุ่มตัวอย่างแบบปฏิเสธ

สำหรับการแจกแจงปกติการขาดการแสดงออกเชิงวิเคราะห์สำหรับฟังก์ชันควอนไทล์ที่สอดคล้องกันหมายความว่าวิธีการอื่น ๆ (เช่นการแปลง Box–Muller ) อาจเป็นที่ต้องการมากกว่าในเชิงการคำนวณ บ่อยครั้งที่แม้แต่สำหรับการแจกแจงแบบง่าย ๆ วิธีการสุ่มตัวอย่างแบบแปลงผกผันก็สามารถปรับปรุงได้[ 1 ]ดูตัวอย่างเช่นอัลกอริทึมซิกกูแรตและการสุ่มตัวอย่างแบบปฏิเสธ ในทางกลับกัน เป็นไปได้ที่จะประมาณฟังก์ชันควอนไทล์ของการแจกแจงปกติได้อย่างแม่นยำมากโดยใช้พหุนามระดับปานกลาง และในความเป็นจริงวิธีการทำเช่นนี้เร็วพอที่การสุ่มตัวอย่างแบบผกผันจะ เป็นวิธีการเริ่มต้นสำหรับการสุ่มตัวอย่างจากการแจกแจงปกติในแพ็คเกจทางสถิติR [ 2 ]

คำแถลงอย่างเป็นทางการ

สำหรับตัวแปรสุ่ม ใดๆ บนตัวแปรสุ่มจะมีการกระจายแบบเดียวกันกับโดยที่คือผกผันทั่วไปของฟังก์ชันการกระจายสะสมของและเป็นแบบเอกรูปบน[ 3 ]

สำหรับตัวแปรสุ่มต่อเนื่อง การแปลงอินทิก รัลความน่าจะเป็นผกผันนั้นแท้จริงแล้วคือส่วนกลับของการแปลงอินทิกรัลความน่าจะเป็นซึ่งระบุว่าสำหรับตัวแปรสุ่มต่อเนื่อง ที่มีฟังก์ชันการกระจายสะสมตัวแปรสุ่มนั้นจะเป็นแบบเอกรูป บน

กราฟแสดงเทคนิคการผกผันจากถึง โดยที่ด้านล่างขวาแสดงฟังก์ชันปกติ และด้านบนซ้ายแสดงฟังก์ชันผกผัน

ปรีชา

จากนั้นเราต้องการสร้างด้วยฟังก์ชันการกระจายสะสม (CDF)เราสมมติว่า เป็นฟังก์ชันต่อเนื่องที่เพิ่มขึ้น อย่างเคร่งครัด ซึ่งช่วยให้เข้าใจได้ง่าย

เราต้องการตรวจสอบว่าเราสามารถหาการแปลงแบบโมโนโทนอย่างเคร่งครัดได้หรือไม่ เช่นเราจะมี

โดยขั้นตอนสุดท้ายใช้เมื่อเป็นแบบสม่ำเสมอบน.

ดังนั้น เราจึงต้องเป็นฟังก์ชันผกผันของหรือเทียบเท่ากับ

ดังนั้น เราจึงสามารถสร้างจาก

วิธีการ

แผนภาพแสดงการสุ่มตัวอย่างแบบแปลงผกผัน ฟังก์ชันผกผันของสามารถกำหนดได้โดย
ภาพเคลื่อนไหวแสดงวิธีการที่การสุ่มตัวอย่างแบบแปลงผกผันสร้างค่าสุ่มที่มีการกระจายแบบปกติจากค่าสุ่มที่มีการกระจายแบบสม่ำเสมอ

ปัญหาที่วิธีการสุ่มตัวอย่างแบบแปลงผกผันช่วยแก้ไขมีดังนี้:

  • ให้เป็นตัวแปรสุ่มที่มีการกระจายตัวตามฟังก์ชันการกระจายสะสม
  • เราต้องการสร้างค่าต่างๆ ที่มีการกระจายตัวตามการแจกแจงนี้

วิธีการสุ่มตัวอย่างแบบแปลงผกผันทำงานดังนี้:

  1. สร้างเลขสุ่ม จาก1การแจกแจงเอกรูปมาตรฐานในช่วงเช่น จาก
  2. หาอินเวอร์สทั่วไปของฟังก์ชันการกระจายสะสมที่ต้องการ นั่นคือ
  3. คำนวณตัวแปรสุ่มที่คำนวณได้จะมีการกระจายตัวแบบเดียวกันกับ และด้วยเหตุนี้จึงมีกฎการกระจายตัวแบบเดียวกันกับ

กล่าวอีกนัยหนึ่งคือ เมื่อกำหนดฟังก์ชันการกระจายสะสมและตัวแปรสม่ำเสมอตัวแปรสุ่มจะมีการกระจาย[ 3 ]

ในกรณีต่อเนื่อง การปฏิบัติต่อฟังก์ชันผกผันดังกล่าวในฐานะวัตถุที่สอดคล้องกับสมการเชิงอนุพันธ์สามารถทำได้[ 4 ]สมการเชิงอนุพันธ์บางสมการยอมรับ คำตอบ อนุกรมกำลัง ที่ชัดเจน แม้ว่าจะไม่เชิงเส้นก็ตาม[ 5 ]

ตัวอย่าง

เพื่อทำการผกผัน เราต้องการหาคำตอบสำหรับ
จากตรงนี้ เราจะดำเนินการตามขั้นตอนที่หนึ่ง สอง และสาม
  • อีกตัวอย่างหนึ่ง เราใช้การแจกแจงแบบเอกซ์โปเนนเชียลโดยที่x ≥ 0 (และ 0 ในกรณีอื่น ๆ) โดยการแก้สมการ y=F(x) เราจะได้ฟังก์ชันผกผัน
หมายความว่า ถ้าเราสุ่มตัวอย่างบางส่วนจาก a แล้วคำนวณ ผลลัพธ์ ที่ได้จะมีการกระจายแบบเอกซ์โปเนนเชียล
แนวคิดนี้แสดงให้เห็นได้ในกราฟต่อไปนี้:
ตัวเลขสุ่ม y iถูกสร้างขึ้นจากการแจกแจงแบบเอกรูป (uniform distribution) ระหว่าง 0 และ 1 นั่นคือ Y ~ U(0, 1) ตัวเลขเหล่านี้ถูกวาดเป็นจุดสีบนแกน y แต่ละจุดจะถูกแมปตาม x=F −1 (y) ซึ่งแสดงด้วยลูกศรสีเทาสำหรับจุดตัวอย่างสองจุด ในตัวอย่างนี้ เราใช้การแจกแจงแบบเอกซ์โปเนนเชียล ดังนั้น สำหรับ x ≥ 0 ความหนาแน่นของความน่าจะเป็นคือและฟังก์ชันการแจกแจงสะสมคือดังนั้นเราจะเห็นได้ว่าเมื่อใช้วิธีนี้ จุดจำนวนมากจะอยู่ใกล้ 0 และมีเพียงไม่กี่จุดเท่านั้นที่มีค่า x สูง ซึ่งเป็นไปตามที่คาดไว้สำหรับการแจกแจงแบบเอกซ์โปเนนเชียล
โปรดทราบว่าการแจกแจงจะไม่เปลี่ยนแปลงหากเราเริ่มต้นด้วย 1-y แทนที่จะเป็น y ดังนั้นเพื่อวัตถุประสงค์ในการคำนวณ จึงเพียงพอที่จะสร้างตัวเลขสุ่ม y ในช่วง [0, 1] แล้วคำนวณค่าออกมา

หลักฐานยืนยันความถูกต้อง

ให้เป็นฟังก์ชันการกระจายสะสมและให้เป็นฟังก์ชันผกผันทั่วไป (โดยใช้ค่าต่ำสุดเนื่องจาก CDF เป็นแบบโมโนโทนิกอ่อนและต่อเนื่องทางขวา ): [ 6 ]

ข้ออ้าง:ถ้าเป็นตัวแปรสุ่มเอกรูปบนแล้วจะมีเป็นฟังก์ชันการกระจายสะสม (CDF) ของมัน

การพิสูจน์:

การแจกแจงแบบตัดทอน

การสุ่มตัวอย่างแบบแปลงผกผันสามารถขยายไปยังกรณีของการแจกแจงแบบตัดทอนในช่วงได้ อย่างง่ายดาย โดยไม่ต้องเสียค่าใช้จ่ายในการสุ่มตัวอย่างแบบปฏิเสธ: สามารถใช้อัลกอริทึมเดียวกันได้ แต่แทนที่จะสร้างตัวเลขสุ่มที่มีการแจกแจงแบบสม่ำเสมอระหว่าง 0 และ 1 ให้สร้างตัวเลขสุ่มที่มีการแจกแจงแบบสม่ำเสมอระหว่างและจากนั้นจึงเลือกอีกครั้ง

การลดจำนวนการกลับด้าน

เพื่อให้ได้ตัวอย่างจำนวนมาก จำเป็นต้องทำการผกผันการแจกแจงจำนวนเท่ากัน วิธีหนึ่งที่เป็นไปได้ในการลดจำนวนการผกผันในขณะที่ได้ตัวอย่างจำนวนมากคือการประยุกต์ใช้ตัวสุ่มแบบมอนเตคาร์โลแบบการจัดเรียงแบบสุ่ม (SCMC sampler) ภายใน กรอบการขยาย ความโกลาหลพหุนามซึ่งช่วยให้เราสามารถสร้างตัวอย่างมอนเตคาร์โลจำนวนเท่าใดก็ได้ด้วยการผกผันการแจกแจงดั้งเดิมเพียงไม่กี่ครั้งด้วยตัวอย่างอิสระของตัวแปรที่สามารถผกผันได้โดยการวิเคราะห์ เช่น ตัวแปรปกติมาตรฐาน[ 7 ]

การนำซอฟต์แวร์ไปใช้งาน

มีการใช้งานซอฟต์แวร์สำหรับการประยุกต์ใช้วิธีการสุ่มตัวอย่างแบบผกผันโดยใช้การประมาณเชิงตัวเลขของค่าผกผันในกรณีที่ไม่มีอยู่ในรูปแบบปิด ตัวอย่างเช่น สามารถคำนวณค่าประมาณของค่าผกผันได้หากผู้ใช้ให้ข้อมูลบางอย่างเกี่ยวกับการกระจาย เช่น PDF [ 8 ]หรือ CDF

  • ไลบรารี C UNU.RAN [ 9 ]
  • ไลบรารี R Runuran [ 10 ]
  • การสุ่มตัวอย่างแพ็กเกจย่อย Python ในscipy.stats [ 11 ] [ 12 ]

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Inverse_transform_sampling&oldid=1330078866 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การสุ่มตัวอย่างการแปลงผกผัน

การสุ่มตัวอย่างแบบแปลงผกผัน (หรือที่รู้จักกันในชื่อ การสุ่มตัวอย่างแบบผกผัน การ แปลงอินทิกรัลความน่าจะเป็นผกผัน วิธี การแปลงผกผัน หรือ การแปลง Smirnov ) เป็นวิธีการพื้นฐานสำหรับ...

คำแถลงอย่างเป็นทางการ

สำหรับ ตัวแปรสุ่ม ใดๆ บนตัวแปรสุ่มจะมีการกระจายแบบเดียวกันกับโดยที่คือ ผกผันทั่วไป ของ ฟังก์ชันการกระจายสะสม ของและเป็นแบบเอกรูปบน [ 3 ] X {\displaystyle X} อาร์ {\displaystyle \mathbb {R} } เอฟ X − 1 ( ยู ) {\displaystyle F_{X}^{-1}(U)} X {\displaystyle X}...

ปรีชา

จากนั้นเราต้องการสร้างด้วย ฟังก์ชันการกระจายสะสม (CDF) เราสมมติว่า เป็น ฟังก์ชันต่อเนื่องที่เพิ่มขึ้น อย่างเคร่งครัด ซึ่งช่วยให้เข้าใจได้ง่าย ยู ~ ยู n ฉัน เอฟ [ 0 , 1 ] {\displaystyle U\sim \mathrm {Unif} [0,1]} X {\displaystyle X} เอฟ X ( x ) .

วิธีการ

ปัญหาที่วิธีการสุ่มตัวอย่างแบบแปลงผกผันช่วยแก้ไขมีดังนี้: