กลับไปหน้าบทความ

อ่าน 4 นาที

การปรับเรียบแบบเพิ่ม

ในทางสถิติการปรับเรียบแบบเพิ่ม (additive smoothing ) หรือที่เรียกว่า การปรับเรียบแบบลาปลาซ (Laplace smoothing) หรือ การปรับเรียบแบบลิดส โตน (Lidstone smoothing )...

การปรับเรียบแบบเพิ่ม

ในทางสถิติการปรับเรียบแบบเพิ่ม (additive smoothing ) หรือที่เรียกว่า การปรับเรียบแบบลาปลาซ (Laplace smoothing) [ 1 ]หรือ การปรับเรียบแบบลิดส โตน (Lidstone smoothing ) เป็นเทคนิคที่ใช้ในการปรับเรียบข้อมูลการนับ เพื่อขจัดปัญหาที่เกิดจากค่าบางค่าที่มีจำนวนครั้งเป็น 0 เมื่อกำหนดชุดของการนับจากการแจกแจงพหุนามมิติ n ที่มีการทดลอง n ครั้ง เวอร์ชันที่ "ปรับเรียบ" ของการนับจะให้ค่าประมาณ

โดยที่จำนวนที่ปรับเรียบแล้วและ "จำนวนเสมือน" α  > 0 เป็นพารามิเตอร์ การปรับเรียบ โดยที่α  = 0 หมายถึงไม่มีการปรับเรียบ (พารามิเตอร์นี้จะอธิบายในหัวข้อ§ จำนวนเสมือน ด้านล่าง) การปรับเรียบแบบบวกเป็นการ ประมาณค่าแบบหดตัวประเภทหนึ่งเนื่องจากค่าประมาณที่ได้จะอยู่ระหว่างความน่าจะเป็นเชิงประจักษ์ ( ความถี่สัมพัทธ์ ) และความน่าจะเป็นแบบเอกรูปตัวเลือกทั่วไปสำหรับαคือ 0 (ไม่มีการปรับเรียบ)+1/2 (ความน่าจะเป็นก่อนหน้าของ Jeffreys ) หรือ 1 (กฎการสืบทอดของ Laplace ) [ 2 ] [ 3 ]แต่พารามิเตอร์อาจถูกกำหนดตามประสบการณ์โดยอิงจากข้อมูลที่สังเกต ได้

จากมุมมองแบบเบย์เซียน นี่สอดคล้องกับ ค่าที่คาดหวังของการแจกแจงภายหลังโดยใช้การแจกแจงแบบ Dirichlet สมมาตร ที่มีพารามิเตอร์αเป็นการแจกแจงก่อนหน้าในกรณีพิเศษที่จำนวนหมวดหมู่คือ 2 นี่เทียบเท่ากับการใช้การแจกแจงแบบเบต้าเป็นการแจกแจงก่อนหน้าแบบสังยุคสำหรับพารามิเตอร์ของการแจกแจงแบบทวินาม

ประวัติศาสตร์

Laplace คิดค้นเทคนิคการปรับเรียบนี้ขึ้นมาเมื่อเขาพยายามประเมินโอกาสที่ดวงอาทิตย์จะขึ้นในวันพรุ่งนี้ เหตุผลของเขาคือ แม้จะมีตัวอย่างวันที่ดวงอาทิตย์ขึ้นจำนวนมาก เราก็ยังไม่สามารถแน่ใจได้อย่างสมบูรณ์ว่าดวงอาทิตย์จะยังคงขึ้นในวันพรุ่งนี้ (ซึ่งเรียกว่าปัญหาพระอาทิตย์ขึ้น ) [ 4 ]

จำนวนเทียม

ค่าเสมือน (pseudocount)คือค่า (โดยทั่วไปไม่ใช่จำนวนเต็ม แม้ชื่อจะเป็นเช่นนั้น) ที่เพิ่มเข้าไปในจำนวนกรณีที่สังเกตได้ เพื่อเปลี่ยนแปลงความน่าจะ เป็นที่คาดหวัง ในแบบจำลองของข้อมูลเหล่านั้น เมื่อไม่ทราบว่าค่าเสมือนเป็นศูนย์ ที่ได้ชื่อเช่นนี้ก็เพราะโดยคร่าวๆ แล้ว ค่าเสมือนที่มีค่า เท่ากับ จะส่งผลต่อการแจกแจงความน่าจะเป็นภายหลัง (posterior distribution)ในลักษณะเดียวกับที่แต่ละหมวดหมู่มีค่าเสมือนเพิ่มเติมอีกค่าหนึ่งถ้าจำนวนครั้งที่เกิดขึ้นของแต่ละรายการอยู่นอกช่วงตัวอย่าง ความน่าจะเป็นเชิงประจักษ์ของเหตุการณ์จะเป็น

แต่ความน่าจะเป็นภายหลังเมื่อปรับเรียบแบบบวกแล้วคือ

ราวกับจะเพิ่มจำนวนแต่ละครั้งโดยอาศัยหลักการเบื้องต้น

ขึ้นอยู่กับความรู้ที่มีอยู่ก่อน ซึ่งบางครั้งอาจเป็นค่าเชิงอัตวิสัย ค่า pseudocount อาจมีค่าเป็นศูนย์หรือค่าจำกัดที่ไม่เป็นลบได้ ค่า pseudocount อาจเป็นศูนย์ (หรือละเลยความเป็นไปได้) ก็ต่อเมื่อเป็นไปไม่ได้ตามนิยาม เช่น ความเป็นไปได้ที่ตัวเลขทศนิยมของπจะเป็นตัวอักษร หรือความเป็นไปได้ทางกายภาพที่จะถูกปฏิเสธและไม่นับรวม เช่น คอมพิวเตอร์พิมพ์ตัวอักษรเมื่อรันโปรแกรมที่ถูกต้องสำหรับπหรือถูกยกเว้นและไม่นับรวมเพราะไม่น่าสนใจ เช่น หากสนใจเฉพาะเลขศูนย์และเลขหนึ่งเท่านั้น โดยทั่วไปแล้ว ยังมีความเป็นไปได้ที่ไม่มีค่าใดสามารถคำนวณหรือสังเกตได้ในเวลาจำกัด (ดูปัญหาการหยุดทำงาน ) แต่ต้องมีอย่างน้อยหนึ่งความเป็นไปได้ที่มีค่า pseudocount ไม่เป็นศูนย์ มิฉะนั้นจะไม่สามารถคำนวณการทำนายได้ก่อนการสังเกตครั้งแรก ค่าสัมพัทธ์ของ pseudocount แสดงถึงความน่าจะเป็นที่คาดหวังก่อนหน้าของความเป็นไปได้ต่างๆ ผลรวมของค่าประมาณของข้อมูลเสมือน ซึ่งอาจมีค่ามาก แสดงถึงน้ำหนักโดยประมาณของความรู้เดิมเมื่อเทียบกับข้อมูลสังเกตการณ์จริงทั้งหมด (หนึ่งค่าสำหรับแต่ละกรณี) ในการกำหนดความน่าจะเป็นที่คาดหวัง

ในชุดข้อมูลหรือตัวอย่าง ที่สังเกตได้ใดๆ ก็ตาม มีความเป็นไปได้ โดยเฉพาะอย่างยิ่งกับเหตุการณ์ ที่มีความน่าจะเป็นต่ำ และชุดข้อมูลขนาดเล็ก ที่เหตุการณ์นั้นอาจจะไม่เกิดขึ้น ความถี่ที่สังเกตได้จึงเป็นศูนย์ ซึ่งดูเหมือนจะหมายถึงความน่าจะเป็นเป็นศูนย์ การทำให้ง่ายเกินไปเช่นนี้ไม่ถูกต้องและมักไม่เป็นประโยชน์ โดยเฉพาะอย่างยิ่งใน เทคนิค การเรียนรู้ของเครื่องจักร ที่อิงตามความน่าจะเป็น เช่นโครงข่ายประสาทเทียมและแบบจำลองมาร์คอฟที่ซ่อนอยู่การปรับความน่าจะเป็นของเหตุการณ์ที่หายาก (แต่ไม่ใช่เหตุการณ์ที่เป็นไปไม่ได้) อย่างประดิษฐ์ เพื่อให้ความน่าจะเป็นเหล่านั้นไม่เป็นศูนย์อย่างแน่นอน จะช่วยหลีกเลี่ยง ปัญหาความถี่เป็นศูนย์ได้ โปรดดูที่กฎของครอมเวลล์ด้วย

การเลือกจำนวนเทียม

ข้อมูลเบื้องต้นที่ไม่ชัดเจน

แนวทางทั่วไปอย่างหนึ่งคือการเพิ่ม 1 ให้กับจำนวนเหตุการณ์ที่สังเกตได้แต่ละครั้ง รวมถึงความเป็นไปได้ที่มีจำนวนเหตุการณ์เป็นศูนย์ด้วย วิธีนี้บางครั้งเรียกว่ากฎการสืบทอด ของลาปลา ซ แนวทางนี้เทียบเท่ากับการสมมติว่ามีการกระจายความน่าจะเป็นแบบสม่ำเสมอสำหรับความน่าจะเป็นของแต่ละเหตุการณ์ที่เป็นไปได้ (ครอบคลุมซิมเพล็กซ์ที่ความน่าจะเป็นแต่ละค่าอยู่ระหว่าง 0 ถึง 1 และผลรวมของความน่าจะเป็นทั้งหมดเท่ากับ 1)

เมื่อใช้ แนวทาง ก่อนหน้าของเจฟฟรีย์จะต้องเพิ่มค่าเสมือนครึ่งหนึ่งให้กับผลลัพธ์ที่เป็นไปได้แต่ละรายการ

ค่า Pseudocount ควรตั้งไว้ที่หนึ่งหรือครึ่งหนึ่งก็ต่อเมื่อไม่มีความรู้มาก่อนเลย – ดูหลักการความไม่แยแสอย่างไรก็ตาม เมื่อมีความรู้มาก่อนที่เหมาะสมแล้ว ผลรวมควรได้รับการปรับตามสัดส่วนของความคาดหวังว่าความน่าจะเป็นก่อนหน้านั้นควรได้รับการพิจารณาว่าถูกต้อง แม้จะมีหลักฐานที่ขัดแย้งกันก็ตาม – ดูการวิเคราะห์เพิ่มเติมค่าที่สูงขึ้นเหมาะสมเมื่อมีความรู้มาก่อนเกี่ยวกับค่าที่แท้จริง (เช่น สำหรับเหรียญที่อยู่ในสภาพสมบูรณ์) ค่าที่ต่ำลงเหมาะสมเมื่อมีความรู้มาก่อนว่ามีความคลาดเคลื่อนที่น่าจะเป็นไปได้ แต่ไม่ทราบระดับ (เช่น สำหรับเหรียญที่งอ)

ช่วงเวลาความถี่

วิธีหนึ่งในการให้เหตุผลสนับสนุนการนับเทียม โดยเฉพาะอย่างยิ่งสำหรับข้อมูลทวินาม คือการใช้สูตรสำหรับจุดกึ่งกลางของการประมาณช่วงโดยเฉพาะช่วงความเชื่อมั่นของสัดส่วนทวินาม สูตรที่รู้จักกันดีที่สุดมาจากEdwin Bidwell WilsonในWilson (1927) : จุดกึ่งกลางของช่วงคะแนน Wilsonที่สอดคล้องกับ ค่าเบี่ยง เบนมาตรฐานทั้งสองด้านคือ

การใช้ค่าเบี่ยงเบนมาตรฐานเพื่อประมาณช่วงความเชื่อมั่น 95% ( ) จะได้ค่า pseudocount เท่ากับ 2 สำหรับแต่ละผลลัพธ์ รวมเป็น 4 ซึ่งเรียกกันทั่วไปว่า "กฎบวกสี่":

นี่คือจุดกึ่งกลางของช่วง Agresti–Coull ( Agresti & Coull 1998 )

อัตราการเกิดโรคที่ทราบ

โดยทั่วไปแล้ว อคติของประชากรทดลองที่ไม่ทราบค่าจะถูกทดสอบกับประชากรควบคุมที่มีพารามิเตอร์ที่ทราบค่า (อัตราการเกิดโรค) ในกรณีนี้ ความน่าจะเป็นแบบเอกรูปควรถูกแทนที่ด้วยอัตราการเกิดโรคที่ทราบค่าของประชากรควบคุมเพื่อคำนวณตัวประมาณค่าแบบปรับเรียบ:

เพื่อตรวจสอบความสอดคล้อง หากค่าประมาณเชิงประจักษ์เท่ากับอัตราการเกิดเหตุการณ์ นั่นหมายความว่าค่าประมาณแบบปรับเรียบเป็นอิสระจากและเท่ากับอัตราการเกิดเหตุการณ์ด้วย

แอปพลิเคชัน

การจำแนกประเภท

การปรับเรียบแบบเพิ่ม (Additive smoothing) มักเป็นส่วนประกอบหนึ่งของตัวจำแนกแบบเบย์สแบบง่าย (naive Bayes classifiers )

การสร้างแบบจำลองภาษาเชิงสถิติ

ในแบบจำลองถุงคำของการประมวลผลภาษาธรรมชาติและการดึงข้อมูล ข้อมูลประกอบด้วยจำนวนครั้งที่แต่ละคำปรากฏในเอกสาร การปรับเรียบแบบเพิ่มช่วยให้สามารถกำหนดความน่าจะเป็นที่ไม่เป็นศูนย์ให้กับคำที่ไม่ปรากฏในตัวอย่างได้ การศึกษาแสดงให้เห็นว่าการปรับเรียบแบบเพิ่มมีประสิทธิภาพมากกว่าวิธีการปรับเรียบความน่าจะเป็นอื่นๆ ในงานดึงข้อมูลหลายอย่าง เช่นการตอบรับความเกี่ยวข้องเทียม ตามแบบจำลองภาษา และระบบแนะนำ[ 5 ] [ 6 ]

ดูเพิ่มเติม

แหล่งที่มา

  • Wilson, EB (1927). "การอนุมานที่น่าจะเป็นไปได้ กฎแห่งการสืบทอด และการอนุมานทางสถิติ" วารสารสมาคมสถิติอเมริกัน 22 ( 158): 209– 212. doi : 10.1080/01621459.1927.10502953 . JSTOR  2276774 .
  • Agresti, Alan; Coull, Brent A. (1998). "การประมาณค่าแบบประมาณดีกว่า 'ค่าที่แน่นอน' สำหรับการประมาณช่วงของสัดส่วนทวินาม" The American Statistician . 52 (2): 119– 126. doi : 10.2307/2685469 . JSTOR  2685469 . MR  1628435 .
  • SF Chen, J Goodman (1996). " การศึกษาเชิงประจักษ์เกี่ยวกับเทคนิคการปรับให้เรียบสำหรับการสร้างแบบจำลองภาษา " รายงานการประชุมประจำปีครั้งที่ 34 ของสมาคมภาษาศาสตร์เชิงคำนวณ
  • จำนวนนับเทียม
    • การตีความแบบเบย์เซียนของตัวควบคุมค่าเสมือนนับ
  • วิดีโออธิบายการใช้การปรับเรียบแบบเพิ่ม (Additive smoothing) ในตัวจำแนกแบบ Naïve Bayes
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Additive_smoothing&oldid=1344018775 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การปรับเรียบแบบเพิ่ม

ในทางสถิติการปรับเรียบแบบเพิ่ม (additive smoothing ) หรือที่เรียกว่า การปรับเรียบแบบลาปลาซ (Laplace smoothing) หรือ การปรับเรียบแบบลิดส โตน (Lidstone smoothing )...

ประวัติศาสตร์

Laplace คิดค้นเทคนิคการปรับเรียบนี้ขึ้นมาเมื่อเขาพยายามประเมินโอกาสที่ดวงอาทิตย์จะขึ้นในวันพรุ่งนี้ เหตุผลของเขาคือ แม้จะมีตัวอย่างวันที่ดวงอาทิตย์ขึ้นจำนวนมาก เราก็ยังไม่สามารถแน่ใจได้อย่างสมบูรณ์ว่าดวงอาทิตย์จะยังคงขึ้นในวันพรุ่งนี้ (ซึ่งเรียกว่า...

จำนวนเทียม

ค่า เสมือน (pseudocount) คือค่า (โดยทั่วไปไม่ใช่จำนวนเต็ม แม้ชื่อจะเป็นเช่นนั้น) ที่เพิ่มเข้าไปในจำนวนกรณีที่สังเกตได้ เพื่อเปลี่ยนแปลง ความน่าจะ เป็นที่คาดหวัง ใน แบบจำลอง ของข้อมูลเหล่านั้น เมื่อไม่ทราบว่าค่าเสมือนเป็นศูนย์ ที่ได้ชื่อเช่นนี้ก็เพราะโดยคร่าวๆ...

การเลือกจำนวนเทียม

แนวทางทั่วไปอย่างหนึ่งคือการเพิ่ม 1 ให้กับจำนวนเหตุการณ์ที่สังเกตได้แต่ละครั้ง รวมถึงความเป็นไปได้ที่มีจำนวนเหตุการณ์เป็นศูนย์ด้วย วิธีนี้บางครั้งเรียกว่า กฎการสืบทอด ของลาปลา ซ...