การประมาณค่า (ทางสถิติ)

ในทางสถิติ การเติมค่า ( Imputation)คือกระบวนการแทนที่ข้อมูลที่หายไปด้วยค่าที่แทนที่แล้ว เมื่อแทนที่จุดข้อมูล จะเรียกว่า " การเติมค่าหน่วย " (Unit Imputation) เมื่อแทนที่ส่วนประกอบของจุดข้อมูล จะเรียกว่า " การเติมค่ารายการ" (Item Imputation ) ข้อมูลที่หายไปก่อให้เกิดปัญหาหลักสามประการ ได้แก่ ข้อมูลที่หายไปสามารถทำให้เกิด อคติจำนวนมากทำให้การจัดการและการวิเคราะห์ข้อมูลยากขึ้น และทำให้ประสิทธิภาพ ลด ลง^{[ 1 ]}เนื่องจากข้อมูลที่หายไปสามารถสร้างปัญหาในการวิเคราะห์ข้อมูลได้ การเติมค่าจึงถูกมองว่าเป็นวิธีหลีกเลี่ยงข้อผิดพลาดที่เกี่ยวข้องกับการลบกรณีที่มีค่าหายไปทั้งหมดกล่าวคือ เมื่อมีค่าหายไปหนึ่งค่าหรือมากกว่าสำหรับกรณีหนึ่งแพ็กเกจทางสถิติ ส่วนใหญ่ จะตัดกรณีที่มีค่าหายไปทิ้ง ซึ่งอาจทำให้เกิดอคติหรือส่งผลต่อความน่าเชื่อถือของผลลัพธ์ การเติมค่าจะรักษากรณีทั้งหมดไว้โดยการแทนที่ข้อมูลที่หายไปด้วยค่าประมาณตามข้อมูลอื่นที่มีอยู่ เมื่อเติมค่าที่หายไปทั้งหมด แล้ว ชุดข้อมูลสามารถวิเคราะห์ได้โดยใช้เทคนิคมาตรฐานสำหรับข้อมูลที่สมบูรณ์^{[ 2 ]}นักวิทยาศาสตร์ได้นำทฤษฎีมากมายมาใช้เพื่ออธิบายข้อมูลที่หายไป แต่ส่วนใหญ่ทำให้เกิดอคติ ความพยายามที่รู้จักกันดีในการจัดการกับข้อมูลที่หายไป ได้แก่การเติมค่าแบบhot deckและcold deck การลบ แบบ listwise และ pairwise การเติมค่า เฉลี่ยการแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบ การเติมค่าแบบถดถอย การใช้ค่าสังเกตสุดท้ายแทนค่าที่หายไปการเติมค่าแบบสุ่มและ การ เติม ค่าหลายครั้ง

การลบรายการทั้งหมด (กรณีสมบูรณ์)

โดยทั่วไปแล้ว วิธีที่พบได้บ่อยที่สุดในการจัดการกับข้อมูลที่หายไปคือการลบข้อมูลทั้งหมด (หรือที่เรียกว่ากรณีที่สมบูรณ์) ซึ่งก็คือการลบข้อมูลทั้งหมดที่มีค่าหายไป หากข้อมูลหายไปโดยสมบูรณ์แบบสุ่ม การลบข้อมูลทั้งหมดจะไม่ทำให้เกิดอคติ แต่จะลดประสิทธิภาพของการวิเคราะห์ลงโดยการลดขนาดตัวอย่างที่มีประสิทธิภาพ ตัวอย่างเช่น หากเก็บรวบรวมข้อมูลได้ 1,000 กรณี แต่มี 80 กรณีที่มีค่าหายไป ขนาดตัวอย่างที่มีประสิทธิภาพหลังจากลบข้อมูลทั้งหมดแล้วคือ 920 หากข้อมูลไม่ได้หายไปโดยสมบูรณ์แบบสุ่ม การลบข้อมูลทั้งหมดจะทำให้เกิดอคติ เนื่องจากตัวอย่างย่อยของกรณีที่แสดงโดยข้อมูลที่หายไปนั้นไม่ได้เป็นตัวแทนของตัวอย่างดั้งเดิม (และหากตัวอย่างดั้งเดิมนั้นเป็นตัวแทนของประชากร ข้อมูลที่สมบูรณ์ก็ไม่ได้เป็นตัวแทนของประชากรนั้นเช่นกัน) ^{[ 3 ]}แม้ว่าการลบข้อมูลทั้งหมดจะไม่ทำให้เกิดอคติเมื่อข้อมูลที่หายไปหายไปโดยสมบูรณ์แบบสุ่ม แต่ในความเป็นจริงแล้วกรณีนี้เกิดขึ้นได้ยาก^{[ 4 ]}

การลบแบบจับคู่ (หรือ "การวิเคราะห์กรณีที่มีอยู่") เกี่ยวข้องกับการลบกรณีเมื่อขาดตัวแปรที่จำเป็นสำหรับการวิเคราะห์เฉพาะ แต่รวมกรณีนั้นไว้ในการวิเคราะห์ที่มีตัวแปรที่จำเป็นทั้งหมด เมื่อใช้การลบแบบจับคู่ ค่า N ทั้งหมดสำหรับการวิเคราะห์จะไม่สอดคล้องกันในการประมาณค่าพารามิเตอร์ เนื่องจากค่า N ไม่สมบูรณ์ในบางช่วงเวลา ในขณะที่ยังคงรักษาการเปรียบเทียบกรณีที่สมบูรณ์สำหรับพารามิเตอร์อื่น การลบแบบจับคู่สามารถทำให้เกิดสถานการณ์ทางคณิตศาสตร์ที่เป็นไปไม่ได้ เช่น ความสัมพันธ์ที่มากกว่า 100% ^{[ 5 ]}

ข้อดีอย่างหนึ่งของการลบข้อมูลแบบครบถ้วนเมื่อพิจารณาทั้งตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก เมื่อเทียบกับวิธีการอื่นๆ คือ วิธีนี้ตรงไปตรงมาและง่ายต่อการใช้งาน นี่เป็นเหตุผลสำคัญที่ทำให้การลบข้อมูลแบบครบถ้วนเมื่อพิจารณาทั้งตัวพิมพ์ใหญ่และตัวพิมพ์เล็กเป็นวิธีที่ได้รับความนิยมมากที่สุดในการจัดการกับข้อมูลที่ขาดหายไป แม้ว่าจะมีข้อเสียอยู่หลายประการก็ตาม

การเติมข้อมูลแบบเดี่ยว

ฮอตเด็ค

วิธีการเติมค่าที่หายไปที่เคยใช้กันทั่วไปวิธีหนึ่งคือ การเติมค่าแบบ "hot-deck" ซึ่งเป็นการเติมค่าที่หายไปจากระเบียนที่คล้ายคลึงกันที่ถูกเลือกแบบสุ่ม คำว่า "hot deck" มีที่มาจากวิธีการจัดเก็บข้อมูลบนบัตรเจาะรูและบ่งชี้ว่าข้อมูลที่นำมาให้มาจากชุดข้อมูลเดียวกันกับข้อมูลที่รับมา บัตรเหล่านั้น "ร้อน" เพราะกำลังถูกประมวลผลอยู่ในขณะนั้น

รูปแบบหนึ่งของการเติมค่าแบบ hot-deck เรียกว่า "การนำค่าสังเกตการณ์ครั้งสุดท้ายมาใช้แทน" (หรือ LOCF) ซึ่งเกี่ยวข้องกับการเรียงลำดับชุดข้อมูลตามตัวแปรจำนวนหนึ่ง ทำให้เกิดชุดข้อมูลที่เรียงลำดับ จากนั้นเทคนิคนี้จะค้นหาค่าที่หายไปค่าแรกและใช้ค่าในเซลล์ก่อนหน้าข้อมูลที่หายไปเพื่อเติมค่าที่หายไป กระบวนการนี้จะทำซ้ำสำหรับเซลล์ถัดไปที่มีค่าที่หายไปจนกว่าจะเติมค่าที่หายไปทั้งหมด ในสถานการณ์ทั่วไปที่กรณีต่างๆ เป็นการวัดค่าตัวแปรซ้ำๆ สำหรับบุคคลหรือหน่วยงานอื่น วิธีนี้แสดงถึงความเชื่อที่ว่าหากการวัดค่าหายไป การคาดเดาที่ดีที่สุดคือค่าดังกล่าวไม่ได้เปลี่ยนแปลงไปจากครั้งสุดท้ายที่วัด วิธีนี้เป็นที่ทราบกันดีว่าเพิ่มความเสี่ยงต่ออคติและอาจนำไปสู่ข้อสรุปที่ผิดพลาด ด้วยเหตุนี้จึงไม่แนะนำให้ใช้ LOCF ^{[ 6 ]}

ดาดฟ้าเย็น

ในทางตรงกันข้าม การเติมข้อมูลแบบ Cold-deck จะเลือกผู้ให้ข้อมูลจากชุดข้อมูลอื่น เนื่องจากความก้าวหน้าของกำลังการประมวลผลคอมพิวเตอร์ วิธีการเติมข้อมูลที่ซับซ้อนกว่าจึงเข้ามาแทนที่เทคนิคการเติมข้อมูลแบบ Hot-deck แบบสุ่มและเรียงลำดับแบบดั้งเดิมโดยทั่วไป เป็นวิธีการแทนที่ค่าการตอบกลับของรายการที่คล้ายคลึงกันในแบบสำรวจในอดีต วิธีการนี้มีอยู่ในแบบสำรวจที่วัดช่วงเวลา

การแทนที่ค่าเฉลี่ย

เทคนิคการเติมค่าอีกวิธีหนึ่งคือการแทนที่ค่าที่หายไปด้วยค่าเฉลี่ยของตัวแปรนั้นสำหรับกรณีอื่นๆ ทั้งหมด ซึ่งมีข้อดีคือไม่เปลี่ยนแปลงค่าเฉลี่ยของกลุ่มตัวอย่างสำหรับตัวแปรนั้น อย่างไรก็ตาม การเติมค่าด้วยค่าเฉลี่ยจะลดทอนความสัมพันธ์ใดๆ ที่เกี่ยวข้องกับตัวแปรที่ถูกเติมค่า เนื่องจากในกรณีที่มีการเติมค่า จะรับประกันได้ว่าไม่มีความสัมพันธ์ระหว่างตัวแปรที่ถูกเติมค่ากับตัวแปรอื่นๆ ที่วัดได้ ดังนั้น การเติมค่าด้วยค่าเฉลี่ยจึงมีคุณสมบัติที่น่าสนใจสำหรับการวิเคราะห์ตัวแปรเดียว แต่จะกลายเป็นปัญหาสำหรับการวิเคราะห์หลายตัวแปร

การประมาณค่าเฉลี่ยสามารถทำได้ภายในกลุ่ม (เช่น หมวดหมู่ เช่น เพศ) และสามารถแสดงได้ดังนี้ โดยที่คือค่าที่ประมาณได้สำหรับระเบียนและคือค่าเฉลี่ยตัวอย่างของข้อมูลผู้ตอบแบบสอบถามภายในกลุ่มใดกลุ่มหนึ่งนี่เป็นกรณีพิเศษของการประมาณค่าแบบถดถอยทั่วไป: ${\hat {y}}_{i}={\bar {y}}_{h}$ ${\หมวก {y}__{i}$ $i$ ${\bar {y}}_{h}$ $h$

${\hat {y}__{mi}=b_{r0}+\sum _{j}b_{rj}z_{mij}+{\hat {e}__{mi}$

ในที่นี้ค่าต่างๆได้รับการประมาณจากการถดถอยในข้อมูลที่ไม่ได้รับการเติม เต็ม โดยเป็นตัวแปรดัมมี่สำหรับการเป็นสมาชิกชั้นเรียน และข้อมูลจะถูกแบ่งออกเป็นผู้ตอบแบบสอบถาม ( ) และข้อมูลที่หายไป ( ) ^[⁷^]^[⁸^] $b_{r0},b_{rj}$ $y$ $x$ $z$ $r$ $m$

การแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบ

การแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบ (NMF) สามารถจัดการกับข้อมูลที่หายไปได้ในขณะที่ลดฟังก์ชันต้นทุนให้น้อยที่สุด แทนที่จะถือว่าข้อมูลที่หายไปเหล่านี้เป็นศูนย์ซึ่งอาจทำให้เกิดอคติได้^{[ 9 ]}ทำให้เป็นวิธีการที่ได้รับการพิสูจน์ทางคณิตศาสตร์สำหรับการเติมข้อมูล NMF สามารถละเลยข้อมูลที่หายไปในฟังก์ชันต้นทุนได้ และผลกระทบจากข้อมูลที่หายไปอาจมีขนาดเล็กเพียงผลกระทบอันดับสองเท่านั้น

การถดถอย

การเติมค่าโดยใช้การถดถอยมีปัญหาตรงกันข้ามกับการเติมค่าเฉลี่ยแบบจำลองการถดถอยจะถูกประมาณค่าเพื่อทำนายค่าที่สังเกตได้ของตัวแปรหนึ่งโดยอาศัยตัวแปรอื่น ๆ จากนั้นแบบจำลองนั้นจะถูกนำมาใช้เติมค่าในกรณีที่ค่าของตัวแปรนั้นหายไป กล่าวอีกนัยหนึ่งคือ ข้อมูลที่มีอยู่สำหรับกรณีที่สมบูรณ์และไม่สมบูรณ์จะถูกนำมาใช้ทำนายค่าของตัวแปรเฉพาะ จากนั้นค่าที่ได้จากการประมาณค่าจากแบบจำลองการถดถอยจะถูกนำมาใช้เติมค่าที่หายไป ปัญหาคือ ข้อมูลที่เติมเข้าไปนั้นไม่มีพจน์ความคลาดเคลื่อนรวมอยู่ในการประมาณค่า ดังนั้นค่าประมาณจึงสอดคล้องกับเส้นการถดถอยอย่างสมบูรณ์แบบโดยไม่มีความแปรปรวน ตกค้าง สิ่งนี้ทำให้ความสัมพันธ์ถูกระบุเกินจริงและบ่งชี้ถึงความแม่นยำในค่าที่เติมเข้าไปมากกว่าที่ควรจะเป็น แบบจำลองการถดถอยทำนายค่าที่เป็นไปได้มากที่สุดของข้อมูลที่หายไป แต่ไม่ได้ให้ความไม่แน่นอนเกี่ยวกับค่านั้น

การถดถอย แบบสุ่มเป็นความพยายามที่ค่อนข้างประสบความสำเร็จในการแก้ไขการขาดพจน์ข้อผิดพลาดในการเติมข้อมูลการถดถอยโดยการเพิ่มค่าเฉลี่ยความแปรปรวนของการถดถอยลงในการเติมข้อมูลการถดถอยเพื่อแนะนำข้อผิดพลาด การถดถอยแบบสุ่มแสดงให้เห็นอคติน้อยกว่าเทคนิคที่กล่าวถึงข้างต้นมาก แต่ก็ยังขาดสิ่งหนึ่งไป นั่นคือ หากมีการเติมข้อมูลแล้ว โดยสัญชาตญาณแล้วควรเพิ่มสัญญาณรบกวนมากกว่าความแปรปรวนของส่วนเหลือธรรมดาเข้าไปในปัญหา^{[ 5 ]}

การเติมข้อมูลหลายครั้ง

เพื่อจัดการกับปัญหาเสียงรบกวนที่เพิ่มขึ้นเนื่องจากการเติมข้อมูล Rubin (1987) ^{[ 10 ]}ได้พัฒนาวิธีการหาค่าเฉลี่ยของผลลัพธ์จากชุดข้อมูลที่เติมข้อมูลหลายชุดเพื่อแก้ไขปัญหานี้ วิธีการเติมข้อมูลหลายชุดทั้งหมดทำตามสามขั้นตอน^{[ 3 ]}

การเติมค่าที่หายไป – คล้ายกับการเติมค่าที่หายไปแบบเดี่ยว คือจะเติมค่าที่หายไปเข้าไป แต่ค่าที่เติมเข้าไปนั้นจะถูกสุ่มมา จากชุดข้อมูล mครั้ง แทนที่จะเป็นเพียงครั้งเดียว ในขั้นตอนนี้ จะมีชุดข้อมูลที่สมบูรณ์m ชุด
การวิเคราะห์ – ชุดข้อมูลทั้งmชุดจะถูกวิเคราะห์ เมื่อสิ้นสุดขั้นตอนนี้ จะมีการวิเคราะห์ทั้งหมดm ครั้ง
การรวมผลลัพธ์ – ผลลัพธ์ mจะถูกรวมเข้าเป็นผลลัพธ์เดียวโดยการคำนวณค่าเฉลี่ย ความแปรปรวน และช่วงความเชื่อมั่นของตัวแปรที่เกี่ยวข้อง^{[ 11 ]}^{[ 12 ]}หรือโดยการรวมการจำลองจากแต่ละแบบจำลองแยกกัน^{[ 13 ]}

การเติมข้อมูลหลายครั้งสามารถใช้ได้ในกรณีที่ข้อมูลหายไปโดยสมบูรณ์แบบสุ่มหายไปแบบสุ่มและหายไปโดยไม่สุ่มแม้ว่าในกรณีหลังอาจมีความลำเอียงได้^{[ 14 ]}แนวทางหนึ่งคือการเติมข้อมูลหลายครั้งโดยใช้สมการแบบลูกโซ่ (MICE) หรือที่รู้จักกันในชื่อ "การกำหนดเงื่อนไขอย่างสมบูรณ์" และ "การเติมข้อมูลหลายครั้งแบบถดถอยตามลำดับ" ^{[ 15 ]} MICE ได้รับการออกแบบมาสำหรับข้อมูลที่หายไปแบบสุ่ม แม้ว่าจะมีหลักฐานการจำลองที่บ่งชี้ว่าด้วยจำนวนตัวแปรเสริมที่เพียงพอ ก็สามารถใช้ได้กับข้อมูลที่หายไปโดยไม่สุ่มเช่นกัน อย่างไรก็ตาม MICE อาจประสบปัญหาด้านประสิทธิภาพเมื่อจำนวนการสังเกตมีขนาดใหญ่และข้อมูลมีคุณลักษณะที่ซับซ้อน เช่น ความไม่เป็นเชิงเส้นและมิติสูง

แนวทางล่าสุดในการเติมข้อมูลหลายครั้งใช้ เทคนิค การเรียนรู้ของเครื่องเพื่อปรับปรุงประสิทธิภาพ ตัวอย่างเช่น MIDAS (Multiple Imputation with Denoising Autoencoders) ใช้ denoising autoencodersซึ่งเป็นโครงข่ายประสาทเทียมแบบไม่ต้องมีการกำกับดูแล เพื่อเรียนรู้การแสดงแทนแฝงที่มีความละเอียดสูงของข้อมูลที่สังเกตได้^{[ 16 ]} MIDAS ได้รับการพิสูจน์แล้วว่าให้ความแม่นยำและประสิทธิภาพที่เหนือกว่ากลยุทธ์การเติมข้อมูลหลายครั้งแบบดั้งเดิม

ดังที่กล่าวไว้ในส่วนก่อนหน้า การเติมค่าเพียงครั้งเดียวไม่ได้คำนึงถึงความไม่แน่นอนในการเติมค่า หลังจากเติมค่าแล้ว ข้อมูลจะถูกพิจารณาเสมือนว่าเป็นค่าจริงในการเติมค่าเพียงครั้งเดียว การละเลยความไม่แน่นอนในการเติมค่าอาจนำไปสู่ผลลัพธ์ที่แม่นยำเกินไปและข้อผิดพลาดในข้อสรุปใดๆ ที่ได้^{[ 17 ]}การเติมค่าหลายครั้งจะคำนึงถึงความไม่แน่นอนและช่วงของค่าที่ค่าจริงอาจมีได้ ดังที่คาดไว้ การผสมผสานระหว่างการประมาณความไม่แน่นอนและการเรียนรู้เชิงลึกสำหรับการเติมค่าเป็นหนึ่งในกลยุทธ์ที่ดีที่สุดและได้ถูกนำมาใช้เพื่อสร้างแบบจำลองข้อมูลการค้นพบยา ที่หลากหลาย ^{[ 18 ]}^{[ 19 ]}

นอกจากนี้ แม้ว่าการเติมข้อมูลแบบเดี่ยวและกรณีสมบูรณ์จะง่ายต่อการใช้งาน แต่การเติมข้อมูลแบบหลายครั้งก็ไม่ได้ยากต่อการใช้งานมากนัก มีแพ็กเกจทางสถิติมากมายในซอฟต์แวร์ทางสถิติต่างๆที่สามารถทำการเติมข้อมูลแบบหลายครั้งได้อย่างง่ายดาย ตัวอย่างเช่น แพ็กเกจ MICE ช่วยให้ผู้ใช้ในRสามารถทำการเติมข้อมูลแบบหลายครั้งโดยใช้วิธี MICE ได้^{[ 20 ]} MIDAS สามารถนำไปใช้ใน R ด้วยแพ็กเกจ rMIDAS และใน Python ด้วยแพ็กเกจ MIDASpy ^{[ 16 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลที่ขาดหายไป: Heffalumps ระดับเครื่องมือ และ Woozles ระดับรายการ
Multiple-imputation.com
คำถามที่พบบ่อยเกี่ยวกับการเติมข้อมูลที่ขาดหายไปหลายครั้ง (Multiple Imputation) มหาวิทยาลัยเพนน์สเตท
คำอธิบายที่ถูกเก็บถาวรเมื่อวันที่ 14 มกราคม 2548 ในWayback Machineเกี่ยวกับการประมาณค่าแบบ hot deck จากสำนักงานสถิติฟินแลนด์
บทความนี้ ต่อยอดแนวทางของ Rao-Shao และอภิปรายปัญหาเกี่ยวกับการเติมข้อมูลที่ขาดหายไปหลายครั้ง (multiple imputation)
บทความเรื่อง “ การใช้อัลกอริธึมการเหนี่ยวนำกฎที่ไม่เรียงลำดับแบบฟัซซีเป็นวิธีการเติมค่าที่หายไปสำหรับการจัดกลุ่มแบบ K-Mean บนข้อมูลจริงเกี่ยวกับโรคหัวใจและหลอดเลือด”
[1]การประยุกต์ใช้การประมาณค่าในโลกแห่งความเป็นจริงโดยสำนักงานสถิติแห่งชาติของสหราชอาณาจักร

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[

[

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]