การประมาณความหนาแน่น

Q: ตัวอย่าง

เราจะพิจารณาบันทึกเกี่ยวกับอุบัติการณ์ของ โรคเบาหวาน ข้อความต่อไปนี้คัดลอกมาจาก คำอธิบาย ชุดข้อมูล โดยตรง :

การสาธิตการประมาณค่าความหนาแน่นโดยใช้การประมาณค่าความหนาแน่นแบบเคอร์เนล : ความหนาแน่นที่แท้จริงเป็นส่วนผสมของฟังก์ชันเกาส์เซียนสองฟังก์ชันที่อยู่ตรงกลางที่ 0 และ 3 ซึ่งแสดงด้วยเส้นโค้งสีน้ำเงินทึบ ในแต่ละเฟรม จะมีการสร้างตัวอย่าง 100 ตัวอย่างจากฟังก์ชันการกระจายที่แสดงด้วยสีแดง จากนั้นจะวาดเคอร์เนลเกาส์เซียนสีเทาโดยมีจุดศูนย์กลางอยู่ที่แต่ละตัวอย่าง การหาค่าเฉลี่ยของฟังก์ชันเกาส์เซียนจะให้ค่าประมาณความหนาแน่นที่แสดงด้วยเส้นโค้งสีดำประ

ในทางสถิติการประมาณความหนาแน่นของความน่าจะเป็นหรือเรียกง่ายๆ ว่าการประมาณความหนาแน่นคือการสร้างการประมาณค่าโดยอาศัยข้อมูล ที่สังเกตได้ ของฟังก์ชันความหนาแน่นของความน่าจะ เป็นพื้นฐานที่ไม่สามารถ สังเกตได้ ฟังก์ชันความหนาแน่นที่ไม่สามารถสังเกตได้นั้น ถือว่าเป็นความหนาแน่นที่ประชากรขนาดใหญ่กระจายตัวอยู่ โดยทั่วไปแล้ว ข้อมูลจะถูกมองว่าเป็นตัวอย่างสุ่มจากประชากรนั้น^{[ 1 ]}

มีการใช้แนวทางที่หลากหลายในการประมาณความหนาแน่น รวมถึงหน้าต่าง Parzen และ เทคนิคการจัดกลุ่มข้อมูลหลายประเภท รวมถึง การหาปริมาณเวกเตอร์ รูปแบบพื้นฐานที่สุดของการประมาณความหนาแน่นคือฮิสโตแกรมที่ ปรับขนาดใหม่

ตัวอย่าง

ความหนาแน่นโดยประมาณของp (glu | diabetes=1) (สีแดง), p (glu | diabetes=0) (สีน้ำเงิน) และp (glu) (สีดำ)

ความน่าจะเป็นโดยประมาณของp (เบาหวาน=1 | กลูโคส)

เราจะพิจารณาบันทึกเกี่ยวกับอุบัติการณ์ของโรคเบาหวานข้อความต่อไปนี้คัดลอกมาจาก คำอธิบาย ชุดข้อมูล โดยตรง :

กลุ่มผู้หญิงที่มีอายุอย่างน้อย 21 ปี เชื้อสายอินเดียนแดงเผ่า ปิมาและอาศัยอยู่ใกล้เมืองฟีนิกซ์ รัฐแอริโซนา ได้รับการทดสอบโรคเบาหวานตามเกณฑ์ขององค์การอนามัยโลกข้อมูลถูกรวบรวมโดยสถาบันโรคเบาหวาน โรคระบบทางเดินอาหาร และโรคไตแห่งชาติของสหรัฐอเมริกา เราใช้บันทึกที่สมบูรณ์ 532 รายการ^{[ 2 ]}^{[ 3 ]}

ในตัวอย่างนี้ เราสร้างค่าประมาณความหนาแน่นสามค่าสำหรับ "glu" ( ความเข้มข้น ของกลูโคส ในพลาสมา ) ค่าแรกขึ้นอยู่กับการมีโรคเบาหวาน ค่าที่สองขึ้นอยู่กับการไม่มีโรคเบาหวาน และค่าที่สามไม่ขึ้นอยู่กับโรคเบาหวาน จากนั้นจึงใช้ค่าประมาณความหนาแน่นแบบมีเงื่อนไขเหล่านี้เพื่อสร้างความน่าจะเป็นของโรคเบาหวานโดยขึ้นอยู่กับ "glu"

ข้อมูล "glu" ได้รับมาจากแพ็กเกจ MASS ^{[ 4 ]}ของภาษาการเขียนโปรแกรม Rภายใน R ?Pima.trและ?Pima.teให้รายละเอียดข้อมูลที่สมบูรณ์ยิ่งขึ้น

ค่าเฉลี่ยของ "glu" ในผู้ป่วยเบาหวานคือ 143.1 และค่าเบี่ยงเบนมาตรฐานคือ 31.26 ส่วนค่าเฉลี่ยของ "glu" ในผู้ที่ไม่เป็นเบาหวานคือ 110.0 และค่าเบี่ยงเบนมาตรฐานคือ 24.29 จากข้อมูลนี้ เราจะเห็นว่า ในชุดข้อมูลนี้ ผู้ป่วยเบาหวานมีความสัมพันธ์กับระดับ "glu" ที่สูงกว่า ซึ่งจะเห็นได้ชัดเจนยิ่งขึ้นเมื่อแสดงกราฟของฟังก์ชันความหนาแน่นที่ประมาณไว้

รูปแรกแสดงค่าประมาณความหนาแน่นของp (glu | diabetes=1), p (glu | diabetes=0) และp (glu) ค่าประมาณความหนาแน่นเหล่านี้เป็นค่าประมาณความหนาแน่นแบบเคอร์เนลโดยใช้เคอร์เนลแบบเกาส์เซียน กล่าวคือ ฟังก์ชันความหนาแน่นแบบเกาส์เซียนจะถูกวางไว้ที่แต่ละจุดข้อมูล และผลรวมของฟังก์ชันความหนาแน่นจะถูกคำนวณในช่วงของข้อมูล

จากความหนาแน่นของ "glu" ที่มีเงื่อนไขว่าเป็นโรคเบาหวาน เราสามารถหาความน่าจะเป็นของโรคเบาหวานที่มีเงื่อนไขว่าเป็น "glu" ได้โดยใช้กฎของเบย์สเพื่อความกระชับ ในสูตรนี้ "โรคเบาหวาน" จะถูกย่อเป็น "db."

p({\mbox{diabetes}}=1|{\mbox{glu}})={\frac {p({\mbox{glu}}|{\mbox{db.}}=1)\,p({\mbox{db.}}=1)}{p({\mbox{glu}}|{\mbox{db.}}=1)\,p({\mbox{db.}}=1)+p({\mbox{glu}}|{\mbox{db.}}=0)\,p({\mbox{db.}}=0)}}

รูปที่สองแสดงความน่าจะเป็นภายหลังที่ประมาณไว้p (เบาหวาน=1 | กลูโคส) จากข้อมูลเหล่านี้ ดูเหมือนว่าระดับ "กลูโคส" ที่เพิ่มขึ้นจะเกี่ยวข้องกับโรคเบาหวาน

การใช้งานและวัตถุประสงค์

การใช้การประมาณความหนาแน่นที่เป็นธรรมชาติมากอย่างหนึ่งคือการตรวจสอบคุณสมบัติของชุดข้อมูลที่กำหนดอย่างไม่เป็นทางการ การประมาณความหนาแน่นสามารถให้ข้อบ่งชี้ที่มีค่าเกี่ยวกับคุณลักษณะต่างๆ เช่น ความเบี่ยงเบนและความหลากหลายของข้อมูล ในบางกรณี การประมาณความหนาแน่นจะให้ข้อสรุปที่อาจถือได้ว่าเป็นความจริงที่ชัดเจน ในขณะที่ในกรณีอื่นๆ การประมาณความหนาแน่นจะเป็นเพียงการชี้ทางไปสู่การวิเคราะห์เพิ่มเติมและ/หรือการรวบรวมข้อมูล^{[ 5 ]}

ส่วนสำคัญอย่างหนึ่งของสถิติคือการนำเสนอข้อมูลกลับไปยังลูกค้าเพื่ออธิบายและแสดงให้เห็นถึงข้อสรุปที่อาจได้มาด้วยวิธีการอื่น การประมาณค่าความหนาแน่นนั้นเหมาะสมอย่างยิ่งสำหรับจุดประสงค์นี้ ด้วยเหตุผลที่ว่าเข้าใจได้ง่ายสำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญด้านคณิตศาสตร์

ตัวอย่างเพิ่มเติมที่แสดงให้เห็นถึงการใช้การประมาณความหนาแน่นเพื่อวัตถุประสงค์ในการสำรวจและการนำเสนอ รวมถึงกรณีสำคัญของข้อมูลสองตัวแปร^{[ 7 ]}

การประมาณความหนาแน่นยังถูกนำมาใช้บ่อยครั้งในการตรวจจับความผิดปกติหรือการตรวจจับสิ่งแปลกใหม่ : ^{[ 8 ]}หากการสังเกตอยู่ในบริเวณที่มีความหนาแน่นต่ำมาก ก็มีแนวโน้มที่จะเป็นความผิดปกติหรือสิ่งแปลกใหม่

ในด้านอุทกวิทยาฮิสโตแกรมและฟังก์ชันความหนาแน่นโดยประมาณของข้อมูลปริมาณน้ำฝนและการไหลของแม่น้ำ ซึ่งวิเคราะห์ด้วยการกระจายความน่าจะเป็นจะถูกนำมาใช้เพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับพฤติกรรมและความถี่ของการเกิดขึ้น^{[ 9 ]}ตัวอย่างแสดงอยู่ในรูปสีน้ำเงิน