กลับไปหน้าบทความ

อ่าน 4 นาที

การประมาณความหนาแน่น

ใน ทางสถิติ การ ประมาณความหนาแน่นของความน่าจะเป็น หรือเรียกง่ายๆ ว่า การประมาณความหนาแน่น คือการสร้าง การประมาณค่า โดยอาศัย ข้อมูล ที่สังเกตได้ ของ ฟังก์ชันความหนาแน่นของความน่าจะ...

การประมาณความหนาแน่น

การสาธิตการประมาณค่าความหนาแน่นโดยใช้การประมาณค่าความหนาแน่นแบบเคอร์เนล : ความหนาแน่นที่แท้จริงเป็นส่วนผสมของฟังก์ชันเกาส์เซียนสองฟังก์ชันที่อยู่ตรงกลางที่ 0 และ 3 ซึ่งแสดงด้วยเส้นโค้งสีน้ำเงินทึบ ในแต่ละเฟรม จะมีการสร้างตัวอย่าง 100 ตัวอย่างจากฟังก์ชันการกระจายที่แสดงด้วยสีแดง จากนั้นจะวาดเคอร์เนลเกาส์เซียนสีเทาโดยมีจุดศูนย์กลางอยู่ที่แต่ละตัวอย่าง การหาค่าเฉลี่ยของฟังก์ชันเกาส์เซียนจะให้ค่าประมาณความหนาแน่นที่แสดงด้วยเส้นโค้งสีดำประ

ในทางสถิติการประมาณความหนาแน่นของความน่าจะเป็นหรือเรียกง่ายๆ ว่าการประมาณความหนาแน่นคือการสร้างการประมาณค่าโดยอาศัยข้อมูล ที่สังเกตได้ ของฟังก์ชันความหนาแน่นของความน่าจะ เป็นพื้นฐานที่ไม่สามารถ สังเกตได้ ฟังก์ชันความหนาแน่นที่ไม่สามารถสังเกตได้นั้น ถือว่าเป็นความหนาแน่นที่ประชากรขนาดใหญ่กระจายตัวอยู่ โดยทั่วไปแล้ว ข้อมูลจะถูกมองว่าเป็นตัวอย่างสุ่มจากประชากรนั้น[ 1 ]

มีการใช้แนวทางที่หลากหลายในการประมาณความหนาแน่น รวมถึงหน้าต่าง Parzen และ เทคนิคการจัดกลุ่มข้อมูลหลายประเภท รวมถึง การหาปริมาณเวกเตอร์ รูปแบบพื้นฐานที่สุดของการประมาณความหนาแน่นคือฮิสโตแกรมที่ ปรับขนาดใหม่

ตัวอย่าง

ความหนาแน่นโดยประมาณของp (glu | diabetes=1) (สีแดง), p  (glu | diabetes=0) (สีน้ำเงิน) และp  (glu) (สีดำ)
ความน่าจะเป็นโดยประมาณของp (เบาหวาน=1 | กลูโคส)
ความน่าจะเป็นโดยประมาณของp  (เบาหวาน=1 | กลูโคส)

เราจะพิจารณาบันทึกเกี่ยวกับอุบัติการณ์ของโรคเบาหวานข้อความต่อไปนี้คัดลอกมาจาก คำอธิบาย ชุดข้อมูล โดยตรง :

กลุ่มผู้หญิงที่มีอายุอย่างน้อย 21 ปี เชื้อสายอินเดียนแดงเผ่า ปิมาและอาศัยอยู่ใกล้เมืองฟีนิกซ์ รัฐแอริโซนา ได้รับการทดสอบโรคเบาหวานตามเกณฑ์ขององค์การอนามัยโลกข้อมูลถูกรวบรวมโดยสถาบันโรคเบาหวาน โรคระบบทางเดินอาหาร และโรคไตแห่งชาติของสหรัฐอเมริกา เราใช้บันทึกที่สมบูรณ์ 532 รายการ[ 2 ] [ 3 ]

ในตัวอย่างนี้ เราสร้างค่าประมาณความหนาแน่นสามค่าสำหรับ "glu" ( ความเข้มข้น ของกลูโคสในพลาสมา ) ค่าแรกขึ้นอยู่กับการมีโรคเบาหวาน ค่าที่สองขึ้นอยู่กับการไม่มีโรคเบาหวาน และค่าที่สามไม่ขึ้นอยู่กับโรคเบาหวาน จากนั้นจึงใช้ค่าประมาณความหนาแน่นแบบมีเงื่อนไขเหล่านี้เพื่อสร้างความน่าจะเป็นของโรคเบาหวานโดยขึ้นอยู่กับ "glu"

ข้อมูล "glu" ได้รับมาจากแพ็กเกจ MASS [ 4 ]ของภาษาการเขียนโปรแกรม Rภายใน R ?Pima.trและ?Pima.teให้รายละเอียดข้อมูลที่สมบูรณ์ยิ่งขึ้น

ค่าเฉลี่ยของ "glu" ในผู้ป่วยเบาหวานคือ 143.1 และค่าเบี่ยงเบนมาตรฐานคือ 31.26 ส่วนค่าเฉลี่ยของ "glu" ในผู้ที่ไม่เป็นเบาหวานคือ 110.0 และค่าเบี่ยงเบนมาตรฐานคือ 24.29 จากข้อมูลนี้ เราจะเห็นว่า ในชุดข้อมูลนี้ ผู้ป่วยเบาหวานมีความสัมพันธ์กับระดับ "glu" ที่สูงกว่า ซึ่งจะเห็นได้ชัดเจนยิ่งขึ้นเมื่อแสดงกราฟของฟังก์ชันความหนาแน่นที่ประมาณไว้

รูปแรกแสดงค่าประมาณความหนาแน่นของp (glu | diabetes=1), p (glu | diabetes=0) และp (glu) ค่าประมาณความหนาแน่นเหล่านี้เป็นค่าประมาณความหนาแน่นแบบเคอร์เนลโดยใช้เคอร์เนลแบบเกาส์เซียน กล่าวคือ ฟังก์ชันความหนาแน่นแบบเกาส์เซียนจะถูกวางไว้ที่แต่ละจุดข้อมูล และผลรวมของฟังก์ชันความหนาแน่นจะถูกคำนวณในช่วงของข้อมูล

จากความหนาแน่นของ "glu" ที่มีเงื่อนไขว่าเป็นโรคเบาหวาน เราสามารถหาความน่าจะเป็นของโรคเบาหวานที่มีเงื่อนไขว่าเป็น "glu" ได้โดยใช้กฎของเบย์สเพื่อความกระชับ ในสูตรนี้ "โรคเบาหวาน" จะถูกย่อเป็น "db."

รูปที่สองแสดงความน่าจะเป็นภายหลังที่ประมาณไว้p (เบาหวาน=1 | กลูโคส) จากข้อมูลเหล่านี้ ดูเหมือนว่าระดับ "กลูโคส" ที่เพิ่มขึ้นจะเกี่ยวข้องกับโรคเบาหวาน

การใช้งานและวัตถุประสงค์

การใช้การประมาณความหนาแน่นที่เป็นธรรมชาติมากอย่างหนึ่งคือการตรวจสอบคุณสมบัติของชุดข้อมูลที่กำหนดอย่างไม่เป็นทางการ การประมาณความหนาแน่นสามารถให้ข้อบ่งชี้ที่มีค่าเกี่ยวกับคุณลักษณะต่างๆ เช่น ความเบี่ยงเบนและความหลากหลายของข้อมูล ในบางกรณี การประมาณความหนาแน่นจะให้ข้อสรุปที่อาจถือได้ว่าเป็นความจริงที่ชัดเจน ในขณะที่ในกรณีอื่นๆ การประมาณความหนาแน่นจะเป็นเพียงการชี้ทางไปสู่การวิเคราะห์เพิ่มเติมและ/หรือการรวบรวมข้อมูล[ 5 ]

ฮิสโตแกรมและฟังก์ชันความหนาแน่นสำหรับการกระจายแบบกัมเบล[ 6 ]

ส่วนสำคัญอย่างหนึ่งของสถิติคือการนำเสนอข้อมูลกลับไปยังลูกค้าเพื่ออธิบายและแสดงให้เห็นถึงข้อสรุปที่อาจได้มาด้วยวิธีการอื่น การประมาณค่าความหนาแน่นนั้นเหมาะสมอย่างยิ่งสำหรับจุดประสงค์นี้ ด้วยเหตุผลที่ว่าเข้าใจได้ง่ายสำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญด้านคณิตศาสตร์

ตัวอย่างเพิ่มเติมที่แสดงให้เห็นถึงการใช้การประมาณความหนาแน่นเพื่อวัตถุประสงค์ในการสำรวจและการนำเสนอ รวมถึงกรณีสำคัญของข้อมูลสองตัวแปร[ 7 ]

การประมาณความหนาแน่นยังถูกนำมาใช้บ่อยครั้งในการตรวจจับความผิดปกติหรือการตรวจจับสิ่งแปลกใหม่ : [ 8 ]หากการสังเกตอยู่ในบริเวณที่มีความหนาแน่นต่ำมาก ก็มีแนวโน้มที่จะเป็นความผิดปกติหรือสิ่งแปลกใหม่

  • ในด้านอุทกวิทยาฮิสโตแกรมและฟังก์ชันความหนาแน่นโดยประมาณของข้อมูลปริมาณน้ำฝนและการไหลของแม่น้ำ ซึ่งวิเคราะห์ด้วยการกระจายความน่าจะเป็นจะถูกนำมาใช้เพื่อให้ได้ข้อมูลเชิงลึกเกี่ยวกับพฤติกรรมและความถี่ของการเกิดขึ้น[ 9 ]ตัวอย่างแสดงอยู่ในรูปสีน้ำเงิน

การประมาณความหนาแน่นเคอร์เนล

การประมาณความหนาแน่นเคอร์เนลของตัวเลขสุ่มที่มีการแจกแจงแบบปกติ 100 ตัวโดยใช้ แบนด์วิดท์การปรับเรียบที่แตกต่างกัน

ในทางสถิติการประมาณความหนาแน่นเคอร์เนล (KDE) คือการประยุกต์ใช้ การปรับ เรียบเคอร์เนลสำหรับการประมาณความหนาแน่นความน่าจะเป็น กล่าว คือวิธีการที่ไม่ใช้พารามิเตอร์ ใน การประมาณฟังก์ชันความหนาแน่นความน่าจะเป็นของตัวแปรสุ่มโดยใช้เคอร์เนลเป็นน้ำหนัก KDE แก้ปัญหาการปรับเรียบข้อมูลพื้นฐานที่อนุมานเกี่ยวกับประชากรโดยอาศัยตัวอย่าง ข้อมูลที่จำกัด ในบางสาขา เช่นการประมวลผลสัญญาณและเศรษฐศาสตร์เชิง ปริมาณ เรียกอีกอย่างว่า วิธีหน้าต่าง Parzen–Rosenblatt ตามชื่อของEmanuel ParzenและMurray Rosenblattซึ่งโดยทั่วไปแล้วได้รับการยกย่องว่าสร้างวิธีการนี้ขึ้นมาอย่างอิสระในรูปแบบปัจจุบัน[ 10 ] [ 11 ]หนึ่งในการประยุกต์ใช้ที่มีชื่อเสียงของการประมาณความหนาแน่นเคอร์เนลคือการประมาณความหนาแน่นส่วนขอบ แบบมีเงื่อนไขของคลาส ของข้อมูลเมื่อใช้ตัวจำแนกแบบเบย์แบบง่ายซึ่งสามารถปรับปรุงความแม่นยำในการทำนายได้[ 12 ]

ดูเพิ่มเติม

  • CREEM: ศูนย์วิจัยด้านแบบจำลองทางนิเวศวิทยาและสิ่งแวดล้อมดาวน์โหลดซอฟต์แวร์ประเมินความหนาแน่นฟรี ได้แก่Distance 4 (จากหน่วยวิจัยเพื่อการประเมินประชากรสัตว์ป่า "RUWPA") และWiSP
  • สรุปเนื้อหาของคลังข้อมูลการเรียนรู้ของเครื่องจักร UCI (ดู "ฐานข้อมูลโรคเบาหวานของชาวอินเดียนแดงเผ่าปิมา" สำหรับชุดข้อมูลต้นฉบับจำนวน 732 รายการ และหมายเหตุเพิ่มเติม)
  • โค้ด MATLAB สำหรับการประมาณความหนาแน่นแบบหนึ่งมิติ และ สองมิติ
  • ซอฟต์แวร์ libAGF ที่เขียนด้วยภาษา C++ สำหรับ การ ประมาณความหนาแน่นเคอร์เนลแบบแปรผัน
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Density_estimation&oldid=1347599606 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การประมาณความหนาแน่น

ใน ทางสถิติ การ ประมาณความหนาแน่นของความน่าจะเป็น หรือเรียกง่ายๆ ว่า การประมาณความหนาแน่น คือการสร้าง การประมาณค่า โดยอาศัย ข้อมูล ที่สังเกตได้ ของ ฟังก์ชันความหนาแน่นของความน่าจะ...

ตัวอย่าง

เราจะพิจารณาบันทึกเกี่ยวกับอุบัติการณ์ของ โรคเบาหวาน ข้อความต่อไปนี้คัดลอกมาจาก คำอธิบาย ชุดข้อมูล โดยตรง :

การใช้งานและวัตถุประสงค์

การใช้การประมาณความหนาแน่นที่เป็นธรรมชาติมากอย่างหนึ่งคือการตรวจสอบคุณสมบัติของชุดข้อมูลที่กำหนดอย่างไม่เป็นทางการ การประมาณความหนาแน่นสามารถให้ข้อบ่งชี้ที่มีค่าเกี่ยวกับคุณลักษณะต่างๆ เช่น ความเบี่ยงเบนและความหลากหลายของข้อมูล ในบางกรณี...

การประมาณความหนาแน่นเคอร์เนล

ใน ทางสถิติ การ ประมาณความหนาแน่นเคอร์เนล (KDE) คือการประยุกต์ใช้ การปรับ เรียบเคอร์เนล สำหรับ การประมาณความหนาแน่นความน่าจะเป็น กล่าว คือวิธีการ ที่ไม่ใช้พารามิเตอร์ ใน การประมาณ ฟังก์ชัน ความหนาแน่นความน่าจะเป็น ของ ตัวแปรสุ่ม โดยใช้ เคอร์เนล เป็น น้ำหนัก...