การประมาณความหนาแน่นเคอร์เนลแบบแปรผัน

ในทางสถิติ การประมาณความหนาแน่นเคอร์เนล แบบปรับได้หรือ" แบนด์วิดท์แปรผัน"เป็นรูปแบบหนึ่งของการประมาณความหนาแน่นเคอร์เนลซึ่งขนาดของเคอร์เนลที่ใช้ในการประมาณจะแตกต่างกันไปตามตำแหน่งของตัวอย่างหรือตำแหน่งของจุดทดสอบ เป็นเทคนิคที่มีประสิทธิภาพเป็นพิเศษเมื่อปริภูมิของตัวอย่างมีหลายมิติ ^{[ 1 ]}

เหตุผล

เมื่อกำหนดชุดตัวอย่างเราต้องการประมาณค่าความหนาแน่นที่จุดทดสอบ: $\lbrace {\vec {x}__{i}\rbrace$ $P({\vec {x}})$ ${\vec {x}}$

P({\vec {x}})\approx {\frac {W}{nh^{D}}}

W=\sum _{i=1}^{n}w_{i}

w_{i}=K\left({\frac {{\vec {x}}-{\vec {x}}_{i}}{h}}\right)

โดยที่nคือจำนวนตัวอย่าง, Kคือ "เคอร์เนล" , hคือความกว้างของเคอร์เนล และDคือจำนวนมิติในเคอร์เนลสามารถมองได้ว่าเป็นตัวกรองเชิงเส้นแบบง่ายๆ ${\vec {x}}$

การใช้ความกว้างของตัวกรองคงที่อาจหมายความว่าในบริเวณที่มีความหนาแน่นต่ำ ตัวอย่างทั้งหมดจะตกอยู่ที่ส่วนหางของตัวกรองโดยมีน้ำหนักต่ำมาก ในขณะที่บริเวณที่มีความหนาแน่นสูงจะพบตัวอย่างจำนวนมากเกินไปในบริเวณตรงกลางโดยมีน้ำหนักใกล้เคียงกับหนึ่ง เพื่อแก้ไขปัญหานี้ เราจึงปรับความกว้างของเคอร์เนลในบริเวณต่างๆ ของพื้นที่ตัวอย่าง มีสองวิธีในการทำเช่นนี้ ได้แก่ การประมาณค่าแบบบอลลูนและการประมาณค่าแบบจุดต่อจุด ในตัวประมาณค่าแบบบอลลูน ความกว้างของเคอร์เนลจะแตกต่างกันไปตามตำแหน่งของจุดทดสอบ ในตัวประมาณค่าแบบจุดต่อจุด ความกว้างของเคอร์เนลจะแตกต่างกันไปตามตำแหน่งของตัวอย่าง^{[ 1 ]}

สำหรับตัวประมาณค่าแบบหลายตัวแปร พารามิเตอร์hสามารถขยายให้ครอบคลุมถึงการเปลี่ยนแปลงไม่เพียงแค่ขนาด แต่ยังรวมถึงรูปร่างของเคอร์เนลด้วย อย่างไรก็ตาม วิธีการที่ซับซ้อนกว่านี้จะไม่กล่าวถึงในที่นี้

ผู้ประเมินลูกโป่ง

วิธีการทั่วไปในการปรับความกว้างของเคอร์เนลคือการทำให้ความกว้างแปรผกผันกับความหนาแน่น ณ จุดทดสอบ:

h={\frac {k}{\left[nP({\vec {x}})\right]^{1/D}}}

โดยที่kเป็นค่าคงที่ ถ้าเราแทนค่า PDF ที่ประมาณไว้กลับเข้าไป และสมมติว่าฟังก์ชันเคอร์เนล เป็นแบบเกาส์เซียน เราสามารถแสดงได้ว่าWเป็นค่าคงที่: ^{[ 2 ]}

W=k^{D}(2\pi )^{D/2}

การพิสูจน์ที่คล้ายกันนี้ใช้ได้กับเคอร์เนลใดๆ ที่ฟังก์ชันการทำให้เป็นมาตรฐานมีลำดับ $h D$ แม้ว่าจะมีปัจจัยคงที่ที่แตกต่างกันแทนที่เทอม $(2 π) D/2$ ก็ตาม ซึ่งทำให้ได้การวางนัยทั่วไปของอัลกอริทึมเพื่อนบ้านใกล้ที่สุด kตัว นั่นคือฟังก์ชันเคอร์เนล แบบสม่ำเสมอ จะส่งคืนเทคนิค KNN ^{[ 2 ]}

ข้อผิดพลาดประกอบด้วยสองส่วน คือ ส่วนความแปรปรวนและส่วนความเอนเอียง ส่วนความแปรปรวนกำหนดไว้ดังนี้: ^{[ 1 ]}

e_{1}={\frac {P\int K^{2}}{nh^{D}}}

.

ค่าความเอนเอียงจะพบได้จากการประเมินฟังก์ชันโดยประมาณในลิมิตเมื่อความกว้างของเคอร์เนลมีขนาดใหญ่กว่าระยะห่างของตัวอย่างมาก โดยการใช้การกระจายอนุกรมเทย์เลอร์สำหรับฟังก์ชันจริง ค่าความเอนเอียงจะหายไป:

e_{2}={\frac {h^{2}}{n}}\nabla ^{2}P

ด้วยวิธีนี้ จึงสามารถหาความกว้างของเคอร์เนลที่เหมาะสมที่สุด ซึ่งจะช่วยลดข้อผิดพลาดของการประมาณค่าแต่ละครั้งได้

ใช้สำหรับการจำแนกประเภททางสถิติ

วิธีการนี้มีประสิทธิภาพเป็นพิเศษเมื่อนำไปใช้กับการจำแนกประเภททางสถิติเราสามารถดำเนินการได้สองวิธี วิธีแรกคือการคำนวณ PDF ของแต่ละคลาสแยกกัน โดยใช้พารามิเตอร์แบนด์วิดท์ที่แตกต่างกัน แล้วเปรียบเทียบกันดังเช่นในเทย์เลอร์^{[ 3 ]} หรืออีกวิธีหนึ่ง เราสามารถแบ่งผลรวมตามคลาสของแต่ละตัวอย่างได้

P(j,{\vec {x}})\approx {\frac {1}{n}}\sum _{i=1,c_{i}=j}^{n}w_{i}

โดยที่c _iคือคลาสของ ตัวอย่างที่ iคลาสของจุดทดสอบสามารถประมาณได้โดยใช้วิธีความ น่าจะเป็นสูงสุด

ลิงก์ภายนอก

akde1d.m - ไฟล์ Matlab m สำหรับการประมาณความหนาแน่นเคอร์เนลแบบปรับได้หนึ่งมิติ
libAGF - ไลบรารี C++สำหรับการประมาณความหนาแน่นเคอร์เนลแบบปรับได้หลายตัวแปร
akde.m ถูกเก็บถาวรเมื่อวันที่ 9 กุมภาพันธ์ 2017 ที่Wayback Machine - ฟังก์ชัน Matlabสำหรับการประมาณความหนาแน่นเคอร์เนลของตัวแปรหลายตัว (มิติสูง)

[ 1 ]

[ 2 ]

[ 3 ]

การประมาณความหนาแน่นเคอร์เนลแบบแปรผัน

เหตุผล

ผู้ประเมินลูกโป่ง

ใช้สำหรับการจำแนกประเภททางสถิติ

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ