อ่าน 3 นาที

ระยะทางเชิงสถิติ

Q: ตัวชี้วัด

เมตริกบนเซต X คือ ฟังก์ชัน (เรียกว่า ฟังก์ชันระยะทาง หรือเรียกสั้น ๆ ว่า ระยะ ทาง ) d : X × X → R + (โดยที่ R + คือเซตของ จำนวนจริง ที่ไม่เป็นลบ ) สำหรับทุก x , y , z ใน X ฟังก์ชันนี้จะต้องเป็นไปตามเงื่อนไขต่อไปนี้:

ใน ทางสถิติ ทฤษฎี ความน่าจะเป็น และ ทฤษฎีสารสนเทศ ระยะ ทางทางสถิติ เป็นการวัด ระยะห่าง ระหว่างวัตถุทางสถิติสองอย่าง ซึ่งอาจเป็น ตัวแปรสุ่ม สองตัว หรือ การแจกแจงความน่าจะเป็น หรือ...

ระยะทางเชิงสถิติ

(Learn how and when to remove this message)

ในทางสถิติทฤษฎีความน่าจะเป็นและทฤษฎีสารสนเทศระยะทางทางสถิติเป็นการวัดระยะห่างระหว่างวัตถุทางสถิติสองอย่าง ซึ่งอาจเป็นตัวแปรสุ่ม สองตัว หรือการแจกแจงความน่าจะเป็นหรือตัวอย่าง สองตัว หรือระยะห่างอาจเป็นระหว่างจุดตัวอย่างแต่ละจุดกับประชากรหรือกลุ่มตัวอย่างที่กว้างกว่านั้น

ระยะห่างระหว่างประชากรสามารถตีความได้ว่าเป็นการวัดระยะห่างระหว่างการแจกแจงความน่าจะเป็น สองแบบ ดังนั้นโดยพื้นฐานแล้วจึงเป็นการวัดระยะห่างระหว่างการวัดความน่าจะเป็น โดยที่การวัดระยะห่างทางสถิติเกี่ยวข้องกับความแตกต่างระหว่างตัวแปรสุ่ม ตัวแปรเหล่านี้อาจมีความสัมพันธ์ทางสถิติ^{[ 1 ]}ดังนั้นระยะห่างเหล่านี้จึงไม่เกี่ยวข้องโดยตรงกับการวัดระยะห่างระหว่างการวัดความน่าจะเป็น อีกครั้ง การวัดระยะห่างระหว่างตัวแปรสุ่มอาจเกี่ยวข้องกับขอบเขตของการพึ่งพาซึ่งกันและกันระหว่างตัวแปรเหล่านั้น มากกว่าค่าของตัวแปรแต่ละตัว

มาตรวัดระยะทางทางสถิติหลายอย่างไม่ใช่เมตริกและบางอย่างก็ไม่สมมาตร มาตรวัดระยะทางบางประเภท ซึ่งเป็นการขยายความ ของระยะ ทางกำลังสองเรียกว่าความแตกต่าง (ทางสถิติ )

ศัพท์เฉพาะ

มีการใช้คำศัพท์หลายคำเพื่ออ้างถึงแนวคิดต่างๆ เกี่ยวกับระยะทาง ซึ่งมักจะคล้ายคลึงกันจนทำให้เกิดความสับสน และอาจถูกใช้ไม่สอดคล้องกันระหว่างผู้เขียนและในช่วงเวลาต่างๆ ทั้งในแบบกว้างๆ หรือในความหมายทางเทคนิคที่แม่นยำ นอกจากคำว่า "ระยะทาง" แล้ว คำศัพท์ที่คล้ายกันยังรวมถึงความเบี่ยงเบนความคลาดเคลื่อน ความแตกต่างและการแยกแยะรวมถึงคำอื่นๆ เช่นฟังก์ชันความแตกต่างและเมตริกคำศัพท์จากทฤษฎีสารสนเทศได้แก่ เอนโทร ปีไขว้ เอนโทรปีสัมพัทธ์สารสนเทศการแยกแยะและการได้มาซึ่งสารสนเทศ

ระยะทางในฐานะหน่วยวัด

ตัวชี้วัด

เมตริกบนเซตXคือฟังก์ชัน (เรียกว่าฟังก์ชันระยะทางหรือเรียกสั้น ๆ ว่าระยะทาง ) d : X × X → R ⁺ (โดยที่R ⁺คือเซตของจำนวนจริง ที่ไม่เป็นลบ ) สำหรับทุกx , y , zในXฟังก์ชันนี้จะต้องเป็นไปตามเงื่อนไขต่อไปนี้:

d ( x , y ) ≥ 0 ( ค่าไม่เป็นลบ )
d ( x , y ) = 0 ก็ต่อเมื่อ x = y ( เอกลักษณ์ของสิ่งที่ไม่สามารถแยกแยะได้โปรดทราบว่าเงื่อนไขที่ 1 และ 2 รวมกันทำให้เกิดความแน่นอนเชิงบวก )
d ( x , y ) = d ( y , x ) ( สมมาตร )
d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( คุณสมบัติการบวกย่อย / อสมการสามเหลี่ยม )

เมตริกทั่วไป

ระยะทางทางสถิติหลายอย่างไม่ใช่เมตริกเนื่องจากขาดคุณสมบัติอย่างน้อยหนึ่งข้อของเมตริกที่เหมาะสม ตัวอย่างเช่นซูโดเมตริกส์ละเมิดคุณสมบัติ (2) เอกลักษณ์ของสิ่งที่แยกแยะไม่ได้ ควอซิเมตริก ส์ละเมิดคุณสมบัติ (3) สมมาตร และเซมิเมตริกส์ละเมิดคุณสมบัติ (4) อสมการสามเหลี่ยม ระยะทางทางสถิติที่ตรงตาม (1) และ (2) เรียกว่าได เวอร์เจนซ์

ใกล้เคียงกันทางสถิติ

ระยะทางความแปรผันรวมของการกระจายสองแบบและเหนือโดเมนจำกัด(มักเรียกว่าความแตกต่างทางสถิติ^[²^] หรือระยะทางทางสถิติ^[³^] ในการเข้ารหัส) ถูกกำหนดดังนี้ $X$ $Y$ $D$

$\Delta (X,Y)={\frac {1}{2}}\sum _{\alpha \in D}|\Pr[X=\alpha ]-\Pr[Y=\alpha ]|$ .

เรากล่าวว่ากลุ่มความน่าจะเป็น สอง กลุ่ม และมีความใกล้เคียงกันทางสถิติ หากเป็นฟังก์ชันที่ไม่สำคัญใน $\{X_{k}\}_{k\in \mathbb {N} }$ $\{Y_{k}\}_{k\in \mathbb {N} }$ $\Delta (X_{k},Y_{k})$ $k$

ตัวอย่าง

ตัวชี้วัด

ระยะห่างความแปรผันรวม (บางครั้งเรียกว่า "ระยะห่างทางสถิติ")
ระยะทางเฮลลิงเกอร์
เมตริกเลวี-โปรคอรอฟ
เมตริกวาสเซอร์สไตน์ : หรือที่รู้จักกันในชื่อเมตริกคันโตโรวิช หรือระยะทางของตัวเคลื่อนย้ายดิน
ระยะทางมาฮาลาโนบิส
เมตริกความน่าจะเป็นเชิงปริพันธ์เป็นการขยายเมตริกหรือซูโดเมตริกหลายตัวบนการแจกแจง

ความแตกต่าง

ความแตกต่าง Kullback–Leibler
ความแตกต่างแบบเรนยี
ความแตกต่างระหว่างเจนเซนและแชนนอน
การเบี่ยงเบนของลูกบอล
ระยะทางภัตตาจารยะ (แม้ชื่อจะบอกว่าเป็นระยะทาง แต่จริงๆ แล้วไม่ใช่ระยะทาง เพราะขัดกับอสมการสามเหลี่ยม)
f-divergence : เป็นการรวมระยะทางและไดเวอร์เจนซ์หลายประเภทเข้าด้วยกัน
ดัชนีความสามารถในการจำแนกโดยเฉพาะอย่างยิ่งดัชนีความสามารถในการจำแนกแบบเบย์ส เป็นมาตรวัดสมมาตรที่เป็นบวกแน่นอน ซึ่งวัดการทับซ้อนกันของสองการแจกแจง

ดูเพิ่มเติม

หมายเหตุ

^ Dodge, Y. (2003)—รายการสำหรับระยะทาง
^ Goldreich, Oded (2001). พื้นฐานของการเข้ารหัส: เครื่องมือพื้นฐาน (ฉบับพิมพ์ครั้งที่ 1). เบอร์ลิน: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์หน้า 106. ISBN 0-521-79172-3.
^ เรย์ซิน, ลีโอ. (บันทึกการบรรยาย)ตัวสกัดและทฤษฎีบทแฮชที่เหลือ

ลิงก์ภายนอก

การวัดระยะทางและความคล้ายคลึง (Wolfram Alpha)

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Statistical_distance&oldid=1289978641 "

ระยะทางเชิงสถิติ

ศัพท์เฉพาะ

ระยะทางในฐานะหน่วยวัด

ตัวชี้วัด

เมตริกทั่วไป

ใกล้เคียงกันทางสถิติ

ตัวอย่าง

ตัวชี้วัด

ความแตกต่าง

ดูเพิ่มเติม

หมายเหตุ

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ