อ่าน 3 นาที
ระยะทางเชิงสถิติ
ใน ทางสถิติ ทฤษฎี ความน่าจะเป็น และ ทฤษฎีสารสนเทศ ระยะ ทางทางสถิติ เป็นการวัด ระยะห่าง ระหว่างวัตถุทางสถิติสองอย่าง ซึ่งอาจเป็น ตัวแปรสุ่ม สองตัว หรือ การแจกแจงความน่าจะเป็น หรือ...
ระยะทางเชิงสถิติ
ในทางสถิติทฤษฎีความน่าจะเป็นและทฤษฎีสารสนเทศระยะทางทางสถิติเป็นการวัดระยะห่างระหว่างวัตถุทางสถิติสองอย่าง ซึ่งอาจเป็นตัวแปรสุ่ม สองตัว หรือการแจกแจงความน่าจะเป็นหรือตัวอย่าง สองตัว หรือระยะห่างอาจเป็นระหว่างจุดตัวอย่างแต่ละจุดกับประชากรหรือกลุ่มตัวอย่างที่กว้างกว่านั้น
ระยะห่างระหว่างประชากรสามารถตีความได้ว่าเป็นการวัดระยะห่างระหว่างการแจกแจงความน่าจะเป็น สองแบบ ดังนั้นโดยพื้นฐานแล้วจึงเป็นการวัดระยะห่างระหว่างการวัดความน่าจะเป็น โดยที่การวัดระยะห่างทางสถิติเกี่ยวข้องกับความแตกต่างระหว่างตัวแปรสุ่ม ตัวแปรเหล่านี้อาจมีความสัมพันธ์ทางสถิติ[ 1 ]ดังนั้นระยะห่างเหล่านี้จึงไม่เกี่ยวข้องโดยตรงกับการวัดระยะห่างระหว่างการวัดความน่าจะเป็น อีกครั้ง การวัดระยะห่างระหว่างตัวแปรสุ่มอาจเกี่ยวข้องกับขอบเขตของการพึ่งพาซึ่งกันและกันระหว่างตัวแปรเหล่านั้น มากกว่าค่าของตัวแปรแต่ละตัว
มาตรวัดระยะทางทางสถิติหลายอย่างไม่ใช่เมตริกและบางอย่างก็ไม่สมมาตร มาตรวัดระยะทางบางประเภท ซึ่งเป็นการขยายความ ของระยะ ทางกำลังสองเรียกว่าความแตกต่าง (ทางสถิติ )
ศัพท์เฉพาะ
มีการใช้คำศัพท์หลายคำเพื่ออ้างถึงแนวคิดต่างๆ เกี่ยวกับระยะทาง ซึ่งมักจะคล้ายคลึงกันจนทำให้เกิดความสับสน และอาจถูกใช้ไม่สอดคล้องกันระหว่างผู้เขียนและในช่วงเวลาต่างๆ ทั้งในแบบกว้างๆ หรือในความหมายทางเทคนิคที่แม่นยำ นอกจากคำว่า "ระยะทาง" แล้ว คำศัพท์ที่คล้ายกันยังรวมถึงความเบี่ยงเบนความคลาดเคลื่อนความแตกต่างและการแยกแยะรวมถึงคำอื่นๆ เช่นฟังก์ชันความแตกต่างและเมตริกคำศัพท์จากทฤษฎีสารสนเทศได้แก่ เอนโทร ปีไขว้ เอนโทรปีสัมพัทธ์สารสนเทศการแยกแยะและการได้มาซึ่งสารสนเทศ
ระยะทางในฐานะหน่วยวัด
ตัวชี้วัด
เมตริกบนเซตXคือฟังก์ชัน (เรียกว่าฟังก์ชันระยะทางหรือเรียกสั้น ๆ ว่าระยะทาง ) d : X × X → R + (โดยที่R +คือเซตของจำนวนจริง ที่ไม่เป็นลบ ) สำหรับทุกx , y , zในXฟังก์ชันนี้จะต้องเป็นไปตามเงื่อนไขต่อไปนี้:
- d ( x , y ) ≥ 0 ( ค่าไม่เป็นลบ )
- d ( x , y ) = 0 ก็ต่อเมื่อ x = y ( เอกลักษณ์ของสิ่งที่ไม่สามารถแยกแยะได้โปรดทราบว่าเงื่อนไขที่ 1 และ 2 รวมกันทำให้เกิดความแน่นอนเชิงบวก )
- d ( x , y ) = d ( y , x ) ( สมมาตร )
- d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( คุณสมบัติการบวกย่อย / อสมการสามเหลี่ยม )
เมตริกทั่วไป
ระยะทางทางสถิติหลายอย่างไม่ใช่เมตริกเนื่องจากขาดคุณสมบัติอย่างน้อยหนึ่งข้อของเมตริกที่เหมาะสม ตัวอย่างเช่นซูโดเมตริกส์ละเมิดคุณสมบัติ (2) เอกลักษณ์ของสิ่งที่แยกแยะไม่ได้ ควอซิเมตริก ส์ละเมิดคุณสมบัติ (3) สมมาตร และเซมิเมตริกส์ละเมิดคุณสมบัติ (4) อสมการสามเหลี่ยม ระยะทางทางสถิติที่ตรงตาม (1) และ (2) เรียกว่าได เวอร์เจนซ์
ใกล้เคียงกันทางสถิติ
ระยะทางความแปรผันรวมของการกระจายสองแบบและเหนือโดเมนจำกัด(มักเรียกว่าความแตกต่างทางสถิติ[ 2 ] หรือระยะทางทางสถิติ[ 3 ] ในการเข้ารหัส) ถูกกำหนดดังนี้
.
เรากล่าวว่ากลุ่มความน่าจะเป็น สอง กลุ่ม และมีความใกล้เคียงกันทางสถิติ หากเป็นฟังก์ชันที่ไม่สำคัญใน
ตัวอย่าง
ตัวชี้วัด
- ระยะห่างความแปรผันรวม (บางครั้งเรียกว่า "ระยะห่างทางสถิติ")
- ระยะทางเฮลลิงเกอร์
- เมตริกเลวี-โปรคอรอฟ
- เมตริกวาสเซอร์สไตน์ : หรือที่รู้จักกันในชื่อเมตริกคันโตโรวิช หรือระยะทางของตัวเคลื่อนย้ายดิน
- ระยะทางมาฮาลาโนบิส
- เมตริกความน่าจะเป็นเชิงปริพันธ์เป็นการขยายเมตริกหรือซูโดเมตริกหลายตัวบนการแจกแจง
ความแตกต่าง
- ความแตกต่าง Kullback–Leibler
- ความแตกต่างแบบเรนยี
- ความแตกต่างระหว่างเจนเซนและแชนนอน
- การเบี่ยงเบนของลูกบอล
- ระยะทางภัตตาจารยะ (แม้ชื่อจะบอกว่าเป็นระยะทาง แต่จริงๆ แล้วไม่ใช่ระยะทาง เพราะขัดกับอสมการสามเหลี่ยม)
- f-divergence : เป็นการรวมระยะทางและไดเวอร์เจนซ์หลายประเภทเข้าด้วยกัน
- ดัชนีความสามารถในการจำแนกโดยเฉพาะอย่างยิ่งดัชนีความสามารถในการจำแนกแบบเบย์ส เป็นมาตรวัดสมมาตรที่เป็นบวกแน่นอน ซึ่งวัดการทับซ้อนกันของสองการแจกแจง
ดูเพิ่มเติม
หมายเหตุ
- ^ Dodge, Y. (2003)—รายการสำหรับระยะทาง
- ^ Goldreich, Oded (2001). พื้นฐานของการเข้ารหัส: เครื่องมือพื้นฐาน (ฉบับพิมพ์ครั้งที่ 1). เบอร์ลิน: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์หน้า 106. ISBN 0-521-79172-3.
- ^ เรย์ซิน, ลีโอ. (บันทึกการบรรยาย)ตัวสกัดและทฤษฎีบทแฮชที่เหลือ
ลิงก์ภายนอก
- การวัดระยะทางและความคล้ายคลึง (Wolfram Alpha)