กลับไปหน้าบทความ

อ่าน 3 นาที

ระยะทางเชิงสถิติ

ใน ทางสถิติ ทฤษฎี ความน่าจะเป็น และ ทฤษฎีสารสนเทศ ระยะ ทางทางสถิติ เป็นการวัด ระยะห่าง ระหว่างวัตถุทางสถิติสองอย่าง ซึ่งอาจเป็น ตัวแปรสุ่ม สองตัว หรือ การแจกแจงความน่าจะเป็น หรือ...

ระยะทางเชิงสถิติ

(Learn how and when to remove this message)

ในทางสถิติทฤษฎีความน่าจะเป็นและทฤษฎีสารสนเทศระยะทางทางสถิติเป็นการวัดระยะห่างระหว่างวัตถุทางสถิติสองอย่าง ซึ่งอาจเป็นตัวแปรสุ่ม สองตัว หรือการแจกแจงความน่าจะเป็นหรือตัวอย่าง สองตัว หรือระยะห่างอาจเป็นระหว่างจุดตัวอย่างแต่ละจุดกับประชากรหรือกลุ่มตัวอย่างที่กว้างกว่านั้น

ระยะห่างระหว่างประชากรสามารถตีความได้ว่าเป็นการวัดระยะห่างระหว่างการแจกแจงความน่าจะเป็น สองแบบ ดังนั้นโดยพื้นฐานแล้วจึงเป็นการวัดระยะห่างระหว่างการวัดความน่าจะเป็น โดยที่การวัดระยะห่างทางสถิติเกี่ยวข้องกับความแตกต่างระหว่างตัวแปรสุ่ม ตัวแปรเหล่านี้อาจมีความสัมพันธ์ทางสถิติ[ 1 ]ดังนั้นระยะห่างเหล่านี้จึงไม่เกี่ยวข้องโดยตรงกับการวัดระยะห่างระหว่างการวัดความน่าจะเป็น อีกครั้ง การวัดระยะห่างระหว่างตัวแปรสุ่มอาจเกี่ยวข้องกับขอบเขตของการพึ่งพาซึ่งกันและกันระหว่างตัวแปรเหล่านั้น มากกว่าค่าของตัวแปรแต่ละตัว

มาตรวัดระยะทางทางสถิติหลายอย่างไม่ใช่เมตริกและบางอย่างก็ไม่สมมาตร มาตรวัดระยะทางบางประเภท ซึ่งเป็นการขยายความ ของระยะ ทางกำลังสองเรียกว่าความแตกต่าง (ทางสถิติ )

ศัพท์เฉพาะ

มีการใช้คำศัพท์หลายคำเพื่ออ้างถึงแนวคิดต่างๆ เกี่ยวกับระยะทาง ซึ่งมักจะคล้ายคลึงกันจนทำให้เกิดความสับสน และอาจถูกใช้ไม่สอดคล้องกันระหว่างผู้เขียนและในช่วงเวลาต่างๆ ทั้งในแบบกว้างๆ หรือในความหมายทางเทคนิคที่แม่นยำ นอกจากคำว่า "ระยะทาง" แล้ว คำศัพท์ที่คล้ายกันยังรวมถึงความเบี่ยงเบนความคลาดเคลื่อนความแตกต่างและการแยกแยะรวมถึงคำอื่นๆ เช่นฟังก์ชันความแตกต่างและเมตริกคำศัพท์จากทฤษฎีสารสนเทศได้แก่ เอนโทร ปีไขว้ เอนโทรปีสัมพัทธ์สารสนเทศการแยกแยะและการได้มาซึ่งสารสนเทศ

ระยะทางในฐานะหน่วยวัด

ตัวชี้วัด

เมตริกบนเซตXคือฟังก์ชัน (เรียกว่าฟังก์ชันระยะทางหรือเรียกสั้น ๆ ว่าระยะทาง ) d  : X × XR + (โดยที่R +คือเซตของจำนวนจริง ที่ไม่เป็นลบ ) สำหรับทุกx , y , zในXฟังก์ชันนี้จะต้องเป็นไปตามเงื่อนไขต่อไปนี้:

  1. d ( x , y ) ≥ 0 ( ค่าไม่เป็นลบ )
  2. d ( x , y ) = 0 ก็ต่อเมื่อ   x = y     ( เอกลักษณ์ของสิ่งที่ไม่สามารถแยกแยะได้โปรดทราบว่าเงื่อนไขที่ 1 และ 2 รวมกันทำให้เกิดความแน่นอนเชิงบวก )
  3. d ( x , y ) = d ( y , x ) ( สมมาตร )
  4. d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( คุณสมบัติการบวกย่อย / อสมการสามเหลี่ยม )

เมตริกทั่วไป

ระยะทางทางสถิติหลายอย่างไม่ใช่เมตริกเนื่องจากขาดคุณสมบัติอย่างน้อยหนึ่งข้อของเมตริกที่เหมาะสม ตัวอย่างเช่นซูโดเมตริกส์ละเมิดคุณสมบัติ (2) เอกลักษณ์ของสิ่งที่แยกแยะไม่ได้ ควอซิเมตริก ส์ละเมิดคุณสมบัติ (3) สมมาตร และเซมิเมตริกส์ละเมิดคุณสมบัติ (4) อสมการสามเหลี่ยม ระยะทางทางสถิติที่ตรงตาม (1) และ (2) เรียกว่าได เวอร์เจนซ์

ใกล้เคียงกันทางสถิติ

ระยะทางความแปรผันรวมของการกระจายสองแบบและเหนือโดเมนจำกัด(มักเรียกว่าความแตกต่างทางสถิติ[ 2 ] หรือระยะทางทางสถิติ[ 3 ] ในการเข้ารหัส) ถูกกำหนดดังนี้

.

เรากล่าวว่ากลุ่มความน่าจะเป็น สอง กลุ่ม และมีความใกล้เคียงกันทางสถิติ หากเป็นฟังก์ชันที่ไม่สำคัญใน

ตัวอย่าง

ตัวชี้วัด

ความแตกต่าง

ดูเพิ่มเติม

หมายเหตุ

  1. ^ Dodge, Y. (2003)—รายการสำหรับระยะทาง
  2. ^ Goldreich, Oded (2001). พื้นฐานของการเข้ารหัส: เครื่องมือพื้นฐาน (ฉบับพิมพ์ครั้งที่ 1). เบอร์ลิน: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์หน้า 106. ISBN 0-521-79172-3.
  3. ^ เรย์ซิน, ลีโอ. (บันทึกการบรรยาย)ตัวสกัดและทฤษฎีบทแฮชที่เหลือ
  • การวัดระยะทางและความคล้ายคลึง (Wolfram Alpha)
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Statistical_distance&oldid=1289978641 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ระยะทางเชิงสถิติ

ใน ทางสถิติ ทฤษฎี ความน่าจะเป็น และ ทฤษฎีสารสนเทศ ระยะ ทางทางสถิติ เป็นการวัด ระยะห่าง ระหว่างวัตถุทางสถิติสองอย่าง ซึ่งอาจเป็น ตัวแปรสุ่ม สองตัว หรือ การแจกแจงความน่าจะเป็น หรือ...

ศัพท์เฉพาะ

มีการใช้คำศัพท์หลายคำเพื่ออ้างถึงแนวคิดต่างๆ เกี่ยวกับระยะทาง ซึ่งมักจะคล้ายคลึงกันจนทำให้เกิดความสับสน และอาจถูกใช้ไม่สอดคล้องกันระหว่างผู้เขียนและในช่วงเวลาต่างๆ ทั้งในแบบกว้างๆ หรือในความหมายทางเทคนิคที่แม่นยำ นอกจากคำว่า "ระยะทาง" แล้ว...

ตัวชี้วัด

เมตริกบนเซต X คือ ฟังก์ชัน (เรียกว่า ฟังก์ชันระยะทาง หรือเรียกสั้น ๆ ว่า ระยะ ทาง ) d : X × X → R + (โดยที่ R + คือเซตของ จำนวนจริง ที่ไม่เป็นลบ ) สำหรับทุก x , y , z ใน X ฟังก์ชันนี้จะต้องเป็นไปตามเงื่อนไขต่อไปนี้:

เมตริกทั่วไป

ระยะทางทางสถิติหลายอย่างไม่ใช่ เมตริก เนื่องจากขาดคุณสมบัติอย่างน้อยหนึ่งข้อของเมตริกที่เหมาะสม ตัวอย่างเช่น ซูโดเมตริกส์ ละเมิดคุณสมบัติ (2) เอกลักษณ์ของสิ่งที่แยกแยะไม่ได้ ควอซิเมตริก ส์ ละเมิดคุณสมบัติ (3) สมมาตร และ เซมิเมตริกส์ ละเมิดคุณสมบัติ (4)...