กลับไปหน้าบทความ

อ่าน 9 นาที

ระยะทางพลังงาน

ระยะทางพลังงานคือระยะทางทางสถิติระหว่างการแจกแจงความน่าจะเป็นถ้า X และ Y เป็นเวกเตอร์สุ่มอิสระในR dที่มีฟังก์ชันการแจกแจงสะสม (cdf) F และ G ตามลำดับ ระยะทางพลังงานระหว่างการแจกแจง.

ระยะทางพลังงาน

ระยะทางพลังงานคือระยะทางทางสถิติระหว่างการแจกแจงความน่าจะเป็นถ้า X และ Y เป็นเวกเตอร์สุ่มอิสระในR dที่มีฟังก์ชันการแจกแจงสะสม (cdf) F และ G ตามลำดับ ระยะทางพลังงานระหว่างการแจกแจง F และ G จะถูกกำหนดให้เป็นรากที่สองของ

โดยที่ (X, X', Y, Y') เป็นอิสระต่อกัน ฟังก์ชันการกระจายสะสม (cdf) ของ X และ X' คือ F ฟังก์ชันการกระจายสะสม (cdf) ของ Y และ Y' คือ G คือค่าที่คาดหวังและ || . || หมายถึงความยาวของเวกเตอร์ ระยะทางพลังงานเป็นไปตามสัจพจน์ทั้งหมดของเมตริก ดังนั้นระยะทางพลังงานจึงบ่งบอกถึงความเท่าเทียมกันของการกระจาย: D(F,G) = 0 ก็ต่อเมื่อF = G ระยะทางพลังงานสำหรับการประยุกต์ใช้ทางสถิติได้รับการแนะนำในปี 1985 โดยGábor J. Székelyซึ่งพิสูจน์ว่าสำหรับตัวแปรสุ่มค่าจริงนั้นมีค่าเป็นสองเท่าของระยะทาง Cramér พอดี : [ 1 ]

สำหรับการพิสูจน์ความเท่าเทียมกันอย่างง่าย โปรดดู Székely (2002) [ 2 ]

อย่างไรก็ตาม ในมิติที่สูงกว่า ระยะทางทั้งสองจะแตกต่างกัน เนื่องจากระยะทางพลังงานไม่เปลี่ยนแปลงเมื่อหมุน ในขณะที่ระยะทางของ Cramér ไม่เปลี่ยนแปลงเมื่อหมุน (โปรดสังเกตว่าระยะทางของ Cramér ไม่เหมือนกับเกณฑ์ Cramér–von Mises ที่ไม่ขึ้นกับการกระจายตัว )

การสรุปทั่วไปสู่ปริภูมิเมตริก

เราสามารถขยายแนวคิดเรื่องระยะทางพลังงานไปสู่การแจกแจงความน่าจะเป็นบนปริภูมิเมตริกได้ ให้เป็นปริภูมิเมตริกที่มีพีชคณิตซิกมาของบอเรลให้แทนกลุ่มของการวัดความน่าจะเป็น ทั้งหมด บนปริภูมิที่วัดได้ถ้า μ และ ν เป็นการวัดความน่าจะเป็นในแล้วระยะทางพลังงานของ μ และ ν สามารถนิยามได้ว่าเป็นรากที่สองของ

อย่างไรก็ตาม นี่ไม่จำเป็นต้องเป็นค่าที่ไม่เป็นลบเสมอไป ถ้าเป็นเคอร์เนลที่มีค่าลบแน่นอนอย่างเข้มข้น แสดงว่า เป็นเมตริกและในทางกลับกัน[ 3 ]เงื่อนไขนี้แสดงออกมาโดยการกล่าวว่ามีประเภทเป็นลบ ประเภทเป็นลบไม่เพียงพอสำหรับที่จะ เป็นเมตริก เงื่อนไขหลังนี้แสดงออกมาโดยการกล่าวว่ามีประเภทเป็นลบอย่างเข้มข้น ในสถานการณ์นี้ ระยะทางพลังงานเป็นศูนย์ก็ต่อเมื่อ X และ Y มีการกระจายเหมือนกัน ตัวอย่างของเมตริกประเภทเป็นลบแต่ไม่ใช่ประเภทเป็นลบอย่างเข้มข้นคือระนาบที่มีเมตริกแท็กซี่พื้นที่ยุคลิดทั้งหมดและแม้แต่พื้นที่ฮิลเบิร์ตที่แยกได้ก็มีประเภทเป็นลบอย่างเข้มข้น[ 4 ]

ในเอกสารเกี่ยวกับวิธีเคอร์เนลสำหรับการเรียนรู้ของเครื่องแนวคิดทั่วไปของระยะทางพลังงานเหล่านี้ได้รับการศึกษาภายใต้ชื่อความคลาดเคลื่อนเฉลี่ยสูงสุด ความเท่าเทียมกันของวิธีการตามระยะทางและเคอร์เนลสำหรับการทดสอบสมมติฐานได้รับการกล่าวถึงโดยผู้เขียนหลายคน[ 5 ] [ 6 ]

สถิติพลังงาน

แนวคิดทางสถิติที่เกี่ยวข้องอีกประการหนึ่งคือแนวคิดของE-statisticหรือenergy-statistic [ 7 ]ได้รับการแนะนำโดยGábor J. Székelyในช่วงทศวรรษ 1980 เมื่อเขาบรรยายในงานสัมมนาที่บูดาเปสต์ ประเทศฮังการี และที่ MIT, Yale และ Columbia แนวคิดนี้อิงตามแนวคิดของพลังงานศักยภาพ ของนิว ตัน[ 8 ]แนวคิดคือการพิจารณาการสังเกตทางสถิติว่าเป็นเทหวัตถุบนท้องฟ้าที่อยู่ภายใต้พลังงานศักยภาพ ทางสถิติ ซึ่งเป็นศูนย์ก็ต่อเมื่อสมมติฐานว่าง ทางสถิติพื้นฐาน เป็นจริงเท่านั้น สถิติพลังงานเป็นฟังก์ชันของระยะห่างระหว่างการสังเกตทางสถิติ

ระยะทางพลังงานและสถิติ E ถูกพิจารณาว่าเป็น ระยะทาง Nและสถิติ Nใน Zinger AA, Kakosyan AV, Klebanov LB การกำหนดลักษณะของการแจกแจงโดยใช้ค่าเฉลี่ยของสถิติบางอย่างที่เกี่ยวข้องกับเมตริกความน่าจะเป็นบางอย่าง ปัญหาเสถียรภาพสำหรับแบบจำลองสุ่ม มอสโก VNIISI, 1989, 47-55 (เป็นภาษารัสเซีย) การแปลภาษาอังกฤษ: การกำหนดลักษณะของการแจกแจงโดยใช้ค่าเฉลี่ยของสถิติและเมตริกความน่าจะเป็นบางอย่าง AA Zinger, AV Kakosyan, LB Klebanov ในวารสารคณิตศาสตร์โซเวียต (1992) ในเอกสารเดียวกันนี้ได้มีการให้คำจำกัดความของเคอร์เนลที่เป็นลบอย่างเข้มข้น และให้การวางนัยทั่วไปบนปริภูมิเมตริกที่กล่าวถึงข้างต้น หนังสือ[ 3 ]ให้ผลลัพธ์เหล่านี้และการประยุกต์ใช้กับการทดสอบทางสถิติเช่นกัน หนังสือเล่มนี้ยังมีการประยุกต์ใช้บางอย่างในการกู้คืนการวัดจากศักยภาพของมันด้วย

การทดสอบการกระจายที่เท่าเทียมกัน

พิจารณาสมมติฐานว่างที่ว่าตัวแปรสุ่มสองตัวXและYมีการแจกแจงความน่าจะเป็นเดียวกัน: . สำหรับตัวอย่างทางสถิติจากXและY :

และ,

ค่าเฉลี่ยเลขคณิตของระยะทางระหว่างตัวอย่าง X และ Y จะถูกคำนวณดังนี้:

.

ค่าสถิติ E ของสมมติฐานว่างพื้นฐานถูกกำหนดดังนี้:

สามารถพิสูจน์ได้[ 8 ] [ 9 ]ว่าและค่าประชากรที่สอดคล้องกันเป็นศูนย์ก็ต่อเมื่อXและYมีการกระจายเดียวกัน ( ) ภายใต้สมมติฐานว่างนี้สถิติการทดสอบ

ลู่เข้าสู่การกระจายตัวในรูปแบบกำลังสองของตัวแปรสุ่มปกติ มาตรฐานอิสระ ภายใต้สมมติฐานทางเลือกTมีแนวโน้มเข้าสู่อนันต์ ซึ่งทำให้สามารถสร้างการทดสอบทางสถิติ ที่สอดคล้องกันได้ นั่น คือการทดสอบพลังงานสำหรับการกระจายตัวที่เท่ากัน[ 10 ]

นอกจากนี้ยังสามารถนำค่าสัมประสิทธิ์ความไม่สม่ำเสมอ E มาใช้ได้ด้วย โดยค่านี้จะอยู่ระหว่าง 0 ถึง 1 เสมอ และกำหนดโดยสูตรดังนี้

โดยที่ หมายถึงค่าที่คาดหวังH  = 0 ก็ต่อเมื่อXและYมีการกระจายตัวแบบเดียวกัน

ความพอดี

มาตรวัดความเหมาะสมของแบบจำลองหลายตัวแปรถูกกำหนดขึ้นสำหรับแบบจำลองที่มีมิติใดๆ ก็ได้ (ไม่จำกัดด้วยขนาดของกลุ่มตัวอย่าง) สถิติความเหมาะสมของแบบจำลองด้านพลังงานคือ

โดยที่ X และ X' เป็นอิสระและมีการกระจายเหมือนกันตามการกระจายที่สมมติขึ้น และเงื่อนไขที่จำเป็นเพียงอย่างเดียวคือ X มีโมเมนต์จำกัดภายใต้สมมติฐานว่าง ภายใต้สมมติฐานว่างและการกระจายแบบอะซิมโทติกของ Q nเป็นรูปแบบกำลังสองของตัวแปรสุ่มเกาส์เซียนที่มีศูนย์กลาง ภายใต้สมมติฐานทางเลือก Q nมีแนวโน้มเข้าสู่อนันต์แบบสุ่ม และด้วยเหตุนี้จึงกำหนดการทดสอบที่สอดคล้องกันทางสถิติ สำหรับการใช้งานส่วนใหญ่สามารถใช้เลขชี้กำลัง 1 (ระยะทางแบบยุคลิด) ได้ กรณีพิเศษที่สำคัญของการทดสอบความปกติแบบหลายตัวแปร[ 9 ]ได้รับการนำไปใช้ใน แพ็คเกจ พลังงานสำหรับ R การทดสอบยังได้รับการพัฒนาสำหรับการกระจายแบบหางหนัก เช่น Pareto ( กฎกำลัง ) หรือการกระจายแบบเสถียรโดยการใช้เลขชี้กำลังใน (0,1)

แอปพลิเคชัน

แอปพลิเคชันต่างๆ ได้แก่:

Gneiting และ Raftery [ 19 ]ใช้ระยะทางพลังงานเพื่อพัฒนากฎการให้คะแนนที่เหมาะสมแบบใหม่และทั่วไปมากสำหรับการคาดการณ์ความน่าจะเป็น ซึ่งก็คือคะแนนพลังงาน

การประยุกต์ ใช้ สถิติพลังงานได้รับการนำไปใช้ในแพ็คเกจพลังงาน โอเพนซอร์ส [ 28 ]สำหรับR

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Energy_distance&oldid=1356977912 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ระยะทางพลังงาน

ระยะทางพลังงานคือระยะทางทางสถิติระหว่างการแจกแจงความน่าจะเป็นถ้า X และ Y เป็นเวกเตอร์สุ่มอิสระในR dที่มีฟังก์ชันการแจกแจงสะสม (cdf) F และ G ตามลำดับ ระยะทางพลังงานระหว่างการแจกแจง.

การสรุปทั่วไปสู่ปริภูมิเมตริก

เราสามารถขยายแนวคิดเรื่องระยะทางพลังงานไปสู่การแจกแจงความน่าจะเป็นบนปริภูมิเมตริกได้ ให้เป็น ปริภูมิเมตริก ที่มี พีชคณิตซิกมาของบอเรล ให้แทนกลุ่มของ การวัดความน่าจะเป็น ทั้งหมด บน ปริภูมิที่วัดได้ ถ้า μ และ ν เป็นการวัดความน่าจะเป็นในแล้วระยะทางพลังงานของ μ...

สถิติพลังงาน

แนวคิดทางสถิติที่เกี่ยวข้องอีกประการหนึ่งคือแนวคิดของ E-statistic หรือ energy-statistic [ 7 ] ได้รับการแนะนำโดย Gábor J.

การทดสอบการกระจายที่เท่าเทียมกัน

พิจารณาสมมติฐานว่างที่ว่าตัวแปรสุ่มสองตัว X และ Y มีการแจกแจงความน่าจะเป็นเดียวกัน: . สำหรับ ตัวอย่างทางสถิติ จาก X และ Y : μ = ν {\displaystyle \mu =\nu }