อ่าน 16 นาที
การแจกแจงโลจิสติกส์ทั่วไป
คำว่า การแจกแจงโลจิสติกทั่วไป ใช้เป็นชื่อสำหรับตระกูล การแจกแจงความน่าจะเป็น ที่แตกต่างกันหลายตระกูล ตัวอย่างเช่น Johnson et al. [ 1 ] ระบุรูปแบบสี่แบบ ซึ่งแสดงไว้ด้านล่าง
การแจกแจงโลจิสติกส์ทั่วไป
คำว่าการแจกแจงโลจิสติกทั่วไปใช้เป็นชื่อสำหรับตระกูลการแจกแจงความน่าจะเป็น ที่แตกต่างกันหลายตระกูล ตัวอย่างเช่น Johnson et al. [ 1 ]ระบุรูปแบบสี่แบบ ซึ่งแสดงไว้ด้านล่าง
ประเภท Iยังถูกเรียกว่า การ แจกแจงแบบสเกว-โลจิสติกประเภท IVครอบคลุมประเภทอื่นๆ และได้มาจากการใช้ การแปลง โลจิตกับ ตัวแปรสุ่ม เบต้าตามธรรมเนียมเดียวกันกับการแจกแจงแบบลอการิทมิกปกติประเภท IV อาจเรียกว่า การแจกแจงแบบโลจิสติก - เบต้า[ 2 ]โดยอ้างอิงถึงฟังก์ชันโลจิสติก มาตรฐาน ซึ่งเป็นส่วนกลับของการแปลงโลจิต
สำหรับตระกูลการแจกแจงอื่นๆ ที่ถูกเรียกว่าการแจกแจงโลจิสติกแบบทั่วไป โปรดดูการแจกแจงล็อกโลจิสติกแบบเลื่อน (shifted log-logistic distribution ) ซึ่งเป็นการวางนัยทั่วไปของ การแจกแจงล็อกโลจิสติก และการแจกแจงเมตาล็อก (metalog หรือ "meta-logistic")ซึ่งมีความยืดหยุ่นสูงในด้านรูปร่างและขอบเขต และสามารถปรับให้เข้ากับข้อมูลได้ด้วยวิธีการกำลังสองน้อยที่สุดเชิงเส้น (linear least squares)
คำจำกัดความ
คำจำกัดความต่อไปนี้ใช้สำหรับเวอร์ชันมาตรฐานของกลุ่มข้อมูล ซึ่งสามารถขยายเป็นรูปแบบเต็มรูปแบบได้ในฐานะกลุ่มข้อมูลตำแหน่ง-มาตราส่วนแต่ละกลุ่มข้อมูลถูกกำหนดโดยใช้ฟังก์ชันการกระจายสะสม ( F ) หรือฟังก์ชันความหนาแน่นความน่าจะเป็น ( ƒ ) และถูกกำหนดบนช่วง(−∞, +∞ )
ประเภทที่ 1
ฟังก์ชันความหนาแน่นความน่าจะเป็นที่สอดคล้องกันคือ:
การแจกแจงประเภทนี้เรียกอีกอย่างว่า "การแจกแจงโลจิสติกแบบเบี่ยงเบน" (skew-logistic distribution)
ประเภท II
ฟังก์ชันความหนาแน่นความน่าจะเป็นที่สอดคล้องกันคือ:
ประเภท III
ในที่นี้Bคือฟังก์ชันเบต้าฟังก์ชันสร้างโมเมนต์สำหรับประเภทนี้คือ
ฟังก์ชันการกระจายสะสมที่สอดคล้องกันคือ:
ประเภท IV
โดยที่Bคือฟังก์ชันเบต้าและคือฟังก์ชันโลจิสติก มาตรฐาน ฟังก์ชันสร้างโมเมนต์สำหรับประเภทนี้คือ
ประเภทนี้เรียกอีกอย่างว่า "เบต้าทั่วไปแบบเอกซ์โปเนนเชียลประเภทที่สอง" [ 1 ]
ฟังก์ชันการกระจายสะสมที่สอดคล้องกันคือ:
ความสัมพันธ์ระหว่างประเภทต่างๆ
แบบที่ 4 เป็นรูปแบบการแจกแจงทั่วไปที่สุด การแจกแจงแบบที่ 3 สามารถได้มาจากแบบที่ 4 โดยการกำหนดค่าคงที่การแจกแจงแบบที่ 2 สามารถได้มาจากแบบที่ 4 โดยการกำหนดค่าคงที่(และเปลี่ยนชื่อเป็น) การแจกแจงแบบที่ 1 สามารถได้มาจากแบบที่ 4 โดยการกำหนดค่าคงที่การ กำหนดค่าคงที่ จะให้ การแจกแจงโลจิสติกมาตรฐาน
คุณสมบัติประเภท IV (โลจิสติก-เบต้า)

การแจกแจง โลจิสติกทั่วไปประเภท IVหรือการ แจกแจง โลจิสติก-เบต้า[ 2 ]ที่มีพารามิเตอร์สนับสนุนและรูปร่าง มี ฟังก์ชันความหนาแน่นความน่าจะเป็น (pdf) (ดังที่แสดงข้างต้น ):
โดยที่คือฟังก์ชันโลจิสติก มาตรฐาน ฟังก์ชันความหนาแน่นความน่าจะเป็นสำหรับชุดพารามิเตอร์รูปร่างสามชุดที่แตกต่างกันแสดงอยู่ในกราฟ โดยที่การแจกแจงได้รับการปรับขนาดและเลื่อนเพื่อให้มีค่าเฉลี่ยเป็นศูนย์และความแปรปรวนเป็นหนึ่ง เพื่อให้ง่ายต่อการเปรียบเทียบรูปร่าง
ต่อไปนี้จะใช้สัญลักษณ์นี้เพื่อแสดงถึงการแจกแจงแบบประเภท IV
ความสัมพันธ์กับการแจกแจงเบต้า
ดังที่ชื่อ logistic-beta บ่งบอก หากเป็นไปตาม logistic-beta ที่มีพารามิเตอร์แล้ว
ความสัมพันธ์กับการแจกแจงแกมมา
การแจกแจงนี้สามารถหาได้ในรูปของการแจกแจงแกมมาดังต่อไปนี้ ให้และเป็นอิสระต่อกันและให้. จากนั้น. [ 3 ]
สมมาตร
ถ้าเช่นนั้น
การแสดงผลแบบผสมความแปรปรวน-ค่าเฉลี่ยปกติ
การแจกแจงโลจิสติก-เบต้า ยอมรับการแสดงแบบผสมความแปรปรวน-ค่าเฉลี่ยปกติดังต่อไปนี้: [ 4 ]
โดยที่เป็นความหนาแน่นปกติที่มีค่าเฉลี่ย, ความแปรปรวน, และเป็นความหนาแน่นของการแจกแจงแบบ Polya ที่มีพารามิเตอร์, ซึ่งกำหนดเป็น
ค่าเฉลี่ยและความแปรปรวน
โดยใช้ค่าคาดหวังเชิงลอการิทึมของการแจกแจงแกมมา เราสามารถหาค่าเฉลี่ยและความแปรปรวนได้ดังนี้:
โดยที่คือฟังก์ชันไดแกมมาในขณะที่คืออนุพันธ์อันดับแรกของฟังก์ชันไดแกมมา หรือที่รู้จักกันในชื่อฟังก์ชันไตรแกมมาหรือฟังก์ชันพหุแกมมา อันดับแรก เนื่องจากเพิ่มขึ้นอย่างต่อเนื่องเครื่องหมายของค่าเฉลี่ยจึงเหมือนกับเครื่องหมายของเนื่องจากลดลงอย่างต่อเนื่อง พารามิเตอร์รูปร่างจึงสามารถตีความได้ว่าเป็นพารามิเตอร์ความเข้มข้น ดังที่แสดงไว้ด้านล่าง หางด้านซ้ายและด้านขวาจะบางลงตามลำดับเมื่อหรือเพิ่มขึ้น สองพจน์ของความแปรปรวนแสดงถึงส่วนประกอบของความแปรปรวนของส่วนซ้ายและขวาของการกระจาย
ค่าคูมูลันต์และความเบี่ยงเบน
ฟังก์ชันก่อกำเนิดคูมูลันต์คือโดยที่ฟังก์ชันก่อกำเนิดโมเมนต์ได้ระบุไว้ข้างต้นแล้วคูมูลันต์ , , คืออนุพันธ์อันดับที่ ของ ซึ่งประเมินค่าที่:
โดยที่และคือฟังก์ชันไดแกมมาและโพลีแกมมา ตามลำดับ จากการพิสูจน์ข้างต้น ค่าคุมูลันต์แรกคือค่าเฉลี่ย และค่าคุมูลันต์ที่สองคือค่าความแปรปรวน
ค่าคุมูลันต์ที่สามคือค่าโมเมนต์กลางที่สามซึ่งเมื่อปรับขนาดด้วยกำลังสามของค่าเบี่ยงเบนมาตรฐาน จะได้ค่าความเบ้ :
เครื่องหมาย (และดังนั้นทิศทางซ้ายขวา ) ของความเบี่ยงเบนจะเหมือนกับเครื่องหมายของ.
โหมด
ค่าฐานนิยม (ค่าสูงสุดของฟังก์ชันความหนาแน่นความน่าจะเป็น) สามารถหาได้โดยการหาจุดที่ค่าลอการิทึมของอนุพันธ์ของฟังก์ชันความหนาแน่นความน่าจะเป็นมีค่าเป็นศูนย์:
สิ่งนี้ทำให้ง่ายขึ้นเป็นดังนั้น: [ 3 ]
พฤติกรรมหาง

ในแต่ละหางซ้ายและขวา ซิกมอยด์ตัวหนึ่งในฟังก์ชันความหนาแน่นความน่าจะเป็น (pdf) จะอิ่มตัวเป็นหนึ่ง ดังนั้นหางจึงถูกสร้างขึ้นโดยซิกมอยด์อีกตัวหนึ่ง สำหรับค่าลบขนาดใหญ่หางด้านซ้ายของ pdf จะเป็นสัดส่วนกับในขณะที่หางด้านขวา (ค่าบวกขนาดใหญ่) จะเป็นสัดส่วนกับซึ่งหมายความว่าหางถูกควบคุมโดยอิสระโดยและแม้ว่าหางแบบประเภท IV จะหนักกว่าหางของการแจกแจงปกติ ( สำหรับความแปรปรวน) แต่ค่าเฉลี่ยและความแปรปรวนของแบบประเภท IV ยังคงมีค่าจำกัดสำหรับทุกค่าของซึ่งแตกต่างจากการแจกแจงโคชีซึ่งไม่มีค่าเฉลี่ยและความแปรปรวน ในกราฟ log pdf ที่แสดงในที่นี้ หางแบบประเภท IV เป็นเส้นตรง หางของการแจกแจงปกติเป็นแบบกำลังสอง และหางของโคชีเป็นแบบลอการิทึม
คุณสมบัติของตระกูลเลขชี้กำลัง
สร้างตระกูลเลขชี้กำลังที่มีพารามิเตอร์ธรรมชาติ และสถิติที่เพียงพอและ. ค่าที่คาดหวังของสถิติที่เพียงพอสามารถหาได้จากการหาอนุพันธ์ของลอการิทึมนอร์มัลไลเซอร์: [ 5 ]
เมื่อกำหนดชุดข้อมูลที่สันนิษฐานว่าสร้างขึ้น โดยอิสระและมีการกระจาย เหมือนกัน(IID)แล้ว ค่าประมาณพารามิเตอร์ แบบความน่าจะเป็นสูงสุดคือ:
โดยเส้นขีดบนกราฟแสดงถึงค่าเฉลี่ยของสถิติที่เพียงพอ การประมาณค่าด้วยวิธีความน่าจะเป็นสูงสุดขึ้นอยู่กับข้อมูลผ่านทางสถิติเฉลี่ยเหล่านี้เท่านั้น อันที่จริงแล้ว ในการประมาณค่าด้วยวิธีความน่าจะเป็นสูงสุด ค่าที่คาดหวังและค่าเฉลี่ยจะสอดคล้องกัน:
ซึ่งเป็นจุดที่อนุพันธ์ย่อยของค่าสูงสุดข้างต้นมีค่าเป็นศูนย์ด้วยเช่นกัน
ความสัมพันธ์กับการแจกแจงอื่นๆ
ความสัมพันธ์กับการแจกแจงข้อมูลอื่นๆ ได้แก่:
- อัตราส่วนลอการิทึมของตัวแปรแกมมาเป็นประเภท IVดังที่ได้อธิบายไว้ข้างต้น
- ถ้าแล้วจะมี การแจกแจง แบบประเภท IVโดยมีพารามิเตอร์และดูการแจกแจงเบต้าไพรม์
- ถ้าและ โดยที่ถูกใช้เป็นพารามิเตอร์อัตราของการแจกแจงแกมมาที่สอง แล้วจะมีการแจกแจงแกมมาแบบผสมซึ่งเหมือนกับดังนั้น จึงมีการแจกแจงแบบประเภท IV
- ถ้าแล้วจะมี การกระจาย แบบประเภท IVโดยมีพารามิเตอร์และดูการกระจายแบบเบต้าฟังก์ชันโลจิตเป็นฟังก์ชันผกผันของฟังก์ชันโลจิสติกความสัมพันธ์นี้อธิบายชื่อโลจิสติก-เบต้าสำหรับการกระจายนี้: ถ้าใช้ฟังก์ชันโลจิสติกกับตัวแปรโลจิสติก-เบต้า การกระจายที่แปลงแล้วจะเป็นเบต้า
พารามิเตอร์รูปร่างขนาดใหญ่

สำหรับค่าพารามิเตอร์รูปร่างที่มีขนาดใหญ่การกระจายตัวจะมีความ คล้ายคลึงกับการกระจายแบบ เกาส์เซียน มากขึ้น โดยมีรูปแบบดังนี้:
สิ่งนี้แสดงให้เห็นได้จากกราฟ pdf และ log pdf ที่แสดงไว้ด้านล่างนี้
การสร้างตัวแปรสุ่ม
เนื่องจากการสุ่มตัวอย่างแบบสุ่มจาก1การแจกแจงแกมมาและเบตาสามารถทำได้ง่ายบนแพลตฟอร์มซอฟต์แวร์หลายแห่ง ความสัมพันธ์ข้างต้นกับการแจกแจงเหล่านั้นจึงสามารถนำมาใช้สร้างตัวแปรจากการแจกแจงประเภท IV ได้
การสรุปทั่วไปด้วยพารามิเตอร์ตำแหน่งและมาตราส่วน
สามารถสร้างตระกูลพารามิเตอร์สี่ตัวที่ยืดหยุ่นได้โดยการเพิ่ม พารามิเตอร์ ตำแหน่งและมาตราส่วนวิธีหนึ่งในการทำเช่นนี้คือ ถ้าแล้วให้ โดยที่คือพารามิเตอร์มาตราส่วน และคือพารามิเตอร์ตำแหน่ง ตระกูลพารามิเตอร์สี่ตัวที่ได้มานี้มีความยืดหยุ่นเพิ่มเติมตามที่ต้องการ แต่พารามิเตอร์ใหม่เหล่านี้อาจตีความได้ยากเนื่องจากและยิ่งไปกว่านั้น การประมาณค่า ความน่าจะเป็นสูงสุดด้วยการกำหนดพารามิเตอร์นี้ทำได้ยาก ปัญหาเหล่านี้สามารถแก้ไขได้ดังต่อไปนี้
โปรดจำไว้ว่าค่าเฉลี่ยและความแปรปรวนของคือ:
ต่อไปให้ขยายกลุ่มข้อมูลโดยเพิ่มพารามิเตอร์ตำแหน่งและพารามิเตอร์มาตราส่วนผ่านการแปลง:
ดังนั้นและจึงสามารถตีความได้แล้ว อาจสังเกตได้ว่า การอนุญาตให้ เป็นได้ทั้งค่าบวกหรือค่าลบนั้น ไม่ได้ทำให้ตระกูลนี้เป็นแบบทั่วไป เนื่องจาก คุณสมบัติ สมมาตร ที่กล่าวไว้ข้างต้น เราจึงใช้สัญลักษณ์สำหรับตระกูลนี้
ถ้าไฟล์ PDF สำหรับคือแล้วไฟล์ PDF สำหรับคือ:
โดยที่เข้าใจได้ว่ามีการคำนวณตามรายละเอียดข้างต้น โดยเป็นฟังก์ชันของกราฟ pdf และ log-pdf ด้านบน ซึ่งคำบรรยายใต้ภาพมี(ค่าเฉลี่ย=0, ค่าความแปรปรวน=1)นั้นใช้สำหรับ
การประมาณค่าพารามิเตอร์ด้วยวิธีความน่าจะเป็นสูงสุด
ในส่วนนี้ จะกล่าวถึงการประมาณค่าพารามิเตอร์การแจกแจง โดย ใช้ วิธีความน่าจะเป็นสูงสุด โดยพิจารณา จากชุดข้อมูลที่กำหนดให้ตามลำดับสำหรับตระกูลและ
ความน่าจะเป็นสูงสุดสำหรับประเภท IV มาตรฐาน
ดังที่กล่าวไว้ข้างต้นเป็นตระกูลเลขชี้กำลังที่มีพารามิเตอร์ตามธรรมชาติซึ่งค่าประมาณความน่าจะเป็นสูงสุดจะขึ้นอยู่กับสถิติเพียงพอเฉลี่ยเท่านั้น:
เมื่อรวบรวมสถิติเหล่านี้แล้ว ค่าประมาณความน่าจะเป็นสูงสุดจะคำนวณได้ดังนี้:
โดยการใช้การกำหนดพารามิเตอร์และ อัลกอริธึม การหาค่าเหมาะสมที่สุดเชิงตัวเลขแบบไม่จำกัดเช่นBFGSสามารถนำมาใช้ได้ การวนซ้ำเพื่อหาค่าเหมาะสมที่สุดนั้นรวดเร็ว เนื่องจากไม่ขึ้นอยู่กับขนาดของชุดข้อมูล
อีกทางเลือกหนึ่งคือการใช้อัลกอริธึม EMที่อิงตามองค์ประกอบ: ถ้าและเนื่องจากคุณสมบัติการผกผันตัวเองของการแจกแจงแกมมาค่าคาดหวังภายหลังและที่จำเป็นสำหรับขั้นตอน Eสามารถคำนวณได้ในรูปแบบปิด การปรับปรุงพารามิเตอร์ ขั้นตอน Mสามารถแก้ไขได้ในลักษณะเดียวกับ การหาค่าความน่าจะเป็นสูงสุดสำหรับการแจกแจงแกมมา
ความน่าจะเป็นสูงสุดสำหรับตระกูลพารามิเตอร์สี่ตัว
ปัญหาการหาค่าความน่าจะเป็นสูงสุดสำหรับโดยมีฟังก์ชันความหนาแน่น ความน่าจะเป็น คือ:
นี่ไม่ใช่ตระกูลฟังก์ชันเลขชี้กำลังอีกต่อไป ดังนั้นการหาค่าที่เหมาะสมที่สุดในแต่ละรอบจะต้องประมวลผลข้อมูลทั้งหมด นอกจากนี้ การคำนวณอนุพันธ์ย่อย (เช่นที่จำเป็นสำหรับ BFGS) นั้นซับซ้อนกว่ากรณีสองพารามิเตอร์ข้างต้นมาก อย่างไรก็ตาม ฟังก์ชันส่วนประกอบทั้งหมดมีอยู่ในซอฟต์แวร์ที่มีการอนุพันธ์อัตโนมัติอยู่แล้วและเช่นเดียวกัน พารามิเตอร์ที่เป็นบวกสามารถกำหนดเป็นพารามิเตอร์ในรูปของลอการิทึมเพื่อให้ได้ปัญหาการหาค่าที่เหมาะสมที่สุดเชิงตัวเลขแบบไม่มี ข้อจำกัด
สำหรับปัญหานี้ การหาค่าเหมาะสมที่สุดเชิงตัวเลขอาจล้มเหลว เว้นแต่จะเลือกพารามิเตอร์ตำแหน่งและมาตราส่วนเริ่มต้นอย่างเหมาะสม อย่างไรก็ตาม ความสามารถในการตีความพารามิเตอร์เหล่านี้ในการกำหนดพารามิเตอร์ที่กล่าวถึงข้างต้นสามารถนำมาใช้เพื่อแก้ไขปัญหานี้ได้ โดยเฉพาะอย่างยิ่ง ค่าเริ่มต้นสำหรับและสามารถตั้งค่าเป็นค่าเฉลี่ยและความแปรปรวนเชิงประจักษ์ของข้อมูลได้
ดูเพิ่มเติม
- การแจกแจงแบบ Champernowneซึ่งเป็นการขยายความอีกรูปแบบหนึ่งของการแจกแจงแบบโลจิสติก
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การแจกแจงโลจิสติกส์ทั่วไป
คำว่า การแจกแจงโลจิสติกทั่วไป ใช้เป็นชื่อสำหรับตระกูล การแจกแจงความน่าจะเป็น ที่แตกต่างกันหลายตระกูล ตัวอย่างเช่น Johnson et al. [ 1 ] ระบุรูปแบบสี่แบบ ซึ่งแสดงไว้ด้านล่าง
คำจำกัดความ
คำจำกัดความต่อไปนี้ใช้สำหรับเวอร์ชันมาตรฐานของกลุ่มข้อมูล ซึ่งสามารถขยายเป็นรูปแบบเต็มรูปแบบได้ในฐานะ กลุ่มข้อมูลตำแหน่ง-มาตราส่วน แต่ละกลุ่มข้อมูลถูกกำหนดโดยใช้ ฟังก์ชันการกระจายสะสม ( F ) หรือ ฟังก์ชันความหนาแน่นความน่าจะเป็น ( ƒ ) และถูกกำหนดบนช่วง (−∞, +∞...
ประเภทที่ 1
ฟังก์ชันความหนาแน่นความน่าจะเป็นที่สอดคล้องกันคือ:
ประเภท II
ฟังก์ชันความหนาแน่นความน่าจะเป็นที่สอดคล้องกันคือ: