การวิเคราะห์จำแนกเชิงเส้น

ภาพเคลื่อนไหวการวิเคราะห์จำแนกเชิงเส้น (Linear discriminant analysis) เมื่อกำหนดชุดข้อมูลที่มีสองป้ายกำกับ ชุดข้อมูลจะถูกฉายไปยังเส้นตรง การฉายภาพที่เหมาะสมที่สุดจะได้เมื่ออัตราส่วนของ (ความแปรปรวนระหว่างกลุ่ม) / (ความแปรปรวนภายในกลุ่ม) มีค่าสูงสุด

การวิเคราะห์จำแนกเชิงเส้น ( LDA ), การวิเคราะห์จำแนกปกติ ( NDA ), การวิเคราะห์ตัวแปรแคนอนิก ( CVA ) หรือการวิเคราะห์ฟังก์ชันจำแนกเป็นการขยายผลของการจำแนกเชิงเส้นของฟิชเชอร์ซึ่งเป็นวิธีการที่ใช้ในสถิติและสาขาอื่นๆ เพื่อค้นหาการรวมกันเชิงเส้นของคุณลักษณะที่บ่งบอกลักษณะหรือแยกกลุ่มของวัตถุหรือเหตุการณ์สองกลุ่มขึ้นไป การรวมกันที่ได้อาจใช้เป็นตัวจำแนกเชิงเส้นหรือที่พบได้บ่อยกว่าคือการลดมิติก่อนการจำแนก ใน ภายหลัง

LDA มีความเกี่ยวข้องอย่างใกล้ชิดกับการวิเคราะห์ความแปรปรวน (ANOVA) และการวิเคราะห์การถดถอยซึ่งพยายามแสดงตัวแปรตามหนึ่งตัวเป็นผลรวมเชิงเส้นของคุณลักษณะหรือการวัดอื่นๆ^{[ 2 ]}^{[ 3 ]}อย่างไรก็ตาม ANOVA ใช้ตัวแปรอิสระเชิง หมวดหมู่ และตัวแปรตาม ต่อเนื่องในขณะที่การวิเคราะห์จำแนกมีตัวแปรอิสระ ต่อเนื่อง และตัวแปรตามเชิงหมวดหมู่ ( เช่นป้ายกำกับคลาส) ^[⁴^]การถดถอยโลจิสติกและการถดถอยโพรบิตมีความคล้ายคลึงกับ LDA มากกว่า ANOVA เนื่องจากอธิบายตัวแปรเชิงหมวดหมู่ด้วยค่าของตัวแปรอิสระต่อเนื่อง วิธีการอื่นๆ เหล่านี้เป็นที่นิยมมากกว่าในแอปพลิเคชันที่ไม่สมเหตุสมผลที่จะสมมติว่าตัวแปรอิสระมีการกระจายแบบปกติซึ่งเป็นสมมติฐานพื้นฐานของวิธีการ LDA

LDA ยังมีความเกี่ยวข้องอย่างใกล้ชิดกับการวิเคราะห์องค์ประกอบหลัก (PCA) และการวิเคราะห์ปัจจัยเนื่องจากทั้งสองวิธีต่างมองหาการรวมกันเชิงเส้นของตัวแปรที่อธิบายข้อมูลได้ดีที่สุด^{[ 5 ]} LDA พยายามสร้างแบบจำลองความแตกต่างระหว่างคลาสของข้อมูลอย่างชัดเจน ในทางตรงกันข้าม PCA ไม่ได้คำนึงถึงความแตกต่างในคลาส และการวิเคราะห์ปัจจัยสร้างการรวมกันของคุณลักษณะโดยอิงจากความคล้ายคลึงกันมากกว่าความแตกต่าง การวิเคราะห์จำแนกยังแตกต่างจากการวิเคราะห์ปัจจัยตรงที่ไม่ใช่เทคนิคการพึ่งพาซึ่งกันและกัน: ต้องมีการแยกแยะระหว่างตัวแปรอิสระและตัวแปรตาม (เรียกอีกอย่างว่าตัวแปรเกณฑ์)

LDA ทำงานได้เมื่อการวัดที่ทำกับตัวแปรอิสระสำหรับการสังเกตแต่ละครั้งเป็นปริมาณต่อเนื่อง เมื่อต้องจัดการกับตัวแปรอิสระเชิงหมวดหมู่ เทคนิคที่เทียบเท่ากันคือการวิเคราะห์ความสอดคล้องแบบจำแนก^{[ 6 ]}^{[ 7 ]}

การวิเคราะห์จำแนกจะใช้เมื่อทราบกลุ่มล่วงหน้า (ต่างจากการวิเคราะห์คลัสเตอร์ ) แต่ละกรณีจะต้องมีคะแนนในการวัดตัวทำนายเชิงปริมาณอย่างน้อยหนึ่งรายการ และมีคะแนนในการวัดกลุ่ม^{[ 8 ]}กล่าวโดยง่าย การวิเคราะห์ฟังก์ชันจำแนกคือการจำแนกประเภท - การกระทำของการกระจายสิ่งต่างๆ ออกเป็นกลุ่ม ชั้น หรือหมวดหมู่ประเภทเดียวกัน

ประวัติศาสตร์

การวิเคราะห์จำแนก แบบ ทวิภาค ดั้งเดิมได้รับการพัฒนาโดยเซอร์โรนัลด์ ฟิชเชอร์ในปี 1936 ^{[ 9 ]}ซึ่งแตกต่างจากANOVAหรือMANOVAซึ่งใช้ในการทำนายตัวแปรตามต่อเนื่องหนึ่งตัว (ANOVA) หรือหลายตัว (MANOVA) โดยใช้ตัวแปรอิสระเชิงหมวดหมู่หนึ่งตัวหรือมากกว่า การวิเคราะห์ฟังก์ชันจำแนกมีประโยชน์ในการพิจารณาว่าชุดของตัวแปรมีประสิทธิภาพในการทำนายการเป็นสมาชิกของหมวดหมู่หรือไม่^{[ 10 ]}

LDA สำหรับสองคลาส

พิจารณาชุดของการสังเกต(เรียกอีกอย่างว่าคุณลักษณะ คุณสมบัติ ตัวแปร หรือการวัด) สำหรับแต่ละตัวอย่างของวัตถุหรือเหตุการณ์ที่มีคลาสที่ทราบชุดตัวอย่างนี้เรียกว่าชุดฝึกอบรมใน บริบท การเรียนรู้แบบมีผู้กำกับดูแลปัญหาการจำแนกประเภทคือการหาตัวทำนายที่ดีสำหรับคลาสของตัวอย่างใดๆ ที่มีการกระจายเดียวกัน (ไม่จำเป็นต้องมาจากชุดฝึกอบรม) โดยให้เพียงการสังเกตเท่านั้น[ ¹¹^]^:³³⁸ ${\vec {x}}$ $y$ $y$ ${\vec {x}}$

LDA แก้ปัญหาโดยสมมติว่าฟังก์ชันความหนาแน่นความน่าจะ เป็นแบบมีเงื่อนไข และเป็นการแจกแจงแบบปกติที่มีค่าเฉลี่ยและพารามิเตอร์ความแปรปรวนร่วมและตามลำดับ ภายใต้สมมติฐานนี้วิธีแก้ปัญหาที่เหมาะสมที่สุดของเบย์สคือการทำนายว่าจุดต่างๆ มาจากคลาสที่สองหากค่าลอการิทึมของอัตราส่วนความน่าจะเป็นมีค่ามากกว่าค่าเกณฑ์ T บางค่า ดังนี้: $p({\vec {x}}|y=0)$ $p({\vec {x}}|y=1)$ $\left({\vec {\mu }}_{0},\Sigma _{0}\right)$ $\left({\vec {\mu }}_{1},\Sigma _{1}\right)$

{\frac {1}{2}}({\vec {x}}-{\vec {\mu }}_{0})^{\mathrm {T} }\Sigma _{0}^{-1}({\vec {x}}-{\vec {\mu }}_{0})+{\frac {1}{2}}\ln |\Sigma _{0}|-{\frac {1}{2}}({\vec {x}}-{\vec {\mu }__{1})^{\mathrm {T} }\Sigma _{1}^{-1}({\vec {x}}-{\vec {\mu }__{1})-{\frac {1}{2}}\ln |\Sigma _{1}|\ >\ T

หากไม่มีข้อสมมติเพิ่มเติมใดๆ ตัวจำแนกที่ได้จะเรียกว่าการวิเคราะห์จำแนกเชิงกำลังสอง (Quadratic Discriminant Analysis หรือ QDA)

LDA กลับใช้สมมติฐานเพิ่มเติมที่ทำให้ง่ายขึ้นคือความแปรปรวนคงที่ (homoscedasticity ) ( กล่าวคือ ความแปรปรวนร่วมของแต่ละคลาสเหมือนกัน ดังนั้น) และความแปรปรวนร่วมมีอันดับเต็ม (full rank) ในกรณีนี้ พจน์หลายตัวจะหักล้างกัน: $\Sigma _{0}=\Sigma _{1}=\Sigma$

{\vec {x}}^{\mathrm {T} }\Sigma _{0}^{-1}{\vec {x}}={\vec {x}}^{\mathrm {T} }\Sigma _{1}^{-1}{\vec {x}}

{\vec {x}}^{\mathrm {T} }{\Sigma _{i}}^{-1}{\vec {\mu }}_{i}={{\vec {\mu }}_{i}}^{\mathrm {T} }{\Sigma _{i}}^{-1}{\vec {x}}

เนื่องจากทั้งสองด้านเป็นสเกลาร์และสามารถสลับตำแหน่งกันได้ ( เป็นเฮอร์มิเชียน )

\Sigma _{i}

และเกณฑ์การตัดสินใจข้างต้นจะกลายเป็นค่าเกณฑ์บนผลคูณดอท

{\vec {w}}^{\mathrm {T} }{\vec {x}}>c

สำหรับค่าคงที่เกณฑ์c บางค่า โดยที่

{\vec {w}}=\Sigma ^{-1}({\vec {\mu }__{1}-{\vec {\mu }__{0})

c={\frac {1}{2}}\,{\vec {w}}^{\mathrm {T} }({\vec {\mu }__{1}+{\vec {\mu }__{0})

นั่นหมายความว่าเกณฑ์ในการพิจารณาว่าข้อมูลนำเข้าอยู่ในกลุ่มใดนั้น ขึ้นอยู่กับผลรวมเชิงเส้นของข้อมูลที่ทราบอยู่แล้วเท่านั้น ${\vec {x}}$ $y$

การพิจารณาข้อสรุปนี้ในเชิงเรขาคณิตมักมีประโยชน์ กล่าวคือ เกณฑ์ที่ว่าข้อมูลนำเข้าอยู่ในคลาสใดนั้นขึ้นอยู่กับการฉายภาพของจุดในปริภูมิหลายมิติลงบนเวกเตอร์(ดังนั้น เราจึงพิจารณาเฉพาะทิศทางของมันเท่านั้น) กล่าวอีกนัยหนึ่ง ข้อมูลสังเกตการณ์จะอยู่ใน คลาสนั้นก็ต่อ เมื่อจุดที่สอดคล้องกันนั้นอยู่ด้านใดด้านหนึ่งของระนาบหลายมิติที่ตั้งฉากกับเวกเตอร์ตำแหน่งของระนาบนั้นถูกกำหนดโดยค่าเกณฑ์ ${\vec {x}}$ $y$ ${\vec {x}}$ ${\vec {w}}$ $y$ ${\vec {x}}$ ${\vec {w}}$ $c$

ข้อสมมติฐาน

ข้อสมมติฐานของการวิเคราะห์จำแนกประเภทเหมือนกับของ MANOVA การวิเคราะห์ค่อนข้างไวต่อค่าผิดปกติ และขนาดของกลุ่มที่เล็กที่สุดต้องมากกว่าจำนวนตัวแปรทำนาย^{[ 8 ]}

ความปกติแบบหลายตัวแปร : ตัวแปรอิสระมีความปกติสำหรับแต่ละระดับของตัวแปรการจัดกลุ่ม^{[ 10 ]}^{[ 8 ]}
ความสม่ำเสมอของความแปรปรวน/ความแปรปรวนร่วม ( homoscedasticity ): ความแปรปรวนระหว่างตัวแปรกลุ่มจะเท่ากันในทุกระดับของตัวทำนาย สามารถทดสอบได้ด้วยสถิติM ของ Box ^{[ 10 ]}อย่างไรก็ตาม มีข้อเสนอแนะว่าควรใช้การวิเคราะห์จำแนกเชิงเส้นเมื่อความแปรปรวนร่วมเท่ากัน และอาจใช้การวิเคราะห์จำแนกเชิงกำลังสอง เมื่อความแปรปรวนร่วมไม่เท่ากัน ^{[ 8 ]}
ความเป็นอิสระ : ผู้เข้าร่วมจะถูกสมมติว่าสุ่มเลือก และคะแนนของผู้เข้าร่วมในตัวแปรหนึ่งจะถือว่าเป็นอิสระจากคะแนนของตัวแปรนั้นสำหรับผู้เข้าร่วมคนอื่นๆ ทั้งหมด^{[ 10 ]}^{[ 8 ]}

มีการเสนอแนะว่าการวิเคราะห์จำแนกประเภทค่อนข้างแข็งแกร่งต่อการละเมิดข้อสมมติเหล่านี้เพียงเล็กน้อย^{[ 12 ]}และยังแสดงให้เห็นแล้วว่าการวิเคราะห์จำแนกประเภทอาจยังคงเชื่อถือได้เมื่อใช้ตัวแปรแบบสองค่า (ซึ่งความปกติแบบหลายตัวแปรมักถูกละเมิด) ^{[ 13 ]}

ฟังก์ชันจำแนก

การวิเคราะห์จำแนกกลุ่มทำงานโดยการสร้างชุดค่าผสมเชิงเส้นหนึ่งชุดหรือมากกว่าของตัวทำนาย โดยสร้างตัวแปรแฝง ใหม่ สำหรับแต่ละฟังก์ชัน ฟังก์ชันเหล่านี้เรียกว่าฟังก์ชันจำแนกกลุ่ม จำนวนฟังก์ชันที่เป็นไปได้คือ โดยที่= จำนวนกลุ่ม หรือ(จำนวนตัวทำนาย) แล้วแต่ว่าค่าใดน้อยกว่า ฟังก์ชันแรกที่สร้างขึ้นจะทำให้ความแตกต่างระหว่างกลุ่มบนฟังก์ชันนั้นมีค่าสูงสุด ฟังก์ชันที่สองจะทำให้ความแตกต่างบนฟังก์ชันนั้นมีค่าสูงสุด แต่ต้องไม่มีความสัมพันธ์กับฟังก์ชันก่อนหน้าด้วย กระบวนการนี้จะดำเนินต่อไปกับฟังก์ชันถัดไป โดยมีข้อกำหนดว่าฟังก์ชันใหม่จะต้องไม่มีความสัมพันธ์กับฟังก์ชันก่อนหน้าใดๆ $N_{g}-1$ $N_{g}$ $p$

กลุ่มที่กำหนดโดยมี เซตของปริภูมิตัวอย่าง จะมีกฎการจำแนกประเภทเช่นนั้น ถ้าแล้วการวิเคราะห์การจำแนกประเภทจะค้นหาภูมิภาค "ที่ดี" ของ เพื่อลดข้อผิดพลาดในการจำแนกประเภทให้น้อยที่สุด ดังนั้นจึงนำไปสู่เปอร์เซ็นต์การจำแนกประเภทที่ถูกต้องสูงในตารางการจำแนกประเภท^[¹⁴^] $j$ $\mathbb {R} _{j}$ $x\in \mathbb {R} _{j}$ $x\in j$ $\mathbb {R} _{j}$

แต่ละฟังก์ชันจะได้รับคะแนนจำแนกเพื่อพิจารณาว่าฟังก์ชันนั้นสามารถทำนายการจัดกลุ่มได้ดีเพียงใด

สัมประสิทธิ์สหสัมพันธ์โครงสร้าง: สหสัมพันธ์ระหว่างตัวทำนายแต่ละตัวกับคะแนนจำแนกของแต่ละฟังก์ชัน นี่คือสหสัมพันธ์ลำดับศูนย์ (กล่าวคือ ไม่ได้แก้ไขสำหรับตัวทำนายอื่นๆ) ^{[ 15 ]}
สัมประสิทธิ์มาตรฐาน: น้ำหนักของตัวทำนายแต่ละตัวในการรวมเชิงเส้นซึ่งเป็นฟังก์ชันจำแนก เช่นเดียวกับในสมการการถดถอย สัมประสิทธิ์เหล่านี้เป็นสัมประสิทธิ์บางส่วน (กล่าวคือ ปรับแก้สำหรับตัวทำนายอื่นๆ) แสดงถึงการมีส่วนร่วมเฉพาะของตัวทำนายแต่ละตัวในการทำนายการจัดกลุ่ม
ฟังก์ชันที่จุดศูนย์กลางของกลุ่ม: ค่าเฉลี่ยของคะแนนจำแนกสำหรับตัวแปรการจัดกลุ่มแต่ละตัวจะแสดงไว้สำหรับแต่ละฟังก์ชัน ยิ่งค่าเฉลี่ยอยู่ห่างกันมากเท่าใด ข้อผิดพลาดในการจำแนกประเภทก็จะยิ่งน้อยลงเท่านั้น

กฎการเลือกปฏิบัติ

ความน่าจะเป็นสูงสุด : กำหนดให้กับกลุ่มที่ทำให้ความหนาแน่นของประชากร (กลุ่ม) สูงสุด^[¹⁶^] $x$
กฎการจำแนกของเบย์ส: กำหนดให้กับกลุ่มที่ทำให้ค่าสูงสุดโดยที่π _iแทนความน่าจะเป็นก่อนหน้าของการจำแนกประเภทนั้น และแทนความหนาแน่นของประชากร^[¹⁶^] $x$ $\pi _{i}f_{i}(x)$ $f_{i}(x)$
กฎการจำแนกเชิงเส้นของ Fisher : เพิ่มอัตราส่วนระหว่างSS _{ระหว่าง}และSS _{ภายใน} ให้สูงสุด และค้นหาการรวมเชิงเส้นของตัวทำนายเพื่อทำนายกลุ่ม^{[ 16 ]}

ค่าลักษณะเฉพาะ

ค่าไอเกนในการวิเคราะห์จำแนกคือรากลักษณะเฉพาะของแต่ละฟังก์ชัน เป็นตัวบ่งชี้ว่าฟังก์ชันนั้นจำแนกกลุ่มได้ดีเพียงใด โดยยิ่งค่าไอเกนมากเท่าไร ฟังก์ชันนั้นก็ยิ่งจำแนกได้ดีขึ้นเท่านั้น^{[ 8 ]}อย่างไรก็ตาม ควรตีความด้วยความระมัดระวัง เนื่องจากค่าไอเกนไม่มีขีดจำกัดบน^{[ 10 ]}^{[ 8 ]} ค่าไอเกนสามารถมองได้ว่าเป็นอัตราส่วนของSS _{ระหว่าง}และSS _{ภายใน}เช่นเดียวกับใน ANOVA เมื่อตัวแปรตามคือฟังก์ชันจำแนก และกลุ่มคือระดับของIV ^{[ 10 ]} ซึ่งหมายความว่าค่าไอเกนที่ใหญ่ที่สุดจะสัมพันธ์กับฟังก์ชันแรก ค่าไอเกนที่ใหญ่เป็นอันดับสอง จะสัมพันธ์กับฟังก์ชันที่สอง เป็นต้น

ขนาดของผลกระทบ

บางคนแนะนำให้ใช้ค่าไอเกนเป็น มาตรวัด ขนาดผลกระทบอย่างไรก็ตาม โดยทั่วไปแล้ววิธีนี้ไม่ได้รับการสนับสนุน^{[ 10 ]}แต่ค่าสหสัมพันธ์แบบแคนอนิกเป็นมาตรวัดขนาดผลกระทบที่นิยมมากกว่า มันคล้ายกับค่าไอเกน แต่เป็นรากที่สองของอัตราส่วนของSS _{ระหว่าง}และSS _{ทั้งหมด}มันคือสหสัมพันธ์ระหว่างกลุ่มและฟังก์ชัน^{[ 10 ]} มาตรวัดขนาดผลกระทบที่นิยมอีกอย่างหนึ่งคือเปอร์เซ็นต์ของความแปรปรวนสำหรับแต่ละฟังก์ชัน คำนวณโดย: โดยที่คือค่าไอเกนสำหรับฟังก์ชัน และคือผลรวมของค่าไอเกนทั้งหมด สิ่งนี้บอกเราว่าการทำนายมีความแข็งแกร่งเพียงใดสำหรับฟังก์ชันเฉพาะนั้นเมื่อเทียบกับฟังก์ชันอื่นๆ^[¹⁰^] เปอร์เซ็นต์ที่จำแนกได้อย่างถูกต้องยังสามารถวิเคราะห์เป็นขนาดผลกระทบได้ ค่าแคปปาสามารถอธิบายสิ่งนี้ได้ในขณะที่แก้ไขความสอดคล้องโดยบังเอิญ^[¹⁰^]แคปปาทำให้เป็นมาตรฐานทั่วทุกหมวดหมู่แทนที่จะมีอคติจากคลาสที่มีประสิทธิภาพดีหรือแย่อย่างมีนัยสำคัญ^[¹⁷^] $\left({\frac {\lambda _{x}}{\sum _{i}\lambda _{i}}}\right)\times 100$ $\lambda _{x}$ $\sum _{i}\lambda _{i}$

การวิเคราะห์จำแนกแบบแคนอนิกสำหรับkคลาส

การวิเคราะห์จำแนกประเภทแบบแคนอนิก (Canonical Discriminant Analysis: CDA) จะค้นหาแกน ( พิกัดแคนอนิกk − 1 พิกัด โดย ที่ kคือจำนวนคลาส) ที่แยกหมวดหมู่ได้ดีที่สุด ฟังก์ชันเชิงเส้นเหล่านี้ไม่มีความสัมพันธ์กัน และกำหนด พื้นที่ k − 1 ที่เหมาะสมที่สุดใน กลุ่มข้อมูล n มิติ ซึ่งแยกกลุ่ม k กลุ่ม (การฉายภาพในพื้นที่นั้นของ) ได้ดีที่สุดดูรายละเอียดเพิ่มเติมได้ในหัวข้อ “ Multiclass LDA ” ด้านล่าง

เนื่องจาก LDA ใช้ตัวแปรแคนอนิก จึงมักถูกเรียกว่า "วิธีการของตัวแปรแคนอนิก" ^{[ 18 ]}หรือการวิเคราะห์ตัวแปรแคนอนิก (CVA) ^{[ 19 ]}

ตัวแยกเชิงเส้นของฟิชเชอร์

คำว่าFisher's linear discriminantและLDAมักใช้แทนกันได้ แม้ว่าบทความต้นฉบับของ Fisher ^{[ 2 ]}จะอธิบายถึง discriminant ที่แตกต่างออกไปเล็กน้อย ซึ่งไม่ได้ตั้งสมมติฐานบางอย่างของ LDA เช่น คลาส ที่มีการกระจายแบบปกติ หรือ ความแปรปรวนร่วมของคลาส ที่เท่ากัน

สมมติว่ากลุ่มข้อมูลสองกลุ่มมีค่าเฉลี่ย และความแปรปรวนร่วมกันเท่ากับ แล้วการรวมเชิงเส้นของคุณลักษณะจะมีค่าเฉลี่ยและความแปรปรวนเท่ากับ ฟิชเชอร์ได้นิยามการแยกความแตกต่างระหว่าง การแจกแจงทั้งสองนี้ว่าคืออัตราส่วนของความแปรปรวนระหว่างกลุ่มต่อความแปรปรวนภายในกลุ่ม: ${\vec {\mu }__{0},{\vec {\mu }__{1}$ $\Sigma _{0},\Sigma _{1}$ ${\vec {w}}^{\mathrm {T} }{\vec {x}}$ ${\vec {w}}^{\mathrm {T} }{\vec {\mu }__{i}$ ${\vec {w}}^{\mathrm {T} }\Sigma _{i}{\vec {w}}$ $i=0,1$

S={\frac {\sigma _{\text{between}}^{2}}{\sigma _{\text{within}}^{2}}}={\frac {({\vec {w}}\cdot {\vec {\mu }}_{1}-{\vec {w}}\cdot {\vec {\mu }}_{0})^{2}}{{\vec {w}}^{\mathrm {T} }\Sigma _{1}{\vec {w}}+{\vec {w}}^{\mathrm {T} }\Sigma _{0}{\vec {w}}}}={\frac {({\vec {w}}\cdot ({\vec {\mu }}_{1}-{\vec {\mu }}_{0}))^{2}}{{\vec {w}}^{\mathrm {T} }(\Sigma _{0}+\Sigma _{1}){\vec {w}}}}

มาตรการนี้ในแง่หนึ่งเป็นมาตรการวัดอัตราส่วนสัญญาณต่อสัญญาณรบกวนสำหรับการติดป้ายกำกับคลาส สามารถแสดงได้ว่าการแยกสูงสุดเกิดขึ้นเมื่อ

{\vec {w}}\propto (\Sigma _{0}+\Sigma _{1})^{-1}({\vec {\mu }}_{1}-{\vec {\mu }}_{0})

เมื่อเงื่อนไขของ LDA เป็นไปตามที่กำหนด สมการข้างต้นจะเทียบเท่ากับ LDA

ตัวจำแนกเชิงเส้นของฟิชเชอร์ที่แสดงเป็นแกน

โปรดสังเกตว่าเวกเตอร์นั้นคือ เวกเตอร์ ตั้งฉากกับระนาบแบ่งกลุ่มตัวอย่างเช่น ในปัญหาแบบสองมิติ เส้นตรงที่แบ่งกลุ่มทั้งสองได้ดีที่สุดคือเส้นที่ตั้งฉากกับ ${\vec {w}}$ ${\vec {w}}$

โดยทั่วไป จุดข้อมูลที่จะแยกแยะจะถูกฉายลงบนระนาบหนึ่งมิติ จากนั้นจะเลือกค่าเกณฑ์ที่แยกข้อมูลได้ดีที่สุดจากการวิเคราะห์การกระจายแบบหนึ่งมิติ ไม่มีกฎทั่วไปสำหรับค่าเกณฑ์ อย่างไรก็ตาม หากการฉายจุดจากทั้งสองคลาสแสดงการกระจายที่คล้ายคลึงกัน ตัวเลือกที่ดีคือระนาบระหว่างการฉายค่าเฉลี่ยทั้งสองและในกรณีนี้ พารามิเตอร์ c ในเงื่อนไขเกณฑ์สามารถหาได้อย่างชัดเจน: ${\vec {w}}$ ${\vec {w}}\cdot {\vec {\mu }}_{0}$ ${\vec {w}}\cdot {\vec {\mu }}_{1}$ ${\vec {w}}\cdot {\vec {x}}>c$

c={\vec {w}}\cdot {\frac {1}{2}}({\vec {\mu }}_{0}+{\vec {\mu }}_{1})={\frac {1}{2}}{\vec {\mu }}_{1}^{\mathrm {T} }\Sigma _{1}^{-1}{\vec {\mu }}_{1}-{\frac {1}{2}}{\vec {\mu }}_{0}^{\mathrm {T} }\Sigma _{0}^{-1}{\vec {\mu }}_{0}

.

วิธีการของ Otsuมีความเกี่ยวข้องกับวิธีการจำแนกเชิงเส้นของ Fisher และถูกสร้างขึ้นเพื่อแปลงฮิสโตแกรมของพิกเซลในภาพขาวดำให้เป็นภาพไบนารีโดยการเลือกค่าเกณฑ์ขาวดำที่เหมาะสมที่สุด ซึ่งจะลดความแปรปรวนภายในคลาสให้เหลือน้อยที่สุด และเพิ่มความแปรปรวนระหว่างคลาสให้มากที่สุด ทั้งภายในและระหว่างระดับสีเทาที่กำหนดให้กับพิกเซลสีดำและสีขาว

LDA หลายคลาส

การแสดงภาพสำหรับแกน LDA แบบหนึ่งต่อทั้งหมดสำหรับ 4 คลาสในรูปแบบ 3 มิติ

การฉายภาพตามแกนจำแนกเชิงเส้นสำหรับ 4 คลาส

ในกรณีที่มีคลาสมากกว่าสองคลาส การวิเคราะห์ที่ใช้ในการหาค่าจำแนกของ Fisher สามารถขยายเพื่อค้นหาพื้นที่ย่อยที่ดูเหมือนจะครอบคลุมความแปรปรวนของคลาสทั้งหมด^{[ 20 ]}การสรุปทั่วไปนี้เกิดจากCR Rao [ ^{21 ] สมมติ}ว่าแต่ละคลาส C มีค่าเฉลี่ยและความแปรปรวนร่วมเท่ากันจากนั้นความแปรปรวนระหว่างคลาสอาจถูกกำหนดโดยความแปรปรวนร่วมของตัวอย่างของค่าเฉลี่ยของคลาส $\mu _{i}$ $\Sigma$

\Sigma _{b}={\frac {1}{C}}\sum _{i=1}^{C}(\mu _{i}-\mu )(\mu _{i}-\mu )^{\mathrm {T} }

ค่าเฉลี่ยของค่าเฉลี่ยของแต่ละชั้นเรียนอยู่ที่ใด การแบ่งชั้นเรียนในทิศทางใดทิศทางหนึ่ง ในกรณีนี้จะกำหนดโดย $\mu$ ${\vec {w}}$

S={\frac {{\vec {w}}^{\mathrm {T} }\Sigma _{b}{\vec {w}}}{{\vec {w}}^{\mathrm {T} }\Sigma {\vec {w}}}}

นั่นหมายความว่า เมื่อเวกเตอร์ลักษณะเฉพาะของการแยกจะมีค่าเท่ากับค่าลักษณะเฉพาะ ที่สอดคล้อง กัน ${\vec {w}}$ $\Sigma ^{-1}\Sigma _{b}$

ถ้าเมทริกซ์สามารถทำให้เป็นเมทริกซ์ทแยงมุมได้ ความแปรปรวนระหว่างคุณลักษณะต่างๆ จะถูกจำกัดอยู่ในปริภูมิย่อยที่เกิดจากเวกเตอร์ลักษณะเฉพาะที่สอดคล้องกับ ค่าลักษณะเฉพาะที่ใหญ่ที่สุดC − 1 ค่า (เนื่องจาก เมทริกซ์มีอันดับ สูงสุด C − 1) เวกเตอร์ลักษณะเฉพาะเหล่านี้ส่วนใหญ่ใช้ในการลดคุณลักษณะ เช่น ใน PCA เวกเตอร์ลักษณะเฉพาะที่สอดคล้องกับค่าลักษณะเฉพาะที่เล็กกว่ามักจะไวต่อการเลือกข้อมูลฝึกฝนที่แน่นอน และมักจำเป็นต้องใช้การปรับค่าให้เป็นมาตรฐานดังที่อธิบายไว้ในส่วนถัดไป $\Sigma ^{-1}\Sigma _{b}$ $\Sigma _{b}$

หากจำเป็นต้องมีการจำแนกประเภท แทนที่จะลดมิติมีเทคนิคทางเลือกอื่นๆ อีกหลายวิธี ตัวอย่างเช่น อาจแบ่งกลุ่มข้อมูลออกเป็นส่วนๆ แล้วใช้ Fisher discriminant หรือ LDA มาตรฐานในการจำแนกแต่ละส่วน ตัวอย่างที่พบได้ทั่วไปคือ "หนึ่งกับส่วนที่เหลือ" โดยนำจุดข้อมูลจากกลุ่มหนึ่งไปไว้ในกลุ่มหนึ่ง และส่วนที่เหลือทั้งหมดไปไว้ในอีกกลุ่มหนึ่ง จากนั้นจึงใช้ LDA วิธีนี้จะทำให้ได้ตัวจำแนก C ตัว ซึ่งผลลัพธ์จะถูกนำมารวมกัน อีกวิธีหนึ่งที่นิยมใช้คือการจำแนกประเภทแบบจับคู่ โดยสร้างตัวจำแนกใหม่สำหรับแต่ละคู่ของกลุ่มข้อมูล (ทำให้ได้ ตัวจำแนกทั้งหมด C ( C − 1)/2 ตัว) โดยนำตัวจำแนกแต่ละตัวมารวมกันเพื่อให้ได้ผลการจำแนกประเภทสุดท้าย

LDA แบบเพิ่มขึ้น

โดยทั่วไป การใช้งานเทคนิค LDA จำเป็นต้องมีตัวอย่างทั้งหมดพร้อมใช้งานล่วงหน้า อย่างไรก็ตาม มีสถานการณ์ที่ชุดข้อมูลทั้งหมดไม่พร้อมใช้งาน และข้อมูลอินพุตถูกสังเกตเป็นสตรีม ในกรณีนี้ การสกัดคุณลักษณะ LDA ควรมีความสามารถในการอัปเดตคุณลักษณะ LDA ที่คำนวณได้โดยการสังเกตตัวอย่างใหม่โดยไม่ต้องเรียกใช้อัลกอริทึมกับชุดข้อมูลทั้งหมด ตัวอย่างเช่น ในแอปพลิเคชันแบบเรียลไทม์หลายอย่าง เช่น หุ่นยนต์เคลื่อนที่หรือการจดจำใบหน้าออนไลน์ การอัปเดตคุณลักษณะ LDA ที่สกัดได้ทันทีที่มีการสังเกตใหม่เป็นสิ่งสำคัญ เทคนิคการสกัดคุณลักษณะ LDA ที่สามารถอัปเดตคุณลักษณะ LDA ได้โดยการสังเกตตัวอย่างใหม่คืออัลกอริทึม LDA แบบเพิ่มขึ้นและแนวคิดนี้ได้รับการศึกษาอย่างกว้างขวางในช่วงสองทศวรรษที่ผ่านมา^{[ 22 ]} Chatterjee และ Roychowdhury เสนออัลกอริทึม LDA แบบจัดระเบียบตนเองแบบเพิ่มขึ้นสำหรับการอัปเดตคุณลักษณะ LDA ^{[ 23 ]}ในงานอื่น ๆ Demir และ Ozmehmet ได้เสนออัลกอริธึมการเรียนรู้แบบโลคอลออนไลน์สำหรับการอัปเดตคุณลักษณะ LDA แบบเพิ่มขึ้นโดยใช้กฎการเรียนรู้แบบแก้ไขข้อผิดพลาดและแบบ Hebbian ^{[ 24 ]}ต่อมา Aliyari และคณะได้พัฒนาอัลกอริธึมแบบเพิ่มขึ้นอย่างรวดเร็วเพื่ออัปเดตคุณลักษณะ LDA โดยการสังเกตตัวอย่างใหม่^{[ 22 ]}

การใช้งานจริง

ในทางปฏิบัติ ค่าเฉลี่ยและความแปรปรวนร่วมของแต่ละคลาสจะไม่เป็นที่ทราบแน่ชัด อย่างไรก็ตาม สามารถประมาณค่าเหล่านี้ได้จากชุดข้อมูลฝึกฝน อาจใช้ ค่าประมาณความน่าจะเป็นสูงสุดหรือ ค่าประมาณความน่า จะเป็นสูงสุดภายหลังแทนค่าที่แน่นอนในสมการข้างต้นก็ได้ แม้ว่าค่าประมาณความแปรปรวนร่วมอาจถือว่าเหมาะสมที่สุดในแง่หนึ่ง แต่ไม่ได้หมายความว่าค่าจำแนกที่ได้จากการแทนค่าเหล่านี้จะเหมาะสมที่สุดในแง่ใดๆ แม้ว่าสมมติฐานเรื่องการกระจายแบบปกติของคลาสจะถูกต้องก็ตาม

ความซับซ้อนอีกประการหนึ่งในการประยุกต์ใช้ LDA และตัวแยกประเภทของ Fisher กับข้อมูลจริงเกิดขึ้นเมื่อจำนวนการวัดของแต่ละตัวอย่าง (เช่น มิติของเวกเตอร์ข้อมูลแต่ละตัว) เกินจำนวนตัวอย่างในแต่ละคลาส^{[ 5 ]}ในกรณีนี้ ค่าประมาณความแปรปรวนร่วมไม่มีอันดับเต็ม ดังนั้นจึงไม่สามารถผกผันได้ มีหลายวิธีในการจัดการกับปัญหานี้ วิธีหนึ่งคือการใช้ผกผันเทียมแทนผกผันเมทริกซ์ตามปกติในสูตรข้างต้น อย่างไรก็ตาม ความเสถียรเชิงตัวเลขที่ดีกว่าอาจทำได้โดยการฉายปัญหาลงบนพื้นที่ย่อยที่ครอบคลุมโดยก่อน[ ²⁵^]^{กลยุทธ์} อีกอย่างหนึ่งในการจัดการกับขนาดตัวอย่างเล็กคือการใช้ตัวประมาณค่าการหดตัวของเมทริกซ์ความแปรปรวนร่วม ซึ่งสามารถแสดงทางคณิตศาสตร์ได้ดังนี้ $\Sigma _{b}$

\Sigma =(1-\lambda )\Sigma +\lambda I\,

โดยที่เมทริกซ์เอกลักษณ์และความเข้มของการหดตัวหรือพารามิเตอร์การปรับค่านำไปสู่กรอบการวิเคราะห์การจำแนกแบบปรับค่า^[²⁶^]หรือการวิเคราะห์การจำแนกแบบหดตัว^[²⁷^] $I$ $\lambda$

นอกจากนี้ ในหลายกรณีทางปฏิบัติ ตัวจำแนกเชิงเส้นก็ไม่เหมาะสม LDA และตัวจำแนกของ Fisher สามารถขยายเพื่อใช้ในการจำแนกแบบไม่เชิงเส้นได้โดยใช้เทคนิคเคอร์เนลในที่นี้ ข้อมูลสังเกตการณ์ดั้งเดิมจะถูกแมปไปยังพื้นที่ไม่เชิงเส้นที่มีมิติสูงกว่า การจำแนกเชิงเส้นในพื้นที่ไม่เชิงเส้นนี้จึงเทียบเท่ากับการจำแนกแบบไม่เชิงเส้นในพื้นที่ดั้งเดิม ตัวอย่างที่ใช้กันทั่วไปมากที่สุดคือ ตัว จำแนก Fisher แบบเคอร์เนล

LDA สามารถขยายไปสู่การวิเคราะห์จำแนกหลายกลุ่มได้โดยที่cกลายเป็นตัวแปรเชิงหมวดหมู่ที่ มีสถานะที่เป็นไปได้ Nสถานะ แทนที่จะมีเพียงสองสถานะ ในทำนองเดียวกัน หากความหนาแน่นแบบมีเงื่อนไขของแต่ละกลุ่มมีการแจกแจงแบบปกติโดยมีเมทริกซ์ความแปรปรวนร่วม ค่าสถิติที่เพียงพอสำหรับคือค่าของ การฉายภาพ N ครั้ง ซึ่งเป็นปริภูมิย่อยที่ครอบคลุมโดยค่าเฉลี่ยN ค่า ที่ฉายภาพ แบบแอฟฟิน โดยเมทริกซ์ความแปรปรวนร่วมผกผัน การฉายภาพเหล่านี้สามารถหาได้โดยการแก้ปัญหาค่าลักษณะเฉพาะแบบทั่วไปโดยที่ตัวเศษคือเมทริกซ์ความแปรปรวนร่วมที่สร้างขึ้นโดยการพิจารณาค่าเฉลี่ยเป็นตัวอย่าง และตัวส่วนคือเมทริกซ์ความแปรปรวนร่วม ดูรายละเอียดเพิ่มเติมได้ที่ “ LDA หลายกลุ่ม ” ด้านบน $p({\vec {x}}\mid c=i)$ $P(c\mid {\vec {x}})$

แอปพลิเคชัน

นอกเหนือจากตัวอย่างที่กล่าวมาด้านล่างแล้ว LDA ยังถูกนำไปใช้ในการกำหนดตำแหน่งทางการตลาดและการจัดการผลิตภัณฑ์อีกด้วย

การคาดการณ์การล้มละลาย

ในการทำนายการล้มละลายโดยอาศัยอัตราส่วนทางการบัญชีและตัวแปรทางการเงินอื่นๆ การวิเคราะห์จำแนกเชิงเส้น (Linear Discriminant Analysis: LDA) เป็นวิธีการทางสถิติวิธีแรกที่นำมาใช้เพื่ออธิบายอย่างเป็นระบบว่าบริษัทใดล้มละลายและบริษัทใดรอดพ้น แม้จะมีข้อจำกัดต่างๆ รวมถึงการที่อัตราส่วนทางการบัญชีไม่สอดคล้องกับสมมติฐานการกระจายแบบปกติของ LDA แต่ แบบจำลอง ของEdward Altman ใน ปี 1968 ^{[ 28 ]}ก็ยังคงเป็นแบบจำลองชั้นนำในการใช้งานจริง^{[ 29 ]}^{[ 30 ]}^{[ 31 ]}

การจดจำใบหน้า

ในการจดจำใบหน้า ด้วยคอมพิวเตอร์ ใบหน้าแต่ละใบจะถูกแทนด้วยค่าพิกเซลจำนวนมาก การวิเคราะห์จำแนกเชิงเส้น (Linear discriminant analysis) ถูกนำมาใช้เป็นหลักเพื่อลดจำนวนคุณลักษณะให้เหลือจำนวนที่จัดการได้ง่ายขึ้นก่อนการจำแนกประเภท มิติใหม่แต่ละมิติเป็นผลรวมเชิงเส้นของค่าพิกเซล ซึ่งก่อให้เกิดแม่แบบ ผลรวมเชิงเส้นที่ได้จากการใช้การวิเคราะห์จำแนกเชิงเส้นของฟิชเชอร์เรียกว่าใบหน้าฟิชเชอร์ (Fisher faces ) ในขณะที่ผลรวมเชิงเส้นที่ได้จากการวิเคราะห์ส่วนประกอบหลัก (Principal component analysis) ที่เกี่ยวข้อง เรียกว่า ใบหน้า ลักษณะเฉพาะ (eigenfaces )

การตลาด

ในด้านการตลาดการวิเคราะห์จำแนกกลุ่มเคยถูกนำมาใช้บ่อยครั้งเพื่อหาปัจจัยที่แตกต่างกันระหว่างลูกค้าและ/หรือผลิตภัณฑ์ประเภทต่างๆ โดยอาศัยแบบสำรวจหรือข้อมูลที่รวบรวมได้ในรูปแบบอื่นๆ ปัจจุบันวิธี การถดถอยโลจิสติกส์หรือวิธีการอื่นๆ ถูกนำมาใช้กันอย่างแพร่หลายมากกว่า การใช้การวิเคราะห์จำแนกกลุ่มในด้านการตลาดสามารถอธิบายได้ด้วยขั้นตอนต่อไปนี้:

กำหนดปัญหาและรวบรวมข้อมูล—ระบุ คุณลักษณะ เด่นที่ผู้บริโภคใช้ในการประเมินผลิตภัณฑ์ในหมวดหมู่นี้—ใช้ เทคนิค การวิจัยการตลาดเชิงปริมาณ (เช่นแบบสอบถาม ) เพื่อรวบรวมข้อมูลจากกลุ่มตัวอย่างลูกค้าเป้าหมายเกี่ยวกับการให้คะแนนคุณลักษณะทั้งหมดของผลิตภัณฑ์ ขั้นตอนการรวบรวมข้อมูลมักดำเนินการโดยผู้เชี่ยวชาญด้านการวิจัยการตลาด แบบสอบถามจะขอให้ผู้ตอบให้คะแนนผลิตภัณฑ์ตั้งแต่หนึ่งถึงห้า (หรือ 1 ถึง 7 หรือ 1 ถึง 10) ในช่วงคุณลักษณะที่นักวิจัยเลือก โดยอาจเลือกคุณลักษณะได้ตั้งแต่ห้าถึงยี่สิบรายการ ซึ่งอาจรวมถึงสิ่งต่างๆ เช่น ความง่ายในการใช้งาน น้ำหนัก ความแม่นยำ ความทนทาน สีสัน ราคา หรือขนาด คุณลักษณะที่เลือกจะแตกต่างกันไปขึ้นอยู่กับผลิตภัณฑ์ที่กำลังศึกษา คำถามเดียวกันนี้จะถูกถามกับผลิตภัณฑ์ทั้งหมดในการศึกษา ข้อมูลสำหรับผลิตภัณฑ์หลายรายการจะถูกเข้ารหัสและป้อนเข้าสู่โปรแกรมทางสถิติ เช่นR , SPSSหรือSAS (ขั้นตอนนี้เหมือนกับในการวิเคราะห์ปัจจัย)
ประมาณค่าสัมประสิทธิ์ของฟังก์ชันจำแนกและพิจารณาความสำคัญทางสถิติและความถูกต้อง—เลือกวิธีการวิเคราะห์จำแนกที่เหมาะสม วิธีโดยตรงเกี่ยวข้องกับการประมาณฟังก์ชันจำแนกเพื่อให้ตัวแปรทำนายทั้งหมดได้รับการประเมินพร้อมกันวิธีแบบทีละขั้นตอนจะป้อนตัวแปรทำนายตามลำดับ วิธีสองกลุ่มควรใช้เมื่อตัวแปรตามมีสองประเภทหรือสถานะ วิธีจำแนกหลายกลุ่มใช้เมื่อตัวแปรตามมีสามสถานะขึ้นไป ใช้Wilks's Lambdaเพื่อทดสอบความสำคัญใน SPSS หรือ F stat ใน SAS วิธีที่ใช้กันทั่วไปในการทดสอบความถูกต้องคือการแบ่งตัวอย่างออกเป็นตัวอย่างสำหรับการประมาณหรือการวิเคราะห์ และตัวอย่างสำหรับการตรวจสอบหรือการแยก ตัวอย่างสำหรับการประมาณใช้ในการสร้างฟังก์ชันจำแนก ตัวอย่างสำหรับการตรวจสอบใช้ในการสร้างเมทริกซ์การจำแนกประเภทซึ่งประกอบด้วยจำนวนกรณีที่จำแนกได้อย่างถูกต้องและไม่ถูกต้อง เปอร์เซ็นต์ของกรณีที่จำแนกได้อย่างถูกต้องเรียกว่าอัตราความถูกต้อง
นำผลลัพธ์ไปแสดงบนแผนที่สองมิติ กำหนดมิติ และตีความผลลัพธ์ โปรแกรมทางสถิติ (หรือโมดูลที่เกี่ยวข้อง) จะสร้างแผนที่ผลลัพธ์ แผนที่จะแสดงผลิตภัณฑ์แต่ละรายการ (โดยปกติในพื้นที่สองมิติ) ระยะห่างระหว่างผลิตภัณฑ์บ่งชี้ว่ามีความแตกต่างกันมากน้อยเพียงใด นักวิจัยต้องกำหนดป้ายกำกับมิติ ซึ่งต้องอาศัยการตัดสินใจโดยใช้ดุลพินิจและมักเป็นเรื่องที่ท้าทายมาก ดูการสร้างแผนที่เชิงรับรู้ (perceptual mapping )

การศึกษาทางชีวการแพทย์

การประยุกต์ใช้หลักของการวิเคราะห์จำแนกในทางการแพทย์คือการประเมินระดับความรุนแรงของผู้ป่วยและการพยากรณ์ผลลัพธ์ของโรค ตัวอย่างเช่น ในระหว่างการวิเคราะห์ย้อนหลัง ผู้ป่วยจะถูกแบ่งออกเป็นกลุ่มตามความรุนแรงของโรค ได้แก่ โรคเล็กน้อย โรคปานกลาง และโรครุนแรง จากนั้นจะศึกษาผลการวิเคราะห์ทางคลินิกและห้องปฏิบัติการเพื่อเปิดเผยตัวแปรที่แตกต่างกันทางสถิติในกลุ่มเหล่านี้ โดยใช้ตัวแปรเหล่านี้ จะสร้างฟังก์ชันจำแนกเพื่อจำแนกความรุนแรงของโรคในผู้ป่วยในอนาคต นอกจากนี้ การวิเคราะห์จำแนกเชิงเส้น (LDA) ยังสามารถช่วยเลือกตัวอย่างที่จำแนกได้ดียิ่งขึ้นสำหรับการเพิ่มข้อมูล ซึ่งจะช่วยปรับปรุงประสิทธิภาพการจำแนก^{[ 32 ]}

ในทางชีววิทยา มีการใช้หลักการที่คล้ายกันเพื่อจำแนกและกำหนดกลุ่มของวัตถุทางชีวภาพที่แตกต่างกัน ตัวอย่างเช่น เพื่อกำหนดประเภทของฟาจของ Salmonella enteritidis โดยอาศัยสเปกตรัมอินฟราเรดแบบฟูริเยร์ทรานส์ฟอร์ม^{[ 33 ]}เพื่อตรวจจับแหล่งที่มาของสัตว์ของEscherichia coliโดยการศึกษาปัจจัยก่อโรค^{[ 34 ]}เป็นต้น

วิทยาศาสตร์โลก

วิธีนี้สามารถใช้เพื่อแยกโซนการเปลี่ยนแปลงได้ ตัวอย่างเช่น เมื่อมีข้อมูลที่แตกต่างกันจากโซนต่างๆ การวิเคราะห์จำแนกสามารถค้นหารูปแบบภายในข้อมูลและจำแนกได้อย่างมีประสิทธิภาพ^{[ 35 ]}

เปรียบเทียบกับการถดถอยโลจิสติกส์

การวิเคราะห์ฟังก์ชันจำแนกมีความคล้ายคลึงกับการถดถอยโลจิสติก มาก และทั้งสองสามารถใช้เพื่อตอบคำถามวิจัยเดียวกันได้^{[ 10 ]}การถดถอยโลจิสติกไม่มีข้อสมมติและข้อจำกัดมากเท่ากับการวิเคราะห์จำแนก อย่างไรก็ตาม เมื่อตรงตามข้อสมมติของการวิเคราะห์จำแนกแล้ว จะมีประสิทธิภาพมากกว่าการถดถอยโลจิสติก^{[ 36 ]}แตกต่างจากการถดถอยโลจิสติก การวิเคราะห์จำแนกสามารถใช้ได้กับขนาดตัวอย่างขนาดเล็ก มีการแสดงให้เห็นว่าเมื่อขนาดตัวอย่างเท่ากัน และความสม่ำเสมอของความแปรปรวน/ความแปรปรวนร่วมเป็นจริง การวิเคราะห์จำแนกจะมีความแม่นยำมากกว่า^{[ 8 ]}แม้จะมีข้อดีทั้งหมดเหล่านี้ การถดถอยโลจิสติกก็ยังคงเป็นตัวเลือกที่นิยมใช้ เนื่องจากข้อสมมติของการวิเคราะห์จำแนกนั้นไม่ค่อยตรงตามเงื่อนไข^{[ 9 ]}^{[ 8 ]}

ตัวแยกเชิงเส้นในมิติสูง

ความผิดปกติทางเรขาคณิตในมิติที่สูงกว่านำไปสู่ คำสาปแห่งมิติอันเป็นที่รู้จักกันดีอย่างไรก็ตาม การใช้ ปรากฏการณ์ ความเข้มข้นของการวัด อย่างเหมาะสม สามารถทำให้การคำนวณง่ายขึ้น^{[ 37 ]}กรณีสำคัญของ ปรากฏการณ์พรแห่งมิติ เหล่านี้ ได้รับการเน้นโดย Donoho และ Tanner: หากตัวอย่างมีมิติสูงโดยพื้นฐานแล้วแต่ละจุดสามารถแยกออกจากส่วนที่เหลือของตัวอย่างได้ด้วยอสมการเชิงเส้น ด้วยความน่าจะเป็นสูง แม้แต่สำหรับตัวอย่างที่มีขนาดใหญ่แบบเลขชี้กำลัง^{[ 38 ]}อสมการเชิงเส้นเหล่านี้สามารถเลือกได้ในรูปแบบมาตรฐาน (ของ Fisher) ของตัวแยกแยะเชิงเส้นสำหรับตระกูลการกระจายความน่าจะเป็นที่หลากหลาย^{[ 39 ]}โดยเฉพาะอย่างยิ่ง ทฤษฎีบทดังกล่าวได้รับการพิสูจน์แล้วสำหรับ การกระจาย แบบ log-concaveรวมถึงการกระจายแบบปกติหลายมิติ (การพิสูจน์ขึ้นอยู่กับอสมการความเข้มข้นสำหรับการวัดแบบ log-concave ^{[ 40 ]} ) และสำหรับการวัดผลคูณบนลูกบาศก์หลายมิติ (สิ่งนี้ได้รับการพิสูจน์โดยใช้อสมการความเข้มข้นของ Talagrandสำหรับพื้นที่ความน่าจะเป็นผลคูณ) การแยกข้อมูลโดยใช้ตัวแยกเชิงเส้นแบบคลาสสิกช่วยลดความซับซ้อนของปัญหาการแก้ไขข้อผิดพลาดสำหรับ ระบบ ปัญญาประดิษฐ์ในมิติสูง^{[ 41 ]}

ดูเพิ่มเติม

อ่านเพิ่มเติม

Duda, RO; Hart, PE; Stork, DH (2000). การจำแนกรูปแบบ (ฉบับที่ 2). Wiley Interscience. ISBN 978-0-471-05669-0. MR 1802993 .
Hilbe, JM (2009). แบบจำลองการถดถอยโลจิสติก . Chapman & Hall/CRC Press. ISBN 978-1-4200-7575-5.
Mika, S. และคณะ (1999). "การวิเคราะห์จำแนกแบบฟิชเชอร์ด้วยเคอร์เนล" เครือข่ายประสาทเทียมสำหรับการประมวลผลสัญญาณ IX: รายงานการประชุมเชิงปฏิบัติการของสมาคมประมวลผลสัญญาณ IEEE ปี 1999 (หมายเลขแคตตาล็อก 98TH8468)หน้า 41–48 . CiteSeerX 10.1.1.35.9904 . doi : 10.1109/NNSP.1999.788121 . ISBN 978-0-7803-5673-3S2CID 8473401
McFarland, H. Richard; Donald, St. P. Richards (2001). "ความน่าจะเป็นของการจำแนกประเภทผิดพลาดที่แม่นยำสำหรับฟังก์ชันการจำแนกแบบกำลังสองปกติแบบเสียบปลั๊ก I. กรณีค่าเฉลี่ยเท่ากัน"วารสารการวิเคราะห์หลายตัวแปร 77 ( 1): 21– 53. doi : 10.1006/jmva.2000.1924 .
McFarland, H. Richard; Donald, St. P. Richards (2002). "ความน่าจะเป็นของการจำแนกประเภทผิดพลาดที่แม่นยำสำหรับฟังก์ชันการจำแนกแบบกำลังสองปกติแบบเสียบปลั๊ก II. กรณีไม่เป็นเนื้อเดียวกัน"วารสารการวิเคราะห์หลายตัวแปร 82 ( 2): 299– 330. doi : 10.1006/jmva.2001.2034 .
Haghighat, M.; Abdel-Mottaleb, M.; Alhalabi, W. (2016). "การวิเคราะห์ความสัมพันธ์แบบจำแนก: การหลอมรวมระดับคุณลักษณะแบบเรียลไทม์สำหรับการจดจำไบโอเมตริกแบบหลายโมดอล" . IEEE Transactions on Information Forensics and Security . 11 (9): 1984– 1996. doi : 10.1109/TIFS.2016.2569061 . S2CID 15624506 .

ลิงก์ภายนอก

การวิเคราะห์ความสัมพันธ์เชิงจำแนก (Discriminant Correlation Analysis: DCA) ของบทความ Haghighat (ดูด้านบน)
ALGLIBประกอบด้วยการใช้งาน LDA แบบโอเพนซอร์สในภาษา C# / C++ / Pascal / VBA
LDA ใน Python - การใช้งาน LDA ในภาษา Python
บทช่วยสอนการใช้งาน LDA ด้วย MS Excel
สถิติชีวการแพทย์ การวิเคราะห์จำแนกกลุ่ม
StatQuest: การวิเคราะห์จำแนกเชิงเส้น (LDA) อธิบายอย่างชัดเจนบน YouTube
เอกสารประกอบการเรียน การวิเคราะห์ฟังก์ชันจำแนก โดย จี. เดวิด การ์สัน มหาวิทยาลัยนอร์ทแคโรไลนาสเตท
บทเรียนการวิเคราะห์จำแนกกลุ่มใน Microsoft Excel โดย Kardi Teknomo
บันทึกการเรียนวิชาการวิเคราะห์ฟังก์ชันจำแนก โดย เดวิด ดับเบิลยู. สต็อกเบอร์เกอร์ มหาวิทยาลัยรัฐมิสซูรีเก็บถาวรเมื่อวันที่ 3 มีนาคม 2016 ที่Wayback Machine
การวิเคราะห์ฟังก์ชันจำแนก (DA) โดย John Poulsen และ Aaron French จากมหาวิทยาลัยแห่งรัฐซานฟรานซิสโกเก็บรักษาไว้เมื่อวันที่ 15 ธันวาคม 2011 ที่Wayback Machine

[ 1 ]

[

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 12 ]

[ 13 ]

[

[ 15 ]

[

[

[ 18 ]

[ 19 ]

[ 20 ]

[ 24 ]

25

[

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]