กลับไปหน้าบทความ

อ่าน 16 นาที

การวิเคราะห์จำแนกเชิงเส้น

การวิเคราะห์จำแนกเชิงเส้น ( LDA ), การวิเคราะห์จำแนกปกติ ( NDA ), การวิเคราะห์ตัวแปรแคนอนิก ( CVA ) หรือ การวิเคราะห์ฟังก์ชันจำแนก เป็นการขยายผลของ การจำแนกเชิงเส้นของฟิชเชอร์...

การวิเคราะห์จำแนกเชิงเส้น

การวิเคราะห์จำแนกเชิงเส้นบนพื้นที่สองมิติที่มีสองคลาส ขอบเขตเบย์สคำนวณจากพารามิเตอร์การสร้างข้อมูลจริง ขอบเขตที่ประมาณไว้บนจุดข้อมูลที่เกิดขึ้นจริง[ 1 ]
ภาพเคลื่อนไหวการวิเคราะห์จำแนกเชิงเส้น (Linear discriminant analysis) เมื่อกำหนดชุดข้อมูลที่มีสองป้ายกำกับ ชุดข้อมูลจะถูกฉายไปยังเส้นตรง การฉายภาพที่เหมาะสมที่สุดจะได้เมื่ออัตราส่วนของ (ความแปรปรวนระหว่างกลุ่ม) / (ความแปรปรวนภายในกลุ่ม) มีค่าสูงสุด

การวิเคราะห์จำแนกเชิงเส้น ( LDA ), การวิเคราะห์จำแนกปกติ ( NDA ), การวิเคราะห์ตัวแปรแคนอนิก ( CVA ) หรือการวิเคราะห์ฟังก์ชันจำแนกเป็นการขยายผลของการจำแนกเชิงเส้นของฟิชเชอร์ซึ่งเป็นวิธีการที่ใช้ในสถิติและสาขาอื่นๆ เพื่อค้นหาการรวมกันเชิงเส้นของคุณลักษณะที่บ่งบอกลักษณะหรือแยกกลุ่มของวัตถุหรือเหตุการณ์สองกลุ่มขึ้นไป การรวมกันที่ได้อาจใช้เป็นตัวจำแนกเชิงเส้นหรือที่พบได้บ่อยกว่าคือการลดมิติก่อนการจำแนก ใน ภายหลัง

LDA มีความเกี่ยวข้องอย่างใกล้ชิดกับการวิเคราะห์ความแปรปรวน (ANOVA) และการวิเคราะห์การถดถอยซึ่งพยายามแสดงตัวแปรตามหนึ่งตัวเป็นผลรวมเชิงเส้นของคุณลักษณะหรือการวัดอื่นๆ[ 2 ] [ 3 ]อย่างไรก็ตาม ANOVA ใช้ตัวแปรอิสระเชิงหมวดหมู่ และตัวแปรตามต่อเนื่องในขณะที่การวิเคราะห์จำแนกมีตัวแปรอิสระ ต่อเนื่อง และตัวแปรตามเชิงหมวดหมู่ ( เช่นป้ายกำกับคลาส) [ 4 ]การถดถอยโลจิสติกและการถดถอยโพรบิตมีความคล้ายคลึงกับ LDA มากกว่า ANOVA เนื่องจากอธิบายตัวแปรเชิงหมวดหมู่ด้วยค่าของตัวแปรอิสระต่อเนื่อง วิธีการอื่นๆ เหล่านี้เป็นที่นิยมมากกว่าในแอปพลิเคชันที่ไม่สมเหตุสมผลที่จะสมมติว่าตัวแปรอิสระมีการกระจายแบบปกติซึ่งเป็นสมมติฐานพื้นฐานของวิธีการ LDA

LDA ยังมีความเกี่ยวข้องอย่างใกล้ชิดกับการวิเคราะห์องค์ประกอบหลัก (PCA) และการวิเคราะห์ปัจจัยเนื่องจากทั้งสองวิธีต่างมองหาการรวมกันเชิงเส้นของตัวแปรที่อธิบายข้อมูลได้ดีที่สุด[ 5 ] LDA พยายามสร้างแบบจำลองความแตกต่างระหว่างคลาสของข้อมูลอย่างชัดเจน ในทางตรงกันข้าม PCA ไม่ได้คำนึงถึงความแตกต่างในคลาส และการวิเคราะห์ปัจจัยสร้างการรวมกันของคุณลักษณะโดยอิงจากความคล้ายคลึงกันมากกว่าความแตกต่าง การวิเคราะห์จำแนกยังแตกต่างจากการวิเคราะห์ปัจจัยตรงที่ไม่ใช่เทคนิคการพึ่งพาซึ่งกันและกัน: ต้องมีการแยกแยะระหว่างตัวแปรอิสระและตัวแปรตาม (เรียกอีกอย่างว่าตัวแปรเกณฑ์)

LDA ทำงานได้เมื่อการวัดที่ทำกับตัวแปรอิสระสำหรับการสังเกตแต่ละครั้งเป็นปริมาณต่อเนื่อง เมื่อต้องจัดการกับตัวแปรอิสระเชิงหมวดหมู่ เทคนิคที่เทียบเท่ากันคือการวิเคราะห์ความสอดคล้องแบบจำแนก[ 6 ] [ 7 ]

การวิเคราะห์จำแนกจะใช้เมื่อทราบกลุ่มล่วงหน้า (ต่างจากการวิเคราะห์คลัสเตอร์ ) แต่ละกรณีจะต้องมีคะแนนในการวัดตัวทำนายเชิงปริมาณอย่างน้อยหนึ่งรายการ และมีคะแนนในการวัดกลุ่ม[ 8 ]กล่าวโดยง่าย การวิเคราะห์ฟังก์ชันจำแนกคือการจำแนกประเภท - การกระทำของการกระจายสิ่งต่างๆ ออกเป็นกลุ่ม ชั้น หรือหมวดหมู่ประเภทเดียวกัน

ประวัติศาสตร์

การวิเคราะห์จำแนก แบบ ทวิภาค ดั้งเดิมได้รับการพัฒนาโดยเซอร์โรนัลด์ ฟิชเชอร์ในปี 1936 [ 9 ]ซึ่งแตกต่างจากANOVAหรือMANOVAซึ่งใช้ในการทำนายตัวแปรตามต่อเนื่องหนึ่งตัว (ANOVA) หรือหลายตัว (MANOVA) โดยใช้ตัวแปรอิสระเชิงหมวดหมู่หนึ่งตัวหรือมากกว่า การวิเคราะห์ฟังก์ชันจำแนกมีประโยชน์ในการพิจารณาว่าชุดของตัวแปรมีประสิทธิภาพในการทำนายการเป็นสมาชิกของหมวดหมู่หรือไม่[ 10 ]

LDA สำหรับสองคลาส

พิจารณาชุดของการสังเกต(เรียกอีกอย่างว่าคุณลักษณะ คุณสมบัติ ตัวแปร หรือการวัด) สำหรับแต่ละตัวอย่างของวัตถุหรือเหตุการณ์ที่มีคลาสที่ทราบชุดตัวอย่างนี้เรียกว่าชุดฝึกอบรมใน บริบท การเรียนรู้แบบมีผู้กำกับดูแลปัญหาการจำแนกประเภทคือการหาตัวทำนายที่ดีสำหรับคลาสของตัวอย่างใดๆ ที่มีการกระจายเดียวกัน (ไม่จำเป็นต้องมาจากชุดฝึกอบรม) โดยให้เพียงการสังเกตเท่านั้น[ 11 ] : 338

LDA แก้ปัญหาโดยสมมติว่าฟังก์ชันความหนาแน่นความน่าจะ เป็นแบบมีเงื่อนไข และเป็นการแจกแจงแบบปกติที่มีค่าเฉลี่ยและพารามิเตอร์ความแปรปรวนร่วมและตามลำดับ ภายใต้สมมติฐานนี้วิธีแก้ปัญหาที่เหมาะสมที่สุดของเบย์สคือการทำนายว่าจุดต่างๆ มาจากคลาสที่สองหากค่าลอการิทึมของอัตราส่วนความน่าจะเป็นมีค่ามากกว่าค่าเกณฑ์ T บางค่า ดังนี้:

หากไม่มีข้อสมมติเพิ่มเติมใดๆ ตัวจำแนกที่ได้จะเรียกว่าการวิเคราะห์จำแนกเชิงกำลังสอง (Quadratic Discriminant Analysis หรือ QDA)

LDA กลับใช้สมมติฐานเพิ่มเติมที่ทำให้ง่ายขึ้นคือความแปรปรวนคงที่ (homoscedasticity ) ( กล่าวคือ ความแปรปรวนร่วมของแต่ละคลาสเหมือนกัน ดังนั้น) และความแปรปรวนร่วมมีอันดับเต็ม (full rank) ในกรณีนี้ พจน์หลายตัวจะหักล้างกัน:

เนื่องจากทั้งสองด้านเป็นสเกลาร์และสามารถสลับตำแหน่งกันได้ ( เป็นเฮอร์มิเชียน )

และเกณฑ์การตัดสินใจข้างต้นจะกลายเป็นค่าเกณฑ์บนผลคูณดอท

สำหรับค่าคงที่เกณฑ์c บางค่า โดยที่

นั่นหมายความว่าเกณฑ์ในการพิจารณาว่าข้อมูลนำเข้าอยู่ในกลุ่มใดนั้น ขึ้นอยู่กับผลรวมเชิงเส้นของข้อมูลที่ทราบอยู่แล้วเท่านั้น

การพิจารณาข้อสรุปนี้ในเชิงเรขาคณิตมักมีประโยชน์ กล่าวคือ เกณฑ์ที่ว่าข้อมูลนำเข้าอยู่ในคลาสใดนั้นขึ้นอยู่กับการฉายภาพของจุดในปริภูมิหลายมิติลงบนเวกเตอร์(ดังนั้น เราจึงพิจารณาเฉพาะทิศทางของมันเท่านั้น) กล่าวอีกนัยหนึ่ง ข้อมูลสังเกตการณ์จะอยู่ใน คลาสนั้นก็ต่อ เมื่อจุดที่สอดคล้องกันนั้นอยู่ด้านใดด้านหนึ่งของระนาบหลายมิติที่ตั้งฉากกับเวกเตอร์ตำแหน่งของระนาบนั้นถูกกำหนดโดยค่าเกณฑ์

ข้อสมมติฐาน

ข้อสมมติฐานของการวิเคราะห์จำแนกประเภทเหมือนกับของ MANOVA การวิเคราะห์ค่อนข้างไวต่อค่าผิดปกติ และขนาดของกลุ่มที่เล็กที่สุดต้องมากกว่าจำนวนตัวแปรทำนาย[ 8 ]

มีการเสนอแนะว่าการวิเคราะห์จำแนกประเภทค่อนข้างแข็งแกร่งต่อการละเมิดข้อสมมติเหล่านี้เพียงเล็กน้อย[ 12 ]และยังแสดงให้เห็นแล้วว่าการวิเคราะห์จำแนกประเภทอาจยังคงเชื่อถือได้เมื่อใช้ตัวแปรแบบสองค่า (ซึ่งความปกติแบบหลายตัวแปรมักถูกละเมิด) [ 13 ]

ฟังก์ชันจำแนก

การวิเคราะห์จำแนกกลุ่มทำงานโดยการสร้างชุดค่าผสมเชิงเส้นหนึ่งชุดหรือมากกว่าของตัวทำนาย โดยสร้างตัวแปรแฝง ใหม่ สำหรับแต่ละฟังก์ชัน ฟังก์ชันเหล่านี้เรียกว่าฟังก์ชันจำแนกกลุ่ม จำนวนฟังก์ชันที่เป็นไปได้คือ โดยที่= จำนวนกลุ่ม หรือ(จำนวนตัวทำนาย) แล้วแต่ว่าค่าใดน้อยกว่า ฟังก์ชันแรกที่สร้างขึ้นจะทำให้ความแตกต่างระหว่างกลุ่มบนฟังก์ชันนั้นมีค่าสูงสุด ฟังก์ชันที่สองจะทำให้ความแตกต่างบนฟังก์ชันนั้นมีค่าสูงสุด แต่ต้องไม่มีความสัมพันธ์กับฟังก์ชันก่อนหน้าด้วย กระบวนการนี้จะดำเนินต่อไปกับฟังก์ชันถัดไป โดยมีข้อกำหนดว่าฟังก์ชันใหม่จะต้องไม่มีความสัมพันธ์กับฟังก์ชันก่อนหน้าใดๆ

กลุ่มที่กำหนดโดยมี เซตของปริภูมิตัวอย่าง จะมีกฎการจำแนกประเภทเช่นนั้น ถ้าแล้วการวิเคราะห์การจำแนกประเภทจะค้นหาภูมิภาค "ที่ดี" ของ เพื่อลดข้อผิดพลาดในการจำแนกประเภทให้น้อยที่สุด ดังนั้นจึงนำไปสู่เปอร์เซ็นต์การจำแนกประเภทที่ถูกต้องสูงในตารางการจำแนกประเภท[ 14 ]

แต่ละฟังก์ชันจะได้รับคะแนนจำแนกเพื่อพิจารณาว่าฟังก์ชันนั้นสามารถทำนายการจัดกลุ่มได้ดีเพียงใด

  • สัมประสิทธิ์สหสัมพันธ์โครงสร้าง: สหสัมพันธ์ระหว่างตัวทำนายแต่ละตัวกับคะแนนจำแนกของแต่ละฟังก์ชัน นี่คือสหสัมพันธ์ลำดับศูนย์ (กล่าวคือ ไม่ได้แก้ไขสำหรับตัวทำนายอื่นๆ) [ 15 ]
  • สัมประสิทธิ์มาตรฐาน: น้ำหนักของตัวทำนายแต่ละตัวในการรวมเชิงเส้นซึ่งเป็นฟังก์ชันจำแนก เช่นเดียวกับในสมการการถดถอย สัมประสิทธิ์เหล่านี้เป็นสัมประสิทธิ์บางส่วน (กล่าวคือ ปรับแก้สำหรับตัวทำนายอื่นๆ) แสดงถึงการมีส่วนร่วมเฉพาะของตัวทำนายแต่ละตัวในการทำนายการจัดกลุ่ม
  • ฟังก์ชันที่จุดศูนย์กลางของกลุ่ม: ค่าเฉลี่ยของคะแนนจำแนกสำหรับตัวแปรการจัดกลุ่มแต่ละตัวจะแสดงไว้สำหรับแต่ละฟังก์ชัน ยิ่งค่าเฉลี่ยอยู่ห่างกันมากเท่าใด ข้อผิดพลาดในการจำแนกประเภทก็จะยิ่งน้อยลงเท่านั้น

กฎการเลือกปฏิบัติ

  • ความน่าจะเป็นสูงสุด : กำหนดให้กับกลุ่มที่ทำให้ความหนาแน่นของประชากร (กลุ่ม) สูงสุด[ 16 ]
  • กฎการจำแนกของเบย์ส: กำหนดให้กับกลุ่มที่ทำให้ค่าสูงสุดโดยที่π iแทนความน่าจะเป็นก่อนหน้าของการจำแนกประเภทนั้น และแทนความหนาแน่นของประชากร[ 16 ]
  • กฎการจำแนกเชิงเส้นของ Fisher : เพิ่มอัตราส่วนระหว่างSS ระหว่างและSS ภายใน ให้สูงสุด และค้นหาการรวมเชิงเส้นของตัวทำนายเพื่อทำนายกลุ่ม[ 16 ]

ค่าลักษณะเฉพาะ

ค่าไอเกนในการวิเคราะห์จำแนกคือรากลักษณะเฉพาะของแต่ละฟังก์ชัน เป็นตัวบ่งชี้ว่าฟังก์ชันนั้นจำแนกกลุ่มได้ดีเพียงใด โดยยิ่งค่าไอเกนมากเท่าไร ฟังก์ชันนั้นก็ยิ่งจำแนกได้ดีขึ้นเท่านั้น[ 8 ]อย่างไรก็ตาม ควรตีความด้วยความระมัดระวัง เนื่องจากค่าไอเกนไม่มีขีดจำกัดบน[ 10 ] [ 8 ] ค่าไอเกนสามารถมองได้ว่าเป็นอัตราส่วนของSS ระหว่างและSS ภายในเช่นเดียวกับใน ANOVA เมื่อตัวแปรตามคือฟังก์ชันจำแนก และกลุ่มคือระดับของIV [ 10 ] ซึ่งหมายความว่าค่าไอเกนที่ใหญ่ที่สุดจะสัมพันธ์กับฟังก์ชันแรก ค่าไอเกนที่ใหญ่เป็นอันดับสอง จะสัมพันธ์กับฟังก์ชันที่สอง เป็นต้น

ขนาดของผลกระทบ

บางคนแนะนำให้ใช้ค่าไอเกนเป็น มาตรวัด ขนาดผลกระทบอย่างไรก็ตาม โดยทั่วไปแล้ววิธีนี้ไม่ได้รับการสนับสนุน[ 10 ]แต่ค่าสหสัมพันธ์แบบแคนอนิกเป็นมาตรวัดขนาดผลกระทบที่นิยมมากกว่า มันคล้ายกับค่าไอเกน แต่เป็นรากที่สองของอัตราส่วนของSS ระหว่างและSS ทั้งหมดมันคือสหสัมพันธ์ระหว่างกลุ่มและฟังก์ชัน[ 10 ] มาตรวัดขนาดผลกระทบที่นิยมอีกอย่างหนึ่งคือเปอร์เซ็นต์ของความแปรปรวนสำหรับแต่ละฟังก์ชัน คำนวณโดย: โดยที่คือค่าไอเกนสำหรับฟังก์ชัน และคือผลรวมของค่าไอเกนทั้งหมด สิ่งนี้บอกเราว่าการทำนายมีความแข็งแกร่งเพียงใดสำหรับฟังก์ชันเฉพาะนั้นเมื่อเทียบกับฟังก์ชันอื่นๆ[ 10 ] เปอร์เซ็นต์ที่จำแนกได้อย่างถูกต้องยังสามารถวิเคราะห์เป็นขนาดผลกระทบได้ ค่าแคปปาสามารถอธิบายสิ่งนี้ได้ในขณะที่แก้ไขความสอดคล้องโดยบังเอิญ[ 10 ]แคปปาทำให้เป็นมาตรฐานทั่วทุกหมวดหมู่แทนที่จะมีอคติจากคลาสที่มีประสิทธิภาพดีหรือแย่อย่างมีนัยสำคัญ[ 17 ]

การวิเคราะห์จำแนกแบบแคนอนิกสำหรับkคลาส

การวิเคราะห์จำแนกประเภทแบบแคนอนิก (Canonical Discriminant Analysis: CDA) จะค้นหาแกน ( พิกัดแคนอนิกk  − 1 พิกัด โดย ที่ kคือจำนวนคลาส) ที่แยกหมวดหมู่ได้ดีที่สุด ฟังก์ชันเชิงเส้นเหล่านี้ไม่มีความสัมพันธ์กัน และกำหนด พื้นที่ k  − 1 ที่เหมาะสมที่สุดใน กลุ่มข้อมูล n มิติ ซึ่งแยกกลุ่ม k กลุ่ม (การฉายภาพในพื้นที่นั้นของ) ได้ดีที่สุดดูรายละเอียดเพิ่มเติมได้ในหัวข้อ “ Multiclass LDA ” ด้านล่าง

เนื่องจาก LDA ใช้ตัวแปรแคนอนิก จึงมักถูกเรียกว่า "วิธีการของตัวแปรแคนอนิก" [ 18 ]หรือการวิเคราะห์ตัวแปรแคนอนิก (CVA) [ 19 ]

ตัวแยกเชิงเส้นของฟิชเชอร์

คำว่าFisher's linear discriminantและLDAมักใช้แทนกันได้ แม้ว่าบทความต้นฉบับของ Fisher [ 2 ]จะอธิบายถึง discriminant ที่แตกต่างออกไปเล็กน้อย ซึ่งไม่ได้ตั้งสมมติฐานบางอย่างของ LDA เช่น คลาส ที่มีการกระจายแบบปกติ หรือ ความแปรปรวนร่วมของคลาส ที่เท่ากัน

สมมติว่ากลุ่มข้อมูลสองกลุ่มมีค่าเฉลี่ย และความแปรปรวนร่วมกันเท่ากับ แล้วการรวมเชิงเส้นของคุณลักษณะจะมีค่าเฉลี่ยและความแปรปรวนเท่ากับ ฟิชเชอร์ได้นิยามการแยกความแตกต่างระหว่าง การแจกแจงทั้งสองนี้ว่าคืออัตราส่วนของความแปรปรวนระหว่างกลุ่มต่อความแปรปรวนภายในกลุ่ม:

มาตรการนี้ในแง่หนึ่งเป็นมาตรการวัดอัตราส่วนสัญญาณต่อสัญญาณรบกวนสำหรับการติดป้ายกำกับคลาส สามารถแสดงได้ว่าการแยกสูงสุดเกิดขึ้นเมื่อ

เมื่อเงื่อนไขของ LDA เป็นไปตามที่กำหนด สมการข้างต้นจะเทียบเท่ากับ LDA

ตัวจำแนกเชิงเส้นของฟิชเชอร์ที่แสดงเป็นแกน

โปรดสังเกตว่าเวกเตอร์นั้นคือ เวกเตอร์ ตั้งฉากกับระนาบแบ่งกลุ่มตัวอย่างเช่น ในปัญหาแบบสองมิติ เส้นตรงที่แบ่งกลุ่มทั้งสองได้ดีที่สุดคือเส้นที่ตั้งฉากกับ

โดยทั่วไป จุดข้อมูลที่จะแยกแยะจะถูกฉายลงบนระนาบหนึ่งมิติ จากนั้นจะเลือกค่าเกณฑ์ที่แยกข้อมูลได้ดีที่สุดจากการวิเคราะห์การกระจายแบบหนึ่งมิติ ไม่มีกฎทั่วไปสำหรับค่าเกณฑ์ อย่างไรก็ตาม หากการฉายจุดจากทั้งสองคลาสแสดงการกระจายที่คล้ายคลึงกัน ตัวเลือกที่ดีคือระนาบระหว่างการฉายค่าเฉลี่ยทั้งสองและในกรณีนี้ พารามิเตอร์ c ในเงื่อนไขเกณฑ์สามารถหาได้อย่างชัดเจน:

.

วิธีการของ Otsuมีความเกี่ยวข้องกับวิธีการจำแนกเชิงเส้นของ Fisher และถูกสร้างขึ้นเพื่อแปลงฮิสโตแกรมของพิกเซลในภาพขาวดำให้เป็นภาพไบนารีโดยการเลือกค่าเกณฑ์ขาวดำที่เหมาะสมที่สุด ซึ่งจะลดความแปรปรวนภายในคลาสให้เหลือน้อยที่สุด และเพิ่มความแปรปรวนระหว่างคลาสให้มากที่สุด ทั้งภายในและระหว่างระดับสีเทาที่กำหนดให้กับพิกเซลสีดำและสีขาว

LDA หลายคลาส

การแสดงภาพสำหรับแกน LDA แบบหนึ่งต่อทั้งหมดสำหรับ 4 คลาสในรูปแบบ 3 มิติ
การฉายภาพตามแกนจำแนกเชิงเส้นสำหรับ 4 คลาส

ในกรณีที่มีคลาสมากกว่าสองคลาส การวิเคราะห์ที่ใช้ในการหาค่าจำแนกของ Fisher สามารถขยายเพื่อค้นหาพื้นที่ย่อยที่ดูเหมือนจะครอบคลุมความแปรปรวนของคลาสทั้งหมด[ 20 ]การสรุปทั่วไปนี้เกิดจากCR Rao [ 21 ] สมมติว่าแต่ละคลาส C มีค่าเฉลี่ยและความแปรปรวนร่วมเท่ากันจากนั้นความแปรปรวนระหว่างคลาสอาจถูกกำหนดโดยความแปรปรวนร่วมของตัวอย่างของค่าเฉลี่ยของคลาส

ค่าเฉลี่ยของค่าเฉลี่ยของแต่ละชั้นเรียนอยู่ที่ใด การแบ่งชั้นเรียนในทิศทางใดทิศทางหนึ่ง ในกรณีนี้จะกำหนดโดย

นั่นหมายความว่า เมื่อเวกเตอร์ลักษณะเฉพาะของการแยกจะมีค่าเท่ากับค่าลักษณะเฉพาะ ที่สอดคล้อง กัน

ถ้าเมทริกซ์สามารถทำให้เป็นเมทริกซ์ทแยงมุมได้ ความแปรปรวนระหว่างคุณลักษณะต่างๆ จะถูกจำกัดอยู่ในปริภูมิย่อยที่เกิดจากเวกเตอร์ลักษณะเฉพาะที่สอดคล้องกับ ค่าลักษณะเฉพาะที่ใหญ่ที่สุดC − 1 ค่า (เนื่องจาก เมทริกซ์มีอันดับ สูงสุด C  − 1) เวกเตอร์ลักษณะเฉพาะเหล่านี้ส่วนใหญ่ใช้ในการลดคุณลักษณะ เช่น ใน PCA เวกเตอร์ลักษณะเฉพาะที่สอดคล้องกับค่าลักษณะเฉพาะที่เล็กกว่ามักจะไวต่อการเลือกข้อมูลฝึกฝนที่แน่นอน และมักจำเป็นต้องใช้การปรับค่าให้เป็นมาตรฐานดังที่อธิบายไว้ในส่วนถัดไป

หากจำเป็นต้องมีการจำแนกประเภท แทนที่จะลดมิติมีเทคนิคทางเลือกอื่นๆ อีกหลายวิธี ตัวอย่างเช่น อาจแบ่งกลุ่มข้อมูลออกเป็นส่วนๆ แล้วใช้ Fisher discriminant หรือ LDA มาตรฐานในการจำแนกแต่ละส่วน ตัวอย่างที่พบได้ทั่วไปคือ "หนึ่งกับส่วนที่เหลือ" โดยนำจุดข้อมูลจากกลุ่มหนึ่งไปไว้ในกลุ่มหนึ่ง และส่วนที่เหลือทั้งหมดไปไว้ในอีกกลุ่มหนึ่ง จากนั้นจึงใช้ LDA วิธีนี้จะทำให้ได้ตัวจำแนก C ตัว ซึ่งผลลัพธ์จะถูกนำมารวมกัน อีกวิธีหนึ่งที่นิยมใช้คือการจำแนกประเภทแบบจับคู่ โดยสร้างตัวจำแนกใหม่สำหรับแต่ละคู่ของกลุ่มข้อมูล (ทำให้ได้ ตัวจำแนกทั้งหมด C ( C  − 1)/2 ตัว) โดยนำตัวจำแนกแต่ละตัวมารวมกันเพื่อให้ได้ผลการจำแนกประเภทสุดท้าย

LDA แบบเพิ่มขึ้น

โดยทั่วไป การใช้งานเทคนิค LDA จำเป็นต้องมีตัวอย่างทั้งหมดพร้อมใช้งานล่วงหน้า อย่างไรก็ตาม มีสถานการณ์ที่ชุดข้อมูลทั้งหมดไม่พร้อมใช้งาน และข้อมูลอินพุตถูกสังเกตเป็นสตรีม ในกรณีนี้ การสกัดคุณลักษณะ LDA ควรมีความสามารถในการอัปเดตคุณลักษณะ LDA ที่คำนวณได้โดยการสังเกตตัวอย่างใหม่โดยไม่ต้องเรียกใช้อัลกอริทึมกับชุดข้อมูลทั้งหมด ตัวอย่างเช่น ในแอปพลิเคชันแบบเรียลไทม์หลายอย่าง เช่น หุ่นยนต์เคลื่อนที่หรือการจดจำใบหน้าออนไลน์ การอัปเดตคุณลักษณะ LDA ที่สกัดได้ทันทีที่มีการสังเกตใหม่เป็นสิ่งสำคัญ เทคนิคการสกัดคุณลักษณะ LDA ที่สามารถอัปเดตคุณลักษณะ LDA ได้โดยการสังเกตตัวอย่างใหม่คืออัลกอริทึม LDA แบบเพิ่มขึ้นและแนวคิดนี้ได้รับการศึกษาอย่างกว้างขวางในช่วงสองทศวรรษที่ผ่านมา[ 22 ] Chatterjee และ Roychowdhury เสนออัลกอริทึม LDA แบบจัดระเบียบตนเองแบบเพิ่มขึ้นสำหรับการอัปเดตคุณลักษณะ LDA [ 23 ]ในงานอื่น ๆ Demir และ Ozmehmet ได้เสนออัลกอริธึมการเรียนรู้แบบโลคอลออนไลน์สำหรับการอัปเดตคุณลักษณะ LDA แบบเพิ่มขึ้นโดยใช้กฎการเรียนรู้แบบแก้ไขข้อผิดพลาดและแบบ Hebbian [ 24 ]ต่อมา Aliyari และคณะได้พัฒนาอัลกอริธึมแบบเพิ่มขึ้นอย่างรวดเร็วเพื่ออัปเดตคุณลักษณะ LDA โดยการสังเกตตัวอย่างใหม่[ 22 ]

การใช้งานจริง

ในทางปฏิบัติ ค่าเฉลี่ยและความแปรปรวนร่วมของแต่ละคลาสจะไม่เป็นที่ทราบแน่ชัด อย่างไรก็ตาม สามารถประมาณค่าเหล่านี้ได้จากชุดข้อมูลฝึกฝน อาจใช้ ค่าประมาณความน่าจะเป็นสูงสุดหรือ ค่าประมาณความน่า จะเป็นสูงสุดภายหลังแทนค่าที่แน่นอนในสมการข้างต้นก็ได้ แม้ว่าค่าประมาณความแปรปรวนร่วมอาจถือว่าเหมาะสมที่สุดในแง่หนึ่ง แต่ไม่ได้หมายความว่าค่าจำแนกที่ได้จากการแทนค่าเหล่านี้จะเหมาะสมที่สุดในแง่ใดๆ แม้ว่าสมมติฐานเรื่องการกระจายแบบปกติของคลาสจะถูกต้องก็ตาม

ความซับซ้อนอีกประการหนึ่งในการประยุกต์ใช้ LDA และตัวแยกประเภทของ Fisher กับข้อมูลจริงเกิดขึ้นเมื่อจำนวนการวัดของแต่ละตัวอย่าง (เช่น มิติของเวกเตอร์ข้อมูลแต่ละตัว) เกินจำนวนตัวอย่างในแต่ละคลาส[ 5 ]ในกรณีนี้ ค่าประมาณความแปรปรวนร่วมไม่มีอันดับเต็ม ดังนั้นจึงไม่สามารถผกผันได้ มีหลายวิธีในการจัดการกับปัญหานี้ วิธีหนึ่งคือการใช้ผกผันเทียมแทนผกผันเมทริกซ์ตามปกติในสูตรข้างต้น อย่างไรก็ตาม ความเสถียรเชิงตัวเลขที่ดีกว่าอาจทำได้โดยการฉายปัญหาลงบนพื้นที่ย่อยที่ครอบคลุมโดยก่อน[ 25 ] กลยุทธ์ อีกอย่างหนึ่งในการจัดการกับขนาดตัวอย่างเล็กคือการใช้ตัวประมาณค่าการหดตัวของเมทริกซ์ความแปรปรวนร่วม ซึ่งสามารถแสดงทางคณิตศาสตร์ได้ดังนี้

โดยที่เมทริกซ์เอกลักษณ์และความเข้มของการหดตัวหรือพารามิเตอร์การปรับค่านำไปสู่กรอบการวิเคราะห์การจำแนกแบบปรับค่า[ 26 ]หรือการวิเคราะห์การจำแนกแบบหดตัว[ 27 ]

นอกจากนี้ ในหลายกรณีทางปฏิบัติ ตัวจำแนกเชิงเส้นก็ไม่เหมาะสม LDA และตัวจำแนกของ Fisher สามารถขยายเพื่อใช้ในการจำแนกแบบไม่เชิงเส้นได้โดยใช้เทคนิคเคอร์เนลในที่นี้ ข้อมูลสังเกตการณ์ดั้งเดิมจะถูกแมปไปยังพื้นที่ไม่เชิงเส้นที่มีมิติสูงกว่า การจำแนกเชิงเส้นในพื้นที่ไม่เชิงเส้นนี้จึงเทียบเท่ากับการจำแนกแบบไม่เชิงเส้นในพื้นที่ดั้งเดิม ตัวอย่างที่ใช้กันทั่วไปมากที่สุดคือ ตัว จำแนก Fisher แบบเคอร์เนล

LDA สามารถขยายไปสู่การวิเคราะห์จำแนกหลายกลุ่มได้โดยที่cกลายเป็นตัวแปรเชิงหมวดหมู่ที่ มีสถานะที่เป็นไปได้ Nสถานะ แทนที่จะมีเพียงสองสถานะ ในทำนองเดียวกัน หากความหนาแน่นแบบมีเงื่อนไขของแต่ละกลุ่มมีการแจกแจงแบบปกติโดยมีเมทริกซ์ความแปรปรวนร่วม ค่าสถิติที่เพียงพอสำหรับคือค่าของ การฉายภาพ N ครั้ง ซึ่งเป็นปริภูมิย่อยที่ครอบคลุมโดยค่าเฉลี่ยN ค่า ที่ฉายภาพ แบบแอฟฟิน โดยเมทริกซ์ความแปรปรวนร่วมผกผัน การฉายภาพเหล่านี้สามารถหาได้โดยการแก้ปัญหาค่าลักษณะเฉพาะแบบทั่วไปโดยที่ตัวเศษคือเมทริกซ์ความแปรปรวนร่วมที่สร้างขึ้นโดยการพิจารณาค่าเฉลี่ยเป็นตัวอย่าง และตัวส่วนคือเมทริกซ์ความแปรปรวนร่วม ดูรายละเอียดเพิ่มเติมได้ที่ “ LDA หลายกลุ่ม ” ด้านบน

แอปพลิเคชัน

นอกเหนือจากตัวอย่างที่กล่าวมาด้านล่างแล้ว LDA ยังถูกนำไปใช้ในการกำหนดตำแหน่งทางการตลาดและการจัดการผลิตภัณฑ์อีกด้วย

การคาดการณ์การล้มละลาย

ในการทำนายการล้มละลายโดยอาศัยอัตราส่วนทางการบัญชีและตัวแปรทางการเงินอื่นๆ การวิเคราะห์จำแนกเชิงเส้น (Linear Discriminant Analysis: LDA) เป็นวิธีการทางสถิติวิธีแรกที่นำมาใช้เพื่ออธิบายอย่างเป็นระบบว่าบริษัทใดล้มละลายและบริษัทใดรอดพ้น แม้จะมีข้อจำกัดต่างๆ รวมถึงการที่อัตราส่วนทางการบัญชีไม่สอดคล้องกับสมมติฐานการกระจายแบบปกติของ LDA แต่ แบบจำลอง ของEdward Altman ใน ปี 1968 [ 28 ]ก็ยังคงเป็นแบบจำลองชั้นนำในการใช้งานจริง[ 29 ] [ 30 ] [ 31 ]

การจดจำใบหน้า

ในการจดจำใบหน้า ด้วยคอมพิวเตอร์ ใบหน้าแต่ละใบจะถูกแทนด้วยค่าพิกเซลจำนวนมาก การวิเคราะห์จำแนกเชิงเส้น (Linear discriminant analysis) ถูกนำมาใช้เป็นหลักเพื่อลดจำนวนคุณลักษณะให้เหลือจำนวนที่จัดการได้ง่ายขึ้นก่อนการจำแนกประเภท มิติใหม่แต่ละมิติเป็นผลรวมเชิงเส้นของค่าพิกเซล ซึ่งก่อให้เกิดแม่แบบ ผลรวมเชิงเส้นที่ได้จากการใช้การวิเคราะห์จำแนกเชิงเส้นของฟิชเชอร์เรียกว่าใบหน้าฟิชเชอร์ (Fisher faces ) ในขณะที่ผลรวมเชิงเส้นที่ได้จากการวิเคราะห์ส่วนประกอบหลัก (Principal component analysis) ที่เกี่ยวข้อง เรียกว่า ใบหน้า ลักษณะเฉพาะ (eigenfaces )

การตลาด

ในด้านการตลาดการวิเคราะห์จำแนกกลุ่มเคยถูกนำมาใช้บ่อยครั้งเพื่อหาปัจจัยที่แตกต่างกันระหว่างลูกค้าและ/หรือผลิตภัณฑ์ประเภทต่างๆ โดยอาศัยแบบสำรวจหรือข้อมูลที่รวบรวมได้ในรูปแบบอื่นๆ ปัจจุบันวิธี การถดถอยโลจิสติกส์หรือวิธีการอื่นๆ ถูกนำมาใช้กันอย่างแพร่หลายมากกว่า การใช้การวิเคราะห์จำแนกกลุ่มในด้านการตลาดสามารถอธิบายได้ด้วยขั้นตอนต่อไปนี้:

  1. กำหนดปัญหาและรวบรวมข้อมูล—ระบุ คุณลักษณะ เด่นที่ผู้บริโภคใช้ในการประเมินผลิตภัณฑ์ในหมวดหมู่นี้—ใช้ เทคนิค การวิจัยการตลาดเชิงปริมาณ (เช่นแบบสอบถาม ) เพื่อรวบรวมข้อมูลจากกลุ่มตัวอย่างลูกค้าเป้าหมายเกี่ยวกับการให้คะแนนคุณลักษณะทั้งหมดของผลิตภัณฑ์ ขั้นตอนการรวบรวมข้อมูลมักดำเนินการโดยผู้เชี่ยวชาญด้านการวิจัยการตลาด แบบสอบถามจะขอให้ผู้ตอบให้คะแนนผลิตภัณฑ์ตั้งแต่หนึ่งถึงห้า (หรือ 1 ถึง 7 หรือ 1 ถึง 10) ในช่วงคุณลักษณะที่นักวิจัยเลือก โดยอาจเลือกคุณลักษณะได้ตั้งแต่ห้าถึงยี่สิบรายการ ซึ่งอาจรวมถึงสิ่งต่างๆ เช่น ความง่ายในการใช้งาน น้ำหนัก ความแม่นยำ ความทนทาน สีสัน ราคา หรือขนาด คุณลักษณะที่เลือกจะแตกต่างกันไปขึ้นอยู่กับผลิตภัณฑ์ที่กำลังศึกษา คำถามเดียวกันนี้จะถูกถามกับผลิตภัณฑ์ทั้งหมดในการศึกษา ข้อมูลสำหรับผลิตภัณฑ์หลายรายการจะถูกเข้ารหัสและป้อนเข้าสู่โปรแกรมทางสถิติ เช่นR , SPSSหรือSAS (ขั้นตอนนี้เหมือนกับในการวิเคราะห์ปัจจัย)
  2. ประมาณค่าสัมประสิทธิ์ของฟังก์ชันจำแนกและพิจารณาความสำคัญทางสถิติและความถูกต้อง—เลือกวิธีการวิเคราะห์จำแนกที่เหมาะสม วิธีโดยตรงเกี่ยวข้องกับการประมาณฟังก์ชันจำแนกเพื่อให้ตัวแปรทำนายทั้งหมดได้รับการประเมินพร้อมกันวิธีแบบทีละขั้นตอนจะป้อนตัวแปรทำนายตามลำดับ วิธีสองกลุ่มควรใช้เมื่อตัวแปรตามมีสองประเภทหรือสถานะ วิธีจำแนกหลายกลุ่มใช้เมื่อตัวแปรตามมีสามสถานะขึ้นไป ใช้Wilks's Lambdaเพื่อทดสอบความสำคัญใน SPSS หรือ F stat ใน SAS วิธีที่ใช้กันทั่วไปในการทดสอบความถูกต้องคือการแบ่งตัวอย่างออกเป็นตัวอย่างสำหรับการประมาณหรือการวิเคราะห์ และตัวอย่างสำหรับการตรวจสอบหรือการแยก ตัวอย่างสำหรับการประมาณใช้ในการสร้างฟังก์ชันจำแนก ตัวอย่างสำหรับการตรวจสอบใช้ในการสร้างเมทริกซ์การจำแนกประเภทซึ่งประกอบด้วยจำนวนกรณีที่จำแนกได้อย่างถูกต้องและไม่ถูกต้อง เปอร์เซ็นต์ของกรณีที่จำแนกได้อย่างถูกต้องเรียกว่าอัตราความถูกต้อง
  3. นำผลลัพธ์ไปแสดงบนแผนที่สองมิติ กำหนดมิติ และตีความผลลัพธ์ โปรแกรมทางสถิติ (หรือโมดูลที่เกี่ยวข้อง) จะสร้างแผนที่ผลลัพธ์ แผนที่จะแสดงผลิตภัณฑ์แต่ละรายการ (โดยปกติในพื้นที่สองมิติ) ระยะห่างระหว่างผลิตภัณฑ์บ่งชี้ว่ามีความแตกต่างกันมากน้อยเพียงใด นักวิจัยต้องกำหนดป้ายกำกับมิติ ซึ่งต้องอาศัยการตัดสินใจโดยใช้ดุลพินิจและมักเป็นเรื่องที่ท้าทายมาก ดูการสร้างแผนที่เชิงรับรู้ (perceptual mapping )

การศึกษาทางชีวการแพทย์

การประยุกต์ใช้หลักของการวิเคราะห์จำแนกในทางการแพทย์คือการประเมินระดับความรุนแรงของผู้ป่วยและการพยากรณ์ผลลัพธ์ของโรค ตัวอย่างเช่น ในระหว่างการวิเคราะห์ย้อนหลัง ผู้ป่วยจะถูกแบ่งออกเป็นกลุ่มตามความรุนแรงของโรค ได้แก่ โรคเล็กน้อย โรคปานกลาง และโรครุนแรง จากนั้นจะศึกษาผลการวิเคราะห์ทางคลินิกและห้องปฏิบัติการเพื่อเปิดเผยตัวแปรที่แตกต่างกันทางสถิติในกลุ่มเหล่านี้ โดยใช้ตัวแปรเหล่านี้ จะสร้างฟังก์ชันจำแนกเพื่อจำแนกความรุนแรงของโรคในผู้ป่วยในอนาคต นอกจากนี้ การวิเคราะห์จำแนกเชิงเส้น (LDA) ยังสามารถช่วยเลือกตัวอย่างที่จำแนกได้ดียิ่งขึ้นสำหรับการเพิ่มข้อมูล ซึ่งจะช่วยปรับปรุงประสิทธิภาพการจำแนก[ 32 ]

ในทางชีววิทยา มีการใช้หลักการที่คล้ายกันเพื่อจำแนกและกำหนดกลุ่มของวัตถุทางชีวภาพที่แตกต่างกัน ตัวอย่างเช่น เพื่อกำหนดประเภทของฟาจของ Salmonella enteritidis โดยอาศัยสเปกตรัมอินฟราเรดแบบฟูริเยร์ทรานส์ฟอร์ม[ 33 ]เพื่อตรวจจับแหล่งที่มาของสัตว์ของEscherichia coliโดยการศึกษาปัจจัยก่อโรค[ 34 ]เป็นต้น

วิทยาศาสตร์โลก

วิธีนี้สามารถใช้เพื่อแยกโซนการเปลี่ยนแปลงได้ ตัวอย่างเช่น เมื่อมีข้อมูลที่แตกต่างกันจากโซนต่างๆ การวิเคราะห์จำแนกสามารถค้นหารูปแบบภายในข้อมูลและจำแนกได้อย่างมีประสิทธิภาพ[ 35 ]

เปรียบเทียบกับการถดถอยโลจิสติกส์

การวิเคราะห์ฟังก์ชันจำแนกมีความคล้ายคลึงกับการถดถอยโลจิสติก มาก และทั้งสองสามารถใช้เพื่อตอบคำถามวิจัยเดียวกันได้[ 10 ]การถดถอยโลจิสติกไม่มีข้อสมมติและข้อจำกัดมากเท่ากับการวิเคราะห์จำแนก อย่างไรก็ตาม เมื่อตรงตามข้อสมมติของการวิเคราะห์จำแนกแล้ว จะมีประสิทธิภาพมากกว่าการถดถอยโลจิสติก[ 36 ]แตกต่างจากการถดถอยโลจิสติก การวิเคราะห์จำแนกสามารถใช้ได้กับขนาดตัวอย่างขนาดเล็ก มีการแสดงให้เห็นว่าเมื่อขนาดตัวอย่างเท่ากัน และความสม่ำเสมอของความแปรปรวน/ความแปรปรวนร่วมเป็นจริง การวิเคราะห์จำแนกจะมีความแม่นยำมากกว่า[ 8 ]แม้จะมีข้อดีทั้งหมดเหล่านี้ การถดถอยโลจิสติกก็ยังคงเป็นตัวเลือกที่นิยมใช้ เนื่องจากข้อสมมติของการวิเคราะห์จำแนกนั้นไม่ค่อยตรงตามเงื่อนไข[ 9 ] [ 8 ]

ตัวแยกเชิงเส้นในมิติสูง

ความผิดปกติทางเรขาคณิตในมิติที่สูงกว่านำไปสู่ คำสาปแห่งมิติอันเป็นที่รู้จักกันดีอย่างไรก็ตาม การใช้ ปรากฏการณ์ ความเข้มข้นของการวัด อย่างเหมาะสม สามารถทำให้การคำนวณง่ายขึ้น[ 37 ]กรณีสำคัญของ ปรากฏการณ์พรแห่งมิติ เหล่านี้ ได้รับการเน้นโดย Donoho และ Tanner: หากตัวอย่างมีมิติสูงโดยพื้นฐานแล้วแต่ละจุดสามารถแยกออกจากส่วนที่เหลือของตัวอย่างได้ด้วยอสมการเชิงเส้น ด้วยความน่าจะเป็นสูง แม้แต่สำหรับตัวอย่างที่มีขนาดใหญ่แบบเลขชี้กำลัง[ 38 ]อสมการเชิงเส้นเหล่านี้สามารถเลือกได้ในรูปแบบมาตรฐาน (ของ Fisher) ของตัวแยกแยะเชิงเส้นสำหรับตระกูลการกระจายความน่าจะเป็นที่หลากหลาย[ 39 ]โดยเฉพาะอย่างยิ่ง ทฤษฎีบทดังกล่าวได้รับการพิสูจน์แล้วสำหรับ การกระจาย แบบ log-concaveรวมถึงการกระจายแบบปกติหลายมิติ (การพิสูจน์ขึ้นอยู่กับอสมการความเข้มข้นสำหรับการวัดแบบ log-concave [ 40 ] ) และสำหรับการวัดผลคูณบนลูกบาศก์หลายมิติ (สิ่งนี้ได้รับการพิสูจน์โดยใช้อสมการความเข้มข้นของ Talagrandสำหรับพื้นที่ความน่าจะเป็นผลคูณ) การแยกข้อมูลโดยใช้ตัวแยกเชิงเส้นแบบคลาสสิกช่วยลดความซับซ้อนของปัญหาการแก้ไขข้อผิดพลาดสำหรับ ระบบ ปัญญาประดิษฐ์ในมิติสูง[ 41 ]

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Duda, RO; Hart, PE; Stork, DH (2000). การจำแนกรูปแบบ (ฉบับที่ 2). Wiley Interscience. ISBN 978-0-471-05669-0. MR  1802993 .
  • Hilbe, JM (2009). แบบจำลองการถดถอยโลจิสติก . Chapman & Hall/CRC Press. ISBN 978-1-4200-7575-5.
  • Mika, S. และคณะ (1999). "การวิเคราะห์จำแนกแบบฟิชเชอร์ด้วยเคอร์เนล" เครือข่ายประสาทเทียมสำหรับการประมวลผลสัญญาณ IX: รายงานการประชุมเชิงปฏิบัติการของสมาคมประมวลผลสัญญาณ IEEE ปี 1999 (หมายเลขแคตตาล็อก 98TH8468)หน้า  41–48 . CiteSeerX  10.1.1.35.9904 . doi : 10.1109/NNSP.1999.788121 . ISBN 978-0-7803-5673-3S2CID 8473401 ​
  • McFarland, H. Richard; Donald, St. P. Richards (2001). "ความน่าจะเป็นของการจำแนกประเภทผิดพลาดที่แม่นยำสำหรับฟังก์ชันการจำแนกแบบกำลังสองปกติแบบเสียบปลั๊ก I. กรณีค่าเฉลี่ยเท่ากัน"วารสารการวิเคราะห์หลายตัวแปร 77 ( 1): 21– 53. doi : 10.1006/jmva.2000.1924 .
  • McFarland, H. Richard; Donald, St. P. Richards (2002). "ความน่าจะเป็นของการจำแนกประเภทผิดพลาดที่แม่นยำสำหรับฟังก์ชันการจำแนกแบบกำลังสองปกติแบบเสียบปลั๊ก II. กรณีไม่เป็นเนื้อเดียวกัน"วารสารการวิเคราะห์หลายตัวแปร 82 ( 2): 299– 330. doi : 10.1006/jmva.2001.2034 .
  • Haghighat, M.; Abdel-Mottaleb, M.; Alhalabi, W. (2016). "การวิเคราะห์ความสัมพันธ์แบบจำแนก: การหลอมรวมระดับคุณลักษณะแบบเรียลไทม์สำหรับการจดจำไบโอเมตริกแบบหลายโมดอล" . IEEE Transactions on Information Forensics and Security . 11 (9): 1984– 1996. doi : 10.1109/TIFS.2016.2569061 . S2CID  15624506 .
  • การวิเคราะห์ความสัมพันธ์เชิงจำแนก (Discriminant Correlation Analysis: DCA) ของบทความ Haghighat (ดูด้านบน)
  • ALGLIBประกอบด้วยการใช้งาน LDA แบบโอเพนซอร์สในภาษา C# / C++ / Pascal / VBA
  • LDA ใน Python - การใช้งาน LDA ในภาษา Python
  • บทช่วยสอนการใช้งาน LDA ด้วย MS Excel
  • สถิติชีวการแพทย์ การวิเคราะห์จำแนกกลุ่ม
  • StatQuest: การวิเคราะห์จำแนกเชิงเส้น (LDA) อธิบายอย่างชัดเจนบน YouTube
  • เอกสารประกอบการเรียน การวิเคราะห์ฟังก์ชันจำแนก โดย จี. เดวิด การ์สัน มหาวิทยาลัยนอร์ทแคโรไลนาสเตท
  • บทเรียนการวิเคราะห์จำแนกกลุ่มใน Microsoft Excel โดย Kardi Teknomo
  • บันทึกการเรียนวิชาการวิเคราะห์ฟังก์ชันจำแนก โดย เดวิด ดับเบิลยู. สต็อกเบอร์เกอร์ มหาวิทยาลัยรัฐมิสซูรีเก็บถาวรเมื่อวันที่ 3 มีนาคม 2016 ที่Wayback Machine
  • การวิเคราะห์ฟังก์ชันจำแนก (DA) โดย John Poulsen และ Aaron French จากมหาวิทยาลัยแห่งรัฐซานฟรานซิสโกเก็บรักษาไว้เมื่อวันที่ 15 ธันวาคม 2011 ที่Wayback Machine
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Linear_discriminant_analysis&oldid=1345773956 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การวิเคราะห์จำแนกเชิงเส้น

การวิเคราะห์จำแนกเชิงเส้น ( LDA ), การวิเคราะห์จำแนกปกติ ( NDA ), การวิเคราะห์ตัวแปรแคนอนิก ( CVA ) หรือ การวิเคราะห์ฟังก์ชันจำแนก เป็นการขยายผลของ การจำแนกเชิงเส้นของฟิชเชอร์...

ประวัติศาสตร์

การวิเคราะห์จำแนก แบบ ทวิภาค ดั้งเดิมได้รับการพัฒนาโดยเซอร์ โรนัลด์ ฟิชเชอร์ ในปี 1936 [ 9 ] ซึ่งแตกต่างจาก ANOVA หรือ MANOVA ซึ่งใช้ในการทำนายตัวแปรตามต่อเนื่องหนึ่งตัว (ANOVA) หรือหลายตัว (MANOVA) โดยใช้ตัวแปรอิสระเชิงหมวดหมู่หนึ่งตัวหรือมากกว่า...

LDA สำหรับสองคลาส

พิจารณาชุดของการสังเกต(เรียกอีกอย่างว่าคุณลักษณะ คุณสมบัติ ตัวแปร หรือการวัด) สำหรับแต่ละตัวอย่างของวัตถุหรือเหตุการณ์ที่มีคลาสที่ทราบชุดตัวอย่างนี้เรียกว่า ชุดฝึกอบรม ใน บริบท การเรียนรู้แบบมีผู้กำกับดูแล...

ข้อสมมติฐาน

ข้อสมมติฐานของการวิเคราะห์จำแนกประเภทเหมือนกับของ MANOVA การวิเคราะห์ค่อนข้างไวต่อค่าผิดปกติ และขนาดของกลุ่มที่เล็กที่สุดต้องมากกว่าจำนวนตัวแปรทำนาย [ 8 ]