อ่าน 20 นาที
การเลือกคุณสมบัติ
ในแมชชีนเลิร์นนิง การเลือกคุณลักษณะ คือกระบวนการเลือกกลุ่มย่อยของ คุณลักษณะ (ตัวแปร ตัวทำนาย) ที่เกี่ยวข้องเพื่อใช้ในการสร้างแบบจำลอง...
การเลือกคุณสมบัติ
ในแมชชีนเลิร์นนิงการเลือกคุณลักษณะคือกระบวนการเลือกกลุ่มย่อยของคุณลักษณะ (ตัวแปร ตัวทำนาย) ที่เกี่ยวข้องเพื่อใช้ในการสร้างแบบจำลอง เทคนิคการเลือกคุณลักษณะถูกนำมาใช้ด้วยเหตุผลหลายประการ:
- การลดความซับซ้อนของแบบจำลองเพื่อให้ตีความได้ง่ายขึ้น[ 1 ]
- ระยะเวลาการฝึกอบรมที่สั้นลง[ 2 ]
- เพื่อหลีกเลี่ยงคำสาปแห่งมิติ [ 3 ]
- ปรับปรุงความเข้ากันได้ของข้อมูลกับคลาสโมเดลการเรียนรู้บางคลาส[ 4 ]
- เพื่อเข้ารหัสสมมาตร ที่ มีอยู่ในพื้นที่อินพุต[ 5 ] [ 6 ] [ 7 ] [ 8 ]
หลักการสำคัญในการใช้การเลือกคุณลักษณะคือ ข้อมูลบางครั้งมีคุณลักษณะที่ซ้ำซ้อนหรือไม่เกี่ยวข้องและสามารถลบออกได้โดยไม่สูญเสียข้อมูลมากนัก[ 9 ]ความซ้ำซ้อนและความไม่เกี่ยวข้องเป็นแนวคิดที่แตกต่างกัน เนื่องจากคุณลักษณะที่เกี่ยวข้องหนึ่งอย่างอาจซ้ำซ้อนได้เมื่อมีคุณลักษณะที่เกี่ยวข้องอีกอย่างหนึ่งซึ่งมีความสัมพันธ์กันอย่างมาก[ 10 ]
การสกัดคุณลักษณะสร้างคุณลักษณะใหม่จากฟังก์ชันของคุณลักษณะเดิม ในขณะที่การเลือกคุณลักษณะค้นหาส่วนย่อยของคุณลักษณะที่มีอยู่ เทคนิคการเลือกคุณลักษณะมักใช้ในโดเมนที่มีคุณลักษณะจำนวนมากและมีตัวอย่าง (จุดข้อมูล) ค่อนข้างน้อย
การแนะนำ
อัลกอริทึมการเลือกคุณลักษณะสามารถมองได้ว่าเป็นการผสมผสานระหว่างเทคนิคการค้นหาเพื่อเสนอชุดย่อยคุณลักษณะใหม่ พร้อมกับการวัดผลการประเมินที่ให้คะแนนชุดย่อยคุณลักษณะต่างๆ อัลกอริทึมที่ง่ายที่สุดคือการทดสอบชุดย่อยคุณลักษณะที่เป็นไปได้แต่ละชุด เพื่อหาชุดย่อยที่ลดอัตราข้อผิดพลาดให้น้อยที่สุด นี่คือการค้นหาแบบละเอียดถี่ถ้วนในพื้นที่ และไม่สามารถคำนวณได้ ยกเว้นชุดคุณลักษณะที่เล็กที่สุด การเลือกตัวชี้วัดการประเมินมีอิทธิพลอย่างมากต่ออัลกอริทึม และตัวชี้วัดการประเมินเหล่านี้เองที่แยกแยะระหว่างอัลกอริทึมการเลือกคุณลักษณะหลัก 3 ประเภท ได้แก่ wrappers, filters และ embedded methods [ 10 ]
- วิธีการแบบ Wrapper ใช้แบบจำลองการทำนายเพื่อให้คะแนนแก่ชุดย่อยของคุณลักษณะ โดยแต่ละชุดย่อยใหม่จะถูกนำไปใช้ในการฝึกแบบจำลอง ซึ่งจะถูกทดสอบกับชุดข้อมูลทดสอบ การนับจำนวนข้อผิดพลาดที่เกิดขึ้นในชุดข้อมูลทดสอบนั้น (อัตราข้อผิดพลาดของแบบจำลอง) จะให้คะแนนสำหรับชุดย่อยนั้น เนื่องจากวิธีการแบบ Wrapper ฝึกแบบจำลองใหม่สำหรับแต่ละชุดย่อย จึงใช้ทรัพยากรการคำนวณสูงมาก แต่โดยทั่วไปแล้วจะให้ชุดคุณลักษณะที่มีประสิทธิภาพดีที่สุดสำหรับแบบจำลองประเภทนั้น ๆ หรือปัญหาทั่วไปนั้น ๆ
- วิธีการกรองใช้การวัดแบบพร็อกซีแทนอัตราข้อผิดพลาดในการให้คะแนนชุดย่อยของคุณลักษณะ การวัดนี้ถูกเลือกให้คำนวณได้รวดเร็ว ในขณะที่ยังคงจับประโยชน์ของชุดคุณลักษณะได้ การวัดทั่วไป ได้แก่ข้อมูลร่วมกัน [ 10 ] ข้อมูลร่วมกันแบบจุดต่อจุด [ 11 ]สัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันอัลกอริทึมแบบ Relief [ 12 ]และระยะห่างระหว่าง/ภายในคลาส หรือคะแนนของ การ ทดสอบความสำคัญสำหรับแต่ละคลาส/ชุดคุณลักษณะ[ 11 ] [ 13 ]โดยทั่วไปแล้ว ตัวกรองจะใช้การคำนวณน้อยกว่าตัวห่อ แต่จะสร้างชุดคุณลักษณะที่ไม่ได้รับการปรับแต่งให้เข้ากับแบบจำลองการทำนายประเภทใดประเภทหนึ่งโดยเฉพาะ[ 14 ]การขาดการปรับแต่งนี้หมายความว่าชุดคุณลักษณะจากตัวกรองมีความทั่วไปมากกว่าชุดจากตัวห่อ ซึ่งโดยทั่วไปแล้วจะให้ประสิทธิภาพการทำนายที่ต่ำกว่าตัวห่อ อย่างไรก็ตาม ชุดคุณลักษณะไม่มีข้อสมมติฐานของแบบจำลองการทำนาย ดังนั้นจึงมีประโยชน์มากกว่าในการเปิดเผยความสัมพันธ์ระหว่างคุณลักษณะ ตัวกรองจำนวนมากให้การจัดอันดับคุณลักษณะแทนที่จะเป็นชุดย่อยคุณลักษณะที่ดีที่สุดอย่างชัดเจน และจุดตัดในการจัดอันดับจะถูกเลือกผ่านการตรวจสอบแบบไขว้วิธีการกรองยังถูกใช้เป็นขั้นตอนการประมวลผลล่วงหน้าสำหรับวิธีการห่อหุ้ม ทำให้สามารถใช้วิธีการห่อหุ้มกับปัญหาที่ใหญ่ขึ้นได้ แนวทางยอดนิยมอีกวิธีหนึ่งคืออัลกอริทึมการกำจัดคุณลักษณะแบบวนซ้ำ[ 15 ]ซึ่งมักใช้กับเครื่องเวกเตอร์สนับสนุนเพื่อสร้างแบบจำลองซ้ำ ๆ และลบคุณลักษณะที่มีน้ำหนักต่ำ
- วิธีการฝังตัวเป็นกลุ่มเทคนิคที่ครอบคลุมซึ่งทำการเลือกคุณลักษณะเป็นส่วนหนึ่งของกระบวนการสร้างแบบจำลอง ตัวอย่างของแนวทางนี้คือ วิธีการ LASSOสำหรับการสร้างแบบจำลองเชิงเส้น ซึ่งลงโทษสัมประสิทธิ์การถดถอยด้วยการลงโทษ L1 ทำให้สัมประสิทธิ์จำนวนมากมีค่าเป็นศูนย์ คุณลักษณะใด ๆ ที่มีสัมประสิทธิ์การถดถอยที่ไม่เป็นศูนย์จะถูก 'เลือก' โดยอัลกอริทึม LASSO การปรับปรุง LASSO ได้แก่ Bolasso ซึ่งใช้การบูตสแตรปตัวอย่าง[ 16 ]การทำให้เป็นระเบียบแบบ Elastic netซึ่งรวมการลงโทษ L1 ของ LASSO กับการลงโทษ L2 ของการถดถอยแบบ ridgeและ FeaLect ซึ่งให้คะแนนคุณลักษณะทั้งหมดโดยอิงจากการวิเคราะห์เชิงผสมของสัมประสิทธิ์การถดถอย[ 17 ] AEFS ขยาย LASSO ไปสู่สถานการณ์ที่ไม่เป็นเชิงเส้นด้วย autoencoders [ 18 ]แนวทางเหล่านี้มีแนวโน้มที่จะอยู่ระหว่าง filters และ wrappers ในแง่ของความซับซ้อนในการคำนวณ
ในการวิเคราะห์การถดถอยแบบ ดั้งเดิม รูปแบบการเลือกคุณลักษณะที่ได้รับความนิยมมากที่สุดคือการถดถอยแบบทีละขั้นตอนซึ่งเป็นเทคนิคแบบห่อหุ้ม เป็นอัลกอริทึมแบบโลภที่เพิ่มคุณลักษณะที่ดีที่สุด (หรือลบคุณลักษณะที่แย่ที่สุด) ในแต่ละรอบ ปัญหาการควบคุมหลักคือการตัดสินใจว่าจะหยุดอัลกอริทึมเมื่อใด ในการเรียนรู้ของเครื่องจักร โดยทั่วไปจะทำโดยการตรวจสอบแบบไขว้ในทางสถิติ มีเกณฑ์บางอย่างที่ได้รับการปรับให้เหมาะสม ซึ่งนำไปสู่ปัญหาการซ้อนกันโดยธรรมชาติ จึงมีการสำรวจวิธีการที่แข็งแกร่งกว่า เช่นการแบ่งและขอบเขตและเครือข่ายเชิงเส้นแบบแบ่งส่วน
การเลือกชุดย่อย
การเลือกเซตย่อยเป็นการประเมินกลุ่มคุณลักษณะย่อยว่าเหมาะสมหรือไม่ อัลกอริทึมการเลือกเซตย่อยสามารถแบ่งออกเป็นแบบ Wrapper, Filter และ Embedded แบบ Wrapper ใช้ขั้นตอนวิธีค้นหาเพื่อค้นหาในพื้นที่ของคุณลักษณะที่เป็นไปได้และประเมินแต่ละเซตย่อยโดยการรันโมเดลกับเซตย่อยนั้น แบบ Wrapper อาจมีค่าใช้จ่ายในการคำนวณสูงและมีความเสี่ยงที่จะเกิดการโอเวอร์ฟิตกับโมเดล แบบ Filter คล้ายกับแบบ Wrapper ในแง่ของวิธีการค้นหา แต่แทนที่จะประเมินกับโมเดล จะประเมิน Filter ที่ง่ายกว่า ส่วนเทคนิค Embedded นั้นฝังอยู่ในโมเดลและมีความเฉพาะเจาะจงกับโมเดลนั้นๆ
วิธีการค้นหาที่เป็นที่นิยมหลายวิธีใช้การปีนเขาแบบโลภ (greedy hill climbing ) ซึ่งจะประเมินชุดย่อยของคุณลักษณะที่เป็นไปได้ซ้ำๆ จากนั้นปรับเปลี่ยนชุดย่อยนั้นและประเมินว่าชุดย่อยใหม่ดีกว่าชุดเดิมหรือไม่ การประเมินชุดย่อยต้องใช้ตัวชี้ วัดคะแนน ที่ให้เกรดแก่ชุดย่อยของคุณลักษณะ การค้นหาแบบครบถ้วนโดยทั่วไปทำได้ยาก ดังนั้น ณ จุดหยุดที่ผู้พัฒนา (หรือผู้ดำเนินการ) กำหนด ชุดย่อยของคุณลักษณะที่มีคะแนนสูงสุดที่พบจนถึงจุดนั้นจะถูกเลือกเป็นชุดย่อยของคุณลักษณะที่น่าพอใจ เกณฑ์การหยุดจะแตกต่างกันไปตามอัลกอริทึม เกณฑ์ที่เป็นไปได้ ได้แก่ คะแนนของชุดย่อยเกินเกณฑ์ที่กำหนด เวลาทำงานสูงสุดที่อนุญาตของโปรแกรมถูกเกินไป เป็นต้น
เทคนิคการค้นหาทางเลือกอื่นๆ นั้นอิงตามการค้นหาการฉายภาพเป้าหมายซึ่งจะค้นหาการฉายภาพข้อมูลในมิติที่ต่ำกว่าซึ่งได้คะแนนสูง: จากนั้นจึงเลือกคุณลักษณะที่มีการฉายภาพขนาดใหญ่ที่สุดในพื้นที่มิติที่ต่ำกว่า
วิธีการค้นหาประกอบด้วย:
- ครบถ้วน[ 19 ]
- ดีที่สุดก่อน
- การอบอ่อนจำลอง
- อัลกอริทึมทางพันธุกรรม[ 20 ]
- การเลือกไปข้างหน้าแบบโลภ[ 21 ] [ 22 ] [ 23 ]
- การกำจัดย้อนหลังแบบโลภ
- การเพิ่มประสิทธิภาพฝูงอนุภาค[ 24 ]
- การติดตามการฉายภาพเป้าหมาย
- การค้นหาแบบกระจาย[ 25 ] [ 26 ] [ 27 ]
- การค้นหาเพื่อนบ้านที่แปรผัน[ 28 ] [ 29 ]
ตัวชี้วัดตัวกรองยอดนิยมสองตัวสำหรับปัญหาการจำแนกประเภทคือความสัมพันธ์และข้อมูลร่วมกันแม้ว่าทั้งสองจะไม่ใช่ตัวชี้วัด ที่แท้จริง หรือ 'การวัดระยะทาง' ในความหมายทางคณิตศาสตร์ เนื่องจากไม่เป็นไปตามอสมการสามเหลี่ยมและดังนั้นจึงไม่ได้คำนวณ 'ระยะทาง' ที่แท้จริงใดๆ – ควรพิจารณาว่าเป็น 'คะแนน' มากกว่า คะแนนเหล่านี้คำนวณระหว่างคุณลักษณะผู้สมัคร (หรือชุดของคุณลักษณะ) และหมวดหมู่เอาต์พุตที่ต้องการ อย่างไรก็ตาม มีตัวชี้วัดที่แท้จริงซึ่งเป็นฟังก์ชันง่ายๆ ของข้อมูลร่วมกัน[ 30 ]ดูที่นี่
ตัวชี้วัดตัวกรองอื่นๆ ที่มีให้เลือกใช้ ได้แก่:
- ความสามารถในการแยกคลาส
- ความน่าจะเป็นของข้อผิดพลาด
- ระยะห่างระหว่างชั้นเรียน
- ระยะทางเชิงความน่าจะเป็น
- เอนโทรปี
- การเลือกคุณลักษณะตามความสอดคล้อง
- การเลือกคุณลักษณะโดยอาศัยความสัมพันธ์
เกณฑ์ความเหมาะสมที่สุด
การเลือกเกณฑ์ความเหมาะสมเป็นเรื่องยาก เนื่องจากมีวัตถุประสงค์หลายประการในงานเลือกคุณลักษณะเกณฑ์ทั่วไปหลายเกณฑ์รวมการวัดความแม่นยำ ซึ่งจะถูกลงโทษด้วยจำนวนคุณลักษณะที่เลือก ตัวอย่างเช่นเกณฑ์ข้อมูล Akaike (AIC) และC pของ Mallowsซึ่งมีค่าปรับ 2 สำหรับแต่ละคุณลักษณะที่เพิ่มเข้ามา AIC อิงตามทฤษฎีสารสนเทศและได้มาอย่างมีประสิทธิภาพผ่าน หลักการ เอนโทรปีสูงสุด[ 31 ] [ 32 ]
เกณฑ์อื่นๆ ได้แก่เกณฑ์ข้อมูลแบบเบย์เซียน (BIC) ซึ่งใช้ค่าปรับสำหรับแต่ละคุณลักษณะที่เพิ่มเข้ามาความยาวคำอธิบายขั้นต่ำ (MDL) ซึ่งใช้ค่าประมาณBonferroni / RIC ซึ่งใช้ค่า การเลือกคุณลักษณะที่มีการพึ่งพาสูงสุด และเกณฑ์ใหม่ๆ ที่หลากหลายซึ่งได้รับแรงบันดาลใจจากอัตราการค้นพบที่ผิดพลาด (FDR) ซึ่งใช้ค่าใกล้เคียงกับ เกณฑ์ อัตราเอนโทรปีสูงสุดอาจถูกนำมาใช้เพื่อเลือกชุดย่อยของคุณลักษณะที่เกี่ยวข้องมากที่สุด[ 33 ]
การเรียนรู้โครงสร้าง
การเลือกคุณลักษณะของตัวกรองเป็นกรณีเฉพาะของกระบวนทัศน์ทั่วไปที่เรียกว่าการเรียนรู้โครงสร้างการเลือกคุณลักษณะจะค้นหาชุดคุณลักษณะที่เกี่ยวข้องสำหรับตัวแปรเป้าหมายเฉพาะ ในขณะที่การเรียนรู้โครงสร้างจะค้นหาความสัมพันธ์ระหว่างตัวแปรทั้งหมด โดยปกติแล้วจะแสดงความสัมพันธ์เหล่านี้ในรูปกราฟ อัลกอริทึมการเรียนรู้โครงสร้างที่พบได้บ่อยที่สุดจะถือว่าข้อมูลถูกสร้างขึ้นโดยเครือข่ายเบย์เซียนดังนั้นโครงสร้างจึงเป็นแบบจำลองกราฟิกแบบมีทิศทาง วิธีแก้ปัญหาที่ดีที่สุดสำหรับการเลือกคุณลักษณะของตัวกรองคือMarkov Blanketของโหนดเป้าหมาย และในเครือข่ายเบย์เซียนจะมี Markov Blanket ที่ไม่ซ้ำกันสำหรับแต่ละโหนด[ 34 ]
กลไกการเลือกคุณลักษณะตามทฤษฎีสารสนเทศ
มีกลไกการเลือกคุณลักษณะที่แตกต่างกันหลายแบบซึ่งใช้ข้อมูลร่วมกันในการให้คะแนนคุณลักษณะต่างๆ โดยทั่วไปแล้วกลไกเหล่านี้มักใช้ขั้นตอนวิธีเดียวกัน:
- คำนวณข้อมูลร่วมกันเป็นคะแนนระหว่างคุณลักษณะทั้งหมด ( ) และคลาสเป้าหมาย ( c )
- เลือกคุณลักษณะที่มีคะแนนสูงสุด (เช่น) และเพิ่มลงในชุดคุณลักษณะที่เลือก ( S )
- คำนวณคะแนนที่อาจได้มาจากข้อมูลร่วมกัน
- เลือกคุณลักษณะที่มีคะแนนสูงสุดและเพิ่มเข้าไปในชุดคุณลักษณะที่เลือก (เช่น)
- ทำซ้ำขั้นตอนที่ 3 และ 4 จนกว่าจะเลือกคุณลักษณะได้จำนวนหนึ่ง (เช่น)
แนวทางที่ง่ายที่สุดใช้ข้อมูลร่วมกันเป็นคะแนนที่ "ได้มา" [ 35 ]
อย่างไรก็ตาม มีแนวทางที่แตกต่างกันออกไป ซึ่งพยายามลดความซ้ำซ้อนระหว่างฟีเจอร์ต่างๆ
การเลือกคุณลักษณะแบบความซ้ำซ้อนน้อยที่สุด-ความเกี่ยวข้องสูงสุด (mRMR)
Peng et al. [ 36 ]เสนอวิธีการเลือกคุณลักษณะที่สามารถใช้ข้อมูลร่วมกัน ความสัมพันธ์ หรือคะแนนระยะทาง/ความคล้ายคลึงกันเพื่อเลือกคุณลักษณะ จุดมุ่งหมายคือการลงโทษความเกี่ยวข้องของคุณลักษณะโดยความซ้ำซ้อนเมื่อมีคุณลักษณะที่เลือกอื่นๆ ความเกี่ยวข้องของชุดคุณลักษณะSสำหรับคลาสc ถูกกำหนดโดยค่าเฉลี่ยของค่าข้อมูลร่วมกันทั้งหมดระหว่างคุณลักษณะ f iแต่ละรายการและคลาสcดังนี้:
- .
ความซ้ำซ้อนของฟีเจอร์ทั้งหมดในชุดSคือค่าเฉลี่ยของค่าข้อมูลร่วมกันทั้งหมดระหว่างฟีเจอร์f iและฟีเจอร์f j :
เกณฑ์ mRMR เป็นการรวมกันของสองมาตรวัดที่กล่าวมาข้างต้น และกำหนดไว้ดังนี้:
สมมติว่ามีฟีเจอร์ครบชุดn ฟีเจอร์ ให้ x i เป็น ฟังก์ชันบ่งชี้การเป็นสมาชิกของเซตสำหรับฟีเจอร์f iโดยที่x i =1 บ่งชี้ ว่าฟีเจอร์f i อยู่ ในเซตฟีเจอร์ที่เหมาะสมที่สุดทั่วโลกและx i =0 บ่งชี้ว่าไม่มีอยู่ ให้ และ. จากนั้นสามารถเขียนข้างต้นเป็นปัญหาการหาค่าเหมาะสมที่สุดได้ดังนี้:
อัลกอริทึม mRMR เป็นการประมาณค่าของอัลกอริทึมการเลือกคุณลักษณะที่มีการพึ่งพาสูงสุดที่เหมาะสมที่สุดในเชิงทฤษฎี ซึ่งจะเพิ่มข้อมูลร่วมกันระหว่างการกระจายร่วมของคุณลักษณะที่เลือกและตัวแปรการจำแนกประเภทให้สูงสุด เนื่องจาก mRMR ประมาณปัญหาการประมาณค่าเชิงคอมบินาทอริกด้วยชุดของปัญหาที่เล็กกว่ามาก ซึ่งแต่ละปัญหาเกี่ยวข้องกับตัวแปรเพียงสองตัวเท่านั้น จึงใช้ความน่าจะเป็นร่วมแบบคู่ซึ่งมีความแข็งแกร่งกว่า ในบางสถานการณ์ อัลกอริทึมอาจประเมินประโยชน์ของคุณลักษณะต่ำเกินไป เนื่องจากไม่มีวิธีวัดปฏิสัมพันธ์ระหว่างคุณลักษณะที่สามารถเพิ่มความเกี่ยวข้องได้ ซึ่งอาจนำไปสู่ประสิทธิภาพที่ไม่ดี[ 35 ]เมื่อคุณลักษณะแต่ละอย่างไม่มีประโยชน์ แต่มีประโยชน์เมื่อรวมกัน (พบกรณีที่ผิดปกติเมื่อคลาสเป็นฟังก์ชันความเท่าเทียมกันของคุณลักษณะ) โดยรวมแล้ว อัลกอริทึมมีประสิทธิภาพมากกว่า (ในแง่ของปริมาณข้อมูลที่ต้องการ) กว่าการเลือกการพึ่งพาสูงสุดที่เหมาะสมที่สุดในเชิงทฤษฎี แต่สร้างชุดคุณลักษณะที่มีความซ้ำซ้อนแบบคู่น้อย
mRMR เป็นตัวอย่างหนึ่งของวิธีการกรองกลุ่มใหญ่ที่แลกเปลี่ยนระหว่างความเกี่ยวข้องและความซ้ำซ้อนในรูปแบบต่างๆ[ 35 ] [ 37 ]
การเลือกคุณลักษณะการเขียนโปรแกรมเชิงควาดราติก
mRMR เป็นตัวอย่างทั่วไปของกลยุทธ์โลภแบบเพิ่มทีละน้อยสำหรับการเลือกคุณลักษณะ: เมื่อเลือกคุณลักษณะแล้ว จะไม่สามารถยกเลิกการเลือกในภายหลังได้ ในขณะที่ mRMR สามารถปรับให้เหมาะสมที่สุดโดยใช้การค้นหาแบบลอยตัวเพื่อลดคุณลักษณะบางอย่างได้ นอกจากนี้ยังสามารถกำหนดใหม่เป็น ปัญหาการเพิ่มประสิทธิภาพ การเขียนโปรแกรมกำลังสอง ทั่วโลก ได้ดังนี้: [ 38 ]
โดยที่เวกเตอร์ของความเกี่ยวข้องของฟีเจอร์สมมติว่ามีฟีเจอร์ทั้งหมดn ฟีเจอร์ คือเมทริกซ์ของความซ้ำซ้อนแบบคู่ของฟีเจอร์ และแสดงถึงน้ำหนักฟีเจอร์สัมพัทธ์ QPFS ได้รับการแก้ไขผ่านการเขียนโปรแกรมกำลังสอง เพิ่งมีการแสดงให้เห็นว่า QFPS มีอคติไปทางฟีเจอร์ที่มีเอนโทรปีน้อยกว่า[ 39 ]เนื่องจากการวางเทอมความซ้ำซ้อนของฟีเจอร์ไว้บนแนวทแยงของ H
ข้อมูลร่วมกันแบบมีเงื่อนไข
คะแนนอีกคะแนนหนึ่งที่ได้มาสำหรับข้อมูลร่วมกันนั้นขึ้นอยู่กับความเกี่ยวข้องตามเงื่อนไข: [ 39 ]
ที่ไหนและ.
ข้อดีอย่างหนึ่งของSPEC CMIคือสามารถแก้ไขได้ง่ายๆ โดยการหาเวกเตอร์ลักษณะเฉพาะที่เด่นที่สุดของQดังนั้นจึงปรับขนาดได้ง่ายมาก นอกจากนี้ SPEC CMIยังจัดการกับปฏิสัมพันธ์ของคุณลักษณะลำดับที่สองได้อีกด้วย
ข้อมูลร่วมกัน
ในการศึกษาคะแนนที่แตกต่างกัน Brown et al. [ 35 ] แนะนำข้อมูลร่วมกัน[ 40 ]ว่าเป็นคะแนนที่ดีสำหรับการเลือกคุณลักษณะ คะแนนนี้พยายามค้นหาคุณลักษณะที่เพิ่มข้อมูลใหม่มากที่สุดให้กับคุณลักษณะที่เลือกไว้แล้ว เพื่อหลีกเลี่ยงความซ้ำซ้อน สูตรของคะแนนมีดังนี้:
คะแนนนี้ใช้ข้อมูลร่วมแบบมีเงื่อนไขและข้อมูลร่วมเพื่อประเมินความซ้ำซ้อนระหว่างคุณลักษณะที่เลือกไว้แล้ว ( ) และคุณลักษณะที่กำลังตรวจสอบ ( )
เกณฑ์ความเป็นอิสระของฮิลเบิร์ต-ชมิดต์ การเลือกคุณลักษณะโดยใช้ Lasso
สำหรับข้อมูลที่มีมิติสูงและขนาดตัวอย่างเล็ก (เช่น มิติ > 10)5และจำนวนตัวอย่าง < 103 ) เกณฑ์ความเป็นอิสระของฮิลเบิร์ต-ชมิดท์ ลาโซ (HSIC Lasso) มีประโยชน์ [ 41 ]ปัญหาการเพิ่มประสิทธิภาพ HSIC Lasso ถูกกำหนดดังนี้
โดยที่เป็นมาตรวัดความเป็นอิสระแบบเคอร์เนลที่เรียกว่าเกณฑ์ความเป็นอิสระของฮิลเบิร์ต-ชมิดต์ (HSIC) (เชิงประจักษ์) แทน ค่าร่องรอย ( trace ) คือพารามิเตอร์การปรับค่า (regularization parameter) และ คือ เมทริกซ์แกรมที่เป็นศูนย์กลางของอินพุตและเอาต์พุตและคือ เมทริกซ์แกรม และคือฟังก์ชันเคอร์เนล คือเมทริกซ์ ศูนย์กลางคือเมทริกซ์เอกลักษณ์มิติ m ( m :จำนวนตัวอย่าง) คือ เวกเตอร์มิติ mที่มีค่าเป็นหนึ่งทั้งหมด และ คือนอร์ม HSIC จะมีค่าไม่เป็นลบเสมอ และจะเป็นศูนย์ก็ต่อเมื่อตัวแปรสุ่มสองตัวมีความเป็นอิสระทางสถิติเมื่อใช้เคอร์เนลแบบสร้างซ้ำได้ทั่วไป เช่น เคอร์เนลแบบเกาส์เซียน
HSIC Lasso สามารถเขียนได้ดังนี้
นอร์มฟรอเบนิอุสอยู่ที่ไหนปัญหาการหาค่าเหมาะสมที่สุดเป็นปัญหาลาโซ ดังนั้นจึงสามารถแก้ไขได้อย่างมีประสิทธิภาพด้วยตัวแก้ปัญหาลาโซที่ทันสมัย เช่นวิธีลากรางเจียนเสริมคู่ (dual augmented Lagrangian method )
การเลือกคุณลักษณะความสัมพันธ์
การวัดการเลือกคุณลักษณะความสัมพันธ์ (CFS) จะประเมินชุดย่อยของคุณลักษณะโดยอาศัยสมมติฐานต่อไปนี้: "ชุดย่อยคุณลักษณะที่ดีประกอบด้วยคุณลักษณะที่มีความสัมพันธ์สูงกับการจำแนกประเภท แต่ไม่มีความสัมพันธ์กันเอง" [ 42 ] [ 43 ]สมการต่อไปนี้แสดงถึงคุณค่าของชุดย่อยคุณลักษณะSที่ประกอบด้วย คุณลักษณะ kรายการ:
ในที่นี้คือค่าเฉลี่ยของความสัมพันธ์ระหว่างคุณลักษณะและการจำแนกประเภททั้งหมด และคือค่าเฉลี่ยของความสัมพันธ์ระหว่างคุณลักษณะกับคุณลักษณะทั้งหมด เกณฑ์ CFS ถูกกำหนดไว้ดังนี้:
ตัวแปรและ นั้นเรียกว่าค่าสหสัมพันธ์ แต่ไม่จำเป็นต้องเป็นสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันหรือค่า ρ ของสเปียร์แมนวิทยานิพนธ์ของฮอลล์ไม่ได้ใช้ค่าเหล่านี้ แต่ใช้มาตรวัดความสัมพันธ์ที่แตกต่างกันสามแบบ ได้แก่ความยาวคำอธิบายขั้นต่ำ (MDL) ความไม่แน่นอนแบบสมมาตรและความโล่งใจ
ให้x iเป็นฟังก์ชันบ่งชี้ การเป็นสมาชิกของเซต สำหรับคุณลักษณะf iจากนั้นสามารถเขียนปัญหาข้างต้นใหม่เป็นปัญหาการหาค่าเหมาะสมที่สุดได้:
ปัญหาเชิงการจัดเรียงข้างต้นนั้น แท้จริงแล้วเป็นปัญหาการเขียนโปรแกรมเชิงเส้นแบบผสม 0–1 ที่สามารถแก้ไขได้โดยใช้อัลกอริทึมการแบ่งแยกและขอบเขต[ 44 ]
ต้นไม้ที่เป็นระเบียบ
คุณลักษณะจากต้นไม้ตัดสินใจ หรือ กลุ่มต้นไม้แสดงให้เห็นว่าซ้ำซ้อน วิธีการล่าสุดที่เรียกว่าต้นไม้แบบมีการควบคุม[ 45 ]สามารถใช้สำหรับการเลือกชุดย่อยของคุณลักษณะ ต้นไม้แบบมีการควบคุมจะลงโทษโดยใช้ตัวแปรที่คล้ายกับตัวแปรที่เลือกไว้ที่โหนดต้นไม้ก่อนหน้าสำหรับการแบ่งโหนดปัจจุบัน ต้นไม้แบบมีการควบคุมจำเป็นต้องสร้างแบบจำลองต้นไม้เพียงแบบเดียว (หรือแบบจำลองกลุ่มต้นไม้เพียงแบบเดียว) ดังนั้นจึงมีประสิทธิภาพในการคำนวณ
ต้นไม้แบบ Regularized สามารถจัดการกับคุณลักษณะเชิงตัวเลขและเชิงหมวดหมู่ ปฏิสัมพันธ์ และความไม่เป็นเชิงเส้นได้อย่างเป็นธรรมชาติ ต้นไม้เหล่านี้ไม่เปลี่ยนแปลงตามมาตราส่วนของคุณลักษณะ (หน่วย) และไม่ไวต่อค่าผิด ปกติ ดังนั้นจึงต้องการการประมวลผลข้อมูล ล่วงหน้าเพียงเล็กน้อย เช่นการทำให้เป็นมาตรฐานป่าสุ่มแบบ Regularized (RRF) [ 46 ]เป็นต้นไม้แบบ Regularized ประเภทหนึ่ง RRF แบบมีคำแนะนำคือ RRF ที่ได้รับการปรับปรุงซึ่งมีคำแนะนำจากคะแนนความสำคัญจากป่าสุ่มทั่วไป
ภาพรวมของวิธีการเมตาฮิวริสติกส์
เมตาฮิวริสติกส์คือคำอธิบายทั่วไปของอัลกอริทึมที่ออกแบบมาเพื่อแก้ปัญหาการหาค่าเหมาะสมที่สุดที่ยาก (โดยทั่วไปคือ ปัญหา NP-hard ) ซึ่งไม่มีวิธีการแก้ปัญหาแบบดั้งเดิม โดยทั่วไปแล้ว เมตาฮิวริสติกส์เป็นอัลกอริทึมแบบสุ่มที่มุ่งไปสู่ค่าเหมาะสมที่สุดทั่วโลก มีเมตาฮิวริสติกส์หลายประเภท ตั้งแต่การค้นหาแบบโลคอลอย่างง่ายไปจนถึงอัลกอริทึมการค้นหาแบบโกลบอลที่ซับซ้อน
หลักการสำคัญ
โดยทั่วไป วิธีการเลือกคุณลักษณะจะถูกแบ่งออกเป็นสามประเภทตามวิธีการผสานรวมอัลกอริธึมการเลือกและการสร้างแบบจำลอง
วิธีการกรอง

วิธีการแบบฟิลเตอร์จะเลือกตัวแปรโดยไม่คำนึงถึงแบบจำลอง โดยจะอิงตามคุณลักษณะทั่วไป เช่น ความสัมพันธ์กับตัวแปรที่จะทำนายเท่านั้น วิธีการแบบฟิลเตอร์จะระงับตัวแปรที่น่าสนใจน้อยที่สุด ตัวแปรอื่นๆ จะเป็นส่วนหนึ่งของแบบจำลองการจำแนกประเภทหรือการถดถอยที่ใช้ในการจำแนกหรือทำนายข้อมูล วิธีการเหล่านี้มีประสิทธิภาพเป็นพิเศษในด้านเวลาในการคำนวณและมีความทนทานต่อการเกิดโอเวอร์ฟิตติ้ง[ 47 ]
วิธีการกรองมักจะเลือกตัวแปรที่ซ้ำซ้อนเมื่อไม่ได้พิจารณาความสัมพันธ์ระหว่างตัวแปร อย่างไรก็ตาม คุณสมบัติที่ซับซ้อนกว่าจะพยายามลดปัญหานี้โดยการลบตัวแปรที่มีความสัมพันธ์กันสูง เช่น อัลกอริทึม Fast Correlation Based Filter (FCBF) [ 48 ]
วิธีการห่อหุ้ม

วิธีการ Wrapper จะประเมินชุดย่อยของตัวแปร ซึ่งช่วยให้สามารถตรวจจับปฏิสัมพันธ์ที่เป็นไปได้ระหว่างตัวแปรได้ ซึ่งแตกต่างจากวิธีการกรอง[ 49 ]ข้อเสียหลักสองประการของวิธีการเหล่านี้คือ:
- ความเสี่ยงต่อการเกิดภาวะโอเวอร์ฟิตติ้งจะเพิ่มขึ้นเมื่อจำนวนข้อมูลไม่เพียงพอ
- เวลาในการคำนวณจะสูงขึ้นอย่างมากเมื่อจำนวนตัวแปรมีมาก
วิธีการฝังตัว

เมื่อเร็วๆ นี้ได้มีการเสนอวิธีการฝังตัวที่พยายามรวมข้อดีของทั้งสองวิธีก่อนหน้านี้เข้าด้วยกัน อัลกอริทึมการเรียนรู้ใช้ประโยชน์จากกระบวนการเลือกตัวแปรของตัวเองและทำการเลือกคุณลักษณะและการจำแนกประเภทพร้อมกัน เช่น อัลกอริทึม FRMT [ 50 ]
การประยุกต์ใช้เมตาฮิวริสติกในการเลือกคุณลักษณะ
นี่คือการสำรวจการประยุกต์ใช้เมตาฮิวริสติกการเลือกคุณลักษณะที่ใช้ในวรรณกรรมเมื่อเร็ว ๆ นี้ การสำรวจนี้จัดทำโดย J. Hammon ในวิทยานิพนธ์ของเธอในปี 2013 [ 47 ]
| แอปพลิเคชัน | อัลกอริทึม | เข้าใกล้ | ตัวจำแนก | ฟังก์ชันการประเมินผล | อ้างอิง |
|---|---|---|---|---|---|
| เอสเอ็นพี | การเลือกคุณลักษณะโดยใช้ความคล้ายคลึงของคุณลักษณะ | กรอง | ร2 | ฟอง 2005 [ 49 ] | |
| เอสเอ็นพี | อัลกอริทึมทางพันธุกรรม | ห่อ | แผนผังการตัดสินใจ | ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า) | ชาห์ 2004 [ 51 ] |
| เอสเอ็นพี | การปีนเขา | ตัวกรอง + ตัวห่อ | เบย์เซียนแบบง่าย | ผลรวมกำลังสองของค่าความคลาดเคลื่อนที่คาดการณ์ไว้ | ลอง 2007 [ 52 ] |
| เอสเอ็นพี | การอบอ่อนจำลอง | เบย์เซียนแบบง่าย | ความแม่นยำในการจำแนกประเภท (5 เท่า) | อุสตุนการ์ 2011 [ 53 ] | |
| การปล่อยตัวชั่วคราวบางส่วน | อาณานิคมมด | ห่อ | โครงข่ายประสาทเทียม | เอ็มเอสอี | อัล-อานี 2005 [ 54 ] |
| การตลาด | การอบอ่อนจำลอง | ห่อ | การถดถอย | เอไอซี , อาร์2 | เมอิริ 2006 [ 55 ] |
| เศรษฐศาสตร์ | การอบชุบแบบจำลอง, อัลกอริทึมทางพันธุกรรม | ห่อ | การถดถอย | บีไอซี | Kapetanios 2007 [ 56 ] |
| มวลสเปกตรัม | อัลกอริทึมทางพันธุกรรม | ห่อ | การถดถอยเชิงเส้นหลายตัวแปร, กำลังสองน้อยที่สุดบางส่วน | ค่าความคลาดเคลื่อนกำลังสองเฉลี่ยรากของการทำนาย | บรอดเฮิร์สต์และคณะ 1997 [ 57 ] |
| สแปม | ไบนารี PSO + การกลายพันธุ์ | ห่อ | แผนผังการตัดสินใจ | ต้นทุนถ่วงน้ำหนัก | Zhang 2014 [ 24 ] |
| ไมโครอาร์เรย์ | การค้นหาต้องห้าม + PSO | ห่อ | เครื่องสนับสนุนเวกเตอร์ (Support Vector Machine)เพื่อนบ้านที่ใกล้ที่สุด K ตัว (K Nearest Neighbors) | ระยะทางแบบยูคลิด | ชวง 2009 [ 58 ] |
| ไมโครอาร์เรย์ | PSO + อัลกอริทึมทางพันธุกรรม | ห่อ | เครื่องสนับสนุนเวกเตอร์ | ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า) | อัลบา 2007 [ 59 ] |
| ไมโครอาร์เรย์ | อัลกอริทึมทางพันธุกรรม + การค้นหาแบบโลคอลซ้ำ | ฝังตัว | เครื่องสนับสนุนเวกเตอร์ | ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า) | ดูวัล 2009 [ 60 ] |
| ไมโครอาร์เรย์ | การค้นหาในพื้นที่แบบวนซ้ำ | ห่อ | การถดถอย | ความน่าจะเป็นภายหลัง | ฮันส์ 2007 [ 61 ] |
| ไมโครอาร์เรย์ | อัลกอริทึมทางพันธุกรรม | ห่อ | K เพื่อนบ้านที่ใกล้ที่สุด | ความแม่นยำในการจำแนกประเภท ( การตรวจสอบแบบไขว้โดยตัดออกทีละตัว ) | จิราเปช-อุมไพ 2548 [ 62 ] |
| ไมโครอาร์เรย์ | อัลกอริทึมพันธุกรรมแบบไฮบริด | ห่อ | K เพื่อนบ้านที่ใกล้ที่สุด | ความแม่นยำในการจำแนกประเภท (การตรวจสอบแบบไขว้โดยตัดออกทีละรายการ) | โอ้ 2004 [ 63 ] |
| ไมโครอาร์เรย์ | อัลกอริทึมทางพันธุกรรม | ห่อ | เครื่องสนับสนุนเวกเตอร์ | ความไวและความจำเพาะ | ซวน 2011 [ 64 ] |
| ไมโครอาร์เรย์ | อัลกอริทึมทางพันธุกรรม | ห่อ | เครื่องสนับสนุนเวกเตอร์แบบจับคู่ทั้งหมด | ความแม่นยำในการจำแนกประเภท (การตรวจสอบแบบไขว้โดยตัดออกทีละรายการ) | เผิง 2546 [ 65 ] |
| ไมโครอาร์เรย์ | อัลกอริทึมทางพันธุกรรม | ฝังตัว | เครื่องสนับสนุนเวกเตอร์ | ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า) | เฮอร์นันเดซ 2007 [ 66 ] |
| ไมโครอาร์เรย์ | อัลกอริทึมทางพันธุกรรม | ไฮบริด | เครื่องสนับสนุนเวกเตอร์ | ความแม่นยำในการจำแนกประเภท (การตรวจสอบแบบไขว้โดยตัดออกทีละรายการ) | Huerta 2006 [ 67 ] |
| ไมโครอาร์เรย์ | อัลกอริทึมทางพันธุกรรม | เครื่องสนับสนุนเวกเตอร์ | ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า) | มูนิ 2006 [ 68 ] | |
| ไมโครอาร์เรย์ | อัลกอริทึมทางพันธุกรรม | ห่อ | เครื่องสนับสนุนเวกเตอร์ | เอ่อ-ไดอัล, ลัมป์ | จอร์แดน 2005 [ 69 ] |
| โรคอัลไซเมอร์ | การทดสอบทีของเวลช์ | กรอง | เครื่องสนับสนุนเวกเตอร์ | ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า) | Zhang 2015 [ 70 ] |
| คอมพิวเตอร์วิชั่น | การเลือกคุณสมบัติที่ไร้ขีดจำกัด | กรอง | เป็นอิสระ | ความแม่นยำเฉลี่ย , ROC AUC | Roffo 2015 [ 71 ] |
| ไมโครอาร์เรย์ | ความเป็นศูนย์กลางของเวกเตอร์เฉพาะ FS | กรอง | เป็นอิสระ | ค่าเฉลี่ยความแม่นยำ, ความถูกต้อง, ROC AUC | Roffo & Melzi 2016 [ 72 ] |
| อีเอ็มแอลอี | เทาสมมาตร (ST) | กรอง | การจำแนกประเภทเชิงสัมพันธ์โครงสร้าง | ความแม่นยำ, ความครอบคลุม | ชาฮารานีและฮัดซิช 2014 |
การเลือกคุณลักษณะที่ฝังอยู่ในอัลกอริธึมการเรียนรู้
อัลกอริทึมการเรียนรู้บางตัวทำการเลือกคุณลักษณะเป็นส่วนหนึ่งของการทำงานโดยรวม ซึ่งได้แก่:
- เทคนิคการปรับค่าให้ เป็นระเบียบเช่น การถดถอยแบบเบาบาง (sparse regression), LASSO และSVM
- ต้นไม้ที่มีการควบคุม[ 45 ]เช่น ป่าสุ่มที่มีการควบคุมซึ่งใช้งานในแพ็คเกจ RRF [ 46 ]
- แผนผังการตัดสินใจ[ 73 ]
- อัลกอริทึมมีเมติก
- โลจิตมัลติโนเมียลแบบสุ่ม (RMNL)
- เครือข่าย การเข้ารหัสอัตโนมัติที่มีเลเยอร์คอขวด
- การเลือกคุณลักษณะย่อยโมดูลาร์[ 74 ] [ 75 ] [ 76 ]
- การเลือกคุณลักษณะตามการเรียนรู้ในพื้นที่[ 77 ]เมื่อเปรียบเทียบกับวิธีการแบบดั้งเดิม วิธีนี้ไม่ต้องใช้การค้นหาแบบฮิวริสติก สามารถจัดการกับปัญหาหลายคลาสได้อย่างง่ายดาย และใช้งานได้ทั้งกับปัญหาเชิงเส้นและไม่เชิงเส้น นอกจากนี้ยังได้รับการสนับสนุนจากพื้นฐานทางทฤษฎีที่แข็งแกร่ง การทดลองเชิงตัวเลขแสดงให้เห็นว่าวิธีนี้สามารถบรรลุโซลูชันที่ใกล้เคียงกับค่าที่เหมาะสมที่สุดได้ แม้ว่าข้อมูลจะมีคุณลักษณะที่ไม่เกี่ยวข้องมากกว่า 1 ล้านรายการก็ตาม
- ระบบแนะนำตามการเลือกคุณลักษณะ[ 78 ]วิธีการเลือกคุณลักษณะได้รับการแนะนำในการวิจัยระบบแนะนำ
ดูเพิ่มเติม
- การวิเคราะห์คลัสเตอร์
- การขุดข้อมูล
- การลดมิติ
- การสกัดคุณลักษณะ
- การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์
- การเลือกแบบจำลอง
- การบรรเทา (การเลือกคุณลักษณะ)
อ่านเพิ่มเติม
- Guyon, Isabelle; Elisseeff, Andre (2003). "บทนำเกี่ยวกับการเลือกตัวแปรและคุณลักษณะ"วารสารการวิจัยการเรียนรู้ของเครื่องจักร 3 : 1157– 1182 .
- Harrell, F. (2001). กลยุทธ์การสร้างแบบจำลองการถดถอย . Springer. ISBN 0-387-95232-2.
- Liu, Huan; Motoda, Hiroshi (1998). การคัดเลือกคุณลักษณะเพื่อการค้นพบองค์ความรู้และการทำเหมืองข้อมูล . Springer. ISBN 0-7923-8198-X.
- Liu, Huan; Yu, Lei (2005). "มุ่งสู่การบูรณาการอัลกอริธึมการเลือกคุณลักษณะสำหรับการจำแนกและการจัดกลุ่ม" IEEE Transactions on Knowledge and Data Engineering . 17 (4): 491– 502. Bibcode : 2005IDSO...17..491L . doi : 10.1109/TKDE.2005.66 . S2CID 1607600 .
ลิงก์ภายนอก
- ชุดโปรแกรมเลือกคุณลักษณะ (Feature Selection Package), มหาวิทยาลัยรัฐแอริโซนา (โค้ด Matlab)
- การแข่งขัน NIPS ปี 2003 (ดูเพิ่มเติมที่NIPS )
- การใช้งาน Naive Bayes พร้อมการเลือกคุณลักษณะใน Visual Basic เก็บถาวรเมื่อวันที่ 14 กุมภาพันธ์ 2009 ที่Wayback Machine (รวมถึงไฟล์ปฏิบัติการและซอร์สโค้ด)
- โปรแกรมการเลือกคุณลักษณะที่มีความซ้ำซ้อนน้อยที่สุดและมีความเกี่ยวข้องสูงสุด (mRMR)
- FEAST (อัลกอริทึมการเลือกคุณลักษณะแบบโอเพนซอร์สในภาษา C และ MATLAB)
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การเลือกคุณสมบัติ
ในแมชชีนเลิร์นนิง การเลือกคุณลักษณะ คือกระบวนการเลือกกลุ่มย่อยของ คุณลักษณะ (ตัวแปร ตัวทำนาย) ที่เกี่ยวข้องเพื่อใช้ในการสร้างแบบจำลอง...
การแนะนำ
อัลกอริทึมการเลือก คุณลักษณะสามารถมองได้ว่าเป็นการผสมผสานระหว่างเทคนิคการค้นหาเพื่อเสนอชุดย่อยคุณลักษณะใหม่ พร้อมกับการวัดผลการประเมินที่ให้คะแนนชุดย่อยคุณลักษณะต่างๆ อัลกอริทึมที่ง่ายที่สุดคือการทดสอบชุดย่อยคุณลักษณะที่เป็นไปได้แต่ละชุด...
การเลือกชุดย่อย
การเลือกเซตย่อยเป็นการประเมินกลุ่มคุณลักษณะย่อยว่าเหมาะสมหรือไม่ อัลกอริทึมการเลือกเซตย่อยสามารถแบ่งออกเป็นแบบ Wrapper, Filter และ Embedded แบบ Wrapper ใช้ขั้นตอน วิธีค้นหา...
เกณฑ์ความเหมาะสมที่สุด
การเลือกเกณฑ์ความเหมาะสมเป็นเรื่องยาก เนื่องจากมีวัตถุประสงค์หลายประการในงานเลือกคุณลักษณะ เกณฑ์ทั่วไปหลายเกณฑ์ รวมการวัดความแม่นยำ ซึ่งจะถูกลงโทษด้วยจำนวนคุณลักษณะที่เลือก ตัวอย่างเช่น เกณฑ์ข้อมูล Akaike (AIC) และ C p ของ Mallows ซึ่งมีค่าปรับ 2...