การเลือกคุณสมบัติ

ในแมชชีนเลิร์นนิงการเลือกคุณลักษณะคือกระบวนการเลือกกลุ่มย่อยของคุณลักษณะ (ตัวแปร ตัวทำนาย) ที่เกี่ยวข้องเพื่อใช้ในการสร้างแบบจำลอง เทคนิคการเลือกคุณลักษณะถูกนำมาใช้ด้วยเหตุผลหลายประการ:

การลดความซับซ้อนของแบบจำลองเพื่อให้ตีความได้ง่ายขึ้น^{[ 1 ]}
ระยะเวลาการฝึกอบรมที่สั้นลง^{[ 2 ]}
เพื่อหลีกเลี่ยง^คำสาปแห่งมิติ [ ^{3 ]}
ปรับปรุงความเข้ากันได้ของข้อมูลกับคลาสโมเดลการเรียนรู้บางคลาส^{[ 4 ]}
เพื่อเข้ารหัสสมมาตร ที่ มีอยู่ในพื้นที่อินพุต^{[ 5 ]}^{[ 6 ]}^{[ 7 ]}^{[ 8 ]}

หลักการสำคัญในการใช้การเลือกคุณลักษณะคือ ข้อมูลบางครั้งมีคุณลักษณะที่ซ้ำซ้อนหรือไม่เกี่ยวข้องและสามารถลบออกได้โดยไม่สูญเสียข้อมูลมากนัก^{[ 9 ]}ความซ้ำซ้อนและความไม่เกี่ยวข้องเป็นแนวคิดที่แตกต่างกัน เนื่องจากคุณลักษณะที่เกี่ยวข้องหนึ่งอย่างอาจซ้ำซ้อนได้เมื่อมีคุณลักษณะที่เกี่ยวข้องอีกอย่างหนึ่งซึ่งมีความสัมพันธ์กันอย่างมาก^{[ 10 ]}

การสกัดคุณลักษณะสร้างคุณลักษณะใหม่จากฟังก์ชันของคุณลักษณะเดิม ในขณะที่การเลือกคุณลักษณะค้นหาส่วนย่อยของคุณลักษณะที่มีอยู่ เทคนิคการเลือกคุณลักษณะมักใช้ในโดเมนที่มีคุณลักษณะจำนวนมากและมีตัวอย่าง (จุดข้อมูล) ค่อนข้างน้อย

การแนะนำ

อัลกอริทึมการเลือกคุณลักษณะสามารถมองได้ว่าเป็นการผสมผสานระหว่างเทคนิคการค้นหาเพื่อเสนอชุดย่อยคุณลักษณะใหม่ พร้อมกับการวัดผลการประเมินที่ให้คะแนนชุดย่อยคุณลักษณะต่างๆ อัลกอริทึมที่ง่ายที่สุดคือการทดสอบชุดย่อยคุณลักษณะที่เป็นไปได้แต่ละชุด เพื่อหาชุดย่อยที่ลดอัตราข้อผิดพลาดให้น้อยที่สุด นี่คือการค้นหาแบบละเอียดถี่ถ้วนในพื้นที่ และไม่สามารถคำนวณได้ ยกเว้นชุดคุณลักษณะที่เล็กที่สุด การเลือกตัวชี้วัดการประเมินมีอิทธิพลอย่างมากต่ออัลกอริทึม และตัวชี้วัดการประเมินเหล่านี้เองที่แยกแยะระหว่างอัลกอริทึมการเลือกคุณลักษณะหลัก 3 ประเภท ได้แก่ wrappers, filters และ embedded methods ^{[ 10 ]}

วิธีการแบบ Wrapper ใช้แบบจำลองการทำนายเพื่อให้คะแนนแก่ชุดย่อยของคุณลักษณะ โดยแต่ละชุดย่อยใหม่จะถูกนำไปใช้ในการฝึกแบบจำลอง ซึ่งจะถูกทดสอบกับชุดข้อมูลทดสอบ การนับจำนวนข้อผิดพลาดที่เกิดขึ้นในชุดข้อมูลทดสอบนั้น (อัตราข้อผิดพลาดของแบบจำลอง) จะให้คะแนนสำหรับชุดย่อยนั้น เนื่องจากวิธีการแบบ Wrapper ฝึกแบบจำลองใหม่สำหรับแต่ละชุดย่อย จึงใช้ทรัพยากรการคำนวณสูงมาก แต่โดยทั่วไปแล้วจะให้ชุดคุณลักษณะที่มีประสิทธิภาพดีที่สุดสำหรับแบบจำลองประเภทนั้น ๆ หรือปัญหาทั่วไปนั้น ๆ
วิธีการกรองใช้การวัดแบบพร็อกซีแทนอัตราข้อผิดพลาดในการให้คะแนนชุดย่อยของคุณลักษณะ การวัดนี้ถูกเลือกให้คำนวณได้รวดเร็ว ในขณะที่ยังคงจับประโยชน์ของชุดคุณลักษณะได้ การวัดทั่วไป ได้แก่^{ข้อมูลร่วมกัน [ 10 ] ข้อมูลร่วมกันแบบจุดต่อจุด [} 11 ]สัมประสิทธิ์^{สหสัมพันธ์แบบ}เพีย^ร์^สันอัลกอริทึมแบบ Relief [ ¹²^]และระยะห่างระหว่าง/ภายในคลาส หรือคะแนนของ การ ^{ทดสอบ}ความสำคัญสำหรับแต่ละคลาส/ชุดคุณลักษณะ^[¹¹^]^[¹³^]โดยทั่วไปแล้ว ตัวกรองจะใช้การคำนวณน้อยกว่าตัวห่อ แต่จะสร้างชุดคุณลักษณะที่ไม่ได้รับการปรับแต่งให้เข้ากับแบบจำลองการทำนายประเภทใดประเภทหนึ่งโดยเฉพาะ^[¹⁴^]การขาดการปรับแต่งนี้หมายความว่าชุดคุณลักษณะจากตัวกรองมีความทั่วไปมากกว่าชุดจากตัวห่อ ซึ่งโดยทั่วไปแล้วจะให้ประสิทธิภาพการทำนายที่ต่ำกว่าตัวห่อ อย่างไรก็ตาม ชุดคุณลักษณะไม่มีข้อสมมติฐานของแบบจำลองการทำนาย ดังนั้นจึงมีประโยชน์มากกว่าในการเปิดเผยความสัมพันธ์ระหว่างคุณลักษณะ ตัวกรองจำนวนมากให้การจัดอันดับคุณลักษณะแทนที่จะเป็นชุดย่อยคุณลักษณะที่ดีที่สุดอย่างชัดเจน และจุดตัดในการจัดอันดับจะถูกเลือกผ่านการตรวจสอบแบบไขว้วิธีการกรองยังถูกใช้เป็นขั้นตอนการประมวลผลล่วงหน้าสำหรับวิธีการห่อหุ้ม ทำให้สามารถใช้วิธีการห่อหุ้มกับปัญหาที่ใหญ่ขึ้นได้ แนวทางยอดนิยมอีกวิธีหนึ่งคืออัลกอริทึมการกำจัดคุณลักษณะแบบวนซ้ำ^[¹⁵^]ซึ่งมักใช้กับเครื่องเวกเตอร์สนับสนุนเพื่อสร้างแบบจำลองซ้ำ ๆ และลบคุณลักษณะที่มีน้ำหนักต่ำ
วิธีการฝังตัวเป็นกลุ่มเทคนิคที่ครอบคลุมซึ่งทำการเลือกคุณลักษณะเป็นส่วนหนึ่งของกระบวนการสร้างแบบจำลอง ตัวอย่างของแนวทางนี้คือ วิธีการ LASSOสำหรับการสร้างแบบจำลองเชิงเส้น ซึ่งลงโทษสัมประสิทธิ์การถดถอยด้วยการลงโทษ L1 ทำให้สัมประสิทธิ์จำนวนมากมีค่าเป็นศูนย์ คุณลักษณะใด ๆ ที่มีสัมประสิทธิ์การถดถอยที่ไม่เป็นศูนย์จะถูก 'เลือก' โดยอัลกอริทึม LASSO การปรับปรุง LASSO ได้แก่ Bolasso ซึ่งใช้การบูตสแตรปตัวอย่าง^{[ 16 ]}การทำให้เป็นระเบียบแบบ Elastic netซึ่งรวมการลงโทษ L1 ของ LASSO กับการลงโทษ L2 ของการถดถอยแบบ ridgeและ FeaLect ซึ่งให้คะแนนคุณลักษณะทั้งหมดโดยอิงจากการวิเคราะห์เชิงผสมของสัมประสิทธิ์การถดถอย^{[ 17 ]} AEFS ขยาย LASSO ไปสู่สถานการณ์ที่ไม่เป็นเชิงเส้นด้วย autoencoders ^{[ 18 ]}แนวทางเหล่านี้มีแนวโน้มที่จะอยู่ระหว่าง filters และ wrappers ในแง่ของความซับซ้อนในการคำนวณ

ในการวิเคราะห์การถดถอยแบบ ดั้งเดิม รูปแบบการเลือกคุณลักษณะที่ได้รับความนิยมมากที่สุดคือการถดถอยแบบทีละขั้นตอนซึ่งเป็นเทคนิคแบบห่อหุ้ม เป็นอัลกอริทึมแบบโลภที่เพิ่มคุณลักษณะที่ดีที่สุด (หรือลบคุณลักษณะที่แย่ที่สุด) ในแต่ละรอบ ปัญหาการควบคุมหลักคือการตัดสินใจว่าจะหยุดอัลกอริทึมเมื่อใด ในการเรียนรู้ของเครื่องจักร โดยทั่วไปจะทำโดยการตรวจสอบแบบไขว้ในทางสถิติ มีเกณฑ์บางอย่างที่ได้รับการปรับให้เหมาะสม ซึ่งนำไปสู่ปัญหาการซ้อนกันโดยธรรมชาติ จึงมีการสำรวจวิธีการที่แข็งแกร่งกว่า เช่นการแบ่งและขอบเขตและเครือข่ายเชิงเส้นแบบแบ่งส่วน

การเลือกชุดย่อย

การเลือกเซตย่อยเป็นการประเมินกลุ่มคุณลักษณะย่อยว่าเหมาะสมหรือไม่ อัลกอริทึมการเลือกเซตย่อยสามารถแบ่งออกเป็นแบบ Wrapper, Filter และ Embedded แบบ Wrapper ใช้ขั้นตอนวิธีค้นหาเพื่อค้นหาในพื้นที่ของคุณลักษณะที่เป็นไปได้และประเมินแต่ละเซตย่อยโดยการรันโมเดลกับเซตย่อยนั้น แบบ Wrapper อาจมีค่าใช้จ่ายในการคำนวณสูงและมีความเสี่ยงที่จะเกิดการโอเวอร์ฟิตกับโมเดล แบบ Filter คล้ายกับแบบ Wrapper ในแง่ของวิธีการค้นหา แต่แทนที่จะประเมินกับโมเดล จะประเมิน Filter ที่ง่ายกว่า ส่วนเทคนิค Embedded นั้นฝังอยู่ในโมเดลและมีความเฉพาะเจาะจงกับโมเดลนั้นๆ

วิธีการค้นหาที่เป็นที่นิยมหลายวิธีใช้การปีนเขาแบบโลภ (greedy hill climbing ) ซึ่งจะประเมินชุดย่อยของคุณลักษณะที่เป็นไปได้ซ้ำๆ จากนั้นปรับเปลี่ยนชุดย่อยนั้นและประเมินว่าชุดย่อยใหม่ดีกว่าชุดเดิมหรือไม่ การประเมินชุดย่อยต้องใช้ตัวชี้ วัดคะแนน ที่ให้เกรดแก่ชุดย่อยของคุณลักษณะ การค้นหาแบบครบถ้วนโดยทั่วไปทำได้ยาก ดังนั้น ณ จุดหยุดที่ผู้พัฒนา (หรือผู้ดำเนินการ) กำหนด ชุดย่อยของคุณลักษณะที่มีคะแนนสูงสุดที่พบจนถึงจุดนั้นจะถูกเลือกเป็นชุดย่อยของคุณลักษณะที่น่าพอใจ เกณฑ์การหยุดจะแตกต่างกันไปตามอัลกอริทึม เกณฑ์ที่เป็นไปได้ ได้แก่ คะแนนของชุดย่อยเกินเกณฑ์ที่กำหนด เวลาทำงานสูงสุดที่อนุญาตของโปรแกรมถูกเกินไป เป็นต้น

เทคนิคการค้นหาทางเลือกอื่นๆ นั้นอิงตามการค้นหาการฉายภาพเป้าหมายซึ่งจะค้นหาการฉายภาพข้อมูลในมิติที่ต่ำกว่าซึ่งได้คะแนนสูง: จากนั้นจึงเลือกคุณลักษณะที่มีการฉายภาพขนาดใหญ่ที่สุดในพื้นที่มิติที่ต่ำกว่า

วิธีการค้นหาประกอบด้วย:

ครบถ้วน^{[ 19 ]}
ดีที่สุดก่อน
การอบอ่อนจำลอง
อัลกอริทึมทางพันธุกรรม^{[ 20 ]}
การเลือกไปข้างหน้าแบบโลภ^{[ 21 ]}^{[ 22 ]}^{[ 23 ]}
การกำจัดย้อนหลังแบบโลภ
การเพิ่มประสิทธิภาพฝูงอนุภาค^{[ 24 ]}
การติดตามการฉายภาพเป้าหมาย
การค้นหาแบบกระจาย^{[ 25 ]}^{[ 26 ]}^{[ 27 ]}
การค้นหาเพื่อนบ้านที่แปรผัน^{[ 28 ]}^{[ 29 ]}

ตัวชี้วัดตัวกรองยอดนิยมสองตัวสำหรับปัญหาการจำแนกประเภทคือความสัมพันธ์และข้อมูลร่วมกันแม้ว่าทั้งสองจะไม่ใช่ตัวชี้วัด ที่แท้จริง หรือ 'การวัดระยะทาง' ในความหมายทางคณิตศาสตร์ เนื่องจากไม่เป็นไปตามอสมการสามเหลี่ยมและดังนั้นจึงไม่ได้คำนวณ 'ระยะทาง' ที่แท้จริงใดๆ – ควรพิจารณาว่าเป็น 'คะแนน' มากกว่า คะแนนเหล่านี้คำนวณระหว่างคุณลักษณะผู้สมัคร (หรือชุดของคุณลักษณะ) และหมวดหมู่เอาต์พุตที่ต้องการ อย่างไรก็ตาม มีตัวชี้วัดที่แท้จริงซึ่งเป็นฟังก์ชันง่ายๆ ของข้อมูลร่วมกัน^{[ 30 ]}ดูที่นี่

ตัวชี้วัดตัวกรองอื่นๆ ที่มีให้เลือกใช้ ได้แก่:

ความสามารถในการแยกคลาส
- ความน่าจะเป็นของข้อผิดพลาด
- ระยะห่างระหว่างชั้นเรียน
- ระยะทางเชิงความน่าจะเป็น
- เอนโทรปี
การเลือกคุณลักษณะตามความสอดคล้อง
การเลือกคุณลักษณะโดยอาศัยความสัมพันธ์

เกณฑ์ความเหมาะสมที่สุด

การเลือกเกณฑ์ความเหมาะสมเป็นเรื่องยาก เนื่องจากมีวัตถุประสงค์หลายประการในงานเลือกคุณลักษณะเกณฑ์ทั่วไปหลายเกณฑ์รวมการวัดความแม่นยำ ซึ่งจะถูกลงโทษด้วยจำนวนคุณลักษณะที่เลือก ตัวอย่างเช่นเกณฑ์ข้อมูล Akaike (AIC) และC _p ของ Mallowsซึ่งมีค่าปรับ 2 สำหรับแต่ละคุณลักษณะที่เพิ่มเข้ามา AIC อิงตามทฤษฎีสารสนเทศและได้มาอย่างมีประสิทธิภาพผ่าน หลักการ เอนโทรปีสูงสุด^{[ 31 ]}^{[ 32 ]}

เกณฑ์อื่นๆ ได้แก่เกณฑ์ข้อมูลแบบเบย์เซียน (BIC) ซึ่งใช้ค่าปรับสำหรับแต่ละคุณลักษณะที่เพิ่มเข้ามาความยาวคำอธิบายขั้นต่ำ (MDL) ซึ่งใช้ค่าประมาณBonferroni / RIC ซึ่งใช้ค่า การเลือกคุณลักษณะที่มีการพึ่งพาสูงสุด และเกณฑ์ใหม่ๆ ที่หลากหลายซึ่งได้รับแรงบันดาลใจจากอัตราการค้นพบที่ผิดพลาด (FDR) ซึ่งใช้ค่าใกล้เคียงกับ เกณฑ์ อัตราเอนโทรปีสูงสุดอาจถูกนำมาใช้เพื่อเลือกชุดย่อยของคุณลักษณะที่เกี่ยวข้องมากที่สุด^[³³^] ${\sqrt {\log {n}}}$ ${\sqrt {\log {n}}}$ ${\sqrt {2\log {p}}}$ ${\sqrt {2\log {\frac {p}{q}}}}$

การเรียนรู้โครงสร้าง

การเลือกคุณลักษณะของตัวกรองเป็นกรณีเฉพาะของกระบวนทัศน์ทั่วไปที่เรียกว่าการเรียนรู้โครงสร้างการเลือกคุณลักษณะจะค้นหาชุดคุณลักษณะที่เกี่ยวข้องสำหรับตัวแปรเป้าหมายเฉพาะ ในขณะที่การเรียนรู้โครงสร้างจะค้นหาความสัมพันธ์ระหว่างตัวแปรทั้งหมด โดยปกติแล้วจะแสดงความสัมพันธ์เหล่านี้ในรูปกราฟ อัลกอริทึมการเรียนรู้โครงสร้างที่พบได้บ่อยที่สุดจะถือว่าข้อมูลถูกสร้างขึ้นโดยเครือข่ายเบย์เซียนดังนั้นโครงสร้างจึงเป็นแบบจำลองกราฟิก แบบมีทิศทาง วิธีแก้ปัญหาที่ดีที่สุดสำหรับการเลือกคุณลักษณะของตัวกรองคือMarkov Blanketของโหนดเป้าหมาย และในเครือข่ายเบย์เซียนจะมี Markov Blanket ที่ไม่ซ้ำกันสำหรับแต่ละโหนด^[³⁴^]

กลไกการเลือกคุณลักษณะตามทฤษฎีสารสนเทศ

มีกลไกการเลือกคุณลักษณะที่แตกต่างกันหลายแบบซึ่งใช้ข้อมูลร่วมกันในการให้คะแนนคุณลักษณะต่างๆ โดยทั่วไปแล้วกลไกเหล่านี้มักใช้ขั้นตอนวิธีเดียวกัน:

คำนวณข้อมูลร่วมกันเป็นคะแนนระหว่างคุณลักษณะทั้งหมด ( ) และคลาสเป้าหมาย ( $c$ ) $f_{i}\in F$
เลือกคุณลักษณะที่มีคะแนนสูงสุด (เช่น) และเพิ่มลงในชุดคุณลักษณะที่เลือก ( $S$ ) ${\underset {f_{i}\in F}{\operatorname {argmax} }}(I(f_{i},c))$
คำนวณคะแนนที่อาจได้มาจากข้อมูลร่วมกัน
เลือกคุณลักษณะที่มีคะแนนสูงสุดและเพิ่มเข้าไปในชุดคุณลักษณะที่เลือก (เช่น) ${\underset {f_{i}\in F}{\operatorname {argmax} }}(I_{derived}(f_{i},c))$
ทำซ้ำขั้นตอนที่ 3 และ 4 จนกว่าจะเลือกคุณลักษณะได้จำนวนหนึ่ง (เช่น) $|S|=l$

แนวทางที่ง่ายที่สุดใช้ข้อมูลร่วมกันเป็นคะแนนที่ "ได้มา" ^{[ 35 ]}

อย่างไรก็ตาม มีแนวทางที่แตกต่างกันออกไป ซึ่งพยายามลดความซ้ำซ้อนระหว่างฟีเจอร์ต่างๆ

การเลือกคุณลักษณะแบบความซ้ำซ้อนน้อยที่สุด-ความเกี่ยวข้องสูงสุด (mRMR)

Peng et al. ^{[ 36 ]}เสนอวิธีการเลือกคุณลักษณะที่สามารถใช้ข้อมูลร่วมกัน ความสัมพันธ์ หรือคะแนนระยะทาง/ความคล้ายคลึงกันเพื่อเลือกคุณลักษณะ จุดมุ่งหมายคือการลงโทษความเกี่ยวข้องของคุณลักษณะโดยความซ้ำซ้อนเมื่อมีคุณลักษณะที่เลือกอื่นๆ ความเกี่ยวข้องของชุดคุณลักษณะ $S$ สำหรับคลาส $c ถูกกำหนดโดยค่าเฉลี่ยของค่าข้อมูลร่วมกันทั้งหมดระหว่างคุณลักษณะ$ $f i$ แต่ละรายการและคลาส $c$ ดังนี้:

D(S,c)={\frac {1}{|S|}}\sum _{f_{i}\in S}I(f_{i};c)

.

ความซ้ำซ้อนของฟีเจอร์ทั้งหมดในชุด $S$ คือค่าเฉลี่ยของค่าข้อมูลร่วมกันทั้งหมดระหว่างฟีเจอร์ $f i$ และฟีเจอร์ $f j$ :

R(S)={\frac {1}{|S|^{2}}}\sum _{f_{i},f_{j}\in S}I(f_{i};f_{j})

เกณฑ์ mRMR เป็นการรวมกันของสองมาตรวัดที่กล่าวมาข้างต้น และกำหนดไว้ดังนี้:

\mathrm {mRMR} =\max _{S}\left[{\frac {1}{|S|}}\sum _{f_{i}\in S}I(f_{i};c)-{\frac {1}{|S|^{2}}}\sum _{f_{i},f_{j}\in S}I(f_{i};f_{j})\right].

สมมติว่ามีฟีเจอร์ครบชุด $n ฟีเจอร์ ให้$ $x i$ เป็น ฟังก์ชันบ่งชี้การเป็นสมาชิกของเซตสำหรับฟีเจอร์ $f i$ โดยที่ $x i =1$ บ่งชี้ ว่าฟีเจอร์ $f$ $i$ อยู่ ในเซตฟีเจอร์ที่เหมาะสมที่สุดทั่วโลกและ $x i =0$ บ่งชี้ว่าไม่มีอยู่ ให้ และ. จากนั้นสามารถเขียนข้างต้นเป็นปัญหาการหาค่าเหมาะสมที่สุดได้ดังนี้: $c_{i}=I(f_{i};c)$ $a_{ij}=I(f_{i};f_{j})$

\mathrm {mRMR} =\max _{x\in \{0,1\}^{n}}\left[{\frac {\sum _{i=1}^{n}c_{i}x_{i}}{\sum _{i=1}^{n}x_{i}}}-{\frac {\sum _{i,j=1}^{n}a_{ij}x_{i}x_{j}}{(\sum _{i=1}^{n}x_{i})^{2}}}\right].

อัลกอริทึม mRMR เป็นการประมาณค่าของอัลกอริทึมการเลือกคุณลักษณะที่มีการพึ่งพาสูงสุดที่เหมาะสมที่สุดในเชิงทฤษฎี ซึ่งจะเพิ่มข้อมูลร่วมกันระหว่างการกระจายร่วมของคุณลักษณะที่เลือกและตัวแปรการจำแนกประเภทให้สูงสุด เนื่องจาก mRMR ประมาณปัญหาการประมาณค่าเชิงคอมบินาทอริกด้วยชุดของปัญหาที่เล็กกว่ามาก ซึ่งแต่ละปัญหาเกี่ยวข้องกับตัวแปรเพียงสองตัวเท่านั้น จึงใช้ความน่าจะเป็นร่วมแบบคู่ซึ่งมีความแข็งแกร่งกว่า ในบางสถานการณ์ อัลกอริทึมอาจประเมินประโยชน์ของคุณลักษณะต่ำเกินไป เนื่องจากไม่มีวิธีวัดปฏิสัมพันธ์ระหว่างคุณลักษณะที่สามารถเพิ่มความเกี่ยวข้องได้ ซึ่งอาจนำไปสู่ประสิทธิภาพที่ไม่ดี^{[ 35 ]}เมื่อคุณลักษณะแต่ละอย่างไม่มีประโยชน์ แต่มีประโยชน์เมื่อรวมกัน (พบกรณีที่ผิดปกติเมื่อคลาสเป็นฟังก์ชันความเท่าเทียมกันของคุณลักษณะ) โดยรวมแล้ว อัลกอริทึมมีประสิทธิภาพมากกว่า (ในแง่ของปริมาณข้อมูลที่ต้องการ) กว่าการเลือกการพึ่งพาสูงสุดที่เหมาะสมที่สุดในเชิงทฤษฎี แต่สร้างชุดคุณลักษณะที่มีความซ้ำซ้อนแบบคู่น้อย

mRMR เป็นตัวอย่างหนึ่งของวิธีการกรองกลุ่มใหญ่ที่แลกเปลี่ยนระหว่างความเกี่ยวข้องและความซ้ำซ้อนในรูปแบบต่างๆ^{[ 35 ]}^{[ 37 ]}

การเลือกคุณลักษณะการเขียนโปรแกรมเชิงควาดราติก

mRMR เป็นตัวอย่างทั่วไปของกลยุทธ์โลภแบบเพิ่มทีละน้อยสำหรับการเลือกคุณลักษณะ: เมื่อเลือกคุณลักษณะแล้ว จะไม่สามารถยกเลิกการเลือกในภายหลังได้ ในขณะที่ mRMR สามารถปรับให้เหมาะสมที่สุดโดยใช้การค้นหาแบบลอยตัวเพื่อลดคุณลักษณะบางอย่างได้ นอกจากนี้ยังสามารถกำหนดใหม่เป็น ปัญหาการเพิ่มประสิทธิภาพ การเขียนโปรแกรมกำลังสอง ทั่วโลก ได้ดังนี้: ^{[ 38 ]}

\mathrm {QPFS} :\min _{\mathbf {x} }\left\{\alpha \mathbf {x} ^{T}H\mathbf {x} -\mathbf {x} ^{T}F\right\}\quad {\mbox{st}}\ \sum _{i=1}^{n}x_{i}=1,x_{i}\geq 0

โดยที่เวกเตอร์ของความเกี่ยวข้องของฟีเจอร์สมมติว่ามีฟีเจอร์ทั้งหมด $n$ ฟีเจอร์ คือเมทริกซ์ของความซ้ำซ้อนแบบคู่ของฟีเจอร์ และแสดงถึงน้ำหนักฟีเจอร์สัมพัทธ์ QPFS ได้รับการแก้ไขผ่านการเขียนโปรแกรมกำลังสอง เพิ่งมีการแสดงให้เห็นว่า QFPS มีอคติไปทางฟีเจอร์ที่มีเอนโทรปีน้อยกว่า^[³⁹^]เนื่องจากการวางเทอมความซ้ำซ้อนของฟีเจอร์ไว้บนแนวทแยงของ $H$ $F_{n\times 1}=[I(f_{1};c),\ldots ,I(f_{n};c)]^{T}$ $H_{n\times n}=[I(f_{i};f_{j})]_{i,j=1\ldots n}$ $\mathbf {x} _{n\times 1}$ $I(f_{i};f_{i})$

ข้อมูลร่วมกันแบบมีเงื่อนไข

คะแนนอีกคะแนนหนึ่งที่ได้มาสำหรับข้อมูลร่วมกันนั้นขึ้นอยู่กับความเกี่ยวข้องตามเงื่อนไข: ^{[ 39 ]}

\mathrm {SPEC_{CMI}} :\max _{\mathbf {x} }\left\{\mathbf {x} ^{T}Q\mathbf {x} \right\}\quad {\mbox{s.t.}}\ \|\mathbf {x} \|=1,x_{i}\geq 0

ที่ไหนและ. $Q_{ii}=I(f_{i};c)$ $Q_{ij}=(I(f_{i};c|f_{j})+I(f_{j};c|f_{i}))/2,i\neq j$

ข้อดีอย่างหนึ่งของ $SPEC CMI$ คือสามารถแก้ไขได้ง่ายๆ โดยการหาเวกเตอร์ลักษณะเฉพาะที่เด่นที่สุดของ $Q$ ดังนั้นจึงปรับขนาดได้ง่ายมาก นอกจากนี้ $SPEC CMI$ ยังจัดการกับปฏิสัมพันธ์ของคุณลักษณะลำดับที่สองได้อีกด้วย

ข้อมูลร่วมกัน

ในการศึกษาคะแนนที่แตกต่างกัน Brown et al. ^{[ 35 ]} แนะนำข้อมูลร่วมกัน^{[ 40 ]}ว่าเป็นคะแนนที่ดีสำหรับการเลือกคุณลักษณะ คะแนนนี้พยายามค้นหาคุณลักษณะที่เพิ่มข้อมูลใหม่มากที่สุดให้กับคุณลักษณะที่เลือกไว้แล้ว เพื่อหลีกเลี่ยงความซ้ำซ้อน สูตรของคะแนนมีดังนี้:

{\begin{aligned}JMI(f_{i})&=\sum _{f_{j}\in S}(I(f_{i};c)+I(f_{i};c|f_{j}))\\&=\sum _{f_{j}\in S}{\bigl [}I(f_{j};c)+I(f_{i};c)-{\bigl (}I(f_{i};f_{j})-I(f_{i};f_{j}|c){\bigr )}{\bigr ]}\end{aligned}}

คะแนนนี้ใช้ข้อมูลร่วมแบบมีเงื่อนไขและข้อมูลร่วมเพื่อประเมินความซ้ำซ้อนระหว่างคุณลักษณะที่เลือกไว้แล้ว ( ) และคุณลักษณะที่กำลังตรวจสอบ ( ) $f_{j}\in S$ $f_{i}$

เกณฑ์ความเป็นอิสระของฮิลเบิร์ต-ชมิดต์ การเลือกคุณลักษณะโดยใช้ Lasso

สำหรับข้อมูลที่มีมิติสูงและขนาดตัวอย่างเล็ก (เช่น มิติ > 10)⁵และจำนวนตัวอย่าง < 10³ ) เกณฑ์ความเป็นอิสระของฮิลเบิร์ต-ชมิดท์ ลาโซ (HSIC Lasso) มีประโยชน์^{[ 41 ]}ปัญหาการเพิ่มประสิทธิภาพ HSIC Lasso ถูกกำหนดดังนี้

\mathrm {HSIC_{Lasso}} :\min _{\mathbf {x} }{\frac {1}{2}}\sum _{k,l=1}^{n}x_{k}x_{l}{\mbox{HSIC}}(f_{k},f_{l})-\sum _{k=1}^{n}x_{k}{\mbox{HSIC}}(f_{k},c)+\lambda \|\mathbf {x} \|_{1},\quad {\mbox{s.t.}}\ x_{1},\ldots ,x_{n}\geq 0,

โดยที่เป็นมาตรวัดความเป็นอิสระแบบเคอร์เนลที่เรียกว่าเกณฑ์ความเป็นอิสระของฮิลเบิร์ต-ชมิดต์ (HSIC) (เชิงประจักษ์) แทน ค่าร่องรอย ( trace ) คือพารามิเตอร์การปรับค่า (regularization parameter) และ คือ เมทริกซ์แกรมที่เป็นศูนย์กลางของอินพุตและเอาต์พุตและคือ เมทริกซ์แกรม และคือฟังก์ชันเคอร์เนล คือเมทริกซ์ ศูนย์กลางคือเมทริกซ์เอกลักษณ์มิติ m $($ m $:$ จำนวนตัวอย่าง) คือ เวกเตอร์มิติ $m$ ที่มีค่าเป็นหนึ่งทั้งหมด และ คือนอร์ม HSIC จะมีค่าไม่เป็นลบเสมอ และจะเป็นศูนย์ก็ต่อเมื่อตัวแปรสุ่มสองตัวมีความเป็นอิสระทางสถิติเมื่อใช้เคอร์เนลแบบสร้างซ้ำได้ทั่วไป เช่น เคอร์เนลแบบเกาส์เซียน ${\mbox{HSIC}}(f_{k},c)={\mbox{tr}}({\bar {\mathbf {K} }}^{(k)}{\bar {\mathbf {L} }})$ ${\mbox{tr}}(\cdot )$ $\lambda$ ${\bar {\mathbf {K} }}^{(k)}=\mathbf {\Gamma } \mathbf {K} ^{(k)}\mathbf {\Gamma }$ ${\bar {\mathbf {L} }}=\mathbf {\Gamma } \mathbf {L} \mathbf {\Gamma }$ $K_{i,j}^{(k)}=K(u_{k,i},u_{k,j})$ $L_{i,j}=L(c_{i},c_{j})$ $K(u,u')$ $L(c,c')$ $\mathbf {\Gamma } =\mathbf {I} _{m}-{\frac {1}{m}}\mathbf {1} _{m}\mathbf {1} _{m}^{T}$ $\mathbf {I} _{m}$ $\mathbf {1} _{m}$ $\|\cdot \|_{1}$ $\ell _{1}$

HSIC Lasso สามารถเขียนได้ดังนี้

\mathrm {HSIC_{Lasso}} :\min _{\mathbf {x} }{\frac {1}{2}}\left\|{\bar {\mathbf {L} }}-\sum _{k=1}^{n}x_{k}{\bar {\mathbf {K} }}^{(k)}\right\|_{F}^{2}+\lambda \|\mathbf {x} \|_{1},\quad {\mbox{s.t.}}\ x_{1},\ldots ,x_{n}\geq 0,

นอร์มฟรอเบนิอุสอยู่ที่ไหนปัญหาการหาค่าเหมาะสมที่สุดเป็นปัญหาลาโซ ดังนั้นจึงสามารถแก้ไขได้อย่างมีประสิทธิภาพด้วยตัวแก้ปัญหาลาโซที่ทันสมัย เช่นวิธีลากรางเจียนเสริมคู่ (dual augmented Lagrangian method ) $\|\cdot \|_{F}$

การเลือกคุณลักษณะความสัมพันธ์

การวัดการเลือกคุณลักษณะความสัมพันธ์ (CFS) จะประเมินชุดย่อยของคุณลักษณะโดยอาศัยสมมติฐานต่อไปนี้: "ชุดย่อยคุณลักษณะที่ดีประกอบด้วยคุณลักษณะที่มีความสัมพันธ์สูงกับการจำแนกประเภท แต่ไม่มีความสัมพันธ์กันเอง" ^{[ 42 ]}^{[ 43 ]}สมการต่อไปนี้แสดงถึงคุณค่าของชุดย่อยคุณลักษณะSที่ประกอบด้วย คุณลักษณะ kรายการ:

\mathrm {Merit} _{S_{k}}={\frac {k{\overline {r_{cf}}}}{\sqrt {k+k(k-1){\overline {r_{ff}}}}}}.

ในที่นี้คือค่าเฉลี่ยของความสัมพันธ์ระหว่างคุณลักษณะและการจำแนกประเภททั้งหมด และคือค่าเฉลี่ยของความสัมพันธ์ระหว่างคุณลักษณะกับคุณลักษณะทั้งหมด เกณฑ์ CFS ถูกกำหนดไว้ดังนี้: ${\overline {r_{cf}}}$ ${\overline {r_{ff}}}$

\mathrm {CFS} =\max _{S_{k}}\left[{\frac {r_{cf_{1}}+r_{cf_{2}}+\cdots +r_{cf_{k}}}{\sqrt {k+2(r_{f_{1}f_{2}}+\cdots +r_{f_{i}f_{j}}+\cdots +r_{f_{k}f_{k-1}})}}}\right].

ตัวแปรและ นั้นเรียกว่าค่าสหสัมพันธ์ แต่ไม่จำเป็นต้องเป็นสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันหรือค่า ρ ของสเปียร์แมนวิทยานิพนธ์ของฮอลล์ไม่ได้ใช้ค่าเหล่านี้ แต่ใช้มาตรวัดความสัมพันธ์ที่แตกต่างกันสามแบบ ได้แก่ความยาวคำอธิบายขั้นต่ำ (MDL) ความไม่แน่นอนแบบสมมาตรและความโล่งใจ $r_{cf_{i}}$ $r_{f_{i}f_{j}}$

ให้x _iเป็นฟังก์ชันบ่งชี้ การเป็นสมาชิกของเซต สำหรับคุณลักษณะf _iจากนั้นสามารถเขียนปัญหาข้างต้นใหม่เป็นปัญหาการหาค่าเหมาะสมที่สุดได้:

\mathrm {CFS} =\max _{x\in \{0,1\}^{n}}\left[{\frac {(\sum _{i=1}^{n}a_{i}x_{i})^{2}}{\sum _{i=1}^{n}x_{i}+\sum _{i\neq j}2b_{ij}x_{i}x_{j}}}\right].

ปัญหาเชิงการจัดเรียงข้างต้นนั้น แท้จริงแล้วเป็นปัญหาการเขียนโปรแกรมเชิงเส้นแบบผสม 0–1 ^ที่สามารถแก้ไขได้โดยใช้อัลกอริทึมการแบ่งแยกและขอบเขต^[ 44 ^]

ต้นไม้ที่เป็นระเบียบ

คุณลักษณะจากต้นไม้ตัดสินใจ หรือ กลุ่มต้นไม้แสดงให้เห็นว่าซ้ำซ้อน วิธีการล่าสุดที่เรียกว่าต้นไม้แบบมีการควบคุม^{[ 45 ]}สามารถใช้สำหรับการเลือกชุดย่อยของคุณลักษณะ ต้นไม้แบบมีการควบคุมจะลงโทษโดยใช้ตัวแปรที่คล้ายกับตัวแปรที่เลือกไว้ที่โหนดต้นไม้ก่อนหน้าสำหรับการแบ่งโหนดปัจจุบัน ต้นไม้แบบมีการควบคุมจำเป็นต้องสร้างแบบจำลองต้นไม้เพียงแบบเดียว (หรือแบบจำลองกลุ่มต้นไม้เพียงแบบเดียว) ดังนั้นจึงมีประสิทธิภาพในการคำนวณ

ต้นไม้แบบ Regularized สามารถจัดการกับคุณลักษณะเชิงตัวเลขและเชิงหมวดหมู่ ปฏิสัมพันธ์ และความไม่เป็นเชิงเส้นได้อย่างเป็นธรรมชาติ ต้นไม้เหล่านี้ไม่เปลี่ยนแปลงตามมาตราส่วนของคุณลักษณะ (หน่วย) และไม่ไวต่อค่าผิด ปกติ ดังนั้นจึงต้องการการประมวลผลข้อมูล ล่วงหน้าเพียงเล็กน้อย เช่นการทำให้เป็นมาตรฐานป่าสุ่มแบบ Regularized (RRF) ^{[ 46 ]}เป็นต้นไม้แบบ Regularized ประเภทหนึ่ง RRF แบบมีคำแนะนำคือ RRF ที่ได้รับการปรับปรุงซึ่งมีคำแนะนำจากคะแนนความสำคัญจากป่าสุ่มทั่วไป

ภาพรวมของวิธีการเมตาฮิวริสติกส์

เมตาฮิวริสติกส์คือคำอธิบายทั่วไปของอัลกอริทึมที่ออกแบบมาเพื่อแก้ปัญหาการหาค่าเหมาะสมที่สุดที่ยาก (โดยทั่วไปคือ ปัญหา NP-hard ) ซึ่งไม่มีวิธีการแก้ปัญหาแบบดั้งเดิม โดยทั่วไปแล้ว เมตาฮิวริสติกส์เป็นอัลกอริทึมแบบสุ่มที่มุ่งไปสู่ค่าเหมาะสมที่สุดทั่วโลก มีเมตาฮิวริสติกส์หลายประเภท ตั้งแต่การค้นหาแบบโลคอลอย่างง่ายไปจนถึงอัลกอริทึมการค้นหาแบบโกลบอลที่ซับซ้อน

หลักการสำคัญ

โดยทั่วไป วิธีการเลือกคุณลักษณะจะถูกแบ่งออกเป็นสามประเภทตามวิธีการผสานรวมอัลกอริธึมการเลือกและการสร้างแบบจำลอง

วิธีการกรอง

วิธีการกรองสำหรับการเลือกคุณลักษณะ

วิธีการแบบฟิลเตอร์จะเลือกตัวแปรโดยไม่คำนึงถึงแบบจำลอง โดยจะอิงตามคุณลักษณะทั่วไป เช่น ความสัมพันธ์กับตัวแปรที่จะทำนายเท่านั้น วิธีการแบบฟิลเตอร์จะระงับตัวแปรที่น่าสนใจน้อยที่สุด ตัวแปรอื่นๆ จะเป็นส่วนหนึ่งของแบบจำลองการจำแนกประเภทหรือการถดถอยที่ใช้ในการจำแนกหรือทำนายข้อมูล วิธีการเหล่านี้มีประสิทธิภาพเป็นพิเศษในด้านเวลาในการคำนวณและมีความทนทานต่อการเกิดโอเวอร์ฟิตติ้ง^{[ 47 ]}

วิธีการกรองมักจะเลือกตัวแปรที่ซ้ำซ้อนเมื่อไม่ได้พิจารณาความสัมพันธ์ระหว่างตัวแปร อย่างไรก็ตาม คุณสมบัติที่ซับซ้อนกว่าจะพยายามลดปัญหานี้โดยการลบตัวแปรที่มีความสัมพันธ์กันสูง เช่น อัลกอริทึม Fast Correlation Based Filter (FCBF) ^{[ 48 ]}

วิธีการห่อหุ้ม

วิธีการ Wrapper จะประเมินชุดย่อยของตัวแปร ซึ่งช่วยให้สามารถตรวจจับปฏิสัมพันธ์ที่เป็นไปได้ระหว่างตัวแปรได้ ซึ่งแตกต่างจากวิธีการกรอง^{[ 49 ]}ข้อเสียหลักสองประการของวิธีการเหล่านี้คือ:

ความเสี่ยงต่อการเกิดภาวะโอเวอร์ฟิตติ้งจะเพิ่มขึ้นเมื่อจำนวนข้อมูลไม่เพียงพอ
เวลาในการคำนวณจะสูงขึ้นอย่างมากเมื่อจำนวนตัวแปรมีมาก

วิธีการฝังตัว

เมื่อเร็วๆ นี้ได้มีการเสนอวิธีการฝังตัวที่พยายามรวมข้อดีของทั้งสองวิธีก่อนหน้านี้เข้าด้วยกัน อัลกอริทึมการเรียนรู้ใช้ประโยชน์จากกระบวนการเลือกตัวแปรของตัวเองและทำการเลือกคุณลักษณะและการจำแนกประเภทพร้อมกัน เช่น อัลกอริทึม FRMT ^{[ 50 ]}

การประยุกต์ใช้เมตาฮิวริสติกในการเลือกคุณลักษณะ

นี่คือการสำรวจการประยุกต์ใช้เมตาฮิวริสติกการเลือกคุณลักษณะที่ใช้ในวรรณกรรมเมื่อเร็ว ๆ นี้ การสำรวจนี้จัดทำโดย J. Hammon ในวิทยานิพนธ์ของเธอในปี 2013 ^{[ 47 ]}

แอปพลิเคชัน	อัลกอริทึม	เข้าใกล้	ตัวจำแนก	ฟังก์ชันการประเมินผล	อ้างอิง
เอสเอ็นพี	การเลือกคุณลักษณะโดยใช้ความคล้ายคลึงของคุณลักษณะ	กรอง		ร²	ฟอง 2005 ^{[ 49 ]}
เอสเอ็นพี	อัลกอริทึมทางพันธุกรรม	ห่อ	แผนผังการตัดสินใจ	ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า)	ชาห์ 2004 ^{[ 51 ]}
เอสเอ็นพี	การปีนเขา	ตัวกรอง + ตัวห่อ	เบย์เซียนแบบง่าย	ผลรวมกำลังสองของค่าความคลาดเคลื่อนที่คาดการณ์ไว้	ลอง 2007 ^{[ 52 ]}
เอสเอ็นพี	การอบอ่อนจำลอง		เบย์เซียนแบบง่าย	ความแม่นยำในการจำแนกประเภท (5 เท่า)	อุสตุนการ์ 2011 ^{[ 53 ]}
การปล่อยตัวชั่วคราวบางส่วน	อาณานิคมมด	ห่อ	โครงข่ายประสาทเทียม	เอ็มเอสอี	อัล-อานี 2005 ^{[ 54 ]}
การตลาด	การอบอ่อนจำลอง	ห่อ	การถดถอย	เอไอซี , อาร์²	เมอิริ 2006 ^{[ 55 ]}
เศรษฐศาสตร์	การอบชุบแบบจำลอง, อัลกอริทึมทางพันธุกรรม	ห่อ	การถดถอย	บีไอซี	Kapetanios 2007 ^{[ 56 ]}
มวลสเปกตรัม	อัลกอริทึมทางพันธุกรรม	ห่อ	การถดถอยเชิงเส้นหลายตัวแปร, กำลังสองน้อยที่สุดบางส่วน	ค่าความคลาดเคลื่อนกำลังสองเฉลี่ยรากของการทำนาย	บรอดเฮิร์สต์และคณะ 1997 ^{[ 57 ]}
สแปม	ไบนารี PSO + การกลายพันธุ์	ห่อ	แผนผังการตัดสินใจ	ต้นทุนถ่วงน้ำหนัก	Zhang 2014 ^{[ 24 ]}
ไมโครอาร์เรย์	การค้นหาต้องห้าม + PSO	ห่อ	เครื่องสนับสนุนเวกเตอร์ (Support Vector Machine)เพื่อนบ้านที่ใกล้ที่สุด K ตัว (K Nearest Neighbors)	ระยะทางแบบยูคลิด	ชวง 2009 ^{[ 58 ]}
ไมโครอาร์เรย์	PSO + อัลกอริทึมทางพันธุกรรม	ห่อ	เครื่องสนับสนุนเวกเตอร์	ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า)	อัลบา 2007 ^{[ 59 ]}
ไมโครอาร์เรย์	อัลกอริทึมทางพันธุกรรม + การค้นหาแบบโลคอลซ้ำ	ฝังตัว	เครื่องสนับสนุนเวกเตอร์	ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า)	ดูวัล 2009 ^{[ 60 ]}
ไมโครอาร์เรย์	การค้นหาในพื้นที่แบบวนซ้ำ	ห่อ	การถดถอย	ความน่าจะเป็นภายหลัง	ฮันส์ 2007 ^{[ 61 ]}
ไมโครอาร์เรย์	อัลกอริทึมทางพันธุกรรม	ห่อ	K เพื่อนบ้านที่ใกล้ที่สุด	ความแม่นยำในการจำแนกประเภท ( การตรวจสอบแบบไขว้โดยตัดออกทีละตัว )	จิราเปช-อุมไพ 2548 ^{[ 62 ]}
ไมโครอาร์เรย์	อัลกอริทึมพันธุกรรมแบบไฮบริด	ห่อ	K เพื่อนบ้านที่ใกล้ที่สุด	ความแม่นยำในการจำแนกประเภท (การตรวจสอบแบบไขว้โดยตัดออกทีละรายการ)	โอ้ 2004 ^{[ 63 ]}
ไมโครอาร์เรย์	อัลกอริทึมทางพันธุกรรม	ห่อ	เครื่องสนับสนุนเวกเตอร์	ความไวและความจำเพาะ	ซวน 2011 ^{[ 64 ]}
ไมโครอาร์เรย์	อัลกอริทึมทางพันธุกรรม	ห่อ	เครื่องสนับสนุนเวกเตอร์แบบจับคู่ทั้งหมด	ความแม่นยำในการจำแนกประเภท (การตรวจสอบแบบไขว้โดยตัดออกทีละรายการ)	เผิง 2546 ^{[ 65 ]}
ไมโครอาร์เรย์	อัลกอริทึมทางพันธุกรรม	ฝังตัว	เครื่องสนับสนุนเวกเตอร์	ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า)	เฮอร์นันเดซ 2007 ^{[ 66 ]}
ไมโครอาร์เรย์	อัลกอริทึมทางพันธุกรรม	ไฮบริด	เครื่องสนับสนุนเวกเตอร์	ความแม่นยำในการจำแนกประเภท (การตรวจสอบแบบไขว้โดยตัดออกทีละรายการ)	Huerta 2006 ^{[ 67 ]}
ไมโครอาร์เรย์	อัลกอริทึมทางพันธุกรรม		เครื่องสนับสนุนเวกเตอร์	ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า)	มูนิ 2006 ^{[ 68 ]}
ไมโครอาร์เรย์	อัลกอริทึมทางพันธุกรรม	ห่อ	เครื่องสนับสนุนเวกเตอร์	เอ่อ-ไดอัล, ลัมป์	จอร์แดน 2005 ^{[ 69 ]}
โรคอัลไซเมอร์	การทดสอบทีของเวลช์	กรอง	เครื่องสนับสนุนเวกเตอร์	ความแม่นยำในการจำแนกประเภท (เพิ่มขึ้น 10 เท่า)	Zhang 2015 ^{[ 70 ]}
คอมพิวเตอร์วิชั่น	การเลือกคุณสมบัติที่ไร้ขีดจำกัด	กรอง	เป็นอิสระ	ความแม่นยำเฉลี่ย , ROC AUC	Roffo 2015 ^{[ 71 ]}
ไมโครอาร์เรย์	ความเป็นศูนย์กลางของเวกเตอร์เฉพาะ FS	กรอง	เป็นอิสระ	ค่าเฉลี่ยความแม่นยำ, ความถูกต้อง, ROC AUC	Roffo & Melzi 2016 ^{[ 72 ]}
อีเอ็มแอลอี	เทาสมมาตร (ST)	กรอง	การจำแนกประเภทเชิงสัมพันธ์โครงสร้าง	ความแม่นยำ, ความครอบคลุม	ชาฮารานีและฮัดซิช 2014

การเลือกคุณลักษณะที่ฝังอยู่ในอัลกอริธึมการเรียนรู้

อัลกอริทึมการเรียนรู้บางตัวทำการเลือกคุณลักษณะเป็นส่วนหนึ่งของการทำงานโดยรวม ซึ่งได้แก่:

เทคนิคการปรับค่าให้ เป็นระเบียบ $l_{1}$ เช่น การถดถอยแบบเบาบาง (sparse regression), LASSO และSVM $l_{1}$
ต้นไม้ที่มีการควบคุม^{[ 45 ]}เช่น ป่าสุ่มที่มีการควบคุมซึ่งใช้งานในแพ็คเกจ RRF ^{[ 46 ]}
แผนผังการตัดสินใจ^{[ 73 ]}
อัลกอริทึมมีเมติก
โลจิตมัลติโนเมียลแบบสุ่ม (RMNL)
เครือข่าย การเข้ารหัสอัตโนมัติที่มีเลเยอร์คอขวด
การเลือกคุณลักษณะย่อยโมดูลาร์^{[ 74 ]}^{[ 75 ]}^{[ 76 ]}
การเลือกคุณลักษณะตามการเรียนรู้ในพื้นที่^{[ 77 ]}เมื่อเปรียบเทียบกับวิธีการแบบดั้งเดิม วิธีนี้ไม่ต้องใช้การค้นหาแบบฮิวริสติก สามารถจัดการกับปัญหาหลายคลาสได้อย่างง่ายดาย และใช้งานได้ทั้งกับปัญหาเชิงเส้นและไม่เชิงเส้น นอกจากนี้ยังได้รับการสนับสนุนจากพื้นฐานทางทฤษฎีที่แข็งแกร่ง การทดลองเชิงตัวเลขแสดงให้เห็นว่าวิธีนี้สามารถบรรลุโซลูชันที่ใกล้เคียงกับค่าที่เหมาะสมที่สุดได้ แม้ว่าข้อมูลจะมีคุณลักษณะที่ไม่เกี่ยวข้องมากกว่า 1 ล้านรายการก็ตาม
ระบบแนะนำตามการเลือกคุณลักษณะ^{[ 78 ]}วิธีการเลือกคุณลักษณะได้รับการแนะนำในการวิจัยระบบแนะนำ

ดูเพิ่มเติม

อ่านเพิ่มเติม

Guyon, Isabelle; Elisseeff, Andre (2003). "บทนำเกี่ยวกับการเลือกตัวแปรและคุณลักษณะ"วารสารการวิจัยการเรียนรู้ของเครื่องจักร 3 : 1157– 1182 .
Harrell, F. (2001). กลยุทธ์การสร้างแบบจำลองการถดถอย . Springer. ISBN 0-387-95232-2.
Liu, Huan; Motoda, Hiroshi (1998). การคัดเลือกคุณลักษณะเพื่อการค้นพบองค์ความรู้และการทำเหมืองข้อมูล . Springer. ISBN 0-7923-8198-X.
Liu, Huan; Yu, Lei (2005). "มุ่งสู่การบูรณาการอัลกอริธึมการเลือกคุณลักษณะสำหรับการจำแนกและการจัดกลุ่ม" IEEE Transactions on Knowledge and Data Engineering . 17 (4): 491– 502. Bibcode : 2005IDSO...17..491L . doi : 10.1109/TKDE.2005.66 . S2CID 1607600 .

ลิงก์ภายนอก

ชุดโปรแกรมเลือกคุณลักษณะ (Feature Selection Package), มหาวิทยาลัยรัฐแอริโซนา (โค้ด Matlab)
การแข่งขัน NIPS ปี 2003 (ดูเพิ่มเติมที่NIPS )
การใช้งาน Naive Bayes พร้อมการเลือกคุณลักษณะใน Visual Basic เก็บถาวรเมื่อวันที่ 14 กุมภาพันธ์ 2009 ที่Wayback Machine (รวมถึงไฟล์ปฏิบัติการและซอร์สโค้ด)
โปรแกรมการเลือกคุณลักษณะที่มีความซ้ำซ้อนน้อยที่สุดและมีความเกี่ยวข้องสูงสุด (mRMR)
FEAST (อัลกอริทึมการเลือกคุณลักษณะแบบโอเพนซอร์สในภาษา C และ MATLAB)

[ 1 ]

[ 2 ]

คำ

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

ข้อมูลร่วมกัน [ 10 ] ข้อมูลร่วมกันแบบจุดต่อจุด [

12

[

[

[

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[

[

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

ที่

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

[ 62 ]

[ 63 ]

[ 64 ]

[ 65 ]

[ 66 ]

[ 67 ]

[ 68 ]

[ 69 ]

[ 70 ]

[ 71 ]

[ 72 ]

[ 73 ]

[ 74 ]

[ 75 ]

[ 76 ]

[ 77 ]

[ 78 ]