กลับไปหน้าบทความ

อ่าน 3 นาที

คุณลักษณะ (การเรียนรู้ของเครื่อง)

ใน การเรียนรู้ของเครื่อง และ การรู้จำรูปแบบ คุณลักษณะ คือคุณสมบัติหรือลักษณะเฉพาะที่วัดได้ของชุดข้อมูล [ 1 ] การเลือกคุณลักษณะที่มีข้อมูล แยกแยะได้...

คุณลักษณะ (การเรียนรู้ของเครื่อง)

ในการเรียนรู้ของเครื่องและการรู้จำรูปแบบคุณลักษณะคือคุณสมบัติหรือลักษณะเฉพาะที่วัดได้ของชุดข้อมูล[ 1 ]การเลือกคุณลักษณะที่มีข้อมูล แยกแยะได้ และเป็นอิสระเป็นสิ่งสำคัญในการสร้างอัลกอริธึม ที่มีประสิทธิภาพ สำหรับ งานรู้ จำรูปแบบการจำแนกประเภทและการถดถอยคุณลักษณะมักจะเป็นตัวเลข แต่ประเภทอื่น ๆ เช่นสตริงและกราฟก็ถูกใช้ในการรู้จำรูปแบบทางไวยากรณ์หลังจากขั้นตอนการประมวลผลล่วงหน้าบางอย่าง เช่นการเข้ารหัสแบบวันฮอตแนวคิดของ "คุณลักษณะ" เกี่ยวข้องกับตัวแปรอธิบายที่ใช้ในเทคนิคทางสถิติ เช่นการถดถอยเชิงเส้น

ประเภทคุณลักษณะ

ในการสร้างคุณลักษณะ (Feature Engineering) คุณลักษณะที่ใช้กันทั่วไปมีสองประเภท ได้แก่ คุณลักษณะเชิงตัวเลขและคุณลักษณะเชิงหมวดหมู่

คุณลักษณะเชิงตัวเลขคือค่าต่อเนื่องที่สามารถวัดได้บนมาตราส่วน ตัวอย่างของคุณลักษณะเชิงตัวเลข ได้แก่ อายุ ส่วนสูง น้ำหนัก และรายได้ คุณลักษณะเชิงตัวเลขสามารถใช้ในอัลกอริธึมการเรียนรู้ของเครื่องได้โดยตรง

คุณลักษณะเชิงหมวดหมู่คือค่าที่ไม่ต่อเนื่องซึ่งสามารถจัดกลุ่มเป็นหมวดหมู่ได้ ตัวอย่างของคุณลักษณะเชิงหมวดหมู่ ได้แก่ เพศ สี และรหัสไปรษณีย์ โดยทั่วไป คุณลักษณะเชิงหมวดหมู่จำเป็นต้องแปลงเป็นคุณลักษณะเชิงตัวเลขก่อนจึงจะสามารถนำไปใช้ในอัลกอริธึมการเรียนรู้ของเครื่องได้ ซึ่งสามารถทำได้โดยใช้เทคนิคต่างๆ เช่น การเข้ารหัสแบบวันฮอต (one-hot encoding) การเข้ารหัสแบบป้ายกำกับ (label encoding) และการเข้ารหัสแบบลำดับ (ordinal encoding)

ประเภทของคุณลักษณะที่ใช้ในวิศวกรรมคุณลักษณะนั้นขึ้นอยู่กับอัลกอริธึมการเรียนรู้ของเครื่องที่ใช้ อัลกอริธึมการเรียนรู้ของเครื่องบางอย่าง เช่น ต้นไม้ตัดสินใจ สามารถจัดการได้ทั้งคุณลักษณะเชิงตัวเลขและเชิงหมวดหมู่ ในขณะที่อัลกอริธึมการเรียนรู้ของเครื่องอื่นๆ เช่น การถดถอยเชิงเส้น สามารถจัดการได้เฉพาะคุณลักษณะเชิงตัวเลขเท่านั้น

การจำแนกประเภท

คุณลักษณะเชิงตัวเลขสามารถอธิบายได้อย่างสะดวกด้วยเวกเตอร์คุณลักษณะ วิธีหนึ่งในการจำแนกแบบไบนารีคือการใช้ฟังก์ชันทำนายเชิงเส้น (ที่เกี่ยวข้องกับเพอร์เซปตรอน ) โดยใช้เวกเตอร์คุณลักษณะเป็นอินพุต วิธีนี้ประกอบด้วยการคำนวณผลคูณเชิงสเกลาร์ระหว่างเวกเตอร์คุณลักษณะและเวกเตอร์น้ำหนัก โดยคัดกรองข้อมูลที่มีผลลัพธ์เกินเกณฑ์ที่กำหนด

อัลกอริทึมสำหรับการจำแนกประเภทจากเวกเตอร์คุณลักษณะ ได้แก่ การจำแนกประเภท โดยใช้เพื่อนบ้านที่ใกล้ที่สุดโครงข่ายประสาทเทียมและเทคนิคทางสถิติเช่นวิธีการแบบเบย์เซียน

ตัวอย่าง

ในการจดจำตัวอักษรคุณลักษณะต่างๆ อาจรวมถึงฮิสโตแกรมที่นับจำนวนพิกเซลสีดำตามแนวนอนและแนวตั้ง จำนวนรูภายใน การตรวจจับเส้นขีด และอื่นๆ อีกมากมาย

ในการรู้จำเสียงพูดคุณลักษณะสำหรับการรู้จำหน่วยเสียงอาจรวมถึงอัตราส่วนเสียงรบกวน ความยาวของเสียง กำลังสัมพัทธ์ การจับคู่ตัวกรอง เวกเตอร์สเปกตรัมมาตราส่วน Mel แบบลอการิทึม และสัมประสิทธิ์เซปสตรัมความถี่ Mel ซึ่งแสดงถึงลักษณะความถี่ของสัญญาณเสียง[ 2 ]

ใน อัลกอริธึมตรวจจับ สแปมคุณลักษณะต่างๆ อาจรวมถึงการมีหรือไม่มีส่วนหัวอีเมลบางอย่าง โครงสร้างของอีเมล ภาษา ความถี่ของคำเฉพาะ และความถูกต้องทางไวยากรณ์ของข้อความ

ในด้านคอมพิวเตอร์วิชั่น มี คุณลักษณะที่เป็นไปได้จำนวนมากเช่น ขอบและวัตถุ

เวกเตอร์คุณลักษณะ

ในการรู้จำรูปแบบและการเรียนรู้ของเครื่องเวกเตอร์คุณลักษณะ คือ เวกเตอร์ n มิติของค่าตัวเลขที่แสดงถึงวัตถุบางอย่างอัลกอริทึม หลายอย่าง ในการเรียนรู้ของเครื่องต้องการการแสดงผลวัตถุในรูปแบบตัวเลข เนื่องจากรูปแบบดังกล่าวช่วยอำนวยความสะดวกในการประมวลผลและการวิเคราะห์ทางสถิติ เมื่อแสดงภาพ ค่าคุณลักษณะอาจสอดคล้องกับพิกเซลของภาพ ในขณะที่เมื่อแสดงข้อความ คุณลักษณะอาจเป็นความถี่ของการปรากฏของคำในข้อความ เวกเตอร์คุณลักษณะเทียบเท่ากับเวกเตอร์ของตัวแปรอธิบายที่ใช้ใน กระบวนการ ทางสถิติเช่นการถดถอยเชิงเส้นเวกเตอร์คุณลักษณะมักถูกรวมเข้ากับน้ำหนักโดยใช้ผลคูณดอทเพื่อสร้างฟังก์ชันทำนายเชิงเส้นที่ใช้ในการกำหนดคะแนนสำหรับการทำนาย

ปริภูมิเวกเตอร์ที่เกี่ยวข้องกับเวกเตอร์เหล่านี้มักเรียกว่าปริภูมิคุณลักษณะเพื่อลดมิติของปริภูมิคุณลักษณะสามารถใช้เทคนิค การลดมิติ ได้หลายวิธี

คุณลักษณะระดับสูงสามารถได้รับจากคุณลักษณะที่มีอยู่แล้วและเพิ่มลงในเวกเตอร์คุณลักษณะ ตัวอย่างเช่น สำหรับการศึกษาโรค คุณลักษณะ 'อายุ' มีประโยชน์และกำหนดเป็นอายุ = 'ปีที่เสียชีวิต' ลบ 'ปีเกิด'กระบวนการนี้เรียกว่าการสร้างคุณลักษณะ[ 3 ] [ 4 ]การสร้างคุณลักษณะคือการประยุกต์ใช้ชุดตัวดำเนินการเชิงสร้างสรรค์กับชุดคุณลักษณะที่มีอยู่ ส่งผลให้เกิดการสร้างคุณลักษณะใหม่ ตัวอย่างของตัวดำเนินการเชิงสร้างสรรค์ดังกล่าว ได้แก่ การตรวจสอบเงื่อนไขความเท่าเทียมกัน {=, ≠}, ตัวดำเนินการทางคณิตศาสตร์ {+,−,×, /}, ตัวดำเนินการอาร์เรย์ {max(S), min(S), average(S)} รวมถึงตัวดำเนินการที่ซับซ้อนกว่าอื่นๆ เช่น count(S, C) [ 5 ]ที่นับจำนวนคุณลักษณะในเวกเตอร์คุณลักษณะ S ที่ตรงตามเงื่อนไข C บางอย่าง หรือตัวอย่างเช่น ระยะห่างไปยังคลาสการรับรู้อื่นๆ ที่สรุปโดยอุปกรณ์ที่ยอมรับบางอย่าง การสร้างคุณลักษณะถือเป็นเครื่องมือที่มีประสิทธิภาพในการเพิ่มทั้งความแม่นยำและความเข้าใจในโครงสร้าง โดยเฉพาะอย่างยิ่งในปัญหาที่มีมิติสูง[ 6 ]การประยุกต์ใช้รวมถึงการศึกษาโรคและการจดจำอารมณ์จากคำพูด[ 7 ]

การคัดเลือกและการสกัด

ชุดคุณลักษณะดิบเริ่มต้นอาจซ้ำซ้อนและมีขนาดใหญ่จนทำให้การประมาณค่าและการเพิ่มประสิทธิภาพทำได้ยากหรือไม่ได้ผล ดังนั้นขั้นตอนเบื้องต้นในแอปพลิ เคชัน การเรียนรู้ของเครื่องและการรู้จำรูปแบบ จำนวนมาก จึงประกอบด้วยการเลือกชุดย่อยของคุณลักษณะ หรือการสร้างชุดคุณลักษณะใหม่ที่ลดลงเพื่ออำนวยความสะดวกในการเรียนรู้ และเพื่อปรับปรุงการวางนัยทั่วไปและการตีความ[ 8 ]

การสกัดหรือเลือกคุณลักษณะเป็นการผสมผสานระหว่างศิลปะและวิทยาศาสตร์ การพัฒนาระบบเพื่อทำเช่นนั้นเรียกว่าวิศวกรรมคุณลักษณะซึ่งต้องอาศัยการทดลองความเป็นไปได้หลายๆ แบบ และการผสมผสานเทคนิคอัตโนมัติเข้ากับสัญชาตญาณและความรู้ของผู้เชี่ยวชาญในสาขา นั้นๆ การทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติเรียกว่าการเรียนรู้คุณลักษณะซึ่งเครื่องจักรไม่เพียงแต่ใช้คุณลักษณะเพื่อการเรียนรู้เท่านั้น แต่ยังเรียนรู้คุณลักษณะเหล่านั้นด้วยตนเองอีกด้วย

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Feature_(machine_learning)&oldid=1349019607#Feature_vectors "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ คุณลักษณะ (การเรียนรู้ของเครื่อง)

ใน การเรียนรู้ของเครื่อง และ การรู้จำรูปแบบ คุณลักษณะ คือคุณสมบัติหรือลักษณะเฉพาะที่วัดได้ของชุดข้อมูล [ 1 ] การเลือกคุณลักษณะที่มีข้อมูล แยกแยะได้...

ประเภทคุณลักษณะ

ในการสร้างคุณลักษณะ (Feature Engineering) คุณลักษณะที่ใช้กันทั่วไปมีสองประเภท ได้แก่ คุณลักษณะเชิงตัวเลขและคุณลักษณะเชิงหมวดหมู่

การจำแนกประเภท

คุณลักษณะเชิงตัวเลขสามารถอธิบายได้อย่างสะดวกด้วยเวกเตอร์คุณลักษณะ วิธีหนึ่งในการจำแนก แบบไบนารี คือการใช้ ฟังก์ชันทำนายเชิงเส้น (ที่เกี่ยวข้องกับ เพอร์เซปตรอน ) โดยใช้เวกเตอร์คุณลักษณะเป็นอินพุต วิธีนี้ประกอบด้วยการคำนวณ ผลคูณเชิงสเกลาร์...

ตัวอย่าง

ใน การจดจำตัวอักษร คุณลักษณะต่างๆ อาจรวมถึง ฮิสโตแกรม ที่นับจำนวนพิกเซลสีดำตามแนวนอนและแนวตั้ง จำนวนรูภายใน การตรวจจับเส้นขีด และอื่นๆ อีกมากมาย