ระยะห่างมาก เพื่อนบ้านที่ใกล้ที่สุด

Q: ข้อมูลสำคัญเกี่ยวกับ ระยะห่างมาก เพื่อนบ้านที่ใกล้ที่สุด

การจำแนกประเภทเพื่อนบ้านที่ใกล้ที่สุดที่มีระยะขอบขนาดใหญ่ ( LMNN ) เป็นอัลกอริธึมการเรียนรู้เครื่องจักร เชิงสถิติ สำหรับการเรียนรู้เมตริกโดยจะเรียนรู้เมตริกเทียมที่ออกแบบมาสำหรับ..

การจำแนกประเภทเพื่อนบ้านที่ใกล้ที่สุดที่มีระยะขอบขนาดใหญ่ ( LMNN ) ^{[ 1 ]} เป็นอัลกอริธึม การเรียนรู้เครื่องจักร เชิงสถิติ สำหรับการเรียนรู้เมตริกโดยจะเรียนรู้เมตริกเทียมที่ออกแบบมาสำหรับ การจำแนกประเภท เพื่อนบ้านที่ใกล้ที่สุด kตัว อัลกอริธึมนี้อิงตามการเขียนโปรแกรมเชิงกึ่งกำหนดซึ่งเป็นคลาสย่อยของการเพิ่มประสิทธิภาพแบบนูน

เป้าหมายของการเรียนรู้แบบมีผู้กำกับดูแล (โดยเฉพาะอย่างยิ่งการจำแนกประเภท) คือการเรียนรู้กฎการตัดสินใจที่สามารถจัดหมวดหมู่ข้อมูลตัวอย่างลงในคลาสที่กำหนดไว้ล่วงหน้า กฎเพื่อนบ้านที่ใกล้ที่สุดk ตัว (k-nearest neighbor) สมมติว่า มีชุดข้อมูลฝึกฝน ที่มีป้ายกำกับ (กล่าวคือ ทราบคลาสแล้ว) โดยจะจำแนกข้อมูลตัวอย่างใหม่ด้วยคลาสที่ได้จากการลงคะแนนเสียงส่วนใหญ่ของข้อมูลฝึกฝน (ที่มีป้ายกำกับ) ที่ใกล้ที่สุด k ตัว ความใกล้ชิดจะวัดด้วยเมตริก ที่กำหนดไว้ล่วงหน้า อัลกอริทึมเพื่อนบ้านที่ใกล้ที่สุดที่มีขอบเขตขนาดใหญ่ (Large margin nearest neighbors) เป็นอัลกอริทึมที่เรียนรู้เมตริก (เสมือน) ระดับโลกนี้ในลักษณะที่มีผู้กำกับดูแล เพื่อปรับปรุงความแม่นยำในการจำแนกประเภทของกฎเพื่อนบ้านที่ใกล้ที่สุด k ตัว

การตั้งค่า

แนวคิดหลักเบื้องหลัง LMNN คือการเรียนรู้เมตริกเสมือน (pseudometric) ที่ทำให้ข้อมูลทุกตัวในชุดข้อมูลฝึกฝนถูกล้อมรอบด้วยข้อมูลอย่างน้อย k ตัวที่มีป้ายกำกับคลาสเดียวกัน หากทำได้เช่นนี้ ข้อผิดพลาดแบบ leave-one-out (กรณีพิเศษของการตรวจสอบแบบ cross validation ) จะลดลงเหลือน้อยที่สุด สมมติให้ข้อมูลฝึกฝนประกอบด้วยชุดข้อมูลโดยที่เซตของหมวดหมู่คลาสที่เป็นไปได้คือ $D=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}\subset R^{d}\times C$ $C=\{1,\dots ,c\}$

อัลกอริทึมเรียนรู้มาตรวัดเทียมประเภทหนึ่ง

d({\vec {x}}_{i},{\vec {x}}_{j})=({\vec {x}}_{i}-{\vec {x}}_{j})^{\top }\mathbf {M} ({\vec {x}}_{i}-{\vec {x}}_{j})

.

เพื่อให้นิยามของเมตริกสมบูรณ์ เมทริกซ์จะต้องเป็น เมทริกซ์กึ่งบวก กำหนด (positive semi-definite ) เมตริกแบบยุคลิดเป็นกรณีพิเศษ โดยที่ คือเมทริกซ์เอกลักษณ์การวางนัยทั่วไปนี้มักถูกเรียก (อย่างผิดๆ) ว่าเมตริกแบบมาฮาลาโนบิส $d(\cdot ,\cdot )$ $\mathbf {M}$ $\mathbf {M}$

ภาพที่ 1 แสดงให้เห็นถึงผลกระทบของเมตริกภายใต้ค่าต่างๆวงกลมสองวงแสดงถึงเซตของจุดที่มีระยะห่างเท่ากันจากจุดศูนย์กลางในกรณีของระบบพิกัดยุคลิด เซตนี้จะเป็นวงกลม ในขณะที่ภายใต้เมตริกที่ปรับปรุงแล้ว (มาฮาลาโนบิส) เซตนี้จะกลายเป็นทรงรี $\mathbf {M}$ ${\vec {x}}_{i}$

อัลกอริทึมนี้แยกแยะข้อมูลพิเศษออกเป็นสองประเภท ได้แก่เพื่อนบ้านเป้าหมายและผู้แอบอ้าง

เพื่อนบ้านเป้าหมาย

ก่อนเริ่มการเรียนรู้ จะมีการเลือกเพื่อนบ้านเป้าหมาย โดยแต่ละอินสแตนซ์จะมีเพื่อนบ้านเป้าหมายที่แตกต่างกัน อย่างแน่นอน ซึ่งทั้งหมดจะมีป้ายกำกับคลาสเดียวกันเพื่อนบ้านเป้าหมายคือจุดข้อมูลที่ควรจะกลายเป็นเพื่อนบ้านที่ใกล้ที่สุดภายใต้เมตริกที่เรียนรู้เราจะใช้สัญลักษณ์ แทนเซตของเพื่อนบ้านเป้าหมายสำหรับจุดข้อมูลหนึ่ง ๆ ${\vec {x}}_{i}$ $k$ $D$ $y_{i}$ ${\vec {x}}_{i}$ $N_{i}$

ผู้แอบอ้าง

จุดข้อมูลปลอมคือจุดข้อมูลอื่นที่มีป้ายกำกับคลาสต่างกัน (เช่น) ซึ่งเป็นหนึ่งในจุดข้อมูลเพื่อนบ้านที่ใกล้ที่สุดของ จุดข้อมูลนั้น ในระหว่างการเรียนรู้ อัลกอริทึมจะพยายามลดจำนวนจุดข้อมูลปลอมสำหรับข้อมูลทุกจุดในชุดข้อมูลฝึกฝนให้เหลือน้อยที่สุด ${\vec {x}}_{i}$ ${\vec {x}__{j}$ $y_{i}\neq y_{j}$ ${\vec {x}}_{i}$

อัลกอริทึม

การหาเพื่อนบ้านที่ใกล้ที่สุดแบบมีขอบเขตขนาดใหญ่ (Large margin nearest neighbors) ปรับปรุงเมทริกซ์ด้วยความช่วยเหลือของการเขียนโปรแกรมเชิงกึ่งกำหนด (semidefinite programming ) วัตถุประสงค์มีสองประการคือ สำหรับทุกจุดข้อมูลเพื่อนบ้านเป้าหมายควรอยู่ใกล้และจุดปลอมควรอยู่ห่างไกลรูปที่ 1 แสดงผลของการปรับปรุงดังกล่าวในตัวอย่างประกอบ เมตริกที่เรียนรู้ทำให้เวกเตอร์อินพุตถูกล้อมรอบด้วยอินสแตนซ์การฝึกอบรมของคลาสเดียวกัน หากเป็นจุดทดสอบ ก็จะถูกจำแนกอย่างถูกต้องภายใต้กฎเพื่อนบ้านที่ใกล้ที่สุด $\mathbf {M}$ ${\vec {x}}_{i}$ ${\vec {x}}_{i}$ $k=3$

เป้าหมายการปรับปรุงประสิทธิภาพประการแรกบรรลุได้โดยการลดระยะห่างเฉลี่ยระหว่างอินสแตนซ์และเพื่อนบ้านเป้าหมายให้เหลือน้อยที่สุด

\sum _{i,j\in N_{i}}d({\vec {x}}_{i},{\vec {x}}_{j})

.

เป้าหมายที่สองบรรลุได้โดยการลงโทษระยะห่างของผู้แอบอ้างที่อยู่ห่างออกไปน้อยกว่าหนึ่งหน่วยจากเพื่อนบ้านเป้าหมาย(และด้วยเหตุนี้จึงผลักพวกเขาออกไปจากบริเวณใกล้เคียงของ เป้าหมาย ) ค่าที่ได้ที่จะต้องลดให้เหลือน้อยที่สุดสามารถระบุได้ดังนี้: ${\vec {x}__{l}$ ${\vec {x}__{j}$ ${\vec {x}}_{i}$

\sum _{i,j\in N_{i},l,y_{l}\neq y_{i}}[d({\vec {x}}_{i},{\vec {x}}_{j})+1-d({\vec {x}}_{i},{\vec {x}}_{l})]_{+}

ด้วยฟังก์ชันการสูญเสียแบบบานพับ (hinge loss function ) ซึ่งช่วยให้มั่นใจได้ว่าความใกล้เคียงของผู้แอบอ้างจะไม่ถูกลงโทษเมื่ออยู่นอกขอบเขต ขอบเขตที่มีขนาดหนึ่งหน่วยพอดีจะกำหนดขนาดของเมทริกซ์การเลือกค่าอื่นใดจะส่งผลให้มีการปรับขนาดใหม่ด้วยปัจจัย ${\textstyle [\cdot ]_{+}=\max(\cdot ,0)}$ $M$ $c>0$ $M$ $1/c$

ปัญหาการหาค่าเหมาะสมที่สุดขั้นสุดท้ายจึงเป็นดังนี้:

\min _{\mathbf {M} }\sum _{i,j\in N_{i}}d({\vec {x}__{i},{\vec {x}__{j})+\lambda \sum _{i,j,l}\xi _{ijl}

\forall _{i,j\in N_{i},l,y_{l}\neq y_{i}}

d({\vec {x}}_{i},{\vec {x}}_{j})+1-d({\vec {x}}_{i},{\vec {x}}_{l})\leq \xi _{ijl}

\xi _{ijl}\geq 0

\mathbf {M} \succeq 0

ไฮเปอร์พารามิเตอร์คือค่าคงที่บวกบางค่า (โดยทั่วไปกำหนดผ่านการตรวจสอบแบบไขว้) ในที่นี้ ตัวแปร(พร้อมกับข้อจำกัดสองประเภท) จะเข้ามาแทนที่เทอมในฟังก์ชันต้นทุน พวกมันมีบทบาทคล้ายกับตัวแปรส่วนเกินเพื่อดูดซับขอบเขตของการละเมิดข้อจำกัดของอิมโพสเตอร์ ข้อจำกัดสุดท้ายทำให้มั่นใจได้ว่าเมทริกซ์นั้นเป็นเมทริกซ์กึ่งบวกแน่นอน ปัญหาการหาค่าเหมาะสมที่สุดเป็นตัวอย่างหนึ่งของการเขียนโปรแกรมกึ่งแน่นอน (SDP) แม้ว่า SDP มักจะมีความซับซ้อนในการคำนวณสูง แต่ SDP ตัวอย่างนี้สามารถแก้ไขได้อย่างมีประสิทธิภาพมากเนื่องจากคุณสมบัติทางเรขาคณิตพื้นฐานของปัญหา โดยเฉพาะอย่างยิ่ง ข้อจำกัดของอิมโพสเตอร์ส่วนใหญ่เป็นไปตามเงื่อนไขโดยธรรมชาติและไม่จำเป็นต้องบังคับใช้ในระหว่างการทำงาน (เช่น ชุดตัวแปรนั้นเบาบาง) เทคนิคการแก้ปัญหาที่เหมาะสมเป็นพิเศษคือ วิธี การชุดการทำงานซึ่งจะเก็บชุดข้อจำกัดขนาดเล็กที่บังคับใช้อย่างจริงจังและตรวจสอบข้อจำกัดที่เหลือ (ซึ่งน่าจะเป็นไปตามเงื่อนไข) เป็นครั้งคราวเพื่อให้แน่ใจว่าถูกต้อง ${\textstyle \lambda >0}$ $\xi _{ijl}$ $\mathbf {M}$ $\xi _{ijl}$

ส่วนขยายและตัวแก้ปัญหาที่มีประสิทธิภาพ

LMNN ได้รับการขยายไปยังเมตริกท้องถิ่นหลายตัวในเอกสารปี 2008 ^{[ 2 ]} การขยายนี้ช่วยปรับปรุงข้อผิดพลาดในการจำแนกประเภทได้อย่างมาก แต่เกี่ยวข้องกับปัญหาการเพิ่มประสิทธิภาพที่มีราคาแพงกว่า ในสิ่งพิมพ์ปี 2009 ของพวกเขาในวารสาร Journal of Machine Learning Research ^{[ 3 ]} Weinberger และ Saul ได้พัฒนาตัวแก้ปัญหาที่มีประสิทธิภาพสำหรับโปรแกรมกึ่งกำหนด ซึ่งสามารถเรียนรู้เมตริกสำหรับชุดข้อมูลตัวเลขเขียนด้วยมือ MNIST ได้ภายในเวลาไม่กี่ชั่วโมง โดยเกี่ยวข้องกับข้อจำกัดแบบคู่หลายพันล้านรายการ การใช้งาน Matlab แบบโอเพนซอร์ส มีให้ใช้งานฟรีที่หน้าเว็บของผู้เขียน

Kumal และคณะ^{[ 4 ]}ได้ขยายอัลกอริทึมเพื่อรวมความไม่แปรผันในท้องถิ่นเข้ากับการแปลงพหุนาม หลายตัวแปร และปรับปรุงการควบคุม

ดูเพิ่มเติม

ลิงก์ภายนอก

การใช้งาน Matlab
บทช่วยสอนเกี่ยวกับการเรียนรู้เมตริกซ์ ในงาน ICML 2010

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]