เพอร์เซปตรอนเคอร์เนล

Q: ข้อมูลสำคัญเกี่ยวกับ เพอร์เซปตรอนเคอร์เนล

ในการเรียนรู้ของเครื่อง เพ อร์เซปตรอนเคอร์เนลเป็นรูปแบบหนึ่งของ อัลกอริ ธึมการเรียนรู้เพอร์เซปตรอนยอดนิยมที่สามารถเรียนรู้เครื่องเคอร์เนล ได้ กล่าวคือ

ในการเรียนรู้ของเครื่อง เพ อร์เซปตรอนเคอร์เนลเป็นรูปแบบหนึ่งของ อัลกอริ ธึมการเรียนรู้เพอร์เซปตรอนยอดนิยมที่สามารถเรียนรู้เครื่องเคอร์เนล ได้ กล่าวคือ ตัวจำแนกแบบไม่เชิงเส้นที่ใช้ฟังก์ชันเคอร์เนลในการคำนวณความคล้ายคลึงกันของตัวอย่างที่ไม่เคยเห็นมาก่อนกับตัวอย่างการฝึกอบรม อัลกอริธึมนี้ถูกคิดค้นขึ้นในปี พ.ศ. 2507 ^{[ 1 ]}ทำให้เป็นตัวเรียนรู้การจำแนกประเภทเคอร์เนลตัวแรก^{[ 2 ]}

เบื้องต้น

อัลกอริทึมเพอร์เซปตรอน

อัลกอริทึมเพอร์เซปตรอนเป็น อัลกอริทึม การเรียนรู้แบบออนไลน์ที่ทำงานโดยหลักการที่เรียกว่า "การเรียนรู้ที่ขับเคลื่อนด้วยข้อผิดพลาด" มันปรับปรุงโมเดลอย่างต่อเนื่องโดยการรันโมเดลกับตัวอย่างการฝึกอบรม จากนั้นอัปเดตโมเดลเมื่อใดก็ตามที่พบว่าได้จำแนกประเภทผิดพลาดเมื่อเทียบกับ สัญญาณ ที่ได้รับการกำกับดูแลโมเดลที่เรียนรู้โดยอัลกอริทึมเพอร์เซปตรอนมาตรฐานคือตัว จำแนกไบนารี เชิงเส้น : เวกเตอร์ของน้ำหนัก $w$ (และอาจมีเทอมค่าคงที่ $b$ ซึ่งละไว้ในที่นี้เพื่อความง่าย) ที่ใช้ในการจำแนกเวกเตอร์ตัวอย่าง $x$ เป็นคลาส "หนึ่ง" หรือคลาส "ลบหนึ่ง" ตาม

{\hat {y}}=\operatorname {sgn}(\mathbf {w} ^{\top }\mathbf {x} )

โดยที่ค่าศูนย์จะถูกแปลงเป็นค่าหนึ่งหรือลบหนึ่งโดยพลการ (เครื่องหมาย " หมวก " บน $ŷ$ หมายถึงค่าประมาณ)

ในรูปแบบรหัสเทียมอัลกอริทึมเพอร์เซปตรอนแสดงได้ดังนี้:

กำหนดค่าเริ่มต้นให้

w

เป็นเวกเตอร์ที่มีค่าเป็นศูนย์ทั้งหมด และมีความยาวเท่ากับ

p

ซึ่งเป็นจำนวนตัวแปรทำนาย (คุณลักษณะ)

ทำซ้ำเป็นจำนวนครั้งที่กำหนดไว้ หรือจนกว่าจะถึงเกณฑ์การหยุดทำงานที่กำหนดไว้:

สำหรับตัวอย่างการฝึกอบรมแต่ละตัวอย่าง

x i

ที่มีป้ายกำกับความจริงพื้นฐาน

y i \in {-1, 1

}:

ให้

ŷ = sgn(w T x i)

.

ถ้า

ŷ \neq y i

ให้ทำการอัปเดต

w \leftarrow w + y i x i

วิธีการเคอร์เนล

เมื่อเปรียบเทียบกับแบบจำลองเชิงเส้นที่เรียนรู้โดยเพอร์เซปตรอน วิธีเคอร์เนล^{[ 3 ]}เป็นตัวจำแนกประเภทที่จัดเก็บชุดย่อยของตัวอย่างการฝึกอบรม $x i$ เชื่อมโยงน้ำหนัก $α i$ กับแต่ละ ตัวอย่าง และทำการตัดสินใจสำหรับตัวอย่างใหม่ $x'$ โดยการประเมิน

\operatorname {sgn} \sum _{i}\alpha _{i}y_{i}K(\mathbf {x} _{i},\mathbf {x'} )

.

ในที่นี้ $K$ คือฟังก์ชันเคอร์เนล ตามหลักการแล้ว ฟังก์ชันเคอร์เนลคือเคอร์เนลกึ่งบวกที่ไม่เป็นลบ (ดูเงื่อนไขของเมอร์เซอร์ ) ซึ่งแสดงถึงผลคูณภายในระหว่างตัวอย่างในพื้นที่มิติสูง ราวกับว่าตัวอย่างเหล่านั้นได้รับการขยายเพื่อรวมคุณลักษณะเพิ่มเติมโดยฟังก์ชัน $Φ$ : $K (x, x') = Φ(x) \cdot Φ(x')$ โดยสัญชาตญาณแล้ว เราอาจคิดว่ามันเป็นฟังก์ชันความคล้ายคลึงกันระหว่างตัวอย่าง ดังนั้นเครื่องจักรเคอร์เนลจึงกำหนดคลาสของตัวอย่างใหม่โดยการเปรียบเทียบแบบถ่วงน้ำหนักกับชุดข้อมูลฝึกฝน แต่ละฟังก์ชัน $x' \mapsto K (x i, x')$ ทำหน้าที่เป็นฟังก์ชันพื้นฐานในการจำแนกประเภท

อัลกอริทึม

เพื่อให้ได้เวอร์ชันเคอร์เนลของอัลกอริทึมเพอร์เซปตรอน เราต้องกำหนดสูตรในรูปแบบคู่ ก่อน โดยเริ่มจากการสังเกตว่าเวกเตอร์น้ำหนัก $w$ สามารถแสดงได้ในรูปผลรวมเชิงเส้นของ ตัวอย่างการฝึกอบรม $n$ ตัวอย่าง สมการสำหรับเวกเตอร์น้ำหนักคือ

\mathbf {w} =\sum _{i}^{n}\alpha _{i}y_{i}\mathbf {x} _{i}

โดยที่ $α i$ คือจำนวนครั้งที่ $x i$ ถูกจำแนกผิด ทำให้ต้องมีการอัปเดต $w \leftarrow w + y i x i$ โดยใช้ผลลัพธ์นี้ เราสามารถสร้างอัลกอริทึมเพอร์เซปตรอนคู่ ซึ่งวนลูปผ่านตัวอย่างเหมือนเดิม ทำการทำนาย แต่แทนที่จะจัดเก็บและอัปเดตเวกเตอร์น้ำหนัก $w$ มันจะอัปเดตเวกเตอร์ "ตัวนับความผิดพลาด" $α$ แทน เราต้องเขียนสูตรการทำนายใหม่เพื่อกำจัด $w$ ออก ไป ด้วย

{\begin{aligned}{\hat {y}}&=\operatorname {sgn}(\mathbf {w} ^{\mathsf {T}}\mathbf {x} )\\&=\operatorname {sgn} \left(\sum _{i}^{n}\alpha _{i}y_{i}\mathbf {x} _{i}\right)^{\mathsf {T}}\mathbf {x} \\&=\ชื่อตัวดำเนินการ {sgn} \sum _{i}^{n}\alpha _{i}y_{i}(\mathbf {x} _{i}\cdot \mathbf {x} )\end{aligned}}

เมื่อนำสมการทั้งสองนี้ไปใส่ในลูปการฝึกฝน ก็จะได้อัลกอริ ทึม เพอร์เซปตรอนคู่ (dual perceptron algorithm)

สุดท้ายนี้ เราสามารถแทนที่ผลคูณดอทในเพอร์เซปตรอนคู่ด้วยฟังก์ชันเคอร์เนลแบบใดก็ได้ เพื่อให้ได้ผลของแผนที่ฟีเจอร์ $Φ$ โดยไม่ต้องคำนวณ $Φ(x)$ อย่างชัดเจนสำหรับตัวอย่างใดๆ การทำเช่นนี้จะทำให้ได้อัลกอริทึมเพอร์เซปตรอนเคอร์เนล: ^{[ 4 ]}

กำหนดค่าเริ่มต้นให้

α

เป็นเวกเตอร์ที่มีค่าเป็นศูนย์ทั้งหมด และมีความยาว

n

ซึ่งเป็นจำนวนตัวอย่างการฝึกฝน

ทำซ้ำเป็นจำนวนครั้งที่กำหนดไว้ หรือจนกว่าจะถึงเกณฑ์การหยุดทำงานที่กำหนดไว้:

สำหรับตัวอย่างการฝึกอบรมแต่ละตัวอย่าง

x j, y j

:

อนุญาต

{\hat {y}}=\operatorname {sgn} \sum _{i}^{n}\alpha _{i}y_{i}K(\mathbf {x} _{i},\mathbf {x} _{j})

ถ้า

ŷ \neq y j

ให้ทำการอัปเดตโดยเพิ่มค่าตัวนับข้อผิดพลาด:

α j \leftarrow α j + 1

รูปแบบต่างๆ และส่วนขยาย

ปัญหาหนึ่งของเพอร์เซปตรอนแบบเคอร์เนล ดังที่กล่าวมาข้างต้น คือ มันไม่เรียนรู้เครื่องจักรเคอร์เนลแบบเบาบาง ในตอนเริ่มต้น ค่า $α i$ ทั้งหมด เป็นศูนย์ ดังนั้นการประเมินฟังก์ชันการตัดสินใจเพื่อให้ได้ $ŷ$ จึงไม่จำเป็นต้องมีการประเมินเคอร์เนลเลย แต่การอัปเดตแต่ละครั้งจะเพิ่มค่า $α i$ ขึ้นหนึ่งค่า ทำให้การประเมินมีค่าใช้จ่ายสูงขึ้นเรื่อยๆ ยิ่งไปกว่านั้น เมื่อใช้เพอร์เซปตรอนแบบเคอร์เนลใน สภาพแวดล้อม แบบออนไลน์จำนวน $α i$ ที่ไม่เป็นศูนย์ และด้วยเหตุนี้ ค่าใช้จ่ายในการประเมินจะเพิ่มขึ้นเป็นเส้นตรงตามจำนวนตัวอย่างที่นำเสนอให้กับอัลกอริทึม

มีการเสนอให้ใช้รูปแบบ forgetron ของ kernel perceptron เพื่อจัดการกับปัญหานี้ โดยจะรักษา ชุด ตัวอย่างที่ใช้งานอยู่ ซึ่งมี $ค่า α i$ ไม่เป็นศูนย์ และลบ ("ลืม") ตัวอย่างออกจากชุดที่ใช้งานอยู่เมื่อเกินงบประมาณที่กำหนดไว้ล่วงหน้า และ "ลดขนาด" (ลดน้ำหนักของ) ตัวอย่างเก่าเมื่อตัวอย่างใหม่ได้รับการเลื่อนระดับให้มี ค่า $α i$ ไม่เป็นศูนย์^{[ 5 ]}

ปัญหาอีกประการหนึ่งของเคอร์เนลเพอร์เซปตรอนคือมันไม่ได้ทำการปรับค่าทำให้เสี่ยงต่อการเกิดโอเวอร์ฟิตติ้ง อัลกอริทึมการเรียนรู้เคอร์เนลออนไลน์ NORMA สามารถถือได้ว่าเป็นการขยายผลของอัลกอริทึมเคอร์เนลเพอร์เซปตรอนด้วยการปรับค่า^{[ 6 ]}อั ลกอริทึม การปรับค่าขั้นต่ำแบบลำดับ (SMO) ที่ใช้ในการเรียนรู้เครื่องเวกเตอร์สนับสนุนก็สามารถถือได้ว่าเป็นการขยายผลของเคอร์เนลเพอร์เซปตรอนเช่นกัน^{[ 6 ]}

อัลกอริทึมเพอร์เซปตรอนแบบโหวตของ Freund และ Schapire ยังขยายไปถึงกรณีเคอร์เนลไลซ์ด้วย^{[ 7 ]}ทำให้ขอบเขตการวางนัยทั่วไปเทียบได้กับ SVM เคอร์เนล^{[ 2 ]}

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]