แบบจำลองการจำแนก

Q: แบบจำลองการจำแนกบริสุทธิ์เทียบกับแบบจำลองแบบมีเงื่อนไข

แบบ จำลองเงื่อนไข จะจำลอง การกระจายความน่าจะ เป็นแบบมีเงื่อนไขในขณะที่แบบจำลองจำแนกแบบดั้งเดิมมีเป้าหมายเพื่อปรับให้เหมาะสมกับการแมปอินพุตไปรอบๆ ตัวอย่างที่ฝึกฝนที่คล้ายคลึงกันมากที่สุด [ 1 ]

แบบจำลองจำแนก (Discriminative models ) หรือ ที่เรียกว่าแบบจำลองเงื่อนไข (Conditional models ) เป็นแบบจำลองประเภทหนึ่งที่ใช้บ่อยในการจำแนกประเภทในการเรียนรู้ของเครื่อง (Machine learning ) แบบจำลองเหล่านี้มักจะจำลองการแจกแจงเงื่อนไข P(Y∣X) หรือเรียนรู้กฎการตัดสินใจโดยตรงที่แมปอินพุต X ไปยังเอาต์พุต Y แบบจำลองจำแนกมักใช้สำหรับการจำแนกประเภทและการถดถอย (Regression)โดยมีเป้าหมายหลักคือการทำนายข้อมูลใหม่ได้อย่างแม่นยำ โดยทั่วไปจะใช้ในการแก้ ปัญหา การจำแนกประเภทแบบไบนารีเช่น การกำหนดป้ายกำกับ เช่น ผ่าน/ไม่ผ่าน ชนะ/แพ้ มีชีวิต/ตาย หรือ สุขภาพดี/ป่วย ให้กับจุดข้อมูลที่มีอยู่ แบบจำลองจำแนกมักได้รับการฝึกฝนเพื่อแยกคลาสหรือเพื่อลดข้อผิดพลาดในการทำนายภายใต้ฟังก์ชันการสูญเสีย ที่เลือกไว้ มักจะถูกเปรียบเทียบกับแบบจำลองสร้าง (Generative models ) ซึ่งมีเป้าหมายเพื่อจำลองวิธีการสร้างข้อมูลและสามารถใช้เพื่อสุ่มตัวอย่างข้อมูลใหม่ได้

แบบจำลองเชิงจำแนกมีหลายประเภท ได้แก่การถดถอยโลจิสติก (LR), ฟิลด์สุ่มแบบมีเงื่อนไข (CRF), ต้นไม้ตัดสินใจและอื่นๆ อีกมากมาย

คำนิยาม

แตกต่างจากการสร้างแบบจำลองเชิงกำเนิด (generative modelling) ซึ่งศึกษาความน่าจะเป็นร่วมกัน การสร้างแบบจำลองเชิงจำแนก ( discriminative modeling) ศึกษาหรือแมปตัวแปรที่ไม่สามารถสังเกตได้ (เป้าหมาย) ไปยังป้ายกำกับคลาสที่ขึ้นอยู่กับตัวแปรที่สังเกตได้ (ตัวอย่างการฝึกอบรม) ตัวอย่างเช่น ในการจดจำวัตถุ เป้าหมายมักจะเป็นเวกเตอร์ของพิกเซลดิบ (หรือคุณลักษณะที่สกัดจากพิกเซลดิบของภาพ) ภายในกรอบงานเชิงความน่าจะเป็น สิ่งนี้ทำได้โดยการสร้างแบบจำลองการกระจายความน่าจะเป็นแบบมีเงื่อนไขซึ่งสามารถใช้สำหรับการทำนายจากเป้าหมาย โปรดทราบว่ายังคงมีความแตกต่างระหว่างแบบจำลองแบบมีเงื่อนไขและแบบจำลองเชิงจำแนก แม้ว่าส่วนใหญ่มักจะถูกจัดประเภทเป็นแบบจำลองเชิงจำแนกก็ตาม $P(x,y)$ $P(y|x)$ $x$ $y$ $x$ $P(y|x)$ $y$ $x$

แบบจำลองการจำแนกบริสุทธิ์เทียบกับแบบจำลองแบบมีเงื่อนไข

แบบจำลองเงื่อนไข จะจำลอง การกระจายความน่าจะเป็นแบบมีเงื่อนไขในขณะที่แบบจำลองจำแนกแบบดั้งเดิมมีเป้าหมายเพื่อปรับให้เหมาะสมกับการแมปอินพุตไปรอบๆ ตัวอย่างที่ฝึกฝนที่คล้ายคลึงกันมากที่สุด^{[ 1 ]}

เปรียบเทียบกับโมเดลเชิงกำเนิด

ในการจำแนกประเภททางสถิติมีแนวทางหลักสองแนวทาง ได้แก่ แนวทางแบบ สร้าง (generative approach) และ แนวทางแบบ จำแนก (discriminative approach) แนวทางเหล่านี้คำนวณตัวจำแนกประเภทโดยใช้วิธีการที่แตกต่างกัน โดยมีความแตกต่างกันในระดับของการสร้างแบบจำลองทางสถิติคำศัพท์ไม่สอดคล้องกัน^{[ a ]}แต่สามารถแยกประเภทหลักได้สามประเภท:

แบบจำลองเชิงกำเนิด (Generative model) คือแบบจำลองทางสถิติของการกระจายความน่าจะเป็นร่วม บนตัวแปรที่สังเกต ได้ Xและตัวแปรเป้าหมายY ที่กำหนดให้ แบบจำลองเชิงกำเนิดสามารถใช้เพื่อ "สร้าง" ตัวอย่างแบบสุ่ม ( ผลลัพธ์ ) ของการสังเกตxได้ $P(X,Y)$
แบบจำลองจำแนก (Discriminative model)คือแบบจำลองความน่าจะเป็นแบบมีเงื่อนไข ของตัวแปรเป้าหมายYเมื่อกำหนดค่าสังเกตx มาแล้ว แบบจำลองนี้สามารถใช้เพื่อ "จำแนก" ค่าของตัวแปรเป้าหมายYเมื่อกำหนดค่าสังเกตx มาแล้ว ได้ $P(Y\mid X=x)$
ตัวจำแนกที่คำนวณโดยไม่ใช้แบบจำลองความน่าจะเป็นนั้น มักถูกเรียกอย่างไม่เป็นทางการว่า "ตัวจำแนกแบบแยกแยะ" (discriminative)

การแบ่งแยกประเภทระหว่างสองประเภทหลังนี้ไม่ได้มีการระบุไว้อย่างสม่ำเสมอ

การแบ่งประเภทอีกแบบหนึ่งกำหนดสิ่งเหล่านี้อย่างสมมาตรดังนี้:

แบบ จำลอง เชิงกำเนิด (Generative model) คือแบบจำลองของความน่าจะเป็นแบบมีเงื่อนไขของตัวแปรสังเกตได้Xเมื่อกำหนดค่าเป้าหมายy มาให้ ในเชิงสัญลักษณ์ $P(X\mid Y=y)$
แบบ จำลอง จำแนก (Discriminative model) คือแบบจำลองของความน่าจะเป็นแบบมีเงื่อนไขของเป้าหมายYเมื่อกำหนดค่าสังเกตx มาให้ ในเชิงสัญลักษณ์ $P(Y\mid X=x)$

ไม่ว่าคำจำกัดความที่แม่นยำจะเป็นอย่างไร คำศัพท์นี้ก็ถือว่าถูกต้องตามรัฐธรรมนูญ เพราะแบบจำลองเชิงกำเนิดสามารถใช้เพื่อ "สร้าง" ตัวอย่างแบบสุ่ม ( ผลลัพธ์ ) ได้ ไม่ว่าจะเป็นการสังเกตและเป้าหมายหรือการสังเกตxเมื่อกำหนดค่าเป้าหมายy ในขณะที่แบบจำลองเชิงจำแนกหรือตัวจำแนกเชิงจำแนก (โดยไม่ต้องใช้แบบจำลอง) สามารถใช้เพื่อ "จำแนก" ค่า ของตัวแปรเป้าหมายYเมื่อกำหนดการสังเกตx $(x,y)$

ความแตกต่างในแนวทางปฏิบัติ

สมมติว่าเราได้รับป้ายกำกับคลาส (การจำแนกประเภท) และตัวแปรคุณลักษณะเป็นตัวอย่างสำหรับการฝึกอบรม $m$ $n$ $Y:\{y_{1},y_{2},\ldots ,y_{m}\},X:\{x_{1},x_{2},\ldots ,x_{n}\}$

แบบจำลองเชิงกำเนิดจะรับค่าความน่าจะเป็นร่วมโดยที่คือค่าป้อนเข้า และคือป้ายกำกับ และทำนายป้ายกำกับที่เป็นไปได้มากที่สุดสำหรับตัวแปรที่ไม่ทราบค่าโดยใช้ทฤษฎีบทของเบย์ส $P(x,y)$ $x$ $y$ ${\widetilde {y}}\ใน Y$ ${\widetilde {x}}$

แบบจำลองจำแนก (Discriminative models) ต่างจากแบบจำลองสร้าง (Generative models ) ตรงที่ไม่สามารถสร้างตัวอย่างจากผลรวมของการแจกแจงตัวแปรที่สังเกตได้และตัวแปรเป้าหมายได้ อย่างไรก็ตาม สำหรับงานต่างๆ เช่นการจำแนกประเภทและการถดถอยซึ่งไม่จำเป็นต้องใช้ผลรวมของการแจกแจง แบบจำลองจำแนกอาจให้ประสิทธิภาพที่ดีกว่า (ส่วนหนึ่งเป็นเพราะมีตัวแปรที่ต้องคำนวณน้อยกว่า) ในทางกลับกัน แบบจำลองสร้างมักมีความยืดหยุ่นมากกว่าแบบจำลองจำแนกในการแสดงความสัมพันธ์ในงานการเรียนรู้ที่ซับซ้อน นอกจากนี้ แบบจำลองจำแนกส่วนใหญ่เป็นแบบมีผู้กำกับดูแล โดยธรรมชาติ และไม่สามารถรองรับการเรียนรู้แบบไม่มีผู้กำกับดูแลได้ ง่าย รายละเอียดเฉพาะของแอปพลิเคชันจะเป็นตัวกำหนดความเหมาะสมในการเลือกใช้แบบจำลองจำแนกหรือแบบจำลองสร้างในท้ายที่สุด

แบบจำลองจำแนกและแบบจำลองสร้างยังแตกต่างกันในการนำเสนอความเป็นไปได้ภายหลังเพื่อรักษาการสูญเสียที่คาดหวังให้น้อยที่สุด ควรลดการจำแนกผลลัพธ์ผิดพลาดให้น้อยที่สุด ในแบบจำลองจำแนก ความน่าจะเป็นภายหลังจะถูกอนุมานจากแบบจำลองพาราเมตริก โดยที่พารามิเตอร์มาจากข้อมูลการฝึกอบรม จุดประมาณค่าของพารามิเตอร์ได้มาจากการเพิ่มค่าความน่าจะเป็นสูงสุดหรือการคำนวณการกระจายตัวเหนือพารามิเตอร์ ในทางกลับกัน เนื่องจากแบบจำลองสร้างมุ่งเน้นไปที่ความน่าจะเป็นร่วม ความเป็นไปได้ภายหลังของคลาสจึงถูกพิจารณาในทฤษฎีบทของเบย์สซึ่งคือ $P(y|x)$ $P(k)$

P(y|x)={\frac {p(x|y)p(y)}{\textstyle \sum _{i}p(x|i)p(i)\displaystyle }}={\frac {p(x|y)p(y)}{p(x)}}

.

ข้อดีและข้อเสียในการนำไปใช้

ในการทดลองซ้ำๆ ที่ใช้การถดถอยโลจิสติกและเบย์สแบบง่ายสำหรับโมเดลต่างๆ ในงานจำแนกแบบไบนารี การเรียนรู้แบบจำแนกให้ผลลัพธ์ข้อผิดพลาดเชิงอะซิมโทติกที่ต่ำกว่า ในขณะที่การเรียนรู้แบบสร้างให้ผลลัพธ์ข้อผิดพลาดเชิงอะซิมโทติกที่สูงกว่าและเร็วกว่า อย่างไรก็ตาม ในงานร่วมของ Ulusoy และ Bishop เรื่อง การเปรียบเทียบเทคนิคการสร้างและการจำแนกสำหรับการตรวจจับและการจำแนกวัตถุพวกเขาระบุว่าข้อความข้างต้นเป็นจริงเฉพาะเมื่อโมเดลนั้นเหมาะสมกับข้อมูล (กล่าวคือ การกระจายข้อมูลได้รับการจำลองอย่างถูกต้องโดยโมเดลแบบสร้าง)

ข้อดี

ข้อดีที่สำคัญของการใช้แบบจำลองจำแนกประเภทมีดังนี้:

ความแม่นยำที่สูงขึ้น มักนำไปสู่ผลการเรียนรู้ที่ดีขึ้น
ช่วยให้การป้อนข้อมูลง่ายขึ้นและนำเสนอแนวทางที่ตรงไปตรงมา $P(y|x)$
ประหยัดทรัพยากรในการคำนวณ
สร้างข้อผิดพลาดเชิงอะซิมโทติกที่ต่ำกว่า

เมื่อเปรียบเทียบกับข้อดีของการใช้แบบจำลองเชิงกำเนิด:

พิจารณาข้อมูลทั้งหมด ซึ่งอาจส่งผลให้การประมวลผลช้าลง ซึ่งเป็นข้อเสีย
ต้องการตัวอย่างการฝึกอบรมน้อยลง
กรอบการทำงานที่ยืดหยุ่นซึ่งสามารถทำงานร่วมกับความต้องการอื่นๆ ของแอปพลิเคชันได้อย่างง่ายดาย

ข้อเสีย

วิธีการฝึกอบรมมักต้องใช้เทคนิคการหาค่าเหมาะสมที่สุดเชิงตัวเลขหลายวิธี
ในทำนองเดียวกัน ตามคำนิยามแล้ว แบบจำลองการจำแนกจะต้องใช้การผสมผสานของงานย่อยหลายอย่างเพื่อแก้ปัญหาที่ซับซ้อนในโลกแห่งความเป็นจริง

วิธีการสร้างแบบจำลองจำแนกประเภททั่วไป

แนวทางต่อไปนี้ขึ้นอยู่กับสมมติฐานว่าได้รับชุดข้อมูลการฝึกอบรม^โดยที่เป็นผลลัพธ์ที่สอดคล้องกันสำหรับอินพุต[ ²^] $D=\{(x_{i};y_{i})|i\leq N\in \mathbb {Z} \}$ $y_{i}$ $x_{i}$

ตัวจำแนกเชิงเส้น

เราตั้งใจที่จะใช้ฟังก์ชันนี้เพื่อจำลองพฤติกรรมที่เราสังเกตได้จากชุดข้อมูลฝึกฝนโดยใช้ วิธี การจำแนกเชิงเส้นโดยใช้เวกเตอร์คุณลักษณะร่วมฟังก์ชันการตัดสินใจจะถูกกำหนดดังนี้: $f(x)$ $\phi (x,y)$

f(x;w)=\arg \max _{y}w^{T}\phi (x,y)

ตามการตีความของ Memisevic ^{[ 2 ]} ซึ่งก็คือคำนวณคะแนนที่วัดความเข้ากันได้ของอินพุตกับเอาต์พุตที่เป็นไปได้จากนั้นจึงกำหนดคลาสที่มีคะแนนสูงสุด $w^{T}\phi (x,y)$ $c(x,y;w)$ $x$ $y$ $\arg \max$

การถดถอยโลจิสติก (LR)

เนื่องจากฟังก์ชันความสูญเสีย 0-1เป็นฟังก์ชันที่ใช้กันทั่วไปในทฤษฎีการตัดสินใจการแจกแจงความน่าจะ เป็นแบบมีเงื่อนไข โดยที่เป็นเวกเตอร์พารามิเตอร์สำหรับการปรับข้อมูลการฝึกอบรมให้เหมาะสม สามารถนำมาพิจารณาใหม่ได้ดังต่อไปนี้สำหรับแบบจำลองการถดถอยโลจิสติกส์: $P(y|x;w)$ $w$

P(y|x;w)={\frac {1}{Z(x;w)}}\exp(w^{T}\phi (x,y))

, กับ

Z(x;w)=\textstyle \sum _{y}\displaystyle \exp(w^{T}\phi (x,y))

สมการข้างต้นแสดงถึงการถดถอยโลจิสติกส์โปรดสังเกตว่าความแตกต่างที่สำคัญระหว่างแบบจำลองต่างๆ คือวิธีการนำเสนอความน่าจะเป็นภายหลัง ความน่าจะเป็นภายหลังนั้นได้มาจากการอนุมานจากแบบจำลองพาราเมตริก จากนั้นเราสามารถเพิ่มค่าพาราเมตริกให้สูงสุดได้โดยใช้สมการต่อไปนี้:

L(w)=\textstyle \sum _{i}\displaystyle \log p(y^{i}|x^{i};w)

นอกจากนี้ ยังสามารถใช้สมการการสูญเสียแบบลอการิทึมด้านล่างนี้แทนได้:

l^{\log }(x^{i},y^{i},c(x^{i};w))=-\log p(y^{i}|x^{i};w)=\log Z(x^{i};w)-w^{T}\phi (x^{i},y^{i})

เนื่องจากฟังก์ชันความสูญเสียแบบลอการิทึมสามารถหาอนุพันธ์ได้ จึงสามารถใช้วิธีการหาอนุพันธ์ตามเกรเดียนต์เพื่อหาค่าที่เหมาะสมที่สุดของแบบจำลองได้ รับประกันว่าจะได้ค่าที่เหมาะสมที่สุดทั่วโลกเนื่องจากฟังก์ชันเป้าหมายเป็นฟังก์ชันนูน เกรเดียนต์ของความน่าจะเป็นแบบลอการิทึมแสดงได้ดังนี้:

{\frac {\partial L(w)}{\partial w}}=\textstyle \sum _{i}\displaystyle \phi (x^{i},y^{i})-E_{p(y|x^{i};w)}\phi (x^{i},y)

ความคาดหวังของ. อยู่ ที่ไหน $E_{p(y|x^{i};w)}$ $p(y|x^{i};w)$

วิธีการข้างต้นจะช่วยให้การคำนวณมีประสิทธิภาพมากขึ้นสำหรับจำนวนการจำแนกประเภทที่ค่อนข้างน้อย

วัตถุประสงค์การฝึกอบรมและการเพิ่มประสิทธิภาพในการใช้งาน

เนื่องจากวิธีการสร้างแบบจำลองทั้งสองแบบต่างก็มีข้อดีและข้อเสีย การผสมผสานทั้งสองแนวทางจึงเป็นการสร้างแบบจำลองที่ดีในทางปฏิบัติ ตัวอย่างเช่น ในบทความของ Marras เรื่องA Joint Discriminative Generative Model for Deformable Model Construction and Classification [ ^{3 ] เขา}และผู้เขียนร่วมได้ประยุกต์ใช้การผสมผสานของการสร้างแบบจำลองสองแบบในการจำแนกใบหน้าของแบบจำลอง และได้รับความแม่นยำสูงกว่าวิธีการแบบดั้งเดิม

Similarly, Kelm^[4] also proposed the combination of two modelings for pixel classification in his article Combining Generative and Discriminative Methods for Pixel Classification with Multi-Conditional Learning.

During the process of extracting the discriminative features prior to the clustering, Principal component analysis (PCA), though commonly used, is not a necessarily discriminative approach. In contrast, LDA is a discriminative one.^[5]Linear discriminant analysis (LDA), provides an efficient way of eliminating the disadvantage we list above. As we know, the discriminative model needs a combination of multiple subtasks before classification, and LDA provides appropriate solution towards this problem by reducing dimension.

Empirical risk minimization
Common loss functions (log loss, hinge loss, squared loss)
Regularization (L1/L2)
Optimization methods (gradient descent family)

Families and types

Examples of discriminative models include:

Logistic regression, a type of generalized linear regression used for predicting binary or categorical outputs (also known as maximum entropy classifiers)
Boosting (meta-algorithm)
Conditional random fields
Linear regression
Computer vision
Random forests
k-nearest neighbors algorithm
Support Vector Machines
Decision Tree Learning
Maximum-entropy Markov models

Notes

^Three leading sources, Ng & Jordan 2002, Jebara 2004, and Mitchell 2015, give different divisions and definitions.

แหล่งที่มา

เจบารา, โทนี่ (2004). การเรียนรู้ของเครื่องจักร: แบบจำแนกและแบบสร้าง . ชุดหนังสือนานาชาติของสปริงเกอร์ด้านวิศวกรรมและวิทยาศาสตร์คอมพิวเตอร์. คลูเวอร์ อคาเดมิก (สปริงเกอร์). ISBN 978-1-4020-7647-3.
Mitchell, Tom M. (2015). "3. ตัวจำแนกแบบสร้างและแบบจำแนก: Naive Bayes และ Logistic Regression" (PDF) . การเรียนรู้ของเครื่อง .
Ng, Andrew Y. ; Jordan, Michael I. (2002). "เกี่ยวกับตัวจำแนกแบบแยกแยะและแบบสร้าง: การเปรียบเทียบการถดถอยโลจิสติกและเบย์สแบบง่าย" (PDF) . ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท .

[2] Three leading sources, Ng & Jordan 2002, Jebara 2004, and Mitchell 2015, give different divisions and definitions.

[ a ]

3 ] เขา

[4]

[5]

แบบจำลองการจำแนก

แบบจำลองการจำแนก

คำนิยาม

แบบจำลองการจำแนกบริสุทธิ์เทียบกับแบบจำลองแบบมีเงื่อนไข

เปรียบเทียบกับโมเดลเชิงกำเนิด

ความแตกต่างในแนวทางปฏิบัติ

ข้อดีและข้อเสียในการนำไปใช้

ข้อดี

ข้อเสีย

วิธีการสร้างแบบจำลองจำแนกประเภททั่วไป

ตัวจำแนกเชิงเส้น

การถดถอยโลจิสติก (LR)

วัตถุประสงค์การฝึกอบรมและการเพิ่มประสิทธิภาพในการใช้งาน

Families and types

See also

Notes

แหล่งที่มา

ข้อมูลสำคัญจากบทความ