การเรียนรู้แบบกลุ่ม

Q: ข้อมูลสำคัญเกี่ยวกับ การเรียนรู้แบบกลุ่ม

ในทางสถิติและ การเรียนรู้ ของเครื่องวิธีการแบบกลุ่มใช้อัลกอริทึมการเรียนรู้หลายตัวเพื่อให้ได้ประสิทธิภาพการทำนาย ที่ดีกว่า ที่ได้จากอัลกอริทึมการเรียนรู้แต่ละตัวเพียงอย่างเดียว

ในทางสถิติและ การเรียนรู้ ของเครื่องวิธีการแบบกลุ่มใช้อัลกอริทึมการเรียนรู้หลายตัวเพื่อให้ได้ประสิทธิภาพการทำนาย ที่ดีกว่า ที่ได้จากอัลกอริทึมการเรียนรู้แต่ละตัวเพียงอย่างเดียว^{[ 1 ]}^{[ 2 ]}^{[ 3 ]} แตกต่างจากกลุ่มทางสถิติในกลศาสตร์สถิติซึ่งมักจะเป็นอนันต์ กลุ่มการเรียนรู้ของเครื่องประกอบด้วยชุดแบบจำลองทางเลือกที่จำกัดและเป็นรูปธรรมเท่านั้น แต่โดยทั่วไปแล้วจะอนุญาตให้มีโครงสร้างที่ยืดหยุ่นกว่ามากในหมู่แบบจำลองทางเลือกเหล่านั้น

ภาพรวม

อัลกอริทึม การเรียนรู้แบบมีผู้กำกับดูแลจะค้นหาใน พื้นที่ สมมติฐานเพื่อหาสมมติฐานที่เหมาะสมซึ่งจะทำนายได้ดีกับปัญหาเฉพาะ^{[ 4 ]}แม้ว่าพื้นที่นี้จะมีสมมติฐานที่เหมาะสมกับปัญหาเฉพาะอยู่หลายข้อ แต่การหาสมมติฐานที่ดีอาจเป็นเรื่องยากมาก กลุ่มสมมติฐานจะรวมสมมติฐานหลายข้อเข้าด้วยกันเพื่อสร้างสมมติฐานหนึ่งที่ควรจะดีกว่าในทางทฤษฎี

การเรียนรู้แบบกลุ่ม (Ensemble learning) คือ การฝึกฝนอัลกอริธึมการเรียนรู้ของเครื่องสองตัวขึ้นไปใน งานการ จำแนก ประเภท หรือการถดถอยเฉพาะอย่าง อัลกอริธึมภายในแบบจำลองกลุ่มมักถูกเรียกว่า "แบบจำลองพื้นฐาน" "ผู้เรียนพื้นฐาน" หรือ "ผู้เรียนอ่อน" ในเอกสารทางวิชาการ แบบจำลองพื้นฐานเหล่านี้สามารถสร้างขึ้นโดยใช้อัลกอริธึมการสร้างแบบจำลองเพียงตัวเดียว หรือหลายอัลกอริธึมที่แตกต่างกัน แนวคิดคือการฝึกฝนแบบจำลองอ่อนที่หลากหลายในงานการสร้างแบบจำลองเดียวกัน เพื่อให้ผลลัพธ์ของผู้เรียนอ่อนแต่ละตัวมีประสิทธิภาพในการทำนายต่ำ (เช่นมีอคติ สูง ) และในบรรดาผู้เรียนอ่อนทั้งหมด ค่าผลลัพธ์และค่าความคลาดเคลื่อนแสดงให้เห็นถึงความแปรปรวน สูง โดยพื้นฐานแล้ว แบบจำลองการเรียนรู้แบบกลุ่มจะฝึกฝนแบบจำลองที่มีอคติสูง (อ่อน) และความแปรปรวนสูง (หลากหลาย) อย่างน้อยสองตัวเพื่อนำมารวมกันเป็นแบบจำลองที่มีประสิทธิภาพดีกว่า ชุดของแบบจำลองอ่อน ซึ่งจะไม่ให้ผลลัพธ์การทำนายที่น่าพอใจหากใช้แยกกัน จะถูกรวมหรือหาค่าเฉลี่ยเพื่อสร้างแบบจำลองเดียวที่มีประสิทธิภาพสูง แม่นยำ และมีความแปรปรวนต่ำ เพื่อให้เหมาะสมกับงานตามที่ต้องการ

Ensemble learning typically refers to bagging (bootstrap aggregating), boosting or stacking/blending techniques to induce high variance among the base models. Bagging creates diversity by generating random samples from the training observations and fitting the same model to each different sample — also known as homogeneous parallel ensembles. Boosting follows an iterative process by sequentially training each base model on the up-weighted errors of the previous base model, producing an additive model to reduce the final model errors — also known as sequential ensemble learning. Stacking or blending consists of different base models, each trained independently (i.e. diverse/high variance) to be combined into the ensemble model — producing a heterogeneous parallel ensemble. Common applications of ensemble learning include random forests (an extension of bagging), Boosted Tree models, and Gradient Boosted Tree Models. Models in applications of stacking are generally more task-specific — such as combining clustering techniques with other parametric and/or non-parametric techniques.^[5]

Evaluating the prediction of an ensemble typically requires more computation than evaluating the prediction of a single model. In one sense, ensemble learning may be thought of as a way to compensate for poor learning algorithms by performing a lot of extra computation. On the other hand, the alternative is to do a lot more learning with one non-ensemble model. An ensemble may be more efficient at improving overall accuracy for the same increase in compute, storage, or communication resources by using that increase on two or more methods, than would have been improved by increasing resource use for a single method. Fast algorithms such as decision trees are commonly used in ensemble methods (e.g., random forests), although slower algorithms can benefit from ensemble techniques as well.

By analogy, ensemble techniques have been used also in unsupervised learning scenarios, for example in consensus clustering or in anomaly detection.

Ensemble theory

Empirically, ensembles tend to yield better results when there is a significant diversity among the models.^[6]^[7] Many ensemble methods, therefore, seek to promote diversity among the models they combine.^[8]^[9] Although perhaps non-intuitive, more random algorithms (like random decision trees) can be used to produce a stronger ensemble than very deliberate algorithms (like entropy-reducing decision trees).^[10] Using a variety of strong learning algorithms, however, has been shown to be more effective than using techniques that attempt to dumb-down the models in order to promote diversity.^[11] It is possible to increase diversity in the training stage of the model using correlation for regression tasks ^[12] or using information measures such as cross entropy for classification tasks.^[13]

Theoretically, one can justify the diversity concept because the lower bound of the error rate of an ensemble system can be decomposed into accuracy, diversity, and the other term.^[14]

The geometric framework

Ensemble learning, including both regression and classification tasks, can be explained using a geometric framework.^[15] Within this framework, the output of each individual classifier or regressor for the entire dataset can be viewed as a point in a multi-dimensional space. Additionally, the target result is also represented as a point in this space, referred to as the "ideal point."

The Euclidean distance is used as the metric to measure both the performance of a single classifier or regressor (the distance between its point and the ideal point) and the dissimilarity between two classifiers or regressors (the distance between their respective points). This perspective transforms ensemble learning into a deterministic problem.

For example, within this geometric framework, it can be proved that the averaging of the outputs (scores) of all base classifiers or regressors can lead to equal or better results than the average of all the individual models. It can also be proved that if the optimal weighting scheme is used, then a weighted averaging approach can outperform any of the individual classifiers or regressors that make up the ensemble or as good as the best performer at least.

Ensemble size

แม้ว่าจำนวนตัวจำแนกส่วนประกอบของชุดจะมีผลกระทบอย่างมากต่อความแม่นยำของการทำนาย แต่ก็มีงานวิจัยที่กล่าวถึงปัญหานี้อยู่จำนวนจำกัด การกำหนดขนาดของชุด ล่วงหน้ารวมถึงปริมาณและความเร็วของกระแสข้อมูลขนาดใหญ่ ทำให้สิ่งนี้มีความสำคัญยิ่งขึ้นสำหรับตัวจำแนกชุดแบบออนไลน์ โดยส่วนใหญ่แล้วจะใช้การทดสอบทางสถิติในการกำหนดจำนวนส่วนประกอบที่เหมาะสม เมื่อไม่นานมานี้ กรอบแนวคิดเชิงทฤษฎีได้แนะนำว่ามีจำนวนตัวจำแนกส่วนประกอบที่เหมาะสมที่สุดสำหรับชุด โดยที่การมีตัวจำแนกมากกว่าหรือน้อยกว่าจำนวนนี้จะทำให้ความแม่นยำลดลง เรียกว่า "กฎแห่งผลตอบแทนที่ลดลงในการสร้างชุด" กรอบแนวคิดเชิงทฤษฎีของพวกเขาแสดงให้เห็นว่าการใช้จำนวนตัวจำแนกส่วนประกอบอิสระเท่ากับป้ายกำกับคลาสจะให้ความแม่นยำสูงสุด^{[ 16 ]}^{[ 17 ]}

ประเภทของวงดนตรีทั่วไป

ตัวจำแนกแบบเบย์ที่เหมาะสมที่สุด

ตัวจำแนกแบบเบย์สที่เหมาะสมที่สุดเป็นเทคนิคการจำแนกประเภท เป็นการรวมกันของสมมติฐานทั้งหมดในพื้นที่สมมติฐาน โดยเฉลี่ยแล้วไม่มีกลุ่มอื่นใดที่สามารถทำได้ดีกว่า^{[ 18 ]}ตัวจำแนกแบบเบย์สแบบง่ายเป็นเวอร์ชันหนึ่งของสิ่งนี้ที่ถือว่าข้อมูลเป็นอิสระแบบมีเงื่อนไขกับคลาสและทำให้การคำนวณเป็นไปได้มากขึ้น สมมติฐานแต่ละข้อจะได้รับคะแนนเสียงตามสัดส่วนของความน่าจะเป็นที่ชุดข้อมูลการฝึกอบรมจะถูกสุ่มตัวอย่างจากระบบหากสมมติฐานนั้นเป็นจริง เพื่ออำนวยความสะดวกให้กับข้อมูลการฝึกอบรมที่มีขนาดจำกัด คะแนนเสียงของแต่ละสมมติฐานจะถูกคูณด้วยความน่าจะเป็นก่อนหน้าของสมมติฐานนั้นด้วย ตัวจำแนกแบบเบย์สที่เหมาะสมที่สุดสามารถแสดงได้ด้วยสมการต่อไปนี้:

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(T|h_{i})P(h_{i})}

โดยที่คือคลาสที่คาดการณ์คือเซตของคลาสที่เป็นไปได้ทั้งหมดคือพื้นที่สมมติฐานหมายถึงความน่าจะเป็นและคือข้อมูลฝึกฝน ในฐานะกลุ่ม ตัวจำแนกแบบเบย์ที่เหมาะสมที่สุดแสดงถึงสมมติฐานที่ไม่จำเป็นต้องอยู่ในสมมติฐานที่แสดงโดยตัวจำแนกแบบเบย์ที่เหมาะสมที่สุดนั้นเป็นสมมติฐานที่เหมาะสมที่สุดในพื้นที่กลุ่ม (พื้นที่ของกลุ่มที่เป็นไปได้ทั้งหมดที่ประกอบด้วยสมมติฐานใน เท่านั้น) $y$ $C$ $H$ $P$ $T$ $H$ $H$

สูตรนี้สามารถเขียนใหม่ได้โดยใช้ทฤษฎีบทของเบย์สซึ่งกล่าวว่า ความน่าจะเป็นภายหลัง (posterior) เป็นสัดส่วนกับความน่าจะเป็นแบบมีเงื่อนไข (likelihood) คูณด้วยความน่าจะเป็นก่อนหน้า (prior):

P(h_{i}|T)\propto P(T|h_{i})P(h_{i})

เพราะฉะนั้น,

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(h_{i}|T)}

การรวมข้อมูลแบบ Bootstrap (bagging)

ชุดข้อมูลสามชุดที่สร้างขึ้นจากชุดข้อมูลดั้งเดิม ตัวอย่าง A ปรากฏสองครั้งในชุดที่ 1 เนื่องจากถูกเลือกโดยมีการแทนที่

การรวมแบบบูตสแตรป ( bagging ) เกี่ยวข้องกับการฝึกฝนแบบจำลองกลุ่มบน ชุดข้อมูล บูตสแตรปชุดบูตสแตรปถูกสร้างขึ้นโดยการเลือกจากชุดข้อมูลฝึกฝนดั้งเดิมโดยมีการแทนที่ ดังนั้น ชุดบูตสแตรปอาจมีตัวอย่างที่กำหนดเป็นศูนย์ หนึ่ง หรือหลายครั้ง สมาชิกของแบบจำลองกลุ่มยังสามารถมีข้อจำกัดเกี่ยวกับคุณลักษณะ (เช่น โหนดของต้นไม้ตัดสินใจ) เพื่อส่งเสริมการสำรวจคุณลักษณะที่หลากหลาย^{[ 19 ]}ความแปรปรวนของข้อมูลท้องถิ่นในชุดบูตสแตรปและการพิจารณาคุณลักษณะส่งเสริมความหลากหลายในแบบจำลองกลุ่ม และสามารถเสริมความแข็งแกร่งให้กับแบบจำลองกลุ่มได้^{[ 20 ]}เพื่อลดการโอเวอร์ฟิตติ้ง สมาชิกสามารถตรวจสอบความถูกต้องโดยใช้ชุดนอกถุง (ตัวอย่างที่ไม่ได้อยู่ในชุดบูตสแตรป) ^{[ 21 ]}

การอนุมานทำได้โดยการลงคะแนนเสียงของการคาดการณ์จากสมาชิกในกลุ่ม ซึ่งเรียกว่าการรวมกลุ่ม (aggregation ) ดังแสดงในภาพด้านล่างด้วยกลุ่มต้นไม้ตัดสินใจสี่ต้น ตัวอย่างคำถามจะถูกจำแนกโดยแต่ละต้นไม้ เนื่องจากสามในสี่ต้นทำนายว่าเป็น คลาส บวกดังนั้นการจำแนกโดยรวมของกลุ่มจึงเป็นบวกป่าสุ่ม (random forests)ดังที่แสดงในภาพ เป็นการประยุกต์ใช้การรวมกลุ่ม (bagging) ที่พบได้ทั่วไป

การเพิ่มประสิทธิภาพ

การบูสติ้ง (Boosting) เกี่ยวข้องกับการฝึกฝนโมเดลอย่างต่อเนื่องโดยเน้นข้อมูลการฝึกฝนที่โมเดลก่อนหน้าจำแนกผิด ในขั้นต้น ข้อมูลทั้งหมด (D1) มีน้ำหนักเท่ากันและใช้ในการเรียนรู้โมเดลพื้นฐาน M1 ตัวอย่างที่ M1 จำแนกผิดจะได้รับน้ำหนักมากกว่าตัวอย่างที่จำแนกถูกต้อง ข้อมูลที่ได้รับการบูสติ้งแล้ว (D2) จะถูกนำไปใช้ในการฝึกฝนโมเดลพื้นฐานที่สอง M2 และต่อไปเรื่อยๆ การอนุมานจะทำโดยการลงคะแนน

ในบางกรณี การใช้ Boosting ให้ความแม่นยำดีกว่า Bagging แต่มีแนวโน้มที่จะเกิด Overfitting มากกว่า การใช้งาน Boosting ที่พบได้บ่อยที่สุดคือAdaboostแต่มีรายงานว่าอัลกอริทึมใหม่ๆ บางตัวให้ผลลัพธ์ที่ดีกว่า

การหาค่าเฉลี่ยแบบจำลองเบย์เซียน

การหาค่าเฉลี่ยแบบจำลองเบย์เซียน (BMA) ทำนายโดยการหาค่าเฉลี่ยของการทำนายของแบบจำลองที่ถ่วงน้ำหนักด้วยความน่าจะเป็นภายหลังโดยพิจารณาจากข้อมูล^{[ 22 ]}เป็นที่ทราบกันดีว่า BMA โดยทั่วไปให้คำตอบที่ดีกว่าแบบจำลองเดียวที่ได้มา เช่น ผ่านการถดถอยแบบทีละขั้นตอนโดยเฉพาะอย่างยิ่งในกรณีที่แบบจำลองที่แตกต่างกันมากมีประสิทธิภาพเกือบเหมือนกันในชุดข้อมูลการฝึกอบรม แต่อาจมีประสิทธิภาพที่แตกต่างกันอย่างมากในกรณีอื่น ๆ

The question with any use of Bayes' theorem is the prior, i.e., the probability (perhaps subjective) that each model is the best to use for a given purpose. Conceptually, BMA can be used with any prior. R packages ensembleBMA^[23] and BMA^[24] use the prior implied by the Bayesian information criterion, (BIC), following Raftery (1995).^[25]R package BAS supports the use of the priors implied by Akaike information criterion (AIC) and other criteria over the alternative models as well as priors over the coefficients.^[26]

The difference between BIC and AIC is the strength of preference for parsimony. BIC's penalty for model complexity is $\ln(n)k$ , while AIC's is $2k$ . Large-sample asymptotic theory establishes that if there is a best model, then with increasing sample sizes, BIC is strongly consistent, i.e., will almost certainly find it, while AIC may not, because AIC may continue to place excessive posterior probability on models that are more complicated than they need to be. On the other hand, AIC and AICc are asymptotically "efficient" (i.e., minimum mean square prediction error), while BIC is not .^[27]

Haussler et al. (1994) showed that when BMA is used for classification, its expected error is at most twice the expected error of the Bayes optimal classifier.^[28] Burnham and Anderson (1998, 2002) contributed greatly to introducing a wider audience to the basic ideas of Bayesian model averaging and popularizing the methodology.^[29] The availability of software, including other free open-source packages for R beyond those mentioned above, helped make the methods accessible to a wider audience.^[30]

Bayesian model combination

Bayesian model combination (BMC) is an algorithmic correction to Bayesian model averaging (BMA). Instead of sampling each model in the ensemble individually, it samples from the space of possible ensembles (with model weights drawn randomly from a Dirichlet distribution having uniform parameters). This modification overcomes the tendency of BMA to converge toward giving all the weight to a single model. Although BMC is somewhat more computationally expensive than BMA, it tends to yield dramatically better results. BMC has been shown to be better on average (with statistical significance) than BMA and bagging.^[31]

การใช้กฎของเบย์สในการคำนวณน้ำหนักของแบบจำลองนั้น จำเป็นต้องคำนวณความน่าจะเป็นของข้อมูลที่กำหนดให้กับแต่ละแบบจำลอง โดยทั่วไปแล้ว ไม่มีแบบจำลองใดในกลุ่มที่มีลักษณะการกระจายตัวเหมือนกับข้อมูลฝึกฝนทุกประการ ดังนั้นแบบจำลองทั้งหมดจึงได้รับค่าใกล้เคียงศูนย์สำหรับเทอมนี้อย่างถูกต้อง วิธีนี้จะใช้ได้ผลดีหากกลุ่มแบบจำลองมีขนาดใหญ่พอที่จะสุ่มตัวอย่างพื้นที่แบบจำลองทั้งหมด แต่ในความเป็นจริงแล้วเป็นไปได้ยาก ดังนั้น รูปแบบแต่ละแบบในข้อมูลฝึกฝนจะทำให้ค่าน้ำหนักของกลุ่มแบบจำลองเปลี่ยนไปสู่แบบจำลองในกลุ่มที่มีลักษณะการกระจายตัวใกล้เคียงกับข้อมูลฝึกฝนมากที่สุด ซึ่งโดยพื้นฐานแล้วเป็นวิธีการเลือกแบบจำลองที่ซับซ้อนโดยไม่จำเป็น

สามารถมองเห็นภาพน้ำหนักที่เป็นไปได้สำหรับกลุ่มโมเดลได้ว่าอยู่บนรูปซิมเพล็กซ์ ที่แต่ละจุดยอดของซิมเพล็กซ์ น้ำหนักทั้งหมดจะถูกกำหนดให้กับโมเดลเดียวในกลุ่มนั้น BMA จะลู่เข้าสู่จุดยอดที่อยู่ใกล้กับการกระจายของข้อมูลฝึกฝนมากที่สุด ในทางตรงกันข้าม BMC จะลู่เข้าสู่จุดที่การกระจายนี้ฉายลงบนซิมเพล็กซ์ กล่าวอีกนัยหนึ่ง แทนที่จะเลือกโมเดลเดียวที่อยู่ใกล้กับการกระจายที่สร้างขึ้นมากที่สุด มันจะเลือกการรวมกันของโมเดลที่อยู่ใกล้กับการกระจายที่สร้างขึ้นมากที่สุด

ผลลัพธ์จาก BMA มักสามารถประมาณได้โดยใช้การตรวจสอบแบบไขว้ (cross-validation) เพื่อเลือกแบบจำลองที่ดีที่สุดจากกลุ่มแบบจำลอง ในทำนองเดียวกัน ผลลัพธ์จาก BMC ก็สามารถประมาณได้โดยใช้การตรวจสอบแบบไขว้เพื่อเลือกชุดค่าผสมที่ดีที่สุดจากตัวอย่างแบบสุ่มของค่าน้ำหนักที่เป็นไปได้

ถังโมเดล

"กลุ่มโมเดล" (bucket of models) เป็นเทคนิคแบบกลุ่ม (ensemble technique) ที่ใช้ขั้นตอนวิธีเลือกโมเดล (model selection algorithm) เพื่อเลือกโมเดลที่ดีที่สุดสำหรับแต่ละปัญหา เมื่อทดสอบกับปัญหาเพียงปัญหาเดียว กลุ่มโมเดลอาจให้ผลลัพธ์ไม่ดีไปกว่าโมเดลที่ดีที่สุดในชุด แต่เมื่อประเมินผลกับหลายปัญหาแล้ว โดยทั่วไปแล้วจะให้ผลลัพธ์ที่ดีกว่าโมเดลใดๆ ในชุดนั้นอย่างมากโดยเฉลี่ย

วิธีการเลือกแบบจำลองที่ใช้กันทั่วไปมากที่สุดคือ การเลือกโดยใช้ การตรวจสอบแบบไขว้ (บางครั้งเรียกว่า "การแข่งขันตัดสิน") ซึ่งอธิบายได้ด้วยรหัสเทียมดังต่อไปนี้:

สำหรับโมเดล m แต่ละรุ่นในถัง: ทำซ้ำ c ครั้ง: (โดยที่ 'c' เป็นค่าคงที่) แบ่งชุดข้อมูลฝึกฝนออกเป็นสองชุดแบบสุ่ม: ชุด A และชุด B ฝึก m กับ A ทดสอบ m ด้วย B เลือกโมเดลที่ได้คะแนนเฉลี่ยสูงสุด

การเลือกแบบ Cross-Validation สามารถสรุปได้ว่า: "ลองใช้ทั้งหมดกับชุดข้อมูลฝึกฝน และเลือกอันที่ได้ผลดีที่สุด" ^{[ 32 ]}

การคัดกรอง (Gating) เป็นการขยายผลของการเลือกแบบตรวจสอบข้าม (Cross-Validation Selection) โดยเกี่ยวข้องกับการฝึกฝนโมเดลการเรียนรู้เพิ่มเติมเพื่อตัดสินว่าโมเดลใดในกลุ่มเหมาะสมที่สุดในการแก้ปัญหา บ่อยครั้งที่ ใช้ เพอร์เซปตรอน (Perceptron)สำหรับโมเดลคัดกรอง ซึ่งอาจใช้ในการเลือกโมเดล "ที่ดีที่สุด" หรือใช้ในการให้น้ำหนักเชิงเส้นแก่การทำนายจากแต่ละโมเดลในกลุ่มก็ได้

เมื่อใช้โมเดลกลุ่มหนึ่งกับชุดปัญหาจำนวนมาก อาจเป็นที่พึงปรารถนาที่จะหลีกเลี่ยงการฝึกฝนโมเดลบางตัวที่ใช้เวลานานในการฝึกฝน การเรียนรู้แบบแลนด์มาร์คเป็นแนวทางการเรียนรู้แบบเมตาที่มุ่งแก้ปัญหานี้ โดยเกี่ยวข้องกับการฝึกฝนเฉพาะอัลกอริธึมที่เร็ว (แต่ไม่แม่นยำ) ในกลุ่ม จากนั้นใช้ประสิทธิภาพของอัลกอริธึมเหล่านี้เพื่อช่วยกำหนดว่าอัลกอริธึมที่ช้า (แต่แม่นยำ) ใดมีแนวโน้มที่จะทำได้ดีที่สุด^{[ 33 ]}

ต้นทุนครอสเอนโทรปีที่ปรับปรุงแล้ว: แนวทางในการส่งเสริมความหลากหลายในชุดการจำแนกประเภท

วิธีการฝึกตัวจำแนกประเภทที่พบได้บ่อยที่สุดคือการใช้ ฟังก์ชันต้นทุน Cross-entropyอย่างไรก็ตาม เราต้องการฝึกโมเดลแบบกลุ่มที่มีความหลากหลาย เพื่อให้เมื่อรวมเข้าด้วยกันจะได้ผลลัพธ์ที่ดีที่สุด^{[ 34 ]}^{[ 35 ]} สมมติว่าเราใช้กลุ่มตัวจำแนกประเภทแบบเฉลี่ยอย่างง่าย ดังนั้นต้นทุน Cross-Entropy ที่แก้ไขแล้วคือ $K$

e^{k}=H(p,q^{k})-{\frac {\lambda }{K}}\sum _{j\neq k}H(q^{j},q^{k})

โดยที่คือฟังก์ชันต้นทุนของตัวจำแนกคือความน่าจะเป็นของตัวจำแนกคือความน่าจะเป็นที่แท้จริงที่เราต้องประมาณ และคือพารามิเตอร์ระหว่าง 0 ถึง 1 ที่กำหนดความหลากหลายที่เราต้องการสร้างขึ้น เมื่อเราต้องการให้ตัวจำแนกแต่ละตัวทำงานได้ดีที่สุดโดยไม่คำนึงถึงกลุ่มตัวอย่าง และเมื่อเราต้องการให้ตัวจำแนกมีความหลากหลายมากที่สุดเท่าที่จะเป็นไปได้ $e^{k}$ $k^{th}$ $q^{k}$ $k^{th}$ $p$ $\lambda$ $\lambda =0$ $\lambda =1$

การเรียงซ้อน

การซ้อน (บางครั้งเรียกว่าการวางนัยทั่วไปแบบซ้อน ) เกี่ยวข้องกับการฝึกโมเดลเพื่อรวมการคาดการณ์ของอัลกอริทึมการเรียนรู้อื่นๆ หลายตัวเข้าด้วยกัน ก่อนอื่น อัลกอริทึมอื่นๆ ทั้งหมดจะถูกฝึกโดยใช้ข้อมูลที่มีอยู่ จากนั้นอัลกอริทึมตัวรวม (ตัวประมาณค่าสุดท้าย) จะถูกฝึกเพื่อทำการคาดการณ์ขั้นสุดท้ายโดยใช้การคาดการณ์ทั้งหมดของอัลกอริทึมอื่นๆ (ตัวประมาณค่าพื้นฐาน) เป็นอินพุตเพิ่มเติม หรือใช้การคาดการณ์แบบ cross-validated จากตัวประมาณค่าพื้นฐานซึ่งสามารถป้องกันการโอเวอร์ฟิตได้^{[ 36 ]}หากใช้อัลกอริทึมตัวรวมแบบใดก็ได้ การซ้อนสามารถแสดงถึงเทคนิคการรวมกลุ่มใดๆ ที่อธิบายไว้ในบทความนี้ได้ในทางทฤษฎี แม้ว่าในทางปฏิบัติ มักจะใช้โมเดล การถดถอยโลจิสติกเป็นตัวรวมก็ตาม

Stacking typically yields performance better than any single one of the trained models.^[37] It has been successfully used on both supervised learning tasks (regression,^[38] classification and distance learning ^[39]) and unsupervised learning (density estimation).^[40] It has also been used to estimate bagging's error rate.^[3]^[41] It has been reported to out-perform Bayesian model-averaging.^[42] The two top-performers in the Netflix competition utilized blending, which may be considered a form of stacking.^[43]

Bayesian predictive stacking generalizes the idea of stacking from the statistical estimation literature to the combination of posterior predictive distributions.^[44] These ideas have also been developed and investigated for Gaussian process models, especially for spatial data analysis ^[45] and can be used to construct transfer learning frameworks for massive spatial data sets.^[46]

Voting

Voting is another form of ensembling. See e.g. Weighted majority algorithm (machine learning).

Implementations in statistics packages

R: Several packages offer Bayesian model averaging tools,^[47] including the BMS (an acronym for Bayesian Model Selection) package,^[48] the BAS (an acronym for Bayesian Adaptive Sampling) package,^[49] and the BMA package.^[50] Other packages implementing predictive stacking for Gaussian process models include the spStack package.^[51]
Python: scikit-learn, a package for machine learning in Python offers packages for ensemble learning including packages for bagging, voting and averaging methods.
MATLAB: classification ensembles are implemented in Statistics and Machine Learning Toolbox.^[52]

Ensemble learning applications

In recent years, due to growing computational power, which allows for training in large ensemble learning in a reasonable time frame, the number of ensemble learning applications has grown increasingly.^[53] Some of the applications of ensemble classifiers include:

Remote sensing

Land cover mapping

Land cover mapping is one of the major applications of Earth observation satellite sensors, using remote sensing and geospatial data, to identify the materials and objects which are located on the surface of target areas. Generally, the classes of target materials include roads, buildings, rivers, lakes, and vegetation.^[54] Some different ensemble learning approaches based on artificial neural networks,^[55]kernel principal component analysis (KPCA),^[56]decision trees with boosting,^[57]random forest^[54]^[58] and automatic design of multiple classifier systems,^[59] are proposed to efficiently identify land cover objects.

Change detection

Change detection is an image analysis problem, consisting of the identification of places where the land cover has changed over time. Change detection is widely used in fields such as urban growth, forest and vegetation dynamics, land use and disaster monitoring.^[60] The earliest applications of ensemble classifiers in change detection are designed with the majority voting,^[61]Bayesian model averaging,^[62] and the maximum posterior probability.^[63] Given the growth of satellite data over time, the past decade sees more use of time series methods for continuous change detection from image stacks.^[64] One example is a Bayesian ensemble changepoint detection method called BEAST, with the software available as a package Rbeast in R, Python, and Matlab.^[65]

Computer security

Distributed denial of service

Distributed denial of service is one of the most threatening cyber-attacks that may happen to an internet service provider.^[53] By combining the output of single classifiers, ensemble classifiers reduce the total error of detecting and discriminating such attacks from legitimate flash crowds.^[66]

Malware Detection

การจำแนกประเภทของ รหัส มัลแวร์เช่นไวรัสคอมพิวเตอร์เวิร์มคอมพิวเตอร์โทรจันแรนซัมแวร์และสปายแวร์โดยใช้ เทคนิค การเรียนรู้ของเครื่องได้รับแรงบันดาลใจจากปัญหาการจัดหมวดหมู่เอกสาร^{[ 67 ]}ระบบการเรียนรู้แบบกลุ่มได้แสดงให้เห็นถึงประสิทธิภาพที่เหมาะสมในด้านนี้^{[ 68 ]}^{[ 69 ]}

การแข็งตัวของโมเดล

โมเดลการตรวจจับมัลแวร์ เช่นเดียวกับโมเดลการเรียนรู้ของเครื่องทั้งหมด มีความเสี่ยงต่อ การโจมตี การเรียนรู้ของเครื่องที่เป็นปฏิปักษ์ซึ่งผู้โจมตีจะผลักดันขอบเขตของสิ่งที่จัดว่าเป็นมัลแวร์ โดยการหมุนเวียนผ่านกลุ่มโมเดลโดยใช้การป้องกันเป้าหมายเคลื่อนที่^{[ 70 ]}ผู้โจมตีจะมีข้อได้เปรียบด้านความรู้ที่ลดลง

การตรวจจับการบุกรุก

ระบบตรวจจับการบุกรุกจะตรวจสอบเครือข่ายคอมพิวเตอร์หรือระบบคอมพิวเตอร์เพื่อระบุรหัสผู้บุกรุก เช่น กระบวนการ ตรวจจับความผิดปกติการเรียนรู้แบบกลุ่มช่วยให้ระบบตรวจสอบดังกล่าวลดข้อผิดพลาดโดยรวมได้สำเร็จ^{[ 71 ]}^{[ 72 ]}

การจดจำใบหน้า

การจดจำใบหน้าซึ่งเมื่อเร็ว ๆ นี้ได้กลายเป็นหนึ่งในสาขาการวิจัยยอดนิยมที่สุดของการจดจำรูปแบบจัดการกับการระบุหรือตรวจสอบบุคคลโดยใช้ภาพดิจิทัลของ พวกเขา ^{[ 73 ]}

กลุ่มลำดับชั้นที่ใช้ตัวจำแนก Gabor Fisher และ เทคนิค การประมวลผล ล่วงหน้าการวิเคราะห์ส่วนประกอบอิสระ เป็นกลุ่มแรกๆ ที่ใช้ในสาขานี้^[⁷⁴^]^[⁷⁵^]^[⁷⁶^]

การรับรู้ทางอารมณ์

ในขณะที่การรู้จำเสียงพูดส่วนใหญ่ขึ้นอยู่กับการเรียนรู้เชิงลึกเนื่องจากผู้เล่นในอุตสาหกรรมส่วนใหญ่ เช่นGoogle , MicrosoftและIBMเปิดเผยว่าเทคโนโลยีหลักของการรู้จำเสียงพูด ของพวกเขานั้นขึ้นอยู่กับแนวทางนี้ การรู้จำอารมณ์จากเสียงพูดก็สามารถมีประสิทธิภาพที่น่าพอใจด้วยการเรียนรู้แบบกลุ่ม^{[ 77 ]}^{[ 78 ]}และยังถูกนำไปใช้ในการรู้จำอารมณ์จากใบหน้าได้ อย่างประสบความสำเร็จอีกด้วย ^{[ 79 ]}^{[ 80 ]}^{[ 81 ]}

การตรวจจับการฉ้อโกง

การตรวจจับการฉ้อโกงเกี่ยวข้องกับการระบุการฉ้อโกงธนาคารเช่นการฟอกเงิน การ ฉ้อโกงบัตรเครดิตและการฉ้อโกงทางโทรคมนาคมซึ่งมีขอบเขตการวิจัยและการประยุกต์ใช้การเรียนรู้ของเครื่อง ที่กว้างขวาง เนื่องจากการเรียนรู้แบบกลุ่มช่วยเพิ่มความแข็งแกร่งของการสร้างแบบจำลองพฤติกรรมปกติ จึงได้รับการเสนอให้เป็นเทคนิคที่มีประสิทธิภาพในการตรวจจับกรณีและกิจกรรมฉ้อโกงดังกล่าวในระบบธนาคารและบัตรเครดิต^{[ 82 ]}^{[ 83 ]}

การตัดสินใจทางการเงิน

วิธีการเรียนรู้แบบกลุ่มได้รับการนำมาใช้กันอย่างแพร่หลายในด้านการเงินสำหรับงานต่างๆ เช่นการให้คะแนนเครดิต การทำนายการล้มละลายและการจัดการความเสี่ยง ด้วยการรวมโมเดลพื้นฐานหลายแบบเข้าด้วยกัน กลุ่มโมเดลสามารถใช้ประโยชน์ จากความสัมพันธ์ที่ไม่เป็นเชิงเส้น จัดการกับข้อมูลที่มีมิติสูงและมีสัญญาณรบกวน และมักจะให้ประสิทธิภาพนอกตัวอย่างที่เสถียรกว่าโมเดลเดี่ยวหรือพื้นฐานทางสถิติแบบดั้งเดิม เช่นการถดถอยโลจิสติกและโมเดลปัจจัยเชิงเส้น แนวทางนี้สอดคล้องกับแนวโน้มที่กว้างขึ้นในการเรียนรู้ของเครื่องจักรทางการเงินที่อธิบายโดยMarcos López de Pradoซึ่งโต้แย้งว่าการรวมผู้เรียนที่หลากหลายสามารถปรับปรุงความแข็งแกร่ง ลดการเกิดโอเวอร์ฟิตติ้ง และดึงรูปแบบที่คงอยู่จากอนุกรมเวลาทางการเงินที่มีสัญญาณรบกวน^{[ 84 ]}

ในการให้คะแนนเครดิตสำหรับธุรกิจค้าปลีกและองค์กร ตัวจำแนกแบบกลุ่ม เช่นrandom forests , gradient boosting machines และ stacked models มักถูกใช้เพื่อประเมินความเสี่ยงในการผิดนัดชำระหนี้การทบทวนวรรณกรรมอย่างเป็นระบบล่าสุดเกี่ยวกับงานวิจัยการให้คะแนนเครดิตด้วยการเรียนรู้ของเครื่องที่ตีพิมพ์ระหว่างปี 2018 ถึง 2024 รายงานว่ากลุ่มแบบต้นไม้และวิธีการบูสติ้งเป็นหนึ่งในเทคนิคที่ใช้กันทั่วไปมากที่สุด และโดยทั่วไปจะให้ความแม่นยำในการทำนายที่สูงกว่าแบบประเมินคะแนนแบบดั้งเดิมหรือตัวจำแนกเดี่ยว^{[ 85 ]}^{[ 86 ]}

วิธีการแบบกลุ่มยังถูกนำไปใช้กับการทำนายความล้มเหลวและการล้มละลายขององค์กรด้วย การศึกษาเปรียบเทียบโครงสร้างแบบกลุ่มที่แตกต่างกัน (เช่นbagging , boostingและ heterogeneous classifier pools) รายงานว่ากลุ่มที่ปรับแต่งมาอย่างดีมีแนวโน้มที่จะบรรลุความแม่นยำในการจำแนกประเภทที่สูงกว่าและประสิทธิภาพที่แข็งแกร่งกว่าในอุตสาหกรรมต่างๆ เมื่อเทียบกับแบบจำลองแต่ละแบบ[ ^{87 ] ความ}แม่นยำในการทำนายความล้มเหลวทางธุรกิจเป็นประเด็นสำคัญมากในการตัดสินใจทางการเงิน ดังนั้นจึงมีการเสนอตัวจำแนกแบบกลุ่มที่แตกต่างกันเพื่อทำนายวิกฤตการณ์ทางการเงินและความยากลำบากทางการเงิน^{[ 88 ]}นอกจากนี้ ใน ปัญหา การปั่นหุ้นโดยอาศัยการซื้อขายซึ่งผู้ค้าพยายามปั่นราคาหุ้นโดยการซื้อและขาย ตัวจำแนกแบบกลุ่มจำเป็นต้องใช้ในการวิเคราะห์การเปลี่ยนแปลงใน ข้อมูล ตลาดหุ้นและตรวจจับอาการที่น่าสงสัยของการปั่น ราคา หุ้น^[⁸⁸^]

การนำการเรียนรู้แบบกลุ่ม (ensemble learning) ไปประยุกต์ใช้ ไม่เพียงแต่กับแบบจำลองการเรียนรู้ของเครื่องจักร (machine learning models) เท่านั้น แต่ยังรวมถึงกรอบงานทางคณิตศาสตร์ เช่น แบบจำลอง มาร์คอฟที่ซ่อนอยู่ (hidden Markov models)สำหรับการประยุกต์ใช้ในการซื้อขาย การตรวจจับสภาวะตลาด และการกำหนดราคาหลักทรัพย์ ยังคงเป็นพื้นที่การวิจัยที่กำลังพัฒนาอย่างรวดเร็ว

ยา

ตัวจำแนกแบบกลุ่มได้รับการประยุกต์ใช้สำเร็จในด้านประสาทวิทยาโปรตีโอมิกส์และการวินิจฉัยทางการแพทย์เช่น การตรวจจับ ความผิดปกติทางระบบประสาทและสติปัญญา (เช่น โรค อัลไซเมอร์หรือโรคกล้ามเนื้อเสื่อม ) โดยอาศัยชุดข้อมูล MRI ^{[ 89 ]}^{[ 90 ]}^{[ 91 ]}การจำแนกประเภทเซลล์วิทยาของปากมดลูก^{[ 92 ]}^{[ 93 ]}

นอกจากนี้ กลุ่มต่างๆ ยังถูกนำไปประยุกต์ใช้ในงานการแบ่งส่วนทางการแพทย์ได้สำเร็จ เช่น การแบ่งส่วนเนื้องอกในสมอง^{[ 94 ]}^{[ 95 ]}และการแบ่งส่วนไฮเปอร์อินเทนซีส^{[ 96 ]}

ดูเพิ่มเติม

อ่านเพิ่มเติม

Zhou Zhihua (2012). วิธีการแบบกลุ่ม: พื้นฐานและอัลกอริทึม . Chapman and Hall/CRC. ISBN 978-1-439-83003-1.
โรเบิร์ต ชาไปร์ ; โยอาฟ ฟรอยด์ (2012) การส่งเสริม: รากฐานและอัลกอริทึม . เอ็มไอที. ไอเอสบีเอ็น 978-0-262-01718-3.

ลิงก์ภายนอก

Robi Polikar (บรรณาธิการ). "การเรียนรู้แบบกลุ่ม" . Scholarpedia .
ชุด เครื่องมือ Waffles (การเรียนรู้ของเครื่อง)ประกอบด้วยการใช้งาน Bagging, Boosting, Bayesian Model Averaging, Bayesian Model Combination, Bucket-of-models และเทคนิคการรวมโมเดลแบบอื่นๆ

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[ 67 ]

[ 68 ]

[ 69 ]

[ 70 ]

[ 71 ]

[ 72 ]

[ 73 ]

[

[

[

[ 77 ]

[ 78 ]

[ 79 ]

[ 80 ]

[ 81 ]

[ 82 ]

[ 83 ]

[ 84 ]

[ 85 ]

[ 86 ]

87 ] ความ

[ 88 ]

[ 89 ]

[ 90 ]

[ 91 ]

[ 92 ]

[ 93 ]

[ 94 ]

[ 95 ]

[ 96 ]