กลับไปหน้าบทความ

อ่าน 7 นาที

แผนผังการตัดสินใจ

แผนผังการตัดสินใจ (Decision Tree ) เป็น โครงสร้างการแบ่งส่วนแบบเรียกซ้ำ เพื่อสนับสนุนการ ตัดสินใจ โดยใช้แบบจำลองคล้ายต้นไม้ ของการตัดสินใจและผลลัพธ์ที่เป็นไปได้ รวมถึง...

แผนผังการตัดสินใจ

ตามธรรมเนียมแล้ว แผนผังการตัดสินใจจะถูกสร้างขึ้นด้วยตนเอง

แผนผังการตัดสินใจ (Decision Tree ) เป็น โครงสร้างการแบ่งส่วนแบบเรียกซ้ำ เพื่อสนับสนุนการ ตัดสินใจ โดยใช้แบบจำลองคล้ายต้นไม้ ของการตัดสินใจและผลลัพธ์ที่เป็นไปได้ รวมถึง ผลลัพธ์ของเหตุการณ์ โดยบังเอิญต้นทุนทรัพยากร และอรรถประโยชน์เป็นวิธีหนึ่งในการแสดงอัลกอริทึมที่ประกอบด้วยคำสั่งควบคุมแบบมีเงื่อนไขเท่านั้น

ต้นไม้ตัดสินใจมักใช้ในการวิจัยการดำเนินงานโดยเฉพาะในการวิเคราะห์การตัดสินใจ [ 1 ] เพื่อช่วยระบุกลยุทธ์ที่มีแนวโน้มมากที่สุดที่จะบรรลุเป้าหมาย แต่ยังเป็นเครื่องมือที่ได้รับความนิยมในการเรียนรู้ของเครื่องอีก ด้วย

ภาพรวม

แผนผังการตัดสินใจ (Decision Tree) เป็น โครงสร้างคล้าย ผังงาน (Flowchart)ที่แต่ละโหนดภายในแทนการทดสอบคุณลักษณะ (เช่น การโยนเหรียญจะได้หัวหรือก้อย) แต่ละกิ่งแทนผลลัพธ์ของการทดสอบ และแต่ละโหนดใบแทนป้ายกำกับคลาส (การตัดสินใจหลังจากคำนวณคุณลักษณะทั้งหมดแล้ว) เส้นทางจากโหนดรากไปยังโหนดใบแทนกฎ การจำแนกประเภท

ในการวิเคราะห์การตัดสินใจแผนผังการตัดสินใจและแผนภาพอิทธิพล ที่เกี่ยวข้องอย่างใกล้ชิด ถูกนำมาใช้เป็นเครื่องมือสนับสนุนการตัดสินใจเชิงภาพและเชิงวิเคราะห์ โดยจะคำนวณ ค่าที่คาดหวัง (หรืออรรถประโยชน์ที่คาดหวัง ) ของทางเลือกต่างๆ ที่แข่งขันกัน

ต้นไม้ตัดสินใจประกอบด้วยโหนดสามประเภท: [ 2 ]

  1. จุดตัดสินใจ – โดยทั่วไปจะแสดงด้วยรูปสี่เหลี่ยม
  2. จุดความน่าจะเป็น – โดยทั่วไปจะแสดงด้วยวงกลม
  3. จุดปลาย – โดยทั่วไปมักแสดงด้วยรูปสามเหลี่ยม

แผนผังการตัดสินใจมักใช้ในงานวิจัยเชิงปฏิบัติการและการจัดการเชิงปฏิบัติการหากในทางปฏิบัติจำเป็นต้องตัดสินใจแบบออนไลน์โดยไม่มีการเรียกคืนข้อมูลภายใต้ความรู้ที่ไม่สมบูรณ์ แผนผังการตัดสินใจควรใช้ควบคู่ไปกับ แบบจำลอง ความน่าจะ เป็นในฐานะ แบบจำลองทางเลือกที่ดีที่สุดหรืออัลกอริธึม แบบจำลองการเลือกแบบออนไลน์ การใช้งานอีกอย่างหนึ่งของแผนผังการตัดสินใจคือการ ใช้ เป็นวิธีการเชิงพรรณนาสำหรับการคำนวณความน่าจะเป็นแบบมีเงื่อนไข

แผนผังการตัดสินใจแผนภาพอิทธิพลฟังก์ชันอรรถประโยชน์และเครื่องมือและวิธีการวิเคราะห์การตัดสินใจ อื่นๆ ได้รับการสอนให้กับนักศึกษาระดับปริญญาตรีในโรงเรียนธุรกิจ เศรษฐศาสตร์สุขภาพ และสาธารณสุข และเป็นตัวอย่างของวิธีการวิจัยเชิงปฏิบัติการหรือวิทยาศาสตร์ การจัดการเครื่องมือเหล่านี้ยังใช้ในการทำนายการตัดสินใจของเจ้าของบ้านในสถานการณ์ปกติและสถานการณ์ฉุกเฉิน[ 3 ] [ 4 ]

ส่วนประกอบพื้นฐานของแผนผังการตัดสินใจ

องค์ประกอบของแผนผังการตัดสินใจ

เมื่อวาดจากซ้ายไปขวา แผนผังการตัดสินใจจะมีเฉพาะโหนดแตกแขนง (เส้นทางที่แยกออก) แต่ไม่มีโหนดรวม (เส้นทางที่บรรจบกัน) ดังนั้นหากใช้การวาดด้วยมือ แผนผังอาจมีขนาดใหญ่มากและมักยากที่จะวาดให้เสร็จสมบูรณ์ด้วยมือ ในอดีต แผนผังการตัดสินใจถูกสร้างขึ้นด้วยมือ – ดังตัวอย่างที่แสดงไว้ด้านข้าง – แม้ว่าในปัจจุบันจะมีการใช้ซอฟต์แวร์เฉพาะทางมากขึ้นก็ตาม

กฎการตัดสินใจ

ต้นไม้ตัดสินใจสามารถแปลงเป็นกฎการตัดสินใจเชิงเส้นได้[ 5 ]โดยผลลัพธ์คือเนื้อหาของโหนดใบ และเงื่อนไขตามเส้นทางจะก่อให้เกิดการเชื่อมโยงในข้อความ if โดยทั่วไป กฎจะมีรูปแบบดังนี้:

ถ้าเงื่อนไขที่ 1 และเงื่อนไขที่ 2 และเงื่อนไขที่ 3 แล้วผลลัพธ์จะเป็นอย่างไร

กฎการตัดสินใจสามารถสร้างขึ้นได้โดยการสร้างกฎความสัมพันธ์กับตัวแปรเป้าหมายทางด้านขวา นอกจากนี้ยังสามารถระบุความสัมพันธ์เชิงเวลาหรือเชิงสาเหตุได้อีกด้วย[ 6 ]

แผนผังการตัดสินใจโดยใช้สัญลักษณ์ผังงาน

โดยทั่วไปแล้ว แผนผังการตัดสินใจมักวาดโดยใช้ สัญลักษณ์ ผังงานเนื่องจากอ่านและเข้าใจได้ง่ายกว่าสำหรับหลายๆ คน โปรดสังเกตว่ามีข้อผิดพลาดเชิงแนวคิดในการคำนวณ "ดำเนินการต่อ" ในแผนผังที่แสดงด้านล่าง ข้อผิดพลาดนี้เกี่ยวข้องกับการคำนวณ "ค่าใช้จ่าย" ที่ได้รับในคดีความ

ตัวอย่างการวิเคราะห์

การวิเคราะห์สามารถคำนึงถึงความชอบหรือ ฟังก์ชันอรรถประโยชน์ของผู้ตัดสินใจ (เช่น บริษัท) ได้ ตัวอย่างเช่น:

การตีความพื้นฐานในสถานการณ์นี้คือ บริษัทชอบความเสี่ยงและผลตอบแทนของ B มากกว่า ภายใต้ค่าสัมประสิทธิ์ความชอบความเสี่ยงที่สมจริง (มากกว่า 400,000 ดอลลาร์สหรัฐฯ ซึ่งในระดับความไม่ชอบความเสี่ยงดังกล่าว บริษัทจะต้องสร้างแบบจำลองกลยุทธ์ที่สาม คือ "ไม่เอาทั้ง A และ B")

อีกตัวอย่างหนึ่งที่ใช้กันทั่วไปใน หลักสูตร การวิจัยปฏิบัติการคือการกระจายเจ้าหน้าที่กู้ภัยบนชายหาด (หรือที่รู้จักกันในชื่อตัวอย่าง "ชีวิตคือชายหาด") [ 7 ]ตัวอย่างนี้อธิบายถึงชายหาดสองแห่งที่มีเจ้าหน้าที่กู้ภัยกระจายอยู่ตามชายหาดแต่ละแห่ง มีงบประมาณสูงสุดBที่สามารถกระจายระหว่างชายหาดทั้งสองแห่ง (โดยรวม) และโดยใช้ตารางผลตอบแทนส่วนเพิ่ม นักวิเคราะห์สามารถตัดสินใจได้ว่าจะจัดสรรเจ้าหน้าที่กู้ภัยให้กับชายหาดแต่ละแห่งจำนวนเท่าใด

มีเจ้าหน้าที่รักษาความปลอดภัยประจำชายหาดแต่ละแห่ง ป้องกันเหตุการณ์จมน้ำได้ทั้งหมด ณ ชายหาดหมายเลข 1 ป้องกันเหตุการณ์จมน้ำได้ทั้งหมด ณ ชายหาดแห่งที่ 2
1 3 1
2 0 4

ในตัวอย่างนี้ สามารถวาดแผนผังการตัดสินใจเพื่อแสดงหลักการของผลตอบแทนที่ลดลงสำหรับชายหาดหมายเลข 1 ได้

แผนผังการตัดสินใจเกี่ยวกับชายหาด

แผนผังการตัดสินใจแสดงให้เห็นว่า เมื่อจัดสรรเจ้าหน้าที่กู้ภัยตามลำดับ การวางเจ้าหน้าที่กู้ภัยคนแรกไว้ที่ชายหาดหมายเลข 1 จะเหมาะสมที่สุดหากมีงบประมาณสำหรับเจ้าหน้าที่กู้ภัยเพียงคนเดียว แต่หากมีงบประมาณสำหรับเจ้าหน้าที่กู้ภัยสองคน การวางเจ้าหน้าที่กู้ภัยทั้งสองคนไว้ที่ชายหาดหมายเลข 2 จะช่วยป้องกันการจมน้ำได้มากกว่าโดยรวม

เจ้าหน้าที่รักษาความปลอดภัยชายหาด

แผนภาพอิทธิพล

ข้อมูลส่วนใหญ่ในแผนผังการตัดสินใจสามารถแสดงได้อย่างกระชับยิ่งขึ้นในรูปแบบแผนภาพอิทธิพลโดยเน้นที่ประเด็นและความสัมพันธ์ระหว่างเหตุการณ์ต่างๆ

รูปสี่เหลี่ยมผืนผ้าทางด้านซ้ายแสดงถึงการตัดสินใจ รูปวงรีแสดงถึงการกระทำ และรูปเพชรแสดงถึงผลลัพธ์

การเหนี่ยวนำกฎความสัมพันธ์

ต้นไม้ตัดสินใจยังสามารถมองได้ว่าเป็นแบบจำลองการสร้างกฎการเหนี่ยวนำจากข้อมูลเชิงประจักษ์ ต้นไม้ตัดสินใจที่เหมาะสมที่สุดจะถูกกำหนดให้เป็นต้นไม้ที่อธิบายข้อมูลส่วนใหญ่ในขณะที่ลดจำนวนระดับ (หรือ "คำถาม") ให้น้อยที่สุด[ 8 ]มีการคิดค้นอัลกอริธึมหลายตัวเพื่อสร้างต้นไม้ที่เหมาะสมที่สุดดังกล่าว เช่นID3 /4/5 [ 9 ] CLS, ASSISTANT และ CART

ข้อดีและข้อเสีย

ในบรรดาเครื่องมือสนับสนุนการตัดสินใจ แผนผังการตัดสินใจ (และแผนภาพอิทธิพล ) มีข้อดีหลายประการ แผนผังการตัดสินใจ:

  • เข้าใจง่ายและตีความได้ง่าย ผู้คนสามารถเข้าใจแบบจำลองแผนผังการตัดสินใจได้หลังจากคำอธิบายสั้นๆ
  • แม้จะมีข้อมูลเชิงประจักษ์น้อยก็ยังมีคุณค่า ข้อมูลเชิงลึกที่สำคัญสามารถสร้างขึ้นได้จากคำอธิบายของผู้เชี่ยวชาญเกี่ยวกับสถานการณ์ (ทางเลือก ความน่าจะเป็น และต้นทุน) และความเห็นของพวกเขาเกี่ยวกับผลลัพธ์ที่ต้องการ
  • ช่วยกำหนดค่าที่แย่ที่สุด ดีที่สุด และค่าที่คาดหวังสำหรับสถานการณ์ต่างๆ
  • ใช้ โมเดล แบบกล่องขาวหากผลลัพธ์ที่กำหนดได้มาจากโมเดล
  • สามารถนำไปใช้ร่วมกับเทคนิคการตัดสินใจอื่นๆ ได้
  • สามารถพิจารณาการกระทำของผู้มีอำนาจตัดสินใจมากกว่าหนึ่งคนได้

ข้อเสียของแผนผังการตัดสินใจ:

  • โครงสร้างเหล่านี้ไม่เสถียร หมายความว่าการเปลี่ยนแปลงเล็กน้อยในข้อมูลอาจนำไปสู่การเปลี่ยนแปลงครั้งใหญ่ในโครงสร้างของแผนผังการตัดสินใจที่เหมาะสมที่สุด
  • โดยทั่วไปแล้วแบบจำลองเหล่านี้มักไม่แม่นยำนัก ตัวทำนายอื่นๆ จำนวนมากทำงานได้ดีกว่าเมื่อใช้กับข้อมูลที่คล้ายคลึงกัน ปัญหานี้สามารถแก้ไขได้โดยการแทนที่ต้นไม้ตัดสินใจเดี่ยวด้วยป่าสุ่มของต้นไม้ตัดสินใจ แต่ป่าสุ่มนั้นตีความได้ยากกว่าต้นไม้ตัดสินใจเดี่ยว
  • สำหรับข้อมูลที่มีตัวแปรเชิงหมวดหมู่ที่มีจำนวนระดับต่างกันการได้รับข้อมูลในต้นไม้ตัดสินใจจะเอนเอียงไปทางคุณลักษณะที่มีระดับมากกว่า[ 10 ]
  • การคำนวณอาจมีความซับซ้อนมาก โดยเฉพาะอย่างยิ่งหากค่าหลายค่าไม่แน่นอน และ/หรือหากผลลัพธ์หลายอย่างมีความเชื่อมโยงกัน

การปรับปรุงต้นไม้ตัดสินใจให้เหมาะสมที่สุด

เมื่อต้องการปรับปรุงความแม่นยำของตัวจำแนกประเภทด้วยต้นไม้ตัดสินใจ ควรพิจารณาหลายสิ่งหลายอย่าง ต่อไปนี้คือการปรับปรุงที่เป็นไปได้บางประการที่ควรพิจารณาเพื่อให้แน่ใจว่าแบบจำลองต้นไม้ตัดสินใจที่สร้างขึ้นนั้นสามารถตัดสินใจหรือจำแนกประเภทได้อย่างถูกต้อง โปรดทราบว่าสิ่งเหล่านี้ไม่ใช่สิ่งเดียวที่ควรพิจารณา แต่เป็นเพียงส่วนหนึ่งเท่านั้น

การเพิ่มจำนวนระดับของต้นไม้

ความแม่นยำของต้นไม้ตัดสินใจอาจเปลี่ยนแปลงไปตามความลึกของต้นไม้ตัดสินใจ ในหลายกรณี ใบของต้นไม้จะเป็นโหนดบริสุทธิ์[ 11 ]เมื่อโหนดบริสุทธิ์ หมายความว่าข้อมูลทั้งหมดในโหนดนั้นเป็นของคลาสเดียว[ 12 ]ตัวอย่างเช่น หากคลาสในชุดข้อมูลคือมะเร็งและไม่ใช่มะเร็ง โหนดใบจะถือว่าบริสุทธิ์เมื่อข้อมูลตัวอย่างทั้งหมดในโหนดใบเป็นส่วนหนึ่งของคลาสเดียวเท่านั้น ไม่ว่าจะเป็นมะเร็งหรือไม่ใช่มะเร็ง ต้นไม้ที่ลึกกว่าไม่ได้ดีกว่าเสมอไปเมื่อทำการปรับปรุงต้นไม้ตัดสินใจ ต้นไม้ที่ลึกกว่าอาจส่งผลเสียต่อเวลาการทำงาน หากมีการใช้อัลกอริธึมการจำแนกประเภทบางอย่าง ต้นไม้ที่ลึกกว่าอาจหมายความว่าเวลาการทำงานของอัลกอริธึมการจำแนกประเภทนี้ช้าลงอย่างมาก นอกจากนี้ยังมีความเป็นไปได้ที่อัลกอริธึมที่ใช้สร้างต้นไม้ตัดสินใจจะช้าลงอย่างมากเมื่อต้นไม้ลึกขึ้น หากอัลกอริธึมการสร้างต้นไม้ที่ใช้แยกโหนดบริสุทธิ์ อาจทำให้ความแม่นยำโดยรวมของตัวจำแนกประเภทต้นไม้ลดลง บางครั้ง การลงลึกลงไปในโครงสร้างต้นไม้ตัดสินใจอาจทำให้ความแม่นยำโดยรวมลดลง ดังนั้นจึงเป็นสิ่งสำคัญมากที่จะต้องทดสอบการปรับความลึกของต้นไม้ตัดสินใจและเลือกความลึกที่ให้ผลลัพธ์ที่ดีที่สุด โดยสรุปแล้ว จากประเด็นด้านล่าง เราจะกำหนดให้ D เป็นความลึกของต้นไม้

ข้อดีที่เป็นไปได้ของการเพิ่มจำนวน D:

  • ความแม่นยำของแบบจำลองการจำแนกประเภทด้วยต้นไม้ตัดสินใจเพิ่มขึ้น

ข้อเสียที่อาจเกิดขึ้นจากการเพิ่มค่า D

  •  ปัญหาขณะรันไทม์
  • ความแม่นยำลดลงโดยทั่วไป
  • การแบ่งโหนดแบบบริสุทธิ์ในขณะที่ลงลึกลงไปอาจก่อให้เกิดปัญหาได้

ความสามารถในการทดสอบความแตกต่างของผลลัพธ์การจำแนกประเภทเมื่อเปลี่ยนค่า D นั้นมีความสำคัญอย่างยิ่ง เราต้องสามารถเปลี่ยนแปลงและทดสอบตัวแปรที่อาจส่งผลต่อความแม่นยำและความน่าเชื่อถือของแบบจำลองต้นไม้ตัดสินใจได้อย่างง่ายดาย

การเลือกฟังก์ชันการแบ่งโหนด

ฟังก์ชันการแบ่งโหนดที่ใช้สามารถส่งผลต่อการปรับปรุงความแม่นยำของต้นไม้ตัดสินใจได้ ตัวอย่างเช่น การใช้ ฟังก์ชัน การได้ข้อมูล (information-gain function) อาจให้ผลลัพธ์ที่ดีกว่าการใช้ฟังก์ชันฟี (phi function) ฟังก์ชันฟีเป็นที่รู้จักกันในฐานะตัววัด "ความดี" ของการแบ่งโหนดที่เป็นไปได้ในต้นไม้ตัดสินใจ ในขณะที่ฟังก์ชันการได้ข้อมูลเป็นที่รู้จักกันในฐานะตัววัด "การลดลงของเอนโทรปี " ต่อไปนี้ เราจะสร้างต้นไม้ตัดสินใจสองต้น ต้นหนึ่งจะสร้างโดยใช้ฟังก์ชันฟีในการแบ่งโหนด และอีกต้นหนึ่งจะสร้างโดยใช้ฟังก์ชันการได้ข้อมูลในการแบ่งโหนด

ข้อดีและข้อเสียหลักของการได้มาซึ่งข้อมูลและฟังก์ชันฟี

  • ข้อเสียสำคัญประการหนึ่งของการเพิ่มข้อมูลคือ คุณลักษณะที่ถูกเลือกให้เป็นโหนดถัดไปในต้นไม้มักจะมีค่าที่ไม่ซ้ำกันมากกว่า[ 13 ]
  • ข้อดีอย่างหนึ่งของการเพิ่มข้อมูลคือ มันมักจะเลือกคุณลักษณะที่มีผลกระทบมากที่สุดซึ่งอยู่ใกล้กับรากของต้นไม้ นับเป็นมาตรวัดที่ดีมากสำหรับการตัดสินความสำคัญของบางคุณลักษณะ
  • ฟังก์ชันฟี (phi function) ยังเป็นมาตรวัดที่ดีในการตัดสินความเกี่ยวข้องของคุณลักษณะบางอย่างโดยพิจารณาจาก "ความดี" อีกด้วย

นี่คือสูตรฟังก์ชันการได้มาซึ่งข้อมูล สูตรนี้ระบุว่า การได้มาซึ่งข้อมูลเป็นฟังก์ชันของเอนโทรปีของโหนดในต้นไม้ตัดสินใจ ลบด้วยเอนโทรปีของการแยกที่เป็นไปได้ที่โหนด t ของต้นไม้ตัดสินใจ

นี่คือสูตรของฟังก์ชันฟี ฟังก์ชันฟีจะมีค่าสูงสุดเมื่อคุณลักษณะที่เลือกแบ่งตัวอย่างในลักษณะที่ทำให้เกิดการแบ่งที่สม่ำเสมอและมีจำนวนตัวอย่างในแต่ละส่วนใกล้เคียงกัน

เราจะกำหนดค่า D ซึ่งเป็นความลึกของต้นไม้ตัดสินใจที่เรากำลังสร้าง ให้เป็นสาม (D = 3) นอกจากนี้เรายังมีชุดข้อมูลตัวอย่างมะเร็งและตัวอย่างที่ไม่เป็นมะเร็ง รวมถึงคุณลักษณะการกลายพันธุ์ที่ตัวอย่างเหล่านั้นมีหรือไม่มี หากตัวอย่างมีคุณลักษณะการกลายพันธุ์ ตัวอย่างนั้นจะถือว่ามีการกลายพันธุ์นั้น และจะถูกแทนด้วยเลขหนึ่ง หากตัวอย่างไม่มีคุณลักษณะการกลายพันธุ์ ตัวอย่างนั้นจะถือว่าไม่มีการกลายพันธุ์นั้น และจะถูกแทนด้วยเลขศูนย์

โดยสรุป C ย่อมาจากมะเร็ง และ NC ย่อมาจากไม่ใช่มะเร็ง ตัวอักษร M ย่อมาจากการกลายพันธุ์และหากตัวอย่างมีการกลายพันธุ์เฉพาะอย่างใดอย่างหนึ่ง จะแสดงเป็นเลขหนึ่งในตาราง และหากไม่มีการกลายพันธุ์จะแสดงเป็นเลขศูนย์

ข้อมูลตัวอย่าง
เอ็ม1 เอ็ม2 เอ็ม3 เอ็ม4 เอ็ม5
ซี1 0 1 0 1 1
เอ็นซี1 0 0 0 0 0
เอ็นซี2 0 0 1 1 0
เอ็นซี3 0 0 0 0 0
ซี2 1 1 1 1 1
เอ็นซี4 0 0 0 1 0

ตอนนี้ เราสามารถใช้สูตรเพื่อคำนวณค่าฟังก์ชัน phi และค่าการได้ข้อมูล (information gain) สำหรับแต่ละ M ในชุดข้อมูลได้ เมื่อคำนวณค่าทั้งหมดแล้ว เราสามารถสร้างต้นไม้ได้ สิ่งแรกที่ต้องทำคือการเลือกโหนดราก ในการได้ข้อมูลและฟังก์ชัน phi เราพิจารณาว่าการแบ่งแยกที่เหมาะสมที่สุดคือการกลายพันธุ์ที่ให้ค่าการได้ข้อมูลหรือฟังก์ชัน phi สูงที่สุด สมมติว่า M1 มีค่าฟังก์ชัน phi สูงที่สุด และ M4 มีค่าการได้ข้อมูลสูงที่สุด การกลายพันธุ์ M1 จะเป็นรากของต้นไม้ฟังก์ชัน phi ของเรา และ M4 จะเป็นรากของต้นไม้การได้ข้อมูลของเรา คุณสามารถสังเกตโหนดรากได้ด้านล่าง

รูปที่ 1: โหนดด้านซ้ายคือโหนดรากของต้นไม้ที่เรากำลังสร้างโดยใช้ฟังก์ชัน phi ในการแบ่งโหนด โหนดด้านขวาคือโหนดรากของต้นไม้ที่เรากำลังสร้างโดยใช้ค่าการเพิ่มขึ้นของข้อมูล (information gain) ในการแบ่งโหนด
รูปที่ 1: โหนดด้านซ้ายคือโหนดรากของต้นไม้ที่เรากำลังสร้างโดยใช้ฟังก์ชัน phi ในการแบ่งโหนด โหนดด้านขวาคือโหนดรากของต้นไม้ที่เรากำลังสร้างโดยใช้ค่าการเพิ่มขึ้นของข้อมูล (information gain) ในการแบ่งโหนด

เมื่อเราเลือกโหนดรากแล้ว เราสามารถแบ่งตัวอย่างออกเป็นสองกลุ่มตามว่าตัวอย่างนั้นมีการกลายพันธุ์ที่โหนดรากหรือไม่ กลุ่มเหล่านี้จะเรียกว่ากลุ่ม A และกลุ่ม B ตัวอย่างเช่น หากเราใช้ M1 ในการแบ่งตัวอย่างที่โหนดราก เราจะได้ตัวอย่าง NC2 และ C2 ในกลุ่ม A และตัวอย่างที่เหลือ NC4, NC3, NC1, C1 ในกลุ่ม B

โดยไม่คำนึงถึงการกลายพันธุ์ที่เลือกไว้สำหรับโหนดราก ให้ดำเนินการวางคุณลักษณะที่ดีที่สุดถัดไปที่มีค่าการได้มาซึ่งข้อมูลหรือฟังก์ชัน phi สูงที่สุดลงในโหนดลูกซ้ายหรือขวาของต้นไม้ตัดสินใจ เมื่อเราเลือกโหนดรากและโหนดลูกสองโหนดสำหรับต้นไม้ที่มีความลึกเท่ากับ 3 แล้ว เราก็สามารถเพิ่มใบได้ ใบเหล่านี้จะแสดงถึงการตัดสินใจจำแนกประเภทขั้นสุดท้ายที่แบบจำลองสร้างขึ้นโดยอิงจากการกลายพันธุ์ที่ตัวอย่างมีหรือไม่มี ต้นไม้ด้านซ้ายคือต้นไม้ตัดสินใจที่เราได้จากการใช้การได้มาซึ่งข้อมูลเพื่อแยกโหนด และต้นไม้ด้านขวาคือสิ่งที่ได้จากการใช้ฟังก์ชัน phi เพื่อแยกโหนด

ต้นไม้ที่ได้จากการใช้ค่าการได้มาซึ่งข้อมูล (information gain) ในการแบ่งโหนด
ต้นไม้ที่ได้จากการใช้ค่าการได้มาซึ่งข้อมูล (information gain) ในการแบ่งโหนด

สมมติว่า ผล การจำแนกประเภทจากทั้งสองต้นไม้แสดงออกมาในรูปของ เมท ริก ซ์ความสับสน

เมทริกซ์ความสับสนของการได้รับข้อมูล:

คาดการณ์
แท้จริง
ซี เอ็นซี
ซี 1 1
เอ็นซี 0 4

เมทริกซ์ความสับสนของฟังก์ชัน Phi:

คาดการณ์
แท้จริง
ซี เอ็นซี
ซี 2 0
เอ็นซี 1 3

ต้นไม้ตัดสินใจที่ใช้ค่าการเพิ่มข้อมูล (information gain) ให้ผลลัพธ์เหมือนกันกับการใช้ฟังก์ชัน phi ในการคำนวณความแม่นยำ เมื่อเราจำแนกตัวอย่างโดยใช้แบบจำลองที่ใช้ค่าการเพิ่มข้อมูล เราจะได้ผลบวกจริง 1 ตัว ผลบวกเท็จ 1 ตัว ผลลบเท็จ 0 ตัว และผลลบจริง 4 ตัว สำหรับแบบจำลองที่ใช้ฟังก์ชัน phi เราจะได้ผลบวกจริง 2 ตัว ผลบวกเท็จ 0 ตัว ผลลบเท็จ 1 ตัว และผลลบจริง 3 ตัว ขั้นตอนต่อไปคือการประเมินประสิทธิภาพของต้นไม้ตัดสินใจโดยใช้ตัวชี้วัดสำคัญบางประการที่จะกล่าวถึงในส่วนการประเมินต้นไม้ตัดสินใจด้านล่าง ตัวชี้วัดที่จะกล่าวถึงด้านล่างนี้สามารถช่วยกำหนดขั้นตอนต่อไปที่จะต้องดำเนินการเมื่อต้องการเพิ่มประสิทธิภาพต้นไม้ตัดสินใจ

เทคนิคอื่นๆ

ข้อมูลข้างต้นไม่ใช่จุดสิ้นสุดของการสร้างและปรับปรุงประสิทธิภาพของต้นไม้ตัดสินใจ ยังมีเทคนิคมากมายในการปรับปรุงแบบจำลองการจำแนกประเภทด้วยต้นไม้ตัดสินใจที่เราสร้างขึ้น หนึ่งในเทคนิคเหล่านั้นคือการสร้างแบบจำลองต้นไม้ตัดสินใจจาก ชุดข้อมูลแบบ บูตสแตรปชุดข้อมูลแบบบูตสแตรปช่วยขจัดอคติที่เกิดขึ้นเมื่อสร้างแบบจำลองต้นไม้ตัดสินใจด้วยข้อมูลชุดเดียวกับที่ใช้ทดสอบแบบจำลอง ความสามารถในการใช้ประโยชน์จากพลังของป่าสุ่ม (random forests)ยังช่วยปรับปรุงความแม่นยำโดยรวมของแบบจำลองที่สร้างขึ้นได้อย่างมาก วิธีนี้สร้างการตัดสินใจจำนวนมากจากต้นไม้ตัดสินใจจำนวนมาก และนับคะแนนโหวตจากแต่ละต้นไม้ตัดสินใจเพื่อทำการจำแนกประเภทขั้นสุดท้าย มีเทคนิคมากมาย แต่เป้าหมายหลักคือการทดสอบการสร้างแบบจำลองต้นไม้ตัดสินใจในรูปแบบต่างๆ เพื่อให้แน่ใจว่าได้ประสิทธิภาพสูงสุดเท่าที่จะเป็นไปได้

การประเมินแผนผังการตัดสินใจ

สิ่งสำคัญคือต้องทราบถึงตัวชี้วัด ที่ใช้ในการประเมินต้นไม้ตัดสินใจ ตัวชี้วัดหลักที่ใช้ ได้แก่ความแม่นยำความไวความจำเพาะความเที่ยงตรงอัตราการพลาด อัตราการค้นพบที่ผิดพลาดและอัตราการละเว้นที่ผิดพลาดตัวชี้วัดทั้งหมดนี้ได้มาจากจำนวน ผล บวกจริงผลบวกเท็จผลลบจริงและผลลบเท็จที่ได้จากการประมวลผลชุดตัวอย่างผ่านแบบจำลองการจำแนกประเภทด้วยต้นไม้ตัดสินใจ นอกจากนี้ ยังสามารถสร้างเมทริกซ์ความสับสนเพื่อแสดงผลลัพธ์เหล่านี้ได้ ตัวชี้วัดหลักทั้งหมดนี้บอกข้อมูลที่แตกต่างกันเกี่ยวกับจุดแข็งและจุดอ่อนของแบบจำลองการจำแนกประเภทที่สร้างขึ้นจากต้นไม้ตัดสินใจของคุณ ตัวอย่างเช่น ความไวต่ำแต่ความจำเพาะสูงอาจบ่งชี้ว่าแบบจำลองการจำแนกประเภทที่สร้างจากต้นไม้ตัดสินใจนั้นไม่สามารถระบุตัวอย่างมะเร็งได้ดีเมื่อเทียบกับตัวอย่างที่ไม่เป็นมะเร็ง

ลองพิจารณาเมทริกซ์ความสับสนด้านล่างนี้ดู

คาดการณ์
แท้จริง
ซี เอ็นซี
ซี 11 (ผลบวกจริง) 45 (ผลลบเท็จ)
เอ็นซี 1 (ผลบวกเท็จ) 105 (ค่าลบที่แท้จริง)

ต่อไปนี้เราจะคำนวณค่าความแม่นยำ ความไว ความจำเพาะ ความเที่ยงตรง อัตราการพลาด อัตราการค้นพบที่ผิดพลาด และอัตราการละเว้นที่ผิดพลาด

ความแม่นยำ:

ความไว (TPR – อัตราผลบวกจริง): [ 14 ]

ความจำเพาะ (TNR – อัตราผลลบที่ถูกต้อง):

ความแม่นยำ (PPV – ค่าทำนายผลบวก):

อัตราการวินิจฉัยผิดพลาด (FNR – อัตราผลลบเท็จ):

อัตราการค้นพบที่ผิดพลาด (FDR):

อัตราการละเว้นที่ผิดพลาด (FOR):

เมื่อเราคำนวณตัวชี้วัดหลักเสร็จแล้ว เราสามารถสรุปเบื้องต้นเกี่ยวกับประสิทธิภาพของแบบจำลองต้นไม้ตัดสินใจที่สร้างขึ้นได้ ความแม่นยำที่เราคำนวณได้คือ 71.60% ค่าความแม่นยำนี้ถือว่าดีสำหรับการเริ่มต้น แต่เราต้องการให้แบบจำลองของเรามีความแม่นยำมากที่สุดเท่าที่จะเป็นไปได้ในขณะที่ยังคงรักษาประสิทธิภาพโดยรวมไว้ ค่าความไว 19.64% หมายความว่าจากทุกคนที่ตรวจพบว่าเป็นมะเร็งนั้น ตรวจพบว่าเป็นมะเร็งจริง หากเราดูที่ค่าความจำเพาะ 99.06% เราจะรู้ว่าจากตัวอย่างทั้งหมดที่ตรวจไม่พบมะเร็งนั้น ตรวจพบว่าเป็นมะเร็งจริง เมื่อพูดถึงความไวและความจำเพาะ สิ่งสำคัญคือต้องมีความสมดุลระหว่างสองค่านี้ ดังนั้นหากเราสามารถลดความจำเพาะเพื่อเพิ่มความไวได้ นั่นจะเป็นประโยชน์[ 15 ]นี่เป็นเพียงตัวอย่างเล็กน้อยเกี่ยวกับวิธีการใช้ค่าเหล่านี้และความหมายเบื้องหลังเพื่อประเมินแบบจำลองต้นไม้ตัดสินใจและปรับปรุงในการทำซ้ำครั้งต่อไป

ดูเพิ่มเติม

  • บทช่วยสอนและตัวอย่างเกี่ยวกับแผนผังการตัดสินใจอย่างครอบคลุม
  • แกลเลอรีตัวอย่างแผนผังการตัดสินใจ
  • ต้นไม้ตัดสินใจแบบเพิ่มประสิทธิภาพด้วยการไล่ระดับ
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Decision_tree&oldid=1348906127 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ แผนผังการตัดสินใจ

แผนผังการตัดสินใจ (Decision Tree ) เป็น โครงสร้างการแบ่งส่วนแบบเรียกซ้ำ เพื่อสนับสนุนการ ตัดสินใจ โดยใช้แบบจำลองคล้ายต้นไม้ ของการตัดสินใจและผลลัพธ์ที่เป็นไปได้ รวมถึง...

ภาพรวม

แผนผังการตัดสินใจ (Decision Tree) เป็น โครงสร้างคล้าย ผังงาน (Flowchart) ที่แต่ละโหนดภายในแทนการทดสอบคุณลักษณะ (เช่น การโยนเหรียญจะได้หัวหรือก้อย) แต่ละกิ่งแทนผลลัพธ์ของการทดสอบ และแต่ละโหนดใบแทนป้ายกำกับคลาส (การตัดสินใจหลังจากคำนวณคุณลักษณะทั้งหมดแล้ว)...

องค์ประกอบของแผนผังการตัดสินใจ

เมื่อวาดจากซ้ายไปขวา แผนผังการตัดสินใจจะมีเฉพาะโหนดแตกแขนง (เส้นทางที่แยกออก) แต่ไม่มีโหนดรวม (เส้นทางที่บรรจบกัน) ดังนั้นหากใช้การวาดด้วยมือ แผนผังอาจมีขนาดใหญ่มากและมักยากที่จะวาดให้เสร็จสมบูรณ์ด้วยมือ ในอดีต แผนผังการตัดสินใจถูกสร้างขึ้นด้วยมือ –...

กฎการตัดสินใจ

ต้นไม้ตัดสินใจสามารถ แปลง เป็น กฎการตัดสินใจเชิงเส้น ได้ [ 5 ] โดยผลลัพธ์คือเนื้อหาของโหนดใบ และเงื่อนไขตามเส้นทางจะก่อให้เกิดการเชื่อมโยงในข้อความ if โดยทั่วไป กฎจะมีรูปแบบดังนี้: