กลับไปหน้าบทความ

อ่าน 11 นาที

วิธีการคอขวดข้อมูล

วิธีการคอขวดข้อมูลเป็นเทคนิคในทฤษฎีสารสนเทศที่Naftali Tishby , Fernando C.

วิธีการคอขวดข้อมูล

วิธีการคอขวดข้อมูลเป็นเทคนิคในทฤษฎีสารสนเทศที่Naftali Tishby , Fernando C. Pereira และWilliam Bialekนำ เสนอ [ 1 ]ออกแบบมาเพื่อค้นหาจุดสมดุลที่ดีที่สุดระหว่างความแม่นยำและความซับซ้อน ( การบีบอัด ) เมื่อสรุป (เช่น การจัด กลุ่ม ) ตัวแปรสุ่มXโดยกำหนดการกระจายความน่าจะเป็นร่วมp(X,Y)ระหว่างXและตัวแปรที่เกี่ยวข้องที่สังเกตได้Yและอธิบายตัวเองว่าเป็น"กรอบงานที่สมบูรณ์อย่างน่าประหลาดใจสำหรับการอภิปรายปัญหาต่างๆ ในการประมวลผลสัญญาณและการเรียนรู้ " [ 1 ]

การประยุกต์ใช้รวมถึงการจัดกลุ่มตามการกระจายตัวและการลดมิติและเมื่อไม่นานมานี้ได้มีการเสนอให้เป็นพื้นฐานทางทฤษฎีสำหรับการเรียนรู้เชิงลึกมันได้ขยายแนวคิดคลาสสิกของสถิติเพียงพอ ขั้นต่ำ จากสถิติเชิงพารามิเตอร์ไปสู่การกระจายตัวแบบใดก็ได้ ไม่จำเป็นต้องอยู่ในรูปแบบเลขชี้กำลัง โดยการผ่อนคลายเงื่อนไขความเพียงพอเพื่อจับส่วนหนึ่งของข้อมูลร่วมกันกับตัวแปรYที่ เกี่ยวข้อง

ปัญหาคอขวดของข้อมูลยังสามารถมองได้ว่าเป็น ปัญหา การบิดเบือนอัตราโดยมีฟังก์ชันการบิดเบือนที่วัดว่าการทำนายY จากการแสดงผลแบบบีบอัด T นั้นดีเพียงใด เมื่อเทียบกับการทำนายโดยตรงจากX การตีความนี้ให้ขั้นตอนวิธีแบบวนซ้ำทั่วไปสำหรับการแก้ปัญหาความสมดุลของปัญหาคอขวดของข้อมูลและการคำนวณเส้นโค้งข้อมูล จาก การกระจายp(X,Y)

ให้ตัวแปรสุ่มเป็นตัวแทนที่ถูกบีบอัด อัลกอริทึมจะลดค่าฟังก์ชันต่อไปนี้ให้เหลือน้อยที่สุดโดยพิจารณาจากการกระจายแบบมีเงื่อนไข:

โดยที่และคือข้อมูลร่วมของและและของและตามลำดับ และคือตัวคูณลากรางจ์

ทฤษฎีการเรียนรู้สำหรับการเรียนรู้เชิงลึก

ได้รับการพิสูจน์ทางคณิตศาสตร์แล้วว่าการควบคุมคอขวดข้อมูลเป็นวิธีหนึ่งในการควบคุมข้อผิดพลาดในการวางนัยทั่วไปในการเรียนรู้เชิงลึก[ 2 ]กล่าวคือ ข้อผิดพลาดในการวางนัยทั่วไปได้รับการพิสูจน์แล้วว่าแปรผันตาม โดยที่คือจำนวนตัวอย่างการฝึกอบรมคืออินพุตของเครือข่ายประสาทเทียมเชิงลึก และคือเอาต์พุตของเลเยอร์ที่ซ่อนอยู่ ขอบเขตการวางนัยทั่วไปนี้แปรผันตามระดับของคอขวดข้อมูล ซึ่งแตกต่างจากขอบเขตการวางนัยทั่วไปอื่นๆ ที่แปรผันตามจำนวนพารามิเตอร์มิติ VC ความซับซ้อน ของRademacherความเสถียร หรือความทนทาน

การเปลี่ยนสถานะ

ทฤษฎีสารสนเทศของการเรียนรู้เชิงลึก

ทฤษฎีคอขวดข้อมูลเพิ่งถูกนำมาใช้ศึกษาโครงข่ายประสาทเทียมเชิงลึก (DNN) [ 3 ] พิจารณาและตามลำดับเป็นชั้นอินพุตและเอาต์พุตของ DNN และให้เป็นชั้นซ่อนใดๆ ของเครือข่าย Shwartz-Ziv และ Tishby เสนอคอขวดข้อมูลที่แสดงถึงการแลกเปลี่ยนระหว่างการวัดข้อมูลร่วมกันและในกรณีนี้และตามลำดับจะวัดปริมาณข้อมูลที่ชั้นซ่อนมีเกี่ยวกับอินพุตและเอาต์พุต พวกเขาสันนิษฐานว่ากระบวนการฝึกฝนของ DNN ประกอบด้วยสองขั้นตอนแยกกัน 1) ขั้นตอนการปรับให้เหมาะสมเบื้องต้นซึ่งเพิ่มขึ้น และ 2) ขั้นตอนการบีบอัดในภายหลังซึ่งลดลง Saxe et al. ใน[ 4 ]โต้แย้งข้ออ้างของ Shwartz-Ziv และ Tishby [ 3 ]โดยระบุว่าปรากฏการณ์การบีบอัดใน DNN นี้ไม่ครอบคลุม และขึ้นอยู่กับฟังก์ชันการกระตุ้น เฉพาะ โดยเฉพาะอย่างยิ่ง พวกเขาอ้างว่าการบีบอัดจะไม่เกิดขึ้นกับฟังก์ชันการกระตุ้น ReLu Shwartz-Ziv และ Tishby โต้แย้งข้อกล่าวอ้างเหล่านี้ โดยอ้างว่า Saxe et al. ไม่ได้สังเกตเห็นการบีบอัดเนื่องจากการประมาณค่าข้อมูลร่วมกันที่อ่อนแอ ในทางกลับกัน เมื่อเร็วๆ นี้ Goldfeld et al. ได้โต้แย้งว่าการบีบอัดที่สังเกตได้เป็นผลมาจากปรากฏการณ์ทางเรขาคณิต ไม่ใช่ปรากฏการณ์ทางทฤษฎีสารสนเทศ[ 5 ]ซึ่งเป็นมุมมองที่ได้รับการยอมรับใน[ 6 ] เช่นกัน

คอขวดของการเปลี่ยนแปลง

คอขวดแบบเกาส์เซียน

คอขวดแบบเกาส์เซียน[ 7 ]กล่าวคือ การประยุกต์ใช้แนวทางคอขวดข้อมูลกับตัวแปรเกาส์เซียน นำไปสู่โซลูชันที่เกี่ยวข้องกับ การวิเคราะห์ ความสัมพันธ์แบบแคนอนิกสมมติว่าเป็นเวกเตอร์ปกติที่มีค่าเฉลี่ยเป็นศูนย์แบบหลายตัวแปรร่วมกัน โดยมีค่าความแปรปรวนร่วมและเป็นเวอร์ชันที่บีบอัดของ ที่ต้องรักษาค่าข้อมูลร่วมกันที่กำหนดไว้กับสามารถแสดงได้ว่าค่าที่เหมาะสมที่สุดคือเวกเตอร์ปกติที่ประกอบด้วยการรวมเชิงเส้นขององค์ประกอบของโดยที่เมทริกซ์มีแถวตั้งฉากกัน

เมทริกซ์การฉายภาพนั้นประกอบด้วยแถวที่เลือกมาจากเวกเตอร์ลักษณะ เฉพาะด้านซ้ายที่มีน้ำหนัก ของการแยกส่วนค่าเอกลักษณ์ของเมทริกซ์ (โดยทั่วไปจะเป็นเมทริกซ์ไม่สมมาตร)

จงนิยามการแยกส่วนค่าเอกลักษณ์ (Singular Value Decomposition)

และค่าวิกฤต

ดังนั้น จำนวนเวกเตอร์ลักษณะเฉพาะที่ใช้งานอยู่ในการฉายภาพ หรือลำดับของการประมาณค่า จะกำหนดโดย

และในที่สุดเราก็ได้

โดยที่น้ำหนักจะกำหนดโดย

ที่ไหน

การนำคอขวดข้อมูลแบบเกาส์เซียนมาใช้กับอนุกรมเวลา (กระบวนการ) จะให้ผลลัพธ์ที่เกี่ยวข้องกับการเข้ารหัสทำนาย ที่เหมาะสม ขั้นตอนนี้เทียบเท่ากับการวิเคราะห์คุณลักษณะช้าเชิงเส้น อย่างเป็นทางการ [ 8 ]

โครงสร้างเชิงเวลาที่เหมาะสมในระบบไดนามิกเชิงเส้นสามารถเปิดเผยได้ในสิ่งที่เรียกว่าคอขวดข้อมูลอดีต-อนาคต ซึ่งเป็นการประยุกต์ใช้วิธีคอขวดกับข้อมูลที่สุ่มตัวอย่างแบบไม่เป็นเกาส์เซียน[ 9 ]แนวคิดนี้ ตามที่ Creutzig, Tishby และคณะได้กล่าวถึงนั้น มีความซับซ้อนอยู่บ้าง เนื่องจากประกอบด้วยสองขั้นตอนอิสระในการดำเนินการ ได้แก่ ประการแรก การประมาณความหนาแน่นของความน่าจะเป็นของผู้ปกครองที่ไม่ทราบค่า ซึ่งข้อมูลตัวอย่างถูกดึงมา และประการที่สอง การใช้ความหนาแน่นเหล่านี้ภายในกรอบทฤษฎีสารสนเทศของคอขวด

การประมาณความหนาแน่น

เนื่องจากวิธีการคอขวดถูกกำหนดขึ้นในแง่ของความน่าจะเป็นมากกว่าสถิติ ความหนาแน่นของความน่าจะเป็นพื้นฐานที่จุดตัวอย่าง จะต้องได้รับการประมาณค่า นี่เป็นปัญหาที่รู้จักกันดีซึ่งมีวิธีแก้ปัญหาหลายวิธีตาม ที่Silvermanอธิบายไว้[ 10 ]ในวิธีการปัจจุบัน ความน่าจะเป็นร่วมของตัวอย่างจะถูกค้นพบโดยใช้ วิธี เมทริกซ์การเปลี่ยนผ่านของ Markovและวิธีนี้มีความสอดคล้องทางคณิตศาสตร์กับวิธีการคอขวดเอง

เมตริกซ์ระยะทางที่เพิ่มขึ้นตามอำเภอใจระหว่างคู่ตัวอย่างทั้งหมดและเมทริกซ์ระยะทางคือ . จากนั้น ต้องคำนวณความน่าจะเป็นของการเปลี่ยนสถานะระหว่างคู่ตัวอย่างสำหรับบางค่า โดยถือว่าตัวอย่างเป็นสถานะ และเวอร์ชันที่ทำให้เป็นมาตรฐานของ เป็นเมทริกซ์ความน่าจะเป็นของการเปลี่ยนสถานะแบบมาร์คอฟ เวกเตอร์ความน่าจะเป็นของ 'สถานะ' หลังจากขั้นตอน โดยมีเงื่อนไขจากสถานะเริ่มต้นคือ. เวกเตอร์ความน่าจะ เป็นสมดุล ที่กำหนดตามปกติโดยเวกเตอร์ลักษณะเฉพาะที่เด่นของเมทริกซ์ซึ่งเป็นอิสระจากเวกเตอร์เริ่มต้นวิธีการเปลี่ยนสถานะแบบมาร์คอฟนี้สร้างความน่าจะเป็นที่จุดตัวอย่างซึ่งอ้างว่าแปรผันตรงกับความหนาแน่นของความน่าจะเป็นที่จุดนั้น

การตีความอื่นๆ ของการใช้ค่าลักษณะเฉพาะของเมทริกซ์ระยะทาง มีการกล่าวถึงใน หนังสือ Density Estimation for Statistics and Data AnalysisของSilverman [ 10 ]

กลุ่ม

ในตัวอย่างการจัดกลุ่มแบบอ่อนต่อไปนี้ เวกเตอร์อ้างอิงประกอบด้วยหมวดหมู่ตัวอย่าง และถือว่าทราบความน่าจะเป็นร่วมกัน กลุ่มแบบอ่อนถูกกำหนดโดยการกระจายความน่าจะเป็นเหนือตัวอย่างข้อมูลTishby และคณะได้นำเสนอ[ 1 ]ชุดสมการแบบวนซ้ำต่อไปนี้เพื่อกำหนดกลุ่ม ซึ่งท้ายที่สุดแล้วเป็นการวางนัยทั่วไปของอัลกอริทึม Blahut-Arimotoที่พัฒนาขึ้นในทฤษฎีอัตราการบิดเบือน การ ประยุกต์ ใช้อัลกอริทึมประเภทนี้ในเครือข่ายประสาทดูเหมือนจะมีต้นกำเนิดมาจากข้อโต้แย้งเรื่องเอนโทรปีที่เกิดขึ้นในการประยุกต์ใช้การกระจายของ Gibbsในการอบอ่อนแบบกำหนด[ 11 ] [ 12 ]

ฟังก์ชันของแต่ละบรรทัดของการวนซ้ำจะขยายออกเป็นดังนี้

บรรทัดที่ 1:นี่คือชุดค่าเมทริกซ์ของความน่าจะเป็นแบบมีเงื่อนไข

ค่าความแตกต่างแบบ Kullback–Leibler ระหว่างเวกเตอร์ที่สร้างขึ้นจากข้อมูลตัวอย่างและเวกเตอร์ที่สร้างขึ้นจากตัวแทนข้อมูลที่ลดทอนแล้วจะถูกนำมาใช้เพื่อประเมินความถูกต้องของเวกเตอร์ที่ถูกบีบอัดเมื่อเทียบกับข้อมูลอ้างอิง (หรือข้อมูลเชิงหมวดหมู่) ตามสมการคอขวดพื้นฐาน โดยที่คือค่าความแตกต่างแบบ Kullback–Leibler ระหว่างการแจกแจง

และเป็นการปรับค่ามาตรฐานแบบสเกลาร์ การถ่วงน้ำหนักด้วยเลขชี้กำลังลบของระยะทางหมายความว่า ความน่าจะเป็นของคลัสเตอร์ก่อนหน้าจะถูกลดน้ำหนักลงในบรรทัดที่ 1 เมื่อความแตกต่างของ Kullback–Leibler มีขนาดใหญ่ ดังนั้นคลัสเตอร์ที่ประสบความสำเร็จจึงมีความน่าจะเป็นเพิ่มขึ้น ในขณะที่คลัสเตอร์ที่ไม่ประสบความสำเร็จจะลดลง

บรรทัดที่ 2: ชุดเมทริกซ์ค่าที่สองของความน่าจะเป็นแบบมีเงื่อนไข ตามคำนิยาม

โดย ใช้ เอกลักษณ์ของเบย์ส

บรรทัดที่ 3:บรรทัดนี้ใช้หาการกระจายแบบมาร์จินัลของกลุ่มข้อมูล

นี่เป็นผลลัพธ์มาตรฐาน

อินพุตเพิ่มเติมของอัลกอริธึม ได้แก่ การกระจายตัวอย่างส่วนขอบซึ่งได้ถูกกำหนดไว้แล้วโดยเวกเตอร์ลักษณะเฉพาะเด่นของและฟังก์ชันความแตกต่าง Kullback–Leibler ที่มีค่าเป็นเมทริกซ์

ได้มาจากระยะห่างของตัวอย่างและความน่าจะเป็นของการเปลี่ยนสถานะ

เมทริกซ์สามารถเริ่มต้นแบบสุ่มหรือด้วยการคาดเดาที่สมเหตุสมผล ในขณะที่เมทริกซ์ไม่ต้องการค่าก่อนหน้าใดๆ แม้ว่าอัลกอริทึมจะลู่เข้า แต่ก็อาจมีค่าต่ำสุดหลายค่าที่ต้องได้รับการแก้ไข[ 13 ]

การกำหนดขอบเขตการตัดสินใจ

ในการจัดหมวดหมู่ตัวอย่างใหม่ที่อยู่นอกชุดข้อมูลฝึกฝนเมตริกซ์ระยะทางก่อนหน้านี้จะค้นหาความน่าจะเป็นของการเปลี่ยนผ่านระหว่างตัวอย่างทั้งหมดในชุดข้อมูลฝึกฝนโดยมีการปรับค่าให้เป็นมาตรฐาน จากนั้นใช้สองบรรทัดสุดท้ายของอัลกอริทึม 3 บรรทัด เพื่อหาความน่าจะเป็นของกลุ่มและหมวดหมู่แบบมีเงื่อนไข

ในที่สุด

พารามิเตอร์ต้องได้รับการตรวจสอบอย่างใกล้ชิด เนื่องจากเมื่อค่าเพิ่มขึ้นจากศูนย์ จำนวนคุณลักษณะในพื้นที่ความน่าจะเป็น ของหมวดหมู่จะเพิ่ม ขึ้น และจะปรากฏชัดเจนขึ้นที่เกณฑ์วิกฤตบางค่า

ตัวอย่าง

กรณีต่อไปนี้จะตรวจสอบการจัดกลุ่มในตัวคูณสี่ควอดแรนต์ที่มีอินพุตแบบสุ่มและเอาต์พุตสองประเภทซึ่งสร้างขึ้นโดยฟังก์ชันนี้ ฟังก์ชันนี้มีคลัสเตอร์ที่แยกจากกันในเชิงพื้นที่สองคลัสเตอร์สำหรับแต่ละประเภท ดังนั้นจึงแสดงให้เห็นว่าวิธีการนี้สามารถจัดการกับการกระจายดังกล่าวได้

มีการสุ่มตัวอย่าง 20 ตัวอย่าง โดยกระจายอย่างสม่ำเสมอทั่วพื้นที่สี่เหลี่ยมจัตุรัสจำนวนคลัสเตอร์ที่ใช้มากกว่าจำนวนหมวดหมู่ ซึ่งในกรณีนี้คือสองหมวดหมู่ มีผลกระทบต่อประสิทธิภาพเพียงเล็กน้อย และผลลัพธ์ที่แสดงเป็นผลลัพธ์สำหรับสองคลัสเตอร์โดยใช้พารามิเตอร์

ฟังก์ชันระยะทางคือในขณะที่การแจกแจงแบบมีเงื่อนไขเป็นเมทริกซ์ขนาด 2 × 20

และศูนย์ที่อื่น ๆ

ผลรวมในบรรทัดที่ 2 ประกอบด้วยค่าเพียงสองค่าที่แสดงถึงค่าการฝึกฝนคือ +1 หรือ −1 แต่ก็ยังใช้งานได้ดี รูปแสดงตำแหน่งของตัวอย่างทั้งยี่สิบตัวอย่าง โดย '0' แทนY = 1 และ 'x' แทนY = −1 เส้นโค้งที่ระดับอัตราส่วนความน่าจะเป็นเท่ากับหนึ่งแสดงไว้ในรูป

เมื่อมีการสแกนตัวอย่างใหม่ลงบนพื้นที่สี่เหลี่ยมจัตุรัส ตามทฤษฎีแล้ว เส้นขอบควรจะตรงกับพิกัด x และ y แต่สำหรับจำนวนตัวอย่างที่น้อยเช่นนี้ เส้นขอบกลับติดตามการกระจุกตัวที่ไม่ถูกต้องของจุดตัวอย่างแทน

ขอบเขตการตัดสินใจ

การเปรียบเทียบโครงข่ายประสาทเทียม/ตรรกะคลุมเครือ

อัลกอริทึมนี้คล้ายคลึงกับโครงข่ายประสาทเทียมที่มีชั้นซ่อนเพียงชั้นเดียว โหนดภายในแทนด้วยคลัสเตอร์และน้ำหนักของโครงข่ายในชั้นแรกและชั้นที่สองคือความน่าจะเป็นแบบมีเงื่อนไขตามลำดับอย่างไรก็ตาม ต่างจากโครงข่ายประสาทเทียมมาตรฐาน อัลกอริทึมนี้อาศัยความน่าจะเป็นเป็นอินพุตทั้งหมด แทนที่จะใช้ค่าตัวอย่างเอง ในขณะที่ค่าภายในและค่าเอาต์พุตทั้งหมดเป็น ฟังก์ชันความ หนาแน่นความน่าจะเป็นแบบมีเงื่อนไขฟังก์ชันที่ไม่เป็นเชิงเส้นจะถูกห่อหุ้มด้วยเมตริกซ์ระยะทาง(หรือฟังก์ชันอิทธิพล/ฟังก์ชันฐานรัศมี ) และความน่าจะเป็นการเปลี่ยนสถานะ แทนที่จะเป็นฟังก์ชันซิกมอยด์

อัลกอริทึมสามบรรทัดของ Blahut-Arimoto ลู่เข้าอย่างรวดเร็ว บ่อยครั้งภายในไม่กี่สิบรอบ และด้วยการเปลี่ยนแปลงค่า, และและจำนวนสมาชิกของคลัสเตอร์ จะสามารถบรรลุระดับการโฟกัสคุณลักษณะต่างๆ ได้

นิยามของการจัดกลุ่มแบบอ่อนทางสถิติมีความทับซ้อนบางส่วนกับแนวคิดการเป็นสมาชิกแบบคลุมเครือเชิงวาจาของตรรกะคลุมเครือ

ส่วนขยาย

ส่วนขยายที่น่าสนใจคือกรณีของคอขวดข้อมูลที่มีข้อมูลด้านข้าง[ 14 ]ในที่นี้ ข้อมูลเกี่ยวกับตัวแปรเป้าหมายหนึ่งตัวจะถูกเพิ่มให้สูงสุดและข้อมูลเกี่ยวกับตัวแปรอื่นจะถูกลดให้น้อยที่สุด โดยเรียนรู้การแสดงแทนที่มีข้อมูลเกี่ยวกับแง่มุมที่เลือกของข้อมูล ในทางรูปแบบ

บรรณานุกรม

  • Weiss, Y. ( 1999), "การแบ่งส่วนโดยใช้เวกเตอร์ลักษณะเฉพาะ: มุมมองที่เป็นหนึ่งเดียว", รายงานการประชุม IEEE International Conference on Computer Vision (PDF) , หน้า  975–982
  • P. Harremoës และ N. Tishby "การทบทวนปัญหาคอขวดของข้อมูล หรือวิธีการเลือกมาตรวัดความบิดเบือนที่ดี" ในรายงานการประชุมสัมมนาวิชาการนานาชาติว่าด้วยทฤษฎีสารสนเทศ (ISIT) ปี 2007
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Information_bottleneck_method&oldid=1352320795 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ วิธีการคอขวดข้อมูล

วิธีการคอขวดข้อมูลเป็นเทคนิคในทฤษฎีสารสนเทศที่Naftali Tishby , Fernando C.

ทฤษฎีการเรียนรู้สำหรับการเรียนรู้เชิงลึก

ได้รับการพิสูจน์ทางคณิตศาสตร์แล้วว่าการควบคุมคอขวดข้อมูลเป็นวิธีหนึ่งในการควบคุม ข้อผิดพลาดในการวางนัยทั่วไป ในการเรียนรู้เชิงลึก [ 2 ] กล่าวคือ ข้อผิดพลาดในการวางนัยทั่วไปได้รับการพิสูจน์แล้วว่าแปรผันตาม...

ทฤษฎีสารสนเทศของการเรียนรู้เชิงลึก

ทฤษฎีคอขวดข้อมูลเพิ่งถูกนำมาใช้ศึกษาโครงข่ายประสาทเทียมเชิงลึก (DNN) [ 3 ] พิจารณาและตามลำดับเป็นชั้นอินพุตและเอาต์พุตของ DNN และให้เป็นชั้นซ่อนใดๆ ของเครือข่าย Shwartz-Ziv และ Tishby...

คอขวดแบบเกาส์เซียน

คอขวดแบบเกาส์เซียน [ 7 ] กล่าวคือ การประยุกต์ใช้แนวทางคอขวดข้อมูลกับตัวแปรเกาส์เซียน นำไปสู่โซลูชันที่เกี่ยวข้องกับ การวิเคราะห์ ความสัมพันธ์แบบแคนอนิก สมมติว่าเป็นเวกเตอร์ปกติที่มีค่าเฉลี่ยเป็นศูนย์แบบหลายตัวแปรร่วมกัน...