วิธีการคอขวดข้อมูล

Q: ข้อมูลสำคัญเกี่ยวกับ วิธีการคอขวดข้อมูล

วิธีการคอขวดข้อมูลเป็นเทคนิคในทฤษฎีสารสนเทศที่Naftali Tishby , Fernando C.

วิธีการคอขวดข้อมูลเป็นเทคนิคในทฤษฎีสารสนเทศที่Naftali Tishby , Fernando C. Pereira และWilliam Bialekนำ เสนอ ^{[ 1 ]}ออกแบบมาเพื่อค้นหาจุดสมดุลที่ดีที่สุดระหว่างความแม่นยำและความซับซ้อน ( การบีบอัด ) เมื่อสรุป (เช่น การจัด กลุ่ม ) ตัวแปรสุ่มXโดยกำหนดการกระจายความน่าจะเป็นร่วมp(X,Y)ระหว่างXและตัวแปรที่เกี่ยวข้องที่สังเกตได้Yและอธิบายตัวเองว่าเป็น"กรอบงานที่สมบูรณ์อย่างน่าประหลาดใจสำหรับการอภิปรายปัญหาต่างๆ ในการประมวลผลสัญญาณและการเรียนรู้ " ^{[ 1 ]}

การประยุกต์ใช้รวมถึงการจัดกลุ่มตามการกระจายตัวและการลดมิติและเมื่อไม่นานมานี้ได้มีการเสนอให้เป็นพื้นฐานทางทฤษฎีสำหรับการเรียนรู้เชิงลึกมันได้ขยายแนวคิดคลาสสิกของสถิติเพียงพอ ขั้นต่ำ จากสถิติเชิงพารามิเตอร์ไปสู่การกระจายตัวแบบใดก็ได้ ไม่จำเป็นต้องอยู่ในรูปแบบเลขชี้กำลัง โดยการผ่อนคลายเงื่อนไขความเพียงพอเพื่อจับส่วนหนึ่งของข้อมูลร่วมกันกับตัวแปรYที่ เกี่ยวข้อง

ปัญหาคอขวดของข้อมูลยังสามารถมองได้ว่าเป็น ปัญหา การบิดเบือนอัตราโดยมีฟังก์ชันการบิดเบือนที่วัดว่าการทำนายY จากการแสดงผลแบบบีบอัด T นั้นดีเพียงใด เมื่อเทียบกับการทำนายโดยตรงจากX การตีความนี้ให้ขั้นตอนวิธีแบบวนซ้ำทั่วไปสำหรับการแก้ปัญหาความสมดุลของปัญหาคอขวดของข้อมูลและการคำนวณเส้นโค้งข้อมูล จาก การกระจายp(X,Y)

ให้ตัวแปรสุ่มเป็นตัวแทนที่ถูกบีบอัด อัลกอริทึมจะลดค่าฟังก์ชันต่อไปนี้ให้เหลือน้อยที่สุดโดยพิจารณาจากการกระจายแบบมีเงื่อนไข: $T$ $p(t|x)$

\inf _{p(t|x)}\,\,{\Big (}I(X;T)-\beta I(T;Y){\Big )},

โดยที่และคือข้อมูลร่วมของและและของและตามลำดับ และคือตัวคูณลากรางจ์ $I(X;T)$ $I(T;Y)$ $X$ $T$ $T$ $Y$ $\beta$

ทฤษฎีการเรียนรู้สำหรับการเรียนรู้เชิงลึก

ได้รับการพิสูจน์ทางคณิตศาสตร์แล้วว่าการควบคุมคอขวดข้อมูลเป็นวิธีหนึ่งในการควบคุมข้อผิดพลาดในการวางนัยทั่วไปในการเรียนรู้เชิงลึก^{[ 2 ]}กล่าวคือ ข้อผิดพลาดในการวางนัยทั่วไปได้รับการพิสูจน์แล้วว่าแปรผันตาม โดยที่คือจำนวนตัวอย่างการฝึกอบรมคืออินพุตของเครือข่ายประสาทเทียมเชิงลึก และคือเอาต์พุตของเลเยอร์ที่ซ่อนอยู่ ขอบเขตการวางนัยทั่วไปนี้แปรผันตามระดับของคอขวดข้อมูล ซึ่งแตกต่างจากขอบเขตการวางนัยทั่วไปอื่นๆ ที่แปรผันตามจำนวนพารามิเตอร์มิติ VC ความซับซ้อน ของRademacherความเสถียร หรือความทนทาน ${\tilde {O}}\left({\sqrt {\frac {I(X,T)+1}{n}}}\right)$ $n$ $X$ $T$

การเปลี่ยนสถานะ

ทฤษฎีสารสนเทศของการเรียนรู้เชิงลึก

ทฤษฎีคอขวดข้อมูลเพิ่งถูกนำมาใช้ศึกษาโครงข่ายประสาทเทียมเชิงลึก (DNN) ^{[ 3 ]} พิจารณาและตามลำดับเป็นชั้นอินพุตและเอาต์พุตของ DNN และให้เป็นชั้นซ่อนใดๆ ของเครือข่าย Shwartz-Ziv และ Tishby เสนอคอขวดข้อมูลที่แสดงถึงการแลกเปลี่ยนระหว่างการวัดข้อมูลร่วมกันและในกรณีนี้และตามลำดับจะวัดปริมาณข้อมูลที่ชั้นซ่อนมีเกี่ยวกับอินพุตและเอาต์พุต พวกเขาสันนิษฐานว่ากระบวนการฝึกฝนของ DNN ประกอบด้วยสองขั้นตอนแยกกัน 1) ขั้นตอนการปรับให้เหมาะสมเบื้องต้นซึ่งเพิ่มขึ้น และ 2) ขั้นตอนการบีบอัดในภายหลังซึ่งลดลง Saxe et al. ใน^[⁴^]โต้แย้งข้ออ้างของ Shwartz-Ziv และ Tishby ^[³^]โดยระบุว่าปรากฏการณ์การบีบอัดใน DNN นี้ไม่ครอบคลุม และขึ้นอยู่กับฟังก์ชันการกระตุ้น เฉพาะ โดยเฉพาะอย่างยิ่ง พวกเขาอ้างว่าการบีบอัดจะไม่เกิดขึ้นกับฟังก์ชันการกระตุ้น ReLu Shwartz-Ziv และ Tishby โต้แย้งข้อกล่าวอ้างเหล่านี้ โดยอ้างว่า Saxe et al. ไม่ได้สังเกตเห็นการบีบอัดเนื่องจากการประมาณค่าข้อมูลร่วมกันที่อ่อนแอ ในทางกลับกัน เมื่อเร็วๆ นี้ Goldfeld et al. ได้โต้แย้งว่าการบีบอัดที่สังเกตได้เป็นผลมาจากปรากฏการณ์ทางเรขาคณิต ไม่ใช่ปรากฏการณ์ทางทฤษฎีสารสนเทศ^[⁵^]ซึ่งเป็นมุมมองที่ได้รับการยอมรับใน^[⁶^{] เช่นกัน} $X$ $Y$ $T$ $I(X,T)$ $I(T,Y)$ $I(X,T)$ $I(T,Y)$ $I(T,Y)$ $I(X,T)$

คอขวดของการเปลี่ยนแปลง

คอขวดแบบเกาส์เซียน

คอขวดแบบเกาส์เซียน^{[ 7 ]}กล่าวคือ การประยุกต์ใช้แนวทางคอขวดข้อมูลกับตัวแปรเกาส์เซียน นำไปสู่โซลูชันที่เกี่ยวข้องกับ การวิเคราะห์ ความสัมพันธ์แบบแคนอนิกสมมติว่าเป็นเวกเตอร์ปกติที่มีค่าเฉลี่ยเป็นศูนย์แบบหลายตัวแปรร่วมกัน โดยมีค่าความแปรปรวนร่วมและเป็นเวอร์ชันที่บีบอัดของ ที่ต้องรักษาค่าข้อมูลร่วมกันที่กำหนดไว้กับสามารถแสดงได้ว่าค่าที่เหมาะสมที่สุดคือเวกเตอร์ปกติที่ประกอบด้วยการรวมเชิงเส้นขององค์ประกอบของโดยที่เมทริกซ์มีแถวตั้งฉากกัน $X,Y\,$ $\Sigma _{XX},\,\,\Sigma _{YY}$ $T\,$ $X\,$ $Y\,$ $T\,$ $X,\,\,T=AX\,$ $A\,$

เมทริกซ์การฉายภาพนั้นประกอบด้วยแถวที่เลือกมาจากเวกเตอร์ลักษณะ เฉพาะด้านซ้ายที่มีน้ำหนัก ของการแยกส่วนค่าเอกลักษณ์ของเมทริกซ์ (โดยทั่วไปจะเป็นเมทริกซ์ไม่สมมาตร) $A\,$ $M\,$

\Omega =\Sigma _{X|Y}\Sigma _{XX}^{-1}=I-\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{XY}^{T}\Sigma _{XX}^{-1}.\,

จงนิยามการแยกส่วนค่าเอกลักษณ์ (Singular Value Decomposition)

\Omega =U\Lambda V^{T}{\text{ with }}\Lambda =\operatorname {Diag} {\big (}\lambda _{1}\leq \lambda _{2}\cdots \lambda _{N}{\big )}\,

และค่าวิกฤต

\beta _{i}^{C}{\underset {\lambda _{i}<1}{=}}(1-\lambda _{i})^{-1}.\,

ดังนั้น จำนวนเวกเตอร์ลักษณะเฉพาะที่ใช้งานอยู่ในการฉายภาพ หรือลำดับของการประมาณค่า จะกำหนดโดย $M\,$

\beta _{M-1}^{C}<\beta \leq \beta _{M}^{C}

และในที่สุดเราก็ได้

A=[w_{1}U_{1},\dots ,w_{M}U_{M}]^{T}

โดยที่น้ำหนักจะกำหนดโดย

w_{i}={\sqrt {\left(\beta (1-\lambda _{i})-1\right)/\lambda _{i}r_{i}}}

ที่ไหน $r_{i}=U_{i}^{T}\Sigma _{XX}U_{i}.\,$

การนำคอขวดข้อมูลแบบเกาส์เซียนมาใช้กับอนุกรมเวลา (กระบวนการ) จะให้ผลลัพธ์ที่เกี่ยวข้องกับการเข้ารหัสทำนาย ที่เหมาะสม ขั้นตอนนี้เทียบเท่ากับการวิเคราะห์คุณลักษณะช้าเชิงเส้น อย่างเป็นทางการ ^{[ 8 ]}

โครงสร้างเชิงเวลาที่เหมาะสมในระบบไดนามิกเชิงเส้นสามารถเปิดเผยได้ในสิ่งที่เรียกว่าคอขวดข้อมูลอดีต-อนาคต ซึ่งเป็นการประยุกต์ใช้วิธีคอขวดกับข้อมูลที่สุ่มตัวอย่างแบบไม่เป็นเกาส์เซียน^{[ 9 ]}แนวคิดนี้ ตามที่ Creutzig, Tishby และคณะได้กล่าวถึงนั้น มีความซับซ้อนอยู่บ้าง เนื่องจากประกอบด้วยสองขั้นตอนอิสระในการดำเนินการ ได้แก่ ประการแรก การประมาณความหนาแน่นของความน่าจะเป็นของผู้ปกครองที่ไม่ทราบค่า ซึ่งข้อมูลตัวอย่างถูกดึงมา และประการที่สอง การใช้ความหนาแน่นเหล่านี้ภายในกรอบทฤษฎีสารสนเทศของคอขวด

การประมาณความหนาแน่น

เนื่องจากวิธีการคอขวดถูกกำหนดขึ้นในแง่ของความน่าจะเป็นมากกว่าสถิติ ความหนาแน่นของความน่าจะเป็นพื้นฐานที่จุดตัวอย่าง จะต้องได้รับการประมาณค่า นี่เป็นปัญหาที่รู้จักกันดีซึ่งมีวิธีแก้ปัญหาหลายวิธีตาม ที่Silvermanอธิบายไว้^[¹⁰^]ในวิธีการปัจจุบัน ความน่าจะเป็นร่วมของตัวอย่างจะถูกค้นพบโดยใช้ วิธี เมทริกซ์การเปลี่ยนผ่านของ Markovและวิธีนี้มีความสอดคล้องทางคณิตศาสตร์กับวิธีการคอขวดเอง $X={x_{i}}\,$

เมตริกซ์ระยะทางที่เพิ่มขึ้นตามอำเภอใจระหว่างคู่ตัวอย่างทั้งหมดและเมทริกซ์ระยะทางคือ . จากนั้น ต้องคำนวณความน่าจะเป็นของการเปลี่ยนสถานะระหว่างคู่ตัวอย่างสำหรับบางค่า โดยถือว่าตัวอย่างเป็นสถานะ และเวอร์ชันที่ทำให้เป็นมาตรฐานของ เป็นเมทริกซ์ความน่าจะเป็นของการเปลี่ยนสถานะแบบมาร์คอฟ เวกเตอร์ความน่าจะเป็นของ 'สถานะ' หลังจากขั้นตอน โดยมีเงื่อนไขจากสถานะเริ่มต้นคือ. เวกเตอร์ความน่าจะ เป็นสมดุล ที่กำหนดตามปกติโดยเวกเตอร์ลักษณะเฉพาะที่เด่นของเมทริกซ์ซึ่งเป็นอิสระจากเวกเตอร์เริ่มต้นวิธีการเปลี่ยนสถานะแบบมาร์คอฟนี้สร้างความน่าจะเป็นที่จุดตัวอย่างซึ่งอ้างว่าแปรผันตรงกับความหนาแน่นของความน่าจะเป็นที่จุดนั้น $f\,$ $d_{i,j}=f{\Big (}{\Big |}x_{i}-x_{j}{\Big |}{\Big )}$ $P_{i,j}=\exp(-\lambda d_{i,j})\,$ $\lambda >0\,$ $P\,$ $t\,$ $p(0)\,$ $p(t)=P^{t}p(0)\,$ $p(\infty )\,$ $P\,$ $p(0)\,$

การตีความอื่นๆ ของการใช้ค่าลักษณะเฉพาะของเมทริกซ์ระยะทาง มีการกล่าวถึงใน หนังสือ Density Estimation for Statistics and Data AnalysisของSilverman ^[¹⁰^] $d\,$

กลุ่ม

ในตัวอย่างการจัดกลุ่มแบบอ่อนต่อไปนี้ เวกเตอร์อ้างอิงประกอบด้วยหมวดหมู่ตัวอย่าง และถือว่าทราบความน่าจะเป็นร่วมกัน กลุ่มแบบอ่อนถูกกำหนดโดยการกระจายความน่าจะเป็นเหนือตัวอย่างข้อมูลTishby และคณะได้นำเสนอ^[¹^]ชุดสมการแบบวนซ้ำต่อไปนี้เพื่อกำหนดกลุ่ม ซึ่งท้ายที่สุดแล้วเป็นการวางนัยทั่วไปของอัลกอริทึม Blahut-Arimotoที่พัฒนาขึ้นในทฤษฎีอัตราการบิดเบือน การ ประยุกต์ ใช้อัลกอริทึมประเภทนี้ในเครือข่ายประสาทดูเหมือนจะมีต้นกำเนิดมาจากข้อโต้แย้งเรื่องเอนโทรปีที่เกิดขึ้นในการประยุกต์ใช้การกระจายของ Gibbsในการอบอ่อนแบบกำหนด^[¹¹^]^[¹²^] $Y\,$ $p(X,Y)\,$ $c_{k}\,$ $x_{i}:\,\,\,p(c_{k}|x_{i})$

{\begin{cases}p(c|x)=Kp(c)\exp {\Big (}-\beta \,D^{KL}{\Big [}p(y|x)\,||\,p(y|c){\Big ]}{\Big )}\\p(y|c)=\textstyle \sum _{x}p(y|x)p(c|x)p(x){\big /}p(c)\\p(c)=\textstyle \sum _{x}p(c|x)p(x)\\\end{cases}}

ฟังก์ชันของแต่ละบรรทัดของการวนซ้ำจะขยายออกเป็นดังนี้

บรรทัดที่ 1:นี่คือชุดค่าเมทริกซ์ของความน่าจะเป็นแบบมีเงื่อนไข

A_{i,j}=p(c_{i}|x_{j})=Kp(c_{i})\exp {\Big (}-\beta \,D^{KL}{\Big [}p(y|x_{j})\,||\,p(y|c_{i}){\Big ]}{\Big )}

ค่าความแตกต่างแบบ Kullback–Leibler ระหว่างเวกเตอร์ที่สร้างขึ้นจากข้อมูลตัวอย่างและเวกเตอร์ที่สร้างขึ้นจากตัวแทนข้อมูลที่ลดทอนแล้วจะถูกนำมาใช้เพื่อประเมินความถูกต้องของเวกเตอร์ที่ถูกบีบอัดเมื่อเทียบกับข้อมูลอ้างอิง (หรือข้อมูลเชิงหมวดหมู่) ตามสมการคอขวดพื้นฐาน โดยที่คือค่าความแตกต่างแบบ Kullback–Leibler ระหว่างการแจกแจง $D^{KL}\,$ $Y\,$ $x\,$ $c\,$ $Y\,$ $D^{KL}(a||b)\,$ $a,b\,$

D^{KL}(a||b)=\sum _{i}p(a_{i})\log {\Big (}{\frac {p(a_{i})}{p(b_{i})}}{\Big )}

และเป็นการปรับค่ามาตรฐานแบบสเกลาร์ การถ่วงน้ำหนักด้วยเลขชี้กำลังลบของระยะทางหมายความว่า ความน่าจะเป็นของคลัสเตอร์ก่อนหน้าจะถูกลดน้ำหนักลงในบรรทัดที่ 1 เมื่อความแตกต่างของ Kullback–Leibler มีขนาดใหญ่ ดังนั้นคลัสเตอร์ที่ประสบความสำเร็จจึงมีความน่าจะเป็นเพิ่มขึ้น ในขณะที่คลัสเตอร์ที่ไม่ประสบความสำเร็จจะลดลง $K\,$

บรรทัดที่ 2: ชุดเมทริกซ์ค่าที่สองของความน่าจะเป็นแบบมีเงื่อนไข ตามคำนิยาม

{\begin{aligned}p(y_{i}|c_{k})&=\sum _{j}p(y_{i}|x_{j})p(x_{j}|c_{k})\\&=\sum _{j}p(y_{i}|x_{j})p(x_{j},c_{k}){\big /}p(c_{k})\\&=\sum _{j}p(y_{i}|x_{j})p(c_{k}|x_{j})p(x_{j}){\big /}p(c_{k})\\\end{aligned}}

โดย ใช้ เอกลักษณ์ของเบย์ส $p(a,b)=p(a|b)p(b)=p(b|a)p(a)\,$

บรรทัดที่ 3:บรรทัดนี้ใช้หาการกระจายแบบมาร์จินัลของกลุ่มข้อมูล $c\,$

{\begin{aligned}p(c_{i})&=\sum _{j}p(c_{i},x_{j})&=\sum _{j}p(c_{i}|x_{j})p(x_{j})\end{aligned}}

นี่เป็นผลลัพธ์มาตรฐาน

อินพุตเพิ่มเติมของอัลกอริธึม ได้แก่ การกระจายตัวอย่างส่วนขอบซึ่งได้ถูกกำหนดไว้แล้วโดยเวกเตอร์ลักษณะเฉพาะเด่นของและฟังก์ชันความแตกต่าง Kullback–Leibler ที่มีค่าเป็นเมทริกซ์ $p(x)\,$ $P\,$

D_{i,j}^{KL}=D^{KL}{\Big [}p(y|x_{j})\,||\,p(y|c_{i}){\Big ]}{\Big )}

ได้มาจากระยะห่างของตัวอย่างและความน่าจะเป็นของการเปลี่ยนสถานะ

เมทริกซ์สามารถเริ่มต้นแบบสุ่มหรือด้วยการคาดเดาที่สมเหตุสมผล ในขณะที่เมทริกซ์ไม่ต้องการค่าก่อนหน้าใดๆ แม้ว่าอัลกอริทึมจะลู่เข้า แต่ก็อาจมีค่าต่ำสุดหลายค่าที่ต้องได้รับการแก้ไข^[¹³^] $p(y_{i}|c_{j})\,$ $p(c_{i}|x_{j})\,$

การกำหนดขอบเขตการตัดสินใจ

ในการจัดหมวดหมู่ตัวอย่างใหม่ที่อยู่นอกชุดข้อมูลฝึกฝนเมตริกซ์ระยะทางก่อนหน้านี้จะค้นหาความน่าจะเป็นของการเปลี่ยนผ่านระหว่างตัวอย่างทั้งหมดในชุดข้อมูลฝึกฝนโดยมีการปรับค่าให้เป็นมาตรฐาน จากนั้นใช้สองบรรทัดสุดท้ายของอัลกอริทึม 3 บรรทัด เพื่อหาความน่าจะเป็นของกลุ่มและหมวดหมู่แบบมีเงื่อนไข $x'\,$ $X\,$ $x'\,$ $X:\,\,$ ${\tilde {p}}(x_{i})=p(x_{i}|x')=\mathrm {K} \exp {\Big (}-\lambda f{\big (}{\Big |}x_{i}-x'{\Big |}{\big )}{\Big )}$ $\mathrm {K} \,$

{\begin{aligned}&{\tilde {p}}(c_{i})=p(c_{i}|x')=\sum _{j}p(c_{i}|x_{j})p(x_{j}|x')=\sum _{j}p(c_{i}|x_{j}){\tilde {p}}(x_{j})\\&p(y_{i}|c_{j})=\sum _{k}p(y_{i}|x_{k})p(c_{j}|x_{k})p(x_{k}|x')/p(c_{j}|x')=\sum _{k}p(y_{i}|x_{k})p(c_{j}|x_{k}){\tilde {p}}(x_{k})/{\tilde {p}}(c_{j})\\\end{aligned}}

ในที่สุด

p(y_{i}|x')=\sum _{j}p(y_{i}|c_{j})p(c_{j}|x'))=\sum _{j}p(y_{i}|c_{j}){\tilde {p}}(c_{j})\,

พารามิเตอร์ต้องได้รับการตรวจสอบอย่างใกล้ชิด เนื่องจากเมื่อค่าเพิ่มขึ้นจากศูนย์ จำนวนคุณลักษณะในพื้นที่ความน่าจะเป็น ของหมวดหมู่จะเพิ่ม ขึ้น และจะปรากฏชัดเจนขึ้นที่เกณฑ์วิกฤตบางค่า $\beta \,$

ตัวอย่าง

กรณีต่อไปนี้จะตรวจสอบการจัดกลุ่มในตัวคูณสี่ควอดแรนต์ที่มีอินพุตแบบสุ่มและเอาต์พุตสองประเภทซึ่งสร้างขึ้นโดยฟังก์ชันนี้ ฟังก์ชันนี้มีคลัสเตอร์ที่แยกจากกันในเชิงพื้นที่สองคลัสเตอร์สำหรับแต่ละประเภท ดังนั้นจึงแสดงให้เห็นว่าวิธีการนี้สามารถจัดการกับการกระจายดังกล่าวได้ $u,v\,$ $\pm 1\,$ $y=\operatorname {sign} (uv)\,$

มีการสุ่มตัวอย่าง 20 ตัวอย่าง โดยกระจายอย่างสม่ำเสมอทั่วพื้นที่สี่เหลี่ยมจัตุรัสจำนวนคลัสเตอร์ที่ใช้มากกว่าจำนวนหมวดหมู่ ซึ่งในกรณีนี้คือสองหมวดหมู่ มีผลกระทบต่อประสิทธิภาพเพียงเล็กน้อย และผลลัพธ์ที่แสดงเป็นผลลัพธ์สำหรับสองคลัสเตอร์โดยใช้พารามิเตอร์ $[-1,1]^{2}\,$ $\lambda =3,\,\beta =2.5$

ฟังก์ชันระยะทางคือในขณะที่การแจกแจงแบบมีเงื่อนไขเป็นเมทริกซ์ขนาด 2 × 20 $d_{i,j}={\Big |}x_{i}-x_{j}{\Big |}^{2}$ $x_{i}=(u_{i},v_{i})^{T}\,$ $p(y|x)\,$

{\begin{aligned}&Pr(y_{i}=1)=1{\text{ if }}\operatorname {sign} (u_{i}v_{i})=1\,\\&Pr(y_{i}=-1)=1{\text{ if }}\operatorname {sign} (u_{i}v_{i})=-1\,\end{aligned}}

และศูนย์ที่อื่น ๆ

ผลรวมในบรรทัดที่ 2 ประกอบด้วยค่าเพียงสองค่าที่แสดงถึงค่าการฝึกฝนคือ +1 หรือ −1 แต่ก็ยังใช้งานได้ดี รูปแสดงตำแหน่งของตัวอย่างทั้งยี่สิบตัวอย่าง โดย '0' แทนY = 1 และ 'x' แทนY = −1 เส้นโค้งที่ระดับอัตราส่วนความน่าจะเป็นเท่ากับหนึ่งแสดงไว้ในรูป

L={\frac {\Pr(1)}{\Pr(-1)}}=1

เมื่อมีการสแกนตัวอย่างใหม่ลงบนพื้นที่สี่เหลี่ยมจัตุรัส ตามทฤษฎีแล้ว เส้นขอบควรจะตรงกับพิกัด x และ y แต่สำหรับจำนวนตัวอย่างที่น้อยเช่นนี้ เส้นขอบกลับติดตามการกระจุกตัวที่ไม่ถูกต้องของจุดตัวอย่างแทน $x'\,$ $u=0\,$ $v=0\,$

การเปรียบเทียบโครงข่ายประสาทเทียม/ตรรกะคลุมเครือ

อัลกอริทึมนี้คล้ายคลึงกับโครงข่ายประสาทเทียมที่มีชั้นซ่อนเพียงชั้นเดียว โหนดภายในแทนด้วยคลัสเตอร์และน้ำหนักของโครงข่ายในชั้นแรกและชั้นที่สองคือความน่าจะเป็นแบบมีเงื่อนไขตามลำดับอย่างไรก็ตาม ต่างจากโครงข่ายประสาทเทียมมาตรฐาน อัลกอริทึมนี้อาศัยความน่าจะเป็นเป็นอินพุตทั้งหมด แทนที่จะใช้ค่าตัวอย่างเอง ในขณะที่ค่าภายในและค่าเอาต์พุตทั้งหมดเป็น ฟังก์ชันความ หนาแน่นความน่าจะเป็นแบบมีเงื่อนไขฟังก์ชันที่ไม่เป็นเชิงเส้นจะถูกห่อหุ้มด้วยเมตริกซ์ระยะทาง(หรือฟังก์ชันอิทธิพล/ฟังก์ชันฐานรัศมี ) และความน่าจะเป็นการเปลี่ยนสถานะ แทนที่จะเป็นฟังก์ชันซิกมอยด์ $c_{j}\,$ $p(c_{j}|x_{i})\,$ $p(y_{k}|c_{j})\,$ $f(.)\,$

อัลกอริทึมสามบรรทัดของ Blahut-Arimoto ลู่เข้าอย่างรวดเร็ว บ่อยครั้งภายในไม่กี่สิบรอบ และด้วยการเปลี่ยนแปลงค่า, และและจำนวนสมาชิกของคลัสเตอร์ จะสามารถบรรลุระดับการโฟกัสคุณลักษณะต่างๆ ได้ $\beta \,$ $\lambda \,$ $f\,$

นิยามของการจัดกลุ่มแบบอ่อนทางสถิติมีความทับซ้อนบางส่วนกับแนวคิดการเป็นสมาชิกแบบคลุมเครือเชิงวาจาของตรรกะคลุมเครือ $p(c_{i}|x_{j})\,$

ส่วนขยาย

ส่วนขยายที่น่าสนใจคือกรณีของคอขวดข้อมูลที่มีข้อมูลด้านข้าง^{[ 14 ]}ในที่นี้ ข้อมูลเกี่ยวกับตัวแปรเป้าหมายหนึ่งตัวจะถูกเพิ่มให้สูงสุดและข้อมูลเกี่ยวกับตัวแปรอื่นจะถูกลดให้น้อยที่สุด โดยเรียนรู้การแสดงแทนที่มีข้อมูลเกี่ยวกับแง่มุมที่เลือกของข้อมูล ในทางรูปแบบ

\min _{p(t|x)}\,\,I(X;T)-\beta ^{+}I(T;Y^{+})+\beta ^{-}I(T;Y^{-})

บรรณานุกรม

Weiss, Y. ( 1999), "การแบ่งส่วนโดยใช้เวกเตอร์ลักษณะเฉพาะ: มุมมองที่เป็นหนึ่งเดียว", รายงานการประชุม IEEE International Conference on Computer Vision (PDF) , หน้า 975–982
P. Harremoës และ N. Tishby "การทบทวนปัญหาคอขวดของข้อมูล หรือวิธีการเลือกมาตรวัดความบิดเบือนที่ดี" ในรายงานการประชุมสัมมนาวิชาการนานาชาติว่าด้วยทฤษฎีสารสนเทศ (ISIT) ปี 2007

[ 2 ]

[

[

[

[ 7 ]

[ 8 ]

[ 9 ]

[

[ 14 ]