การแยกเชิงเส้น

Q: ตัวอย่าง

จุด สามจุดที่ไม่ เรียงตัวกันบนเส้นตรงเดียวกัน ในสองกลุ่ม ('+' และ '-') จะสามารถแยกออกจากกันได้ด้วยเส้นตรงในสองมิติเสมอ ดังแสดงในตัวอย่างสามตัวอย่างในรูปต่อไปนี้ (กรณีที่มีเฉพาะ '+' ไม่ได้แสดงไว้ แต่มีลักษณะคล้ายกับกรณีที่มีเฉพาะ '-'):

ในเรขาคณิตแบบยุคลิดความสามารถในการแยกได้ด้วยเส้นตรงเป็นคุณสมบัติของเซตของจุด สองเซต ซึ่งสามารถมองเห็นภาพได้ง่ายที่สุดในสองมิติ ( ระนาบยุคลิด ) โดยคิดว่าเซตของจุดหนึ่งมีสีน้ำเงินและอีกเซตหนึ่งมีสีแดง เซตทั้งสองนี้สามารถแยกได้ด้วยเส้นตรงหากมีเส้นตรง อย่างน้อยหนึ่งเส้น ในระนาบที่มีจุดสีน้ำเงินทั้งหมดอยู่ด้านหนึ่งของเส้นตรงและจุดสีแดงทั้งหมดอยู่ด้านตรงข้าม แนวคิดนี้สามารถขยายไปสู่ปริภูมิยุคลิดที่มีมิติสูงกว่าได้ทันทีหากแทนที่เส้นตรงด้วยระนาบไฮเปอร์เพลน

ปัญหาของการพิจารณาว่าเซตสองเซตสามารถแยกออกจากกันด้วยเส้นตรงได้หรือไม่ และการหาเส้นแบ่งแยกหากสามารถแยกออกจากกันได้นั้น เกิดขึ้นในหลายสาขา ในทางสถิติและการเรียนรู้ของเครื่องการจำแนกประเภทข้อมูลบางประเภทเป็นปัญหาที่มีอัลกอริทึมที่ดีอยู่แล้วซึ่งอิงตามแนวคิดนี้

นิยามทางคณิตศาสตร์

ให้เป็นเซตของจุด และเป็นเซตของจุดในปริภูมิยุคลิดมิติและสามารถแยกได้ด้วยเส้นตรงถ้าสามารถ "แยก" ออกจากกันได้ด้วยระนาบมิติ โดยที่ทุกจุดในอยู่ด้านหนึ่งของระนาบ และทุกจุดในอยู่ด้านตรงข้ามของ ระนาบ $X\subset \mathbb {R} ^{d}$ $m$ $Y\subset \mathbb {R} ^{d}$ $n$ $d$ $X$ $Y$ $d$ $X$ $Y$

ระนาบแบ่งแยกประกอบด้วยจุดโดยที่คือเวกเตอร์ตั้งฉากกับระนาบ และคือค่าชดเชยแบบสเกลาร์และสามารถแยกออกจากกันได้ด้วยเส้นตรง ถ้ามีเวกเตอร์ตั้งฉากและค่าชดเชยแบบสเกลาร์ที่ทำให้ทุกจุดเป็นไปตามเงื่อนไขและทุกจุดเป็นไป ตามเงื่อนไข หรือทุกจุดเป็นไปตามเงื่อนไขและทุกจุด เป็นไป ตาม เงื่อนไข $\left\{z\in \mathbb {R} ^{d}:w^{\top }z+k=0\right\}$ $w\in \mathbb {R} ^{d}$ $k\in \mathbb {R}$ $X$ $Y$ $w$ $k$ $x\in X$ $w^{\top }x+k>0$ $y\in Y$ $w^{\top }y+k<0$ $x\in X$ $w^{\top }x+k<0$ $y\in Y$ $w^{\top }y+k>0$

ในทำนองเดียวกัน เซตสองเซตสามารถแยกออกจากกันได้เชิงเส้นก็ต่อเมื่อขอบเขตนูน ของเซตทั้งสอง ไม่ทับซ้อนกัน (โดยทั่วไปคือไม่ทับซ้อนกัน) ^{[ 1 ]}

ตัวอย่าง

จุด สามจุดที่ไม่เรียงตัวกันบนเส้นตรงเดียวกันในสองกลุ่ม ('+' และ '-') จะสามารถแยกออกจากกันได้ด้วยเส้นตรงในสองมิติเสมอ ดังแสดงในตัวอย่างสามตัวอย่างในรูปต่อไปนี้ (กรณีที่มีเฉพาะ '+' ไม่ได้แสดงไว้ แต่มีลักษณะคล้ายกับกรณีที่มีเฉพาะ '-'):

อย่างไรก็ตาม ไม่ใช่ว่าทุกชุดของจุดสี่จุด (โดยเฉพาะจุดสามจุดที่อยู่บนเส้นตรงเดียวกัน) จะสามารถแยกออกจากกันได้ด้วยเส้นตรงในสองมิติ ตัวอย่างต่อไปนี้จะต้องใช้ เส้นตรง สองเส้น จึงไม่สามารถแยกออกจากกันได้ด้วยเส้นตรง:

โปรดสังเกตว่าจุดสามจุดที่อยู่บนเส้นตรงเดียวกันและมีรูปแบบ "+ ⋅⋅⋅ — ⋅⋅⋅ +" ก็ไม่สามารถแยกออกจากกันได้ด้วยเส้นตรงเช่นกัน

จำนวนการแยกเชิงเส้น

ให้เป็นจำนวนวิธีในการแยก จุด Nจุด (ในตำแหน่งทั่วไป) ในมิติK ออกจากกันเชิงเส้น จากนั้น ^[²^]เมื่อKมีขนาดใหญ่จะมีค่าใกล้เคียงกับหนึ่งมากเมื่อแต่จะมีค่าใกล้เคียงกับศูนย์มากเมื่อกล่าวคือ หน่วย เพอร์เซปตรอน หนึ่ง หน่วยสามารถจดจำการกำหนดป้ายกำกับไบนารีแบบสุ่มบนจุด N จุดได้เกือบแน่นอนเมื่อแต่แทบจะเป็นไปไม่ได้เลยเมื่อ $T(N,K)$ $T(N,K)=\left\{{\begin{array}{cc}2^{N}&K\geq N\\2\sum _{k=0}^{K-1}\left({\begin{array}{c}N-1\\k\end{array}}\right)&K<N\end{array}}\right.$ $T(N,K)/2^{N}$ $N\leq 2K$ $N>2K$ $N\leq 2K$ $N>2K$

การแยกเชิงเส้นของฟังก์ชันบูลีนในตัวแปรn ตัว

ฟังก์ชันบูลีนใน ตัวแปร nตัวสามารถคิดได้ว่าเป็นการกำหนดค่า0หรือ1ให้กับจุดยอดแต่ละจุดของไฮเปอร์คิวบ์ บูลีน ใน มิติ nซึ่งทำให้เกิดการแบ่งจุดยอดออกเป็นสองชุดอย่างเป็นธรรมชาติ ฟังก์ชันบูลีนจะเรียกว่าสามารถแยกได้ด้วยเส้นตรงก็ต่อเมื่อจุดสองชุดนี้แยกได้ด้วยเส้นตรง จำนวนฟังก์ชันบูลีนที่แตกต่างกันคือโดยที่nคือจำนวนตัวแปรที่ส่งผ่านเข้าไปในฟังก์ชัน^[³^] $2^{2^{n}}$

ฟังก์ชันดังกล่าวเรียกอีกอย่างว่าตรรกะเกณฑ์เชิงเส้นหรือเพอร์เซปตรอนทฤษฎีคลาสสิกได้รับการสรุปไว้ใน^{[ 4 ]}ตามที่ Knuth อ้าง^{[ 5 ]}

จำนวนฟังก์ชันบูลีนที่แยกเชิงเส้นได้นั้นทราบแน่ชัดเฉพาะกรณีหนึ่งเท่านั้นแต่ลำดับขนาดเป็นที่ทราบค่อนข้างแน่นอน: มีขอบเขตบนและขอบเขตล่าง^[⁶^] $n=9$ $2^{n^{2}-n\log _{2}n+O(n)}$ $2^{n^{2}-n\log _{2}nO(n)}$

การตัดสินใจว่าฟังก์ชันบูลีนที่กำหนดในรูปแบบปกติ แบบแยกหรือ แบบเชื่อมโยง สามารถแยกเชิงเส้นได้หรือไม่นั้น ถือ เป็นปัญหา co-NP-complete ^[⁶^]

จำนวนฟังก์ชันบูลีนที่แยกเชิงเส้นได้ในแต่ละมิติ^{[ 7 ]} (ลำดับA000609ในOEIS )
จำนวนตัวแปร	ฟังก์ชันบูลีน	ฟังก์ชันบูลีนที่แยกเชิงเส้นได้
2	16	14
3	256	104
4	65536	1882
5	4294967296	94572
6	18446744073709552000	15028134
7	3.402823669 ×10^38	8378070864
8	1.157920892 ×10^77	17561539552946
9	1.340780792 ×10^154	144130531453121108

ตรรกะเกณฑ์

เกตตรรกะแบบเกณฑ์เชิงเส้น (Linear Threshold Logic Gate) คือฟังก์ชันบูลีนที่กำหนดโดยน้ำหนักและเกณฑ์โดยรับอินพุตแบบไบนารีและส่งออก 1 ถ้า เงื่อนไขเป็นจริง และส่งออก 0 ในกรณีอื่น ๆ $n$ $w_{1},\dots ,w_{n}$ $\theta$ $n$ $x_{1},\dots ,x_{n}$ $\sum _{i}w_{i}x_{i}>\theta$

สำหรับค่าคงที่ใดๆเนื่องจากมีฟังก์ชันบูลีนจำนวนจำกัดเท่านั้นที่สามารถคำนวณได้โดยหน่วยตรรกะเกณฑ์ จึงเป็นไปได้ที่จะกำหนดให้ทั้งหมดเป็นจำนวนเต็ม ให้ เป็นจำนวนที่เล็กที่สุดที่ฟังก์ชันเกณฑ์จริงที่เป็นไปได้ทั้งหมดของตัวแปรสามารถรับรู้ได้โดยใช้น้ำหนักจำนวนเต็มที่มีค่าสัมบูรณ์เป็นที่ทราบกันว่า^[⁸^]ดู^[⁹^]^{: ส่วนที่ 11.10}สำหรับการทบทวนวรรณกรรม $n$ $w_{1},\dots ,w_{n},\theta$ $W(n)$ $W$ $n$ $\leq W$ ${\frac {1}{2}}n\log n-2n+o(n)\leq \log _{2}W(n)\leq {\frac {1}{2}}n\log n-n+o(n)$

เครื่องสนับสนุนเวกเตอร์

การจำแนกข้อมูลเป็นงานทั่วไปในด้านการเรียนรู้ของเครื่องสมมติว่ามีจุดข้อมูลจำนวนหนึ่ง ซึ่งแต่ละจุดอยู่ในชุดข้อมูลใดชุดหนึ่งจากสองชุด และเราต้องการสร้างแบบจำลองที่จะตัดสินว่า จุดข้อมูล ใหม่จะอยู่ในชุดข้อมูลใด ในกรณีของเครื่องสนับสนุนเวกเตอร์ (Support Vector Machines ) จุดข้อมูลจะถูกมองว่าเป็น เวกเตอร์ pมิติ (รายการของ ตัวเลข pตัว) และเราต้องการทราบว่าเราสามารถแยกจุดข้อมูลเหล่านั้นด้วยระนาบไฮเปอร์ (hyperplane ) มิติ ( p − 1) ได้หรือไม่ ซึ่งเรียกว่าตัวจำแนกเชิงเส้น (linear classifier ) มีระนาบไฮเปอร์หลายระนาบที่อาจจำแนก (แยก) ข้อมูลได้ ตัวเลือกที่เหมาะสมที่สุดสำหรับระนาบไฮเปอร์ที่ดีที่สุดคือระนาบที่แสดงถึงการแยกหรือระยะห่างที่มากที่สุดระหว่างสองชุดข้อมูล ดังนั้นเราจึงเลือกระนาบไฮเปอร์เพื่อให้ระยะห่างจากระนาบนั้นไปยังจุดข้อมูลที่ใกล้ที่สุดในแต่ละด้านมีค่าสูงสุด หากมีระนาบไฮเปอร์ดังกล่าวอยู่ ระนาบนั้นจะเรียกว่าระนาบไฮเปอร์ที่มีระยะห่างสูงสุด (maximum-margin hyperplane)และตัวจำแนกเชิงเส้นที่กำหนดโดยระนาบนั้นจะเรียกว่าตัว จำแนกที่มีระยะห่าง สูงสุด (maximum margin classifier )

กล่าวอย่างเป็นทางการมากขึ้น เมื่อมีข้อมูลฝึกฝนชุดหนึ่งซึ่งประกอบด้วย จุด nจุดในรูปแบบ ${\mathcal {D}}$

{\mathcal {D}}=\left\{(\mathbf {x} _{i},y_{i})\mid \mathbf {x} _{i}\in \mathbb {R} ^{p},\,y_{i}\in \{-1,1\}\right\}_{i=1}^{n}

โดยที่y _iมีค่าเป็น 1 หรือ −1 ซึ่งบ่งบอกถึงเซตที่จุดนั้นเป็นสมาชิกอยู่ แต่ละเป็น เวกเตอร์ จริงpมิติเราต้องการหาไฮเปอร์เพลนที่มีระยะขอบสูงสุดที่แบ่งจุดที่มี ออกจากจุดที่มีไฮเปอร์เพลนใดๆ ก็สามารถเขียนได้เป็นเซตของจุดที่สอดคล้องกับ $\mathbf {x} _{i}$ $\mathbf {x} _{i}$ $y_{i}=1$ $y_{i}=-1$ $\mathbf {x}$

\mathbf {w} \cdot \mathbf {x} -b=0,

โดยที่หมายถึงผลคูณดอทและเวกเตอร์ตั้งฉาก (ไม่จำเป็นต้องเป็นเวกเตอร์หน่วย) กับระนาบไฮเปอร์เพลน พารามิเตอร์กำหนดระยะห่างของระนาบไฮเปอร์เพลนจากจุดกำเนิดตามแนวเวกเตอร์ตั้งฉาก $\cdot$ ${\mathbf {w} }$ ${\tfrac {b}{\|\mathbf {w} \|}}$ ${\mathbf {w} }$

หากข้อมูลฝึกฝนสามารถแยกได้ด้วยเส้นตรง เราสามารถเลือกไฮเปอร์เพลนสองเส้นในลักษณะที่แยกข้อมูลออกจากกันโดยไม่มีจุดอยู่ระหว่างกัน จากนั้นพยายามเพิ่มระยะห่างระหว่างไฮเปอร์เพลนทั้งสองให้มากที่สุด

ดูเพิ่มเติม

[ 1 ]

[

[ 4 ]

[ 5 ]

[ 7 ]

[

[