ชุดหยาบ

Q: ข้อมูลสำคัญเกี่ยวกับ ชุดหยาบ

ในวิทยาการคอมพิวเตอร์เซตแบบหยาบ (rough set ) ซึ่งอธิบายครั้งแรกโดยนักวิทยาศาสตร์คอมพิวเตอร์ชาวโปแลนด์Zdzisław I.

ในวิทยาการคอมพิวเตอร์เซตแบบหยาบ (rough set ) ซึ่งอธิบายครั้งแรกโดยนักวิทยาศาสตร์คอมพิวเตอร์ชาวโปแลนด์Zdzisław I. Pawlakเป็นการประมาณอย่างเป็นทางการของเซตแบบชัดเจน (crisp set) (เช่น เซตแบบดั้งเดิม) ในแง่ของเซตคู่หนึ่งซึ่งให้การประมาณค่าล่างและ การประมาณ ค่าบนของเซตดั้งเดิม ในทฤษฎีเซตแบบหยาบเวอร์ชันมาตรฐานที่อธิบายไว้ใน Pawlak (1991) ^{[ 1 ]}เซตการประมาณค่าล่างและการประมาณค่าบนเป็นเซตแบบชัดเจน แต่ในรูปแบบอื่นๆ เซตการประมาณค่าอาจเป็นเซตแบบคลุมเครือ (fuzzy sets )

คำจำกัดความ

ส่วนต่อไปนี้ประกอบด้วยภาพรวมของกรอบพื้นฐานของทฤษฎีเซตแบบหยาบ (rough set theory) ตามที่เสนอโดยZdzisław I. Pawlak เป็นครั้งแรก พร้อมด้วยคำจำกัดความที่สำคัญบางประการ คุณสมบัติและขอบเขตที่เป็นทางการมากขึ้นของเซตแบบหยาบสามารถพบได้ในPawlak (1991)และเอกสารอ้างอิงที่อ้างถึง ทฤษฎีเริ่มต้นและพื้นฐานของเซตแบบหยาบนี้บางครั้งเรียกว่า"เซตแบบหยาบของ Pawlak"หรือ"เซตแบบหยาบแบบคลาสสิก"เพื่อแยกแยะออกจากส่วนขยายและการวางนัยทั่วไปที่เกิดขึ้นในภายหลัง

กรอบระบบสารสนเทศ

ให้เป็นระบบสารสนเทศ ( ระบบคุณลักษณะ-ค่า ) โดยที่ เป็น เซต ของวัตถุ ที่ไม่ว่างเปล่าและมี จำนวนจำกัด (เอกภพ) และเป็นเซตของคุณลักษณะที่ไม่ว่างเปล่าและมีจำนวนจำกัด โดยที่สำหรับทุกคือเซตของค่าที่คุณลักษณะนั้น อาจมี ได้ ตารางสารสนเทศจะกำหนดค่าจากให้กับแต่ละคุณลักษณะและวัตถุในเอกภพ $I=(\mathbb {U} ,\mathbb {A} )$ $\mathbb {U}$ $\mathbb {A}$ $I:\mathbb {U} \rightarrow V_{a}$ $a\in \mathbb {A}$ $V_{a}$ $a$ $a(x)$ $V_{a}$ $a$ $x$ $\mathbb {U}$

ความสัมพันธ์สมมูลใดๆ ก็ตามจะมีค่าที่สอดคล้องกันเสมอ: $P\subseteq \mathbb {A}$ $\mathrm {IND} (P)$

\mathrm {IND} (P)=\left\{(x,y)\in \mathbb {U} ^{2}\mid \forall a\in P,a(x)=a(y)\right\}

ความสัมพันธ์นี้เรียกว่าความสัมพันธ์ที่ไม่สามารถแยกแยะได้ (indiscernibility relation ) การแบ่งส่วนของคือกลุ่มของชั้นสมมูล ทั้งหมด ของและใช้สัญลักษณ์(หรือ) แทน $\mathrm {IND} (P)$ $P$ $\mathbb {U}$ $\mathrm {IND} (P)$ $\mathbb {U} /\mathrm {IND} (P)$ $\mathbb {U} /P$

ถ้าเช่นนั้นและจะไม่สามารถแยกแยะได้ (หรือไม่สามารถแยกแยะได้) โดยใช้คุณลักษณะจาก $(x,y)\in \mathrm {IND} (P)$ $x$ $y$ $P$

ชั้นสมมูลของความสัมพันธ์ที่ไม่สามารถแยกแยะได้ - จะถูกแสดงด้วยสัญลักษณ์. $P$ $[x]_{P}$

ตัวอย่าง: โครงสร้างชั้นสมมูล

ตัวอย่างเช่น ลองพิจารณาตารางข้อมูลต่อไปนี้:

ระบบสารสนเทศตัวอย่าง
วัตถุ	$P_{1}$	$P_{2}$	$P_{3}$	$P_{4}$	$P_{5}$
$O_{1}$	1	2	0	1	1
$O_{2}$	1	2	0	1	1
$O_{3}$	2	0	0	1	0
$O_{4}$	0	0	1	2	1
$O_{5}$	2	1	0	2	1
$O_{6}$	0	0	1	2	2
$O_{7}$	2	0	0	1	0
$O_{8}$	0	1	2	2	1
$O_{9}$	2	1	0	2	2
$O_{10}$	2	0	0	1	0

เมื่อพิจารณาคุณลักษณะทั้งหมดแล้วเราจะพบว่ามีกลุ่มความเท่าเทียมกันเจ็ดกลุ่มดังต่อไปนี้: $P=\{P_{1},P_{2},P_{3},P_{4},P_{5}\}$

{\begin{cases}\{O_{1},O_{2}\}\\\{O_{3},O_{7},O_{10}\}\\\{O_{4}\}\\\{O_{5}\}\\\{O_{6}\}\\\{O_{8}\}\\\{O_{9}\}\end{cases}}

ดังนั้น วัตถุสองชิ้นภายในกลุ่มความเท่าเทียมกันกลุ่มแรกจึงไม่สามารถแยกแยะออกจากกันได้โดยอาศัยคุณลักษณะที่มีอยู่ และวัตถุสามชิ้นภายในกลุ่มความเท่าเทียมกันกลุ่มที่สองก็ไม่สามารถแยกแยะออกจากกันได้โดยอาศัยคุณลักษณะที่มีอยู่ ส่วนวัตถุที่เหลืออีกห้าชิ้นนั้น สามารถแยกแยะออกจากวัตถุอื่นๆ ได้ทั้งหมด $\{O_{1},O_{2}\}$ $\{O_{3},O_{7},O_{10}\}$

เห็นได้ชัดว่าการเลือกชุดย่อยของคุณลักษณะที่แตกต่างกันโดยทั่วไปจะนำไปสู่คลาสความไม่สามารถแยกแยะที่แตกต่างกัน ตัวอย่างเช่น หากเลือกคุณลักษณะเพียงอย่างเดียว เราจะได้โครงสร้างคลาสความเท่าเทียมกันที่หยาบกว่ามากดังต่อไปนี้: $P=\{P_{1}\}$

{\begin{cases}\{O_{1},O_{2}\}\\\{O_{3},O_{5},O_{7},O_{9},O_{10}\}\\\{O_{4},O_{6},O_{8}\}\end{cases}}

นิยามของเซตหยาบ

ให้เป็นเซตเป้าหมายที่เราต้องการแสดงโดยใช้เซตย่อยของคุณลักษณะกล่าวคือ เราได้รับแจ้งว่าเซตของวัตถุใดๆประกอบด้วยคลาสเดียว และเราต้องการแสดงคลาสนี้ (เช่น เซตย่อยนี้) โดยใช้คลาสสมมูลที่เกิดจากเซตย่อยของคุณลักษณะโดยทั่วไปแล้วไม่สามารถแสดงได้อย่างแม่นยำ เนื่องจากเซต อาจรวมและไม่รวมวัตถุที่ไม่สามารถแยกแยะได้จากคุณลักษณะ $X\subseteq \mathbb {U}$ $P$ $X$ $P$ $X$ $P$

ตัวอย่างเช่น พิจารณาเซตเป้าหมายและให้แอตทริบิวต์เป็นเซตย่อยซึ่งเป็นเซตของคุณลักษณะทั้งหมดที่มีอยู่ เซตนี้ไม่สามารถแสดงได้อย่างแม่นยำ เนื่องจากใน เซตนี้ วัตถุต่างๆไม่สามารถแยกแยะได้ ดังนั้นจึงไม่มีวิธีใดที่จะแสดงเซตใดๆที่รวมแต่ไม่รวมวัตถุและได้ $X=\{O_{1},O_{2},O_{3},O_{4}\}$ $P=\{P_{1},P_{2},P_{3},P_{4},P_{5}\}$ $X$ $[x]_{P},$ $\{O_{3},O_{7},O_{10}\}$ $X$ $O_{3}$ $O_{7}$ $O_{10}$

อย่างไรก็ตาม สามารถประมาณชุดเป้าหมาย ได้ โดยใช้เพียงข้อมูลที่มีอยู่ภายในโดยการสร้าง ค่า ประมาณล่างและบนของ: $X$ $P$ $P$ $P$ $X$

{\underline {P}}X=\{x\mid [x]_{P}\subseteq X\}

{\overline {P}}X=\{x\mid [x]_{P}\cap X\neq \emptyset \}

การประมาณค่าที่ต่ำกว่าและบริเวณที่เป็นบวก

การประมาณค่าต่ำสุดหรือบริเวณบวกคือการรวมกันของชั้นสมมูลทั้งหมดที่ เป็นส่วนหนึ่งของเซตเป้าหมาย (กล่าวคือ เป็นเซตย่อยของเซตเป้าหมาย) – ในตัวอย่างคือการรวมกันของชั้นสมมูลสองชั้นที่ เป็นส่วนหนึ่งของเซตเป้าหมาย การประมาณค่าต่ำสุดคือเซตทั้งหมดของวัตถุในที่สามารถ จำแนก ได้อย่างชัดเจน (กล่าวคือ ไม่คลุมเครือ) ว่าเป็นของเซตเป้าหมาย $P$ $[x]_{P}$ ${\underline {P}}X=\{O_{1},O_{2}\}\cup \{O_{4}\}$ $[x]_{P}$ $\mathbb {U} /P$ $X$

การประมาณค่าบนและบริเวณลบ

การประมาณค่าบน ( upper approximation) คือการรวมกันของชั้นสมมูลทั้งหมดที่มีจุดตัดที่ไม่ว่างเปล่ากับเซตเป้าหมาย – ในตัวอย่างคือการรวมกันของชั้นสมมูลสามชั้นในที่มีจุดตัดที่ไม่ว่างเปล่ากับเซตเป้าหมาย การประมาณค่าบนคือเซตที่สมบูรณ์ของวัตถุในที่ไม่สามารถจำแนกได้อย่างชัดเจน (กล่าวคือ ไม่คลุมเครือ) ว่าเป็นส่วนหนึ่งของส่วนเติมเต็ม ( ) ของเซตเป้าหมาย กล่าวอีกนัยหนึ่ง การประมาณค่าบนคือเซตที่สมบูรณ์ของวัตถุที่เป็นสมาชิกของเซตเป้าหมายได้ $P$ $[x]_{P}$ ${\overline {P}}X=\{O_{1},O_{2}\}\cup \{O_{4}\}\cup \{O_{3},O_{7},O_{10}\}$ $[x]_{P}$ $\mathbb {U} /P$ ${\overline {X}}$ $X$ $X$

ดังนั้น เซตนี้จึงแสดงถึงบริเวณเชิงลบซึ่งประกอบด้วยเซตของวัตถุที่สามารถตัดออกได้อย่างแน่นอนว่าไม่ใช่สมาชิกของเซตเป้าหมาย $\mathbb {U} -{\overline {P}}X$

เขตแดน

บริเวณขอบเขตที่กำหนดโดยความแตกต่างของเซตประกอบด้วยวัตถุที่ไม่สามารถระบุได้ว่าเป็นสมาชิกของเซตเป้าหมายหรือเป็นอย่างอื่น ${\overline {P}}X-{\underline {P}}X$ $X$

โดยสรุปแล้ว การประมาณค่าต่ำสุดของเซตเป้าหมายเป็นการ ประมาณค่าแบบ อนุรักษ์นิยมซึ่งประกอบด้วยเฉพาะวัตถุที่สามารถระบุได้อย่างแน่ชัดว่าเป็นสมาชิกของเซตเท่านั้น (วัตถุเหล่านี้ไม่มี "สำเนา" ที่แยกแยะไม่ได้ซึ่งถูกตัดออกจากเซตเป้าหมาย) การประมาณค่าสูงสุดเป็นการ ประมาณค่า แบบเสรีนิยมซึ่งรวมถึงวัตถุทั้งหมดที่อาจเป็นสมาชิกของเซตเป้าหมาย (วัตถุบางชิ้นในการประมาณค่าสูงสุดอาจไม่ใช่สมาชิกของเซตเป้าหมาย) จากมุมมองของการประมาณค่าต่ำสุดประกอบด้วยวัตถุที่เป็นสมาชิกของเซตเป้าหมายอย่างแน่นอน (ความน่าจะเป็น = 1) ในขณะที่การประมาณค่าสูงสุดประกอบด้วยวัตถุที่เป็นสมาชิกของเซตเป้าหมายด้วยความน่าจะเป็นที่ไม่เป็นศูนย์ (ความน่าจะเป็น > 0) $\mathbb {U} /P$

ชุดหยาบ

ทูเปิล ที่ประกอบด้วยค่าประมาณล่างและค่าประมาณบนเรียกว่าเซตแบบหยาบ (rough set ) ดังนั้น เซตแบบหยาบจึงประกอบด้วยเซตแบบชัดเจน (crisp set) สองเซต เซตหนึ่งแทนขอบเขตล่างของเซตเป้าหมายและอีกเซตหนึ่งแทนขอบเขตบนของเซตเป้าหมาย $\langle {\underline {P}}X,{\overline {P}}X\rangle$ $X$ $X$

ความแม่นยำของการแสดงเซตแบบหยาบสามารถให้^[¹^]ดังต่อไปนี้: $X$

\alpha _{P}(X)={\frac {\left|{\underline {P}}X\right|}{\left|{\overline {P}}X\right|}}

กล่าวคือ ความแม่นยำของการแสดงเซตแบบหยาบของ, , , คืออัตราส่วนของจำนวนวัตถุที่สามารถวางลงใน ได้อย่างแน่นอนต่อจำนวนวัตถุที่อาจวางลงใน ได้ซึ่งเป็นการวัดว่าเซตแบบหยาบนั้นประมาณเซตเป้าหมายได้ใกล้เคียงแค่ไหน เห็นได้ชัดว่า เมื่อการประมาณค่าบนและล่างเท่ากัน (เช่น บริเวณขอบเขตว่างเปล่า) แล้ว , และการประมาณค่าจะสมบูรณ์แบบ ในทางตรงกันข้าม เมื่อใดก็ตามที่การประมาณค่าล่างว่างเปล่า ความแม่นยำจะเป็นศูนย์ (โดยไม่คำนึงถึงขนาดของการประมาณค่าบน) $X$ $\alpha _{P}(X)$ $0\leq \alpha _{P}(X)\leq 1$ $X$ $X$ $\alpha _{P}(X)=1$

การวิเคราะห์เชิงวัตถุวิสัย

ทฤษฎีเซตแบบหยาบเป็นหนึ่งในหลายวิธีที่สามารถนำมาใช้ในการวิเคราะห์ระบบที่ไม่แน่นอน (รวมถึงระบบที่คลุมเครือ) แม้ว่าจะไม่ค่อยเป็นที่นิยมเท่ากับวิธีการแบบดั้งเดิม เช่นความน่าจะ เป็น สถิติ เอนโทรปีและทฤษฎีเดมป์สเตอร์-เชเฟอร์ก็ตาม อย่างไรก็ตาม ความแตกต่างที่สำคัญและจุดแข็งที่เป็นเอกลักษณ์ของการใช้ทฤษฎีเซตแบบหยาบแบบคลาสสิกก็คือ การวิเคราะห์ในรูปแบบที่เป็นกลาง^{[ 2 ]}แตกต่างจากวิธีการอื่นๆ เช่นที่กล่าวมาข้างต้น การวิเคราะห์เซตแบบหยาบแบบคลาสสิกไม่ต้องการข้อมูลเพิ่มเติม พารามิเตอร์ภายนอก แบบจำลอง ฟังก์ชัน ระดับ หรือการตีความตามความรู้สึกส่วนตัวเพื่อกำหนดสมาชิกภาพของเซต แต่จะใช้เฉพาะข้อมูลที่มีอยู่ในข้อมูลที่กำหนดเท่านั้น^{[ 3 ]} การปรับปรุงทฤษฎีเซตแบบหยาบในปัจจุบัน เช่น เซตแบบหยาบตามการครอบงำ เซตแบบหยาบตามทฤษฎีการตัดสินใจ และเซตแบบหยาบแบบฟัซซี ได้นำความรู้สึกส่วนตัวมาสู่การวิเคราะห์มากขึ้น

ความสามารถในการกำหนด

โดยทั่วไป ค่าประมาณบนและล่างจะไม่เท่ากัน ในกรณีเช่นนี้ เรากล่าวว่าเซตเป้าหมายนั้นไม่สามารถกำหนดได้หรือสามารถกำหนดได้คร่าวๆบนเซตคุณลักษณะเมื่อค่าประมาณบนและล่างเท่ากัน (กล่าวคือ ขอบเขตว่างเปล่า) เซตเป้าหมายก็จะสามารถกำหนดได้บนเซตคุณลักษณะเราสามารถแยกแยะกรณีพิเศษของการไม่สามารถกำหนดได้ดังต่อไปนี้: $X$ $P$ ${\overline {P}}X={\underline {P}}X$ $X$ $P$

เซตไม่สามารถกำหนดได้ภายในหากและซึ่งหมายความว่าบนเซตแอตทริบิวต์ไม่มี วัตถุ ใดที่เราสามารถแน่ใจได้ว่าเป็นของเซตเป้าหมายแต่มีวัตถุที่เราสามารถยกเว้นออกจากเซตได้อย่างแน่นอน $X$ ${\underline {P}}X=\emptyset$ ${\overline {P}}X\neq \mathbb {U}$ $P$ $X$ $X$
เซตไม่สามารถกำหนดจากภายนอกได้หากและซึ่งหมายความว่าบนเซตแอตทริบิวต์มี วัตถุ ที่เราสามารถมั่นใจได้ว่าอยู่ในเซตเป้าหมายแต่ไม่มีวัตถุใดที่เราสามารถยกเว้นออกจากเซตได้อย่างแน่นอน $X$ ${\underline {P}}X\neq \emptyset$ ${\overline {P}}X=\mathbb {U}$ $P$ $X$ $X$
เซตนั้นไม่สามารถนิยามได้อย่างสมบูรณ์หากและซึ่งหมายความว่าบนเซตแอตทริบิวต์ไม่มี วัตถุ ใดที่เราสามารถแน่ใจได้ว่าอยู่ในเซตเป้าหมายและไม่มีวัตถุใดที่เราสามารถแยกออกจากเซตได้อย่างแน่นอนดังนั้น บนเซตแอตทริบิวต์เราจึงไม่สามารถตัดสินได้ว่าวัตถุใดเป็นหรือไม่เป็นสมาชิกของ $X$ ${\underline {P}}X=\emptyset$ ${\overline {P}}X=\mathbb {U}$ $P$ $X$ $X$ $P$ $X$

ลดขนาดและแกนหลัก

คำถามที่น่าสนใจคือ มีคุณลักษณะใดบ้างในระบบสารสนเทศ (ตารางคุณลักษณะ-ค่า) ที่มีความสำคัญต่อความรู้ที่แสดงในโครงสร้างชั้นสมมูลมากกว่าคุณลักษณะอื่นๆ หรือไม่ บ่อยครั้งที่เราสงสัยว่ามีชุดย่อยของคุณลักษณะใดบ้างที่สามารถอธิบายความรู้ในฐานข้อมูลได้อย่างครบถ้วนด้วยตัวมันเอง ชุดคุณลักษณะดังกล่าวเรียกว่ารีดักต์ (reduct )

ตามหลักการแล้ว รีดักต์ (reduct) คือเซตย่อยของแอตทริบิวต์โดยที่ $\mathrm {RED} \subseteq P$

$[x]_{\mathrm {RED} }$ = กล่าวคือ กลุ่มความเท่าเทียมกันที่เกิดจากชุดคุณลักษณะที่ลดลงนั้นเหมือนกับโครงสร้างกลุ่มความเท่าเทียมกันที่เกิดจากชุดคุณลักษณะทั้งหมด $[x]_{P}$ $\mathrm {RED}$ $P$
ชุดแอตทริบิวต์นั้นมีน้อยที่สุดในแง่ที่ว่าสำหรับแอตทริบิวต์ใดๆก็ตาม จะไม่สามารถลบแอตทริบิวต์ใดๆ ออกจากชุดได้โดยไม่ทำให้คลาสสมมูลเปลี่ยนแปลงไป $\mathrm {RED}$ $[x]_{(\mathrm {RED} -\{a\})}\neq [x]_{P}$ $a\in \mathrm {RED}$ $\mathrm {RED}$ $[x]_{P}$

อาจมองว่า "ตัวลดทอน" (reduct) คือ ชุดคุณลักษณะ ที่เพียงพอกล่าวคือ เพียงพอที่จะแสดงโครงสร้างของหมวดหมู่ ในตารางตัวอย่างข้างต้น ชุดคุณลักษณะเป็นตัวลดทอน กล่าวคือ ระบบสารสนเทศที่ฉายภาพโดยใช้เพียงคุณลักษณะเหล่านี้จะมีโครงสร้างชั้นสมมูลเดียวกันกับที่แสดงโดยชุดคุณลักษณะทั้งหมด: $\{P_{3},P_{4},P_{5}\}$

{\begin{cases}\{O_{1},O_{2}\}\\\{O_{3},O_{7},O_{10}\}\\\{O_{4}\}\\\{O_{5}\}\\\{O_{6}\}\\\{O_{8}\}\\\{O_{9}\}\end{cases}}

ชุดแอตทริบิวต์ถือเป็นตัวลดทอน เนื่องจากหากกำจัดแอตทริบิวต์ใดๆ ออกไป จะทำให้โครงสร้างคลาสสมมูลยุบตัวลง ส่งผลให้. $\{P_{3},P_{4},P_{5}\}$ $[x]_{\mathrm {RED} }\neq [x]_{P}$

การลดรูปของระบบสารสนเทศนั้นไม่เป็นเอกลักษณ์ : อาจมีชุดย่อยของคุณลักษณะหลายชุดที่รักษาโครงสร้างชั้นสมมูล (เช่น ความรู้) ที่แสดงอยู่ในระบบสารสนเทศ ในตัวอย่างระบบสารสนเทศข้างต้น การลดรูปอีกแบบหนึ่งคือซึ่งสร้างโครงสร้างชั้นสมมูลเดียวกันกับ $\{P_{1},P_{2},P_{5}\}$ $[x]_{P}$

ชุดของคุณลักษณะที่เหมือนกันในทุกรีดักต์เรียกว่าคอร์ : คอร์คือชุดของคุณลักษณะที่ทุกรีดักต์มีอยู่ และดังนั้นจึงประกอบด้วยคุณลักษณะที่ไม่สามารถลบออกจากระบบสารสนเทศได้โดยไม่ทำให้โครงสร้างคลาสสมมูลพังทลาย คอร์อาจถูกมองว่าเป็นชุดของ คุณลักษณะ ที่จำเป็น – จำเป็นในที่นี้เพื่อให้โครงสร้างหมวดหมู่สามารถแสดงได้ ในตัวอย่างนี้ คุณลักษณะที่จำเป็นเพียงอย่างเดียวคือ; คุณลักษณะอื่นๆ สามารถลบออกได้ทีละอย่างโดยไม่ทำให้โครงสร้างคลาสสมมูลเสียหาย ดังนั้นคุณลักษณะเหล่านั้นจึงไม่จำเป็นอย่างไรก็ตาม การลบเพียงอย่างเดียวจะเปลี่ยนโครงสร้างคลาสสมมูล ดังนั้น จึงเป็น คุณลักษณะ ที่ขาดไม่ได้ของระบบสารสนเทศนี้ และด้วยเหตุนี้จึงเป็นคอร์ $\{P_{5}\}$ $\{P_{5}\}$ $\{P_{5}\}$

เป็นไปได้ที่แกนหลักจะว่างเปล่า ซึ่งหมายความว่าไม่มีคุณลักษณะที่ขาดไม่ได้: คุณลักษณะใดๆ ในระบบสารสนเทศดังกล่าวสามารถถูกลบออกได้โดยไม่เปลี่ยนแปลงโครงสร้างคลาสสมมูล ในกรณีเช่นนี้ จะไม่มี คุณลักษณะ ที่สำคัญหรือจำเป็นใดๆ ที่ต้องใช้ในการแสดงโครงสร้างคลาส

การพึ่งพาคุณลักษณะ

หนึ่งในแง่มุมที่สำคัญที่สุดของการวิเคราะห์ฐานข้อมูลหรือการรวบรวมข้อมูลคือการค้นหาความสัมพันธ์ระหว่างคุณลักษณะต่างๆ กล่าวคือ เราต้องการค้นหาว่าตัวแปรใดมีความสัมพันธ์อย่างแน่นแฟ้นกับตัวแปรอื่นๆ โดยทั่วไปแล้ว ความสัมพันธ์ที่แข็งแกร่งเหล่านี้จะเป็นสิ่งที่ควรค่าแก่การตรวจสอบเพิ่มเติม และท้ายที่สุดแล้วจะมีประโยชน์ในการสร้างแบบจำลองการทำนาย

ในทฤษฎีเซตแบบหยาบ แนวคิดเรื่องการพึ่งพาอาศัยกันนั้นถูกนิยามไว้อย่างง่ายมาก ให้เราพิจารณาเซตของคุณลักษณะสองเซต (ที่ไม่ซ้ำกัน) คือ เซตและ เซตแล้วสอบถามว่ามีความสัมพันธ์พึ่งพาอาศัยกันในระดับใดระหว่างเซตทั้งสอง แต่ละเซตของคุณลักษณะจะสร้างโครงสร้างชั้นสมมูล (ที่ไม่สามารถแยกแยะได้) โดยชั้นสมมูลที่เกิดจากเซต จะได้รับจากและชั้นสมมูลที่เกิดจากเซต จะได้รับ จาก $P$ $Q$ $P$ $[x]_{P}$ $Q$ $[x]_{Q}$

ให้โดยที่คือชั้นสมมูลที่กำหนดจากโครงสร้างชั้นสมมูลที่เกิดจากชุดคุณลักษณะแล้วความสัมพันธ์แบบขึ้นอยู่กันของชุดคุณลักษณะกับชุดคุณลักษณะจะกำหนดโดย $[x]_{Q}=\{Q_{1},Q_{2},Q_{3},\dots ,Q_{N}\}$ $Q_{i}$ $Q$ $Q$ $P$ $\gamma _{P}(Q)$

\gamma _{P}(Q)={\frac {\sum _{i=1}^{N}\left|{\underline {P}}Q_{i}\right|}{\left|\mathbb {U} \right|}}\leq 1

กล่าวคือ สำหรับแต่ละชั้นสมมูลในเราจะบวกขนาดของการประมาณค่าต่ำสุดโดยใช้คุณลักษณะใน นั่นคือการประมาณค่านี้ (ดังที่กล่าวมาข้างต้น สำหรับเซตใดๆ) คือจำนวนวัตถุที่สามารถระบุได้อย่างชัดเจนว่าอยู่ใน เซตเป้าหมายโดยใช้เซต คุณลักษณะ เมื่อรวมกันในทุกชั้นสมมูลในตัวเศษข้างต้นแสดงถึงจำนวนวัตถุทั้งหมดที่สามารถจัดหมวดหมู่ได้อย่างถูกต้องตามการจำแนกประเภทที่เกิดจากคุณลักษณะ โดยอาศัย เซตคุณลักษณะ ดังนั้น อัตราส่วนการพึ่งพาจึงแสดงถึงสัดส่วน (ภายในจักรวาลทั้งหมด) ของวัตถุที่สามารถจำแนกประเภทได้ดังกล่าว การพึ่งพา"สามารถตีความได้ว่าเป็นสัดส่วนของวัตถุในระบบสารสนเทศซึ่งเพียงพอที่จะทราบค่าของคุณลักษณะในเพื่อกำหนดค่าของคุณลักษณะใน" $Q_{i}$ $[x]_{Q}$ $P$ ${\underline {P}}Q_{i}$ $X$ $P$ $Q_{i}$ $[x]_{Q}$ $P$ $Q$ $\gamma _{P}(Q)$ $P$ $Q$

อีกวิธีหนึ่งที่เข้าใจง่ายในการพิจารณาความสัมพันธ์แบบพึ่งพาคือ การใช้พาร์ติชันที่เกิดจากเป็นคลาสเป้าหมายและพิจารณาเป็นชุดแอตทริบิวต์ที่เราต้องการใช้เพื่อ "สร้าง" คลาสเป้าหมายขึ้นใหม่หากสามารถสร้าง ขึ้นใหม่ได้อย่างสมบูรณ์ แสดง ว่าขึ้นอยู่กับ อย่างสิ้นเชิงหากส่งผลให้การสร้าง ขึ้นใหม่ไม่ดีและอาจเป็นแบบสุ่มแสดงว่าไม่ขึ้นอยู่กับเลย $Q$ $C$ $P$ $C$ $P$ $C$ $Q$ $P$ $P$ $C$ $Q$ $P$

ดังนั้น การวัดการพึ่งพานี้แสดงถึงระดับของ การพึ่งพา เชิงฟังก์ชัน (เช่น เชิงกำหนด) ของชุดคุณลักษณะต่อชุดคุณลักษณะซึ่งไม่สมมาตร ความสัมพันธ์ของแนวคิดเรื่องการพึ่งพาคุณลักษณะนี้กับแนวคิดการพึ่งพาคุณลักษณะเชิงทฤษฎีสารสนเทศแบบดั้งเดิม (เช่น เชิงเอนโทรปี) ได้รับการกล่าวถึงในแหล่งข้อมูลหลายแหล่ง เช่น Pawlak, Wong, & Ziarko (1988), ^[⁴^] Yao & Yao (2002), ^[⁵^] Wong, Ziarko, & Ye (1986), ^[⁶^]และ Quafafou & Boussouf (2000) ^[⁷^] $Q$ $P$

การสกัดกฎ

การแสดงหมวดหมู่ที่กล่าวถึงข้างต้นล้วนมี ลักษณะเป็น แบบขยายความกล่าวคือ หมวดหมู่หรือกลุ่มที่ซับซ้อนเป็นเพียงผลรวมของสมาชิกทั้งหมด การแสดงหมวดหมู่จึงหมายถึงการสามารถแสดงรายการหรือระบุวัตถุทั้งหมดที่อยู่ในหมวดหมู่นั้นได้ อย่างไรก็ตาม การแสดงหมวดหมู่แบบขยายความมีประโยชน์ในทางปฏิบัติอย่างจำกัดมาก เพราะไม่ได้ให้ข้อมูลเชิงลึกในการตัดสินใจว่าวัตถุใหม่ (ที่ไม่เคยเห็นมาก่อน) เป็นสมาชิกของหมวดหมู่หรือไม่

โดยทั่วไป สิ่งที่ต้องการคือ คำอธิบาย เชิงความหมายของหมวดหมู่ การแสดงหมวดหมู่โดยอิงจากชุดกฎที่อธิบายขอบเขตของหมวดหมู่ การเลือกกฎดังกล่าวไม่ใช่เรื่องเฉพาะเจาะจง และนี่คือประเด็นของอคติเชิงอุปมานโปรดดูที่พื้นที่เวอร์ชันและการเลือกแบบจำลองสำหรับข้อมูลเพิ่มเติมเกี่ยวกับประเด็นนี้

มีวิธีการสกัดกฎอยู่ไม่กี่วิธี เราจะเริ่มจากขั้นตอนการสกัดกฎตาม Ziarko & Shan (1995) ^{[ 8 ]}

เมทริกซ์การตัดสินใจ

สมมติว่าเราต้องการหาชุดกฎที่สอดคล้องกันขั้นต่ำ ( การบ่งชี้เชิงตรรกะ ) ที่บ่งบอกลักษณะของระบบตัวอย่างของเรา สำหรับชุดคุณลักษณะเงื่อนไขและคุณลักษณะการตัดสินใจกฎเหล่านี้ควรมีรูปแบบหรือเขียนแบบเต็มๆ ว่า ${\mathcal {P}}=\{P_{1},P_{2},P_{3},\dots ,P_{n}\}$ $Q,Q\notin {\mathcal {P}}$ $P_{i}^{a}P_{j}^{b}\dots P_{k}^{c}\to Q^{d}$

(P_{i}=a)\land (P_{j}=b)\land \dots \land (P_{k}=c)\to (Q=d)

โดยที่ค่าที่ถูกต้องมาจากโดเมนของคุณลักษณะที่เกี่ยวข้อง นี่คือรูปแบบทั่วไปของกฎความสัมพันธ์และจำนวนรายการที่ตรงกับเงื่อนไข/ส่วนนำหน้าเรียกว่าการสนับสนุนของกฎ วิธีการดึงกฎดังกล่าวที่ระบุไว้ในZiarko & Shan (1995)คือการสร้างเมทริกซ์การตัดสินใจที่สอดคล้องกับแต่ละค่าของคุณลักษณะการตัดสินใจโดยทั่วไป เมทริกซ์การตัดสินใจสำหรับค่าของคุณลักษณะการตัดสินใจจะแสดงรายการคู่คุณลักษณะ-ค่าทั้งหมดที่แตกต่างกัน ระหว่างวัตถุ ที่ มีและ $\{a,b,c,\dots \}$ $\mathbb {U}$ $d$ $Q$ $d$ $Q$ $Q=d$ $Q\neq d$

วิธีที่ดีที่สุดในการอธิบายเรื่องนี้คือการยกตัวอย่าง (ซึ่งช่วยลดการใช้สัญลักษณ์ลงได้มาก) พิจารณาตารางด้านบน และให้เป็นตัวแปรตัดสินใจ (กล่าวคือ ตัวแปรทางด้านขวาของข้อความบ่งชี้) และให้เป็นตัวแปรเงื่อนไข (ทางด้านซ้ายของข้อความบ่งชี้) เราจะสังเกตว่าตัวแปรตัดสินใจมีค่าสองค่าที่แตกต่างกัน คือเราจะพิจารณาแต่ละกรณีแยกกัน $P_{4}$ $\{P_{1},P_{2},P_{3}\}$ $P_{4}$ $\{1,2\}$

ขั้นแรก เราพิจารณากรณีและแบ่งวัตถุออกเป็นวัตถุที่มีและวัตถุที่มี(โปรดทราบว่าในกรณีนี้ วัตถุที่มี คือ วัตถุที่มีแต่โดยทั่วไปแล้วจะรวมถึงวัตถุทั้งหมดที่มีค่าใดๆ สำหรับนอกเหนือจากและอาจมีวัตถุหลายประเภทดังกล่าว (ตัวอย่างเช่น วัตถุที่มี)) ในกรณีนี้ วัตถุที่มีคือในขณะที่วัตถุที่มีคือเมทริกซ์การตัดสินใจสำหรับแสดงรายการความแตกต่างทั้งหมดระหว่างวัตถุที่มีและวัตถุที่มีนั่นคือ เมทริกซ์การตัดสินใจแสดงรายการความแตกต่างทั้งหมดระหว่างและเราวางวัตถุ "บวก" ( ) เป็นแถว และวัตถุ "ลบ" เป็นคอลัมน์ $P_{4}=1$ $\mathbb {U}$ $P_{4}=1$ $P_{4}\neq 1$ $P_{4}\neq 1$ $P_{4}=2$ $P_{4}\neq 1$ $P_{4}$ $P_{4}=1$ $P_{4}=2,3,4,etc.$ $P_{4}=1$ $\{O_{1},O_{2},O_{3},O_{7},O_{10}\}$ $P_{4}\neq 1$ $\{O_{4},O_{5},O_{6},O_{8},O_{9}\}$ $P_{4}=1$ $P_{4}=1$ $P_{4}\neq 1$ $\{O_{1},O_{2},O_{3},O_{7},O_{10}\}$ $\{O_{4},O_{5},O_{6},O_{8},O_{9}\}$ $P_{4}=1$ $P_{4}\neq 1$

เมทริกซ์การตัดสินใจสำหรับ $P_{4}=1$
วัตถุ	$O_{4}$	$O_{5}$	$O_{6}$	$O_{8}$	$O_{9}$
$O_{1}$	$P_{1}^{1},P_{2}^{2},P_{3}^{0}$	$P_{1}^{1},P_{2}^{2}$	$P_{1}^{1},P_{2}^{2},P_{3}^{0}$	$P_{1}^{1},P_{2}^{2},P_{3}^{0}$	$P_{1}^{1},P_{2}^{2}$
$O_{2}$	$P_{1}^{1},P_{2}^{2},P_{3}^{0}$	$P_{1}^{1},P_{2}^{2}$	$P_{1}^{1},P_{2}^{2},P_{3}^{0}$	$P_{1}^{1},P_{2}^{2},P_{3}^{0}$	$P_{1}^{1},P_{2}^{2}$
$O_{3}$	$P_{1}^{2},P_{3}^{0}$	$P_{2}^{0}$	$P_{1}^{2},P_{3}^{0}$	$P_{1}^{2},P_{2}^{0},P_{3}^{0}$	$P_{2}^{0}$
$O_{7}$	$P_{1}^{2},P_{3}^{0}$	$P_{2}^{0}$	$P_{1}^{2},P_{3}^{0}$	$P_{1}^{2},P_{2}^{0},P_{3}^{0}$	$P_{2}^{0}$
$O_{10}$	$P_{1}^{2},P_{3}^{0}$	$P_{2}^{0}$	$P_{1}^{2},P_{3}^{0}$	$P_{1}^{2},P_{2}^{0},P_{3}^{0}$	$P_{2}^{0}$

ในการอ่านเมทริกซ์การตัดสินใจนี้ ให้ดูที่จุดตัดของแถวและคอลัมน์ที่แสดงในเซลล์ ตัวอย่างเช่น นี่หมายความว่าเมื่อพิจารณาจากค่าการตัดสินใจวัตถุจะแตกต่างจากวัตถุในคุณลักษณะและและค่าเฉพาะของคุณลักษณะเหล่านี้สำหรับวัตถุที่เป็นบวกคือและนี่บอกเราว่าการจำแนกประเภทที่ถูกต้องของ ว่าเป็นของกลุ่มการตัดสินใจนั้นขึ้นอยู่กับคุณลักษณะและแม้ว่าคุณลักษณะใดคุณลักษณะหนึ่งอาจไม่จำเป็น แต่เรารู้ว่าอย่างน้อยหนึ่งในคุณลักษณะเหล่านี้ไม่จำเป็น $O_{3}$ $O_{6}$ $P_{1}^{2},P_{3}^{0}$ $P_{4}=1$ $O_{3}$ $O_{6}$ $P_{1}$ $P_{3}$ $O_{3}$ $P_{1}=2$ $P_{3}=0$ $O_{3}$ $P_{4}=1$ $P_{1}$ $P_{3}$

ถัดไป จากเมทริกซ์การตัดสินใจแต่ละเมทริกซ์ เราจะสร้างชุดของ นิพจน์ บูลีนโดยแต่ละนิพจน์แทนแต่ละแถวของเมทริกซ์ รายการภายในแต่ละเซลล์จะถูกรวมเข้าด้วยกันแบบแยกส่วน จากนั้นเซลล์แต่ละเซลล์จะถูกรวมเข้าด้วยกันแบบเชื่อมโยง ดังนั้น สำหรับตารางข้างต้น เราจึงมีนิพจน์บูลีนห้านิพจน์ดังต่อไปนี้:

{\begin{cases}(P_{1}^{1}\lor P_{2}^{2}\lor P_{3}^{0})\land (P_{1}^{1}\lor P_{2}^{2})\land (P_{1}^{1}\lor P_{2}^{2}\lor P_{3}^{0})\land (P_{1}^{1}\lor P_{2}^{2}\lor P_{3}^{0})\land (P_{1}^{1}\lor P_{2}^{2})\\(P_{1}^{1}\lor P_{2}^{2}\lor P_{3}^{0})\land (P_{1}^{1}\lor P_{2}^{2})\land (P_{1}^{1}\lor P_{2}^{2}\lor P_{3}^{0})\land (P_{1}^{1}\lor P_{2}^{2}\lor P_{3}^{0})\land (P_{1}^{1}\lor P_{2}^{2})\\(P_{1}^{2}\lor P_{3}^{0})\land (P_{2}^{0})\land (P_{1}^{2}\lor P_{3}^{0})\land (P_{1}^{2}\lor P_{2}^{0}\lor P_{3}^{0})\land (P_{2}^{0})\\(P_{1}^{2}\lor P_{3}^{0})\land (P_{2}^{0})\land (P_{1}^{2}\lor P_{3}^{0})\land (P_{1}^{2}\lor P_{2}^{0}\lor P_{3}^{0})\land (P_{2}^{0})\\(P_{1}^{2}\lor P_{3}^{0})\land (P_{2}^{0})\land (P_{1}^{2}\lor P_{3}^{0})\land (P_{1}^{2}\lor P_{2}^{0}\lor P_{3}^{0})\land (P_{2}^{0})\end{cases}}

แต่ละข้อความในที่นี้โดยพื้นฐานแล้วเป็นกฎที่เฉพาะเจาะจงมาก (อาจจะ เฉพาะเจาะจง เกินไป ) ซึ่งควบคุมการเป็นสมาชิก ของวัตถุนั้นๆ ในกลุ่ม ตัวอย่างเช่น ข้อความสุดท้ายที่เกี่ยวข้องกับวัตถุระบุว่าเงื่อนไขต่อไปนี้ทั้งหมดจะต้องเป็นไปตามที่กำหนด: $P_{4}=1$ $O_{10}$

ค่าใดค่าหนึ่งต้องมีค่าเป็น 2 หรือ ค่าเป็น 0 หรือทั้งสองค่า $P_{1}$ $P_{3}$
$P_{2}$ ต้องมีค่าเป็น 0
ค่าใดค่าหนึ่งต้องมีค่าเป็น 2 หรือ ค่าเป็น 0 หรือทั้งสองค่า $P_{1}$ $P_{3}$
ค่าใด ค่าหนึ่ง ต้องมีค่าเป็น 2 หรือต้องมีค่าเป็น 0 หรือต้องมีค่าเป็น 0 หรือค่าใดๆ ก็ได้ที่เป็นการผสมผสานกันของทั้งสองค่า $P_{1}$ $P_{2}$ $P_{3}$
$P_{2}$ ต้องมีค่าเป็น 0

เห็นได้ชัดว่ามีความซ้ำซ้อนอยู่มาก และขั้นตอนต่อไปคือการลดรูปโดยใช้พีชคณิตบูลีน แบบดั้งเดิม ข้อความ ที่สอดคล้องกับวัตถุจะลดรูปเป็นซึ่งให้ผลลัพธ์เป็นการบ่งชี้ $(P_{1}^{1}\lor P_{2}^{2}\lor P_{3}^{0})\land (P_{1}^{1}\lor P_{2}^{2})\land (P_{1}^{1}\lor P_{2}^{2}\lor P_{3}^{0})\land (P_{1}^{1}\lor P_{2}^{2}\lor P_{3}^{0})\land (P_{1}^{1}\lor P_{2}^{2})$ $\{O_{1},O_{2}\}$ $P_{1}^{1}\lor P_{2}^{2}$

(P_{1}=1)\lor (P_{2}=2)\to (P_{4}=1)

ในทำนองเดียวกัน ข้อความที่สอดคล้องกับวัตถุจะลดรูปเหลือ เพียง ซึ่งทำให้เราได้ข้อสรุปดังนี้ $(P_{1}^{2}\lor P_{3}^{0})\land (P_{2}^{0})\land (P_{1}^{2}\lor P_{3}^{0})\land (P_{1}^{2}\lor P_{2}^{0}\lor P_{3}^{0})\land (P_{2}^{0})$ $\{O_{3},O_{7},O_{10}\}$ $P_{1}^{2}P_{2}^{0}\lor P_{3}^{0}P_{2}^{0}$

(P_{1}=2\land P_{2}=0)\lor (P_{3}=0\land P_{2}=0)\to (P_{4}=1)

ข้อสรุปข้างต้นสามารถเขียนได้ในรูปของชุดกฎดังต่อไปนี้:

{\begin{cases}(P_{1}=1)\to (P_{4}=1)\\(P_{2}=2)\to (P_{4}=1)\\(P_{1}=2)\land (P_{2}=0)\to (P_{4}=1)\\(P_{3}=0)\land (P_{2}=0)\to (P_{4}=1)\end{cases}}

จะเห็นได้ว่ากฎสองข้อแรกมีค่าสนับสนุนเท่ากับ 1 (กล่าวคือ ส่วนนำหน้าตรงกับวัตถุสองชิ้น) ในขณะที่กฎสองข้อสุดท้ายมีค่าสนับสนุนเท่ากับ 2 ในการเขียนชุดกฎสำหรับระบบความรู้นี้ให้เสร็จสมบูรณ์ ควรปฏิบัติตามขั้นตอนเดียวกันกับข้างต้น (เริ่มต้นด้วยการเขียนเมทริกซ์การตัดสินใจใหม่) สำหรับกรณีของซึ่งจะทำให้ได้ชุดการบ่งชี้ใหม่สำหรับค่าการตัดสินใจนั้น (กล่าวคือ ชุดการบ่งชี้ที่มีเป็นส่วนตามหลัง) โดยทั่วไปแล้ว ขั้นตอนนี้จะถูกทำซ้ำสำหรับแต่ละค่าที่เป็นไปได้ของตัวแปรการตัดสินใจ $P_{4}=2$ $P_{4}=2$

ระบบเหนี่ยวนำกฎ LERS

ระบบข้อมูล LERS (Learning from Examples based on Rough Sets) ^{[ 9 ]}อาจสร้างกฎจากข้อมูลที่ไม่สอดคล้องกัน กล่าวคือ ข้อมูลที่มีวัตถุที่ขัดแย้งกัน วัตถุสองชิ้นจะขัดแย้งกันเมื่อมีลักษณะเฉพาะด้วยค่าของแอตทริบิวต์ทั้งหมดเหมือนกัน แต่เป็นของแนวคิด (คลาส) ที่แตกต่างกัน LERS ใช้ทฤษฎีเซตแบบหยาบเพื่อคำนวณค่าประมาณล่างและบนสำหรับแนวคิดที่เกี่ยวข้องกับความขัดแย้งกับแนวคิดอื่นๆ

กฎที่ได้มาจากค่าประมาณต่ำสุดของแนวคิดนั้นอธิบายแนวคิดนั้นได้อย่างแน่นอน ดังนั้นกฎเหล่านั้นจึงเรียกว่า กฎที่แน่นอนในทางกลับกัน กฎที่ได้มาจากค่าประมาณสูงสุดของแนวคิดนั้น อธิบายแนวคิดนั้นได้อาจจะดังนั้นกฎเหล่านั้นจึงเรียกว่า กฎที่เป็นไปได้สำหรับการเหนี่ยวนำกฎ LERS ใช้ขั้นตอนวิธีสามแบบ ได้แก่ LEM1, LEM2 และ IRIM

อัลกอริทึม LEM2 ของ LERS ถูกใช้บ่อยสำหรับการเหนี่ยวนำกฎ และไม่ได้ใช้เฉพาะใน LERS เท่านั้น แต่ยังใช้ในระบบอื่นๆ เช่น ใน RSES ด้วย^{[ 10 ]} LEM2 สำรวจพื้นที่การค้นหาของคู่แอตทริบิวต์-ค่า ชุดข้อมูลอินพุตของมันคือค่าประมาณล่างหรือบนของแนวคิด ดังนั้นชุดข้อมูลอินพุตจึงสอดคล้องกันเสมอ โดยทั่วไป LEM2 จะคำนวณการครอบคลุมเฉพาะที่แล้วแปลงเป็นชุดกฎ เราจะยกตัวอย่างคำจำกัดความบางส่วนเพื่ออธิบายอัลกอริทึม LEM2

อัลกอริทึม LEM2 มีพื้นฐานมาจากแนวคิดของบล็อกคู่คุณลักษณะ-ค่า ให้เป็นค่าประมาณล่างหรือบนที่ไม่ว่างเปล่าของแนวคิดที่แสดงโดยคู่การตัดสินใจ-ค่าเซตขึ้นอยู่กับเซตของคู่คุณลักษณะ-ค่า ก็ต่อเมื่อ $X$ $(d,w)$ $X$ $T$ $t=(a,v)$

\emptyset \neq [T]=\bigcap _{t\in T}[t]\subseteq X.

เซตเป็นคอมเพล็กซ์ขั้นต่ำของก็ต่อเมื่อขึ้นอยู่กับและไม่มีเซตย่อยแท้ของอยู่ซึ่งขึ้นอยู่กับให้เป็นคอลเลกชันที่ไม่ว่างของเซตที่ไม่ว่างของคู่คุณลักษณะ-ค่า แล้วเป็นการครอบคลุมเฉพาะที่ของก็ต่อเมื่อเงื่อนไขสามข้อต่อไปนี้เป็นจริง: $T$ $X$ $X$ $T$ $S$ $T$ $X$ $S$ $\mathbb {T}$ $\mathbb {T}$ $X$

สมาชิกแต่ละตัวของคือ คอมเพล็กซ์ขั้นต่ำของ $T$ $\mathbb {T}$ $X$

\bigcup _{t\in \mathbb {T} }[T]=X,

\mathbb {T}

น้อยที่สุด กล่าวคือมีจำนวนสมาชิกน้อยที่สุดเท่าที่จะเป็นไปได้

\mathbb {T}

สำหรับระบบสารสนเทศตัวอย่างของเรา LEM2 จะกำหนดกฎต่อไปนี้:

{\begin{cases}(P_{1},1)\to (P_{4},1)\\(P_{5},0)\to (P_{4},1)\\(P_{1},0)\to (P_{4},2)\\(P_{2},1)\to (P_{4},2)\end{cases}}

สามารถพบวิธีการเรียนรู้กฎอื่นๆ ได้ เช่น ใน Pawlak (1991), ^{[ 1 ]} Stefanowski (1998), ^{[ 11 ]} Bazan et al. (2004), ^{[ 10 ]}เป็นต้น

ข้อมูลไม่ครบถ้วน

ทฤษฎีเซตแบบหยาบมีประโยชน์สำหรับการเหนี่ยวนำกฎจากชุดข้อมูลที่ไม่สมบูรณ์ โดยใช้วิธีนี้ เราสามารถแยกแยะค่าคุณลักษณะที่หายไปได้ 3 ประเภท ได้แก่ค่าที่สูญหาย (ค่าที่บันทึกไว้แต่ปัจจุบันไม่สามารถใช้งานได้) ค่าคุณลักษณะ-แนวคิด (ค่าคุณลักษณะที่หายไปเหล่านี้สามารถแทนที่ด้วยค่าคุณลักษณะใดๆ ก็ได้ที่จำกัดอยู่ในแนวคิดเดียวกัน) และเงื่อนไข "ไม่สนใจ" (ค่าเดิมไม่เกี่ยวข้อง) แนวคิด ( คลาส ) คือเซตของวัตถุทั้งหมดที่ถูกจัดประเภท (หรือวินิจฉัย) ในลักษณะเดียวกัน

ชุดข้อมูลพิเศษสองชุดที่มีค่าคุณลักษณะที่หายไปได้รับการศึกษาอย่างละเอียด: ในกรณีแรก ค่าคุณลักษณะที่หายไปทั้งหมดสูญหายไป^{[ 12 ]}ในกรณีที่สอง ค่าคุณลักษณะที่หายไปทั้งหมดเป็นเงื่อนไข "ไม่สนใจ" ^{[ 13 ]}

ในการตีความค่าแนวคิดคุณลักษณะของค่าคุณลักษณะที่หายไป ค่าคุณลักษณะที่หายไปอาจถูกแทนที่ด้วยค่าใดๆ ก็ได้ในโดเมนคุณลักษณะที่จำกัดไว้เฉพาะแนวคิดที่วัตถุที่มีค่าคุณลักษณะที่หายไปเป็นของ^{[ 14 ]}ตัวอย่างเช่น หากค่าของคุณลักษณะอุณหภูมิหายไปสำหรับผู้ป่วยรายหนึ่ง ผู้ป่วยรายนี้ป่วยเป็นไข้หวัดใหญ่ และผู้ป่วยที่เหลือทั้งหมดที่ป่วยเป็นไข้หวัดใหญ่มีค่าอุณหภูมิสูงหรือสูงมากสำหรับอุณหภูมิ เมื่อใช้การตีความค่าคุณลักษณะที่หายไปเป็นค่าแนวคิดคุณลักษณะ เราจะแทนที่ค่าคุณลักษณะที่หายไปด้วยค่าสูงและสูงมาก นอกจากนี้ความสัมพันธ์ลักษณะเฉพาะ (ดูเช่นGrzymala-Busse & Grzymala-Busse (2007) ) ช่วยให้สามารถประมวลผลชุดข้อมูลที่มีค่าคุณลักษณะที่หายไปทั้งสามประเภทพร้อมกันได้ ได้แก่ สูญหาย เงื่อนไข "ไม่สนใจ" และค่าแนวคิดคุณลักษณะ

แอปพลิเคชัน

วิธีการเซตแบบหยาบ (Rough set) สามารถนำมาประยุกต์ใช้เป็นส่วนประกอบของโซลูชันแบบผสมผสานในด้านการเรียนรู้ของเครื่องและการขุดข้อมูลได้โดยพบว่ามีประโยชน์อย่างยิ่งสำหรับการสร้างกฎเกณฑ์และการเลือกคุณลักษณะ ( การลดมิติ โดยรักษาความหมาย) วิธี การวิเคราะห์ข้อมูลโดยใช้เซตแบบหยาบได้รับการประยุกต์ใช้ประสบความสำเร็จในด้านชีวสารสนเทศเศรษฐศาสตร์และการเงิน การแพทย์ มัลติมีเดียการขุดเว็บและข้อความการประมวลผลสัญญาณและภาพ วิศวกรรมซอฟต์แวร์หุ่นยนต์ และวิศวกรรม (เช่น ระบบไฟฟ้าและวิศวกรรมควบคุม ) เมื่อไม่นานมานี้ พื้นที่ทั้งสามของเซตแบบหยาบได้รับการตีความว่าเป็นพื้นที่ของการยอมรับ การปฏิเสธ และการเลื่อนออกไป ซึ่งนำไปสู่แนวทางการตัดสินใจแบบสามทางด้วยแบบจำลอง ซึ่งอาจนำไปสู่การประยุกต์ใช้งานที่น่าสนใจในอนาคตได้

ประวัติศาสตร์

แนวคิดเรื่องเซตแบบหยาบ (rough set) ถูกเสนอโดยPawlak (1981) ในฐานะเครื่องมือทางคณิตศาสตร์ใหม่เพื่อจัดการกับแนวคิดที่ไม่ชัดเจน Comer, Grzymala-Busse, Iwinski, Nieminen, Novotny, Pawlak, Obtulowicz และ Pomykala ได้ศึกษาคุณสมบัติทางพีชคณิตของเซตแบบหยาบ ความหมายทางพีชคณิตที่แตกต่างกันได้รับการพัฒนาโดย P. Pagliani, I. Duntsch, MK Chakraborty, M. Banerjee และ A. Mani ซึ่งต่อมาได้ขยายไปสู่เซตแบบหยาบที่มีความทั่วไปมากขึ้นโดย D. Cattaneo และ A. Mani โดยเฉพาะอย่างยิ่ง เซตแบบหยาบสามารถใช้เพื่อแสดงถึงความกำกวมความ ไม่ ชัดเจนและความไม่แน่นอน โดย ทั่วไป

การขยายและการสรุปทั่วไป

นับตั้งแต่มีการพัฒนาเซตแบบหยาบ (rough sets) ส่วนขยายและการวางนัยทั่วไปของเซตแบบหยาบก็ยังคงพัฒนาอย่างต่อเนื่อง การพัฒนาในระยะแรกมุ่งเน้นไปที่ความสัมพันธ์ ทั้งในด้านความคล้ายคลึงและความแตกต่าง กับเซตแบบคลุมเครือ (fuzzy sets ) ในขณะที่เอกสารบางฉบับแย้งว่าแนวคิดเหล่านี้แตกต่างกัน เอกสารอื่นๆ กลับมองว่าเซตแบบหยาบเป็นการวางนัยทั่วไปของเซตแบบคลุมเครือ โดยแสดงออกมาในรูปแบบของเซตแบบหยาบคลุมเครือ (fuzzy rough sets) หรือเซตแบบหยาบคลุมเครือ (rough fuzzy sets) Pawlak (1995) เห็นว่าเซตแบบคลุมเครือและเซตแบบหยาบควรได้รับการพิจารณาว่าเป็นสิ่งที่เสริมซึ่งกันและกัน โดยกล่าวถึงแง่มุมที่แตกต่างกันของความไม่แน่นอนและความคลุมเครือ

ส่วนขยายที่โดดเด่นสามประการของเซตหยาบแบบคลาสสิก ได้แก่:

แนวทางเซตหยาบตามการครอบงำ (DRSA) เป็นส่วนขยายของทฤษฎีเซตหยาบสำหรับการวิเคราะห์การตัดสินใจแบบหลายเกณฑ์ (MCDA) ซึ่งนำเสนอโดย Greco, Matarazzo และ Słowiński (2001) ^{[ 15 ]}การเปลี่ยนแปลงหลักในส่วนขยายของเซตหยาบแบบคลาสสิกนี้คือการแทนที่ความสัมพันธ์ที่ไม่สามารถแยกแยะได้ด้วย ความสัมพันธ์ การครอบงำซึ่งช่วยให้รูปแบบสามารถจัดการกับความไม่สอดคล้องกันที่เกิดขึ้นทั่วไปในการพิจารณาเกณฑ์และคลาสการตัดสินใจตามลำดับความชอบ
เซตหยาบเชิงทฤษฎีการตัดสินใจ (DTRS) เป็นส่วนขยายเชิงความน่าจะเป็นของทฤษฎีเซตหยาบที่ Yao, Wong และ Lingras (1990) แนะนำ^{[ 16 ]} โดยใช้กระบวนการตัดสินใจแบบเบย์เซียนสำหรับการตัดสินใจที่มีความเสี่ยงต่ำสุด องค์ประกอบจะถูกรวมเข้าในการประมาณค่าล่างและบนโดยพิจารณาจากว่าความน่าจะเป็นแบบมีเงื่อนไข ขององค์ประกอบนั้น สูงกว่าเกณฑ์ หรือ ไม่เกณฑ์บนและล่างเหล่านี้จะกำหนดขอบเขตการรวมองค์ประกอบ โมเดลนี้มีความโดดเด่นและทรงพลังเนื่องจากเกณฑ์เหล่านั้นคำนวณจากชุดฟังก์ชันการสูญเสียหกฟังก์ชันที่แสดงถึงความเสี่ยงในการจำแนกประเภท $\textstyle \alpha$ $\textstyle \beta$
เซตหยาบเชิงทฤษฎีเกม (GTRS) เป็นส่วนขยายของเซตหยาบตามทฤษฎีเกมที่ Herbert และ Yao (2011) นำเสนอ^{[ 17 ]}โดยใช้สภาพแวดล้อมเชิงทฤษฎีเกมเพื่อเพิ่มประสิทธิภาพเกณฑ์บางอย่างของการจำแนกประเภทหรือการตัดสินใจตามเซตหยาบเพื่อให้ได้ขนาดพื้นที่ที่มีประสิทธิภาพ

สมาชิกโดยประมาณ

นอกจากนี้ ยังสามารถนิยามเซตแบบหยาบ (Rough sets) ได้โดยใช้ฟังก์ชันสมาชิกภาพแบบหยาบ (Rough membership function) แทนการประมาณค่าเชิงวัตถุ (Objective approximation) ฟังก์ชันสมาชิกภาพแบบหยาบแสดงถึงความน่าจะเป็นแบบมีเงื่อนไขที่เซตหนึ่งเป็นสมาชิกของเซต อีกเซตหนึ่ง เมื่อ กำหนดค่า ซึ่ง สามารถตีความได้ว่าเป็นระดับที่เซตอีกเซตหนึ่งเป็นสมาชิกของเซตอีกเซตหนึ่ง ในแง่ของข้อมูลเกี่ยวกับเซตอีกเซตหนึ่งที่แสดงโดยฟังก์ชัน $x$ $X$ $\textstyle \mathbb {R}$ $x$ $X$ $x$ $\textstyle \mathbb {R}$

ความแตกต่างหลักๆ ของฟังก์ชันสมาชิกแบบหยาบ (Rough membership) กับฟังก์ชันสมาชิกแบบคลุมเครือ (Fuzzy membership) คือ ฟังก์ชันสมาชิกแบบหยาบไม่สามารถคำนวณได้จากฟังก์ชันสมาชิกแบบแยกย่อยของเซตต่างๆ ได้โดยทั่วไป เช่นเดียวกับกรณีของเซตแบบคลุมเครือ ในแง่นี้ ฟังก์ชันสมาชิกแบบหยาบจึงเป็นการขยายความของฟังก์ชันสมาชิกแบบคลุมเครือ นอกจากนี้ ฟังก์ชันสมาชิกแบบหยาบยังอิงอยู่กับความน่าจะเป็นมากกว่าแนวคิดดั้งเดิมของฟังก์ชันสมาชิกแบบคลุมเครือ

ข้อสรุปทั่วไปอื่นๆ

มีการนำเสนอ ศึกษา และประยุกต์ใช้การขยายความทั่วไปของเซตแบบหยาบหลายประการในการแก้ปัญหา ต่อไปนี้คือตัวอย่างบางส่วนของการขยายความทั่วไปเหล่านั้น:

มัลติเซ็ตแบบหยาบ^{[ 18 ]}
เซตหยาบแบบฟัซซีขยายแนวคิดเซตหยาบผ่านการใช้คลาสสมมูลแบบฟัซซี^{[ 19 ]}
ทฤษฎีเซตหยาบอัลฟา (α-RST) - การวางนัยทั่วไปของทฤษฎีเซตหยาบที่อนุญาตให้ประมาณค่าโดยใช้แนวคิดคลุมเครือ^{[ 20 ]}
เซตหยาบฟัซซี่เชิงสัญชาตญาณ^{[ 21 ]}
เซตฟัซซี่หยาบทั่วไป^{[ 22 ]}^{[ 23 ]}
เซตฟัซซี่เชิงสัญชาตญาณแบบหยาบ^{[ 24 ]}
เซตฟัซซี่หยาบนุ่มและเซตฟัซซี่หยาบนุ่ม^{[ 25 ]}
เซตหยาบแบบผสม^{[ 26 ]}

ดูเพิ่มเติม

อ่านเพิ่มเติม

Gianpiero Cattaneo และ Davide Ciucci, "Heyting Wajsberg Algebras as an Abstract Environment Linking Fuzzy and Rough Sets" ใน JJ Alpigini et al. (บรรณาธิการ): RSCTC 2002, LNAI 2475, หน้า 77–84, 2002. doi : 10.1007/3-540-45813-1_10
Pawlak, Zdzisław (1982). "Rough sets". International Journal of Parallel Programming . 11 (5): 341– 356. doi : 10.1007/BF01001956 . S2CID 9240608 .
Pawlak, Zdzisław รายงานการวิจัย เรื่องเซตหยาบ PAS 431 สถาบันวิทยาการคอมพิวเตอร์ สถาบันวิทยาศาสตร์แห่งโปแลนด์ (1981)
Dubois, D.; Prade, H. (1990 ) . "เซตฟัซซีหยาบและเซตฟัซซีหยาบ". วารสารนานาชาติระบบทั่วไป 17 ( 2– 3): 191– 209. doi : 10.1080/03081079008935107 .
Slezak, Dominik; Wroblewski, Jakub; Eastwood, Victoria; Synak, Piotr (2008). "Brighthouse: คลังข้อมูลเชิงวิเคราะห์สำหรับคำถามเฉพาะกิจ" (PDF) . Proceedings of the VLDB Endowment . 1 (2): 1337– 1345. doi : 10.14778/1454159.1454174 .
Ziarko, Wojciech (1998). "เซตหยาบเป็นวิธีการสำหรับการ ทำเหมืองข้อมูล" เซตหยาบในการค้นพบความรู้ 1: วิธีการและการประยุกต์ใช้ไฮเดลเบิร์ก: Physica-Verlag หน้า 554–576
Pawlak, Zdzisław (1999). "กฎการตัดสินใจ กฎของเบย์ส และเซตแบบหยาบ" ทิศทางใหม่ในเซตแบบหยาบ การขุดข้อมูล และการคำนวณแบบละเอียด Lecture Notes in Computer Science. Vol. 1711. หน้า 1–9 . doi : 10.1007/978-3-540-48061-7_1 . ISBN 978-3-540-66645-5.
Pawlak, Zdzisław (1981). ความสัมพันธ์คร่าวๆ รายงาน Vol. 435(3):205–218. สถาบันวิทยาศาสตร์คอมพิวเตอร์
Orlowska, E. (1987). "การให้เหตุผลเกี่ยวกับแนวคิดที่ไม่ชัดเจน". วารสารของสถาบันวิทยาศาสตร์แห่งโปแลนด์ . 35 : 643– 652.
Polkowski, L. (2002). "เซตแบบหยาบ: รากฐานทางคณิตศาสตร์". ความก้าวหน้าในการคำนวณแบบอ่อน .
Skowron, A. (1996). "เซตแบบหยาบและแนวคิดที่ไม่ชัดเจน" Fundamenta Informaticae : 417– 431.
Zhang J., Wong JS, Pan Y, Li T. (2015). วิธีการแบบขนานโดยใช้เมทริกซ์สำหรับการคำนวณค่าประมาณในระบบข้อมูลที่ไม่สมบูรณ์, IEEE Transactions on Knowledge and Data Engineering, 27(2): 326–339
Burgin M. (1990). ทฤษฎีเซตที่มีชื่อเป็นพื้นฐานสำคัญสำหรับคณิตศาสตร์ ใน โครงสร้างในทฤษฎีทางคณิตศาสตร์: รายงานการประชุมสัมมนาวิชาการนานาชาติซานเซบาสเตียน วันที่ 25-29 กันยายน 1990 ( http://www.blogg.org/blog-30140-date-2005-10-26.html )
Burgin, M. (2004). รากฐานแบบบูรณาการของคณิตศาสตร์, เอกสารฉบับร่างคณิตศาสตร์ LO/0403186, หน้า 39. (ฉบับอิเล็กทรอนิกส์: https://arxiv.org/ftp/math/papers/0403/0403186.pdf )
เบอร์กิน, เอ็ม. (2011), ทฤษฎีเซตที่มีชื่อ, การพัฒนาการวิจัยทางคณิตศาสตร์, สำนักพิมพ์โนวาไซแอนซ์, ISBN 978-1-61122-788-8
Chen H., Li T., Luo C., Horng SJ., Wang G. (2015). แนวทางเซตหยาบเชิงทฤษฎีการตัดสินใจสำหรับการทำเหมืองข้อมูลแบบไดนามิก IEEE Transactions on Fuzzy Systems, 23(6): 1958–1970
Chen H., Li T., Luo C., Horng SJ., Wang G. (2014). วิธีการที่ใช้เซตแบบหยาบในการปรับปรุงกฎการตัดสินใจเกี่ยวกับการลดขนาดและความละเอียดของค่าคุณลักษณะ IEEE Transactions on Knowledge and Data Engineering, 26(12): 2886–2899
Chen H., Li T., Ruan D., Lin J., Hu C, (2013) แนวทางแบบเพิ่มขึ้นตามเซตหยาบสำหรับการปรับปรุงค่าประมาณภายใต้สภาพแวดล้อมการบำรุงรักษาแบบไดนามิก IEEE Transactions on Knowledge and Data Engineering, 25(2): 274-284

ลิงก์ภายนอก

สมาคมชุดหยาบระหว่างประเทศ
บทช่วยสอนการจัดวางแบบคร่าวๆ
ฉากจำลอง: บทแนะนำฉบับย่อ
ระบบสำรวจเซตหยาบ
เซตแบบหยาบในคลังข้อมูล

[ 1 ]

[ 2 ]

[ 3 ]

[

[

[

[

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

ชุดหยาบ

คำจำกัดความ

กรอบระบบสารสนเทศ

ตัวอย่าง: โครงสร้างชั้นสมมูล

นิยามของเซตหยาบ

การประมาณค่าที่ต่ำกว่าและบริเวณที่เป็นบวก

การประมาณค่าบนและบริเวณลบ

เขตแดน

ชุดหยาบ

การวิเคราะห์เชิงวัตถุวิสัย

ความสามารถในการกำหนด

ลดขนาดและแกนหลัก

การพึ่งพาคุณลักษณะ

การสกัดกฎ

เมทริกซ์การตัดสินใจ

ระบบเหนี่ยวนำกฎ LERS

ข้อมูลไม่ครบถ้วน

แอปพลิเคชัน

ประวัติศาสตร์

การขยายและการสรุปทั่วไป

สมาชิกโดยประมาณ

ข้อสรุปทั่วไปอื่นๆ

ดูเพิ่มเติม

อ่านเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ