การประมวลผลข้อมูลเบื้องต้น

การประมวลผลข้อมูลเบื้องต้น หมายถึง การจัดการ การกรอง หรือการเพิ่มปริมาณข้อมูลก่อนนำไปวิเคราะห์ และมักเป็นขั้นตอนสำคัญในกระบวนการขุดค้นข้อมูล วิธี การเก็บรวบรวมข้อมูลมักไม่ได้รับการควบคุมอย่างหลวมๆ ส่งผลให้เกิดค่าที่อยู่นอกช่วง ค่าที่รวมกันไม่ได้ และค่าที่หายไปรวมถึงปัญหาอื่นๆ การประมวลผลข้อมูลเบื้องต้นคือกระบวนการที่ แปลง ข้อมูลที่ไม่มีโครงสร้างให้เป็นรูปแบบที่เข้าใจได้ซึ่งเหมาะสมสำหรับแบบจำลองการเรียนรู้ของเครื่อง ขั้นตอนนี้ของแบบจำลองจะจัดการกับสัญญาณรบกวนเพื่อให้ได้ผลลัพธ์ที่ดีขึ้นจากชุดข้อมูลเดิมที่มีสัญญาณรบกวน ชุดข้อมูลนี้ยังมีค่าที่หายไปอยู่บ้างด้วย

ขั้นตอนการประมวลผลล่วงหน้าที่ใช้มักส่งผลกระทบอย่างมากต่อข้อสรุปที่ได้จากการวิเคราะห์ในขั้นตอนต่อไป ดังนั้น การนำเสนอและคุณภาพของข้อมูลจึงเป็นสิ่งจำเป็นก่อนที่จะทำการวิเคราะห์ใดๆ^{[ 1 ]}หากมีข้อมูลที่ไม่เกี่ยวข้องและซ้ำซ้อนอยู่เป็นจำนวนมาก หรือมีข้อมูลที่มีสัญญาณรบกวนและไม่น่าเชื่อถือการค้นพบความรู้ในระหว่างขั้นตอนการฝึกอบรมอาจทำได้ยากขึ้น ขั้นตอน การเตรียมและการกรองข้อมูลอาจใช้เวลาในการประมวลผลมากพอสมควร ตัวอย่างของวิธีการที่ใช้ในการประมวลผลข้อมูลล่วงหน้า ได้แก่การทำความสะอาดการเลือก อินสแตนซ์ การ ทำให้เป็นมาตรฐาน การเข้ารหัสแบบวันฮอตการแปลงข้อมูล การสกัดคุณลักษณะและการ เลือกคุณลักษณะ

แอปพลิเคชัน

การขุดข้อมูล

การประมวลผลข้อมูลเบื้องต้นช่วยให้สามารถกำจัดข้อมูลที่ไม่ต้องการออกไปได้โดยใช้การทำความสะอาดข้อมูล ซึ่งจะช่วยให้ผู้ใช้มีชุดข้อมูลที่มีข้อมูลที่มีค่ามากขึ้นหลังจากขั้นตอนการประมวลผลเบื้องต้น เพื่อนำไปใช้ในการจัดการข้อมูลในขั้นตอนการทำเหมืองข้อมูลต่อไป การแก้ไขชุดข้อมูลดังกล่าวเพื่อแก้ไขความเสียหายของข้อมูลหรือข้อผิดพลาดของมนุษย์เป็นขั้นตอนสำคัญในการหาค่าบ่งชี้ที่แม่นยำ เช่น ค่าบวกจริง ค่าลบจริงค่าบวกเท็จ และค่าลบเท็จที่พบในเมทริกซ์ความสับสนซึ่งมักใช้ในการวินิจฉัยทางการแพทย์ ผู้ใช้สามารถรวมไฟล์ข้อมูลเข้าด้วยกันและใช้การประมวลผลเบื้องต้นเพื่อกรองสัญญาณรบกวนที่ไม่จำเป็นออกจากข้อมูล ซึ่งจะช่วยให้ได้ความแม่นยำสูงขึ้น ผู้ใช้ใช้สคริปต์การเขียนโปรแกรม Python ร่วมกับไลบรารี pandas ซึ่งช่วยให้พวกเขาสามารถนำเข้าข้อมูลจากค่าที่คั่นด้วยเครื่องหมายจุลภาคเป็นเฟรมข้อมูลได้ จากนั้นเฟรมข้อมูลจะถูกนำไปใช้ในการจัดการข้อมูล ซึ่งอาจทำได้ยากใน Excel Pandas (ซอฟต์แวร์)เป็นเครื่องมือที่มีประสิทธิภาพที่ช่วยให้การวิเคราะห์และการจัดการข้อมูลทำได้ง่ายขึ้น ทำให้การแสดงภาพข้อมูล การดำเนินการทางสถิติ และอื่นๆ อีกมากมาย นอกจากนี้ หลายคนยังใช้ภาษาโปรแกรม Rในการทำงานดังกล่าวด้วยเช่นกัน

เหตุผลที่ผู้ใช้แปลงไฟล์ที่มีอยู่เป็นไฟล์ใหม่นั้นมีหลายสาเหตุ แง่มุมของการประมวลผลข้อมูลล่วงหน้าอาจรวมถึงการเติมค่าที่หายไป การรวมปริมาณเชิงตัวเลข และการแปลงข้อมูลต่อเนื่องเป็นหมวดหมู่ ( การจัดกลุ่มข้อมูล ) ^{[ 2 ]}เทคนิคขั้นสูงกว่า เช่น การวิเคราะห์ส่วนประกอบหลักและการเลือกคุณลักษณะทำงานกับสูตรทางสถิติและนำไปใช้กับชุดข้อมูลที่ซับซ้อนซึ่งบันทึกโดยอุปกรณ์ติดตาม GPS และอุปกรณ์จับการเคลื่อนไหว

การประมวลผลข้อมูลเชิงความหมายล่วงหน้า

การขุดข้อมูลเชิงความหมายเป็นส่วนย่อยของการขุดข้อมูลที่มุ่งเน้นการรวมความรู้ เฉพาะด้าน เช่น ความหมายเชิงรูปธรรม เข้าสู่กระบวนการขุดข้อมูล ความรู้เฉพาะด้านคือความรู้เกี่ยวกับสภาพแวดล้อมที่ข้อมูลได้รับการประมวลผล ความรู้เฉพาะด้านสามารถส่งผลดีต่อหลายแง่มุมของการขุดข้อมูล เช่น การกรองข้อมูลที่ซ้ำซ้อนหรือไม่สอดคล้องกันในระหว่างขั้นตอนการประมวลผลล่วงหน้า^{[ 3 ]}ความรู้เฉพาะด้านยังทำหน้าที่เป็นข้อจำกัด โดยทำหน้าที่เป็นชุดความรู้ก่อนหน้าเพื่อลดพื้นที่ที่จำเป็นสำหรับการค้นหาและทำหน้าที่เป็นแนวทางสำหรับข้อมูล กล่าวโดยง่าย การประมวลผลล่วงหน้าเชิงความหมายมุ่งที่จะกรองข้อมูลโดยใช้สภาพแวดล้อมดั้งเดิมของข้อมูลดังกล่าวให้ถูกต้องและมีประสิทธิภาพมากขึ้น

ปัญหาที่ซับซ้อนมากขึ้นเรื่อยๆ จำเป็นต้องได้รับการแก้ไขด้วยเทคนิคที่ซับซ้อนกว่าเดิมเพื่อวิเคราะห์ข้อมูลที่มีอยู่ให้ดียิ่งขึ้น แทนที่จะสร้างสคริปต์ง่ายๆ สำหรับการรวมค่าตัวเลขต่างๆ เข้าเป็นค่าเดียว การมุ่งเน้นไปที่การประมวลผลข้อมูลล่วงหน้าตามความหมายจึงเป็นเรื่องที่สมเหตุสมผล^{[ 4 ]}แนวคิดคือการสร้างออนโทโลยี เฉพาะ ซึ่งอธิบายในระดับที่สูงขึ้นว่าปัญหาคืออะไร^{[ 5 ]}ในส่วนของการขุดข้อมูลเชิงความหมายและการประมวลผลล่วงหน้าเชิงความหมาย ออนโทโลยีเป็นวิธีในการสร้างแนวคิดและกำหนดความรู้และข้อมูลเชิงความหมายอย่างเป็นทางการProtégé (ซอฟต์แวร์)เป็นเครื่องมือมาตรฐานสำหรับการสร้างออนโทโลยี โดยทั่วไป การใช้ออนโทโลยีจะเชื่อมช่องว่างระหว่างข้อมูล แอปพลิเคชัน อัลกอริทึม และผลลัพธ์ที่เกิดขึ้นจากความไม่ตรงกันทางความหมาย ด้วยเหตุนี้ การขุดข้อมูลเชิงความหมายที่รวมกับออนโทโลยีจึงมีแอปพลิเคชันมากมายที่ความกำกวมทางความหมายอาจส่งผลกระทบต่อประโยชน์และประสิทธิภาพของระบบข้อมูล แอปพลิเคชันต่างๆ ได้แก่ สาขาการแพทย์ การประมวลผลภาษา การธนาคาร^{[ 6 ]}และแม้กระทั่งการสอนพิเศษ^{[ 7 ]}และอื่นๆ อีกมากมาย

การใช้การขุดข้อมูลเชิงความหมายและแนวทางตามออนโทโลยีมีจุดแข็งหลายประการ ดังที่กล่าวไว้ก่อนหน้านี้ เครื่องมือเหล่านี้สามารถช่วยได้ในระหว่างขั้นตอนการประมวลผลเบื้องต้นโดยการกรองข้อมูลที่ไม่พึงประสงค์ออกจากชุดข้อมูล นอกจากนี้ ความหมายเชิงทางการที่มีโครงสร้างที่ดีซึ่งบูรณาการเข้ากับออนโทโลยีที่ออกแบบมาอย่างดีสามารถส่งคืนข้อมูลที่มีประสิทธิภาพซึ่งเครื่องจักรสามารถอ่านและประมวลผลได้ง่าย^{[ 8 ]}ตัวอย่างที่มีประโยชน์อย่างยิ่งของเรื่องนี้มีอยู่ในการใช้การประมวลผลข้อมูลเชิงความหมายทางการแพทย์ เช่น ผู้ป่วยกำลังประสบเหตุฉุกเฉินทางการแพทย์และถูกนำตัวส่งโรงพยาบาลอย่างเร่งด่วน เจ้าหน้าที่กู้ภัยกำลังพยายามหาวิธีที่ดีที่สุดในการให้ยาแก่ผู้ป่วย ภายใต้การประมวลผลข้อมูลปกติ การตรวจสอบข้อมูลทางการแพทย์ทั้งหมดของผู้ป่วยเพื่อให้แน่ใจว่าพวกเขาได้รับการรักษาที่ดีที่สุดอาจใช้เวลานานเกินไปและเสี่ยงต่อสุขภาพหรือแม้กระทั่งชีวิตของผู้ป่วย อย่างไรก็ตาม การใช้ออนโทโลยีที่ประมวลผลเชิงความหมาย เจ้าหน้าที่กู้ภัยสามารถช่วยชีวิตผู้ป่วยได้ เครื่องมืออย่างเช่นตัวให้เหตุผลเชิงความหมายสามารถใช้ออนโทโลยีเพื่ออนุมานว่ายาชนิดใดเหมาะสมที่สุดที่จะให้แก่ผู้ป่วยโดยพิจารณาจากประวัติทางการแพทย์ เช่น หากผู้ป่วยเป็นมะเร็งชนิดใดหรือมีภาวะอื่นๆ เพียงแค่ตรวจสอบภาษาธรรมชาติที่ใช้ในบันทึกทางการแพทย์ของผู้ป่วย^{[ 9 ]}วิธีนี้จะช่วยให้ผู้ตอบสนองคนแรกสามารถค้นหายาได้อย่างรวดเร็วและมีประสิทธิภาพโดยไม่ต้องกังวลเกี่ยวกับประวัติทางการแพทย์ของผู้ป่วยเอง เนื่องจากตัวให้เหตุผลเชิงความหมายได้วิเคราะห์ข้อมูลนี้และค้นหาวิธีแก้ปัญหาไว้แล้ว โดยทั่วไปแล้ว สิ่งนี้แสดงให้เห็นถึงจุดแข็งที่น่าทึ่งของการใช้การขุดข้อมูลเชิงความหมายและออนโทโลยี พวกมันช่วยให้การดึงข้อมูลทำได้รวดเร็วและมีประสิทธิภาพมากขึ้นในฝั่งผู้ใช้ เนื่องจากผู้ใช้มีตัวแปรที่ต้องพิจารณาน้อยลง เนื่องจากข้อมูลที่ประมวลผลล่วงหน้าเชิงความหมายและออนโทโลยีที่สร้างขึ้นสำหรับข้อมูลได้คำนึงถึงตัวแปรเหล่านี้ไว้แล้ว อย่างไรก็ตาม วิธีการนี้ก็มีข้อเสียอยู่บ้าง กล่าวคือ ต้องใช้พลังการคำนวณและความซับซ้อนสูง แม้แต่กับชุดข้อมูลขนาดเล็กก็ตาม^{[ 10 ]}สิ่งนี้อาจส่งผลให้ต้นทุนสูงขึ้นและความยากลำบากในการสร้างและบำรุงรักษาระบบประมวลผลข้อมูลเชิงความหมายเพิ่มมากขึ้น ซึ่งอาจบรรเทาลงได้บ้างหากชุดข้อมูลได้รับการจัดระเบียบและจัดรูปแบบไว้อย่างดีแล้ว แต่ถึงกระนั้น ความซับซ้อนก็ยังคงสูงกว่าเมื่อเทียบกับการประมวลผลข้อมูลมาตรฐาน

ด้านล่างนี้เป็นแผนภาพอย่างง่ายที่แสดงการรวมกระบวนการบางส่วน โดยเฉพาะอย่างยิ่งการขุดค้นข้อมูลเชิงความหมายและการนำไปใช้ในด้านออนโทโลยี

แผนภาพแสดงให้เห็นว่าชุดข้อมูลถูกแบ่งออกเป็นสองส่วน คือ คุณลักษณะของโดเมน หรือความรู้ในโดเมน และข้อมูลที่ได้มาจริง คุณลักษณะของโดเมนจะถูกประมวลผลเพื่อให้กลายเป็นความรู้ในโดเมนที่ผู้ใช้เข้าใจได้ ซึ่งสามารถนำไปใช้กับข้อมูลได้ ในขณะเดียวกัน ชุดข้อมูลจะถูกประมวลผลและจัดเก็บเพื่อให้สามารถนำความรู้ในโดเมนไปใช้กับข้อมูลได้ เพื่อให้กระบวนการดำเนินต่อไป การประยุกต์ใช้ดังกล่าวจะก่อให้เกิดออนโทโลยี จากนั้น ออนโทโลยีสามารถนำมาใช้ในการวิเคราะห์ข้อมูลและประมวลผลผลลัพธ์ได้

การประมวลผลล่วงหน้าแบบฟัซซีเป็นอีกเทคนิคขั้นสูงกว่าในการแก้ปัญหาที่ซับซ้อน การประมวลผลล่วงหน้าแบบฟัซซีและการขุดข้อมูลแบบฟัซซีใช้เซตแบบฟัซซีเซตข้อมูลเหล่านี้ประกอบด้วยองค์ประกอบสองอย่าง ได้แก่ เซตและฟังก์ชันสมาชิกภาพสำหรับเซตซึ่งประกอบด้วย 0 และ 1 การประมวลผลล่วงหน้าแบบฟัซซีใช้เซตข้อมูลแบบฟัซซีนี้เพื่อเชื่อมโยงค่าตัวเลขกับข้อมูลทางภาษา จากนั้นข้อมูลดิบจะถูกแปลงเป็นภาษาธรรมชาติในท้ายที่สุด เป้าหมายของการขุดข้อมูลแบบฟัซซีคือการช่วยจัดการกับข้อมูลที่ไม่แน่นอน เช่น ฐานข้อมูลที่ไม่สมบูรณ์ ปัจจุบัน การประมวลผลล่วงหน้าแบบฟัซซี รวมถึงเทคนิคการขุดข้อมูลแบบฟัซซีอื่นๆ ถูกนำมาใช้บ่อยครั้งกับโครงข่ายประสาทเทียมและปัญญาประดิษฐ์^{[ 11 ]}

ลิงก์ภายนอก

คู่มือการประมวลผลข้อมูลออนไลน์
การประมวลผลข้อมูลเบื้องต้นในการทำเหมืองข้อมูลเชิงพยากรณ์ วารสารวิศวกรรมความรู้ 34: e1 (2019)

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

การประมวลผลข้อมูลเบื้องต้น

แอปพลิเคชัน

การขุดข้อมูล

การประมวลผลข้อมูลเชิงความหมายล่วงหน้า

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ