อ่าน 2 นาที
การประมวลผลข้อความ
ในด้านคอมพิวเตอร์ คำว่า การประมวลผลข้อความ หมายถึง ทฤษฎีและการปฏิบัติในการสร้างหรือจัดการข้อความอิเล็กทรอนิกส์โดยอัตโนมัติ โดยปกติแล้ว ข้อความ...
การประมวลผลข้อความ
ในด้านคอมพิวเตอร์ คำว่าการประมวลผลข้อความหมายถึง ทฤษฎีและการปฏิบัติในการสร้างหรือจัดการข้อความอิเล็กทรอนิกส์โดยอัตโนมัติ โดยปกติแล้ว ข้อความหมายถึงตัวอักษรและตัวเลขทั้งหมดที่พิมพ์บนแป้นพิมพ์ของผู้ใช้งาน แต่โดยทั่วไปแล้วข้อความหมายถึงชั้นนามธรรมที่อยู่เหนือการเข้ารหัสอักขระ มาตรฐาน ของข้อความเป้าหมาย คำว่าการประมวล ผล หมายถึง การประมวลผลแบบอัตโนมัติ (หรือแบบกลไก) ซึ่งตรงข้ามกับการจัดการแบบเดียวกันที่ทำด้วยมือ
การประมวลผลข้อความเกี่ยวข้องกับคำสั่งคอมพิวเตอร์ที่เรียกใช้เนื้อหา การเปลี่ยนแปลงเนื้อหา และการเคลื่อนย้ายเคอร์เซอร์ ตัวอย่างเช่น เพื่อ...
- ค้นหาและแทนที่
- รูปแบบ
- สร้างรายงานที่ผ่านการประมวลผลของเนื้อหา หรือ
- กรองไฟล์หรือรายงานจากไฟล์ข้อความ
การประมวลผลข้อความด้วยนิพจน์ปกติ (Regular Expression)เปรียบเสมือนเครื่องแก้ไขข้อความเสมือนจริง ที่มีภาษาโปรแกรมพื้นฐานซึ่งมีรีจิสเตอร์ (ตัวระบุ) ที่มีชื่อ และตำแหน่งที่มีชื่อในลำดับของอักขระที่ประกอบเป็นข้อความ โดยใช้สิ่งเหล่านี้ "ตัวประมวลผลข้อความ" สามารถทำเครื่องหมายบริเวณข้อความ แล้วย้ายบริเวณนั้นได้ ส่วนการประมวลผลข้อความด้วย โปรแกรม ยูทิลิตี้คือโปรแกรมกรองหรือตัวกรอง กลไกทั้งสองนี้ประกอบกันเป็นการประมวลผลข้อความ
คำนิยาม
เนื่องจากเครื่องหมายมาตรฐาน เช่นรหัสหลีกเลี่ยง ANSIโดยทั่วไปจะมองไม่เห็นสำหรับโปรแกรมแก้ไขข้อความ จึงประกอบด้วยชุดคุณสมบัติชั่วคราวที่บางครั้งแยกไม่ออกจากการประมวลผลคำแต่ความแตกต่างที่ชัดเจนจากการประมวลผลคำคือการประมวลผลข้อความโดยตรง:
- หมายถึง "โปรแกรมประมวลผลข้อความ" ไม่ใช่แค่ "โปรแกรมแก้ไขข้อความ" เท่านั้น
- วิธีนี้เป็นวิธีที่ใช้แป้นพิมพ์มากกว่า เมื่อเทียบกับวิธีใช้เมาส์ (เช่น การลากและวาง การตัดและวาง) ในการเริ่มต้นการแก้ไข
- เป็นการเข้าถึงแบบเรียงลำดับแทนที่จะเป็นการเข้าถึงแบบสุ่ม
- ทำงานโดยตรงที่ชั้นการนำเสนอแทนที่จะทำงานทางอ้อมที่ชั้นแอปพลิเคชัน
- ทำงานกับข้อมูลดิบที่เป็นมาตรฐานและทำงานอย่างเปิดเผยมากกว่าที่จะยึดติดกับวิธีการที่เป็นกรรมสิทธิ์เฉพาะ
ด้วยวิธีนี้ การกำหนดรูปแบบ เช่น แบบอักษรและสี จึงไม่ใช่ปัจจัยที่แตกต่างอย่างแท้จริง เพราะลำดับตัวอักษรที่ส่งผลต่อแบบอักษรและสีนั้นเป็นเพียงตัวอักษรมาตรฐานที่ถูกแทรกโดยอัตโนมัติโดย โหมด การประมวลผลข้อความเบื้องหลังซึ่งทำงานได้อย่างโปร่งใสโดยโปรแกรมแก้ไขข้อความที่รองรับ แต่จะปรากฏให้เห็นเป็นคำสั่งการประมวลผลข้อความเมื่อโหมดนั้นไม่ได้ทำงาน ดังนั้น การประมวลผลข้อความจึงถูกกำหนดโดยพื้นฐานที่สุด (แต่ไม่ใช่ทั้งหมด) โดยอิงจากตัวอักษรที่มองเห็นได้ (หรือกราฟีม ) มากกว่าตัวอักษรมาตรฐานที่มองไม่เห็น
ประวัติศาสตร์
การพัฒนาการประมวลผลข้อความด้วยคอมพิวเตอร์เริ่มต้นอย่างจริงจังด้วยการที่ Kleene ได้กำหนดรูปแบบภาษาปกติ (Regular Language ) อย่างเป็นทางการ จากนั้น นิพจน์ปกติเหล่านั้นก็สามารถกลายเป็นโปรแกรมขนาดเล็กที่มีกระบวนการคอมไพล์พร้อมใช้งานเพื่อทำการแก้ไขใดๆ ก็ได้ เมื่อภาษานั้นได้รับการขยายเพิ่มเติม ในทำนองเดียวกันตัวกรองก็ได้รับการขยายโดยการพัฒนาตัวเลือก เฉพาะ ต่างๆ
แนวคิดพื้นฐาน
โดยพื้นฐานแล้ว โปรแกรมแก้ไขข้อความจะเรียกใช้กระแสข้อมูลขาเข้าและส่งต่อไปยังสภาพแวดล้อมการประมวลผลข้อความ ซึ่งอาจเป็นเชลล์คำสั่งหรือโปรแกรมแก้ไขข้อความผลลัพธ์ที่ได้สามารถนำไปใช้ในการประมวลผลข้อความเพิ่มเติมได้ โดยผลลัพธ์สุดท้ายจะเทียบได้กับการประยุกต์ใช้อัลกอริทึมเพียงครั้ง เดียว โดยโปรแกรมคอมพิวเตอร์ที่มีความซับซ้อนและมีโครงสร้างมากกว่า
การประมวลผลข้อความนั้น แตกต่างจากอัลกอริทึม ตรงที่เป็นลำดับของการควบคุมด้วยตนเองของมาโครที่เรียบง่ายกว่า ซึ่งเป็นนิพจน์รูปแบบการกระทำและกลไกการกรอง ในทั้งสองกรณี ความตั้งใจของโปรแกรมเมอร์จะถูกถ่ายทอดทางอ้อมไปยังชุดอักขระข้อความที่กำหนดในระหว่างการประมวลผลข้อความ ผลลัพธ์ของขั้นตอนการประมวลผลข้อความบางครั้งอาจเป็นเพียงความหวัง และกลไกที่พยายามใช้มักจะต้องผ่านการแก้ไขหลายครั้งผ่านการตอบรับทางสายตา จนกว่าจะ เข้าใจรายละเอียด ของนิพจน์ปกติหรือภาษามาร์กอัป หรือจนกว่าจะเชี่ยวชาญตัวเลือกยูทิลิตี้อย่างสมบูรณ์
การประมวลผลข้อความส่วนใหญ่เกี่ยวข้องกับการสร้างตัวอักษรในระดับสูงสุดของการคำนวณ ซึ่งกิจกรรมต่างๆ นั้นอยู่ต่ำกว่าการใช้งานจริงของการคำนวณเล็กน้อย นั่นคือการส่งข้อมูล ด้วยตนเอง
โดยพื้นฐานแล้ว การคำนวณทั้งหมดคือการประมวลผลข้อความ ตั้งแต่ตัวอักษรข้อความที่คอมไพล์ตัวเองได้ของแอสเซมเบลอร์ ไปจนถึงภาษาโปรแกรมอัตโนมัติที่สร้างขึ้นเพื่อจัดการกับกลุ่มข้อมูลกราฟิก และสุดท้ายคือเมตาแคแรคเตอร์ของนิพจน์ปกติที่ปรับแต่งเอกสารข้อความที่มีอยู่
การประมวลผลข้อความเป็นการทำงานอัตโนมัติในตัวของมันเอง
ตัวละคร
อักขระข้อความมีชุดอักขระมาตรฐาน ซึ่งรวมถึงอักขระควบคุม เช่น อักขระขึ้นบรรทัดใหม่ ซึ่งใช้จัดเรียงข้อความ อักขระควบคุมประเภทอื่นๆ ใช้ในการจัดการการส่งข้อมูล กำหนดชุดอักขระ และดำเนินการงานบำรุงรักษาอื่นๆ
ดูเพิ่มเติม
ลิงก์ภายนอก
- เนื้อหาหลักของหนังสือการประมวลผลข้อความอัตโนมัติโดย เจอราร์ด ซัลตัน
- ฐานข้อมูลที่มีเครื่องมือประมวลผลข้อความถูกเก็บถาวรเมื่อวันที่ 5 มีนาคม 2021 ที่Wayback Machine (23 ตุลาคม 2013)
- ซอฟต์แวร์วิเคราะห์เนื้อหา ( Software for Content Analysis)
- เครื่องมือประมวลผลข้อความออนไลน์เครื่องมือประมวลผลข้อความออนไลน์
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การประมวลผลข้อความ
ในด้านคอมพิวเตอร์ คำว่า การประมวลผลข้อความ หมายถึง ทฤษฎีและการปฏิบัติในการสร้างหรือจัดการข้อความอิเล็กทรอนิกส์โดยอัตโนมัติ โดยปกติแล้ว ข้อความ...
คำนิยาม
เนื่องจากเครื่องหมายมาตรฐาน เช่น รหัสหลีกเลี่ยง ANSI โดยทั่วไปจะมองไม่เห็นสำหรับโปรแกรมแก้ไขข้อความ จึงประกอบด้วยชุดคุณสมบัติชั่วคราวที่บางครั้งแยกไม่ออกจาก การประมวลผลคำ แต่ความแตกต่างที่ชัดเจนจากการประมวลผลคำคือ การประมวลผลข้อความ โดยตรง:
ประวัติศาสตร์
การพัฒนาการประมวลผลข้อความด้วยคอมพิวเตอร์เริ่มต้นอย่างจริงจังด้วยการที่ Kleene ได้กำหนดรูปแบบ ภาษาปกติ (Regular Language ) อย่างเป็นทางการ จากนั้น นิพจน์ปกติ เหล่านั้นก็สามารถกลายเป็นโปรแกรมขนาดเล็กที่มีกระบวนการคอมไพล์พร้อมใช้งานเพื่อทำการแก้ไขใดๆ ก็ได้...
แนวคิดพื้นฐาน
โดยพื้นฐานแล้ว โปรแกรมแก้ไขข้อความจะเรียกใช้กระแสข้อมูลขาเข้าและส่งต่อไปยังสภาพแวดล้อมการประมวลผลข้อความ ซึ่งอาจเป็น เชลล์คำสั่ง หรือ โปรแกรมแก้ไขข้อความ ผลลัพธ์ที่ได้สามารถนำไปใช้ในการประมวลผลข้อความเพิ่มเติมได้...