อ่าน 3 นาที
คูนีฟอร์ม (ซอฟต์แวร์)
CuneiForm Cognitive OpenOCR เป็น ระบบ รู้จำอักษรด้วยแสงแบบโอเพนซอร์ส ที่แจกจ่ายฟรี พัฒนาโดยบริษัทซอฟต์แวร์Cognitive Technologies ของ รัสเซีย
คูนีฟอร์ม (ซอฟต์แวร์)
| อักษรคูนีฟอร์ม | |
|---|---|
| ผู้เขียนต้นฉบับ | เทคโนโลยีเชิงปัญญา |
| นักพัฒนา | เทคโนโลยีเชิงปัญญา |
| ปล่อย | แหล่งที่มา 2 เมษายน 2551 [ 1 ] |
| เวอร์ชันเสถียร | 1.1 / 19 เมษายน 2554 |
| เขียนเป็น | ซีและซี++ |
| ระบบปฏิบัติการ | ข้ามแพลตฟอร์ม |
| พิมพ์ | การรู้จำอักขระด้วยแสง |
| ใบอนุญาต | ซอฟต์แวร์ฟรี / ใบอนุญาต BSD |
| เว็บไซต์ | launchpad.net/cuneiform-linux |
CuneiForm Cognitive OpenOCR เป็น ระบบ รู้จำอักษรด้วยแสงแบบโอเพนซอร์ส ที่แจกจ่ายฟรี พัฒนาโดยบริษัทซอฟต์แวร์Cognitive Technologies ของ รัสเซีย
ระบบ CuneiForm OCR ถูกพัฒนาขึ้นโดยบริษัท Cognitive Technologiesในปี 1993 ในฐานะผลิตภัณฑ์เชิงพาณิชย์ ระบบนี้มาพร้อมกับเครื่องสแกนเนอร์เครื่องพิมพ์มัลติฟังก์ชันและซอฟต์แวร์ยอดนิยมมากมายในรัสเซียและทั่วโลก เช่นCorel Draw , Hewlett-Packard , Epson , Xerox , Samsung , Brother , Mustek, OKI , Canon , Olivettiเป็นต้น
ในปี 2008 บริษัท Cognitive Technologies ได้เปิดเผย ซอร์สโค้ดของโปรแกรมดังกล่าว
คุณสมบัติ
CuneiForm คือระบบที่พัฒนาขึ้นเพื่อแปลงสำเนาอิเล็กทรอนิกส์ของเอกสารกระดาษและไฟล์ภาพให้เป็นรูปแบบที่แก้ไขได้ โดยไม่เปลี่ยนแปลงโครงสร้างและแบบอักษรของเอกสารต้นฉบับ ในโหมดอัตโนมัติหรือกึ่งอัตโนมัติ ระบบประกอบด้วยสองส่วนสำหรับการประมวลผลเอกสารอิเล็กทรอนิกส์แบบทีละรายการและแบบเป็นกลุ่ม
รายชื่อภาษาที่ระบบรองรับ:
นอกจากนี้ ระบบยังรองรับการผสมผสานระหว่างภาษารัสเซียและภาษาอังกฤษ การรับรู้ภาษาผสมอื่นๆ รองรับเฉพาะในสาขาที่พัฒนาโดย Andrei Borovsky ในปี 2552 [ 2 ]การฝึกระบบให้รับรู้ภาษาอื่นๆ นั้นทำได้ยาก เนื่องจากแต่ละภาษามีความเกี่ยวข้องกับไฟล์ข้อมูล ซึ่งโครงสร้างและวิธีการพัฒนาของไฟล์ข้อมูลนั้นไม่ได้รับการเปิดเผยจากผู้พัฒนา
ประวัติศาสตร์
ปี 1993 - บริษัท Cognitive Technologies ได้ลงนามใน สัญญา OEMกับCorelโดยมีเงื่อนไขว่าไลบรารี การจดจำภาพของ Cognitive Technologies จะถูกฝังอยู่ใน โปรแกรม Corel Draw 3.0 (และเวอร์ชันต่อมา) ซึ่งเป็นที่นิยมในวงการสิ่งพิมพ์
ปี 1994 – สัญญาที่ทำกับบริษัทฮิวเลตต์-แพคการ์ด (Hewlett-Packard) สำหรับการติดตั้งระบบ OCR ของ CuneiForm ในเครื่องสแกนเนอร์ทั้งหมดที่นำเข้าสู่รัสเซีย นี่เป็นสัญญาฉบับแรกของ HP กับบริษัทซอฟต์แวร์ของรัสเซีย
1995 - สัญญากับบริษัท Epson ของญี่ปุ่นในการจัดหาสแกนเนอร์พร้อม OCR CuneiForm [ 3 ]สัญญา OEM ได้ลงนามกับบริษัท Brother ซึ่งเป็นผู้ผลิตเครื่องแฟกซ์ เครื่องพิมพ์เลเซอร์ สแกนเนอร์ และอุปกรณ์สำนักงานอื่นๆ ที่ใหญ่ที่สุดในโลก ตามข้อตกลง สแกนเนอร์ลูกกลิ้งรุ่นใหม่ Brother IC-150 ได้รับการติดตั้งซอฟต์แวร์ Cognitive สำหรับการสแกนและการจดจำทั่วโลก
ปี 1996 - ลงนามในข้อตกลง OEM กับ Samsung Information Systems America หนึ่งในผู้ผลิตจอภาพ เครื่องแฟกซ์ เครื่องพิมพ์เลเซอร์ เครื่องพิมพ์มัลติฟังก์ชัน และอุปกรณ์สำนักงานอื่นๆ รายใหญ่ที่สุดของโลก โดยตามข้อตกลงดังกล่าว อุปกรณ์มัลติฟังก์ชันรุ่นใหม่ Samsung OFFICE MASTER OML-8630A จะต้องติดตั้งระบบการจดจำสัญลักษณ์ด้วยแสง Cognitive Cuneiform LE ทั่วโลก
- ข้อตกลง OEM กับ Xerox ผู้ผลิตอุปกรณ์สำนักงานชั้นนำระดับโลก ในการติดตั้งระบบจดจำตัวอักษร CuneiForm ในเครื่องพิมพ์มัลติฟังก์ชัน Xerox 3006 และ Pro-610
- CuneiForm '96 เปิดตัว OCR เวอร์ชันใหม่ พร้อมอัลกอริธึมการรู้จำแบบปรับตัวได้เป็นครั้งแรกของโลก
การรู้จำแบบปรับตัวได้ (Adaptive Recognition) – เป็นวิธีการที่ใช้การผสมผสานระหว่างอัลกอริธึมการรู้จำตัวอักษรพิมพ์สองประเภท ได้แก่ แบบมัลติฟอนต์ (multifont) และแบบออมนิฟอนต์ (omnifont) ระบบจะสร้างฟอนต์ภายในสำหรับเอกสารแต่ละฉบับที่ป้อนเข้ามา โดยอิงจากตัวอักษรที่พิมพ์ได้ดี โดยใช้การปรับเปลี่ยนแบบไดนามิก (การปรับตัว) ให้เข้ากับสัญลักษณ์ที่ป้อนเข้ามาโดยเฉพาะ ดังนั้น วิธีการนี้จึงรวมเอาความครอบคลุมและประสิทธิภาพทางเทคโนโลยีของวิธีการออมนิฟอนต์เข้ากับความแม่นยำในการรู้จำฟอนต์ที่สูง ซึ่งช่วยปรับปรุงอัตราการรู้จำให้ดีขึ้นอย่างมาก
ปี 1997 – มีการนำเทคโนโลยี โครงข่ายประสาทเทียมมาใช้ครั้งแรกใน CuneiForm อัลกอริทึมที่ใช้โครงข่ายประสาทเทียมในการจดจำตัวอักษรได้รับการพัฒนาดังนี้: ภาพตัวอักษรที่จะจดจำ (รูปแบบ) จะถูกลดขนาดให้มีขนาดมาตรฐานที่กำหนด (นอร์มาไลซ์) ค่าความสว่างของรูปแบบนอร์มาไลซ์จะถูกใช้เป็นพารามิเตอร์ป้อนเข้าสำหรับโครงข่ายประสาทเทียม จำนวนพารามิเตอร์เอาต์พุตของโครงข่ายประสาทเทียมจะเท่ากับจำนวนตัวอักษรที่จดจำได้ ผลลัพธ์ของการจดจำคือสัญลักษณ์ ซึ่งสอดคล้องกับค่าสูงสุดของเวกเตอร์เอาต์พุตของโครงข่ายประสาทเทียม
- ข้อตกลง OEM ใหม่กับ Canon สำหรับการติดตั้งระบบ CuneiForm ในอุปกรณ์มัลติฟังก์ชั่นที่นำเข้าสู่รัสเซีย
- สัญญา OEM ใหม่กับ OKI Europe Limited สำหรับการติดตั้งระบบ CuneiForm ในเครื่องพิมพ์มัลติฟังก์ชัน OKI FAX 4100 และ OKI FAX 5200 ที่นำเข้าสู่รัสเซีย
- CuneiForm MMX Update ระบบ OCR ตัวแรกสำหรับ โปรเซสเซอร์ Intel MMXเปิดตัวแล้ว;
- เครื่องสแกน NeuHause มาพร้อมกับระบบการจดจำอักษรคูนี (CuneiForm);
- รัสเซียได้เปิดตัวระบบสแกนเครือข่ายตัวแรก CuneiForm 98 NEST แล้ว
1999
- สัญญา OEM ใหม่กับบริษัท Olivetti สำหรับการจัดหาอุปกรณ์มัลติฟังก์ชั่นที่นำเข้าสู่รัสเซียโดยใช้ระบบ CuneiForm;
- ข้อตกลงการจัดจำหน่ายกับบริษัท WSKA (ฝรั่งเศส) ซึ่งเป็นผู้จัดจำหน่ายซอฟต์แวร์ชั้นนำในยุโรป สำหรับการจัดจำหน่ายซอฟต์แวร์ OCR Cuneiform Direct ในยุโรป
- ระบบเวอร์ชันใหม่ Cuneiform 2000 ได้รับการเผยแพร่แล้ว โดยนำวิธีการ "การวิเคราะห์เชิงปัญญา™" มาใช้: ระบบผู้เชี่ยวชาญถูกรวมเข้ากับแกนหลักของการจดจำ ซึ่งจะวิเคราะห์ทางเลือกต่างๆ สำหรับการประมาณค่าผลลัพธ์จากอัลกอริทึมการตรวจจับแต่ละตัว และเลือกตัวเลือกที่ดีที่สุด
- วิธีการ"การแบ่งส่วนตารางตามเส้นเมริเดียน™"ถูกพัฒนาขึ้นเพื่อปรับปรุงความแม่นยำในการสร้างตารางในรูปแบบเดิมในเอกสารผลลัพธ์
- มีการนำเสนอ เทคโนโลยีการสร้างเอกสารต้นฉบับขึ้นใหม่ – “สิ่งที่คุณสแกนคือสิ่งที่คุณได้รับ™”เทคโนโลยีนี้มีจุดมุ่งหมายเพื่อรักษาโครงสร้างดั้งเดิมของเอกสารที่สแกนไว้ โดยคำนึงถึงการจัดวางส่วนประกอบต่างๆ ซึ่งมีความสำคัญอย่างยิ่งสำหรับเอกสารที่มีโครงสร้างซับซ้อน เช่น ข้อความหลายคอลัมน์ที่มีหัวข้อ คำอธิบายประกอบ ภาพประกอบ ตาราง ฯลฯ
ปี 2001 - ทำสัญญา OEM กับ Canon สำหรับอุปกรณ์สแกนเนอร์และอุปกรณ์มัลติฟังก์ชัน โดยใช้ซอฟต์แวร์ OCR CuneiForm ของ Cognitive Technologies สำหรับยุโรปตะวันออก
โอกาสในการพัฒนา
- เมื่อวันที่ 12 ธันวาคม 2550 โปรแกรม OCR CuneiForm เวอร์ชัน ฟรีแวร์ได้รับการเผยแพร่ และมีการประกาศเปิดเผยซอร์สโค้ดของโปรแกรมดังกล่าว
- เมื่อวันที่ 2 เมษายน 2551 ซอร์สโค้ดของระบบ OCR สำหรับอักษรลิ่มถูกเผยแพร่ภายใต้ใบอนุญาต BSDและในฤดูใบไม้ร่วง ซอร์สโค้ดของส่วนติดต่อผู้ใช้ของระบบก็ ถูกเผยแพร่เช่นกัน
- เวอร์ชันล่าสุดของซอฟต์แวร์โอเพนซอร์สสำหรับ Windows ไม่ได้รับการอัปเดตตั้งแต่วันที่ 14 กุมภาพันธ์ 2552 เวอร์ชันนี้จึงไม่สามารถดาวน์โหลดได้อีกต่อไป แต่สามารถดาวน์โหลดเวอร์ชัน 11 พฤศจิกายน 2551 ได้จากหน้าดาวน์โหลดแทน
- ในปี 2552 อินเทอร์เฟซกราฟิกสำหรับเวอร์ชันเปิดของอักษรลิ่มที่ใช้ไลบรารี Qt 4 - Cuneiform-Qt [ 4 ] YAGF ได้รับการเผยแพร่ โดยเริ่มตั้งแต่เวอร์ชัน 0.9.0 [ 5 ]เวอร์ชันเปิดสำหรับLinuxสามารถใช้เป็นไลบรารีได้
ดูเพิ่มเติม
- Puma.NET เป็นไลบรารีตัวห่อหุ้ม สำหรับเอนจิ้นการรู้จำอักษร CuneiForm ของ Cognitive Technologies ช่วยให้การรวมฟังก์ชัน OCR เข้ากับแอปพลิเคชัน . NET Framework 2.0 (หรือสูงกว่า) ทำได้ง่ายขึ้น
ลิงก์ภายนอก
- Cognitive OpenOCR เวอร์ชัน 11, BSD
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ คูนีฟอร์ม (ซอฟต์แวร์)
CuneiForm Cognitive OpenOCR เป็น ระบบ รู้จำอักษรด้วยแสงแบบโอเพนซอร์ส ที่แจกจ่ายฟรี พัฒนาโดยบริษัทซอฟต์แวร์Cognitive Technologies ของ รัสเซีย
คุณสมบัติ
CuneiForm คือระบบที่พัฒนาขึ้นเพื่อแปลงสำเนาอิเล็กทรอนิกส์ของเอกสารกระดาษและไฟล์ภาพให้เป็นรูปแบบที่แก้ไขได้ โดยไม่เปลี่ยนแปลงโครงสร้างและแบบอักษรของเอกสารต้นฉบับ ในโหมดอัตโนมัติหรือกึ่งอัตโนมัติ...
ประวัติศาสตร์
ปี 1993 - บริษัท Cognitive Technologies ได้ลงนามใน สัญญา OEM กับ Corel โดยมีเงื่อนไขว่า ไลบรารี การจดจำภาพของ Cognitive Technologies จะถูกฝังอยู่ใน โปรแกรม Corel Draw 3.0 (และเวอร์ชันต่อมา) ซึ่งเป็นที่นิยมในวงการสิ่งพิมพ์
โอกาสในการพัฒนา
เมื่อวันที่ 12 ธันวาคม 2550 โปรแกรม OCR CuneiForm เวอร์ชัน ฟรีแวร์ ได้รับการเผยแพร่ และมีการประกาศเปิดเผยซอร์สโค้ดของโปรแกรมดังกล่าว เมื่อวันที่ 2 เมษายน 2551 ซอร์สโค้ดของระบบ OCR สำหรับอักษรลิ่มถูกเผยแพร่ภายใต้ ใบอนุญาต BSD และในฤดูใบไม้ร่วง...