อ่าน 4 นาที
โอซีโรปัส
OCRopus เป็น ซอฟต์แวร์ฟรี สำหรับ การวิเคราะห์รูปแบบเอกสาร และ การรู้จำอักขระด้วยแสง (OCR) ซึ่งเผยแพร่ภายใต้ Apache License 2.
โอซีโรปัส
| โอซีโรปัส | |
|---|---|
| นักพัฒนา | โทมัส เบรอเอล, DFKI |
| ปล่อย | 9 เมษายน 2550 [ 1 ] |
| เวอร์ชันเสถียร | |
| รุ่นทดลองใช้งาน | ocropus4 |
| เขียนเป็น | ซี++และไพธอน |
| ระบบปฏิบัติการ | ฟรีบีเอสดี , ลินุกซ์ , แมคโอเอสเอ็กซ์ |
| พิมพ์ | การรู้จำอักขระด้วยแสง |
| ใบอนุญาต | ใบอนุญาต Apache 2.0 |
| เว็บไซต์ | ocropus.github.io |
| ที่เก็บข้อมูล | https://github.com/ocropus-archive/DUP-ocropy |
OCRopusเป็นซอฟต์แวร์ฟรีสำหรับการวิเคราะห์รูปแบบเอกสารและการรู้จำอักขระด้วยแสง (OCR) ซึ่งเผยแพร่ภายใต้Apache License 2.0โดยมีดีไซน์แบบโมดูลาร์สูงและใช้ ส่วนต่อประสาน คำสั่งบรรทัด (command-line interface )
โปรแกรม นี้ได้รับการพัฒนาภายใต้การนำของโทมัส เบรอเอล จากศูนย์วิจัยปัญญาประดิษฐ์แห่งเยอรมนีในเมืองไคเซอร์สเลาเทิร์นประเทศเยอรมนี และได้รับการสนับสนุนจากGoogle
คำอธิบาย
OCRopus ได้รับการออกแบบเป็นพิเศษสำหรับการใช้งานในโครงการ แปลงหนังสือ เป็นดิจิทัล ปริมาณมาก เช่น Google Books , Internet Archiveหรือห้องสมุด รองรับภาษาและแบบอักษรจำนวนมาก[ 5 ]อย่างไรก็ตาม ยังสามารถใช้สำหรับแอปพลิเคชันบนเดสก์ท็อปและสำนักงาน หรือสำหรับแอปพลิเคชันสำหรับผู้พิการทางสายตาได้อีกด้วย
ส่วนประกอบหลักของอุปกรณ์นี้ทำหน้าที่ดังต่อไปนี้:
มีสคริปต์เดียวหรือหลายสคริปต์ให้เลือกใช้สำหรับส่วนประกอบเหล่านี้ แนวทาง การเขียนโปรแกรมแบบโมดูลาร์ช่วยให้สามารถใช้เวิร์กโฟลว์เฉพาะบุคคลและสลับเปลี่ยนขั้นตอนแต่ละขั้นตอนได้
โดยค่าเริ่มต้น OCRopus มาพร้อมกับโมเดลสำหรับข้อความภาษาอังกฤษและโมเดลสำหรับข้อความในอักษร Frakturโมเดลเหล่านี้อ้างอิงถึงสคริปต์และส่วนใหญ่ไม่ขึ้นอยู่กับภาษาจริง[ 6 ]สามารถฝึกอักขระใหม่หรือรูปแบบภาษาใหม่ได้ตั้งแต่เริ่มต้นหรือเพิ่มในภายหลัง
การรู้จำข้อความล่าสุดนั้นใช้โครงข่ายประสาทแบบวนซ้ำ ( LSTM ) และไม่จำเป็นต้องใช้แบบจำลองภาษา ทำให้สามารถฝึกแบบจำลองที่ไม่ขึ้นกับภาษาได้ ซึ่งแสดงให้เห็นผลลัพธ์การรู้จำที่ดีในภาษาอังกฤษ เยอรมัน และฝรั่งเศสพร้อมกัน[ 7 ]นอกจากอักษรละติน แล้ว ยัง มีผลลัพธ์สำหรับอักษรอื่นๆ เช่นสันสกฤตอูร์ดูเทวนาครีและกรีก
อัตราการตรวจจับที่ดีมากสามารถทำได้ผ่านการฝึกอบรมที่เหมาะสม ความพยายามเพิ่มเติมนี้คุ้มค่าอย่างยิ่งสำหรับเอกสารหรือสคริปต์ที่ยากซึ่งไม่เป็นที่นิยมในปัจจุบัน ซึ่งซอฟต์แวร์ OCR อื่นๆ ไม่ได้ให้ความสำคัญ[ 8 ] [ 9 ]
ประวัติศาสตร์
เมื่อวันที่ 9 เมษายน พ.ศ. 2550 OCRopus ได้รับการประกาศให้เป็นโครงการที่ได้รับการสนับสนุนจาก Google เพื่อพัฒนาเทคโนโลยี OCR ขั้นสูง[ 1 ]เงินทุนได้รับการอนุมัติเป็นระยะเวลาสามปีและครอบคลุมตำแหน่งระดับปริญญาเอกและหลังปริญญาเอกที่DFKIและมหาวิทยาลัยไคเซอร์สเลาเทิร์น โดยเฉพาะ ในทางกลับกัน OCRopus ยังถูกนำไปใช้สำหรับการจดจำข้อความอัตโนมัติในGoogle Book Searchอีก ด้วย [ 10 ]การอนุญาตภายใต้ใบอนุญาตโอเพนซอร์สได้ถูกกำหนดขึ้นตั้งแต่เริ่มต้นเพื่ออำนวยความสะดวกในการทำงานร่วมกันระหว่างการวิจัยทางอุตสาหกรรมและทางวิชาการ[ 11 ] OCRopus ได้รับเงินทุนเพิ่มเติมจากมูลนิธิ Andrew W. MellonและBMBF [ 12 ]
เวอร์ชันอัลฟ่าแรก 0.1 เปิดตัวเมื่อวันที่ 22 ตุลาคม 2550 และมีการเปิดตัวเวอร์ชันก่อนวางจำหน่ายหลายเวอร์ชันระหว่างเดือนธันวาคม 2550 ถึงพฤษภาคม 2552 จนถึงเวอร์ชันเสถียร 0.4.4 ในเดือนมีนาคม 2553 [ 13 ]เดิมทีซอฟต์แวร์นี้ได้รับการพัฒนาด้วย ภาษา C++ , PythonและLuaโดยใช้Jamเป็นระบบสร้าง มี การปรับโครงสร้างโค้ดต้นฉบับใหม่ทั้งหมดในโมดูล Python และเปิดตัวในเวอร์ชัน 0.5 (มิถุนายน 2555) [ 14 ]
ในขั้นต้นTesseractถูกใช้เป็นโมดูลการรู้จำข้อความเพียงอย่างเดียว ตั้งแต่ปี 2009 (เวอร์ชัน 0.4) Tesseract ได้รับการสนับสนุนเฉพาะในรูปแบบปลั๊กอินเท่านั้น แทนที่จะใช้ตัวรู้จำข้อความที่พัฒนาขึ้นเอง (ซึ่งใช้การแบ่งส่วนเช่นกัน) จึงใช้ตัวรู้ จำข้อความนี้แทน [ 15 ] จาก นั้นตัวรู้จำนี้จะถูกใช้ร่วมกับ OpenFST [ 16 ]สำหรับการสร้างแบบจำลองภาษาหลังจากขั้นตอนการรู้จำ ตั้งแต่ปี 2013 เป็นต้นไป มีการเพิ่มการรู้จำด้วยโครงข่ายประสาทแบบวนซ้ำ ( LSTM ) ซึ่งเมื่อมีการเปิดตัวเวอร์ชัน 1.0 ในเดือนพฤศจิกายน 2014 ก็กลายเป็นตัวรู้จำเพียงตัวเดียว[ 17 ] [ 18 ]
ซอร์สโค้ดได้รับการจัดการผ่านGitHubและได้รับการดูแลและพัฒนาโดยชุมชนนักพัฒนา[ 19 ]เวอร์ชันปัจจุบันของ OCRopus คือ 1.3.3 (ธันวาคม 2017) [ 20 ]
ซอฟต์แวร์ OCR krakenซึ่งใช้โดยแพลตฟอร์มการถอดเสียงeScriptoriumเป็นเวอร์ชันที่แยกออกมาจาก OCRopus โดยเพิ่มการรองรับสคริปต์จากขวาไปซ้าย [ 21 ] เวอร์ชันที่ แยกออกมาอีกเวอร์ชันหนึ่งซึ่งมีพื้นฐานมาจากkrakenคือCalamari
Thomas Breuel ยังได้พัฒนา OCRopus 2 ซึ่งเป็นรุ่นต่อยอด และกำลังทำงานอย่างแข็งขันใน OCRopus 4 [ 22 ]
เมื่อวันที่ 27 เมษายน 2569 โครงการส่วนใหญ่ที่เกี่ยวข้องกับ OCRopus (รวมถึงocropy , ocropy2และocropus4 ) ถูกย้ายไปยังองค์กร GitHub ใหม่ชื่อ " ocropus-archive " และถูกทำเครื่องหมายว่า " เก็บถาวร/ไม่ได้รับการดูแลรักษาอีกต่อไป "
การใช้งาน

OCRopus สามารถใช้งานได้จากบรรทัดคำสั่ง เมื่อติดตั้งแล้ว สามารถเรียกใช้งานได้โดยระบุภาพอินพุต โดยจะส่งออกข้อความที่รู้จักไปยังเอาต์พุตมาตรฐานโดยตรง หรือเขียนเป็น โค้ด hOCR ( อิงตาม HTML ) ลงในไฟล์ จากนั้นจึงแปลงเป็น PDF ที่ค้นหาได้ หากต้องการควบคุมที่แม่นยำยิ่งขึ้น สามารถระบุตัวเลือกบนบรรทัดคำสั่งเพื่อดำเนินการเฉพาะ (เช่น การจดจำบรรทัดเดียว) [ 23 ]
ตัวอย่างการเรียกใช้ OCRopus เพื่อจดจำข้อความในภาพ:
# ดำเนินการแปลงเป็นภาพไบนารี ocropus-nlbin tests/ersch.png -o book # ดำเนินการวิเคราะห์เค้าโครงหน้าเว็บ ocropus-gpageseg book/0001.bin.png # ดำเนินการจดจำบรรทัดข้อความ (ด้วยแบบจำลองแฟรกตูร์) ocropus-rpred -m models/fraktur.pyrnn.gz book/0001/*.bin.png # สร้างเอาต์พุต HTML ocropus-hocr book/0001.bin.png -o book/0001.html
เครื่องมืออื่นๆ มุ่งเน้นไปที่ส่วนการฝึกอบรมของ OCRopus มีโมเดล OCRopus สำหรับแยกข้อความจากอักษรละติน กรีก ซิริลลิก และอินเดีย[ 24 ]
ลิงก์ภายนอก
- ocropyบนGitHub
- วิกิ Ocropy บน GitHub
- เซิร์ฟเวอร์เผยแพร่ผลงานของ IUPR (เอกสารทางวิชาการที่เป็นพื้นฐานของอัลกอริทึมจำนวนมากที่ใช้ใน OCRopus)
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ โอซีโรปัส
OCRopus เป็น ซอฟต์แวร์ฟรี สำหรับ การวิเคราะห์รูปแบบเอกสาร และ การรู้จำอักขระด้วยแสง (OCR) ซึ่งเผยแพร่ภายใต้ Apache License 2.
คำอธิบาย
OCRopus ได้รับการออกแบบเป็นพิเศษสำหรับการใช้งานในโครงการ แปลง หนังสือ เป็นดิจิทัล ปริมาณมาก เช่น Google Books , Internet Archive หรือห้องสมุด รองรับภาษาและแบบอักษรจำนวนมาก [ 5 ] อย่างไรก็ตาม ยังสามารถใช้สำหรับแอปพลิเคชันบนเดสก์ท็อปและสำนักงาน...
ประวัติศาสตร์
เมื่อวันที่ 9 เมษายน พ.ศ. 2550 OCRopus ได้รับการประกาศให้เป็นโครงการที่ได้รับการสนับสนุนจาก Google เพื่อพัฒนาเทคโนโลยี OCR ขั้นสูง [ 1 ] เงินทุนได้รับการอนุมัติเป็นระยะเวลาสามปีและครอบคลุมตำแหน่งระดับปริญญาเอกและหลังปริญญาเอกที่ DFKI และ...
การใช้งาน
OCRopus สามารถใช้งานได้จากบรรทัดคำสั่ง เมื่อติดตั้งแล้ว สามารถเรียกใช้งานได้โดยระบุภาพอินพุต โดยจะส่งออกข้อความที่รู้จักไปยัง เอาต์พุตมาตรฐาน โดยตรง หรือเขียนเป็น โค้ด hOCR ( อิงตาม HTML ) ลงในไฟล์ จากนั้นจึงแปลงเป็น PDF ที่ค้นหาได้...