อ่าน 3 นาที
สเปซี่
spaCy ( / s p eɪ ˈ s iː / spay- SEE ) เป็น ไลบรารี ซอฟต์แวร์โอเพนซอร์สสำหรับ การประมวลผลภาษาธรรมชาติ ขั้นสูง เขียนด้วยภาษาโปรแกรม Python และ Cython [ 3 ] [ 4 ]...
สเปซี่
| สเปซี่ | |
|---|---|
| ผู้เขียนต้นฉบับ | แมทธิว ฮอนนิบาล |
| นักพัฒนา | ปัญญาประดิษฐ์เกี่ยวกับการระเบิด หลากหลาย |
| ปล่อย | กุมภาพันธ์ 2558 [ 1 ] |
| เวอร์ชันเสถียร | 3.8.4 [ 2 ] |
| เขียนเป็น | ไพธอน , ไซธอน |
| ระบบปฏิบัติการ | ลินุกซ์ , วินโดวส์ , macOS , OS X |
| แพลตฟอร์ม | ข้ามแพลตฟอร์ม |
| พิมพ์ | การประมวลผลภาษาธรรมชาติ |
| ใบอนุญาต | ใบอนุญาต MIT |
| เว็บไซต์ | spacy |
| ที่เก็บข้อมูล |
|
spaCy ( / s p eɪ ˈ s iː / spay- SEE ) เป็นไลบรารีซอฟต์แวร์โอเพนซอร์สสำหรับการประมวลผลภาษาธรรมชาติ ขั้นสูง เขียนด้วยภาษาโปรแกรมPythonและCython [ 3 ] [ 4 ]ไลบรารีนี้เผยแพร่ภายใต้ใบอนุญาต MIT และนัก พัฒนาหลักคือMatthew HonnibalและInes Montaniผู้ก่อตั้งบริษัทซอฟต์แวร์ Explosion
แตกต่างจากNLTKซึ่งใช้กันอย่างแพร่หลายในการสอนและการวิจัย spaCy มุ่งเน้นที่การจัดหาซอฟต์แวร์สำหรับการใช้งานจริง[ 5 ] [ 6 ] spaCy ยังรองรับ เวิร์กโฟลว์ การเรียนรู้เชิงลึกที่อนุญาตให้เชื่อมต่อโมเดลทางสถิติที่ฝึกฝนโดย ไลบรารี การเรียนรู้ของเครื่อง ยอดนิยม เช่นTensorFlow , PyTorchหรือMXNetผ่านไลบรารีการเรียนรู้ของเครื่อง Thinc ของตนเอง[ 7 ] [ 8 ]โดยใช้ Thinc เป็นแบ็กเอนด์ spaCy มีโมเดลเครือข่ายประสาทแบบ Convolutional สำหรับ การติดแท็กส่วนของคำพูดการวิเคราะห์ความสัมพันธ์ การจัดหมวด หมู่ข้อความและการรู้จำเอนทิตีที่มีชื่อ (NER) มีโมเดล เครือข่ายประสาททางสถิติที่สร้างไว้ล่วงหน้าเพื่อดำเนินการเหล่านี้สำหรับ 23 ภาษา รวมถึงภาษาอังกฤษ โปรตุเกส สเปน รัสเซีย และจีน และยังมีโมเดล NER หลายภาษาอีก ด้วย การสนับสนุนเพิ่มเติมสำหรับการแบ่งคำสำหรับมากกว่า 65 ภาษาช่วยให้ผู้ใช้สามารถฝึกฝนโมเดลที่กำหนดเองบนชุดข้อมูลของตนเองได้เช่นกัน[ 9 ]
ประวัติศาสตร์
- เวอร์ชัน 1.0 เปิดตัวเมื่อวันที่ 19 ตุลาคม 2559 และรวมถึงการสนับสนุนเบื้องต้นสำหรับเวิร์กโฟลว์การเรียนรู้เชิงลึกโดยการสนับสนุนไปป์ไลน์การประมวลผลแบบกำหนดเอง[ 10 ]นอกจากนี้ยังรวมถึงตัวจับคู่กฎที่รองรับ คำอธิบายประกอบ เอนทิตีและ API การฝึกอบรมที่มีเอกสารอย่างเป็นทางการ
- เวอร์ชัน 2.0 เปิดตัวเมื่อวันที่ 7 พฤศจิกายน 2017 และแนะนำโมเดลเครือข่ายประสาทเทียมแบบคอนโวลูชันสำหรับ 7 ภาษาที่แตกต่างกัน[ 11 ] นอกจากนี้ยังรองรับส่วนประกอบไปป์ไลน์การประมวลผลแบบกำหนดเองและคุณลักษณะส่วนขยาย และมี ส่วนประกอบการจำแนกประเภทข้อความที่สามารถฝึกฝนได้ในตัว
- เวอร์ชัน 3.0 เปิดตัวเมื่อวันที่ 1 กุมภาพันธ์ 2021 และนำเสนอ ไปป์ไลน์ที่ทันสมัย ซึ่งใช้ Transformer [ 12 ]นอกจากนี้ยังนำเสนอระบบการกำหนดค่าและเวิร์กโฟลว์การฝึกอบรมใหม่ รวมถึงคำแนะนำประเภทและเทมเพลตโครงการ เวอร์ชันนี้ยกเลิกการสนับสนุนPython 2
คุณสมบัติหลัก
- การแปลงข้อมูลเป็นโทเค็นโดยไม่ทำลายข้อมูลเดิม
- รองรับ "การแยกคำตามตัวอักษร" มากกว่า 65 ภาษา[ 13 ]
- มีระบบรองรับการทำงานกับส่วนประกอบของไปป์ไลน์ที่สามารถฝึกฝนได้ เช่นการระบุชื่อเอนทิตี (Named entity recognition) , การ ระบุส่วนของคำพูด (Part-of-speech tagging) , การวิเคราะห์ความสัมพันธ์ของคำ (Dependency parsing), การจำแนกประเภทข้อความ (Text classification) , การเชื่อมโยงเอนทิตี (Entity Linking)และอื่นๆ
- แบบจำลองทางสถิติสำหรับ 19 ภาษา[ 14 ]
- การเรียนรู้แบบหลายงานพร้อมกันด้วยโมเดล Transformer ที่ได้รับการฝึกฝนล่วงหน้า เช่นBERT
- รองรับโมเดลแบบกำหนดเองใน PyTorch, TensorFlow และเฟรมเวิร์กอื่นๆ
- ความเร็วและความแม่นยำที่ทันสมัย[ 15 ]
- ระบบฝึกอบรมพร้อมใช้งานจริง
- มีตัวแสดงภาพในตัวสำหรับไวยากรณ์และเอนทิตีที่มีชื่อ
- การจัดการแพ็กเกจโมเดล การติดตั้งใช้งาน และเวิร์กโฟลว์ที่ง่ายดาย
ส่วนขยายและเครื่องมือแสดงภาพ

spaCy มาพร้อมกับส่วนเสริมและเครื่องมือแสดงภาพข้อมูลหลายอย่างที่สามารถใช้งานได้ฟรีในรูปแบบไลบรารีโอเพนซอร์ส :
- Thinc: ไลบรารีแมชชีน เลิร์นนิงที่ปรับให้เหมาะสมกับ การใช้งาน CPUและการเรียนรู้เชิงลึกด้วยการป้อนข้อความ
- sense2vec: ไลบรารีสำหรับการคำนวณความคล้ายคลึงของคำ โดยอิงจาก Word2vec [ 16 ]
- displaCy: เครื่องมือแสดงภาพแผนผังการแยกส่วนความสัมพันธ์ของข้อมูลแบบโอเพนซอร์สสร้างขึ้นด้วยJavaScript , CSSและSVG
- displaCy ENT : เครื่องมือแสดงภาพ ข้อมูลชื่อเฉพาะแบบโอเพนซอร์ส สร้างด้วยJavaScriptและCSS
ดูเพิ่มเติม
ลิงก์ภายนอก
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ สเปซี่
spaCy ( / s p eɪ ˈ s iː / spay- SEE ) เป็น ไลบรารี ซอฟต์แวร์โอเพนซอร์สสำหรับ การประมวลผลภาษาธรรมชาติ ขั้นสูง เขียนด้วยภาษาโปรแกรม Python และ Cython [ 3 ] [ 4 ]...
ประวัติศาสตร์
เวอร์ชัน 1.0 เปิดตัวเมื่อวันที่ 19 ตุลาคม 2559 และรวมถึงการสนับสนุนเบื้องต้นสำหรับเวิร์กโฟลว์การเรียนรู้เชิงลึกโดยการสนับสนุนไปป์ไลน์การประมวลผลแบบกำหนดเอง [ 10 ] นอกจากนี้ยังรวมถึงตัวจับคู่กฎที่รองรับ คำอธิบายประกอบ เอนทิตี และ API...
คุณสมบัติหลัก
การแปลงข้อมูลเป็นโทเค็นโดย ไม่ทำลายข้อมูลเดิม รองรับ "การแยกคำตามตัวอักษร" มากกว่า 65 ภาษา [ 13 ] มีระบบรองรับการทำงานกับส่วนประกอบของไปป์ไลน์ที่สามารถฝึกฝนได้ เช่น การระบุชื่อเอนทิตี (Named entity recognition) , การ ระบุส่วนของคำพูด (Part-of-speech tagging)...
ส่วนขยายและเครื่องมือแสดงภาพ
spaCy มาพร้อมกับส่วนเสริมและเครื่องมือแสดงภาพข้อมูลหลายอย่างที่สามารถใช้งานได้ฟรีใน รูปแบบไลบรารีโอเพนซอร์ส :