สเปซี่

สเปซี่
สเปซี่
ผู้เขียนต้นฉบับ	แมทธิว ฮอนนิบาล
นักพัฒนา	ปัญญาประดิษฐ์เกี่ยวกับการระเบิด หลากหลาย
ปล่อย	กุมภาพันธ์ 2558
เวอร์ชันเสถียร	3.8.4 / 14 มกราคม 2025
เขียนเป็น	ไพธอน , ไซธอน
ระบบปฏิบัติการ	ลินุกซ์ , วินโดวส์ , macOS , OS X
แพลตฟอร์ม	ข้ามแพลตฟอร์ม
พิมพ์	การประมวลผลภาษาธรรมชาติ
ใบอนุญาต	ใบอนุญาต MIT
เว็บไซต์	spacy .io
ที่เก็บข้อมูล	github.com/explosion/spaCy;

spaCy ( / s p eɪ ˈ s iː / spay- SEE ) เป็นไลบรารีซอฟต์แวร์โอเพนซอร์สสำหรับการประมวลผลภาษาธรรมชาติ ขั้นสูง เขียนด้วยภาษาโปรแกรมPythonและCython ^{[ 3 ]}^{[ 4 ]}ไลบรารีนี้เผยแพร่ภายใต้ใบอนุญาต MIT และนัก พัฒนาหลักคือMatthew HonnibalและInes Montaniผู้ก่อตั้งบริษัทซอฟต์แวร์ Explosion

แตกต่างจากNLTKซึ่งใช้กันอย่างแพร่หลายในการสอนและการวิจัย spaCy มุ่งเน้นที่การจัดหาซอฟต์แวร์สำหรับการใช้งานจริง^{[ 5 ]}^{[ 6 ]} spaCy ยังรองรับ เวิร์กโฟลว์ การเรียนรู้เชิงลึกที่อนุญาตให้เชื่อมต่อโมเดลทางสถิติที่ฝึกฝนโดย ไลบรารี การเรียนรู้ของเครื่อง ยอดนิยม เช่นTensorFlow , PyTorchหรือMXNetผ่านไลบรารีการเรียนรู้ของเครื่อง Thinc ของตนเอง^{[ 7 ]}^{[ 8 ]}โดยใช้ Thinc เป็นแบ็กเอนด์ spaCy มีโมเดลเครือข่ายประสาทแบบ Convolutional สำหรับ การติดแท็กส่วนของคำพูดการวิเคราะห์ความสัมพันธ์ การจัดหมวด หมู่ข้อความและการรู้จำเอนทิตีที่มีชื่อ (NER) มีโมเดล เครือข่ายประสาททางสถิติที่สร้างไว้ล่วงหน้าเพื่อดำเนินการเหล่านี้สำหรับ 23 ภาษา รวมถึงภาษาอังกฤษ โปรตุเกส สเปน รัสเซีย และจีน และยังมีโมเดล NER หลายภาษาอีก ด้วย การสนับสนุนเพิ่มเติมสำหรับการแบ่งคำสำหรับมากกว่า 65 ภาษาช่วยให้ผู้ใช้สามารถฝึกฝนโมเดลที่กำหนดเองบนชุดข้อมูลของตนเองได้เช่นกัน^{[ 9 ]}

ประวัติศาสตร์

เวอร์ชัน 1.0 เปิดตัวเมื่อวันที่ 19 ตุลาคม 2559 และรวมถึงการสนับสนุนเบื้องต้นสำหรับเวิร์กโฟลว์การเรียนรู้เชิงลึกโดยการสนับสนุนไปป์ไลน์การประมวลผลแบบกำหนดเอง^{[ 10 ]}นอกจากนี้ยังรวมถึงตัวจับคู่กฎที่รองรับ คำอธิบายประกอบ เอนทิตีและ API การฝึกอบรมที่มีเอกสารอย่างเป็นทางการ
เวอร์ชัน 2.0 เปิดตัวเมื่อวันที่ 7 พฤศจิกายน 2017 และแนะนำโมเดลเครือข่ายประสาทเทียมแบบคอนโวลูชันสำหรับ 7 ภาษาที่แตกต่างกัน^{[ 11 ]} นอกจากนี้ยังรองรับส่วนประกอบไปป์ไลน์การประมวลผลแบบกำหนดเองและคุณลักษณะส่วนขยาย และมี ส่วนประกอบการจำแนกประเภทข้อความที่สามารถฝึกฝนได้ในตัว
เวอร์ชัน 3.0 เปิดตัวเมื่อวันที่ 1 กุมภาพันธ์ 2021 และนำเสนอ ไปป์ไลน์ที่ทันสมัย ซึ่งใช้ Transformer ^{[ 12 ]}นอกจากนี้ยังนำเสนอระบบการกำหนดค่าและเวิร์กโฟลว์การฝึกอบรมใหม่ รวมถึงคำแนะนำประเภทและเทมเพลตโครงการ เวอร์ชันนี้ยกเลิกการสนับสนุนPython 2

คุณสมบัติหลัก

การแปลงข้อมูลเป็นโทเค็นโดยไม่ทำลายข้อมูลเดิม
รองรับ "การแยกคำตามตัวอักษร" มากกว่า 65 ภาษา^{[ 13 ]}
มีระบบรองรับการทำงานกับส่วนประกอบของไปป์ไลน์ที่สามารถฝึกฝนได้ เช่นการระบุชื่อเอนทิตี (Named entity recognition) , การ ระบุส่วนของคำพูด (Part-of-speech tagging) , การวิเคราะห์ความสัมพันธ์ของคำ (Dependency parsing), การจำแนกประเภทข้อความ (Text classification) , การเชื่อมโยงเอนทิตี (Entity Linking)และอื่นๆ
แบบจำลองทางสถิติสำหรับ 19 ภาษา^{[ 14 ]}
การเรียนรู้แบบหลายงานพร้อมกันด้วยโมเดล Transformer ที่ได้รับการฝึกฝนล่วงหน้า เช่นBERT
รองรับโมเดลแบบกำหนดเองใน PyTorch, TensorFlow และเฟรมเวิร์กอื่นๆ
ความเร็วและความแม่นยำที่ทันสมัย^{[ 15 ]}
ระบบฝึกอบรมพร้อมใช้งานจริง
มีตัวแสดงภาพในตัวสำหรับไวยากรณ์และเอนทิตีที่มีชื่อ
การจัดการแพ็กเกจโมเดล การติดตั้งใช้งาน และเวิร์กโฟลว์ที่ง่ายดาย

ส่วนขยายและเครื่องมือแสดงภาพ

ภาพแสดงแผนผังการแยกความสัมพันธ์ที่สร้างขึ้นด้วยโปรแกรมแสดงภาพ displaCy — ภาพแสดงแผนผังการ แยกความสัมพันธ์ที่สร้างขึ้นด้วยโปรแกรมแสดงภาพ displaCy

spaCy มาพร้อมกับส่วนเสริมและเครื่องมือแสดงภาพข้อมูลหลายอย่างที่สามารถใช้งานได้ฟรีในรูปแบบไลบรารีโอเพนซอร์ส :

Thinc: ไลบรารีแมชชีน เลิร์นนิงที่ปรับให้เหมาะสมกับ การใช้งาน CPUและการเรียนรู้เชิงลึกด้วยการป้อนข้อความ
sense2vec: ไลบรารีสำหรับการคำนวณความคล้ายคลึงของคำ โดยอิง^จาก Word2vec [ ¹⁶^]
displaCy: เครื่องมือแสดงภาพแผนผังการแยกส่วนความสัมพันธ์ของข้อมูลแบบโอเพนซอร์สสร้างขึ้นด้วยJavaScript , CSSและSVG
displaCy ^ENT : เครื่องมือแสดงภาพ ข้อมูลชื่อ เฉพาะแบบโอเพนซอร์ส สร้างด้วยJavaScriptและCSS

ดูเพิ่มเติม

ลิงก์ภายนอก

เว็บไซต์อย่างเป็นทางการ
การใช้งานไลบรารี Spacy

[

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

จาก