อ่าน 27 นาที
ดีพซีค
บริษัท Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.
ดีพซีค
ชื่อพื้นเมือง | 杭州深度求索人工智能基础技术研究有限公司 |
|---|---|
| พิมพ์ | ส่วนตัว |
| อุตสาหกรรม | เทคโนโลยีสารสนเทศปัญญาประดิษฐ์ |
| ก่อตั้ง | 17 กรกฎาคม 2566 [ 1 ] |
| ผู้ก่อตั้ง | |
| สำนักงานใหญ่ | หางโจวเจ้อเจียง จีน |
บุคคลสำคัญ |
|
| สินค้า | ดีพซีค |
| เจ้าของ | นักบินชั้นยอด |
จำนวนพนักงาน | 160 (2025) [ 2 ] |
| เว็บไซต์ | deepseek.com |
บริษัท Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd. [ 3 ] [ 4 ] [ 5 ] [ a ] ซึ่งดำเนินธุรกิจในชื่อDeepSeek [ b ] เป็นบริษัทปัญญาประดิษฐ์ (AI) ของจีนที่พัฒนาโมเดลภาษาขนาดใหญ่ (LLM) DeepSeek ตั้งอยู่ในเมืองหางโจวมณฑลเจ้อเจียงและเป็นเจ้าของและได้รับเงินทุนจากHigh-Flyer ซึ่งเป็น กองทุนเฮดจ์ฟันด์ของจีนDeepSeek ก่อตั้งขึ้นในเดือนกรกฎาคม 2023 โดยLiang Wenfengผู้ร่วมก่อตั้ง High-Flyer ซึ่งดำรงตำแหน่งซีอีโอของทั้งสองบริษัท ด้วย [ 7 ] [ 8 ] [ 9 ]บริษัทได้เปิดตัวแชทบอทชื่อเดียวกันพร้อมกับโมเดล DeepSeek-R1 ในเดือนมกราคม 2025
DeepSeek-R1 ให้การตอบสนองที่เทียบเคียงได้กับโมเดลภาษาขนาดใหญ่ร่วมสมัยอื่นๆ เช่นGPT-4และo1ของOpenAI [ 10 ] มีรายงานว่าต้นทุนการฝึกอบรมต่ำกว่า LLM อื่นๆ อย่างมาก บริษัทอ้างว่าฝึกอบรมโมเดล V3 ด้วยเงิน 6 ล้านดอลลาร์สหรัฐ ซึ่งน้อยกว่าต้นทุน 100 ล้านดอลลาร์สหรัฐสำหรับ GPT-4 ของ OpenAI ในปี 2023 มาก[ 11 ] และใช้พลังการประมวลผลเพียงประมาณหนึ่งในสิบของโมเดลที่เทียบเคียงได้ของMeta คือ Llama 3.1 [ 11 ] [ 12 ] [ 13 ] ความสำเร็จของ DeepSeek ในการแข่งขันกับคู่แข่งรายใหญ่และเป็นที่ยอมรับมากกว่านั้นได้รับการอธิบายว่าเป็นการ "พลิกโฉม AI" [ 14 ] [ 15 ]
โมเดลของ DeepSeek ถูกอธิบายว่าเป็น "open-weight" ซึ่งหมายความว่าพารามิเตอร์ที่แน่นอนจะถูกเปิดเผย แต่ข้อมูลการฝึกอบรมไม่ได้อนุญาตให้ใช้งานแบบเปิดเผย[ 16 ] [ 10 ]นับตั้งแต่การเปิดตัว DeepSeek-R1 ในเดือนมกราคม 2025 บริษัทได้เปิดให้ใช้งานโมเดลใหม่ภายใต้ใบอนุญาตซอฟต์แวร์ฟรีและโอเพนซอร์สโดยส่วนใหญ่คือใบอนุญาต MIT [ 17 ]มีรายงานว่าบริษัทรับสมัครนักวิจัย AI จากมหาวิทยาลัยชั้นนำของจีน[ 14 ]และยังจ้างจากนอก สาขา วิทยาการคอมพิวเตอร์ แบบดั้งเดิม เพื่อขยายความรู้และความสามารถของโมเดล[ 12 ]
DeepSeek ลดค่าใช้จ่ายในการฝึกอบรมโมเดล R1 ลงอย่างมากโดยการนำเทคนิคต่างๆ มาใช้ เช่น เลเยอร์ ผสมผู้เชี่ยวชาญ (MoE) [ 18 ]บริษัทยังฝึกอบรมโมเดลของตนในช่วงที่มีข้อจำกัดทางการค้าเกี่ยวกับการส่งออกชิป AI ไปยังประเทศจีน โดยใช้ชิป AI ที่มีประสิทธิภาพต่ำกว่าซึ่งมีไว้สำหรับการส่งออก และใช้จำนวนหน่วยโดยรวมน้อยลง[ 13 ] [ 19 ]ผู้สังเกตการณ์กล่าวว่าความก้าวหน้านี้ส่ง "คลื่นกระแทก" ไปทั่วอุตสาหกรรม ซึ่งถูกอธิบายว่าเป็นการกระตุ้น " ช่วงเวลาสปุตนิก " สำหรับสหรัฐอเมริกาในด้านปัญญาประดิษฐ์ โดยเฉพาะอย่างยิ่งเนื่องจากโมเดล AI แบบโอเพนซอร์ส ราคาประหยัด และมีประสิทธิภาพสูง[ 20 ] [ 21 ] [ 22 ]สิ่งนี้คุกคามผู้นำด้านฮาร์ดแวร์ AI ที่มีอยู่แล้ว เช่นNvidiaราคาหุ้นของ Nvidia ลดลงอย่างรวดเร็ว สูญเสียมูลค่าตลาดไป 600 พันล้านดอลลาร์สหรัฐ ซึ่งเป็นการลดลงของบริษัทเดียวที่ใหญ่ที่สุดในประวัติศาสตร์ตลาดหุ้น สหรัฐ [ 23 ] [ 24 ]
ประวัติศาสตร์
การก่อตั้งและช่วงปีแรกๆ (2016–2023)
ในเดือนกุมภาพันธ์ พ.ศ. 2559 High-Flyer ก่อตั้งขึ้นโดยLiang Wenfeng ผู้ชื่นชอบ AI ซึ่งทำการซื้อขายมาตั้งแต่ช่วงวิกฤตการณ์ทางการเงินปี พ.ศ. 2551ขณะศึกษาอยู่ที่มหาวิทยาลัยเจ้อเจียง [ 25 ] บริษัทเริ่มทำการซื้อขายหุ้นโดยใช้ โมเดลการเรียนรู้เชิงลึกที่ต้องพึ่งพา GPUในวันที่ 21 ตุลาคม พ.ศ. 2559 ก่อนหน้านั้น บริษัทใช้ โมเดลเชิงเส้นที่ใช้ CPUภายในสิ้นปี พ.ศ. 2560 การซื้อขายส่วนใหญ่ของบริษัทขับเคลื่อนด้วย AI [ 26 ]
เหลียงก่อตั้ง High-Flyer ขึ้นเป็นกองทุนเฮดจ์ฟันด์ที่มุ่งเน้นการพัฒนาและใช้อัลกอริธึมการซื้อขาย AI และภายในปี 2021 บริษัทได้ใช้ AI เพียงอย่างเดียว[ 27 ]โดยมักใช้ชิปNvidia [ 28 ]
ในปี 2019 บริษัทได้เริ่มสร้างคลัสเตอร์คอมพิวเตอร์เครื่อง แรก ชื่อ Fire-Flyer ด้วยงบประมาณ 200 ล้านหยวน ซึ่งประกอบด้วย GPU จำนวน 1,100 ตัวที่เชื่อมต่อกันด้วยความเร็ว 200 Gbit/s และถูกปลดระวางหลังจากใช้งานไปได้ 1.5 ปี[ 26 ]
ภายในปี 2021 เหลียงได้เริ่มซื้อ GPU ของ Nvidia จำนวนมากสำหรับโครงการ AI [ 28 ] โดยมีรายงานว่าได้รับ GPU Nvidia A100จำนวน 10,000 เครื่อง[ 29 ]ก่อนที่สหรัฐอเมริกาจะจำกัดการขายชิปให้กับจีน[ 27 ]คลัสเตอร์คอมพิวเตอร์ Fire-Flyer 2 เริ่มก่อสร้างในปี 2021 ด้วยงบประมาณ 1 พันล้านหยวน[ 26 ]
มีรายงานว่าในปี 2022 ความจุของ Fire-Flyer 2 ถูกใช้งานเกิน 96% รวมเป็น 56.74 ล้านชั่วโมง GPU โดย 27% ถูกใช้เพื่อสนับสนุนการคำนวณทางวิทยาศาสตร์ภายนอกบริษัท[ 26 ]
ในช่วงปี 2022 Fire-Flyer 2 มี GPU PCIe A100 จำนวน 5,000 ตัวใน 625 โหนด โดยแต่ละโหนดมี GPU จำนวน 8 ตัว ในขณะนั้น ระบบใช้ PCIe แทน A100 เวอร์ชัน DGXเนื่องจากในขณะนั้นโมเดลที่ฝึกฝนสามารถบรรจุลงในVRAM GPU ขนาด 40 GB ตัวเดียวได้ จึงไม่จำเป็นต้องใช้แบนด์วิดท์ที่สูงกว่าของ DGX (กล่าวคือ ต้องการเพียงการประมวลผลแบบขนานของข้อมูล แต่ไม่ต้องการการประมวลผลแบบขนานของโมเดล) [ 30 ]ต่อมา ระบบได้รวมNVLinksและ NCCL (Nvidia Collective Communications Library) เพื่อฝึกฝนโมเดลขนาดใหญ่ที่ต้องการการประมวลผลแบบขนานของโมเดล[ 31 ] [ 32 ]
เมื่อวันที่ 14 เมษายน 2566 [ 33 ] High-Flyer ประกาศเปิดตัว ห้องปฏิบัติการวิจัย ปัญญาประดิษฐ์ทั่วไป (AGI) โดยระบุว่าห้องปฏิบัติการใหม่นี้จะมุ่งเน้นการพัฒนาเครื่องมือ AI ที่ไม่เกี่ยวข้องกับธุรกิจการเงินของบริษัท[ 34 ] [ 35 ]สองเดือนต่อมา ในวันที่ 17 กรกฎาคม 2566 [ 1 ]ห้องปฏิบัติการดังกล่าวได้แยกตัวออกมาเป็นบริษัทอิสระชื่อ DeepSeek โดยมี High-Flyer เป็นผู้ลงทุนหลักและผู้สนับสนุน[ 27 ] [ 36 ] [ 35 ] นักลงทุน ร่วมทุนลังเลที่จะให้เงินทุน เนื่องจากพวกเขามองว่าไม่น่าเป็นไปได้ที่กิจการร่วมค้าจะสามารถสร้าง " การออกจากตลาด " ได้อย่างรวดเร็ว [ 27 ]
การเผยแพร่ภาพถ่ายนางแบบตั้งแต่ปี 2023
DeepSeek เปิดตัวโมเดลแรก DeepSeek Coder เมื่อวันที่ 2 พฤศจิกายน 2023 ตามด้วยซีรีส์ DeepSeek-LLM เมื่อวันที่ 29 พฤศจิกายน 2023 [ 37 ] : ส่วนที่ 5 ในเดือนมกราคม 2024 ได้เปิดตัวโมเดล DeepSeek-MoE สองรุ่น (Base และ Chat) [ 38 ]และในเดือนเมษายนได้เปิดตัวโมเดล DeepSeek-Math สามรุ่น (Base, Instruct และ RL) [ 39 ]
DeepSeek-V2 เปิดตัวในเดือนพฤษภาคม 2024 ตามมาด้วย DeepSeek-Coder V2 series ในอีกหนึ่งเดือนต่อมา[ 40 ]ในเดือนกันยายน 2024 DeepSeek V2.5 ได้รับการแนะนำและแก้ไขในเดือนธันวาคม[ 41 ]ในวันที่ 20 พฤศจิกายน 2024 เวอร์ชันพรีวิวของ DeepSeek-R1-Lite พร้อมใช้งานผ่านการแชท[ 42 ] [ 43 ]ในเดือนธันวาคม DeepSeek-V3-Base และ DeepSeek-V3 (แชท) ได้รับการเผยแพร่[ 31 ]

เมื่อวันที่ 20 มกราคม 2025 DeepSeek ได้เปิดตัวแชทบอท DeepSeekซึ่งใช้โมเดล DeepSeek-R1 โดยให้บริการฟรีสำหรับiOSและAndroidภายในวันที่ 27 มกราคม DeepSeek แซงหน้าChatGPT ขึ้น เป็นแอปฟรีแวร์ที่มียอดดาวน์โหลดมากที่สุดในApp Store ของ iOSในสหรัฐอเมริกา[ 14 ]ส่งผลให้ราคาหุ้นของ Nvidia ลดลง 18% [ 44 ] [ 45 ]
เมื่อวันที่ 24 มีนาคม พ.ศ. 2568 DeepSeek ได้เผยแพร่ DeepSeek-V3-0324 ภายใต้ใบอนุญาต MIT [ 46 ] [ 47 ]
เมื่อวันที่ 28 พฤษภาคม 2025 DeepSeek ได้เผยแพร่ DeepSeek-R1-0528 ภายใต้ใบอนุญาต MIT [ 48 ]โมเดลนี้ได้รับการกล่าวถึงว่าปฏิบัติตาม อุดมการณ์ และการเซ็นเซอร์ของพรรคคอมมิวนิสต์จีน อย่างเคร่งครัด มากกว่าโมเดลก่อนหน้า[ 49 ]
เมื่อวันที่ 21 สิงหาคม 2025 DeepSeek ได้ปล่อย DeepSeek V3.1 ภายใต้ใบอนุญาต MIT [ 50 ]โมเดลนี้มีสถาปัตยกรรมแบบไฮบริดที่มีโหมดการคิดและการไม่คิด นอกจากนี้ยังเหนือกว่าโมเดลก่อนหน้าอย่าง V3 และ R1 มากกว่า 40% ในเกณฑ์มาตรฐานบางอย่าง เช่น SWE-bench และ Terminal-bench [ 51 ]ได้รับการอัปเดตเป็น V3.1-Terminus เมื่อวันที่ 22 กันยายน 2025 [ 52 ] V3.2-Exp ได้รับการเผยแพร่เมื่อวันที่ 29 กันยายน 2025 โดยใช้ DeepSeek Sparse Attention ซึ่งเป็นกลไกความสนใจ ที่มีประสิทธิภาพมากขึ้น ตามการวิจัยก่อนหน้านี้ที่เผยแพร่ในเดือนกุมภาพันธ์[ 53 ] [ 54 ] DeepSeek-V3.2 ได้รับการเผยแพร่เมื่อวันที่ 1 ธันวาคม 2025 พร้อมกับ DeepSeek-V3.2-Speciale ซึ่งเป็นเวอร์ชันที่เน้นการให้เหตุผล[ 55 ] [ 56 ]
ในเดือนกุมภาพันธ์ พ.ศ. 2569 Anthropicกล่าวหา DeepSeek ว่าใช้บัญชีปลอมหลายพันบัญชีเพื่อสร้างบทสนทนานับล้านครั้งกับClaudeเพื่อฝึกฝนโมเดลภาษาขนาดใหญ่ของตนเอง[ 57 ]
ในเดือนเมษายน พ.ศ. 2569 นักลงทุนเริ่มพูดคุยกับ DeepSeek เพื่อระดมทุน 300 ล้านดอลลาร์สหรัฐ ซึ่งจะทำให้ DeepSeek มีมูลค่ารวม 10 พันล้านดอลลาร์สหรัฐ[ 58 ]
เมื่อวันที่ 24 เมษายน 2569 DeepSeek ได้เผยแพร่ตัวอย่างซีรีส์ V4 ซึ่งรวมถึง DeepSeek-V4-Pro ที่มีพารามิเตอร์ 1.6 ล้านล้านตัว และ DeepSeek-V4-Flash ที่มีพารามิเตอร์ 284 พันล้านตัว โดยทั้งสองรุ่นมีหน้าต่างบริบทโทเค็นขนาด 1 ล้านโทเค็น ภายใต้ใบอนุญาต MIT [ 59 ] [ 60 ] [ 61 ] DeepSeek V4 LLM ได้รับการนำไปใช้โดยผู้ผลิตเซมิ คอนดักเตอร์รายสำคัญและผู้ผลิตชิปปัญญาประดิษฐ์ เช่นHuaweiและCambricon [ 62 ]
การดำเนินงานของบริษัท
DeepSeek มีสำนักงานใหญ่อยู่ที่เมืองหางโจว มณฑลเจ้อเจียง และเป็นเจ้าของและได้รับเงินทุนจากHigh-Flyerผู้ร่วมก่อตั้งคือLiang Wenfengดำรงตำแหน่งซีอีโอ ณ เดือนพฤษภาคม 2024 Liang ถือหุ้น 84% ใน DeepSeek ผ่านบริษัทเชลล์ สอง แห่ง[หมายเหตุ 1 ] [ 63 ]
กลยุทธ์
DeepSeek ระบุว่ามุ่งเน้นการวิจัยและไม่มีแผนการเชิงพาณิชย์ในทันที[ 64 ]ท่าทีนี้ยังหมายความว่าสามารถหลีกเลี่ยงข้อกำหนดบางประการของกฎระเบียบ AI ของจีนที่มุ่งเป้าไปที่เทคโนโลยีที่ผู้บริโภคใช้งานได้[ 12 ]
แนวทางการจ้างงานของ DeepSeek เน้นทักษะมากกว่าประสบการณ์การทำงานที่ยาวนาน ส่งผลให้มีการว่าจ้างผู้ที่เพิ่งจบจากมหาวิทยาลัยจำนวนมาก[ 35 ] [ 12 ]บริษัทยังรับสมัครบุคคลที่ไม่มีพื้นฐานด้านวิทยาศาสตร์คอมพิวเตอร์เพื่อขยายขอบเขตความเชี่ยวชาญที่รวมอยู่ในแบบจำลอง เช่น บทกวีหรือคณิตศาสตร์ขั้นสูง[ 14 ] [ 12 ]ตาม รายงานของ The New York Timesนักวิจัยของ DeepSeek หลายสิบคนมีความเกี่ยวข้องกับ ห้องปฏิบัติการ ของกองทัพปลดปล่อยประชาชนจีนและกลุ่มSeven Sons of National Defence [ 65 ]
เนื่องจากผลกระทบจากข้อจำกัดของสหรัฐอเมริกาเกี่ยวกับชิป DeepSeek จึงปรับปรุงอัลกอริธึมเพื่อเพิ่มประสิทธิภาพการคำนวณให้สูงสุด และใช้ประโยชน์จากฮาร์ดแวร์รุ่นเก่าและลดการใช้พลังงาน[ 66 ] : 19
DeepSeek ยังขยายธุรกิจในทวีปแอฟริกาด้วย เนื่องจากนำเสนอโซลูชัน AI ที่ราคาไม่แพงและใช้พลังงานน้อยกว่า บริษัทได้เสริมสร้างโมเดลภาษาแอฟริกันและสร้างสตาร์ทอัพจำนวนมาก เช่น ในไนโรบีเมื่อรวมกับ บริการจัดเก็บข้อมูลและคลาวด์คอมพิวติ้งของ Huaweiผลกระทบต่อวงการเทคโนโลยีในแอฟริกาใต้ทะเลทรายซาฮาราจึงมีมาก DeepSeek นำเสนออธิปไตยทางข้อมูลในท้องถิ่นและความยืดหยุ่นที่มากกว่าเมื่อเทียบกับแพลตฟอร์ม AI ของตะวันตก[ 67 ]
กรอบการฝึกอบรม
High-Flyer/DeepSeek ได้ดำเนินการคลัสเตอร์คอมพิวเตอร์หลักอย่างน้อยสองคลัสเตอร์ ได้แก่ Fire-Flyer (萤火一号) และ Fire-Flyer 2 (萤火二号) Fire-Flyer 1 ถูกสร้างขึ้นในปี 2019 และถูกปลดระวางหลังจากใช้งานไปได้ 1.5 ปี ส่วน Fire-Flyer 2 ยังคงใช้งานอยู่จนถึงปี 2025 Fire-Flyer 2 ประกอบด้วยสถาปัตยกรรมซอฟต์แวร์และฮาร์ดแวร์ที่ออกแบบร่วมกัน ในส่วนของฮาร์ดแวร์นั้น GPU ของ Nvidia ใช้การเชื่อมต่อ 200 Gbpsคลัสเตอร์ถูกแบ่งออกเป็นสอง "โซน" และแพลตฟอร์มรองรับงานข้ามโซน โครงสร้างเครือข่ายเป็นแบบfat tree สองต้น ซึ่งเลือกใช้สำหรับ แบนด์วิดท์การแบ่งครึ่งที่สูงในส่วนของซอฟต์แวร์มีดังนี้: [ 32 ] [ 26 ]
3FS(ระบบไฟล์ Fire-Flyer): ระบบไฟล์แบบขนานแบบกระจายออกแบบมาโดยเฉพาะสำหรับการอ่านแบบสุ่มแบบอะซิงโครนัส โดยใช้ Direct I/O และRDMA Readซึ่งแตกต่างจาก Buffered I/O มาตรฐานตรงที่ Direct I/O ไม่เก็บข้อมูลแคช การเก็บข้อมูลแคชไม่มีประโยชน์ในกรณีนี้ เนื่องจากข้อมูลแต่ละส่วนที่อ่านได้เป็นแบบสุ่มและไม่นำกลับมาใช้ใหม่[ 68 ] [ 69 ]hfreduce: ไลบรารีสำหรับการสื่อสารแบบอะซิงโครนัส ซึ่งเดิมออกแบบมาเพื่อทดแทนNvidia Collective Communication Library (NCCL) [ 30 ]ส่วนใหญ่ใช้สำหรับallreduceโดยเฉพาะเกรเดียนต์ระหว่างbackpropagationโดยจะทำงานแบบอะซิงโครนัสบน CPU เพื่อหลีกเลี่ยงการบล็อกเคอร์เนลบน GPU [ 32 ]ใช้การกระจายแบบสองต้นไม้เหมือน NCCL [ 30 ]hfai.nn: ไลบรารีซอฟต์แวร์ของตัวดำเนินการที่ใช้กันทั่วไปสำหรับการฝึกโครงข่ายประสาทเทียม คล้ายกับtorch.nnในPyTorchHaiScale Distributed Data Parallel(DDP): ไลบรารีการฝึกอบรมแบบขนานที่ใช้การประมวลผลแบบขนานหลายรูปแบบ เช่น การประมวลผลแบบขนานข้อมูล ( Data Parallelism : DP), การประมวลผลแบบขนานไปป์ไลน์ ( Pipeline Parallelism : PP), การประมวลผลแบบขนานเทนเซอร์ (Tensor Parallelism: TP), การประมวลผลแบบขนานผู้เชี่ยวชาญ (Experts Parallelism: EP), การประมวลผลแบบขนานข้อมูลแบบแบ่งส่วนอย่างสมบูรณ์ (Fully Sharded Data Parallel: FSDP) และตัวเพิ่มประสิทธิภาพแบบไม่มีส่วนเกิน (Zero Redundancy Optimizer: Zero RO) คล้ายกับ PyTorch DDP ที่ใช้ NCCL ในส่วนแบ็กเอนด์HAI Platform: การใช้งานต่างๆ เช่น การจัดตารางงาน การจัดการข้อผิดพลาด และการกู้คืนจากภัยพิบัติ[ 70 ]
ณ ปี 2022 Fire-Flyer 2 มี GPU PCIe A100 จำนวน 5,000 ตัวใน 625 โหนด โดยแต่ละโหนดมี GPU จำนวน 8 ตัว[ 30 ]ต่อมาได้มีการรวม NVLinks และ NCCL เพื่อฝึกโมเดลขนาดใหญ่ที่ต้องการการประมวลผลแบบขนานของโมเดล[ 31 ] [ 32 ]
ประวัติการพัฒนาและการวางจำหน่าย
| เวอร์ชันหลัก | วันที่วางจำหน่าย | สถานะ | รูปแบบหลัก | ใบอนุญาต | หมายเหตุ |
|---|---|---|---|---|---|
| ดีพซีค-โคเดอร์ | 2 พฤศจิกายน 2023 | เลิกผลิตแล้ว | ฐาน (ฝึกฝนล่วงหน้า) คำสั่ง (ปรับแต่งคำสั่งอย่างละเอียด) | มีแหล่งข้อมูลให้ดู (DeepSeek) | สถาปัตยกรรมโดยพื้นฐานแล้วเหมือนกับลามะ[ 71 ] |
| ดีพซีค-แอลแอลเอ็ม | 29 พฤศจิกายน 2023 | เลิกผลิตแล้ว | แชท พื้นฐาน(พร้อม SFT) | สถาปัตยกรรมโดยพื้นฐานแล้วเหมือนกับลามะ[ 72 ] | |
| ดีพซีค-โมอี | 9 มกราคม 2567 | เลิกผลิตแล้ว | แชท ฐาน | พัฒนารูปแบบผสมของผู้เชี่ยวชาญ (MoE) [ 73 ] | |
| ดีพซีค-แมธ | เมษายน 2567 | เลิกผลิตแล้ว | ฐาน | เริ่มต้นด้วย DS-Coder-Base-v1.5 [ 74 ] | |
| สอน (ด้วย SFT) | [ 75 ] | ||||
| RL (โดยใช้โมเดลการให้รางวัลตามกระบวนการ) | พัฒนาGroup Relative Policy Optimization (GRPO) ซึ่งเป็นรูปแบบหนึ่งของProximal Policy Optimization (PPO) [ 76 ] | ||||
| ดีพซีค-วี2 | พฤษภาคม 2567 | เลิกผลิตแล้ว | DeepSeek-V2, DeepSeek-V2-แชทDeepSeek-V2-Lite, DeepSeek-V2-Lite-แชทDeepSeek-Coder-V2 DeepSeek-V2.5 | พัฒนากลไกความสนใจแฝงแบบหลายหัว (MLA) นอกจากนี้ยังใช้การผสมผสานของผู้เชี่ยวชาญ (MoE) และนำการแคช KV มาใช้[ 77 ] | |
| ดีพซีค-วี3 | ธันวาคม 2024 | คล่องแคล่ว | DeepSeek-V3-Base DeepSeek-V3 (โมเดลแชท) | โครงสร้างสถาปัตยกรรมโดยพื้นฐานแล้วเหมือนกับ V2 อัปเดตเมื่อ 2025-03-24 [ 78 ] | |
| DeepSeek-Prover-V2 | 1 พฤษภาคม 2568 | คล่องแคล่ว | DeepSeek-Prover-V2-671B DeepSeek-Prover-V2-7B | [ 79 ] | |
| ดีพซีค-วีแอล2 | 13 ธันวาคม 2024 | คล่องแคล่ว | [ 80 ] | ||
| ดีพซีค-อาร์1 | 20 พฤศจิกายน 2024 | คล่องแคล่ว | DeepSeek-R1-Lite-Preview | กรรมสิทธิ์ | เวอร์ชันทดลองใช้งาน เข้าถึงได้ผ่าน API และอินเทอร์เฟซแชทเท่านั้น |
| 20 มกราคม 2025 | คล่องแคล่ว | DeepSeek-R1 DeepSeek-R1-Zero DeepSeek-R1-0528 | เอ็มไอที | เริ่มต้นจาก DeepSeek-V3-Base และใช้สถาปัตยกรรม V3 ร่วมกัน[ 81 ] | |
| แบบจำลองกลั่น | เริ่มต้นจากโมเดลอื่นๆ เช่น Llama, Qwen เป็นต้น กลั่นกรองจากข้อมูลที่สังเคราะห์โดย R1 และ R1-Zero [ 82 ] [ 83 ] | ||||
| 28 พฤษภาคม 2568 | คล่องแคล่ว | ดีพซีค-อาร์1-0528 | |||
| ดีพซีค-V3.1 | 21 สิงหาคม 2568 | คล่องแคล่ว | DeepSeek-V3.1-Base DeepSeek-V3.1 (โมเดลแชท) | สถาปัตยกรรมไฮบริด (มีโหมดการคิดและการไม่คิด) ฝึกฝนด้วยโทเค็นเพิ่มเติมมากกว่า 800 พันล้านรายการบน V3 [ 84 ] | |
| 22 กันยายน 2025 | คล่องแคล่ว | ดีพซีค-V3.1-เทอร์มินัส | ลดจำนวนข้อความผสมภาษาจีน-อังกฤษและอักขระผิดปกติเป็นครั้งคราวบน V3.1 [ 85 ] | ||
| ดีพซีค-แมธ-วี2 | 27 พฤศจิกายน 2025 | คล่องแคล่ว | อะปาเช่ 2.0 | [ 86 ] | |
| ดีพซีค-V3.2 | 1 ธันวาคม พ.ศ. 2568 | คล่องแคล่ว | DeepSeek-V3.2 DeepSeek-V3.2-พิเศษ | เอ็มไอที | [ 55 ] [ 56 ] [ 87 ] |
| ดีพซีค-วี4 | 24 เมษายน 2569 | คล่องแคล่ว | วี4-โปร, วี4-แฟลช | การเผยแพร่ตัวอย่าง[ 59 ] [ 60 ] [ 61 ] |
โมเดล DeepSeek รุ่นแรกนั้นโดยพื้นฐานแล้วเหมือนกับ Llama [ 37 ]ซึ่งเป็นทรานส์ฟอร์เมอร์ แบบถอดรหัสหนาแน่นเท่านั้น โมเดลรุ่นต่อมาได้รวมเอาความสนใจแฝงแบบหลายหัว (MLA) การผสมผสานของผู้เชี่ยวชาญ (MoE) และการแคช KV เข้าไว้ด้วย[ 38 ] [ 40 ]
ทรานส์ฟอร์เมอร์แบบดีโคเดอร์อย่างเดียวประกอบด้วยเลเยอร์ดีโคเดอร์ที่เหมือนกันหลายชั้น แต่ละเลเยอร์เหล่านี้มีส่วนประกอบหลักสองส่วน ได้แก่ เลเยอร์ความสนใจและ เลเยอร์ เครือข่ายฟีดฟอร์เวิร์ด (FFN) [ 40 ] V2 แทนที่ กลไกความสนใจแบบหลายหัวมาตรฐาน(MHA) ด้วยความสนใจแฝงแบบหลายหัว (MLA) ซึ่งแนะนำเวกเตอร์แฝงที่บีบอัดเพื่อลดขนาดแคช KV (คีย์-ค่า)และลดการใช้หน่วยความจำ[ 40 ]
โดยทั่วไปแล้ว MoE Transformer มาตรฐานจะใช้ เลเยอร์ MoE ที่มีเกตแบบเบาบางในเลเยอร์ FFN ในเลเยอร์ MoE ดังกล่าว จะมีโมดูล FFN หลายโมดูลแบบขนาน ("ผู้เชี่ยวชาญที่ถูกกำหนดเส้นทาง") และตัวจำแนกขนาดเล็ก ("เกต") เพื่อคำนวณคะแนนสำหรับโมดูลทั้งหมดเหล่านี้ในแต่ละโทเค็น เฉพาะโมดูลที่มีคะแนนสูงสุดเท่านั้นที่จะถูกเปิดใช้งาน เริ่มต้นด้วย DeepSeekMoE DeepSeek ได้นำรูปแบบที่เพิ่ม "ผู้เชี่ยวชาญร่วม" มาใช้ ซึ่งจะถูกเปิดใช้งานเสมอ[ 38 ]
ภาพรวมของรุ่นต่างๆ และข้อมูลจำเพาะทางเทคนิค
โมเดลของ DeepSeek เป็น "น้ำหนักแบบเปิด" ซึ่งให้ความอิสระในการแก้ไขน้อยกว่าซอฟต์แวร์โอเพนซอร์ส ที่แท้จริง [ 16 ] [ 10 ]
ดีพซีค โค้ดเดอร์
DeepSeek Coder เป็นชุดของโมเดลแปดแบบ สี่แบบได้รับการฝึกฝนล่วงหน้า ( Base) และสี่แบบได้รับการปรับแต่งคำสั่ง ( Instruct) ทั้งหมดมีความยาวบริบท 16K โมเดลนี้เปิดให้ใช้งานซอร์สโค้ดภายใต้ใบอนุญาต DeepSeek ซึ่งรวมถึงข้อจำกัด "การใช้งานปลายทางแบบเปิดและมีความรับผิดชอบ" [ 88 ]
โปรแกรมการฝึกอบรมคือ: [ 89 ] [ 90 ] [ 91 ]
- การฝึกฝนเบื้องต้น: โทเค็น 1.8 ล้านล้าน (87% เป็นซอร์สโค้ด, 10% เป็นภาษาอังกฤษที่เกี่ยวข้องกับโค้ด (GitHub markdown และStack Exchange ) และ 3% เป็นภาษาจีนที่ไม่เกี่ยวข้องกับโค้ด)
- การฝึกฝนล่วงหน้าด้วยบริบทที่ยาว: โทเค็น 200 พันล้านโทเค็น ซึ่งขยายความยาวของบริบทจาก 4,000 เป็น 16,000 โทเค็น ขั้นตอนนี้สร้าง
Baseโมเดล ขึ้นมา - การปรับแต่งแบบ มีผู้กำกับดูแล ( Supervised Finetuning หรือ SFT): ข้อมูลคำสั่งจำนวน 2 พันล้านโทเค็น ซึ่งทำให้ได้
Instructโมเดลขึ้น มา
พวกเขาได้รับการฝึกฝนบน คลัสเตอร์ ของ GPU Nvidia A100 และH800 ที่เชื่อมต่อกันด้วย InfiniBand , NVLink , NVSwitch [ 89 ]
| พารามิเตอร์ | #เลเยอร์ | ขนาด ของแบบจำลอง | ระดับกลาง | # หัว | # Kv-heads |
|---|---|---|---|---|---|
| 1.3 พันล้าน | 24 | 2048 | 5504 | 16 | 16 |
| 5.7 พันล้าน | 32 | 4096 | 11008 | 32 | 1 [หมายเหตุ 2 ] |
| 6.7B | 32 | 4096 | 11008 | 32 | 32 |
| 33บี | 62 | 7168 | 19200 | 56 | 7 [หมายเหตุ 2 ] |
ดีพซีค-แอลแอลเอ็ม
ซีรีส์ DeepSeek-LLM เปิดตัวในเดือนพฤศจิกายน 2023 มีพารามิเตอร์ 7B และ 67B ทั้งในรูปแบบ Base และ Chat เอกสารประกอบของ DeepSeek อ้างว่าได้ผลลัพธ์มาตรฐานที่สูงกว่าLlama 2และ LLM แบบโอเพนซอร์สส่วนใหญ่ในขณะนั้น[ 37 ] : ส่วนที่ 5 รหัสโมเดลอยู่ภายใต้ใบอนุญาต DeepSeek ที่เปิดเผยซอร์สโค้ด[ 93 ]
สถาปัตยกรรมโดยพื้นฐานแล้วเหมือนกับ ซีรี่ส์ Llamaพวกเขาใช้Transformer เฉพาะตัวถอดรหัสpre-norm โดยใช้RMSNormเป็นการทำให้เป็นมาตรฐานSwiGLUในเลเยอร์ฟีดฟอร์เวิร์ดการฝังตำแหน่งแบบหมุน (RoPE) และความสนใจแบบกลุ่มคำถาม (GQA) ทั้งสองมีขนาดคำศัพท์ 102,400 ( BPE ระดับไบต์ ) และความยาวบริบท 4096 พวกเขาฝึกฝนด้วยโทเค็น 2 ล้านล้านโทเค็นของข้อความภาษาอังกฤษและภาษาจีนที่ได้มาจากการลบข้อมูลซ้ำของCommon Crawl [ 37 ]
| พารามิเตอร์ | # เลเยอร์ | ขนาด ของแบบจำลอง | ระดับกลาง | # หัว | # Kv-heads |
|---|---|---|---|---|---|
| 7B | 30 | 4096 | 11008 | 32 | 32 |
| 67บี | 95 | 8192 | 22016 | 64 | 8 [หมายเหตุ 2 ] |
เวอร์ชันแชทของโมเดลพื้นฐานทั้งสองได้รับการเผยแพร่พร้อมกัน โดยได้รับจากการฝึกโมเดลพื้นฐานด้วยการปรับแต่งแบบมีผู้กำกับดูแล (SFT) ตามด้วยการเพิ่มประสิทธิภาพนโยบายโดยตรง (DPO ) [ 37 ]
กระทรวงศึกษาธิการ
โมเดล DeepSeek-MoE (Base และ Chat) แต่ละโมเดลมีพารามิเตอร์ 16 พันล้านตัว (เปิดใช้งาน 2.7 พันล้านตัวต่อโทเค็น ความยาวบริบท 4K) การฝึกอบรมโดยพื้นฐานแล้วเหมือนกับ DeepSeek-LLM 7B และได้รับการฝึกฝนบนส่วนหนึ่งของชุดข้อมูลการฝึกอบรม พวกเขาอ้างว่าประสิทธิภาพเทียบเท่ากับ MoE 16B ในฐานะ 7B ที่ไม่ใช่ MoE เป็นรูปแบบหนึ่งของMoE แบบ sparsely-gated มาตรฐาน โดยมี "ผู้เชี่ยวชาญร่วม" ที่จะถูกสอบถามเสมอ และ "ผู้เชี่ยวชาญที่ถูกกำหนดเส้นทาง" ที่อาจไม่ถูกสอบถาม พวกเขาพบว่าสิ่งนี้ช่วยในการปรับสมดุลผู้เชี่ยวชาญ ใน MoE มาตรฐาน ผู้เชี่ยวชาญบางคนอาจถูกใช้งานมากเกินไป ในขณะที่คนอื่น ๆ แทบจะไม่ถูกใช้งาน ทำให้สิ้นเปลืองพื้นที่ การพยายามปรับสมดุลการใช้งานผู้เชี่ยวชาญทำให้ผู้เชี่ยวชาญทำซ้ำความสามารถเดียวกัน พวกเขาเสนอให้ผู้เชี่ยวชาญร่วมเรียนรู้ความสามารถหลักที่มักใช้ และให้ผู้เชี่ยวชาญที่ถูกกำหนดเส้นทางเรียนรู้ความสามารถรอบข้างที่แทบจะไม่ถูกใช้งาน[ 38 ]
คณิตศาสตร์
DeepSeek-Math ประกอบด้วย 3 โมเดล ได้แก่ Base, Instruct และ RL โดย Math ได้รับการฝึกฝนดังนี้: [ 39 ]
- เริ่มต้นด้วย DeepSeek-Coder Base v1.5 7B ที่ผ่านการฝึกฝนล่วงหน้าแล้ว
- ทำการฝึกฝนเพิ่มเติมด้วยโทเค็น 500 พันล้านโทเค็น (6% จาก DeepSeekMath Corpus, 4% จาก AlgebraicStack, 10% จาก arXiv, 20% จากโค้ด GitHub, 10% จาก Common Crawl) ซึ่งทำให้ได้โมเดลพื้นฐาน (Base)
- ฝึกฝนโมเดลการปฏิบัติตามคำสั่งโดยใช้ SFT Base ด้วยโจทย์คณิตศาสตร์ 776,000 ข้อ พร้อมวิธีแก้ปัญหาทีละขั้นตอนที่ผสานการใช้งานเครื่องมือ ซึ่งได้ผลลัพธ์เป็น Instruct
- การเรียนรู้แบบเสริมแรง (RL): โมเดลรางวัลคือโมเดลรางวัลกระบวนการ (PRM) ที่ฝึกฝนจากฐานตามวิธี Math-Shepherd [ 94 ]จากนั้นใช้โมเดลรางวัลนี้เพื่อฝึก Instruct โดยใช้Group Relative Policy Optimization (GRPO) บนชุดข้อมูลคำถามคณิตศาสตร์ 144,000 ข้อ "ที่เกี่ยวข้องกับGSM8K และ MATH " โมเดลรางวัลได้รับการอัปเดตอย่างต่อเนื่องระหว่างการฝึกอบรมเพื่อหลีกเลี่ยงการแฮ็กรางวัล ส่งผลให้เกิด RL
วี2

ในเดือนพฤษภาคม 2024 DeepSeek ได้เปิดตัวซีรีส์ DeepSeek-V2 ซีรีส์นี้ประกอบด้วย 4 โมเดล ได้แก่ 2 โมเดลพื้นฐาน (DeepSeek-V2, DeepSeek-V2 Lite) และ 2 แชทบอท (Chat) โมเดลขนาดใหญ่สองโมเดลได้รับการฝึกฝนดังนี้: [ 95 ]
- ฝึกฝนโมเดลเบื้องต้นบนชุดข้อมูลโทเค็น 8.1 ล้านล้าน โดยใช้โทเค็นภาษาจีนมากกว่าภาษาอังกฤษ 12%
- ขยายความยาวบริบทจาก 4K เป็น 128K โดยใช้ YaRN [ 96 ]ส่งผลให้ได้ DeepSeek-V2
- SFT มีการใช้งาน 1.2 ล้านครั้งสำหรับด้านความช่วยเหลือ และ 0.3 ล้านครั้งสำหรับด้านความปลอดภัย ซึ่งส่งผลให้เกิด Chat SFT ขึ้นมา แต่ก็ไม่ได้ถูกปล่อยออกมาใช้งานจริง
- การเรียนรู้แบบเสริมแรง (RL) โดยใช้ GRPO ในสองขั้นตอน ขั้นตอนแรกเป็นการฝึกฝนให้แก้ปัญหาทางคณิตศาสตร์และการเขียนโค้ด ขั้นตอนนี้ใช้โมเดลรางวัล 1 โมเดล ซึ่งได้รับการฝึกฝนจากข้อมูลป้อนกลับของคอมไพเลอร์ (สำหรับการเขียนโค้ด) และป้ายกำกับความจริงพื้นฐาน (สำหรับคณิตศาสตร์) ขั้นตอนที่สองเป็นการฝึกฝนให้เป็นประโยชน์ ปลอดภัย และปฏิบัติตามกฎ ขั้นตอนนี้ใช้โมเดลรางวัล 3 โมเดล โมเดลรางวัลด้านความช่วยเหลือและความปลอดภัยได้รับการฝึกฝนจากข้อมูลความชอบของมนุษย์ ส่วนโมเดลรางวัลตามกฎนั้นถูกเขียนโปรแกรมด้วยตนเอง โมเดลรางวัลที่ได้รับการฝึกฝนทั้งหมดได้รับการเริ่มต้นจาก Chat (SFT) ซึ่งส่งผลให้ได้เวอร์ชันที่เผยแพร่ของ Chat
พวกเขาเลือกใช้ RL แบบ 2 ขั้นตอน เนื่องจากพบว่า RL บนข้อมูลการให้เหตุผลมี "ลักษณะเฉพาะ" ที่แตกต่างจาก RL บนข้อมูลทั่วไป ตัวอย่างเช่น RL บนข้อมูลการให้เหตุผลสามารถปรับปรุงได้เมื่อฝึกฝนหลายขั้นตอนมากขึ้น[ 95 ]
โมเดล V2-Lite ทั้งสองมีขนาดเล็กกว่า และได้รับการฝึกฝนในลักษณะเดียวกัน DeepSeek-V2 Lite-Chat ได้รับการฝึกฝนด้วย SFT เท่านั้น ไม่ใช่ RL พวกเขาฝึกฝนเวอร์ชัน Lite เพื่อช่วย "การวิจัยและพัฒนาเพิ่มเติมเกี่ยวกับ MLA และ DeepSeekMoE" [ 95 ]
ในด้านสถาปัตยกรรม โมเดล V2 มีความแตกต่างอย่างมีนัยสำคัญจากซีรี่ส์ DeepSeek LLM โดยมีการเปลี่ยนแปลงกลไกความสนใจมาตรฐานด้วยการประมาณค่าอันดับต่ำที่เรียกว่าความสนใจแฝงหลายหัว (MLA) และใช้ รูปแบบ ผสมของผู้เชี่ยวชาญ (MoE) ที่เผยแพร่ก่อนหน้านี้ [ 38 ]
| ชื่อ | พารามิเตอร์ | พารามิเตอร์ที่ใช้งานอยู่ | # เลเยอร์ | ความยาวของบริบท | # ผู้เชี่ยวชาญที่แบ่งปัน | # ผู้เชี่ยวชาญด้านเส้นทาง |
|---|---|---|---|---|---|---|
| วี2-ไลท์ | 15.7B | 2.4 พันล้าน | 27 | 32K | 2 | 64 |
| วี2 | 236บี | 21บี | 60 | 128K | 2 | 160 |
Financial Timesรายงานว่ามีราคาถูกกว่าคู่แข่ง โดยมีราคา 2 หยวนต่อโทเค็นเอาต์พุตหนึ่งล้านโทเค็น กระดานผู้นำของ Tiger Lab มหาวิทยาลัยวอเตอร์ลูจัดอันดับ DeepSeek-V2 อยู่ในอันดับที่เจ็ดในการจัดอันดับ LLM [ 36 ]
ชุด DeepSeek-Coder V2 ประกอบด้วย V2-Base, V2-Lite-Base, V2-Instruct และ V20-Lite-Instruct การฝึกอบรม: [ 40 ] [หมายเหตุ 3 ]
- โมเดลพื้นฐานได้รับการเริ่มต้นจากจุดตรวจสอบกลางที่สอดคล้องกันหลังจากฝึกฝนล่วงหน้าด้วยโทเค็น 4.2 ล้านโทเค็น (ไม่ใช่เวอร์ชันเมื่อสิ้นสุดการฝึกฝนล่วงหน้า) จากนั้นจึงฝึกฝนล่วงหน้าเพิ่มเติมด้วยโทเค็น 6 ล้านโทเค็น แล้วจึงขยายบริบทให้มีความยาว 128,000 โทเค็น
- DeepSeek-Coder และ DeepSeek-Math ถูกใช้เพื่อสร้างข้อมูลคำสั่งที่เกี่ยวข้องกับโค้ด 20,000 ชุด และข้อมูลคำสั่งที่เกี่ยวข้องกับคณิตศาสตร์ 30,000 ชุด จากนั้นจึงนำมารวมกับชุดข้อมูลคำสั่งขนาด 300 ล้านโทเค็น เพื่อนำไปใช้กับ SFT
- RL ร่วมกับ GRPO รางวัลสำหรับโจทย์คณิตศาสตร์คำนวณโดยการเปรียบเทียบกับป้ายกำกับความจริง ส่วนรางวัลสำหรับโจทย์เขียนโค้ดสร้างขึ้นจากแบบจำลองรางวัลที่ได้รับการฝึกฝนให้ทำนายว่าโปรแกรมจะผ่านการทดสอบหน่วยหรือไม่
DeepSeek-V2.5 ถูกสร้างขึ้นโดยการรวม DeepSeek-V2-Chat และ DeepSeek-Coder-V2-Instruct เข้าด้วยกัน[ 41 ]
วี3

DeepSeek-V3-Base และ DeepSeek-V3 (โมเดลแชท) ใช้สถาปัตยกรรมพื้นฐานเดียวกันกับ V2 โดยเพิ่มการทำนายโทเค็นหลายตัวซึ่ง (เป็นทางเลือก) ถอดรหัสโทเค็นเพิ่มเติมได้เร็วขึ้นแต่มีความแม่นยำน้อยลง กระบวนการฝึกอบรม: [ 31 ]
- การฝึกฝนเบื้องต้นบนโทเค็น 14.8 ล้านโทเค็นจากคลังข้อมูลหลายภาษา ซึ่งส่วนใหญ่เป็นภาษาอังกฤษและภาษาจีน มีสัดส่วนของคณิตศาสตร์และการเขียนโปรแกรมสูงกว่าชุดข้อมูลการฝึกฝนเบื้องต้นของเวอร์ชัน 2
- ขยายความยาวบริบทเป็นสองเท่า จาก 4K เป็น 32K แล้วเป็น 128K โดยใช้ YaRN [ 96 ]ซึ่งทำให้เกิด DeepSeek-V3-Base
- ทำการทดสอบ SFT เป็นเวลา 2 รอบ (epochs) กับตัวอย่างข้อมูล 1.5 ล้านตัวอย่าง ประกอบด้วยข้อมูลที่เกี่ยวข้องกับการคิดวิเคราะห์ (คณิตศาสตร์ การเขียนโปรแกรม ตรรกะ) และข้อมูลที่ไม่เกี่ยวข้องกับการคิดวิเคราะห์ (การเขียนเชิงสร้างสรรค์ การแสดงบทบาทสมมติ การตอบคำถามง่ายๆ) ข้อมูลที่เกี่ยวข้องกับความคิดวิเคราะห์สร้างขึ้นโดย "แบบจำลองผู้เชี่ยวชาญ" ส่วนข้อมูลที่ไม่เกี่ยวข้องกับการคิดวิเคราะห์สร้างขึ้นโดย DeepSeek-V2.5 และตรวจสอบโดยมนุษย์
- โมเดลผู้เชี่ยวชาญได้รับการฝึกฝนโดยเริ่มต้นจากโมเดลพื้นฐานที่ไม่ระบุ จากนั้นใช้ SFT กับทั้งข้อมูล <ปัญหา, คำตอบดั้งเดิม> และข้อมูลสังเคราะห์ <ข้อความแจ้งจากระบบ, ข้อความแจ้ง, ปัญหา, คำตอบของ R1> ที่สร้างขึ้นโดยโมเดล DeepSeek-R1-Lite ภายใน ข้อความแจ้งจากระบบขอให้ R1 ไตร่ตรองและตรวจสอบระหว่างการคิด จากนั้นโมเดลผู้เชี่ยวชาญได้รับการฝึกฝนแบบเสริมแรง (RL) โดยใช้ฟังก์ชันรางวัลที่ไม่เปิดเผย
- แบบจำลองผู้เชี่ยวชาญแต่ละแบบได้รับการฝึกฝนให้สร้างข้อมูลการให้เหตุผลสังเคราะห์ในโดเมนเฉพาะด้านใดด้านหนึ่งเท่านั้น (คณิตศาสตร์ การเขียนโปรแกรม ตรรกศาสตร์)
- มีการใช้แบบจำลองของผู้เชี่ยวชาญแทน R1 เนื่องจากผลลัพธ์จาก R1 นั้น "มีการคิดมากเกินไป การจัดรูปแบบไม่ดี และมีความยาวมากเกินไป"
- แบบจำลองการให้รางวัลที่สร้างขึ้นจากแบบจำลองเริ่มต้นจากจุดตรวจสอบ SFT เวอร์ชัน 3 จากนั้นปรับแต่งเพิ่มเติมโดยใช้ข้อมูลความชอบของมนุษย์ ซึ่งประกอบด้วยรางวัลสุดท้ายและลำดับความคิดที่นำไปสู่รางวัลสุดท้าย แบบจำลองการให้รางวัลนี้สร้างสัญญาณการให้รางวัลสำหรับทั้งคำถามที่มีคำตอบที่เป็นกลางแต่มีรูปแบบอิสระ และคำถามที่ไม่มีคำตอบที่เป็นกลาง (เช่น การเขียนเชิงสร้างสรรค์)
- GRPO ได้ทำการฝึกฝนโมเดล SFT รุ่น V3 โดยใช้ทั้งโมเดลการให้รางวัลและโมเดลการให้รางวัลตามกฎ โดยโมเดลการให้รางวัลตามกฎจะคำนวณจากโจทย์คณิตศาสตร์ที่มีคำตอบสุดท้าย (ใส่ไว้ในกรอบ) และจากโจทย์การเขียนโปรแกรมโดยใช้การทดสอบหน่วย ซึ่งทำให้ได้ DeepSeek-V3 ออกมา
DeepSeek เผยแพร่โมเดล DeepSeek-V3-0324 ซึ่งใช้สถาปัตยกรรมเดียวกับ V3 เมื่อวันที่ 24 มีนาคม 2025 ภายใต้ใบอนุญาต MIT [ 99 ]
| ชื่อ | พารามิเตอร์ | พารามิเตอร์ที่ใช้งานอยู่ | # เลเยอร์ | ความยาวของบริบท | # ผู้เชี่ยวชาญที่แบ่งปัน | # ผู้เชี่ยวชาญด้านเส้นทาง |
|---|---|---|---|---|---|---|
| วี3 | 671บี | 37บี | 61 | 128K | 1 | 256 |

V3[ 31 ] : รูปที่ 6 ทีม DeepSeek ได้ทำการปรับแต่งทางวิศวกรรมระดับต่ำอย่างละเอียดเพื่อเพิ่มประสิทธิภาพ พวกเขาใช้การคำนวณแบบความแม่นยำผสมส่วนใหญ่ของการส่งผ่านไปข้างหน้า (forward pass) ดำเนินการด้วยตัวเลขทศลอย 8 บิต (5E2M: เลขชี้กำลัง 5 บิตและแมนทิสซา 2 บิต ) แทนที่จะเป็น32 บิต มาตรฐาน ซึ่งต้องใช้รูทีน GEMMพิเศษเพื่อสะสมค่าอย่างแม่นยำ พวกเขาใช้ตัวเลขทศลอย 12 บิตแบบกำหนดเอง (E5M6) เฉพาะสำหรับอินพุตไปยังเลเยอร์เชิงเส้นหลังจากโมดูลความสนใจเท่านั้น สถานะของตัวเพิ่มประสิทธิภาพอยู่ในรูปแบบ 16 บิต ( BF16 ) พวกเขาลดความหน่วงในการสื่อสารให้น้อยที่สุดโดยการซ้อนทับการคำนวณและการสื่อสารอย่างกว้างขวาง เช่น การจัดสรรมัลติโปรเซสเซอร์แบบสตรีมมิ่ง 20 ตัวจาก 132 ตัวต่อ H800 สำหรับการสื่อสารระหว่าง GPU เท่านั้น พวกเขาลดการสื่อสารลงโดยการจัดเรียงเครื่องที่ผู้เชี่ยวชาญแต่ละคนใช้งานใหม่ (ทุก 10 นาที) เพื่อหลีกเลี่ยงการสอบถามเครื่องบางเครื่องบ่อยกว่าเครื่องอื่น เพิ่มการสูญเสียสมดุลภาระเสริมลงในฟังก์ชันการสูญเสียการฝึกอบรม และเทคนิคสมดุลภาระอื่นๆ[ 31 ]
หลังจากฝึกอบรมแล้ว ได้มีการใช้งานบนคลัสเตอร์ของ GPU H800 โดย GPU H800 จำนวน 8 ตัวภายในคลัสเตอร์จะเชื่อมต่อกันด้วย NVLink และคลัสเตอร์จะเชื่อมต่อกันด้วย InfiniBand [ 31 ]
| เวที | ต้นทุน (ในหน่วยชั่วโมงการใช้งาน GPU หนึ่งพันชั่วโมง) | ต้นทุน (หนึ่งล้านดอลลาร์สหรัฐ) |
|---|---|---|
| ก่อนการฝึกอบรม | 2,664 | 5.328 |
| การขยายบริบท | 119 | 0.24 |
| การปรับแต่งอย่างละเอียด | 5 | 0.01 |
| ทั้งหมด | 2,788 | 5.576 |
ต้นทุนดังกล่าวได้รับการกล่าวถึง[ 101 ] [ 102 ] [ 103 ]และถูกเรียกว่าทำให้เข้าใจผิด เนื่องจากครอบคลุมเพียงบางส่วนของต้นทุนที่แท้จริง[ 104 ]
ผลการทดสอบมาตรฐานแสดงให้เห็นว่า V3 มีประสิทธิภาพเหนือกว่าLlama 3.1 และQwen 2.5 ในขณะที่มีประสิทธิภาพเทียบเท่ากับGPT-4oและClaude 3.5 Sonnet [ 35 ] [ 105 ] [ 106 ] [ 107 ]
อาร์1

ในเดือนมกราคม พ.ศ. 2568 DeepSeek ได้เผยแพร่โมเดล DeepSeek-R1 ภายใต้ใบอนุญาต MIT [ 108 ]
DeepSeek-R1-Lite-Preview [ 42 ] [ 43 ] [หมายเหตุ 4 ]ได้รับการฝึกฝนเพื่อการอนุมานเชิงตรรกะ การให้เหตุผลทางคณิตศาสตร์ และการแก้ปัญหาแบบเรียลไทม์ DeepSeek อ้างว่ามีประสิทธิภาพเหนือกว่าOpenAI o1ในเกณฑ์มาตรฐาน เช่นAmerican Invitational Mathematics Examination (AIME) และ MATH [ 109 ]อย่างไรก็ตามThe Wall Street Journalรายงานว่าใน 15 ปัญหาจาก AIME ฉบับปี 2024 โมเดล o1 สามารถหาคำตอบได้เร็วกว่า[ 110 ]
DeepSeek-R1 และ DeepSeek-R1-Zero [ 111 ]ได้รับการเริ่มต้นจาก DeepSeek-V3-Base และใช้สถาปัตยกรรมร่วมกัน ในขณะที่โมเดล DeepSeek-R1-Distill ได้รับการเริ่มต้นจากโมเดลน้ำหนักเปิดที่ได้รับการฝึกฝนล่วงหน้าอื่นๆ รวมถึงLLaMAและQwenจากนั้นจึงปรับแต่งอย่างละเอียดบนข้อมูลสังเคราะห์ที่สร้างโดย R1 [ 82 ]
DeepSeek-R1-Zeroบทสนทนาระหว่างผู้ใช้และผู้ช่วย ผู้ใช้ถามคำถาม และผู้ช่วยแก้ปัญหา ผู้ช่วยจะคิดหาเหตุผลในใจก่อน แล้วจึงให้คำตอบแก่ผู้ใช้ เหตุผลและคำตอบจะอยู่ภายในแท็ก <think></think> และ <answer></answer> ตามลำดับ เช่น <think> เหตุผลตรงนี้ </think> <answer> คำตอบตรงนี้ </answer> ผู้ใช้: <prompt> ผู้ช่วย:
DeepSeek-R1-Zero ได้รับการฝึกฝนโดยใช้ GRPO RL เพียงอย่างเดียวโดยไม่มี SFT แตกต่างจากเวอร์ชันก่อนหน้าตรงที่ไม่ได้ใช้รางวัลตามแบบจำลอง ฟังก์ชันรางวัลทั้งหมดเป็นแบบใช้กฎเป็นหลัก โดยส่วนใหญ่มีสองประเภท (ไม่ได้ระบุประเภทอื่น) ได้แก่ รางวัลความแม่นยำและรางวัลรูปแบบ รางวัลความแม่นยำคือการตรวจสอบว่าคำตอบที่อยู่ในกรอบถูกต้องหรือไม่ (สำหรับคณิตศาสตร์) หรือว่าโค้ดผ่านการทดสอบหรือไม่ (สำหรับการเขียนโปรแกรม) รางวัลรูปแบบคือการตรวจสอบว่าแบบจำลองใส่ร่องรอยการคิดไว้ภายในแท็ก <think>...</think> หรือไม่[ 82 ]
R1-Zero มีปัญหาเรื่องความสามารถในการอ่านและการผสมภาษา R1 ได้รับการฝึกฝนเพื่อแก้ไขปัญหาเหล่านี้และปรับปรุงการให้เหตุผลให้ดียิ่งขึ้น: [ 82 ]
- SFT DeepSeek-V3 สร้างขึ้นจากข้อมูล "cold-start" นับพันชุด โดยทั้งหมดอยู่ในรูปแบบมาตรฐาน
|special_token|<reasoning_process>|special_token|<summary>ออกแบบมาเพื่อปรับปรุงความสามารถในการอ่านผลลัพธ์ของโมเดล - ใช้กระบวนการ GRPO RL เดียวกันกับ R1-Zero โดยเพิ่ม "รางวัลความสอดคล้องทางภาษา" เพื่อกระตุ้นให้ตอบสนองด้วยภาษาเดียว ซึ่งได้สร้างแบบจำลองภายในที่ยังไม่ได้เผยแพร่
- สังเคราะห์ข้อมูลการให้เหตุผล 600,000 ชุดจากแบบจำลองภายใน โดยใช้การสุ่มตัวอย่างแบบปฏิเสธ (เช่น หากการให้เหตุผลที่สร้างขึ้นมีคำตอบสุดท้ายที่ผิด จะถูกลบออก) สังเคราะห์ข้อมูลที่ไม่เกี่ยวข้องกับการให้เหตุผล 200,000 ชุด (การเขียน การถามตอบข้อเท็จจริง การคิดด้วยตนเอง การแปล) โดยใช้ DeepSeek-V3
- SFT DeepSeek-V3-Base อ้างอิงจากข้อมูลสังเคราะห์ 800K สำหรับ 2 รอบการฝึก (epochs)
- ใช้กระบวนการ GRPO RL เดียวกันกับ R1-Zero โดยใช้รางวัลตามกฎ (สำหรับงานด้านการให้เหตุผล) และรางวัลตามแบบจำลอง (สำหรับงานที่ไม่เกี่ยวข้องกับการให้เหตุผล ความช่วยเหลือ และความไม่เป็นอันตราย) ซึ่งได้ผลลัพธ์เป็น DeepSeek-R1
โมเดลที่กลั่นแล้วได้รับการฝึกฝนโดย SFT บนข้อมูล 800K ที่สังเคราะห์จาก DeepSeek-R1 ในลักษณะเดียวกับขั้นตอนที่ 3 โดยไม่ได้ฝึกฝนด้วย RL [ 82 ]
มีรายงานว่า R2 ซึ่งเป็นรุ่นต่อจาก R1 ที่วางแผนไว้ เดิมทีวางแผนจะวางจำหน่ายในช่วงต้นเดือนพฤษภาคม 2025 [ 112 ]อย่างไรก็ตาม ในวันที่ 28 พฤษภาคม 2025 R1 กลับได้รับการอัปเดตเป็นเวอร์ชัน R1-0528 แทน[ 113 ]ณ ต้นเดือนกรกฎาคม R2 ยังไม่ได้รับการวางจำหน่าย เนื่องจากเหลียง เหวินเฟิงยังไม่พอใจกับประสิทธิภาพของมัน ผู้ให้บริการคลาวด์ของจีนส่วนใหญ่ที่ใช้ R1 ใช้Nvidia H20 [ 114 ] ณเดือนสิงหาคม R2 ยังไม่ได้รับการวางจำหน่าย แหล่งข่าวอ้างถึงปัญหาการติดป้ายข้อมูลที่ช้าและปัญหาชิป โดยเฉพาะอย่างยิ่ง DeepSeek ได้รับการสนับสนุนจากหน่วยงานให้ใช้ชิป Ascend ของ Huawei สำหรับการฝึกอบรม แต่ชิปดังกล่าวมีปัญหาด้านเสถียรภาพ การเชื่อมต่อระหว่างชิปที่ช้าลง และซอฟต์แวร์ที่ด้อยกว่า ดังนั้นจึงเลือกใช้ชิป Nvidia สำหรับการฝึกอบรมและชิป Huawei สำหรับการอนุมาน[ 115 ]นอกจากนี้ยังมีรายงานว่าสำนักงานบริหารไซเบอร์สเปซแห่งประเทศจีนได้ขอให้บริษัทขนาดใหญ่หลายแห่งหยุดซื้อ Nvidia H20 และซื้อจากซัพพลายเออร์ในประเทศแทน[ 116 ]
เมื่อมีการเปิดตัว R1 ในเดือนมกราคม 2025 ทีม DeepSeek ได้เผยแพร่เอกสารฉบับร่างบน arXiv [ 82 ]ต่อมาได้มีการเผยแพร่เวอร์ชันที่อัปเดตแล้วในNatureในเดือนกันยายน 2025 [ 117 ]
วี4

ในเดือนเมษายน 2026 DeepSeek ได้ปล่อยตัวอย่างโมเดลซีรีส์ V4 รุ่นใหม่
โมเดล DeepSeek V4 ได้ปรับปรุงสถาปัตยกรรม V3/R1 รุ่นก่อนหน้าในลักษณะต่อไปนี้[ 118 ] :
- โมเดลนี้ใช้สถาปัตยกรรม Manifold-constrained Hyper Connections (mHC) ซึ่งอ้างว่า "ช่วยเพิ่มประสิทธิภาพการเชื่อมต่อแบบตกค้างแบบดั้งเดิม"
- พวกเขาได้นำเสนอ Constrained Sparse Attention (CSA) และ Heavily Compressed Attention (HCA) ซึ่งเป็นการปรับเปลี่ยนกลไก Attention ที่ใช้ในโมเดล Transformer โดยอิงจากสถาปัตยกรรม DeepSeek Sparse Attention รุ่นก่อนหน้าที่พวกเขาได้นำเสนอในเวอร์ชัน 3.2
- ตัวปรับแต่ง Muon ถูกนำมาใช้สำหรับเลเยอร์ส่วนใหญ่เพื่อ "การบรรจบกันที่เร็วขึ้นและความเสถียรในการฝึกอบรมที่ดีขึ้น"
พวกเขาได้วางจำหน่ายรุ่นสองขนาด คือ V4-Flash และ V4-Pro โดยแต่ละรุ่นสามารถใช้งานได้ในโหมดไม่ใช้เหตุผล โหมดใช้เหตุผล และโหมดใช้เหตุผลขั้นสูง "Max"
| พารามิเตอร์ | ดีพซีค-วี4-แฟลช | ดีพซีค-วี4-โปร |
|---|---|---|
| พารามิเตอร์ทั้งหมด | 284บี | 1.6 ตัน |
| พารามิเตอร์ที่ใช้งานอยู่ | 13บี | 49บี |
| จำนวนชั้น | 43 | 61 |
| ขนาดมิติที่ซ่อนอยู่ | 4096 | 7168 |
| ผู้เชี่ยวชาญด้าน MoE ที่ได้รับการฝึกฝนมาเป็นอย่างดี | 256 | 384 |
ความสำคัญ
ความสำเร็จของ DeepSeek ในการแข่งขันกับคู่แข่งรายใหญ่และมีชื่อเสียงมากกว่านั้น ถือเป็นเรื่องน่าประหลาดใจสำหรับทั้งอุตสาหกรรมและตลาด[ 14 ] [ 119 ]และนักลงทุนและผู้เชี่ยวชาญต่างเปรียบเทียบกับ " ช่วงเวลาสปุตนิก " [ 14 ] [ 120 ] [ 121 ] [ 22 ] [ 21 ] [ 20 ]
โมเดล DeepSeek-R1 ให้การตอบสนองที่เทียบเคียงได้กับ โมเดลภาษาขนาดใหญ่ร่วมสมัยอื่นๆ เช่นGPT-4oและo1ของOpenAI [ 10 ] มีรายงานว่าต้นทุนการฝึกอบรมต่ำ กว่า LLM อื่นๆ อย่างมีนัยสำคัญ [ 122 ] [ 123 ]
บริษัทอ้างว่าได้ฝึกฝน V3 ซึ่งเป็นรุ่นก่อนหน้าของ R1 ด้วยงบประมาณ 6 ล้านดอลลาร์สหรัฐ เมื่อเทียบกับ 100 ล้านดอลลาร์สหรัฐสำหรับGPT-4 ของ OpenAI ในปี 2023 [ 11 ]และใช้พลังการประมวลผลประมาณหนึ่งในสิบของโมเดลที่เทียบเคียงได้ของMeta คือ LLaMA 3.1 [ 11 ] [ 12 ] [ 13 ]
หลังจากการเปิดตัวโมเดล R1 ในเดือนมกราคม 2025 ซึ่งมีต้นทุนต่ำกว่าโมเดลคู่แข่งอย่างมาก นักลงทุนบางรายคาดการณ์ว่าจะเกิดสงครามราคาในอุตสาหกรรม AI ของอเมริกา[ 124 ]มันถูกขนานนามว่า " Pinduoduoแห่ง AI" และยักษ์ใหญ่ด้านเทคโนโลยีของจีนรายอื่น ๆ เช่นByteDance , Tencent , BaiduและAlibabaลดราคาโมเดล AI ของตนลง แม้จะมีราคาต่ำ แต่ก็ยังทำกำไรได้เมื่อเทียบกับคู่แข่งที่ขาดทุน[ 64 ]
ดูเพิ่มเติม
- อุตสาหกรรมปัญญาประดิษฐ์ในประเทศจีน
- รายชื่อโมเดลภาษาขนาดใหญ่
- รายชื่อซอฟต์แวร์ปัญญาประดิษฐ์แบบโอเพนซอร์ส
- แบบจำลองการให้เหตุผล
- เสือ AI หกตัว
- มังกรน้อยหกตัว
- มหาวิทยาลัยเจ้อเจียง
หมายเหตุ
- ^宁波程信柔兆企业管理咨询合伙企业(有限合伙) และ 宁波程恩企业管理咨询合伙企业(有限合伙)
- ^ a b cจำนวนหัวไม่เท่ากับจำนวนหัว KV เนื่องจาก GQA
- ^อย่างไม่น่าเชื่อ โมเดลที่กล่าวถึง
DeepSeek-Coder-V2 Chatในบทความ กลับถูกปล่อยออกมาในชื่อDeepSeek-Coder-V2-InstructHuggingFace - ^ณ เวลานั้น
R1-Lite-Previewจำเป็นต้องเลือก "เปิดใช้งาน Deep Think" และผู้ใช้แต่ละคนสามารถใช้งานได้เพียง 50 ครั้งต่อวัน
ลิงก์ภายนอก
- เว็บไซต์อย่างเป็นทางการ

- DeepSeekบนGitHub
- DeepSeekบนHugging Face
- เอกสาร API อย่างเป็นทางการ
- รวมบทความจาก DeepSeek
- บล็อกวิจัยของ High-Flyer
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ดีพซีค
บริษัท Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.
การก่อตั้งและช่วงปีแรกๆ (2016–2023)
ในเดือนกุมภาพันธ์ พ.ศ. 2559 High-Flyer ก่อตั้งขึ้นโดย Liang Wenfeng ผู้ชื่นชอบ AI ซึ่งทำการซื้อขายมาตั้งแต่ช่วง วิกฤตการณ์ทางการเงินปี พ.ศ.
การเผยแพร่ภาพถ่ายนางแบบตั้งแต่ปี 2023
DeepSeek เปิดตัวโมเดลแรก DeepSeek Coder เมื่อวันที่ 2 พฤศจิกายน 2023 ตามด้วยซีรีส์ DeepSeek-LLM เมื่อวันที่ 29 พฤศจิกายน 2023 [ 37 ] : ส่วนที่ 5 ในเดือนมกราคม 2024 ได้เปิดตัวโมเดล DeepSeek-MoE สองรุ่น (Base และ Chat) [ 38 ] และในเดือนเมษายนได้เปิดตัวโมเดล...
การดำเนินงานของบริษัท
DeepSeek มีสำนักงานใหญ่อยู่ที่เมืองหางโจว มณฑลเจ้อเจียง และเป็นเจ้าของและได้รับเงินทุนจาก High-Flyer ผู้ร่วมก่อตั้งคือ Liang Wenfeng ดำรงตำแหน่งซีอีโอ ณ เดือนพฤษภาคม 2024 Liang ถือหุ้น 84% ใน DeepSeek ผ่าน บริษัทเชลล์ สอง แห่ง [ หมายเหตุ 1 ] [ 63 ]