กลับไปหน้าบทความ

อ่าน 27 นาที

ดีพซีค

บริษัท Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.

ดีพซีค

บริษัท หางโจว ดีพซีค ปัญญาประดิษฐ์ เบสิก เทคโนโลยี รีเสิร์ช จำกัด
ชื่อพื้นเมือง
杭州深度求索人工智能基础技术研究有限公司
พิมพ์ส่วนตัว
อุตสาหกรรมเทคโนโลยีสารสนเทศปัญญาประดิษฐ์
ก่อตั้ง17 กรกฎาคม 2566 [ 1 ] ( 17 กรกฎาคม 2023 )
ผู้ก่อตั้ง
สำนักงานใหญ่หางโจวเจ้เจียง
จีน
บุคคลสำคัญ
  • เหลียง เหวินเฟิง (ซีอีโอ)
สินค้าดีพซีค
เจ้าของนักบินชั้นยอด
จำนวนพนักงาน
160 (2025) [ 2 ]
เว็บไซต์deepseek.com

บริษัท Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd. [ 3 ] [ 4 ] [ 5 ] [ a ] ​​ซึ่งดำเนินธุรกิจในชื่อDeepSeek [ b ] เป็นบริษัทปัญญาประดิษฐ์ (AI) ของจีนที่พัฒนาโมเดลภาษาขนาดใหญ่ (LLM) DeepSeek ตั้งอยู่ในเมืองหางโจวมณฑลเจ้อเจียงและเป็นเจ้าของและได้รับเงินทุนจากHigh-Flyer ซึ่งเป็น กองทุนเฮดจ์ฟันด์ของจีนDeepSeek ก่อตั้งขึ้นในเดือนกรกฎาคม 2023 โดยLiang Wenfengผู้ร่วมก่อตั้ง High-Flyer ซึ่งดำรงตำแหน่งซีอีโอของทั้งสองบริษัท ด้วย [ 7 ] [ 8 ] [ 9 ]บริษัทได้เปิดตัวแชทบอทชื่อเดียวกันพร้อมกับโมเดล DeepSeek-R1 ในเดือนมกราคม 2025

DeepSeek-R1 ให้การตอบสนองที่เทียบเคียงได้กับโมเดลภาษาขนาดใหญ่ร่วมสมัยอื่นๆ เช่นGPT-4และo1ของOpenAI [ 10 ] มีรายงานว่าต้นทุนการฝึกอบรมต่ำกว่า LLM อื่นๆ อย่างมาก บริษัทอ้างว่าฝึกอบรมโมเดล V3 ด้วยเงิน 6 ล้านดอลลาร์สหรัฐ ซึ่งน้อยกว่าต้นทุน 100 ล้านดอลลาร์สหรัฐสำหรับ GPT-4 ของ OpenAI ในปี 2023 มาก[ 11 ] และใช้พลังการประมวลผลเพียงประมาณหนึ่งในสิบของโมเดลที่เทียบเคียงได้ของMeta คือ Llama 3.1 [ 11 ] [ 12 ] [ 13 ] ความสำเร็จของ DeepSeek ในการแข่งขันกับคู่แข่งรายใหญ่และเป็นที่ยอมรับมากกว่านั้นได้รับการอธิบายว่าเป็นการ "พลิกโฉม AI" [ 14 ] [ 15 ]

โมเดลของ DeepSeek ถูกอธิบายว่าเป็น "open-weight" ซึ่งหมายความว่าพารามิเตอร์ที่แน่นอนจะถูกเปิดเผย แต่ข้อมูลการฝึกอบรมไม่ได้อนุญาตให้ใช้งานแบบเปิดเผย[ 16 ] [ 10 ]นับตั้งแต่การเปิดตัว DeepSeek-R1 ในเดือนมกราคม 2025 บริษัทได้เปิดให้ใช้งานโมเดลใหม่ภายใต้ใบอนุญาตซอฟต์แวร์ฟรีและโอเพนซอร์สโดยส่วนใหญ่คือใบอนุญาต MIT [ 17 ]มีรายงานว่าบริษัทรับสมัครนักวิจัย AI จากมหาวิทยาลัยชั้นนำของจีน[ 14 ]และยังจ้างจากนอก สาขา วิทยาการคอมพิวเตอร์ แบบดั้งเดิม เพื่อขยายความรู้และความสามารถของโมเดล[ 12 ]

DeepSeek ลดค่าใช้จ่ายในการฝึกอบรมโมเดล R1 ลงอย่างมากโดยการนำเทคนิคต่างๆ มาใช้ เช่น เลเยอร์ ผสมผู้เชี่ยวชาญ (MoE) [ 18 ]บริษัทยังฝึกอบรมโมเดลของตนในช่วงที่มีข้อจำกัดทางการค้าเกี่ยวกับการส่งออกชิป AI ไปยังประเทศจีน โดยใช้ชิป AI ที่มีประสิทธิภาพต่ำกว่าซึ่งมีไว้สำหรับการส่งออก และใช้จำนวนหน่วยโดยรวมน้อยลง[ 13 ] [ 19 ]ผู้สังเกตการณ์กล่าวว่าความก้าวหน้านี้ส่ง "คลื่นกระแทก" ไปทั่วอุตสาหกรรม ซึ่งถูกอธิบายว่าเป็นการกระตุ้น " ช่วงเวลาสปุตนิก " สำหรับสหรัฐอเมริกาในด้านปัญญาประดิษฐ์ โดยเฉพาะอย่างยิ่งเนื่องจากโมเดล AI แบบโอเพนซอร์ส ราคาประหยัด และมีประสิทธิภาพสูง[ 20 ] [ 21 ] [ 22 ]สิ่งนี้คุกคามผู้นำด้านฮาร์ดแวร์ AI ที่มีอยู่แล้ว เช่นNvidiaราคาหุ้นของ Nvidia ลดลงอย่างรวดเร็ว สูญเสียมูลค่าตลาดไป 600 พันล้านดอลลาร์สหรัฐ ซึ่งเป็นการลดลงของบริษัทเดียวที่ใหญ่ที่สุดในประวัติศาสตร์ตลาดหุ้น สหรัฐ [ 23 ] [ 24 ]

ประวัติศาสตร์

การก่อตั้งและช่วงปีแรกๆ (2016–2023)

ในเดือนกุมภาพันธ์ พ.ศ. 2559 High-Flyer ก่อตั้งขึ้นโดยLiang Wenfeng ผู้ชื่นชอบ AI ซึ่งทำการซื้อขายมาตั้งแต่ช่วงวิกฤตการณ์ทางการเงินปี พ.ศ. 2551ขณะศึกษาอยู่ที่มหาวิทยาลัยเจ้อเจียง [ 25 ] บริษัทเริ่มทำการซื้อขายหุ้นโดยใช้ โมเดลการเรียนรู้เชิงลึกที่ต้องพึ่งพา GPUในวันที่ 21 ตุลาคม พ.ศ. 2559 ก่อนหน้านั้น บริษัทใช้ โมเดลเชิงเส้นที่ใช้ CPUภายในสิ้นปี พ.ศ. 2560 การซื้อขายส่วนใหญ่ของบริษัทขับเคลื่อนด้วย AI [ 26 ]

เหลียงก่อตั้ง High-Flyer ขึ้นเป็นกองทุนเฮดจ์ฟันด์ที่มุ่งเน้นการพัฒนาและใช้อัลกอริธึมการซื้อขาย AI และภายในปี 2021 บริษัทได้ใช้ AI เพียงอย่างเดียว[ 27 ]โดยมักใช้ชิปNvidia [ 28 ]

ในปี 2019 บริษัทได้เริ่มสร้างคลัสเตอร์คอมพิวเตอร์เครื่อง แรก ชื่อ Fire-Flyer ด้วยงบประมาณ 200 ล้านหยวน ซึ่งประกอบด้วย GPU จำนวน 1,100 ตัวที่เชื่อมต่อกันด้วยความเร็ว 200 Gbit/s และถูกปลดระวางหลังจากใช้งานไปได้ 1.5 ปี[ 26 ]

ภายในปี 2021 เหลียงได้เริ่มซื้อ GPU ของ Nvidia จำนวนมากสำหรับโครงการ AI [ 28 ] โดยมีรายงานว่าได้รับ GPU Nvidia A100จำนวน 10,000 เครื่อง[ 29 ]ก่อนที่สหรัฐอเมริกาจะจำกัดการขายชิปให้กับจีน[ 27 ]คลัสเตอร์คอมพิวเตอร์ Fire-Flyer 2 เริ่มก่อสร้างในปี 2021 ด้วยงบประมาณ 1 พันล้านหยวน[ 26 ]

มีรายงานว่าในปี 2022 ความจุของ Fire-Flyer 2 ถูกใช้งานเกิน 96% รวมเป็น 56.74 ล้านชั่วโมง GPU โดย 27% ถูกใช้เพื่อสนับสนุนการคำนวณทางวิทยาศาสตร์ภายนอกบริษัท[ 26 ]

ในช่วงปี 2022 Fire-Flyer 2 มี GPU PCIe A100 จำนวน 5,000 ตัวใน 625 โหนด โดยแต่ละโหนดมี GPU จำนวน 8 ตัว ในขณะนั้น ระบบใช้ PCIe แทน A100 เวอร์ชัน DGXเนื่องจากในขณะนั้นโมเดลที่ฝึกฝนสามารถบรรจุลงในVRAM GPU ขนาด 40 GB ตัวเดียวได้ จึงไม่จำเป็นต้องใช้แบนด์วิดท์ที่สูงกว่าของ DGX (กล่าวคือ ต้องการเพียงการประมวลผลแบบขนานของข้อมูล แต่ไม่ต้องการการประมวลผลแบบขนานของโมเดล) [ 30 ]ต่อมา ระบบได้รวมNVLinksและ NCCL (Nvidia Collective Communications Library) เพื่อฝึกฝนโมเดลขนาดใหญ่ที่ต้องการการประมวลผลแบบขนานของโมเดล[ 31 ] [ 32 ]

เมื่อวันที่ 14 เมษายน 2566 [ 33 ] High-Flyer ประกาศเปิดตัว ห้องปฏิบัติการวิจัย ปัญญาประดิษฐ์ทั่วไป (AGI) โดยระบุว่าห้องปฏิบัติการใหม่นี้จะมุ่งเน้นการพัฒนาเครื่องมือ AI ที่ไม่เกี่ยวข้องกับธุรกิจการเงินของบริษัท[ 34 ] [ 35 ]สองเดือนต่อมา ในวันที่ 17 กรกฎาคม 2566 [ 1 ]ห้องปฏิบัติการดังกล่าวได้แยกตัวออกมาเป็นบริษัทอิสระชื่อ DeepSeek โดยมี High-Flyer เป็นผู้ลงทุนหลักและผู้สนับสนุน[ 27 ] [ 36 ] [ 35 ] นักลงทุน ร่วมทุนลังเลที่จะให้เงินทุน เนื่องจากพวกเขามองว่าไม่น่าเป็นไปได้ที่กิจการร่วมค้าจะสามารถสร้าง " การออกจากตลาด " ได้อย่างรวดเร็ว [ 27 ]

การเผยแพร่ภาพถ่ายนางแบบตั้งแต่ปี 2023

DeepSeek เปิดตัวโมเดลแรก DeepSeek Coder เมื่อวันที่ 2 พฤศจิกายน 2023 ตามด้วยซีรีส์ DeepSeek-LLM เมื่อวันที่ 29 พฤศจิกายน 2023 [ 37 ] : ส่วนที่ 5 ในเดือนมกราคม 2024 ได้เปิดตัวโมเดล DeepSeek-MoE สองรุ่น (Base และ Chat) [ 38 ]และในเดือนเมษายนได้เปิดตัวโมเดล DeepSeek-Math สามรุ่น (Base, Instruct และ RL) [ 39 ]

DeepSeek-V2 เปิดตัวในเดือนพฤษภาคม 2024 ตามมาด้วย DeepSeek-Coder V2 series ในอีกหนึ่งเดือนต่อมา[ 40 ]ในเดือนกันยายน 2024 DeepSeek V2.5 ได้รับการแนะนำและแก้ไขในเดือนธันวาคม[ 41 ]ในวันที่ 20 พฤศจิกายน 2024 เวอร์ชันพรีวิวของ DeepSeek-R1-Lite พร้อมใช้งานผ่านการแชท[ 42 ] [ 43 ]ในเดือนธันวาคม DeepSeek-V3-Base และ DeepSeek-V3 (แชท) ได้รับการเผยแพร่[ 31 ]

หน้าล็อกอินของ DeepSeek หลังจากถูกโจมตีทางไซเบอร์ในช่วงเปิดตัวเมื่อวันที่ 21 มกราคม 2025

เมื่อวันที่ 20 มกราคม 2025 DeepSeek ได้เปิดตัวแชทบอท DeepSeekซึ่งใช้โมเดล DeepSeek-R1 โดยให้บริการฟรีสำหรับiOSและAndroidภายในวันที่ 27 มกราคม DeepSeek แซงหน้าChatGPT ขึ้น เป็นแอปฟรีแวร์ที่มียอดดาวน์โหลดมากที่สุดในApp Store ของ iOSในสหรัฐอเมริกา[ 14 ]ส่งผลให้ราคาหุ้นของ Nvidia ลดลง 18% [ 44 ] [ 45 ]

เมื่อวันที่ 24 มีนาคม พ.ศ. 2568 DeepSeek ได้เผยแพร่ DeepSeek-V3-0324 ภายใต้ใบอนุญาต MIT [ 46 ] [ 47 ]

เมื่อวันที่ 28 พฤษภาคม 2025 DeepSeek ได้เผยแพร่ DeepSeek-R1-0528 ภายใต้ใบอนุญาต MIT [ 48 ]โมเดลนี้ได้รับการกล่าวถึงว่าปฏิบัติตาม อุดมการณ์ และการเซ็นเซอร์ของพรรคคอมมิวนิสต์จีน อย่างเคร่งครัด มากกว่าโมเดลก่อนหน้า[ 49 ]

เมื่อวันที่ 21 สิงหาคม 2025 DeepSeek ได้ปล่อย DeepSeek V3.1 ภายใต้ใบอนุญาต MIT [ 50 ]โมเดลนี้มีสถาปัตยกรรมแบบไฮบริดที่มีโหมดการคิดและการไม่คิด นอกจากนี้ยังเหนือกว่าโมเดลก่อนหน้าอย่าง V3 และ R1 มากกว่า 40% ในเกณฑ์มาตรฐานบางอย่าง เช่น SWE-bench และ Terminal-bench [ 51 ]ได้รับการอัปเดตเป็น V3.1-Terminus เมื่อวันที่ 22 กันยายน 2025 [ 52 ] V3.2-Exp ได้รับการเผยแพร่เมื่อวันที่ 29 กันยายน 2025 โดยใช้ DeepSeek Sparse Attention ซึ่งเป็นกลไกความสนใจ ที่มีประสิทธิภาพมากขึ้น ตามการวิจัยก่อนหน้านี้ที่เผยแพร่ในเดือนกุมภาพันธ์[ 53 ] [ 54 ] DeepSeek-V3.2 ได้รับการเผยแพร่เมื่อวันที่ 1 ธันวาคม 2025 พร้อมกับ DeepSeek-V3.2-Speciale ซึ่งเป็นเวอร์ชันที่เน้นการให้เหตุผล[ 55 ] [ 56 ]

ในเดือนกุมภาพันธ์ พ.ศ. 2569 Anthropicกล่าวหา DeepSeek ว่าใช้บัญชีปลอมหลายพันบัญชีเพื่อสร้างบทสนทนานับล้านครั้งกับClaudeเพื่อฝึกฝนโมเดลภาษาขนาดใหญ่ของตนเอง[ 57 ]

ในเดือนเมษายน พ.ศ. 2569 นักลงทุนเริ่มพูดคุยกับ DeepSeek เพื่อระดมทุน 300 ล้านดอลลาร์สหรัฐ ซึ่งจะทำให้ DeepSeek มีมูลค่ารวม 10 พันล้านดอลลาร์สหรัฐ[ 58 ]

เมื่อวันที่ 24 เมษายน 2569 DeepSeek ได้เผยแพร่ตัวอย่างซีรีส์ V4 ซึ่งรวมถึง DeepSeek-V4-Pro ที่มีพารามิเตอร์ 1.6 ล้านล้านตัว และ DeepSeek-V4-Flash ที่มีพารามิเตอร์ 284 พันล้านตัว โดยทั้งสองรุ่นมีหน้าต่างบริบทโทเค็นขนาด 1 ล้านโทเค็น ภายใต้ใบอนุญาต MIT [ 59 ] [ 60 ] [ 61 ] DeepSeek V4 LLM ได้รับการนำไปใช้โดยผู้ผลิตเซมิ คอนดักเตอร์รายสำคัญและผู้ผลิตชิปปัญญาประดิษฐ์ เช่นHuaweiและCambricon [ 62 ]

การดำเนินงานของบริษัท

DeepSeek มีสำนักงานใหญ่อยู่ที่เมืองหางโจว มณฑลเจ้อเจียง และเป็นเจ้าของและได้รับเงินทุนจากHigh-Flyerผู้ร่วมก่อตั้งคือLiang Wenfengดำรงตำแหน่งซีอีโอ ณ เดือนพฤษภาคม 2024 Liang ถือหุ้น 84% ใน DeepSeek ผ่านบริษัทเชลล์ สอง แห่ง[หมายเหตุ 1 ] [ 63 ]

กลยุทธ์

DeepSeek ระบุว่ามุ่งเน้นการวิจัยและไม่มีแผนการเชิงพาณิชย์ในทันที[ 64 ]ท่าทีนี้ยังหมายความว่าสามารถหลีกเลี่ยงข้อกำหนดบางประการของกฎระเบียบ AI ของจีนที่มุ่งเป้าไปที่เทคโนโลยีที่ผู้บริโภคใช้งานได้[ 12 ]

แนวทางการจ้างงานของ DeepSeek เน้นทักษะมากกว่าประสบการณ์การทำงานที่ยาวนาน ส่งผลให้มีการว่าจ้างผู้ที่เพิ่งจบจากมหาวิทยาลัยจำนวนมาก[ 35 ] [ 12 ]บริษัทยังรับสมัครบุคคลที่ไม่มีพื้นฐานด้านวิทยาศาสตร์คอมพิวเตอร์เพื่อขยายขอบเขตความเชี่ยวชาญที่รวมอยู่ในแบบจำลอง เช่น บทกวีหรือคณิตศาสตร์ขั้นสูง[ 14 ] [ 12 ]ตาม รายงานของ The New York Timesนักวิจัยของ DeepSeek หลายสิบคนมีความเกี่ยวข้องกับ ห้องปฏิบัติการ ของกองทัพปลดปล่อยประชาชนจีนและกลุ่มSeven Sons of National Defence [ 65 ]

เนื่องจากผลกระทบจากข้อจำกัดของสหรัฐอเมริกาเกี่ยวกับชิป DeepSeek จึงปรับปรุงอัลกอริธึมเพื่อเพิ่มประสิทธิภาพการคำนวณให้สูงสุด และใช้ประโยชน์จากฮาร์ดแวร์รุ่นเก่าและลดการใช้พลังงาน[ 66 ] : 19

DeepSeek ยังขยายธุรกิจในทวีปแอฟริกาด้วย เนื่องจากนำเสนอโซลูชัน AI ที่ราคาไม่แพงและใช้พลังงานน้อยกว่า บริษัทได้เสริมสร้างโมเดลภาษาแอฟริกันและสร้างสตาร์ทอัพจำนวนมาก เช่น ในไนโรบีเมื่อรวมกับ บริการจัดเก็บข้อมูลและคลาวด์คอมพิวติ้งของ Huaweiผลกระทบต่อวงการเทคโนโลยีในแอฟริกาใต้ทะเลทรายซาฮาราจึงมีมาก DeepSeek นำเสนออธิปไตยทางข้อมูลในท้องถิ่นและความยืดหยุ่นที่มากกว่าเมื่อเทียบกับแพลตฟอร์ม AI ของตะวันตก[ 67 ]

กรอบการฝึกอบรม

High-Flyer/DeepSeek ได้ดำเนินการคลัสเตอร์คอมพิวเตอร์หลักอย่างน้อยสองคลัสเตอร์ ได้แก่ Fire-Flyer (萤火一号) และ Fire-Flyer 2 (萤火二号) Fire-Flyer 1 ถูกสร้างขึ้นในปี 2019 และถูกปลดระวางหลังจากใช้งานไปได้ 1.5 ปี ส่วน Fire-Flyer 2 ยังคงใช้งานอยู่จนถึงปี 2025 Fire-Flyer 2 ประกอบด้วยสถาปัตยกรรมซอฟต์แวร์และฮาร์ดแวร์ที่ออกแบบร่วมกัน ในส่วนของฮาร์ดแวร์นั้น GPU ของ Nvidia ใช้การเชื่อมต่อ 200 Gbpsคลัสเตอร์ถูกแบ่งออกเป็นสอง "โซน" และแพลตฟอร์มรองรับงานข้ามโซน โครงสร้างเครือข่ายเป็นแบบfat tree สองต้น ซึ่งเลือกใช้สำหรับ แบนด์วิดท์การแบ่งครึ่งที่สูงในส่วนของซอฟต์แวร์มีดังนี้: [ 32 ] [ 26 ]

  • 3FS(ระบบไฟล์ Fire-Flyer): ระบบไฟล์แบบขนานแบบกระจายออกแบบมาโดยเฉพาะสำหรับการอ่านแบบสุ่มแบบอะซิงโครนัส โดยใช้ Direct I/O และRDMA Readซึ่งแตกต่างจาก Buffered I/O มาตรฐานตรงที่ Direct I/O ไม่เก็บข้อมูลแคช การเก็บข้อมูลแคชไม่มีประโยชน์ในกรณีนี้ เนื่องจากข้อมูลแต่ละส่วนที่อ่านได้เป็นแบบสุ่มและไม่นำกลับมาใช้ใหม่[ 68 ] [ 69 ]
  • hfreduce: ไลบรารีสำหรับการสื่อสารแบบอะซิงโครนัส ซึ่งเดิมออกแบบมาเพื่อทดแทนNvidia Collective Communication Library (NCCL) [ 30 ]ส่วนใหญ่ใช้สำหรับallreduceโดยเฉพาะเกรเดียนต์ระหว่างbackpropagationโดยจะทำงานแบบอะซิงโครนัสบน CPU เพื่อหลีกเลี่ยงการบล็อกเคอร์เนลบน GPU [ 32 ]ใช้การกระจายแบบสองต้นไม้เหมือน NCCL [ 30 ]
  • hfai.nn: ไลบรารีซอฟต์แวร์ของตัวดำเนินการที่ใช้กันทั่วไปสำหรับการฝึกโครงข่ายประสาทเทียม คล้ายกับtorch.nnในPyTorch
  • HaiScale Distributed Data Parallel(DDP): ไลบรารีการฝึกอบรมแบบขนานที่ใช้การประมวลผลแบบขนานหลายรูปแบบ เช่น การประมวลผลแบบขนานข้อมูล ( Data Parallelism : DP), การประมวลผลแบบขนานไปป์ไลน์ ( Pipeline Parallelism : PP), การประมวลผลแบบขนานเทนเซอร์ (Tensor Parallelism: TP), การประมวลผลแบบขนานผู้เชี่ยวชาญ (Experts Parallelism: EP), การประมวลผลแบบขนานข้อมูลแบบแบ่งส่วนอย่างสมบูรณ์ (Fully Sharded Data Parallel: FSDP) และตัวเพิ่มประสิทธิภาพแบบไม่มีส่วนเกิน (Zero Redundancy Optimizer: Zero RO) คล้ายกับ PyTorch DDP ที่ใช้ NCCL ในส่วนแบ็กเอนด์
  • HAI Platform: การใช้งานต่างๆ เช่น การจัดตารางงาน การจัดการข้อผิดพลาด และการกู้คืนจากภัยพิบัติ[ 70 ]

ณ ปี 2022 Fire-Flyer 2 มี GPU PCIe A100 จำนวน 5,000 ตัวใน 625 โหนด โดยแต่ละโหนดมี GPU จำนวน 8 ตัว[ 30 ]ต่อมาได้มีการรวม NVLinks และ NCCL เพื่อฝึกโมเดลขนาดใหญ่ที่ต้องการการประมวลผลแบบขนานของโมเดล[ 31 ] [ 32 ]

ประวัติการพัฒนาและการวางจำหน่าย

เวอร์ชันหลักของโมเดล DeepSeek SFT ย่อมาจาก supervised finetuning (การปรับแต่งแบบมีผู้กำกับดูแล)
เวอร์ชันหลัก วันที่วางจำหน่าย สถานะ รูปแบบหลัก ใบอนุญาต หมายเหตุ
ดีพซีค-โคเดอร์ 2 พฤศจิกายน 2023เลิกผลิตแล้ว ฐาน (ฝึกฝนล่วงหน้า) คำสั่ง (ปรับแต่งคำสั่งอย่างละเอียด) มีแหล่งข้อมูลให้ดู (DeepSeek) สถาปัตยกรรมโดยพื้นฐานแล้วเหมือนกับลามะ[ 71 ]
ดีพซีค-แอลแอลเอ็ม 29 พฤศจิกายน 2023เลิกผลิตแล้ว แชท พื้นฐาน(พร้อม SFT) สถาปัตยกรรมโดยพื้นฐานแล้วเหมือนกับลามะ[ 72 ]
ดีพซีค-โมอี 9 มกราคม 2567เลิกผลิตแล้ว แชท ฐานพัฒนารูปแบบผสมของผู้เชี่ยวชาญ (MoE) [ 73 ]
ดีพซีค-แมธ เมษายน 2567เลิกผลิตแล้ว ฐาน เริ่มต้นด้วย DS-Coder-Base-v1.5 [ 74 ]
สอน (ด้วย SFT) [ 75 ]
RL (โดยใช้โมเดลการให้รางวัลตามกระบวนการ) พัฒนาGroup Relative Policy Optimization (GRPO) ซึ่งเป็นรูปแบบหนึ่งของProximal Policy Optimization (PPO) [ 76 ]
ดีพซีค-วี2 พฤษภาคม 2567เลิกผลิตแล้ว DeepSeek-V2, DeepSeek-V2-แชทDeepSeek-V2-Lite, DeepSeek-V2-Lite-แชทDeepSeek-Coder-V2 DeepSeek-V2.5 พัฒนากลไกความสนใจแฝงแบบหลายหัว (MLA) นอกจากนี้ยังใช้การผสมผสานของผู้เชี่ยวชาญ (MoE) และนำการแคช KV มาใช้[ 77 ]
ดีพซีค-วี3 ธันวาคม 2024คล่องแคล่ว DeepSeek-V3-Base DeepSeek-V3 (โมเดลแชท) โครงสร้างสถาปัตยกรรมโดยพื้นฐานแล้วเหมือนกับ V2 อัปเดตเมื่อ 2025-03-24 [ 78 ]
DeepSeek-Prover-V2 1 พฤษภาคม 2568คล่องแคล่ว DeepSeek-Prover-V2-671B DeepSeek-Prover-V2-7B [ 79 ]
ดีพซีค-วีแอล2 13 ธันวาคม 2024คล่องแคล่ว [ 80 ]
ดีพซีค-อาร์1 20 พฤศจิกายน 2024คล่องแคล่ว DeepSeek-R1-Lite-Preview กรรมสิทธิ์เวอร์ชันทดลองใช้งาน เข้าถึงได้ผ่าน API และอินเทอร์เฟซแชทเท่านั้น
20 มกราคม 2025คล่องแคล่ว DeepSeek-R1 DeepSeek-R1-Zero DeepSeek-R1-0528 เอ็มไอทีเริ่มต้นจาก DeepSeek-V3-Base และใช้สถาปัตยกรรม V3 ร่วมกัน[ 81 ]
แบบจำลองกลั่น เริ่มต้นจากโมเดลอื่นๆ เช่น Llama, Qwen เป็นต้น กลั่นกรองจากข้อมูลที่สังเคราะห์โดย R1 และ R1-Zero [ 82 ] [ 83 ]
28 พฤษภาคม 2568คล่องแคล่ว ดีพซีค-อาร์1-0528
ดีพซีค-V3.1 21 สิงหาคม 2568คล่องแคล่ว DeepSeek-V3.1-Base DeepSeek-V3.1 (โมเดลแชท) สถาปัตยกรรมไฮบริด (มีโหมดการคิดและการไม่คิด) ฝึกฝนด้วยโทเค็นเพิ่มเติมมากกว่า 800 พันล้านรายการบน V3 [ 84 ]
22 กันยายน 2025คล่องแคล่ว ดีพซีค-V3.1-เทอร์มินัส ลดจำนวนข้อความผสมภาษาจีน-อังกฤษและอักขระผิดปกติเป็นครั้งคราวบน V3.1 [ 85 ]
ดีพซีค-แมธ-วี2 27 พฤศจิกายน 2025คล่องแคล่ว อะปาเช่ 2.0[ 86 ]
ดีพซีค-V3.2 1 ธันวาคม พ.ศ. 2568คล่องแคล่ว DeepSeek-V3.2 DeepSeek-V3.2-พิเศษ เอ็มไอที[ 55 ] [ 56 ] [ 87 ]
ดีพซีค-วี4 24 เมษายน 2569คล่องแคล่ว วี4-โปร, วี4-แฟลช การเผยแพร่ตัวอย่าง[ 59 ] [ 60 ] [ 61 ]

โมเดล DeepSeek รุ่นแรกนั้นโดยพื้นฐานแล้วเหมือนกับ Llama [ 37 ]ซึ่งเป็นทรานส์ฟอร์เมอร์ แบบถอดรหัสหนาแน่นเท่านั้น โมเดลรุ่นต่อมาได้รวมเอาความสนใจแฝงแบบหลายหัว (MLA) การผสมผสานของผู้เชี่ยวชาญ (MoE) และการแคช KV เข้าไว้ด้วย[ 38 ] [ 40 ]

รานส์ฟอร์เมอร์แบบดีโคเดอร์อย่างเดียวประกอบด้วยเลเยอร์ดีโคเดอร์ที่เหมือนกันหลายชั้น แต่ละเลเยอร์เหล่านี้มีส่วนประกอบหลักสองส่วน ได้แก่ เลเยอร์ความสนใจและ เลเยอร์ เครือข่ายฟีดฟอร์เวิร์ด (FFN) [ 40 ] V2 แทนที่ กลไกความสนใจแบบหลายหัวมาตรฐาน(MHA) ด้วยความสนใจแฝงแบบหลายหัว (MLA) ซึ่งแนะนำเวกเตอร์แฝงที่บีบอัดเพื่อลดขนาดแคช KV (คีย์-ค่า)และลดการใช้หน่วยความจำ[ 40 ]

โดยทั่วไปแล้ว MoE Transformer มาตรฐานจะใช้ เลเยอร์ MoE ที่มีเกตแบบเบาบางในเลเยอร์ FFN ในเลเยอร์ MoE ดังกล่าว จะมีโมดูล FFN หลายโมดูลแบบขนาน ("ผู้เชี่ยวชาญที่ถูกกำหนดเส้นทาง") และตัวจำแนกขนาดเล็ก ("เกต") เพื่อคำนวณคะแนนสำหรับโมดูลทั้งหมดเหล่านี้ในแต่ละโทเค็น เฉพาะโมดูลที่มีคะแนนสูงสุดเท่านั้นที่จะถูกเปิดใช้งาน เริ่มต้นด้วย DeepSeekMoE DeepSeek ได้นำรูปแบบที่เพิ่ม "ผู้เชี่ยวชาญร่วม" มาใช้ ซึ่งจะถูกเปิดใช้งานเสมอ[ 38 ]

ภาพรวมของรุ่นต่างๆ และข้อมูลจำเพาะทางเทคนิค

โมเดลของ DeepSeek เป็น "น้ำหนักแบบเปิด" ซึ่งให้ความอิสระในการแก้ไขน้อยกว่าซอฟต์แวร์โอเพนซอร์ส ที่แท้จริง [ 16 ] [ 10 ]

ดีพซีค โค้ดเดอร์

DeepSeek Coder เป็นชุดของโมเดลแปดแบบ สี่แบบได้รับการฝึกฝนล่วงหน้า ( Base) และสี่แบบได้รับการปรับแต่งคำสั่ง ( Instruct) ทั้งหมดมีความยาวบริบท 16K โมเดลนี้เปิดให้ใช้งานซอร์สโค้ดภายใต้ใบอนุญาต DeepSeek ซึ่งรวมถึงข้อจำกัด "การใช้งานปลายทางแบบเปิดและมีความรับผิดชอบ" [ 88 ]

โปรแกรมการฝึกอบรมคือ: [ 89 ] [ 90 ] [ 91 ]

  1. การฝึกฝนเบื้องต้น: โทเค็น 1.8 ล้านล้าน (87% เป็นซอร์สโค้ด, 10% เป็นภาษาอังกฤษที่เกี่ยวข้องกับโค้ด (GitHub markdown และStack Exchange ) และ 3% เป็นภาษาจีนที่ไม่เกี่ยวข้องกับโค้ด)
  2. การฝึกฝนล่วงหน้าด้วยบริบทที่ยาว: โทเค็น 200 พันล้านโทเค็น ซึ่งขยายความยาวของบริบทจาก 4,000 เป็น 16,000 โทเค็น ขั้นตอนนี้สร้างBaseโมเดล ขึ้นมา
  3. การปรับแต่งแบบ มีผู้กำกับดูแล ( Supervised Finetuning หรือ SFT): ข้อมูลคำสั่งจำนวน 2 พันล้านโทเค็น ซึ่งทำให้ได้Instructโมเดลขึ้น มา

พวกเขาได้รับการฝึกฝนบน คลัสเตอร์ ของ GPU Nvidia A100 และH800 ที่เชื่อมต่อกันด้วย InfiniBand , NVLink , NVSwitch [ 89 ]

คุณสมบัติของ DeepSeek Coder [ 89 ] : ตาราง 2 [ 92 ]
พารามิเตอร์#เลเยอร์ขนาด ของแบบจำลองระดับกลาง# หัว# Kv-heads
1.3 พันล้าน242048 55041616
5.7 พันล้าน 32 4096 11008 32 1 [หมายเหตุ 2 ]
6.7B324096 110083232
33บี627168 19200567 [หมายเหตุ 2 ]

ดีพซีค-แอลแอลเอ็ม

ซีรีส์ DeepSeek-LLM เปิดตัวในเดือนพฤศจิกายน 2023 มีพารามิเตอร์ 7B และ 67B ทั้งในรูปแบบ Base และ Chat เอกสารประกอบของ DeepSeek อ้างว่าได้ผลลัพธ์มาตรฐานที่สูงกว่าLlama 2และ LLM แบบโอเพนซอร์สส่วนใหญ่ในขณะนั้น[ 37 ] : ส่วนที่ 5 รหัสโมเดลอยู่ภายใต้ใบอนุญาต DeepSeek ที่เปิดเผยซอร์สโค้ด[ 93 ]

สถาปัตยกรรมโดยพื้นฐานแล้วเหมือนกับ ซีรี่ส์ Llamaพวกเขาใช้Transformer เฉพาะตัวถอดรหัสpre-norm โดยใช้RMSNormเป็นการทำให้เป็นมาตรฐานSwiGLUในเลเยอร์ฟีดฟอร์เวิร์ดการฝังตำแหน่งแบบหมุน (RoPE) และความสนใจแบบกลุ่มคำถาม (GQA) ทั้งสองมีขนาดคำศัพท์ 102,400 ( BPE ระดับไบต์ ) และความยาวบริบท 4096 พวกเขาฝึกฝนด้วยโทเค็น 2 ล้านล้านโทเค็นของข้อความภาษาอังกฤษและภาษาจีนที่ได้มาจากการลบข้อมูลซ้ำของCommon Crawl [ 37 ]

คุณสมบัติ DeepSeek LLM [ 37 ] : ตาราง 2
พารามิเตอร์# เลเยอร์ขนาด ของแบบจำลองระดับกลาง# หัว# Kv-heads
7B304096 110083232
67บี958192 22016648 [หมายเหตุ 2 ]

เวอร์ชันแชทของโมเดลพื้นฐานทั้งสองได้รับการเผยแพร่พร้อมกัน โดยได้รับจากการฝึกโมเดลพื้นฐานด้วยการปรับแต่งแบบมีผู้กำกับดูแล (SFT) ตามด้วยการเพิ่มประสิทธิภาพนโยบายโดยตรง (DPO ) [ 37 ]

กระทรวงศึกษาธิการ

โมเดล DeepSeek-MoE (Base และ Chat) แต่ละโมเดลมีพารามิเตอร์ 16 พันล้านตัว (เปิดใช้งาน 2.7 พันล้านตัวต่อโทเค็น ความยาวบริบท 4K) การฝึกอบรมโดยพื้นฐานแล้วเหมือนกับ DeepSeek-LLM 7B และได้รับการฝึกฝนบนส่วนหนึ่งของชุดข้อมูลการฝึกอบรม พวกเขาอ้างว่าประสิทธิภาพเทียบเท่ากับ MoE 16B ในฐานะ 7B ที่ไม่ใช่ MoE เป็นรูปแบบหนึ่งของMoE แบบ sparsely-gated มาตรฐาน โดยมี "ผู้เชี่ยวชาญร่วม" ที่จะถูกสอบถามเสมอ และ "ผู้เชี่ยวชาญที่ถูกกำหนดเส้นทาง" ที่อาจไม่ถูกสอบถาม พวกเขาพบว่าสิ่งนี้ช่วยในการปรับสมดุลผู้เชี่ยวชาญ ใน MoE มาตรฐาน ผู้เชี่ยวชาญบางคนอาจถูกใช้งานมากเกินไป ในขณะที่คนอื่น ๆ แทบจะไม่ถูกใช้งาน ทำให้สิ้นเปลืองพื้นที่ การพยายามปรับสมดุลการใช้งานผู้เชี่ยวชาญทำให้ผู้เชี่ยวชาญทำซ้ำความสามารถเดียวกัน พวกเขาเสนอให้ผู้เชี่ยวชาญร่วมเรียนรู้ความสามารถหลักที่มักใช้ และให้ผู้เชี่ยวชาญที่ถูกกำหนดเส้นทางเรียนรู้ความสามารถรอบข้างที่แทบจะไม่ถูกใช้งาน[ 38 ]

คณิตศาสตร์

DeepSeek-Math ประกอบด้วย 3 โมเดล ได้แก่ Base, Instruct และ RL โดย Math ได้รับการฝึกฝนดังนี้: [ 39 ]

  1. เริ่มต้นด้วย DeepSeek-Coder Base v1.5 7B ที่ผ่านการฝึกฝนล่วงหน้าแล้ว
  2. ทำการฝึกฝนเพิ่มเติมด้วยโทเค็น 500 พันล้านโทเค็น (6% จาก DeepSeekMath Corpus, 4% จาก AlgebraicStack, 10% จาก arXiv, 20% จากโค้ด GitHub, 10% จาก Common Crawl) ซึ่งทำให้ได้โมเดลพื้นฐาน (Base)
  3. ฝึกฝนโมเดลการปฏิบัติตามคำสั่งโดยใช้ SFT Base ด้วยโจทย์คณิตศาสตร์ 776,000 ข้อ พร้อมวิธีแก้ปัญหาทีละขั้นตอนที่ผสานการใช้งานเครื่องมือ ซึ่งได้ผลลัพธ์เป็น Instruct
  4. การเรียนรู้แบบเสริมแรง (RL): โมเดลรางวัลคือโมเดลรางวัลกระบวนการ (PRM) ที่ฝึกฝนจากฐานตามวิธี Math-Shepherd [ 94 ]จากนั้นใช้โมเดลรางวัลนี้เพื่อฝึก Instruct โดยใช้Group Relative Policy Optimization (GRPO) บนชุดข้อมูลคำถามคณิตศาสตร์ 144,000 ข้อ "ที่เกี่ยวข้องกับGSM8K และ MATH " โมเดลรางวัลได้รับการอัปเดตอย่างต่อเนื่องระหว่างการฝึกอบรมเพื่อหลีกเลี่ยงการแฮ็กรางวัล ส่งผลให้เกิด RL

วี2

สถาปัตยกรรมของ V2 ซึ่งแสดงทั้ง MoE และ MLA ที่ใช้เส้นทางร่วมกัน[ 95 ] : รูปที่ 2

ในเดือนพฤษภาคม 2024 DeepSeek ได้เปิดตัวซีรีส์ DeepSeek-V2 ซีรีส์นี้ประกอบด้วย 4 โมเดล ได้แก่ 2 โมเดลพื้นฐาน (DeepSeek-V2, DeepSeek-V2 Lite) และ 2 แชทบอท (Chat) โมเดลขนาดใหญ่สองโมเดลได้รับการฝึกฝนดังนี้: [ 95 ]

  1. ฝึกฝนโมเดลเบื้องต้นบนชุดข้อมูลโทเค็น 8.1 ล้านล้าน โดยใช้โทเค็นภาษาจีนมากกว่าภาษาอังกฤษ 12%
  2. ขยายความยาวบริบทจาก 4K เป็น 128K โดยใช้ YaRN [ 96 ]ส่งผลให้ได้ DeepSeek-V2
  3. SFT มีการใช้งาน 1.2 ล้านครั้งสำหรับด้านความช่วยเหลือ และ 0.3 ล้านครั้งสำหรับด้านความปลอดภัย ซึ่งส่งผลให้เกิด Chat SFT ขึ้นมา แต่ก็ไม่ได้ถูกปล่อยออกมาใช้งานจริง
  4. การเรียนรู้แบบเสริมแรง (RL) โดยใช้ GRPO ในสองขั้นตอน ขั้นตอนแรกเป็นการฝึกฝนให้แก้ปัญหาทางคณิตศาสตร์และการเขียนโค้ด ขั้นตอนนี้ใช้โมเดลรางวัล 1 โมเดล ซึ่งได้รับการฝึกฝนจากข้อมูลป้อนกลับของคอมไพเลอร์ (สำหรับการเขียนโค้ด) และป้ายกำกับความจริงพื้นฐาน (สำหรับคณิตศาสตร์) ขั้นตอนที่สองเป็นการฝึกฝนให้เป็นประโยชน์ ปลอดภัย และปฏิบัติตามกฎ ขั้นตอนนี้ใช้โมเดลรางวัล 3 โมเดล โมเดลรางวัลด้านความช่วยเหลือและความปลอดภัยได้รับการฝึกฝนจากข้อมูลความชอบของมนุษย์ ส่วนโมเดลรางวัลตามกฎนั้นถูกเขียนโปรแกรมด้วยตนเอง โมเดลรางวัลที่ได้รับการฝึกฝนทั้งหมดได้รับการเริ่มต้นจาก Chat (SFT) ซึ่งส่งผลให้ได้เวอร์ชันที่เผยแพร่ของ Chat

พวกเขาเลือกใช้ RL แบบ 2 ขั้นตอน เนื่องจากพบว่า RL บนข้อมูลการให้เหตุผลมี "ลักษณะเฉพาะ" ที่แตกต่างจาก RL บนข้อมูลทั่วไป ตัวอย่างเช่น RL บนข้อมูลการให้เหตุผลสามารถปรับปรุงได้เมื่อฝึกฝนหลายขั้นตอนมากขึ้น[ 95 ]

โมเดล V2-Lite ทั้งสองมีขนาดเล็กกว่า และได้รับการฝึกฝนในลักษณะเดียวกัน DeepSeek-V2 Lite-Chat ได้รับการฝึกฝนด้วย SFT เท่านั้น ไม่ใช่ RL พวกเขาฝึกฝนเวอร์ชัน Lite เพื่อช่วย "การวิจัยและพัฒนาเพิ่มเติมเกี่ยวกับ MLA และ DeepSeekMoE" [ 95 ]

ในด้านสถาปัตยกรรม โมเดล V2 มีความแตกต่างอย่างมีนัยสำคัญจากซีรี่ส์ DeepSeek LLM โดยมีการเปลี่ยนแปลงกลไกความสนใจมาตรฐานด้วยการประมาณค่าอันดับต่ำที่เรียกว่าความสนใจแฝงหลายหัว (MLA) และใช้ รูปแบบ ผสมของผู้เชี่ยวชาญ (MoE) ที่เผยแพร่ก่อนหน้านี้ [ 38 ]

คุณสมบัติ DeepSeek V2 [ 95 ] : ส่วนที่ 3.1.2 ภาคผนวก B [ 97 ] [ 98 ]
ชื่อ พารามิเตอร์พารามิเตอร์ที่ใช้งานอยู่# เลเยอร์ความยาวของบริบท # ผู้เชี่ยวชาญที่แบ่งปัน# ผู้เชี่ยวชาญด้านเส้นทาง
วี2-ไลท์ 15.7B 2.4 พันล้าน2732K 264
วี2 236บี 21บี60128K 2160

Financial Timesรายงานว่ามีราคาถูกกว่าคู่แข่ง โดยมีราคา 2 หยวนต่อโทเค็นเอาต์พุตหนึ่งล้านโทเค็น กระดานผู้นำของ Tiger Lab มหาวิทยาลัยวอเตอร์ลูจัดอันดับ DeepSeek-V2 อยู่ในอันดับที่เจ็ดในการจัดอันดับ LLM [ 36 ]

ชุด DeepSeek-Coder V2 ประกอบด้วย V2-Base, V2-Lite-Base, V2-Instruct และ V20-Lite-Instruct การฝึกอบรม: [ 40 ] [หมายเหตุ 3 ]

  1. โมเดลพื้นฐานได้รับการเริ่มต้นจากจุดตรวจสอบกลางที่สอดคล้องกันหลังจากฝึกฝนล่วงหน้าด้วยโทเค็น 4.2 ล้านโทเค็น (ไม่ใช่เวอร์ชันเมื่อสิ้นสุดการฝึกฝนล่วงหน้า) จากนั้นจึงฝึกฝนล่วงหน้าเพิ่มเติมด้วยโทเค็น 6 ล้านโทเค็น แล้วจึงขยายบริบทให้มีความยาว 128,000 โทเค็น
  2. DeepSeek-Coder และ DeepSeek-Math ถูกใช้เพื่อสร้างข้อมูลคำสั่งที่เกี่ยวข้องกับโค้ด 20,000 ชุด และข้อมูลคำสั่งที่เกี่ยวข้องกับคณิตศาสตร์ 30,000 ชุด จากนั้นจึงนำมารวมกับชุดข้อมูลคำสั่งขนาด 300 ล้านโทเค็น เพื่อนำไปใช้กับ SFT
  3. RL ร่วมกับ GRPO รางวัลสำหรับโจทย์คณิตศาสตร์คำนวณโดยการเปรียบเทียบกับป้ายกำกับความจริง ส่วนรางวัลสำหรับโจทย์เขียนโค้ดสร้างขึ้นจากแบบจำลองรางวัลที่ได้รับการฝึกฝนให้ทำนายว่าโปรแกรมจะผ่านการทดสอบหน่วยหรือไม่

DeepSeek-V2.5 ถูกสร้างขึ้นโดยการรวม DeepSeek-V2-Chat และ DeepSeek-Coder-V2-Instruct เข้าด้วยกัน[ 41 ]

วี3

การทำนายหลายโทเค็น

DeepSeek-V3-Base และ DeepSeek-V3 (โมเดลแชท) ใช้สถาปัตยกรรมพื้นฐานเดียวกันกับ V2 โดยเพิ่มการทำนายโทเค็นหลายตัวซึ่ง (เป็นทางเลือก) ถอดรหัสโทเค็นเพิ่มเติมได้เร็วขึ้นแต่มีความแม่นยำน้อยลง กระบวนการฝึกอบรม: [ 31 ]

  1. การฝึกฝนเบื้องต้นบนโทเค็น 14.8 ล้านโทเค็นจากคลังข้อมูลหลายภาษา ซึ่งส่วนใหญ่เป็นภาษาอังกฤษและภาษาจีน มีสัดส่วนของคณิตศาสตร์และการเขียนโปรแกรมสูงกว่าชุดข้อมูลการฝึกฝนเบื้องต้นของเวอร์ชัน 2
  2. ขยายความยาวบริบทเป็นสองเท่า จาก 4K เป็น 32K แล้วเป็น 128K โดยใช้ YaRN [ 96 ]ซึ่งทำให้เกิด DeepSeek-V3-Base
  3. ทำการทดสอบ SFT เป็นเวลา 2 รอบ (epochs) กับตัวอย่างข้อมูล 1.5 ล้านตัวอย่าง ประกอบด้วยข้อมูลที่เกี่ยวข้องกับการคิดวิเคราะห์ (คณิตศาสตร์ การเขียนโปรแกรม ตรรกะ) และข้อมูลที่ไม่เกี่ยวข้องกับการคิดวิเคราะห์ (การเขียนเชิงสร้างสรรค์ การแสดงบทบาทสมมติ การตอบคำถามง่ายๆ) ข้อมูลที่เกี่ยวข้องกับความคิดวิเคราะห์สร้างขึ้นโดย "แบบจำลองผู้เชี่ยวชาญ" ส่วนข้อมูลที่ไม่เกี่ยวข้องกับการคิดวิเคราะห์สร้างขึ้นโดย DeepSeek-V2.5 และตรวจสอบโดยมนุษย์
    • โมเดลผู้เชี่ยวชาญได้รับการฝึกฝนโดยเริ่มต้นจากโมเดลพื้นฐานที่ไม่ระบุ จากนั้นใช้ SFT กับทั้งข้อมูล <ปัญหา, คำตอบดั้งเดิม> และข้อมูลสังเคราะห์ <ข้อความแจ้งจากระบบ, ข้อความแจ้ง, ปัญหา, คำตอบของ R1> ที่สร้างขึ้นโดยโมเดล DeepSeek-R1-Lite ภายใน ข้อความแจ้งจากระบบขอให้ R1 ไตร่ตรองและตรวจสอบระหว่างการคิด จากนั้นโมเดลผู้เชี่ยวชาญได้รับการฝึกฝนแบบเสริมแรง (RL) โดยใช้ฟังก์ชันรางวัลที่ไม่เปิดเผย
    • แบบจำลองผู้เชี่ยวชาญแต่ละแบบได้รับการฝึกฝนให้สร้างข้อมูลการให้เหตุผลสังเคราะห์ในโดเมนเฉพาะด้านใดด้านหนึ่งเท่านั้น (คณิตศาสตร์ การเขียนโปรแกรม ตรรกศาสตร์)
    • มีการใช้แบบจำลองของผู้เชี่ยวชาญแทน R1 เนื่องจากผลลัพธ์จาก R1 นั้น "มีการคิดมากเกินไป การจัดรูปแบบไม่ดี และมีความยาวมากเกินไป"
  4. แบบจำลองการให้รางวัลที่สร้างขึ้นจากแบบจำลองเริ่มต้นจากจุดตรวจสอบ SFT เวอร์ชัน 3 จากนั้นปรับแต่งเพิ่มเติมโดยใช้ข้อมูลความชอบของมนุษย์ ซึ่งประกอบด้วยรางวัลสุดท้ายและลำดับความคิดที่นำไปสู่รางวัลสุดท้าย แบบจำลองการให้รางวัลนี้สร้างสัญญาณการให้รางวัลสำหรับทั้งคำถามที่มีคำตอบที่เป็นกลางแต่มีรูปแบบอิสระ และคำถามที่ไม่มีคำตอบที่เป็นกลาง (เช่น การเขียนเชิงสร้างสรรค์)
  5. GRPO ได้ทำการฝึกฝนโมเดล SFT รุ่น V3 โดยใช้ทั้งโมเดลการให้รางวัลและโมเดลการให้รางวัลตามกฎ โดยโมเดลการให้รางวัลตามกฎจะคำนวณจากโจทย์คณิตศาสตร์ที่มีคำตอบสุดท้าย (ใส่ไว้ในกรอบ) และจากโจทย์การเขียนโปรแกรมโดยใช้การทดสอบหน่วย ซึ่งทำให้ได้ DeepSeek-V3 ออกมา

DeepSeek เผยแพร่โมเดล DeepSeek-V3-0324 ซึ่งใช้สถาปัตยกรรมเดียวกับ V3 เมื่อวันที่ 24 มีนาคม 2025 ภายใต้ใบอนุญาต MIT [ 99 ]

คุณสมบัติ DeepSeek V3 [ 31 ] : ส่วนที่ 4.2 [ 100 ]
ชื่อ พารามิเตอร์พารามิเตอร์ที่ใช้งานอยู่# เลเยอร์ความยาวของบริบท # ผู้เชี่ยวชาญที่แบ่งปัน# ผู้เชี่ยวชาญด้านเส้นทาง
วี3 671บี 37บี61128K 1256
กรอบความแม่นยำแบบผสมสำหรับV3[ 31 ] : รูปที่ 6

ทีม DeepSeek ได้ทำการปรับแต่งทางวิศวกรรมระดับต่ำอย่างละเอียดเพื่อเพิ่มประสิทธิภาพ พวกเขาใช้การคำนวณแบบความแม่นยำผสมส่วนใหญ่ของการส่งผ่านไปข้างหน้า (forward pass) ดำเนินการด้วยตัวเลขทศลอย 8 บิต (5E2M: เลขชี้กำลัง 5 บิตและแมนทิสซา 2 บิต ) แทนที่จะเป็น32 บิต มาตรฐาน ซึ่งต้องใช้รูทีน GEMMพิเศษเพื่อสะสมค่าอย่างแม่นยำ พวกเขาใช้ตัวเลขทศลอย 12 บิตแบบกำหนดเอง (E5M6) เฉพาะสำหรับอินพุตไปยังเลเยอร์เชิงเส้นหลังจากโมดูลความสนใจเท่านั้น สถานะของตัวเพิ่มประสิทธิภาพอยู่ในรูปแบบ 16 บิต ( BF16 ) พวกเขาลดความหน่วงในการสื่อสารให้น้อยที่สุดโดยการซ้อนทับการคำนวณและการสื่อสารอย่างกว้างขวาง เช่น การจัดสรรมัลติโปรเซสเซอร์แบบสตรีมมิ่ง 20 ตัวจาก 132 ตัวต่อ H800 สำหรับการสื่อสารระหว่าง GPU เท่านั้น พวกเขาลดการสื่อสารลงโดยการจัดเรียงเครื่องที่ผู้เชี่ยวชาญแต่ละคนใช้งานใหม่ (ทุก 10 นาที) เพื่อหลีกเลี่ยงการสอบถามเครื่องบางเครื่องบ่อยกว่าเครื่องอื่น เพิ่มการสูญเสียสมดุลภาระเสริมลงในฟังก์ชันการสูญเสียการฝึกอบรม และเทคนิคสมดุลภาระอื่นๆ[ 31 ]

หลังจากฝึกอบรมแล้ว ได้มีการใช้งานบนคลัสเตอร์ของ GPU H800 โดย GPU H800 จำนวน 8 ตัวภายในคลัสเตอร์จะเชื่อมต่อกันด้วย NVLink และคลัสเตอร์จะเชื่อมต่อกันด้วย InfiniBand [ 31 ]

ต้นทุนรวมของการฝึกอบรมโมเดล DeepSeek-V3 [ 31 ] : ตารางที่ 1
เวที ต้นทุน (ในหน่วยชั่วโมงการใช้งาน GPU หนึ่งพันชั่วโมง) ต้นทุน (หนึ่งล้านดอลลาร์สหรัฐ)
ก่อนการฝึกอบรม 2,664 5.328
การขยายบริบท 119 0.24
การปรับแต่งอย่างละเอียด 5 0.01
ทั้งหมด 2,788 5.576

ต้นทุนดังกล่าวได้รับการกล่าวถึง[ 101 ] [ 102 ] [ 103 ]และถูกเรียกว่าทำให้เข้าใจผิด เนื่องจากครอบคลุมเพียงบางส่วนของต้นทุนที่แท้จริง[ 104 ]

ผลการทดสอบมาตรฐานแสดงให้เห็นว่า V3 มีประสิทธิภาพเหนือกว่าLlama 3.1 และQwen 2.5 ในขณะที่มีประสิทธิภาพเทียบเท่ากับGPT-4oและClaude 3.5 Sonnet [ 35 ] [ 105 ] [ 106 ] [ 107 ]

อาร์1

กระบวนการฝึกอบรมแบบหลายขั้นตอนของ DeepSeek-R1

ในเดือนมกราคม พ.ศ. 2568 DeepSeek ได้เผยแพร่โมเดล DeepSeek-R1 ภายใต้ใบอนุญาต MIT [ 108 ]

DeepSeek-R1-Lite-Preview [ 42 ] [ 43 ] [หมายเหตุ 4 ]ได้รับการฝึกฝนเพื่อการอนุมานเชิงตรรกะ การให้เหตุผลทางคณิตศาสตร์ และการแก้ปัญหาแบบเรียลไทม์ DeepSeek อ้างว่ามีประสิทธิภาพเหนือกว่าOpenAI o1ในเกณฑ์มาตรฐาน เช่นAmerican Invitational Mathematics Examination (AIME) และ MATH [ 109 ]อย่างไรก็ตามThe Wall Street Journalรายงานว่าใน 15 ปัญหาจาก AIME ฉบับปี 2024 โมเดล o1 สามารถหาคำตอบได้เร็วกว่า[ 110 ]

DeepSeek-R1 และ DeepSeek-R1-Zero [ 111 ]ได้รับการเริ่มต้นจาก DeepSeek-V3-Base และใช้สถาปัตยกรรมร่วมกัน ในขณะที่โมเดล DeepSeek-R1-Distill ได้รับการเริ่มต้นจากโมเดลน้ำหนักเปิดที่ได้รับการฝึกฝนล่วงหน้าอื่นๆ รวมถึงLLaMAและQwenจากนั้นจึงปรับแต่งอย่างละเอียดบนข้อมูลสังเคราะห์ที่สร้างโดย R1 [ 82 ]

แม่แบบสำหรับDeepSeek-R1-Zero

บทสนทนาระหว่างผู้ใช้และผู้ช่วย ผู้ใช้ถามคำถาม และผู้ช่วยแก้ปัญหา ผู้ช่วยจะคิดหาเหตุผลในใจก่อน แล้วจึงให้คำตอบแก่ผู้ใช้ เหตุผลและคำตอบจะอยู่ภายในแท็ก <think></think> และ <answer></answer> ตามลำดับ เช่น <think> เหตุผลตรงนี้ </think> <answer> คำตอบตรงนี้ </answer> ผู้ใช้: <prompt> ผู้ช่วย:

— <ข้อความแจ้งเตือน> จะถูกแทนที่ด้วยคำถามการให้เหตุผลเฉพาะเจาะจงระหว่างการฝึกอบรม

DeepSeek-R1-Zero ได้รับการฝึกฝนโดยใช้ GRPO RL เพียงอย่างเดียวโดยไม่มี SFT แตกต่างจากเวอร์ชันก่อนหน้าตรงที่ไม่ได้ใช้รางวัลตามแบบจำลอง ฟังก์ชันรางวัลทั้งหมดเป็นแบบใช้กฎเป็นหลัก โดยส่วนใหญ่มีสองประเภท (ไม่ได้ระบุประเภทอื่น) ได้แก่ รางวัลความแม่นยำและรางวัลรูปแบบ รางวัลความแม่นยำคือการตรวจสอบว่าคำตอบที่อยู่ในกรอบถูกต้องหรือไม่ (สำหรับคณิตศาสตร์) หรือว่าโค้ดผ่านการทดสอบหรือไม่ (สำหรับการเขียนโปรแกรม) รางวัลรูปแบบคือการตรวจสอบว่าแบบจำลองใส่ร่องรอยการคิดไว้ภายในแท็ก <think>...</think> หรือไม่[ 82 ]

R1-Zero มีปัญหาเรื่องความสามารถในการอ่านและการผสมภาษา R1 ได้รับการฝึกฝนเพื่อแก้ไขปัญหาเหล่านี้และปรับปรุงการให้เหตุผลให้ดียิ่งขึ้น: [ 82 ]

  1. SFT DeepSeek-V3 สร้างขึ้นจากข้อมูล "cold-start" นับพันชุด โดยทั้งหมดอยู่ในรูปแบบมาตรฐาน|special_token|<reasoning_process>|special_token|<summary>ออกแบบมาเพื่อปรับปรุงความสามารถในการอ่านผลลัพธ์ของโมเดล
  2. ใช้กระบวนการ GRPO RL เดียวกันกับ R1-Zero โดยเพิ่ม "รางวัลความสอดคล้องทางภาษา" เพื่อกระตุ้นให้ตอบสนองด้วยภาษาเดียว ซึ่งได้สร้างแบบจำลองภายในที่ยังไม่ได้เผยแพร่
  3. สังเคราะห์ข้อมูลการให้เหตุผล 600,000 ชุดจากแบบจำลองภายใน โดยใช้การสุ่มตัวอย่างแบบปฏิเสธ (เช่น หากการให้เหตุผลที่สร้างขึ้นมีคำตอบสุดท้ายที่ผิด จะถูกลบออก) สังเคราะห์ข้อมูลที่ไม่เกี่ยวข้องกับการให้เหตุผล 200,000 ชุด (การเขียน การถามตอบข้อเท็จจริง การคิดด้วยตนเอง การแปล) โดยใช้ DeepSeek-V3
  4. SFT DeepSeek-V3-Base อ้างอิงจากข้อมูลสังเคราะห์ 800K สำหรับ 2 รอบการฝึก (epochs)
  5. ใช้กระบวนการ GRPO RL เดียวกันกับ R1-Zero โดยใช้รางวัลตามกฎ (สำหรับงานด้านการให้เหตุผล) และรางวัลตามแบบจำลอง (สำหรับงานที่ไม่เกี่ยวข้องกับการให้เหตุผล ความช่วยเหลือ และความไม่เป็นอันตราย) ซึ่งได้ผลลัพธ์เป็น DeepSeek-R1

โมเดลที่กลั่นแล้วได้รับการฝึกฝนโดย SFT บนข้อมูล 800K ที่สังเคราะห์จาก DeepSeek-R1 ในลักษณะเดียวกับขั้นตอนที่ 3 โดยไม่ได้ฝึกฝนด้วย RL [ 82 ]

มีรายงานว่า R2 ซึ่งเป็นรุ่นต่อจาก R1 ที่วางแผนไว้ เดิมทีวางแผนจะวางจำหน่ายในช่วงต้นเดือนพฤษภาคม 2025 [ 112 ]อย่างไรก็ตาม ในวันที่ 28 พฤษภาคม 2025 R1 กลับได้รับการอัปเดตเป็นเวอร์ชัน R1-0528 แทน[ 113 ]ณ ต้นเดือนกรกฎาคม R2 ยังไม่ได้รับการวางจำหน่าย เนื่องจากเหลียง เหวินเฟิงยังไม่พอใจกับประสิทธิภาพของมัน ผู้ให้บริการคลาวด์ของจีนส่วนใหญ่ที่ใช้ R1 ใช้Nvidia H20 [ 114 ] เดือนสิงหาคม R2 ยังไม่ได้รับการวางจำหน่าย แหล่งข่าวอ้างถึงปัญหาการติดป้ายข้อมูลที่ช้าและปัญหาชิป โดยเฉพาะอย่างยิ่ง DeepSeek ได้รับการสนับสนุนจากหน่วยงานให้ใช้ชิป Ascend ของ Huawei สำหรับการฝึกอบรม แต่ชิปดังกล่าวมีปัญหาด้านเสถียรภาพ การเชื่อมต่อระหว่างชิปที่ช้าลง และซอฟต์แวร์ที่ด้อยกว่า ดังนั้นจึงเลือกใช้ชิป Nvidia สำหรับการฝึกอบรมและชิป Huawei สำหรับการอนุมาน[ 115 ]นอกจากนี้ยังมีรายงานว่าสำนักงานบริหารไซเบอร์สเปซแห่งประเทศจีนได้ขอให้บริษัทขนาดใหญ่หลายแห่งหยุดซื้อ Nvidia H20 และซื้อจากซัพพลายเออร์ในประเทศแทน[ 116 ]

เมื่อมีการเปิดตัว R1 ในเดือนมกราคม 2025 ทีม DeepSeek ได้เผยแพร่เอกสารฉบับร่างบน arXiv [ 82 ]ต่อมาได้มีการเผยแพร่เวอร์ชันที่อัปเดตแล้วในNatureในเดือนกันยายน 2025 [ 117 ]

วี4

สถาปัตยกรรม DeepSeek-V4 และ mHC

ในเดือนเมษายน 2026 DeepSeek ได้ปล่อยตัวอย่างโมเดลซีรีส์ V4 รุ่นใหม่

โมเดล DeepSeek V4 ได้ปรับปรุงสถาปัตยกรรม V3/R1 รุ่นก่อนหน้าในลักษณะต่อไปนี้[ 118 ] :

  • โมเดลนี้ใช้สถาปัตยกรรม Manifold-constrained Hyper Connections (mHC) ซึ่งอ้างว่า "ช่วยเพิ่มประสิทธิภาพการเชื่อมต่อแบบตกค้างแบบดั้งเดิม"
  • พวกเขาได้นำเสนอ Constrained Sparse Attention (CSA) และ Heavily Compressed Attention (HCA) ซึ่งเป็นการปรับเปลี่ยนกลไก Attention ที่ใช้ในโมเดล Transformer โดยอิงจากสถาปัตยกรรม DeepSeek Sparse Attention รุ่นก่อนหน้าที่พวกเขาได้นำเสนอในเวอร์ชัน 3.2
  • ตัวปรับแต่ง Muon ถูกนำมาใช้สำหรับเลเยอร์ส่วนใหญ่เพื่อ "การบรรจบกันที่เร็วขึ้นและความเสถียรในการฝึกอบรมที่ดีขึ้น"

พวกเขาได้วางจำหน่ายรุ่นสองขนาด คือ V4-Flash และ V4-Pro โดยแต่ละรุ่นสามารถใช้งานได้ในโหมดไม่ใช้เหตุผล โหมดใช้เหตุผล และโหมดใช้เหตุผลขั้นสูง "Max"

โมเดล DeepSeek V4 [ 118 ]
พารามิเตอร์ดีพซีค-วี4-แฟลชดีพซีค-วี4-โปร
พารามิเตอร์ทั้งหมด284บี1.6 ตัน
พารามิเตอร์ที่ใช้งานอยู่13บี49บี
จำนวนชั้น4361
ขนาดมิติที่ซ่อนอยู่40967168
ผู้เชี่ยวชาญด้าน MoE ที่ได้รับการฝึกฝนมาเป็นอย่างดี256384

ความสำคัญ

ความสำเร็จของ DeepSeek ในการแข่งขันกับคู่แข่งรายใหญ่และมีชื่อเสียงมากกว่านั้น ถือเป็นเรื่องน่าประหลาดใจสำหรับทั้งอุตสาหกรรมและตลาด[ 14 ] [ 119 ]และนักลงทุนและผู้เชี่ยวชาญต่างเปรียบเทียบกับ " ช่วงเวลาสปุตนิก " [ 14 ] [ 120 ] [ 121 ] [ 22 ] [ 21 ] [ 20 ]

โมเดล DeepSeek-R1 ให้การตอบสนองที่เทียบเคียงได้กับ โมเดลภาษาขนาดใหญ่ร่วมสมัยอื่นๆ เช่นGPT-4oและo1ของOpenAI [ 10 ] มีรายงานว่าต้นทุนการฝึกอบรมต่ำ กว่า LLM อื่นๆ อย่างมีนัยสำคัญ [ 122 ] [ 123 ]

บริษัทอ้างว่าได้ฝึกฝน V3 ซึ่งเป็นรุ่นก่อนหน้าของ R1 ด้วยงบประมาณ 6 ล้านดอลลาร์สหรัฐ เมื่อเทียบกับ 100 ล้านดอลลาร์สหรัฐสำหรับGPT-4 ของ OpenAI ในปี 2023 [ 11 ]และใช้พลังการประมวลผลประมาณหนึ่งในสิบของโมเดลที่เทียบเคียงได้ของMeta คือ LLaMA 3.1 [ 11 ] [ 12 ] [ 13 ]

หลังจากการเปิดตัวโมเดล R1 ในเดือนมกราคม 2025 ซึ่งมีต้นทุนต่ำกว่าโมเดลคู่แข่งอย่างมาก นักลงทุนบางรายคาดการณ์ว่าจะเกิดสงครามราคาในอุตสาหกรรม AI ของอเมริกา[ 124 ]มันถูกขนานนามว่า " Pinduoduoแห่ง AI" และยักษ์ใหญ่ด้านเทคโนโลยีของจีนรายอื่น ๆ เช่นByteDance , Tencent , BaiduและAlibabaลดราคาโมเดล AI ของตนลง แม้จะมีราคาต่ำ แต่ก็ยังทำกำไรได้เมื่อเทียบกับคู่แข่งที่ขาดทุน[ 64 ]

ดูเพิ่มเติม

หมายเหตุ

  1. จีน :杭州深度求索人工智能基础技术研究有限公司. [ 6 ]บางครั้งเรียกง่ายๆ ในภาษาอังกฤษว่า Hangzhou DeepSeek Artificial Intelligence
  2. จีน :深度求索;พินอิน : Shēndù Qiúsuǒ
  1. ^宁波程信柔兆企业管理咨询合伙企业(有限合伙) และ 宁波程恩企业管理咨询合伙企业(有限合伙)
  2. ^ a b cจำนวนหัวไม่เท่ากับจำนวนหัว KV เนื่องจาก GQA
  3. ^อย่างไม่น่าเชื่อ โมเดลที่กล่าวถึงDeepSeek-Coder-V2 Chatในบทความ กลับถูกปล่อยออกมาในชื่อDeepSeek-Coder-V2-InstructHuggingFace
  4. ^ณ เวลานั้นR1-Lite-Previewจำเป็นต้องเลือก "เปิดใช้งาน Deep Think" และผู้ใช้แต่ละคนสามารถใช้งานได้เพียง 50 ครั้งต่อวัน
  • เว็บไซต์อย่างเป็นทางการแก้ไขข้อมูลนี้ได้ที่วิกิดาต้า
  • DeepSeekบนGitHub
  • DeepSeekบนHugging Face
  • เอกสาร API อย่างเป็นทางการ
  • รวมบทความจาก DeepSeek
  • บล็อกวิจัยของ High-Flyer
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=DeepSeek&oldid=1360993086 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ดีพซีค

บริษัท Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.

การก่อตั้งและช่วงปีแรกๆ (2016–2023)

ในเดือนกุมภาพันธ์ พ.ศ. 2559 High-Flyer ก่อตั้งขึ้นโดย Liang Wenfeng ผู้ชื่นชอบ AI ซึ่งทำการซื้อขายมาตั้งแต่ช่วง วิกฤตการณ์ทางการเงินปี พ.ศ.

การเผยแพร่ภาพถ่ายนางแบบตั้งแต่ปี 2023

DeepSeek เปิดตัวโมเดลแรก DeepSeek Coder เมื่อวันที่ 2 พฤศจิกายน 2023 ตามด้วยซีรีส์ DeepSeek-LLM เมื่อวันที่ 29 พฤศจิกายน 2023 [ 37 ] : ส่วนที่ 5 ในเดือนมกราคม 2024 ได้เปิดตัวโมเดล DeepSeek-MoE สองรุ่น (Base และ Chat) [ 38 ] และในเดือนเมษายนได้เปิดตัวโมเดล...

การดำเนินงานของบริษัท

DeepSeek มีสำนักงานใหญ่อยู่ที่เมืองหางโจว มณฑลเจ้อเจียง และเป็นเจ้าของและได้รับเงินทุนจาก High-Flyer ผู้ร่วมก่อตั้งคือ Liang Wenfeng ดำรงตำแหน่งซีอีโอ ณ เดือนพฤษภาคม 2024 Liang ถือหุ้น 84% ใน DeepSeek ผ่าน บริษัทเชลล์ สอง แห่ง [ หมายเหตุ 1 ] [ 63 ]