กลับไปหน้าบทความ

อ่าน 9 นาที

ปาสคาล (สถาปัตยกรรมระดับไมโคร)

Pascalเป็นชื่อรหัสของสถาปัตยกรรมไมโครGPU ที่พัฒนาโดยNvidiaซึ่งเป็นรุ่นต่อจาก สถาปัตยกรรม Maxwellสถาปัตยกรรมนี้เปิดตัวครั้งแรกในเดือนเมษายน 2016 พร้อมกับการวางจำหน่าย Tesla P100...

ปาสคาล (สถาปัตยกรรมระดับไมโคร)

ปาสคาล
การ์ดจอ GTX 1070 Founders Edition ที่ใช้สถาปัตยกรรม Pascal
เปิดตัว27 พฤษภาคม 2559 ( 27 พฤษภาคม 2559 )
ออกแบบโดยเอ็นดีวีดี
ผลิตโดย
กระบวนการผลิต
ชื่อรหัสจีพี10x
ชุดผลิตภัณฑ์
เดสก์ท็อป
เวิร์คสเตชั่นระดับมืออาชีพ/เวิร์คสเตชั่น
เซิร์ฟเวอร์/ศูนย์ข้อมูล
ข้อกำหนด
แคช L124  KB (ต่อ SM)
แคช L2256  KB—4  MB
การสนับสนุนหน่วยความจำ
รองรับPCIePCIe 3.0
APIกราฟิกที่รองรับ
ไดเร็กต์เอ็กซ์DirectX 12 (12.1)
ไดเร็กต์3ดีDirect3D 12.0
โมเดลเชเดอร์โมเดลเชเดอร์ 6.7
โอเพ่นจีแอลโอเพนกลู 4.6
คูดาความสามารถในการประมวลผล 6.0
วัลคานวัลคาน 1.4 [ 1 ]
APIการประมวลผลที่รองรับ
โอเพ่นซีแอลโอเพนซีแอล 3.0
เครื่องมือสื่อ
เข้ารหัสโคเดก
ถอดรหัสโคเดก
ความลึกของสี (บิต)
  • 8 บิต
  • 10 บิต
รองรับตัวเข้ารหัสเอ็นเวนซี
แสดงผลผลลัพธ์
ประวัติศาสตร์
ผู้มาก่อนแม็กซ์เวลล์
ผู้สืบทอด
สถานะการสนับสนุน
การสนับสนุนแบบจำกัดจนถึงเดือนพฤศจิกายน 2025 การอัปเดตความปลอดภัยจนถึงเดือนตุลาคม 2028 [ 2 ]
ภาพวาดของแบลส์ ปาสคาล ผู้เป็นที่มาของชื่อสถาปัตยกรรม

Pascalเป็นชื่อรหัสของสถาปัตยกรรมไมโครGPU ที่พัฒนาโดยNvidiaซึ่งเป็นรุ่นต่อจาก สถาปัตยกรรม Maxwellสถาปัตยกรรมนี้เปิดตัวครั้งแรกในเดือนเมษายน 2016 พร้อมกับการวางจำหน่าย Tesla P100 (GP100) ในวันที่ 5 เมษายน 2016 และส่วนใหญ่ใช้ในซีรี่ส์ GeForce 10โดยเริ่มจาก GeForce GTX 1080 และ GTX 1070 (ทั้งสองรุ่นใช้ GPU GP104) ซึ่งวางจำหน่ายในวันที่ 27 พฤษภาคม 2016 และ 10 มิถุนายน 2016 ตามลำดับ Pascal ผลิตโดยใช้กระบวนการFinFET 16 นาโนเมตรของTSMC [ 3 ]และต่อมาใช้กระบวนการ FinFET 14 นาโนเมตรของSamsung [ 4 ] 

สถาปัตยกรรมนี้ตั้งชื่อตามบลาส์ ปาสคาลนัก คณิตศาสตร์และนักฟิสิกส์ชาวฝรั่งเศสในศตวรรษที่ 17

ในเดือนเมษายน พ.ศ. 2562 Nvidia ได้เปิดใช้งานการใช้งานซอฟต์แวร์ของDirectX Raytracingบนการ์ดที่ใช้สถาปัตยกรรม Pascal โดยเริ่มจาก GTX 1060 6 GB และใน การ์ด ซีรี่ส์ 16ซึ่งเป็นคุณสมบัติที่สงวนไว้สำหรับซีรี่ส์ RTX ที่ใช้สถาปัตยกรรม Turing จนถึงขณะนั้น[ 5 ] [ 6 ]

รายละเอียด

ภาพถ่ายไดคัทของ GPU GP100 ที่ใช้ในกราฟิกการ์ด Nvidia Tesla P100
ภาพถ่ายไดคัทของชิปประมวลผลกราฟิก GP102 ที่พบภายในกราฟิกการ์ด GeForce GTX 1080 Ti
ภาพถ่ายไดคัทของชิปประมวลผลกราฟิก GP106 ที่พบในกราฟิกการ์ด GTX 1060

ในเดือนมีนาคม พ.ศ. 2557 Nvidia ได้ประกาศว่าสถาปัตยกรรมไมโคร Pascal จะเป็นรุ่นต่อจากMaxwellโดยประกาศเมื่อวันที่ 6 พฤษภาคม พ.ศ. 2559 และวางจำหน่ายเมื่อวันที่ 27 พฤษภาคมของปีเดียวกัน ชิป Tesla P100 (GP100) มีสถาปัตยกรรม Pascal เวอร์ชันที่แตกต่างจาก GPU GTX (GP104) หน่วยประมวลผล Shaderใน GP104 มีการออกแบบที่คล้ายกับMaxwell [ 7 ]

การปรับปรุงด้านสถาปัตยกรรมของสถาปัตยกรรม GP100 ประกอบด้วยสิ่งต่อไปนี้: [ 8 ] [ 9 ] [ 10 ]

  • ในสถาปัตยกรรม Pascal นั้น SM (streaming multiprocessor) ประกอบด้วยคอร์ CUDA จำนวน 64-128 คอร์ ขึ้นอยู่กับว่าเป็น GP100 หรือ GP104 Maxwellมีคอร์ CUDA 128 คอร์ต่อ SM; Kepler มี 192 คอร์, Fermi มี 32 คอร์ และ Tesla มี 8 คอร์ SM ของ GP100 ถูกแบ่งออกเป็นสองบล็อกประมวลผล แต่ละบล็อกมีคอร์ CUDA แบบความแม่นยำเดี่ยว 32 คอร์, บัฟเฟอร์คำสั่ง, ตัวจัดตารางเวลาแบบ warp, หน่วยแมปพื้นผิว 2 หน่วย และหน่วยส่งคำสั่ง 2 หน่วย
  • ความสามารถในการประมวลผล CUDA 6.0
  • หน่วยความจำแบนด์วิดท์สูง 2 (High Bandwidth Memory 2 หรือ HBM2) — การ์ดบางรุ่นมี HBM2 ขนาด 16 GiB แบ่งเป็น 4 แถว โดยมีความกว้างของบัสรวม 4096 บิต และแบนด์วิดท์หน่วยความจำ 720 GB/s
  • หน่วยความจำแบบรวม (Unified memory) คือสถาปัตยกรรมหน่วยความจำที่ซีพียูและจีพียูสามารถเข้าถึงทั้งหน่วยความจำหลักของระบบและหน่วยความจำบนการ์ดกราฟิกได้ด้วยเทคโนโลยีที่เรียกว่า "Page Migration Engine"
  • NVLink — บัสแบนด์วิดท์สูงระหว่าง CPU และ GPU และระหว่าง GPU หลายตัว ช่วยให้ความเร็วในการถ่ายโอนสูงกว่าที่ทำได้โดยใช้ PCI Express มาก คาดว่าจะให้ความเร็วระหว่าง 80 ถึง 200 GB/s [ 11 ] [ 12 ]
  • การคำนวณจุดลอยตัว16 บิต ( FP16 ) (เรียกกันทั่วไปว่า "ความแม่นยำครึ่งหนึ่ง") สามารถดำเนินการได้ในอัตราสองเท่าของการคำนวณจุดลอยตัว 32 บิต ("ความแม่นยำเดี่ยว") [ 13 ]และการคำนวณจุดลอยตัว 64 บิต (เรียกกันทั่วไปว่า "ความแม่นยำสองเท่า") สามารถดำเนินการได้ในอัตราครึ่งหนึ่งของการคำนวณจุดลอยตัว 32 บิต[ 14 ]
  • มีรีจิสเตอร์มากขึ้น — มีจำนวนรีจิสเตอร์ต่อคอร์ CUDA มากกว่า Maxwell ถึงสองเท่า
  • ความทรงจำร่วมกันมากขึ้น
  • ระบบการจัดตารางงานแบบปรับสมดุลโหลดแบบไดนามิก[ 15 ]ซึ่งช่วยให้ตัวจัดตารางงานสามารถปรับปริมาณ GPU ที่กำหนดให้กับงานหลายงานได้แบบไดนามิก ทำให้มั่นใจได้ว่า GPU จะยังคงทำงานเต็มที่ ยกเว้นเมื่อไม่มีงานเพิ่มเติมที่สามารถกระจายได้อย่างปลอดภัย[ 15 ]ดังนั้น Nvidia จึงเปิดใช้งานการประมวลผลแบบอะซิงโครนัสในไดรเวอร์ของ Pascal ได้อย่างปลอดภัย[ 15 ]
  • การแย่งชิงระดับคำสั่งและระดับเธรด[ 16 ]

การปรับปรุงทางสถาปัตยกรรมของสถาปัตยกรรม GP104 ประกอบด้วยสิ่งต่อไปนี้: [ 7 ]

  • ความสามารถในการประมวลผล CUDA 6.1
  • GDDR5X — มาตรฐานหน่วยความจำใหม่ที่รองรับอัตราการส่งข้อมูล 10Gbit/s พร้อมตัวควบคุมหน่วยความจำที่ได้รับการปรับปรุง[ 17 ]
  • การฉายภาพหลายภาพพร้อมกัน - การสร้างการฉายภาพหลายภาพของสตรีมเรขาคณิตเดียว เมื่อเข้าสู่เอ็นจิ้น SMP จากขั้นตอนเชเดอร์ต้นน้ำ[ 18 ]
  • DisplayPort 1.4, HDMI 2.0b
  • การบีบอัดสีแบบเดลต้า รุ่นที่สี่
  • อินเทอร์เฟซ SLI ที่ได้รับการปรับปรุง — อินเทอร์เฟซ SLI ที่มีแบนด์วิดท์สูงกว่าเวอร์ชันก่อนหน้า
  • ชุดคุณสมบัติ PureVideo H สำหรับการถอดรหัสวิดีโอด้วยฮาร์ดแวร์ ได้แก่ HEVC Main10 (10 บิต), Main12 (12 บิต) และ VP9
  • รองรับ HDCP 2.2 สำหรับการเล่นและการสตรีมเนื้อหา 4K ที่ได้รับการป้องกัน DRM (Maxwell GM200 และ GM204 ไม่รองรับ HDCP 2.2 ส่วน GM206 รองรับ HDCP 2.2) [ 19 ]
  • NVENC HEVC Main10 การเข้ารหัสฮาร์ดแวร์ 10 บิต
  • GPU Boost 3.0
  • การแย่งชิงระดับคำสั่ง[ 16 ]ในงานกราฟิก ไดรเวอร์จะจำกัดการแย่งชิงไว้ที่ระดับพิกเซล เนื่องจากงานพิกเซลมักจะเสร็จสิ้นอย่างรวดเร็ว และค่าใช้จ่ายด้านโอเวอร์เฮดของการแย่งชิงระดับพิกเซลนั้นต่ำกว่าการแย่งชิงระดับคำสั่ง (ซึ่งมีราคาแพง) [ 16 ]งานคำนวณจะได้รับการแย่งชิงระดับเธรดหรือระดับคำสั่ง[ 16 ]เนื่องจากอาจใช้เวลานานกว่าในการเสร็จสิ้น และไม่มีการรับประกันว่างานคำนวณจะเสร็จสิ้นเมื่อใด ดังนั้นไดรเวอร์จึงเปิดใช้งานการแย่งชิงระดับคำสั่งที่มีราคาแพงสำหรับงานเหล่านี้[ 16 ]

ภาพรวม

กลุ่มโปรเซสเซอร์กราฟิก

ชิปจะถูกแบ่งออกเป็นคลัสเตอร์ประมวลผลกราฟิก (GPC) สำหรับชิป GP104 นั้น GPC หนึ่งชุดจะประกอบด้วย SM จำนวน 5 ชุด

สตรีมมิ่งมัลติโปรเซสเซอร์ "ปาสคาล"

"Streaming Multiprocessor" มีลักษณะคล้ายคลึงกับCompute Unit ของ AMD SM ประกอบด้วย ALU แบบความแม่นยำเดี่ยว 128 ตัว ("CUDA core") บนชิป GP104 และ ALU แบบความแม่นยำเดี่ยว 64 ตัวบนชิป GP100 ในขณะที่ CU ทุกเวอร์ชันประกอบด้วยโปรเซสเซอร์ shader 64 ตัว (เช่น SIMD Vector Units 4 ตัว แต่ละตัวกว้าง 16 เลน) Nvidia ได้ทดลองใช้จำนวน CUDA core ที่แตกต่างกันมาก:

  • บนTeslaนั้น 1 SM จะรวมหน่วยประมวลผล Shader แบบความแม่นยำเดี่ยว (FP32) จำนวน 8 ตัวเข้าด้วยกัน
  • บนสถาปัตยกรรม Fermiนั้น 1 SM จะรวมหน่วยประมวลผล Shader แบบความแม่นยำเดี่ยว (FP32) จำนวน 32 ตัวเข้าด้วยกัน
  • บนระบบ Keplerนั้น 1 SM จะรวมหน่วยประมวลผล Shader แบบความแม่นยำเดี่ยว (FP32) จำนวน 192 หน่วย และหน่วยประมวลผล Shader แบบความแม่นยำคู่ (FP64) จำนวน 64 หน่วย (บน GPU GK110)
  • บนสถาปัตยกรรม Maxwellนั้น 1 SM จะรวมหน่วยประมวลผลเชเดอร์แบบความแม่นยำเดี่ยว (FP32) จำนวน 128 หน่วย
  • สำหรับภาษาปาสคาลนั้น ขึ้นอยู่กับหลายปัจจัย:
    • บน GP100, 1 SM รวมโปรเซสเซอร์ shader ความแม่นยำเดี่ยว (FP32) 64 ตัว และความแม่นยำคู่ (FP64) 32 ตัว ทำให้มีอัตราส่วนปริมาณงานความแม่นยำเดี่ยวต่อความแม่นยำคู่เป็น 2:1 GP100 ใช้คอร์ FP32 ที่ยืดหยุ่นกว่า ซึ่งสามารถประมวลผลตัวเลขความแม่นยำเดี่ยวหนึ่งตัวหรือตัวเลขความแม่นยำครึ่งหนึ่งสองตัวในเวกเตอร์สององค์ประกอบ[ 20 ]ซึ่งมีจุดประสงค์เพื่อรองรับงานการเรียนรู้ของเครื่อง ได้ดียิ่งขึ้น
    • บน GP104 นั้น SM หนึ่งตัวจะรวมเอา ALU แบบความแม่นยำเดี่ยว 128 ตัว, ALU แบบความแม่นยำคู่ 4 ตัว (ให้สัดส่วน 32:1) และ ALU แบบความแม่นยำครึ่งหนึ่ง 1 ตัว ซึ่งประกอบด้วยเวกเตอร์ของตัวเลขทศลอยแบบความแม่นยำครึ่งหนึ่งสองตัวที่สามารถประมวลผลคำสั่งเดียวกันกับตัวเลขทศลอยทั้งสองตัวได้ ทำให้ได้สัดส่วน 64:1 หากใช้คำสั่งเดียวกันกับทั้งสององค์ประกอบ

โพลีมอร์ฟเอ็นจิ้น 4.0

Polymorph Engine เวอร์ชัน 4.0 เป็นหน่วยที่รับผิดชอบในการสร้างรูปทรงสามมิติ (Tessellation ) โดยจะสอดคล้องกับGeometric Processor ของ AMD มีการย้ายจากโมดูล shader ไปยัง TPC เพื่อให้ Polymorph engine หนึ่งตัวสามารถป้อนข้อมูลให้กับ SM หลายตัวภายใน TPC ได้[ 21 ]

ชิป

แผงวงจรพิมพ์และชิป GTX 1080 Ti
  • GP100: ตัวเร่งความเร็ว GPU Tesla P100 ของ Nvidia มุ่งเป้าไปที่ แอปพลิเคชัน GPGPUเช่น การคำนวณความแม่นยำสองเท่า FP64 และการฝึกอบรมการเรียนรู้เชิงลึกที่ใช้ FP16 โดยใช้ หน่วยความ จำHBM2 [ 22 ] Quadro GP100 ก็ใช้ GPU GP100 เช่นกัน
  • GP102: GPU นี้ใช้ใน Titan Xp [ 23 ] Titan X Pascal [ 24 ]และ GeForce GTX 1080 Ti นอกจากนี้ยังใช้ใน Quadro P6000 [ 25 ]และ Tesla P40 [ 26 ]
  • GP104: GPU นี้ใช้ใน GeForce GTX 1070, GTX 1070 Ti, GTX 1080 และ GTX 1060 6 GB บางรุ่น GTX 1070 มี SM ที่เปิดใช้งาน 15/20 ตัว และ GTX 1070 Ti มี SM ที่เปิดใช้งาน 19/20 ตัว ทั้งสองรุ่นใช้หน่วยความจำ GDDR5 GTX 1080 เป็นชิปที่ปลดล็อคอย่างสมบูรณ์และใช้หน่วยความจำ GDDR5X GTX 1060 6 GB บางรุ่นใช้ GP104 ที่มี SM ที่เปิดใช้งาน 10/20 ตัวและหน่วยความจำ GDDR5X [ 27 ]นอกจากนี้ยังใช้ใน Quadro P5000, Quadro P4000, Quadro P3200 (แอปพลิเคชันมือถือ) และ Tesla P4
  • GP106: GPU นี้ใช้ใน GeForce GTX 1060 ที่มีหน่วยความจำ GDDR5 [ 28 ] [ 29 ] [ 30 ]นอกจากนี้ยังใช้ใน Quadro P2000 ด้วย
  • GP107: ชิปประมวลผลกราฟิกตัวนี้ใช้ใน GeForce GTX 1050 และ 1050 Ti รวมถึง Quadro P1000, Quadro P600, Quadro P620 และ Quadro P400 ด้วย
  • GP108: หน่วยประมวลผลกราฟิก (GPU) นี้ใช้ใน GeForce GT 1010 และ GeForce GT 1030
ตารางเปรียบเทียบชิป Kepler, Maxwell และ Pascal บางรุ่น
จีเค104จีเค110GM204 (GTX 970)GM204 (GTX 980)จีเอ็ม200จีพี104จีพี100
แคชพื้นผิวเฉพาะสำหรับแต่ละ SM48 กิโลไบต์ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล
แคชข้อมูลพื้นผิว (กราฟิกหรือการคำนวณ) หรือแคชข้อมูลแบบอ่านอย่างเดียว (การคำนวณอย่างเดียว) ต่อ SMไม่มีข้อมูล48 กิโลไบต์[ 31 ]ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล
พาร์ติชั่นหน่วยความจำร่วม/L1 ที่โปรแกรมเมอร์เลือกได้ต่อ SMหน่วยความจำร่วม 48 KiB + แคช L1 16 KiB (ค่าเริ่มต้น) [ 32 ]หน่วยความจำร่วม 48 KiB + แคช L1 16 KiB (ค่าเริ่มต้น) [ 32 ]ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล
หน่วยความจำที่ใช้ร่วมกัน 32 KiB + แคช L1 32 KiB [ 32 ]หน่วยความจำที่ใช้ร่วมกัน 32 KiB + แคช L1 32 KiB [ 32 ]
หน่วยความจำที่ใช้ร่วมกัน 16 KiB + แคช L1 48 KiB [ 32 ]หน่วยความจำที่ใช้ร่วมกัน 16 KiB + แคช L1 48 KiB [ 32 ]
แคช L1/แคชพื้นผิวแบบรวมต่อ SMไม่มีข้อมูลไม่มีข้อมูล48 กิโลไบต์[ 33 ]48 กิโลไบต์[ 33 ]48 กิโลไบต์[ 33 ]48 กิโลไบต์[ 33 ]24 กิโลไบต์[ 33 ]
หน่วยความจำร่วมเฉพาะสำหรับแต่ละ SMไม่มีข้อมูลไม่มีข้อมูล96 กิโลไบต์[ 33 ]96 กิโลไบต์[ 33 ]96 กิโลไบต์[ 33 ]96 กิโลไบต์[ 33 ]64 กิโลไบต์[ 33 ]
แคช L2 ต่อชิป512 กิโลไบต์[ 33 ]1536 กิโลไบต์[ 33 ]1792 กิโลไบต์[ 34 ]2048 กิโลไบต์[ 34 ]3072 กิโลไบต์[ 33 ]2048 กิโลไบต์[ 33 ]4096 กิโลไบต์[ 33 ]

ผลงาน

กำลังการประมวลผลความแม่นยำเดี่ยวเชิงทฤษฎีของ GPU Pascal ในหน่วย GFLOPSคำนวณได้จาก 2 × การดำเนินการต่อคำสั่ง FMA ต่อคอร์ CUDA ต่อรอบ × จำนวนคอร์ CUDA × ความเร็วสัญญาณนาฬิกาของคอร์ (ในหน่วย GHz)

พลังการประมวลผลแบบความแม่นยำสองเท่าตามทฤษฎีของ GPU Pascal นั้นเป็น 1/2 ของประสิทธิภาพความแม่นยำเดี่ยวของ Nvidia GP100 และ 1/32 ของ Nvidia GP102, GP104, GP106, GP107 และ GP108

กำลังการประมวลผลความแม่นยำครึ่งหนึ่งตามทฤษฎีของ GPU Pascal คือ 2 เท่าของประสิทธิภาพความแม่นยำเดี่ยวบน GP100 [ 14 ]และ 1/64 บน GP104, GP106, GP107 และ GP108 [ 20 ]

ผู้สืบทอด

สถาปัตยกรรม Pascal ได้รับการแทนที่โดยVolta ในปี 2017 ใน ตลาด HPC , การประมวลผลแบบคลาวด์และรถยนต์ขับเคลื่อนอัตโนมัติและโดยTuring ในปี 2018 ในตลาดผู้บริโภคและธุรกิจ[ 35 ]

ตัวเร่งความเร็ว P100 และ DGX-1

เริ่มต้นจาก P100 [ 36 ] [ 37 ] [ 38 ]ไปยัง V100 [ 39 ]ไปยัง A100 [ 40 ]ไปยัง H100 [ 41 ]ไปยัง B200 [ 42 ] [ 43 ]และไปยัง R100 [ 44 ]การเปรียบเทียบเครื่องเร่งอนุภาคที่ใช้ใน DGX:

ทั่วไปและสถาปัตยกรรม

แบบอย่าง สถาปัตยกรรม ซ็อกเก็ต จีพี กระบวนการผลิต จำนวนทรานซิสเตอร์

(พันล้าน)

ขนาดแม่พิมพ์

(มม. ² )

เปิดตัว
พี100 ปาสคาลSXM/SXM2 จีพี100 TSMC 16FF+ 15.3 610 ไตรมาสที่ 2 ปี 2559
V100 16GB โวลต้าSXM2 จีวี100 ทีเอสเอ็มซี 12เอฟเอ็น 21.1 815 ไตรมาสที่ 3 ปี 2560
V100 32GB SXM3
A100 40GB แอมแปร์SXM4 GA100 ทีเอสเอ็มซีเอ็น7 54.2 826 ไตรมาสที่ 1 ปี 2020
A100 80GB ไตรมาสที่ 4 ปี 2020
เอช100 ฮอปเปอร์SXM5 GH100 ทีเอสเอ็มซี 4เอ็น 80 814 ไตรมาสที่ 3 ปี 2022
เอช200 ไตรมาสที่ 3 ปี 2023
บี100 แบล็กเวลล์SXM6 จีบี100 ทีเอสเอ็มซี 4เอ็นพี 208 ไม่มีข้อมูล ไตรมาสที่ 4 ปี 2024
บี200
100 แรนด์ รูบินSXM7ไม่มีข้อมูลทีเอสเอ็มซี 3เอ็น 338ไม่มีข้อมูลครึ่งหลังของปี 2026

คอร์, นาฬิกา และพลังงาน

แบบอย่าง นาฬิกาเร่งความเร็ว

(เมกะเฮิร์ตซ์)

#SM แกนกลาง

(FP32 CUDA)

แกนกลาง

(FP64 ไม่รวมเทนเซอร์)

แกนกลาง

(ผสม INT32/FP32)

แกนกลาง

(INT32)

ทีดีพี

(W)

พี100 1480 56 3584 ค.ศ. 1792ไม่มีข้อมูลไม่มีข้อมูล300
V100 16GB 1530 80 5120 2560 ไม่มีข้อมูล 5120 300
V100 32GB 350
A100 40GB 1410 108 6912 3456 6912 ไม่มีข้อมูล 400
A100 80GB
เอช100 1980 132 16896 4608 16896 ไม่มีข้อมูล 700
เอช200 1000
บี100 ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล700
บี200 ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล1000
100 แรนด์ ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล2300

หน่วยความจำและแคช

แบบอย่าง ประเภทหน่วยความจำ

(เอชบีเอ็ม)

ขนาด VRAM

(สหราชอาณาจักร)

ความเร็วหน่วยความจำ

(กิกะไบต์/วินาที)

ความกว้างของรถบัส

(บิต)

แบนด์วิดท์

(TB/s)

แคช L1

ต่อ SM (KB)

แคช L1

รวม (KB)

แคช L2

(KB)

พี100 เอชบีเอ็ม2 16 1.4 4096 0.72 24 1344 4096
V100 16GB เอชบีเอ็ม2 16 1.75 4096 0.9 128 10240 6144
V100 32GB 32
A100 40GB เอชบีเอ็ม2 40 2.4 5120 1.52 192 20736 40960
A100 80GB HBM2e 80 3.2
เอช100 เอชบีเอ็ม3 80 5.2 5120 3.35 192 25344 51200
เอช200 HBM3e 141 6.3 6144 4.8
บี100 HBM3e 192 8 8192 8 ไม่มีข้อมูล ไม่มีข้อมูล ไม่มีข้อมูล
บี200
100 แรนด์ เอชบีเอ็ม4ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล

ประสิทธิภาพการประมวลผล การเชื่อมต่อ และเครือข่าย

แบบอย่าง เอฟพี32

(TFLOPS)

เอฟพี64

(TFLOPS)

อินที8

เทนเซอร์หนาแน่น

เอฟพี16

เทนเซอร์หนาแน่น

บฟลัต16

เทนเซอร์หนาแน่น

เอฟเอฟ32

เทนเซอร์หนาแน่น

เอฟพี64

เทนเซอร์หนาแน่น

การเชื่อมต่อ

(NVLink; เทราไบต์/วินาที)

การสร้างเครือข่าย
พี100 10.6 5.3ไม่มีข้อมูล21.2ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล0.16 คอนเน็กต์เอ็กซ์-4

(100 กิกะไบต์/วินาที)

V100 16GB 15.7 7.8 ไม่มีข้อมูล 125 TFLOPS ไม่มีข้อมูล ไม่มีข้อมูล ไม่มีข้อมูล 0.3 คอนเน็กต์เอ็กซ์-5

(100 กิกะไบต์/วินาที)

V100 32GB
A100 40GB 19.5 9.7 624 ท็อปส์ 312 TFLOPS 312 TFLOPS 156 TFLOPS 19.5 TFLOPS 0.6 คอนเน็กต์เอ็กซ์-6

(200 กิกะไบต์/วินาที)

A100 80GB
เอช100 67 34 1.98 ป๊อปส์ 990 TFLOPS 990 TFLOPS 495 TFLOPS 67 TFLOPS 0.9 คอนเน็กต์เอ็กซ์-7

(400 กิกะไบต์/วินาที)

เอช200
บี100 ไม่มีข้อมูลไม่มีข้อมูล3.5 ป๊อปส์ 1.98 PFLOPS 1.98 PFLOPS 989 TFLOPS 30 TFLOPS 1.8 คอนเน็กต์เอ็กซ์-7

(400 กิกะไบต์/วินาที)

บี200 ไม่มีข้อมูลไม่มีข้อมูล4.5 ป๊อปส์ 2.25 ฟล็อปส์ 2.25 ฟล็อปส์ 1.2 พีแอลโอปส์ 40 ทฟล็อปส์
100 แรนด์ ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลคอนเน็กต์เอ็กซ์-9

(1600 กิกะไบต์/วินาที)

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Pascal_(microarchitecture)&oldid=1336611716 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ปาสคาล (สถาปัตยกรรมระดับไมโคร)

Pascalเป็นชื่อรหัสของสถาปัตยกรรมไมโครGPU ที่พัฒนาโดยNvidiaซึ่งเป็นรุ่นต่อจาก สถาปัตยกรรม Maxwellสถาปัตยกรรมนี้เปิดตัวครั้งแรกในเดือนเมษายน 2016 พร้อมกับการวางจำหน่าย Tesla P100...

รายละเอียด

ในเดือนมีนาคม พ.ศ. 2557 Nvidia ได้ประกาศว่าสถาปัตยกรรมไมโคร Pascal จะเป็นรุ่นต่อจาก Maxwell โดยประกาศเมื่อวันที่ 6 พฤษภาคม พ.ศ.

กลุ่มโปรเซสเซอร์กราฟิก

ชิปจะถูกแบ่งออกเป็นคลัสเตอร์ประมวลผลกราฟิก (GPC) สำหรับชิป GP104 นั้น GPC หนึ่งชุดจะประกอบด้วย SM จำนวน 5 ชุด

สตรีมมิ่งมัลติโปรเซสเซอร์ "ปาสคาล"

"Streaming Multiprocessor" มีลักษณะคล้ายคลึงกับ Compute Unit ของ AMD SM ประกอบด้วย ALU แบบความแม่นยำเดี่ยว 128 ตัว ("CUDA core") บนชิป GP104 และ ALU แบบความแม่นยำเดี่ยว 64 ตัวบนชิป GP100 ในขณะที่ CU ทุกเวอร์ชันประกอบด้วยโปรเซสเซอร์ shader 64 ตัว (เช่น SIMD...