อ่าน 9 นาที
ปาสคาล (สถาปัตยกรรมระดับไมโคร)
Pascalเป็นชื่อรหัสของสถาปัตยกรรมไมโครGPU ที่พัฒนาโดยNvidiaซึ่งเป็นรุ่นต่อจาก สถาปัตยกรรม Maxwellสถาปัตยกรรมนี้เปิดตัวครั้งแรกในเดือนเมษายน 2016 พร้อมกับการวางจำหน่าย Tesla P100...
ปาสคาล (สถาปัตยกรรมระดับไมโคร)
การ์ดจอ GTX 1070 Founders Edition ที่ใช้สถาปัตยกรรม Pascal | |
| เปิดตัว | 27 พฤษภาคม 2559 |
|---|---|
| ออกแบบโดย | เอ็นดีวีดี |
| ผลิตโดย | |
| กระบวนการผลิต |
|
| ชื่อรหัส | จีพี10x |
| ชุดผลิตภัณฑ์ | |
| เดสก์ท็อป | |
| เวิร์คสเตชั่นระดับมืออาชีพ/เวิร์คสเตชั่น | |
| เซิร์ฟเวอร์/ศูนย์ข้อมูล | |
| ข้อกำหนด | |
| แคช L1 | 24 KB (ต่อ SM) |
| แคช L2 | 256 KB—4 MB |
| การสนับสนุนหน่วยความจำ | |
| รองรับPCIe | PCIe 3.0 |
| APIกราฟิกที่รองรับ | |
| ไดเร็กต์เอ็กซ์ | DirectX 12 (12.1) |
| ไดเร็กต์3ดี | Direct3D 12.0 |
| โมเดลเชเดอร์ | โมเดลเชเดอร์ 6.7 |
| โอเพ่นจีแอล | โอเพนกลู 4.6 |
| คูดา | ความสามารถในการประมวลผล 6.0 |
| วัลคาน | วัลคาน 1.4 [ 1 ] |
| APIการประมวลผลที่รองรับ | |
| โอเพ่นซีแอล | โอเพนซีแอล 3.0 |
| เครื่องมือสื่อ | |
| เข้ารหัสโคเดก | |
| ถอดรหัสโคเดก | |
| ความลึกของสี (บิต) |
|
| รองรับตัวเข้ารหัส | เอ็นเวนซี |
| แสดงผลผลลัพธ์ | |
| ประวัติศาสตร์ | |
| ผู้มาก่อน | แม็กซ์เวลล์ |
| ผู้สืบทอด | |
| สถานะการสนับสนุน | |
| การสนับสนุนแบบจำกัดจนถึงเดือนพฤศจิกายน 2025 การอัปเดตความปลอดภัยจนถึงเดือนตุลาคม 2028 [ 2 ] | |
Pascalเป็นชื่อรหัสของสถาปัตยกรรมไมโครGPU ที่พัฒนาโดยNvidiaซึ่งเป็นรุ่นต่อจาก สถาปัตยกรรม Maxwellสถาปัตยกรรมนี้เปิดตัวครั้งแรกในเดือนเมษายน 2016 พร้อมกับการวางจำหน่าย Tesla P100 (GP100) ในวันที่ 5 เมษายน 2016 และส่วนใหญ่ใช้ในซีรี่ส์ GeForce 10โดยเริ่มจาก GeForce GTX 1080 และ GTX 1070 (ทั้งสองรุ่นใช้ GPU GP104) ซึ่งวางจำหน่ายในวันที่ 27 พฤษภาคม 2016 และ 10 มิถุนายน 2016 ตามลำดับ Pascal ผลิตโดยใช้กระบวนการFinFET 16 นาโนเมตรของTSMC [ 3 ]และต่อมาใช้กระบวนการ FinFET 14 นาโนเมตรของSamsung [ 4 ]
สถาปัตยกรรมนี้ตั้งชื่อตามบลาส์ ปาสคาลนัก คณิตศาสตร์และนักฟิสิกส์ชาวฝรั่งเศสในศตวรรษที่ 17
ในเดือนเมษายน พ.ศ. 2562 Nvidia ได้เปิดใช้งานการใช้งานซอฟต์แวร์ของDirectX Raytracingบนการ์ดที่ใช้สถาปัตยกรรม Pascal โดยเริ่มจาก GTX 1060 6 GB และใน การ์ด ซีรี่ส์ 16ซึ่งเป็นคุณสมบัติที่สงวนไว้สำหรับซีรี่ส์ RTX ที่ใช้สถาปัตยกรรม Turing จนถึงขณะนั้น[ 5 ] [ 6 ]
รายละเอียด



ในเดือนมีนาคม พ.ศ. 2557 Nvidia ได้ประกาศว่าสถาปัตยกรรมไมโคร Pascal จะเป็นรุ่นต่อจากMaxwellโดยประกาศเมื่อวันที่ 6 พฤษภาคม พ.ศ. 2559 และวางจำหน่ายเมื่อวันที่ 27 พฤษภาคมของปีเดียวกัน ชิป Tesla P100 (GP100) มีสถาปัตยกรรม Pascal เวอร์ชันที่แตกต่างจาก GPU GTX (GP104) หน่วยประมวลผล Shaderใน GP104 มีการออกแบบที่คล้ายกับMaxwell [ 7 ]
การปรับปรุงด้านสถาปัตยกรรมของสถาปัตยกรรม GP100 ประกอบด้วยสิ่งต่อไปนี้: [ 8 ] [ 9 ] [ 10 ]
- ในสถาปัตยกรรม Pascal นั้น SM (streaming multiprocessor) ประกอบด้วยคอร์ CUDA จำนวน 64-128 คอร์ ขึ้นอยู่กับว่าเป็น GP100 หรือ GP104 Maxwellมีคอร์ CUDA 128 คอร์ต่อ SM; Kepler มี 192 คอร์, Fermi มี 32 คอร์ และ Tesla มี 8 คอร์ SM ของ GP100 ถูกแบ่งออกเป็นสองบล็อกประมวลผล แต่ละบล็อกมีคอร์ CUDA แบบความแม่นยำเดี่ยว 32 คอร์, บัฟเฟอร์คำสั่ง, ตัวจัดตารางเวลาแบบ warp, หน่วยแมปพื้นผิว 2 หน่วย และหน่วยส่งคำสั่ง 2 หน่วย
- ความสามารถในการประมวลผล CUDA 6.0
- หน่วยความจำแบนด์วิดท์สูง 2 (High Bandwidth Memory 2 หรือ HBM2) — การ์ดบางรุ่นมี HBM2 ขนาด 16 GiB แบ่งเป็น 4 แถว โดยมีความกว้างของบัสรวม 4096 บิต และแบนด์วิดท์หน่วยความจำ 720 GB/s
- หน่วยความจำแบบรวม (Unified memory) คือสถาปัตยกรรมหน่วยความจำที่ซีพียูและจีพียูสามารถเข้าถึงทั้งหน่วยความจำหลักของระบบและหน่วยความจำบนการ์ดกราฟิกได้ด้วยเทคโนโลยีที่เรียกว่า "Page Migration Engine"
- NVLink — บัสแบนด์วิดท์สูงระหว่าง CPU และ GPU และระหว่าง GPU หลายตัว ช่วยให้ความเร็วในการถ่ายโอนสูงกว่าที่ทำได้โดยใช้ PCI Express มาก คาดว่าจะให้ความเร็วระหว่าง 80 ถึง 200 GB/s [ 11 ] [ 12 ]
- การคำนวณจุดลอยตัว16 บิต ( FP16 ) (เรียกกันทั่วไปว่า "ความแม่นยำครึ่งหนึ่ง") สามารถดำเนินการได้ในอัตราสองเท่าของการคำนวณจุดลอยตัว 32 บิต ("ความแม่นยำเดี่ยว") [ 13 ]และการคำนวณจุดลอยตัว 64 บิต (เรียกกันทั่วไปว่า "ความแม่นยำสองเท่า") สามารถดำเนินการได้ในอัตราครึ่งหนึ่งของการคำนวณจุดลอยตัว 32 บิต[ 14 ]
- มีรีจิสเตอร์มากขึ้น — มีจำนวนรีจิสเตอร์ต่อคอร์ CUDA มากกว่า Maxwell ถึงสองเท่า
- ความทรงจำร่วมกันมากขึ้น
- ระบบการจัดตารางงานแบบปรับสมดุลโหลดแบบไดนามิก[ 15 ]ซึ่งช่วยให้ตัวจัดตารางงานสามารถปรับปริมาณ GPU ที่กำหนดให้กับงานหลายงานได้แบบไดนามิก ทำให้มั่นใจได้ว่า GPU จะยังคงทำงานเต็มที่ ยกเว้นเมื่อไม่มีงานเพิ่มเติมที่สามารถกระจายได้อย่างปลอดภัย[ 15 ]ดังนั้น Nvidia จึงเปิดใช้งานการประมวลผลแบบอะซิงโครนัสในไดรเวอร์ของ Pascal ได้อย่างปลอดภัย[ 15 ]
- การแย่งชิงระดับคำสั่งและระดับเธรด[ 16 ]
การปรับปรุงทางสถาปัตยกรรมของสถาปัตยกรรม GP104 ประกอบด้วยสิ่งต่อไปนี้: [ 7 ]
- ความสามารถในการประมวลผล CUDA 6.1
- GDDR5X — มาตรฐานหน่วยความจำใหม่ที่รองรับอัตราการส่งข้อมูล 10Gbit/s พร้อมตัวควบคุมหน่วยความจำที่ได้รับการปรับปรุง[ 17 ]
- การฉายภาพหลายภาพพร้อมกัน - การสร้างการฉายภาพหลายภาพของสตรีมเรขาคณิตเดียว เมื่อเข้าสู่เอ็นจิ้น SMP จากขั้นตอนเชเดอร์ต้นน้ำ[ 18 ]
- DisplayPort 1.4, HDMI 2.0b
- การบีบอัดสีแบบเดลต้า รุ่นที่สี่
- อินเทอร์เฟซ SLI ที่ได้รับการปรับปรุง — อินเทอร์เฟซ SLI ที่มีแบนด์วิดท์สูงกว่าเวอร์ชันก่อนหน้า
- ชุดคุณสมบัติ PureVideo H สำหรับการถอดรหัสวิดีโอด้วยฮาร์ดแวร์ ได้แก่ HEVC Main10 (10 บิต), Main12 (12 บิต) และ VP9
- รองรับ HDCP 2.2 สำหรับการเล่นและการสตรีมเนื้อหา 4K ที่ได้รับการป้องกัน DRM (Maxwell GM200 และ GM204 ไม่รองรับ HDCP 2.2 ส่วน GM206 รองรับ HDCP 2.2) [ 19 ]
- NVENC HEVC Main10 การเข้ารหัสฮาร์ดแวร์ 10 บิต
- GPU Boost 3.0
- การแย่งชิงระดับคำสั่ง[ 16 ]ในงานกราฟิก ไดรเวอร์จะจำกัดการแย่งชิงไว้ที่ระดับพิกเซล เนื่องจากงานพิกเซลมักจะเสร็จสิ้นอย่างรวดเร็ว และค่าใช้จ่ายด้านโอเวอร์เฮดของการแย่งชิงระดับพิกเซลนั้นต่ำกว่าการแย่งชิงระดับคำสั่ง (ซึ่งมีราคาแพง) [ 16 ]งานคำนวณจะได้รับการแย่งชิงระดับเธรดหรือระดับคำสั่ง[ 16 ]เนื่องจากอาจใช้เวลานานกว่าในการเสร็จสิ้น และไม่มีการรับประกันว่างานคำนวณจะเสร็จสิ้นเมื่อใด ดังนั้นไดรเวอร์จึงเปิดใช้งานการแย่งชิงระดับคำสั่งที่มีราคาแพงสำหรับงานเหล่านี้[ 16 ]
ภาพรวม
กลุ่มโปรเซสเซอร์กราฟิก
ชิปจะถูกแบ่งออกเป็นคลัสเตอร์ประมวลผลกราฟิก (GPC) สำหรับชิป GP104 นั้น GPC หนึ่งชุดจะประกอบด้วย SM จำนวน 5 ชุด
สตรีมมิ่งมัลติโปรเซสเซอร์ "ปาสคาล"
"Streaming Multiprocessor" มีลักษณะคล้ายคลึงกับCompute Unit ของ AMD SM ประกอบด้วย ALU แบบความแม่นยำเดี่ยว 128 ตัว ("CUDA core") บนชิป GP104 และ ALU แบบความแม่นยำเดี่ยว 64 ตัวบนชิป GP100 ในขณะที่ CU ทุกเวอร์ชันประกอบด้วยโปรเซสเซอร์ shader 64 ตัว (เช่น SIMD Vector Units 4 ตัว แต่ละตัวกว้าง 16 เลน) Nvidia ได้ทดลองใช้จำนวน CUDA core ที่แตกต่างกันมาก:
- บนTeslaนั้น 1 SM จะรวมหน่วยประมวลผล Shader แบบความแม่นยำเดี่ยว (FP32) จำนวน 8 ตัวเข้าด้วยกัน
- บนสถาปัตยกรรม Fermiนั้น 1 SM จะรวมหน่วยประมวลผล Shader แบบความแม่นยำเดี่ยว (FP32) จำนวน 32 ตัวเข้าด้วยกัน
- บนระบบ Keplerนั้น 1 SM จะรวมหน่วยประมวลผล Shader แบบความแม่นยำเดี่ยว (FP32) จำนวน 192 หน่วย และหน่วยประมวลผล Shader แบบความแม่นยำคู่ (FP64) จำนวน 64 หน่วย (บน GPU GK110)
- บนสถาปัตยกรรม Maxwellนั้น 1 SM จะรวมหน่วยประมวลผลเชเดอร์แบบความแม่นยำเดี่ยว (FP32) จำนวน 128 หน่วย
- สำหรับภาษาปาสคาลนั้น ขึ้นอยู่กับหลายปัจจัย:
- บน GP100, 1 SM รวมโปรเซสเซอร์ shader ความแม่นยำเดี่ยว (FP32) 64 ตัว และความแม่นยำคู่ (FP64) 32 ตัว ทำให้มีอัตราส่วนปริมาณงานความแม่นยำเดี่ยวต่อความแม่นยำคู่เป็น 2:1 GP100 ใช้คอร์ FP32 ที่ยืดหยุ่นกว่า ซึ่งสามารถประมวลผลตัวเลขความแม่นยำเดี่ยวหนึ่งตัวหรือตัวเลขความแม่นยำครึ่งหนึ่งสองตัวในเวกเตอร์สององค์ประกอบ[ 20 ]ซึ่งมีจุดประสงค์เพื่อรองรับงานการเรียนรู้ของเครื่อง ได้ดียิ่งขึ้น
- บน GP104 นั้น SM หนึ่งตัวจะรวมเอา ALU แบบความแม่นยำเดี่ยว 128 ตัว, ALU แบบความแม่นยำคู่ 4 ตัว (ให้สัดส่วน 32:1) และ ALU แบบความแม่นยำครึ่งหนึ่ง 1 ตัว ซึ่งประกอบด้วยเวกเตอร์ของตัวเลขทศลอยแบบความแม่นยำครึ่งหนึ่งสองตัวที่สามารถประมวลผลคำสั่งเดียวกันกับตัวเลขทศลอยทั้งสองตัวได้ ทำให้ได้สัดส่วน 64:1 หากใช้คำสั่งเดียวกันกับทั้งสององค์ประกอบ
โพลีมอร์ฟเอ็นจิ้น 4.0
Polymorph Engine เวอร์ชัน 4.0 เป็นหน่วยที่รับผิดชอบในการสร้างรูปทรงสามมิติ (Tessellation ) โดยจะสอดคล้องกับGeometric Processor ของ AMD มีการย้ายจากโมดูล shader ไปยัง TPC เพื่อให้ Polymorph engine หนึ่งตัวสามารถป้อนข้อมูลให้กับ SM หลายตัวภายใน TPC ได้[ 21 ]
ชิป

- GP100: ตัวเร่งความเร็ว GPU Tesla P100 ของ Nvidia มุ่งเป้าไปที่ แอปพลิเคชัน GPGPUเช่น การคำนวณความแม่นยำสองเท่า FP64 และการฝึกอบรมการเรียนรู้เชิงลึกที่ใช้ FP16 โดยใช้ หน่วยความ จำHBM2 [ 22 ] Quadro GP100 ก็ใช้ GPU GP100 เช่นกัน
- GP102: GPU นี้ใช้ใน Titan Xp [ 23 ] Titan X Pascal [ 24 ]และ GeForce GTX 1080 Ti นอกจากนี้ยังใช้ใน Quadro P6000 [ 25 ]และ Tesla P40 [ 26 ]
- GP104: GPU นี้ใช้ใน GeForce GTX 1070, GTX 1070 Ti, GTX 1080 และ GTX 1060 6 GB บางรุ่น GTX 1070 มี SM ที่เปิดใช้งาน 15/20 ตัว และ GTX 1070 Ti มี SM ที่เปิดใช้งาน 19/20 ตัว ทั้งสองรุ่นใช้หน่วยความจำ GDDR5 GTX 1080 เป็นชิปที่ปลดล็อคอย่างสมบูรณ์และใช้หน่วยความจำ GDDR5X GTX 1060 6 GB บางรุ่นใช้ GP104 ที่มี SM ที่เปิดใช้งาน 10/20 ตัวและหน่วยความจำ GDDR5X [ 27 ]นอกจากนี้ยังใช้ใน Quadro P5000, Quadro P4000, Quadro P3200 (แอปพลิเคชันมือถือ) และ Tesla P4
- GP106: GPU นี้ใช้ใน GeForce GTX 1060 ที่มีหน่วยความจำ GDDR5 [ 28 ] [ 29 ] [ 30 ]นอกจากนี้ยังใช้ใน Quadro P2000 ด้วย
- GP107: ชิปประมวลผลกราฟิกตัวนี้ใช้ใน GeForce GTX 1050 และ 1050 Ti รวมถึง Quadro P1000, Quadro P600, Quadro P620 และ Quadro P400 ด้วย
- GP108: หน่วยประมวลผลกราฟิก (GPU) นี้ใช้ใน GeForce GT 1010 และ GeForce GT 1030
| จีเค104 | จีเค110 | GM204 (GTX 970) | GM204 (GTX 980) | จีเอ็ม200 | จีพี104 | จีพี100 | |
|---|---|---|---|---|---|---|---|
| แคชพื้นผิวเฉพาะสำหรับแต่ละ SM | 48 กิโลไบต์ | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล |
| แคชข้อมูลพื้นผิว (กราฟิกหรือการคำนวณ) หรือแคชข้อมูลแบบอ่านอย่างเดียว (การคำนวณอย่างเดียว) ต่อ SM | ไม่มีข้อมูล | 48 กิโลไบต์[ 31 ] | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล |
| พาร์ติชั่นหน่วยความจำร่วม/L1 ที่โปรแกรมเมอร์เลือกได้ต่อ SM | หน่วยความจำร่วม 48 KiB + แคช L1 16 KiB (ค่าเริ่มต้น) [ 32 ] | หน่วยความจำร่วม 48 KiB + แคช L1 16 KiB (ค่าเริ่มต้น) [ 32 ] | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล |
| หน่วยความจำที่ใช้ร่วมกัน 32 KiB + แคช L1 32 KiB [ 32 ] | หน่วยความจำที่ใช้ร่วมกัน 32 KiB + แคช L1 32 KiB [ 32 ] | ||||||
| หน่วยความจำที่ใช้ร่วมกัน 16 KiB + แคช L1 48 KiB [ 32 ] | หน่วยความจำที่ใช้ร่วมกัน 16 KiB + แคช L1 48 KiB [ 32 ] | ||||||
| แคช L1/แคชพื้นผิวแบบรวมต่อ SM | ไม่มีข้อมูล | ไม่มีข้อมูล | 48 กิโลไบต์[ 33 ] | 48 กิโลไบต์[ 33 ] | 48 กิโลไบต์[ 33 ] | 48 กิโลไบต์[ 33 ] | 24 กิโลไบต์[ 33 ] |
| หน่วยความจำร่วมเฉพาะสำหรับแต่ละ SM | ไม่มีข้อมูล | ไม่มีข้อมูล | 96 กิโลไบต์[ 33 ] | 96 กิโลไบต์[ 33 ] | 96 กิโลไบต์[ 33 ] | 96 กิโลไบต์[ 33 ] | 64 กิโลไบต์[ 33 ] |
| แคช L2 ต่อชิป | 512 กิโลไบต์[ 33 ] | 1536 กิโลไบต์[ 33 ] | 1792 กิโลไบต์[ 34 ] | 2048 กิโลไบต์[ 34 ] | 3072 กิโลไบต์[ 33 ] | 2048 กิโลไบต์[ 33 ] | 4096 กิโลไบต์[ 33 ] |
ผลงาน
กำลังการประมวลผลความแม่นยำเดี่ยวเชิงทฤษฎีของ GPU Pascal ในหน่วย GFLOPSคำนวณได้จาก 2 × การดำเนินการต่อคำสั่ง FMA ต่อคอร์ CUDA ต่อรอบ × จำนวนคอร์ CUDA × ความเร็วสัญญาณนาฬิกาของคอร์ (ในหน่วย GHz)
พลังการประมวลผลแบบความแม่นยำสองเท่าตามทฤษฎีของ GPU Pascal นั้นเป็น 1/2 ของประสิทธิภาพความแม่นยำเดี่ยวของ Nvidia GP100 และ 1/32 ของ Nvidia GP102, GP104, GP106, GP107 และ GP108
กำลังการประมวลผลความแม่นยำครึ่งหนึ่งตามทฤษฎีของ GPU Pascal คือ 2 เท่าของประสิทธิภาพความแม่นยำเดี่ยวบน GP100 [ 14 ]และ 1/64 บน GP104, GP106, GP107 และ GP108 [ 20 ]
ผู้สืบทอด
สถาปัตยกรรม Pascal ได้รับการแทนที่โดยVolta ในปี 2017 ใน ตลาด HPC , การประมวลผลแบบคลาวด์และรถยนต์ขับเคลื่อนอัตโนมัติและโดยTuring ในปี 2018 ในตลาดผู้บริโภคและธุรกิจ[ 35 ]
ตัวเร่งความเร็ว P100 และ DGX-1
เริ่มต้นจาก P100 [ 36 ] [ 37 ] [ 38 ]ไปยัง V100 [ 39 ]ไปยัง A100 [ 40 ]ไปยัง H100 [ 41 ]ไปยัง B200 [ 42 ] [ 43 ]และไปยัง R100 [ 44 ]การเปรียบเทียบเครื่องเร่งอนุภาคที่ใช้ใน DGX:
ทั่วไปและสถาปัตยกรรม
| แบบอย่าง | สถาปัตยกรรม | ซ็อกเก็ต | จีพี | กระบวนการผลิต | จำนวนทรานซิสเตอร์ (พันล้าน) | ขนาดแม่พิมพ์ (มม. ² ) | เปิดตัว |
|---|---|---|---|---|---|---|---|
| พี100 | ปาสคาล | SXM/SXM2 | จีพี100 | TSMC 16FF+ | 15.3 | 610 | ไตรมาสที่ 2 ปี 2559 |
| V100 16GB | โวลต้า | SXM2 | จีวี100 | ทีเอสเอ็มซี 12เอฟเอ็น | 21.1 | 815 | ไตรมาสที่ 3 ปี 2560 |
| V100 32GB | SXM3 | ||||||
| A100 40GB | แอมแปร์ | SXM4 | GA100 | ทีเอสเอ็มซีเอ็น7 | 54.2 | 826 | ไตรมาสที่ 1 ปี 2020 |
| A100 80GB | ไตรมาสที่ 4 ปี 2020 | ||||||
| เอช100 | ฮอปเปอร์ | SXM5 | GH100 | ทีเอสเอ็มซี 4เอ็น | 80 | 814 | ไตรมาสที่ 3 ปี 2022 |
| เอช200 | ไตรมาสที่ 3 ปี 2023 | ||||||
| บี100 | แบล็กเวลล์ | SXM6 | จีบี100 | ทีเอสเอ็มซี 4เอ็นพี | 208 | ไม่มีข้อมูล | ไตรมาสที่ 4 ปี 2024 |
| บี200 | |||||||
| 100 แรนด์ | รูบิน | SXM7 | ไม่มีข้อมูล | ทีเอสเอ็มซี 3เอ็น | 338 | ไม่มีข้อมูล | ครึ่งหลังของปี 2026 |
คอร์, นาฬิกา และพลังงาน
| แบบอย่าง | นาฬิกาเร่งความเร็ว (เมกะเฮิร์ตซ์) | #SM | แกนกลาง (FP32 CUDA) | แกนกลาง (FP64 ไม่รวมเทนเซอร์) | แกนกลาง (ผสม INT32/FP32) | แกนกลาง (INT32) | ทีดีพี (W) |
|---|---|---|---|---|---|---|---|
| พี100 | 1480 | 56 | 3584 | ค.ศ. 1792 | ไม่มีข้อมูล | ไม่มีข้อมูล | 300 |
| V100 16GB | 1530 | 80 | 5120 | 2560 | ไม่มีข้อมูล | 5120 | 300 |
| V100 32GB | 350 | ||||||
| A100 40GB | 1410 | 108 | 6912 | 3456 | 6912 | ไม่มีข้อมูล | 400 |
| A100 80GB | |||||||
| เอช100 | 1980 | 132 | 16896 | 4608 | 16896 | ไม่มีข้อมูล | 700 |
| เอช200 | 1000 | ||||||
| บี100 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 700 |
| บี200 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 1000 |
| 100 แรนด์ | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 2300 |
หน่วยความจำและแคช
| แบบอย่าง | ประเภทหน่วยความจำ (เอชบีเอ็ม) | ขนาด VRAM (สหราชอาณาจักร) | ความเร็วหน่วยความจำ (กิกะไบต์/วินาที) | ความกว้างของรถบัส (บิต) | แบนด์วิดท์ (TB/s) | แคช L1 ต่อ SM (KB) | แคช L1 รวม (KB) | แคช L2 (KB) |
|---|---|---|---|---|---|---|---|---|
| พี100 | เอชบีเอ็ม2 | 16 | 1.4 | 4096 | 0.72 | 24 | 1344 | 4096 |
| V100 16GB | เอชบีเอ็ม2 | 16 | 1.75 | 4096 | 0.9 | 128 | 10240 | 6144 |
| V100 32GB | 32 | |||||||
| A100 40GB | เอชบีเอ็ม2 | 40 | 2.4 | 5120 | 1.52 | 192 | 20736 | 40960 |
| A100 80GB | HBM2e | 80 | 3.2 | |||||
| เอช100 | เอชบีเอ็ม3 | 80 | 5.2 | 5120 | 3.35 | 192 | 25344 | 51200 |
| เอช200 | HBM3e | 141 | 6.3 | 6144 | 4.8 | |||
| บี100 | HBM3e | 192 | 8 | 8192 | 8 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล |
| บี200 | ||||||||
| 100 แรนด์ | เอชบีเอ็ม4 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล |
ประสิทธิภาพการประมวลผล การเชื่อมต่อ และเครือข่าย
| แบบอย่าง | เอฟพี32 (TFLOPS) | เอฟพี64 (TFLOPS) | อินที8 เทนเซอร์หนาแน่น | เอฟพี16 เทนเซอร์หนาแน่น | บฟลัต16 เทนเซอร์หนาแน่น | เอฟเอฟ32 เทนเซอร์หนาแน่น | เอฟพี64 เทนเซอร์หนาแน่น | การเชื่อมต่อ (NVLink; เทราไบต์/วินาที) | การสร้างเครือข่าย |
|---|---|---|---|---|---|---|---|---|---|
| พี100 | 10.6 | 5.3 | ไม่มีข้อมูล | 21.2 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 0.16 | คอนเน็กต์เอ็กซ์-4 (100 กิกะไบต์/วินาที) |
| V100 16GB | 15.7 | 7.8 | ไม่มีข้อมูล | 125 TFLOPS | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 0.3 | คอนเน็กต์เอ็กซ์-5 (100 กิกะไบต์/วินาที) |
| V100 32GB | |||||||||
| A100 40GB | 19.5 | 9.7 | 624 ท็อปส์ | 312 TFLOPS | 312 TFLOPS | 156 TFLOPS | 19.5 TFLOPS | 0.6 | คอนเน็กต์เอ็กซ์-6 (200 กิกะไบต์/วินาที) |
| A100 80GB | |||||||||
| เอช100 | 67 | 34 | 1.98 ป๊อปส์ | 990 TFLOPS | 990 TFLOPS | 495 TFLOPS | 67 TFLOPS | 0.9 | คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที) |
| เอช200 | |||||||||
| บี100 | ไม่มีข้อมูล | ไม่มีข้อมูล | 3.5 ป๊อปส์ | 1.98 PFLOPS | 1.98 PFLOPS | 989 TFLOPS | 30 TFLOPS | 1.8 | คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที) |
| บี200 | ไม่มีข้อมูล | ไม่มีข้อมูล | 4.5 ป๊อปส์ | 2.25 ฟล็อปส์ | 2.25 ฟล็อปส์ | 1.2 พีแอลโอปส์ | 40 ทฟล็อปส์ | ||
| 100 แรนด์ | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | คอนเน็กต์เอ็กซ์-9 (1600 กิกะไบต์/วินาที) |
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ปาสคาล (สถาปัตยกรรมระดับไมโคร)
Pascalเป็นชื่อรหัสของสถาปัตยกรรมไมโครGPU ที่พัฒนาโดยNvidiaซึ่งเป็นรุ่นต่อจาก สถาปัตยกรรม Maxwellสถาปัตยกรรมนี้เปิดตัวครั้งแรกในเดือนเมษายน 2016 พร้อมกับการวางจำหน่าย Tesla P100...
รายละเอียด
ในเดือนมีนาคม พ.ศ. 2557 Nvidia ได้ประกาศว่าสถาปัตยกรรมไมโคร Pascal จะเป็นรุ่นต่อจาก Maxwell โดยประกาศเมื่อวันที่ 6 พฤษภาคม พ.ศ.
กลุ่มโปรเซสเซอร์กราฟิก
ชิปจะถูกแบ่งออกเป็นคลัสเตอร์ประมวลผลกราฟิก (GPC) สำหรับชิป GP104 นั้น GPC หนึ่งชุดจะประกอบด้วย SM จำนวน 5 ชุด
สตรีมมิ่งมัลติโปรเซสเซอร์ "ปาสคาล"
"Streaming Multiprocessor" มีลักษณะคล้ายคลึงกับ Compute Unit ของ AMD SM ประกอบด้วย ALU แบบความแม่นยำเดี่ยว 128 ตัว ("CUDA core") บนชิป GP104 และ ALU แบบความแม่นยำเดี่ยว 64 ตัวบนชิป GP100 ในขณะที่ CU ทุกเวอร์ชันประกอบด้วยโปรเซสเซอร์ shader 64 ตัว (เช่น SIMD...