ปาสคาล (สถาปัตยกรรมระดับไมโคร)

ปาสคาล
	การ์ดจอ GTX 1070 Founders Edition ที่ใช้สถาปัตยกรรม Pascal
เปิดตัว	27 พฤษภาคม 2559
ออกแบบโดย	เอ็นดีวีดี
ผลิตโดย	ทีเอสเอ็มซี; ซัมซุง; ;
กระบวนการผลิต	TSMC 16FF; ซัมซุง14 นาโนเมตร;
ชื่อรหัส	จีพี10x
ชุดผลิตภัณฑ์
เดสก์ท็อป	GeForce GTX 10 ซีรีส์;
เวิร์คสเตชั่นระดับมืออาชีพ/เวิร์คสเตชั่น	ควอดโร พี;
เซิร์ฟเวอร์/ศูนย์ข้อมูล	เทสลา พี4;
ข้อกำหนด
แคช L1	24 KB (ต่อ SM)
แคช L2	256 KB—4 MB
การสนับสนุนหน่วยความจำ	จีดีอาร์5; จีดีดีอาร์5เอ็กซ์; เอชบีเอ็ม2;
รองรับPCIe	PCIe 3.0
APIกราฟิกที่รองรับ
ไดเร็กต์เอ็กซ์	DirectX 12 (12.1)
ไดเร็กต์3ดี	Direct3D 12.0
โมเดลเชเดอร์	โมเดลเชเดอร์ 6.7
โอเพ่นจีแอล	โอเพนกลู 4.6
คูดา	ความสามารถในการประมวลผล 6.0
วัลคาน	วัลคาน 1.4
APIการประมวลผลที่รองรับ
โอเพ่นซีแอล	โอเพนซีแอล 3.0
เครื่องมือสื่อ
เข้ารหัสโคเดก	เอช.264; เอช.265;
ถอดรหัสโคเดก	เอช.264; เอช.265; วีพี9;
ความลึกของสี (บิต)	8 บิต; 10 บิต;
รองรับตัวเข้ารหัส	เอ็นเวนซี
แสดงผลผลลัพธ์	DisplayPort 1.4a; บีบีซี 2.0บี; ดีวีไอ;
ประวัติศาสตร์
ผู้มาก่อน	แม็กซ์เวลล์
ผู้สืบทอด	ทิวริง (ผู้บริโภค); โวลต้า (มืออาชีพ);
สถานะการสนับสนุน
	การสนับสนุนแบบจำกัดจนถึงเดือนพฤศจิกายน 2025 การอัปเดตความปลอดภัยจนถึงเดือนตุลาคม 2028

Pascalเป็นชื่อรหัสของสถาปัตยกรรมไมโคร GPU ที่พัฒนาโดยNvidiaซึ่งเป็นรุ่นต่อจาก สถาปัตยกรรม Maxwellสถาปัตยกรรมนี้เปิดตัวครั้งแรกในเดือนเมษายน 2016 พร้อมกับการวางจำหน่าย Tesla P100 (GP100) ในวันที่ 5 เมษายน 2016 และส่วนใหญ่ใช้ในซีรี่ส์ GeForce 10โดยเริ่มจาก GeForce GTX 1080 และ GTX 1070 (ทั้งสองรุ่นใช้ GPU GP104) ซึ่งวางจำหน่ายในวันที่ 27 พฤษภาคม 2016 และ 10 มิถุนายน 2016 ตามลำดับ Pascal ผลิตโดยใช้กระบวนการFinFET 16 นาโนเมตรของTSMC ^[³^]และต่อมาใช้กระบวนการ FinFET 14 นาโนเมตรของSamsung ^[⁴^]

สถาปัตยกรรมนี้ตั้งชื่อตามบลาส์ ปาสคาลนัก คณิตศาสตร์และนักฟิสิกส์ชาวฝรั่งเศสในศตวรรษที่ 17

ในเดือนเมษายน พ.ศ. 2562 Nvidia ได้เปิดใช้งานการใช้งานซอฟต์แวร์ของDirectX Raytracingบนการ์ดที่ใช้สถาปัตยกรรม Pascal โดยเริ่มจาก GTX 1060 6 GB และใน การ์ด ซีรี่ส์ 16ซึ่งเป็นคุณสมบัติที่สงวนไว้สำหรับซีรี่ส์ RTX ที่ใช้สถาปัตยกรรม Turing จนถึงขณะนั้น^{[ 5 ]}^{[ 6 ]}

รายละเอียด

ในเดือนมีนาคม พ.ศ. 2557 Nvidia ได้ประกาศว่าสถาปัตยกรรมไมโคร Pascal จะเป็นรุ่นต่อจากMaxwellโดยประกาศเมื่อวันที่ 6 พฤษภาคม พ.ศ. 2559 และวางจำหน่ายเมื่อวันที่ 27 พฤษภาคมของปีเดียวกัน ชิป Tesla P100 (GP100) มีสถาปัตยกรรม Pascal เวอร์ชันที่แตกต่างจาก GPU GTX (GP104) หน่วยประมวลผล Shaderใน GP104 มีการออกแบบที่คล้ายกับMaxwell ^{[ 7 ]}

การปรับปรุงด้านสถาปัตยกรรมของสถาปัตยกรรม GP100 ประกอบด้วยสิ่งต่อไปนี้: ^{[ 8 ]}^{[ 9 ]}^{[ 10 ]}

ในสถาปัตยกรรม Pascal นั้น SM (streaming multiprocessor) ประกอบด้วยคอร์ CUDA จำนวน 64-128 คอร์ ขึ้นอยู่กับว่าเป็น GP100 หรือ GP104 Maxwellมีคอร์ CUDA 128 คอร์ต่อ SM; Kepler มี 192 คอร์, Fermi มี 32 คอร์ และ Tesla มี 8 คอร์ SM ของ GP100 ถูกแบ่งออกเป็นสองบล็อกประมวลผล แต่ละบล็อกมีคอร์ CUDA แบบความแม่นยำเดี่ยว 32 คอร์, บัฟเฟอร์คำสั่ง, ตัวจัดตารางเวลาแบบ warp, หน่วยแมปพื้นผิว 2 หน่วย และหน่วยส่งคำสั่ง 2 หน่วย
ความสามารถในการประมวลผล CUDA 6.0
หน่วยความจำแบนด์วิดท์สูง 2 (High Bandwidth Memory 2 หรือ HBM2) — การ์ดบางรุ่นมี HBM2 ขนาด 16 GiB แบ่งเป็น 4 แถว โดยมีความกว้างของบัสรวม 4096 บิต และแบนด์วิดท์หน่วยความจำ 720 GB/s
หน่วยความจำแบบรวม (Unified memory) คือสถาปัตยกรรมหน่วยความจำที่ซีพียูและจีพียูสามารถเข้าถึงทั้งหน่วยความจำหลักของระบบและหน่วยความจำบนการ์ดกราฟิกได้ด้วยเทคโนโลยีที่เรียกว่า "Page Migration Engine"
NVLink — บัสแบนด์วิดท์สูงระหว่าง CPU และ GPU และระหว่าง GPU หลายตัว ช่วยให้ความเร็วในการถ่ายโอนสูงกว่าที่ทำได้โดยใช้ PCI Express มาก คาดว่าจะให้ความเร็วระหว่าง 80 ถึง 200 GB/s ^{[ 11 ]}^{[ 12 ]}
การคำนวณจุดลอยตัว16 บิต ( FP16 ) (เรียกกันทั่วไปว่า "ความแม่นยำครึ่งหนึ่ง") สามารถดำเนินการได้ในอัตราสองเท่าของการคำนวณจุดลอยตัว 32 บิต ("ความแม่นยำเดี่ยว") ^{[ 13 ]}และการคำนวณจุดลอยตัว 64 บิต (เรียกกันทั่วไปว่า "ความแม่นยำสองเท่า") สามารถดำเนินการได้ในอัตราครึ่งหนึ่งของการคำนวณจุดลอยตัว 32 บิต^{[ 14 ]}
มีรีจิสเตอร์มากขึ้น — มีจำนวนรีจิสเตอร์ต่อคอร์ CUDA มากกว่า Maxwell ถึงสองเท่า
ความทรงจำร่วมกันมากขึ้น
ระบบการจัดตารางงานแบบปรับสมดุลโหลดแบบไดนามิก^{[ 15 ]}ซึ่งช่วยให้ตัวจัดตารางงานสามารถปรับปริมาณ GPU ที่กำหนดให้กับงานหลายงานได้แบบไดนามิก ทำให้มั่นใจได้ว่า GPU จะยังคงทำงานเต็มที่ ยกเว้นเมื่อไม่มีงานเพิ่มเติมที่สามารถกระจายได้อย่างปลอดภัย^{[ 15 ]}ดังนั้น Nvidia จึงเปิดใช้งานการประมวลผลแบบอะซิงโครนัสในไดรเวอร์ของ Pascal ได้อย่างปลอดภัย^{[ 15 ]}
การแย่งชิงระดับคำสั่งและระดับเธรด^{[ 16 ]}

การปรับปรุงทางสถาปัตยกรรมของสถาปัตยกรรม GP104 ประกอบด้วยสิ่งต่อไปนี้: ^{[ 7 ]}

ความสามารถในการประมวลผล CUDA 6.1
GDDR5X — มาตรฐานหน่วยความจำใหม่ที่รองรับอัตราการส่งข้อมูล 10Gbit/s พร้อมตัวควบคุมหน่วยความจำที่ได้รับการปรับปรุง^{[ 17 ]}
การฉายภาพหลายภาพพร้อมกัน - การสร้างการฉายภาพหลายภาพของสตรีมเรขาคณิตเดียว เมื่อเข้าสู่เอ็นจิ้น SMP จากขั้นตอนเชเดอร์ต้นน้ำ^{[ 18 ]}
DisplayPort 1.4, HDMI 2.0b
การบีบอัดสีแบบเดลต้า รุ่นที่สี่
อินเทอร์เฟซ SLI ที่ได้รับการปรับปรุง — อินเทอร์เฟซ SLI ที่มีแบนด์วิดท์สูงกว่าเวอร์ชันก่อนหน้า
ชุดคุณสมบัติ PureVideo H สำหรับการถอดรหัสวิดีโอด้วยฮาร์ดแวร์ ได้แก่ HEVC Main10 (10 บิต), Main12 (12 บิต) และ VP9
รองรับ HDCP 2.2 สำหรับการเล่นและการสตรีมเนื้อหา 4K ที่ได้รับการป้องกัน DRM (Maxwell GM200 และ GM204 ไม่รองรับ HDCP 2.2 ส่วน GM206 รองรับ HDCP 2.2) ^{[ 19 ]}
NVENC HEVC Main10 การเข้ารหัสฮาร์ดแวร์ 10 บิต
GPU Boost 3.0
การแย่งชิงระดับคำสั่ง^{[ 16 ]}ในงานกราฟิก ไดรเวอร์จะจำกัดการแย่งชิงไว้ที่ระดับพิกเซล เนื่องจากงานพิกเซลมักจะเสร็จสิ้นอย่างรวดเร็ว และค่าใช้จ่ายด้านโอเวอร์เฮดของการแย่งชิงระดับพิกเซลนั้นต่ำกว่าการแย่งชิงระดับคำสั่ง (ซึ่งมีราคาแพง) ^{[ 16 ]}งานคำนวณจะได้รับการแย่งชิงระดับเธรดหรือระดับคำสั่ง^{[ 16 ]}เนื่องจากอาจใช้เวลานานกว่าในการเสร็จสิ้น และไม่มีการรับประกันว่างานคำนวณจะเสร็จสิ้นเมื่อใด ดังนั้นไดรเวอร์จึงเปิดใช้งานการแย่งชิงระดับคำสั่งที่มีราคาแพงสำหรับงานเหล่านี้^{[ 16 ]}

ภาพรวม

กลุ่มโปรเซสเซอร์กราฟิก

ชิปจะถูกแบ่งออกเป็นคลัสเตอร์ประมวลผลกราฟิก (GPC) สำหรับชิป GP104 นั้น GPC หนึ่งชุดจะประกอบด้วย SM จำนวน 5 ชุด

สตรีมมิ่งมัลติโปรเซสเซอร์ "ปาสคาล"

"Streaming Multiprocessor" มีลักษณะคล้ายคลึงกับCompute Unit ของ AMD SM ประกอบด้วย ALU แบบความแม่นยำเดี่ยว 128 ตัว ("CUDA core") บนชิป GP104 และ ALU แบบความแม่นยำเดี่ยว 64 ตัวบนชิป GP100 ในขณะที่ CU ทุกเวอร์ชันประกอบด้วยโปรเซสเซอร์ shader 64 ตัว (เช่น SIMD Vector Units 4 ตัว แต่ละตัวกว้าง 16 เลน) Nvidia ได้ทดลองใช้จำนวน CUDA core ที่แตกต่างกันมาก:

บนTeslaนั้น 1 SM จะรวมหน่วยประมวลผล Shader แบบความแม่นยำเดี่ยว (FP32) จำนวน 8 ตัวเข้าด้วยกัน
บนสถาปัตยกรรม Fermiนั้น 1 SM จะรวมหน่วยประมวลผล Shader แบบความแม่นยำเดี่ยว (FP32) จำนวน 32 ตัวเข้าด้วยกัน
บนระบบ Keplerนั้น 1 SM จะรวมหน่วยประมวลผล Shader แบบความแม่นยำเดี่ยว (FP32) จำนวน 192 หน่วย และหน่วยประมวลผล Shader แบบความแม่นยำคู่ (FP64) จำนวน 64 หน่วย (บน GPU GK110)
บนสถาปัตยกรรม Maxwellนั้น 1 SM จะรวมหน่วยประมวลผลเชเดอร์แบบความแม่นยำเดี่ยว (FP32) จำนวน 128 หน่วย
สำหรับภาษาปาสคาลนั้น ขึ้นอยู่กับหลายปัจจัย:
- บน GP100, 1 SM รวมโปรเซสเซอร์ shader ความแม่นยำเดี่ยว (FP32) 64 ตัว และความแม่นยำคู่ (FP64) 32 ตัว ทำให้มีอัตราส่วนปริมาณงานความแม่นยำเดี่ยวต่อความแม่นยำคู่เป็น 2:1 GP100 ใช้คอร์ FP32 ที่ยืดหยุ่นกว่า ซึ่งสามารถประมวลผลตัวเลขความแม่นยำเดี่ยวหนึ่งตัวหรือตัวเลขความแม่นยำครึ่งหนึ่งสองตัวในเวกเตอร์สององค์ประกอบ^{[ 20 ]}ซึ่งมีจุดประสงค์เพื่อรองรับงานการเรียนรู้ของเครื่อง ได้ดียิ่งขึ้น
- บน GP104 นั้น SM หนึ่งตัวจะรวมเอา ALU แบบความแม่นยำเดี่ยว 128 ตัว, ALU แบบความแม่นยำคู่ 4 ตัว (ให้สัดส่วน 32:1) และ ALU แบบความแม่นยำครึ่งหนึ่ง 1 ตัว ซึ่งประกอบด้วยเวกเตอร์ของตัวเลขทศลอยแบบความแม่นยำครึ่งหนึ่งสองตัวที่สามารถประมวลผลคำสั่งเดียวกันกับตัวเลขทศลอยทั้งสองตัวได้ ทำให้ได้สัดส่วน 64:1 หากใช้คำสั่งเดียวกันกับทั้งสององค์ประกอบ

โพลีมอร์ฟเอ็นจิ้น 4.0

Polymorph Engine เวอร์ชัน 4.0 เป็นหน่วยที่รับผิดชอบในการสร้างรูปทรงสามมิติ (Tessellation ) โดยจะสอดคล้องกับGeometric Processor ของ AMD มีการย้ายจากโมดูล shader ไปยัง TPC เพื่อให้ Polymorph engine หนึ่งตัวสามารถป้อนข้อมูลให้กับ SM หลายตัวภายใน TPC ได้^{[ 21 ]}

ชิป

GP100: ตัวเร่งความเร็ว GPU Tesla P100 ของ Nvidia มุ่งเป้าไปที่ แอปพลิเคชัน GPGPUเช่น การคำนวณความแม่นยำสองเท่า FP64 และการฝึกอบรมการเรียนรู้เชิงลึกที่ใช้ FP16 โดยใช้ หน่วยความ จำHBM2 ^{[ 22 ]} Quadro GP100 ก็ใช้ GPU GP100 เช่นกัน
GP102: GPU นี้ใช้ใน Titan Xp ^{[ 23 ]} Titan X Pascal ^{[ 24 ]}และ GeForce GTX 1080 Ti นอกจากนี้ยังใช้ใน Quadro P6000 ^{[ 25 ]}และ Tesla P40 ^{[ 26 ]}
GP104: GPU นี้ใช้ใน GeForce GTX 1070, GTX 1070 Ti, GTX 1080 และ GTX 1060 6 GB บางรุ่น GTX 1070 มี SM ที่เปิดใช้งาน 15/20 ตัว และ GTX 1070 Ti มี SM ที่เปิดใช้งาน 19/20 ตัว ทั้งสองรุ่นใช้หน่วยความจำ GDDR5 GTX 1080 เป็นชิปที่ปลดล็อคอย่างสมบูรณ์และใช้หน่วยความจำ GDDR5X GTX 1060 6 GB บางรุ่นใช้ GP104 ที่มี SM ที่เปิดใช้งาน 10/20 ตัวและหน่วยความจำ GDDR5X ^{[ 27 ]}นอกจากนี้ยังใช้ใน Quadro P5000, Quadro P4000, Quadro P3200 (แอปพลิเคชันมือถือ) และ Tesla P4
GP106: GPU นี้ใช้ใน GeForce GTX 1060 ที่มีหน่วยความจำ GDDR5 ^{[ 28 ]}^{[ 29 ]}^{[ 30 ]}นอกจากนี้ยังใช้ใน Quadro P2000 ด้วย
GP107: ชิปประมวลผลกราฟิกตัวนี้ใช้ใน GeForce GTX 1050 และ 1050 Ti รวมถึง Quadro P1000, Quadro P600, Quadro P620 และ Quadro P400 ด้วย
GP108: หน่วยประมวลผลกราฟิก (GPU) นี้ใช้ใน GeForce GT 1010 และ GeForce GT 1030

ตารางเปรียบเทียบชิป Kepler, Maxwell และ Pascal บางรุ่น
	จีเค104	จีเค110	GM204 (GTX 970)	GM204 (GTX 980)	จีเอ็ม200	จีพี104	จีพี100
แคชพื้นผิวเฉพาะสำหรับแต่ละ SM	48 กิโลไบต์	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล
แคชข้อมูลพื้นผิว (กราฟิกหรือการคำนวณ) หรือแคชข้อมูลแบบอ่านอย่างเดียว (การคำนวณอย่างเดียว) ต่อ SM	ไม่มีข้อมูล	48 กิโลไบต์^{[ 31 ]}	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล
พาร์ติชั่นหน่วยความจำร่วม/L1 ที่โปรแกรมเมอร์เลือกได้ต่อ SM	หน่วยความจำร่วม 48 KiB + แคช L1 16 KiB (ค่าเริ่มต้น) ^{[ 32 ]}	หน่วยความจำร่วม 48 KiB + แคช L1 16 KiB (ค่าเริ่มต้น) ^{[ 32 ]}	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล
	หน่วยความจำที่ใช้ร่วมกัน 32 KiB + แคช L1 32 KiB ^{[ 32 ]}	หน่วยความจำที่ใช้ร่วมกัน 32 KiB + แคช L1 32 KiB ^{[ 32 ]}
	หน่วยความจำที่ใช้ร่วมกัน 16 KiB + แคช L1 48 KiB ^{[ 32 ]}	หน่วยความจำที่ใช้ร่วมกัน 16 KiB + แคช L1 48 KiB ^{[ 32 ]}
แคช L1/แคชพื้นผิวแบบรวมต่อ SM	ไม่มีข้อมูล	ไม่มีข้อมูล	48 กิโลไบต์^{[ 33 ]}	48 กิโลไบต์^{[ 33 ]}	48 กิโลไบต์^{[ 33 ]}	48 กิโลไบต์^{[ 33 ]}	24 กิโลไบต์^{[ 33 ]}
หน่วยความจำร่วมเฉพาะสำหรับแต่ละ SM	ไม่มีข้อมูล	ไม่มีข้อมูล	96 กิโลไบต์^{[ 33 ]}	96 กิโลไบต์^{[ 33 ]}	96 กิโลไบต์^{[ 33 ]}	96 กิโลไบต์^{[ 33 ]}	64 กิโลไบต์^{[ 33 ]}
แคช L2 ต่อชิป	512 กิโลไบต์^{[ 33 ]}	1536 กิโลไบต์^{[ 33 ]}	1792 กิโลไบต์^{[ 34 ]}	2048 กิโลไบต์^{[ 34 ]}	3072 กิโลไบต์^{[ 33 ]}	2048 กิโลไบต์^{[ 33 ]}	4096 กิโลไบต์^{[ 33 ]}

ผลงาน

กำลังการประมวลผลความแม่นยำเดี่ยวเชิงทฤษฎีของ GPU Pascal ในหน่วย GFLOPSคำนวณได้จาก 2 × การดำเนินการต่อคำสั่ง FMA ต่อคอร์ CUDA ต่อรอบ × จำนวนคอร์ CUDA × ความเร็วสัญญาณนาฬิกาของคอร์ (ในหน่วย GHz)

พลังการประมวลผลแบบความแม่นยำสองเท่าตามทฤษฎีของ GPU Pascal นั้นเป็น 1/2 ของประสิทธิภาพความแม่นยำเดี่ยวของ Nvidia GP100 และ 1/32 ของ Nvidia GP102, GP104, GP106, GP107 และ GP108

กำลังการประมวลผลความแม่นยำครึ่งหนึ่งตามทฤษฎีของ GPU Pascal คือ 2 เท่าของประสิทธิภาพความแม่นยำเดี่ยวบน GP100 ^{[ 14 ]}และ 1/64 บน GP104, GP106, GP107 และ GP108 ^{[ 20 ]}

ผู้สืบทอด

สถาปัตยกรรม Pascal ได้รับการแทนที่โดยVolta ในปี 2017 ใน ตลาด HPC , การประมวลผลแบบคลาวด์และรถยนต์ขับเคลื่อนอัตโนมัติและโดยTuring ในปี 2018 ในตลาดผู้บริโภคและธุรกิจ^{[ 35 ]}

ตัวเร่งความเร็ว P100 และ DGX-1

เริ่มต้นจาก P100 ^{[ 36 ]}^{[ 37 ]}^{[ 38 ]}ไปยัง V100 ^{[ 39 ]}ไปยัง A100 ^{[ 40 ]}ไปยัง H100 ^{[ 41 ]}ไปยัง B200 ^{[ 42 ]}^{[ 43 ]}และไปยัง R100 ^{[ 44 ]}การเปรียบเทียบเครื่องเร่งอนุภาคที่ใช้ใน DGX:

ทั่วไปและสถาปัตยกรรม

แบบอย่าง	สถาปัตยกรรม	ซ็อกเก็ต	จีพี	กระบวนการผลิต	จำนวนทรานซิสเตอร์ (พันล้าน)	ขนาดแม่พิมพ์ (มม. ^² )	เปิดตัว
พี100	ปาสคาล	SXM/SXM2	จีพี100	TSMC 16FF+	15.3	610	ไตรมาสที่ 2 ปี 2559
V100 16GB	โวลต้า	SXM2	จีวี100	ทีเอสเอ็มซี 12เอฟเอ็น	21.1	815	ไตรมาสที่ 3 ปี 2560
V100 32GB	โวลต้า	SXM3	จีวี100	ทีเอสเอ็มซี 12เอฟเอ็น	21.1	815	ไตรมาสที่ 3 ปี 2560
A100 40GB	แอมแปร์	SXM4	GA100	ทีเอสเอ็มซีเอ็น7	54.2	826	ไตรมาสที่ 1 ปี 2020
A100 80GB	แอมแปร์	SXM4	GA100	ทีเอสเอ็มซีเอ็น7	54.2	826	ไตรมาสที่ 4 ปี 2020
เอช100	ฮอปเปอร์	SXM5	GH100	ทีเอสเอ็มซี 4เอ็น	80	814	ไตรมาสที่ 3 ปี 2022
เอช200	ฮอปเปอร์	SXM5	GH100	ทีเอสเอ็มซี 4เอ็น	80	814	ไตรมาสที่ 3 ปี 2023
บี100	แบล็กเวลล์	SXM6	จีบี100	ทีเอสเอ็มซี 4เอ็นพี	208	ไม่มีข้อมูล	ไตรมาสที่ 4 ปี 2024
บี200	แบล็กเวลล์	SXM6	จีบี100	ทีเอสเอ็มซี 4เอ็นพี	208	ไม่มีข้อมูล	ไตรมาสที่ 4 ปี 2024
100 แรนด์	รูบิน	SXM7	ไม่มีข้อมูล	ทีเอสเอ็มซี 3เอ็น	338	ไม่มีข้อมูล	ครึ่งหลังของปี 2026

คอร์, นาฬิกา และพลังงาน

แบบอย่าง	นาฬิกาเร่งความเร็ว (เมกะเฮิร์ตซ์)	#SM	แกนกลาง (FP32 CUDA)	แกนกลาง (FP64 ไม่รวมเทนเซอร์)	แกนกลาง (ผสม INT32/FP32)	แกนกลาง (INT32)	ทีดีพี (W)
พี100	1480	56	3584	ค.ศ. 1792	ไม่มีข้อมูล	ไม่มีข้อมูล	300
V100 16GB	1530	80	5120	2560	ไม่มีข้อมูล	5120	300
V100 32GB	1530	80	5120	2560	ไม่มีข้อมูล	5120	350
A100 40GB	1410	108	6912	3456	6912	ไม่มีข้อมูล	400
A100 80GB	1410	108	6912	3456	6912	ไม่มีข้อมูล	400
เอช100	1980	132	16896	4608	16896	ไม่มีข้อมูล	700
เอช200	1980	132	16896	4608	16896	ไม่มีข้อมูล	1000
บี100	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	700
บี200	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	1000
100 แรนด์	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	2300

หน่วยความจำและแคช

แบบอย่าง	ประเภทหน่วยความจำ (เอชบีเอ็ม)	ขนาด VRAM (สหราชอาณาจักร)	ความเร็วหน่วยความจำ (กิกะไบต์/วินาที)	ความกว้างของรถบัส (บิต)	แบนด์วิดท์ (TB/s)	แคช L1 ต่อ SM (KB)	แคช L1 รวม (KB)	แคช L2 (KB)
พี100	เอชบีเอ็ม2	16	1.4	4096	0.72	24	1344	4096
V100 16GB	เอชบีเอ็ม2	16	1.75	4096	0.9	128	10240	6144
V100 32GB	เอชบีเอ็ม2	32	1.75	4096	0.9	128	10240	6144
A100 40GB	เอชบีเอ็ม2	40	2.4	5120	1.52	192	20736	40960
A100 80GB	HBM2e	80	3.2	5120	1.52	192	20736	40960
เอช100	เอชบีเอ็ม3	80	5.2	5120	3.35	192	25344	51200
เอช200	HBM3e	141	6.3	6144	4.8	192	25344	51200
บี100	HBM3e	192	8	8192	8	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล
บี200	HBM3e	192	8	8192	8	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล
100 แรนด์	เอชบีเอ็ม4	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล

ประสิทธิภาพการประมวลผล การเชื่อมต่อ และเครือข่าย

แบบอย่าง	เอฟพี32 (TFLOPS)	เอฟพี64 (TFLOPS)	อินที8 เทนเซอร์หนาแน่น	เอฟพี16 เทนเซอร์หนาแน่น	บฟลัต16 เทนเซอร์หนาแน่น	เอฟเอฟ32 เทนเซอร์หนาแน่น	เอฟพี64 เทนเซอร์หนาแน่น	การเชื่อมต่อ (NVLink; เทราไบต์/วินาที)	การสร้างเครือข่าย
พี100	10.6	5.3	ไม่มีข้อมูล	21.2	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	0.16	คอนเน็กต์เอ็กซ์-4 (100 กิกะไบต์/วินาที)
V100 16GB	15.7	7.8	ไม่มีข้อมูล	125 TFLOPS	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	0.3	คอนเน็กต์เอ็กซ์-5 (100 กิกะไบต์/วินาที)
V100 32GB	15.7	7.8	ไม่มีข้อมูล	125 TFLOPS	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	0.3	คอนเน็กต์เอ็กซ์-5 (100 กิกะไบต์/วินาที)
A100 40GB	19.5	9.7	624 ท็อปส์	312 TFLOPS	312 TFLOPS	156 TFLOPS	19.5 TFLOPS	0.6	คอนเน็กต์เอ็กซ์-6 (200 กิกะไบต์/วินาที)
A100 80GB	19.5	9.7	624 ท็อปส์	312 TFLOPS	312 TFLOPS	156 TFLOPS	19.5 TFLOPS	0.6	คอนเน็กต์เอ็กซ์-6 (200 กิกะไบต์/วินาที)
เอช100	67	34	1.98 ป๊อปส์	990 TFLOPS	990 TFLOPS	495 TFLOPS	67 TFLOPS	0.9	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
เอช200	67	34	1.98 ป๊อปส์	990 TFLOPS	990 TFLOPS	495 TFLOPS	67 TFLOPS	0.9	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
บี100	ไม่มีข้อมูล	ไม่มีข้อมูล	3.5 ป๊อปส์	1.98 PFLOPS	1.98 PFLOPS	989 TFLOPS	30 TFLOPS	1.8	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
บี200	ไม่มีข้อมูล	ไม่มีข้อมูล	4.5 ป๊อปส์	2.25 ฟล็อปส์	2.25 ฟล็อปส์	1.2 พีแอลโอปส์	40 ทฟล็อปส์	1.8	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
100 แรนด์	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	คอนเน็กต์เอ็กซ์-9 (1600 กิกะไบต์/วินาที)

ดูเพิ่มเติม

[ 1 ]

[ 2 ]

[

[

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 42 ]

[ 43 ]

ชุดผลิตภัณฑ์
การ์ดจอ GTX 1070 Founders Edition ที่ใช้สถาปัตยกรรม Pascal
เปิดตัว	27 พฤษภาคม 2559 ( 27 พฤษภาคม 2559 )
ออกแบบโดย	เอ็นดีวีดี
ผลิตโดย	ทีเอสเอ็มซี ซัมซุง
กระบวนการผลิต	TSMC 16FF ซัมซุง14 นาโนเมตร
ชื่อรหัส	จีพี10x
เดสก์ท็อป	GeForce GTX 10 ซีรีส์
เวิร์คสเตชั่นระดับมืออาชีพ/เวิร์คสเตชั่น	ควอดโร พี
เซิร์ฟเวอร์/ศูนย์ข้อมูล	เทสลา พี4
ข้อกำหนด
แคช L1	24 KB (ต่อ SM)
แคช L2	256 KB—4 MB
การสนับสนุนหน่วยความจำ	จีดีอาร์5 จีดีดีอาร์5เอ็กซ์ เอชบีเอ็ม2
รองรับPCIe	PCIe 3.0
APIกราฟิกที่รองรับ
ไดเร็กต์เอ็กซ์	DirectX 12 (12.1)
ไดเร็กต์3ดี	Direct3D 12.0
โมเดลเชเดอร์	โมเดลเชเดอร์ 6.7
โอเพ่นจีแอล	โอเพนกลู 4.6
คูดา	ความสามารถในการประมวลผล 6.0
วัลคาน	วัลคาน 1.4 ^{[ 1 ]}
APIการประมวลผลที่รองรับ
โอเพ่นซีแอล	โอเพนซีแอล 3.0
เครื่องมือสื่อ
เข้ารหัสโคเดก	เอช.264 เอช.265
ถอดรหัสโคเดก	เอช.264 เอช.265 วีพี9
ความลึกของสี (บิต)	8 บิต 10 บิต
รองรับตัวเข้ารหัส	เอ็นเวนซี
แสดงผลผลลัพธ์	DisplayPort 1.4a บีบีซี 2.0บี ดีวีไอ
ประวัติศาสตร์
ผู้มาก่อน	แม็กซ์เวลล์
ผู้สืบทอด	ทิวริง (ผู้บริโภค) โวลต้า (มืออาชีพ)
สถานะการสนับสนุน
การสนับสนุนแบบจำกัดจนถึงเดือนพฤศจิกายน 2025 การอัปเดตความปลอดภัยจนถึงเดือนตุลาคม 2028 ^{[ 2 ]}