เอ็นวีลิงก์

Q: หลักการ

NVLink เป็นเทคโนโลยีที่พัฒนาโดย Nvidia สำหรับการถ่ายโอนข้อมูลและรหัสควบคุมในระบบประมวลผลระหว่าง CPU และ GPU และระหว่าง GPU กับ GPU NVLink กำหนดการ เชื่อมต่อ แบบจุดต่อจุด ด้วยอัตราการส่งข้อมูล 20, 25 และ 50 Gbit/s (v1.0/v2.0/v3.

เอ็นวีลิงก์
นักพัฒนา	เอ็นดีวีดี
ผู้ผลิต	เอ็นดีวีดี; แขน; บริการเว็บอเมซอน; ไซไฟฟ์;
พิมพ์	เทคโนโลยีมัลติGPUและCPU
ผู้มาก่อน	อินเทอร์เฟซลิงก์ที่ปรับขนาดได้ (SLI)

NVLink เป็นลิงก์ การสื่อสารแบบอนุกรมหลายเลนระยะใกล้แบบใช้สายซึ่งพัฒนาโดยNvidiaแตกต่างจากPCI Express ตรงที่ อุปกรณ์หนึ่งสามารถประกอบด้วย NVLink หลายตัว และอุปกรณ์ต่างๆ สามารถใช้เครือข่ายแบบตาข่ายในการสื่อสารแทนการใช้ฮับ /สวิตช์ส่วนกลาง โปรโตคอลนี้ได้รับการประกาศครั้งแรกในเดือนมีนาคม 2014 และใช้การเชื่อมต่อสัญญาณความเร็วสูงที่เป็นกรรมสิทธิ์ (NVHS) ^{[ 1 ]}

สำหรับ GPU จำนวนน้อย เลน NVLink บนอุปกรณ์เดียวก็เพียงพอสำหรับการเชื่อมต่อแบบ mesh ทั่วถึง เพื่อรองรับจำนวน GPU ที่สูงขึ้น NVLink จึงใช้สถาปัตยกรรมแบบ packet-switched ตั้งแต่ปี 2018 โดยสวิตช์กลางสามารถให้บริการพอร์ตสองเลนได้สูงสุด 32 พอร์ต NVSwitch สำหรับ NVLink 4.0 สามารถทำการคำนวณอย่างง่ายบางอย่างได้เอง (เช่น ผลรวม การกระจายเสียง) เพื่อลดความจำเป็นในการสื่อสารด้วยตัวเร่งความเร็ว "SHARP" ^{[ 2 ]}

หลักการ

NVLink เป็นเทคโนโลยีที่พัฒนาโดยNvidiaสำหรับการถ่ายโอนข้อมูลและรหัสควบคุมในระบบประมวลผลระหว่าง CPU และ GPU และระหว่าง GPU กับ GPU NVLink กำหนดการ เชื่อมต่อ แบบจุดต่อจุดด้วยอัตราการส่งข้อมูล 20, 25 และ 50 Gbit/s (v1.0/v2.0/v3.0+ ตามลำดับ) ต่อคู่สายสัญญาณแบบดิฟเฟอเรนเชียล สำหรับ NVLink 1.0 และ 2.0 คู่สายสัญญาณแบบดิฟเฟอเรนเชียลแปดคู่จะรวมกันเป็น "ซับลิงก์" และ "ซับลิงก์" สองอัน อันละทิศทาง จะรวมกันเป็น "ลิงก์" ตั้งแต่ NVLink 3.0 เป็นต้นไป จะมีเพียงคู่สายสัญญาณแบบดิฟเฟอเรนเชียลสี่คู่เท่านั้นที่รวมกันเป็น "ซับลิงก์" สำหรับ NVLink 2.0 ขึ้นไป อัตราการส่งข้อมูลรวมสำหรับซับลิงก์คือ 25 GB/s และอัตราการส่งข้อมูลรวมสำหรับลิงก์คือ 50 GB/s GPU V100 แต่ละตัวรองรับได้สูงสุดหกลิงก์ ดังนั้น GPU แต่ละตัวจึงสามารถรองรับแบนด์วิดท์แบบสองทิศทางรวมได้สูงสุด 300 GB/s ^{[ 3 ]}^{[ 4 ]}ผลิตภัณฑ์ NVLink ที่เปิดตัวจนถึงปัจจุบันมุ่งเน้นไปที่พื้นที่แอปพลิเคชันประสิทธิภาพสูง NVLink 3.0 ซึ่งประกาศเมื่อวันที่ 14 พฤษภาคม 2020 เพิ่มอัตราการส่งข้อมูลต่อคู่ดิฟเฟอเรนเชียลจาก 25 Gbit/s เป็น 50 Gbit/s ในขณะที่ลดจำนวนคู่ต่อ NVLink จาก 8 เหลือ 4 ด้วยลิงก์ 12 ลิงก์สำหรับ GPU A100 ที่ใช้ Ampereทำให้แบนด์วิดท์รวมเป็น 600 GB/s [ 5 ] สถาปัตยกรรมไมโคร GPU Hopper ^{ซึ่งประกาศใน}เดือนมีนาคม 2022 มีลิงก์ NVLink 4.0 จำนวน 18 ลิงก์ ทำให้แบนด์วิดท์รวมเป็น 900 GB/s ^[⁶^]ดังนั้น NVLink 2.0, 3.0 และ 4.0 ทั้งหมดมีอัตราการส่งข้อมูล 50 GB/s ต่อลิงก์แบบสองทิศทาง และมีลิงก์ 6, 12 และ 18 ลิงก์ตามลำดับ

ผลงาน

ตารางต่อไปนี้แสดงการเปรียบเทียบตัวชี้วัดพื้นฐานตามข้อกำหนดมาตรฐาน:

การเชื่อมต่อ	อัตราการโอน	รหัสบรรทัด	การปรับสัญญาณ	อัตราการรับส่งข้อมูลที่มีประสิทธิภาพต่อเลนหรือ NVLink (ทิศทางเดียว)	ความยาวเลนรวมสูงสุด^{[ a ]}	Total Links (NVLink)	แบนด์วิดท์รวม (PCIe x16 หรือ NVLink)	สร้างสรรค์ขึ้นจากการออกแบบ
PCIe 3.x	8 จีที/วินาที	128b/130b	เอ็นอาร์ซี	0.99 GB/s	50 ซม. (20 นิ้ว) ^{[ 7 ]}		31.51 GB/s	ปาสคาล , โวลตา , ทิวริง
PCIe 4.0	16 จีที/วินาที	128b/130b	เอ็นอาร์ซี	1.97 GB/s	20–30 ซม. (8–12 นิ้ว) ^{[ 7 ]}		63.02 GB/s	โวลต้าบนเซเวียร์แอมแปร์พาวเวอร์9
PCIe 5.0	32 GT/s ^{[ 8 ]}	128b/130b	เอ็นอาร์ซี	3.94 GB/s			126.03 GB/s	ฮอปเปอร์
PCIe 6.0	64 GT/s	236B/256B FLIT ^{[ 9 ]}	พีเอเอ็ม4เอฟอีซี	7.56 GB/s			242 GB/s	แบล็กเวลล์
NVLink 1.0	20 GT/s		เอ็นอาร์ซี	20 GB/s		4	160 GB/s	ปาสคาล , POWER8+
NVLink 2.0	25 จีที/วินาที		เอ็นอาร์ซี	25 GB/s		6	300 GB/s	โวลต้า , พาวเวอร์9
NVLink 3.0	50 จีที/วินาที		เอ็นอาร์ซี	25 GB/s		12	600 GB/s	แอมแปร์
NVLink 4.0	50 GT/s ^{[ 10 ]}		PAM4 คู่ดิฟเฟอเรนเชียล	25 GB/s		18	900 GB/s	ฮอปเปอร์ , เอ็นดีวี เกรซ
NVLink 5.0 ^{[ 11 ]}	100 จีที/วินาที		PAM4 คู่ดิฟเฟอเรนเชียล	50 GB/s		18	1800 GB/s	แบล็กเวลล์ , โนวิดา เกรซ

ตารางต่อไปนี้แสดงการเปรียบเทียบพารามิเตอร์บัสที่เกี่ยวข้องสำหรับเซมิคอนดักเตอร์ในโลกแห่งความเป็นจริงที่นำเสนอ NVLink เป็นหนึ่งในตัวเลือก:

เซมิคอนดักเตอร์	รูปแบบการจัดส่งโดยรถโดยสาร/รถบัส	การเชื่อมต่อ	อัตราค่าเทคโนโลยีการส่งกำลัง (ต่อเลน)	จำนวนเลนต่อลิงก์ย่อย (ขาออก + ขาเข้า)	อัตราการส่งข้อมูลย่อย (ต่อทิศทางข้อมูล) ^{[ b ]}	จำนวนลิงก์ย่อยหรือหน่วย	อัตราการส่งข้อมูลรวม (ขาออก + ขาเข้า) ^{[ b ]}	จำนวนช่องทางทั้งหมด (ขาออก + ขาเข้า)	อัตราการส่งข้อมูลรวม (ขาออก + ขาเข้า) ^{[ b ]}
เอ็นดีวีจีพี100	P100 SXM, ^{[ 12 ]} P100 PCI-E ^{[ 13 ]}	PCIe 3.0	8 จีที/วินาที	16 + 16 ^[ค]	128 กิกะบิต/วินาที = 16 กิกะไบต์/วินาที	1	16 + 16 GB/s ^{[ 14 ]}	32 ^[ง]	32 GB/s
เอ็นดีวี100	V100 SXM2, ^{[ 15 ]} V100 PCI-E ^{[ 16 ]}	PCIe 3.0	8 จีที/วินาที	16 + 16 ^[ค]	128 กิกะบิต/วินาที = 16 กิกะไบต์/วินาที	1	16 + 16 GB/s	32 ^[ง]	32 GB/s
Nvidia TU104	GeForce RTX 2080 , Quadro RTX 5000	PCIe 3.0	8 จีที/วินาที	16 + 16 ^[ค]	128 กิกะบิต/วินาที = 16 กิกะไบต์/วินาที	1	16 + 16 GB/s	32 ^[ง]	32 GB/s
Nvidia TU102	GeForce RTX 2080 Ti, Quadro RTX 6000/8000	PCIe 3.0	8 จีที/วินาที	16 + 16 ^[ค]	128 กิกะบิต/วินาที = 16 กิกะไบต์/วินาที	1	16 + 16 GB/s	32 ^[ง]	32 GB/s
Nvidia GA100 ^{[ 17 ]}^{[ 18 ]} Nvidia GA102 ^{[ 19 ]}	แอมแปร์ A100 (SXM4 และ PCIe) ^{[ 20 ]}	PCIe 4.0	16 GT/s	16 + 16 ^[ค]	256 กิกะบิต/วินาที = 32 กิกะไบต์/วินาที	1	32 + 32 GB/s	32 ^[ง]	64 GB/s
เอ็นดีวีจีพี100	P100 SXM (ไม่สามารถใช้งานร่วมกับ P100 PCI-E ได้) ^{[ 21 ]}	NVLink 1.0	20 GT/s	8 + 8 ^{[ e ]}	160 กิกะบิต/วินาที = 20 กิกะไบต์/วินาที	4	80 + 80 GB/s	64	160 GB/s
เอ็นดีวี100	V100 SXM2 ^{[ 22 ]} (ไม่สามารถใช้งานร่วมกับ V100 PCI-E ได้)	NVLink 2.0	25 จีที/วินาที	8 + 8 ^{[ e ]}	200 กิกะบิต/วินาที = 25 กิกะไบต์/วินาที	6 ^{[ 23 ]}	150 + 150 GB/s	96	300 GB/s
Nvidia TU104	GeForce RTX 2080 , Quadro RTX 5000 ^{[ 24 ]}	NVLink 2.0	25 จีที/วินาที	8 + 8 ^{[ e ]}	200 กิกะบิต/วินาที = 25 กิกะไบต์/วินาที	1	+ GB/s	16	50 GB/s
Nvidia TU102	GeForce RTX 2080 Ti, Quadro RTX 6000/8000 ^{[ 24 ]}	NVLink 2.0	25 จีที/วินาที	8 + 8 ^{[ e ]}	200 กิกะบิต/วินาที = 25 กิกะไบต์/วินาที	2	50 + 50 GB/s	32	100 GB/s
Nvidia GA100 ^{[ 17 ]}^{[ 18 ]}	แอมแปร์ A100 (SXM4 และ PCIe) ^{[ 20 ]}	NVLink 3.0	50 จีที/วินาที	4 + 4 ^{[ e ]}	200 กิกะบิต/วินาที = 25 กิกะไบต์/วินาที	12 ^{[ 25 ]}	300 + 300 GB/s	96	600 GB/s
Nvidia GA102 ^{[ 19 ]}	GeForce RTX 3090, Quadro RTX A6000	NVLink 3.0	28.125 จีที/วินาที	4 + 4 ^{[ e ]}	112.5 กิกะบิต/วินาที = 14.0625 กิกะไบต์/วินาที	4	56.25 + 56.25 GB/s	16	112.5 GB/s
NVSwitch สำหรับ Hopper ^{[ 26 ]}	(สวิตช์ 64 พอร์ตที่เชื่อมต่ออย่างสมบูรณ์)	NVLink 4.0	106.25 จีที/วินาที	9 + 9 ^{[ e ]}	450 กิกะบิต/วินาที	18	3600 + 3600 GB/s	128	7200 GB/s
Nvidia Grace CPU ^{[ 27 ]}	ชิปซูเปอร์ Nvidia GH200	PCIe-5 (4x, 16x) ที่ความเร็ว 512 GB/s
Nvidia Grace CPU ^{[ 27 ]}	ชิปซูเปอร์ Nvidia GH200	NVLink-C2C ที่ความเร็ว 900 GB/s
Nvidia Hopper GPU ^{[ 27 ]}	ชิปซูเปอร์ Nvidia GH200	NVLink-C2C ที่ความเร็ว 900 GB/s
Nvidia Hopper GPU ^{[ 27 ]}	ชิปซูเปอร์ Nvidia GH200	NVLink 4 (18x) @ 900 GB/s

^ PCIe: รวม 5 นิ้วสำหรับ PCB
^ ^a ^b ^cคอลัมน์อัตราข้อมูลคือค่าสูงสุดทางทฤษฎี
^ ^a ^b ^c ^d ^eค่าตัวอย่าง; เศษส่วนอื่นๆ สำหรับการใช้งานเลน PCIe น่าจะเป็นไปได้
^ ^a ^b ^c ^d ^eเลน PCIe เดียวถ่ายโอนข้อมูลผ่านคู่สายแบบดิฟเฟอเรนเชียล
^ ^a ^b ^c ^d ^e ^f ^gค่าตัวอย่าง; การรวมซับลิงก์ NVLink น่าจะเป็นไปได้

ประสิทธิภาพในโลกแห่งความเป็นจริงสามารถกำหนดได้โดยการใช้ต้นทุนค่าใช้จ่ายในการส่งข้อมูลที่แตกต่างกัน รวมถึงอัตราการใช้งาน ซึ่งมาจากแหล่งข้อมูลต่างๆ ดังนี้:

รหัสสายสัญญาณ 128 บิต/130 บิต (ดูตัวอย่างเช่นการส่งข้อมูล PCI Expressสำหรับเวอร์ชัน 3.0 ขึ้นไป)
อักขระควบคุมลิงก์
ส่วนหัวของธุรกรรม
ความสามารถในการบัฟเฟอร์
การใช้งาน DMAฝั่งคอมพิวเตอร์

ข้อจำกัดทางกายภาพเหล่านั้นมักจะลดอัตราการส่งข้อมูลลงเหลือระหว่าง 90-95 เปอร์เซ็นต์ของอัตราการถ่ายโอน การทดสอบ NVLink แสดงให้เห็นอัตราการถ่ายโอนที่ทำได้ประมาณ 35.3 Gbit/s (โฮสต์ไปยังอุปกรณ์) สำหรับการเชื่อมต่อ NVLink 40 Gbit/s (อัปโหลด 2 ซับเลน) ไปยัง GPU P100 ในระบบที่ขับเคลื่อนด้วยชุด CPU IBM POWER8 ^{[ 28 ]}

ใช้กับแผงวงจรแบบเสียบปลั๊ก

สำหรับบอร์ดเสียบปลั๊กแบบต่างๆ (ปัจจุบันมีบอร์ด GPU สำหรับเล่นเกมระดับไฮเอนด์และระดับมืออาชีพจำนวนไม่มากที่มีคุณสมบัตินี้) ที่มีขั้วต่อเพิ่มเติมสำหรับเชื่อมต่อเข้าด้วยกันเป็นกลุ่ม NVLink นั้น ก็จะมีปลั๊กเชื่อมต่อแบบ PCB ขนาดกะทัดรัดที่แตกต่างกันเล็กน้อยอยู่จำนวนหนึ่ง โดยทั่วไปแล้ว บอร์ดประเภทเดียวกันเท่านั้นที่จะสามารถเชื่อมต่อกันได้เนื่องจากโครงสร้างทางกายภาพและตรรกะ ในบางกรณี อาจต้องใช้ปลั๊กที่เหมือนกันสองตัวเพื่อให้ได้อัตราการส่งข้อมูลสูงสุด ปัจจุบัน ปลั๊กทั่วไปมีรูปทรงตัว U โดยมีขั้วต่อแบบตะแกรงละเอียดอยู่ที่ปลายแต่ละด้านของรูปทรงที่หันออกจากผู้ดู ความกว้างของปลั๊กจะเป็นตัวกำหนดระยะห่างระหว่างการ์ดเสียบปลั๊กกับบอร์ดหลักของระบบคอมพิวเตอร์ ซึ่งระยะห่างในการวางการ์ดมักจะถูกกำหนดโดยปลั๊กที่เข้ากันได้ (ความกว้างของปลั๊กที่มีจำหน่ายทั่วไปคือ 3 ถึง 5 สล็อต และขึ้นอยู่กับประเภทของบอร์ดด้วย) ^{[ 29 ]}^{[ 30 ]}การเชื่อมต่อนี้มักถูกเรียกว่าScalable Link Interface (SLI) ตั้งแต่ปี 2004 เนื่องจากโครงสร้างและรูปลักษณ์ แม้ว่าการออกแบบที่ใช้ NVLink ในปัจจุบันจะมีลักษณะทางเทคนิคที่แตกต่างกันมากและมีฟีเจอร์ที่แตกต่างกันในระดับพื้นฐานเมื่อเทียบกับการออกแบบก่อนหน้านี้ อุปกรณ์จริงที่รายงานมีดังนี้: ^{[ 31 ]}

Quadro GP100 (การ์ดคู่หนึ่งจะใช้บริดจ์ได้สูงสุด 2 ตัว^{[ 32 ]}การตั้งค่านี้รองรับการเชื่อมต่อ NVLink 2 หรือ 4 การเชื่อมต่อด้วยความเร็วสูงสุด 160 GB/s ^{[ 33 ]}ซึ่งอาจคล้ายกับ NVLink 1.0 ที่มีความเร็ว 20 GT/s)
Quadro GV100 (การ์ดสองใบจะต้องใช้บริดจ์สูงสุด 2 ตัวและรองรับความเร็วสูงสุด 200 GB/s ^{[ 29 ]} - ซึ่งอาจคล้ายกับ NVLink 2.0 ที่มีความเร็ว 25 GT/s และ 4 ลิงก์)
GeForce RTX 2080 ที่ใช้ TU104 (พร้อมบริดจ์เดี่ยว "GeForce RTX NVLink-Bridge" ^{[ 34 ]} )
GeForce RTX 2080 Ti ที่ใช้ TU102 (พร้อมบริดจ์เดี่ยว "GeForce RTX NVLink-Bridge" ^{[ 30 ]} )
GeForce RTX 3090 ที่ใช้ GA102 (พร้อม "GeForce RTX NVLink-Bridge เฉพาะ (สำหรับผลิตภัณฑ์ซีรี่ส์ 30)") ^{[ 35 ]}
Quadro RTX 5000 ^{[ 36 ]}ที่ใช้ TU104 ^{[ 37 ]} (พร้อมบริดจ์เดี่ยว "NVLink" สูงสุด 50 GB/s ^{[ 38 ]} - ซึ่งอาจคล้ายกับ NVLink 2.0 ที่มี 25 GT/s และ 1 ลิงก์)
Quadro RTX 6000 ^{[ 36 ]}ที่ใช้ TU102 ^{[ 37 ]} (พร้อมบริดจ์เดี่ยว "NVLink HB" สูงสุด 100 GB/s ^{[ 38 ]} - ซึ่งอาจคล้ายกับ NVLink 2.0 ที่มี 25 GT/s และ 2 ลิงก์)
Quadro RTX 8000 ^{[ 36 ]}ที่ใช้ TU102 ^{[ 39 ]} (พร้อมบริดจ์เดี่ยว "NVLink HB" สูงสุด 100 GB/s ^{[ 38 ]} - ซึ่งอาจคล้ายกับ NVLink 2.0 ที่มี 25 GT/s และ 2 ลิงก์)

ซอฟต์แวร์บริการและการเขียนโปรแกรม

สำหรับผลิตภัณฑ์ Tesla, Quadro และ Grid นั้น NVML-API (Nvidia Management Library API) มีฟังก์ชันชุดหนึ่งสำหรับควบคุมการเชื่อมต่อ NVLink บางส่วนบนระบบ Windows และ Linux โดยใช้โปรแกรม เช่น การประเมินส่วนประกอบและเวอร์ชัน รวมถึงการสอบถามสถานะ/ข้อผิดพลาดและการตรวจสอบประสิทธิภาพ^{[ 40 ]}นอกจากนี้ ด้วยการจัดเตรียมไลบรารี NCCL (Nvidia Collective Communications Library) นักพัฒนาในพื้นที่สาธารณะจะสามารถนำไปใช้งานได้อย่างมีประสิทธิภาพ เช่น การใช้งานปัญญาประดิษฐ์และหัวข้อที่ต้องการการคำนวณสูงบน NVLink ^{[ 41 ]}หน้า "การตั้งค่า 3 มิติ" » "กำหนดค่า SLI, Surround, PhysX" ในแผงควบคุม Nvidia และ แอปพลิเคชันตัวอย่าง CUDA "simpleP2P" ใช้ API ดังกล่าวเพื่อให้บริการที่เกี่ยวข้องกับคุณสมบัติ NVLink บนแพลตฟอร์ม Linux แอปพลิเคชันบรรทัดคำสั่งที่มีคำสั่งย่อย "nvidia-smi nvlink" ให้ข้อมูลและการควบคุมขั้นสูงที่คล้ายกัน^{[ 31 ]}

ประวัติศาสตร์

เมื่อวันที่ 5 เมษายน 2559 Nvidia ได้ประกาศว่า NVLink จะถูกนำไปใช้ใน GPU GP100 ที่ใช้ สถาปัตยกรรมไมโคร Pascalเช่น ในผลิตภัณฑ์ Nvidia Tesla P100 ^{[ 42 ]}ด้วยการเปิดตัวฐานคอมพิวเตอร์ประสิทธิภาพสูง DGX-1 ทำให้สามารถมีโมดูล P100 ได้มากถึงแปดโมดูลในระบบแร็คเดียวที่เชื่อมต่อกับ CPU โฮสต์ได้มากถึงสองตัวบอร์ดตัวนำ (...) อนุญาตให้มีบอร์ดเฉพาะสำหรับการกำหนดเส้นทางการเชื่อมต่อ NVLink – แต่ละ P100 ต้องการ 800 พิน 400 สำหรับ PCIe + พลังงาน และอีก 400 สำหรับ NVLink รวมแล้วเกือบ 1600 เส้นทางบนบอร์ดสำหรับ NVLink เพียงอย่างเดียว (...) ^{[ 43 ]} CPU แต่ละตัวมีการเชื่อมต่อโดยตรงกับ P100 จำนวน 4 หน่วยผ่าน PCIe และ P100 แต่ละตัวมี NVLink หนึ่งตัวไปยัง P100 อีก 3 ตัวในกลุ่ม CPU เดียวกัน บวกกับ NVLink อีกหนึ่งตัวไปยัง P100 อีกหนึ่งตัวในกลุ่ม CPU อื่นแต่ละ NVLink (อินเทอร์เฟซลิงก์) ให้บริการแบบสองทิศทางที่ 20 GB/วินาที ขึ้นและ 20 GB/วินาที ลง โดยมี 4 ลิงก์ต่อ GPU GP100 ทำให้มีแบนด์วิดท์รวม 80 GB/วินาที ขึ้นและอีก 80 GB/วินาที ลง^{[ 44 ]} NVLink รองรับการกำหนดเส้นทาง ดังนั้นในการออกแบบ DGX-1 สำหรับ P100 แต่ละตัว จะสามารถเข้าถึง P100 อีก 4 ตัวจากทั้งหมด 7 ตัวได้โดยตรง และอีก 3 ตัวที่เหลือสามารถเข้าถึงได้ด้วยการกระโดดเพียงครั้งเดียว ตามภาพประกอบในสิ่งพิมพ์บนบล็อกของ Nvidia ตั้งแต่ปี 2014 NVLink อนุญาตให้รวมลิงก์แต่ละรายการเพื่อเพิ่มประสิทธิภาพแบบจุดต่อจุด ตัวอย่างเช่น การออกแบบที่มี P100 สองตัวและลิงก์ทั้งหมดที่สร้างขึ้นระหว่างสองหน่วยจะทำให้สามารถใช้แบนด์วิดท์ NVLink เต็มที่ 80 GB/วินาที ระหว่างกันได้^{[ 45 ]}

ในงาน GTC2017 นิฟดาได้นำเสนอ GPU รุ่น Volta และระบุถึงการรวมเอา NVLink เวอร์ชัน 2.0 ที่ได้รับการปรับปรุงใหม่ ซึ่งจะช่วยให้สามารถรับส่งข้อมูล I/O รวมได้ถึง 300 GB/s สำหรับชิปตัวเดียวในดีไซน์นี้ และยังประกาศเพิ่มเติมเกี่ยวกับการเปิดให้สั่งจองล่วงหน้าพร้อมสัญญาว่าจะส่งมอบในไตรมาสที่ 3 ปี 2017 สำหรับคอมพิวเตอร์ประสิทธิภาพสูง DGX-1 และ DGX-Station ที่จะติดตั้งโมดูล GPU ประเภท V100 และมี NVLink 2.0 ที่ใช้งานได้ในรูปแบบเครือข่าย (สองกลุ่มของโมดูล V100 สี่โมดูลที่มีการเชื่อมต่อระหว่างกลุ่ม) หรือในรูปแบบการเชื่อมต่อแบบเต็มรูปแบบของกลุ่มโมดูล V100 สี่โมดูลกลุ่มเดียว

ในปี 2017–2018 IBM และ Nvidia ได้ส่งมอบ ซูเปอร์คอมพิวเตอร์ SummitและSierraให้กับกระทรวงพลังงานของสหรัฐอเมริกา^{[ 46 ]}ซึ่งรวมซีพียูตระกูลPOWER9 ของ IBM และสถาปัตยกรรม Volta ของ Nvidia โดยใช้ NVLink 2.0 สำหรับการเชื่อมต่อ CPU-GPU และ GPU-GPU และInfiniBand EDR สำหรับการเชื่อมต่อระบบ^{[ 47 ]}

ในปี 2020 Nvidia ประกาศว่าจะไม่เพิ่มโปรไฟล์ไดรเวอร์ SLI ใหม่สำหรับ ซีรี่ส์ RTX 2000และรุ่นเก่ากว่าตั้งแต่วันที่ 1 มกราคม 2021 เป็นต้นไป^{[ 48 ]}

ในปี 2022 คอนเน็กเตอร์ NVLink ถูกถอดออกจากสถาปัตยกรรม Ada Lovelace โดย Jensen Huang ซีอีโอของ Nvidia ระบุว่า I/O ที่ว่างจากการถอดคอนเน็กเตอร์นี้จะถูกนำไปใช้เพื่อความสามารถในการประมวลผล AI และมีเจตนาที่จะเปลี่ยนไปใช้มาตรฐาน PCIe Gen 5.0 ^{[ 49 ]}^{[ 50 ]}^{[ 51 ]}ผู้ใช้บางรายรายงานว่าบอร์ดบางรุ่นมีร่องรอยของคอนเน็กเตอร์ NVLink ที่ถูกถอดออก^{[ 52 ]}^{[ 53 ]}^{[ 54 ]}เทคโนโลยี NVLink ยังคงมีให้ใช้งานสำหรับศูนย์ข้อมูลและผู้ใช้ระดับองค์กร^{[ 55 ]}

ได้รับการสนับสนุนจากผู้ผลิตรายอื่น

ในปี 2025 มีการประกาศเปิดตัว NVLink Fusion เพื่ออนุญาตให้นักออกแบบชิปสามารถอนุญาตและรวม NVLink เข้ากับผลิตภัณฑ์ของตนได้^{[ 56 ]}ต่อมา NVLink Fusion ได้รับการอนุญาตจากARMและSiFiveสำหรับผลิตภัณฑ์ศูนย์ข้อมูล^{[ 57 ]}^{[ 58 ]}และAmazon Web Servicesสำหรับตัวเร่งความเร็วTrainium4 ที่กำลังจะมาถึง ^{[ 59 ]}

ดูเพิ่มเติม

[7] PCIe: รวม 5 นิ้วสำหรับ PCB

[datarate-13] คอลัมน์อัตราข้อมูลคือค่าสูงสุดทางทฤษฎี

[fractions-16] ค่าตัวอย่าง; เศษส่วนอื่นๆ สำหรับการใช้งานเลน PCIe น่าจะเป็นไปได้

[diff_pair-18] เลน PCIe เดียวถ่ายโอนข้อมูลผ่านคู่สายแบบดิฟเฟอเรนเชียล

[sub_bundling-26] ^ ^a ^b ^c ^d ^e ^f ^gค่าตัวอย่าง; การรวมซับลิงก์ NVLink น่าจะเป็นไปได้

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

ซึ่งประกาศใน

[

[ a ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ b ]

[ 12 ]

[ 13 ]

[ค]

[ 14 ]

[ง]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ e ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]