大模型技術因其良好的通用性與泛化性,顯著降低了人工智能應用的門檻,其溢出效應正在加速推進新一輪的科技革命和社會產業的變革。尤其是以ChatGPT為代表的生成式人工智能應用的出現,使大模型的發展成為AI領域最重要的熱點趨勢,越來越多的科技巨頭競相推出千億、萬億參數的大模型。而訓練超大參數規模的大模型也給智能計算基礎設施帶來了前所未有的挑戰。大模型的訓練過程需要數千張GPU卡協同計算數周或數月,這就要求智能計算網絡能夠提供更強大的性能和更高的穩定性與可靠性。

超擎數智憑借對高速率網絡發展趨勢的理解,和豐富的高性能網絡項目實施經驗,基于NVIDIA Quantum-2 InfiniBand平臺為客戶提供NDR (Next Data Rate)網絡產品應用與連接方案。NVIDIA Quantum-2 InfiniBand平臺以超高的帶寬、超低的傳輸延時以及極簡的運維成為了人工智能和超大規模數據中心的首選。與上一代產品相比,Quantum-2實現了兩倍的端口速度,三倍的交換機端口密度,五倍的交換機系統容量,以及32倍的交換機AI加速能力。如果采用Dragonfly+拓撲,基于Quantum-2的網絡可在3個hop內實現百萬余個節點的400Gb/s連接能力。可為AI開發者和科研人員提供超強網絡性能,幫助他們應對全球極具挑戰的問題。

Quantum-2 InfiniBand交換機

超擎數智提供基于NVIDIA Quantum-2的QM9700和QM9790交換機。NVIDIA Quantum-2盒式交換機主要有兩個型號:QM9790和QM9700,兩者主要區別在于管理方式,QM9700帶管理接口,支持外部管理,而QM9790不支持,在端口形態、速率上則沒有任何區別。QM9700系列交換機支持64個400G端口、或128個200G端口的靈活搭配,需要注意的是QM9700采用的1U的設計,單面板32*OSFP端口,每個OSFP端口支持2X400G速率,在交換機內部則以IB1/**/1、IB1/**/2的形式展示64個400G端口的信息。

8c15052aa212f4131e6bd2423c839f77.png

NVIDIA Quantum-2搭載第三代NVIDIA SHARP技術,能夠為各種規模的網絡數據聚合創造幾乎無限的可擴展性,其AI加速能力將達至前一代的32倍。此外,第三代SHARP技術可在不降低性能的情況下,支持多個租戶或多個并行應用共享基礎設施。MPI_Alltoall加速和MPI標簽匹配硬件引擎以及其他功能(如高級擁塞控制、動態路由以及自我修復網絡)可為高性能計算(HPC)和AI集群提供至關重要的增強功能,從而使其性能更上一層樓。

df0da56a5db41bb5e63a873b78e21acd.png

ConnectX-7 HCA網卡

NVIDIA ConnectX@-7 InfiniBand網卡(HCA) ASIC可提供400Gb/s的數據吞吐量,并支持16通道的PCle5.0或PCle4.0主機接口。400Gb/s lnfiniBand采用先進的每通道100Gb/s的SerDes,通過交換機和HCA端口上的OSFP連接器實現物理連接。每個交換機OSFP連接器支持兩個400Gb/s InfiniBand端口或200Gb/s InfiniBand端口。網卡HCA的OSFP連接器支持一個400Gb/s InfiniBand端口。400Gb/s線纜產品包括有源及無源銅纜、收發器以及MPO光纜。需要注意的是,雖然網卡與交換機都采用的OSFP封裝,但在物理尺寸上有所區別:交換機端的OSFP模塊帶散熱鰭片,而網卡端采用OSFP-RHS結構不帶散熱片,依靠網卡端口上的散熱片輔助模塊進行散熱。

694d7999064f0d43158389a7733d4b90.png

NDR光連接解決方案

超擎數智提供靈活的NDR光連接解決方案,NDR交換機端口的物理形態是OSFP,每個接口有八個通道,每通道采用100Gb/s的SerDes;所以從連接速率上來看,有800G to 800G、800G to 2X400G與800G to 4X200G三種主流連接方案;同時,每個通道支持從100Gb/s降至50Gb/s,所以它也可以與上一代HDR(HDR采用50Gb/s的SerDes)設備互連,即可以支持400G to 2X200G。

NDR系列電纜和收發器提供了豐富的產品選擇,用于配置任何網絡交換和適配器系統,專注于長達 2 公里的數據中心長度,用于加速人工智能計算系統。為了最大限度地減少數據重傳,電纜和收發器都具有低延遲、高帶寬人工智能和加速計算應用所需的極低誤碼率 (BER)。

從連接件類型上來看,主要有三種方式:無源銅纜DAC、有源銅纜ACC與光模塊+跳線的方案。其中DAC支持1-3米的傳輸距離(其中直連DAC傳輸距離為2米),ACC支持3-5米的傳輸距離,多模光模塊最遠支持50米傳輸距離,單模光模塊最遠支持500米傳輸距離。

bdffa75f0b6d70ab99ae715cbac8f28c.png


超擎數智NDR交換機到NDR設備連接方案

NDR InfiniBand Quantum-2交換機 —— NDR InfiniBand Quantum-2交換機

1、NDR光模塊

多模光模塊——MMA4Z00-NS(50m)

單模光模塊——MMS4X00-NS(100m)、MS4X00-NM(500m)

① Single 2x400Gb/s OSFP - Single 2x400Gb/s OSFP:使用OSFP雙端口收發器和兩根直連MPO-12/APC光纖跳線以 800G (2x400G) 速率將兩臺OSFP端口的 QM9700/QM9790交換機連接在一起,多模最遠傳輸距離可以達到50m,單模傳輸距離可以達到100m或500m;

② Single 2x400Gb/s OSFP - Dual 2x400Gb/s OSFP:使用OSFP雙端口收發器和兩根MPO-12/APC光纖跳線還可以路由到兩個不同的交換機,形成兩條 400Gb/s 鏈路,然后將額外的OSFP端口路由到更多的交換機。

d6060631e40c4e9ed203bdc1173cd881.png

800G SR8連接示意圖

0ec536598623738c11922a2e91d6c5a8.png

800G DR8 100m連接示意圖

b8dd66bd8284937628c5954c398e03aa.png

800G DR8 500m連接示意圖

2、NDR Copper(DAC / ACC)

NDR Copper Cable的主要用途是將兩個雙端口、基于 OSFP 的 Quantum-2 InfiniBand 或 Spectrum-4 以太網交換機相互連接在一起,分為無源銅纜DAC和有源銅纜ACC,其中平頂Flat Top用于 DGX H800,翅片頂部Finned Top連接器用于 InfiniBand 或以太網交換機。

-MCP4Y10:無源銅纜(DAC),長度最長2m。

-MCA4J80:有源銅纜 (ACC),可將長度延長至 3、4 和 5 米,同時保持每端 1.5 瓦的極低延遲和極低功耗。

742dd09b4d9e29e6b9b75af705f53b14.png

800G DAC連接示意圖

90dca25e3c6340baf4fa2f26504bf063.png

800G ACC連接示意圖

NDR InfiniBand Quantum-2交換機 —— 2 x 400G ConnectX-7(OSFP/QSFP112)Adapter/BlueField-3 DPU(QSFP112)

1、NDR光模塊

交換機側:800G Twin-port OSFP光模塊——MMA4Z00-NS(50m)、MMS4X00-NS(100m)

網卡側:400G Single port OSFP/QSFP112光模塊——MMA4Z00-NS400 / MMA1Z00-NS400(50m)、MMS4X00-NS400(100m)

使用兩根光纖跳線的雙端口 OSFP 光模塊最多可支持兩個適配器和/或 DPU 組合。兩條 4 通道光纖跳線中的每一條都可以連接到 OSFP 或 QSFP112 封裝的 400G 光模塊,多模最遠傳輸距離可達 50 米,單模最遠傳輸距離可達100m。

-僅 ConnectX-7/OSFP 支持單端口 OSFP。

-QSFP112封裝光模塊可用于ConnectX-7/QSFP112和BlueField-3/QSFP112 DPU。

-使用 OSFP 或 QSFP112 的 ConnectX-7 和 BlueField-3 的任意組合可同時與雙端口 OSFP 光模塊連接使用。

3c39b547356620b4b9f0771229954e0b.png

800G SR8 —— 2x400G SR4連接示意圖

ca94e60551a30e5cf7f757a9906d4230.png

800G DR8 —— 2x400G DR4連接示意圖

2、NDR Copper(DAC /ACC)

800Gb/s 雙端口 OSFP至 2x400Gb/s OSFP/QSFP112 分支銅纜適用于 400Gb/s NVIDIA 端到端 Infiniband和以太網解決方案。主要用途是將 800Gb/s Quantum-2 交換機或 Spectrum-4 交換機連接到基于 OSFP/QSFP112 的 400Gb/s ConnectX-7 PCIe 網絡適配器卡/BlueField-3 DPU。

-單端口 OSFP僅適用于 ConnectX-7/OSFP 網絡適配器。

-BlueField-3/QSFP112 DPU 和 ConnectX-7/QSFP112 適配器需要 MCP7Y10 和 MCA7J65 銅纜上的 QSFP112 端。

-有源銅纜 (ACC) MCA7J60、MCA7J65的長度可提供 4 米和 5 米。

 

a81b944a62aec3256d30c87d1e1e38d0.png

OSFP - 2x400G OSFP DAC/ACC連接示意圖

d7de3e4b40e0756c0f6e94e85064a310.png

OSFP - 2x400G QSFP112 DAC連接示意圖

NDR InfiniBand Quantum-2交換機 —— 4 x 200G ConnectX-7(OSFP/QSFP112)Adapter/BlueField-3 DPU(QSFP112)

1、NDR Twin-port光模塊

交換機側:800G Twin-port OSFP光模塊——MMA4Z00-NS(50m)、MMS4X00-NS(100m)

網卡側:400G Single port OSFP/QSFP112光模塊——MMA4Z00-NS400 / MMA1Z00-NS400(50m)、MMS4X00-NS400(100m)

使用兩根 1:2 分支光纖跳線的雙端口 OSFP 光模塊最多可支持四個適配器和/或 DPU 組合。兩根 4 通道 1:2 分支光纖跳線中的每根都可以連接到 OSFP 或 QSFP112 封裝的 400G 光模塊,最遠傳輸距離可達 50 米。在 400G 光模塊中僅激活其中的兩個通道,從而實現 200G 應用。

-僅 ConnectX-7/OSFP 支持單端口 OSFP。

-QSFP112 封裝光模塊可用于 ConnectX-7/QSFP112 和BlueField-3/QSFP112 DPU。

-ConnectX-7 和 BlueField-3 網卡的任意組合可同時與雙端口OSFP 光模塊連接使用。

-單模直連光纖最大傳輸距離為 100 米,但 1:2 分支光纖跳線的最大傳輸距離為 50 米。

c15999bf2bda81bcadd43b5e15978926.png

800G SR8 —— 4x200G SR2連接示意圖

1803cafc67bb63500637c6eb5aeb8e48.png

800G DR8 —— 4x200G DR2連接示意圖

2、NDR Copper(DAC / ACC)

800Gb/s 雙端口 OSFP至 4x200Gb/s OSFP/QSFP112 分支銅纜適用于 400Gb/s NVIDIA 端到端 Infiniband和以太網解決方案。主要用途是將 800Gb/s Quantum-2 交換機或 Spectrum-4 交換機連接到基于 OSFP/QSFP112 的 200Gb/s ConnectX-7 PCIe 網絡適配器卡/BlueField-3 DPU。

-單端口 OSFP僅適用于 ConnectX-7/OSFP 網絡適配器。

-BlueField-3/QSFP112 DPU 和 ConnectX-7/QSFP112 適配器需要 MCP7Y40 和 MCA7J75銅纜上的 QSFP112 端。

-有源銅纜 (ACC) MCA7J70、MCA7J75的長度可提供 4 米和 5 米。

0c02364bf2f02630f9789ea287d8cace.png

OSFP - 4x200G OSFP DAC/ACC連接示意圖

ea3759b27c4fb6f46250c51a418b42c8.png

OSFP - 4x200G QSFP112 DAC連接示意圖

NDR InfiniBand Quantum-2交換機 —— DGX H800 GPU Systems

1、NDR光模塊

DGX-H800 在頂部機箱部分包含 8 個“Hopper”H800 GPU,在底部服務器部分包含兩個 CPU、存儲以及 InfiniBand 和/或以太網網絡設備。其中包含八個 400Gb/s ConnectX-7 IC,安裝在兩個稱為“Cedar-7”板卡的夾層板上,用于 GPU 到 GPU InfiniBand 或以太網網絡。板卡 I/O 在內部路由至四個 800G 雙端口 OSFP 機箱,內置散熱器安裝于前面板上的機箱頂部。這需要在 DGX H800 中使用flat-top transceivers、ACC 和 DAC 線纜。由于交換機中的氣流入口減少,400G IB/EN 交換機需要使用finned-top 2x400G 光模塊進行額外冷卻。

每個雙端口 2x400G 光模塊提供兩條從 DGX 到 Quantum-2 或 Spectrum-4 交換機的 400G ConnectX-7 鏈路。與 DGX A800 相比,這減少了 ConnectX-7 板卡冗余、復雜性和光模塊數量,DGX A800 使用 8 個獨立的 HCA 和 8 個光模塊或 AOC 線纜以及兩個用于 InfiniBand 或以太網存儲的附加 ConnectX-6。

此外,對于存儲、集群和管理的傳統網絡,DGX-H800 還支持多達四個 ConnectX-7 和/或兩個 BlueField-3 DPU 在 InfiniBand 和/或以太網中用于存儲 I/O,以及支持使用 OSFP 或 QSFP112 光模塊的 400G 或 200G 設備進行的額外網絡。這些 PCIe 卡槽位于OSFP GPU機箱的兩側,并使用單獨的電纜和/或光模塊。

19b790324c0432eba3704d9ef13d0ce7.png

800G SR8連接示意圖

b1fe85539a8cfcc2551e499eb24710c4.png

800G DR8連接示意圖

2、NDR Copper(DAC / ACC)

OSFP 平頂端Flat Top線纜可用于液冷交換機和 DGX H800 系統,其中,MCP4Y10-N0XX-FLT無源DAC電纜長度為0.5m和1m,MCA4J80有源ACC電纜連接到DGX-H800 Cedar 系統可使用的長度為3m。

415029ca998f4029ea5e285791be5b2f.png

800G DAC連接示意圖

2c54e7f6f846cc22656c0266f63b7b77.png

800G ACC連接示意圖

超擎數智NDR交換機到HDR設備連接方案

NDR InfiniBand Quantum-2交換機 —— 2 x HDR InfiniBand Quantum交換機

NDR InfiniBand Quantum-2交換機 —— 2 x 200G QSFP56 ConnectX-6 Adapter/BlueField-2 DPU

MFA7U10-H00X是一款 OSFP 至 2x QSFP56、400Gb/s 至 2 x 200Gb/s 有源分光器電纜 (AOC),將來自單個 OSFP 端上的 8 個 MMF(多模光纖)對中的每對數據信號連接到每個 QSFP56 多端口端的四對。MFA7U10-H00X用于將帶有 OSFP 端口的 NDR 交換機連接到基于QSFP56 端口的2 個HDR 交換機或ConnectX-6適配器/BlueField-2 DPU 。

381fa0ace6fe5670776757fa9408fe5e.png

400G OSFP - 2x200G QSFP56 AOC線纜連接示意圖