您當前的位置:檢測資訊 > 科研開發
嘉峪檢測網 2024-11-20 10:24
在 2024 年超級計算機大會上,這家人工智能計算巨頭展示了可能是迄今為止最大的人工智能“芯片”——四 GPU Grace Blackwell GB200 NVL4 Superchip,同時宣布其 H200 NVL PCIe 模塊已全面上市,可供運行人工智能工作負載的企業服務器使用。
這再次表明該公司正在擴展半導體芯片的傳統定義,以推動其 AI 計算雄心。
該產品于周一在超級計算 2024 活動上發布,比 Nvidia 最近推出的 Grace Blackwell GB200 Superchip更進了一步,后者于 3 月作為該公司新的旗艦 AI 計算產品發布。這家 AI 計算巨頭還宣布其 H200 NVL PCIe 模塊全面上市,這將使今年早些時候推出的 H200 GPU 更適用于標準服務器平臺。
Nvidia 加速計算總監 Dion Harris 上周在與記者的簡報會上表示,GB200 NVL4 Superchip專為運行高性能計算和 AI 工作負載的“單服務器 Blackwell 解決方案”而設計。
這些服務器解決方案包括惠普企業的 Cray Supercomputing EX154n 加速器刀片,該刀片于上周發布,最多可容納 224 個 B200 GPU。據 HPE 稱,Cray 刀片服務器預計將于 2025 年底上市。
根據 Nvidia 分享的圖片顯示,GB200 Superchip 看起來就像一塊光滑的黑色主板,將一個基于 Arm 的 Grace GPU 與兩個基于 Nvidia 新 Blackwell 架構的 B200 GPU 連接起來。而 NVL4 產品似乎將 Superchip 的表面積增加了一倍,在更大的主板上安裝了兩個 Grace CPU 和四個 B200 GPU。
GB200 Grace Blackwell NVL4 Superchip是標準(非 NVL4)雙 GPU 變體的更強大變體,在一個主板上配備了多達四個通過 NVLink 相互連接的B200 Blackwell GPU 和兩個基于 Grace ARM 的 CPU。該解決方案旨在處理 HPC 和 AI 混合工作負載,具有高達 1.3TB 的連貫內存。Nvidia 宣傳 GB200 NVL4 的模擬性能是其直接前身 Nvidia GH200 NVL4 Grace Hopper Superchip的 2.2 倍,訓練性能是其直接前身的 1.8 倍,推理性能是其直接前身的 1.8 倍。
與標準 GB200 Superchip一樣,GB200 NVL4 使用 Nvidia 第五代 NVLink 芯片間互連,實現 CPU 和 GPU 之間的高速通信。該公司此前曾表示,這一代 NVLink 可使每個 GPU 的雙向吞吐量達到 1.8 TB/s。
Nvidia 表示,GB200 NVL4 Superchip具有 1.3 TB 的一致內存,可通過 NVLink 在四個 B200 GPU 之間共享。
為了展示 GB200 NVL4 的計算能力,該公司將其與之前發布的 GH200 NVL4 Superchip進行了比較,后者最初于一年前作為 Quad GH200 推出,由四個 Grace Hopper GH200 Superchip組成。GH200 Superchip包含一個 Grace CPU 和一個 Hopper H200 GPU。
與 GH200 NVL4 相比,GB200 NVL4 使用 MILC 代碼的模擬工作負載速度提高了 2.2 倍,訓練 3700 萬參數的 GraphCast 天氣預報 AI 模型的速度提高了 80%,使用 16 位浮點精度對 70 億參數的 Llama 2 模型進行推理的速度提高了 80%。
該公司沒有提供任何進一步的規格或性能聲明。
哈里斯在與記者的簡報中表示,Nvidia 的合作伙伴預計將在本周的 2024 年超級計算大會上推出基于 Blackwell 的全新解決方案。
他說道:“得益于參考架構,Blackwell 的推出進展順利,使合作伙伴能夠快速將產品推向市場,同時添加自己的定制功能。”
Nvidia發布H200 NVL PCIe模塊
除了發布 GB200 NVL4 Superchip外,Nvidia 還宣布其之前發布的 H200 NVL PCIe 卡將于下個月在合作伙伴系統中推出。
NVL4 模塊包含 Nvidia 的 H200 GPU,該 GPU 于今年早些時候以 SXM 外形尺寸推出,適用于 Nvidia 的 DGX 系統以及服務器供應商的 HGX 系統。H200 是該公司 H100 的后繼產品,使用相同的 Hopper 架構,并幫助 Nvidia 成為生成 AI 工作負載 AI 芯片的主要提供商。
與標準 PCIe 設計不同的是,H200 NVL 由兩張或四張 PCIe 卡組成,這些卡使用 Nvidia 的 NVLink 互連橋連接在一起,使每個 GPU 的雙向吞吐量達到 900 GB/s。該產品的前身 H100 NVL 僅通過 NVLink 連接兩張卡。
與帶有液體冷卻選項的 H200 SXM 相比,它也采用風冷。
哈里斯表示,雙槽 PCIe 外形尺寸使 H200 NVL“成為具有低功耗、風冷企業機架設計的數據中心的理想選擇,具有靈活的配置,可為每個 AI 和 HPC 工作負載提供加速,無論其規模大小”。
他說:“公司可以使用現有的機架,選擇最適合其需求的 GPU 數量,從 1、2、4 甚至 8 個 GPU 中選擇,NVLink 域可擴展到 4 個。”“企業可以使用 H200 NVL 來加速 AI 和 HPC 應用,同時通過降低功耗來提高能源效率。”
與其 SXM 同類產品一樣,H200 NVL 配備 141GB 高帶寬內存和 4.8 TB/s 內存帶寬,而 H100 NVL 的容量為 94 GB 和 3.9 TB/s,但其最大熱設計功率僅為 600 瓦,而不是 H200 SXM 版本的最大 700 瓦,據該公司稱。
這導致 H200 NVL 的性能略低于 SXM 模塊。例如,H200 NVL 只能達到 64 位浮點 (FP64) 30 萬億次浮點運算和 8 位整數 (INT8) 3,341 萬億次浮點運算,而 SXM 版本可以達到 FP64 34 萬億次浮點運算和 INT8 3,958 萬億次浮點運算。(萬億次浮點運算是每秒一萬億次浮點運算的計量單位。)
Nvidia 表示,在對 700 億參數的 Llama 3 模型進行推理時,H200 NVL 比 H100 NVL 快 70%。至于 HPC 工作負載,該公司表示 H200 NVL 在逆時遷移建模方面快 30%。
H200 NVL 附帶 Nvidia AI Enterprise 軟件平臺的五年訂閱,該平臺配備 Nvidia NIM 微服務,可加速 AI 開發。
參考鏈接
https://www.crn.com/news/components-peripherals/2024/nvidia-reveals-4-gpu-gb200-nvl4-superchip-releases-h200-nvl-module
來源:內容編譯自crn