天堂网www,免费追剧大全在线观看电视剧,97久久精品无码一区二区欧美人 ,日本丰满少妇高潮呻吟

您當(dāng)前的位置:檢測(cè)資訊 > 科研開(kāi)發(fā)

英偉達(dá)下一代GPU,真實(shí)性能發(fā)布

嘉峪檢測(cè)網(wǎng)        2024-11-14 10:59

Nvidia、甲骨文、谷歌、戴爾和其他 13 家公司報(bào)告了他們的計(jì)算機(jī)訓(xùn)練當(dāng)今使用的關(guān)鍵神經(jīng)網(wǎng)絡(luò)所需的時(shí)間。這些結(jié)果包括首次亮相的Nvidia 下一代 GPU B200和谷歌即將推出的加速器Trillium。B200在某些測(cè)試中的表現(xiàn)比當(dāng)今的主力Nvidia芯片H100提高了一倍。而且Trillium 的性能比谷歌在 2023 年測(cè)試的芯片提高了近四倍。

 

該基準(zhǔn)測(cè)試稱(chēng)為 MLPerf v4.1,包括六項(xiàng)任務(wù):推薦、大型語(yǔ)言模型(LLM) GPT-3和 BERT-large 的預(yù)訓(xùn)練、 Llama 2 70B 大型語(yǔ)言模型的微調(diào)、對(duì)象檢測(cè)、圖形節(jié)點(diǎn)分類(lèi)和圖像生成。

 

訓(xùn)練GPT-3是一項(xiàng)艱巨的任務(wù),如果只是為了提供一個(gè)基準(zhǔn)而完成整個(gè)任務(wù)是不切實(shí)際的。相反,測(cè)試是將其訓(xùn)練到專(zhuān)家認(rèn)為的水平,這意味著如果你繼續(xù)訓(xùn)練,它很可能會(huì)達(dá)到目標(biāo)。對(duì)于 Llama 2 70B 來(lái)說(shuō),目標(biāo)不是從頭開(kāi)始訓(xùn)練 LLM,而是采用已經(jīng)訓(xùn)練過(guò)的模型并對(duì)其進(jìn)行微調(diào),使其專(zhuān)注于某一特定專(zhuān)業(yè)知識(shí)——在這種情況下,政府文件。圖節(jié)點(diǎn)分類(lèi)是一種用于欺詐檢測(cè)和藥物發(fā)現(xiàn) 的機(jī)器學(xué)習(xí)。

 

隨著人工智能的重要性不斷演變,主要轉(zhuǎn)向使用生成式人工智能,測(cè)試集也發(fā)生了變化。MLPerf 的最新版本標(biāo)志著自基準(zhǔn)測(cè)試工作開(kāi)始以來(lái)測(cè)試內(nèi)容的徹底轉(zhuǎn)變。“目前,所有原始基準(zhǔn)測(cè)試都已逐步淘汰,” MLCommons 基準(zhǔn)測(cè)試工作負(fù)責(zé)人David Kanter表示。在上一輪測(cè)試中,執(zhí)行某些基準(zhǔn)測(cè)試僅需幾秒鐘。

根據(jù) MLPerf 的計(jì)算,新基準(zhǔn)套件上的 AI 訓(xùn)練正在以摩爾定律預(yù)期速度的兩倍左右的速度改進(jìn)。隨著時(shí)間的推移,結(jié)果比 MLPerf 統(tǒng)治時(shí)期開(kāi)始時(shí)更快趨于穩(wěn)定。Kanter 將此主要?dú)w因于公司已經(jīng)弄清楚了如何在非常大的系統(tǒng)上進(jìn)行基準(zhǔn)測(cè)試。隨著時(shí)間的推移,Nvidia、Google和其他公司已經(jīng)開(kāi)發(fā)出允許近乎線性擴(kuò)展的軟件和網(wǎng)絡(luò)技術(shù)——將處理器數(shù)量增加一倍可以將訓(xùn)練時(shí)間縮短大約一半。

 

 

 

第一個(gè) Nvidia Blackwell 訓(xùn)練結(jié)果

 

這一輪是 Nvidia 下一代 GPU 架構(gòu) Blackwell 的首次訓(xùn)練測(cè)試。對(duì)于 GPT-3 訓(xùn)練和 LLM 微調(diào),Blackwell (B200) 的每 GPU 性能大約是 H100 的兩倍。對(duì)于推薦系統(tǒng)和圖像生成,收益略有下降,但仍然相當(dāng)可觀——分別為 64% 和 62%。

 

Nvidia B200 GPU 所采用的Blackwell 架構(gòu) 延續(xù)了使用越來(lái)越低精度數(shù)字來(lái)加速 AI 的趨勢(shì)。對(duì)于 Transformer 神經(jīng)網(wǎng)絡(luò)的某些部分(例如ChatGPT、Llama2 和Stable Diffusion),Nvidia H100 和 H200 使用 8 位浮點(diǎn)數(shù)。B200 將其降至僅 4 位。

 

英偉達(dá)表示,在 MLPerf Training 4.1 行業(yè)基準(zhǔn)測(cè)試中,  NVIDIA Blackwell平臺(tái)在所有測(cè)試的工作負(fù)載上都取得了令人印象深刻的成績(jī),在 LLM 基準(zhǔn)測(cè)試中,每塊 GPU 的性能提高了 2.2 倍,包括 Llama 2 70B 微調(diào)和 GPT-3 175B 預(yù)訓(xùn)練。此外,NVIDIA 在 NVIDIA Hopper 平臺(tái)上的提交繼續(xù)在所有基準(zhǔn)測(cè)試中保持大規(guī)模記錄,包括在 GPT-3 175B 基準(zhǔn)測(cè)試中使用 11,616 個(gè) Hopper GPU 提交的提交。

 

如上所說(shuō),Blackwell 首次向 MLCommons 聯(lián)盟提交訓(xùn)練,該聯(lián)盟為行業(yè)參與者創(chuàng)建標(biāo)準(zhǔn)化、公正且經(jīng)過(guò)嚴(yán)格同行評(píng)審的測(cè)試,重點(diǎn)介紹了該架構(gòu)如何提升生成式 AI 訓(xùn)練性能。

 

例如,該架構(gòu)包含新的內(nèi)核,可以更有效地利用 Tensor Core。內(nèi)核是經(jīng)過(guò)優(yōu)化的專(zhuān)用數(shù)學(xué)運(yùn)算,例如矩陣乘法,是許多深度學(xué)習(xí)算法的核心。Blackwell 更高的每 GPU 計(jì)算吞吐量和更大、更快的高帶寬內(nèi)存使其能夠在更少的 GPU 上運(yùn)行 GPT-3 175B 基準(zhǔn)測(cè)試,同時(shí)實(shí)現(xiàn)出色的每 GPU 性能。

 

利用更大、帶寬更高的 HBM3e 內(nèi)存,僅需 64 個(gè) Blackwell GPU 即可在 GPT-3 LLM 基準(zhǔn)測(cè)試中運(yùn)行,且不會(huì)影響每個(gè) GPU 的性能。使用 Hopper 運(yùn)行相同的基準(zhǔn)測(cè)試則需要 256 個(gè) GPU。

 

Blackwell 訓(xùn)練結(jié)果遵循了之前提交給 MLPerf Inference 4.1 的結(jié)果,與 Hopper 一代相比,Blackwell 的 LLM 推理性能提高了 4 倍。利用 Blackwell 架構(gòu)的 FP4 精度以及 NVIDIA QUASAR 量化系統(tǒng),提交結(jié)果展現(xiàn)了強(qiáng)大的性能,同時(shí)滿足了基準(zhǔn)的準(zhǔn)確性要求。

 

英偉達(dá)表示,NVIDIA 平臺(tái)不斷進(jìn)行軟件開(kāi)發(fā),為各種框架、模型和應(yīng)用程序的訓(xùn)練和推理提供性能和功能改進(jìn)。在這一輪 MLPerf 訓(xùn)練提交中,自推出基準(zhǔn)以來(lái),Hopper 的 GPT-3 175B 每 GPU 訓(xùn)練性能提高了 1.3 倍。

 

NVIDIA 還使用 11,616 個(gè) Hopper GPU 通過(guò)NVIDIA NVLink 和 NVSwitch 高帶寬 GPU 到 GPU 通信以及 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)連接,在 GPT-3 175B 基準(zhǔn)上提交了大規(guī)模結(jié)果 。

 

自去年以來(lái),NVIDIA Hopper GPU 在 GPT-3 175B 基準(zhǔn)測(cè)試中的規(guī)模和性能提高了三倍多。此外,在 Llama 2 70B LoRA 微調(diào)基準(zhǔn)測(cè)試中,NVIDIA 使用相同數(shù)量的 Hopper GPU 將性能提高了 26%,這反映了軟件的持續(xù)增強(qiáng)。

 

NVIDIA 不斷致力于優(yōu)化其加速計(jì)算平臺(tái),從而持續(xù)改善 MLPerf 測(cè)試結(jié)果 - 提高容器化軟件的性能,為現(xiàn)有平臺(tái)上的合作伙伴和客戶提供更強(qiáng)大的計(jì)算能力,并為他們平臺(tái)投資帶來(lái)更高的回報(bào)。

 

谷歌推出第六代硬件

 

谷歌展示了其第六代 TPU Trillium 的 首批結(jié)果(上個(gè)月才發(fā)布),以及第五代變體 Cloud TPU v5p 的第二輪結(jié)果。在 2023 年版本中,這家搜索巨頭推出了第五代TPU 的另一個(gè)變體 v5e,其設(shè)計(jì)更注重效率而非性能。與后者相比,Trillium 在 GPT-3 訓(xùn)練任務(wù)上的性能提升高達(dá) 3.8 倍。

 

但與所有人的勁敵 Nvidia 相比,情況并不那么樂(lè)觀。由 6,144 個(gè) TPU v5ps 組成的系統(tǒng)在 11.77 分鐘內(nèi)到達(dá)了 GPT-3 訓(xùn)練檢查點(diǎn),遠(yuǎn)遠(yuǎn)落后于由 11,616 個(gè) Nvidia H100 組成的系統(tǒng),后者在大約 3.44 分鐘內(nèi)完成了任務(wù)。頂級(jí) TPU 系統(tǒng)僅比其一半大小的 H100 計(jì)算機(jī)快約 25 秒。

 

戴爾科技公司的計(jì)算機(jī)使用了約 75 美分的電力對(duì) Llama 2 70B 大型語(yǔ)言模型進(jìn)行了微調(diào)。

 

在 v5p 與 Trillium 最接近的正面比較中,每個(gè)系統(tǒng)由 2048 個(gè) TPU 組成,即將推出的 Trillium 將 GPT-3 訓(xùn)練時(shí)間縮短了整整 2 分鐘,比 v5p 的 29.6 分鐘提高了近 8%。Trillium 和 v5p 的另一個(gè)區(qū)別是 Trillium 與AMD Epyc CPU 配對(duì),而不是 v5p 的Intel Xeon。

 

谷歌還使用 Cloud TPU v5p 訓(xùn)練了圖像生成器 Stable Diffusion。Stable Diffusion 有 26 億個(gè)參數(shù),難度不大,MLPerf 參賽者需要將其訓(xùn)練到收斂,而不是像 GPT-3 那樣只訓(xùn)練到檢查點(diǎn)。1024 TPU 系統(tǒng)排名第二,在 2 分 26 秒內(nèi)完成任務(wù),比由 Nvidia H100 組成的相同大小的系統(tǒng)慢了大約一分鐘。

 

訓(xùn)練能力仍不透明

 

訓(xùn)練神經(jīng)網(wǎng)絡(luò)的高昂能源成本長(zhǎng)期以來(lái)一直令人擔(dān)憂。MLPerf 才剛剛開(kāi)始測(cè)量這一點(diǎn)。戴爾科技是能源類(lèi)別的唯一參賽者,其八服務(wù)器系統(tǒng)包含 64 個(gè) Nvidia H100 GPU和 16 個(gè)Intel Xeon Platinum CPU。唯一的測(cè)量是在 LLM 微調(diào)任務(wù) (Llama2 70B) 中進(jìn)行的。該系統(tǒng)在 5 分鐘的運(yùn)行中消耗了 16.4 兆焦耳,平均功率為 5.4 千瓦。按照美國(guó)的平均成本計(jì)算,這意味著大約 75 美分的電費(fèi)。

 

雖然結(jié)果本身并不能說(shuō)明什么,但確實(shí)可能為類(lèi)似系統(tǒng)的功耗提供大概的數(shù)據(jù)。例如,Oracle 報(bào)告了接近的性能結(jié)果——4 分 45 秒——使用相同數(shù)量和類(lèi)型的 CPU 和 GPU。

分享到:

來(lái)源:IEEE

主站蜘蛛池模板: 肇州县| 六安市| 蒙自县| 永宁县| 墨竹工卡县| 竹山县| 曲沃县| 叙永县| 屏东县| 赤峰市| 仙游县| 咸丰县| 沈阳市| 赣州市| 九龙坡区| 邮箱| 集贤县| 九江县| 林州市| 吉首市| 大安市| 大石桥市| 乐至县| 玛多县| 高碑店市| 邳州市| 崇义县| 建德市| 建瓯市| 石狮市| 界首市| 肇州县| 青铜峡市| 乌恰县| 安康市| 留坝县| 门源| 黄平县| 新密市| 丹阳市| 循化|