英特爾面向中國(guó)市場(chǎng)發(fā)布可便捷擴(kuò)展運(yùn)行大語言模型的云端AI訓(xùn)練芯片Gaudi2新品,并公布面向中國(guó)市場(chǎng)的英特爾AI戰(zhàn)略。

在中國(guó)市場(chǎng)推出的Gaudi2 AI加速器,將通過其合作伙伴浪潮提供給中國(guó)客戶。浪潮信息高級(jí)副總裁、AI和HPC總經(jīng)理劉軍現(xiàn)場(chǎng)發(fā)布搭載Gaudi2的新一代AI服務(wù)器NF5698G7。

會(huì)后,英特爾執(zhí)行副總裁、數(shù)據(jù)中心與人工智能事業(yè)部總經(jīng)理Sandra L. Rivera,英特爾旗下Habana Labs的首席運(yùn)營(yíng)官Eitan Medina,英特爾數(shù)據(jù)中心與人工智能集團(tuán)副總裁兼中國(guó)區(qū)總經(jīng)理陳葆立接受了芯東西等媒體的采訪。
陳葆立說,英特爾過去6個(gè)月在軟件優(yōu)化上做了很多工作,此次不僅是向中國(guó)市場(chǎng)帶來芯片,而且?guī)砹丝梢源笠?guī)模部署、訓(xùn)練和推理大模型的整體方案。英特爾對(duì)方案的成熟度非常有信心。
據(jù)介紹,此次英特爾發(fā)布的Gaudi2新品是中國(guó)特供產(chǎn)品,在出口和支持中國(guó)客戶方面沒有任何問題。相比國(guó)際版Gaudi2產(chǎn)品,面向中國(guó)市場(chǎng)推出的加速卡在性能上差別不大,集成以太網(wǎng)端口數(shù)量從24個(gè)端口減到21個(gè)。Gaudi2及下一代Gaudi3都會(huì)在合法合規(guī)的情況下繼續(xù)支持中國(guó)客戶。
據(jù)Eitan Medina介紹,英特爾Gaudi2運(yùn)行ResNet-50的每瓦性能約是英偉達(dá)A100的2倍,運(yùn)行1760億參數(shù)BLOOMZ模型的每瓦性能約達(dá)A100的1.6倍。

Sandra L. Rivera談道,英特爾致力于為中國(guó)客戶不斷創(chuàng)造更高價(jià)值,通過異構(gòu)產(chǎn)品組合,交付具有性價(jià)比的AI解決方案。英特爾中國(guó)成立于1985年,中國(guó)員工數(shù)量超過1.1萬人,截至2022年總投資額超過130億美元,中國(guó)市場(chǎng)營(yíng)收約占英特爾全球營(yíng)收的27%。

據(jù)她分享,部署AI需要異構(gòu)芯片,集成高級(jí)矩陣擴(kuò)展(AMX)的第四代英特爾至強(qiáng)可擴(kuò)展處理器,能實(shí)現(xiàn)比A100更快的訓(xùn)練和推理性能。

英特爾現(xiàn)場(chǎng)演示了在第四代至強(qiáng)可擴(kuò)展處理器上通過AMX加速指令運(yùn)行文生圖模型Stable Diffusion,用5.34秒就生成一張圖片。

一、專供中國(guó)的Gaudi2新品:規(guī)格符合出口規(guī)定,支持大規(guī)模橫向擴(kuò)展
Gaudi2處理器是一款高性能、完全可編程的AI處理器,整合了多項(xiàng)技術(shù)創(chuàng)新,具有高內(nèi)存帶寬/容量和基于標(biāo)準(zhǔn)以太網(wǎng)技術(shù)的縱向擴(kuò)展能力,并支持使用外接網(wǎng)卡通過PCle接口實(shí)現(xiàn)橫向擴(kuò)展,可滿足多節(jié)點(diǎn)集群需要。
該訓(xùn)練處理器基于與第一代Gaudi相同的高效架構(gòu),采用7nm制程工藝,在性能、可擴(kuò)展性和能效方面均實(shí)現(xiàn)了飛躍,其性價(jià)比相較于AWS云中基于英偉達(dá)的解決方案高出40%。
它利用Habana完全可編程的TPC和的TPC和GEMM引擎,支持FP8、BF16、FP16、TF32和FP32等數(shù)據(jù)類型。TPC核心旨在支持深度學(xué)習(xí)訓(xùn)練和推理工作負(fù)載。TPC是一款VLIW SIMD矢量處理器,其指令集和硬件經(jīng)過定制,可高效處理上述工作負(fù)載。

第二代Gaudi2 AI深度學(xué)習(xí)夾層卡HL-225B專為數(shù)據(jù)中心實(shí)現(xiàn)大規(guī)模橫向擴(kuò)展而設(shè)計(jì)。HL-225B處理器符合美國(guó)工業(yè)與安全局(BIS)的有關(guān)規(guī)定。該夾層卡符合OCP OAM1.1(開放計(jì)算平臺(tái)之開放加速器模塊)規(guī)范。因此客戶可從符合規(guī)范的多種產(chǎn)品中做出選擇,靈活地進(jìn)行系統(tǒng)設(shè)計(jì)。
HL-225B夾層卡內(nèi)置Gaudi HL-2080處理器技術(shù)。HL-2080處理器擁有24個(gè)完全可編程的第四代張量處理器核心(TPC)。這些核心原生設(shè)計(jì)能為廣泛的深度學(xué)習(xí)工作負(fù)載加速,同時(shí)還賦予用戶按需進(jìn)行優(yōu)化和創(chuàng)新的靈活性。
該處理器還集成了96GB HBM2e內(nèi)存和48MB SRAM,支持600瓦夾層卡級(jí)熱設(shè)計(jì)功耗(TDP)。Gaudi Al訓(xùn)練處理器在芯片上集成了RDMA(RoCEv2),可與成熟且廣泛使用的以太網(wǎng)進(jìn)行連接。HL-2080芯片互連技術(shù)基于42對(duì)56Gbps Tx/RxPAM4 SerDes(配置為21個(gè)100 GbE端口)發(fā)揮作用。
中國(guó)專供版Gaudi2處理器具備出色的2.1Tbps網(wǎng)絡(luò)容量可擴(kuò)展性,原生集成21個(gè)100Gbps RoCE v2 RDMA端口,可通過直接路由實(shí)現(xiàn)Gaudi處理器間通信。該處理器還集成了用于圖像和視頻解碼及預(yù)處理的專用媒體處理器。
二、訓(xùn)練GPT-3實(shí)現(xiàn)近線性95%擴(kuò)展性,F(xiàn)P8版Gaudi2性價(jià)比將超H100
業(yè)內(nèi)普遍認(rèn)為生成式AI和大語言模型僅適宜在GPU上運(yùn)行。英特爾顯然正努力用Habana Labs的AI芯片打破這種“刻板印象”。
截至2023年6月,英特爾Gaudi2和英偉達(dá)H100是僅有的兩個(gè)提交了AI性能基準(zhǔn)測(cè)試MLPerf GPT-3模型訓(xùn)練成績(jī)的半導(dǎo)體解決方案。根據(jù)最新MLPerf結(jié)果,384個(gè)Gaudi2加速器訓(xùn)練GPT-3的時(shí)長(zhǎng)為311分鐘。

在GPT-3模型上,從256個(gè)到384個(gè)加速器實(shí)現(xiàn)近線性95%的擴(kuò)展效果。這種出色擴(kuò)展性部分歸功于其芯片上集成的100GB以太網(wǎng)端口以及96GB HBM2e內(nèi)存。
Gaudi2在四種主流計(jì)算機(jī)視覺以及自然語言處理模型的基準(zhǔn)測(cè)試中亦優(yōu)于英偉達(dá)A100。在計(jì)算機(jī)視覺模型ResNet-50(8個(gè)加速器)和Unet3D(8個(gè)加速器)以及自然語言處理模型BERT(8個(gè)和64個(gè)加速器)上取得了優(yōu)異的訓(xùn)練結(jié)果。與去年11月提交的數(shù)據(jù)相比,BERT和ResNet模型的性能分別提高了10%和4%,證明Gaudi2軟件成熟度的提升。

Gaudi2支持“開箱即用”功能。其客戶在本地或在云端使用Gaudi2時(shí),可以獲得與本次測(cè)試相當(dāng)?shù)男阅芙Y(jié)果。本次MLPerf 3.0的Gaudi2結(jié)果以BF16數(shù)據(jù)類型已提交。英特爾預(yù)計(jì)在2023年第三季度發(fā)布對(duì)FP8的軟件支持與新功能時(shí),屆時(shí)Gaudi2的性價(jià)比預(yù)計(jì)將超越H100。

Gaudi2加速器已經(jīng)被知名AI和機(jī)器學(xué)習(xí)開源軟件工具提供商Hugging Face采用。
根據(jù)Hugging Face發(fā)布的對(duì)Gaudi2性能的測(cè)試結(jié)果,從預(yù)訓(xùn)練BERT模型到Stable Diffusion、1760億參數(shù)大型開源聊天模型BLOOMZ的推理,Gaudi2均領(lǐng)先于英偉達(dá)A100 GPU。與英偉達(dá)A100相比,2.44倍調(diào)優(yōu)3B參數(shù)T5語言模型;與英偉達(dá)A100相比,Stable Diffusion推理時(shí)延顯著降低。

結(jié)語:為中國(guó)市場(chǎng)提供有競(jìng)爭(zhēng)力的AI訓(xùn)練加速選擇
訓(xùn)練生成式AI和大語言模型需要服務(wù)器集群來滿足大規(guī)模且更加復(fù)雜的計(jì)算要求。英特爾正通過多元化硬件和軟件產(chǎn)品技術(shù)組合,來將各種AI負(fù)載的推理和訓(xùn)練性能提升至新的水平。
隨著Gaudi2產(chǎn)品進(jìn)入中國(guó)市場(chǎng),憑借在AI訓(xùn)練方面經(jīng)權(quán)威基準(zhǔn)測(cè)試驗(yàn)證的高性價(jià)比,英特爾將為尋求擺脫效率與規(guī)模限制的中國(guó)客戶提供又一有競(jìng)爭(zhēng)力的AI加速方案選擇。