10月15日-17日,一年一度的開放計(jì)算全球峰會(huì)(OCP Global Summit)在美國(guó)加州圣何塞(San Jose)召開,本次峰會(huì)以“從創(chuàng)新到影響力(From Ideas to Impact")”為主題盛大開幕,吸引全球7000多位基礎(chǔ)設(shè)施軟硬件技術(shù)和應(yīng)用領(lǐng)域的專業(yè)人士參會(huì)。作為全球最具影響力的的基礎(chǔ)設(shè)施和開放計(jì)算領(lǐng)域標(biāo)志性盛會(huì),特別是在今年OCP基金會(huì)重磅宣布其人工智能開放系統(tǒng)戰(zhàn)略計(jì)劃后,2024 OCP全球峰會(huì)上專門設(shè)置人工智能特別關(guān)注議程(Special Focus Tracks),重點(diǎn)推動(dòng)AI基礎(chǔ)設(shè)施領(lǐng)域的技術(shù)生態(tài)建設(shè)。
阿里云服務(wù)器研發(fā)資深總監(jiān)文芳志受邀和UAlink聯(lián)盟主席Kurtis Bowman聯(lián)合發(fā)表了題為《UAlink: Pioneering the AI Accelerator Revolution》的演講,重點(diǎn)闡述了AI服務(wù)器Scale UP互連技術(shù)領(lǐng)域的發(fā)展趨勢(shì),UAlink標(biāo)準(zhǔn)的路線圖,UAlink聯(lián)盟和Alink System產(chǎn)業(yè)生態(tài)未來的合作潛力,以及阿里云磐久 AI Infra 2.0服務(wù)器的落地實(shí)踐思路。
行業(yè)領(lǐng)先的AI芯片、服務(wù)器和CSP廠商聯(lián)合發(fā)起的UAlink協(xié)議,將是一項(xiàng)徹底改變AI服務(wù)器Scale UP互連技術(shù)生態(tài)系統(tǒng)的行業(yè)新標(biāo)準(zhǔn)。相比較超級(jí)以太網(wǎng)聯(lián)盟 (UEC) 的協(xié)議標(biāo)準(zhǔn)專注于Scale out擴(kuò)展能力,UAlink協(xié)議憑借高性能內(nèi)存語(yǔ)義訪問的原生支持、顯存共享,支持Switch組網(wǎng)模式,以及超高帶寬、超低時(shí)延能力等性能優(yōu)勢(shì),正在迅速構(gòu)建起一個(gè)AI服務(wù)器Scale UP互連技術(shù)的超級(jí)開放生態(tài)。按照計(jì)劃,UAlink聯(lián)盟將于10月底正式成立并開始吸納成員加入,并在年底對(duì)外發(fā)布第一版UAlink spec。
UAlink標(biāo)準(zhǔn)作為目前最具潛力的AI服務(wù)器Scale UP互連開放標(biāo)準(zhǔn),如何在業(yè)界特別是在中國(guó)市場(chǎng)落地實(shí)踐是一個(gè)巨大挑戰(zhàn),Alink System(ALS)產(chǎn)業(yè)生態(tài)應(yīng)運(yùn)而生。ALS提供具備性能競(jìng)爭(zhēng)力和統(tǒng)一標(biāo)準(zhǔn)的互連系統(tǒng),包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個(gè)主要組成部分,為AI訓(xùn)推場(chǎng)景提供豐富的能力和特性支持。
ALS-D將支持UAlink國(guó)際標(biāo)準(zhǔn),形成極具性能競(jìng)爭(zhēng)力的數(shù)據(jù)面方案。當(dāng)前以推理和訓(xùn)練場(chǎng)景為主的AI應(yīng)用,在Scale Up網(wǎng)絡(luò)上具有并行切分算法、大顯存共享、GPU超多核內(nèi)存語(yǔ)義編程等多種顯著特點(diǎn)。ALS-D數(shù)據(jù)面互連采用UAlink協(xié)議,除了原生支持高性能內(nèi)存語(yǔ)義訪問、顯存共享,支持Switch組網(wǎng)模式,性能上具備超高帶寬、超低時(shí)延能力外,還增加定義了在網(wǎng)計(jì)算等特性。
ALS-M可以為不同芯片方案提供標(biāo)準(zhǔn)化的接入方案,符合規(guī)范的設(shè)備均可靈活接入應(yīng)用方系統(tǒng)。無論是對(duì)開放生態(tài)還是廠商專有互連協(xié)議,ALS使用統(tǒng)一的軟件接口。同時(shí),ALS-M為云計(jì)算等集群管理場(chǎng)景,提供單租、多租等靈活和彈性的配置能力。
正是遵循Alink System的規(guī)范,阿里云自主設(shè)計(jì)了面向下一代超大規(guī)模AI集群的磐久AI Infra 2.0服務(wù)器,貫穿了開放生態(tài)、高能效、高性能和高可用的設(shè)計(jì)理念。AI Infra 2.0服務(wù)器開放性地定義了AI計(jì)算節(jié)點(diǎn)和Scale Up/Scale Out互連系統(tǒng),可以在統(tǒng)一的硬件架構(gòu)下支持業(yè)界主流AI方案,引領(lǐng)AI領(lǐng)域的“一云多芯”。
互連系統(tǒng)Alink System全面兼容國(guó)際標(biāo)準(zhǔn)UAlink生態(tài),可以與行業(yè)伙伴開放共建超高性能、超大規(guī)模的Scale UP集群互連能力,一級(jí)互連64-80個(gè)節(jié)點(diǎn),二級(jí)互連可達(dá)2000以上節(jié)點(diǎn),提供了PB級(jí)共享顯存和TB級(jí)互連帶寬。
AI計(jì)算節(jié)點(diǎn)內(nèi)集成阿里自研CIPU 3.0芯片,既能支持高帶寬大規(guī)模AI服務(wù)器實(shí)現(xiàn)Scale Out網(wǎng)絡(luò)擴(kuò)展,又能兼顧云網(wǎng)絡(luò)彈性、安全的要求。
硬件工程方面,AI Infra 2.0服務(wù)器單機(jī)柜可以支持最大80個(gè)AI計(jì)算節(jié)點(diǎn),業(yè)界密度最高;在業(yè)界率先采用400V PSU,單體供電效率可達(dá)98%,整體供電效率提高2%。在散熱設(shè)計(jì)上,機(jī)柜級(jí)液冷方案可以根據(jù)實(shí)際負(fù)載動(dòng)態(tài)調(diào)整CDU冷卻能力來降低能耗,單柜冷卻系統(tǒng)節(jié)能30%。最后,在運(yùn)維管理上,全新的CableCartridge后維護(hù)設(shè)計(jì),支持全盲插,零理線易運(yùn)維、零誤操作,維護(hù)效率提升50%。
可靠性方面,AI Infra 2.0服務(wù)器支持彈性節(jié)點(diǎn)、智能路由、高可靠供電、分布式CDU等技術(shù),可以實(shí)時(shí)監(jiān)控、探測(cè)各種硬件故障并自愈,硬件的故障域也縮減到節(jié)點(diǎn)級(jí)。
在Alink System產(chǎn)業(yè)生態(tài)建設(shè)上,阿里云一貫秉持開放合作的策略,推動(dòng)互連技術(shù)領(lǐng)域的發(fā)展和繁榮。自今年9月Alink System產(chǎn)業(yè)生態(tài)在開放數(shù)據(jù)中心大會(huì)上正式發(fā)布以來,目前已有20多家AI芯片、互連芯片、服務(wù)器整機(jī)硬件和IP設(shè)計(jì)廠商加入,成員單位已就相關(guān)協(xié)議標(biāo)準(zhǔn)制定和實(shí)行路徑選擇展開交流。
除了積極擁抱UAlink和牽頭成立Alink System產(chǎn)業(yè)生態(tài),阿里云還是OCP、CXL、UCIe和UEC等多個(gè)互連技術(shù)行業(yè)組織的創(chuàng)始成員或技術(shù)委員會(huì)成員,并用實(shí)際行動(dòng)支持相關(guān)開放互連技術(shù)標(biāo)準(zhǔn)的制定和落地。