數字時代(dai)下(xia),算(suan)(suan)力成為新(xin)的核(he)(he)心生(sheng)產力,傳統以CPU為核(he)(he)心的架構(gou)面對日趨多元的算(suan)(suan)力需求漸顯乏力,DPU芯片(pian)得以快速發展。天翼云(yun)憑借領先的技(ji)術和豐(feng)富的應用實踐自研紫金DPU,打造為云(yun)而(er)生(sheng)的全(quan)新(xin)一(yi)代(dai)云(yun)計算(suan)(suan)體系結構(gou),助力算(suan)(suan)力基礎設施升級,賦能(neng)海量算(suan)(suan)力高(gao)效釋放。
傳統數(shu)(shu)據(ju)中心里,所有的(de)數(shu)(shu)據(ju)處理都依賴于CPU的(de)通用計算能力,近(jin)10年來,數(shu)(shu)據(ju)帶寬增長(chang)超過10倍,然而因為摩爾(er)定律的(de)失效,CPU的(de)主頻(pin)幾乎(hu)沒有增長(chang),給算力基礎設施的(de)發展帶來了極大挑戰。

云(yun)計算(suan)要實現虛(xu)(xu)擬化(hua)管理需要依(yi)托眾多虛(xu)(xu)擬化(hua)和管理組件(jian),這會(hui)大(da)(da)量占據(ju)服務器(qi)主機的(de)CPU和內(nei)存資源,帶來巨大(da)(da)的(de)算(suan)力消耗,形成(cheng)高(gao)額(e)的(de)算(suan)力稅(shui)。然(ran)而即(ji)便如此,基于CPU通用計算(suan)能(neng)力、以純軟件(jian)來實現的(de)虛(xu)(xu)擬化(hua)組件(jian),整體性能(neng)仍無法滿(man)足客戶日益增長的(de)數據(ju)處理需求。且(qie)國(guo)產化(hua)芯片架(jia)構(gou)、操作系統種類(lei)繁多,復雜的(de)適配工作會(hui)耗費大(da)(da)量的(de)人力和時間成(cheng)本,新型高(gao)性能(neng)計算(suan)架(jia)構(gou)勢(shi)在必行。
天翼云作為云服(fu)務國(guo)家隊(dui),積極應對算力挑戰,自研紫(zi)金DPU,通過虛(xu)擬化組件(jian)卸(xie)載(zai)、多種業務硬件(jian)加(jia)速以及自研三棧合一高(gao)性(xing)能網絡(luo)協議,打(da)造高(gao)性(xing)能、低延時、高(gao)可靠性(xing)并且可大(da)規模部署的環境,助(zhu)力算力基礎設(she)施升級。

天翼(yi)云(yun)紫金DPU采用(yong)SOC+FPGA架構,依(yi)托FPGA強(qiang)大(da)的(de)處理(li)性(xing)能(neng)和靈活的(de)可編程能(neng)力,對多種應用(yong)進行加速(su)。

對于客戶使用的虛擬(ni)網(wang)絡和(he)存儲設(she)備(bei),其后端都(dou)是通過(guo)(guo)DPU硬件來實現。天(tian)翼云紫金(jin)DPU通過(guo)(guo)硬件DMA提(ti)供超(chao)強性能(neng)和(he)超(chao)低時延(yan);通過(guo)(guo)硬件模(mo)擬(ni)提(ti)供數以千(qian)計的pvf設(she)備(bei)和(he)queue資源(yuan),充(chong)分滿足虛機容(rong)器等場景下大量虛擬(ni)設(she)備(bei)的應(ying)用需(xu)求(qiu)。
對于(yu)虛擬網絡、虛擬存儲業務,天翼云實現了DPU全(quan)卸載。虛擬網絡的控制面(mian),包括vnet的agent和OVS的控制面(mian),以(yi)及數據面(mian)Slowpath都運行(xing)在DPU的SOC上;慢速路徑處(chu)理后生成的fastPath,則(ze)全(quan)部被卸載到(dao)DPU的硬(ying)件上。除首包需(xu)要上送到(dao)軟件之(zhi)外,后續(xu)報文都可以(yi)直接通過硬(ying)件處(chu)理來進行(xing)加速。
對于(yu)存(cun)(cun)儲(chu)業(ye)務,控制(zhi)面的(de)(de)(de)建鏈(lian)也是通(tong)過DPU的(de)(de)(de)SOC來實(shi)現的(de)(de)(de)。SOC完成建鏈(lian)后(hou),會將(jiang)連接信息以及云(yun)盤的(de)(de)(de)元數(shu)據信息等都更新(xin)到FPGA硬(ying)(ying)件里面,之后(hou)的(de)(de)(de)存(cun)(cun)儲(chu)IO硬(ying)(ying)件能(neng)夠直接處理,無需再通(tong)過SOC。除了支持基礎的(de)(de)(de)存(cun)(cun)儲(chu)IO卸載加速(su)外,紫金DPU還支持部分應用加速(su),例如EC糾(jiu)刪碼計算、數(shu)據壓縮(suo)、存(cun)(cun)儲(chu)object hash值計算等操作。通(tong)過硬(ying)(ying)件卸載加速(su),天翼云(yun)的(de)(de)(de)存(cun)(cun)儲(chu)業(ye)務可以為客戶提供(gong)極致的(de)(de)(de)性能(neng)。
此外,天翼云還(huan)開創(chuang)性的(de)推出三(san)棧(zhan)合一(yi)(yi)的(de)傳(chuan)(chuan)輸(shu)(shu)(shu)層網絡協議(yi)棧(zhan),即SF-Stack,Super fusion超(chao)融(rong)合協議(yi)棧(zhan),在底層提供統一(yi)(yi)的(de)傳(chuan)(chuan)輸(shu)(shu)(shu)層接口,支持傳(chuan)(chuan)輸(shu)(shu)(shu)協議(yi)的(de)動態(tai)選擇和切(qie)換,上層應用(yong)只(zhi)需要關注(zhu)業務邏輯,無(wu)需關注(zhu)傳(chuan)(chuan)輸(shu)(shu)(shu)層,做到簡(jian)單易用(yong)、超(chao)高(gao)(gao)性能、超(chao)高(gao)(gao)可(ke)靠(kao)。AZ內數據傳(chuan)(chuan)輸(shu)(shu)(shu)采(cai)用(yong)RDMA傳(chuan)(chuan)輸(shu)(shu)(shu)協議(yi),跨AZ的(de)傳(chuan)(chuan)輸(shu)(shu)(shu)首選用(yong)戶態(tai)的(de)TCP協議(yi),實現極(ji)致性能,同時該(gai)協議(yi)還(huan)保留了可(ke)靠(kao)性更高(gao)(gao)的(de)內核態(tai)的(de)TCP,作為故障發生時的(de)最(zui)后兜底手段(duan)。
最后(hou),依(yi)托于DPU的物理(li)隔離,天翼云紫(zi)金(jin)DPU將虛擬化組件和DPU一(yi)起作為一(yi)個(ge)整(zheng)體,實現了不同算力、不同架(jia)構(gou)、不同系統即插即用,支持(chi)市面上大多(duo)數(shu)不同架(jia)構(gou)的主流芯(xin)(xin)片,真正做到了一(yi)云多(duo)芯(xin)(xin),助推國產(chan)算力基礎設施生態發展。

依托(tuo)全(quan)新(xin)的(de)紫金架(jia)構,天(tian)翼云實(shi)現(xian)了(le)(le)服(fu)務器虛擬化接(jie)近零(ling)損(sun)耗,助力算(suan)力全(quan)面釋放(fang),推(tui)動整個算(suan)力基礎設(she)施(shi)運營效率大幅提升,為客戶帶來(lai)更優的(de)使用體驗。在(zai)虛擬網(wang)絡(luo)轉發方(fang)(fang)面,通過DPU卸載加速(su),曾經(jing)需要十余(yu)個宿主機CPU才能實(shi)現(xian)的(de)2000萬pps提升至4000多萬,提升了(le)(le)超100%;在(zai)存儲方(fang)(fang)面,通過硬件RDMA加速(su),配合(he)天(tian)翼云自研擁塞控制算(suan)法,IOPS能力從(cong)60萬提升至200萬,提升了(le)(le)超200%;在(zai)延時方(fang)(fang)面,紫金DPU使網(wang)絡(luo)時延降到(dao)了(le)(le)原來(lai)的(de)四(si)分之(zhi)一。
在(zai)數字經濟飛速發(fa)展的當下,DPU作為新的藍海賽道,具有巨大(da)的探索空間及應用價值。天翼云將(jiang)繼(ji)續(xu)堅持科技創(chuang)新,挖掘DPU的更多潛(qian)力與可能,推動數據中心向高(gao)(gao)(gao)效率(lv)、高(gao)(gao)(gao)擴展、高(gao)(gao)(gao)帶(dai)寬(kuan)、高(gao)(gao)(gao)靈活(huo)性發(fa)展,為數字中國建設鑄牢云底座。