新聞中心

全网返利最高的微信号 > 智能計算 > 編輯觀點 > 數據中心的加速器正小型化、低功耗化

大乐透3胆拖10多少钱:數據中心的加速器正小型化、低功耗化

—— 賽靈思U50的設計和應用考量分析
作者:王瑩時間:2019-08-07來源:電子產品世界收藏

全网返利最高的微信号 www.ihqrd.com 1 市場呼喚輕量級的                 雖然不像機器學習推理加速聽起來那么熱門,卻是非常實用的后端加速的服務,能幫助的客戶節約大量成本。

本文引用地址://www.ihqrd.com/article/201908/403477.htm

image.png 

      當前,一方面市場需要更小的,另一方面也需要不僅能加速計算,而且還可加速網絡和存儲,并能兼容第四代PCIe(PCIe Gen 4),具有HBM(高帶寬存儲器),有高速網絡連接等功能。為此,在美國加州圣克拉拉舉辦“閃存峰會(Flash Memory Summit (FMS) 2019”期間,賽靈思祭出了新一代產品Alveo U50加速器卡,展示了其在高速存儲系統加速上的應用。

       為此,賽靈思數據中心業務部產品規劃和市場營銷總監Jamon Bowen向電子產品世界等媒體介紹了U50的設計與應用考量。

image.png

照片:賽靈思數據中心業務部產品規劃和市場營銷總監Jamon Bowen

       Alveo U50是小型化和低功耗產品,可謂業界首款可以支持第四代PCIe的輕量級自適應計算加速卡,與此前賽靈思Alveo加速器相比,U50的尺寸只有1/8,功耗只有1/3,但性能依然強大,可大幅加速各種不同的關鍵計算、網絡和存儲工作負載而設計。

? 為何U50的功耗能夠更低、尺寸更???

       這主要是通過HBM來實現的,因為該存儲器技術不僅僅有高帶寬,同時還可以放在芯片之外,所以這是一種非常核心的技術。在賽靈思芯片上,有一個控制器能夠和HBM進行對話,通過這種方式不僅可以縮小Alveo的尺寸,而且還能夠提升Alveo的性能,所以歸根到底就是賽靈思芯片技術的發展,賽靈思又把這種發展應用到了新的U50產品中。

2 計算的未來趨勢

       下圖是賽靈思的一個合作伙伴開發的存儲盒解決方案,前端是以太網,后端是固態硬盤(SSD)。這里加速IP和存儲幾乎放在了同一個空間里,所以這非常有意思:沒有CPU了,而是加速器和它的外圍直接連到這個網絡上。

       由于未來數據中心的驅動是異構計算,所以沒必要和系統連在同一個地方,即執行的處理器和高性能的深度學習、存儲和加速等,沒必要進行本地連接,可以做異地連接。

image.png

       例如金融領域的應用,采用賽靈思U50,能在很短的時間內實現從獲取市場的數據到最后執行交易;與之相比的是CPU,這個時間可能剛剛才能夠進行CPU內存的對話??杉鸘50方案的速度大大提高了,也預示著未來數據中心一種布局的趨勢。

       現在Alveo的產品有兩種應用,一種是接X86處理器,還有一種是接存儲。第二種接存儲方案里,也是有一個具體的加速任務,而且另一端也是連著一個服務器,所以U50采用插件式的連接,通過連接服務器來解決其他可能不是通用于FPGA軟件方面的問題。    

? U50擴展了Alveo數據中心加速卡組合

      “Alveo U50進一步擴展了Alveo數據中心加速器卡產品組合?!盝amon指出。之前的Alveo U280等主要是計算領域比較強,例如可以利用在一些基因組測序/醫學領域;U50在計算方面稍微弱一點,但是它在聯網和存儲方面會更強一些。

       回顧一下歷史,Alveo加速器卡是2018年10月首次推出的,當時推出的Alveo U200 和 Alveo U250,同年11月,賽靈思又推出了U280。這三款產品的定位均是數據中心和AI,用來大幅提升云端和本地數據中心中業界標準服務器的性能。

 image.png

      再回到Alveo U50卡,U50盡管輕量、小型,但是性能毫不遜色。由于采用賽靈思 UltraScale+?架構,率先使用半高半長的外形尺寸和低于75 W的低包絡功耗。該卡支持高帶寬存儲器 (HBM2),每秒100G 網絡連接,并支持第四代 PCIe 和 CCIX 互聯標準。通過支持標準的 PCIe 服務器插槽和僅相當于現有 Alveo 卡1/3的功耗, Alveo U50大幅擴展了自適應加速技術可以部署的范圍,從而為要求嚴苛的計算、網絡與存儲工作負載帶來了前所未有的高吞吐量與低延時。8GB HBM2 提供了超過 400 Gbps 的數據傳輸速度, QSFP端口提供了高達100 Gbps的網絡連接。此外,高速網絡I/O還支持各種前沿應用,如NVMe-oF?解決方案(NVM Express over Fabrics?),解耦計算存儲和專業金融服務應用。

3 數據中心為什么要用加速器?

      所有的計算工作負載都是這三個領域:計算、網絡和存儲。Alveo靈活應變的加速技術也用于數據中心的這三個領域。

 image.png

3.1 為什么要加速?

       現在的總體趨勢是越來越多的應用需要領域專用的架構,使得硬件和算法匹配,以達到最佳運行效果或提高運行速度。

       具體地,現在網絡上有很多不同的數據,但是這些數據在運行過程中的要求是不一樣的。現在的網絡可能和下一代網絡不一樣,和下下一代的網絡就更加不同了。所以此時就需要硬件能夠跟上這些領域專用架構的要求,同時還要提升它的性能,使得硬件能夠發揮其最優的功能。

 image.png

3.2 為何加速器的運行速度能大幅改善?

      若要優化性能,首先要有定制的數據路徑,還要有定制的精度。此后,應用才能夠非常順利地進行處理,而無需不斷地去進入到一些存儲的層級/去經過一些非常復雜的流程,就能夠進行直接的處理。賽靈思在這方面能夠給硬件加速,可以通過再編程的方式來調整一些設置。

 image.png

3.3 靈活性和高性能

      數據中心客戶最大的抱怨是器件編程非常困難,為此,Alveo簡化了硬件編程程序。Alveo有一個非??諾鈉教ê突肪?。最主要的一些解決方案涵蓋的領域包括數據分析、視頻與圖象處理、機器學習、生命科學和金融計算,可見有非常廣泛的客戶和伙伴。賽靈思在上面也加入了很多IP和驅動來支持合作伙伴和開發者的有關活動。

3.4 擴大云的覆蓋面:延伸至邊緣

      對于企業和用戶來說,非常重要的是如果他們要部署一項新技術,就必須要了解有關上云的途徑,所以賽靈思U50技術不僅僅支持云,還能夠支持本地;而且這種覆蓋還在不斷的擴張。在中國,BAT(百度、阿里巴巴、騰訊)等都越來越多地采用這種靈活的IP。

      而且Alveo的生態系統是希望能夠開發一個全堆棧的解決方案,所以自Alveo推出不到一年的時間,現在已經有很多的生態合作伙伴推出了基于Alveo的解決方案,例如自從Alveo于2018年10月推出以來,現已發布的應用已是那時的2倍,而賽靈思培訓的開發者已是那時的4倍。

       另外,因為賽靈思的產品是非常商業化的,而且是現成的標準化的產品,包括驅動,所以能夠調動整個IT界的積極性,讓他們和Alveo的開源框架進行連接。例如用Alveo的產品可以直接使用Kubernetes和docker的產品。

 image.png

      這是因為Alveo是非常標準化的產品,所以在Kubernetes中可以直接有插件,另外開發者也可以把Alveo和docker配合起來使用。如果沒有這樣一個標準化的產品配置,客戶可能需要花費大量的投資才能實現這樣一個功能。所以這對于一些超大規模數據中心的應用是非常有必要的,既可以在云端,也可以用Alveo在本地進行加速,而且是一個非??攀降目蚣?,可以進行全面的加速。

4 U50的應用案例

      主要圍繞計算、網絡和存儲三個方面。

4.1 計算/加速

4.1.1 語音翻譯的計算負載

       從Alveo U50和CPU、GPU在語音翻譯加速功能的比較來看,Alveo U50最重要的一個實現的特征是它的高吞吐量和低時延的推斷性能,對于這個應用來說,這兩個特點是非常重要的。因為在這個領域當中,用到的機器學習和之前的神經網絡使用的是不一樣的,而這正是Alveo U50的優勢所在。

 image.png

        如上圖,賽靈思的Alveo U50 和英偉達T4 相比,性能提升高達10倍。

        U50能用于很多不同的網絡?;餮暗耐貧匣掛蟾偷氖毖油貧俠粗С終庋陌咐?,而且要求硬件能夠支持這樣的推斷,還要離數據源非常近。U50的尺寸小,對于需要在同城提供服務數據中心的運行也是非常重要的一個解決方案,所以賽靈思U50的小尺寸非常契合需要邊緣計算的用例場景。

4.1.2 數據庫分析

       主要是用于商業信息分析的領域。下圖是數據庫查詢加速運行的TPC-H Query5體系,主要是一些商業營銷決定的決策查詢或者咨詢建議。

       很多企業會面臨這樣的決策:他們有一個很龐大的數據庫,里面有很多供應商,有很多的產品,也有很多的銷售數據。他們需要每個季度要有這樣的決策,需要來了解哪個產品在第一季度例如銷售數額有多少,其降價策略推銷是否真正有效,所以這是非常重要的一個商業界經?;嵊玫降某【?。在這個加速過程當中,會用到很多的標簽節點,會列出很多有關的表格,然后進行具體的查詢。在每一個節點對帶寬的要求都是非常高的,而帶寬又是順利加速的關鍵節點。

       在這里做了一個比較,采用的是一臺沒有加速的英特爾最先進的多核處理器XEON系列的產品。結果顯示,U50的處理速度提升高達4倍,而且由于U50卡尺寸非常小,可以使用多張卡的式,如果1張卡能夠達到4倍數,加2張就是8倍,如果加3張就是12倍。因為它的尺寸非常小,所以可以進行多倍數的加速。

 image.png

4.1.3 金融

        金融界很多地方需要建模,這樣才能定合約和證券的價格。通常是有非常大量的數據輸入,之后做幾百萬的模擬,最后得出一個平均值,得到一個結果的范圍來確定在最糟糕的情況下,它的風險什么樣的。

      在此進行對比,相比英偉達第一版GPU和英特爾的CPU,如下圖可見,U50是CPU性能的20倍。另外,U50的成本只有GPU的一半。

 image.png

      U50之所以能夠實現這樣高效的加速,因為賽靈思一直在開發計算庫,尤其是量化的開發者能夠在Alveo當中使用這些數據函數進行最優化的編碼,同時能夠在我們這個平臺上完成其他的應用設計,建立這樣一個模型。這個對于計算加速來說是非常重要的擴展,尤其能夠把所有的數學函數都吸收進來。

4.2 網絡案例

? 電子貿易業務:網絡中的時延關鍵型業務

       金融領域是一個完全不同的應用領域,就是要用技術來支持交易。在這方面,在你獲得關鍵市場數據信息,做出計算,然后做出決定之間,這樣的時間差對于金融界是至關重要的。所以金融界有從技術到交易的衡量指標,就是看你獲得市場數據之后,直到下單完成交易之間需要花費多長時間。

       如果使用賽靈思的U50,就可以在不到500 ns的時間內,完成過程是:首先收到市場數據,然后用綜合的C語言來寫一個交易邏輯,再對這樣的交易邏輯進行執行和回應。

       如果用CPU,第一步首先要從網絡上把這個數據放入到界面的接口,然后進行緩存,如果是單向的話,耗時約400 ns。接下來,數據進去之后,數據的運行環境首先要發出信號,說明這個運行環境發生了變化。然后這個網絡再把信息進行解碼,從用戶轉變為核心,然后再把它傳輸給需要執行交易的部分。而且整個過程需要不斷持續,才能使交易的邏輯轉為核心,然后再給其他有關的各端。而整個過程大概需要10 ms。

      U50在時間上是CPU的20倍——U50所有所需時間對于CPU來說僅僅只夠完成將數據進入到CPU內存層級第一步的時間,而時延在這個領域是非常關鍵的一個決勝因素。

 image.png

       而且賽靈思加速卡對于整個成本是非常固定的。而且這種應用一般是在證券交易所數據中心里,所以U50的小尺寸在這方面擁有非常好的優勢,能夠順利接入到這樣的數據中心。

       由上例可見,若使用Alveo進行加速,能夠在很多網絡端口完成應用的加速,而所需的時間往往是CPU剛開始進行對話的時間,所以對于很多的數據中心來說,這是非常重要的。

4.3 存儲

4.3.1 計算存儲

       計算存儲現在越來越重要,而且有這樣一個趨勢:讓計算離存儲越來越近。因為現在固態硬盤使存儲越來越多地能夠實現高吞吐量和低時延,在過去由于存儲在這方面存在瓶頸,是不能這樣做的。

 image.png

        如上圖是一個非常典型的存儲工作負載。過去很多字節都需要一系列傳輸的程序才能進行處理,有非常復雜的流程,例如要去壓縮、解壓,還要進行數據?;?,諸如加密、解密,這里使用的是一個GZIP壓縮吞吐量的指標。

       因為每個字節都要經過這樣的流程,所以加速的帶寬至關重要的。U50的PCIe第四代技術在這方面大放異彩,可以實現相比CPU 20倍的改善。

    4.3.2 整體應用加速

       一個典型例子是Hadoop。如果來看Hadoop的大小,首先看數據,還有查詢數據的工作量,它對于帶寬來說提出了很高的要求。如果要做高性能的計算,首先這個數據沒法去壓縮,但是這樣的話,基礎設施就需要擴大1倍,而且還需要更多的存儲和存儲帶寬。如果是用U50,就可以非常順利地進行壓縮,而且還可以在高帶寬的環境下來完成,這樣你就沒有必要選擇到底要進行壓縮,還是保留帶寬,這兩者之間并不是說只能二選一了。因為可以進行壓縮,壓縮之后,所需的存儲空間只有原來的一半,帶寬的需求也只有原來的一半。所以有了這樣的加速之后,我們看到部署的成本可能只有原來的1/2;而且不僅僅可以進行壓縮,同時還可以確保它的性能不會受到影響。

 image.png

圖:2個雙CPU服務器vs搭載兩個Alveo U50的Alveo服務器

       現在看到越來越多的使用單插頭的場景,一個非常好的組合是AMD處理器再加上賽靈思的加速器,來取代CPU雙插頭的組合。

       那么一個問題是:壓縮的過程和加速好像是矛盾的方式,壓縮數據的流程是賽靈思自己的技術嗎?Jamon解釋道,上圖左邊這個壓縮僅僅是CPU完成的,在右邊這個壓縮是把數據發送到Alveo內部,然后再發到存儲的設備當中,所以這是由硬件加速的壓縮。所以賽靈思確實是在用Alveo U50做GZIP這樣壓縮的加速。二者相較,有一個是可以通過壓縮來大大提高吞吐量,另一個根本無法進行壓縮,因為速度太慢了。所以如果沒有Alveo U50進行加速,就必須要在成本和吞吐量之間做出選擇,要么不能去壓縮,但是如果有了Alveo U50,就能夠進行非常迅速的加速。

5 與友商相比的優勢:靈活應變

       異構計算應該是數據中心的未來,很多公司也在擁抱加速架構為核心的解決方案,U50不僅僅能夠提供硬件的加速,而且它還是靈活應變的——因為Alveo不僅僅能做到硬件的加速,而且還是可以編程,可以重新配置。例如GZIP壓縮,但是壓縮的技術也是日新月異的,發展很快,例如有ZS、ZT、LZ,還有超大規??突Х⒉家恍┬碌難顧跛惴?,還有微軟2019年發布了Zipline開放標準的壓縮算法。賽靈思的優勢是能夠在硬件層面上進行加速,還能夠在硬件層面上實現可編程,如果出現了一些新標準的變化,其他競爭對手都是做不到的。一旦有了新的標準計算算法迭代之后,賽靈思就能夠充分利用 FPGA 的靈活性,在我們平臺上迅速部署。

 6 小結 

       Alveo U50是Alveo產品系列一個非常重要的擴展,也是首款專門為計算、網絡和存儲打造的自適應加速器,能夠面向任何服務器,為任何云打造。

       在性能上與TCO(總擁有成本)方面,U50可以將吞吐量、時延和功耗效率改善很多倍,也是首款用PCIe Gen 4支持HBM2與100 Gbps網絡端口的產品。

      此外,賽靈思有不斷壯大的生態和平臺。



關鍵詞: 數據中心 加速器

評論


技術專區

關閉