從CPU到GPGPU,云服務(wù)器“核心”戰(zhàn)場
毫無疑問,2019年是國產(chǎn)AI芯片爆發(fā)的一年。大小籌碼大會可謂是您的首次亮相。回顧今年發(fā)布的AI芯片,它們都有自己的特點和優(yōu)勢。特別是在他們擅長的特定任務(wù)上,它們的性能和計算能力甚至可以顯著領(lǐng)先于某些GPU,谷歌的Tensor計算單元(TPU),特斯拉的自動駕駛計算單元(FSD)以及國內(nèi)外各種類型的AI。新芯片產(chǎn)品,這就是為什么在新聞發(fā)布會上他們自己的產(chǎn)品聲稱具有性能和能效比可以成為NVIDIA GPU明星產(chǎn)品的原因。
但是它們真的超越Nvidia嗎?顯然不是,尤其是圍繞Nvidia的生態(tài)系統(tǒng)不能動搖。其背后有許多因素,但是重要原因之一是,與TPU等產(chǎn)品相比,GPU可以做得更多。這些AI芯片只擅長做一件事,在該應(yīng)用場景中僅比GPU好。換句話說,GPU更加通用或可用。
通用有多重要?對于數(shù)據(jù)中心和云應(yīng)用程序,可以。
首先是成本。當(dāng)芯片具有足夠的通用性和廣泛的可用性時,其銷量可以滿足對研發(fā)設(shè)計和最新工藝技術(shù)成本不斷增長的需求。在“數(shù)量”方面,幾乎沒有針對AI專用芯片的驚人市場。
第二是靈活性問題。當(dāng)前AI算法的迭代速度非常快,可能會從幾個月到幾周不等。該芯片基于18個月的開發(fā)周期。當(dāng)芯片發(fā)布時,AI芯片可能已經(jīng)落后了。
“將軍”之王-GPGPU的興起
相對于CPU,GPU在一開始就是一種專用芯片,早期的GPU專用于圖形計算加速,而當(dāng)GPU誕生時,它仍可作為ASIC芯片使用。但是,隨著GPU的不斷發(fā)展和演進(jìn),越來越多的通用屬性(即可編程性)逐漸發(fā)展。特別是自NVIDIA在2006年左右發(fā)布CUDA以來。CUDA是Nvidia在高性能異構(gòu)計算領(lǐng)域中GPU應(yīng)用中的一項重大創(chuàng)新。無疑,這是非常正確的舉動。 CUDA可以直接基于C,C ++,F(xiàn)ortran,Python和其他語言開發(fā)應(yīng)用程序。并建立了龐大的開發(fā)用戶群,奠定了GPU可以廣泛使用的技術(shù)基礎(chǔ)和生態(tài)力量。
當(dāng)然,這也是由于大數(shù)據(jù)時代的到來,所有行業(yè)都需要更強大的計算能力。 CUDA的推出啟動了Nvidia的GPGPU(通用GPU)戰(zhàn)略-當(dāng)大多數(shù)人對GPU的理解僅限于游戲圖形的加速時,GPGPU的時代就此開始了。
從狹義上講,GPGPU基于GPU進(jìn)行了優(yōu)化,使其更適合于高性能并行計算。它可以使用高級編程語言,并且在性能,易用性和通用性方面更強大。
在應(yīng)用程序領(lǐng)域,GPGPU將應(yīng)用程序擴(kuò)展到圖形之外。 GPGPU在科學(xué)計算,區(qū)塊鏈,大數(shù)據(jù)處理,工程計算,金融,基因等領(lǐng)域得到了廣泛的應(yīng)用,其科研成果和新的應(yīng)用模式正在興起。
從上圖可以看出,GPU用于AI計算。無論是云訓(xùn)練還是終端推理,其本質(zhì)都是GPU一般屬性的一個方向。換句話說,人工智能計算只是GPGPU世界中的組件之一。只有AI計算在此方向上具有巨大潛力,因此GPU制造商已將AI計算作為開發(fā)和推廣的方向。
如果將CPU與數(shù)學(xué)家進(jìn)行比較,將GPU與藝術(shù)家進(jìn)行比較,則GPGPU可能應(yīng)該是... Leonardo Da Vinci。
“戰(zhàn)場”
目前,全球GPGPU領(lǐng)域的參與者似乎已處于控制之中。實際上,早在2006年左右,AMD就發(fā)布了“流處理器”,這是AMD最早的GPGPU嘗試。但是當(dāng)時的“流處理器”只是GPGPU的“胚胎”,遠(yuǎn)未顯示GPGPU的真正威力。
從那時起,AMD在GPGPU方面做的還很少,甚至后來出現(xiàn)的開放計算語言(OpenCL)也由Apple開發(fā)。這也使AMD失去了在GPGPU中與Nvidia競爭的機(jī)會,因此它處于追趕者的象限。
但是,英特爾也正在加快通用GPU的部署。英特爾知道,GPU的過路人知道這是一段痛苦的歷史,從不屑一顧到GPU的發(fā)展,再到基于自己的x86架構(gòu)的獨立顯卡的開發(fā),英特爾十年來一直沒有一款像樣的GPU。據(jù)報道,在過去的兩年中,英特爾將在2020年推出首個獨立GPU。這可能是由于英特爾沉重的資金籌措-AMD RTG圖形部門前負(fù)責(zé)人,禪宗架構(gòu)的功勛領(lǐng)袖吉姆·凱勒(Jim Keller)–和圖形技術(shù)市場。這些神靈的導(dǎo)演達(dá)米安·特里奧萊特(Damien Triolet)是英特爾于2018年招募的。
可以想象,對于英特爾來說,這是整個2020年。顯然,英特爾制造傳統(tǒng)顯卡的意義不大。在異構(gòu)計算時代,只有將英特爾瞄準(zhǔn)數(shù)據(jù)中心時,它才決定觸發(fā)GPU的觸發(fā)。
再說一件事,英特爾最強大的生態(tài)系統(tǒng)是x86架構(gòu)CPU。英特爾的策略可能是從CPU生態(tài)學(xué)的角度探索一種更緊密的方法來組合CPU和GPU。
作者采訪了相關(guān)行業(yè)的技術(shù)人員,并了解到開發(fā)GPGPU的困難在于以下幾個方面。
從硬件的角度來看,核心是指令集。指令集的覆蓋范圍,粒度和效率決定了芯片是否可以覆蓋足夠廣泛的應(yīng)用市場區(qū)域以及是否對軟件開發(fā)和產(chǎn)品迭代友好。無論是Nvidia還是AMD的GPGPU,指令集都在上千左右,而大多數(shù)國產(chǎn)AI芯片指令集都在一百以內(nèi)。類型和數(shù)量之間的差異映射到高效硬件實現(xiàn)的復(fù)雜性。差距很大。在這方面,國內(nèi)隊之間還存在一定差距。另一個重要方面是基于硬件層的任務(wù)管理和智能調(diào)度。這使芯片可以提高硬件層的計算能力利用率,這是每個人都經(jīng)常說的實際計算能力。大多數(shù)AI芯片的實踐完全取決于軟件層的調(diào)度實現(xiàn),但這種方式首先會增加軟件開發(fā)的復(fù)雜性,其次會降低硬件計算能力的利用率,其次會迭代地更新軟件堆棧。速度。毫無疑問,這在面臨AI模型,開發(fā)環(huán)境和應(yīng)用場景加速更新的情況下,極大地增加了在AI環(huán)境下產(chǎn)品著陸和工程設(shè)計的難度。
在軟件方面,毫無疑問,最重要的是開發(fā)生態(tài)。通過英偉達(dá)(Nvidia)十多年的工作,GPGPU已經(jīng)建立了一個龐大而成熟的生態(tài)CUDA,擁有超過160萬開發(fā)用戶。人工智能芯片需要建立新的生態(tài)。這將在兩個方面帶來重大問題。第一個維度是客戶。客戶需要漫長的適應(yīng)期才能從原始開發(fā)環(huán)境切換到新的軟件生態(tài)系統(tǒng)。它不僅帶來了資源,延遲了業(yè)務(wù)部署的時間窗口,增加了業(yè)務(wù)的不確定性,更嚴(yán)重的是不利于保護(hù)現(xiàn)有的軟件投資,而且軟件的許多部分都必須重寫和修改。適應(yīng)。企業(yè)用戶非常敏感和謹(jǐn)慎。另一個方面是產(chǎn)品開發(fā)方面。從底層芯片和系統(tǒng)軟件來看,跳過CUDA層以直接支持開發(fā)框架將不可避免地帶來巨大的軟件投資,并不斷跟上現(xiàn)有框架的新版本和生態(tài)巨人的新框架。缺乏底層軟件人員。
歸根結(jié)底,以上兩點需要人為解決。恰恰是中國企業(yè)目前最缺乏該領(lǐng)域的人才。目前,只有Nvidia和AMD擁有豐富的團(tuán)隊,這也證明了英特爾為何折騰幾年并最終邀請AMD的諸侯神。
實際上,如果您仔細(xì)考慮一下,就很容易理解通用GPU已成為士兵的戰(zhàn)場,至少有兩個主要的驅(qū)動因素。從好的方面來說,現(xiàn)在是異構(gòu)計算的世界。近年來,傳統(tǒng)的基于CPU的服務(wù)器市場增長相對較慢,而GPU服務(wù)器卻迅速增長,據(jù)報道年增長率超過60%。
潛在因素是5G時代的到來推動了物聯(lián)網(wǎng)的快速發(fā)展,應(yīng)用場景變得更加豐富和多樣化。這需要云計算資源為各種復(fù)雜場景的需求提供豐富而靈活的計算支持。工程師更愿意將“全能”芯片焊接到服務(wù)器上。
老虎可以碰的“老虎屁股”
在GPGPU周圍,外國已經(jīng)在相互對抗。另一方面,在國內(nèi),很少有芯片制造商能夠了解GPGPU的發(fā)展機(jī)會并采取行動。華為是看到GPU總體趨勢的為數(shù)不多的芯片制造商之一,而且看起來它正試圖兩條腿走向GPGPU。一種方式是,通過積累手機(jī)芯片,華為希望從移動GPU開始,逐步擴(kuò)展到平板電腦,臺式機(jī)和服務(wù)器,并遵循從簡單到復(fù)雜,從小芯片到大芯片的道路。
另一種方式是“意味著天龍寺的僧侶們一起練習(xí)六脈沖魔劍”。通用GPU復(fù)雜且難以實現(xiàn)。華為“簡化了復(fù)雜性”。今天,我們將做AI-GPU,明天將做“區(qū)塊鏈GPU”,明天將做“超級計算GPU”。 ,“六脈沖Excalibur”通用GPU成為了。看起來不錯吧?但是這個想法可能太理想化了。通用GPU并非簡單的“ 1 + 1”。十個人將有一個正手指,而沒人會擁有六脈沖魔劍。這說得通。
我還聽說阿里巴巴的芯片部門也希望成為GPGPU,但是阿里巴巴的野心更大,但沒有足夠的技術(shù)團(tuán)隊來支持這一點。
在其他制造商中,包括寒武紀(jì),Itu,Bitmain和Ebara Technology等,他們目前專注于AI芯片,并利用自己的優(yōu)勢擺脫了自己的風(fēng)格和水平。
在GPGPU軌道上,一家名為“ Days Knowledge Core”的公司選擇了正面的“ Gang”。目前,該公司已經(jīng)聚集了一支由100多人組成的技術(shù)團(tuán)隊,圍繞GPGPU系統(tǒng)進(jìn)行研發(fā)。其中,AMD一直是美國和上海GPU的核心團(tuán)隊成員,以及擁有20多年行業(yè)經(jīng)驗的世界級技術(shù)專家。今年剛試水并發(fā)布了Edge芯片,并計劃明年正式發(fā)布GPGPU大型芯片產(chǎn)品。
“牧村波動”
本文并不是說Nvidia以外的其他芯片沒有機(jī)會,而只是一個可能越來越接近的事實:泛化,標(biāo)準(zhǔn)化。1987年,日立公司前總工程師Tsu本剛(Tschi Makimoto)提出,半導(dǎo)體產(chǎn)品未來可能會交替走“標(biāo)準(zhǔn)化”和“定制”之路,每十年波動一次。他在1991年的《電子周刊》上發(fā)表了這一想法,稱其為“卷本之潮”。
近年來,可編程芯片的飛速發(fā)展已經(jīng)證實了“ Muracura Volatility”的正確性,并收到了Xilinx和Altera等可編程芯片供應(yīng)商的回應(yīng)。一位德國教授甚至將“ Makimura波動”稱為“ Makimura定律”,并認(rèn)為,當(dāng)半導(dǎo)體技術(shù)接近極限時,“ Makimura定律”將超越摩爾定律。半導(dǎo)體技術(shù)將依靠“牧村定律”來維持其較高的未來。提高創(chuàng)新速度。
2020年臨近。在過去的幾年中,我們一直在呼吁使用AI芯片和高性能計算芯片。如果Makimoto的Wave仍然有效,那么下一個高峰將是具有超高靈活性集成的芯片。
毫無疑問,在計算能力經(jīng)濟(jì)時代,全世界正面臨著半導(dǎo)體市場的增長潮,并且各種半導(dǎo)體公司已經(jīng)出現(xiàn)在市場中。 NVIDIA早就憑借其強大的GPU + CUDA解決方案切入了各個領(lǐng)域,并積累了投入大量研發(fā)投入和時間的堅不可摧的生態(tài)城墻,這恰恰是國內(nèi)外其他公司的薄弱環(huán)節(jié)。
國內(nèi)芯片公司,特別是在創(chuàng)業(yè)初期的芯片公司,“正確的選擇勝于百倍的努力”。我認(rèn)為通用GPU確實是一個非常值得的方向。 GPGPU只有十歲了,“護(hù)城河”并非堅不可摧。
在此階段,國內(nèi)替代產(chǎn)品還必須在CUDA生態(tài)學(xué)的基礎(chǔ)上推廣自己的芯片產(chǎn)品,同時建立與CUDA兼容的新生態(tài)學(xué)。該過程中的每個步驟都是至關(guān)重要且具有挑戰(zhàn)性的。
全網(wǎng)數(shù)據(jù)為大家提供專業(yè)的深圳服務(wù)器租用,深圳服務(wù)器托管,深圳主機(jī)租用,云服務(wù)器租用等國內(nèi)外服務(wù)器資源,詳情歡迎咨詢客服了解。