伺服器晶片市場是晶片製造領域最大、增長最快和最具競爭力的市場之一。
近年來,隨著向雲計算的轉變,資料中心的需求猛增,對伺服器晶片的需求變得更加迫切。
對於不同的雲服務廠商來說,由於所構建的生態有所不同,因此對晶片效能需求存在著差異。在這種情況下,定製的晶片或許能夠讓他們更好地發揮出生態的價值。而就目前的市場情況來看,市場還沒有給予足夠多的選擇,自研晶片也就成為了一條發展路徑。
人工智慧晶片設計自動化後,引發了新晶片設計的狂潮。如今,自研晶片也成為了雲服務商的重要佈局之一。
雲計算巨頭紛紛入局
- 亞馬遜
亞馬遜可以說是最開始自研伺服器晶片的雲服務廠商。
2015年,亞馬遜花3.5億美元收購了以色列晶片公司Annapurna labs。屆時起,亞馬遜就在為其雲基礎設施設計開發定製晶片,於2018年釋出了第一代Amazon Graviton 處理器,支援該處理器的A1也成了其雲服務AWS上第一個基於Arm的例項。第一代Graviton處理器基於Cortex-A72核心,最大時鐘頻率達到2.3GHz,節省45%的成本使其成了很多入門使用者的首選。
2020年,亞馬遜釋出了第二代自研處理器Graviton2,這款處理器基於64位的Arm Neoverse N1核心,核心與Cortex-A76近乎類似,但加入了不少針對基礎設施工作的強化特性。Graviton2採用了臺積電的7nm製程工藝,集成了64顆核心,在CMN-600 Mesh互聯技術的支援下可以做到2TB/s的頻寬。
與第一代Graviton相比,Graviton2提供4倍的計算核心,7倍的計算效能。基於Graviton2的例項與同等級的X86例項相比,效能要高上40%,成本卻要低上20%。不僅如此,Graviton2也成了AWS最省電的處理器,同樣的能耗下,Graviton2的效能要比AWS中的其他處理器高上2-3.5倍。
有資料顯示,在Graviton2的加持下,AWS在 2021伺服器領軍榜中登上Arm架構伺服器處理器榜首,在市場、價格優勢、效能、可靠性和創新5個評價維度都是第一名。
目前,Graviton已經廣泛商用。2021年初,AWS宣佈Graviton 2正式落地中國。
2021年12月,亞馬遜雲科技釋出了最新通用伺服器晶片Graviton 3,該晶片採用5nm工藝,擁有64個核心和550億電晶體,支援bfloat16、PCIe 5.0等最新技術,相較Graviton2 效能提升了25%,在科學計算、機器學習和媒體編碼工作負載則能夠提供2倍的效能。此外,在同樣效能下,Amazon Graviton3與X86例項相比可節省60%的能耗。
事實上,過去二十年裡,處理器提升效能的方法始終圍繞的是提高頻率和增加核心數量,提高頻率意味著功耗持續上升,也帶來資料中心散熱等系列需求,不僅讓客戶使用成本上升,也不符合如今全球綠色減排的大趨勢。因此,亞馬遜雲科技的思路是圍繞客戶對於算力需求的提升和降低功耗的要求,謹慎地提升處理器頻率,而是增加指令並行、記憶體頻寬,以實現處理器效能提升和能耗降低。
以由Amazon Graviton3處理器支援的Amazon C7g例項為例,作為雲計算中第一個採用最新DDR5記憶體的例項,與基於Graviton2的例項相比,提升50%的記憶體頻寬,達到300 GB/s,使得其在科學計算等記憶體密集型應用表現大幅提升。
從Amazon Graviton3公佈的引數來看,無疑在雲計算行業中屬於頂級。Graviton迭代3代,已在市場競爭中站穩腳跟。根據亞馬遜雲科技介紹,如今已經有超過20個託管服務基於Graviton,且仍在持續增加中,並且Graviton3很快會進入到中國市場。
AWS 並不是唯一一家自己設計晶片的雲計算廠商。谷歌擁有諸如張量處理單元,微軟也在摸索構建基於Arm的晶片,用於Azure伺服器。
- 谷歌
近些年,英偉達在資料中心領域持續發力,可圈可點。其GPU執行並處理了一些與人工智慧相關的伺服器大資料中心任務。面對巨大威脅的英特爾收購了Altera,將FPGA技術應用在伺服器大資料中心領域,做為反擊。
與此同時,谷歌似乎也找到了另外一種解決問題的新方案。谷歌的這個方案不是採用CPU和GPU這樣的通用晶片,也不是FPGA技術,而是使用專用晶片,定製的TPU晶片,用於谷歌伺服器大資料中心繫統自身。
谷歌的TPU晶片全稱為Tensor Processing Unit,也叫張量處理單元。這種晶片非常適合執行tensorflow軟體引擎,谷歌的深度神經網路就是依靠tensorflow軟體引擎驅動的,tensorflow軟體引擎可以透過分析硬體和軟體組成的網路中的,海量資料來學習如何完成特定的任務。這款定製的TPU晶片執行神經網路的效率比其他通用晶片執行神經網路的效率都高不少。
有相關描述稱,谷歌的TPU晶片在機器學習測試中,超過英特爾至強CPU和英偉達GPU一個數量級。TPU晶片和其基準測試,都比其他通用晶片快了15倍,效能提升近30%。
2018年,谷歌宣佈開放TPU雲服務,允許企業使用者租用TPU板卡,用於建立TPU pod的超級計算機網路。谷歌開放具備人工智慧和機器學習能力的TPU雲服務,不僅可以降低企業使用者對英特爾、英偉達等通用晶片巨頭的依賴,還可以用更低的成本使用核心計算基礎設施來進行軟硬體的實驗。
然而,谷歌雖然早就開始自研伺服器晶片,但其TPU與Argos晶片一個用於張量處理,一個用於影片處理,並非通用計算晶片。2021年穀歌招募了英特爾老將Uri Frank來設計伺服器晶片,很有可能也會選擇拿Arm授權開發自研核心。
- 微軟
微軟這邊,其實早在2020年就被曝出要為其雲計算伺服器開發定製晶片。
近日,微軟聘請了一位重要的蘋果半導體專家Mike Filippo,進入微軟的雲計算部門Azure,主要從事處理器研發工作。
微軟顯然也在走亞馬遜、谷歌等競爭對手的路線,準備開發自己的伺服器定製晶片,為Azure雲計算服務提供支援,而蘋果設計師在這方面擁有豐富的經驗。
據瞭解,Filippo在晶片行業已經工作近26年。在加入蘋果之前,他在ARM幹了10年,擔任首席CPU架構師、首席系統架構師和ARM Fellow。他因提升Arm晶片在手機和其他裝置中的基礎效能而備受讚譽,曾負責開發過Cortex-A76、Cortex-A72、Cortex-A57以及即將推出的7nm+和5nm晶片。在英特爾工作期間,Filippo是24核、96 執行緒、超算和高效能計算SoC的首席架構師。
對微軟來說,蘋果M系列晶片的成功,證明了ARM架構的處理器能夠在實現高效能的情況下同時保持低功耗的優勢,這讓微軟極有可能也從ARM晶片入手。
微軟最近幾年加大了晶片工程師的招聘力度,比如從英特爾、AMD、英偉達等晶片公司挖人。對於長期合作伙伴英特爾和 AMD 來說,微軟自研伺服器晶片可能是一個令人不安的訊息,這兩家公司都為 Azure 伺服器提供了晶片,這一轉變可能會削弱英特爾和AMD的地位。
本土雲廠商的自研之路
據IDC的《全球及中國公有云服務市場(2020年)跟蹤》報道,阿里雲全球市場份額為7.6%,僅次於亞馬遜AWS 46.8%、微軟Azure 14.2%,是全球第三大公有云服務商;國內市場份額為38.5%,遠高於騰訊雲12.7%、華為雲11.1%,是中國第一的雲服務商。
2018年4月,阿里收購了中天微系統有限公司,與達摩院自研晶片業務整合成為獨立晶片公司平頭哥。2019年7月,平頭哥釋出了RISC-V處理器玄鐵910,當年推出雲端AI推理晶片含光800。此後兩年,平頭哥並無新款晶片釋出。
2021年10月,阿里雲釋出了最新通用伺服器晶片倚天710以及自研伺服器磐久。
據介紹,倚天710採用5奈米工藝,基於ARM最新發布的ARMv9架構,單晶片容納高達600億電晶體,128個CPU核心,主頻最高達到3.2GHz。就資料來看,倚天710在SPECInt2017基礎測試中,倚天710跑分達到440分,超過行業標杆20%。搭載晶片倚天710的磐久伺服器將在今年部署,均為阿里雲自用,無對外銷售計劃。
倚天710專案立項於2019年,平頭哥承擔了晶片設計工作,臺積電是生產代工廠商。這是阿里造芯計劃裡,截至目前攻克下的最艱難的一役。
阿里雲自研伺服器晶片,結合了諸多長中短期內外形勢考慮,是阿里雲“一雲多芯”策略,以及“做深基礎”既定戰略的延伸與落地。
隨著上雲成為了企業數字化轉型的必選項,不同企業的計算需求也正在變得多樣化。一些雲計算客戶既想要英偉達、ARM晶片的AI推理能力,也想要X86晶片的安全計算能力,還希望雲成本能進一步降低。
在過去,同時滿足這些需求,通常要選擇多雲協同,為ARM叢集、X86叢集分別建設儲存與網路的配套裝置。但這種做法成本高,且浪費資源,不同型別CPU共存還會帶來多雲管理問題。
阿里雲應對這些問題的策略是“一雲多芯”,也就是用一套雲作業系統相容X86、ARM、RISC-V的硬體伺服器叢集,將不同架構CPU的算力標準化,向下遮蔽硬體差異性,向上提供一致性服務。
阿里雲智慧總裁、達摩院院長張建鋒表示,倚天710是阿里雲推進“一雲多芯”策略的重要一步。倚天710晶片和飛天雲作業系統的結合,使得阿里雲能夠將領先的晶片設計技術與雲場景的獨特需求相結合,最終實現效能和能效比的突破,並首次實現了從底層晶片到儲存、網路、資料庫系統的全棧自研。倚天710伺服器晶片的釋出,也標誌著我國在晶片領域再次邁出了關鍵的一步。
阿里雲之外,華為自研伺服器晶片的動作更早一些。2019年,華為就推出了自研的用於伺服器的ARM架構的晶片鯤鵬920。在華為的Taishan伺服器和華為雲的K系列例項中,都用到了這顆處理器,這也是業內首個內建直出100GE網路能力的通用處理器。
華為2020開發者大會上,華為雲與計算BG總裁侯金龍表示,希望用三年的時間讓90%的應用都可以跑在鯤鵬上。侯金龍表示,5G時代所有的應用都在走上雲化,手機、平板等端側基於ARM架構,鯤鵬也是基於ARM架構,雲、端同構後效能可以提升40%,這是鯤鵬與X86架構相比的天然優勢。據悉,目前華為鯤鵬處理器主要應用於黨政機關、事業單位、大型國企和國有銀行的場景中。
華為的雲服務業務發展迅速,其中之一的因素就是其在存、算、存、管、智方面的自研晶片。在華為的應用一代、研發一代、規劃一代的路線中,鯤鵬930晶片原本預計在2021年就會面世,然而由於供應鏈的限制,如今已然成了未知數。
雲廠商為何紛紛自研晶片?
作為雲計算服務提供商,亞馬遜、谷歌、微軟、阿里等公司是資料中心晶片的最大買家之一,他們在晶片上構建服務,然後將計算能力出租給數百萬客戶。
過去十多年來,英特爾在伺服器市場方面一直處於領先地位,其每年推出的至強處理器幾乎已等同於伺服器、資料中心的代名詞。但是,在英特爾不斷延遲其10奈米晶片製造工藝之後,讓其他廠商有機會在資料中心計算市場CPU領域向其發起挑戰。
據日本瑞穗證券報告,英特爾的下一代Sapphire Rapids晶片可能會延遲到2022年第三季度釋出(此前預計在2022年第二季度正式推出)。Sapphire Rapids採用“Intel 7”的7納米制程,並透過EMIB(嵌入式多晶片互連橋)連線在一起,與其他封裝技術相比,EMIB提供卓越的吞吐量和延遲,缺點是成本較高。儘管英特爾自行處理多數封裝作業,但關鍵原料短缺,影響生產。由於Sapphire Rapids是英特爾首次全面採用EMIB技術的Xeon晶片,預計售價將提高。
報告還稱,英特爾第三代Xeon伺服器晶片“Ice Lake”的產量今年將增長50%。同時為了維持市場佔有率,英特爾不會調漲Ice Lake的售價。這種方式將有助於阻止AMD繼續在資料中心晶片市場攻城掠地。
另一邊,由於晶圓代工及封測成本大增,有訊息稱AMD 的EPYC伺服器晶片將漲價10%~30%。AMD 的下一代伺服器處理器EPYC 7004系列有兩種版本“Genoa”和“Bergamo”,目前Genoa已經在向客戶提供樣品,預計在2022年內推出,Bergamo則預計將會在2023年推出。屆時,伺服器晶片的戰況將更趨白熱化。
浪潮系統副總Dolly Wu預測,AMD的第三代EPYC處理器Milan和第四代EPYC的表現將繼續優於英特爾,協助AMD維持在資料中心的爆炸性成長。不過,AMD供給吃緊情況比英特爾更嚴重,或將讓AMD無法更快奪得更多市場。
綜合來看,無論是英特爾晶片的延遲釋出,還是AMD可能的漲價,種種行為都在某種程度上剝奪著雲服務廠商等下游企業的話語權和自身的發展節奏。
這也是雲服務廠商為什麼紛紛開始自研晶片的一方面原因,雲廠商自研伺服器晶片可以減輕對第三方供應的依賴;另一方面是自研晶片可以降低成本,自研晶片能夠讓雲服務商在每個業務流程中做到效率與成本的最最佳化。此外,自己的晶片更適合他們的某些需求,與英特爾、AMD等廠商提供的現成晶片相比,具有成本和效能優勢。當業務規模持續增加、自研晶片的必要性就愈發突出。
亞馬遜雲巨頭負責Graviton例項的高階首席工程師Ali Saidi表示,構建自己的晶片能夠在各種層次上進行更快的創新,提高安全性和靈活性,並提供更多價值。
“自研晶片可以控制專案的開始、進度和交付的程序;可以將硬體和軟體並行開發,並使用大規模的雲來進行構建晶片所需的所有模擬。這意味著創新速度更快,可以跨越傳統界限。” Saidi補充道。
不過自研晶片並不等於就不採用其他供應商的晶片,而是為使用者提供多樣性的選擇,給予使用者充分的選擇權,使用者完全可以根據自身工作負載和業務需求來選擇合適的計算例項。
以亞馬遜為例,目前亞馬遜雲科技不僅採用英特爾、英偉達、AMD的CPU與GPU計算平臺提供不同用途的雲端服務。另一方面,也不忘追求計算、儲存、網路的硬體晶片技術自主,使其能夠提供更經濟實惠的雲端服務。
阿里雲同樣如此,X86晶片在阿里雲的資料中心也是主流,採用了英特爾、英偉達、AMD的晶片產品。平頭哥市場副總裁高慧強調,倚天710並非要替代市場上同類產品,主要還是為了解決雲計算專業場景下的專業需求,為雲上企業提供多樣性選擇。
張建鋒在接受媒體採訪時也稱,阿里雲業務有明確邊界,只承擔硬體設計工作,目的在於讓雲計算的底層硬體更符合自身業務需求。阿里雲還將繼續與英特爾、英偉達、AMD、ARM等合作伙伴保持密切合作,為客戶提供更多選擇。
ARM伺服器晶片陣營捲土重來?
至此,全球頭部的雲服務廠商中,大多數都開發出或投入了自研晶片的開發,更關鍵的是,各家都無一例外地都選擇了ARM作為晶片架構。
目前伺服器晶片架構領域,X86、ARM、RISC-V是幾個可選項。其中X86架構是英特爾的領地,也是目前伺服器晶片架構的主流。全球幾乎90%以上的伺服器晶片架構為X86架構。
ARM架構則屬於ARM公司,ARM架構此前普遍應用在手機通用晶片領域,在伺服器領域也早有嘗試。過去這些年,ARM伺服器CPU一度被諸多行業人士看好,被認為有希望取代X86,或侵蝕部分X86伺服器CPU市場。
AMD、高通、博通、Marvell、惠普等一大批知名公司相繼參與,想要ARM在伺服器領域複製在智慧手機領域的成功。不過,從技術史上看,ARM 通用伺服器之路並不平坦。惠普、AMD、Marvell、博通等美國廠商的ARM架構晶片均未能讓其成為市場主流,高通於2018年初砍掉內部的伺服器晶片部門,一些小廠在推出幾款ARM伺服器CPU之後,就聽不到後續訊息了。國內方面,華芯通做了幾年後也關門了,ARM伺服器一度陷入低谷。
目前,全球伺服器晶片的架構仍然以X86獨大,ARM與其他架構份額較小。2021年9月,IDC釋出的《全球伺服器季度跟蹤報告》顯示,X86伺服器收入佔全球伺服器收入的90.3%,非X86(包括ARM、RISC-V等)伺服器收入僅佔全球伺服器收入的9.7%。
X86架構無法撼動地位很大原因是其軟體生態已經非常龐大和豐富,從軟體到OS都已經非常固定。不過,X86伺服器晶片誕生於傳統IT階段,並非完全根據雲上負載設計。在雲計算場景下,不能滿足一些專業場景的專業需求。
平頭哥技術戰略副總裁高慧曾在接受採訪時表示,雲計算需要降低計算成本。基於ARM架構的處理器通常核心更多、能耗更低。理論上說,在實現量產的前提下,基於ARM架構的伺服器晶片和X86晶片相比,製造成本、運營成本都會更低。
因此,在雲時代這個固有的格局正在改變,這就為ARM架構晶片提供了時代機會。不過ARM在伺服器領域目前仍處於起步階段,份額低,軟體生態也不完善,但基於ARM架構的伺服器晶片通常具有體積小、能效比強,發熱量低,且價格相對低廉的特點。資料中心是能耗、佔地大戶,搭載ARM架構晶片的伺服器可以緩解上述問題。以亞馬遜、阿里雲等為代表的少數有能力實現“自產自銷”的雲服務廠商,是有實力和能力去“消化”自己設計的ARM伺服器CPU。
因此,在雲計算巨頭自研晶片的加持和引領下,ARM伺服器的份額正在增加。
根據IDC此前釋出的資料顯示:2020年第三季度,基於Arm的伺服器同比增長了430.5%,2020年第四季度同比增長了345%,儘管基數很小但仍在增長。當前,Arm架構處理器在伺服器市場的應用正處於快速上升時期,另據Statista預測,到2028年,Arm架構處理器在資料中心和雲的市場份額將從2019年的5%增長到25%,市場規模將達到580億美元,比2019年的14倍還多。
企業們都瞄準了資料中心的巨大市場,結合其技術特性和成熟度,ARM架構在一些網際網路巨頭公司頗受歡迎,因此基於ARM架構來研發新的伺服器晶片正在成為更多廠商的選擇,包括位元組跳動在內的不少網際網路公司都表示將開發ARM伺服器CPU。
根據TrendForce集邦諮詢研究顯示,近年全球企業同時面臨著快速變化的市場需求,以及疫情的高度不確定性,促使企業對於雲端服務的需求於近兩年持續增溫,無論是人工智慧抑或是新興科技的採用,雲端服務憑藉較彈性的成本優勢成為多數企業的優先考量。預計2021年全球伺服器出貨成長率將逾5%。
Arm架構在雲端的興起,迎合了大資料和雲計算時代對特定算力的需求,GPU、AI晶片均受益於此。除上述提到的雲廠商外,包括富士通、Ampere、飛騰等廠商也均推出了Arm架構伺服器晶片。
ARM伺服器CPU正在“捲土重來”。
寫在最後
在雲服務上,自研晶片帶來的成本降低是巨大的。雲服務頭部廠商基本定型之後,價格戰就成了拉攏新客戶留住老使用者的必經之路,Arm伺服器晶片帶來的高功效意味著他們可以推出定價更低的例項。
能夠看到的是,Arm在伺服器晶片領域的存在感已經越來越強,自研晶片的方案對於雲服務廠商擁有難以抗拒的吸引力。
一定程度上,以亞馬遜Graviton、阿里倚天710為代表伺服器晶片的成功,證明Arm架構在雲服務市場正逐步蠶食英特爾處理器的市場份額。
縱觀整個伺服器晶片市場,AMD步步緊逼,英特爾壓力山大,而Arm陣營也正在虎視眈眈的積蓄著力量。未來伺服器市場的競爭局面將會越來越複雜,同時也給後來者提供了更多機會。
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第2951內容,歡迎關注。
晶圓|積體電路|裝置|汽車晶片|儲存|臺積電|AI|封裝