sponsored links

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

機器學習領域權威“跑分”MLPerf v1.1訓練榜單已出爐。

這次,在BERT模型的成績表上有一個“異常”的數字:1196.638(分鐘),來自谷歌。

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

怎麼?谷歌訓練一個BERT要接近1天,別家都只要幾分鐘?

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

NONONO!

這其實是谷歌從未透露的巨型版本BERT,引數規模有4810億,不是別人只有幾億引數那種的BERT。

它也是谷歌今年在MLPerf“非標準區”提交的一個作品:

一共花了2048塊TPUv4,約20小時訓練而成!

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

有史以來最大版本的BERT

標準BERT模型(BERT Large)引數規模只有3.4億,而此次4810億的巨型BERT是有史以來最大的一個版本。

這倆之間直接差了好幾個數量級

而谷歌表示,訓練大型模型正是公司的“重中之重”(主要用於雲服務)。

所以此次他們根本沒有參加任何標準分割槽裡的跑分評比,只在非標準區“釋放了自我”。

MLPerf競賽有倆分割槽:

Closed區也就是標準區,參賽商在ResNet-50等規定模型上跑分;

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

Open區也就是非標準區,參賽商可以嘗試任何規定以外的模型和方法來達到目標效能。

在大多數參賽商都“擠”在標準區訓練小規模的模型時,谷歌員工“凡爾賽”道

“在短短几秒內‘豪擲’4000塊晶片來訓練巨型BERT才是真的酷(爽)。”

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

谷歌由此也希望MLPerf基準測試能引進更多的大模型,因為他們覺得現實中才不會像非標準區的參賽作品那樣用那麼多晶片來訓練那麼小的模型。

而此次的巨型BERT效能也不賴,它的預測準確率為75%,比MLPerf要求的72.2%要高

同時,和標準區其他參賽商一樣,谷歌也用較少的文字資料樣本來達到目標精度。

具體來說,標準區要求一個程式使用近5億個token序列進行訓練,每個序列的長度大多為128個token。

而Google只使用了大約2000萬個序列,不過每個序列的長度為512token。

另外,完成這次工作的2048塊TPU系統一開始也是為了迎合公司的生產和研發需要,所以它並未“束之高閣”——目前已用於Google Cloud服務

英偉達在標準區“戰績顯赫”

其餘MLPerf結果,主要在“標準區”,一如既往,英偉達戰績最高。

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

比如它使用最新一代GPU A100的系統在訓練ResNet-50花費的時間上包攬前四,其中最快只需21秒——比今年6月24秒的最高成績還快。

當然,此戰績一共花了4320個A100,在1080個AMD的EPYC x86處理器的幫助下並行完成。

但在不拼晶片和主機處理器的情況下,競爭對手可就碾壓起英偉達了。

其中英特爾Habana用256個Gaudi加速晶片,只需3.4分鐘就訓練好ResNet-50。

Graphcore則只需3.8分鐘,用了256塊IPU加速器晶片和32塊AMD EPYC主機處理器。

英偉達在配備16個EPYC處理器的64路A100系統下,花了4.5分鐘

打敗了英偉達的Graphcore,則強調自己最看重效能和成本之間的平衡。

煉個BERT花了快1天?谷歌:我這是4810億引數的巨型BERT

就比如Graphcore在16路系統上訓練ResNet-50耗費28分鐘,比英偉達DGX A100系統快一分鐘,但他們用到的POD-16是DGXA100成本的一半

此次參賽的其他廠商中,三星在電子訓練普通版BERT的速度上獲得了第二名,僅為25秒。花了256個AMD晶片和1024個英偉達A100。

微軟的Azure雲服務首次參賽,它使用192個AMD EPYC處理器和768個A100在醫療資料上訓練影象分割模型獲得了最高分。

同時Azure也表示後續也會像谷歌那樣在非標準區提交一些成績,雖然微軟和英偉達在此前不久釋出了目前最大的模型“威震天-圖靈”,但他們表示:

許多公司希望將人工智慧用於專一目的,而非需要4000塊晶片才能執行的巨型語言模型。

更多評分結果大家可以參考官網資料。

榜單地址:
https://mlcommons.org/en/news/mlperf-training-v11/

參考連結:
https://www.zdnet.com/article/google-uses-mlperf-competition-to-showcase-performance-on-gigantic-version-of-bert-language-model/

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

分類: 體育
時間: 2021-12-04

相關文章

長三角城市文化競爭力:滬杭寧排名前三 呈現東強西弱基本格局
中新社上海10月9日電 (記者 李佳佳)縱觀長三角地區的城市文化競爭力綜合發展水平,上海.杭州.南京.蘇州.寧波.合肥位列前6位,從總體上看,這一分佈態勢與各城市在長三角地區社會經濟發展的水平大致相符 ...

《東邪西毒》為什麼只有“東邪、西毒和北丐”,卻沒有“南帝”?

《東邪西毒》為什麼只有“東邪、西毒和北丐”,卻沒有“南帝”?
今天要跟您分享的,是1994年,王家衛導演改編金庸武俠的經典電影<東邪西毒>. 導演:王家衛 主演:張國榮 / 林青霞 / 梁朝偉 / 張學友 / 張曼玉 / 劉嘉玲 / 楊采妮 / 推薦 ...

傅首爾抱怨老公冷淡:為什麼女強男弱的關係都特別難?

傅首爾抱怨老公冷淡:為什麼女強男弱的關係都特別難?
如果你的男朋友或者老公,賺錢沒你多怎麼辦? 可能這個問題放到十幾年前,女生們的答案是相對統一的--賺錢沒我多的男人,要來幹嘛用? 但最近這幾年,有一部分自己有錢的女生,還真不一定非得要求男朋友比她們更 ...

懂車帝整新活:墜落測試,星瑞與速騰下襬臂孰強孰弱

懂車帝整新活:墜落測試,星瑞與速騰下襬臂孰強孰弱
在熱火朝天.乾柴不能遇到烈火的六月,懂車帝整了一出新活,為了窺探星瑞的雙層衝壓下襬臂和速騰的 單層下襬臂孰強孰弱,在新一期的大爆炸節目中,節目組將速騰和星瑞兩輛車從8米高的高空中做自由落體測試,測試結 ...

幹吃不胖是胃強脾弱,給吃不胖的人一個增肥的妙方

幹吃不胖是胃強脾弱,給吃不胖的人一個增肥的妙方
生活中,有這麼一種人,他們胃口很好,吃得不少,但就是不長肉.遇到這種情況,我們一般會說什麼,消化不好. 實際上,消和化是兩個過程. 消主要由胃來完成,胃主受納.胃負責接收食物,我們可以把胃想象成一個袋 ...

12強賽令人意外的6支球隊,亞洲足球版圖已變天,越南最值得學習

12強賽令人意外的6支球隊,亞洲足球版圖已變天,越南最值得學習
12強賽令人意外的6支球隊,亞洲足球版圖已變天,越南最值得學習 世預賽亞洲區4輪比賽已經結束,各組出線形勢逐漸明朗,越南.國足和敘利亞3支球隊的出線機率不到1%.12強賽前,有不少人曾經看好的日本隊表 ...

NBA30天30隊之獨行俠:東契奇衝擊MVP,基德能否帶領球隊取得進步

NBA30天30隊之獨行俠:東契奇衝擊MVP,基德能否帶領球隊取得進步
獨行俠隊已經連續兩個賽季止步西部季後賽首輪了,在今年休賽期,獨行俠最大的操作就是解僱了功勳主教練卡萊爾,聘用了球隊奪冠功勳球員基德為球隊新任主教練,本賽季獨行俠的任務就是讓球隊戰績在季後賽中做出突破, ...

美媒將30支球隊二當家劃分檔次:三線9人,二線7人,一線僅3人

美媒將30支球隊二當家劃分檔次:三線9人,二線7人,一線僅3人
對於一支NBA球隊而言,往往有一個絕對的核心.球隊核心固然很重要,但決定這支球隊能走多遠的往往不是大當家,而是二當家的發揮!二當家的成色有很多種,如果抱團的,往往是巨頭級別:如果能承擔大當家不在時候能 ...

CBA20支球隊主教練名單出爐,僅四位洋帥

CBA20支球隊主教練名單出爐,僅四位洋帥
CBA新賽季將於10月16日正式開啟,CBA官方近日公佈了20支球隊的主教練名單:杜鋒(廣東隊).楊鳴(遼寧隊).劉維偉(浙江稠州).阿的江(新疆隊).徐長鎖(山東隊).吳慶龍(青島隊).王博(浙江廣 ...

民營鋼企PK,津西領頭的唐山幫與普陽為大的邯鄲派,誰強誰弱?

民營鋼企PK,津西領頭的唐山幫與普陽為大的邯鄲派,誰強誰弱?
中國鋼鐵看河北,河北鋼鐵看唐山,按照2020唐山冶金工業年鑑中的資料,唐山有規模以上黑色金屬冶煉及壓延企業131家,其中,鋼鐵冶煉企業30家,實現主營業務收入7020.5億元,佔全市規模以上工業企業的 ...

小梗說動漫:《火影忍者》中“曉”的戰力究竟誰強誰弱

小梗說動漫:《火影忍者》中“曉”的戰力究竟誰強誰弱
哈嘍哈嘍,小梗又來了,經過昨天死神戰力的評測,有好多小夥伴給小梗反應了自己的想法,小梗覺得大家說的都有道理,小梗因為昨天錯別字的事情感到抱歉,今天的文案小梗一定改,一位小夥伴跟小梗說想看<火影& ...

河南省27所一本大學,排名榜“火熱出爐”!究竟孰強孰弱?

河南省27所一本大學,排名榜“火熱出爐”!究竟孰強孰弱?
河南,位於中原之中,素有九州腹地.十省通衢之稱,同時省內歷史文化悠久,在歷史長河中擁有諸多璀璨的文化.而河南省作為中原故土,自古以來也是教育大省.教育強省,如今更是全國高考人數的NO.1.但是河南省內 ...

強如皮蓬87年僅第五順位被選中,排在他前面的四人生涯成就如何?

強如皮蓬87年僅第五順位被選中,排在他前面的四人生涯成就如何?
說起現役最好的二當家,估計米德爾頓.安東尼戴維斯的名字會被提及,但是說到歷史至今最好的二當家那毫無疑問是皮蓬了,在他的輔佐下喬丹才開啟了歷史第一人的霸業,皮蓬對於資料不爭不搶,但是球隊需要他時他總能站 ...

未來中國的發展是南強北弱嗎?北方的城市沒有未來嗎?

未來中國的發展是南強北弱嗎?北方的城市沒有未來嗎?
來看,中國第一大城市群,京津冀城市群!過去京津冀的問題,是北京和天津太強勢,河北又太孱弱!北京的人口數量,又觸碰到了承載空間的天花板,於是一起協同發展的大戰略,橫空出世! 其中的一個方式,是把北京的人 ...

評射鵰英雄傳之東邪西毒南帝北丐中神通的一些事情(二十三)

評射鵰英雄傳之東邪西毒南帝北丐中神通的一些事情(二十三)
#影視雜談# 為什麼王重陽不教周伯通先天功? 對於這個答案,按周伯通自己說是因為他失了童男之身,練不了他師兄的好多厲害的功夫.這好多厲害的功夫裡應該就有先天功. 但是這不太可能啊,因為王重陽拿先天功去 ...

常年不發燒的人,說明體質強還是弱?不要再傻傻地做決定了

常年不發燒的人,說明體質強還是弱?不要再傻傻地做決定了
養生,是現如今人們追求的事,為此有些社群還積極幫中老年人舉辦營養科普相關的講座,讓大家對自己的身體健康更加理解. 但這並不是讓大家肆意妄為,認為經常聽到的說法就是對的,比如常年不發燒的人,一生病就是大 ...

還以為經濟南強北弱?原材料猛漲就不一定了
一年來鋼鐵.原油.銅鋁.晶片等幾乎所有的大宗商品都在漲價,漲價幅度普遍超過100%,這讓企業的原材料成本暴漲.使用原材料的企業苦不堪言,但原材料企業收益增加了,帶動部分北方如內蒙古.山西.陝西等能源大 ...

NBA東部有多弱?這8位球星一去就統治東部,6人拿冠軍2人進總決賽

NBA東部有多弱?這8位球星一去就統治東部,6人拿冠軍2人進總決賽
在邁克爾喬丹退役之後,NBA西強東弱是很明顯是一個局勢.在西部,有時候沒有50勝就進不了季後賽,而在東部,勝率不用過半就能拿到前八.雖然不可否認勒布朗詹姆斯的偉大,但是他在東部連續8年打進總決賽確實有 ...

“紅旗河”西部調水方案,耗資是三峽工程的10倍,網友:有必要嗎

“紅旗河”西部調水方案,耗資是三峽工程的10倍,網友:有必要嗎
雖然,我們每天用水量非常的大,生活用水.工業用水等等彷彿從來沒有斷過.在小區的業主群裡,一看到停水通知,裡面就鬧翻天了,都在那裡叫苦連天!確實,貌似我國不是一個缺水的國家,其實這只是表象,我國也是一個 ...

封蓋+得分+籃板三雙有多難?現役僅6人做到過,奧拉朱旺10次做到

封蓋+得分+籃板三雙有多難?現役僅6人做到過,奧拉朱旺10次做到
隨著小球時代的到來,現在三雙如家常便飯般爛大街,東契奇.約基奇.詹姆斯.哈登和韋少都是聯盟的三雙好手,不過他們的三雙基本都是助攻+得分+籃板的三雙,在這個持球大核心的時代,只要有球權,籃板能力出眾拿下 ...