sponsored links

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

豐色 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

現在的大型語言模型,能力個個都挺強。

但,它們的計算能力都不太行:

比如GPT-3,沒法做超過三位數的加法。

再比如它們當中的大多數都可以寫程式碼,但是理解程式碼卻很費勁——稍微遇到點帶迴圈的程式就gg。

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

不過,來自MIT和谷歌的研究人員發現:

不用修改模型的底層架構,只需訓練它們學會像程式設計師debug時那樣“打斷點”,讀程式碼的能力就唰唰唰地漲上去了。

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

將同樣的思路用於大數加法、多項式計算,那就更不在話下了。

所以,語言模型的數學能力終於也要跟上了?!

教語言模型用“打斷點”的方法做加法、讀程式

前面說的“打斷點”,其實指的是在計算步驟較多的程式中,讓模型把每一步都編碼為文字,並將它們記錄到一個稱為“便籤”的暫存器中,或者叫“草稿紙”

聽起來是個“笨”方法,但正是這樣才使得模型的計算過程變得清晰有條理,效能也就比以往直接計算的方式提升了很多。

具體操作也很簡單。

就比如在簡單的加法計算中,計算“29+57”的方式就是像這樣的:

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

其中C表示進位,#表註釋。

先計算9+7,進位1;再計算2+5+進位1,最後得出86。

從上可以看出,這個訓練示例由“輸入”和“目標”組成。

訓練時將兩者都餵給模型;測試時,模型就能根據“輸入”預測出正確的“目標”。

而“目標”就是要傳送到臨時暫存器上的內容,透過關注其上下文就可以引用;實際操作中,還可以對“草稿”內容進行檢查糾錯。

顯著提高語言模型的計算能力

研究人員選用了僅含解碼器結構的Transformer語言模型來實驗,其引數規模介於200萬到1370億之間。

原則上,任何序列模型都可以使用這個方法,包括編-解碼器模型或迴圈網路等。

首先,他們按這種“打斷點”的方式訓練語言模型進行1-8位數的整數加法

訓練包含10萬個示例,並進行了5000步的微調,batch size為32。

然後分別用1萬個資料來測試訓練分佈內的加法;1千個資料來測試訓練分佈之外,也就是9位和10位數的加法。

將結果分別與直接運算的語言模型進行比較,發現:

即使超出臨界模型大小,用了“打斷點”法的模型也能夠進行加法運算,而直接運算的基線模型就沒法做到這一點。

而在分佈外的任務中,直接運算的基線模型完全掛掉——“沒練過就不會做”,而用了“斷點”法的模型隨著規模的增大hold住了9-10位數的加法。

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

好,大數加法搞定。

接下來上多項式

他們生成了一個包含1萬個多項式的訓練資料集和2000個數據的測試集。

其中項數一般不超過3項,係數範圍在-10到+10之間,結果在-1000到+10000之間。

多項式的訓練示例如下:

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

結果發現:無論是微調還是少樣本訓練之後,“斷點”法的效能都優於直接預測。

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

最後就是讀Python程式碼了。

程式碼的訓練示例中,記錄了正在執行的是哪行程式碼,以及此時各變數的值,用json格式表示。

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

此前的語言模型讀程式碼的能力都表現不佳。“打斷點”的方式可以讓它們一改常態麼?

首先,經過200個程式(都是人工編寫的,包括簡單的while迴圈和if語句)的測試發現,“斷點法”整體執行精度更高。

與直接執行的模型相比,微調還可以將模型效能從26.5%提高到41.5%。

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

一個真例項子:

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

“斷點”法經過3次while迴圈,最終給出了正確的變數值。

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

接著,他們又用包含了1000個程式的MBPP資料集進行訓練和測試。

這些程式涉及多種資料型別的計算,包括整數、字串、浮點數等,以及涉及迴圈、API呼叫和遞迴等流程結構。

並新增訓練資料之外的“single line”程式集和CodeNet程式集進行測試。

結果發現,模型也可以很好地擴充套件。

谷歌讓NLP模型也能debug,只要給一張「草稿紙」就行

當然,這個方法也有侷限性:

比如複雜的計算可能需要很“長”的暫存器,這可能需要進一步改進Transformer生成視窗的大小。好在這也是NLP領域的一個活躍研究領域。

而在未來,他們可能會嘗試在無監督情況下用強化學習讓語言模型學會“打斷點”。

總之,語言模型的計算能力、讀程式碼的能力會越來越強。

論文地址:

https://arxiv.org/abs/2112.00114

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態

分類: 健身
時間: 2021-12-06

相關文章

毛澤東有哪三件事閉口不談?

毛澤東有哪三件事閉口不談?
在湘江河畔,在奇妙的山峰下,湖南省第一師範學院城南書院校區可謂生機勃勃,熱鬧非凡.百年來,它彷彿一個歷經滄桑的老人,靜靜注視著動盪的形勢,傾聽著改革發展的浪潮,歡迎著來自全國各地的學子. 1913年, ...

夜間作業好幫手,Fenix C7直充戶外手電體驗

夜間作業好幫手,Fenix C7直充戶外手電體驗
就在前不久,Fenix(菲尼克斯)再次升級C6至第三代,更高的亮度.磁吸式尾蓋.與時俱進的C口直充等無不彰顯出滿滿誠意.當然C系列的腳步並沒有停下,全新的C7翩翩而至.它是一款21700中頭手電,最高 ...

天氣預報:2021年冬季冷嗎?就看八月十五天氣,看看老祖宗怎麼說

天氣預報:2021年冬季冷嗎?就看八月十五天氣,看看老祖宗怎麼說
#煙火鄉村話豐年##三農高質量創作大賽# 導讀:天氣預報:2021年冬季冷嗎?就看八月十五天氣,看看老祖宗怎麼說 "八月十五早看天,來年不用問神仙",這句俗語說到了,八月十五的天氣 ...

寒冷的冬季,住在故宮裡的皇族是怎樣禦寒的

寒冷的冬季,住在故宮裡的皇族是怎樣禦寒的
故宮又上熱搜了. 最近幾年,故宮儼然成為了"網紅",自帶流量,經常成為最熱門的話題. 對此,故宮方面也緊急闢謠,這只是一次普通的電力維修.故宮方面表示,感謝觀眾對於文物古建越來越高 ...

“雙減”落地後,不少家長的心“懸”了起來:學校的作業少了,孩子還能學好嗎?

“雙減”落地後,不少家長的心“懸”了起來:學校的作業少了,孩子還能學好嗎?
來源:四川日報-川觀新聞 川觀新聞記者 鄧翔灃/文 吳聃/圖 "作業少了,孩子成績是否會下降?""禁止補習班後,孩子還能學到課本以外的知識嗎?"--" ...

廢舊衣服中的巨大商機,雖然不起眼,卻有人靠舊衣服回收賺到了錢

廢舊衣服中的巨大商機,雖然不起眼,卻有人靠舊衣服回收賺到了錢
廢品回收在我國由來已久,在街頭巷尾大家一般都見過,不過大部分人卻是沒有見過回收舊衣服的,而且基本上沒有人知道,舊衣服是具備很大的回收價值的,而且其利潤比其他廢舊資源要高很多. 冷門創業 舊衣服回收雖然 ...

暑假即將來臨,孩子夏季戶外出行需要注意什麼?

暑假即將來臨,孩子夏季戶外出行需要注意什麼?
有很多家長會選擇在暑假的時候,帶孩子來一次長途戶外旅遊,但因為有些家長是第一次帶孩子外出,沒有什麼豐富的經驗,不知道該注意什麼. 暑假確實是孩子們最喜歡的時候了,因為可以大玩.大吃,可以不用天天早起讀 ...

李夢的長相很有辨識度,穿貴婦風格的衣服,真的太有魅力了

李夢的長相很有辨識度,穿貴婦風格的衣服,真的太有魅力了
貴婦風格一直以來是一部分女生的追求,因為她們覺得穿貴婦風格的衣服,不僅彰顯自己的地位,還顯得自己很有氣質. 那些小香風的衣服對於她們來說就是家常便飯,日常生活中幾乎是每天都穿,那麼你知道在挑選貴婦風格 ...

2021年冬季冷不冷?看八月二十三天氣,農諺能預兆,看老祖宗咋說

2021年冬季冷不冷?看八月二十三天氣,農諺能預兆,看老祖宗咋說
#三農高質量創作大賽##煙火鄉村話豐年# 導讀:2021年冬季冷嗎?就看八月二十三,農諺俗語能預兆,看老祖宗咋說 有人說"今秋有多熱,今冬就會有多冷",這句話姑且不考慮對與錯,這主 ...

揭秘《長津湖》背後的氣象故事:那年冬天,為何如此寒冷?

揭秘《長津湖》背後的氣象故事:那年冬天,為何如此寒冷?
這個"十一檔",最讓人期待的電影,莫過於<長津湖>!從在北京電影節超前點映起,這部影片的口碑就"炸"了!這部反映抗美援朝中長津湖之戰的主旋律電影,片 ...

我們需要什麼樣的“智慧化”家庭作業
中共中央辦公廳.國務院辦公廳印發的<關於進一步減輕義務教育階段學生作業負擔和校外培訓負擔的意見>專門提出"線上培訓機構不得提供和傳播'拍照搜題'等惰化學生思維能力.影響學生獨立思 ...

天氣馬上就轉涼,不建議孕婦這麼保暖,會影響胎兒的健康發育

天氣馬上就轉涼,不建議孕婦這麼保暖,會影響胎兒的健康發育
現在的氣溫越來越低,我們如果外出的話,必定是要多添一些衣物的,對於普通人來說,這並沒有什麼,但是對於一些孕婦來說,這就非常的麻煩.特別是在冬天的時候,孕婦更應該要注意保暖,所以常常都會穿得很笨重,影響 ...

一二年級小學生不留作業不考試,家長表示擔憂,老師卻說沒關係?

一二年級小學生不留作業不考試,家長表示擔憂,老師卻說沒關係?
教育部:小學一二年級不佈置書面家庭作業,不進行紙筆考試. 在我們小時候上小學的快樂就是考出雙百的成績拿回家,得到父母的獎勵,而且能考出雙百的成績一般也只有在小學階段,而且在一二年級的階段會比較容易一些 ...

徒步西藏第32天:巴塘的袁姐與王叔

徒步西藏第32天:巴塘的袁姐與王叔
2010年6月20日-21日 徒步西藏第32天,33天 今日任務:抵達巴塘縣城,30公里,到巴塘,休整一天! 長時間的遠途徒步,我的雙腳備受折磨. 腳底又長了個大水泡,同一地方連續長了三次了! 我可憐 ...

寶寶衣物能和大人的混洗嗎?如何正確給寶寶洗衣服?

寶寶衣物能和大人的混洗嗎?如何正確給寶寶洗衣服?
王奶奶的小孫子近日身上長了一堆小紅點,醫院的檢查結果顯示細菌入侵到了身體,原因竟然是孩子衣服太髒了.王奶奶當場有點發懵,孩子的衣服天天洗,怎麼會髒呢? 一番詢問後,原來問題並沒有出在奶奶洗衣服的手法上 ...

青年大學習第十一季第十九期課後習題作業第4題答案 什麼是硬仗中的硬仗必須付出百倍努力?
什麼是硬仗中的硬仗,必須付出百倍努力,在全面建成小康社會的征程上不斷創造新的業績?這是青年大學習第十一季第十九期課後作業第四題問題.下面小編分享青年大學習第11季第19期課後習題作業第4題答案. 青年 ...

中小學生抄作業“太明顯”!老師看後笑出眼淚?網友:全是人才

中小學生抄作業“太明顯”!老師看後笑出眼淚?網友:全是人才
大家都知道,雖然中小學生依然在減負中,但是作業還是少不了的. 畢竟學習不僅僅一直都學習新知識,還要鞏固練習,講練結合,這樣才能讓新知識掌握得更牢固. 所以現在很多中小學生在假期中,也難免會有一些家庭作 ...

晚秋釣魚,三種天氣別出門,三種釣位不下竿,不採坑,過足釣魚癮

晚秋釣魚,三種天氣別出門,三種釣位不下竿,不採坑,過足釣魚癮
每當節氣更替時,氣候都會有較大的變化,每當氣候變化時,魚所在的位置就會發生變化,所以選擇釣位時,要注意水溫變化情況,還要考慮當天的天氣情況.氣候的變化,也會讓不同的天氣型別對垂釣的影響有好有壞,相同的 ...

這位50歲的媽媽也太會穿了,一件衣服多種搭配,這3種穿法好驚豔

這位50歲的媽媽也太會穿了,一件衣服多種搭配,這3種穿法好驚豔
你是否有這樣一種煩惱,明明買的衣服很多,一到換季卻覺得根本沒有衣服穿.看著衣櫃裡塞得滿滿的衣物,根本不知道該拿哪件出來穿,很喜歡一件衣服,卻不知道該如何搭配. 如果覺得自己被戳中了,不要嘆氣,其實這是 ...

空間天氣及其危害
我們很熟悉地球上的天氣,也很喜歡看天氣預報,但你知道空間天氣嗎? 對於我們在地球上的日常生活和日常經濟活動,地球磁層.電離層和熱層內的條件特別重要,因為太陽和太陽風造成的環境動態變化可能會影響天基和地 ...