摘要:中國科學院院士施一公認為:AlphaFold2是人工智慧對科學領域最大的一次貢獻,也是人類在21世紀取得的最重要的科學突破之一。
對普通大眾來說,谷歌AlphaFold似曾相識,而這份相識來源於它的孿生兄弟——打敗圍棋高手的AlphaGo。AlphaFold隸屬於谷歌旗下的人工智慧(Artificial Intelligence,AI)公司Deep Mind。Deep Mind聯合創始人兼執行長Demis Hassabis表示:“Deep Mind的終極願景是構建通用人工智慧,用它來幫助我們更好地瞭解我們周圍的世界,加快科學發現的步伐。”目前,Deep Mind擁有員工1000名左右,成立以來幾無營收,儼然成為谷歌旗下最燒錢的公司。然而,Deep Mind已經與Facebook AI Research、微軟和Open AI等公司一起成為全球AI競賽的領導者。基於AlphaFold,谷歌又一次“搞事情”,將其人工智慧應用於人類科學中最棘手的領域—生物學。
2020年,在第14屆國際蛋白質結構預測競賽(Critical Assessment of Protein Structure Prediction,CASP)上,AlphaFold2成功根據基因序列預測了生命基本分子——蛋白質的三維結構,取得了中位分數為92.4(滿分100分),比第二名高25分,打敗了所有競爭對手。甚至可以分析X-射線晶體學很難解決的楔入細胞膜中的蛋白質結構,這是許多人類疾病的核心。CASP發起人之一穆爾特更是感嘆:“我從未想過在我的有生之年可以見證這一偉大。”2020年11月30日,Deep Mind宣佈:“AlphaFold2成功解開了一個困擾人類長達50年之久的生物學難題——蛋白質摺疊問題。”2021年7月15日,關於AlphaFold2的論文在Nature上發表[1],並在Github上將AlphaFold2的程式碼開源[2],以及上線可搜尋的物種蛋白質組資料庫[3]。中國科學院院士施一公認為:AlphaFold2是人工智慧對科學領域最大的一次貢獻,也是人類在21世紀取得的最重要的科學突破之一。
AlphaFold2厲害在哪裡?
顛覆醫學的技術突破
蛋白質是生物體內一切功能的執行者,我們身體內的任何功能,從催化化學反應到抵禦外來侵略都是蛋白質作用的結果;我們能行走、運動靠的是肌肉中肌動蛋白的工作;我們身體的骨架是由蛋白質骨膠原加強的;細胞的正常分裂或癌變也是透過蛋白質調節控制的。具有完整一級結構的多肽或蛋白質,只有當其摺疊形成正確的三維空間結構才可能具有正常的生物學功能。如果這些生物大分子的摺疊在體內發生了故障,形成錯誤的空間結構,不但將喪失其生物學功能,還會引起各種疾病,如:肺氣腫、癌症、老年痴呆、帕金森氏症等。
蛋白質一般是由幾十到幾百個氨基酸脫水縮合組成的多肽鏈,蛋白質氨基酸有22種,常見的有20種。在肽鏈上一個具體的位置為什麼出現特定的氨基酸而不是別的氨基酸,以及為什麼與這一氨基酸前後相連的氨基酸也是固定的?這與分子生物學中心法則密切相關:“DNA轉錄RNA、RNA翻譯蛋白質。”具體來講,DNA上儲存的遺傳資訊,也就是鹼基序列首先轉錄到RNA上,再由RNA上的鹼基序列編碼特定的氨基酸序列,以此構成蛋白質的物質基礎。後來人們發現三個鹼基形成一個密碼子,對應編碼某一具體的氨基酸,密碼子在基因上的位置決定了氨基酸在肽鏈上的位置,形成了蛋白質的一級結構。但是,此時的線性結構還必須摺疊形成天然三維結構之後才能具備承擔活體生物所需的獨特功能。然而,50多年來科學家對蛋白質如何從一維結構快速、準確地摺疊成具有生物功能的天然三維結構的認知依然非常有限,這就是生物學領域著名的蛋白質摺疊難題。
蛋白質就像小巧精緻的生物機器,而機器的結構決定了它的功能,因此揭示蛋白質的結構可以幫助我們理解蛋白質的功能。如果我們清楚蛋白質的結構,就能對其功能展開有根據的猜測。透過繪製大量蛋白質結構圖,我們可以解讀生命的生物學原理,並找到解決問題的根本方法。
目前開展蛋白質結構研究的主要途徑為藉助實驗儀器解析蛋白質結構如:X-射線衍射、核磁共振技術、冷凍電鏡技術以及智慧計算預測。諾貝爾化學獎得主Christian Anfinsen,在1972年曾提出,基於蛋白質的1D氨基酸序列可計算並預測蛋白質的3D結構。然而,3D結構在形成之前會有數以億計的摺疊方式。有資料顯示,一個典型的蛋白質大約有10300種可能的構型,如果用實驗方法來計算所有可能的構型,可能花費的時間比宇宙都要長。透過實驗方法確定蛋白質結構是一項耗時且艱苦的工作,而AlphaFold2證明了人工智慧可以在短短几分鐘內準確預測蛋白質結構,並且精確到原子級。
表1. 開展蛋白質結構研究的主要途徑
以新冠疫苗為例:它的研發基礎全在於我們繪製出了病毒表面用於入侵人體的細胞刺突蛋白的結構圖。不妨把刺突蛋白的三維結構看作是一把鎖,倘若我們能描繪出鎖的形狀,自然便可設計出鑰匙,也就是藥物或疫苗,來反制病毒。蛋白質的三維摺疊形狀以其一維的氨基酸序列為基礎。如果AI擅長髮現那些複雜氨基酸序列構建立體形狀的模式(人類在這方面的能力較弱),那麼它就有望替代那些成本極高的實驗室技術。
從實用性角度來看,AlphaFold2的成功為我們攻克諸多重大疾病提供了助力。我們設計的幾乎所有的藥物都作用於蛋白質,如鑰匙開鎖般精確匹配,而此過程的第一步是確定哪把鑰匙開哪把鎖,用更專業的話說,就是尋找藥物靶標,即弄清楚藥物分子作用與何種蛋白結合。如果我們擁有可解碼蛋白質結構的人工智慧,就可快速篩選成千上萬的新藥物靶標。
AlphaFold2多領域技術革命
量身定製新蛋白
AlphaFold2對蛋白質結構的快速準確解析,可以使科學家們從頭製造蛋白質,即自然界中不存在的蛋白質,其特性可根據所需的應用進行調整。透過AlphaFold2的計算,預測蛋白質將如何摺疊,它們的穩定構象是什麼,可以開闢一個全新的生物學研究領域。
2020年1月下旬,DeepMind的科學家們使用AlphaFold2繪製了SARS-COV-2病毒的蛋白質結構圖——這些結構圖後來被實驗證實是準確的。隨後,世界各地的病毒學家開始使用AlphaFold2對新冠病毒進行研究。加利福尼亞大學舊金山分校(美國加利福尼亞州)的研究人員使用AlphaFold2和低溫電子顯微鏡分析了Nsp2,這是SARS-COV-2病毒中的一種蛋白質。這種特殊蛋白質的結構和功能尚不清楚,但使用AlphaFold2的結果表明它具有鋅離子結合位點,表明這種蛋白質在RNA結合中起作用,這可能對進一步的研究產生影響。
在研究經費有限的專案中,AlphaFold2的免費資源是非常有幫助的。2021年6月,DeepMind與總部位於日內瓦的被忽視疾病藥物計劃(DNDi)建立新的合作伙伴關係。DNDi是一家非營利性製藥組織,在過去18年中一直致力於解決發展中國家一些最致命的疾病,如昏睡病、南美錐蟲病和利什曼病。AlphaFold2在尋找昏睡病的新療法方面已經取得了相當大的成功:用安全的藥物非西硝唑取代了美拉索丙醇(一種有毒化合物,導致每20名患者中有1人死亡),成為治療該疾病的新標準。DNDi的藥物化學家和專案負責人Ben Perry 說:“我們找到了安全的處理辦法,並且適用於所有形式的疾病。”
DNDi和華盛頓大學、鄧迪大學和葛蘭素史克的一組傳染病研究人員發現了一種分子,該分子能夠與克氏錐蟲上的一種蛋白質結合,這種寄生蟲會導致南美錐蟲病疾病。科學家想要研究這種蛋白質的結構,以準確瞭解藥物如何阻止寄生蟲發揮作用。在過去,這將是一項需要多年時間,且複雜而費力的實驗任務,但透過AlphaFold2,DNDi和他們的合作者已經獲得計算生成的對其結構的預測。現在可以利用這些知識來設計更多可以以不同方式與這種蛋白質結合並殺死克氏錐蟲的藥物。佩裡說:“這可以讓我們比幾年前看起來更快地解決恰加斯病和利什曼病。如果你能快速獲得這些蛋白質結構,你就可以設計多種候選藥物,這樣你就有很多目標可以用於臨床試驗。”
英國朴茨茅斯大學酶創新中心透過應用AlphaFold2設計了用於處理一次性塑膠的蛋白質,這種蛋白質在自然界中並不存在。如果沒有AlphaFold2的幫助,這種蛋白質將很難被發現。
AlphaFold2應用於製藥領域存爭議
演算法仍需完善
AI結構預測的基本原理是將已知三維結構的蛋白質作為資料集進行大量訓練,輸入一個蛋白質的氨基酸序列推算其三維結構,並和該蛋白質的實驗結構比對,以此強化機器深度學習能力和對未知蛋白質結構的預測能力。簡言之,就是大資料+智慧演算法。AlphaFold2又進一步引入了新演算法,而且在硬體上達到了16個TPU(tensor processing unit)級別,相當於100多個GPU(graphics processing unit)的計算機中央處理器,對所有17萬種已知蛋白質結構進行了演算法訓練。
也就是說,此次AlphaFold2所取得的驚人成績完全離不開實驗生物學家已經弄清楚結構的蛋白質作為其比較或學習的模板。而且,AlphaFold2蛋白質結構預測也並非解決了所有問題,即使在競賽中,它明顯地在一種蛋白質上搖擺不定,這種蛋白質由52個小重複片段組成,它們在組裝時會扭曲彼此的位置。
所謂蛋白質結構預測也只是結構生物學研究的一箇中間階段,是指無論是實驗結構解析還是 AI結構預測,其最終目的是理解生命機理。正如美國普林斯頓大學顏寧教授所講:“結構生物學的主語是生物學,是理解生命,是做出生物學發現。”從亞原子到原子再到分子層面依然是物理化學過程,為什麼分子層面的蛋白質及其組成的生命具有了化學活性且能夠繁殖、演化?也就是說,分子層面的蛋白質發生了什麼樣的變化以及是如何變化的?解答這些問 題才接近理解生命。
但是正如上文所言,理解蛋白質功能必須理解其結構,而結構解析目前遠遠超出了人類的認知能力。也正因如此,很多實驗生物學家將大量時間、精力投入到蛋白質結構實驗解析上,也正因為這一程序發展緩慢且困難重重,才促使人們另闢蹊徑,藉助計算科學開展結構預測。在這個意義上說,實驗解析或演算法預測是開展蛋白質功能研究及認識生命機理的工具和手段,但是不能說因為在這方面目前還非常困難且是當下結構生物學的主要工作,作為工具和手段的結構解析或預測就成為了生物學的目的。要言之,AI在蛋白質結構預測領域做出了驚人的成績,但這並不意味著AI明白地告訴了我們蛋白質摺疊的過程與原理。
雖然AlphaFold2在CASP14上讓評委們大開眼界,並且已經被用於各種研究領域,但這只是此類計算技術的開始。某一蛋白質可能存在10300個構象,但蛋白質是如何在瞬間自發地摺疊成正確的形狀,AlphaFold2仍無法對此做出解答。AlphaFold2目前代表了AI蛋白質預測的黃金標準,但隨著這項技術的發展和演變,這一基準將繼續提高。
準確預測蛋白質結構,在設計治療方法的過程中是有益的,它使研究人員能夠視覺化目標蛋白質的形狀。然而,目前AlphaFold2的侷限性意味著藥物設計領域仍未發生重大變化。預測較大的多域蛋白質複合物的形狀並瞭解所有氨基酸側鏈的位置對於設計藥物分子很重要:這些是AlphaFold2目前難以預測的領域。最近的一篇論文還強調,雖然AlphaFold2預測的結構資料可能會縮短早期的研究時間,但不太可能徹底縮短新藥從實驗室到患者的時間。
題圖來源:EXXACT,僅用於學術交流
撰文|文競擇
排版|喬維鈞
End
參考資料:
[1]Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021 Aug; 596(7873):583-589. doi: 10.1038/s41586-021-03819-2. Epub 2021 Jul 15. PMID: 34265844; PMCID: PMC8371605.
[2]GitHub - deepmind/alphafold: Open source code for AlphaFold.
[3]AlphaFold Protein Structure Database. alphafold.ebi.ac.uk.
[4]http://sciencewithmsjones.weebly.com/living-environment/central-dogma-of-genetics?fbclid=IwAR13Gz372IrbOBKoNi3BWheUb9gwbrCgW30oApkw1lEwl19EHLMkJ75lAzI].
[5]趙雲波。AI預測可以代替科學實驗嗎?醫學與哲學,2021。DOI:10.12014/j.issn.1002-0772.2021.06.04
本文系生物探索原創,歡迎個人轉發分享。其他任何媒體、網站如需轉載,須在正文前註明來源生物探索。