sponsored links

精準醫學的利器:針對罕見人類基因錯義變異致病性的預測模型

精準醫學的利器:針對罕見人類基因錯義變異致病性的預測模型

責編 | 兮

準確的判斷人類基因序列變異的致病性可以使人類基因組序列在精準醫學領域中的潛力得到充分的發揮。儘管全基因組關聯研究(GWAS)探測與疾病相關的罕見錯義變異的能力有限,罕見錯義變化在人類基因組中的地位舉足輕重:超過 99% 的觀察到的人類錯義變異是罕見的(全球次要等位基因頻率或 MAF 低於 0.5%),其中90% 極為罕見(MAF < 10-6)。識別具有破壞性的罕見錯義變異是解讀個人基因組的一個重要和艱鉅的挑戰。

現如今透過高通量的深度突變掃描實驗評估所有可能的錯義變異對單個目標蛋白質功能的影響已經成為可能。但是,在大約4,000 種和人類疾病相關的蛋白質中現僅有不到 1% 有相關的實驗結果,而且實驗往往是在模式生物細胞中進行的。我們可能還需要很長的時間才能獲取完整的高質量的人體細胞深度突變掃描實驗資料。相比之下,利用計算預測模型推斷變異致病性已經可以應用於所有的人類基因。然而,至今所有的計算預測模型效能都尚未能達到臨床應用的標準。

2021年9月21日,加拿大多倫多大學Frederick Roth 團隊,吳穎洲(Yingzhou Wu) 作為第一作者,在The American Journal of Human Genetics期刊上 發表了題為Improved pathogenicity prediction for rare human missense variants 的文章,旨在提升針對罕見人類基因錯義變異致病性的預測模型的效能。在所有同類模型 (比如:Polyphen2, SIFT, REVEL等等)的預測查準率都調整到90%的情況下,文章中新研發的VARITY_R(針對MAF<0.5%的變異) 和 VARITY_ER (針對 MAF<10-6的變異)監督式機器學習模型,比同類模型檢測到至少10%以上的致病變體。

精準醫學的利器:針對罕見人類基因錯義變異致病性的預測模型

VARITY_R 和VARITY_ER模型的效能提升主要來源於VARITY 機器學習構架(https://github.com/joewuca/varity) 的開發。在監督式學習模型中,當面臨大量的訓練資料但只有一小部分是高質量資料的情況下,VARITY構架可以透過給不同的訓練資料分配與資料質量相關的最優權重來平衡訓練資料質量和數量,從而提升模型的效能。VARITY 構架首先將所有的訓練資料劃分成核心資料(高質量)和附加資料(質量不確定),然後根據需要將核心/附加資料進一步劃分成多個核心/附加資料子集,以便可以對每一個數據子集進行獨立的調整來對模型做出貢獻。對於每一個數據子集,VARITY構架首先透過“移動視窗分析”的方法確立一個或多個“資料質量相關因素”變數,然後針對每個變數設定一個Logistic函式並將該變數作為輸入值, Logistic函式中的引數將作為“權重”超引數和其他演算法相關的超引數一起進行以最佳化模型在核心資料集上的效能為目標的超引數調優。Logistic函式的輸出值將為當前資料子集中的每一條資料分配權重,而最終的模型將在所有已分配權重的訓練資料集上建立。

在構建預測人類罕見基因錯義變異的VARITY_R模型過程中,研究人員採用了VARITY構架,透過不同的資料庫收集到大量的致病性已知的人類錯義變體資料集作為訓練資料 ,但除了從ClinVar 資料庫(有嚴格的稽核流程)採集的資料質量是可以保證的,對提供致病性註釋的其他資源 (比如HumsaVAR,HGMD,gnomAD, MaveDB等等)的準確性不太確定。另外,訓練資料的質量也會被模型目標資料“代表性”所影響。比如這裡旨在建立專門針對人類罕見基因錯義變異的模型,這樣人類常見基因錯義變異也許並不能“代表”人類罕見基因錯義變異,其資料質量也就是對於提高模型效能的作用也就不確定了。因此,研究人員僅僅將ClinVar資料庫中採集到的人類罕見基因錯義變異作為核心資料,而將其他資料庫採集到的資料以及ClinVAR資料庫中的人類常見基因錯義變異作為附加資料。研究人員進一步將核心/附加資料根據資料採集的來源,資料註釋(是否致病),以及變異是否罕見劃分成若干核心/附加資料子集。每一個子集都確定了資料質量相關因素,比如gnomAD資料庫中採集的訓練資料子集研究人員使用了“攜帶同基因合子的人數”作為資料質量相關因素,而從ClinVAR資料庫中採集的訓練資料子集使用了“驗查星數”作為資料質量相關因素。透過超引數調優研究人員確定了和每一個數據質量相關因素相對應的Logistic函式的引數,併為每一個訓練資料子集中的資料賦予了最優的權重,繼而建立的VARITY_R模型。研究人員同時建立了類似的專門針對人類極其罕見的錯義變異的VARITY_ER模型,和VARITY_R的唯一不同就是VARITY_ER僅僅將從ClinVar資料庫中採集到極其罕見的人類錯義變異資料作為核心資料。

精準醫學的利器:針對罕見人類基因錯義變異致病性的預測模型

VARITY_R和VARITY_ER模型使用的資料特徵包含了進化、蛋白結構以及蛋白質互動作用相關的一系列特徵,使用的機器學習演算法是梯度提升決策樹並採用貝葉斯最佳化的超引數調優方法。在和20種以上的同類模型在和神經發育疾病相關的新生突變資料集,深度突變掃描實驗資料集,以及ClinVar核心資料集(使用巢狀交叉驗證)上做的效能對比中,VARITY_R或者是VARITY_ER取得了具有統計顯著性的優勢。在所有同類模型的預測查準率都調整到90%的情況下,VARITY_R和 VARITY_ER模型比同類模型檢測到至少10%以上的致病變體。

研究人員使用VARITY_R和VARITY_ER模型對將近18,000種人類蛋白質可能出現的所有基因錯義變異的致病性做了預測,並對每一個變異的預測結果做了夏普利值分析,提供了每一個變異的預測結果中每個特徵的貢獻。所以的預測結果可以透過varity.varianteffect.org查詢並下載。

本文來自BioArtMED微信公眾號,更多生物領域前沿資訊等你來發現!
轉載須知
【原創文章】BioArtMED原創文章,歡迎個人轉發分享,未經允許禁止轉載,所刊登的所有作品的著作權均為BioArtMED所擁有。BioArtMED保留所有法定權利,違者必究。

分類: 科學
時間: 2021-09-23

相關文章

全面且權威的人類基因與遺傳表型概要的線上資料庫——OMIM資料庫

全面且權威的人類基因與遺傳表型概要的線上資料庫——OMIM資料庫
相信大家對於GEO.TCGA.SEER資料庫已經很熟悉了.但是如果問到你OMIM資料庫是什麼,估計會得到一大堆問號??? 事實上,OMIM是一個全面且權威的人類基因與遺傳表型概要的線上資料庫,OMIM ...

人類基因地圖集 六 晚期銅石器時代 歐洲 亞洲的 Y-DNA 單倍群(特刊)

人類基因地圖集 六 晚期銅石器時代 歐洲 亞洲的 Y-DNA 單倍群(特刊)
天體部落長老 天然主義者部落 今天 收錄於話題 #人類基因地圖2個內容 #晚期銅石器時代 #歐洲 亞洲的 Y-DNA 單倍群 #古人類研究5個內容 #古人類DNA4個內容 Jenne 自然部落 編譯: ...

醫學、一夫一妻導致自然選擇失效,人類進化停止?研究:正在加速

醫學、一夫一妻導致自然選擇失效,人類進化停止?研究:正在加速
35億年前地球上第一個藍藻生物的出現劈開了地球上的黑幕,自此之後,生命湧現.就像神話中描述的那樣,天地初開,陰陽兩分,天清地濁,生命從此在這裡落戶安家.一個個細胞生物開始了漫長的進化,從最初的水生無脊 ...

專訪|哲源科技聯合創始人兼COO趙宇:超算上跑出計算醫學 為醫藥產業賦能
<科創板日報>(上海,記者 朱潔琰)訊,"現在關於醫學方面的論文超過3500萬篇,這個體量的學習是人力無法窮盡的,基於超級計算機的人工智慧卻可以做到."中科院計算所•哲 ...

研究表明,阿拉伯是早期人類走出非洲的“基石”
科學家發現,阿拉伯半島似乎在早期人類離開非洲的遷徙中扮演了重要角色. 有史以來規模最大的阿拉伯人基因組研究揭示了所有現代中東人口中最古老的群體,並闡明瞭現代人類是如何在全球擴張的. 阿拉伯半島--今天 ...

結直腸癌患者為什麼需要基因檢測?

結直腸癌患者為什麼需要基因檢測?
結直腸癌是我國常見的惡性腫瘤之一,其發病率在男性和女性腫瘤中分別是第4位和第3位.基於目前篩查意識的缺失,有多半數人群在確診時即為晚期.確診時,醫生常常會在制定治療方案前推薦患者朋友們進行一項稱為&q ...

精準診療 診斷在先——生物標誌物在疾病精準診療中的應用丨NCN2021

精準診療 診斷在先——生物標誌物在疾病精準診療中的應用丨NCN2021
2021年中華醫學會第二十四次全國神經病學學術會議正火熱進行中,9月24日的"渤健神經科學高峰論壇--診斷專場"受到參會專家的廣泛關注,本次學術專場誠邀首都醫科大學宣武醫院陳彪教授 ...

和瑞基因臨床研究、技術平臺、產品多管齊下,夯實領軍者地位
一年一度的全國臨床腫瘤學大會(CSCO)落下帷幕.期間,國內腫瘤全病程管理基因檢測代表企業--和瑞基因圍繞腫瘤早篩.腫瘤伴隨診斷召開了兩場專場會,與會專家共同探討了包括PreCar專案最新進展.肺癌早 ...

法媒:人類預期壽命延長 科研加速與死亡賽跑
據法國<回聲報>網站8月30日報道,谷歌繼續與死亡瘋狂賽跑!2014年穀歌與艾伯維公司為卡利科實驗室投資15億美元,此後"字母表"公司與這家紐約合作伙伴再拿出10億美元 ...

醫學生日常“沙雕行為”,看起來一本正經,實際上就是逗比一枚

醫學生日常“沙雕行為”,看起來一本正經,實際上就是逗比一枚
據相關資料統計,我國今年高考總人數為1,078萬人,但是實際上在這眾多的高考人數當中,應屆生卻僅僅只有1,025萬人,逐年增長的高考生們在填報高考志願時,往往都會選擇熱門專業,師範類高校,財經類高校, ...

龍生九子,九子各不同,這可和基因有很大關係

龍生九子,九子各不同,這可和基因有很大關係
有俗語龍生九子,九子各不同.也有俗語龍生龍,鳳生鳳,老鼠的兒子會打洞.為什麼會產生這樣的不同?決定遺傳的基本因素就是基因.英國科學經典讀物<生物的奧秘:破解基因的密碼>就是倫敦大學學院進化 ...

罕見!東北虎豹國家公園發現多種變異色型黃喉貂 研究價值有多高?

罕見!東北虎豹國家公園發現多種變異色型黃喉貂 研究價值有多高?
大熊貓是中國的國寶,是中國的特有動物,它在地球上已經生存了最少800萬年,因此有著"活化石"的稱號.通常情況下,大熊貓都是黑白兩色,但是除此之外,還有棕色的,這類大熊貓十分罕見,目 ...

如果人類壽命延長1000歲,世界會怎樣?人類:算了吧!完全沒必要

如果人類壽命延長1000歲,世界會怎樣?人類:算了吧!完全沒必要
喝啤酒泡人參,大半夜滴著眼藥水玩手機,雖然是茶餘飯後的調侃,但畢竟人到中年不得已.那麼問題來了,如果人類的平均壽命能達到1000歲,大家會做什麼呢?有人會說畢竟1000歲太長,只爭朝夕,還是接著奏樂接 ...

血細胞:藥物遞送的未來

血細胞:藥物遞送的未來
藥物遞送系統是旨在減少藥物脫靶毒副作用的精準醫學的聖盃.然而,諸如合成奈米載體或脂質奈米顆粒等藥物遞送系統在防止對載體產生不必要的免疫反應以及以可控方式釋放藥物的機制方面持續遇到挑戰. 最近的研究表明 ...

20歲生日快樂 | 因你珍稀 所以珍惜

20歲生日快樂 | 因你珍稀 所以珍惜
該如何讓你知道 無論命運.無論歲月在你身上 留下了怎樣的痕跡 我們都永遠愛你 今天,是北京大學第三醫院 科凱恩氏綜合徵患者桐桐20歲的生日 而世界上 這類患者的平均壽命只有14歲 是我們所有人 用愛. ...

光谷企業生產2萬種抗體,幫助全球科學家發表6萬篇論文,“我們的廣告寫在論文裡!”

光谷企業生產2萬種抗體,幫助全球科學家發表6萬篇論文,“我們的廣告寫在論文裡!”
"抗體是一種特殊的蛋白質.疫情中,科學家徵集治癒者的血清,實際上就是徵集抗體.我們打新冠疫苗.狂犬病疫苗,也是為了刺激身體產生抗體,阻止病原菌的傷害.抗體也是研究蛋白質的最好工具,可以輔助科 ...

腸道菌群與肺癌免疫治療有何關係?氣管鏡介入技術又有新進展!張新教授一文詳解

腸道菌群與肺癌免疫治療有何關係?氣管鏡介入技術又有新進展!張新教授一文詳解
*僅供醫學專業人士閱讀參考 第七屆中山肺癌論壇開幕在即,速來參與! 2021年10月8日-10日,第七屆中山肺癌論壇暨氣管鏡介入診療新技術學習班即將在上海召開,聚焦多學科模式下的肺癌綜合診療--肺癌早 ...

晚期胃癌全身轉移沒治了?日本專家給出救命新方案

晚期胃癌全身轉移沒治了?日本專家給出救命新方案
當國內的治療方案几乎用盡,晚期胃癌患者還有救嗎? 標準治療方案無效無效!晚期胃癌全身轉移面臨絕境 29歲,國內一流院校畢業,光明燦爛的人生剛剛開啟,沒有人相信,這個陽光帥氣的男孩卻被診斷為晚期胃癌. ...

首兒所成功舉辦2021年兒童發育障礙遺傳學培訓論壇
病毒無情,醫者有愛,科研不停.中秋前夕,首都兒科研究所遺傳研究室在日壇賓館順利召開2021年兒童發育障礙遺傳學培訓論壇.本次會議邀請到神經/精神科學.遺傳和基因組學.兒科學.生物資訊學等專家學者參會, ...