sponsored links

使用 DeepVariant 1.0 提高基因組分析的準確性

測序基因組涉及從我們從父母那裡繼承而來的約 60 億對核鹼基——即腺嘌呤 (A)、胸腺嘧啶 (T)、鳥嘌呤 (G) 和胞嘧啶 中的一小段 DNA 取樣。基因組測序由兩項關鍵技術實現:“讀取”相對較小 DNA 片段的 DNA 測序儀(硬體),以及結合讀取以識別個體基因組與參考基因組的不同之處和方式的變異呼叫程式(軟體),例如一種是在人類基因組計劃中組裝的。這些變異可能是遺傳疾病的指標,例如患乳腺癌、肺動脈高壓或神經發育障礙的風險升高。

2017 年,我們釋出了 DeepVariant,這是一個開源工具,它使用卷積神經網路(CNN)識別測序資料中的基因組變異。測序過程開始於物理樣本由少數儀器中的任何一個進行測序,具體取決於測序的最終目標。原始資料由基因組重疊片段的大量讀陣列成,然後被對映到參考基因組。DeepVariant 分析這些對映以識別變異位置並將它們與測序錯誤區分開來。

使用 DeepVariant 1.0 提高基因組分析的準確性

在 2018 年首次釋出後不久,DeepVariant 經歷了許多更新和改進,包括顯著改變以提高全外顯子組測序和聚合酶鏈反應(PCR) 測序的準確性。

我們現在釋出DeepVariant v1.0,其中包含針對所有測序型別的大量改進。DeepVariant v1.0 是我們向PrecisionFDA v2 Truth Challenge提交的改進版本,它在 4 個儀器類別中的 3 箇中獲得了最佳總體準確度。與之前最先進的模型相比,DeepVariant v1.0 顯著減少了廣泛使用的測序資料型別的錯誤,包括Illumina和Pacific Biosciences。此外,透過與UCSC Genomics Institute的合作,我們還發布了一個將 DeepVariant 與 UCSC 的PEPPER方法相結合的模型,稱為PEPPER-DeepVariant,首次將覆蓋範圍擴充套件到牛津奈米孔資料。

使用 DeepVariant 1.0 提高基因組分析的準確性

測序技術和 DeepVariant

在過去十年中,大部分序列資料是使用Illumina儀器生成的,這些儀器產生短(75-250 個鹼基)和準確的序列。近年來,出現了可以對更長片段進行測序的新技術,包括Pacific Biosciences,它可以產生長達約 15,000 個鹼基的長而準確的序列,以及 Oxford Nanopore,它可以產生長達100 萬個鹼基的讀數,但錯誤率較高。研究人員可能使用的特定型別的測序資料取決於最終用例。

由於 DeepVariant 是一種深度學習方法,我們可以針對這些新的儀器型別快速重新訓練它,確保高度準確的序列識別。準確性很重要,因為遺漏的變異呼叫可能意味著遺漏某種疾病的因果變異,而假陽性變異呼叫可能導致識別不正確的變異。早期最先進的方法可以在 35 倍覆蓋 Illumina 全基因組上達到 ~99.1% 的準確度(~73,000 個錯誤),而早期版本的 DeepVariant (v0.10) 具有 ~99.4% 的準確度(46,000 個錯誤) ,相當於減少了 38% 的錯誤。相對於上一個 DeepVariant 版本 (v0.10),DeepVariant v1.0 將 Illumina 錯誤再減少約 22%,將 PacBio 錯誤再減少約 52%。

DeepVariant 概述

DeepVariant 是一種卷積神經網路 (CNN),它將識別遺傳變異的任務視為影象分類問題。DeepVariant 構造張量,本質上是多通道影象,其中每個通道代表序列的一個方面,例如序列中的鹼基(稱為讀取鹼基)、不同讀取之間的對齊質量(對映質量)、給定讀取是否支援替代等位基因(讀取支援變異)等。然後分析這些資料並輸出三個基因型可能性,對應於存在給定替代等位基因的多少複製(0、1 或 2)。

使用 DeepVariant 1.0 提高基因組分析的準確性

DeepVariant v1.0 中的技術改進

因為 DeepVariant 對每種資料型別使用相同的程式碼庫,改進適用於 Illumina、PacBio 和 Oxford Nanopore。下面,我們展示了 Illumina 和 PacBio 兩種型別的小變異的數字:SNP(單核苷酸多型性,改變單個鹼基而不改變序列長度)和INDEL(插入和缺失)。

  • 在擴充套件的真值集上訓練

該基因在瓶由財團美國國家標準與技術研究院(NIST)建立黃金標準樣品,已知變種覆蓋基因組區域。這些被用作訓練 DeepVariant 的標籤。瓶中基因組使用長讀長技術擴充套件了可信變異集,將標準集描述的區域從基因組的 85% 增加到 92%。這些更困難的區域已經用於訓練 PacBio 模型,並且將它們包含在 Illumina 模型中將錯誤減少了 11%。透過放寬對較低對映質量讀數的過濾器,我們進一步將 Illumina 的錯誤減少了 4%,將 PacBio 的錯誤減少了 13%。

  • 長讀長的單倍型排序

我們從母親那裡繼承了一份 DNA,從父親那裡繼承了一份 DNA。PacBio 和 Oxford Nanopore 序列足夠長,可以按親本來源分離序列,這被稱為單倍型。透過向神經網路提供這些資訊,DeepVariant 改進了它對隨機序列錯誤的識別,並且可以更好地確定一個變體是否有來自一個或兩個父母的副本。

  • 將讀取重新對齊到備用 (ALT) 等位基因 DeepVariant 使用已與參考基因組比對的輸入序列片段。如果比對者知道它們存在,那麼包含插入或缺失的變體的最佳比對可能會有所不同。為了捕獲此資訊,我們實施了一個相對於候選變體的額外對齊步驟。下圖顯示了額外的第二行,其中讀取與候選變體對齊,這是一個大插入。您可以看到在第一行突然停止的序列現在可以完全對齊,從而提供更多資訊。

使用 DeepVariant 1.0 提高基因組分析的準確性

  • 使用小型網路對輸出進行後處理

變體可以有多個等位基因,從每個親本繼承不同的鹼基。DeepVariant 的分類器一次只生成一個潛在變體的機率。在以前的版本中,簡單的手寫規則將機率轉換為複合呼叫,但這些規則在某些邊緣情況下失敗。此外,它還將進行最終呼叫的方式與用於訓練網路的反向傳播分開。透過在後處理步驟中新增一個小的、完全連線的神經網路,我們能夠更好地處理這些棘手的多等位基因情況。

  • 新增資料以訓練釋出模型

比賽的時間框架被壓縮了,因此我們僅使用與挑戰資料(PCR-Free NovaSeq)相似的資料進行訓練,以加快模型訓練。在我們的產品釋出中,我們尋求多種儀器以及 PCR+ 製劑的高精度。使用來自這些不同類別的資料進行訓練有助於模型泛化,因此我們的 DeepVariant v1.0 版本模型優於提交的模型。

下面的圖表顯示了每項改進所實現的錯誤減少。

使用 DeepVariant 1.0 提高基因組分析的準確性

使用 DeepVariant 1.0 提高基因組分析的準確性

訓練混合模型

DeepVariant v1.0 還包括一個用於 PacBio 和 Illumina 讀數的混合模型。在這種情況下,模型利用了兩種輸入型別的優勢,而無需新邏輯。

使用 DeepVariant 1.0 提高基因組分析的準確性

我們觀察到 SNP 錯誤沒有變化,這表明 PacBio 讀數在 SNP 呼叫方面絕對優越。我們觀察到相對於 PacBio 模型的 Indel 錯誤進一步減少了 49%,這表明 Illumina 和 PacBio HiFi 的 Indel 錯誤模式可以以互補的方式使用。

使用 DeepVariant 1.0 提高基因組分析的準確性

PEPPER-Deepvariant:使用 DeepVariant 的牛津奈米孔資料管道

在 PrecisionFDA 競賽之前,DeepVariant 模型無法用於牛津奈米孔資料,因為較高的基礎錯誤率為 DeepVariant 創造了太多的候選物件無法分類。我們與加州大學聖克魯斯基因組學研究所合作,該研究所在奈米孔資料方面擁有豐富的專業知識。他們之前訓練了一種名為PEPPER的深度學習方法,可以將候選人範圍縮小到一個更容易處理的數字。DeepVariant 的更大的神經網路然後可以在合理的執行時間下準確地表徵剩餘的候選者。

與牛津奈米孔模型相結合的 PEPPER-DeepVariant 管道是開源的,可在 GitHub 上獲得。該管道能夠在 PrecisionFDA 挑戰中實現優於 DeepVariant Illumina 的 SNP 呼叫準確度,這是第一次有人證明 Nanopore 以這種方式優於 Illumina。

結論

DeepVariant v1.0 並不是開發的終點。我們期待與基因組學界合作,進一步最大化基因組資料對患者和研究人員的價值。

使用 DeepVariant 1.0 提高基因組分析的準確性

分類: 科學
時間: 2021-09-18

相關文章

精準診療 診斷在先——生物標誌物在疾病精準診療中的應用丨NCN2021

精準診療 診斷在先——生物標誌物在疾病精準診療中的應用丨NCN2021
2021年中華醫學會第二十四次全國神經病學學術會議正火熱進行中,9月24日的"渤健神經科學高峰論壇--診斷專場"受到參會專家的廣泛關注,本次學術專場誠邀首都醫科大學宣武醫院陳彪教授 ...

胡盛壽院士:我國“十三五”期間心血管病防治能力進步明顯

胡盛壽院士:我國“十三五”期間心血管病防治能力進步明顯
來源:人民網 9月17日,在中國心臟大會(CHC)2021暨第六屆中國血管大會(CVC)開幕式上,中國工程院院士.國家心血管病中心主任.中國醫學科學院阜外醫院院長.中國心臟大會主席胡盛壽指出,在&qu ...

我們最近在洪水預報方面的改進背後的技術

我們最近在洪水預報方面的改進背後的技術
洪水是地球上最常見的自然災害,影響著全球數億人的生活,每年造成約 100 億美元的損失.在我們往年工作的基礎上,本週早些時候,我們宣佈了我們最近為改進印度和孟加拉國洪水預報所做的一些努力,將覆蓋範圍擴 ...

「專家視角」石油汙染土壤微生物群落分佈特徵

「專家視角」石油汙染土壤微生物群落分佈特徵
[能源人都在看,點選右上角加'關注'] 石油汙染土壤微生物群落分佈特徵 孫 娟1, 王 寧1, 陳宏坤2,3, 宋權威2,3, 楊曉晴1, 趙朝成1, 張秀霞1, 鄭秀志1 (1.中國石油大學(華東) ...

惠志斌:隱私計算是開啟資料安全流通的“鑰匙”
中新經緯9月25日電 9月25日,"網際網路之光"博覽會開幕.2021年世界網際網路大會烏鎮峰會在保留傳統特色論壇的基礎上,還聚焦於開源生態.下一代網際網路.資料與演算法等網路技術 ...

人喝下冰水可以減肥嗎?

人喝下冰水可以減肥嗎?
人喝下冰水可以減肥嗎? 人喝下冰水會把水加熱到體溫,而這一過程確實會消耗能量,不過靠這個方法來減肥不太現實.我們可以做一個簡單的計算. 1千克脂肪儲存有32231.1千焦的能量.假設冰水為0℃,而把1 ...

中國心血管病防治能力進步明顯
來源:人民網-人民日報海外版 本報北京電(記者熊建)日前,在中國心臟大會(CHC)2021暨第六屆中國血管大會(CVC)開幕式上,中國工程院院士.國家心血管病中心主任.中國醫學科學院阜外醫院院長.中國 ...

規制數字社會執行的“演算法”權力
作者:冀翠萍 數字社會中的人與人.人與物.物與物之間的關係與活動產生了大量的資料,如何應對資訊超載和海量資料的危機,"演算法"作為一種技術力量,成為必然選擇.以演算法推薦.演算法分 ...

建築安全節能檢測:紅外熱像儀在建築行業中的應用

建築安全節能檢測:紅外熱像儀在建築行業中的應用
目前,紅外熱像儀在國內部分建築行業已經開始使用,主要應用有: 建築安全檢測:建築滲漏檢測.白蟻防治.空鼓及外牆飾面貼上缺陷檢測.建築電氣檢測.建築節能檢測:節能材料檢測.建築密封性檢測.暖通系統檢測 ...

“四大金剛”遇上量子點,這款電競顯示器表現更全面

“四大金剛”遇上量子點,這款電競顯示器表現更全面
隨著玩家的要求越來越高,"四大金剛"(144Hz以上重新整理率.1440p解析度.IPS面板.G-SYNC/FreeSync)已經無法滿足高階玩家的使用需求.除了在電競功能上,玩家 ...

日產途樂4.0安裝丹麥ROTREX機械增壓,效能提高很多

日產途樂4.0安裝丹麥ROTREX機械增壓,效能提高很多
途樂和蘭德酷路澤一樣作為日系越野車型的最強代表作,越野效能已經不需要用冗餘的詞語修飾.擁有"沙漠之王"稱謂的它在越野圈裡無人不知.只是現款寬而大的車身雖然給予了足夠的乘坐舒適性,但 ...

Cell Metab:提高蛋白質合成準確性可延長有機體的壽命

Cell Metab:提高蛋白質合成準確性可延長有機體的壽命
在一項新的研究中,來自英國倫敦大學學院.倫敦醫學科學研究所和德國科隆大學等研究機構的研究人員發現提高蛋白質合成準確性的遺傳調整可以延長有機體的壽命.這一結果在三種物種---秀麗隱杆線蟲(Caenorh ...

乳腺癌:人工智慧提高腫瘤診斷的準確性
全世界每年約有 200 萬女性被診斷出患有乳腺癌.通常,採集並分析腫瘤的組織樣本,然後將癌症歸入三個類別之一--低風險或 1 級:中等風險,或 2 級:和高風險,或 3 級.然後專家會根據這個初步評估 ...

如何快速提高羽毛球水平

如何快速提高羽毛球水平
世上哪有長生不老藥.基礎沒法快速提高,都是笨功夫,無數個日日夜夜的無球.有球和多球訓練得來的. 水平高低表現出來區別就是能力和意識的結合,主要有以下幾點: 1.落點的準確性.無論是主動還是被動.身位和 ...

勞動力人口在下降,反而促使工資提高?專家:共同富裕有機會了

勞動力人口在下降,反而促使工資提高?專家:共同富裕有機會了
2021年6月23日召開的博智宏觀論壇月度研判會上,中國宏觀經濟學會副會長曹遠征表示,從過去十年總和生育率的變化看,中國勞動人口仍在下降之中,未來工資水平還會持續提高. 勞動力緊缺困境 現在我國勞動力 ...

家用機器人的 3.0 時代,科沃斯如何開啟?

家用機器人的 3.0 時代,科沃斯如何開啟?
"科沃斯開啟了家用服務機器人的 3.0 時代." 9 月 15 日,在一場主題為 "多維進化" 的科沃斯新品釋出會上,科沃斯 CEO 錢程如是說,他的話語中充滿 ...

DiLink 4.0體驗:車機流暢美觀 丹拿音響燒友狂喜

DiLink 4.0體驗:車機流暢美觀 丹拿音響燒友狂喜
如今,汽車的智慧互聯.智慧座艙等等功能已經成為汽車的主要競爭力之一,這也是如今一些消費者選購汽車考慮的一個重點.但想要做好這方面功能,其實並不簡單,如今許多品牌都在這方面有著很深的區域性,其中比亞迪就 ...

綜合電動車所有焦慮 比亞迪e平臺3.0一次性解決

綜合電動車所有焦慮 比亞迪e平臺3.0一次性解決
解決純電汽車的綜合焦慮,不是簡單的透過增加電池組提高續航里程即可,同時還要想辦法讓車輛抗凍.節約充電時間.確保安全可靠等,當然智慧互聯同樣不可或缺.或許正是工程師出身,加上對公司每款乘用車2-3個月的 ...

日產途樂Y62 4.0動力升級雙螺桿機械增壓 猛將再現 力壓群雄

日產途樂Y62 4.0動力升級雙螺桿機械增壓 猛將再現 力壓群雄
與許多SUV一樣,20款日產途樂新車經歷了明顯的城市化轉型,大大提高了鋪砌道路的駕駛舒適性,城市化方向更加直接.順暢.飽滿.日產途樂最令人印象深刻的是它龐大的車身.在保持該款SUV一貫的強悍風格的基礎 ...