sponsored links

JCIM | Pharmacoprint:一款結合藥效團指紋和人工智慧的CADD工具

JCIM | Pharmacoprint:一款結合藥效團指紋和人工智慧的CADD工具

Pharmacoprin是一種高解析度的藥效團指紋,可對分子的呈現、型別和藥效團特徵之間的關係進行編碼。

背景介紹

目前,指紋已成為編碼化合物結構最流行的方式之一,在化學資訊學被廣泛應用於相似度搜索、聚類和分類等任務。分子指紋的基本思想是對分子應用一個函式來生成一個位向量或計數向量。

另一種化學資訊學尤其是虛擬篩選中常用的技術是藥效團模型。藥效團是與生物靶點相互作用,並觸發生物效應的分子的各種結構特徵的空間取向。藥效團過濾器,本身可以作為篩選的一部分,甚至可以作為一個獨立的工具。指紋也經常在機器學習方法中扮演輸入的角色;因此,建立一個廣泛描述化學結構藥效團特性的指紋圖譜,可極大擴充套件該方法的應用領域。

將指紋圖譜與藥效團模型相結合的做法並不新鮮。McGregor和Muskal等人使用10549位元的指紋來描述三點藥效團,Wood等人的四點藥效團將其擴充套件到超過30萬位元,應用起來非常耗時且消耗CPU。ChemAxon在軟體中引入了一種基於原子對的二維藥效團指紋,這個指紋被定義為所有原子-原子藥效團特徵對及拓撲距離的集合,然而該指紋無法被轉換成二進位制向量。儘管前人已建立了高解析度的表示,但該主題仍留有進一步探索的空間。

主要內容

在本研究中,來自波蘭科學院藥理學研究所的Rafał Kurczab等人提出了藥效團指紋(以下稱為Pharmacoprint)的概念和構建,以二進位制形式描述藥效團特徵。Pharmacoprint在分類實驗中使用ML演算法(邏輯迴歸、支援向量機、線性支援向量機和神經網路)進行了評估,其效能優於其他流行的分子指紋(如ECFP4、Estate、MACCS、PubChem、Substructure、klekotra - roth、CDK、Extended和GraphOnly)和ChemAxon藥效特徵指紋圖譜。Pharmacoprint由39973位元組成;採用多種方法進行降維,其中最優的演算法不僅縮短了位串長度,而且提高了ML測試的效率。最後,Pharmacoprint產生了具有明確氫原子的三維(3D)結構作為輸入檔案應用到神經網路中,並使用監督自動編碼器選擇最重要的位元,使得可以最大化Matthews相關係數,最高可達0.962。相關的研究成果以 “Pharmacoprint: A Combination of a Pharmacophore Fingerprint and Artificial Intelligence as a Tool for Computer-Aided Drug Design” 為題釋出在國際著名期刊Journal of Chemical Information and Modeling上。

Pharmacoprint考慮並評估了指紋作為ML實驗輸入資料的應用(圖1)。

JCIM | Pharmacoprint:一款結合藥效團指紋和人工智慧的CADD工具

圖 1. 本研究中所進行實驗的一般方案。圖片來源於JCIM

專案地址:

https://github.com/lstruski/Pharmacoprint

Pharmacoprint的工作流程

該演算法的主要作用是識別分子中的藥效團特徵,並確定以鍵為單位的拓撲距離測量的內部特徵距離。使用者可自定義特徵定義和距離倉。

JCIM | Pharmacoprint:一款結合藥效團指紋和人工智慧的CADD工具

圖2. Pharmacoprint生成方案,其中兩個特徵,兩點和三點藥效團,和兩個距離倉定義一個38位元指紋。圖片來自JCIM

為了說明演算法是如何工作的,研究者假設只有兩個藥效團特徵(圖2中的A和B),兩個或三個特徵的所有可能組合,以及兩個距離倉(兩個或更少的鍵和兩個以上的鍵)。兩種藥效團特徵(A和B)可以組合成三對(AA、AB和BB)和四對三聯(AAA、AAB、ABB和BBB)。特徵對之間的距離可以認為是在第一個倉內(兩個或更少的鍵;bin “0”)或第二個倉內(兩個以上鍵;bin “1”),這意味著一個單一的兩點藥效團是由兩個位元來描述的。三點藥效團由8位元描述,因為三個內部距離,可以在第一或第二距離倉,可以產生8種可能的解決方案。這種表示的整個指紋由38位元組成。

在本研究中,為了測試Pharmacoprint的效能,研究者人員進行了以下設定:採用Gobbi和Poppinger最初列出的8種藥效團特徵型別(氫鍵受體、氫鍵供體、鹼性基團、酸性基團、疏水基團、鹵素、脂肪環和芳香環的連線點)和七個距離倉[(<1,3), (<3,4), (<4,5), (<5,6), (<6,7), (<7,8), (<8,100),以鍵為單位度量所有距離]。8個藥效團特徵、7個距離倉和所有的2點和3點藥效團的組合,共產生了39973位元的指紋。

JCIM | Pharmacoprint:一款結合藥效團指紋和人工智慧的CADD工具

表1. 本研究中所使用的受體列表,以及ZINC中的活性資料和化合物的數量。圖片來自JCIM

指紋比較

研究者比較了不同分子指紋圖譜和藥物學指紋圖譜的效率。使用了兩種非活性物質(ChEMBL的真正非活性物質和ZINC的假定非活性物質)。Pharmacoprint是透過以下設定生成的:無約簡演算法(所有39973位元指紋全部使用) ,生成氫原子位置確定的三維表徵。所有計算均使用三種ML方法(SVM、LSVM和LR)進行。

JCIM | Pharmacoprint:一款結合藥效團指紋和人工智慧的CADD工具

圖3. 本研究分析的所有指紋圖譜的MCC值箱圖。圖片來自JCIM

結果(圖3)顯示,Pharmacoprint在真假陽性化合物分類方面優於所有測試指紋。Pharmacoprint的中位MCC(Matthews相關係數,範圍為-1~1)和平均MCC均最高(分別為0.766和0.736);然而,ECFP4和FCFP4的結果相似(ECFP4的中位MCC = 0.754,平均MCC = 0.729, FCFP4的中位MCC = 0.749,平均MCC = 0.722)。Pharmacoprint的效能與廣泛使用的KRFP、ECFP4和FCFP4具有可比性(KRFP和Pharmacoprint的中位MCC為0.980,FCFP4為0.981,ECFP4為0.983)。

Pharmacoprint與ChemAxon PF fp比較(分別針對靶點和ML方法),結果顯示出了Pharmacoprint的優勢,45例中有37例MCC值較高。

JCIM | Pharmacoprint:一款結合藥效團指紋和人工智慧的CADD工具

表2. 比較Pharmacoprint和ChemAxon PF fpa的MCC值(3種ML方法和15種不同靶點計算)的差異。圖片來自JCIM

所有結果在p = 0.05的顯著性水平下,經Friedman檢驗進行了統計學分析。結果證明,ECFP4和FCFP4與Pharmacoprint的差異在統計學上並不顯著。Pharmacoprint與其他三種結構指紋圖譜(Ext、FP、KRFP)的差異也無統計學意義,但在等級上差異較大。六個剩餘的指紋圖譜,已證明在統計上比Pharmacoprint差。

輸入分子表示的影響

隨後的實驗只進行了Pharmacoprint表示,沒有用無約簡演算法來闡明化學結構,結果(圖4)表明在Pharmacoprint生成前,不管應用何種ML方法,適當準備化學結構是獲得高質量結果的關鍵。因此,為了保證結果的最高質量,化合物應制備為具有明確氫原子位置的三維結構。而在Pharmacoprint中,當藥效團特徵的數量增加2倍時,位元數就會增加10倍。這樣的分子會引入很多噪音。當化合物從2D轉換為3D時,觀察到結果的質量得以提升,從而確保了高分子量化合物的消除。因此,為了獲得高質量的結果,自動截斷是必須的步驟,但轉換為3D資料本身並不是必須的。綜上所述,初始資料準備是耗時的;然而,必須最大限度地利用這些資料,來建立機器學習預測模型的統計引數。

JCIM | Pharmacoprint:一款結合藥效團指紋和人工智慧的CADD工具

圖 4. 在三種不同的機器學習方法的分類實驗中獲得的輸入分子的不同表示的平均MCC值(15個不同的生物靶點計算)。圖片來源於JCIM

靶點依賴性

在分析不同靶點的結果時(圖5),可以發現無論採用哪種ML/約簡演算法組合,一些靶點的結果都優於其他靶點的結果。特別是,對活性化合物數量最多的生物靶點(如delta阿片類受體或5-羥色胺-HT6受體)的檢測結果較好。NMDA和NPC1受體的活性成分相對較少,結果最差。

JCIM | Pharmacoprint:一款結合藥效團指紋和人工智慧的CADD工具

圖 5. 透過不同的機器學習方法和約簡演算法獲得不同生物靶點的MCC值。圖片來源於JCIM

然而,HIV整合酶抑制劑卻沒有觀察到類似的結果,儘管和較差靶標的活性化合物的數量相似,但建立的分類模型卻非常有效 (MCC值達到了0.962,這是本研究中所實現的最大值)。與HIV整合酶抑制劑相比,在NPC1活性和非活性之間觀察到更高的內部差異,但在這種情況下,不良結果是由於活性和非活性之間的數量失衡(約1:161)。

以上結果表明,採用監督式自動編碼器對指紋進行約簡是最佳的方法;對於大多數靶點,該方法獲得的MCC值最高,與神經網路結合尤其有效。

JCIM | Pharmacoprint:一款結合藥效團指紋和人工智慧的CADD工具

圖 6. 本研究分析的所有5-HT1AR活性化合物中活性最好的化合物ChEMBL42393的結構以及相似性搜尋的每個指紋型別中最相似的三個化合物。圖片來源於JCIM

結論總結

本文介紹了一種描述化合物結構中藥效團特徵呈現的指紋圖譜。Pharmacoprint是最長指紋之一;在一定設定下生成的完整指紋由39973位元組成,但這是很容易縮減的。當作為ML方法的輸入時,這種表示優於其他11種常用的分子指紋中的9種,並在分離真正的活性和非活性上返回與ECFP4和FCFP4相似的結果。

如果Pharmacoprint是由定義了氫原子的3D輸入結構生成的,並將其作為具有監督自動編碼器功能的神經網路的訓練資料,則在分類測試中可以獲得高達0.962的MCC值。

參考文獻

Dawid Warszycki, Łukasz Struski, Marek Śmieja, Rafał Kafel, and Rafał Kurczab, Pharmacoprint: A Combination of a Pharmacophore Fingerprint and Artificial Intelligence as a Tool for Computer-Aided Drug Design, Journal of Chemical Information and Modeling Article ASAP. DOI: 10.1021/acs.jcim.1c00589.

中大唯信頭條號與中大唯信公眾號、唯信計算訂閱號均由中大唯信科技有限公司運營,歡迎關注轉發,未經授權禁止轉載

分類: 時尚
時間: 2021-10-26

相關文章

楊紫張晚意合作,張智霖靚靚各玩各?江疏影鞠婧禕,李維嘉拜佛?

楊紫張晚意合作,張智霖靚靚各玩各?江疏影鞠婧禕,李維嘉拜佛?
說說楊紫? 原本她和張晚意要合作古裝劇<長相思>,只是這部劇兩人都不太喜歡劇本,先後推推掉了邀約.現在<長相思>這部劇可能會降級找一些不太出名的網劇小演員拍攝. 說說江疏影? ...

掃黑風暴女演員顏值對比:徐英子清純可愛,江疏影卻遭網友吐槽

掃黑風暴女演員顏值對比:徐英子清純可愛,江疏影卻遭網友吐槽
<掃黑風暴>太值得了,孫紅雷.王志飛的演技太令人驚喜了,劇情跌宕起伏,處處有反轉.不僅男演員的演技好,女演員的表演也是可圈可點! 情節設計極其巧妙,女角色一個比一個令人驚歎,薛梅被暗sha ...

“清冷女神”江疏影的人生故事,和她背後的7個男人

“清冷女神”江疏影的人生故事,和她背後的7個男人
提到江疏影,大家肯定會想起她清冷的容貌和窈窕的身材,作為顏值很高的85後小花,江疏影自從出道以來就備受關注. 不過,江疏影也面臨了困境--戲紅人不紅,直到現在,江疏影離大火還差一段距離,或許這就是所謂 ...

江疏影的“坎坷情史”:情斷胡歌,被嘲演技差,她該怨誰呢?

江疏影的“坎坷情史”:情斷胡歌,被嘲演技差,她該怨誰呢?
剛播完不久的<掃黑風暴>裡,江疏影飾演的女記者又被"狙擊"了. 不少觀眾看完之後的第一感受就是:作為女一號,江疏影的演技又"拉胯"了. 和男演員王志 ...

江疏影簡單又時髦的高顏值髮型

江疏影簡單又時髦的高顏值髮型
江疏影穿打底衫拍大片 造型淳樸氣質高階 江疏影唯美氣質美照

35歲的江疏影身材纖瘦,常年體重96斤,表示減肥需做到三點

35歲的江疏影身材纖瘦,常年體重96斤,表示減肥需做到三點
導語:"汗水會讓你感覺每天都是真實存在的,而不是虛無" 新時期,新觀念,減肥成為當下經久不衰的話題之一.各種減肥方法.減肥技巧甚至是減肥產品層出不窮,全民減肥時代已經到來. 公眾人 ...

江疏影難得粉嫩一回,看到下半身我無語,這腿是真實存在的嗎?

江疏影難得粉嫩一回,看到下半身我無語,這腿是真實存在的嗎?
江疏影可貴粉嫩一回,看到下半身我無語,這腿是實在存在的嗎?不論太胖或是太瘦,實在在前衛圈內部都不是分外的吃香,大概會臨時間惹起非常多人留意,但是不是恆久的美.身段相對好的女生偶然候搭配的有點小失誤也會 ...

江疏影真絕了,片場穿西裝喇叭褲腿長1米8,比男一號彭昱暢高半頭

江疏影真絕了,片場穿西裝喇叭褲腿長1米8,比男一號彭昱暢高半頭
當下的西裝絕不能用異樣的眼光去看待它,隨著潮流的發展,款式還有穿衣方式的更替,也是讓西裝增色了不少,不過傳統西裝的上身率也是居高不下,畢竟款式駕馭難度低,在襯托氣質方面也是高得離譜,很受大家的喜歡. ...

《三十而已》江疏影無齡感穿搭,簡約精緻盡顯氣質,超適合普通人

《三十而已》江疏影無齡感穿搭,簡約精緻盡顯氣質,超適合普通人
哈嘍大家好!說到最近熱播的電視劇莫過於<三十而已>和<二十不惑>,兩部電視劇透過三個30+的女人與20+的女孩身上發生的故事,但是更多的人會更喜歡<三十而已>,因為 ...

江疏影和楊採鈺同穿一字肩的服裝,看不出年紀差,美的迷人

江疏影和楊採鈺同穿一字肩的服裝,看不出年紀差,美的迷人
服裝被設計成露肩的款式的時候,看著要比露腿的款式更加的性感,而且還不需要選擇太性感的款式,所以露肩的服裝一般都挺受歡迎的. 露肩的設計也很多,吊帶的時候,背心的設計,抹胸的設計還有一字肩的設計,能展示 ...

江疏影工作拍攝花絮 美麗又認真

江疏影工作拍攝花絮 美麗又認真
江疏影在工作時的花絮照流出,讓人看了覺得連花絮照都這麼養眼,正片更是期待了起來! 照片中江疏影著紅色露肩紗裙或白色簡潔襯衫,大方露出白皙天鵝頸,手持玫瑰,風情萬種!

夏星出演《奪金》獲好評,曾是乒乓球運動員,還撞臉了江疏影

夏星出演《奪金》獲好評,曾是乒乓球運動員,還撞臉了江疏影
由張逗逗.夏星領銜主演的乒乓題材劇電視劇<奪金>正在央視八套熱播.該劇講述了20世紀60年代,窮學生劉爭光懷揣乒乓夢想,透過自身的不懈努力一路打進國家隊,並在國際賽場上為國爭光的故事. 電 ...

江疏影真厲害,穿“例假衫”還不夠還要挑戰“例假裙”,時髦炸了

江疏影真厲害,穿“例假衫”還不夠還要挑戰“例假裙”,時髦炸了
說到江疏影,信賴朋友們非常的諳習了,已經是得上戲校花,不但長得甜蜜,借鑑也好從,而獲取非常多人的鐘情.實在江疏影除了學霸身份以外,她另有一個隱形身份那即是前衛博主.她不但對前衛風向有非常好的把控,還敢 ...

鬥羅:馬紅俊新形象火了,變瘦後帥到不敢認,難怪他敢輕薄波塞西

鬥羅:馬紅俊新形象火了,變瘦後帥到不敢認,難怪他敢輕薄波塞西
<斗羅大陸>是一部很經典的動漫,不管是音樂還是特效都做的非常棒,除了主角唐三外,馬紅俊也給觀眾留下了深刻印象,馬紅俊是史萊克七怪之一,為了更好的提升自身實力,他就跟唐三等人一起去海神島參加 ...

古天樂因眼傷一年不能曬燈美黑,面板加速變白,帥到不敢認

古天樂因眼傷一年不能曬燈美黑,面板加速變白,帥到不敢認
<神鵰俠侶>大家應該都看過吧,雖然大多數人對於神仙姐姐劉亦菲那一版本的比較熟悉點,但是古天樂與李若彤那一版本也是很多人的童年回憶.因為經典,它才會被拍這麼多版本,現在還有一個新的版本沒有上 ...

王鷗衣品太絕了,玩“四重疊穿”也不顯累贅,反而高階又有範

王鷗衣品太絕了,玩“四重疊穿”也不顯累贅,反而高階又有範
格紋西裝配白褲子,下搭一雙棕色高筒靴,很有復古感瀟灑帥氣.講真在很多顏色的褲子當中,白色是大家認為比較難駕馭的,尤其是和靴子搭配,更是考驗時尚審美度,不過王鷗也做了很好的示範,現在給大家簡單總結一下. ...

劉芸的少女感是穿出來的,寬鬆T恤也要塞衣角,配老爹褲瀟灑顯高

劉芸的少女感是穿出來的,寬鬆T恤也要塞衣角,配老爹褲瀟灑顯高
#今天穿什麼##明星教你怎麼穿##潮流風格穿搭# 有時候我們不經意間的風格轉變,就能在穿衣打扮上有新的突破,美得與眾不同,甚至小細節上改變也能帶來預想不到的效果. 比如我們日常穿衣服把衣角塞一下,整體 ...

至今未婚的5位大齡男星:不是我不帥,而是她不愛

至今未婚的5位大齡男星:不是我不帥,而是她不愛
不要眼睜睜聽他們說瞎話:結不結婚我一樣過. 婚姻對於男明星的需求不亞於女明星. 而那些隱婚的人始終是一個未解的謎. 01 胡兵,1971年出生於浙江杭州,50歲. 身材高大的他,其實也是一名運動員的絕 ...