人工智能,助力化學(xué)家漫游藥物“宇宙”
機器學(xué)習(xí)和大數(shù)據(jù)幫助化學(xué)家在浩瀚的化學(xué)藥品宇宙中尋找更好的藥物
在2016年,Sunovion制藥公司交給一些老員工一項特殊任務(wù)。在美國馬薩諸塞州的公司總部,化學(xué)家們被要求進行一項尋找新藥最佳先導(dǎo)化合物的游戲。在他們的工作站中有包括幾百種化學(xué)結(jié)構(gòu)的網(wǎng)格,其中只有十種標(biāo)有相關(guān)生物學(xué)信息。專家們必須基于他們辛苦學(xué)到的化學(xué)結(jié)構(gòu)及生物知識來選出其他可能作為候選藥物的分子。在11位選手中,10位為這項任務(wù)冥思苦想了數(shù)小時,但剩下的一名選手卻在幾毫秒內(nèi)就輕松完成,因為這名選手是一種計算機算法。
系外行星Ross128b繞一顆低溫矮星運行,它的表面可能存在液態(tài)水。圖片來源:Vasava
這一計算機程序由WillemvanHoorn創(chuàng)造,他是利用人工智能設(shè)計藥物的新公司Exscientia的化學(xué)信息學(xué)負責(zé)人。這一公司位于英國鄧迪,希望能與Sunovion建立初步合作關(guān)系,為此下了很高的賭注。我的信譽危在旦夕。Hoorn表示。二十輪游戲結(jié)束后,他高分勝出,也終于松了一口氣。他的算法似乎是運用了一些化學(xué)黑魔法;因為最后僅有一位藥物發(fā)現(xiàn)專家擊敗了機器。
從那時起,Exscientia公司便和Sunovion繼續(xù)合作開發(fā)精神病治療藥物。Sunovion的計算化學(xué)主管ScottBrown表示:這場競賽的確幫助我們拉攏了化學(xué)研究決策者。
Exscientia公司是工業(yè)和學(xué)術(shù)界中與日俱增的、利用計算機探索廣闊化學(xué)藥品宇宙的眾多團隊之一;瘜W(xué)家們估計約有10^60種具有藥物特性的化合物能夠被合成,這些小分子的數(shù)目甚至超過了太陽系所有原子的總數(shù)。他們希望通過計算機算法對無數(shù)的化合物進行登記、分類并比較其特性,從而幫助研究者快速、低成本地找到針對某一靶點的最佳候選藥物。支持者們表示這樣的策略能夠使藥物更安全,減少在臨床實驗中失敗的藥物數(shù)量,同時使得新治療方法的發(fā)現(xiàn)成為可能。此外還有助于開啟未探索過以及曾被認(rèn)為無價值的化學(xué)領(lǐng)域。
然而仍有許多藥物化學(xué)家對此持懷疑態(tài)度,不相信奇妙、復(fù)雜的化學(xué)能夠簡單縮減為幾行代碼。甚至某些人工智能的擁護者也承認(rèn)許多嘗試都以失敗告終:計算機生成的化合物中充斥著難以合成的結(jié)構(gòu),如3-或4-原子環(huán),KUKA機器人維修,同時還有許多不安全的活性基團。vanHoorn認(rèn)為:如果研究者不了解該領(lǐng)域,只是簡單執(zhí)行某些計算方法會產(chǎn)生失敗結(jié)果,他們想出的化合物純屬笑話。但他也表示專業(yè)人員的參與或許能夠幫助這些熱心的設(shè)計者。我覺得如果計算機科學(xué)家與真正的化學(xué)家合作,某些想法是能夠?qū)崿F(xiàn)的。
探索化學(xué)宇宙
在化合物的宇宙中航行需要有地圖的幫助。在2001年,瑞士伯爾尼大學(xué)的化學(xué)家Jean-LouisReymond開始利用計算機來繪制一幅盡可能全面的化學(xué)宇宙地圖。經(jīng)過16年努力,他構(gòu)建出世界上最大的小分子數(shù)據(jù)庫,即一個包含1660億種化合物的龐大虛擬集合。這一數(shù)據(jù)庫被命名為GDB-17,包括全部符合化學(xué)原理的、由少于17個原子構(gòu)成的有機分子,這一數(shù)目是Reymond的計算機能夠處理的上限。Reymond表示:僅僅是用計算機形成數(shù)據(jù)庫中化合物的清單就需要10個小時以上。
為了理清過剩的潛在藥物原始信息,Reymond想出了一種使化合物宇宙系統(tǒng)化的辦法。受元素周期表的啟發(fā),他將各化合物在多維空間內(nèi)分類,相鄰化合物具有相近特性。各化合物的位置由42種特性來決定,例如每種化合物中所含的碳原子數(shù)。
每種投放到市場中的藥物都有成千上萬種與其化學(xué)結(jié)構(gòu)基本相同的化合物,其差別僅僅在于一個氫原子或一個雙鍵。這其中某些化合物可能比獲批的藥物效果更好;瘜W(xué)家不可能在沒有外界幫助的情況下考慮到所有這些變體。正如Reymond所言:僅用紙筆絕不可能得到所有這些異構(gòu)體。
而Reymond和他的團隊能夠通過搜索化合物之間相似性,來鑒定與已批準(zhǔn)藥物相近、有潛在治療價值的其他化合物。以某種藥物作為出發(fā)點,團隊能夠在三分鐘內(nèi)篩選數(shù)據(jù)庫中的1660億種化合物來尋找后續(xù)候選藥物。在一次概念驗證實驗中,Reymond以一種能與乙酰膽堿受體(與神經(jīng)系統(tǒng)和肌肉功能失調(diào)相關(guān)的重要靶點)結(jié)合的已知分子為出發(fā)點,編制出包括344種化合物的名單。該團隊合成了其中三種化合物,并且發(fā)現(xiàn)兩種能夠有效激活受體,或許能夠用于治療老年人肌肉萎縮。Reymond表示這種方法像是利用地圖來找金子,他說:你需要某種方式來選擇去哪里挖。
另外一種方式用計算機在多個位置尋找金子,而不必太在意起點。用藥物發(fā)現(xiàn)的專業(yè)術(shù)語來說,這意味著用計算機篩選龐大的化合物庫來尋找能與特定蛋白結(jié)合的小分子。首先,研究者必須利用X射線晶體學(xué)獲得某個蛋白的快照,來決定它結(jié)合位點的形狀。然后,利用分子對接算法,計算化學(xué)家能夠從化合物庫中尋找出給定位點的最佳匹配。
隨著計算機技術(shù)飛速發(fā)展,這些算法的能力也得到了提升。加州大學(xué)舊金山分校的化學(xué)家們在BrianShoichet的帶領(lǐng)下在2016年通過尋找一種新型止痛藥展現(xiàn)了這種方法的潛力。該團隊從300萬種市場上買得到的化合物中篩選能夠選擇性激活μ-阿片受體信號通路的候選藥物,以此來減輕疼痛同時不擾亂密切相關(guān)的β-抑制蛋白信號通路,該通路與阿片類藥物的副作用(如呼吸頻率下降及便秘)相關(guān)。研究者們迅速將范圍從一個巨大的化合物庫縮小到僅有23種高排名的化合物用于后續(xù)研究。
化學(xué)藥物宇宙圖片來源:nature
在一個試管中,七種候選化合物顯示出理想的活性。其中一種在后續(xù)研究中被制成化合物PZM21,能夠作用于μ-阿片受體而不激活β-抑制蛋白。位于舊金山、由Shoichet共同創(chuàng)立的生物科技公司Epiodyne正在根據(jù)這些發(fā)現(xiàn)開發(fā)更安全的止痛藥。Shoichet計劃利用同樣的方法尋找能夠調(diào)節(jié)其他G蛋白偶聯(lián)受體(GPCRs)的化合物,該家族的蛋白在所有藥物靶點中占到40%。
他的團隊同時對含有一億種化合物的虛擬星云進行相似的實驗,這些化合物從未被合成但其合成過程應(yīng)該較簡單。工業(yè)藥物開發(fā)者也在用同樣的方法進行測試:位于馬薩諸塞州的生物科技公司NimbusTherapeutics將一些存在于自然界卻難以從環(huán)境(如土壤)中分離的虛擬化合物納入對接篩選。是否能夠發(fā)現(xiàn)藥物還沒有定論,但該公司的首席執(zhí)行官DonNicholson針對至少一項藥物設(shè)計程序表示:這將是我們?nèi)科ヅ渌幬锏膩碓础?/p>
這些虛擬篩選的初步結(jié)果動搖了Shoichet對于化學(xué)藥物宇宙的核心假設(shè)之一:只有完善的、藥物豐富的區(qū)域才是值得關(guān)注的。已劃分的分子星系充斥著有生物活性的化合物,以至于一些人認(rèn)為在其他地方尋找是浪費時間。在我的職業(yè)生涯中我始終相信推理過程,這么做是有道理的,盡管可能沒有很多證據(jù)來證明。Shoichet表示。然而他尚未發(fā)表的、對一億種化合物的篩選結(jié)果引起了他對化學(xué)藥物宇宙中很少被探索區(qū)域的興趣。我開始認(rèn)為那些星系中藏滿了金子。
計算機的智慧