您當(dāng)前的位置:檢測資訊 > 科研開發(fā)
嘉峪檢測網(wǎng) 2025-04-14 08:49
人工智能(AI)在理論上可以針對藥物發(fā)現(xiàn)的兩大痛點(diǎn):長周期和高投入。AI可以分析類藥分子的三維結(jié)構(gòu)來預(yù)測與靶點(diǎn)蛋白的匹配,也能評估藥物在體內(nèi)復(fù)雜環(huán)境下的表現(xiàn)。然而,盡管藥物發(fā)現(xiàn)階段產(chǎn)生的數(shù)據(jù)規(guī)模龐大,但缺少適配機(jī)器學(xué)習(xí)的數(shù)據(jù)收采集規(guī)范等一系列問題使得AI尚未深度賦能藥物發(fā)現(xiàn)。
大規(guī)模的高質(zhì)量生化數(shù)據(jù)是AI最終能改變藥物發(fā)現(xiàn)的前提。如何提高數(shù)據(jù)規(guī)范性,進(jìn)而提高AI訓(xùn)練質(zhì)量和最終表現(xiàn)?Nature雜志采訪了該領(lǐng)域的活躍研究人員,通過匯總其觀點(diǎn),形成具有實(shí)操性的四個(gè)潛在方向,發(fā)表在2月27日的outlook欄目文章《人工智能促進(jìn)藥物發(fā)現(xiàn)的四種方法》(Four ways to power-up AI for drug discovery)中。
規(guī)范數(shù)據(jù)記錄和實(shí)驗(yàn)方法(Standardize reporting and methods)
批次效應(yīng)(Batch Effect)描述了數(shù)據(jù)產(chǎn)生過程中非生物學(xué)因素(如運(yùn)行批次、操作人員)引入的變異。如果不對匯總數(shù)據(jù)進(jìn)行預(yù)處理,AI可能將批次效應(yīng)錯(cuò)誤識(shí)別為具有生物學(xué)意義。早期建立的大型數(shù)據(jù)庫(如生物活性分子數(shù)據(jù)庫ChEMBL)因此無法完全適配AI需求,不同來源的實(shí)驗(yàn)設(shè)計(jì)和設(shè)備差異,使數(shù)據(jù)難以直接用于比較分析。
制定規(guī)則約束實(shí)驗(yàn)開展和數(shù)據(jù)記錄被認(rèn)為是最佳方法之一,由此可以在產(chǎn)生數(shù)據(jù)前進(jìn)行質(zhì)量保證。同時(shí),在數(shù)據(jù)產(chǎn)生之后的數(shù)據(jù)集準(zhǔn)備環(huán)節(jié)也可以進(jìn)行約束。以下為實(shí)踐案例:
人類細(xì)胞圖譜計(jì)劃(Human Cell Atlas) :繪制了數(shù)百萬個(gè)人體細(xì)胞圖譜,采用嚴(yán)格標(biāo)準(zhǔn)統(tǒng)一實(shí)驗(yàn)流程;其高質(zhì)量的一致性細(xì)胞數(shù)據(jù)是篩選潛在藥物靶點(diǎn)的AI算法的理想素材。
數(shù)據(jù)集基準(zhǔn)測試平臺(tái)Polaris:提出數(shù)據(jù)集質(zhì)量檢查和報(bào)告規(guī)范的指導(dǎo)方針,明確要求創(chuàng)建者提供數(shù)據(jù)來源、生成方法及使用指導(dǎo),并由專家對公開數(shù)據(jù)集進(jìn)行審核和認(rèn)證,確保模型訓(xùn)練數(shù)據(jù)的可靠性。
認(rèn)識(shí)到陰性結(jié)果的價(jià)值(Recognize the value of negative results)
藥物發(fā)現(xiàn)的公開數(shù)據(jù),無論來源于實(shí)驗(yàn)室還是制藥公司,都是以陽性結(jié)果為主。當(dāng)用于訓(xùn)練AI的數(shù)據(jù)缺少反向樣本時(shí),AI獲得的知識(shí)以及提供的建議都會(huì)存在偏倚。比如當(dāng)AI基于已發(fā)表的結(jié)果推薦伯胺化合物用于新抗生素發(fā)現(xiàn)時(shí),對于現(xiàn)實(shí)中已積累大量未公布的失敗數(shù)據(jù)的研究人員來說,AI的建議就是空洞無效的。
將反向樣本(陰性結(jié)果數(shù)據(jù))納入AI訓(xùn)練的數(shù)據(jù)范圍是解決該問題的第一步:
Avoid-ome 項(xiàng)目:由美國衛(wèi)生高級研究計(jì)劃局(US Advanced Research Projects Agency for Health)資助、加州大學(xué)舊金山分校領(lǐng)導(dǎo),專注于構(gòu)建與ADME相關(guān)的蛋白質(zhì)結(jié)合實(shí)驗(yàn)和結(jié)構(gòu)數(shù)據(jù)集,明確標(biāo)注陰性結(jié)果,幫助AI模型識(shí)別藥物發(fā)現(xiàn)后期才會(huì)暴露的藥代動(dòng)力學(xué)缺陷。
共享行業(yè)數(shù)據(jù)和專業(yè)知識(shí)(Share industry data and expertise)
陰性數(shù)據(jù)的缺乏很大程度上來自利益相關(guān)的閉源策略。出于商業(yè)和競爭因素,制藥公司在藥物發(fā)現(xiàn)中所積累的大量高質(zhì)量數(shù)據(jù)并未完全公開。在諾華工作過的受訪者透露,諾華積累了數(shù)萬個(gè)化合物與受體蛋白結(jié)合的數(shù)據(jù),這將作為其信息資源而不便分享。
官方背景的合作計(jì)劃是促進(jìn)分享的一種方式。歐盟資助了名為Melloddy的項(xiàng)目,該項(xiàng)目采用聯(lián)合學(xué)習(xí)方法,允許十家公司合作訓(xùn)練模型,而不會(huì)向競爭對手泄露敏感信息。使用共享數(shù)據(jù)訓(xùn)練的AI模型能夠更準(zhǔn)確的預(yù)測給定分子的構(gòu)效關(guān)系。
但合作會(huì)再次引發(fā)數(shù)據(jù)規(guī)范的問題,在質(zhì)量上,不同公司來源的數(shù)據(jù)必然遜色于單一大型制藥企業(yè)內(nèi)部規(guī)范管理的數(shù)據(jù)。此外,為了保障合作中的隱私性而做的數(shù)據(jù)匿名化也會(huì)削弱數(shù)據(jù)豐富度。
因此,建立和維護(hù)統(tǒng)一管理的公共數(shù)據(jù)庫依然是當(dāng)前最可行的路徑。英國生物庫(UK Biobank)接受了來自政府和慈善機(jī)構(gòu)的超過5億英鎊的資助,為研究人員提供了超過50萬人的基因、生活史、健康信息的高質(zhì)量數(shù)據(jù)。2024年時(shí)任FDA局長Robert M. Califf回憶歐洲之行時(shí),專門肯定了英國生物庫對多來源數(shù)據(jù)的統(tǒng)一建設(shè)。因此部分研究者也提出,雖然大型制藥公司無法直接共享私有數(shù)據(jù),但可以資助公共數(shù)據(jù)庫來推進(jìn)相關(guān)領(lǐng)域研究。
歐洲剛剛啟動(dòng)的健康數(shù)據(jù)空間計(jì)劃范圍更廣,且貫徹“人人為我、我為人人”的理念,允許制藥公司共享共用,可能會(huì)成為AI藥物開發(fā)的數(shù)據(jù)寶庫。
物盡其用:歸納整理已有數(shù)據(jù)(Do more with what you have)
規(guī)范新增數(shù)據(jù)、納入陰性結(jié)果并提倡共享,以上方法覆蓋了“如何增加新的可用數(shù)據(jù)”;除此之外,已有的海量公共數(shù)據(jù)也有挖掘和清洗的價(jià)值。Insilico Medicine公司匯總了現(xiàn)有的文獻(xiàn)、出版物、臨床試驗(yàn)、專利數(shù)據(jù)以及其他數(shù)據(jù)庫,這些數(shù)據(jù)的產(chǎn)生消耗了美國政府?dāng)?shù)十億美金的撥款,將其適應(yīng)AI需求所作的努力依然是有價(jià)值的。
Insilico引入分?jǐn)?shù)來評估數(shù)據(jù)質(zhì)量,幫助算法權(quán)衡該數(shù)據(jù)的重要性和真實(shí)性。通過評分,AI能夠識(shí)別出學(xué)術(shù)造假史和股價(jià)下跌等不良因素對數(shù)據(jù)的影響。其藥物發(fā)現(xiàn)平臺(tái)PandaOmics于2019年底發(fā)現(xiàn)一個(gè)纖維化疾病相關(guān)靶點(diǎn),隨后其生成式AI平臺(tái)Chemistry42找到了阻斷該靶點(diǎn)的化合物,從靶點(diǎn)發(fā)現(xiàn)到候選藥物用時(shí)僅18個(gè)月,成為AI縮短研發(fā)周期的經(jīng)典案例。現(xiàn)有公共數(shù)據(jù)庫,如方向一中提到的ChEMBL,正是其訓(xùn)練相關(guān)AI算法的材料。
該公司CEO指出,盡管大型數(shù)據(jù)庫存在缺陷,但可以創(chuàng)建更小的高質(zhì)量數(shù)據(jù)集,在其訓(xùn)練基礎(chǔ)上進(jìn)行控制優(yōu)化。通過自動(dòng)化實(shí)驗(yàn)室產(chǎn)生標(biāo)準(zhǔn)化的特定數(shù)據(jù),即可盤活已經(jīng)投入巨大的歷史研究。
來源:識(shí)林