近期,上海科技大學(xué)信息科學(xué)與技術(shù)學(xué)院鄭杰課題組與合作者在《自然·通訊》(Nature Communications)發(fā)表了題為“Benchmarking Machine Learning Methods for Synthetic Lethality Prediction in Cancer”的研究論文。文章通過設(shè)計多個場景系統(tǒng)性比較了12種最新的機器學(xué)習(xí)方法在合成致死(Synthetic Lethality, SL)抗癌藥物靶點預(yù)測中的表現(xiàn)。該研究為科學(xué)家提供了詳盡的指南,幫助他們選擇最適合的SL預(yù)測工具,從而推動精準抗癌藥物的研發(fā)。
圖1 文章標題
合成致死(SL)是一種基因之間的遺傳相互作用關(guān)系,即當兩個基因同時發(fā)生突變或擾動時會導(dǎo)致細胞死亡,而單個基因被擾動并不會產(chǎn)生這一效果。這一特性使SL成為一種有潛力的癌癥治療策略,因為通過靶向癌癥特異性突變基因的合成致死伙伴基因,可以殺死癌細胞而不影響健康細胞的生存。盡管SL現(xiàn)象已經(jīng)被發(fā)現(xiàn)超過一個世紀,但其實際應(yīng)用仍然面臨挑戰(zhàn),尤其是在快速、精準地識別與癌癥相關(guān)的SL基因?qū)?SL gene pairs)方面。
為了加速實驗篩選并降低其成本,近年來,越來越多的研究人員應(yīng)用機器學(xué)習(xí)技術(shù)來預(yù)測SL基因?qū)Α_@些方法通過使用大量生物學(xué)數(shù)據(jù),快速篩選出潛在的SL相互作用關(guān)系,以縮小實驗驗證的范圍。然而,盡管已經(jīng)提出了多種機器學(xué)習(xí)模型和算法,它們在不同情境下的性能缺乏系統(tǒng)性評估,這給研究人員在實際應(yīng)用中選擇合適的人工智能工具帶來了困擾。
為填補這一空白,信息學(xué)院鄭杰團隊與合作者系統(tǒng)性地評估了12種最新的機器學(xué)習(xí)方法,涵蓋了從傳統(tǒng)機器學(xué)習(xí)到深度學(xué)習(xí)的多種算法。研究人員首先收集并建立了一個基準測試數(shù)據(jù)集,設(shè)計了多個不同的實驗場景,包括3種數(shù)據(jù)劃分方式,4種正負樣本比例和3種負樣本采樣方法,從而評估這些模型在多種場景組合下的分類和排序候選SL基因?qū)Φ哪芰?圖2)。通過對比各種模型,研究團隊發(fā)現(xiàn),數(shù)據(jù)質(zhì)量的提升,比如負樣本的優(yōu)化,對所有方法的表現(xiàn)均有顯著提升。
圖2 基準研究的數(shù)據(jù)集構(gòu)建以及場景設(shè)計
在所有評估的方法中,SLMGAE(SL prediction with Multi-view Graph Auto-Encoder)算法表現(xiàn)總體最佳。然而,當在面對更加復(fù)雜的實際應(yīng)用時這些方法均存在一定的局限性。特別是在“冷啟動”測試中——即當模型在從未見過的新數(shù)據(jù)集上進行測試時,所有方法的表現(xiàn)均有所下降。此外,對于特定癌癥背景下(例如細胞系特異性的SL預(yù)測任務(wù)),模型的預(yù)測準確度和泛化能力也有待進一步提升。
這些基準測試的結(jié)果不僅為科學(xué)家提供了選擇SL預(yù)測方法的實用指南,還揭示了當前機器學(xué)習(xí)方法在實際應(yīng)用中的瓶頸和不足。這為未來研究開發(fā)更加精準、可靠的SL基因?qū)︻A(yù)測工具提供了寶貴的參考,為合成致死抗癌藥物領(lǐng)域的研究人員提供了重要的數(shù)字資源和見解,從而有助于加速癌癥靶向治療的發(fā)展。
上海科技大學(xué)信息學(xué)院與臨港實驗室聯(lián)合培養(yǎng)的2022級博士研究生馮藝苗(鄭杰課題組)為該論文第一作者,新加坡科學(xué)技術(shù)研究局生物信息學(xué)研究所助理研究員龍亞輝,上海科技大學(xué)信息學(xué)院研究員李權(quán),信息學(xué)院兩位碩士研究生王鶴、歐陽陽(李權(quán)課題組)參與了本課題的研究。上海科技大學(xué)信息學(xué)院研究生毛偉帆、岳臻、陶思宇和楊揚為本工作的完成提供了幫助。上海科技大學(xué)圖信中心和寧夏西云算力科技有限公司為本工作提供了算力支持。該工作最初依托于CS286 (AI for Science & Engineering)的課程項目。新加坡科學(xué)技術(shù)研究局信息通訊研究所首席科學(xué)家吳敏和上海科技大學(xué)信息學(xué)院研究員鄭杰為論文共同通訊作者。上海科技大學(xué)為第一完成單位。