隨著生物測序技術(shù)突破,全球天然基因庫已積累數(shù)十億量級序列,其中蘊(yùn)藏海量高價值功能基因。然而,當(dāng)前僅有少數(shù)明星基因被深度挖掘,絕大多數(shù)仍處于“沉睡”狀態(tài)。如何突破傳統(tǒng)注釋與建模局限,利用AI等手段激活“基因?qū)殠臁?,正成為合成生物學(xué)與生物制造領(lǐng)域的關(guān)鍵挑戰(zhàn)。
4月9日,中國科學(xué)院深圳先進(jìn)技術(shù)研究院定量合成生物學(xué)全國重點(diǎn)實(shí)驗(yàn)室、合成生物學(xué)研究所婁春波團(tuán)隊(duì)與北京大學(xué)定量生物學(xué)中心錢瓏團(tuán)隊(duì)合作在國際學(xué)術(shù)期刊Science Advances上發(fā)表題為"Discovery of Diverse and High-quality mRNA Capping Enzymes through a Language Model-enabled Platform"的研究論文,報(bào)道了全球首個面向合成生物學(xué)元件挖掘與生物制造應(yīng)用的大語言模型——"SYMPLEX",并將SYMPLEX模型應(yīng)用于mRNA加帽酶基因的挖掘,展示了大語言模型賦能生物制造的巨大潛力。
該模型通過融合領(lǐng)域大語言模型訓(xùn)練、合成生物專家知識對齊和大規(guī)模生物信息分析,實(shí)現(xiàn)了從海量文獻(xiàn)中自動化挖掘功能基因元件,并精準(zhǔn)評估其工程化應(yīng)用潛力。研究團(tuán)隊(duì)將SYMPLEX應(yīng)用于mRNA疫苗生物制造關(guān)鍵酶——加帽酶的挖掘,成功獲得多種高性能新型加帽酶。第三方公司實(shí)驗(yàn)驗(yàn)證顯示,這些酶在催化效率上超越國際頭部企業(yè)New England Biolabs(NEB)商業(yè)化加帽酶2倍以上,顯著提升了mRNA疫苗生產(chǎn)率和成本效益。此項(xiàng)成果不僅為合成生物學(xué)元件設(shè)計(jì)提供了AI驅(qū)動的新范式,更展現(xiàn)了大語言模型等人工智能技術(shù)在生物制造中的廣闊應(yīng)用前景。
?
■ 破局傳統(tǒng):功能基因深度挖掘的大語言模型
天然生物基因組蘊(yùn)藏著海量功能基因,這些基因在進(jìn)化過程中不斷優(yōu)化,形成了多樣化的序列空間和復(fù)雜精巧的功能活性,賦予生物體適應(yīng)復(fù)雜環(huán)境的獨(dú)特優(yōu)勢。隨著高通量測序技術(shù)的發(fā)展,全球生物序列數(shù)據(jù)庫已突破數(shù)十億規(guī)模,為生物制造和合成生物學(xué)提供了前所未有的基因元件資源庫。然而,盡管這些天然基因蘊(yùn)含著巨大的應(yīng)用潛力,目前僅有少數(shù)明星基因(如基因編輯工具酶)得到了系統(tǒng)的注釋和結(jié)構(gòu)解析。這種研究的不均衡導(dǎo)致現(xiàn)有基于序列、結(jié)構(gòu)或深度學(xué)習(xí)的基因挖掘技術(shù)和蛋白質(zhì)設(shè)計(jì)方法難以應(yīng)用于更復(fù)雜的基因系統(tǒng),嚴(yán)重制約了高價值功能基因的開發(fā)與利用。
針對上述問題,研究團(tuán)隊(duì)創(chuàng)造性地將大型語言模型(LLM)與結(jié)構(gòu)化生物知識庫深度融合,開發(fā)出SYMPLEX智能基因挖掘平臺(圖1)。SYMPLEX是強(qiáng)大的功能基因搜索引擎,通過自動化閱讀和理解千萬級體量的生物學(xué)文獻(xiàn),在基因、功能和知識水平上提取分析文獻(xiàn)內(nèi)容,并與專家數(shù)據(jù)庫進(jìn)行概念對齊、交互和基于先進(jìn)生物信息技術(shù)的統(tǒng)計(jì)模式生成,從而提供證據(jù)鏈完整的高質(zhì)量候選基因集合。SYMPLEX不僅有效規(guī)避了大語言模型幻覺,還能自動生成基因功能相關(guān)的細(xì)粒度知識樹,引導(dǎo)科學(xué)家探索廣泛的生物機(jī)制和分子過程(圖1)。
對比結(jié)果表明,SYMPLEX大模型在挖掘基因的深度、數(shù)量和多樣性上均顯著優(yōu)于傳統(tǒng)生物信息學(xué)方法,其挖掘的基因多樣性也超越了現(xiàn)有蛋白質(zhì)功能預(yù)測模型的邊界(圖2)。
■ 應(yīng)用案例:解鎖mRNA疫苗高效生產(chǎn)的蛋白質(zhì)密碼
近年來,mRNA疫苗以其高效、可快速開發(fā)等特點(diǎn)在全球抗疫中發(fā)揮了關(guān)鍵作用。然而,mRNA疫苗背后的一項(xiàng)關(guān)鍵工藝——mRNA 5’端加帽(capping),卻因其效率較低、成本高昂成為“卡脖子”環(huán)節(jié)。加帽過程對穩(wěn)定mRNA、促進(jìn)翻譯和減少免疫反應(yīng)至關(guān)重要,而目前mRNA疫苗生產(chǎn)工藝中使用的仍是傳統(tǒng)的痘病毒雙蛋白(Vaccinia D1/D12)加帽酶,選擇有限且價格昂貴。
研究團(tuán)隊(duì)利用SYMPLEX大規(guī)模挖掘mRNA加帽酶,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。SYMPLEX通過批量處理生物學(xué)文獻(xiàn)和生物信息分析,識別出16,685個與 mRNA 加帽相關(guān)的基因,并進(jìn)一步篩選出75類(18,779 條序列)高置信度的完整加帽酶基因。經(jīng)過46種候選基因?qū)崪y,研究團(tuán)隊(duì)獲得了14種可在哺乳動物和酵母細(xì)胞中穩(wěn)定發(fā)揮作用的加帽酶,其中2種新型加帽酶的體外活性比商業(yè)化痘病毒加帽酶高出兩倍(圖3)。值得一提的是,本研究挖掘的新型加帽酶與已知加帽酶的序列相似性低于20%,且編碼序列長度縮減30%,有望為mRNA疫苗和基于mRNA的基因療法研究提供關(guān)鍵使能技術(shù)支持。
此外,SYMPLEX的挖掘還揭示了加帽酶在自然界中多樣的構(gòu)型與進(jìn)化策略。研究發(fā)現(xiàn),加帽酶TPase功能域的桶狀外圍結(jié)構(gòu)具有保守與可設(shè)計(jì)區(qū)間,而MTase功能域則存在新的酶活中心模體。這些發(fā)現(xiàn)表明,SYMPLEX不僅能助力于理解生物過程的多樣化策略,還可為酶的理性工程優(yōu)化或生成式蛋白設(shè)計(jì)提供高質(zhì)量數(shù)據(jù)集。
?
■ 平臺賦能:合成生物制造的“智能基座”
目前,SYMPLEX在線交互式平臺已上線供研究人員免費(fèi)使用(https://bdainformatics.org/page?type=SYMPLEX)(圖4)。平臺采用模塊化設(shè)計(jì),提供三個核心功能:
(1)文獻(xiàn)智能提取引擎PubEngine:支持高通量的文獻(xiàn)智能檢索分析與可視化交互;
(2)基因功能標(biāo)注系統(tǒng)GeneTagger:實(shí)現(xiàn)從分子機(jī)制到生物過程的細(xì)粒度自動化基因與功能提取;
(3)標(biāo)準(zhǔn)化知識中樞GeneNorm:實(shí)現(xiàn)與專家知識庫的概念對齊與標(biāo)準(zhǔn)化,支持知識樹構(gòu)建和功能模式識別。
各模塊既可無縫協(xié)同實(shí)現(xiàn)高效數(shù)據(jù)流轉(zhuǎn),又能獨(dú)立運(yùn)行,以加速功能基因挖掘以及蛋白質(zhì)設(shè)計(jì)。平臺現(xiàn)有注冊用戶200余人,2024年訪問量達(dá)6000余次。
本項(xiàng)研究開創(chuàng)了功能基因深度挖掘的新范式,利用大語言模型高效推動生物知識轉(zhuǎn)化,為mRNA疫苗規(guī)?;a(chǎn)提供了關(guān)鍵酶資源庫。研究團(tuán)隊(duì)正利用SYMPLEX挖掘更多可用于生物制造和合成生物學(xué)的關(guān)鍵酶元件,并將該平臺拓展至合成通路設(shè)計(jì)等領(lǐng)域,有望推動生物制造進(jìn)入“AI for Science”新紀(jì)元。
北京大學(xué)研究員錢瓏、中國科學(xué)院深圳先進(jìn)技術(shù)研究院研究員婁春波為本文共同通訊作者。北京大學(xué)博士研究生王天澤、覃博文、厲思宏,中國科學(xué)院深圳先進(jìn)技術(shù)研究院博士研究生王子陌為共同第一作者。本研究獲得了浙江大學(xué)歐陽頎教授團(tuán)隊(duì)和北京遠(yuǎn)軒科技有限公司的大力支持,并得到國家重點(diǎn)研發(fā)計(jì)劃、國家自然科學(xué)基金、北京市重點(diǎn)基金以及深圳合成生物學(xué)創(chuàng)新研究院等項(xiàng)目的資助。
?
??
圖1.SYMPLEX大模型的技術(shù)路線及其與傳統(tǒng)基因挖掘流程對比
圖2.SYMPLEX挖掘結(jié)果多樣性對比和細(xì)粒度知識樹生成
圖3. 候選加帽酶在細(xì)胞體系和體外轉(zhuǎn)錄體系中表現(xiàn)出跨物種、跨體系的高加帽效率
?圖4.SYMPLEX平臺
附件下載: