可從海量生物文獻中發(fā)現(xiàn)具有目標(biāo)功能的關(guān)鍵基因。
多知4月16日消息,中國科學(xué)院深圳先進技術(shù)研究院與北京大學(xué)合作團隊近日在《Science Advances》發(fā)表研究成果,推出全球首個面向合成生物學(xué)元件挖掘的大語言模型SYMPLEX。該模型通過融合領(lǐng)域大語言模型訓(xùn)練、專家知識庫對齊及生物信息分析,實現(xiàn)了從海量文獻中自動化挖掘高價值功能基因,并精準(zhǔn)評估其工程化應(yīng)用潛力。
該模型能夠自動高效地從海量生物文獻中發(fā)現(xiàn)具有目標(biāo)功能的關(guān)鍵基因,并進行精準(zhǔn)篩選和功能驗證,為后續(xù)的蛋白質(zhì)功能設(shè)計、生物制劑開發(fā)以及生物制造的應(yīng)用提供科學(xué)依據(jù)。
研究團隊以mRNA疫苗關(guān)鍵酶——加帽酶為驗證案例,成功挖掘出催化效率超國際商業(yè)產(chǎn)品2倍以上的新型酶。SYMPLEX平臺采用模塊化設(shè)計,具備文獻智能提取、基因功能標(biāo)注及知識中樞三大核心功能,現(xiàn)已開放免費使用。
根據(jù)介紹,SYMPLEX突破性在于通過結(jié)構(gòu)化知識庫規(guī)避大模型幻覺,同時生成細粒度基因功能知識樹,為合成生物學(xué)研究提供新范式。