2025 年 2 月 19 日,基礎(chǔ)生物學(xué)模型 Evo 2 正式發(fā)布后便在生物科學(xué)界引發(fā)強(qiáng)烈反響,成為當(dāng)前規(guī)模最大的生物學(xué) AI 模型。該模型基于超過 12.8 萬個(gè)基因組數(shù)據(jù)、9.3 萬億核苷酸序列進(jìn)行訓(xùn)練,由非營(yíng)利性 Arc 研究所與斯坦福大學(xué)牽頭,與 UC Berkeley、UCSF、Liquid AI 以及 Goodfire 等單位攜手,在 NVIDIA 超算集群上協(xié)同開發(fā),共同推動(dòng)生物科學(xué)底層研究范式的重構(gòu)。
Evo 2 概念圖,圖源:Github/Evo 2
Evo 2 的開源與應(yīng)用標(biāo)志著生成式生物學(xué)邁入一個(gè)嶄新的科學(xué)革命性階段,實(shí)現(xiàn)了“用核苷酸語言來讀、寫和思考”的目標(biāo),使研究者無需任務(wù)特定微調(diào),僅依靠“零樣本預(yù)測(cè)”便可獲得類似 DeepSeek 的前沿分析能力。與此同時(shí),作為國(guó)內(nèi)首家專注于生物科學(xué) AI 底層大模型的企業(yè),津渡生科也正站在這場(chǎng)科學(xué)革命的風(fēng)暴眼,同樣手握開啟萬億級(jí)市場(chǎng)的創(chuàng)新密鑰。
Evo 2 與 GeneLLM?:不同生物數(shù)據(jù)層次的模型
Evo 2 和 GeneLLM? 雖然都屬于生物科學(xué)大模型,但兩者在本質(zhì)上存在顯著差異。Evo 2 的訓(xùn)練數(shù)據(jù)是按物種分類的基因組信息,而 GeneLLM? 則專注于個(gè)體原始數(shù)據(jù)(如測(cè)序數(shù)據(jù)、質(zhì)譜數(shù)據(jù)等)的直接訓(xùn)練與分析。從數(shù)據(jù)特性來看,人類參考基因組僅有一套,每個(gè)物種的基因組也相對(duì)固定,而測(cè)序數(shù)據(jù)則具有高度的多樣性和個(gè)體特異性。例如,每個(gè)人的測(cè)序數(shù)據(jù)可以生成大量個(gè)體差異信息,這使得GeneLLM? 能夠深入解析人與人之間的差異,如疾病易感性、表型特征等,并精準(zhǔn)識(shí)別“疾病相關(guān)標(biāo)志物”。我們還能夠在同一物種內(nèi)部挖掘性狀特異性的特征,例如水稻抗倒伏基因的鑒定。這種差異決定了 GeneLLM? 與 Evo 2 在應(yīng)用場(chǎng)景上的獨(dú)立性。
GeneLLM? 和 Evo 2 對(duì)比圖
截至目前,市場(chǎng)上尚未出現(xiàn)與GeneLLM? 類似的、直接基于原始數(shù)據(jù)訓(xùn)練的模型,因?yàn)樵紨?shù)據(jù)的規(guī)模更加龐大、復(fù)雜度更高,訓(xùn)練難度也顯著更大。這種技術(shù)路徑的選擇使津渡生科相對(duì)于 Evo 2 在生物科學(xué)的基礎(chǔ)研究應(yīng)用,比如疾病風(fēng)險(xiǎn)評(píng)估、動(dòng)植物植物性狀解析等領(lǐng)域具備了獨(dú)特的優(yōu)勢(shì)。
Evo 2 —— 生成式生物學(xué) AI 的 DeepSeek 時(shí)刻
中心法則與進(jìn)化論構(gòu)成了從基因到種群的生物學(xué)統(tǒng)一理論,通過 DNA 所傳遞的基礎(chǔ)信息揭示了自然選擇的功能效應(yīng)。Evo 系列模型正是在這一理論框架下誕生,旨在以統(tǒng)一的多尺度表征整合生物多樣性,從分子到系統(tǒng)層面構(gòu)建堅(jiān)實(shí)的建模與設(shè)計(jì)基礎(chǔ)。
部署于 NVIDIA BioNeMo 平臺(tái)的 Evo 2 采用 StripedHyena 混合架構(gòu),其在處理百萬級(jí)堿基對(duì)序列時(shí)相較于傳統(tǒng) Transformer 結(jié)構(gòu)實(shí)現(xiàn)了近 3 倍的提速。同時(shí),Evo 2 基于 DNA 序列進(jìn)行自適應(yīng)學(xué)習(xí),能夠?qū)?DNA、RNA 與蛋白質(zhì)功能效應(yīng)進(jìn)行精準(zhǔn)預(yù)測(cè),并覆蓋中心法則(DNA → RNA → 蛋白質(zhì))的分子層級(jí)。
該模型無需任務(wù)特定微調(diào),即可利用零樣本預(yù)測(cè)高效評(píng)估變異效應(yīng)。例如準(zhǔn)確推斷遺傳變異在臨床上對(duì)BRCA1 基因的影響,從非編碼區(qū)域判斷致病性。此外,Evo 2 還能自主識(shí)別外顯子與內(nèi)含子邊界、轉(zhuǎn)錄因子結(jié)合位點(diǎn)、蛋白質(zhì)結(jié)構(gòu)及前噬菌體基因組區(qū)域,并具備生成符合生物學(xué)邏輯的線粒體基因組、最小細(xì)菌基因組及完整酵母染色體的能力,其生成結(jié)果在自然度與連貫性上均優(yōu)于先前方法。
多領(lǐng)域預(yù)訓(xùn)練與廣泛應(yīng)用前景
Evo 2 模型在涵蓋植物、動(dòng)物與細(xì)菌等多種生物領(lǐng)域的預(yù)訓(xùn)練中表現(xiàn)出色,具備在醫(yī)療保健、農(nóng)業(yè)生物技術(shù)及材料科學(xué)等多個(gè)科研領(lǐng)域的廣泛應(yīng)用前景。
在醫(yī)療與藥物研發(fā)領(lǐng)域,Evo 2 能協(xié)助研究人員識(shí)別與特定疾病相關(guān)的基因變異,進(jìn)而支持新型靶點(diǎn)的藥物設(shè)計(jì)。例如,在對(duì)乳腺癌相關(guān)BRCA1 基因變體的測(cè)試中,模型在零樣本預(yù)測(cè)下 AUROC 超過 0.90,而在監(jiān)督模式下達(dá)到了 0.95,對(duì)良性與致病突變的區(qū)分能力表現(xiàn)出色。如此高效且精準(zhǔn)的能力,正為生物醫(yī)學(xué)研究帶來顛覆性創(chuàng)新。
通用能力與未來虛擬細(xì)胞模型構(gòu)想
Evo 2 的能力遠(yuǎn)不止這些。它的最大亮點(diǎn)在于非常靈活通用,不局限于某個(gè)具體任務(wù),而是能在從分子到整個(gè)基因組,甚至更復(fù)雜的系統(tǒng)層面上,進(jìn)行廣泛的預(yù)測(cè)和生成新內(nèi)容。
生命各領(lǐng)域的基因組生成規(guī)模,圖源:Evo 2 preprint
其訓(xùn)練數(shù)據(jù)集 OpenGenome 2 基于 12.8 萬個(gè)基因組構(gòu)建,橫跨 40 億年進(jìn)化歷史,堪稱數(shù)字生物博物館,包含 9.3 萬億核苷酸的超級(jí)語料庫(kù),使模型能夠捕捉從古菌甲烷代謝到人類免疫系統(tǒng)等眾多進(jìn)化密碼。
團(tuán)隊(duì)下一步計(jì)劃是將這一統(tǒng)一表征與表觀基因組學(xué)、轉(zhuǎn)錄組學(xué)等多模態(tài)數(shù)據(jù)相融合,構(gòu)建能夠模擬健康與疾病狀態(tài)下復(fù)雜細(xì)胞表型的虛擬細(xì)胞模型,為生物學(xué)研究提供更加全面的解析工具。
津渡生科 GeneLLM?——?jiǎng)?chuàng)新的生物科學(xué)人工智能研究路徑
不可否認(rèn),生物系統(tǒng)由碳原子、氨基酸、核苷酸、蛋白質(zhì)、大分子、細(xì)胞、組織與器官構(gòu)成,每一層次都蘊(yùn)含尚未完全闡明的“暗物質(zhì)”,使得傳統(tǒng)自下而上的建模方法容易因各層模型誤差累積而偏離真實(shí)生物系統(tǒng)的復(fù)雜性,同時(shí)生物系統(tǒng)的涌現(xiàn)性特征也使其整體行為難以用單一層次的模型解釋。
針對(duì)這一局限,津渡生科創(chuàng)始團(tuán)隊(duì)自項(xiàng)目伊始便另辟蹊徑,率先布局生物科學(xué)人工智能賽道。GeneLLM?通過直接解析原始測(cè)序數(shù)據(jù),并端到端輸出疾病表征相關(guān)性分析,規(guī)避了分層建模中的誤差疊加問題,為生物科學(xué)研究領(lǐng)域提供了一種全新的、切實(shí)可行的技術(shù)路徑。
GeneLLM?:從單一模態(tài)生成式 AI 預(yù)測(cè)向多組學(xué)整合分析范式 AI 的躍遷
Evo 2 的核心設(shè)計(jì)理念在于:所有生物編碼序列均遵循統(tǒng)一結(jié)構(gòu),即以起始密碼子開啟、以終止密碼子結(jié)束?;谶@一原理,Evo 2 能夠通過學(xué)習(xí)序列特征,實(shí)現(xiàn)生成式預(yù)測(cè)下一個(gè)堿基對(duì),也可以對(duì)未知基因的結(jié)構(gòu)和功能進(jìn)行預(yù)測(cè)和注釋。
而 GeneLLM?在遵循相同中心法則和進(jìn)化論的基礎(chǔ)上,突破性地采用更高階的技術(shù)實(shí)現(xiàn)路徑——將原始測(cè)序數(shù)據(jù)直接輸入模型,通過深度學(xué)習(xí)算法,GeneLLM?捕捉多組學(xué)數(shù)據(jù)的微小差異,構(gòu)建疾病表征與原始數(shù)據(jù)之間的直接關(guān)聯(lián)性映射。這種方法以高維數(shù)據(jù)表示和非線性關(guān)系建模為核心,顯著提升了疾病預(yù)測(cè)的準(zhǔn)確性,為生物醫(yī)學(xué)研究提供了一種高效創(chuàng)新的研究范式。
從數(shù)據(jù)洞察到科研轉(zhuǎn)化的實(shí)踐路徑
借助從海量原始數(shù)據(jù)中提煉洞見并直接應(yīng)用于下游研究的能力,GeneLLM?已率先實(shí)現(xiàn)了從多組學(xué)診斷基礎(chǔ)模型向精準(zhǔn)醫(yī)療與基礎(chǔ)科研轉(zhuǎn)化的突破。
以 GeneLLM?為核心構(gòu)建的一站式生物科學(xué)研究平臺(tái) Bioford?,現(xiàn)已整合上百個(gè)垂直生物科學(xué)領(lǐng)域模型,支持基因組、轉(zhuǎn)錄組、蛋白質(zhì)、RNA 三維結(jié)構(gòu)、生物醫(yī)學(xué)圖像及文本數(shù)據(jù)等多模態(tài)數(shù)據(jù)的全面智能分析,以滿足生物醫(yī)學(xué)、生物信息學(xué)、分子生物學(xué)、免疫學(xué)以及分子動(dòng)力學(xué)等各學(xué)科的研究需求。平臺(tái)聚焦基礎(chǔ)科研、醫(yī)學(xué)診斷、生物制造、環(huán)境監(jiān)測(cè)、生物育種及藥物開發(fā)六大核心場(chǎng)景,提供從實(shí)驗(yàn)室數(shù)據(jù)處理、小樣本訓(xùn)練到模型微調(diào)及推理服務(wù)的完整解決方案。
為滿足科研領(lǐng)域?qū)?shù)據(jù)隱私與安全的高標(biāo)準(zhǔn)要求,Bioford?同時(shí)支持云端與本地同步部署,并內(nèi)置項(xiàng)目級(jí)數(shù)據(jù)保密管理系統(tǒng)。該方案不僅充分保障了數(shù)據(jù)完整性與機(jī)密性,更構(gòu)建了一個(gè)高效、協(xié)同且安全的科研生態(tài)系統(tǒng),為醫(yī)院臨床與高??蒲性谕苿?dòng)前沿突破及臨床轉(zhuǎn)化中提供了堅(jiān)實(shí)保障。
開創(chuàng)全新賽道:GeneLLM?引領(lǐng)生物科學(xué) AI 研究
生物醫(yī)學(xué)研究正步入新時(shí)代。GeneLLM?的技術(shù)突破不僅顛覆了傳統(tǒng)多組學(xué)數(shù)據(jù)分析模式,更重要的是開啟了一種直接基于原始數(shù)據(jù)的全新研究范式。
充分利用人工智能“黑盒”優(yōu)勢(shì)的這一方法,能夠捕捉到傳統(tǒng)手段難以發(fā)現(xiàn)的疾病特征及生物學(xué)規(guī)律。憑借 Evo 2 的廣泛突破及市場(chǎng)反響,津渡生科對(duì)全面實(shí)現(xiàn)技術(shù)破局充滿信心。作為國(guó)內(nèi)首家聚焦生物科學(xué) AI 大模型的企業(yè),津渡生科不僅在技術(shù)上與國(guó)際接軌,更通過本土化創(chuàng)新不斷填補(bǔ)市場(chǎng)空白。
與代表生成式生物學(xué)革命的 Evo 2 相比,GeneLLM?在生物科學(xué)人工智能賽道,為全球研究人員提供了一款極具競(jìng)爭(zhēng)力的工具,推動(dòng)科學(xué)發(fā)現(xiàn)與產(chǎn)業(yè)應(yīng)用雙向進(jìn)步。展望未來,GeneLLM?的廣泛應(yīng)用將助力構(gòu)建一個(gè)以 AI 驅(qū)動(dòng)的生物科學(xué)生態(tài)系統(tǒng),覆蓋醫(yī)療、農(nóng)業(yè)與環(huán)境等多個(gè)領(lǐng)域,為人類健康與可持續(xù)發(fā)展貢獻(xiàn)中國(guó)智慧。
關(guān)于津渡生科
津渡生科致力于提供一站式 AI 生物科學(xué)研究解決方案,其自主研發(fā)的多組學(xué)大模型 GeneLLM? 已完成 15 億參數(shù)和 3.5 萬億堿基序列的預(yù)訓(xùn)練版本?;?nbsp;GeneLLM?,津渡生科打造一站式科學(xué)服務(wù)平臺(tái) BioFord?? ,聚焦醫(yī)學(xué)診斷、藥物開發(fā)、生物制造、基礎(chǔ)科研,生物育種及環(huán)境監(jiān)測(cè)六大核心場(chǎng)景。BioFord?平臺(tái)包含九大生物科學(xué)模型庫(kù):多組學(xué)基礎(chǔ)模型、蛋白質(zhì)模型、RNA 三維結(jié)構(gòu)預(yù)測(cè)模型、生物醫(yī)學(xué)文本處理模型、生物醫(yī)學(xué)圖像處理模型、化學(xué)基礎(chǔ)模型、CRISPR 相關(guān)預(yù)測(cè)模型、單細(xì)胞分析模型和時(shí)間序列預(yù)測(cè)模型,為科研和產(chǎn)業(yè)用戶提供先進(jìn)的 “AI for BioScience” AI 生信計(jì)算服務(wù)、云平臺(tái)服務(wù)和推理一體機(jī),已服務(wù)于華大基因、百度飛槳、協(xié)和腫瘤醫(yī)院、上海交通大學(xué)醫(yī)學(xué)院附屬上海兒童醫(yī)學(xué)中心、中國(guó)環(huán)境科學(xué)院等國(guó)內(nèi)領(lǐng)先機(jī)構(gòu)。津渡生科在深圳、北京布局研發(fā)中心,創(chuàng)始團(tuán)隊(duì)由四位牛津校友領(lǐng)銜,匯集了人工智能、生物信息、生物工程等領(lǐng)域的頂尖科學(xué)家和工程師,在《Nature》《Nature Communications》等頂級(jí)期刊發(fā)表論文六十余篇。以“ AI 科技探索生命之謎”為使命,津渡生科將繼續(xù)突破 AI+ 生物科學(xué)的技術(shù)邊界,為生物科學(xué)研究與產(chǎn)業(yè)化應(yīng)用提供創(chuàng)新動(dòng)力,助力國(guó)家科技創(chuàng)新與產(chǎn)業(yè)升級(jí)。
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點(diǎn),亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如稿件版權(quán)單位或個(gè)人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。