2025 年 2 月 19 日,基礎生物學模型 Evo 2 正式發(fā)布后便在生物科學界引發(fā)強烈反響,成為當前規(guī)模最大的生物學 AI 模型。該模型基于超過 12.8 萬個基因組數據、9.3 萬億核苷酸序列進行訓練,由非營利性 Arc 研究所與斯坦福大學牽頭,與 UC Berkeley、UCSF、Liquid AI 以及 Goodfire 等單位攜手,在 NVIDIA 超算集群上協同開發(fā),共同推動生物科學底層研究范式的重構。
Evo 2 概念圖,圖源:Github/Evo 2
Evo 2 的開源與應用標志著生成式生物學邁入一個嶄新的科學革命性階段,實現了“用核苷酸語言來讀、寫和思考”的目標,使研究者無需任務特定微調,僅依靠“零樣本預測”便可獲得類似 DeepSeek 的前沿分析能力。與此同時,作為國內首家專注于生物科學 AI 底層大模型的企業(yè),津渡生科也正站在這場科學革命的風暴眼,同樣手握開啟萬億級市場的創(chuàng)新密鑰。
Evo 2 與 GeneLLM?:不同生物數據層次的模型
Evo 2 和 GeneLLM? 雖然都屬于生物科學大模型,但兩者在本質上存在顯著差異。Evo 2 的訓練數據是按物種分類的基因組信息,而 GeneLLM? 則專注于個體原始數據(如測序數據、質譜數據等)的直接訓練與分析。從數據特性來看,人類參考基因組僅有一套,每個物種的基因組也相對固定,而測序數據則具有高度的多樣性和個體特異性。例如,每個人的測序數據可以生成大量個體差異信息,這使得GeneLLM? 能夠深入解析人與人之間的差異,如疾病易感性、表型特征等,并精準識別“疾病相關標志物”。我們還能夠在同一物種內部挖掘性狀特異性的特征,例如水稻抗倒伏基因的鑒定。這種差異決定了 GeneLLM? 與 Evo 2 在應用場景上的獨立性。
GeneLLM? 和 Evo 2 對比圖
截至目前,市場上尚未出現與GeneLLM? 類似的、直接基于原始數據訓練的模型,因為原始數據的規(guī)模更加龐大、復雜度更高,訓練難度也顯著更大。這種技術路徑的選擇使津渡生科相對于 Evo 2 在生物科學的基礎研究應用,比如疾病風險評估、動植物植物性狀解析等領域具備了獨特的優(yōu)勢。
Evo 2 —— 生成式生物學 AI 的 DeepSeek 時刻
中心法則與進化論構成了從基因到種群的生物學統一理論,通過 DNA 所傳遞的基礎信息揭示了自然選擇的功能效應。Evo 系列模型正是在這一理論框架下誕生,旨在以統一的多尺度表征整合生物多樣性,從分子到系統層面構建堅實的建模與設計基礎。
部署于 NVIDIA BioNeMo 平臺的 Evo 2 采用 StripedHyena 混合架構,其在處理百萬級堿基對序列時相較于傳統 Transformer 結構實現了近 3 倍的提速。同時,Evo 2 基于 DNA 序列進行自適應學習,能夠對 DNA、RNA 與蛋白質功能效應進行精準預測,并覆蓋中心法則(DNA → RNA → 蛋白質)的分子層級。
該模型無需任務特定微調,即可利用零樣本預測高效評估變異效應。例如準確推斷遺傳變異在臨床上對BRCA1 基因的影響,從非編碼區(qū)域判斷致病性。此外,Evo 2 還能自主識別外顯子與內含子邊界、轉錄因子結合位點、蛋白質結構及前噬菌體基因組區(qū)域,并具備生成符合生物學邏輯的線粒體基因組、最小細菌基因組及完整酵母染色體的能力,其生成結果在自然度與連貫性上均優(yōu)于先前方法。
多領域預訓練與廣泛應用前景
Evo 2 模型在涵蓋植物、動物與細菌等多種生物領域的預訓練中表現出色,具備在醫(yī)療保健、農業(yè)生物技術及材料科學等多個科研領域的廣泛應用前景。
在醫(yī)療與藥物研發(fā)領域,Evo 2 能協助研究人員識別與特定疾病相關的基因變異,進而支持新型靶點的藥物設計。例如,在對乳腺癌相關BRCA1 基因變體的測試中,模型在零樣本預測下 AUROC 超過 0.90,而在監(jiān)督模式下達到了 0.95,對良性與致病突變的區(qū)分能力表現出色。如此高效且精準的能力,正為生物醫(yī)學研究帶來顛覆性創(chuàng)新。
通用能力與未來虛擬細胞模型構想
Evo 2 的能力遠不止這些。它的最大亮點在于非常靈活通用,不局限于某個具體任務,而是能在從分子到整個基因組,甚至更復雜的系統層面上,進行廣泛的預測和生成新內容。
生命各領域的基因組生成規(guī)模,圖源:Evo 2 preprint
其訓練數據集 OpenGenome 2 基于 12.8 萬個基因組構建,橫跨 40 億年進化歷史,堪稱數字生物博物館,包含 9.3 萬億核苷酸的超級語料庫,使模型能夠捕捉從古菌甲烷代謝到人類免疫系統等眾多進化密碼。
團隊下一步計劃是將這一統一表征與表觀基因組學、轉錄組學等多模態(tài)數據相融合,構建能夠模擬健康與疾病狀態(tài)下復雜細胞表型的虛擬細胞模型,為生物學研究提供更加全面的解析工具。
津渡生科 GeneLLM?——創(chuàng)新的生物科學人工智能研究路徑
不可否認,生物系統由碳原子、氨基酸、核苷酸、蛋白質、大分子、細胞、組織與器官構成,每一層次都蘊含尚未完全闡明的“暗物質”,使得傳統自下而上的建模方法容易因各層模型誤差累積而偏離真實生物系統的復雜性,同時生物系統的涌現性特征也使其整體行為難以用單一層次的模型解釋。
針對這一局限,津渡生科創(chuàng)始團隊自項目伊始便另辟蹊徑,率先布局生物科學人工智能賽道。GeneLLM?通過直接解析原始測序數據,并端到端輸出疾病表征相關性分析,規(guī)避了分層建模中的誤差疊加問題,為生物科學研究領域提供了一種全新的、切實可行的技術路徑。
GeneLLM?:從單一模態(tài)生成式 AI 預測向多組學整合分析范式 AI 的躍遷
Evo 2 的核心設計理念在于:所有生物編碼序列均遵循統一結構,即以起始密碼子開啟、以終止密碼子結束?;谶@一原理,Evo 2 能夠通過學習序列特征,實現生成式預測下一個堿基對,也可以對未知基因的結構和功能進行預測和注釋。
而 GeneLLM?在遵循相同中心法則和進化論的基礎上,突破性地采用更高階的技術實現路徑——將原始測序數據直接輸入模型,通過深度學習算法,GeneLLM?捕捉多組學數據的微小差異,構建疾病表征與原始數據之間的直接關聯性映射。這種方法以高維數據表示和非線性關系建模為核心,顯著提升了疾病預測的準確性,為生物醫(yī)學研究提供了一種高效創(chuàng)新的研究范式。
從數據洞察到科研轉化的實踐路徑
借助從海量原始數據中提煉洞見并直接應用于下游研究的能力,GeneLLM?已率先實現了從多組學診斷基礎模型向精準醫(yī)療與基礎科研轉化的突破。
以 GeneLLM?為核心構建的一站式生物科學研究平臺 Bioford?,現已整合上百個垂直生物科學領域模型,支持基因組、轉錄組、蛋白質、RNA 三維結構、生物醫(yī)學圖像及文本數據等多模態(tài)數據的全面智能分析,以滿足生物醫(yī)學、生物信息學、分子生物學、免疫學以及分子動力學等各學科的研究需求。平臺聚焦基礎科研、醫(yī)學診斷、生物制造、環(huán)境監(jiān)測、生物育種及藥物開發(fā)六大核心場景,提供從實驗室數據處理、小樣本訓練到模型微調及推理服務的完整解決方案。
為滿足科研領域對數據隱私與安全的高標準要求,Bioford?同時支持云端與本地同步部署,并內置項目級數據保密管理系統。該方案不僅充分保障了數據完整性與機密性,更構建了一個高效、協同且安全的科研生態(tài)系統,為醫(yī)院臨床與高??蒲性谕苿忧把赝黄萍芭R床轉化中提供了堅實保障。
開創(chuàng)全新賽道:GeneLLM?引領生物科學 AI 研究
生物醫(yī)學研究正步入新時代。GeneLLM?的技術突破不僅顛覆了傳統多組學數據分析模式,更重要的是開啟了一種直接基于原始數據的全新研究范式。
充分利用人工智能“黑盒”優(yōu)勢的這一方法,能夠捕捉到傳統手段難以發(fā)現的疾病特征及生物學規(guī)律。憑借 Evo 2 的廣泛突破及市場反響,津渡生科對全面實現技術破局充滿信心。作為國內首家聚焦生物科學 AI 大模型的企業(yè),津渡生科不僅在技術上與國際接軌,更通過本土化創(chuàng)新不斷填補市場空白。
與代表生成式生物學革命的 Evo 2 相比,GeneLLM?在生物科學人工智能賽道,為全球研究人員提供了一款極具競爭力的工具,推動科學發(fā)現與產業(yè)應用雙向進步。展望未來,GeneLLM?的廣泛應用將助力構建一個以 AI 驅動的生物科學生態(tài)系統,覆蓋醫(yī)療、農業(yè)與環(huán)境等多個領域,為人類健康與可持續(xù)發(fā)展貢獻中國智慧。
關于津渡生科
津渡生科致力于提供一站式 AI 生物科學研究解決方案,其自主研發(fā)的多組學大模型 GeneLLM? 已完成 15 億參數和 3.5 萬億堿基序列的預訓練版本?;?nbsp;GeneLLM?,津渡生科打造一站式科學服務平臺 BioFord?? ,聚焦醫(yī)學診斷、藥物開發(fā)、生物制造、基礎科研,生物育種及環(huán)境監(jiān)測六大核心場景。BioFord?平臺包含九大生物科學模型庫:多組學基礎模型、蛋白質模型、RNA 三維結構預測模型、生物醫(yī)學文本處理模型、生物醫(yī)學圖像處理模型、化學基礎模型、CRISPR 相關預測模型、單細胞分析模型和時間序列預測模型,為科研和產業(yè)用戶提供先進的 “AI for BioScience” AI 生信計算服務、云平臺服務和推理一體機,已服務于華大基因、百度飛槳、協和腫瘤醫(yī)院、上海交通大學醫(yī)學院附屬上海兒童醫(yī)學中心、中國環(huán)境科學院等國內領先機構。津渡生科在深圳、北京布局研發(fā)中心,創(chuàng)始團隊由四位牛津校友領銜,匯集了人工智能、生物信息、生物工程等領域的頂尖科學家和工程師,在《Nature》《Nature Communications》等頂級期刊發(fā)表論文六十余篇。以“ AI 科技探索生命之謎”為使命,津渡生科將繼續(xù)突破 AI+ 生物科學的技術邊界,為生物科學研究與產業(yè)化應用提供創(chuàng)新動力,助力國家科技創(chuàng)新與產業(yè)升級。
免責聲明:以上內容為本網站轉自其它媒體,相關信息僅為傳遞更多信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性。如稿件版權單位或個人不想在本網發(fā)布,可與本網聯系,本網視情況可立即將其撤除。