2025 年 2 月 19 日,基礎生物學模型 Evo 2 正式發(fā)布后便在生物科學界引發(fā)強烈反響,成為當前規(guī)模最大的生物學 AI 模型。該模型基于超過 12.8 萬個基因組數(shù)據(jù)、9.3 萬億核苷酸序列進行訓練,由非營利性 Arc 研究所與斯坦福大學牽頭,與 UC Berkeley、UCSF、Liquid AI 以及 Goodfire 等單位攜手,在 NVIDIA 超算集群上協(xié)同開發(fā),共同推動生物科學底層研究范式的重構。
Evo 2 概念圖,圖源:Github/Evo 2
Evo 2 的開源與應用標志著生成式生物學邁入一個嶄新的科學革命性階段,實現(xiàn)了“用核苷酸語言來讀、寫和思考”的目標,使研究者無需任務特定微調(diào),僅依靠“零樣本預測”便可獲得類似 DeepSeek 的前沿分析能力。與此同時,作為國內(nèi)首家專注于生物科學 AI 底層大模型的企業(yè),津渡生科也正站在這場科學革命的風暴眼,同樣手握開啟萬億級市場的創(chuàng)新密鑰。
Evo 2 與 GeneLLM?:不同生物數(shù)據(jù)層次的模型
Evo 2 和 GeneLLM? 雖然都屬于生物科學大模型,但兩者在本質(zhì)上存在顯著差異。Evo 2 的訓練數(shù)據(jù)是按物種分類的基因組信息,而 GeneLLM? 則專注于個體原始數(shù)據(jù)(如測序數(shù)據(jù)、質(zhì)譜數(shù)據(jù)等)的直接訓練與分析。從數(shù)據(jù)特性來看,人類參考基因組僅有一套,每個物種的基因組也相對固定,而測序數(shù)據(jù)則具有高度的多樣性和個體特異性。例如,每個人的測序數(shù)據(jù)可以生成大量個體差異信息,這使得GeneLLM? 能夠深入解析人與人之間的差異,如疾病易感性、表型特征等,并精準識別“疾病相關標志物”。我們還能夠在同一物種內(nèi)部挖掘性狀特異性的特征,例如水稻抗倒伏基因的鑒定。這種差異決定了 GeneLLM? 與 Evo 2 在應用場景上的獨立性。
GeneLLM? 和 Evo 2 對比圖
截至目前,市場上尚未出現(xiàn)與GeneLLM? 類似的、直接基于原始數(shù)據(jù)訓練的模型,因為原始數(shù)據(jù)的規(guī)模更加龐大、復雜度更高,訓練難度也顯著更大。這種技術路徑的選擇使津渡生科相對于 Evo 2 在生物科學的基礎研究應用,比如疾病風險評估、動植物植物性狀解析等領域具備了獨特的優(yōu)勢。
Evo 2 —— 生成式生物學 AI 的 DeepSeek 時刻
中心法則與進化論構成了從基因到種群的生物學統(tǒng)一理論,通過 DNA 所傳遞的基礎信息揭示了自然選擇的功能效應。Evo 系列模型正是在這一理論框架下誕生,旨在以統(tǒng)一的多尺度表征整合生物多樣性,從分子到系統(tǒng)層面構建堅實的建模與設計基礎。
部署于 NVIDIA BioNeMo 平臺的 Evo 2 采用 StripedHyena 混合架構,其在處理百萬級堿基對序列時相較于傳統(tǒng) Transformer 結構實現(xiàn)了近 3 倍的提速。同時,Evo 2 基于 DNA 序列進行自適應學習,能夠?qū)?DNA、RNA 與蛋白質(zhì)功能效應進行精準預測,并覆蓋中心法則(DNA → RNA → 蛋白質(zhì))的分子層級。
該模型無需任務特定微調(diào),即可利用零樣本預測高效評估變異效應。例如準確推斷遺傳變異在臨床上對BRCA1 基因的影響,從非編碼區(qū)域判斷致病性。此外,Evo 2 還能自主識別外顯子與內(nèi)含子邊界、轉(zhuǎn)錄因子結合位點、蛋白質(zhì)結構及前噬菌體基因組區(qū)域,并具備生成符合生物學邏輯的線粒體基因組、最小細菌基因組及完整酵母染色體的能力,其生成結果在自然度與連貫性上均優(yōu)于先前方法。
多領域預訓練與廣泛應用前景
Evo 2 模型在涵蓋植物、動物與細菌等多種生物領域的預訓練中表現(xiàn)出色,具備在醫(yī)療保健、農(nóng)業(yè)生物技術及材料科學等多個科研領域的廣泛應用前景。
在醫(yī)療與藥物研發(fā)領域,Evo 2 能協(xié)助研究人員識別與特定疾病相關的基因變異,進而支持新型靶點的藥物設計。例如,在對乳腺癌相關BRCA1 基因變體的測試中,模型在零樣本預測下 AUROC 超過 0.90,而在監(jiān)督模式下達到了 0.95,對良性與致病突變的區(qū)分能力表現(xiàn)出色。如此高效且精準的能力,正為生物醫(yī)學研究帶來顛覆性創(chuàng)新。
通用能力與未來虛擬細胞模型構想
Evo 2 的能力遠不止這些。它的最大亮點在于非常靈活通用,不局限于某個具體任務,而是能在從分子到整個基因組,甚至更復雜的系統(tǒng)層面上,進行廣泛的預測和生成新內(nèi)容。
生命各領域的基因組生成規(guī)模,圖源:Evo 2 preprint
其訓練數(shù)據(jù)集 OpenGenome 2 基于 12.8 萬個基因組構建,橫跨 40 億年進化歷史,堪稱數(shù)字生物博物館,包含 9.3 萬億核苷酸的超級語料庫,使模型能夠捕捉從古菌甲烷代謝到人類免疫系統(tǒng)等眾多進化密碼。
團隊下一步計劃是將這一統(tǒng)一表征與表觀基因組學、轉(zhuǎn)錄組學等多模態(tài)數(shù)據(jù)相融合,構建能夠模擬健康與疾病狀態(tài)下復雜細胞表型的虛擬細胞模型,為生物學研究提供更加全面的解析工具。
津渡生科 GeneLLM?——創(chuàng)新的生物科學人工智能研究路徑
不可否認,生物系統(tǒng)由碳原子、氨基酸、核苷酸、蛋白質(zhì)、大分子、細胞、組織與器官構成,每一層次都蘊含尚未完全闡明的“暗物質(zhì)”,使得傳統(tǒng)自下而上的建模方法容易因各層模型誤差累積而偏離真實生物系統(tǒng)的復雜性,同時生物系統(tǒng)的涌現(xiàn)性特征也使其整體行為難以用單一層次的模型解釋。
針對這一局限,津渡生科創(chuàng)始團隊自項目伊始便另辟蹊徑,率先布局生物科學人工智能賽道。GeneLLM?通過直接解析原始測序數(shù)據(jù),并端到端輸出疾病表征相關性分析,規(guī)避了分層建模中的誤差疊加問題,為生物科學研究領域提供了一種全新的、切實可行的技術路徑。
GeneLLM?:從單一模態(tài)生成式 AI 預測向多組學整合分析范式 AI 的躍遷
Evo 2 的核心設計理念在于:所有生物編碼序列均遵循統(tǒng)一結構,即以起始密碼子開啟、以終止密碼子結束?;谶@一原理,Evo 2 能夠通過學習序列特征,實現(xiàn)生成式預測下一個堿基對,也可以對未知基因的結構和功能進行預測和注釋。
而 GeneLLM?在遵循相同中心法則和進化論的基礎上,突破性地采用更高階的技術實現(xiàn)路徑——將原始測序數(shù)據(jù)直接輸入模型,通過深度學習算法,GeneLLM?捕捉多組學數(shù)據(jù)的微小差異,構建疾病表征與原始數(shù)據(jù)之間的直接關聯(lián)性映射。這種方法以高維數(shù)據(jù)表示和非線性關系建模為核心,顯著提升了疾病預測的準確性,為生物醫(yī)學研究提供了一種高效創(chuàng)新的研究范式。
從數(shù)據(jù)洞察到科研轉(zhuǎn)化的實踐路徑
借助從海量原始數(shù)據(jù)中提煉洞見并直接應用于下游研究的能力,GeneLLM?已率先實現(xiàn)了從多組學診斷基礎模型向精準醫(yī)療與基礎科研轉(zhuǎn)化的突破。
以 GeneLLM?為核心構建的一站式生物科學研究平臺 Bioford?,現(xiàn)已整合上百個垂直生物科學領域模型,支持基因組、轉(zhuǎn)錄組、蛋白質(zhì)、RNA 三維結構、生物醫(yī)學圖像及文本數(shù)據(jù)等多模態(tài)數(shù)據(jù)的全面智能分析,以滿足生物醫(yī)學、生物信息學、分子生物學、免疫學以及分子動力學等各學科的研究需求。平臺聚焦基礎科研、醫(yī)學診斷、生物制造、環(huán)境監(jiān)測、生物育種及藥物開發(fā)六大核心場景,提供從實驗室數(shù)據(jù)處理、小樣本訓練到模型微調(diào)及推理服務的完整解決方案。
為滿足科研領域?qū)?shù)據(jù)隱私與安全的高標準要求,Bioford?同時支持云端與本地同步部署,并內(nèi)置項目級數(shù)據(jù)保密管理系統(tǒng)。該方案不僅充分保障了數(shù)據(jù)完整性與機密性,更構建了一個高效、協(xié)同且安全的科研生態(tài)系統(tǒng),為醫(yī)院臨床與高校科研在推動前沿突破及臨床轉(zhuǎn)化中提供了堅實保障。
開創(chuàng)全新賽道:GeneLLM?引領生物科學 AI 研究
生物醫(yī)學研究正步入新時代。GeneLLM?的技術突破不僅顛覆了傳統(tǒng)多組學數(shù)據(jù)分析模式,更重要的是開啟了一種直接基于原始數(shù)據(jù)的全新研究范式。
充分利用人工智能“黑盒”優(yōu)勢的這一方法,能夠捕捉到傳統(tǒng)手段難以發(fā)現(xiàn)的疾病特征及生物學規(guī)律。憑借 Evo 2 的廣泛突破及市場反響,津渡生科對全面實現(xiàn)技術破局充滿信心。作為國內(nèi)首家聚焦生物科學 AI 大模型的企業(yè),津渡生科不僅在技術上與國際接軌,更通過本土化創(chuàng)新不斷填補市場空白。
與代表生成式生物學革命的 Evo 2 相比,GeneLLM?在生物科學人工智能賽道,為全球研究人員提供了一款極具競爭力的工具,推動科學發(fā)現(xiàn)與產(chǎn)業(yè)應用雙向進步。展望未來,GeneLLM?的廣泛應用將助力構建一個以 AI 驅(qū)動的生物科學生態(tài)系統(tǒng),覆蓋醫(yī)療、農(nóng)業(yè)與環(huán)境等多個領域,為人類健康與可持續(xù)發(fā)展貢獻中國智慧。
關于津渡生科
津渡生科致力于提供一站式 AI 生物科學研究解決方案,其自主研發(fā)的多組學大模型 GeneLLM? 已完成 15 億參數(shù)和 3.5 萬億堿基序列的預訓練版本?;?nbsp;GeneLLM?,津渡生科打造一站式科學服務平臺 BioFord?? ,聚焦醫(yī)學診斷、藥物開發(fā)、生物制造、基礎科研,生物育種及環(huán)境監(jiān)測六大核心場景。BioFord?平臺包含九大生物科學模型庫:多組學基礎模型、蛋白質(zhì)模型、RNA 三維結構預測模型、生物醫(yī)學文本處理模型、生物醫(yī)學圖像處理模型、化學基礎模型、CRISPR 相關預測模型、單細胞分析模型和時間序列預測模型,為科研和產(chǎn)業(yè)用戶提供先進的 “AI for BioScience” AI 生信計算服務、云平臺服務和推理一體機,已服務于華大基因、百度飛槳、協(xié)和腫瘤醫(yī)院、上海交通大學醫(yī)學院附屬上海兒童醫(yī)學中心、中國環(huán)境科學院等國內(nèi)領先機構。津渡生科在深圳、北京布局研發(fā)中心,創(chuàng)始團隊由四位牛津校友領銜,匯集了人工智能、生物信息、生物工程等領域的頂尖科學家和工程師,在《Nature》《Nature Communications》等頂級期刊發(fā)表論文六十余篇。以“ AI 科技探索生命之謎”為使命,津渡生科將繼續(xù)突破 AI+ 生物科學的技術邊界,為生物科學研究與產(chǎn)業(yè)化應用提供創(chuàng)新動力,助力國家科技創(chuàng)新與產(chǎn)業(yè)升級。
免責聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點,亦不代表本網(wǎng)站贊同其觀點或證實其內(nèi)容的真實性。如稿件版權單位或個人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。
互聯(lián)網(wǎng)新聞信息服務許可證10120230012 信息網(wǎng)絡傳播視聽節(jié)目許可證0121673 增值電信業(yè)務經(jīng)營許可證京B2-20171219 廣播電視節(jié)目制作經(jīng)營許可證(京)字第10250號
關于我們 中宏網(wǎng)動態(tài) 廣告服務 中宏網(wǎng)版權所有 京ICP備2023030128號-1 舉報電話:010-63359623
Copyright ? 2016-2025 by netresults-search.com. all rights reserved 運營管理:國家發(fā)展和改革委員會宏觀經(jīng)濟雜志社