據(jù)報道,阿里生成基座模型萬相2.1(Wan)宣布開源,在評測集中,超越 Sora、Luma等模型,位列榜首。
開源最強視頻大模型亮相
獲悉,萬相2.1共有兩個參數(shù)規(guī)模,140億參數(shù)模型適用于對生成效果要求更高的專業(yè)人士,13億參數(shù)模型生成速度較快且能兼容所有消費級GPU,兩個模型的全部推理代碼和權(quán)重已全部開源。
在視頻生成方面,萬相2.1通過自研的高效VAE和DiT架構(gòu)增強了時空上下文建模能力,支持無限長1080P視頻的高效編解碼,首次實現(xiàn)了中文文字視頻生成功能,同時支持文生視頻、圖生視頻、視頻編輯、文生圖和視頻生音頻等多項任務(wù)。
據(jù)此前介紹,萬相2.1支持中英文視頻,可以一鍵生成藝術(shù)字,還提供多種視頻特效選項,以增強視覺表現(xiàn)力,例如過渡、粒子效果、模擬等。
分析人士稱,隨著萬相2.1模型開源,標(biāo)志著阿里云實現(xiàn)了全模態(tài)、全尺寸的開源。這意味著更多的開發(fā)者,將能夠低成本獲取并使用該模型底層代碼,進而用以開展與自身業(yè)務(wù)相關(guān)的各類視頻生成應(yīng)用。
開啟全模態(tài)開源新時代
自2025年以來,開源趨勢逐漸成為全球大模型領(lǐng)域的標(biāo)配。國內(nèi)方面,進入2月,多家企業(yè)紛紛推出了各自的開源模型,包括字節(jié)跳動的豆包以及百度的文心一言等,共同掀起了新一輪的開源熱潮。
國際方面,隨著萬相2.1完全開源,OpenAI、谷歌等競品也將直面商業(yè)化的挑戰(zhàn):更好的模型已經(jīng)開源了,AI生成視頻的定價也將面臨挑戰(zhàn)。谷歌Veo 2模型近期披露定價,每生成1秒視頻需要付費0.5美元,相當(dāng)于生成一個小時的視頻需要花費1800美元。
微美全息開源多模態(tài)應(yīng)用場景拓展
公開資料顯示,微美全息在AI視頻生成領(lǐng)域有顯著布局,涵蓋大語言、多模態(tài)等領(lǐng)域,面對開源視頻生成大模型賽道,從大語言模型到視覺生成模型,從基礎(chǔ)模型到多樣化的衍生模型,實現(xiàn)了全模態(tài)、全尺寸的開源,微美全息AI開源生態(tài)的發(fā)展正不斷被注入強大的動力。
事實上,近些年來,微美全息專注于多模態(tài)AIGC(生成式AI)研發(fā),技術(shù)核心在于結(jié)合大規(guī)模預(yù)訓(xùn)練與多模態(tài)算法優(yōu)化,提升生成內(nèi)容的連貫性和物理合理性。同時在行業(yè)生態(tài)上,微美全息已逐步實現(xiàn)文本生成視頻、圖像生成視頻等能力,支持劇情創(chuàng)作、短視頻生成等場景,未來可能通過API或行業(yè)解決方案,加速AI快速生成視頻能力技術(shù)迭代。
結(jié)語
未來,AI模型將進入一個分水嶺,機構(gòu)普遍認(rèn)為,阿里此舉將加速AI視頻技術(shù)商業(yè)化落地,并推動算力、云計算、內(nèi)容創(chuàng)作等全產(chǎn)業(yè)鏈升級。所以說,AI下半場,不是簡單的技術(shù)競賽,而是一場關(guān)于資源、效率和成本的綜合博弈,這一新的革命正在加速中。
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點,亦不代表本網(wǎng)站贊同其觀點或證實其內(nèi)容的真實性。如稿件版權(quán)單位或個人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。
互聯(lián)網(wǎng)新聞信息服務(wù)許可證10120230012 信息網(wǎng)絡(luò)傳播視聽節(jié)目許可證0121673 增值電信業(yè)務(wù)經(jīng)營許可證京B2-20171219 廣播電視節(jié)目制作經(jīng)營許可證(京)字第10250號
關(guān)于我們 中宏網(wǎng)動態(tài) 廣告服務(wù) 中宏網(wǎng)版權(quán)所有 京ICP備2023030128號-1 舉報電話:010-63359623
Copyright ? 2016-2025 by netresults-search.com. all rights reserved 運營管理:國家發(fā)展和改革委員會宏觀經(jīng)濟雜志社