在人工智能技術(shù)加速向具身智能(Embodied AI)演進(jìn)的關(guān)鍵節(jié)點(diǎn),中科視語(yǔ)重磅發(fā)布其最新前沿成果 ——PhysVLM(首個(gè)機(jī)器人物理空間具身大模型),作為具身智能領(lǐng)域的里程碑式突破,PhysVLM 率先實(shí)現(xiàn) “環(huán)境感知 - 本體理解 - 決策執(zhí)行” 全鏈條技術(shù)閉環(huán),通過(guò)多模態(tài)感知、動(dòng)態(tài)環(huán)境建模、自主決策規(guī)劃的深度融合,賦予機(jī)器人在復(fù)雜物理空間的類人級(jí)操作能力。
作為首創(chuàng)“環(huán)境感知、本體理解、決策執(zhí)行”全鏈條技術(shù)突破的AI企業(yè),中科視語(yǔ)以PhysVLM的發(fā)布為起點(diǎn),正逐步構(gòu)筑面向工業(yè)4.0、智慧交通、具身機(jī)器人等領(lǐng)域的核心技術(shù)底座,重新定義“AI+機(jī)器人”協(xié)同發(fā)展新范式。
物理感知革命,機(jī)器人也懂“分寸感”!
隨著視覺(jué)語(yǔ)言模型(VLM)的快速發(fā)展,機(jī)器人已能精準(zhǔn)理解場(chǎng)景語(yǔ)義,但 “看懂” 不等于 “能做”。傳統(tǒng)模型普遍缺乏對(duì)機(jī)器人自身物理約束的感知能力,導(dǎo)致其在工業(yè)、智慧城市等復(fù)雜場(chǎng)景中頻繁出現(xiàn) “越界操作”,如機(jī)械臂試圖抓取超出其可達(dá)范圍的物體,或因未考慮關(guān)節(jié)限位而引發(fā)機(jī)械故障。這種 “感知與決策割裂” 的問(wèn)題,已成為制約具身智能規(guī)模化落地的關(guān)鍵瓶頸。
針對(duì)這一挑戰(zhàn),中科視語(yǔ)創(chuàng)新性地提出首個(gè)機(jī)器人物理空間具身大模型,通過(guò)創(chuàng)新的空間-物理約束表征的學(xué)習(xí)范式,有效整合了對(duì)環(huán)境的視覺(jué)理解和對(duì)具身智能體的物理空間約束感知,通過(guò)三大維度的突破,實(shí)現(xiàn)了從 “環(huán)境感知” 到 “可靠行動(dòng)” 的質(zhì)的飛躍。
構(gòu)建“空間感知-物理約束”雙輪驅(qū)動(dòng)決策體系
具身空間-物理約束建模,打破平臺(tái)壁壘
首創(chuàng)空間 - 物理約束映射(S-P Map)技術(shù),將機(jī)械臂的幾何參數(shù)、關(guān)節(jié)運(yùn)動(dòng)范圍等物理約束轉(zhuǎn)化為可學(xué)習(xí)的視覺(jué)語(yǔ)義表征。通過(guò)這種 “物理約束視覺(jué)化” 的方法,模型無(wú)需依賴具體機(jī)器人參數(shù)即可實(shí)現(xiàn)跨平臺(tái)泛化,為構(gòu)建通用型具身智能奠定了基礎(chǔ)。
視覺(jué)-物理空間協(xié)同推理,重塑決策邏輯
采用視覺(jué) - 物理雙編碼器架構(gòu):主視覺(jué)分支保留開放域場(chǎng)景理解能力,物理約束分支專注于可達(dá)性分析。通過(guò)多模態(tài)融合模塊和對(duì)齊模塊,模型能夠?qū)崟r(shí)權(quán)衡環(huán)境語(yǔ)義與物理可行性,生成 “既看得懂又做得到” 的動(dòng)作規(guī)劃。例如,當(dāng)識(shí)別到目標(biāo)物體超出當(dāng)前機(jī)械臂范圍時(shí),系統(tǒng)會(huì)自動(dòng)規(guī)劃 “移動(dòng)底盤靠近目標(biāo)” 的分步策略。
百萬(wàn)級(jí)數(shù)據(jù)集,定義行業(yè)標(biāo)準(zhǔn)
中科視語(yǔ)研究團(tuán)隊(duì)構(gòu)建了包含6類工業(yè)機(jī)械臂、10萬(wàn)組操作場(chǎng)景的基準(zhǔn)數(shù)據(jù)集,涵蓋RGB圖像—可達(dá)物理空間圖(S-P Map)—具身物理問(wèn)答三元組數(shù)據(jù)。配套開發(fā)的EQA-phys評(píng)估基準(zhǔn)包含帶有4類工業(yè)機(jī)械臂的仿真環(huán)境和問(wèn)答數(shù)據(jù),為具身智能的物理認(rèn)知提供了量化評(píng)估基準(zhǔn)。
實(shí)驗(yàn)結(jié)果表明,PhysVLM在EQA-phys上的性能比GPT-4o高出14%,在RoboVQA-val和OpenEQA等基準(zhǔn)測(cè)試中也超過(guò)了RoboMamba和SpatialVLM等先進(jìn)的具身VLM。此外,S-P Map與各種VLM高度兼容,集成到GPT-4o-mini后,提升了7.1%的可達(dá)性理解任務(wù)性能。
戰(zhàn)略布局:“三維框架”引領(lǐng)從感知到具身智能跨越
中科視語(yǔ)始終以前瞻性眼光,致力于將先進(jìn)的通用視覺(jué)技術(shù)與機(jī)器人實(shí)際操作深度融合,此次發(fā)布的PhysVLM作為重要戰(zhàn)略成果,以“三維戰(zhàn)略框架”構(gòu)筑堅(jiān)實(shí)的產(chǎn)業(yè)壁壘:
視語(yǔ)坤川?通用視覺(jué)大模型:中科視語(yǔ)經(jīng)過(guò)多次技術(shù)升級(jí)與迭代,構(gòu)建了多模態(tài)大語(yǔ)言模型(MLLM),融合大語(yǔ)言模型的基礎(chǔ)能力,結(jié)合了視語(yǔ)多年面向行業(yè)的人工智能視覺(jué)解決方案經(jīng)驗(yàn),具備超強(qiáng)的視覺(jué)感知能力,并進(jìn)一步支持了原生的視覺(jué)理解與推理。
具身智能核心算法:中科視語(yǔ)宣布正式開源 PhysVLM(首個(gè)機(jī)器人物理空間具身大模型),實(shí)現(xiàn) “環(huán)境感知 - 本體理解 - 決策執(zhí)行” 全鏈條技術(shù)閉環(huán),為工業(yè)、智慧交通等場(chǎng)景提供安全可靠的決策支撐,為具身智能領(lǐng)域開辟了新路徑。
行業(yè)場(chǎng)景深度融合:中科視語(yǔ)具備20余年行業(yè)專業(yè)知識(shí)儲(chǔ)備及成熟的行業(yè)落地經(jīng)驗(yàn),聚焦工業(yè)、交通、具身機(jī)器人等高價(jià)值場(chǎng)景,推動(dòng)技術(shù)落地。
行業(yè)融合加速推進(jìn),打造“AI+機(jī)器人”協(xié)同生態(tài)圈
目前,PhysVLM已在多個(gè)高價(jià)值領(lǐng)域形成實(shí)際應(yīng)用并取得顯著成果,尤其在工業(yè)4.0、智慧交通、具身機(jī)器人等領(lǐng)域展現(xiàn)出突出商業(yè)價(jià)值。
在工業(yè)領(lǐng)域,中科視語(yǔ)智能焊接機(jī)器人,在工業(yè)焊接、噴涂等精密作業(yè)場(chǎng)景中,突破傳統(tǒng)機(jī)械臂常因路徑規(guī)劃粗放導(dǎo)致碰撞風(fēng)險(xiǎn)高、生產(chǎn)效率低。中科視語(yǔ)創(chuàng)新推出(S-P Map)模型,通過(guò) 三維空間動(dòng)態(tài)建模 與 智能視覺(jué)路徑規(guī)劃 雙重引擎,實(shí)現(xiàn)機(jī)械臂作業(yè)效率與安全性的革命性提升。
在交通領(lǐng)域,中科視語(yǔ)智能勸導(dǎo)機(jī)器人,在城市交通治理智能化升級(jí)的浪潮中,以 “AI + 混合模態(tài)感知” 技術(shù)重構(gòu)非機(jī)動(dòng)車監(jiān)管模式。該產(chǎn)品通過(guò)實(shí)時(shí)識(shí)別違規(guī)行為、動(dòng)態(tài)路徑規(guī)劃及智能語(yǔ)音勸導(dǎo),實(shí)現(xiàn)交通監(jiān)管效率提升 40%、事故率下降 35%,為智慧城市交通治理提供 “零接觸、全時(shí)段、高精度” 的創(chuàng)新解決方案。基于此次發(fā)布的最新成果,PhysVLM已初步實(shí)現(xiàn)跨機(jī)器人、跨行業(yè)、跨場(chǎng)景的泛化應(yīng)用能力,逐漸形成產(chǎn)業(yè)級(jí)的技術(shù)壁壘,為工業(yè)4.0、智慧城市與服務(wù)機(jī)器人市場(chǎng)帶來(lái)新的產(chǎn)業(yè)機(jī)遇。
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點(diǎn),亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如稿件版權(quán)單位或個(gè)人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。