①不需要預(yù)先的地圖,結(jié)合實時的視覺圖像和激光雷達信息,機器人可實時感知環(huán)境; ②NaVILA還進一步將導(dǎo)航技術(shù)從輪式擴展到了足式機器人,研究人員對宇樹Go2機器狗和G1人形機器人進行了實測; ③NVILA模型具有強大的多模態(tài)推理能力。
《科創(chuàng)板日報》12月11日訊(編輯 宋子喬) 日前,加州大學(xué)研究人員和英偉達共同發(fā)布了新的視覺語言模型“NaVILA”。亮點在于,NaVILA模型為機器人導(dǎo)航提供了一種新方案。
NaVILA模型的相關(guān)論文
視覺語言模型(VLM)是一種多模態(tài)生成式AI模型,能夠?qū)ξ谋?、圖像和視頻提示進行推理。它通過將大語言模型(LLM)與視覺編碼器相結(jié)合,使LLM具有“看”的能力。
傳統(tǒng)的機器人行動往往依賴于預(yù)先繪制的地圖和復(fù)雜的傳感器系統(tǒng)。而NaVILA模型不需要預(yù)先的地圖,機器人只需“聽懂”人類的自然語言指令,結(jié)合實時的視覺圖像和激光雷達信息,實時感知環(huán)境中的路徑、障礙物和動態(tài)目標,就可以自主導(dǎo)航到指定位置。
不僅擺脫了對地圖的依賴,NaVILA還進一步將導(dǎo)航技術(shù)從輪式擴展到了足式機器人,希望讓機器人應(yīng)付更多復(fù)雜場景,使其具備跨越障礙和自適應(yīng)路徑規(guī)劃的能力。
在論文中,加州大學(xué)研究人員使用宇樹Go2機器狗和G1人形機器人進行了實測。根據(jù)團隊統(tǒng)計的實測結(jié)論,在家庭、戶外和工作區(qū)等真實環(huán)境中,NaVILA的導(dǎo)航成功率高達88%,在復(fù)雜任務(wù)中的成功率也達到了75%。
Go2機器狗接受行動指令:向左轉(zhuǎn)一點,朝著肖像海報走,你會看到一扇敞開的門
G1人形機器人接受行動指令:立即左轉(zhuǎn)并直行,踩上墊子繼續(xù)前進,直到接近垃圾桶時停下來
據(jù)介紹,NaVILA模型的特點在于:
優(yōu)化準確性與效率:NVILA模型在訓(xùn)練成本上降低了4.5倍,微調(diào)所需內(nèi)存減少了3.4倍。在預(yù)填充和解碼的延遲上幾乎降低了2倍(這些數(shù)據(jù)是與另一個大型視覺模型LLaVa OneVision進行比較得出的)。
高分辨率輸入:NVILA模型并不通過降低照片和視頻的大小來優(yōu)化輸入,而是使用高分辨率圖像和視頻中的多個幀,以確保不丟失任何細節(jié)。
壓縮技術(shù):英偉達指出,訓(xùn)練視覺語言模型的成本非常高,同時,微調(diào)這樣的模型也非常耗費內(nèi)存,7B參數(shù)的模型需要超過64GB的GPU內(nèi)存。因此英偉達采用了一種名為“先擴展后壓縮”的技術(shù),通過將視覺信息壓縮為更少的token,來減少輸入數(shù)據(jù)的大小,并將像素進行分組,以保留重要信息,平衡模型的準確性與效率。
多模態(tài)推理能力:NVILA模型能夠根據(jù)一張圖片或一段視頻回答多個查詢,具有強大的多模態(tài)推理能力。
在視頻基準測試中,NVILA的表現(xiàn)超過了GPT-4o Mini,并且在與GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比較中也表現(xiàn)出色。NVILA還在與Llama 3.2的對比中取得了微弱勝利。
英偉達表示,目前尚未將該模型發(fā)布到Hugging Face平臺上,其承諾會很快發(fā)布代碼和模型,以促進模型的可復(fù)現(xiàn)性。