TrackVLA是一款具備純視覺環(huán)境感知、自然語言指令驅(qū)動、可自主推理、端到端輸出語言和機(jī)器人動作、具備零樣本(Zero-Shot)泛化能力,且由仿真合成動作數(shù)據(jù)訓(xùn)練的具身大模型。它讓機(jī)器人擁有“聽→看→懂→走”的閉環(huán)運(yùn)動能力:一雙眼睛看世界、一個智能“大腦”做推理,無需提前建圖、不依賴遙操控制,真正實(shí)現(xiàn)語言驅(qū)動、泛化感知、自主推理、智能交互與運(yùn)動。用戶通過自然語言即可發(fā)出指令,例如“跟著穿黑衣服灰褲子的人”,系統(tǒng)能夠自動識別目標(biāo)并跟隨前行;面對更復(fù)雜的場景,機(jī)器人也能理解如“跟著前面帶黃色頭盔的人”或“跟著拿粉色袋子的人”等多屬性描述,展現(xiàn)出高度泛化的語言理解與環(huán)境感知能力。如果目標(biāo)走出視野,它也不會原地“發(fā)呆”,而是通過實(shí)時的空間智能和大模型推理能力根據(jù)目標(biāo)運(yùn)動軌跡“分析出”目標(biāo)的大致位置,并規(guī)劃軌跡重新找回目標(biāo)。
傳統(tǒng)機(jī)器人通常以“指令理解→環(huán)境感知→目標(biāo)識別→路徑規(guī)劃”模塊化的形式單獨(dú)處理分解的子任務(wù),有的甚至還要對工作環(huán)境提前構(gòu)建地圖。而銀河通用通過跨本體應(yīng)用的策略,把這些能力通過一個統(tǒng)一的模型TrackVLA完成,并賦能到宇樹的機(jī)器狗上,展現(xiàn)出以下幾大能力:
1、善運(yùn)動、會思考、易交互:TrackVLA用一個大模型集成了感知能力、推理能力、運(yùn)動能力和交互能力??稍趶?fù)雜工作環(huán)境中清晰辨明跟隨對象,提供智能專屬服務(wù),從而實(shí)現(xiàn)產(chǎn)品級的交互體驗(yàn)。
2、無需建圖,輕松部署:TrackVLA讓機(jī)器人不再需要提前建圖,而是像人一樣可以在不同環(huán)境中自主導(dǎo)航。哪怕是沒見過的商場、電梯、游樂區(qū),它都能像人類一樣依靠模型內(nèi)嵌的環(huán)境理解知識“現(xiàn)學(xué)現(xiàn)走”。
3、無懼未知場景:即便是在未訓(xùn)練過的場景中,它也能精確導(dǎo)航、自主推理、穩(wěn)定跟隨、智能交互,也就是具備真正的 “Zero-Shot Navigation”。在兒童游樂區(qū)、狹窄通道等復(fù)雜場景中,它能實(shí)時識別障礙物(包括兒童、玩具、地面水漬等),分析可通行區(qū)域,并可正確認(rèn)知自身本體能力,自主推理出自身構(gòu)型支持的合理路線。
4、無懼環(huán)境光線變化:從室外陽光到室內(nèi)昏暗、從電梯鏡面反射到超市貨架夾縫,TrackVLA 展現(xiàn)出極強(qiáng)魯棒性,無需專門調(diào)參或切換模式。
5、遠(yuǎn)程可視守護(hù):通過 App,用戶可以實(shí)時看到機(jī)器人眼中的第一視角,掌握跟隨目標(biāo)動態(tài)。系統(tǒng)還能主動提醒風(fēng)險行為(如小朋友奔跑、老人跌倒),提供“移動守護(hù)”。
此外,TrackVLA 不僅能穩(wěn)定跟隨人類,還可以泛化至任意移動目標(biāo)。比如讓機(jī)器狗跟隨一只路上偶遇的動物狗狗,其目標(biāo)形態(tài)、運(yùn)動方式、遮擋情況都非常不確定。TrackVLA 也能表現(xiàn)出同樣穩(wěn)定的跟隨能力。