銀河通用聯(lián)合北京智源人工智能研究院(BAAI)及北京大學(xué)和香港大學(xué)研究人員,研發(fā)出首個(gè)全面泛化的端到端具身抓取基礎(chǔ)大模型 GraspVLA。其預(yù)訓(xùn)練完全基于合成大數(shù)據(jù),訓(xùn)練數(shù)據(jù)達(dá)到了有史以來(lái)最大的數(shù)據(jù)體量——十億幀「視覺(jué)-語(yǔ)言-動(dòng)作」對(duì),掌握泛化閉環(huán)抓取能力、達(dá)成基礎(chǔ)模型;預(yù)訓(xùn)練后,模型可直接 Sim2Real在未見(jiàn)過(guò)的、千變?nèi)f化的真實(shí)場(chǎng)景和物體上零樣本測(cè)試,全球首次全面展現(xiàn)了七大卓越的泛化能力,滿(mǎn)足大多數(shù)產(chǎn)品的需求;而針對(duì)特別需求,后訓(xùn)練僅需小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場(chǎng)景,維持高泛化性的同時(shí)形成符合產(chǎn)品需求的專(zhuān)業(yè)技能。
針對(duì)零售商超場(chǎng)景,銀河通用自行研發(fā)的GroceryVLA采用端到端模型架構(gòu),突破傳統(tǒng)“視覺(jué)+軌跡規(guī)劃”方案,自主識(shí)別并完成商品抓取。模型無(wú)需路徑規(guī)劃,即可在緊密排布、涵蓋數(shù)十種 SKU的真實(shí)貨架上穩(wěn)定作業(yè),無(wú)需針對(duì)每種商品包裝單獨(dú)調(diào)參,支持軟包裝(如袋裝面包、鹵蛋)、硬盒、塑料瓶、透明果凍杯等多樣形態(tài)商品的精準(zhǔn)抓取,實(shí)現(xiàn)了跨品類(lèi)的統(tǒng)一抓取策略。無(wú)論是剛性包裝還是柔性物體,都能精準(zhǔn)取放,滿(mǎn)足全品類(lèi)零售場(chǎng)景需求,可以直接泛化至全新環(huán)境。并在抓取過(guò)程中,具備實(shí)時(shí)閉環(huán)策略調(diào)整能力,能夠快速處理現(xiàn)場(chǎng)人為干擾(如貨物被移走/推擠),任務(wù)連續(xù)性達(dá)99%以上,遠(yuǎn)超行業(yè)平均水平。