| 創(chuàng)澤機器人 |
| CHUANGZE ROBOT |
目前的 VLA 模型(如 OpenVLA、RT-X 等)大多部署在傳統(tǒng)的剛性串聯(lián)機械臂(如 UR5)上。然而,基于學習的策略模型(Learning-based control)本質上存在不可預測性(Unpredictability)。一旦大模型在推理時產(chǎn)生幻覺或動作偏差,沉重且僵硬的剛性機械臂J易對周圍的人類造成嚴重的物理傷害。
方法鏈路很清晰:輸入端收集軟體機器人(Continuum Soft Robot,名為 Embuddy)在不同視角的示范數(shù)據(jù) → 算法適配層針對軟體機器人的非線性動力學特征,將傳統(tǒng)的動作空間映射到柔性控制空間 → 微調(diào)層分別對當前Z先進的 OpenVLA(采用 OFT 微調(diào))和 (流匹配架構)進行訓練 → 執(zhí)行端在不需要額外復雜碰撞檢測算法的情況下,直接依靠軟體機器人本身的物理柔順性(Physical Compliance),安全地執(zhí)行諸如“給人喂棉花糖”這種JG風險的物理交互任務。
具體算法實現(xiàn)細節(jié)
Bridging Embodiment Gaps 的核心設計圍繞如何讓為剛性機器人打造的 VLA 模型,成功跨越“具身鴻溝(Embodiment Gap)”,適配到軟體機器人上。其實現(xiàn)聚焦三個關鍵模塊:具身硬件適配與數(shù)據(jù)流(硬件基礎)、不同 VLA 架構的微調(diào)對比(算法核心)、極限人機交互與容錯驗證(落地場景)。
關鍵模塊一:軟體具身適配與多視角構建
這個模塊要解決的,是“如何讓大模型看懂并控制軟體手臂”。
雙平臺對照基準:為了嚴謹對比,團隊同時設置了傳統(tǒng)的剛性機械臂 UR5(作為 Baseline)和軟體機器人 Embuddy。
視角處理與對齊:如圖 3 和圖 4 所示,實驗同樣采用了第三人稱視角(3rd-person)和腕部視角(Wrist camera)。需要注意的是,軟體機器人的腕部在運動時形變極大,視野晃動劇烈,這極大考驗了 VLA 模型對非平穩(wěn)視覺輸入的空間表征與泛化能力
關鍵模塊二:OpenVLA 與的部署與性能對抗
解決“哪種 VLA 架構更適合控制軟體機器人”的問題。
損失函數(shù)與收斂:如圖 5 所示,團隊完整記錄了 OpenVLA-OFT(正交微調(diào))和基于流匹配(Flow Matching)的 模型在軟體機器人上的訓練損失曲線。
實驗證明,即便是在軟體驅動這種全新的動作空間下,兩者都能在少量專家數(shù)據(jù)支持下穩(wěn)定收斂。成功率與控制表現(xiàn):如圖 2 所示的成功率對比圖表,在抓取、放置等標準任務中, 憑借其連續(xù)的時間流生成機制,在處理軟體機器人復雜的連續(xù)動作輸出時,普遍展現(xiàn)出了比 OpenVLA 更高的任務成功率和更平滑的物理控制效果。
關鍵模塊三:高風險人機交互與“柔性容錯”驗證
展示了軟體機器人結合大模型后d一無二的落地應用價值。
常規(guī)桌面操作動態(tài)對比:圖 6 展示了 UR5 在執(zhí)行常規(guī)“把橙子放在盤子里”任務時的剛性運動分鏡。圖 7 則展示了軟體機器人 Embuddy 在執(zhí)行類似任務時的柔性運動軌跡。
雖然 VLA 能夠驅動兩者準確完成任務,但在真實家庭環(huán)境中,剛性軌跡一旦遭遇不可預見的人類闖入,往往是致命的。
極限人機交互測試(喂棉花糖):這是本文的安全高光時刻。如圖 8 所示,團隊讓 VLA 模型控制軟體機器人執(zhí)行極高風險的“給人類嘴里喂棉花糖”任務。在執(zhí)行過程中,由于人類頭部的微小晃動,VLA 模型偶爾會產(chǎn)生位置預估偏差。
但關鍵在于,當軟體手臂接觸到人類面部時,它只是發(fā)生了極其安全的彈性形變,并未造成任何機械撞擊傷害,并在形變后順滑地調(diào)整姿態(tài)完成了投喂任務。這種“硬件J別的絕對兜底”,徹底釋放了具身大模型在家庭看護與醫(yī)療輔助領域的潛力。
![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 具身智能教育機器人 智能配送機器人 導覽機器人 |