近日,中國科學(xué)院深圳先進(jìn)技術(shù)研究院集成所智能仿生研究中心徐升團(tuán)隊(duì)與澳門大學(xué)楊志新團(tuán)隊(duì)合作,在機(jī)器人學(xué)習(xí)領(lǐng)域取得突破,提出了一種基于三維視覺融合注意力機(jī)制的端到端多模態(tài)模型——Fusion-Perception-to-Action Transformer(FP2AT)。該算法通過融合全局與局部體素網(wǎng)格特征,結(jié)合本體感知信息,顯著提升了機(jī)器人在復(fù)雜三維場景中的精細(xì)操作能力。研究成果以“Fusion-Perception-to-Action Transformer: Enhancing Robotic Manipulation With 3-D Visual Fusion Attention and Proprioception”為題,發(fā)表于機(jī)器人領(lǐng)域頂級期刊IEEE Transactions on Robotics,論文第一作者為澳門大學(xué)-中國科學(xué)院深圳先進(jìn)技術(shù)研究院聯(lián)合培養(yǎng)博士生劉楊駿,徐升副研究員和楊志新副教授為共同通訊作者,先進(jìn)院和澳門大學(xué)為共同第一單位。
研究背景:三維操作亟需“類人”感知與規(guī)劃能力
傳統(tǒng)機(jī)器人操作多依賴二維圖像觀測,難以捕捉三維空間中的物體結(jié)構(gòu)、位置及姿態(tài)關(guān)系,導(dǎo)致精細(xì)化操作任務(wù)(如拔插、旋擰、堆疊)成功率低。雖然體素表示(Voxel Grid)能保留豐富的三維空間信息,但現(xiàn)有方法存在特征利用率低、動(dòng)作預(yù)測分辨率不足等問題。人類在完成精細(xì)操作時(shí),可通過靈活切換全局視野與局部聚焦,結(jié)合手部本體感知?jiǎng)討B(tài)調(diào)整動(dòng)作。受此啟發(fā),研究團(tuán)隊(duì)提出了一種“類人”的多模態(tài)感知到動(dòng)作操作框架。
核心創(chuàng)新:基于三維視覺融合注意力機(jī)制的端到端多模態(tài)模型——Fusion-Perception-to-Action Transformer(FP2AT)(圖2),其中具體包括:
1、設(shè)計(jì)全局-局部視覺融合注意力(HVFA-3D),模擬人類“先全局觀察、再局部聚焦”的視覺感知模式,增強(qiáng)對關(guān)鍵操作區(qū)域的關(guān)注(圖1)。
提出三維視覺互注意力機(jī)制(VMA-3D),實(shí)現(xiàn)跨尺度空間信息雙向交互,提升場景理解能力。
2、集成關(guān)節(jié)力位、末端力/力矩、夾爪狀態(tài)數(shù)據(jù),感知接觸力與運(yùn)動(dòng)狀態(tài),提升機(jī)器人對周圍環(huán)境接觸、本體運(yùn)動(dòng)和協(xié)調(diào)的感知能力。
漸進(jìn)式動(dòng)作預(yù)測框架,先通過低分辨率體素全局規(guī)劃,再基于高分辨率局部體素微調(diào)動(dòng)作,保持網(wǎng)絡(luò)端到端特性的同時(shí)提升預(yù)測精度。
3、提出關(guān)鍵規(guī)劃步數(shù)指標(biāo)(ANKA),用于評估同類算法執(zhí)行效率和規(guī)劃能力。
實(shí)驗(yàn)結(jié)果:成功率提升,效率顯著優(yōu)化
研究團(tuán)隊(duì)在多個(gè)仿真(RLBench)和真實(shí)機(jī)械臂(UR5)任務(wù)上驗(yàn)證了FP2ATs的性能(視頻),平均成功率較體素SOTA方法提升34.4%,較點(diǎn)云SOTA方法提升14.6%。展現(xiàn)出有更好的規(guī)劃能力(如避障等),減少的關(guān)鍵規(guī)劃步數(shù)。
應(yīng)用前景:面向通用任務(wù)的智能機(jī)器人
該工作所提出的FP2AT理論具有強(qiáng)泛化性能,能夠適配不同機(jī)器人操作平臺,通過多模態(tài)感知與智能操作規(guī)劃,引導(dǎo)機(jī)器人完成多樣化復(fù)雜操作任務(wù)。該工作是團(tuán)隊(duì)在學(xué)習(xí)控制領(lǐng)域的進(jìn)一步拓展,將來可與具身智能、人形機(jī)器人相結(jié)合,應(yīng)用于家庭服務(wù)、醫(yī)療護(hù)理、工業(yè)生產(chǎn)、化學(xué)試驗(yàn)等各類場景。
研究資助
本研究在國家自然科學(xué)基金面上項(xiàng)目、澳門科技發(fā)展基金、廣東省、深圳市、澳門大學(xué)等科技項(xiàng)目資助下完成。
圖1 |?體素重建與“類人”視覺感知
圖2 | Fusion-Perception-to-Action Transformer網(wǎng)絡(luò)架構(gòu)