微信公众号

VR陀螺微信公众号

手机端

手机端扫码访问

深度报告

推广

推广

推广

推广

最新资讯

Facebook新研究：利用深度学习带来拟真手物交互系统

发布时间：2021-08-03 10:02 | 标签： Facebook AR/VR 深度学习手物交互

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

文/VR陀螺林德

手势识别在VR交互中是一个十分重要的技术，被视为计算机理解人体语言的一种必然方式。自从Ouclus在2019年12月正式推出手势追踪功能之后，手势识别的功能在开发者和用户中受到了很大的欢迎。但这也是Oculus在收购了手势识别相关的技术公司时隔4年后，才正式推出的手势追踪功能。

可见，手势交互技术还存在技术难度。

虽然手势识别目前仍受到很多的限制，但在虚拟空间模拟现实中与物体的交互行为上，比起技术难度更大、风险更大的“脑机接口”，手势识别显得更加直接自然，因此很多的团队都在持续不断地研究手势识别的计算。

图源：Techspot

近日，由Facebook虚拟实验室、爱丁堡大学以及香港大学组成的团队发表了他们在手物交互这方面的最新论文成果《ManipNet: Neural Manipulation Synthesis with a Hand-Object Spatial Representation》。虽然目前这项研究成果还处于初步阶段，但从该团队发表的论文的实验数据来看，这一研究的应用将极大提高手物交互的拟真度和灵巧度，使手势识别技术向着全自由交互迈进的一大步。

ManipNet：

基于手-物体的空间表征算法

根据研究，人们每天平均与140个物体互动，并且这些进行交互的日常物品形态是多种多样的。人们通过复杂的手指动作与物体进行交互，但在VR或AR体验中，由于控制器无法产生自然且真实的手部动作，会导致体验沉浸感遭到破坏。想要达到完全的自然沉浸感，关键在于如何基于计算机算法，模拟出人手部自然交互操作上的细微变化。

目前，手势识别的技术主要是通过训练机器学习来实现的，人们自然情况下的手部操作是依靠复杂的手指动作呈现的，如果依靠单纯的数据学习方式学习手的灵巧操作将需要大量的数据。因此鉴于行业内深度学习研究的成功，该团队提出一个名为ManipNet的深度神经网络算法。所谓的深度神经网络是机器学习的一个分支，是通过人工神经网络为架构，对输入资料进行表征学习的算法。

图源：网络

ManipNet是该团队研究人员利用手-物体的空间关系特征，直接从数据中学习手部的自然操作行为的深度学习算法。团队计划通过对有限的物体数据样本的学习扩展到几何变化上。也就是说，通过对小量物体形状的深度学习类推到不同几何变化的物体上。

该团队表示，他们研究的空间表征算法结合了作为体素占比（三维空间分割上的最小单位）的整体物体形状和作为最近距离样本的物体局部的几何细节。这种算法使得深度神经网络可以通过从手腕和物体的输入轨迹中模拟手指运动。

具体来说就是该团队为ManipNet提供了几个时间节点的手指运动轨迹，过去、现在、未来，以及这些轨迹中提取的空间表征，然后深度神经网络会根据这些已有的数据生成一个自回归模型，预测从过去、现在到未来这几个节点之间缺少的其他手指姿态。

如图1所示，ManipNet是从控制信号和物体几何特征中预测对象操纵的手指姿态，其中控制信号是手腕和物体的6D轨迹，并且该深度神经网络的学习公式需要一个最小的和明确的输入表示，以便实现更好的泛化。

图源：Facebook Research

此外，该团队表示在设计ManipNet时，该算法只处理一个手-物体的“输入”。团队研究人员通过镜像，运行两次该网络，为双手生成预测图像。“这种设计允许我们转换手的空间中的输入特征，使我们能够处理交互作用的手的不同组合。”

该团队还展示了其系统的运行框架概述，如下图所示。其中手腕和物体的运动轨迹、手部的皮肤网格和物体的三维几何图形作为“输入”对象，深度神经网络ManipNet作为自回归模型，会逐帧输出生成手指的详细姿势。

系统框架（图源：Facebook Research）

为了避免ManipNet对训练出现过度拟合的情况导致预测结果偏差较大，同时提高该系统的通用性，该团队利用了三种类型的虚拟传感器来编码物体的几何形以及与手的空间关系。这三个虚拟传感器以粗体素网格捕捉整体物体形状，以点样式捕捉局部几何细节为样本。

图源：Facebook Research

团队对此解释，虽然整体物体特征有助于系统规划整体姿态和预测未来运动轨迹，但物体的局部特征发挥着更加重要的作用——能够使算法拓展到任何几何形状。

该团队还表示，目前通过从少量的物体形和厨具物品种学习，ManipNet已经能够合成各种手指姿态，以抓取更复杂的几何物体。

“我们在本文中开发的具有高通用性的表示法有可能应用于基于DRL的基于物理的对象操作技术。我们提出了一个神经网络公式来合成使用双手操作物体的手指运动，我们的关键贡献是在操纵中代表手和物体之间的空间关系的特征。”

总体看来，该团队在手物交互这一方面做出了以下贡献：

一个基于深度学习的运动合成系统，可以为单/双手的物体操作产生灵巧详细的手指动作；

一种手-物体空间表征的算法，能提高神经网络的通用性；

提供一个手物交互的运动数据集，包括详细的手指运动和16个手-物体的操作运动。

ManipNet或将在VR/AR应用上潜力十足

由于手部活动的灵活度以及因人而异的大小、体积等问题，动画师通常不得不手动设计与捕捉到的全身运动相匹配的手指运动，或者使用单独的设备来产生手指运动。此外，还有数据的可变化性、运动捕捉相机分辨率的提高和追踪手指关节等技术的发展原因，导致当前手物交互方面的研究仍然充满局限性。

该团队在论文中也表示，对物体的灵巧操作是一个相当困难的问题，需要考虑手和物体之间的动态交互，即使通过基于物理基础的模拟，已经开发了操作对象的方法，但这种手-物体操作的开发还有待探索。

图源：网络

即便如此，团队研究人员认为手物交互在游戏和AR/VR实时交互应用中有很大的潜力。

“随着AR/VR硬件在消费者市场的崛起，将我们的系统与其内置对象跟踪相结合为新的互动内容打开了许多创造性的机会。”

参考链接：https://research.fb.com/publications/manipnet-neural-manipulation-synthesis-with-a-hand-object-spatial-representation/

投稿/爆料：tougao@youxituoluo.com

稿件/商务合作：林南（微信 19250561593）六六（微信 13138755620）

加入行业交流群：林南（微信 19250561593）

版权申明：本文为VR陀螺原创，任何第三方未经授权不得转载。如需转载请联系微信：vrtuoluo233 申请授权，并在转载时保留转载来源、作者以及原文链接信息，不得擅自更改内容，违规转载法律必究。文中有图片、视频素材来自互联网或无法核实出处，如涉及版权问题，请联系本网站协商处理。

元宇宙数字产业服务平台

下载「陀螺科技」APP，获取前沿深度元宇宙讯息

上一篇： VR休闲游戏《Jetpack Vacation》将于10月20日在SteamVR上线

下一篇： 虚拟主播服务商随幻科技完成数千万美元Pre-A轮融资

你可能感兴趣的文章：

Horizon Worlds现已支持在Instagram和Facebook内访问

Meta回应欧盟委员会7.98亿欧元罚款裁决：将提出上诉

欧盟以违反反垄断规则对Meta处以7.98亿欧元罚款

前Facebook员工分享与马克·扎克伯格共事学到的10条宝贵经验

Meta 发布报告称其Reality Labs部门6个月内亏损77.32亿美元

据称Meta计划于3月向青少年开放VR社交平台《Horizon Worlds》

热门文章排行: 1 苹果公司Vision Pro和AI眼镜项目负责人跳槽至OpenAI

2 AltaVR宣布VR游戏《小镇传奇》将于7月停服

3 种子轮融资1500万元，Nexliumen推动金刚石基Micro-LED商业化

4 《Lanesplit》迎来 VR 版本，新增多项游戏内容

5 驻港部队军营开放日开设VR飞行体验，吸引大批市民到场参与

6 极米首款 AI 智能眼镜 MemoMind One 上线 Kickstarter，众筹价 399 美元

7 Meta EMG腕带新专利：集成苹果手表同款心率监测，兼顾XR交互与健康传感

8 Meta 开启 Quest 平台夏季大促，数百款 Quest 游戏大幅降价

9 学界推出腿部摆动VR坐姿交互方案，兼顾沉浸感与低体力负荷

10 Perfect Game 联合 WIN Reality，开启 VR 棒球训练新时代

推荐专题

VR/AR 2025年度专题更多


2025年度备受关注的十大XR技术 | 年度专题
CES2026 更多


30克只是起点：瑞声科技谈AR眼镜的重量、功能与未来形态
深度 | 全面解读AI眼镜更多


下一代 AI 眼镜正在「悄悄」涨价
陀螺研究院XR产业报告更多


9款新品，近6亿融资，《2026年5月VR/AR与AI眼镜行业月报》发布
苹果Vision Pro开发教程更多


Vision Pro中文开发教程系列视频汇总（全73课）
Vision Pro精选内容推荐更多


Vision Pro精选内容每周推荐：Sandblox、Amplium、Travel Immersive
苹果空间计算专题更多


苹果宣布将为Vision Pro推出首部长篇沉浸式纪录片
硬件专业评测更多


亮亮视野 Leion Hey2 评测：专注语音翻译，用 8 小时真实续航换来的取舍之道
XR行业应用案例集更多


陀螺研究院XR行业应用案例集｜基于穿戴式柔性手部动捕设备的混合现实整形外科手术教学训练一体化平台

人物专访 更多: 对话Arvore创始人：打造《黑袍纠察队》VR大作，巴西工作室冲刺3A与多平台布局 06-04

对话酷咔数字：Meta震荡期，以《Dread Meridian》向硬核玩家交出「付费体验」答卷 01-23

30克只是起点：瑞声科技谈AR眼镜的重量、功能与未来形态 01-16

依视路陆逊梯卡：年产能计划提升至2000万副，大量AI眼镜新品正在路上 11-27

对话《夜店模拟器》制作人：从1人开发，到50万下载的实战心得 11-06

对话法国团队VIRTUAL BEINGS：如何用「行为AI引擎」打造跨平台虚拟宠物？ 10-30

不止于大空间：《道诡异仙VR》如何用“实景置景”打通线下沉浸式闭环？ 10-22

对话三体宇宙：故事沉浸、技术突破和线下布局，科幻IP的VR自制之路 10-21

对话英兔软件：穿越VR行业九年周期，1款新品、2条业务线与3个生存法则 09-25

对话灵犀微光郑昱 | Meta新款眼镜选择阵列光波导，这意味着什么？ 09-24

数据报告 更多: 9款新品，近6亿融资，《2026年5月VR/AR与AI眼镜行业月报》发布 06-11

AI眼镜大战升级，40家核心芯片厂商一览｜2026年最新产业图谱 05-25

VR游戏周报丨Valve公布4月SteamVR硬件数据；Quest月活超百万游戏《Animal Company》登陆Steam 05-22

22家！AI眼镜传感器厂商一览｜2026年最新产业图谱 05-15

2026年4月VR/AR行业月报丨VR陀螺 05-12

2026年3月VR/AR行业月报丨VR陀螺 04-13

陀螺研究院发布《2025全球VR/AR产业发展报告》 04-01

2026年2月VR/AR行业月报丨VR陀螺 03-11

洛图科技：2025年中国智能眼镜市场销量145.4万台 03-05

陀螺研究院发布《2025年度XR大空间产业报告》 01-31

融资并购 更多: VAST完成超10亿元人民币A3战略轮融资，持续深耕AI 3D大模型与世界模型赛道 07-02

索尼影业向VR线下体验馆运营商Cosm注资1亿美元，并获少数股权 06-25

创想数维完成2010万元Pre-A+轮融资，加速AI+XR产业化落地 06-03

IPO前夜，Rokid狂飙 06-03

VTuber应用《Avvy》的运营商AnotherBall宣布获得25亿日元债务融资 05-20

韶音、光峰参投，主打“智能变焦眼镜”的众见科技完成数千万元融资 05-18

Phosio获400万美元融资，将用于投建低成本高性能AI眼镜镜片生产线 05-14

VR医疗创企Floreo获克利夫兰诊所100万美元投资，其VR自闭症疗法将接受美国FDA审评 04-21

德国VR心理健康技术创企brainjo完成200万欧元种子轮融资 04-21

AR光学方案商「鲲游光电」完成近4亿元C+轮融资 04-10

官方微信账号:
VR陀螺

加入行业社群