
哈喽大家好我是疯狂读论文的戴夫。今天继续啃一篇论文给快要宕机的脑子升升级。智能轮椅听起来已经很成熟了装上雷达、摄像头、避障算法好像就能帮助行动不便的人更安全地移动。但真正的人机协作没有这么简单。轮椅用户在控制轮椅时可能突然想绕开人群可能想穿过门也可能只是靠近门口看一眼。人在导航中的意图本身带有不确定性尤其是在走廊分叉、门口、拥挤区域这些场景里仅凭当前摇杆输入很难判断用户接下来到底想去哪里。这篇 TRO 2026 论文讨论的就是这个问题智能轮椅能不能根据用户动作、视线、环境和语义信息预测用户未来几秒可能走出的多条轨迹论文题目是Navigating Uncertainty: Diffusion-Based User Intention Estimation for Wheelchair AssistanceDOI10.1109/TRO.2025.3637101可以理解为基于扩散模型的智能轮椅用户意图估计方法。图1 DIWIE 概念图一、这篇论文讲什么这篇论文研究的是智能轮椅中的user intention estimation用户意图估计。在共享控制系统里轮椅用户仍然是主要操作者系统负责提供辅助。一个好的辅助系统需要提前知道用户大概想往哪里走再决定是否帮他避障、修正方向或提供额外速度控制。这里的关键问题是用户意图不是一个确定答案而是一组可能的未来轨迹。比如在一个三岔路口用户可能直行也可能左转也可能右转。在环境线索不足时预测用户意图本来就存在不确定性。所以作者没有把问题做成“预测一个唯一目标点”而是提出了一个扩散模型框架DIWIEDiffusion-based Wheelchair User Intention Estimation它要做的事情是输入最近一段时间的轮椅状态、环境障碍物、用户注意力、语义信息和摇杆命令然后生成未来几秒内多条可能轨迹。图2 DIWIE 总体框架二、现有方法卡在哪里早期智能轮椅的意图估计常依赖预定义地图、固定目标点或简单启发式规则。比如系统先知道环境里有哪些门、走廊、终点再根据用户当前位置和摇杆输入判断他可能要去哪。这种方法在结构化环境里可以工作但现实场景更复杂用户目标可能临时变化环境里可能有人群和动态障碍物用户不一定总是走最短路径预先标注所有可能目标并不现实只看摇杆输入很难理解用户更高层的意图。所以这篇论文的切入点是用数据驱动方法建模用户短期未来轨迹同时显式保留人类行为的不确定性。扩散模型正好适合做这件事因为它可以从噪声中生成多种合理轨迹而不是只输出一条确定路线。三、作者怎么解决DIWIE 的核心思路可以概括为把轮椅用户意图估计建模成条件扩散模型下的短期轨迹生成问题。它预测的不是长期目标比如“去办公室”或“去门口”而是未来几秒的短期轨迹。论文中使用过去 5 秒的历史信息预测未来 5 秒的轮椅运动轨迹。输入信息包括五类第一轮椅过去运动轨迹。也就是轮椅最近怎么移动、朝向怎么变化。第二占据栅格图。用来表示周围障碍物比如墙、桌子、人群、门框等。第三用户注意力信息。包括眼动注视点和头部姿态用来判断用户可能在看哪里。第四语义信息。比如门、桌子、椅子、人、楼梯等环境元素。第五摇杆命令。也就是用户当前给轮椅的控制输入。DIWIE 把这些信息编码成上下文表示再通过扩散模型逐步去噪生成多条可能的未来轨迹。图3 模型结构图四、关键设计拆解1. 多模态输入这篇论文最大的特点之一是输入信息很丰富。传统方法常常主要依赖摇杆输入和轮椅运动历史。DIWIE 进一步加入了障碍物、用户注意力和语义环境。这很符合真实导航逻辑。用户看向一扇门可能意味着想穿过去用户看向旁边的人可能意味着准备避让前方有桌子、墙或人群都会影响未来路径选择。轮椅要理解用户意图就不能只看摇杆还要看用户在看哪里、环境里有什么。2. 条件扩散模型扩散模型的作用是从随机噪声中逐步生成未来轨迹。在训练时模型学习如何把加噪后的真实轨迹一步步还原回来在推理时模型从随机噪声出发结合当前上下文生成多条可能轨迹。这样做的好处是可以表达不确定性。如果当前场景很明确多条轨迹会比较集中如果当前场景有多个可能方向多条轨迹会更分散。3. 碰撞引导作者还加入了Collision Guidance碰撞引导模块。模型在生成轨迹时会结合占据栅格图判断轨迹是否靠近障碍物从而减少不合理的碰撞预测。这让生成结果更接近真实轮椅导航需求而不是只在数学上拟合轨迹。4. 真实智能轮椅平台论文使用的是自建智能轮椅平台传感器包括 LiDAR、IMU、RGB-D 相机、HoloLens 2 头显等。HoloLens 用来采集用户头部姿态和眼动注视信息LiDAR 和相机用于构建障碍物与语义环境。图4 智能轮椅平台五、实验怎么验证作者构建了一个真实导航数据集。数据来自 13 名驾驶者在 4 个不同环境中自由驾驶轮椅。场景包括室内走廊、办公室、会议室、咖啡区、室外开放区域和行人较多的空间。为了让驾驶行为更自然作者还设计了一个 AR 找宝石小游戏用户需要驾驶轮椅去寻找并收集虚拟宝石。这样做的好处是用户不是机械地按固定路线行驶而是在更接近自然探索的状态下控制轮椅。图5 AR 找宝石数据采集游戏图6 数据采集环境评价指标主要包括minADE预测轨迹和真实轨迹的平均位置误差minFDE最后一个预测点和真实终点的误差minRMSEO轮椅朝向预测误差CR预测轨迹碰撞率。作者把 DIWIE 和 ConvLSTM、CVAE以及没有碰撞引导模块的 DIWIE 变体进行了对比。六、实验结果说明什么实验结果可以概括成三点。第一DIWIE 的轨迹预测更准。从表格结果看DIWIE 在 minADE、minFDE 和碰撞率上整体优于对比方法。尤其是 minFDE 能做到 1 米以内这对于 5 秒预测窗口和轮椅自身尺寸来说比较有意义。图7 不同模型性能对比第二多模态信息确实有帮助。随着输入信息从单纯历史轨迹逐步加入障碍物、注意力、语义信息和摇杆命令模型整体表现变好。说明用户意图估计不能只靠轮椅过去怎么走还需要结合用户和环境上下文。第三DIWIE 能表达不确定性。论文中展示了不同场景下的定性结果。在三岔路口这类高不确定场景中DIWIE 会生成多条可能轨迹并保留多个合理假设。随着上下文信息增加预测轨迹会逐渐集中说明模型置信度提高。图8 预测误差随时间变化图9 四类场景预测可视化不过论文也指出一个限制DIWIE 对动态障碍物的显式建模还不够。例如人群正在移动时模型未必能准确预测这些人未来会让出空间。七、论文画像应用范围这篇论文主要面向智能轮椅、辅助移动机器人、共享控制和人机意图预测应用场景比较聚焦但实际价值很强。复现友好度复现门槛较高。模型本身可以复现但完整实验需要智能轮椅、多传感器平台、眼动头显和真实用户数据采集。方法新颖度亮点在于把扩散模型用于轮椅用户短期意图估计并结合多模态输入和碰撞引导生成多条可行轨迹。思维借鉴度很适合学习如何把辅助机器人问题转化成轨迹预测问题也适合借鉴多模态数据融合和评价指标设计。技术完整度论文从问题定义、模型设计、机器人平台、数据集采集到多指标实验验证形成了比较完整的技术链条。实验充分性实验包含真实平台、多个用户、多个环境、多种输入组合和多模型对比支撑较充分。最后总结这篇 TRO 论文的核心价值在于它把智能轮椅辅助控制中的“用户想去哪”转化成了一个多模态条件下的未来轨迹生成问题。这篇文章最值得学的地方有三个第一问题定义很清楚。它不强行预测长期目的地而是预测短期未来轨迹更适合共享控制。第二多模态设计很完整。轮椅运动、摇杆、障碍物、视线、头部姿态和语义环境都被纳入模型。第三实验比较扎实。真实轮椅平台、真实用户、真实环境和公开指标让结果更有说服力。如果只记住一句话好的辅助机器人系统需要在保留用户自主性的前提下提前理解用户可能想怎么走。关注我了解更多相关咨询。