0%

2022 tpami

摘要

自廉价深度传感器问世以来,RGB-D视频中的人体动作识别(HAR)得到了广泛研究。目前,单模态方法(如基于骨架和基于RGB视频)已经在越来越大的数据集上实现了实质性的改进。然而,很少研究具有模型级融合的多模态方法。本文提出一种基于模型的多模态网络(MMNet),通过一种基于模型的方法融合骨架和RGB模态。该方法的目标是通过有效地利用不同数据模态的互补信息来提高集成识别的精度。对于基于模型的融合方案,我们对骨架模态使用时空图卷积网络来学习注意力权重,并将其迁移到RGB模态的网络中。在5个基准数据集上进行了广泛的实验:NTU RGB+D 60、NTU RGB+D 120、PKU-MMD、Northwestern-UCLA Multiview和Toyota smarhome。在聚合多个模态的结果后,发现所提出方法在五个数据集的六个评估协议上优于最先进的方法;因此,MMNet能够有效地捕获不同RGB-D视频模态中相互补充的特征,为HAR提供更具判别力的特征。在包含更多户外动作的RGB视频数据集Kinetics 400上测试了MMNet,结果与RGB- d视频数据集的结果一致。

Read more »

摘要、引言、结论

本文设计了一个新型动态时空专业化模块(Dynamic Spatio-Temporal Specialization,简称DSTS),该模块由只会被高度相似的样本子集所激活的专门神经元组成。为了在相似样本的特定子集中进行区分,损失将促使专门神经元专注于细粒度差异。

本文设计了一种时空专门化方法,为专门化神经元提供空间或时间专门化,使其每次只关注输入特征映射的每个通道的一个单一方面(空间或时间)。

而在端到端的训练中,需要训练两种类型的参数:upstream 参数(如评分核和门参数)用于做动态决策和downstream参数(如时空算子)用于处理输入。由于上流参数的训练也会影响到下流参数,因此本文设计了一种上游-下游学习的算法(UDL),学习如何做出对下游参数训练有积极影响的决策,提高DSTS模块的性能。

解决的问题:成功地区分具有细微差别的操作类别(细粒度设置中较高的类间相似性)

Read more »

papercode

摘要与结论

  • 尽管许多基于GCN的骨架动作识别算法取得不错的结果,但依旧在鲁棒性、互操作性和可扩展性方面存在限制。
  • 提出了PoseConv3D:一种以3D热图体积作为输入的基于3D-CNN的骨骼动作识别方法,与GCN的方法相比
    • 在学习时空特征方面更加有效
    • 对姿态估计的噪声更具有鲁棒性
    • 在交叉数据集中更具有泛化性
    • 在处理多人场景方面无需额外计算成本
  • 另外,更容易与其他模态结合,在八个多模态识别基准达到了SOTA
Read more »