《MMNet: A Model-based Multimodal Network for Human Action Recognition in RGB-D Videos》阅读笔记
2022 tpami
摘要
自廉价深度传感器问世以来,RGB-D视频中的人体动作识别(HAR)得到了广泛研究。目前,单模态方法(如基于骨架和基于RGB视频)已经在越来越大的数据集上实现了实质性的改进。然而,很少研究具有模型级融合的多模态方法。本文提出一种基于模型的多模态网络(MMNet),通过一种基于模型的方法融合骨架和RGB模态。该方法的目标是通过有效地利用不同数据模态的互补信息来提高集成识别的精度。对于基于模型的融合方案,我们对骨架模态使用时空图卷积网络来学习注意力权重,并将其迁移到RGB模态的网络中。在5个基准数据集上进行了广泛的实验:NTU RGB+D 60、NTU RGB+D 120、PKU-MMD、Northwestern-UCLA Multiview和Toyota smarhome。在聚合多个模态的结果后,发现所提出方法在五个数据集的六个评估协议上优于最先进的方法;因此,MMNet能够有效地捕获不同RGB-D视频模态中相互补充的特征,为HAR提供更具判别力的特征。在包含更多户外动作的RGB视频数据集Kinetics 400上测试了MMNet,结果与RGB- d视频数据集的结果一致。