0%

paper code

摘要

骨架基础的动作识别旨在给定人体关节坐标及其骨架互连来识别人类动作。通过将关节定义为顶点,其自然连接定义为边,先前的工作成功地采用了图卷积网络(GCN)来建模关节的共现,并获得了出色的性能。更近期,发现了GCN的一个限制,即拓扑结构在训练后是固定的。为了放松这种限制,采用了自注意力(SA)机制使GCN的拓扑结构对输入变得自适应,产生了目前最好的混合模型。同时,也尝试了简单的Transformer,但由于缺乏结构先验,它们仍落后于目前最好的基于GCN的方法。与混合模型不同,我们提出了一种更优雅的方法,通过图距离嵌入将骨连接性结构融入Transformer。我们的嵌入在训练期间保留了骨架结构的信息,而GCN仅将其用于初始化。更重要的是,我们揭示了图模型通常存在的一个潜在问题,即成对聚合从本质上忽略了身体关节之间的高阶运动依赖性。为弥补这一空白,我们在超图上提出了一种新的自注意力(SA)机制,称为超图自注意力(HyperSA),以融入内在的高阶关系。我们将结果模型称为Hyperformer,它在NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA数据集上都优于目前最好的图模型,在精度和效率方面。

Read more »

paper: https://arxiv.org/abs/2303.14474

摘要

许多骨骼动作识别模型使用图卷积网络(GCNs)通过连接身体部位的三维关节来表示人体。GCNs聚合一或少数跳的图邻域,并忽略未连接的身体关节之间的依赖关系。我们提出使用超图来建模图节点之间的超边(例如,三阶和四阶超边捕捉三个和四个节点),从而帮助捕捉身体关节组的高阶运动模式。我们将动作序列分割为时间块,Higher-order Transformer(HoT)根据(i)身体关节,(ii)身体关节之间的成对连接,以及(iii)骨骼身体关节的高阶超边,生成每个时间块的嵌入。我们通过一种新颖的多阶多模Transformer(3Mformer)结合这些超边的HoT嵌入,该Transformer具有两个模块,可以交换顺序,实现基于“通道-时间块”、“顺序-通道-身体关节”、“通道-超边(任意阶)”和“仅通道”对上的耦合模式注意力。第一个模块称为多阶汇聚(MP),还可以学习沿着超边模式的加权汇聚,而第二个模块称为时间块汇聚(TP),则沿着时间块1模式进行汇聚。我们的端到端可训练网络相对于基于GCN、Transformer和超图的对应方法获得了最先进的结果。

Read more »

paper code

摘要

半监督动作识别是一项具有挑战性但又至关重要的任务,因为视频注释的成本很高。现有方法主要使用卷积神经网络,然而当前的革命性视觉Transformer模型尚未得到充分探索。在本文中,我们研究了在半监督学习(SSL)设置下使用Transformer模型进行动作识别的方法。为此,我们引入了SVFormer,它采用了稳定的伪标签框架(即EMATeacher)来处理无标签视频样本。虽然广泛的数据增强方法已被证明对于半监督图像分类是有效的,但对于视频识别而言,它们通常产生有限的结果。因此,我们引入了一种针对视频数据的新型增强策略,称为Tube Token-Mix,其中视频剪辑通过掩码和一致的遮蔽标记在时间轴上混合。此外,我们提出了一种时域扭曲增强方法,用于覆盖视频中复杂的时域变化,它将选定的帧在剪辑中拉伸到不同的时间长度。对三个数据集Kinetics-400、UCF-101和HMDB-51进行了大量实验证实了SVFormer的优势。特别是,在Kinetics-400的1%标注率下,SVFormer在较少的训练周期内比现有技术提升了31.5%。我们的方法有望作为一个强有力的基准,并鼓励未来在使用Transformer网络进行半监督动作识别方面的研究。

Read more »

paper code

摘要

尽管在同一分布的测试数据上评估时,动作识别系统可以达到最佳性能,但它们对于测试数据中的意外分布变化很容易受到攻击。然而,迄今为止尚未展示视频动作识别模型的测试时间自适应能力。我们提出了一种针对时空模型的方法,可以在单个视频样本的每一步上进行自适应。该方法通过一种特征分布对齐技术,将在线估计的测试集统计数据与训练统计数据进行对齐。我们进一步通过对同一测试视频样本进行时间增强视图的预测一致性来强化。在三个基准动作识别数据集上的评估结果表明,我们提出的技术不依赖于具体的架构,能够显著提高最先进的卷积架构TANet和Video Swin Transformer的性能。我们的方法在单个分布变化的评估和随机分布变化的挑战性情况下都表现出了显著的性能提升。

Read more »

paper code

摘要

视觉社区正在见证从CNN到Transformer的建模转变,其中纯Transformer架构在主要视频识别基准上获得了最高准确性。这些视频模型都建立在Transformer层上,它们在空间和时间维度上全局连接补丁。在本文中,我们反而提倡在视频变换器中引入局部性的归纳偏差,与先前计算全局自我关注甚至具有空间-时间因子分解的方法相比,这导致了更好的速度-准确性折衷。所提出的视频架构的局部性是通过适应为图像域设计的Swin Transformer实现的,同时继续利用预训练图像模型的能力。我们的方法在广泛的视频识别基准上实现了最先进的准确性,包括动作识别(Kinetics-400上84.9的top-1准确性和Kinetics-600上85.9的top-1准确性,预训练数据约少20倍,模型大小约小3倍)和时间建模(Something-Something v2上69.6的top-1准确性)。

Read more »

paper code

摘要

我们提出了用于视频和图像识别的多尺度视觉Transformer(MViT),通过将多尺度特征层次结构的开创性想法与Transformer模型相连接。多尺度Transformer具有多个通道-分辨率尺度阶段。从输入分辨率和小通道维度开始,这些阶段在减小空间分辨率的同时分层扩展通道容量。这创建了一个多尺度特征金字塔,早期层以高空间分辨率操作,以模拟简单的低层次视觉信息,而深层以空间粗糙但复杂的高维特征操作。我们评估了这个基本的架构先验来模拟视觉信号的密集性质,针对多种视频识别任务进行了评估,其中它的表现优于依赖于大规模外部预训练的并且计算和参数成本高5-10倍的同时期视觉Transformer。我们进一步去除了时间维度,并将我们的模型应用于图像分类,其中它比视觉Transformer之前的工作中表现更好。

Read more »

paper code

摘要

本文研究的是利用Transformer进行视频识别。最近在这一领域的尝试在识别精度方面已经证明了有希望的结果,但在许多情况下,由于对时间信息的额外建模,它们也被证明会导致显著的计算开销。在这项工作中,我们提出了一个视频Transformer模型,其复杂性与视频序列中的帧数成线性比例,因此与基于图像的Transformer模型相比没有开销。为了实现这一点,我们的模型对视频Transformer中使用的全时空注意力做了两个近似:(a)它将时间注意力限制在局部时间窗口,并利用Transformer的深度来获得视频序列的全时间覆盖。(b)它使用高效的时空混合来联合关注空间和时间位置,而不会在纯空间注意力模型的基础上产生任何额外的成本。我们还展示了如何集成2个非常轻量级的全局时间关注机制,以最小的计算成本提供额外的精度改进。我们证明了我们的模型在最流行的视频识别数据集上产生非常高的识别精度,同时比其他视频转换器模型更有效。代码将被提供。

Different approaches to space-time self-attention for video recognition.
Read more »

TimeSFormer

paper code

摘要

我们提出了一种基于空间和时间上的自注意力机制的无卷积视频分类方法。我们的方法,命名为“TimeSformer”,通过从一系列帧级别的图像块直接进行时空特征学习,将标准的Transformer架构适应到视频上。我们的实验研究比较了不同的自注意力方案,并发现“分割注意力”架构,在每个网络块中分别应用时间注意力和空间注意力,能够在我们考虑的设计选择中获得最佳的视频分类准确率。尽管设计完全不同,TimeSformer在几个动作识别基准上都达到了最先进的结果,包括在Kinetics-400和Kinetics-600上获得了最佳的准确率。最后,与3D卷积网络相比,我们的模型训练速度更快,可以实现更高的测试效率(以较小的准确率损失为代价),并且可以应用于更长的视频片段(超过一分钟)。

Read more »

CVPR 2021

摘要

本文的目标是对未裁剪视频中的动作进行细粒度分类,其中动作可以在时间上扩展,也可以只跨越视频的几帧。将其转换为查询-响应机制,其中每个查询处理特定的问题,并拥有自己的响应标签集。

贡献:

  1. 提出了一个新的模型—时态查询网络(TQN)—它支持查询-响应功能,以及对细粒度操作的结构理解
  2. 提出了一种新的方法-随机特征库更新-在不同长度的视频上训练网络,并使用响应细粒度查询所需的密集采样
  3. 将TQN与其他体系结构和文本监督方法进行比较,分析其优缺点
  4. 在FineGym和Diving48基准上广泛评估细粒度动作分类的方法并仅使用RGB特征超越最先进的方法
Read more »