这是描述信息

服务项目

计算机视觉技术深度解读之视频动作识别

【概要描述】视频的理解与识别是计算机视觉的基础任务之一。随着视频设备和网络的普通,视频理解也吸引了越来越多研究者的关注。而识别视频中的动作则是其中一个充满挑战而又具有较高实际应用价值的任务。相比图像来说,视频内容和背景更加复杂多变,

计算机视觉技术深度解读之视频动作识别

【概要描述】视频的理解与识别是计算机视觉的基础任务之一。随着视频设备和网络的普通,视频理解也吸引了越来越多研究者的关注。而识别视频中的动作则是其中一个充满挑战而又具有较高实际应用价值的任务。相比图像来说,视频内容和背景更加复杂多变,

详情

  视频的理解与识别是计算机视觉的基础任务之一。随着视频设备和网络的普通,视频理解也吸引了越来越多研究者的关注。而识别视频中的动作则是其中一个充满挑战而又具有较高实际应用价值的任务。相比图像来说,视频内容和背景更加复杂多变,不同的动作类别之间具有相似性,而相同的类别在不同环境下又有着不同的特点。此外,由于拍摄造成的遮挡、抖动、视角变化等也为动作识别进一步带来了困难。在实际应用中,精确的动作识别有助于舆情监控,广告投放,以及很多其他视频理解相关的任务。

  与图像识别相比,视频分析需要更大量数据。早期的数据集KTH[1],Weizmann[2]等仅由演员表演固定的几个动作,如走路,慢跑等。之后,较大规模的数据集如UCF101[3]等由网络视频组成,具体动作类别则由志愿者人工标注完成。目前,研究者发布了更大规模的数据集,例如Kinetics[4]包含了上百类动作以及几十万视频,虽然相比实际情况仍不够全面,但也对动作识别的研究有了极大的帮助。

  基于三维卷积的神经网络

  除了双流网络,还有一些研究者针对视频将神经网络优化为三维卷积神经网络,以此来捕捉更多的时空信息。如图3所示,Tran等人首次提出了在视频动作识别中使用三维神经网络(C3D)代替二维的神经网络[12]。此后,由于ResNet在图像识别任务中取得的较好效果,Hara等人提出了基于三维网络的ResNet[13],Qiu等人也提出了用二维模拟三维神经网络的伪3D网络(P3D)[14]。

底部logo

本司将致力于不断的改进产品生产工艺和品质,并且不断的发展新的产品去保持市场的竞争能力。正朝着现代企业的方向与时间一同前进。以“真诚、务实、优质、高效”为企业宗旨,竭诚为各界人士服务。 

地       址:上海市虹桥路333号交大慧谷606室

客服热线:189 1856 8528(高先生)

客服邮箱:gaogao@ailord.tech