视频动作识别数据集
视频理解算法复杂,训练计算量大,直接标注素材麻烦,也不如图像那么方便做Augmentation(如果时间反转,破坏变复原,sha人变救人)。不过总有很多方法拿到标注,正好看到有人整理统计了一些,https://www.di.ens.fr/~miech/datasetviz/。我跟着整理一吓。
数据集
1.movienet 2020
官方链接:http://movienet.site,顾名思义就是对电影做识别。包含内容:1100部电影,60k预告片,剧本、字幕和概要也比较全。
标注内容:框出演员位置和ID、场景和动作(如果只识别场景切换,其实直方图就够了)、镜头语言(比例和移动,推拉摇移每个动作都是意识)、电影片段和文字概要。
该数据集将动作与镜头语言、人物id-box、场景、字幕各类信息集合在一起,这种多模态的loss对于训练会很有帮助。
该团队在也自己数据集发了一系列paper:通过字幕监督训练人脸识别、在线搜索影片人物、基于角色动作之间的图来匹配剧情和视频片段等。
2. opps 2019
直接用油管的搞笑沙雕视频集锦,长度基本都10s内。动作类型标注精度比较粗略没到帧级,作者意图根据动作速度无监督训练AI找出翻车、下水、摔跤等爆笑点,还提供了一个3D Convnet识别网络模型。
3.HowTo100M 2019
该数据集两个重点:
- 根据油管教学类视频自带字幕或者语音转文字字幕,作为视频的动作标注,然后训练。
- 该网络以16fps对分辨率224x224的连续帧进行动作识别,特征建模后供文字搜索视频。
靠字幕的动作标注看着就很随意很对付。
4.汤不热GIF 2016
http://raingo.github.io/TGIF-Release/
这标题可能让有同学来劲了,穿好裤子看这个数据集,其实很SFW。
作者在汤不热上整理了100k张GIF动图,然后通过众包方式,对其进行高质量文字描述,但是看标注细粒度还是差点。放几个例子感受下,用不用看自己。作者提供了一个Gif2txt的caffe模型。 https://github.com/raingo/TGIF-Release/tree/master/code/gif2txt-lstm
标注 一个女人在车里唱歌嗨标注 一个拿麦克风的男人在喝饮料
5.MovieGraphs 2018
http://moviegraphs.cs.toronto.edu/
该数据集更像是一场影片片段的剧本大纲,纯文字描述人物、关系、场景,还见了个表。无关动作识别。
6.VATEX
消失了...,看介绍也只是字幕和视频的对应。
7.CrossTask 2019
油管教学视频的粗略描述,https://github.com/DmZhukov/CrossTask 。
8.COIN 2019
https://coin-dataset.github.io/
国人做的数据集,从油管下载11,827个视频,平均时长为2.36分钟,平均每个视频都标有3.91步分段,每个分段平均持续14.91秒。
还提供一个可精细到帧级视频动作标注工具。 https://github.com/coin-dataset/annotation-tool
9.How2 2018
https://github.com/srvk/how2-dataset油管上教学类视频的英语字幕和翻译到葡语,要做NLP?
10.EPIC-KITCHENS 2018
https://epic-kitchens.github.io/2018,厨房内头戴式摄像头55小时的录制,多国语言解说,39,594个动作段,454,255 个 物体框,125个动作,331个名词。
11. YouCook2 2018
http://youcook2.eecs.umich.edu/
油管烹饪视频的标注,提供每个过程步骤的语言描述,包括动作和物体。下图为前100个最频的。
12. Moments in Time 2017
http://moments.csail.mit.edu/
包括一百万个带有标签的3秒视频集,涉及人类,动物,物体或自然现象,这些视频捕捉了动态场景的要旨。
13.VLOG 2017
http://web.eecs.umich.edu/~fouhey//2017/VLOG/index.html
利用油管VLOG视频自带的一些标注,如开门、开冰箱,喝咖啡等。
14.HACS 2017
http://hacs.csail.mit.edu/
HACS剪辑包含1.55M 2秒剪辑注释; HACS细分具有完整的针对5万个视频的动作细分(从动作开始到结束)。
15.MSR-VTT 2016
微软做的视频和字幕注释。
16.DiDeMo dataset 2017
貌似不公开
17.Instruction video dataset 2016
又一个视频旁白作为标注的。
18.ASLAN 2012
比较久远,动作标注素材也不多。
19.YFCC100M
视频的metadata,已经消失
20.VGG Human Pose 2013
只有几部视频,标注上身的姿态。
21.FCVID 2015
Fudan-Columbia Video Dataset,已经消失,也许是名字问题。希望covid也能早日f off
22.DAVIS 2016
只是物体分割效果在视频帧中的连续和预测。
22.Youtube BoundingBoxes 2017
Google做的视频目标框跟踪,无关动作。
23. ActivityNet Captions 2017
ActivityNet字幕,这是用于密集字幕事件的大型基准。 ActivityNet字幕包含2万个视频,总计849个视频小时,总共有10万个描述,每个视频都有其独特的开始和结束时间。引入了现有投标模块的一种变体,该模块旨在捕获跨越几分钟的短时事件和长时事件。为了捕获视频中事件之间的依赖性,我们的模型引入了一个新的字幕模块,该模块使用过去和将来事件的上下文信息来共同描述所有事件。
23.MovieQA 2016
该数据集旨在评估视频和文本的自动故事理解。数据集包括从超过400部电影中获得的近15,000个多项选择题,并且具有高度的语义多样性。
24. VideoMCC
消失了
25.Hollywood2 2016
数据集包含12类人类动作和10类场景,分布在3669个视频剪辑中,总共约20.1小时的视频。
26. MPII-Cooking 2012
2012就开始维护,不容易。识别烹饪活动。
27. DALY 2015
posenet + 物体检测 + 动作标注,还挺细心。
28. MPII Movie Description dataset 2012
文字描述和视频的对应。
29.20BN-JESTER 2017
这些视频剪辑显示了人类在笔记本电脑摄像头或网络摄像头前执行预先定义的手势。该数据集由大量的人群工作者创建。它允许训练健壮的机器学习模型来识别人的手势。
30. 20BN-SOMETHING-SOMETHING 2017
文字描述和视频的对应。
31. AVA 2017
动作识别部分,AVA Actions 注释了430个15分钟的影片剪辑中的80个原子视觉动作,这些动作在时空上进行了定位。
还包含 AVA-Kinetics 和 Spoken Activity。
32. Youtube-8M 2016
收集了经过人工验证的1000个类别的大约23.7万个标签,标注细粒度到视频帧级,Google财大气粗的壕行为。不过和动作无关,给抖音快手油管做视频特征建模,去重搜索用吧。壕之痛点。
33. Kinetics 2017
DeepMind,比较常用的素材。大约65万个视频剪辑,这些视频剪辑涵盖700种人类动作类,包括诸如弹奏乐器之类的人与对象之间的交互,以及诸如握手和拥抱之类的人与人之间的交互。每个动作至少有600个视频剪辑,单个动作类都是由人类注释,并且持续10秒钟左右。
34.ActivityNet 2015
片段视频和动作分类,比较粗。
35. Charades Charades-Ego 2016
http://allenai.org/plato/charades/
包含通过Amazon Mechanical Turk从第三人称和第一人称视角收集的7,860例日常室内活动视频。数据集包含针对157个动作类别的68,536个时间注释。
36. Sports-1M 2014
古董级视频分类。
37.UCF101
打不开了...经典素材
38. HMDB51
HMDB电影剪辑出6849个片段,分为51个动作类别,每个类别至少包含101个剪辑。 公号:RushPlayer https://rushplayer.github.io/