当前位置: 首页 >> 数据集 >> 正文

​VidEvent数据集


发表时间:2025-01-21 15:19 点击数:


视觉事件能够对人类认知产生重大影响,但由于其结构复杂、语义层次多以及演化方式动态,理解视频中的事件对于人工智能来说仍然是一项具有挑战性的任务。为了解决这个问题,我们提出了视频事件理解任务,其包括四个渐进的子任务分别为视频事件边界预测、视频事件预测、视频关系分类和视频事件归纳推理,旨在增强更高事件级别的场景理解能力,弥合CVNLP之间事件理解和推理的差距,探索人工智能从感知到认知的飞跃。根据调研,我们的工作是第一个支持提取高度总结的事件并分析长期事件演变的工作。

为了支持这项任务,我们发布了一个名为 VidEvent 的大型数据集。VidEvent 包含超过1000个经过精心标注的电影解说视频,并从中提取出23000多个语义层次较高的事件和17000多个事件之间具有准确演化逻辑的关系。VidEvent 是通过细致的标注过程创建的,确保了其高质量和事件数据的可靠性。

我们还提出了 baseline 方法和评估指标,从而为未来的研究形成全面的基准。这些模型可以作为未来研究的基准,促进比较和改进。通过对 VidEvent 和 baseline 模型的分析,我们强调了该数据集在促进视频事件理解方面的潜力,并鼓励探索更加创新的算法和模型。

我们已将数据集成果展示在网站https://videvent.top/。论文《VidEvent: A Large Dataset for Understanding Dynamic Evolution of Events in Videos》已被 AAAI 2025 接收。