事件常识推理-多模态感知与计算实验室

当前位置：首页 >> 研究项目 >> 视觉推理 >> 正文

事件常识推理

发表时间：2025-01-08 20:21 点击数：

尽管视觉事件对人类认知具有重要影响，但由于其复杂的结构、多层次的语义体系以及动态演变特性，视频事件理解对人工智能而言仍具挑战性。为此，本项目提出视频事件理解任务，旨在从视频中提取事件脚本并基于这些脚本进行预测。为支持该任务，本项目构建了VidEvent大规模数据集，该数据集包含23,000多个精细标注的事件，具有从电影解说视频中提取的详细事件结构、广泛的语义层次和逻辑关系。通过精心设计的标注流程，确保了事件数据的高质量和可靠性。同时，该方法提供了完整的基线模型，详细描述了其架构和性能指标。这些模型为后续研究设立基准，便于比较和改进。通过对VidEvent数据集及基线模型的分析，该方法证明该数据集在推进视频事件理解研究方面的潜力，并鼓励研究者对创新算法与模型进行进一步探索。