当前位置: 首页 >> 研究项目 >> 视觉推理 >> 正文

事件常识推理


发表时间:2025-01-08 20:21 点击数:


尽管视觉事件对人类认知具有重要影响,但由于其复杂的结构、多层次的语义体系以及动态演变特性,视频事件理解对人工智能而言仍具挑战性。为此,本项目提出视频事件理解任务,旨在从视频中提取事件脚本并基于这些脚本进行预测。为支持该任务,本项目构建了VidEvent大规模数据集,该数据集包含23,000多个精细标注的事件,具有从电影解说视频中提取的详细事件结构、广泛的语义层次和逻辑关系。通过精心设计的标注流程,确保了事件数据的高质量和可靠性。同时,该方法提供了完整的基线模型,详细描述了其架构和性能指标。这些模型为后续研究设立基准,便于比较和改进。通过对VidEvent数据集及基线模型的分析,该方法证明该数据集在推进视频事件理解研究方面的潜力,并鼓励研究者对创新算法与模型进行进一步探索。