核心背景与现实挑战
在当今诸多领域(如环境监控、智能交通系统、工业自动化及零售监控)中,人工智能驱动的视频分析技术正发挥着日益重要的作用。传统的视频分析系统大多局限于特定的、预先定义的闭环任务,在面对开放式的分析场景时缺乏足够的适应性和灵活性。
近年来,视觉语言模型(Vision Language Models, VLMs)作为一项变革性技术,展现出了实现开放式视频理解、推理和分析的巨大潜力。VLMs 能够结合视觉与语言理解,实现广义的视觉检测、因果推理、关键信息检索以及生成人类可解释的说明。然而,在实际应用中,视频源往往长达数百小时甚至表现为连续的视频流,而当前 VLMs 的上下文窗口长度十分有限(例如处理几分钟到几小时的视频即达到上限),这种固有的局限性给超长视频内容的处理带来了严峻挑战。现有的长视频理解技术或检索增强生成(RAG)框架在处理视频模态时,依然面临分析准确率下降和计算开销庞大的双重难题。
视频分析系统的智能分级定义 (L1 - L5)
为了清晰地界定视频分析系统的能力边界,可以将其智能水平划分为五个渐进的等级(L1 至 L5):
- L1(基础感知阶段): 专注于特定的分类、分割和检测任务。系统依赖 ResNet 或 EfficientDet 等模型,从视频数据中提取空间信息,如目标类别和边界框。
- L2(事件检测阶段): 在空间信息提取的基础上,进一步实现因果事件检测和短时分析。系统利用 C3D 或 ActionFormer 等模型,通过时空建模来定位事件(如动作、活动、异常情况)。
- L3(自然语言查询阶段): 融合自然语言处理(NLP)能力。通过借助 CLIPBERT 等模型,系统能够理解并响应自然语言查询(例如“视频中出现了哪些动物?”),而不仅仅局限于检测预先定义的事件,大幅提升了系统的可访问性。
- L4(开放式推理阶段): 实现开放式的视频理解、推理与分析。该层级的系统支持通用视频分析,能够处理复杂的自然语言查询并生成符合语境的回答,同时支持长期的时空推理(如分析目标跌倒的原因或动物出镜后的行为模式)。
- L5(知识增强分析阶段): 最高级别的智能状态。系统能够自主整合外部的公共与领域特定知识源,挖掘视频内容与广阔世界知识之间的显性和隐性联系,从而得出深刻的洞见并提供自动化的操作方案。
AVA 系统概述
AVA 是一个由视觉语言模型驱动的、专为开放式和高级视频分析设计的 L4 级别系统。为解决长视频处理的瓶颈,AVA 实现了以下两大核心创新机制:
- 事件知识图谱 (Event Knowledge Graphs, EKGs) 的近实时构建: 专为高效索引长视频或连续视频流而设计。
- 代理式检索-生成机制: 深度利用 EKGs,智能处理高度复杂且多样化的用户查询。
该系统不仅能够分析长达数百小时的极长视频,还支持以高于 1 FPS 的近实时速度进行索引构建与分析,并能胜任包括时序定位、事件摘要、实体理解、多跳推理及关键信息检索在内的多样化任务。
核心运行机制深度解析
1. 近实时索引构建与事件知识图谱 (EKGs)
有别于传统文本 RAG 系统中使用的普通知识图谱,AVA 提出的 EKG 能够有效表征富有洞察力的事件流,精准捕获视频的动态演变和时间一致性。系统采用轻量级的 VLM(如 Qwen2.5-VL-7B)提取视频中的结构化信息以构建图谱,并通过一系列优化技术确保了极高的运行效率(在典型边缘服务器上可达 5 FPS 以上)。
- 语义分块 (Semantic Chunking):
- 输入视频首先被统一划分为均匀的短视频块。
- 通过小型 VLM 为每个短视频块生成文本描述。
- 利用 BERTScore 计算任意两个视频块描述之间的成对语义相似度。
- 合并标准: 若视频块内部的相似度超过预设阈值(经验值为 0.65),则表明它们属于同一事件,将被合并为单一语义块;合并会持续进行,直到相邻语义块边界的相似度低于设定阈值。
- 实体去重与链接 (Entity De-duplication and Linking):
- VLM 独立从各个事件中提取的实体往往存在高度冗余和命名不一致(例如同一动物分别被识别为“raccoon”和“procyon lotor”)。直接使用字符串匹配无法解决此问题。
- AVA 引入文本嵌入模型(例如 JinaCLIP),将所有提取的实体编码为高维向量表示。
- 采用 K-means 聚类算法计算嵌入相似度,将语义相同的实体归为同一簇,从而完成统一的去重与链接,极大提升了存储与检索效率。
2. 代理式检索与生成 (Agentic Retrieval and Generation)
AVA 并未采用直接从索引中检索相关片段的传统做法,而是引入了一种代理搜索机制。该机制能够主动利用 EKG 中捕获的上下文线索进行信息搜集,有效应对摘要生成和多跳推理等复杂问题。
- 三视图检索 (Tri-view Retrieval):
- 事件视图 (Event-level): 主要服务于事件摘要相关的查询。查询文本通过 JinaCLIP 编码后,直接与 EKG 中的事件表进行特征匹配。
- 实体视图 (Entity-level): 主要服务于事实核查或特定目标查询。该过程依赖于去重与聚合后的实体质心数据进行精准定位。
- 树搜索深度控制 (Tree Search Depth):
- 代理搜索的深度是一个关键参数。研究表明,将最大树搜索深度设置为 3 能够取得最佳的准确率收益。
- 若进一步将深度增加至 4,由于引入了过多不相关的噪声信息,准确率反而会下降,且计算开销(如从深度 1 的 6.7秒 飙升至更深层的数百秒)会急剧增加。
实验评估与基准测试表现
在公开基准测试上的表现
系统在主流的公共视频理解基准测试(包含约 400 个视频和 2500 个问题)中进行了全面评估:
- LVBench 表现: AVA 达到了 62.3% 的准确率,相较于基线模型大幅提升了 16.9%。在具体的任务类型中,时序定位提升了 16%、总结能力提升 5.3%、推理能力跃升 35.6%、实体识别提升 21.2%、事件理解提升 17.5%,关键信息检索提升 18.9%。
- VideoMME-Long 表现: 达到了 64.1% 的准确率,超越现有领先技术约 5.2%。对比典型的视频 RAG 系统和向量化检索方法均展现出了绝对优势。
AVA-100 超长视频基准测试
为了专门针对 L4 级别超长视频和开放世界分析的性能进行评估,研究团队全新引入了 AVA-100 基准测试。
- 数据集构成: 包含 8 个经过精心策划的极长视频,每个视频时长均超过 10 小时(总时长接近 100 小时)。
- 场景覆盖: 涵盖日常人类活动(第一人称移动视角,源自 Ego4D)、城市漫步(第一人称移动视角)、野生动物监控(固定摄像机视角)以及交通路口监控(固定摄像机视角,源自 Bellevue 交通视频集)。
- 评估结果: 数据集包含 120 个手动标注的多样化且高度复杂的问答对。AVA 系统在该测试中展现出了极强的鲁棒性,取得了 75.8% 的极高准确率。相比之下,传统的 Qwen2.5-VL-7B 和 Gemini-1.5-Pro 在处理扩展至 10 小时的视频时,性能出现了 4.6% 到 8.2% 的严重衰退。AVA 凭借其代理化架构,成功克服了时长带来的挑战,证明了其在实际大规模监控和视频梳理中的卓越应用价值。