基于视频结构化图侦系统的应用 下载本文

库的结构化管理能力, 严重阻碍了用户的交互操作使用。 为此, 随着视频监 控系统在社会治安防控体系中应用的日益广泛, 视频监控系统的深度应用研究越 来越成为人们的关注和研究的热点, 国内外许多研究机构和单位开展相应的研究。

1.3.1

国外应用研究现状

1994 年,卡

在国外 , 对视频结构化分析、摘要技术的研究起步稍早一点,

内基梅隆大学就己经开始研发视频数据库系统, 该系统在视频摘要方面有非常系 统而深入的研究。 它更注重缩略视频的生成, 即怎样从一段长视频中抽取出视音 频信息生成能够表达原视频语义内容的精简视频。特别地,它运用了熟知的

TF-IDF 方法从脚本中抽取文字。 之后,Mannheim 大学也做了与 hiformed 系统 类似的研究。他们研究出的

系统 MOCA主要针对的是电影,能生成电影的精彩场景亦或是预告片

[2] 。

近年来,国际上有许多研究机构开展了深入的研究, 有微软研究院 ( 张宏江、 马宇飞和 Yong Rui 等人 ) 、IBM 研究院 (John R.Smith 等人 ) 、北卡州立大学 (Jianping Fan 等人) 、南洋理工大学 (Yap-Peng Tan 等人) 等,并产生了一些 “基 于内容”原型系统。

例如, IBM Almaden 研究中心研究开发的 QBIC 系统[3] ,是“基于内容” 检索系统的典型代表。 QBIC 系统允许使用例子图像、用户构建的草图和图画及 其选择的颜色和纹理模式、 镜头和目标运动等图形信息, 对大型图像和视频数据 库进行查询。 QBIC 技术集成语音识别的成果, 形成 CueVidco

系统。WebSeek

系 统[4] 是美国哥伦比亚大学研究开发的一种基于内容的多媒体搜索引擎的原型系 统, 它通过提取图像 / 视频的颜色、纹理以及文本等特征实现了运行于网络环境下 的基于内容的图像 / 视频检索 [5] 。目前,国外视频内容结构化技术在警务工作中 普及应用、成熟应用的案例仍鲜见报道。

1.3.2 国内应用研究现状

对于国内来说 , 关于基于内容的视频结构化技术的研究起步比较晚

, 从 20 世纪 90 年代后期开始 , 才逐渐受到多媒体研究领域的关注 , 因此 , 相应的技术水 平较国外有一定的差距。近年来,为满足案件侦查、治安管理工作的需要,国内 一些公安机关还专门组建了视频侦查部门, 息进行整理、分类存储。

探索建立视频数据库, 对视频图像信

但是,目前由于视频的非结构化、 多语义性和大数据量, 加上案事件侦查对 智能化手段应用的严密性、成熟度要求高,在实际工作中仍然以人工调阅为主, 在视频信息的结构化、体系化共享、整合应用上还在探索、实践阶段,相关的产 品和案例不多,还没有形成统一的平台应用模式。具体表现在:

(1)在视频数据采集上,大量的视频数据主要在案事件发生以后,根据案 件进行事后视频调阅、 查看采集为主, 而在线实时采集主要运用于道路通行车辆 的车牌抓拍识别,对其他方面的识别运用较少。

(2)在视频数据库建设上,目前各地所建的视频数据库主要是对截取的视 频片段进行简单的案件关联标注,

以原始视频媒体的方式存储, 只能通过案件进

行关联查询,视频检索仍然靠人工查看方式。

(3)在软硬件产品上,受制于图像识别、成像环境等的复杂性,目前国内 基于视频图像系统的设备大都以图像传输为主的, 产品较少。

目前,主要有广东省公安厅研发的 VCS 视频图像采集摘要比对器 [1] 、北京 能通公司的 S80 视频取证终端、 成都索贝科技公司的 i3DSP 视频侦查器等产品。

(4)在应用平台建设上, 目前各地都在积极整合运用先进的视频特征提取、 结构化分析、视频摘要等技术,结合警务工作,探索建立规范化、系统性视频信 息共享工作平台。例如,广东深圳、重庆等地公安机关已经在探索建立图侦系统, 江苏吴江市公安局研发的视频图像智能分析系统,

能够对 1 小时普通视频录像, 用于视频摘要、 证据提取上的

经处理形成不到 5 分钟的摘要视频,且不会丢失有效运动对象,便于快速定位 嫌疑目标。

2000 年以来,国内大学、研究机构积极开展视频内容结构化领域的理论与 实践研究,取得了一些积极成果。 比较典型的视频检索系统有

: 国防科技大学 研

制开发的 New VidcoCAR 和 MIRC 系统 [6] ,主要用于对对新闻节目和多媒体数 据库进行查询和检索多媒体信息; 由清华大学研发的 TV-FI 系统[7] ,是一个视 频节目综合管理系统 , 提供浏览、查询等多种模式的视频数据访问方式;中科院 计算技术研究所开发的

MIRES(Multimedia Information Retrieval Systern)

统[8] ,是一个基于特征的多媒体信息检索系统,该系统实现了基于内容的图像 检索及文本检索 , 同时还可以应用于视频检索等相关应用领域。

目前,国内“基于内容”视频数据检索方面,已经形成了由视频特征提取、 结构化分析、 视频摘要, 以及视频检索和浏览等五项关键技术组成的视频数据检 索系统,其处理流程如图 1-2 所示。

图 1-2 基于内容的视频数据检索系统处理流程

1.4. 主要工作

本文对视频信息的规范化采集、 结构化存储和全局性共享等问题进行了研究 与分析, 提出基于视频内容结构化分析理论, 整合先进的视频特征提取、 视频结 构化、视频摘要、视频索引等图像处理技术,按照“一个证据中心,两个核心应 用”方式来构建图侦系统的技术方案和应用模式, 使图像处理技术成为案事件的 侦破手段和情报来源, 推进视频图像监控系统建设由 “信息”到“情报”的演进。 主要工作包括:

(1)分析了当前公安图侦工作的困难和制约,研究了视频图像从采集、研 判、管理的一体化应用工作模式,基于视频内容结构化分析技术,提出了“视频 证据中心、视频图像取证、视频研判分析”为框架网侦系统研发思路。

(2)针对当前图侦工作信息化的迫切需求,结合警务实际,以视频采集、 证据管理、研判应用为业务主线, 从各个层面研究图侦系统建设的总体技术方案, 设计了系统研发的体系架构、逻辑架构、数据架构、基本功能,以及与外部系统 之间的关系。

(3)针对非结构化视频建库的不足,从警务一体化的角度和人、车、物基 本要素入手, 研究并设计了视频结构化证据库的建库模型,

包括证据库的体系结

构、视频数据结构化定义、对外数据交互方式,以及证据库管理的基本功能。

(4)为提升图侦手段的应用水平,研究分析了图侦工作的关键业务角色、

业务环节和主要业务流程, 明确了视频取证、 情报研判对图侦系统的基本功能需 求,整合运用视频结构化、视频摘要、视频索引等先进技术,进行了应用软件的 设计和实现。

使用结果表明, 基于视频结构化开发的图侦系统, 能够实现视频监控信息的 全程筛选,防止有用信息的流失, 再造了视频监控及研判应用的信息流及业务流, 有效地支撑了图侦工作机制的转型发展。

第二章 基础技术概述 2.1. 据,

视频结构化理论综述 视频数据在形式上是一种完全没有结构性的数但是在内容上它又有着很

( 也称作故 强的逻辑结构。一般来说,一段视频由一些描述独立故事单元的场景

事单元 ) 构成:一个场景由一些语义相关的镜头组成,它们一般发生在相同的时 间和地点, 出现相同的人物或事件; 一个镜头是由一些连续的视频帧构成,

它由

摄像机一次摄像的开始和结束所决定。 视频结构化分析是指将视频序列按照其语 义内容分割为镜头、 镜头类、场景等语义单元, 从而实现视频序列的层次化组织 , 使之便于随机访问。

根据内容粒度的大小,视频数据一般被结构化为从大到小的 频、场景、镜头和图像帧,如图 2-1 所示。

4 个层次:视

图 2-1 视频内容的层次组织结构

在层次组织的结构化视频中,各层次的含义和属性分为为:

(1) 视频帧 (Frame) :视频流中的一幅静态图像。 帧是视频数据的最小视觉单 位, 时间上连续的帧合成动态图像序列。 帧的属性有: 直方图、轮廓图、DC 和 AC 分量图等。

(2) 镜头 (Shot) :摄像机在一次从打开到关闭的操作过程中记录的一组连续 图像帧。镜头是视频数据的基本单位。镜头属性有:持续时间、开始帧号、结束 帧号、代表帧集合、特征空间等。

(3) 场景 (scene) :在时间和空间上连续的视频背景 , 由多个连续的镜头组成 , 描述一段具体的语义内容。场景也称为故事单元 (Story Unit) 。场景的属性有: 标题、持续时间、镜头数目、开始镜头和结束镜头等。

(4) 视频 (Video) :原始的视频数据。 可以包含一个或多个场景。 视频流的属 性有:

场景个数和持续时间等。

从时间轴上看, 视频是由一系列连续的图像帧和相应音频构成的集合, 集合 中的基本元素是图像帧。 视频数据的结构化就是对视频在时间上的层次分割, 完 成原始的非结构化的视频流到结构化的视频实体的转换。 结构化将视频基本元素 图像帧划分为多个子集, 成为不同层次上的结构实体。 其中, 视频文件和帧是视 频数据本身所拥有的物理层次, 而场景和镜头则是概念上的层次。 划分的基本问 题是镜头边界和场景边界检测问题 (scene-change-Detection ,SCD),镜头检测 使用颜色直方图、 边缘、运动以及统计信息的方法来识别摄像机的运动; 场景识 别可以通过镜头背景相似度和音频特性的内容来识别。 越是高级层次的划分越是 困难,例如:故事单元的划分,其物理特征的区别并不明显,需要一些高级语义 的辅助,其划分的有效性依赖于知识库以及基于知识的判断等人工智能技术的发 展。视频的组织过程是从最底层的图像帧开始,

借助于镜头检测, 将图像帧组合

聚合为镜头; 通过背景、 音频等特性将一系列语义相关、 时间相邻的镜头组合为 场景;再通过一些高层的语义知识将场景结合为故事。

可见,视频数据的组织划分过程就是视频流的不断抽象的过程。 2.1.1 基于镜头的结构化分析