1993 年 Zhang[12] 首次提出了镜头边界检测的思想,奠定了镜头边界检测 的基础。
基本可以概括为三个步骤 : 视频帧的特征提取,帧间差的计算,选取准则确 定这些差异并判定镜头边界, 包括选取适当的阀值。 直方图特征的提取是应用最 为广泛的特征,在多种颜色空间中,例如
RGB,YUV 或是 HSV,把每一维的信息
量化为 N 个槽 (bin) ,然后统计属于每个槽内的像素个数, 然后进行归一化便得 到帧的颜色直方图特征。由于直方图特征的统计特性,对颜色分布的很好描述, 所以帧间差的计算方法多大依靠直方图特征。一般情况下, 当差值超过某一阈值 时,认为存在一个镜头边界。颜色直方图的比较有如下比较方式,如式 式(2-2) 和式 (2-3) 所示。
(2-1) ,
2.1.2 基于关键帧的结构化分析
关键帧具有代表性, 利用关键帧来描述镜头、 场景或是整段视频, 以作为结 构化分析的基础。这样能保留视频内容的主要信息,可以减少冗余信息的计算。
Taniguchi[16] 采用等间隔采样的方法,按照一定的时间段抽取关键帧。这 种做法的优点是计算简单、 速度快, 但是造成选取的关键帧过多,
且不具有代表
性的缺点。后来,他 [17] 又直接选取每个镜头的第一帧或是最后一帧作为镜头 的关键帧。 Yeung[18] 等人提出在一个镜头中先将第一帧作为关键帧,随后的帧 与当前的关键帧进行颜色特征的比较,超过某一阈值的,则再选取一个关键帧, 重复上面的比较,就可完成镜头内的关键帧的抽取。
2.1.3 基于场景聚类的结构化分析
场景就是具有相同语义特性的镜头组, 许多研究者利用比较镜头相似度的方 法,把相关的镜头聚类成场景 [19] ,来进行场景分割。 时间固定的镜头聚类算法 [20] 和时间自适应分组法 [21] ,也是场景分割算法的代表性工作。 前者在一个特
定时间窗口内, 利用里边的视频帧来计算镜头的相似性, 而窗口外的镜头的相似 性则不予考虑, 聚类效果由于时间的限制具有不完全的确定。 后者提出了时间自 适应分组法, 克服了固定时间聚类算法的不足, 把两个镜头之间的时间距离也作 为镜头相似度的考虑因素,距离越大,相似度越小。另外,
Alan Hanjalic
和
WallapakTavanapong 采用了图像分块的方法来计算镜头相似性度量,从而聚类 算法来构造场景,因为图像的每个区域都从不同角度体现视频场景的特征。 Hanjalic
对镜头的关键帧图像合并,得到新的一幅图像,并对其进行分块,以 块
为最小单元, 这样代表两个镜头的两幅新图像, 求出他们中距离相似度最大的 N 个块的距离值, 平均后作为镜头之间的相似度, 镜头聚类是基于重叠链接的算 法(Overlapping Links Connecting Similar Shots)
。他还介绍了一种用于自动
提取视频摘要的聚类方法。类似的, WallapakTavanapong 则直接把静态帧图像 分成几个区域,然后通过依次比较对应区域之间的相似度来确定镜头的相似度, 也利用镜头链算法提取场景。
Chong-wah Ngo 等[26] 使用张量直方图提取
运动特征, 再利用 K-means 算法来对体育视频进行了聚类和检索。 Vailaya 等提出了基于类别的视频块检索方法。胡晓峰等
[28] 提出了基于 HSV 颜色直方
图特征提取的自校正镜头聚类算法。 目前,国内外学者对基于场景聚类的结构化 分析方法,如颜色、纹理、形状、动态、频度等视频图像特征,已经进行了广泛 而深入的研究, 取得了重大进展, 为视频内容的结构化分析技术的广泛应用奠定 的强有力理论及技术基础。
2.2.
视频摘要技术综述
所谓“视频摘要技术” ,简单地说,就是通过计算机自动处理技术,对视频 的内容和结构进行分析, 并从原视频内容中提取出用户需要的信息, 通过再整合 后形成摘要视频。 摘要视频远远短于原始视频, 如果一个视频摘要能够做到尽量 准确和充分, 那么就能够让用户在最短时间内获得最关键的信息, 极大地提高效 率。这样,当发生重特大案事件时,需要调取大量监控摄像头的视频录像,按照 原来人工的方式, 需要安排数十上百民警不分昼夜连续观看成千上万小时的视频 录像,以期发现短短几秒的视频线索,工作强度和压力是巨大。近年来,国内外 在视频摘要技术等方面的研究取得了快速进展,
许多新技术应用日益成熟。 例如,
基
顾诤、智敏、 刘彩云等分别提出了一种新颖的基于近邻传播聚类和频繁镜头、
于场景、对象的视频摘要生成方法。
依托先进的视频摘要技术, 可以大大缩短视频查看时间, 可以快速提取线索、 锁定可疑目标。
联想在自然语言处理 (NLP,Natural Language Processing) 研究领域,“主题” 是表示文本内容的重要方式,文本的主题抽取在
NLP 中是的基础性的工作,即
从文本中抽取出特征词组成若干主题句, 用以概括文本的主要内容。 在视频处理 领域与文本的主题抽取类似,视频摘要
(Video Synopsis) ,又称视频主题抽取
(Video Abstraction ,Video Summarization) ,即用一段很短的视频对原始视频 中的内容进行高度概括,通过观看这段短视频,就能知道整个视频的大概内容。
根据摘要信息表现形式的不同,可以把视频摘要技术分为静态图像摘要 (Video Summary) 和动态图像摘要 (Video Skim) 两种基本类型 [32] 。经过摘要以 后的缩略视频由于含有丰富的时间以及音频信息,因而更加符合用户的感知。
2.2.1 静态视频摘要形式 静态视频摘要是从原始视频中剪取或生成的一小部分静止图像的集合,
代表了原始视频的图像称为关键帧 (Key Frame) 。
(1) 标题 (Titles) :是对视频内容的一段简短的文字描述,这种文本方式的 视频摘要是最简洁的形式, 便于理解和建立索引, 也是一种高度抽象的表达形式。 标题形式的视频摘要往往需要人工来完成, 计算机不能自动生产能够准确概括视 频片断内容的文字描述。 通常也可以通过计算机自动字幕识别和视频伴随语音识 别,来进一步分析生成摘要文字。
(2) 关键帧 (Key Frame) .是指从原视频中抽取或生成一幅或几幅静态图像, 能够部分地表达视频的语义信息。 基于关键帧的摘要比标题形式的摘要更能从视 觉的角度为用户提供更加直观的可视信息。 但这种方式只能反映某一时刻视频的 静态内容, 不能展示视频的时间和动态特性。 因此, 它一般适合于表现景物内容 相似的镜头和场景的视觉特征。 另外,关键帧形式的摘要对其他形式的静态视频 摘要以及动态的缩略视频的生成也有很大的参考价值, 究人员的关注。
(3) 故事板 (Story Board) :将多帧从视频片段中抽取出的图像及标题按时间 顺序排列起来就形成了故事板。 它可以向用户提供视频的总体描述, 在浏览过程
因此,多年来一直受到研
这些
中也可以方便地定位到视频中感兴趣的部分。 故事板不仅能表达视频视觉上的信 息,同时还能反映视频的时间信息, 更能体现视频的丰富内容。 在实际应用中故 事本通常与文本标题相结合,更利于浏览和检索。
(4) 场景转移图 (STG)。场景转移图反映了视频内容的场景转移, 它用一种简 洁可视的方式来表现视频数据, 可以对视频进行层次化的非线性浏览。 场景转移 图是一个有向图, 节点代表含有相似镜头的聚类, 两个镜头之间的关系用边来描 述,表示镜头的先后顺序。 节点与边共同构成了场景图, 反映视频内容的场景转 移。场景转移图仅仅对视频内容进行了有效的静态描述。
(5) 幻灯片 (Slide Show) :音频对于用户理解视频的内容有着非常重要的作 用,幻灯片是伴随音频的时间序列帧, 它们是关键帧集合的子集。 幻灯片提供了 一种相对动态的摘要机制, 相对其他动态视频摘要, 比较适合在低带宽的网络环 境下使用。
2.2.2 组成,
动态视频摘要形式 动态视频摘要是由一些图像序列以及对应的音频它本身就是一个视频
片段,同时比原始视频短的多。
(1) 缩略视频 (Video Skim) :是对原视频内容的剪辑。 它本身也是一段视频, 由原视频中的一些片段拼接而成。 缩略视频保留了原视频的基本风格, 具有更好 的动态性和连贯性。 缩略视频是动态视频摘要的主要形式, 一般包含了原视频中 主要人物、 主要事件片断, 故事的开头和结尾和精彩片段, 也会包含关键的字幕 内容。缩略视频广泛应用于影视预告片、 网络视频点播、 交互电视和新闻节目制 作等领域。
(2) 多媒体影片摘要 (Multimedia Films Summary)
:是在缩略视频摘要的基
础上加入了文字、 镜头图像等其他信息, 是一种由多种媒体形式组成的影片内容 表现方式。
例如,在一个电影的主题网页中, 可能包含文字形式的简介、 声音形式的精 彩对白、 视频形式的精彩片段等。 这种形式提供了更加丰富的影片内容表现, 同 时也为用户提供了多种浏览和检索影片的方式。
2.2.3
视频摘要的生成过程
尽管视频摘要的形式有多种多样, 采用的算法也不相同, 但视频摘要的生成
通常都经过这样几个步骤:
(1) 视频数据的结构化分析:将原始的视频流划分为合理的结构单位,形成 视频内容的层次模型, 并得到视频内容对象的相关描述。 的边界检测算法被分割为镜头、场景等。
(2) 视频内容的提取:视频中包含了许多能够为人类感官直接认知但不能被 计算机直接识别的内容,例如字幕、语音、人脸等等。还有一些是需要借助人类 的高级思维才能被认知的信息,例如情感、气氛等等,对这些信息,计算机更是 无能为力。 视内容的抽取, 就是采用模式识别或视频结构探测的方法,
获取能够
比如视频数据采用不同
被计算机直接处理, 或能够被人的感观直接感觉到的信息, 是获得视频摘要的基 本条件。
目前,视频内容抽取技术主要包括自动语音识别技术、 人脸探测与人物识别 技术、字幕探侧与识别技术、镜头运动探测技术、徽标探测与识别技术等。经过 多年的研究, 这些领域均取得了一定的进展。 例如, 自动语音识别技术的一些产 品比如 Microsoft
的 speech SDK 等,对于干扰较少、发音标准的语音已经有
了比较高的识别率 ; 人脸探测、跟踪与识别的研究更是开展得十分广泛,技术也 趋于成熟。
(3) 视频内容对象重要度的评判:以自动或人工提取的视频内容为基础,通 过建立一定的重要度评判标准或评判模型,对视频对象重要程度进行分级评判。 根据不同需求, 视频内容重要度的判定也有所不同。
一般在生成视频摘要的过程
中,往往先对视频进行结构化分析, 形成关于视频内容的层次模型, 并得到关于 一些对象的描述, 然后根据具体的需求结合我们某些领域知识, 对视频内容对象 的重要程度进行判定, 选取某些相关度高, 概括性强而又重要程度高的视频内容 形成缩略视频。
重要度的判定是一个比较主观的过程, 很难用一种定量的方法来描述摘要效 果的好坏。 目前研究的原型系统中, 大多采用了用户评估的方法。 这种方法费时 费力,能否找到一种合理的定量的视频摘要评价标准,是一个值得研究的问题。
(4) 视频摘要合成和表现: 将选择的重要视频内容对象以一定的方式组合起 来,形成某种形式的视频摘要,并以可视化的形式将摘要展现出来。
以上四条就是视频摘要的基本步骤, 有关视频摘要的研究都是围绕着这几个