北京大学本科生毕业论文 1 pf (x) < pq h(x,
f , p,q)
0 其它
6.2.1 特征值 f(x)
对于本算法中的矩形特征来说,弱分类器的特征值 f(x)就是矩形特征的特征 值(5.2.2)。由于在训练的时候,选择的训练样本集的尺寸等于检测子窗口的尺寸,检测子窗口的尺寸决定了矩形特征的数量(5.2.3.3),所以训练样本集中的每个样本 的特征相同且数量相同,而且一个特征对一个样本有一个固定的特征值。
对于理想的像素值随机分布的图像来说,同一个矩形特征对不同图像的特征值的平均值应该趋于一个定值4:k。
这个情况,也应该发生在非人脸样本上,但是由于非人脸样本不一定是像素随机的图像,因此上述判断会有一个较大的偏差。
对每一个特征,计算其对所有的一类样本(人脸或者非人脸)的特征值的平均值,最后得到所有特征对所有一类样本的平均值分布。
如图 16,显示了 20×20 子窗口里面的全部 78,460 个矩形特征对全部 2,706 个人脸样本和 4,381 个非人脸样本5的特征值平均数的分布图。由分布看
4
这个应该很好理解,对于随机分布的像素值,由于矩形特征中的矩形块的大小相同,则每个块内的总像素
值应该在统计上是相同的。特别地,对于有相同数目白块和黑块的矩形特征,这个定值 k 应为 0
基于 AdaBoost 算法的人脸检测 赵楠 44
北京大学本科生毕业论文 出,特征的绝大部分的特征值平均值都是分布在 0 前后的范围内。出乎意料的是,人脸样本与非人脸样本的分布曲线差别并不大,不过注意到特征值大于或者小于某个值后,分布曲线出现了一致性差别,这说明了绝大部分特征对于识别人脸和非人脸的能力是很微小的,但是存在一些特征及相应的阈值,可以有效地区分人脸样本与非人脸样本。
人脸图像 非人脸图像
人脸图像和非人脸图像同尺寸比较(横轴进行了裁剪)
5
本文使用的是一套 MIT 的人脸训练样本库,共有人脸图像 2706 张和非人脸图像4381 张。其中人脸图像
的示例参见图 3,非人脸图像的示例参见图 20。
基于 AdaBoost 算法的人脸检测 赵楠 45
北京大学本科生毕业论文
图 16 所有矩形特征对所有图片的特征值平均数分布 (横坐标是按特征值平均值排序后的特征编号)
为了更好地说明问题,我们从 78,460 个矩形特征中随机抽取了两个特征 A 和 B6,这两个特征遍历了 2,706 个人脸样本和 4,381 个非人脸样本,计算了每张图像对应的特征值,最后将特征值进行了从小到大的排序,并按照这个新的顺序表绘制了分布图,如图 17 和图 18。一些统计数据如下:
特征 样本 特征 A 人脸 非人脸 特征 B 人脸 差值 非人脸 差值
6
在 FáDèt 程序里面,A 和 B 对应的矩形特征索引分别是12435 和32789。这两个特征都是选取的1x2 形
式的,为的是更简单地说明问题。 基于 AdaBoost 算法的人脸检测 赵楠
46
北京大学本科生毕业论文 样本数量 总和 平均值 中值 范围差 0 点左边特征百分比 2,706 330,953 122.30 116 14,133 4,381 -137,143 -31.30 -17 23,503 - 468,096 153.6 133 -9,370 2,706 -4,480,530 -1655.78 -1,484 8,763 4,381 -1,601,750 -365.61 -144 14,760 - -2,878,780 -2,021.39 -1628 -5997 46.5% 51.5% -5% 93.4% 59.4% 34% 表 6 特征 A、B 对所有图像特征值的统计表
特征 A 和特征 B 的表现大相径庭。
如图 17,特征 A 对人脸和非人脸样本的特征值为 0 的点几乎处于相同位置(46.5%,51.5%),且都在所有特征的中间范围7(-5%)。这说明矩形特征 A 对于人脸和非人脸几乎没有分辨能力。
如图 18,特征 B 对非人脸样本的分布,符合我们的预想,特征值为 0 的点处于所有特征的中间范围(59.4%),这说明特征 B 也“ 看不到” 非人脸的特点。但是对于人脸样本,特征 B 表现了很一致的倾向性,93.4%的特征在 0 点的一侧,与非人脸样本的相差 34%。这说明特征 B 能够相当可靠地分辨人脸和非人脸。
7
对于特征 A 和 B 来说,其对图像的特征值越接近 0,可以在一个方面说明这个图像在矩形特征这个区域
的随机性越大;如果 0 点越接近中心,则说明越多的图像被这个特征“ 平均”(也可说是随机)地被区分在两侧,也就是说这个特征对“ 看不到” 这些图像的特点。 基于 AdaBoost 算法的人脸检测 赵楠
47
北京大学本科生毕业论文 上述的分析说明,确实存在优势的矩形特征,能够在一定的置信范围内区分人脸和非人脸。由于是使用统计的方法计算人脸图像和非人脸图像的差别,因此最后得到的区分阈值,也只能是在某个概率范围内准确地进行区分。
非人脸图像特征值分布
基于 AdaBoost 算法的人脸检测 赵楠 48