模式识别-贝叶斯统计-iris数据集 下载本文

精品文档

IRIS数据集下基于最小错误率和最小 风险的贝叶斯决策的实验与分析

贺翔 3115370035 硕5101

1欢迎下载

精品文档

1.问题描述

1.1 Iris数据集

Iris数据集包含3类4维样本,分别标为1, 2, 3。其中, 每类样本数目为50, 且服从正态分布,每个数据样本有4个特征向量,分别代表萼片长度, 萼片宽度, 花瓣长度和花瓣宽度。 1.2要求

假设Iris数据是正态分布的,要求考虑各种实验可能性(分组数量、分组策略、先验概率等),用样本对多维正态密度函数进行参数估计(均值向量和协方差矩阵),最后对3类Iris两两分类。

2.原理描述

2.1贝叶斯公式

已知共有M类别?i,i?1,2,?M,统计分布为正态分布,已知先验概率P(?i)及条件概率密度函数P(X|?i),对于待测样品,贝叶斯公式可以计算出该样品分属各类别的概率,即后验概率。贝叶斯公式为

P(?i|X)?P(X|?i)P(?i)?P(X|?)P(?)jjj?1M,i?1,2,?M

因此给定一个未知类别的数据样本X,贝叶斯分类法将预测

X属于具有最高后验概率的类。故此问题的数学描述为:多元正

态概率模型下的贝叶斯分类。

2欢迎下载

精品文档

2.2参数估计

其中,条件概率密度函数P(X|?i)为正态密度函数,用大量样本对其中未知参数进行估计,多维正态密度函数为

P(X)?1T?1exp[?(X??)S(X??)]1/2n/22(2?)S?(x1,x2,?xn)1

式中,X为n维向量;

??(?1,?2,??n)为n维均值向量;

TS?E[(X??)(X??)]为

n维协方差矩阵;

S是S的逆矩阵; S是S的行列式。

大多数情况下,条件密度可以采用多维变量的正态密度函数来模拟。

P(X|?i)?ln{1(2?)n/2Si1/2?1exp[?1?1(X?X(?i))TSi(X?X(?i))]}2

??1n1?1(X?X(?i))TSi(X?X(?i))?ln2??lnSi222

X(?i)为?i类的均值向量。

2.3先验概率

设数据集样本有d个属性,因此可用一个d维列向量

x?[x1,x2,...,xd]T来表示。同时假定有c个类?1,?2,...?c。如果类的先验

概率未知,则可以假定这些类是等概率的,即

P(?1)?P(?2)?...?P(?c),且

P(?i)?SiS

其中,Si是类?i中的训练样本数,而S是训练样本总数。

2.4贝叶斯决策

3欢迎下载