数据挖掘实验报告
xxx 201021030483
1
基于
weka
的数据分类分析实验报?/p>
1
实验基本内容
本实验的基本内容是通过使用
weka
中的三种常见分类方法
(朴素贝叶斯?/p>
KNN
和决?/p>
?/p>
C4.5
)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价?/p>
找出各个模型最优的参数值,
并对三个模型进行全面评价比较?/p>
得到一个最好的分类模型?/p>
及该模型所有设置的最优参数?/p>
最后使用这些参数以及训练集和校验集数据一起构造出一?/p>
最优分类器,并利用该分类器对测试数据进行预测?/p>
2
数据的准备及预处?/p>
2.1
格式转换方法
原始数据?/p>
excel
文件保存?/p>
xlsx
格式数据,需要转换成
Weka
支持?/p>
arff
文件格式?/p>
csv
文件格式。由?/p>
Weka
?/p>
arff
格式的支持更好,这里我们选择
arff
格式作为分类器原?/p>
数据的保存格式?/p>
转换方法:在
excel
中打开?/p>
movie_given.xlsx
?/p>
,选择菜单文件
->
另存为,在弹出的?/p>
话框中,文件名输入?/p>
total_data
?/p>
,保存类型选择?/p>
CSV
(逗号分隔?/p>
?/p>
,保存,我们便可?/p>
到?/p>
total_data.csv
”文件;然后,打开
Weka
?/p>
Exporler
,点?/p>
Open
file
按钮,打开刚才?/p>
到的?/p>
total_data
”文件,点击?/p>
save
”按钮,在弹出的对话框中,文件名输入?/p>
total_data
?/p>
?/p>
文件类型选择?/p>
Arff data files
?/p>
*.arff
?/p>
?/p>
,这样得到的数据文件为?/p>
total_data.arff
?/p>
?/p>
2.2
如何建立数据训练集,校验集和测试?/p>
数据的预处理过程中,
为了在训练模型?/p>
评价模型和使用模型对数据进行预测能保证一
致性和完整性,首先要把
movie_given.xslx
?/p>
test.xslx
合并在一起,因为在生?/p>
arff
文件?/p>
时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦?/p>
通过统计数据信息,发现带有类标号的数据一共有
100
行,为了避免数据的过度拟合,
必须把数据训练集和校验集分开,目前的拆分策略是各
50
行。类标号为?/p>
female
’的数据
?/p>
21
条,而类标号为?/p>
male
’的数据?/p>
79
条,这样目前遇到的问题是,究竟如何处理仅?/p>
?/p>
21
?/p>
female
数据?为了能在训练分类模型时有更全面的信息,所以决定把包含
21
?/p>
female
类标号数据和
29
?/p>
male
类标号数据作为模型训练数据集,而剩下的?/p>
49
条类标号
?/p>
male
的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作?/p>
区别不大?/p>
而在训练数据模型时,
则更需要更全面的信息,
特别是不同类标号的数据的合理
比例对训练模型的质量有较大的影响?/p>