新建
上传
首页
助手
最?/div>
资料?/div>
工具

数据挖掘实验报告

 

xxx 201021030483 

 

1 

基于

weka

的数据分类分析实验报?/p>

 

1

实验基本内容

 

本实验的基本内容是通过使用

weka

中的三种常见分类方法

(朴素贝叶斯?/p>

KNN

和决?/p>

?/p>

C4.5

)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价?/p>

找出各个模型最优的参数值,

并对三个模型进行全面评价比较?/p>

得到一个最好的分类模型?/p>

及该模型所有设置的最优参数?/p>

最后使用这些参数以及训练集和校验集数据一起构造出一?/p>

最优分类器,并利用该分类器对测试数据进行预测?/p>

 

2

数据的准备及预处?/p>

 

2.1

格式转换方法

 

原始数据?/p>

excel

文件保存?/p>

xlsx

格式数据,需要转换成

Weka

支持?/p>

arff

文件格式?/p>

csv

文件格式。由?/p>

Weka

?/p>

arff

格式的支持更好,这里我们选择

arff

格式作为分类器原?/p>

数据的保存格式?/p>

 

转换方法:在

excel

中打开?/p>

movie_given.xlsx

?/p>

,选择菜单文件

->

另存为,在弹出的?/p>

话框中,文件名输入?/p>

total_data

?/p>

,保存类型选择?/p>

CSV

(逗号分隔?/p>

?/p>

,保存,我们便可?/p>

到?/p>

total_data.csv

”文件;然后,打开

Weka

?/p>

Exporler

,点?/p>

Open 

file

按钮,打开刚才?/p>

到的?/p>

total_data

”文件,点击?/p>

save

”按钮,在弹出的对话框中,文件名输入?/p>

total_data

?/p>

?/p>

文件类型选择?/p>

Arff data files

?/p>

*.arff

?/p>

?/p>

,这样得到的数据文件为?/p>

total_data.arff

?/p>

?/p>

 

2.2

如何建立数据训练集,校验集和测试?/p>

 

数据的预处理过程中,

为了在训练模型?/p>

评价模型和使用模型对数据进行预测能保证一

致性和完整性,首先要把

movie_given.xslx

?/p>

test.xslx

合并在一起,因为在生?/p>

arff

文件?/p>

时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦?/p>

 

通过统计数据信息,发现带有类标号的数据一共有

100

行,为了避免数据的过度拟合,

必须把数据训练集和校验集分开,目前的拆分策略是各

50

行。类标号为?/p>

female

’的数据

?/p>

21

条,而类标号为?/p>

male

’的数据?/p>

79

条,这样目前遇到的问题是,究竟如何处理仅?/p>

?/p>

21

?/p>

female

数据?为了能在训练分类模型时有更全面的信息,所以决定把包含

21

?/p>

female

类标号数据和

29

?/p>

male

类标号数据作为模型训练数据集,而剩下的?/p>

49

条类标号

?/p>

male

的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作?/p>

区别不大?/p>

而在训练数据模型时,

则更需要更全面的信息,

特别是不同类标号的数据的合理

比例对训练模型的质量有较大的影响?/p>

 

Ͼλ
新建
上传
首页
助手
最?/div>
资料?/div>
工具

数据挖掘实验报告

 

xxx 201021030483 

 

1 

基于

weka

的数据分类分析实验报?/p>

 

1

实验基本内容

 

本实验的基本内容是通过使用

weka

中的三种常见分类方法

(朴素贝叶斯?/p>

KNN

和决?/p>

?/p>

C4.5

)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价?/p>

找出各个模型最优的参数值,

并对三个模型进行全面评价比较?/p>

得到一个最好的分类模型?/p>

及该模型所有设置的最优参数?/p>

最后使用这些参数以及训练集和校验集数据一起构造出一?/p>

最优分类器,并利用该分类器对测试数据进行预测?/p>

 

2

数据的准备及预处?/p>

 

2.1

格式转换方法

 

原始数据?/p>

excel

文件保存?/p>

xlsx

格式数据,需要转换成

Weka

支持?/p>

arff

文件格式?/p>

csv

文件格式。由?/p>

Weka

?/p>

arff

格式的支持更好,这里我们选择

arff

格式作为分类器原?/p>

数据的保存格式?/p>

 

转换方法:在

excel

中打开?/p>

movie_given.xlsx

?/p>

,选择菜单文件

->

另存为,在弹出的?/p>

话框中,文件名输入?/p>

total_data

?/p>

,保存类型选择?/p>

CSV

(逗号分隔?/p>

?/p>

,保存,我们便可?/p>

到?/p>

total_data.csv

”文件;然后,打开

Weka

?/p>

Exporler

,点?/p>

Open 

file

按钮,打开刚才?/p>

到的?/p>

total_data

”文件,点击?/p>

save

”按钮,在弹出的对话框中,文件名输入?/p>

total_data

?/p>

?/p>

文件类型选择?/p>

Arff data files

?/p>

*.arff

?/p>

?/p>

,这样得到的数据文件为?/p>

total_data.arff

?/p>

?/p>

 

2.2

如何建立数据训练集,校验集和测试?/p>

 

数据的预处理过程中,

为了在训练模型?/p>

评价模型和使用模型对数据进行预测能保证一

致性和完整性,首先要把

movie_given.xslx

?/p>

test.xslx

合并在一起,因为在生?/p>

arff

文件?/p>

时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦?/p>

 

通过统计数据信息,发现带有类标号的数据一共有

100

行,为了避免数据的过度拟合,

必须把数据训练集和校验集分开,目前的拆分策略是各

50

行。类标号为?/p>

female

’的数据

?/p>

21

条,而类标号为?/p>

male

’的数据?/p>

79

条,这样目前遇到的问题是,究竟如何处理仅?/p>

?/p>

21

?/p>

female

数据?为了能在训练分类模型时有更全面的信息,所以决定把包含

21

?/p>

female

类标号数据和

29

?/p>

male

类标号数据作为模型训练数据集,而剩下的?/p>

49

条类标号

?/p>

male

的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作?/p>

区别不大?/p>

而在训练数据模型时,

则更需要更全面的信息,

特别是不同类标号的数据的合理

比例对训练模型的质量有较大的影响?/p>

 

">
新建
上传
首页
助手
最?/div>
资料?/div>
工具

数据挖掘实验报告

 

xxx 201021030483 

 

1 

基于

weka

的数据分类分析实验报?/p>

 

1

实验基本内容

 

本实验的基本内容是通过使用

weka

中的三种常见分类方法

(朴素贝叶斯?/p>

KNN

和决?/p>

?/p>

C4.5

)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价?/p>

找出各个模型最优的参数值,

并对三个模型进行全面评价比较?/p>

得到一个最好的分类模型?/p>

及该模型所有设置的最优参数?/p>

最后使用这些参数以及训练集和校验集数据一起构造出一?/p>

最优分类器,并利用该分类器对测试数据进行预测?/p>

 

2

数据的准备及预处?/p>

 

2.1

格式转换方法

 

原始数据?/p>

excel

文件保存?/p>

xlsx

格式数据,需要转换成

Weka

支持?/p>

arff

文件格式?/p>

csv

文件格式。由?/p>

Weka

?/p>

arff

格式的支持更好,这里我们选择

arff

格式作为分类器原?/p>

数据的保存格式?/p>

 

转换方法:在

excel

中打开?/p>

movie_given.xlsx

?/p>

,选择菜单文件

->

另存为,在弹出的?/p>

话框中,文件名输入?/p>

total_data

?/p>

,保存类型选择?/p>

CSV

(逗号分隔?/p>

?/p>

,保存,我们便可?/p>

到?/p>

total_data.csv

”文件;然后,打开

Weka

?/p>

Exporler

,点?/p>

Open 

file

按钮,打开刚才?/p>

到的?/p>

total_data

”文件,点击?/p>

save

”按钮,在弹出的对话框中,文件名输入?/p>

total_data

?/p>

?/p>

文件类型选择?/p>

Arff data files

?/p>

*.arff

?/p>

?/p>

,这样得到的数据文件为?/p>

total_data.arff

?/p>

?/p>

 

2.2

如何建立数据训练集,校验集和测试?/p>

 

数据的预处理过程中,

为了在训练模型?/p>

评价模型和使用模型对数据进行预测能保证一

致性和完整性,首先要把

movie_given.xslx

?/p>

test.xslx

合并在一起,因为在生?/p>

arff

文件?/p>

时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦?/p>

 

通过统计数据信息,发现带有类标号的数据一共有

100

行,为了避免数据的过度拟合,

必须把数据训练集和校验集分开,目前的拆分策略是各

50

行。类标号为?/p>

female

’的数据

?/p>

21

条,而类标号为?/p>

male

’的数据?/p>

79

条,这样目前遇到的问题是,究竟如何处理仅?/p>

?/p>

21

?/p>

female

数据?为了能在训练分类模型时有更全面的信息,所以决定把包含

21

?/p>

female

类标号数据和

29

?/p>

male

类标号数据作为模型训练数据集,而剩下的?/p>

49

条类标号

?/p>

male

的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作?/p>

区别不大?/p>

而在训练数据模型时,

则更需要更全面的信息,

特别是不同类标号的数据的合理

比例对训练模型的质量有较大的影响?/p>

 

Ͼλ">
Ͼλ
Ŀ

基于weka的数据分类分析实验报?- 百度文库
新建
上传
首页
助手
最?/div>
资料?/div>
工具

数据挖掘实验报告

 

xxx 201021030483 

 

1 

基于

weka

的数据分类分析实验报?/p>

 

1

实验基本内容

 

本实验的基本内容是通过使用

weka

中的三种常见分类方法

(朴素贝叶斯?/p>

KNN

和决?/p>

?/p>

C4.5

)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价?/p>

找出各个模型最优的参数值,

并对三个模型进行全面评价比较?/p>

得到一个最好的分类模型?/p>

及该模型所有设置的最优参数?/p>

最后使用这些参数以及训练集和校验集数据一起构造出一?/p>

最优分类器,并利用该分类器对测试数据进行预测?/p>

 

2

数据的准备及预处?/p>

 

2.1

格式转换方法

 

原始数据?/p>

excel

文件保存?/p>

xlsx

格式数据,需要转换成

Weka

支持?/p>

arff

文件格式?/p>

csv

文件格式。由?/p>

Weka

?/p>

arff

格式的支持更好,这里我们选择

arff

格式作为分类器原?/p>

数据的保存格式?/p>

 

转换方法:在

excel

中打开?/p>

movie_given.xlsx

?/p>

,选择菜单文件

->

另存为,在弹出的?/p>

话框中,文件名输入?/p>

total_data

?/p>

,保存类型选择?/p>

CSV

(逗号分隔?/p>

?/p>

,保存,我们便可?/p>

到?/p>

total_data.csv

”文件;然后,打开

Weka

?/p>

Exporler

,点?/p>

Open 

file

按钮,打开刚才?/p>

到的?/p>

total_data

”文件,点击?/p>

save

”按钮,在弹出的对话框中,文件名输入?/p>

total_data

?/p>

?/p>

文件类型选择?/p>

Arff data files

?/p>

*.arff

?/p>

?/p>

,这样得到的数据文件为?/p>

total_data.arff

?/p>

?/p>

 

2.2

如何建立数据训练集,校验集和测试?/p>

 

数据的预处理过程中,

为了在训练模型?/p>

评价模型和使用模型对数据进行预测能保证一

致性和完整性,首先要把

movie_given.xslx

?/p>

test.xslx

合并在一起,因为在生?/p>

arff

文件?/p>

时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦?/p>

 

通过统计数据信息,发现带有类标号的数据一共有

100

行,为了避免数据的过度拟合,

必须把数据训练集和校验集分开,目前的拆分策略是各

50

行。类标号为?/p>

female

’的数据

?/p>

21

条,而类标号为?/p>

male

’的数据?/p>

79

条,这样目前遇到的问题是,究竟如何处理仅?/p>

?/p>

21

?/p>

female

数据?为了能在训练分类模型时有更全面的信息,所以决定把包含

21

?/p>

female

类标号数据和

29

?/p>

male

类标号数据作为模型训练数据集,而剩下的?/p>

49

条类标号

?/p>

male

的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作?/p>

区别不大?/p>

而在训练数据模型时,

则更需要更全面的信息,

特别是不同类标号的数据的合理

比例对训练模型的质量有较大的影响?/p>

 



ļ׺.doc޸Ϊ.docĶ

  • 2017-2018ƾѧѧ(020204)ԿĿ
  • ̨ס̰
  • ֪ʶ
  • 2014ҹԱϷϰ⾫
  • йиֲҵ鼰δӯսо
  • VBϰ⼰
  • ʦƶơ19ҵ2
  • ѻװͣȫ
  • ̨ѧľѧԺѧѧ
  • ز뾭Ӫģ()

վ

԰ Ͼλ
ϵͷ779662525#qq.com(#滻Ϊ@)