甘肃政法学院
本科生实验报告
(2)
姓名:
学院:计算机科学学院 专业:信息管理与信息系统 班级:
实验课程名称:数据挖掘 实验日期: 指导教师及职称: 实验成绩:
开课时间:2013—2014 学年
一 学期
甘肃政法学院实验管理中心印制
实验题目 姓名 Weka的数据聚类分析 班级 小组合作 学 号 一、实验目的 1、了解和熟悉K均值聚类的步骤 2、利用Weka中提供的simpleKmeans方法对数据文件进行聚类分析,更深刻的理解k均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。 二.实验环境 Win 7环境下的Eclipse 三、实验内容 在WEKA中实现K均值的算法,观察实验结果并进行分析。 四、 实验过程与分析 一、实验过程 1、添加数据文件 打开Weka的Explore,使用Open file点击打开本次实验所要使用的raff格式数据文件“auto93.raff” 2、选择算法类型 点击Cluster中的Choose,选择本次实验所要使用的算法类型“SimpleKMeans” 3、得出实验结果 选中“Cluster Mode”的“Use training set”,点击“Start”按钮,观察右边“Clusterer output”给出的聚类结果如下: === Run information === Scheme: weka.clusterers.SimpleKMeans -N 2 -S 10 Relation: auto93.names Instances: 93 Attributes: 23 Manufacturer Type City_MPG Highway_MPG Air_Bags_standard Drive_train_type Number_of_cylinders Engine_size Horsepower RPM Engine_revolutions_per_mile Manual_transmission_available Fuel_tank_capacity Passenger_capacity Length Wheelbase Width U-turn_space Rear_seat_room Luggage_capacity Weight Domestic class Test mode: evaluate on training data === Model and evaluation on training set === kMeans ====== Number of iterations: 5 Within cluster sum of squared errors: 282.17934341063733 Cluster centroids: Cluster 0 Mean/Mode: Chevrolet Midsize 19.0732 26.3171 1 1 5.9024 3.522 173.8537 4965.8537 1964.2683 0 18.6049 5.561 193.7805 108.6098 72.3415 41.6341 29.0202 15.5178 3517.561 1 23.4512 Std Devs: N/A N/A 2.3916 3.0368 N/A N/A 1.261 0.9015 50.3232 581.2098 370.73 N/A 2.4903 1.0735 11.1232 5.2435 2.9632 1.9462 2.772 2.4527 358.6609 N/A 10.2372 Cluster 1 Mean/Mode: Ford Small 24.9615 31.2692 0 1 4.2301 1.9942 120.1538 5528.8462 2622.3077 1 15.1346 4.7115 174.8654 100.2692 67.0385 36.8462 26.891 12.6069 2722.3077 0 16.4019 Std Devs: N/A N/A 6.0746 5.7467 N/A N/A 0.7301 0.5047 40.8149 484.7019 377.1753 N/A 3.0204 0.848 11.2599 5.5735 2.4968 2.338 2.7753 2.3975 492.4971 N/A 7.9863 Clustered Instances 0 41 ( 44%) 52 ( 56%) 4、修改Seed值