UCI大数据库使用说明书

实用标准文案

UCI数据库使用说明

机器学习领域的UCI数据集使用说明

此目录包含数据集和相关领域知识(后面以简短的列表形式进行的注释),这些数据已经或能用于评价学习算法。

每个数据文件(*.data)包含以“属性-值”对形式描述的很多个体样本的记录。对应的*.info文件包含的大量的文档资料。(有些文件_generate_ databases;他们不包含*.data文件。)作为数据集和领域知识的补充,在utilities目录里包含了一些在使用这一数据集时的有用资料。

地址 http://www.ics.uci.edu/~mlearn/MLRepository.html ,这里的UCI数据集可以看作是通过web的远程拷贝。作为选择,这些数据同样可以通过ftp获得,ftp://ftp.ics.uci.edu. 可是使用匿名登陆ftp。可以在pub/machine-learning-databases目录中找到。 注意:

UCI一直都在寻找可加入的新数据,这些数据将被写入incoming子目录中。希望您能贡献您的数据,并提供相应的文档。谢谢——贡献过程可以参考DOC-REQUIREMENTS文件。目前,多数数据使用下面的格式:一个实例一行,没有空格,属性值之间使用逗号“,”隔开,并且缺少的值使用问号“?”表示。

精彩文档

实用标准文案

并请在做出您的贡献后提醒一下站点管理员:ml-repository@ics.uci.edu

下面以UCI中IRIS为例介绍一下数据集:

ucidata\\iris中有三个文件: Index iris.data iris.names

index为文件夹目录,列出了本文件夹里的所有文件,如iris中index的内容如下: Index of iris

18 Mar 1996 105 Index 08 Mar 1993 4551 iris.data 30 May 1989 2604 iris.names

iris.data为iris数据文件,内容如下: 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa ……

7.0,3.2,4.7,1.4,Iris-versicolor

精彩文档

实用标准文案

6.4,3.2,4.5,1.5,Iris-versicolor 6.9,3.1,4.9,1.5,Iris-versicolor ……

6.3,3.3,6.0,2.5,Iris-virginica 5.8,2.7,5.1,1.9,Iris-virginica 7.1,3.0,5.9,2.1,Iris-virginica ……

如上,属性直接以逗号隔开,中间没有空格(5.1,3.5,1.4,0.2,),最后一列为本行属性对应的值,即决策属性Iris-setosa 。

iris.names介绍了irir数据的一些相关信息,如数据标题、数据来源、以前使用情况、最近信息、实例数目、实例的属性等,如下所示部分: ……

7. Attribute Information: 1. sepal length in cm 2. sepal width in cm 3. petal length in cm 4. petal width in cm 5. class: -- Iris Setosa -- Iris Versicolour

精彩文档

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4