一分钟了解互联网数据挖掘流?/p>
1
、爬虫抓取网络数?/p>
真实的数据挖掘项目,
一定是从获取数据开始的?/p>
除了通过一些渠道购买或者下
载专业数据外?/p>
常常需要大家自己动手爬互联网数据,
这个时候,
爬虫就显得格
外重要了?/p>
Nutch
爬虫的主要作用是从网络上抓取网页数据并建立索引?/p>
我们只需指定网站
的顶级网址,如
taobao.com
,爬虫可以自动探测出页面内容里新的网址,从?/p>
进一步抓取链接网页数据?/p>
nutch
支持把抓取的数据转化成文本,
?/p>
?/p>
?/p>
WORD
?/p>
EXCEL
?/p>
HTML
?/p>
XML
等形式)转换成纯文字字符?/p>
Nutch
?/p>
Hadoop
集成,可以将下载的数据保存到
hdfs
,用于后续离线分析。使
用步骤为?/p>
?/p>
?/p>
hdfs
中存入待抓取的网?/p>
url
$ hadoop fs -put urldir urldir
注:
第一?/p>
urldir
为本地文件夹,存放了
url
数据文件,每行一?/p>
url
地址
第二?/p>
urldir
?/p>
hdfs
的存储路径?/p>
?/p>
启动
nutch
,在
NUTCH_HONE
目录下执行以下命?/p>
$ bin/nutch crawlurldir
?/p>
dir crawl -depth 3
?/p>
topN 10
命令成功执行后,会在
hdfs
中生?/p>
crawl
目录?/p>
2
?/p>
MapReduce
预处理数?/p>
对于下载的原始文本文档,
无法直接进行处理?/p>
需要对文本内容进行预处理,
?/p>
括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义?/p>
词)、文本特征提取、词?/p>
统计
、文本向量化等操作?/p>
常用的文本预处理算法?/p>
TF-IDF
,其主要思想是,如果某个词或短语在一篇文
章中出现的频率高?/p>
并且在其他文章中很少出现?/p>
则认为此词或者短语具有很?/p>
的类别区分能力,适合用来做分类?/p>
?/p>
输入原始文本内容?/p>