利用
sklearn
做文本分?/p>
(
特征提取?/p>
knnsvm
聚类
)
数据挖掘入门与实?/p>
公众号:
datadw
分为以下几个过程?/p>
加载数据?/p>
?/p>
feature
分类
Naive Bayes
KNN
SVM
聚类
20newsgroups
官网
http://qwone.com/~jason/20Newsgroups/
上给出了
3
个数据集,这里我们用最原始?/p>
20news-19997.tar.gz
http://qwone.com/~jason/20Newsgroups/20news-19997.ta
r.gz
1.
加载数据?/p>
?/p>
20news-19997.tar.gz
下载数据集,解压?
scikit_learn_data
文件夹下,加载数据,详见
code
注释?/p>