垃圾邮件分类算法的研究与分析
西北工业大学
计算机学?/p>
陕西
西安
710129
(School of Computer, Northwestern Polytechnic University
Xi’an 710129
China)
摘要
:随着互联网的高速发?/p>
,
电子邮件已经成为人们信息获取和信息交流的一个重要的渠道。与此同时垃
圾邮件也成为互联网上的一个日益严重的安全问题
,
引起了越来越多的社会大众和研究人员的重视和关注?/p>
为了有效的分辨垃圾邮件,
本文通过对训练数据进行相应的预处理及特征提取?/p>
分别使用朴素贝叶斯?/p>
C4.5
决策树、支持向量机三种方法来对垃圾邮件进行分类,通过测试结果,比对各个分类算法的优劣,并进行
了详细的分析?/p>
关键?/p>
:垃圾邮?/p>
朴素贝叶?/p>
C4.5
决策?/p>
支持向量?/p>
Abstract
?/p>
With
the
rapid
development
of
the
Internet,
e
-
plays
an
important
roles
in
people's
information
access and information exchange. At the same time, spam has become an increasingly serious security problem on
the Internet, causing more and more attention of the community and researchers. In order to effectively distinguish
the
spam,
this
paper
Pre
-
processings
and
extracts
feature
of
the
training
data,
and
uses
the
NaiveBayes,
C4.5
Decision Tree and SVM to classify the spam, Through the test results, compare and analysis the advantages and
disadvantages of each classification algorithm.
Keywords
:
spam
NaiveBayes
C4.5 Decision Tree
SVM
1
引言
Internet
的问世带来了电子邮件业务的出现,网络技术的飞速发展促进了邮件服务的广泛普及及繁荣?/p>
电子邮件已经成为生活在信息时代的人们日常生活一个重要部分。电子邮件不仅是一个信息交流的重要?/p>
道,而且也是人们信息获取的重要途径之一。随着互联网的普及,不仅人们的日常事务可以通过电子邮件
来进行处理,而且越来越多正式和重要的信息也通过电子邮件来进行传达和交流?/p>
随着电子邮件越来越普及和重要性的持续增长,一些商家和不法分子开始利用垃圾邮件这种方式来?/p>
行广告信息的传播和用户消费行为信息的获取。根据无线服务机?/p>
Wireless Services Corporation
公司提供
的一份最新调查显示,目前美国移动通信市场上所有的电子邮件服务当中?/p>
43%
的都是垃圾信息,而年?/p>
垃圾邮件在电子邮件中的比例为
18%
。而在国内,据有关部门统计,国内的电子邮件用户,平均每天发?/p>
的短信数量超过了
3
亿条。邮件甚至被称为继报纸、广播、电视、网络之后的第五媒体。不过在数量庞大
的电子邮件背后,垃圾邮件的问题也愈加严重?/p>
垃圾邮件可以说是因特网带给人类最具争议性的副产品之一,它的泛滥已经使整个因特网不堪重负,
人们不得不花费大量时间来对付邮箱里的垃圾邮件。在这样的情势下,制定切实可行的反垃圾邮件方案无
疑是
Internet
的一个重要课题,
而对于反垃圾邮件技术的研究也称为一个新的热点领域?/p>
本文根据现有邮件
分类的知识,结合训练数据集的特点,选择合适的分类算法,来实现对垃圾邮件的分类?/p>
2
相关工作
本文垃圾邮件的分类工作主要包括以下三个部分:文本数据预处理,数据集特征选择,分类算法的?/p>
用及结果分析?/p>
2.1
文本数据预处?/p>
根据提供的训练数据集及测试数据集,编写程序,提取数据集中所有单词及对应的频率,并更改数?/p>
格式?/p>
以矩阵的形式存储?/p>
初步处理过后的训练数据集
Pre
-
train1.csv
第一行表示数据集中出现的所有单词?/p>
字母和数字属性共
1000
个,?/p>
2
-
9001
行代表之前的
9000
条邮件训练数据集,对应第一行的单词,存储了