背景知识
KDD
是数据挖掘与知识发现?/p>
Data Mining and Knowledge Discovery
)的简称,
KDD CUP
是由
ACM
?/p>
Association for Computing Machiner
)的
SIGKDD
?/p>
Special Interest Group on Knowledge Discovery and Data Mining
?/p>
组织的年度竞
赛。竞赛主页在
这里
?/p>
下面是历?/p>
KDDCUP
的题目:
KDD-Cup 2008
, Breast cancer
KDD-Cup 2007
, Consumer recommendations
KDD-Cup 2006
, Pulmonary embolisms detection from image data
KDD-Cup 2005
, Internet user search query categorization
KDD-Cup 2004
, Particle physics; plus Protein homology prediction
KDD-Cup 2003
, Network mining and usage log analysis
KDD-Cup 2002
, BioMed document; plus Gene role classification
KDD-Cup 2001
, Molecular bioactivity; plus Protein locale prediction.
KDD-Cup 2000
, Online retailer website clickstream analysis
KDD-Cup 1999
, Computer network intrusion detection
KDD-Cup 1998
, Direct marketing for profit optimization
KDD-Cup 1997
, Direct marketing for lift curve optimization
”KDD
CUP 99 dataset
?/p>
就是
KDD
竞赛?/p>
1999
年举行时采用的数据集。从
这里
下载
KDD99
数据集?/p>
1998
年美国国防部高级规划署(
DARPA
)在
MIT
林肯实验室进行了一项入侵检测评估项
目。林肯实验室建立了模拟美国空军局域网的一个网络环境,收集?/p>
9
周时间的
TCPdump(*)
网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻?/p>
手段,使它就像一个真实的网络环境。这?/p>
TCPdump
采集的原始数据被分为两个部分?/p>
7
周时间的训练数据
(**)
大概包含
5,000,000
多个网络连接记录,剩下的
2
周时间的测试?/p>
据大概包?/p>
2,000,000
个网络连接记录?/p>