kdd99

KDD是数据挖掘与知识发现(Data Mining and Knowledge Discovery)的简称,KDD CUP是由ACM(Association for Computing Machiner)的 SIGKDD(Special Interest Group on Knowledge Discovery and Data Mining)组织的年度竞赛。竞赛主页在这里php

下面是历届KDDCUP的题目:ios

KDD-Cup 2008, Breast cancer
KDD-Cup 2007, Consumer recommendations
KDD-Cup 2006, Pulmonary embolisms detection from image data
KDD-Cup 2005, Internet user search query categorization
KDD-Cup 2004, Particle physics; plus Protein homology prediction
KDD-Cup 2003, Network mining and usage log analysis
KDD-Cup 2002, BioMed document; plus Gene role classification
KDD-Cup 2001, Molecular bioactivity; plus Protein locale prediction.
KDD-Cup 2000, Online retailer website clickstream analysis
KDD-Cup 1999, Computer network intrusion detection
KDD-Cup 1998, Direct marketing for profit optimization
KDD-Cup 1997, Direct marketing for lift curve optimizationweb

4种异常类型分别是:sql

  1. DOS, denial-of-service. 拒绝服务攻击,例如ping-of-death, syn flood, smurf等;
  2. R2L, unauthorized access from a remote machine to a local machine. 来自远程主机的未受权访问,例如guessing password;
  3. U2R, unauthorized access to local superuser privileges by a local unpivileged user. 未受权的本地超级用户特权访问,例如buffer overflow attacks;
  4. PROBING, surveillance and probing, 端口监视或扫描,例如port-scan, ping-sweep等

 

数据特征描述shell

 

KDD99数据集中每一个链接(*)用41个特征来描述:promise

2, tcp, smtp, SF, 1684, 363, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 104, 66, 0.63, 0.03, 0.01, 0.00, 0.00, 0.00, 0.00, 0.00, normal.网络

 

0, tcp, private, REJ, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 38, 1, 0.00, 0.00, 1.00, 1.00, 0.03, 0.55, 0.00, 208, 1, 0.00, 0.11, 0.18, 0.00, 0.01, 0.00, 0.42, 1.00, portsweep.dom

 

0, tcp, smtp, SF, 787, 329, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00, 76, 117, 0.49, 0.08, 0.01, 0.02, 0.00, 0.00, 0.00, 0.00, normal.ssh

 

上面是数据集中的3条记录,以CSV格式写成,加上最后的标记(label),一共有42项,其中前41项特征分为4大类,下面按顺序解释各个特征的含义:tcp

1. TCP链接基本特征(共9种)

基本链接特征包含了一些链接的基本属性,如连续时间,协议类型,传送的字节数等。

(1)duration. 链接持续时间,以秒为单位,连续类型。范围是 [0, 58329] 。它的定义是从TCP链接以3次握手创建算起,到FIN/ACK链接结束为止的时间;若为UDP协议类型,则将每一个UDP数据包做为一条链接。数据集中出现大量的duration = 0 的状况,是由于该条链接的持续时间不足1秒。

(2)protocol_type. 协议类型,离散类型,共有3种:TCP, UDP, ICMP。

(3)service. 目标主机的网络服务类型,离散类型,共有70种。’aol’, ‘auth’, ‘bgp’, ‘courier’, ‘csnet_ns’, ‘ctf’, ‘daytime’, ‘discard’, ‘domain’, ‘domain_u’, ‘echo’, ‘eco_i’, ‘ecr_i’, ‘efs’, ‘exec’, ‘finger’, ‘ftp’, ‘ftp_data’, ‘gopher’, ‘harvest’, ‘hostnames’, ‘http’, ‘http_2784′, ‘http_443′, ‘http_8001′, ‘imap4′, ‘IRC’, ‘iso_tsap’, ‘klogin’, ‘kshell’, ‘ldap’, ‘link’, ‘login’, ‘mtp’, ‘name’, ‘netbios_dgm’, ‘netbios_ns’, ‘netbios_ssn’, ‘netstat’, ‘nnsp’, ‘nntp’, ‘ntp_u’, ‘other’, ‘pm_dump’, ‘pop_2′, ‘pop_3′, ‘printer’, ‘private’, ‘red_i’, ‘remote_job’, ‘rje’, ‘shell’, ‘smtp’, ‘sql_net’, ‘ssh’, ‘sunrpc’, ‘supdup’, ‘systat’, ‘telnet’, ‘tftp_u’, ‘tim_i’, ‘time’, ‘urh_i’, ‘urp_i’, ‘uucp’, ‘uucp_path’, ‘vmnet’, ‘whois’, ‘X11′, ‘Z39_50′。

(4)flag. 链接正常或错误的状态,离散类型,共11种。’OTH’, ‘REJ’, ‘RSTO’, ‘RSTOS0′, ‘RSTR’, ‘S0′, ‘S1′, ‘S2′, ‘S3′, ‘SF’, ‘SH’。它表示该链接是否按照协议要求开始或完成。例如SF表示链接正常创建并终止;S0表示只接到了SYN请求数据包,而没有后面的SYN/ACK。其中SF表示正常,其余10种都是error。

(5)src_bytes. 从源主机到目标主机的数据的字节数,连续类型,范围是 [0, 1379963888]。

(6)dst_bytes. 从目标主机到源主机的数据的字节数,连续类型,范围是 [0. 1309937401]。

(7)land. 若链接来自/送达同一个主机/端口则为1,不然为0,离散类型,0或1。

(8)wrong_fragment. 错误分段的数量,连续类型,范围是 [0, 3]。

(9)urgent. 加急包的个数,连续类型,范围是[0, 14]。

2. TCP链接的内容特征(共13种)

对于U2R和R2L之类的攻击,因为它们不像DoS攻击那样在数据记录中具备频繁序列模式,而通常都是嵌入在数据包的数据负载里面,单一的数据包和正常链接没有什么区别。为了检测这类攻击,Wenke Lee等从数据内容里面抽取了部分可能反映入侵行为的内容特征,如登陆失败的次数等。

(10)hot. 访问系统敏感文件和目录的次数,连续,范围是 [0, 101]。例如访问系统目录,创建或执行程序等。

(11)num_failed_logins. 登陆尝试失败的次数。连续,[0, 5]。

(12)logged_in. 成功登陆则为1,不然为0,离散,0或1。

(13)num_compromised. compromised条件(**)出现的次数,连续,[0, 7479]。

(14)root_shell. 若得到root shell 则为1,不然为0,离散,0或1。root_shell是指得到超级用户权限。

(15)su_attempted. 若出现”su root” 命令则为1,不然为0,离散,0或1。

(16)num_root. root用户访问次数,连续,[0, 7468]。

(17)num_file_creations. 文件建立操做的次数,连续,[0, 100]。

(18)num_shells. 使用shell命令的次数,连续,[0, 5]。

(19)num_access_files. 访问控制文件的次数,连续,[0, 9]。例如对 /etc/passwd 或 .rhosts 文件的访问。

(20)num_outbound_cmds. 一个FTP会话中出站链接的次数,连续,0。数据集中这一特征出现次数为0。

(21)is_hot_login.登陆是否属于“hot”列表(***),是为1,不然为0,离散,0或1。例如超级用户或管理员登陆。

(22)is_guest_login. 如果guest 登陆则为1,不然为0,离散,0或1。

3. 基于时间的网络流量统计特征 (共9种,23~31)

因为网络攻击事件在时间上有很强的关联性,所以统计出当前链接记录与以前一段时间内的链接记录之间存在的某些联系,能够更好的反映链接之间的关系。这类特征又分为两种集合:一个是 “same host”特征,只观察在过去两秒内与当前链接有相同目标主机的链接,例如相同的链接数,在这些相同链接与当前链接有相同的服务的链接等等;另外一个是 “same service”特征,只观察过去两秒内与当前链接有相同服务的链接,例如这样的链接有多少个,其中有多少出现SYN错误或者REJ错误。

(23)count. 过去两秒内,与当前链接具备相同的目标主机的链接数,连续,[0, 511]。

(24)srv_count. 过去两秒内,与当前链接具备相同服务的链接数,连续,[0, 511]。

(25)serror_rate. 过去两秒内,在与当前链接具备相同目标主机的链接中,出现“SYN” 错误的链接的百分比,连续,[0.00, 1.00]。

(26)srv_serror_rate. 过去两秒内,在与当前链接具备相同服务的链接中,出现“SYN” 错误的链接的百分比,连续,[0.00, 1.00]。

(27)rerror_rate. 过去两秒内,在与当前链接具备相同目标主机的链接中,出现“REJ” 错误的链接的百分比,连续,[0.00, 1.00]。

(28)srv_rerror_rate. 过去两秒内,在与当前链接具备相同服务的链接中,出现“REJ” 错误的链接的百分比,连续,[0.00, 1.00]。

(29)same_srv_rate. 过去两秒内,在与当前链接具备相同目标主机的链接中,与当前链接具备相同服务的链接的百分比,连续,[0.00, 1.00]。

(30)diff_srv_rate. 过去两秒内,在与当前链接具备相同目标主机的链接中,与当前链接具备不一样服务的链接的百分比,连续,[0.00, 1.00]。

(31)srv_diff_host_rate. 过去两秒内,在与当前链接具备相同服务的链接中,与当前链接具备不一样目标主机的链接的百分比,连续,[0.00, 1.00]。

注:这一大类特征中,2三、2五、2七、2九、30这5个特征是 “same host” 特征,前提都是与当前链接具备相同目标主机的链接;2四、2六、2八、31这4个特征是 “same service” 特征,前提都是与当前链接具备相同服务的链接。

4. 基于主机的网络流量统计特征 (共10种,32~41)

基于时间的流量统计只是在过去两秒的范围内统计与当前链接之间的关系,而在实际入侵中,有些 Probing攻击使用慢速攻击模式来扫描主机或端口,当它们扫描的频率大于2秒的时候,基于时间的统计方法就没法从数据中找到关联。因此Wenke Lee等按照目标主机进行分类,使用一个具备100个链接的时间窗,统计当前链接以前100个链接记录中与当前链接具备相同目标主机的统计信息。

(32)dst_host_count. 前100个链接中,与当前链接具备相同目标主机的链接数,连续,[0, 255]。

(33)dst_host_srv_count. 前100个链接中,与当前链接具备相同目标主机相同服务的链接数,连续,[0, 255]。

(34)dst_host_same_srv_rate. 前100个链接中,与当前链接具备相同目标主机相同服务的链接所占的百分比,连续,[0.00, 1.00]。

(35)dst_host_diff_srv_rate. 前100个链接中,与当前链接具备相同目标主机不一样服务的链接所占的百分比,连续,[0.00, 1.00]。

(36)dst_host_same_src_port_rate. 前100个链接中,与当前链接具备相同目标主机相同源端口的链接所占的百分比,连续,[0.00, 1.00]。

(37)dst_host_srv_diff_host_rate. 前100个链接中,与当前链接具备相同目标主机相同服务的链接中,与当前链接具备不一样源主机的链接所占的百分比,连续,[0.00, 1.00]。

(38)dst_host_serror_rate. 前100个链接中,与当前链接具备相同目标主机的链接中,出现SYN错误的链接所占的百分比,连续,[0.00, 1.00]。

(39)dst_host_srv_serror_rate. 前100个链接中,与当前链接具备相同目标主机相同服务的链接中,出现SYN错误的链接所占的百分比,连续,[0.00, 1.00]。

(40)dst_host_rerror_rate. 前100个链接中,与当前链接具备相同目标主机的链接中,出现REJ错误的链接所占的百分比,连续,[0.00, 1.00]。

(41)dst_host_srv_rerror_rate. 前100个链接中,与当前链接具备相同目标主机相同服务的链接中,出现REJ错误的链接所占的百分比,连续,[0.00, 1.00]。

 

郑重声明

本文转载自XiFage's Blog
本文连接地址: http://xifage.com/kdd-cup-99-dataset-5/

相关文章
相关标签/搜索