KDD Cup 99网络入侵检测数据的分析

看论文算法

该数据集是从一个模拟的美国空军局域网上采集来的 9 个星期的网络链接数据, 分红具备标识的训练数据和未加标识的测试数据。测试数据和训练数据有着不一样的几率分布, 测试数据包含了一些未出如今训练数据中的攻击类型, 这使得入侵检测更具备现实性。shell

在训练集中包含了1种正常的标识类型 normal 和 22种训练攻击类型。promise

一、KDDCup99入侵检测实验数据的标识类型

标识类型 含义 具体分类标识
Normal 正常记录 normal
DOS 拒绝服务攻击 back, land, neptune, pod, smurf, teardrop
Probing 监视和其余探测活动 ipsweep, nmap, portsweep,satan
R2L 来自远程机器的非法访问 ftp_write, guess_passwd, imap, multihop, phf, spy, warezclient, warezmaster
U2R 普通用户对本地超级用户特权的非法访问 buffer_overflow, loadmodule, perl, rootkit

标识位用来表示该条链接记录是正常的,或是某个具体的攻击类型;(正常标识有一种,攻击标识有22种)
DOS:有6种,back,land,neptune,pod,smurf,teardropl
Probing:有4种,ipsweep,nmap,portsweep,satan;
R2L:有8种,ftp_wrute,guess_passwd,imap,multipod,phf,spy,warezclient,waremaster;
U2R:有4种,buffer_overflow,loadmodule,perl,rootkit;网络

二、特征属性

在41个固定的特征属性中,9个特征属性为离散型,其余均为连续型;tcp

duration,protocol_type,service,flag,src_bytes,dst_bytes,land,
wrong_fragment,urgent,ho,num_failed_logins,logged_in,num_compromised,
root_shell,su_attempted,num_root,num_file_creations,num_shells,
num_access_files,num_outbound_cmds,is_host_login,is_guest_login,count,
srv_count,serror_rate,srv_serror_rate,rerror_rate,srv_rerror_rate,
same_srv_rate,diff_srv_rate,srv_diff_host_rate,dst_host_count,
dst_host_srv_count,dst_host_same_srv_rate,dst_host_diff_srv_rate,
dst_host_same_src_port_rate,dst_host_srv_diff_host_rate,
dst_host_serror_rate,dst_host_srv_serror_rate,dst_host_rerror_rate,
dst_host_srv_rerror_rate,class

经过对41个固定特征属性的分析,比较能体现出状态变化的是前31个特征属性,其中9个离散型,22个连续型。所以对链接记录的分析处理是针对该31个特征属性。接下来将这31个特征属性进行总结分析。测试

三、单个TCP链接的基本特征

特征名 描述 类型
Duration 链接时间长度(单位:秒) 连续型
Protocol_type 协议类型,如tcp,udp 离散型
Service 在目标机的网络服务,如http,telnet等 离散型
src_bytes 源地址到目标地址的数据流量 连续型
dst_bytes 目标地址到源地址的数据流量 连续型
flag 链接状态(正常或错误) 离散型
land 1表示数据链接源地址和目标地址为同一主机或端口;0表示其余 离散型
wrong_fragment 错误碎片的数目 连续型
urgent 紧迫数据包的个数 连续型

四、一次链接中包含的内容特征

特征名 描述 类型
hot 访问系统敏感文件和目录的次数 连续型
mum_failed_logins 尝试登陆失败的次数 连续型
loggged_in 1表示成功登陆,0表示其余 离散型
num_compromised 受到威胁状态的次数 连续型
root_shell 1表示超级用户的shell外壳,0表示其余 离散型
su_attempted 1表示命令执行尝试,0表示其余 离散型
num_root root权限访问的次数 连续型
num_file_creations 文件创做的操做次数 连续型
num_shells shell提示符合的个数 连续型
num_access_files 访问控制文件的次数 连续型
num_outbound_cmds 一次ftp会话中传递命令的次数 连续型
is_hot_login 1表示属于热点清单的登陆,0表示其余 离散型
is_guest_login 1表示guest用户登陆,0表示其余用户名登陆 离散型
  • 在实验研究中, 通常使用 KDDCup99 中的网络入侵检测数据包kddcup_data_10percent。 kddcup_data_10percent 数 据 包 是 对kddcup_data 数据包( 约 490 万条数据记录) 10%的抽样。

五、数据预处理

  1. 聚类算法中要使用计算距离的方法对数据进行聚类, 而链接记录的固定特征属性中有两种类型的数值: 离散型和连续型。 对于连续型特征属性, 各属性的度量方法不同。
  2. 通常而言, 所用的度量单位越小, 变量可能的值域就越大, 这样对聚类结果的影响也越大, 即在计算数据间距离时对聚类的影响越大, 甚至会出现“大数”吃“小数”的现象。 所以为了不对度量单位选择的依赖, 消除因为属性度量的差别对聚类产生的影响, 须要对属性值进行标准化
  3. 设训练数据集有 n 条网络链接记录, 每一个记录中有 22 个连续型属性向量记做 Xij(1≤i≤n,11≤j≤32)。 对 Xij 数据预处理分为两步: 数值标准化和数值归一化

六、以2秒时间窗口计算的流量特征

特征名 描述 类型
count 过去2秒内与当前链接有着相同的目的地址的链接 连续型
serror_rate 出现SYN错误的链接次数 连续型
rerroe_rate 出现REJ错误的链接次数 连续型
same_srv_rate 创建相同服务的链接次数 连续型
diff_srv_rate 建议不一样服务的链接次数 连续型
srv_count 过去2秒时间内出现和当前链接服务相同的链接次数 连续型
srv_serror_rate 出现SYN错误的链接次数 连续型
srv_rerror_rate 出现REJ错误的链接次数 连续型
srv_diff_host_rate 链接不相同主机的次数 连续型

七、31个特征属性

八、小结

  • 在基于数据挖掘的网络入侵检测技术研究中, 数据源的获取是研究的基础;
  • 数据源的预初步处理更是直接影响入侵检测技术的效果;

九、KDDCup99数据集完整分析

基本介绍:.net

KDD CUP 99 dataset
    即KDD竞赛在1999年举行的数据挖掘与知识发现竞赛时采用的数据集;
    该数据集收集了9周时间的TCPdump(*)网络链接和系统审计数据,仿真各类用户类型、各类不一样的网络流量和攻击手段;    
    原始数据包含两个部分:
        (1)7周时间的训练数据(**),大概包括5000000多个网络链接记录;
        (2)剩下的2周时间的测试数据大概包含2000000个网络链接记录;
    网络链接被标记为正常或异常,其中异常类型包括4大类39种攻击类型(22种攻击类型在训练集中,另外17种未知攻击类型出如今测试集中)
        (1)DOS攻击,denial-of service.拒绝服务攻击;
        (2)R2L,unauthorized access from a remote machine to a local machine.来自远程主机的未受权访问;
        (3)U2L,unauthorized access to local superuser privileges by a local unpivileged user.未受权的本地超级用户特权访问;
        (4)PROBING,surveillance and probing.端口监视或扫描
    KDD99数据集总共41个特征,加上最后的标记,一共有42项;其中前41项特征分为4类:
        数据为:2, tcp, smtp, SF, 1684, 363, 0, 0, 0,
                      0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
                      1, 1, 0.00, 0.00, 0.00, 0.00, 1.00, 0.00, 0.00,
                      104, 66, 0.63, 0.03, 0.01, 0.00, 0.00, 0.00, 0.00, 0.00,
        标记为:normal

详细分析:code

一、TCP链接基本特征(共9种,1~9)
            duration:链接持续时间,连续;protocal_type:协议类型;service:目标主机的网络服务类型,离散类型;
            flag:链接正常或错误的状态;src_bytes:从源主机到目标主机的数据的字节数,连续类型;dst_bytes:从目标主机到源主机的数据的字节数,连续类型;
            land:若链接来自同一个主机则为1,不然为0;wrong_fragment:错误分段的数量,连续类型;urgent:加急包的个数,连续类型。
        二、TCP链接的内容特征(共13种,10~22)
            hot:访问系统敏感文件和目录的次数,连续;num_failed_logins:尝试登录失败的次数,连续;logged_in:成功登陆为1,不然为0;
            num__compromised:compromised条件(**)出现的次数,连续;root_shell:若得到root shell则为1,不然为0;su_attempted:若出现"su root"命令则为1,不然为0;
            num_root:root用户访问次数,连续;num_file_creations:文件建立操做的次数,连续;num_shells;使用shell命令的次数,连续;
            num_access_files:访问控制文件的次数,连续;num_outbound_cmds:一个FTP会话中出站链接的次数,连续;is_hot_login:登陆是否属于“hot”列表(***),是为1,不然为0;
            is_guest_login:如果guest登陆则为1,不然为0;
        三、基于时间的网络流量统计特征(共9种,23~31)
            只观察过去两秒内与当前链接有相同目标主机的链接(same host)
            只观察过去两秒内与当前链接有相同服务的链接(same service)
            count:过去两秒内,当前链接具备相同目标主机的链接数,连续;srv_conut:与当前链接具备相同服务的链接数;serror_rate:与当前链接具备相同目标主机的链接中,出现"SYN"错误的链接的百分比,连续;
            srv_serror_rate:与当前链接具备相同服务的链接中,出现"SYN"错误的链接的百分比,连续;rerror_rate:与当前链接具备相同目标主机的链接中,出现"REJ"错误的链接的百分比;srv_rerror_rate:在当前链接具备相同服务的链接中,出现"REJ"错误的链接的百分比,连续;
            same_srv_rate:在与当前链接具备相同目标主机的链接中,与当前链接具备相同服务的百分比,连续;diff_srv_rate:在于当前链接具备相同目标主机的链接中,与当前链接具备不一样服务的链接的百分比,连续;srv_diff_host_rate:在于当前链接具备相同服务的链接中,与当前链接具备不一样目标主机的链接;
        四、基于主机的网络流量统计特征(共10种,32~41)
            按照目标主机进行分类,使用一个具备100个链接的时间窗,统计当前链接以前100个链接记录中与当前链接具备相同目标主机的统计信息;
            dst_hots_count:前100个链接中,与当前链接具备相同目标主机的链接数,连续;dst_host_srv_count:与当前链接具备相同目标主机相同服务的链接数,连续;dst_host_same_srv_rate:与当前链接具备相同目标主机相同服务的链接所占的百分比,连续;
            dst_host_diff_srv_rate:与当前链接具备相同目标主机不一样服务的链接所占的百分比,连续;dst_host_same_src_port_rate:与当前链接具备相同目标主机相同源端口的链接所占的百分比,连续;dst_host_srv_diff_host_rate:与当前链接具备相同目标主机相同服务的链接中,与当前链接具备不一样源主机的链接所占的百分比,连续;
            dst_host_serror_rate:与当前链接具备相同目标主机的链接中,出现SYN错误的链接所占的百分比,连续;dst_host_srv_serror_rate:与当前链接具备相同目标主机相同服务的链接中,出现REJ错误的链接所占的百分比,连续;dst_host_rerror_rate:与当前链接具备相同目标主机的链接中,出现REJ错误的链接所占的百分比,连续;
            st_host_srv_rerror_rate:与当前链接具备相同目标主机系湍妨维接中,出现REJ错误的链接所占的百分比,连续;

连续量和离散量分类:orm

连续量:(5种)duration,src_bytes,dst_bytes,wrong_fragment,urgent;
                            (8种)hot,num_failed_logins,num__compromised,num_root,num_file_creations,num_shells,num_access_files,num_outbound_cmds;
                            (9种)count,srv_conut,serror_rate,srv_serror_rate,rerror_rate,srv_rerror_rate,same_srv_rate,diff_srv_rate,srv_diff_host_rate;
                            (10种)dst_hots_count,dst_host_srv_count,dst_host_same_srv_rate,dst_host_diff_srv_rate,dst_host_same_src_port_rate,dst_host_srv_diff_host_rate,dst_host_serror_rate
            离散量:5+5
(来自哥伦比亚大学的Sal Stolfo 教授和来自北卡罗莱纳州立大学的 Wenke Lee 教授采用数据挖掘等技术对以上的数据集进行特征分析和数据预处理,造成了一个新的数据集。
  该数据集用于1999年举行的KDD CUP竞赛中,成为著名的KDD99数据集。
  虽然年代有些久远,但KDD99数据集仍然是网络入侵检测领域的事实Benckmark,为基于计算智能的网络入侵检测研究奠基基础)

另外kddcup99数据集可参考:
kddcup99详细解读blog

相关文章
相关标签/搜索