转载文章请注明做者和二维码及全文信息。linux
转自:http://blog.csdn.net/swingwang/article/details/72331196程序员
不会编程的程序员,不是好的架构师,编程和内核调试也是出色架构师的必修课。谈起编程人员的数量,基于Linux平台的软件工程师确定是最多的,没有之一。那今天咱们就以Linux为例,深刻讲一下内核模块和内核的调试技术和调试工具KGDB。编程
KGDB是在内核2.6.26版本中正式支持的,对应发行版即SLES11及以上、RHEL6及以上,在此以前的内核版本由Linsyssoft Technologies公司提供补丁以支持KGDB,但并非全部内核版本都有补丁可用,同时打补丁操做也比较繁琐且问题多多,所以可用性不高。微信
注:如下称 “被调试的主机”为目标机,运行gdb进行调试的主机为开发机网络
2.1 目标机配置架构
2.1.1 配置串口函数
物理机串口根据实际环境要求配置,虚拟机按以下方式配置,pipe名字能够修改,但要保证和开发机一致:工具
2.1.2 更新内核以支持kgdb.net
注:本文以SLES11SP1做为目标机为例,内核源码直接安装RPM包就可使用,RHEL要稍微麻烦一些,须要下载源码包,进行编译后进行安装。线程
更新内核前准备
加入调试信息后内核及各个ko的体积会增大数倍,所以编译内核前必定要确认磁盘有7G以上剩余空间(保险起见建议预留10G),执行make后源码目录空间占用超过5G。
执行make modules_install后/lib/modules目录还要占用1.4G
SLES系列默认内核源码目录是/usr/src/linux-xxx/,但因为试验用的虚拟机建立时磁盘选择默认大小只有8G,所以额外建立了一块20G的磁盘挂载到/home目录做为内核编译目录,可直接将目录usr/src/linux-xxx/拷贝到/home/linux-xxx/不影响编译。
更新内核步骤
一、执行uname –r确认当前运行内核的类型,拷贝/boot/目录下对应内核类型的config文件到内核源码目录并重命名为.config;大多数状况下编译内核后启动失败都是由于内核配置不当,所以最好在系统原有配置文件基础上修改。
二、在内核源码目录执行make menuconfig进行内核配置;
进入Kernel hacking子选项,确认激活如下项目:
[*]Compile the kernel with debug info
[*]Compile the kernel with frame pointers
[*]KGDB: kernel debugging with remote gdb
清除 Write protect kernel read-only data structures选项;此项默认是激活的,会致使后续使用gdb调试时没法加断点;
在SLES11SP1上去掉Write protect kernel read-only data structures后编译会出错,缘由是函数mark_rodata_ro在init/main.c和cacheflush.h中重复定义了
解决办法是注掉main.c中的定义:
三、执行make all编译内核;(耗时约1小时,可以使用make –j x all加快编译速度,x表示线程数)
四、安装模块,编译完成后,新生成的模块ko还在源码目录,并未更新到/lib/module/对应目录:
注意,在安装模块前强烈建议备份原模块目录,以便调试完成后或新编译模块有问题时恢复环境,以下。
执行make modules_install(注意:不是make modules install)将拷贝ko到/lib/module/
五、建立启动内核及initrd
注:依然强烈建议先备份/boot/目录下的原vmlinuz和initrd文件,由于虽然内核install脚本会自动备份,但若是install执行两次或以上,则以前的备份会被新备份覆盖。
设置/etc/modprobe.d/unsupported-modules中allow_unsupported_modules为1,不然新编译生成的模块ko可能没法加载:
执行make install,将会拷贝源码目录下的vmlinux到/boot/目录并压缩为vmlinuz,并建立initrd:
六、为KGDB内核建立新的启动项
注:继续强烈建议先备份原始启动项,将原始启动项使用的内核和initrd文件指定为以前备份的文件:
新增的KGDB启动项,与原始启动项相比只增长了一个参数:kgdboc=ttyS0,115200
若是须要目标机一启动就断住(好比要调试启动阶段的代码),则再增长一个参数kgdbwait
七、重启目标机,以KGDB选项启动
2.2 开发机配置
开发机不须要和目标机硬件或内核相同,只要上面装的gdb版本知足kgdb的要求就能够。本文使用一个SLES10SP4的32位虚拟机做为开发机。
2.2.1 配置串口
物理机串口根据实际环境要求配置,虚拟机按以下方式配置:
检查参数,确认串口配置正确:
一、 在目标机执行cat /dev/ttyS0;
二、 在开发机执行echo test > /dev/ttyS0
三、 观察目标机是否打印test字样;
2.2.2 准备调试代码和目标二进制文件
调试代码
因为gdb调试须要源码文件,所以须要把内核源码拷贝到开发机。建议在目标机编译前把整个源码目录拷贝到开发机,不然编译后整个源码目录体积太大。
目标二进制文件
目标二进制文件就是要调试的文件,如vmlinux或xxx.ko,直接把目标机上编译好的文件拷贝到开发机,建议放在内核源码目录下。
3.1调试内核vmlinux
以调试函数block层的函数get_request_wait为例
一、 在目标机执行echo g > /proc/sysrq-trigger,会触发目标机挂起以等待开发机输入;
二、 在开发机启动gdb:
三、 设置启动远程调试
在gdb界面输入如下两条命令,成功的话会显示断在kgdb_breakpoint函数:
set remotebaud 115200
target remote /dev/ttyS0
四、 输入b get_request_wait为咱们想调试的函数设置断点(b表示breakpoint),而后执行c(continue)让目标机继续运行直到断点;
五、 查看调用栈(bt)和单步调试(n)都是比较有用的手段;
查看函数get_request_wait的调用栈:
单步调试:
下图例子中代码执行到rq = get_request(q, rw_flags, bio, GFP_NOIO);这行前;
执行p rq打印指针变量rq的地址显示value optimized out表示为空;
执行p *rq打印指针变量rq的内容显示没法访问0x0地址;
执行n让rq = get_request(q, rw_flags, bio, GFP_NOIO);执行完;
再次执行p rq成功打印出指针变量rq的地址;
执行p *rq成功打印出指针变量rq的内容;
六、 调试完成后清除断点让目标机恢复正常运行;
执行info b查看当前断点;
执行d breakpoint 1清除断点1;
执行c让目标机恢复运行;
目标机以前挂起后网络就中断了,此时恢复后又可从新登陆:
3.2 调试模块KO
以调试模块scsi_mod.ko为例:
一、先在目标机上查看模块在内核中的偏移地址,而后挂起目标机:
二、在开发机启动gdb,并执行add-symbol-file [模块ko] [内核地址]加载模块ko文件:
以后的步骤同调试内核vmlinux同样:启动远程调试、设置断点…
使用KGDB,一方面能够帮助阅读内核代码,实际观察代码执行的流程;另外一方面能够帮助非自研模块相关流程的问题定位,不须要反复添加打印重编内核,提升问题定位效率。本文重点描述了KGDB环境搭建及启动调试的步骤,更多gdb调试技巧请参考gdb手册。
环境搭建重点在于更新内核,这块也是整个过程当中最耗时和容易出错的,项目组能够组织分工进行各个版本、类型内核的KGDB更新(如SLES11 32位/64位、RHEL等等)并保存,后续使用时能够直接拷贝。请搜索“ICT_Architect”加入微信公众号“架构师技术联盟”获取更多精彩内容。