Kdump配置
配置
配置文件(/etc/default/grub.conf)
执行:
1 | grub2-mkconfig -o /boot/grub2/grub.cfg |
重启后手动触发crash检测Kdump是否正常:
1 | echo 1 > /proc/sys/kernel/sysrq |
检测是否产生crash:
运行vmcore
1、安装kernel-lt-4.4.13-1.el7.elrepo.x86_64.rpm,kernel-lt-devel-4.4.13-1.el7.elrepo.x86_64.rpm,已安装则省略这一步。
2、安装kernel-lt-debuginfo-common-x86_64-4.4.13-1.el7.elrepo.x86_64.rpm
3、升级crash,crash 7.2.3-8.el7
4、crash /usr/src/kernels/4.4.13-1.el7.elrepo.x86_64/System.map /usr/lib/debug/lib/modules/vmlinux /var/crash/127.0.0.1-2019-03-12-01:13:12/vmcore
ps:需指定System.map,vmcore可在虚拟机上跑。
分析vmcore
执行命令 bt 10142 可查看进程堆栈信息:
通过kmem -i 查看内存使用情况, sys 查看系统情况 , ps 查看进程均未发现异常情况,可先排除硬件或资源不足的问题。
通过dis -l ffff8801f98a2080进行反汇编
watchdog配置
softlockup 和 hardlockup
Soft lockup是指CPU被内核代码占据,以至于无法执行其它进程。
Hard lockup比soft lockup更加严重,CPU不仅无法执行其它进程,而且不再响应中断。
中断分为可屏蔽中断和非可屏蔽中断
可屏蔽中断包含时钟中断,外设中断(比如键盘中断,I/O设备中断,等等)
NMI,即非可屏蔽中断。即使在内核代码中设置了屏蔽所有中断的时候,NMI也是不可以被屏蔽的。
kernel线程 < 时钟中断 < NMI中断,其中,kernel 线程是可以被调度的,同时也是可以被中断随时打断的
(1)开启softlockup panic:
1 | kernel.watchdog_thresh = 60 |
(2)开启hardslockup panic
1 | kernel.hardlockup_panic = 1 |
(3)开启手动NMI中断,触发panic
1 | kernel.unknown_nmi_panic = 1 |
基于硬件支持程度不同,timer可能是硬件设备,也可能为软件模拟设备,我们分为hardware watchdog和software watchdog。
目前实验测试推荐使用hardwatchdog。
开启softwatchdog:
1、安装watchdog:yum install watchdog
2、加载softdog.ko:modprobe softdog
3、配置watchdog配置文件(/etc/watchdog.conf)
4、启动watchdog进程
开启hardwatchdog:
1、安装watchdog:yum install watchdog
2、配置watchdog(/etc/watchdog.conf)
3、检查进程
BMC配置
1、安装ipmitool,可装window版,需保持与服务器BMC网段相通。
2、通过BMC进行相关命令、信息及日志获取。
(1)查看BMC版本
1 | Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN mc info |
(2)查看服务器状态
1 | Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN chassis power status |
(3)服务器开关机
开机:
1 | Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN chassis power on |
关机:
1 | Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN chassis power off |
重启:
1 | Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN chassis power reset |
(4)SEL日志查看
1 | Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sel list |
Sel日志详情:
1 | Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sel elist |
(5)SDR Sensor 信息查看
1 | Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sdr |
查看sensor:
获取传感器ID号
1 | Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sensor list |
查看某个sensor的详情:
1 | Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sensor get “CPU1 Temp” |
设置sensor(ID)监测项的各种限制值:
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sensor thresh
unr =不可恢复的上限
ucr =高临界
unc =上限非关键
lnc =较低的非临界
lcr =较低的临界
lnr =较低的不可恢复
(6)手动发送NMI信号,触发panic
1 | ipmitool.exe -I lanplus -H 77.77.76.102 -U ADMIN -P ADMIN chassis power diag |