Kdump、watchdog、BMC配置

Kdump配置

配置

配置文件(/etc/default/grub.conf)

storage

执行:

1
2
3
grub2-mkconfig -o /boot/grub2/grub.cfg

reboot

重启后手动触发crash检测Kdump是否正常:

1
2
echo 1 > /proc/sys/kernel/sysrq
echo c > /proc/sysrq-trigger

检测是否产生crash:

storage

运行vmcore

1、安装kernel-lt-4.4.13-1.el7.elrepo.x86_64.rpm,kernel-lt-devel-4.4.13-1.el7.elrepo.x86_64.rpm,已安装则省略这一步。

2、安装kernel-lt-debuginfo-common-x86_64-4.4.13-1.el7.elrepo.x86_64.rpm

3、升级crash,crash 7.2.3-8.el7

4、crash /usr/src/kernels/4.4.13-1.el7.elrepo.x86_64/System.map /usr/lib/debug/lib/modules/vmlinux /var/crash/127.0.0.1-2019-03-12-01:13:12/vmcore

ps:需指定System.map,vmcore可在虚拟机上跑。

分析vmcore

执行命令 bt 10142 可查看进程堆栈信息:

storage

通过kmem -i 查看内存使用情况, sys 查看系统情况 , ps 查看进程均未发现异常情况,可先排除硬件或资源不足的问题。

通过dis -l ffff8801f98a2080进行反汇编

watchdog配置

softlockup 和 hardlockup
Soft lockup是指CPU被内核代码占据,以至于无法执行其它进程。
Hard lockup比soft lockup更加严重,CPU不仅无法执行其它进程,而且不再响应中断。

中断分为可屏蔽中断和非可屏蔽中断

可屏蔽中断包含时钟中断,外设中断(比如键盘中断,I/O设备中断,等等)

NMI,即非可屏蔽中断。即使在内核代码中设置了屏蔽所有中断的时候,NMI也是不可以被屏蔽的。
kernel线程 < 时钟中断 < NMI中断,其中,kernel 线程是可以被调度的,同时也是可以被中断随时打断的

(1)开启softlockup panic:

1
2
3
kernel.watchdog_thresh = 60
kernel.softlockup_panic = 1
kernel.sysrq = 1

(2)开启hardslockup panic

1
2
kernel.hardlockup_panic = 1
kernel.nmi_watchdog = 1

(3)开启手动NMI中断,触发panic

1
kernel.unknown_nmi_panic = 1

基于硬件支持程度不同,timer可能是硬件设备,也可能为软件模拟设备,我们分为hardware watchdog和software watchdog。

目前实验测试推荐使用hardwatchdog。

开启softwatchdog:

1、安装watchdog:yum install watchdog

2、加载softdog.ko:modprobe softdog
storage

3、配置watchdog配置文件(/etc/watchdog.conf)
storage

4、启动watchdog进程
storage

开启hardwatchdog:

1、安装watchdog:yum install watchdog

2、配置watchdog(/etc/watchdog.conf)
storage

3、检查进程
storage

BMC配置

1、安装ipmitool,可装window版,需保持与服务器BMC网段相通。

2、通过BMC进行相关命令、信息及日志获取。

(1)查看BMC版本

1
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN mc info

storage

(2)查看服务器状态

1
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN chassis power status

storage

(3)服务器开关机
开机:

1
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN chassis power on

关机:

1
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN chassis power off

重启:

1
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN chassis power reset

(4)SEL日志查看

1
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sel list

storage

Sel日志详情:

1
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sel elist

(5)SDR Sensor 信息查看

1
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sdr

storage

查看sensor:
获取传感器ID号

1
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sensor list

storage

查看某个sensor的详情:

1
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sensor get “CPU1 Temp”

storage

设置sensor(ID)监测项的各种限制值:
Ipmitool.exe –l lanplus –H 77.77.76.102 –U ADMIN –P ADMIN sensor thresh
可以是
unr =不可恢复的上限
ucr =高临界
unc =上限非关键
lnc =较低的非临界
lcr =较低的临界
lnr =较低的不可恢复
为设置的值

(6)手动发送NMI信号,触发panic

1
ipmitool.exe -I lanplus -H 77.77.76.102 -U ADMIN -P ADMIN chassis power diag

storage
storage