394 Star 1.4K Fork 1.3K

GVPopenEuler / kernel

 / 详情

taishan server 2.5.0 openEuler20.03 LTS触发kdump失败

已完成
任务
创建于  
2020-06-22 21:46

问题现象
在taishan server 2.5.0 服务器openEuler20.03 LTS上触发kdump失败,系统没有自动重启,没有生成vmcore文件,有尝试预留不同的crashkernel大小,以及禁掉网络相关驱动都没有成功。串口没有打印类似OOM之类等为什么会kdump失败的信息。

评论 (3)

shjinyu 创建了任务
shjinyu 关联仓库设置为openEuler/kernel
Alex_Chao 负责人设置为Alex_Chao
Alex_Chao 添加协作者Xie XiuQi
展开全部操作日志

https://gitee.com/open_euler/dashboard?issue_id=I1GG37
看下是不是这个已知问题。

@Xie XiuQi 访问这个链接返回404 受限。 除了签署CLA外,还需要其它申请么?

经过调查后,已定位生成失败的原因有二:
一、测试人员手动升级了网卡outbox驱动,导致原来第二内核的--omit-drivers参数失效,解决方法是:(1)配置crashkernel=2G(1822网卡驱动耗内存极大);或者(2)把第二内核的initrd文件用cpio解压,删掉其中的outbox驱动,用cpio/gzip重新压缩回去;

二、板载sas驱动无法在单CPU上运行,规避方法是修改/etc/sysconfig/kdump文件,在KDUMP_COMMANDLINE_APPEND后面加入hisi_sas_v3_hw.user_ctl_irq=1参数后重启kdump服务。
此问题的patch海思在欧拉2.8 4.19.90-2001.1.0~3975内核上已合入,commit id: e3b9140,但openEuler 20.03 LTS上为何不生效具体情况待进一步调查确认。

三、关于上述第一点中提及的减小内存使用量解决kdump第二内核启动问题的--omit-drivers参数,具体如下:
可以尝试先把网络相关的驱动先移除掉,不加载网络驱动。
在/etc/kdump.conf中,修改如下配置项为:
dracut_args --omit-drivers "mdio-gpi usb_8dev et1011c rt2x00usb bcm-phy-lib mac80211_hwsim rtl8723be rndis_host hns3_cae amd vrf rtl8192cu mt76x02-lib int51x1 ppp_deflate team_mode_loadbalance smsc911x aweth bonding mwifiex_usb hnae dnet rt2x00pci vaser_pci hdlc_ppp marvell rtl8xxxu mlxsw_i2c ath9k_htc rtl8150 smc91x cortina at803x rockchip cxgb4 spi_ks8995 mt76x2u smsc9420 mdio-cavium bnxt_en ch9200 dummy macsec ice mt7601u rtl8188ee ixgbevf net1080 liquidio_vf be2net mlxsw_switchx2 gl620a xilinx_gmii2rgmii ppp_generic rtl8192de sja1000_platform ath10k_core cc770_platform realte igb c_can_platform c_can ethoc dm9601 smsc95xx lg-vl600 ifb enic ath9 mdio-octeon ppp_mppe ath10k_pci cc770 team_mode_activebackup marvell10g hinic rt2x00lib mlx4_en iavf broadcom igc c_can_pci alx rtl8192se rtl8723ae microchip lan78xx atl1c rtl8192c-common almia ax88179_178a qed netxen_nic brcmsmac rt2800usb e1000 qla3xxx mdio-bitbang qsemi mdio-mscc-miim plx_pci ipvlan r8152 cx82310_eth slhc mt76x02-usb ems_pci xen-netfront usbnet pppoe mlxsw_minimal mlxsw_spectrum cdc_ncm rt2800lib rtl_usb hnae3 ath9k_common ath9k_hw catc mt76 hns_enet_drv ppp_async huawei_cdc_ncm i40e rtl8192ce dl2 qmi_wwan mii peak_usb plusb can-dev slcan amd-xgbe team_mode_roundrobin ste10Xp thunder_xcv pptp thunder_bgx ixgbe davicom icplus tap tun smsc75xx smsc dlci hns_dsaf mlxsw_core rt2800mmi softing uPD60620 vaser_usb dp83867 brcmfmac mwifiex_pcie mlx4_core micrel team macvlan bnx2 virtio_net rtl_pci zaurus hns_mdi libcxgb hv_netvsc nicvf mt76x0u teranetics mlxfw cdc_eem qcom-emac pppox mt76-usb sierra_net i40evf bcm87xx mwifiex pegasus rt2x00mmi sja1000 ena hclgevf cnic cxgb4vf ppp_synctty iwlmvm team_mode_broadcast vxlan vsockmon hdlc_cisc rtl8723-common bsd_comp fakelb dp83822 dp83tc811 cicada fm10 8139t sfc hs geneve hclge xgene-enet-v2 cdc_mbim hdlc asix netdevsim rt2800pci team_mode_random lxt ems_usb mlxsw_pci sr9700 mdio-thunder mlxsw_switchib macvtap atlantic cdc_ether mcs7830 nicpf mdi peak_pci atl1e cdc_subset ipvtap btcoexist mt76x0-common veth slip iwldvm bcm7xxx vitesse netconsole epic100 myri10ge r8169 qede microchip_t1 liquidi bnx2x brcmutil mwifiex_sdi mlx5_core rtlwifi vmxnet3 nlmon hns3 hdlc_raw esd_usb2 atl2 mt76x2-common iwlwifi mdio-bcm-unimac national ath rtwpci rtw88 nfp rtl8821ae fjes thunderbolt-net 8139cp atl1 mscc vcan dp83848 dp83640 hdlc_fr e1000e ipheth net_failover aquantia rtl8192ee igbvf rocker intel-xway tg3" --omit "ramdisk network ifcfg qemu-net" --install "chmod findmnt du gzip gunzip export_kbox_img_to_txt awk set_reboot_timer.sh" --nofscks

然后删除kdump initrd,重启kdump服务。
以前遇到过网络相关的驱动占用内存很大,在商用版本中,我们去掉了网络驱动/网络转储功能。

Alex_Chao 任务状态待办的 修改为已完成
Alex_Chao 修改了描述

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
预计工期 (小时)
参与者(4)
C
1
https://gitee.com/openeuler/kernel.git
git@gitee.com:openeuler/kernel.git
openeuler
kernel
kernel

搜索帮助

14c37bed 8189591 565d56ea 8189591