问题现象
在taishan server 2.5.0 服务器openEuler20.03 LTS上触发kdump失败,系统没有自动重启,没有生成vmcore文件,有尝试预留不同的crashkernel大小,以及禁掉网络相关驱动都没有成功。串口没有打印类似OOM之类等为什么会kdump失败的信息。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
https://gitee.com/open_euler/dashboard?issue_id=I1GG37
看下是不是这个已知问题。
@Xie XiuQi 访问这个链接返回404 受限。 除了签署CLA外,还需要其它申请么?
经过调查后,已定位生成失败的原因有二:
一、测试人员手动升级了网卡outbox驱动,导致原来第二内核的--omit-drivers参数失效,解决方法是:(1)配置crashkernel=2G(1822网卡驱动耗内存极大);或者(2)把第二内核的initrd文件用cpio解压,删掉其中的outbox驱动,用cpio/gzip重新压缩回去;
二、板载sas驱动无法在单CPU上运行,规避方法是修改/etc/sysconfig/kdump文件,在KDUMP_COMMANDLINE_APPEND后面加入hisi_sas_v3_hw.user_ctl_irq=1参数后重启kdump服务。
此问题的patch海思在欧拉2.8 4.19.90-2001.1.0~3975内核上已合入,commit id: e3b9140,但openEuler 20.03 LTS上为何不生效具体情况待进一步调查确认。
三、关于上述第一点中提及的减小内存使用量解决kdump第二内核启动问题的--omit-drivers参数,具体如下:
可以尝试先把网络相关的驱动先移除掉,不加载网络驱动。
在/etc/kdump.conf中,修改如下配置项为:
dracut_args --omit-drivers "mdio-gpi usb_8dev et1011c rt2x00usb bcm-phy-lib mac80211_hwsim rtl8723be rndis_host hns3_cae amd vrf rtl8192cu mt76x02-lib int51x1 ppp_deflate team_mode_loadbalance smsc911x aweth bonding mwifiex_usb hnae dnet rt2x00pci vaser_pci hdlc_ppp marvell rtl8xxxu mlxsw_i2c ath9k_htc rtl8150 smc91x cortina at803x rockchip cxgb4 spi_ks8995 mt76x2u smsc9420 mdio-cavium bnxt_en ch9200 dummy macsec ice mt7601u rtl8188ee ixgbevf net1080 liquidio_vf be2net mlxsw_switchx2 gl620a xilinx_gmii2rgmii ppp_generic rtl8192de sja1000_platform ath10k_core cc770_platform realte igb c_can_platform c_can ethoc dm9601 smsc95xx lg-vl600 ifb enic ath9 mdio-octeon ppp_mppe ath10k_pci cc770 team_mode_activebackup marvell10g hinic rt2x00lib mlx4_en iavf broadcom igc c_can_pci alx rtl8192se rtl8723ae microchip lan78xx atl1c rtl8192c-common almia ax88179_178a qed netxen_nic brcmsmac rt2800usb e1000 qla3xxx mdio-bitbang qsemi mdio-mscc-miim plx_pci ipvlan r8152 cx82310_eth slhc mt76x02-usb ems_pci xen-netfront usbnet pppoe mlxsw_minimal mlxsw_spectrum cdc_ncm rt2800lib rtl_usb hnae3 ath9k_common ath9k_hw catc mt76 hns_enet_drv ppp_async huawei_cdc_ncm i40e rtl8192ce dl2 qmi_wwan mii peak_usb plusb can-dev slcan amd-xgbe team_mode_roundrobin ste10Xp thunder_xcv pptp thunder_bgx ixgbe davicom icplus tap tun smsc75xx smsc dlci hns_dsaf mlxsw_core rt2800mmi softing uPD60620 vaser_usb dp83867 brcmfmac mwifiex_pcie mlx4_core micrel team macvlan bnx2 virtio_net rtl_pci zaurus hns_mdi libcxgb hv_netvsc nicvf mt76x0u teranetics mlxfw cdc_eem qcom-emac pppox mt76-usb sierra_net i40evf bcm87xx mwifiex pegasus rt2x00mmi sja1000 ena hclgevf cnic cxgb4vf ppp_synctty iwlmvm team_mode_broadcast vxlan vsockmon hdlc_cisc rtl8723-common bsd_comp fakelb dp83822 dp83tc811 cicada fm10 8139t sfc hs geneve hclge xgene-enet-v2 cdc_mbim hdlc asix netdevsim rt2800pci team_mode_random lxt ems_usb mlxsw_pci sr9700 mdio-thunder mlxsw_switchib macvtap atlantic cdc_ether mcs7830 nicpf mdi peak_pci atl1e cdc_subset ipvtap btcoexist mt76x0-common veth slip iwldvm bcm7xxx vitesse netconsole epic100 myri10ge r8169 qede microchip_t1 liquidi bnx2x brcmutil mwifiex_sdi mlx5_core rtlwifi vmxnet3 nlmon hns3 hdlc_raw esd_usb2 atl2 mt76x2-common iwlwifi mdio-bcm-unimac national ath rtwpci rtw88 nfp rtl8821ae fjes thunderbolt-net 8139cp atl1 mscc vcan dp83848 dp83640 hdlc_fr e1000e ipheth net_failover aquantia rtl8192ee igbvf rocker intel-xway tg3" --omit "ramdisk network ifcfg qemu-net" --install "chmod findmnt du gzip gunzip export_kbox_img_to_txt awk set_reboot_timer.sh" --nofscks
然后删除kdump initrd,重启kdump服务。
以前遇到过网络相关的驱动占用内存很大,在商用版本中,我们去掉了网络驱动/网络转储功能。
登录 后才可以发表评论