(河北)触类旁通深入分析,排查服务器存储芯片缺陷风险

2024-11-30 18:41:44 admin

 

本网讯(通讯员 王瑞松)在信息技术日新月异的河北今天,服务器的触类储芯安全稳定对于安全运行至关重要。近期,旁通排查片缺通信网络室以《关于华为2288H V5服务器iBMC固件版本BUG可能导致服务器宕机的深入风险通告》为契机,组织排查本科室所属华为服务器设备。分析服务

据了解,器存此次风险主要涉及华为2288系列的陷风险V5版服务器中的BMC(基板管理控制器)固件版本号为V3.54以下的部分。较低的河北BMC版本默认使用了“智能诊断数据采集功能”,该功能会定时采集系统硬件信息写入NAND Flash中的触类储芯数据库,频繁的旁通排查片缺向NAND Flash中写入数据,会快速消耗NAND Flash寿命。深入面对这一情况,分析服务通信网络室迅速采取了行动。器存

首先,陷风险通信网络室仔细核查了所使用的河北服务器型号和BMC版本,确认无误后,他们深入了解了BMC系统的运作机制。BMC是一个独立的硬件处理器,提供各种服务器硬件状态信息和故障检测机制,并且可以通过网络远程管理。了解这一点后,技术团队更加明确了此次风险排查的重要性。

随后,技术团队通过远程SSH登录BMC系统,详细检查了其中使用的NAND Flash芯片的型号和版本。他们发现芯片的型号为海力士的Hi1710,版本为IPMI2.0。这些信息对于后续的风险评估和应对措施至关重要。

为了更全面地评估风险,通信网络室利用BMC的日志收集功能,一键收集了系统的运行日志并保存至本地。他们进行了详细查询和综合分析,以进一步了解潜在的风险点并制定应对策略。经过仔细核查和综合分析,他们发现问题的根源在于BMC主板中的NAND Flash芯片读写速率过高。这是因为V5版的服务器的主板中使用的烧录器和烧录文件的方式导致Flash芯片读写速率过高,频繁地读写Flash芯片会加速数据块的损坏,进而缩短芯片的使用寿命。若产生寿命不足5%的告警提示,需通过更换BMC主板来消除告警,否则会产生偶发性的宕机,甚至可能会影响整个系统的运行。

针对这一问题,通信网络室迅速采取了措施。通过与厂家技术支持的沟通咨询,他们了解到本科室所属的V3版服务器BMC中存在NAND Flash芯片,但在出厂时并未使能该功能,而是使用了NOR Flash存储方式,故在收集的运行日志中也不会存在nandflash_info类文本,也就是基本不会出现此类告警。另外V5版的BMC使用的海力士芯片与烧录器交错使用致使出厂时NAND Flash自身的缺陷,从而易产生Flash低于使用寿命阈值的告警,同时V3版的BMC中使用的烧录器与V5版使用的不同,所以V3版本的服务器不涉及风险通告中的问题。

在这次排查过程中,通信网络室不仅深入了解了服务器的iBMC模块的功能,还开拓了工作视野,为以后的空管安全运行保障工作积累了宝贵经验。

 

友链


  • 文章

    87

  • 浏览

    94184

  • 获赞

    2549

赞一个、收藏了!

分享给朋友看看这篇文章

热门推荐