WO2020140428A1

WO2020140428A1 - 一种服务器硬盘背板健康状态监测装置、方法及系统

Info

Publication number: WO2020140428A1
Application number: PCT/CN2019/098502
Authority: WO
Inventors: 王义晖
Original assignee: 郑州云海信息技术有限公司
Priority date: 2019-01-04
Filing date: 2019-07-31
Publication date: 2020-07-09
Also published as: CN109857602A

Abstract

一种服务器硬盘背板健康状态监测装置、方法及系统，装置包括基板管理控制器、可编程控制器、存储器控制器、硬盘插槽、包括温度传感器、电压调节模块以及EEPROM，可编程控制器分别以轮询的方式对所述温度传感器、电压调节模块、EEPROM进行访问，分别获取各种硬盘运行参数，并将获取到的硬盘运行参数存储到EEPROM中；当接收到基板管理控制器的轮询动作指令时，将存储在EEPROM中的硬盘运行参数反馈给基板管理控制器，从而实现对服务器硬盘背板的健康状态监测和记录，提升服务器产品的品质和用户体验。

Description

一种服务器硬盘背板健康状态监测装置、方法及系统

本申请要求于2019年1月4日提交中国专利局、申请号为201910007155.0、发明名称为“一种服务器硬盘背板健康状态监测装置、方法及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明属于服务器技术领域，尤其涉及一种服务器硬盘背板健康状态监测装置、方法及系统。

背景技术

服务器硬盘背板是服务器存储子系统的重要组成部分，主要作为连接硬盘的部件，将硬盘接口按照一定的方式与服务器的Raid卡、SAS卡或者板载接口相连。随着服务器功能的发展，存储子系统的发展也越来越多样化，按照种类来讲，除了传统的连接SATA硬盘、SAS硬盘的背板，还发展出了NVME硬盘背板、M.2硬盘背板、ruler规格硬盘的背板等多种形态，有的背板还需要支持混插的特性，即将多种不同种类的背板连接到同一块背板上。背板的形态也逐渐多样化，现在除了横插和竖插的背板外，还出现了很多不规则的背板，背板上硬盘的数量也越来越多。

目前，硬盘背板上一般使用可编程控制器CPLD作为基板管理控制器BMC监控的接口使用，CPLD负责的主要功能是：将存储控制器的SGPIO信号解析为具体的error、locate、active信号后，通过GPIO控制HDD slot的LED灯；将SGPIO信号转换为I2C信号，与主板BMC进行通信，是服务器带外管理系统可以知道背板上硬盘的状态。而BMC直接与背板上的温度sensor进行通信，通过I2C来读取背板上的温度进行监控。

从上可知，对硬盘背板的监测范围有限，只能监控硬盘背板的温度信息，无法监测获取并记录硬盘背板的其他故障信息，从而无法获取硬盘背板的健康状态，存在安全运行的隐患。

发明内容

针对现有技术中的缺陷，本发明提供了一种服务器硬盘背板健康状态监测装置，旨在解决现有技术中对硬盘背板的监测范围有限，只能监控硬盘背板的温度信息，无法监测获取并记录硬盘背板的其他故障信息，从而无法获取硬盘背板的健康状态，存在安全运行的隐患的问题。

本发明所提供的技术方案是：一种服务器硬盘背板健康状态监测装置，包括基板管理控制器、可编程控制器、存储器控制器以及硬盘插槽，所述硬盘插槽上安装有与所述可编程控制器连接的硬盘LED指示灯，所述可编程控制器分别与所述基板管理控制器和存储器控制器连接，所述服务器硬盘背板健康状态监测装置还包括温度传感器、电压调节模块以及EEPROM，所述温度传感器、电压调节模块、EEPROM分别与所述可编程控制器连接；

所述可编程控制器分别以轮询的方式对所述温度传感器、电压调节模块、EEPROM进行访问，分别获取温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数，并将获取到的温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数存储到所述EEPROM中；

当接收到所述基板管理控制器的轮询动作指令时，将存储在所述EEPROM中的所述温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数反馈给所述基板管理控制器。

作为一种改进的方案，所述温度传感器通过I2C总线与所述可编程控制器连接，所述电压调节模块通过PMBUS与所述可编程控制器连接，所述EEPROM通过SPI总线与所述可编程控制器连接。

作为一种改进的方案，所述可编程控制器与所述基板管理控制器之间通过I2C总线连接。

本发明的另一目的在于提供一种基于服务器硬盘背板健康状态监测装置的服务器硬盘背板健康状态监测方法，所述方法包括下述步骤：

可编程控制器分别以轮询的方式对所述温度传感器、电压调节模块、EEPROM进行访问，分别获取温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数；

所述可编程控制器将获取到的温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数存储到所述EEPROM中；

基板管理控制器以轮询的方式对所述可编程控制器进行访问，生成轮询动作指令；

当所述可编程控制器接收到所述基板管理控制器的轮询动作指令时，将存储在所述EEPROM中的所述温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数反馈给所述基板管理控制器。

作为一种改进的方案，所述方法还包括下述步骤：

预先在所述硬盘背板上设置一个EEPROM，所述EEPROM用于暂时存储所述温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数。

作为一种改进的方案，所述温度传感器通过I2C总线与所述可编程控制器连接，所述电压调节模块通过PMBUS与所述可编程控制器连接，所述EEPROM通过SPI总线与所述可编程控制器连接；

所述可编程控制器与所述基板管理控制器之间通过I2C总线连接。

本发明的另一目的在于提供一种基于服务器硬盘背板健康状态监测方法的服务器硬盘背板健康状态监测系统，所述系统包括：

第一轮询模块，内置于可编程控制器内，用于分别以轮询的方式对所述温度传感器、电压调节模块、EEPROM进行访问，分别获取温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数；

存储控制模块，内置于可编程控制器内，用于所述可编程控制器将获取到的温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数存储到所述EEPROM中；

第二轮询模块，内置于基板管理控制器内，用于以轮询的方式对所述可编程控制器进行访问，生成轮询动作指令；

反馈模块，内置于可编程控制器内，用于当接收到所述基板管理控制器的轮询动作指令时，将存储在所述EEPROM中的所述温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数反馈给所述基板管理控制器。

作为一种改进的方案，所述系统还包括：

预先设置模块，用于预先在所述硬盘背板上设置一个EEPROM，所述EEPROM用于暂时存储所述温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数。

在本发明实施例中，服务器硬盘背板健康状态监测装置包括基板管理控制器、可编程控制器、存储器控制器、硬盘插槽、包括温度传感器、电压调节模块以及EEPROM，可编程控制器分别以轮询的方式对所述温度传感器、电压调节模块、EEPROM进行访问，分别获取各种硬盘运行参数，并将获取到的硬盘运行参数存储到EEPROM中；当接收到基板管理控制器的轮询动作指令时，将存储在EEPROM中的硬盘运行参数反馈给基板管理控制器，从而实现对服务器硬盘背板的健康状态监测和记录，提升服务器产品的品质和用户体验。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1是本发明提供的服务器硬盘背板健康状态监测装置的结构框图；

图2是本发明提供的服务器硬盘背板健康状态监测方法的实现流程图；

图3是本发明提供的服务器硬盘背板健康状态监测系统的结构框图；

其中，1-基板管理控制器，2-可编程控制器，3-存储器控制器，4-硬盘插槽，5-温度传感器，6-电压调节模块，7-EEPROM，8-第一轮询模块，9-存储控制模块，10-第二轮询模块，11-反馈模块，12-预先设置模块。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的、技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。

图1是本发明提供的服务器硬盘背板健康状态监测装置的结构框图，为了便于说明，图中仅给出与本发明实施例相关的部分。

服务器硬盘背板健康状态监测装置包括基板管理控制器1、可编程控制器2、存储器控制器3以及硬盘插槽4，所述硬盘插槽4上安装有与所述可编程控制器2连接的硬盘LED指示灯，所述可编程控制器2分别与所述基板管理控制器1和存储器控制器3连接，所述服务器硬盘背板健康状态监测装置还包括温度传感器5、电压调节模块6以及EEPROM 7，所述温度传感器5、电压调节模块6、EEPROM 7分别与所述可编程控制器2连接；

所述可编程控制器2分别以轮询的方式对所述温度传感器5、电压调节模块6、EEPROM 7进行访问，分别获取温度传感器5采集到的温度参数、电压调节模块6内部寄存器中的故障信息以及由所述存储器控制器3 发送的GPIO信号解析得到的error、locate、active信号参数，并将获取到的温度传感器5采集到的温度参数、电压调节模块6内部寄存器中的故障信息以及由所述存储器控制器3发送的GPIO信号解析得到的error、locate、active信号参数存储到所述EEPROM中；

当接收到所述基板管理控制器1的轮询动作指令时，将存储在所述EEPROM中的所述温度传感器5采集到的温度参数、电压调节模块6内部寄存器中的故障信息以及由所述存储器控制器3发送的GPIO信号解析得到的error、locate、active信号参数反馈给所述基板管理控制器1。

在该实施例中，温度传感器5通过I2C总线与所述可编程控制器2连接，所述电压调节模块6通过PMBUS与所述可编程控制器2连接，所述EEPROM通过SPI总线与所述可编程控制器2连接；

可编程控制器2与所述基板管理控制器1之间通过I2C总线连接。

在本发明实施例中，可编程控制器2具有较多的接口，通过PMBUS与电压调节模块6通信连接，实现对硬盘背板的供电情况进行监控，同时在硬盘背板上加入一个EEPROM存储器，将主板上的故障情况进行记录，并保存，供基板管理控制器1查询，加上与可编程控制器2直接连接的温度传感器5，实现对硬盘背板的全方位监控和记录，从而进一步的提升服务器的使用体验。

图2示出了本发明提供的基于服务器硬盘背板健康状态监测装置的服务器硬盘背板健康状态监测方法的实现流程图，其具体包括下述步骤：

在步骤S101中，可编程控制器2分别以轮询的方式对所述温度传感器5、电压调节模块6、EEPROM进行访问，分别获取温度传感器5采集到的温度参数、电压调节模块6内部寄存器中的故障信息以及由所述存储器控制器3发送的GPIO信号解析得到的error、locate、active信号参数；

在步骤S102中，可编程控制器2将获取到的温度传感器5采集到的温度参数、电压调节模块6内部寄存器中的故障信息以及由所述存储器控制器3发送的GPIO信号解析得到的error、locate、active信号参数存储到所述EEPROM中；

在步骤S103中，基板管理控制器1以轮询的方式对所述可编程控制器 2进行访问，生成轮询动作指令；

在步骤S104中，当所述可编程控制器2接收到所述基板管理控制器1的轮询动作指令时，将存储在所述EEPROM中的所述温度传感器5采集到的温度参数、电压调节模块6内部寄存器中的故障信息以及由所述存储器控制器3发送的GPIO信号解析得到的error、locate、active信号参数反馈给所述基板管理控制器1。

其中，在执行上述步骤S101之前还需要执行下述步骤：

预先在所述硬盘背板上设置一个EEPROM，所述EEPROM用于暂时存储所述温度传感器5采集到的温度参数、电压调节模块6内部寄存器中的故障信息以及由所述存储器控制器3发送的GPIO信号解析得到的error、locate、active信号参数。

图3示出了本发明提供的服务器硬盘背板健康状态监测系统的结构框图，为了便于说明，图中仅给出了与本发明实施例相关的部分。

服务器硬盘背板健康状态监测系统包括：

第一轮询模块8，内置于可编程控制器2内，用于分别以轮询的方式对所述温度传感器5、电压调节模块6、EEPROM进行访问，分别获取温度传感器5采集到的温度参数、电压调节模块6内部寄存器中的故障信息以及由所述存储器控制器3发送的GPIO信号解析得到的error、locate、active信号参数；

存储控制模块9，内置于可编程控制器2内，用于所述可编程控制器2将获取到的温度传感器5采集到的温度参数、电压调节模块6内部寄存器中的故障信息以及由所述存储器控制器3发送的GPIO信号解析得到的error、locate、active信号参数存储到所述EEPROM中；

第二轮询模块10，内置于基板管理控制器1内，用于以轮询的方式对所述可编程控制器2进行访问，生成轮询动作指令；

反馈模块11，内置于可编程控制器2内，用于当接收到所述基板管理控制器1的轮询动作指令时，将存储在所述EEPROM中的所述温度传感器5采集到的温度参数、电压调节模块6内部寄存器中的故障信息以及由所述存储器控制器3发送的GPIO信号解析得到的error、locate、active信号参数反馈给所述基板管理控制器1。

其中，预先设置模块12，用于预先在所述硬盘背板上设置一个EEPROM，所述EEPROM用于暂时存储所述温度传感器5采集到的温度参数、电压调节模块6内部寄存器中的故障信息以及由所述存储器控制器3发送的GPIO信号解析得到的error、locate、active信号参数。

在本发明实施例中，服务器硬盘背板健康状态监测装置包括基板管理控制器1、可编程控制器2、存储器控制器3、硬盘插槽4、包括温度传感器5、电压调节模块6以及EEPROM，可编程控制器2分别以轮询的方式对所述温度传感器5、电压调节模块6、EEPROM进行访问，分别获取各种硬盘运行参数，并将获取到的硬盘运行参数存储到EEPROM中；当接收到基板管理控制器1的轮询动作指令时，将存储在EEPROM中的硬盘运行参数反馈给基板管理控制器1，从而实现对服务器硬盘背板的健康状态监测和记录，提升服务器产品的品质和用户体验。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

一种服务器硬盘背板健康状态监测装置，包括基板管理控制器、可编程控制器、存储器控制器以及硬盘插槽，所述硬盘插槽上安装有与所述可编程控制器连接的硬盘LED指示灯，所述可编程控制器分别与所述基板管理控制器和存储器控制器连接，其特征在于，所述服务器硬盘背板健康状态监测装置还包括温度传感器、电压调节模块以及EEPROM，所述温度传感器、电压调节模块、EEPROM分别与所述可编程控制器连接；

所述可编程控制器分别以轮询的方式对所述温度传感器、电压调节模块、EEPROM进行访问，分别获取温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数，并将获取到的温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数存储到所述EEPROM中；

当接收到所述基板管理控制器的轮询动作指令时，将存储在所述EEPROM中的所述温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数反馈给所述基板管理控制器。
根据权利要求1所述的服务器硬盘背板健康状态监测装置，其特征在于，所述温度传感器通过I2C总线与所述可编程控制器连接，所述电压调节模块通过PMBUS与所述可编程控制器连接，所述EEPROM通过SPI总线与所述可编程控制器连接。
根据权利要求1或2所述的服务器硬盘背板健康状态监测装置，其特征在于，所述可编程控制器与所述基板管理控制器之间通过I2C总线连接。
一种基于权利要求1所述的服务器硬盘背板健康状态监测装置的服务器硬盘背板健康状态监测方法，其特征在于，所述方法包括下述步骤：

可编程控制器分别以轮询的方式对所述温度传感器、电压调节模块、EEPROM进行访问，分别获取温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数；

所述可编程控制器将获取到的温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数存储到所述EEPROM中；

基板管理控制器以轮询的方式对所述可编程控制器进行访问，生成轮询动作指令；

当所述可编程控制器接收到所述基板管理控制器的轮询动作指令时，将存储在所述EEPROM中的所述温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数反馈给所述基板管理控制器。
根据权利要求4所述的服务器硬盘背板健康状态监测方法，其特征在于，所述方法还包括下述步骤：

预先在所述硬盘背板上设置一个EEPROM，所述EEPROM用于暂时存储所述温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数。
根据权利要求4所述的服务器硬盘背板健康状态监测方法，其特征在于，所述温度传感器通过I2C总线与所述可编程控制器连接，所述电压调节模块通过PMBUS与所述可编程控制器连接，所述EEPROM通过SPI总线与所述可编程控制器连接；

所述可编程控制器与所述基板管理控制器之间通过I2C总线连接。
一种基于权利要求4所述的服务器硬盘背板健康状态监测方法的服务器硬盘背板健康状态监测系统，其特征在于，所述系统包括：

第一轮询模块，内置于可编程控制器内，用于分别以轮询的方式对所述温度传感器、电压调节模块、EEPROM进行访问，分别获取温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数；

存储控制模块，内置于可编程控制器内，用于所述可编程控制器将获取到的温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数存储到所述EEPROM中；

第二轮询模块，内置于基板管理控制器内，用于以轮询的方式对所述可编程控制器进行访问，生成轮询动作指令；

反馈模块，内置于可编程控制器内，用于当接收到所述基板管理控制器的轮询动作指令时，将存储在所述EEPROM中的所述温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数反馈给所述基板管理控制器。
根据权利要求7所述的服务器硬盘背板健康状态监测系统，其特征在于，所述系统还包括：

预先设置模块，用于预先在所述硬盘背板上设置一个EEPROM，所述EEPROM用于暂时存储所述温度传感器采集到的温度参数、电压调节模块内部寄存器中的故障信息以及由所述存储器控制器发送的GPIO信号解析得到的error、locate、active信号参数。
根据权利要求8所述的服务器硬盘背板健康状态监测系统，其特征在于，所述温度传感器通过I2C总线与所述可编程控制器连接，所述电压调节模块通过PMBUS与所述可编程控制器连接，所述EEPROM通过SPI总线与所述可编程控制器连接；

所述可编程控制器与所述基板管理控制器之间通过I2C总线连接。