WO2013097485A1

WO2013097485A1 - 磁盘阵列、存储系统以及数据存储路径切换方法

Info

Publication number: WO2013097485A1
Application number: PCT/CN2012/081178
Authority: WO
Inventors: 李旭慧
Original assignee: 华为技术有限公司
Priority date: 2011-12-31
Filing date: 2012-09-10
Publication date: 2013-07-04
Also published as: EP2610750B1; CN102629225B; US8930608B2; CN102629225A; EP2610750A1; US20130173839A1

Abstract

提供了一种磁盘阵列、存储系统和数据存储路径切换方法，其中存储系统包括磁盘阵列和服务器。磁盘阵列包括磁盘框以及两个控制器节点，每个控制器节点包括交换设备，其中交换设备的一个端口与对端控制器节点中交换设备的一个端口相连接；每个控制器节点用于通过端口检测对端控制器节点是否失效；当检测到对端控制器节点失效时，本控制器节点使对端控制器节点将接收到的服务器发送的数据，通过对端控制器节点交换设备的端口发送至本控制器节点交换设备的端口中，由于不需要在服务器中安装多路径软件，因此减少了服务器装置的冗余。

Description

磁盘阵列、存储系统以及数据存储路径切换方法

技术领域本发明涉及数据存储技术领域，更具体地说，涉及一种磁盘阵列、存储系统以及数据存储路径切换方法。背景技术存储设备，通常指磁盘阵列，是独立在服务器外的一台或多台用以存储数据的磁盘设备，其包括磁盘框以及多个控制器节点。当前主流的磁盘阵列使用的是双控制器磁盘阵列，如图 1所示，双控制器磁盘阵列包括两个控制器节点以及用于安装物理存储介质（例如，固态硬盘）的磁盘框，服务器中的数据通过其中的一个控制器节点存储在磁盘框中。

在实际应用中，当双控制器磁盘阵列中的一个控制器节点失效时，另外一个控制器节点必须能接管失效控制器节点的数据。为了实现上述目的，当前已经提出一种技术方案。在该方案中，当某个控制器节点失效后，运行在服务器上的多路径软件检测链路状态，根据失效的路径（图 1中细实线所示的数据路径 1), 切换至备份的路径上 (图 1中虚线所示的数据路径 2), 也即，服务器将失效的控制器节点的数据传输路径切换至另一控制器节点上，向另一控制器节点重新发送待存储的数据。

上述方案虽然能够解决某个控制器节点失效的情况，但是会存在如下问题：在服务器上安装存储设备厂商提供的多路径软件，并使用该软件进行路径切换时，需要预先在服务器和磁盘阵列进行一系列复杂配置才能实现，增加了服务器和磁盘阵列的冗余数据量。发明内容有鉴于此，本发明实施例目的在于提供一种双控制器磁盘阵列、存储系统以及数据存储路径切换方法，以解决服务器应用多路径软件切换失效控制器节点时，服务器和双控制器磁盘阵列需增加一系列复杂的配置来使用多路径软件的缺点。

一种双控制器磁盘阵列 ,应用于包括双控制器磁盘阵列和服务器的存储系统中，所述双控制器磁盘阵列包括磁盘框以及两个控制器节点，每个所述控制器节点包括交换设备，其中交换设备的一个端口与对端控制器节点中交换设备的一个端口相连接；每个所述控制器节点通过本控制器节点中的交换设备接收所述服务器发送的数据，并将所述数据存储至所述磁盘框，其中：

每个所述控制器节点，还用于通过所述端口检测对端控制器节点是否失效；当检测到对端控制器节点失效时，重新设置本控制器节点和对端控制器节点的配置参数，使得对端控制器节点将接收到的所述服务器发送的数据，通过对端控制器节点交换设备的端口发送至本控制器节点交换设备的端口中；每个所述控制器节点，还用于通过本控制器节点交换设备中所述端口接收对端控制器节点发来的数据，并将接收到的数据存储至所述磁盘框中，所述数据是服务器发送至对端控制器节点的。

一种存储系统，包括服务器和如上述的双控制器磁盘阵列。

一种数据存储路径的切换方法，应用于包括双控制器磁盘阵列和服务器的存储系统中，包括：

双控制器磁盘阵列中的每个控制器节点通过其交换设备中与对端控制器节点连接的端口检测对端控制器节点是否失效，所述双控制器磁盘阵列包括磁盘框以及两个控制器节点，每个所述控制器节点通过本控制器节点中的交换设备接收所述服务器发送的数据，并将所述数据存储至所述磁盘框，每个所述控制器节点包括交换设备，其中交换设备的一个端口与对端控制器节点中交换设备的一个端口相连接；

当检测到对端控制器节点失效时，重新设置本控制器节点和对端控制器节点的配置参数，使得对端控制器节点将接收到的所述服务器发送的数据，通过对端控制器节点交换设备的端口发送至本控制器节点交换设备的端口中；通过本控制器节点交换设备中所述端口接收对端控制器节点发来的数据 , 所述数据是服务器发送至对端控制器节点的；并将接收到的数据存储至所述磁盘框中。

上述双控制器磁盘阵列、存储系统以及数据存储路径切换方法可带来以下有益效果：

服务器只需要向双控制器磁盘阵列中的任意一个控制器节点发送一次数据，如果接收数据的控制器节点失效，就由对端节点接收数据，通过控制器节点间相互检测对方是否失效，因此本发明不必事先设定冗余的数据路径，服务器则不必安装多路径软件即可以实现将数据传输路径切换至对端控制器节点上，减少了服务器和双控制器磁盘阵列的冗余数据量。

附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图 1为现有技术中数据存储路径的切换方法示意图；

图 2 为本发明实施例一提供的双控制磁盘阵列和服务器的第一结构示意图；

图 3为本发明实施例二提供的一种数据存储路径切换方法的第一流程图；图 4 为本发明实施例三提供的双控制磁盘阵列和服务器的第二结构示意图；

图 5 为本发明实施例四提供的一种数据存储路径切换方法中重新设置配置参数的方法流程图；

图 6为本发明实施例五提供的数据存储路径切换方法的时序图。

具体实施方式下面将结合本发明实施例中的附图 ,对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了引用和清楚起见，下文中使用的简写或缩写或设备的中英文对照总结下：

PCIE: Peripheral Component Interconnect Express ,夕卜设邵件互连标准扩展；

PCIE端点设备： PCIE End Point;

PCIE交换设备： PCIE Switch Device;

CPU: Central Processing Unit, 中央处理器；

NTB: None-Transparent Bridge, 非透明桥；

上游端口： upstream口；

下游端口： downstream口。实施例一

参考图 2, 示出了本实施例提供的一种双控制器磁盘阵列结构示意图和双控制器磁盘阵列与服务器的连接示意图。

双控制器磁盘阵列包括磁盘框以及两个控制器节点，每个控制器节点包括交换设备，其中交换设备的一个端口与对端控制器节点中交换设备的一个端口相连接；每个控制器节点通过本控制器节点中的交换设备接收服务器发送的数据，并将数据存储至磁盘框中。

为了叙述方便，将双控制器磁盘阵列中的两个控制器节点分别称为控制器节点 A以及控制器节点8。控制器节点 A和控制器节点 B的功能类似，可以互为主备，服务器或该磁盘阵列可以根据一定的选择策略选择其中的一个控制器节点来向磁盘框传输待存储数据。控制器节点 A中包含交换设备 A, 控制器节点 B中包含交换设备 B。控制器节点 A和控制器节点 B均可以通过本控制器节点中的交换设备接收所述服务器发送的数据 ,并将所述数据存储至所述磁盘框。

交换设备 A的端口 A5与交换设备 B的端口 B5连接。每个所述控制器节点通过本控制节点的交换设备的端口检测对端控制器节点是否失效；当检测到对端控制器节点失效时，重新设置本控制器节点和对端控制器节点的配置参数，使得对端控制器节点将接收到的所述服务器发送的数据，通过对端控制器节点交换设备中与本控制器节点连接的端口发送至本控制器节点交换设备的端口中；通过本控制器节点交换设备中所述端口接收对端控制器节点发来的数据，所述数据是服务器发送至对端控制器节点的；并将接收到的数据存储至所述磁盘框中。例如，在控制器节点 A接收服务器发送的数据，并将所述数据存储至磁盘框的过程中，控制器节点 B通过端口 B5检测控制器节点 A是否失效，并在检测到控制器节点 A失效时，重新设置控制器节点 A和控制器节点 B 的配置参数，使得控制器节点 B将接收到的服务器发送的数据，通过端口 A5发送至端口 B5中；并将端口 B5中接收到的数据存储至磁盘框中。

可选地，上述控制器节点检测对端控制器节点是否失效的方式包括但不限于：

控制器节点判断在预设的时间段内本控制器节点交换设备中与对端控制器节点连接的端口是否收到对端控制器节点发送的握手消息；如果判断结果为否，则确定对端控制器节点失效。例如，控制器节点 B判断在 10秒内，端口 B5是否收到端口 A5发来的握手消息，如果未收到握手消息，则确定对端控制器节点失效。在设置预设时间段（即监测握手消息的时间间隔）时，在系统允许的范围内，可以综合考虑控制器节点的处理性能、用户对数据传输的实时性要求等因素，如果控制器节点的处理性能较高、且用户实时性要求较高，那么监测握手消息的时间间隔可以设置较短，反之可以适当延长。

当然，还可以釆用其他方式来检测对端控制器节点是否失效，例如，控制器节点 B以预设的时间间隔向控制器节点 A发送探测消息，判断是否能接收到控制器节点 A反馈的响应消息，若超过预设时间段未收到响应消息，则确定控制器节点 A失效。或者，两个控制器节点事先约定，每个控制器节点当接收到对端控制器节点发送的中断消息时，确认对端控制器节点失效。

相应地，图 2所示的双控制器磁盘阵列中的每个控制器节点还用于周期性地向对端控制器节点发送握手消息 ,所述周期中的时间间隔不大于确定是否失效时所述预设的时间段。

上述双控制器磁盘阵列可带来以下有益效果：

服务器只需要向双控制器磁盘阵列中的任意一个控制器节点发送一次数据，如果接收数据的控制器节点失效，就由对端控制器节点接收数据，即本实施例中的服务器向控制器节点 A发送一次数据，当控制器节点 A失效时，由控制器节点 B主动接管所述数据。

本实施例通过控制器节点间相互检测对方是否失效，因此不必事先设定冗余的数据路径 ,服务器则不必应用多路径软件即可以实现将数据传输路径切换至对端控制器节点上，避免了额外购买多路径软件的费用，也避免了现有存储设备厂商各自提供的多路径软件容易产生的不兼容问题。

由于服务器不必安装多路径软件，服务器和双控制器磁盘阵列就不需要增加配置来使用多路径软件，因此减少了服务器和双控制器磁盘阵列的冗余数据量。实施例二

请参照附图 3 , 本实施例提供了一种数据存储路径的切换方法，附图 2中的每个控制器节点可以釆用该方法来实现切换数据存储路径。

本实施例以控制器节点 A失效，控制器节点 B接管失效的控制器节点 A 上的数据为例。

步骤 201 : 每个控制器节点通过其交换设备中与对端控制器节点连接的端口检测对端控制器节点是否失效。

控制器节点 B通过端口 B5检测控制器节点 A是否失效，上述控制器节点 B检测控制器节点 A是否失效的方式包括但不限于：

控制器节点 B判断在预设的时间段内本控制器节点中交换设备的端口 B5 是否收到控制器节点 A发送的握手消息；如果判断结果为否，则确定控制器节点 A失效。例如，控制器节点 B判断在 10秒内，端口 B5是否收到端口 A5 发来的握手消息，如果未收到握手消息，则确定对端控制器节点失效。在设置预设时间段（即监测握手消息的时间间隔）时，在系统允许的范围内，可以综合考虑控制器节点的处理性能、用户对数据传输的实时性要求等因素，如果控制器节点的处理性能较高、且用户实时性要求较高，那么监测握手消息的时间间隔可以设置较短，反之可以适当延长。

当然，还可以釆用其他方式来检测对端控制器节点是否失效，例如，控制器节点 B以预设的时间间隔向控制器节点 A发送探测消息，判断是否能接收到控制器节点 A反馈的响应消息，若超过预设时间段未收到响应消息，则确定控制器节点 A失效。

相应地，控制器节点 B还用于周期性地向控制器节点 A发送握手消息，所述周期中的时间间隔不大于确定是否失效时所述预设的时间段。

步骤 202: 当检测到对端控制器节点失效时，重新设置本控制器节点和对端控制器节点的配置参数，使得对端控制器节点将接收到的所述服务器发送的数据 ,通过对端控制器节点交换设备的端口发送至本控制器节点交换设备的端口中。

如图 2中所示，双控制器磁盘阵列包括磁盘框以及两个控制器节点，分别为控制器节点 A和控制器节点 B, 每个控制器节点均可以通过本控制器节点中的交换设备接收所述服务器发送的数据，并将所述数据存储至所述磁盘框，每个控制器节点包括交换设备，其中交换设备 A的端口 A5与交换设备 B的端口 B5连接。

在控制器节点 A接收服务器发送的数据，并将所述数据存储至磁盘框的过程中，控制器节点 B通过端口 B5检测控制器节点 A是否失效，并在检测到控制器节点 A失效时，重新设置控制器节点 A和控制器节点 B的配置参数，使得控制器节点 B将接收到的服务器发送的数据，通过端口 A5发送至端口 B5中。

步骤 203: 通过本控制器节点交换设备中所述端口接收对端控制器节点发来的数据，并将接收到的数据存储至所述磁盘框中，所述数据是服务器发送至对端控制器节点的。

控制器节点 B的端口 B5接收控制器节点 A发来的数据，并将接收到的数据存储至所述磁盘框中。上述数据存储路径的切换方法可带来以下有益效果：

服务器只需要向双控制器磁盘阵列中的任意一个控制器节点发送一次数据，如果接收数据的控制器节点失效，就由对端节点接收数据，本发明实施例通过控制器节点间相互检测对方是否失效，因此不必事先设定冗余的数据路径，服务器则不必应用多路径软件即可以实现将数据传输路径切换至对端控制器节点上，避免了额外购买多路径软件的费用。由于服务器不必安装多路径软件，服务器和双控制器磁盘阵列就不需要增加配置来使用多路径软件，因此减少了服务器和双控制器磁盘阵列的冗余。实施例三

本发明实施例提供了在双控制器磁盘阵列以及服务器均支持 PCIE总线的场景下，双控制器磁盘阵列的一种具体结构，如附图 4所示。

附图 4中的每个控制器节点除了包含交换设备（该交换设备的端口与对端控制器节点中交换设备的端口相连接 )之外，还包括与服务器连接的第一端点设备、与所述磁盘框连接的第二端点设备和用于运行读写控制程序的中央处理器 CPU。

可选地，第一端点设备和第二端点设备可以是 PCIE端点设备，交换设备可以是 PCIE交换设备。具体地：控制器节点 A具有与服务器连接的 PCIE端点设备 A1 , 与磁盘框连接的 PCIE端点设备 A4。控制器节点 A还具有 PCIE 交换设备 A, 用于运行读写控制程序的 CPU A以及内存 A。 PCIE交换设备 A 具有多个端口，分别为端口 A2、端口 A3、端口 A5以及端口 A6; PCIE端点设备 A1与端口 A2连接；端口 A3与 PCIE端点设备 A4连接，并通过 PCIE 端点设备 A4将服务器下发的数据传输至磁盘框；内存 A通过中央处理器 A 与 PCIE交换设备 A的端口 A6连接。

控制器节点 B同样具有与服务器连接的 PCIE端点设备 B1 , 与磁盘框连接的 PCIE端点设备 B4、 PCIE交换设备 B、 CPU B以及内存 B, PCIE交换设备 B具有端口 B2、端口 B3、端口 B5 以及端口 B6, 其结构与控制器节点 A 相同，在此不做赘述。在双控制器磁盘阵列中，控制器节点 A与控制器节点 B通过端口 A5和端口 B5连接，可选地，端口 A5和端口 B5可以为 PCIE 非透明桥端口。

在附图 2所示的双控制器磁盘阵列中，待存储数据的存储过程为：每个控制器节点中的第一端点设备接收服务器发送的数据 ,将数据发送至本控制器节点中的交换设备中；控制器节点中的 CPU根据交换设备配置空间中的配置参数，将交换设备中的数据发送至本控制器节点中的第二端点设备中，第二端点设备将数据发送至磁盘框。

具体地，当控制器节点 A起作用时，控制器节点 A中的 PCIE端点设备 A1接收服务器发送的数据，将数据发送至本控制器节点中的 PCIE交换设备 A 中；控制器节点 A中的 CPUA根据 PCIE交换设备 A配置空间中的配置参数，将 PCIE交换设备 A中的数据发送至本控制器节点中的 PCIE端点设备 A4中， PCIE端点设备 A4将数据发送至磁盘框。同理，控制器节点 B接收服务器发送的数据，并将数据存储至磁盘框的过程与上述控制器节点 A接收服务器发送的数据，并将数据存储至磁盘框的过程相同，在此不做赞述。

双控制器磁盘阵列中的每个控制器节点，还用于通过其交换设备中与对端控制器节点连接的端口检测对端控制器节点是否失效；当检测到对端控制器节点失效时，重新设置本控制器节点和对端控制器节点的配置参数，使得对端控制器节点将接收到的服务器发送的数据，通过对端控制器节点交换设备的端口发送至本控制器节点交换设备的端口中；通过本控制器节点交换设备中端口接收对端控制器节点发来的数据，数据是服务器发送至对端控制器节点的；并将接收到的数据存储至磁盘框中。具体来说，控制器节点 B可用于通过端口 B5 检测控制器节点 A是否失效，当检测到控制器节点 A失效时，控制器节点 B 重新设置本控制器节点和控制器节点 A的配置参数，使得控制器节点 A将接收到的服务器发送的数据，通过控制器节点 A的 PCIE交换设备 A的端口 A5 发送至 PCIE交换设备 B的端口 B5中。控制器节点 B通过本控制器节点 PCIE 交换设备 B中的端口 B5接收控制器节点 A发来的数据，数据是服务器发送至控制器节点 A的；并将接收到的数据存储至磁盘框中。

本实施例的数据传输路径参考图 2中的箭头方向，服务器发送的数据以数据路径 3存储至磁盘框中。

下面将详细地介绍重新设置配置参数的过程：

控制器节点将本控制器节点交换设备中与对端控制器节点连接的端口配置为上游端口，并通过该端口将对端控制器节点交换设备中与该节点连接的端口配置为下游端口，其中上游端口和下游端口是 PCIE规范中定义的一种端口属性，上游端口是指靠近接管方 CPU方向的端口，下游端口是指远离接管方 CPU 的端口，被配置为上游端口的端口能够扫描与该端口连接的下游端口的配置参数，而被配置为下游端口的端口是不能够扫描所连接的其他端口的配置参数的；控制器节点通过本控制器节点交换设备中与对端控制器节点连接的端口扫描对端控制器节点配置空间，以获取对端控制器节点交换设备和第一端点设备配置空间中的配置参数。所述配置空间存储有本控制器节点中的交换设备、端点设备和 CPU的配置参数，该配置参数为交换设备、端点设备和 CPU 的运行参数。重新设置对端控制器节点交换设备和第一端点设备的配置参数，使得对端控制器节点的第一端点设备将接收到的数据发送到对端控制器节点的交换设备中后 ,通过对端控制器节点交换设备中与本控制器连接的端口发送至本控制器节点交换设备的端口中；本控制器节点交换设备将端口接收到的数据发送到本控制器节点的第二端点设备中。

通过设置端口的配置参数，上述 PCIE交换设备中的端口可以被设置成为上游端口、下游端口。

根据 PCIE协议规范：上游端口能扫描发现到连接在下游端口下所有 PCIE 端点设备以及交换设备，并进行统一编址、路由访问； PCIE 非透明桥端口会进行隔离，也就是说，隔离在 PCIE 非透明桥端口两侧的设备不能相互扫描发现对方。而端口的属性能够通过设置端口的配置参数进行 ^ί'爹改，因此，控制器节点 Α中的上述端口被分别设置成为下游端口 A5、下游端口 A6、下游端口 A2以及下游端口 A3。控制器节点 B 中的上述端口被分别设置成为上游端口 B5、上游端口 B6、下游端口 B2以及下游端口 B3。

在控制器节点 B的上游端口 B5与控制器节点 A的下游端口 A5相连后，与控制器节点 B的上游端口 B6相连的 CPU B可以扫描到控制器节点 A的 PCIE交换设备 A以及控制器节点 A中所有的 PCIE端点设备。具体的，如图 3所示，以控制器节点 A失效或故障为例，重新设置控制器节点 B和控制器节点 A中交换设备的端口的配置参数包括：控制器节点 B 将本控制器节点 PCIE交换设备 B的端口 B5配置为上游端口，并通过本控制器节点 PCIE交换设备 B的端口 B5 , 将控制器节点 A中 PCIE交换设备 A的端口 A5配置为下游端口；控制器节点 B通过本控制器节点 PCIE交换设备 B 中的端口 B5扫描控制器节点 A的配置空间，以获取控制器节点 A中 PCIE交换设备 A和 PCIE端点设备 A1配置空间中的配置参数；重新设置控制器节点 A中 PCIE交换设备 A和 PCIE端点设备 Al配置空间中的配置参数，使得控制器节点 A的 PCIE端点设备 A1将接收到的数据发送到控制器节点 A的 PCIE 交换设备 A中后，通过控制器节点 A中 PCIE交换设备 A的端口 A5发送至控制器节点 B中 PCIE交换设备 B的端口 B5中；控制器节点 B 中的 PCIE交换设备 B将端口 B5接收到的数据发送到本控制器节点的 PCIE端点设备 B1中。

本实施例提供的双控制器磁盘阵列可带来以下有益效果：

本技术方案不必事先设定冗余的数据路径，通过控制器节点间相互检测对方是否失效，实现互相检测并进行数据路径的切换，服务器不必应用多路径软件即可以实现将数据传输路径切换至对端的控制器节点上，避免了额外购买多路径软件的费用。由于服务器不必安装多路径软件，服务器和双控制器磁盘阵列就不需要增加配置来使用多路径软件，因此减少了服务器和双控制器磁盘阵列的冗余。并且，当控制器节点 A失效后，控制器节点 A上的某些部件（如图 4中的 PCIE端点设备 A1 )还可以继续提供服务，避免了部分可用部件的浪费。实施例四

参见图 5 , 本发明实施例提供了在双控制器磁盘阵列以及服务器均支持 PCIE总线的场景下，一种数据存储路径的切换方法，附图 4中的每个控制器节点可以釆用该方法来实现切换数据存储路径。

本实施例还以控制器节点 A失效，控制器节点 B接管失效的控制器节点 A上的数据为例。

附图 4中的每个控制器节点的具体结构可参见实施三，在此不做赘述。本实施例与实施例二中的数据存储路径的切换方法相同，其中，实施例二中的 "每个控制器节点均可以通过本控制器节点中的交换设备接收所述服务器发送的数据，并将所述数据存储至所述磁盘框"过程具体为：每个控制器节点中的第一端点设备接收服务器发送的数据，将数据发送至本控制器节点中的交换设备中；控制器节点中的 CPU根据交换设备配置空间中的配置参数，将交换设备中的数据发送至本控制器节点中的第二端点设备中 ,第二端点设备将数据发送至磁盘框。

下面详细地介绍实施例二中重新设置配置参数的过程，参考图 5:

步骤 501 : 控制器节点将本控制器节点交换设备中与对端控制器节点连接的端口配置为上游端口。

控制器节点 B将本控制器节点 PCIE交换设备 B的端口 B5配置为上游端口。

步骤 502: 通过本控制器节点交换设备中的所述端口将所连接的对端控制器节点交换设备中端口配置为下游端口。

控制器节点 B通过本控制器节点 PCIE交换设备 B的端口 B5, 将控制器节点 A中 PCIE交换设备 A的端口 A5配置为下游端口。步骤 503: 通过本控制器节点交换设备中的所述端口，扫描对端控制器节点配置空间，以获取对端控制器节点交换设备和第一端点设备配置空间中的配置参数。

控制器节点 B通过本控制器节点 PCIE交换设备 B中的端口 B5扫描控制器节点 A的配置空间，以获取控制器节点 A中 PCIE交换设备 A和 PCIE端点设备 A1配置空间中的配置参数。

步骤 504: 重新设置对端控制器节点交换设备和第一端点设备配置空间中的配置参数，使得对端控制器节点的第一端点设备将接收到的数据发送到对端控制器节点的交换设备中后 ,通过对端控制器节点交换设备的端口发送至本控制器节点交换设备的端口中。

重新设置控制器节点 A中 PCIE交换设备 A和 PCIE端点设备 A1配置空间中的配置参数，使得控制器节点 A的 PCIE端点设备 A1将接收到的数据发送到控制器节点 A的 PCIE交换设备 A中后，通过控制器节点 A中 PCIE交换设备 A的端口 A5发送至控制器节点 B中 PCIE交换设备 B的端口 B5中步骤 505: 本控制器节点交换设备将所述端口接收到的数据发送到本控制器节点的第二端点设备中。

控制器节点 B 中的 PCIE交换设备 B将端口 B5接收到的数据发送到本控制器节点的 PCIE端点设备 B1中。

本实施例提供的数据存储路径的切换方法可带来以下有益效果：服务器只需要向双控制器磁盘阵列中的任意一个控制器节点发送一次数据，如果接收数据的控制器节点失效，就由对端控制器节点接收数据，即本实施例中的服务器向控制器节点 A发送一次数据，当控制器节点 A失效时，由控制器节点 B主动接管所述数据。

本技术方案不必事先设定冗余的数据路径，通过控制器节点间相互检测对方是否失效，实现互相检测并进行数据路径的切换，服务器不必应用多路径软件即可以实现将数据传输路径切换至对端的控制器节点上，避免了额外购买多路径软件的费用。由于服务器不必安装多路径软件，服务器和双控制器磁盘阵列就不需要增加配置来使用多路径软件，因此减少了服务器和双控制器磁盘阵列的冗余。并且，当控制器节点 A失效后，控制器节点 A上的某些部件（如图 4中的 PCIE端点设备 A1 )还可以继续提供服务，避免了部分可用部件的浪费。实施例五

参考图 6, 为了使本方案更加清楚，下面以双控制器磁盘阵列中控制器节点 A失效，控制器节点 B接管控制器节点 A上的数据，以时序图的方式加以介绍：

另参考图 4的双控制磁盘阵列和服务器的结构示意图，控制器节点 A具有与服务器连接的 PCIE端点设备 A1 , 与磁盘框连接的 PCIE端点设备 A4。控制器节点 A还具有 PCIE交换设备 A,用于运行读写控制程序的中央处理器 CPU A以及内存八。 PCIE交换设备 A具有多个端口，分别为端口 A2、端口 A3、端口 A5以及端口 A6; PCIE端点设备 A1与端口 A2连接；端口 A3与 PCIE端点设备 A4连接，并通过 PCIE端点设备 A4将服务器下发的数据传输至磁盘框；内存 A通过中央处理器 A与 PCIE交换设备 A的端口 A6连接。

控制器节点 B同样具有与服务器连接的 PCIE端点设备 B1 , 与磁盘框连接的 PCIE端点设备 B4、 PCIE交换设备 B、 CPU B以及内存 B, PCIE交换设备 B具有端口 B2、端口 B3、端口 B5 以及端口 B6, 其结构与控制器节点 A 相同，在此不做赘述。

该方法至少可以包括以下步骤：

步骤 601 : 周期性的发送握手消息。

控制器节点 A通过端口 A5周期性的向控制器节点 B发送握手消息。上述握手消息可以为心跳消息。

步骤 602: 判断在预设的时间段内本控制器节点中交换设备的端口是否收到控制器节点 A发送的握手消息，若是，说明对端控制器工作正常，则继续监控，重复本步骤，否则，确定出对端控制器节点失效，进入步骤 603。

控制器节点 B判断在预设的时间段内本控制器节点中 PCIE交换设备 B的端口 B5是否收到控制器节点 A发送的握手消息，在本实施例中控制器节点未能在预设的时间段内接收到握手消息，因此判断出控制器节点 A失效。

步骤 603: 将本控制器节点 PCIE交换设备 B中与对端控制器节点连接的端口配置为上游端口。

步骤 604:控制器节点 B通过本控制器节点交换设备中与对端控制器节点连接的端口将控制器节点 A交换设备中与该端口连接的端口配置为下游端口。

具体的，控制器节点 B通过本控制器节点 PCIE交换设备 B的端口 B5将控制器节点 A中 PCIE交换设备 A中端口 A5配置为下游端口。

步骤 605:控制器节点 B通过本控制器节点交换设备中与对端控制器节点连接的端口扫描控制器节点 A的配置空间。

具体的，控制器节点 B通过本控制器节点 PCIE交换设备 B的端口 B5扫描控制器节点 A的配置空间。

步骤 606: 控制器节点 B获取控制器节点 A交换设备和第一端点设备配置空间中的配置参数。

控制器节点 B获取控制器节点 A中 PCIE交换设备 A和 PCIE端点设备 A1配置空间中的配置参数。

步骤 607: 控制器节点 B重新设置控制器节点 A交换设备和第一端点设备配置空间中的配置参数。

控制器节点 B重新设置控制器节点 A中 PCIE交换设备 A和 PCIE端点设备 A1配置空间中的配置参数。

重新设置之后的结果是控制器节点 A清除掉 PCIE交换设备 A和 PCIE端点设备 A1失效前的运行状态，使之重新进入到上电之初的状态，另外，控制器节点 A的 PCIE交换设备 A以及 PCIE端点设备 A1可以在控制器节点 B的 PCIE域中正常工作，也就是说，重新设置完成之后的效果为：控制器节点 A 上的 PCIE交换设备 A和 PCIE端点设备 A1等同于控制器节点 B上的 PCIE 交换设备 B和 PCIE端点设备 B1。重新初始化完成后，当 PCIE端点设备 A1 收到服务器发送的数据时会直接将数据转移到控制器节点 B。步骤 608:控制器节点 A的第一端点设备将接收到的数据发送到控制器节点 A的交换设备中后，通过控制器节点 A交换设备中与控制器节点 B连接的端口发送至控制器节点 B交换设备的端口中。

控制器节点 A的 PCIE端点设备 A1将接收到的数据发送到控制器节点 A 的 PCIE交换设备 A中后，通过控制器节点 A的 PCIE交换设备 A的端口 A5 发送至控制器节点 B 的 PCIE交换设备 B的端口 B5中。

步骤 609:控制器节点 B的交换设备将端口接收到的数据发送到本控制节点的第二端点设备中。

控制器节点 B的 PCIE交换设备 B将端口 B5接收到的数据发送到本控制节点的 PCIE端点设备 B4中。

需要说明的是，不限定控制器节点 A接收服务器发送的数据的步骤时序，可以理解的是，控制器节点 A接收服务器发送的数据是一个随机的事件，其可以在本方案的任一时刻发生。实施例六

本发明还提供了一种存储系统，包括服务器和双控制器磁盘阵列，双控制器磁盘阵列为上述实施例一、实施例三任一实施例中的双控制器磁盘阵列，具体参见实施例一和实施例三中双控制器磁盘阵列的结构 , 在此不做赞述。

本存储系统应具有上述实施例中的双控制器磁盘阵列，其具有上述双控制器磁盘阵列的有益效果，在此不做赞述。在本发明上述的所有实施例中，通过端口检测对端控制器节点是否失效包括：每个控制器节点判断在预设的时间段内本控制器节点中交换设备的端口是否收到对端控制器节点发送的握手消息；如果判断结果为否，则确定对端控制器节点失效。

具体的，控制器节点 B判断在预设的时间段内本控制器节点中的端口 B5 是否收到控制器节点 A发送的握手消息；如果判断结果为否，则确定控制器节点 A失效。握手消息可以为心跳消息，心跳消息可用来指示控制器节点还在正常工作。例如，在控制器节点中的交换设备、端点设备均支持 PCIE总线、两个控制器节点之间相互连接的端口为非透明桥端口的场景下，控制器节点 B 可监控控制器节点 A的状态，控制器节点 A可以通过门铃寄存器向控制器节点 B 传送心跳消息，当控制器节点 B 在规定的时间段内没有收到预先规定好的心跳消息时，就可以认为控制器节点 A失效，如果控制器节点 B发现控制器节点 A失效，它就需要釆取一些必要的措施，使控制器节点 A上的数据传输路径切换至控制器节点 B。其中，门铃寄存器是用来送从非透明的桥一侧到另一侧的中断请求，关于门铃寄存器和门铃机制，请参照非透明桥的相关技术文档，在这里不再详述。在上述所有实施例中，每个控制器节点还用于周期性地向对端控制器节点发送握手消息，周期中的时间间隔不大于预设的时间段。在上述所有实施例中，所述对端控制器节点失效包括对端控制器节点中 CPU故障，和 /或与 CPU连接的内存故障。在上述所有实施例中，所述第一端点设备和第二端点设备包括外设部件互连标准扩展 PCIE端点设备，所述交换设备包括 PCIE交换设备。通过以上的方法实施例的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中 ,包括若干指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：只读存储器（ROM )、随机存取存储器（RAM )、磁碟或者光盘等各种可以存储程序代码的介质。

对于装置实施例而言，由于其基本相应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，在没有超过本申请的精神和范围内，可以通过其他的方式实现。当前的实施例只是一种示范性的例子，不应该作为限制，所给出的具体内容不应该限制本申请的目的。例如，所述单元或子单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或多个子单元结合一起。另外，多个单元可以或组件可以结合或者可以集成到对端个装置，或一些特征可以忽略，或不执行。

另外，所描述装置和方法以及不同实施例的示意图，在不超出本申请的范围内，可以与其它装置，模块，技术或方法结合或集成。对端点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

+

Claims

权利要求书

1、一种磁盘阵列，应用于包括磁盘阵列和服务器的存储系统中，所述磁盘阵列包括磁盘框以及两个控制器节点，其特征在于，

每个所述控制器节点包括交换设备，其中交换设备的一个端口与对端控制器节点中交换设备的一个端口相连接；其中：

2、如权利要求 1所述的磁盘阵列，其特征在于，每个所述控制器节点还包括与所述服务器连接的第一端点设备、与所述磁盘框连接的第二端点设备和用于运行读写控制程序的中央处理器 CPU;

所述通过本控制器节点交换设备中所述端口接收对端控制器节点发来的数据将所述数据存储至所述磁盘框，包括：

所述控制器节点中的 CPU根据所述配置参数，将所述本控制器节点交换设备中所述端口接收到的对端控制器节点发来的数据 ,发送至本控制器节点中的第二端点设备中，所述第二端点设备将所述数据发送至磁盘框。

3、如权利要求 2所述的磁盘阵列，其特征在于，所述重新设置本控制器节点和对端控制器节点中交换设备的所述端口的配置参数，包括：

所述控制器节点将本控制器节点交换设备中与对端控制器节点连接的端口配置为上游端口，并通过本控制器节点交换设备中的所述上游端口将所连接的对端控制器节点中的端口配置为下游端口；

所述控制器节点通过本控制器节点交换设备中的所述端口扫描对端控制器节点；

重新设置对端控制器节点交换设备和第一端点设备的配置参数，使得对端控制器节点的第一端点设备将接收到的数据发送到对端控制器节点的交换设备中后，通过对端控制器节点交换设备的端口发送至本控制器节点交换设备的端口中。

4、如权利要求 1至 3任一所述的磁盘阵列，其特征在于，所述通过所述端口检测对端控制器节点是否失效，包括：

每个所述控制器节点判断在预设的时间段内本控制器节点交换设备中与对端控制器节点连接的端口是否收到对端控制器节点发送的握手消息或心跳消息；

如果判断结果为否，则确定对端控制器节点失效。

5、如权利要求 1至 3任一所述的磁盘阵列，其特征在于，所述通过所述端口检测对端控制器节点是否失效，包括：

每个所述控制器节点在预设的时间段内通过本控制器节点的交换设备与对端控制器节点连接的端口发送探测消息；

如果没有收到所述探测消息的响应消息，则确定对端控制器节点失效。

6、如权利要求 2至 3任一所述的磁盘阵列，其特征在于，所述方法还包括：

所述本控制器节点中的交换设备接收所述服务器发送的数据，并将所述数据发送至存储至本控制器节点的第二端点设备，所述本控制器节点的第二端点设备将所述数据发送至所述磁盘框进行保存。

7、一种存储系统，其特征在于，包括服务器和如权利要求 1-6所述的磁盘阵列。

8、一种数据存储路径的切换方法，应用于包括磁盘阵列和服务器的存储系统中，其特征在于，所述磁盘阵列包括磁盘框以及两个控制器节点，每个所述控制器节点包括交换设备，其中交换设备的一个端口与对端控制器节点中交换设备的一个端口相连接，包括：

磁盘阵列中的每个控制器节点通过其交换设备中与对端控制器节点连接的端口检测对端控制器节点是否失效；

当检测到对端控制器节点失效时，重新设置本控制器节点和对端控制器节点的配置参数，使得对端控制器节点将接收到的所述服务器发送的数据，通过对端控制器节点交换设备的端口发送至本控制器节点交换设备的端口中；通过本控制器节点交换设备中所述端口接收对端控制器节点发来的数据 , 并将接收到的数据存储至所述磁盘框中 ,所述数据是服务器发送至对端控制器节点的。

9、如权利要求 8所述的方法，其特征在于，每个所述控制器节点还包括与所述服务器连接的第一端点设备、与所述磁盘框连接的第二端点设备和用于运行读写控制程序的中央处理器 CPU; 所述通过本控制器节点交换设备中所述端口接收对端控制器节点发来的数据，并将所述数据存储至所述磁盘框，包括：

所述控制器节点中的第一端点设备接收所述服务器发送的数据 ,将所述数据发送至本控制器节点中的交换设备中；

所述控制器节点中的 CPU根据所述交换设备配置空间中的配置参数，将所述交换设备中的数据发送至本控制器节点中的第二端点设备中，所述第二端点设备将所述数据发送至磁盘框。

10、如权利要求 9所述的方法，其特征在于，所述重新设置本控制器节点和对端控制器节点中交换设备的所述端口的配置参数，包括：

11、如权利要求 8至 10任一所述的方法，其特征在于，所述通过其交换设备中与对端控制器节点连接的端口检测对端控制器节点是否失效，包括：每个所述控制器节点判断在预设的间隔时间内本控制器节点交换设备中与对端控制器节点连接的端口是否收到对端控制器节点发送的握手消息或心跳消息；

如果判断结果为否，则确定对端控制器节点失效。

12、如权利要求 8至 10任一所述的磁盘阵列，其特征在于，所述通过所述端口检测对端控制器节点是否失效，包括：

13、如权利要求 8至 10任一所述的磁盘阵列，其特征在于，所述方法还包括：

14、如权利要求 9或 10所述的方法，其特征在于，所述对端控制器节点失效包括对端控制器节点中 CPU故障，和 /或与 CPU连接的内存故障。

15、如权利要求 9或 10所述的方法，其特征在于，所述第一端点设备和第二端点设备均包括外设部件互连标准扩展 PCIE端点设备，所述交换设备包括 PCIE交换设备。