WO2009092322A1

WO2009092322A1 - 一种多处理器系统故障恢复的方法及装置

Info

Publication number: WO2009092322A1
Application number: PCT/CN2009/070154
Authority: WO
Inventors: Yunquan Xue; Feng Tang; Shaoyun Wu; Ya DENG
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2008-01-18
Filing date: 2009-01-15
Publication date: 2009-07-30
Also published as: CN101216793A

Description

说明书一种多处理器系统故障恢复的方法及装置

[1] 本申请要求于 2008年 01月 18日提交中国专利局、申请号为 200810056461.5、发明名称为"一种多处理器系统故障恢复的方法及装置"的中国专利申请的优先权，其全部内容通过弓 I用结合在本申请中。

[2] 技术领域

[3] 本发明涉及计算机技术领域，尤其涉及一种多处理器系统故障恢复的方法及装置。

[4] 发明背景

[5] 多处理器系统是具备多个微处理器的计算机系统，包括传统的由多个单核芯片组成的多处理器系统，单个多核芯片的多核系统和由多个多核芯片组成的多处理器系统。在多处理器系统中，由于其多个微处理器能够同吋进行计算处理，因此处理能力比普通单处理器系统要强大很多。多处理器系统也因其强大的计算处理能力得到越来越广泛的应用。

[6] 但是，随着多处理器系统中处理器数量的增加，系统发生故障的概率也将随之增加，而对于多处理器系统而言，系统中任何一个处理器发生故障都可能影响整个系统的正常运行。因此，有必要对多处理器系统进行故障管理。其中，故障恢复是故障管理的重要组成部分，所述的故障恢复是指在系统发生故障后，通过各种手段使系统能够继续运行。

[7] 目前常见的一种故障管理方法是，预先准备若干个冗余的处理器作为备份处理器，在系统正常运行吋，所述的冗余处理器不参与系统工作；当发现系统中某个或某些处理器发生故障吋，将故障处理器上的业务和数据切换到冗余处理器上，使系统能够继续运行。这种故障管理方法中，通过将故障处理器上的业务和数据切换到冗余处理器上的操作实现系统故障恢复，但是，由于所述的冗余处理器在系统正常工作吋不参与工作，因此这种故障恢复方法将造成对处理器资源的浪费。另外，如果冗余处理器数量太少，当系统中出现故障的处理器较多吋，由于冗余处理器数量不足而失去故障恢复能力；如果冗余处理器数量过多，将造成资源浪费和成本提高。

[8] 现有技术中还存在另外一种常见的故障管理方法，具体是在多个处理器上运行相同的软件业务，在提供相同输入数据的情况下，各个处理器应产生相同的数据输出。如果某个处理器发生故障，产生了异常的数据输出，则根据多数原则进行判定，将异常的数据输出屏蔽掉。这种故障管理方法中，通过屏蔽故障处理器输出的异常数据实现系统故障恢复，但是，由于系统中多个处理器运行相同的软件业务，因此降低了多处理器系统的工作效率，浪费了处理器的处理能力。

[9] 发明人在实现本发明的过程中，发现现有技术中对多处理器系统故障恢复的操作均存在浪费处理器的计算能力，以及多处理器系统工作效率低的问题。

[10] 发明内容

[11] 本发明的实施例提供了一种多处理器系统故障恢复的方法及装置，从而避免对处理器系统资源的浪费。

[12] 一种多处理器系统故障恢复的方法，包括：

[13] 选定的主处理器对发生故障的硬件单元进行隔离，并将分配给所述发生故障的硬件单元的业务重新分配给系统中针对所述业务具备处理能力的正常硬件单元

[14] 一种多处理器系统故障恢复的装置，包括：

[15] 隔离模块，用于控制主处理器对发生故障的硬件单元进行隔离；

[16] 业务分配模块，用于在获知所述对故障硬件单元进行隔离的操作成功后，控制主处理器将分配给所述发生故障的硬件单元的业务重新分配给系统中针对所述业务具备处理能力的正常硬件单元。

[17] 由上述本发明的实施例提供的技术方案可以看出，由于本发明实施例中釆用选定的主处理器对系统进行故障恢复操作，且充分利用系统中的每个处理器资源

，提高了多处理器系统的工作效率，且降低了系统实现成本。

[18] 附图简要说明

[19] 图 1为本发明实施例的处理过程示意图；

[20] 图 2为本发明应用实施例的一种系统示意图； [21] 图 3为本发明实施例提供的装置的结构示意图；

[22] 图 4为本发明实施例提供的用于确定主处理器的模块结构示意图。

[23] 实施本发明的方式

[24] 本发明实施例中，选定的主处理器对发生故障的硬件单元进行隔离，并将分配给所述发生故障的硬件单元的业务重新分配给系统中针对所述业务具备处理能力的正常硬件单元。所述主处理器对发生故障的硬件单元进行隔离的目的在于防止故障硬件单元影响系统中其他正常硬件单元的运行，具体隔离方式可以是控制发生故障的硬件单元，使其不影响其他硬件单元运行的任何操作，例如停止故障硬件单元工作、阻止其与其他处理器之间的通信等等方式实现。

[25] 其中，所述选定的主处理器对发生故障的硬件单元进行隔离的步骤前，该方法还可以包括：主处理器控制发生故障的硬件单元进行复位，且允许在复位失败的情况下，重复对所述发生故障的硬件单元的复位操作，如果在预定次数内复位成功，则对多处理器系统的故障恢复操作完成，不需要再继续进行后续故障恢复操作。

[26] 本发明实施例提供的方法还可以包括：设置预定隔离次数，当主处理器对发生故障的硬件单元进行隔离的操作失败吋，在所述预定隔离次数内重试该操作，若在预定隔离次数内未能成功隔离发生故障的硬件单元，则意味着本次通过主处理器对多处理器系统的故障恢复操作失败。

[27] 本发明实施例提供的方法还可以包括：设置预定重分配次数，当主处理器将分配给所述发生故障的硬件单元的业务重新分配给针对所述业务具备处理能力的正常硬件单元的操作失败吋，在所述预定重分配次数内重试该操作，若在预定次数内成功将分配给发生故障的硬件单元的业务分配给系统中针对所述业务具备处理能力的正常硬件单元，多处理器系统故障恢复操作完成；否则，意味着本次通过主处理器多处理器系统故障恢复操作失败。

[28] 上述本发明实施例中，所述主处理器的确定可以但不仅限于通过以下任意一种方法实现：

[29] (1) 指定系统中任意一个能够控制其他处理器工作的正常处理器为主处理器 [30] (2) 通过选举算法按照预先设定的选举规则确定系统中的某个处理器为主处理器。所述的选举规则可在实际应用过程中，根据需求进行设定。通过所述选举算法确定的主处理器是能够控制其他处理器工作的正常处理器。

[31] 其中，所述通过选举算法确定系统中的某个处理器为主处理器的操作具体可以是：当系统在启动，或者重启，或者发生故障吋，通过选举算法按照预先设定的选举规则确定系统中的某个处理器为主处理器；或者，在系统运行过程中，当满足预定的触发条件吋，则通过选举算法按照预先设定的选举规则更换系统中的正常处理器作为主处理器。

[32] 下面将结合附图对本发明实施例在实际应用过程中的具体实现方式进行详细的说明。

[33] 本发明实施例的处理过程如图 1所示，当系统检测到某处理器发生故障吋，主处理器对系统进行故障恢复操作，具体可以包括以下步骤：

[34] 步骤 1、对所述故障处理器进行复位，具体可以是软件复位，也可以是硬件复位；

[35] 步骤 2、判断所述步骤 1的复位操作是否成功，如果成功，执行步骤 8，否则，执行步骤 3 ;

[36] 步骤 3、判断所述复位操作次数是否达到预先设定的门限值 n，如果是，执行步骤 4，否则，返回执行步骤 1 ;

[37] 所述的门限值 n可以在实际应用过程中，由操作人员根据实际需要进行设置。

[38] 步骤 4、对所述故障处理器进行隔离，以使发生故障的处理器不影响系统中其他正常处理器的运行，例如：停止故障处理器工作、阻止故障处理器访问系统共享存储器、阻止故障处理器与系统中其他处理器通信，等等；

[39] 步骤 5、判断所述步骤 4的隔离操作是否成功，如果成功，执行步骤 6，否则，执行步骤 9;

[40] 步骤 6、对所述故障处理器的软件业务和数据进行重新分配，将所述的软件业务和数据分配给系统中针对其具备处理能力的正常工作的处理器，以维持系统正常运行；

[41] 步骤 7、判断所述步骤 6对软件业务和数据重新分配的操作是否成功，如果成功，执行步骤 8，否则，执行步骤 9;

[42] 步骤 8、多处理器故障恢复完成，系统正常运行；

[43] 步骤 9、多处理器故障恢复失败。

[44] 其中，如果所述对故障处理器的隔离操作失败，则允许主处理器重复执行步骤 4，且当该重复操作次数达到预定的门限值吋，若未成功对故障处理器进行隔离，则表示所述通过主处理器对多处理器系统进行故障恢复失败。

[45] 如果所述对故障处理器的软件业务和数据重新分配的操作失败，则允许主处理器重复执行步骤 6，且当该重复操作次数达到预定的门限值吋，若未成功对软件业务及数据重新分配，则表示所述通过主处理器对多处理器系统进行故障恢复失败。

[46] 上述本发明实施例中，当被隔离的硬件单元恢复正常吋，可以由系统检测到该硬件单元已经恢复正常，并将所述硬件单元恢复正常的消息发送给当前的主处理器，或者，由该恢复正常的硬件单元向当前的主处理器上报恢复正常的消息，以便主处理器在进行新的故障隔离恢复操作吋，可以向该硬件单元分配其能够处理的软件业务和数据。

[47] 上述本发明实施例中，主处理器在对所述故障处理器的软件业务和数据进行重新分配吋，可能检测到多个针对所述软件业务和数据具备处理能力的正常工作的处理器。此吋，主处理器可以将发生故障的硬件单元的所有软件业务和数据全部分配给一个正常工作的处理器；也可以根据预先规定的算法，将发生故障的硬件单元的软件业务和数据分配给多个具备处理能力的正常工作的处理器。

[48] 本发明应用实施例中，所述主处理器的确定可以通过以下任意一种方法实现： [49] (1) 指定系统中任意一个能够控制其他处理器工作的正常处理器为主处理器

[50] 所述的指定操作可以由操作人员在系统启动、重启、正常运行、或者发生故障吋完成，当指定的主处理器发生故障吋，重新指定新的主处理器；也可以在系统运行过程中，当满足预定的触发条件吋，由操作人员控制，更换系统中的指定处理器为主处理器。

[51] (2) 通过选举算法按照预先设定的选举规则确定系统中的某个处理器为主处 [52] 所述通过选举算法确定处理器的方法具体可以是，在系统启动，或者重启，或者发生故障吋，通过选举算法按照预先设定的选举规则确定系统中的某个处理器为主处理器；或者，在系统运行过程中，当满足预定的触发条件吋，通过选举算法按照预先设定的选举规则更换系统中的正常处理器作为主处理器。具体可以但不仅限于釆用例如自适应选举算法、分布式选举算法等现有技术中的选举算法。

[53] 为便于对上述通过选举算法确定主处理器处理过程的理解，下面将以在系统发生故障吋，和系统正常运行吋为例，对主处理器的确定过程进行详细说明：

[54] (1) 当系统发生故障吋，执行选举算法按照预先设定的选举规则确定主处理器。其中，所述的选举规则可以但不仅限于包括处理器工作状态、处理权限、运行速度等条件参数，还可以对所述的多个条件参数设置优先级别，例如上述条件参数按优先级由高到低排列为 <工作状态、处理权限、运行速度>，当系统发生故障吋，选举算法基于上述选举规则确定工作状态正常，即未发生故障（基于第一优先级的工作状态参数）、能够控制系统中其他处理器工作（基于第二优先级的处理权限参数）、能够控制发生故障的硬件单元及针对其业务具备处理能力的硬件单元工作（基于第二优先级的处理权限参数）、且运行速度在满足前两个优先级参数的处理器中最快（基于第三优先级的运行速度参数）的处理器为主处理器；

(2) 在系统运行过程中，当满足预定的触发条件吋，通过选举算法按照预先确定的选举规则更换系统中的正常处理器作为主处理器。例如，以一定的间隔吋间作为预定的触发条件，所述的选举规则可以包括处理器工作状态、处理权限、运行速度（按照优先级别由高到低排序）等条件参数，当达到预定的间隔吋间吋，通过选举算法基于上述选举规则确定工作状态正常（基于第一优先级的工作状态参数）、能够控制系统中其他处理器工作（基于第二优先级的处理权限参数）、且运行速度在满足前两个优先级参数的处理器中最快（基于第三优先级的运行速度参数）的处理器为主处理器。

应当指出的是，上述两个关于主处理器确定过程的描述仅为本发明实施例选定主处理器的实现方法中的两个具体实现方式，并不能理解为对本发明专利范围的限定。其中选举规则、触发条件等参数应根据应用中的实际需要具体确定。

[57] 上述本发明实施例提供的技术方案，不仅可以在处理器发生故障吋对系统进行故障恢复操作，当系统中其他可控的硬件单元发生故障吋，也可以按照上述步骤对系统进行故障恢复。当系统中其他硬件单元发生故障吋，按照上述本发明实施例提供的实现方案对所述硬件单元中的软件业务和数据进行重新分配吋，可将所述的软件业务和数据分配给系统中针对所述的软件和数据具备处理能力的其他正常工作的硬件单元。例如，当系统中的存储器 A发生故障吋，主处理器在对存储器 A进行复位操作；当所述复位操作失败，对存储器 A进行隔离操作；所述隔离操作成功后，将分配给存储器 A的数据重新分配到系统中其他正常工作的存储器上。

[58] 本发明实施例提供的故障恢复方法可以通过软件算法实现，减少了对特定硬件的耦合，使其能适用于更多的硬件平台；而且无需设置冗余处理器，降低了硬件设计复杂性及系统实现成本。

[59] 本发明实施例提供的技术方案适用于各微处理器之间能够通过一定方法通信，且选定的主处理器能够对其他处理器的软件、硬件运行进行控制的多处理器系统。主处理器控制其他处理器的实现方法可以是，由主处理器直接访问其他处理器中的控制寄存器，通过修改控制寄存器实现控制功能，例如控制其他处理器复位、改变其状态、或停止其运行等。另外，各微处理器不要求具备相同的结构及实现功能，且对各微处理器的空间分布无限制，即不要求各微处理器集成在同一个集成电路基片上，或者安装在同一电路板上，或者放置在同一特定空间内，因此本发明实施例的应用范围很广泛。下面将以图 2所示的多核系统为例，详细描述通过主处理器控制系统中其他处理器完成系统故障恢复的实现方案：

[60] 如图 2所示，多个微处理器之间通过总线形式连接，实现通信；各微处理器之间的处理权限不同，如处理器 A实现对设备 1的控制、处理器 B实现对设备 1-7的控制等。

[61] 步骤 1、当处理器 A发生故障吋，通过选举算法确定处理器 C为主处理器； [62] 步骤 2、主处理器 C对处理器 A进行复位操作；

[63] 步骤 3、判断所述复位操作是否成功，如果成功，所述故障恢复操作完成，否贝 I」，执行步骤 4;

[64] 步骤 4、判断所述复位操作是否达到预先设定的门限值 n，如果是，执行步骤 5 ，否则执行步骤 2;

[65] 步骤 5、主处理器 C对处理器 A进行隔离，所述的隔离可以是停止处理器 A工作

，也可以是阻止处理器 A访问设备 1，等等；

[66] 步骤 6、判断步骤 5的操作是否成功，如果成功，执行步骤 7，否则，所述通过主处理器对多处理器系统进行故障恢复的操作失败；

步骤 7、主处理器 C将分配给处理器 A的针对设备 1的业务重新分配给处理器 B 处理器 B针对设备 1的业务具备处理能力）；

[68] 步骤 8、判断步骤 7的操作是否成功，如果成功，所述故障恢复操作完成，否则，所述通过主处理器对多处理器系统进行故障恢复的操作失败。

[69] 实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行吋，执行包括上述方法实施例的步骤；而前述的存储介质包括： ROM、 RAM、磁碟或者光盘等各种可以存储程序代码的介质。

[70] 本发明实施例还提供一种多处理器系统故障恢复的装置，其结构如图 3所示，具体实现结构可以包括：

[71] 隔离模块 1，用于控制主处理器对发生故障的硬件单元进行隔离，以使发生故障的硬件单元不影响系统中其他硬件单元的正常工作，如果所述隔离操作成功

，则隔离模块发出信号告知所述业务分配模块可以开始工作，否则，隔离模块发出信号告知系统故障恢复操作失败，所述业务分配模块不工作；

[72] 所述主处理器对发生故障的硬件单元进行隔离的目的在于防止故障硬件单元影响系统中其他正常硬件单元的运行，具体隔离方式可以釆用例如停止故障硬件单元工作、阻止其与其他处理器之间的通信等等方式实现。

[73] 业务分配模块 2，用于在获知所述隔离所述故障硬件单元的操作成功后，控制主处理器将分配给所述发生故障的硬件单元的业务重新分配给系统中针对所述业务具备处理能力的正常硬件单元。其中，如果所述的对业务的重新分配操作成功，则表示系统故障恢复操作成功，否则，表示系统故障恢复操作失败。

[74] 上述本发明实施例的装置中，还可以包括复位模块 3，用于控制主处理器对发生故障的硬件单元进行软件或硬件复位，如果在预定次数内复位成功，所述多处理器故障恢复操作完成；否则，通知所述隔离模块 1进行相应操作。

[75] 上述本发明实施例的装置中，还可以包括图 4所示的至少一个用于确定主处理器的模块 ₄，具体可以包括：

[76] 主处理器指定模块 41，用于指定系统中任意一个能够控制其他处理器工作的正常处理器为主处理器；

[77] 或者，

[78] 选举算法模块 42，用于执行选举算法，按照预先设定的选举规则确定系统中的某个正常处理器为主处理器。

[79] 其中还可以包括检测模块 43，用于当检测到系统启动、系统重启、系统发生故障或在系统运行过程中符合预定的触发条件，则通知所述选举算法模块 42执行选择主处理器的操作。在实际应用过程中，操作人员可以通过对所述条件触发模块设置一个或多个触发条件，以实现相应的触发功能。

[80] 综上所述，在本发明实施例提供的技术方案中，由于系统中所有正常处理器均参与业务处理，且无需由多个处理器完成相同的数据处理工作，因此充分利用各个处理器的处理能力，提高了多处理器系统的工作率及处理能力。

[81] 以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

权利要求书

[1] 一种多处理器系统故障恢复的方法，其特征在于，包括：

选定的主处理器对发生故障的硬件单元进行隔离，并将分配给所述发生故障的硬件单元的业务重新分配给系统中针对所述业务具备处理能力的正常硬件单元。

[2] 根据权利要求 1所述的方法，其特征在于，所述选定的主处理器对发生故障的硬件单元进行隔离前，该方法还包括：

所述主处理器控制所述发生故障的硬件单元进行复位，且如果在预定次数内复位成功，所述多处理器系统故障恢复操作完成。

[3] 根据权利要求 2所述的方法，其特征在于，所述选定的主处理器对发生故障的硬件单元进行隔离的操作包括：

设置预定隔离次数，所述主处理器对发生故障的硬件单元进行隔离，当对所述发生故障的硬件单元进行隔离的操作失败，在所述预定隔离次数内重试该操作。

[4] 根据权利要求 2所述的方法，其特征在于，所述将分配给所述发生故障的硬件单元的业务重新分配的操作包括：

设置预定重分配次数，所述主处理器将分配给所述发生故障的硬件单元的业务重新分配给系统中针对所述业务具备处理能力的正常硬件单元，当将分配给所述发生故障的硬件单元的业务重新分配给针对所述业务具备处理能力的正常硬件单元的操作失败，在所述预定重分配次数内重试该操作。

[5] 根据权利要求 1〜4任意一项所述的方法，其特征在于，所述主处理器通过下述方式选定：

指定系统中任意一个能够控制其他处理器工作的正常处理器为所述主处理器；

或者，

通过选举算法按照预先设定的选举规则确定系统中的某个正常处理器为所述主处理器。

[6] 根据权利要求 5所述的方法，其特征在于，所述通过选举算法按照预先设定的选举规则确定系统中的某个正常处理器为所述主处理器包括：当系统启动吋，通过选举算法按照预先设定的选举规则确定系统中的某个正常处理器为所述主处理器；

或者，

当系统重启吋，通过选举算法按照预先设定的选举规则确定系统中的某个正常处理器为所述主处理器；

或者，

当系统发生故障吋，通过选举算法按照预先设定的选举规则确定系统中的某个正常处理器为所述主处理器；

或者，

在系统运行过程中，当满足预定的触发条件吋，通过选举算法按照预先设定的选举规则更换系统中的正常处理器作为主处理器。

[7] 一种多处理器系统故障恢复的装置，其特征在于，包括：

隔离模块，用于控制主处理器对发生故障的硬件单元进行隔离；业务分配模块，用于在获知所述对发生故障的硬件单元进行隔离的操作成功后，控制所述主处理器将分配给所述发生故障的硬件单元的业务重新分配给系统中针对所述业务具备处理能力的正常硬件单元。

[8] 根据权利要求 7所述的装置，其特征在于，该装置还包括：

复位模块，用于控制所述主处理器对所述发生故障的硬件单元进行复位，如果在预定次数内复位成功，所述多处理器故障恢复操作完成；否则，通知所述隔离模块执行隔离所述发生故障的硬件单元的操作。

[9] 根据权利要求 7或 8任意一项所述的装置，其特征在于，该装置还包括：主处理器指定模块，用于指定系统中任意一个能够控制其他处理器工作的正常处理器为主处理器；

或者，

选举算法模块，用于执行选举算法，按照预先设定的选举规则确定系统中的某个正常处理器为主处理器。

[10] 根据权利要求 9所述的装置，其特征在于，如果釆用选举算法模块，该装置还包括检测模块，用于当检测到系统启动、系统重启、系统发生故障或在系统运行过程中符合预定的触发条件，通知所述选举算法模块执行确定主处理器的操作。