WO2019095448A1

WO2019095448A1 - 一种远程教育系统的服务器群的监测系统

Info

Publication number: WO2019095448A1
Application number: PCT/CN2017/114405
Authority: WO
Inventors: 陈鹏宇; 刘善果; 滕凯
Original assignee: 深圳市鹰硕技术有限公司
Priority date: 2017-11-17
Filing date: 2017-12-04
Publication date: 2019-05-23
Also published as: CN109800120B; CN109800120A

Abstract

一种远程教育系统的服务器群（1）的监测系统，包括多个处理服务器（11-14），多个处理服务器（11-14）均包括主板管理控制器（4），监测系统包括监测终端（5），监测终端（5）包含可与服务器群（1）中的处理服务器（11-14）进行网络连接的服务器状态实时监测单元（51），监测终端（5）的服务器状态实时监测单元（51）定期与处理服务器（11-14）进行网络连接，并在发现与处理服务器（11-14）的网络连接发生异常时要求处理服务器（11-14）的主板管理控制器（4）回报处理服务器（11-14）的当前状态信息，通过主动要求主板管理控制器（4）提供自身服务器（11-14）当前状态信息，能够在服务器群（1）发生异常后及时了解服务器群（1）状况，立即进行相应措施或处置。

Description

一种远程教育系统的服务器群的监测系统

技术领域

本发明涉及互联网教育技术领域，特别是涉及一种基于互联网技术的远程教育系统，具体来说涉及一种远程教育系统的服务器群的监测系统。

背景技术

随着科学技术的发展，出现了众多的远程教育产品，远程教育是学生与教师、学生与教育机构之间，主要采取多种媒体方式进行系统教学和通信联系的教育形式，是将课程传送给校园外的一处或多处学生的教育。现代远程教育则是指通过音频、视频(直播或录像)以及包括实时和非实时在内的互联网技术把课程传送到校园外的教育。目前，远程教育正在蓬勃发展之中，它是解决教育资源、教育机会不均衡等问题的重要手段，不仅丰富了教学方式，还降低了对教学地点的限制，因此得到许多学生和老师的喜爱。

当前远程教育系统典型地采用单机集中式的模式进行架构，一般来说，采用单机集中式的远程教育系统通常设置有包括教学端，一个或多个学习端，以及通过网络与所述教学端和所述一个或多个学习端通信的服务器，其中该服务器可以存储教学资源、处理来自教学端或学习端的各种请求、根据来自教学端或学习端的请求分发和接收教学资源等。

作为单机集中式的远程教育系统的示例，在中国发明专利公开说明书CN107195212中公开了一种基于互联网的远程教育服务系统，其中该远程教育服务系统典型地采用了单服务器集中式处理的工作原理。具体来说，其包括管理员客户端、用户客户端、云端服务器，所述的管理员客户端包括管理员登录模块、教学视频发布模块、教学视频分类模块，所述的管理员登录模块用于供管理员进行管理员会员账号的注册以及管理员会员账号的登录，所述的教学视频发布模块用于供管理员发布教学视频，所述的教学视频发布模块还用于将管理员发布的教学视频发送至教学视频分类模块，所述的教学视频分类模块对教学视频进行分类，并将分类后的教学视频发送至云端服务器，所述的用户客户端包括用户登录模块、视频显示模块，所述的用户登录模块用于供用户进行会员账号的注册以及会员账号的登录，所述的视频显示模块用于接收云端服务器发送的分类后的教学视频并显示出来供用户点击查看。

进一步，在中国发明专利公开说明书CN104464412A中也公开了一种采用这种单机集中式的远程教育系统及其实现方法，其中该远程教育系统包括：教育终端、客户端和服务器；教育终端与客户端进行信息交换，服务器与客户端通过Internet交换信息。

随着远程教育的不断蓬勃发展，各种远程教育系统所涵盖的教学端和学习端的数量规模不断地扩大、远程教育课程内容不断地增多、教学课程中视频文件和音频文件占比不断地增涨，这些因素都不可避免地导致基于互联网传输的数据交互量呈指数级别增长，在这种情形下在实际使用中发现，常规的单机集中式处理方法在实时数据处理和计算效率方面已经显得有些力不从心，其表现为整个系统的实时性和响应性无法得到保证，从而带来了不好的用户体验，进而降低了使用该远程教育系统的运营商的商业口碑，并且在技术上约束了运营商的潜在市场份额，这是迫切需要在技术上进行克服的现实挑战。

针对这种情况，常用的解决方案通常是升级远程教育系统中的单个集中式处理服务器，通过提升集中式处理服务器的性能来加快处理速度。在成批的任务请求对处理时间要求不高的情况下，这种方式能改善系统的处理效率；但如果对处理时间要求很高，或者处理的数据量非常大的情况下，仅仅通过提升处理服务器性能已无法达到处理要求。换句话说，这种解决方案并没有从根本上在技术层面解决处理服务器的有限处理能力和海量的处理任务请求之间所存在的供需失衡的矛盾。

另外一种能够从根本上解决以上技术问题的、有前景的方案是将现有的单一服务器替换为可以进行并行计算的服务器群，即首先增加进行任务处理的服务器数量，然后通过人工设定或者系统自动配置的方式，将需要处理的成批的任务请求按照一定的规则分配到多个服务器进行并行计算处理。这种方案从根本上解决了现有技术中存在的问题，即当依靠提升单台处理服务器性能无法满足处理需要时，可以配备多台任务处理服务器来分担单台处理服务器的待处理的任务请求，从而在处理能力和处理时间上满足业务应用需求。

尽管这种采用服务器群的技术方案存在显而易见的优点，然而其也相应地存在以下制约其大规模应用的技术难题，即服务器群的可靠性监测。在现有的单服务器集中式处理的远程教育系统中，整个系统的复杂度很低，仅需要对单个服务器进行监测就可以实现对整个系统可靠性的监测。作为一种已知的监控处理服务器的运作状态的方式，通过在处理服务器内配置一个主板管理控制器，该控制器会监测处理服务器的整体状态并记录在系统事件日志(System Event Log,以下将简称SEL)文件中供监测人员定时进行读取，或者传送该SEL文件至终端装置供服务器管理者需要时查看。作为一种示例，在中国发明专利公开说明书CN105184498A中公开了一种单服务器集中式处理的远程教育系统，其中包括日志管理模块：该日志管理模块记录用户的所有操作，管理人员可以通过日志管理模块查询所有的日志信息；所述的日志信息包括：用户的操作记录、服务器监控日志和服务器报警日志，借此，采用阅读处理服务器的监控日志的方式来监控教育系统中服务器的工作状态。同时，在中国发明专利公开说明书CN105868077A公开了一种获取整机柜服务器节点监控信息的方法，其中该获取整机柜服务器节点监控信息的方法与现有技术相比，简化了节点BMC和节点中板的通信过程，节点中板可一次从节点BMC中获取大量数据，尤其是实时变化信息，对提高系统响应时间大有裨益，实用性强。进一步，在中国发明专利公开说明书CN106844162A中公开了一种基于BMC的存储服务器机箱管理系统及方法，其中通过机箱监控模块的监控，根据被监控器件的状态信息，判断状态信息是否为异常，并将异常信息上报给存储模块，存储模块进一步作出判断，命令管理模块发出相应的动作命令，实现对被监控器件的管理，保证机箱运行正常，提高了存储服务器的稳定性；并且通过IPMI协议读取BMC上的运行状态信息，相比基于SES协议进行机箱管理的方法，便于管理，过程简单，降低管理成本和开发成本；还通过IPC将机箱管理模块和存储模块的进程联动，经存储模块判断一旦出现严重异常情况，就中断数据的输入输出流，达到了保护数据的目的，提高了存储服务器的可靠性。

为了降低监测人员阅读系统事件日志的工作量，在由阿里巴巴集团控股有限公司提交的中国发明专利公开说明书CN104464412A中公开了一种终端状态提醒方法及相关设备与系统，其通过在特定的情况下向管理端发送提醒信息来获知终端的状态，因此无需专业知识即可获知第一终端的状态，相对于传统的通过查看SEL的方式来获知终端状态的方式来说，更加易于实现，这种方式能够在一定程度上降低监测人员的工作量。

然而，以上描述的用于单个服务器监测的方式并不能适用于具有多个处理服务器的服务器群的服务器群监测，这是因为对于包括许多服务器的服务器群在共同对外提供网络服务时需要对各个服务器的工作状态进行监测。以包含100台服务器的服务器群为例，如果继续沿用针对单一服务器的监测方式，即向每一台处理服务器配设一台监测设备以记录日志的方式监测其异常状态。明显地，无论从服务器群所需要的监测设备的硬件成本上，还是从监测人员所需要面对的工作量上，都是不可接受的。显而易见地是，监测人员难以在短时间内从海量的日志文件内容中找到记录服务器异常的部分，进而无法及时了解并排除故障服务器的异常状况。换句话说，正是这种服务器群监测上所存在的不足，从技术上制约了在远程教育系统中大规模应用服务器群进行数据处理。

鉴于此，如何提供一种适用于远程教育系统的服务器群的监测系统，是当前远程教育系统的研发人员将服务器群技术应用到远程教育系统中处理任务请求所急待解决的问题。

申请人在此声明，以上部分中陈述的仅为申请人所知晓的技术内容。上述内容仅仅提供了涉及本公开相关的背景信息但并不必然构成本申请的现有技术。

发明内容

为了克服现有技术中存在的不足，本发明提供了一种远程教育系统的服务器群的监测系统，该服务器群包括多个处理服务器，所述多个处理服务器均包括主板管理控制器，其中：所述监测系统包括监测终端，该监测终端包含可以与服务器群中的处理服务器进行网络连接的服务器状态实时监测单元；该监测终端的该服务器状态实时监测单元定期地与处理服务器进行网络连接，并在发现与处理服务器的网络发生异常时要求该处理服务器的主板管理控制器回报该处理服务器的当前状态信息。

由此，本发明通过使该监测终端主动且定期地与该服务器群进行网络连接，以测试该服务器群对外提供网络服务的状况，并在发现该服务器群存在不能提供网络服务的处理服务器时，由该监测终端主动要求该服务器群中的各个处理服务器的基板管理控制器提供其自身处理服务器的当前状态信息，让该服务器群的管理者在该服务器群发生异常后，可及时且清楚地了解服务器群的状况，而能立即进行相对应的措施或处置，进而提升服务器群的管理效率。

优选地，其中该服务器群中的多个处理服务器具有共同对外提供网络服务的同一网络地址，且该主板管理控制器彼此间具有不同的网络地址，该服务器状态实时监测单元是根据处理服务器的统一网络地址与处理服务器网络连接以测试该网络服务，并根据该主板管理控制器的网络地址与该主板管理控制器网络连接以要求该主板管理控制器回报当前状态信息。

由此，根据本发明的服务器群通过单个网络地址对外提供稳定的网络服务并经由统一的端口接受访问请求后再在服务器群中进行分配负担。同时，通过具有多个不同网络地址的主板管理控制器可以确保监测终端能够分别接受每一个处理服务器的当前状态信息。

优选地，该服务器状态实时监测单元包括：与主板管理控制器进行网络连接的至少一个网络输入端口，该网络输入端口用以接受至少一个处理服务器的主板管理控制器的回报信息；以及与服务器群进行网络连接的网络输出/输入端口。

优选地，所述网络输入端口的数量与服务器群中的处理服务器的数量相同，每个网络输入端口分别与一个处理服务器的主板管理控制器通信连接。

由此，根据本发明的监测终端能够并行地同时接受来自各个处理服务器的主板管理控制器的信息回报。

优选地，该监测系统还包括至少一个监测代理服务器，该监测代理服务器被配置成连接至多个代理服务器并配置为接受与其连接的多个代理服务器的状态信息，并将接受到的多个代理服务器的状态信息传输给监测终端，其中所述网络输入端口的数量与监测代理服务器的数量相同，每个网络输入端口分别与一个监测代理服务器进行通信连接。

由此，在该方案中监测终端中的网络输入端口的数量只需要设置为与监测代理服务器的数量一致即可，从而大大降低了监控终端的硬件要求和成本。与此同时，由于降低了与监测终端直接进行通信连接的服务器数量，从而避免了若处理服务器同时传输的回报信息太多造成的监控终端处理不及时或者监测终端的处理器过载的问题，使得即使降低监测终端的处理速度，也能够满足服务器群的正常监测。

优选地，所述监测代理服务器包括有依次通信连接的信息输入单元、数据缓存池、信息输出单元以及分别与信息输入单元、数据缓存池、信息输出单元通信连接的控制单元，其中该信息输入单元接受来自与其连接的处理服务器的状态信息并将该状态信息传输给数据缓存池，所述控制单元用于对数据缓存池内的多个处理服务器的状态信息进行优先级排序，并经由信息输出单元将排序完毕后的状态信息有序地传输给监测终端。

由此，能够将多个处理服务器的状态信息进行排序处理并优先发送最可能发生故障的处理服务器的状态信息，与多个处理服务器同时回报相比，其能够进一步提高监测终端对发生故障的处理服务器的识别和响应速度。

优选地，该数据缓存池包括队列及本地数据库，该队列被配置为用于排序多个处理服务器的状态信息，该本地数据库被配置为用于在状态信息尚未被传输至监测终端前暂时储存该状态信息，其中所述控制单元根据多个代理服务器的平均故障间隔时间和服务器的可靠性指数对队列中的状态信息进行优先级排序。

优选地，该监测系统还包括由服务器群中的多个处理服务器组成的具有共同输出端口的服务器监测组，所述共同输出端口被配置为输出故障服务器的状态信息，其中所述网络输入端口的数量与服务器监测组的数量相同，每个网络输入端口分别与一个服务器监测组的共同输出端口进行通信连接。

由此，服务器群中的各个处理服务器被划分为多个具有共同输出端口的监测组，从而减小了监测终端的网络输入端口的数量和处理要求。

优选地，在同一服务器监测集中的每个处理服务器均具有与主板管理控制器通信连接的无线通信单元，每个主板管理控制器均具有设置部、监控部及状态信息输出部，该设置部用于设置该处理服务器所属服务器监测组的名称及该处理服务器的通信上家及通信下家，所述无线通信单元包括发射部和接受部，其中每个处理服务器的发射部和接受部被配置用于与其通信上家及通信下家通信，从而在该监测组中形成完整的闭环通信链。

由此，充分利用了服务器群中的各个处理服务器在空间上紧凑布置这一有利条件，通过在各个处理服务器之间利用近距离无线通信技术来组成封闭的数据通信链路，进而将多个处理服务器组合成一个具有共同输出端口的服务器监测组加以监测。

优选地，所述监控部被配置为用于判定处理服务器的状态信息是否超出状态阈值，在超出状态阈值时，向无线通信单元发出停止发射和接受信息的指令从而使所述闭环通信链断开，所述共同输出端口向处于闭环通信链断开点的处理服务器发出指令，以使其所属的状态信息输出部向该共同输出端口发送其所属的主板控制器的状态信息并经由共同输出端口传输至监测终端。

优选地，其中所述服务器群还包括与多个处理服务器通过传输控制协议数据连接的分配单元，其中该分配单元用于建立分配矩阵以动态管理各处理服务器上的闲置处理进程数；所述分配单元定时监测是否有待处理的任务请求，若有，则、检查分配矩阵中各处理服务器的闲置处理进程数，若存在闲置的处理服务器，则将待处理任务分配给闲置的处理服务器。

由此，通过配设有分配单元和多个处理服务器，由分配单元自动将成批的任务分配给各个处理服务器，达到处理能力和处理时间上的要求。因此可以在充分利用服务器群中的处理服务器，在存在大量访问请求的情况下做到及时、快速处理成批量的任务

附图说明

本发明的附加的技术特征及有益效果，将参考以下附图中所示出的实施例而被清楚地呈现，其中：

图1是根据本发明的远程教育系统的总体架构图；

图2是根据本发明的监测系统的第一实施例的架构图；

图3是图2中的监测系统的工作流程图；

图4是根据本发明的监测系统的第二实施例的架构图；

图5是根据本发明的监测系统的第三实施例的服务器的架构图；及

图6是根据本发明的监测系统的第三实施例的架构图。

附图标记列表

1处理服务器群 101分配单元 11(a) 处理服务器 12(a) 处理服务器 13(a) 处理服务器 14(a) 处理服务器 15处理服务器 2用户端 3网络端口 4主板管理控制器 41 EWS接口 42监控部 43设置部 44状态信息输出部 5监测终端 51服务器状态实时监测单元 5a网络输入/输出端口 5b网络输入端口 61代理服务器 62代理服务器 61a信息输入单元 61b数据缓存池 61c信息输出单元 61d控制单元 7处理服务器组 71共同输出端口 8无线通讯单元 81发射部 82接受部

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如附图1所示，其中公开了根据本发明的远程教育系统的总体架构示意图，其中在附图1中，以组件的图形来表示各个功能模块的功能和相互间的技术关联。如附图1所示，其中该远程教育系统包括：处理服务器群1，其中该处理服务器群1包括多个处理服务器11-14、11a-14a等在本发明中可以根据待处理的任务请求量多少来设定处理服务器的数量，作为不限定本发明的一个实例，在本发明中该处理服务器群1具有40台处理服务器，为了简便起见，在附图1中仅示意性地示出了部分处理服务器。

在本发明中，为了使服务器群1中的多个处理服务器能够共同对外提供网络服务(例如但不限于提供一个供用户端2中的用户进行操作的教学网站)，该处理服务器群1中的多个处理服务器的网络端口具有相同的网络地址(IP)，该多个处理服务器11-14等可以共同地用于向用户端2提供网络服务从而实现内部处理服务器的负载分担。在使用中，任意用户端2可以根据该同一网络地址连上或者访问服务器群1的网络端口，从而接受来自该处理服务器的运算服务。在存在访问请求时，由分配单元通过一定的哈希(HASH)算法，将访问请求按照一定的分配规则转换入服务器群1中具有闲置处理进程的处理服务器。

在本发明中，具体来说，用户端2可以是教学端或学习端，该用户端2由远程教育系统的运营商的员工例如教师和/或消费者例如学生操作以通过有线网络或者无线网络或者蓝牙的方式与该服务器群1进行交互，进而实现远程教育的教学培训工作。由于该服务器群1中的多个处理服务器11-14具有同一网络地址，因此来自用户端2的成批的处理请求可以如图示箭头A方向经由同一网络地址访问服务器群1并随后分发给多个处理服务器11-14进行处理和承担，从而能够高效地处理成批的任务请求，随后服务器群1中的多个处理服务器对所分配的任务请求进行相应处理并以图示箭头B方向的方式将响应于用户请求的操作回传给用户端2，由此实现了服务器群1与用户端2之间的交互并最终完成远程教育系统的教学工作。

作为本发明中的服务器群1用于分配来自用户端2的访问请求的示例，可以在该服务器群1中设置有分配单元101，其中各个处理服务器11-14等可以经由传输控制协议(TCP)发送数据给该分配单元以告知该分配单元101 自身当前可以承担执行的总任务数，以便分配单元分配访问任务请求。在分配单元中可以建立一个分配矩阵，记录各个处理服务器的当前任务数情况，通过该分配矩阵来管理各个处理服务器的任务分配。具体来说，该矩阵主要记录各个处理服务器11-14上的闲置处理进程数，用于分配任务时参考使用。

分配单元收到成批的处理任务请求后，将根据先进先出(FIFO)的规则对各任务请求进行排序以形成任务请求队列以等待分配给各个处理服务器进行处理。该分配单元定时检查任务请求队列，查看是否有等待执行的任务请求。如果队列中有待执行的任务请求，则分配单元检查分配矩阵，查看当前各处理服务器的闲置处理进程数的情况。如果有处理服务器的闲置处理进程数大于0，则意味着可以对该处理服务器进行任务请求分配，进而可以由分配单元例如经由HASH算法进行任务请求分配；如果当前各处理服务器均处于忙碌状态，则等待有处理服务器处于空闲状态。

随后，分配单元依次取出任务队列中待处理的任务，通过发送TCP数据将待处理的任务请求分配给闲置的处理服务器进行处理，并相应地调整分配矩阵中各个处理服务器的闲置处理进程数。当分配服务器检查到多个处理服务器都有闲置处理进程时，本发明会根据各个处理服务器上的闲置处理进程数的多少来分散分配，以便充分利用各处理服务器的资源。例如，假设当前有6个访问任务请求，处理服务器11的闲置处理进程数为5，处理服务器12的闲置处理进程数为4，处理服务器13的闲置处理进程数为3；那么分配单元可以将3个处理任务请求分配给处理服务器11，而将2个处理任务请求分配给处理服务器12，最后再将1个处理任务请求分配给处理服务器13。这种分配方案，为闲置处理进程数多的处理服务器分配较多的任务，闲置处理进程数少的处理服务器就分配较少的任务或不分配任务，这样有利于充分发挥所有的处理服务器的性能，达到均衡地承担外部任务从而及时处理任务的目的。

当然，本领域技术人员容易想到的是，分配单元也可以根据待分配的任务请求的数量和各处理服务器上闲置处理进程数的大小决定，例如每个处理服务器可能分配得到相同的任务请求。或者，作为一种替代方式，先将批量任务分配给一个处理服务器，直至该服务器的闲置处理进程数为0时，再将剩余任务分配给其他空闲的处理服务器。

进一步，在图2中示例性地示出了根据本发明的用于远程教育系统的服务器群1的监测系统。对于服务器群1中的各个处理服务器11-14等来说，各个处理服务器均包括有主板管理控制器(Baseboard management controller，以下简称BMC)4。以处理服务器11为例，其中的BMC 4是一个内嵌于处理服务器11的主板中的微控制器，其主要监测处理服务器11的例如温度、电源模式、冷却风扇速度、操作系统状态或其他硬件驱动设备的状态等状态信息，并适时发送警示讯号传输给监测系统中的监测终端5。在本发明的服务器群1中，与各个处理服务器的网络端口3具有同一网络地址不同，各个处理服务器的BMC4分别具有彼此不同的网络地址，并且该BMC基于其自身的网络地址可以提供有内嵌式网页服务器(Embedded Web Server，以下简称EWS)接口41，从而允许本发明中的监测终端5网络链接到各个处理服务器的BMC4的网络地址而登入EWS接口41，并通过EWS接口41接收来自各个处理服务器的状态信息，例如处理服务器11内的硬件与软件状态，并监控该处理服务器11。

在本发明的监测终端5中配置有一个服务器状态实时监测单元(以下简称监测单元)51，其中该监测单元51包括：多个与BMC4进行网络连接的网络输入端口5b，该网络输入端口5b用以接受一个处理服务器的BMC的回报信息，因此该网络输入端口5b的数量与服务器群1中的处理服务器的台数相同，且例如与BMC的EWS接口41一一对应地通信连接；以及一个与服务器群进行网络连接的网络输出/输入端口5a，其中该监测单元51可以经由该网络输出/输入端口5a统一地与各个处理服务器的网络端口进行联机，以测试该各个处理服务器11-14是否能够正常地向外部例如用户端2提供网络服务，如果各个处理服务器均能够与监测终端5的监测单元51正常网络连接，则在预定的时间后(例如1秒钟)该监测单元51会与各个服务器中断联机，接着，该监测单元51会等待一段预定的时间(例如1小时)，再然后该监测单元51会再次尝试与各个处理服务器进行联机以测试其是否均仍能够正常地提供网络服务，从而实现对服务器群1的监测。

当该服务器群1中的一个或多个处理服务器发生故障时，则监测单元51会监测到服务器群1中存在有不能正常提供网络服务的处理服务器，此时监测单元51会根据各个处理服务器的BMC4的网络地址与BMC4网络连接，并向BMC4下发要求其回报其当前状态信息的指令，例如通过BMC4提供的EWS接口41下达回报命令给BMC4，要求BMC4回报处理服务器的当前状态信息。因此，当监测单元51收到各个处理服务器的BMC所回报的处理服务器的当前状态信息后，其会记录各个处理服务器的当前状态信息，并实时显示在监测终端5的显示器以外显给服务器群的监测人员例如服务器管理员，从而使网络管理员能够根据各个处理服务器的状态信息记录判断出发生故障的处理服务器进而对其进行维修操作。

在附图3中示出了根据图2中的监测系统的操作方法，其中该监测系统能够定时监测服务器群1的运作状况，并于服务器群1发生异常时，让服务器群1的监测人员或管理者能立即获得服务器群1的系统状态信息以进行实时处置。具体来说，如图3的步骤101所示，本发明中的监测终端5会定期地与服务器群1进行网络连接，亦即监测终端5的监测单元51会根据服务器群1的统一的网络地址，定期性地以其网络输出/输入端口5a与服务器群1的各个处理服务器进行网络连接(例如，定期为1小时)，以测试服务器群1提供的网络服务是否正常。

如图3的步骤102所示，若服务器群1中的各个处理服务器所提供的网络服务均没有发生异常，则监测终端5会与服务器群1中的各个处理服务器中断网络连接，并如图3的步骤103所示，监测终端5会在该周期内保持等待直至周期结束，再次执行步骤101，再次以其网络输出/输入端口5a与服务器群1的各个处理服务器进行网络连接，以达到定时监测服务器群1的运作状况的目的。

与之相反地，如果在步骤102中，当监测单元51发现无法与服务器群1中的某个或者多个处理服务器进行正常的网络连接时，这表示该服务器群1中存在发生故障的处理服务器，那么，在图3的步骤104中，监测终端5的监测单元51会经由多个与主板管理控制器的EWS接口41进行网络连接的网络输入端口5b与各个处理服务器的BMC网络连接，并下达要求BMC4回报其当前状态信息的指令，要求BMC4回报其自身的处理服务器的当前状态信息。因此，当监测终端5收到BMC回传的处理服务器的当前状态信息后，监测单元51会记录处理服务器的故障状况及当前状态信息，并实时显示在监测终端5的显示器上。因此，服务器群1的监测人员可借由监测终端5实时可视化地了解服务器群1中的各个处理服务器的状态信息，对发生故障的处理服务器进行立即的处置，或者分析发生故障的处理服务器发生异常的原因。

综上所述，上述实施例借由监测终端5主动且定期性地与服务器群1进行网络连接，以测试服务器群1的整体运行状况，并在发现服务器群1中的处理服务器的对外网络连接发生异常状况时，由监测终端5的监测单元51主动地要求各个处理服务器的BMC4提供该处理服务器的当前状态信息，让服务器的监测人员在服务器群1发生异常后，就可以及时且清楚地了解目前服务器群1中的各个处理服务器的状况，而能立即进行相对应的措施或处置，进而提升服务器群1的监测效率。由此可见，本发明可以很低的硬件成本和人力成本即可实现对庞大的服务器群1进行故障监测，这为将服务器群应用到远程教育系统中进行任务请求处理在技术上扫清了障碍。

在下文中将以优选实施例的方式描述在上述实施例的基础上所做出的进一步的改进。以下的优选实施例的目的在于进一步降低监测系统的硬件成本，即在减少监测终端5中的与处理服务器的BMC4的EWS接口41进行网络连接的网络输入端口5b的数量的同时，还不会影响到对服务器群1的监测。

在图4中示出了根据本发明的第二实施例。与上述实施例相比，根据本发明的第二实施例的服务器群1的监测系统包括有多个监测代理服务器61-62，在图4中例如示出为2个(但本领域技术人员知晓并不限于2个)，其中使一个监测代理服务器61或62同时服务服务器群1中的多个处理服务器，从而将该监测代理服务器作为服务器群1中的多个处理服务器与单个监测终端5之间的传输接口，借此监测终端5中的网络输入端口5b的数量只需要设置为与监测代理服务器的数量一致即可，从而大大降低了监控终端的硬件要求和成本。与此同时，由于降低了与监测终端直接进行通信连接的服务器数量，从而避免了若处理服务器同时传输的回报信息太多造成的监控终端处理不及时或者监测终端的处理器过载的问题，使得即使降低监测终端的处理速度，也能够满足服务器群1的正常监测。需要指出的是，除了监测代理服务器之外，第二实施例中的部件具有与第一实施例基本相同的结构。因此，与第一实施例中的部件具有基本相同功能的部件在这里给与相同的编号。

如图4所示，根据本发明的第二实施例的监测系统主要包括：具有多个处理服务器11-14、11a-14a等的服务器群1、2个监测代理服务器61和62以及监控终端5。如图所示，多个处理服务器11-14分别连接到监测代理服务器61，同时多个代理服务器11a-14a则分别连接到监测代理服务器62，由此实现了监控代理服务器与多个代理服务器的BMC4的EWS端口41的信息传输。监测代理服务器61和监测代理服务器62则分别连接到监测终端5，从而可以将接受到的来自处理服务器的状态信息传输给监测终端5。

在本实施例中，监测代理服务器的数量要少于需要监测的服务器群1中的处理服务器11-14及11a-14a的数量，并且每一个监测代理服务器均可以为多个代理服务器提供监测。如此一来，可以大幅减少监测终端5的网络输入接口数量和监测终端的处理能力要求而不影响监测系统的监测功能。例如图4中所示，该监控系统示例性地示出了8个代理服务器11-14以及11a-14a，该8个代理服务器分别由两个监测代理服务器61-62来服务。借此，该监测终端5只需具备两个网络输入端口，而不再需要具备8个网络输入端口，因此可以有效降低其负载合硬件成本。

在监测代理服务器61和62启动后，首先向监测终端5发出信号以向监测终端5的网络输入端口5b进行注册。另一方面，需要被监控的服务器群1中的多个代理服务器也需要先向该监测终端5进行注册，并且在注册完成后，再接受该监测终端5的分配。借此，这些处理服务器可以得知必须通过哪一个监测代理服务器来传递自身的状态信息至该监测终端。本实施例中，该处理服务器主要是将自身的状态信息，例如温度、电源模式、冷却风扇速度、操作系统状态或其他硬件驱动设备的状态等传送给被分配的监测代理服务器61或62，并且再由该监测代理服务器进行缓存和优选级排序后再依序输入该监测终端5进行外显和分析处理。

该监测代理服务器61包括有信息输入单元61a、数据缓存池61b、信息输出单元61c以及控制单元61d，其中信息输入单元61a、数据缓存池61b 和信息输出单元61c依次通信连接，并且控制单元61d也相应地通信连接到信息输入单元61a、数据缓存池61b和信息输出单元61c。当监测代理服务器61接受到来自配属到其自身的处理服务器发出的状态信息后，会先传给数据缓存池进行缓存并发送收到输入信息的通知至控制单元。

其中该数据缓存池主要包括有队列及本地数据库，该队列用以排序待处理的输入的状态信息，而该本地数据库则用以在该状态信息尚未被成功传送至监测终端5之前，暂时储存该状态信息。控制单元在接受到来自信息输入单元的通知后，将根据预定的规则对队列中的多个代理服务器的状态信息进行排序以将多个代理服务器的状态信息依照一定的规则有序地输入到监测终端。

对于服务器群1中的多个代理服务器来说，其同时发生故障或者异常状态的概率基本上是不存在的。在实际使用中，服务器群1中的代理服务器由于各个代理服务器本身的使用寿命或者负载情况会错时地发生故障或者异常。期望的是，以发生故障的概率大小为依据进行状态信息传输优先级的排序，即优先传输最可能发生故障的处理服务器的状态信息，而将不太可能或者基本不可能发生故障的处理服务器的状态信息稍后或最晚传输。由于能够将多个处理服务器的状态信息进行排序处理并优先发送最可能发生故障的处理服务器的状态信息，与多个处理服务器同时回报相比，其能够进一步提高监测终端对发生故障的处理服务器的识别和响应速度。

为此，作为一种优选的排序规则，在本申请中是通过控制单元记录多个处理服务器的平均故障间隔时间和处理服务器的可靠性指数来评估处理服务器发生故障的概率大小，从而实现状态信息的传输优先级排序。具体来说，由控制单元记录有每个代理服务器的平均故障间隔时间(简称MTBF)以及每个处理服务器的可靠性指数(该可靠性指数基于处理服务器的运算能力和存储空间由管理者设定)。为MTBF和可靠性指数分别分配一个权重因子，其中权重因子的总和为1。作为示例，例如，MTBF的权重为0.6，可靠性指数的权重为0.4。控制单元根据服务器群1已经运行的时间来分别计算每个代理服务器的平均故障间隔时间与已运行时间之间的差值，并将差值与MTBF的权重予以相乘并加上可靠性指数的数值即可得出每个代理服务器的当前故障风险因数。出于示例的目的，如果处理服务器11的MTBF为1000小时，而处理服务器12的MTBF为800小时，当服务器群1在已经工作700小时的时刻，其中的处理服务器发生了故障，那么在两者可靠性基本一致的情况下，控制单元将判定服务器12发生故障的概率大于服务器11发生故障的概率，那么在监测终端5要求各个处理服务器的BMC4回报自身状态信息时，监测代理服务器61中的控制单元将位于队列内的处理服务器12的状态信息的优先级排在处理服务器11的状态信息前面。同样地，如果处理服务器11和处理服务器12的MTBF相差无几，而处理服务器12中所采用的处理器的运算能力和存储空间均大于处理服务器11(这意味着数据溢出和运算能力不足导致宕机的可能性小)，那么在监测终端要求各个处理服务器的BMC回报自身状态信息时，监测代理服务器中的控制单元会将位于队列内的处理服务器12的状态信息的优先级排在处理服务器11的状态信息前面。

在控制单元对位于队列中的各个处理服务器的状态信息进行排序完毕后，可以暂时将已完成优先级排序的状态信息储存于该数据池中的本地数据库中，以确保状态信息在传送出去之前不会遗失。如此的设计，可以有效地提升监测系统的安全性，并且确保数据的完整性。随后，控制单元在探测到监测终端5的网络输入端口5b可以接受状态信息时，发出允许存储在本地数据库中的状态信息经由信息输出单元发送至监测终端的网络输入端口5b的指令，从而完成状态信息的发送。

以下将对第二实施例的操作过程进行详细描述。

首先根据以上的描述将监控代理服务器和处理服务器进行注册和处理服务器的分配工作，使各个处理服务器知晓自身通过哪一个监控代理服务器向监测终端5回传状态信息。接下来，监测终端5会定时地与服务器群1进行网络连接，以测试服务器群1提供的网络服务是否正常。若服务器群1中的各个处理服务器所提供的网络服务均没有发生异常，则监测终端5会与服务器群1中的各个处理服务器中断网络连接，在等待一段时间后，监测终端5再次与服务器群1的各个处理服务器进行网络连接，以达到定时监测服务器群1的运作状况的目的。

当监测终端5发现无法与服务器群1中的某个或者多个处理服务器进行正常的网络连接时，监测终端5会要求BMC4回报其自身的处理服务器的当前状态信息。当多个处理服务器的BMC回报自身状态信息时，该状态信息首先被传输到其配属的监测代理服务器的信息输入单元，并在信息输入单元接受了状态信息后转存入数据池的队列中等待控制单元进行优先权排序。控制单元在接受到来自信息输入单元的通知后，将根据预定的规则对队列中的多个代理服务器的状态信息进行排序，已经排序完毕的多个代理服务器的状态信息则暂时存放在本地数据库中。在控制单元探测到监测终端的网络输入端口可以接受状态信息时，其允许存储在本地数据库中的状态信息经由信息输出单元发送至监测终端的网络输入端口的指令，从而完成状态信息的发送。

由上可知，与第一实施例相比，该第二实施例通过设置至少一个监控代理服务器作为多个处理服务器与监测终端之间的传输接口，如此可以有效控制监测终端的网络输入端口的数量和对监测终端的处理能力的要求。与此同时，由于降低了与监测终端进行通信连接的服务器数量，从而避免了若处理服务器同时传输的回报信息太多造成的监控终端处理不及时或者监测终端的处理器过载的问题，使得即使降低监测终端的处理速度，也能够满足服务器群的正常监测。

在图5-6中示出了根据本发明的第三实施例。第三实施例在上述实施例的基础上进一步降低了对监控终端5的硬件要求。该第三实施例充分利用了服务器群中的各个处理服务器在空间上紧凑布置这一有利条件，通过在各个处理服务器之间利用近距离无线通信技术来组成封闭的数据通信链路，进而将多个处理服务器组合成一个具有共同输出端口的服务器监测组加以监测。借此，服务器群1中的各个处理服务器被划分为多个具有共同输出端口的监测组，从而减小了监测终端的网络输入端口的数量和处理要求。

在图5中示出了根据本发明的第三实施例的服务器群中的处理服务器。在第三实施例中，在处理服务器中包括有BMC4和一个与之相通信的无线通信单元8。该无线通信单元8可以是NFC(Near Field Communication近距离无线通信技术)或者其他的近距离通讯模块。该无线通信单元8包括发射部 81和接收部82。而在BMC4中则包括设置部、监控部及状态信息输出部。作为示例，BMC中的设置部等部件可以由BMC中的中央处理器所执行。

如图6所示，在本实施例中，作为示例，将服务器群1中的处理服务器11、处理服务器12、处理服务器13、处理服务器14、处理服务器15这5个处理服务器组成了一个具有共同输出端口71的服务器监测组7。本领域技术人员能够知晓，每个服务器监测组中的处理服务器的个数并不限于5个，也可以根据需要设置为多于或者少于5个。由此，可以将整个服务器群1划分为多个服务器监测组。

在本实施例中，每个处理服务器的BMC中的设置部用于设置该处理服务器所属服务器监测组的名称及该处理服务器的通信上家及通信下家。如在图6所示的一个服务器监测组中，将处理服务器11作为监测组中的第一处理服务器，设置其所在的监测组的名字为Group 1，通信上家为处理服务器15，通信下家则是处理服务器12；选取处理服务器12为第二处理服务器，设置其所在的监测组的名字为Group 1，通信上家为处理服务器11，通信下家为处理服务器13；选取处理服务器13为第三处理服务器，设置其所在的监测组的名字为Group 1，通信上家为处理服务器12，通信下家为处理服务器14；选取处理服务器14为第四处理服务器，设置其所在的监测组的名字为Group1，通信上家为处理服务器13，通信下家为处理服务器15；选取处理服务器15为第五处理服务器，设置其所在的监测组的名字为Group 1，通信上家为处理服务器14，通信下家为处理服务器11；通过各个处理服务器11-15的BMC中的设置部的上述设置，这五个处理服务器即可集合在同一个监测组Group 1中并形成一个完整的如图6所示的闭环通信链。在本实施例中，处理服务器11、处理服务器12、处理服务器13、处理服务器14以及处理服务器15之间通过各自的无线通信单元8相互通讯。

当监测终端5发现无法与服务器群中的某个或者多个处理服务器进行正常的网络连接时，监测终端会要求BMC4回报其自身的处理服务器的当前状态信息。在此实施例中，各个处理服务器的BMC开始进行自检。具体来说，各个处理服务器的BMC4中的监控部可以将监测到的例如温度、电源模式、冷却风扇速度、操作系统状态或其他硬件驱动设备等状态与预设的处于正常运行状态中的状态阈值进行对比。其中监控部根据以上的状态值是否已经超出了正常运行状态的状态阈值，相应地向无线通信单元8发出操作指令。

同时，在无线通信单元中，每一个发射部81用于发送信息给属于同一个监测组中的通信上家和通信下家。相应地，每一个接收部82用于接收通信上家和通信下家的信息。该发射部81还用于在接收部82接收到来自通信上家或通信下家的信息后，向通信上家或通信下家发出响应信息。

在使用过程中，当处于同一个服务器监测组中的每一个处理服务器的监控部发现其自身的处理服务器的状态信息值均未超出正常运行状态的状态阈值时，其分别向各自的无线通信单元8发出正常对外发射信息和接受信息的指令。在这种情况下，在服务器监测组的完整的闭环通信链是畅通的，这表示该服务器监测组中所有的处理服务器均处于正常工作状态。

进一步，当处于同一个服务器监测组中的一个或多个处理服务器的监控部发现其自身的处理服务器的状态信息值已超出正常运行状态的状态阈值时，其分别向自身的无线通信单元发出停止对外发射信息和接受信息的指令。在这种情况下，服务器监测组的完整的闭环通信链在例如第一处理服务器11和第二处理服务器12处是断开的，这表示该服务器监测组中存在故障的处理服务器。进一步，由于每一个处理服务器均具有其相应的通信上家和通信下家，根据闭环通信链的断开点可以很容易地定位该服务器监测组中发生故障或者异常的处理服务器。

更进一步，在根据闭环通信链的断开点确定了发生故障的处理服务器的情况下，服务器监测组的共同输出端口71向所确定的故障的处理服务器的监控部发出指令。该故障的处理服务器的监控部在收到来自共同输出端口71的指令后，指示其所属的状态信息输出部向共同输出端口发送其所属的BMC的状态信息。共同输出端口在接受了故障的处理服务器的BMC的状态信息后，再通过监测终端的网络输入端口5b输入到监测终端中，从而实现了对该服务器监测组的监控。

由此可见，与前述的第一和第二实施例相比，第三实施例仅通过在BMC上增设一个简单的近距离通信单元即可实现对服务器群1中的多个处理服务器进行划分和快速识别每个服务器监测组中的故障服务器。具体来说，由于第三实施例的网络输入端口5b的数量与服务器监测组的数目相同(监测组的数目是处理服务器数目的几分之一甚至几十分之一)，与第一实施例相比，这能够极大地减少监测终端5的网络输入端口5b的数量，这进而有效控制监测终端的网络输入端口的数量和对监测终端的处理能力的要求最终降低了监测系统的硬件成本，同时还不会影响到对服务器群1的监测。

同时，与第二实施例相比，则取消了在第二实施例中的监控代理服务器，进而降低了监测系统的硬件成本，同时还不会影响到对服务器群1的监测。

以上结合附图详细说明了本发明的技术方案，尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

工业实用性

本发明的系统能主动要求基板管理控制器提供其自身处理服务器的当前状态信息，让该服务器群的管理者在该服务器群发生异常后，可及时且清楚地了解服务器群的状况，而能立即进行相对应的措施或处置，进而提升服务器群的管理效率。

Claims

一种远程教育系统的服务器群的监测系统，包括多个处理服务器，所述多个处理服务器均包括主板管理控制器，其特征在于：其中所述服务器群还包括与多个处理服务器通过传输控制协议数据连接的分配单元，其中该分配单元用于建立分配矩阵以动态管理各处理服务器上的闲置处理进程数；所述分配单元定时监测是否有待处理的任务请求，若有，则检查分配矩阵中各处理服务器的闲置处理进程数，若存在闲置的处理服务器，则将待处理任务分配给闲置的处理服务器；

所述监测系统包括监测终端，该监测终端包含可以与服务器群中的处理服务器进行网络连接的服务器状态实时监测单元；该监测终端的该服务器状态实时监测单元定期地与处理服务器进行网络连接，并在发现与处理服务器的网络连接发生异常时要求各处理服务器的主板管理控制器回报该处理服务器的当前状态信息。
根据权利要求1所述的监测系统，其中，

其中该服务器群中的多个处理服务器具有共同对外提供网络服务的同一网络地址，且该主板管理控制器彼此间具有不同的网络地址，该服务器状态实时监测单元是根据处理服务器的统一网络地址与处理服务器网络连接以测试该网络服务，并根据该主板管理控制器的网络地址与该主板管理控制器网络连接以要求该主板管理控制器回报当前状态信息。
根据权利要求1或2所述的监测系统，其中，

该服务器状态实时监测单元包括：与主板管理控制器进行网络连接的至少一个网络输入端口，该网络输入端口用以接受至少一个处理服务器的主板管理控制器的回报信息；以及与服务器群进行网络连接的网络输出/输入端口。
根据权利要求2或3所述的监测系统，其中，

所述网络输入端口的数量与服务器群中的处理服务器的数量相同，每个网络输入端口分别与一个处理服务器的主板管理控制器通信连接。
根据权利要求2或3所述的监测系统，其中，

该监测系统还包括至少一个监测代理服务器，该监测代理服务器被配置成连接至多个代理服务器并配置为接受与其连接的多个代理服务器的状态信息，并将接受到的多个代理服务器的状态信息传输给监测终端，其中所述网络输入端口的数量与监测代理服务器的数量相同，每个网络输入端口分别与一个监测代理服务器进行通信连接。
权利要求5所述的监测系统，其中，

所述监测代理服务器包括有依次通信连接的信息输入单元、数据缓存池、信息输出单元以及分别与信息输入单元、数据缓存池、信息输出单元通信连接的控制单元，其中该信息输入单元接受来自与其连接的处理服务器的状态信息并将该状态信息传输给数据缓存池，所述控制单元用于对数据缓存池内的多个处理服务器的状态信息进行优先级排序，并经由信息输出单元将排序完毕后的状态信息有序地传输给监测终端。
根据权利要求6所述的监测系统，其中，

该数据缓存池包括队列及本地数据库，该队列被配置为用于排序多个处理服务器的状态信息，该本地数据库被配置为用于在状态信息尚未被传输至监测终端前暂时储存该状态信息，其中所述控制单元根据多个代理服务器的平均故障间隔时间和服务器的可靠性指数对队列中的状态信息进行优先级排序。
根据权利要求2或3所述的监测系统，其中，

该监测系统还包括由服务器群中的多个处理服务器组成的具有共同输出端口的服务器监测组，所述共同输出端口被配置为输出故障服务器的状态信息，其中所述网络输入端口的数量与服务器监测组的数量相同，每个网络输入端口分别与一个服务器监测组的共同输出端口进行通信连接。
根据权利要求8所述的监测系统，其中，

在同一服务器监测集中的每个处理服务器均具有与主板管理控制器通信连接的无线通信单元，每个主板管理控制器均具有设置部、监控部及状态信息输出部，该设置部用于设置该处理服务器所属服务器监测组的名称及该处理服务器的通信上家及通信下家，所述无线通信单元包括发射部和接受部，其中每个处理服务器的发射部和接受部被配置用于与其通信上家及通信下家通信，从而在该监测组中形成完整的闭环通信链。
权利要求9所述的监测系统，其中，

所述监控部被配置为用于判定处理服务器的状态信息是否超出状态阈值，在超出状态阈值时，向无线通信单元发出停止发射和接受信息的指令从而使所述闭环通信链断开，所述共同输出端口向处于闭环通信链断开点的处理服务器发出指令，以使其所属的状态信息输出部向该共同输出端口发送其所属的主板控制器的状态信息并经由共同输出端口传输至监测终端。