WO2019223061A1 - 一种系统告警方法、存储介质、服务器和装置 - Google Patents

一种系统告警方法、存储介质、服务器和装置 Download PDF

Info

Publication number
WO2019223061A1
WO2019223061A1 PCT/CN2018/093703 CN2018093703W WO2019223061A1 WO 2019223061 A1 WO2019223061 A1 WO 2019223061A1 CN 2018093703 W CN2018093703 W CN 2018093703W WO 2019223061 A1 WO2019223061 A1 WO 2019223061A1
Authority
WO
WIPO (PCT)
Prior art keywords
alarm information
alarm
information
word
similarity
Prior art date
Application number
PCT/CN2018/093703
Other languages
English (en)
French (fr)
Inventor
谢晓华
杨海勇
陈天豪
袁少雄
金鑫
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019223061A1 publication Critical patent/WO2019223061A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Definitions

  • the present application relates to the field of information monitoring, and in particular, to a system alarm method, a storage medium, a server, and a device.
  • the existing mass alarm notification processing method has the problems of high cost and low processing efficiency.
  • the embodiments of the present application provide a system alarm method, a storage medium, a server, and a device, so as to solve the problems of high cost and low processing efficiency in the conventional alarm notification processing method.
  • a first aspect of the embodiments of the present application provides a system alarm method, including:
  • the monitoring method of the system is full link monitoring, storing the detected alarm information into an alarm information set;
  • the monitoring method in the system is non-full link monitoring, calculating the similarity of the alarm information detected within a specified time, and converging the alarm information according to the similarity;
  • a second aspect of the embodiments of the present application provides a server including a memory and a processor, where the memory stores computer-readable instructions that can run on the processor, and the processor executes the computer-readable instructions To achieve the following steps:
  • the monitoring method of the system is full link monitoring, storing the detected alarm information into an alarm information set;
  • the monitoring method in the system is non-full link monitoring, calculating the similarity of the alarm information detected within a specified time, and converging the alarm information according to the similarity;
  • a third aspect of the embodiments of the present application provides a computer-readable storage medium, where the computer-readable storage medium stores computer-readable instructions, and when the computer-readable instructions are executed by a processor, the following steps are implemented:
  • the detected alarm information is stored in an alarm information set; based on the alarm information set, an alarm notification is sent at a preset interval, and the interval is The alarm information detected within the time converges into the alarm information set;
  • the monitoring method in the system is non-full link monitoring, calculating the similarity of the alarm information detected within a specified time, and converging the alarm information according to the similarity;
  • a fourth aspect of the embodiments of the present application provides a system alarm device, including:
  • An information monitoring unit configured to monitor the running status of equipment in the system and detect alarm information of the equipment
  • a first information processing unit configured to store the detected alarm information into an alarm information set if the monitoring method of the system is full-link monitoring
  • a first alarm notification unit configured to send an alarm notification at a preset interval based on the alarm information set, and converge the alarm information detected within the interval into the alarm information set;
  • a second information processing unit configured to calculate the similarity of the alarm information detected within a specified time if the monitoring method in the system is non-full link monitoring, and to converge the alarm information according to the similarity;
  • the second alarm notification unit is configured to send an alarm notification based on the converged alarm information.
  • the operating information of the equipment in the system is monitored to detect the alarm information of the equipment. If the monitoring mode of the system is full-link monitoring, the detected alarm information is stored in the alarm. An information set, based on the alarm information set, sending an alarm notification at a preset interval, and converging the alarm information detected within the interval to the alarm information set, if the monitoring method in the system is incomplete Link monitoring, calculates the similarity of the alarm information detected within a specified time, and converges the alarm information based on the similarity, and sends alarm notifications based on the converged alarm information.
  • This solution targets different monitoring methods in the system.
  • Adopt different information convergence methods to converge massive alarm information reduce the number of alarm notifications sent to the operation and maintenance personnel, effectively reduce the energy consumption of the operation and maintenance personnel, and facilitate the operation and maintenance personnel to focus on troubleshooting, thereby reducing the cost of alarm processing To improve the efficiency of troubleshooting. .
  • FIG. 1 is an implementation flowchart of a system alarm method according to an embodiment of the present application
  • FIG. 2 is a specific implementation flowchart of a system alarm method S103 provided by an embodiment of the present application
  • FIG. 3 is an implementation flowchart of a system alarm method S104 according to an embodiment of the present application.
  • FIG. 4 is another implementation flowchart of a system alarm method S104 according to an embodiment of the present application.
  • FIG. 5 is an implementation flowchart of calculating a cosine similarity by the system alarm method according to an embodiment of the present application
  • FIG. 6 is a structural block diagram of a system alarm device according to an embodiment of the present application.
  • FIG. 7 is a schematic diagram of a server provided by an embodiment of the present application.
  • FIG. 1 illustrates an implementation process of a system alarm method provided by an embodiment of the present application, and the method process includes steps S101 to S105.
  • the specific implementation principle of each step is as follows:
  • S101 Monitor the running status of the equipment in the system, and detect alarm information of the equipment.
  • the monitored operating conditions include request response speed, background data error, access volume, and designated indicators, and further include the performance indicators of the devices in the system such as bandwidth, CPU, and memory.
  • the alarm information includes an alarm level, an alarm device number, an IP address of a server, and an alarm cause.
  • the alarm information also includes an abnormal emergency contact person, contact information, and a processing guide for handling the abnormality.
  • the devices in the system include clients, servers, routers, repeaters, hubs, switches, and so on.
  • the device may be a physical device or a virtual device. For example, if you have multiple Internet Protocol addresses (Internet Protocol Address (IP address) server, each virtual machine corresponding to the IP address is a device in the system.
  • IP address Internet Protocol Address
  • each virtual machine corresponding to the IP address is a device in the system.
  • IP address Internet Protocol Address
  • an alarm message is sent to notify the operation and maintenance personnel.
  • the equipment in the system is monitored to obtain the alarm information of the equipment, so that the operation and maintenance personnel can perform timely maintenance.
  • the system monitors the running status of the equipment in the system in real time, and actively collects the alarm information of the equipment in real time, so as to know the abnormal operation of the equipment in the system in time; or the system regularly runs the equipment in the system. Monitor the situation and periodically receive the alarm information reported by the equipment, thereby reducing the power consumption of the system.
  • an alarm information set is established, and the alarm information set is used to store detected alarm information.
  • the monitoring methods of the system are divided into full link monitoring and non-full link monitoring.
  • a complete invocation process in the system may span multiple services and data centers.
  • Full link monitoring can display various indicators from the overall dimension to the local dimension, which can easily measure the overall and local performance, and find it easily. The source of the fault can greatly shorten the troubleshooting time.
  • an alarm information set is established according to the alarm cause in the alarm information, and the alarm cause label is affixed to the alarm information set. If multiple alarm information is detected, the multiple alarm information is classified according to the alarm cause. , Converging the alarm information of the same alarm cause into the alarm information set to which the alarm cause is posted, and sending an alarm notification based on the classified alarm information set.
  • S103 Send an alarm notification at a preset interval based on the alarm information set, and converge the alarm information detected in the interval into the alarm information set.
  • an alarm notification is not sent for each piece of alarm information, but the detected alarm information is converged to the alarm.
  • An information set based on the alarm information set, sending an alarm notification at a preset interval, and when new alarm information is detected within the interval of sending the alarm notification, the alarm notification is not sent immediately based on the new alarm information, and It records the new alarm information and converges the new alarm information into the alarm information set.
  • the recording the new alarm information includes recording a detected time.
  • the above S103 specifically includes:
  • A1 If the alarm information of the device is collected for the first time, a first alarm notification is sent according to the alarm information.
  • the first collection of alarm information of the device refers to the first detection of alarm information of a device in the system when full link monitoring is turned on.
  • A2 If the abnormal resolution feedback information sent by the device is not received within the first preset time, a second alarm notification is sent.
  • the abnormality resolution feedback information is used to notify the device that the abnormality has been processed. Specifically, a device in the system sends an alarm message when an abnormality occurs, and if the abnormality of the device is resolved, it sends an exception resolution feedback message to notify the system that the abnormality has been resolved.
  • A3 If the abnormal resolution feedback information sent by the device is not received within the second preset time, a convergence operation is triggered, and the interval for sending the alarm notification is incremented according to the preset ratio coefficient and ratio, and The detected alarm information is converged into the alarm information set, and the convergence of the alarm information of the device is ended until the abnormality resolution feedback information sent by the device is received. Further, the first preset time is less than or equal to the second preset time.
  • the alarm information of the detected equipment is stored in the alarm information set. If the alarm information is collected for the first time, an alarm notification is sent immediately, and the abnormality feedback information is detected. Did not receive the exception resolution feedback information sent by the device within the first preset time, send a second alarm notification, continue to detect the exception resolution feedback information, if the exception sent by the device is not received within the second preset time.
  • the feedback information is resolved, the convergence operation is triggered, and the interval for sending alarm notifications is increased according to the preset proportional coefficient, that is, the interval for sending alarm notifications based on the set of alarm information is incrementally extended, and the alarms detected during the interval The information converges into the alarm information set.
  • the service request of A backup in the system has a failure.
  • the first alarm notification is sent, and the time is 10:00. If the failure is within a preset time, If it is not resolved within 5 minutes, that is, the abnormal resolution feedback information sent by device A is not received within 5 minutes, a second alarm notification is sent, and the time is 10:05. If the failure of the A device is still not resolved at 10:10, the convergence operation is triggered, and the alarm notification time is incremented by a preset ratio coefficient. If the preset ratio coefficient is 2, the next alarm notification time is 10:20, continue to detect alarm information and abnormal solution feedback between 10:10 and 10:20 minutes.
  • alarm information If alarm information is detected, record and converge the alarm information to the alarm information set, but do not send alarm notifications. If abnormal resolution feedback information is detected, the convergence alarm information set is ended and no alarm notification is sent at 10:20. If no abnormal resolution feedback information is detected during this period, an alarm notification is sent at 10:20 and the next The time for sending the alarm notification is 10:40.
  • S104 If the monitoring method in the system is non-full link monitoring, calculate the similarity of the alarm information detected within a specified time, and converge the alarm information according to the similarity.
  • the similarity convergence method is adopted to converge the collected alarm information of different devices.
  • the similarity refers to the text similarity of the alert information.
  • an alarm notification is sent to calculate the similarity between the subsequently detected alarm information and the first detected alarm information. If the calculated similarity is not less than the preset similarity threshold, the subsequent detection will be performed. Of the alarm information is converged into the alarm information set of the first detected alarm information.
  • the similarity of the alarm information detected within a specified time is calculated, specifically the cosine similarity of the alarm information is calculated.
  • Cosine similarity also known as cosine similarity, evaluates the similarity of two vectors by calculating the cosine of the angle between them. Cosine similarity draws a vector into vector space based on the coordinate values.
  • FIG. 3 shows a specific implementation process of the system alarm method S104 provided by the embodiment of the present application, which is detailed as follows:
  • the second valid time refers to a valid time for newly detected alarm information to be converged based on the first alarm information.
  • B2 Calculate a first cosine similarity between the second alarm information and the first alarm information when the second alarm information is detected within the first valid time of the first alarm information.
  • an alarm message B when an alarm message B is detected for the first time, it is stored in the memory, the effective time of the alarm message as a convergence factor is set to 15 minutes, and the timer is turned on. All the alarm messages detected within 15 minutes are related to The cosine similarity comparison of alarm information B is performed. The alarm information with a similarity of more than 99% will be converged into the alarm information set of the alarm information B. No alarm notification will be sent. The alarm information detected after 15 minutes Will not do cosine similarity comparison with B again.
  • an alarm convergence table is generated according to the alarm information converged in the set, so that the operation and maintenance personnel can view it at any time.
  • the above alarm convergence table includes a convergence factor and a convergence time.
  • the step S104 further includes: B5: If the calculated first cosine similarity value does not reach a preset similarity threshold value, store the second alarm information in a memory , Setting a second valid time of the second alarm information, and starting timing.
  • B6 Calculate a second cosine similarity between the third alarm information and the second alarm information when the third alarm information is detected within the second valid time of the second alarm information.
  • the second alarm information when the cosine similarity between the detected second alarm information and the first alarm information is less than a preset similarity threshold, the second alarm information is stored in the memory, and the second alarm information is set as a convergence factor. For the second valid time, calculate the cosine similarity between the third alarm information and the second alarm information detected within the second valid time, and converge the alarm information that reaches a preset similarity threshold to the second alarm Information in the alarm information collection.
  • the second valid time of the first alarm information overlaps with the second valid time of the second alarm information, for example, when the second alarm information is detected when the first alarm information is turned on for three minutes
  • the second The similarity between the alarm information and the first alarm information does not reach a preset similarity threshold, and the effective time of the second alarm information is set.
  • the first effective time of the first alarm information and the second effective time of the second alarm information If there is an overlap time of 12 minutes, the third alarm information detected within the overlap time must both calculate the cosine similarity with the first alarm information and the cosine similarity with the second alarm information.
  • the first alarm information is used as a convergence factor to converge the third alarm information, and the third alarm information and the second alarm are no longer calculated. Cosine similarity of information.
  • the foregoing B2 specifically includes:
  • B21 Perform word segmentation processing on the first alarm information, and place the word processed by the first alarm information in the first word set.
  • B22 Perform word segmentation processing on the second alarm information, and place the word processed by the second alarm information in the second word set.
  • B23 Calculate the word frequency of each word in the first word set, and establish a first word frequency vector according to the word frequency in the first word set.
  • B24 Calculate the word frequency of each word in the second word set, and establish a second word frequency vector according to the word frequency in the second word set.
  • B25 Calculate a first cosine similarity between the second warning information and the first warning information according to the first word frequency vector and the second word frequency vector.
  • the word segmentation processing is performed on the alarm information.
  • the word segmentation processing may be performed on the alarm information according to a preset thesaurus, and the word frequency of the word processed by the word segmentation may be calculated. Cosine similarity.
  • the content of the first alarm information A is as follows:
  • the content of the second alarm information B is as follows:
  • the first alarm information A High (1), Qianhai Credit (1), related (1), abnormal (1), alarm (1), PROBLEM (1), telnet (1), upstream (1), data Source (1), Timeout (1), Fahai (1), GEO (0), Alarm Host (1), QHCS (2), DFEP (2), AIO (1), FRONT (1), DMZ (1 ), 10 (1), 35 (1), 184 (1), 111 (1), 113 (0);
  • Second alarm information B High (1), Qianhai Credit (1), related (1), abnormal (1), alarm (1), PROBLEM (1), telnet (1), upstream (1), data Source (1), Timeout (1), Fahai (0), GEO (1), Alarm Host (1), QHCS (2), DFEP (2), AIO (1), FRONT (1), DMZ (1 ), 10 (1), 35 (1), 184 (1), 111 (0), 113 (1);
  • Word frequency vector A of the first warning information (1,1,1,1,1,1,1,1,0,1,1,2,2,1,1,1,1,1, 1, 0, 1)
  • Word frequency vector B of the second warning information (1,1,1,1,1,1,1,1,1,0,1,2,2,1,1,1,1,1,1, 1,1,0).
  • the foregoing B25 specifically includes:
  • COS ⁇ 1 (A ⁇ B) / (
  • A is a first word frequency vector of the first alarm information
  • B is a second word frequency vector of the second alarm information.
  • S105 Send an alarm notification based on the converged alarm information.
  • an alarm notification is sent to a designated communication account based on the alarm information as a convergence factor to notify the operation and maintenance personnel. Further, the interval time for sending the alarm notification may be increased according to a preset ratio, and the effective time of the alarm information as the convergence factor ends.
  • Alarm levels include warn (requires attention), high (requires rectification), critical (requires immediate processing), and Disaster (report and process immediately).
  • the alarm will be upgraded. After the upgrade, an additional alarm notification will be sent, and the alarm notification will be sent to the designated communication account to notify the operation and maintenance personnel of the number of convergent alarm information to remind the operation Maintenance personnel raise awareness of alarm information.
  • the operating information of the equipment in the system is monitored to detect the alarm information of the equipment. If the monitoring mode of the system is full-link monitoring, the detected alarm information is stored in the alarm. An information set, based on the alarm information set, sending an alarm notification at a preset interval, and converging the alarm information detected within the interval to the alarm information set, if the monitoring method in the system is incomplete Link monitoring, calculates the similarity of the alarm information detected within a specified time, and converges the alarm information based on the similarity, and sends alarm notifications based on the converged alarm information.
  • This solution targets different monitoring methods in the system.
  • Adopt different information convergence methods to converge massive alarm information reduce the number of alarm notifications sent to the operation and maintenance personnel, effectively reduce the energy consumption of the operation and maintenance personnel, and facilitate the operation and maintenance personnel to focus on troubleshooting, thereby reducing the cost of alarm processing To improve the efficiency of troubleshooting.
  • FIG. 6 shows a structural block diagram of the system alarm device provided by the embodiment of the present application. For convenience of explanation, only a part related to the embodiment of the present application is shown.
  • the system alarm device includes: an information monitoring unit 61, a first information processing unit 62, a first alarm notification unit 63, a second information processing unit 64, and a second alarm notification unit 65, wherein:
  • An information monitoring unit 61 is configured to monitor the running status of equipment in the system and detect alarm information of the equipment;
  • a first information processing unit 62 configured to store the detected alarm information into an alarm information set if the monitoring method of the system is full-link monitoring;
  • a first alarm notification unit 63 configured to send an alarm notification at a preset interval based on the alarm information set, and converge the alarm information detected within the interval into the alarm information set;
  • the second information processing unit 64 is configured to calculate the similarity of the alarm information detected within a specified time if the monitoring method in the system is non-full link monitoring, and to converge the alarm information according to the similarity;
  • the second alarm notification unit 65 is configured to send an alarm notification based on the convergence alarm information.
  • the first alarm notification unit 63 includes:
  • a first alarm module configured to send the first alarm notification according to the alarm information if the alarm information of the device is collected for the first time
  • a second alarm module configured to send a second alarm notification if the abnormality resolution feedback information sent by the device is not received within the first preset time
  • the convergence triggering module is configured to trigger the convergence operation if the abnormality feedback information sent by the device is not received within the second preset time, and increase the interval for sending the alarm notification according to the preset proportional coefficient and ratio.
  • the alarm information detected within the interval is converged into the alarm information set, and the convergence of the alarm information of the device is ended until the abnormality resolution feedback information sent by the device is received.
  • the second information processing unit 64 includes:
  • a first time setting module configured to store the detected first alarm information of the device into a memory, set a first valid time of the first alarm information, and start timing;
  • a first similarity calculation module configured to calculate that the second alarm information is similar to the first cosine of the first alarm information when the second alarm information is detected within the first valid time of the first alarm information degree;
  • a first comparison module configured to compare the first cosine similarity with a preset similarity threshold
  • a first convergence module configured to: if the calculated first cosine similarity reaches a preset similarity threshold, use the first alarm information of the device as a convergence factor, and use the first Second, the alarm information converges.
  • the first similarity calculation module further includes:
  • a first word segmentation submodule configured to perform word segmentation processing on the first alarm information, and place the word processed by the first alarm information in the first word set;
  • a second word segmentation submodule configured to perform word segmentation processing on the second alarm information, and place the word processed by the second alarm information in the second word set;
  • a first vector building submodule configured to calculate a word frequency of each word in the first word set, and establish a first word frequency vector according to the word frequency in the first word set;
  • a second vector building submodule configured to calculate a word frequency of each word in the second word set, and establish a second word frequency vector according to the word frequency in the second word set;
  • a first similarity calculation submodule is configured to calculate a first cosine similarity between the second alarm information and the first alarm information according to the first word frequency vector and the second word frequency vector.
  • the first similarity calculation submodule is further configured to calculate a first cosine similarity COS ⁇ 1 of the second alarm information and the first alarm information according to the following formula:
  • COS ⁇ 1 (A ⁇ B) / (
  • A is a first word frequency vector of the first alarm information
  • B is a second word frequency vector of the second alarm information.
  • the second information processing unit 64 further includes:
  • a second time setting module configured to store the second warning information into a memory and set the second warning information if the calculated first cosine similarity value does not reach a preset similarity threshold; Second valid time and start timing;
  • a second similarity calculation module configured to calculate that the third alarm information is similar to the second cosine of the second alarm information when the third alarm information is detected within the second valid time of the second alarm information degree;
  • a second comparison module configured to compare the second cosine similarity with a preset similarity threshold
  • a second convergence module configured to: if the calculated second cosine similarity is not less than the preset similarity threshold, use the second alarm information of the device as a convergence factor, and use the device's The third alarm information is converged.
  • the operating information of the equipment in the system is monitored to detect the alarm information of the equipment. If the monitoring mode of the system is full-link monitoring, the detected alarm information is stored in the alarm. An information set, based on the alarm information set, sending an alarm notification at a preset interval, and converging the alarm information detected within the interval to the alarm information set, if the monitoring method in the system is incomplete Link monitoring, calculates the similarity of the alarm information detected within a specified time, and converges the alarm information based on the similarity, and sends alarm notifications based on the converged alarm information.
  • This solution targets different monitoring methods in the system.
  • Adopt different information convergence methods to converge massive alarm information reduce the number of alarm notifications sent to the operation and maintenance personnel, effectively reduce the energy consumption of the operation and maintenance personnel, and facilitate the operation and maintenance personnel to focus on troubleshooting, thereby reducing the cost of alarm processing To improve the efficiency of troubleshooting.
  • FIG. 7 is a schematic diagram of a server provided by an embodiment of the present application.
  • the server 7 of this embodiment includes: a processor 70, a memory 71, and computer-readable instructions 72 stored in the memory 71 and executable on the processor 70, such as a system alarm program.
  • the processor 70 executes the computer-readable instructions 72
  • the steps in the foregoing embodiments of the system alarm method are implemented, for example, steps 101 to 105 shown in FIG.
  • the processor 70 executes the computer-readable instructions 72
  • the functions of each module / unit in the foregoing device embodiments are implemented, for example, the functions of modules 61 to 65 shown in FIG. 6.
  • the computer-readable instructions 72 may be divided into one or more modules / units, the one or more modules / units are stored in the memory 71 and executed by the processor 70, To complete this application.
  • the one or more modules / units may be a series of computer-readable instruction instruction segments capable of performing specific functions, and the instruction segments are used to describe the execution process of the computer-readable instructions 72 in the server 7.
  • the server 7 may be a computing device such as a desktop computer, a notebook, a palmtop computer, and a cloud server.
  • the server may include, but is not limited to, a processor 70 and a memory 71.
  • FIG. 7 is only an example of the server 7 and does not constitute a limitation on the server 7. It may include more or fewer components than shown in the figure, or combine some components.
  • the processor 70 may be a central processing unit (Central Processing Unit (CPU), or other general-purpose processors, Digital Signal Processors (DSPs), Application Specific Integrated Circuits (Application Specific Integrated Circuits) Specific Integrated Circuit (ASIC), off-the-shelf Programmable Gate Array (FPGA), or other programmable logic devices, discrete gate or transistor logic devices, discrete hardware components, etc.
  • CPU Central Processing Unit
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuits
  • FPGA off-the-shelf Programmable Gate Array
  • programmable logic devices discrete gate or transistor logic devices, discrete hardware components, etc.
  • the memory 71 may be an internal storage unit of the server 7, such as a hard disk or a memory of the server 7.
  • the memory 71 may also be an external storage device of the server 7.
  • the memory 71 is configured to store the computer-readable instructions and other programs and data required by the server.
  • the memory 71 may also be used to temporarily store data that has been output or is to be output.
  • Each functional unit in each embodiment of the present application may be integrated into one processing unit, or each unit may exist separately physically, or two or more units may be integrated into one unit.
  • the above integrated unit may be implemented in the form of hardware or in the form of software functional unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Alarm Systems (AREA)

Abstract

一种系统告警方法、存储介质、服务器和装置,包括:对系统中设备的运行情况进行监控,检测所述设备的告警信息(S101);若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合(S102);基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中(S103);若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛(S104);基于收敛后的告警信息发送告警通知(S105)。本方法可降低告警处理的成本,提高故障处理效率。

Description

一种系统告警方法、存储介质、服务器和装置
本申请要求于2018年05月22日提交中国专利局、申请号为CN 201810495129.2、发明名称为“一种系统告警方法、存储介质和服务器”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及信息监控领域,尤其涉及一种系统告警方法、存储介质、服务器和装置。
背景技术
通信网络的不断发展,无线网络不论在容量上还是在复杂度上都变得越来越大,与此同时,在通信网络系统中,对于各类型信息的管理也就变得越来越困难。其中之一就是网络中的告警故障通知。
随着各种服务器、服务器集群等网络设备的大规模使用,对设备和服务器是否正常工作的监控也愈加重要,识别并及时纠正系统中的故障是保障系统正常运行的重要基础。然而,监控大规模的使用设备和服务器同时会带来海量的告警通知,甚至可能导致告警风暴,海量的告警通知中还包括大量同一个故障的告警通知,对海量的告警通知的处理将消耗运维人员极大的精力,并提高了运维成本。
技术问题
现有的海量告警通知处理方法存在成本高,且处理效率不高的问题。
技术解决方案
本申请实施例提供了一种系统告警方法、存储介质、服务器和装置,以解决现有技术中,海量告警通知处理方法存在成本高,且处理效率不高的问题。
本申请实施例的第一方面提供了一种系统告警方法,包括:
对系统中设备的运行情况进行监控,检测所述设备的告警信息;
若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
基于收敛后的告警信息发送告警通知。
本申请实施例的第二方面提供了一种服务器,包括存储器以及处理器,所述存储器存储有可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
对系统中设备的运行情况进行监控,检测所述设备的告警信息;
若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
基于收敛后的告警信息发送告警通知。
本申请实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
对系统中设备的运行情况进行监控,检测所述设备的告警信息;
若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
基于收敛后的告警信息发送告警通知。
本申请实施例的第四方面提供了一种系统告警装置,包括:
信息监控单元,用于对系统中设备的运行情况进行监控,检测所述设备的告警信息;
第一信息处理单元,用于若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
第一告警通知单元,用于基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
第二信息处理单元,用于若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
第二告警通知单元,用于基于收敛后的告警信息发送告警通知。
有益效果
本申请实施例中,通过对系统中设备的运行情况进行监控,检测所述设备的告警信息,若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合,基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,基于收敛后的告警信息发送告警通知,本方案针对系统中的不同监控方式采用不同的信息收敛方式,将海量的告警信息进行收敛,发送至运维人员的告警通知大量减少,有效减少运维人员的精力损耗,方便运维人员集中注意处理故障,从而降低告警处理的成本,提高故障处理效率。.
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的系统告警方法的实现流程图;
图2是本申请实施例提供的系统告警方法S103的具体实现流程图;
图3是本申请实施例提供的系统告警方法S104的一种实现流程图;
图4是本申请实施例提供的系统告警方法S104的另一种实现流程图;
图5是本申请实施例提供的系统告警方法计算余弦相似度的一种实现流程图;
图6是本申请实施例提供的系统告警装置的结构框图;
图7是本申请实施例提供的服务器的示意图。
本发明的实施方式
图1示出了本申请实施例提供的系统告警方法的实现流程,该方法流程包括步骤S101至S105。各步骤的具体实现原理如下:
S101:对系统中设备的运行情况进行监控,检测所述设备的告警信息。
具体地,监控的运行情况包括请求响应速度、后台数据报错、访问量和指定指标,进一步地,还包括系统中设备的带宽、CPU、内存等性能指标的情况。所述告警信息包括告警级别、告警设备编号、服务器所在IP以及告警原因,所述告警信息还包括异常紧急联系人、联系方式以及处理该异常的处理指引。
系统中的设备包括客户端、服务器、路由器、中继器、集线器、交换机等等。所述设备即可以是实体设备,也可以是虚拟设备。例如,对于具备多个互联网通讯协议地址(Internet Protocol Address,IP地址)的服务器,则每一个IP地址对应的虚拟机都是系统中的一个设备,当设备运行过程中出现异常时,会发送告警信息通知运维人员。在本申请实施例中,通过对系统中的设备进行监控,获取设备的告警信息,以便运维人员及时进行维护。
可选地,在本申请实施例中,系统实时监控系统中设备的运行情况,实时主动采集设备的告警信息,从而及时获知系统中设备运行出现的异常;或者,系统定期对系统中设备的运行情况进行监控,定期接收设备主动上报的告警信息,从而降低系统的功耗。
S102:若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合。
在本申请实施例中,建立告警信息集合,所述告警信息集合用于存入检测到的告警信息。系统的监控方式分为全链路监控和非全链路监控。在分布式系统中,系统中一个完整的调用过程可能横跨多个服务及数据中心,全链路监控可从整体维度到局部维度展示各项指标,可方便度量整体和局部性能,并且方便找到故障产生的源头,可极大缩短故障排除时间。
可选地,根据告警信息中的告警原因建立告警信息集合,并在所述告警信息集合中贴上所述告警原因的标签,若检测到多条告警信息,将多条告警信息按告警原因分类,将相同告警原因的告警信息收敛至贴有所述告警原因的告警信息集合中,基于分类的告警信息集合发送告警通知。
S103:基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中。
具体地,在全链路监控方式下对系统中的设备进行监控时,若检测到多条告警信息,不针对每一条告警信息发送告警通知,而是将检测到的告警信息收敛至所述告警信息集合,基于所述告警信息集合,按预设的间隔时间发送告警通知,在发送告警通知的间隔时间内检测到新的告警信息时,不立即根据所述新的告警信息发送告警通知,而是记录所述新的告警信息,并将所述新的告警信息收敛至所述告警信息集合中。所述记录所述新的告警信息包括记录检测到的时间。
作为本申请的一个实施例,如图2所示,上述S103具体包括:
A1:若首次采集到所述设备的告警信息,根据所述告警信息发送第一次告警通知。所述首次采集到所述设备的告警信息是指在全链路监控开启时,第一次检测到系统中设备的告警信息。
A2:若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知。所述异常解决反馈信息用于通知设备的异常已处理完毕。具体地,系统中的设备在出现异常时会发送告警信息,若所述设备的异常已解决,则会发送异常解决反馈信息,通知系统该异常已解决。
A3:若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,直到接收到所述设备发送的异常解决反馈信息时,结束对所述设备的告警信息的收敛。进一步地的,所述第一预设时间小与或等于所述第二预设时间。
具体地,在全链路监控方式下,将检测到的设备的告警信息存入告警信息集合中,若为首次采集到的告警信息,则立即发送告警通知,并检测异常解决反馈信息,若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知,继续检测异常解决反馈信息,若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,即基于所述告警信息集合发送告警通知的间隔时间是递增延长,并将间隔时间内检测到的告警信息收敛至告警信息集合中。
示例性地,系统中A备的服务请求发生了故障,在检测到该A设备发送的告警信息后,发送第一次告警通知,此时时间为10:00,若该故障在预设时间内如5分钟内,还未解决,即在5分钟内未收到A设备发送的异常解决反馈信息,则发送第二次告警通知,此时时间为10:05。如果在10:10该A设备的故障还是没有得到解决,触发收敛操作,按预设等比系数递增发送告警通知的时间,如预设等比系数为2,则下一次发送告警通知的时间为10:20,在10:10至10:20分之间继续检测告警信息和异常解决反馈信息,若检测到告警信息,则记录并将该告警信息收敛至告警信息集合,但不发送告警通知,若检测到异常解决反馈信息,则结束收敛告警信息集合,并在10:20不再发送告警通知,若在这期间还未检测到异常解决反馈信息,在10:20发送告警通知,并确定下次发送告警通知的时间为10:40。
在本申请实施例中,无需针对每条告警信息发送告警通知,可降低分布式系统中告警处理的成本,提高告警处理效率。
S104:若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛。
在本申请实施例中,若系统中的监控方式为非全链路监控,采用相似度收敛方式对采集的不同设备的告警信息进行收敛。具体地,相似度是指告警信息的文本相似度。在首次检测检测到告警信息时,发送告警通知,计算后续检测到的告警信息与首次检测到的告警信息的相似度,若计算的相似度不小于预设的相似度阈值,则将后续检测到的告警信息收敛至所述首次检测到的告警信息的告警信息集合中。
可选地,计算指定时间内检测到的告警信息的相似度,具体为计算告警信息的余弦相似度。余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中。
作为本申请的一个实施例,图3示出了本申请实施例提供的系统告警方法S104的具体实现流程,详述如下:
B1:将检测到的所述设备的第一告警信息存入存储器,设置所述第一告警信息的第一有效时间,并开始计时。所述第一有效时间是指基于所述第一告警信息收敛新检测到的告警信息的有效时间。
B2:在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度。
B3:比较所述第一余弦相似度与预设的相似度阈值。
B4:若计算的所述第一余弦相似度达到预设的相似度阈值,则将所述设备的所述第一告警信息作为收敛因子,将所述设备的所述第二告警信息收敛。
示例性地,在首次检测到一条告警信息B时,将其存入存储器,设置该告警信息作为收敛因子的有效时间为15分钟,并开启计时,将在15分钟内检测到的告警信息都与告警信息B进行余弦相似度比对,相似度在99%以上的告警信息将会被收敛至所述告警信息B的告警信息集合中,不会发送告警通知,在15分钟之后检测到的告警信息不会与B再做余弦相似度比对。
可选地,根据收敛于集合中的告警信息,生成告警收敛表,以便运维人员随时查看。上述告警收敛表中包括收敛因子和收敛的时间。
进一步地,图4所示,所述步骤S104还包括:     B5:若计算的所述第一余弦相似度的值未达到预设的相似度阈值,则将所述第二告警信息存入存储器,设置所述第二告警信息的第二有效时间,并开始计时。
B6:在所述第二告警信息的第二有效时间内检测到第三告警信息时,计算所述第三告警信息与所述第二告警信息的第二余弦相似度。
B7:比较所述第二余弦相似度与预设的相似度阈值。
B8:若计算的所述第二余弦相似度不小于所述预设的相似度阈值,则将所述设备的所述第二告警信息作为收敛因子,将所述设备的所述第三告警信息收敛。
在本申请实施例中,当检测到的第二告警信息与第一告警信息的余弦相似度小于预设的相似度阈值时,将第二告警信息存入存储器,设置第二告警信息作为收敛因子的第二有效时间,计算在第二有效时间内检测到第三告警信息与所述第二告警信息的余弦相似度,并将达到预设的相似度阈值的告警信息收敛至所述第二告警信息的告警信息集合中。
需说明的是,若第一告警信息的第一有效时间与第二告警信息的第二有效时间存在重叠时间,例如,在第一告警信息开启计时三分钟时检测到第二告警信息,第二告警信息与第一告警信息的相似度未达到预设的相似度阈值,设置第二告警信息的有效时间,此时,第一告警信息的第一有效时间与第二告警信息的第二有效时间存在12分钟的重叠时间,则在该重叠时间内检测到的第三告警信息,既要计算与第一告警信息的余弦相似度,也要计算与第二告警信息的余弦相似度。进一步,当计算的与第一告警信息的余弦相似度达到预设的相似度阈值时,将第一告警信息作为收敛因子收敛该第三告警信息,不再计算该第三告警信息与第二告警信息的余弦相似度。
作为本申请的一个实施例,如图5所示,上述B2具体包括:
B21:将所述第一告警信息进行分词处理,并将所述第一告警信息经分词处理后的词放入第一词集中。
B22:将所述第二告警信息进行分词处理,并将所述第二告警信息经分词处理后的词放入第二词集中。
B23:计算所述第一词集中每个词的词频,并根据所述第一词集中的词频,建立第一词频向量。
B24:计算所述第二词集中每个词的词频,并根据所述第二词集中的词频,建立第二词频向量。
B25:根据所述第一词频向量与所述第二词频向量计算所述第二告警信息与所述第一告警信息的第一余弦相似度。
在本申请实施例中,通过将告警信息进行分词处理,具体地,可根据预设的词库对告警信息进行分词处理,并计算经分词处理后的词的词频,根据词频计算告警信息之间的余弦相似度。
示例性地,第一告警信息A的内容如下:
High#前海征信相关异常告警#PROBLEM:#QHCS-DFEP#telnet上游数据源超时--法海,告警主机:QHCS-DFEP-AIO-FRONT-DMZ_10.35.184.113;
第二告警信息B的内容如下:
High#前海征信相关异常告警#PROBLEM:#QHCS-DFEP#telnet上游数据源超时--GEO,告警主机:QHCS-DFEP-AIO-FRONT-DMZ_10.35.184.111;
列出第一告警信息A和第二告警信息B中所有的词:
High、前海征信、相关、异常、告警、PROBLEM、telnet、上游、数据源、超时、法海、GEO、告警主机、QHCS、DFEP、AIO、FRONT、DMZ、10、35、184、111、10、35、184、113。
分别计算第一告警信息A和第二告警信息B的词频,即统计每个分词出现的次数:
第一告警信息A:High(1)、前海征信(1)、相关(1)、异常(1)、告警(1)、PROBLEM(1)、telnet(1)、上游(1)、数据源(1)、超时(1)、法海(1)、GEO(0)、告警主机(1)、QHCS(2)、DFEP(2)、AIO(1)、FRONT(1)、DMZ(1)、10(1)、35(1)、184(1)、111(1)、113(0);
第二告警信息B:High(1)、前海征信(1)、相关(1)、异常(1)、告警(1)、PROBLEM(1)、telnet(1)、上游(1)、数据源(1)、超时(1)、法海(0)、GEO(1)、告警主机(1)、QHCS(2)、DFEP(2)、AIO(1)、FRONT(1)、DMZ(1)、10(1)、35(1)、184(1)、111(0)、113(1);
根据计算的词频建立词频向量:
第一告警信息的词频向量A:(1,1,1,1,1,1,1,1,1,1,0,1,1,2,2,1,1,1,1,1,1,0,1)
第二告警信息的词频向量B:(1,1,1,1,1,1,1,1,1,1,1,0,1,2,2,1,1,1,1,1,1,1,0)。
可选地,上述B25具体包括:
根据下列公式计算所述第二告警信息与所述第一告警信息的第一余弦相似度COSθ 1
COSθ 1=(A×B)/(||A||×||B||);
其中,A为第一告警信息的第一词频向量,B为所述第二告警信息的第二词频向量。
S105:基于收敛后的告警信息发送告警通知。
在本申请实施例中,基于作为收敛因子的告警信息发送告警通知至指定的通讯账号以通知运维人员。进一步地,可根据预设的等比系数等比递增发送告警通知的间隔时间,作为收敛因子的告警信息的有效时间结束。
可选地,当根据同一收敛因子收敛的告警信息的条数达到预设条数时,触发告警升级机制,告警升级一次后会额外发送一次告警通知。告警级别包括 warn(需要关注)、high(需要整改)、critical(需要马上处理)、Disaster(立即上报并处理)。例如,当同一个收敛因子收敛了5条告警信息之后告警升级,升级后会额外发送一次告警通知,发送告警通知至指定的通讯账号以通知运维人员收敛的告警信息的条数,以便提醒运维人员提升对告警信息的关注度。
本申请实施例中,通过对系统中设备的运行情况进行监控,检测所述设备的告警信息,若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合,基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,基于收敛后的告警信息发送告警通知,本方案针对系统中的不同监控方式采用不同的信息收敛方式,将海量的告警信息进行收敛,发送至运维人员的告警通知大量减少,有效减少运维人员的精力损耗,方便运维人员集中注意处理故障,从而降低告警处理的成本,提高故障处理效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的系统告警方法,图6示出了本申请实施例提供的系统告警装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图6,该系统告警装置包括:信息监控单元61,第一信息处理单元62,第一告警通知单元63,第二信息处理单元64,第二告警通知单元65,其中:
信息监控单元61,用于对系统中设备的运行情况进行监控,检测所述设备的告警信息;
第一信息处理单元62,用于若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
第一告警通知单元63,用于基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
第二信息处理单元64,用于若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
第二告警通知单元65,用于基于收敛后的告警信息发送告警通知。
可选地,所述第一告警通知单元63包括:
第一告警模块,用于若首次采集到所述设备的告警信息,根据所述告警信息发送第一次告警通知;
第二告警模块,用于若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知;
收敛触发模块,用于若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,直到接收到所述设备发送的异常解决反馈信息时,结束对所述设备的告警信息的收敛。
可选地,所述第二信息处理单元64包括:
第一时间设置模块,用于将检测到的所述设备的第一告警信息存入存储器,设置所述第一告警信息的第一有效时间,并开始计时;
第一相似度计算模块,用于在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度;
第一比较模块,用于比较所述第一余弦相似度与预设的相似度阈值;
第一收敛模块,用于若计算的所述第一余弦相似度达到预设的相似度阈值,则将所述设备的所述第一告警信息作为收敛因子,将所述设备的所述第二告警信息收敛。
可选地,所述第一相似度计算模块还包括:
第一分词子模块,用于将所述第一告警信息进行分词处理,并将所述第一告警信息经分词处理后的词放入第一词集中;
第二分词子模块,用于将所述第二告警信息进行分词处理,并将所述第二告警信息经分词处理后的词放入第二词集中;
第一向量建立子模块,用于计算所述第一词集中每个词的词频,并根据所述第一词集中的词频,建立第一词频向量;
第二向量建立子模块,用于计算所述第二词集中每个词的词频,并根据所述第二词集中的词频,建立第二词频向量;
第一相似度计算子模块,用于根据所述第一词频向量与所述第二词频向量计算所述第二告警信息与所述第一告警信息的第一余弦相似度。
可选地,所述第一相似度计算子模块,还用于根据下列公式计算所述第二告警信息与所述第一告警信息的第一余弦相似度COSθ1:
COSθ 1=(A×B)/(||A||×||B||) ;
其中,A为第一告警信息的第一词频向量,B为所述第二告警信息的第二词频向量。
可选地,所述第二信息处理单元64还包括:
第二时间设置模块,用于若计算的所述第一余弦相似度的值未达到预设的相似度阈值,则将所述第二告警信息存入存储器,设置所述第二告警信息的第二有效时间,并开始计时;
第二相似度计算模块,用于在所述第二告警信息的第二有效时间内检测到第三告警信息时,计算所述第三告警信息与所述第二告警信息的第二余弦相似度;
第二比较模块,用于比较所述第二余弦相似度与预设的相似度阈值;
第二收敛模块,用于若计算的所述第二余弦相似度不小于所述预设的相似度阈值,则将所述设备的所述第二告警信息作为收敛因子,将所述设备的所述第三告警信息收敛。
本申请实施例中,通过对系统中设备的运行情况进行监控,检测所述设备的告警信息,若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合,基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,基于收敛后的告警信息发送告警通知,本方案针对系统中的不同监控方式采用不同的信息收敛方式,将海量的告警信息进行收敛,发送至运维人员的告警通知大量减少,有效减少运维人员的精力损耗,方便运维人员集中注意处理故障,从而降低告警处理的成本,提高故障处理效率。
图7是本申请一实施例提供的服务器的示意图。如图7所示,该实施例的服务器7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机可读指令72,例如系统告警程序。所述处理器70执行所述计算机可读指令72时实现上述各个系统告警方法实施例中的步骤,例如图1所示的步骤101至105。或者,所述处理器70执行所述计算机可读指令72时实现上述各装置实施例中各模块/单元的功能,例如图6所示模块61至65的功能。
示例性的,所述计算机可读指令72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令指令段,该指令段用于描述所述计算机可读指令72在所述服务器7中的执行过程。
所述服务器7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是服务器7的示例,并不构成对服务器7的限定,可以包括比图示更多或更少的部件,或者组合某些部件。
所述处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
所述存储器71可以是所述服务器7的内部存储单元,例如服务器7的硬盘或内存。所述存储器71也可以是所述服务器7的外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明。

Claims (20)

  1. 一种系统告警方法,其特征在于,包括:
    对系统中设备的运行情况进行监控,检测所述设备的告警信息;
    若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
    基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
    若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
    基于收敛后的告警信息发送告警通知。
  2. 根据权利要求1所述的系统告警方法,其特征在于,所述基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,包括:
    若首次采集到所述设备的告警信息,根据所述告警信息发送第一次告警通知;
    若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知;
    若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,直到接收到所述设备发送的异常解决反馈信息时,结束对所述设备的告警信息的收敛。
  3. 根据权利要求1所述的系统告警方法,其特征在于,所述若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,包括:
    将检测到的所述设备的第一告警信息存入存储器,设置所述第一告警信息的第一有效时间,并开始计时;
    在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度;
    比较所述第一余弦相似度与预设的相似度阈值;
    若计算的所述第一余弦相似度达到预设的相似度阈值,则将所述设备的所述第一告警信息作为收敛因子,将所述设备的所述第二告警信息收敛。
  4. 根据权利要求3所述的系统告警方法,其特征在于,所述若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,还包括:
    若计算的所述第一余弦相似度的值未达到预设的相似度阈值,则将所述第二告警信息存入存储器,设置所述第二告警信息的第二有效时间,并开始计时;
    在所述第二告警信息的第二有效时间内检测到第三告警信息时,计算所述第三告警信息与所述第二告警信息的第二余弦相似度;
    比较所述第二余弦相似度与预设的相似度阈值;
    若计算的所述第二余弦相似度不小于所述预设的相似度阈值,则将所述设备的所述第二告警信息作为收敛因子,将所述设备的所述第三告警信息收敛。
  5. 根据权利要求3所述的系统告警方法,其特征在于,所述在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度,包括:
    将所述第一告警信息进行分词处理,并将所述第一告警信息经分词处理后的词放入第一词集中;
    将所述第二告警信息进行分词处理,并将所述第二告警信息经分词处理后的词放入第二词集中;
    计算所述第一词集中每个词的词频,并根据所述第一词集中的词频,建立第一词频向量;
    计算所述第二词集中每个词的词频,并根据所述第二词集中的词频,建立第二词频向量;
    根据所述第一词频向量与所述第二词频向量计算所述第二告警信息与所述第一告警信息的第一余弦相似度。
  6. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如下步骤:
    对系统中设备的运行情况进行监控,检测所述设备的告警信息;
    若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
    基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
    若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
    基于收敛后的告警信息发送告警通知。
  7. 根据权利要求6所述的计算机可读存储介质,其特征在于,所述基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,包括:
    若首次采集到所述设备的告警信息,根据所述告警信息发送第一次告警通知;
    若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知;
    若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,直到接收到所述设备发送的异常解决反馈信息时,结束对所述设备的告警信息的收敛。
  8. 根据权利要求6所述的计算机可读存储介质,其特征在于,所述若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,包括:
    将检测到的所述设备的第一告警信息存入存储器,设置所述第一告警信息的第一有效时间,并开始计时;
    在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度;
    比较所述第一余弦相似度与预设的相似度阈值;
    若计算的所述第一余弦相似度达到预设的相似度阈值,则将所述设备的所述第一告警信息作为收敛因子,将所述设备的所述第二告警信息收敛。
  9. 根据权利要求8所述的计算机可读存储介质,其特征在于,所述若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,还包括:
    若计算的所述第一余弦相似度的值未达到预设的相似度阈值,则将所述第二告警信息存入存储器,设置所述第二告警信息的第二有效时间,并开始计时;
    在所述第二告警信息的第二有效时间内检测到第三告警信息时,计算所述第三告警信息与所述第二告警信息的第二余弦相似度;
    比较所述第二余弦相似度与预设的相似度阈值;
    若计算的所述第二余弦相似度不小于所述预设的相似度阈值,则将所述设备的所述第二告警信息作为收敛因子,将所述设备的所述第三告警信息收敛。
  10. 根据权利要求8所述的计算机可读存储介质,其特征在于,所述在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度,包括:
    将所述第一告警信息进行分词处理,并将所述第一告警信息经分词处理后的词放入第一词集中;
    将所述第二告警信息进行分词处理,并将所述第二告警信息经分词处理后的词放入第二词集中;
    计算所述第一词集中每个词的词频,并根据所述第一词集中的词频,建立第一词频向量;
    计算所述第二词集中每个词的词频,并根据所述第二词集中的词频,建立第二词频向量;
    根据所述第一词频向量与所述第二词频向量计算所述第二告警信息与所述第一告警信息的第一余弦相似度。
  11. 一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
    对系统中设备的运行情况进行监控,检测所述设备的告警信息;
    若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
    基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
    若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
    基于收敛后的告警信息发送告警通知。
  12. 如权利要求11所述的服务器,其特征在于,所述基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,包括:
    若首次采集到所述设备的告警信息,根据所述告警信息发送第一次告警通知;
    若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知;
    若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,直到接收到所述设备发送的异常解决反馈信息时,结束对所述设备的告警信息的收敛。
  13. 如权利要求11所述的服务器,其特征在于,所述若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,包括:
    将检测到的所述设备的第一告警信息存入存储器,设置所述第一告警信息的第一有效时间,并开始计时;
    在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度;
    比较所述第一余弦相似度与预设的相似度阈值;
    若计算的所述第一余弦相似度达到预设的相似度阈值,则将所述设备的所述第一告警信息作为收敛因子,将所述设备的所述第二告警信息收敛。
  14. 根据权利要求13所述的服务器,其特征在于,所述若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛,还包括:
    若计算的所述第一余弦相似度的值未达到预设的相似度阈值,则将所述第二告警信息存入存储器,设置所述第二告警信息的第二有效时间,并开始计时;
    在所述第二告警信息的第二有效时间内检测到第三告警信息时,计算所述第三告警信息与所述第二告警信息的第二余弦相似度;
    比较所述第二余弦相似度与预设的相似度阈值;
    若计算的所述第二余弦相似度不小于所述预设的相似度阈值,则将所述设备的所述第二告警信息作为收敛因子,将所述设备的所述第三告警信息收敛。
  15. 根据权利要求13所述的服务器,其特征在于,,所述在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度,包括:
    将所述第一告警信息进行分词处理,并将所述第一告警信息经分词处理后的词放入第一词集中;
    将所述第二告警信息进行分词处理,并将所述第二告警信息经分词处理后的词放入第二词集中;
    计算所述第一词集中每个词的词频,并根据所述第一词集中的词频,建立第一词频向量;
    计算所述第二词集中每个词的词频,并根据所述第二词集中的词频,建立第二词频向量;
    根据所述第一词频向量与所述第二词频向量计算所述第二告警信息与所述第一告警信息的第一余弦相似度。
  16. 一种系统告警装置,其特征在于,包括:
    信息监控单元,用于对系统中设备的运行情况进行监控,检测所述设备的告警信息;
    第一信息处理单元,用于若所述系统的监控方式为全链路监控,将检测到的所述告警信息存入至告警信息集合;
    第一告警通知单元,用于基于所述告警信息集合,按预设的间隔时间发送告警通知,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中;
    第二信息处理单元,用于若系统中的监控方式为非全链路监控,计算指定时间内检测到的告警信息的相似度,并根据所述相似度对所述告警信息进行收敛;
    第二告警通知单元,用于基于收敛后的告警信息发送告警通知。
  17. 根据权利要求16所述的系统告警装置,其特征在于,所述第一告警通知单元包括:
    第一告警模块,用于若首次采集到所述设备的告警信息,根据所述告警信息发送第一次告警通知;
    第二告警模块,用于若在第一预设时间内没有收到所述设备发送的异常解决反馈信息,发送第二次告警通知;
    收敛触发模块,用于若在第二预设时间内没有收到所述设备发送的异常解决反馈信息,触发收敛操作,按预设等比系数等比递增发送告警通知的间隔时间,并将所述间隔时间内检测到的告警信息收敛至所述告警信息集合中,直到接收到所述设备发送的异常解决反馈信息时,结束对所述设备的告警信息的收敛。
  18. 根据权利要求16所述的系统告警装置,其特征在于,所述第二信息处理单元包括:
    第一时间设置模块,用于将检测到的所述设备的第一告警信息存入存储器,设置所述第一告警信息的第一有效时间,并开始计时;
    第一相似度计算模块,用于在所述第一告警信息的第一有效时间内检测到第二告警信息时,计算所述第二告警信息与所述第一告警信息的第一余弦相似度;
    第一比较模块,用于比较所述第一余弦相似度与预设的相似度阈值;
    第一收敛模块,用于若计算的所述第一余弦相似度达到预设的相似度阈值,则将所述设备的所述第一告警信息作为收敛因子,将所述设备的所述第二告警信息收敛。
  19. 根据权利要求18所述的系统告警装置,其特征在于,所述第二信息处理单元还包括:
    第二时间设置模块,用于若计算的所述第一余弦相似度的值未达到预设的相似度阈值,则将所述第二告警信息存入存储器,设置所述第二告警信息的第二有效时间,并开始计时;
    第二相似度计算模块,用于在所述第二告警信息的第二有效时间内检测到第三告警信息时,计算所述第三告警信息与所述第二告警信息的第二余弦相似度;
    第二比较模块,用于比较所述第二余弦相似度与预设的相似度阈值;
    第二收敛模块,用于若计算的所述第二余弦相似度不小于所述预设的相似度阈值,则将所述设备的所述第二告警信息作为收敛因子,将所述设备的所述第三告警信息收敛。
  20. 根据权利要求18所述的系统告警装置,其特征在于,所述第一相似度计算模块还包括:
    第一分词子模块,用于将所述第一告警信息进行分词处理,并将所述第一告警信息经分词处理后的词放入第一词集中;
    第二分词子模块,用于将所述第二告警信息进行分词处理,并将所述第二告警信息经分词处理后的词放入第二词集中;
    第一向量建立子模块,用于计算所述第一词集中每个词的词频,并根据所述第一词集中的词频,建立第一词频向量;
    第二向量建立子模块,用于计算所述第二词集中每个词的词频,并根据所述第二词集中的词频,建立第二词频向量;
    第一相似度计算子模块,用于根据所述第一词频向量与所述第二词频向量计算所述第二告警信息与所述第一告警信息的第一余弦相似度。
PCT/CN2018/093703 2018-05-22 2018-06-29 一种系统告警方法、存储介质、服务器和装置 WO2019223061A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810495129.2A CN108809757B (zh) 2018-05-22 2018-05-22 一种系统告警方法、存储介质和服务器
CN201810495129.2 2018-05-22

Publications (1)

Publication Number Publication Date
WO2019223061A1 true WO2019223061A1 (zh) 2019-11-28

Family

ID=64092718

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/093703 WO2019223061A1 (zh) 2018-05-22 2018-06-29 一种系统告警方法、存储介质、服务器和装置

Country Status (2)

Country Link
CN (1) CN108809757B (zh)
WO (1) WO2019223061A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871305B (zh) * 2019-01-18 2022-11-04 深圳壹账通智能科技有限公司 告警信息的处理方法、装置、计算机设备及存储介质
CN110166307A (zh) * 2019-07-02 2019-08-23 中国工商银行股份有限公司 对告警信息进行处理的方法和装置
CN110457185B (zh) * 2019-07-25 2024-01-23 北京奇艺世纪科技有限公司 一种异常报警方法、装置及电子设备
CN111061605A (zh) * 2019-10-25 2020-04-24 山东英信计算机技术有限公司 一种告警信息分拣方法及相关装置
CN111163075B (zh) * 2019-12-25 2022-04-12 北京科东电力控制系统有限责任公司 电力监控系统设备性能指标阈值动态调整方法
CN111400435B (zh) * 2020-02-19 2024-04-12 中国平安人寿保险股份有限公司 邮件告警收敛方法、装置、计算机设备及存储介质
CN111970484B (zh) * 2020-07-14 2021-03-23 中通服网盈科技有限公司 适于视频监控设备的运维系统和运维方法
CN112667807A (zh) * 2020-12-02 2021-04-16 深圳奥哲网络科技有限公司 信息分类方法、装置、电子设备及存储介质
CN112416721B (zh) * 2020-12-11 2022-09-20 苏州浪潮智能科技有限公司 一种告警处理方法、系统及介质
CN114157553A (zh) * 2021-12-08 2022-03-08 深圳前海微众银行股份有限公司 一种数据处理方法、装置、设备及存储介质
CN117135034B (zh) * 2023-10-23 2024-01-30 卓望数码技术(深圳)有限公司 一种用于告警智能收敛的规则分析筛选方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856339A (zh) * 2012-12-04 2014-06-11 中国移动通信集团广西有限公司 一种对告警信息进行压缩的方法和设备
US20140258696A1 (en) * 2013-03-05 2014-09-11 Qualcomm Incorporated Strided target address predictor (stap) for indirect branches
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化系统及方法
CN105653430A (zh) * 2016-01-04 2016-06-08 山东超越数控电子有限公司 一种处理服务器管理信息的方法、装置及系统
CN106027306A (zh) * 2016-05-26 2016-10-12 浪潮(北京)电子信息产业有限公司 一种资源监控方法及装置
CN107168847A (zh) * 2017-04-21 2017-09-15 国家电网公司 一种支撑分布式架构的全链路应用监控方法与装置
CN107181604A (zh) * 2016-03-09 2017-09-19 华为技术有限公司 一种告警关联规则的生成方法、告警压缩方法以及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102340422A (zh) * 2011-10-28 2012-02-01 青岛海信传媒网络技术有限公司 告警的处理方法和系统
CN103246723A (zh) * 2013-05-08 2013-08-14 国家电网公司 一种监控器及方法
US9432248B2 (en) * 2013-12-31 2016-08-30 Cisco Technology, Inc. Dynamically computing fate sharing in computer networks using learning machines
CN105550714A (zh) * 2015-12-30 2016-05-04 国家电网公司 一种异构网络环境中告警信息的聚类融合方法
CN107547228B (zh) * 2016-06-29 2021-01-05 南京联成科技发展股份有限公司 一种基于大数据的安全运维管理平台的实现架构
CN107340766B (zh) * 2017-07-10 2019-04-12 浙江大学 基于相似度的电力调度告警信号文本归类及故障诊断方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856339A (zh) * 2012-12-04 2014-06-11 中国移动通信集团广西有限公司 一种对告警信息进行压缩的方法和设备
US20140258696A1 (en) * 2013-03-05 2014-09-11 Qualcomm Incorporated Strided target address predictor (stap) for indirect branches
CN105323111A (zh) * 2015-11-17 2016-02-10 南京南瑞集团公司 一种运维自动化系统及方法
CN105653430A (zh) * 2016-01-04 2016-06-08 山东超越数控电子有限公司 一种处理服务器管理信息的方法、装置及系统
CN107181604A (zh) * 2016-03-09 2017-09-19 华为技术有限公司 一种告警关联规则的生成方法、告警压缩方法以及装置
CN106027306A (zh) * 2016-05-26 2016-10-12 浪潮(北京)电子信息产业有限公司 一种资源监控方法及装置
CN107168847A (zh) * 2017-04-21 2017-09-15 国家电网公司 一种支撑分布式架构的全链路应用监控方法与装置

Also Published As

Publication number Publication date
CN108809757A (zh) 2018-11-13
CN108809757B (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
WO2019223061A1 (zh) 一种系统告警方法、存储介质、服务器和装置
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
US8719410B2 (en) Native bi-directional communication for hardware management
US9239749B2 (en) Network fault detection and reconfiguration
WO2015039598A1 (zh) 故障定位方法及装置
WO2015109443A1 (zh) 网络服务故障处理方法,服务管理系统和系统管理模块
US7069317B1 (en) System and method for providing out-of-band notification of service changes
WO2017080161A1 (zh) 云计算中报警信息的处理方法及装置
US8943191B2 (en) Detection of an unresponsive application in a high availability system
WO2021056912A1 (zh) 一种检测内存降级错误的方法和装置
WO2023092772A1 (zh) 一种虚拟化集群高可用性的实现方法和设备
US20240048468A1 (en) Traffic monitoring method and apparatus for open stack tenant network
WO2018227997A1 (zh) 流量数据自恢复处理方法、可读存储介质、服务器及装置
US8868731B1 (en) Technique for false positives prevention in high availability network
CN109298961A (zh) 多核处理器的故障处理方法、装置及网络设备
WO2021174684A1 (zh) 一种割接信息处理方法、系统及装置
WO2023125702A1 (zh) 换电站的云管理方法、系统、服务器及存储介质
WO2024082471A1 (zh) 节点间链路状态监测方法和装置
WO2015000428A1 (zh) 数据处理的方法、服务器及系统
CN105897492A (zh) 一种云数据中心监控系统
WO2019241199A1 (en) System and method for predictive maintenance of networked devices
TWI698741B (zh) 運用於資料中心的機櫃異常狀態的遠端排除方法
CN113760459A (zh) 虚拟机故障检测方法、存储介质和虚拟化集群
WO2014010021A1 (ja) 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム
JPH07319836A (ja) 障害監視方式

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18920139

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 19/03/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 18920139

Country of ref document: EP

Kind code of ref document: A1