WO2020031846A1 - 保守管理システムおよびデータ処理方法 - Google Patents

保守管理システムおよびデータ処理方法 Download PDF

Info

Publication number
WO2020031846A1
WO2020031846A1 PCT/JP2019/030233 JP2019030233W WO2020031846A1 WO 2020031846 A1 WO2020031846 A1 WO 2020031846A1 JP 2019030233 W JP2019030233 W JP 2019030233W WO 2020031846 A1 WO2020031846 A1 WO 2020031846A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
item
management system
load
processing
Prior art date
Application number
PCT/JP2019/030233
Other languages
English (en)
French (fr)
Inventor
瑞人 中村
修 沖野
登志彦 関
浩之 大柳
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/266,803 priority Critical patent/US11720092B2/en
Publication of WO2020031846A1 publication Critical patent/WO2020031846A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0259Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
    • G05B23/0275Fault isolation and identification, e.g. classify fault; estimate cause or root of failure
    • G05B23/0281Quantitative, e.g. mathematical distance; Clustering; Neural networks; Statistical analysis
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C15/00Arrangements characterised by the use of multiplexing for the transmission of a plurality of signals over a common path
    • G08C15/02Arrangements characterised by the use of multiplexing for the transmission of a plurality of signals over a common path simultaneously, i.e. using frequency division
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/0227Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions
    • G05B23/0232Qualitative history assessment, whereby the type of data acted upon, e.g. waveforms, images or patterns, is not relevant, e.g. rule based assessment; if-then decisions based on qualitative trend analysis, e.g. system evolution
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C15/00Arrangements characterised by the use of multiplexing for the transmission of a plurality of signals over a common path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]

Definitions

  • the present invention relates to a maintenance management system and a data processing method for managing a plurality of management targets that periodically distribute data using telemetry technology.
  • Telemetry which is a push (Push) type data acquisition technique led by a device to be managed, has been attracting attention.
  • Telemetry is a technology for acquiring data of an observation target at a point distant from the observation target and performing various observations. The observation target can transmit data periodically and repeatedly even if there is no external request. it can.
  • a communication carrier or the like manages a large number of business devices existing in a network collectively by a common management system. Therefore, data transmitted from each business device to be managed is periodically input to the management system. If the number of business devices is large, the amount of data received by the management system becomes enormous. In particular, when each business device repeats data transmission in a short time cycle, the amount of data received by the management system may exceed the processing capacity of the management system and may be overloaded.
  • the fault continuation monitoring system disclosed in Patent Literature 1 employs a technology for dynamically controlling the message flow from an agent and performing continuous fault monitoring without affecting other message monitoring operations even during message flushing. Is shown. Specifically, in order to reduce the load on the “fault monitoring manager” corresponding to the management system described above, the “agent” to be monitored stores data for a certain period (see FIG. 1). 3).
  • Non-Patent Document 1 it is possible to group data in flow units under conditions such as header information. As a result, in the push-type data acquisition system, the number of flows can be reduced, and the load on the system can be reduced.
  • Non-Patent Document 1 Although the number of flows can be reduced by grouping, when each device to be managed transmits a plurality of types of data, the types of data in the devices cannot be grouped. For example, in the case of a business device such as a server, it is necessary to individually monitor various types of data such as a CPU (Central Processing Unit) usage rate and a memory usage rate. It is assumed that the length of the time period greatly changes depending on the situation.
  • a CPU Central Processing Unit
  • the power of optical output tends to gradually decrease due to aging of a laser amplifier which is a semiconductor. Therefore, it is necessary to monitor the optical output in order to prevent the occurrence of a failure in such a device.
  • the possibility of “undetectable faults”, that is, “silent faults” is extremely small, so the importance of such data is low and the time period for data acquisition must be extended. There is no problem.
  • the possibility of “silent failure” increases, so the importance is high and the time period for data acquisition needs to be shortened.
  • Non-Patent Document 1 it is not possible to group a plurality of types of data transmitted by the same device, so that the data flow can be reduced only for each device.
  • the flow of multiple types of data with different importance and time period conditions is controlled collectively, so to reduce the load on the management system, thin out important data or monitor in a short time period
  • the acquisition cycle must be increased to the data that needs to be acquired.
  • the present invention has been made in view of the above circumstances, and it is possible to prevent a delay in detection of the possibility of a failure or the like, and when a plurality of devices to be managed transmit a plurality of types of data, It is an object of the present invention to provide a maintenance management system and a data processing method capable of reducing the load on the management side while optimizing in consideration of the importance and characteristics of each data type.
  • a maintenance management system that manages a plurality of business devices each having a function of periodically distributing data using telemetry technology
  • a data processing unit that acquires and processes each of the data that the plurality of business devices periodically distributes, In accordance with the level of the load on the data processing of the data processing unit, comprising a load level management unit that reduces the amount of data processing to reduce the load,
  • the load level management unit when the data distributed by each of the plurality of business devices includes a plurality of items, a process for adjusting the number of data items to be processed by the data processing unit, and each data Perform at least one of the processes for adjusting the time interval for processing the item, It is characterized by the following.
  • the load level management unit executes the processing, so that the data processing amount per unit time that affects the load on the data processing unit can be changed in data item units. Therefore, when the level of the load applied to the data processing of the data processing unit is large, the load can be reduced and the overload can be avoided. Moreover, since the adjustment can be performed in data item units, the load can be reduced in a state where the adjustment is made in accordance with the importance of each data item and the characteristics of the time period.
  • the load level management unit determines a priority for each data item,
  • the data processing unit processes each data item in descending order of priority, and ends the process when the number of processed data items reaches the upper limit. It is characterized by the following.
  • the load level management unit dynamically adjusts a priority of a corresponding data item or a time interval for processing each data item according to a change in necessity of each data item, It is characterized by the following.
  • the data item to be actually processed can be optimized by dynamically reflecting the change in necessity in the priority or the time interval. For example, certain data items that have abnormal values that are out of the normal range are usually low priority data items because they are likely to have a failure or cause a failure. Even so, it is desired to monitor at high frequency. Such a need change can be dynamically reflected in the priority or the time interval.
  • the load level management unit raises the priority of at least the data item in which the abnormal value has occurred, or reduces the time interval for processing the data item in which the abnormal value has occurred, It is characterized by the following.
  • this maintenance management system by raising the priority of a data item in which an abnormal value has occurred, even a data item that normally has a low priority can be preferentially processed. In addition, by reducing the time interval for processing the data item in which the abnormal value has occurred, even a data item having a large time interval can normally be repeatedly processed in a short cycle.
  • the load level management unit is based on a tendency of data in each data item, and feeds back to optimize the data item to be processed by the data processing unit. It is characterized by the following.
  • the result of observing the tendency of data in each data item can be fed back to attributes such as the priority of each data item.
  • the data item to be processed by the data processing unit can be optimized. For example, it is conceivable to lower the priority or change the processing time cycle to a longer state for data items whose numerical values have hardly changed over a certain period of time. This makes it possible to reduce the load on the data processing of the data processing unit without significantly affecting the result of the management state.
  • the load level management unit excludes a data item having low correlation with a predetermined data item having a high relationship with the failure of the business device and / or a data item that does not change over a certain period of time from processing targets. It is characterized by the following.
  • a data item having a low correlation with a data item having a high relationship with the failure of the business device or a data item that does not change for a certain period of time is excluded from the processing target, so that the result of the management state can be reduced.
  • the load on data processing of the data processing unit can be reduced without significantly affecting the data processing.
  • the load level management unit doubles a time interval for processing a data item having a low correlation with a predetermined data item having a high relationship with the failure of the business device and / or a data item that does not change over a certain period of time. To thin out the processing of the data item, It is characterized by the following.
  • the acquisition cycle of the data item having a low priority can be increased, and the load can be efficiently reduced. Further, since the acquisition cycle of a plurality of data items is assigned in multiples of the prescribed cycle, it is possible to suppress the influence of this thinning on the evaluation of the correlation between the plurality of data items.
  • a data processing method for controlling a maintenance management system that manages a plurality of business devices each having a function of periodically distributing data using telemetry technology, Acquiring and processing each of the data that the plurality of business devices periodically distributes, Monitor the level of the load on the data processing of the maintenance management system, A process for adjusting the number of data items to be processed and a process for adjusting a time interval for processing each data item when the data distributed by each of the plurality of business devices includes a plurality of items. Perform at least one of Reducing the amount of data processing according to the level of the load, It is characterized by the following.
  • the data processing amount per unit time which is a load of data processing
  • the load can be reduced and the overload can be avoided.
  • the load can be reduced in a state where the adjustment is made in accordance with the importance of each data item and the characteristics of the time period.
  • the maintenance management system and the data processing method of the present invention it is not necessary for the management target to accumulate data before transmission, so that it is possible to prevent a delay in detection of a possibility of a failure or the like. Further, when a plurality of devices to be managed transmit a plurality of types of data, the load on the management side can be reduced while overloading while reducing the load on the management side while taking into account the importance and characteristics of each type of data. Can be prevented.
  • FIG. 3 is a block diagram illustrating an example of a connection state between a plurality of management targets and a management system according to the embodiment of the present invention. It is a schematic diagram which shows the example of the telemetry transmission data of a management target, and the telemetry reception data of a management system.
  • FIG. 2 is a block diagram illustrating a functional configuration example of a management system. It is a schematic diagram which shows the example of a structure of the acquisition setting file Cf2. It is a schematic diagram which shows the example of a structure of the acquisition setting file Cf2. It is a schematic diagram which shows the example of a structure of a load level management table. It is a flowchart which shows the outline of the data processing in the data receiving part of a management system.
  • FIG. 5 is a flowchart illustrating an outline of a process for controlling a load on a management system.
  • 9 is a flowchart showing details of step S13 in FIG. 9 is a flowchart showing details of step S14 in FIG. 9 is a flowchart showing details of step S17 in FIG.
  • It is a schematic diagram which shows the example of data distribution of a management target. It is a graph which shows the change tendency of the load situation of a management system.
  • FIG. 9 is a state transition diagram illustrating a relationship between a temporal change and a plurality of states in the management target and the management system.
  • FIG. 13 is a sequence diagram illustrating an operation example when controlling data acquisition items according to the load on the management system.
  • FIG. 14 is a sequence diagram illustrating a first half of an operation example in a case where a data distribution interval is controlled according to a load on a management system. It is a sequence diagram which shows the latter half of the operation example in the case of controlling the data distribution interval according to the load of the management system.
  • FIG. 1 shows an example of a connection state between a plurality of management targets and a management system according to the embodiment of the present invention.
  • a plurality of business devices G01 to G07 are connected to the communication network NW.
  • Each of the business devices G01 to G07 is, for example, a server or a transmission device used to provide various communication services, and needs to continuously provide services for 24 hours.
  • Each of the business devices G01 to G07 is a management target of the management system 10.
  • the management system 10 corresponds to the maintenance management system of the present invention.
  • the management system 10 implements the data processing method of the present invention.
  • the management system 10 is a device included in an operation system (OpS) that supports maintenance and operation at a device level of a network device and a service control layer server group constituting a next-generation carrier network, and a network level. It has a function to grasp the situation occurring in the network in real time. That is, it is used to detect the operation status of each of the business devices G01 to G07 and the possibility of occurrence of a failure such as a failure.
  • OpS operation system
  • each of the business devices G01 to G07 has a telemetry data distribution function. That is, each of the business devices G01 to G07 can distribute data at a predetermined time period.
  • the management system 10 can receive and acquire data distributed by each of the business devices G01 to G07 via the telemetry communication path 22. Further, the management system 10 can set the data distribution frequency in each of the business devices G01 to G07.
  • the business devices G01 to G07 do not need to interpret a request from the management system 10 or return a response, so the communication load on the business devices G01 to G07 is small. Therefore, the business devices G01 to G07 can deliver data with high real-time properties.
  • the management system 10 acquires the data distributed by the business devices G01 to G07 and registers the result of the data processing in the telemetry database DB1. Therefore, each device that can access the telemetry database DB1 can grasp the state of the communication network NW including each of the business devices G01 to G07 in real time based on the data registered in the telemetry database DB1.
  • An administrator or the like managing the communication network NW can connect to the management system 10 using the administrator terminal 21.
  • the administrator gives an instruction to the management system 10 by an input operation from the administrator terminal 21 to determine the initial state regarding the data distribution frequency of each of the business devices G01 to G07, and change the settings as necessary. be able to.
  • each of the business devices G01 to G07 periodically distributes various data. Further, the number of business devices G01 to G07 connected to the communication network NW may increase. If the data distribution cycle of the business devices G01 to G07 is shortened in order to improve the real-time property of the data acquired by the management system 10, the amount of data received by the management system 10 becomes enormous, and the load increase state and the free space decrease. State.
  • the data acquisition amount DT per time received by the management system 10 is calculated by the following equation.
  • DT Ng ⁇ Np ⁇ Ni ⁇ Ns
  • Ng Number of business devices to be managed
  • Np Number of ports used for communication
  • Ni Number of monitoring items
  • Ns Data size [bit]
  • the management system 10 of the present embodiment has a special function for preventing such an increased load state and a reduced free space state.
  • FIG. 2 shows an example of telemetry transmission data to be managed and telemetry reception data of the management system.
  • telemetry transmission data D01 distributed by the business device G01 includes data of various items of different types.
  • the telemetry transmission data D02 distributed by the business device G02 also includes data of various items of different types.
  • the telemetry reception data Dx received by the management system 10 from the business devices G01 to G07 also includes data of various items of different types.
  • the management system 10 when the load on the management system 10 increases and approaches a state where processing cannot be performed, the management system 10 needs to reduce the data processing amount.
  • the management system 10 selectively reduces data from the telemetry reception data Dx in units of the business devices G01 to G07, or reduces data of an arbitrary item that cannot be processed. Will be.
  • the data processing amount can be reduced in consideration of the priority of data for each item, and the load on the management system 10 can be adjusted.
  • FIG. 3 shows a functional configuration example of the management system 10.
  • the business device Gx shown in FIG. 3 corresponds to each of the business devices G01 to G07 in FIG. That is, a plurality of business devices Gx are actually connected to the management system 10.
  • the management system 10 includes a data reception unit 11, an acquisition setting file management unit 12, a data trend measurement unit 13, a determination unit 14, an OpS load level management unit 15, and an abnormality detection unit 16.
  • the acquisition setting file management unit 12 includes a priority management unit 12a, a data acquisition interval management unit 12b, an acquisition setting unit 12c, and a weight setting table management unit 12d.
  • the entity of the management system 10 is composed of computer hardware, basic software (operating system), and dedicated application software, like a general server.
  • the management system 10 can be configured as a virtualized system.
  • each element constituting the management system 10 may be arranged on the same server, or may be arranged on independent servers.
  • the data receiving unit 11 receives data distributed by each business device Gx via the telemetry communication path 22a, performs predetermined data processing, and registers the processing result data in the telemetry database DB1. Unprocessed data among the data received by the data receiving unit 11 from the business device Gx is temporarily stored in the buffer 11a.
  • the distribution frequency of the data distributed by the business device Gx via the telemetry communication path 22a that is, the distribution condition such as the length of the time period for repeating the distribution is determined by the data held in the acquisition setting file Cf1 readable by the business device Gx. Stipulated.
  • the condition for data processing of the content received by the data receiving unit 11 in the management system 10 is defined by data stored in the acquisition setting file Cf2 readable by the data receiving unit 11.
  • the acquisition setting file management unit 12 manages the contents of the acquisition setting files Cf1 and Cf2.
  • the priority management unit 12a in the acquisition setting file management unit 12 manages the priority of data items in the content of the acquisition setting file Cf2 when the data receiving unit 11 performs data processing.
  • the data acquisition interval management unit 12b manages, in the content of the acquisition setting file Cf1, data that specifies, for each data item, an interval when the business device Gx distributes data, that is, a time period for repeating the distribution. .
  • the acquisition setting unit 12c determines initial values of the contents of the acquisition setting files Cf1 and Cf2 and changes the contents of the acquisition setting files Cf1 and Cf2 as necessary according to the input of the administrator who operates the administrator terminal 21. And perform processing for updating.
  • the management system 10 gives an instruction to the business device Gx via the control communication path 18.
  • the weight setting table management unit 12d manages a table prepared for individually adjusting the weight of each data item when the data receiving unit 11 performs data processing in the contents of the acquisition setting file Cf2.
  • the data trend measuring unit 13 performs a measurement for observing, for each data item, an absolute value and a trend of a time-series change of the data received by the data receiving unit 11 from the business device Gx or the data registered in the telemetry database DB1. carry out.
  • the determination unit 14 feeds back the trend of each data item measured by the data trend measurement unit 13 to the control of the acquisition setting file management unit 12, and makes a determination for optimizing the control of the management system 10.
  • the determination unit 14 makes a determination using artificial intelligence (AI) or a rule base. For example, various rules known from past data trends and correlations between multiple data items and correlations between specific data items and some failures are newly discovered by real-time data observation. To make a comprehensive judgment.
  • AI artificial intelligence
  • rule base For example, various rules known from past data trends and correlations between multiple data items and correlations between specific data items and some failures are newly discovered by real-time data observation. To make a comprehensive judgment.
  • the OpS load level management unit 15 manages the load level of data processing in the data reception unit 11 of the management system 10.
  • the OpS load level management unit 15 performs data processing based on, for example, the latest values such as the CPU usage rate, the memory usage rate, and the usage rate of the storage device that holds the telemetry database DB1 in the data receiving unit 11 and the tendency of change. Manages load levels.
  • the OpS load level management unit 15 instructs the acquisition setting file management unit 12 to optimize the load before all the data cannot be processed.
  • the abnormality detection unit 16 detects whether each data item received by the data reception unit 11 from each business device Gx for each item or each data generated on the business device Gx side is an abnormal value. That is, when data having an abnormal value different from the normal value appears, the abnormality detecting unit 16 detects the abnormality and gives an instruction to the weight setting table management unit 12d. According to this instruction, the weighting of the data processed by the data receiving unit 11 for each data item is changed.
  • the business device Gx when the business device Gx is an optical transmission device, the business device Gx also distributes a value of a data item indicating an optical output of the laser amplifier in the business device Gx.
  • a value of the optical output tends to gradually decrease due to the deterioration of the semiconductor, but this fluctuation period is very long. That is, in a normal state, the fluctuation of the light output value is very small. Therefore, normally, it is not necessary to frequently monitor the value of the light output, and the importance of the monitoring is relatively low, so that the data of the corresponding item can be thinned out.
  • the abnormality detecting unit 16 detects the sudden change and outputs an alarm.
  • the weight setting table management unit 12d increases the weight of the corresponding data item in order to reflect that the importance of the corresponding data item has increased due to the alarm of the abnormality detection unit 16. The result is reflected in at least one of the acquisition setting files Cf1 and Cf2.
  • Example of configuration of acquisition setting file Cf2> 4 and 5 show configuration examples of the acquisition setting file Cf2.
  • the acquisition setting file Cf2 shown in FIGS. 4 and 5 includes a priority column Cf2a, an item column Cf2b, and a weight column Cf2c.
  • the data distributed by each business device Gx includes “memory usage rate (memory)”, “CPU usage rate (CPU)”, “system log (Syslog)”,. ⁇ ⁇ It is assumed that each data item is included.
  • Each number in the priority column Cf2a means that the priority of data processing is higher in the order of “1”, “2”, “3”,.
  • the item column Cf2b indicates the arrangement order of the data items associated with the respective priorities. That is, in the example of FIG. 4, the item of “memory usage rate” with the priority “1” is processed with the highest priority, and the item of “CPU usage rate” with the priority “2” is processed with the second priority. This means that items of the “system log” having the priority “3” are processed in the third priority order.
  • the abnormality detection unit 16 issues a warning. Then, the weight setting table management unit 12d changes the weight of the item “CPU usage rate” in the acquisition setting file Cf2 in FIG. 4 from “1” to “2”.
  • the priority management unit 12a changes the priority of the item of “CPU utilization” so as to reflect the change in the weight of the item.
  • the contents of the acquisition setting file Cf2 are changed as shown in FIG. That is, in the example of FIG. 4, the priority of the item of “CPU usage” is lower than the item of “memory usage”, but in the example of FIG. 5, the weight of “CPU usage” is higher than the normal “1”.
  • the priority of the item of “CPU usage rate” is changed to the highest order to reflect the large size, and the arrangement of the items is changed.
  • FIG. 6 shows a configuration example of the load level management table 15a managed by the OpS load level management unit 15.
  • the load level management table 15a shown in FIG. 6 holds data indicating the relationship among “load level (level)”, “CPU usage rate”, and “processable item total”.
  • the “CPU usage rate” in the load level management table 15a indicates a usage rate of a CPU prepared for the data receiving unit 11 illustrated in FIG. 3 to perform data processing.
  • “2” of “load level” corresponds to “CPU usage rate” of “51 to 70%”, and the upper limit is limited to “15” depending on the content of the total item that can be processed.
  • “3” of “load level” corresponds to “CPU usage rate” of “71 to 90%”, and the upper limit is limited to “10” depending on the content of the total item that can be processed.
  • the “load level” of “4" corresponds to the "CPU usage rate” of "91 to 100%”, and the upper limit is limited to "5" depending on the content of the total item that can be processed. Note that numerical values below the decimal point of the “CPU usage rate” are rounded down or rounded up.
  • KPI Key Performance Indicators
  • FIG. 7 shows an outline of data processing in the data receiving unit 11 of the management system 10. That is, the CPU assigned to execute the data processing in the data receiving unit 11 executes the processing of FIG.
  • FIG. 7 shows a case where only the received data distributed from one business device Gx is processed, a plurality of business devices G01 to G07 actually distribute the data as shown in FIG.
  • the management system 10 receives and processes the data almost simultaneously. The processing of FIG. 7 will be described below.
  • the data receiving unit 11 reads the acquisition setting file Cf2 in step S01, and grasps the setting contents.
  • the data receiving unit 11 includes, for example, a plurality of data items to be processed, priority items assigned to each data item, and items related to the data processing object, such as the acquisition setting file Cf2 shown in FIGS. Understand the acquisition conditions for each.
  • step S02 the data receiving unit 11 receives data distributed by the business devices Gx via the telemetry communication path 22 for each item.
  • the content of each item received by the data receiving unit 11 is temporarily held in the buffer 11a until the data receiving unit 11 performs data processing.
  • step S03 the data receiving unit 11 sequentially selects items of the received data in the acquisition setting file Cf2 in descending order of priority, and sequentially performs data processing on the data of each item.
  • the processed data is registered in the telemetry database DB1.
  • the data receiving unit 11 reads “memory usage rate”, “CPU usage rate”, “system log”,. ⁇ Data processing of each item of.
  • step S04 the data receiving unit 11 grasps the number Nt of data items processed this time in the data of the business device Gx having the same transmission source.
  • the data item of the priority “1”, the data item of the priority “2”, and the data item of the priority “3” are processed in accordance with the priority order of the priority column Cf2a.
  • Nt is the same as the priority of the last processed data item.
  • the data receiving unit 11 acquires the latest item number limit value Ntmax in step S05.
  • This item number limit value Ntmax corresponds to the value of “processable item total” in the load level management table 15a shown in FIG. 6, and different values are used for load levels 1 to 4, respectively. For example, if the latest load level of the data receiving unit 11 is “1”, the item number limit value Ntmax is unlimited, and if the load level is “2”, the item number limit value Ntmax becomes “15”. . Similarly, when the load level is “3”, the item number limit value Ntmax is “10”, and when the load level is “4”, the item number limit value Ntmax is “5”.
  • the data receiving unit 11 compares the number of data items Nt with the item number limit Ntmax in the next step S06, and proceeds to step S07 when the number of data items Nt exceeds the item number limit Ntmax. If the data item number Nt is less than the item number limit value Ntmax, the data receiving unit 11 returns to step S03 and repeats the same processing as described above.
  • step S07 the data receiving unit 11 ends the current data processing on the received data of the business device Gx having the same transmission source, and returns to the position of the first data item. Therefore, the remaining unprocessed data items whose priority is equal to or greater than the item number limit value Ntmax are excluded from the current data processing and are discarded from the buffer 11a because they are unnecessary.
  • the data receiving unit 11 identifies the presence or absence of a setting change in step S08, and if there is a change, proceeds to the next step S09 and reads the updated acquisition setting file Cf2. For example, when the administrator instructs the update of the acquisition setting file Cf2 from the administrator terminal 21 or when the acquisition setting file Cf2 is updated by the feedback control of the determination unit 14, the updated acquisition setting file Cf2 is updated. Are reflected in the processing of the data receiving unit 11 in step S09.
  • weighting is performed based on the fluctuation tendency, and the priority of processing is dynamically determined according to the situation. Is varied.
  • the weighting may be controlled so that the result of the trend observation of the data is fed back.
  • an estimated value is calculated using an approximation curve based on the tendency of the time series change with respect to the same data item, and data is complemented.
  • FIG. 8 shows an outline of a process for controlling the load of the management system 10. The order and timing of executing each process shown in FIG. 8 can be changed as necessary.
  • step S11 the acquisition setting unit 12c of the management system 10 sets the priorities and the like for each of the data acquisition items set in advance to initial values according to the input operation of the user, that is, the administrator on the administrator terminal 21, and further sets the user input. Also accept.
  • the initial value or the input value determined here is reflected on the contents of each of the acquisition setting files Cf1 and Cf2 by the acquisition setting unit 12c.
  • the acquisition setting unit 12c accepts this input in step S12 and sets the priority for each item. Change etc.
  • step S13 the priority management unit 12a executes a "priority monitoring process” and dynamically changes the priority assignment for each data item. Details of this processing will be described later.
  • step S ⁇ b> 14 the OpS load level management unit 15 executes “load level monitoring processing” to grasp the load level related to the data processing of the data receiving unit 11 and its dynamic fluctuation. Details of this processing will be described later.
  • step S15 the weight setting table management unit 12d identifies whether or not the abnormality detection unit 16 has output an alarm upon detection of an abnormal value.
  • the weight setting table management unit 12d executes the next step S16.
  • step S16 the weight setting table management unit 12d automatically adjusts the weight for the data item for which the abnormality detection unit 16 has detected an abnormal value. For example, when the content of the acquisition setting file Cf2 is in the state shown in FIG. 4 and the “CPU usage” changes to an abnormal value, the weight for the item “CPU usage” is changed from “1” to “2”. Change to As a result, as shown in FIG. 5, the priority of the “CPU usage rate” increases. Although not shown in FIG. 8, when the data value of the item in which the abnormal value is detected is returned to the normal range, the weight setting table management unit 12d sets the weight of the corresponding item to the normal value. To the value of “1”.
  • step S17 the data acquisition interval management unit 12b executes the “adjustment of data acquisition interval” process to update the contents of the acquisition setting file Cf1. Details of this processing will be described later.
  • step S18 the data trend measurement unit 13 measures the change tendency of each data item of the data received by the data reception unit 11 or the data registered in the telemetry database DB1.
  • step S19 the determination unit 14 analyzes the measurement result of the data trend measurement unit 13 using artificial intelligence or a rule base, and determines the correlation between a plurality of data items and the failure of each data item and each business device Gx. Judgment is made on the correlation of The result of the determination is fed back to the acquisition setting file management unit 12. With this feedback, the acquisition setting file management unit 12 dynamically adjusts the priority of data for each item, the data acquisition interval for each item, the weight for each item, and the like.
  • FIG. 9 shows the details of step S13 in FIG. The processing of FIG. 9 will be described below.
  • the data receiving unit 11 of the management system 10 periodically and repeatedly executes the process of step S21. That is, the data receiving unit 11 receives data periodically distributed by the plurality of business devices Gx to be managed for each business device Gx.
  • the data received by the data receiving unit 11 in one process includes data of a plurality of items, for example, the telemetry transmission data D01 shown in FIG.
  • the priority management unit 12a of the management system 10 monitors the output of the determination unit 14 and the user input from the administrator terminal 21 in step S22 to identify the presence or absence of a priority change request for each data item. If there is a request to change the priority, the priority management unit 12a proceeds to the next step S23, and changes the priority order of each item in the acquisition setting file Cf2.
  • the priority management unit 12a changes the order of the items to “CPU usage”, “memory usage”, and “system log” as in the acquisition setting file Cf2 shown in FIG. change.
  • FIG. 10 shows the details of step S14 in FIG. The processing of FIG. 10 will be described below.
  • the data receiving unit 11 of the management system 10 periodically and repeatedly executes the processing in step S31 in FIG. To receive.
  • the OpS load level management unit 15 of the management system 10 constantly monitors the magnitude and fluctuation of the load affecting the data processing of the data reception unit 11. Then, in step S32, it is determined whether or not the load of the data receiving unit 11 has changed abruptly and whether or not the magnitude of the load has exceeded a threshold value. If this condition is satisfied, the process proceeds to the next step S33.
  • step S33 the OpS load level management unit 15 changes the number of processable items in the data reception unit 11.
  • the number of items that can be processed corresponds to the “total number of items that can be processed” in the load level management table 15a shown in FIG. 6, and the item number limit Ntmax in steps S05 and S06 shown in FIG.
  • the load level detected by the OpS load level management unit 15 has changed from “2” to “3”
  • the “loadable item total” of “3” in the load level management table 15a is read from the load level management table 15a. 10 ”is acquired, and the item number limit value Ntmax is changed to“ 10 ”.
  • the number of data items per data processing performed by the data receiving unit 11 in steps S03 to S06 in FIG. 7 is limited to “10”.
  • FIG. 11 shows the details of step S17 in FIG. The processing of FIG. 11 will be described below.
  • the data receiving unit 11 of the management system 10 periodically and repeatedly executes the process of step S41 of FIG. To receive.
  • the determination unit 14 of the management system 10 determines the change tendency of the data of each item received by the data reception unit 11 based on the output of the data trend measurement unit 13 and determines whether the change of the value of each item data is within a threshold. Are identified in step S42. If the variation is within the threshold, the process proceeds to step S43, and if the variation exceeds the threshold, the process proceeds to step S48.
  • the determining unit 14 includes a table for controlling the contents of the acquisition setting file Cf1 of each business device Gx. This table holds a list of a plurality of data items distributed by the business device Gx via the telemetry communication path 22, information on the weight of each data item, and information indicating the "interval" of the transmission time for each data item.
  • the judgment unit 14 refers to the weight of the corresponding item in the table, and compares this weight with “1” in step S43. When the weight is equal to “1”, the process proceeds to step S44, and when the weight is other than “1”, the process proceeds to step S49.
  • the judgment unit 14 manages a counter prepared individually for each data item. In addition, the determination unit 14 increments (+1) the value of the counter of the corresponding item in step S44, and determines the result in step S45. If the value of the corresponding counter is "10" or "20”, the process proceeds to step S46. If the value of the corresponding counter is "30”, the process proceeds to step S47. Return.
  • step S46 the judgment unit 14 changes the “interval” assigned to the data of the corresponding item on the table to twice the previous value. Note that in the initial state, the value of the “interval” is assigned a value that is one times the standard value. When the counter reaches "10", the “interval” is changed to twice the standard value in step S46. Further, when the above-mentioned counter becomes "20”, step S46 is executed again, so that "interval” is changed to a value four times the standard value.
  • the determination unit 14 deletes the corresponding item from the list of data items in the table in step S47. At this time, the determination unit 14 clears the value of the counter to “0”.
  • step S48 the judgment unit 14 compares the “interval” of the corresponding item on the table with one time of its standard value. Then, if the "interval” is not one time of the standard value, the process proceeds to the next step S49, and if the "interval" matches one time of the standard value, the process returns to the step S41.
  • step S49 the determination unit 14 resets the “interval” of the corresponding item in the table to one time of its standard value.
  • the contents of the table managed by the determination unit 14 are reflected in the contents of the acquisition setting file Cf1 of each business device Gx by, for example, a process periodically executed by the data acquisition interval management unit 12b.
  • each business device Gx can change the data items to be distributed on the telemetry communication path 22 and the distribution intervals for each item according to the contents of the acquisition setting file Cf1.
  • the distribution interval of the data item having a small value change is changed to twice or four times the standard value in step S46 as time passes.
  • the distribution interval is returned to 1 times the standard value in step S49. If the time during which the value change is small becomes longer, the item is deleted in step S47. Then, the business device Gx excludes the deleted corresponding item from the next distribution target.
  • 12A and 12B show examples of the relationship between the data distribution of the management target and the load characteristics of the management system.
  • the load increase states Loa and Lob can be detected by comparing the absolute values of the CPU usage rate L10a and the memory usage rate L10b and the amount of change within a certain period of time with a predetermined threshold.
  • the OpS load level management unit 15 detects a load increase state Loa, Lob as shown in FIG. 12B, for example, the process proceeds from step S32 to S33 shown in FIG. 10, so that the number of processable items in the acquisition setting file Cf2, that is, The number-of-items limit value Ntmax in FIG. 7 can be reduced.
  • the number of processable items in the acquisition setting file Cf2 that is, The number-of-items limit value Ntmax in FIG. 7 can be reduced.
  • FIG. 13 shows an example of a relationship between a change with time and a plurality of states in the management target and the management system.
  • prior setting is performed as step S101 by a user input from the administrator terminal 21.
  • the initial states of the acquisition setting files Cf1 and Cf2 are determined.
  • the business device Gx also stores the data of “item A”, “item B”, “item C”, “item D”, “item E”,. Distribute all at once. However, in the state Ct2, it is assumed that the load of the management system 10 has increased, so that the load can be reduced according to the load level detected by the OpS load level management unit 15.
  • the data receiving unit 11 processes only the high-priority “item A” and “item B”, and outputs the low-priority “item C”, “item D”, and “item E”. ,... Are excluded from data processing.
  • the load of the data processing of the CPU in the data receiving unit 11 is reduced, so that the state of the CPU is stabilized in the state Ctx with time. Therefore, the load level detected by the OpS load level management unit 15 decreases, and the “processable item total” can be increased. Therefore, in the state Ctx of FIG. 13, the data receiving unit 11 can perform data processing on all of “item A”, “item B”, “item C”, “item D”, and “item E”.
  • the administrator who operates the administrator terminal 21 observes the operation status of the management system 10, performs input for changing the acquisition setting files Cf1 and Cf2 as necessary in step S102, and manually feeds back the current status. can do. For example, in the state Ctz in FIG. 13, it is assumed that the administrator has performed an operation for deleting “item E” having a low priority from data processing targets.
  • the data trend measuring unit 13 of the management system 10 determines the “item A”, “item B”, “item C”, “item D”, “item E”,.
  • the observation data Dz can be generated by monitoring the time-series change of the data.
  • the determination unit 14 observes the tendency of each item from the content of the observation data Dz generated by the data trend measurement unit 13, applies artificial intelligence or rule-based processing, and performs automatic feedback control in step S103. Can be.
  • observation data Dz observed by the determination unit 14 various information such as the power supply voltage of the CPU and the temperature of the CPU in the management system 10 can be used in addition to the traffic information of the data distributed by the business device Gx. is assumed.
  • the determination unit 14 When the determination unit 14 employs artificial intelligence, while learning the relationship between the grasped past failure pattern and the observation data Dz, etc., the judgment unit 14 estimates the possibility of a failure that will occur in the future. And feed back the results.
  • the determination unit 14 employs a rule base, it is based on a rule defining the correlation between a plurality of data items known from current knowledge and the correlation between each data item and various failure factors. Then, the tendency of the observation data Dz is determined, and the result is fed back. For example, there is a large correlation between the temperature rise in the management system 10 and its CPU usage rate, and further, there is a correlation between the CPU usage rate and the device failure. Such a relationship is defined in a rule base or the like.
  • the time interval of distribution by the business device Gx is reflected in the content of the acquisition setting file Cf1 so that the thinning is performed by doubling the time interval.
  • values estimated using an approximate curve from the tendency of the change are complemented.
  • a pattern such as an acquisition interval and a priority for each data item optimized for each device type of the business device Gx is detected and held using the artificial intelligence of the determination unit 14 or a rule base, and this pattern is stored.
  • the recommended contents may be displayed on the screen of the administrator terminal 21.
  • the user input in step S102 can be supported.
  • FIG. 7 when processing the data received by the data receiving unit 11 in step S03, it is assumed that each data item is selected and processed in descending order of priority. However, when the item data is input in a state in which the items are arranged in descending order of priority in advance, data processing may be simply performed for the number of items that match the item number limit value Ntmax.
  • each business device Gx can sequentially distribute the data items in a state where the data items are arranged in order from the data item with the highest priority.
  • the data receiving unit 11 can process each data item in the same order as received in step S03 of FIG.
  • FIG. 14 shows an operation example when the management system 10 controls data acquisition items according to the load. The operation sequence shown in FIG. 14 will be described below.
  • the acquisition setting unit 12c of the management system 10 performs data distribution setting for the business device Gx to be monitored in step SE01. The result is reflected in the contents of the acquisition setting file Cf1 shown in FIG.
  • step SE02 the OpS load level management unit 15 of the management system 10 sets the steady-state load level in the management system 10 to the business device Gx.
  • the content is reflected on the content of the acquisition setting file Cf1.
  • a steady-state distribution cycle when the business device Gx distributes data through the telemetry communication path 22, that is, when data is distributed in step SE03, is determined. That is, the business device Gx periodically performs data distribution.
  • the data receiving unit 11 of the management system 10 receives the data distributed from the business device Gx, performs data processing for each item in step SE04, and registers the result in the telemetry database DB1.
  • Step SE05 when the load applied to the data processing of the data receiving unit 11 increases in Step SE05 compared with the normal state, the OpS load level management unit 15 considers the changed load level and performs the acquisition item priority determination in Step SE06. That is, since the "processable item total" of the load level management table 15a shown in FIG. 6 is restricted according to the load level, the item number limit value Ntmax in FIG. 7 decreases.
  • step SE07 when the data receiving unit 11 performs data processing on the data distributed to the management system 10 in step SE07 in step SE08, only the items having a higher priority are set according to the contents of the acquisition setting file Cf2 and the item number limit value Ntmax. Is processed, and the data of the remaining items with low priority are thinned out.
  • step SE09 when the situation where the load on the management system 10 is high is eliminated in step SE09, the OpS load level management unit 15 again performs the acquisition item priority determination in step SE10 in consideration of the latest load level. That is, the restriction on the “processable item total” in the load level management table 15a is relaxed as the load level decreases, so that the item number restriction value Ntmax in FIG. 7 increases.
  • the data receiving unit 11 performs data processing on the data distributed in step SE11 in step SE12, data of items having relatively low priority is also processed, and more data items are stored in the telemetry database DB1. Registered in.
  • FIGS. 15 and 16 show an operation example when the management system 10 controls the data distribution interval according to the load.
  • the first and second halves of the operation sequence are shown in FIGS. 15 and 16, respectively.
  • the operation sequence shown in FIGS. 15 and 16 will be described below. Note that the procedures SE21 to SE24 shown in FIG. 15 are the same as the procedures SE01 to SE04 in FIG. 14, and thus description thereof will be omitted.
  • step SE25 of FIG. 15 the data trend measurement unit 13 of the management system 10 observes the data tendency of each item based on the contents registered in the telemetry database DB1.
  • the determination unit 14 uses the result observed by the data tendency measurement unit 13, the determination unit 14 makes a determination in step SE26, and executes the processing illustrated in FIG. Therefore, for example, when a data item whose value hardly changes for a long time is found, the determination unit 14 sends an acquisition interval change notification to the data acquisition interval management unit 12b in step SE27.
  • the acquisition setting file management unit 12 performs change setting for the acquisition setting file Cf1 of the business device Gx in step SE28.
  • the distribution target items when the business device Gx distributes data are partially deleted, or the data distribution interval for each item is changed.
  • the result is reflected in the data distribution in step SE29.
  • the data receiving unit 11 of the management system 10 processes the data of each item distributed in step SE29 in step SE30 and registers the result in the telemetry database DB1. In this case, since the number of data items received by the data receiving unit 11 and the reception interval in the step SE29 have been changed, the magnitude of the load when the data receiving unit 11 executes the data processing in the step SE30 is determined in the step SE28. Is reduced compared to before the execution.
  • step SE31 when the business device Gx detects in step SE31 that the CPU usage rate of the business device itself has increased, the business device Gx itself performs special control. That is, for each item to be distributed by the acquisition setting file Cf1, the data items to be distributed in step SE32 are reduced in consideration of the weight of each item and the load level. For example, only data of some items having relatively large weights are distributed in step SE32.
  • the determining unit 14 monitors and determines the item received by the data receiving unit 11 in step SE32 in step SE33, and sends a thinning reset notification to the data acquisition interval managing unit 12b in step SE34.
  • the acquisition setting file management unit 12 sets the acquisition setting file Cf1 so as to change the data distribution interval for each item in step SE35.
  • the management system 10 can dynamically change the data acquisition interval and the processing priority of each item by reflecting the weight according to the necessity of each data item in the control. Therefore, even when the operation status of the business device Gx or the management system 10 changes, the load can be efficiently reduced without causing loss of important data.
  • the determination unit 14 can observe the tendency of the observation data Dz as shown in FIG. Therefore, the data items processed by the management system 10 can be optimized for various changes in the situation.
  • the management system 10 changes the interval at which the data of each item is distributed according to a multiple of the reference cycle by the processing shown in FIG. 11, so that the effect of the thinning of the data on the correlation between the plurality of data items is suppressed. it can.
  • Management system (maintenance management system) 11 Data receiving unit (data processing unit) 11a buffer 12 acquisition setting file management unit 12a priority management unit 12b data acquisition interval management unit 12c acquisition setting unit 12d weight setting table management unit 13 data trend measurement unit 14 judgment unit 15 OpS load level management unit (load level management unit) 15a Load level management table 16 Abnormality detector 18 Control communication path 21 Administrator terminal 22, 22a Telemetry communication path Cf1, Cf2 Acquisition setting file Cf2a Priority field Cf2b Item field Cf2c Weight field Ct1, Ct2, Ctx, Cty, Ctz State D01, D02 Telemetry transmission data Dx Telemetry reception data Dz Observation data DB1 Telemetry database Gx, G01, G02, G03, G04, G05, G06, G07 Business device L10a CPU usage L10b Memory usage Loa, Lob Load increasing state NW communication network Nt data item number Ntmax item number limit value

Landscapes

  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)

Abstract

障害等の検出遅延を防止するとともに、管理対象装置から大量のデータが送信される場合に、データの種類毎の重要度や特性を考慮して適正化しつつ、管理側における負荷を削減する。管理システム10がデータ項目毎に定めた優先度や重みに従い、優先度の高い項目を先に処理して優先度の低い項目は間引き可能にして負荷を軽減する。負荷レベルに応じて1回で処理するデータ項目数を制限し間引きする。項目毎のデータの重要性およびその変化を反映して、項目毎のデータの取得間隔や優先度を動的に変更する。テレメトリにより配信されたデータ等の傾向を観察し、AIやルールベースを用いた制御により負荷の制御にフィードバックする。データ項目毎の配信間隔を変更する場合は、基本周期の倍数で変更し、項目間の相関性への影響を抑制する。

Description

保守管理システムおよびデータ処理方法
 本発明は、テレメトリ技術を利用してデータを定期的に配信する複数の管理対象を管理する保守管理システムおよびデータ処理方法に関する。
 例えば、様々な通信サービスを提供するネットワーク内においては、絶え間なくサービスの提供を継続することが求められる。したがって、それぞれのサービスを提供するサーバ等の業務装置については、故障や性能の劣化などが発生しないように常時監視しておく必要がある。
 そのため、通信事業者等においては、ネットワーク内で起きている状況のリアルタイム把握が必要とされる。このような状況のリアルタイム把握に関しては、管理される側の装置主導のプッシュ(Push)型のデータ取得技術であるテレメトリが注目されている。テレメトリは、観測対象から離れた地点で観測対象のデータを取得して様々な観測を行うための技術であり、観測対象は外部からの要求がなくても定期的に繰り返しデータを送信することができる。
 一方、通信事業者等においては、ネットワーク内に存在する多数の業務装置を共通の管理システムで一括して管理することが想定される。したがって、管理対象のそれぞれの業務装置から送信されるデータが管理システムに定期的に入力されることになり、業務装置の数が多いと、管理システムが受け取るデータ量も膨大になる。特に、各業務装置が短い時間周期でデータ送信を繰り返す場合には、管理システムが受け取るデータ量が管理システムの処理能力を超えて過負荷状態になってしまう可能性がある。
 例えば、特許文献1の障害継続監視システムは、メッセージフラッシュ時でも、エージェントからのメッセージ流量を動的に制御し他のメッセージの監視業務に影響を与えずに継続した障害監視を行うための技術を示している。具体的には、上記の管理システムに相当する「障害監視マネージャ」の負荷を軽減するために、監視対象である「エージェント」側で一定期間データをためることを示している(特許文献1の図3参照)。
 一方、非特許文献1に示されている「NetFlow」の仕様では、フロー単位のデータを、ヘッダ情報などの条件でグルーピングすることが可能である。これにより、プッシュ型のデータ取得システムにおいて、フロー数を削減し、システムの負荷を軽減することが可能である。
特開2011-211555号公報
"フロー集約統計(NetFlow Version8)"、インターネット<URL:https://www.alaxala.com/jp/techinfo/archive/manual/AX5400S/HTML/10_10/_/APGUIDE2/0164.HTM>
 しかしながら、特許文献1の技術では監視対象の各装置がデータをためる必要があるため、データを送信するタイミングが遅延することになり、管理システムが取得するデータのリアルタイム性が犠牲になる。
 また、非特許文献1の技術では、グルーピングによりフロー数を削減できるが、管理対象のそれぞれの装置が複数種類のデータを送信する場合に、装置内のデータの種類をグルーピングすることはできない。例えば、サーバのような業務装置の場合には、CPU(Central Processing Unit)使用率、メモリ使用率など様々な種類のデータを個別に監視する必要があるが、各データの重要度や監視すべき時間周期の長さについては状況に応じて大きく変化することが想定される。
 例えば、光伝送装置の場合には、半導体であるレーザ増幅器の経年劣化によって徐々に光出力のパワーが低下する傾向がある。したがって、このような装置の故障発生を未然に防止するためには、光出力を監視する必要がある。しかし、光出力が十分に大きい状況では「検知できない障害」、すなわち「サイレント障害」が発生する可能性は非常に小さいので、このようなデータの重要度は低く、データ取得の時間周期を長くしても問題はない。しかし、光出力が一定値を下回った場合は、「サイレント障害」が発生する可能性が高くなるので、重要度は高く、データ取得の時間周期を短くする必要がある。
 非特許文献1の技術では、同じ装置が送信する複数データの種類をグルーピングすることはできないので、装置単位でしかデータフローを削減できない。つまり、重要度や時間周期の条件が異なる複数種類のデータのフローを一括して制御することになるので、管理システムの負荷を削減するために、重要なデータまで間引いたり、短い時間周期で監視する必要のあるデータまで取得周期を大きくしなければならない。
 本発明は、上記の状況に鑑みてなされたものであり、障害の可能性等に関する検出の遅延を防止可能にするとともに、管理対象の複数の装置がそれぞれ複数種類のデータを送信する場合に、データの種類毎の重要度や特性を考慮して適正化しつつ、管理側における負荷を削減することが可能な保守管理システムおよびデータ処理方法を提供することを目的とする。
(1)それぞれがテレメトリ技術を利用してデータを定期的に配信する機能を有する複数の業務装置、を管理する保守管理システムであって、
 前記複数の業務装置が定期的に配信するデータのそれぞれを取得して処理するデータ処理部と、
 前記データ処理部のデータ処理にかかる負荷のレベルに合わせて、前記負荷を軽減するためにデータ処理量を削減する負荷レベル管理部、とを備え、
 前記負荷レベル管理部は、前記複数の業務装置がそれぞれ配信するデータに複数の項目が含まれている場合に、前記データ処理部が処理するデータ項目数を調整するための処理、および、各データ項目を処理する時間間隔を調整するための処理のうち少なくとも一方を実行する、
 ことを特徴とする。
 この保守管理システムによれば、前記負荷レベル管理部が前記処理を実行することにより、前記データ処理部の負荷に影響を及ぼす単位時間あたりのデータ処理量をデータ項目単位で変更できる。したがって、前記データ処理部のデータ処理にかかる負荷のレベルが大きい時には、負荷を削減し、過負荷になるのを避けることができる。しかも、データ項目単位で調整できるので、各データ項目の重要度や時間周期の特性に合わせて適正化した状態で負荷を削減できる。
(2)上記(1)に記載の保守管理システムにおいて、
 前記負荷レベル管理部は、データ項目毎に優先度を定め、
 前記データ処理部は、各データ項目を優先度の高い順に処理すると共に、処理したデータ項目数が上限に達した時点で処理を終了する、
 ことを特徴とする。
 この保守管理システムによれば、前記データ処理部の負荷が大きくなった場合でも、高い優先度が割り当てられた各データ項目を確実に処理することができ、優先度が低い各データ項目の処理を間引く、すなわち省略することにより、前記データ処理部の負荷を減らすことができる。
(3)上記(1)または(2)に記載の保守管理システムにおいて、
 前記負荷レベル管理部は、各データ項目に関する必要性の変動に応じて、該当するデータ項目の優先度、または各データ項目を処理する時間間隔を動的に調整する、
 ことを特徴とする。
 この保守管理システムによれば、各データ項目のそれぞれについて、必要性の変動を前記優先度、または時間間隔に動的に反映することにより、実際に処理するデータ項目を最適化できる。例えば、正常な範囲を外れたような異常値が現れている特定のデータ項目については、故障が発生しているか、または故障の原因になる可能性が高いので、通常は優先度の低いデータ項目であっても、高い頻度で監視することが望まれる。このような必要性の変動を、前記優先度、または時間間隔に動的に反映できる。
(4)上記(3)に記載の保守管理システムにおいて、
 前記負荷レベル管理部は、少なくとも異常値が発生したデータ項目の優先度を上げる、または異常値が発生したデータ項目を処理する時間間隔を小さくする、
 ことを特徴とする。
 この保守管理システムによれば、異常値が発生したデータ項目の優先度を上げることにより、通常は優先度の低いデータ項目であっても優先的に処理できる。また、異常値が発生したデータ項目を処理する時間間隔を小さくすることにより、通常は時間間隔の大きいデータ項目であっても短い周期で繰り返し処理できる。
(5)上記(1)に記載の保守管理システムにおいて、
 前記負荷レベル管理部は、各データ項目におけるデータの傾向に基づき、前記データ処理部の処理対象のデータ項目を適正化するようにフィードバックする、
 ことを特徴とする。
 この保守管理システムによれば、各データ項目におけるデータの傾向を観察した結果を各データ項目の優先度などの属性にフィードバックできる。これにより、前記データ処理部の処理対象のデータ項目を適正化できる。例えば、一定時間に亘って数値がほとんど変化しなかったデータ項目について、優先度を下げるかまたは処理の時間周期を長い状態に変更することが想定される。これにより、管理状態の結果に大きな影響を及ぼすことなく、前記データ処理部のデータ処理にかかる負荷を削減できる。
(6)上記(5)に記載の保守管理システムにおいて、
 前記負荷レベル管理部は、前記業務装置の故障との関係性が高い所定データ項目との相関性が低いデータ項目、および/または一定期間に亘って変化しないデータ項目を処理対象から除外する、
 ことを特徴とする。
 この保守管理システムによれば、前記業務装置の故障との関係性が高いデータ項目との相関性が低いデータ項目や、一定期間変化しないデータ項目を処理対象から除外することにより、管理状態の結果に大きな影響を及ぼすことなく、前記データ処理部のデータ処理にかかる負荷を削減できる。
(7)上記(5)の保守管理システムにおいて、
 前記負荷レベル管理部は、前記業務装置の故障との関係性が高い所定データ項目との相関性が低いデータ項目、および/または一定期間に亘って変化しないデータ項目を処理する時間間隔を倍にすることで、前記データ項目の処理を間引きする、
 ことを特徴とする。
 この保守管理システムによれば、間引きによりデータ項目毎に異なる取得周期で処理されるので、優先度の低いデータ項目の取得周期を大きくし、負荷を効率的に削減できる。また、複数のデータ項目の取得周期が規定の周期の倍数で割り当てられるので、この間引きが複数のデータ項目の間の相関性評価へ及ぼす影響を抑制できる。
(8) それぞれがテレメトリ技術を利用してデータを定期的に配信する機能を有する複数の業務装置、を管理する保守管理システムを制御するためのデータ処理方法であって、
 前記複数の業務装置が定期的に配信するデータのそれぞれを取得して処理し、
 前記保守管理システムのデータ処理にかかる負荷のレベルを監視し、
 前記複数の業務装置がそれぞれ配信するデータに複数の項目が含まれている場合に、処理するデータ項目数を調整するための処理、および、各データ項目を処理する時間間隔を調整するための処理のうち少なくとも一方を実行し、
 前記負荷のレベルに応じてデータ処理量を削減する、
 ことを特徴とする。
 このデータ処理方法によれば、前記処理を実行することにより、データ処理の負荷となる単位時間あたりのデータ処理量をデータ項目単位で変更できる。したがって、データ処理にかかる負荷のレベルが大きい時には、負荷を削減し、過負荷になるのを避けることができる。しかも、データ項目単位で調整できるので、各データ項目の重要度や時間周期の特性に合わせて適正化した状態で負荷を削減できる。
 本発明の保守管理システムおよびデータ処理方法によれば、管理対象側で送信前のデータを蓄積する必要がないので、障害の可能性等に関する検出の遅延を防止できる。また、管理対象の複数の装置がそれぞれ複数種類のデータを送信する場合に、データの種類毎の重要度や特性を考慮して適正化しつつ、管理側における負荷を削減し、過負荷になるのを防止できる。
本発明の実施形態における複数の管理対象と管理システムとの接続状態の例を示すブロック図である。 管理対象のテレメトリ送信データおよび管理システムのテレメトリ受信データの例を示す模式図である。 管理システムにおける機能上の構成例を示すブロック図である。 取得設定ファイルCf2の構成例を示す模式図である。 取得設定ファイルCf2の構成例を示す模式図である。 負荷レベル管理テーブルの構成例を示す模式図である。 管理システムのデータ受信部内のデータ処理概要を示すフローチャートである。 管理システムの負荷を制御するための処理概要を示すフローチャートである。 図8中のステップS13の詳細を示すフローチャートである。 図8中のステップS14の詳細を示すフローチャートである。 図8中のステップS17の詳細を示すフローチャートである。 管理対象のデータ配信の例を示す模式図である。 管理システムの負荷状況の変化傾向を示すグラフである。 管理対象および管理システムにおける経時変化と複数の状態との関係を表す状態遷移図である。 管理システムの負荷に応じてデータ取得項目を制御する場合の動作例を示すシーケンス図である。 管理システムの負荷に応じてデータ配信間隔を制御する場合の動作例の前半を示すシーケンス図である。 管理システムの負荷に応じてデータ配信間隔を制御する場合の動作例の後半を示すシーケンス図である。
 本発明の実施形態について各図を参照しながら以下に説明する。
<複数の管理対象と管理システムとの接続状態の例>
 本発明の実施形態における複数の管理対象と管理システムとの接続状態の例を図1に示す。
 図1に示した例では、複数の業務装置G01~G07が通信ネットワークNWに接続されている。業務装置G01~G07のそれぞれは、例えば様々な通信サービスを提供するために利用されるサーバや、伝送装置であり、24時間絶え間なくサービスを継続する必要がある。業務装置G01~G07のそれぞれが、管理システム10の管理対象である。
 管理システム10は、本発明の保守管理システムに相当する。また、管理システム10が本発明のデータ処理方法を実施する。この管理システム10は、次世代のキャリアネットワークを構成するネットワーク装置とサービス制御層サーバ群の装置レベル、およびネットワークレベルの保守、運用を支援するオペレーションシステム(OpS)に含まれる装置であり、通信ネットワークNW内で起きている状況をリアルタイム把握するための機能を有する。すなわち、各業務装置G01~G07の稼働状況や、故障などの不具合発生の可能性を検知するために利用される。
 したがって、管理システム10は、各業務装置G01~G07からそれぞれの状態を表すデータを収集する必要がある。本実施形態では、業務装置G01~G07のそれぞれが、テレメトリのデータ配信機能を搭載している。すなわち、各業務装置G01~G07は、事前に決められた時間周期で、データを配信することができる。管理システム10は、テレメトリ通信経路22を経由して、業務装置G01~G07のそれぞれが配信するデータを受信し取得することができる。また、管理システム10は、業務装置G01~G07のそれぞれにおけるデータ配信頻度を設定することができる。
 すなわち、テレメトリ技術を利用しているので、業務装置G01~G07のそれぞれの主導によりプッシュ型のデータ配信を実施する。テレメトリの場合は、業務装置G01~G07は、管理システム10からの要求を解釈したり、応答を返す必要がないため、業務装置G01~G07における通信の負荷が小さい。したがって、業務装置G01~G07は、リアルタイム性の高いデータを配信することができる。
 管理システム10は、業務装置G01~G07が配信したデータをそれぞれ取得してデータ処理した結果をテレメトリデータベースDB1に登録する。したがって、テレメトリデータベースDB1にアクセス可能な各装置は、テレメトリデータベースDB1に登録されているデータに基づいて、業務装置G01~G07のそれぞれを含む通信ネットワークNWの状態をリアルタイムで把握できる。
 通信ネットワークNWを管理している管理者等は、管理者端末21を利用して管理システム10に接続することができる。例えば、管理者は、管理者端末21からの入力操作により管理システム10に指示を与え、業務装置G01~G07のそれぞれのデータ配信頻度に関する初期状態を決定したり、必要に応じて設定変更を行うことができる。
 一方、業務装置G01~G07のそれぞれは様々なデータを周期的に配信する。また、通信ネットワークNWに接続される業務装置G01~G07の数が増える可能性もある。そして、管理システム10が取得するデータのリアルタイム性を向上させるために、業務装置G01~G07のデータ配信周期を短くすると、管理システム10が受け取るデータ量が膨大になり、負荷増大状態や空き容量減少状態になる。
 すなわち、管理システム10が受け取る1回あたりのデータ取得量DTは次式で計算される。
DT=Ng×Np×Ni×Ns
但し Ng:管理する業務装置の装置台数
   Np:通信で使用するポート数
   Ni:監視項目数
   Ns:データサイズ[bit]
 つまり、データ配信周期を短くすると、管理システム10内でデータ処理能力の限界に近づき、または限界を超えるため、管理システム10が受け取ったデータの全てを処理しきれなくなった場合が負荷増大状態である。また、管理システム10が大量のデータを受信すると、テレメトリデータベースDB1にも大量のデータが登録されるので、空き容量減少状態になる。後述するように、本実施形態の管理システム10は、これら負荷増大状態や空き容量減少状態を防止するための特別な機能を備えている。
<テレメトリ送信データ、テレメトリ受信データの例>
 管理対象のテレメトリ送信データおよび管理システムのテレメトリ受信データの例を図2に示す。
 図2に示すように、業務装置G01が配信するテレメトリ送信データD01の中には種類の異なる様々な項目のデータが含まれている。同様に、業務装置G02が配信するテレメトリ送信データD02の中にも種類の異なる様々な項目のデータが含まれている。そして、管理システム10が業務装置G01~G07から受け取るテレメトリ受信データDxの中にも、種類の異なる様々な項目のデータが含まれている。
 ここで、管理システム10の負荷が増大し処理しきれない状態に近づいた場合、管理システム10はデータ処理量を削減する必要がある。一般的なデータ削減方法の場合、管理システム10はテレメトリ受信データDxの中から、業務装置G01~G07の単位で選択的にデータを削減するか、あるいは処理しきれない任意項目のデータを削減することになる。
 しかし、テレメトリ受信データDxの項目の中には、短い周期で監視することが求められるデータ項目や、監視の周期を大きくしても問題のないデータ項目などがある。しかも、いずれのデータ項目を短い周期で監視すべきか否かは、状況に応じて動的に変化する。したがって、一般的なデータ削減方法の場合には、短い周期で監視すべき重要な項目のデータまで削減されることになり、このオペレーションシステム(OpS)が故障等を検知する際の性能低下に繋がる。本実施形態の管理システム10においては、後述するように、項目毎のデータの優先度などを考慮してデータ処理量を減らし、管理システム10の負荷を調整することができる。
<管理システムの構成>
 管理システム10における機能上の構成例を図3に示す。なお、図3に示した業務装置Gxは、図1中の業務装置G01~G07のそれぞれに相当する。つまり、実際には複数台の業務装置Gxが管理システム10に接続されている。
 図3に示したように、この管理システム10はデータ受信部11、取得設定ファイル管理部12、データ傾向測定部13、判断部14、OpS負荷レベル管理部15、および異常検知部16を備えている。また、取得設定ファイル管理部12の中には優先度管理部12a、データ取得間隔管理部12b、取得設定部12c、および重み設定テーブル管理部12dが含まれている。
 なお、管理システム10の実体は、一般的なサーバなどと同様に、コンピュータのハードウェア、基本ソフトウェア(オペレーティングシステム)、および専用のアプリケーションソフトウェアにより構成される。勿論、管理システム10を仮想化したシステムとして構成することもできる。また、管理システム10を構成する各要素は、同じサーバ上に配置してもよいし、それぞれ独立した別のサーバに配置してもよい。
 データ受信部11は、各業務装置Gxがテレメトリ通信経路22aを経由して配信したデータを受信し、予め定められたデータ処理を施してその処理結果のデータをテレメトリデータベースDB1に登録する。データ受信部11が業務装置Gxから受信したデータのうち未処理のデータは一時的にバッファ11aに保持される。
 一方、業務装置Gxがテレメトリ通信経路22aにより配信するデータの配信頻度、すなわち配信を繰り返す時間周期の長さなどの配信条件は、業務装置Gxが読み取り可能な取得設定ファイルCf1に保持されたデータにより規定される。
 また、管理システム10内のデータ受信部11が受信した内容をデータ処理する条件については、データ受信部11が読み取り可能な取得設定ファイルCf2に保持されたデータにより規定される。
 取得設定ファイル管理部12は、取得設定ファイルCf1およびCf2の内容を管理している。取得設定ファイル管理部12内の優先度管理部12aは、取得設定ファイルCf2の内容のうちデータ受信部11がデータ処理する際のデータ項目の優先度を管理している。
 また、データ取得間隔管理部12bは、取得設定ファイルCf1の内容のうち、業務装置Gxがデータを配信する際の間隔、すなわち配信を繰り返す時間周期をデータ項目毎に規定するデータを管理している。
 また、取得設定部12cは、管理者端末21を操作する管理者の入力に従い、各取得設定ファイルCf1、Cf2の内容の初期値を定めたり、各取得設定ファイルCf1、Cf2の内容を必要に応じて更新するための処理を行う。取得設定部12cが取得設定ファイルCf1を変更する場合には、制御用通信経路18を経由して、管理システム10が業務装置Gxに指示を与える。
 重み設定テーブル管理部12dは、取得設定ファイルCf2の内容のうち、データ受信部11がデータ処理する際のデータ項目毎の重みを個別に調整するために用意されたテーブルを管理している。
 データ傾向測定部13は、データ受信部11が業務装置Gxから受信したデータ、またはテレメトリデータベースDB1に登録されたデータの絶対値および時系列変化の傾向をデータ項目毎にそれぞれ観察するための測定を実施する。
 判断部14は、データ傾向測定部13が測定したデータ項目毎の傾向を、取得設定ファイル管理部12の制御にフィードバックし、管理システム10の制御を適正化するための判断を実施する。具体例としては、判断部14が人工知能(AI)やルールベースを利用して判断を実施する。例えば、複数のデータ項目の間の相関性や、特定のデータ項目と何らかの故障との相関性について、過去のデータ傾向から判明している各種ルールや、リアルタイムのデータ観察により新たに発見したルールなどを適用することにより、総合的に判断する。
 OpS負荷レベル管理部15は、管理システム10のデータ受信部11におけるデータ処理の負荷レベルを管理する。OpS負荷レベル管理部15は、例えば、データ受信部11内のCPU使用率、メモリ使用率、テレメトリデータベースDB1を保持する記憶装置の使用率などの最新の値および変化の傾向から、データ処理にかかる負荷のレベルを管理している。また、負荷のレベルが大きくなった場合に、全てのデータを処理しきれなくなる前に、OpS負荷レベル管理部15は取得設定ファイル管理部12に対して負荷の適正化を指示する。
 異常検知部16は、データ受信部11が各業務装置Gxから受信した項目毎の各々のデータについて、あるいは業務装置Gx側で生成された各データについて、異常値か否かを検知する。すなわち、通常とは異なる異常な値のデータが現れた場合に、その異常を異常検知部16が検知し、重み設定テーブル管理部12dに指示を与える。この指示に従い、データ受信部11が処理するデータのデータ項目毎の重み付けを変更する。
 例えば、業務装置Gxが光伝送装置である場合には、業務装置Gx内のレーザ増幅器における光出力を表すデータ項目の値も、業務装置Gxが配信する。このような光出力の値は、半導体の劣化により徐々に低下する傾向があるが、この変動周期は非常に長い。つまり、通常の状態であれば光出力の値の変動は非常に小さい。したがって、通常は光出力の値を頻繁に監視する必要はなく、監視の重要度も比較的低いので該当する項目のデータを間引くことができる。
 しかし、半導体が劣化して故障が発生する可能性が高い状態になると、光出力の値に、通常とは異なる急激な変化が現れる傾向がある。このような急激な変化が発生した際に、異常検知部16がそれを検知して警報を出力する。重み設定テーブル管理部12dは、異常検知部16の警報により、該当するデータ項目の重要度が高くなったことを反映するために、該当するデータ項目の重みを大きくする。その結果が取得設定ファイルCf1、Cf2の少なくとも一方の内容に反映される。
<取得設定ファイルCf2の構成例>
 取得設定ファイルCf2の構成例を図4および図5に示す。
 図4および図5に示した取得設定ファイルCf2は、優先度欄Cf2a、項目欄Cf2b、および重み欄Cf2cを含んでいる。また、図4および図5の例では、各業務装置Gxが配信するデータの中に、「メモリ使用率(メモリ)」、「CPU使用率(CPU)」、「システムログ(Syslog)」、・・・の各データ項目が含まれる場合を想定している。
 優先度欄Cf2aの各番号は「1」、「2」、「3」、・・・の順にデータ処理の優先度が高いことを意味している。また、項目欄Cf2bはそれぞれの優先度に対応付けたデータ項目の並び順を表している。つまり、図4の例では優先度が「1」の「メモリ使用率」の項目を最優先で処理し、優先度が「2」の「CPU使用率」の項目を2番目の優先順で処理し、優先度が「3」の「システムログ」の項目を3番目の優先順で処理することを意味している。
 例えば、取得設定ファイルCf2の内容が図4の状態である時に、「CPU使用率」の項目に関する異常値を異常検知部16が検知すると、異常検知部16がその警報を発生する。そして、重み設定テーブル管理部12dは、図4の取得設定ファイルCf2における「CPU使用率」の項目の重みを「1」から「2」に変更する。
 その場合、優先度管理部12aは「CPU使用率」の項目の重みの変化を反映するように項目の優先度を変更する。その結果、図5に示したように取得設定ファイルCf2の内容が変更される。つまり、図4の例では「CPU使用率」の項目の優先度は「メモリ使用率」の項目よりも低いが、図5の例では「CPU使用率」の重みが通常の「1」よりも大きいことを反映して「CPU使用率」の項目の優先度を最上位に変更し、項目の並びを変更している。
<負荷レベル管理テーブルの構成例>
 OpS負荷レベル管理部15が管理している負荷レベル管理テーブル15aの構成例を図6に示す。
 図6に示した負荷レベル管理テーブル15aは、「負荷レベル(レベル)」と、「CPU使用率」と、「処理可能な項目計」との関係を表すデータを保持している。負荷レベル管理テーブル15aにおける「CPU使用率」は、図3に示したデータ受信部11がデータ処理するために用意されたCPUの使用率を表している。
 図6に示した例では、「負荷レベル」は「1」~「4」の4種類存在する。「負荷レベル」の「1」は、「0~50%]」の「CPU使用率」に対応し、処理可能な項目計の内容が「全て:ALL」であり項目数の制限はない。
 また、「負荷レベル」の「2」は、「51~70%」の「CPU使用率」に対応し、処理可能な項目計の内容により上限数が「15」に制限されている。「負荷レベル」の「3」は、「71~90%」の「CPU使用率」に対応し、処理可能な項目計の内容によりその上限数が「10」に制限されている。「負荷レベル」の「4」は、「91~100%」の「CPU使用率」に対応し、処理可能な項目計の内容によりその上限数が「5」に制限されている。なお、「CPU使用率」の小数点以下の数値は切り下げまたは切り上げとする。
 図6に示した例では、管理システム10の負荷が高い事を表す指標として「CPU使用率」を採用した場合を想定しているが、他の指標を採用してもよい。例えば、メモリ使用率、ページング使用率、ディスクI/O使用率、スワッピング使用率のいずれかのように、様々なKPI(Key Performance Indicators)の中から必要に応じて選択できる。KPIは、実装したい目的をベースに測定可能な数値を意味する。また、複数の指標を組み合わせて使用してもよい。
<データ処理の概要>
 管理システム10のデータ受信部11におけるデータ処理の概要を図7に示す。
すなわち、データ受信部11内でデータ処理を実行するために割り当てられたCPUが、図7の処理を実行する。
 なお、図7の例では1つの業務装置Gxから配信された受信データのみを処理する場合を示しているが、実際には図1に示したように複数の業務装置G01~G07がそれぞれ配信したデータを、管理システム10がほぼ同時に受信して処理する。図7の処理について以下に説明する。
 データ受信部11は、最初にステップS01で取得設定ファイルCf2を読み込み、その設定内容を把握する。データ受信部11は、例えば、図4、図5に示した取得設定ファイルCf2のように、処理対象の複数のデータ項目、各々のデータ項目に割り当てられた優先度、重みなどデータ処理対象に関する項目毎の取得条件を把握する。
 データ受信部11は、ステップS02で、各業務装置Gxがテレメトリ通信経路22を経由して配信するデータを項目毎にそれぞれ受信する。データ受信部11が受信した各項目の内容は、データ受信部11がデータ処理を行うまでバッファ11aで一時的に保持される。
 データ受信部11は、ステップS03で、取得設定ファイルCf2における優先度の高い項目から順番に受信データの項目を選択し、それぞれの項目のデータに対して順次にデータ処理を実行する。処理後のデータはテレメトリデータベースDB1に登録される。
 例えば、図4に示した内容の取得設定ファイルCf2を読み込んだ場合には、データ受信部11は優先度の順番に従い、「メモリ使用率」、「CPU使用率」、「システムログ」、・・・の各項目をデータ処理する。
 データ受信部11は、ステップS04で、送信元が同じ業務装置Gxのデータの中で、今回処理したデータ項目数Ntを把握する。実際には、優先度欄Cf2aの優先度順に従い優先度「1」のデータ項目、優先度「2」のデータ項目、優先度「3」のデータ項目を処理するので、今回処理したデータ項目数Ntは最後に処理したデータ項目の優先度と同じである。
 データ受信部11は、ステップS05で、最新の項目数制限値Ntmaxを取得する。この項目数制限値Ntmaxは、図6に示した負荷レベル管理テーブル15a内の「処理可能な項目計」の値に相当し、負荷レベルの1~4に対してそれぞれ異なる値が採用される。例えばデータ受信部11の最新の負荷レベルが「1」であれば、項目数制限値Ntmaxは制限なしになり、負荷レベルが「2」であれば、項目数制限値Ntmaxは「15」になる。同様に、負荷レベルが「3」の場合の項目数制限値Ntmaxは「10」、負荷レベルが「4」の場合の項目数制限値Ntmaxは「5」になる。
 データ受信部11は、次のステップS06でデータ項目数Ntと項目数制限値Ntmaxとを比較し、データ項目数Ntが項目数制限値Ntmax以上になるとステップS07に進む。データ項目数Ntが項目数制限値Ntmax未満の場合は、データ受信部11はステップS03に戻って上記と同様の処理を繰り返す。
 データ受信部11は、ステップS07で、送信元が同じ業務装置Gxの受信データに対する今回のデータ処理を終了し、最初のデータ項目の位置に戻る。したがって、優先度が項目数制限値Ntmax以上の残りの未処理のデータ項目については、今回のデータ処理の対象外となり、不要なのでバッファ11aから破棄される。
 つまり、データ受信部11がステップS03~S06で1回あたりデータ処理する項目数が項目数制限値Ntmaxに制限されるので、未処理のデータ項目分だけデータ受信部11における負荷が軽減される。しかも、優先度が高い順番に従って各項目を処理するので、比較的優先度の高い項目のデータが欠落するのを避けることができる。
 データ受信部11は、ステップS08で設定変更の有無を識別し、変更ありの場合は次のステップS09に進み、更新された取得設定ファイルCf2の読み込みを実施する。例えば、管理者が管理者端末21から取得設定ファイルCf2の更新を指示した場合や、判断部14のフィードバック制御により取得設定ファイルCf2が更新されたような場合には、更新後の取得設定ファイルCf2の内容がステップS09でデータ受信部11の処理に反映される。
 なお、異常値を示している項目データについては、負荷の大きさにかかわらず、できる限り頻繁に監視したいので、その変動傾向に基づいて重み付けを行い、状況に応じて動的に処理の優先度を変動させる。また、この重み付けに関し、該当データの傾向観察の結果をフィードバックするように制御してもよい。
 なお、図7に示したデータ処理などにより間引きされ、欠落したデータ項目については、同じデータ項目に関する時系列変化の傾向に基づき、近似曲線を用いて推定値を計算しデータの補完を実施する。
<管理システムの負荷を制御するための処理>
 管理システム10の負荷を制御するための処理の概要を図8に示す。なお、図8に示した各処理を実行する順番やタイミングは必要に応じて変更できる。
 管理システム10の取得設定部12cは、ユーザ、すなわち管理者端末21に対する管理者の入力操作に従い、ステップS11で、事前に定めたデータ取得項目毎の優先度等を初期値に定め、更にユーザ入力も受け付ける。ここで決定された初期値または入力された値が、取得設定部12cにより各取得設定ファイルCf1、Cf2の内容に反映される。
 また、管理システム10の動作開始後に、必要に応じて管理者端末21から入力されるユーザ入力があった場合には、取得設定部12cは、ステップS12でこの入力を受け付けて項目毎の優先度等を変更する。
 ステップS13では、優先度管理部12aが「優先度の監視処理」を実行し、データ項目毎の優先度の割り当てを動的に変更する。この処理の詳細については後で説明する。
 ステップS14では、OpS負荷レベル管理部15が「負荷レベルの監視処理」を実行し、データ受信部11のデータ処理に関する負荷レベル、およびその動的な変動を把握する。この処理の詳細については後で説明する。
 ステップS15では、異常検知部16が異常値の検出により警報を出力したか否かを重み設定テーブル管理部12dが識別する。異常値を検出した場合、重み設定テーブル管理部12dは、次のステップS16を実行する。
 ステップS16では、異常検知部16が異常値を検出したデータ項目について、重み設定テーブル管理部12dが重みを自動的に調整する。例えば、取得設定ファイルCf2の内容が図4に示した状態の時に、「CPU使用率」が異常値に変化した場合には、「CPU使用率」の項目に対する重みを「1」から「2」に変更する。これにより、図5に示したように「CPU使用率」の優先度が上がる。なお、図8には示されていないが、異常値が検出された項目について、データの値が正常な範囲に戻ったような場合は、重み設定テーブル管理部12dが該当する項目の重みを通常の値である「1」に戻す。
 ステップS17では、データ取得間隔管理部12bが、「データ取得間隔の調整」処理を実行し、取得設定ファイルCf1の内容を更新する。この処理の詳細については後で説明する。
 ステップS18では、データ傾向測定部13がデータ受信部11の受信したデータまたはテレメトリデータベースDB1に登録されたデータについて、データ項目毎の変化の傾向を測定する。
 ステップS19では、判断部14が人工知能やルールベースを用いて、データ傾向測定部13の測定結果を分析し、複数のデータ項目間の相関性や、各データ項目と各業務装置Gxの故障との相関性などについて判断を実施する。その判断の結果が、取得設定ファイル管理部12にフィードバックされる。このフィードバックにより、取得設定ファイル管理部12は項目毎のデータの優先度、項目毎のデータ取得間隔、項目毎の重みなどを動的に調整する。
<「優先度の監視処理」の詳細>
 図8中のステップS13の詳細を図9に示す。図9の処理について以下に説明する。
 管理システム10のデータ受信部11は、ステップS21の処理を定期的に繰り返し実行する。すなわち、管理対象の複数の業務装置Gxがそれぞれ定期的に配信するデータを、データ受信部11が業務装置Gx毎に受信する。データ受信部11が1回の処理で受信するデータは、例えば図2に示したテレメトリ送信データD01のように複数項目のデータを含んでいる。
 管理システム10の優先度管理部12aは、ステップS22で判断部14の出力や、管理者端末21からのユーザ入力を監視することにより、データ項目毎の優先度の変更要求の有無を識別する。優先度の変更要求があった場合は、優先度管理部12aは次のステップS23に進み、取得設定ファイルCf2における項目毎の優先度の順序を変更する。
 例えば、図4に示した取得設定ファイルCf2の内容の状態で、各項目の重みとは無関係に、優先度を「CPU使用率」、「メモリ使用率」、「システムログ」の順番に変更する要求があった場合には、優先度管理部12aが図5に示した取得設定ファイルCf2のように、各項目の並び順を「CPU使用率」、「メモリ使用率」、「システムログ」に変更する。
<「負荷レベルの監視処理」の詳細>
 図8中のステップS14の詳細を図10に示す。図10の処理について以下に説明する。
 図9のステップS21と同様に、管理システム10のデータ受信部11は、図10のステップS31の処理を定期的に繰り返し実行し、管理対象の複数の業務装置Gxがそれぞれ定期的に配信するデータを受信する。
 管理システム10のOpS負荷レベル管理部15は、データ受信部11のデータ処理に影響を及ぼす負荷についてその大きさおよび変動を常時監視している。そして、データ受信部11の負荷が急激に変化したか否かと、負荷の大きさが閾値を超えたか否かをステップS32で識別し、この条件を満たす場合に次のステップS33に進む。
 ステップS33では、OpS負荷レベル管理部15は、データ受信部11における処理可能項目数を変更する。この処理可能項目数は、図6に示した負荷レベル管理テーブル15a中の「処理可能な項目計」、および図7に示したステップS05、S06中の項目数制限値Ntmaxに相当する。
 例えば、OpS負荷レベル管理部15の検出した負荷レベルが、「2」から「3」に変化した場合には、負荷レベル管理テーブル15aから負荷レベル「3」の「処理可能な項目計」の「10」を取得して、項目数制限値Ntmaxを「10」に変更する。この変更により、データ受信部11が図7のステップS03~S06でデータ処理する1回あたりのデータ項目数が「10」に制限される。
<「データ取得間隔の調整」の詳細>
 図8中のステップS17の詳細を図11に示す。図11の処理について以下に説明する。
 図9のステップS21と同様に、管理システム10のデータ受信部11は、図11のステップS41の処理を定期的に繰り返し実行し、管理対象の複数の業務装置Gxがそれぞれ定期的に配信するデータを受信する。
 管理システム10の判断部14は、データ受信部11が受信した各項目のデータについて、その変化の傾向をデータ傾向測定部13の出力で判断し、各項目データの値の変動が閾値以内かどうかをステップS42で識別する。変動が閾値以内であればステップS43に進み、閾値を超える場合はステップS48に進む。
 また、判断部14は、各業務装置Gxの取得設定ファイルCf1の内容を制御するためのテーブルを備えている。このテーブルは、業務装置Gxがテレメトリ通信経路22で配信する複数のデータ項目の一覧と、データ項目毎の重みと、データ項目毎の送信時間の「間隔」を表す情報を保持している。
 判断部14は、上記テーブルで該当項目の重みを参照し、この重みをステップS43で「1」と比較する。そして、重みが「1」と等しい場合はステップS44に進み、重みが「1」以外であればステップS49に進む。
 判断部14は、データ項目毎に個別に用意したカウンタを管理している。また、判断部14は、該当する項目のカウンタの値をステップS44でインクリメント(+1)し、その結果をステップS45で判定する。そして、該当するカウンタの値が「10」または「20」の場合はステップS46に進み、該当するカウンタの値が「30」の場合はステップS47に進み、それ以外の値であればステップS41に戻る。
 ステップS46では、判断部14は、上記テーブル上で該当する項目のデータに割り当てられている「間隔」をそれ以前の2倍に変更する。なお、この「間隔」については初期状態では標準値の1倍の値が割り当てられている。そして、上記カウンタが「10」になった時には、ステップS46で「間隔」が標準値の2倍の値に変更される。更に、上記カウンタが「20」になった時には、もう一度ステップS46が実行されるので、「間隔」が標準値の4倍の値に変更される。
 また、上記カウンタが「30」になると、判断部14は、ステップS47で上記テーブルにおけるデータ項目の一覧から、該当する項目を削除する。また、この時に判断部14は、上記カウンタの値を「0」にクリアする。
 ステップS48では、判断部14が上記テーブル上で該当する項目の「間隔」とその標準値の1倍とを比較する。そして、「間隔」がその標準値の1倍でなければ次のステップS49に進み、「間隔」がその標準値の1倍と一致する場合はステップS41に戻る。
 ステップS49では、判断部14は、上記テーブルにおける該当する項目の「間隔」をその標準値の1倍にリセットする。
 判断部14が管理している上記テーブルの内容については、例えばデータ取得間隔管理部12bが定期的に実行する処理により、各業務装置Gxの取得設定ファイルCf1の内容に反映される。その場合、各業務装置Gxは取得設定ファイルCf1の内容に従い、テレメトリ通信経路22で配信するデータ項目と、項目毎の配信間隔を変更することができる。
 つまり、図11に示した処理を実行する場合には、値の変動が小さいデータ項目については、時間の経過につれて配信の間隔がステップS46で標準値の2倍、または4倍に変更される。但し、重みが「1」以外のデータ項目や、変動が大きくなったデータ項目については、配信の間隔がステップS49で標準値の1倍に戻される。また、値の変動が小さい時間が長くなると、その項目はステップS47で削除される。そして、業務装置Gxは削除された該当項目を次回の配信対象から除外する。
<負荷特性の変化例>
 管理対象のデータ配信と管理システムの負荷特性との関係の例を図12Aと図12Bに示す。
 図12Aに示した例では、業務装置Gxが各時刻「t=1」、「t=2」、「t=3」において、業務装置Gx内で生成したデータをテレメトリにより管理システム10に配信する場合を想定している。また、図12Aの例では、業務装置Gxが配信するデータの中に「CPU使用率」および「メモリ使用率」の項目が含まれている。
 この場合、管理システム10内のデータ傾向測定部13の測定により、図12Bに示したような状況の変化傾向を観察することができる。図12Bの例では、CPU使用率L10aおよびメモリ使用率L10bが、時間の経過に伴って上昇している。
 この場合、CPU使用率L10aおよびメモリ使用率L10bの絶対値や、一定時間内の変化量を所定の閾値と比較することにより、負荷増大状態Loa、Lobをそれぞれ検知することができる。
 OpS負荷レベル管理部15が図12Bのような負荷増大状態Loa、Lobを検出した場合には、例えば図10に示したステップS32からS33に進むので、取得設定ファイルCf2における処理可能項目数、すなわち図7中の項目数制限値Ntmaxを減らすことができる。これにより、各業務装置Gxのデータ配信状況に変化が生じない場合であっても、管理システム10のデータ受信部11がデータ処理するデータ項目数が削減されるので、負荷を減らすことができる。
<状態遷移の例>
 管理対象および管理システムにおける経時変化と複数の状態との関係の例を図13に示す。図13において、各状態Ct1、Ct2、Ctx、Cty、およびCtzは、それぞれ時刻「t=1」、「t=2」、「t=X」、「t=Y」、および「t=Z」における業務装置Gxから管理システム10へのデータ配信を表している。
 例えば管理者端末21からのユーザ入力により、ステップS101として事前設定が行われる。これにより、取得設定ファイルCf1、Cf2の初期状態が確定する。
 業務装置Gxは、取得設定ファイルCf1の内容に従い、時刻「t=1」の状態Ct1で、「項目A」、「項目B」、「項目C」、「項目D」、「項目E」、・・・の各データを一括して配信する。
 また、時刻「t=2」の状態Ct2においても、業務装置Gxは「項目A」、「項目B」、「項目C」、「項目D」、「項目E」、・・・の各データを一括して配信する。但し、状態Ct2では管理システム10の負荷が上昇した場合を想定しているので、OpS負荷レベル管理部15の検知した負荷レベルに従い、負荷を減らすことができる。
 例えば、負荷レベル管理テーブル15aにおける「処理可能な項目計」に基づき、データ受信部11がデータ処理する1回あたりのデータ項目数を削減することができる。従って、図13の状態Ct2ではデータ受信部11が優先度の高い「項目A」、「項目B」だけをデータ処理して、優先度の低い「項目C」、「項目D」、「項目E」、・・・の各データはデータ処理の対象から除外している。
 これにより、データ受信部11におけるCPUのデータ処理の負荷が減るので、時間の経過に伴って状態CtxではCPUの状態が安定する。したがって、OpS負荷レベル管理部15の検出する負荷レベルが低くなり、「処理可能な項目計」を増やすことができる。そのため、図13の状態Ctxでは、データ受信部11が「項目A」、「項目B」、「項目C」、「項目D」、「項目E」の全てをデータ処理できる。
 管理者端末21を操作する管理者は、管理システム10の稼働状況を観察し、ステップS102で必要に応じて取得設定ファイルCf1、Cf2を変更するための入力を行い、手動で現在の状況をフィードバックすることができる。例えば、図13の状態Ctzでは、優先度の低い「項目E」をデータ処理の対象から削除するための操作を管理者が行った場合を想定している。
 一方、管理システム10のデータ傾向測定部13は、管理システム10が受信した「項目A」、「項目B」、「項目C」、「項目D」、「項目E」、・・・のそれぞれについて、データの時系列変化を監視して観測データDzを生成することができる。判断部14は、データ傾向測定部13が生成した観測データDzの内容から項目毎の傾向を観察し、人工知能、またはルールベースの処理を適用し、ステップS103で自動的なフィードバック制御を行うことができる。
 なお、判断部14が観察する観測データDzについては、業務装置Gxが配信するデータのトラフィック情報の他に、管理システム10におけるCPUの電源電圧や、CPUの温度など様々な情報を利用することが想定される。
 判断部14が人工知能を採用する場合には、把握している過去の故障パターンと、観測データDzとの関係などについて学習を実施しながら、今後発生するであろう故障の可能性について推定し、その結果をフィードバックする。また、判断部14がルールベースを採用する場合には、現在の知見で分かっている複数のデータ項目間の相関性や、各データ項目と各種の故障要因との相関性を規定したルールに基づいて、観測データDzの傾向を判断し、その結果をフィードバックする。例えば、管理システム10における温度上昇とそのCPU使用率との間には大きな相関があり、更にCPU使用率と装置故障との間にも相関がある。このような関係をルールベースなどで規定しておく。
 ステップS103のフィードバック制御の結果、図13の状態Ctyにおいては、取得設定ファイルCf2における「項目D」の優先度が「項目C」よりも高くなった場合を想定している。その結果、前述の項目数制限値Ntmaxの影響を受けて、優先度の低い「項目C」が間引きされている。
 また、図13に示した観測データDz中の「項目E」のように長時間に亘って値がほとんど変化しない項目や、装置故障との関連性が高い「CPU使用率」との相関性が低い項目については、監視する必要性がほとんどない。したがって、このようなデータ項目は判断部14の判断により業務装置Gxの配信対象から削除するように取得設定ファイルCf1の内容を変更する。または、監視する必要性がほとんどないデータ項目については、データ受信部11が間引きするように取得設定ファイルCf2の内容に反映する。
 また、観測データDz中の「項目E」のように長時間に亘って値がほとんど変化しない項目や、装置故障との関連性が高い「CPU使用率」との相関性が低い項目については、図11に示した処理と同じように、業務装置Gxが配信する時間間隔を通常の倍にすることで間引きを実施するように、取得設定ファイルCf1の内容に反映する。なお、間引きにより欠落したデータ項目については、その変化の傾向から近似曲線を用いて推定した値を補完する。
 なお、例えば判断部14の人工知能、またはルールベースを用いて業務装置Gxの装置種別毎に適正化されたデータ項目毎の取得間隔や優先度などのパターンを検出して保持し、このパターンを推奨内容として管理者端末21の画面に表示してもよい。これにより、ステップS102におけるユーザ入力を支援することができる。
 なお、図7に示したデータ処理においては、データ受信部11が受信したデータをステップS03で処理する際に、優先度の高い順に各データ項目を選択して処理する場合を想定している。しかし、事前に優先度が高い順番に並んだ状態で項目データが入力される場合には、単純に項目数制限値Ntmaxと一致する項目数だけデータ処理すればよい。例えば、項目毎の優先度の内容が取得設定ファイルCf1に反映される場合には、各業務装置Gxは優先度の高いデータ項目から順番に並べた状態で順次に各データ項目を配信できる。その場合は、データ受信部11は図7のステップS03で受信した順番に従い、そのままの順番で各データ項目を処理することができる。
<負荷に応じてデータ取得項目を制御する場合の動作例>
 管理システム10がその負荷に応じてデータ取得項目を制御する場合の動作例を図14に示す。図14に示した動作シーケンスについて以下に説明する。
 管理システム10の取得設定部12cは、手順SE01で監視対象の業務装置Gxに対してデータ配信設定を行う。その結果が、図3に示した取得設定ファイルCf1の内容に反映される。
 また、管理システム10のOpS負荷レベル管理部15は手順SE02で管理システム10における定常時の負荷レベルを業務装置Gxに設定する。その内容が取得設定ファイルCf1の内容に反映される。その結果、業務装置Gxがテレメトリ通信経路22でデータ配信する際の、すなわち手順SE03でデータ配信する際の定常時の配信周期が決定される。つまり、業務装置Gxは定期的にデータ配信を実行する。
 管理システム10のデータ受信部11は、業務装置Gxからデータ配信されたデータを受信し、手順SE04で項目毎にデータ処理してその結果をテレメトリデータベースDB1に登録する。
 一方、手順SE05においてデータ受信部11のデータ処理にかかる負荷が定常時に比べて上昇すると、OpS負荷レベル管理部15が変化した負荷レベルを考慮し、手順SE06で取得項目優先度判定を実施する。すなわち、図6に示した負荷レベル管理テーブル15aの「処理可能な項目計」が負荷レベルに応じて制限されるので、図7の項目数制限値Ntmaxが減少する。
 その結果、手順SE07で管理システム10に配信されたデータをデータ受信部11が手順SE08でデータ処理する際に、取得設定ファイルCf2の内容、および項目数制限値Ntmaxに従い、優先度の高い項目だけが処理され、優先度が低い残りの項目のデータは間引きされる。
 一方、手順SE09で管理システム10の負荷が高い状況が解消されると、再びOpS負荷レベル管理部15が最新の負荷レベルを考慮して、手順SE10で取得項目優先度判定を実施する。すなわち、負荷レベル管理テーブル15aの「処理可能な項目計」の制限が負荷レベルの減少に伴って緩和されるので、図7の項目数制限値Ntmaxが増大する。その結果、手順SE11で配信されたデータをデータ受信部11が手順SE12でデータ処理する際には、優先度の比較的低い項目のデータも処理対象になり、より多くのデータ項目がテレメトリデータベースDB1に登録される。
<負荷に応じてデータ配信間隔を制御する場合の動作例>
 管理システム10がその負荷に応じてデータ配信間隔を制御する場合の動作例を図15および図16に示す。動作シーケンスの前半および後半が、それぞれ図15および図16に示されている。図15、図16に示した動作シーケンスについて以下に説明する。なお、図15に示した各手順SE21~SE24については、図14の手順SE01~SE04と同様であるのでこれらの説明は省略する。
 図15の手順SE25において、管理システム10のデータ傾向測定部13は、テレメトリデータベースDB1に登録された内容に基づき、項目毎のデータの傾向を観察する。また、データ傾向測定部13が観察した結果を利用して、手順SE26で判断部14が判断を実施し、図11に示した処理を実行する。したがって、例えば長い間ほとんど値が変化しないデータ項目を見つけたような場合は、判断部14が手順SE27で取得間隔変更通知をデータ取得間隔管理部12bに送る。
 この通知に従い、取得設定ファイル管理部12は、手順SE28で業務装置Gxの取得設定ファイルCf1に対する変更設定を実施する。これにより、業務装置Gxがデータ配信する際の配信対象項目が部分的に削除されたり、項目毎のデータ配信の間隔が変更される。その結果が、手順SE29のデータ配信に反映される。
 管理システム10のデータ受信部11は、手順SE29で配信された各項目のデータを手順SE30でデータ処理してその結果をテレメトリデータベースDB1に登録する。この場合、手順SE29でデータ受信部11が受信するデータの項目数や受信間隔が変更されているので、手順SE30でデータ受信部11がデータ処理を実行する際の負荷の大きさは、手順SE28が実行される前と比べて削減される。
 また、図16に示した例では、業務装置Gxがそれ自身におけるCPU使用率が上昇したことを手順SE31で検知した場合には、業務装置Gx自身が特別な制御を実施する。すなわち、取得設定ファイルCf1により配信対象になっている各項目について、項目毎の重みと、負荷レベルとを考慮して手順SE32で配信するデータ項目を削減する。例えば、重みが比較的大きい一部の項目のデータだけを手順SE32で配信する。
 この場合、手順SE32でデータ受信部11が受信した項目を判断部14が手順SE33で監視して判断し、手順SE34で間引きリセット通知をデータ取得間隔管理部12bに送る。この通知に従い、取得設定ファイル管理部12は手順SE35で項目毎のデータ配信の間隔を変更するように取得設定ファイルCf1を設定する。
<保守管理システムおよびデータ処理方法の利点>
 図3に示した管理システム10においては、データ受信部11がデータ処理を行う際に、取得設定ファイルCf2の内容に基づいて図7の処理を実行し、優先度の高いデータ項目だけに絞って処理することができる。したがって、複数の業務装置Gxからテレメトリにより大量のデータが配信される場合であっても、重要なデータの欠落をまねくことなく負荷を効率的に軽減できる。
 また、管理システム10はデータ項目毎の必要性に応じた重みを制御に反映し、項目毎のデータ取得間隔や処理の優先度を動的に変化させることができる。そのため、業務装置Gxや管理システム10の稼働状況が変化した場合でも、重要なデータの欠落をまねくことなく負荷を効率的に軽減できる。
 また、管理システム10は、図13のように判断部14が観測データDzの傾向を観察して管理システム10のデータ処理にフィードバックすることができる。そのため、様々な状況の変化に対して管理システム10が処理するデータ項目を適正化できる。
 また、管理システム10は、図11に示した処理により、各項目のデータを配信する間隔を基準周期の倍数に従って変更するので、データの間引きが複数のデータ項目間の相関性に与える影響を抑制できる。
 10 管理システム(保守管理システム)
 11 データ受信部(データ処理部)
 11a バッファ
 12 取得設定ファイル管理部
 12a 優先度管理部
 12b データ取得間隔管理部
 12c 取得設定部
 12d 重み設定テーブル管理部
 13 データ傾向測定部
 14 判断部
 15 OpS負荷レベル管理部(負荷レベル管理部)
 15a 負荷レベル管理テーブル
 16 異常検知部
 18 制御用通信経路
 21 管理者端末
 22,22a テレメトリ通信経路
 Cf1,Cf2 取得設定ファイル
 Cf2a 優先度欄
 Cf2b 項目欄
 Cf2c 重み欄
 Ct1,Ct2,Ctx,Cty,Ctz 状態
 D01,D02 テレメトリ送信データ
 Dx テレメトリ受信データ
 Dz 観測データ
 DB1 テレメトリデータベース
 Gx,G01,G02,G03,G04,G05,G06,G07 業務装置
 L10a CPU使用率
 L10b メモリ使用率
 Loa,Lob 負荷増大状態
 NW 通信ネットワーク
 Nt データ項目数
 Ntmax 項目数制限値

Claims (8)

  1.  それぞれがテレメトリ技術を利用してデータを定期的に配信する機能を有する複数の業務装置、を管理する保守管理システムであって、
     前記複数の業務装置が定期的に配信するデータのそれぞれを取得して処理するデータ処理部と、
     前記データ処理部のデータ処理にかかる負荷のレベルに合わせて、前記負荷を軽減するためにデータ処理量を削減する負荷レベル管理部、とを備え、
     前記負荷レベル管理部は、前記複数の業務装置がそれぞれ配信するデータに複数の項目が含まれている場合に、前記データ処理部が処理するデータ項目数を調整するための処理、および、各データ項目を処理する時間間隔を調整するための処理のうち少なくとも一方を実行する、
     ことを特徴とする保守管理システム。
  2.  請求項1に記載の保守管理システムにおいて、
     前記負荷レベル管理部は、データ項目毎に優先度を定め、
     前記データ処理部は、各データ項目を優先度の高い順に処理すると共に、処理したデータ項目数が上限に達した時点で処理を終了する、
     ことを特徴とする保守管理システム。
  3.  請求項1または請求項2に記載の保守管理システムにおいて、
     前記負荷レベル管理部は、各データ項目に関する必要性の変動に応じて、該当するデータ項目の優先度、または各データ項目を処理する時間間隔を動的に調整する、
     ことを特徴とする保守管理システム。
  4.  請求項3に記載の保守管理システムにおいて、
     前記負荷レベル管理部は、異常値が発生したデータ項目の優先度を上げるか、または異常値が発生したデータ項目を処理する時間間隔を小さくする、
     ことを特徴とする保守管理システム。
  5.  請求項1に記載の保守管理システムにおいて、
     前記負荷レベル管理部は、各データ項目におけるデータの傾向に基づき、前記データ処理部の処理対象のデータ項目を適正化するようにフィードバックする、
     ことを特徴とする保守管理システム。
  6.  請求項5に記載の保守管理システムにおいて、
     前記負荷レベル管理部は、前記業務装置の故障との関係性が高い所定データ項目との相関性が低いデータ項目、および/または一定期間に亘って変化しないデータ項目を処理対象から除外する、
     ことを特徴とする保守管理システム。
  7.  請求項5に記載の保守管理システムにおいて、
     前記負荷レベル管理部は、前記業務装置の故障との関係性が高い所定データ項目との相関性が低いデータ項目、および/または一定期間に亘って変化しないデータ項目を処理する時間間隔を倍にすることで、前記データ項目の処理を間引きする、
     ことを特徴とする保守管理システム。
  8.  それぞれがテレメトリ技術を利用してデータを定期的に配信する機能を有する複数の業務装置、を管理する保守管理システムを制御するためのデータ処理方法であって、
     前記複数の業務装置が定期的に配信するデータのそれぞれを取得して処理し、
     前記保守管理システムのデータ処理にかかる負荷のレベルを監視し、
     前記複数の業務装置がそれぞれ配信するデータに複数の項目が含まれている場合に、処理するデータ項目数を調整するための処理、および、各データ項目を処理する時間間隔を調整するための処理のうち少なくとも一方を実行し、
     前記負荷のレベルに応じてデータ処理量を削減する、
     ことを特徴とするデータ処理方法。
PCT/JP2019/030233 2018-08-10 2019-08-01 保守管理システムおよびデータ処理方法 WO2020031846A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/266,803 US11720092B2 (en) 2018-08-10 2019-08-01 Maintenance management system and data processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-151602 2018-08-10
JP2018151602A JP7010171B2 (ja) 2018-08-10 2018-08-10 保守管理システムおよびデータ処理方法

Publications (1)

Publication Number Publication Date
WO2020031846A1 true WO2020031846A1 (ja) 2020-02-13

Family

ID=69415240

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/030233 WO2020031846A1 (ja) 2018-08-10 2019-08-01 保守管理システムおよびデータ処理方法

Country Status (3)

Country Link
US (1) US11720092B2 (ja)
JP (1) JP7010171B2 (ja)
WO (1) WO2020031846A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011114495A (ja) * 2009-11-25 2011-06-09 Panasonic Electric Works Co Ltd ネットワーク監視制御装置
JP2014191697A (ja) * 2013-03-28 2014-10-06 Advics Co Ltd 車載電子制御装置
JP6350770B1 (ja) * 2017-03-31 2018-07-04 ダイキン工業株式会社 管理装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917625B1 (en) * 2005-01-14 2011-03-29 Sprint Communications Company L.P. Predictive processing resource level control
JP5509994B2 (ja) 2010-03-30 2014-06-04 日本電気株式会社 障害継続監視システム、障害継続監視方法、及びその監視制御プログラム
CN102595497B (zh) * 2012-03-22 2016-03-30 中兴通讯股份有限公司 自动缓解处理器过载的cdma数据业务系统及其方法
US11604685B2 (en) * 2016-12-22 2023-03-14 Nippon Telegraph And Telephone Corporation Data processing system and method
CN107124445B (zh) * 2017-03-31 2019-12-13 北京奇艺世纪科技有限公司 一种数据采集方法及装置
JP6824435B2 (ja) * 2017-11-06 2021-02-03 日本電信電話株式会社 情報分散記憶システム、方法およびプログラム
EP4089979A1 (en) * 2018-06-15 2022-11-16 Nippon Telegraph and Telephone Corporation Network management system, management device, relay device, method, and program
JP7176373B2 (ja) * 2018-11-27 2022-11-22 日本電信電話株式会社 光伝送システムおよび光伝送システムの故障診断方法
CN110035055B (zh) * 2019-02-19 2022-02-01 中国铁建重工集团股份有限公司 工业装备远程数据的传输方法
US11431169B1 (en) * 2021-08-20 2022-08-30 8Me Nova, Llc Systems and methods for microgrid metering and energy allocation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011114495A (ja) * 2009-11-25 2011-06-09 Panasonic Electric Works Co Ltd ネットワーク監視制御装置
JP2014191697A (ja) * 2013-03-28 2014-10-06 Advics Co Ltd 車載電子制御装置
JP6350770B1 (ja) * 2017-03-31 2018-07-04 ダイキン工業株式会社 管理装置

Also Published As

Publication number Publication date
US20210311467A1 (en) 2021-10-07
JP2020028005A (ja) 2020-02-20
JP7010171B2 (ja) 2022-01-26
US11720092B2 (en) 2023-08-08

Similar Documents

Publication Publication Date Title
KR100840129B1 (ko) 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법
EP1966712B1 (en) Load balancing mechanism using resource availability profiles
US8909671B2 (en) Load shedding in a data stream management system
US20150189033A1 (en) Distributed Cache System
US5944782A (en) Event management system for distributed computing environment
JP5519859B2 (ja) 管理通信の改善
CN109660380A (zh) 服务器运行状态的监控方法、平台、系统及可读存储介质
CA2293468A1 (en) A telecommunications performance management system
EP2940574A1 (en) Methods and policies to support a quality-of-storage network
KR20130083032A (ko) 클라우드 환경에서 서비스품질 보장을 위한 서비스수준협약 관리방법
JP2007249829A (ja) 内部ネットワーク間通信システム及び情報処理装置及び中継情報処理装置及び通信制御プログラム及び内部ネットワーク間における通信制御方法及び遠隔障害管理システム及び被管理装置及び管理装置
Kirichenko et al. Dynamic load balancing algorithm of distributed systems
US11656609B2 (en) Detecting component degradation in industrial process plants based on loop component responsiveness
CN112448987A (zh) 一种熔断降级的触发方法、系统和存储介质
WO2020031846A1 (ja) 保守管理システムおよびデータ処理方法
CN113765821A (zh) 一种多维度访问流量控制系统
CN110336884B (zh) 服务器集群更新方法和装置
CN114938376B (zh) 基于优先级处理数据的工业物联网及其控制方法
US10223189B1 (en) Root cause detection and monitoring for storage systems
US8275865B2 (en) Methods, systems and computer program products for selecting among alert conditions for resource management systems
US10291490B1 (en) System and method for collecting data from low-availability devices
US9563495B1 (en) Detecting upset conditions in channel instances
JP2012161033A (ja) リソース割当て装置およびリソース割当て方法
US20060026278A1 (en) Administration system for network management systems
JP2006012065A (ja) 資源負荷適正化管理システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19847913

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19847913

Country of ref document: EP

Kind code of ref document: A1