WO2009150722A1 - Trace information control device, trace information control method, and program intended for it - Google Patents

Trace information control device, trace information control method, and program intended for it Download PDF

Info

Publication number
WO2009150722A1
WO2009150722A1 PCT/JP2008/060624 JP2008060624W WO2009150722A1 WO 2009150722 A1 WO2009150722 A1 WO 2009150722A1 JP 2008060624 W JP2008060624 W JP 2008060624W WO 2009150722 A1 WO2009150722 A1 WO 2009150722A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
trace information
trace
program
storage area
Prior art date
Application number
PCT/JP2008/060624
Other languages
French (fr)
Japanese (ja)
Inventor
浩一 中西
Original Assignee
富士通株式会社
富士通周辺機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社, 富士通周辺機株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2008/060624 priority Critical patent/WO2009150722A1/en
Publication of WO2009150722A1 publication Critical patent/WO2009150722A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3636Software debugging by tracing the execution of the program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Definitions

  • the present invention when acquiring and recording trace information related to the history of operation of a computer system control program as data for investigating the cause of failure occurrence in various computer systems or computer devices, The present invention relates to a trace information control apparatus, a trace information control method, and a program for causing a computer to execute the trace information control method.
  • Trace information is enabled.
  • the trace information includes normal information indicating which path the device control program for overall control of the computer system has executed, various hardware parameters, various parameters defined by the device control program, and Detailed information indicating the value of the variable is included. Normal information is trace information acquired in a mode with a large amount of information at the time of one trace information acquisition, and detailed information is trace information acquired in a mode with a small amount of information at the time of one trace information acquisition. is there.
  • the normal information is acquired in a mode in which only trace information that is really necessary for predictive monitoring of a computer abnormality (fault) is collected, or in a mode in which the amount of information at the time of one trace acquisition is small. It is defined as “shallow depth information”.
  • detailed information is a mode in which trace information that is considered to be useful if it is added to the really necessary trace information acquired as normal information, or the amount of information at the time of one trace acquisition. It is defined as “deep information” that is acquired in a mode with a large amount of information.
  • “firmware” is a term that means a combination of software and hardware necessary to control a computer system.
  • Trace information acquired by computer firmware is usually recorded by being stored in a memory or the like mounted on a computer system.
  • the amount of trace information recorded is limited by the memory size limit of the memory mounted on the computer system, or the memory size limit of the memory is limited.
  • the processing performance inherent to the computer for example, the processing speed of the computer
  • deteriorates due to excessive recording of trace information for this reason, it becomes difficult to leave a lot of detailed information with great depth as trace information.
  • a new trace information enhancement firmware may be created and a failure reproduction test may be performed.
  • the trace processing information acquisition / storage processing
  • the trace processing information acquisition / storage processing related to the information of the part that is operating normally after the failure occurs Made and recorded. Since the information of the normally operating part is overwritten on the trace information at the time of the failure and sequentially recorded, the important part of the information at the time of the failure may be flowing (erased). .
  • Patent Documents 1 to 4 related to the conventional trace information control method are presented as prior art documents.
  • a monitoring unit that monitors firmware processing in a communication control processing device and a DMA unit that transfers data instructed by the monitoring unit to a trace data storage unit are provided and stored in the firmware storage unit.
  • the detailed data of the processing module corresponding to the assigned label is transferred to the trace data storage unit, and if normal, the processing module
  • a firmware / trace data acquisition method is disclosed in which the DMA unit is controlled so that only the label is transferred to the trace data storage unit.
  • Patent Document 2 normally, the operating environment up to the occurrence of a failure and a history of minor failure information are recorded in a device history information file in the operating system, and when an important failure occurs in a certain device, Failure information record that records in the nonvolatile memory by combining the failure information that caused the critical failure with the operating environment and minor failure information until the occurrence of the critical failure of the device recorded in the device history information file A method is disclosed.
  • Patent Document 3 communication with an external device can be freely performed, and trace data can be stored when an abnormality occurs.
  • a recording medium processing apparatus including control means for controlling as described above.
  • Patent Document 4 there are a plurality of trace areas for storing trace information, usually overwritten and saved in a link buffer, and when important trace information is acquired, the trace area is prohibited from being overwritten.
  • the trace area is full , Save to the next trace area, and on the other hand, if the number of trace areas in the overwrite-disabled state reaches a certain number, the trace information in the trace area that was the oldest overwrite-protected state is output to a file, A trace information management method is disclosed in which overwriting prohibition of the trace area is canceled.
  • Patent Documents 1 to 4 the amount of trace information including detailed information that is effective when investigating the cause of a failure due to the limitation of the memory size of the memory mounted on the computer system.
  • specific measures to deal with the problems of the prior art such as limiting the performance of the computer or degrading the original processing performance of the computer due to excessive recording of trace information including the detailed information.
  • none of Patent Documents 1 to 4 can address the problems that occur in the conventional trace information control method.
  • An object of the present invention is to provide a trace information control apparatus, a trace information control method, and a program therefor that can prevent deterioration in the original processing performance of a computer by recording excessive trace information including detailed information.
  • the trace information control apparatus acquires the trace information acquisition means for acquiring the trace information of the apparatus control program for investigating the cause of the failure occurrence of the computer system, and the trace information acquisition means.
  • a trace information storage memory for storing the trace information
  • a control unit for controlling the trace information acquisition means and the trace information storage memory in a centralized manner.
  • the control unit reduces the depth of the trace information during normal operation of the trace information control apparatus. Control to perform the acquisition / storage process of the second information by increasing the depth of the trace information when an operation leading to a failure of the computer system is detected by performing the acquisition / storage process of the first information. To do.
  • “Decrease the depth of trade information” is set to a mode that collects only the trace information that is really necessary for predictive monitoring of computer abnormalities (failures) as described in the section “Background Art” above. By doing so, for example, it means that the amount of information at the time of one trace acquisition is reduced.
  • “increasing the depth of trade information” is convenient if it is added to the really necessary trace information acquired as normal information, as explained in the section “Background Art” above. By setting the mode to collect trace information that is considered to be intended, this means, for example, increasing the amount of information at the time of one trace acquisition.
  • the control unit sets the depth of the trace information when the failure does not occur after a predetermined time has elapsed since the operation leading to the failure is detected.
  • the first information is acquired / stored shallowly.
  • the trace information control device includes a trace information acquisition unit that acquires trace information of a device control program for investigating the cause of the failure occurrence of the computer system, and the trace information acquisition unit.
  • Trace information storage memory for storing the acquired trace information, the device control program, a program storage memory for storing a trace information trace program for performing the acquisition / storage processing of the trace information, and the device control
  • a program execution memory in which the device control program and the trace information tracing program are loaded from the program storage memory when the program and the trace information tracing program are executed, and the device loaded in the program execution memory
  • a control unit that reads and executes the control program and the trace information trace program, and controls the trace information acquisition means, the trace information storage memory, the program storage memory, and the program execution memory, and
  • the trace information includes first trace information indicating which path the device control program has executed, and second trace information indicating values of various parameters and variables related to the device control program.
  • the control unit loads the first information tracing program for performing the acquisition / storage processing of the first information from the program storage memory to the program execution memory after the trace information control device is started up. If an action that leads to a failure is detected, the above A second information trace program for performing acquisition / storage processing of information 2 is overwritten from the program storage memory to the program execution memory, and the first information trace program is used for the second information trace Control to replace with a program.
  • the control unit performs the above operation when the failure does not occur after a predetermined time has elapsed since the operation leading to the failure was detected.
  • a first information trace program is overwritten and loaded from the program storage memory to the program execution memory, and the second information trace program is replaced with the first information trace program.
  • the trace information control device includes a trace information acquisition unit that acquires trace information of a device control program for investigating the cause of the failure occurrence of the computer system, and the trace information acquisition unit.
  • a trace information storage memory that stores the acquired trace information; and a control unit that controls the trace information acquisition unit and the trace information storage memory in an integrated manner.
  • First trace information for example, a normal information storage area
  • second trace information for example, a detailed information storage area
  • the trace information storage area in the trace information storage memory includes the first trace information.
  • the control section is divided in advance into a storage area and a second trace information storage area, and the control unit stores the first information in the first information storage area during normal operation of the trace information control device, When an operation leading to a failure of the computer system is detected, the first information is stored in the first information storage area and the second information is stored in the second information storage area. Furthermore, when the number of times that the operation leading to the failure is detected exceeds a predetermined threshold, the size of the second information storage area is dynamically increased.
  • the trace information control device includes a trace information acquisition unit that acquires trace information of a device control program for investigating the cause of the failure of the computer system, and the trace information acquisition unit.
  • Trace information storage memory for storing the acquired trace information, the device control program, and a program storage memory for storing a trace information tracing program for performing the acquisition and storage processing of the trace information (for example, nonvolatile memory) Memory), the device control program, and the trace information tracing program, the program execution memory into which the device control program and the trace information tracing program are loaded from the program storage memory, and the program execution memory Control that reads and executes the loaded apparatus control program and trace information tracing program, and controls the trace information acquisition means, the trace information storage memory, the program storage memory, and the program execution memory in an integrated manner
  • the trace information includes first trace information indicating which path the device control program has executed, and second trace indicating values of various parameters and variables related to the device control program.
  • the trace information storage area in the trace information storage memory is divided in advance into
  • the control unit executes a first information trace program for performing the acquisition / storage process of the first information after the trace information control apparatus is activated.
  • the program storage memory is loaded into the program execution memory, and the first information is controlled to be stored in the first information storage area based on the first information tracing program.
  • the section overwrites and loads the second information tracing program for acquiring and storing the second information from the program storage memory to the program execution memory when an operation leading to a failure of the computer system is detected. And storing the second information in the second information storage area based on the second information tracing program. And controlled so, further, when the number of times of detecting the operation leading to the failure exceeds a predetermined threshold, and controls to dynamically increase the size of the second information storage area.
  • the trace information control method includes a trace information storage memory that acquires and stores trace information of a device control program for investigating the cause of the failure of the computer system, and the trace information is stored in the device control program.
  • a trace information control device including first trace information indicating which route the program has executed and second trace information indicating various parameters and variable values related to the device control program.
  • the trace information control method includes a trace information storage memory that acquires and stores trace information of a device control program for investigating the cause of the failure of the computer system, and the trace information is stored in the device control.
  • a trace information control device including first trace information indicating which route the program has executed and second trace information indicating various parameters and variable values related to the device control program.
  • a program for causing a computer to execute this trace information control method is a trace provided with a trace information storage memory for acquiring and storing trace information of an apparatus control program for investigating the cause of the failure of the computer system.
  • a program for causing a computer to execute the trace information control method is a trace having a trace information storage memory for acquiring and storing trace information of a device control program for investigating the cause of the failure occurrence of the computer system.
  • the trace information storage area in the trace information storage memory is divided into a first trace information storage area and a second trace information storage area in advance in a computer, and the trace information control apparatus During normal operation, first information is stored in the first information storage area, and when an operation leading to a failure of the computer system is detected, the first information is stored in the first information storage area. At the same time, the second information is stored in the second information storage area, and an operation leading to the failure is detected. When exceeding the threshold number predetermined, so as to perform the following comprising dynamically increase the size of the second information storage area.
  • the disclosed trace information control apparatus trace information control method, and program therefor, which path the apparatus control program executed by reducing the depth of the trace information during normal operation of the trace information control apparatus.
  • first information for example, normal information
  • second depth information for example, detailed information
  • the second depth information indicating the values of various parameters and variables related to the device control program is acquired and recorded in the trace information storage memory automatically by increasing the depth of the trace information. It is supposed to change.
  • the second information having a deep depth is not recorded more than necessary, and the amount of the second information that is effective when investigating the cause of the occurrence of the failure when the important failure occurs is recorded. Can be avoided.
  • a first information tracing program for performing acquisition / storage processing of the first information having a shallow depth after activation of the trace information control apparatus Is loaded from the program storage memory (for example, non-volatile memory) into the program execution memory, and when the occurrence of a retry or error leading to an important failure of the computer system is detected, the deep second information is acquired and stored A second information trace program for performing processing is overwritten and loaded from the program storage memory, and the first information trace program is automatically replaced with the second information trace program.
  • the program storage memory for example, non-volatile memory
  • the second information having a deep depth is not recorded more than necessary, and the amount of the second information that is effective when investigating the cause of the occurrence of the failure when the important failure occurs is recorded. Can be avoided.
  • the processing overhead of frequently determining the flag is generated, so that the cause of the failure can be prevented without degrading the original processing performance of the computer. It becomes possible to efficiently record the second information that is effective for the investigation.
  • the trace information storage area in the trace information storage memory is divided into the first trace information storage area (for example, the normal information storage area) and the second trace information storage area. It is divided in advance into a trace information storage area (for example, a detailed information storage area).
  • the first information is stored in the first information storage area, which is an important failure of the computer system.
  • the second information is stored in the second information storage area, and the number of occurrences of a retry or error leading to an important failure is determined in advance.
  • control is performed to dynamically increase the size of the second information storage area.
  • the necessary amount of second information having a deep depth can be obtained. Since the information is recorded in the information storage area 2, it is possible to efficiently record the second information effective in investigating the cause of the failure without affecting the original processing performance of the computer. Become.
  • the trace information storage area into a first trace information storage area and a second trace information storage area in advance, the occurrence of retries or errors leading to an important failure of the computer system is detected. If the second trace information cannot be taken out from the trace information storage memory immediately after the first trace information is overwritten, the first trace information of the part that is operating normally after the occurrence of the important fault is overwritten on the second trace information. Thus, it is possible to prevent the second information when the failure occurs from being erased.
  • FIG. 1 is a block diagram showing the overall hardware configuration of a computer system to which the trace information control apparatus according to the embodiment is applied.
  • FIG. 2 is a schematic diagram showing a state of switching between the normal information tracing program and the detailed information tracing program of FIG.
  • FIG. 3 is a flowchart for explaining trace execution processing of trace information to be compared with the trace information control method of the present application;
  • FIG. 4 is a flowchart for explaining trace execution processing of trace information (normal information) in the first embodiment.
  • FIG. 5 is a flowchart for explaining trace execution processing of trace information (detailed information) in the first embodiment;
  • FIG. 1 is a block diagram showing the overall hardware configuration of a computer system to which the trace information control apparatus according to the embodiment is applied.
  • FIG. 2 is a schematic diagram showing a state of switching between the normal information tracing program and the detailed information tracing program of FIG.
  • FIG. 3 is a flowchart for explaining trace execution processing of trace information to be compared with the trace
  • FIG. 6 is a schematic diagram showing how the trace information storage area is divided in the second embodiment.
  • FIG. 7 is a flowchart for explaining trace execution processing of trace information (normal information and detailed information) in the second embodiment;
  • FIG. 8 is a flowchart for explaining trace execution processing of trace information (normal information) in the third embodiment;
  • FIG. 9 is a flowchart for explaining trace execution processing of trace information (detailed information) in the third embodiment.
  • FIG. 1 is a block diagram showing the overall hardware configuration of a computer system to which the trace information control apparatus according to this embodiment is applied
  • FIG. 2 is a program for normal information tracing and detailed information tracing in FIG. It is a schematic diagram which shows a mode that it switches between programs.
  • FIG. 1 illustrates a hardware configuration of a computer system 9 configured by the trace information control apparatus according to the present embodiment.
  • FIG. 2 illustrates main configuration requirements of the trace information control apparatus according to the present embodiment.
  • the programs stored in the program storage memory 1 and the program execution memory 2 are schematically shown.
  • the trace information used as data for investigating the cause of the failure in the computer system usually indicates which path the device control program for controlling the computer system has executed. Information and detailed information indicating various parameters of hardware and values of various parameters and variables defined by the apparatus control program are included.
  • the same components as those described above are denoted by the same reference numerals.
  • a program storage memory 1 for storing various programs related to the operation of the computer system when investigating the cause of the failure of the computer system.
  • the program storage memory 1 is configured by a nonvolatile memory such as a flash memory or a rewritable ROM (read-only memory).
  • the program storage memory 1 includes a device control program storage area 10 for storing a device control program 10p (see FIG. 2), and a normal information tracing program 11p for performing normal information acquisition / storage processing (see FIG. 2). ) For storing a normal information trace and a detailed information trace program storage area 12 for storing a detailed information trace program 12p (see FIG. 2) for acquiring and storing detailed information. is doing.
  • the apparatus control program 10p (see FIG. 2), the normal information tracing program 11p (see FIG. 2) and the detailed information tracing program 12p (see FIG. 2) can be executed.
  • a program execution memory 2 in which these programs are loaded from the program storage memory 1 is provided.
  • the program execution memory 2 is configured by a memory that can be written and read as needed, such as a RAM (Random Access Memory).
  • the program execution memory 2 stores a program execution area for storing a device control program, a normal information tracing program, and a detailed information tracing program, and various parameters necessary for executing these programs. Parameter storage area.
  • trace information acquisition means 5 for acquiring and temporarily holding trace information used as data for investigating the cause of the failure occurrence in the computer system, and this trace information acquisition means 5
  • a trace information storage memory 3 for storing (recording) the trace information held in the memory.
  • the trace information storage memory 3 is configured by a non-volatile memory such as a rewritable ROM.
  • this trace information storage memory 3 has a trace information storage area for storing trace information including normal information and detailed information.
  • the computer system 9 shown in FIG. 1 displays the trace information stored in the trace information storage memory 3, or executes the device control program, the normal information trace program, and the detailed information trace program to execute the trace.
  • a trace information output means 6 including a display unit for displaying a state in which information is recorded.
  • control unit 4 that controls the program storage memory 1, the program execution memory 2, the trace information acquisition unit 5, the trace information storage memory 3, and the trace information output unit 6 is provided. Is provided.
  • the program storage memory 1, the program execution memory 2, the trace information acquisition unit 5, the trace information storage memory 3, the trace information output unit 6, and the control unit 4 are connected to each other via a bus B.
  • control unit 5 and the trace information acquisition means 5 are realized by a CPU (Central Processing Unit) of a computer. More specifically, the device control program, the normal information tracing program, and the detailed information tracing program are loaded and copied from the ROM of the program storage memory 1 to the RAM of the program execution memory 2, for example.
  • the function of the CPU firmware is realized by reading out the program, the normal information tracing program, the detailed information tracing program, and various parameters necessary for executing the program by the CPU and executing the program.
  • the ROM and RAM included in the program storage memory 1 and the program execution memory 2 it is possible to use a ROM or RAM built in the CPU.
  • the CPU firmware operates in the following processing flow (1) to (3).
  • the trace information control device After starting the trace information control device, the trace information control device is set to the normal operation trace state, the normal information trace program is loaded from the program storage memory 1 to the program execution memory 2, and the normal information trace The normal information is acquired on the basis of the program for storage and stored in the trace information storage memory 2.
  • the depth of the trace information is set to the default shallow depth, so that only normal information with a shallow depth is recorded.
  • the definitions of “normal information with a shallow depth” and “detailed information with a deep depth” are described again.
  • Normal depth information is information that is acquired in a mode that collects only trace information that is really necessary for predictive monitoring of computer abnormalities (failures), or in a mode that has a small amount of information at the time of one trace acquisition. is there.
  • “detailed detailed information” is a mode for collecting trace information that is considered to be useful if it was added to the trace information that is really necessary as normal information, or a single trace. This is information acquired in a mode with a large amount of information at the time of acquisition.
  • the detailed information with a deep depth is not recorded more than necessary by automatically switching between the normal information tracing program and the detailed information tracing program. It is possible to avoid limiting the amount of detailed information that is effective when investigating the cause of the failure at the time of the failure.
  • the processing overhead of frequently determining the flag is generated, thereby affecting the original processing performance of the computer (for example, the processing speed of the computer). It is possible to efficiently record detailed information that is effective in investigating the cause of the occurrence of a failure.
  • the program storage memory 1 includes a device control program 10p, a normal information tracing program 11p for performing normal information acquisition / storage processing, and detailed information acquisition / storage processing.
  • a detailed information tracing program 12p for performing the above is stored.
  • the device control program 10p and the normal information tracing program 11p are loaded from the program storage memory 1 to the program execution memory 2 (state during normal information tracing). Based on the normal information tracing program 11p, a process is performed in which only normal information having a shallow depth is acquired and stored in the trace information storage memory 2 (see FIG. 1).
  • the device control program 10p and the detailed information trace are triggered by this.
  • the program 12p is overwritten and loaded from the program storage memory 1 to the program execution memory 2 (the state at the time of tracing detailed information).
  • the program execution memory 2 the normal information tracing program 11p is completely replaced with the detailed information tracing program 12p.
  • processing for selectively acquiring detailed information having a deep depth and storing it in the trace information storage memory 3 is performed.
  • the device control program 10p and the detailed information tracing program 12p are overwritten from the program storage memory 1 to the program execution memory 2 again. The operation as shown in FIG. 2B is repeated.
  • FIG. 3 is a flowchart for explaining the trace execution process of the trace information to be compared with the trace information control method of the present application
  • FIG. 4 shows the trace execution process of the trace information (normal information) in the first embodiment
  • FIG. 5 is a flowchart for explaining trace execution processing of trace information (detailed information) in the first embodiment.
  • FIG. 3 illustrates a trace execution process based on a flag determination method executed by operating a computer CPU
  • FIG. 4 illustrates a full replacement method for a trace information trace program executed by operating a computer CPU (described above).
  • FIG. 2 will be used to explain the trace execution process by referring to the switching between the normal information trace program and the detailed information trace program.
  • step S10 when executing the trace execution process by the flag determination method, as shown in step S10, the detailed information for performing the detailed information trace process by determining the flag set in the apparatus control program It is determined whether the mode is the trace storage mode or the normal information trace storage mode in which the normal information trace processing is performed. If the detailed information trace storage mode is set, the process proceeds to step S11 to execute processing for acquiring detailed information and storing it in the trace storage memory.
  • step S12 the flag set in the device control program is determined again to determine whether an important failure of the computer system has occurred (ie, , Whether or not a process for storing detailed information in the trace storage memory is necessary) is detected. If it is detected that a serious failure has occurred in the computer system, the process proceeds to step S13, and the detailed information trace storage mode is set by switching from the normal information trace storage mode to the detailed information trace storage mode. Executes the process of storing in the trace storage memory.
  • step S14 If it is not detected that a serious failure has occurred in the computer system, the process proceeds to step S14, and the process of storing the normal information in the trace storage memory is executed while the normal information trace storage mode is set.
  • the program itself When executing the processes in steps S10 to S14, the program itself is simple, but the flag is frequently determined when either one of the normal information tracing program or the detailed information tracing program is executed. If processing overhead occurs, the original processing performance of the computer may be deteriorated.
  • the trace execution process by the full replacement method of the trace information trace program of FIG. 4 and FIG. 5 is presented in order to eliminate the disadvantages of the trace execution process by the flag determination method of FIG. 3 as described above. .
  • the trace information control apparatus when executing the trace execution process by the full replacement method of the trace information trace program, after starting the trace information control apparatus, the trace information control apparatus is set to the state at the time of normal information tracing. In other words, after the trace information control device is activated, the normal information trace storage mode is automatically set. Therefore, it is not necessary to determine whether the detailed information trace storage mode is set or the normal information trace storage mode by determining the flag set on the apparatus control program.
  • the normal information trace storage mode is set after the trace information control device is activated, the normal information is acquired and stored in the trace information storage memory.
  • step S20 of FIG. 4 whether or not a retry or an error leading to an important failure of the computer system has occurred by determining the flag set in the device control program (that is, details) Whether or not processing for storing information in the trace storage memory is necessary) is detected. If it is detected that a retry or error leading to an important failure of the computer system has occurred, the process proceeds to step S21, and the detailed information tracing program is overwritten from the program storage memory to the program execution memory, and the normal information tracing program is loaded. Completely replace with detailed information tracing program.
  • the trace information control device is set to the state at the time of detailed information tracing.
  • the normal information trace storage mode is switched to the detailed information trace storage mode, as shown in step S30, a process of acquiring detailed information and storing it in the trace information storage memory is executed.
  • step S22 in FIG. 4 the normal information is stored in the trace storage memory while being set in the normal information trace storage mode. Execute the process stored in.
  • the process for determining the flag when executing either the normal information trace program or the detailed information trace program is the same as that shown in the flowchart of FIG. Less than you need. Therefore, the processing overhead of frequently determining the flag is substantially eliminated so that the original processing performance of the computer is not deteriorated.
  • FIG. 6 is a schematic diagram showing how the trace information storage area is divided in the second embodiment.
  • a state in which the trace information storage area in the trace information storage memory 3 is divided in advance into a normal information storage area and a detailed information storage area will be described.
  • the trace information storage area in the trace information storage memory 3 stores the normal information storage area for storing the normal information 30 and the detailed information 31.
  • the detailed information storage area is divided in advance.
  • the normal information storage area is disposed below the trace information storage area, and the detailed information storage area is disposed above the trace information storage area.
  • the normal information trace storage mode is set after the trace information control device is activated, the normal information is acquired and stored in the normal information normal information storage area.
  • the process returns to the top address at the top of the normal information storage area, and the normal information tracing process is continued. In this case, the old normal information written previously is overwritten in the normal information storage area.
  • first trigger when it is detected that a retry or an error leading to an important failure of the computer system has occurred, this is used as the first trigger (first trigger) and normal information is stored as normal information.
  • first trigger normal information
  • normal information is stored as normal information.
  • the detailed information effective in investigating the cause of the failure although the occurrence frequency is low is stored in the detailed information storage area.
  • only the normal information is stored in the normal information storage area, and only the detailed information is stored in the detailed information storage area. Detailed information of the important part is never erased.
  • the size of the detailed information storage area is automatically changed by dynamically increasing the size of the detailed information storage area.
  • the newly acquired detailed information may be overwritten on a part of the normal information storage area by changing the top address of the top of the normal information storage area. I can do it.
  • the size of the detailed information storage area is determined based on statistical information related to the most recent normal information and detailed information acquired immediately before, in addition to a predetermined value.
  • the currently acquired detailed information is not stored in the detailed information storage area. ing. As a result, only the detailed information effective when investigating the cause of the occurrence of the failure is recorded, so that the detailed information with low occurrence frequency can be used effectively.
  • FIG. 7 is a flowchart for explaining a trace execution process of trace information (normal information and detailed information) in the second embodiment.
  • the trace information storage area division method executed by operating the CPU of the computer (refer to the state where the trace information storage area is divided in advance into a normal information storage area and a detailed information storage area in FIG. 6 described above.
  • the trace execution process according to the above is described.
  • the trace information storage area in the trace information storage memory is divided in advance into a normal information storage area and a detailed information storage area. After starting the trace information control device, a process of acquiring normal information and storing it in the normal information storage area is executed.
  • step S40 When it is detected that a retry or error leading to an important failure of the computer system has occurred, as shown in step S40, the normal information is acquired and stored in the normal information storage area, and the detailed information is acquired and the details are acquired. Execute processing to store in the information storage area. At this time, the number of times that the occurrence of a retry or error leading to an important failure is detected (that is, the number of traces) is counted up by a counter or the like in the computer system.
  • step S41 by determining whether or not the number of detected occurrences of retries or errors leading to an important failure has exceeded a predefined threshold, the detailed information storage area It is determined whether it is necessary to change the size.
  • the threshold that is, when it is determined that it is necessary to change the size of the detailed information storage area
  • the size of the detailed information storage area is dynamically increased by changing the leading address of the normal information storage area that is the storage location of the trace information (detailed information).
  • step S43 the newly acquired detailed information is overwritten in a part of the normal information storage area, thereby executing processing for storing this detailed information in the trace information storage area.
  • step S43 the process proceeds to step S43, and the detailed information storage area size remains unchanged. Is stored in the trace information storage area.
  • the trace information storage area into a normal information storage area and a detailed information storage area in advance, detailed information is traced immediately after the occurrence of a retry or error leading to an important failure is detected. Even when the information cannot be extracted from the information storage area, it is possible to prevent the important information from being erased when the failure occurs by erasing the normal information over the detailed information storage area.
  • FIG. 8 is a flowchart for explaining trace execution processing of trace information (normal information) in the third embodiment.
  • FIG. 9 shows trace execution processing of trace information (detailed information) in the third embodiment. It is a flowchart for demonstrating.
  • a trace execution process executed by a combination of the full replacement method of the trace information trace program related to the first embodiment and the trace information storage area division method related to the second embodiment. Will be explained.
  • the trace information control device After starting the trace information control device, set the trace information control device to the normal information trace state. Since the normal information trace storage mode is automatically set after the trace information control device is activated, the normal information is acquired and stored in the trace information storage memory.
  • step S50 of FIG. 8 whether or not a retry or an error leading to an important failure of the computer system has occurred by determining the flag set in the device control program (that is, details) Whether or not processing for storing information in the trace storage memory is necessary) is detected. If it is detected that a retry or error leading to an important failure of the computer system has occurred, the process proceeds to step S51, where the detailed information tracing program is overwritten from the program storage memory to the program execution memory, and the normal information tracing program is loaded. Completely replace with detailed information tracing program.
  • step S52 the normal information is stored in the trace storage memory while being set in the normal information trace storage mode. Execute the process.
  • the trace information control device is changed based on the detailed information tracing program in the flowchart of FIG. Set the status when tracing detailed information.
  • the normal information trace storage mode is switched to the detailed information trace storage mode, as shown in step S60 of FIG. 9, a process of acquiring detailed information and storing it in the detailed information storage area is executed.
  • the number of times that the occurrence of a retry or error leading to an important failure is detected is counted up by a counter or the like in the computer system.
  • step S61 by determining whether or not the number of detected occurrences of retries or errors leading to an important failure has exceeded a predefined threshold, the detailed information storage area It is determined whether it is necessary to change the size.
  • the threshold that is, when it is determined that it is necessary to change the size of the detailed information storage area
  • the size of the detailed information storage area is dynamically increased by changing the head address of the normal information storage area that is the storage location of the trace information (detailed information).
  • step S63 the newly acquired detailed information is overwritten on a part of the normal information storage area, thereby executing processing for storing this detailed information in the trace information storage area.
  • step S63 the process proceeds to step S63, and the detailed information storage area size remains unchanged. Is stored in the trace information storage area.
  • the flag is set when executing either the normal information trace program or the detailed information trace program, as in the case of the first embodiment.
  • the determination process is less than in the case of the flowchart of FIG. Therefore, the processing overhead of frequently determining the flag is substantially eliminated so that the original processing performance of the computer is not deteriorated.
  • the details according to the number of times that the occurrence of a retry or an error leading to an important failure is detected, as in the case of the second embodiment described above.
  • the details according to the number of times that the occurrence of a retry or an error leading to an important failure is detected, as in the case of the second embodiment described above.
  • the trace information storage area is divided into a normal information storage area and a detailed information storage area in advance as in the case of the second embodiment. If detailed information cannot be retrieved from the trace information storage area immediately after the occurrence of a retry or error leading to an important failure is detected, the normal information is overwritten in the detailed information storage area. Therefore, it is possible to prevent the detailed information of the important part at the time of failure from being erased.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

A trace information control device comprises a trace information acquiring means for acquiring trace information on a device control program for investigating the cause of a failure, a trace information storage memory for storing the trace information acquired by the trace information acquiring means, and a control unit for integrally controlling the trace information acquiring means and the trace information storage memory. The trace information includes first trace information indicating the route executed by the device control program and second trace information indicating the values of various parameters and variables related to the device control program. The control unit acquires/stores the first information by reducing the depth of the trace information during the normal operation of the trace information control device and, when detecting the operation leading to a failure of the computer system, controls so as to acquire/store the second information by increasing the depth of the trace information.

Description

トレース情報制御装置、トレース情報制御方法およびそのためのプログラムTrace information control apparatus, trace information control method, and program therefor
 本発明は、各種のコンピュータシステムまたはコンピュータ装置における障害発生の原因を調査する資料として、コンピュータシステム制御用のプログラムの動作の経歴等に関連するトレース情報を取得して記録する際に、当該トレース情報の取得・記録等に関する処理を適切に制御するためのトレース情報制御装置、トレース情報制御方法、および、このトレース情報制御方法をコンピュータに実行させるためのプログラムに関する。 The present invention, when acquiring and recording trace information related to the history of operation of a computer system control program as data for investigating the cause of failure occurrence in various computer systems or computer devices, The present invention relates to a trace information control apparatus, a trace information control method, and a program for causing a computer to execute the trace information control method.
 一般に、汎用のコンピュータを用いた各種のコンピュータシステムまたはコンピュータ装置において障害や不具合が発生した後で、コンピュータシステムの障害発生の原因を調査する際に、コンピュータのファームウェアにより取得されて記録(ロギングとも称する)されているトレース情報が有効となる。このトレース情報には、コンピュータシステムを統括的に制御するための装置制御プログラムがどの経路を実行したかを示す通常情報や、ハードウェアの各種のパラメータや装置制御プログラムにより定義される各種のパラメータおよび変数の値を示す詳細情報が含まれる。通常情報は、一回のトレース情報取得時の情報量が多いモードで取得されるトレース情報であり、詳細情報は、一回のトレース情報取得時の情報量が少ないモードで取得されるトレース情報である。より詳細にいえば、通常情報は、コンピュータの異常(障害)の予兆監視に関して本当に必要なトレース情報のみを採取するモード、または、一回のトレース取得時の情報量が少ないモードで取得される「深度の浅い情報」として定義される。また一方で、詳細情報は、通常情報として取得される本当に必要なトレース情報に加えてあったならば便利であろうと考えられるトレース情報も採取するモード、または、一回のトレース取得時の情報量が多いモードで取得される「深度の深い情報」として定義される。さらに、「ファームウェア」は、コンピュータシステムを制御するために必要なソフトウェアおよびハードウェアの組み合わせを意味する用語である。 In general, after a failure or malfunction occurs in various computer systems or computer devices using a general-purpose computer, when the cause of the failure of the computer system is investigated, it is acquired and recorded by computer firmware (also called logging). ) Trace information is enabled. The trace information includes normal information indicating which path the device control program for overall control of the computer system has executed, various hardware parameters, various parameters defined by the device control program, and Detailed information indicating the value of the variable is included. Normal information is trace information acquired in a mode with a large amount of information at the time of one trace information acquisition, and detailed information is trace information acquired in a mode with a small amount of information at the time of one trace information acquisition. is there. More specifically, the normal information is acquired in a mode in which only trace information that is really necessary for predictive monitoring of a computer abnormality (fault) is collected, or in a mode in which the amount of information at the time of one trace acquisition is small. It is defined as “shallow depth information”. On the other hand, detailed information is a mode in which trace information that is considered to be useful if it is added to the really necessary trace information acquired as normal information, or the amount of information at the time of one trace acquisition. It is defined as “deep information” that is acquired in a mode with a large amount of information. Furthermore, “firmware” is a term that means a combination of software and hardware necessary to control a computer system.
 コンピュータのファームウェアにより取得されたトレース情報は、通常、コンピュータシステムに搭載されるメモリ等に格納されることによって記録される。このコンピュータシステムを用いて遂行されるような従来のトレース情報制御方法では、コンピュータシステムに搭載されるメモリのメモリサイズの制限によってトレース情報が記録される量が制限されたり、メモリのメモリサイズの制限にもかかわらずトレース情報を過多に記録することによってコンピュータ本来の処理性能(例えば、コンピュータの処理速度)が劣化したりするといったような問題が発生する。このため、トレース情報として、深度の深い詳細情報を多く残すことが難しくなる。これによって、障害等が発生した時点における解析用の情報が不足するという事態が生じてくる。この場合には、トレース情報強化用のファームウェアを新たに作成し、障害発生の再現テストをわざわざ実施することもある。 Trace information acquired by computer firmware is usually recorded by being stored in a memory or the like mounted on a computer system. In the conventional trace information control method performed using this computer system, the amount of trace information recorded is limited by the memory size limit of the memory mounted on the computer system, or the memory size limit of the memory is limited. Nevertheless, there is a problem that the processing performance inherent to the computer (for example, the processing speed of the computer) deteriorates due to excessive recording of trace information. For this reason, it becomes difficult to leave a lot of detailed information with great depth as trace information. As a result, a situation occurs in which information for analysis at the time of occurrence of a failure or the like is insufficient. In this case, a new trace information enhancement firmware may be created and a failure reproduction test may be performed.
 また一方で、障害等が発生した後、すぐにトレース情報をメモリから取り出すことができなかった場合、障害発生後に正常に動作している部分の情報に関するトレース処理(情報の取得・格納処理)がなされて記録される。この正常に動作している部分の情報は、障害発生時のトレース情報に上書きされて順次記録されるので、障害発生時の肝心な部分の情報が流れている(消去されている)場合もある。 On the other hand, if the trace information cannot be extracted from the memory immediately after a failure occurs, the trace processing (information acquisition / storage processing) related to the information of the part that is operating normally after the failure occurs Made and recorded. Since the information of the normally operating part is overwritten on the trace information at the time of the failure and sequentially recorded, the important part of the information at the time of the failure may be flowing (erased). .
 ここで、参考のため、従来のトレース情報制御方法に関連した下記の特許文献1~特許文献4を先行技術文献として呈示する。 Here, for reference, the following Patent Documents 1 to 4 related to the conventional trace information control method are presented as prior art documents.
 特許文献1においては、通信制御処理装置におけるファームウェアの処理を監視する監視部と、この監視部により指示されたデータをトレースデータ格納部に転送するDMA部とを設け、ファームウェア格納部に格納された複数の処理モジュールの各々に対しラベルを付与し、監視部で異常発生が検出されると、付与されているラベルに対応する処理モジュールの詳細データをトレースデータ格納部へ転送させ、正常なら処理モジュールのラベルのみをトレースデータ格納部へ転送させるべくDMA部を制御するファームウェア・トレースデータ取得方式が開示されている。 In Patent Document 1, a monitoring unit that monitors firmware processing in a communication control processing device and a DMA unit that transfers data instructed by the monitoring unit to a trace data storage unit are provided and stored in the firmware storage unit. When a label is assigned to each of the plurality of processing modules and an abnormality is detected by the monitoring unit, the detailed data of the processing module corresponding to the assigned label is transferred to the trace data storage unit, and if normal, the processing module A firmware / trace data acquisition method is disclosed in which the DMA unit is controlled so that only the label is transferred to the trace data storage unit.
 特許文献2においては、通常時は、障害発生までの動作環境および軽微な障害情報の履歴をオペレーティングシステム内の装置履歴情報ファイルに記録しておき、ある装置に重要障害が発生した時点で、この重要障害の原因となった障害情報と、上記装置履歴情報ファイルに記録されている当該装置の重要障害発生までの動作環境および軽微な障害情報とを結合して不揮発メモリ内に記録する障害情報記録方法が開示されている。 In Patent Document 2, normally, the operating environment up to the occurrence of a failure and a history of minor failure information are recorded in a device history information file in the operating system, and when an important failure occurs in a certain device, Failure information record that records in the nonvolatile memory by combining the failure information that caused the critical failure with the operating environment and minor failure information until the occurrence of the critical failure of the device recorded in the device history information file A method is disclosed.
 特許文献3においては、外部機器との通信が自在で、異常発生時にはトレースデータを格納することが可能であり、通常の異常発生時専用の通常トレースデータ格納メモリと、低頻度の異常発生時専用の特定トレースデータ格納メモリと、設定手段により設定されたデータ種別、データ量およびデータ切り取り位置に基づいて、低頻度の異常発生時のトレースデータのうち必要なデータを特定トレースデータ格納メモリに格納するように制御する制御手段とを具備する記録媒体処理装置が開示されている。 In Patent Document 3, communication with an external device can be freely performed, and trace data can be stored when an abnormality occurs. A normal trace data storage memory dedicated for the occurrence of a normal abnormality and a dedicated memory for occurrence of a low-frequency abnormality. Based on the specified trace data storage memory and the data type, data amount, and data cut position set by the setting means, necessary data is stored in the specific trace data storage memory at the time of occurrence of low frequency abnormality. There is disclosed a recording medium processing apparatus including control means for controlling as described above.
 特許文献4においては、トレース情報を格納するトレースエリアを複数面持ち、通常はリンクバッファで上書き保存し、重要なトレース情報を取得した場合、そのトレースエリアを上書き禁止とし、当該トレースエリアが満杯のときには、次のトレースエリアに保存し、また一方で、上書き禁止状態のトレースエリアの面数が一定数に達した場合、最古に上書き禁止状態としたトレースエリア内のトレース情報をファイルに出力し、当該トレースエリアの上書き禁止を解除するようにしたトレース情報管理方法が開示されている。 In Patent Document 4, there are a plurality of trace areas for storing trace information, usually overwritten and saved in a link buffer, and when important trace information is acquired, the trace area is prohibited from being overwritten. When the trace area is full , Save to the next trace area, and on the other hand, if the number of trace areas in the overwrite-disabled state reaches a certain number, the trace information in the trace area that was the oldest overwrite-protected state is output to a file, A trace information management method is disclosed in which overwriting prohibition of the trace area is canceled.
 しかしながら、特許文献1~特許文献4のいずれにおいても、コンピュータシステムに搭載されるメモリのメモリサイズの制限によって、障害発生の原因を調査する際に有効な詳細情報を含むトレース情報が記録される量が制限されたり、当該詳細情報を含むトレース情報を過多に記録することによってコンピュータ本来の処理性能が劣化したりするといったような従来技術の問題点に対処するための具体的な方策に関しては言及していない。それゆえに、特許文献1~特許文献4のいずれによっても、従来のトレース情報制御方法にて発生する問題点に対処することはできない。 However, in any of Patent Documents 1 to 4, the amount of trace information including detailed information that is effective when investigating the cause of a failure due to the limitation of the memory size of the memory mounted on the computer system. As for specific measures to deal with the problems of the prior art, such as limiting the performance of the computer or degrading the original processing performance of the computer due to excessive recording of trace information including the detailed information. Not. Therefore, none of Patent Documents 1 to 4 can address the problems that occur in the conventional trace information control method.
特開平7-93233号公報Japanese Patent Laid-Open No. 7-93233 特開平5-324367号公報JP-A-5-324367 特開2001-93002号公報JP 2001-93002 A 特開2001-175509号公報JP 2001-175509 A
 この出願の目的は、コンピュータシステム等のメモリのメモリサイズの制限によって障害発生の原因を調査する際に有効な詳細情報を含むトレース情報が記録される量が制限されるのを防止すると共に、当該詳細情報を含むトレース情報を過多に記録することによってコンピュータ本来の処理性能が劣化するのを防止することが可能なトレース情報制御装置、トレース情報制御方法およびそのためのプログラムを提供することにある。 The purpose of this application is to prevent the amount of trace information including detailed information that is effective when investigating the cause of failure occurrence from being limited by the memory size of a memory such as a computer system, and An object of the present invention is to provide a trace information control apparatus, a trace information control method, and a program therefor that can prevent deterioration in the original processing performance of a computer by recording excessive trace information including detailed information.
 上記目的を達成するために、このトレース情報制御装置は、コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得するトレース情報取得手段と、上記トレース情報取得手段にて取得された上記トレース情報を格納するトレース情報格納メモリと、上記トレース情報取得手段および上記トレース情報格納メモリを統括的に制御する制御部とを備え、上記トレース情報は、上記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報(例えば、通常情報)と、上記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報(例えば、詳細情報)とを含み、上記制御部は、上記トレース情報制御装置の通常動作時に、上記トレース情報の深度を浅くして上記第1の情報の取得・格納処理を行い、コンピュータシステムの障害につながる動作を検知した場合に、上記トレース情報の深度を深くして上記第2の情報の取得・格納処理を行うように制御する。 In order to achieve the above object, the trace information control apparatus acquires the trace information acquisition means for acquiring the trace information of the apparatus control program for investigating the cause of the failure occurrence of the computer system, and the trace information acquisition means. A trace information storage memory for storing the trace information, and a control unit for controlling the trace information acquisition means and the trace information storage memory in a centralized manner. Including first trace information (for example, normal information) indicating whether it has been executed, and second trace information (for example, detailed information) indicating values of various parameters and variables related to the device control program, The control unit reduces the depth of the trace information during normal operation of the trace information control apparatus. Control to perform the acquisition / storage process of the second information by increasing the depth of the trace information when an operation leading to a failure of the computer system is detected by performing the acquisition / storage process of the first information. To do.
 ここで、「トレード情報の深度を浅くする」は、前述の〔背景技術〕の項で説明したように、コンピュータの異常(障害)の予兆監視に関して本当に必要なトレース情報のみを採取するモードに設定することにより、例えば一回のトレース取得時の情報量を少なくすることを意味する。また一方で、「トレード情報の深度を深くする」は、前述の〔背景技術〕の項で説明したように、通常情報として取得される本当に必要なトレース情報に加えてあったならば便利であろうと考えられるトレース情報も採取するモードに設定することにより、例えば一回のトレース取得時の情報量を多くすることを意味する。 Here, “Decrease the depth of trade information” is set to a mode that collects only the trace information that is really necessary for predictive monitoring of computer abnormalities (failures) as described in the section “Background Art” above. By doing so, for example, it means that the amount of information at the time of one trace acquisition is reduced. On the other hand, “increasing the depth of trade information” is convenient if it is added to the really necessary trace information acquired as normal information, as explained in the section “Background Art” above. By setting the mode to collect trace information that is considered to be intended, this means, for example, increasing the amount of information at the time of one trace acquisition.
 好ましくは、このトレース情報制御装置において、上記制御部は、上記障害につながる動作が検知されてから所定の時間が経過した後に、上記障害が発生しなかった場合には、上記トレース情報の深度を浅くして上記第1の情報の取得・格納処理を行うようになっている。 Preferably, in the trace information control device, the control unit sets the depth of the trace information when the failure does not occur after a predetermined time has elapsed since the operation leading to the failure is detected. The first information is acquired / stored shallowly.
 また一方で、第1の態様に係るトレース情報制御装置は、コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得するトレース情報取得手段と、上記トレース情報取得手段にて取得された上記トレース情報を格納するトレース情報格納メモリと、上記装置制御プログラム、および、上記トレース情報の取得・格納処理を行うためのトレース情報トレース用プログラムを格納するプログラム格納メモリと、上記装置制御プログラムおよび上記トレース情報トレース用プログラムを実行させる際に、上記プログラム格納メモリから上記装置制御プログラムおよび上記トレース情報トレース用プログラムがロードされるプログラム実行メモリと、上記プログラム実行メモリにロードされている上記装置制御プログラムおよび上記トレース情報トレース用プログラムを読み出して実行させると共に、上記トレース情報取得手段、上記トレース情報格納メモリ、上記プログラム格納メモリおよび上記プログラム実行メモリを統括的に制御する制御部とを備え、上記トレース情報は、上記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、上記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含み、上記制御部は、上記トレース情報制御装置の起動後に、上記第1の情報の取得・格納処理を行うための第1の情報トレース用プログラムを上記プログラム格納メモリから上記プログラム実行メモリへロードし、コンピュータシステムの障害につながる動作を検知した場合に、上記第2の情報の取得・格納処理を行うための第2の情報トレース用プログラムを上記プログラム格納メモリから上記プログラム実行メモリへ上書きロードし、上記第1の情報トレース用プログラムを上記第2の情報トレース用プログラムに置き換えるように制御する。 On the other hand, the trace information control device according to the first aspect includes a trace information acquisition unit that acquires trace information of a device control program for investigating the cause of the failure occurrence of the computer system, and the trace information acquisition unit. Trace information storage memory for storing the acquired trace information, the device control program, a program storage memory for storing a trace information trace program for performing the acquisition / storage processing of the trace information, and the device control A program execution memory in which the device control program and the trace information tracing program are loaded from the program storage memory when the program and the trace information tracing program are executed, and the device loaded in the program execution memory A control unit that reads and executes the control program and the trace information trace program, and controls the trace information acquisition means, the trace information storage memory, the program storage memory, and the program execution memory, and The trace information includes first trace information indicating which path the device control program has executed, and second trace information indicating values of various parameters and variables related to the device control program. The control unit loads the first information tracing program for performing the acquisition / storage processing of the first information from the program storage memory to the program execution memory after the trace information control device is started up. If an action that leads to a failure is detected, the above A second information trace program for performing acquisition / storage processing of information 2 is overwritten from the program storage memory to the program execution memory, and the first information trace program is used for the second information trace Control to replace with a program.
 好ましくは、第1の態様に係るトレース情報制御装置において、上記制御部は、上記障害につながる動作が検知されてから所定の時間が経過した後に、上記障害が発生しなかった場合には、上記第1の情報トレース用プログラムを上記プログラム格納メモリから上記プログラム実行メモリへ上書きロードし、上記第2の情報トレース用プログラムを上記第1の情報トレース用プログラムに置き換えるようになっている。 Preferably, in the trace information control device according to the first aspect, the control unit performs the above operation when the failure does not occur after a predetermined time has elapsed since the operation leading to the failure was detected. A first information trace program is overwritten and loaded from the program storage memory to the program execution memory, and the second information trace program is replaced with the first information trace program.
 また一方で、第2の態様に係るトレース情報制御装置は、コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得するトレース情報取得手段と、上記トレース情報取得手段にて取得された上記トレース情報を格納するトレース情報格納メモリと、上記トレース情報取得手段および上記トレース情報格納メモリを統括的に制御する制御部とを備え、上記トレース情報は、上記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報(例えば、通常情報格納領域)と、上記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報(例えば、詳細情報格納領域)とを含み、上記トレース情報格納メモリ内のトレース情報格納領域が、第1のトレース情報格納領域と第2のトレース情報格納領域とに予め分割されており、上記制御部は、上記トレース情報制御装置の通常動作時に、上記第1の情報を上記第1の情報格納領域に格納し、コンピュータシステムの障害につながる動作を検知した場合に、上記第1の情報を上記第1の情報格納領域に格納すると共に上記第2の情報を上記第2の情報格納領域に格納するように制御し、さらに、上記障害につながる動作を検知した回数が予め定められた閾値を越えたときに、上記第2の情報格納領域のサイズを動的に大きくするように制御する。 On the other hand, the trace information control device according to the second aspect includes a trace information acquisition unit that acquires trace information of a device control program for investigating the cause of the failure occurrence of the computer system, and the trace information acquisition unit. A trace information storage memory that stores the acquired trace information; and a control unit that controls the trace information acquisition unit and the trace information storage memory in an integrated manner. First trace information (for example, a normal information storage area) indicating whether or not is executed, and second trace information (for example, a detailed information storage area) indicating values of various parameters and variables related to the device control program The trace information storage area in the trace information storage memory includes the first trace information. The control section is divided in advance into a storage area and a second trace information storage area, and the control unit stores the first information in the first information storage area during normal operation of the trace information control device, When an operation leading to a failure of the computer system is detected, the first information is stored in the first information storage area and the second information is stored in the second information storage area. Furthermore, when the number of times that the operation leading to the failure is detected exceeds a predetermined threshold, the size of the second information storage area is dynamically increased.
 また一方で、第3の態様に係るトレース情報制御装置は、コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得するトレース情報取得手段と、上記トレース情報取得手段にて取得された上記トレース情報を格納するトレース情報格納メモリと、上記装置制御プログラム、および、上記トレース情報の取得・格納処理を行うためのトレース情報トレース用プログラムを格納するプログラム格納メモリ(例えば、不揮発性メモリ)と、上記装置制御プログラムおよび上記トレース情報トレース用プログラムを実行させる際に、上記プログラム格納メモリから上記装置制御プログラムおよび上記トレース情報トレース用プログラムがロードされるプログラム実行メモリと、上記プログラム実行メモリにロードされている上記装置制御プログラムおよび上記トレース情報トレース用プログラムを読み出して実行させると共に、上記トレース情報取得手段、上記トレース情報格納メモリ、上記プログラム格納メモリおよび上記プログラム実行メモリを統括的に制御する制御部とを備え、上記トレース情報は、上記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、上記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含み、上記トレース情報格納メモリ内のトレース情報格納領域が、第1のトレース情報格納領域と第2のトレース情報格納領域とに予め分割されている。 On the other hand, the trace information control device according to the third aspect includes a trace information acquisition unit that acquires trace information of a device control program for investigating the cause of the failure of the computer system, and the trace information acquisition unit. Trace information storage memory for storing the acquired trace information, the device control program, and a program storage memory for storing a trace information tracing program for performing the acquisition and storage processing of the trace information (for example, nonvolatile memory) Memory), the device control program, and the trace information tracing program, the program execution memory into which the device control program and the trace information tracing program are loaded from the program storage memory, and the program execution memory Control that reads and executes the loaded apparatus control program and trace information tracing program, and controls the trace information acquisition means, the trace information storage memory, the program storage memory, and the program execution memory in an integrated manner The trace information includes first trace information indicating which path the device control program has executed, and second trace indicating values of various parameters and variables related to the device control program. The trace information storage area in the trace information storage memory is divided in advance into a first trace information storage area and a second trace information storage area.
 この第3の態様に係るトレース情報制御装置において、上記制御部は、上記トレース情報制御装置の起動後に、上記第1の情報の取得・格納処理を行うための第1の情報トレース用プログラムを上記プログラム格納メモリから上記プログラム実行メモリへロードし、上記第1の情報トレース用プログラムに基づいて上記第1の情報を上記第1の情報格納領域に格納するように制御し、また一方で、上記制御部は、コンピュータシステムの障害につながる動作を検知した場合に、上記第2の情報の取得・格納処理を行うための第2の情報トレース用プログラムを上記プログラム格納メモリから上記プログラム実行メモリへ上書きロードし、上記第2の情報トレース用プログラムに基づいて上記第2の情報を上記第2の情報格納領域に格納するように制御し、さらに、上記障害につながる動作を検知した回数が予め定められた閾値を越えたときに、上記第2の情報格納領域のサイズを動的に大きくするように制御する。 In the trace information control apparatus according to the third aspect, the control unit executes a first information trace program for performing the acquisition / storage process of the first information after the trace information control apparatus is activated. The program storage memory is loaded into the program execution memory, and the first information is controlled to be stored in the first information storage area based on the first information tracing program. The section overwrites and loads the second information tracing program for acquiring and storing the second information from the program storage memory to the program execution memory when an operation leading to a failure of the computer system is detected. And storing the second information in the second information storage area based on the second information tracing program. And controlled so, further, when the number of times of detecting the operation leading to the failure exceeds a predetermined threshold, and controls to dynamically increase the size of the second information storage area.
 また一方で、このトレース情報制御方法は、コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得して格納するトレース情報格納メモリを備え、上記トレース情報は、上記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、上記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含むトレース情報制御装置を制御する際に、上記トレース情報制御装置の通常動作時に、上記トレース情報の深度を浅くして上記第1の情報の取得・格納処理を行うステップと、コンピュータシステムの障害につながる動作が検知された場合に、上記トレース情報の深度を深くして上記第2の情報の取得・格納処理を行うステップとを有する。 On the other hand, the trace information control method includes a trace information storage memory that acquires and stores trace information of a device control program for investigating the cause of the failure of the computer system, and the trace information is stored in the device control program. When controlling a trace information control device including first trace information indicating which route the program has executed and second trace information indicating various parameters and variable values related to the device control program. In the normal operation of the trace information control apparatus, when the depth of the trace information is reduced and the first information is acquired / stored, and when an operation leading to a failure of the computer system is detected, Increasing the depth of the trace information and performing the second information acquisition / storage process.
 代替的に、このトレース情報制御方法は、コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得して格納するトレース情報格納メモリを備え、上記トレース情報は、上記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、上記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含むトレース情報制御装置を制御する際に、上記トレース情報格納メモリ内のトレース情報格納領域を、第1のトレース情報格納領域と第2のトレース情報格納領域とに予め分割しておくステップと、上記トレース情報制御装置の通常動作時に、上記第1の情報を上記第1の情報格納領域に格納するステップと、コンピュータシステムの障害につながる動作が検知された場合に、上記第1の情報を上記第1の情報格納領域に格納すると共に上記第2の情報を上記第2の情報格納領域に格納するステップと、上記障害につながる動作が検出された回数が予め定められた閾値を越えたときに、上記第2の情報格納領域のサイズを動的に大きくするステップとを有する。 Alternatively, the trace information control method includes a trace information storage memory that acquires and stores trace information of a device control program for investigating the cause of the failure of the computer system, and the trace information is stored in the device control. When controlling a trace information control device including first trace information indicating which route the program has executed and second trace information indicating various parameters and variable values related to the device control program. Dividing the trace information storage area in the trace information storage memory into a first trace information storage area and a second trace information storage area in advance, and during normal operation of the trace information control apparatus, A step of storing the first information in the first information storage area and a failure of the computer system; The first information is stored in the first information storage area and the second information is stored in the second information storage area, and the operation leads to the failure. Dynamically increasing the size of the second information storage area when the number of detected times exceeds a predetermined threshold.
 また一方で、このトレース情報制御方法をコンピュータに実行させるためのプログラムは、コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得して格納するトレース情報格納メモリを備えるトレース情報制御装置を制御する場合、コンピュータに、トレース情報制御装置の通常動作時に、トレース情報の深度を浅くして第1の情報の取得・格納処理を行い、コンピュータシステムの障害につながる動作が検知された場合に、上記トレース情報の深度を深くして第2の情報の取得・格納処理を行うことを実行させるようになっている。 On the other hand, a program for causing a computer to execute this trace information control method is a trace provided with a trace information storage memory for acquiring and storing trace information of an apparatus control program for investigating the cause of the failure of the computer system. When controlling the information control device, during normal operation of the trace information control device, the depth of the trace information is reduced and the first information is acquired and stored, and an operation leading to a failure of the computer system is detected. In this case, the depth of the trace information is increased and the second information is acquired and stored.
 代替的に、このトレース情報制御方法をコンピュータに実行させるためのプログラムは、コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得して格納するトレース情報格納メモリを備えるトレース情報制御装置を制御する場合、コンピュータに、上記トレース情報格納メモリ内のトレース情報格納領域を、第1のトレース情報格納領域と第2のトレース情報格納領域とに予め分割し、上記トレース情報制御装置の通常動作時に、第1の情報を上記第1の情報格納領域に格納し、コンピュータシステムの障害につながる動作が検知された場合に、上記第1の情報を上記第1の情報格納領域に格納すると共に第2の情報を上記第2の情報格納領域に格納し、上記障害につながる動作が検知された回数が予め定められた閾値を越えたときに、上記第2の情報格納領域のサイズを動的に大きくすることを実行させるようになっている。 Alternatively, a program for causing a computer to execute the trace information control method is a trace having a trace information storage memory for acquiring and storing trace information of a device control program for investigating the cause of the failure occurrence of the computer system. When controlling the information control apparatus, the trace information storage area in the trace information storage memory is divided into a first trace information storage area and a second trace information storage area in advance in a computer, and the trace information control apparatus During normal operation, first information is stored in the first information storage area, and when an operation leading to a failure of the computer system is detected, the first information is stored in the first information storage area. At the same time, the second information is stored in the second information storage area, and an operation leading to the failure is detected. When exceeding the threshold number predetermined, so as to perform the following comprising dynamically increase the size of the second information storage area.
 要約すれば、開示のトレース情報制御装置、トレース情報制御方法およびそのためのプログラムでは、トレース情報制御装置の通常動作時は、トレース情報の深度を浅くして、装置制御プログラムがどの経路を実行したかを示す第1の情報(例えば、通常情報)のみを取得してトレース情報格納メモリに記録し、コンピュータシステムの重要障害につながるリトライ(予兆制御)やエラー等の発生が検知された場合には、トレース情報の深度を深くして、装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2の情報(例えば、詳細情報)を取得してトレース情報格納メモリに記録するように自動的に変更するようになっている。 In summary, in the disclosed trace information control apparatus, trace information control method, and program therefor, which path the apparatus control program executed by reducing the depth of the trace information during normal operation of the trace information control apparatus. If only the first information (for example, normal information) is obtained and recorded in the trace information storage memory and occurrence of a retry (predictive control) or an error leading to an important failure of the computer system is detected, The second depth information (for example, detailed information) indicating the values of various parameters and variables related to the device control program is acquired and recorded in the trace information storage memory automatically by increasing the depth of the trace information. It is supposed to change.
 これによって、深度の深い第2の情報が必要以上に記録されることがなくなるので、重要障害が発生した時点での障害発生の原因を調査する際に有効な第2の情報が記録される量が制限されるのを回避することが可能になる。また一方で、第2の情報を過多に記録することによりコンピュータ本来の処理性能を劣化させることなく、障害発生の原因を調査する際に有効な第2の情報を効率良く記録することが可能になる。 As a result, the second information having a deep depth is not recorded more than necessary, and the amount of the second information that is effective when investigating the cause of the occurrence of the failure when the important failure occurs is recorded. Can be avoided. On the other hand, it is possible to efficiently record the second information effective in investigating the cause of the failure without degrading the original processing performance of the computer by recording the second information excessively. Become.
 さらに、開示のトレース情報制御装置、トレース情報制御方法およびそのためのプログラムでは、トレース情報制御装置の起動後に、深度の浅い第1の情報の取得・格納処理を行うための第1の情報トレース用プログラムがプログラム格納メモリ(例えば、不揮発性メモリ)からプログラム実行メモリへロードされ、コンピュータシステムの重要障害につながるリトライやエラー等の発生が検知された場合に、深度の深い第2の情報の取得・格納処理を行うための第2の情報トレース用プログラムがプログラム格納メモリから上書きロードされ、第1の情報トレース用プログラムが第2の情報トレース用プログラムに自動的に置き換えられるようになっている。 Furthermore, in the disclosed trace information control apparatus, trace information control method, and program therefor, a first information tracing program for performing acquisition / storage processing of the first information having a shallow depth after activation of the trace information control apparatus Is loaded from the program storage memory (for example, non-volatile memory) into the program execution memory, and when the occurrence of a retry or error leading to an important failure of the computer system is detected, the deep second information is acquired and stored A second information trace program for performing processing is overwritten and loaded from the program storage memory, and the first information trace program is automatically replaced with the second information trace program.
 これによって、深度の深い第2の情報が必要以上に記録されることがなくなるので、重要障害が発生した時点での障害発生の原因を調査する際に有効な第2の情報が記録される量が制限されるのを回避することが可能になる。また一方で、いずれか一方のトレース情報トレース用プログラムを実行する際に頻繁にフラグを判定するという処理上のオーバーヘッドが発生することによりコンピュータ本来の処理性能を劣化させることなく、障害発生の原因を調査する際に有効な第2の情報を効率良く記録することが可能になる。 As a result, the second information having a deep depth is not recorded more than necessary, and the amount of the second information that is effective when investigating the cause of the occurrence of the failure when the important failure occurs is recorded. Can be avoided. On the other hand, when one of the trace information tracing programs is executed, the processing overhead of frequently determining the flag is generated, so that the cause of the failure can be prevented without degrading the original processing performance of the computer. It becomes possible to efficiently record the second information that is effective for the investigation.
 さらに、開示のトレース情報制御装置、トレース情報制御方法およびそのためのプログラムでは、トレース情報格納メモリ内のトレース情報格納領域が、第1のトレース情報格納領域(例えば、通常情報格納領域)と第2のトレース情報格納領域(例えば、詳細情報格納領域)とに予め分割されており、トレース情報制御装置の通常動作時に、第1の情報を第1の情報格納領域に格納し、コンピュータシステムの重要障害につながるリトライやエラー等の発生が検知された場合に、第2の情報を第2の情報格納領域に格納し、さらに、重要障害につながるリトライやエラー等の発生が検知された回数が予め定められた閾値を越えたときに、第2の情報格納領域のサイズを動的に大きくするように制御される。 Furthermore, in the disclosed trace information control device, trace information control method, and program therefor, the trace information storage area in the trace information storage memory is divided into the first trace information storage area (for example, the normal information storage area) and the second trace information storage area. It is divided in advance into a trace information storage area (for example, a detailed information storage area). During normal operation of the trace information control device, the first information is stored in the first information storage area, which is an important failure of the computer system. When the occurrence of a connected retry or error is detected, the second information is stored in the second information storage area, and the number of occurrences of a retry or error leading to an important failure is determined in advance. When the threshold value is exceeded, control is performed to dynamically increase the size of the second information storage area.
 上記のように、重要障害につながるリトライやエラー等の発生が検知された回数に応じて第2の情報格納領域のサイズを大きくすることによって、深度の深い第2の情報が必要な量だけ第2の情報格納領域に記録されるようになるので、コンピュータ本来の処理性能に影響を及ぼすことなく、障害発生の原因を調査する際に有効な第2の情報を効率良く記録することが可能になる。 As described above, by increasing the size of the second information storage area in accordance with the number of occurrences of retries or errors leading to an important failure, the necessary amount of second information having a deep depth can be obtained. Since the information is recorded in the information storage area 2, it is possible to efficiently record the second information effective in investigating the cause of the failure without affecting the original processing performance of the computer. Become.
 また一方で、トレース情報格納領域を第1のトレース情報格納領域と第2のトレース情報格納領域とに予め分割しておくことによって、コンピュータシステムの重要障害につながるリトライやエラー等の発生が検知された後、すぐに第2のトレース情報をトレース情報格納メモリから取り出すことができなかった場合に、重要障害発生後に正常に動作している部分の第1のトレース情報が第2のトレース情報に上書きされて障害発生時の第2の情報が消去されるのを防止することが可能になる。 On the other hand, by dividing the trace information storage area into a first trace information storage area and a second trace information storage area in advance, the occurrence of retries or errors leading to an important failure of the computer system is detected. If the second trace information cannot be taken out from the trace information storage memory immediately after the first trace information is overwritten, the first trace information of the part that is operating normally after the occurrence of the important fault is overwritten on the second trace information. Thus, it is possible to prevent the second information when the failure occurs from being erased.
 開示のトレース情報制御装置やトレース情報制御方法等を、添付の図面を参照して以下に説明する。ここで、
図1は、本実施例に係るトレース情報制御装置が適用されるコンピュータシステムの全体的なハードウェア構成を示すブロック図、 図2は、図1の通常情報トレース用プログラムと詳細情報トレース用プログラムとの間で切り替えを行う様子を示す模式図、 図3は、本願のトレース情報制御方法と対比させる対象となるトレース情報のトレース実行処理を説明するためのフローチャート、 図4は、第1の実施例においてトレース情報(通常情報)のトレース実行処理を説明するためのフローチャート、 図5は、第1の実施例においてトレース情報(詳細情報)のトレース実行処理を説明するためのフローチャート、 図6は、第2の実施例においてトレース情報格納領域を分割する様子を示す模式図、 図7は、第2の実施例においてトレース情報(通常情報および詳細情報)のトレース実行処理を説明するためのフローチャート、 図8は、第3の実施例においてトレース情報(通常情報)のトレース実行処理を説明するためのフローチャート、そして 図9は、第3の実施例においてトレース情報(詳細情報)のトレース実行処理を説明するためのフローチャートある。
The disclosed trace information control apparatus, trace information control method, and the like will be described below with reference to the accompanying drawings. here,
FIG. 1 is a block diagram showing the overall hardware configuration of a computer system to which the trace information control apparatus according to the embodiment is applied. FIG. 2 is a schematic diagram showing a state of switching between the normal information tracing program and the detailed information tracing program of FIG. FIG. 3 is a flowchart for explaining trace execution processing of trace information to be compared with the trace information control method of the present application; FIG. 4 is a flowchart for explaining trace execution processing of trace information (normal information) in the first embodiment. FIG. 5 is a flowchart for explaining trace execution processing of trace information (detailed information) in the first embodiment; FIG. 6 is a schematic diagram showing how the trace information storage area is divided in the second embodiment. FIG. 7 is a flowchart for explaining trace execution processing of trace information (normal information and detailed information) in the second embodiment; FIG. 8 is a flowchart for explaining trace execution processing of trace information (normal information) in the third embodiment; FIG. 9 is a flowchart for explaining trace execution processing of trace information (detailed information) in the third embodiment.
 以下、添付の図面(図1~図9)を参照しながら、本実施例に係るトレース情報制御装置の構成および動作ならびにトレース情報制御方法によるトレース実行処理を説明する。 Hereinafter, the configuration and operation of the trace information control apparatus according to the present embodiment and the trace execution processing by the trace information control method will be described with reference to the attached drawings (FIGS. 1 to 9).
 図1は、本実施例に係るトレース情報制御装置が適用されるコンピュータシステムの全体的なハードウェア構成を示すブロック図であり、図2は、図1の通常情報トレース用プログラムと詳細情報トレース用プログラムとの間で切り替えを行う様子を示す模式図である。 FIG. 1 is a block diagram showing the overall hardware configuration of a computer system to which the trace information control apparatus according to this embodiment is applied, and FIG. 2 is a program for normal information tracing and detailed information tracing in FIG. It is a schematic diagram which shows a mode that it switches between programs.
 図1では、本実施例に係るトレース情報制御装置により構成されるコンピュータシステム9のハードウェア構成が図示されており、図2では、本実施例に係るトレース情報制御装置の主要な構成要件であるプログラム格納メモリ1およびプログラム実行メモリ2に格納されているプログラムが模式的に図示されている。 FIG. 1 illustrates a hardware configuration of a computer system 9 configured by the trace information control apparatus according to the present embodiment. FIG. 2 illustrates main configuration requirements of the trace information control apparatus according to the present embodiment. The programs stored in the program storage memory 1 and the program execution memory 2 are schematically shown.
 ただし、前述のように、コンピュータシステムにおける障害発生の原因を調査する資料として使用されるトレース情報には、コンピュータシステムを統括的に制御するための装置制御プログラムがどの経路を実行したかを示す通常情報と、ハードウェアの各種のパラメータや装置制御プログラムにより定義される各種のパラメータおよび変数の値を示す詳細情報とが含まれるものとする。なお、これ以降、前述した構成要素と同様のものに関しては、同一の参照番号を付して表すこととする。 However, as described above, the trace information used as data for investigating the cause of the failure in the computer system usually indicates which path the device control program for controlling the computer system has executed. Information and detailed information indicating various parameters of hardware and values of various parameters and variables defined by the apparatus control program are included. Hereinafter, the same components as those described above are denoted by the same reference numerals.
 図1のコンピュータシステム(またはコンピュータ装置)9においては、コンピュータシステムの障害発生の原因を調査する際に、コンピュータシステムの動作に関連する各種のプログラムを格納するためのプログラム格納メモリ1が設けられている。好ましくは、プログラム格納メモリ1は、フラッシュメモリや書き替え可能なROM(リード・オンリ・メモリ)等の不揮発性メモリにより構成される。さらに、このプログラム格納メモリ1は、装置制御プログラム10p(図2参照)を格納する装置制御プログラム格納領域10と、通常情報の取得・格納処理を行うための通常情報トレース用プログラム11p(図2参照)を格納する通常情報トレース用プログラム格納領域11と、詳細情報の取得・格納処理を行うための詳細情報トレース用プログラム12p(図2参照)を格納する詳細情報トレース用プログラム格納領域12とを有している。 In the computer system (or computer apparatus) 9 of FIG. 1, a program storage memory 1 is provided for storing various programs related to the operation of the computer system when investigating the cause of the failure of the computer system. Yes. Preferably, the program storage memory 1 is configured by a nonvolatile memory such as a flash memory or a rewritable ROM (read-only memory). Further, the program storage memory 1 includes a device control program storage area 10 for storing a device control program 10p (see FIG. 2), and a normal information tracing program 11p for performing normal information acquisition / storage processing (see FIG. 2). ) For storing a normal information trace and a detailed information trace program storage area 12 for storing a detailed information trace program 12p (see FIG. 2) for acquiring and storing detailed information. is doing.
 さらに、図1のコンピュータシステムにおいては、上記の装置制御プログラム10p(図2参照)、通常情報トレース用プログラム11p(図2参照)および詳細情報トレース用プログラム12p(図2参照)を実行可能にするために、これらのプログラムがプログラム格納メモリ1からロードされるプログラム実行メモリ2が設けられている。好ましくは、プログラム実行メモリ2は、RAM(ランダム・アクセス・メモリ)等の随時書き込み読み出しが可能なメモリにより構成される。さらに、このプログラム実行メモリ2は、装置制御プログラム、通常情報トレース用プログラムおよび詳細情報トレース用プログラムを格納するためのプログラム実行領域と、これらのプログラムを実行させる際に必要な各種のパラメータを格納するためのパラメータ格納領域とを有している。 Further, in the computer system of FIG. 1, the apparatus control program 10p (see FIG. 2), the normal information tracing program 11p (see FIG. 2) and the detailed information tracing program 12p (see FIG. 2) can be executed. For this purpose, a program execution memory 2 in which these programs are loaded from the program storage memory 1 is provided. Preferably, the program execution memory 2 is configured by a memory that can be written and read as needed, such as a RAM (Random Access Memory). Further, the program execution memory 2 stores a program execution area for storing a device control program, a normal information tracing program, and a detailed information tracing program, and various parameters necessary for executing these programs. Parameter storage area.
 さらに、図1のコンピュータシステム9においては、コンピュータシステムにおける障害発生の原因を調査する資料として使用されるトレース情報を取得して一時的に保持するトレース情報取得手段5と、このトレース情報取得手段5に保持されているトレース情報を格納する(記録する)トレース情報格納メモリ3とが設けられている。好ましくは、トレース情報格納メモリ3は、書き替え可能なROM等の不揮発性メモリにより構成される。さらに、このトレース情報格納メモリ3は、通常情報および詳細情報を含むトレース情報を格納するためのトレース情報格納領域を有している。好ましくは、図1のコンピュータシステム9は、トレース情報格納メモリ3に格納されているトレース情報を表示したり、装置制御プログラム、通常情報トレース用プログラムおよび詳細情報トレース用プログラムが実行されることでトレース情報が記録される様子を表示したりする表示部を含むトレース情報出力手段6を備えることも可能である。 Further, in the computer system 9 of FIG. 1, trace information acquisition means 5 for acquiring and temporarily holding trace information used as data for investigating the cause of the failure occurrence in the computer system, and this trace information acquisition means 5 And a trace information storage memory 3 for storing (recording) the trace information held in the memory. Preferably, the trace information storage memory 3 is configured by a non-volatile memory such as a rewritable ROM. Furthermore, this trace information storage memory 3 has a trace information storage area for storing trace information including normal information and detailed information. Preferably, the computer system 9 shown in FIG. 1 displays the trace information stored in the trace information storage memory 3, or executes the device control program, the normal information trace program, and the detailed information trace program to execute the trace. It is also possible to provide a trace information output means 6 including a display unit for displaying a state in which information is recorded.
 さらに、図1のコンピュータシステム9においては、上記のプログラム格納メモリ1、プログラム実行メモリ2、トレース情報取得手段5、トレース情報格納メモリ3およびトレース情報出力手段6を統括的に制御する制御部4が設けられている。上記のプログラム格納メモリ1、プログラム実行メモリ2、トレース情報取得手段5、トレース情報格納メモリ3、トレース情報出力手段6および制御部4は、バスBを介して相互に接続されている。 Further, in the computer system 9 of FIG. 1, the control unit 4 that controls the program storage memory 1, the program execution memory 2, the trace information acquisition unit 5, the trace information storage memory 3, and the trace information output unit 6 is provided. Is provided. The program storage memory 1, the program execution memory 2, the trace information acquisition unit 5, the trace information storage memory 3, the trace information output unit 6, and the control unit 4 are connected to each other via a bus B.
 ここで、制御部5およびトレース情報取得手段5の機能は、コンピュータのCPU(中央演算処理装置)により実現される。より具体的には、上記の装置制御プログラム、通常情報トレース用プログラムおよび詳細情報トレース用プログラムは、例えばプログラム格納メモリ1のROM等からプログラム実行メモリ2のRAM等へロードされコピーされている装置制御プログラム、通常情報トレース用プログラムおよび詳細情報トレース用プログラム、ならびに上記プログラムの実行に必要な各種のパラメータをCPUにより読み出して上記プログラムを実行させることによって、CPUのファームウェアの機能が実現される。なお、プログラム格納メモリ1およびプログラム実行メモリ2に含まれるROMやRAMの代わりに、CPUに内蔵のROMやRAMを使用することも可能である。 Here, the functions of the control unit 5 and the trace information acquisition means 5 are realized by a CPU (Central Processing Unit) of a computer. More specifically, the device control program, the normal information tracing program, and the detailed information tracing program are loaded and copied from the ROM of the program storage memory 1 to the RAM of the program execution memory 2, for example. The function of the CPU firmware is realized by reading out the program, the normal information tracing program, the detailed information tracing program, and various parameters necessary for executing the program by the CPU and executing the program. Instead of the ROM and RAM included in the program storage memory 1 and the program execution memory 2, it is possible to use a ROM or RAM built in the CPU.
 図1の本実施例に係るトレース情報制御装置により構成されるコンピュータシステム9において、CPUのファームウェアは以下の(1)~(3)の処理フローにて動作する。 In the computer system 9 constituted by the trace information control apparatus according to the present embodiment of FIG. 1, the CPU firmware operates in the following processing flow (1) to (3).
 (1)トレース情報制御装置を起動した後は、トレース情報制御装置を通常動作トレース時の状態に設定し、通常情報トレース用プログラムをプログラム格納メモリ1からプログラム実行メモリ2へロードし、通常情報トレース用プログラムに基づき通常情報を取得してトレース情報格納メモリ2に格納する処理を行う。換言すれば、トレース情報制御装置の起動後は、トレース情報の深度がデフォルトの浅い深度に設定されているので、深度の浅い通常情報のみが記録される。
 ここで、確認のために、「深度の浅い通常情報」および「深度の深い詳細情報」の定義に関して再度記載しておく。「深度の浅い通常情報」は、コンピュータの異常(障害)の予兆監視に関して本当に必要なトレース情報のみを採取するモード、または、一回のトレース取得時の情報量が少ないモードで取得される情報である。また一方で、「深度の深い詳細情報」は、通常情報として取得される本当に必要なトレース情報に加えてあったならば便利であろうと考えられるトレース情報も採取するモード、または、一回のトレース取得時の情報量が多いモードで取得される情報である。
(1) After starting the trace information control device, the trace information control device is set to the normal operation trace state, the normal information trace program is loaded from the program storage memory 1 to the program execution memory 2, and the normal information trace The normal information is acquired on the basis of the program for storage and stored in the trace information storage memory 2. In other words, after starting the trace information control apparatus, the depth of the trace information is set to the default shallow depth, so that only normal information with a shallow depth is recorded.
Here, for confirmation, the definitions of “normal information with a shallow depth” and “detailed information with a deep depth” are described again. “Normal depth information” is information that is acquired in a mode that collects only trace information that is really necessary for predictive monitoring of computer abnormalities (failures), or in a mode that has a small amount of information at the time of one trace acquisition. is there. On the other hand, “detailed detailed information” is a mode for collecting trace information that is considered to be useful if it was added to the trace information that is really necessary as normal information, or a single trace. This is information acquired in a mode with a large amount of information at the time of acquisition.
 (2)コンピュータシステムの重要障害につながるリトライ(予兆制御)やエラーが発生したことが検知された場合に、詳細情報トレース用プログラムをプログラム格納メモリ1からプログラム実行メモリ2へ上書きロードし、通常情報トレース用プログラムを詳細情報トレース用プログラムに全面的に置き換えてから、詳細情報トレース用プログラムに基づき詳細情報を取得してトレース情報格納メモリ2に格納する処理を行う。換言すれば、重要障害につながるリトライやエラー等の発生を契機として、トレース情報の深度がより深く設定されるので、深度の深い詳細情報のみが選択的に記録される(トレース情報強化用のファームウェアに自動的に切り替えられる)。 (2) When it is detected that a retry (predictive control) or error leading to an important failure of the computer system is detected, the detailed information tracing program is overwritten and loaded from the program storage memory 1 to the program execution memory 2 to obtain normal information. After completely replacing the trace program with the detailed information trace program, the detailed information is acquired based on the detailed information trace program and stored in the trace information storage memory 2. In other words, since the depth of the trace information is set deeper due to the occurrence of a retry or an error leading to an important failure, only the detailed information having a deep depth is selectively recorded (firmware for enhancing trace information) Automatically switch to).
 (3)重要障害につながるリトライやエラー等が発生したことが検知されてから一定の時間が経過した後に、重要障害が実際に発生しなかった場合には、通常情報トレース用プログラムをプログラム格納メモリ1からプログラム実行メモリ2へ上書きロードし、詳細情報トレース用プログラムを通常情報トレース用プログラムに再度置き換え、通常情報トレース用プログラムに基づき通常情報を取得してトレース情報格納メモリ2に格納する処理を行う。換言すれば、一定の時間が経過した後に、重要障害が発生しなかった場合には、トレース情報の深度を再度浅く設定することによって、深度の浅い通常情報のみが記録されるように自動的に変更される。 (3) If a critical failure does not actually occur after a certain amount of time has elapsed since it was detected that a retry or error leading to a critical failure has occurred, the normal information trace program is stored in the program storage memory. 1 is overwritten to the program execution memory 2, the detailed information trace program is replaced with the normal information trace program again, and the normal information is acquired based on the normal information trace program and stored in the trace information storage memory 2. . In other words, after an elapse of a certain period of time, if an important failure does not occur, by setting the depth of the trace information to be shallow again, only normal information with a shallow depth is automatically recorded. Be changed.
 本実施例に係るトレース情報制御装置によれば、通常情報トレース用プログラムと詳細情報トレース用プログラムとを自動的に切り替えることによって深度の深い詳細情報が必要以上に記録されることがなくなるので、重要障害が発生した時点での障害発生の原因を調査する際に有効な詳細情報が記録される量が制限されるのを回避することが可能になる。また一方で、いずれか一方のトレース情報トレース用プログラムを実行する際に頻繁にフラグを判定するという処理上のオーバーヘッドが発生することによりコンピュータ本来の処理性能(例えば、コンピュータの処理速度)に影響を及ぼすことなく、障害発生の原因を調査する際に有効な詳細情報を効率良く記録することが可能になる。 According to the trace information control apparatus according to the present embodiment, the detailed information with a deep depth is not recorded more than necessary by automatically switching between the normal information tracing program and the detailed information tracing program. It is possible to avoid limiting the amount of detailed information that is effective when investigating the cause of the failure at the time of the failure. On the other hand, when one of the trace information tracing programs is executed, the processing overhead of frequently determining the flag is generated, thereby affecting the original processing performance of the computer (for example, the processing speed of the computer). It is possible to efficiently record detailed information that is effective in investigating the cause of the occurrence of a failure.
 ついで、図2を参照しながら、通常情報トレース用プログラム11pと詳細情報トレース用プログラム12pとの間で切り替えを行う様子を説明する。 Next, the state of switching between the normal information tracing program 11p and the detailed information tracing program 12p will be described with reference to FIG.
 図2の(a)に示すように、プログラム格納メモリ1には、装置制御プログラム10pと、通常情報の取得・格納処理を行うための通常情報トレース用プログラム11pと、詳細情報の取得・格納処理を行うための詳細情報トレース用プログラム12pとが格納されている。トレース情報制御装置を起動した後は、装置制御プログラム10pおよび通常情報トレース用プログラム11pが、プログラム格納メモリ1からプログラム実行メモリ2へロードされる(通常情報トレース時の状態)。この通常情報トレース用プログラム11pに基づいて、深度の浅い通常情報のみを取得してトレース情報格納メモリ2(図1参照)に格納する処理が行われる。 As shown in FIG. 2A, the program storage memory 1 includes a device control program 10p, a normal information tracing program 11p for performing normal information acquisition / storage processing, and detailed information acquisition / storage processing. A detailed information tracing program 12p for performing the above is stored. After the trace information control device is activated, the device control program 10p and the normal information tracing program 11p are loaded from the program storage memory 1 to the program execution memory 2 (state during normal information tracing). Based on the normal information tracing program 11p, a process is performed in which only normal information having a shallow depth is acquired and stored in the trace information storage memory 2 (see FIG. 1).
 また一方で、図2の(b)に示すように、コンピュータシステムの重要障害につながるリトライやエラー等が発生したことが検知された場合、これを契機として、装置制御プログラム10pおよび詳細情報トレース用プログラム12pが、プログラム格納メモリ1からプログラム実行メモリ2へ上書きロードされる(詳細情報トレース時の状態)。このときに、プログラム実行メモリ2では、通常情報トレース用プログラム11pが詳細情報トレース用プログラム12pに全面的に置き換えられる。この詳細情報トレース用プログラム12pに基づいて、深度の深い詳細情報を選択的に取得してトレース情報格納メモリ3(図1参照)に格納する処理が行われる。 On the other hand, as shown in FIG. 2B, when it is detected that a retry or an error leading to an important failure of the computer system has occurred, the device control program 10p and the detailed information trace are triggered by this. The program 12p is overwritten and loaded from the program storage memory 1 to the program execution memory 2 (the state at the time of tracing detailed information). At this time, in the program execution memory 2, the normal information tracing program 11p is completely replaced with the detailed information tracing program 12p. Based on the detailed information tracing program 12p, processing for selectively acquiring detailed information having a deep depth and storing it in the trace information storage memory 3 (see FIG. 1) is performed.
 なお、図2には図示していないが、重要障害につながるリトライやエラー等が発生したことが検知されてから一定の時間が経過した後に、重要障害が発生しなかった場合には、装置制御プログラム10pおよび通常情報トレース用プログラム11pが、プログラム格納メモリ1からプログラム実行メモリ2へ上書きロードされる。このときに、プログラム実行メモリ2では、詳細情報トレース用プログラム12pが通常情報トレース用プログラム11pに再度置き換えられる。この通常情報トレース用プログラム11pに基づいて、通常情報を取得してトレース情報格納メモリ3(図1参照)に格納する処理を行われる。ここで、コンピュータシステムの重要障害につながるリトライやエラー等が発生したことが再度検知された場合、装置制御プログラム10pおよび詳細情報トレース用プログラム12pが、プログラム格納メモリ1からプログラム実行メモリ2へ再度上書きロードされ、図2の(b)に示すような動作が繰り返される。 Although not shown in FIG. 2, if a critical failure does not occur after a certain period of time has elapsed since it was detected that a retry or error leading to a critical failure has occurred, device control is performed. The program 10p and the normal information tracing program 11p are overwritten and loaded from the program storage memory 1 to the program execution memory 2. At this time, in the program execution memory 2, the detailed information tracing program 12p is replaced with the normal information tracing program 11p again. Based on the normal information tracing program 11p, processing for obtaining normal information and storing it in the trace information storage memory 3 (see FIG. 1) is performed. Here, when it is detected again that a retry or error leading to an important failure of the computer system has occurred, the device control program 10p and the detailed information tracing program 12p are overwritten from the program storage memory 1 to the program execution memory 2 again. The operation as shown in FIG. 2B is repeated.
 図3は、本願のトレース情報制御方法と対比させる対象となるトレース情報のトレース実行処理を説明するためのフローチャート、図4は、第1の実施例においてトレース情報(通常情報)のトレース実行処理を説明するためのフローチャート、そして、図5は、第1の実施例においてトレース情報(詳細情報)のトレース実行処理を説明するためのフローチャートである。 FIG. 3 is a flowchart for explaining the trace execution process of the trace information to be compared with the trace information control method of the present application, and FIG. 4 shows the trace execution process of the trace information (normal information) in the first embodiment. FIG. 5 is a flowchart for explaining trace execution processing of trace information (detailed information) in the first embodiment.
 図3では、コンピュータのCPUを動作させて実行されるフラグ判定方式によるトレース実行処理を説明し、図4では、コンピュータのCPUを動作させて実行されるトレース情報トレース用プログラムの全面置き換え方式(前述の図2にて通常情報トレース用プログラムと詳細情報トレース用プログラムとの間で切り替えを行う様子を参照のこと)によるトレース実行処理を説明する。 FIG. 3 illustrates a trace execution process based on a flag determination method executed by operating a computer CPU, and FIG. 4 illustrates a full replacement method for a trace information trace program executed by operating a computer CPU (described above). FIG. 2 will be used to explain the trace execution process by referring to the switching between the normal information trace program and the detailed information trace program.
 図3のフローチャートにおいて、フラグ判定方式によるトレース実行処理を実行する場合、ステップS10に示すように、装置制御プログラム上で設定されているフラグを判定することによって、詳細情報のトレース処理を行う詳細情報トレース格納モードになっているか、または、通常情報のトレース処理を行う通常情報トレース格納モードになっているかが判別される。詳細情報トレース格納モードになっている場合、ステップS11に進み、詳細情報を取得してトレース格納メモリに格納する処理を実行する。 In the flowchart of FIG. 3, when executing the trace execution process by the flag determination method, as shown in step S10, the detailed information for performing the detailed information trace process by determining the flag set in the apparatus control program It is determined whether the mode is the trace storage mode or the normal information trace storage mode in which the normal information trace processing is performed. If the detailed information trace storage mode is set, the process proceeds to step S11 to execute processing for acquiring detailed information and storing it in the trace storage memory.
 また一方で、通常情報トレース格納モードになっている場合、ステップS12に進み、装置制御プログラム上で設定されているフラグを再度判定することによって、コンピュータシステムの重要障害が発生したか否か(すなわち、詳細情報をトレース格納メモリに格納する処理が必要であるか否か)が検知される。コンピュータシステムの重要障害が発生したことが検知された場合、ステップS13に進み、通常情報トレース格納モードから詳細情報トレース格納モードへ切り替えることで詳細情報トレース格納モードに設定し、詳細情報を取得してトレース格納メモリに格納する処理を実行する。 On the other hand, if the normal information trace storage mode is set, the process proceeds to step S12, and the flag set in the device control program is determined again to determine whether an important failure of the computer system has occurred (ie, , Whether or not a process for storing detailed information in the trace storage memory is necessary) is detected. If it is detected that a serious failure has occurred in the computer system, the process proceeds to step S13, and the detailed information trace storage mode is set by switching from the normal information trace storage mode to the detailed information trace storage mode. Executes the process of storing in the trace storage memory.
 コンピュータシステムの重要障害が発生したことが検知されなかった場合、ステップS14に進み、通常情報トレース格納モードに設定したままで通常情報をトレース格納メモリに格納する処理を実行する。 If it is not detected that a serious failure has occurred in the computer system, the process proceeds to step S14, and the process of storing the normal information in the trace storage memory is executed while the normal information trace storage mode is set.
 上記のステップS10~S14の処理を実行する場合、プログラムそのものは単純であるが、いずれか一方の通常情報トレース用プログラムまたは詳細情報トレース用プログラムのいずれか一方を実行する際に頻繁にフラグを判定するという処理上のオーバーヘッドが発生することによりコンピュータ本来の処理性能を劣化させるおそれが生ずる。 When executing the processes in steps S10 to S14, the program itself is simple, but the flag is frequently determined when either one of the normal information tracing program or the detailed information tracing program is executed. If processing overhead occurs, the original processing performance of the computer may be deteriorated.
 図4および図5のトレース情報トレース用プログラムの全面置き換え方式によるトレース実行処理は、前述のような図3のフラグ判定方式によるトレース実行処理の不都合な点を解消するために呈示されたものである。 The trace execution process by the full replacement method of the trace information trace program of FIG. 4 and FIG. 5 is presented in order to eliminate the disadvantages of the trace execution process by the flag determination method of FIG. 3 as described above. .
 図4のフローチャートにおいて、トレース情報トレース用プログラムの全面置き換え方式によるトレース実行処理を実行する場合、トレース情報制御装置を起動した後は、トレース情報制御装置を通常情報トレース時の状態に設定する。換言すれば、トレース情報制御装置の起動後は、自動的に通常情報トレース格納モードになっている。それゆえに、装置制御プログラム上で設定されているフラグを判定して詳細情報トレース格納モードになっているか、または通常情報トレース格納モードになっているかを判別することは不要になる。ここでは、トレース情報制御装置の起動後は、通常情報トレース格納モードになっているので、通常情報を取得してトレース情報格納メモリに格納する処理を実行する。 In the flowchart of FIG. 4, when executing the trace execution process by the full replacement method of the trace information trace program, after starting the trace information control apparatus, the trace information control apparatus is set to the state at the time of normal information tracing. In other words, after the trace information control device is activated, the normal information trace storage mode is automatically set. Therefore, it is not necessary to determine whether the detailed information trace storage mode is set or the normal information trace storage mode by determining the flag set on the apparatus control program. Here, since the normal information trace storage mode is set after the trace information control device is activated, the normal information is acquired and stored in the trace information storage memory.
 つぎに、図4のステップS20に示すように、装置制御プログラム上で設定されているフラグを判定することによって、コンピュータシステムの重要障害につながるリトライやエラー等が発生したか否か(すなわち、詳細情報をトレース格納メモリに格納する処理が必要であるか否か)が検知される。コンピュータシステムの重要障害につながるリトライやエラー等が発生したことが検知された場合、ステップS21に進み、詳細情報トレース用プログラムをプログラム格納メモリからプログラム実行メモリへ上書きロードし、通常情報トレース用プログラムを詳細情報トレース用プログラムに全面的に置き換える。 Next, as shown in step S20 of FIG. 4, whether or not a retry or an error leading to an important failure of the computer system has occurred by determining the flag set in the device control program (that is, details) Whether or not processing for storing information in the trace storage memory is necessary) is detected. If it is detected that a retry or error leading to an important failure of the computer system has occurred, the process proceeds to step S21, and the detailed information tracing program is overwritten from the program storage memory to the program execution memory, and the normal information tracing program is loaded. Completely replace with detailed information tracing program.
 さらに、図5のフローチャートにおいて、詳細情報トレース用プログラムに基づいて、トレース情報制御装置を詳細情報トレース時の状態に設定する。この時点で、通常情報トレース格納モードから詳細情報トレース格納モードへ切り替わるので、ステップS30に示すように、詳細情報を取得してトレース情報格納メモリに格納する処理を実行する。 Further, in the flowchart of FIG. 5, based on the detailed information tracing program, the trace information control device is set to the state at the time of detailed information tracing. At this point, since the normal information trace storage mode is switched to the detailed information trace storage mode, as shown in step S30, a process of acquiring detailed information and storing it in the trace information storage memory is executed.
 また一方で、コンピュータシステムの重要障害につながるリトライやエラー等が発生したことが検知されなかった場合、図4のステップS22に進み、通常情報トレース格納モードに設定したままで通常情報をトレース格納メモリに格納する処理を実行する。 On the other hand, if it is not detected that a retry or error leading to an important failure of the computer system has occurred, the process proceeds to step S22 in FIG. 4, and the normal information is stored in the trace storage memory while being set in the normal information trace storage mode. Execute the process stored in.
 上記の第1の実施例によるトレース実行処理を実行する場合、通常情報トレース用プログラムまたは詳細情報トレース用プログラムのいずれか一方を実行する際にフラグを判定する処理が、前述の図3のフローチャートの場合よりも少なくて済む。それゆえに、頻繁にフラグを判定するという処理上のオーバーヘッドが発生することによりコンピュータ本来の処理性能を劣化させることが実質的になくなる。 When executing the trace execution process according to the first embodiment described above, the process for determining the flag when executing either the normal information trace program or the detailed information trace program is the same as that shown in the flowchart of FIG. Less than you need. Therefore, the processing overhead of frequently determining the flag is substantially eliminated so that the original processing performance of the computer is not deteriorated.
 図6は、第2の実施例においてトレース情報格納領域を分割する様子を示す模式図である。ここでは、トレース情報格納メモリ3内のトレース情報格納領域を、通常情報格納領域と詳細情報格納領域とに予め分割しておく様子を説明する。 FIG. 6 is a schematic diagram showing how the trace information storage area is divided in the second embodiment. Here, a state in which the trace information storage area in the trace information storage memory 3 is divided in advance into a normal information storage area and a detailed information storage area will be described.
 第2の実施例では、図6の左側部に示すように、トレース情報格納メモリ3内のトレース情報格納領域は、通常情報30を格納するための通常情報格納領域と詳細情報31を格納するための詳細情報格納領域とに予め分割されている。好ましくは、トレース情報格納領域の下部に通常情報格納領域が配置され、トレース情報格納領域の上部に詳細情報格納領域が配置される。 In the second embodiment, as shown on the left side of FIG. 6, the trace information storage area in the trace information storage memory 3 stores the normal information storage area for storing the normal information 30 and the detailed information 31. The detailed information storage area is divided in advance. Preferably, the normal information storage area is disposed below the trace information storage area, and the detailed information storage area is disposed above the trace information storage area.
 トレース情報制御装置を起動した後は、通常情報トレース格納モードになっているので、通常情報を取得して通常情報通常情報格納領域に格納する処理を実行する。通常情報格納領域の最下部の最後のアドレスまで通常情報を格納した場合には、通常情報格納領域の最上部の先頭のアドレスに戻り、引き続き通常情報のトレース処理を実行する。この場合、通常情報格納領域内で、以前に書き込まれている旧通常情報が上書きされることになる。 Since the normal information trace storage mode is set after the trace information control device is activated, the normal information is acquired and stored in the normal information normal information storage area. When the normal information is stored up to the last address at the bottom of the normal information storage area, the process returns to the top address at the top of the normal information storage area, and the normal information tracing process is continued. In this case, the old normal information written previously is overwritten in the normal information storage area.
 図6の中央部に示すように、コンピュータシステムの重要障害につながるリトライやエラー等が発生したことが検知された場合、これを1回目の契機(契機1回目)として、通常情報を通常情報格納領域に格納すると共に、発生頻度は低いが障害発生の原因を調査する際に有効な詳細情報を詳細情報格納領域に格納する処理を実行する。この場合、通常情報格納領域内に通常情報のみが格納され、かつ、詳細情報格納領域内に詳細情報のみが格納されるので、通常情報が詳細情報格納領域に上書きされることにより障害発生時の肝心な部分の詳細情報が消去されることはない。 As shown in the central part of FIG. 6, when it is detected that a retry or an error leading to an important failure of the computer system has occurred, this is used as the first trigger (first trigger) and normal information is stored as normal information. In addition to storing the detailed information in the area, the detailed information effective in investigating the cause of the failure although the occurrence frequency is low is stored in the detailed information storage area. In this case, only the normal information is stored in the normal information storage area, and only the detailed information is stored in the detailed information storage area. Detailed information of the important part is never erased.
 重要障害につながるリトライやエラー等が発生したことが検知された回数(契機の回数)が、予め定義されている閾値(ここでは、閾値が0回と定義する)を超えた場合には、図6の中央部に示すように、詳細情報格納領域のサイズを動的に大きくすることによって詳細情報格納領域のサイズを自動的に変更する。この詳細情報格納領域のサイズの変更に際しては、通常情報格納領域の最上部の先頭のアドレスを変更することによって、通常情報格納領域内の一部に新たに取得された詳細情報を上書きすることができるようにしている。 If the number of detected retries or errors that lead to an important failure (number of triggers) exceeds a predefined threshold (here, the threshold is defined as 0), 6, the size of the detailed information storage area is automatically changed by dynamically increasing the size of the detailed information storage area. When changing the size of the detailed information storage area, the newly acquired detailed information may be overwritten on a part of the normal information storage area by changing the top address of the top of the normal information storage area. I can do it.
 さらに、図6の右側部に示すように、コンピュータシステムの重要障害につながるリトライやエラー等が発生したことが再度検知された場合、これを2回目の契機(契機2回目)として、詳細情報格納領域のサイズをさらに大きくする。これによって、通常情報格納領域内の一部にさらなる詳細情報を上書きすることができるようになる。 Furthermore, as shown on the right side of FIG. 6, when it is detected again that a retry or an error leading to an important failure of the computer system has occurred, this is used as the second opportunity (second opportunity) and detailed information is stored. Increase the size of the region further. As a result, further detailed information can be overwritten in a part of the normal information storage area.
 好ましくは、詳細情報格納領域のサイズは、予め定められた値のほか、直前に取得された直近の通常情報と詳細情報に関する統計的な情報に基づいて決定される。 Preferably, the size of the detailed information storage area is determined based on statistical information related to the most recent normal information and detailed information acquired immediately before, in addition to a predetermined value.
 また一方で、現在取得されている詳細情報の内容が、以前に取得された詳細情報と同じであると判定された場合に、現在取得されている詳細情報を詳細情報格納領域に格納しないようにしている。これによって、障害発生の原因を調査する際に有効な詳細情報のみが記録されるので、発生頻度の低い詳細情報を有効に利用することができるようになる。 On the other hand, when it is determined that the details of the currently acquired detailed information is the same as the previously acquired detailed information, the currently acquired detailed information is not stored in the detailed information storage area. ing. As a result, only the detailed information effective when investigating the cause of the occurrence of the failure is recorded, so that the detailed information with low occurrence frequency can be used effectively.
 図7は、第2の実施例においてトレース情報(通常情報および詳細情報)のトレース実行処理を説明するためのフローチャートである。ここでは、コンピュータのCPUを動作させて実行されるトレース情報格納領域分割方式(前述の図6にてトレース情報格納領域を通常情報格納領域と詳細情報格納領域とに予め分割しておく様子を参照のこと)によるトレース実行処理を説明する。 FIG. 7 is a flowchart for explaining a trace execution process of trace information (normal information and detailed information) in the second embodiment. Here, the trace information storage area division method executed by operating the CPU of the computer (refer to the state where the trace information storage area is divided in advance into a normal information storage area and a detailed information storage area in FIG. 6 described above. The trace execution process according to the above is described.
 図7のフローチャートにおいて、トレース情報格納領域分割方式によるトレース実行処理を実行する場合、トレース情報格納メモリ内のトレース情報格納領域を、通常情報格納領域と詳細情報格納領域とに予め分割しておく。トレース情報制御装置を起動した後は、通常情報を取得して通常情報格納領域に格納する処理を実行する。 In the flowchart of FIG. 7, when executing the trace execution process by the trace information storage area division method, the trace information storage area in the trace information storage memory is divided in advance into a normal information storage area and a detailed information storage area. After starting the trace information control device, a process of acquiring normal information and storing it in the normal information storage area is executed.
 コンピュータシステムの重要障害につながるリトライやエラー等が発生したことが検知された場合、ステップS40に示すように、通常情報を取得して通常情報格納領域に格納すると共に、詳細情報を取得して詳細情報格納領域に格納する処理を実行する。このときに、重要障害につながるリトライやエラー等が発生したことが検知された回数(すなわち、トレース回数)を、コンピュータシステム内のカウンタ等によりカウントアップする。 When it is detected that a retry or error leading to an important failure of the computer system has occurred, as shown in step S40, the normal information is acquired and stored in the normal information storage area, and the detailed information is acquired and the details are acquired. Execute processing to store in the information storage area. At this time, the number of times that the occurrence of a retry or error leading to an important failure is detected (that is, the number of traces) is counted up by a counter or the like in the computer system.
 さらに、ステップS41に示すように、重要障害につながるリトライやエラー等が発生したことが検知された回数が、予め定義されている閾値を超えたか否かを判定することによって、詳細情報格納領域のサイズを変更することが必要であるか否かが判別される。重要障害につながるリトライやエラー等が発生したことが検知された回数が閾値を超えたと判定された場合(すなわち、詳細情報格納領域のサイズを変更することが必要であると判別された場合)、ステップS42に進み、トレース情報(詳細情報)の格納先である通常情報格納領域の先頭のアドレスを変更して詳細情報格納領域のサイズを動的に大きくする。 Furthermore, as shown in step S41, by determining whether or not the number of detected occurrences of retries or errors leading to an important failure has exceeded a predefined threshold, the detailed information storage area It is determined whether it is necessary to change the size. When it is determined that the number of detected occurrences of retries or errors leading to an important failure has exceeded the threshold (that is, when it is determined that it is necessary to change the size of the detailed information storage area), Proceeding to step S42, the size of the detailed information storage area is dynamically increased by changing the leading address of the normal information storage area that is the storage location of the trace information (detailed information).
 さらに、ステップS43に示すように、通常情報格納領域内の一部に新たに取得された詳細情報を上書きすることによって、この詳細情報をトレース情報格納領域に格納する処理を実行する。 Further, as shown in step S43, the newly acquired detailed information is overwritten in a part of the normal information storage area, thereby executing processing for storing this detailed information in the trace information storage area.
 また一方で、重要障害につながるリトライやエラー等が発生したことが検知された回数が閾値を超えていないと判定された場合、ステップS43に進み、詳細情報格納領域のサイズをそのままにして詳細情報をトレース情報格納領域に格納する処理を実行する。 On the other hand, if it is determined that the number of detected occurrences of retries or errors leading to an important failure does not exceed the threshold value, the process proceeds to step S43, and the detailed information storage area size remains unchanged. Is stored in the trace information storage area.
  上記の第2の実施例によるトレース実行処理を実行する場合、重要障害につながるリトライやエラー等の発生が検知された回数に応じて詳細情報格納領域のサイズを大きくすることによって、詳細情報が必要な量だけ詳細情報格納領域に格納されるようになるので、コンピュータ本来の処理性能に影響を及ぼすことなく、障害発生の原因を調査する際に有効な詳細情報を効率良く記録することが可能になる。 When executing the trace execution processing according to the second embodiment described above, detailed information is required by increasing the size of the detailed information storage area according to the number of occurrences of retries or errors leading to an important failure. As much information is stored in the detailed information storage area, it is possible to efficiently record detailed information that is effective when investigating the cause of a failure without affecting the original processing performance of the computer. Become.
 また一方で、トレース情報格納領域を通常情報格納領域と詳細情報格納領域とに予め分割しておくことによって、重要障害につながるリトライやエラー等の発生が検知された後、すぐに詳細情報をトレース情報格納領域から取り出すことができなかった場合でも、通常情報が詳細情報格納領域に上書きされることにより障害発生時の肝心な部分の詳細情報が消去されるのを防止することが可能になる。 On the other hand, by dividing the trace information storage area into a normal information storage area and a detailed information storage area in advance, detailed information is traced immediately after the occurrence of a retry or error leading to an important failure is detected. Even when the information cannot be extracted from the information storage area, it is possible to prevent the important information from being erased when the failure occurs by erasing the normal information over the detailed information storage area.
 図8は、第3の実施例においてトレース情報(通常情報)のトレース実行処理を説明するためのフローチャートであり、図9は、第3の実施例においてトレース情報(詳細情報)のトレース実行処理を説明するためのフローチャートある。ここでは、前述の第1の実施例に関連するトレース情報トレース用プログラムの全面置き換え方式と、前述の第2の実施例に関連するトレース情報格納領域分割方式との組み合わせによって実行されるトレース実行処理を説明する。 FIG. 8 is a flowchart for explaining trace execution processing of trace information (normal information) in the third embodiment. FIG. 9 shows trace execution processing of trace information (detailed information) in the third embodiment. It is a flowchart for demonstrating. Here, a trace execution process executed by a combination of the full replacement method of the trace information trace program related to the first embodiment and the trace information storage area division method related to the second embodiment. Will be explained.
 図8のフローチャートにおいて、トレース情報トレース用プログラムの全面置き換え方式とトレース情報格納領域分割方式との組み合わせによってトレース実行処理を実行する場合、トレース情報格納メモリ内のトレース情報格納領域を、通常情報格納領域と詳細情報格納領域とに予め分割しておく。 In the flowchart of FIG. 8, when the trace execution process is executed by a combination of the full replacement method of the trace information trace program and the trace information storage area division method, the trace information storage area in the trace information storage memory is changed to the normal information storage area. And a detailed information storage area.
 トレース情報制御装置を起動した後は、トレース情報制御装置を通常情報トレース時の状態に設定する。トレース情報制御装置の起動後は、自動的に通常情報トレース格納モードになっているので、通常情報を取得してトレース情報格納メモリに格納する処理を実行する。 After starting the trace information control device, set the trace information control device to the normal information trace state. Since the normal information trace storage mode is automatically set after the trace information control device is activated, the normal information is acquired and stored in the trace information storage memory.
 つぎに、図8のステップS50に示すように、装置制御プログラム上で設定されているフラグを判定することによって、コンピュータシステムの重要障害につながるリトライやエラー等が発生したか否か(すなわち、詳細情報をトレース格納メモリに格納する処理が必要であるか否か)が検知される。コンピュータシステムの重要障害につながるリトライやエラー等が発生したことが検知された場合、ステップS51に進み、詳細情報トレース用プログラムをプログラム格納メモリからプログラム実行メモリへ上書きロードし、通常情報トレース用プログラムを詳細情報トレース用プログラムに全面的に置き換える。 Next, as shown in step S50 of FIG. 8, whether or not a retry or an error leading to an important failure of the computer system has occurred by determining the flag set in the device control program (that is, details) Whether or not processing for storing information in the trace storage memory is necessary) is detected. If it is detected that a retry or error leading to an important failure of the computer system has occurred, the process proceeds to step S51, where the detailed information tracing program is overwritten from the program storage memory to the program execution memory, and the normal information tracing program is loaded. Completely replace with detailed information tracing program.
 また一方で、コンピュータシステムの重要障害につながるリトライやエラー等が発生したことが検知されなかった場合、ステップS52に進み、通常情報トレース格納モードに設定したままで通常情報をトレース格納メモリに格納する処理を実行する。 On the other hand, if it is not detected that a retry or error leading to an important failure of the computer system has occurred, the process proceeds to step S52, and the normal information is stored in the trace storage memory while being set in the normal information trace storage mode. Execute the process.
 上記のステップS50~S52の処理の内容は、前述の図4のステップS20~S22の処理の内容と実質的に同じである。 The contents of the processes in steps S50 to S52 are substantially the same as the contents of the processes in steps S20 to S22 in FIG.
 さらに、前述の図8のフローチャートでコンピュータシステムの重要障害につながるリトライやエラー等が発生したことが検知された場合、図9のフローチャートにおいて、詳細情報トレース用プログラムに基づいて、トレース情報制御装置を詳細情報トレース時の状態に設定する。この時点で、通常情報トレース格納モードから詳細情報トレース格納モードへ切り替わるので、図9のステップS60に示すように、詳細情報を取得して詳細情報格納領域に格納する処理を実行する。このときに、重要障害につながるリトライやエラー等が発生したことが検知された回数(すなわち、トレース回数)を、コンピュータシステム内のカウンタ等によりカウントアップする。 Further, when it is detected in the flowchart of FIG. 8 that a retry or an error leading to an important failure of the computer system has occurred, the trace information control device is changed based on the detailed information tracing program in the flowchart of FIG. Set the status when tracing detailed information. At this time, since the normal information trace storage mode is switched to the detailed information trace storage mode, as shown in step S60 of FIG. 9, a process of acquiring detailed information and storing it in the detailed information storage area is executed. At this time, the number of times that the occurrence of a retry or error leading to an important failure is detected (that is, the number of traces) is counted up by a counter or the like in the computer system.
 さらに、ステップS61に示すように、重要障害につながるリトライやエラー等が発生したことが検知された回数が、予め定義されている閾値を超えたか否かを判定することによって、詳細情報格納領域のサイズを変更することが必要であるか否かが判別される。重要障害につながるリトライやエラー等が発生したことが検知された回数が閾値を超えたと判定された場合(すなわち、詳細情報格納領域のサイズを変更することが必要であると判別された場合)、ステップS62に進み、トレース情報(詳細情報)の格納先である通常情報格納領域の先頭のアドレスを変更して詳細情報格納領域のサイズを動的に大きくする。 Further, as shown in step S61, by determining whether or not the number of detected occurrences of retries or errors leading to an important failure has exceeded a predefined threshold, the detailed information storage area It is determined whether it is necessary to change the size. When it is determined that the number of detected occurrences of retries or errors leading to an important failure has exceeded the threshold (that is, when it is determined that it is necessary to change the size of the detailed information storage area), Proceeding to step S62, the size of the detailed information storage area is dynamically increased by changing the head address of the normal information storage area that is the storage location of the trace information (detailed information).
 さらに、ステップS63に示すように、通常情報格納領域内の一部に新たに取得された詳細情報を上書きすることによって、この詳細情報をトレース情報格納領域に格納する処理を実行する。 Further, as shown in step S63, the newly acquired detailed information is overwritten on a part of the normal information storage area, thereby executing processing for storing this detailed information in the trace information storage area.
 また一方で、重要障害につながるリトライやエラー等が発生したことが検知された回数が閾値を超えていないと判定された場合、ステップS63に進み、詳細情報格納領域のサイズをそのままにして詳細情報をトレース情報格納領域に格納する処理を実行する。 On the other hand, if it is determined that the number of detected occurrences of retries or errors leading to an important failure does not exceed the threshold value, the process proceeds to step S63, and the detailed information storage area size remains unchanged. Is stored in the trace information storage area.
 上記の第3の実施例によるトレース処理を実行する場合、前述の第1の実施例の場合と同様に、通常情報トレース用プログラムまたは詳細情報トレース用プログラムのいずれか一方を実行する際にフラグを判定する処理が、前述の図3のフローチャートの場合よりも少なくて済む。それゆえに、頻繁にフラグを判定するという処理上のオーバーヘッドが発生することによりコンピュータ本来の処理性能を劣化させることが実質的になくなる。 When executing the trace processing according to the third embodiment, the flag is set when executing either the normal information trace program or the detailed information trace program, as in the case of the first embodiment. The determination process is less than in the case of the flowchart of FIG. Therefore, the processing overhead of frequently determining the flag is substantially eliminated so that the original processing performance of the computer is not deteriorated.
 さらに、上記の第3の実施例によるトレース実行処理を実行する場合、前述の第2の実施例の場合と同様に、重要障害につながるリトライやエラー等の発生が検知された回数に応じて詳細情報格納領域のサイズを大きくすることによって、詳細情報が必要な量だけ詳細情報格納領域に格納されるようになるので、コンピュータ本来の処理性能に影響を及ぼすことなく、障害発生の原因を調査する際に有効な詳細情報を効率良く記録することが可能になる。 Further, when the trace execution process according to the third embodiment is executed, the details according to the number of times that the occurrence of a retry or an error leading to an important failure is detected, as in the case of the second embodiment described above. By increasing the size of the information storage area, only the required amount of detailed information is stored in the detailed information storage area, so investigate the cause of the failure without affecting the original processing performance of the computer. In this case, it becomes possible to efficiently record detailed information that is effective.
 さらに、上記の第3の実施例によるトレース実行処理を実行する場合、前述の第2の実施例の場合と同様に、トレース情報格納領域を通常情報格納領域と詳細情報格納領域とに予め分割しておくことによって、重要障害につながるリトライやエラー等の発生が検知された後、すぐに詳細情報をトレース情報格納領域から取り出すことができなかった場合でも、通常情報が詳細情報格納領域に上書きされることにより障害発生時の肝心な部分の詳細情報が消去されるのを防止することが可能になる。 Further, when executing the trace execution process according to the third embodiment, the trace information storage area is divided into a normal information storage area and a detailed information storage area in advance as in the case of the second embodiment. If detailed information cannot be retrieved from the trace information storage area immediately after the occurrence of a retry or error leading to an important failure is detected, the normal information is overwritten in the detailed information storage area. Therefore, it is possible to prevent the detailed information of the important part at the time of failure from being erased.

Claims (20)

  1.  コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得するトレース情報取得手段と、
     前記トレース情報取得手段にて取得された前記トレース情報を格納するトレース情報格納メモリと、
     前記トレース情報取得手段および前記トレース情報格納メモリを統括的に制御する制御部とを備えるトレース情報制御装置において、
     前記トレース情報は、前記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、前記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含み、
     前記制御部は、前記トレース情報制御装置の通常動作時に、前記トレース情報の深度を浅くして前記第1の情報の取得・格納処理を行い、コンピュータシステムの障害につながる動作を検知した場合に、前記トレース情報の深度を深くして前記第2の情報の取得・格納処理を行うように制御することを特徴とするトレース情報制御装置。
    Trace information acquisition means for acquiring trace information of a device control program for investigating the cause of the failure of the computer system;
    A trace information storage memory for storing the trace information acquired by the trace information acquisition means;
    In a trace information control device comprising a control unit that comprehensively controls the trace information acquisition means and the trace information storage memory,
    The trace information includes first trace information indicating which path the device control program has executed, and second trace information indicating values of various parameters and variables related to the device control program,
    In the normal operation of the trace information control device, the control unit performs the acquisition and storage processing of the first information by reducing the depth of the trace information, and detects an operation that leads to a failure of the computer system. A trace information control apparatus, wherein control is performed to increase the depth of the trace information and to perform the acquisition / storage processing of the second information.
  2.  前記制御部は、前記障害につながる動作が検知されてから所定の時間が経過した後に、前記障害が発生しなかった場合には、前記トレース情報の深度を浅くして前記第1の情報の取得・格納処理を行うようになっている請求項1記載のトレース情報制御装置。 The control unit obtains the first information by reducing the depth of the trace information when the failure does not occur after a predetermined time has elapsed since the operation leading to the failure is detected. The trace information control apparatus according to claim 1, wherein storage processing is performed.
  3.  コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得するトレース情報取得手段と、
     前記トレース情報取得手段にて取得された前記トレース情報を格納するトレース情報格納メモリと、
     前記装置制御プログラム、および、前記トレース情報の取得・格納処理を行うためのトレース情報トレース用プログラムを格納するプログラム格納メモリと、
     前記装置制御プログラムおよび前記トレース情報トレース用プログラムを実行させる際に、前記プログラム格納メモリから前記装置制御プログラムおよび前記トレース情報トレース用プログラムがロードされるプログラム実行メモリと、
     前記プログラム実行メモリにロードされている前記装置制御プログラムおよび前記トレース情報トレース用プログラムを読み出して実行させると共に、前記トレース情報取得手段、前記トレース情報格納メモリ、前記プログラム格納メモリおよび前記プログラム実行メモリを統括的に制御する制御部とを備えるトレース情報制御装置において、
     前記トレース情報は、前記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、前記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含み、
     前記制御部は、前記トレース情報制御装置の起動後に、前記第1の情報の取得・格納処理を行うための第1の情報トレース用プログラムを前記プログラム格納メモリから前記プログラム実行メモリへロードし、コンピュータシステムの障害につながる動作を検知した場合に、前記第2の情報の取得・格納処理を行うための第2の情報トレース用プログラムを前記プログラム格納メモリから前記プログラム実行メモリへ上書きロードし、前記第1の情報トレース用プログラムを前記第2の情報トレース用プログラムに置き換えるように制御することを特徴とするトレース情報制御装置。
    Trace information acquisition means for acquiring trace information of a device control program for investigating the cause of the failure of the computer system;
    A trace information storage memory for storing the trace information acquired by the trace information acquisition means;
    A program storage memory for storing the device control program, and a trace information tracing program for acquiring and storing the trace information;
    A program execution memory in which the device control program and the trace information tracing program are loaded from the program storage memory when the device control program and the trace information tracing program are executed;
    The device control program and the trace information tracing program loaded in the program execution memory are read and executed, and the trace information acquisition unit, the trace information storage memory, the program storage memory, and the program execution memory are integrated. In a trace information control device comprising a control unit for controlling automatically,
    The trace information includes first trace information indicating which path the device control program has executed, and second trace information indicating values of various parameters and variables related to the device control program,
    The control unit loads a first information trace program for obtaining and storing the first information from the program storage memory to the program execution memory after the trace information control device is activated, When an operation leading to a system failure is detected, the second information trace program for performing the acquisition / storage processing of the second information is overwritten and loaded from the program storage memory to the program execution memory, A trace information control apparatus for controlling to replace one information trace program with the second information trace program.
  4.  前記制御部は、前記障害につながる動作が検知されてから所定の時間が経過した後に、前記障害が発生しなかった場合には、前記第1の情報トレース用プログラムを前記プログラム格納メモリから前記プログラム実行メモリへ上書きロードし、前記第2の情報トレース用プログラムを前記第1の情報トレース用プログラムに置き換えるようになっている請求項3記載のトレース情報制御装置。 If the failure does not occur after a predetermined time has elapsed since the operation leading to the failure is detected, the control unit may transfer the first information tracing program from the program storage memory to the program. 4. The trace information control device according to claim 3, wherein the second information trace program is replaced with the first information trace program by overwriting the execution memory.
  5.  コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得するトレース情報取得手段と、
     前記トレース情報取得手段にて取得された前記トレース情報を格納するトレース情報格納メモリと、
     前記トレース情報取得手段および前記トレース情報格納メモリを統括的に制御する制御部とを備えるトレース情報制御装置において、
     前記トレース情報は、前記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、前記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含み、
     前記トレース情報格納メモリ内のトレース情報格納領域が、第1のトレース情報格納領域と第2のトレース情報格納領域とに予め分割されており、
     前記制御部は、前記トレース情報制御装置の通常動作時に、前記第1の情報を前記第1の情報格納領域に格納し、コンピュータシステムの障害につながる動作を検知した場合に、前記第1の情報を前記第1の情報格納領域に格納すると共に前記第2の情報を前記第2の情報格納領域に格納するように制御し、さらに、前記障害につながる動作を検知した回数が予め定められた閾値を越えたときに、前記第2の情報格納領域のサイズを動的に大きくするように制御することを特徴とするトレース情報制御装置。
    Trace information acquisition means for acquiring trace information of a device control program for investigating the cause of the failure of the computer system;
    A trace information storage memory for storing the trace information acquired by the trace information acquisition means;
    In a trace information control device comprising a control unit that comprehensively controls the trace information acquisition means and the trace information storage memory,
    The trace information includes first trace information indicating which path the device control program has executed, and second trace information indicating values of various parameters and variables related to the device control program,
    The trace information storage area in the trace information storage memory is divided in advance into a first trace information storage area and a second trace information storage area,
    The control unit stores the first information in the first information storage area during normal operation of the trace information control apparatus, and detects the first information when an operation leading to a failure of the computer system is detected. Is stored in the first information storage area and the second information is stored in the second information storage area, and the number of times that the operation leading to the failure is detected is a predetermined threshold value. A trace information control apparatus for controlling the size of the second information storage area to be dynamically increased when the value exceeds the limit.
  6.  前記第2のトレース情報格納領域のサイズは、予め定められた値、および直前に取得された前記第1のトレース情報と前記第2のトレース情報に関する統計的な情報に基づいて決定される請求項5記載のトレース情報制御装置。 The size of the second trace information storage area is determined based on a predetermined value and the first trace information acquired immediately before and statistical information on the second trace information. 5. The trace information control device according to 5.
  7.  現在取得されている前記第2のトレース情報の内容が、以前に取得された前記第2のトレース情報と同じであると判定された場合に、現在取得されている前記第2のトレース情報を前記第2のトレース情報格納領域に格納しないようになっている請求項5記載のトレース情報制御装置。 When it is determined that the content of the second trace information currently acquired is the same as the second trace information acquired previously, the second trace information currently acquired is 6. The trace information control apparatus according to claim 5, wherein the trace information control apparatus is not stored in the second trace information storage area.
  8.  コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得するトレース情報取得手段と、
     前記トレース情報取得手段にて取得された前記トレース情報を格納するトレース情報格納メモリと、
     前記装置制御プログラム、および、前記トレース情報の取得・格納処理を行うためのトレース情報トレース用プログラムを格納するプログラム格納メモリと、
     前記装置制御プログラムおよび前記トレース情報トレース用プログラムを実行させる際に、前記プログラム格納メモリから前記装置制御プログラムおよび前記トレース情報トレース用プログラムがロードされるプログラム実行メモリと、
     前記プログラム実行メモリにロードされている前記装置制御プログラムおよび前記トレース情報トレース用プログラムを読み出して実行させると共に、前記トレース情報取得手段、前記トレース情報格納メモリ、前記プログラム格納メモリおよび前記プログラム実行メモリを統括的に制御する制御部とを備えるトレース情報制御装置において、
     前記トレース情報は、前記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、前記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含み、
     前記トレース情報格納メモリ内のトレース情報格納領域が、第1のトレース情報格納領域と第2のトレース情報格納領域とに予め分割されており、
     前記制御部は、前記トレース情報制御装置の起動後に、前記第1の情報の取得・格納処理を行うための第1の情報トレース用プログラムを前記プログラム格納メモリから前記プログラム実行メモリへロードし、前記第1の情報トレース用プログラムに基づいて前記第1の情報を前記第1の情報格納領域に格納するように制御し、
     また一方で、前記制御部は、コンピュータシステムの障害につながる動作を検知した場合に、前記第2の情報の取得・格納処理を行うための第2の情報トレース用プログラムを前記プログラム格納メモリから前記プログラム実行メモリへ上書きロードし、前記第2の情報トレース用プログラムに基づいて前記第2の情報を前記第2の情報格納領域に格納するように制御し、さらに、前記障害につながる動作を検知した回数が予め定められた閾値を越えたときに、前記第2の情報格納領域のサイズを動的に大きくするように制御することを特徴とするトレース情報制御装置。
    Trace information acquisition means for acquiring trace information of a device control program for investigating the cause of the failure of the computer system;
    A trace information storage memory for storing the trace information acquired by the trace information acquisition means;
    A program storage memory for storing the device control program, and a trace information tracing program for acquiring and storing the trace information;
    A program execution memory in which the device control program and the trace information tracing program are loaded from the program storage memory when the device control program and the trace information tracing program are executed;
    The device control program and the trace information tracing program loaded in the program execution memory are read and executed, and the trace information acquisition unit, the trace information storage memory, the program storage memory, and the program execution memory are integrated. In a trace information control device comprising a control unit for controlling automatically,
    The trace information includes first trace information indicating which path the device control program has executed, and second trace information indicating values of various parameters and variables related to the device control program,
    The trace information storage area in the trace information storage memory is divided in advance into a first trace information storage area and a second trace information storage area,
    The control unit loads a first information tracing program for performing acquisition / storage processing of the first information from the program storage memory to the program execution memory after the trace information control device is activated, Controlling to store the first information in the first information storage area based on a first information tracing program;
    On the other hand, when the control unit detects an operation leading to a failure of the computer system, the control unit obtains a second information tracing program for performing the second information acquisition / storage process from the program storage memory. Overloading into the program execution memory, controlling to store the second information in the second information storage area based on the second information tracing program, and detecting an operation leading to the failure A trace information control apparatus for controlling to increase the size of the second information storage area dynamically when the number of times exceeds a predetermined threshold.
  9.  前記第2のトレース情報格納領域のサイズは、予め定められた値、および直前に取得された前記第1のトレース情報と前記第2のトレース情報に関する統計的な情報に基づいて決定される請求項8記載のトレース情報制御装置。 The size of the second trace information storage area is determined based on a predetermined value and the first trace information acquired immediately before and statistical information on the second trace information. 8. The trace information control device according to 8.
  10.  現在取得されている前記第2のトレース情報の内容が、以前に取得された前記第2のトレース情報と同じであると判定された場合に、現在取得されている前記第2のトレース情報を前記第2のトレース情報格納領域に格納しないようになっている請求項8記載のトレース情報制御装置。 When it is determined that the content of the second trace information currently acquired is the same as the second trace information acquired previously, the second trace information currently acquired is 9. The trace information control apparatus according to claim 8, wherein the trace information control apparatus is not stored in the second trace information storage area.
  11.  コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得して格納するトレース情報格納メモリを備え、前記トレース情報は、前記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、前記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含むトレース情報制御装置を制御するためのトレース情報制御方法であって、
     前記トレース情報制御装置の通常動作時に、前記トレース情報の深度を浅くして前記第1の情報の取得・格納処理を行うステップと、
     コンピュータシステムの障害につながる動作が検知された場合に、前記トレース情報の深度を深くして前記第2の情報の取得・格納処理を行うステップとを有することを特徴とするトレース情報制御方法。
    A trace information storage memory is provided for acquiring and storing trace information of a device control program for investigating the cause of the failure occurrence of the computer system, and the trace information indicates which path the device control program has executed. A trace information control method for controlling a trace information control device including 1 trace information and second trace information indicating values of various parameters and variables related to the device control program,
    A step of acquiring and storing the first information by reducing the depth of the trace information during a normal operation of the trace information control device;
    And a step of acquiring and storing the second information by increasing the depth of the trace information when an operation leading to a failure of the computer system is detected.
  12.  前記トレース情報制御方法が、さらに、前記障害につながる動作が検知されてから所定の時間が経過した後に、前記障害が発生しなかった場合には、前記トレース情報の深度を浅くして前記第1の情報の取得・格納処理を行うステップを有する請求項11記載のトレース情報制御方法。 The trace information control method may further reduce the depth of the trace information when the failure does not occur after a predetermined time has elapsed since the operation leading to the failure is detected. The trace information control method according to claim 11, further comprising a step of performing acquisition / storage processing of the information.
  13.  コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得して格納するトレース情報格納メモリと、前記装置制御プログラム、および、前記トレース情報の取得・格納処理を行うためのトレース情報トレース用プログラムを格納するプログラム格納メモリと、前記装置制御プログラムおよび前記トレース情報トレース用プログラムを実行させる際に、前記プログラム格納メモリから前記装置制御プログラムおよび前記トレース情報トレース用プログラムがロードされるプログラム実行メモリとを備え、前記トレース情報は、前記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、前記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含むトレース情報制御装置を制御するためのトレース情報制御方法であって、
     前記トレース情報制御装置の起動後に、前記第1の情報の取得・格納処理を行うための第1の情報トレース用プログラムを前記プログラム格納メモリから前記プログラム実行メモリへロードし、前記第1の情報トレース用プログラムに基づいて前記第1の情報の取得・格納処理を行うステップと、
     コンピュータシステムの障害につながる動作が検知された場合に、前記第2の情報の取得・格納処理を行うための第2の情報トレース用プログラムを前記プログラム格納メモリから前記プログラム実行メモリへ上書きロードし、前記第1の情報トレース用プログラムを前記第2の情報トレース用プログラムに置き換えてから、前記第2の情報トレース用プログラムに基づいて前記第2の情報の取得・格納処理を行うステップとを有することを特徴とするトレース情報制御方法。
    Trace information storage memory for acquiring and storing trace information of a device control program for investigating the cause of failure of a computer system, the device control program, and a trace for performing processing for acquiring and storing the trace information A program storage memory for storing an information trace program, and a program into which the device control program and the trace information trace program are loaded from the program storage memory when the device control program and the trace information trace program are executed An execution memory, and the trace information includes first trace information indicating which path the device control program has executed, and second parameters indicating values of various parameters and variables related to the device control program. Trace information A trace information control method for controlling the trace information control apparatus comprising,
    After the trace information control device is activated, a first information trace program for acquiring and storing the first information is loaded from the program storage memory to the program execution memory, and the first information trace Performing a process of obtaining and storing the first information based on a program for use;
    When an operation leading to a failure of the computer system is detected, the second information tracing program for performing the acquisition / storage processing of the second information is overwritten and loaded from the program storage memory to the program execution memory, Replacing the first information tracing program with the second information tracing program and then performing the second information acquisition / storage processing based on the second information tracing program. Trace information control method characterized by the above.
  14.  前記トレース情報制御方法が、さらに、前記障害につながる動作が検知されてから所定の時間が経過した後に、前記障害が発生しなかった場合には、前記第1の情報トレース用プログラムを前記プログラム格納メモリから上書きロードし、前記第2の情報トレース用プログラムを前記第1の情報トレース用プログラムに置き換えてから、前記第1の情報トレース用プログラムに基づいて前記第1の情報の取得・格納処理を行うようになっている請求項13記載のトレース情報制御方法。 The trace information control method further stores the first information trace program in the program when the failure does not occur after a predetermined time has elapsed since the operation leading to the failure was detected. Overloading from the memory, replacing the second information trace program with the first information trace program, and then acquiring and storing the first information based on the first information trace program The trace information control method according to claim 13, which is performed.
  15.  コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得して格納するトレース情報格納メモリを備え、前記トレース情報は、前記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、前記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含むトレース情報制御装置を制御するためのトレース情報制御方法であって、
     前記トレース情報格納メモリ内のトレース情報格納領域を、第1のトレース情報格納領域と第2のトレース情報格納領域とに予め分割しておくステップと、
     前記トレース情報制御装置の通常動作時に、前記第1の情報を前記第1の情報格納領域に格納するステップと、
     コンピュータシステムの障害につながる動作が検知された場合に、前記第1の情報を前記第1の情報格納領域に格納すると共に前記第2の情報を前記第2の情報格納領域に格納するステップと、
     前記障害につながる動作が検出された回数が予め定められた閾値を越えたときに、前記第2の情報格納領域のサイズを動的に大きくするステップとを有することを特徴とするトレース情報制御方法。
    A trace information storage memory is provided for acquiring and storing trace information of a device control program for investigating the cause of the failure occurrence of the computer system, the trace information indicating which path the device control program has executed. A trace information control method for controlling a trace information control device including 1 trace information and second trace information indicating values of various parameters and variables related to the device control program,
    Pre-dividing a trace information storage area in the trace information storage memory into a first trace information storage area and a second trace information storage area;
    Storing the first information in the first information storage area during normal operation of the trace information control device;
    Storing the first information in the first information storage area and storing the second information in the second information storage area when an operation leading to a failure of the computer system is detected;
    And a method for dynamically increasing the size of the second information storage area when the number of times that the operation leading to the failure is detected exceeds a predetermined threshold value. .
  16.  前記トレース情報制御方法が、さらに、前記現在取得されている前記第2のトレース情報の内容が、以前に取得された前記第2のトレース情報と同じであると判定された場合に、現在取得されている前記第2のトレース情報を前記第2のトレース情報格納領域に格納しないステップを有する請求項15記載のトレース情報制御方法。 The trace information control method is further acquired when it is determined that the content of the currently acquired second trace information is the same as the previously acquired second trace information. The trace information control method according to claim 15, further comprising a step of not storing the second trace information being stored in the second trace information storage area.
  17.  コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得して格納するトレース情報格納メモリと、前記装置制御プログラム、および、前記トレース情報の取得・格納処理を行うためのトレース情報トレース用プログラムを格納するプログラム格納メモリと、前記装置制御プログラムおよび前記トレース情報トレース用プログラムを実行させる際に、前記プログラム格納メモリから前記装置制御プログラムおよび前記トレース情報トレース用プログラムがロードされるプログラム実行メモリとを備え、前記トレース情報は、前記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、前記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含むトレース情報制御装置を制御するためのトレース情報制御方法であって、
     前記トレース情報格納メモリ内のトレース情報格納領域を、第1のトレース情報格納領域と第2のトレース情報格納領域とに予め分割しておくステップと、
     前記トレース情報制御装置の起動後に、前記第1の情報の取得・格納処理を行うための第1の情報トレース用プログラムを前記プログラム格納メモリから前記プログラム実行メモリへロードし、前記第1の情報トレース用プログラムに基づいて前記第1の情報を前記第1の情報格納領域に格納するステップと、
     コンピュータシステムの障害につながる動作が検知された場合に、前記第2の情報の取得・格納処理を行うための第2の情報トレース用プログラムを前記プログラム格納メモリから前記プログラム実行メモリへ上書きロードし、前記第2の情報トレース用プログラムに基づいて前記第2の情報を前記第2の情報格納領域に格納するステップと、
     前記障害につながる動作が検知された回数が予め定められた閾値を越えたときに、前記第2の情報格納領域のサイズを動的に大きくするステップとを有することを特徴とするトレース情報制御方法。
    Trace information storage memory for acquiring and storing trace information of a device control program for investigating the cause of failure of a computer system, the device control program, and a trace for performing processing for acquiring and storing the trace information A program storage memory for storing an information trace program, and a program into which the device control program and the trace information trace program are loaded from the program storage memory when the device control program and the trace information trace program are executed An execution memory, and the trace information includes first trace information indicating which path the device control program has executed, and second parameters indicating values of various parameters and variables related to the device control program. Trace information A trace information control method for controlling the trace information control apparatus comprising,
    Pre-dividing a trace information storage area in the trace information storage memory into a first trace information storage area and a second trace information storage area;
    After the trace information control device is activated, a first information trace program for acquiring and storing the first information is loaded from the program storage memory to the program execution memory, and the first information trace Storing the first information in the first information storage area based on a program for use;
    When an operation leading to a failure of the computer system is detected, the second information tracing program for performing the acquisition / storage processing of the second information is overwritten and loaded from the program storage memory to the program execution memory, Storing the second information in the second information storage area based on the second information tracing program;
    And a method of dynamically increasing the size of the second information storage area when the number of times that an operation leading to the failure is detected exceeds a predetermined threshold value. .
  18.  前記トレース情報制御方法が、さらに、前記現在取得されている前記第2のトレース情報の内容が、以前に取得された前記第2のトレース情報と同じであると判定された場合に、現在取得されている前記第2のトレース情報を前記第2のトレース情報格納領域に格納しないステップを有する請求項17記載のトレース情報制御方法。 The trace information control method is further acquired when it is determined that the content of the currently acquired second trace information is the same as the previously acquired second trace information. The trace information control method according to claim 17, further comprising a step of not storing the second trace information being stored in the second trace information storage area.
  19.  コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得して格納するトレース情報格納メモリを備え、前記トレース情報は、前記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、前記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含むトレース情報制御装置を制御する場合、コンピュータに、
     前記トレース情報制御装置の通常動作時に、前記トレース情報の深度を浅くして前記第1の情報の取得・格納処理を行い、
     コンピュータシステムの障害につながる動作が検知された場合に、前記トレース情報の深度を深くして前記第2の情報の取得・格納処理を行うことを実行させるためのプログラム。
    A trace information storage memory is provided for acquiring and storing trace information of a device control program for investigating the cause of the failure occurrence of the computer system, and the trace information indicates which path the device control program has executed. When controlling a trace information control device including 1 trace information and second trace information indicating values of various parameters and variables related to the device control program,
    During normal operation of the trace information control device, the depth of the trace information is reduced and the first information is acquired and stored.
    A program for executing a process of acquiring and storing the second information by increasing the depth of the trace information when an operation leading to a failure of the computer system is detected.
  20.  コンピュータシステムの障害発生の原因を調査するための装置制御プログラムのトレース情報を取得して格納するトレース情報格納メモリを備え、前記トレース情報は、前記装置制御プログラムがどの経路を実行したかを示す第1のトレース情報と、前記装置制御プログラムに関連する各種のパラメータおよび変数の値を示す第2のトレース情報とを含むトレース情報制御装置を制御する場合、コンピュータに、
     前記トレース情報格納メモリ内のトレース情報格納領域を、第1のトレース情報格納領域と第2のトレース情報格納領域とに予め分割し、
     前記トレース情報制御装置の通常動作時に、前記第1の情報を前記第1の情報格納領域に格納し、
     コンピュータシステムの障害につながる動作が検知された場合に、前記第1の情報を前記第1の情報格納領域に格納すると共に前記第2の情報を前記第2の情報格納領域に格納し、
     前記障害につながる動作が検知された回数が予め定められた閾値を越えたときに、前記第2の情報格納領域のサイズを動的に大きくすることを実行させるためのプログラム。
    A trace information storage memory is provided for acquiring and storing trace information of a device control program for investigating the cause of the failure occurrence of the computer system, and the trace information indicates which path the device control program has executed. When controlling a trace information control device including 1 trace information and second trace information indicating values of various parameters and variables related to the device control program,
    Dividing the trace information storage area in the trace information storage memory in advance into a first trace information storage area and a second trace information storage area;
    During normal operation of the trace information control device, the first information is stored in the first information storage area,
    When an operation leading to a failure of the computer system is detected, the first information is stored in the first information storage area and the second information is stored in the second information storage area;
    A program for dynamically increasing the size of the second information storage area when the number of times that an operation leading to the failure is detected exceeds a predetermined threshold.
PCT/JP2008/060624 2008-06-10 2008-06-10 Trace information control device, trace information control method, and program intended for it WO2009150722A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/060624 WO2009150722A1 (en) 2008-06-10 2008-06-10 Trace information control device, trace information control method, and program intended for it

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2008/060624 WO2009150722A1 (en) 2008-06-10 2008-06-10 Trace information control device, trace information control method, and program intended for it

Publications (1)

Publication Number Publication Date
WO2009150722A1 true WO2009150722A1 (en) 2009-12-17

Family

ID=41416445

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/060624 WO2009150722A1 (en) 2008-06-10 2008-06-10 Trace information control device, trace information control method, and program intended for it

Country Status (1)

Country Link
WO (1) WO2009150722A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11314555B2 (en) * 2019-08-26 2022-04-26 International Business Machines Corporation Synchronous re-execution of a data transformation operation to obtain further details regarding an exception

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61213937A (en) * 1985-03-19 1986-09-22 Fujitsu Ltd Tracing system for information processing system
JPS63148338A (en) * 1986-12-12 1988-06-21 Nec Corp Program information tracing system
JPH01205245A (en) * 1988-02-10 1989-08-17 Fujitsu Ltd Automatic trace system for peripheral system and line system devices for electronic computer
JPH02244236A (en) * 1989-03-17 1990-09-28 Nec Corp Tracer device for microprogram controller
JPH03268033A (en) * 1990-03-19 1991-11-28 Nec Home Electron Ltd Remote debugging system
JPH0546432A (en) * 1991-06-24 1993-02-26 Nec Corp Controller automatically incorporating program debugging function
JPH05313824A (en) * 1992-05-11 1993-11-26 Hitachi Ltd Control method for tracing device built in disk device
JPH07262054A (en) * 1994-03-17 1995-10-13 Hitachi Ltd Failure information management system
JPH1049405A (en) * 1996-07-30 1998-02-20 Nec Corp Device and method for collecting and storage medium stored with trace
JPH10171696A (en) * 1996-12-06 1998-06-26 Nec Corp File exclusive control unit
JPH10240569A (en) * 1997-02-28 1998-09-11 Toshiba Corp Tracing device for computer
JP2000099367A (en) * 1998-09-18 2000-04-07 Fuji Xerox Co Ltd Evaluating device for software
JP2001209561A (en) * 2000-01-27 2001-08-03 Mitsubishi Electric Corp System and method for abnormal termination
JP2003345629A (en) * 2002-05-29 2003-12-05 Nec Corp System monitor device, system monitoring method used for the same, and program therefor
JP2006172401A (en) * 2004-12-20 2006-06-29 Olympus Corp Information collection apparatus

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61213937A (en) * 1985-03-19 1986-09-22 Fujitsu Ltd Tracing system for information processing system
JPS63148338A (en) * 1986-12-12 1988-06-21 Nec Corp Program information tracing system
JPH01205245A (en) * 1988-02-10 1989-08-17 Fujitsu Ltd Automatic trace system for peripheral system and line system devices for electronic computer
JPH02244236A (en) * 1989-03-17 1990-09-28 Nec Corp Tracer device for microprogram controller
JPH03268033A (en) * 1990-03-19 1991-11-28 Nec Home Electron Ltd Remote debugging system
JPH0546432A (en) * 1991-06-24 1993-02-26 Nec Corp Controller automatically incorporating program debugging function
JPH05313824A (en) * 1992-05-11 1993-11-26 Hitachi Ltd Control method for tracing device built in disk device
JPH07262054A (en) * 1994-03-17 1995-10-13 Hitachi Ltd Failure information management system
JPH1049405A (en) * 1996-07-30 1998-02-20 Nec Corp Device and method for collecting and storage medium stored with trace
JPH10171696A (en) * 1996-12-06 1998-06-26 Nec Corp File exclusive control unit
JPH10240569A (en) * 1997-02-28 1998-09-11 Toshiba Corp Tracing device for computer
JP2000099367A (en) * 1998-09-18 2000-04-07 Fuji Xerox Co Ltd Evaluating device for software
JP2001209561A (en) * 2000-01-27 2001-08-03 Mitsubishi Electric Corp System and method for abnormal termination
JP2003345629A (en) * 2002-05-29 2003-12-05 Nec Corp System monitor device, system monitoring method used for the same, and program therefor
JP2006172401A (en) * 2004-12-20 2006-06-29 Olympus Corp Information collection apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11314555B2 (en) * 2019-08-26 2022-04-26 International Business Machines Corporation Synchronous re-execution of a data transformation operation to obtain further details regarding an exception

Similar Documents

Publication Publication Date Title
EP2865524B1 (en) Method for recording chip usage state information, chip of imaging box and imaging box
JP5527324B2 (en) Operation monitoring apparatus, operation monitoring method, and program storage medium
US20080276129A1 (en) Software tracing
JP2005044357A (en) Storage system, method for managing storage system, and method for storing diagnostic data in storage system
US8234526B2 (en) Computer system and monitoring device
CN108073486B (en) Hard disk fault prediction method and device
JP5051514B2 (en) Memory error pattern recording system and memory error pattern recording method
JP4641443B2 (en) Log information management apparatus, log information management method, and log information management program
US20080244173A1 (en) Storage device using nonvolatile cache memory and control method thereof
JP2010204851A (en) Storage device and information processing apparatus
JP2011008460A (en) Dump output control apparatus, dump output control program, and dump output control method
JP2006338445A (en) Abnormality information storage apparatus
WO2009150722A1 (en) Trace information control device, trace information control method, and program intended for it
US8161324B2 (en) Analysis result stored on a field replaceable unit
JP6880961B2 (en) Information processing device and log recording method
JP5627414B2 (en) Action log collection system and program
JP2018160009A (en) Failure information processing program, computer, failure notification method, and computer system
JP2014052827A (en) Information processing device and information processing method
JP2009223714A (en) Arithmetic circuit and failure analysis method of arithmetic circuit
WO2014155228A1 (en) A primary memory module with a record of usage history and applications of the primary memory module to a computer system
JP2016091050A (en) Data storage system
JP5116606B2 (en) Software analysis system
JP6386575B2 (en) controller
JP2007172414A (en) Compact core dump program for built-in equipment and method using compact core dump
JP2013149112A (en) Management method for storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08777141

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08777141

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP