WO2015118679A1 - 計算機、ハイパーバイザ、物理コアの割り当て方法 - Google Patents

計算機、ハイパーバイザ、物理コアの割り当て方法 Download PDF

Info

Publication number
WO2015118679A1
WO2015118679A1 PCT/JP2014/052996 JP2014052996W WO2015118679A1 WO 2015118679 A1 WO2015118679 A1 WO 2015118679A1 JP 2014052996 W JP2014052996 W JP 2014052996W WO 2015118679 A1 WO2015118679 A1 WO 2015118679A1
Authority
WO
WIPO (PCT)
Prior art keywords
physical
core
physical core
cores
logical
Prior art date
Application number
PCT/JP2014/052996
Other languages
English (en)
French (fr)
Inventor
良英 白井
佐藤 秀俊
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2014/052996 priority Critical patent/WO2015118679A1/ja
Priority to US15/109,211 priority patent/US20160357647A1/en
Publication of WO2015118679A1 publication Critical patent/WO2015118679A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Definitions

  • the present invention relates to a computer, hypervisor, and physical core allocation method.
  • Patent Document 1 JP 2008-40540 A (Patent Document 1).
  • the gazette states: “If one of the physical processors operating as a target machine is degraded due to a failure, the table contents are updated regardless of the type of logical processor to which the degraded processor is assigned. Include a spare processor "(see summary).
  • Patent Document 1 When a physical core is assigned to a logical core of a virtual machine in a computer running an OS (Operating System) on the virtual machine, and the physical core fails and degenerates, in Patent Document 1, as an alternative to the logical core Allocate a spare physical core (spare processor).
  • OS Operating System
  • Patent Document 1 requires a spare physical core, and if the number of logical cores changes without using a spare physical core, the operation of the OS is prevented. It cannot be maintained. Further, for example, even in the case of an OS that can maintain operation even when the number of logical cores changes, there is a problem that performance is degraded unless a spare physical core is used.
  • the present invention assigns a first physical core to a first logical core of a first virtual machine, and a plurality of physical cores to one or more logical cores of a second virtual machine.
  • a hypervisor that assigns When a failure occurs in the first physical core, the hypervisor assigns a physical core other than the second physical core among a plurality of physical cores assigned to one or more logical cores included in the second virtual machine. Assign to these logical cores.
  • the hypervisor changes the physical core assigned to the first logical core from the first physical core where the failure has occurred to the second physical core.
  • FIG. 1 is a diagram showing a configuration of a computer system.
  • the physical computer 100 includes a calculation unit (CPU0 170, CPU1 171), a memory (storage unit) 180, an input / output device (input / output unit) 172, and a connection unit 173.
  • CPU0 170 and CPU1 171 are hereinafter also referred to as CPU 170/171.
  • the input / output device 172 is a device connected to a storage, a network, or the like, and is, for example, an HBA (Host Bus Adapter), a NIC (Network Interface Card), or the like.
  • the connection unit 173 connects to the terminal 101.
  • the terminal 101 includes a display unit that displays a screen and an input unit that receives an instruction (or request) from a user.
  • the memory 180 has a hyper sizer 102.
  • the hypervisor 102 is a program for realizing virtualization, and is executed by the CPUs 170 and 171.
  • the hypersizer 102 generates LPARs (130 to 134) that are logical computers.
  • LPAR Logical Partition
  • the resources computer resources: physical CPU, physical memory, physical I / O, etc.
  • the LPAR of this embodiment may be a logical computer (virtual computer).
  • the hyperizer 102 divides or shares the computer resources such as the physical cores (160 to 167), the memory 180, and the input / output device 172 in the CPUs 170 and 171 and assigns them to the LPARs (130 to 134). (130 to 134) are controlled.
  • the LPAR0 130 has an OS (Operating System) 140, a logical core 0 150, and a logical core 1 151.
  • the LPARs 1 to 4 (131 to 134) have OSs 141 to 144 and logical cores 2 to 9 (152 to 159).
  • the OSs 140 to 144 operate on the LPARs 0 to 4 (130 to 134).
  • the CPU 0 170 has an MSR (Model Specific Register) 190 that is a hardware register in which the status of the CPU 0 170 is recorded, and physical cores 0 to 3 (160 to 163).
  • the CPU 1 171 has an MSR 191 in which the status of the CPU 171 is recorded, and physical cores 4 to 7 (164 to 167).
  • the number of occurrences of errors (CE: Correctable Error) in the physical cores (160 to 167) in the same CPU 170/171 is recorded in the MSRs 190/191.
  • FIG. 2 is a diagram showing the configuration of the hypervisor 102.
  • the hypervisor 102 includes resource management information 122 for managing physical computer resources and logical computer resources, an input / output control unit 120 for controlling input / output with the terminal 101, and resource control for controlling resource management information 122.
  • the unit 121 has a CE count threshold 123 that is a predetermined value.
  • the resource management information 122 includes physical core group management information 110 (FIG. 4), physical core management information 111 (FIG. 3), LPAR management information 112 (FIG. 6), and logical core management information 113 (FIG. 5). .
  • the resource management information 122 and the CE count threshold 123 which is a predetermined value, may not be in the hypervisor 102 but may be in the memory 102 or an external storage device connected to the physical computer 100.
  • the maximum number of LPARs on the hypervisor 102 and the number of logical cores constituting the LPAR are determined by the maximum number defined in the system. In this embodiment, there are five LPARs (130 to 134) on the hypervisor 102, and each LPAR is provided with two logical cores (150 to 159).
  • FIG. 3 is a diagram showing the configuration of the physical core management information 111.
  • the physical core management information 111 includes, for each of the physical cores 0 to 7 (160 to 167), an entry of a physical core identifier 300 that identifies each physical core, a physical core state 301, and a CE count 302, and associates them. Manage. For example, in the physical core 2 162, the physical core state 301 is “normal” and the CE count 302 is “5”.
  • FIG. 4 is a diagram showing the configuration of the physical core group management information 110.
  • the physical core group management information 110 includes an entry of a physical core group identifier 400 for identifying each physical core group, an associated physical core 401 that is a physical core belonging to the physical core group, and a minimum number of physical cores 402 at the time of failure. And manage them in association with each other.
  • the physical core group 0 includes physical cores 4 to 7 (164 to 167), and the minimum number of physical cores at the time of failure is “3”.
  • FIG. 5 is a diagram showing the configuration of the logical core management information 113.
  • the logical core management information 113 includes, for each of the logical cores 0 to 9 (150 to 159), an entry of a logical core identifier 500 that identifies each logical core, a resource allocation method 501, and a corresponding physical core 502. Manage.
  • the corresponding physical core 502 records the identifier of the corresponding physical core when the resource allocation method 501 is occupied, and records the identifier of the corresponding physical core group when the resource allocation method 501 is shared.
  • the logical core 0 150 is occupied by the resource allocation method 501 and the physical core 0 160 is allocated.
  • the logical cores 1 to 3 (151 to 153) are occupied by the resource allocation method 501, and the physical cores 1 to 3 (161 to 163) are allocated respectively.
  • the logical cores 4 to 9 (154 to 159) share the resource allocation method 501 and are assigned the physical core group 0.
  • the physical core group 0 is composed of the physical cores 4 to 7 (164 to 167) as described above, and the resources of the physical cores 4 to 7 (164 to 167) are allocated to the logical cores 4 to 9 (154 to 159). In time sharing.
  • the resource control unit 121 of the hypervisor 102 assigns logical cores 0 to 9 (150 to 159) to physical cores or physical core groups. In FIG. 1, FIG. 12, and FIG. 16, the allocation of physical cores to logical cores is indicated by dotted lines.
  • FIG. 6 is a diagram showing the configuration of the LPAR management information 112.
  • the LPAR management information 112 includes, for each of the LPARs 0 to 4 (130 to 134), an LPAR identifier 600 for identifying each LPAR, a logical core identifier 601 for identifying a logical core included in the LPAR, and the number of logical cores shared by the physical core Information indicating whether or not to maintain the number of logical cores is maintained by sharing the number of logical cores 602 and the minimum number of physical cores 603 at the time of failure are managed in association with each other.
  • the LPAR 0 130 has a logical core 0 150 and a logical core 1 151.
  • LPAR0 130 is a policy for maintaining the number of logical cores by sharing physical cores, and the minimum number of physical cores 603 at the time of failure is “2”.
  • FIG. 7 is a diagram showing an example of a screen for displaying and setting the configuration of the LPAR.
  • the operator (user / administrator) can confirm and change the configuration of the LPAR on this screen displayed on the terminal 101.
  • the screen shown in FIG. 7 shows whether or not the LPAR identifier 1600, the LPAR status 1601, the logical core 1602 of the LPAR, the resource allocation method 1603, the allocation memory 1604, and the number of logical cores are maintained by sharing the physical cores.
  • the information includes “maintaining the number of logical cores by sharing physical cores” 1605 and the minimum number of physical cores 1606 at the time of failure.
  • the resource management information 122 has information equivalent to the information 1600 to 1606.
  • the input / output control unit 120 generates a screen illustrated in FIG. 7 based on the resource management information 122 and displays the screen on the terminal 101.
  • the operator from the terminal 101, sets a value equal to the number of physical cores belonging to the LPAR to the minimum number of physical cores 1606 at the time of the failure for the LPAR for which the processing performance is to be maintained even when a physical core failure occurs. input.
  • the operator inputs “Yes” to “Maintain logical core number by sharing physical cores 1605” from the terminal 101.
  • No is input from the terminal 101 to “Maintain logical core number by sharing physical core 1605”.
  • the input / output control unit 120 receives the resource via the connection unit 173, Transfer to the control unit 121.
  • the resource control unit 121 sets the received “logical core number by sharing physical cores” to “maintain the number of logical cores 602 by sharing physical cores 602” and “minimum physical core number 603 at the time of failure”. “Maintenance 1605” and “Minimum number of physical cores 1606 at the time of failure” are stored.
  • the operator selects an LPAR whose performance is to be maintained in the event of a failure by inputting “maintaining 1605 logical cores by sharing physical cores 1605” and “minimum number of physical cores 1606 in case of failure”. Can do. For example, for an LPAR whose performance is to be maintained in the event of a failure, if “the minimum number of physical cores 1606 at the time of failure” is set to the same value as the number of physical cores assigned to the logical cores of the LPAR before the failure occurs, The number of physical cores is maintained even in the event of a failure.
  • the resource control unit 121 refers to the MSRs 190 and 191 in the CPUs 170 and 171 to obtain the number of CE occurrences of each physical core 0 to 7 (160 to 167).
  • the resource control unit 121 records the number of occurrences of the acquired CE in the CE count 302 of the physical core management information 111 in association with the corresponding physical core identifier 300. This step may be performed regularly or irregularly.
  • the resource control unit 121 refers to the physical core management information 111 and acquires the CE count 302 of the physical cores 0 to 7 (160 to 167).
  • step 702 the resource control unit 121 compares the CE count 302 of the physical cores 0 to 7 (160 to 167) with the CE count threshold 123. As a result of the comparison, in each physical core, if the CE count threshold 123 is not exceeded, the sequence ends, and if it exceeds, the process proceeds to step 703.
  • a physical core in which the CE count 302 exceeds the CE count threshold 123 is defined as a failed physical core.
  • the resource control unit 121 refers to the physical core column 401 of the physical core group management information 110 and the corresponding physical core column 502 of the logical core management information 113, and physical cores 0 to 7 (160 to 167), an unaffiliated physical core that is not in any of the columns 401 and 502 is searched. Unassigned physical cores are physical cores that are not assigned to any logical cores 0 to 9 (150 to 159). Further, when there is an unaffiliated physical core, the resource control unit 121 refers to the physical core management information 111 and determines whether or not the state 301 of the unaffiliated physical core is normal.
  • step 704 if there is a normal physical core that does not belong, the process proceeds to step 710. If there is no normal physical core that does not belong, the process proceeds to step 730. .
  • step 710 the resource control unit 121 defines the unassigned normal physical core found in step 704 as an alternative physical core, and transitions to step 720.
  • step 720 the resource control unit 121 switches the arithmetic processing of the failed physical core to the alternative physical core.
  • the resource control unit 121 changes the affiliation of the failed physical core to the alternative physical core.
  • the resource control unit 121 assigns the logical core assigned to the failed physical core to the alternative physical core, and updates the logical core management information 113. Further, the resource control unit 121 changes the allocation of the physical core group to which the failed physical core belongs from the failed physical core to the alternative physical core, and updates the physical core group management information 110.
  • step 722 the resource control unit 121 puts the failed physical core into a degenerated state.
  • the resource control unit 121 changes the state 301 of the (failed) physical core associated with the failed physical core identifier 300 to “degenerate” in the physical core management information 111.
  • the resource control unit 121 issues a warning notification request to the input / output control unit 120 to notify that the failed physical core has been switched to the alternative physical core.
  • the input / output control unit 120 receives the warning notification request and displays a screen for notifying the terminal 101 via the connection unit 173 that the LPAR configuration has been changed because the failed physical core has been detected. For example, specifically, this is a screen for notifying that the allocation of the physical core to the logical core of the LPAR has been changed from the failed physical core to the alternative physical core because the failed physical core has been detected.
  • An operator (user / administrator) can know the occurrence of a physical core failure or a change in the LPAR configuration by notification on this screen.
  • the resource control unit 121 refers to the physical core group management information 110 and selects a physical core group that satisfies the condition “the number of belonging physical cores 401 is greater than the minimum number of physical cores 402 at the time of failure”. Search for.
  • step 731 the resource control unit 121 determines whether there is a physical core group that satisfies the condition that “the number of belonging physical cores 401 is larger than the minimum number of physical cores 402 at the time of failure” as a result of the search in step 730. judge. If it is determined that there is a physical core group that satisfies the condition, the process proceeds to step 740, and if there is no physical core group that satisfies the condition, the process proceeds to step 732.
  • the resource control unit 121 refers to the physical core group management information 110, the LPAR management information 112, and the logical core management information 113, and states that “the number of physical cores allocated to the logical cores included in the LPAR is LPAR satisfying the condition “greater than the minimum number of physical cores 603 at the time” is searched.
  • step 733 if the result of the search in step 732 shows that there is an LPAR that satisfies the condition that “the number of physical cores assigned to the logical core of the LPAR is greater than the minimum number of physical cores 603 at the time of failure”, the process advances to step 750. If there is no LPAR that satisfies the condition, the process proceeds to Step 734.
  • the resource control unit 121 issues a failure notification request to the input / output control unit 120 to notify that the failed physical core could not be switched.
  • the input / output control unit 120 receives the failure notification request, and the failure physical core is detected in the terminal 101 via the connection unit 173, but the allocation of the failure physical core to the logical core of the LPAR cannot be changed. Display a notification screen. The operator (user / administrator) can know from the notification on this screen that a physical core failure has occurred and that the allocation of the failed physical core to the logical core has not been changed.
  • the resource control unit 121 refers to the physical core group management information 110, and finds the condition that “the number of belonging physical cores 401 is greater than the minimum physical core number 402 at the time of failure” searched in step 730. For a physical core group satisfying the condition, one physical core group constituting the physical core group is selected as an alternative physical core.
  • the resource control unit 121 may select, for example, according to predetermined conditions (physical core performance, CE count, priority between physical cores, and the like).
  • the resource management information 122 includes information such as physical core performance and priority between physical cores.
  • one physical core group is selected according to a predetermined condition. For example, as a predetermined condition, the priority or performance between physical core groups is defined in the physical core group management information 110, and the resource control unit 121 selects one physical core group based on the priority or performance. Also good.
  • the resource control unit 121 refers to the physical core group management information 110 and distributes the arithmetic processing corresponding to the alternative physical core to other physical cores 401 belonging to the same physical core group. The processing of the alternative physical core is stopped.
  • step 742 the resource control unit 121 excludes the alternative physical core from the physical core group, updates the physical core group management information 110, and transitions to step 720.
  • one LPAR searched in step 732 is selected and set as an alternative physical core supply LPAR.
  • one LPAR is selected according to a predetermined condition. For example, as a predetermined condition, priority or performance between LPARs may be defined in the LPAR management information 112, and the resource control unit 121 may select one LPAR based on the priority or performance.
  • the resource control unit 121 refers to the resource management information 122 and selects one physical core from among the physical cores assigned to the logical cores included in the alternative physical core supply LPAR, and sets it as the alternative physical core. .
  • the resource control unit 121 may select, for example, a predetermined condition (physical core performance, CE count, priority between physical cores, etc.).
  • the resource management information 122 includes information such as physical core performance and priority between physical cores.
  • step 752 the resource control unit 121 refers to “maintain the number of logical cores by sharing physical cores” 602 in the LPAR management information 112, and proceeds to step 753 if Yes, or proceeds to step 760 if No. .
  • the resource control unit 121 manages all physical cores other than the alternative physical core among the physical cores assigned to the logical cores included in the alternative physical core supply LPAR as one physical core group. It adds to the information 110.
  • the minimum number of physical cores 402 at the time of failure of the added physical core group takes over the minimum number of physical cores 603 at the time of failure of the alternative physical core supply LPAR.
  • Step 754 the resource control unit 121 assigns all the logical cores included in the alternative core supply LPAR to the physical core group added in Step 753.
  • the resource control unit 121 records the physical core group added in step 753 in the corresponding physical core 502 corresponding to the logical core included in the alternative core supply LPAR in the logical core management information 113, and shares the resource allocation method 501. .
  • step 755 the resource control unit 121 uses the physical core group added in step 753 as the sharing mode, and distributes the arithmetic processing to the alternative physical core to the physical cores belonging to the physical core group. Further, the resource control unit 121 stops the arithmetic processing for the alternative physical core, and transitions to Step 720.
  • the resource control unit 121 refers to the resource management information 122 and distributes the arithmetic processing corresponding to the alternative physical core to other physical cores assigned to the logical cores included in the alternative physical core supply LPAR. The processing of the alternative physical core is stopped.
  • step 761 the resource control unit 121 updates the logical core management information 113 and the physical core group management information 110 by excluding the alternative physical core from the allocation of the logical cores included in the alternative physical core supply LPAR, and transitions to step 720. To do.
  • the resource control unit 121 refers to the MSR 190 of the CPU 0 170 and acquires the number of CE occurrences of the physical core 0 160.
  • the resource control unit 121 records the number of occurrences of the acquired CE in association with the identifier “0” of the physical core 0 160 in the CE count 302 of the physical core management information 111.
  • step 701 the resource control unit 121 acquires the CE count 302 of the physical core 0 160 with reference to the physical core management information 111 (FIG. 3).
  • step 702 the resource control unit 121 compares the CE count 302 of the physical core 0 160 with the CE count threshold 123.
  • the value “100” of the CE count 302 of the physical core 0 160 exceeds the CE count threshold 123, and the process proceeds to step 703.
  • the resource control unit 121 refers to the column 401 of the physical core to which the physical core group management information 110 (FIG. 4) belongs and the corresponding physical core column 502 of the logical core management information 113 (FIG. 5). Among the physical cores 0 to 7 (160 to 167), a physical core that does not belong is searched.
  • step 704 as a result of searching in step 703, there is no unassigned physical core, so the process proceeds to step 730.
  • the resource control unit 121 refers to the physical core group management information 110 and selects a physical core group that satisfies the condition “the number of belonging physical cores 401 is greater than the minimum number of physical cores 402 at the time of failure”. Search for.
  • the physical core group management information 110 (FIG. 4), the physical core group 0 has four physical cores 401 “4, 5, 6, 7”, and the minimum physical core number 402 at the time of failure is “3”. It is. Accordingly, the physical core group 0 satisfies the condition that “the number (4) of belonging physical cores 401 is larger than the minimum number of physical cores 402 (3) at the time of failure” and is searched by the resource control unit 121. .
  • step 731 the resource control unit 121 determines whether there is a physical core group that satisfies the condition “the number of belonging physical cores 401 is greater than the minimum number of physical cores at the time of failure” as a result of the search in step 730. To do. As a result of the determination, since physical core group 0 satisfies the condition, the process proceeds to step 740.
  • the resource control unit 121 refers to the physical core group management information 110 (FIG. 4), and “4, 5, 6, 7” which is the physical core 401 belonging to the physical core group 0 searched in step 730. ],
  • the physical core 4 164 is selected as an alternative physical core.
  • step 741 the resource control unit 121 assigns the physical cores 4 and 164 to physical cores 5 to 7 (165 to 167) other than the physical core 4 164 of the alternative physical core among the physical cores 401 to which the physical core group 0 belongs. Distribute arithmetic processing. The resource control unit 121 stops the arithmetic processing for the physical core 4 164 of the alternative physical core.
  • the resource control unit 121 excludes the physical core 4 164, which is an alternative physical core, from the physical core group 0, and transitions to step 720.
  • the resource control unit 121 removes the identifier “4” from “4, 5, 6, 7” for the physical core group 401 corresponding to the physical core group 0 of the physical core group management information 110 (FIG. 4) “5”. , 6, 7 ".
  • step 720 the resource control unit 121 switches the arithmetic processing of the physical core 0 160, which is a failed physical core, to the physical core 4, 164, which is an alternative physical core.
  • the resource control unit 121 refers to the logical core management information 113 (FIG. 5), and for the logical core “0” associated with “physical core 0” that is the failed physical core, the physical core 0 160. To the physical core 4 164 which is an alternative physical core. For the corresponding physical core 502 associated with the logical core 0 of the logical core management information 113 (FIG. 5), the resource control unit 121 changes from the “physical core 0” that is the failed physical core to the “physical” that is the alternative physical core. Update to “Core 4”.
  • step 722 the resource control unit 121 changes the state of the physical core 0 160, which is the failed physical core, to degeneration.
  • the resource control unit 121 updates the “physical core state” 301 associated with the physical core 0 of the physical core management information 111 (FIG. 3) from “normal” to “degenerate”.
  • the resource control unit 121 issues a warning notification request to the input / output control unit 120 to notify that the physical core 0 160 that is the failed physical core is switched to the physical core 4 164 that is the alternative physical core.
  • the input / output control unit 120 changes the configuration of the LPAR0 130 and the configuration of the LPAR2 to 4 (132 to 134) because the failed physical core is detected in the terminal 101 via the connection unit 173. Display a screen to notify you.
  • the physical core assignment for logical core 0 150 of LPAR0 130 has been changed from physical core 0 160, which is the failed physical core, to physical core 4, 164, which is the alternative physical core. This is a notification screen.
  • FIG. 12 is a diagram showing a configuration of a computer system after the above-described control by the resource control unit 121 when CE occurs frequently in the physical core 0 160 and the physical core 0 160 becomes a failed physical core.
  • the configuration of the computer system shown in FIG. 12 is that the physical core assignment to the logical core 0 150 is changed from the physical core 0 160 to the physical core 4 164. Yes. There is no logical core assigned to physical core 0 160, which is a failed physical core.
  • the physical cores constituting the physical core group 0 assigned to the logical cores 4 to 9 are changed from the physical cores 4 to 7 (164 to 167) to the physical cores 5 to 7 (165 to 167). has been edited.
  • the resource control unit 121 refers to the MSR 190 of the CPU 0 170 and acquires the number of CE occurrences of the physical core 1 161.
  • the resource control unit 121 records the obtained number of CE occurrences in association with the identifier “1” of the physical core 1 161 in the CE count 302 of the physical core management information 111.
  • the acquired CE occurrence count is “100”.
  • Step 701 the resource control unit 121 refers to the physical core management information 111 and acquires the CE count 302 of the physical core 1 161.
  • step 702 the resource control unit 121 compares the CE count 302 of the physical core 1 161 with the CE count threshold 123.
  • the CE count 302 of the physical core 1 161 is increased from “1” in FIG. 3 to “100”, and the threshold value 123 of the CE count is exceeded.
  • the resource control unit 121 refers to the physical core column 401 of the physical core group management information 110 and the corresponding physical core column 502 of the logical core management information 113, and physical cores 0 to 7 (160 to 167) is searched for an unaffiliated physical core.
  • physical core 0 160 is searched as an unaffiliated physical core.
  • the resource control unit 121 refers to the physical core management information 111 and determines whether the “physical core state” 301 of the physical core 0 160, which is an unassigned physical core, is normal. The resource control unit 121 determines that the “physical core state” 301 of the physical core 0 160 is “degenerate” and is not normal.
  • step 704 as a result of the search in step 703, there is no normal physical core that does not belong, so the process proceeds to step 730.
  • the resource control unit 121 refers to the physical core group management information 110 and selects a physical core group that satisfies the condition “the number of belonging physical cores 401 is greater than the minimum number of physical cores 402 at the time of failure”. Search for.
  • the physical core group management information 110 has three physical cores 401, “5, 6, 7” for physical core group 0, and the minimum physical core at the time of failure.
  • the number 402 is “3”. Therefore, the physical core group 0 does not satisfy the condition “the number of belonging physical cores 401 is larger than the minimum physical core number 402 at the time of failure”.
  • step 731 the resource control unit 121 determines that there is no physical core group that satisfies the condition “the number of belonging physical cores 401 is greater than the minimum number of physical cores at the time of failure” as a result of the search in step 730. Transition to step 732.
  • the resource control unit 121 refers to the physical core group management information 110, the LPAR management information 112, and the logical core management information 113, and states that “the number of physical cores assigned to the logical cores included in the LPAR is a failure. LPAR satisfying the condition “greater than the minimum number of physical cores 603 at the time” is searched.
  • the resource control unit 121 refers to the LPAR management information 112 (FIG. 6) and acquires the identifier of the logical cores 2 and 3 (152 and 153) as the logical core 601 included in the LPAR1 131.
  • the resource control unit 121 refers to the logical core management information 113, and as the corresponding physical core 502 associated with the identifier of the logical cores 2 and 3 (152 and 153), information on the physical core 2 162 and the physical core 3 163 To get.
  • the LPAR1 indicates that “the number (two) of the physical cores 2 and 3 (162 and 163) allocated to the logical cores 2 and 3 (152 and 153) of the LPAR1 is the minimum number of physical cores 603 ( The search is performed by the resource control unit 121 by satisfying the condition of “1) greater than”.
  • Step 732 it is assumed that the LPAR1 131 satisfies the condition that “the number of physical cores assigned to the logical core of the LPAR is greater than the minimum number of physical cores 603 at the time of failure”. Transition to.
  • step 750 the LPAR1 131 searched as a result of the search in step 732 is set as the alternative physical core supply LPAR.
  • step 751 the resource control unit 121 selects the physical core 2 out of the physical cores 2 and 3 (162 and 163) allocated to the logical cores 2 and 3 (152 and 153) included in the LPAR1 131 of the alternative physical core supply LPAR. 162 is selected as an alternative physical core.
  • the resource control unit 121 refers to the LPAR management information 112, and for LPAR1 131 that is the alternative physical core supply LPAR, “maintain the number of logical cores by sharing physical cores” 602 is Yes. Transition to Step 753
  • the resource control unit 121 selects the alternative physical core among the physical cores 2 and 3 (162 and 163) allocated to the logical cores 2 and 3 (152 and 153) included in the LPAR1 131 that is the alternative core supply LPAR.
  • Physical core 3 163, which is all physical cores other than physical core 2 162, is added as physical core group 1 to physical core group management information 110. Further, the minimum number of physical cores 402 at the time of failure of the physical core group 1 takes over the value “1” of the minimum number of physical cores 603 at the time of failure of the alternative physical core supply LPAR.
  • FIG. 14 is a diagram showing a configuration of the physical core group management information 110 to which the physical core group 1 is added at this time.
  • the physical core group management information 110 shown in FIG. 14 has “1” of the entry 400 as an identifier for identifying the physical core group 1 and “3” of the entry 401 as an identifier of the belonging physical core 401.
  • “1” of the minimum physical core number 402 at the time of failure are stored in association with each other.
  • the assigned physical core 401 is changed to “5, 6, 7”.
  • step 754 the resource control unit 121 adds all the logical cores 2 and 3 (152 and 153) belonging to LPAR1, which is the alternative physical core supply LPAR, to the physical core group 1 (physical physical core of the alternative physical core) added in step 753. All physical cores other than core 2 162 are assigned to physical core 3 163).
  • the resource control unit 121 records the physical core group 1 in the corresponding physical core 502 corresponding to the logical cores 2 and 3 (152 and 153) in the logical core management information 113 and shares the resource allocation method 501.
  • step 755 the computation processing of the alternative physical core is distributed as a shared mode to the physical core group 1 (physical core 3 163) added in step 753, and the computation processing to the physical core 2 162 of the alternative physical core is stopped. , Transition to step 720.
  • Step 720 the resource control unit 121 switches the arithmetic processing of the physical core 1 161 that is the failed physical core to the physical core 2 162 that is the alternative physical core.
  • the resource control unit 121 refers to the logical core management information 113, and changes the physical core 1 151 from the physical core 1 151 to the alternative physical core for the logical core 1 151 associated with the “physical core 1” that is the failed physical core. Change the allocation to a certain physical core 2 162.
  • the resource control unit 121 changes the corresponding physical core 502 associated with the logical core 1 of the logical core management information 113 from “physical core 1” that is a failed physical core to “physical core 2” that is an alternative physical core. Update.
  • FIG. 15 is a diagram showing the configuration of the logical core management information 113 at this time.
  • the resource allocation method 501 associated with the identifier entry 500 of the logical cores 2 and 3 (150 and 151) is changed to “shared” as compared with the state of FIG.
  • the corresponding physical core 502 is changed to “physical core group 1”.
  • the corresponding physical core 502 is changed to “physical core 4” and “physical core 2”, respectively.
  • Step 722 the resource control unit 121 changes the state of the physical core 1 161 that is the failed physical core to degenerate.
  • the resource control unit 121 updates the “physical core state” 301 associated with the physical core 1 in the physical core management information 111 from “normal” to “degenerate”.
  • FIG. 13 is a diagram showing the configuration of the physical core management information 111 at this time.
  • the state 301 of the physical core associated with the identifier entry 300 for identifying the physical core 0 160 is changed to “degenerate” as compared with the state of FIG. Yes.
  • the physical core state 301 is changed to “degenerate”, and the CE count 302 is changed to “100”.
  • the resource control unit 121 issues a warning notification request for notifying that the physical core 1 161 that is the failed physical core is switched to the physical core 2 162 that is the alternative physical core to the input / output control unit 120. .
  • the input / output control unit 120 notifies the terminal 101 that the configuration of the LPAR0 130 and the configuration of the LPAR1 141 have been changed to the terminal 101 via the connection unit 173 because the faulty physical core has been detected. Is displayed.
  • the physical core assignment for logical core 1 151 of LPAR0 130 has been changed from physical core 1 161, which is the failed physical core, to physical core 2, 162, which is the alternative physical core. This is a notification screen.
  • FIG. 16 is a diagram showing the configuration of the computer system after control by the resource control unit when the physical core 0 and the physical core 1 become faulty physical cores.
  • FIG. 12 which is the configuration of the computer system when only the physical core 0 160 is a failed physical core
  • the configuration of the computer system shown in FIG. 16 is that the physical core assignment to the logical core 1 151 is physical core 1 161. Has been changed to physical core 2 162. There is no logical core assigned to the physical core 1 161 that is the failed physical core.
  • the physical cores 3 and 163 constituting the physical core group 1 are allocated to the logical cores 2 and 3 (152 and 153). *
  • the physical computer 100 does not have a normal physical core that is not assigned to any logical core as a spare (not used), even if the physical computer 100 is degenerated due to a failure such as frequent occurrence of CE in the physical core. Since the number of logical cores can be maintained only by other physical cores in which no failure has occurred, the number of logical cores recognized by the OS operating on the LPAR does not change, and the operation of the virtual computer system of the physical computer 100 is not changed. Can be maintained. Therefore, even an OS that cannot maintain operation when the number of logical cores recognized by the OS changes can maintain operation.
  • the LPAR0 130 having the logical cores 0 and 1 (150 and 151) to which the failed physical cores 0 and 1 (160 and 161) are assigned is controlled by the resource control unit 121, As shown in FIG. 16, normal physical cores 2 and 4 (162 and 164) are allocated and occupied. Therefore, the number of physical cores allocated by occupation does not change before and after the failure of the physical cores 0 and 1 (160 and 161), and the performance of the LPAR0 130 can be maintained. Therefore, it is possible to solve the problem that the performance of the LPAR using the physical core that is degenerated or blocked due to a failure is deteriorated.
  • the configuration / method shown in this embodiment can be applied to any failure in which a physical core can be switched to another physical core. is there.
  • the “failure” may be a state in which a failure is predicted.
  • Step 710 in the step of selecting an alternative physical core in Step 710, Step 740, and Step 751 in the sequence (FIGS. 8 to 11) of the resource control unit 121 when the physical core of the resource control unit 121 occurs in excess of CE
  • Selection of alternative physical cores based on user specifications and performance characteristics depending on the hardware structure for example, the physical core group to which the alternative physical core is switched or the physical cores belonging to the LPAR are preferentially assigned in the case of the same NUMA group
  • Priorities may be given.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Hardware Redundancy (AREA)

Abstract

 物理コアが障害となっても論理コア数を変化させずにOSの稼動を維持し、仮想計算機の性能の劣化を抑える計算機・ハイパーバイザ・物理コアの割り当て方法を提供する。ハイパーバイザは、第1の仮想計算機が有する第1の論理コアに第1の物理コアを割り当て、第2の仮想計算機が有する1以上の論理コアに複数の物理コアを割り当てる。ハイパーバイザは、第1の物理コアに障害が発生すると、第2の仮想計算機が有する1以上の論理コアに割り当てられた複数の物理コアのうち、第2の物理コア以外の物理コアを、1以上の論理コアに割り当てる。ハイパーバイザは、第1の論理コアに割り当てる物理コアを、障害が発生した第1の物理コアから第2の物理コアに変更する。

Description

計算機、ハイパーバイザ、物理コアの割り当て方法
 本発明は、計算機、ハイパーバイザ、物理コアの割り当て方法に関する。
 本技術分野の背景技術として、特開2008-40540号公報(特許文献1)がある。この公報には、「ターゲットマシンとして稼動中の物理プロセッサの一つが障害により縮退した場合、縮退したプロセッサの割り付けられた論理プロセッサの種類に関わらず、テーブル内容を更新し、縮退したプロセッサの代替として予備プロセッサを組み込む。」と記載されている(要約参照)。
特開2008-40540号公報
 仮想計算機上でOS(Operating System)が稼働する計算機において、仮想計算機が有する論理コアに物理コアが割り当てられ、その物理コアに障害が発生し縮退する場合、特許文献1では当該論理コアに代替として予備の物理コア(予備プロセッサ)を割り当てる。しかし、例えば論理コア数が変化すると稼動を維持できないOSの場合、特許文献1では予備の物理コアが必要であり、予備の物理コアを使用せずに論理コア数が変化すると、OSの稼動を維持することができない。また、例えば論理コア数が変化しても稼動が維持できるOSの場合でも、予備の物理コアを使用しないと、性能が劣化する課題がある。
 上記課題を解決するために、本発明は、第1の仮想計算機が有する第1の論理コアに第1の物理コアを割り当て、第2の仮想計算機が有する1以上の論理コアに複数の物理コアを割り当てるハイパーバイザを有する。ハイパーバイザは、第1の物理コアに障害が発生すると、第2の仮想計算機が有する1以上の論理コアに割り当てられた複数の物理コアのうち、第2の物理コア以外の物理コアを、1以上の論理コアに割り当てる。ハイパーバイザは、第1の論理コアに割り当てる物理コアを、障害が発生した第1の物理コアから第2の物理コアに変更する。
 物理コアが障害となっても論理コア数を変化させずにOSの稼動を維持し、仮想計算機の性能の劣化を抑えることができる。上記した以外の課題、構成及び効果は、以下の発明を実施するための形態の説明により明らかにされる。
計算機システムの構成を示す図である。 ハイパーバイザの構成を示す図である。 物理コア管理情報の構成を示す図である。 物理コアグループ管理情報の構成を示す図である。 論理コア管理情報の構成を示す図である。 LPAR管理情報の構成を示す図である。 LPARの構成を表示および設定する画面の一例を示す図である。 リソース制御部の制御を示すフローチャート(第1部分)である。 リソース制御部の制御を示すフローチャート(第2部分)である。 リソース制御部の制御を示すフローチャート(第3部分)である。 リソース制御部の制御を示すフローチャート(第4部分)である。 物理コア0が障害物理コアとなった場合において、リソース制御部による制御後の計算機システムの構成を示す図である。 物理コア0及び物理コア1が障害物理コアとなった場合における物理コア管理情報の構成を示す図である。 物理コア0及び物理コア1が障害物理コアとなった場合における物理コアグループ管理情報の構成を示す図である。 物理コア0及び物理コア1が障害物理コアとなった場合における論理コア管理情報の構成を示す図である。 物理コア0及び物理コア1が障害物理コアとなった場合において、リソース制御部による制御後の計算機システムの構成を示す図である。
 以下、図面を用いて実施例を説明する。
 図1は、計算機システムの構成を示す図である。物理計算機100は、演算部(CPU0 170、CPU1 171)、メモリ(記憶部)180、入出力装置(入出力部)172、接続部173を有する。CPU0 170及びCPU1 171を、以下CPU170・171とも表記する。
 入出力装置172は、ストレージやネットワーク等に接続するデバイスであって、例えばHBA(Host Bus Adapter)やNIC(Network Interface Card)等である。接続部173は、端末101と接続する。端末101は、画面表示する表示部と、ユーザからの指示(または要求)を受け付ける入力部とを有する。
 メモリ180は、ハイパーザイザ102を有する。ハイパーバイザ102は、仮想化を実現するプログラムであり、CPU170・171で実行される。ハイパーザイザ102は、論理的な計算機であるLPAR(130~134)を生成する。ここで、LPAR(Logical Partition)とは、ハイパーバイザにより、ハードウェアが有するリソース(計算機資源:物理CPU、物理メモリ、物理I/O等)を論理的に分割し、その論理的に分割されたハードウェアを割当てられた論理区画をいう。本実施例のLPARを、論理的な計算機(仮想計算機)としても良い。
 本実施例において、ハイパーザイザ102は、CPU170・171内にある物理コア(160~167)、メモリ180、入出力装置172などの計算機資源を分割または共有してLPAR(130~134)に割り当て、LPAR(130~134)を制御する。
 LPAR0 130は、OS(Operating System)140と論理コア0 150と論理コア1 151とを有する。同様に、図1に示すように、LPAR1~4(131~134)は、OS141~144と論理コア2~9(152~159)を有する。LPAR0~4(130~134)上でOS140~144が動作する。
 CPU0 170は、CPU0 170のステータスが記録されているハードウェアのレジスタであるMSR(Model Specific Register)190と、物理コア0~3(160~163)とを有する。同様に、CPU1 171は、CPU171のステータスが記録されているMSR191と、物理コア4~7(164~167)とを有する。MSR190・191には、同じCPU170・171内の物理コア(160~167)におけるエラー(CE:Correctable Error)の発生回数が記録される。
 本実施例では、ある物理コアでCEが多発した場合、その物理コアで障害が発生したとする。具体的には、ある物理コアのCEの発生回数が、CEカウントの閾値123を超過した場合、その物理コアで障害が発生したとする。本実施例では、CEカウントの閾値123を超過した物理コアを、障害物理コアとして説明する。
 図2は、ハイパーバイザ102の構成を示す図である。ハイパーバイザ102は、物理計算機資源および論理計算機資源を管理するリソ-ス管理情報122、端末101との入出力を制御する入出力制御部120、リソ-ス管理情報122を制御するリソ-ス制御部121、所定の値であるCEカウントの閾値123を有する。リソ-ス管理情報122は、物理コアグル-プ管理情報110(図4)、物理コア管理情報111(図3)、LPAR管理情報112(図6)、論理コア管理情報113(図5)を有する。
 リソ-ス管理情報122や所定の値であるCEカウントの閾値123は、ハイパーバイザ102内になくても、メモリ102や、物理計算機100と接続する外部記憶装置にあっても良い。
 ハイパーバイザ102上のLPAR数およびLPARを構成する論理コア数の最大数は、システムに定義される最大数によって決定する。本実施例では、ハイパーバイザ102上にLPARが5個(130~134)あり、それぞれのLPARには2個ずつの論理コア(150~159)を備える構成とする。
 図3は、物理コア管理情報111の構成を示す図である。物理コア管理情報111は、各物理コア0~7(160~167)について、各物理コアを識別する物理コアの識別子300と、物理コアの状態301、CEカウント302のエントリを有し、対応づけて管理する。例えば、物理コア2 162は、物理コアの状態301が「正常」であり、CEカウント302が「5」である。
 図4は、物理コアグループ管理情報110の構成を示す図である。物理コアグループ管理情報110は、各物理コアグループを識別する物理コアグループの識別子400と、物理コアグループに所属する物理コアである所属物理コア401、障害時の最小物理コア数402のエントリを有し、対応づけて管理する。例えば、物理コアグループ0は、物理コア4~7(164~167)から構成されており、障害時の最小物理コア数は「3」である。
 図5は、論理コア管理情報113の構成を示す図である。論理コア管理情報113は、各論理コア0~9(150~159)について、各論理コアを識別する論理コアの識別子500と、リソース割り当て方法501、対応物理コア502のエントリを有し、対応づけて管理する。対応物理コア502は、リソース割り当て方法501が占有の場合は対応する物理コアの識別子が記録され、リソース割り当て方法501が共有の場合は対応する物理コアグループの識別子が記録される。
 論理コア0 150は、リソース割り当て方法501が占有であり、物理コア0 160が割り当てられている。同様に、論理コア1~3(151~153)は、リソース割り当て方法501が占有であり、それぞれ物理コア1~3(161~163)が割り当てられている。
 また、論理コア4~9(154~159)は、リソース割り当て方法501が共有であり、物理コアグループ0が割り当てられている。物理コアグループ0は上述のように物理コア4~7(164~167)で構成されており、これらの物理コア4~7(164~167)のリソースを論理コア4~9(154~159)で時分割共有している。
 ハイパーバイザ102のリソース制御部121は、論理コア0~9(150~159)を、物理コアまたは物理コアグループに割り当てる。図1・図12・図16において、論理コアに対する物理コアの割り当てを点線で示す。
 図6は、LPAR管理情報112の構成を示す図である。LPAR管理情報112は、各LPAR0~4(130~134)について、各LPARを識別するLPARの識別子600と、LPARが有する論理コアを識別する論理コアの識別子601、論理コア数を物理コアの共有化で維持するか否かを示す情報である「論理コア数を物理コアの共有化で維持」602、障害時の最小物理コア数603のエントリを有し、対応づけて管理する。
 例えば、LPAR0 130は、論理コア0 150と論理コア1 151とを有する。LPAR0 130は、論理コア数を物理コアの共有化で維持するポリシーであり、障害時の最小物理コア数603は「2」である。
 図7は、LPARの構成を表示及び設定する画面の一例を示す図である。オペレータ(ユーザ・管理者)は、端末101に表示された本画面により、LPARの構成を確認及び変更することができる。
 図7に示す画面は、LPARの識別子1600、LPARのステータス1601、LPARが有する論理コア1602、リソース割り当て方法1603、割り当てメモリ1604、論理コア数を物理コアの共有化で維持するか否かを示す情報である「論理コア数を物理コアの共有化で維持」1605、障害時の最小物理コア数1606を有する。リソース管理情報122は、これらの情報1600~1606と同等の情報を有する。入出力制御部120は、リソース管理情報122に基づいて、図7に示す画面を生成し、端末101に表示する。
 オペレータは、物理コアの障害が発生した時でも、演算処理性能を維持したいLPARに対しては、障害時の最小物理コア数1606に、当該LPARに所属する物理コア数と等しい値を端末101から入力する。また、オペレータは、LPAR上で動作するOSが、稼働中のコア数変化によってシステムダウンする場合は、「論理コア数を物理コアの共有化で維持1605」にYesを、端末101から入力する。一方、論理コア数が変化しても稼動を維持できるOSの場合は、「論理コア数を物理コアの共有化で維持1605」にNoを、端末101から入力する。
 端末101から「論理コア数を物理コアの共有化で維持1605」や「障害時の最小物理コア数1606」が入力されると、接続部173を介して入出力制御部120が受信し、リソース制御部121に転送する。リソース制御部121は、LPAR管理情報112の「論理コア数を物理コアの共有化で維持602」「障害時の最小物理コア数603」に、受信した「論理コア数を物理コアの共有化で維持1605」や「障害時の最小物理コア数1606」を格納する。
 オペレータ(ユーザ・管理者)は、「論理コア数を物理コアの共有化で維持1605」と「障害時の最小物理コア数1606」への入力により、障害時に性能を維持したいLPARを選択することができる。例えば、障害時に性能を維持したいLPARについて、「障害時の最小物理コア数1606」を、障害発生前における当該LPARが有する論理コアに割り当てられている物理コアの数と同じ値に設定すれば、障害時でも物理コアの数が維持される。
 図8~図11は、リソース制御部121の制御を示すフローチャートである。
 まず、図8のフローチャートをもとに、リソース制御部121の動作を説明する。ステップ700において、リソース制御部121は、CPU170・171内のMSR190・191を参照して、各物理コア0~7(160~167)のCEの発生回数を取得する。リソース制御部121は、物理コア管理情報111のCEカウント302に、該当する物理コアの識別子300に対応づけて、取得したCEの発生回数を記録する。このステップは定期的に実行されても良いし、不定期に実行されても良い。
 ステップ701において、リソース制御部121は、物理コア管理情報111を参照して、物理コア0~7(160~167)のCEカウント302を取得する。
 ステップ702において、リソース制御部121は、物理コア0~7(160~167)のCEカウント302と、CEカウントの閾値123とを比較する。比較した結果、各物理コアにおいて、CEカウントの閾値123を超過していなければシーケンスは終了し、超過していればステップ703へ遷移する。CEカウント302がCEカウントの閾値123を超過した物理コアを、障害物理コアと定義する。
 ステップ703において、リソース制御部121は、物理コアグループ管理情報110の所属物理コアのカラム401と、論理コア管理情報113の対応物理コアのカラム502とを参照し、物理コア0~7(160~167)のうち、いずれのカラム401・502にない未所属の物理コアを検索する。未所属の物理コアとは、いずれの論理コア0~9(150~159)にも割り当てられていない物理コアである。また、リソース制御部121は、未所属の物理コアがあった場合、物理コア管理情報111を参照して、未所属の物理コアの状態301が正常であるか否か判定する。
 ステップ704において、未所属の正常な物理コアを検索した結果、未所属の正常な物理コアがある場合はステップ710へ遷移し、未所属の正常な物理コアがない場合は、ステップ730へ遷移する。
 ステップ710において、リソース制御部121は、ステップ704で見つかった未所属の正常な物理コアを、代替物理コアと定義して、ステップ720へ遷移する。
 次に、図9のフローチャートをもとに、リソース制御部121の動作を説明する。ステップ720において、リソース制御部121は、障害物理コアの演算処理を、代替物理コアに切り替える。
 ステップ721において、リソース制御部121は、障害物理コアの所属を、代替物理コアと変更する。リソース制御部121は、障害物理コアに割り当てられている論理コアを、代替物理コアに割り当て、論理コア管理情報113を更新する。また、リソース制御部121は、障害物理コアが所属する物理コアグループについて、障害物理コアから代替物理コアに割り当てを変更し、物理コアグループ管理情報110を更新する。
 ステップ722において、リソース制御部121は、障害物理コアを縮退状態にする。リソース制御部121は、物理コア管理情報111について、障害物理コアの識別子300に対応づけられた(障害)物理コアの状態301を「縮退」にする。
 ステップ723において、リソース制御部121は、障害物理コアから代替物理コアに切り替えた旨を通知する警告通知の要求を、入出力制御部120へ発行する。入出力制御部120は、警告通知の要求を受信して、接続部173を介して端末101に、障害物理コアが検出されたため、LPARの構成を変更した旨を通知する画面を表示する。例えば、具体的には、障害物理コアが検出されたため、LPARの論理コアに対する物理コアの割り当てを、障害物理コアから代替物理コアに変更した旨を通知する画面である。オペレータ(ユーザ・管理者)は、この画面の通知により、物理コアの障害発生やLPARの構成変更を知ることができる。
 次に、図10のフローチャートをもとに、リソース制御部121の動作を説明する。ステップ730において、リソース制御部121は、物理コアグループ管理情報110を参照して、「所属物理コア401の数が、障害時の最小物理コア数402より大きい」との条件を満たす物理コアグループを検索する。
 ステップ731において、リソース制御部121は、ステップ730で検索した結果、「所属物理コア401の数が、障害時の最小物理コア数402より大きい」との条件を満たす物理コアグループがあるか否か判定する。判定により、条件を満たす物理コアグループがあればステップ740へ遷移し、条件を満たす物理コアグループがなければステップ732へ遷移する。
 ステップ732において、リソース制御部121は、物理コアグループ管理情報110とLPAR管理情報112と論理コア管理情報113とを参照して、「LPARが有する論理コアに割り当てられた物理コアの数が、障害時の最小物理コア数603より大きい」との条件を満たすLPARを検索する。
 ステップ733において、ステップ732で検索した結果、「LPARが有する論理コアに割り当てられた物理コアの数が、障害時の最小物理コア数603より大きい」との条件を満たすLPARがあればステップ750へ遷移し、条件を満たすLPARがなければステップ734へ遷移する。
 ステップ734において、リソース制御部121は、障害物理コアの切り替えが出来なかった旨を通知する障害通知の要求を、入出力制御部120へ発行する。入出力制御部120は、障害通知の要求を受信して、接続部173を介して端末101に、障害物理コアが検出されたが、LPARの論理コアに対する障害物理コアの割り当てを変更できなかった旨を通知する画面を表示する。オペレータ(ユーザ・管理者)は、この画面の通知により、物理コアの障害発生や、論理コアに対する障害物理コアの割り当てが変更されていない旨を知ることができる。
 ステップ740において、リソース制御部121は、物理コアグループ管理情報110を参照して、ステップ730で検索された「所属物理コア401の数が、障害時の最小物理コア数402より大きい」との条件を満たす物理コアグループについて、その物理コアグループを構成する所属物理コアから1つを選択し、代替物理コアとする。所属物理コアの中から代替物理コアを選択する際、リソース制御部121は、例えば所定の条件(物理コアの性能、CEカウント、物理コア間での優先順位等)により選択しても良い。この場合、リソース管理情報122は、物理コアの性能、物理コア間での優先順位等の情報を有する。
 なお、ステップ730で複数の物理コアグループが検索された場合は、所定の条件により1つの物理コアグループを選択する。例えば所定の条件として、物理コアグループ管理情報110において物理コアグループ間での優先順位または性能を定義し、リソース制御部121は、優先順位または性能に基づいて、1つの物理コアグループを選択しても良い。
 ステップ741において、リソース制御部121は、物理コアグループ管理情報110を参照して、代替物理コアに対応する演算処理を、同じ物理コアグループの他の所属物理コア401へ配分する。代替物理コアの演算処理は、停止する。
 ステップ742において、リソース制御部121は、物理コアグループから代替物理コアを除外して、物理コアグループ管理情報110を更新し、ステップ720へ遷移する。
 次に、図11のフローチャートをもとに、リソース制御部121の動作を説明する。ステップ750において、ステップ732で検索されたLPARを一つ選択し、代替物理コア供給LPARとする。なお、ステップ732で複数のLPARが検索された場合は、所定の条件により1つのLPARを選択する。例えば所定の条件として、LPAR管理情報112においてLPAR間での優先順位または性能を定義し、リソース制御部121は、優先順位または性能に基づいて、1つのLPARを選択しても良い。
 ステップ751において、リソース制御部121は、リソース管理情報122を参照して、代替物理コア供給LPARが有する論理コアに割り当てられた物理コアのうち、一つの物理コアを選択し、代替物理コアとする。代替物理コアを選択する際、リソース制御部121は、例えば所定の条件(物理コアの性能、CEカウント、物理コア間での優先順位等)により選択しても良い。この場合、リソース管理情報122は、物理コアの性能、物理コア間での優先順位等の情報を有する。
 ステップ752において、リソース制御部121は、LPAR管理情報112の「論理コア数を物理コアの共有化で維持」602を参照し、Yesの場合ステップ753へ遷移し、Noの場合ステップ760へ遷移する。
 ステップ753において、リソース制御部121は、代替物理コア供給LPARが有する論理コアに割り当てられた物理コアのうち、代替物理コア以外の全ての物理コアを、一つの物理コアグループとして、物理コアグループ管理情報110に追加する。ここで、追加する物理コアグループの障害時の最小物理コア数402は、代替物理コア供給LPARの障害時の最小物理コア数603を引き継ぐ。
 ステップ754において、リソース制御部121は、代替コア供給LPARが有する論理コアを全て、ステップ753で追加した物理コアグループに割り当てる。リソース制御部121は、論理コア管理情報113で、代替コア供給LPARが有する論理コアに対応する対応物理コア502に、ステップ753で追加した物理コアグループを記録し、リソース割り当て方法501を共有とする。
 ステップ755において、リソース制御部121は、ステップ753で追加した物理コアグループを共有モードとして、代替物理コアへの演算処理を、当該物理コアグループに所属する物理コアに配分する。また、リソース制御部121は、代替物理コアへの演算処理を停止し、ステップ720へ遷移する。
 ステップ760において、リソース制御部121は、リソース管理情報122を参照して、代替物理コアに対応する演算処理を、代替物理コア供給LPARが有する論理コアに割り当てられた他の物理コアへ配分する。代替物理コアの演算処理は、停止する。
 ステップ761において、リソース制御部121は、代替物理コアを代替物理コア供給LPARが有する論理コアの割り当てから除外して、論理コア管理情報113や物理コアグループ管理情報110を更新し、ステップ720へ遷移する。
 図8~図11のシーケンス図において、図1の計算機システムの構成で、物理コア0 160でCEが多発し、物理コア0 160が障害物理コアとなった場合を例として説明する。
 ステップ700において、リソース制御部121は、CPU0 170のMSR190を参照して、物理コア0 160のCEの発生回数を取得する。リソース制御部121は、物理コア管理情報111のCEカウント302に、物理コア0 160の識別子「0」と対応づけて、取得したCEの発生回数を記録する。
 ステップ701において、リソース制御部121は、物理コア管理情報111(図3)を参照して、物理コア0 160のCEカウント302を取得する。
 ステップ702において、リソース制御部121は、物理コア0 160のCEカウント302とCEカウントの閾値123とを比較する。本実施例では、物理コア0 160のCEカウント302の値「100」が、CEカウントの閾値123を超過しているとして、ステップ703へ遷移する。
 ステップ703において、リソース制御部121は、物理コアグループ管理情報110(図4)の所属物理コアのカラム401と、論理コア管理情報113(図5)の対応物理コアのカラム502とを参照し、物理コア0~7(160~167)のうち、未所属の物理コアを検索する。
 ステップ704において、ステップ703で検索した結果、未所属の物理コアは無いため、ステップ730へ遷移する。
 ステップ730において、リソース制御部121は、物理コアグループ管理情報110を参照して、「所属物理コア401の数が、障害時の最小物理コア数402より大きい」との条件を満たす物理コアグループを検索する。物理コアグループ管理情報110(図4)では、物理コアグループ0について、所属物理コア401は「4,5,6,7」の4つであり、障害時の最小物理コア数402は「3」である。したがって、物理コアグループ0は、「所属物理コア401の数(4つ)が、障害時の最小物理コア数402(3つ)より大きい」との条件を満たし、リソース制御部121により検索される。
 ステップ731において、リソース制御部121は、ステップ730で検索した結果、「所属物理コア401の数が、障害時の最小物理コア数より大きい」との条件を満たす物理コアグループがあるか否か判定する。判定の結果、物理コアグループ0が条件を満たすため、ステップ740へ遷移する。
 ステップ740において、リソース制御部121は、物理コアグループ管理情報110(図4)を参照して、ステップ730で検索された物理コアグループ0の所属物理コア401である「4,5,6,7」で識別される物理コアのうち、物理コア4 164を代替物理コアとして選択する。
 ステップ741において、リソース制御部121は、物理コアグループ0の所属物理コア401のうち、代替物理コアの物理コア4 164以外である物理コア5~7(165~167)に、物理コア4 164の演算処理を分配する。リソース制御部121は、代替物理コアの物理コア4 164への演算処理を停止する。
 ステップ742において、リソース制御部121は、代替物理コアである物理コア4 164を、物理コアグループ0から除外し、ステップ720に遷移する。リソース制御部121は、物理コアグループ管理情報110(図4)の物理コアグループ0に対応する所属物理コア401について、「4,5,6,7」から、識別子「4」を除外した「5,6,7」に更新する。
 ステップ720において、リソース制御部121は、障害物理コアである物理コア0 160の演算処理を、代替物理コアである物理コア4 164に切り替える。
 ステップ721において、リソース制御部121は、論理コア管理情報113(図5)を参照し、障害物理コアである「物理コア0」に対応づけられている論理コア「0」について、物理コア0 160から代替物理コアである物理コア4 164に割り当てを変更する。リソース制御部121は、論理コア管理情報113(図5)の論理コア0に対応づけられている対応物理コア502について、障害物理コアである「物理コア0」から、代替物理コアである「物理コア4」に更新する。
 ステップ722において、リソース制御部121は、障害物理コアである物理コア0 160の状態を縮退へ変更する。リソース制御部121は、物理コア管理情報111(図3)の物理コア0に対応づけられている「物理コアの状態」301について、「正常」から「縮退」に更新する。
 ステップ723において、リソース制御部121は、障害物理コアである物理コア0 160から代替物理コアである物理コア4 164に切り替えた旨を通知する警告通知の要求を、入出力制御部120へ発行する。入出力制御部120は、警告通知の要求を受けて、接続部173を介して端末101に、障害物理コアが検出されたため、LPAR0 130の構成及びLPAR2~4(132~134)の構成を変更した旨を通知する画面を表示する。具体例として、障害物理コアが検出されたため、LPAR0 130の論理コア0 150に対する物理コアの割り当てを、障害物理コアである物理コア0 160から代替物理コアである物理コア4 164に変更した旨を通知する画面である。
 図12は、物理コア0 160でCEが多発し、物理コア0 160が障害物理コアとなった場合において、リソース制御部121による上述の制御後における計算機システムの構成を示す図である。リソース制御部121による上述の制御前である図1と比べ、図12に示す計算機システムの構成は、論理コア0 150に対する物理コアの割り当てが、物理コア0 160から物理コア4 164に変更されている。障害物理コアである物理コア0 160に割り当てられている論理コアはない状態である。また、論理コア4~9(154~159)に割り当てられた物理コアグループ0を構成する物理コアが、物理コア4~7(164~167)から、物理コア5~7(165~167)に変更されている。
 図8~図11のシーケンス図において、図12の計算機システムの構成で、さらに物理コア1 161でCEが多発し、物理コア1 161が障害物理コアとなった場合を例として説明する。
 ステップ700において、リソース制御部121は、CPU0 170のMSR190を参照して、物理コア1 161のCEの発生回数を取得する。リソース制御部121は、物理コア管理情報111のCEカウント302に、物理コア1 161の識別子「1」に対応づけて、取得したCEの発生回数を記録する。ここでは、例として、取得したCEの発生回数を「100」とする。
 ステップ701において、リソース制御部121は、物理コア管理情報111を参照して、物理コア1 161のCEカウント302を取得する。
 ステップ702において、リソース制御部121は、物理コア1 161のCEカウント302とCEカウントの閾値123とを比較する。物理コア1 161のCEカウント302が、図3の「1」から「100」に増加しており、CEカウントの閾値123を超過しているとして、ステップ703へ遷移する。
 ステップ703において、リソース制御部121は、物理コアグループ管理情報110の所属物理コアのカラム401と、論理コア管理情報113の対応物理コアのカラム502とを参照し、物理コア0~7(160~167)のうち、未所属の物理コアを検索する。検索の結果、未所属の物理コアとして物理コア0 160が検索される。
 リソース制御部121は、物理コア管理情報111を参照して、未所属の物理コアである物理コア0 160の「物理コアの状態」301が正常であるか否か判定する。リソース制御部121は、物理コア0 160の「物理コアの状態」301は「縮退」であり、正常でないと判定する。
 ステップ704において、ステップ703で検索した結果、未所属の正常な物理コアは無いため、ステップ730へ遷移する。
 ステップ730において、リソース制御部121は、物理コアグループ管理情報110を参照して、「所属物理コア401の数が、障害時の最小物理コア数402より大きい」との条件を満たす物理コアグループを検索する。ここで、図12の計算機システムの構成において、物理コアグループ管理情報110は、物理コアグループ0について、所属物理コア401は「5,6,7」の3つであり、障害時の最小物理コア数402は「3」である。したがって、物理コアグループ0は、「所属物理コア401の数が、障害時の最小物理コア数402より大きい」との条件を満たさない。
 ステップ731において、リソース制御部121は、ステップ730で検索した結果、「所属物理コア401の数が、障害時の最小物理コア数より大きい」との条件を満たす物理コアグループが存在しないと判定し、ステップ732へ遷移する。
 ステップ732において、リソース制御部121は、物理コアグループ管理情報110とLPAR管理情報112と論理コア管理情報113とを参照して、「LPARが有する論理コアに割り当てられた物理コアの数が、障害時の最小物理コア数603より大きい」との条件を満たすLPARを検索する。
 具体例として、リソース制御部121は、LPAR管理情報112(図6)を参照して、LPAR1 131が有する論理コア601として、論理コア2・3(152・153)の識別子を取得する。リソース制御部121は、論理コア管理情報113を参照して、論理コア2・3(152・153)の識別子と対応づけられた対応物理コア502として、物理コア2 162・物理コア3 163の情報を取得する。したがって、LPAR1は、「LPAR1が有する論理コア2・3(152・153)に割り当てられた物理コア2・3(162・163)の数(2つ)が、障害時の最小物理コア数603(1つ)より大きい」との条件を満たし、リソース制御部121により検索される。
 ステップ733において、ステップ732で検索した結果、LPAR1 131が「LPARが有する論理コアに割り当てられた物理コアの数が、障害時の最小物理コア数603より大きい」との条件を満たすとして、ステップ750へ遷移する。
 ステップ750において、ステップ732で検索した結果、検索されたLPAR1 131を代替物理コア供給LPARとする。
 ステップ751において、リソース制御部121は、代替物理コア供給LPARのLPAR1 131が有する論理コア2・3(152・153)に割り当てられた物理コア2・3(162・163)のうち、物理コア2 162を選択し、代替物理コアとする。
 ステップ752において、リソース制御部121は、LPAR管理情報112を参照して、代替物理コア供給LPARであるLPAR1 131について、「論理コア数を物理コアの共有化で維持」602がYesであるため、ステップ753へ遷移する。
 ステップ753において、リソース制御部121は、代替コア供給LPARであるLPAR1 131が有する論理コア2・3(152・153)に割り当てられた物理コア2・3(162・163)のうち、代替物理コアの物理コア2 162以外の全ての物理コアである物理コア3 163を、物理コアグループ管理情報110に物理コアグループ1として追加する。また、物理コアグループ1の障害時の最小物理コア数402は、代替物理コア供給LPARの障害時の最小物理コア数603の値「1」を引き継ぐ。
 図14は、このときの物理コアグループ1を追加した物理コアグループ管理情報110の構成を示す図である。図14に示す物理コアグループ管理情報110は、図4の状態と比べて、物理コアグループ1を識別する識別子としてエントリ400の「1」と、所属物理コア401の識別子としてエントリ401の「3」と、障害時の最小物理コア数402の「1」とが対応づけられて、格納されている。また、物理コアグループ0については、所属物理コア401が「5,6,7」に変更されている。
 ステップ754において、リソース制御部121は、代替物理コア供給LPARであるLPAR1に所属する全ての論理コア2・3(152・153)を、ステップ753で追加した物理コアグループ1(代替物理コアの物理コア2 162以外の全ての物理コアである物理コア3 163)に割り当てる。リソース制御部121は、論理コア管理情報113で、論理コア2・3(152・153)に対応する対応物理コア502に、物理コアグループ1を記録し、リソース割り当て方法501を共有とする。
 ステップ755において、ステップ753で追加した物理コアグループ1(物理コア3 163)に対して共有モードとして代替物理コアの演算処理を配分し、代替物理コアの物理コア2 162への演算処理を停止し、ステップ720へ遷移する。
 ステップ720において、リソース制御部121は、障害物理コアである物理コア1 161の演算処理を、代替物理コアである物理コア2 162に切り替える。
 ステップ721において、リソース制御部121は、論理コア管理情報113を参照し、障害物理コアである「物理コア1」に対応づけられている論理コア1 151について、物理コア1 151から代替物理コアである物理コア2 162に割り当てを変更する。リソース制御部121は、論理コア管理情報113の論理コア1に対応づけられている対応物理コア502について、障害物理コアである「物理コア1」から、代替物理コアである「物理コア2」に更新する。
 図15は、このときの論理コア管理情報113の構成を示す図である。図15に示す論理コア管理情報113は、図5の状態と比べて、論理コア2・3(150・151)の識別子のエントリ500に対応づけられたリソース割り当て方法501が「共有」と変更され、また対応物理コア502が「物理コアグループ1」と変更されている。さらに、論理コア0 150と論理コア1 151については、対応物理コア502がそれぞれ「物理コア4」と「物理コア2」に変更されている。
 ステップ722において、リソース制御部121は、障害物理コアである物理コア1 161の状態を縮退へ変更する。リソース制御部121は、物理コア管理情報111の物理コア1に対応づけられている「物理コアの状態」301について、「正常」から「縮退」に更新する。
 図13は、このときの物理コア管理情報111の構成を示す図である。図13に示す物理コア管理情報111は、図3の状態と比べて、物理コア0 160を識別する識別子のエントリ300に対応づけられている物理コアの状態301が、「縮退」と変更されている。また、物理コア1 161については、物理コアの状態301が「縮退」と変更され、またCEカウント302が「100」に変更されている。
 ステップ723において、リソース制御部121は、障害物理コアである物理コア1 161から代替物理コアである物理コア2 162に切り替えた旨を通知する警告通知の要求を、入出力制御部120へ発行する。入出力制御部120は、警告通知の要求を受けて、接続部173を介して端末101に、障害物理コアが検出されたため、LPAR0 130の構成及びLPAR1 141の構成を変更した旨を通知する画面を表示する。具体例として、障害物理コアが検出されたため、LPAR0 130の論理コア1 151に対する物理コアの割り当てを、障害物理コアである物理コア1 161から代替物理コアである物理コア2 162に変更した旨を通知する画面である。
 図16は、物理コア0及び物理コア1が障害物理コアとなった場合において、リソース制御部による制御後の計算機システムの構成を示す図である。物理コア0 160のみが障害物理コアとなった場合の計算機システムの構成である図12と比べ、図16に示す計算機システムの構成は、論理コア1 151に対する物理コアの割り当てが、物理コア1 161から物理コア2 162に変更されている。障害物理コアである物理コア1 161に割り当てられている論理コアはない状態である。また、論理コア2・3(152・153)に、物理コアグループ1を構成する物理コア3 163が割り当てられている。 
 上記した実施例では、物理コア0 160と物理コア1 161でCEが多発し障害物理コアとなった場合を説明した。しかし、どの物理コアでCEが多発して障害物理コアとなり、縮退した場合でも、図8~図11で示すシーケンスでリソース制御部121が動作することにより、いずれのLPARにおいても割り当てられる論理コア数に変化が無いため、LPAR上で動作するOSが認識するコア数は変化しない。上記した実施例においても、物理コア0 160及び物理コア1 161が障害物理コアとなる前後で、図6のLPAR管理情報112の内容が変更されておらず、いずれのLPAR0~4(130~134)が有する論理コア数(2つ)は変化していない。
 したがって、物理計算機100が仮にいずれの論理コアにも割り当てられていない正常な物理コアを予備として有していない(使用しない)状態において、物理コアでCEが多発する等の障害により縮退したとしても、障害が発生していない他の物理コアだけで、論理コアの数を維持できるので、LPAR上に動作するOSが認識する論理コア数は変化せず、物理計算機100の仮想計算機システムの稼動を維持することができる。そのため、OSが認識する論理コア数が変化すると動作を維持できないOSでも、稼動を維持することができる。
 また、図1に示すように障害が発生した物理コア0・1(160・161)が割り当てられた論理コア0・1(150・151)を有するLPAR0 130は、リソース制御部121による制御後、図16に示すように正常な物理コア2・4(162・164)が占有で割り当てられる状態となる。そのため、物理コア0・1(160・161)の障害発生の前後で、占有で割り当てられる物理コア数が変化しておらず、LPAR0 130の性能を維持することができる。したがって、障害により縮退・閉塞した物理コアを使用しているLPARが、性能が劣化してしまう課題を解決することができる。
 本実施例では、障害として物理コアでCEが多発した場合を例にあげたが、物理コアを他の物理コアに切り替え可能な障害であれば、本実施例に示す構成・方法は適用可能である。また、本実施例において、「障害」とは、障害が予測される状態であっても良い。
 本実施例では、リソース制御部121の物理コアがCE超過発生時のリソース制御部121のシーケンス(図8~図11)内のステップ710やステップ740、ステップ751の代替物理コア選択のステップにおいて、ユーザの指定やハードウェア構造による性能特性(代替物理コアの切り替え先の物理コアグループやLPARに所属している物理コアにおいて、同一NUMAグループの場合は優先的に割り当てる等)による代替物理コア選択の優先順位をつけてもよい。
100 物理計算機、101 端末、102 ハイパーバイザ、110 物理コアグループ管理情報、111 物理コア管理情報、112 LPAR管理情報、113 論理コア管理情報、120 入出力制御部、121 リソース制御部、122 リソース管理情報、123 CEカウントの閾値、130~134 LPAR、140~144 OS、150~159 論理コア、160~167 物理コア、170~171 CPU、172 入出力装置、173 接続部、180 メモリ、190~191 MSR

Claims (14)

  1.  複数の物理コアと、
     第1の物理コアを割り当てられた第1の論理コアを有する第1の仮想計算機と、
     複数の物理コアを割り当てられた1以上の論理コアを有する第2の仮想計算機と、
     前記第1の物理コアに障害が発生すると、前記第2の仮想計算機が有する前記1以上の論理コアに割り当てられた前記複数の物理コアのうち、第2の物理コア以外の物理コアを、前記1以上の論理コアに割り当て、
      前記第1の論理コアに割り当てる物理コアを、前記障害が発生した第1の物理コアから前記第2の物理コアに変更するハイパーバイザと、を備える
    ことを特徴とする計算機。
  2.  請求項1に記載の計算機であって、
     前記計算機は、論理コア数を物理コアの共有化で維持するか否かを管理する情報を、仮想計算機毎に管理する仮想計算機管理情報を有する記憶部を備え、
     前記ハイパーバイザは、前記第1の物理コアに障害が発生すると、
     前記仮想計算機管理情報を参照して、前記第2の仮想計算機が論理コア数を物理コアの共有化で維持する場合、前記第2の仮想計算機が有する前記1以上の論理コアに割り当てられた前記複数の物理コアのうち、前記第2の物理コア以外の物理コアを、前記1以上の論理コアに共有で割り当てる
    ことを特徴とする計算機。
  3.  請求項2に記載の計算機であって、
     前記ハイパーバイザは、前記第1の物理コアに障害が発生すると、
     前記仮想計算機管理情報を参照して、前記第2の仮想計算機が論理コア数を物理コアの共有化で維持しない場合、前記第2の物理コアを、前記第2の仮想計算機が有する前記1以上の論理コアの割り当てから除外する
    ことを特徴とする計算機。
  4.  請求項2に記載の計算機であって、
     前記仮想計算機管理情報は、最小物理コア数を仮想計算機毎に管理し、
     前記ハイパーバイザは、前記第1の物理コアに障害が発生すると、
     前記仮想計算機管理情報を参照して、前記1以上の論理コアに割り当てられた物理コアの数が、前記仮想計算機の最小物理コア数より大きい前記第2の仮想計算機を検索する
    ことを特徴とする計算機。
  5.  請求項4に記載の計算機であって、
     前記ハイパーバイザは、前記第1の物理コアに障害が発生すると、
     前記仮想計算機管理情報を参照して、前記1以上の論理コアに割り当てられた物理コアの数が、前記仮想計算機の最小物理コア数より大きい前記第2の仮想計算機が検索されなかった場合、障害通知の要求を発行する
    ことを特徴とする計算機。
  6.  請求項1に記載の計算機であって、
     前記ハイパーバイザは、前記第1の論理コアに割り当てる物理コアを、前記障害が発生した第1の物理コアから前記第2の物理コアに変更すると、警告通知の要求を発行することを特徴とする計算機。
  7.  請求項1に記載の計算機であって、
     前記第1の物理コアでエラーが発生した回数が所定の値を超えたとき、前記第1の物理コアに前記障害が発生したとする
    ことを特徴とする計算機。
  8.  請求項1に記載の計算機であって、
     前記物理コアと論理コアとの割り当てを管理するリソース管理情報を有する記憶部を備え、
     前記ハイパーバイザは、前記第1の物理コアに障害が発生すると、
      前記リソース管理情報を参照して、前記計算機が備えるいずれの論理コアにも割り当てられていない第3の物理コアがある場合、前記第1の論理コアに割り当てる物理コアを、前記障害が発生した第1の物理コアから前記第3の物理コアに変更する
    ことを特徴とする計算機。
  9.  請求項8に記載の計算機であって、
     前記ハイパーバイザは、前記第1の物理コアに障害が発生すると、
     前記第3の物理コアがある場合、前記第1の論理コアに割り当てる物理コアを、前記第2の物理コアでなく前記第3の物理コアとする
    ことを特徴とする計算機。
  10.  請求項8に記載の計算機であって、
     前記記憶部は、前記物理コア毎に物理コアの状態を管理する物理コア管理情報を有し、
     前記ハイパーバイザは、前記第1の物理コアに障害が発生すると、
      前記物理コア管理情報を参照して、物理コアの状態が正常であり、前記計算機が備えるいずれの論理コアにも割り当てられていない物理コアを、前記第3の物理コアとする
    ことを特徴とする計算機。
  11.  請求項1に記載の計算機であって、
     前記ハイパーバイザは、前記第1の論理コアに割り当てる物理コアを、前記障害が発生した第1の物理コアから、前記第1の物理コア以外の物理コアに変更すると、前記第1の物理コアを縮退する
    ことを特徴とする計算機。
  12.  請求項1に記載の計算機であって、
     前記計算機は、複数の前記物理コアを有する第1の物理コアグループを備え
     最小物理コア数を物理コアグループ毎に管理する物理コアグループ管理情報を有する記憶部を備え、
     前記ハイパーバイザは、前記第1の物理コアに障害が発生すると、
     前記物理コアグループ管理情報を参照して、物理コアグループが有する物理コアの数が、前記物理コアグループの最小物理コア数より大きい前記第1の物理コアグループを検索し、
     前記検索された第1の物理コアグループが有する複数の物理コアの1つである第4の物理コアを、前記第1の物理コアグループから除外し、
     前記第1の論理コアに割り当てる物理コアを、前記障害が発生した第1の物理コアから前記第4の物理コアに変更する
    ことを特徴とする計算機。
  13.  第1の仮想計算機が有する第1の論理コアに第1の物理コアを割り当て、
     第2の仮想計算機が有する1以上の論理コアに複数の物理コアを割り当て、
     前記第1の物理コアに障害が発生すると、前記第2の仮想計算機が有する前記1以上の論理コアに割り当てられた前記複数の物理コアのうち、第2の物理コア以外の物理コアを、前記1以上の論理コアに割り当て、
     前記第1の論理コアに割り当てる物理コアを、前記障害が発生した第1の物理コアから前記第2の物理コアに変更する
    ことを特徴とするハイパーバイザ。
  14.  複数の物理コアと、複数の論理コアと、前記論理コアに前記物理コアを割り当てるハイパーバイザと、を有する計算機における物理コアの割り当て方法であって、
     前記ハイパーバイザは、第1の仮想計算機が有する第1の論理コアに第1の物理コアを割り当て、
     第2の仮想計算機が有する1以上の論理コアに複数の物理コアを割り当て、
     前記第1の物理コアに障害が発生すると、前記第2の仮想計算機が有する前記1以上の論理コアに割り当てられた前記複数の物理コアのうち、第2の物理コア以外の物理コアを、前記1以上の論理コアに割り当て、
     前記第1の論理コアに割り当てる物理コアを、前記障害が発生した第1の物理コアから前記第2の物理コアに変更する
    ことを特徴とする物理コアの割り当て方法。
PCT/JP2014/052996 2014-02-10 2014-02-10 計算機、ハイパーバイザ、物理コアの割り当て方法 WO2015118679A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2014/052996 WO2015118679A1 (ja) 2014-02-10 2014-02-10 計算機、ハイパーバイザ、物理コアの割り当て方法
US15/109,211 US20160357647A1 (en) 2014-02-10 2014-02-10 Computer, hypervisor, and method for allocating physical cores

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/052996 WO2015118679A1 (ja) 2014-02-10 2014-02-10 計算機、ハイパーバイザ、物理コアの割り当て方法

Publications (1)

Publication Number Publication Date
WO2015118679A1 true WO2015118679A1 (ja) 2015-08-13

Family

ID=53777505

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/052996 WO2015118679A1 (ja) 2014-02-10 2014-02-10 計算機、ハイパーバイザ、物理コアの割り当て方法

Country Status (2)

Country Link
US (1) US20160357647A1 (ja)
WO (1) WO2015118679A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6288275B2 (ja) * 2014-07-22 2018-03-07 日本電気株式会社 仮想化基盤管理装置、仮想化基盤管理システム、仮想化基盤管理方法、及び、仮想化基盤管理プログラム
US10768936B2 (en) * 2015-09-19 2020-09-08 Microsoft Technology Licensing, Llc Block-based processor including topology and control registers to indicate resource sharing and size of logical processor
US11126433B2 (en) 2015-09-19 2021-09-21 Microsoft Technology Licensing, Llc Block-based processor core composition register
US11016770B2 (en) 2015-09-19 2021-05-25 Microsoft Technology Licensing, Llc Distinct system registers for logical processors
US20210026950A1 (en) * 2016-03-07 2021-01-28 Crowdstrike, Inc. Hypervisor-based redirection of system calls and interrupt-based task offloading
US11531552B2 (en) 2017-02-06 2022-12-20 Microsoft Technology Licensing, Llc Executing multiple programs simultaneously on a processor core
US10956358B2 (en) * 2017-11-21 2021-03-23 Microsoft Technology Licensing, Llc Composite pipeline framework to combine multiple processors
US11983576B2 (en) 2021-08-04 2024-05-14 International Business Machines Corporation Accessing topological mapping of cores

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152594A (ja) * 2006-12-19 2008-07-03 Hitachi Ltd マルチコアプロセッサ計算機の高信頼化方法
JP2010122805A (ja) * 2008-11-18 2010-06-03 Hitachi Ltd 仮想サーバシステム並びに物理cpu及び物理メモリの割り当て方法
JP2011238278A (ja) * 2011-07-22 2011-11-24 Hitachi Ltd 仮想計算機の制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152594A (ja) * 2006-12-19 2008-07-03 Hitachi Ltd マルチコアプロセッサ計算機の高信頼化方法
JP2010122805A (ja) * 2008-11-18 2010-06-03 Hitachi Ltd 仮想サーバシステム並びに物理cpu及び物理メモリの割り当て方法
JP2011238278A (ja) * 2011-07-22 2011-11-24 Hitachi Ltd 仮想計算機の制御方法

Also Published As

Publication number Publication date
US20160357647A1 (en) 2016-12-08

Similar Documents

Publication Publication Date Title
WO2015118679A1 (ja) 計算機、ハイパーバイザ、物理コアの割り当て方法
US8914546B2 (en) Control method for virtual machine and management computer
US10560320B2 (en) Ranking of gateways in cluster
US9590843B2 (en) Method and system for providing distributed management in a networked virtualization environment
US7992032B2 (en) Cluster system and failover method for cluster system
US9223604B2 (en) Control method of virtual machine and virtual machine system
JP5035299B2 (ja) マルチコアプロセッサ制御方法、その計算機システム、及び管理計算機のプログラム
US11366617B2 (en) Unbalanced storage resource usage configuration for distributed storage systems
WO2015114816A1 (ja) 管理計算機および管理プログラム
US9690608B2 (en) Method and system for managing hosts that run virtual machines within a cluster
US9792142B2 (en) Information processing device and resource allocation method
US9329937B1 (en) High availability architecture
JP2008152594A (ja) マルチコアプロセッサ計算機の高信頼化方法
WO2013157072A1 (ja) 計算機システム、リソース管理方法及び管理計算機
US20130185531A1 (en) Method and apparatus to improve efficiency in the use of high performance storage resources in data center
US20160103744A1 (en) System and method for selectively utilizing memory available in a redundant host in a cluster for virtual machines
EP2645635B1 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
JP6010975B2 (ja) ジョブ管理装置、ジョブ管理方法、及びプログラム
US11385972B2 (en) Virtual-machine-specific failover protection
JP6448779B2 (ja) サーバストレージシステムを含んだ計算機システム
US10754547B2 (en) Apparatus for managing disaggregated memory and method thereof
JP2013117889A (ja) 広域分散構成変更システム
JP5597293B2 (ja) 計算機システム及びプログラム
JP5949385B2 (ja) 管理プログラム、管理方法、管理装置及び情報処理システム
US11755438B2 (en) Automatic failover of a software-defined storage controller to handle input-output operations to and from an assigned namespace on a non-volatile memory device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14881768

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15109211

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14881768

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP