WO2021260908A1 - サーバ群選択システム、サーバ群選択方法、および、プログラム - Google Patents

サーバ群選択システム、サーバ群選択方法、および、プログラム Download PDF

Info

Publication number
WO2021260908A1
WO2021260908A1 PCT/JP2020/025170 JP2020025170W WO2021260908A1 WO 2021260908 A1 WO2021260908 A1 WO 2021260908A1 JP 2020025170 W JP2020025170 W JP 2020025170W WO 2021260908 A1 WO2021260908 A1 WO 2021260908A1
Authority
WO
WIPO (PCT)
Prior art keywords
server
container
virtual machine
cluster
server group
Prior art date
Application number
PCT/JP2020/025170
Other languages
English (en)
French (fr)
Inventor
勝美 藤田
雅志 金子
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/025170 priority Critical patent/WO2021260908A1/ja
Priority to US18/012,131 priority patent/US20230281089A1/en
Priority to JP2022532198A priority patent/JP7468651B2/ja
Publication of WO2021260908A1 publication Critical patent/WO2021260908A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5044Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/501Performance criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/505Clust

Definitions

  • the present invention relates to a server group selection system, a server group selection method, and a program.
  • Patent Document 1 is an example of an optimum placement technique with performance as an objective function.
  • Patent Document 1 describes an optimum placement estimation technique for a black box NFV application composed of a plurality of functions.
  • Non-Patent Document 1 As an example of the optimum placement technology with availability as the objective function.
  • Non-Patent Document 1 describes a redundant configuration system and a method.
  • Patent Documents 1 and Non-Patent Document 1 do not consider the risk of failure of the physical server.
  • the physical server at the deployment destination had an implicit precondition that the characteristics other than the location information (installation location / network topology) and the availability of resources were uniform.
  • the physical server at the deployment destination has a different risk of failure due to various factors such as operating time and temperature. Therefore, if the location of the virtual machine or container is selected by ignoring these factors, there is a risk of selecting a physical server with a high risk of failure.
  • the classification unit classifies a plurality of physical servers into a plurality of clusters based on the parameters collected from each physical server, and the classification unit classifies the plurality of physical servers.
  • the server group selection system is characterized by having a selection unit for selecting either a virtual machine to be expanded or a cluster capable of securing resources necessary for arranging a container among a plurality of clusters as an arrangement destination.
  • the server group of the placement destination based on the cause of the failure of the physical server.
  • FIG. 1 is a configuration diagram of a system according to the present embodiment.
  • the system S includes a monitoring / analysis function unit 1 and an estimation / control unit 2.
  • System S is deployed from the clusters classified by the parameters related to the failure factor, considering the individual differences of the servers installed at the bases 3a to 3c in preparation for applying the optimum placement technology of the existing virtual machines / containers. It determines the destination server candidate group.
  • the virtual machine may be abbreviated as "VM”.
  • the monitoring / analysis function unit 1 operates on a server different from the bases 3a to 3c, and the estimation / control unit 2 exists for each controller existing on a plurality of servers in the bases 3a to 3c.
  • the monitoring / analysis function unit 1 includes a data collection unit 11, a data store 12, and a data analysis unit 13.
  • the monitoring / analysis function unit 1 monitors the servers installed at the bases 3a to 3c by the data collection unit 11 and collects data, and analyzes the information collected from each server by the data analysis unit 13.
  • the data collected from the servers installed at the bases 3a to 3c by the data collection unit 11 is stored in the data store 12.
  • the data analyzed by the data analysis unit 13 is output to the estimation / control unit 2 described later.
  • the estimation / control unit 2 includes a classification unit 21, an arrangement destination selection unit 22, and an arrangement control unit 23.
  • the estimation / control unit 2 arranges the virtual machine or the container on any server, and selects the server to be arranged by inputting the analysis result of the information of each server input from the monitoring / analysis function unit 1. And place the virtual machine or container on the selected server.
  • the classification unit 21 considers the individual differences of the physical servers installed at the bases 3a to 3c, and classifies them into clusters according to the parameters related to the failure factors of the physical servers. That is, the classification unit 21 classifies the plurality of physical servers into a plurality of clusters based on the parameters collected from each physical server. Information collected from each server by the data analysis unit 13 is input to the classification unit 21, and the cluster, which is a server group classified by the information, is output to the placement destination selection unit 22.
  • the placement destination selection unit 22 determines whether the newly placed virtual machine or container is the first (initial deployment), the second (SBY or scale-out), or the third or later (scale-out). Select the cluster that is the server group to deploy.
  • the cluster and the type of the virtual machine or container to be newly placed are input to the placement destination selection unit 22, and the cluster, which is a group of servers to place the cluster, is output.
  • the placement destination selection unit 22 selects, among the plurality of clusters classified by the classification unit 21, one of the clusters that can secure the resources required for the placement of the virtual machine to be expanded or the container as the placement destination.
  • the placement control unit 23 arranges the virtual machine or the container in any of the server groups (clusters).
  • a server group (cluster) in which a virtual machine or a container is arranged is input to the arrangement control unit 23, and an arrangement command for a server in which the virtual machine or the container is arranged is output.
  • the location of the physical server on which the monitoring / analysis function unit 1 and the estimation / control unit 2 are mounted does not matter. Also, these two parts do not have to be a set.
  • the physical server group selection method of the present embodiment is for the classification unit 21 and the placement destination selection unit 22, and the method of the existing optimum placement technology is applied to the placement control unit 23. Further, the classification unit 21 and the placement destination selection unit 22 are embodied by a CPU (Central Processing Unit) of a computer (not shown) executing a program.
  • CPU Central Processing Unit
  • the classification unit 21 classifies these servers using parameters indicating the characteristics of each server.
  • the classification unit 21 classifies the servers into clusters by a non-hierarchical clustering method such as the k-means method or a hierarchical clustering method such as the centroid method.
  • the cluster determination method differs depending on whether the virtual machine or container to be examined for placement is the first (initial deployment) or the second (example: for SBY) or the third or more (example: scale-out). For the second and subsequent deployments, consider risk distribution and select a cluster that has different characteristics from the cluster to which the same type of virtual machines or containers that are already installed belong.
  • the classification unit 21 clusters the servers based on any one of the information that can be acquired from the OS (Operating System), the initial information that can be acquired when the server is installed, the statistical information based on the past operation data, or a combination thereof. Classify into. As a result, the classification unit 21 can classify the physical servers into clusters using only the information that can be mechanically acquired, and evaluate the probability of failure of the server group constituting the cluster.
  • OS Operating System
  • the information that can be acquired from the OS includes the number of virtual machines that can be mounted on the server, the operating time of the server, the number of times the storage is written, the temperature indicated by the temperature sensor in the server, and the like.
  • the initial information that can be acquired when the server is installed is the base of the data center where the server is located, the rack number, the rack shelf number, the server manufacturer, the manufacturing time, the manufacturing lot number, and the like.
  • Statistical information based on past operational data includes MTBF (Mean Time Between Failures) and failure rate curves.
  • FIG. 2 is a graph in which servers that can mount virtual machines and containers are clustered.
  • FIG. 2 is a three-dimensional graph, which includes an axis of the number of times of writing to an optical disc, an axis of operating time, and an axis of temperature.
  • each server is roughly divided into three types: a cluster having relatively small parameters, a cluster having a medium level, and a cluster having a relatively large parameter.
  • the data collection unit 11 collects data on the number of disk writes, operating time, and temperature of each server, and stores the collected data in the data store 12.
  • the cluster may be classified according to the hardware information of the selected server and the location (base or rack). Further, the cluster may have a bias in each parameter, such as a large number of disk writes, a medium operating time, and a low temperature.
  • the server groups belonging to the same cluster have similar parameters for the number of disk writes, operating time, and temperature. Therefore, it is presumed that failures occur in the server group with the same tendency. These servers may fail at the same time due to the same factors. Therefore, in order to increase the availability of services, it is advisable to place the working system and the standby system virtual machines or containers on servers belonging to different clusters. In addition, multiple virtual machines or containers for scale-out should be located on servers that belong to different clusters as much as possible.
  • FIG. 3 is a graph in which servers on which virtual machines and containers can be mounted are clustered and further filtered by the server placement location.
  • the circles shown by the broken lines are the servers that are not candidates for the placement location as a result of filtering by the server placement location.
  • FIG. 4 is a server graph in which servers on which virtual machines and containers can be mounted are extracted and location information is mapped.
  • the bases 3a to 3c are shown by rectangles.
  • the base 3a includes a plurality of servers 31 and a hub 32 for star-connecting these servers 31. And each hub 32 is connected to each other.
  • Other bases 3b and 3c are also connected in the same manner.
  • the bases 3a to 3c are star-connected via the hub 33.
  • the bases 3a to 3c form a network. Since the route between the servers at the same base is short, the communication time between multiple virtual machines or containers placed on the server is short. Therefore, it is preferable to place a plurality of virtual machines or containers for scale-out on servers at the same base.
  • FIG. 5 is a graph for selecting initial deployment candidates from a cluster composed of servers on which virtual machines and containers can be mounted.
  • the cluster 41 has relatively small parameters of the number of disk writes, the operating time, and the temperature.
  • the cluster 42 has medium disk write counts, uptime and temperature parameters.
  • the cluster 43 has relatively large parameters of the number of disk writes, the operating time, and the temperature.
  • FIG. 6 is a graph for selecting redundancy candidates from a cluster composed of servers on which virtual machines and containers can be mounted.
  • the server shown by the thick line in the cluster 41 has a virtual machine or container of the active system (ACT) deployed.
  • ACT active system
  • This makes it possible to reduce the possibility that the active system (ACT) and the standby system (SBY) will fail at the same time due to the same factor.
  • FIG. 7 is a graph for selecting scale-out candidates from a cluster composed of servers on which virtual machines and containers can be mounted.
  • the server shown by the bold line has the same type of scale-out virtual machine or container deployed.
  • Steps S10 to S15 are iterative processes for the servers in all the data centers.
  • step S11 the data analysis unit 13 assigns each attribute of this server to a new element of the array m.
  • the attributes the identification information of the base, the rack number, the number of the server in the rack, the amount of free resources of the server, the operating time, the number of disk (storage) writes, and the temperature.
  • the amount of free resources on the server is specifically the number of virtual machines or containers that can be installed.
  • the temperature is the temperature indicated by the temperature sensor in the server.
  • step S12 the data analysis unit 13 determines whether or not the amount of free resources of this server exceeds 0. In step S12, if the amount of free resources of this server is 0 (No), the data analysis unit 13 proceeds to step S15. If the amount of free resources exceeds 0 (Yes), the data analysis unit 13 adds the attribute of this server to the new element of the array m * (S13), and the number of elements M * of this new array m *. 1 is added to (S14). If the amount of free resources is 0, the data analysis unit 13 proceeds to step S15.
  • step S15 the data analysis unit 13 returns to step S10 if there is an unprocessed server in the data center, and proceeds to step S16 if all the servers have been processed.
  • Steps S16 to S18 are iterative processes for the server represented by the array m *.
  • the server represented by the array m * is a server having free resources on which one or more virtual machines or containers can be mounted.
  • the classification unit 21 assigns the server to any cluster from 1 to Nc according to the number of disk writes, the operating time, and the temperature of the server by a clustering method such as the k-means method.
  • Nc is the number of clusters.
  • the classification unit 21 may classify the clusters based on any one of the information that can be acquired from the OS, the initial information that can be acquired when the server is installed, and the statistical information based on the past operation data.
  • step S18 the classification unit 21 returns to step S16 if there is an unprocessed server represented by the array m *, and if all the servers of the array m * have been processed, step S19 in FIG. 8B. Proceed to.
  • step S19 of FIG. 8B the classification unit 21 determines whether or not to consider the placement location. If the placement location is taken into consideration (Yes), the classification unit 21 divides M * servers into each base (S20). Then, the classification unit 21 assigns the server belonging to the base having the largest number of free resources in the array m * to the new array m ** (S21). When applying the placement control technology that considers the physical distance of the server, it is advisable to filter by the distance on the server graph in advance.
  • the classification unit 21 proceeds to the process of step S25.
  • step S19 of FIG. 8B if the placement location is not considered (No), the classification unit 21 substitutes all the arrays m * into the new array m ** (S23), and newly replaces the number of servers M * with free resources. If M ** is set to (S24), the process proceeds to step S25. That is, the classification unit 21 classifies the filtered physical servers into clusters based on the installation location of each physical server.
  • Steps S25 to S33 are iterative processes for all clusters.
  • the server group is selected in the order of the lowest probability of failure, for example, the order of the lowest number of server disk writes, the order of the shortest operating time, and the order of the lowest temperature.
  • step S26 the placement destination selection unit 22 determines whether or not the virtual machine or container to be newly deployed is the initial deployment. If the virtual machine or container to be newly deployed is the initial deployment (Yes), the deployment destination selection unit 22 calculates the total value C of the amount of free resources of the server of this cluster n (S29).
  • step S30 the placement destination selection unit 22 determines whether or not the number of virtual machines or containers to be newly deployed is equal to or less than the total value C of the amount of free resources of the server. In step S30, if the number of virtual machines or containers to be newly deployed is equal to or less than the total value C of the amount of free resources of the server (Yes), the placement destination selection unit 22 proceeds to step S38 in FIG. 8C. Then, in step S38, when the arrangement destination selection unit 22 adopts this cluster n as the deployment destination and transmits the arrangement m ** and the number of elements M ** to the arrangement control unit 23, the process of FIG. 8C ends.
  • the placement destination selection unit 22 preferentially places a cluster with a lower probability of failure as the placement destination.
  • step S30 the placement destination selection unit 22 proceeds to step S33 if the number of virtual machines or containers to be newly deployed exceeds the total value C of the amount of free resources of the server (No).
  • step S26 if the virtual machine or container to be newly deployed is not the initial deployment (No), the placement destination selection unit 22 proceeds to step S27 and determines whether or not it is the second unit.
  • step S27 if the placement destination selection unit 22 is the second virtual machine or container to be newly deployed (Yes), the placement destination selection unit 22 determines whether or not there is a virtual machine or container of the same type initially deployed in this cluster n. (S28). In FIG. 8B, step S28 is abbreviated as “initial deployment VM is present in the cluster n”. If the determination in step S28 is Yes, it corresponds to the above-mentioned redundancy and the deployment of the second unit by scale-out.
  • the placement destination selection unit 22 proceeds to step S29, and if the amount of free resources of this cluster n allows, this cluster n is used. Target for deployment.
  • step S28 if there is a virtual machine or container of the same type initially deployed in this cluster n, the placement destination selection unit 22 proceeds to step S33 and does not target this cluster n for deployment.
  • the placement destination selection unit 22 preferentially places the cluster in which the active virtual machine or container is not placed and the probability of failure is lower. Therefore, the placement destination selection unit 22 can reduce the possibility that both the active system and the preliminary system are stopped at the same time.
  • the placement destination selection unit 22 preferentially places a cluster in which the first machine or container is not placed and the probability of failure is lower. do. Therefore, the placement destination selection unit 22 can reduce the possibility that two virtual machines or containers of the same type will stop at the same time.
  • step S27 if the placement destination selection unit 22 is not the second virtual machine or container to be newly deployed (No), the placement destination selection unit 22 counts the number Nn of virtual machines or containers of the same type existing in the cluster n (No). S31). In this case, it corresponds to the third and subsequent units of the scale-out described above. If the number Nn of virtual machines or containers of the same type is not 0, the placement destination selection unit 22 proceeds to step S33 and does not target this cluster n for deployment.
  • the deployment destination selection unit 22 proceeds to step S29, and if this cluster n is a server group that can secure the resources required for deployment, it is targeted for deployment.
  • the placement destination selection unit 22 preferentially places a cluster in which the same type of virtual machine or container is not placed and the probability of failure is lower. Therefore, the placement destination selection unit 22 can reduce the possibility that the scaled services are stopped at the same time.
  • step S33 the placement destination selection unit 22 returns to step S25 if there is an unprocessed cluster, and proceeds to step S34 if all the clusters have been processed.
  • Steps S34 to S37 are iterative processes for all clusters.
  • the placement destination selection unit 22 calculates the total value C of the amount of free resources of the server of this cluster n (S35).
  • step S36 the placement destination selection unit 22 determines whether or not the number of virtual machines or containers to be newly deployed is equal to or less than the total value C of the amount of free resources of the server. If the number of virtual machines or containers to be newly deployed is equal to or less than the total value C of the amount of free resources of the server (Yes), the deployment destination selection unit 22 proceeds to step S38 and adopts this cluster n as the deployment destination.
  • the arrangement m ** and the number of elements M ** are transmitted to the arrangement control unit 23, the processing of FIG. 8C ends.
  • the deployment destination selection unit 22 proceeds to step S37 and does not target this cluster n for deployment.
  • step S37 the placement destination selection unit 22 returns to step S34 if there is an unprocessed cluster, and ends the process of FIG. 8C if all the clusters have been processed.
  • This system selects a server with a low probability of failure at the same time when making a redundant configuration of virtual machines or containers. This improves the availability of the system. This system distributes the load on the physical server. This makes it possible to reduce the probability that failures will occur at the same time. Furthermore, by reducing the number of physical server candidates to be mounted, the amount of calculation for optimum placement can be reduced.
  • the present invention and its effects >> (1) Of the classification unit that classifies a plurality of physical servers into a plurality of clusters based on the parameters collected from each of the physical servers, and the plurality of clusters classified by the classification unit, the virtual machine or container to be expanded.
  • the server group selection system is characterized by having a selection unit that selects one of the clusters that can secure the resources required for deployment as the deployment destination.
  • the parameters used by the classification unit when classifying each physical server include information that can be acquired from the OS, initial information that can be acquired when the server is installed, and statistical information based on past operational data.
  • the selection unit preferentially arranges a cluster in which the virtual machine or the container of the active system is not arranged and the probability of failure is lower.
  • the server group with a low probability of failure can be preferentially placed as the placement destination, and the active system and the standby system can be placed in different clusters as much as possible. Therefore, it is possible to reduce the possibility that both the active system and the standby system are stopped at the same time.
  • the selection unit preferentially places a cluster in which the virtual machine or the container of the same type is not arranged and has a lower probability of failure.
  • the server group selection system according to claim 1 or 2.
  • the server group with a low probability of failure can be preferentially placed as the placement destination, and the same type of virtual machines or containers can be placed in different clusters as much as possible. Therefore, it is possible to reduce the possibility that the scaled services will stop at the same time.
  • the server group of the placement destination can be narrowed down to those installed at a short distance, so the response time of the system can be shortened.
  • the server group selection method is characterized by the step of selecting one of the clusters that can be secured as the deployment destination and the execution of.
  • the program was used to execute the process of selecting one of the clusters that can secure resources as the placement destination.
  • the method in which the classification unit 21 classifies the servers into clusters is not limited to the k-means method, and may be a non-hierarchical clustering method or a hierarchical clustering method such as a centroid method.
  • the parameters for classifying the server into a cluster are not limited to the operating time of the server, the number of times the storage is written, and the temperature indicated by the temperature sensor in the server. The number of virtual machines that can be installed on the server, the base of the data center where the server is located, the rack number, the rack shelf number, the server manufacturer, the manufacturing time, the manufacturing lot number, the MTBF (Mean Time Between Failures) and the failure rate of these servers. It may be a curve or the like.
  • the parameter for classifying the server into a cluster includes any of information that can be acquired from the OS, initial information that can be acquired when the server is installed, and statistical information based on past operational data. good.
  • S system server group selection system 1 Monitoring / analysis function unit 11 Data collection unit 12 Data store 13 Data analysis unit 2 Estimation / control unit 21 Classification unit 22 Placement destination selection unit (selection unit) 23 Arrangement control unit 3a Base 3b Base 3c Base 31 Server 32,33 Hub 41-43 Cluster

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)

Abstract

システム(S)は、複数の物理サーバを、各物理サーバから収集したパラメータに基づいて複数のクラスタに分類する分類部(21)と、分類部(21)が分類した複数のクラスタのうち、増設対象の仮想マシンまたはコンテナの配置に必要なリソースを確保できるクラスタの何れかを配置先として選択する配置先選択部(22)とを備える。これによりシステム(S)は、物理サーバの故障の要因に基づき、配置先のサーバ群を決定することができる。

Description

サーバ群選択システム、サーバ群選択方法、および、プログラム
 本発明は、サーバ群選択システム、サーバ群選択方法、および、プログラムに関する。
 汎用サーバ上の仮想化基盤を用いたサービス提供における性能・可用性の保証を両立させる対策が必要である。検討の一つとして、物理サーバ上の仮想マシン(VM:Virtual Machine)やコンテナの配置制御技術が提案されている。
 性能を目的関数とした最適配置技術例として、特許文献1がある。特許文献1には、複数機能で構成されるブラックボックスNFVアプリに対する最適配置推定技術が記載されている。
 更に可用性を目的関数とした最適配置技術例として、非特許文献1がある。非特許文献1には、冗長構成システム及び方法が記載されている。
国際公開第2009/081736号
A. Zhou et al.,"Cloud Service Reliability Enhancement via Virtual Machine Placement Optimization", in IEEE Transactions on Services Computing, vol. 10, no. 6, pp. 902-913, 1 Nov.-Dec. 2017.
 これら特許文献1や非特許文献1では、物理サーバの故障のリスクが考慮されていないという問題がある。配置問題を考える際、配置先の物理サーバは、位置情報(設置場所/ネットワーク・トポロジー)とリソースの空き状況以外の特性が一様とする暗黙の前提条件が存在していた。しかし実際には、配置先の物理サーバは、例えば稼働時間や温度などの様々な要因により故障のリスクが異なると考えられる。よって、これらの要因を無視して仮想マシンやコンテナの配置先を選択すると、故障のリスクが高い物理サーバを選択してしまうおそれがあった。
 そこで、本発明は、物理サーバの故障の要因に基づき、配置先のサーバ群を決定することを課題とする。
 前記した課題を解決するため、請求項1に記載の発明では、複数の物理サーバを、各前記物理サーバから収集したパラメータに基づいて複数のクラスタに分類する分類部と、前記分類部が分類した複数のクラスタのうち、増設対象の仮想マシンまたはコンテナの配置に必要なリソースを確保できるクラスタの何れかを配置先として選択する選択部と、を備えることを特徴とするサーバ群選択システムとした。
 本発明によれば、物理サーバの故障の要因に基づき、配置先のサーバ群を決定することが可能となる。
本実施形態に係るシステムの構成図である。 仮想マシンやコンテナを搭載可能なサーバをクラスタリングしたグラフである。 仮想マシンやコンテナを搭載可能なサーバをクラスタリングし、更にサーバ配置場所でフィルタリングしたグラフである。 仮想マシンやコンテナを搭載可能なサーバを抽出して位置情報をマッピングしたサーバグラフである。 仮想マシンやコンテナを搭載可能なサーバで構成されたクラスタから初期デプロイの候補を選択するグラフである。 仮想マシンやコンテナを搭載可能なサーバで構成されたクラスタから冗長化の候補を選択するグラフである。 仮想マシンやコンテナを搭載可能なサーバで構成されたクラスタからスケールアウトの候補を選択するグラフである。 仮想マシン/コンテナ搭載サーバ選択方法を示すフローチャート(その1)である。 仮想マシン/コンテナ搭載サーバ選択方法を示すフローチャート(その2)である。 仮想マシン/コンテナ搭載サーバ選択方法を示すフローチャート(その3)である。
 以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
 図1は、本実施形態に係るシステムの構成図である。
 図1に示すように、システムSは、監視・解析機能部1と、推定・制御部2とを含んで構成される。システムSは、既存の仮想マシン/コンテナの最適配置技術を適用する準備として、拠点3a~3cに設置されたサーバの個体差を考慮し、故障要因と関連するパラメータで分類したクラスタの中からデプロイ先のサーバ候補群を決定するものである。なお図面では、仮想マシンのことを“VM”と省略して記載している場合がある。
 監視・解析機能部1は、拠点3a~3cとは別のサーバ上で動作し、推定・制御部2は、拠点3a~3c内のサーバ上に複数存在するコントローラごとに存在する。
 監視・解析機能部1は、データ収集部11と、データストア12と、データ解析部13とを含んで構成される。監視・解析機能部1は、データ収集部11によって拠点3a~3cに設置されたサーバを監視してデータを収集すると共に、データ解析部13によって各サーバから収集した情報を解析するものである。
 データ収集部11によって拠点3a~3cに設置されたサーバから収集したデータは、データストア12に格納される。データ解析部13によって解析されたデータは、後記する推定・制御部2に出力される。
 推定・制御部2は、分類部21と、配置先選択部22と、配置制御部23とを含んで構成される。推定・制御部2は、仮想マシンまたはコンテナを何れかのサーバに配置するものであり、監視・解析機能部1から入力された各サーバの情報の解析結果を入力として、配置先のサーバを選択して、仮想マシンまたはコンテナを選択したサーバに配置する。
 分類部21は、拠点3a~3cに設置された物理サーバの個体差を考慮し、物理サーバの故障要因と関連するパラメータでクラスタに分類する。つまり分類部21は、複数の物理サーバを、各物理サーバから収集したパラメータに基づいて複数のクラスタに分類する。分類部21には、データ解析部13によって各サーバから収集した情報が入力され、これら情報で分類されたサーバ群であるクラスタが配置先選択部22に出力される。
 配置先選択部22は、新たに配置する仮想マシンまたはコンテナが1台目(初期デプロイ)か、2台目(SBYまたはスケールアウト)、3台目以降(スケールアウト)の何れかによって、これを配置するサーバ群であるクラスタを選択する。配置先選択部22にはクラスタと、新たに配置する仮想マシンまたはコンテナの種別とが入力され、これを配置するサーバ群であるクラスタが出力される。
 配置先選択部22は、分類部21が分類した複数のクラスタのうち、増設対象の仮想マシンまたはコンテナの配置に必要なリソースを確保できるクラスタの何れかを配置先として選択する。
 配置制御部23は、仮想マシンまたはコンテナをサーバ群(クラスタ)のうち何れかに配置するものである。配置制御部23には、仮想マシンまたはコンテナを配置するサーバ群(クラスタ)が入力され、仮想マシンまたはコンテナを配置するサーバに対しての配置コマンドが出力される。
 なお、監視・解析機能部1と推定・制御部2を搭載する物理サーバの場所は問わない。また、これら2つの部位がセットである必要はない。
 本実施形態の物理サーバ群選択方法は、分類部21と配置先選択部22のためのものであり、配置制御部23は、既存の最適配置技術の手法が適用される。また、これら分類部21と配置先選択部22は、不図示のコンピュータのCPU(Central Processing Unit)がプログラムを実行することによって具現化される。
《物理サーバ群選択方法》
 分類部21は、各サーバの特性を示すパラメータを用いて、これらサーバを分類する。分類部21は、k-means法などの非階層クラスタリング手法や重心法などの階層クラスタリング手法により、サーバをクラスタに分類する。
《配置先サーバ群(クラスタ)決定方法》
 配置検討の対象となる仮想マシンまたはコンテナが1台目(初期デプロイ)か、2台目(例:SBY用)、3台目以上(例:スケールアウト)の場合でクラスタ決定方法は異なる。2台目以降の配置ではリスク分散を考慮し、すでに搭載されている同種の仮想マシンまたはコンテナが所属するクラスタと異なる特性を持つクラスタを選択する。
《サーバの特性分類のパラメータ》
 分類部21は、OS(Operating System)から取得可能な情報や、サーバ設置時に取得可能な初期情報や、過去の運用データに基づく統計情報のうち何れかまたはこれらの組み合わせに基づいて、サーバをクラスタに分類する。これにより分類部21は、機械的に取得可能な情報のみで、物理サーバをクラスタに分類し、クラスタを構成するサーバ群の故障の蓋然性を評価できる。
 OSから取得可能な情報とは、サーバが搭載可能な仮想マシン台数、サーバの稼働時間、ストレージの書き込み回数、サーバ内の温度センサが示す温度などである。
 サーバ設置時に取得可能な初期情報とは、サーバが配置されているデータセンタの拠点、ラック番号、ラック棚番号、サーバのメーカ、製造時期、製造ロット番号などである。
 過去の運用データに基づく統計情報とは、MTBF(平均故障間隔)や、故障率曲線などである。
 図2は、仮想マシンやコンテナを搭載可能なサーバをクラスタリングしたグラフである。
 図2は、3軸の立体グラフであり、ディスク書き込み回数の軸と、稼働時間の軸と、温度の軸とを含んで構成される。これにより各サーバは、これらのパラメータが比較的小さいクラスタと、中程度のクラスタと、比較的大きいクラスタの3つに大別される。データ収集部11は、各サーバのディスク書き込み回数と稼働時間と温度のデータを収集し、収集したデータをデータストア12へ保存する。
 なお、この3軸に限られず、選択されたサーバのハードウエア情報や配置場所(拠点またはラック)、で分類されてもよい。また、ディスク書き込み回数は多いが、稼働時間は中程度で、温度が低いなどのように、各パラメータに偏りがあるクラスタであってもよい。
 同一のクラスタに属するサーバ群は、ディスク書き込み回数と稼働時間と温度のパラメータが近似している。よって、サーバ群は、同様な傾向で故障が発生すると推定される。これらサーバ群は、同一の要因で同時期に故障が発生する可能性もある。よって、サービスの可用性を高めるため、現用系と予備系の仮想マシンまたはコンテナは、異なるクラスタに属するサーバに配置するとよい。更にスケールアウト用の複数の仮想マシンまたはコンテナは、できる限り異なるクラスタに属するサーバに配置するとよい。
 図3は、仮想マシンやコンテナを搭載可能なサーバをクラスタリングし、更にサーバ配置場所でフィルタリングしたグラフである。
 破線で示す丸印は、サーバ配置場所によってフィルタリングした結果、配置場所の候補から外れたサーバである。
 図4は、仮想マシンやコンテナを搭載可能なサーバを抽出して位置情報をマッピングしたサーバグラフである。
 このサーバグラフは、拠点3a~3cが矩形で示されている。拠点3aは、複数のサーバ31と、これらサーバ31をスター接続するハブ32を含んでいる。そして各ハブ32はそれぞれ相互に接続されている。他の拠点3b,3cも同様に接続されている。
 拠点3a~3cは、ハブ33を介してスター接続されている。これにより拠点3a~3cは、ネットワークを構成する。
 同一の拠点のサーバ間の経路は短いため、サーバに配置された複数の仮想マシンまたはコンテナ間の通信時間は短くなる。よって、スケールアウト用の複数の仮想マシンまたはコンテナは、同一の拠点のサーバに配置すると好適である。
 図5は、仮想マシンやコンテナを搭載可能なサーバで構成されたクラスタから初期デプロイの候補を選択するグラフである。
 クラスタ41は、ディスク書き込み回数と稼働時間と温度のパラメータが比較的小さい。クラスタ42は、ディスク書き込み回数と稼働時間と温度のパラメータが中程度である。クラスタ43は、ディスク書き込み回数と稼働時間と温度のパラメータが比較的大きい。ここでは、クラスタ41を仮想マシンまたはコンテナの配置先のサーバ群として選択することで、他のクラスタを選択した場合よりも、仮想マシンまたはコンテナの故障頻度を減らすことができる。
 図6は、仮想マシンやコンテナを搭載可能なサーバで構成されたクラスタから冗長化の候補を選択するグラフである。
 クラスタ41のうち太線で示したサーバは、現用系(ACT)の仮想マシンまたはコンテナがデプロイされている。このとき、現用系(ACT)の仮想マシンまたはコンテナを搭載するサーバを含むクラスタ41とは異なるクラスタ42,43のうち何れかを予備系(SBY)の仮想マシンまたはコンテナのデプロイ先として選択するとよい。これにより、同一要因によって現用系(ACT)と予備系(SBY)とが同時に故障する可能性を減らすことができる。
 なお、ここでは冗長化に伴う予備系(SBY)の候補を選択することについて説明したが、スケールアウトに伴う2台目の仮想マシンまたはコンテナのデプロイ先の候補も、同様に選択するとようい。
 図7は、仮想マシンやコンテナを搭載可能なサーバで構成されたクラスタからスケールアウトの候補を選択するグラフである。
 太線で示したサーバは、同種のスケールアウトの仮想マシンまたはコンテナがデプロイされている。このとき、同種の仮想マシンまたはコンテナを搭載するサーバを含むクラスタ41,42とは異なるクラスタ43を新たなスケールアウトの仮想マシンまたはコンテナのデプロイ先として選択するとよい。
 図8Aから 図8Cは、仮想マシン/コンテナ搭載サーバ選択方法を示すフローチャートである。
 ステップS10~S15は、全てのデータセンタ内のサーバについての繰り返し処理である。
 ステップS11において、データ解析部13は、このサーバの各属性を、配列mの新たな要素に代入する。ここで属性、拠点の識別情報と、ラック番号と、ラック内におけるサーバの番号と、サーバの空きリソース量と稼働時間とディスク(ストレージ)書き込み回数と温度である。サーバの空きリソース量は、具体的には仮想マシンまたはコンテナの搭載可能台数である。温度とは、サーバ内の温度センサが示す温度である。
 ステップS12において、データ解析部13は、このサーバの空きリソース量が0を超えているか否かを判定する。ステップS12において、データ解析部13は、このサーバの空きリソース量が0ならば(No)、ステップS15に進む。
 データ解析部13は、空きリソース量が0を超えているならば(Yes)、このサーバの属性を配列m*の新たな要素に追加し(S13)、この新しい配列m*の要素数M*に1を加算する(S14)。データ解析部13は、空きリソース量が0ならば、ステップS15に進む。
 ステップS15において、データ解析部13は、データセンタ内のサーバについて未処理のものがあれば、ステップS10に戻り、全てのサーバを処理していたならば、ステップS16に進む。
 ステップS16~S18は、配列m*で示されるサーバについての繰り返し処理である。ここで、配列m*で示されるサーバとは、仮想マシンまたはコンテナを1台以上搭載可能な空きリソースを有するサーバである。
 ステップS17において、分類部21は、このサーバをk-means法などのクラスタリング手法により、サーバのディスク書き込み回数と稼働時間と温度に応じてクラスタ番号x7が1からNcまでのうち何れかのクラスタに分類する。Ncとは、クラスタの個数である。なお、分類部21は、OSから取得可能な情報、サーバ設置時に取得可能な初期情報、および、過去の運用データに基づく統計情報のうち何れかに基づいて、クラスタに分類してもよい。
 ステップS18において、分類部21は、配列m*で示されるサーバについて未処理のものがあれば、ステップS16に戻り、全ての配列m*のサーバを処理していたならば、図8BのステップS19に進む。
 図8BのステップS19において、分類部21は、配置場所を考慮するか否かを判定する。分類部21は、配置場所を考慮するならば(Yes)、M*台のサーバを拠点毎に分ける(S20)。そして分類部21は、配列m*のうち、空きリソースあり台数が最大となる拠点に属するサーバを新しい配列m**に代入する(S21)。なお、サーバの物理的距離を考慮する配置制御技術を適用する場合は、事前にサーバグラフ上の距離でフィルタリングするとよい。
 分類部21は、空きリソースありサーバ台数が最大となる拠点の前記台数を新たにM**とすると(S22)、ステップS25の処理に進む。
 図8BのステップS19において、分類部21は、配置場所を考慮しないならば(No)、全ての配列m*を新しい配列m**に代入し(S23)、空きリソースありサーバ台数M*を新たにM**とすると(S24)、ステップS25の処理に進む。
 つまり、分類部21は、各物理サーバの設置場所に基づいて、この物理サーバをフィルタリングしたものをクラスタに分類する。
 ステップS25~S33は、全てのクラスタの繰り返し処理である。クラスタ候補が複数存在する場合、故障の蓋然性が低い順、例えばサーバのディスク書き込み回数が低い順、稼働時間が短い順、温度が低い順にサーバ群を候補とする。
 ステップS26において、配置先選択部22は、新たに配備したい仮想マシンまたはコンテナが初期デプロイであるか否かを判定する。配置先選択部22は、新たに配備したい仮想マシンまたはコンテナが初期デプロイであったならば(Yes)、このクラスタnのサーバの空きリソース量の合計値Cを計算する(S29)。
 そして、ステップS30において、配置先選択部22は、新たに配備したい仮想マシンまたはコンテナ数が、サーバの空きリソース量の合計値C以下であるか否かを判定する。
 ステップS30において、配置先選択部22は、新たに配備したい仮想マシンまたはコンテナの数が、サーバの空きリソース量の合計値C以下ならば(Yes)、図8CのステップS38に進む。そして、ステップS38において、配置先選択部22は、このクラスタnを配備先として採用し、配置制御部23へ配列m**と要素数M**を伝達すると、図8Cの処理を終了する。
 つまり、配置先選択部22は、仮想マシンまたはコンテナの初期デプロイの場合、故障の蓋然性がより低いクラスタを優先的に配置先としている。
 ステップS30において、配置先選択部22は、新たに配備したい仮想マシンまたはコンテナの数が、サーバの空きリソース量の合計値Cを超えていたならば(No)、ステップS33に進む。
 ステップS26において、配置先選択部22は、新たに配備したい仮想マシンまたはコンテナが初期デプロイでなかったならば(No)、ステップS27に進み、2台目であるか否かを判定する。
 ステップS27において、配置先選択部22は、新たに配備したい仮想マシンまたはコンテナが2台目ならば(Yes)、このクラスタn内に初期デプロイした同種の仮想マシンまたはコンテナが有るか否かを判定する(S28)。なお図8Bでは、ステップS28を「クラスタn内に初期デプロイVM有」と省略して記載している。ステップS28の判定がYesの場合は、前述した冗長化や、スケールアウトによる2台目の配備に該当する。
 配置先選択部22は、このクラスタn内に初期デプロイした同種の仮想マシンまたはコンテナが無いならば(No)、ステップS29に進み、このクラスタnの空きリソース量が許すならば、このクラスタnを配備対象とする。
 ステップS28において、配置先選択部22は、このクラスタn内に初期デプロイした同種の仮想マシンまたはコンテナが有るならば(Yes)、ステップS33に進み、このクラスタnを配備対象としない。
 つまり配置先選択部22は、仮想マシンまたはコンテナの冗長化の場合、現用系の仮想マシンまたはコンテナが配置されておらず、かつ故障の蓋然性がより低いクラスタを優先的に配置先とする。よって、配置先選択部22は、現用系と予備系の両方が同時に停止する可能性を低くすることができる。
 配置先選択部22は、仮想マシンまたはコンテナのスケールアウトの2台目の場合、1台目のマシンまたはコンテナが配置されておらず、かつ故障の蓋然性がより低いクラスタを優先的に配置先とする。よって、配置先選択部22は、同種の2台の仮想マシンまたはコンテナが同時に停止する可能性を低くすることができる。
 ステップS27において、配置先選択部22は、新たに配備したい仮想マシンまたはコンテナが2台目でないならば(No)、このクラスタn内に存在する同種の仮想マシンまたはコンテナの数Nnをカウントする(S31)。この場合は、前述したスケールアウトのうち3台目以降に該当する。配置先選択部22は、同種の仮想マシンまたはコンテナの数Nnが0でないならば(No)、ステップS33に進み、このクラスタnを配備対象としない。
 配置先選択部22は、同種の仮想マシンまたはコンテナの数Nnが0ならば(Yes)、ステップS29に進み、このクラスタnがデプロイに必要リソースを確保できるサーバ群ならば、配備対象とする。
 つまり配置先選択部22は、仮想マシンまたはコンテナのスケーリングの場合、同種の仮想マシンまたはコンテナが配置されておらず、かつ故障の蓋然性がより低いクラスタを優先的に配置先とする。よって配置先選択部22は、スケーリングしたサービスが同時に停止する可能性を低くすることができる。
 ステップS33において、配置先選択部22は、クラスタについて未処理のものがあれば、ステップS25に戻り、全てのクラスタを処理していたならば、ステップS34に進む。
 ステップS34~S37は、全てのクラスタの繰り返し処理である。
 配置先選択部22は、このクラスタnのサーバの空きリソース量の合計値Cを計算する(S35)。
 ステップS36において、配置先選択部22は、新たに配備したい仮想マシンまたはコンテナ数が、サーバの空きリソース量の合計値C以下であるか否かを判定する。配置先選択部22は、新たに配備したい仮想マシンまたはコンテナの数が、サーバの空きリソース量の合計値C以下ならば(Yes)、ステップS38に進み、このクラスタnを配備先として採用して、配置制御部23へ配列m**と要素数M**を伝達すると、図8Cの処理を終了する。
 配置先選択部22は、新たに配備したい仮想マシンまたはコンテナの数が、サーバの空きリソース量の合計値Cを超えているならば、ステップS37に進み、このクラスタnを配備対象としない。
 ステップS37において、配置先選択部22は、クラスタについて未処理のものがあれば、ステップS34に戻り、全てのクラスタを処理していたならば、図8Cの処理を終了する。
《本実施形態の効果》
 本システムは、仮想マシンまたはコンテナの冗長構成をとる際、同時に故障が発生する確率が低いサーバを選択する。これにより、システムの可用性を向上させる。
 本システムは、物理サーバへの負荷を分散させている。これにより、故障が同時発生する確率を下げることができる。
 更に、搭載先の物理サーバ候補数を減らすことで、最適配置のための計算量を削減することができる。
《本発明とその効果》
 (1)複数の物理サーバを、各前記物理サーバから収集したパラメータに基づいて複数のクラスタに分類する分類部と、前記分類部が分類した複数のクラスタのうち、増設対象の仮想マシンまたはコンテナの配置に必要なリソースを確保できるクラスタの何れかを配置先として選択する選択部と、を備えることを特徴とするサーバ群選択システムとした。
 このようにすることで、物理サーバの故障の要因に基づき、配置先のサーバ群を決定することができる。
 (2)前記分類部が各前記物理サーバを分類する際に用いるパラメータには、OSから取得可能な情報、サーバ設置時に取得可能な初期情報、および、過去の運用データに基づく統計情報のうち何れかが含まれる、ことを特徴とする請求項1に記載のサーバ群選択システムとした。
 このようにすることで、機械的に取得可能な情報によって物理サーバをクラスタに分類できる。
 (3)前記選択部は、前記仮想マシンまたは前記コンテナの初期デプロイの場合、故障の蓋然性がより低いクラスタを優先的に配置先とする、ことを特徴とする請求項1または2に記載のサーバ群選択システムとした。
 このようにすることで、故障の蓋然性の低いサーバ群を優先的に配置先とすることができる。
 (4)前記選択部は、前記仮想マシンまたは前記コンテナの冗長化の場合、現用系の前記仮想マシンまたは前記コンテナが配置されておらず、かつ故障の蓋然性がより低いクラスタを優先的に配置先とする、ことを特徴とする請求項1または2に記載のサーバ群選択システムとした。
 このようにすることで、故障の蓋然性の低いサーバ群を優先的に配置先とすることができ、かつ現用系と予備系とを出来るだけ異なるクラスタに配置できる。よって、現用系と予備系の両方が同時に停止する可能性を低くすることができる。
 (5)前記選択部は、前記仮想マシンまたは前記コンテナのスケーリングの場合、同種の前記仮想マシンまたは前記コンテナが配置されておらず、かつ故障の蓋然性がより低いクラスタを優先的に配置先とする、ことを特徴とする請求項1または2に記載のサーバ群選択システムとした。
 このようにすることで、故障の蓋然性の低いサーバ群を優先的に配置先とすることができ、かつ同種の仮想マシンまたはコンテナを出来るだけ異なるクラスタに配置できる。よってスケーリングしたサービスが同時に停止する可能性を低くすることができる。
 (6)前記分類部は、各前記物理サーバの設置場所に基づいて、当該物理サーバをフィルタリングしたものをクラスタに分類する、ことを特徴とする請求項1に記載のサーバ群選択システムとした。
 このようにすることで、配置先のサーバ群を近距離に設置されたものに絞りこめるので、システムの応答時間を短縮できる。
 (7)複数の物理サーバを、各前記物理サーバから収集したパラメータに基づいて複数のクラスタに分類するステップと、前記複数のクラスタのうち、増設対象の仮想マシンまたはコンテナの配置に必要なリソースを確保できるクラスタの何れかを配置先として選択するステップと、を実行することを特徴とするサーバ群選択方法とした。
 このようにすることで、物理サーバの故障の要因に基づき、配置先のサーバ群を決定することができる。
 (8) コンピュータに、複数の物理サーバを、各前記物理サーバから収集したパラメータに基づいて複数のクラスタに分類する工程、前記複数のクラスタのうち、増設対象の仮想マシンまたはコンテナの配置に必要なリソースを確保できるクラスタの何れかを配置先として選択する工程、を実行させるためのプログラムとした。
 このようにすることで、物理サーバの故障の要因に基づき、配置先のサーバ群を決定することができる。
《変形例》
 本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の(a)~(c)のようなものがある。
(a) 分類部21がサーバをクラスタに分類する方法は、k-means法に限定されず、これ以外の非階層クラスタリング手法や重心法などの階層クラスタリング手法であってもよい。
(b) サーバをクラスタに分類するためのパラメータは、サーバの稼働時間、ストレージの書き込み回数、サーバ内の温度センサが示す温度に限定されない。サーバが搭載可能な仮想マシン台数、サーバが配置されているデータセンタの拠点、ラック番号、ラック棚番号、サーバのメーカ、製造時期、製造ロット番号、これらサーバのMTBF(平均故障間隔)や故障率曲線などであってもよい。
(c) サーバをクラスタに分類するためのパラメータは、OSから取得可能な情報、サーバ設置時に取得可能な初期情報、および、過去の運用データに基づく統計情報のうち何れかが含まれていればよい。
S システム (サーバ群選択システム)
1 監視・解析機能部
11 データ収集部
12 データストア
13 データ解析部
2 推定・制御部
21 分類部
22 配置先選択部 (選択部)
23 配置制御部
3a 拠点
3b 拠点
3c 拠点
31 サーバ
32,33 ハブ
41~43 クラスタ

Claims (8)

  1.  複数の物理サーバを、各前記物理サーバから収集したパラメータに基づいて複数のクラスタに分類する分類部と、
     前記分類部が分類した複数のクラスタのうち、増設対象の仮想マシンまたはコンテナの配置に必要なリソースを確保できるクラスタの何れかを配置先として選択する選択部と、
     を備えることを特徴とするサーバ群選択システム。
  2.  前記分類部が各前記物理サーバを分類する際に用いるパラメータには、OSから取得可能な情報、サーバ設置時に取得可能な初期情報、および、過去の運用データに基づく統計情報のうち何れかが含まれる、
     ことを特徴とする請求項1に記載のサーバ群選択システム。
  3.  前記選択部は、前記仮想マシンまたは前記コンテナの初期デプロイの場合、故障の蓋然性がより低いクラスタを優先的に配置先とする、
     ことを特徴とする請求項1または2に記載のサーバ群選択システム。
  4.  前記選択部は、前記仮想マシンまたは前記コンテナの冗長化の場合、現用系の前記仮想マシンまたは前記コンテナが配置されておらず、かつ故障の蓋然性がより低いクラスタを優先的に配置先とする、
     ことを特徴とする請求項1または2に記載のサーバ群選択システム。
  5.  前記選択部は、前記仮想マシンまたは前記コンテナのスケーリングの場合、同種の前記仮想マシンまたは前記コンテナが配置されておらず、かつ故障の蓋然性がより低いクラスタを優先的に配置先とする、
     ことを特徴とする請求項1または2に記載のサーバ群選択システム。
  6.  前記分類部は、各前記物理サーバの設置場所に基づいて、当該物理サーバをフィルタリングしたものをクラスタに分類する、
     ことを特徴とする請求項1に記載のサーバ群選択システム。
  7.  複数の物理サーバを、各前記物理サーバから収集したパラメータに基づいて複数のクラスタに分類するステップと、
     前記複数のクラスタのうち、増設対象の仮想マシンまたはコンテナの配置に必要なリソースを確保できるクラスタの何れかを配置先として選択するステップと、
     を実行することを特徴とするサーバ群選択方法。
  8.  コンピュータに、
     複数の物理サーバを、各前記物理サーバから収集したパラメータに基づいて複数のクラスタに分類する工程、
     前記複数のクラスタのうち、増設対象の仮想マシンまたはコンテナの配置に必要なリソースを確保できるクラスタの何れかを配置先として選択する工程、
     を実行させるためのプログラム。
PCT/JP2020/025170 2020-06-26 2020-06-26 サーバ群選択システム、サーバ群選択方法、および、プログラム WO2021260908A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/025170 WO2021260908A1 (ja) 2020-06-26 2020-06-26 サーバ群選択システム、サーバ群選択方法、および、プログラム
US18/012,131 US20230281089A1 (en) 2020-06-26 2020-06-26 Server group selection system, server group selection method, and program
JP2022532198A JP7468651B2 (ja) 2020-06-26 2020-06-26 サーバ群選択システム、サーバ群選択方法、および、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/025170 WO2021260908A1 (ja) 2020-06-26 2020-06-26 サーバ群選択システム、サーバ群選択方法、および、プログラム

Publications (1)

Publication Number Publication Date
WO2021260908A1 true WO2021260908A1 (ja) 2021-12-30

Family

ID=79282156

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/025170 WO2021260908A1 (ja) 2020-06-26 2020-06-26 サーバ群選択システム、サーバ群選択方法、および、プログラム

Country Status (3)

Country Link
US (1) US20230281089A1 (ja)
JP (1) JP7468651B2 (ja)
WO (1) WO2021260908A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011013822A (ja) * 2009-06-30 2011-01-20 Nec Corp 情報システム、制御装置、そのデータ処理方法およびプログラム
JP2012150657A (ja) * 2011-01-19 2012-08-09 Mitsubishi Electric Corp 計算機システム
WO2015182471A1 (ja) * 2014-05-28 2015-12-03 Kddi株式会社 Itシステムにおけるサーバの性能の抽象化方法および資源管理方法
JP2016126562A (ja) * 2015-01-05 2016-07-11 富士通株式会社 情報処理システム、管理装置、及び情報処理システムの制御方法
WO2018181961A1 (ja) * 2017-03-31 2018-10-04 日本電気株式会社 仮想ネットワーク機能管理装置、仮想インフラストラクチャ管理装置、及び仮想ネットワーク機能構築方法
JP2019511051A (ja) * 2016-04-07 2019-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 非集約型計算システムを実現するための方法、装置、コンピュータ・プログラム製品、およびデータセンタ・ファシリティ

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011013822A (ja) * 2009-06-30 2011-01-20 Nec Corp 情報システム、制御装置、そのデータ処理方法およびプログラム
JP2012150657A (ja) * 2011-01-19 2012-08-09 Mitsubishi Electric Corp 計算機システム
WO2015182471A1 (ja) * 2014-05-28 2015-12-03 Kddi株式会社 Itシステムにおけるサーバの性能の抽象化方法および資源管理方法
JP2016126562A (ja) * 2015-01-05 2016-07-11 富士通株式会社 情報処理システム、管理装置、及び情報処理システムの制御方法
JP2019511051A (ja) * 2016-04-07 2019-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 非集約型計算システムを実現するための方法、装置、コンピュータ・プログラム製品、およびデータセンタ・ファシリティ
WO2018181961A1 (ja) * 2017-03-31 2018-10-04 日本電気株式会社 仮想ネットワーク機能管理装置、仮想インフラストラクチャ管理装置、及び仮想ネットワーク機能構築方法

Also Published As

Publication number Publication date
US20230281089A1 (en) 2023-09-07
JPWO2021260908A1 (ja) 2021-12-30
JP7468651B2 (ja) 2024-04-16

Similar Documents

Publication Publication Date Title
US11093664B2 (en) Method and apparatus for converged analysis of application, virtualization, and cloud infrastructure resources using graph theory and statistical classification
TWI543003B (zh) 用於多層應用的多機器部署和配置的電腦實施的方法、電腦可讀取儲存媒體、與電腦系統
KR101123491B1 (ko) 가상화 스토리지 실행 제어기
US10108460B2 (en) Method and system for integrated deployment planning for virtual appliances
JP2019191929A (ja) 性能分析方法および管理計算機
US7921325B2 (en) Node management device and method
US10180807B2 (en) Method and system for consolidating a plurality of heterogeneous storage systems in a data center
US9817584B2 (en) Storage system having node with light weight container
US8495294B2 (en) Management computer for managing storage system capacity and storage system capacity management method
KR102016238B1 (ko) 도커 컨테이너 관리 시스템 및 방법, 이를 수행하기 위한 기록매체
US11693679B2 (en) Systems and methods for recommending optimized virtual-machine configurations
US9483258B1 (en) Multi-site provisioning of resources to software offerings using infrastructure slices
WO2011103390A1 (en) Methods and apparatus for movement of virtual resources within a data center environment
JP7003692B2 (ja) 情報処理装置,情報処理システムおよび制御プログラム
US20220091763A1 (en) Storage capacity forecasting for storage systems in an active tier of a storage environment
US20160337445A1 (en) Method and apparatus to deploy applications in cloud environments
US8788750B2 (en) Managing resources in cluster storage systems
WO2021050419A1 (en) Utilizing network analytics for service provisioning
US20230132476A1 (en) Global Automated Data Center Expansion
US20210234923A1 (en) Connection management during non-disruptive upgrade of nodes
US10324643B1 (en) Automated initialization and configuration of virtual storage pools in software-defined storage
WO2021260908A1 (ja) サーバ群選択システム、サーバ群選択方法、および、プログラム
US11915153B2 (en) Workload-oriented prediction of response times of storage systems
US11042395B2 (en) Systems and methods to manage workload domains with heterogeneous hardware specifications
US20200076681A1 (en) Volume allocation management apparatus, volume allocation management method, and volume allocation management program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20941889

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022532198

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20941889

Country of ref document: EP

Kind code of ref document: A1