WO2014141393A1 - データベースシステム、プログラムおよびデータ処理方法 - Google Patents

データベースシステム、プログラムおよびデータ処理方法 Download PDF

Info

Publication number
WO2014141393A1
WO2014141393A1 PCT/JP2013/056868 JP2013056868W WO2014141393A1 WO 2014141393 A1 WO2014141393 A1 WO 2014141393A1 JP 2013056868 W JP2013056868 W JP 2013056868W WO 2014141393 A1 WO2014141393 A1 WO 2014141393A1
Authority
WO
WIPO (PCT)
Prior art keywords
node
nodes
unit
backup
data set
Prior art date
Application number
PCT/JP2013/056868
Other languages
English (en)
French (fr)
Inventor
服部 雅一
Original Assignee
株式会社東芝
東芝ソリューション株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝, 東芝ソリューション株式会社 filed Critical 株式会社東芝
Priority to EP13834378.5A priority Critical patent/EP2975523A4/en
Priority to EP23152630.2A priority patent/EP4191431A1/en
Priority to JP2014504113A priority patent/JP5698865B2/ja
Priority to CN201380003048.1A priority patent/CN104185841B/zh
Priority to PCT/JP2013/056868 priority patent/WO2014141393A1/ja
Priority to AU2013381504A priority patent/AU2013381504B2/en
Priority to US14/206,819 priority patent/US20140279902A1/en
Publication of WO2014141393A1 publication Critical patent/WO2014141393A1/ja
Priority to US18/167,959 priority patent/US20230244694A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component

Definitions

  • Embodiments described herein relate generally to a database system, a program, and a data processing method.
  • a shared nothing type database system includes a plurality of database nodes connected to each other via a network.
  • Each of the plurality of database nodes is a computer having an individual resource such as a processor, memory, and storage.
  • resources are completely separated for each database node, so that access contention does not occur between database nodes. Therefore, the shared nothing type database system can linearly improve performance by increasing the number of database nodes. That is, the shared nothing type database system is a system that can efficiently realize scale-out by adding database nodes.
  • Partitioning In a shared nothing database system, a technique called partitioning can be applied. Partitioning is a technique in which a database is divided into a plurality of data sets, and each divided data set (called a partition) is distributed and stored in a plurality of database nodes. Since the shared nothing type database system to which partitioning is applied can reduce the data set stored in each database node, the access from the client can be distributed to a plurality of database nodes.
  • Sharding is a technology that divides data into smaller data and automatically distributes and stores the data in a plurality of database nodes.
  • Sharding is a technique similar to partitioning shared-nothing database systems.
  • the key-value type database is a database based on a simple data model composed of pairs of keys and values in the same manner as an associative array or Map in a programming language.
  • the key-value database Since the key-value database has a simple data model, sharding and partitioning are easy.
  • the distributed key-value database can process a large-scale data set that cannot be handled by a single key-value database node using a plurality of key-value database nodes. Therefore, by applying the distributed key-value database to a shared-nothing database system including a plurality of database nodes, a large-scale database system that can be scaled out can be realized.
  • a shared-nothing database system (hereinafter referred to as a scale-out database system) to which such a distributed key-value database is applied makes it possible to access data from clients by arranging data evenly on multiple database nodes. Can be distributed to improve throughput and response as a whole.
  • a technique called replication in which data replication (replica) is stored in another database node is applied.
  • the scale-out type database system can continue the service using the database node storing the replica even if a failure occurs in a certain database node by performing replication.
  • the number of database nodes that store replicas of data is called redundancy. In the scale-out database system, for example, 2 or 3 are set as the redundancy.
  • the redundancy becomes lower than a preset value. If a scale-out database system continues to operate for a long time with reduced redundancy, there is a high possibility that the entire system will stop operating or a wide range of data will be lost if a further database node failure occurs. . For this reason, in a scale-out type database system, after a failure occurs in a database node, a new database node is added, and a replica is stored in the added database node to restore the redundancy to the original level. .
  • the amount of data to be stored may become unbalanced between database nodes depending on the data arrangement.
  • the access amount from the client may be unbalanced between the database nodes depending on the data arrangement.
  • the scale-out database system performs data relocation processing to multiple database nodes when imbalance occurs in the data arrangement. There must be.
  • the database system includes a plurality of nodes that store a database and a management device that manages the plurality of nodes.
  • the management device includes a first allocation unit and a second allocation unit.
  • the first allocation unit stores a data set and accepts an access request to the data set in response to a change in the status of each of the plurality of nodes, and stores the data set and backs up the first node
  • the second node is assigned, and an operation corresponding to the assignment is instructed to each of the plurality of nodes.
  • the second assigning unit assigns a third node that is a candidate for the first node or the second node in accordance with the situation of the plurality of nodes and the change of the assignment situation of the first node and the second node, In each case, the third node is instructed to prepare to operate as the first node or the second node.
  • Each of the plurality of nodes includes a transfer unit that transmits the data set of the first node or the second node to the third node.
  • FIG. 1 is a diagram illustrating a hardware configuration of a database system according to the embodiment.
  • FIG. 2 is a diagram illustrating a functional configuration of the database system according to the embodiment.
  • FIG. 3 is a diagram illustrating an example of the data holding table.
  • FIG. 4 is a diagram illustrating an example of the current role table.
  • FIG. 5 is a diagram illustrating an example of the next role table.
  • FIG. 6 is a diagram illustrating an example of the target role table.
  • FIG. 7 is a diagram illustrating an example of a data set stored in the data store unit.
  • FIG. 8 is a diagram for explaining the replication processing.
  • FIG. 9 is a diagram for explaining the short-term synchronization processing.
  • FIG. 10 is a diagram for explaining the long-term synchronization processing.
  • FIG. 11 is a diagram illustrating transition of roles assigned to nodes.
  • FIG. 12 is a diagram illustrating a processing flow of the cluster management unit of the management apparatus.
  • FIG. 13 is a diagram illustrating a flow of a next role table calculation process by the first assignment unit of the management apparatus.
  • FIG. 14 is a diagram illustrating a flow of target role table calculation processing by the second assignment unit of the management device.
  • FIG. 15 is a diagram illustrating a processing flow of the access processing unit of the node.
  • FIG. 16 is a diagram illustrating a processing flow of the node management unit of the node.
  • FIG. 17 is a diagram illustrating a processing flow of the transfer unit of the node.
  • FIG. 18 is a diagram illustrating a state of each of the nodes 30-A to 30-C when an owner and a backup node are assigned to each of the three partitions # 1 to # 3.
  • FIG. 19 is a diagram showing the states of the nodes 30-A to 30-C after the short-term synchronization processing is executed in response to the occurrence of a failure in the node 30-C from the state of FIG.
  • FIG. 20 is a diagram illustrating an example of long-term synchronization processing executed from the state of FIG.
  • FIG. 21 is a diagram showing the states of the nodes 30-A to 30-C after the short-term synchronization processing is executed in response to the completion of the long-term synchronization processing of FIG.
  • FIG. 19 is a diagram showing the states of the nodes 30-A to 30-C after the short-term synchronization processing is executed in response to the completion of the long-term synchronization processing of FIG.
  • FIG. 22 is a diagram illustrating the states of the node 30-A to the node 30-D when the node 30-D is added from the state of FIG.
  • FIG. 23 is a diagram illustrating an example of long-term synchronization processing executed from the state of FIG.
  • FIG. 24 is a diagram showing the states of the nodes 30-A to 30-D after the short-term synchronization processing is executed in response to the completion of the long-term synchronization processing of FIG.
  • FIG. 1 is a diagram illustrating a hardware configuration of a database system 10 according to the embodiment.
  • the database system 10 receives an access request (for example, reference, update, or registration) to a database from a client, which is an external computer, via a network, and executes processing according to the received access request.
  • an access request for example, reference, update, or registration
  • the database system 10 includes a management device 20 and a plurality of nodes 30.
  • the management device 20 and the plurality of nodes 30 are connected to each other via a network. Although two nodes 30 are shown in FIG. 1, the database system 10 may include three or more nodes 30.
  • the database system 10 is a database system capable of scaling out by applying a distributed key-value database to a shared-nothing database.
  • a data set is distributed to a plurality of nodes 30, but the database system 10 is accessed as a huge single database from a client that is an external computer.
  • Each of the management device 20 and the plurality of nodes 30 is a computer independent of each other in terms of hardware.
  • Each of the plurality of nodes 30 can independently accept an access request from a client, and can independently perform processing according to the access request.
  • Each of the management device 20 and the plurality of nodes 30 includes, for example, a CPU (Central Processing Unit) 12, a memory 13, a communication I / F 14, and a storage I / F 15.
  • Each of the management device 20 and the plurality of nodes 30 is connected to the external storage device 16 via the storage I / F 15. Note that the external storage device 16 may be provided inside the node 30.
  • the database system 10 stores the database by dividing it into a plurality of partitions.
  • the number of partitions is predetermined.
  • the method for dividing the database may be any method as long as it is a predetermined method.
  • Each of the plurality of nodes 30 is assigned to each of the plurality of partitions as to play a role as an owner, a role as a backup, or a role as an owner and a backup.
  • the owner stores the data set of the corresponding partition, and accepts and processes the access request from the client to the data set of the corresponding partition.
  • the backup stores the data set of the corresponding partition, and backs up the owner so that, for example, when the owner fails, the role of the owner can be assumed instead.
  • it may be called a master and a slave instead of an owner and a backup.
  • Management device 20 manages a plurality of nodes 30. As an example, the management device 20 assigns a node 30 as an owner and a node 30 as a backup to each of a plurality of partitions.
  • the management device 20 assigns the backup node 30 so as to provide redundancy within a predetermined range so that the database is restored as much as possible even if any node 30 fails. Furthermore, the management device 20 assigns the node 30 as the owner and the backup so that the data set included in the database is distributed and arranged in the plurality of nodes 30.
  • the management device 20 may be provided in any one of the nodes 30.
  • the node 30 functioning as the management device 20 may be selected by an arbitrary algorithm. Further, when a failure occurs in the node 30 that functions as the management apparatus 20, another node 30 may function as the management apparatus 20.
  • Such a database system 10 can disconnect a node 30 in which a failure has occurred when a failure occurs in any one of the plurality of nodes 30.
  • the database system 10 can add a new node 30 to improve the performance of the database.
  • FIG. 2 is a diagram illustrating a functional configuration of the database system 10 according to the embodiment.
  • the management device 20 includes a table storage unit 21, a first allocation unit 22, a second allocation unit 23, and a cluster management unit 24.
  • the first allocation unit 22, the second allocation unit 23, and the cluster management unit 24 are realized by the CPU 12 of the management apparatus 20 executing a program.
  • the first allocation unit 22, the second allocation unit 23, and the cluster management unit 24 may be partially or entirely implemented by hardware circuits.
  • the table storage unit 21 is realized by the memory 13 of the management device 20 or the external storage device 16.
  • the table storage unit 21 stores four tables for determining the roles of the plurality of nodes 30 for the plurality of partitions.
  • Each of the four tables may be data in a table format or data other than the table format.
  • the table storage unit 21 stores a data holding table, a current role table, a next role table, and a target role table.
  • the data retention table stores the time stamps of the plurality of nodes 30 for each of the plurality of partitions.
  • the time stamp represents the update history of the data set of the corresponding partition stored in the corresponding node 30.
  • the time stamp is a value that is incremented every time the data set is updated. Therefore, the node 30 having the largest time stamp in a certain partition means that the node 30 stores the latest data set of the partition.
  • the data holding table stores the size or number of data of the data set of the corresponding partition stored in the corresponding node 30 instead of the time stamp. Also good.
  • the data holding table for example, as shown in FIG. 3, the node 30 is specified by the row, and the partition is specified by the column.
  • the data holding table stores the time stamp of the data set of the partition specified by the column stored in the node 30 specified by the row in each cell in which the row and the column are orthogonal.
  • the current role table stores the role in the database assigned to each of the plurality of nodes 30 for each of the plurality of partitions. Specifically, the current role table is assigned to each of a plurality of partitions, each node 30 being assigned as an owner, assigned as a backup, or assigned as an owner or a backup. Stores whether or not.
  • the node 30 is specified by a row, and the partition is specified by a column.
  • the current role table stores the roles assigned to the node 30 specified by the row for the partition specified by the column in each cell where the row and the column are orthogonal.
  • “OWNER” or “O” indicates that the role as the owner is assigned
  • “BACKUP” or “B” indicates that the role as the backup is assigned.
  • “None” or “N” is entered or blank to indicate that neither the owner nor backup is assigned.
  • the next role table stores a role assigned next to each of the plurality of nodes 30 for each of the plurality of partitions. That is, in the next role table, for each of a plurality of partitions, each of the plurality of nodes 30 is next assigned as an owner, assigned as a backup, or assigned as an owner or a backup. Stores whether or not The next role table is a table that is replaced with the current role table, for example, when a failure occurs in the node 30 or when a new node 30 is added.
  • next role table As an example, in the next role table, as shown in FIG. 5, the node 30 is specified by the row, and the partition is specified by the column.
  • the next role table stores the next role assigned to the node 30 specified by the row with respect to the partition specified by the column in each cell at the position where the row and the column are orthogonal.
  • the target role table stores roles as backup candidates assigned to each of the plurality of nodes 30 for each of the plurality of partitions.
  • the backup candidate is a role of preparing for the partition 30 to assume the role of owner or backup for the partition in the future.
  • the role name is “backup candidate”, but the node 30 assigned to the backup candidate may be the owner in the future.
  • the target role table for example, as shown in FIG. 6, the nodes 30 are specified by rows, and the partitions are specified by columns.
  • the target role table stores the role as the backup candidate assigned to the node 30 specified by the row for each partition at the position where the row and the column are orthogonal to each other, for the partition specified by the column.
  • MID-BACKUP or “M” is described when a role as a backup candidate is assigned, and blank if it is not assigned as a backup candidate.
  • the first assigning unit 22 assigns the owner node 30 and the backup node 30 to each of the plurality of partitions in accordance with the change in the status of each of the plurality of nodes 30. For example, when a failure occurs in any one of the plurality of nodes 30, the first assignment unit 22 reassigns the owner and the backup node 30 except for the failed node 30.
  • the first assigning unit 22 reassigns the owner and backup node 30 including the new node 30 to each of the plurality of partitions.
  • the first assigning unit 22 Re-assign the owner and backup node 30 to each.
  • the first allocation unit 22 allocates the owner and the backup node 30 so that at least the owner exists for all of the plurality of partitions.
  • the 1st allocation part 22 can function a database at least.
  • the first assigning unit 22 assigns the node 30 as the owner and the backup to each of the plurality of partitions so as to have redundancy within a predetermined range on the condition that at least the database functions. . Thereby, even if a failure occurs in any of the nodes 30, the first allocation unit 22 can increase the possibility that the database can function at least.
  • the first assigning unit 22 sets each of the plurality of partitions so that the owner and the backup are distributed to each of the plurality of nodes 30 as a condition that the database functions and has redundancy within a predetermined range.
  • the node 30 to be the owner and backup is assigned to.
  • the 1st allocation part 22 can equalize the load of each process of the some node 30.
  • the first assigning unit 22 assigns the owner and the backup node 30 by calculating the next role table.
  • An example of a method for calculating the next role table by the first assigning unit 22 will be described later with reference to FIG.
  • the second allocation unit 23 allocates a backup candidate node 30 to each of the plurality of partitions in accordance with the status of the plurality of nodes 30 and the change of the owner allocated by the current allocation table and the backup allocation status. . For example, when a failure occurs in any one of the plurality of nodes 30, the second assignment unit 23 reassigns the backup candidate nodes 30 except for the failed node 30. For example, when a new node 30 is added, the second assignment unit 23 reassigns the backup candidate node 30 including the new node 30 to each of the plurality of partitions.
  • the second allocation unit 23 allocates a backup candidate node 30 to each of the plurality of partitions so as to have a redundancy within a predetermined range in the future.
  • the second allocation unit 23 can increase the possibility that at least the database can function even if a failure occurs in any of the nodes 30 in the future.
  • the second assigning unit 23 assigns a backup candidate node 30 to each of a plurality of partitions so that owners and backups are distributed and assigned to the plurality of nodes 30 in the future. Thereby, the 2nd allocation part 23 can equalize the load of each process of the some node 30 in the future.
  • the second assigning unit 23 assigns a node 30 as a backup candidate by calculating a target role table.
  • An example of a method for calculating the target role table by the second assigning unit 23 will be described later with reference to FIG.
  • the cluster management unit 24 manages each of the plurality of nodes 30 by exchanging messages with each of the plurality of nodes 30 via the network. For example, the cluster management unit 24 exchanges a message called a heartbeat with each of the plurality of nodes 30 at regular time intervals. Then, the cluster management unit 24 identifies the node 30 in which the failure has occurred depending on whether or not a heartbeat is returned.
  • the cluster management unit 24 periodically receives a data holding table from each of the plurality of nodes 30. Then, the cluster management unit 24 stores the data holding table received from all the nodes 30 together in the table storage unit 21. Further, the cluster management unit 24 identifies the node 30 in which the failure has occurred depending on whether or not the data holding table has been received.
  • the cluster management unit 24 allocates each of the plurality of nodes 30 by causing the first allocation unit 22 to calculate the next role table at the time of activation and distributing the calculated next role table to each of the plurality of nodes 30. The operation according to is instructed. In addition, the cluster management unit 24 causes the first assignment unit 22 to calculate the next role table periodically. Then, when the calculated next role table changes from the current role table, the cluster management unit 24 distributes the calculated next role table to each of the plurality of nodes 30 to allocate to each of the plurality of nodes 30. Instruct the appropriate action. Then, after distributing the next role table, the cluster management unit 24 updates the current role table stored in the table storage unit 21 to the contents of the next role table.
  • the first assigning unit 22 changes the calculated next role table from the current role table. Therefore, in such a case, the cluster management unit 24 distributes the next role table to each of the plurality of nodes 30.
  • the cluster management unit 24 periodically causes the second assignment unit 23 to calculate the target role table, and distributes the calculated target role table to each of the plurality of nodes 30.
  • the cluster management unit 24 distributes the target role table to instruct each of the plurality of nodes 30 to prepare the node 30 assigned as a candidate to operate as an owner or a backup.
  • the cluster management unit 24 calculates the next role table and the target role table at different periods.
  • Each of the plurality of nodes 30 includes a data store unit 31, a table storage unit 32, an access processing unit 33, a node management unit 34, and a transfer unit 35.
  • the access processing unit 33, the node management unit 34, and the transfer unit 35 are realized by the CPU 12 of the node 30 executing a program.
  • the access processing unit 33, the node management unit 34, and the transfer unit 35 may be partially or entirely realized by a hardware circuit.
  • the data store unit 31 and the table storage unit 32 are realized by the memory 13 or the external storage device 16 of the node 30.
  • the data store unit 31 stores a data set of partitions in which the own node is assigned to the owner or the backup by the current role table among the plurality of partitions obtained by dividing the database. For example, as shown in FIG. 7, among partitions # 1 to # 3 divided into three, the own node is assigned to the owner for partition # 1 and assigned to the backup for partition # 3. Suppose that In this case, the data store unit 31 stores a data set of the partition # 1 and the partition # 3.
  • the node 30 receives a data set from the node 30 assigned to the owner of the partition assigned to the backup candidate by the target role table.
  • the data store unit 31 stores a part or all of the data set of the partition that has been assigned to the backup candidate by the target role table by the own node from the owner node 30.
  • the table storage unit 32 stores a part corresponding to the own node of the data holding table.
  • the table storage unit 32 stores a current role table, a next role table, and a target role table.
  • the next role table is received, the current role table is rewritten with the contents of the next role table.
  • the target role table is rewritten with the changed contents when the target role table received periodically changes.
  • the access processing unit 33 receives an access request from the client via the network. Then, the access processing unit 33 executes a process corresponding to the role assigned to the own node by the current role table for each of the plurality of partitions.
  • the access processing unit 33 receives an access request from a client for a partition assigned as an owner in the current role table, and executes a process according to the access request. For example, when receiving a reference request, the access processing unit 33 reads the corresponding data in the data set of the partition and transmits it to the client. For example, when receiving an update request, the access processing unit 33 updates the corresponding data in the data set of the partition. For example, when receiving a registration request, the access processing unit 33 registers new data in the data set of the partition.
  • the access processing unit 33 may accept a transaction including a series of access requests. In this case, the access processing unit 33 executes a series of access requests from the client by transaction processing.
  • the replication process is a process for generating a replica (replication) of a data set stored in the node 30 assigned to the owner in the node 30 assigned to the backup.
  • the access processing unit 33 when the access processing unit 33 receives an update or registration request for the partition assigned to the owner, the access processing unit 33 receives the same access request as a backup. To the node 30. Then, the access processing unit 33 of the other node 30 receives an update or registration request from the node 30 assigned as the owner for the partition assigned as the backup, and executes the update or registration process according to the request. To do.
  • the access processing unit 33 can synchronize the data set between the node 30 assigned as the owner and the node 30 assigned as the backup by performing such a replication process.
  • the access processing unit 33 of the node 30 assigned as the owner may transmit a transaction including a series of access requests when executing the replication processing.
  • the access processing unit 33 of the node 30 assigned as the backup executes the replication processing by transaction processing.
  • the access processing unit 33 processes the update request and the registration request, the access processing unit 33 updates the time stamp of the corresponding partition of the data holding table stored in the table storage unit 32.
  • the node management unit 34 exchanges messages with the cluster management unit 24 of the management apparatus 20 via the network. In response to receiving a message called heartbeat from the cluster management unit 24, the node management unit 34 transmits a response message if a failure has occurred in the node itself. Further, the node management unit 34 periodically transmits the data holding table stored in the table storage unit 32 to the cluster management unit 24.
  • the node management unit 34 receives the next role table from the cluster management unit 24 and stores the received next role table in the table storage unit 32.
  • the node management unit 34 accesses from the client to operate each of the plurality of nodes 30 with the role assigned by the next role table.
  • Short-term synchronization processing which is synchronization processing performed by temporarily interrupting processing according to a request, is executed.
  • the node management unit 34 causes the access processing unit 33 to perform the same processing as the replication processing in order to operate each of the plurality of nodes 30 with the role indicated by the next role table for each of the plurality of partitions. Execute the process. Accordingly, the node management unit 34 can synchronize the data set between the node 30 assigned as the owner and the node 30 assigned as the backup for each of the plurality of partitions. After synchronizing the data sets, the node management unit 34 rewrites the current role table to the contents of the next role table in the access processing unit 33, and assigns the new role table assigned to each of the plurality of partitions by the next role table. Process according to the appropriate role.
  • the node management unit 34 updates the contents of the current role table with the contents of the next role table. Thereafter, the access processing unit 33 can accept an access request from a client.
  • the node management unit 34 periodically receives the target role table from the cluster management unit 24 and stores the received target role table in the table storage unit 32.
  • the transfer unit 35 is a synchronous process that is performed without interrupting the process for the access request from the client in order to operate each of the plurality of nodes 30 with the role assigned by the target role table. Execute long-term synchronization processing. Specifically, the transfer unit 35 assigns the data set of the partition to which the own node is assigned as the owner by the current role table, as a backup candidate by the target role table, and makes the backup to the owner by the current role table. Are transmitted without interruption to the other nodes 30 that are not assigned. In addition, the transfer unit 35 assigns, as an owner, a data set of partitions in which the own node is assigned as a candidate for backup in the target role table and is not assigned to either the owner or the backup in the current role table. The received request is received from the other node 30 without interruption.
  • the transfer unit 35 can store a replica of the data set stored in the node 30 assigned to the owner in the node 30 that is not assigned to the owner or backup by executing such long-term synchronization processing. . As a result, the transfer unit 35 can newly generate a node 30 that can be an owner or a backup after the long-term synchronization processing is completed.
  • the transfer unit 35 has assigned the data set of the partition assigned to the owner as a backup candidate in the background that does not interfere with the execution of the transaction by the access processing unit 33. Transmit to node 30. In addition, the transfer unit 35 receives a data set of partitions assigned as backup candidates from the node 30 assigned to the owner in the background.
  • the background processing is, for example, processing performed using a part of CPUs 12 that are not executing transaction processing when the node 30 includes a plurality of CPUs 12.
  • the background process is, for example, a process that is executed in a part of time zone in which the CPU 12 is not executing a transaction process when the CPU 12 is performing a time-sharing process. Thereby, the transfer part 35 can perform a long-term synchronization process, without causing the fall of the response speed etc. with respect to the access request from a client.
  • the transfer unit 35 assigns the data set of the partition in which the own node is assigned to the backup in the current role table to other candidates that are assigned to the backup candidate by the target role table and are not assigned to either the owner or the backup. You may transmit with respect to the node 30. FIG. In this case, the transfer unit 35 performs processing on the condition that the same data set is not transmitted from another node 30.
  • FIG. 11 is a diagram showing the transition of roles assigned to the nodes 30.
  • the node 30 is either in a state where “owner”, “backup” or “backup candidate” is assigned to each of the plurality of partitions, or in a “none” state where no role is assigned. Transition.
  • the node 30 makes a transition between the “none” state and the “owner” state by a short-term synchronization process. Further, the node 30 makes a transition between the “owner” state and the “backup” state by a short-term synchronization process. Further, the node 30 transitions from the “backup” state to the “none” state by the short-term synchronization processing.
  • the node 30 makes a transition between the “none” state and the “backup candidate” state by the long-term synchronization processing. Then, the node 30 transitions from the “backup candidate” state to the “backup” state by the short-term synchronization processing.
  • FIG. 12 is a diagram illustrating a processing flow of the cluster management unit 24 of the management apparatus 20.
  • the cluster management unit 24 executes the following processing in steps S111 to S142.
  • step S111 the cluster management unit 24 detects a reception event, a first fixed-cycle event, or a second fixed-cycle event in the data holding table.
  • the data holding table reception event occurs when the cluster management unit 24 receives a data holding table transmitted from each of the plurality of nodes 30.
  • the first fixed-cycle event and the second fixed-cycle event each occur periodically. However, the generation intervals of the first fixed-cycle event and the second fixed-cycle event are different from each other.
  • the cluster management unit 24 When the cluster management unit 24 detects a reception event in the data holding table, the cluster management unit 24 proceeds with the process to step S121. When the cluster management unit 24 detects the first periodic event, the cluster management unit 24 proceeds with the process to step S131. When the cluster management unit 24 detects the second fixed-cycle event, the cluster management unit 24 proceeds with the process to step S141.
  • step S121 the cluster management unit 24 determines whether or not it is the first reception event of the data holding table after activation.
  • step S121 the cluster management unit 24 advances the process to step S122.
  • step S122 the cluster management unit 24 registers the received data holding table in the table storage unit 21.
  • step S123 the cluster management unit 24 causes the first assignment unit 22 to calculate the next role table.
  • the next role table calculation process by the first assigning unit 22 will be described with reference to FIG.
  • step S124 the cluster management unit 24 distributes the calculated next role table to each of the plurality of nodes 30. And the cluster management part 24 returns a process to step S111, after finishing the process of step S124.
  • step S121 If the received event is not the first data holding table received since activation (No in step S121), the cluster management unit 24 updates the data holding table in the table storage unit 21 in step S125. And the cluster management part 24 returns a process to step S111, after finishing the process of step S125.
  • step S131 the cluster management unit 24 sets the plurality of nodes 30 between the previous first fixed-cycle event and the current first fixed-cycle event. It is determined whether or not the data holding table has been received from all.
  • the cluster management unit 24 advances the process to step S134.
  • the cluster management unit 24 cannot receive the data holding table from any of the nodes 30 (No in Step S131)
  • the cluster management unit 24 advances the process to Step S132.
  • step S132 the cluster management unit 24 performs a process of separating the node 30 that has not received the data holding table from the database system 10. Subsequently, in step S133, the cluster management unit 24 deletes the contents of the detached node 30 from the data holding table and updates the data holding table. When finishing the process of step S133, the cluster management unit 24 advances the process to step S134.
  • step S134 the cluster management unit 24 causes the first assignment unit 22 to calculate the next role table.
  • the next role table calculation process by the first assigning unit 22 will be described with reference to FIG.
  • step S135 the cluster management unit 24 determines whether or not the next role table has changed.
  • the next role table changes when the failed node 30 is disconnected, when a new node 30 is added, or when the node 30 assigned as a backup changes after the long-term synchronization processing is completed.
  • step S135 the cluster management unit 24 returns the process to step S111. If the next role table has changed (Yes in step S135), in step S136, the cluster management unit 24 distributes the changed next role table to each of the plurality of nodes 30. And the cluster management part 24 returns a process to step S111, after finishing the process of step S136.
  • step S141 the cluster management unit 24 causes the second assignment unit 23 to calculate the target role table.
  • the target role table calculation process by the second allocation unit 23 will be described with reference to FIG.
  • step S142 the cluster management unit 24 distributes the calculated target role table to each of the plurality of nodes 30. And the cluster management part 24 returns a process to step S111, after finishing the process of step S142.
  • FIG. 13 is a diagram illustrating a flow of a next role table calculation process by the first assignment unit 22 of the management apparatus 20.
  • the first allocation unit 22 is called by the cluster management unit 24 in step S123 and step S134 of FIG. 12, and executes the processing of the following steps S211 to S220.
  • step S211 the first allocation unit 22 initializes the next role table.
  • the first assigning unit 22 associates each of the plurality of nodes 30 in the next role table with the node 30 in the data holding table.
  • the 1st allocation part 22 can reflect the node 30 separated by the occurrence of a failure, and the newly added node 30 in a next role table.
  • step S212 the first allocation unit 22 executes a loop process for each partition. For example, when dividing the database into first to third partitions, the first allocation unit 22 targets each of the first partition, the second partition, and the third partition from step S212 to step S220. Execute the process.
  • step S213 the first allocation unit 22 selects a set of nodes 30 having the maximum time stamp in the data holding table for the target partition.
  • the time stamp is a value that is incremented by 1 each time the data set of the target partition is updated. Accordingly, in step S213, the first allocation unit 22 can select a set of nodes 30 storing the latest data set for the target partition.
  • step S214 the first allocation unit 22 selects one node 30 having the smallest number of partitions allocated as owners and backups in the next role table from the set of nodes 30 selected in step S213. Then, the selected node 30 is assigned as the owner. Thereby, the 1st allocation part 22 can allocate the node 30 with the smallest load among the group of the nodes 30 which has memorize
  • the first assigning unit 22 gives priority to the node 30 having a high computing capacity over the node 30 having a low computing capacity. May be assigned as the owner. Instead, the first assigning unit 22 may preferentially assign the node 30 that receives a small number of access requests as an owner over the node 30 that receives a large number of access requests.
  • step S215 the first assigning unit 22 sets a set of nodes 30 having time stamps within a certain difference from the maximum time stamp, except for the node 30 assigned as the owner for the target partition. Select. Thereby, the first allocation unit 22 can select the latest data set or the set of nodes 30 storing the data set relatively close to the latest data set for the target partition.
  • the first allocation unit 22 executes a loop process for the number of replications.
  • the number of replications refers to the maximum number of nodes 30 that can perform replication processing with the node 30 assigned to the owner. That is, the number of replications is the same as the number of backups that can be assigned.
  • step S217 the first allocation unit 22 determines whether or not there is a node 30 that can be allocated as a backup in the set of nodes 30 selected in step S215. to decide. When there is a node 30 that can be allocated as a backup (Yes in step S217), the first allocation unit 22 advances the process to step S218.
  • the first allocation unit 22 forcibly exits the loop processing for the number of replications and advances the process to step S220. That is, therefore, the first allocation unit 22 may calculate a next role table in which no backup exists or the number of backups is less than the number of replications.
  • step S218 the first allocation unit 22 allocates, as a backup, the node 30 having the smallest number of partitions allocated as the owner and backup in the next role table from the set of nodes 30 selected in step S215.
  • the first assigning unit 22 can assign the node 30 to be backed up in ascending order of load among the set of nodes 30 storing the latest data set or data close to the latest data set.
  • the first assigning unit 22 gives priority to the node 30 having a high computing capacity over the node 30 having a low computing capacity. May be assigned as a backup. Instead of this, the first assigning unit 22 may assign the node 30 having a small number of access requests as a backup in preference to the node 30 having a large number of access requests.
  • the first assigning unit 22 removes the node 30 assigned as a backup from the selected set of nodes 30, and advances the process to step S219.
  • the first assigning unit 22 returns the process to step S216 if the number of processes from step S216 to step S219 is smaller than the number of replications, and if the number of processes matches the number of replications, the first allocation unit 22 performs the process in step S220. Proceed to
  • step S220 the first assigning unit 22 returns the process to step S216 when the processes from step S212 to step S220 have not been executed for all partitions. Then, when the processes from step S212 to step S220 are executed for all partitions, the first allocation unit 22 ends the calculation of the next role table and exits this flow.
  • the database can be functioned by assigning the node 30 as the owner to all of the plurality of partitions.
  • the redundancy of the database can be ensured by assigning the backup node 30 as much as possible.
  • the load of each of the some node 30 can be equalized by allocating the node 30 used as an owner and backup in an order from the node 30 with smaller load.
  • FIG. 14 is a diagram showing a flow of target role table calculation processing by the second assignment unit 23 of the management apparatus 20.
  • the second allocation unit 23 is called by the cluster management unit 24 in step S141 in FIG. 12, and executes the following processing in steps S311 to S324.
  • step S311 the second allocation unit 23 initializes the target role table.
  • the second assigning unit 23 associates each of the plurality of nodes 30 in the target role table with the node 30 in the data holding table.
  • the 2nd allocation part 23 can reflect the node 30 separated by failure occurrence, and the newly added node 30 to a target role table
  • step S312 the second assignment unit 23 sorts the partitions of the current role table in ascending order by the total number of assigned owners and backups. As a result, the second allocation unit 23 can allocate backup candidates in order from the partition with the few nodes 30 allocated as backup. That is, the second assigning unit 23 can assign the backup candidate nodes 30 in the current role table in order from the partition with the least redundancy.
  • the second allocation unit 23 initializes the load value corresponding to each of the plurality of nodes 30.
  • the load value is a value that increases in response to the backup candidate role being assigned to the node 30.
  • the second allocation unit 23 initializes each load value to “0”.
  • step S314 and step S324 the second allocation unit 23 performs a loop process for each partition.
  • the second allocation unit 23 selects a target partition in the order of the partitions of the current role table rearranged in step S312, and executes a loop process.
  • step S315 the second allocation unit 23 selects the node 30 with the maximum time stamp in the data holding table for the target partition.
  • step S316 the second allocation unit 23 sorts the nodes 30 in the current role table in descending order by the value V.
  • the value V is “+1” for the node 30 assigned as the owner, “+1” for the node 30 assigned as the backup, and “+1” for the node 30 with the maximum time stamp. Value. Therefore, the value V of the node 30 that is neither the owner, the backup, nor the time stamp is “0”.
  • the second assigning unit 23 can assign the node 30 assigned as the owner and the backup or the node 30 storing the latest data set as the node 30 as the backup candidate first.
  • the second assigning unit 23 arranges the nodes 30 at a higher rank so that the node 30 having a high computing capacity is the backup candidate first.
  • the second assigning unit 23 can assign the backup candidate node 30 so that the node 30 with high computing ability is preferentially the owner or backup over the node 30 with low computing ability.
  • the second allocation unit 23 may be arranged higher so that the node 30 with a small number of access requests received first becomes a backup candidate.
  • the second allocation unit 23 assigns the node 30 as a backup candidate so that the node 30 with a small number of access requests can be an owner or a backup with priority over the node 30 with a large number of access requests. Can be assigned.
  • step S317 the second allocation unit 23 calculates an upper limit weight MLOAD that is a constant according to the following equation (1).
  • MLOAD ⁇ number of partitions ⁇ (number of replications + 1) + (number of nodes ⁇ 1) ⁇ ⁇ number of nodes (1)
  • (number of replications + 1) represents the maximum number of owners and backups that can be assigned to one partition.
  • Such an upper limit weight MLOAD represents an upper limit criterion of the number that can be assigned to one node 30 as a backup candidate.
  • step S318 and step S323 the second allocation unit 23 executes a loop process for each node 30.
  • the second allocation unit 23 selects the target node 30 in the order of the current role table rearranged in step S316, and executes a loop process.
  • step S319 the second allocation unit 23 determines whether or not the backup candidate node 30 has been allocated to the (number of replications + 1) nodes 30. .
  • step S319 the second allocation unit 23 allocates the maximum number of backup candidates nodes 30 to the target partition.
  • step S319 If the second allocation unit 23 has not allocated backup candidates to (number of replications + 1) nodes 30 (No in step S319), the process proceeds to step S320.
  • step S320 the second allocation unit 23 determines whether the load value of the target node 30 is smaller than the upper limit weight MLOAD. When the load value of the target node 30 is smaller than the upper limit weight MLOAD (Yes in Step S320), the second allocation unit 23 advances the process to Step S321.
  • the second allocation unit 23 advances the process to step S323.
  • the second assigning unit 23 assigns a role as a backup candidate to a certain node 30 at a reference value or more, it can avoid assigning the node 30 as a backup candidate any more.
  • the second assigning unit 23 can distribute and assign roles as backup candidates to the plurality of nodes 30.
  • step S321 the second allocation unit 23 allocates the target node 30 as a backup candidate to the target partition. Subsequently, in step S322, the second allocation unit 23 updates the load value of the target node 30 by adding “1”. Thereby, the 2nd allocation part 23 can increase the load value of the node 30 1 each time it allocates as a candidate.
  • step S323 the process proceeds to step S323.
  • step S323 the second assigning unit 23 returns the process to step S318 when the processes from step S318 to step S323 are not executed for all of the plurality of nodes 30.
  • the second allocation unit 23 advances the process to step S324.
  • step S324 the second allocation unit 23 returns the process to step S314 when the processes from step S314 to step S324 have not been executed for all of the plurality of partitions. Then, when the processes from step S314 to step S324 are executed for all of the plurality of partitions, the second allocation unit 23 ends the calculation of the target role table and exits this flow.
  • backup candidates are allocated in order from the partition with the smallest redundancy (that is, the number of assigned backups is small), so that the redundancy of the database can be efficiently secured. Can do. Further, according to the second allocating unit 23, no backup candidates are further allocated to the nodes 30 in which the number of allocated backup candidates is equal to or greater than the reference value. Can be assigned.
  • FIG. 15 is a diagram illustrating a processing flow of the access processing unit 33 of the node 30.
  • the access processing unit 33 executes the following processes of Step S411 to Step S433.
  • the access processing unit 33 detects a request reception event from a client or a request reception event by a replication process.
  • a request reception event from a client occurs when an access request for a database is received from a client via a network.
  • the request reception event by the replication process is generated when an update request or a registration request by the replication process is received from another owner node 30 via the network.
  • step S421 When the access processing unit 33 detects a request reception event from the client, the process proceeds to step S421. If the access processing unit 33 detects a request reception event due to the replication process, the process proceeds to step S431.
  • step S421 the access processing unit 33 calculates and obtains the number of the requested partition indicated in the access request from the client, for example. Subsequently, in step S422, the access processing unit 33 determines whether or not the own node is assigned to the owner for the requested partition by referring to the current role table.
  • step S423 the access processing unit 33 notifies the client of the number of the node 30 assigned to the owner. Then, the process returns to step S411.
  • step S424 the access processing unit 33 determines whether the access request type is a reference, update, or registration. It is judged whether it is.
  • step S425 the access processing unit 33 reads the data requested for reference from the data store unit 31 and transmits it to the client, and the process is stepped. Return to S411.
  • step S426 replication processing is executed with another node 30 assigned as a backup to the requested partition. To do. That is, the access processing unit 33 transmits the same access request as the update or registration request received from the client to the node 30 assigned as a backup.
  • step S427 the access processing unit 33 updates the data stored in the data store unit 31 or adds a new one to the data store unit 31 in accordance with the update or registration request transmitted from the client. Register the data. Subsequently, in step S428, the access processing unit 33 updates the time stamp of the data holding table by incrementing by 1, and returns the process to step S411.
  • step S431 the access processing unit 33 updates the data stored in the data store unit 31 in accordance with the update or registration request transmitted from the owner node 30. Alternatively, new data is registered in the data store unit 31. Subsequently, in step S432, the access processing unit 33 updates the data retention table by incrementing the time stamp by one. Subsequently, in step S433, the access processing unit 33 notifies the owner that registration or update has been completed, and returns the process to step S411.
  • the access processing unit 33 may receive a transaction including a series of access requests from the client and execute transaction processing according to the access request from the client. Further, when transmitting an update or registration request by replication processing in step S426, the access processing unit 33 may transmit a transaction including a series of access requests to the node 30 assigned as a backup. In step S431, the access processing unit 33 may receive a transaction including a series of access requests from the owner node 30 and execute a transaction process according to the access request from the owner node 30.
  • FIG. 16 is a diagram illustrating a processing flow of the node management unit 34 of the node 30.
  • the node management unit 34 executes the following processing in steps S511 to S541.
  • step S511 the node management unit 34 detects a third fixed-cycle event, a reception event in the next role table, or a reception event in the target role table.
  • the third periodic event occurs periodically.
  • the reception event of the next role table occurs when the node management unit 34 receives the next role table.
  • the target role table reception event occurs when the node management unit 34 receives the target role table.
  • step S521 the node management unit 34 detects the third periodic event. If the node management unit 34 detects a reception event in the next role table, the node management unit 34 advances the process to step S531. If the node management unit 34 detects a reception event in the target role table, the process proceeds to step S541.
  • step S521 the node management unit 34 transmits the data holding table stored in the table storage unit 32 to the cluster management unit 24 of the management apparatus 20. Then, the node management unit 34 returns the process to step S511.
  • step S531 if the access processing unit 33 is executing a transaction, the node management unit 34 interrupts the processing. Subsequently, in step S532, the node management unit 34 executes short-term synchronization processing according to the received next role table.
  • the node management unit 34 accesses the plurality of partitions when there is a difference in the data set stored between the owner node 30 and the backup node 30.
  • the processing unit 33 is caused to execute the same process as the replication process.
  • the node management unit 34 can synchronize between the node 30 assigned as the owner and the node 30 assigned as the backup for each of the plurality of partitions.
  • the node management unit 34 causes the access processing unit 33 to execute processing corresponding to the new role (owner and backup) assigned by the next role table for each of the plurality of partitions.
  • step S533 the node management unit 34 rewrites the current role table with the contents of the next role table. Thereby, the access processing unit 33 can accept an access request from a client.
  • step S534 the node management unit 34 interrupts and restarts the transaction. Then, the node management unit 34 returns the process to step S511.
  • the node management unit 34 updates the target role table stored in the table storage unit 32 in step S541. Then, the node management unit 34 returns the process to step S511.
  • FIG. 17 is a diagram illustrating a processing flow of the transfer unit 35 of the node 30.
  • the transfer unit 35 executes the following processes in steps S611 to S618 and steps S621 to S622.
  • step S611 the transfer unit 35 determines whether or not the load on the CPU 12 is greater than a predetermined reference value. If the load is greater than the reference value (Yes in step S611), in step S612, the transfer unit 35 sleeps for a certain period of time, and then returns the process to step S611.
  • step S613 the transfer unit 35 detects a difference between the current role table and the target role table. Subsequently, in step S614, the transfer unit 35 determines whether there is a difference between the current role table and the target role table.
  • step S615 When there is no difference between the current role table and the target role table (No in step S614), in step S615, the transfer unit 35 plays a role in the current node in the current role table, the next role table, and the target role table. If there is a partition to which is not assigned, delete the data set. And the transfer part 35 returns a process to step S611 after the process of step S615.
  • step S616 the transfer unit 35 selects a partition whose own node is the owner in the current role table and backup candidates in the target role table. In the current role table, another node 30 that is neither the owner nor the backup is detected.
  • step S617 the transfer unit 35 determines whether there is another node 30 that is a candidate for backup in the target role table and is neither an owner nor a backup in the current role table. If it does not exist (No in step S617), the transfer unit 35 returns the process to step S611.
  • step S618 the transfer unit 35 starts the long-term synchronization process without interrupting the process for the access request from the client. Specifically, the transfer unit 35 assigns the partition whose own node is assigned to the owner in the current role table to the backup candidate according to the target role table and to the owner and the backup according to the current role table. The data set of the partition is transmitted to the other nodes 30 that are not. In this case, the transfer unit 35 transmits the data set in the background that does not interfere with the execution of the transaction by the access processing unit 33. Thereby, the transfer part 35 can perform a long-term synchronization process, without causing the fall of the response speed etc. with respect to the access request from a client.
  • step S611 After complete
  • the transfer unit 35 of the other node 30 having a partition that is assigned to the backup candidate by the target role table and that is not assigned to either the owner or the backup by the current role table is the following steps S621 and S622. Execute the process.
  • step S621 the transfer unit 35 starts the long-term synchronization process without interrupting the process for the access request from the client. Specifically, the transfer unit 35 sets a data set from the node 30 assigned to the owner for a partition that is assigned to the backup candidate by the target role table and that is not assigned to either the owner or the backup by the current role table. Receive. In this case, the transfer unit 35 receives the data set in the background that does not interfere with the execution of the transaction by the access processing unit 33.
  • step S622 the transfer unit 35 updates the data holding table.
  • the transfer unit 35 updates the data holding table to obtain the time stamp of the partition as the owner's time stamp. Can match the time stamp of the data retention table.
  • the transfer unit 35 generates a replica of the data set of the node 30 assigned as the owner to the node 30 assigned as the backup candidate. Can be generated.
  • FIG. 18 is a diagram showing the state of each of the nodes 30-A to 30-C when the owner and backup node 30 are assigned to each of the three partitions # 1 to # 3.
  • the node 30-A is assigned to the owner and the node 30-B is assigned to the backup for the partition # 1.
  • node 30-B is assigned to the owner, and node 30-C is assigned to the backup.
  • node 30-C is assigned to the owner, and node 30-A is assigned to the backup.
  • Node 30-A and node 30-B are executing replication processing for partition # 1 by transaction.
  • the time stamp of the partition # 1 has the same value in the node 30-A and the node 30-B.
  • the node 30-B and the node 30-C are executing replication processing for the partition # 2 by transaction.
  • the time stamp of the partition # 2 has the same value in the node 30-B and the node 30-C.
  • the node 30-C and the node 30-A are executing replication processing for the partition # 3 by transaction.
  • the time stamp of the partition # 3 has the same value in the node 30-C and the node 30-A.
  • FIG. 19 is a diagram illustrating the respective states of the node 30-A to the node 30-C after executing the short-term synchronization processing in response to a failure occurring in the node 30-C from the state of FIG. It is assumed that the cluster management unit 24 of the management apparatus 20 cannot detect the data holding table from the node 30-C from the state of FIG. 18, and detects that a failure has occurred in the node 30-C.
  • the cluster management unit 24 of the management device 20 separates the failed node 30 and calculates the next role table in the first allocation unit 22.
  • the first assigning unit 22 reassigns the owner and the backup node 30 except for the failed node 30, and generates the next role table.
  • the first allocation unit 22 allocates the node 30 so that at least an owner exists for each of the plurality of partitions so that the database functions at least. For example, when a failure occurs in the node 30 that was the owner, the first allocation unit 22 allocates the node 30 that was the backup to the owner. Furthermore, the first allocation unit 22 allocates the nodes 30 so that backups exist as much as possible for each of the plurality of partitions in order to further increase the redundancy of the database.
  • the node 30-A is assigned to the owner and the node 30-B is assigned to the backup for the partition # 1. Further, the node 30-B is assigned to the owner for the partition # 2. Further, the node 30-A is assigned to the owner for the partition # 3.
  • the cluster management unit 24 distributes the next role table to the nodes 30-A and 30-B.
  • the node managers 34 of the nodes 30-A and 30-B execute short-term synchronization processing and rewrite the contents of the current role table with the contents of the next role table. Thereby, each of the node 30-A and the node 30-B can execute processing according to the newly assigned role.
  • FIG. 20 is a diagram showing an example of long-term synchronization processing executed from the state of FIG. Further, the cluster management unit 24 of the management device 20 causes the second assignment unit 23 to calculate the target role table when the failed node 30-C is disconnected.
  • the second assignment unit 23 reassigns the backup candidate nodes 30 except for the failed node 30, and generates a target role table.
  • the second allocation unit 23 allocates candidate nodes 30 so that at least an owner and a backup exist for each of the plurality of partitions in order to increase the redundancy of the database.
  • the second allocation unit 23 allocates the node 30-A as a backup candidate for the partition # 2, and allocates the node 30-B as a backup candidate for the partition # 3.
  • the second allocation unit 23 also allocates the node 30 that has already been allocated as the owner and backup according to the current role table as a backup candidate. Therefore, as shown in the target role table of FIG. 20, both the node 30-A and the node 30-B are assigned as backup candidates to each of the partitions # 1 to # 3.
  • the cluster management unit 24 distributes the target role table to the nodes 30-A and 30-B.
  • Each transfer unit 35 of the node 30-A and the node 30-B performs long-term synchronization processing on the difference between the current role table and the target role table. That is, the transfer unit 35 of the node 30-B transmits the data set of the partition # 2 to the node 30-A in the background. Further, the transfer unit 35 of the node 30-A transmits the data set of the partition # 3 to the node 30-B in the background.
  • the transfer unit 35 executes the long-term synchronization process without interrupting the process for the access request from the client.
  • the node 30-A can store a replica of the data set of the partition # 2. Further, as shown in the data holding table of FIG. 20, the time stamp of the partition # 2 at this time has the same value in the node 30-A and the node 30-B.
  • the node 30-B can store a replica of the data set of the partition # 3. Further, as shown in the data holding table of FIG. 20, the time stamp of the partition # 3 has the same value in the node 30-A and the node 30-B.
  • FIG. 21 is a diagram showing the states of the nodes 30-A to 30-C after the short-term synchronization processing is executed in response to the completion of the long-term synchronization processing of FIG.
  • the cluster management unit 24 of the management device 20 periodically calls the first allocation unit 22 to calculate the next role table.
  • the first allocation unit 22 uses the replica generated by the long-term synchronization processing for each of the plurality of partitions to increase redundancy. In this manner, the owner and the backup node 30 are reassigned.
  • the node 30-A is assigned as the owner and the node 30-B is assigned as the backup to the partition # 1.
  • the node 30-B is assigned as the owner, and the node 30-A is assigned as the backup.
  • the node 30-A is assigned as the owner to the partition # 3, and the node 30-B is assigned as the backup.
  • the cluster management unit 24 distributes the next role table to the nodes 30-A and 30-B.
  • the node managers 34 of the nodes 30-A and 30-B execute short-term synchronization processing and rewrite the contents of the current role table with the contents of the next role table. Thereby, each of the node 30-A and the node 30-B can execute processing according to the newly assigned role.
  • FIG. 22 is a diagram showing each state of the node 30-A to the node 30-D when the node 30-D is added from the state of FIG. For example, it is assumed that the cluster management unit 24 of the management apparatus 20 detects that a node 30-D has been newly added from the state of FIG.
  • the cluster management unit 24 generates a data holding table to which the node 30-D is added as shown in the data holding table of FIG.
  • the first assignment unit 22 In response to the addition of the node 30-D to the data holding table, the first assignment unit 22 generates a next role table to which the node 30-D has been added.
  • the node 30-D does not store the data set. Accordingly, the first allocation unit 22 does not change the allocation of the owner and the backup immediately after the node 30-D is added.
  • FIG. 23 is a diagram showing an example of long-term synchronization processing executed from the state shown in FIG.
  • the second allocation unit 23 reallocates the node 30 that is a backup candidate including the new node 30 to each of the plurality of partitions.
  • the second assigning unit 23 performs backup candidates for each of the plurality of partitions so that the difference between the number of assigned owners and the number of backups is within a predetermined value range between the nodes 30. Node 30 is assigned.
  • the node 30-A and the node 30-B are assigned as the backup candidates to the partition # 1. Further, the node 30-B and the node 30-D are assigned as the backup candidates to the partition # 2. Further, the node 30-A and the node 30-D are assigned as the backup candidates to the partition # 3.
  • the cluster management unit 24 distributes the target role table to the nodes 30-A, 30-B, and 30-D.
  • Each transfer unit 35 of the node 30-A, the node 30-B, and the node 30-D executes long-term synchronization processing on the difference portion between the current role table and the target role table.
  • the transfer unit 35 of the node 30-B transmits the data set of the partition # 2 to the node 30-D in the background.
  • the transfer unit 35 of the node 30-A transmits the data set of the partition # 3 to the node 30-D in the background.
  • the transfer unit 35 executes the long-term synchronization process without interrupting the process for the access request from the client.
  • the node 30-D can store a replica of the data set of the partition # 2. Further, as shown in the data retention table of FIG. 23, the time stamp of the partition # 2 has the same value in the node 30-B and the node 30-D.
  • the node 30-D can store a replica of the data set of the partition # 3. Furthermore, as shown in the data retention table of FIG. 23, the time stamp of partition # 3 has the same value at node 30-A and node 30-D.
  • FIG. 24 is a diagram showing the states of the nodes 30-A to 30-D after the short-term synchronization processing is executed in response to the completion of the long-term synchronization processing of FIG.
  • the first allocation unit 22 uses a replica generated by the long-term synchronization processing for each of the plurality of partitions to further connect the nodes 30.
  • the node 30 as the owner and the backup are reassigned so that the load is equalized.
  • the node 30-A is assigned as the owner and the node 30-B is assigned as the backup to the partition # 1.
  • the node 30-B is assigned as the owner to the partition # 2
  • the node 30-D is assigned as the backup.
  • the node 30-A is assigned as the owner to the partition # 3, and the node 30-D is assigned as the backup.
  • the cluster management unit 24 distributes the next role table to the nodes 30-A, 30-B, and 30-D.
  • each node management unit 34 of the node 30-A, node 30-B, and node 30-D executes short-term synchronization processing and rewrites the contents of the current role table with the contents of the next role table. .
  • each of the node 30-A, the node 30-B, and the node 30-D can execute processing according to the newly assigned role.
  • the node 30 as the backup candidate is assigned and the data set is transferred from the node 30 as the owner to the node 30 as the candidate. It is possible to provide redundancy and equalize the processing load of the node 30. Furthermore, according to the database system 10, such a process can be executed without interrupting the process for the access request from the client. Therefore, even when the node 30 is disconnected or a new node 30 is added. Data can be rearranged without stopping the system.
  • the programs executed in the management apparatus 20 and the node 30 according to this embodiment are files in an installable format or an executable format, and are CD-ROM, flexible disk (FD), CD-R, DVD (Digital Versatile Disk). And the like recorded on a computer-readable recording medium.
  • the program executed by the management device 20 and the node 30 of the present embodiment may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network. Further, the program executed by the management apparatus 20 and the node 30 of the present embodiment may be configured to be provided or distributed via a network such as the Internet.
  • management apparatus 20 and the node 30 program of this embodiment may be configured to be provided by being incorporated in advance in a ROM or the like.
  • the program executed by the management apparatus 20 of the present embodiment has a module configuration including the above-described units (the table storage unit 21, the first allocation unit 22, the second allocation unit 23, and the cluster management unit 24).
  • a CPU processor
  • the table storage unit 21, the first allocation unit 22, the second allocation unit 23, and A cluster management unit 24 is generated on the main storage device.
  • the program executed in the node 30 of the present embodiment has a module configuration including the above-described units (data store unit 31, table storage unit 32, access processing unit 33, node management unit 34, and transfer unit 35).
  • a CPU processor
  • the node management unit 34 and the transfer unit 35 are generated on the main storage device.
  • Database system 10
  • CPU 13 Memory 14
  • Communication I / F 15 Storage I / F 16 external storage device
  • management device 21 table storage unit 22
  • first allocation unit 23 second allocation unit 24
  • cluster management unit 30 node 31 data store unit 32

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

 実施形態に係るデータベースシステムは、データベースを記憶する複数のノードと、複数のノードを管理する管理装置と、を備える。管理装置は、第1割当部と、第2割当部とを有する。第1割当部は、複数のノードのそれぞれの状況の変更に応じて、データ集合を記憶してデータ集合へのアクセス要求を受け付ける第1ノード、および、データ集合を記憶して第1ノードのバックアップとなる第2ノードを割り当てて、複数のノードのそれぞれに割り当てに応じた動作を指示する。第2割当部は、複数のノードの状況と、第1ノードおよび第2ノードの割り当て状況の変更に応じて、第1ノードまたは第2ノードの候補となる第3ノードを割り当てて、複数のノードのそれぞれに対して第3ノードに第1ノードまたは第2ノードとして動作させるための準備を指示する。

Description

データベースシステム、プログラムおよびデータ処理方法
 本発明の実施形態は、データベースシステム、プログラムおよびデータ処理方法に関する。
 (シェアードナッシング型データベース)
 従来より、シェアードナッシング型のデータベースシステムが知られている。シェアードナッシング型のデータベースシステムは、互いがネットワークで接続された複数のデータベースノードを備える。
 複数のデータベースノードのそれぞれは、プロセッサ、メモリおよびストレージ等のリソースを個別に有するコンピュータである。シェアードナッシング型のデータベースシステムは、データベースノード毎にリソースが完全に分離されているので、データベースノード間でアクセス競合が発生しない。従って、シェアードナッシング型のデータベースシステムは、データベースノードを増やすことにより性能を線形に向上させることができる。すなわち、シェアードナッシング型のデータベースシステムは、データベースノードを追加するスケールアウトが効率良く実現できるシステムである。
 (パーティショニング)
 シェアードナッシング型のデータベースシステムでは、パーティショニングと呼ばれる技術を適用できる。パーティショニングは、データベースを複数に分割し、分割したそれぞれのデータ集合(パーティションと呼ばれる。)を複数のデータベースノードに分散して記憶させる技術である。パーティショニングを適用したシェアードナッシング型のデータベースシステムは、それぞれのデータベースノードに記憶させるデータ集合を小さくできるので、クライアントからのアクセスを複数のデータベースノードに分散させることができる。
 (シャーディング)
 データベース技術の一つに、シャーディングと呼ばれる技術がある。シャーディングは、データをより小さなデータに分割し、複数のデータベースノードに自動的に分散して保存する技術である。シャーディングは、シェアードナッシング型のデータベースシステムのパーティショニングと類似した技術である。
 (分散キーバリュー型データベース)
 また、キーバリュー型データベースが知られている。キーバリュー型データベースは、プログラミング言語の連想配列またはMapと同様にキーとバリューとのペアからなる単純なデータモデルに基づくデータベースである。また、キーバリュー型データベースをキーによりシャーディングすることで分散化した分散キーバリュー型データベースも知られている。
 キーバリュー型データベースは、データモデルが単純であるので、シャーディングおよびパーティショニングの処理が容易である。また、分散キーバリュー型データベースは、複数のキーバリュー型データベースノードを使って、単一のキーバリュー型データベースノードでは対応できないような大規模なデータ集合を処理することができる。従って、分散キーバリュー型データベースを、複数のデータベースノードを備えるシェアードナッシング型のデータベースシステムに適用することにより、スケールアウトが可能な大規模なデータベースシステムを実現することができる。
 さらに、このような分散キーバリュー型データベースを適用したシェアードナッシング型のデータベースシステム(以下、スケールアウト型データベースシステムと呼ぶ)は、複数のデータベースノードに均等にデータを配置することにより、クライアントからのアクセスを分散させて、全体としてスループットおよびレスポンスを向上させることができる。
特開2009-157785号公報 特開2005-196602号公報
"MongoDB Manual Contents"、[Online]、10gen、[平成25年1月18日検索]、インターネット<URL:http://docs.mongodb.org/manual/contents/>
 ところで、スケールアウト型データベースシステムでは、データの複製(レプリカ)を他のデータベースノードに記憶させるレプリケーションと呼ばれる技術が適用される。スケールアウト型データベースシステムは、レプリケーションを行うことで、あるデータベースノードに障害が生じたとしても、レプリカを記憶したデータベースノードを用いてサービスを継続することができる。データのレプリカを記憶するデータベースノードの個数を冗長度と呼ぶ。スケールアウト型データベースシステムでは、例えば冗長度として2個または3個が設定される。
 ここで、スケールアウト型データベースシステムは、データベースノードに障害が発生し、障害が発生したデータベースノードを切り離すと、予め設定した値よりも冗長度が低下する。スケールアウト型データベースシステムは、冗長度が低下したまま長時間を稼動し続けると、更なるデータベースノードの障害が発生したときにシステム全体の動作停止または広範囲のデータ損失が発生する可能性が高くなる。このため、スケールアウト型データベースシステムでは、データベースノードに障害が発生した後に、新たなデーベースノードを追加し、追加されたデータベースノードにレプリカを記憶させて冗長度を元に戻す仕組みが必要である。
 また、スケールアウト型データベースシステムでは、データの配置によっては、記憶するデータ量がデータベースノード間で不均衡となる場合がある。また、スケールアウト型データベースシステムでは、データの配置によっては、クライアントからのアクセス量がデータベースノード間で不均衡となる場合がある。
 このようなデータ配置の不均衡が大きくなると、スケールアウト型データベースシステムでは、データ量の多いデータベースノードまたはクライアントからのアクセスのデータベースノードでの処理時間が相対的に長くなる。スケールアウト型データベースシステムは、クライアントからのアクセスを分散させることがメリットの一つであるので、このようなデータ配置の不均衡によりメリットが失われてしまう。
 以上のような冗長度の低下およびデータ配置の不均衡を解決するために、スケールアウト型データベースシステムは、データ配置に不均衡が生じた時点で複数のデータベースノードへのデータの再配置処理をしなければならない。
 しかしながら、従来のデータベースシステムでは、このような再配置処理を、サービスを停止した状態で実施しなければならなかった。また、従来のデータベースシステムでは、データの再配置処理の負荷が非常に高いので、効率良く処理を実行しなければ著しく処理効率を悪化させてしまっていた。
 実施形態に係るデータベースシステムは、データベースを記憶する複数のノードと、複数のノードを管理する管理装置と、を備える。管理装置は、第1割当部と、第2割当部とを有する。第1割当部は、複数のノードのそれぞれの状況の変更に応じて、データ集合を記憶してデータ集合へのアクセス要求を受け付ける第1ノード、および、データ集合を記憶して第1ノードのバックアップとなる第2ノードを割り当てて、複数のノードのそれぞれに割り当てに応じた動作を指示する。第2割当部は、複数のノードの状況と、第1ノードおよび第2ノードの割り当て状況の変更に応じて、第1ノードまたは第2ノードの候補となる第3ノードを割り当てて、複数のノードのそれぞれに対して、第3ノードに第1ノードまたは第2ノードとして動作させるための準備を指示する。複数のノードのそれぞれは、第1ノードまたは第2ノードのデータ集合を、第3ノードに送信する転送部、を有する。
図1は、実施形態に係るデータベースシステムのハードウェア構成を示す図である。 図2は、実施形態に係るデータベースシステムの機能構成を示す図である。 図3は、データ保持表の一例を示す図である。 図4は、現役割表の一例を示す図である。 図5は、次役割表の一例を示す図である。 図6は、目標役割表の一例を示す図である。 図7は、データストア部に記憶されているデータ集合の一例を示す図である。 図8は、レプリケーション処理を説明するための図である。 図9は、短期同期処理を説明するための図である。 図10は、長期同期処理を説明するための図である。 図11は、ノードに割り当てられる役割の遷移を示す図である。 図12は、管理装置のクラスタ管理部の処理フローを示す図である。 図13は、管理装置の第1割当部による次役割表の算出処理のフローを示す図である。 図14は、管理装置の第2割当部による目標役割表の算出処理のフローを示す図である。 図15は、ノードのアクセス処理部の処理フローを示す図である。 図16は、ノードのノード管理部の処理フローを示す図である。 図17は、ノードの転送部の処理フローを示す図である。 図18は、3つのパーティション#1~#3のそれぞれに対して、オーナーおよびバックアップとなるノードを割り当てた場合の、ノード30-Aからノード30-Cのそれぞれの状態を示す図である。 図19は、図18の状態からノード30-Cに障害が発生したことに応じて短期同期処理を実行した後の、ノード30-Aからノード30-Cのそれぞれの状態を示す図である。 図20は、図19の状態から実行される長期同期処理の一例を示す図である。 図21は、図20の長期同期処理が完了したことに応じて短期同期処理を実行した後の、ノード30-Aからノード30-Cのそれぞれの状態を示す図である。 図22は、図21の状態からノード30-Dを追加した場合の、ノード30-Aからノード30-Dのそれぞれの状態を示す図である。 図23は、図22の状態から実行される長期同期処理の一例を示す図である。 図24は、図23の長期同期処理が完了したことに応じて短期同期処理を実行した後の、ノード30-Aからノード30-Dのそれぞれの状態を示す図である。
 図1は、実施形態に係るデータベースシステム10のハードウェア構成を示す図である。データベースシステム10は、外部のコンピュータであるクライアントからデータベースに対するアクセス要求(例えば、参照、更新または登録)をネットワークを介して受信し、受信したアクセス要求に応じた処理を実行する。
 データベースシステム10は、管理装置20と、複数のノード30とを備える。管理装置20および複数のノード30は、ネットワークを介して互いに接続される。なお、図1には2個のノード30が示されているが、データベースシステム10は、3個以上のノード30を備えてもよい。
 データベースシステム10は、一例として、分散キーバリュー型データベースをシェアードナッシング型のデータベースに適用したスケールアウトが可能なデータベースシステムである。このようなデータベースシステム10は、複数のノード30にデータ集合が分散されているが、外部のコンピュータであるクライアントから巨大な一つのデータベースとしてアクセスされる。
 管理装置20および複数のノード30のそれぞれは、互いにハードウェア的に独立したコンピュータである。複数のノード30のそれぞれは、クライアントからのアクセス要求を独立に受け付け、アクセス要求に応じた処理を独立にすることができる。
 管理装置20および複数のノード30のそれぞれは、一例として、CPU(Central Processing Unit)12、メモリ13、通信I/F14およびストレージI/F15を有する。また、管理装置20および複数のノード30のそれぞれは、ストレージI/F15を介して外部記憶装置16に接続される。なお、外部記憶装置16は、ノード30の内部に設けられていてもよい。
 また、データベースシステム10は、データベースを複数のパーティションに分割して記憶する。パーティションの数は、予め定められている。データベースを分割する方法は、予め定められた方法であれば、どのような方法であってもよい。
 複数のノード30のそれぞれは、複数のパーティションのそれぞれ毎に、オーナーとしての役割を担うか、バックアップとしての役割を担うか、または、オーナーおよびバックアップの何れの役割も担わないかが割り当てられる。
 オーナーは、対応するパーティションのデータ集合を記憶して、対応するパーティションのデータ集合へのクライアントからのアクセス要求を受け付けて処理する。また、バックアップは、対応するパーティションのデータ集合を記憶して、例えばオーナーに障害が発生したときに、代わってオーナーの役割を担えるように、オーナーをバックアップする。なお、オーナーおよびバックアップと呼ばずに、マスターおよびスレーブと呼ばれる場合もある。
 管理装置20は、複数のノード30を管理する。管理装置20は、一例として、複数のパーティションのそれぞれ毎に、オーナーとするノード30およびバックアップとするノード30を割り当てる。
 この場合において、管理装置20は、何れかのノード30の故障によっても可能な限りデータベースが復元されるように冗長度を予め定められた範囲で持たせるように、バックアップとするノード30を割り当てる。さらに、管理装置20は、データベースに含まれるデータ集合が複数のノード30に分散して配置されるように、オーナーおよびバックアップとするノード30を割り当てる。
 なお、管理装置20は、何れかのノード30に設けられてもよい。また、管理装置20として機能するノード30は、任意のアルゴリズムにより選択されてもよい。また、管理装置20として機能するノード30に障害が発生した場合には、他のノード30が管理装置20として機能してもよい。
 このようなデータベースシステム10は、複数のノード30のうち何れかのノード30に障害が発生した場合には、障害が発生したノード30を切り離すことができる。また、データベースシステム10は、新たにノード30を追加して、データベースの性能を向上させることができる。
 図2は、実施形態に係るデータベースシステム10の機能構成を示す図である。
 管理装置20は、表記憶部21と、第1割当部22と、第2割当部23と、クラスタ管理部24とを有する。第1割当部22、第2割当部23およびクラスタ管理部24は、管理装置20のCPU12がプログラムを実行することにより実現される。また、第1割当部22、第2割当部23およびクラスタ管理部24は、一部または全部がハードウェア回路で実現されてもよい。また、表記憶部21は、管理装置20のメモリ13または外部記憶装置16により実現される。
 表記憶部21は、複数のパーティションのそれぞれに対する複数のノード30のそれぞれの役割を定めるための4つの表を記憶する。4つの表のそれぞれは、テーブル形式のデータであってもよいし、テーブル形式以外のデータであってもよい。
 具体的には、表記憶部21は、データ保持表、現役割表、次役割表および目標役割表を記憶する。
 データ保持表は、複数のパーティションのそれぞれに対する、複数のノード30のそれぞれのタイムスタンプを格納する。タイムスタンプは、対応するノード30が記憶している対応するパーティションのデータ集合の更新履歴を表す。タイムスタンプは、一例として、データ集合が更新される毎にインクリメントされる値である。従って、あるパーティションにおけるタイムスタンプの最も大きいノード30は、そのパーティションの最新のデータ集合を記憶しているノード30であることを意味する。
 なお、データベースのサイズが時間とともに増加していく場合、データ保持表は、タイムスタンプに代えて、対応するノード30が記憶している対応するパーティションのデータ集合のサイズまたはデータ数等を格納してもよい。
 データ保持表は、一例として、図3に示されるように、行によりノード30が特定され、列によりパーティションが特定される。この場合、データ保持表は、行および列が直交するそれぞれのセルに、その行により特定されるノード30が記憶している、その列により特定されるパーティションのデータ集合のタイムスタンプを格納する。
 現役割表は、複数のパーティションのそれぞれに対する、複数のノード30のそれぞれに割り当てられたデータベースでの役割を格納する。具体的には、現役割表は、複数のパーティションのそれぞれに対して、複数のノード30のそれぞれがオーナーとして割り当てられているか、バックアップとして割り当てられているか、または、オーナーとしてもバックアップとしても割り当てられていないかを格納する。
 現役割表は、一例として、図4に示されるように、行によりノード30が特定され、列によりパーティションが特定される。この場合、現役割表は、行および列が直交する位置のそれぞれのセルに、その列により特定されるパーティションに対する、その行により特定されるノード30に割り当てられた役割を格納する。なお、図面には、オーナーとしての役割が割り当てられていることを“OWNER”または“O”と記載し、バックアップとしての役割が割り当てられていることを“BACKUP”または“B”を記載し、オーナーにもバックアップにも割り当てられていないことを“None”または“N”を記載し若しくは空白とする。
 次役割表は、複数のパーティションのそれぞれに対する、複数のノード30のそれぞれに次に割り当てられる役割を格納する。すなわち、次役割表は、複数のパーティションのそれぞれに対して、複数のノード30のそれぞれが、次に、オーナーとして割り当てられているか、バックアップとして割り当てられているか、または、オーナーとしてもバックアップとしても割り当てられていないかを格納する。次役割表は、例えばノード30に障害が発生したり新たなノード30が追加されたりした場合等に、現役割表と置き換えられる表である。
 次役割表は、一例として、図5に示されるように、行によりノード30が特定され、列によりパーティションが特定される。この場合、次役割表は、行および列が直交する位置のそれぞれのセルに、その列により特定されるパーティションに対する、その行により特定されるノード30に割り当てられた次の役割を格納する。
 目標役割表は、複数のパーティションのそれぞれに対する、複数のノード30のそれぞれに割り当てられたバックアップの候補としての役割を格納する。バックアップの候補は、将来、そのパーティションに対して、そのノード30がオーナーまたはバックアップとしての役割を担うための準備をする役割である。なお、本実施形態の説明では、役割の名称を「バックアップの候補」としているが、バックアップの候補に割り当てられたノード30が、将来、オーナーとなってもよい。
 目標役割表は、一例として、図6に示されるように、行によりノード30が特定され、列によりパーティションが特定される。この場合、目標役割表は、行および列が直交する位置のそれぞれのセルに、その列により特定されるパーティションに対する、その行により特定されるノード30に割り当てられたバックアップの候補としての役割を格納する。なお、図面には、バックアップの候補としての役割が割り当てられている場合には“MID-BACKUP”または“M”を記載し、バックアップの候補として割り当てられていない場合には空白とする。
 第1割当部22は、複数のノード30のそれぞれの状況の変更に応じて、複数のパーティションのそれぞれに対して、オーナーとなるノード30、および、バックアップとなるノード30を割り当てる。また、例えば、複数のノード30のうちの何れかのノード30で障害が発生した場合、第1割当部22は、障害が発生したノード30を除いてオーナーおよびバックアップとなるノード30を再度割り当てる。
 また、新たなノード30が追加された場合、第1割当部22は、複数のパーティションのそれぞれに対して、新たなノード30を含めてオーナーおよびバックアップとなるノード30を再度割り当てる。また、バックアップの候補として割り当てられたノード30へのデータ集合の送信が完了したことによりオーナーまたはバックアップとなることができるノード30が新たに発生した場合、第1割当部22は、複数のパーティションのそれぞれに対してオーナーおよびバックアップとなるノード30を再度割り当てる。
 ここで、第1割当部22は、複数のパーティションの全てに対して、少なくともオーナーが存在するように、オーナーおよびバックアップとなるノード30を割り当てる。これにより、第1割当部22は、少なくともデータベースを機能させることができる。
 また、第1割当部22は、少なくともデータベースを機能させることを条件として、予め定められた範囲内の冗長度を有するように、複数のパーティションのそれぞれに対してオーナーおよびバックアップとなるノード30を割り当てる。これにより、第1割当部22は、何れかのノード30に障害が発生しても、少なくともデータベースを機能させることができる可能性を高くすることができる。
 また、第1割当部22は、少なくともデータベースを機能させ且つ予め定められた範囲内の冗長度を有する条件として、オーナーおよびバックアップが複数のノード30のそれぞれに分散するように、複数のパーティションのそれぞれに対してオーナーおよびバックアップとなるノード30を割り当てる。これにより、第1割当部22は、複数のノード30のそれぞれの処理の負荷を均等とすることができる。
 なお、本例においては、第1割当部22は、次役割表を計算することにより、オーナーおよびバックアップとなるノード30を割り当てる。第1割当部22による次役割表の算出方法の一例については、図13を参照して後で説明する。
 第2割当部23は、複数のノード30の状況および現割当表により割り当てられるオーナーおよびバックアップの割り当て状況の変更に応じて、複数のパーティションのそれぞれに対して、バックアップの候補となるノード30を割り当てる。また、例えば複数のノード30のうちの何れかのノード30で障害が発生した場合、第2割当部23は、障害が発生したノード30を除いてバックアップの候補となるノード30を再度割り当てる。また、例えば、新たなノード30が追加された場合、第2割当部23は、複数のパーティションのそれぞれに対して、新たなノード30を含めてバックアップの候補となるノード30を再度割り当てる。
 ここで、第2割当部23は、将来において予め定められた範囲内の冗長度を有するように、複数のパーティションのそれぞれに対してバックアップの候補となるノード30を割り当てる。これにより、第2割当部23は、将来において何れかのノード30に障害が発生しても、少なくともデータベースを機能させることができる可能性を高くすることができる。
 また、第2割当部23は、将来においてオーナーおよびバックアップが複数のノード30のそれぞれに分散して割り当てられるように、複数のパーティションのそれぞれに対してバックアップの候補となるノード30を割り当てる。これにより、第2割当部23は、将来において複数のノード30のそれぞれの処理の負荷を均等とすることができる。
 なお、本例においては、第2割当部23は、目標役割表を計算することにより、バックアップの候補となるノード30を割り当てる。第2割当部23による目標役割表の算出方法の一例については、図14を参照して後で説明する。
 クラスタ管理部24は、複数のノード30のそれぞれとネットワークを介してメッセージをやり取りして、複数のノード30のそれぞれを管理する。例えば、クラスタ管理部24は、一定時間毎に、ハートビートと呼ばれるメッセージを複数のノード30のそれぞれとやり取りする。そして、クラスタ管理部24は、ハートビートの返信の有無によって、障害が発生したノード30を特定する。
 また、クラスタ管理部24は、定期的に、複数のノード30のそれぞれからデータ保持表を受信する。そして、クラスタ管理部24は、全てのノード30から受信したデータ保持表をまとめて表記憶部21に記憶させる。また、クラスタ管理部24は、データ保持表が受信できたか否かによって、障害が発生したノード30を特定する。
 また、クラスタ管理部24は、起動時に、第1割当部22に次役割表を算出させ、算出させた次役割表を複数のノード30のそれぞれに配布することにより複数のノード30のそれぞれに割り当てに応じた動作を指示する。また、クラスタ管理部24は、定期的に、第1割当部22に次役割表を算出させる。そして、クラスタ管理部24は、算出させた次役割表が現役割表から変化した場合、算出させた次役割表を複数のノード30のそれぞれに配布することにより複数のノード30のそれぞれに割り当てに応じた動作を指示する。そして、クラスタ管理部24は、次役割表を配布後、表記憶部21に記憶されている現役割表を、次役割表の内容に更新する。
 例えば、何れかのノード30に障害が発生した場合、新たなノード30の追加があった場合、または、候補として割り当てられたノード30へのデータ集合の送信が完了してバックアップとして割り当て可能なノード30が発生した場合、第1割当部22は、算出した次役割表が現役割表から変化する。従って、クラスタ管理部24は、このような場合、次役割表を複数のノード30のそれぞれに配布する。
 また、クラスタ管理部24は、定期的に、第2割当部23に目標役割表を算出させ、算出した目標役割表を複数のノード30のそれぞれに配布する。クラスタ管理部24は、目標役割表を配布することにより、複数のノード30のそれぞれに対して、候補として割り当てられたノード30にオーナーまたはバックアップとして動作させるための準備を指示する。なお、クラスタ管理部24は、次役割表と目標役割表とを異なる周期で算出させる。
 複数のノード30のそれぞれは、データストア部31と、表記憶部32と、アクセス処理部33と、ノード管理部34と、転送部35とを有する。アクセス処理部33、ノード管理部34および転送部35は、ノード30のCPU12がプログラムを実行することにより実現される。また、アクセス処理部33、ノード管理部34および転送部35は、一部または全部がハードウェア回路で実現されてもよい。データストア部31および表記憶部32は、ノード30のメモリ13または外部記憶装置16により実現される。
 データストア部31は、データベースを分割した複数のパーティションのうち、自ノードが現役割表によりオーナーまたはバックアップに割り当てられたパーティションのデータ集合を記憶する。例えば、図7に示されるように、3つに分割されたパーティション#1~#3のうち、自ノードが、パーティション#1に対してオーナーに割り当てられ、パーティション#3に対してバックアップに割り当てられているとする。この場合、データストア部31は、パーティション#1およびパーティション#3のデータ集合を記憶する。
 また、ノード30は、目標役割表によりバックアップの候補に割り当てられたパーティションについては、そのパーティションのオーナーに割り当てられたノード30からデータ集合を受信する。データストア部31は、自ノードが目標役割表によりバックアップの候補に割り当てられたパーティションのデータ集合における、オーナーのノード30から受信済みの一部または全部を記憶する。
 表記憶部32は、データ保持表の自ノードに対応する部分を記憶する。また、表記憶部32は、現役割表、次役割表および目標役割表を記憶する。現役割表は、次役割表を受信した場合、次役割表の内容に書き換えられる。目標役割表は、定期的に受信する目標役割表が変化した場合には、変化後の内容に書き換えられる。
 アクセス処理部33は、クライアントからのアクセス要求をネットワークを介して受信する。そして、アクセス処理部33は、複数のパーティションのそれぞれに対して、現役割表により自ノードに対して割り当てられた役割に応じた処理を実行する。
 具体的には、アクセス処理部33は、現役割表によりオーナーとして割り当てられたパーティションに対するクライアントからのアクセス要求を受け付けて、そのアクセス要求に応じた処理を実行する。アクセス処理部33は、一例として、参照要求を受け付けた場合には、そのパーティションのデータ集合の中の対応するデータを読み出してクライアントに送信する。また、アクセス処理部33は、一例として、更新要求を受け付けた場合には、そのパーティションのデータ集合の対応するデータを更新する。また、アクセス処理部33は、一例として、登録要求を受け付けた場合には、そのパーティションのデータ集合に新たなデータを登録する。
 なお、アクセス処理部33は、一連のアクセス要求を含むトランザクションを受け付けてもよい。この場合、アクセス処理部33は、クライアントからの一連のアクセス要求をトランザクション処理により実行する。
 また、アクセス処理部33は、更新要求および登録要求を処理した場合には、現役割表によりそのパーティションについてバックアップに割り当てられたノード30との間でレプリケーション処理を実行する。レプリケーション処理とは、バックアップに割り当てられたノード30に、オーナーに割り当てられたノード30に記憶されているデータ集合のレプリカ(複製)を生成するための処理である。
 具体的には、図8に示されるように、アクセス処理部33は、自ノードがオーナーに割り当てられたパーティションに対する更新または登録の要求を受け付けた場合、同一のアクセス要求をバックアップとして割り当てられた他のノード30へと送信する。そして、他のノード30のアクセス処理部33は、バックアップとして割り当てられたパーティションに対する、オーナーとして割り当てられたノード30から更新または登録の要求を受け付けて、その要求に応じた更新または登録の処理を実行する。
 アクセス処理部33は、このようなレプリケーション処理をすることにより、オーナーとして割り当てられたノード30とバックアップとして割り当てられたノード30との間で、データ集合の同期を取ることができる。
 なお、オーナーとして割り当てられたノード30のアクセス処理部33は、レプリケーション処理を実行する場合において、一連のアクセス要求を含むトランザクションを送信してもよい。この場合、バックアップとして割り当てられたノード30のアクセス処理部33は、レプリケーション処理をトランザクション処理により実行する。
 また、アクセス処理部33は、更新要求および登録要求を処理した場合には、表記憶部32に記憶されたデータ保持表の対応するパーティションのタイムスタンプを更新する。
 ノード管理部34は、管理装置20のクラスタ管理部24とネットワークを介してメッセージをやり取りする。ノード管理部34は、クラスタ管理部24からハートビートと呼ばれるメッセージを受信したことに応じて、自ノードに障害が発生していければ応答メッセージを送信する。また、ノード管理部34は、定期的に、表記憶部32に記憶されているデータ保持表をクラスタ管理部24へと送信する。
 また、ノード管理部34は、クラスタ管理部24から次役割表を受信し、受信した次役割表を表記憶部32に記憶させる。そして、次役割表を受信した場合には、ノード管理部34は、図9に示されるように、次役割表により割り当てられた役割で複数のノード30のそれぞれを動作させるためにクライアントからのアクセス要求に応じた処理を一時的に中断して行う同期処理である、短期同期処理を実行する。
 具体的には、ノード管理部34は、複数のパーティションのそれぞれに対して、次役割表により示された役割で複数のノード30のそれぞれを動作させるために、アクセス処理部33にレプリケーション処理と同様の処理を実行させる。これにより、ノード管理部34は、複数のパーティションのそれぞれに対して、オーナーとして割り当てられたノード30とバックアップとして割り当てられたノード30との間のデータ集合の同期を取ることができる。そして、データ集合の同期をとった後に、ノード管理部34は、アクセス処理部33に、現役割表を次役割表の内容に書き換えて、複数のパーティションのそれぞれに対する次役割表により割り当てられた新たな役割に応じた処理を実行させる。
 そして、ノード管理部34は、短期同期処理が完了すると、現役割表の内容を次役割表の内容に更新する。以後、アクセス処理部33は、クライアントからのアクセス要求を受け付けることができる。
 また、ノード管理部34は、クラスタ管理部24から目標役割表を定期的に受信し、受信した目標役割表を表記憶部32に記憶させる。
 転送部35は、図10に示されるように、目標役割表により割り当てられた役割で複数のノード30のそれぞれを動作させるためにクライアントからのアクセス要求に対する処理を中断させずに行う同期処理である、長期同期処理を実行する。具体的には、転送部35は、自ノードが現役割表によりオーナーとして割り当てられたパーティションのデータ集合を、目標役割表によりバックアップの候補として割り当てられており且つ現役割表によりオーナーにもバックアップにも割り当てられていない他のノード30に、アクセス要求に対する処理を中断させずに送信する。また、転送部35は、自ノードが目標役割表によりバックアップの候補として割り当てられており且つ現役割表によりオーナーにもバックアップにも割り当てられていないパーティションのデータ集合を、現役割表によりオーナーとして割り当てられた他のノード30から、アクセス要求に対する処理を中断させずに受信する。
 転送部35は、このような長期同期処理を実行することにより、オーナーに割り当てられたノード30に記憶されたデータ集合のレプリカを、オーナーまたはバックアップに割り当てられていないノード30に記憶させることができる。これにより、転送部35は、長期同期処理が完了した後において、オーナーまたはバックアップとなることができるノード30を新たに生成することができる。
 ここで、長期同期処理を実行する場合において、転送部35は、オーナーに割り当てられたパーティションのデータ集合を、アクセス処理部33によるトランザクションの実行を妨害しないバックグラウンドで、バックアップの候補として割り当てられたノード30に送信する。また、転送部35は、バックアップの候補として割り当てられたパーティションのデータ集合を、バックグラウンドで、オーナーに割り当てられたノード30から受信する。なお、バックグラウンドでの処理とは、一例として、ノード30が複数のCPU12を備える場合にはトランザクション処理を実行していない一部のCPU12を用いて実行する処理である。また、バックグラウンドでの処理とは、一例として、CPU12が時分割処理をしている場合にはCPU12がトランザクション処理を実行していない一部の時間帯で実行する処理である。これにより、転送部35は、クライアントからのアクセス要求に対する応答速度等の低下を招くことなく、長期同期処理を実行することができる。
 また、転送部35は、現役割表で自ノードがバックアップに割り当てられたパーティションのデータ集合を、目標役割表によりバックアップの候補に割り当てられており且つオーナーにもバックアップにも割り当てられていない他のノード30に対して送信してもよい。この場合、転送部35は、他のノード30から同一のデータ集合が送信されていないことを条件として処理をする。
 図11は、ノード30に割り当てられる役割の遷移を示す図である。ノード30は、複数のパーティションのそれぞれに対して、“オーナー”、“バックアップ”または“バックアップの候補”が割り当てられた状態、または、何れの役割も割り当てられていない“無し”状態のいずれかに遷移する。
 ノード30は、“無し”状態と“オーナー”状態との間を、短期同期処理により相互に遷移する。また、ノード30は、“オーナー”状態と“バックアップ”状態との間を、短期同期処理により相互に遷移する。また、ノード30は、“バックアップ”状態から“無し”状態へと、短期同期処理により遷移する。
 また、ノード30は、“無し”状態と“バックアップの候補”状態との間を、長期同期処理により相互に遷移する。そして、ノード30は、“バックアップの候補”状態から“バックアップ”状態へと、短期同期処理により遷移する。
 図12は、管理装置20のクラスタ管理部24の処理フローを示す図である。クラスタ管理部24は、以下のステップS111~ステップS142の処理を実行する。
 まず、ステップS111において、クラスタ管理部24は、データ保持表の受信イベント、第1の定周期イベントまたは第2の定周期イベントを検出する。データ保持表の受信イベントは、複数のノード30のそれぞれから送信されたデータ保持表をクラスタ管理部24が受信した場合に発生する。第1の定周期イベントおよび第2の定周期イベントは、それぞれ定期的に発生する。ただし、第1の定周期イベントと第2の定周期イベントとの発生間隔は、互いに異なる。
 クラスタ管理部24は、データ保持表の受信イベントを検出した場合には、処理をステップS121に進める。クラスタ管理部24は、第1の定周期イベントを検出した場合には、処理をステップS131に進める。クラスタ管理部24は、第2の定周期イベントを検出した場合には、処理をステップS141に進める。
 データ保持表の受信イベントを検出した場合、ステップS121において、クラスタ管理部24は、起動してから最初のデータ保持表の受信イベントであるか否かを判断する。
 起動してから最初のデータ保持表の受信イベントである場合(ステップS121のYes)、クラスタ管理部24は、処理をステップS122に進める。ステップS122において、クラスタ管理部24は、受信したデータ保持表を表記憶部21に登録する。
 続いて、ステップS123において、クラスタ管理部24は、次役割表を第1割当部22に算出させる。なお、第1割当部22による次役割表の算出処理については、図13を参照して説明する。
 続いて、ステップS124において、クラスタ管理部24は、算出した次役割表を複数のノード30のそれぞれに配布する。そして、クラスタ管理部24は、ステップS124の処理を終えると、処理をステップS111に戻す。
 また、起動してから最初のデータ保持表の受信イベントではない場合(ステップS121のNo)、ステップS125において、クラスタ管理部24は、表記憶部21のデータ保持表を更新する。そして、クラスタ管理部24は、ステップS125の処理を終えると、処理をステップS111に戻す。
 一方、第1の定周期イベントを検出した場合、ステップS131において、クラスタ管理部24は、前回の第1の定周期イベントから今回の第1の定周期イベントまでの間に、複数のノード30の全てからデータ保持表が受信できたか否かを判断する。クラスタ管理部24は、複数のノード30の全てからデータ保持表を受信できた場合(ステップS131のYes)、処理をステップS134に進める。クラスタ管理部24は、何れかのノード30からデータ保持表を受信できなかった場合(ステップS131のNo)、処理をステップS132に進める。
 ステップS132において、クラスタ管理部24は、データ保持表を受信できなかったノード30をデータベースシステム10から切り離す処理を行う。続いて、ステップS133において、クラスタ管理部24は、切り離したノード30の内容をデータ保持表から削除して、データ保持表を更新する。クラスタ管理部24は、ステップS133の処理を終えると、処理をステップS134に進める。
 ステップS134において、クラスタ管理部24は、次役割表を第1割当部22に算出させる。なお、第1割当部22による次役割表の算出処理については、図13を参照して説明する。
 続いて、ステップS135において、クラスタ管理部24は、次役割表が変化したか否かを判断する。例えば、障害が発生したノード30を切り離した場合、新たなノード30が追加された場合、または、長期同期処理が完了してバックアップとして割り当てられるノード30が変更する場合に、次役割表が変化する。
 次役割表が変化していない場合(ステップS135のNo)、クラスタ管理部24は、処理をステップS111に戻す。次役割表が変化した場合(ステップS135のYes)、ステップS136において、クラスタ管理部24は、変化後の次役割表を複数のノード30のそれぞれに配布する。そして、クラスタ管理部24は、ステップS136の処理を終えると、処理をステップS111に戻す。
 また、一方、第2の定周期イベントを検出した場合、ステップS141において、クラスタ管理部24は、目標役割表を第2割当部23に算出させる。なお、第2割当部23による目標役割表の算出処理については、図14を参照して説明する。
 続いて、ステップS142において、クラスタ管理部24は、算出した目標役割表を複数のノード30のそれぞれに配布する。そして、クラスタ管理部24は、ステップS142の処理を終えると、処理をステップS111に戻す。
 図13は、管理装置20の第1割当部22による次役割表の算出処理のフローを示す図である。第1割当部22は、図12のステップS123およびステップS134でクラスタ管理部24に呼び出されて、以下のステップS211~ステップS220の処理を実行する。
 まず、ステップS211において、第1割当部22は、次役割表を初期化する。このとき、第1割当部22は、次役割表の複数のノード30のそれぞれをデータ保持表のノード30に対応付ける。これにより、第1割当部22は、障害発生により切り離されたノード30および新たに追加されたノード30を、次役割表に反映することができる。
 続いて、ステップS212とステップS220の間において、第1割当部22は、パーティション毎にループ処理を実行する。例えば、第1割当部22は、データベースを第1から第3のパーティションに分割する場合には、第1のパーティション、第2のパーティションおよび第3のパーティションのそれぞれを対象として、ステップS212からステップS220の処理を実行する。
 パーティション毎のループ処理内では、まず、ステップS213において、第1割当部22は、対象のパーティションについて、データ保持表で最大のタイムスタンプを有するノード30の集合を選択する。本例において、タイムスタンプは、対象のパーティションのデータ集合が更新される毎に1ずつインクリメントされる値である。従って、ステップS213では、第1割当部22は、対象のパーティションについて、最新のデータ集合を記憶しているノード30の集合を選択することができる。
 続いて、ステップS214において、第1割当部22は、ステップS213で選択したノード30の集合の中から、次役割表でオーナーおよびバックアップとして割り当てられたパーティションの数が最も少ない1つのノード30を選択して、選択したノード30をオーナーとして割り当てる。これにより、第1割当部22は、最新のデータ集合を記憶しているノード30の集合のうち負荷の最も小さいノード30をオーナーとして割り当てることができる。
 なお、オーナーおよびバックアップとして割り当てられたパーティションの数が最も少ないノード30が複数個存在する場合には、第1割当部22は、演算能力の高いノード30を演算能力の低いノード30よりも優先的にオーナーとして割り当ててもよい。これに代えて、第1割当部22は、アクセス要求を受け付ける数が少ないノード30をアクセス要求を受け付ける数が多いノード30よりも優先的にオーナーとして割り当ててもよい。
 続いて、ステップS215において、第1割当部22は、対象のパーティションについて、オーナーとして割り当てたノード30を除いて、最大のタイムスタンプからの差が一定の範囲内のタイムスタンプを有するノード30の集合を選択する。これにより、第1割当部22は、対象のパーティションについて、最新のデータ集合または最新のデータ集合に比較的近いデータ集合を記憶しているノード30の集合を選択することができる。
 続いて、ステップS216とステップS219との間において、第1割当部22は、レプリケーションの数分、ループ処理を実行する。ここで、レプリケーションの数とは、オーナーに割り当てられたノード30との間でレプリケーション処理が可能な最大のノード30の数をいう。すなわち、レプリケーションの数は、割り当てが可能なバックアップの数と同一である。
 レプリケーションの数分のループ処理内では、まず、ステップS217において、第1割当部22は、ステップS215で選択したノード30の集合の中に、バックアップとして割り当て可能なノード30が存在するか否かを判断する。バックアップとして割り当て可能なノード30が存在する場合(ステップS217のYes)、第1割当部22は、処理をステップS218に進める。
 バックアップとして割り当て可能なノード30が無い場合(ステップS217のNo)、第1割当部22は、レプリケーションの数分のループ処理を強制的に抜けて、処理をステップS220に進める。すなわち、従って、第1割当部22は、バックアップが存在しなかったり、バックアップの数がレプリケーションの数未満であったりする次役割表を算出する場合もある。
 ステップS218において、第1割当部22は、ステップS215で選択したノード30の集合の中から、次役割表でオーナーおよびバックアップとして割り当てられたパーティションの数が最も少ないノード30を、バックアップとして割り当てる。これにより、第1割当部22は、最新のデータ集合または最新のデータ集合に近いデータを記憶しているノード30の集合のうち負荷の小さい順にバックアップとするノード30を割り当てることができる。
 なお、オーナーおよびバックアップとして割り当てられたパーティションの数が最も少ないノード30が複数個存在する場合には、第1割当部22は、演算能力の高いノード30を演算能力の低いノード30よりも優先的にバックアップとして割り当ててもよい。これに代えて、第1割当部22は、アクセス要求を受け付ける数が少ないノード30をアクセス要求を受け付ける数が多いノード30よりも優先的にバックアップとして割り当ててもよい。
 そして、第1割当部22は、選択したノード30の集合からバックアップとして割り当てたノード30を除いて、処理をステップS219に進める。ステップS219において、第1割当部22は、ステップS216からステップS219までの処理回数が、レプリケーションの数より少ない場合には処理をステップS216に戻し、レプリケーションの数に一致した場合には処理をステップS220に進める。
 続いて、ステップS220において、第1割当部22は、ステップS212からステップS220までの処理を全てのパーティションに対して実行していない場合には、処理をステップS216に戻す。そして、第1割当部22は、ステップS212からステップS220までの処理を全てのパーティションに対して実行した場合には、次役割表の算出を終了して本フローを抜ける。
 以上のように第1割当部22によれば、複数のパーティションの全てに対してオーナーとなるノード30を割り当てることにより、少なくともデータベースを機能させることができる。これとともに、第1割当部22によれば、可能な限りバックアップとなるノード30を割り当てることによりデータベースの冗長度を担保することができる。さらに、第1割当部22によれば、より負荷の小さいノード30から順にオーナーおよびバックアップとなるノード30を割り当てることにより、複数のノード30のそれぞれの負荷を均等にすることができる。
 図14は、管理装置20の第2割当部23による目標役割表の算出処理のフローを示す図である。第2割当部23は、図12のステップS141でクラスタ管理部24に呼び出されて、以下のステップS311~ステップS324の処理を実行する。
 まず、ステップS311において、第2割当部23は、目標役割表を初期化する。このとき、第2割当部23は、目標役割表の複数のノード30のそれぞれをデータ保持表のノード30に対応付ける。これにより、第2割当部23は、障害発生により切り離されたノード30および新たに追加されたノード30を、目標役割表に反映することができる。
 続いて、ステップS312において、第2割当部23は、現役割表のパーティションを、割り当てられたオーナーおよびバックアップの合計数で昇順にソートする。これにより、第2割当部23は、バックアップとして割り当てられたノード30が少ないパーティションから順に、バックアップの候補を割り当てることができる。すなわち、第2割当部23は、現役割表において、冗長度の少ないパーティションから順に、バックアップの候補となるノード30を割り当てることができる。
 続いて、ステップS313において、第2割当部23は、複数のノード30のそれぞれに対応する負荷値を初期化する。負荷値は、ノード30にバックアップの候補の役割を割り当てたことに応じて増加する値である。第2割当部23は、一例として、それぞれの負荷値を“0”に初期化する。
 続いて、ステップS314とステップS324の間において、第2割当部23は、パーティション毎にループ処理を実行する。この場合において、第2割当部23は、ステップS312で並べ替えられた現役割表のパーティションの順で対象のパーティションを選択して、ループ処理を実行する。
 パーティション毎のループ処理内では、まず、ステップS315において、第2割当部23は、対象のパーティションについて、データ保持表で最大のタイムスタンプのノード30を選択する。
 続いて、ステップS316において、第2割当部23は、現役割表のノード30を、値Vで降順にソートする。ここで、値Vは、オーナーとして割り当てられたノード30については“+1”、バックアップとして割り当てられたノード30については“+1”、および、最大のタイムスタンプのノード30については“+1”とされる値である。従って、オーナーでも無く、バックアップでもなく且つタイムスタンプも最大でないノード30の値Vは、“0”となる。
 これにより、第2割当部23は、オーナーおよびバックアップとして割り当てられたノード30または最新のデータ集合を記憶するノード30を先に、バックアップの候補となるノード30として割り当てることができる。
 なお、値Vが同一のノード30が複数個並んでいる場合には、第2割当部23は、演算能力の高いノード30が先にバックアップの候補となるように上位に配置する。これにより、第2割当部23は、演算能力の高いノード30が演算能力の低いノード30よりも優先的にオーナーまたはバックアップとなるように、バックアップの候補となるノード30を割り当てることができる。これに代えて、第2割当部23は、アクセス要求を受け付ける数が少ないノード30が先にバックアップの候補となるように上位に配置してもよい。これにより、第2割当部23は、アクセス要求を受け付ける数が少ないノード30がアクセス要求を受け付ける数が多いノード30よりも優先的にオーナーまたはバックアップとなるように、バックアップの候補となるノード30を割り当てることができる。
 続いて、ステップS317において、第2割当部23は、定数である上限重みMLOADを下記の式(1)により算出する。
MLOAD={パーティションの数×(レプリケーション数+1)+(ノード数-1)}÷ノード数 …(1)
 ここで、(レプリケーション数+1)は、1つのパーティションに対して割り当てること可能な、オーナーおよびバックアップの最大数を表す。このような、上限重みMLOADは、1つのノード30にバックアップの候補として割り当てられることができる数の上限の基準を表す。
 続いて、ステップS318とステップS323の間において、第2割当部23は、ノード30毎にループ処理を実行する。この場合において、第2割当部23は、ステップS316で並べ替えられた現役割表の順序で対象のノード30を選択して、ループ処理を実行する。
 ノード30毎のループ処理内では、まず、ステップS319において、第2割当部23は、(レプリケーションの数+1)個分のノード30に、バックアップの候補となるノード30を割り当てたか否かを判断する。(レプリケーションの数+1)個分のノード30にバックアップの候補を割り当てた場合には(ステップS319のYes)、処理をステップS324に進める。この場合、第2割当部23は、対象のパーティションに対してバックアップの候補となるノード30を最大数割り当ている。
 第2割当部23は、(レプリケーションの数+1)個分のノード30にバックアップの候補を割り当てていない場合には(ステップS319のNo)、処理をステップS320に進める。
 ステップS320において、第2割当部23は、対象となるノード30の負荷値が、上限重みMLOADより小さいかを判断する。対象となるノード30の負荷値が上限重みMLOADより小さい場合には(ステップS320のYes)、第2割当部23は、処理をステップS321に進める。
 対象となるノード30の負荷値が上限重みMLOAD以上の場合には(ステップS320のNo)、第2割当部23は、処理をステップS323に進める。これにより、第2割当部23は、ある一つのノード30にバックアップの候補としての役割を基準値以上割り当てた場合には、そのノード30をこれ以上バックアップの候補として割り当てることを回避することができる。この結果、第2割当部23は、複数のノード30にバックアップの候補としての役割を分散して割り当てることができる。
 ステップS321において、第2割当部23は、対象のパーティションに対して対象のノード30をバックアップの候補として割り当てる。続いて、ステップS322において、第2割当部23は、対象のノード30の負荷値に“1”を加算することにより更新する。これにより、第2割当部23は、候補として割り当てられる毎にノード30の負荷値を1ずつ増加させることができる。第2割当部23は、ステップS322の処理を終えると、処理をステップS323に進める。
 続いて、ステップS323において、第2割当部23は、ステップS318からステップS323までの処理を複数のノード30の全てに対して実行していない場合には、処理をステップS318に戻す。また、第2割当部23は、ステップS318からステップS223までの処理を複数のノード30の全てに対して実行した場合には、処理をステップS324に進める。
 続いて、ステップS324において、第2割当部23は、ステップS314からステップS324までの処理を複数のパーティションの全てに対して実行していない場合には、処理をステップS314に戻す。そして、第2割当部23は、ステップS314からステップS324までの処理を複数のパーティションの全てに対して実行した場合には、目標役割表の算出を終了して本フローを抜ける。
 以上のように第2割当部23によれば、冗長度の少ない(すなわち、割り当てられたバックアップの数が少ない)パーティションから順に、バックアップの候補を割り当てるので、効率良くデータベースの冗長度を確保することができる。さらに、第2割当部23によれば、割り当てたバックアップの候補の数が基準値以上となったノード30に対してさらにバックアップの候補を割り当てないので、複数のノード30に分散してバックアップの候補を割り当てることができる。
 図15は、ノード30のアクセス処理部33の処理フローを示す図である。アクセス処理部33は、以下のステップS411~ステップS433の処理を実行する。
 まず、ステップS411において、アクセス処理部33は、クライアントからの要求受信イベントまたはレプリケーション処理による要求受信イベントを検出する。クライアントからの要求受信イベントは、データベースに対するアクセス要求をクライアントからネットワークを介して受信した場合に発生する。レプリケーション処理による要求受信イベントは、レプリケーション処理による更新要求または登録要求を、オーナーとなる他のノード30からネットワークを介して受信した場合に発生する。
 アクセス処理部33は、クライアントからの要求受信イベントを検出した場合には、処理をステップS421に進める。アクセス処理部33は、レプリケーション処理による要求受信イベントを検出した場合には、処理をステップS431に進める。
 クライアントからの要求受信イベントを検出した場合、ステップS421において、アクセス処理部33は、クライアントからのアクセス要求に示される要求先のパーティションの番号を例えば計算して取得する。続いて、ステップS422において、アクセス処理部33は、要求先のパーティションに対して自ノードがオーナーに割り当てられているか否かを現役割表を参照して判断する。
 要求先のパーティションに対して自ノードがオーナーに割り当てられていない場合には(ステップS422のNo)、ステップS423において、アクセス処理部33は、クライアントにオーナーに割り当てられたノード30の番号を通知して、処理をステップS411に戻す。
 要求先のパーティションに対して自ノードがオーナーに割り当てられている場合には(ステップS422のYes)、ステップS424において、アクセス処理部33は、アクセス要求のタイプが、参照であるか、更新または登録であるかを判断する。
 アクセス要求のタイプが参照である場合には(ステップS424の参照)、ステップS425において、アクセス処理部33は、参照要求のあったデータをデータストア部31から読み出してクライアントに送信し、処理をステップS411に戻す。
 アクセス要求のタイプが更新または登録である場合には(ステップS424の更新/登録)、ステップS426において、要求先のパーティションに対してバックアップとして割り当てられた他のノード30との間でレプリケーション処理を実行する。すなわち、アクセス処理部33は、クライアントから受信した更新または登録の要求と同一のアクセス要求をバックアップとして割り当てられたノード30へと送信する。
 レプリケーション処理が完了すると、続いて、ステップS427において、アクセス処理部33は、クライアントから送信された更新または登録要求に従って、データストア部31に記憶されているデータの更新またはデータストア部31に新たなデータの登録をする。続いて、ステップS428において、アクセス処理部33は、データ保持表のタイムスタンプを1インクリメントすることにより更新し、処理をステップS411に戻す。
 一方、アクセス処理部33は、レプリケーション処理による要求受信イベントを検出した場合、ステップS431において、オーナーとなるノード30から送信された更新または登録要求に従って、データストア部31に記憶されているデータの更新またはデータストア部31に新たなデータの登録をする。続いて、ステップS432において、アクセス処理部33は、データ保持表のタイムスタンプを1インクリメントすることにより更新する。続いて、ステップS433において、アクセス処理部33は、登録または更新が完了したことをオーナーに通知して、処理をステップS411に戻す。
 なお、アクセス処理部33は、ステップS425およびステップS428において、一連のアクセス要求を含むトランザクションをクライアントから受け付けて、クライアントからのアクセス要求に応じたトランザクション処理を実行してもよい。また、アクセス処理部33は、ステップS426において、レプリケーション処理により更新または登録の要求を送信する場合、バックアップとして割り当てられたノード30に一連のアクセス要求を含むトランザクションを送信してもよい。また、アクセス処理部33は、ステップS431において、一連のアクセス要求を含むトランザクションをオーナーとなるノード30から受け付けて、オーナーとなるノード30からのアクセス要求に応じたトランザクション処理を実行してもよい。
 図16は、ノード30のノード管理部34の処理フローを示す図である。ノード管理部34は、以下のステップS511~ステップS541の処理を実行する。
 まず、ステップS511において、ノード管理部34は、第3の定周期イベント、次役割表の受信イベントまたは目標役割表の受信イベントを検出する。第3の定周期イベントは、定期的に発生する。次役割表の受信イベントは、次役割表をノード管理部34が受信した場合に発生する。目標役割表の受信イベントは、目標役割表をノード管理部34が受信した場合に発生する。
 ノード管理部34は、第3の定周期イベントを検出した場合には、処理をステップS521に進める。ノード管理部34は、次役割表の受信イベントを検出した場合には、処理をステップS531に進める。ノード管理部34は、目標役割表の受信イベントを検出した場合には、処理をステップS541に進める。
 第3の定周期イベントを検出した場合、ステップS521において、ノード管理部34は、表記憶部32に記憶されているデータ保持表を管理装置20のクラスタ管理部24に送信する。そして、ノード管理部34は、処理をステップS511に戻す。
 次役割表の受信イベントを検出した場合、ステップS531において、ノード管理部34は、アクセス処理部33がトランザクションを実行中であれば、処理を中断させる。続いて、ステップS532において、ノード管理部34は、受信した次役割表に従って、短期同期処理を実行する。
 具体的には、ノード管理部34は、複数のパーティションのそれぞれに対して、オーナーとなるノード30とバックアップとなるノード30との間において記憶しているデータ集合に相違がある場合には、アクセス処理部33にレプリケーション処理と同様の処理を実行させる。これにより、ノード管理部34は、複数のパーティションのそれぞれに対して、オーナーとして割り当てられたノード30とバックアップとして割り当てられたノード30との間の同期を取ることができる。そして、ノード管理部34は、複数のパーティションのそれぞれに対して、次役割表により割り当てられた新たな役割(オーナーおよびバックアップ)に応じた処理をアクセス処理部33に実行させる。
 短期同期処理が完了すると、続いて、ステップS533において、ノード管理部34は、現役割表を、次役割表の内容に書き換える。これにより、アクセス処理部33は、クライアントからのアクセス要求を受け付けることができる。
 続いて、ステップS534において、ノード管理部34は、中断してトランザクションを再開させる。そして、ノード管理部34は、処理をステップS511に戻す。
 目標役割表の受信イベントを検出した場合、ステップS541において、ノード管理部34は、表記憶部32に記憶されている目標役割表を更新する。そして、ノード管理部34は、処理をステップS511に戻す。
 図17は、ノード30の転送部35の処理フローを示す図である。転送部35は、以下のステップS611~ステップS618の処理、および、ステップS621~ステップS622の処理を実行する。
 まず、ステップS611において、転送部35は、CPU12の負荷が予め定められた基準値より大きいか否かを判断する。負荷が基準値より大きい場合(ステップS611のYes)、ステップS612において、転送部35は、一定時間スリープしてから、処理をステップS611に戻す。
 負荷が基準値以下である場合(ステップS611のNo)、ステップS613において、転送部35は、現役割表と目標役割表との間の差を検出する。続いて、ステップS614において、転送部35は、現役割表と目標役割表との間に差があるか否かを判断する。
 現役割表と目標役割表との間に差が無い場合(ステップS614のNo)、ステップS615において、転送部35は、現役割表、次役割表および目標役割表の何れにも自ノードに役割が割り当てられていないパーティションがあれば、そのデータ集合を消去する。そして、転送部35は、ステップS615の処理の後、処理をステップS611に戻す。
 現役割表と目標役割表との間に差がある場合(ステップS614のYes)、ステップS616において、転送部35は、現役割表で自ノードがオーナーのパーティションについて、目標役割表ではバックアップの候補であり且つ現役割表ではオーナーでもバックアップでもない他のノード30を検出する。
 続いて、ステップS617において、転送部35は、目標役割表ではバックアップの候補であり、現役割表ではオーナーでもバックアップでもない他のノード30が存在するか否かを判断する。存在しない場合(ステップS617のNo)、転送部35は、処理をステップS611に戻す。
 存在する場合(ステップS617のYes)、ステップS618において、転送部35は、クライアントからのアクセス要求に対する処理を中断させずに、長期同期処理を開始する。具体的には、転送部35は、現役割表で自ノードがオーナーに割り当てられたパーティションについて、目標役割表によりバックアップの候補に割り当てられており且つ現役割表によりオーナーにもバックアップにも割り当てられていない他のノード30に対して、そのパーティションのデータ集合を送信する。この場合に、転送部35は、データ集合をアクセス処理部33によるトランザクションの実行を妨害しないバックグラウンドで送信する。これにより、転送部35は、クライアントからのアクセス要求に対する応答速度等の低下を招くことなく、長期同期処理を実行することができる。
 そして、転送部35は、ステップS618の処理を終了すると、処理をステップS611に戻す。
 一方、目標役割表によりバックアップの候補に割り当てられており且つ現役割表によりオーナーにもバックアップにも割り当てられていないパーティションを有する他のノード30の転送部35は、以下のステップS621およびステップS622の処理を実行する。
 ステップS621において、転送部35は、クライアントからのアクセス要求に対する処理を中断させずに、長期同期処理を開始する。具体的には、転送部35は、目標役割表によりバックアップの候補に割り当てられており且つ現役割表によりオーナーにもバックアップにも割り当てられていないパーティションについて、オーナーに割り当てられたノード30からデータ集合を受信する。この場合に、転送部35は、データ集合をアクセス処理部33によるトランザクションの実行を妨害しないバックグラウンドで受信する。
 続いて、ステップS622において、転送部35は、データ保持表を更新する。長期同期処理が完了すると、オーナーとなるノード30に記憶されているデータ集合のレプリカが記憶されるので、転送部35は、データ保持表を更新することにより、そのパーティションのタイムスタンプを、オーナーのデータ保持表のタイムスタンプと一致させることができる。そして、転送部35は、ステップS622の処理を終えると、転送部35は、本フローを終了する。
 以上のように転送部35によれば、バックアップの候補として割り当てられたノード30にオーナーとして割り当てられたノード30のデータ集合のレプリカを生成するので、オーナーまたはバックアップとなることができるノード30を新たに発生させることができる。
 図18~図24を参照して、データベースシステム10の動作例を説明する。図18は、3つのパーティション#1~#3のそれぞれに対して、オーナーおよびバックアップとなるノード30を割り当てた場合の、ノード30-Aからノード30-Cのそれぞれの状態を示す図である。
 本例では、図18の現役割表に示されるように、パーティション#1に対して、オーナーにノード30-Aが割り当てられ、バックアップにノード30-Bが割り当てられる。また、パーティション#2に対して、オーナーにノード30-Bが割り当てられ、バックアップにノード30-Cが割り当てられる。また、パーティション#3に対して、オーナーにノード30-Cが割り当てられ、バックアップにノード30-Aが割り当てられる。
 ノード30-Aおよびノード30-Bは、パーティション#1に対するレプリケーション処理をトランザクションにより実行している。この結果、図18のデータ保持表に示されるように、パーティション#1のタイムスタンプは、ノード30-Aおよびノード30-Bで同一値となる。
 また、ノード30-Bおよびノード30-Cは、パーティション#2に対するレプリケーション処理をトランザクションにより実行している。この結果、図18のデータ保持表に示されるように、パーティション#2のタイムスタンプは、ノード30-Bおよびノード30-Cで同一値となる。
 また、ノード30-Cおよびノード30-Aは、パーティション#3に対するレプリケーション処理をトランザクションにより実行している。この結果、図18のデータ保持表に示されるように、パーティション#3のタイムスタンプは、ノード30-Cおよびノード30-Aで同一値となる。
 図19は、図18の状態からノード30-Cに障害が発生したことに応じて短期同期処理を実行した後の、ノード30-Aからノード30-Cのそれぞれの状態を示す図である。管理装置20のクラスタ管理部24は、図18の状態からノード30-Cからデータ保持表を検出することができず、ノード30-Cに障害が発生したことを検出したとする。
 複数のノード30のうちの何れかのノード30で障害が発生した場合、管理装置20のクラスタ管理部24は、障害が発生したノード30を切り離すとともに、第1割当部22に次役割表を計算させる。
 クラスタ管理部24からの呼び出しに応じて、第1割当部22は、障害の発生したノード30を除いてオーナーおよびバックアップとなるノード30を再度割り当てて、次役割表を生成する。この場合に、第1割当部22は、少なくともデータベースを機能させるべく、複数のパーティションのそれぞれに対して少なくともオーナーが存在するようにノード30を割り当てる。例えば、第1割当部22は、オーナーであったノード30に障害が発生した場合には、バックアップであったノード30をオーナーに割り当てる。さらに、第1割当部22は、よりデータベースの冗長度を高めるべく、複数のパーティションのそれぞれに対して可能な限りバックアップが存在するようにノード30を割り当てる。
 本例では、再割り当ての結果、図19の次役割表に示されるように、パーティション#1に対して、オーナーにノード30-Aが割り当てられ、バックアップにノード30-Bが割り当てられる。また、パーティション#2に対して、オーナーにノード30-Bが割り当てられる。また、パーティション#3に対して、オーナーにノード30-Aが割り当てられる。
 そして、クラスタ管理部24は、次役割表をノード30-Aおよびノード30-Bに配布する。ノード30-Aおよびノード30-Bのそれぞれのノード管理部34は、次役割表を受信すると短期同期処理を実行するとともに、現役割表の内容を次役割表の内容に書き換える。これにより、ノード30-Aおよびノード30-Bのそれぞれは、新たに割り当てられた役割に応じた処理を実行することができる。
 図20は、図19の状態から実行される長期同期処理の一例を示す図である。また、管理装置20のクラスタ管理部24は、障害が発生したノード30-Cを切り離した場合、第2割当部23に目標役割表を計算させる。
 クラスタ管理部24からの呼び出しに応じて、第2割当部23は、障害が発生したノード30を除いてバックアップの候補となるノード30を再度割り当てて、目標役割表を生成する。この場合に、第2割当部23は、データベースの冗長度を高めるべく、複数のパーティションのそれぞれに対して、少なくともオーナーおよびバックアップが存在するように候補となるノード30を割り当てる。
 図19の状態では、パーティション#2およびパーティション#3に対するバックアップのノード30が存在しない。従って、第2割当部23は、パーティション#2に対するバックアップの候補としてノード30-Aを割り当て、パーティション#3に対するバックアップの候補としてノード30-Bを割り当てる。
 なお、本例では、第2割当部23は、現役割表により既にオーナーおよびバックアップとして割り当てられているノード30も、バックアップの候補として割り当てる。このため、図20の目標役割表に示されるように、パーティション#1~#3のそれぞれに対して、ノード30-Aおよびノード30-Bの両者がバックアップの候補として割り当てられる。
 そして、クラスタ管理部24は、目標役割表をノード30-Aおよびノード30-Bに配布する。ノード30-Aおよびノード30-Bのそれぞれの転送部35は、現役割表と目標役割表の差の部分に対して長期同期処理を実行する。すなわち、ノード30-Bの転送部35は、パーティション#2のデータ集合をバックグラウンドでノード30-Aに送信する。また、ノード30-Aの転送部35は、パーティション#3のデータ集合をバックグラウンドでノード30-Bに送信する。
 なお、このとき、転送部35は、クライアントからのアクセス要求に対する処理を中断させずに、長期同期処理を実行する。
 長期同期処理が完了すると、ノード30-Aは、パーティション#2のデータ集合のレプリカを記憶することができる。さらに、図20のデータ保持表に示されるように、このときのパーティション#2のタイムスタンプは、ノード30-Aおよびノード30-Bで同一値となる。
 また、ノード30-Bは、パーティション#3のデータ集合のレプリカを記憶することができる。さらに、図20のデータ保持表に示されるように、パーティション#3のタイムスタンプは、ノード30-Aおよびノード30-Bで同一値となる。
 図21は、図20の長期同期処理が完了したことに応じて短期同期処理を実行した後の、ノード30-Aからノード30-Cのそれぞれの状態を示す図である。管理装置20のクラスタ管理部24は、定期的に第1割当部22を呼び出して次役割表を計算させる。
 長期同期処理が完了した後にクラスタ管理部24から呼び出された場合、第1割当部22は、複数のパーティションのそれぞれに対して、長期同期処理により生成されたレプリカを利用してより冗長度が高まるように、オーナーおよびバックアップとなるノード30を再度割り当てる。
 本例では、図21の次役割表に示されるように、パーティション#1に対して、オーナーとしてノード30-Aが割り当てられ、バックアップとしてノード30-Bが割り当てられる。また、パーティション#2に対して、オーナーとしてノード30-Bが割り当てられ、バックアップとしてノード30-Aが割り当てられる。また、パーティション#3に対して、オーナーとしてノード30-Aが割り当てられ、バックアップとしてノード30-Bが割り当てられる。
 そして、クラスタ管理部24は、次役割表をノード30-Aおよびノード30-Bに配布する。ノード30-Aおよびノード30-Bのそれぞれのノード管理部34は、次役割表を受信すると短期同期処理を実行するとともに、現役割表の内容を次役割表の内容に書き換える。これにより、ノード30-Aおよびノード30-Bのそれぞれは、新たに割り当てられた役割に応じた処理を実行することができる。
 図22は、図21の状態からノード30-Dを追加した場合の、ノード30-Aからノード30-Dのそれぞれの状態を示す図である。管理装置20のクラスタ管理部24は、例えば図21の状態からノード30-Dが新たに追加されたことを検出したとする。
 クラスタ管理部24は、図22のデータ保持表に示されるように、ノード30-Dを追加したデータ保持表を生成する。第1割当部22は、データ保持表にノード30-Dが追加されたことに応じて、ノード30-Dが追加された次役割表を生成する。
 もっとも、ノード30-Dは、データ集合を記憶していない。従って、第1割当部22は、ノード30-Dが追加された直後では、オーナーおよびバックアップの割り当てを変更しない。
 図23は、図22の状態から実行される長期同期処理の一例を示す図である。新たなノード30が追加された場合、第2割当部23は、複数のパーティションのそれぞれに対して、新たなノード30を含めてバックアップの候補となるノード30を再度割り当てる。この場合、第2割当部23は、割り当てられたオーナーおよびバックアップの数の差がノード30間で予め定められた値の範囲内となるように、複数のパーティションのそれぞれに対して、バックアップの候補となるノード30を割り当てる。
 本例では、再割り当ての結果、図23の目標役割表に示されるように、パーティション#1に対して、ノード30-Aおよびノード30-Bがバックアップの候補として割り当てられる。また、パーティション#2に対して、ノード30-Bおよびノード30-Dがバックアップの候補として割り当てられる。また、パーティション#3に対して、ノード30-Aおよびノード30-Dがバックアップの候補として割り当てられる。
 そして、クラスタ管理部24は、目標役割表をノード30-A、ノード30-Bおよびノード30-Dに配布する。ノード30-A、ノード30-Bおよびノード30-Dのそれぞれの転送部35は、現役割表と目標役割表の差の部分に対して長期同期処理を実行する。
 すなわち、ノード30-Bの転送部35は、パーティション#2のデータ集合をバックグラウンドでノード30-Dに送信する。また、ノード30-Aの転送部35は、パーティション#3のデータ集合をバックグラウンドでノード30-Dに送信する。なお、このとき、転送部35は、クライアントからのアクセス要求に対する処理を中断せずに長期同期処理を実行する。
 この結果、ノード30-Dは、パーティション#2のデータ集合のレプリカを記憶することができる。さらに、図23のデータ保持表に示されるように、パーティション#2のタイムスタンプは、ノード30-Bおよびノード30-Dで同一値となる。
 また、ノード30-Dは、パーティション#3のデータ集合のレプリカを記憶することができる。さらに、図23のデータ保持表に示されるように、パーティション#3のタイムスタンプは、ノード30-Aおよびノード30-Dで同一値となる。
 図24は、図23の長期同期処理が完了したことに応じて短期同期処理を実行した後の、ノード30-Aからノード30-Dのそれぞれの状態を示す図である。長期同期処理が完了した後にクラスタ管理部24から呼び出された場合、第1割当部22は、複数のパーティションのそれぞれに対して、長期同期処理により生成されたレプリカを利用してよりノード30間の負荷が均等となるように、オーナーおよびバックアップとなるノード30を再度割り当てる。
 本例では、再割り当ての結果、図24の次役割表に示されるように、パーティション#1に対して、オーナーとしてノード30-Aが割り当てられ、バックアップとしてノード30-Bが割り当てられる。また、パーティション#2に対して、オーナーとしてノード30-Bが割り当てられ、バックアップとしてノード30-Dが割り当てられる。また、パーティション#3に対して、オーナーとしてノード30-Aが割り当てられ、バックアップとしてノード30-Dが割り当てられる。
 そして、クラスタ管理部24は、次役割表をノード30-A、ノード30-Bおよびノード30-Dに配布する。ノード30-A、ノード30-Bおよびノード30-Dのそれぞれのノード管理部34は、次役割表を受信すると短期同期処理を実行するとともに、現役割表の内容を次役割表の内容に書き換える。これにより、ノード30-A、ノード30-Bおよびノード30-Dのそれぞれは、新たに割り当てられた役割に応じた処理を実行することができる。
 以上のように、本実施形態に係るデータベースシステム10によれば、バックアップの候補となるノード30を割り当ててオーナーとなるノード30から候補となるノード30へとデータ集合の転送をするので、データベースに冗長度を持たせ且つノード30の処理の負荷を均等することができる。さらに、データベースシステム10によれば、このような処理をクライアントからのアクセス要求に対する処理を中断させずに実行することができるので、ノード30を切り離したりノード30を新たに追加したりした場合にも、システムを停止させずにデータの再配置をすることができる。
 また、本実施形態の管理装置20およびノード30で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
 また、本実施形態の管理装置20およびノード30で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の管理装置20およびノード30で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
 また、本実施形態の管理装置20およびノード30プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
 本実施形態の管理装置20で実行されるプログラムは、上述した各部(表記憶部21、第1割当部22、第2割当部23およびクラスタ管理部24)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、表記憶部21、第1割当部22、第2割当部23およびクラスタ管理部24が主記憶装置上に生成されるようになっている。
 また、本実施形態のノード30で実行されるプログラムは、上述した各部(データストア部31、表記憶部32、アクセス処理部33、ノード管理部34および転送部35)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、データストア部31、表記憶部32、アクセス処理部33、ノード管理部34および転送部35が主記憶装置上に生成されるようになっている。
 本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
 10 データベースシステム
 12 CPU
 13 メモリ
 14 通信I/F
 15 ストレージI/F
 16 外部記憶装置
 20 管理装置
 21 表記憶部
 22 第1割当部
 23 第2割当部
 24 クラスタ管理部
 30 ノード
 31 データストア部
 32 表記憶部
 33 アクセス処理部
 34 ノード管理部
 35 転送部

Claims (16)

  1.  データベースを記憶する複数のノードと、前記複数のノードを管理する管理装置と、を備えるデータベースシステムであって、
     前記管理装置は、
     前記複数のノードのそれぞれの状況の変更に応じて、データ集合を記憶して前記データ集合へのアクセス要求を受け付ける第1ノード、および、前記データ集合を記憶して前記第1ノードのバックアップとなる第2ノードを割り当てて、前記複数のノードのそれぞれに割り当てに応じた動作を指示する第1割当部と、
     前記複数のノードの状況と、前記第1ノードおよび前記第2ノードの割り当て状況の変更に応じて、前記第1ノードまたは前記第2ノードの候補となる第3ノードを割り当てて、前記複数のノードのそれぞれに対して、前記第3ノードに前記第1ノードまたは前記第2ノードとして動作させるための準備を指示する第2割当部と、
    を有し、
     前記複数のノードのそれぞれは、
     前記第1ノードまたは前記第2ノードのデータ集合を、前記第3ノードに送信する転送部、
    を有する
     データベースシステム。
  2.  前記複数のノードは、前記データベースを複数のパーティションに分割して記憶し、
     前記第1割当部は、前記複数のパーティションのそれぞれに対して、前記第1ノードおよび前記第2ノードを割り当て、
     前記第2割当部は、前記複数のパーティションのそれぞれに対して、前記第3ノードを割り当てる
     請求項1に記載のデータベースシステム。
  3.  前記第1割当部は、複数のパーティションのそれぞれに対して、前記複数のノードのそれぞれが前記第1ノードか前記第2ノードかを示す第1テーブルを生成し、前記第1テーブルを前記複数のノードのそれぞれに配布することにより割り当てに応じた動作を指示し、
     前記第2割当部は、複数のパーティションのそれぞれに対して、前記複数のノードのそれぞれが前記第3ノードかを示す第2テーブルを生成し、前記第2テーブルを前記複数のノードのそれぞれに配布することにより前記準備を指示する
     請求項2に記載のデータベースシステム。
  4.  前記第1割当部は、前記第3ノードへのデータ集合の送信が完了した場合、前記複数のパーティションのそれぞれに対して前記第1ノードおよび前記第2ノードを再度割り当てる
     請求項2に記載のデータベースシステム。
  5.  前記複数のノードのうちの何れかのノードで障害が発生した場合、
     前記第1割当部は、前記障害が発生したノードを除いて、前記第1ノードおよび前記第2ノードを再度割り当て、
     前記第2割当部は、前記障害が発生したノードを除いて、前記第3ノードを再度割り当てる
     請求項4に記載のデータベースシステム。
  6.  前記第2割当部は、前記複数のパーティションのそれぞれに対して、少なくとも前記第1ノードおよび前記第2ノードが存在するように、前記第3ノードを割り当てる
     請求項5に記載のデータベースシステム。
  7.  新たなノードが追加された場合、前記第2割当部は、前記複数のパーティションのそれぞれに対して、前記新たなノードを含めて前記第3ノードを再度割り当てる
     請求項4に記載のデータベースシステム。
  8.  前記第2割当部は、割り当てられた前記第1ノードおよび前記第2ノードの数の差がノード間で予め定められた値の範囲内となるように、前記複数のパーティションのそれぞれに対して、前記第3ノードを割り当てる
     請求項7に記載のデータベースシステム。
  9.  前記第2割当部は、演算能力の高いノードが演算能力の低いノードよりも優先的に前記第1ノードまたは前記第2ノードとなるように、前記第3ノードを割り当てる
     請求項8に記載のデータベースシステム。
  10.  前記第2割当部は、前記アクセス要求を受け付ける数が少ないノードが前記アクセス要求を受け付ける数が多いノードよりも優先的に前記第1ノードまたは前記第2ノードとなるように、前記第3ノードを割り当てる
     請求項8に記載のデータベースシステム。
  11.  前記複数のノードのそれぞれは、前記第1ノードのパーティションに対する一連のアクセス要求を含むトランザクションを受け付けてクライアントからのアクセス要求に応じた処理を実行し、前記パーティションのデータ集合の更新または登録のアクセス要求を実行する場合、前記第2ノードに一連のアクセス要求を含むトランザクションを送信して実行させるアクセス処理部をさらに有し、
     前記転送部は、前記第1ノードまたは前記第2ノードの前記パーティションのデータ集合を、前記トランザクションの実行を妨害しないバックグラウンドで、前記第3ノードに送信する
     請求項1に記載のデータベースシステム。
  12.  データベースを記憶する複数のノードを管理する管理装置であって、
     前記管理装置は、
     前記複数のノードのそれぞれの状況の変更に応じて、データ集合を記憶して前記データ集合へのアクセス要求を受け付ける第1ノード、および、前記データ集合を記憶して前記第1ノードのバックアップとなる第2ノードを割り当てて、前記複数のノードのそれぞれに割り当てに応じた動作を指示する第1割当部と、
     前記複数のノードの状況と、前記第1ノードおよび前記第2ノードの割り当て状況との変更に応じて、前記第1ノードまたは前記第2ノードの候補となる第3ノードを割り当てて、前記複数のノードのそれぞれに対して、前記第3ノードに前記第1ノードまたは前記第2ノードとして動作させるための準備を指示する第2割当部と、
    を有し、
     前記複数のノードのそれぞれは、
     前記第1ノードまたは前記第2ノードのデータ集合を、前記第3ノードに送信する
     管理装置。
  13.  請求項1に記載のデータベースシステムに備えられるノード。
  14.  請求項1に記載のデータベースシステムに備えられる管理装置としてコンピュータを機能させるためのプログラム。
  15.  請求項1に記載のデータベースシステムに備えられるノードとしてコンピュータを機能させるためのプログラム。
  16.  データベースを記憶する複数のノードと、前記複数のノードを管理する管理装置と、を備えるデータベースシステムにおけるデータ処理方法であって、
     前記管理装置が、
     前記複数のノードのそれぞれの状況の変更に応じて、データ集合を記憶して前記データ集合へのアクセス要求を受け付ける第1ノード、および、前記データ集合を記憶して前記第1ノードのバックアップとなる第2ノードを割り当てて、前記複数のノードのそれぞれに割り当てに応じた動作を指示する第1割当ステップと、
     前記複数のノードの状況と、前記第1ノードおよび前記第2ノードの割り当て状況の変更に応じて、前記第1ノードまたは前記第2ノードの候補となる第3ノードを割り当てて、前記複数のノードのそれぞれに対して、前記第3ノードに前記第1ノードまたは前記第2ノードとして動作させるための準備を指示する第2割当ステップと、
    を実行し、
     前記複数のノードのそれぞれが、
     前記第1ノードまたは前記第2ノードのデータ集合を、前記第3ノードに送信する転送ステップ
    を実行する
     データ処理方法。
PCT/JP2013/056868 2013-03-12 2013-03-12 データベースシステム、プログラムおよびデータ処理方法 WO2014141393A1 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
EP13834378.5A EP2975523A4 (en) 2013-03-12 2013-03-12 Database system, program, and data processing method
EP23152630.2A EP4191431A1 (en) 2013-03-12 2013-03-12 Database system, program, and data processing method
JP2014504113A JP5698865B2 (ja) 2013-03-12 2013-03-12 データベースシステム、プログラムおよびデータ処理方法
CN201380003048.1A CN104185841B (zh) 2013-03-12 2013-03-12 数据库系统、管理装置、节点以及数据处理方法
PCT/JP2013/056868 WO2014141393A1 (ja) 2013-03-12 2013-03-12 データベースシステム、プログラムおよびデータ処理方法
AU2013381504A AU2013381504B2 (en) 2013-03-12 2013-03-12 Database system, program, and data processing method
US14/206,819 US20140279902A1 (en) 2013-03-12 2014-03-12 Database system, computer program product, and data processing method
US18/167,959 US20230244694A1 (en) 2013-03-12 2023-02-13 Database system, computer program product, and data processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/056868 WO2014141393A1 (ja) 2013-03-12 2013-03-12 データベースシステム、プログラムおよびデータ処理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/206,819 Continuation US20140279902A1 (en) 2013-03-12 2014-03-12 Database system, computer program product, and data processing method

Publications (1)

Publication Number Publication Date
WO2014141393A1 true WO2014141393A1 (ja) 2014-09-18

Family

ID=51532972

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/056868 WO2014141393A1 (ja) 2013-03-12 2013-03-12 データベースシステム、プログラムおよびデータ処理方法

Country Status (6)

Country Link
US (2) US20140279902A1 (ja)
EP (2) EP4191431A1 (ja)
JP (1) JP5698865B2 (ja)
CN (1) CN104185841B (ja)
AU (1) AU2013381504B2 (ja)
WO (1) WO2014141393A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6382819B2 (ja) 2013-08-21 2018-08-29 株式会社東芝 データベースシステム、ノード、管理装置、プログラムおよびデータ処理方法
JP6122126B2 (ja) 2013-08-27 2017-04-26 株式会社東芝 データベースシステム、プログラムおよびデータ処理方法
EP3035595A1 (en) * 2014-12-17 2016-06-22 Alcatel Lucent Routable distributed database for managing a plurality of entities of a telecommunication network
US10977276B2 (en) * 2015-07-31 2021-04-13 International Business Machines Corporation Balanced partition placement in distributed databases
US10303557B2 (en) * 2016-03-09 2019-05-28 Commvault Systems, Inc. Data transfer to a distributed storage environment
CN107800551A (zh) * 2016-08-31 2018-03-13 北京优朋普乐科技有限公司 Redis集群系统及其提高可靠性的方法、客户端
CN110300188B (zh) * 2019-07-25 2022-03-22 中国工商银行股份有限公司 数据传输系统、方法和设备
CN111309805B (zh) * 2019-12-13 2023-10-20 华为技术有限公司 数据库的数据读写方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0392942A (ja) * 1989-09-06 1991-04-18 Hitachi Ltd ファイルの格納方法およびアクセス方法
JPH09146812A (ja) * 1995-11-27 1997-06-06 Sanyo Electric Co Ltd データベース装置
JPH11506556A (ja) * 1995-05-26 1999-06-08 クラストラ アクティーゼルスカブ データベースフラグメントレプリカの共通部分が最小の複数のノードのグループを有する連続的に使用可能なデータベースサーバ
JP2001508900A (ja) * 1997-01-20 2001-07-03 テレフオンアクチーボラゲツト エル エム エリクソン(パブル) 分散データ処理システムにおけるデータの分配および複写
JP2002522845A (ja) * 1998-08-11 2002-07-23 テレフオンアクチーボラゲツト エル エム エリクソン(パブル) フォールトトレラント・コンピュータシステム
JP2003345640A (ja) * 2002-05-28 2003-12-05 Mitsubishi Electric Corp データベースバックアップシステム
JP2005196602A (ja) 2004-01-09 2005-07-21 Hitachi Ltd 無共有型データベース管理システムにおけるシステム構成変更方法
JP2009157785A (ja) 2007-12-27 2009-07-16 Hitachi Ltd 待機系計算機の追加方法、計算機及び計算機システム

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884326A (en) * 1996-11-18 1999-03-16 Weinger; Ralph Method and apparatus for data access
CA2159269C (en) * 1995-09-27 2000-11-21 Chaitanya K. Baru Method and apparatus for achieving uniform data distribution in a parallel database system
JPH10247181A (ja) * 1997-03-05 1998-09-14 Mitsubishi Electric Corp 拠点バックアップ計算機システム
US7013316B1 (en) * 2000-07-13 2006-03-14 Microsoft Corporation System and method for synchronizing multiple database files
US7809384B2 (en) * 2002-11-05 2010-10-05 Microsoft Corporation User-input scheduling of synchronization operation on a mobile device based on user activity
CN1317658C (zh) * 2002-12-31 2007-05-23 联想(北京)有限公司 利用机群节点相互备份的容错方法
JP4374953B2 (ja) * 2003-09-09 2009-12-02 株式会社日立製作所 データ処理システム
US20050144316A1 (en) * 2003-12-06 2005-06-30 William Loo Method and system for service node redundancy
US7120769B2 (en) * 2004-03-08 2006-10-10 Hitachi, Ltd. Point in time remote copy for multiple sites
US8266406B2 (en) * 2004-04-30 2012-09-11 Commvault Systems, Inc. System and method for allocation of organizational resources
US7490205B2 (en) * 2005-03-14 2009-02-10 International Business Machines Corporation Method for providing a triad copy of storage data
JP4107676B2 (ja) * 2006-07-21 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション トランザクション引継ぎシステム
US7725764B2 (en) * 2006-08-04 2010-05-25 Tsx Inc. Failover system and method
US8849746B2 (en) * 2006-12-19 2014-09-30 Teradata Us, Inc. High-throughput extract-transform-load (ETL) of program events for subsequent analysis
US20080288630A1 (en) * 2007-05-18 2008-11-20 Motorola, Inc. Device management
JP4386932B2 (ja) * 2007-08-17 2009-12-16 富士通株式会社 ストレージ管理プログラム、ストレージ管理装置およびストレージ管理方法
JP5222617B2 (ja) * 2008-04-28 2013-06-26 株式会社日立製作所 情報システム及びi/o処理方法
JP4612715B2 (ja) * 2008-09-05 2011-01-12 株式会社日立製作所 情報処理システム、データ更新方法およびデータ更新プログラム
JP5359201B2 (ja) * 2008-11-06 2013-12-04 富士通株式会社 コンテンツの削除更新プログラム
JP5381336B2 (ja) * 2009-05-28 2014-01-08 富士通株式会社 管理プログラム、管理装置および管理方法
US8724449B2 (en) * 2009-06-10 2014-05-13 Cisco Technology, Inc. Failure protection for access ring topology
US9325802B2 (en) * 2009-07-16 2016-04-26 Microsoft Technology Licensing, Llc Hierarchical scale unit values for storing instances of data among nodes of a distributed store
US8495044B2 (en) * 2009-09-02 2013-07-23 Microsoft Corporation File system node updates
US20110283277A1 (en) * 2010-05-11 2011-11-17 International Business Machines Corporation Virtualization and dynamic resource allocation aware storage level reordering
US8595184B2 (en) * 2010-05-19 2013-11-26 Microsoft Corporation Scaleable fault-tolerant metadata service
US8515915B2 (en) * 2010-09-24 2013-08-20 Hitachi Data Systems Corporation System and method for enhancing availability of a distributed object storage system during a partial database outage
US8627024B2 (en) * 2010-11-30 2014-01-07 International Business Machines Corporation Snapshot based replication
US8572031B2 (en) * 2010-12-23 2013-10-29 Mongodb, Inc. Method and apparatus for maintaining replica sets
US8554730B2 (en) * 2011-07-29 2013-10-08 International Business Machines Corporation Adding a key column to a table to be replicated
US20130149678A1 (en) * 2011-12-12 2013-06-13 Yukie J. Tokuda System and methods for virtual cooking with multi-course planning
US8880565B2 (en) * 2011-12-23 2014-11-04 Sap Se Table creation for partitioned tables

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0392942A (ja) * 1989-09-06 1991-04-18 Hitachi Ltd ファイルの格納方法およびアクセス方法
JPH11506556A (ja) * 1995-05-26 1999-06-08 クラストラ アクティーゼルスカブ データベースフラグメントレプリカの共通部分が最小の複数のノードのグループを有する連続的に使用可能なデータベースサーバ
JPH09146812A (ja) * 1995-11-27 1997-06-06 Sanyo Electric Co Ltd データベース装置
JP2001508900A (ja) * 1997-01-20 2001-07-03 テレフオンアクチーボラゲツト エル エム エリクソン(パブル) 分散データ処理システムにおけるデータの分配および複写
JP2002522845A (ja) * 1998-08-11 2002-07-23 テレフオンアクチーボラゲツト エル エム エリクソン(パブル) フォールトトレラント・コンピュータシステム
JP2003345640A (ja) * 2002-05-28 2003-12-05 Mitsubishi Electric Corp データベースバックアップシステム
JP2005196602A (ja) 2004-01-09 2005-07-21 Hitachi Ltd 無共有型データベース管理システムにおけるシステム構成変更方法
JP2009157785A (ja) 2007-12-27 2009-07-16 Hitachi Ltd 待機系計算機の追加方法、計算機及び計算機システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MONDODB MANUAL CONTENTS, Retrieved from the Internet <URL:http://docs.mongodb.org/manual/contents>
See also references of EP2975523A4

Also Published As

Publication number Publication date
JP5698865B2 (ja) 2015-04-08
CN104185841B (zh) 2018-08-17
JPWO2014141393A1 (ja) 2017-02-16
AU2013381504B2 (en) 2016-06-23
EP2975523A4 (en) 2017-02-08
CN104185841A (zh) 2014-12-03
EP4191431A1 (en) 2023-06-07
AU2013381504A1 (en) 2015-02-12
US20140279902A1 (en) 2014-09-18
EP2975523A1 (en) 2016-01-20
US20230244694A1 (en) 2023-08-03

Similar Documents

Publication Publication Date Title
JP6382819B2 (ja) データベースシステム、ノード、管理装置、プログラムおよびデータ処理方法
JP6122126B2 (ja) データベースシステム、プログラムおよびデータ処理方法
JP5698865B2 (ja) データベースシステム、プログラムおよびデータ処理方法
CN107005596B (zh) 用于在集群重新配置后的工作负载平衡的复制型数据库分配
EP3764244B1 (en) System and method for massively parallel processing database
KR101544480B1 (ko) 복수 개의 프락시 서버를 포함하는 분산 저장 시스템 및 그 오브젝트 관리 방법 및 컴퓨터에 의하여 독출가능한 저장 매체
EP2643771B1 (en) Real time database system
US20150169718A1 (en) System and method for supporting persistence partition discovery in a distributed data grid
JP2014232483A (ja) データベースシステム、検索方法およびプログラム
US10437797B1 (en) In-memory distributed database with a remote data store
US11321283B2 (en) Table and index communications channels
JP5969315B2 (ja) データ移行処理システムおよびデータ移行処理方法
Malkhi et al. From paxos to corfu: a flash-speed shared log
US11182362B2 (en) Calculating device, data base system, calculation system, calculation method, and storage medium
KR101681651B1 (ko) 데이터베이스 관리 시스템 및 방법
CN114416116A (zh) 一种软件单元化部署的多活方法和系统
CN114791850A (zh) 任务处理方法及其装置、计算机可读存储介质
Yang et al. Pyxis+: A Scalable and Adaptive Data Replication Framework

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2014504113

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2013834378

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13834378

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013381504

Country of ref document: AU

Date of ref document: 20130312

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE