WO2016117032A1

WO2016117032A1 - データベースシステム、計算機システム、及び、データベース管理方法

Info

Publication number: WO2016117032A1
Application number: PCT/JP2015/051414
Authority: WO
Inventors: 有哉礒田; 敦友田; 知広花井; 一智牛嶋; 田中　剛
Original assignee: 株式会社日立製作所
Priority date: 2015-01-20
Filing date: 2015-01-20
Publication date: 2016-07-28

Abstract

　計算機システム（例えばデータベースシステム）が、トランザクションを実行することにより記憶部内の複数のレコードのうちのいずれかのレコードを更新する場合、タイムスタンプが関連付けられている更新前レコードを記憶部に維持し、更新後のタイムスタンプを関連付けた更新後レコードを記憶部に格納する。計算機システムは、実行中の第１のトランザクションに対応付けられたタイムスタンプである第１のタイムスタンプと、実行中の第２のトランザクションに対応付けられたタイムスタンプである第２のタイムスタンプとの間のタイムスタンプに対応したレコードのうち、実行中の他のトランザクションから参照されないレコードを、複数のタイムスタンプの各々での複数のレコードを基に特定し、特定したレコードを記憶部から削除する。

Description

データベースシステム、計算機システム、及び、データベース管理方法

　本発明は、概して、トランザクション処理に関し、例えば、データベースの一貫性制御等のトランザクション処理におけるデータを管理する技術に関する。

　一般に、計算機システムにおいてトランザクションの処理が行われている。トランザクションを処理するシステムとして、例えば、ＤＢＭＳ（データベース管理システム）が知られている。ＤＢＭＳは、入出力するデータであるレコードの一貫性を制御するいわゆるトランザクション処理（Ｔｘ処理）を実行する。これにより、ＤＢＭＳにおいては、ユーザは常に意図したレコードを入出力することが可能となる。Ｔｘ処理は、複数の参照、更新命令をアトミックに実現するときに用いられる。Ｔｘ処理では、アトミックに実行したい命令区間の始めと終わり（Ｔｘ処理区間）を宣言することにより、指定した区間の複数の命令をアトミックに処理する。

　Ｔｘ処理を実現するためには、ＡＣＩＤ特性を満たす必要がある。ＡＣＩＤ特性とは、原子性（Atomicity）、一貫性（Consistency）、独立性（Isolation）及び永続性（Durability）を示す。原子性とは、Ｔｘ処理区間の複数の命令を全て実行するか、全て実行させないことである。一貫性とは、データベースに与えられたルール以外の状態に遷移させないことである。独立性とは、Ｔｘ処理の結果は、必ずＴｘ処理を逐次的に実行したときと同じになることをいう。永続性とは、Ｔｘ処理がコミットしていれば、ＤＢＭＳに故障が発生していても必ずＴｘ処理の結果を復元できることをいう。このように、ＤＢＭＳでは、ＡＣＩＤ特性を満たすことによって、Ｔｘ処理の一貫性を維持している。

　しかし、高度な一貫性制御により、ＤＢＭＳの処理能力が低下する課題がある。例えば、Ｔｘ処理の一貫性制御を維持しつつ、不要なレコードを削除するガベージコレクション（ＧＣ）が処理能力低下の原因となる。

　この課題に対し、特許文献１又は２に開示の技術がある。特許文献１には、Ｔｘ処理やレコードがタイムスタンプで管理されるシステムにおいて、ＤＢＭＳの永続化処理であるスナップショットより以前のタイムスタンプを持つレコードを削除する技術が開示されている。特許文献２には、動作中のＴｘ処理で最も古いタイムスタンプより以前のタイムスタンプを持つレコードを削除する技術が開示されている。

米国特許公開２０１４／１４９３５３号明細書米国特許６１２５３７１号

　ＤＢＭＳはデータベースの少なくとも一部であるレコード群（複数のレコード）をメモリで管理することが可能である。これにより、Ｔｘ処理におけるストレージアクセス回数を軽減でき、Ｔｘ処理を高速に実行することが可能である。

　特定の一貫性制御において、Ｔｘ処理期間中にＴｘ処理が同一レコードを複数回参照するのであれば、必ず同じ結果が得られることが保証されなければならない。このとき、Ｔｘ処理が参照しているレコードがＧＣによってメモリから削除された場合、このＴｘ処理が繰り返し同じレコードを参照するには、このレコードが永続化されているストレージ装置からそのレコードをメモリへと読み出す必要がある。

　また、近年、マルチバージョニングを用いてレコードを管理ことが行われている。マルチバージョニングでは、同一のレコードに関する複数のバージョン（同じレコードに関する複数の時点の状態）を管理する。このようなマルチバージョニングを用いてレコードを管理する場合には、同一のレコードについての複数のバージョンのレコードがメモリ上に配置される。

　例えば、大規模なレコード参照があると、その処理に長い時間（例えば数時間）かかることがある。また、たくさんのレコード更新があると、参照処理において参照済みのレコードを削除することはできても、最新の更新から参照処理間のレコードを削除することはできない。

　メモリ容量には制限があり、複数のバージョンのレコードがメモリに配置されると、メモリ容量の不足が生じやすくなり、結果として、レコードの追加、更新、及び削除といった操作ができなくなる懸念がある。一方、無闇にＧＣを実施すると、レコードを記憶するストレージ装置へのアクセス回数が増加し、Ｔｘ処理時間が長くなる懸念がある。

　上述のような課題は、ＤＢＭＳを実行する計算機システムに限らず、レコード（データ単位）をトランザクション処理において更新する他の計算機システムにも有り得る。

　実行中のトランザクション処理に関与しないレコードを特定してそのようなレコードを記憶部から削除できる。

実施形態に係るシステム全体の概要のブロック図である。ＤＢＭＳの構成図である。第１の時点でのデータ遷移管理情報を示す。第１の時点でのＴｘＩＤリストを示す。ＲｅｃｏｒｄＡの遷移を示す。ＲｅｃｏｒｄＢの遷移を示す。ＲｅｃｏｒｄＣの遷移を示す。第２の時点でのＴｘＩＤリストを示す。第２の時点でのＧＣ（ガベージコレクション）リストである。ＧＣ設定情報を示す。ＧＣ処理のフローチャートである。マルチＧＣ処理のフローチャートである。ＧＣリスト回収処理のフローチャートである。Ｔｘ（トランザクション）処理のフローチャートである。

　以下、図面を参照して、本発明の一実施形態が適用されたＤＢＭＳを実行する計算機システムを説明する。

　以下の説明では、「×××リスト」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「×××リスト」を「×××情報」と呼ぶことができる。

　また、以下の説明では、「ＰＤＥＶ」は、物理的な記憶デバイスを示し、典型的には、不揮発性の記憶デバイス（例えば補助記憶デバイス）でよい。ＰＤＥＶは、例えば、ＨＤＤ（Hard　Disk　Drive）又はＳＳＤ（Solid　State　Drive)でよい。

　また、以下の説明では、機能部（例えば、クエリ受付部、クエリプラン生成部、クエリ実行部）を主語として処理を説明する場合があるが、機能部は、プログラムがプロセッサ（例えばＣＰＵ（Central　Processing　Unit））によって実行されることで、定められた処理を、適宜に記憶部（例えばメモリ）及び／又はインターフェースデバイス（例えば通信ポート）等を用いながら行うため、処理の主語がプロセッサとされてもよい。機能部を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置又はシステムが行う処理としてもよい。また、プロセッサは、処理の一部または全部を行うハードウェア回路を含んでもよい。複数の機能部のうちの少なくとも一部がハードウェア回路で実現されてもよい。プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサ（例えばＣＰＵ）と記憶部を含み、記憶部はさらに配布プログラムと配布対象であるプログラムとを記憶してよい。そして、プログラム配布サーバのプロセッサが配布プログラムを実行することで、プログラム配布サーバのプロセッサは配布対象のプログラムを他の計算機に配布してよい。また、以下の説明において、２以上の機能部が１つの機能部として実現されてもよいし、１つの機能部が２以上の機能部として実現されてもよい。

　また、以下の説明では、「トランザクション」を「Ｔｘ」と表記し、ガベージコレクションを「ＧＣ」と表記する。

　また、以下の説明では、同一の要素を区別しないで説明する場合、参照符号の共通符号又は名称のみを使用するが（例えば、ＴｘＩＤ、データ遷移管理情報２０００）、同一の要素を区別して説明する場合、要素の参照符号全体、ＩＤ又は値を使用する（例えば、ＴｘＩＤ「２００」、レコード管理情報２２００Ａ）ことがある。

　図１は、実施形態に係るシステム全体の概要のブロック図である。

　ユーザ１０００は、計算機システム（例えばパーソナルコンピュータ）１１１０からＬＡＮ等のネットワーク１４００を通じて、計算機システム（例えば複数のノード１２００により実現される大規模計算機システム）１１００にアクセスすることによって、計算機システム１１００に命令を送ることができる。ユーザ１０００は、計算機システム１１００を直接操作することも可能である。

　計算機システム１１００は、１以上のノード１２００を有する。ノード１２００は、計算機の一例である。複数のノード１２００間は、システムバス１１０１によって接続されていてもよい。

　ノード１２００は、メモリ１２０２、入出力デバイス１２０３、及びそれらに接続されたプロセッサ１２０１を有する。メモリ１２０２は、主メモリ（例えば、ＤＲＡＭ（Dynamic　Random　Access　Memory）のような揮発メモリ）及び補助メモリ（例えばフラッシュメモリのような不揮発メモリ）のうちの少なくとも主メモリを含む。入出力デバイス１２０３は、通信インターフェイスデバイスでもよいし、ヒューマンマシンインターフェイスデバイス（例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイス）でもよい。また、計算機システム１１００の外部に、ネットワーク１４００経由で通信可能な外部ストレージ装置１３００があってもよい。

　図２は、ＤＢＭＳの構成図である。

　ＤＢＭＳ（Database　Management　System）１３０１は、１以上のノード１２００（具体的には、１以上のプロセッサ１２０１）で実行されることにより構成される。ＤＢＭＳ１３０１は、クエリソース（例えば計算機システム１１１０）からクエリを受け付けるクエリ受付部１３１１と、そのクエリの実行プランであるクエリプランを生成するクエリプラン生成部１３１２と、そのクエリプランに従いクエリを実行するクエリ実行部１３１３とを有する。Ｔｘ処理で実行されるＴｘは、クエリプランに従う１つのクエリのＴｘに対応する。つまり、本実施形態では、１つのクエリに対して１つのＴｘＩＤがクエリ実行部１３１３により割り振られる。クエリ実行部１３１３は、ＧＣに関する処理を実行する。ＧＣに関する処理については、後述する。これらの機能部１３１１、１３１２、及び１３１３は、ＤＢＭＳ１３０１が１以上のプロセッサ１２０１に実行されることにより実現されてよい。クエリは、例えば、ＳＱＬ（Structured　Query　Language）で記述されている。

　ＤＢＭＳ１３０１によって管理（参照又は更新等）されるデータベースは、１以上のメモリ１２０２に格納されており、いわゆるインメモリデータベースが実現されている。ここで、外部ストレージ装置１３００からよりも、メモリ１２０２からの方が、高速にデータを取得することができる。データベースの全部又は一部が、外部ストレージ装置１３００に格納されてもよい。

　図３は、第１の時点でのデータ遷移管理情報を示す。以下、レコード群（複数のレコード）として、主に、ＲｅｃｏｒｄＡ～ＲｅｃｏｒｄＣを例に取る。

　データ遷移管理情報２０００は、ＤＢＭＳ１３０１がマルチバージョニングを用いてテーブルの複数のレコードを管理するための情報である。ここで、マルチバージョニングとは、レコードの更新履歴を管理する方法の一つであり、レコードが上書きされる（更新後のレコードが残るが更新前のレコードが残らない）シングルバージョニングとは異なり、１つのレコードについて更新前のレコードと更新後のレコードの両方を管理する方法である。データ遷移管理情報２０００は、メモリ１２０２又は外部ストレージ装置１３００の少なくとも１つに保持される。

　データ遷移管理情報２０００は、タイムスタンプ毎にカラムを有する。各カラムが記憶する情報は、例えば、タイムスタンプ３０１及びレコード値３０２Ａ～３０２Ｃである。タイムスタンプ３０１は、タイムスタンプの値である。レコード値３０２は、対応するレコードに格納されている値である。

　カラムは、レコード群の状態を遷移させるＴｘが発生する都度に（タイムスタンプが追加される都度に）追加される。タイムスタンプの値は、時刻やカウンタでもよく（例えば更新のＴｘのコミットのときに１インクリメントされるカウンタでよく）、要は、レコード更新の順序を特定することのできる情報であればよい。本実施形態では、タイムスタンプの値は、新しいほど（将来であるほど）大きく古いほど（過去であるほど）小さい。参照のみの場合、タイムスタンプは更新されないでよい。タイムスタンプは、レコード群のバージョンと言い換えられてもよい。図３の例によれば、タイムスタンプ「０」（バージョン「０」）に対応するレコード群の状態は、ＲｅｃｏｒｄＡ「１００」、ＲｅｃｏｒｄＢ「２００」、ＲｅｃｏｒｄＣ「３００」である。タイムスタンプ「１」では、ＲｅｃｏｒｄＡが「１００」から「１０１」に更新され、結果、タイムスタンプ「１」に対応するレコード群の状態は、ＲｅｃｏｒｄＡ「１０１」、ＲｅｃｏｒｄＢ「２００」、及びＲｅｃｏｒｄＣ「３００」である。

　図４は、第１の時点でのＴｘＩＤリストを示す。つまり、図４と図３は互いに対応している。

　ＴｘＩＤリスト２１００は、実行が開始されたＴｘごとのタイムスタンプを管理するためのリストであり、メモリ１２０２又は外部ストレージ装置１３００の少なくとも１つに保持される。

　ＴｘＩＤリスト２１００は、実行が開始されたＴｘ毎にカラムを有する。各カラムが記憶する情報は、例えば、ＴｘＩＤ４０１、開始時刻４０２、参照タイムスタンプ４０３、更新タイムスタンプ４０４、及び、状態４０５である。ＴｘＩＤリスト２１００（及び後述のＴｘＩＤリスト２５００）では、参照タイムスタンプ４０３の小さい順にカラムが並ぶ。

　ＴｘＩＤ４０１は、ＴｘのＩＤである。開始時刻４０２は、Ｔｘの開始時刻を示す。

　参照タイムスタンプ４０３は、Ｔｘの開始時のタイムスタンプである。参照タイムスタンプ４０３は、レコードを参照可能か否かの判断のために用いられる。例えば、ＴｘＩＤ「１」に対応する参照タイムスタンプ４０３は「１」である。データ遷移管理情報２０００を参照することにより、タイムスタンプ「１」に対応したレコード群の状態は、ＲｅｃｏｒｄＡ「１０１」、ＲｅｃｏｒｄＢ「２０１」、ＲｅｃｏｒｄＣ「３００」であることを把握できる。

　更新タイムスタンプ４０４は、Ｔｘでレコードを更新した際の更新後のタイムスタンプである。更新タイムスタンプ４０４の値は、レコードを更新したＴｘのみにより取得される。例えば、Ｔｘ「０」（ＴｘＩＤ「０」のＴｘ）は、ＲｅｃｏｒｄＡの更新を行った場合には、データ遷移管理情報２０００に新たなカラムを追加し、ＲｅｃｏｒｄＡの値を「１０１」に更新し、タイムスタンプを「１」に更新し、ＴｘＩＤ「０」に対応したカラム（ＴｘＩＤリスト２１００のカラム）に、更新タイムスタンプ「１」を格納する。このようにして、ＲｅｃｏｒｄＡ「１０１」と、タイムスタンプ「１」とが関連付けられる。

　状態４０５は、Ｔｘの種類（処理内容）を格納する。具体的には、例えば、参照を行うＴｘについては「Ｒ」（Ｒｅａｄ）が格納され、更新を行うＴｘについては「Ｗ」（Ｗｒｉｔｅ）が格納され、処理内容が確定したときに「Ｃ」（Ｃｏｍｍｉｔ）が格納される。従って、例えば、ＳＥＬＥＣＴ、ＵＰＤＡＴＥ、ＣＯＭＭＩＴの順に処理が進む場合、ＳＥＬＥＣＴのときに状態４０５が「Ｒ」となり、ＵＰＤＡＴＥのときに状態４０５が「ＲＷ」となり、ＣＯＭＭＩＴのときに状態４０５が「ＲＷＣ」となる。なお、参照のみに限定したＴｘについては、「ＯＲ」（Ｏｎｌｙ　Ｒｅａｄ）のような特定の値が格納されてよい。また、処理内容が事前にクエリソース（例えば計算機システム１１１０）から宣言された場合、ＳＥＬＥＣＴ、ＵＰＤＡＴＥ及びＣＯＭＭＩＴのいずれのときも状態４０５は「ＲＷＣ」となる。

　図５Ａ～図５Ｃは、ＲｅｃｏｒｄＡ～Ｃの遷移を示す。図６は、第２の時点でのＴｘＩＤリストを示す。図５Ａ～図５Ｃと図６は互いに対応している。第１の時点でのＴｘＩＤリストとの混同を避けるために、第２の時点でのＴｘＩＤリストには、異なる参照符号（２５００）を付し、ＴｘＩＤリスト２５００の各カラムが記憶する情報にも、異なる参照符号（６０１）～（６０５）を付す。

　ＲｅｃｏｒｄＡを例に取り、レコードの構成を説明する。図５Ａの各カラムが、そのカラムに対応したバージョンのＲｅｃｏｒｄＡである。ＲｅｃｏｒｄＡは、タイムスタンプ５０１Ａ、Ｎｅｘｔ５０２Ａ、Ｐｒｅｖ５０３Ａ、ＧＣ５０４Ａ、及び、Ｄａｔａ５０５Ａを記憶する。

　タイムスタンプ５０１Ａは、ＲｅｃｏｒｄＡのバージョンを示すタイムスタンプの値である。タイムスタンプ５０１Ａは、更新タイムスタンプ６０４と関連し、レコードが更新された際に取得されるレコードに対するタイムスタンプである。

　Ｎｅｘｔ５０２Ａは、更新後ＲｅｃｏｒｄＡのアドレスである。本実施形態では、インメモリデータベースが採用されているので、更新後ＲｅｃｏｒｄＡは、メモリ領域のアドレス（又はそれに関連付けられた値）でよい。更新後ＲｅｃｏｒｄＡが無い場合、Ｎｅｘｔ５０２Ａは、不定値でよい。

　Ｐｒｅｖ５０３Ａは、更新前ＲｅｃｏｒｄＡのアドレスである。更新前ＲｅｃｏｒｄＡのアドレスも、メモリ領域のアドレス（又はそれに関連付けられた値）でよい。更新前ＲｅｃｏｒｄＡのアドレスが無い場合、Ｐｒｅｖ５０３Ａには、不定値でよい。

　ＧＣ５０４Ａは、ＧＣにて用いられる情報である。ＧＣ５０４Ａは、このバージョン（タイムスタンプ）のＲｅｃｏｒｄＡ以外のレコードを特定する情報（例えばアドレス（又はＩＤ）である。

　Ｄａｔａ５０５Ａは、ＲｅｃｏｒｄＡに格納された値である。その値が、Ｔｘにより、参照又は更新される。

　タイムスタンプ「１２４」を含んだＲｅｃｏｒｄＡを説明する。Ｎｅｘｔ５０２Ａは、タイムスタンプ「１５５」を含んだＲｅｃｏｒｄＡのアドレスである。Ｐｒｅｖ５０３Ａは、タイムスタンプ「８０」を含んだＲｅｃｏｒｄＡのアドレスである。ＧＣ５０４Ａは、後述するＧＣ処理が開始されていない状態であるので、不定値である。Ｄａｔａ５０５Ａは、タイムスタンプ「１２４」のＴｘにより格納された値である。

　図７は、ＧＣリストである。なお、以下、タイムスタンプ「ｎ」のレコードを、「レコード＃ｎ」と表記する。値ｙを格納したレコードは、「レコード「ｙ」」と表記されるが、タイムスタンプ「ｎ」のレコードは、異なる表記「レコード＃ｎ」となる。

　ＧＣリスト２６００は、メモリ１２０２及び外部ストレージ装置１３００の少なくとも１つに保持される。ＧＣリスト２６００は、ＧＣ処理で参照するタイムスタンプ毎のカラムを有する。各カラムが記憶する情報は、例えば、タイムスタンプ７０１及びレコード群７０２である。

　タイムスタンプ７０１は、Ｔｘで参照可能なレコード群（複数のレコード）を示すタイムスタンプの値である。

　レコード群７０２は、タイムスタンプ７０１に対応する参照可能なレコード群を特定する情報（例えばレコード毎のアドレス（又はＩＤ））である。タイムスタンプ「１０２」の時点で参照可能なレコード群は、例えば、ＲｅｃｏｒｄＡ＃８０及びＲｅｃｏｒｄＣ＃８６であるとすると、タイムスタンプ「１０２」に対応したレコード群７０２は、最も小さいタイムスタンプ「８０」を含んだＲｅｃｏｒｄＡ＃８０のアドレス（例えば、メモリアドレス）である。そして、ＲｅｃｏｒｄＡ＃８０内のＧＣ５０４Ａが、ＲｅｃｏｒｏｄＣ＃８６のアドレスである。このように、タイムスタンプ「１０２」に対応したレコード群７０２は、タイムスタンプ「１０２」の時点で参照可能なレコード群をリスト形式（リンクドリスト）で管理するときの起点となるレコードのアドレスである。このような構成により、Ｔｘの参照タイムスタンプ６０３から、参照可能なレコード群を特定できる。

　図８は、ＧＣ設定情報である。

　ＧＣ設定情報６０００は、ＧＣ処理の各種設定を格納する。ＧＣ設定情報６０００は、ユーザ１０００又は計算機システム１１００が定義する情報であり、メモリ１２０２及び外部ストレージ装置１３００の少なくとも１つに保持される。

　ＧＣ設定情報６０００は、実行有無８０１、方式８０２と、間隔閾値８０３及び開始閾値８０４を含む。

　実行有無８０１は、ＧＣ処理を実行するか否かのフラグである（「ＯＮ」が実行を意味）。

　方式８０２は、ＧＣ処理の方式を表す。ＧＣ処理の方式を表す値としては、本願特有のＧＣ方式を意味する「ＭＵＬＴＩ」と、レガシーなＧＣ方式を意味する「ＯＬＤ」がある。

　間隔閾値８０３は、２つのタイムスタンプ間の差の閾値である。間隔閾値８０３は、ＧＣリスト２６００にＴｘのタイムスタンプを登録するときの判断に用いられる。連続した２つの実行中Ｔｘの参照タイムスタンプ間の差が間隔閾値８０３以上離れていれば、その２つの参照タイムスタンプ間のタイムスタンプのレコードが、ＧＣ処理の対象となり得る。「連続した２つの実行中Ｔｘ」とは、任意の１つの実行中Ｔｘと、その実行中Ｔｘの参照タイムスタンプの次に新しい参照タイムスタンプに対応した実行中Ｔｘである。間隔閾値８０３の値を、Ｔｘの性質等に応じて変えることにより、ＧＣ処理対象のレコードを適切に決定できる。

　開始閾値８０４は、時間（時間長）の閾値である。開始閾値８０４は、ＧＣリスト２６００にＴｘのタイムスタンプを登録するときの判断に用いられる。現在時刻よりも開始閾値８０４前以上過去における時刻が開始時刻であるＴｘのタイムスタンプのレコードが、ＧＣ処理の対象となり得る。開始閾値８０４の値を、Ｔｘの性質等に応じて変えることにより、ＧＣ処理対象のレコードを適切に決定できる。

　本実施形態では、クエリ実行部１３１３が、ＧＣ処理対象の候補を例えば次のように決定できる。すなわち、現在時刻よりも開始閾値８０４前以上過去における時刻が開始時刻であるＴｘのタイムスタンプのレコードを、ＧＣ処理対象の候補とする。また、クエリ実行部１３１３は、現在時刻と現在時刻よりも開始閾値８０４前との間を開始時刻とするＴｘのタイムスタンプのレコードについてのみ、間隔閾値８０３以上離れている差を有する２つの参照タイムスタンプ（連続した２つの実行中Ｔｘの参照タイムスタンプ）間のタイムスタンプに対応したレコードを特定し、ＧＣ処理対象の候補としてよい。これにより、現在時刻と現在時刻から開始閾値８０４前との間にたくさんの更新が発生することによりたくさんのレコードがメモリに格納されることになっても、そのたくさんのレコードからＧＣ処理対象を適切に選択し削除することができる。勿論、クエリ実行部１３１３は、現在時刻よりも開始閾値８０４前以上過去における時刻が開始時刻であるＴｘのタイムスタンプのレコードについても、間隔閾値８０３を用いてＧＣ対象候補のレコードを選定してもよい。間隔閾値８０３及び開始閾値８０４の少なくとも１つは、ユーザ１０００により設定可能でよい。間隔閾値８０３及び開始閾値８０４の一方が設定されていなくてもよい。

　なお、タイムスタンプ値と時刻との間には、相関関係が成り立つので、間隔閾値８０３及び開始閾値８０４の少なくとも１つの値は、タイムスタンプ値又は時間情報（値が時刻で表現された情報）でもよい。

　以下、本実施形態で行われる処理を説明する。

　図９は、ＧＣ処理のフローチャートである。

　ＧＣ処理は、クエリ実行部１３１３により実行される。クエリ実行部１３１３は、ＧＣ処理を開始すると（Ｓ３０００）、ＧＣ設定情報６０００の実行有無８０１の値に基づいて処理を分ける（Ｓ３１００）。例えば、実行有無８０１が「ＯＦＦ」であれば（Ｓ３１００：ＯＦＦ）、クエリ実行部１３１３は、ＧＣ処理を終了する（Ｓ３９００）。一方、実行有無８０１が「ＯＮ」であれば（Ｓ３１００：ＯＮ）、クエリ実行部１３１３は、ＴｘＩＤリスト２５００を生成する（Ｓ３２００）。具体的には、クエリ実行部１３１３は、実行中のＴｘの情報が登録されたＴｘＩＤリスト２５００を生成する。ＴｘＩＤリスト２５００のカラムは、参照タイムスタンプ６０３の小さい順に並んでいることが好ましい。参照タイムスタンプ６０３が小さい順にＧＣ処理が進むためである。

　次に、クエリ実行部１３１３は、ＧＣ設定情報６０００の方式８０２に基づいて、実行する処理を分ける（Ｓ３３００）。具体的には、クエリ実行部１３１３は、方式８０２が「ＭＵＬＴＩ」であれば、マルチＧＣ処理を実行し（Ｓ３６００：図１０参照）、方式８０２が「ＯＬＤ」であれば、旧ＧＣ処理（レガシーのＧＣ処理）を実行する（Ｓ３７００）。方式８０２の値がＴｘの性質に応じた値とすることで、適切なＧＣ処理を行うことができる。なお、旧ＧＣ処理では、クエリ実行部１３１３は、ＴｘＩＤリスト２５００に登録されている最先の参照タイムスタンプ１０２よりも前のタイムスタンプを含むレコードを削除する。

　Ｓ３６００又はＳ３７００の処理を実行した後、クエリ実行部１３１３は、ＧＣ処理を終了する（Ｓ３９００）。

　図１０は、マルチＧＣ処理（Ｓ３６００）のフローチャートである。

　クエリ実行部１３１３は、マルチＧＣ処理を開始すると（Ｓ３６１０）、ＧＣ設定情報６０００の間隔閾値８０３と開始閾値８０４とを参照する（Ｓ３６２０）。なお、Ｓ３６２０は、Ｓ３６３０にマージされてもよく、その場合、Ｓ３６２０が無しにＳ５０００が行われてよい。

　次に、クエリ実行部１３１３は、ＧＣリスト２６００に登録されているタイムスタンプに対応するレコード群のＧＣが可能か否かの判断結果に基づきＧＣを実行するＧＣリスト回収処理（Ｓ５０００：図１１参照）を実行する。ここでは、ＴｘＩＤリスト２５００の参照タイムスタンプ６０３に該当しないタイムスタンプ（すなわち、終了したＴｘのタイムスタンプ）がＧＣリスト２６００に残っている場合に、そのタイムスタンプに対応するバージョンのレコードが、ＧＣリスト回収処理（Ｓ５０００）において削除される。

　次に、クエリ実行部１３１３は、Ｓ３６２０で参照した間隔閾値８０３及び開始閾値８０４に基づいて、ＧＣリスト２６００に登録するタイムスタンプを選択し、選択したタイムスタンプをＧＣリスト２６００に登録する（Ｓ３６３０）。具体的には、クエリ実行部１３１３は、現在時刻より開始閾値８０４前以上過去における時刻が開始時刻であるＴｘのタイムスタンプをＧＣリスト２６００に登録することと、間隔閾値８０３以上離れている差を有する２つの参照タイムスタンプをＧＣリスト２６００に登録することとの少なくとも一方を実行する。

　より具体的には、例えば、現在時刻が「１２：１０」であり、ＧＣ設定情報６０００が図８に示す状態であり、ＴｘＩＤリスト２５００が図６に示す状態であり、ＲｅｃｏｒｄＡ～ＲｅｃｏｒｄＣが、図５Ａ～図５Ｃに示す状態である場合、現在時刻「１２：１０」から開始閾値「０１：００」前は、時刻「１１：１０」である。時刻「１１：１０」以上過去に実行が開始されたＴｘは、開始時刻６０２が「１０：２３」であるＴｘ「１」であり、Ｔｘ「１」の参照タイムスタンプは「１０２」である。開始閾値８０４を用いてＧＣ対象のＴｘを選択することの処理負荷は、開始閾値を用いないでＧＣ処理対象のＴｘを選択することの処理負荷に比べて低い。Ｔｘの数が少なくて済むからである。

　また、例えば、間隔閾値「３０」以上離れている差を有する２つの参照タイムスタンプ（連続した２つの実行中Ｔｘの参照タイムスタンプ）は、「１０２」と「２０３」の組、及び、「２０３」と「２３４」の組である。従って、ＧＣリスト２６００に登録されるタイムスタンプは、「１０２」、「２０３」及び「２３４」であり、それらに対応したＴｘは、Ｔｘ「１」、「０」及び「４」である。間隔閾値８０３を用いてＧＣリスト２６００に登録されるタイムスタンプを選択する理由は、現在時刻と現在時刻から開始閾値８０４前との間にたくさんの更新が発生すると、メモリに多くのレコードが残っているためである。

　以上の結果、Ｓ３６３０では、タイムスタンプ７０１として、「１０２」、「２０３」及び「２３４」が、ＧＣリスト２６００に登録される。

　Ｓ３６３０の後、クエリ実行部１３１３は、ＧＣリスト２６００へのレコード群の登録、及び、ＧＣを実行する（Ｓ３６５０）。

　具体的には、クエリ実行部１３１３は、登録されたタイムスタンプ７０１に対応するレコード群７０２についてのリンクドリストを生成し、リンクドリストの先頭のレコードのアドレスをレコード群７０２としてＧＣリスト２６００に登録する。ここで、クエリ実行部１３１３は、タイムスタンプの大きい順にリンクドリストを生成する（リンクドリストにおけるレコードの並びは、タイムスタンプの大きい順に限らず、他の基準に沿った順序でもよいし、不規則な順序でもよい）。なお、タイムスタンプ７０１に対応する参照可能なレコード群７０２（リンクドリストの先頭のレコード）は、タイムスタンプ７０１より小さなタイムスタンプ５０１を持つ最新のレコードである。レコードは更新（ＵＰＤＡＴＥ）される度に、既存のレコードは古いレコードとなり、更新されたレコードが「最新のレコード」となる。例えば、図５ＡのＲｅｃｏｒｄＡで言うと、ＲｅｃｏｒｄＡ＃２６４（タイムスタンプ「２６４」に対応したＲｅｃｏｒｄＡ）が最新のＲｅｃｏｒｄＡであり、ＲｅｃｏｒｄＡ＃８０が、最古のＲｅｃｏｒｄＡである。このとき、タイムスタンプ「１３０」について参照可能なＲｅｃｏｒｄＡは、ＲｅｃｏｒｄＡ＃１２４である。また、リンクドリストを生成するときに、或るレコードのＧＣ５０４が既に記載済みであれば、クエリ実行部１３１３は、そのレコードを含んだレコード群に対応するタイムスタンプ７０１をＧＣリスト２６００から削除し、且つ、リンクドリストの生成において更新したレコードの５０４を初期化する。クエリ実行部１３１３は、リンクドリストの生成において、リンクドリストの最後のレコードのＧＣ５０４には、終端を意味する値（例えば「Ｎｕｌｌ」）を設定する。このようにレコード群をリンク構造とすることにより、データベースの全てのレコードを順次参照してレコードを探すいわゆるデータベーススキャン処理に比べて、低負荷でＧＣ可能なレコードを見つけることができる。

　レコード群７０２を登録した後、クエリ実行部１３１３は、ＧＣを実行する。例えば、クエリ実行部１３１３は、タイムスタンプ「１０２」より大きくタイムスタンプ「２０３」より小さいタイムスタンプのレコードをＧＣ（削除）する場合、以下の処理を実行する。すなわち、クエリ実行部１３１３は、まず、タイムスタンプ「１０２」と「２０３」のうち大きい方のタイムスタンプ「２０３」に対応するレコード群７０２が示すＲｅｃｏｒｄＡ＃１５５を特定する。クエリ実行部１３１３は、ＲｅｃｏｒｄＡ＃１５５のＰｒｅｖ５０３Ａを参照して、それの更新前ＲｅｃｏｒｄＡ＃１２４を特定する。ＲｅｃｏｒｄＡ＃１２４は、ＧＣリスト２６００のタイムスタンプ「２０３」の実行中Ｔｘ「０」で参照されるレコードでなく、また、タイムスタンプ「２０３」の１つ前のタイムスタンプ「１０２」の実行中Ｔｘ「１」で参照されるレコードでもないため、ＧＣ可能であると判断する。同様に、クエリ実行部１３１３は、ＲｅｃｏｒｄＡ＃１２４のＰｒｅｖ５０３Ａが示す更新前ＲｅｃｏｒｄＡ＃８０をＧＣ可能であるか否かを判断する。ＲｅｃｏｒｄＡ＃８０は、タイムスタンプ「１０２」の実行中Ｔｘ「１」で参照可能なレコードであるため、クエリ実行部１３１３は、ＧＣ不可能であると判断する。次に、ＧＣ可能であると判断されたＲｅｃｏｒｄＡ＃１２４をＧＣするために、クエリ実行部１３１３は、ＲｅｃｏｒｄＡ＃８０のＮｅｘｔ５０２Ａを、ＲｅｃｏｒｄＡ＃１２４のアドレスからＲｅｃｏｒｄＡ＃１５５のアドレスに変更し、ＲｅｃｏｒｄＡ＃１５５のＰｒｅｖ５０３Ａを、ＲｅｃｏｒｄＡ＃１２４のアドレスからＲｅｃｏｒｄＡ＃８０のアドレスに変更し、その後、ＲｅｃｏｒｄＡ＃１２４をメモリから削除する。次に、クエリ実行部１３１３は、ＲｅｃｏｒｄＡ＃１５５のＧＣ５０４Ａが示すＲｅｃｏｒｄＢ＃１７２（レコード群に登録されているタイムスタンプのうちタイムスタンプ「１５５」の次に大きいタイムスタンプ「１７２」を含むレコード）を特定する。クエリ実行部１３１３は、このような一連の処理と同様な処理を、参照したＧＣ５０４が終端値（ＮＵＬＬ）になるまで実行する。この処理により、タイムスタンプ「１０２」より大きくタイムスタンプ「２０３」より小さいタイムスタンプ（バージョン）に対応したレコードであって、実行中Ｔｘによって参照されないレコードを、メモリから削除することができる。

　同様に、ＧＣリスト２６００の他のタイムスタンプ間（例えば、タイムスタンプ「２０３」と「２３４」の間）のバージョンのレコードについても、実行中Ｔｘにより参照されないレコードをメモリから削除することができる。この処理では、レコード群のリンク（レコード群７０２が示すアドレス及びＧＣ５０４が示すアドレス）を辿ることにより、データベーススキャン無しに、ＧＣ対象になり得るレコードを特定でき、また、レコードのＰｒｅｖ５０３を辿ることにより、データベーススキャン無しに、更新前レコードを特定できるので、処理の負荷を抑えることができる。

　また、クエリ実行部１３１３は、ＧＣリスト２６００の最も小さいタイムスタンプ「１０２」より小さいタイムスタンプに対応したレコードであって、実行中のＴｘに参照されていないレコードもメモリから削除する。なお、最小タイムスタンプ「１０２」より小さいタイムスタンプに対応したレコードは、最小タイムスタンプ「１０２」に対応したレコード群７０２から辿ることで特定される。これにより、最小タイムスタンプ「１０２」より小さいタイムスタンプ（古いバージョン）のレコードであって、参照されないレコードをメモリから削除できる。

　Ｓ３６５０の後に、クエリ実行部１３１３は、マルチＧＣ処理を終了する（Ｓ３６９０）。

　図１１は、ＧＣリスト回収処理（Ｓ５０００）のフローチャートである。

　ＧＣリスト回収処理を開始すると（Ｓ５１００）、クエリ実行部１３１３は、ＧＣの実行を指定されたタイムスタンプ（以下、指定タイムスタンプ）があるか否かを判断する（Ｓ５２００）。この結果、指定タイムスタンプがあれば（Ｓ５２００：該当あり）、クエリ実行部１３１３は、処理をＳ５３００に移行し、指定タイムスタンプがなければ（Ｓ５２００：該当なし）、ＧＣリスト回収処理を終了する（Ｓ５９００）。

　Ｓ５３００では、クエリ実行部１３１３は、指定タイムスタンプのＧＣを実行する。ここで、指定タイムスタンプがＧＣリスト２６００のタイムスタンプ「２０３」である場合を例に取る。指定タイムスタンプ「２０３」に対応するレコード群７０２は、ＲｅｃｏｒｄＡ＃１５５のアドレスを示す。クエリ実行部１３１３は、ＲｅｃｏｒｄＡ＃１５５を削除するために、ＲｅｃｏｒｄＡ＃１５５のＮｅｘｔ５０２Ａが示す更新後ＲｅｃｏｒｄＡ＃２３１と、ＲｅｃｏｒｄＡ＃１５５のＰｒｅｖ５０３Ａが示す更新前ＲｅｃｏｒｄＡ＃１２４とを関連付ける。つまり、クエリ実行部１３１３は、ＲｅｃｏｒｄＡ＃２３１のＰｒｅｖ５０３ＡをＲｅｃｏｒｄＡ＃１２４のアドレスに変更するとともに、ＲｅｃｏｒｄＡ＃１２４のＮｅｘｔ５０２ＡをＲｅｃｏｒｄＡ＃２３１のアドレスに変更する。これにより、指定タイムスタンプに対応したレコードが削除されてもレコードバージョンの前後関係が維持される。次に、クエリ実行部１３１３は、ＲｅｃｏｒｄＡ＃１５５のＧＣ５０４Ａが示すＲｅｃｏｒｄＢ＃１７２を特定し、そのＲｅｃｏｒｄ＃１７２について、Ｒｅｃｏｒｄ＃１５５と同様の処理を行う。クエリ実行部１３１３は、このような処理を、ＧＣ５０４が終端値「ＮＵＬＬ」になるまで実行する。この後、クエリ実行部１３１３は、ＲｅｃｏｒｄＡ＃１５５を先頭とするレコード群のレコードをメモリから削除する。

　Ｓ５３００を実行した後、クエリ実行部１３１３は、ＧＣリスト回収処理を終了する（Ｓ５９００）。なお、このＧＣリスト回収処理（Ｓ５０００）は、上述した契機に代えて又は加えて別の契機に実行されてもよい。

　図１２は、Ｔｘ処理のフローチャートである。

　クエリ実行部１３１３は、Ｔｘ処理を開始し、ＴｘＩＤリスト２５００に、そのＴｘに対応したＴｘＩＤ６０１、開始時刻６０２、参照タイムスタンプ６０３、更新タイムスタンプ６０４、及び、状態６０５を含んだカラムを追加する。参照タイムスタンプ６０３は、現在のタイムスタンプ（最新のタイムスタンプ）の値である。その後、クエリ実行部１３１３は、データベースのレコードの参照及び更新のうちの少なくとも１つを含むＳＱＬ処理を実行する（Ｓ４１００）。この際、クエリ実行部１３１３は、ＳＱＬ処理の内容に応じてＴｘＩＤリスト２５００の状態６０５を更新する。このため、Ｓ４０００において登録された状態６０５は、不定値でよい。なお、Ｓ４０００において登録された状態６０５は、クエリソース（例えば計算機システム１１１０）から宣言された値でもよい。また、ＳＱＬ処理とは、受け付けたクエリに基づき生成されたクエリ実行プランに従う処理である。

　次に、クエリ実行部１３１３は、Ｔｘの後処理（ＣＯＭＭＩＴ処理）として、終了するＴｘに対応する更新タイムスタンプを取得し、ログ出力を行う（Ｓ４２００）。次に、クエリ実行部１３１３は、Ｔｘ終了時のＧＣリスト回収処理を実行する（Ｓ５０００）。このＧＣリスト回収処理では、クエリ実行部１３１３は、終了するＴｘのＴｘＩＤに対応する参照タイムスタンプ６０３と同じ値のタイムスタンプ７０１が、ＧＣリスト２６００にあれば、このタイムスタンプ７０１に対応したレコードのＧＣを実行する。ＧＣリスト回収処理（Ｓ５０００）の終了後、クエリ実行部１３１３は、Ｔｘ処理を終了する（Ｓ４９００）。

　このＴｘ処理においては、Ｔｘが参照していたバージョンのレコードがＧＣ対象であれば、このレコードのＧＣをＴｘの終了時に（ＣＯＭＭＩＴ）後に行うことができる。

　以上、実施形態を説明したが、本発明は、この実施形態に限定されるものでなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、メモリ１２０２は、記憶部の一例でよい。記憶部は、メモリ１２０２に代えて又は加えて、補助記憶デバイス（典型的には不揮発性の記憶デバイス）を含んでもよい。

　１１００：計算機システム　１２００：ノード　１２０１：プロセッサ　１２０２：メモリ　１３０１：ＤＢＭＳ

Claims

　記憶部に格納されており複数のレコードを有するデータベースに対するクエリを受け付ける受付部と、
　前記クエリに従いトランザクションを実行することによりいずれかのレコードを更新する場合、タイムスタンプが関連付けられている更新前レコードを前記記憶部に維持し、レコードの更新に伴いタイムスタンプを更新し、更新後のタイムスタンプを関連付けた更新後レコードを前記記憶部に格納する実行部と
を有し、
　前記実行部は、
　　実行中の第１のトランザクションに対応付けられたタイムスタンプである第１のタイムスタンプと、実行中の第２のトランザクションに対応付けられたタイムスタンプである第２のタイムスタンプとの間のタイムスタンプに対応したレコードのうち、実行中の他のトランザクションから参照されないレコードを、複数のタイムスタンプの各々での複数のレコードを基に特定し、
　　特定したレコードを前記記憶部から削除する、
データベースシステム。
　前記第１のトランザクションは、任意の１つの実行中のトランザクションであり、
　前記第２のトランザクションは、実行中のトランザクションのうちの、前記第１のタイムスタンプの次に値が大きいタイムスタンプに対応したトランザクションであり、
　前記第１及び第２のタイムスタンプは、それらの差分がタイムスタンプ間の差分の閾値である間隔閾値以上である、
請求項１記載のデータベースシステム。
　前記実行部が、現在時刻よりも所定時間前以上過去において開始された実行中トランザクションに対応したタイムスタンプのレコードを前記記憶部から削除し、
　前記実行部は、現在時刻と現在時刻よりも所定時間前との間に開始された実行中のトランザクションから、前記間隔閾値を用いて、前記第１及び第２のトランザクションに該当するトランザクションを特定する、
請求項２記載のデータベースシステム。
　前記実行部が、現在時刻よりも所定時間前以上過去において開始された実行中トランザクションに対応したタイムスタンプのレコードを前記記憶部から削除し、
　前記実行部は、現在時刻よりも所定時間前以上過去において開始された実行中トランザクションに対応したタイムスタンプと、前記第１及び第２のタイムスタンプとのうちの最も古いタイムスタンプよりも古いタイムスタンプのレコードを前記記憶部から削除する、
請求項３記載のデータベースシステム。
　前記間隔閾値は、ユーザから入出力デバイス経由で設定された値である、
請求項２記載のデータベースシステム。
　前記実行部は、タイムスタンプ毎に、そのタイムスタンプの時点でのレコード群を構成する２以上のレコードがシーケンシャルになるようレコード間を関連付ける、
　前記実行部は、対象のタイムスタンプの時点でのレコード群をレコード間の関連付けを辿ることで特定する、
請求項１記載のデータベースシステム。
　前記実行部は、前記第１及び第２のタイムスタンプの各々について、そのタイムスタンプと、そのタイムスタンプの時点でのレコード群の先頭のレコードのアドレスとを、削除対象のレコードに関する情報が登録される削除管理情報に登録し、
　前記実行部は、前記第１及び第２のタイムスタンプの各々について、前記削除管理情報を参照し、そのタイムスタンプに対応したアドレスからレコード間の関連付けを辿ることで、そのタイムスタンプの時点でのレコード群を特定する、
請求項６記載のデータベースシステム。
　前記実行部は、更新前レコードにその更新前レコードの更新後レコードのアドレスを関連付け、その更新後レコードにその更新後レコードの更新前レコードのアドレスを関連付け、
　前記実行部は、前記２のタイムスタンプに対応したレコードに関連付けられているアドレスに従いそのレコードの更新前レコードを特定し、特定した更新前レコードに対応するタイムスタンプを特定する、
請求項６記載のデータベースシステム。
　前記実行部は、
　　削除対象のレコードの更新後レコードに関連付けられている更新前レコードアドレスを、前記削除対象のレコードの更新前レコードアドレスに変更し、
　　前記削除対象のレコードの更新前レコードに関連付けられている更新後レコードアドレスを、前記削除対象のレコードの更新後レコードアドレスに変更する、
請求項１記載のデータベースシステム。
　前記実行部は、
　　トランザクションをコミットした後に、そのトランザクションが参照可能なレコードが削除対象か否かを判断し、
　　その判断結果が肯定の場合に、その削除対象のレコードを前記記憶部から削除する、
請求項１記載のデータベースシステム。
　前記実行部は、複数の方式のうちから選択されている方式に従ってレコード削除を実行し、
　前記複数の方式の１つが、前記第１及び第２のタイムスタンプ間のタイムスタンプに対応したレコードのうち実行中の他のトランザクションから参照されないレコードを削除する方式である、
請求項１記載のデータベースシステム。
　記憶部内のデータベースが有する複数のレコードのうちのいずれかのレコードを、トランザクションを実行することにより更新する場合、タイムスタンプが関連付けられている更新前レコードを記憶部に維持し、レコードの更新に伴いタイムスタンプを更新し、
　更新後のタイムスタンプを関連付けた更新後レコードを記憶部に格納し、
　実行中の第１のトランザクションに対応付けられたタイムスタンプである第１のタイムスタンプと、実行中の第２のトランザクションに対応付けられたタイムスタンプである第２のタイムスタンプとの間のタイムスタンプに対応したレコードのうち、実行中の他のトランザクションから参照されないレコードを、複数のタイムスタンプの各々での複数のレコードを基に特定し、
　特定したレコードを前記記憶部から削除する、
データベース管理方法。
　複数のレコードを記憶する記憶部と、
　トランザクションを実行することによりいずれかのレコードを更新する場合、タイムスタンプが関連付けられている更新前レコードを前記記憶部に維持し、レコードの更新に伴いタイムスタンプを更新し、更新後のタイムスタンプを関連付けた更新後レコードを前記記憶部に格納するプロセッサと
を有し、
　前記プロセッサは、
　　実行中の第１のトランザクションに対応付けられたタイムスタンプである第１のタイムスタンプと、実行中の第２のトランザクションに対応付けられたタイムスタンプである第２のタイムスタンプとの間のタイムスタンプに対応したレコードのうち、実行中の他のトランザクションから参照されないレコードを、複数のタイムスタンプの各々での複数のレコードを基に特定し、
　　特定したレコードを前記記憶部から削除する、
計算機システム。