JPWO2018109816A1 - データリバランスを制御するシステムおよび方法 - Google Patents

データリバランスを制御するシステムおよび方法 Download PDF

Info

Publication number
JPWO2018109816A1
JPWO2018109816A1 JP2018556050A JP2018556050A JPWO2018109816A1 JP WO2018109816 A1 JPWO2018109816 A1 JP WO2018109816A1 JP 2018556050 A JP2018556050 A JP 2018556050A JP 2018556050 A JP2018556050 A JP 2018556050A JP WO2018109816 A1 JPWO2018109816 A1 JP WO2018109816A1
Authority
JP
Japan
Prior art keywords
capacity
rebalance
function
storage
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018556050A
Other languages
English (en)
Other versions
JP6612995B2 (ja
Inventor
幸恵 田島
幸恵 田島
弘明 圷
弘明 圷
貴大 山本
貴大 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2018109816A1 publication Critical patent/JPWO2018109816A1/ja
Application granted granted Critical
Publication of JP6612995B2 publication Critical patent/JP6612995B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/10Program control for peripheral devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

データリバランス制御システムは、計算機システムに含まれる1以上の計算機に接続され圧縮機能を有する記憶デバイスを少なくとも1つ含んだ複数の記憶デバイスに対応した複数の物理容量を示す情報を含んだ容量情報を基に、リバランス機能を有するエンティティに対する指示内容を決定する。エンティティのリバランス機能は、複数の記憶デバイスに対応し当該エンティティが認識する複数の論理容量の配分を決められた配分となるようデータをリバランスする機能である。決定された指示内容は、論理容量配分に関する定義を含む。そのような指示内容に従いデータをリバランスすることの指示であるリバランス指示を、データリバランス制御システムがエンティティに送信する。

Description

本発明は、データリバランスの制御に関する。
一般に、ITインフラには高いコスト対効果が求められている。記憶デバイスのビットコストを低減させる効果のあるデータ圧縮技術は、今後普及していくと考えられる。
また、近年、スモールスタートおよびスケールアウトが容易である分散アプリケーションの市場は拡大している。分散アプリケーションとしては、データを複数のサーバに分散して格納するアプリケーションがある。
データの格納が特定サーバに集中して、容量不足が生じることで、書き込み失敗が発生するおそれがある。
例えば、特許文献1によれば、単一のストレージ装置において、圧縮機能を有する記憶デバイス間で、データがリバランスされる。
WO2014/184941
以下の説明では、記憶デバイスの実際の記憶容量を「物理記憶容量」と言い、記憶デバイスに実際に格納されているデータの総量を「物理使用容量」と言い、物理記憶容量と物理使用容量との差分を「物理残容量」と言う。一方、記憶デバイスが提供する論理記憶空間の記憶容量を「論理記憶容量」と言い、論理記憶空間に格納されているデータの総量を「論理使用容量」と言い、論理記憶容量と論理使用容量との差分を「論理残容量」と言う。
また、以下の説明では、物理使用容量、物理残容量、物理残割合(物理記憶容量に対する物理残容量の割合)、および、物理使用割合(物理記憶容量に対する物理使用容量の割合)のいずれかを意味することを「物理容量」と総称し、論理使用容量、論理残容量、論理残割合(論理記憶容量に対する論理残容量の割合)、および、論理使用割合(論理記憶容量に対する論理使用容量の割合)のいずれかを意味することを「論理容量」と総称することがある。
記憶デバイスが圧縮機能を持つ場合、アプリケーションが認識するデータ量は、記憶デバイスに格納される圧縮済のデータ量と異なる。結果として、アプリケーションが認識する使用容量(論理使用容量)または残容量(論理残容量)は、物理使用容量または物理残容量と異なる。
アプリケーション(例えば分散アプリケーション)として、リバランス機能を有するアプリケーションが知られている。しかし、そのようなアプリケーションは、一般に、そのアプリケーションが認識する論理容量が平準化するようデータを記憶デバイス間でリバランスするようになっている。このため、論理容量が平準化しても、物理容量は平準化しない。
特許文献1の技術を利用すれば、物理容量の平準化が期待される。しかし、上述したように、リバランス機能を有するアプリケーションは、一般に、そのアプリケーションが認識する論理容量が平準化するようデータをリバランスするようになっている。このため、物理容量が一旦平準化したとしても、アプリケーションが論理容量が平準化するようデータをリバランスしてしまうため、物理容量の平準化の維持が困難であると考えられる。
このような問題は、論理容量が平準化するようデータをリバランスするようになっているリバランス機能が実行され得る他の環境についてもあり得る。
データリバランス制御システムは、計算機システムに含まれる1以上の計算機に接続され圧縮機能を有する記憶デバイスを少なくとも1つ含んだ複数の記憶デバイスに対応した複数の物理容量を示す情報を含んだ容量情報を基に、リバランス機能を有するエンティティに対する指示内容を決定する。エンティティのリバランス機能は、複数の記憶デバイスに対応し当該エンティティが認識する複数の論理容量の配分を決められた配分となるようデータをリバランスする機能である。決定された指示内容は、論理容量配分に関する定義を含む。そのような指示内容に従いデータをリバランスすることの指示であるリバランス指示を、データリバランス制御システムがエンティティに送信する。
本発明により、エンティティのリバランス機能が決められた論理容量配分通りにデータをリバランスしても特定の記憶デバイスの物理残容量が不足しないことを期待できる。
第一の実施例に係る情報システムの全体構成を示すブロック図。 図1に示した計算機および記憶デバイスの構成を示すブロック図。 図1に示したマネージャの構成を示すブロック図。 図3に示したリバランス優先度テーブルの一例を示す模式図。 図3に示した枯渇条件テーブルの一例を示す模式図。 図3に示したノード容量テーブルの一例を示す模式図。 テーブル設定処理のフローチャート。 容量監視処理のフローチャート。 リバランス制御処理のフローチャート。 第二の実施例に係る情報システムの構成を示すブロック図。 第二の実施例に係る計算機の構成を示すブロック図。 アプリ別リバランス優先度テーブルの一例を示す模式図。 アプリ別枯渇条件テーブルの一例を示す模式図。 リバランス宣言処理のフローチャート。 第三の実施例に係る計算機の構成を示すブロック図。 第四の実施例に係る計算機の構成を示すブロック図。 第五の実施例に係る情報システムの全体構成を示すブロック図。
以下の説明では、「アプリ」とは、アプリケーションプログラムの略である。
また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号を使用し、同種の要素を区別する場合は、要素のIDを使用することがある。例えば、アプリを区別しない場合には、「アプリ212」と言い、アプリを区別する場合には、「アプリa1」、「アプリa2」、「アプリa3」のように言う。
また、以下の説明では、「インターフェース部」は、1以上のインターフェースを含む。1以上のインターフェースは、1以上の同種のインターフェースデバイス(例えば1以上のNIC(Network Interface Card))であってもよいし2以上の異種のインターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
また、以下の説明では、「記憶部」は、1以上のメモリを含む。少なくとも1つのメモリは、揮発性メモリであってもよいし不揮発性メモリであってもよい。記憶部は、主に、プロセッサ部による処理の際に使用される。
また、以下の説明では、「プロセッサ部」は、1以上のプロセッサを含む。少なくとも1つのプロセッサは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサである。1以上のプロセッサの各々は、シングルコアでもよいしマルチコアでもよい。プロセッサは、処理の一部または全部を行うハードウェア回路を含んでもよい。
また、以下の説明では、「xxxテーブル」といった表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「xxxテーブル」を「xxx情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部または一部が1つのテーブルであってもよい。
また、以下の説明では、「計算機システム」は、1以上の物理的な計算機を含む。少なくとも1つの物理的な計算機が、仮想的な計算機(例えばVM(Virtual Machine))を実行してもよいし、SDx(Software-Defined anything)を実行してもよい。SDxとしては、例えば、SDS(Software Defined Storage)(仮想的なストレージ装置の一例)またはSDDC(Software-defined Datacenter)を採用することができる。
また、以下の説明では、「管理システム」は、一以上の計算機で構成されてよい。具体的には、例えば、管理計算機が表示デバイスを有していて管理計算機が自分の表示デバイスに情報を表示する場合、管理計算機が管理システムでよい。また、例えば、管理計算機(例えばサーバ)が表示用情報を遠隔の表示用計算機(例えばクライアント)に送信し表示用計算機がその情報を表示する場合(管理計算機が表示用計算機に情報を表示する場合)、管理計算機と表示用計算機とのうちの少なくとも管理計算機を含んだシステムが管理システムでよい。管理システムは、インターフェース部、記憶部およびそれらに接続されたプロセッサ部を有してよい。インターフェース部は、ユーザインターフェース部と、通信インターフェース部とのうちの少なくとも1つを含んでよい。ユーザインターフェース部は、1以上のI/Oデバイス(例えば入力デバイス(例えばキーボードおよびポインティングデバイス)と出力デバイス(例えば表示デバイス))と表示用計算機とのうちの少なくとも1つのI/Oデバイスを含んでよい。通信インターフェース部は、1以上の通信インターフェースデバイスを含んでよい。管理システムにおける計算機が「表示用情報を表示する」ことは、計算機が有する表示デバイスに表示用情報を表示することであってもよいし、計算機が表示用計算機に表示用情報を送信することであってもよい(後者の場合は表示用計算機によって表示用情報が表示される)。
また、以下の説明では、「kkk部」の表現にて処理部(機能)を説明することがあるが、処理部は、1以上のコンピュータプログラムがプロセッサ部によって実行されることで実現されてもよいし、1以上のハードウェア回路(例えばFPGAまたはASIC(Application Specific Integrated Circuit))によって実現されてもよい。プログラムがプロセッサ部によって処理部が実現される場合、定められた処理が、適宜に記憶資源(例えばメモリ)および/または通信インターフェイスデバイス(例えば通信ポート)等を用いながら行われるため、処理部はプロセッサ部の少なくとも一部とされてもよい。処理部を主語として説明された処理は、プロセッサ部あるいはそのプロセッサ部を有する装置が行う処理としてもよい。また、プロセッサ部は、処理の一部または全部を行うハードウェア回路を含んでもよい。プログラムは、プログラムソースからプロセッサにインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機または計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各処理部の説明は一例であり、複数の処理部が1つの処理部にまとめられたり、1つの処理部が複数の処理部に分割されたりしてもよい。
また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ部によって実行されることで、定められた処理を、適宜に記憶部およびインターフェース部のうちの少なくとも1つを用いながら行うため、処理の主語が、プロセッサ部(或いは、プロセッサ部を有する計算機)とされてもよい。プログラムは、プログラムソースから計算機にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
また、以下の説明では、管理システムと計算機(計算機システムにおける少なくとも1つの計算機)とのうちの少なくとも1つが、データリバランス制御システムの一例である。データリバランス制御システムは、管理システムと、計算機システムにおける少なくとも1つの計算機とのうちの少なくとも1つとを含んでよい。
また、以下の説明では、「物理容量」は、典型的には物理残容量を意味し、「論理容量」は、典型的には論理残容量を意味するものとする。
以下、図面を参照して、本発明の幾つかの実施例を説明する。
図1は、第一の実施例に係る情報システムの全体構成を示す。
情報システムは、管理システム161、ホストシステム162、計算機システム、および、複数の記憶デバイス101を含む。管理システム161、ホストシステム162および計算機システムが、ネットワーク104を介して通信することができる。ネットワーク104は、例えばIP(Internet Protocol)ネットワークである。
管理システム161は、マネージャ103を実行する。
ホストシステム162は、1以上のホスト計算機であり、1以上のアプリ212(例えばアプリa2)を実行する。
計算機システムは、1以上の計算機102(例えば計算機AおよびB)を含む。1以上の計算機102には、1以上の記憶デバイス101(例えば記憶デバイスA〜C)が接続される。1以上の計算機102は、記憶デバイス101と同数のノード111(例えばノードn1〜n3)を有する。ノード111は、計算機102において実行されるコンピュータプログラムの一例でよい。ノード111と記憶デバイス101は、一対一で対応するものとする。すなわち、ノードn1〜n3は、それぞれ、記憶デバイスA〜Cに対応するものとする。
また、1以上の計算機102のうちの少なくとも1つにおいて、アプリ212が実行される。例えば、計算機Aにおいて、アプリa1が実行され、計算機Bにおいて、アプリa3が実行されるとする。アプリ212は、Webアプリケーションでもよいし、ミドルウェアでもよいし、OS(Operating System)でもよい。少なくとも1つの計算機102において、ノード111以外のコンピュータプログラムのうちの少なくとも1つが、アプリ212に該当し得る。本実施例では、アプリa1〜a3のうちの少なくともアプリa1またはa3が、分散アプリケーションでよい。具体的には、例えば、記憶デバイスA〜Cがそれぞれ提供する論理記憶空間を、アプリa1およびa3のうちの少なくとも1つが認識していてよく、アプリa1およびa3の少なくとも1つが、複数の論理記憶空間の間において論理容量(当該アプリが認識する論理容量)の配分が決められた配分となるようにデータをリバランスするリバランス機能を有していてよい。
図2は、記憶デバイス101と計算機102の構成を示す。
1以上の記憶デバイス101のうちの少なくとも1つが圧縮機能を有するが、本実施例では、各記憶デバイス101が、圧縮機能289を有する。
記憶デバイス101は、記憶媒体201と、記憶媒体201に対するデータのI/O(Input/Output)を制御するコントローラであるデバイスコントローラ282とを有する。
各記憶デバイス101は、典型的には、物理的な不揮発性の記憶デバイスであり、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)である。このため、記憶媒体201は、例えば、ハードディスクまたはフラッシュメモリ(1以上のフラッシュメモリチップ)である。本実施例では、各記憶デバイス101は、SSDであるとする。
デバイスコントローラ282は、記憶媒体201に接続されている。また、デバイスコントローラ282は、計算機102に接続される。デバイスコントローラ282は、例えば、プロセッサやメモリといった計算機リソースを有してよい。デバイスコントローラ282は、計算機102からI/Oコマンドを受け付け、そのI/Oコマンドに従い、記憶媒体201に対するデータのライトまたはリードを実行する。デバイスコントローラ282は、記憶媒体201の物理記憶容量、物理使用容量および物理残容量を管理できる。デバイスコントローラ282は、記憶媒体201に基づく論理記憶空間を計算機102に提供できる。デバイスコントローラ282は、圧縮機能289を有する。また、圧縮機能289は、コンピュータプログラムがプロセッサにより実行されることによって実現されてもよいし、ハードウェア回路(例えばASIC(Application Specific Integrated Circuit)またはFPGA(Field-Programmable Gate Array))として実現されてもよい。
計算機102は、FE I/F(フロントエンドインターフェースデバイス)256、BE I/F(バックエンドインターフェースデバイス)258、メモリ252、およびそれらに接続されたプロセッサ251を有する。
FE I/F256は、ネットワーク104に接続される。BE I/F258は、記憶デバイス101のデバイスコントローラ282に接続される。FE I/F256およびBE I/F258が、インターフェース部の一例である。
メモリ252は、記憶部の一例であり、ノード111と1以上のアプリ212を格納する。ノード111およびアプリ212が、プロセッサ251によって実行される。
ノード111は、そのノード111に対応した記憶デバイス101の論理記憶空間を、そのノード111を実行する計算機102内のアプリ212に提供する。ノード111は、そのノード111に対応した記憶デバイス101の論理記憶空間を、そのノード111を実行する計算機102外のアプリ212に提供してもよい。ノード111は、論理記憶空間に対するI/O要求を受け付け、そのI/O要求に従い、そのノード111に対応する記憶デバイス101に対してデータのライトまたはリードを実行する(I/Oコマンドを記憶デバイス101に送信する)。ノード111は、その対応する記憶デバイス101に対するライト対象のデータ(ライト対象データのI/O要求)を、例えばデータの冗長性維持のために、他記憶デバイス101に接続されているノード111(例えば、他計算機102内のノード111)に転送することができる。転送されたライト対象データは他記憶デバイス101に格納されてよい。ノード111は、例えばSDS(Software Defined Storage)でよい。ノード111は、ストレージサービス221を有する。
ストレージサービス221は、I/O要求を受け付けそのI/O要求に従い記憶デバイス101に対してデータのライトまたはリードを実行する仮想的なコントローラである仮想的なストレージコントローラに相当する。つまり、ストレージサービス221、または、ストレージサービス221を含んだノード111が、ストレージ制御機能の一例である。ストレージサービス221は、容量監視機能231、容量通知機能232、およびリバランス機能233を有する。容量監視機能231は、この機能231を含んだノード111に対応する記憶デバイス101の論理容量および物理容量を監視する(例えば定期的にチェックする)。容量通知機能232は、容量監視機能231により特定された論理容量および物理容量をマネージャ103に通知する。リバランス機能233は、データをリバランスする。
アプリ212は、リバランス機能241を有する。リバランス機能241は、データをリバランスする。
リバランス機能233および241は、同一の機能であっても異なる機能であってもよい。後者の場合、リバランス機能233は、第1のリバランス方法に従うリバランスを実行し、リバランス機能241は、第2のリバランス方法に従うリバランスを実行してもよい。リバランス機能233および241のうちの少なくともリバランス機能241(アプリ212が有するリバランス機能241)は、アプリ212が物理容量を把握することは通常できないため、そのリバランス機能241に定義されている論理容量配分通りに(例えば論理容量が平準化するように)データをリバランスするようになっている。
図3は、管理システム161の構成を示す。
管理システム161は、入力デバイス355、出力デバイス356、I/F(インターフェースデバイス)358、メモリ352、およびそれらに接続されたプロセッサ351を有する。
入力デバイス355、例えばキーボードおよびポインティングデバイスである。出力デバイス356は、例えば液晶ディスプレイのような表示デバイスである。入力デバイス355および出力デバイス356が、例えばタッチパネルのように一体であってもよい。
I/F358は、ネットワーク104に接続される。I/F358が、インターフェース部の一例である。
メモリ352は、記憶部の一例であり、マネージャ103を格納する。マネージャ103が、プロセッサ351によって実行される。
マネージャ103は、リバランス機能(例えばアプリのようなエンティティ)とストレージ制御機能(本実施例ではストレージサービス221)とを連携するリバランス制御機能の一例である。ここで言う「連携」とは、容量(論理容量および物理容量)を表す情報を含んだ容量情報をストレージ制御機能から受信することと、受信した容量に基づきリバランス指示をリバランス機能に対して送信することを意味する。これにより、物理容量を把握できないエンティティが行うリバランスを物理容量に基づいて制御することができる。マネージャ103は、テーブル設定機能301、容量受信機能302、枯渇検知機能303、リバランス選択機能304およびリバランス指示機能305を有する。また、マネージャ103は、リバランス優先度テーブル306、枯渇条件テーブル307およびノード容量テーブル308を管理する。
テーブル設定機能301は、テーブル306〜308の設定および更新を行う。容量受信機能302は、記憶デバイス101の論理容量および物理容量を表す情報である容量情報をノード111から受信する。枯渇検知機能303は、容量枯渇を検知する。リバランス選択機能304は、リバランス機能を選択する。リバランス指示機能305は、選択されたリバランス機能に対するリバランス実施を指示する。
以下、リバランス優先度テーブル306、枯渇条件テーブル307およびノード容量テーブル308を説明する。
図4Aは、リバランス優先度テーブル306の一例を示す。
リバランス優先度テーブル306は、リバランス機能に関する情報を保持する。リバランス優先度テーブル306は、リバランス機能毎に、リバランス機能を識別するIDであるリバランスID421と、当該リバランス機能を持つアプリを識別するIDであるアプリID422と、当該リバランス機能の優先度を示す優先度423といった情報を保持する。本実施例では、優先度423の値が小さいほど、高い優先度となる。また、リバランス機能を有する対象がストレージサービス221の場合、ストレージサービス221のIDがアプリIDとして登録されてもよい。
例えば、1番目の行によれば、リバランス機能r1(リバランスID“r1”で識別されるリバランス機能)の優先度が“2”であり、アプリa2およびa3(アプリID“a2”および“a3”でそれぞれ識別されるアプリ212)の各々がリバランス機能r1を有している。また、1番目の行と2番目の行によれば、アプリa1とアプリa3が動作しているノードでリバランスを実施する場合、アプリa3が有するリバランス機能r1の優先度が“2”であり、アプリa1が有するリバランス機能r2の優先度が“1”であることから、優先度が“1”であるアプリa1のリバランス機能r2を優先的に実施する。
図4Bは、枯渇条件テーブル307の一例を示す。
枯渇条件テーブル307は、枯渇条件に関する情報を保持する。枯渇条件テーブル307は、ノード111毎に、ノード111を識別するIDであるノードID431と、当該ノード111に対応する記憶デバイス101にデータを格納するアプリ212と当該アプリ212がデータを格納する記憶デバイス101に対応するノード111の一覧を示すアプリ稼働432と、当該ノード111に対応する記憶デバイス101の容量枯渇の定義である枯渇条件を示す枯渇条件433といった情報を保持する。アプリ稼働432は、アプリIDと、当該アプリIDに対応したアプリのデータ格納先である記憶デバイス101に対応するノード111を識別するノードIDとの組合せである。
例えば、1番目の行によれば、ノードn1(ノード識別子“n1”で識別されるノード111)に対応する記憶デバイス101には、アプリa1およびアプリa3がデータを格納するようになっている。当該記憶デバイス101にデータを格納するアプリa1は、ノードn1、ノードn2、ノードn3に対応する記憶デバイス101にもデータを格納する。また、当該記憶デバイス101にデータを格納するアプリa2は、ノードn1、ノードn2、ノードn3に対応する記憶デバイス101にもデータを格納する。ノードn1に対応する記憶デバイス101は、当該記憶デバイス101の物理残容量が10GB未満であり、かつ、物理残容量が論理残容量未満である場合に、容量枯渇と判断される。
なお、「論理容量」とは、論理使用容量又は論理残容量であり、アプリ212が認識する容量である。「物理容量」とは、物理使用容量又は物理残容量であり、記憶デバイス101が認識する容量である。アプリ212が記憶デバイス101に格納するデータは、記憶デバイス101の圧縮機能289により圧縮された後、その記憶デバイス101の記憶媒体201に格納される。つまり、論理使用容量は圧縮前の容量、物理使用容量は圧縮後の容量と言うこともできる。
枯渇条件は、複数の記憶デバイス101(複数のノード111)のうちの2以上の記憶デバイス101(2以上のノード111)について異なっていてもよい。つまり、記憶デバイス101によって異なる枯渇条件が採用されてもよい。枯渇条件は、リバランス実行要の条件の一例である。記憶デバイス101によって異なる枯渇条件が採用されることで、柔軟なデータリバランス、例えば、記憶デバイス101(ノード111)にとってより適切なタイミングでデータをリバランスすることが期待できる。
図4Cは、ノード容量テーブル308の一例を示す。
ノード容量テーブル308は、ノード111が管理する容量に関する情報を保持する。ノード容量テーブル308は、ノード111毎に、ノード111を識別するIDであるノードID441と、当該ノード111に対応する記憶デバイス101の論理記憶容量のうちの論理使用容量を示す論理使用容量442と、当該ノード111に対応する記憶デバイス101の論理記憶容量のうちの論理残容量を示す論理残容量443と、当該ノード111に対応する記憶デバイス101の物理記憶容量のうちの物理使用容量を示す物理使用容量444と、当該ノード111に対応する記憶デバイス101の物理記憶容量のうちの物理残容量を示す物理残容量445といった情報を保持する。
例えば、1番目の行によれば、ノードn1に対応する記憶デバイス101の論理記憶容量のうち、400GBが論理使用容量であり、200GBが論理残容量である。当該記憶デバイス101の物理記憶容量のうち、60GBが物理使用容量であり、140GBが物理残容量である。
図4Cのノード容量テーブル308によれば、全ての記憶デバイス101の物理記憶容量は同じ(200GB)であるが、物理記憶容量の異なる記憶デバイス101が混在していてもよい。
図5は、マネージャ103により実施されるテーブル設定処理のフローチャートである。本処理は、ユーザ(例えば管理者)により設定が更新される際に実施される。
テーブル設定機能301は、ユーザから、入力デバイス355経由で、アプリ212に関する情報(例えばアプリID)と、当該アプリ212が用いる記憶デバイス101に対応したノード111に関する情報(例えばノードID)との入力を受ける(ステップ501)。
テーブル設定機能301は、ユーザから、入力デバイス355経由で、ノード111について、そのノード111に対応した記憶デバイス101の枯渇条件に関する情報の入力を受ける(ステップ502)。
テーブル設定機能301は、ステップ501とステップ502で受けた情報を枯渇条件テーブル307に登録する、すなわち、枯渇条件テーブル307を更新する(ステップ503)。この際、記憶デバイス101とノード111は一対一で対応しているため、テーブル設定機能301は、記憶デバイス101に関する情報からノード111を一意に決定することができる。なお、枯渇条件433として初期値が予め登録されていてもよい(ステップ502がスキップされてもよい)。
テーブル設定機能301は、ユーザから、入力デバイス355経由で、アプリ212が有するリバランス機能241に関する情報(例えば、リバランスIDおよびアプリID)を受ける(ステップ504)。
テーブル設定機能301は、ユーザから、入力デバイス355経由で、リバランス機能241の優先度に関する情報(例えば優先度としての値)を受ける(ステップ505)。
テーブル設定機能301は、ステップ504とステップ505で受けた情報をリバランス優先度テーブル306に登録する、つまり、リバランス優先度テーブル306を更新する(ステップ506)。なお、アプリIDおよびリバランスIDは予めテーブル306に登録されていてもよい(ステップ504がスキップされてもよい)。
図6は、ストレージサービス221により実施される容量監視処理のフローチャートである。本処理は、例えば定期的に実施される。また、図6の説明において、ストレージサービス221を含んだノード111を「対象ノード111」と言う。
容量監視機能231は、対象ノード111に対応する記憶デバイス101に容量情報を要求する(ステップ601)。容量監視機能231は、記憶デバイス101から容量情報として、当該記憶デバイス101の論理使用容量、論理残容量、物理使用容量および物理残容量を示す情報を受信する(ステップ602)。
容量通知機能232は、ステップ602で容量監視機能231が受信した容量情報をマネージャ103に通知する(ステップ603)。
マネージャ103は、容量情報を受信する度に、次のような容量情報更新処理を実施する。すなわち、容量受信機能302は、受信した容量情報(論理使用容量、論理残容量、物理使用容量および物理残容量を示す情報)を、ノード容量テーブル308に登録する。
図7は、マネージャ103により実施されるリバランス制御処理のフローチャートである。本処理は例えば定期的に実施される。
枯渇検知処理を実施していないノードである未実施ノードがある場合(ステップ701:YES)、枯渇検知機能303は、当該未実施ノードに対応した記憶デバイスが容量枯渇しているか否かを、枯渇条件テーブル307とノード容量テーブル308を参照して判断する(ステップ702)。
例えば、図4Bの枯渇条件テーブル307において、ノードn1の枯渇条件から、当該ノードn1では、物理残容量が10GB未満、かつ、物理残容量が論理残容量未満の時に枯渇と判断される。ノード容量テーブル308において、ノードn1の論理残容量は200GBであり、物理残容量は140GBである。ノードn1の枯渇条件が満たされていないため、ノードn1については枯渇は検知されない。
ステップ702において、枯渇が検知されない場合(ステップ702:NO)、ステップ701に戻る。ステップ701において、全てのノードで枯渇検知処理が実施済みの場合(ステップ701:NO)、本リバランス制御処理が終了する。
また、例えば、枯渇条件テーブル307において、ノードn2の枯渇条件から、当該ノードn2では物理残容量が10GB未満、かつ、物理残容量が論理残容量未満の時に枯渇と判断される。ノード容量テーブル308において、ノードn2の論理残容量は200GBであり、物理残容量は8GBである。ノードn2の枯渇条件が満たされているため、ノードn2については枯渇が検知される。
ステップ702で、枯渇が検知される場合(ステップ702:YES)、リバランス選択機能304は、枯渇条件テーブル307とリバランス優先度テーブル306を参照してリバランス方法を検索する(ステップ703)。例えば、ステップ702でノードn2における枯渇が検知されている場合、リバランス選択機能304は、枯渇条件テーブル307のアプリ稼働432から、当該ノードn2に対応する記憶デバイス101にはアプリa1とアプリa3がデータを格納していることがわかる。また、リバランス優先度テーブル306から、アプリa1はリバランス機能r2が実施可能なこと、アプリa3はリバランス機能r1とリバランス機能r3が実施可能とわかる。なお、当該リバランス制御処理において、当該ノードn2において当該アプリに対して実施済のリバランス機能は、本ステップにおける検索対象から除外する。このように枯渇が検知された場合にリバランス機能の検索へと進むので、枯渇が検知されないといったリバランス不要状況のときにまでリバランス機能を走らせることを避けることができる。
ステップ703で実施可能なリバランス機能が見つからない場合(ステップ703:NO)、リバランス選択機能304は、容量不足である警告をユーザに通知し(例えば警告を出力デバイス356に表示し)(ステップ704)、ステップ701に戻る。
ステップ703で実施可能なリバランス機能が見つかった場合(ステップ703:YES)、リバランス選択機能304は、リバランス優先度テーブル306を参照して、実施するリバランス機能を選択する(ステップ705)。例えば、ステップ703についての上述の例によれば、アプリa3に対してリバランス機能r1、アプリa1に対してリバランス機能r2、アプリa3に対してリバランス機能r3を実施することが可能である。リバランス優先度テーブル306の優先度423を参照すると、リバランス機能r1の優先度は“2”、リバランス機能r2の優先度は“1”、リバランス機能r3の優先度は“3”であることがわかる。つまり、リバランス機能r2の優先度が最も高いことがわかる。このため、リバランス選択機能304は、アプリa1の有するリバランス機能r2を選択する。このように、複数のリバランス機能を実施することが可能な場合には優先度の最も高いリバランス機能を優先することができる。
例えば、ステップ705で選択されたリバランス機能(例えば、当該リバランス機能を有するアプリ)は、典型的には、各ノード111(記憶デバイス101)に、そのノード111に対応した格納割合に従う量のデータを格納するようになっている。格納されるデータは、圧縮されていないデータである。つまり、ステップ705で選択されたリバランス機能は、典型的には、各ノード111に対応した論理容量が、そのリバランス機能に対して定義されている格納割合通りの論理容量となるように、データをリバランスするようになっている。
そこで、リバランス指示機能305は、ノード容量テーブル308を参照し、ステップ705で選択されたリバランス機能に対するリバランス指示の指示内容として、物理容量が平準化するような指示内容を決定する(ステップ706)。例えば、リバランス指示機能305は、ノード容量テーブル308を参照し、ステップ705で選択されたリバランス機能を実施するアプリがデータを格納しているノードに対応する記憶デバイスの圧縮率を、例えば当該ノードに対応した論理使用容量及び物理使用容量を基に算出し、現在各ノードへのデータを格納割合に、これら圧縮率の逆数を掛けあわせ、このようにして決定された格納割合の配分に関する定義を含んだ指示内容を決定してよい。あるいは、リバランス指示機能305は、最も圧縮率の低いノードへ(あるいは、例えば、最も物理残容量の少ないノード)の格納割合を一定数減らし、最も圧縮率の高いノード(あるいは、例えば、最も物理残容量の多いノード)への格納割合を一定数増やすことを意味する格納割合配分の定義を含んだ指示内容を決定してもよい。このように、リバランス指示に含まれる指示内容は、複数の物理容量が平準化するための論理容量配分に関する定義を含む。なお、「物理容量の平準化」は、複数の記憶デバイス101のうちの少なくとも1つの記憶デバイスの物理残容量が枯渇する(例えばゼロになる)ことを防ぐことの一例である。
リバランス指示機能305は、ステップ705で選択されたリバランス機能を持つアプリ212に、ステップ706で決定した指示内容に従いデータをリバランスすることの指示であるリバランス指示を送信する(ステップ707)。このリバランス指示に応答して、その指示を受けたアプリ212内のリバランス機能241が、そのリバランス指示に含まれる指示内容に従ってデータのリバランスを実施する。
なお、データのリバランスとは、典型的には、リバランス機能(リバランス指示を受けた機能)が、リバランス指示に従う変更後の配分(格納割合の比率)になるよう、ノード111間(記憶デバイス101間)でデータを移動することを含む。そのデータ移動に伴い、ノード111間で、論理容量の比率が、変更後の配分に近づき、結果として、物理容量が平準化していく。
リバランス機能241は、リバランスが終了した場合(例えば、指示内容に従う変更後の格納割合の比率と論理容量の比率との差が所定値以下になった場合)、リバランス終了をマネージャ103に返す。
リバランス指示機能709は、アプリ212(リバランス機能241)からリバランス終了の通知を受信する(ステップ708)。通知受信後、ステップ702に戻り、枯渇検知機能303は、当該ノードが容量枯渇のままか否かを判断する。この判断結果が偽の場合(ステップ702:NO)、つまり、当該ノードの容量枯渇が解消された場合、ステップ701に戻る。
以上が、第一の実施例についての説明である。本実施例によれば、マネージャ103が、記憶デバイス101の物理容量を監視するノード111と、定義された配分(格納割合)通りにデータをリバランスする(論理容量を制御する)リバランス機能(アプリ212)とを連携するようになっている。マネージャ103は、全てのノード111から物理容量を表す情報を取得し、全てのノード111の物理容量が平準化するように、リバランス機能が実施するリバランス(データ量の配分)を制御する。これにより、いずれのリバランス機能がそのリバランス機能に定義されている配分(格納割合)通りにデータをリバランスしても、物理容量の平準化を維持すること(言い換えれば、物理残容量の不足を避けること)が期待できる。
なお、図7のステップ706で決定される指示内容は、選択されたリバランス機能によって異なってよい。例えば、第1のリバランス機能については、指示内容は、物理残容量が不足し論理残容量に余裕のあるノードから一部の論理容量を確保すること、および、確保した論理容量を、物理残容量に余裕があり論理残容量が不足したノードに加えることを、含んでもよい。また、例えば、第2のリバランス機能については、指示内容は、物理残容量と比較して過剰に大きい論理残容量を有するノード以外のノードにその論理残容量を配分することを含んでもよいし、物理残容量が小さいノードの論理残容量を物理残容量が大きいノードの論理残容量に追加することを含んでもよい。
第二の実施例を説明する。その際、第一の実施例との相違点を主に説明し、第一の実施例との共通点については説明を省略又は簡略する。
図8は、第二の実施例に係る情報システムの全体構成を示す。
情報システムは、複数の記憶デバイス101と、複数の記憶デバイス101が接続される1以上の計算機802を含んだ計算機システムとを有する。なお、計算機802が1台の場合は、ネットワーク104は使用されないでよい。
1以上の計算機802は、複数の記憶デバイス101(例えば記憶デバイスA〜C)にそれぞれ対応した複数のノード111(例えばノードn11、n12およびn13)を有する。
第二の実施例は、マネージャが情報システムの構成に含まれない点、および、アプリが後述のアプリ別マネージャを有する点が、第一の実施例とは異なる。
図9は、第二の実施例に係る計算機802の構成を示す。
計算機802のメモリ252には、ノード911の他に、アプリ912が格納される。ノード911およびアプリ912が、プロセッサ251により実行される。
アプリ912は、リバランス機能241の他に、アプリ別マネージャ901を有する。
アプリ別マネージャ901は、テーブル設定機能301、リバランス指示機能305、枯渇検知機能303、容量受信機能302、リバランス宣言機能921、および、アプリ別リバランス選択機能925を有する。アプリ別マネージャ901は、ノード容量テーブル308、動作フラグ922、アプリ別リバランス優先度テーブル923、および、アプリ別枯渇条件テーブル924を管理する。
リバランス宣言機能921は、アプリ別マネージャ901を含んだアプリ912がリバランスを実施するか否かの宣言を実施する。
動作フラグ922は、例えば二値で示される。動作フラグ922は、当該アプリ別マネージャ901が動作するか否かを示す。つまり、アプリ912毎に、リバランス制御するか否かを制御することができる。
ノード911は、ストレージサービス999を有する。
ストレージサービス999は、容量監視機能231、容量通知機能232、リバランス機能233、および、アプリ別マネージャ981を有する。ストレージサービス999は、リバランスアプリ情報982を管理する。
アプリ別マネージャ981は、アプリ別マネージャ901と同様の機能を有する。
リバランスアプリ情報982は、アプリ別マネージャ901を含んだアプリ912のIDを含む。
計算機システムが複数の計算機802を有し、アプリ912が複数の計算機802で分散動作する場合がある。この時、アプリ別マネージャ901は、特定の計算機802上の代表アプリ912のみが有してもよいし、各アプリ912が有してアプリ912間で協調して動作してもよい。
本実施例では、代表アプリ912がアプリ別マネージャ901を有するとする。アプリ別マネージャ901が、アプリ別リバランス優先度テーブル923およびアプリ別枯渇条件テーブル924を管理する。
図10Aは、アプリ別リバランス優先度テーブル923の一例を示す。
アプリ別リバランス優先度テーブル923は、当該アプリ912の持つリバランス機能241毎に、当該リバランス機能241のIDであるリバランスID1011と、当該リバランス機能の優先度を示す優先度1012といった情報を保持する。
例えば、1番目の行によれば、リバランス機能r11の優先度が“1”である。故に、当該アプリ912のデータを格納しているノードで枯渇が発生した場合、リバランス機能r11が優先的に実施される。
図10Bは、アプリ別枯渇条件テーブル924の一例を示す。
アプリ別枯渇条件テーブル924は、当該アプリ912のデータを格納している記憶デバイスに対応するノード毎に、当該ノードを識別するIDであるノードID1021と、当該ノードに対応した枯渇条件を示す枯渇条件1022といった情報を保持する。
例えば、1番目の行によれば、ノードn11に対応する記憶デバイス101は、当該記憶デバイス101の物理残容量が10GB未満であり、かつ、物理残容量が論理残容量未満である場合に、容量枯渇と判断される。
アプリ別マネージャ901は、テーブル設定処理を実施する。第二の実施例に係るテーブル設定処理は、図5に示したステップ501〜506に加えて(例えばステップ506実施後)、ユーザから当該アプリのリバランス機能の“動作”又は“非動作”を示す情報を受けて、その情報を動作フラグ922として登録(更新)することを含む。
図11は、アプリ別マネージャ901により実施されるリバランス宣言処理のフローチャートである。本処理は、動作フラグ922の値が変更された際に実施される。
動作フラグ922が“1”(“動作”)に変更された場合(ステップ1101:“1”)、リバランス宣言機能921は、リバランスの実施の宣言、すなわち、ストレージサービス999のリバランスアプリ情報982に、当該アプリ912のアプリIDを登録する(ステップ1102)。
動作フラグ922が“0”(“非動作”)に変更された場合(ステップ1101:“0”)、リバランス宣言機能921は、リバランスの非実施の宣言、すなわち、ストレージサービス999のリバランスアプリ情報982から、当該アプリ912のアプリIDを削除する(ステップ1103)。
ストレージサービス999は、定期的に容量監視処理を実施する。第二の実施例に係る容量監視処理は、図6に示したステップ601およびステップ602を含む。ストレージサービス999は、ステップ602の実施により得られた容量情報を、リバランスアプリ情報982から識別されるアプリ212の有するアプリ別マネージャ901に通知する。
第二の実施例に係る容量情報更新処理は、第一の実施例と同様である。
アプリ別マネージャ901は、定期的にリバランス制御処理を実施する。第二の実施例に係るリバランス制御処理は、図7に示したステップ701、ステップ704、ステップ706、ステップ708、および、ステップ709を含む。
すなわち、ステップ701で、リバランス処理を未実施のノードを検知した場合、枯渇検知機能303は、その未実施のノードについて、アプリ別枯渇条件テーブル924とノード容量テーブル308を参照して、枯渇が生じているか否かを判断する。その判断結果が真の場合、アプリ別リバランス選択機能925は、アプリ別枯渇条件テーブル924とアプリ別リバランス優先度テーブル923を参照してリバランス機能を検索する。リバランス機能が見つかった場合、アプリ別リバランス選択機能925は、アプリ別リバランス優先度テーブル923を参照して、実施するリバランス機能を選択する。
リバランス機能選択後、ステップ706が実施される。ステップ706実施後、リバランス指示機能305は、選択したリバランス機能に、ステップ706で決定した指示内容を含んだリバランス指示を出す。
第二の実施例では、アプリ別マネージャ901が、記憶デバイス101の物理容量を監視するノード911と、定義された配分(格納割合)通りにデータをリバランスする(論理容量を制御する)リバランス機能とを連携するようになっている。アプリ別マネージャ901は、全てのノード911から物理容量を表す情報を取得し、全てのノード911の物理容量が平準化するように、リバランス機能が実施するリバランス(データ量の配分)を制御する。これにより、いずれのリバランス機能がそのリバランス機能に定義されている配分(格納割合)通りにデータをリバランスしても、物理容量の平準化を維持すること(言い換えれば、物理残容量の不足を避けること)が期待できる。
第三の実施例を説明する。その際、第一および第二の実施例のうちの少なくとも1つとの相違点を主に説明し、第一および第二の実施例のうちの少なくとも1つとの共通点については説明を省略又は簡略する。
第三の実施例は、マネージャが構成に含まれない点、アプリがアプリ別マネージャを有さない点、および、ストレージサービスが後述のストレージサービス別マネージャを有する点が、第一および第二の実施例と異なる。
図12は、第三の実施例に係る計算機1202の構成を示す。
計算機1202のメモリ252には、アプリ212とノード1211が格納される。
ノード1211は、ストレージサービス1221を有する。
ストレージサービス1221は、容量監視機能231、容量通知機能232、リバランス機能233、および、ストレージサービス別マネージャ1201を有する。
ストレージサービス別マネージャ1201は、テーブル設定機能301、容量受信機能302、枯渇検知機能303、リバランス選択機能304、および、リバランス指示機能305を有する。ストレージサービス別マネージャ1201は、リバランス優先度テーブル306、枯渇条件テーブル307、および、ノード容量テーブル308を管理する。
計算機システムは、複数のノード1211を有するため、計算機システムは、複数のストレージサービス1221を有する。ストレージサービス別マネージャ1201は、代表ストレージサービス1221のみが有してもよいし、各ストレージサービス1221が有しストレージサービス1221間で協調して動作してもよい。本実施例では、代表ストレージサービス1221がストレージサービス別マネージャ1201を有するものとする。
第三の実施例に係るテーブル設定処理、容量情報更新処理、および、リバランス制御処理は、第一の実施例に係る処理と同様である。ただし、これらの処理はマネージャ103ではなく、ストレージサービス別マネージャ1201によって実施される。
ストレージサービス1221は、定期的に容量監視処理を実施する。第三の実施例に係る容量監視処理は、図6に示したステップ601およびステップ602を含む。第三の実施例に係る容量監視処理では、ステップ602により得られた容量情報を、ストレージサービス1221は、ストレージサービス別マネージャ1201に通知する。
第三の実施例では、ストレージサービス別マネージャ1201が、記憶デバイス101の物理容量を監視するノード1211と、定義された配分(格納割合)通りにデータをリバランスする(論理容量を制御する)リバランス機能とを連携するようになっている。ストレージサービス別マネージャ1201は、全てのノード1211から物理容量を表す情報を取得し、全てのノード1211の物理容量が平準化するように、リバランス機能が実施するリバランス(データ量の配分)を制御する。これにより、いずれのリバランス機能がそのリバランス機能に定義されている配分(格納割合)通りにデータをリバランスしても、物理容量の平準化を維持すること(言い換えれば、物理残容量の不足を避けること)が期待できる。
第四の実施例を説明する。その際、第一〜第三の実施例のうちの少なくとも1つとの相違点を主に説明し、第一〜第三の実施例のうちの少なくとも1つとの共通点については説明を省略又は簡略する。
第四の実施例は、マネージャが構成に含まれない点、アプリがアプリ別マネージャを有さない点、ストレージサービスがストレージサービス別マネージャを有さない点、および、計算機が計算機別マネージャを有する点が、第一〜第三の実施例と異なる。
図13は、第四の実施例に係る計算機1302の構成を示す。
計算機1302のメモリ252には、アプリ212とノード111の他に計算機別マネージャ1301が格納される。計算機別マネージャ1301は、代表計算機1302のみが有してもよいし、各計算機1302が有し計算機1302間で協調して動作してもよい。本実施例では、代表計算機1302が計算機別マネージャ1301を有するものとする。
第四の実施例に係るテーブル設定処理、容量情報更新処理、および、リバランス制御処理は、第一の実施例に係る処理と同様である。ただし、これらの処理はマネージャ103ではなく、計算機別マネージャ1301によって実施される。
ストレージサービス221は、定期的に容量監視処理を実施する。第四の実施例に係る容量監視処理は、図6に示したステップ601およびステップ602を含む。第四の実施例に係る容量監視処理では、ステップ602の実施により得られた容量情報を、ストレージサービス221は、計算機別マネージャ1301に通知する。
第四の実施例では、計算機別マネージャ1301が、記憶デバイス101の物理容量を監視するノード111と、定義された配分(格納割合)通りにデータをリバランスする(論理容量を制御する)リバランス機能とを連携するようになっている。計算機別マネージャ1301は、全てのノード111から物理容量を表す情報を取得し、全てのノード1211の物理容量が平準化するように、リバランス機能が実施するリバランス(データ量の配分)を制御する。これにより、いずれのリバランス機能がそのリバランス機能に定義されている配分(格納割合)通りにデータをリバランスしても、物理容量の平準化を維持すること(言い換えれば、物理残容量の不足を避けること)が期待できる。
第五の実施例を説明する。その際、第一〜第四の実施例のうちの少なくとも1つとの相違点を主に説明し、第一〜第四の実施例のうちの少なくとも1つとの共通点については説明を省略又は簡略する。
図14は、第五の実施例に係る情報システムの全体構成を示す。
少なくとも1つの計算機1402(例えば計算機A)が、複数のVM(Virtual Machine)1401を実行する。複数のVMは、ストレージVM1401Sと、ゲストVM1401Gとを含む。ストレージVM1401Sは、仮想的なストレージ装置でよく、ゲストVM1401Gは、仮想的なホスト計算機でよい。
ゲストVM1401Gは、ストレージVM1401SにI/O要求を発行するアプリ1412を実行する。
ストレージVM1401は、複数の記憶デバイス101(例えば記憶デバイスAおよびB)にそれぞれ対応した複数のノード1411(例えばノードn31およびn32)を実行する。例えば、代表ノード1411(例えばノードn31)が、ストレージサービス221を有する。
第五の実施例でも、実施例1と同様の効果を奏することが期待できる。
以上、幾つかの実施例を説明したが、これは本発明の説明のための例示であって、本発明の範囲をこれらの実施例にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実施することが可能である。
例えば、ノード111と記憶デバイス101は、1:N(Nは1以上の整数)でもよい。
また、リバランス機能を有するエンティティの一例は、アプリに代えて又は加えて、ストレージサービスでもよい。ストレージサービスのリバランス機能は、複数の記憶デバイスに対応しストレージサービスが認識する複数の論理容量の配分を決められた配分となるようデータをリバランスする機能でよい。
102…計算機

Claims (15)

  1. 1以上のメモリを含んだ記憶部と、
    前記記憶部に接続され1以上のプロセッサを含んだプロセッサ部と
    を有し、
    前記プロセッサ部は、
    (A)計算機システムに含まれる1以上の計算機に接続され圧縮機能を有する記憶デバイスを少なくとも1つ含んだ複数の記憶デバイスに対応した複数の物理容量を示す情報を含んだ容量情報を、前記記憶部に格納し、
    (B)前記容量情報に基づいて、リバランス機能を有するエンティティに対する指示内容を決定し、
    前記エンティティの前記リバランス機能は、前記複数の記憶デバイスに対応し前記エンティティが認識する複数の論理容量の配分を決められた配分となるようデータをリバランスする機能であり、
    前記指示内容は、論理容量配分に関する定義を含み、
    (C)前記決定した指示内容に従いデータをリバランスすることの指示であるリバランス指示を前記エンティティに送信する、
    データリバランス制御システム。
  2. 前記計算機システムに含まれる前記1以上の計算機の少なくとも1つが、前記複数の記憶デバイスに対応した複数の物理容量を監視する機能とその複数の物理容量を表す情報を含んだ容量情報を通知する機能とを含んだストレージ制御機能を実行し、
    前記プロセッサ部は、リバランス制御機能を実行し、
    前記リバランス制御機能は、
    前記ストレージ制御機能から通知された容量情報を受信し、
    前記受信した容量情報を(A)で格納し、
    (B)及び(C)を実行する、
    請求項1記載のデータリバランス制御システム。
  3. 前記リバランス制御機能は、
    前記複数の記憶デバイスのうちの少なくとも1つについてリバランス実行要の条件を満たすか否かを判断し、
    前記判断の結果が真の場合に、(B)及び(C)を実行する、
    請求項2記載のデータリバランス制御システム。
  4. 前記条件は、前記複数の記憶デバイスのうちの2以上の記憶デバイスの各々によって異なっており、
    (B)についてのエンティティは、前記判断の結果が真となった条件に関連付けられている記憶デバイスにデータを格納する1以上のエンティティのうちの少なくとも1つのエンティティである、
    請求項3記載のデータリバランス制御システム。
  5. 前記少なくとも1つのエンティティが複数のリバランス機能を有している場合、(B)で決定される指示内容は、前記複数のリバランス機能のうちの優先度が最も高いリバランス機能に対する指示内容である、
    請求項4記載のデータリバランス制御システム。
  6. 前記計算機システムを管理する管理システムを有し、
    前記管理システムは、前記記憶部、および、前記リバランス制御機能を実行する前記プロセッサ部を有する、
    請求項2記載のデータリバランス制御システム。
  7. 前記計算機システムに含まれる前記1以上の計算機のうちの少なくとも1つの計算機を有し、
    前記少なくとも1つの計算機は、前記記憶部、および、前記リバランス制御機能及び前記ストレージ制御機能を実行する前記プロセッサ部を有する、
    請求項2記載のデータリバランス制御システム。
  8. 前記プロセッサ部が、更に、前記エンティティを実行し、
    前記エンティティは、アプリケーションプログラムであり、前記リバランス制御機能を含む、
    請求項7記載のデータリバランス制御システム。
  9. 前記リバランス制御機能は、そのリバランス制御機能を含むアプリケーションプログラムについてリバランス要否を制御する、
    請求項8記載のデータリバランス制御システム。
  10. 前記ストレージ制御機能が、前記リバランス制御機能を含む、
    請求項7記載のデータリバランス制御システム。
  11. 前記複数の記憶デバイスの各々について、
    前記物理容量は、その記憶デバイスに実際に格納されているデータの総量である物理使用容量と、その記憶デバイスの物理記憶容量とその記憶デバイスの物理使用容量との差分である物理残容量と、物理記憶容量に対する物理使用容量の割合である物理使用割合と、物理記憶容量に対する物理残容量の割合である物理残割合とのうちのいずれかであり、
    前記論理容量は、その記憶デバイスに基づく論理記憶空間に格納されているデータの総量である論理使用容量と、その記憶デバイスの論理記憶容量とその記憶デバイスの論理使用容量との差分である論理残容量と、論理記憶容量に対する論理使用容量の割合である論理使用割合と、論理記憶容量に対する論理残容量の割合である論理残割合とのうちのいずれかである、
    請求項1記載のデータリバランス制御システム。
  12. 前記複数の物理容量の各々は、物理残容量である、
    請求項1記載のデータリバランス制御システム。
  13. 前記複数の記憶デバイスの各々が、圧縮機能を有する、
    請求項1記載のデータリバランス制御システム。
  14. 前記指示内容が含む前記定義は、前記複数の記憶デバイスのうちの少なくとも1つの記憶デバイスの物理残容量が枯渇することを避けるための論理容量配分に関する定義である、
    請求項1記載のデータリバランス制御システム。
  15. 計算機システムに含まれる1以上の計算機に接続され圧縮機能を有する記憶デバイスを少なくとも1つ含んだ複数の記憶デバイスに対応した複数の物理容量を示す情報を含んだ容量情報に基づいて、リバランス機能を有するエンティティに対する指示内容を決定し、
    前記エンティティの前記リバランス機能は、前記複数の記憶デバイスに対応し前記エンティティが認識する複数の論理容量の配分を決められた配分となるようデータをリバランスする機能であり、
    前記指示内容は、論理容量配分に関する定義を含み、
    前記決定した指示内容に従いデータをリバランスすることの指示であるリバランス指示を前記エンティティに送信する、
    データリバランス制御方法。
JP2018556050A 2016-12-13 2016-12-13 データリバランスを制御するシステムおよび方法 Active JP6612995B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/086964 WO2018109816A1 (ja) 2016-12-13 2016-12-13 データリバランスを制御するシステムおよび方法

Publications (2)

Publication Number Publication Date
JPWO2018109816A1 true JPWO2018109816A1 (ja) 2019-06-24
JP6612995B2 JP6612995B2 (ja) 2019-11-27

Family

ID=62559620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018556050A Active JP6612995B2 (ja) 2016-12-13 2016-12-13 データリバランスを制御するシステムおよび方法

Country Status (3)

Country Link
US (1) US11029850B2 (ja)
JP (1) JP6612995B2 (ja)
WO (1) WO2018109816A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010122674A1 (ja) * 2009-04-23 2010-10-28 株式会社日立製作所 計算機システム及びその制御方法
WO2014141482A1 (ja) * 2013-03-15 2014-09-18 株式会社日立製作所 垂直統合型システム及びストレージシステムの移行方法
WO2014184941A1 (ja) * 2013-05-17 2014-11-20 株式会社日立製作所 ストレージ装置
WO2015008375A1 (ja) * 2013-07-19 2015-01-22 株式会社日立製作所 ストレージ装置および記憶制御方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9774684B2 (en) * 2005-09-30 2017-09-26 International Business Machines Corporation Storing data in a dispersed storage network
US8380960B2 (en) * 2008-11-04 2013-02-19 Microsoft Corporation Data allocation and replication across distributed storage system
US20130166502A1 (en) * 2011-12-23 2013-06-27 Stephen Gregory WALKAUSKAS Segmented storage for database clustering

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010122674A1 (ja) * 2009-04-23 2010-10-28 株式会社日立製作所 計算機システム及びその制御方法
WO2014141482A1 (ja) * 2013-03-15 2014-09-18 株式会社日立製作所 垂直統合型システム及びストレージシステムの移行方法
WO2014184941A1 (ja) * 2013-05-17 2014-11-20 株式会社日立製作所 ストレージ装置
WO2015008375A1 (ja) * 2013-07-19 2015-01-22 株式会社日立製作所 ストレージ装置および記憶制御方法

Also Published As

Publication number Publication date
US20190369877A1 (en) 2019-12-05
JP6612995B2 (ja) 2019-11-27
WO2018109816A1 (ja) 2018-06-21
US11029850B2 (en) 2021-06-08

Similar Documents

Publication Publication Date Title
JP6186787B2 (ja) データ転送装置、データ転送システム、データ転送方法及びプログラム
US7992032B2 (en) Cluster system and failover method for cluster system
US9807170B2 (en) Storage management calculator, and storage management method
JP5577412B2 (ja) 計算機システム、マイグレーション方法及び管理サーバ
JP6347730B2 (ja) 計算機システム及び計算機リソースの割当て管理方法
JP5786037B2 (ja) 仮想計算機の制御方法及び仮想計算機システム
EP3400528B1 (en) Deferred server recovery in computing systems
US10248460B2 (en) Storage management computer
US9397953B2 (en) Operation managing method for computer system, computer system and computer-readable storage medium having program thereon
US20180046509A1 (en) Management system for computer system
US20180101413A1 (en) Control device and control method
JP5609730B2 (ja) 情報処理プログラム及び方法、転送処理装置
US20160357647A1 (en) Computer, hypervisor, and method for allocating physical cores
JP6448779B2 (ja) サーバストレージシステムを含んだ計算機システム
JP6244496B2 (ja) サーバストレージシステムの管理システム及び管理方法
JP6612995B2 (ja) データリバランスを制御するシステムおよび方法
US8984522B2 (en) Relay apparatus and relay management apparatus
JP5905412B2 (ja) 仮想計算機システム及びプロセッサ性能測定方法
JP2011215812A (ja) 仮想計算機管理方法、計算機システム及びリソース管理プログラム
JP7316322B2 (ja) 管理システム、データリバランス管理方法、及びデータリバランス管理プログラム
JP6349786B2 (ja) 仮想計算機管理装置、仮想計算機管理方法、及び仮想計算機管理プログラム
US20240354160A1 (en) Method and system for managing resource utilization of applications
US20230185632A1 (en) Management system, data rebalancing management method, and recording medium
US20240086297A1 (en) Systems and methods for optimizing resources for applications deployed in primary and backup geographically dispersed cloud environments
US20170019486A1 (en) Management server, computer system, and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191031

R150 Certificate of patent or registration of utility model

Ref document number: 6612995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350