WO2021019652A1

WO2021019652A1 - キャッシュチューニング装置、キャッシュチューニング方法、および、キャッシュチューニングプログラム

Info

Publication number: WO2021019652A1
Application number: PCT/JP2019/029690
Authority: WO
Inventors: 中村　哲朗; 高田　直樹
Original assignee: 日本電信電話株式会社
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2021-02-04
Also published as: US20220318159A1; JP7259967B2; US11748269B2; JPWO2021019652A1

Abstract

物理リソース（キャッシュ）のリアルタイムの使用状況から各アプリケーションのキャッシュ使用特性を明らかにし、各アプリケーションのキャッシュ使用量を自動制御することで性能の最適化を行う。そのため、システムは、データを読み書きするメインメモリと、メインメモリよりも高速にアクセス可能な３次キャッシュメモリと、これらメモリおよびキャッシュを読み書きして処理を実行するＣＰＵコアと、このＣＰＵコアが実行する各仮想マシン（１３ａ～１３ｃ）のキャッシュの使用状況を測定する使用量測定部と、この使用状況から各仮想マシン（１３ａ～１３ｃ）に割り当てるキャッシュ容量を計算する割当量計算部と、このキャッシュ容量を各仮想マシン（１３ａ～１３ｃ）に割り当てる制御部とを備える。

Description

キャッシュチューニング装置、キャッシュチューニング方法、および、キャッシュチューニングプログラム

　本発明は、キャッシュチューニング装置、キャッシュチューニング方法、および、キャッシュチューニングプログラムに関する。

　仮想クラウド環境では、物理ホストを管理する権限を持つ運用者と、実際に仮想マシンをデプロイしてアプリケーションを動作させる使用者とが異なることか一般的である。
　マルチテナントをサポートする仮想クラウド環境では、異なるテナントの仮想マシンが同じ物理ホスト上にデプロイされ得る。そのため、キャッシュ制御による性能チューニングは使用者側ではなく、運用者側の役割となる。

　図１０は、各アプリケーションのキャッシュ占有量と正規化されたパフォーマンスとの関係を示すグラフである。なお、この図１０は、非特許文献１に掲載されたグラフの引用である。
　グラフの横軸は、キャッシュ占有量を示しており、グラフの縦軸は正規化されたパフォーマンスを示している。菱形のプロットは、Povrayに関するプロットである。四角形のプロットは、Bzip2に関するプロットである。三角形のプロットは、MCFに関するプロットである。バツ印のプロットは、Bwavesに関するプロットである。
　このグラフで示すように、キャッシュの占有量が減少すると、キャッシュミス数が増加する。Bwavesでは、キャッシュ占有量を15MBとしたときと比べて、キャッシュ占有量を0MBとしたときに性能が約６０％だけ低下している。よって、キャッシュ占有量を適切に設定することにより、アプリケーションの性能を向上させることができる。

　図１１は、１６ビットのキャッシュ・アロケーション・テクノロジ（Cache Allocation Technology）の例を示す図である。
　非特許文献２に記載されているように、２０１４年９月にリリースされたIntel Xeon（登録商標）プロセッサのE5 2600 v3製品ファミリから、最終レベルキャッシュの利用をアプリケーションごとに制限、制御できる機能であるCache Allocation Technologyが実装されている。

　これらのプロセッサでは、アプリケーションプロセスごとにClass of Service（CLOS）のレベルを定めることができ、CLOS毎に３次キャッシュメモリ３４をどの範囲まで使用するかを、キャパシティマスクで制御している。

　図１１の例では、CLOS[0]は、15bitから12bitまで４つのビットが立っており、３次キャッシュメモリ３４を１／４だけ使用することを示している。なお、15bitから12bitまでに１が立っているのはCLOS[0]だけであり、これらのbitに対応する領域をCLOS[0]に係るアプリケーションが占有することを示している。なお、CLOS[n]の各ビットは、３次キャッシュメモリ３４の各領域に対応している。

　CLOS[1]は、11bitから8bitまで４つのビットが立っており、３次キャッシュメモリ３４を１／４だけ使用することを示している。なお、11bitから8bitまでに１が立っているのはCLOS[1]だけであり、これらのbitに対応する領域をCLOS[1]に係るアプリケーションが占有することを示している。

　CLOS[2]は、7bitから2bitまで６つのビットが立っており、３次キャッシュメモリ３４を３／８だけ使用することを示している。なお、7bitから2bitまでには、CLOS[3]も同様に１が立っており、これらのbitに対応する領域をCLOS[2]とCLOS[3]に係るアプリケーションが共有することを示している。

　CLOS[3]は、7bitから0bitまで８つのビットが立っており、３次キャッシュメモリ３４を１／２だけ使用することを示している。なお、7bitから2bitまでには、CLOS[3]も同様に１が立っており、これらのbitに対応する領域をCLOS[2]に係るアプリケーションとCLOS[3]に係るアプリケーションが共有することを示している。1bitから0bitまでに１が立っているのはCLOS[3]だけであり、これらのbitに対応する領域をCLOS[3]に係るアプリケーションが占有することを示している。

Nguyen, Khang T,"Intel's Cache Monitoring Technology: Use Models and Data"，[online]，published on December 11,2014, updated March 31, 2016，[令和１年７月２５日検索]、インターネット<URL:https://software.intel.com/en-us/blogs/2014/12/11/intels-cache-monitoring-technology-use-models-and-data> "Usage Models for Cache Allocation Technology in the Intel Xeon Processor E5 v4 family"，[online]，[令和１年７月２５日検索]、インターネット<URL:https://software.intel.com/en-us/articles/cache-allocation-technology-usage-models>

　しかし、使用者がアプリケーションのキャッシュ使用量に関する情報を予め運用者側に通知した上で仮想マシンをデプロイするケースは、一般的ではない。また、使用者がアプリケーションの示している性能値をリアルタイムで運用者に通知するケースは、一般的ではない。

　使用者からアプリケーションのキャッシュ使用に関する情報が運用者に通知されないケースでは、どのようにして各アプリケーションのキャッシュ使用量を制御すればよいかは不明であった。更にアプリケーションがリアルタイムに示している性能値に関する情報がシステムに一切通知されないケースも、どのようにして各アプリケーションのキャッシュ使用量を制御すればよいかは不明であった。

　そこで、本発明は、物理ホスト上で動作する各アプリケーションのキャッシュ使用量を自動制御することで、各アプリケーションの性能の最適化を行うことを課題とする。

　前記した課題を解決するため、本発明のキャッシュチューニング装置は、
　データを読み書きするメモリと、
　前記メモリよりも高速にアクセス可能なキャッシュと、
　前記メモリおよび前記キャッシュを読み書きして処理を実行する中央処理装置と、
　前記中央処理装置が実行する各アプリケーションによる前記キャッシュの使用状況を測定する測定部と、
　前記使用状況から各前記アプリケーションに割り当てるキャッシュ容量を計算する計算部と、
　前記キャッシュ容量を各前記アプリケーションに割り当てる割当部と、
　を備えることを特徴とする。
　その他の手段については、発明を実施するための形態のなかで説明する。

　本発明によれば、物理ホスト上で動作する各アプリケーションのキャッシュ使用量を自動制御することで、各アプリケーションの性能の最適化を行うことが可能となる。

本実施形態におけるキャッシュ自動最適化システムの一例を示す図である。キャッシュ自動最適化システムの他の例を示す図である。キャッシュチューニングシステムのブロック図である。キャッシュに係る各指標からキャパシティマスクを設定する動作を示す図である。キャッシュ自動最適化処理のフローチャートである。キャパシティマスクの他の設定例を示す図である。キャパシティマスクの他の設定例を示す図である。物理ホスト上に複数の仮想マシンを同時に動かしたときの各キャッシュの状況を示す図である。物理ホスト上に単一の仮想マシンを動かしたときの各キャッシュの状況を示す図である。各アプリケーションのキャッシュ占有量とパフォーマンスとの関係を示すグラフである。１６ビットのキャッシュ・アロケーション・テクノロジの例を示す図である。各アプリケーションのキャッシュ感度とキャッシュ汚染度とを示すグラフである。各アプリケーションのキャッシュリファレンス数とプリフェッチ数の和と、キャッシュ感度との関係を示すグラフである。各アプリケーションのdTLBミス数と、キャッシュ汚染度との関係を示すグラフである。

　以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
《発明の背景説明》
　物理ホスト上で複数の仮想マシンを同時に動かした場合、キャッシュ競合が起こり、性能が低下するおそれがある。

　図８は、物理ホスト３上に複数の仮想マシン１３ａ～１３ｄを同時に動かしたときの各キャッシュの状況を示す図である。図９は、物理ホスト３上に単一の仮想マシン１３ａを動かしたときの各キャッシュの状況を示す図である。

　物理ホスト３は、ＣＰＵ（Central Processing Unit）コア３１ａ～３１ｄと、１次キャッシュメモリ３２ａ～３２ｄと、２次キャッシュメモリ３３ａ～３３ｄと、３次キャッシュメモリ３４と、メインメモリ３５とを含んで構成される。メインメモリ３５は、データを読み書きするためのＲＡＭ（Random Access Memory）である。１次キャッシュメモリ３２ａ～３２ｄと、２次キャッシュメモリ３３ａ～３３ｄと、３次キャッシュメモリ３４とは、メインメモリ３５よりも高速にアクセス可能な記憶領域である。ＣＰＵコア３１ａ～３１ｄは、１次キャッシュメモリ３２ａ～３２ｄと、２次キャッシュメモリ３３ａ～３３ｄと、３次キャッシュメモリ３４と、メインメモリ３５とを読み書きして処理を実行する中央処理装置である。

　現在のＣＰＵで主流となっているマルチコア構成では、３次キャッシュメモリ３４のような低次キャッシュを複数のＣＰＵコア３１ａ～３１ｄが共有することが一般的である。以下、ＣＰＵコア３１ａ～３１ｄを特に区別しないときには、単にＣＰＵコア３１と記載する。

　図８に示す物理ホスト３上には、複数の仮想マシン１３ａ～１３ｄが動作している。以下、仮想マシン１３ａ～１３ｄをとくに区別しないときには、単に仮想マシン１３と記載する。

　仮想マシン１３ａは、ＣＰＵコア３１ａと、１次キャッシュメモリ３２ａと、２次キャッシュメモリ３３ａとを占有し、更に３次キャッシュメモリ３４の一部を共有している。
　仮想マシン１３ｂは、ＣＰＵコア３１ｂと、１次キャッシュメモリ３２ｂと、２次キャッシュメモリ３３ｂとを占有し、更に３次キャッシュメモリ３４の一部を共有している。

　仮想マシン１３ｃは、ＣＰＵコア３１ｃと、１次キャッシュメモリ３２ｃと、２次キャッシュメモリ３３ｃとを占有し、更に３次キャッシュメモリ３４の一部を共有している。
　仮想マシン１３ｄは、ＣＰＵコア３１ｄと、１次キャッシュメモリ３２ｄと、２次キャッシュメモリ３３ｄとを占有し、更に３次キャッシュメモリ３４の一部を共有している。

　同じノード上で複数の仮想マシン１３ａ～１３ｄが稼働している場合、仮想マシン１３ａ～１３ｄによって３次キャッシュメモリ３４が汚され、キャッシュミスが相対的に増える。キャッシュミスを起こしたＣＰＵコア３１は、３次キャッシュメモリ３４より数倍アクセス時間のかかるメインメモリ３５まで参照しにいかなければならない。仮想マシン１３は、このようなキャッシュミスのペナルティにより、性能低下を引きおこす。これを複数の仮想マシン１３によるキャッシュ競合と呼ぶ。

　これに対して図９に示す物理ホスト３上には、単一の仮想マシン１３ａが動作している。仮想マシン１３ａを単体で動かしたときは、共有キャッシュメモリである３次キャッシュメモリ３４を占有した状態になる。このとき、他の仮想マシン１３は動作していないので、キャッシュの汚染は発生しない。

　図１２は、各アプリケーションのキャッシュ感度とキャッシュ汚染度とを示すグラフである。このグラフは、アプリケーションの特性を、キャッシュ感度とキャッシュ汚染度という２つの観点から評価した結果を示している。なお、各グラフにおいて、キャッシュ感度のことをCache Sensitivityと記載する場合があり、キャッシュ汚染度のことをCache Pollutivityと記載する場合がある。

　キャッシュ感度とは、アプリケーションのキャッシュ依存性の高さを表す指標である。キャッシュヒット率の低下が性能に大きく影響するアプリケーションほど、キャッシュ感度が高くなる。

　キャッシュ汚染度とは、アプリケーションのキャッシュの汚しやすさを表す指標である。キャッシュラインの入れ替えが多く、他のアプリケーションのキャッシュヒット率を下げるアプリケーションほど、キャッシュ汚染度が高くなる。

　このグラフに示したキャッシュ感度とキャッシュ汚染度は、以下のようにして測定する。
　（第１ステップ）　複数のアプリケーションを用意し、これら複数のアプリケーションを単体で動作させたときの性能と、そのときのキャッシュアクセス統計値をそれぞれ測定する。
　（第２ステップ）　複数のアプリケーションを組み合わせて同時に動かしたときの性能をそれぞれ測定する。
　（第３ステップ）　各アプリケーションを単体で動作させた場合の性能に対して、他のアプリケーションと組み合わせて同時に動かしたときの性能の劣化度合を算出する。

　発明者らは、このように各アプリケーションを評価したところ、キャッシュ感度が高いアプリケーションとキャッシュ汚染度が高いアプリケーションが別々に存在することを確認した。

　図１３は、各アプリケーションのキャッシュリファレンス数とプリフェッチ数の和と、キャッシュ感度との関係を示すグラフである。
　発明者らは、キャッシュ感度（Cache Sensitivity）の指標にはキャッシュリファレンス数[/s]が使用できると予想していたが、実際にはプリフェッチ数[/s]とも相関が高いことを見出した。ここでプリフェッチとは、将来的に利用が予測されるデータを予めキャッシュに読み込むことをいう。

　キャッシュリファレンス数が多いアプリケーションは、キャッシュリファレンス数が少ないアプリケーションよりもキャッシュの利用度が高く、キャッシュのリソース競合による性能劣化が大きくなる。また、プリフェッチ数が多いアプリケーションは、プリフェッチ数が少ないアプリケーションに比べてキャッシュを有効利用しており、キャッシュのリソース競合による性能劣化が大きくなる。
　よって発明者らは、本実施形態において、キャッシュリファレンス数とプリフェッチ数の和を、キャッシュ感度の指標として利用している。

　図１４は、各アプリケーションのdTLB(data Translation Lookaside Buffer)ミス数と、キャッシュ汚染度との関係を示すグラフである。
　発明者らは、キャッシュ汚染度（Cache Pollutivity）の指標には、キャッシュミス数[/s]が使用できると予想していた。しかし実際のキャッシュ汚染度は、dTLBミス数[/s]との相関の方が高かった。そのため後記する実施形態では、キャッシュ汚染度の指標としてdTLBミス数を利用している。ここでdata Translation Lookaside Bufferとは、メモリ管理ユニットが仮想アドレスから物理アドレスへの変換の高速化を図るために用いるバッファである。dTLBミス数とは、ＣＰＵがメモリ空間にアクセスする際に、仮想アドレスがTLBに格納されていなかった回数である。

　アプリケーションのdTLBミス数は、アプリケーションが複数のページを同時に利用してランダムにアクセスしていることの指標となる。アプリケーションが複数ページへのランダムなアクセスを多発させている場合、同一物理インデックスへのアクセスが発生し、競合性のキャッシュミスが増加する。競合性キャッシュミスが多発した結果、他のアプリケーションが利用するキャッシュを上書きし、他のアプリケーションのキャッシュヒット率を下げてしまう。よって、アプリケーションのdTLBミス数は、キャッシュ汚染度の指標として用いることができる。

《本発明の実施形態》
　本実施形態は、仮想マシンやコンテナ等をデプロイした後、これらをチューニングする方法を提供するものである。

　本実施形態のシステムは、キャッシュ感度の高いアプリケーションには多くキャッシュメモリを割当て、キャッシュ汚染度の高いアプリケーションには少なくキャッシュメモリを割当てるというポリシーで性能の自動最適化を行う。これにより、他のアプリケーションへの影響を小さくすることができる。

　本実施形態では、キャッシュ感度の評価指標として、キャッシュプリフェッチ数とキャッシュリファレンス数の和を用いる。更にキャッシュ汚染度の評価指標として、dTLBミス数を用いる。

　図１は、本実施形態におけるキャッシュ自動最適化システム１の一例を示す図である。
　キャッシュ自動最適化システム１は、物理ホスト３の上で動作するＯＳ（Operating System）２と、このＯＳ２上で動作する複数の仮想マシン１３ａ～１３ｃと、キャッシュチューニングシステム（CTS:Cache Tuning System）１５とを含んで構成される。

　物理ホスト３は、これらＯＳ２や仮想マシン１３ａ～１３ｃやキャッシュチューニングシステム１５を動作させるための中央処理装置とキャッシュとメモリの組み合わせであり、例えば図８や図９で示した物理ホスト３と同様に構成されている。
　ＯＳ２は、物理ホスト３上で動作するプログラムの実行を制御するための基本ソフトウェアであり、ジョブ管理、入出力制御、データ管理およびこれらに関連した処理を行う。

　仮想マシン１３ａ～１３ｃは、それぞれコンピュータの動作をエミュレートするソフトウェアやフレームワークである。物理ホスト３から見ると、各仮想マシン１３ａ～１３ｃはアプリケーションと同一視できる。つまり、仮想マシン１３ａ～１３ｃに対応するCLOSのキャパシティマスクを立てることにより、仮想マシン１３ａ～１３ｃに対して所望量のキャッシュメモリを割り当てることができる。以下、各仮想マシン１３ａ～１３ｃを特に区別しないときには、単に仮想マシン１３と記載する。

　キャッシュチューニングシステム１５は、物理ホスト３上で動作するアプリケーションのキャッシュ割当量をチューニングする部位である。物理ホスト３の不図示のプロセッサが、キャッシュチューニングのプログラムを実行することにより、キャッシュチューニングシステム１５の機能が具現化される。仮想マシン１３は物理ホスト３上で動作するアプリケーションに含まれる。

　図２は、キャッシュ自動最適化システム１の他の例を示す図である。
　図２に示すキャッシュ自動最適化システム１は、物理ホスト３の上で動作するＯＳ２と、このＯＳ２上で動作する複数のコンテナ１４ａ～１４ｃと、キャッシュチューニングシステム１５とを含んで構成される。

　物理ホスト３は、これらＯＳ２やコンテナ１４ａ～１４ｃやキャッシュチューニングシステム１５を動作させるための中央処理装置とキャッシュとメモリの組み合わせである。
　ＯＳ２は、物理ホスト３上で動作するプログラムの実行を制御するための基本ソフトウェアであり、ジョブ管理、入出力制御、データ管理およびこれらに関連した処理を行う。

　コンテナ１４ａ～１４ｃは、ＯＳ２上に仮想的なユーザ空間を提供するソフトウェアやフレームワークである。物理ホスト３から見ると、各コンテナ１４ａ～１４ｃはアプリケーションと同一視できる。つまり、コンテナ１４ａ～１４ｃに対応するCLOSのキャパシティマスクを立てることにより、各コンテナ１４ａ～１４ｃに対して所望量のキャッシュメモリを割り当てることができる。以下、各コンテナ１４ａ～１４ｃを特に区別しないときには、単にコンテナ１４と記載する。

　キャッシュチューニングシステム１５は、物理ホスト３上で動作するアプリケーションのキャッシュ割当量をチューニングする部位である。物理ホスト３の不図示のプロセッサが、キャッシュチューニングのプログラムを実行することにより、キャッシュチューニングシステム１５の機能が具現化される。コンテナ１４は物理ホスト３上で動作するアプリケーションに含まれるため、キャッシュチューニングシステム１５は、コンテナ１４のキャッシュ割当量をチューニングすることができる。コンテナ１４は物理ホスト３上で動作するアプリケーションに含まれる。

　図３は、キャッシュチューニングシステム１５のブロック図である。
　キャッシュチューニングシステム１５は、使用量測定部１５１と、割当量計算部１５２と、制御部１５３とを含んで構成される。
　使用量測定部１５１は、各仮想マシン１３や各コンテナ１４やそれ以外のアプリケーションのキャッシュの使用具合について、キャッシュプリフェッチ数、リファレンス数、dTLBミス数を測定して値を取得する。

　割当量計算部１５２は、使用量測定部１５１が測定したキャッシュ状況から、各仮想マシン１３や各コンテナ１４やそれ以外のアプリケーションに割り当てるキャッシュ容量を計算する。

　制御部１５３は、割当量計算部１５２が計算した結果に基づき、各仮想マシン１３や各コンテナ１４やそれ以外のアプリケーションに、キャッシュ容量を割り当てる。制御部１５３は、計算したキャッシュ容量を各仮想マシン１３や各コンテナ１４やそれ以外のアプリケーションに割り当てる割当部として機能する。

　図４は、キャッシュに係る各指標からキャパシティマスクを設定する動作を示す図である。
　図４の最上段は、仮想マシンであるVM_A,VM_B,VM_Cのキャッシュの使用具合を示すデータである。Reference欄は、１ミリ秒あたりのキャッシュリファレンス数を示している。
Prefetch欄は、１ミリ秒あたりのキャッシュプリフェッチ数を示している。SUM(ref+pre)欄は、１ミリ秒あたりのキャッシュリファレンス数とキャッシュプリフェッチ数の和を示している。dTLB miss欄は、１ミリ秒あたりのdTLBミス数を示している。Reference欄とPrefetch欄とdTLB miss欄には、使用量測定部１５１によって測定された値が格納される。SUM(ref+pre)欄には、割当量計算部１５２が計算した値が格納される。

　図４の中段は、仮想マシンであるVM_A,VM_B,VM_Cに割り当てるキャッシュ容量の計算手順を示すデータである。Sensitivity欄はキャッシュ感度の指標であり、SUM(ref+pre)欄の値を1.0で正規化したものが格納される。Pollutivity欄はキャッシュ汚染度の指標であり、dTLB miss欄の値を1.0で正規化したものが格納される。S+(1-P)欄は、1.0からPollutivity欄の値を減算し、更にSensitivity欄の値を加算したものが格納される。Normalize欄は、S+(1-P)欄の値を1.0で再び正規化したものが格納される。これら各欄には、割当量計算部１５２が計算した値が格納される。

　図４の最下段は、仮想マシンであるVM_A,VM_B,VM_Cに係る各CLOSのキャパシティマスクを示すものである。制御部１５３は、割当量計算部１５２が計算したNormalize欄の値に基づき、VM_A,VM_B,VM_Cに係る各CLOSのキャパシティマスクを設定する。これにより、仮想マシンであるVM_A,VM_B,VM_Cには、所定量のキャッシュがマッピングされる。
　ここで、各CLOSのキャパシティマスクは16bitである。以下の式（１）から式（３）によって各仮想マシンに係る各CLOSに設定されるビット数が算出される。

VM_A : 16 * 1.00 = 16 bit　・・・（1）
VM_B : 16 * 0.55 = 9 bit　・・・(2)
VM_C : 16 * 0.25 = 4 bit　・・・(3)

　図５は、キャッシュ自動最適化処理のフローチャートである。
　ステップＳ１０において、キャッシュチューニングシステム１５は、所定時間が経過したか否かを判定する。キャッシュチューニングシステム１５は、所定時間が経過したならば（Ｙｅｓ）、ステップＳ１２の処理に進む。これにより、キャッシュチューニングシステム１５は、定期的に各仮想マシン１３のキャッシュパラメータを取得して、キャッシュの割当量を計算し、動的にキャッシュを割り当てる。よって、仮想マシン１３やコンテナ１４の上で動作するアプリケーションが変化した場合であっても、変化後のキャッシュ特性に合わせてキャッシュ容量を再割り当てすることができる。キャッシュチューニングシステム１５は、所定時間が経過していないならば（Ｎｏ）、ステップＳ１１の処理に進む。

　ステップＳ１１において、キャッシュチューニングシステム１５は、対象の仮想マシン１３やコンテナ１４が増設または減設されたか否かを判定する。キャッシュチューニングシステム１５は、仮想マシン１３やコンテナ１４が増設または減設されたならば（Ｙｅｓ）、ステップＳ１２の処理に進む。これにより、キャッシュチューニングシステム１５は、物理ホスト３上で動作している仮想マシン１３やコンテナ１４に対して、自動で最適なキャッシュを再割り当てするようにチューニングできる。
　キャッシュチューニングシステム１５は、仮想マシン１３やコンテナ１４が増設されておらず、かつ減設されていないならば（Ｎｏ）、ステップＳ１０の処理に戻る。

　以下、ステップＳ１２～Ｓ１６は、各仮想マシン１３に対してキャッシュを割り当てる処理である。
　ステップＳ１２において、使用量測定部１５１は、各仮想マシンのキャッシュプリフェッチ数、キャッシュリファレンス数、dTLBミス数を取得する。

　ステップＳ１３において、割当量計算部１５２は、キャッシュプリフェッチ数およびリファレンス数の和を各仮想マシンについて正規化して、Cache Sensitivityの評価指標とする。
　ステップＳ１４において、割当量計算部１５２は、dTLBミス数を各仮想マシンについて正規化し、Cache Pollutivityの評価指標とする。

　ステップＳ１５において、割当量計算部１５２は、Cache Pollutivityの指標を負に反転した上で、0.0から1.0までの間にマッピングし、Cache Sensitivityを加算して正規化する。

　ステップＳ１６において、制御部１５３は、割当量計算部１５２の計算結果の割合で、それぞれの仮想マシンのキャッシュ使用量をマッピングする。その際、割当てビットの変更量が最小になるように割当てを更新するとよい。制御部１５３は、ステップＳ１６の処理が終了すると、ステップＳ１０の処理に戻る。

　なお、上記したステップＳ１２～Ｓ１６において、キャッシュチューニングシステム１５は、各仮想マシンにキャッシュを割り当てている。しかし、これに限られず、コンテナに対してキャッシュを割り当ててもよく、更に仮想マシンやコンテナではない一般的なアプリケーションに対してキャッシュを割り当ててもよい。

　図６は、キャパシティマスクの他の設定例を示す図である。
　このキャパシティマスクは、計算結果であるNormalize欄の総和が1.0になるように正規化されており、キャパシティマスクの１ビットは必ず１つの仮想マシンに割り当てられるようにしている。各仮想マシンのキャッシュ汚染度が高いときには、このような割り当てが好適である。

VM_A : 16 * 0.56 =  9 bit　・・・（4）
VM_B : 16 * 0.30 =  5 bit　・・・(5)
VM_C : 16 * 0.14 =  2 bit　・・・(6)

　図７は、キャパシティマスクの他の設定例を示す図である。
　割当量計算部１５２は、計算結果であるNormalize欄の最大値が1.0になるように正規化している。制御部１５３は、VM_AのCLOSにキャパシティマスクの16ビットを全て割り当てている。つまり、VM_Aには、３次キャッシュメモリ３４の全ての領域が割り当てられている。

　制御部１５３は更に、VM_BのCLOSのキャパシティマスクとVM_CのCLOSのキャパシティマスクとが重ならないようにしている。これにより、VM_Bに割り当てられた３次キャッシュメモリ３４の領域と、VM_Cに割り当てられた３次キャッシュメモリ３４の領域は重ならなくなる。よって、VM_Bの動作によって、VM_Cの性能が低下することを抑止可能である。

《本実施形態の効果》
　本実施形態によれば、仮想マシンやコンテナ等をデプロイした後、手作業によらずキャッシュ容量をチューニングすることができる。更に、仮想マシンやコンテナ上で動作するアプリケーションが変わり、この仮想マシンやコンテナのキャッシュ感度やキャッシュ汚染度が変わった場合にも、それに合わせてキャッシュ容量を自動でチューニングすることができる。

《上記実施形態の構成とその作用効果》
（１）　キャッシュチューニング装置は、
　データを読み書きするメモリと、
　前記メモリよりも高速にアクセス可能なキャッシュと、
　前記メモリおよび前記キャッシュを読み書きして処理を実行する中央処理装置と、
　前記中央処理装置が実行する各アプリケーションによる前記キャッシュの使用状況を測定する測定部と、
　前記使用状況から各前記アプリケーションに割り当てるキャッシュ容量を計算する計算部と、
　前記キャッシュ容量を各前記アプリケーションに割り当てる割当部と、
　を備えることを特徴とする。
　これにより、物理ホスト上で動作する各アプリケーションのキャッシュ使用量を自動制御して、各アプリケーションの性能の最適化を行うことが可能となる。

（２）　（１）に記載のキャッシュチューニング装置の前記測定部は、前記使用状況として各前記アプリケーションにおけるキャッシュプリフェッチ数とリファレンス数とを測定し、
　前記計算部は、各前記アプリケーションにおけるキャッシュプリフェッチ数とリファレンス数との和が大きいほど、当該アプリケーションに割り当てるキャッシュ容量を多く計算することを特徴とする。
　これによりキャッシュチューニング装置は、アプリケーションのキャッシュ感度が高いほど、このアプリケーションに多くのキャッシュ容量を割り当てることができる。

（３）　（１）に記載のキャッシュチューニング装置の前記測定部は、前記使用状況として各前記アプリケーションにおけるdTLB（data Translation Lookaside Buffer）ミス数を測定し、
　前記計算部は、各前記アプリケーションにおけるdTLBミス数が大きいほど、当該アプリケーションに割り当てるキャッシュ容量を少なく計算することを特徴とする。
　これによりキャッシュチューニング装置は、アプリケーションのキャッシュ汚染度が高いほど、このアプリケーションに割り当てるキャッシュ容量を少なくすることができる。

（４）　（１）に記載のキャッシュチューニング装置の前記測定部は、前記使用状況として各前記アプリケーションにおけるキャッシュプリフェッチ数とリファレンス数とdTLBミス数とを測定し、
　前記計算部は、各前記アプリケーションにおけるキャッシュプリフェッチ数とリファレンス数との和を正規化したものから、dTLBミス数を正規化したものを減算して正規化した値をキャッシュ容量として計算することを特徴とする。
　これによりキャッシュチューニング装置は、各アプリケーションのキャッシュ感度とキャッシュ汚染度に応じたキャッシュ容量を、このアプリケーションに割り当てることができる。

（５）キャッシュチューニング方法は、
　データを読み書きするメモリと、
　前記メモリよりも高速にアクセス可能なキャッシュと、
　前記メモリおよび前記キャッシュを読み書きして処理を実行する中央処理装置を備えるコンピュータが、
　前記中央処理装置が実行する各アプリケーションによる前記キャッシュの使用状況を測定するステップと、
　前記使用状況から各前記アプリケーションに割り当てるキャッシュ容量を計算するステップと、
　前記キャッシュ容量を各前記アプリケーションに割り当てるステップと、
　を実行することを特徴とする。
　これにより、物理ホスト上で動作する各アプリケーションのキャッシュ使用量を自動制御して、各アプリケーションの性能の最適化を行うことが可能となる。

（６）　（５）に記載のキャッシュチューニング方法において、
　前記コンピュータは、所定期間ごとに、
　前記キャッシュの使用状況を測定するステップ、
　前記キャッシュ容量を計算するステップ、
　および、前記キャッシュ容量を各前記アプリケーションに割り当てるステップを実行する、ことを特徴とする
　これにより、物理ホスト上で動作する各アプリケーションのキャッシュ感度やキャッシュ汚染度が変化した場合に、変化後のキャッシュ感度やキャッシュ汚染度に応じたキャッシュ容量を自動で割り当てることができる。

（７）　（５）に記載のキャッシュチューニング方法において、
　前記コンピュータは、新たなアプリケーションの起動ごと、および、動作していたアプリケーションが終了するごとに、
　前記キャッシュの使用状況を測定するステップ、
　前記キャッシュ容量を計算するステップ、
　および、前記キャッシュ容量を各前記アプリケーションに割り当てるステップを実行することを特徴とする。
　これにより、物理ホスト上で動作する各アプリケーションの起動または終了のたびに、動作中の各アプリケーションに対して最適なキャッシュ容量を再計算して自動で割り当てることができる。

（８）　キャッシュチューニングプログラムは、
　データを読み書きするメモリと、
　前記メモリよりも高速にアクセス可能なキャッシュと、
　前記メモリおよび前記キャッシュを読み書きして処理を実行する中央処理装置を備えるコンピュータに、
　前記中央処理装置が実行する各アプリケーションによる前記キャッシュの使用状況を測定する手順、
　前記使用状況から各前記アプリケーションに割り当てるキャッシュ容量を計算する手順、
　前記キャッシュ容量を各前記アプリケーションに割り当てる手順、
　を実行させるためのものである。
　これにより、物理ホスト上で動作する各アプリケーションのキャッシュ使用量を自動制御して、各アプリケーションの性能の最適化を行うことが可能となる。

《変形例》
　本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の（ａ）～（ｆ）のようなものがある。

（ａ）　上記実施形態で示したプリフェッチ数とリファレンス数は、キャッシュ感度の評価指標の一例であり、キャッシュ感度の評価指標はこれらの値に限定されない。
（ｂ）　上記実施形態で示したdTLBミス数は、キャッシュ汚染度の評価指標の一例であり、キャッシュ汚染度の評価指標はこの値に限定されない。

（ｃ）　上記実施形態では、Cache Pollutivityの指標を負に反転した上で0-1にマッピングし、Cache Sensitivityを加算して正規化することにより、キャッシュ使用量の指標を得ている。このときの計算式は、S+(1-P)である。これに限られず、Cache Sensitivityが大きいほどキャッシュ使用量を増やし、Cache Pollutivityが大きいほどキャッシュ使用量を減らすような計算式であればよい。

（ｄ）　割当量計算部は、各アプリケーションにおけるキャッシュプリフェッチ数とリファレンス数との和が大きいほど、このアプリケーションに割り当てるキャッシュ容量を多く計算すればよく、S+(1-P)の計算式に限定されない。

（ｅ）　割当量計算部は、各アプリケーションにおけるdTLBミス数が大きいほど、このアプリケーションに割り当てるキャッシュ容量を少なく計算すればよく、S+(1-P)の計算式に限定されない。
（ｆ）　キャパシティマスクの設定は、図４、図６、図７に示した例に限定されない。

１　キャッシュ自動最適化システム
１３，１３ａ～１３ｄ　仮想マシン
１４，１４ａ～１４ｃ　コンテナ
１５　キャッシュチューニングシステム
１５１　使用量測定部　（測定部）
１５２　割当量計算部　（計算部）
１５３　制御部　（割当部）
２　ＯＳ
３　物理ホスト
３１、３１ａ～３１ｄ　ＣＰＵコア　（中央処理装置）
３２ａ～３２ｄ　１次キャッシュメモリ
３３ａ～３３ｄ　２次キャッシュメモリ
３４　３次キャッシュメモリ
３５　メインメモリ

Claims

　データを読み書きするメモリと、
　前記メモリよりも高速にアクセス可能なキャッシュと、
　前記メモリおよび前記キャッシュを読み書きして処理を実行する中央処理装置と、
　前記中央処理装置が実行する各アプリケーションによる前記キャッシュの使用状況を測定する測定部と、
　前記使用状況から各前記アプリケーションに割り当てるキャッシュ容量を計算する計算部と、
　前記キャッシュ容量を各前記アプリケーションに割り当てる割当部と、
　を備えることを特徴とするキャッシュチューニング装置。
　前記測定部は、前記使用状況として各前記アプリケーションにおけるキャッシュプリフェッチ数とリファレンス数とを測定し、
　前記計算部は、各前記アプリケーションにおけるキャッシュプリフェッチ数とリファレンス数との和が大きいほど、当該アプリケーションに割り当てるキャッシュ容量を多く計算する、
　ことを特徴とする請求項１に記載のキャッシュチューニング装置。
　前記測定部は、前記使用状況として各前記アプリケーションにおけるdTLB（data Translation Lookaside Buffer）ミス数を測定し、
　前記計算部は、各前記アプリケーションにおけるdTLBミス数が大きいほど、当該アプリケーションに割り当てるキャッシュ容量を少なく計算する、
　ことを特徴とする請求項１に記載のキャッシュチューニング装置。
　前記測定部は、前記使用状況として各前記アプリケーションにおけるキャッシュプリフェッチ数とリファレンス数とdTLBミス数とを測定し、
　前記計算部は、各前記アプリケーションにおけるキャッシュプリフェッチ数とリファレンス数との和を正規化したものから、dTLBミス数を正規化したものを減算して正規化した値をキャッシュ容量として計算する、
　ことを特徴とする請求項１に記載のキャッシュチューニング装置。
　データを読み書きするメモリと、
　前記メモリよりも高速にアクセス可能なキャッシュと、
　前記メモリおよび前記キャッシュを読み書きして処理を実行する中央処理装置を備えるコンピュータが、
　前記中央処理装置が実行する各アプリケーションによる前記キャッシュの使用状況を測定するステップと、
　前記使用状況から各前記アプリケーションに割り当てるキャッシュ容量を計算するステップと、
　前記キャッシュ容量を各前記アプリケーションに割り当てるステップと、
　を実行することを特徴とするキャッシュチューニング方法。
　前記コンピュータは、所定期間ごとに、
　前記キャッシュの使用状況を測定するステップ、
　前記キャッシュ容量を計算するステップ、
　および、前記キャッシュ容量を各前記アプリケーションに割り当てるステップを実行する、
　ことを特徴とする請求項５に記載のキャッシュチューニング方法。
　前記コンピュータは、新たなアプリケーションの起動ごと、および、動作していたアプリケーションが終了するごとに、
　前記キャッシュの使用状況を測定するステップ、
　前記キャッシュ容量を計算するステップ、
　および、前記キャッシュ容量を各前記アプリケーションに割り当てるステップを実行する、
　ことを特徴とする請求項５に記載のキャッシュチューニング方法。
　データを読み書きするメモリと、
　前記メモリよりも高速にアクセス可能なキャッシュと、
　前記メモリおよび前記キャッシュを読み書きして処理を実行する中央処理装置を備えるコンピュータに、
　前記中央処理装置が実行する各アプリケーションによる前記キャッシュの使用状況を測定する手順、
　前記使用状況から各前記アプリケーションに割り当てるキャッシュ容量を計算する手順、
　前記キャッシュ容量を各前記アプリケーションに割り当てる手順、
　を実行させるためのキャッシュチューニングプログラム。