WO2015121912A1

WO2015121912A1 - データ記憶装置

Info

Publication number: WO2015121912A1
Application number: PCT/JP2014/053107
Authority: WO
Inventors: 政弘新井; 彬史鈴木; 岡田　光弘; 悠二伊藤; 和衛弘中; 賢志森下; 紀夫下薗
Original assignee: 株式会社日立製作所
Priority date: 2014-02-12
Filing date: 2014-02-12
Publication date: 2015-08-20
Also published as: US20160342545A1

Abstract

　データ記憶装置は、データを格納する記憶媒体と、外部装置によって生成されたデータ転送を指示するコマンドを格納するコマンドバッファと、外部装置にそれぞれ接続され、かつ、ハードウェア回路である、コマンド転送DMA(Direct Memory Access)と、転送リスト生成DMAと、データ転送DMAと、を備える。　コマンド転送DMAは、コマンドを外部装置のメモリから取得し、コマンドの指示内容を取得し、コマンドバッファにコマンドを格納して処理中のコマンドを特定するコマンド番号を取得し、コマンドの指示内容に応じてコマンド番号を送信することで転送リスト生成DMAを起動し、転送リスト生成DMAは、コマンドバッファに格納されたコマンドに基づいて、外部装置との間でデータ転送の対象となるメモリのアドレスを特定し、アドレスをデータ転送DMAに送信することでデータ転送DMAを起動し、データ転送DMAは、アドレスに基づいてメモリとの間でデータを転送する。

Description

データ記憶装置

　本発明は、PCIe接続型のデータ記憶装置に関する。

　近年、計算機やストレージシステムでは、大量データの高速解析や高速I/O処理のために、大容量のメモリ領域を必要としている。例えば計算機ではインメモリDBのようなアプリケーションである。しかしながら、装置に搭載可能なDRAM容量は、コスト上の理由や電気的な実装制約によって限られていた。このため、緩和手段として、DRAMよりは遅いもののHDDに比べれば高速なNANDフラッシュメモリといった半導体記憶媒体を利用する動きが出てきている。

　これらの半導体記憶媒体はSSD(Solide State Disk)という名前で呼ばれており、Diskの名が示すとおり、SATA(Seiral ATA)やSAS(Serial Attached SCSI)といったディスクI/Oインターフェース接続とそのプロトコルを介して計算機やストレージコントローラに接続され、利用されてきた。

　しかし、計算機の性能向上に対し、これらのディスクI/Oインターフェースとプロトコルを介してのアクセスは、オーバヘッドが大きくレイテンシが大きい。そこで、より近年ではプロセッサに直結できる汎用バスであるPCI-Express(PCIe)上に搭載でき、かつ、その高速性を活かすために新たに策定されたNVMeプロトコルを用いて、低レイテンシでアクセス可能なPCIe接続型SSD(PCIe-SSDまたはPCIe-Flash)が登場してきている。

　NVMeでは、データ送受信のためのサポートするI/Oコマンドは非常に簡素であり、サポート必須コマンドは、Write、Read、Flushの３つのみである。

　また、SASなどの従来ディスクI/Oプロトコルでは、ホストが主体となって、コマンドやデータを装置側へ送信していたのに対し、NVMeでは、ホストからはコマンドが作成されたことのみを装置に通知し、コマンドそのものの取得やデータの転送、装置側が主体となって実施される。すなわち装置側からのアクションに置き換えられて実施される。例えば装置が取得したコマンドの内容がWriteだった場合、従来であればホストが装置に向けてWriteデータを送信するが、NVMeでは、装置がホストのデータをReadする動作によって実現される。逆に、コマンドの内容がReadだった場合、Readコマンドの処理は、装置がホストのメモリへデータをWriteする動作によって実現される。

　すなわち、NVMeでは、コマンドの受領、データのリード・ライト転送共に、動作契機は装置側が握っているので、ホストからの要求をいつでも受け付けるための余計なリソース確保が不要となる。

　更に、従来のディスクI/Oプロトコルの場合、ホストおよび装置の両者は互いに授受するデータないしコマンドに、直接アドレスを付加することはせず、プロトコルで規定するIDやTagをつける。両者は受領した時点でIDやTagと自身のメモリアドレスとの変換(プロトコル変換の一部)を行うので、コマンド・データに関わらず必ずプロトコル変換が必要になりオーバヘッドが大きい。これに対しNVMeでは、ストレージ装置が直接ホストのメモリアドレス空間に対してデータを読み書きすることでデータ転送を行う。このためプロトコル変換のオーバヘッドが小さく、レイテンシも小さくすることができる。

　以上の様にNVMeはコマンド体系を単純化し、転送オーバヘッド(レイテンシ)を小さくした軽量な通信プロトコルなので、同プロトコルを採用したPCIe-SSD(PCIe-Flash)装置には、PCI-Express帯域に準じた高いI/O性能と、高速なレスポンス性能(低レイテンシ)が求められる。

　特許文献1では、ホスト計算機に接続されたSSDにおいて、SSDのプロセッサがホスト計算機から受信したコマンドを解析し、解析したコマンドの内容に基づいてホストインターフェース内のDMA(Direct Memory Access)にデータ転送を指示することが開示されている。また、特許文献1のSSDでは、データは圧縮してフラッシュメモリに格納されるが、ホストインターフェースとデータ圧縮エンジンが直列に配されている。

米国特許第8,370,544号

　しかしながら、特許文献1の技術を使って高性能化しようとした場合、次の様な課題が生じる。

　第1にプロセッサの処理性能がボトルネックとなる。上記のような事情に対して性能向上を図ろうとした場合、単位時間あたりに処理できるI/O数を向上させる必要がある。特許文献1では全ての動作判断やDMAの起動をプロセッサが処理しているため、I/O処理性能を向上させるためには、処理自身の効率化かプロセッサ自身の強化が必要となる。しかしながら、プロセッサの周波数やコア数といった物量を増やせば消費電力や発熱量も増える。一般にキャッシュ装置のようにシステムへ組込んで使う装置ではスペースの制約や給電を理由に発熱量や消費電力は限られており無条件にプロセッサを強化することはできない。また、フラッシュメモリは熱に弱いため、その観点からも限られたスペースに発熱量の多い部品を実装するのは望ましくない。

　第2にホストインターフェースと圧縮エンジンが直列に配されており、データ転送の際には2種のDMA転送が必要となるためレイテンシが大きく、高レスポンス化が難しい。同転送はホストインターフェースのDMA、圧縮エンジンのDMAを起動して行われるから、いずれのデータ転送においても2つのDMA転送を経なければならず、レイテンシは大きい。

　このことは、特許文献１がFibre ChannelやSASなど、双方のメモリには互いに直接アクセスできない転送プロトコルにも対応できるよう構成されていることに起因するものである。

　本発明は、以上の課題を鑑みて成されたものである。すなわち、本発明の目的の１つは、NVMeのようなホストとメモリリード/ライトリクエストによってデータを授受するプロトコルを用いる記憶装置において、プロセッサを強化することなく、ハードウェアであるDMAを用いることによって低レイテンシで高速なI/O処理を可能とするデータ転送を実現することである。

　データ記憶装置は、データを格納する記憶媒体と、外部装置によって生成されたデータ転送を指示するコマンドを格納するコマンドバッファと、外部装置にそれぞれ接続され、かつ、ハードウェア回路である、コマンド転送DMA(Direct Memory Access)と、転送リスト生成DMAと、データ転送DMAと、を備える。

　コマンド転送DMAは、コマンドを外部装置のメモリから取得し、コマンドの指示内容を取得し、コマンドバッファにコマンドを格納して処理中のコマンドを特定するコマンド番号を取得し、コマンドの指示内容に応じてコマンド番号を送信することで転送リスト生成DMAを起動し、転送リスト生成DMAは、コマンドバッファに格納されたコマンドに基づいて、外部装置との間でデータ転送の対象となるメモリのアドレスを特定し、アドレスをデータ転送DMAに送信することでデータ転送DMAを起動し、データ転送DMAは、アドレスに基づいてメモリとの間でデータを転送する。

　本発明によれば、ホストメモリにアクセスが生じる処理フェーズ毎のDMAが並列にかつ他のDMAを経由することなく転送を行うことができるので、低レイテンシでのデータ転送を実現することができる。また、ハードウェアがプロセッサの指示待ちをせずに効率良く動作できるほか、プロセッサもDMAの転送指示、転送終了確認を行う必要がなくなり、プロセッサの処理命令数を削減できる。このためプロセッサを強化せずとも、単位時間に処理できるI/O数が向上する。従い、プロセッサとハードウェアとのいずれの処理効率も向上するので、装置全体としてのI/O処理性能を向上させることができる。

実施例１におけるPCIe接続型キャッシュメモリ装置のブロック図である。実施例１におけるPCIe接続型キャッシュメモリ装置の外観図である。実施例１におけるPCIe接続型キャッシュメモリ装置の外観図である。実施例１におけるPCIe接続型キャッシュメモリ装置と上位装置との間でのI/O処理手順を示す模式図である。実施例１におけるNVMe DMAの構成を示すブロック図である。実施例１におけるPARAM DMAの構成を示すブロック図である。実施例１におけるDATA DMAの構成を示すブロック図である。実施例１におけるSRAM上に配置される管理情報の構成を示す図である。実施例１におけるDRAM上に配置されるバッファの構成を示す図である。実施例１におけるハードウェアの処理動作のフローチャートである。実施例１におけるDMAの連係によるI/O処理を示す模式図である。実施例１におけるRMW　DMAの構成を示すブロック図である。実施例１におけるホストからのライト処理におけるRead Modify Write処理のフローチャートである。実施例２におけるキャッシュメモリ装置を搭載するストレージシステムのブロック図である。実施例２におけるストレージシステムのライト処理のフローチャートである。実施例２におけるストレージシステムのリード処理のフローチャートである。実施例２におけるキャッシュメモリ装置内のアドレスマッピングの模式図である。実施例１におけるキャッシュメモリ装置のブロック図である。実施例１におけるキャッシュメモリ装置のブロック図である。実施例１におけるNVMeのコマンドフォーマットを示す図である。

　本発明を実施するための形態を実施例1および実施例2を用いて説明する。なお、当該実施例からの部分的変更によって実施できる形態は、各実施例内で変形例として記述する。

　本実施例を図1～図12及び図19を参照して説明する。

　図1は本実施形態におけるキャッシュ装置の構成を示すブロック図である。キャッシュ装置1は、PCI-Express(PCIe)を介して上位装置2に接続されて使用される。上位装置2は生成したデータや、他の装置から受信したデータをNVMeプロトコルのコマンドセットを用いてデータの入出力を行う。上位装置2の例としてはサーバシステムやストレージシステム(ディスクアレイ)コントローラ等がある。上位装置2はキャッシュ装置の外部の装置ということもできる。

　キャッシュ装置1は、LSIないしFPGAとして実装されるハードウェアロジック10、同装置の記憶媒体として用いられるフラッシュメモリチップ(FM)121、122、および一時的記憶領域として用いられるDRAM(Dynamic Random Access Memory)131、132とからなる。FM121、122とDRAM131、32の両者は、価格・容量・性能などの視点から使い分ける目的で搭載していれば他の組合せでも構わない。例えばReRAM(Resistance Random Access Memory)とMRAM(Magnetic Random Access Memory)、PRAM(Phase Change Memory)とDRAMといった組合せが考えられる。あるいは、SLC(Single Level Cell) NANDとTLC(Triple Level Cell) NANDといった組み合わせでもかまわない。また、両者を2つずつ記載しているのは複数搭載されうることを意図するものであり、１つでも多数でも構わない。また、両者の１つのあたりの容量は同じである必要はなく、また、実装数も同数である必要はない。

　ハードウェアロジック10には、上位装置2との接続口となるPCIeコア110、FM 121、122等を制御するコントローラであり、DMAであるFMコントローラDMA(FMC DMA) 120、 DRAM131、132等を制御するDRAMコントローラ(DRAMC)130を備える。さらに、内部の制御を行うためのプロセッサ140と各種情報格納に用いられるSRAM150、および、各種転送処理のためのDMA160～190を備える。FMC 120、および、DRAMC130は１つずつ図示しているが、サポートすべき容量や性能に応じて複数設けられても良い。また、１つのFMC 120またはDRAMC 130の配下に複数のチャネルないしバスが設けられても良い。また、逆に１つのチャネルないしバスに複数のFMC 120が設けられても良い。

　先に述べたPCIeコア110は、PCIeの物理層およびその上位層の通信に必要な最低限のロジックを備える部分であり、上位装置側メモリ空間へのアクセスをブリッジする役割を果たす。バス200は、PCIeコア110を通じて各種DMA160～180が上位装置側のメモリ空間へアクセスするための接続調停部である。

　バス210も同様にして各種DMA180、190およびFMC DMA120がDRAM131、132へアクセスするための接続部である。バス220によって、プロセッサ140とSRAM150、各種DMAは互いに結合される。なお、各バス200～220は、スイッチ結合網のような形態でも本質的には変わらない。

　先に述べた各種DMA160～180は、NVMe処理において上位装置2のメモリへアクセスが発生する処理フェーズ毎に設けられ、次から構成される。即ち、NVMeコマンドの受領および応答処理(コンプリーション)処理を行うNVMe DMA160、転送元ないし転送先のアドレスが記載されたリスト(PRP List)を取得するPARAM DMA170、必要に応じ圧縮/伸張を行いながらユーザデータの転送を行うDATA DMA180である。更に、FM 121、122ないしDRAM131、132上の圧縮データと非圧縮データとをマージ(Read-Modify)するためのRMW DMA190が設けられる。それぞれのDMAの詳細な振る舞いについては後述する。

　このうち、上位装置2のメモリ空間へのアクセスする必要のあるDMA160、170、180は、個々に独立して、かつ、中間に余計なDMAを介さずにアクセスできるようバス200を介して上位装置への接続口であるPCIeコア110に並列に接続されている。同様にDRAM131、132へのアクセスが必要なDMA120、180、190はバス210を介してDRAMC 130に対して並列に接続されている。また、NVMe DMA160とPARAM DMA 170は制御信号線230で接続され、PARAM DMA 170とDATA DMA 180は制御信号線240で接続され、DATA DMA180とNVMe DMA160は制御信号線250で接続される。

　このように、本実施形態では処理フェーズ毎に異なる3つのDMAを設ける。処理が異なるとDMAを構成するために必要なハードウェア回路も異なるため、複数の処理フェーズを1つのDMAで行うよりも、各DMAは特定の処理を高速に実行することができる。また、1つのDMAが処理を実行している間に他のDMAも並列して処理を実行することができるため、より高速なコマンド処理が実現できる。また、本実施形態ではプロセッサが各DMAに指示をすることなくデータ転送を実現できるため、プロセッサのボトルネックが解消される。また、各DMAはプロセッサの指示を待つ必要がないため、効率的に動作できる。このためには、3つのDMAが互いに連係して処理を行う必要がある。DMAの連係については、後述する。

　また、各DMAが直列に接続されると、例えば、PARAM DMA170が処理を実行するためにNVMe DMA160を経て上位装置2にアクセスする必要があり、DATA DMA180が処理を実行するためにNVMe DMA160とPARAM DMA170をそれぞれ経て上位装置2にアクセスする必要がある。これではレイテンシが大きく、性能低下を招くため、本実施形態では3つのDMAを並列に設けることによって、各DMAが上位装置2にアクセスするために他のDMAを経る必要がない。これにより、さらなる高性能化を実現できる。

　よって、本実施形態により、キャッシュ装置のフロントエンド側の処理をハードウェア化することで、PCIeの広帯域を活かした高性能なデータ転送が可能となる。

　また、高I/O性能、高レスポンス性能により、搭載されるフラッシュメモリへの単位時間当たりの書込量も増大する。フラッシュメモリは書換え寿命のあるメディアであるから、性能が上昇しても書き換え回数（または消去回数）の増加を抑止するような工夫が必要である。このため、本実施例のキャッシュ装置は、データを圧縮するハードウェア回路を備える。これにより、データの書き込み量が削減され、フラッシュメモリの長寿命化が可能となる。また、データを圧縮することでキャッシュ装置に格納可能なデータ量は実質的に増大し、キャッシュヒット率の向上が見込めるため、システムの性能が向上する。

　プロセッサ140は、LSIないしFPGA内に設けられる組込プロセッサであり、コア140a、140bのように複数のコアを持つことがある。同プロセッサ上では装置1の制御ソフトウェアが動作し、例えばFMのウェアレベリングやガーベッジコレクションの制御、フラッシュメモリの論理アドレスと物理アドレスマッピングの管理、各FMチップの寿命管理等を行う。プロセッサ140はバス220に接続されており、同バスに接続されるSRAM150へは、プロセッサやDMAからの高速なアクセスが必要な各種情報や、前記制御ソフトウェアのワーキングエリアとして用いられる。SRAM150へのアクセスや必要に応じたプロセッサとの通信のため、各種DMAもバス220に接続される。

　図2a、2bは、図1で説明したキャッシュ装置1の理解を深めるために外観イメージを示した図である。先に図2aについて説明する。

　図2aは、本キャッシュ装置がPCIeカードの形状で実装された際のイメージを示した図である。本図では、外観全体がキャッシュ装置1にあたり、ハードウェアロジック10がLSI(FPGAやASICの形態を含む)として図の左手に実装されている。カードにはこの他に、DRAM131、フラッシュメモリ(FM)121～127がDIMMの形状で実装されており、また、上位装置とはカードエッジ11を通じて接続される。具体的にはPCIeコア110がLSIに実装され、信号線がカードエッジ11に向けて配線されている。なお、エッジ11はコネクタ形状でも構わない。また、図には示さないが、同装置のDRAM131の揮発を保護するためにバッテリまたは同等の役割を果たすスーパーキャパシタが搭載されることもある。

　図2bは、本キャッシュ装置が巨大なパッケージボードとして実装された場合のイメージを示した図である。図の右手に示されるボードがキャッシュ装置1にあたり、図2aと同様、ハードウェアロジック10、DRAM131、132、および多数のFM121等が搭載される。上位装置との接続には、例えば、PCIeケーブルアダプタ250のようなPCIeを外部に延長するケーブルおよびアダプタを介して接続される。また、パッケージボード形状のキャシュ装置1は、電源供給や冷却のためにしばしば専用の筐体に納められる。

　図3は、キャッシュ装置1と上位装置2の間で行われるNVMeコマンド処理の流れを模式的に示したものである。

　NVMeによるI/Oを行うために、上位装置2は、規定のフォーマット1900によってSubmissionコマンド作成する。上位装置2のメモリ20にはSubmissionコマンドを格納するためのSubmission Queue201、コマンドの完了通知を受け取るためのCompletion Queue202が上位装置2のメモリ領域にプロセッサコアごとに設けられる。同Queue201、202は文字通りコマンドをキューイングしておくためのリングバッファであり、エンキューする側をTailポインタで、デキューする側をHeadポインタで管理し、その差によってキューイングの有無を管理する。各Queue領域の先頭アドレスは、初期化の時にNVMeのAdministrationコマンドを用いてキャッシュ装置1に伝えられる。また、コマンドを格納する個々の領域はEntryと呼ばれる。

　上位装置2のメモリ20上には、上記の他にキャッシュ装置1へライトするデータや、キャッシュ装置1からリードしたデータを格納するためのメモリ領域204、前記データ領域204を指定する際にアドレスをリスト化して纏めたPRP(Physical Region Pages) Listを格納するための領域203などが、必要に応じて動的に設けられる。PRPとは、NVMe初期化時に決定されるメモリページサイズ毎に割付けられるアドレスである。例えばメモリページサイズ4KBの場合、64KBのデータを指定するには4KBごとに16個のPRPを用いて指定される。図3に戻り、キャッシュ装置1側には、上位装置2がSubmission Queue201にキューイングし、Tailポインタを更新したことを知らせるためのSubmission Queue Tail (SQT) Doorbell 1611と、上位装置2が、キャッシュ装置1が送信したCompletionをCompletion Queue から取り出してHeadポインタを更新したことを知らせるCompletion Queue (CQHD) Doorbell 1621とが設けられる。通常これらは制御レジスタの一部であり、上位装置2がアクセス可能なメモリアドレス空間に割り当てられる。

　なお、”Tail”および”Head”の用語はFIFOの考え方で定義されており、新しく作られたコマンドはTailに追加され、先に作られたコマンドがHeadから処理される。

　ここで、上位装置2が生成するコマンドについて説明する。図19はNVMeのコマンドフォーマットを示す図である。フォーマット1900は、次のフィールドを備える。Command Identifier1901はコマンドのIDを格納する領域である。Opcode1902は、リードやライトなどそのコマンドによる処理内容を示す情報を格納する領域である。PRP Entry 1903及び1904は、PRP (Physical Region Pages)を格納する領域である。PRPはNVMeのコマンドフィールドに最大2個まで含めることができるが、先の例のように16個必要な場合には、このフィールドでは足りないので、PRP Listとして別領域にアドレスリストが設けられる。そして、PRP Entry 1904には、PRP Listが格納されている領域（メモリ20のアドレス）を示す情報が格納される。Starting LBA 1905は、データをライトまたはリードする領域の開始位置を格納する領域である。Number of Logical Blocks 1906は、リードまたはライトするデータのサイズを格納する領域である。Data Set Mgmt 1907は、ライトするデータの圧縮の要否や、リードするデータの伸張の要否を指示する情報を格納する領域である。フォーマット1900は、図19に示す以外のフィールドを備えても良い。

　図3に戻り、コマンド処理の流れについて説明する。上位装置2はNVMe規格に定義されたコマンドのフォーマットに従ってSubmissionコマンドをSubmission Queue201の空きEntryに順に作成する。上位装置2はコマンドを生成したことをキャッシュ装置1に通知するために、Submission Queue Tail (SQT) Doorbell 1611に使用した最終Entry番号、すなわちTailポインタの値をライトする(S300)。

　キャッシュ装置1は、ある動作周期でSQT Doorbell 1611をポーリングし、自身が管理するHeadポインタとSQT Doorbellとの差を比較することで新たにコマンドが発行されたか否かを検出する。新たにコマンドが発行されていると、キャッシュ装置1はPCIeメモリリードリクエストを発行して、上位装置2のメモリ20のSubmission Queue 201の該当Entryからコマンドを取得し、同コマンドの各パラメータフィールドに指定された各設定を解析する (S310)。

　キャッシュ装置１は、上記コマンド内容から必要なデータ転送処理を実施する(S320～330)。

　データ転送に先立ち、キャッシュ装置1は、データ転送元ないし転送先となる上位装置2のメモリアドレスを知るためにPRPを取得する。コマンド内にもPRP を格納するフィールドは設けられているが、2つまでとサイズが限られているので、転送長が長い場合には、同フィールドにはPRPそのものではなく、PRP Listの格納先アドレスが指定されることは先に述べた通りである。その場合には、キャッシュ装置１は前記アドレスを用いて上位装置2のメモリ20からPRP Listを取得する(S320)。

　そしてPRP Listから一連のPRPを取得することで転送元ないし転送先アドレスを取得することができる。

　NVMeでは全ての転送はキャッシュ装置1が主体となって行われる。例えばライトコマンドが発行された場合、即ちドアベルが鳴らされると、キャッシュ装置1は、初めにコマンドの内容を取得するためにPCIeメモリリードリクエストを用いてメモリ20にアクセスする。次に、PRPを得るために、再びメモリ20にアクセスする。そして、最後に、メモリ20にアクセスしてユーザデータを読み出し、自身の記憶領域(例えばDRAM)に格納する(S330A)。

　同様に、リードコマンドの場合、ドアベルが鳴らされると、キャッシュ装置1は初めにコマンドの内容を取得するためにPCIeメモリリードリクエストを用いてメモリ20にアクセスし、次にPRPを得るためにメモリ20にアクセスし、最後にPRPで指定された上位措置2のメモリアドレスに対して、PCIeメモリライトリクエストによって、ユーザデータを書き込む(S330B)。

　以上のように、コマンド発行からデータ転送までは、いずれのコマンドの場合にも、 (1)コマンドの取得(S310)、(2)PRP Listの取得(S320)、(3)データの転送(S330A、B)、と３フェーズの上位装置2アクセス処理によって成り立っている事が分かる。

　データ転送処理が終了すると、キャッシュ装置1は、完了ステータスをメモリ20のCompletion Queue 202に書込む(S350)。そしてPCIeおよびNVMeの初期設定に応じてPCIeのMSI-X割込によって上位装置2にCompletion Queue 202の更新を通知する。

　上位装置2はCompletion Queue202より当該完了ステータスを読み出して確認する。その後、キャッシュ装置1は処理したCompletion数分Headポインタを進めCQHD Doorbell1621へのライトを通じて、キャッシュ装置1からのコマンド完了通知を受領処理したことを同装置に知らせる(S360)。

　なお、完了ステータスにエラーがあった場合、上位装置2はその内容に応じて障害処理を行うことになる。以上のような通信を通じ上位装置2とキャシュ装置1は1つのNVMe I/Oコマンドを処理する。

　以降の図4から図8では、図3で示したI/Oを処理するために本実施形態が備えるDMAおよび制御情報の詳細について説明する。

　図4は、本実施形態におけるNVMe DMA 160の内部構成を示す図である。NVMe DMA160 は先のSQT Doorbell1611、 CQHD Doorbell 1612を通じて、上位装置2とのコマンド処理を行うDMAである。同DMAは、第１フェーズであるコマンド受領を処理するコマンドブロック(CMD BLK) 1610、コマンド処理後に上位装置2に完了通知(コンプリーション)を返すコンプリーションブロック(CPL_BLK)1620、両者の制御およびプロセッサ上で動作する制御ソフトウェアとの通信を担うコマンドマネージャ(CMD_MGR)1630、そして、受領コマンドのフォーマットの妥当性検査やコマンド種の判定を行うコマンド判別ブロック(CMD_JUDGE)1640から構成される。なお、本実施形態では上記のブロック構成としたが、これは一例であり同様の機能を実現できれば、他の構成でもよい。本実施形態における他のDMAについても同じである。

　CMD_BLK 1610には、先述したSubmission Queue Tail Doorbell(SQT)レジスタ1611、同レジスタとの差分を検出するために現在処理中のEntry番号を記憶しておくCurrent Headレジスタ1612、実際にコマンドを取得するCMD DMA1613、および同コマンド取得時に利用する内部バッファ1614とがある。

　CPL_BLK 1620には、CMD_MGR1630からの指示により上位装置2へのコンプリーションを生成・発行するCPL DMA1623、生成時に利用するバッファ1624、先述したCompletion Queue Head Doorbell(CQHD)レジスタ1621、同レジスタの更新を差分検出するためのCurrent Tailレジスタ1622とがあり、また、Completion QueueのEntry番号と内部処理で利用するコマンド番号1500(図7;後述)との対応関係を記憶するテーブル1625を備える。CMD_MGR 1630が同テーブルと上位装置2からの完了受領通知(コンプリーション受領通知)とを用いてコマンドの完了状況を管理する。

　CMD_BLK 1610およびCPL_BLK 1620は、バス200を通じてPCIeコア110と接続されており、双方向の通信が可能である。

　また、CMD_BLK 1610およびCPL_BLK 1620は、CMD_MGR 1630と内部接続される。CMD_MGR 1630は制御ソフトウェアと他DMAからの終了通知またはエラー通知に応じて完了応答の生成をCPL_BLK1613に指示するほか、SRAM150内に設けられるコマンドバッファ(図7；後述)の空きを管理しており、CMD_BLK 1610からのバッファ要求やプロセッサからのバッファ解放通知に基づいて管理する。

　CMD_JUDGE 1640は、CMD_BLK 1610と接続され、取得したコマンドがDRAM131のコマンドバッファに転送される経路上に配置されている。 CMD_JUDGE 1640は、コマンドが通過する際、コマンドの種別(リードコマンドかライトコマンドかその他か)を判別したり、コマンドフォーマットやその値が規格を逸脱していないかチェックする。CMD_JUDGE1640は、またコマンド種別判別結果に応じて後述するPARAM DMA170を起動するために、同DMAと制御信号線230を介して接続される。また、コマンドフォーマットが無効であった場合、エラー応答を上位装置2へ返すため、CMD_MGR 1630とも接続される(図示割愛)。

　図5は本実施形態におけるPARAM DMA170の内部構成を示す図である。PARAM DMA170は、CMD_BLK1610がDRAM131のコマンドバッファに格納したコマンドに含まれるパラメータを解析して、DATA DMA 180を起動するのに必要な転送パラメータを生成するDMAである。

　同DMAには、上位装置2のコマンドがライトコマンドであったとき、CMD_BLKにあるCMD_JUDGE 1640によって起動されるPRP_DMA_BLK_W 1710と、上位装置2のコマンドがリードコマンドであったとき、リード返送用データが用意できた際にプロセッサ140により起動されるPRP_DMA_BLK_R 1720とがある。なお添え字の_Wおよび_Rは上位装置2からのコマンド種別と対応しており、ライトコマンドを処理する際に動作するのが前者(_W)、リードコマンドを処理する際に動作するのが後者(_R)である。

　PRP_DMA_BLK_W 1710は、コマンドから必要なフィールド情報を取得解析するCMD取得部(CMD FETCH)1711、解析してPRP Entryを取得するPRPフェッチ部(PRP_FETCH) 1712と、PRP Entryを元に、DMAパラメータを生成するパラメータ生成部(PRM_GEN) 1713、DMAとの通信を担うDMA_COM 1714、および、各部に使用されるバッファ(図示省略)から構成される。

　PRP_DMA_BLK_R 1720も、構成は同様でありCMD_FETCH 1721、PRP_FETCH 1722、 PRM_GEN 1723、DMA_COM 1724、および各部に使用されるバッファから構成される。

　PRP_DMA_BLK_W 1710およびPRP_DMA_BLK_R 1720は、上位装置2からPRP Entry Listの取得を行うために、バス200に接続されるほか、SRAM150上のコマンドバッファに格納したコマンド情報を参照するためにバス220と接続される。また、生成したDMA転送パラメータによるデータ転送指示のために、後述するDATA_DMA180と制御信号線240を介して接続される。

　PRP_DMA_BLK_W 1710 は更に、CMD_JUDGE1640と接続され、コマンドがライトコマンドだった際にCMD_JUDGE1640から起動される。

　一方、PRP_DMA_BLK_R 1720は、上位装置2のメモリ20へ転送するためのデータがDRAM 131、132に設けられたリードバッファに用意された後に、バス220を介してプロセッサ140により起動される。なお、バス220との接続は、障害発生時にプロセッサ140やCMD_MGR と通信するためにも用いられる。

　図6は本実施形態におけるDATA_DMA180の内部構成を示す図である。DATA_DMA180は、PRP_DMA_BLK_W 1710が生成するDMA転送パラメータに基づき、上位装置2のメモリ20から装置1のDRAM131、132に設けられたライトバッファへ圧縮ないし非圧縮で転送するDATA_DMA_W 1810と、PRP_DMA_BLK_R 1720が生成するDMA転送パラメータに基づきDRAM131、132に設けられたリードバッファから上位装置2のメモリ20へ伸張ないし非伸張で転送する機能により上位装置2のリードコマンド処理時に主に動作するDATA_DMA_R 1820とから成る。末尾の_Wまたは_Rは、上位装置2から見たI/Oの種別を意図している。

　DATA_DMA_W 1810には、ライトコマンドを処理するために、上位装置2のメモリ20からデータをリードしてくるためのRX_DMA 610、リードしてきたデータを格納する為のINPUTバッファ611、RX_DMA610からのトリガによってINPUTバッファよりデータをリードし、圧縮指示の有無および圧縮単位サイズに達しているかの条件に応じ圧縮するCOMP DMA 612、圧縮済データを格納する為のOUTPUTバッファ613、DATA_DMA_W1810動作終了時に圧縮サイズ等の情報をプロセッサに渡すための管理を行うステータスマネージャSTS_MGR616、および、圧縮済みデータをDRAM131、132に送信する為のTX0_DMA 614、非圧縮データをDRAM131、132へ送信する為のTX1_DMA 615が含まれる。TX1_DMA 615は、IPNUTバッファ611から直接非圧縮データをリードできるよう、同バッファと内部接続される。

　なお、TX0_DMA 614およびTX1_DMA 615は構成上１つのDMAであっても構わない。その場合にはセレクタによってINPUTバッファとOUTPUTバッファが接続される。

　COMP DMA612とTX1 DMA615は制御信号線617で接続されている。上位装置からのコマンドにより圧縮が指定されている場合、COMP DMA612はデータを圧縮する。しかし、所定の条件を満たす場合、圧縮せずにデータを転送するため、COMP DMA 617は制御信号線617を介してTX1 DMA 615に非圧縮でのデータ転送を指示する。例えば、データ終端が圧縮単位に満たない場合や、圧縮後のサイズが元のサイズより大きくなってしまった場合などである。

　DATA_DMA_R 1820には、DRAM131、132から伸張用にリードしてくる為のRX0_DMA 620、非伸張用にリードしてくる為のRX1_DMA 621、リードしてきた圧縮済データを格納する為のINPUTバッファ622、INPUTバッファよりデータをリードし、条件に応じて伸張するDECOMP DMA 623、同条件判断のためにプロセッサから渡される圧縮情報を管理するステータスマネージャSTS_MGR626、伸張および非伸張データを格納するOUPUTバッファ624、上位装置2のメモリ20へデータをライトするためのTX_DMA 625とが含まれる。

　RX1_DMA 622は圧縮済データを非伸張で上位装置2へライトできるようOUTPUTバッファ625と接続される。なお、RX0_DMA 620およびRX1_DMA 622は構成上１つのDMAであっても構わない。その場合にはセレクタによってINPUTバッファとOUTPUTバッファが接続される。

　DATA_DMA_W 1810およびDATA_DMA_R 1820は、上位装置2のメモリ20にアクセスするためにバス200と、DRAM131、132にアクセスするためにバス210と、そして、障害時にCPL_BLK1620と通信するために、バス220と接続される。なお、動作のためのDMA転送パラメータを受け取る為にPRP_DMA_BLK_W 1710とDATA_DMA_W 1820、PRP_DMA_BLK_R 1720とDATA_DMA_R1720が互いに接続される。

　図7は、これまでに説明した本実施形態におけるSRAM150に配置される情報についてまとめて図示したものである。SRAM150には、CMD_DMA160等で用いられる上位装置2から受領したコマンド情報を格納しておく為のコマンドバッファ1510、同コマンドに対応したデータを圧縮した際の圧縮情報を格納する為の圧縮情報バッファ1520とがあり、それぞれコマンド番号1500で管理される。またSRAM150にはCMD_DMA160がライトコマンドおよびデータ受領をプロセッサコア140a/bに通知するためにコマンド番号を格納するライトコマンドリングバッファWr Ring 710a/b、同様に、リード等のコマンド受領を通知するためにコマンド番号を格納する為の非ライトコマンドリングバッファNWr Ring 720a/b、上位装置2からのコンプリーション受領完了を通知するためにコマンド番号を格納するコンプリーション完了リングバッファCpl Ring740a/b、そして、FMの物理アドレスと上位装置2に見せている論理アドレスとの対応関係を記録する論理-物理変換テーブル750とがある。なお、SRAM150はこの他にもプロセッサ140で動作する制御ソフトウェアのワーキングエリアとして利用されるが、本発明の内容とは関係しないので、説明は割愛する。

　コマンドバッファ1510は、Submission QueueのEntryに作成されたNVMeコマンドを上位装置2から取得して格納しておく領域を複数備える。各領域のサイズは同一であり、コマンド番号1500で管理される。従い、ハードウェアは、コマンド番号が判れば「先頭アドレス＋コマンド番号×固定サイズ」から当該コマンド番号に対応するコマンドが格納されている領域のアクセスアドレスを知ることができる。なお、コマンドバッファ1510はプロセッサ140用に一部予約された領域を除きハードウェアによって管理される。
圧縮情報バッファ1520は、各コマンドに対応して設けられ、バッファ内は圧縮単位ごとに複数個の情報を格納できるように構成される。例えば、最大転送長が256KB、圧縮単位が4KBだった場合、64個の圧縮情報が1つの圧縮バッファに格納できるよう設計される。最大転送長をどこまでサポートするかは装置の設計事項である。なお、上位装置のアプリケーションが要求するI/Oサイズはしばしば最大転送長よりも大きい(例えば1MB)が、多くの場合、ドライバで分割される(例えば256KB×4)。

　圧縮情報バッファ1520に圧縮単位で格納される圧縮情報は、例えば、後述するデータバッファ番号、当該データバッファ内でのオフセット、圧縮後のサイズ、該当データの有効/無効フラグなどから構成される。前記該当データの有効/無効フラグは、フラッシュメモリに書く前に更新データがきた場合、当該データは旧データとなって不要となることを表すために用いられる。なお、圧縮情報には他に制御に必要な情報があればそれらを含んでいても良い。例えば、ストレージではしばしばT10DIFのようなデータ保護用の情報がセクタ単位に付されるが、これらは圧縮せずに取り外し、圧縮情報上に残すようにしても良い。例えば、512BにT10DIF 8Bが付加されていた場合、圧縮は512B×4セクタ単位で行い、8B×4セクタのT10DIF情報を圧縮情報に記録することが考えられる。あるいは、セクタが4096Bで、T10DIF 8Bが付加されていた場合には、4096Bを圧縮し、8Bを圧縮情報に記録する。

　Wr Ring 710a/bは、先のDMA160、170、180によってコマンドおよびデータが受領された際に、プロセッサコア140a/bで動作する制御ソフトウェアにその旨を通知するためのリングバッファであり、コマンド番号が格納される。同バッファは生成ポインタ(P pointer)と消費ポインタ(C pointer)で管理され、ハードウェアがリングバッファにコマンドバッファ番号を書き込んでいくごとに生成ポインタを進め、プロセッサがコマンドバッファ番号を読み出すごとに消費ポインタを進めることで、リングの空きを管理する。従い、両者のポインタの差が新規に受領されたコマンドの数と一致する。

　NWr Ring 720a/b、およびCpl Ring 740a/bについても構成は同じである。

　図8は、本実施形態におけるDRAM131、132に配置されるデータの領域管理を図示したものである。DRAM131、132には、ライトデータを格納しておく為のWrite Data Buffer 800、FMからステージングしたデータを格納しておくためのRead Data Buffer 810、そしてRMW動作時に利用されるModify Data Buffer 820とが設けられる。それぞれのバッファは固定長で区分されて管理される。各区分に割り振られる一意の番号をデータバッファ番号と呼ぶ。各区分は例えば64KBのようなサイズなので、１つのコマンドと結び付けられるデータバッファの数は、データサイズに応じて異なる。

　図9は、本実施形態においてDMA160～180がどのように連携して処理するかを示したフローチャートである。フローチャート上の破線枠はどのDMAにおける動作かを示しており、図9においては、添え字Sで始まる番号はハードウェアの動作を示している。なお、ハードウェアの動作は一般に知られているように、動作契機が得られるまで各破線枠内の先頭に記載の処理のためにWaitしており、契機を得て一連の動作が終了すると再び先頭処理での契機待ち状態に戻る。従い、各破線枠内の動作は、次の破線枠内の動作完了を待つことなく、契機を得られる毎に繰り返し動作する。このため、本実施形態のように各処理毎にDMAを独立させることで、並列処理が可能となる。本図は全体の流れを説明するのが目的であるから、上記に述べた繰り返しに関する表記は省略する。なお、本実施形態において、DMAが起動するとは、DMAが値の変化を検出したり、パラメータ等を受信したことを契機に一連の動作を開始することをいう。一方、図9においては添え字Mで始まる番号はプロセッサでの処理を示している。

　はじめに、ライトコマンドが発行された場合を例に取り、動作の詳細について述べる。

　上位装置2が新規のコマンドをキューイングし、キューの最終Entryの番号(Tailポインタの値)を更新してSQT Doorbell 1611を鳴らすと、NVMe DMA 160にあるCMD_BLK1610はCurrent Head レジスタ1612の値とSQT Doorbellとの値の差からコマンドが発行されたことを検出し、以降の動作を開始する(S9000)。CMD_BLK 1610は、CMD_MGR 1630に問い合わせSRAM150上のコマンドバッファ1510の空きを確認する。CMD_MGR 1610は内部の管理レジスタによってコマンドバッファ1510を管理しており、周期的にコマンドバッファ1510の空きをサーチしている。CMD_MGR 1630は、コマンドバッファ1510に空きがあった場合には空きコマンドバッファに対応するコマンド番号1500をCMD_BLK 1610に返す。CMD_BLK1610はコマンド番号1500が取得できると、Doorbellに格納されたEntry番号を元に上位装置2のSubmission Queue 201のアドレスを算出し、バス200およびPCIeコア110を介してメモリリードリクエストを発行することによってSubmission Queue 201に格納されたコマンドを取得する。取得されたたコマンドは内部バッファ1614に一時的に格納され、先に取得したバッファ番号 1500に対応するコマンドバッファ1510へ格納される(S9010)。この際CMD_JUDGE 1640は転送されるコマンドを解析してコマンドの判別を行う(S9020)。そしてコマンドがライトコマンドであった場合(S9030:Yes)、データ受領まで行うために、CMD_JUDGE 1640は、制御信号線230を介してコマンド番号を送る。PARAM_DMA 170にあるPRP_DMA_BLK_W 1710は、コマンド番号を受け取ると起動する(S9040)。

　PRP_DMA_BLK_W 1710は、起動されると、起動時に渡されたコマンド番号1500に対応するコマンドバッファ1510に格納されたコマンドを解析する(S9100)。そして、PRP Listの取得が必要かどうかを判断する(S9110)。もしPRP Listの取得が必要と判断された場合、PRP_DMA_BLK_W 1710にあるPRP_FETCH 1712は、同List取得のために、PRP Entryに記載されるメモリ20のアドレスを参照して、PRP Listを取得する(S9120)。例えば、Number of Logical Blocks 1906に設定されるデータ転送サイズが、コマンドに含まれる２つのPRP Entryで表現可能なアドレス範囲であれば、 PRP Listの取得は不要と判断される。アドレス範囲がコマンド内に収まらない場合は、コマンドにはPRP Listが格納されているアドレスが含まれることになる。なお、具体的なPRP List取得要否の判定の方法、PRP Entry記載のアドレスがListを指す間接アドレスかPRPのアドレスかの判別する方法等については、公知であるNVMeの規格書等に記載がある。

　また、PRP_DMA_W 170は、コマンドを解析する際に、データの圧縮または伸張が指定されているかを判断する。

　PRP_DMA_BLK_W 1710はPRP EntryおよびPRP Listより取得したPRPからDATA DMA 180用の転送パラメータを作成する。転送パラメータは、例えばコマンド番号、転送サイズ、データ格納先または格納元となっているメモリ20の開始アドレス、データの圧縮または伸張の要否等である。そしてDATA DMA 180にあるDATA_DMA_BLK_Wにこれらの情報を制御信号線240を介して送り、起動させる(S9140)。

　DATA_DMA_BLK_W1810は、転送パラメータを受け取ると、初めにBUF_MGR 1830に要求を出し、データバッファの空きバッファ番号を取得する。BUF_MGR 1830は周期的に空きバッファをサーチして候補をバッファリングしており、もし候補が枯渇していなければDATA_DMA_BLK_W 1710に空きバッファ番号を通知する。また、もし枯渇していた場合BUF_MGR 1830は空きが見つかるまでサーチし続けるので、データ転送は一旦待たされる。

　DATA_DMA_BLK_W1810は、PRP_DMA_BLK_W 1710が作成した転送パラメータに基づいて、RX_DMA610から上位装置2にメモリリードリクエストを発行し、上位装置2にあるライトデータを取得して自身のINPUTバッファ611に格納する。この際PCIeのパケットは順不同に到着する可能性があるが、圧縮は順序整列して実施する必要があるため、公知の技術により待ち合わせやバッファ振分によって並び替えを行う。DATA_DMA_BLK_W1810は、転送パラメータに基づいて、データが圧縮対象であるか否かを判断する。対象データが圧縮対象であった場合、DATA_DMA_BLK_W1810は、COMP DMA612を起動する。起動されたCOMP DMA612はINPUTバッファに論理-物理変換テーブルの管理単位の境界に一致し、かつ管理単位のサイズ分のデータ(例えば8KB)があれば、随時圧縮していき圧縮データをOUTPUTバッファに格納する。そしてTX0 DMA 614は、先に確保したデータバッファにデータを転送すると共に、データバッファ番号、開始オフセット、転送サイズ、データ有効/無効フラグ等からなる圧縮情報を都度生成し、STS_MGR 616に送る。STS_MGR 616は同情報を自身のバッファ内に収集し、一定量ごと圧縮情報バッファ1520に書き出していく。一方、対象データが圧縮対象でない場合は、DATA_DMA_BLK_W1810は、TX1 DMA 615を起動し、データを圧縮せずにデータバッファに転送する。以上の様にしてDATA_DMA_BLK_W 1810は転送パラメータがなくなるまで上位装置2のライトデータを自身のDRAM 131、132に転送する。(S9200)
　なお、途中でデータバッファがいっぱいになった場合には、都度BUF_MGR 1830に要求を出し、新たなバッファを利用していく。このようにして、上位装置2に見せている論理アドレスの重複によらず、常に新しいバッファを割当てて格納していくので、更新データも別のバッファに格納される。つまり、バッファ上で旧データは上書きされない。

　また、データの先頭および末尾が圧縮単位に満たない場合には、COMP DMA612は制御信号線617を用いてTX1 DMA615を起動し、TX1 DMA615はINPUTバッファのデータを非圧縮でDRAMのデータバッファに転送する。データは非圧縮の状態でデータバッファに格納され、当該データの圧縮情報も非圧縮のサイズが記録される。これは圧縮単位に満たないデータは後述のRead Modify Write処理が必要となり、圧縮しても伸張状態に戻す必要があるためである。本実施例では、このようなデータを圧縮せずに格納することで、不要な伸張処理を削減でき処理効率が向上する。

　また、データを圧縮した結果圧縮後のサイズが圧縮前より大きくなった場合も、同様にCOMP DMA612はTX1 DMA 615を起動し、TX1 DMA 615は非圧縮のデータをデータバッファに転送する。より具体的には、COMP DMA612はOUTPUTバッファ613に圧縮後データを書き出す際に転送サイズをカウントし、非圧縮データと同サイズに達しても転送が終了していない場合、圧縮処理を中断してTX1_DMA615を起動する。これにより、サイズが大きくなったデータを格納することを回避できる。また、圧縮完了を待たずに処理を切り替えるので、遅延を削減することができる。

　データ転送が当該コマンドの最終転送だった場合(S9160:Yes)、TX0_DMA 614がデータ送信を追えた後、STS_MGR616は残っている圧縮情報を、圧縮情報バッファ1520に書き出す。そしてDATA_DMA_BLK_W 1810は、該当するコアのWr Ring 710にコマンド番号を書き込み、更に生成ポインタを1進めることでプロセッサにコマンドおよびデータの受領が完了したことを知らせる(S9220)。

　なお、Wr Ring 710を用いて通知するプロセッサコア140の選択は、ラウンドロビンで選択する方法や、キューイングされているコマンド数を見て負荷分散選択する方法、LBA範囲によって選択する方法、などいくつかのバリエーションが考えられるが、いずれの方法でも良い。

　プロセッサ140はポーリングによってWr Ring710にコマンドが来たことを検出すると、当該リングバッファに格納されていたコマンド番号に基づいて、圧縮情報を取得し自身の管理テーブルに記録すると共に、対応するコマンドバッファ1510に格納されたコマンド内容を参照する。そして、プロセッサ140は、当該コマンドの書込先論理アドレスが、既に別のバッファに格納されている否か、即ちWrite Hitか否かを判定する(M970)。

　もしWrite Hitである場合、かつ旧データをすべて上書きできる場合、DRAMに格納されている旧データはフラッシュに書き出す必要がないので、古いデータに対応する圧縮情報に書き出し無効フラグを設定する(同M970)。一方、旧データと更新データの両者が部分的に重複していた場合には、双方をマージ(Modify)して新規データとする必要がある。この場合、プロセッサ140は、圧縮情報に基づいて起動パラメータを作成し、RMW_DMA190に送り、RMW_DMA190を起動する。同処理については後述のPr.90Aにて詳細を記載する。

　一方、Write Missである場合、プロセッサ140は論理－物理変換テーブル750を参照し、更新データがフラッシュメモリに格納された旧データをすべて上書きできるかどうかを判断する。すべて上書きできる場合、更新データをフラッシュメモリにデステージする(書き込む)際、公知のフラッシュメモリの制御方法によって、旧データを無効化する(M970)。一方、旧データと更新データの両者が部分的に重複していた場合には、双方をマージ(Modify)して新規データとする必要がある。この場合、プロセッサ140は、FMC DMA120を制御して、当該物理アドレスが示すフラッシュメモリの領域からデータを読み出す。プロセッサ140は、読み出したデータをRead Data Buffer 810に格納する。また、プロセッサ140は、論理―物理変換テーブル750から当該論理アドレスに対応する圧縮情報を読み出し、コマンド番号1500に対応する圧縮情報バッファ1520に圧縮情報とRead Data Buffer810のバッファ番号を格納する。その後、プロセッサ140は、圧縮情報に基づいて起動パラメータを作成し、RMW_DMA190を起動する。以降の処理についてはPr.90Aに同じである。

　また、プロセッサ140は非同期で所定の制御ルールに基づいて、データバッファ上のデータをフラッシュメモリに書き出すデステージング処理を行う(M980)。プロセッサ140は、データをフラッシュメモリに書きこむと、論理－物理変換テーブル750を更新する。この際、プロセッサ140は、更新した論理アドレスと対応付けてそのデータの圧縮情報も格納する。そして、デステージされたデータが格納されているデータバッファ及び対応するコマンド番号のコマンドバッファは不要となるため、解放される。具体的には、プロセッサ140はコマンド番号をCMD_MGR 1630に通知し、CMD_MGR 1630がそのコマンド番号に対応するコマンドバッファを解放する。また、プロセッサ140はデータバッファ番号をBUF_MGR 1830に通知し、BUF_MGR 1830がそのバッファ番号に対応するデータバッファを解放する。解放されたコマンドバッファ及びデータバッファは空き状態となり、他のコマンド処理に使用可能となる。なお、バッファの解放タイミングは、プロセッサ140での処理最適化と、次に述べるコンプリーション送信処理との関係から必要に応じ適切なタイミングに変更される。また、コマンドバッファについては、コンプリーション送信処理後にCPL BLK 1620が解放を行うようにしても良い。

　上記処理と並行して、DATA_DMA 180は、プロセッサ通知が終わると、上位装置2にデータ受領成功した旨のコンプリーションを送信する準備をする。具体的には、DATA DMA 80は終了したコマンド番号をNVMe DMA160にあるCPL_BLK1620に、制御信号線250を介して送り、起動する(S9400)。

　起動されたCPL_BLK 1620は、コマンド番号1500に該当するコマンドバッファ1510に格納されたコマンド情報を参照して、コンプリーションを内部バッファ1924に生成すると、当該コンプリーションをCompletion Queue202の空きEntryに書き込むと共に、当該Entry番号とコマンド番号との対応を内部バッファ1924に備える対応テーブルに記録する(S9400)。そして上位装置2からの受領完了通知を待つ(S9410)。上位装置2からコンプリーション受領完了通知(図3:S350)が返ってくると(S9450)、当該コンプリーション送信は成功しているので、先のEntry番号とコマンド番号との対応テーブルを参照して、該当するコマンド番号をCpl Ring740に書き込むことでプロセッサ通知を完了する(S9460)。

　次に同図を用いて、リードコマンドを含む非ライトコマンドの場合の動作について詳細に述べる。S9000～S9020までの動作はライトコマンドと同じのためS9030より説明する。

　コマンド判別の結果、コマンドがライトコマンドでなかった場合(S9030:No)、CMD_DMA 160は、NWr Ringへのコマンド番号書込により、プロセッサ150へ通知を行う(S9050)。

　プロセッサはNWr Ringのポーリングによって非ライトコマンドの受領を検知すると、当該コマンド番号に対応したコマンドバッファ1510に格納されているコマンドの解析を行う(M900)。解析の結果、コマンドがリードコマンドでなかった場合(M910:No)、プロセッサは当該コマンドに固有の処理を行う(M960)。これらは例えばNVMeの初期設定等で用いられるAdminコマンドである。

　一方、コマンドがリードコマンドであった場合(M910:Yes)、プロセッサはDRAM131、132のバッファ上に当該コマンドの論理アドレスと同一の論理アドレスを持つデータが存在するか否か判定する。即ちReadHit判定を行う(M920)。

　Read Hitであった場合(M930:Yes)、プロセッサ140はRaed Data Buffer 810に格納されているデータを、上位装置2に返せば良い。Write Data Buffer 800に格納されている場合は、プロセッサは前記WriteDataBuffer800のデータをプロセッサ140が管理するRead Data Buffer810にコピーし、当該コマンド番号に対応する圧縮情報バッファに、Read Data Buffer810のバッファ番号とデータ伸張に必要な情報を格納する(M940)。データ伸張に必要な情報は、先に圧縮DMAがデータ受領時に生成した圧縮情報が利用される。

　一方、Read Missであった場合(M930:No)、プロセッサ140はデータをフラッシュメモリから読み出してDRAMに格納するステージング処理を行う(M970)。プロセッサ140は、論理－物理変換テーブル750を参照し、リードコマンドが指定する論理アドレスに対応する物理アドレスを特定する。そして、プロセッサ140は、FMC DMA120を制御して、当該物理アドレスが示すフラッシュメモリの領域からデータを読み出す。プロセッサ140は、読み出したデータをRead Data Buffer810に格納する。また、プロセッサ140は、論理―物理変換テーブル750から当該論理アドレスに対応する圧縮情報を読み出し、コマンド番号に対応する圧縮情報バッファに圧縮情報とRead Data Buffer810のバッファ番号を格納する(M940)。

　なお、上記ではリードデータ返送中に更新ライトによってWrite Data Bufferが無効・解放されてしまうケースを避けるためにRead Data Bufferへのコピーをしたが、同Bufferのロック管理が適切に行えるのであれば、Write Data Bufferを直接指定してもよい。

　プロセッサは、バッファの引き渡しが完了すると、ハード処理を再開させるため、PARAM DMA170にあるPRP_DMA_BLK_R 1720を当該コマンド番号を送り、起動する(M950)。

　起動されたPRP_DMA_BLK_R 1720の動作はPRP_DMA_BLK_W 1710の動作(S9100～S9140)と同じであるので割愛するが、S9140’の動作によってDATA_DMA_R 1820を起動する点のみ異なる。

　起動されたDATA_DMA_BLK_R 1820は、STS_MGR626によって、当該コマンドに対応する圧縮情報バッファから圧縮情報を取得する。転送パラメータに伸張を指定する情報が含まれている場合、この情報を用いてRead Data Buffer810の該当データのリードと伸張を行う。STS_MGR 626は圧縮情報を取得すると、そこに記載されたRead Data Buffer番号とオフセット情報をRX0_DMAに通知し、RX0_DMAは当該情報を用いて該当するRead Data Bufferに格納されたデータをリードしINPUTバッファ622に格納する。INPUTバッファ622は多段バッファとなっており、先の圧縮情報に基づいて伸張処理単位毎に順次格納していき、格納する毎にDECOMP DMA 623に通知する。DECOMP DMA 623は通知に基づいてINPUTバッファの圧縮データを読み出して伸張し、OUTPUTバッファに格納していく。OUTPUTバッファに規定のデータが溜まると、TX_DMA625はPRP_DMA_BLK_R 1720の生成した転送パラメータに基づき、バス200を通じて上位装置2にメモリライトリクエストを発行することにより、当該OUTPUTバッファのデータをPRPで指定されたメモリ領域へ格納する(S9300)。

　TX_DMA625によるデータの転送が全て終了すると(S9310:Yes)、DATA_DMA_BLK_R 1820(DATA DMA 180)は、上位装置2にコンプリーションを送信するため、コマンド番号を送りNVMe DMA160のCPL_BLK 1630を起動する。以降のCPL_BLKの動作についてはライトコマンド処理時と同様である。

　図10は、図9におけるDMA間の連係処理及び障害が起きた際のDMA間の通知処理を模式的に表したものである。正常時、各DMAは次のDMAを起動するが、障害やエラーを検出した場合には、エラー通知機能Err(S9401)を用いてCPL BLK1620に通知し、当該処理を中断する。CPL BLK1620は通知されたエラー内容と共にコンプリーション(S340)を送信することで、上位装置2に通知する。このようにすることで、プロセッサ140が介在していなくても障害時の通知動作を行うことが可能となる。つまり、障害の通知によるプロセッサ140の負荷を低減し、性能低下を抑制することができる。

　次に図11及び図12を用いて本実施例のRead Modify Write処理を説明する。

　ストレージ装置やサーバでキャッシュの存在が期待される場面の１つに、小サイズでランダムにアクセスされたデータをキャッシュするケースがある。この場合、データはランダムなため、アドレスが連続したデータはほとんど来ない。このため、更新データが圧縮可能な単位のサイズより小さい場合、圧縮格納済データとのRead-Modifyが頻繁に生じる。従来であれば、Read-Modifyするためには、プロセッサは記憶媒体からメモリへ圧縮データを読み上げ、伸張DMAを用いて圧縮データを伸張し、伸張したデータと非圧縮で格納された更新データとをマージ(言い換えればModify)して再度メモリに格納し、その後のModifyしたデータを圧縮DMAで再度圧縮する必要がある。プロセッサは都度DMA起動に必要な転送リストの作成、DMAの起動処理および完了ステータスの確認処理を行う必要があるから、処理負荷増大は避けられない。また、メモリアクセス増加による処理低下も合わせて発生する。従い、圧縮データのRead-Modify処理は通常のRead-Modfy処理よりも処理負荷が高く、性能低下も大きい。このため、本実施例では、以下に述べる通り、プロセッサの負荷とメモリアクセスを低減した高速なRead Modify Write処理を実現する。

　図11は先に述べたPr.90AにおけるRead Modify Write処理を行うRMW DMA 190の内部構成を示すブロック図である。

　RMW_DMA 190は、バス220を通じてプロセッサと接続されており、また、バス210を通じてDRAM131、132に接続される。

　RMW_DMA 190は、圧縮済データをDRAMから読み出す為のRX0_DMA 1920 および、読み出したデータを一次格納するためのINPUT バッファ1930、INPUTバッファ 1930からデータを読み出して伸張するDECOMP DMA 1940、そして非圧縮データをDRAMから読み出すためのRX1_DMA 1950を備える。RMW_DMA190は更に、Modify部分に応じて送信するデータを切り替え、他方を破棄するMUX(Multiplexer) 1960、MUX 1960がゼロデータを送信するときに選択するZERO GEN 1945、送信されたデータを再度圧縮するCOMP DMA 1970、その圧縮データの出力先であるOUTPUTバッファ1980、再圧縮されたデータをDRAMに書き戻す為のTX_DMA 1990とを備える。そして、RM Manager1910がプロセッサによって起動時に与えられる起動パラメータに基づき、各DMAとMUXを制御する。

　RMW_DMA 190の動作は、起動パラメータと共にバス220に接続されるプロセッサによって起動されると、パラメータを解析して、DRAM131のデータバッファから旧データとなる圧縮データをRX0_DMA 1920を用いて読み出し、また、更新データとなる非圧縮データをRX1_DMA 1950を用いて読み出すよう指示する。

　両者の転送が始まると、RM Manager 1910は、起動パラメータの指示に基づいて、Modify後データを作る為に、MUX 1960を制御する。例えば、伸張後32KBのうち、513B目から4KB分が更新データで差換える必要があった場合、RM ManagerはMUX 1960にDECOMP_DMA 1940が伸張した旧データを512B通過させ、RX1DMA 1950にはその間転送を保留するよう指示する。データが512B分MUX1960を通過した後、RM Manager 1910はMUX1960に、今度はRX1_DMA 1950から転送されるデータを通し、DECOMP_DMA 1940から転送されるデータを破棄するよう指示する。そして、RM Managerは、4KB分データがMUX1960を通過すると、再度DECOMP DMA 1940から転送されるデータを通過させるよう指示する。

　以上のような転送によって、全体32KBのうち513Bから更新データサイズ4KB分の部分が書き換えられた更新データがCOMP_DMA 1970に向けて送出される。COMP_DMA 1970 はデータが送出されてくると、圧縮単位ごとに圧縮しOUTPUTバッファ1980に格納していく。TX_DMA 1990は当該OUTPUTバッファを起動パラメータで指定されたデータバッファへ転送する。以上によってRMW_DMAは圧縮動作を行う。

　なお、２つのModifyデータ間にスキマ(データのない部分)があった場合、RM Manager 1920はその間MUX1960とCOMP_DMA 1970に対しゼロデータが送出されているものとして扱うよう指示する。例えば、一度も更新が発生していなかったある8KBの格納単位の範囲内で、1B目から2KB分と、5KB目から1KB分の範囲に更新が発生した場合である。

　図12はPr.90Aのデータ更新処理(RMW処理)におけるプロセッサおよびRMW DMA 190の動作を表すフローチャートである。

　圧縮は論物変換格納単位で行われており、その単位で上書き可能なので、M970においてマージ処理が必要な場合は、(1)旧データが圧縮済み、更新データが圧縮単位に満たないサイズで非圧縮格納されている、(2)旧データと更新データの両方とも圧縮単位に満たないサイズで非圧縮格納されている、のいずれかのケースである。格納単位で圧縮しているため、両方とも圧縮済みの場合には、格納単位で上書き可能なためModify処理（マージ処理）はそもそも不要である。

　プロセッサ140はポーリングによってWr Ring710にコマンドが来たことを検出すると、以下の処理を開始する。

　はじめにプロセッサ140は、更新データの圧縮情報を参照し(S8100)、更新データが圧縮済みか否かを判定する(S8110)。もし圧縮済みである場合には(S8110:Yes)、圧縮単位に満たない旧データ部分は全て更新データによって上書きされるのでModify不要である。そこで、旧データ側の圧縮情報の該当部分に無効フラグを設定し(S8220)、処理を終える。

　更新データが非圧縮であった場合(S8110:No)、プロセッサ140は旧データの圧縮情報を参照する(S8120)。プロセッサ140は、参照した旧データの圧縮情報に基づいて旧データが圧縮済みかを判定する(S8130)。もし旧データも圧縮済みでなかった場合には(S8130:No)、プロセッサ140は旧データと更新データのLBAを確認し、当該圧縮単位での格納開始位置をそれぞれ算出する(S8140)。一方、旧データが圧縮済みであった場合には(S8130:Yes)、同データの格納開始位置は先頭からだと分かるので、更新データのLBAから格納開始位置を算出する(S8150)。

　次にプロセッサはmodify後のデータを格納するバッファをModify Data Buffer 820上に確保する(S8160)。そして、プロセッサは、旧データの圧縮情報（Read Data buffer 810ないしWrite Data Buffer 800の番号、バッファ上での格納開始オフセット、およびサイズ）と圧縮の有無、およびLBAより求まる当該圧縮格納単位での格納開始位置、更新データの圧縮情報とLBAより求まる当該圧縮格納単位での格納開始位置、および、確保したModify Data Buffer 820のバッファ番号を用いて、RMW DMA 190起動パラメータを所定の作業メモリエリアに作成する(S8170)。プロセッサ140は、起動パラメータの格納アドレスをRMW DMA 190に通知し、RMW_DMA190を起動する(S8180)。

　RMW DMA 190は、起動パラメータを確認し(S8500)、旧データが圧縮済みか否かを判定する(S8510)。圧縮データであった場合(S8510:Yes)、RMW DMA 190は、RX0DMA 1920とDECOMP_DMA 1940を用いてDRAM131から旧データ読み出しを行い、RX1DMA1950を用いてDRAM131から新データを読み出すよう指示する(S8520)。そしてRM Manager 1910は両者の格納開始位置情報を元にMUX1960を制御し、更新に該当する部分については、RX1DMA 1950からの更新データを通過させると共にRX0DMAからDECOMP_DMA 1940を通じて伸張された旧データを破棄し、それ以外の部分（更新に該当しない部分）については旧データを通過させることでModifyデータを作成する(S8530)。RMW_DMA 190はCOMP DMA 1970を用いて、送信されたデータを随時圧縮し(S8540)、圧縮したデータをOUTPUTバッファ1980に格納する。そして、RM Manager1910は、TX DMA 1990に指示して、起動パラメータで指定されたModify Data Buffer820に圧縮したデータの格納を行う(S8550)。そして以上が完了すると、RMW DMA190は圧縮後サイズを含む完了ステータスをプロセッサに送信する(S8560)。具体的にはプロセッサの所定の作業メモリエリアにステータスを書き込む。

　なお、旧データが圧縮データでなかった場合(S8510:No)、RMW DMA 190は更新データと旧データそれぞれの格納開始位置とサイズを比較する(S8600)。RMW_DMA 190は、RX1 DMA 1950からMUX190に格納開始位置から順にデータを転送する際、更新データが存在するアドレス範囲か否かを判断し(S8610)、更新データが存在する範囲であれば(S8620:Yes)、RX1 DMA 1950を用いて更新データを転送する。更新データが存在する範囲でなければ(S8620:No)、更新データと重複しない旧データが存在するアドレス範囲か否かを判断する(S8630)。旧データが存在する範囲であれば(S8630:Yes)、RMW DMA 190は、旧データをRX1DMAを用いて転送する(S8640)。旧データが存在しない場合(S8630:No)、つまりどちらのデータも存在しない場合には、ZERO GEN 1945と接続するように切り替えてCOMP DMA1970にゼロデータを送出する(S8650)。RMW_DMA190はCOMP_DMA 1970を用いて、COMP_DMA 1970に対して送出されたデータを圧縮し(S8540)、TX DMA 1990を用いてパラメータで指定されたModify Data Buffer820に転送して格納する(S8550)。以降の処理は同じである。

　プロセッサは、完了ステータスを確認すると、Read Modifyしたデータを有効にする為、圧縮情報の更新を行う。具体的には、旧データの該当ブロック部分の圧縮情報に無効フラグを立て、一方更新データの該当ブロックの圧縮情報における、ライトバッファ番号とバッファ内開始オフセットを、Modify Data Buffer820の番号(Buf#)とそのオフセットに書き換える。そして書き換え前のWrite Data Buffer800が開放可能な場合には開放処理を行い、処理を終える。

　以上により、伸張状態データDRAMへの書き出し及びそれに伴うバッファ確保/開放処理や、再圧縮のためのDMAの起動/完了制御をプロセッサが行うことなしに、圧縮RMWを行うことができる。本発明によれば圧縮単位に満たないデータ転送が行われた際にも、非圧縮データのRMWと同じ転送回数で処理できるので、RMW発生時の性能低下を抑止することができる。従って、低レイテンシで、I/O処理が高性能でかつ、Read-Modifyでも性能低下が起きにくくすることが可能となり、ストレージ装置のキャッシュメモリとして利用に適したPCIe-SSDを実現することができる。

　以上によれば、本実施形態により、メモリ20にアクセスが生じる処理フェーズ毎のDMAが並列に配置され、個々のDMAが他のDMAを経由することなく上位装置2と直接転送を行うことができるので、低レイテンシなデータ転送を実現することができる。

　また、プロセッサがDMAの起動に必要な転送パラメータの作成や、起動および終了の刈り取り処理を行わずとも済むので、プロセッサ処理を軽減することができる。また、転送フェーズ毎にプロセッサの確認および次の指示による中断が発生しないので、ハードウェアが効率良く動作することができる。このため、プロセッサを強化せずとも、単位時間に処理できるI/O数が向上するので装置全体としてのI/O処理性能を向上させることができ、キャッシュ用途に適した低レイテンシかつ高性能なPCIe-SSDを実現することができる。

　次に実施例1の変形例を述べる。実施例１では、DATA DMAが上位装置2にデータを送信していたが、更にデータの加工を行う別のDMAを呼び出して処理するよう構成することもできる。

　図17は、実施例1の変形例1を示す。実施例1の構成に加え、上位装置2に送るデータをある条件に基づいてフィルタリングしてから送信するDATA FILTERING ENGINE 230を設けている。例えばDATA FILTERING ENGINE230 はコマンドのPRP Entryに記載のアドレスからPRPの代わりにフィルタリング条件およびフィルタ結果データを格納するアドレスを記載した二次パラメータを取得し、当該二次パラメータの条件に従って、コマンドのLBA範囲のデータから該当条件のデータを抽出するような動作をするものとする。

　図9において、コマンドがリードでもライトでもなかった場合、プロセッサ140はコマンドに固有の処理を行う(M960)としている。本変形例の場合、例えば、プロセッサ140がデータ検索用の特殊コマンドであったことを認識すると、当該コマンドに記載のデータをフラッシュメモリからRead Data Buffer810にステージングした後、当該コマンドバッファ番号1500とRead Data Buffer810のバッファ番号を用いて、同ENGINE 230を起動する。同ENGINE 230は、コマンドバッファ番号1500に対応したコマンドバッファ1510に格納されたコマンドを参照し、バス200を通じて二次パラメータを取得する。そして、二次パラメータに指定されたフィルタ条件に応じて、Read Data Buffer810のデータをフィルリングしながら、フィルタ結果を同パラメータで指定されたデータ格納先にバス200を通じてライトするといった動作を行う。

　この場合にも、アクセスが生じるごとのDMAが並列に配置され、個々のDMAが他のDMAを経由することなく上位装置2と直接転送を行うことができる。また、必要なデータを装置内で選別して送信することができ無駄な送信が生じないので、高性能なデータ転送を実現することができる。

　図18は実施例1の変形例2を示す。変形例1では演算用のDMAを別に設けたが、図18のようにDATA DMAと一体化して設けても良い。この場合、フィルタリングのほか、例えば上位装置2にデータを送信しながら、データを固定長(レコード)に区切った際の特定領域にある値を数値とみなして、合計や平均を求めるといった処理が考えられる。

　この場合、データ転送中に演算も合わせて行う為、プロセッサを強化せずともより多くの情報を上位装置に送ることができるので、機能面で優れるキャッシュ装置を実現することができる。

　先の実施例1では、本発明におけるキャッシュ装置1の基本I/O動作について述べた。

　実施例2では、実施例1における上位装置2をストレージコントローラとし、HDDへ格納するデータの圧縮処理におけるキャッシュ装置1とストレージコントローラとの連携動作について述べ、本発明の構成の効果について説明する。

　本実施例におけるキャッシュ装置1は、ライトデータの受領完了をプロセッサ140に通知する際(図9のS9460)、圧縮後のサイズをその通知情報に含める。また、任意の時点において、問い合わせを受けたLBA範囲の圧縮後のサイズをプロセッサ140に通知する機能を持つ。

　図13は本発明におけるPCIe接続キャッシュ装置がストレージ装置に搭載された際の構成を表すブロック図である。

　ストレージ装置13は、本装置を利用するホスト計算機20A～20Cとストレージネットワーク50を介して接続されるいわゆるディスクアレイシステムと呼ばれる装置である。ストレージ装置13はコントローラ群を納めるコントローラ筐体30と、ディスク群を収める複数のディスク筐体50から構成される。

　コントローラ筐体30には、プロセッサやASICからなる複数のストレージコントローラ60a、60bからなり、互いにデータや制御命令を送受信するための内部ネットワーク101で結ばれる。一方、ディスク筐体40には、複数のディスクを接続するための機構であるエクスパンダ500と複数のディスクD00～D03が搭載される。D00～D03は例えばSAS HDDやSATA HDD、あるいは、SAS SSDやSATA SSDなどである。

　ストレージコントローラ60aは、計算機と接続するためのフロントエンドインターフェースアダプタ80aと、ディスクと接続する為のバックエンドインターフェースアダプタ90aとを備える。フロントエンドインターフェースアダプタ80aは、例えばFibreChannelやiSCSIなどのプロトコルで通信する為のアダプタである。バックエンドインターフェースアダプタ90aは例えばSAS(Serial Attached SCSIなどのプロトコルでHDDと通信する為のアダプタである。両者にはしばしば専用のプロトコルチップが搭載され、ストレージコントローラ60aに搭載される制御プログラムによって制御される。

　ストレージコントローラ60aは、更に、DRAM70aと、本発明の図１に示したフラッシュを搭載したPCI接続型キャッシュ装置1aを備え、プロトコルチップのデータ転送バッファや、ストレージ制御プログラムが管理するディスクキャッシュメモリとして利用される。ここでキャッシュ装置1aは図2aまたは図2bのような形態でストレージコントローラ60aと接続される。

　ストレージコントローラ60aが備えるキャッシュ装置1aおよび、70a、80a、90bに示す各構成要素は１つでも複数であっても良い。なお、ストレージコントローラ60bの構成についても60aと同様である。（以降では両者を纏めてストレージコントローラ60と記す）
ストレージコントローラ60も同様に１つでも複数であっても良い。

　以上のストレージ装置13が備える各構構成要素については、同装置13が備える管理ネットワーク31を通じて、管理端末32から確認することができる。

　図14は、ホスト20からのライトデータをストレージ装置13が処理する際のストレージコントローラ60とキャッシュ装置1との連携動作を説明するためフローチャートである。一般にストレージ装置13は内部のキャッシュメモリを用いてライトバックで処理する。この為、ストレージコントローラ60の処理動作はホストのデータをキャッシュに格納するまでのホストI/O処理S1000～S1080と、後に非同期で行われるキャッシュからディスクへの格納するディスクI/O処理S1300～S370からなる。以下に順に説明する。

　ストレージコントローラ60は、フロントエンドインターフェースアダプタ80に搭載されるプロトコルチップを介し、ホストからライトコマンドを受領すると(S1000)、コマンドを解析してデータ受領用の一次バッファ領域をDRAM 70上に確保する(S1010)。

　そして、同プロトコルチップを通じてホストにデータ受領可(XFER_RDY)のメッセージを送信し、続けてホストから転送されるデータをDRAM 70上に受領する(S1020)。

　次にストレージコントローラ60は、受領したデータをディスクキャッシュメモリ上に格納する為に、キャッシュ装置１上に同一アドレス(LBA)のデータが存在するか否かを判定する(S1030)。ここで存在すればキャッシュヒットであり、存在しなければキャッシュミスである。ストレージコントローラ60はキャッシュヒットの場合、データを上書きするために割当済みのキャッシュ領域を格納領域とする、一方、キャッシュミスの場合には、新規のキャッシュ領域を割り当てて格納領域とする(S1040)。以上のHit/Miss判定やキャッシュ領域の管理方法は、ストレージシステム制御における公知の方法による。また、ストレージコントローラはキャッシュ上のデータを保護する為、両者のコントローラでしばしばデータを冗長化するが、これについても公知の方法による。

　次に、ストレージコントローラ60は、一次バッファのデータをキャッシュ装置1に格納する為に、NVMeのライトコマンドをキャッシュ装置1に発行する(S1050)。ここで、ストレージコントローラ60は、キャッシュ装置1にデータの圧縮を指示するために、コマンドパラメータのData Set Mgmt1907にデータの圧縮を指示する情報を格納する。

　キャッシュ装置１は、先の実施例で説明した図９のフローに従って、先のストレージコントローラから発行されたNVMeライトコマンドを処理する。図4を用いて説明すれば、上位装置2がストレージコントローラ60であり、一次バッファがデータ領域204に当たる。キャッシュ装置1はデータを圧縮してフラッシュメモリに格納するので、一連の転送が終了すると圧縮後サイズを含むステータス情報を含むコンプリーションを生成して、ストレージコントローラのCompletion Queueに書き込む。

　ストレージコントローラ60はコンプリーションを検出し、図４ S350に示す確認処理(コンプリーション受領完了通知)を終えると(S1060)、ステータス情報から圧縮後サイズを取得して自身の管理テーブルに記憶し(S1070)、データ受領が完了した旨をホストに通知して(S1080)、ホストI/O処理を終了する。

　ストレージコントローラ60は、また、ホストI/Oとは非同期にHDDへの書き出し契機を得ると、S1300～S1370に示すHDD格納処理(いわゆるデステージング処理)に入る。この契機は、例えばキャッシュ領域に空きがなくなりデータをディスクに書き出す必要がある場合や、旧データを読み出すことなくRAIDパリティが演算できる状態になったときなどである。

　なお、書き出しに当たっては、RAID5やRAID6といったデータ保護レベルに応じてパリティ演算に必要な処理が行われるが、これらは公知の方法であるので、本フローでは割愛し、特徴となる書き出し処理部分のみを記載する。

　ストレージコントローラ60は、該当ディスクへの書き出し対象となるアドレス範囲のデータサイズの合計をキャッシュ装置1に問い合わせ、圧縮後のサイズを取得する(S1300)。

　そして、同サイズに応じ、圧縮データを格納するディスクに対応したアドレス領域を新たに確保し、キャッシュ装置1に当該アドレスから圧縮後データへアクセスできるよう追加のアドレスマッピングを指示する(S1310)。

　キャッシュ装置1は図7に示すフラッシュメモリの論理-物理変換テーブル750に新たなエントリを加え、上記マッピングを行う。

　次にストレージコントローラは、圧縮後のデータを格納する為の一次バッファをDRAM70上に確保する(S1320)。そして、S1310でマッピングしたアドレスに対し、圧縮したままデータを読み出すよう、Data Set Mgmt1907にデータの圧縮を指示する情報を設定したコマンドパラメータを用いてNVMeリードコマンドを発行する(S1330)。キャッシュ装置1は図9のフローに従ってリードデータを一次バッファ上へ転送し、コンプリーションをストレージコントローラへ転送する。

　ストレージコントローラはコンプリーションを確認すると、受領通知をキャッシュ装置1へ返す(S1340)。そして、バックエンドインタフェースにあるプロトコルチップを起動し(S1350)、一次バッファ上にある圧縮後データをディスクへ格納する(S1360)。そしてプロトコルチップの転送完了を確認した後(S1370)、処理を終える。

　図15は、ホスト20からのデータリード要求をストレージ装置13が処理する際のストレージコントローラ60およびキャッシュ装置1との連携動作を説明するためフローチャートである。

　先に述べたようにストレージ装置13はキャッシュメモリ上にデータをキャッシングしているので、キャッシュヒットした場合にはキャッシュメモリ上からホストへ応答を返す。ストレージのキャッシュヒット動作については公知の方法によるため、キャッシュミスした場合の動作について述べる。

　ストレージコントローラ60はプロトコルチップを通じてホストからリードコマンドを受領すると(S2000)、当該リードデータがキャッシュ上に存在するかHit/Miss判定を行う(S2010)。ミスした場合、ディスクからデータを読み出す必要がある。ストレージコントローラ60は当該圧縮データを格納しているディスクから圧縮データを読み出す為、圧縮データサイズに応じた一次バッファをDRAM70上に確保し(S2020)、バックエンドプロトコルチップを起動することで(S2030)、ディスクから圧縮データを読み出す(S2040)。

　次にストレージコントローラ60はプロトコルチップの転送完了を確認すると(S2050)、キャッシュ装置1上にデータをキャッシュするため、格納領域を確保する(S2060)。ディスクから読み出されたデータは既に圧縮されているので、ストレージコントローラ60は当該データを再度圧縮しないよう、非圧縮となるようNVMeのライトコマンドを発行する(S2070)。具体的には、コマンドパラメータのData Set Mgmt1907を用いて指示する。

　キャッシュ装置1は、図9のフローに従って一次バッファからデータ読み出し、非圧縮でフラッシュメモリに格納すると、ストレージコントローラ60にコンプリーションを返送する。

　ストレージコントローラ60は、コンプリーションを刈取り受領通知を返す完了確認処理を行うと(S2080)、次に伸張後に必要なサイズを計算し、伸張状態取り出し用のアドレスマッピングをキャッシュ装置1に指示する(S2090)と共に、ホスト側プロトコルチップが使用する一次バッファをDRAM 70上に確保する(S2100)。

　ストレージコントローラは前記一次バッファを格納先としてNVMeリードコマンドを発行し、先の伸張状態取り出し用のアドレスから同バッファへデータを読み出す(S2110)。そして、コンプリーション刈取り通知による完了確認処理(S2120)の後、プロトコルチップを起動して同バッファのデータをホスト計算機へ返送する(S2130)。最後にプロトコルチップDMAの転送完了を刈取り(S2140)、転送処理を終える。

　図16は図14に示したホストライト処理のS1310および図15に示したホストリード処理のS2090において追加のアドレスマッピングした際の、キャッシュ装置1における論理アドレス(LBA;Logical Block Address)と物理アドレス(PBA; Physical Block Address)との対応関係を示したものである。

　LBA0空間5000はおよびLBA1空間5200はストレージコントローラがキャッシュ装置1にアクセスする際に用いるアドレス空間である。LBA0空間5000はストレージコントローラが非圧縮のデータをライトし圧縮格納してもらいたいとき、あるいは圧縮データを伸張して非圧縮のデータをリードしたいときに用い、一方LBA1空間5200は圧縮されたデータをそのまま取得したいとき、あるいは、すでに圧縮されているデータを更に圧縮されることなく格納したいときに用いる。

　PBA空間5400はキャッシュ装置1が内部のFMへのアクセスする際に用いるアドレス空間である。

　LBA0空間5000、LBA1空間5200とPBA空間のアドレスの対応付けは、先の図７で述べた論理―物理変換テーブルによって実現される。

　図14のホストライト処理では、S1050にてLBA0空間5000のアドレス5100用いてデータを圧縮格納している。そして次にディスクに書き出す際、NVMeライトのCompletionで返される圧縮情報を元にデステージ範囲を決め、そのサイズを元に書き出し範囲のサイズを確認(S1300)することで、LBA1空間に圧縮取り出し用のアドレス5300を割り当てている。

　このことから、図13の二重マッピングを実現するためには、単に論物テーブル750を備えるだけでなく、圧縮後のサイズを上位装置(ストレージコントローラ)に伝える仕組みをキャッシュ装置１が備えている必要があることが分かる。

　以上によれば、本実施形態にキャッシュ装置は、圧縮後のサイズを上位装置に伝える仕組みを備えるので、上位装置は新たに圧縮したまま取り出すためのアドレス領域を追加で割り当てることができる。また、この際、両者から１つのデータを参照するので、データを複製する必要がなくなり、高速な処理が可能となる。また、キャッシュ装置が圧縮処理を実行することで、ストレージコントローラの負荷が低減されストレージ装置の高性能化が実現できる。以上から、上位装置に対するキャッシュ用途に適したPCIe-SSDを実現することができる。

　また、キャッシュの大容量化、高性能化高機能化が図れるので、本実施例に示したデータ圧縮機能をはじめストレージ装置が新たな機能を提供することが可能になる。

１：キャッシュ装置
２：上位装置

Claims

　データを格納する記憶媒体と、
　外部装置によって生成されたデータ転送を指示するコマンドを格納するコマンドバッファと、
　前記外部装置にそれぞれ接続され、かつ、ハードウェア回路である、
　コマンド転送DMA(Direct Memory Access)と、転送リスト生成DMAと、データ転送DMAと、
　を備え、
　前記コマンド転送DMAは、前記コマンドを前記外部装置のメモリから取得し、前記コマンドの指示内容を取得し、前記コマンドバッファに前記コマンドを格納して処理中の前記コマンドを特定するコマンド番号を取得し、前記コマンドの指示内容に応じて前記コマンド番号を送信することで前記転送リスト生成DMAを起動し、
　前記転送リスト生成DMAは、前記コマンドバッファに格納された前記コマンドに基づいて、前記外部装置との間でデータ転送の対象となる前記メモリのアドレスを特定し、前記アドレスを前記データ転送DMAに送信することで前記データ転送DMAを起動し、
　前記データ転送DMAは、前記アドレスに基づいて前記メモリとの間でデータを転送する
　ことを特徴とする、データ記憶装置。
　前記転送リスト生成DMAは、前記アドレスとともに前記コマンド番号を前記データ転送DMAに送信し、
　前記データ転送DMAは、前記データの転送が成功すると、前記コマンド番号を前記コマンド転送DMAに送信することで起動し、
　前記コマンド転送DMAは、
　正常終了を示すコマンド応答を生成し、
　前記外部装置に正常終了を示すコマンド応答を送信する
ことを特徴とする請求項１に記載のデータ記憶装置。
　前記データ記憶装置は、さらにプロセッサを備え、
　前記コマンド転送DMAは、前記外部装置に前記コマンド応答を通知すると、前記プロセッサに前記外部装置からの前記コマンド受領を通知する
ことを特徴とする請求項２に記載のデータ記憶装置。
　前記コマンド転送DMA、前記転送リスト生成DMA、前記データ転送DMAのそれぞれは、
　処理中にエラーを検出した場合、前記エラーの内容を特定可能な情報を生成し、前記情報を送信することで前記コマンド転送DMAに含まれる応答DMAを起動し、
　前記応答DMAは、
　前記情報を用いてエラー応答コマンドを生成し、前記外部装置に前記エラー応答コマンドを送信する
ことを特徴とする請求項３に記載のデータ記憶装置。
　前記コマンド転送DMAは、
　前記外部装置から前記コマンド応答の受信確認通知を受領すると、
　前記コマンドを格納している前記コマンドバッファの領域の解放を指示する
ことを特徴とする請求項４に記載のデータ記憶装置。
　前記外部装置は前記コマンドに転送対象の前記データを圧縮するか否かまたは伸長するか否かを示す圧縮指示情報が格納され、
　前記転送リスト生成DMAは、前記コマンドから前記圧縮指示情報を取得し、前記データ転送DMAに前記圧縮指示情報を送信し、
　前記データ転送DMAは、前記圧縮指示情報に基づいて、前記データを圧縮するか否かまたは伸長するか否かを判断する
ことを特徴とする請求項５に記載のデータ記憶装置。
　前記データ転送DMAは、
　前記データを圧縮すると揮発メモリに転送し、
　前記データを圧縮する際、前記プロセッサが圧縮されたデータをデータバッファから前記記憶媒へ転送する際に利用する圧縮管理情報を生成し、所定の領域へ格納する
ことを特徴とする請求項６に記載のデータ記憶装置。
　前記データ転送DMAは、圧縮/非圧縮転送回路を備え、
　前記圧縮/非圧縮転送回路は、
　受領した前記データを格納する入力バッファと、圧縮後のデータを格納する出力バッファと、を備え、
　前記入力バッファに格納されたデータが、圧縮処理により前記入力バッファに格納されたデータサイズを上回ると判断された場合、前記入力バッファに格納されたデータを非圧縮で前記揮発メモリに転送する
ことを特徴とする請求項７に記載のデータ記憶装置。
　前記圧縮/非圧縮転送回路は、所定のサイズごとにデータを圧縮し、
　前記データのサイズが前記所定のサイズ未満の場合は、前記入力バッファに格納されたデータを非圧縮で前記データバッファに転送する
ことを特徴とする請求項８に記載のデータ記憶装置。
　前記データ記憶装置は、さらにRMW(Read Modify Write) DMAを備え、
　前記RMW DMAは、データを伸張して転送するする第一回路と、データをデータバッファから読み出した状態で転送する第二回路と、前記第一回路及び第二回路のいずれか一方から転送されるデータを通過させるマルチプレクサと、前記マルチプレクサを通過したデータを圧縮する第三回路と、を備え、
　前記RMW DMAは、
　前記第一回路によって前記旧データを伸張し、前記新データで更新されない範囲は前記マルチプレクサを切り替えて前記第一回路に接続して前記旧データを通過させ、前記新データで更新される範囲は前記マルチプレクサを切り替えて前記第二回路に接続して前記新データを通過させ、前記マルチプレクサを通過したデータを第三回路によって圧縮する
ことを特徴とする請求項９記載のデータ記憶装置。
　前記データバッファに圧縮された旧データと前記圧縮された旧データを更新する圧縮された新データが格納されている場合、
　前記プロセッサは、前記圧縮された旧データの圧縮管理情報を無効化する
ことを特徴とする請求項７に記載のデータ記憶装置。
　計算機に接続されるストレージコントローラと、
　前記ストレージコントローラに接続されるメモリと、
　前記ストレージコントローラにそれぞれ接続され、かつ、ハードウェア回路である、コマンド転送DMA(Direct Memory Access)と、転送リスト生成DMAと、データ転送DMAと、を備えるデータ記憶装置と、を備え、
　前記ストレージコントローラは、前記計算機からライト要求を受信すると、前記ライト要求に伴うデータを前記メモリに格納し、前記データ記憶装置に前記データを格納するためのライトコマンドを生成し、
　前記コマンド転送DMAは、前記ライトコマンドを前記メモリから取得し、処理中の前記ライトコマンドを特定するコマンド番号を取得し、前記コマンド番号を送信することで前記転送リスト生成DMAを起動し、
　前記転送リスト生成DMAは、前記ライトコマンドに基づいて前記データが格納されている前記メモリのアドレスを特定し、前記アドレス及び前記コマンド番号を前記データ転送DMAに送信することで前記データ転送DMAを起動し、
　前記データ転送DMAは、前記アドレスに基づいて前記データを取得し、前記コマンド番号を送信することで前記コマンド転送DMAを起動し、
　前記コマンド転送DMAは、データ転送完了応答を前記ストレージコントローラに送信する
　ことを特徴とするストレージ装置。
　前記ストレージ装置は、さらに複数のハードディスクドライブを備え、
　前記ストレージコントローラは、前記データを圧縮して書きこむことを指示する情報を付与した第一ライトコマンドを生成し、
　前記データ転送DMAは、前記メモリから前記データを取得し、前記第一ライトコマンドの指示に基づいて前記データを圧縮して圧縮データとし、
　前記ストレージコントローラは、前記圧縮データを伸張せずに読み出すことを指示する情報を付与した第一リードコマンドを生成し、
　前記データ転送DMAは、前記第一リードコマンドの指示に基づいて前記圧縮データを前記メモリに転送し、
　前記ストレージコントローラは、前記圧縮データを前記メモリから読み出して、前記複数のハードディスクドライブのうちの１つ以上に格納する
ことを特徴とする請求項１２に記載のストレージ装置。
　前記ストレージコントローラは、前記計算機からリード要求を受信すると、前記HDDからリード要求の対象となる前記圧縮データを読み出して前記メモリに格納し、前記圧縮データを非圧縮で書きこむことを指示する第二ライトコマンドを生成し、
　前記データ転送DMAは、前記第二ライトコマンドの指示に基づいて前記メモリから前記圧縮データを取得し、
　前記ストレージコントローラは、前記圧縮データを伸張して読みだすことを指示する第二リードコマンドを生成し、
　前記データ転送DMAは、前記第二リードコマンドに基づいて前記圧縮データを伸張して前記メモリに転送し、
　前記ストレージコントローラは、前記メモリから伸張された前記データを読み出して前記計算機に転送する
ことを特徴とする請求項１３に記載のストレージ装置。