WO2023105603A1

WO2023105603A1 - 転送管理装置、転送管理方法、および、転送管理プログラム

Info

Publication number: WO2023105603A1
Application number: PCT/JP2021/044832
Authority: WO
Inventors: 育生大谷; 圭藤本; 奨悟斎藤
Original assignee: 日本電信電話株式会社
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2023-06-15

Abstract

物理サーバ（１００）のホスト（１０）は、ホストDRAM（１２）からデバイスDRAM（５１）へのDMA転送を行うDMA転送ドライバ（１）と、DMA転送の対象となるデータの転送要求を示すリクエストを格納する複数の転送キュー（３０）とを有しており、DMA転送ドライバ（１）は、各転送キュー（３０）内のリクエストにより指定されたホストDRAM（１２）のデータから１つ以上のサブセットを作成し、順番に選択した各転送キュー（３０）のサブセットを、デバイスDRAM（５１）にDMA転送する。

Description

転送管理装置、転送管理方法、および、転送管理プログラム

　本発明は、転送管理装置、転送管理方法、および、転送管理プログラムに関する。

　装置内のバスを介してデータ転送する方式は、データアクセス命令をCPUが中継するPIO（Programmed Input/Output）と、CPUを介さずにデバイスとメモリとの間でデータを直接転送するDMA（Direct Memory Access）とに分類される（非特許文献１）。
　DMAのハードウェア転送により、高速かつ大容量のデータ転送ができる（非特許文献２）。DMAは、サーバ上のアプリケーション（APL：application）を転送元とし、同一サーバ上のアクセラレータやネットワークデバイスを転送先とすることが多い。

　転送エンジンは、リクエストとして受け付けた転送対象のデータを１つずつ選択してDMA転送を行う。転送エンジンは、あるデータの転送中には、次の転送を受け付けないように調整（アービトレーション）を行う。これにより、同一の転送先を同時に使用するアプリケーションが複数ある場合でも、データの衝突を回避する。
　非特許文献３には、転送エンジンの一例であるXilinx社のXDMA仕様が記載されている。Xilinxのドライバでは、転送対象のリクエストを格納するキューが複数チャンネルあり、各チャンネルからラウンドロビン（均等）にリクエストを取り出して転送する。

東光高岳、"DMA対応と言われたら（1）"、［online］、［2021年11月26日検索］、インターネット＜URL：https://uquest.tktk.co.jp/embedded/learning/lecture15-1.html＞ EDN Japan、"DMAのメリットって何？"、［online］、［2021年11月26日検索］、インターネット＜URL：https://ednjapan.com/edn/articles/1608/18/news015.html＞ XILINX、"DMA/Bridge Subsystem for PCI Express v4.1 Product Guide"、［online］、［2021年11月26日検索］、インターネット＜URL：https://www.xilinx.com/support/documentation/ip_documentation/xdma/v4_1/pg195-pcie-dma.pdf＞

　図２６は、従来の物理サーバ１００ｚの構成図である。
　複数のスレッド１１ｚは、それぞれデータのDMA転送を要求する旨のリクエスト（斜線が塗られた矩形として図示）をホストDRAM１２ｚに発行する。DMA転送ドライバ１ｚは、各リクエストを読み取って、順番にPCIe（Peripheral Component Interconnect Express）５９ｚを介して、デバイス５０ｚ内のデバイスDRAM５１ｚに転送する。
　デバイス５０ｚ内のFPGA（Field Programmable Gate Array）であるIPコア５２ｚは、デバイスDRAM５１ｚに転送された各リクエストを読み取って処理する。

　図２７は、図２６のDMA転送ドライバ１ｚの構成図である。
　DMA転送ドライバ１ｚは、受付キュー２０ｚと、転送キュー３０ｚと、転送エンジン４０ｚとを有する。
　受付キュー２０ｚは、各スレッド１１ｚから発行されたリクエストを、ホストDRAM１２ｚ内のデータの格納先を指すポインタとして格納する。転送キュー３０ｚは、受付キュー２０ｚから読み取ったリクエストのポインタを、転送エンジン４０ｚに通知するために格納する。
　転送エンジン４０ｚは、転送キュー３０ｚ内のポインタからホストDRAM１２ｚ内のリクエストのデータを順番に読み取り、そのデータをデバイスDRAM５１ｚに向けて転送する。

　複数のアプリケーション（スレッド１１ｚ）が同じ転送先に対してDMA転送を行う際には、あるリクエストの転送中に、次のリクエストの転送待ちが発生する。例えば以下の手順では、転送待ちの問題がある。
　（手順１）ファイル転送アプリケーションＡ１（第１のスレッド１１ｚ）は、データサイズの大きいファイルのリクエストＲ１を、転送エンジン４０ｚに依頼する。
　（手順２）転送エンジン４０ｚは、現時点で他に転送対象のリクエストが存在しないので、リクエストＲ１の転送を開始する。
　（手順３）通話アプリケーションＡ２（第２のスレッド１１ｚ）は、遅延（TAT：Turnaround Time）要件が短い高優先な通話データのリクエストＲ２を、転送エンジン４０ｚに依頼する。
　（手順４）転送エンジン４０ｚは、リクエストＲ１の転送が終わるまで、リクエストＲ２の転送を待たせる。
　（手順５）転送エンジン４０ｚは、リクエストＲ１の転送完了後に、リクエストＲ２の転送を完了するものの、転送待ちによりTAT要件を守れなかった。

　なお、ファイル転送アプリケーションＡ１と、通話アプリケーションＡ２とで事前に連携する仕組みを作成し、転送の順序を前もって制御するような拡張も検討する。しかし、このような拡張では、優先度の高いリクエストを先に出すことはできるものの、アプリケーションの作り込みが必要になり開発コストが高くなるので採用は避けたい。

　そこで、本発明は、複数の転送元から同じ転送先にデータ転送するときに、転送されるデータの転送効率と遅延要件とをバランスよく満たすことを主な課題とする。

　前記課題を解決するために、本発明の転送管理装置は、以下の特徴を有する。
　本発明は、転送元のデータが格納されるホストメモリを有するホスト部と、データの転送先であるデバイスメモリを有するデバイス部とを有する転送管理装置であって、
　前記ホスト部が、前記ホストメモリから前記デバイスメモリへのDMA転送を行う転送制御部と、DMA転送の対象となるデータを指定した転送要求を示すリクエストを格納する複数の転送キューとを有しており、
　前記転送制御部が、前記各転送キュー内のリクエストにより指定された前記ホストメモリのデータから１つ以上のサブセットを作成し、順番に選択した前記各転送キューのサブセットを、前記デバイスメモリにDMA転送することを特徴とする。

　本発明によれば、複数の転送元から同じ転送先にデータ転送するときに、転送されるデータの転送効率と遅延要件とをバランスよく満たすことができる。

本実施形態に関する物理サーバの構成図である。本実施形態に関する図１のDMA転送ドライバの構成図である。図２６で示した従来のDMA転送ドライバを用いた場合に、高優先のリクエストが待たされる場合のタイムチャートである。図１で示した本実施形態のDMA転送ドライバを用いた場合に、リクエストのデータ分割により、高優先のリクエストの待ち時間を短縮した場合のタイムチャートである。本実施形態に関するリクエストのサブセットサイズ変更により、図４の場合よりもさらに高優先のリクエストの待ち時間を短縮した場合のタイムチャートである。本実施形態に関する自リクエストのサブセットサイズが大きい場合のタイムチャートである。本実施形態に関する自リクエストのサブセットサイズが小さい場合のタイムチャートである。本実施形態に関するDMA転送ドライバの詳細な構成図である。本実施形態に関する図８のDMA転送ドライバの転送処理の状態を各時刻で示すテーブルである。本実施形態に関するキューIDテーブルの構成図である。本実施形態に関する転送キュー管理テーブルの構成図である。本実施形態に関するサブセットサイズテーブルの構成図である。本実施形態に関するリクエストカウンタテーブルの構成図である。本実施形態に関する転送エンジンテーブルの構成図である。本実施形態に関する優先度テーブルの構成図である。本実施形態に関する物理サーバのハードウェア構成図である。本実施形態に関する物理サーバのリクエスト転送処理を示すシーケンス図である。図１７に続いて、物理サーバのリクエスト転送処理を示すシーケンス図である。本実施形態に関する受付キューから転送キューにリクエストが通知される処理を示すフローチャートである。本実施形態に関する転送キューから転送エンジンにリクエストのサブセットが通知される処理を示すフローチャートである。本実施形態に関する転送エンジンからデバイスにサブセットがDMA転送される処理を示すフローチャートである。本実施形態に関するリクエストのサブセットサイズの変更処理の第１例を示すフローチャートである。図２２の第１例における高優先および低優先それぞれのサブセットサイズの時系列グラフである。本実施形態に関するリクエストのサブセットサイズの変更処理の第２例を示すフローチャートである。図２４の第２例における高優先および低優先それぞれのサブセットサイズの時系列グラフである。従来の物理サーバの構成図である。図２６のDMA転送ドライバの構成図である。

　以下、本発明の一実施形態について、図面を参照して詳細に説明する。

　図１は、物理サーバ１００の構成図である。
　物理サーバ（転送管理装置）１００は、転送元のデータが格納されるホストDRAM（ホストメモリ）１２を有するホスト（ホスト部）１０と、データの転送先であるデバイスDRAM（デバイスメモリ）５１を有するデバイス５０（デバイス部）とを有する。
　スレッド１１は、例えば、アクセラレータのデバイス５０を用いてデータ処理を高速化するネットワークアプリケーションであり、vRAN（virtual Radio Access Network）の規格に従って動作する。

　複数のスレッド１１は、それぞれデータの転送要求であるリクエストをホストDRAM１２に発行する。DMA転送ドライバ（転送制御部）１は、各リクエストのデータを読み取って、順番にPCIe５９を介して、デバイス５０内のデバイスDRAM５１に転送する。図２６と図１とでは、DMA転送ドライバ１の内部構成に差異がある（詳細は図８）。
　デバイス５０内のFPGAであるIPコア５２は、デバイスDRAM５１に転送された各リクエストのデータを読み取って処理する。

　図２は、図１のDMA転送ドライバ１の構成図である。
　DMA転送ドライバ１は、受付キュー２０と、転送キュー３０と、転送エンジン４０とを有する。DMA転送ドライバ１は、各転送キュー３０内のリクエストにより指定されたホストDRAM１２のデータから１つ以上のサブセットを作成し、順番に選択した各転送キュー３０のサブセットを、デバイスDRAM５１にDMA転送する。
　受付キュー２０は、各スレッド１１から発行されたリクエストをホストDRAM１２内のポインタとして格納する。転送キュー３０は、受付キュー２０から読み取ったリクエストのポインタを、転送エンジン４０に通知するために格納する。

　ここで、図２７では１つのDMA転送ドライバ１ｚ内に１つの転送キュー３０ｚを備える構成としたが、図２では、１つのDMA転送ドライバ１内に複数の転送キュー３０を備える構成とした。なお、各転送キュー３０は、例えば、リクエストの優先度ごとに用意され、同じ優先度となる１つ以上のリクエストが同じ転送キュー３０に格納される。なお、本明細書では、優先度の数値が高いリクエストほど他のリクエストよりも優先されてDMA転送の処理が実行される。

　よって、図２の各キューは、図２７の各キューから以下のように拡張される。
　受付キュー２０は、複数の転送キュー３０に対応し、図８の転送キュー決定部２１からの指示により、それらの転送キュー３０のいずれか１つにリクエストの振り分けを実行可能になる。
　複数の転送キュー３０には、個別の優先度が割り当てられ、その優先度のリクエストを格納する。各転送キュー３０は、１つのリクエストをエンキュー（キューに挿入）した後、そのリクエストを複数のサブセットに分割した状態でデキュー（キューから取り出し）できるように拡張される。そのため、転送キュー３０は、分割前のリクエストを格納する領域と、分割後のサブセットを格納する領域とを別々に設けてもよい。

　転送エンジン４０は、図８の転送キュー選択部４１からの指示により、複数の転送キュー３０からのサブセットを、順番に読み込んで転送できるように拡張される。
　なお、本明細書では、転送エンジン４０によりDMA転送されるリクエストがもともとサイズが小さいなどの理由により、転送キュー３０内で分割されなかった場合であっても、リクエストの「サブセット」（つまり、１分割のリクエスト）と呼ぶことにする。

　転送エンジン４０は、転送キュー３０内のポインタからホストDRAM１２内のリクエストを順番に読み取り、そのリクエストをデバイスDRAM５１に向けて転送する。
　各転送エンジン４０は、自身が受け付けたリクエストを転送完了するまでは、次のリクエストを受け付けない。そして、転送エンジン４０は、転送を行っていないready状態になった際、サブセットのある転送キュー３０が１つであれば、その転送キュー３０からサブセットを取り出して転送する。

　一方、DMA転送を待っているサブセットが格納されている転送キュー３０が複数ある場合、転送エンジン４０は、ラウンドロビンなどの方法で順番に選択した転送キュー３０からサブセットを取り出して転送する。転送キュー３０の選択方法は、ラウンドロビンや、重み付きラウンドロビンなど、柔軟に変更してもよいが、比較的負荷が軽いロジックが望ましい。
　なお、１つのDMA転送ドライバ１内に複数の転送エンジン４０を備えてもよい。各転送エンジン４０は、同時に同じ転送先にリクエストを転送しない限り、それぞれ並列に転送処理が可能である。

　以下、図３－図５のタイムチャートを参照して、図２６で示した従来のDMA転送ドライバ１ｚと、図１で示した本実施形態のDMA転送ドライバ１とで効果の違いを説明する。
　図３は、図２６で示した従来のDMA転送ドライバ１ｚを用いた場合に、高優先のリクエストＲ２，Ｒ３が待たされる場合のタイムチャートである。タイムチャートの横軸はタイムスロット（時刻ｔ０～ｔ９）を示し、縦軸は各時刻に物理サーバ１００ｚ内の各構成要素内に格納されるリクエストを示す。

　図３の時刻ｔ１では、受付キュー２０ｚ内に、３種類のリクエストＲ１，Ｒ２，Ｒ３の順にポインタが発行される。リクエストＲ１はデータサイズが大きいが低優先であり、リクエストＲ２、Ｒ３はデータサイズが小さいが高優先（TAT要件が厳しい）である。
　時刻ｔ２では、受付キュー２０ｚから転送キュー３０ｚ内に、リクエストＲ１，Ｒ２，Ｒ３のポインタがこの順にエンキューされる。
　時刻ｔ３～ｔ５では、転送エンジン４０ｚは、リクエストＲ１を転送キュー３０ｚから読み取り、ホストDRAM１２ｚからデバイスDRAM５１ｚにDMA転送する。これにより、IPコア５２ｚ（#1）には、時刻ｔ６以降にリクエストＲ１が最初に格納される。

　時刻ｔ６では、転送エンジン４０ｚは、残りのリクエストＲ２，Ｒ３を転送キュー３０ｚから読み取り、それぞれDMA転送する。これにより、IPコア５２ｚ（#1）には、時刻ｔ６にリクエストＲ２が到着し、IPコア５２ｚ（#2）には、時刻ｔ７にリクエストＲ３が到着する。
　しかし、時刻ｔ３～ｔ５のリクエストＲ１による長い待ち時間の影響により、高優先のリクエストＲ２，Ｒ３は、遅延要件を守れなかった。

　図４は、図１で示した本実施形態のDMA転送ドライバ１を用いた場合に、リクエストのデータ分割により、高優先のリクエストＲ２，Ｒ３の待ち時間を短縮した場合のタイムチャートである。
　時刻ｔ０では、図３の時刻ｔ１と同様に、受付キュー２０内に、３種類のリクエストＲ１，Ｒ２，Ｒ３の順にポインタが発行される（各リクエストの優先度、サイズや、図示する塗りパターンも図３と同一）。

　時刻ｔ１では、受付キュー２０内の各リクエストのポインタが２つの転送キュー３０に振り分けられる。低優先の転送キュー３０（#1）には、低優先のリクエストＲ１が振り分けられるとともに、高優先の転送キュー３０（#2）には、高優先のリクエストＲ２，Ｒ３が振り分けられる。この時点では、各リクエストのポインタが転送キュー３０にエンキューされるため、タイムチャートにはリクエストの大きさは直接は図示していない。

　そして、転送キュー３０内のリクエストは、デキューされるまでに決められた同じサイズで複数のサブセットに分割される。高優先のリクエストＲ２，Ｒ３はそれぞれ２分割され、低優先のリクエストＲ１は１２分割される。
　時刻ｔ２～ｔ３では、転送エンジン４０は、２つの転送キュー３０から順番に（ラウンドロビンで）サブセットを読み取り、ホストDRAM１２からデバイスDRAM５１にDMA転送する。

　これにより、IPコア５２（#1）には、時刻ｔ３にリクエストＲ２（＝２つのサブセット）が到着し、IPコア５２（#2）には、時刻ｔ４にリクエストＲ３（＝２つのサブセット）が到着する。
　一方、低優先のリクエストＲ１（＝１２個のサブセット）がIPコア５２（#1）に到着するのは、時刻ｔ６の時点となり、リクエストＲ２，Ｒ３の到着後になる。これにより、時刻ｔ０で後からDMA転送ドライバ１に入ってきたリクエストＲ２，Ｒ３は、時刻ｔ０で先に入っていたリクエストＲ１が分割された合間をぬって転送されることで、遅延を抑制できた。

　図５は、リクエストのサブセットサイズ変更により、図４の場合よりもさらに高優先のリクエストの待ち時間を短縮した場合のタイムチャートである。図５では、DMA転送ドライバ１は、リクエストごとの優先度を参照して、サブセットのサイズを決定する。
　時刻ｔ０、ｔ１は、図４と図５で同じである。
　転送キュー３０内のリクエストからは、リクエストごとの優先度に応じたサイズに応じて、１つ以上のサブセットが生成される。ここでは、DMA転送ドライバ１（図８の転送サイズ決定部３３）は、優先度が高いほど、サブセットのサイズも大きくする。その結果、高優先のリクエストＲ２，Ｒ３はそれぞれ分割されずに１つずつのサブセットとなる。低優先のリクエストＲ１は１２分割される。

　時刻ｔ２～ｔ３では、転送エンジン４０は、２つの転送キュー３０から順番に（ラウンドロビンで）サブセットを読み取り、ホストDRAM１２からデバイスDRAM５１にDMA転送する。
　これにより、IPコア５２（#1）には、時刻ｔ２にリクエストＲ２（＝１つのサブセット）が到着し、IPコア５２（#2）には、時刻ｔ３にリクエストＲ３（＝１つのサブセット）が到着する。つまり、図４に比べて、高優先のリクエストＲ２，Ｒ３がさらに早くDMA転送を完了できた。

　なお、自リクエストのサブセットサイズの変更は、自リクエストのスループットと、他リクエストのTATとに影響する。
　図６は、自リクエストＲ１のサブセットサイズが大きい場合のタイムチャートである。自リクエストＲ１のサブセットサイズを大きくとった結果、２つのセブセットに分割してDMA転送した。その結果、他リクエストＲ２は、時刻ｔ３にDMA転送を開始し、時刻ｔ４にIPコア５２（#2）に到着した。
　よって、自リクエストＲ１について一度の転送量が増え、その間は他リクエストＲ２を転送できないため、転送中断（プリエンプション）されにくくなる。そのため、自リクエストＲ１のスループットが大きくなり、他リクエストＲ２のTATが悪化する。

　図７は、自リクエストＲ１のサブセットサイズが小さい場合のタイムチャートである。自リクエストＲ１のサブセットサイズを小さくとった結果、４つのセブセットに分割してDMA転送した。その結果、他リクエストＲ２は、時刻ｔ２にDMA転送を開始し、時刻ｔ３にIPコア５２（#2）に到着した。
　よって、自リクエストＲ１について一度の転送量が減り、他リクエストＲ２を合間に転送でき、転送中断されやすくなる。そのため、自リクエストＲ１のスループットが小さくなり、他リクエストＲ２のTATが向上する。

　つまり、サブセットサイズは、スループットとTATとのトレードオフとなる。よって、DMA転送ドライバ１は、サブセットサイズを柔軟に変更することで最適化を図る。サブセットサイズを変更することにより、そのリクエストが他のリクエストからの転送要求により転送中断される頻度を調整する（詳細は図２２～図２５）。

　図８は、DMA転送ドライバ１の詳細な構成図である。
　DMA転送ドライバ１は、図２で説明した受付キュー２０と、Ｍ個の転送キュー３０と、Ｎ個の転送エンジン４０とに加えて、転送キュー決定部２１と、優先度決定部２２と、リクエストカウンタ３１と、リクエスト分割部３２と、転送サイズ決定部３３と、転送キュー選択部４１と、統合制御部４２と、外部コントローラIF６１とを有する。
　なお、図８の各矢印は、以下の通りである。
　・太線実線の矢印：リクエストの経路
　・太線破線の矢印：管理信号(m-plane)の経路
　・細線実線の矢印：制御信号(c-plane)の経路

　転送キュー決定部２１は、受付キュー２０内のリクエストをデキューし、どの転送キュー３０にエンキューするかを決定する。リクエストカウンタ３１は、各転送キュー３０に格納されるリクエストの数を計数する。優先度決定部２２は、リクエストの中身または外部コントローラIF６１からの情報を元に、リクエストの優先度を判断する。

　転送サイズ決定部３３は、リクエストの優先度や、リクエストに求められる通信要件（TAT、スループットなど）をもとに、リクエストを分割するときのサブセットのサイズを決定する。
　例えば、転送サイズ決定部３３は、リクエストの優先度が高いほど、サブセットのサイズを大きくすることが望ましい。これにより、高優先度のリクエストほど一度に多くのデータをまとめて転送できるので、その高優先度のリクエストのスループットやTATを向上できる。
　リクエスト分割部３２は、転送サイズ決定部３３が決定したサイズに基づいてリクエストを分割する。転送キュー選択部４１は、空いた転送エンジン４０が、どの転送キュー３０からサブセットをデキューするかを決定する。

　統合制御部４２は、転送サイズ決定部３３に対する設定情報（サブセットの最小・最大サイズの指定）や、転送キュー選択部４１に対する設定情報（読み出し回数ポリシーの指定）を設定するなどのDMA転送ドライバ１の制御を行う。
　外部コントローラ６０からの制御信号は、外部コントローラIF６１を介して、優先度決定部２２などのDMA転送ドライバ１内部に通知される。これにより、外部コントローラ６０が優先度決定部２２に各リクエストの優先度を通知するなど、外部連携を実行できる。

　なお、DMA転送ドライバ１は、リクエスト分割部３２と、転送キュー選択部４１とを有することで、図４で説明したように、各リクエストを固定サイズで複数のサブセットに分割してからDMA転送する。その結果、リクエストＲ１よりも後着のリクエストＲ２，Ｒ３であってもリクエストサイズが小さいから、サブセットとしては先着となり、TAT要件を守れた。さらに、図４では、リクエストごとの優先度を参照しない処理なので、DMA転送ドライバ１への改変に伴う開発コストを不要にできた。

　また、DMA転送ドライバ１は、リクエスト分割部３２と、転送キュー選択部４１とに加え、優先度決定部２２と、転送サイズ決定部３３とを有することで、図５で説明したように、各リクエストを優先度に応じた１つ以上のサブセットにしてからDMA転送する。その結果、図４よりもさらにリクエストＲ２，Ｒ３のDMA転送完了を早めることができた。一方、各リクエストの優先度をDMA転送ドライバ１に認識させるためのDMA転送ドライバ１への改変に伴う開発コストが、若干必要となる。

　図９は、図８のDMA転送ドライバ１の転送処理の状態を各時刻で示すテーブル７０である。
　テーブル７０では、時刻Ｔ１～Ｔ７ごとに、各構成要素である受付キュー２０、転送キュー３０（低優先用の#1,高優先用の#2）、転送エンジン４０、デバイスDRAM５１の格納データを示す。
　以下、時刻Ｔ１～Ｔ７に沿ってテーブル７０の内容を説明することで、図８のDMA転送ドライバ１の構成要素を明らかにする。

　時刻Ｔ１では、受付キュー２０にリクエストＢ（低優先）を受け付ける。この時点では、２つの転送キュー３０（#1,#2）はともに空（格納エントリ無し）であり、転送エンジン４０も空である。
　時刻Ｔ２では、転送キュー決定部２１は、受付キュー２０からデキューしたリクエストＢについて、優先度決定部２２が決定したリクエストの優先度を参照して決定した転送キュー３０（#1）にエンキューする。
　時刻Ｔ３では、転送サイズ決定部３３は、図１２のサブセットサイズテーブル７３を参照して、転送キュー３０（#1）内のリクエストＢの分割サイズと分割数（ここでは２）を決定する。リクエスト分割部３２は、リクエストＢをリクエストＢ１，Ｂ２という２つのサブセットに分割する。

　時刻Ｔ４では、転送キュー選択部４１は、図１４の転送エンジンテーブル７５を参照して選択した転送キュー３０（#1）からリクエストＢ１をデキューし、転送エンジン４０にDMA転送を依頼する。転送エンジン４０は、リクエストＢ１をデバイスDRAM５１にDMA転送する。このDMA転送中に、受付キュー２０にリクエストＡ（高優先）を受け付ける。
　時刻Ｔ５では、転送キュー決定部２１は、受付キュー２０からデキューしたリクエストＡについて、優先度決定部２２が決定したリクエストの優先度を参照して決定した転送キュー３０（#2）にエンキューする。リクエスト分割部３２は、転送キュー３０（#2）のリクエストＡについては、もともとのサイズが小さいので分割せずに１つのサブセットとする。

　時刻Ｔ６では、リクエストＢ１のDMA転送が完了する。転送キュー選択部４１は、転送エンジンテーブル７５を参照して、転送キュー３０（#1）のリクエストＢ２ではなく、転送キュー３０（#2）のリクエストＡを次の処理対象としてデキューする。転送エンジン４０は、リクエストＡをデバイスDRAM５１にDMA転送する。
　時刻Ｔ７では、リクエストＢよりも遅く受付キュー２０に到着したリクエストＡは、リクエストＢ２よりも優先的に送信されることでTATを守ることができた。

　以下、図１０－図１６を参照して、DMA転送ドライバ１が使用する各種のデータテーブルを説明する。
　図１０は、キューIDテーブル７１の構成図である。
　キューIDテーブル７１には、優先度ごとに、転送キューIDが登録される。
　転送キュー決定部２１は、キューIDテーブル７１を参照して転送先の転送キュー３０を選択する。統合制御部４２は、キューIDテーブル７１のエントリをあらかじめ書き込んでおく。

　図１１は、転送キュー管理テーブル７２の構成図である。
　転送キュー管理テーブル７２には、転送キューIDごとに、その使用状況が登録される。
　統合制御部４２が持っており、転送キュー決定部２１は、転送キュー管理テーブル７２を参照して、転送キュー３０の使用可否を確認する。統合制御部４２は、転送キュー３０の最新状況を転送キュー管理テーブル７２のエントリとして随時更新する。

　図１２は、サブセットサイズテーブル７３の構成図である。
　サブセットサイズテーブル７３には、転送キューIDごとの、サブセットサイズの範囲（最小サイズ、最大サイズ）と各タイムスロット（スロット0、スロット1…）でのサブセットサイズが登録される。
　リクエスト分割部３２は、サブセットサイズテーブル７３を参照して、各リクエストを分割するサイズを決定する。統合制御部４２は、サブセットサイズテーブル７３のサブセットサイズの範囲を事前に設定する。転送サイズ決定部３３は、リクエストカウンタテーブル７４（図１３）をもとに、サブセットサイズの範囲内で各タイムスロットでのサブセットサイズをサブセットサイズテーブル７３に書き出す。

　図１３は、リクエストカウンタテーブル７４の構成図である。
　リクエストカウンタテーブル７４は、転送キュー決定部２１が、転送キュー３０に到着したリクエストの合計数および各タイムスロット（スロット0、スロット1…）でのリクエスト数を、転送キューIDごとに（優先度ごとに）格納する。
　転送サイズ決定部３３は、リクエストカウンタテーブル７４を参照して、サブセットのサイズを決定する。

　図１４は、転送エンジンテーブル７５の構成図である。
　転送エンジンテーブル７５は、転送エンジン４０ごとに用意される。転送エンジンテーブル７５には、転送キューIDごとに、サブセットの読み出し回数と、サブセットのサイズとが対応付けられている。これらの内容は、統合制御部４２から設定される。
　転送キュー選択部４１は、転送エンジンテーブル７５を参照して、特定の転送エンジン４０がどの転送キュー３０からサブセットをデキューすればよいかを決定する。例えば、図１４の転送エンジンテーブル７５では、読み出し回数がそれぞれ１となっている。よって、転送キュー選択部４１は、今回は転送キュー（0）からサブセットを１つ読み出したら、次回は転送キュー（1）からサブセットを１つ読み出す。
　なお、転送キュー選択部４１は、読み出し回数の代わりに、読み出したサブセットサイズが転送エンジンテーブル７５に登録された値に達したら、次回は別の転送キュー３０からサブセットをデキューするように切り替えるようにしてもよい。

　図１５は、優先度テーブル７６の構成図である。
　優先度テーブル７６には、スレッド１１のスレッドIDごとに、ベースとなる優先度と、各タイムスロット（t1、t2、t3…）での優先度とが登録される。
　優先度決定部２２は、以下の（方法１）～（方法３）に例示するように、各スレッド１１から発行されるリクエストの優先度を決定する。
　（方法１）優先度テーブル７６を参照せず、リクエストごとにスレッド１１が個別に優先度をDMA転送ドライバ１にパラメータ渡しする。パラメータ渡しするためのスレッド１１のAPI（Application Programming Interface）例は、データの書き込み命令「write(priority, *buf, size);」などで実装される。
　この書き込み命令のAPIは、ホストDRAM１２内の*bufのポインタ位置からsizeのデータサイズ分のデータを、priorityの優先度でデバイスDRAM５１に書き出す旨のAPIである。

　（方法２）優先度テーブル７６のベースとなる優先度を参照して、特定のスレッドIDのリクエストごとに、時間経過でも固定の優先度を設定する。例えば、図１５の優先度テーブル７６では、スレッド#1では優先度「０」とし、スレッド#2では優先度「２」と決定する。
　（方法３）優先度テーブル７６の各タイムスロット（t1、t2、t3…）での優先度を参照して、外部コントローラ６０からのタイミング情報に応じたタイムスロットの優先度を設定する（時間経過に応じて動的に優先度を変更する）。例えば、図１５の優先度テーブル７６では、タイムスロット=t2の場合、スレッド#1では優先度「１」、スレッド#2では優先度「２」と決定する。

　図１６は、物理サーバ１００のハードウェア構成図である。
　物理サーバ１００は、ＣＰＵ９０１と、ＲＡＭ９０２と、ＲＯＭ９０３と、ＨＤＤ９０４と、通信Ｉ／Ｆ９０５と、入出力Ｉ／Ｆ９０６と、メディアＩ／Ｆ９０７とを有するコンピュータ９００として構成される。
　アクセラレータ９０５は、通信Ｉ／Ｆ９０８からのデータ、または、ＲＡＭ９０２からのデータの少なくとも一方のデータを高速に処理するデバイス５０（図１）である。なお、アクセラレータ９０５として、ＣＰＵ９０１またはＲＡＭ９０２からの処理を実行した後にＣＰＵ９０１またはＲＡＭ９０２に実行結果を戻すタイプ（look-aside型）を用いてもよい。一方、アクセラレータ９０５として、通信Ｉ／Ｆ９０８とＣＰＵ９０１またはＲＡＭ９０２との間に入って、処理を行うタイプ（in-line型）を用いてもよい。
　アクセラレータ９０５は、通信Ｉ／Ｆ９０８を介して外部装置９１５と接続される。入出力Ｉ／Ｆ９０６は、入出力装置９１６と接続される。メディアＩ／Ｆ９０７は、記録媒体９１７からデータを読み書きする。さらに、ＣＰＵ９０１は、ＲＡＭ９０２に読み込んだプログラム（アプリケーションや、その略のアプリとも呼ばれる）を実行することにより、各処理部を制御する。そして、このプログラムは、通信回線を介して配布したり、ＣＤ－ＲＯＭ等の記録媒体９１７に記録して配布したりすることも可能である。

　図１７は、物理サーバ１００のリクエスト転送処理を示すシーケンス図である。
　優先度決定部２２は、リクエストのメタデータ（説明情報）を受付キュー２０から読み取り（Ｓ２０１）、その中から抽出したリクエストの優先度情報を転送キュー決定部２１に通知する（Ｓ２０２）。転送キュー決定部２１は、リクエストの優先度情報をもとに、そのリクエストの格納先を転送キュー情報（＃０）として決定する（Ｓ２０３）。
　転送キュー決定部２１は、受付キュー２０からデキューしたリクエストを、転送キュー３０（＃０）にエンキューする（Ｓ２０４）。

　図１８は、図１７に続いて、物理サーバ１００のリクエスト転送処理を示すシーケンス図である。
　転送キュー選択部４１は、転送キュー３０（＃０）内にリクエストが格納されているか否かを確認し（Ｓ２１１）、格納されているリクエストの通知を受ける（Ｓ２１２）。転送エンジン４０（＃０）は、転送中ではない空き状態であり、新たなリクエストの受付可能の旨を転送キュー選択部４１に通知する（Ｓ２１３）。
　転送キュー選択部４１は、Ｓ２１２で通知されたリクエストを、Ｓ２１３で通知された転送エンジン４０（＃０）に転送させるように、転送キュー３０（＃０）に要求する（Ｓ２１４）。
　リクエスト分割部３２は、Ｓ２１４で転送要求されたリクエストを受けて（Ｓ２１５）、サブセットに分割し、そのサブセットを転送エンジン４０（＃０）に通知する（Ｓ２１６）。

　図１９は、受付キュー２０から転送キュー３０にリクエストが通知される処理を示すフローチャートである。
　転送キュー決定部２１は、スレッド１１から受付キュー２０に新規リクエストを受信したか否かを判定する（Ｓ１０１）。Ｓ１０１でYesなら、リクエストのメタデータ（説明情報）が、受付キュー２０から優先度決定部２２に送信される（Ｓ１０２）。Ｓ１０１でNoなら、Ｓ１０３に進む。
　転送キュー決定部２１は、エンキュー先となる転送キュー情報を決定したリクエストがあるか否かを判定する（Ｓ１０３）。Ｓ１０３でNoなら、Ｓ１０１に戻る。
　Ｓ１０３でYesなら、転送キュー決定部２１は、決定した転送キュー情報が示す転送キュー３０に空きがあるか否かを判定する（Ｓ１０４）。Ｓ１０４でNoなら、Ｓ１０１に戻る。
　Ｓ１０４でYesなら、転送キュー決定部２１は、転送キュー情報を元にリクエストを転送キュー３０に送信（エンキュー）する（Ｓ１０５）。

　図２０は、転送キュー３０から転送エンジン４０にリクエストのサブセットが通知される処理を示すフローチャートである。
　転送キュー選択部４１は、リクエストをデキューする転送キュー３０を選択する。そして、転送キュー選択部４１は、空いた転送エンジン４０から受付可能の旨を受信したか否かを判定する（Ｓ１１１）。Ｓ１１１でNoなら、Ｓ１１１に戻る。
　Ｓ１１１でYesなら、リクエスト分割部３２は、転送キュー３０内のリクエストをサブセットに分割する。サブセットのサイズは、転送サイズ決定部３３が決定する。
　そして、転送キュー選択部４１は、分割したサブセットを、Ｓ１１１で受付可能の通知を受けた転送エンジン４０に送信する（Ｓ１１２）。また、転送キュー選択部４１は、送付したサブセット数（優先度ごとのリクエスト数）をリクエストカウンタ３１に通知して、リクエストカウンタテーブル７４を更新させる（Ｓ１１３）。

　図２１は、転送エンジン４０からデバイス５０にサブセットがDMA転送される処理を示すフローチャートである。
　転送エンジン４０は、前回のサブセットを転送中か否かを判定する（Ｓ１２１）。Ｓ１２１でYesなら、Ｓ１２１に戻る。
　Ｓ１２１でNoなら、転送キュー選択部４１は、読み出し先となるいずれかの転送キュー３０の中に転送対象となるサブセットのデータが存在するか否かを判定する（Ｓ１２２）。Ｓ１２２でNoなら、Ｓ１２１に戻る。
　Ｓ１２２でYesなら、転送キュー選択部４１は、転送エンジンテーブル７５と、前回の転送履歴とを参照して、今回の読み出し先の転送キュー３０を決定する（Ｓ１２３）。

　転送キュー選択部４１は、サブセットの転送要求を転送キュー３０に送信し（Ｓ１２４）、その転送キュー３０からサブセットを受信する（Ｓ１２５）。転送キュー選択部４１は、Ｓ１２５のサブセットを転送エンジン４０に転送する（Ｓ１２６）。これにより、転送エンジン４０からデバイス５０にサブセットがDMA転送される。

　以下、転送サイズ決定部３３によるリクエストのサブセットサイズを動的に変更する処理について、図２２～図２６を参照して説明する。
　図２２は、リクエストのサブセットサイズの変更処理の第１例を示すフローチャートである。
　この第１例では、優先度「２」（高優先度）のリクエストの発生頻度が通常は少ないものの、ランダムな期間にバーストで（大量に）発生する場合を説明する。
　この場合、転送サイズ決定部３３は、リクエストのデータから作成するサブセットのサイズとして、高優先度「２」のリクエストが転送キュー３０に入ってこない期間には、低優先度「１」のサブセットのサイズを拡大し、一方、高優先度のリクエストが転送キュー３０に入ってくる期間には、低優先度のサブセットのサイズを縮小するように制御する。以下、フローチャートに沿って、サブセットサイズの制御内容を説明する。

　転送サイズ決定部３３は、現時点の各転送キュー３０に格納されているリクエスト数をカウントしたカウント値を抽出する（Ｓ３０１）。
　優先度「２」のカウント値が前回のカウント値と比べて増加した場合（Ｓ３０２でYes）、つまりバーストでリクエストが発生した場合、転送サイズ決定部３３は、優先度「１」に対応する転送キュー３０のサブセットサイズを初期値に戻す（Ｓ３０３）。
　Ｓ３０２でNo、かつ、優先度「１」のカウント値が前回のカウント値と比べて一定以上増加した場合（Ｓ３０４でYes）、転送サイズ決定部３３は、優先度「１」に対応する転送キュー３０のサブセットサイズを増やす（Ｓ３０５）。このサブセットサイズの増加処理は、最大値を超えない範囲で所定値ずつ（＋nずつ）増やす。

　図２３は、図２２の第１例における高優先および低優先それぞれのサブセットサイズの時系列グラフである。
　上側のグラフは、優先度「２」のタイムスロットkにおけるカウント値c2(k)を示す。
　下側のグラフは、優先度「１」のタイムスロットkにおけるサブセットサイズs1(k)を示す。このs1(k)は、スループット優先時には、優先度「１」の最大サブセットサイズs1maxまで増加する。一方、他優先度「２」のTATの優先時には、優先度「１」の最小サブセットサイズs1minまで減少する。

　期間Ｔ１１では、優先度「２」が発生していないので、優先度「１」のサブセットサイズはs1maxまで増加することで、スループットを優先する。期間Ｔ１２では、優先度「２」が発生したので、優先度「１」のサブセットサイズはs1minまで減少することで、優先度「２」のTATを優先する。
　期間Ｔ１３では、優先度「２」が発生していないので、優先度「１」のサブセットサイズをs1maxまで徐々に増加することで、スループットを優先する。期間Ｔ１４では、優先度「２」が発生したので、優先度「１」のサブセットサイズはs1minまで減少することで、優先度「２」のTATを優先する。
　期間Ｔ１５では、優先度「２」が発生していないので、優先度「１」のサブセットサイズをs1maxまで徐々に増加することで、スループットを優先する。

　図２４は、リクエストのサブセットサイズの変更処理の第２例を示すフローチャートである。
　この第２例では、優先度「２」（高優先度）が一定の周期で増減する場合を説明する。
　この場合、転送サイズ決定部３３は、リクエストのデータから作成するサブセットのサイズとして、転送キュー３０に入ってくる高優先度「２」のリクエストが増加する期間には、低優先度「１」のサブセットのサイズを縮小し、一方、転送キュー３０に入ってくる高優先度のリクエストが減少する期間には、低優先度のサブセットのサイズを拡大するように制御する。以下、フローチャートに沿って、サブセットサイズの制御内容を説明する。

　転送サイズ決定部３３は、ループ変数kについて、初期値k=0から、タイムスロット数未満の範囲で（k<タイムスロット数）１つずつ増加させる（k++）ループ処理を行う（Ｓ４０１～Ｓ４０５）。
　転送サイズ決定部３３は、タイムスロットkの優先度「２」に対応する転送キュー３０のカウント値を抽出し（Ｓ４０２）、s1(k)を（数式１）により計算する（Ｓ４０３）。

　そして、転送サイズ決定部３３は、優先度「１」のタイムスロットkにおけるサブセットサイズを、Ｓ４０３で計算したs1(k)に更新する（Ｓ４０４）。

　図２５は、図２４の第２例における高優先および低優先それぞれのサブセットサイズの時系列グラフである。
　図２３と同様に、上側のグラフはc2(k)を示し、下側のグラフはs1(k)を示す。また、上のグラフの閾値c2Pは、優先度「２」を最優先で処理すべきカウント閾値である。
　期間Ｔ２１では、優先度「２」のリクエストがないので、優先度「１」は最大サイズs1maxとする。
　期間Ｔ２２では、優先度「２」のリクエストが増えてくるので、優先度「１」のサイズを縮小する。これにより、優先度「２」のTATを向上させる。
　期間Ｔ２３では、優先度「２」のリクエストが閾値c2Pを超えた場合は、優先度「１」は最小サイズs1minとする。
　期間Ｔ２４では、優先度「２」のリクエストが減ってくるので、優先度「１」のサイズを拡大する。これにより、優先度「１」のスループットを向上させる。

［効果］
　本発明は、転送元のデータが格納されるホストDRAM１２を有するホスト１０と、データの転送先であるデバイスDRAM５１を有するデバイス５０とを有する物理サーバ１００であって、
　ホスト１０が、ホストDRAM１２からデバイスDRAM５１へのDMA転送を行うDMA転送ドライバ１と、DMA転送の対象となるデータの転送要求を示すリクエストを格納する複数の転送キュー３０とを有しており、
　DMA転送ドライバ１が、各転送キュー３０内のリクエストにより指定されたホストDRAM１２のデータから１つ以上のサブセットを作成し、順番に選択した各転送キュー３０のサブセットを、デバイスDRAM５１にDMA転送することを特徴とする。

　これにより、リクエストのデータをDMA転送前に分割することで、各リクエストの転送遅延が抑制される。例えば、複数のスレッド１１が同じデバイス５０に対してDMA転送をリクエストする際、片方のスレッド１１からのサイズの大きなリクエストの転送中でも、後から入ってきた別のスレッド１１からのリクエストの転送が可能となる。
　よって、スレッド１１間の公平性が保たれるので、遅延要件の厳しいスレッド１１を他のスレッド１１（ノイジーネイバ）と同一の物理サーバ１００上で動作できる。
　このように、各スレッド１１からのリクエストのデータサイズの大小にもかかわらず、スレッド１１間で公平にデータ転送の機会を提供することで、複数の転送元から同じ転送先にデータ転送するときに、転送されるデータの転送効率と遅延要件とをバランスよく満たすことができる。

　本発明は、各転送キュー３０には、個別の優先度が割り当てられ、その優先度のリクエストを格納することとし、
　DMA転送ドライバ１が、リクエストのデータから作成するサブセットのサイズとして、リクエストの優先度が高いほど、サブセットのサイズを大きくすることを特徴とする。

　これにより、リクエストの優先度が高いほど、サブセットのサイズを大きくすることでデータ転送の効率が高まる。よって、DMA転送ドライバ１が各リクエストの優先度を扱えるように汎用性を持つので、スレッド１１間で直接連携して優先度制御（転送順序の指定や必要帯域の指定）を行うように実装する開発コストを削減できる。
　また、互いに異なる優先度のスレッド１１同士を同じ物理サーバ１００に収容できるので、優先度ごとに複数の物理サーバ１００を稼働させる方式に比べ、筐体コストや消費電力を削減できる。

　本発明は、各転送キュー３０には、個別の優先度が割り当てられ、その優先度のリクエストを格納することとし、
　DMA転送ドライバ１が、リクエストのデータから作成するサブセットのサイズとして、高優先度のリクエストが転送キュー３０に入ってこない期間には、低優先度のサブセットのサイズを拡大し、一方、高優先度のリクエストが転送キュー３０に入ってくる期間には、低優先度のサブセットのサイズを縮小するように制御することを特徴とする。

　これにより、高優先度のリクエストの発生頻度が通常は少ないものの、ランダムな期間にバーストで発生する場合に、高優先度および低優先度のリクエスト双方の転送要件をバランスよく満たすようなサブセットのサイズを動的に制御できる。

　本発明は、各転送キュー３０には、個別の優先度が割り当てられ、その優先度のリクエストを格納することとし、
　DMA転送ドライバ１が、リクエストのデータから作成するサブセットのサイズとして、転送キュー３０に入ってくる高優先度のリクエストが増加する期間には、低優先度のサブセットのサイズを縮小し、一方、転送キュー３０に入ってくる高優先度のリクエストが減少する期間には、低優先度のサブセットのサイズを拡大するように制御することを特徴とする。

　これにより、高優先度のリクエストが一定の周期で増減する場合に、高優先度および低優先度のリクエスト双方の転送要件をバランスよく満たすようなサブセットのサイズを動的に制御できる。

　１　　　DMA転送ドライバ（転送制御部）
　１０　　ホスト（ホスト部）
　１１　　スレッド
　１２　　ホストDRAM（ホストメモリ）
　２０　　受付キュー
　２１　　転送キュー決定部
　２２　　優先度決定部
　３０　　転送キュー
　３１　　リクエストカウンタ
　３２　　リクエスト分割部
　３３　　転送サイズ決定部
　４０　　転送エンジン
　４１　　転送キュー選択部
　４２　　統合制御部
　５０　　デバイス（デバイス部）
　５１　　デバイスDRAM（デバイスメモリ）
　５２　　IPコア
　５９　　PCIe
　６０　　外部コントローラ
　６１　　外部コントローラIF
　７１　　キューIDテーブル
　７２　　転送キュー管理テーブル
　７３　　サブセットサイズテーブル
　７４　　リクエストカウンタテーブル
　７５　　転送エンジンテーブル
　７６　　優先度テーブル
　１００　物理サーバ（転送管理装置）

Claims

　転送元のデータが格納されるホストメモリを有するホスト部と、データの転送先であるデバイスメモリを有するデバイス部とを有する転送管理装置であって、
　前記ホスト部は、前記ホストメモリから前記デバイスメモリへのDMA転送を行う転送制御部と、DMA転送の対象となるデータを指定した転送要求を示すリクエストを格納する複数の転送キューとを有しており、
　前記転送制御部は、前記各転送キュー内のリクエストにより指定された前記ホストメモリのデータから１つ以上のサブセットを作成し、順番に選択した前記各転送キューのサブセットを、前記デバイスメモリにDMA転送することを特徴とする
　転送管理装置。
　前記各転送キューには、個別の優先度が割り当てられ、その優先度のリクエストを格納することとし、
　前記転送制御部は、リクエストのデータから作成するサブセットのサイズとして、リクエストの優先度が高いほど、サブセットのサイズを大きくすることを特徴とする
　請求項１に記載の転送管理装置。
　前記各転送キューには、個別の優先度が割り当てられ、その優先度のリクエストを格納することとし、
　前記転送制御部は、リクエストのデータから作成するサブセットのサイズとして、高優先度のリクエストが前記転送キューに入ってこない期間には、低優先度のサブセットのサイズを拡大し、一方、高優先度のリクエストが前記転送キューに入ってくる期間には、低優先度のサブセットのサイズを縮小するように制御することを特徴とする
　請求項１に記載の転送管理装置。
　前記各転送キューには、個別の優先度が割り当てられ、その優先度のリクエストを格納することとし、
　前記転送制御部は、リクエストのデータから作成するサブセットのサイズとして、前記転送キューに入ってくる高優先度のリクエストが増加する期間には、低優先度のサブセットのサイズを縮小し、一方、前記転送キューに入ってくる高優先度のリクエストが減少する期間には、低優先度のサブセットのサイズを拡大するように制御することを特徴とする
　請求項１に記載の転送管理装置。
　転送元のデータが格納されるホストメモリを有するホスト部と、データの転送先であるデバイスメモリを有するデバイス部とを有する転送管理装置が実行する転送管理方法であって、
　前記ホスト部は、前記ホストメモリから前記デバイスメモリへのDMA転送を行う転送制御部と、DMA転送の対象となるデータを指定した転送要求を示すリクエストを格納する複数の転送キューとを有しており、
　前記転送制御部は、前記各転送キュー内のリクエストにより指定された前記ホストメモリのデータから１つ以上のサブセットを作成し、順番に選択した前記各転送キューのサブセットを、前記デバイスメモリにDMA転送することを特徴とする
　転送管理方法。
　コンピュータを、請求項１ないし請求項４のいずれか１項に記載の転送管理装置として機能させるための転送管理プログラム。