WO2020250419A1

WO2020250419A1 - 制御装置、制御方法、及び制御プログラムが格納された非一時的なコンピュータ可読媒体

Info

Publication number: WO2020250419A1
Application number: PCT/JP2019/023651
Authority: WO
Inventors: 裕太井手口
Original assignee: 日本電気株式会社
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2020-12-17

Abstract

制御装置（１０）にてロード制御部（１１）は、第１メモリに記憶されている「一次元データ系列」を、「ロード単位データユニット」をロード単位としてレジスタにロードさせる制御を実行する。コンパクション制御部（１２）は、レジスタにロードされた各ロード単位データユニットから「対象データ要素」を抽出するための「コンパクション処理」を制御する。「一次元データ系列」は、演算処理の対象である複数の「対象データ要素」を一部に含んで所定の順序に並べられた複数のデータ要素から成る、データ系列である。「ロード単位データユニット」は、所定数のデータ要素から成るデータユニットである。

Description

制御装置、制御方法、及び制御プログラムが格納された非一時的なコンピュータ可読媒体

　本開示は、制御装置、制御方法、及び制御プログラムが格納された非一時的なコンピュータ可読媒体に関する。

　メモリ内の連続する場所又は不連続な場所から、演算対象である対象データ要素のみをレジスタにデータ要素単位でロードして、演算対象データ系列を収集する、演算処理装置が提案されている（例えば、特許文献１）。

特開２０１３－０８０４９０号公報

　しかしながら、特許文献１に開示されている技術では、演算対象である対象データ要素のみをレジスタにデータ要素単位でロードして演算対象データ系列を収集するため、演算対象データ系列の収集までに長い時間を要する可能性がある。

　本開示の目的は、演算対象データ系列を高速に収集することができる、制御装置、制御方法、及び制御プログラムが格納された非一時的なコンピュータ可読媒体を提供することにある。

　第１の態様にかかる制御装置は、第１メモリに記憶され且つ演算処理の対象である複数の対象データ要素を一部に含んで所定の順序に並べられた複数のデータ要素から成る一次元データ系列を、所定数のデータ要素から成るロード単位データユニットをロード単位としてレジスタにロードさせる制御を実行するロード制御部と、
　前記レジスタにロードされた各ロード単位データユニットから前記対象データ要素を抽出するためのコンパクション処理を制御するコンパクション制御部と、
　を具備する。

　第２の態様にかかる制御方法は、演算処理装置の演算対象である対象データ要素の収集を制御する制御装置によって実行される制御方法であって、
　メモリに記憶され且つ複数の前記対象データ要素を一部に含んで所定の順序に並べられた複数のデータ要素から成る一次元データ系列を、所定数のデータ要素から成るロード単位データユニットをロード単位としてレジスタにロードさせること、及び、
　前記レジスタにロードされた各ロード単位データユニットから前記対象データ要素を抽出させること、
　を含む。

　第３の態様にかかる非一時的なコンピュータ可読媒体は、演算処理装置の演算対象である対象データ要素の収集を制御する制御装置に、
　メモリに記憶され且つ複数の前記対象データ要素を一部に含んで所定の順序に並べられた複数のデータ要素から成る一次元データ系列を、所定数のデータ要素から成るロード単位データユニットをロード単位としてレジスタにロードさせること、及び、
　前記レジスタにロードされた各ロード単位データユニットから前記対象データ要素を抽出させること、
　を含む、処理を実行させる、制御プログラムを格納する。

　本開示により、演算対象データ系列を高速に収集することができる、制御装置、制御方法、及び制御プログラムが格納された非一時的なコンピュータ可読媒体を提供することができる。

第１実施形態における制御装置の一例を示すブロック図である。第２実施形態における制御装置を含む演算処理装置の一例を示す図である。第２実施形態における演算処理装置の処理動作の一例を示すタイミングチャートである。第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。比較例に係るタイミングチャートである。制御装置のハードウェア構成例を示す図である。

　以下、図面を参照しつつ、実施形態について説明する。なお、実施形態において、同一又は同等の要素には、同一の符号を付し、重複する説明は省略される。

＜第１実施形態＞
　図１は、第１実施形態における制御装置の一例を示すブロック図である。図１において制御装置１０は、ロード制御部１１と、コンパクション制御部１２とを有している。制御装置１０は、不図示の演算処理装置を制御する装置である。該不図示の演算処理装置は、メモリ（第１メモリ）（不図示）と、レジスタ（不図示）とを含んでいる。

　ロード制御部１１は、第１メモリ（不図示）に記憶されている「一次元データ系列」を、「ロード単位データユニット」をロード単位としてレジスタ（不図示）にロードさせる制御を実行する。「一次元データ系列」は、演算処理の対象である複数の「対象データ要素」を一部に含んで所定の順序に並べられた複数のデータ要素（data element）から成る、データ系列である。「ロード単位データユニット」は、所定数のデータ要素から成るデータユニットである。すなわち、ロード制御部１１は、ロード単位データユニットの「ベクトルロード」を制御する。

　コンパクション制御部１２は、レジスタ（不図示）にロードされた各ロード単位データユニットから「対象データ要素」を抽出するための「コンパクション処理」を制御する。すなわち、「コンパクション処理」は、ロード単位データユニットに含まれる複数のデータ要素から「所定の条件」を満たすデータ要素（つまり、上記の対象データ要素）を抽出する処理である。

　以上のように第１実施形態によれば、制御装置１０にてロード制御部１１は、第１メモリ（不図示）に記憶されている「一次元データ系列」を、「ロード単位データユニット」をロード単位としてレジスタ（不図示）にロードさせる制御を実行する。コンパクション制御部１２は、レジスタ（不図示）にロードされた各ロード単位データユニットから「対象データ要素」を抽出するための「コンパクション処理」を制御する。

　この制御装置１０の構成により、演算対象データ系列を高速に収集することができる。すなわち、特許文献１のようにデータ要素単位でロードして演算対象データ系列を収集するためには、各データ要素のアドレスを指定してロードする必要があるため、演算対象データ系列の収集までに長い時間を要する可能性がある。一方で、制御装置１０は、ベクトルロードの対象であるロード単位データユニットの先頭アドレスを指定してロード単位データユニットをロードしてから該ロード単位データユニットに「コンパクション処理」を適用させる。このため、演算対象データ系列を高速に収集することができる。

＜第２実施形態＞
　＜演算処理装置の構成例＞
　図２は、第２実施形態における制御装置を含む演算処理装置の一例を示す図である。図２において演算処理装置２０は、メモリ（第１メモリ）２１と、レジスタ２２と、バッファ２５と、メモリ（第２メモリ）２７と、制御装置３０とを含んでいる。例えば、レジスタ２２は、制御装置３０に含まれるレジスタによって実現されてもよく、メモリ２１、バッファ２５、及びメモリ２７は、主記憶装置及び制御装置３０に含まれるキャッシュメモリによって実現されてもよい。

　メモリ２１は、「一次元データ系列」を記憶している。「一次元データ系列」は、上記の通り、演算処理の対象である複数の「対象データ要素」を一部に含んで所定の順序に並べられた複数のデータ要素（data element）から成る、データ系列である。

　レジスタ２２は、ロードレジスタ２３－１～２３－Ｎ（Ｎは、２以上の自然数）を含む。また、レジスタ２２は、コンパクションレジスタ２４－１～２４－Ｎ（Ｎは、２以上の自然数）を含む。ロードレジスタ２３－１～２３－Ｎは、「一次元データ系列」がＮ（Ｎは、２以上の自然数）個に分割された、Ｎ個の「分割データ系列」にそれぞれ対応する。また、ロードレジスタ２３－１～２３－Ｎは、コンパクションレジスタ２４－１～２４－Ｎとそれぞれ対応する。なお、以下では、ロードレジスタ２３－１～２３－Ｎを区別しない場合、ロードレジスタ２３－１～２３－Ｎを単にロードレジスタ２３と呼ぶことがある。また、コンパクションレジスタ２４－１～２４－Ｎを区別しない場合、コンパクションレジスタ２４－１～２４－Ｎを単にコンパクションレジスタ２４と呼ぶことがある。

　バッファ２５は、バッファ２６－１～２６－Ｎ（Ｎは、２以上の自然数）を含む。バッファ２６－１～２６－Ｎは、上記のＮ個の分割データ系列にそれぞれ対応する。なお、以下では、バッファ２６－１～２６－Ｎを区別しない場合、バッファ２６－１～２６－Ｎを単にバッファ２６と呼ぶことがある。

　メモリ２７は、バッファ２６－１～２６－Ｎにそれぞれストアされた部分データ系列を、ストアする。

　制御装置３０は、ロード制御部３１と、コンパクション制御部３２と、カウント部３３と、ストア制御部（第１ストア制御部）３４と、アドレス算出部（第１アドレス算出部）３５と、アドレス算出部（第２アドレス算出部）３６と、ストア制御部（第２ストア制御部）３７とを有している。

　ロード制御部３１は、Ｎ個の分割データ系列から、ロード単位データユニットを、同じ分割データ系列から複数のロード単位データユニットが連続してロードされないように、ロード単位データユニットが含まれていた分割データ系列に対応するロードレジスタ２３に順次ロードさせる。ロード単位データユニットは、上記の通り、所定数のデータ要素から成るデータユニットである。例えば、ロード制御部３１は、Ｎ個の分割データ系列から、ロード単位データユニットを、Ｎ個の分割データ系列のロード順が巡回し且つ各分割データ系列においてロード単位データユニットが上記所定の順序の方向に順番にロードされるように、ロードレジスタ２３－１～２３－Ｎへ順次ロードさせる。なお、識別番号ｋ（１≦ｋ≦Ｎ）の分割データ系列に含まれていたロード単位データユニットは、ロードレジスタ２３－ｋにロードされる。

　コンパクション制御部３２は、各ロードレジスタ２３にロードされたロード単位データユニットに含まれる、すべての対象データ要素を各ロードレジスタ２３に対応するコンパクションレジスタ２４に移動させる。一方、コンパクション制御部３２は、各ロードレジスタ２３にロードされたロード単位データユニットに含まれる、演算処理の対象でない「非対象データ要素」を各ロードレジスタ２３に対応するコンパクションレジスタ２４に移動させない。これにより、コンパクションレジスタ２４において、「コンパクション処理後のデータユニット」が得られる。すなわち、ロードレジスタ２３－ｋにロードされたロード単位データユニットに対応する、コンパクション処理後のデータユニットが、ロードレジスタ２３－ｋに対応するコンパクションレジスタ２４－ｋにおいて得られる。

　カウント部３３は、「コンパクション処理後のデータユニット」に含まれる「対象データ要素」の個数をカウントする。

　ストア制御部３４は、コンパクションレジスタ２４－ｋにて得られたコンパクション処理後のデータユニットを、バッファ２６－ｋにおける、「現ストアアドレス」が示す領域に、ストアさせる。

　アドレス算出部３５は、バッファ２６－ｋにストアされるコンパクション処理後のデータユニットに含まれる「対象データ要素」の個数と、バッファ２６－ｋにおける「前ストアアドレス」とに基づいて、バッファ２６－ｋにおける「現ストアアドレス」を算出する。この「前ストアアドレス」は、バッファ２６－ｋにコンパクション処理後のデータユニットを前回ストアしたときに「現ストアアドレス」として用いられたストアアドレスである。すなわち、ストア制御部３４において用いられるバッファ２６－ｋについての前ストアアドレスが、アドレス算出部３５にて算出されたバッファ２６－ｋについての現ストアアドレスによって更新される。ここで、上記の通り、ロード制御部３１は、Ｎ個の分割データ系列から、ロード単位データユニットを、同じ分割データ系列から複数のロード単位データユニットが連続してロードされないように、ロード単位データユニットが含まれていた分割データ系列に対応するロードレジスタ２３に順次ロードさせる。このため、アドレス算出部３５がバッファ２６－ｋについての「現ストアアドレス」の算出を試みるタイミングでは、バッファ２６－ｋについての「前ストアアドレス」は確定していることになる。これにより、ストア制御部３４は、コンパクションレジスタ２４－ｋにて得られたコンパクション処理後のデータユニットを、バッファ２６－ｋにおける、「現ストアアドレス」が示す領域に、高速にストアさせることができる。

　以上で説明した、ロード制御部３１、コンパクション制御部３２、カウント部３３、ストア制御部３４、及びアドレス算出部３５の処理が「一次元データ系列」について行われることによって、各バッファ２６には少なくとも１つのコンパクション処理後のデータユニットから成る「部分データ系列」がストアされることになる。

　アドレス算出部３６は、各部分データ系列についてカウント部３３にてカウントされた対象データ要素の個数に基づいて、メモリ２７において各部分データ系列をストアする「ストアアドレス」を算出する。ここで、バッファ２６に部分データ系列がストアされる時点で部分データ系列に含まれる対象データ要素の個数は算出されているので、アドレス算出部３６は、短い期間で、メモリ２７において各部分データ系列をストアする「ストアアドレス」を算出することができる。

　ストア制御部３７は、アドレス算出部３６によって各部分データ系列について算出されたストアアドレスの示すメモリ２７のストア領域に、各部分データ系列をストアさせる。

　＜演算処理装置の動作例＞
　以上の構成を有する演算処理装置２０の処理動作の一例について説明する。図３は、第２実施形態における演算処理装置の処理動作の一例を示すタイミングチャートである。図４～１４は、第２実施形態における演算処理装置の処理動作の一例の説明に供する図である。なお、ここでは、上記のＮが２であるケースを説明する。

　まず、ここで扱う「一次元データ系列」について説明する。図４に示すように、メモリ２１に記憶されている「一次元データ系列」は、ロード単位データユニットＬＤＵ１～ＬＤＵ３を含む分割データ系列１と、ロード単位データユニットＬＤＵ４～ＬＤＵ６を含む分割データ系列２とを含んでいる。「一次元データ系列」においては、上記の所定の順序として、ロード単位データユニットＬＤＵ１～ＬＤＵ６の順番に並べられている。図４に示す各ロード単位データユニットにおいて網掛けされた四角は、上記の「対象データ要素」を示している。

　図３及び図５に示すように、タイミングｔ１にて、ロード制御部３１の制御によって、ロード単位データユニットＬＤＵ１のロードレジスタ２３－１へのロードが開始される。また、タイミングｔ２にて、ロード制御部３１の制御によって、ロード単位データユニットＬＤＵ４のロードレジスタ２３－２へのロードが開始される。ここで、図３において、Ｌ１は、ロード単位データユニットＬＤＵ１のロードを示す。また、Ｃ１は、ロード単位データユニットＬＤＵ１のコンパクション処理を示す。また、Ａ１は、「現ストアアドレス」を算出するアドレス算出処理を示す。また、Ｐ１は、ロード単位データユニットＬＤＵ１に含まれる対象データ要素の個数をカウントするカウント処理を示す。また、Ｓ１は、ロード単位データユニットＬＤＵ１から得られたコンパクション処理後のデータユニットをバッファ２６へストアするストア処理を示す。なお、ロード単位データユニットＬＤＵ２～ＬＤＵ６についても同様である。

　図３及び図６に示すように、タイミングｔ３にて、コンパクション制御部３２の制御によって、ロード単位データユニットＬＤＵ１に対するコンパクション処理が開始される。また、タイミングｔ４にて、コンパクション制御部３２の制御によって、ロード単位データユニットＬＤＵ４に対するコンパクション処理が開始される。また、タイミングｔ３にて、アドレス算出部３５によって、バッファ２６－１における「現ストアアドレス」の算出が開始される。また、タイミングｔ４にて、アドレス算出部３５によって、バッファ２６－２における「現ストアアドレス」の算出が開始される。ここで、ロード単位データユニットＬＤＵ１及びロード単位データユニットＬＤＵ４から得られるコンパクション処理後のデータユニットは、「一次元データ系列」に関して、バッファ２６－１，２６－２に最初にストアされるデータユニットである。このため、ここでの「現ストアアドレス」には、例えば、予め決定されたアドレス値が用いられてもよい。

　図３及び図７に示すように、タイミングｔ５にて、ストア制御部３４の制御によって、ロード単位データユニットＬＤＵ１から得られたコンパクション処理後のデータユニットのバッファ２６－１へのストアが開始される。このストアでは、タイミングｔ３にて算出された現ストアアドレスが用いられる。また、タイミングｔ５にて、カウント部３３による、ロード単位データユニットＬＤＵ１に含まれていた対象データ要素の個数のカウントが開始される。また、タイミングｔ６にて、ストア制御部３４の制御によって、ロード単位データユニットＬＤＵ４から得られたコンパクション処理後のデータユニットのバッファ２６－２へのストアが開始される。このストアでは、タイミングｔ４にて算出された現ストアアドレスが用いられる。また、タイミングｔ６にて、カウント部３３による、ロード単位データユニットＬＤＵ４に含まれていた対象データ要素の個数のカウントが開始される。

　図３及び図８に示すように、タイミングｔ７にて、ロード制御部３１の制御によって、ロード単位データユニットＬＤＵ２のロードレジスタ２３－１へのロードが開始される。また、タイミングｔ８にて、ロード制御部３１の制御によって、ロード単位データユニットＬＤＵ５のロードレジスタ２３－２へのロードが開始される。

　図３及び図９に示すように、タイミングｔ９にて、コンパクション制御部３２の制御によって、ロード単位データユニットＬＤＵ２に対するコンパクション処理が開始される。また、タイミングｔ１０にて、コンパクション制御部３２の制御によって、ロード単位データユニットＬＤＵ５に対するコンパクション処理が開始される。また、タイミングｔ９にて、アドレス算出部３５によって、バッファ２６－１における「現ストアアドレス」の算出が開始される。また、タイミングｔ１０にて、アドレス算出部３５によって、バッファ２６－２における「現ストアアドレス」の算出が開始される。ここで、タイミングｔ９では、バッファ２６－１における「現ストアアドレス」の算出に用いられる、「前ストアアドレス」及び前回バッファ２６－１にストアされたコンパクション処理後のデータユニットに含まれていた対象データ要素の個数が確定している。このため、アドレス算出部３５は、タイミングｔ９にてバッファ２６－１における「現ストアアドレス」の算出を開始することができる。タイミングｔ１０での、バッファ２６－２における「現ストアアドレス」の算出についても、同じことが言える。

　図３及び図１０に示すように、タイミングｔ１１にて、ストア制御部３４の制御によって、ロード単位データユニットＬＤＵ２から得られたコンパクション処理後のデータユニットのバッファ２６－１へのストアが開始される。このストアでは、タイミングｔ９にて算出された現ストアアドレスが用いられる。また、タイミングｔ１１にて、カウント部３３による、ロード単位データユニットＬＤＵ２に含まれていた対象データ要素の個数のカウントが開始される。また、タイミングｔ１２にて、ストア制御部３４の制御によって、ロード単位データユニットＬＤＵ５から得られたコンパクション処理後のデータユニットのバッファ２６－２へのストアが開始される。このストアでは、タイミングｔ１０にて算出された現ストアアドレスが用いられる。また、タイミングｔ１２にて、カウント部３３による、ロード単位データユニットＬＤＵ５に含まれていた対象データ要素の個数のカウントが開始される。

　図３及び図１１に示すように、タイミングｔ１３にて、ロード制御部３１の制御によって、ロード単位データユニットＬＤＵ３のロードレジスタ２３－１へのロードが開始される。また、タイミングｔ１４にて、ロード制御部３１の制御によって、ロード単位データユニットＬＤＵ６のロードレジスタ２３－２へのロードが開始される。

　図３及び図１２に示すように、タイミングｔ１５にて、コンパクション制御部３２の制御によって、ロード単位データユニットＬＤＵ３に対するコンパクション処理が開始される。また、タイミングｔ１６にて、コンパクション制御部３２の制御によって、ロード単位データユニットＬＤＵ６に対するコンパクション処理が開始される。また、タイミングｔ１５にて、アドレス算出部３５によって、バッファ２６－１における「現ストアアドレス」の算出が開始される。また、タイミングｔ１６にて、アドレス算出部３５によって、バッファ２６－２における「現ストアアドレス」の算出が開始される。ここで、タイミングｔ１５では、バッファ２６－１における「現ストアアドレス」の算出に用いられる、「前ストアアドレス」及び前回バッファ２６－１にストアされたコンパクション処理後のデータユニットに含まれていた対象データ要素の個数が確定している。このため、アドレス算出部３５は、タイミングｔ１５にてバッファ２６－１における「現ストアアドレス」の算出を開始することができる。タイミングｔ１６での、バッファ２６－２における「現ストアアドレス」の算出についても、同じことが言える。

　図３及び図１３に示すように、タイミングｔ１７にて、ストア制御部３４の制御によって、ロード単位データユニットＬＤＵ３から得られたコンパクション処理後のデータユニットのバッファ２６－１へのストアが開始される。このストアでは、タイミングｔ１５にて算出された現ストアアドレスが用いられる。また、タイミングｔ１７にて、カウント部３３による、ロード単位データユニットＬＤＵ３に含まれていた対象データ要素の個数のカウントが開始される。また、タイミングｔ１８にて、ストア制御部３４の制御によって、ロード単位データユニットＬＤＵ６から得られたコンパクション処理後のデータユニットのバッファ２６－２へのストアが開始される。このストアでは、タイミングｔ１６にて算出された現ストアアドレスが用いられる。また、タイミングｔ１８にて、カウント部３３による、ロード単位データユニットＬＤＵ６に含まれていた対象データ要素の個数のカウントが開始される。

　そして、タイミングｔ１９にて、ロード単位データユニットＬＤＵ６から得られたコンパクション処理後のデータユニットのバッファ２６－２へのストアが完了する。すなわち、タイミングｔ１９にて、「一次元データ系列」から得られた２つの部分データ系列のバッファ２６－１，２６－２へのストアが完了する。

　ここで、タイミングｔ１９では、バッファ２６－１，２６－２にストアされた２つの部分データ系列に含まれる対象データ要素の個数のカウントが完了しているので、アドレス算出部３６は、メモリ２７において各部分データ系列をストアする「ストアアドレス」の算出を直ぐに開始することができる。

　そして、図１４に示すように、ストア制御部３７の制御によって、バッファ２６－１，２６－２にストアされた２つの部分データ系列が、アドレス算出部３６によって各部分データ系列について算出されたストアアドレスの示すメモリ２７のストア領域にストアされる。

　〈比較例〉
　ここで、比較例について説明する。この比較例は、演算処理装置２０がバッファ２５を有さないケース、つまり、コンパクション処理後のデータユニットがバッファ２５を経ずにメモリ２７へ直接ストアされるケースである。図１５は、比較例に係るタイミングチャートである。

　比較例においても、図１３のタイミングｔ１，ｔ３，ｔ５と同様に、タイミングｔ２１，ｔ２３，ｔ２５にて、ロード単位データユニットＬＤＵ１についての、ロードレジスタ２３－１へのロード、コンパクション、現ストアアドレスの算出、個数のカウント、及び、メモリ２７へのストア（図３のバッファ２６－１へのストアに対応）を行うことができる。一方で、比較例においては、ロード単位データユニットＬＤＵ２から得られるコンパクション処理後のデータユニットを、タイミングｔ２７にて初めてメモリ２７へストアすることができる。これは、タイミングｔ２７にてロード単位データユニットＬＤＵ１に含まれていた対象データ要素の個数のカウントが完了するためである。

　これに対して、上記の通り、演算処理装置２０では、タイミングｔ４（図１５のタイミングｔ２４に対応）にて現アドレスの算出を行うことができるので、コンパクションＣ２が完了するタイミングｔ６にて直ぐにロード単位データユニットＬＤＵ２から得られるコンパクション処理後のデータユニットをストアすることができる。すなわち、演算処理装置２０によれば、比較例に比べて、演算対象データ系列を高速に収集することができる。なお、上記のＮが大きいほど、この効果は大きくなる。

　＜他の実施形態＞
　図１６は、制御装置のハードウェア構成例を示す図である。図１６において制御装置は、プロセッサ１０１と、メモリ１０２とを有している。プロセッサ１０１は、例えば、マイクロプロセッサ、MPU（Micro Processing Unit）、又はCPU（Central Processing Unit）であってもよい。プロセッサ１０１は、複数のプロセッサを含んでもよい。メモリ１０２は、揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ１０２は、プロセッサ１０１から離れて配置されたストレージを含んでもよい。この場合、プロセッサ１０１は、図示されていないI/Oインタフェースを介してメモリ１０２にアクセスしてもよい。

　第１実施形態及び第２実施形態の制御装置１０，３０は、それぞれ、図１６に示したハードウェア構成を有することができる。第１実施形態及び第２実施形態の制御装置１０，３０のロード制御部１１，３１と、コンパクション制御部１２，３２と、カウント部３３と、ストア制御部３４と、アドレス算出部３５と、アドレス算出部３６と、ストア制御部３７とは、プロセッサ１０１がメモリ１０２に記憶されたプログラムを読み込んで実行することにより実現されてもよい。メモリ２１と、レジスタ２２と、バッファ２５と、メモリ２７とは、メモリ１０２によって実現されてもよい。プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、制御装置１０，３０に供給することができる。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）を含む。さらに、非一時的なコンピュータ可読媒体の例は、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗを含む。さらに、非一時的なコンピュータ可読媒体の例は、半導体メモリを含む。半導体メモリは、例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によって制御装置１０，３０に供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムを制御装置１０，３０に供給できる。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１０　制御装置
　１１　ロード制御部
　１２　コンパクション制御部
　２０　演算処理装置
　２１　メモリ（第１メモリ）
　２２　レジスタ
　２３　ロードレジスタ
　２４　コンパクションレジスタ
　２５　バッファ
　２６　バッファ
　２７　メモリ（第２メモリ）
　３０　制御装置
　３１　ロード制御部
　３２　コンパクション制御部
　３３　カウント部
　３４　ストア制御部（第１ストア制御部）
　３５　アドレス算出部（第１アドレス算出部）
　３６　アドレス算出部（第２アドレス算出部）
　３７　ストア制御部（第２ストア制御部）

Claims

　第１メモリに記憶され且つ演算処理の対象である複数の対象データ要素を一部に含んで所定の順序に並べられた複数のデータ要素から成る一次元データ系列を、所定数のデータ要素から成るロード単位データユニットをロード単位としてレジスタにロードさせる制御を実行するロード制御部と、
　前記レジスタにロードされた各ロード単位データユニットから前記対象データ要素を抽出するためのコンパクション処理を制御するコンパクション制御部と、
　を具備する制御装置。
　前記レジスタは、前記一次元データ系列が分割された複数の分割データ系列にそれぞれ対応する複数のロードレジスタと、前記複数のロードレジスタにそれぞれ対応する複数のコンパクションレジスタとを含み、
　前記ロード制御部は、前記一次元データ系列が分割された複数の分割データ系列から、前記ロード単位データユニットを、同じ前記分割データ系列から複数の前記ロード単位データユニットが連続してロードされないように、前記ロード単位データユニットが含まれていた分割データ系列に対応するロードレジスタに順次ロードさせ、
　前記コンパクション制御部は、各ロードレジスタにロードされたロード単位データユニットに含まれる、すべての前記対象データ要素を前記各ロードレジスタに対応するコンパクションレジスタに移動させる一方、前記演算処理の対象でない非対象データ要素を前記各ロードレジスタに対応するコンパクションレジスタに移動させないことにより、コンパクション処理後のデータユニットを形成させる、
　請求項１記載の制御装置。
　前記ロード制御部は、前記複数の分割データ系列から、前記ロード単位データユニットを、前記複数の分割データ系列のロード順が巡回し且つ各分割データ系列において前記ロード単位データユニットが前記所定の順序の方向に順番にロードされるように、前記複数のロードレジスタへ順次ロードさせる、
　請求項２記載の制御装置。
　前記コンパクション処理後のデータユニットを、前記複数の分割データ系列にそれぞれ対応する複数のバッファのうちで該コンパクション処理後のデータユニットが含まれていた前記分割データ系列に対応する前記バッファにおける、現ストアアドレスが示す領域に、ストアさせる第１ストア制御部と、
　前記バッファに前回ストアされた前記コンパクション処理後のデータユニットに含まれる前記対象データ要素の個数と前回のストアアドレスとに基づいて前記現ストアアドレスを算出するアドレス算出部と、
　をさらに具備する、
　請求項２又は３に記載の制御装置。
　前記複数の分割データ系列におけるすべての前記ロード単位データユニットに対応する前記コンパクション処理後のデータユニットが前記複数のバッファにストアされたときに、各部分データ系列が前記複数のバッファのそれぞれにストアされた前記コンパクション処理後のデータユニットから成る複数の部分データ系列を、第２メモリにストアさせる第２ストア制御部、をさらに具備する請求項４記載の制御装置。
　請求項１から５のいずれか１項に記載の制御装置を具備する演算処理装置。
　演算処理装置の演算対象である対象データ要素の収集を制御する制御装置によって実行される制御方法であって、
　メモリに記憶され且つ複数の前記対象データ要素を一部に含んで所定の順序に並べられた複数のデータ要素から成る一次元データ系列を、所定数のデータ要素から成るロード単位データユニットをロード単位としてレジスタにロードさせること、及び、
　前記レジスタにロードされた各ロード単位データユニットから前記対象データ要素を抽出させること、
　を含む制御方法。
　演算処理装置の演算対象である対象データ要素の収集を制御する制御装置に、
　メモリに記憶され且つ複数の前記対象データ要素を一部に含んで所定の順序に並べられた複数のデータ要素から成る一次元データ系列を、所定数のデータ要素から成るロード単位データユニットをロード単位としてレジスタにロードさせること、及び、
　前記レジスタにロードされた各ロード単位データユニットから前記対象データ要素を抽出させること、
　を含む、処理を実行させる、制御プログラムが格納された非一時的なコンピュータ可読媒体。