WO2022130883A1

WO2022130883A1 - コンパイル装置、コンパイル方法、及びコンパイルプログラム記録媒体

Info

Publication number: WO2022130883A1
Application number: PCT/JP2021/042164
Authority: WO
Inventors: 健人岩川
Original assignee: 日本電気株式会社
Priority date: 2020-12-14
Filing date: 2021-11-17
Publication date: 2022-06-23
Also published as: US20240053969A1; JP7088276B1; JP2022096010A

Abstract

プログラム中のループが隣接するデータへのアクセスを含んでいる場合にプログラムを高速化することができる、コンパイル装置、コンパイル方法、及びコンパイルプログラムを提供する。コンパイル装置は、ソースプログラムのループ中に隣接するデータへのアクセスが含まれる場合に、そのループがベクトル化可能であるかを判定するループ解析部と、上記隣接するデータへのアクセスが含まれ、かつ、そのループがベクトル化可能である場合に、演算に必要となる要素をメモリからベクトルレジスタへ読み込むための命令を生成するベクトル化実行部と、を含む。

Description

コンパイル装置、コンパイル方法、及びコンパイルプログラム記録媒体

　本発明は、コンパイル装置、コンパイル方法、及びコンパイルプログラム記録媒体に関し、特にプログラムの高速化に関する。

　計算機の演算装置からメインメモリへのアクセス時間は、演算装置の演算時間と比べると大きく、メインメモリと演算装置との間のデータ転送性能は不足している。この広がる性能差を埋めるために、一般にスカラ計算機では、演算装置とメインメモリ間に高速なキャッシュメモリを設けることにより、メインメモリへのアクセス時間を短縮している。一方、ベクトル計算機では、ベクトル命令により一度に多くのデータをまとめて転送することにより、メインメモリへのアクセス時間を短縮している。データ１個あたりのメモリアクセス時間は、同時に転送されたデータの個数分の１とみなすことができる。この個数の最大値はベクトル計算機のベクトル長で決まり、ベクトル長の値が２５６の場合は、メモリアクセス時間は２５６分の１と、小さい値になる。

　またベクトル計算機では、メインメモリに配置されているデータをベクトルレジスタ上にロードしてそのベクトルレジスタを介して、高速な演算を実現している。このため、メインメモリ上のデータをいかに効率良くレジスタ上に持ってくるかということが、高速化のために重要である。

　特許文献１は、ベクトル計算機に関するものであり、隣接するメモリアクセス命令が存在するときに重複したメモリアクセスを削減して実行性能を向上させることが提案されている。

　特許文献２は、計算機で用いられるコンパイル方法に関するものであり、ソースプログラムにおける配列を抽出し、アクセス回数に応じてメインメモリ又は一時記憶装置に割り当てることが提案されている。

特開２０００－０４８００９号公報特開２０１３－１８２２９３号公報

　しかしながら、上述した背景技術のコンパイル方法には以下のような課題がある。背景技術のコンパイル方法では、図１７の（ａ）に示すプログラムのように隣接するデータに対する演算をベクトル命令で処理する際には、図１７の（ｂ）のように各配列要素Ａ（Ｉ）～Ａ（Ｉ＋４）に対してベクトルロード命令をそれぞれ発行するのが一般的である。

　しかしながら、図１７の（ｂ）のように各配列要素に対してベクトルロード命令をそれぞれ発行すると、ベクトルロード命令実行数が増大する。また図１７の（ｂ）では、各ベクトルロード命令間において重複した要素をロードしている状態にある。ベクトルロード命令のようにメモリアクセスを伴う命令は、メモリアクセスを伴わない命令に比べて低速であり、重複した要素のロードはプログラムを低速にする。

　特許文献１では、隣接するデータを要素シフトすることでベクトルロード命令を削減している。特許文献１では、要素シフトすることでベクトルレジスタの末尾のデータが不足するが、ベクトル長を変更して不足したデータについてはスカラ演算により処理を実行する、もしくはマスクにより演算を実行しないように取り扱うことが提案されている。このため、ベクトル長を変更して不足したデータについてはスカラ演算により処理を実行する、もしくはマスクにより演算を実行しない、といった取り扱いが必要であり、演算実行の効率性が低下するという課題がある。

　本発明の目的は、プログラム中のループが隣接するデータへのアクセスを含んでいる場合にプログラムを高速化することができる、コンパイル装置、コンパイル方法、及びコンパイルプログラムを提供することにある。

　前記目的を達成するため、本発明に係るコンパイル装置は、
　ソースプログラムのループ中に隣接するデータへのアクセスが含まれる場合に、そのループがベクトル化可能であるかを判定するループ解析部と、
　上記隣接するデータへのアクセスが含まれ、かつ、そのループがベクトル化可能である場合に、演算に必要となる要素をメモリからベクトルレジスタへ読み込むための命令を生成するベクトル化実行部と、を含む。

　本発明に係るコンパイル方法は、
　ソースプログラムのループ中に隣接するデータへのアクセスが含まれる場合に、そのループがベクトル化可能であるかを判定し、
　上記隣接するデータへのアクセスが含まれ、かつ、そのループがベクトル化可能である場合に、演算に必要となる要素をメモリからベクトルレジスタへ読み込むためのベクトルロード命令を生成し、
　上記ベクトルレジスタへ読み込んだ要素を要素シフトしたベクトルデータを生成するベクトル要素シフト命令を生成し、
　演算を実行するためのベクトル演算命令を生成し、
　演算結果を上記ベクトルレジスタからメモリへ書き込むためのベクトルストア命令を生成する。

　本発明に係るコンパイルプログラム記録媒体は、
　コンピュータを、
　ソースプログラムのループ中に隣接するデータへのアクセスが含まれる場合に、そのループがベクトル化可能であるかを判定するループ解析手段と、
　上記隣接するデータへのアクセスが含まれ、かつ、そのループがベクトル化可能である場合に、演算に必要となる要素をメモリからベクトルレジスタへ読み込むための命令を生成するベクトル化実行手段と、して機能させるコンパイルプログラムを記録する。

　本発明によれば、プログラム中のループが隣接するデータへのアクセスを含んでいる場合にプログラムを高速化することができる、コンパイル装置、コンパイル方法、及びコンパイルプログラムを提供することができる。

本発明の実施形態のコンパイル方法を説明するための概念図である。本発明の第１実施形態によるコンパイラを説明するためのブロック図である。本発明の実施形態のコンパイル装置、コンパイル方法、及びコンパイルプログラムに関して、目的プログラムを実行する計算機の構成を説明するためのブロック図である。本発明の第１実施形態によるコンパイル方法を説明するためのフローチャートである。本発明の第１実施形態が対象とするソースプログラムの一例である。本発明の第１実施形態によるコンパイル方法のうち、ベクトルロードにより演算に必要となる要素をメモリからロードする動作を説明するための概念図である。本発明の第１実施形態によるコンパイル方法のうち、ベクトル要素シフトにより隣接データＡ（Ｉ＋１）を生成する動作を説明するための概念図である。本発明の第１実施形態によるコンパイル方法のうち、ベクトル要素シフトにより隣接データＡ（Ｉ＋２）を生成する動作を説明するための概念図である。本発明の第１実施形態によるコンパイル方法のうち、ベクトル要素シフトにより隣接データＡ（Ｉ＋３）を生成する動作を説明するための概念図である。本発明の第１実施形態によるコンパイル方法のうち、ベクトル要素シフトにより隣接データＡ（Ｉ＋４）を生成する動作を説明するための概念図である。本発明の第１実施形態によるコンパイル方法のうち、ベクトル演算の動作を説明するための概念図である。本発明の第１実施形態によるコンパイル方法のうち、ベクトルストアによる演算結果をメモリへストアする動作を説明するための概念図である。背景技術により生成される命令列である。本発明の実施形態により生成される命令列である。本発明の第２実施形態が対象とするソースプログラムの一例である。本発明の第２実施形態によるコンパイル方法を説明するための概念図である。本発明の第３実施形態が対象とするソースプログラムの一例である。本発明の第３実施形態によるコンパイル方法を説明するための概念図である。（ａ）は隣接アクセスを伴う演算のソースプログラムであり、（ｂ）は背景技術のコンパイル方法で生成される命令列である。

　本発明の具体的な実施形態について説明する前に、実施形態の概要について説明する。

　本発明の実施形態では、隣接するデータをロードするベクトルロード命令がソースプログラムに含まれる場合、この隣接するデータをロードするベクトルロード命令を、メモリアクセスを伴わない図１に示すベクトル要素シフト命令に置き換えることでプログラムを高速化する。

　図５のように、演算に必要となるデータをベクトルロード命令により、ベクトルレジスタにロードをする。そして、データをロードしたベクトルレジスタの要素をベクトル要素シフト命令により図６のようにシフトすることで、隣接するデータ要素を生成する。

　ベクトル要素シフト命令により隣接するデータ要素を生成することで、重複するデータのロードを無くすことできるためベクトルロード命令実行数を削減できプログラムを高速化できる。

　本発明の実施形態のコンパイル装置、コンパイル方法、及びコンパイルプログラムは、目的プログラム（オブジェクトプログラム）を実行する計算機に用いられる。このような計算機は、図２Ｂに示される計算機１５０であり、演算装置１５１、メインメモリ１５２、及び一時記憶装置１５３を含んで構成される。計算機１５０はコンピュータであり、ベクトル演算が可能なベクトル計算機である。このような構成の計算機は、特許文献２で提案されている。

　図２Ｂの演算装置１５１は、プログラムに基づいて計算機１５０が演算を実行するための装置である。演算装置１５１は、具体的には計算機のＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）といったプロセッサ内の演算装置であり、例えばＣＰＵにおけるＡＬＵ(Arithmetic Logic Unit)により構成される。演算装置１５１は、メインメモリ１５２又は一時記憶装置１５３からデータを取得し、それに応じて演算を実行する。

　図２Ｂのメインメモリ１５２は、計算機１５０において演算装置１５１がアクセス可能な主記憶装置である。メインメモリ１５２は、演算装置１５１が演算を実行するために必要なデータ及び演算を実行した結果のデータを保持することができる。

　図２Ｂの一時記憶装置１５３は、演算装置１５１がメインメモリ１５２よりも高速にアクセス可能な記憶装置であり、例えばレジスタが該当する。例えば、演算装置１５１及び一時記憶装置１５３がＣＰＵを構成する場合には、演算装置１５１はＣＰＵ内のＡＬＵ、一時記憶装置１５３はＣＰＵ内のレジスタである。

　本発明の実施形態のコンパイル装置は、上記計算機１５０が実行する目的プログラムを、原始プログラム（ソースプログラム）に基づいて生成するコンパイラである。コンパイラは、ソースプログラムをコンパイルすることにより、オブジェクトコードを生成し、目的プログラム（オブジェクトプログラム）を生成する。以下、本発明の具体的な実施形態について、図面を参照しながら詳細に説明する。

　〔第１実施形態〕
　初めに、本発明の第１実施形態によるコンパイル装置、コンパイル方法、及びコンパイルプログラムについて、説明する。

　（実施形態の構成）
　図２Ａは、本実施形態によるコンパイル装置を説明するためのブロック図である。図２Ａのコンパイル装置は、ソースプログラムをコンパイルしてオブジェクトコードを生成するコンパイラ１００である。図２Ａのコンパイラ１００は、プログラムとしてのソースプログラムを解析してプログラム中のループが隣接するデータへのアクセスを含んでおりベクトル化可能であるかを解析するループ解析部１０、及び解析結果に基づきループをベクトル化するベクトル化実行部２０を含む。本実施形態によるコンパイル装置は、上述した計算機に用いられ、コンパイラに組み込まれる一機能である。

　ループ解析部１０は、ループ中に隣接するデータへのアクセスが含まれているか認識する隣接データ認識手段１１、及び隣接するデータへのアクセスを含むループがベクトル化可能であるかを判断するベクトル化判定手段１２を含む。

　ベクトル化実行部２０は、演算に必要となる要素をメモリからベクトルレジスタへ読込むためのベクトルロード命令生成手段２１を含む。さらにベクトル化実行部２０は、ベクトルレジスタへ読み込んだ要素を要素シフトしたベクトルデータを計算する命令（ベクトル要素シフト命令）を生成するためのベクトル要素シフト命令生成手段２２、演算を実行するためのベクトル演算命令生成手段２３を含む。さらにベクトル化実行部２０は、演算結果をベクトルレジスタからメモリへ書込むためのベクトルストア命令生成手段２４を含む。

　本発明の実施形態において、コンパイラが用いられる計算機はベクトル演算が可能なベクトル計算機であり、ベクトル要素シフト命令を備えているものとする。ベクトル要素シフトは、図１の１．に示すようにVyで指定されたベクトルレジスタの要素を１要素左へシフトしてVxで指定されたベクトルレジスタに格納し、図１の２．に示すようにVzで指定されたベクトルレジスタの先頭要素をVxで指定されたベクトルレジスタの最後尾の要素に格納する。こうしてコンパイラ１００は、ベクトル要素シフト命令生成手段２２においてベクトル要素シフトを生成する。

　（実施形態の動作）
　次に、図３～１１を用いて動作について説明する。図３は、本発明の第１実施形態によるコンパイル方法を説明するためのフローチャートである。図４は、本発明の第１実施形態が対象とするソースプログラムの一例である。図５は、本発明の第１実施形態によるコンパイル方法のうち、ベクトルロードにより演算に必要となる要素をメモリからロードする動作を説明するための概念図である。図６は、本発明の第１実施形態によるコンパイル方法のうち、ベクトル要素シフトにより隣接データＡ（Ｉ＋１）を生成する動作を説明するための概念図である。図７は、本発明の第１実施形態によるコンパイル方法のうち、ベクトル要素シフトにより隣接データＡ（Ｉ＋２）を生成する動作を説明するための概念図である。図８は、本発明の第１実施形態によるコンパイル方法のうち、ベクトル要素シフトにより隣接データＡ（Ｉ＋３）を生成する動作を説明するための概念図である。図９は、本発明の第１実施形態によるコンパイル方法のうち、ベクトル要素シフトにより隣接データＡ（Ｉ＋４）を生成する動作を説明するための概念図である。図１０は、本発明の第１実施形態によるコンパイル方法のうち、ベクトル演算の動作を説明するための概念図である。図１１は、本発明の第１実施形態によるコンパイル方法のうち、ベクトルストアによる演算結果をメモリへストアする動作を説明するための概念図である。

　本説明においては、１つのベクトルレジスタの要素数は２５６とする。図４は、隣接するデータに対する演算を有するFortranプログラムとなっている。図４のプログラムは、配列要素Ａ（Ｉ）～Ａ（Ｉ＋４）を用いた演算であり、隣接する配列要素の添字式の値の差が１のプログラムである。なお後述するように、本発明が適用できるプログラムは隣接する配列要素の添字式の値の差が１のプログラムに限られない。

　対象のソースプログラムを解析する（ステップＳ１）。隣接データ認識手段１１は、ソースプログラムに図４のようなループが隣接するデータアクセスを含むかを認識する。言い換えると、隣接データ認識手段１１は、ソースプログラム中のループが隣接するデータへのアクセスを含んでいるか否かを判断する（ステップＳ２）。ソースプログラム中のループが隣接するデータへのアクセスを含んでいないとき（ステップＳ２のＮＯ）は、ステップＳ８に進む。

　ソースプログラム中のループが隣接するデータへのアクセスを含んでいるとき（ステップＳ２のＹＥＳ）はステップＳ３に進み、ベクトル化判定手段１２が隣接するデータアクセスを含むループにおいてベクトル化が可能か否かを判定する（ステップＳ３）。ベクトル化できる条件としては、配列や変数の定義・参照関係にベクトル化を阻害する依存関係がないことが挙げられる。ベクトル化が可能でないとき（ステップＳ３のＮＯ）は、ステップＳ８に進む。

　ベクトル化が可能なとき（ステップＳ３のＹＥＳ）はステップＳ４に進み、隣接するデータアクセスを含みかつベクトル化可能であるループをベクトル化実行部２０でベクトル化する。ベクトル化実行部２０では、図５～１１の手順により図４のソースプログラムから命令列を生成する。

　ベクトル化実行部２０では、演算に必要となるデータをベクトルレジスタへメモリからロードするためにベクトルロード命令生成手段２１によりベクトルロード命令を生成する。図４のソースプログラムでは配列の添字式の最大はＩ＋４となる。そのため、１回のベクトル演算において使用するデータの要素数はベクトル長＋４個となる。図４のループのベクトル長は２５６となるため、図５のようにvreg1に配列Ａの１～２５６番目の要素、vreg2に配列Ａの２５７～２６０番目の要素をロードすることになる。vreg1がＡ（Ｉ）に該当する要素を持つベクトルレジスタとなる。

　ベクトルレジスタへデータをロードしたのち、ベクトル要素シフト命令生成手段２２が隣接するデータ要素を持つベクトルレジスタを生成する。隣接するデータ要素を持つベクトルレジスタは、図１のベクトル要素シフト命令により生成する。

　本実施形態ではＡ（Ｉ＋１）に該当する要素を持つベクトルレジスタは、vreg1とvreg2をベクトル要素シフト命令の入力とすることで、図６の（１）及び（２）に示すよう生成することができる。vreg3が、Ａ（Ｉ＋１）に該当する要素を持つベクトルレジスタとなる。

　Ａ（Ｉ＋２）に該当する要素を持つベクトルレジスタを生成するには、図７の（１）のようにベクトル要素シフト命令によりvreg2から先頭要素が２５８となるvreg4を先に生成する。そして、先に生成したvreg3とvreg4をベクトル要素シフト命令の入力とすることで図７の（２）、図７の（３）のようにＡ（Ｉ＋２）に該当する要素を持つベクトルレジスタを生成できる。vreg5が、Ａ（Ｉ＋２）に該当する要素を持つベクトルレジスタとなる。Ａ（Ｉ＋３）、Ａ（Ｉ＋４）に該当する要素を持つベクトルレジスタについても、Ａ（Ｉ＋２）と同様の手順によりそれぞれベクトル要素シフト命令を２命令実行することで図８の（１）～（３）、図９の（１）～（３）のように生成することができる。

　隣接する要素を持つベクトルレジスタを生成できたら、生成したベクトルレジスタを入力として演算を実行する。ベクトル演算命令生成手段２３により、図１０のような演算命令を生成する（ステップＳ６）。

　最後に、ベクトルストアにより演算結果をメモリへストアする。ベクトルストア命令生成手段２４により図１１のようなベクトルストア命令を生成する（ステップＳ７）。ステップＳ２での判定結果、ステップＳ３での判定結果、及びステップＳ４からステップＳ７で生成された命令を総合して、目的プログラムを生成する（ステップＳ８）。

　（実施形態の効果）
　本実施形態のコンパイル装置、コンパイル方法、及びコンパイルプログラムによれば、隣接するデータをロードするベクトルロード命令がソースプログラムに含まれる場合にはこのベクトルロード命令を、メモリアクセスを伴わないベクトル要素シフト命令に置き換える。メモリアクセスを伴わない命令は、ベクトルロード命令のようにメモリアクセスを伴う命令に比べて高速である。このベクトルロード命令の、メモリアクセスを伴わないベクトル要素シフト命令への置き換えによって、ベクトルロード命令の実行数を削減することができる。これにより、プログラムを高速化することができる。

　図１２Ａは、背景技術により生成される命令列であり、図１２Ｂは、本発明の実施形態により生成される命令列である。背景技術のコンパイル方法では、隣接するデータに対するベクトル演算の際には、各配列要素Ａ（Ｉ）～Ａ（Ｉ＋４）に対してベクトルロード命令をそれぞれ発行し、演算で使用するすべてのデータを図１２Ａのようにベクトルロード命令によりベクトルレジスタへ読み込んでいた。これに対して、本発明の実施形態のコンパイル方法では、隣接するデータに対するベクトル演算の際にベクトルロード命令を、メモリアクセスを伴わないベクトル要素シフト命令に置き換える。これにより、図１２Ｂのようにベクトル要素シフト命令を生成することで、ベクトルロード命令の実行数を減らすことができる。ベクトルロード命令実行数を減らすことでメモリへのアクセスを減らすことができ、プログラムを高速化できる。

　さらに本実施形態のコンパイル装置、コンパイル方法、及びコンパイルプログラムによれば、ベクトル要素シフト命令により隣接するデータ要素を生成して、ベクトル長を変更することなく演算を実行することができる。これにより、ベクトル長を削減することなく効率的に演算を実行することができる。なお、コンパイルプログラムを記録したプログラム記録媒体においても、上述した効果と同様の効果を奏することができる。

　〔第２実施形態〕
　次に、本発明の第２実施形態によるコンパイル装置、コンパイル方法、及びコンパイルプログラムについて、説明する。本実施形態によるコンパイル装置、コンパイル方法、及びコンパイルプログラムについて、上述した第１実施形態と同様な内容についてはその詳細な説明を省略して、相違点について説明する。上述した第１実施形態では、隣接する配列要素の添字式の値の差が１のプログラムを例に説明したが、本発明はこれに限られない。例えば、各添字式の値の差が１より大きいプログラムにおいても適用できる。

　図１３は、本発明の第２実施形態が対象とするソースプログラムの一例である。図１４は、本発明の第２実施形態によるコンパイル方法を説明するための概念図である。図１３のプログラムは、配列要素Ａ（Ｉ）、Ａ（Ｉ＋３）、Ａ（Ｉ＋４）、Ａ（Ｉ＋７）、Ａ（Ｉ＋１０）を用いた演算であり、隣接する配列要素の添字式の値の差が２以上である配列要素を用いたプログラムである。本実施形態では、図１４の１．に示すようにVyで指定されたベクトルレジスタの要素をSxで指定されたレジスタの値だけ左へシフトしてVxで指定されたベクトルレジスタに格納し、図１４の２．に示すようにVzで指定されたベクトルレジスタの先頭要素Sx個をVxで指定されたベクトルレジスタの最後尾の要素に格納する。

　図１４では、Sx=2の場合を示している。図１４では、Vyで指定されたベクトルレジスタをSxで指定されたレジスタの値（Sx=2）だけ左シフトしてVxに代入している。さらにVxの最後尾の要素にVzで指定されたベクトルレジスタの先頭要素Sx個（Sx=2）を結合している。

　例えば配列要素Ａ（Ｉ）から配列要素Ａ（Ｉ＋３）を生成するときには、Vyで指定されたベクトルレジスタをSxで指定されたレジスタの値（Sx=3）だけ左シフトしてVxに代入する。さらにVxの最後尾の要素にVzで指定されたベクトルレジスタの先頭要素Sx個（Sx=3）を結合する。以下同様に、添字式の値の差に対応する、Sxで指定されたレジスタの値だけ左シフトしてVxに代入し、Vxの最後尾の要素にVzで指定されたベクトルレジスタの先頭要素Sx個を結合する。このように、添字式の値の差に対応する、Sxで指定されたレジスタの値だけ左シフトしてVxに代入し、Vxの最後尾の要素にVzで指定されたベクトルレジスタの先頭要素Sx個を結合することで、Ａ（Ｉ＋４）、Ａ（Ｉ＋７）やＡ（Ｉ＋１０）についても同様にデータをロードすることができる。

　本実施形態によるコンパイル装置、コンパイル方法、及びコンパイルプログラムは、図１４に示すような複数要素シフト可能であるベクトル要素シフト命令を、ベクトル演算が可能なベクトル計算機が有していれば適用できる。また、ベクトル計算機がそのような命令を有していなくても、複数ベクトル要素シフト命令を生成することでも適用できる。

　（実施形態の効果）
　本実施形態のコンパイル装置、コンパイル方法、及びコンパイルプログラムによれば、第１実施形態と同様に、隣接するデータをロードするベクトルロード命令がソースプログラムに含まれる場合にはこのベクトルロード命令を、メモリアクセスを伴わないベクトル要素シフト命令に置き換える。メモリアクセスを伴わない命令は、ベクトルロード命令のようにメモリアクセスを伴う命令に比べて高速である。このベクトルロード命令の、メモリアクセスを伴わないベクトル要素シフト命令への置き換えによって、ベクトルロード命令の実行数を削減することができる。これにより、第１実施形態と同様に、プログラムを高速化することができる。

　さらに本実施形態のコンパイル装置、コンパイル方法、及びコンパイルプログラムによれば、ベクトル要素シフト命令により隣接するデータ要素を生成して、ベクトル長を変更することなく演算を実行することができる。これにより、ベクトル長を削減することなく効率的に演算を実行することができる。

　さらに本実施形態によれば、隣接する配列要素の添字式の値の差が２以上のプログラムにおいても、隣接するデータをロードするベクトルロード命令がソースプログラムに含まれる場合にはこのベクトルロード命令を、メモリアクセスを伴わないベクトル要素シフト命令に置き換えることができる。これにより、高速化が可能な対象プログラムの範囲を拡げることができる。なお、コンパイルプログラムを記録したプログラム記録媒体においても、上述した効果と同様の効果を奏することができる。

　〔第３実施形態〕
　次に、本発明の第３実施形態によるコンパイル装置、コンパイル方法、及びコンパイルプログラムについて、説明する。本実施形態によるコンパイル装置、コンパイル方法、及びコンパイルプログラムについて、上述した第１実施形態と同様な内容についてはその詳細な説明を省略して、相違点について説明する。上述した第１実施形態では、隣接する配列要素の添字式の値の差が１で値が増加するプログラムを例に説明したが、本発明はこれに限られない。例えば、添字式の値が減少するような場合においても適用できる。

　図１５は、本発明の第３実施形態が対象とするソースプログラムの一例である。図１６は、本発明の第３実施形態によるコンパイル方法を説明するための概念図である。図１５のプログラムは、配列要素Ａ（Ｉ）、Ａ（Ｉ－１）、Ａ（Ｉ－２）、Ａ（Ｉ－３）、Ａ（Ｉ－４）を用いた演算であり、隣接する配列要素の添字式の値が減少するような配列要素を用いたプログラムである。本実施形態では、図１６の１．に示すようにVyで指定されたベクトルレジスタの要素を１要素右へシフトしてVxで指定されたベクトルレジスタに格納し、図１６の２．に示すようにVxの先頭要素にVzで指定されたベクトルレジスタの先頭要素を結合する。

　例えば配列要素Ａ（Ｉ）から配列要素Ａ（Ｉ－１）を生成するときには、Vyで指定されたベクトルレジスタを１要素右シフトしてVxに代入する。さらにVxの先頭要素にVzで指定されたベクトルレジスタの先頭要素を結合する。以下同様に、右シフトしてVxに代入し、Vxの先頭要素にVzで指定されたベクトルレジスタの先頭要素を結合することで、Ａ（Ｉ－２）、Ａ（Ｉ－３）、Ａ（Ｉ－４）についても同様にデータをロードすることができる。

　本実施形態によるコンパイル装置、コンパイル方法、及びコンパイルプログラムは、図１とはシフト方向が逆となる図１６のようなベクトル要素シフト命令を、ベクトル演算が可能なベクトル計算機が有していれば適用できる。またベクトル演算が可能なベクトル計算機がそのような命令を有していなくても、配列要素Ａ（Ｉ）ではなく配列要素Ａ（Ｉ－４）を基点としてデータをロードすることでも適用できる。

　さらに本実施形態によれば、隣接する配列要素の添字式の値が減少するような配列要素を用いたプログラムにおいても、隣接するデータをロードするベクトルロード命令がソースプログラムに含まれる場合にはこのベクトルロード命令を、メモリアクセスを伴わないベクトル要素シフト命令に置き換えることができる。これにより、高速化が可能な対象プログラムの範囲を拡げることができる。なお、コンパイルプログラムを記録したプログラム記録媒体においても、上述した効果と同様の効果を奏することができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
ソースプログラムのループ中に隣接するデータへのアクセスが含まれる場合に、そのループがベクトル化可能であるかを判定するループ解析部と、
前記隣接するデータへのアクセスが含まれ、かつ、そのループがベクトル化可能である場合に、演算に必要となる要素をメモリからベクトルレジスタへ読み込むための命令を生成するベクトル化実行部と、を含む、
コンパイル装置。
（付記２）
前記ベクトル化実行部は、
演算に必要となる要素をメモリから前記ベクトルレジスタへ読み込むための命令を生成するベクトルロード命令生成手段と、
前記ベクトルレジスタへ読み込んだ要素を要素シフトしたベクトルデータを生成するベクトル要素シフト命令生成手段と、
演算を実行するための演算命令を生成するベクトル演算命令生成手段と、
演算結果を前記ベクトルレジスタからメモリへ書き込むためのベクトルストア命令を生成するベクトルストア命令生成手段と、を含む、
付記１に記載のコンパイル装置。
（付記３）
前記ベクトル要素シフト命令生成手段は、隣接する配列要素の添字式の値が増加する場合、指定された第１のベクトルレジスタのデータを値の増加数だけ左シフトして第２のベクトルレジスタに代入し、さらに次のベクトルレジスタの先頭要素から前記増加数と同数だけ最後尾に結合する、
付記２に記載のコンパイル装置。
（付記４）
前記ベクトル要素シフト命令生成手段は、隣接する配列要素の添字式の値が減少する場合、指定された第１のベクトルレジスタのデータを値の減少数だけ右シフトして第２のベクトルレジスタに代入し、さらに次のベクトルレジスタの先頭要素から前記減少数と同数だけ先頭要素に結合する、
付記２に記載のコンパイル装置。
（付記５）
前記ループ解析部は、
ループ中に隣接するデータへのアクセスが含まれているか認識する隣接データ認識手段と、
隣接するデータへのアクセスを含むループがベクトル化可能であるかを判定するベクトル化判定手段と、を含む、
付記１乃至付記４のいずれか一つに記載のコンパイル装置。
（付記６）
ソースプログラムのループ中に隣接するデータへのアクセスが含まれる場合に、そのループがベクトル化可能であるかを判定し、
前記隣接するデータへのアクセスが含まれ、かつ、そのループがベクトル化可能である場合に、演算に必要となる要素をメモリからベクトルレジスタへ読み込むためのベクトルロード命令を生成し、
前記ベクトルレジスタへ読み込んだ要素を要素シフトしたベクトルデータを生成するベクトル要素シフト命令を生成し、
演算を実行するためのベクトル演算命令を生成し、
演算結果を前記ベクトルレジスタからメモリへ書き込むためのベクトルストア命令を生成する、
コンパイル方法。
（付記７）
前記ベクトル要素シフト命令は、隣接する配列要素の添字式の値が増加する場合、指定された第１のベクトルレジスタのデータを値の増加数だけ左シフトして第２のベクトルレジスタに代入し、さらに次のベクトルレジスタの先頭要素から前記増加数と同数だけ最後尾に結合する、
付記６に記載のコンパイル方法。
（付記８）
前記ベクトル要素シフト命令は、隣接する配列要素の添字式の値が減少する場合、指定された第１のベクトルレジスタのデータを値の減少数だけ右シフトして第２のベクトルレジスタに代入し、さらに次のベクトルレジスタの先頭要素から前記減少数と同数だけ先頭要素に結合する、
付記６に記載のコンパイル方法。
（付記９）
コンピュータを、
ソースプログラムのループ中に隣接するデータへのアクセスが含まれる場合に、そのループがベクトル化可能であるかを判定するループ解析手段と、
前記隣接するデータへのアクセスが含まれ、かつ、そのループがベクトル化可能である場合に、演算に必要となる要素をメモリからベクトルレジスタへ読み込むための命令を生成するベクトル化実行手段と、して機能させる、
コンパイルプログラム。
（付記１０）
前記ベクトル化実行手段は、
演算に必要となる要素をメモリから前記ベクトルレジスタへ読み込むための命令を生成するベクトルロード命令生成手段と、
前記ベクトルレジスタへ読み込んだ要素を要素シフトしたベクトルデータを生成するベクトル要素シフト命令生成手段と、
演算を実行するための演算命令を生成するベクトル演算命令生成手段と、
演算結果を前記ベクトルレジスタからメモリへ書き込むためのベクトルストア命令を生成するベクトルストア命令生成手段と、を含む、
付記９に記載のコンパイルプログラム。
（付記１１）
前記ベクトル要素シフト命令生成手段は、隣接する配列要素の添字式の値が増加する場合、指定された第１のベクトルレジスタのデータを値の増加数だけ左シフトして第２のベクトルレジスタに代入し、さらに次のベクトルレジスタの先頭要素から前記増加数と同数だけ最後尾に結合する、
付記１０に記載のコンパイルプログラム。
（付記１２）
前記ベクトル要素シフト命令生成手段は、隣接する配列要素の添字式の値が減少する場合、指定された第１のベクトルレジスタのデータを値の減少数だけ右シフトして第２のベクトルレジスタに代入し、さらに次のベクトルレジスタの先頭要素から前記減少数と同数だけ先頭要素に結合する、
付記１０に記載のコンパイルプログラム。
（付記１３）
前記ループ解析手段は、
ループ中に隣接するデータへのアクセスが含まれているか認識する隣接データ認識手段と、
隣接するデータへのアクセスを含むループがベクトル化可能であるかを判定するベクトル化判定手段と、を含む、
付記９乃至付記１２のいずれか一つに記載のコンパイルプログラム。

　以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

　この出願は、２０２０年１２月１４日に出願された日本出願特願２０２０－２０６４１９を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１０　　ループ解析部
　１１　　隣接データ認識手段
　１２　　ベクトル化判定手段
　２０　　ベクトル化実行部
　２１　　ベクトルロード命令生成手段
　２２　　ベクトル要素シフト命令生成手段
　２３　　ベクトル演算命令生成手段
　２４　　ベクトルストア命令生成手段
　１００　　コンパイラ

Claims

　ソースプログラムのループ中に隣接するデータへのアクセスが含まれる場合に、そのループがベクトル化可能であるかを判定するループ解析手段と、
　前記隣接するデータへのアクセスが含まれ、かつ、そのループがベクトル化可能である場合に、演算に必要となる要素をメモリからベクトルレジスタへ読み込むための命令を生成するベクトル化実行手段と、を含む、
コンパイル装置。
　前記ベクトル化実行手段は、
　演算に必要となる要素をメモリから前記ベクトルレジスタへ読み込むための命令を生成するベクトルロード命令生成手段と、
　前記ベクトルレジスタへ読み込んだ要素を要素シフトしたベクトルデータを生成するベクトル要素シフト命令生成手段と、
　演算を実行するための演算命令を生成するベクトル演算命令生成手段と、
　演算結果を前記ベクトルレジスタからメモリへ書き込むためのベクトルストア命令を生成するベクトルストア命令生成手段と、を含む、
請求項１に記載のコンパイル装置。
　前記ベクトル要素シフト命令生成手段は、隣接する配列要素の添字式の値が増加する場合、指定された第１のベクトルレジスタのデータを値の増加数だけ左シフトして第２のベクトルレジスタに代入し、さらにベクトル次のレジスタの先頭要素から前記増加数と同数だけ最後尾に結合する、
請求項２に記載のコンパイル装置。
　前記ベクトル要素シフト命令生成手段は、隣接する配列要素の添字式の値が減少する場合、指定された第１のベクトルレジスタのデータを値の減少数だけ右シフトして第２のベクトルレジスタに代入し、さらに次のベクトルレジスタの先頭要素から前記減少数と同数だけ先頭要素に結合する、
請求項２に記載のコンパイル装置。
　前記ループ解析手段は、
　ループ中に隣接するデータへのアクセスが含まれているか認識する隣接データ認識手段と、
　隣接するデータへのアクセスを含むループがベクトル化可能であるかを判定するベクトル化判定手段と、を含む、
請求項１乃至請求項４のいずれか一項に記載のコンパイル装置。
　ソースプログラムのループ中に隣接するデータへのアクセスが含まれる場合に、そのループがベクトル化可能であるかを判定し、
　前記隣接するデータへのアクセスが含まれ、かつ、そのループがベクトル化可能である場合に、演算に必要となる要素をメモリからベクトルレジスタへ読み込むためのベクトルロード命令を生成し、
　前記ベクトルレジスタへ読み込んだ要素を要素シフトしたベクトルデータを生成するベクトル要素シフト命令を生成し、
　演算を実行するためのベクトル演算命令を生成し、
　演算結果を前記ベクトルレジスタからメモリへ書き込むためのベクトルストア命令を生成する、
コンパイル方法。
　前記ベクトル要素シフト命令は、隣接する配列要素の添字式の値が増加する場合、指定された第１のベクトルレジスタのデータを値の増加数だけ左シフトして第２のベクトルレジスタに代入し、さらに次のベクトルレジスタの先頭要素から前記増加数と同数だけ最後尾に結合する、
請求項６に記載のコンパイル方法。
　前記ベクトル要素シフト命令は、隣接する配列要素の添字式の値が減少する場合、指定された第１のベクトルレジスタのデータを値の減少数だけ右シフトして第２のベクトルレジスタに代入し、さらに次のベクトルレジスタの先頭要素から前記減少数と同数だけ先頭要素に結合する、
請求項６に記載のコンパイル方法。
　コンピュータを、
　ソースプログラムのループ中に隣接するデータへのアクセスが含まれる場合に、そのループがベクトル化可能であるかを判定するループ解析手段と、
　前記隣接するデータへのアクセスが含まれ、かつ、そのループがベクトル化可能である場合に、演算に必要となる要素をメモリからベクトルレジスタへ読み込むための命令を生成するベクトル化実行手段と、して機能させる、
コンパイルプログラムを記録したプログラム記録媒体。
　前記ベクトル化実行手段は、
　演算に必要となる要素をメモリから前記ベクトルレジスタへ読み込むための命令を生成するベクトルロード命令生成手段と、
　前記ベクトルレジスタへ読み込んだ要素を要素シフトしたベクトルデータを生成するベクトル要素シフト命令生成手段と、
　演算を実行するための演算命令を生成するベクトル演算命令生成手段と、
　演算結果を前記ベクトルレジスタからメモリへ書き込むためのベクトルストア命令を生成するベクトルストア命令生成手段と、を含む、
請求項９に記載のコンパイルプログラムを記録したプログラム記録媒体。
　前記ベクトル要素シフト命令生成手段は、隣接する配列要素の添字式の値が増加する場合、指定された第１のベクトルレジスタのデータを値の増加数だけ左シフトして第２のベクトルレジスタに代入し、さらに次のベクトルレジスタの先頭要素から前記増加数と同数だけ最後尾に結合する、
請求項１０に記載のコンパイルプログラムを記録したプログラム記録媒体。
　前記ベクトル要素シフト命令生成手段は、隣接する配列要素の添字式の値が減少する場合、指定された第１のベクトルレジスタのデータを値の減少数だけ右シフトして第２のベクトルレジスタに代入し、さらに次のベクトルレジスタの先頭要素から前記減少数と同数だけ先頭要素に結合する、
請求項１０に記載のコンパイルプログラムを記録したプログラム記録媒体。
　前記ループ解析手段は、
　ループ中に隣接するデータへのアクセスが含まれているか認識する隣接データ認識手段と、
　隣接するデータへのアクセスを含むループがベクトル化可能であるかを判定するベクトル化判定手段と、を含む、
請求項９乃至請求項１２のいずれか一項に記載のコンパイルプログラムを記録したプログラム記録媒体。