WO2022239179A1

WO2022239179A1 - プログラム生成装置、プログラム生成方法及びプログラム

Info

Publication number: WO2022239179A1
Application number: PCT/JP2021/018183
Authority: WO
Inventors: 利行倉林; 優吉村; 治門丹野
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-11-17

Abstract

プログラム生成装置は、所望のプログラムの仕様を自然言語で説明する文との類似度を、複数の第１のソースコードについて算出すると共に、前記第１のソースコードを構成する各トークンについて前記類似度の算出における注目度を算出する算出部と、前記類似度が相対的に高い前記第１のソースコードのうち、前記注目度が相対的に高いトークンと、予め用意された第２のソースコードとを合成して、複数の合成コードを生成する生成部と、を有することで、所望のプログラムが生成される確率を向上させる。

Description

プログラム生成装置、プログラム生成方法及びプログラム

　本発明は、プログラム生成装置、プログラム生成方法及びプログラムに関する。

　近年、社会全体のＩＴ化が進む一方で、ＩＴ人材の不足が大きな問題となっている。経済産業省の試算によると、２０２５年には約３６万人のＩＴ人材が不足すると予測されている。特に、専門的な知識を必要とする実装工程におけるＩＴ人材の不足は喫緊の課題であり、自動でプログラミングを行う自動プログラミング技術の研究開発が求められている。

　従来、生成したいプログラムの仕様を記述した自然言語と入出力例という２つの情報を用いることで、プログラムを自動生成する手法が存在する（非特許文献１）。非特許文献１では、まず、自然言語から類似プログラムの検索を行い、類似プログラムを取得する。続いて、そのプログラムをベースとして入出力例を満たすようにプログラム合成を行い、プログラムを自動生成する。非特許文献１の利点として、検索で取得した、正解プログラムに類似していると想定されるプログラムをひな形としてプログラム合成を行っているため、入出力例のみを用いたプログラム生成手法と比べて、オーバーフィットしたプログラムが生成されにくいといった点が挙げられる。

倉林利行他、"深層学習と遺伝的アルゴリズムを用いたプログラム自動生成"、ソフトウェアエンジニアリングシンポジウム2020論文集、［online］、インターネット＜ＵＲＬ：https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&page_id=13&block_id=8&item_id=206745&item_no=1＞

　しかしながら、プログラム合成は入出力例を満たすように無作為にプログラム部品を組み合わせる技術であるため、正解プログラムに類似しているプログラムをひな形として用いた場合でも、ひな形中の変更すべきでないトークンも変更されてしまう可能性があり、その場合に、正解プログラム（所望のプログラム）が生成できない可能性がある。

　本発明は、上記の点に鑑みてなされたものであって、所望のプログラムが生成される確率を向上させることを目的とする。

　そこで上記課題を解決するため、プログラム生成装置は、所望のプログラムの仕様を自然言語で説明する文との類似度を、複数の第１のソースコードについて算出すると共に、前記第１のソースコードを構成する各トークンについて前記類似度の算出における注目度を算出する算出部と、前記類似度が相対的に高い前記第１のソースコードのうち、前記注目度が相対的に高いトークンと、予め用意された第２のソースコードとを合成して、複数の合成コードを生成する生成部と、を有する。

　所望のプログラムが生成される確率を向上させることができる。

本発明の実施の形態におけるプログラム生成装置１０のハードウェア構成例を示す図である。本発明の実施の形態におけるプログラム生成装置１０の機能構成例を示す図である。類似度算出モデルｍ１の学習処理の処理手順の一例を説明するためのフローチャートである。検索用データセットの一例を示す図である。類似度算出モデルｍ１の学習を説明するための図である。プログラムの自動生成処理の処理手順の一例を説明するためのフローチャートである。対象説明文の一例を示す図である。類似コードの検索の様子を示す図である。テンプレートの生成例を示す図である。入出力例セットの一例を示す図である。プログラム部品リストの一例を示す図である。テンプレートを利用して生成される合成コードの一例を示す図である。

　以下、図面に基づいて本発明の実施の形態を説明する。図１は、本発明の実施の形態におけるプログラム生成装置１０のハードウェア構成例を示す図である。図１のプログラム生成装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、インタフェース装置１０５、表示装置１０６、及び入力装置１０７等を有する。

　プログラム生成装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従ってプログラム生成装置１０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１０６はプログラムによるＧＵＩ（Graphical User Interface）等を表示する。入力装置１０７はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。

　図２は、本発明の実施の形態におけるプログラム生成装置１０の機能構成例を示す図である。図２において、プログラム生成装置１０は、学習部１１、類似コード検索部１２、テンプレート生成部１３及びプログラム合成部１４を有する。これら各部は、プログラム生成装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。

　なお、図２における類似度算出モデルｍ１とは、プログラムの仕様を自然言語で説明する文（説明文）と、プログラムのソースコードとの類似度を算出するモデル（ニューラルネットワーク）である。

　以下、プログラム生成装置１０が実行する処理手順について説明する。図３は、類似度算出モデルｍ１の学習処理の処理手順の一例を説明するためのフローチャートである。

　ステップＳ１０１において、学習部１１は、例えば、補助記憶装置１０２に記憶されている検索用データセットから無作為に２つ（２組）の説明文付きプログラムを取得する。

　図４は、検索用データセットの一例を示す図である。図４において、破線で囲まれた単位が、１つの説明文付きプログラムである。説明文付きプログラムは、プログラムのソースコードと、当該プログラムの仕様を自然言語（本実施の形態では日本語）で説明する文（説明文）とを対応付けて含むデータをいう。すなわち、検索用データセットのデータ構造をＢＮＦ（Backus-Naur form）記法に基づく形式によって記すと以下の通りである。
＜検索用データセット＞：：＝［説明文　ソースコード］＋
　複数の説明文付きプログラムが予め検索用データセットとして用意されている。ステップＳ１０１では、複数の説明文付きプログラムの中から、無作為に２つの説明文付きプログラムの組が取得される。但し、２回目以降のステップＳ１０１では、既に取得された組み合わせ以外の２組が取得される。なお、類似度算出モデルｍ１の学習処理において、検索用データセットは、類似度算出モデルｍ１の学習用データセットとして利用される。

　続いて、学習部１１は、２つの説明文付きプログラムのそれぞれに含まれるソースコードの構造の類似度（以下、「類似度Ｘ」という。）を算出する（Ｓ１０２）。例えば、Tree Edit Distanceが類似度Ｘの指標として用いられてもよい。

　続いて、学習部１１は、２つの説明文付きプログラムのうちの一方の説明文付きプログラムの説明文をベクトル化した結果と、他方の説明文付きプログラムのソースコードをベクトル化した結果とのコサイン類似度（以下、「類似度Ｙ」という。）が、類似度Ｘに近付くように（例えば、類似度Ｙと類似度Ｘとの差分が小さくなるように）類似度算出モデルｍ１を学習（類似度算出モデルｍ１のモデルパラメータを更新）する（Ｓ１０３）。類似度算出モデルｍ１は、深層学習モデルを用いたプログラム検索手法などで使用されるモデル等を用いて実現することができる。当該モデルは、「Yao Wan, Jingdong Shu, Yulei Sui, Guandong Xu, Zhou Zhao, Jian Wu, and Philip S. Yu. Multi-modal attention network learning for semantic source code retrieval. In Proceedings of the 34th IEEE/ACM International Con-ference on Automated Software Engineering, ASE '19,p. 13{25. IEEE Press, 2019.URL:https://dl.acm.org/doi/abs/10.1109/ASE.2019.00012」に詳しい。

　図５は、類似度算出モデルｍ１の学習を説明するための図である。図５に示されるように、類似度算出モデルｍ１は、ニューラルネットワークＬ１、Ａｔｔｅｎｔｉｏｎ層Ｌ２、ニューラルネットワークＬ３及びＡｔｔｅｎｔｉｏｎ層Ｌ４等を含む。

　ニューラルネットワークＬ１は、説明文の各単語を所定次元数（例えば、５１２次元）のベクトル（以下、「ベクトルｖ１」という。）へ変換するニューラルネットワークである。例えば、説明文がＪ個の単語を含めば、Ｊ個のベクトルｖ１がニューラルネットワークＬ１から出力される。

　Ａｔｔｅｎｔｉｏｎ層Ｌ２は、Ｊ個のベクトルｖ１を入力とし、１つのベクトル（以下、「ベクトルｖ２」という。）を出力するニューラルネットワークである。Ａｔｔｅｎｔｉｏｎ層Ｌ２は、Ａｔｔｅｎｔｉｏｎ層Ｌ２の重みパラメータによって、各ベクトルｖ１に対して重み付けを行って、１つのベクトルｖ２を生成する。

　ニューラルネットワークＬ２は、ソースコードの各トークンを所定次元数（例えば、５１２次元）のベクトル（以下、「ベクトルｖ３」という。）へ変換するニューラルネットワークである。例えば、説明文がＫ個のトークンを含めば、Ｋ個のベクトルｖ２がニューラルネットワークＬ２から出力される。

　Ａｔｔｅｎｔｉｏｎ層Ｌ４は、Ｋ個のベクトルｖ３を入力とし、１つのベクトル（以下、「ベクトルｖ４」という。）を出力するニューラルネットワークである。Ａｔｔｅｎｔｉｏｎ層Ｌ４は、Ａｔｔｅｎｔｉｏｎ層Ｌ４の重みパラメータによって、各ベクトルｖ１及び各ベクトルｖ３に対して重み付けを行って、１つのベクトルｖ４を生成する。この重み付けにおける重みのうち、各ベクトルｖ３に対する重みが、ベクトルｖ４の算出における（ひいては類似度Ｙの算出における）、ソースコードの各トークンに対する注目度に相当する。

　ステップＳ１０３において、学習部１１は、ベクトルｖ２とベクトルｖ４とのコサイン類似度（類似度Ｙ）が類似度Ｘに近付くように、ニューラルネットワークＬ１、ニューラルネットワークＬ２、Ａｔｔｅｎｔｉｏｎ層Ｌ３及びＡｔｔｅｎｔｉｏｎ層Ｌ４を学習する。

　続いて、学習部１１は、検索用データセットにおける説明文付きプログラムの全通りの２組についてステップＳ１０１以降が実行されたか否かを判定する（Ｓ１０４）。未処理の２組が有る場合（Ｓ１０４でＮｏ）、ステップＳ１０１以降が繰り返される。この際、ステップＳ１０１では、既に処理対象とされた２組以外の２組の説明文付きプログラムが取得される。

　全通りの２組ついてステップＳ１０１以降が実行されると（Ｓ１０４でＹｅｓ）、学習部１１は、ステップＳ１０１～Ｓ１０４の実行回数が所定のエポック数に達したか否かを判定する（Ｓ１０５）。当該実行回数が所定のエポック数未満である場合（Ｓ１０５でＮｏ）、ステップＳ１０１以降が全ての組み合わせについて繰り返される。当該実行回数が所定のエポック数に達した場合（Ｓ１０５でＹｅｓ）、学習部１１は、類似度算出モデルｍ１の学習を終了する。なお、類似度算出モデルｍ１の学習の収束状況（例えば、類似度Ｘと類似度Ｙとの差分）に対して学習の終了条件が設定されてもよい。

　類似度算出モデルｍ１の学習が終了すると、図６の処理手順の実行が可能となる。図６は、プログラムの自動生成処理の処理手順の一例を説明するためのフローチャートである。

　ステップＳ２０１において、類似コード検索部１２は、所望の（生成対象の）プログラム（以下、「対象プログラム」という。）の仕様を自然言語で記述した文（以下、「対象説明文」という。）を取得する。対象説明文は、ステップＳ２０１のタイミングで入力されてもよいし、予め補助記憶装置１０２等に記憶されていてもよい。図７に、対象説明文の一例を示す。

　続いて、類似コード検索部１２は、学習済みの類似度算出モデルｍ１を利用して、対象説明文との類似度Ｙが相対的に高いソースコード（以下、「類似コード」という）を検索用データセットの中から検索する（Ｓ２０２）。具体的には、類似コード検索部１２は、類似度算出モデルｍ１を利用して、検索用データセットに含まれる各ソースコードと対象説明文との類似度Ｙを算出し、類似度Ｙが上位Ｓ件（Ｓ≧１）のソースコードを類似コードとして特定する。なお、類似度Ｙの算出の過程において、類似度Ｙの算出対象とされたソースコードの各トークンに対する注目度が、類似度算出モデルｍ１のＡｔｔｅｎｔｉｏｎ層Ｌ４によって算出される。類似コード検索部１２は、類似コードごとに、当該類似コードと、当該類似コードの各トークンの注目度を示す注目度情報とを出力する。

　図８は、類似コードの検索の様子を示す図である。注目度情報の形式をＢＮＦ記法に基づく形式によって記すと以下の通りである。
＜注目度情報＞：：＝［トークン　注目度］＋
　図８の例において、注目度情報は、各トークンに対して「（注目度）」の形式で、０～１の範囲の注目度が付与された情報である。

　なお、ステップＳ２０２では、検索用データセットの各説明文付きプログラムの説明文は利用されない。したがって、ステップＳ２０２の検索対象は、学習時と同じデータセットでなくてもよく、単なるプログラムのソースコードの集合に対してステップＳ２０２の検索が行われてもよい。

　続いて、テンプレート生成部１３は、類似コードにおいて注目度が閾値以上であるトークンを固定部分としたソースコードを、テンプレートとして生成する（Ｓ２０３）。類似コードが複数検索されている場合、複数のテンプレートが生成される。

　図９は、テンプレートの生成例を示す図である。図９には、注目度に対する閾値が０．７である場合のテンプレートの生成例が示されている。この場合、生成されるテンプレートにおいて、「ｍｕｌｔｉｐｌｙ」が固定される。テンプレートの形式をＢＮＦ記法に基づく形式によって記すと以下の通りである。
＜テンプレート＞：：＝［固定トークン　ｏｒ　非固定トークン］＋
　図９では、下線部分が固定トークンに相当し、それ以外が非固定トークンに相当する。なお、固定トークンであるか否かは、下線の付与以外の方法によって識別されてもよい。

　続いて、プログラム合成部１４は、テンプレート生成部１３によって生成された各テンプレートを合成コードとして（Ｓ２０４）、ステップＳ２０５及びＳ２０６を含むループ処理Ｌ１を合成コードごとに実行する。以下、ループ処理Ｌ１において処理対象とされている合成コードを「対象コード」という。

　ステップＳ２０５において、プログラム合成部１４は、対象コードをコンパイル及びリンク等することで、実行形式のプログラム（以下「合成プログラム」という。）を生成する。

　続いて、プログラム合成部１４は、当該合成プログラム（以下「対象合成プログラム」という。）に対し、入出力例セットに含まれる各入出力例を入力して対象合成プログラムを実行し、入出力例ごとに出力を得る（Ｓ２０６）。

　図１０は、入出力例セットの一例を示す図である。入出力例セットは、入出力に関して対象プログラムが満たすべき条件を示す情報である。入出力例セットの各入出力例は、対象プログラムに対する入力の値と、当該入力に対して対象プログラムが出力すべき出力の値とを含む。なお、入出力例セットのデータ構造をＢＮＦ記法に基づく形式によって記すと以下の通りである。
＜入出力例セット＞：：＝＜入出力例＞＋
＜入出力例＞：：＝＜入力例＞＜出力例＞
＜入力例＞：：＝入力値＋
＜出力例＞：：＝出力値＋
　すなわち、入出力例セットは１以上の入出力例を含む。１つの入出力例は入力例及び出力例の組である。入力例とは１以上の入力値をいい、出力例とは１以上の出力値をいう。

　例えば、入出力例セットに含まれる入出力例がＭ個である場合、プログラム合成部１４は、ステップＳ２０６において、Ｍ個の入力値ごとに当該入力値を入力として対象合成プログラムを実行し、Ｍ個の出力値を得る。

　ループ処理Ｌ１が終了すると、プログラム合成部１４は、全ての入出力例を満たす合成プログラムの有無を判定する（Ｓ２０７）。すなわち、ループ処理Ｌ１において処理対象とされた合成プログラムの中で、ステップＳ２０６において得られた全ての出力値が期待通りであった（正しかった）合成プログラムの有無が判定される。

　該当する合成プログラムが無い場合（Ｓ２０７でＮｏ）、プログラム合成部１４は、例えば、予め用意されて補助記憶装置１０２に記憶されているプログラム部品リストの中の１以上のプログラム部品を、例えば、ランダムに選択して、テンプレートにおいて固定されていない部分（非固定トークン）に対して合成することで（非固定トークンをプログラム部品によって置換することで）、１つのテンプレートに基づいて複数（例えば、Ｎ個）の合成コードを生成する（Ｓ２０８）。

　図１１は、プログラム部品リストの一例を示す図である。図１１に示されるプログラム部品リストのデータ構造をＢＮＦ記法に基づく形式によって記すと以下の通りである。
＜プログラム部品リスト＞：：＝プログラム部品＋
　すなわち、プログラム部品リストは、１以上のプログラム部品（のソースコード）を含む。図１１では、定数とメソッドとにプログラム部品が分類されている。ここで、１つの定数が１つのプログラム部品に相当し、１つのメソッドが１つのプログラム部品に相当する。すなわち、図１１において破線で囲まれた単位が、１つのプログラム部品の単位に相当する。

　また、図１２は、テンプレートを利用して生成される合成コードの一例を示す図である。図１２の各合成コードは、図９に示した固定トークンを含む。換言すれば、当該固定トークンと、プログラム部品との合成によって新たな合成コードが生成される。

　なお、プログラム部品の合成とは、複数のプログラム部品の計算が組み合わされることをいい、例えば、遺伝的プログラミング等の公知技術を用いて行うことができる。例えば、各プログラム部品を、演算子を親ノードとし、当該演算子による演算対象である変数、定数、又は演算子を子ノードとする木構造によって表現し、いずれかのプログラム部品の木構造のノードを、他のプログラム部品の木構造によって置換することで、これらのプログラム部品を合成することができる。なお、合成コードは、プログラム部品と同様に、値を入力とし、入力された値に関する計算を実行し、値の計算結果を出力するといった定義を含む。

　続いて、プログラム合成部１４は、ループ処理Ｌ１以降を繰り返す。

　一方、全ての入出力例を満たす合成プログラムが生成されると（Ｓ２０７でＹｅｓ）、プログラム合成部１４は、当該合成プログラムに係る合成コードを、対象プログラムのソースコードとして出力する（Ｓ２０９）。本実施の形態では、図１０の入出力例を満たすソースコードとして、図１２の２番目の合成コード（ｈｏｇｅ２）が出力される。

　上述したように、本実施の形態によれば、所望の仕様の説明文に類似するソースコードに基づいて合成コードが生成される。更に、当該ソースコードのうち、類似度に対する寄与が高い（注目度が高い）重要なトークンに対してプログラム部品が合成されて合成コードが生成される。したがって、重要なトークンが合成時に失われることを防ぐことができ、結果として所望のプログラムが生成される確率を向上させることができる。

　なお、本実施の形態において、類似コード検索部１２は、算出部の一例である。プログラム合成部１４は、生成部の一例である。

　以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０　　　　　プログラム生成装置
１１　　　　　学習部
１２　　　　　類似コード検索部
１３　　　　　テンプレート生成部
１４　　　　　プログラム合成部
１００　　　　ドライブ装置
１０１　　　　記録媒体
１０２　　　　補助記憶装置
１０３　　　　メモリ装置
１０４　　　　ＣＰＵ
１０５　　　　インタフェース装置
１０６　　　　表示装置
１０７　　　　入力装置
Ｂ　　　　　　バス

Claims

　所望のプログラムの仕様を自然言語で説明する文との類似度を、複数の第１のソースコードについて算出すると共に、前記第１のソースコードを構成する各トークンについて前記類似度の算出における注目度を算出する算出部と、
　前記類似度が相対的に高い前記第１のソースコードのうち、前記注目度が相対的に高いトークンと、予め用意された第２のソースコードとを合成して、複数の合成コードを生成する生成部と、
を有することを特徴とするプログラム生成装置。
　前記算出部は、プログラムの仕様を自然言語で説明する文とプログラムのソースコードとの類似度と、当該ソースコードを構成する各トークンについて前記類似度の算出における注目度とを算出するニューラルネットワークを用いて、前記所望のプログラムの仕様を自然言語で説明する文と、前記第１のソースコードとの類似度と、前記第１のソースコードを構成する各トークンの注目度とを算出する、
ことを特徴とする請求項１記載のプログラム生成装置。
　プログラムのソースコードと当該プログラムの仕様を自然言語で説明する文との組を含む学習用データの集合のうちの第１の学習用データの文と第２の学習用データのソースコードとについて前記ニューラルネットワークが算出する前記類似度が、前記第１の学習用データの前記ソースコードと第２の学習用データのソースコードとの類似度に近付くように前記ニューラルネットワークを学習する学習部、
を有することを特徴とする請求項２記載のプログラム生成装置。
　所望のプログラムの仕様を自然言語で説明する文との類似度を、複数の第１のソースコードについて算出すると共に、前記第１のソースコードを構成する各トークンについて前記類似度の算出における注目度を算出する算出手順と、
　前記類似度が相対的に高い前記第１のソースコードのうち、前記注目度が相対的に高いトークンと、予め用意された第２のソースコードとを合成して、複数の合成コードを生成する生成手順と、
をコンピュータが実行することを特徴とするプログラム生成方法。
　前記算出手順は、プログラムの仕様を自然言語で説明する文とプログラムのソースコードとの類似度と、当該ソースコードを構成する各トークンについて前記類似度の算出における注目度とを算出するニューラルネットワークを用いて、前記所望のプログラムの仕様を自然言語で説明する文と、前記第１のソースコードとの類似度と、前記第１のソースコードを構成する各トークンの注目度とを算出する、
ことを特徴とする請求項４記載のプログラム生成方法。
　プログラムのソースコードと当該プログラムの仕様を自然言語で説明する文との組を含む学習用データの集合のうちの第１の学習用データの文と第２の学習用データのソースコードとについて前記ニューラルネットワークが算出する前記類似度が、前記第１の学習用データの前記ソースコードと第２の学習用データのソースコードとの類似度に近付くように前記ニューラルネットワークを学習する学習手順、
をコンピュータが実行することを特徴とする請求項５記載のプログラム生成方法。
　請求項４乃至６いずれか一項記載のプログラム生成方法をコンピュータに実行させることを特徴とするプログラム。