WO2021009885A1

WO2021009885A1 - 教師データ生成装置、教師データ生成方法および教師データ生成プログラム

Info

Publication number: WO2021009885A1
Application number: PCT/JP2019/028175
Authority: WO
Inventors: 山田　剛史
Original assignee: 日本電信電話株式会社
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2021-01-21
Also published as: JPWO2021009885A1; US20220277138A1

Abstract

文書にタグが付与された教師データを生成する教師データ生成処理において、算出部（１５ａ）が、文書の記載内容とタグに対応する文書の記載内容との関連度を算出する。付与部（１５ｂ）が、算出された関連度が所定の閾値以上の場合に、文書の記載内容の記載箇所にタグを付与する。

Description

教師データ生成装置、教師データ生成方法および教師データ生成プログラム

　本発明は、教師データ生成装置、教師データ生成方法および教師データ生成プログラムに関する。

　近年、非エンジニアが自然言語を用いて記載した設計書等の文書から、開発の要求条件に対する試験項目を自動的に抽出する技術が検討されている（特許文献１参照）。この技術は、例えば、機械学習（ＣＲＦ、Conditional　Random　Fields）の手法を用いて設計書の対象装置、入力、出力、状態、チェックポイント等の重要な記載部分にタグを付与し、付与されたタグの範囲から自動的に試験項目を抽出する。その場合には、タグが付与された設計書を教師データとして機械学習を行うことにより、設計書に自動的にタグが付与される。

特開２０１８－０１８３７３号公報

　しかしながら、従来、教師データには手動でタグが付与されているため、教師データの補充には、多大な稼働がかかっていた。

　本発明は、上記に鑑みてなされたものであって、文書に適切にタグを付与した教師データの補充を容易に行うことを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る教師データ生成装置は、文書に記載内容に応じたタグが付与された教師データを生成する教師データ生成装置であって、文書の記載内容とタグに対応する文書の記載内容との関連度を算出する算出部と、算出された前記関連度が所定の閾値以上の場合に、前記文書の記載内容の記載箇所に前記タグを付与する付与部と、を有することを特徴とする。

　本発明によれば、文書に適切にタグを付与した教師データの補充を容易に行うことが可能となる。

図１は、本実施形態の教師データ生成装置を含むシステムの処理概略を説明するための図である。図２は、本実施形態の教師データ生成装置を含むシステムの処理概略を説明するための図である。図３は、本実施形態の教師データ生成装置の概略構成を例示する模式図である。図４は、算出部の処理を説明するための図である。図５は、教師データ生成処理手順を示すフローチャートである。図６は、教師データ生成処理の効果を説明するための図である。図７は、教師データ生成プログラムを実行するコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［システムの処理］
　図１および図２は、本実施形態の教師データ生成装置を含むシステムの処理概要を説明するための図である。本実施形態の教師データ生成装置を含むシステムは、試験項目抽出処理を実行する。まず、図１に示すように、システムは、自然言語で書かれた設計書等の文書に、対象装置、入力、出力、状態、チェックポイント等の開発の要求条件等を示す重要な記載部分にタグ（ｔａｇ）を付与する。次に、システムは、文書のタグで示される範囲から、試験項目を自動的に抽出する（特許文献１参照）。

　具体的には、システムは、学習フェーズでは、重要な記載部分にタグが付与された文書を教師データとして機械学習を行って、教師データでのタグの付与の傾向を確率統計上の計算により学習し、学習結果として出力する。例えば、システムは、タグの位置や種別、前後の単語、文脈等によりタグ付与の傾向を学習する。

　また、システムは、試験フェーズでは、学習フェーズで得られた、教師データのタグ付与の傾向を示す学習結果を用いて、試験項目を抽出する試験項目抽出処理の対象の文書に自動的にタグを付与する。そして、システムは、文書のタグが付与された範囲から、試験項目を自動的に抽出する。

　ここで、図１にＡで示した学習フェーズでの処理において、教師データを人手により生成するには、多大な稼働を要する。そこで、本実施形態の教師データ生成装置は、文書に自動的にタグを付与して教師データを生成する。具体的には、教師データ生成装置は、図２に示すように、学習フェーズにおいて、付与するタグに対応する試験項目の記載が設計書のどの部分に該当するかを特定し、特定した部分に自動的にタグを付与して教師データを生成する。つまり、教師データ生成装置は、ＰＭＩ（Pointwise　Mutual　Information）の手法を用いて、試験項目の記載内容との関連度が高い設計書の部分を特定し、特定した部分に自動的にタグを付与して教師データを生成する。

　このように、教師データ生成装置は、文書に記載内容に応じたタグを適切に付与した教師データを自動的に生成し、教師データの補充を容易に行うことを可能とする。

［教師データ生成装置の構成］
　図３は、本実施形態の教師データ生成装置の概略構成を例示する模式図である。図３に例示するように、本実施形態の教師データ生成装置１０は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４、および制御部１５を備える。

　入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。例えば、出力部１２には、後述する教師データ生成処理の結果が表示される。

　通信制御部１３は、ＮＩＣ（Network　Interface　Card）等で実現され、ＬＡＮ（Local　Area　Network）やインターネットなどの電気通信回線を介した外部の装置と制御部１５との通信を制御する。例えば、通信制御部１３は、設計書等の開発に関する文書や試験項目等を管理する管理装置や、文書へのタグの付与傾向を学習して文書に自動的にタグを付与する付与装置や、文書のタグが付与された範囲から試験項目を抽出する抽出装置等と、制御部１５との通信を制御する。

　記憶部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４には、教師データ生成装置１０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。

　制御部１５は、ＣＰＵ（Central　Processing　Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図３に例示するように、算出部１５ａおよび付与部１５ｂとして機能する。なお、これらの機能部は、それぞれ異なるハードウェアに実装されてもよい。また、制御部１５は、その他の機能部を備えてもよい。

　算出部１５ａは、文書の記載内容とタグに対応する文書の記載内容との関連度を算出する。例えば、算出部１５ａは、入力部１１あるいは通信制御部１３を介して、タグを付与する設計書と、付与するタグに対応する試験項目とを取得する。また、算出部１５ａは、設計書の記載内容と、付与するタグに対応する試験項目の記載内容との関連度を、自己相互情報量ＰＭＩを用いて算出する。

　例えば、算出部１５ａは、文書内での単語の発生確率と、該単語のタグに対応する文書内での発生確率とを用いて、各単語の関連度を算出する。具体的には、算出部１５ａは、設計書内の各単語ｙとタグに対応する試験項目内に存在するという前提事象ｘとについて、次式（１）に示すＰＭＩを算出する。

　上記式（１）に示すように、ＰＭＩ（ｘ，ｙ）は、文書内での単語ｙの発生確率ｐ（ｙ）と、タグの範囲内での単語ｙの発生確率ｐ（ｙ｜ｘ）とを用いてそれぞれ算出される情報量の差分である。例えば、２０単語の文書内に単語ｙが１つ含まれている場合には、ｐ（ｙ）＝１／２０となる。また、単語ｙがタグの範囲内に存在しない場合には、ｐ（ｙ｜ｘ）＝０となる。この場合には、ＰＭＩ（ｘ、ｙ）＝４．３－∞＝－∞と算出される。

　ここで、ｐ（ｙ）＞Ｐ（ｙ｜ｘ）の場合には、ＰＭＩ値は負値となり、単語ｙのタグとの関連度が低いと定量評価される。また、ｐ（ｙ）＝Ｐ（ｙ｜ｘ）の場合には、ＰＭＩ値は０となり、単語ｙのタグ内外との関連度が等しいと定量評価される。また、ｐ（ｙ）＜Ｐ（ｙ｜ｘ）の場合には、ＰＭＩ値は正値となり、単語ｙのタグとの関連度が高いと定量評価される。すなわち、上記式（１）の情報量は、値が大きいほど関連度が高いことを表している。

　算出部１５ａは、設計書内の単語ごとに、設計書内の各単語ｙの出現数ｎ_ｙと設計書内の全単語数Ｘとを用いて、次式（２）に示すように、Ｐ（ｙ）を算出する。

　また、算出部１５ａは、タグに対応する試験項目内の単語ごとに、試験項目内でのｙの出現数ｎ_ｙ｜ｘと試験項目内の全単語数Ｗとを用いて、次式（３）に示すように、Ｐ（ｙ｜ｘ）を算出する。

　また、算出部１５ａは、文書の文を構成する各単語の関連度の平均値を、各文の関連度として算出する。例えば、文αが単語Ａ、Ｂ、Ｃ、Ｄで構成されていて、単語Ａ、Ｂ、Ｃ、ＣのそれぞれのＰＭＩ値が１、２、０．４、－１であった場合に、算出部１５ａは、各単語のＰＭＩ値の平均値（＝０．６）を、文αの関連度として算出する。

　このようにして、算出部１５ａは、付与するタグに対応する試験項目の記載内容と関連度が高い設計書の部分を特定することができる。ここで、図４は、算出部１５ａの処理を説明するための図である。図４に示す例では、算出部１５ａは、文単位で関連度の高低を所定の閾値判定により特定している。すなわち、算出部１５ａは、算出した関連度が所定の閾値以上の場合に、関連度高と特定する。また、算出部１５ａは、算出した関連度が所定の閾値未満の場合に、関連度低と特定する。

　図３の説明に戻る。付与部１５ｂは、算出された関連度が所定の閾値以上の場合に、文書の記載内容の記載箇所にタグを付与する。具体的には、付与部１５ｂは、関連度が所定の閾値以上と特定された設計書の記載箇所に、試験項目に対応するタグを付与する。例えば、付与部１５ｂは、図４に示した例において、試験項目の記載内容との関連度高と特定された文の範囲に、試験項目に対応するタグを付与して、教師データとする。

　このように、付与部１５ｂは、試験項目に対応するタグを設計書に付与して教師データを生成し、生成した教師データを出力する。例えば、付与部１５ｂは、出力部１２あるいは通信制御部１３を介して、文書にタグを自動的に付与する処理を行う付与装置に出力する。

　付与装置は、教師データを用いて文書へのタグの付与傾向を学習し、学習結果を用いて文書にタグを自動的に付与し、試験項目を抽出する抽出装置に出力する。抽出装置は、タグが付与された文書を用いて、タグで示される範囲について、同一または類似の部分の試験に関する統計情報を用いて自動的に試験項目を抽出する。

［教師データ生成処理］
　次に、図５を参照して、本実施形態に係る教師データ生成装置１０による教師データ生成処理について説明する。図５は、教師データ生成処理手順を示すフローチャートである。図５のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。

　まず、算出部１５ａが、文書の記載内容とタグに対応する試験項目の記載内容との関連度を算出する（ステップＳ１）。例えば、算出部１５ａは、文書内での単語の発生確率と、該単語のタグに対応する試験項目内での発生確率とを用いて、各単語の関連度を算出する。また、算出部１５ａは、文書の文を構成する各単語の関連度の平均値を、各文の関連度として算出する。

　そして、付与部１５ｂが、算出された関連度が所定の閾値以上の場合に、文書の記載内容の記載箇所にタグを付与する（ステップＳ２）。

　また、付与部１５ｂは、生成した教師データを出力する（ステップＳ３）。例えば、付与部１５ｂは、出力部１２あるいは通信制御部１３を介して、文書へのタグを自動的に付与する処理を行う付与装置に出力する。これにより、一連の教師データ生成処理が終了する。

　以上、説明したように、本実施形態の教師データ生成装置１０は、文書に記載内容に応じたタグが付与された教師データを生成する教師データ生成装置１０であって、算出部１５ａが、文書の記載内容とタグに対応する文書の記載内容との関連度を算出する。付与部１５ｂが、算出された関連度が所定の閾値以上の場合に、文書の記載内容の記載箇所にタグを付与する。

　これにより、教師データ生成装置１０は、文書にタグを適切に付与した教師データを自動的に生成し、文書へのタグの付与傾向を学習するための教師データの補充を容易に行うことが可能となる。

　また、算出部は、文書内での単語の発生確率と、該単語の前記タグに対応する文書内での発生確率とを用いて、各単語の関連度を算出する。これにより、教師データ生成装置１０は、例えば、関連度が高い単語が最多となる文書の範囲にタグを付与することができる。

　また、算出部は、文書の文を構成する各単語の関連度の平均値を、各文の関連度として算出する。これにより、教師データ生成装置１０は、文単位で関連度の高い文書の範囲にタグを付与することが可能となる。

　図６は、教師データ生成処理の効果を説明するための図である。図６には、文単位で試験項目の記載内容との関連度を算出した場合が、関連度の降順（高い順）に例示されている。この場合に、図６（ａ）に示すように、各文のＰＭＩ値すなわち各文を構成する単語のＰＭＩ値の平均値が高いほど、試験項目の対処処理または対象開発名と一致することがわかった。つまり、図６（ｂ）に示すように、文単位のＰＭＩ値が各文の試験項目の記載内容との関連度を反映していることが確認された。

［プログラム］
　上記実施形態に係る教師データ生成装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、教師データ生成装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の教師データ生成処理を実行する教師データ生成プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の教師データ生成プログラムを情報処理装置に実行させることにより、情報処理装置を教師データ生成装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）などの移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）などのスレート端末などがその範疇に含まれる。また、教師データ生成装置１０の機能を、クラウドサーバに実装してもよい。

　図７は、教師データ生成プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

　ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

　また、教師データ生成プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した教師データ生成装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

　また、教師データ生成プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、教師データ生成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、教師データ生成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

　１０　教師データ生成装置
　１１　入力部
　１２　出力部
　１３　通信制御部
　１４　記憶部
　１５　制御部
　１５ａ　算出部
　１５ｂ　付与部

Claims

　文書に記載内容に応じたタグが付与された教師データを生成する教師データ生成装置であって、
　文書の記載内容とタグに対応する文書の記載内容との関連度を算出する算出部と、
　算出された前記関連度が所定の閾値以上の場合に、前記文書の記載内容の記載箇所に前記タグを付与する付与部と、
　を有することを特徴とする教師データ生成装置。
　前記算出部は、前記文書内での単語の発生確率と、該単語の前記タグに対応する文書内での発生確率とを用いて、各単語の関連度を算出することを特徴とする請求項１に記載の教師データ生成装置。
　前記算出部は、前記文書の文を構成する各単語の前記関連度の平均値を、各文の関連度として算出することを特徴とする請求項２に記載の教師データ生成装置。
　文書に記載内容に応じたタグが付与された教師データを生成する教師データ生成装置で実行される教師データ生成方法であって、
　文書の記載内容とタグに対応する文書の記載内容との関連度を算出する算出工程と、
　算出された前記関連度が所定の閾値以上の場合に、前記文書の記載内容の記載箇所に前記タグを付与する付与工程と、
　を含んだことを特徴とする教師データ生成方法。
　文書に記載内容に応じたタグが付与された教師データを生成する処理において、
　文書の記載内容とタグに対応する文書の記載内容との関連度を算出する算出ステップと、
　算出された前記関連度が所定の閾値以上の場合に、前記文書の記載内容の記載箇所に前記タグを付与する付与ステップと、
　をコンピュータに実行させるための教師データ生成プログラム。