WO2021124488A1

WO2021124488A1 - 学習データ生成方法、学習データ生成装置及びプログラム

Info

Publication number: WO2021124488A1
Application number: PCT/JP2019/049661
Authority: WO
Inventors: いつみ斉藤; 京介西田; 久子浅野; 準二富田
Original assignee: 日本電信電話株式会社
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2021-06-24
Also published as: US20230026110A1; JPWO2021124488A1; JP7207571B2

Abstract

学習データ生成方法は、テキストデータに対して作成されている要約文の部分データを生成する生成手順と、前記部分データとの類似性に基づいて、前記テキストデータの一部分の文集合を前記テキストデータから抽出する抽出手順と、前記部分データと前記文集合との類似性に基づいて、要約文を生成するニューラルネットワークに対する学習データとして前記部分データを採用するか否かを判定する判定手順と、をコンピュータが実行することで、ニューラル要約モデルに対する学習データの収集を効率化する。

Description

学習データ生成方法、学習データ生成装置及びプログラム

　本発明は、学習データ生成方法、学習データ生成装置及びプログラムに関する。

　ニューラル要約モデルは、要約対象となるソーステキストと、要約の正解となる要約データとのペアデータを学習データとして必要とする。又は、当該ペアデータに対して更なるパラメータを学習データとして必要とするモデルも有る（例えば、非特許文献１）。いずれのモデルでも学習データが多いほど要約の精度は高くなる。

Gonc，alo M. Correia，Andre F. T. Martins、A Simple and Effective Approach to Automatic Post-Editing with Transfer Learning、Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3050-3056、July 28 - August 2, 2019.

　上記の学習データにおける要約の正解となる要約データは人手によって作成する必要がある。しかし、人手で作成された質の良い要約データを大量に集めることは高コストである。

　本発明は、上記の点に鑑みてなされたものであって、ニューラル要約モデルに対する学習データの収集を効率化することを目的とする。

　そこで上記課題を解決するため、学習データ生成方法は、テキストデータに対して作成されている要約文の部分データを生成する生成手順と、前記部分データとの類似性に基づいて、前記テキストデータの一部分の文集合を前記テキストデータから抽出する抽出手順と、前記部分データと前記文集合との類似性に基づいて、要約文を生成するニューラルネットワークに対する学習データとして前記部分データを採用するか否かを判定する判定手順と、をコンピュータが実行する。

　ニューラル要約モデルに対する学習データの収集を効率化することができる。

本発明の実施の形態における学習データ生成装置１０のハードウェア構成例を示す図である。本発明の実施の形態における学習データ生成装置１０の機能構成例を示す図である。学習データ生成装置１０が実行する処理手順の一例を説明するためのフローチャートである。部分データの一例を示す図である。プロトタイプテキストの抽出例を示す図である。ＲＯＵＧＥの計算例を示す図である。

　以下、図面に基づいて本発明の実施の形態を説明する。図１は、本発明の実施の形態における学習データ生成装置１０のハードウェア構成例を示す図である。図１の学習データ生成装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

　学習データ生成装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って学習データ生成装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

　図２は、本発明の実施の形態における学習データ生成装置１０の機能構成例を示す図である。図２において、学習データ生成装置１０は、部分データ生成部１１、プロトタイプテキスト抽出部１２及び判定部１３を有する。これら各部は、学習データ生成装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。

　部分データ生成部１１は、ソーステキスト（要約対象のテキストデータ）に対して作成されている要約文の部分データを生成する。

　プロトタイプテキスト抽出部１２は、当該部分データとの類似性に基づいて、ソーステキストの一部分の文集合（以下「プロトタイプテキスト」という。）をソーステキストから抽出する。

　判定部１３は、当該部分データとプロトタイプテキストとの類似性に基づいて、ニューラル要約モデルに対する学習データとして前記部分データを採用するか否かを判定する。なお、ニューラル要約モデルとは、入力文（ソーステキスト）に対する要約文を生成するニューラルネットワークをいう。

　なお、本実施の形態では、学習データとして、ソーステキスト及び正解の要約文に加え、３番目のパラメータを必要とするニューラル要約モデルに対する学習データが生成される。本実施の形態では、プロトタイプテキストが当該パラメータに該当する。

　以下、学習データ生成装置１０が実行する処理手順について説明する。図３は、学習データ生成装置１０が実行する処理手順の一例を説明するためのフローチャートである。

　ステップＳ１０１において、部分データ生成部１１は、ニューラル要約モデルに対する学習データにおける、要約対象のテキストデータ（以下「対象ソーステキスト」という。）に対して予め作成されている１つの要約文を示すデータ（以下、「対象要約データ」という。）を入力する。対象要約データは、１以上の文を含んでもよい。又は、対象要約データは１文以上の文集合のリスト形式のデータであってもよい。

　続いて、部分データ生成部１１は、対象要約データを文単位に分割し、分割後の各文を１以上組み合わせた（結合した）部分データを生成する（Ｓ１０２）。なお、対象要約データが、文集合のリストである場合には、当該文集合単位で分割され、１以上の文集合を組み合わせた部分データが生成されてもよい。

　図４は、部分データの一例を示す図である。図４では、リスト形式の対象要約データから生成された部分データの一例が示されている。図４において、部分データ１は、対象要約データの１文目のみを含む。部分データ２は、対象要約データの１文目及び２文目を含む。

　なお、他の文の組み合わせが部分データとして生成されてもよい。この際、対象要約データにおいて連続していない文同士の結合結果が部分データとされてもよい。また、対象要約データを構成する文の集合の全通りの組み合わせが部分データとして生成されてもよい。

　続いて、生成された部分データごとに、ステップＳ１０３～Ｓ１０６を含むループ処理Ｌ１が実行される。ループ処理Ｌ１において処理対象とされている部分データを、以下「対象部分データ」という。

　ステップＳ１０３において、プロトタイプテキスト抽出部１２は、対象ソーステキストにおいて、対象部分データとの類似性（一致性）が最も高い部分（１以上の文の集合）をプロトタイプテキストとして抽出する。

　図５は、プロトタイプテキストの抽出例を示す図である。図５では、部分データ１が対象部分データであり、対象ソーステキストの冒頭の一文が部分データ１に対するプロトタイプテキストとして抽出された例が示されている。

　例えば、プロトタイプテキスト抽出部１２は、対象部分データと対象ソーステキストの各文の類似度又は一致度（ＲＯＵＧＥ）を計算し、対象ソーステキスト中において最もＲＯＵＧＥが高くなる文集合をプロトタイプテキストとして抽出する。この際、学習済の抽出モデルを利用してプロトタイプテキストが抽出されてもよい。

　続いて、判定部１３は、プロトタイプテキストと対象部分データの類似度又は一致度（ＲＯＵＧＥ）を対象部分データのスコアとして計算する（Ｓ１０４）。この際、判定部１３は、プロトタイプテキスト及び対象部分データのそれぞれについて、図６に示されるように、形態素解析などを用いて単語分割を行っておき、ＲＯＵＧＥ－ＬのＦスコアを計算する。なお、図６の例において、ＲＯＵＧＥ－ＬのＦスコア＝０．８２４である。

　続いて、判定部１３は、スコア（Ｆスコア）と閾値とを比較する（Ｓ１０５）。当該スコアが閾値を超えていれば、判定部１３は、対象部分データを、対象ソーステキストに対する要約文としての学習データ（ニューラル要約モデルに対する学習データ）の構成要素として採用することを判定する（Ｓ１０６）。この場合、対象ソーステキスト、プロトタイプテキスト及び対象部分データの組が学習データとなる。

　一方、当該スコアが閾値以下であれば、判定部１３は、対象部分データを、対象ソーステキストに対する要約文の学習データの構成要素として採用しないことを判定する。

　例えば、上記のようにＦスコアが０．８２４である場合、閾値が０．５であれば、対象部分データは対象ソーステキストに対する要約文の学習データの構成要素として採用される。

　上述したように、本実施の形態によれば、ニューラル要約モデルに対する学習データとして予め作成されている要約文に基づいて、自動的に新たな要約文が学習データとして生成される（学習データを拡張することができる。）。したがって、ニューラル要約モデルに対する学習データの収集を効率化することができる。その結果、ニューラル要約モデルの精度の向上を期待することができる。

　なお、通常の生成型要約の場合は、内容の抽出と文の生成を同時に学習するため、一つのソーステキストから複数の要約パターンを生成し追加することはノイズとなり有効ではない。一方、抽出と生成を別々に学習し、生成時に抽出結果を参考としながら生成を行うモデルの場合、抽出結果からの書き換えを主に学習することになるため、一つのソーステキストから複数の要約データが生成されてもノイズとはならない（抽出モジュールによって内容をコントロールする。）。

　つまり、本実施の形態における学習データの拡張においては、抽出から生成への書き換えデータを拡張していると考えることもできる。この場合には、抽出結果との類似度が一定以上のデータであれば有効な学習データとして利用することで精度の向上が期待できる。

　なお、本実施の形態において、部分データ生成部１１は、生成部の一例である。プロトタイプテキスト抽出部１２は、抽出部の一例である。

　以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０　　　　　学習データ生成装置
１１　　　　　部分データ生成部
１２　　　　　プロトタイプテキスト抽出部
１３　　　　　判定部
１００　　　　ドライブ装置
１０１　　　　記録媒体
１０２　　　　補助記憶装置
１０３　　　　メモリ装置
１０４　　　　ＣＰＵ
１０５　　　　インタフェース装置
Ｂ　　　　　　バス

Claims

　テキストデータに対して作成されている要約文の部分データを生成する生成手順と、
　前記部分データとの類似性に基づいて、前記テキストデータの一部分の文集合を前記テキストデータから抽出する抽出手順と、
　前記部分データと前記文集合との類似性に基づいて、要約文を生成するニューラルネットワークに対する学習データとして前記部分データを採用するか否かを判定する判定手順と、
をコンピュータが実行することを特徴とする学習データ生成方法。
　前記判定手順は、前記部分データと前記文集合とのＲＯＵＧＥを計算し、前記ＲＯＵＧＥと閾値との比較に基づいて、前記学習データとして前記部分データを採用するか否かを判定する、
ことを特徴とする請求項１記載の学習データ生成方法。
　前記部分データは、前記要約文を構成する１以上の文の組み合わせである、
ことを特徴とする請求項１又は２記載の学習データ生成方法。
　テキストデータに対して作成されている要約文の部分データを生成する生成部と、
　前記部分データとの類似性に基づいて、前記テキストデータの一部分の文集合を前記テキストデータから抽出する抽出部と、
　前記部分データと前記文集合との類似性に基づいて、要約文を生成するニューラルネットワークに対する学習データとして前記部分データを採用するか否かを判定する判定部と、
を有することを特徴とする学習データ生成装置。
　前記判定部は、前記部分データと前記文集合とのＲＯＵＧＥを計算し、前記ＲＯＵＧＥと閾値との比較に基づいて、前記学習データとして前記部分データを採用するか否かを判定する、
ことを特徴とする請求項４記載の学習データ生成装置。
　前記部分データは、前記要約文を構成する１以上の文の組み合わせである、
ことを特徴とする請求項４又は５記載の学習データ生成装置。
　請求項１乃至３いずれか一項記載の学習データ生成方法をコンピュータに実行させることを特徴とするプログラム。