WO2024053100A1

WO2024053100A1 - データ生成装置、学習装置、データ生成方法、及びプログラム

Info

Publication number: WO2024053100A1
Application number: PCT/JP2022/033925
Authority: WO
Inventors: 真理子川場; いつみ斉藤; 京介西田; 邦子齋藤
Original assignee: 日本電信電話株式会社
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2024-03-14

Abstract

ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置であって、学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成する生成部と、前記生成部により生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する決定部とを備える。

Description

データ生成装置、学習装置、データ生成方法、及びプログラム

　本発明は、所望の出力長で要約を生成する技術に関連するものである。

　近年、大規模なドキュメントの概要を効率よく把握する、大規模なドキュメントから読むべき情報を取捨選択する、などのために要約を利用したいというニーズがある。そのため、要約を生成するＡＰＩサービスなどが盛んにリリースされている。

　また、ユーザが所望する長さで要約を作成したいというニーズがあり、要約システムは出力長を指定できるものが多い。任意の出力長で要約を得るためには、学習のためにそれに応じた長さの要約を有する学習データを用意する必要がある。

Alexander R. Fabbri. Simeng Hany, Haoyuan LiHaoran Li. Marjan Ghazvininejad, Shafiq Joty,Dragomir Radev, Yashar Mehdad: Improving Zero and Few-Shot Abstractive Summarization with Intermediate Fine-tuning and Data Augmentation （Alexander R. Fabbri, arXiv:2010.12836）

　しかし、ソーステキストと要約とから構成される既存の学習データのセットにおいて、要約の長さの種類には限りや偏りがある。そのため、既存の学習データでは、任意の出力長で要約を得るためのモデルを十分に学習することが難しい。

　非特許文献１には、Wikipediaの前半を要約として利用し、後半をソーステキストとなるように、Wikipediaの１ページを分割してソーステキストと要約を作ることで疑似的な学習データ（疑似データと呼ぶ）を作成する技術が開示されている。しかし、この技術は、Wikipediaのように前半に要約的な記載があるテキストにしか利用できない。

　本発明は上記の点に鑑みてなされたものであり、任意の長さの要約を生成するためのモデルの学習に使用するデータを生成するための技術を提供することを目的とする。

　開示の技術によれば、ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置であって、
　学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成する生成部と、
　前記生成部により生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する決定部と
　を備えるデータ生成装置が提供される。

　開示の技術によれば、任意の長さの要約を生成するためのモデルの学習に使用するデータを生成するための技術が提供される。

データ生成装置の構成図である。データ生成装置の動作を示すフローチャートである。度数分布の例を示す図である。度数分布の例を示す図である。学習装置の構成図である。生成装置の構成図である。装置のハードウェア構成例を示す図である。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　本実施の形態では、前述した課題を解決するために、学習データに含まれない長さの要約でも生成できるように、要約の長さに欠落がないような疑似的な学習データを生成することで、学習データの拡張を行う。具体的には、ソーステキストから重要な文を抽出することで、任意の長さの要約を作成することとしている。

　以下、本実施の形態における装置の構成及び動作を、実施例１、２において詳細に説明する。

　なお、実施例で使用する「学習データ」は、ソーステキストと、それに対応する要約であるターゲットテキストとが対になったデータである。学習データの集合を学習データセットと呼ぶ。「ソーステキスト」は、要約の元となるテキストである。「テキスト」は、文字の列（途中に記号が含まれていてもよい）である。

　また、「抽出型要約」は、ソーステキストから任意の数の文を抽出し、抽出された１以上の文をまとめて要約とする要約の方法である。「抽出型要約」は、ソーステキストにおける文の抜粋により要約を作成するものなので、ソーステキストに含まれない語は要約に現れない。

　「生成型要約」は、ソーステキストを参考にしながら、任意の文字数で新たなテキストを機械的に生成し、要約とする。テキストを機械が生成するため、ソーステキストに含まれない語が出現することもある。

　実施例で使用する「疑似データ」は、ソーステキストと、当該ソーステキストから抽出型要約により得られた要約であるターゲットテキスト（疑似的なターゲットテキストと呼んでもよい）とが対になったデータである。なお、「疑似データ」生成のために使用する要約方法は、抽出型要約に限定されるわけではない。疑似データの集合を疑似データセットと呼ぶ。

　なお、疑似データは学習に使用されるため、学習データの一種であるが、以下の説明では、特に断らない限り、「学習データ」を予め用意された既存の学習データの意味で使用する。疑似データを、疑似的な学習データと呼んでもよい。

　（実施例１：疑似データ生成）
　まず、実施例１を説明する。実施例１では、疑似データの生成について説明する。以下の説明では、疑似データのソーステキストとして、学習データのソーステキストを使用しているが、これは一例である。疑似データのソーステキストとして、学習データのソーステキスト以外のテキストを使用してもよい。

　図１に、データ生成装置１００の構成例を示す。図１に示すように、データ生成装置１００は、入力部１１０、生成部１２０、決定部１３０、出力部１４０、データ格納部１５０を備える。

　図２のフローチャートの手順に沿って、上記構成を備えるデータ生成装置１００の動作例を説明する。

　＜Ｓ１０１、Ｓ１０２：入力、要約作成＞
　Ｓ１０１において、入力部１１０から学習データセットを入力する。入力された学習データセットは、データ格納部１５０に格納される。Ｓ１０２において、生成部１２０が、学習データのソーステキストから要約（疑似的なターゲットテキスト）を生成する。具体的には下記のとおりである。

　学習データのソーステキストの文数をＮｉｎｐとし、そのソーステキストを持つ疑似データにおける疑似的なターゲットテキストの最大目標文数をＮとしたとき、ＮをＮｉｎｐより大きくならない範囲で定める。一例として、Ｎ＝Ｎｉｎｐ／２とする。つまり、Ｎｉｎｐを２で割った値をＮとする。

　生成部１２０は、要約生成の元となるソーステキストごとに、例えば「Ｎ＝Ｎｉｎｐ／２」によりＮを計算する。

　生成部１２０は、ソーステキストからＮ以下の文を抽出して、疑似的なターゲットテキストを作成するので、Ｎ文取得したときの文字数の最大が疑似的なターゲットテキストの最大の長さ（文字数）となる。従って、例えば「Ｎ＝Ｎｉｎｐ／２」でＮを算出する場合、疑似的なターゲットテキストは最大でソーステキストの半分程度の文字数となる。目標とする出力長（要約の文字数）に合わせてＮの値を調節することとしてよい。

　生成部１２０は、データ格納部１５０からソーステキストを読み出し、抽出型要約を用いて、目標文数を指定して、当該ソーステキストに対する疑似的なターゲットテキスト（要約）を生成し、当該ソーステキストと疑似的なターゲットテキストからなるデータを疑似データとしてデータ格納部１５０に格納する。

　目標文数を指定した抽出型要約を行う方法自体は既存技術であり、どのような既存技術を使用してもよい。例えば、ニューラルネットワークのモデルを用いて抽出型要約を行う方法を使用してもよい。具体的には、「特開２０２０－１４０６２９号公報」に開示された方法を使用してもよい。

　目標文数を指定した抽出型要約においては、例えば、ソーステキスト中の各文の重要度を推定し、重要度が高い文（例えば重要度が閾値以上の文）を抽出することで要約を生成する。目標文数を指定した抽出型要約において、生成される要約の文数は、目標文数になる。ただし、目標文数を指定した抽出型要約において、生成される要約の文数が、目標文数よりも小さい（あるいは大きい）場合があってもよい。

　また、生成部１２０による要約（疑似的なターゲットテキスト）の作成方法は、抽出型要約に限定されるわけではなく、生成型要約を用いてもよい。この場合、指定した目標文数の文からなる要約を生成するように学習された生成型要約を使用する。

　また、生成部１２０による要約作成において指定する数は、目標文数に限定されるわけではなく、目標文数に代えて、目標文字数を指定してもよい。

　生成部１２０は、抽出型要約によりソーステキストから疑似的なターゲットテキストを生成する際に、目標文数として、１からＮの範囲の文数をランダムに指定する。例えば、ソーステキストＡには、目標文数として１３が指定され、ソーステキストＢには、目標文数として９が指定される、といったようにして、ソーステキストごとにランダムな目標文数が指定される。なお、ランダムな目標文数の指定に関して、ある確率分布（例：正規分布）に従うように目標文数をランダムに指定してもよい。

　また、生成部１２０は、１つのソーステキストに対して、１からＮの範囲の値を複数回指定することで、１つのソーステキストから２つ以上の疑似的なターゲットテキストを作成してもよい。

　例えば、ソーステキストＡとソーステキストＢに関して、１つのソーステキストから２つの疑似的なターゲットテキストを生成する場合、ソーステキストＡに対して目標文数として１１を指定して疑似的なターゲットテキストＡ１を生成し、ソーステキストＡに対して目標文数として２３を指定して疑似的なターゲットテキストＡ２を生成する。また、ソーステキストＢに対して目標文数として３５を指定して疑似的なターゲットテキストＢ１を生成し、ソーステキストＢに対して目標文数として５を指定して疑似的なターゲットテキストＢ２を生成する。

　目標データ量（既存の学習データと、生成する疑似データの合計のデータ量）を入力部１１０から入力することで、生成部１２０は、当該目標データ量に基づいて、１つのソーステキストから何個の疑似的なターゲットテキストを生成するかを決定してもよい。

　例えば、指定された目標データ量が３０万件であるとして、既に用意した学習データセットの学習データが１０万件であるとすると、生成部１２０は、２０万件を増加させると判断し、学習データのソーステキストごとに２つの疑似的なターゲットテキストを作成することを決定する。これにより、２０万件の疑似的なターゲットテキストが作成され、学習データと疑似データの合計のデータ量が３０万件になる。

　生成部１２０は、生成した疑似データのセットと既存の学習データのセットを結合し、これを結合データセットとしてデータ格納部１５０に格納する。

　＜Ｓ１０３、Ｓ１０４：データ分布確認、判断＞
　ここでは、「疑似的なターゲットテキスト」を、既存の学習データにおける「ターゲットテキスト」と同様に、「ターゲットテキスト」と呼ぶ。

　Ｓ１０３において、決定部１３０は、データ格納部１５０に格納されている結合データセットにおける各ターゲットテキストの文字数を数え、文字数についてのターゲットテキスト数の度数分布を算出する。度数分布を算出することを「ｂｉｎをとる」と表現してもよい。つまり、ある文字数の範囲ごとに、その範囲に該当するターゲットテキストの数を算出する。

　文字数の範囲（区間）の指定方法については、特定の方法に限定されるわけではないが、本実施の形態では、後述する要約生成モデルの学習時に指定する文字数（出力長）の範囲を、度数分布算出の際の文字数の範囲とする。

　例えばモデル学習時に１０文字刻みで出力長を指定する場合には、１０文字刻みでターゲットテキスト数の度数分布を算出する。この場合、「１文字～１０文字」、「１１文字～２０文字」、...の各範囲で、その範囲に該当するターゲットテキストの数を算出する。

　Ｓ１０４において、決定部１３０は、Ｓ１０３で算出した度数分布において、度数が閾値以下となる範囲が存在するか否かを判断する。例えば、度数（ターゲットテキストの数）が、結合データセットのデータ数の１％以下となる範囲が存在するか否かを判断する。

　決定部１３０は、度数分布において、度数が閾値以下となる範囲が存在することを検知した場合、作成した疑似データを全て破棄し、生成部１２０が、Ｓ１０２からの処理を再度行う。つまり、度数分布において、度数が閾値以下となる範囲が存在する場合には、結合データセットにおいて、データに大きな偏りがあることになるので、既に作成した疑似データのセットを破棄して、再度、疑似データのセットを作成する。

　決定部１３０は、度数が閾値以下となる範囲が存在しないこいとを検知すると、作成した結合データセットを学習に使用することを決定する。

　図３、図４に度数分布の例を示す。図３、図４いずれも横軸は、文字数の範囲（区切り）を示し、縦軸はその範囲におけるターゲットテキストの数を示す。例えば、横軸の「１０」は、文字数の範囲が１文字～１０文字であることを示し、「２０」は、文字数の範囲が１１文字～２０文字であることを示す。

　図３に示す例では、「３０」に属するターゲットテキストが存在せず、「９０」に属するターゲットテキストの数が非常に少ない。このような場合は、再度Ｓ１０２の処理を行う。最終的に、図４に示すように、全範囲で欠損のない結合データセットになるまでＳ１０２の処理を繰り返す。

　なお、度数が閾値以下となる範囲が存在する場合に、疑似データを破棄して、作成し直すことは一例である。度数が閾値以下となる範囲が存在する場合に、既に作成した疑似データに、新たに作成した疑似データを追加することで、新たな結合データセットを作成してもよい。

　また、上記の処理では、学習データセットと疑似データセットを結合した結合データセットに対して、全範囲で欠損のないように擬似データセットを作成したが、これは一例である。例えば、疑似データセットのみに対して、全範囲で欠損のないようにチェックをして、疑似データセットを作成し、作成された疑似データセットと学習データセットとを結合して結合データセットを作成してもよい。

　（実施例２：モデルの学習、要約生成）
　次に、実施例２を説明する。実施例２では、学習装置２００が、実施例１で生成された結合データセットを用いて、要約生成モデルの学習を行う。なお、実施例２では、実施例１で生成された結合データセット（既存の学習データセット＋生成した疑似データセット）における既存の学習データと生成した疑似データをいずれも「学習データ」と呼ぶことにする。

　当該要約生成モデルは、出力長（文字数）を指定した場合にその出力長の要約を生成する要約生成モデルであり、ニューラルネットワークのモデルであることを想定しているが、当該要約生成モデルは、ニューラルネットワーク以外のモデルであってもよい。

　また、出力長の指定は、出力長の最大値を指定することを意味してもよい。つまり、この場合、出力長を指定された要約生成モデルは、指定された出力長以下の文字数の要約を生成する。

　また、「要約生成モデルは、出力長（文字数）を指定した場合にその出力長の要約を生成する」との説明において、生成する要約の出力長は、指定した出力長と正確に一致していなくてもよい。

　上記のような要約生成モデル自体、及び、当該要約生成モデルを学習する学習処理自体は既存技術である。既存技術として、どのような既存技術を使用してもよい。例えば、「特開２０２０－１４０６２９号公報」に開示された技術を使用してもよい。

　実施例２において、実施例１で生成された結合データセットを学習に使用するという点が、既存技術にはない点である。

　図５に、学習装置２００の構成例を示す。図５に示すように、学習装置２００は、入力部２１０、生成部２２０、パラメータ学習部２３０、出力部２４０、データ格納部２５０を有する。

　実施例１のデータ生成装置１００の出力部１４０から出力された結合データセットが、学習装置２００の入力部２１０から入力され、データ格納部２５０に格納される。

　生成部２２０は、学習対象のパラメータをセットした要約生成モデルを有する。例えば、ある文字数のターゲットテキストを有する学習データを用いることで、当該文字数を所望の出力長とした場合の学習を行うことができる。

　例えば、生成部２２０は、Ｘ文字のターゲットテキストを有する学習データにおけるソーステキストと、Ｘ（所望出力長）とを要約生成モデルに入力することで、出力のターゲットテキストを得る。パラメータ学習部２３０は、上記学習データのターゲットテキスト（正解のターゲットテキスト）と、要約生成モデルの出力のターゲットテキストとを比較し、誤差が小さくなるように要約生成モデルのパラメータを更新（学習）する。このような処理を結合データセットにおける各学習データを用いて実行する。パラメータ学習部２３０は、学習済みのパラメータをデータ格納部２５０に格納する。

　なお、上記のような学習方法は一例であり、上記の学習方法以外の学習方法で学習を行ってもよい。

　実施例２で学習されたパラメータを使用して要約生成を実行する生成装置３００の例を図６に示す。図６に示すように、生成装置３００は、入力部３１０、生成部３２０、出力部３３０、データ格納部３４０を有する。生成部３２０は、学習装置２００における生成部２２０と同じである。

　学習装置２００の出力部２４０から学習済みのパラメータが出力され、当該学習済みのパラメータが、生成装置３００の入力部３１０から入力され、データ格納部３４０に格納される。生成部３２０は、当該学習済みのパラメータをセットした要約生成モデルを有する。

　入力部３１０から、ソーステキストと所望の出力長が入力される。生成部３２０は、要約生成モデルにソーステキストと所望の出力長を入力することで、当該出力長のターゲットテキスト（要約）を得る。出力部３３０は、当該ターゲットテキストを出力する。

　以上、実施例１と実施例２を説明した。なお、実施例１におけるデータ生成装置１００に、学習装置２００の生成部２２０とパラメータ学習部２３０が含まれていてもよい。その場合、データ生成装置１００は、疑似データ生成を行うとともに、要約生成モデルの学習を行う。また、上記の実施例１，２では、学習データセットと疑似データセットとを結合した結合データセットを用いて学習を行うこととしたが、結合を行うことなく、度数分布における欠損がないように生成された疑似データセットを用いて学習を行うこととしてもよい。

　（ハードウェア構成例）
　データ生成装置１００、学習装置２００、及び生成装置３００はいずれも、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、「データ生成装置１００、学習装置２００、及び生成装置３００」を総称して「装置」と呼ぶ。

　すなわち、当該装置は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図７は、上記コンピュータのハードウェア構成例を示す図である。図７のコンピュータは、それぞれバスＢで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

　（実施の形態のまとめ、効果）
　以上説明したように、本実施の形態に係る技術により、任意の長さの要約を生成するためのモデルの学習に使用するデータを生成することができる。

　（付記）
　以上の実施形態に関し、更に以下の付記項を開示する。
（付記項１）
　ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置であって、
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成し、
　前記生成部により生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する
　データ生成装置。
（付記項２）
　前記プロセッサは、前記学習用ソーステキストと当該学習用ソーステキストから生成されたターゲットテキストとを有する疑似データのセットと、予め用意された学習データセットとを有する結合データセットにおける複数のターゲットテキストの文字数の度数分布に基づいて、前記結合データセットを前記モデルの学習に使用するか否かを決定する
　付記項１に記載のデータ生成装置。
（付記項３）
　前記プロセッサは、前記度数分布において、ターゲットテキストの数が閾値以下となる文字数範囲が存在しない場合に、前記結合データセットを前記モデルの学習に使用すると決定する
　付記項２に記載のデータ生成装置。
（付記項４）
　前記プロセッサは、前記目標文数を、１から最大目標文数の範囲でランダムに指定しながら、複数の学習用ソーステキストのそれぞれからターゲットテキストを生成する
　付記項１ないし３のうちいずれか１項に記載のデータ生成装置。
（付記項５）
　付記項２又は３に記載のデータ生成装置により生成された前記結合データセットを用いて前記モデルの学習を行う学習装置。
（付記項６）
　ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置が実行するデータ生成方法であって、
　学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成する生成ステップと、
　前記生成ステップにより生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する決定ステップと
　を備えるデータ生成方法。
（付記項７）
　コンピュータを、付記項１ないし４のうちいずれか１項に記載のデータ生成装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００　データ生成装置
１１０　入力部
１２０　生成部
１３０　決定部
１４０　出力部
１５０　データ格納部
２００　学習装置
２１０　入力部
２２０　生成部
２３０　パラメータ学習部
２４０　出力部
２５０　データ格納部
３００　生成装置
３１０　入力部
３２０　生成部
３３０　出力部
３４０　データ格納部
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インタフェース装置
１００６　表示装置
１００７　入力装置
１００８　出力装置

Claims

　ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置であって、
　学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成する生成部と、
　前記生成部により生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する決定部と
　を備えるデータ生成装置。
　前記決定部は、前記学習用ソーステキストと当該学習用ソーステキストから生成されたターゲットテキストとを有する疑似データのセットと、予め用意された学習データセットとを有する結合データセットにおける複数のターゲットテキストの文字数の度数分布に基づいて、前記結合データセットを前記モデルの学習に使用するか否かを決定する
　請求項１に記載のデータ生成装置。
　前記決定部は、前記度数分布において、ターゲットテキストの数が閾値以下となる文字数範囲が存在しない場合に、前記結合データセットを前記モデルの学習に使用すると決定する
　請求項２に記載のデータ生成装置。
　前記生成部は、前記目標文数を、１から最大目標文数の範囲でランダムに指定しながら、複数の学習用ソーステキストのそれぞれからターゲットテキストを生成する
　請求項１に記載のデータ生成装置。
　請求項２又は３に記載のデータ生成装置により生成された前記結合データセットを用いて前記モデルの学習を行う学習装置。
　ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置が実行するデータ生成方法であって、
　学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成する生成ステップと、
　前記生成ステップにより生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する決定ステップと
　を備えるデータ生成方法。
　コンピュータを、請求項１ないし４のうちいずれか１項に記載のデータ生成装置における各部として機能させるためのプログラム。