WO2024053100A1 - データ生成装置、学習装置、データ生成方法、及びプログラム - Google Patents

データ生成装置、学習装置、データ生成方法、及びプログラム Download PDF

Info

Publication number
WO2024053100A1
WO2024053100A1 PCT/JP2022/033925 JP2022033925W WO2024053100A1 WO 2024053100 A1 WO2024053100 A1 WO 2024053100A1 JP 2022033925 W JP2022033925 W JP 2022033925W WO 2024053100 A1 WO2024053100 A1 WO 2024053100A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
target
data
text
sentences
Prior art date
Application number
PCT/JP2022/033925
Other languages
English (en)
French (fr)
Inventor
真理子 川場
いつみ 斉藤
京介 西田
邦子 齋藤
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/033925 priority Critical patent/WO2024053100A1/ja
Publication of WO2024053100A1 publication Critical patent/WO2024053100A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Definitions

  • the present invention relates to a technique for generating summaries with a desired output length.
  • Non-patent Document 1 describes how to create pseudo learning data (pseudo data and Disclosed is a technique for creating a (call). However, this technology can only be used for texts that have a summary description in the first half, such as Wikipedia.
  • the present invention has been made in view of the above points, and it is an object of the present invention to provide a technique for generating data used for learning a model for generating summaries of arbitrary length.
  • a data generation device that generates data for use in learning a model that generates a target text based on a source text and a specified number of characters, a generation unit that generates a target text based on a learning source text and a target number of sentences smaller than the number of sentences of the learning source text;
  • a data generation device comprising: a determination unit that determines whether or not the plurality of target texts are to be used for learning the model, based on the number of characters of each of the plurality of target texts generated by the generation unit.
  • a technology for generating data used for learning a model for generating summaries of arbitrary length is provided.
  • pseudo-learning data is generated that does not have any gaps in the length of the summary so that it can be generated even with a summary whose length is not included in the training data. Then, expand the learning data. Specifically, the system creates summaries of arbitrary length by extracting important sentences from the source text.
  • the "learning data” used in the examples is data in which a source text and a target text that is a corresponding summary are paired.
  • a collection of training data is called a training data set.
  • the "source text” is the text that is the basis of the summary.
  • “Text” is a string of characters (which may include symbols in the middle).
  • extraction-type summarization is a summarization method in which an arbitrary number of sentences are extracted from a source text, and one or more extracted sentences are summarized. Since “extractive summarization” creates a summary by extracting sentences from the source text, words that are not included in the source text do not appear in the summary.
  • Generic summary automatically generates new text with an arbitrary number of characters while referring to the source text, and uses it as a summary. Since the text is generated by a machine, words may appear that are not included in the source text.
  • the "pseudo data” used in the examples is data that is a pair of a source text and a target text (which may also be called a pseudo target text) that is a summary obtained from the source text by extractive summarization. be.
  • a target text which may also be called a pseudo target text
  • the summarization method used to generate "pseudo data" is not limited to extractive summarization.
  • a collection of pseudo data is called a pseudo data set.
  • pseudo data is used for learning, it is a type of learning data, but in the following explanation, unless otherwise specified, "learning data" is used to mean existing learning data that has been prepared in advance.
  • the pseudo data may also be called pseudo learning data.
  • Example 1 Pseudo data generation
  • Example 1 generation of pseudo data will be described.
  • the source text of the learning data is used as the source text of the pseudo data, but this is just an example. Text other than the source text of the learning data may be used as the source text of the pseudo data.
  • FIG. 1 shows a configuration example of the data generation device 100.
  • the data generation device 100 includes an input section 110, a generation section 120, a determination section 130, an output section 140, and a data storage section 150.
  • S101 Input, summary creation>
  • a learning data set is input from the input unit 110.
  • the input learning data set is stored in the data storage section 150.
  • the generation unit 120 generates a summary (pseudo target text) from the source text of the learning data. Specifically, the details are as follows.
  • N is determined within a range that does not exceed Ninp.
  • N Ninp/2. In other words, N is the value obtained by dividing Ninp by 2.
  • the generation unit 120 reads the source text from the data storage unit 150, uses the extraction type summary, specifies the target number of sentences, generates a pseudo target text (summary) for the source text, and combines it with the source text. Data consisting of a pseudo target text is stored in the data storage unit 150 as pseudo data.
  • the method of performing extractive summarization with a specified target number of sentences is an existing technology, and any existing technology may be used.
  • a method of performing extractive summarization using a neural network model may be used.
  • the method disclosed in "Japanese Unexamined Patent Publication No. 2020-140629" may be used.
  • a summary is generated by estimating the importance of each sentence in the source text and extracting sentences with high importance (for example, sentences whose importance is above a threshold). do.
  • the number of sentences in the generated summary is the target number of sentences.
  • the number of sentences in the generated summary may be smaller (or larger) than the target number of sentences.
  • the method of creating a summary (pseudo target text) by the generation unit 120 is not limited to the extraction type summary, and a generation type summary may be used.
  • a generative summary is used that has been trained to generate a summary consisting of a specified target number of sentences.
  • the number specified when creating a summary by the generation unit 120 is not limited to the target number of sentences, and instead of the target number of sentences, the target number of characters may be specified.
  • the generation unit 120 randomly specifies the number of sentences in the range from 1 to N as the target number of sentences when generating a pseudo target text from the source text by extractive summarization. For example, a random target number of sentences is specified for each source text, such as 13 being specified as the target number of sentences for source text A, and 9 being specified as the target number of sentences for source text B. Ru. Regarding the random designation of the target number of sentences, the target number of sentences may be randomly specified so as to follow a certain probability distribution (eg, normal distribution).
  • a certain probability distribution eg, normal distribution
  • the generation unit 120 may create two or more pseudo target texts from one source text by specifying a value in the range from 1 to N multiple times for one source text. .
  • a pseudo target text A2 is generated by specifying 23 as the target number of sentences for the source text A.
  • a pseudo target text B1 is generated by specifying 35 as the target number of sentences for source text B, and a pseudo target text B2 is generated by specifying 5 as the target number of sentences for source text B. do.
  • the generation unit 120 can generate how many pieces from one source text based on the target data amount. It may be determined whether to generate a pseudo target text.
  • the generation unit 120 determines to increase the training data by 200,000 items, and We decide to create two pseudo target texts for each source text of the data. As a result, 200,000 pseudo target texts are created, and the total data amount of the learning data and pseudo data is 300,000.
  • the generation unit 120 combines the generated pseudo data set and the existing learning data set, and stores this in the data storage unit 150 as a combined data set.
  • the determining unit 130 counts the number of characters in each target text in the combined data set stored in the data storage unit 150, and calculates the frequency distribution of the number of target texts with respect to the number of characters. Calculating the frequency distribution may also be expressed as "taking bins.” That is, for each range of a certain number of characters, the number of target texts that fall within that range is calculated.
  • the method of specifying the range (interval) of the number of characters is not limited to a specific method, but in this embodiment, the range of the number of characters (output length) specified when learning the summary generation model described later is This is the range of the number of characters when calculating the distribution.
  • the frequency distribution of the number of target texts is calculated in increments of 10 characters. In this case, for each range of "1 character to 10 characters”, “11 characters to 20 characters”, etc., the number of target texts that fall within that range is calculated.
  • the determining unit 130 determines whether there is a range in which the frequency is less than or equal to a threshold value in the frequency distribution calculated in S103. For example, it is determined whether there is a range in which the frequency (number of target texts) is 1% or less of the number of data in the combined data set.
  • the determining unit 130 detects that there is a range in which the frequency is equal to or less than the threshold in the frequency distribution, the determining unit 130 discards all the created pseudo data, and the generating unit 120 performs the processing from S102 again. In other words, if there is a range where the frequency is below the threshold in the frequency distribution, there will be a large bias in the data in the combined data set, so discard the pseudo data set you have already created and try again. Create a set of pseudo data.
  • the determining unit 130 determines to use the created combined data set for learning.
  • Figures 3 and 4 show examples of frequency distributions.
  • the horizontal axis shows the range (separation) of the number of characters
  • the vertical axis shows the number of target texts in that range. For example, "10" on the horizontal axis indicates that the number of characters ranges from 1 to 10 characters, and "20" indicates that the number of characters ranges from 11 to 20 characters.
  • a new combined data set may be created by adding newly created pseudo data to already created pseudo data.
  • a pseudo data set is created so that there is no loss in the entire range for the combined data set that combines the learning data set and the pseudo data set, but this is just an example. For example, create a pseudo data set by checking only the pseudo data set to ensure that there are no defects in the entire range, and then create a combined data set by combining the created pseudo data set and the training data set. You may.
  • Example 2 Model learning, summary generation
  • learning device 200 uses the combined data set generated in the first embodiment to learn a summary generation model.
  • both the existing learning data and the generated pseudo data in the combined data set (existing learning data set + generated pseudo data set) generated in Example 1 are referred to as "learning data”. Make it.
  • the summary generation model is a summary generation model that generates a summary of the output length (number of characters) when the output length (number of characters) is specified, and is assumed to be a neural network model.
  • a model other than a neural network may be used.
  • specifying the output length may mean specifying the maximum value of the output length. That is, in this case, the summary generation model for which the output length is specified generates a summary with the number of characters less than or equal to the specified output length.
  • the summary generation model When the output length (number of characters) is specified, the summary generation model generates a summary of that output length'', the output length of the generated summary must exactly match the specified output length. You don't have to.
  • the above-described summary generation model itself and the learning process for learning the summary generation model itself are existing technologies. Any existing technology may be used as the existing technology. For example, the technique disclosed in "Japanese Patent Laid-Open No. 2020-140629" may be used.
  • the second embodiment differs from existing technologies in that the combined data set generated in the first embodiment is used for learning.
  • FIG. 5 shows a configuration example of the learning device 200.
  • the learning device 200 includes an input section 210, a generation section 220, a parameter learning section 230, an output section 240, and a data storage section 250.
  • the combined data set output from the output unit 140 of the data generation device 100 of Example 1 is input from the input unit 210 of the learning device 200 and stored in the data storage unit 250.
  • the generation unit 220 has a summary generation model in which parameters to be learned are set. For example, by using learning data having a target text with a certain number of characters, learning can be performed when the number of characters is set to a desired output length.
  • the generation unit 220 obtains the output target text by inputting the source text in the learning data having the target text of X characters and X (desired output length) to the summary generation model.
  • the parameter learning unit 230 compares the target text of the training data (correct target text) with the target text of the output of the summary generation model, and updates (learns) the parameters of the summary generation model so that the error is small. . Such processing is performed using each learning data in the combined data set.
  • the parameter learning section 230 stores the learned parameters in the data storage section 250.
  • the learning method described above is an example, and learning may be performed using a learning method other than the learning method described above.
  • FIG. 6 shows an example of a generation device 300 that executes summary generation using the parameters learned in Example 2.
  • the generation device 300 includes an input section 310, a generation section 320, an output section 330, and a data storage section 340.
  • the generation unit 320 is the same as the generation unit 220 in the learning device 200.
  • the learned parameters are output from the output unit 240 of the learning device 200, and the learned parameters are input from the input unit 310 of the generation device 300 and stored in the data storage unit 340.
  • the generation unit 320 has a summary generation model in which the learned parameters are set.
  • the source text and desired output length are input from the input section 310.
  • the generation unit 320 inputs the source text and the desired output length into the summary generation model, thereby obtaining a target text (summary) of the output length.
  • the output unit 330 outputs the target text.
  • Example 1 and Example 2 have been described above.
  • the data generation device 100 in the first embodiment may include the generation section 220 and the parameter learning section 230 of the learning device 200. In that case, the data generation device 100 generates pseudo data and also learns a summary generation model.
  • learning was performed using a combined data set that combined the training data set and the pseudo data set. Learning may be performed using the generated pseudo data set.
  • the data generation device 100, the learning device 200, and the generation device 300 can all be realized, for example, by causing a computer to execute a program.
  • This computer may be a physical computer or a virtual machine on the cloud.
  • the "data generation device 100, the learning device 200, and the generation device 300" will be collectively referred to as the "device.”
  • the device can be realized by using hardware resources such as a CPU and memory built into a computer to execute a program corresponding to the processing performed by the device.
  • the above program can be recorded on a computer-readable recording medium (such as a portable memory) and can be stored or distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
  • FIG. 7 is a diagram showing an example of the hardware configuration of the computer.
  • the computer in FIG. 7 includes a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, an output device 1008, and the like, which are interconnected via a bus B.
  • a program that realizes processing on the computer is provided, for example, on a recording medium 1001 such as a CD-ROM or a memory card.
  • a recording medium 1001 such as a CD-ROM or a memory card.
  • the program is installed from the recording medium 1001 to the auxiliary storage device 1002 via the drive device 1000.
  • the program does not necessarily need to be installed from the recording medium 1001, and may be downloaded from another computer via a network.
  • the auxiliary storage device 1002 stores installed programs as well as necessary files, data, and the like.
  • the memory device 1003 reads and stores the program from the auxiliary storage device 1002 when there is an instruction to start the program.
  • the CPU 1004 implements functions related to the device according to programs stored in the memory device 1003.
  • the interface device 1005 is used as an interface for connecting to a network or the like.
  • a display device 1006 displays a GUI (Graphical User Interface) and the like based on a program.
  • the input device 1007 includes a keyboard, a mouse, buttons, a touch panel, or the like, and is used to input various operation instructions.
  • An output device 1008 outputs the calculation result.
  • the technology according to the present embodiment makes it possible to generate data used for learning a model for generating summaries of arbitrary length.
  • a data generation device that generates data for use in learning a model that generates a target text based on a source text and a specified number of characters, memory and at least one processor connected to the memory; including; The processor includes: Generating a target text based on a learning source text and a target number of sentences smaller than the number of sentences of the learning source text, A data generation device that determines whether to use the plurality of target texts for learning the model based on the number of characters of each of the plurality of target texts generated by the generation unit.
  • the processor calculates the number of characters of a plurality of target texts in a combined data set including a set of pseudo data including the training source text and a target text generated from the training source text, and a training data set prepared in advance.
  • the data generation device according to appendix 1, wherein the data generation device determines whether or not to use the combined data set for learning the model based on a frequency distribution of .
  • the data generation device according to supplementary note 2, wherein the processor determines to use the combined data set for learning the model when there is no character number range in which the number of target texts is equal to or less than a threshold value in the frequency distribution.
  • the processor generates a target text from each of the plurality of learning source texts while randomly specifying the target number of sentences in a range from 1 to the maximum target number of sentences. Any one of Additional Notes 1 to 3.
  • the data generation device described in . (Additional note 5) A learning device that performs learning of the model using the combined data set generated by the data generating device according to supplementary note 2 or 3.
  • a data generation method executed by a data generation device that generates data for use in learning a model that generates a target text based on a source text and a specified number of characters comprising: a generation step of generating a target text based on a learning source text and a target number of sentences smaller than the number of sentences of the learning source text; a determining step of determining whether or not to use the plurality of target texts for learning the model, based on the number of characters of each of the plurality of target texts generated in the generating step.
  • Data generation device 110 Input section 120 Generation section 130 Determination section 140 Output section 150 Data storage section 200 Learning device 210 Input section 220 Generation section 230 Parameter learning section 240 Output section 250 Data storage section 300 Generation device 310 Input section 320 Generation section 330 Output unit 340 Data storage unit 1000 Drive device 1001 Recording medium 1002 Auxiliary storage device 1003 Memory device 1004 CPU 1005 Interface device 1006 Display device 1007 Input device 1008 Output device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置であって、学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成する生成部と、前記生成部により生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する決定部とを備える。

Description

データ生成装置、学習装置、データ生成方法、及びプログラム
 本発明は、所望の出力長で要約を生成する技術に関連するものである。
 近年、大規模なドキュメントの概要を効率よく把握する、大規模なドキュメントから読むべき情報を取捨選択する、などのために要約を利用したいというニーズがある。そのため、要約を生成するAPIサービスなどが盛んにリリースされている。
 また、ユーザが所望する長さで要約を作成したいというニーズがあり、要約システムは出力長を指定できるものが多い。任意の出力長で要約を得るためには、学習のためにそれに応じた長さの要約を有する学習データを用意する必要がある。
Alexander R. Fabbri. Simeng Hany, Haoyuan LiHaoran Li. Marjan Ghazvininejad, Shafiq Joty,Dragomir Radev, Yashar Mehdad: Improving Zero and Few-Shot Abstractive Summarization with Intermediate Fine-tuning and Data Augmentation (Alexander R. Fabbri, arXiv:2010.12836)
 しかし、ソーステキストと要約とから構成される既存の学習データのセットにおいて、要約の長さの種類には限りや偏りがある。そのため、既存の学習データでは、任意の出力長で要約を得るためのモデルを十分に学習することが難しい。
 非特許文献1には、Wikipediaの前半を要約として利用し、後半をソーステキストとなるように、Wikipediaの1ページを分割してソーステキストと要約を作ることで疑似的な学習データ(疑似データと呼ぶ)を作成する技術が開示されている。しかし、この技術は、Wikipediaのように前半に要約的な記載があるテキストにしか利用できない。
 本発明は上記の点に鑑みてなされたものであり、任意の長さの要約を生成するためのモデルの学習に使用するデータを生成するための技術を提供することを目的とする。
 開示の技術によれば、ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置であって、
 学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成する生成部と、
 前記生成部により生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する決定部と
 を備えるデータ生成装置が提供される。
 開示の技術によれば、任意の長さの要約を生成するためのモデルの学習に使用するデータを生成するための技術が提供される。
データ生成装置の構成図である。 データ生成装置の動作を示すフローチャートである。 度数分布の例を示す図である。 度数分布の例を示す図である。 学習装置の構成図である。 生成装置の構成図である。 装置のハードウェア構成例を示す図である。
 以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
 本実施の形態では、前述した課題を解決するために、学習データに含まれない長さの要約でも生成できるように、要約の長さに欠落がないような疑似的な学習データを生成することで、学習データの拡張を行う。具体的には、ソーステキストから重要な文を抽出することで、任意の長さの要約を作成することとしている。
 以下、本実施の形態における装置の構成及び動作を、実施例1、2において詳細に説明する。
 なお、実施例で使用する「学習データ」は、ソーステキストと、それに対応する要約であるターゲットテキストとが対になったデータである。学習データの集合を学習データセットと呼ぶ。「ソーステキスト」は、要約の元となるテキストである。「テキスト」は、文字の列(途中に記号が含まれていてもよい)である。
 また、「抽出型要約」は、ソーステキストから任意の数の文を抽出し、抽出された1以上の文をまとめて要約とする要約の方法である。「抽出型要約」は、ソーステキストにおける文の抜粋により要約を作成するものなので、ソーステキストに含まれない語は要約に現れない。
 「生成型要約」は、ソーステキストを参考にしながら、任意の文字数で新たなテキストを機械的に生成し、要約とする。テキストを機械が生成するため、ソーステキストに含まれない語が出現することもある。
 実施例で使用する「疑似データ」は、ソーステキストと、当該ソーステキストから抽出型要約により得られた要約であるターゲットテキスト(疑似的なターゲットテキストと呼んでもよい)とが対になったデータである。なお、「疑似データ」生成のために使用する要約方法は、抽出型要約に限定されるわけではない。疑似データの集合を疑似データセットと呼ぶ。
 なお、疑似データは学習に使用されるため、学習データの一種であるが、以下の説明では、特に断らない限り、「学習データ」を予め用意された既存の学習データの意味で使用する。疑似データを、疑似的な学習データと呼んでもよい。
 (実施例1:疑似データ生成)
 まず、実施例1を説明する。実施例1では、疑似データの生成について説明する。以下の説明では、疑似データのソーステキストとして、学習データのソーステキストを使用しているが、これは一例である。疑似データのソーステキストとして、学習データのソーステキスト以外のテキストを使用してもよい。
 図1に、データ生成装置100の構成例を示す。図1に示すように、データ生成装置100は、入力部110、生成部120、決定部130、出力部140、データ格納部150を備える。
 図2のフローチャートの手順に沿って、上記構成を備えるデータ生成装置100の動作例を説明する。
 <S101、S102:入力、要約作成>
 S101において、入力部110から学習データセットを入力する。入力された学習データセットは、データ格納部150に格納される。S102において、生成部120が、学習データのソーステキストから要約(疑似的なターゲットテキスト)を生成する。具体的には下記のとおりである。
 学習データのソーステキストの文数をNinpとし、そのソーステキストを持つ疑似データにおける疑似的なターゲットテキストの最大目標文数をNとしたとき、NをNinpより大きくならない範囲で定める。一例として、N=Ninp/2とする。つまり、Ninpを2で割った値をNとする。
 生成部120は、要約生成の元となるソーステキストごとに、例えば「N=Ninp/2」によりNを計算する。
 生成部120は、ソーステキストからN以下の文を抽出して、疑似的なターゲットテキストを作成するので、N文取得したときの文字数の最大が疑似的なターゲットテキストの最大の長さ(文字数)となる。従って、例えば「N=Ninp/2」でNを算出する場合、疑似的なターゲットテキストは最大でソーステキストの半分程度の文字数となる。目標とする出力長(要約の文字数)に合わせてNの値を調節することとしてよい。
 生成部120は、データ格納部150からソーステキストを読み出し、抽出型要約を用いて、目標文数を指定して、当該ソーステキストに対する疑似的なターゲットテキスト(要約)を生成し、当該ソーステキストと疑似的なターゲットテキストからなるデータを疑似データとしてデータ格納部150に格納する。
 目標文数を指定した抽出型要約を行う方法自体は既存技術であり、どのような既存技術を使用してもよい。例えば、ニューラルネットワークのモデルを用いて抽出型要約を行う方法を使用してもよい。具体的には、「特開2020-140629号公報」に開示された方法を使用してもよい。
 目標文数を指定した抽出型要約においては、例えば、ソーステキスト中の各文の重要度を推定し、重要度が高い文(例えば重要度が閾値以上の文)を抽出することで要約を生成する。目標文数を指定した抽出型要約において、生成される要約の文数は、目標文数になる。ただし、目標文数を指定した抽出型要約において、生成される要約の文数が、目標文数よりも小さい(あるいは大きい)場合があってもよい。
 また、生成部120による要約(疑似的なターゲットテキスト)の作成方法は、抽出型要約に限定されるわけではなく、生成型要約を用いてもよい。この場合、指定した目標文数の文からなる要約を生成するように学習された生成型要約を使用する。
 また、生成部120による要約作成において指定する数は、目標文数に限定されるわけではなく、目標文数に代えて、目標文字数を指定してもよい。
 生成部120は、抽出型要約によりソーステキストから疑似的なターゲットテキストを生成する際に、目標文数として、1からNの範囲の文数をランダムに指定する。例えば、ソーステキストAには、目標文数として13が指定され、ソーステキストBには、目標文数として9が指定される、といったようにして、ソーステキストごとにランダムな目標文数が指定される。なお、ランダムな目標文数の指定に関して、ある確率分布(例:正規分布)に従うように目標文数をランダムに指定してもよい。
 また、生成部120は、1つのソーステキストに対して、1からNの範囲の値を複数回指定することで、1つのソーステキストから2つ以上の疑似的なターゲットテキストを作成してもよい。
 例えば、ソーステキストAとソーステキストBに関して、1つのソーステキストから2つの疑似的なターゲットテキストを生成する場合、ソーステキストAに対して目標文数として11を指定して疑似的なターゲットテキストA1を生成し、ソーステキストAに対して目標文数として23を指定して疑似的なターゲットテキストA2を生成する。また、ソーステキストBに対して目標文数として35を指定して疑似的なターゲットテキストB1を生成し、ソーステキストBに対して目標文数として5を指定して疑似的なターゲットテキストB2を生成する。
 目標データ量(既存の学習データと、生成する疑似データの合計のデータ量)を入力部110から入力することで、生成部120は、当該目標データ量に基づいて、1つのソーステキストから何個の疑似的なターゲットテキストを生成するかを決定してもよい。
 例えば、指定された目標データ量が30万件であるとして、既に用意した学習データセットの学習データが10万件であるとすると、生成部120は、20万件を増加させると判断し、学習データのソーステキストごとに2つの疑似的なターゲットテキストを作成することを決定する。これにより、20万件の疑似的なターゲットテキストが作成され、学習データと疑似データの合計のデータ量が30万件になる。
 生成部120は、生成した疑似データのセットと既存の学習データのセットを結合し、これを結合データセットとしてデータ格納部150に格納する。
 <S103、S104:データ分布確認、判断>
 ここでは、「疑似的なターゲットテキスト」を、既存の学習データにおける「ターゲットテキスト」と同様に、「ターゲットテキスト」と呼ぶ。
 S103において、決定部130は、データ格納部150に格納されている結合データセットにおける各ターゲットテキストの文字数を数え、文字数についてのターゲットテキスト数の度数分布を算出する。度数分布を算出することを「binをとる」と表現してもよい。つまり、ある文字数の範囲ごとに、その範囲に該当するターゲットテキストの数を算出する。
 文字数の範囲(区間)の指定方法については、特定の方法に限定されるわけではないが、本実施の形態では、後述する要約生成モデルの学習時に指定する文字数(出力長)の範囲を、度数分布算出の際の文字数の範囲とする。
 例えばモデル学習時に10文字刻みで出力長を指定する場合には、10文字刻みでターゲットテキスト数の度数分布を算出する。この場合、「1文字~10文字」、「11文字~20文字」、...の各範囲で、その範囲に該当するターゲットテキストの数を算出する。
 S104において、決定部130は、S103で算出した度数分布において、度数が閾値以下となる範囲が存在するか否かを判断する。例えば、度数(ターゲットテキストの数)が、結合データセットのデータ数の1%以下となる範囲が存在するか否かを判断する。
 決定部130は、度数分布において、度数が閾値以下となる範囲が存在することを検知した場合、作成した疑似データを全て破棄し、生成部120が、S102からの処理を再度行う。つまり、度数分布において、度数が閾値以下となる範囲が存在する場合には、結合データセットにおいて、データに大きな偏りがあることになるので、既に作成した疑似データのセットを破棄して、再度、疑似データのセットを作成する。
 決定部130は、度数が閾値以下となる範囲が存在しないこいとを検知すると、作成した結合データセットを学習に使用することを決定する。
 図3、図4に度数分布の例を示す。図3、図4いずれも横軸は、文字数の範囲(区切り)を示し、縦軸はその範囲におけるターゲットテキストの数を示す。例えば、横軸の「10」は、文字数の範囲が1文字~10文字であることを示し、「20」は、文字数の範囲が11文字~20文字であることを示す。
 図3に示す例では、「30」に属するターゲットテキストが存在せず、「90」に属するターゲットテキストの数が非常に少ない。このような場合は、再度S102の処理を行う。最終的に、図4に示すように、全範囲で欠損のない結合データセットになるまでS102の処理を繰り返す。
 なお、度数が閾値以下となる範囲が存在する場合に、疑似データを破棄して、作成し直すことは一例である。度数が閾値以下となる範囲が存在する場合に、既に作成した疑似データに、新たに作成した疑似データを追加することで、新たな結合データセットを作成してもよい。
 また、上記の処理では、学習データセットと疑似データセットを結合した結合データセットに対して、全範囲で欠損のないように擬似データセットを作成したが、これは一例である。例えば、疑似データセットのみに対して、全範囲で欠損のないようにチェックをして、疑似データセットを作成し、作成された疑似データセットと学習データセットとを結合して結合データセットを作成してもよい。
 (実施例2:モデルの学習、要約生成)
 次に、実施例2を説明する。実施例2では、学習装置200が、実施例1で生成された結合データセットを用いて、要約生成モデルの学習を行う。なお、実施例2では、実施例1で生成された結合データセット(既存の学習データセット+生成した疑似データセット)における既存の学習データと生成した疑似データをいずれも「学習データ」と呼ぶことにする。
 当該要約生成モデルは、出力長(文字数)を指定した場合にその出力長の要約を生成する要約生成モデルであり、ニューラルネットワークのモデルであることを想定しているが、当該要約生成モデルは、ニューラルネットワーク以外のモデルであってもよい。
 また、出力長の指定は、出力長の最大値を指定することを意味してもよい。つまり、この場合、出力長を指定された要約生成モデルは、指定された出力長以下の文字数の要約を生成する。
 また、「要約生成モデルは、出力長(文字数)を指定した場合にその出力長の要約を生成する」との説明において、生成する要約の出力長は、指定した出力長と正確に一致していなくてもよい。
 上記のような要約生成モデル自体、及び、当該要約生成モデルを学習する学習処理自体は既存技術である。既存技術として、どのような既存技術を使用してもよい。例えば、「特開2020-140629号公報」に開示された技術を使用してもよい。
 実施例2において、実施例1で生成された結合データセットを学習に使用するという点が、既存技術にはない点である。
 図5に、学習装置200の構成例を示す。図5に示すように、学習装置200は、入力部210、生成部220、パラメータ学習部230、出力部240、データ格納部250を有する。
 実施例1のデータ生成装置100の出力部140から出力された結合データセットが、学習装置200の入力部210から入力され、データ格納部250に格納される。
 生成部220は、学習対象のパラメータをセットした要約生成モデルを有する。例えば、ある文字数のターゲットテキストを有する学習データを用いることで、当該文字数を所望の出力長とした場合の学習を行うことができる。
 例えば、生成部220は、X文字のターゲットテキストを有する学習データにおけるソーステキストと、X(所望出力長)とを要約生成モデルに入力することで、出力のターゲットテキストを得る。パラメータ学習部230は、上記学習データのターゲットテキスト(正解のターゲットテキスト)と、要約生成モデルの出力のターゲットテキストとを比較し、誤差が小さくなるように要約生成モデルのパラメータを更新(学習)する。このような処理を結合データセットにおける各学習データを用いて実行する。パラメータ学習部230は、学習済みのパラメータをデータ格納部250に格納する。
 なお、上記のような学習方法は一例であり、上記の学習方法以外の学習方法で学習を行ってもよい。
 実施例2で学習されたパラメータを使用して要約生成を実行する生成装置300の例を図6に示す。図6に示すように、生成装置300は、入力部310、生成部320、出力部330、データ格納部340を有する。生成部320は、学習装置200における生成部220と同じである。
 学習装置200の出力部240から学習済みのパラメータが出力され、当該学習済みのパラメータが、生成装置300の入力部310から入力され、データ格納部340に格納される。生成部320は、当該学習済みのパラメータをセットした要約生成モデルを有する。
 入力部310から、ソーステキストと所望の出力長が入力される。生成部320は、要約生成モデルにソーステキストと所望の出力長を入力することで、当該出力長のターゲットテキスト(要約)を得る。出力部330は、当該ターゲットテキストを出力する。
 以上、実施例1と実施例2を説明した。なお、実施例1におけるデータ生成装置100に、学習装置200の生成部220とパラメータ学習部230が含まれていてもよい。その場合、データ生成装置100は、疑似データ生成を行うとともに、要約生成モデルの学習を行う。また、上記の実施例1,2では、学習データセットと疑似データセットとを結合した結合データセットを用いて学習を行うこととしたが、結合を行うことなく、度数分布における欠損がないように生成された疑似データセットを用いて学習を行うこととしてもよい。
 (ハードウェア構成例)
 データ生成装置100、学習装置200、及び生成装置300はいずれも、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、「データ生成装置100、学習装置200、及び生成装置300」を総称して「装置」と呼ぶ。
 すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図7は、上記コンピュータのハードウェア構成例を示す図である。図7のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
 (実施の形態のまとめ、効果)
 以上説明したように、本実施の形態に係る技術により、任意の長さの要約を生成するためのモデルの学習に使用するデータを生成することができる。
 (付記)
 以上の実施形態に関し、更に以下の付記項を開示する。
(付記項1)
 ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置であって、
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成し、
 前記生成部により生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する
 データ生成装置。
(付記項2)
 前記プロセッサは、前記学習用ソーステキストと当該学習用ソーステキストから生成されたターゲットテキストとを有する疑似データのセットと、予め用意された学習データセットとを有する結合データセットにおける複数のターゲットテキストの文字数の度数分布に基づいて、前記結合データセットを前記モデルの学習に使用するか否かを決定する
 付記項1に記載のデータ生成装置。
(付記項3)
 前記プロセッサは、前記度数分布において、ターゲットテキストの数が閾値以下となる文字数範囲が存在しない場合に、前記結合データセットを前記モデルの学習に使用すると決定する
 付記項2に記載のデータ生成装置。
(付記項4)
 前記プロセッサは、前記目標文数を、1から最大目標文数の範囲でランダムに指定しながら、複数の学習用ソーステキストのそれぞれからターゲットテキストを生成する
 付記項1ないし3のうちいずれか1項に記載のデータ生成装置。
(付記項5)
 付記項2又は3に記載のデータ生成装置により生成された前記結合データセットを用いて前記モデルの学習を行う学習装置。
(付記項6)
 ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置が実行するデータ生成方法であって、
 学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成する生成ステップと、
 前記生成ステップにより生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する決定ステップと
 を備えるデータ生成方法。
(付記項7)
 コンピュータを、付記項1ないし4のうちいずれか1項に記載のデータ生成装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 データ生成装置
110 入力部
120 生成部
130 決定部
140 出力部
150 データ格納部
200 学習装置
210 入力部
220 生成部
230 パラメータ学習部
240 出力部
250 データ格納部
300 生成装置
310 入力部
320 生成部
330 出力部
340 データ格納部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置

Claims (7)

  1.  ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置であって、
     学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成する生成部と、
     前記生成部により生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する決定部と
     を備えるデータ生成装置。
  2.  前記決定部は、前記学習用ソーステキストと当該学習用ソーステキストから生成されたターゲットテキストとを有する疑似データのセットと、予め用意された学習データセットとを有する結合データセットにおける複数のターゲットテキストの文字数の度数分布に基づいて、前記結合データセットを前記モデルの学習に使用するか否かを決定する
     請求項1に記載のデータ生成装置。
  3.  前記決定部は、前記度数分布において、ターゲットテキストの数が閾値以下となる文字数範囲が存在しない場合に、前記結合データセットを前記モデルの学習に使用すると決定する
     請求項2に記載のデータ生成装置。
  4.  前記生成部は、前記目標文数を、1から最大目標文数の範囲でランダムに指定しながら、複数の学習用ソーステキストのそれぞれからターゲットテキストを生成する
     請求項1に記載のデータ生成装置。
  5.  請求項2又は3に記載のデータ生成装置により生成された前記結合データセットを用いて前記モデルの学習を行う学習装置。
  6.  ソーステキストと、指定された文字数とに基づいてターゲットテキストを生成するモデルの学習に使用するためのデータを生成するデータ生成装置が実行するデータ生成方法であって、
     学習用ソーステキストと、当該学習用ソーステキストの文数よりも小さい目標文数とに基づいて、ターゲットテキストを生成する生成ステップと、
     前記生成ステップにより生成された複数のターゲットテキストそれぞれの文字数に基づいて、前記複数のターゲットテキストを前記モデルの学習に使用するか否かを決定する決定ステップと
     を備えるデータ生成方法。
  7.  コンピュータを、請求項1ないし4のうちいずれか1項に記載のデータ生成装置における各部として機能させるためのプログラム。
PCT/JP2022/033925 2022-09-09 2022-09-09 データ生成装置、学習装置、データ生成方法、及びプログラム WO2024053100A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/033925 WO2024053100A1 (ja) 2022-09-09 2022-09-09 データ生成装置、学習装置、データ生成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/033925 WO2024053100A1 (ja) 2022-09-09 2022-09-09 データ生成装置、学習装置、データ生成方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2024053100A1 true WO2024053100A1 (ja) 2024-03-14

Family

ID=90192196

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/033925 WO2024053100A1 (ja) 2022-09-09 2022-09-09 データ生成装置、学習装置、データ生成方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2024053100A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528013A (zh) * 2020-12-10 2021-03-19 平安科技(深圳)有限公司 文本摘要提取方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528013A (zh) * 2020-12-10 2021-03-19 平安科技(深圳)有限公司 文本摘要提取方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUO, SHUHON ET AL.: "A multifunctional news article automatic summary AI system that streamlines summarization work", NTT DOCOMO TECHNICAL JOURNAL, vol. 29, no. 4, 12 January 2022 (2022-01-12), pages 15 - 25, XP009553715 *
LOEM MENGSAY, TAKASE SHO, KANEKO MASAHIRO, OKAZAKI NAOAKI: "ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization", ARXIV.ORG, 14 January 2022 (2022-01-14), pages 16 - 24, XP093148455, DOI: 10.18653/v1/2022.naacl-srw.3 *

Similar Documents

Publication Publication Date Title
JP5950285B2 (ja) 予め決められた複数のビット幅のデータに対して操作を行う命令を使用してツリーの検索を行うための方法、並びに、当該命令を使用してツリーの検索を行うためのコンピュータ及びそのコンピュータ・プログラム
EP3218811B1 (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
US20140324865A1 (en) Method, program, and system for classification of system log
CN111026470A (zh) 用于输入数据的验证和转换的系统和方法
US9916286B2 (en) Reformatting multiple paragraphs of text using the formatting of a sample object by creating multiple candidate combinations and selecting a closest match
WO2017087437A1 (en) Fast pattern discovery for log analytics
CN111512283B (zh) 数据库中的基数估算
JP6112536B2 (ja) 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム
US9886498B2 (en) Title standardization
WO2024053100A1 (ja) データ生成装置、学習装置、データ生成方法、及びプログラム
Thorlund et al. Trial sequential analysis (TSA)
US20140310248A1 (en) Verification support program, verification support apparatus, and verification support method
JP5547128B2 (ja) クラスタリング装置及び方法及びプログラム
US10977150B2 (en) Data analysis
JP6773115B2 (ja) 類似データ検索装置、類似データ検索方法および記録媒体
KR101394339B1 (ko) 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법
US20090006080A1 (en) Computer-readable medium having sentence dividing program stored thereon, sentence dividing apparatus, and sentence dividing method
JP6261669B2 (ja) クエリ校正システムおよび方法
Culp et al. On adaptive regularization methods in boosting
JP2018136640A (ja) 検出方法、検出装置および検出プログラム
Pirinen et al. Effect of language and error models on efficiency of finite-state spell-checking and correction
JP5133275B2 (ja) 階層構造改変処理装置、階層構造改変方法及びプログラム
US7899660B2 (en) Technique for digital circuit functionality recognition for circuit characterization
Coray Óðinn: A Framework for Large-Scale Wordlist Analysis and Struc-ture-Based Password Guessing
KR102378038B1 (ko) 타겟 네트워크의 속성을 갖는 합성 네트워크를 얻기 위한 그래프 생성 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22958178

Country of ref document: EP

Kind code of ref document: A1