WO2021124488A1 - 学習データ生成方法、学習データ生成装置及びプログラム - Google Patents

学習データ生成方法、学習データ生成装置及びプログラム Download PDF

Info

Publication number
WO2021124488A1
WO2021124488A1 PCT/JP2019/049661 JP2019049661W WO2021124488A1 WO 2021124488 A1 WO2021124488 A1 WO 2021124488A1 JP 2019049661 W JP2019049661 W JP 2019049661W WO 2021124488 A1 WO2021124488 A1 WO 2021124488A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
learning data
partial data
partial
learning
Prior art date
Application number
PCT/JP2019/049661
Other languages
English (en)
French (fr)
Inventor
いつみ 斉藤
京介 西田
久子 浅野
準二 富田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/785,967 priority Critical patent/US20230026110A1/en
Priority to PCT/JP2019/049661 priority patent/WO2021124488A1/ja
Priority to JP2021565240A priority patent/JP7207571B2/ja
Publication of WO2021124488A1 publication Critical patent/WO2021124488A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Definitions

  • the present invention relates to a learning data generation method, a learning data generation device, and a program.
  • the neural summary model requires pair data of the source text to be summarized and the summary data that is the correct answer of the summary as training data.
  • the present invention has been made in view of the above points, and an object of the present invention is to improve the efficiency of collecting training data for a neural summary model.
  • the training data generation method is based on the similarity between the generation procedure for generating the partial data of the summary sentence created for the text data and the partial data, and the text data. Whether or not to adopt the partial data as training data for a neural network that generates a summary sentence based on the extraction procedure for extracting a partial sentence set from the text data and the similarity between the partial data and the sentence set.
  • the computer executes the determination procedure for determining.
  • FIG. 10 It is a figure which shows the hardware configuration example of the learning data generation apparatus 10 in embodiment of this invention. It is a figure which shows the functional structure example of the learning data generation apparatus 10 in embodiment of this invention. It is a flowchart for demonstrating an example of the processing procedure executed by the learning data generation apparatus 10. It is a figure which shows an example of a partial data. It is a figure which shows the extraction example of the prototype text. It is a figure which shows the calculation example of ROUGE.
  • FIG. 1 is a diagram showing a hardware configuration example of the learning data generation device 10 according to the embodiment of the present invention.
  • the learning data generation device 10 of FIG. 1 has a drive device 100, an auxiliary storage device 102, a memory device 103, a CPU 104, an interface device 105, and the like, which are connected to each other by a bus B, respectively.
  • the program that realizes the processing in the learning data generation device 10 is provided by a recording medium 101 such as a CD-ROM.
  • a recording medium 101 such as a CD-ROM.
  • the program is installed in the auxiliary storage device 102 from the recording medium 101 via the drive device 100.
  • the program does not necessarily have to be installed from the recording medium 101, and may be downloaded from another computer via the network.
  • the auxiliary storage device 102 stores the installed program and also stores necessary files, data, and the like.
  • the memory device 103 reads and stores the program from the auxiliary storage device 102 when the program is instructed to start.
  • the CPU 104 executes the function related to the learning data generation device 10 according to the program stored in the memory device 103.
  • the interface device 105 is used as an interface for connecting to a network.
  • FIG. 2 is a diagram showing a functional configuration example of the learning data generation device 10 according to the embodiment of the present invention.
  • the learning data generation device 10 has a partial data generation unit 11, a prototype text extraction unit 12, and a determination unit 13. Each of these parts is realized by a process of causing the CPU 104 to execute one or more programs installed in the learning data generation device 10.
  • the partial data generation unit 11 generates partial data of the summary sentence created for the source text (text data to be summarized).
  • the prototype text extraction unit 12 extracts a sentence set of a part of the source text (hereinafter referred to as "prototype text") from the source text based on the similarity with the partial data.
  • the determination unit 13 determines whether or not to adopt the partial data as training data for the neural summary model based on the similarity between the partial data and the prototype text.
  • the neural summary model refers to a neural network that generates a summary sentence for an input sentence (source text).
  • training data in addition to the source text and the correct summary sentence, training data for the neural summary model that requires the third parameter is generated.
  • the prototype text corresponds to the parameter.
  • FIG. 3 is a flowchart for explaining an example of a processing procedure executed by the learning data generation device 10.
  • the partial data generation unit 11 indicates data (hereinafter, referred to as “target source text”) in the training data for the neural summary model, which indicates one summary sentence created in advance.
  • target summary data data
  • the target summary data may include one or more sentences.
  • the target summary data may be data in the form of a list of one or more sentence sets.
  • the partial data generation unit 11 divides the target summary data into sentence units, and generates partial data in which one or more of the divided sentences are combined (combined) (S102).
  • the target summary data is a list of sentence sets
  • partial data may be generated by dividing the target summary data into the sentence set units and combining one or more sentence sets.
  • FIG. 4 is a diagram showing an example of partial data.
  • FIG. 4 shows an example of partial data generated from the target summary data in list format.
  • the partial data 1 includes only the first sentence of the target summary data.
  • the partial data 2 includes the first sentence and the second sentence of the target summary data.
  • a combination of other sentences may be generated as partial data.
  • the combination result of non-consecutive sentences in the target summary data may be regarded as partial data.
  • all combinations of the set of sentences constituting the target summary data may be generated as partial data.
  • target partial data The partial data to be processed in the loop processing L1 is hereinafter referred to as "target partial data”.
  • step S103 the prototype text extraction unit 12 extracts a part (a set of one or more sentences) having the highest similarity (matching) with the target part data as the prototype text in the target source text.
  • FIG. 5 is a diagram showing an example of extracting prototype text.
  • FIG. 5 shows an example in which the partial data 1 is the target partial data and the first sentence of the target source text is extracted as the prototype text for the partial data 1.
  • the prototype text extraction unit 12 calculates the similarity or matching degree (ROUGE) of each sentence of the target partial data and the target source text, and extracts the sentence set having the highest ROUGE in the target source text as the prototype text. ..
  • the prototype text may be extracted using the learned extraction model.
  • the determination unit 13 calculates the similarity or agreement (ROUGE) between the prototype text and the target partial data as the score of the target partial data (S104).
  • the determination unit 13 divides each of the prototype text and the target partial data into words by using morphological analysis or the like as shown in FIG. 6, and calculates the F score of ROUGE-L.
  • the F score of ROUGE-L is 0.824.
  • the determination unit 13 compares the score (F score) with the threshold value (S105). If the score exceeds the threshold value, the determination unit 13 determines that the target partial data is adopted as a component of the training data (learning data for the neural summary model) as the summary sentence for the target source text (S106). ). In this case, the set of the target source text, the prototype text, and the target partial data becomes the learning data.
  • the determination unit 13 determines that the target partial data is not adopted as a component of the learning data of the summary sentence for the target source text.
  • the target partial data is adopted as a component of the learning data of the summary sentence for the target source text.
  • a new summary sentence is automatically generated as training data based on the summary sentence created in advance as training data for the neural summary model (extension of the training data). can do.). Therefore, it is possible to streamline the collection of training data for the neural summary model. As a result, it can be expected that the accuracy of the neural summarization model will be improved.
  • the rewriting data from extraction to generation is expanded.
  • the data has a degree of similarity with the extraction result or more, it can be expected to improve the accuracy by using it as effective learning data.
  • the partial data generation unit 11 is an example of the generation unit.
  • the prototype text extraction unit 12 is an example of an extraction unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

学習データ生成方法は、テキストデータに対して作成されている要約文の部分データを生成する生成手順と、前記部分データとの類似性に基づいて、前記テキストデータの一部分の文集合を前記テキストデータから抽出する抽出手順と、前記部分データと前記文集合との類似性に基づいて、要約文を生成するニューラルネットワークに対する学習データとして前記部分データを採用するか否かを判定する判定手順と、をコンピュータが実行することで、ニューラル要約モデルに対する学習データの収集を効率化する。

Description

学習データ生成方法、学習データ生成装置及びプログラム
 本発明は、学習データ生成方法、学習データ生成装置及びプログラムに関する。
 ニューラル要約モデルは、要約対象となるソーステキストと、要約の正解となる要約データとのペアデータを学習データとして必要とする。又は、当該ペアデータに対して更なるパラメータを学習データとして必要とするモデルも有る(例えば、非特許文献1)。いずれのモデルでも学習データが多いほど要約の精度は高くなる。
Gonc,alo M. Correia,Andre F. T. Martins、A Simple and Effective Approach to Automatic Post-Editing with Transfer Learning、Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3050-3056、July 28 - August 2, 2019.
 上記の学習データにおける要約の正解となる要約データは人手によって作成する必要がある。しかし、人手で作成された質の良い要約データを大量に集めることは高コストである。
 本発明は、上記の点に鑑みてなされたものであって、ニューラル要約モデルに対する学習データの収集を効率化することを目的とする。
 そこで上記課題を解決するため、学習データ生成方法は、テキストデータに対して作成されている要約文の部分データを生成する生成手順と、前記部分データとの類似性に基づいて、前記テキストデータの一部分の文集合を前記テキストデータから抽出する抽出手順と、前記部分データと前記文集合との類似性に基づいて、要約文を生成するニューラルネットワークに対する学習データとして前記部分データを採用するか否かを判定する判定手順と、をコンピュータが実行する。
 ニューラル要約モデルに対する学習データの収集を効率化することができる。
本発明の実施の形態における学習データ生成装置10のハードウェア構成例を示す図である。 本発明の実施の形態における学習データ生成装置10の機能構成例を示す図である。 学習データ生成装置10が実行する処理手順の一例を説明するためのフローチャートである。 部分データの一例を示す図である。 プロトタイプテキストの抽出例を示す図である。 ROUGEの計算例を示す図である。
 以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における学習データ生成装置10のハードウェア構成例を示す図である。図1の学習データ生成装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
 学習データ生成装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って学習データ生成装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
 図2は、本発明の実施の形態における学習データ生成装置10の機能構成例を示す図である。図2において、学習データ生成装置10は、部分データ生成部11、プロトタイプテキスト抽出部12及び判定部13を有する。これら各部は、学習データ生成装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。
 部分データ生成部11は、ソーステキスト(要約対象のテキストデータ)に対して作成されている要約文の部分データを生成する。
 プロトタイプテキスト抽出部12は、当該部分データとの類似性に基づいて、ソーステキストの一部分の文集合(以下「プロトタイプテキスト」という。)をソーステキストから抽出する。
 判定部13は、当該部分データとプロトタイプテキストとの類似性に基づいて、ニューラル要約モデルに対する学習データとして前記部分データを採用するか否かを判定する。なお、ニューラル要約モデルとは、入力文(ソーステキスト)に対する要約文を生成するニューラルネットワークをいう。
 なお、本実施の形態では、学習データとして、ソーステキスト及び正解の要約文に加え、3番目のパラメータを必要とするニューラル要約モデルに対する学習データが生成される。本実施の形態では、プロトタイプテキストが当該パラメータに該当する。
 以下、学習データ生成装置10が実行する処理手順について説明する。図3は、学習データ生成装置10が実行する処理手順の一例を説明するためのフローチャートである。
 ステップS101において、部分データ生成部11は、ニューラル要約モデルに対する学習データにおける、要約対象のテキストデータ(以下「対象ソーステキスト」という。)に対して予め作成されている1つの要約文を示すデータ(以下、「対象要約データ」という。)を入力する。対象要約データは、1以上の文を含んでもよい。又は、対象要約データは1文以上の文集合のリスト形式のデータであってもよい。
 続いて、部分データ生成部11は、対象要約データを文単位に分割し、分割後の各文を1以上組み合わせた(結合した)部分データを生成する(S102)。なお、対象要約データが、文集合のリストである場合には、当該文集合単位で分割され、1以上の文集合を組み合わせた部分データが生成されてもよい。
 図4は、部分データの一例を示す図である。図4では、リスト形式の対象要約データから生成された部分データの一例が示されている。図4において、部分データ1は、対象要約データの1文目のみを含む。部分データ2は、対象要約データの1文目及び2文目を含む。
 なお、他の文の組み合わせが部分データとして生成されてもよい。この際、対象要約データにおいて連続していない文同士の結合結果が部分データとされてもよい。また、対象要約データを構成する文の集合の全通りの組み合わせが部分データとして生成されてもよい。
 続いて、生成された部分データごとに、ステップS103~S106を含むループ処理L1が実行される。ループ処理L1において処理対象とされている部分データを、以下「対象部分データ」という。
 ステップS103において、プロトタイプテキスト抽出部12は、対象ソーステキストにおいて、対象部分データとの類似性(一致性)が最も高い部分(1以上の文の集合)をプロトタイプテキストとして抽出する。
 図5は、プロトタイプテキストの抽出例を示す図である。図5では、部分データ1が対象部分データであり、対象ソーステキストの冒頭の一文が部分データ1に対するプロトタイプテキストとして抽出された例が示されている。
 例えば、プロトタイプテキスト抽出部12は、対象部分データと対象ソーステキストの各文の類似度又は一致度(ROUGE)を計算し、対象ソーステキスト中において最もROUGEが高くなる文集合をプロトタイプテキストとして抽出する。この際、学習済の抽出モデルを利用してプロトタイプテキストが抽出されてもよい。
 続いて、判定部13は、プロトタイプテキストと対象部分データの類似度又は一致度(ROUGE)を対象部分データのスコアとして計算する(S104)。この際、判定部13は、プロトタイプテキスト及び対象部分データのそれぞれについて、図6に示されるように、形態素解析などを用いて単語分割を行っておき、ROUGE-LのFスコアを計算する。なお、図6の例において、ROUGE-LのFスコア=0.824である。
 続いて、判定部13は、スコア(Fスコア)と閾値とを比較する(S105)。当該スコアが閾値を超えていれば、判定部13は、対象部分データを、対象ソーステキストに対する要約文としての学習データ(ニューラル要約モデルに対する学習データ)の構成要素として採用することを判定する(S106)。この場合、対象ソーステキスト、プロトタイプテキスト及び対象部分データの組が学習データとなる。
 一方、当該スコアが閾値以下であれば、判定部13は、対象部分データを、対象ソーステキストに対する要約文の学習データの構成要素として採用しないことを判定する。
 例えば、上記のようにFスコアが0.824である場合、閾値が0.5であれば、対象部分データは対象ソーステキストに対する要約文の学習データの構成要素として採用される。
 上述したように、本実施の形態によれば、ニューラル要約モデルに対する学習データとして予め作成されている要約文に基づいて、自動的に新たな要約文が学習データとして生成される(学習データを拡張することができる。)。したがって、ニューラル要約モデルに対する学習データの収集を効率化することができる。その結果、ニューラル要約モデルの精度の向上を期待することができる。
 なお、通常の生成型要約の場合は、内容の抽出と文の生成を同時に学習するため、一つのソーステキストから複数の要約パターンを生成し追加することはノイズとなり有効ではない。一方、抽出と生成を別々に学習し、生成時に抽出結果を参考としながら生成を行うモデルの場合、抽出結果からの書き換えを主に学習することになるため、一つのソーステキストから複数の要約データが生成されてもノイズとはならない(抽出モジュールによって内容をコントロールする。)。
 つまり、本実施の形態における学習データの拡張においては、抽出から生成への書き換えデータを拡張していると考えることもできる。この場合には、抽出結果との類似度が一定以上のデータであれば有効な学習データとして利用することで精度の向上が期待できる。
 なお、本実施の形態において、部分データ生成部11は、生成部の一例である。プロトタイプテキスト抽出部12は、抽出部の一例である。
 以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10     学習データ生成装置
11     部分データ生成部
12     プロトタイプテキスト抽出部
13     判定部
100    ドライブ装置
101    記録媒体
102    補助記憶装置
103    メモリ装置
104    CPU
105    インタフェース装置
B      バス

Claims (7)

  1.  テキストデータに対して作成されている要約文の部分データを生成する生成手順と、
     前記部分データとの類似性に基づいて、前記テキストデータの一部分の文集合を前記テキストデータから抽出する抽出手順と、
     前記部分データと前記文集合との類似性に基づいて、要約文を生成するニューラルネットワークに対する学習データとして前記部分データを採用するか否かを判定する判定手順と、
    をコンピュータが実行することを特徴とする学習データ生成方法。
  2.  前記判定手順は、前記部分データと前記文集合とのROUGEを計算し、前記ROUGEと閾値との比較に基づいて、前記学習データとして前記部分データを採用するか否かを判定する、
    ことを特徴とする請求項1記載の学習データ生成方法。
  3.  前記部分データは、前記要約文を構成する1以上の文の組み合わせである、
    ことを特徴とする請求項1又は2記載の学習データ生成方法。
  4.  テキストデータに対して作成されている要約文の部分データを生成する生成部と、
     前記部分データとの類似性に基づいて、前記テキストデータの一部分の文集合を前記テキストデータから抽出する抽出部と、
     前記部分データと前記文集合との類似性に基づいて、要約文を生成するニューラルネットワークに対する学習データとして前記部分データを採用するか否かを判定する判定部と、
    を有することを特徴とする学習データ生成装置。
  5.  前記判定部は、前記部分データと前記文集合とのROUGEを計算し、前記ROUGEと閾値との比較に基づいて、前記学習データとして前記部分データを採用するか否かを判定する、
    ことを特徴とする請求項4記載の学習データ生成装置。
  6.  前記部分データは、前記要約文を構成する1以上の文の組み合わせである、
    ことを特徴とする請求項4又は5記載の学習データ生成装置。
  7.  請求項1乃至3いずれか一項記載の学習データ生成方法をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2019/049661 2019-12-18 2019-12-18 学習データ生成方法、学習データ生成装置及びプログラム WO2021124488A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/785,967 US20230026110A1 (en) 2019-12-18 2019-12-18 Learning data generation method, learning data generation apparatus and program
PCT/JP2019/049661 WO2021124488A1 (ja) 2019-12-18 2019-12-18 学習データ生成方法、学習データ生成装置及びプログラム
JP2021565240A JP7207571B2 (ja) 2019-12-18 2019-12-18 学習データ生成方法、学習データ生成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/049661 WO2021124488A1 (ja) 2019-12-18 2019-12-18 学習データ生成方法、学習データ生成装置及びプログラム

Publications (1)

Publication Number Publication Date
WO2021124488A1 true WO2021124488A1 (ja) 2021-06-24

Family

ID=76477443

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/049661 WO2021124488A1 (ja) 2019-12-18 2019-12-18 学習データ生成方法、学習データ生成装置及びプログラム

Country Status (3)

Country Link
US (1) US20230026110A1 (ja)
JP (1) JP7207571B2 (ja)
WO (1) WO2021124488A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210141123A (ko) * 2020-05-15 2021-11-23 한국전자통신연구원 인공지능의 부분 학습 방법 및 이를 위한 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019082841A (ja) * 2017-10-30 2019-05-30 富士通株式会社 生成プログラム、生成方法及び生成装置
US20190325066A1 (en) * 2018-04-23 2019-10-24 Adobe Inc. Generating a Topic-Based Summary of Textual Content

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6415619B2 (ja) * 2017-03-17 2018-10-31 ヤフー株式会社 解析装置、解析方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019082841A (ja) * 2017-10-30 2019-05-30 富士通株式会社 生成プログラム、生成方法及び生成装置
US20190325066A1 (en) * 2018-04-23 2019-10-24 Adobe Inc. Generating a Topic-Based Summary of Textual Content

Also Published As

Publication number Publication date
US20230026110A1 (en) 2023-01-26
JPWO2021124488A1 (ja) 2021-06-24
JP7207571B2 (ja) 2023-01-18

Similar Documents

Publication Publication Date Title
US11741309B2 (en) Templated rule-based data augmentation for intent extraction
JP7100747B2 (ja) 学習データ生成方法および装置
US11520992B2 (en) Hybrid learning system for natural language understanding
US9342301B2 (en) Converting and input script to a natural language description
JP2021523464A5 (ja)
CN1617134A (zh) 使用机器翻译技术处理释义的系统
US11238235B2 (en) Automated novel concept extraction in natural language processing
JP2016201112A (ja) ウェブページ処理装置及びウェブページ処理方法
WO2021124488A1 (ja) 学習データ生成方法、学習データ生成装置及びプログラム
JP2018205945A (ja) 対話応答文書自動作成人工知能装置
CN112836525B (zh) 一种基于人机交互机器翻译系统及其自动优化方法
Kim et al. Korean FrameNet expansion based on projection of Japanese FrameNet
KR102074266B1 (ko) 한국어 어순 기반 단어 임베딩 장치 및 그 방법
JP2014164499A (ja) 画像分類装置及び画像分類プログラム
JP7384221B2 (ja) 要約学習方法、要約学習装置及びプログラム
CN111368091B (zh) 文档翻译方法及装置
CN111078886B (zh) 基于dmcnn的特殊事件提取系统
Sridhar et al. A Scalable Approach to Building a Parallel Corpus from the Web.
JP2018077604A (ja) 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
JP2010170303A (ja) 機械翻訳装置及びプログラム
JP2006190072A (ja) 自動換言装置、自動換言方法及び換言処理プログラム
JP7003343B2 (ja) ベクトル計算装置、分類装置及び出力プログラム
JP2019087058A (ja) 文章中の省略を特定する人工知能装置
US20230252360A1 (en) Efficient optimization of machine learning models
US11461672B2 (en) Plug-and-ingest framework for question answering systems

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19956983

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021565240

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19956983

Country of ref document: EP

Kind code of ref document: A1