WO2019167835A1 - フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム - Google Patents

フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム Download PDF

Info

Publication number
WO2019167835A1
WO2019167835A1 PCT/JP2019/006812 JP2019006812W WO2019167835A1 WO 2019167835 A1 WO2019167835 A1 WO 2019167835A1 JP 2019006812 W JP2019006812 W JP 2019006812W WO 2019167835 A1 WO2019167835 A1 WO 2019167835A1
Authority
WO
WIPO (PCT)
Prior art keywords
phrase
relationship
label
input
learning
Prior art date
Application number
PCT/JP2019/006812
Other languages
English (en)
French (fr)
Inventor
いつみ 斉藤
京介 西田
久子 浅野
準二 富田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2019537319A priority Critical patent/JP6603828B1/ja
Priority to US16/977,422 priority patent/US11651166B2/en
Publication of WO2019167835A1 publication Critical patent/WO2019167835A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

入力部210が、入力フレーズと、接続表現又は関係ラベルとの少なくとも一方とからなる2つ組を受け付ける。フレーズ生成部221が、予め学習されたエンコーダを用いて、入力フレーズをベクトルに変換し、予め学習されたデコーダを用いて、変換されたベクトルと、入力された接続表現又は関係ラベルとから、入力フレーズに対して接続表現又は関係ラベルが表す関係性を有するフレーズを生成する。

Description

フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム
 本発明は、フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラムに関する。
 2つのテキスト(以降、フレーズともいう)とその間の関係性を表す関係ラベル(以降、単にラベルともいう)からなる3つ組{フレーズ1、フレーズ2、ラベル}が入力として与えられた際に、3つの組み合わせの信頼度スコア(以下関係スコア)を出力する、関係性推定技術がある。関係スコアとは、入力として与えた3つ組{フレーズ1、フレーズ2、ラベル}の組み合わせが正しいか否かを数値化したものである。
 非特許文献1は、コーパスを入力とし、述語項構造の共起情報と節間関係の分布を用いて、前記3つ組を事態間関係知識として獲得するものである。
 非特許文献2は、人手により作成された大量の3つ組データを使って、ニューラルネットワークの学習を行い、関係スコアを推定するものである。
大友謙一、柴田知秀、黒橋禎夫、「述語項構造の共起情報と節間関係の分布を用いた事態間関係知識の獲得」、言語処理学会 第17 回年次大会 発表論文集 (2011 年3 月) Xiang Li, Aynaz Taheri, Lifu Tu, Kevin Gimpel," Commonsense Knowledge Base Completion ", Proc. of ACL, 2016.
 従来技術では、関係性推定において3つ組{フレーズ1、フレーズ2、ラベル}を入力とし、関係スコアを出力するためのモデルを学習している。そのため{フレーズ1、ラベル}を入力としてフレーズ2を予測したいような場合には、フレーズ2を用意し{フレーズ1、フレーズ2、ラベル}という組み合わせを作成してから関係スコアを計算する必要があり、{フレーズ1、ラベル}を入力として、フレーズ1と、ラベルにより定義される関係性を持つ、任意のフレーズ2を生成することはできないという課題がある。
 本発明は、上記課題を解決するために成されたものであり、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成モデルを学習することができるフレーズ生成モデル学習装置、方法、及びプログラムを提供することを目的とする。
 また、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成装置、方法、及びプログラムを提供することを目的とする。
 上記目的を達成するために、本発明に係るフレーズ生成モデル学習装置は、フレーズの組み合わせと、フレーズ間の関係性を表わす接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる3つ組を学習データとして用いて、フレーズと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる2つ組から、フレーズをベクトルに変換するエンコーダ、及び前記変換されたベクトルと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルとから、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを学習する学習部を含んで構成されている。
 本発明に係るフレーズ生成モデル学習方法は、学習部が、フレーズの組み合わせと、フレーズ間の関係性を表わす接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる3つ組を学習データとして用いて、フレーズと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる2つ組から、フレーズをベクトルに変換するエンコーダ、及び前記変換されたベクトルと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルとから、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを学習する。
 また、本発明に係るフレーズ生成装置は、入力フレーズと、フレーズ間の関係性を表わす接続表現又は関係ラベルとの少なくとも一方とからなる2つ組を入力とし、予め学習されたフレーズ生成モデルに基づき、前記入力フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するフレーズ生成部を含んで構成されている。
 本発明に係るフレーズ生成方法は、フレーズ生成部が、入力フレーズと、フレーズ間の関係性を表わす接続表現又は関係ラベルとの少なくとも一方とからなる2つ組を入力とし、予め学習されたフレーズ生成モデルに基づき、前記入力フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成する。
 本発明に係るプログラムは、コンピュータを、上記発明に係るフレーズ生成モデル学習装置又はフレーズ生成装置の各部として機能させるためのプログラムである。
 本発明のフレーズ生成モデル学習装置、方法、及びプログラムによれば、フレーズをベクトルに変換するエンコーダ、及び前記変換されたベクトルと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルとから、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを学習することにより、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成モデルを学習することができる、という効果が得られる。
 本発明のフレーズ生成装置、方法、及びプログラムによれば、フレーズと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる2つ組から、フレーズ生成モデルに基づき、入力フレーズに対して関係性を有するフレーズを生成することができる、という効果が得られる。
本発明の第1の実施の形態に係る関係性推定装置の構成を示すブロック図である。 関係スコアの計算方法を説明するための図である。 関係スコアの計算方法を説明するための図である。 本発明の第1の実施の形態に係る関係性推定モデル学習装置の構成を示すブロック図である。 本発明の第1の実施の形態に係る関係性推定モデル学習装置の学習データ生成部の構成を示すブロック図である。 入力テキストの一例を示す図である。 係り受け解析結果の一例を示す図である。 接続表現データベースの一例を示す図である。 本発明の第1の実施の形態に係る関係性推定モデル学習装置における関係性推定モデル学習処理ルーチンを示すフローチャートである。 本発明の第1の実施の形態に係る関係性推定装置における関係性推定処理ルーチンを示すフローチャートである。 フレーズ生成モデルの一例を示す図である。 本発明の第2の実施の形態に係るフレーズ生成装置の構成を示すブロック図である。 本発明の第2の実施の形態に係るフレーズ生成装置におけるフレーズ生成処理ルーチンを示すフローチャートである。 関係性推定モデル及びフレーズ生成モデルの一例を示す図である。 本発明の第3の実施の形態に係るフレーズ生成装置の構成を示すブロック図である。 本発明の第3の実施の形態に係るフレーズ生成装置におけるフレーズ生成処理ルーチンを示すフローチャートである。 コンピュータのハードウェア構成を示すブロック図である。
 以下、図面を参照して本発明の実施の形態を詳細に説明する。
 [第1の実施の形態]
 <本発明の第1の実施の形態の概要>
 関係性推定では、2つのテキストとその間の関係性を表す接続表現又は関係ラベルであるラベルからなる3つ組{フレーズ1、フレーズ2、ラベル}が入力として与えられた際に、3つの組み合わせの信頼度スコア(以下関係スコア)を出力する。
 ここで、接続表現とは、「ので」など、文中における、関係を表す表現そのものであり、関係ラベルとは、「理由」「結果」など、関係を表すラベルであり、接続表現の持つ意味を抽象化したものである。ラベルとは、接続表現や、関係ラベルを含む上位概念であり、「ので」「理由」などのラベルデータのことである。
 例えば、入力となる3つ組が、{テキスト1:雨が降る,テキスト2:地面が濡れる,ラベル:結果}であり、出力が関係スコアとなる。
 本実施の形態では、2つのテキストの関係として、ラベルが正しいか否かを推定する方法について説明する。
 また、本発明の実施の形態では接続表現を起点として、係り受け構造を用いてフレーズとその間をつなぐ接続表現の3つ組を抽出する。そして、抽出した3つ組を用いて、関係性を推定するニューラルネットワークモデルである関係性推定モデルを学習する。
 <本発明の第1の実施の形態に係る関係性推定装置の構成>
 次に、本発明の第1の実施の形態に係る関係性推定装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る関係性推定装置100は、CPUと、RAMと、後述する関係性推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この関係性推定装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部40とを備えている。
 入力部10は、2つのフレーズ(テキスト)と、その間の関係性を表す接続表現であるラベルからなる3つ組{フレーズ1、フレーズ2、ラベル}を受け付ける。
 なお、本実施の形態では、3つ組に含まれる、2つのテキスト間の関係性を表すラベルとして、接続表現そのものを用いる場合を例に説明する。
 演算部20は、推定部21と、記憶部22とを備える。
 記憶部22には、後述する関係性推定モデル学習装置150により学習された、関係性推定モデルが記憶される。
 関係性推定モデルにはニューラルネットワークを用いることとし、学習方法については関係性推定モデル学習装置150において説明する。ニューラルネットワークであればどのようなものでもよい。また、別の機械学習でもよいが、ニューラルネットワークの方が効果は高い。
 推定部21は、記憶部22に記憶されている関係性推定モデルを用いて、入力された3つ組に対する関係スコアを推定し、出力部40により出力する。
 関係スコアとは、入力として与えた3つ組の2つのフレーズ間にラベルが示す関係性があるか否かを数値化したものである。例えば、0~1の値を取り、1に近い程、関係があることを示すものとする。
 推定部21の処理について以下に説明する。
 まず入力{フレーズ1、フレーズ2、ラベル}の3つをそれぞれベクトルに変換する。
 変換したフレーズ1のベクトルをh、フレーズ2のベクトルをt、接続表現のベクトルをrとする。変換方法は、フレーズや単語をベクトル化する手法であれば何でもよい。本実施の形態では参考文献1の手法を利用する。
 [参考文献1]Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.
 関係スコア計算方法には、以下の2つの方法が考えられる。
 (スコア計算方法1)
 図2に示すように、h、t、rを連結し、多層パーセプトロンなどを用いて、1次元の出力値である関係スコアscore(h, t, r)を出力する。
 (スコア計算方法2)
 図3に示すように、hとrを連結し、多層パーセプトロンなどを用いて、r次元のベクトルE_hrを出力し、tから、多層パーセプトロンなどを用いて、r次元のベクトルE_tを出力し、E_hrとE_tの近さで関係スコアを計算する。両ベクトルの近さは、例えばコサイン類似度等を用いればよい。
 例えば、推定部21は、3つ組{フレーズ1:雨が降る,フレーズ2:地面が濡れる,ラベル:ので}に対して、関係スコア0.87を出力する。
 また、推定部21は、出力された関係スコアを所定の閾値で判定し、フレーズ1とフレーズ2には「ので」が示す「結果」という関係性があるか否かを推定する。例えば、関係スコアの値が0.6、閾値が0.4の場合は、0.6>0.4なので関係性がある、と推定する。ただし、閾値判定は知識獲得や0/1にスコアを落とし込む必要がある場合なので、用途によっては閾値判定を行わずに、関係スコアの値をそのまま出力してもよい。
 <本発明の第1の実施の形態に係る関係性推定モデル学習装置の構成>
 次に、本発明の第1の実施の形態に係る関係性推定モデル学習装置の構成について説明する。図4に示すように、本発明の実施の形態に係る関係性推定モデル学習装置150は、CPUと、RAMと、後述する関係性推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この関係性推定モデル学習装置150は、機能的には図4に示すように入力部50と、演算部60と、出力部90とを備えている。
 入力部50は、入力テキストを受け付ける。
 演算部60は、学習データ生成部62と、学習部63とを備えている。
 学習データ生成部62は、図5に示すように、基本解析部71と、フレーズ抽出部72と、接続表現データベース73とを備えている。
 基本解析部71は、入力テキストに対して係り受け解析を行う。
 図6に、入力テキストの例を示し、図7に、係り受け解析結果の例を示す。係り受け解析は任意のものを用いればよく、例えば、既知の形態素解析器であるCaboChaを利用する。
 フレーズ抽出部72は、係り受け解析結果からフレーズを抽出する。本実施の形態では、フレーズとは、係り受け関係にある主語と述語を最小単位として,その他形容詞節を最大n個(nは任意の自然数)まで考慮するものとする。
 上記図7を係り受け解析結果の例とすると、下記のようなフレーズが抽出される。フレーズを抽出する際には、解析結果の原型(ただし、必ずしも原型にしなくてもよい)を利用し、「壊れたので」→「壊れる」、「買い換えました」→「買い換える」のように変換したものを抽出する。
携帯電話が壊れる
買い換える
xxx7に買い換える
xxx5を換える
 なお、フレーズを抽出する際には、基本的に主語+動詞の組み合わせを基本単位とするが、サ変名詞動詞は単独でもよいものとする。
 また、係り受け関係を考慮せずに、接続表現の前後の文字列それぞれを、フレーズとして抽出してもよい。例えば、「aaaa[接続表現]bbbb」という文が存在する場合に、「aaaa」と「bbbb」とをそれぞれフレーズとして抽出してもよい。この場合、[接続表現]が接続表現を含む文節を表し、「aaaa」と「bbbb」が接続表現を含む前記文節を挟んで、前及び後の位置関係にあるフレーズを表している。
 そして、フレーズ抽出部72は、上記フレーズの組み合わせのうち、接続表現が含まれる文節と係り受け関係にあるフレーズを抽出し、{フレーズ1、フレーズ2、接続表現}からなる3つ組を作成する。
 本実施の形態においてラベルとして用いる接続表現とは、フレーズ間の関係性を表す表現であらかじめ定められたものとする。例えば、「なので」「ので」「ために」「と」「たら」「場合」「とき」「時」「ば」「から」「が」などの接続詞は接続表現として用いることが可能である。本実施の形態では、図8(A)に示すように、接続表現データベース73に接続表現が予め登録されているものとする。
 上記図7の係り受け解析結果の例では、以下の3つ組が作成される。
{携帯電話が壊れる、買い換える、ので}
{携帯電話が壊れる、xxx7に買い換える、ので}
{携帯電話が壊れる、xxx5を買い換える、ので}
 接続表現の種類をN通りとすると、最終的な3つ組に含まれるラベルの種類はN通りとなる。
 また、フレーズ抽出部72の別の実施例として、上記のように3つ組を抽出してそのまま出力する方法(抽出方法1とする)以外に、抽出後に次の3通りの処理を行う方法がある。
 (抽出方法2)
 図8(B)に示すように、接続表現データベース73に、接続表現と接続表現が表す関係性を示す関係ラベルが予め登録されているものとする。
 接続表現データベース73を用いて、接続表現を関係ラベルに変換して{フレーズ1、フレーズ2、関係ラベル}を出力する。
 上記図7の係り受け解析結果の例では、以下の3つ組が作成される。
{携帯電話が壊れる、買い換える、原因}
{携帯電話が壊れる、xxx7に買い換える、原因}
{携帯電話が壊れる、xxx5を買い換える、原因}
 関係ラベルの種類をM通りとすると、最終的に出力されるラベルの種類はM通りとなる。
 上記抽出方法2を用いる場合には、関係性推定装置100の入力となる3つ組は、{フレーズ1、フレーズ2、関係ラベル}となる。
 (抽出方法3)
 人手により、接続表現を関係ラベルに変換したもの{フレーズ1、フレーズ2、関係ラベル}、抽出方法2の{フレーズ1、フレーズ2、関係ラベル}を合わせて出力する。最終的に出力されるラベルの種類はM通りとなる。
 上記抽出方法3を用いる場合には、関係性推定装置100の入力となる3つ組は、{フレーズ1、フレーズ2、関係ラベル}となる。
 (抽出方法4)
 人手により、接続表現を関係ラベルに変換したもの{フレーズ1、フレーズ2、関係ラベル}と、抽出方法1の{フレーズ1、フレーズ2、接続表現}を合わせて出力する。最終的に出力されるラベルの種類はN+M通りとなる。
 上記抽出方法4を用いる場合には、関係性推定装置100の入力となる3つ組は、{フレーズ1、フレーズ2、接続表現}又は{フレーズ1、フレーズ2、関係ラベル}となる。
 なお、上記の抽出方法1~抽出方法4では日本語の文書の係り受け解析結果を用いて3つ組{フレーズ1、フレーズ2、関係ラベル}を抽出したが、例えば、英語の場合は参考文献2に記載されている方法により3つ組を抽出すればよい。
 [参考文献2]
 Zhiyi Luo, Yuchen Sha, Kenny Q. Zhu, Seung-won Hwang, and Zhongyuan Wang. 2016. Commonsense causal reasoning between short texts. In Proceedings of the Fifteenth International Conference on Principles of Knowledge Representation and Reasoning, KR'16, pages 421-430. AAAI Press.
 ただし、必ずしも日本語の文書や英語の文書から3つ組が抽出される必要はなく、本発明の各実施形態は任意の言語の文書から抽出された3つ組を用いることが可能である。
 学習部63は、学習データ生成部62で抽出した3つ組{フレーズ1、フレーズ2、ラベル}を学習における正解データとして用い、関係性推定モデルの学習を行う。
 関係性推定モデルは前述したように、多層パーセプトロン等のニューラルネットワーク(以下NN)を用い、下記の方法で損失計算を行い、NNのパラメータの更新を行うこととする。
 なお、学習に用いるデータは、負例を足して用いる事とし、正例の3つ組の一つの要素をランダムに置き換えたものを負例とする。
 (損失計算方法1)
 上記の関係スコア計算方法1に対応して、以下の式で損失計算を行う。
Figure JPOXMLDOC01-appb-M000001
 ただし、score(h', t', r')は、負例のスコアを表す。Lossの計算は,hinge loss, sigmoid loss, softmax lossなどが利用可能である。
 (損失計算方法2)
 上記の関係スコア計算方法2に対応して、以下の式で損失計算を行う。
Figure JPOXMLDOC01-appb-M000002
 ただし、E_h'r'-E_t'は、負例のスコアを表す。Lossの計算は,hinge loss, sigmoid loss, softmax lossなどが利用可能である。
 <本発明の第1の実施の形態に係る関係性推定モデル学習装置の作用>
 次に、本発明の第1の実施の形態に係る関係性推定モデル学習装置150の作用について説明する。入力部50において入力テキストを受け付けると、関係性推定モデル学習装置150は、図9に示す関係性推定モデル学習処理ルーチンを実行する。
 まず、ステップS100で、入力テキストに対して係り受け解析を行う。
 そして、ステップS102で、入力テキストに対する係り受け解析結果に基づいて、フレーズを抽出する。
 ステップS104では、上記ステップS102で抽出されたフレーズの組み合わせのうち、接続表現が含まれる文節と係り受け関係にあるフレーズを抽出し、{フレーズ1、フレーズ2、ラベル}からなる3つ組を作成する。
 ステップS106では、上記ステップS104で作成された3つ組に含まれるフレーズ1、フレーズ2、及びラベルの各々をベクトルに変換する。
 そして、ステップS108では、3つ組{フレーズ1、フレーズ2、ラベル}をベクトルに変換した結果を、学習における正解データとして用い、関係性推定モデルの学習を行い、関係性推定モデル学習処理ルーチンを終了する。
 <本発明の第1の実施の形態に係る関係性推定装置の作用>
 次に、本発明の第1の実施の形態に係る関係性推定装置100の作用について説明する。関係性推定モデル学習装置150によって予め学習された関係性推定モデルが関係性推定装置100に入力されると、関係性推定装置100は、関係性推定モデルを記憶部22へ格納する。そして、入力部10が、推定対象の3つ組{フレーズ1、フレーズ2、ラベル}を受け付けると、関係性推定装置100は、図10に示す関係性推定処理ルーチンを実行する。
 ステップS120で、入力部10により受け付けた3つ組に含まれるフレーズ1、フレーズ2、及びラベルの各々をベクトルに変換する。
 ステップS122では、上記ステップS120で3つ組{フレーズ1、フレーズ2、ラベル}をベクトルに変換した結果と、関係性推定モデルとに基づいて、関係スコアを算出する。
 ステップS124では、上記ステップS122で算出された関係スコアが所定の閾値以上であるか否かを判定することにより、フレーズ1とフレーズ2にはラベルが示す関係性があるか否かを判定し、判定結果を出力部40により出力して、関係性推定処理ルーチンを終了する。
 以上説明したように、本発明の第1の実施の形態に係る関係性推定モデル学習装置によれば、入力テキストに対する係り受け解析結果に基づいて、フレーズ間の関係性を表わす接続表現が含まれる文節と係り受け関係にあるフレーズの組み合わせを抽出し、フレーズの組み合わせと接続表現又は関係ラベルとからなる3つ組を作成することにより、学習データの作成コストをかけることなく、フレーズ間の関係性を精度良く推定することができる関係性推定モデルを学習することができる。
 また、上記抽出方法1または2を用いる場合には、入力テキストから接続表現を用いて抽出した3つ組のデータを学習データとして、フレーズのニューラル関係知識推定モデルを構築することにより、人手データなしに、接続表現に基づくニューラル関係性のモデル化が可能となる。また、人手の正解なしで,あらかじめ定めた関係ラベルと任意のフレーズの3つ組みに対する関係スコアを求めるモデルを構築することができる。
 上記抽出方法2を用いる場合には、「ので」のような接続表現そのものではなく、「原因」のように抽象化した関係性の推定ができる。
 また、上記抽出方法3を用いる場合には、接続表現と関係ラベルが一対一に対応しない場合(例えば、接続表現「ため」と関係ラベル「原因」「目的」)でも、人手で与えられたデータを元に間違いを訂正して学習できる。
 また、上記抽出方法4を用いる場合には、「ので」のような接続表現そのものと、「原因」のように抽象化した関係の両方が推定ができる。また、抽出方法3の効果も得られる。人手対応づけラベルと、接続表現を混ぜるパタンでは、人手変換きる確実なラベルとそうでない場合を同時に考慮するモデルを作ることができる。
 また、本発明の第1の実施の形態に係る関係性推定装置によれば、フレーズ間の関係性を精度良く推定することができる。
 [第2の実施の形態]
 <本発明の第2の実施の形態の原理>
 まず、入力フレーズに対して関係性を有するフレーズを生成するモデルについて説明する。本実施の形態では、フレーズを生成するためにニューラルネットワークにおけるアテンションベースのEncoder-decoderモデルを、フレーズ生成モデルとして用いる(図11参照)。さらに、従来のアテンションベースのEncoder-decoderモデルに加えて関係ラベルの情報を考慮する点が従来のモデルと異なる。Encoder-decoderモデルは、テキストに対応する情報を中間状態(ベクトルの系列。以降、中間出力ともいう。)に変換する機能を担うニューラルネットワーク(これを「エンコーダ」という)と、中間出力をテキストに変換する機能を担うニューラルネットワーク(これを「デコーダ」という)とから構成されるニューラルネットワークである。デコーダでは、ラベルrを各時刻の入力として用いている。
 本実施の形態ではフレーズの単語列に加えて、ラベルrの情報が存在するため、関係ラベルを考慮したEncoder-decoderモデルを構築する。ここで、入力フレーズの単語ベクトル系列をX=(x1, x2, …, xJ)、出力フレーズの単語ベクトル系列をY=(y1, y2, …, yT)とすると、Yの出力確率は下記のように定式化できる。
Figure JPOXMLDOC01-appb-M000003
 ここで、xj, ytは入力/出力フレーズに含まれる単語を所定次元のベクトルに変換したものである。単語の所定次元のベクトルへの変換方法は、ニューラルネットワークに単語を入力する際の、一般的な変換方法を用いればよい。入力/出力フレーズは、単語ベクトル系列となる。
 vrはラベルに対応する所定次元のベクトルである。ラベルは、例えば以下のようにベクトルに変換する。
 1. ラベルの種類をMとし、各ラベルに1からMまでの番号を割り当てる。
 2. ベクトルvrは、当該ラベルに割り当てられた番号の要素が1で、それ以外の要素が0となるM次元のone-hotベクトルrに対し、ニューラルネットワークのパラメータ行列を用いて重みづけを行ったものとなる。
 上記のように、単語やラベルをニューラルネットワーク内で用いるベクトル表現に変換する際のニューラルネットワークのパラメータを、以降embeddingと呼ぶ。
 ctはattentionで重みづけられた入力側のコンテキストベクトル、stはLSTMの隠れ層の中間出力を表す。上記に示すように、デコーダの入力としてvrを結合して用いている。このような方法でデコーダ側に追加情報としてラベルを入力する方法については参考文献3などでも類似の手法が提案されているが、フレーズを生成するために本構成のようなモデルを提案している既存手法は存在しない。パラメータθはニューラルネットワークの学習可能なパラメータの集合を表し、学習によって求められる。
 [参考文献3]
 Jiwei Li, Michel Galley, Chris Brockett, Georgios Spithourakis, Jianfeng Gao, and Bill Dolan. A persona-based neural conversation model. In Proceedings of the 54th Annual Meeting of the ACL, pp. 994-1003, 2016.
 本実施の形態では、フレーズ生成装置200のEncoder-decoderモデルのパラメータは、予め学習しておく必要がある。その際の学習データとして3つ組データを用いる。3つ組データの場合、どちらのフレーズを入力としても問題ないため、1組の{フレーズ1、フレーズ2、ラベル}を用いて、{フレーズ1、ラベル:r}を入力として{フレーズ2}を推定する場合と、{フレーズ2、ラベル:r′}を入力として{フレーズ1}を推定する場合のように、入力と出力を入れ替えたデータについても学習を行う。この際、ラベルが表す関係性には方向があるため、新たに逆向きのラベルr′を導入する。従って、Encoder-decoderモデルにおいては、関係ラベルの語彙数は元のラベルの語彙数の2倍になる。
 また、Encoder-decoderの損失関数Lencdecについては、通常のEncoder-decoderモデルと同様にcross entropy関数を用いて次のように表す。
Figure JPOXMLDOC01-appb-M000004
 ここで、Nはデータ数、Lは出力側のフレーズYの単語数、ctは入力側のコンテキストベクトル、rはラベルを表す。
 <本発明の第2の実施の形態に係るフレーズ生成装置の構成>
 次に、本発明の第2の実施の形態に係るフレーズ生成装置の構成について説明する。図12に示すように、本発明の第2の実施の形態に係るフレーズ生成装置200は、CPUと、RAMと、後述するフレーズ生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このフレーズ生成装置200は、機能的には図12に示すように入力部210と、演算部220と、出力部240とを備えている。
 入力部210は、入力フレーズ(テキスト)と、フレーズ間の関係性を表すラベルとからなる2つ組を受け付ける。
 演算部220は、フレーズ生成部221と、記憶部222とを備える。
 記憶部222には、後述するフレーズ生成モデル学習装置により学習された、フレーズ生成モデルが記憶される。
 フレーズ生成モデルには上述したようにアテンションベースのEncoder-decoderモデル(上記図11参照)を用いることとし、学習方法についてはフレーズ生成モデル学習装置において説明する。
 フレーズ生成部221は、記憶部222に記憶されているフレーズ生成モデルを用いて、入力された2つ組の入力フレーズに対してラベルが表す関係性を有するフレーズを生成し、出力部240により出力する。
 具体的には、まず、エンコーダのLSTMにより、入力フレーズをベクトルに変換し、アテンションベースのデコーダを用いて、変換されたベクトルと、入力されたラベルを表すベクトルとから、フレーズを生成し、入力フレーズに対してラベルが表す関係性を有するフレーズとして出力する。
 <本発明の第2の実施の形態に係るフレーズ生成モデル学習装置の構成>
 次に、本発明の第2の実施の形態に係るフレーズ生成モデル学習装置の構成について説明する。なお、フレーズ生成モデル学習装置の構成は、第1の実施の形態に係る関係性推定モデル学習装置150と同様の構成であるため、同一符号を付して説明を省略する。
 本発明の第2の実施の形態に係るフレーズ生成モデル学習装置は、入力部50と、演算部60と、出力部90とを備えている。
 演算部60の学習部63は、学習データ生成部62で抽出した3つ組{フレーズ1、フレーズ2、ラベル}を学習データとして用いて、フレーズ生成モデルの学習を行う。
 フレーズ生成モデルは前述したように、アテンションベースのEncoder-decoderモデルを用い、上記(4)式に示す損失関数の計算を行い、エンコーダ及びデコーダのパラメータの更新を行うこととする。
 また、3つ組{フレーズ1、フレーズ2、ラベル}があるとき、2つ組{フレーズ1、ラベル}からフレーズ2の生成、2つ組{フレーズ2、ラベル}からフレーズ1の生成を一つのフレーズ生成モデルで学習する。
 両方向の関係を1つのフレーズ生成モデルで扱うため、逆方向のラベルを定義し、ラベルの空間を2倍にしてモデル学習を行う。
 元の3つ組の接続表現のラベルr=rkのとき、逆向きのラベルを新しいラベルrk'として扱う。
 例えば、3つ組{フレーズ1=テストを受ける、フレーズ2=勉強する、ラベル=ために}があるとき、下記のように2つ生成し、学習データとして用いる。
2つ組{テストを受ける、ために}→勉強する
2つ組{勉強する、ために'}→テストを受ける
 <本発明の第2の実施の形態に係るフレーズ生成モデル学習装置の作用>
 次に、本発明の第2の実施の形態に係るフレーズ生成モデル学習装置の作用について説明する。入力部50において入力テキストを受け付けると、フレーズ生成モデル学習装置は、上記図9に示す関係性推定モデル学習処理ルーチンと同様の処理ルーチンを実行し、生成された3つ組{フレーズ1、フレーズ2、ラベル}から得られる、2つ組{フレーズ1、ラベル}→フレーズ2、2つ組{フレーズ2、ラベル'}→フレーズ1を、学習における正解データとして用い、フレーズ生成モデルの学習を行う。
 <本発明の第2の実施の形態に係るフレーズ生成装置の作用>
 次に、本発明の第2の実施の形態に係るフレーズ生成装置200の作用について説明する。フレーズ生成モデル学習装置によって予め学習されたフレーズ生成モデルがフレーズ生成装置200に入力されると、フレーズ生成装置200は、フレーズ生成モデルを記憶部222へ格納する。そして、入力部210が、推定対象の2つ組{フレーズ1、ラベル}を受け付けると、フレーズ生成装置200は、図13に示すフレーズ生成処理ルーチンを実行する。
 ステップS220で、入力部210により受け付けた2つ組に含まれるフレーズ1を、フレーズ生成モデルのエンコーダのLSTMによりベクトルに変換する。
 ステップS222では、フレーズ生成モデルのアテンションベースのデコーダを用いて、上記ステップS220で変換されたベクトルと、2つ組に含まれるラベルを表すベクトルとから、フレーズを生成し、フレーズ1に対してラベルが表す関係性を有するフレーズ2として出力部240により出力して、フレーズ生成処理ルーチンを終了する。
 以上説明したように、本発明の第2の実施の形態に係るフレーズ生成モデル学習装置によれば、フレーズをベクトルに変換するエンコーダ、及び変換されたベクトルと、接続表現又は関係ラベルとから、フレーズに対して接続表現又は関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを学習することにより、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成モデルを学習することができる。
 また、これまでは関係性を有するフレーズ候補をあらかじめ用意する必要があったが、事前に候補を用意することなく関係性を有するフレーズが生成可能となるフレーズ生成モデルを学習することができる。
 また、本発明の第2の実施の形態に係るフレーズ生成装置によれば、フレーズと、接続表現又は関係ラベルとからなる2つ組から、フレーズをベクトルに変換するエンコーダ、及び変換されたベクトルと、接続表現又は関係ラベルとから、フレーズに対して接続表現又は関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを用いることにより、入力フレーズに対して関係性を有するフレーズを生成することができる。
 また、ラベルを、Encoder-decoderモデルの追加入力として扱うことにより、ラベルによって異なるフレーズ生成が可能となる。
 [第3の実施の形態]
 <本発明の第3の実施の形態の原理>
 本発明の第3の実施の形態では、図14に示すような関係性推定モデルとフレーズ生成モデルを同時に学習する。具体的には、入力フレーズを単語ベクトル系列に、ラベルをベクトルに変換するためのembeddingと、単語ベクトル系列からフレーズのベクトルに変換するためのLSTMとを、関係性推定モデルとフレーズ生成モデルとで共有する。それぞれの具体的な構成を下記に示す。
 <関係性推定モデル>
 まず、第3の実施の形態における関係性推定モデルについて説明する。
 モデルの基本的な構造は上記非特許文献2と類似したモデルを使用するが、入力となるベクトルの生成方法が異なっている。以下具体的に説明するため、まず上記非特許文献2で提案したモデルについて説明する。
 上記非特許文献2では、任意の3つ組{t1, t2, r}が与えられた時、3つ組の関係スコアscore(t1, r, t2) を推定するモデルを、ニューラルネットワークを用いて次のように定義している。
Figure JPOXMLDOC01-appb-M000005
 ここで、
Figure JPOXMLDOC01-appb-M000006
はt1、t2を結合した単語列のベクトル表現、
Figure JPOXMLDOC01-appb-M000007
はラベルrのベクトル表現を表す。gは非線形関数を表し、上記非特許文献2ではReLUを用いる。最終層のスコアは1次元の出力とする。これらは、任意の3つ組が与えられた時その3つ組が正しい組み合わせか否かを判別するモデルと考えることができる。
 本実施の形態の関係性推定モデルも上記と同様の定式化を用いて関係性推定モデルを定義するが、vinのモデル化が上記非特許文献2と異なる。上記非特許文献2では、フレーズのベクトル表現として、単語ベクトルの平均、LSTMのmaxpoolingの二種類とシンプルなモデル化を行っている。一方、本実施の形態の関係性推定モデルでは各フレーズのベクトルをLSTMのattention poolingを用いて下記のように定義する。ここで、xi j, hi jはそれぞれフレーズtiのj番目単語のembedding とLSTMの隠れ層ベクトルを表す。
Figure JPOXMLDOC01-appb-M000008
 vinは、batch normalizationとdropoutを行った上で上位の層に受け渡す。各フレーズをベクトル化するためのLSTM、単語・ラベルのembeddingは、上記第2の実施の形態で説明したフレーズ生成モデルと共有する。
 <学習>
 <損失関数>
 本実施の形態では、関係性推定モデル及びフレーズ生成モデルの損失関数を同時に考慮しながら学習を行う。具体的には、下記の式に示す損失関数を用いて学習を行う。
Figure JPOXMLDOC01-appb-M000009
 ここで、θはモデルパラメータであり、Ltripleは関係性推定モデルに関する損失関数、Lencdecはフレーズ生成モデルに関する損失関数を表す。関係性推定モデルの損失関数LtripleについてはLiら上記非特許文献2の結果から最も精度が良かったbinary cross entropy を用いて下記の式で表す。
Figure JPOXMLDOC01-appb-M000010
 ここで、τは三つ組を表す変数、lは正例に対して1、負例に対して0となるバイナリ変数、σはシグモイド関数である。上記の定式化は、任意の3つ組τ={t1, t2, r}に対して正例のスコアが1、負例のスコアが0に近くなるように学習を行う。
 フレーズ生成モデルのエンコーダ及びデコーダの損失関数については、上記第2の実施の形態と同様である。
 <負例サンプリング>
 Binary cross entropyを用いて2値分類モデルの学習を行う場合、負例を用意する必要がある。本実施の形態では、上記非特許文献2の研究で最も精度が良かったランダムサンプリングを用いて負例の生成を行う。具体的には、それぞれの正例3つ組データτ={t1, t2, r}に対して、t1、t2、rを1つずつランダムに置き換えたデータτneg1={t1', t2, r}、τneg2={t1, t2, r'}、τneg3={t1, t2', r}を生成する。ランダムにサンプリングされるt',t2'はそれぞれ学習時に出現した候補からサンプリングされ、r'は全ラベル候補の中からサンプリングされる。従って、学習中は、正例1つにつき3個の負例をサンプリングしながら学習を行う。ただし、負例は関係性推定モデルのみに用いる。フレーズ生成モデルは正しい3つ組から学習を行いたいため、正例の3つ組のみから学習を行う。
 <本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置の構成>
 次に、本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置の構成について説明する。なお、フレーズ生成関係性推定モデル学習装置の構成は、第1の実施の形態に係る関係性推定モデル学習装置と同様の構成であるため、同一符号を付して説明を省略する。
 本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置は、入力部50と、演算部60と、出力部90とを備えている。
 演算部60の学習部63は、学習データ生成部62で抽出した3つ組{フレーズ1、フレーズ2、ラベル}と、当該3つ組{フレーズ1、フレーズ2、ラベル}から得られる、2つ組{フレーズ1、ラベル}→フレーズ2、2つ組{フレーズ2、ラベル'}→フレーズ1とを、学習における正解データとして用い、当該3つ組{フレーズ1、フレーズ2、ラベル}から得られる負例を更に用いて、フレーズをベクトルに変換するエンコーダ、及び変換されたベクトルと、ラベルとに基づいて、フレーズに対して当該ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデル、並びに、共通するエンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、ラベルを表すベクトルとから、関係スコアを出力するニューラルネットワークである関係性推定モデルを同時に学習する。
 具体的には、上記(11)式の損失関数を最小化するように、フレーズ生成モデル及び関係性推定モデルのパラメータの更新を行う。
 <本発明の第3の実施の形態に係るフレーズ生成装置の構成>
 次に、本発明の第3の実施の形態に係るフレーズ生成装置の構成について説明する。なお、第2の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
 図15に示すように、本発明の第3の実施の形態に係るフレーズ生成装置300は、CPUと、RAMと、後述するフレーズ生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このフレーズ生成装置300は、機能的には図15に示すように入力部310と、演算部320と、出力部340とを備えている。
 入力部310は、入力フレーズ(テキスト)と、フレーズ間の関係性を表すラベルとからなる2つ組を受け付ける。
 演算部320は、フレーズ生成部221と、記憶部322と、推定部323とを備える。
 記憶部322には、フレーズ生成関係性推定モデル学習装置により学習された、関係性推定モデル及びフレーズ生成モデルが記憶される。
 上記図14に示すように、フレーズ生成モデルには上述したようにアテンションベースのEncoder-decoderモデルを用いることとし、関係性推定モデルについては、上述したように各フレーズのベクトルをLSTMのattention poolingを用いて変換するニューラルネットワークモデルを用いることとする。
 フレーズ生成部221は、記憶部322に記憶されているフレーズ生成モデルを用いて、入力された2つ組の入力フレーズに対してラベルが表す関係性を有するフレーズを生成し、推定部323に出力する。
 推定部323は、記憶部322に記憶されている関係性推定モデルを用いて、入力された2つ組と、フレーズ生成部221により生成されたフレーズとからなる3つ組に対する関係スコアを推定し、出力部340により出力する。
 このとき、関係性推定モデルにおいて、フレーズ生成モデルのエンコーダと共通のニューラルネットワークを用いて、各フレーズをベクトルに変換し、各フレーズを表すベクトルと、ラベルを表すベクトルから、関係スコアを推定する。
 <本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置の作用>
 次に、本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置の作用について説明する。入力部310において入力テキストを受け付けると、フレーズ生成関係性推定モデル学習装置は、上記図9に示す関係性推定モデル学習処理ルーチンと同様の処理ルーチンを実行し、生成した3つ組{フレーズ1、フレーズ2、ラベル}と、当該3つ組{フレーズ1、フレーズ2、ラベル}から得られる、2つ組{フレーズ1、ラベル}→フレーズ2、2つ組{フレーズ2、ラベル'}→フレーズ1とを、学習における正解データとして用い、当該3つ組{フレーズ1、フレーズ2、ラベル}から得られる負例を更に用いて、関係性推定モデルとフレーズ生成モデルとの同時学習を行う。
 <本発明の第3の実施の形態に係るフレーズ生成装置の作用>
 次に、本発明の第3の実施の形態に係るフレーズ生成装置300の作用について説明する。フレーズ生成関係性推定モデル学習装置によって予め学習された関係性推定モデル及びフレーズ生成モデルがフレーズ生成装置300に入力されると、フレーズ生成装置300は、関係性推定モデル及びフレーズ生成モデルを記憶部322へ格納する。そして、入力部310が、推定対象の2つ組{フレーズ1、ラベル}を受け付けると、フレーズ生成装置300は、図16に示すフレーズ生成処理ルーチンを実行する。
 ステップS320で、入力部310により受け付けた2つ組に含まれるフレーズ1を、フレーズ生成モデルのエンコーダのLSTMによりベクトルに変換する。
 ステップS322では、フレーズ生成モデルのアテンションベースのデコーダを用いて、上記ステップS320で変換されたベクトルと、2つ組に含まれるラベルを表すベクトルとから、フレーズを生成し、フレーズ1に対してラベルが表す関係性を有するフレーズ2とする。
 ステップS324では、入力部310により受け付けた2つ組と、上記ステップS322で生成されたフレーズとからなる3つ組と、関係性推定モデルとに基づいて、関係スコアを算出し、算出した関係スコアと共に、当該3つ組を出力部340により出力して、フレーズ生成処理ルーチンを終了する。
 以上説明したように、本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置によれば、フレーズをベクトルに変換するエンコーダ、及び前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデル、並びに、前記エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、前記接続表現又は前記関係ラベルを表すベクトルを入力として、関係スコアを出力する関係性推定モデルを学習することにより、フレーズ間の関係性を精度良く推定することができる関係性推定モデルと、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成モデルとを同時に学習することができる。また、一部のニューラルネットワークを共通としたフレーズ生成モデルと関係性推定モデルとの同時学習を用いることで,3つ組の関係性推定モデルの精度が向上する。
 また、本発明の第3の実施の形態に係るフレーズ生成装置によれば、フレーズをベクトルに変換するエンコーダ、及びフレーズに対して接続表現又は関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを用いて、入力フレーズに対して関係性を有するフレーズを生成し、関係スコアを出力する関係性推定モデルを用いて、関係スコアを推定することにより、関係スコア付きで、入力フレーズに対して関係性を有するフレーズを生成することができる。
 <実験>
 <実験データ>
 実験データは、上記非特許文献2が公開しているConceptNet(英語)のデータと、発明者らが独自にアノテーションした日本語のオープンドメインデータを用いる。表1にそれぞれのデータの概要を示す。
Figure JPOXMLDOC01-appb-T000011
 ConceptNetの方が、ラベル数が多い。語彙数はいずれも2万程度だが、フレーズの平均単語長は日本語データがConceptNetの倍程度と長くなっている。日本語データに関しては、クラウドソーシングを用いてweb上からクロールした頻出単語に関連する3つ組{t1, t2, r}を作成した。ノイズとなるデータを除去するため、ある作成者が作成した3つ組{t1, t2, r}について、rを隠した状態で別の3 名のワーカーに適切なrを選択するタスクを行ってもらい、2人以上が同じラベルを選択したデータのみを使用した。また、testデータとvalidationデータに関しては、全員の選択したrが一致したデータからランダムに選択し、それ以外を学習データとした。日本語のtest, validationデータは、ConceptNet データと同様に正例と負例が1:1となるようにデータを作成した。
 具体的には、まず正例をサンプリングした後、各正例の3つ組の要素1つをランダムに選択しテストデータ中の別の要素と置換して作成した。
 <評価方法と比較手法>
 関係性推定モデルのベースラインとして、上記非特許文献2の手法(DNN AVG, DNN LSTM)を用いる。これらは、入力ベクトルvinがそれぞれ単語ベクトルの平均、LSTMのmaxpoolingをとったものである。ただし、LSTMのモデルでは、t1とt2を別々にベクトル化して連結した。
 本実施の形態の提案手法に関しては、関係性推定モデルを単独で用いた場合(proposed w/o EncDec)と双方を同時に学習した場合(proposed w/ EncDec)の精度評価を行った。評価指標は2値判別の正解率を用いた。また、ConceptNetの実験に関しては上記非特許文献2と同様に、trainデータで学習を行い、validation 1 データでハイパーパラメータの調整、評価をvalidation 2, test データで行った。日本語データも同様にtrain, validation 1, 2でパラメータを決定しtestで評価をした。
 フレーズ生成モデルのベースラインとして、関係ラベルを用いないEncoder-decoder 単独モデル(EncDec w/o relation single)を用いた。また、関係ラベルを考慮した単独モデル(EncDec w/relation single)と、関係性推定モデルとの同時学習(EncDec w/relation Multi)を比較した。評価は、単語レベルの正解率で評価を行った。
 <実験設定>
 本実験例で用いたパラメータについて説明する。LSTMの隠れ層、単語・ラベルのembedding は200 次元、関係性推定モデルの中間層の次元を10001、学習時のバッチサイズは128、ドロップアウトは0.2、weight decayは0.00001 に設定した。また、フレーズ生成モデルのエンコーダには1層の双方向LSTM、デコーダには1層のLSTMを用いた。最適化法はSGDを用い,初期学習率は1.0に設定し減衰率を0.5としてスケジューリングを行った。
 損失関数のlは1.0に固定した。単語、ラベルのembedding初期値は、3つ組の学習データとWikipedia(R)を結合したテキストファイルを基にfastText(参考文献4参照)を用いて事前に計算したベクトルを用いた。
 [参考文献4]
 Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. Enriching word vectors with subword information. arXiv preprint arXiv:1607.04606, 2016.
 <実験結果>
 <関係性の推定>
 表2に関係性の推定(2値分類)の評価結果を示す。
Figure JPOXMLDOC01-appb-T000012
 下層の行には、上記非特許文献2が論文中で報告している中で最も良い精度を示している。ここで+dataという行は、学習データを100kから300kに増やした場合の評価である。表2の結果より、本発明の実施の形態の提案手法は既存手法に比べて精度が向上しており、ConceptNetのデータでは従来研究の最高値を超える結果が得られた。特に、データを増やした条件では2%以上の精度向上が見られ、人間による上限(~0.95)にも近づいている。単独モデル(proposed w/o EncDec)と同時学習モデル(proposed w/EncDec)の比較により、ConceptNet、Japanese データともに、同時学習によって単独モデルよりも良い精度が得られていることがわかる。これは、関係性推定問題にとってはフレーズ生成問題の損失関数が制約として働き、より良いフレーズベクトルが得られたためと考えられる。
 <フレーズ生成>
 表3に、フレーズ生成モデルの精度を示す。
Figure JPOXMLDOC01-appb-T000013
 結果から、ベースラインと関係を考慮したEncoder-decoderモデルで大きな精度差が見られ、関係ラベルを考慮することにより生成の精度が大幅に向上していることがわかる。マルチタスク学習にしたことによるフレーズ生成モデル側の精度向上はあまり見られないが、教師なしデータを追加することによりフレーズ生成モデルの精度も向上させることができる。
 最後に、本発明の各実施の形態に係る関係性推定モデル学習装置、関係性推定装置、フレーズ生成装置、フレーズ生成モデル学習装置、及びフレーズ生成関係性推定モデル学習装置を実現するコンピュータのハードウェア構成について説明する。図17に示すように、コンピュータ500は、ハードウェアとして、例えば、入力装置501と、表示装置502と、外部I/F503と、RAM504と、ROM505と、プロセッサ506と、通信I/F507と、補助記憶装置508とを備えている。また、これら各ハードウェアは、それぞれがバス509を介して通信可能に接続されている。
 入力装置501は、例えばキーボードやマウス、タッチパネル等である。表示装置502は、例えばディスプレイ等である。なお、コンピュータ500は、入力装置501及び表示装置502の少なくとも一方を有していなくてもよい。
 外部I/F503は、記録媒体503a等の外部記録媒体とのインタフェースである。記録媒体503aとしては、例えば、フレキシブルディスク、CD、DVD、SDメモリカード、USBメモリカード等が挙げられる。
 RAM504は、プログラムやデータを一時保持する揮発性の半導体メモリである。ROM505は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。
 プロセッサ506は、例えばCPUやGPU等である。通信I/F507は、コンピュータ500を通信ネットワークに接続するためのインタフェースである。補助記憶装置508は、例えばHDDやSSD等である。
 なお、関係性推定モデル学習装置、関係性推定装置、フレーズ生成装置、フレーズ生成モデル学習装置、及びフレーズ生成関係性推定モデル学習装置は、1台のコンピュータ500で実現されていてもよいし、複数台のコンピュータ500で実現されていてもよい。また、コンピュータ500は、複数のプロセッサ506や複数のメモリ(RAM504やROM505、補助記憶装置508等)を備えていてもよい。
 なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
 例えば、上述した実施の形態では、関係性推定装置100と関係性推定モデル学習装置150とを別々の装置として構成する場合を例に説明したが、関係性推定装置100と関係性推定モデル学習装置150とを1つの装置として構成してもよい。また、フレーズ生成装置200、300とフレーズ生成モデル学習装置、フレーズ生成関係性推定モデル学習装置とを別々の装置として構成する場合を例に説明したが、フレーズ生成装置200、300とフレーズ生成モデル学習装置とを1つの装置として構成してもよい。
 上述の関係性推定モデル学習装置、関係性推定装置、フレーズ生成装置、フレーズ生成モデル学習装置、フレーズ生成関係性推定モデル学習装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
 本願は、日本国に2018年3月2日に出願された基礎出願2018-038054号に基づくものであり、その全内容はここに参照をもって援用される。
 10、50、210、310 入力部
 20、60、220、320 演算部
 21、323 推定部
 22、222、322 記憶部
 40、90、240、340 出力部
 62 学習データ生成部
 63 学習部
 71 基本解析部
 72 フレーズ抽出部
 73 接続表現データベース
 100 関係性推定装置
 150 関係性推定モデル学習装置
 200、300 フレーズ生成装置
 221 フレーズ生成部

Claims (6)

  1.  フレーズの組み合わせと、フレーズ間の関係性を表わす接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる3つ組を学習データとして用いて、フレーズと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる2つ組から、フレーズをベクトルに変換するエンコーダ、及び前記変換されたベクトルと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルとから、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを学習する学習部
     を含むフレーズ生成モデル学習装置。
  2.  入力テキストに対するテキスト解析結果に基づいて、フレーズ間の関係性を表わす予め定められた接続表現が含まれる文節と所定の関係にあるフレーズの組み合わせを抽出し、前記抽出されたフレーズの組み合わせと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる3つ組を作成する学習データ生成部を更に含み、
     前記学習部は、前記学習データ生成部によって作成された前記3つ組を学習データとして用いて、前記フレーズ生成モデルを学習する請求項1記載のフレーズ生成モデル学習装置。
  3.  入力フレーズと、フレーズ間の関係性を表わす接続表現又は関係ラベルとの少なくとも一方とからなる2つ組を入力とし、
     予め学習されたフレーズ生成モデルに基づき、前記入力フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するフレーズ生成部
     を含むフレーズ生成装置。
  4.  学習部が、フレーズの組み合わせと、フレーズ間の関係性を表わす接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる3つ組を学習データとして用いて、フレーズと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる2つ組から、フレーズをベクトルに変換するエンコーダ、及び前記変換されたベクトルと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルとから、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを学習する
     フレーズ生成モデル学習方法。
  5.  フレーズ生成部が、入力フレーズと、フレーズ間の関係性を表わす接続表現又は関係ラベルとの少なくとも一方とからなる2つ組を入力とし、
     予め学習されたフレーズ生成モデルに基づき、前記入力フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成する
     フレーズ生成方法。
  6.  コンピュータを、請求項1又は2記載のフレーズ生成モデル学習装置又は請求項3記載のフレーズ生成装置を構成する各部として機能させるためのプログラム。
PCT/JP2019/006812 2018-03-02 2019-02-22 フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム WO2019167835A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019537319A JP6603828B1 (ja) 2018-03-02 2019-02-22 フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム
US16/977,422 US11651166B2 (en) 2018-03-02 2019-02-22 Learning device of phrase generation model, phrase generation device, method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-038054 2018-03-02
JP2018038054 2018-03-02

Publications (1)

Publication Number Publication Date
WO2019167835A1 true WO2019167835A1 (ja) 2019-09-06

Family

ID=67805794

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/006812 WO2019167835A1 (ja) 2018-03-02 2019-02-22 フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US11651166B2 (ja)
JP (1) JP6603828B1 (ja)
WO (1) WO2019167835A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6973157B2 (ja) * 2018-02-16 2021-11-24 日本電信電話株式会社 議論構造拡張装置、議論構造拡張方法、及びプログラム
US11169514B2 (en) * 2018-08-27 2021-11-09 Nec Corporation Unsupervised anomaly detection, diagnosis, and correction in multivariate time series data
US11501159B2 (en) * 2019-03-26 2022-11-15 Alibaba Group Holding Limited Methods and systems for text sequence style transfer by two encoder decoders
CN111325000B (zh) * 2020-01-23 2021-01-26 北京百度网讯科技有限公司 语言生成方法、装置及电子设备
CN113239694B (zh) * 2021-06-04 2022-06-14 北京理工大学 一种基于论元短语的论元角色识别的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203964A (ja) * 2007-02-16 2008-09-04 Nec Corp 因果関係分析装置、因果関係分析方法及びプログラム
JP2016170636A (ja) * 2015-03-12 2016-09-23 日本電信電話株式会社 接続関係推定装置、方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5904559B2 (ja) * 2013-12-20 2016-04-13 国立研究開発法人情報通信研究機構 シナリオ生成装置、及びそのためのコンピュータプログラム
JP6721179B2 (ja) * 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203964A (ja) * 2007-02-16 2008-09-04 Nec Corp 因果関係分析装置、因果関係分析方法及びプログラム
JP2016170636A (ja) * 2015-03-12 2016-09-23 日本電信電話株式会社 接続関係推定装置、方法、及びプログラム

Also Published As

Publication number Publication date
US11651166B2 (en) 2023-05-16
JP6603828B1 (ja) 2019-11-06
JPWO2019167835A1 (ja) 2020-04-16
US20210004541A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
JP6603828B1 (ja) フレーズ生成モデル学習装置、フレーズ生成装置、方法、及びプログラム
Dahouda et al. A deep-learned embedding technique for categorical features encoding
Tien et al. Sentence modeling via multiple word embeddings and multi-level comparison for semantic textual similarity
Yao et al. Bi-directional LSTM recurrent neural network for Chinese word segmentation
WO2019168189A1 (ja) フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
Alwehaibi et al. A study of the performance of embedding methods for Arabic short-text sentiment analysis using deep learning approaches
Zhang et al. Relation classification via BiLSTM-CNN
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
Imaduddin et al. Word embedding comparison for indonesian language sentiment analysis
WO2019160096A1 (ja) 関係性推定モデル学習装置、方法、及びプログラム
Habib et al. An exploratory approach to find a novel metric based optimum language model for automatic bangla word prediction
CN114818891A (zh) 小样本多标签文本分类模型训练方法及文本分类方法
Almiman et al. Deep neural network approach for Arabic community question answering
Al Omari et al. Hybrid CNNs-LSTM deep analyzer for arabic opinion mining
Jong et al. Improving Performance of Automated Essay Scoring by using back-translation essays and adjusted scores
Sitender et al. Effect of GloVe, Word2Vec and FastText Embedding on English and Hindi Neural Machine Translation Systems
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
Hu et al. A cross-media deep relationship classification method using discrimination information
Nazarizadeh et al. Using Group Deep Learning and Data Augmentation in Persian Sentiment Analysis
Ananth et al. Grammatical tagging for the Kannada text documents using hybrid bidirectional long-short term memory model
Du et al. Sentiment classification via recurrent convolutional neural networks
CN115129818A (zh) 基于知识驱动多分类的情绪原因对提取方法及系统
CN115329075A (zh) 基于分布式机器学习的文本分类方法
Saikrishna et al. Sentiment analysis on Telugu–English code-mixed Data

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2019537319

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19761286

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19761286

Country of ref document: EP

Kind code of ref document: A1