JPWO2020240870A5

JPWO2020240870A5 - パラメータ学習装置、パラメータ学習方法、及びプログラム

Info

Publication number: JPWO2020240870A5
Application number: JP2021522605A
Authority: JP
Filing date: 2019-05-31
Publication date: 2022-02-28
Anticipated expiration: 2039-05-31

Description

本発明は、文章から述語関係を抽出する学習モデルのパラメータを学習するための、パラメータ学習装置、及びパラメータ学習方法に関し、及びこれらを実現するためのプログラムに関する。

本発明の目的の一例は、上記問題を解消し、文章からの述語関係の抽出において、ラベルが付いていない文章表現も学習データとして用いることができ、且つ、出力される述語の引数の個数に性能が影響されないように、抽出のためのパラメータを学習し得る、パラメータ学習装置、パラメータ学習方法、及びプログラムを提供することにある。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
（ａ）単語列であるエンティティが出現する文章と、所定の範囲にあるエンティティの前記文章での出現位置を示す情報とに基づいて、前記文章中で共起する、前記所定の範囲内にあるエンティティの組合せと、前記組合せを適応可能な文章表現と、のペアを、第一のファクトとして取得する、ステップと、
（ｂ）エンティティと関連する述語とが予め登録されているデータベースから、前記所定の範囲内にあるエンティティの組合せに関連している述語を抽出し、抽出した述語とそれに関連している前記所定の範囲内にあるエンティティの組合せと、のペアを、第二のファクトとして取得する、ステップと、
（ｃ）取得された前記第一のファクトそれぞれの文章表現から、当該文章表現を構成する単語毎に、当該単語を実数ベクトルで表現する単語分散表現を求め、求めた前記単語分散表現を、所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークに入力して、前記単語分散表現とは別の実数ベクトルの列を出力させ、
更に、出力された前記別の実数ベクトルの列のうち、対応する前記第一のファクトのエンティティの出現位置に対応する実数ベクトルを特定し、特定した実数ベクトルを、対応する第一のファクトの文章表現の分散表現として取り出す、
ステップと、
（ｄ）取得された前記第一のファクトそれぞれ毎に、当該第一のファクトについて取り出された文章表現の分散表現と、当該第一のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第一のファクトの成立度合いを表す第一スコアを計算し、
そして、前記第一のファクトとして取得されていない、エンティティの組合せと文章表現とのペアについても、当該文章表現から求められる分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第二スコアを計算する、
ステップと、
（ｅ）取得された前記第二のファクトそれぞれ毎に、当該第二のファクトの述語の特徴を実数ベクトルで表現する述語分散表現と、当該第二のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第二のファクトの成立度合いを表す第三スコアを計算し、
そして、前記第二のファクトとして取得されていない、エンティティの組合せと述語とのペアについても、当該述語の特徴を実数ベクトルで表現する述語分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第四スコアを計算する、
ステップと、
（ｆ）前記第一スコアが前記第二スコア及び前記第四スコアの少なくとも一方より高くなり、且つ、前記第三スコアが前記第二スコア及び前記第四スコアの少なくとも一方よりも高くなるように、前記エンティティ分散表現、前記述語分散表現、前記リカレントニューラルネットワークの重みパラメータうち、いずれかを勾配法を用いて更新する、ステップと、
を実行させることを特徴とする。

（付記５）
コンピュータに、
（ａ）単語列であるエンティティが出現する文章と、所定の範囲にあるエンティティの前記文章での出現位置を示す情報とに基づいて、前記文章中で共起する、前記所定の範囲内にあるエンティティの組合せと、前記組合せを適応可能な文章表現と、のペアを、第一のファクトとして取得する、ステップと、
（ｂ）エンティティと関連する述語とが予め登録されているデータベースから、前記所定の範囲内にあるエンティティの組合せに関連している述語を抽出し、抽出した述語とそれに関連している前記所定の範囲内にあるエンティティの組合せと、のペアを、第二のファクトとして取得する、ステップと、
（ｃ）取得された前記第一のファクトそれぞれの文章表現から、当該文章表現を構成する単語毎に、当該単語を実数ベクトルで表現する単語分散表現を求め、求めた前記単語分散表現を、所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークに入力して、前記単語分散表現とは別の実数ベクトルの列を出力させ、
更に、出力された前記別の実数ベクトルの列のうち、対応する前記第一のファクトのエンティティの出現位置に対応する実数ベクトルを特定し、特定した実数ベクトルを、対応する第一のファクトの文章表現の分散表現として取り出す、
ステップと、
（ｄ）取得された前記第一のファクトそれぞれ毎に、当該第一のファクトについて取り出された文章表現の分散表現と、当該第一のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第一のファクトの成立度合いを表す第一スコアを計算し、
そして、前記第一のファクトとして取得されていない、エンティティの組合せと文章表現とのペアについても、当該文章表現から求められる分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第二スコアを計算する、
ステップと、
（ｅ）取得された前記第二のファクトそれぞれ毎に、当該第二のファクトの述語の特徴を実数ベクトルで表現する述語分散表現と、当該第二のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第二のファクトの成立度合いを表す第三スコアを計算し、
そして、前記第二のファクトとして取得されていない、エンティティの組合せと述語とのペアについても、当該述語の特徴を実数ベクトルで表現する述語分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第四スコアを計算する、
ステップと、
（ｆ）前記第一スコアが前記第二スコア及び前記第四スコアの少なくとも一方より高くなり、且つ、前記第三スコアが前記第二スコア及び前記第四スコアの少なくとも一方よりも高くなるように、前記エンティティ分散表現、前記述語分散表現、前記リカレントニューラルネットワークの重みパラメータうち、いずれかを勾配法を用いて更新する、ステップと、
を実行させる、プログラム。

（付記６）
付記５に記載のプログラムであって、
前記プログラムが、前記コンピュータに、
（ｇ）エンティティそれぞれ毎に、当該エンティティの特徴を実数ベクトルで表現するエンティティ分散表現、及び、述語それぞれ毎に、当該述語の特徴を実数ベクトルで表現する述語分散表現、を格納する、ステップと、
（ｈ）所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークの重みパラメータを格納する、ステップと、
を更に実行させる命令を含む、
ことを特徴とするプログラム。

Claims

単語列であるエンティティが出現する文章と、所定の範囲にあるエンティティの前記文章での出現位置を示す情報とに基づいて、前記文章中で共起する、前記所定の範囲内にあるエンティティの組合せと、前記組合せを適応可能な文章表現と、のペアを、第一のファクトとして取得する、第一ファクト取得手段と、
エンティティと関連する述語とが予め登録されているデータベースから、前記所定の範囲内にあるエンティティの組合せに関連している述語を抽出し、抽出した述語とそれに関連している前記所定の範囲内にあるエンティティの組合せと、のペアを、第二のファクトとして取得する、第二ファクト取得手段と、
取得された前記第一のファクトそれぞれの文章表現から、当該文章表現を構成する単語毎に、当該単語を実数ベクトルで表現する単語分散表現を求め、求めた前記単語分散表現を、所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークに入力して、前記単語分散表現とは別の実数ベクトルの列を出力させ、
更に、出力された前記別の実数ベクトルの列のうち、対応する前記第一のファクトのエンティティの出現位置に対応する実数ベクトルを特定し、特定した実数ベクトルを、対応する第一のファクトの文章表現の分散表現として取り出す、分散表現計算手段と、
取得された前記第一のファクトそれぞれ毎に、当該第一のファクトについて取り出された文章表現の分散表現と、当該第一のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第一のファクトの成立度合いを表す第一スコアを計算し、
そして、前記第一のファクトとして取得されていない、エンティティの組合せと文章表現とのペアについても、当該文章表現から求められる分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第二スコアを計算する、
第一スコア計算手段と、
取得された前記第二のファクトそれぞれ毎に、当該第二のファクトの述語の特徴を実数ベクトルで表現する述語分散表現と、当該第二のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第二のファクトの成立度合いを表す第三スコアを計算し、
そして、前記第二のファクトとして取得されていない、エンティティの組合せと述語とのペアについても、当該述語の特徴を実数ベクトルで表現する述語分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第四スコアを計算する、
第二スコア計算手段と、
前記第一スコアが前記第二スコア及び前記第四スコアの少なくとも一方より高くなり、且つ、前記第三スコアが前記第二スコア及び前記第四スコアの少なくとも一方よりも高くなるように、前記エンティティ分散表現、前記述語分散表現、前記リカレントニューラルネットワークの重みパラメータうち、いずれかを勾配法を用いて更新する、パラメータ学習手段と、
を備えている、
ことを特徴とするパラメータ学習装置。
請求項１に記載のパラメータ学習装置であって、
エンティティそれぞれ毎に、当該エンティティの特徴を実数ベクトルで表現するエンティティ分散表現、及び、述語それぞれ毎に、当該述語の特徴を実数ベクトルで表現する述語分散表現、を格納した、分散表現格納手段と、
所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークの重みパラメータを格納する、モデルパラメータ格納手段と、
を更に備えている、
ことを特徴とするパラメータ学習装置。
（ａ）単語列であるエンティティが出現する文章と、所定の範囲にあるエンティティの前記文章での出現位置を示す情報とに基づいて、前記文章中で共起する、前記所定の範囲内にあるエンティティの組合せと、前記組合せを適応可能な文章表現と、のペアを、第一のファクトとして取得し、
（ｂ）エンティティと関連する述語とが予め登録されているデータベースから、前記所定の範囲内にあるエンティティの組合せに関連している述語を抽出し、抽出した述語とそれに関連している前記所定の範囲内にあるエンティティの組合せと、のペアを、第二のファクトとして取得し、
（ｃ）取得された前記第一のファクトそれぞれの文章表現から、当該文章表現を構成する単語毎に、当該単語を実数ベクトルで表現する単語分散表現を求め、求めた前記単語分散表現を、所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークに入力して、前記単語分散表現とは別の実数ベクトルの列を出力させ、
更に、出力された前記別の実数ベクトルの列のうち、対応する前記第一のファクトのエンティティの出現位置に対応する実数ベクトルを特定し、特定した実数ベクトルを、対応する第一のファクトの文章表現の分散表現として取り出し、
（ｄ）取得された前記第一のファクトそれぞれ毎に、当該第一のファクトについて取り出された文章表現の分散表現と、当該第一のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第一のファクトの成立度合いを表す第一スコアを計算し、
そして、前記第一のファクトとして取得されていない、エンティティの組合せと文章表現とのペアについても、当該文章表現から求められる分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第二スコアを計算し、
（ｅ）取得された前記第二のファクトそれぞれ毎に、当該第二のファクトの述語の特徴を実数ベクトルで表現する述語分散表現と、当該第二のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第二のファクトの成立度合いを表す第三スコアを計算し、
そして、前記第二のファクトとして取得されていない、エンティティの組合せと述語とのペアについても、当該述語の特徴を実数ベクトルで表現する述語分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第四スコアを計算し、
（ｆ）前記第一スコアが前記第二スコア及び前記第四スコアの少なくとも一方より高くなり、且つ、前記第三スコアが前記第二スコア及び前記第四スコアの少なくとも一方よりも高くなるように、前記エンティティ分散表現、前記述語分散表現、前記リカレントニューラルネットワークの重みパラメータうち、いずれかを勾配法を用いて更新する、
ことを特徴とするパラメータ学習方法。
請求項３に記載のパラメータ学習方法であって、更に、
（ｇ）エンティティそれぞれ毎に、当該エンティティの特徴を実数ベクトルで表現するエンティティ分散表現、及び、述語それぞれ毎に、当該述語の特徴を実数ベクトルで表現する述語分散表現、を格納し、
（ｈ）所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークの重みパラメータを格納する、
ことを特徴とするパラメータ学習方法。
コンピュータに、
（ａ）単語列であるエンティティが出現する文章と、所定の範囲にあるエンティティの前記文章での出現位置を示す情報とに基づいて、前記文章中で共起する、前記所定の範囲内にあるエンティティの組合せと、前記組合せを適応可能な文章表現と、のペアを、第一のファクトとして取得する、ステップと、
（ｂ）エンティティと関連する述語とが予め登録されているデータベースから、前記所定の範囲内にあるエンティティの組合せに関連している述語を抽出し、抽出した述語とそれに関連している前記所定の範囲内にあるエンティティの組合せと、のペアを、第二のファクトとして取得する、ステップと、
（ｃ）取得された前記第一のファクトそれぞれの文章表現から、当該文章表現を構成する単語毎に、当該単語を実数ベクトルで表現する単語分散表現を求め、求めた前記単語分散表現を、所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークに入力して、前記単語分散表現とは別の実数ベクトルの列を出力させ、
更に、出力された前記別の実数ベクトルの列のうち、対応する前記第一のファクトのエンティティの出現位置に対応する実数ベクトルを特定し、特定した実数ベクトルを、対応する第一のファクトの文章表現の分散表現として取り出す、
ステップと、
（ｄ）取得された前記第一のファクトそれぞれ毎に、当該第一のファクトについて取り出された文章表現の分散表現と、当該第一のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第一のファクトの成立度合いを表す第一スコアを計算し、
そして、前記第一のファクトとして取得されていない、エンティティの組合せと文章表現とのペアについても、当該文章表現から求められる分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第二スコアを計算する、
ステップと、
（ｅ）取得された前記第二のファクトそれぞれ毎に、当該第二のファクトの述語の特徴を実数ベクトルで表現する述語分散表現と、当該第二のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第二のファクトの成立度合いを表す第三スコアを計算し、
そして、前記第二のファクトとして取得されていない、エンティティの組合せと述語とのペアについても、当該述語の特徴を実数ベクトルで表現する述語分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第四スコアを計算する、
ステップと、
（ｆ）前記第一スコアが前記第二スコア及び前記第四スコアの少なくとも一方より高くなり、且つ、前記第三スコアが前記第二スコア及び前記第四スコアの少なくとも一方よりも高くなるように、前記エンティティ分散表現、前記述語分散表現、前記リカレントニューラルネットワークの重みパラメータうち、いずれかを勾配法を用いて更新する、ステップと、
を実行させる、プログラム。
請求項５に記載のプログラムであって、
前記コンピュータに、
（ｇ）エンティティそれぞれ毎に、当該エンティティの特徴を実数ベクトルで表現するエンティティ分散表現、及び、述語それぞれ毎に、当該述語の特徴を実数ベクトルで表現する述語分散表現、を格納する、ステップと、
（ｈ）所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークの重みパラメータを格納する、ステップと、
を更に実行させる、プログラム。