JPWO2020240870A5 - パラメータ学習装置、パラメータ学習方法、及びプログラム - Google Patents

パラメータ学習装置、パラメータ学習方法、及びプログラム Download PDF

Info

Publication number
JPWO2020240870A5
JPWO2020240870A5 JP2021522605A JP2021522605A JPWO2020240870A5 JP WO2020240870 A5 JPWO2020240870 A5 JP WO2020240870A5 JP 2021522605 A JP2021522605 A JP 2021522605A JP 2021522605 A JP2021522605 A JP 2021522605A JP WO2020240870 A5 JPWO2020240870 A5 JP WO2020240870A5
Authority
JP
Japan
Prior art keywords
entity
fact
real number
expression
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021522605A
Other languages
English (en)
Other versions
JPWO2020240870A1 (ja
JP7251622B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/JP2019/021883 external-priority patent/WO2020240870A1/ja
Publication of JPWO2020240870A1 publication Critical patent/JPWO2020240870A1/ja
Publication of JPWO2020240870A5 publication Critical patent/JPWO2020240870A5/ja
Application granted granted Critical
Publication of JP7251622B2 publication Critical patent/JP7251622B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、文章から述語関係を抽出する学習モデルのパラメータを学習するための、パラメータ学習装置、及びパラメータ学習方法に関し、及びこれらを実現するためのプログラムに関する。
本発明の目的の一例は、上記問題を解消し、文章からの述語関係の抽出において、ラベルが付いていない文章表現も学習データとして用いることができ、且つ、出力される述語の引数の個数に性能が影響されないように、抽出のためのパラメータを学習し得る、パラメータ学習装置、パラメータ学習方法、及びプログラムを提供することにある。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
(a)単語列であるエンティティが出現する文章と、所定の範囲にあるエンティティの前記文章での出現位置を示す情報とに基づいて、前記文章中で共起する、前記所定の範囲内にあるエンティティの組合せと、前記組合せを適応可能な文章表現と、のペアを、第一のファクトとして取得する、ステップと、
(b)エンティティと関連する述語とが予め登録されているデータベースから、前記所定の範囲内にあるエンティティの組合せに関連している述語を抽出し、抽出した述語とそれに関連している前記所定の範囲内にあるエンティティの組合せと、のペアを、第二のファクトとして取得する、ステップと、
(c)取得された前記第一のファクトそれぞれの文章表現から、当該文章表現を構成する単語毎に、当該単語を実数ベクトルで表現する単語分散表現を求め、求めた前記単語分散表現を、所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークに入力して、前記単語分散表現とは別の実数ベクトルの列を出力させ、
更に、出力された前記別の実数ベクトルの列のうち、対応する前記第一のファクトのエンティティの出現位置に対応する実数ベクトルを特定し、特定した実数ベクトルを、対応する第一のファクトの文章表現の分散表現として取り出す、
ステップと、
(d)取得された前記第一のファクトそれぞれ毎に、当該第一のファクトについて取り出された文章表現の分散表現と、当該第一のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第一のファクトの成立度合いを表す第一スコアを計算し、
そして、前記第一のファクトとして取得されていない、エンティティの組合せと文章表現とのペアについても、当該文章表現から求められる分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第二スコアを計算する、
ステップと、
(e)取得された前記第二のファクトそれぞれ毎に、当該第二のファクトの述語の特徴を実数ベクトルで表現する述語分散表現と、当該第二のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第二のファクトの成立度合いを表す第三スコアを計算し、
そして、前記第二のファクトとして取得されていない、エンティティの組合せと述語とのペアについても、当該述語の特徴を実数ベクトルで表現する述語分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第四スコアを計算する、
ステップと、
(f)前記第一スコアが前記第二スコア及び前記第四スコアの少なくとも一方より高くなり、且つ、前記第三スコアが前記第二スコア及び前記第四スコアの少なくとも一方よりも高くなるように、前記エンティティ分散表現、前記述語分散表現、前記リカレントニューラルネットワークの重みパラメータうち、いずれかを勾配法を用いて更新する、ステップと、
を実行させることを特徴とする。
(付記5)
コンピュータに、
(a)単語列であるエンティティが出現する文章と、所定の範囲にあるエンティティの前記文章での出現位置を示す情報とに基づいて、前記文章中で共起する、前記所定の範囲内にあるエンティティの組合せと、前記組合せを適応可能な文章表現と、のペアを、第一のファクトとして取得する、ステップと、
(b)エンティティと関連する述語とが予め登録されているデータベースから、前記所定の範囲内にあるエンティティの組合せに関連している述語を抽出し、抽出した述語とそれに関連している前記所定の範囲内にあるエンティティの組合せと、のペアを、第二のファクトとして取得する、ステップと、
(c)取得された前記第一のファクトそれぞれの文章表現から、当該文章表現を構成する単語毎に、当該単語を実数ベクトルで表現する単語分散表現を求め、求めた前記単語分散表現を、所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークに入力して、前記単語分散表現とは別の実数ベクトルの列を出力させ、
更に、出力された前記別の実数ベクトルの列のうち、対応する前記第一のファクトのエンティティの出現位置に対応する実数ベクトルを特定し、特定した実数ベクトルを、対応する第一のファクトの文章表現の分散表現として取り出す、
ステップと、
(d)取得された前記第一のファクトそれぞれ毎に、当該第一のファクトについて取り出された文章表現の分散表現と、当該第一のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第一のファクトの成立度合いを表す第一スコアを計算し、
そして、前記第一のファクトとして取得されていない、エンティティの組合せと文章表現とのペアについても、当該文章表現から求められる分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第二スコアを計算する、
ステップと、
(e)取得された前記第二のファクトそれぞれ毎に、当該第二のファクトの述語の特徴を実数ベクトルで表現する述語分散表現と、当該第二のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第二のファクトの成立度合いを表す第三スコアを計算し、
そして、前記第二のファクトとして取得されていない、エンティティの組合せと述語とのペアについても、当該述語の特徴を実数ベクトルで表現する述語分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第四スコアを計算する、
ステップと、
(f)前記第一スコアが前記第二スコア及び前記第四スコアの少なくとも一方より高くなり、且つ、前記第三スコアが前記第二スコア及び前記第四スコアの少なくとも一方よりも高くなるように、前記エンティティ分散表現、前記述語分散表現、前記リカレントニューラルネットワークの重みパラメータうち、いずれかを勾配法を用いて更新する、ステップと、
を実行させる、プログラム。
(付記6)
付記5に記載のプログラムであって、
前記プログラムが、前記コンピュータに、
(g)エンティティそれぞれ毎に、当該エンティティの特徴を実数ベクトルで表現するエンティティ分散表現、及び、述語それぞれ毎に、当該述語の特徴を実数ベクトルで表現する述語分散表現、を格納する、ステップと、
(h)所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークの重みパラメータを格納する、ステップと、
更に実行させる命令を含
ことを特徴とするプログラム

Claims (6)

  1. 単語列であるエンティティが出現する文章と、所定の範囲にあるエンティティの前記文章での出現位置を示す情報とに基づいて、前記文章中で共起する、前記所定の範囲内にあるエンティティの組合せと、前記組合せを適応可能な文章表現と、のペアを、第一のファクトとして取得する、第一ファクト取得手段と、
    エンティティと関連する述語とが予め登録されているデータベースから、前記所定の範囲内にあるエンティティの組合せに関連している述語を抽出し、抽出した述語とそれに関連している前記所定の範囲内にあるエンティティの組合せと、のペアを、第二のファクトとして取得する、第二ファクト取得手段と、
    取得された前記第一のファクトそれぞれの文章表現から、当該文章表現を構成する単語毎に、当該単語を実数ベクトルで表現する単語分散表現を求め、求めた前記単語分散表現を、所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークに入力して、前記単語分散表現とは別の実数ベクトルの列を出力させ、
    更に、出力された前記別の実数ベクトルの列のうち、対応する前記第一のファクトのエンティティの出現位置に対応する実数ベクトルを特定し、特定した実数ベクトルを、対応する第一のファクトの文章表現の分散表現として取り出す、分散表現計算手段と、
    取得された前記第一のファクトそれぞれ毎に、当該第一のファクトについて取り出された文章表現の分散表現と、当該第一のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第一のファクトの成立度合いを表す第一スコアを計算し、
    そして、前記第一のファクトとして取得されていない、エンティティの組合せと文章表現とのペアについても、当該文章表現から求められる分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第二スコアを計算する、
    第一スコア計算手段と、
    取得された前記第二のファクトそれぞれ毎に、当該第二のファクトの述語の特徴を実数ベクトルで表現する述語分散表現と、当該第二のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第二のファクトの成立度合いを表す第三スコアを計算し、
    そして、前記第二のファクトとして取得されていない、エンティティの組合せと述語とのペアについても、当該述語の特徴を実数ベクトルで表現する述語分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第四スコアを計算する、
    第二スコア計算手段と、
    前記第一スコアが前記第二スコア及び前記第四スコアの少なくとも一方より高くなり、且つ、前記第三スコアが前記第二スコア及び前記第四スコアの少なくとも一方よりも高くなるように、前記エンティティ分散表現、前記述語分散表現、前記リカレントニューラルネットワークの重みパラメータうち、いずれかを勾配法を用いて更新する、パラメータ学習手段と、
    を備えている、
    ことを特徴とするパラメータ学習装置。
  2. 請求項1に記載のパラメータ学習装置であって、
    エンティティそれぞれ毎に、当該エンティティの特徴を実数ベクトルで表現するエンティティ分散表現、及び、述語それぞれ毎に、当該述語の特徴を実数ベクトルで表現する述語分散表現、を格納した、分散表現格納手段と、
    所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークの重みパラメータを格納する、モデルパラメータ格納手段と、
    を更に備えている、
    ことを特徴とするパラメータ学習装置。
  3. (a)単語列であるエンティティが出現する文章と、所定の範囲にあるエンティティの前記文章での出現位置を示す情報とに基づいて、前記文章中で共起する、前記所定の範囲内にあるエンティティの組合せと、前記組合せを適応可能な文章表現と、のペアを、第一のファクトとして取得し、
    (b)エンティティと関連する述語とが予め登録されているデータベースから、前記所定の範囲内にあるエンティティの組合せに関連している述語を抽出し、抽出した述語とそれに関連している前記所定の範囲内にあるエンティティの組合せと、のペアを、第二のファクトとして取得し、
    (c)取得された前記第一のファクトそれぞれの文章表現から、当該文章表現を構成する単語毎に、当該単語を実数ベクトルで表現する単語分散表現を求め、求めた前記単語分散表現を、所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークに入力して、前記単語分散表現とは別の実数ベクトルの列を出力させ、
    更に、出力された前記別の実数ベクトルの列のうち、対応する前記第一のファクトのエンティティの出現位置に対応する実数ベクトルを特定し、特定した実数ベクトルを、対応する第一のファクトの文章表現の分散表現として取り出し、
    (d)取得された前記第一のファクトそれぞれ毎に、当該第一のファクトについて取り出された文章表現の分散表現と、当該第一のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第一のファクトの成立度合いを表す第一スコアを計算し、
    そして、前記第一のファクトとして取得されていない、エンティティの組合せと文章表現とのペアについても、当該文章表現から求められる分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第二スコアを計算し、
    (e)取得された前記第二のファクトそれぞれ毎に、当該第二のファクトの述語の特徴を実数ベクトルで表現する述語分散表現と、当該第二のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第二のファクトの成立度合いを表す第三スコアを計算し、
    そして、前記第二のファクトとして取得されていない、エンティティの組合せと述語とのペアについても、当該述語の特徴を実数ベクトルで表現する述語分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第四スコアを計算し、
    (f)前記第一スコアが前記第二スコア及び前記第四スコアの少なくとも一方より高くなり、且つ、前記第三スコアが前記第二スコア及び前記第四スコアの少なくとも一方よりも高くなるように、前記エンティティ分散表現、前記述語分散表現、前記リカレントニューラルネットワークの重みパラメータうち、いずれかを勾配法を用いて更新する、
    ことを特徴とするパラメータ学習方法。
  4. 請求項3に記載のパラメータ学習方法であって、更に、
    (g)エンティティそれぞれ毎に、当該エンティティの特徴を実数ベクトルで表現するエンティティ分散表現、及び、述語それぞれ毎に、当該述語の特徴を実数ベクトルで表現する述語分散表現、を格納し、
    (h)所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークの重みパラメータを格納する、
    ことを特徴とするパラメータ学習方法。
  5. コンピュータに、
    (a)単語列であるエンティティが出現する文章と、所定の範囲にあるエンティティの前記文章での出現位置を示す情報とに基づいて、前記文章中で共起する、前記所定の範囲内にあるエンティティの組合せと、前記組合せを適応可能な文章表現と、のペアを、第一のファクトとして取得する、ステップと、
    (b)エンティティと関連する述語とが予め登録されているデータベースから、前記所定の範囲内にあるエンティティの組合せに関連している述語を抽出し、抽出した述語とそれに関連している前記所定の範囲内にあるエンティティの組合せと、のペアを、第二のファクトとして取得する、ステップと、
    (c)取得された前記第一のファクトそれぞれの文章表現から、当該文章表現を構成する単語毎に、当該単語を実数ベクトルで表現する単語分散表現を求め、求めた前記単語分散表現を、所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークに入力して、前記単語分散表現とは別の実数ベクトルの列を出力させ、
    更に、出力された前記別の実数ベクトルの列のうち、対応する前記第一のファクトのエンティティの出現位置に対応する実数ベクトルを特定し、特定した実数ベクトルを、対応する第一のファクトの文章表現の分散表現として取り出す、
    ステップと、
    (d)取得された前記第一のファクトそれぞれ毎に、当該第一のファクトについて取り出された文章表現の分散表現と、当該第一のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第一のファクトの成立度合いを表す第一スコアを計算し、
    そして、前記第一のファクトとして取得されていない、エンティティの組合せと文章表現とのペアについても、当該文章表現から求められる分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第二スコアを計算する、
    ステップと、
    (e)取得された前記第二のファクトそれぞれ毎に、当該第二のファクトの述語の特徴を実数ベクトルで表現する述語分散表現と、当該第二のファクトのエンティティそれぞれの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該第二のファクトの成立度合いを表す第三スコアを計算し、
    そして、前記第二のファクトとして取得されていない、エンティティの組合せと述語とのペアについても、当該述語の特徴を実数ベクトルで表現する述語分散表現と、当該エンティティの組合せを構成するエンティティの特徴を実数ベクトルで表現するエンティティ分散表現とに基づいて、当該ペアの成立度合を表す第四スコアを計算する、
    ステップと、
    (f)前記第一スコアが前記第二スコア及び前記第四スコアの少なくとも一方より高くなり、且つ、前記第三スコアが前記第二スコア及び前記第四スコアの少なくとも一方よりも高くなるように、前記エンティティ分散表現、前記述語分散表現、前記リカレントニューラルネットワークの重みパラメータうち、いずれかを勾配法を用いて更新する、ステップと、
    を実行させる、プログラム。
  6. 請求項5に記載のプログラムであって、
    記コンピュータに、
    (g)エンティティそれぞれ毎に、当該エンティティの特徴を実数ベクトルで表現するエンティティ分散表現、及び、述語それぞれ毎に、当該述語の特徴を実数ベクトルで表現する述語分散表現、を格納する、ステップと、
    (h)所定の個数の実数ベクトルの列を入力として、前記所定の個数の別の実数ベクトルを出力する、リカレントニューラルネットワークの重みパラメータを格納する、ステップと、
    更に実行させる、プログラム
JP2021522605A 2019-05-31 2019-05-31 パラメータ学習装置、パラメータ学習方法、及びプログラム Active JP7251622B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/021883 WO2020240870A1 (ja) 2019-05-31 2019-05-31 パラメータ学習装置、パラメータ学習方法、及びコンピュータ読み取り可能な記録媒体

Publications (3)

Publication Number Publication Date
JPWO2020240870A1 JPWO2020240870A1 (ja) 2020-12-03
JPWO2020240870A5 true JPWO2020240870A5 (ja) 2022-02-28
JP7251622B2 JP7251622B2 (ja) 2023-04-04

Family

ID=73554036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021522605A Active JP7251622B2 (ja) 2019-05-31 2019-05-31 パラメータ学習装置、パラメータ学習方法、及びプログラム

Country Status (3)

Country Link
US (1) US11829722B2 (ja)
JP (1) JP7251622B2 (ja)
WO (1) WO2020240870A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020240871A1 (ja) * 2019-05-31 2020-12-03 日本電気株式会社 パラメータ学習装置、パラメータ学習方法、及びコンピュータ読み取り可能な記録媒体
JPWO2022144968A1 (ja) * 2020-12-28 2022-07-07
CN112966512B (zh) * 2021-02-26 2024-04-02 西安理工大学 一种基于深度学习的地铁设计规范中实体关系联合抽取方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US7454430B1 (en) * 2004-06-18 2008-11-18 Glenbrook Networks System and method for facts extraction and domain knowledge repository creation from unstructured and semi-structured documents
US7769579B2 (en) * 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US7970808B2 (en) * 2008-05-05 2011-06-28 Microsoft Corporation Leveraging cross-document context to label entity
JP2012027845A (ja) 2010-07-27 2012-02-09 Sony Corp 情報処理装置、関連文提供方法、及びプログラム
US20140372248A1 (en) * 2011-04-04 2014-12-18 Google Inc. Cross-referencing comments
WO2013151546A1 (en) 2012-04-05 2013-10-10 Thomson Licensing Contextually propagating semantic knowledge over large datasets
US9672251B1 (en) * 2014-09-29 2017-06-06 Google Inc. Extracting facts from documents
US10354188B2 (en) * 2016-08-02 2019-07-16 Microsoft Technology Licensing, Llc Extracting facts from unstructured information
JP2018206263A (ja) * 2017-06-08 2018-12-27 日本電信電話株式会社 述語項構造モデル生成装置、述語項構造解析装置、方法、及びプログラム
US20210383249A1 (en) * 2018-10-08 2021-12-09 Schlumberger Technology Corporation Automatic fact extraction

Similar Documents

Publication Publication Date Title
JPWO2020240870A5 (ja) パラメータ学習装置、パラメータ学習方法、及びプログラム
EP3602419B1 (en) Neural network optimizer search
JP2020520516A5 (ja)
CN108733742A (zh) 全局归一化阅读器系统和方法
CN107967255A (zh) 一种判定文本相似性的方法和系统
CN110245364B (zh) 零平行语料多模态神经机器翻译方法
JP2019511033A5 (ja)
CN107506617B (zh) 半局部社交信息miRNA-疾病关联性预测方法
JP6720764B2 (ja) テキスト解析装置及びプログラム
Bu et al. Differentially private optimization on large model at small cost
JP2018022496A (ja) 自然言語処理装置に用いられるトレーニングデータを作成する方法と機器
JPWO2020240871A5 (ja) パラメータ学習装置、パラメータ学習方法、及びプログラム
JP7251622B2 (ja) パラメータ学習装置、パラメータ学習方法、及びプログラム
WO2020040255A1 (ja) 単語符号化装置、解析装置、言語モデル学習装置、方法、及びプログラム
WO2020240871A1 (ja) パラメータ学習装置、パラメータ学習方法、及びコンピュータ読み取り可能な記録媒体
JP7081454B2 (ja) 処理装置、処理方法、及び処理プログラム
CN111309852A (zh) 生成可视化决策树(集)模型的方法、系统、装置及存储介质
JP6180340B2 (ja) 対話文生成装置、対話文生成方法およびプログラム
CN114036276A (zh) 一种信息抽取方法、装置、设备及存储介质
CN110197252A (zh) 基于距离的深度学习
Jaglan et al. COVID-19 trend analysis using machine learning techniques
Liang et al. Taekwondo action recognition method based on partial perception structure graph convolution framework
CN114065769B (zh) 情感原因对抽取模型的训练方法、装置、设备及介质
CN110008480B (zh) 基于原型记忆的小数据词表示学习方法与系统及相关设备
JP7081455B2 (ja) 学習装置、学習方法、及び学習プログラム