JPWO2014132402A1 - データ処理装置および物語モデル構築方法 - Google Patents

データ処理装置および物語モデル構築方法 Download PDF

Info

Publication number
JPWO2014132402A1
JPWO2014132402A1 JP2015502663A JP2015502663A JPWO2014132402A1 JP WO2014132402 A1 JPWO2014132402 A1 JP WO2014132402A1 JP 2015502663 A JP2015502663 A JP 2015502663A JP 2015502663 A JP2015502663 A JP 2015502663A JP WO2014132402 A1 JPWO2014132402 A1 JP WO2014132402A1
Authority
JP
Japan
Prior art keywords
event slot
case
feature
series
shared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015502663A
Other languages
English (en)
Other versions
JP5945062B2 (ja
Inventor
浜田 伸一郎
伸一郎 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Application granted granted Critical
Publication of JP5945062B2 publication Critical patent/JP5945062B2/ja
Publication of JPWO2014132402A1 publication Critical patent/JPWO2014132402A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

実施形態のデータ処理装置(100)は、イベントスロット系列抽出器(2)と、機械学習用事例生成器(3)と、後続イベントスロット推定訓練器(7)と、を備える。イベントスロット系列抽出器(2)は、訓練用タグ付き文書からイベントスロット系列を共有項とともに抽出してイベントスロット系列データを生成する。機械学習用事例生成器(3)は、イベントスロット系列データから、イベントスロット履歴特徴と共有項履歴特徴との少なくともいずれかの特徴量を含む特徴ベクトルで表現された訓練用事例データを生成する。後続イベントスロット推定訓練器(7)は、訓練用事例データを用いて識別モデルに基づく機械学習を行うことにより、先行文脈に後続するイベントスロットを推定するための物語モデルである後続イベントスロット推定モデル(D10)を構築する。

Description

本発明の実施形態は、データ処理装置および物語モデル構築方法に関する。
照応解析(Anaphora Resolution)、共参照解析(Coreference Resolution)、対話処理(Dialog Processing)などの文脈解析(Contextual Analysis)は、自然言語処理において文書を正しく理解する上で重要なタスクである。文脈解析には、シャンクのスクリプトやフィルモアのフレームのような手続き的知識(Procedural Knowledge)を用いることが有効であることが知られている。手続き的知識とは、ある一連の手続に続く手続は何か、ということに関する知識である。この手続き的知識を計算機で再現するモデルが物語モデルである。
従来、互いに関連する述語と格のペア(以下、「イベントスロット」と呼ぶ。)の系列を任意の文書群から獲得し、このイベントスロット系列から事例データを生成して、機械学習の訓練によって物語モデルを構築することが提案されている。
イベントスロット系列は、項を共有する述語と共有項の格種別との組み合わせであるイベントスロットを要素とし、そのイベントスロットを出現順に並べたものである。イベントスロット系列の要素となるイベントスロットの種類は多種多様であるため、十分な学習を行って高精度な物語モデルを構築するには、それに見合う膨大な学習データが必要となる。しかし、信頼性の高い学習データを大量に入手するのは非常にコストがかかる。このため、十分な学習データが集められずに学習データ不足が生じ、その結果、構築される物語モデルの精度が低くなるといった懸念がある。
V.Pekar.2006.Acquisition of verb entailment from text.In "Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics",pages 49.56.Association for Computational Linguistic. I.Szpektor and I.Dagan.2008.Learning entailment rules for unary templates.In "Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1",pages 849.856.Association for Computational Linguistics. N.Chambers and D.Jurafsky.2009.Unsupervised learning of narrative schemas and their participants.In "Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2",pages 602.610.Association for Computational Linguistics. R.Kneser and H.Ney.Improved backing-off for m-gram language modeling.In Proceedings of ICASSP,Vol.1,pp.181.184,1995. R.Rosenfeld:"Adaptive Statistical Language Modeling:A Maximum Entropy Approach",Ph.D.Thesis,Technical Report CMU-CS-94-138,School of Computer Science,Carnegie_Mellon University,Pittsburgh,PA,114 pages,1994. Goodman and Joshua T:"A bit of progress in language modeling",Computer Speech \& Language,volume 15,number 4,pages 403-434,2001.Elsevier. Sven Martin,Christoph Hamacher,Jorg Liermann,FrankWessel,and Hermann Ney.1999.Assessment of smoothing methods and complex stochastic language modeling.In 6th European Conference on Speech Communication and Technology,volume 5,pages 1939.1942,Budapest,Hungary,September.
本発明が解決しようとする課題は、精度の高い物語モデルを構築することができるデータ処理装置および物語モデル構築方法を提供することである。
実施形態のデータ処理装置は、抽出部と、事例生成部と、モデル構築部と、を備える。抽出部は、述語項構造解析および共参照解析が行われた文書から、共有項を持つ述語と前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、複数の前記要素を前記文書における前記述語の出現順に並べた要素系列を、前記共有項とともに抽出する。事例生成部は、前記要素系列を構成する前記要素の1つを注目要素としたときに、前記注目要素のそれぞれについて、前記注目要素を末尾の要素とする前記要素系列内の部分系列に関する1つ以上の特徴量と、前記部分系列に対応する前記共有項の系列に関する1つ以上の特徴量と、の少なくともいずれかの特徴量を含む特徴ベクトルで表現された事例データを生成する。モデル構築部は、前記事例データを用いて識別モデルに基づく機械学習を行うことにより、先行文脈に後続する前記要素を推定するための物語モデルを構築する。
図1は、「犯罪者」を共有項とするイベントスロット系列を用いた確率モデルの模式図である。 図2は、非特許文献3に記載されている方法を説明する模式図である。 図3は、第1実施形態に係るデータ処理装置の構成例を示すブロック図である。 図4は、訓練用タグ付き文書の具体例を示す図である。 図5は、訓練用イベントスロット系列データの具体例を示す図である。 図6は、イベントスロット系列抽出器が実施する処理を説明するフローチャートである。 図7は、訓練用事例データの具体例を示す図である。 図8は、機械学習用事例生成器が実施する処理を説明するフローチャートである。 図9は、イベントスロット履歴特徴生成器による処理を説明するフローチャートである。 図10は、共有項履歴特徴生成器による処理を説明するフローチャートである。 図11は、共有項表現生成器により生成される共有項表現群の一例を示す図である。 図12は、共有項表現生成器による処理を説明するフローチャートである。 図13は、後続イベントスロット推定モデルの一例を示す図である。 図14は、後続イベントスロット推定訓練器が実施する処理を説明するフローチャートである。 図15は、予測処理における機械学習用事例生成器の処理を説明するフローチャートである。 図16は、後続イベントスロット推定結果の一例を示す図である。 図17は、後続イベントスロット予測器が実行する処理を説明するフローチャートである。 図18は、第2実施形態に係るデータ処理装置の構成例を示すブロック図である。 図19は、訓練用事例データの具体例を示す図である。 図20は、組み合わせ特徴生成器による処理を説明するフローチャートである。 図21は、データ処理装置のハードウェア構成を説明する図である。
以下、実施形態のデータ処理装置および物語モデル構築方法を、図面を参照して説明する。
文脈解析において文脈を正しく理解するための手法として、機械学習により構築される物語モデルを用いることは極めて有効である。特に近年では、インターネットを利用したクラウド・スマートコミュニケーションが広く普及しており、たとえば掲示板やブログ、Twitter(登録商標)、SNS(Social Networking Service)などのユーザ生成メディア(CGM:Consumer Generated Media)からインターネット上での評判や意見を拾い出すような分析が行われる。このような分析において、物語モデルを用いることにより、正しく文脈を理解できるようになることが期待される。
本実施形態の物語モデル構築方法では、述語項構造解析および共参照解析が行われた文書群からイベントスロット系列群を抽出し、抽出したイベントスロット系列群を用いて機械学習用の事例データ群を生成し、この事例データ群を用いた機械学習により物語モデルを構築する。
イベントスロット系列は、共有項を持つ述語と格種別のペアの系列である。従来、このイベントスロット系列の確率モデルを手続き的知識として利用して文脈解析などを行う試みがなされている。これは、項を共有する述語同士は何らかの関係を持っているという仮説に基づくものである。従来の方式では、共有項は、イベントスロットを見つけ出すために用いられ、共有項を除いたイベントスロット系列に対してのみ、頻度のカウントが行われる。
図1は、「犯罪者」を共有項とするイベントスロット系列を用いた確率モデルの模式図である。図1(a)は日本語の例を示し、図1(b)は英語の例を示している。図中の矢印は確率モデルの存在を示しており、矢印の元が条件付き確率における条件となる確率変数、矢印の先が評価対象となる確率変数を示している。また、図中の破線は確率モデルが存在しないことを示している。従来の方式によると、この図1に示す例では、頻度のカウント(およびそれに基づく確率計算)は、共有項である「犯罪者」を除いたイベントスロット系列(犯す(動2).ガ格,捕まえる(動1).ヲ格,投獄する(動4).ヲ格)に対してのみ行われる。なお、図1に示す例では、述語の語義曖昧性除去処理を行って、イベントスロット系列を構成する各イベントスロットの述語に、当該述語の語義を特定するための語義特定情報(動2、動1、動4など)を付加しているが、語義特定情報を述語に付加することは必須ではない。
イベントスロット系列の要素となるイベントスロットは、述語と格種別の組み合わせであるため、その種類は述語の語彙数×格種別の数となり膨大である。したがって、十分な学習を行うには、それに見合う膨大な学習データが必要となる。信頼性の高い学習データをたくさん集めるのは非常にコストがかかる。このため十分な学習データが集められず、学習データ不足が起こり、その結果、構築されるモデルの精度が低くなるという問題が生じていた。
学習データ不足において特に致命的なケースは、連接性に関する手がかりが得られない状況である。たとえば図1に示した例において、「捕まえる(動1).ヲ格」と「投獄する(動4).ヲ格」の連接性を学習するには、従来の方式では、それらが連続出現した頻度を数える必要がある。しかし、学習データ中でこれら2つのイベントスロットが1度も連続出現しないというような状況はしばしば起こり得る。すると、連接性を考慮した予測ができなくなり、大きな精度低下を招くことになる。
ゼロ確率を解決する方法として、従来、様々な平滑化手法(たとえば、非特許文献4参照)が提案されている。これらの平滑化手法は、未知の系列に一定の低確率を割り当てる方法である。しかし、これらの平滑化手法は、統計的なむらを無くすための方法であり、ゼロ確率を回避することはできるものの、適切な確率が割り当てられるとは限らない。
本質的な問題は、あるイベントスロットに後続するイベントスロットは何かという問題を解くのに必要な手がかりが不足していることにある。そこで実施形態では、一定量の学習用の解析済テキスト(述語項構造解析および共参照解析が行われた文書)から、後続イベントスロットを予測するための手がかりを、従来の方式よりも多く抽出して、精度の高い物語モデルを構築する方法を提案する。
述語と、述語に従属する複数の格と、それぞれの格を充足する項と、の3つのノードからなる木構造を述語項構造と呼ぶ。述語項構造は、日本語、英語など、あらゆる言語に対して適用可能な構造である。ただし、日本語の場合、格種別は「が」「を」「に」などの助詞によって明示される。一方、英語の場合、格種別は、位置によって示されるもの(主格・対象格)と、意味を汲み取らなければ決定できないものとがある。このように格の表現方法は、言語によって異なる。
文の述語項構造は、述語項構造解析器により解析することができる。述語項構造解析器は言語ごとに用意され、言語固有の格の表現方法を処理して述語項構造を出力する。出力された述語項構造自体は、格の種類に違いはあっても構造そのものは同じである。本実施形態は、既存の述語項構造解析器を用いることを前提としている。このため、格の表現方法の違いについて意識する必要はない。換言すれば、本実施形態は、日本語に特化したものではなく、あらゆる言語に対して適用可能である。
なお、格文法が扱う体系として表層格と深層格とがあり、日本語の場合は主に表層格が用いられる。表層格とは、「が」「を」「に」などの表層的現象をそのまま格種別として扱う格の分類方法である。深層格とは、意味的観点から格を分類する方法である。この表層格と深層格の違いについても、述語項構造解析器が吸収する。以下では、日本語の例のみを挙げて説明するが、上述したように、本実施形態は、あらゆる言語に対して適用可能である。
(実施形態の概要)
ここで、本実施形態の物語モデル構築方法の概要について説明する。本実施形態の物語モデル構築方法は、後続するイベントスロットを予測するための手がかりとなるイベントスロットの連接性に関する情報として、従来の手法で用いているイベントスロット系列の頻度に加えて、共有項の系列の頻度を利用することを基本方針とする。すなわち、本実施形態では、イベントスロット系列の頻度と共有項の系列の頻度との2種類の統計量を評価値として扱い、これらの合算を含む計算処理を用いて、後続するイベントスロットの確率を求める。合算は手がかりのORを取る効果があるため、少なくともどちらかの手がかりが有効であれば、イベントスロットのつながりを予測することが可能となる。
本実施形態において実現すべき機能は、下記[A]〜[C]となる。
[A]:イベントスロット系列の頻度(に準ずる統計量)の計算。
[B]:共有項の系列の頻度(に準ずる統計量)の計算。
[C]:統計量[A]と統計量[B]とを、これらの和を取る処理を含むかたちで統合する確率計算。
一般論として、識別モデルに基づく機械学習手法は、複数の由来の異なる事象を条件とした確率分布を1つの最適化処理で導出することができる手法である。本実施形態では、この点に着目し、由来の異なる上記[A]の統計量および上記[B]の統計量を計算する処理と、上記[C]の複数の統計量を統合する処理とを、識別モデルに基づく機械学習手法を利用して、単一の最適化処理で解く方法を提案する。
具体的には、本実施形態の物語モデル構築方法は、以下の手順を含む。
[1]:述語項構造解析および共参照解析が行われた文書群から共有項を持つイベントスロット系列群を抽出する。
[2]:[1]で抽出したイベントスロット系列群に対し、イベントスロット系列内のイベントスロット(注目要素)ごとに、そのイベントスロットの履歴に関する1つ以上の特徴量と、共有項の履歴に関する1つ以上の特徴量と、の少なくともいずれかの特徴量を含む特徴ベクトルxと、イベントスロット(注目要素)を識別するためのラベルyとを組み合わせた事例データ(x,y)を生成し、事例データ群を得る。
[3]:ロジスティック回帰などの確率を計算できる識別モデル手法を用い、[2]で取得した事例データ群を学習データとした多クラス分類問題を解く(機械学習を行う)ことにより、物語モデルを構築する。
本実施形態において、イベントスロットの履歴とは、当該イベントスロットを末尾の要素とするイベントスロット列内の部分系列(Ngram系列)をいう。たとえばNgram次数を2とする場合(bigram)、図1(a)の例では、「投獄する(動4).ヲ格」の履歴は「捕まえる(動1).ヲ格」−「投獄する(動4).ヲ格」となり、「捕まえる(動1).ヲ格」の履歴は「犯す(動2).ガ格 」−「捕まえる(動1).ヲ格」となる。ただし、イベントスロットの履歴に関する特徴量は、Ngram系列の特徴量だけでなく、次数がn以下のすべての部分系列の特徴量を含む。たとえばNgram次数を2とする場合、イベントスロットの履歴に関する特徴量は、当該イベントスロットとそれに連接する1つ前のイベントスロットとを要素とする部分系列(bigram系列)の特徴量だけでなく、当該イベントスロットのみを要素とする部分系列(unigram系列(本実施形態ではunigramも系列とみなす))の特徴量も含む。これにより、bigramが0頻度だった場合に、unigramで補完する平滑化の効果を得ることができる。
また、本実施形態において、共有項の履歴とは、上述したイベントスロットの部分系列に対応する共有項の系列をいう。たとえばbigram系列の場合、図1(a)の例では、「投獄する(動4).ヲ格」の共有項の履歴、および、「捕まえる(動1).ヲ格」の共有項の履歴は、ともに「犯罪者」−「犯罪者」となる。このように、共有項の履歴は、部分系列に含まれる要素の数に対応する共有項の数(共有項が連続する数)を表している。ただし、共有項の履歴に関する特徴量は、「犯罪者」のような表層の系列の特徴量だけでなく、たとえば、共有項の意味的カテゴリや固有表現タイプなどを表す他の表現方法での系列の特徴量も含む。これにより、共有項の系列の頻度を適切な粒度で求めることが可能となる。
なお、言語モデルの構築方法として識別モデルを利用することが非特許文献5に記載されている。非特許文献5では、識別モデルを用いた様々な異なる統計量の統合例を紹介しており、5.3節では、その一例として、Ngramとトリガの2つの手がかりを統合した言語モデルを構築することが記載されている。本実施形態では、たとえばこの非特許文献5に記載の方法を応用し、識別モデルに基づく機械学習手法を利用して、物語モデルを構築することができる。
本実施形態によれば、上述したように、イベントスロット系列からイベントスロットの履歴に関する特徴量と共有項の履歴に関する特徴量とを含む事例ベクトルで表現された事例データを生成し、この事例データを用いて識別モデルに基づく機械学習を行うことで物語モデルを構築するため、精度の高い物語モデルを構築することができる。
なお、イベントスロット系列を用いた確率モデルの構築に関し、イベントスロット系列の情報だけでなく共有項の情報も併せて使用することが、非特許文献3に記載されている。しかし、非特許文献3に記載されている方法は、共有項の履歴に関する情報を用いるものではなく、共有項の情報は、イベントスロット系列をより厳密に区別するために用いている。つまり、非特許文献3に記載されている方法は、たとえば図2に示すように、実質的には、イベントスロットの確率と共有項の確率の積を取るのに近いかたちで確率モデルを構築している。このため、非特許文献3に記載されている方法では、学習データ不足という問題は解消されず、むしろ問題が深刻化する傾向にある。
これに対して、本実施形態の物語モデル構築方法によれば、共有項の履歴に関する特徴量を特徴ベクトルの次元に含ませるかたちで事例データを生成し、この事例データを用いて識別モデルに基づく機械学習を行うことで物語モデルを構築するため、学習データ不足を解消して、精度の高い物語モデルを構築することができる。
(第1実施形態)
次に、本実施形態に係るデータ処理装置の具体例について説明する。図3は、第1実施形態に係るデータ処理装置100の構成例を示すブロック図である。データ処理装置100は、図3に示すように、テキスト解析器1と、イベントスロット系列抽出器2(抽出部)と、機械学習用事例生成器3(事例生成部)と、イベントスロット履歴特徴生成器4と、共有項履歴特徴生成器5と、共有項表現生成器6と、後続イベントスロット推定訓練器7(モデル構築部)と、後続イベントスロット推定予測器8(予測部)と、を備える。なお、図3中の角丸四角形は、データ処理装置100を構成する上記各モジュール1〜8の入出力データを表している。
データ処理装置100により実行される処理は、「訓練処理」と「予測処理」とに大別される。訓練処理は、イベントスロット系列抽出器2、機械学習用事例生成器3、イベントスロット履歴特徴生成器4、共有項履歴特徴生成器5、共有項表現生成器6および後続イベントスロット推定訓練器7を用いて、訓練用タグ付き文書群D1から後続イベントスロット推定モデルD10(物語モデル)を構築する処理である。予測処理は、テキスト解析器1、イベントスロット系列抽出器2、機械学習用事例生成器3、イベントスロット履歴特徴生成器4、共有項履歴特徴生成器5、共有項表現生成器6および後続イベントスロット推定予測器8と、訓練処理により構築された後続イベントスロット推定モデルD10とを用いて、解析対象文書D5の後続イベントスロットを推定する処理である。なお、図3中の破線の矢印は訓練処理における処理フローを示し、実線の矢印は予測処理における処理フローを示し、一点鎖線の矢印は訓練処理と予測処理の双方で共通する処理フローを示している。
まず、訓練処理の概要について説明する。データ処理装置100が訓練処理を実行する場合、イベントスロット系列抽出器2には、訓練用タグ付き文書群D1が入力される。イベントスロット系列抽出器2は、訓練用タグ付き文書群D1を受け取り、この訓練用タグ付き文書群D1に含まれる訓練用タグ付き文書からイベントスロット系列を抽出する処理を行って、訓練用イベントスロット系列データ群D2を出力する。
次に、機械学習用事例生成器3が、訓練用イベントスロット系列データ群D2を受け取り、イベントスロット履歴特徴生成器4、共有項履歴特徴生成器5および共有項表現生成器6と連携して、訓練用イベントスロット系列データ群D2に含まれる訓練用イベントスロット系列データから事例データを生成する処理を行って、訓練用事例データ群D3を出力する。
次に、後続イベントスロット推定訓練器7が、訓練用事例データ群D3を受け取り、この訓練用事例データ群D3を用いた機械学習の訓練を行って、後続イベントスロット推定モデルD10を出力する。この後続イベントスロット推定モデルD10は物語モデルそのものであり、次に説明する予測処理において、解析対象文書D5の後続イベントスロットを推定するために用いられる。
次に、予測処理の概要について説明する。データ処理装置100が予測処理を実行する場合、まず、解析対象文書D5がテキスト解析器1に入力される。テキスト解析器1は、解析対象文書D5を受け取り、この解析対象文書D5に対して述語項構造解析や共参照解析などを行って、解析対象タグ付き文書D6を出力する。
次に、イベントスロット系列抽出器2が、解析対象タグ付き文書D6を受け取り、この解析対象タグ付き文書D6からイベントスロット系列を抽出する処理を行って、予測用イベントスロット系列データ群D7を出力する。
次に、機械学習用事例生成器3が、予測用イベントスロット系列データ群D7を受け取り、イベントスロット履歴特徴生成器4、共有項履歴特徴生成器5および共有項表現生成器6と連携して、予測用イベントスロット系列データ群D7に含まれる予測用イベントスロット系列データから事例データを生成する処理を行って、予測用事例データ群D8を出力する。
次に、後続イベントスロット推定予測器8が、予測用事例データ群D8と、訓練処理により構築された後続イベントスロット推定モデルD10とを受け取り、後続イベントスロット推定モデルD10を用いて後続イベントスロットを予測する処理を行って、後続イベントスロット推定結果D9を出力する。この後続イベントスロット推定結果D9には、解析対象文書D5から抽出されたイベントスロット系列に後続する後続イベントスロットとして出現する可能性があるイベントスロットそれぞれについての確率が示されている。物語モデルを活用するアプリケーションは、自身の処理の中で、この後続イベントスロット推定結果D9の情報を文脈理解のための何らかの判断材料として用いることができる。
次に、訓練処理に用いる各モジュールの詳細について、訓練処理の具体例を例示しながら説明する。
まず、イベントスロット系列抽出器2について説明する。訓練処理において、イベントスロット系列抽出器2は、上述したように、訓練用タグ付き文書群D1を入力し、訓練用イベントスロット系列データ群D2を出力する。
図4は、イベントスロット系列抽出器2が入力する訓練用タグ付き文書群D1の一部である訓練用タグ付き文書の具体例を示す図であり、図4(a)は日本語の例、図4(b)は英語の例をそれぞれ示している。図4に示すように、訓練用タグ付き文書は、形態素(単語分割)情報が付与されたテキストと、ゼロ照応や代名詞照応などの照応関係が解決された照応解決済みの述語項構造解析情報と、共参照情報とを含む。本実施形態において、述語項構造解析情報と共参照情報は必須となるが、訓練用タグ付き文書が図4に示すフォーマットでなければ処理できないわけではない。すなわち、訓練用タグ付き文書は、述語項構造解析情報と共参照情報とを含むものであれば、任意のフォーマットで表現されたものを利用することができる。なお、図4(a)の日本語の例と、図4(b)の英語の例とでは、使用する言語の違いはあるものの、データ自体に本質的な違いはない。したがって、以下では日本語の例についてのみ説明する。
図4に示す訓練用タグ付き文書において、“テキストと形態素解析(単語分割)情報”のセクションでは、テキストが単語分割されており、各単語に形態素番号が割り振られている。また、“照応解決済の述語項構造情報”のセクションでは、テキスト上で省略されている項が照応解析によって照応解決された状態での各述語の述語項構造に関する情報が、各述語に割り振られたIDとともに示されている。各述語の述語項構造は、述語の形態素番号とその語義、述語に従属する各項の格種別および形態素番号を含む。なお、図4(a)に示す例において、形態素番号12の述語や形態素番号15の述語のガ格とヲ格は、照応解析によって解決された項である。また、“共参照情報”のセクションでは、テキスト上で共参照関係にあるとみなせる名詞句群(以下、共参照クラスタという。)ごとに、各共参照クラスタに割り振ったIDとともに、その共参照クラスタのメンバーを述語項構造と対応付けるかたちで示している。
なお、図4に例示したような訓練用タグ付き文書は、たとえば、任意のテキストに対して、後述する予測処理において用いるテキスト解析器1(あるいは同等の機能を持つモジュール)を利用して解析結果のタグを付加することで生成してもよいし、任意のテキストに対して、人手によりタグを付加することで生成してもよい。
図5は、イベントスロット系列抽出器2が出力する訓練用イベントスロット系列データ群D2の一部である訓練用イベントスロット系列データの具体例を示す図であり、図4(a)に示した訓練用タグ付き文書から抽出された訓練用イベントスロット系列データの例を示している。図5に示す訓練用イベントスロット系列データにおいて、左側のセクションには、最後尾に“</s>”という要素が追加されたイベントスロット系列が示されている。系列内の各イベントスロットは項を共有しており、その共有項の情報が右側のセクションに示されている。なお、系列の最後尾の“</s>”という要素は、その系列の終了を示す擬似的なイベントスロットであり、終了しやすい系列パターンを学習するために用いられる。
図5に示すような訓練用イベントスロット系列データは、図4(a)に示したような訓練用タグ付き文書から、共参照クラスタの数だけ生成される。すなわち、図5の例は、図4(a)に示した訓練用タグ付き文書から、[C01]のIDで示される共参照クラスタについて生成された訓練用イベントスロット系列データであるが、図4(a)に示した訓練用タグ付き文書からは、さらに[C02]のIDで示される共参照クラスタについても同様に、訓練用イベントスロット系列データが生成される。
図6は、イベントスロット系列抽出器2が実施する処理を説明するフローチャートである。イベントスロット系列抽出器2は、入力された訓練用タグ付き文書群D1に含まれる訓練用タグ付き文書(図4参照)のそれぞれに対して、以下のステップS101〜ステップS104の処理を行って訓練用イベントスロット系列データ(図5参照)を生成し、訓練用イベントスロット系列データ群D2を出力する。なお、図6に例示するイベントスロット系列抽出器2の処理は、図4に例示したフォーマットの訓練用タグ付き文書から、図5に例示したフォーマットの訓練用イベントスロット系列データを生成する例である。訓練用タグ付き文書や訓練用イベントスロット系列データのフォーマットが図4や図5の例と異なる場合は、イベントスロット系列抽出器2は、そのフォーマットに合わせた処理を行えばよい。
ステップS101:イベントスロット系列抽出器2は、入力データである訓練用タグ付き文書の“共参照情報”のセクションから、共参照クラスタを1つ取り出す。
ステップS102:イベントスロット系列抽出器2は、共参照クラスタ内の各メンバーの形態素番号と表層を列挙したものを、出力データとなる訓練用イベントスロット系列データの右側のセクションに記述する。
ステップS103:イベントスロット系列抽出器2は、共参照クラスタ内の各メンバーのカッコ内に書かれた情報(イベントスロット情報)を系列として取り出し、述語の形態素番号を述語の表層と語義に置き換え、さらにその系列の最後尾に“</s>”という要素を加えた後、出力データとなる訓練用イベントスロット系列データの左側のセクションに記述する。
ステップS104:イベントスロット系列抽出器2は、訓練用タグ付き文書の“共参照情報”のセクションに記述されているすべての共参照クラスタについて、上記のステップS101〜ステップS103の処理を行う。
次に、機械学習用事例生成器3について説明する。まず、本実施形態に係るデータ処理装置100における機械学習用事例生成器3の位置づけについて説明する。本実施形態に係るデータ処理装置100において、後続イベントスロット推定訓練器7および後続イベントスロット推定予測器8が行う機械学習処理は、識別モデルをベースとして、Ngram系列の確率を予測することを目的とする。つまり、yをイベントスロット、xをイベントスロット系列の履歴とするとき、P(y|x)が予測すべき確率となる。この最適化には最尤推定を用いるが、そのためには機械学習用に表現されたxとyの組を事例データとして予め作成する必要がある。機械学習用事例生成器3は、その事例データを作成する処理を担当する。
機械学習用事例生成器3は、上述したように、イベントスロット系列抽出器2から訓練用イベントスロット系列データ群D2を入力として受け取り、訓練用事例データ群D3を出力する。
図7は、機械学習用事例生成器3が出力する訓練用事例データ群D3の一部である訓練用事例データの具体例を示す図であり、図5に示した訓練用イベントスロット系列データから生成された訓練用事例データの例を示している。ただし、図7の訓練用事例データは、Ngram次数を2(bigram)とし、図5に示した訓練用イベントスロット系列データの「投獄する(動4).ヲ格」を注目要素としたときの、当該注目要素に関する訓練用事例データである。
図7に示す訓練用事例データにおいて、“y:”で始まるセクションには、出力ラベルが記載されている。出力ラベルは、後続イベントスロットを予測する予測処理において正解となるイベントスロットを表している。
また、図7に示す訓練用事例データにおいて、“x:”で始まるセクションには、後続イベントスロットを予測するための手がかりとなる情報に対応する特徴ベクトルが記載されている。特徴ベクトルは、要素(次元)ごとにカンマで区切られており、各要素はコロンで区切られている。コロンより前にあるのは次元を識別するための次元IDであり、コロンより後にあるのはその次元での値(特徴量)である。ここで指定されなかった次元の値は0とみなす。この表記は、ほとんどの要素が0となる高次元スパースなベクトルをコンパクトに表現するのによく用いられる記法である。次元IDは文字列で表され、異なる事例の特徴ベクトルに含まれる要素間で、同一次元かどうかを判定するために用いられる。後続の機械学習処理においては、数学的なベクトルに解釈しなければならないときには、各次元IDが異なるベクトル要素番号になるよう適当に割り振ることをする(各次元IDを数学的ベクトルのどの要素番号に割り当てても最適化の結果は同じである)。なお、本実施形態では、各次元の値には1か0しか用いないものとする。
特徴ベクトルは、上述したように、イベントスロットの履歴に関する1以上の特徴量と共有項の履歴に関する1以上の特徴量とを含む。図7に示す例において、“[EventSlot]”で始まる次元IDに対応する値がイベントスロットの履歴に関する特徴量(以下、イベントスロット履歴特徴という。)であり、“[ShareArg]”で始まる次元IDに対応する値が共有項の履歴に関する特徴量(以下、共有項履歴特徴という。)である。ここで、イベントスロット履歴特徴および共有項履歴特徴は、Ngram次数をiとするとき、i以下のすべての次数のNgram系列について生成される。たとえば、図7に示す例では、Ngram次数が2であるため、bigram系列の履歴特徴とunigram系列の履歴特徴が生成されている。これにより、bigram系列が0頻度だった場合に、unigram系列で補完する平滑化の効果を得ることができる。なお、実施形態によっては、上述したイベントスロット履歴特徴、または、共有項履歴特徴のいずれか一方のみを含む特徴ベクトルを用いてもよい。
図8は、機械学習用事例生成器3が実施する処理を説明するフローチャートである。機械学習用事例生成器3は、入力された訓練用イベントスロット系列データ群D2に含まれる訓練用イベントスロット系列データ(図5参照)のそれぞれに対して、以下のステップS201〜ステップS208の処理を行って訓練用事例データ(図7参照)を生成し、訓練用事例データ群D3を出力する。
ステップS201:機械学習用事例生成器3は、入力データである訓練用イベントスロット系列データの左側のセクションに記載されたイベントスロット系列から、注目要素となるイベントスロット(以下、注目スロットという。)を順に1つ取り出す。
ステップS202:機械学習用事例生成器3は、注目スロットの履歴に当たる部分系列を、イベントスロット系列から取り出す。たとえばbigramならば、注目スロットの1つ前のイベントスロットまでを含む部分系列を取り出し、trigramならば、注目スロットの2つ前のイベントスロットまでを含む部分系列を取り出す。ここで、注目要素となるイベントスロットがイベントスロット系列の先頭付近であり、Ngran次数を満たせる長さがない場合は、“<s>”などのダミー要素を不足するイベントスロットの数だけ先頭に付加すればよい。
ステップS203:機械学習用事例生成器3は、イベントスロット系列データの右側のセクションに記載された共有項の情報を取り出す。
ステップS204:機械学習用事例生成器3は、注目スロットの記載を元に、出力データとなる訓練用事例データの“y:”で始まるセクションに出力ラベルを記載する。ここでは、注目スロットの記載がそのまま出力ラベルとなる。
ステップS205:機械学習用事例生成器3は、注目スロットとその注目スロットの履歴の情報をイベントスロット履歴特徴生成器4に渡し、イベントスロット履歴特徴生成器4からイベントスロット履歴特徴群を得る。図7に示した訓練用事例データの例では、“[EventSlot]”で始まる次元IDに対応する値がイベントスロット履歴特徴であり、機械学習用事例生成器3は、これらイベントスロット履歴特徴の集まりであるイベントスロット履歴特徴群を、イベントスロット履歴特徴生成器4から取得する。
ステップS206:機械学習用事例生成器3は、共有項の情報を共有項履歴特徴生成器5に渡し、共有項履歴特徴生成器5から共有項履歴特徴群を得る。図7に示した訓練用事例データの例では、“[ShareArg]”で始まる次元IDに対応する値が共有項履歴特徴であり、機械学習用事例生成器3は、これら共有項履歴特徴の集まりである共有項履歴特徴群を、共有項履歴特徴生成器5から取得する。
ステップS207:機械学習用事例生成器3は、以上のように取得したイベントスロット履歴特徴群や共有項履歴特徴群をマージした結果を、特徴ベクトルとして、出力データとなる訓練用事例データの“x:”で始まるセクションに書き込む。
ステップS208:機械学習用事例生成器3は、イベントスロット系列データの左側のセクションに記載されたイベントスロット系列に含まれるすべてのイベントスロットについて、上記のステップS201〜ステップS207の処理を行う。
次に、イベントスロット履歴特徴生成器4について説明する。イベントスロット履歴特徴生成器4は、機械学習用事例生成器3から注目スロットとその注目スロットの履歴の情報を入力として受け取り、上述したイベントスロット履歴特徴群を機械学習用事例生成器3に返す。
図9は、イベントスロット履歴特徴生成器4による処理を説明するフローチャートである。イベントスロット履歴特徴生成器4は、機械学習用事例生成器3から注目スロットとその注目スロットの履歴の情報を受け取ると、図9のステップS301〜ステップS310の処理を行って、イベントスロット履歴特徴群を機械学習用事例生成器3に返す。
ステップS301:イベントスロット履歴特徴生成器4は、返り値(特徴量表現文字列リスト)用の変数resultを用意し、空のリストを代入する。
ステップS302:イベントスロット履歴特徴生成器4は、Ngram次数をNとするとき、1からNまでの範囲のループ変数lenを用意し、ループ1を開始する。
ステップS303:イベントスロット履歴特徴生成器4は、特徴量表現文字列sを用意し、“[EventSlot]”+注目スロットを代入する。
ステップS304:イベントスロット履歴特徴生成器4は、1からlenまでの範囲のループ変数iを用意し、ループ2を開始する。
ステップS305:イベントスロット履歴特徴生成器4は、注目スロットの履歴の情報から注目スロットのi個前のイベントスロットを取り出し、特徴量表現文字列sにアンダーバーを挟んで追加する。
ステップS306:イベントスロット履歴特徴生成器4は、ループ2の分岐処理(繰り返すか終了するかの判定)を行う。
ステップS307:イベントスロット履歴特徴生成器4は、特徴量表現文字列sに“:1”を追加する。
ステップS308:イベントスロット履歴特徴生成器4は、特徴量表現文字列リストresultに特徴量表現文字列sを追加する。
ステップS309:イベントスロット履歴特徴生成器4は、ループ1の分岐処理(繰り返すか終了するかの判定)を行う。
ステップS310:イベントスロット履歴特徴生成器4は、特徴量表現文字列リストresultを返り値として返す。
次に、共有項履歴特徴生成器5について説明する。共有項履歴特徴生成器5は、機械学習用事例生成器3から共有項の情報を入力として受け取り、上述した共有項履歴特徴群を機械学習用事例生成器3に返す。
図10は、共有項履歴特徴生成器5による処理を説明するフローチャートである。共有項履歴特徴生成器5は、機械学習用事例生成器3から共有項の情報を受け取ると、図10のステップS401〜ステップS413の処理を行って、共有項履歴特徴群を機械学習用事例生成器3に返す。
ステップS401:共有項履歴特徴生成器5は、返り値(特徴量表現文字列リスト)用の変数resultを用意し、空のリストを代入する。
ステップS402:共有項履歴特徴生成器5は、共有項表現生成器6に共有項の情報を渡して呼び出し、共有項表現生成器6から共有項表現群を得る。
ステップS403:共有項履歴特徴生成器5は、共有項表現群から順に1つずつ取り出して以下の処理を実行する(ループ1)。
ステップS404:共有項履歴特徴生成器5は、Ngram次数をNとするとき、1からNまでの範囲のループ変数lenを用意し、ループ2を開始する。
ステップS405:共有項履歴特徴生成器5は、特徴量表現文字列sを用意し、“[ShareArg]”+共有項表現を代入する。
ステップS406:共有項履歴特徴生成器5は、1からlenまでの範囲のループ変数iを用意し、ループ3を開始する。
ステップS407:共有項履歴特徴生成器5は、特徴量表現文字列sにアンダーバーを挟んで共有項表現を追加する。
ステップS408:共有項履歴特徴生成器5は、ループ3の分岐処理(繰り返すか終了するかの判定)を行う。
ステップS409:共有項履歴特徴生成器5は、特徴量表現文字列sに“:1”を追加する。
ステップS410:共有項履歴特徴生成器5は、特徴量表現文字列リストresultに特徴量表現文字列sを追加する。
ステップS411:共有項履歴特徴生成器5は、ループ2の分岐処理(繰り返すか終了するかの判定)を行う。
ステップS412:共有項履歴特徴生成器5は、ループ1の分岐処理(繰り返すか終了するかの判定)を行う。
ステップS413:共有項履歴特徴生成器5は、特徴量表現文字列リストresultを返り値として返す。
次に、共有項表現生成器6について説明する。共有項表現生成器6は、共有項履歴特徴生成器5から共有項の情報を入力として受け取り、共有項表現群を共有項履歴特徴生成器5に返す。
図11は、共有項表現生成器6により生成される共有項表現群の一例を示す図であり、図5に例示したイベントスロット系列データに含まれる共有項の情報が共有項表現生成器6に入力されたときに生成される共有項表現群の例である。図11に示すように、共有項表現生成器6が生成する共有項表現群は、共有項の表層(正規化された表層であってもよい)以外に、固有表現認識の結果を用いた表現と、意味的カテゴリによる表現とを含む。なお、これらの表現以外にも、さらに品詞(普通名詞・固有名詞・数名視など)を共有項の表現の1つに加えてもよい。共有項の表現に品詞を加えることにより、品詞単位での共有項の傾向を扱うことができるようになる。なお、共有項表現は、上記のような表層または正規化された表層、文法的カテゴリの情報、意味的カテゴリの情報、固有表現タイプの情報、の少なくともいずれかを用いて共有項を区別したものであればよい。
図12は、共有項表現生成器6による処理を説明するフローチャートである。共有項表現生成器6は、共有項履歴特徴生成器5から共有項の情報を受け取ると、図12のステップS501〜ステップS507の処理を行って、共有項表現群を共有項履歴特徴生成器5に返す。
ステップS501:共有項表現生成器6は、返り値(共有項表現リスト)用の変数resultを用意し、空のリストを代入する。
ステップS502:共有項表現生成器6は、表層群から順に1つずつ表層を取り出して以下の処理を実行する(ループ1)。
ステップS503:共有項表現生成器6は、特徴量表現文字列リストresultに当該表層を追加する。
ステップS504:共有項表現生成器6は、表層を元に固有表現認識処理を行い、得られた固有表現タイプを特徴量表現文字列リストresultに追加する。なお、固有表現認識とは、PERSON,ORGANIZATION,LOCATIONなどといった固有表現のタイプを識別する処理である。
ステップS505:共有項表現生成器6は、表層についてシソーラスなどを用いて意味カテゴリを同定し、得られた意味カテゴリを階層ごとに特徴量表現文字列リストresultに追加する。
ステップS506:共有項表現生成器6は、ループ1の分岐処理(繰り返すか終了するかの判定)を行う。
ステップS507:共有項表現生成器6は、特徴量表現文字列リストresultを返り値として返す。
次に、後続イベントスロット推定訓練器7について説明する。後続イベントスロット推定器7は、上述したように、機械学習用事例生成器3から訓練用事例データ群D3を入力として受け取り、後続イベントスロット推定モデルD10(物語モデル)を出力する。
図13は、後続イベントスロット推定モデルD10の一例を示す図である。図13に示す後続イベントスロット推定モデルD10において、それぞれの行は、各クラスの特徴ベクトルに相当し、クラス番号順に並んでいる。ここで、クラスは上述した出力ラベルyに相当し、クラス番号とは出力ラベルyに対応する番号のことである。また、図13に示す後続イベントスロット推定モデルD10において、行内の各フィールドは特徴ベクトルの要素(次元)であり、次元番号順に並んでいる。次元番号は、次元IDに対応する番号のことである。後続イベントスロット推定訓練器7が出力する後続イベントスロット推定モデルD10は、実際は膨大なデータサイズになるが、説明の便宜のため、図13では小さな次元数とクラス数で例示している。
図14は、後続イベントスロット推定訓練器7が実施する処理を説明するフローチャートである。後続イベントスロット推定訓練器7は、入力された訓練用事例データ群D3を用いて以下のステップS601〜ステップS604の処理を行って、物語モデルとなる後続イベントスロット推定モデルD10を生成し、出力する。
ステップS601:後続イベントスロット推定訓練器7は、入力された訓練用事例データ群D3に含まれる出力ラベルyを、互いに異なる番号(クラス番号)に割り当てる。
ステップS602:後続イベントスロット推定訓練器7は、入力された訓練用事例データ群D3に含まれる特徴量の次元IDを、互いに異なる番号(次元番号)に割り当てる。
ステップS603:後続イベントスロット推定訓練器7は、下記式(1)で示すロジスティック回帰の最適化式を解く。つまり、目的関数Lを最小化する重みベクトル群w(c)(ただし∈Y)を求める。ただし、クラス集合をY={1,2..C}、xから抽出した特徴ベクトルをφ(x)、λを任意の定数、Nを事例数、(x(i),y(i))をi番目の事例としている。
Figure 2014132402
ステップS604:後続イベントスロット推定訓練器7は、式(1)の最適化式を解くことで得られた重みベクトル群w(c)(ただしc∈Y)を、後続イベントスロット推定モデルD10として出力する。
次に、以上のように生成された後続イベントスロット推定モデルD10を用いて後続イベントスロットを推定する予測処理を行うための各モジュールの詳細について説明する。
まず、テキスト解析器1について説明する。予測処理においては、上述したように、解析対象文書D5がテキスト解析器1に入力される。テキスト解析器1は、入力された解析対象文書D5に対して、たとえば、形態素解析、述語構造解析、および共参照解析を行って、図4に例示した訓練用タグ付き文書と同様のフォーマットの解析対象タグ付き文書D6を生成し、出力する。なお、テキスト解析器1が実施する形態素解析、述語構造解析、および共参照解析は既存技術であるため、ここでは説明を省略する。
次に、イベントスロット系列抽出器2について説明する。予測処理においては、イベントスロット系列抽出器2は、テキスト解析器1が出力する解析対象タグ付き文書D6を入力として受け取り、予測用イベントスロット系列データ群D7を出力する。予測処理においてイベントスロット系列抽出器2が実施する処理は、訓練処理における処理と同様である。予測用イベントスロット系列データ群D7は、図5に例示した訓練用イベントスロット系列データと同様のフォーマットの予測用イベントスロット系列データの集まりである。
ここで、予測処理において予測すべき問題設定について説明する。一般的に、予測すべき問題設定はアプリケーションによって異なる。対話処理への応用の場合、与えられた文書に続きそうなイベントスロットとその確率を推定するという問題設定が適切である。また、日本語などでのゼロ照応解析への応用の場合は、文書中のある述語の省略項(英語などでの代名詞照応解析の場合は、省略項ではなく代名詞)が、その前方文脈に対して最も連接しやすいイベントスロット系列を選ぶという問題設定が適切である。本実施形態ではアプリケーションによらない説明をするため、より単純な設定として、与えられたイベントスロット系列に対して、最も続きそうな後続イベントスロット(あるいは何も続かないというケース)とその確率を推定するという問題を解くものとする。なお、上述の与えられたイベントスロット系列としては、イベントスロット系列抽出器2が出力する予測用イベントスロット系列データ群D7のうちのいずれかのイベントスロット系列データがすでに選ばれているとし、その選び方はここでは議論しないとする。
次に、機械学習用事例生成器3について説明する。予測処理においては、機械学習用事例生成器3は、イベントスロット系列抽出器2が出力する予測用イベントスロット系列データ群D7を入力として受け取り、選ばれたイベントスロット系列データから予測用事例データを生成して、予測用事例データ群D8を出力する。予測用事例データは、図7に例示した訓練用事例データと同様のフォーマットであるが、出力ラベルyが不定となっている点のみ、訓練用事例データと異なる。
図15は、予測処理における機械学習用事例生成器3の処理を説明するフローチャートである。機械学習用事例生成器3は、入力された予測用イベントスロット系列データ群D7から選ばれた予測用イベントスロット系列データに対して、以下のステップS701およびステップS702の処理を行って予測用事例データを生成し、予測用事例データ群D8を出力する。
ステップS701:機械学習用事例生成器3は、予測用イベントスロット系列データの左側のセクションに記載されたイベントスロット系列から、最後尾の要素である“</s>”を除去する。
ステップS702:機械学習用事例生成器3は、残ったイベントスロット系列を履歴とみなして、図8のステップS202、ステップS203、ステップS205〜ステップS208と同様の処理を行って、予測用事例データ群D8を出力する。なお、予測処理の場合、予測用事例データの出力ラベルyは不定であるため、空欄のままとする、あるいはダミー値を埋め込んでおく。
次に、後続イベントスロット推定予測器8について説明する。後続イベントスロット推定予測器8は、機械学習用事例生成器3が出力する予測用事例データ群D8を入力として受け取り、訓練処理において構築された後続イベントスロット推定モデルD10を用いて、機械学習の予測処理を行って、後続イベントスロット推定結果D9を出力する。
図16は、後続イベントスロット推定結果D9の一例を示す図である。図16に示す後続イベントスロット推定結果D9では、各クラスの条件付確率P(c|x)(ただしc∈Y)がクラス番号順に列挙されている。各クラスの確率は、各イベントスロットが、与えられたイベントスロット系列に対して後続するかどうかの確からしさを示している。
図17は、後続イベントスロット推定予測器8が実行する処理を説明するフローチャートである。後続イベントスロット推定予測器8は、入力された予測用事例データ群D8に対し、後続イベントスロット推定モデルD10を用いて以下のステップS801〜ステップS803の処理を行って、後続イベントスロット推定結果D9を出力する。
ステップS801:後続イベントスロット推定予測器8は、入力された予測用事例データ群D8に含まれる特徴量の次元IDを、後続イベントスロット推定訓練器7と同様の手順(図14のステップS602と同様)で、互いに異なる番号(次元番号)に割り当てる。
ステップS802:後続イベントスロット推定予測器8は、下記式(3)で示すロジスティック回帰の推定の式に基づき、各クラスの確率を算出する。ただし、クラス集合をY={1,2..C}、xから抽出した特徴ベクトルをφ(x)としている。
Figure 2014132402
ステップS803:後続イベントスロット推定予測器8は、式(3)により得られた各クラスの確率P(c|x)(ただしc∈Y)を、後続イベントスロット推定結果D9として出力する。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態に係るデータ処理装置100では、イベントスロット系列抽出器2(抽出部)が、訓練用タグ付き文書(述語項構造解析および共参照解析が行われた文書)から、訓練用イベントスロット系列データ(共有項を持つ述語と共有項の格の種別を表す格種別情報との組み合わせを要素とし、複数の要素を文書における述語の出現順に並べた要素系列、および共有項)を抽出する。そして、機械学習用事例生成器3(事例生成部)が、訓練用イベントスロット系列データから、イベントスロット履歴特徴および共有項履歴特徴を含む特徴ベクトルxと出力ラベルyとの組み合わせである訓練用事例データ(要素系列を構成する要素の1つを注目要素としたときに、注目要素のそれぞれについて、注目要素を末尾の要素とする要素系列内の部分系列に関する1以上の特徴量と、部分系列に含まれる要素の数に対応する共有項の数に関する1以上の特徴量と、を含む特徴ベクトルで表現された事例データ)を生成する。そして、後続イベントスロット推定訓練器7(モデル構築部)が、訓練用事例データを用いて、式(1)に示したロジスティック回帰の最適化式を解く(識別モデルに基づく機械学習を行う)ことにより、後続イベントスロット推定モデルD10(物語モデル)を構築する。このように、本実施形態に係るデータ処理装置100によれば、イベントスロット履歴特徴だけでなく、共有項履歴特徴も含む特徴ベクトルで表現された事例データを生成し、この事例データを用いた機械学習により物語モデルを構築するようにしているので、後続イベントスロットを予測するための手がかりを従来よりも多く抽出して、精度の高い物語モデルを構築することができる。
また、本実施形態に係るデータ処理装置100では、機械学習用事例生成器3が訓練用事例データや予測用事例データを生成する際に、共有項履歴特徴生成器5および共有項表現生成器6と連携して、表層または正規化された表層、文法的カテゴリの情報、意味的カテゴリの情報、固有表現タイプの情報、の少なくともいずれかを用いて共有項を区別した共有項表現ごとに、共有項履歴特徴を生成するようにしている。したがって、本実施形態に係るデータ処理装置100によれば、共有項履歴特徴を適切な粒度で生成して、精度の高い物語モデルを構築することができる。
また、本実施形態に係るデータ処理装置100では、機械学習用事例生成器3が訓練用事例データや予測用事例データを生成する際に、イベントスロット履歴特徴および共有項履歴特徴として、unigram(ユニグラム)系列を含む部分系列のそれぞれについて特徴量を生成するようにしている。したがって、本実施形態に係るデータ処理装置100によれば、イベントスロット系列の確率がゼロとなるゼロ確率を有効に解決して、精度の高い物語モデルを構築することができる。
また、本実施形態に係るデータ処理装置100では、イベントスロット系列抽出器2が抽出するイベントスロット系列は、各イベントスロットに含まれる述語に、該述語の語義を特定する語義特定情報が付加されている。したがって、本実施形態に係るデータ処理装置100によれば、述語の語義の曖昧さを除去して、精度の高い物語モデルを構築することができる。
(第2実施形態)
次に、第2実施形態について説明する。第2実施形態では、第1実施形態で用いた共有項履歴特徴の代わりに、共有項履歴特徴を包含する機能を持つワイルドカード履歴と共有項の組み合わせ特徴を用いる。
まず、ワイルドカード履歴について説明する。ワイルドカード履歴とは、イベントスロットの履歴となるイベントスロット系列内の部分系列の一部の要素をワイルドカード(あらゆるイベントスロットとマッチする要素)に置き換えたものである。たとえば“A_B_C”(A,B,Cはこの順番で現れるイベントスロット)という履歴があるとき、ワイルドカードを*とすると、“A_B_C”(ワイルドカードなしの履歴)、“A_B_*”(Cをワイルドカードで置き換えた履歴)、“A_*_C”(Bをワイルドカードで置き換えた履歴)、“A_*_*”(BとCをワイルドカードで置き換えた履歴)、“*_B_C”(Aをワイルドカードで置き換えた履歴)、“*_*_C”(AとBをワイルドカードで置き換えた履歴)、“*_*_*”(AとBとCのすべてをワイルドカードで置き換えた履歴)が、ワイルドカード履歴のバリエーションとして挙げられる。“A_*_*”のワイルドカード履歴の場合、注目要素の3つ前に“A”という要素を持つあらゆる履歴とマッチする。なお、ワイルドカード履歴は、非特許文献6において“skipping model”として紹介されており、また、非特許文献5および非特許文献7において“Distance Trigram”として紹介されている。
第1実施形態で用いた共有項の履歴は、共有項を、イベントスロットの履歴の長さ(イベントスロットの履歴となる部分系列の要素数に対応する数)だけ並べる形で定義した。たとえば、共有項を“X”とすると、長さ3の部分系列に対応する共有項の履歴は“X_X_X”と表現した。ここで、ワイルドカード履歴と共有項とのANDをとった組み合わせ特徴を考える。組み合わせ特徴とは、双方の特徴量が1となるときのみ1となる特徴量であり、次元IDは両者のIDを“&”でつないで表すとする。たとえばワイルドカード履歴“A_*_*”と共有項“X”のANDをとった組み合わせ特徴は、“A_*_*”と表すとし、このときワイルドカード履歴“A_*_*”と共有項“X”のいずれの特徴も成立していることを示している。
ここで、第1実施形態で用いた共有項履歴特徴は、ワイルドカード履歴と共有項の組み合わせ特徴に包含されることに着目する。たとえば、共有項“X”の長さ3の履歴“X_X_X”に関する共有項履歴特徴は、ワイルドカード履歴“*_*_*”と共有項”X”の組み合わせ特徴”“*_*_*&X”と同じ意味を持っている。なぜなら、ワイルドカード履歴“*_*_*”は長さ3の履歴であることを表しており、“*_*_*&X”は、長さ3の履歴が共有項“X”に関する履歴であることを表しているためである。
“*_*_*”以外のワイルドカード履歴と共有項の組み合わせ特徴は、上記の組み合わせ特徴よりもやや制約のかかった特徴となる。たとえば“A_*_*&X”は、長さ3の共有項”X”の履歴を持ち、かつ、イベントスロット履歴における注目要素の3つ前の要素が“X”でなければならない。このことは、共有項履歴特徴だけでは制約がゆるすぎる場合に、別のワイルドカード履歴特徴と組み合わせることで、イベントスロット系列に対して適度な制約を与えるよう調整できることを示している。
第2実施形態に係るデータ処理装置では、機械学習用事例生成器3が訓練用事例データや予測用事例データを生成する際に、第1実施形態で用いた共有項履歴特徴の代わりにワイルドカード履歴と共有項の組み合わせ特徴を用いることで、共有項履歴特徴では制約がゆるすぎる場合に、イベントスロット系列に対して適度な制約を与えるような調整を実現する。具体的には、第2実施形態では、ワイルドカード履歴のすべてのバリエーションと共有項の組み合わせ特徴を特徴ベクトル内に持たせて機械学習を行う。機械学習は、予測にとって重要となる特徴には大きな重みを付与し、重要でない特徴には小さな重みを付与する調整機構を持つため、共有項履歴だけでは十分な予測ができないと考えられるパターンにおいて、適切な制約を持つワイルドカード履歴と共有項の組み合わせ特徴に大きな重みを割り当てることができる。なお、第2実施形態の機械学習処理には特別な処置は加えておらず、第1実施形態とまったく同じものを用いている。
ワイルドカード履歴のうち、すべての要素をワイルドカードで置き換えたものと共有項との組み合わせ特徴は、上述したように、第1実施形態で用いた共有項履歴特徴と同じ意味を持つ。このため、第2実施形態で生成される訓練用事例データや予測用事例データは、第1実施形態で生成される訓練用事例データや予測用事例データの特徴ベクトルxに対して、さらに、注目要素のそれぞれについて、一部の要素をワイルドカードで置き換えた部分系列と共有項とのAND条件による組み合わせに関する1以上の特徴量を要素として含む特徴ベクトルxを持つことを意味する。
図18は、第2実施形態に係るデータ処理装置200の構成例を示すブロック図である。図18に示すように、第2実施形態に係るデータ処理装置200は、図3に示した第1実施形態に係るデータ処理装置100と比較して、機械学習用事例生成器3の代わりに機械学習用事例生成器3’(事例生成部)を用い、共有項履歴特徴生成器5の代わりに組み合わせ特徴生成器9を用いている点が異なる。第2実施形態に係るデータ処理装置200のその他の構成は、第1実施形態に係るデータ処理装置100と同様である。このため、以下では、第1実施形態に係るデータ処理装置100と同様の構成要素は同一の符号を付して重複した説明を省略し、相違点についてのみ説明する。
機械学習用事例生成器3’は、イベントスロット系列抽出器2から訓練用イベントスロット系列データ群D2(または予測用イベントスロット系列データ群D7)を入力として受け取り、イベントスロット履歴特徴生成器4、組み合わせ特徴生成器9および共有項表現生成器6と連携して事例データを生成する処理を行って、訓練用事例データ群D3’(または予測用事例データ群D8’)を出力する。
図19は、機械学習用事例生成器3’が出力する訓練用事例データ群D3’の一部である訓練用事例データの具体例を示す図であり、図5に示した訓練用イベントスロット系列データから生成された訓練用事例データの例を示している。ただし、図19の訓練用事例データは、Ngram次数を2(bigram)とし、図5に示した訓練用イベントスロット系列データの「投獄する(動4).ヲ格」を注目要素としたときの、当該注目要素に関する訓練用事例データである。
図19に示す訓練用事例データでは、図7に示した第1実施形態の訓練用事例データの例と比較して、特徴ベクトルxに“[ShareArg]”で始まる次元IDに対応する共有項履歴特徴が含まれていない。その代わりに、特徴ベクトルxに“[Wild&Arg]”で始まる次元IDに対応するワイルドカード履歴と共有項の組み合わせ特徴が含まれている。
図19に例示した訓練用事例データにおいて、ワイルドカード履歴と共有項の組み合わせ特徴に用いるワイルドカード履歴のバリエーションは以下の4つである。
捕まえる(動1).ヲ格_投獄する(動4).ヲ格
*_投獄する(動4).ヲ格
捕まえる(動1).ヲ格_*
*_*
一方、ワイルドカード履歴と共有項の組み合わせ特徴に用いる共有項のバリエーションは以下の6つである。
山田
犯罪者
<PERSON>
<Thing>
<Thing/Agent>
<Thing/Agent/Person>
したがって、ワイルドカード履歴と共有項の組み合わせ特徴としては、合計24(=4×6)種類の特徴が生成される。
これら24種類の特徴のうち、ワイルドカード履歴“*_*”と共有項の組み合わせ特徴(6種類)は、図7に例示した第1実施形態の訓練用事例データに含まれる共有項履歴特徴と等価である。したがって、図19に例示した訓練用事例データの特徴ベクトルxは、図7に例示した第1実施形態の訓練用事例データの特徴ベクトルxに対して、さらに18種類の特徴量を付加したものになる。
機械学習用事例生成器3’は、入力された訓練用イベントスロット系列データ群D2に含まれる訓練用イベントスロット系列データ(図5参照)のそれぞれに対して、第1実施形態の機械学習用事例生成器3と同様の処理(図8のステップS201〜ステップS208)を行って図19に示すような訓練用事例データを生成し、訓練用事例データ群D3’を出力する。ただし、第1実施形態の機械学習用事例生成器3では、図8のステップS206において、共有項履歴特徴生成器5に共有項の情報を渡して共有項履歴特徴群を得ていたのに対し、第2実施形態の機械学習用事例生成器3’は、組み合わせ特徴生成器9にイベントスロットの履歴の情報と共有項の情報を渡して、ワイルドカード履歴と共有項の組み合わせ特徴群を得る。
また、機械学習用事例生成器3’は、予測処理においては、イベントスロット系列抽出器2が出力する予測用イベントスロット系列データ群D7を入力として受け取り、選ばれたイベントスロット系列データに対し、第1実施形態の機械学習用事例生成器3と同様の処理(図15のステップS701およびステップS702)を行って予測用事例データを生成して、予測用事例データ群D8を出力する。なお、予測用事例データは、図19に例示した訓練用事例データと同様のフォーマットであるが、出力ラベルyが不定となっている点のみ、訓練用事例データと異なる。
次に、組み合わせ特徴生成器9について説明する。組み合わせ特徴生成器9は、機械学習用事例生成器3’からイベントスロットの履歴の情報と共有項の情報を入力として受け取り、上述したワイルドカード履歴と共有項の組み合わせ特徴群を機械学習用事例生成器3’に返す。
図20は、組み合わせ特徴生成器9による処理を説明するフローチャートである。組み合わせ特徴生成器9は、機械学習用事例生成器3’からイベントスロットの履歴の情報と共有項の情報とを受け取ると、図20のステップS901〜ステップS910の処理を行って、ワイルドカード履歴と共有項の組み合わせ特徴群を機械学習用事例生成器3に返す。
ステップS901:組み合わせ特徴生成器9は、ワイルドカードイベントスロット履歴リストwという変数を用意し、空のリストを代入する。
ステップS902:組み合わせ特徴生成器9は、イベントスロットの履歴の情報(注目スロットとその注目スロットの履歴の情報)をイベントスロット履歴特徴生成器4に渡し、イベントスロット履歴特徴生成器4からイベントスロット履歴特徴群を得る。
ステップS903:組み合わせ特徴生成器9は、イベントスロット履歴特徴群からイベントスロット履歴特徴を1つ取り出す。
ステップS904:組み合わせ特徴生成器9は、イベントスロット履歴に含まれる任意の要素をワイルドカード“*”に置き換えることで、ワイルドカード履歴のすべてのバリエーションを取得する(イベントスロット履歴の長さがNであれば2のN乗のバリエーションを取得する)。
ステップS905:組み合わせ特徴生成器9は、取得したワイルドカード履歴のすべてのバリエーションをワイルドカードイベントスロット履歴リストwに追加する。
ステップS906:組み合わせ特徴生成器9は、イベントスロット履歴特徴群のすべてのイベントスロット履歴特徴について、上記のステップS903〜ステップS905の処理を行う。
ステップS907:組み合わせ特徴生成器9は、共有項表現リストaという変数を用意し、空のリストを代入する。
ステップS908:組み合わせ特徴生成器9は、共有項の情報を共有項表現生成器6に渡して得た共有項表現群を共有項表現リストaに追加する。
ステップS909:組み合わせ特徴生成器9は、ワイルドカードイベントスロット履歴リストw内の任意の要素と共有項表現リストa内の任意の要素とのペアについて、両者の文字列を“&”で挟みこむ形でつなぐ処理をすべてのペアに対して行い、ワイルドカード履歴と共有項の組み合わせ特徴の次元ID群cを得る。
ステップS910:組み合わせ特徴生成器9は、ワイルドカード履歴と共有項の組み合わせ特徴の次元ID群cの各要素について、最後尾に“:1”を付与したものを、返り値として返す。
以上、具体的な例を挙げながら説明したように、本実施形態に係るデータ処理装置200によれば、第1実施形態の事例データで用いた共有項履歴特徴では制約がゆるすぎる場合に、イベントスロット系列に対して適度な制約を与えるような調整を行って、精度の高い物語モデルを構築することができる。
第1実施形態に係るデータ処理装置100や第2実施形態に係るデータ処理装置200の上述した各機能は、たとえば、データ処理装置100(200)において所定のプログラムを実行することにより実現することができる。この場合、データ処理装置100(200)は、たとえば図21に示すように、CPU(Central Processing Unit)101などの制御装置、ROM(Read Only Memory)102やRAM(Random Access Memory)103などの記憶装置、ネットワークに接続して通信を行う通信I/F104、各部を接続するバス110などを備えた、通常のコンピュータを利用したハードウェア構成とすることができる。
データ処理装置100(200)で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
また、データ処理装置100(200)で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、データ処理装置100(200)で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
また、データ処理装置100(200)で実行されるプログラムを、ROM102等に予め組み込んで提供するように構成してもよい。
データ処理装置100(200)で実行されるプログラムは、データ処理装置100(200)の各処理部(テキスト解析器1、イベントスロット系列抽出器2、機械学習用事例生成器3(3’)、イベントスロット履歴特徴生成器4、共有項履歴特徴生成器5(組み合わせ特徴生成器9)、共有項表現生成器6、後続イベントスロット推定訓練7、および後続イベントスロット推定予測器8)を含むモジュール構成となっており、実際のハードウェアとしては、たとえば、CPU101(プロセッサ)が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部が主記憶装置上にロードされ、上述した各処理部が主記憶装置上に生成されるようになっている。なお、データ処理装置100(200)は、上述した各処理部の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
なお、以上説明したデータ処理装置100(200)は、後続イベントスロット推定モデルD10(物語モデル)を構築する訓練処理と、訓練処理で構築された後続イベントスロット推定モデルD10を用いて解析対象文書D5の後続イベントスロットを推定する予測処理との双方を行うようにしている。しかし、データ処理装置100(200)は、予測処理のみを行うように構成することもできる。この場合、たとえば外部装置などを用いて事前に訓練処理を行い、後続イベントスロット推定モデルD10を構築しておく。そして、データ処理装置100(200)は、解析対象文書D5を入力するとともに、外部装置などから後続イベントスロット推定モデルD10を入力して、上述した予測処理を行う。
また、以上説明したデータ処理装置100(200)は、訓練処理で構築された後続イベントスロット推定モデルD10を用いて解析対象文書D5の後続イベントスロットを推定する予測処理を行う例であるが、データ処理装置100(200)は、訓練処理で構築された後続イベントスロット推定モデルD10(物語モデル)を用いて、他の様々なアプリケーションを実行するように構成されていてもよい。たとえば、照応解析のアプリケーションを実行する場合は、訓練処理で構築された後続イベントスロット推定モデルD10(物語モデル)を用いて照応解析のための事例データを生成し、この事例データを用いて機械学習を行う構成とすることで、照応解析を行うことができる。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
実施形態のデータ処理装置は、抽出部と、事例生成部と、モデル構築部と、を備える。抽出部は、述語項構造解析および共参照解析が行われた文書から、共有項を持つ述語と前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、複数の前記要素を前記文書における前記述語の出現順に並べた要素系列を、前記共有項とともに抽出する。事例生成部は、前記要素系列を構成する前記要素のそれぞれについて、当該要素を注目要素としたときに、前記注目要素を末尾の要素とする前記要素系列内の部分系列に関する1つ以上の特徴量と、前記部分系列に対応する前記共有項の系列に関する1つ以上の特徴量と、の少なくともいずれかの特徴量を含む特徴ベクトルで表現された事例データを生成する。モデル構築部は、前記事例データを用いて識別モデルに基づく機械学習を行うことにより、先行文脈に後続する前記要素を推定するための物語モデルを構築する。

Claims (7)

  1. 述語項構造解析および共参照解析が行われた文書から、共有項を持つ述語と前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、複数の前記要素を前記文書における前記述語の出現順に並べた要素系列を、前記共有項とともに抽出する抽出部と、
    前記要素系列を構成する前記要素の1つを注目要素としたときに、前記注目要素のそれぞれについて、前記注目要素を末尾の要素とする前記要素系列内の部分系列に関する1つ以上の特徴量と、前記部分系列に対応する前記共有項の系列に関する1つ以上の特徴量と、の少なくともいずれかの特徴量を含む特徴ベクトルで表現された事例データを生成する事例生成部と、
    前記事例データを用いて識別モデルに基づく機械学習を行うことにより、先行文脈に後続する前記要素を推定するための物語モデルを構築するモデル構築部と、を備えるデータ処理装置。
  2. 前記事例生成部は、前記注目要素のそれぞれについて、一部の前記要素をワイルドカードで置き換えた前記部分系列と前記共有項とのAND条件による組み合わせに関する1以上の特徴量をさらに含む特徴ベクトルで表現された前記事例データを生成する、請求項1に記載のデータ処理装置。
  3. 前記共有項の系列に関する特徴量は、前記共有項を、表層または正規化された表層、文法的カテゴリの情報、意味的カテゴリの情報、固有表現タイプの情報、の少なくともいずれかを用いて区別した1以上の特徴量である、請求項1に記載のデータ処理装置。
  4. 前記部分系列は、前記注目要素のみを要素とするユニグラム系列を含む、請求項1に記載のデータ処理装置。
  5. 前記要素に含まれる前記述語は、該述語の語義を特定する語義特定情報が付加されている、請求項1に記載のデータ処理装置。
  6. 述語項構造解析および共参照解析が行われた文書から、共有項を持つ述語と前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、複数の前記要素を前記文書における前記述語の出現順に並べた要素系列を、前記共有項とともに抽出する抽出部と、
    前記要素系列を構成する前記要素の1つを注目要素としたときに、前記注目要素のそれぞれについて、前記注目要素を末尾の要素とする前記要素系列内の部分系列に関する1つ以上の特徴量と、前記部分系列に対応する前記共有項の系列に関する1つ以上の特徴量と、の少なくともいずれかの特徴量を含む特徴ベクトルで表現された事例データを生成する事例生成部と、
    先行文脈に後続する前記要素を推定するための物語モデルを入力する入力部と、
    前記事例データと前記物語モデルとを用いて、先行文脈に後続する前記要素を予測する予測部と、を備え、
    前記物語モデルは、事前に訓練用の前記事例データを用いて識別モデルに基づく機械学習を行うことにより生成されている、データ処理装置。
  7. データ処理装置において実行される物語モデル構築方法であって、
    前記データ処理装置の抽出部が、述語項構造解析および共参照解析が行われた文書から、共有項を持つ述語と前記共有項の格の種別を表す格種別情報との組み合わせを要素とし、複数の前記要素を前記文書における前記述語の出現順に並べた要素系列を、前記共有項とともに抽出する工程と、
    前記データ処理装置の事例生成部が、前記要素系列を構成する前記要素の1つを注目要素としたときに、前記注目要素のそれぞれについて、前記注目要素を末尾の要素とする前記要素系列内の部分系列に関する1つ以上の特徴量と、前記部分系列に対応する前記共有項の系列に関する1つ以上の特徴量と、の少なくともいずれかの特徴量を含む特徴ベクトルで表現された事例データを生成する工程と、
    前記データ処理装置のモデル構築部が、前記事例データを用いて識別モデルに基づく機械学習を行うことにより、先行文脈に後続する前記要素を推定するための物語モデルを構築する工程と、を含む物語モデル構築方法。
JP2015502663A 2013-02-28 2013-02-28 データ処理装置および物語モデル構築方法 Expired - Fee Related JP5945062B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/055477 WO2014132402A1 (ja) 2013-02-28 2013-02-28 データ処理装置および物語モデル構築方法

Publications (2)

Publication Number Publication Date
JP5945062B2 JP5945062B2 (ja) 2016-07-05
JPWO2014132402A1 true JPWO2014132402A1 (ja) 2017-02-02

Family

ID=51427703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015502663A Expired - Fee Related JP5945062B2 (ja) 2013-02-28 2013-02-28 データ処理装置および物語モデル構築方法

Country Status (4)

Country Link
US (1) US9904677B2 (ja)
JP (1) JP5945062B2 (ja)
CN (1) CN105264518B (ja)
WO (1) WO2014132402A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
JP6551968B2 (ja) * 2015-03-06 2019-07-31 国立研究開発法人情報通信研究機構 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
CN105975458B (zh) * 2016-05-03 2018-10-09 安阳师范学院 一种基于细粒度依存关系的中文长句相似度计算方法
EP3511871A4 (en) * 2016-09-06 2020-06-24 Nippon Telegraph And Telephone Corporation DEVICE, METHOD AND PROGRAM FOR EXTRACTING CHARACTERISTIC QUANTITIES OF DATA IN CHRONOLOGICAL SERIES
WO2018199031A1 (ja) * 2017-04-27 2018-11-01 日本電信電話株式会社 学習型信号分離方法、及び学習型信号分離装置
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
EP3759656A4 (en) * 2018-02-28 2022-03-30 Northrup, Charles SYSTEM AND METHOD FOR A DING MACHINE FOR RUNNING MODELS
JP6605105B1 (ja) * 2018-10-15 2019-11-13 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP7120914B2 (ja) * 2018-12-25 2022-08-17 株式会社日立製作所 生産実績データ分析装置
JP7229144B2 (ja) * 2019-10-11 2023-02-27 株式会社野村総合研究所 文章記号挿入装置及びその方法
CN111325020B (zh) * 2020-03-20 2023-03-31 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN113536784A (zh) * 2021-01-05 2021-10-22 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
US20220237838A1 (en) * 2021-01-27 2022-07-28 Nvidia Corporation Image synthesis using one or more neural networks
CN113312464B (zh) * 2021-05-28 2022-05-31 北京航空航天大学 一种基于对话状态追踪技术的事件抽取方法
CN113792053B (zh) * 2021-09-17 2023-08-01 浙江大学 一种数据故事生成方法
CN114840771B (zh) * 2022-03-04 2023-04-28 北京中科睿鉴科技有限公司 基于新闻环境信息建模的虚假新闻检测方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250085A (ja) * 1998-03-02 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> 事象推移予測方法および事象推移予測プログラムを記録した記録媒体
US7028250B2 (en) * 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
JP2002109103A (ja) * 2000-09-29 2002-04-12 Toshiba Corp コンテンツ流通システムおよびコンテンツ流通方法
US6925432B2 (en) * 2000-10-11 2005-08-02 Lucent Technologies Inc. Method and apparatus using discriminative training in natural language call routing and document retrieval
US20040024598A1 (en) * 2002-07-03 2004-02-05 Amit Srivastava Thematic segmentation of speech
WO2005050474A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
US7865352B2 (en) * 2006-06-02 2011-01-04 Microsoft Corporation Generating grammatical elements in natural language sentences
US20080162117A1 (en) * 2006-12-28 2008-07-03 Srinivas Bangalore Discriminative training of models for sequence classification
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
US8122066B2 (en) * 2008-10-14 2012-02-21 Hewlett-Packard Development Company, L.P. Database query profiler
JP5536518B2 (ja) 2009-04-23 2014-07-02 インターナショナル・ビジネス・マシーンズ・コーポレーション システムの自然言語仕様から当該システム用のシステム・モデル化メタモデル言語モデルを自動的に抽出するための方法、装置及びコンピュータ・
CN101968785A (zh) * 2009-07-28 2011-02-09 万继华 理解人类自然语言的逻辑机器模型
KR100963885B1 (ko) * 2010-03-30 2010-06-17 한국과학기술정보연구원 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법
US8620836B2 (en) * 2011-01-10 2013-12-31 Accenture Global Services Limited Preprocessing of text
JP5197774B2 (ja) * 2011-01-18 2013-05-15 株式会社東芝 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
CN102110304B (zh) * 2011-03-29 2012-08-22 华南理工大学 一种基于素材引擎的漫画自动生成方法
US8909516B2 (en) * 2011-10-27 2014-12-09 Microsoft Corporation Functionality for normalizing linguistic items
US20130346066A1 (en) * 2012-06-20 2013-12-26 Microsoft Corporation Joint Decoding of Words and Tags for Conversational Understanding
JP5389273B1 (ja) * 2012-06-25 2014-01-15 株式会社東芝 文脈解析装置および文脈解析方法
US8856642B1 (en) * 2013-07-22 2014-10-07 Recommind, Inc. Information extraction and annotation systems and methods for documents

Also Published As

Publication number Publication date
CN105264518B (zh) 2017-12-01
US20160012040A1 (en) 2016-01-14
JP5945062B2 (ja) 2016-07-05
WO2014132402A1 (ja) 2014-09-04
CN105264518A (zh) 2016-01-20
US9904677B2 (en) 2018-02-27

Similar Documents

Publication Publication Date Title
JP5945062B2 (ja) データ処理装置および物語モデル構築方法
Ghosh et al. Fracking sarcasm using neural network
Belinkov et al. Arabic diacritization with recurrent neural networks
CN109933780B (zh) 使用深度学习技术确定文档中的上下文阅读顺序
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
Bitvai et al. Non-linear text regression with a deep convolutional neural network
JP5389273B1 (ja) 文脈解析装置および文脈解析方法
Yao et al. Temporal event knowledge acquisition via identifying narratives
Spangher et al. Newsedits: A news article revision dataset and a novel document-level reasoning challenge
CN111159405B (zh) 基于背景知识的讽刺检测方法
Vishnubhotla et al. The project dialogism novel corpus: A dataset for quotation attribution in literary texts
Babulal et al. Suicidal analysis on social networks using machine learning
Suman et al. Astartwice at semeval-2021 task 5: Toxic span detection using roberta-crf, domain specific pre-training and self-training
KR102422844B1 (ko) 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법
Patel et al. Personality analysis using social media
Oudah et al. Person name recognition using the hybrid approach
CN111538898B (zh) 基于组合特征提取的Web服务包推荐方法及系统
Patel et al. Mental health detection using transformer bert
Chuttur et al. Analysing and Plotting Online Customer Emotions Using a Lexicon-Based Approach
Vaddadi et al. Exploration of COVID 19 Tweets Data for the Prediction of Negative Ontologies through Deep Learning Techniques
Zhong et al. Detecting and reducing bias in a high stakes domain
Kumaragurubaran et al. Sentimental Analysis for Social Media Platform Based on Trend Analysis
Ait Benali et al. Arabic named entity recognition in social media based on BiLSTM-CRF using an attention mechanism
Fernandes A deep learning approach to named entity recognition in portuguese texts
Giancaterino NLP and Insurance-Workshop Results at SwissText 2022.

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160526

R150 Certificate of patent or registration of utility model

Ref document number: 5945062

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees