JPWO2019092867A1

JPWO2019092867A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JPWO2019092867A1
Application number: JP2019551848A
Authority: JP
Inventors: 石川　開; 開石川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2020-10-22
Anticipated expiration: 2037-11-10
Also published as: US11687712B2; US20210174021A1; WO2019092867A1; JP6860084B2

Abstract

情報処理装置は、訓練用単語列を生成する字句解析部と、複数の訓練用単語グループを生成するグループ生成部と、複数の訓練用単語グループごとに、複数の単語と複数の単語それぞれの意味ベクトルとが対応付けられた訓練用行列を生成する行列生成部と、行列生成部が生成した複数の訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、訓練用単語列の各位置の単語について特定単語に該当する確率を算出する分類部と、分類部が算出した訓練用単語列の各位置の単語の確率のうち、特定単語に該当することを示すラベルが付された単語の確率が高くなるように、判定モデルのパラメータを更新する最適化処理部とを備える。

Description

本発明は、情報処理装置、情報処理方法及びこれらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。

近年、与えられたテキストから、特定の事象情報に関する単語を抽出するシステムの開発が進められている。

例えば、非特許文献１には、畳み込みニューラルネットワーク（Convolutional Neural Network：以下、CNNとも記載する。）を利用したシステムによって、与えられたテキストから、特定の事象情報に関する単語（以下、特定単語と記載する。）を抽出する方法が開示されている。

図１５は、非特許文献１の方法を利用した抽出装置の構成を示すブロック図である。図１５に示す抽出装置１００は、字句解析部１０１と、エンコーダ１０２と、分類部１０３と、最適化処理部１０４とを備えている。抽出装置１００では、分類部１０３は、訓練用テキストを用いて学習された判定モデルによって、与えられたテキスト（以下、分析用テキストと記載する。）から特定単語を抽出する。

図１６は、訓練用テキストの一部を示す図である。抽出装置１００において判定モデルを学習する際には、まず、訓練用テキスト、及び特定単語の訓練用テキストにおける位置を示す位置情報が、字句解析部１０１に入力される。具体的には、例えば、特定の事象情報として“transfer money”が与えられ、特定単語として“paid”が与えられた場合には、訓練用テキストにおける“paid”の位置が、訓練用テキストとともに字句解析部１０１に入力される。字句解析部１０１は、入力された訓練用テキストを字句解析することによって、図１７に示すような単語列を生成する。

エンコーダ１０２は、字句解析部１０１が生成した単語列から、検出対象の単語１０５を中心とする所定長さＬのウインドウＷを用いて複数の単語を抽出する。より具体的には、字句解析部１０１は、ウインドウＷの位置を移動させながら、各位置において複数の単語を抽出することによって、複数の単語グループを生成する。

また、エンコーダ１０２は、複数の単語グループに対応する複数の行列を生成する。図１８は、エンコーダ１０２によって生成される行列の一例を示す図である。なお、図１８は、“was, booked, and, paid, for”によって構成される単語グループに対応する行列を示す。図１８を参照して、エンコーダ１０２は、各単語グループの複数の単語に対して、辞書モデルを用いて生成した意味ベクトルを対応付けることによって、単語グループごとに、複数の単語と複数の単語それぞれの意味ベクトルとが対応付けられた行列を生成する。なお、図１８では、“was”の意味ベクトルを表す部分が一点鎖線で囲まれている。

分類部１０３は、エンコーダ１０２が生成した行列とＣＮＮを用いた判定モデルとを用いて、単語列（図１７参照）の各位置の単語について、特定単語に該当するか否かを判定する。言い換えると、分類部１０３は、特定単語の訓練用テキストにおける位置を特定する。

最適化処理部１０４は、分類部１０３の判定結果と、特定単語の訓練用テキストにおける実際の位置とに基づいて、判定モデルのパラメータを更新する。このようにして、抽出装置１００においては、判定モデルが学習される。判定モデルが学習された後、分析用テキストが字句解析部１０１に与えられると、エンコーダ１０２によって上記のようにして行列が生成され、生成された行列と学習された判定モデルとを用いて分類部１０３によって、特定単語が抽出される。

Y.Kim, 2014 "Convolutional Neural Networks for SentenceClassification"EMNLP2014、２０１４年１０月２５日、ｐ．１７４６−１７５１

非特許文献１に開示された方法を利用した上述の抽出装置１００では、ウインドウＷの長さを大きくして複数の単語を抽出することによって、検出対象の単語の周辺の文脈を考慮することができる。これにより、検出対象の単語が有する意味のあいまい性を解消して、検出対象の単語が特定単語に該当するか否かを判定することができる。しかしながら、本発明者による検討の結果、ウインドウＷの長さを大きくすることによって、特定単語のテキストにおける位置の特定精度が低下する場合があることが分かった。

本発明の目的の一例は、与えられたテキストから、特定の事象情報に関する単語を精度よく抽出することができる、情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体を提供することにある。

上記目的を達成するため、本発明の一側面における情報処理装置は、
訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、字句解析部と、
前記字句解析部が生成した前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、グループ生成部と、
予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、行列生成部と、
前記行列生成部が生成した複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、分類部と、
前記分類部が算出した前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、最適化処理部と、
を備えることを特徴とする。

また、上記目的を達成するため、本発明の一側面における情報処理方法は、
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、を備えることを特徴とする。

更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、
コンピュータに、
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。

以上のように本発明によれば、与えられたテキストから、特定の事象情報に関する単語を精度よく抽出することができる。

図１は、本発明の実施の形態における情報処理装置の概略構成を示す構成図である。図２は、字句解析部が生成した訓練用単語列の一部と、グループ生成部が使用するウインドウの組との関係の一例を示す図である。図３は、グループ生成部によって生成された複数の訓練用単語グループの一例を示す図である。図４は、訓練用行列を示す概略図である。図５は、本発明の一実施形態に係る情報処理装置の構成を具体的に示すブロック図である。図６は、分類部による処理内容を示す概念図である。図７は、ＣＮＮによって訓練用行列が圧縮される際の処理内容を概念的に示した図である。図８は、ＣＮＮによって訓練用行列が圧縮される際の処理内容を概念的に示した図である。図９は、単語ペアの正例数および負例数を示す図である。図１０は、単語ペアの正例数および負例数を示す図である。図１１は、単語ペアの正例数および負例数を示す図である。図１２は、本発明の実施の形態における情報処理方法の動作を示すフロー図である。図１３は、本発明の実施の形態における情報処理方法の動作を示すフロー図である。図１４は、本発明の実施の形態における情報処理装置を実現するコンピュータの一例を示すブロック図である。図１５は、非特許文献１の方法を利用した抽出装置の構成を示すブロック図である。図１６は、訓練用テキストの一部を示す図である。図１７は、単語列を示す図である。図１８は、エンコーダによって生成される行列の一例を示す図である。

（実施の形態）
以下、本発明の実施の形態における、情報処理装置、情報処理方法及びプログラムについて、図１〜図１７を参照しながら説明する。

［装置構成］
最初に、本発明の実施の形態における情報処理装置の構成について説明する。図１は、本発明の実施の形態における情報処理装置の概略構成を示す構成図である。

図１に示すように、本実施の形態における情報処理装置１０は、字句解析部１２と、グループ生成部１４と、行列生成部１６と、分類部１８と、最適化処理部２０とを備えている。本実施形態における情報処理装置１０では、訓練用テキストを用いて、後述する判定モデルが学習される。

具体的には、まず、字句解析部１２に、訓練用テキスト（例えば、図１６参照）、及び特定の事象情報に関する単語（以下、特定単語と記載する。）の訓練用テキストにおける位置を示す位置情報が入力される。本実施形態においては、例えば、特定の事象情報として“transfer money”が与えられ、特定単語として“paid”が与えられた場合には、訓練用テキストにおける“paid”の位置を示す位置情報が、訓練用テキストとともに字句解析部１２に入力される。なお、本実施形態において位置情報とは、例えば、テキストにおける任意の単語の記述領域を示す数値（オフセット）であり、テキストの先頭からの距離を示す整数によって表される。

本実施形態では、字句解析部１２は、入力された訓練用テキストを字句解析することによって、図１７に示したような単語列（以下、訓練用単語列と記載する。）を生成する。なお、本実施形態では、字句解析部１２によって生成された訓練用単語列の各単語には、その単語の訓練用テキストにおける位置を示す位置情報及び特定単語に該当するか否かを示すラベルが付与される。本実施形態では、各単語には、例えば、２値のいずれか（０又は１）が付与される。図１７に示した例では、例えば、特定単語である“paid”には、特定単語に該当することを示すラベル（例えば、１）が付与され、“paid”以外の単語には、特定単語ではないことを示すラベル（例えば、０）が付与される。なお、本実施形態では、特定単語と同じ単語であっても、訓練用テキストにおける位置によっては、特定単語に該当しない場合がある。言い換えると、同じ単語が訓練テキスト中の２つの位置に存在する場合であっても、その単語の周辺の文脈によって、一方の単語は特定単語に該当し、他方の単語は特定単語に該当しない場合がある。この場合には、特定単語に該当しない単語には、特定単語ではないことを示すラベルが付与される。

グループ生成部１４は、長さの異なる複数のウインドウによって構成されたウインドウの組を用いて、字句解析部１２が生成した訓練用単語列から単語を抽出することによって、複数の訓練用単語グループを生成する。図２は、字句解析部１２が生成した訓練用単語列の一部と、グループ生成部１４が使用するウインドウの組との関係の一例を示す図である。

本実施形態では、グループ生成部１４は、検出対象の単語３２を中心とする長さＬ１のウインドウＷ１及び長さＬ２のウインドウＷ２によって構成されたウインドウの組Ｗ１０を用いて、訓練用単語列３０から複数の単語を抽出する。なお、本実施形態においてウインドウの長さは、単語数で示される。図２の例では、ウインドウＷ１の長さＬ１は３であり、ウインドウＷ２の長さＬ２は５である。なお、図２の例では、ウインドウの組Ｗ１０は、２つのウインドウＷ１，Ｗ２によって構成されているが、３つ以上のウインドウによってウインドウの組が構成されてもよい。また、長さが１のウインドウ、すなわち、検出対象の単語のみを抽出するウインドウがウインドウの組に含まれていてもよい。ただし、ウインドウの組には、検出対象の単語を中心とする長さが３のウインドウと、検出対象の単語を中心とする長さが５のウインドウとが含まれていることが好ましい。本実施形態では、各ウインドウの長さは、奇数に設定される。また、ウインドウの組を構成する複数のウインドウは、長さが２ずつ増加するように設定されることが好ましい。

本実施形態では、グループ生成部１４は、訓練用単語列３０におけるウインドウの組Ｗ１０の位置を、訓練用単語列３０の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において、複数のウインドウＷ１，Ｗ２それぞれによって単語を抽出する。これにより、図３に示すように、訓練用単語列３０におけるウインドウの組Ｗ１０の位置ごとに、複数の訓練用単語グループＧ１，Ｇ２が生成される。なお、図３は、グループ生成部１４によって生成された複数の訓練用単語グループの一例を示す図である。図３（ａ）は、図２に示す位置においてウインドウの組Ｗ１０によって抽出された複数の単語を示し、図３（ｂ）は、図２に示す位置から末尾側に一単語分移動したウインドウの組Ｗ１０によって抽出された複数の単語を示す。また、図３において、訓練用単語グループＧ１は、ウインドウＷ１によって抽出された複数の単語によって構成されており、訓練用単語グループＧ２は、ウインドウＷ２によって抽出された複数の単語によって構成されている。

行列生成部１６は、図４に示すように、グループ生成部１４によって生成された複数の訓練用単語グループＧ１，Ｇ２の各単語に、その単語の意味ベクトルＶを対応付けることによって、訓練用行列Ｍ１，Ｍ２を生成する。なお、図４に示した訓練用単語グループＧ１，Ｇ２は、図２に示す位置のウインドウの組Ｗ１０によって生成された訓練用単語グループである。本実施形態では、行列生成部１６は、グループ生成部１４によって生成された全ての訓練用単語グループについて、訓練用行列を生成する。また、図４に示した訓練用行列Ｍ１，Ｍ２は概略図であり、各単語の意味ベクトルは、例えば、３００次元で表現される。

本実施形態では、行列生成部１６は、例えば、予め設定された辞書モデルを用いて、訓練用単語列３０の各単語の意味ベクトルを取得する。そして、行列生成部１６は、取得した各単語の意味ベクトルＶを、グループ生成部１４によって生成された複数の訓練用単語グループＧ１，Ｇ２の各単語に対応付けることによって、複数の訓練用行列Ｍ１，Ｍ２を生成することができる。なお、行列生成部１６は、グループ生成部１４によって複数の訓練用単語グループＧ１，Ｇ２が生成される前に、訓練用単語列３０の複数の単語それぞれに意味ベクトルＶを対応付けてもよい。この場合、グループ生成部１４は、各単語に意味ベクトルＶが対応付けられた訓練用単語列３０から、訓練用単語グループＧ１，Ｇ２を生成してもよい。辞書モデルとしては、ｗｏｒｄ２ｖｅｃ等の公知のモデルを利用できる。

分類部１８は、グループ生成部１４が生成した複数の訓練用行列Ｍ１，Ｍ２と畳み込みニューラルネットワーク（ＣＮＮ）を用いて予め構築された判定モデルとを用いて、訓練用単語列３０の各位置の単語について、特定単語に該当する確率を算出する。

最適化処理部２０は、分類部１８が算出した訓練用単語列３０の各位置の単語の確率のうち、特定単語に該当することを示すラベルが付された単語の確率が高くなるように、判定モデルのパラメータを更新する。

以上のように、本実施形態では、検出対象の単語ごとに、長さの異なる複数のウインドウによって複数の訓練用単語グループが生成される。そして、複数の訓練用単語グループそれぞれから、訓練用行列が生成される。すなわち、本実施形態では、検出対象の単語ごとに、複数の訓練用行列が生成される。本実施形態では、このようにして生成された複数の訓練用行列を用いて、ＣＮＮを用いた判定モデルを学習することができる。これにより、詳細を後述するように、与えられたテキストから、特定単語を精度よく抽出することができるように、判定モデルを学習することができる。

次に、情報処理装置の具体的な構成について説明する。図５は、本発明の一実施形態に係る情報処理装置の構成を具体的に示すブロック図である。

図５を参照して、本実施形態では、情報処理装置１０は、上述の字句解析部１２、グループ生成部１４、行列生成部１６、分類部１８、及び最適化処理部２０に加えて、更に、辞書モデル記憶部２２及びパラメータ記憶部２４を備えている。辞書モデル記憶部２２には、辞書モデルが記憶されている。本実施形態では、辞書モデル記憶部２２には、ｗｏｒｄ２ｖｅｃ等の公知の辞書モデルが記憶されている。パラメータ記憶部２４には、ＣＮＮを用いて構築された判定モデルのパラメータが記憶されている。なお、本実施形態では、パラメータ記憶部２４には、複数の事象情報に対応できるように、事象情報ごとのパラメータが記憶されている。

本実施形態においても、判定モデルを学習する際には、まず、字句解析部１２に、訓練用テキスト及び特定単語の位置情報が入力される。上述したように、字句解析部１２は、入力された訓練用テキストを字句解析することによって、訓練用単語列３０（図２参照）を生成する。上述したように、訓練用単語列３０の各単語には、位置情報及びラベルが付与される。

グループ生成部１４は、ウインドウの組Ｗ１０（図２参照）を用いて、訓練用単語列３０から単語を抽出することによって、複数の訓練用単語グループＧ１，Ｇ２（図３参照）を生成する。

本実施形態では、行列生成部１６は、辞書モデル記憶部２２に記憶された辞書モデルを用いて、訓練用単語列３０の各単語の意味ベクトルＶを取得する。行列生成部１６は、取得した各単語の意味ベクトルＶを、複数の訓練用単語グループＧ１，Ｇ２の各単語に対応付けることによって、複数の訓練用行列Ｍ１，Ｍ２を生成する。また、分類部１８は、パラメータ記憶部２４に記憶された判定モデルのパラメータを用いて、訓練用単語列３０の各位置の単語について、特定単語に該当する確率を算出する。本実施形態では、分類部１８は、算出された確率が閾値（例えば、０．５）以上である単語を、特定単語と判定する。

最適化処理部２０は、分類部１８が算出した訓練用単語列３０の各位置の単語の確率のうち、特定単語に該当することを示すラベルが付された単語の確率が高くなるように、パラメータ記憶部２４に記憶されたパラメータを更新（最適化）する。これにより、判定モデルが学習される。なお、最適化処理部２０は、公知の方法によって、パラメータを最適化できる。本実施形態では、最適化処理部２０は、例えば、判定モデルのパラメータを引数とする損失関数を最小化するように、パラメータを更新する。具体的には、最適化処理部２０は、例えば、目的関数の勾配方向の逆方向にパラメータを更新する勾配降下法を用いてパラメータを更新することができる。

また、本実施形態に係る情報処理装置１０では、上記のようにして学習した判定モデルを用いて、分析用テキストから、特定単語が抽出される。具体的には、分析用テキストが字句解析部１２に与えられると、字句解析部１２は、学習時と同様に、分析用テキストを字句解析することによって、単語列（以下、分析用単語列と記載する。）を生成する。なお、分析用単語列の各単語には、位置情報が付与されるが、ラベルは付与されない。

グループ生成部１４は、学習時と同様に、ウインドウの組Ｗ１０（図２参照）を用いて、分析用単語列から単語を抽出することによって、複数の分析用単語グループを生成する。

行列生成部１６は、学習時と同様に、辞書モデル記憶部２２に記憶された辞書モデルを用いて、分析用単語列の各単語の意味ベクトルを取得する。また、行列生成部１６は、学習時と同様に、取得した各単語の意味ベクトルを、複数の分析用単語グループの各単語に対応付けることによって、複数の分析用行列を生成する。

本実施形態では、分類部１８には、分析対象となる事象情報が与えられる。分類部１８は、学習時と同様に、パラメータ記憶部２４に記憶された判定モデルのパラメータ（与えられた事象情報に対応するパラメータ）を用いて、分析用単語列の各位置の単語について、特定単語に該当する確率を算出する。本実施形態では、分類部１８は、算出された確率が閾値（例えば、０．５）以上である単語を、特定単語と判定する。また、分類部１８は、特定単語と判定した単語を抽出して、抽出した単語を位置情報とともに出力する。

ここで、分類部１８による処理内容について説明する。図６は、分類部１８による処理内容を示す概念図である。図６に示すように、ＣＮＮは、畳み込み層、プーリング層及び全結合層を含む。公知の技術であるので、ＣＮＮについての詳細な説明は省略するが、本実施形態では、行列生成部１６によって生成された複数の行列は、異なる大きさの複数のフィルタによって、畳み込まれる（圧縮される）。

図７及び図８は、ＣＮＮによって訓練用行列Ｍ１，Ｍ２が圧縮される際の処理（畳み込み処理）の内容を概念的に示した図である。なお、図７及び図８に示した訓練用行列Ｍ１，Ｍ２は、上述のウインドウの組Ｗ１０（長さＬが３および５のウインドウＷ１，Ｗ２）を用いて生成された訓練用単語グループＧ１，Ｇ２から得られた行列である。また、図７及び図８には、は、特定単語が“paid”であり、畳み込みフィルタの大きさ（単語の数で表した大きさ）が２の場合の畳み込み処理の一例を示している。また、図７は、検出対象の単語が“and”の場合の例であり、図８は、検出対象の単語が“paid”の場合の例である。

図７及び図８に示すように、本実施形態では、分類部１８は、学習時に畳み込み処理を行なう際に、各単語に付されたラベルに基づいて、畳み込み処理によって生成された単語のペアの「正例」および「負例」を判断する。具体的には、検出対象となる単語が特定単語ではない場合（図７参照）には、分類部１８は、全ての単語のペアを「負例」と判断する。一方、検出対象となる単語が特定単語である場合には、分類部１８は、全ての単語のペアを「正例」と判断する。したがって、例えば、図２に示した訓練用単語列３０の各単語から生成された複数の訓練用行列Ｍ１，Ｍ２を、大きさが２の畳み込みフィルタで処理する場合、単語ペアの正例数および負例数は、図９に示すようになる。

ここで、図７及び図８の訓練用行列Ｍ１，Ｍ２を、分析用行列として見ると、分析時には、検出対象の単語が“and”の場合（図７参照）には、“booked and”のペア及び“and paid”のペアは、分析用行列Ｍ１および分析用行列Ｍ２からそれぞれ生成される。また、“was booked”のペア及び“paid for”のペアは、分析用行列Ｍ１からは生成されず、分析用行列Ｍ２のみから生成される。したがって、分析時には、検出対象の単語が“and”の場合、単語ペアの正例数および負例数は、図１０に示すようにカウントされる。この場合、全カウントに対する正例数のカウントの割合（８／３６）は、０．２２２となる。

一方、検出対象の単語が“paid”の場合（図８参照）には、“and paid”のペア及び“paid for”のペアは、分析用行列Ｍ１および分析用行列Ｍ２からそれぞれ生成される。また、“booked and”のペア及び“for 2”のペアは、分析用行列Ｍ１からは生成されず、分析用行列Ｍ２のみから生成される。したがって、分析時には、検出対象の単語が“paid”の場合、単語ペアの正例数および負例数は、図１１に示すようにカウントされる。この場合、全カウントに対する正例数のカウントの割合（１０／３６）は、０．２７８となる。

以上のことから、本実施形態では、特定単語がウインドウの組Ｗ１０の中央に位置している場合（すなわち、特定単語が検出対象の単語である場合）に、スコアが高くなるように、判定モデルを学習できていることが分かる。

特に、本実施形態では、学習時に、特定単語が検出対象の単語である場合には、分類部１８は、複数の訓練用行列Ｍ１，Ｍ２それぞれから生成された特定単語を含む単語ペアを「正例」と判断する。例えば、図８の例では、分類部１８において「正例」と判断される６つの単語ペアのうち、４つの単語ペア（２つの“and paid”及び２つの“paid for”）が特定単語を含む単語ペアである。一方、図１５の抽出装置１００において“paid”が特定単語でありかつ検出対象の単語である場合には、図８の訓練用行列Ｍ２と同様に、単語ペアの「正例」および「負例」が判断される。したがって、抽出装置１００の分類部１０３において、「正例」と判断される単語ペアの数は４であり、その４つの単語ペアのうち２つの単語ペア（１つの“and paid”及び１つの“paid for”）が特定単語を含む単語ペアとなる。このように、本実施形態に係る情報処理装置１０では、従来の技術を用いた情報処理装置（例えば、図１５の抽出装置１００）に比べて、分類部１８において「正例」と判断される複数の単語ペアにおける、特定単語を含む単語ペアの割合を高くすることができる。

また、本実施形態では、分析時に、特定単語が検出対象の単語である場合には、分類部１８において、特定単語を含む単語ペアが畳み込み層に入力される回数を、特定単語を含まない単語ペアが畳み込み層に入力される回数よりも多くすることができる。例えば、図８の訓練用行列Ｍ１，Ｍ２を分析用行列とすると、分類部１８において畳み込み層に入力される６つの単語ペアのうち、４つの単語ペアが特定単語を含む単語ペアである。一方、図１５の抽出装置１００において“paid”が特定単語でありかつ検出対象の単語である場合には、分析用行列Ｍ２と同様に、単語ペアが畳み込み層に入力される。したがって、抽出装置１００の分類部１０３は、４つの単語ペアを畳み込み層に入力し、その４つの単語ペアのうち２つの単語ペアが特定単語を含む単語ペアとなる。このように、本実施形態に係る情報処理装置１０では、従来の技術を用いた情報処理装置（例えば、図１５の抽出装置１００）に比べて、特定単語を含む単語ペアの畳み込み層への入力回数を多くすることができる。これにより、分析用テキストにおける特定単語の位置を精度よく特定することが可能となる。

以上のように、本実施形態では、検出対象の単語を中心としかつ互いに長さが異なる複数のウインドウを用いることによって、分析用テキストから特定単語を精度よく抽出することができる。

［装置動作］
次に、本発明の実施の形態における情報処理装置１０の動作について図１２及び図１３を用いて説明する。図１２及び図１３は、本発明の実施の形態における情報処理方法の動作を示すフロー図である。以下の説明においては、適宜図１〜図１１を参酌する。また、本実施の形態では、情報処理装置１０を動作させることによって、情報処理方法が実施される。よって、本実施の形態における情報処理方法の説明は、以下の情報処理装置１０の動作説明に代える。

まず、学習時の情報処理装置１０の動作について説明する。図１２に示すように、まず、字句解析部１２が、上述したように、訓練用テキストおよび特定単語の位置情報を取得した後、訓練用単語列を生成する（ステップＳ１）。

次に、グループ生成部１４が、上述したように、訓練用単語列から、複数の訓練用単語グループを生成する（ステップＳ２）。次に、行列生成部１６が、上述したように、訓練用行列を生成する（ステップＳ３）。次に、分類部１８が、上述したように、訓練用単語列の各単語が、特定単語に該当する確率を算出する。（ステップＳ４）。

最後に、最適化処理部２０が、上述したように、判定モデルのパラメータを更新する（ステップＳ５）。

次に、分析時の情報処理装置１０の動作について説明する。図１３に示すように、まず、字句解析部１２が、上述したように、分析用テキストを取得した後、分析用単語列を生成する（ステップＡ１）。次に、グループ生成部１４が、上述したように、分析用単語列から、複数の分析用単語グループを生成する（ステップＡ２）。次に、行列生成部１６が、上述したように、分析用行列を生成する（ステップＡ３）。次に、分類部１８が、上述したように、分析用単語列の各単語が、特定単語に該当する確率を算出する。（ステップＡ４）。

最後に、分類部１８が、上述したように、分析用単語列から特定単語を抽出するとともに、抽出した単語の位置情報を出力する（ステップＡ５）。

［プログラム］
本実施の形態におけるプログラムは、コンピュータに、図１２に示すステップＳ１〜Ｓ５及び図１３に示すステップＡ１〜Ａ５を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における情報処理装置と情報処理方法とを実現することができる。この場合、コンピュータのプロセッサは、字句解析部１２、グループ生成部１４、行列生成部１６、分類部１８及び最適化処理部２０として機能し、処理を行なう。

また、本実施の形態では、辞書モデル記憶部２２およびパラメータ記憶部２４は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって、又はこのデータファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによって実現されている。

また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、字句解析部１２、グループ生成部１４、行列生成部１６、分類部１８及び最適化処理部２０のいずれかとして機能しても良い。また、辞書モデル記憶部２２およびパラメータ記憶部２４は、本実施の形態におけるプログラムを実行するコンピュータとは別のコンピュータ上に構築されていても良い。

［物理構成］
ここで、実施の形態におけるプログラムを実行することによって、情報処理装置を実現するコンピュータについて図１４を用いて説明する。図１４は、本発明の実施の形態における情報処理装置１０を実現するコンピュータの一例を示すブロック図である。

図１４に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。なお、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-ProgrammableGate Array）を備えていても良い。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ−ＲＯＭ（Compact DiskRead Only Memory）などの光学記録媒体が挙げられる。

なお、本実施の形態における情報処理装置１０は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、情報処理装置１０は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）〜（付記１５）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、字句解析部と、
前記字句解析部が生成した前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、グループ生成部と、
予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、行列生成部と、
前記行列生成部が生成した複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、分類部と、
前記分類部が算出した前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、最適化処理部と、
を備える、情報処理装置。

（付記２）
前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、付記１に記載の情報処理装置。

（付記３）
前記ウインドウの組は、長さが３のウインドウと、長さが５のウインドウとを含む、付記２に記載の情報処理装置。

（付記４）
前記字句解析部は、分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成し、
前記グループ生成部は、前記字句解析部が生成した前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成し、
行列生成部は、前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成し、
前記分類部は、前記行列生成部が生成した複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、付記１から３のいずれかに記載の情報処理装置。

（付記５）
前記分類部は、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、付記４に記載の情報処理装置。

（付記６）
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を備える、情報処理方法。

（付記７）
前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、付記６に記載の情報処理方法。

（付記８）
前記ウインドウの組は、長さが３のウインドウと、長さが５のウインドウとを含む、付記７に記載の情報処理方法。

（付記９）
（ｆ）分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
（ｇ）前記（ｆ）のステップで生成された前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成する、ステップと、
（ｈ）前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
（ｉ）前記（ｈ）のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を更に備える、付記６から８のいずれかに記載の情報処理方法。

（付記１０）
前記（ｉ）のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、付記９に記載の情報処理方法。

（付記１１）
コンピュータに、
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、プログラムを記録したコンピュータ読み取り可能な記録媒体。

（付記１２）
前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、付記１１に記載のコンピュータ読み取り可能な記録媒体。

（付記１３）
前記ウインドウの組は、長さが３のウインドウと、長さが５のウインドウとを含む、付記１２に記載のコンピュータ読み取り可能な記録媒体。

（付記１４）
前記プログラムが、前記コンピュータに、
（ｆ）分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
（ｇ）前記（ｆ）のステップで生成された前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成する、ステップと、
（ｈ）前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
（ｉ）前記（ｈ）のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を実行させる命令を更に含む、付記１１から１３のいずれかに記載のコンピュータ読み取り可能な記録媒体。

（付記１５）
前記（ｉ）のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、付記１４に記載のコンピュータ読み取り可能な記録媒体。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

以上のように、本発明によれば、与えられたテキストから、特定の事象情報に関する単語を精度よく抽出することができる。

１０情報処理装置
１２字句解析部
１４グループ生成部
１６行列生成部
１８分類部
２０最適化処理部
２２辞書モデル記憶部
２４パラメータ記憶部
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

本発明は、情報処理装置、情報処理方法及びこれらを実現するためのプログラムに関する。

本発明の目的の一例は、与えられたテキストから、特定の事象情報に関する単語を精度よく抽出することができる、情報処理装置、情報処理方法及びプログラムを提供することにある。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、ことを特徴とする。

（付記４）
前記字句解析部は、分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成し、
前記グループ生成部は、前記字句解析部が生成した前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成し、
前記行列生成部は、前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成し、
前記分類部は、前記行列生成部が生成した複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、付記１から３のいずれかに記載の情報処理装置。

（付記１１）
コンピュータに、
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、プログラム。

（付記１２）
前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、付記１１に記載のプログラム。

（付記１３）
前記ウインドウの組は、長さが３のウインドウと、長さが５のウインドウとを含む、付記１２に記載のプログラム。

（付記１４）
前記コンピュータに、
（ｆ）分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
（ｇ）前記（ｆ）のステップで生成された前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成する、ステップと、
（ｈ）前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
（ｉ）前記（ｈ）のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を実行させる命令を更に含む、付記１１から１３のいずれかに記載のプログラム。

（付記１５）
前記（ｉ）のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、付記１４に記載のプログラム。

Claims

訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、字句解析部と、
前記字句解析部が生成した前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、グループ生成部と、
予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、行列生成部と、
前記行列生成部が生成した複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、分類部と、
前記分類部が算出した前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、最適化処理部と、
を備える、情報処理装置。
前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、請求項１に記載の情報処理装置。
前記ウインドウの組は、長さが３のウインドウと、長さが５のウインドウとを含む、請求項２に記載の情報処理装置。
前記字句解析部は、分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成し、
前記グループ生成部は、前記字句解析部が生成した前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成し、
行列生成部は、前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成し、
前記分類部は、前記行列生成部が生成した複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、請求項１から３のいずれかに記載の情報処理装置。
前記分類部は、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、請求項４に記載の情報処理装置。
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を備える、情報処理方法。
前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、請求項６に記載の情報処理方法。
前記ウインドウの組は、長さが３のウインドウと、長さが５のウインドウとを含む、請求項７に記載の情報処理方法。
（ｆ）分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
（ｇ）前記（ｆ）のステップで生成された前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成する、ステップと、
（ｈ）前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
（ｉ）前記（ｈ）のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を更に備える、請求項６から８のいずれかに記載の情報処理方法。
前記（ｉ）のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、請求項９に記載の情報処理方法。
コンピュータに、
（ａ）訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
（ｂ）前記（ａ）のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
（ｃ）予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
（ｄ）前記（ｃ）のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
（ｅ）前記（ｄ）のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、プログラムを記録したコンピュータ読み取り可能な記録媒体。
前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、請求項１１に記載のコンピュータ読み取り可能な記録媒体。
前記ウインドウの組は、長さが３のウインドウと、長さが５のウインドウとを含む、請求項１２に記載のコンピュータ読み取り可能な記録媒体。
前記プログラムが、前記コンピュータに、
（ｆ）分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
（ｇ）前記（ｆ）のステップで生成された前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成する、ステップと、
（ｈ）前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
（ｉ）前記（ｈ）のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を実行させる命令を更に含む、請求項１１から１３のいずれかに記載のコンピュータ読み取り可能な記録媒体。
前記（ｉ）のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、請求項１４に記載のコンピュータ読み取り可能な記録媒体。