JPWO2019092867A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JPWO2019092867A1 JPWO2019092867A1 JP2019551848A JP2019551848A JPWO2019092867A1 JP WO2019092867 A1 JPWO2019092867 A1 JP WO2019092867A1 JP 2019551848 A JP2019551848 A JP 2019551848A JP 2019551848 A JP2019551848 A JP 2019551848A JP WO2019092867 A1 JPWO2019092867 A1 JP WO2019092867A1
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- training
- analysis
- generated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、字句解析部と、
前記字句解析部が生成した前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、グループ生成部と、
予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、行列生成部と、
前記行列生成部が生成した複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、分類部と、
前記分類部が算出した前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、最適化処理部と、
を備えることを特徴とする。
(a)訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
(b)前記(a)のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
(c)予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
(d)前記(c)のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
(e)前記(d)のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、を備えることを特徴とする。
コンピュータに、
(a)訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
(b)前記(a)のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
(c)予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
(d)前記(c)のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
(e)前記(d)のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
以下、本発明の実施の形態における、情報処理装置、情報処理方法及びプログラムについて、図1〜図17を参照しながら説明する。
最初に、本発明の実施の形態における情報処理装置の構成について説明する。図1は、本発明の実施の形態における情報処理装置の概略構成を示す構成図である。
次に、本発明の実施の形態における情報処理装置10の動作について図12及び図13を用いて説明する。図12及び図13は、本発明の実施の形態における情報処理方法の動作を示すフロー図である。以下の説明においては、適宜図1〜図11を参酌する。また、本実施の形態では、情報処理装置10を動作させることによって、情報処理方法が実施される。よって、本実施の形態における情報処理方法の説明は、以下の情報処理装置10の動作説明に代える。
本実施の形態におけるプログラムは、コンピュータに、図12に示すステップS1〜S5及び図13に示すステップA1〜A5を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における情報処理装置と情報処理方法とを実現することができる。この場合、コンピュータのプロセッサは、字句解析部12、グループ生成部14、行列生成部16、分類部18及び最適化処理部20として機能し、処理を行なう。
ここで、実施の形態におけるプログラムを実行することによって、情報処理装置を実現するコンピュータについて図14を用いて説明する。図14は、本発明の実施の形態における情報処理装置10を実現するコンピュータの一例を示すブロック図である。
訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、字句解析部と、
前記字句解析部が生成した前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、グループ生成部と、
予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、行列生成部と、
前記行列生成部が生成した複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、分類部と、
前記分類部が算出した前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、最適化処理部と、
を備える、情報処理装置。
前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、付記1に記載の情報処理装置。
前記ウインドウの組は、長さが3のウインドウと、長さが5のウインドウとを含む、付記2に記載の情報処理装置。
前記字句解析部は、分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成し、
前記グループ生成部は、前記字句解析部が生成した前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成し、
行列生成部は、前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成し、
前記分類部は、前記行列生成部が生成した複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、付記1から3のいずれかに記載の情報処理装置。
前記分類部は、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、付記4に記載の情報処理装置。
(a)訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
(b)前記(a)のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
(c)予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
(d)前記(c)のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
(e)前記(d)のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を備える、情報処理方法。
前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、付記6に記載の情報処理方法。
前記ウインドウの組は、長さが3のウインドウと、長さが5のウインドウとを含む、付記7に記載の情報処理方法。
(f)分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
(g)前記(f)のステップで生成された前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成する、ステップと、
(h)前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
(i)前記(h)のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を更に備える、付記6から8のいずれかに記載の情報処理方法。
前記(i)のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、付記9に記載の情報処理方法。
コンピュータに、
(a)訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
(b)前記(a)のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
(c)予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
(d)前記(c)のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
(e)前記(d)のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、プログラムを記録したコンピュータ読み取り可能な記録媒体。
前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、付記11に記載のコンピュータ読み取り可能な記録媒体。
前記ウインドウの組は、長さが3のウインドウと、長さが5のウインドウとを含む、付記12に記載のコンピュータ読み取り可能な記録媒体。
前記プログラムが、前記コンピュータに、
(f)分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
(g)前記(f)のステップで生成された前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成する、ステップと、
(h)前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
(i)前記(h)のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を実行させる命令を更に含む、付記11から13のいずれかに記載のコンピュータ読み取り可能な記録媒体。
前記(i)のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、付記14に記載のコンピュータ読み取り可能な記録媒体。
12 字句解析部
14 グループ生成部
16 行列生成部
18 分類部
20 最適化処理部
22 辞書モデル記憶部
24 パラメータ記憶部
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
コンピュータに、
(a)訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
(b)前記(a)のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
(c)予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
(d)前記(c)のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
(e)前記(d)のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、ことを特徴とする。
前記字句解析部は、分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成し、
前記グループ生成部は、前記字句解析部が生成した前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成し、
前記行列生成部は、前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成し、
前記分類部は、前記行列生成部が生成した複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、付記1から3のいずれかに記載の情報処理装置。
コンピュータに、
(a)訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
(b)前記(a)のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
(c)予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
(d)前記(c)のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
(e)前記(d)のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、プログラム。
前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、付記11に記載のプログラム。
前記ウインドウの組は、長さが3のウインドウと、長さが5のウインドウとを含む、付記12に記載のプログラム。
前記コンピュータに、
(f)分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
(g)前記(f)のステップで生成された前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成する、ステップと、
(h)前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
(i)前記(h)のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を実行させる命令を更に含む、付記11から13のいずれかに記載のプログラム。
前記(i)のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、付記14に記載のプログラム。
Claims (15)
- 訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、字句解析部と、
前記字句解析部が生成した前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、グループ生成部と、
予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、行列生成部と、
前記行列生成部が生成した複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、分類部と、
前記分類部が算出した前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、最適化処理部と、
を備える、情報処理装置。 - 前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、請求項1に記載の情報処理装置。 - 前記ウインドウの組は、長さが3のウインドウと、長さが5のウインドウとを含む、請求項2に記載の情報処理装置。
- 前記字句解析部は、分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成し、
前記グループ生成部は、前記字句解析部が生成した前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成し、
行列生成部は、前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成し、
前記分類部は、前記行列生成部が生成した複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、請求項1から3のいずれかに記載の情報処理装置。 - 前記分類部は、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、請求項4に記載の情報処理装置。
- (a)訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
(b)前記(a)のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
(c)予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
(d)前記(c)のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
(e)前記(d)のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を備える、情報処理方法。 - 前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、請求項6に記載の情報処理方法。 - 前記ウインドウの組は、長さが3のウインドウと、長さが5のウインドウとを含む、請求項7に記載の情報処理方法。
- (f)分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
(g)前記(f)のステップで生成された前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成する、ステップと、
(h)前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
(i)前記(h)のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を更に備える、請求項6から8のいずれかに記載の情報処理方法。 - 前記(i)のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、請求項9に記載の情報処理方法。
- コンピュータに、
(a)訓練用テキスト、及び特定の事象情報に関する単語の前記訓練用テキストにおける位置を示す位置情報を取得し、前記訓練用テキストを字句解析することによって、前記訓練用テキストにおける位置を示す位置情報及び前記事象情報に関する単語に該当するか否かを示すラベルが単語ごとに付された訓練用単語列を生成する、ステップと、
(b)前記(a)のステップで生成された前記訓練用単語列において、検出対象の単語を中心とする長さの異なる複数のウインドウによって構成されたウインドウの組の位置を、前記訓練用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の訓練用単語グループを生成する、ステップと、
(c)予め設定された辞書モデルを用いて生成された、前記訓練用単語列の複数の単語それぞれの意味ベクトルを、前記複数の訓練用単語グループの各単語に対応付けることによって、前記複数の訓練用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた訓練用行列を生成する、ステップと、
(d)前記(c)のステップで生成された複数の前記訓練用行列と畳み込みニューラルネットワークを用いた判定モデルとを用いて、前記訓練用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、
(e)前記(d)のステップで算出された前記訓練用単語列の各位置の単語の前記確率のうち、前記事象情報に関する単語に該当することを示す前記ラベルが付された前記単語の前記確率が高くなるように、前記判定モデルのパラメータを更新する、ステップと、
を実行させる命令を含む、プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記ウインドウの長さは単語の数によって示され、
前記複数のウインドウの長さはそれぞれ奇数に設定される、請求項11に記載のコンピュータ読み取り可能な記録媒体。 - 前記ウインドウの組は、長さが3のウインドウと、長さが5のウインドウとを含む、請求項12に記載のコンピュータ読み取り可能な記録媒体。
- 前記プログラムが、前記コンピュータに、
(f)分析対象となる分析用テキストを取得し、前記分析用テキストを字句解析することによって、前記分析用テキストにおける位置を示す位置情報が単語ごとに付された分析用単語列を生成する、ステップと、
(g)前記(f)のステップで生成された前記分析用単語列において、前記ウインドウの組の位置を、前記分析用単語列の先頭から末尾に向かって一単語分ずつ移動させながら、各位置において前記複数のウインドウそれぞれによって単語を抽出することによって、前記複数のウインドウにそれぞれ対応しかつ複数の単語によって構成される複数の分析用単語グループを生成する、ステップと、
(h)前記辞書モデルを用いて生成された、前記分析用単語列の複数の単語それぞれの意味ベクトルを、前記複数の分析用単語グループの各単語に対応付けることによって、前記複数の分析用単語グループごとに、前記複数の単語と前記複数の単語それぞれの前記意味ベクトルとが対応付けられた分析用行列を生成する、ステップと、
(i)前記(h)のステップで生成された複数の前記分析用行列と前記判定モデルとを用いて、前記分析用単語列の各位置の単語について、前記特定の事象情報に関する単語に該当する確率を算出する、ステップと、を実行させる命令を更に含む、請求項11から13のいずれかに記載のコンピュータ読み取り可能な記録媒体。 - 前記(i)のステップでは、前記分析用単語列の複数の単語のうち、閾値以上の確率が算出された単語を前記特定の事象対象の単語として抽出するとともに、抽出した前記単語の前記位置情報を出力する、請求項14に記載のコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/040664 WO2019092867A1 (ja) | 2017-11-10 | 2017-11-10 | 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019092867A1 true JPWO2019092867A1 (ja) | 2020-10-22 |
JP6860084B2 JP6860084B2 (ja) | 2021-04-14 |
Family
ID=66437610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019551848A Active JP6860084B2 (ja) | 2017-11-10 | 2017-11-10 | 情報処理装置、情報処理方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11687712B2 (ja) |
JP (1) | JP6860084B2 (ja) |
WO (1) | WO2019092867A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048486A (zh) * | 2022-05-24 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 事件抽取方法、装置、计算机程序产品、存储介质及设备 |
CN115048486B (zh) * | 2022-05-24 | 2024-05-31 | 支付宝(杭州)信息技术有限公司 | 事件抽取方法、装置、计算机程序产品、存储介质及设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019241145A1 (en) | 2018-06-12 | 2019-12-19 | Intergraph Corporation | Artificial intelligence applications for computer-aided dispatch systems |
WO2020170593A1 (ja) * | 2019-02-18 | 2020-08-27 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
CN112347232A (zh) * | 2020-11-18 | 2021-02-09 | 武汉贝多多网络科技有限公司 | 一种基于云计算对客体进行意图识别的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007213336A (ja) * | 2006-02-09 | 2007-08-23 | Mitsubishi Electric Corp | 辞書作成装置 |
JP2009116456A (ja) * | 2007-11-02 | 2009-05-28 | National Institute Of Information & Communication Technology | データ処理装置及びデータ処理方法 |
JP2011118526A (ja) * | 2009-12-01 | 2011-06-16 | Hitachi Ltd | 単語意味関係抽出装置 |
JP2012108570A (ja) * | 2010-11-15 | 2012-06-07 | Hitachi Ltd | 単語意味関係抽出装置及び単語意味関係抽出方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249762A1 (en) * | 2007-04-05 | 2008-10-09 | Microsoft Corporation | Categorization of documents using part-of-speech smoothing |
US8504361B2 (en) * | 2008-02-07 | 2013-08-06 | Nec Laboratories America, Inc. | Deep neural networks and methods for using same |
US9477756B1 (en) * | 2012-01-16 | 2016-10-25 | Amazon Technologies, Inc. | Classifying structured documents |
US9471551B1 (en) * | 2012-02-03 | 2016-10-18 | Google Inc. | Promoting content |
US9342794B2 (en) * | 2013-03-15 | 2016-05-17 | Bazaarvoice, Inc. | Non-linear classification of text samples |
US9442905B1 (en) * | 2013-06-28 | 2016-09-13 | Google Inc. | Detecting neighborhoods from geocoded web documents |
US9575952B2 (en) * | 2014-10-21 | 2017-02-21 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
EP3173983A1 (en) | 2015-11-26 | 2017-05-31 | Siemens Aktiengesellschaft | A method and apparatus for providing automatically recommendations concerning an industrial system |
US10713560B2 (en) * | 2015-12-28 | 2020-07-14 | Staples, Inc. | Learning a vector representation for unique identification codes |
US11010687B2 (en) * | 2016-07-29 | 2021-05-18 | Verizon Media Inc. | Detecting abusive language using character N-gram features |
JP6721179B2 (ja) * | 2016-10-05 | 2020-07-08 | 国立研究開発法人情報通信研究機構 | 因果関係認識装置及びそのためのコンピュータプログラム |
JP7014230B2 (ja) * | 2017-11-10 | 2022-02-01 | 日本電気株式会社 | 情報処理装置、情報処理方法及びプログラム |
-
2017
- 2017-11-10 JP JP2019551848A patent/JP6860084B2/ja active Active
- 2017-11-10 US US16/761,583 patent/US11687712B2/en active Active
- 2017-11-10 WO PCT/JP2017/040664 patent/WO2019092867A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007213336A (ja) * | 2006-02-09 | 2007-08-23 | Mitsubishi Electric Corp | 辞書作成装置 |
JP2009116456A (ja) * | 2007-11-02 | 2009-05-28 | National Institute Of Information & Communication Technology | データ処理装置及びデータ処理方法 |
JP2011118526A (ja) * | 2009-12-01 | 2011-06-16 | Hitachi Ltd | 単語意味関係抽出装置 |
JP2012108570A (ja) * | 2010-11-15 | 2012-06-07 | Hitachi Ltd | 単語意味関係抽出装置及び単語意味関係抽出方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048486A (zh) * | 2022-05-24 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 事件抽取方法、装置、计算机程序产品、存储介质及设备 |
CN115048486B (zh) * | 2022-05-24 | 2024-05-31 | 支付宝(杭州)信息技术有限公司 | 事件抽取方法、装置、计算机程序产品、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
US11687712B2 (en) | 2023-06-27 |
US20210174021A1 (en) | 2021-06-10 |
WO2019092867A1 (ja) | 2019-05-16 |
JP6860084B2 (ja) | 2021-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6928371B2 (ja) | 分類器、分類器の学習方法、分類器における分類方法 | |
US20190130249A1 (en) | Sequence-to-sequence prediction using a neural network model | |
CN111414987B (zh) | 神经网络的训练方法、训练装置和电子设备 | |
US10796098B2 (en) | Instruction understanding system and instruction understanding method | |
JP6772213B2 (ja) | 質問応答装置、質問応答方法及びプログラム | |
WO2014137672A2 (en) | Probabilistic parsing | |
JP6860084B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP7014230B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN109145107B (zh) | 基于卷积神经网络的主题提取方法、装置、介质和设备 | |
WO2019201024A1 (zh) | 用于更新模型参数的方法、装置、设备和存储介质 | |
US20230034414A1 (en) | Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program | |
EP4060526A1 (en) | Text processing method and device | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
US20230130662A1 (en) | Method and apparatus for analyzing multimodal data | |
EP4227850A1 (en) | Program, learning method, and information processing apparatus | |
CN111488400A (zh) | 数据分类方法、装置和计算机可读存储介质 | |
WO2018048716A1 (en) | Machine learning model for analysis of instruction sequences | |
JP7388660B2 (ja) | 情報処理装置、利用者端末、情報処理方法、及び情報処理プログラム | |
KR101538131B1 (ko) | 버그 정정 개발자 추천을 위한 하이브리드 버그 할당 시스템 및 방법 | |
US20220092260A1 (en) | Information output apparatus, question generation apparatus, and non-transitory computer readable medium | |
CN115049899B (zh) | 模型训练方法、指代表达式生成方法及相关设备 | |
WO2022185457A1 (ja) | 特徴量抽出装置、学習装置、特徴量抽出方法、学習方法、及びプログラム | |
WO2021214861A1 (ja) | 学習装置、学習済みモデル生成方法、分類装置、分類方法、及びコンピュータ読み取り可能な記録媒体 | |
KR102668118B1 (ko) | 자연어 기반의 비디오 검색을 위한 학습 장치 및 학습 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200316 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210309 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6860084 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |