JPWO2009081861A1 - 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 - Google Patents
単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 Download PDFInfo
- Publication number
- JPWO2009081861A1 JPWO2009081861A1 JP2009547077A JP2009547077A JPWO2009081861A1 JP WO2009081861 A1 JPWO2009081861 A1 JP WO2009081861A1 JP 2009547077 A JP2009547077 A JP 2009547077A JP 2009547077 A JP2009547077 A JP 2009547077A JP WO2009081861 A1 JPWO2009081861 A1 JP WO2009081861A1
- Authority
- JP
- Japan
- Prior art keywords
- word category
- word
- model
- speech recognition
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 48
- 238000012545 processing Methods 0.000 claims description 41
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000002344 surface layer Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
また、同方法では、固有表現クラスと単語の両者を同時に同定するため、音声認識誤りがある場合はどの単語に誤ったかも言語モデルに含める必要があるが、単語のみの言語モデルと比べて学習すべきパラメタが多いため、そのような言語モデルを高い精度で学習することは難しい。そのため、発話に含まれる固有表現の検出漏れや、発話全体の内容に適合しない種類の固有表現の誤検出が発生するという問題がある。
しかしながら、同方法は、各単語の前後2単語の特徴という限られた特徴のみを用いているため、音声認識誤りが数単語続くような区間では、固有表現の抽出が難しいという問題がある。
[第1の実施形態]
まず、図1を参照して、本発明の第1の実施形態にかかる単語カテゴリ推定装置の基本構成について説明する。
この単語カテゴリ推定装置100は、主な基本構成要素として、単語カテゴリ推定部4、および単語カテゴリモデル5とを備える。
単語カテゴリ推定部4は、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、単語カテゴリモデルを参照して単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する。
これら構成要素のうち、音声認識仮説入力部2、単語カテゴリグラフ生成部3、単語カテゴリ推定部4は、単語カテゴリ推定装置101のCPU(図示略)が実行するプログラムに対応する構成要素である。また、単語カテゴリモデル5は、単語カテゴリ推定装置101の記憶デバイス(図示略)に記憶されたデータである。
したがって、本例の単語カテゴリモデル5は、素性Φ、および、モデルパラメタΛ(重み値)を記憶装置に記憶させている。
単語カテゴリ推定部4は、まず、単語カテゴリグラフ生成部3より入力された単語カテゴリグラフを受け取る。図4は、単語カテゴリグラフの例示である。
単語カテゴリグラフに含まれる各アークにおけるスコアは、各アークに関する特徴(素性)と、CRFもモデルパラメタである各素性に対する重み値と、の積である。
CRFのモデルパラメタは、あらかじめ対応づけられた入力(x:音声認識仮説)と出力(y:単語カテゴリ)との組を学習データとして、上記数1の対数尤度を最大化する基準に従って、反復計算法などにより最適化(学習)されてもよい。
次に、図7を参照して、本発明の第1の実施形態にかかる単語カテゴリ推定装置の動作について説明する。
一方、音声認識仮説入力部2は、音声認識処理の終了を表す通知に応じて、外部の音声認識装置より音声認識仮説を取得して単語カテゴリグラフ作成部3に入力する(ステップS12)。
続いて、単語カテゴリグラフ作成部3は、入力された音声認識仮説から単語カテゴリグラフを生成して単語カテゴリ推定部4に提供する(ステップS13)。
この後、パス探索部41は、単語カテゴリグラフ上で、所定の基準で単語カテゴリ列(パス)を順位付けし、順位の高いものから単語カテゴリ列候補として出力し(ステップS15)、一連の単語カテゴリ推定処理を終了する。
このように、本実施形態によれば、単語カテゴリグラフの各アークに対応する単語カテゴリのスコアを、各アークに関連する単語の特徴と、単語カテゴリグラフ全体の特徴とをあわせて求めるようにしたので、発話に最適な単語カテゴリ列を探索する精度を高めることができる。特に、音声認識誤り区間については、従来は認識誤りの情報に基づいて単語カテゴリのスコアを求めていたために十分な推定精度が得られていなかったが、当該区間以外の情報として発話全体の特徴を用いることにより、当該区間の単語カテゴリの推定精度を高めることができる。
次に、図8を参照して、本発明の第2の実施形態にかかる単語カテゴリ装置について説明する。
発話パタン推定部6は、音声認識仮説入力部2が出力する音声認識仮説を入力とし、これに対してその発話パタンを推定し、推定結果を単語カテゴリ推定部4に提供する。発話パタンとは、発話に含まれる単語カテゴリの数や組み合わせで特徴づけられる情報を指す。例えば、発話に含まれる単語カテゴリは1つであるとか、発話には「人名」と「番組名」が含まれる、という情報である。発話パタンの推定は、例えば、音声認識仮説に含まれる単語によって規則的に分類する方法を用いることができる。
次に、図9を参照して、本発明の第2の実施形態にかかる単語カテゴリ推定装置の動作について説明する。
発話パタン推定部6は入力された音声認識仮説に基づいて単語カテゴリのパタンを推定し(ステップS24)、単語カテゴリ推定部4のモデル調整部43でその結果を用いて参照する単語カテゴリモデル5の重みを変更する(ステップS25)。
このように、本実施形態によれば、発話パタン推定部6によって、規則(ルール)に基づく単語カテゴリの判定や、単語カテゴリモデル5に含まれない特徴に基づく単語カテゴリの推定を行うことができる。これらの情報を付加することにより、単語カテゴリモデル5を用いた単語カテゴリ推定部4の精度を高めることができる。
次に、図10を参照して、本発明の第3の実施形態にかかる音声認識装置について説明する。
音声認識部71は、音声認識装置103に入力される音声に対して音声認識処理を行って、該音声に対応する単語列候補を求め、音声認識仮説として、例えば単語グラフを出力する。音声認識部71では、発話に対して、音声認識のためのモデル(言語モデルや単語辞書、音響モデルなどを含む)の与えるスコアにしたがって、音声データに適合する単語列を探索するといった通常の音声認識処理を行えばよい。例えば、言語モデルにはトライグラム、音響モデルには隠れマルコフモデルなどを用いる。
再音声認識部73は、単語カテゴリ推定部72の出力する推定結果を用いて、これを言語制約として、例えば、当該区間の語彙を当該種類の単語カテゴリに属するものに限定した上で音声認識処理を行う。
まず、音声認識部71は、入力された音声に対して音声認識を行い、例えば、単語列候補「田舎紀行路のえー出演している番組」を出力する。
次に、単語カテゴリ推定部72は、この1段目の音声認識結果を入力し、例えば、「田舎」「紀行」「路」の単語カテゴリが「人名」であると推定する。この推定結果から、1段目の音声認識仮説の単語列の一部である「田舎紀行路」に相当する発話区間(フレーム番号等)は「人名」であるという言語制約を得る。
続いて、再音声認識部73は、この言語制約を用いて2段目の音声認識処理を行う。例えば、1段目の音声認識結果の「田舎紀行路」に相当する発話区間(フレーム番号等)では、単語カテゴリ「人名」に属する単語のみを音声認識仮説に含めるように、そうでない単語は候補から除くようにして認識処理を行う。
このように、本実施形態によれば、発話のどこからどこまでがどの単語カテゴリに属するかという言語制約を加えた音声認識処理により、音声認識精度を高めることができる。特に、情報検索装置に入力するためのキーワードのような、特定の単語カテゴリに属する語句について極めて高い認識精度を得ることができる。
照されるたびに、アークに関する特徴を抽出し、単語カテゴリモデル5を参照して当該アークのスコアを計算し、パス探索部41に提供する。1つの実施形態において、単語カテゴリのスコアは、特徴量(f)を条件とする単語カテゴリ(c)の条件付き確率p(c|f)のように表現できる。
[0028]
単語カテゴリモデル5は、単語カテゴリの特徴と単語カテゴリの出現度の関係について、確率モデルや規則(ルール)の形式で格納する。例えば、識別モデルの一種であるCRF(Conditional Random Fields)を用いる場合、各単語カテゴリに対する各特徴量(素性)の重み値がモデルのパラメタとして表現される。
[0029]
単語モデル51は各アークの特徴と単語カテゴリの出現度の関係を格納する。特徴としては、例えば、当該アークに対応する元の単語の言語的特徴(表層(表記)、読み(発音)、品詞など)や認識結果としての特徴(信頼度、正誤など)などがあげられる。また、当該アークの特徴として、当該アークの前後のアークや、当該アークと対立するアークの特徴と組み合わせたものを用いることができる。
[0030]
発話モデル52は単語カテゴリグラフ全体(発話全体)の特徴と単語カテゴリの出現度の関係を格納する。単語カテゴリグラフ全体の特徴としては、例えば、単語カテゴリグラフ内での位置情報(前半、後半、先頭からN番目、など)や、単語カテゴリグラフの構造に関する情報(アークの数、平均分岐数、など)や、単語カテゴリグラフに含まれる単語の組み合わせ(複数単語の共起情報など)や、単語カテゴリの連接情報などが挙げられる。
[0031]
単語カテゴリモデル5として、1つの実施形態では、識別モデルの一種であるCRF(Conditional Random Fields)を用いることができる。このとき、単語カテゴリモデル5を次の数1のように定義できる。
[数1]
[0032]
数1において、「x」はカテゴリ推定処理の対象となる入力であり、「y」は識別結果としてのカテゴリである。また、「Φ(y,x)」は処理対象「x」の特徴(素性)を表す情報であり、「Λ」は素性のそれぞれに対応するCRFにおけるモデルパラメタ(重み値)であ
2の実施形態(図8)の単語カテゴリ推定装置102を用いて音声認識結果に単語カテゴリ情報を付与し、それに基づいて再び音声認識処理を行う。
[0052]
この音声認識装置103は、主な構成要素として、音声認識部71と、単語カテゴリ推定部72と、再音声認識部73とを備える。
音声認識部71は、音声認識装置103に入力される音声に対して音声認識処理を行って、該音声に対応する単語列候補を求め、音声認識仮説として、例えば単語グラフを出力する。音声認識部71では、発話に対して、音声認識のためのモデル(言語モデルや単語辞書、音響モデルなどを含む)の与えるスコアにしたがって、音声データに適合する単語列を探索するといった通常の音声認識処理を行えばよい。例えば、言語モデルにはトライグラム、音響モデルには隠れマルコフモデルなどを用いる。
[0053]
単語カテゴリ推定部72は、図2の単語カテゴリ推定装置101や図8の単語カテゴリ推定装置102に相当する処理部であって、音声認識部71が出力する単語グラフから単語カテゴリグラフを生成し、単語カテゴリモデルに基づいて発話に含まれる単語カテゴリの種類および区間(フレーム番号)を推定して出力する。
再音声認識部73は、単語カテゴリ推定部72の出力する推定結果を用いて、これを言語制約として、例えば当該区間の語彙を当該種類の単語カテゴリに属するものに限定した上で音声認識処理を行う。
[0054]
音声認識装置103の動作について、図10の例を用いて説明する。
まず、音声認識部71は、入力された音声に対して音声認識を行い、例えば、単語列候補「田舎紀行路のえー出演している番組」を出力する。
次に、単語カテゴリ推定部72は、この1段目の音声認識結果を入力し、例えば、「田舎」「紀行」「路」の単語カテゴリが「人名」であると推定する。この推定結果から、1段目の音声認識仮説の単語列の一部である「田舎紀行路」に相当する発話区間(フレーム番号等)は「人名」であるという言語制約を得る。
続いて、再音声認識部73は、この言語制約を用いて2段目の音声認識処理を行う。例えば、1段目の音声認識結果の「田舎紀行路」に相当する発話区間(フレーム番号等)では、単語カテゴリ「人名」に属する単語のみを音声認識仮説に含めるように、
Claims (24)
- 単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルと、
処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定部と
を備えることを特徴とする単語カテゴリ推定装置。 - 前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定部をさらに備え、
前記単語カテゴリ推定部は、前記発話パタン推定部での発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更する
ことを特徴とする請求項1に記載の単語カテゴリ推定装置。 - 前記単語カテゴリモデルはCRFモデルからなることを特徴とする請求項1に記載の単語カテゴリ推定装置。
- 前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか1つを用いることを特徴とする請求項1に記載の単語カテゴリ推定装置。
- 前記単語カテゴリ推定部は、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うことを特徴とする請求項2に記載の単語カテゴリ推定装置。
- 単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
演算処理部により、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定ステップと
を備えることを特徴とする単語カテゴリ推定方法。 - 前記演算処理部により、前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定ステップをさらに備え、
前記単語カテゴリ推定ステップは、前記発話パタン推定ステップでの発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更するステップを含む
ことを特徴とする請求項6に記載の単語カテゴリ推定方法。 - 前記単語カテゴリモデルはCRFモデルからなることを特徴とする請求項6に記載の単語カテゴリ推定方法。
- 前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか1つを用いることを特徴とする請求項6に記載の単語カテゴリ推定方法。
- 前記単語カテゴリ推定ステップは、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うステップを含むことを特徴とする請求項7に記載の単語カテゴリ推定方法。
- 記憶部と演算処理部とを備えるコンピュータに、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを前記記憶部で記憶するステップと、
前記演算処理部により、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定ステップと
を実行させるプログラム。 - 前記演算処理部により、前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定ステップをさらに備え、
前記単語カテゴリ推定ステップは、前記発話パタン推定ステップでの発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更するステップを含む
ことを特徴とする請求項11に記載のプログラム。 - 前記単語カテゴリモデルはCRFモデルからなることを特徴とする請求項11に記載のプログラム。
- 前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか1つを用いることを特徴とする請求項11に記載のプログラム。
- 前記単語カテゴリ推定ステップは、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うステップを含むことを特徴とする請求項12に記載のプログラム。
- 記憶部と演算処理部とを備えるコンピュータに、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを前記記憶部で記憶するステップと、
前記演算処理部により、処理対象となる音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ列候補を出力する単語カテゴリ推定ステップと
を実行させるプログラム
を記録した記録媒体。 - 前記プログラムにおいて、
前記演算処理部により、前記音声認識仮説を用いて発話パタンの推定を行う発話パタン推定ステップをさらに備え、
前記単語カテゴリ推定ステップは、前記発話パタン推定ステップでの発話パタン推定結果に基づきスコア計算に用いる前記単語カテゴリモデルを変更するステップを含む
ことを特徴とする請求項16に記載の記録媒体。 - 前記プログラムにおいて、前記単語カテゴリモデルはCRFモデルからなることを特徴とする請求項16に記載の記録媒体。
- 前記プログラムにおいて、
前記単語カテゴリモデルの前記単語カテゴリグラフ全体に関する素性として、前記単語カテゴリグラフにおける位置情報、前記単語カテゴリグラフの構造に関する統計情報、前記単語カテゴリグラフに含まれる単語共起情報、単語カテゴリの連接情報のうち、少なくともいずれか1つを用いることを特徴とする請求項16に記載の記録媒体。 - 前記プログラムにおいて、前記単語カテゴリ推定ステップは、前記発話パタン推定結果によってスコア計算に用いる前記単語カテゴリモデルを変更する際、発話パタンと単語カテゴリモデルの関係度を用いて複数モデルの選択あるいは重み付けを行うステップを含むことを特徴とする請求項17に記載の記録媒体。
- 入力された音声に対応する音声認識仮説を生成する音声認識部と、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルと、
前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定部と、
前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識部と
を備えることを特徴とする音声認識装置。 - 演算処理部により、入力された音声に対応する音声認識仮説を生成する音声認識ステップと、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
前記演算処理部により、前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定ステップと、
前記演算処理部により、前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識ステップと
を備えることを特徴とする音声認識方法。 - 記憶部と演算処理部とを備えるコンピュータに、
演算処理部により、入力された音声に対応する音声認識仮説を生成する音声認識ステップと、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
前記演算処理部により、前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定ステップと、
前記演算処理部により、前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識ステップと
を実行させるプログラム。 - 記憶部と演算処理部とを備えるコンピュータに、
演算処理部により、入力された音声に対応する音声認識仮説を生成する音声認識ステップと、
単語カテゴリに関する複数種類の情報を素性とする確率モデルからなり、少なくとも前記素性の1つとして単語カテゴリグラフ全体に関する情報を含む単語カテゴリモデルを記憶部で記憶するステップと、
前記演算処理部により、前記音声認識仮説の単語カテゴリグラフを入力し、前記単語カテゴリモデルを参照して前記単語カテゴリグラフを構成するアークごとにスコアを計算し、これらスコアに基づいて単語カテゴリ推定を行う単語カテゴリ推定ステップと、
前記演算処理部により、前記単語カテゴリ推定結果を語彙制約として再び音声認識を行う再音声認識ステップと
を実行させるプログラム
を記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009547077A JP5440177B2 (ja) | 2007-12-21 | 2008-12-19 | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007330154 | 2007-12-21 | ||
JP2007330154 | 2007-12-21 | ||
PCT/JP2008/073192 WO2009081861A1 (ja) | 2007-12-21 | 2008-12-19 | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
JP2009547077A JP5440177B2 (ja) | 2007-12-21 | 2008-12-19 | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009081861A1 true JPWO2009081861A1 (ja) | 2011-05-06 |
JP5440177B2 JP5440177B2 (ja) | 2014-03-12 |
Family
ID=40801162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009547077A Active JP5440177B2 (ja) | 2007-12-21 | 2008-12-19 | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8583436B2 (ja) |
JP (1) | JP5440177B2 (ja) |
WO (1) | WO2009081861A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5533042B2 (ja) * | 2010-03-04 | 2014-06-25 | 富士通株式会社 | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
JP2011253374A (ja) * | 2010-06-02 | 2011-12-15 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
US9053182B2 (en) | 2011-01-27 | 2015-06-09 | International Business Machines Corporation | System and method for making user generated audio content on the spoken web navigable by community tagging |
CN102682763B (zh) * | 2011-03-10 | 2014-07-16 | 北京三星通信技术研究有限公司 | 修正语音输入文本中命名实体词汇的方法、装置及终端 |
US9202465B2 (en) * | 2011-03-25 | 2015-12-01 | General Motors Llc | Speech recognition dependent on text message content |
US9201862B2 (en) * | 2011-06-16 | 2015-12-01 | Asociacion Instituto Tecnologico De Informatica | Method for symbolic correction in human-machine interfaces |
JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
US10629186B1 (en) * | 2013-03-11 | 2020-04-21 | Amazon Technologies, Inc. | Domain and intent name feature identification and processing |
ES2978890T3 (es) * | 2013-05-30 | 2024-09-23 | Promptu Systems Corp | Sistemas y procedimientos de reconocimiento y comprensión de entidades de nombres propios adaptativas |
US9818401B2 (en) | 2013-05-30 | 2017-11-14 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US10170114B2 (en) | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9589563B2 (en) * | 2014-06-02 | 2017-03-07 | Robert Bosch Gmbh | Speech recognition of partial proper names by natural language processing |
US9773499B2 (en) * | 2014-06-18 | 2017-09-26 | Google Inc. | Entity name recognition based on entity type |
US10140581B1 (en) * | 2014-12-22 | 2018-11-27 | Amazon Technologies, Inc. | Conditional random field model compression |
US9300801B1 (en) | 2015-01-30 | 2016-03-29 | Mattersight Corporation | Personality analysis of mono-recording system and methods |
EP3516649A4 (en) * | 2016-09-19 | 2020-04-29 | Promptu Systems Corporation | SYSTEMS AND METHODS FOR ADAPTIVELY DETECTING AND UNDERSTANDING PROPER NAME ENTITIES |
US10810472B2 (en) | 2017-05-26 | 2020-10-20 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
US20190266246A1 (en) * | 2018-02-23 | 2019-08-29 | Microsoft Technology Licensing, Llc | Sequence modeling via segmentations |
JP7127688B2 (ja) * | 2018-08-27 | 2022-08-30 | 日本電気株式会社 | 仮説推論装置、仮説推論方法、及びプログラム |
US11170170B2 (en) | 2019-05-28 | 2021-11-09 | Fresh Consulting, Inc | System and method for phonetic hashing and named entity linking from output of speech recognition |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3230606B2 (ja) | 1992-06-30 | 2001-11-19 | 株式会社エヌ・ティ・ティ・データ | 固有名詞特定方法 |
US5613036A (en) * | 1992-12-31 | 1997-03-18 | Apple Computer, Inc. | Dynamic categories for a speech recognition system |
JP2001318792A (ja) * | 2000-05-10 | 2001-11-16 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置 |
DE10032255A1 (de) * | 2000-07-03 | 2002-01-31 | Siemens Ag | Verfahren zur Sprachanalyse |
ATE300083T1 (de) * | 2000-11-03 | 2005-08-15 | Voicecom Solutions Gmbh | Robuste spracherkennung mit datenbankorganisation |
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
TW559783B (en) * | 2002-05-31 | 2003-11-01 | Ind Tech Res Inst | Error-tolerant natural language understanding system and method integrating with confidence measure |
JP2004094434A (ja) | 2002-08-30 | 2004-03-25 | Fujitsu Ltd | 言語処理方法、プログラム及び装置 |
US7302383B2 (en) * | 2002-09-12 | 2007-11-27 | Luis Calixto Valles | Apparatus and methods for developing conversational applications |
US7328155B2 (en) * | 2002-09-25 | 2008-02-05 | Toyota Infotechnology Center Co., Ltd. | Method and system for speech recognition using grammar weighted based upon location information |
JP4008344B2 (ja) | 2002-12-06 | 2007-11-14 | 日本電信電話株式会社 | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム |
JP2005010691A (ja) * | 2003-06-20 | 2005-01-13 | P To Pa:Kk | 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
JP2007004233A (ja) * | 2005-06-21 | 2007-01-11 | Yamatake Corp | 文章分類装置、文章分類方法、およびプログラム |
KR100755677B1 (ko) * | 2005-11-02 | 2007-09-05 | 삼성전자주식회사 | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 |
US7587308B2 (en) * | 2005-11-21 | 2009-09-08 | Hewlett-Packard Development Company, L.P. | Word recognition using ontologies |
JP4156639B2 (ja) * | 2006-08-14 | 2008-09-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声インターフェースの設計を支援するための装置、方法、プログラム |
JP2008064885A (ja) * | 2006-09-05 | 2008-03-21 | Honda Motor Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
JP4188989B2 (ja) * | 2006-09-15 | 2008-12-03 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
DE602006005830D1 (de) * | 2006-11-30 | 2009-04-30 | Harman Becker Automotive Sys | Interaktives Spracherkennungssystem |
-
2008
- 2008-12-19 JP JP2009547077A patent/JP5440177B2/ja active Active
- 2008-12-19 US US12/809,199 patent/US8583436B2/en active Active
- 2008-12-19 WO PCT/JP2008/073192 patent/WO2009081861A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP5440177B2 (ja) | 2014-03-12 |
US20110173000A1 (en) | 2011-07-14 |
WO2009081861A1 (ja) | 2009-07-02 |
US8583436B2 (en) | 2013-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US10134388B1 (en) | Word generation for speech recognition | |
US9336769B2 (en) | Relative semantic confidence measure for error detection in ASR | |
US8185376B2 (en) | Identifying language origin of words | |
US10490182B1 (en) | Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
CN105981099A (zh) | 语音检索装置和语音检索方法 | |
US20110224982A1 (en) | Automatic speech recognition based upon information retrieval methods | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
JP2004005600A (ja) | データベースに格納された文書をインデックス付け及び検索する方法及びシステム | |
JP2011070192A (ja) | 音声検索装置及び音声検索方法 | |
JP2004133880A (ja) | インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
Lugosch et al. | Donut: Ctc-based query-by-example keyword spotting | |
Cui et al. | Multi-view and multi-objective semi-supervised learning for hmm-based automatic speech recognition | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
WO2008150003A1 (ja) | キーワード抽出モデル学習システム、方法およびプログラム | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP2010277036A (ja) | 音声データ検索装置 | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Andra et al. | Contextual keyword spotting in lecture video with deep convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5440177 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |