JPWO2013125203A1 - 音声認識装置、音声認識方法およびコンピュータプログラム - Google Patents

音声認識装置、音声認識方法およびコンピュータプログラム Download PDF

Info

Publication number
JPWO2013125203A1
JPWO2013125203A1 JP2014500915A JP2014500915A JPWO2013125203A1 JP WO2013125203 A1 JPWO2013125203 A1 JP WO2013125203A1 JP 2014500915 A JP2014500915 A JP 2014500915A JP 2014500915 A JP2014500915 A JP 2014500915A JP WO2013125203 A1 JPWO2013125203 A1 JP WO2013125203A1
Authority
JP
Japan
Prior art keywords
hypothesis
recognition result
score
result candidate
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014500915A
Other languages
English (en)
Inventor
岡部 浩司
浩司 岡部
健 花沢
健 花沢
亮輔 磯谷
亮輔 磯谷
長田 誠也
誠也 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014500915A priority Critical patent/JPWO2013125203A1/ja
Publication of JPWO2013125203A1 publication Critical patent/JPWO2013125203A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

[課題]適切な数の認識結果候補を発声途中に決定することができる音声認識装置を提供する。[解決手段]時刻順にフレーム単位で入力される音声特徴量を基に算出し、算出した認識結果候補の仮説のスコアを参照することにより前記仮説を探索する仮説探索部104と、前記仮説探索部104によってある時刻に探索された複数の仮説から、前記時刻までに累積されたスコアの分布に基づいて、該スコア上位の仮説を前記認識結果候補として決定する認識結果候補決定部106と、を備える。

Description

本発明は、音声認識装置、音声認識方法およびコンピュータプログラムに関し、特に音声認識結果の候補を探索する技術に関する。
音声認識に関して、認識結果候補を探索する技術が一般的に知られている。例えば、特許文献1には、発声終了後に音声認識候補としてN−best認識結果を出力する単語探索装置が開示されている。特許文献2には、発声途中に複数の音声認識結果候補を逐次出力できる音声認識システムが開示されている。
特開2011−039468 特開2005−284018
しかしながら、特許文献1に記載された技術は、ユーザが発音を終えた後に、音声認識結果候補を出力するので、ユーザが音声認識結果を確認するまでに、ユーザに待ち時間が生じてしまう。
特許文献2に記載された技術は、複数の認識結果候補を逐次出力するので、多くの認識結果候補が出力されることがある。この場合、ユーザに選択の手間をかけさせてしまう。
本発明は、上記課題を鑑み、適切な数の認識結果候補を発声途中に決定することができる音声認識装置などを提供することを1つの目的とする。
上記目的を達成するために、本発明に係る音声認識装置は、時刻順にフレーム単位で入力される音声特徴量を基に認識結果候補の仮説のスコアを算出し、算出した認識結果候補の仮説のスコアを参照することにより前記仮説を探索する仮説探索部と、前記仮説探索部によってある時刻に探索された複数の仮説から、前記時刻までに累積されたスコアの分布に基づいて、該スコア上位の仮説を前記認識結果候補として決定する認識結果候補決定部と、を備える。
また、本発明に係る音声認識方法は、時刻順にフレーム単位で入力される音声特徴量を基に認識結果候補の仮説のスコアを算出し、算出した認識結果候補の仮説のスコアを参照することにより前記仮説を探索し、ある時刻に探索された複数の仮説から、前記時刻までに累積されたスコアの分布に基づいて、該スコア上位の仮説を前記認識結果候補として決定する。
さらに、本発明に係るコンピュータプログラムは、コンピュータを含む音声認識装置において、時刻順にフレーム単位で入力される音声特徴量を基に認識結果候補の仮説のスコアを算出し、算出した認識結果候補の仮説のスコアを参照することにより前記仮説を探索する仮説探索ステップと、ある時刻に探索された複数の仮説から、前記時刻までに累積されたスコアの分布に基づいて、該スコア上位の仮説を前記認識結果候補として決定する認識結果候補決定ステップと、を前記コンピュータに実行させる。
尚、係る同目的は、当該コンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体によっても達成されうる。
本発明の音声認識装置によれば、適切な数の認識結果候補を発声途中に決定することができる。
本発明の第1の実施の形態にかかる音声認識装置1を実現可能な情報処理装置(コンピュータ)のハードウェア構成例を示すブロック図である。 本発明の第1の実施の形態にかかる音声認識装置1の構成例を示すブロック図である。 本発明の第1の実施の形態にかかる音声認識装置1の動作を示すフローチャートである。 本発明の第1の実施の形態にかかる音声認識装置1の動作を示すシーケンス図である。 本発明の第2の実施の形態にかかる音声認識装置2の構成例を示すブロック図である。 本発明の第2の実施の形態にかかる音声認識装置2の動作を示すフローチャートである。 本発明の第3の実施の形態にかかる音声認識装置3の構成例を示すブロック図である。 本発明の第3の実施の形態にかかる音声認識装置3の動作を示すフローチャートである。 本発明の第4の実施の形態にかかる音声認識装置4の構成例を示すブロック図である。 認識対象語彙記憶部118に記憶されている音素列の利用例を示す図である。 本発明の第5の実施の形態にかかる音声認識装置5の構成例を示すブロック図である。
はじめに、以下に説明する本発明の各実施形態は、一例として、日本語の文法表現を取り扱う。このため、当該各実施形態は、各国移行後の他国言語による審査の便宜に資すべく、「音素に基づく日本語のカタカナ表記(当該日本語のローマ字表記:当該日本語の他国言語表記)」なる記載形式を含む。
<第1の実施の形態>
本発明にかかる音声認識装置の第1の実施の形態について説明する。
図1は、本発明の第1の実施の形態にかかる音声認識装置1を実現可能な情報処理装置(コンピュータ)のハードウェア構成例を示すブロック図である。図1に示すように、音声認識装置1は、CPU10、メモリ12、HDD(ハードディスクドライブ)14、図示しない通信ネットワークを介してデータの通信を行う通信IF(インターフェース)16、ディスプレイ等の表示装置18、音声を入力して音声信号を出力するマイクロホン等の音声入力装置20およびキーボードやマウス等のポインティングデバイスを含む入力装置22を有する。入力装置22には、CD(コンパクトディスク)等のコンピュータ読み取り可能な記憶媒体に記憶された情報を読み取り可能なリーダーライター等も含まれる。これらの構成要素は、バス24を通して互いに接続されており、互いにデータの入出力を行う。本実施形態にかかる音声認識装置1は、CPU10が、メモリ12またはHDD14に記憶されているプログラム(コンピュータプログラム)を実行することにより実現される。図1に示す、音声認識装置1のハードウェア構成例は、後述する実施形態にも適用可能である。
図2は、本発明の第1の実施の形態にかかる音声認識装置1の構成例を示すブロック図である。図2に示すように、音声認識装置1は、音声入力部100、特徴量抽出部102、仮説探索部104、信頼度算出部106、認識結果候補決定部108および結果出力部110を備える。音声認識装置1の構成は、CPU10(図1)が、メモリ12またはHDD14に記憶されているプログラムをメモリ12等に読み出した後、CPU10にて実行することにより実現される。また、音声認識装置1の構成は、CPU10(図1)が、通信IF16あるいはリーダーライター等の入力装置22により、外部から取得したプログラムを実行することによって実現されてもよい。なお、音声認識装置1の全部又は一部の機能は、音声認識装置1に設けられたハードウェアにより実現されてもよい。
音声認識装置1において、音声入力部100は、音声入力装置20(図1)からユーザの発声を入力し、入力された音声を音声信号として特徴量抽出部102に対して出力する。音声入力部100は、音声始端を検出すると音声入力を開始する。
なお、音声入力部100は、例えば、入力装置22に設けられた「スタート」ボタンが押下される等、外部からの指示に基づいて音声始端を検出してもよい。音声入力部100は、表示装置18のボリュームインジケーターやディスプレイの表示によって、音声入力の開始をユーザにフィードバックしてもよい。また、音声入力部100は、音声入力の開始とともに、録音を開始してもよい。さらに、音声入力部100は、録音された音声データを入力してもよい。
特徴量抽出部102は、音声入力部100から出力された音声信号を一定区間(フレーム)単位でMFCC(Mel Frequency Cepstral Coefficient:メル周波数ケプストラム)やパワー等の音声特徴量に変換し、仮説探索部104に対して出力する。
仮説探索部104は、時刻順にフレーム単位で入力される音声特徴量を基に認識結果候補の仮説のスコアを算出し、算出した認識結果候補の仮説のスコアを参照することにより仮説を探索する。具体的には、仮説探索部104は、特徴量抽出部102から出力された音声特徴量を時刻順にフレーム単位で受け付け、音声特徴量から算出した認識結果候補の各仮説のスコアによって仮説を探索し、探索された仮説と算出されたスコアを認識結果候補決定部106に対して出力する。
例えば、仮説探索部104は、仮説の音響スコアを算出する。この場合、仮説探索部104は、tを時刻とすると、(t−1)フレームの時点までに累積された音響スコア(累積音響スコア)にtフレームにおける特徴量と音響モデルの尤度を足し合わせた値を音響スコアとして算出する。仮説探索部104は、音響スコアと言語スコアを足し合わせたものをスコアとして用いてもよい。
本実施形態では、仮説探索部104は、その仮説からたどり着ける単語の中において最良の言語スコアである言語モデル先読みスコアを、言語スコアとして用いる。例えば、ユーザが「オンセ(oNse)」と発声すると、仮説探索部104は/oNse/の/e/の段階における仮説を探索する。この場合、仮説探索部104は、例えば、「オンセイ(oNsei:音声)」、「オンセイニンシキ(oNseiniNsiki:音声認識)」、「オンセツ(oNsetsu:音節)」、「オンセン(oNseN:温泉)」などの単語の中において最高の言語スコアを言語モデル先読みスコアとする。
認識結果候補決定部106は、仮説探索部104によってある時刻に探索された複数の仮説から、累積されたスコアの分布に基づいて、スコア上位の仮説を認識結果候補として決定する。具体的には、認識結果候補決定部106は、仮説探索部104によりある時刻に探索された仮説の累積されたスコアを比較する。そして、認識結果候補決定部106は、スコアの差が予め決められたしきい値(第1のしきい値)を超えた場合に、スコア上位の仮説をスコアの高い順に認識結果候補として決定し、認識結果候補を結果出力部108に対して出力する。例えば、認識結果候補決定部106は、2つの仮説のスコアの差が第1のしきい値を超えた場合、2つのうちスコアの高い仮説を認識結果候補として決定する。
例えば、第1のしきい値は、仮説探索部104によって探索された複数の仮説のスコアの合計に所定の割合を乗じた値である。これにより、本実施形態によれば、候補数の最大値が有限に決まるため候補数が増えすぎない。具体的には、第1のしきい値が、仮説探索部104によってある時刻に探索された複数の仮説のスコアの合計の10%の値である場合、しきい値以上のスコアを持つ仮説の数は10以下となる。この場合、認識結果候補の最大値は、10である。第1のしきい値が、仮説探索部104によってある時刻に探索された複数の仮説のスコアの合計の20%の値である場合、しきい値以上のスコアを持つ仮説の数は5以下となる。この場合、認識結果候補の最大値は5である。
結果出力部108は、認識結果候補決定部106によって決定された認識結果候補を出力する。例えば、結果出力部110は、認識結果候補を表示装置18に表示する。
次に、音声認識装置1の動作を説明する。
図3は、第1の実施の形態にかかる音声認識装置1の動作を示すフローチャートである。図3に示すように、ステップ100(S100)において、音声入力部100は、音声始端を検出すると、音声入力を開始する。
ステップ102(S102)において、特徴量抽出部102は、音声入力部100によって入力された音声信号をフレーム単位でMFCCやパワー等の音声特徴量に変換する。
ステップ104(S104)において、仮説探索部104は、特徴量抽出部102によって変換された音声特徴量を時刻順にフレーム単位で受け付け、フレーム単位で各仮説のスコアを算出し、仮説を探索する。
ステップ106(S106)およびステップ108(S108)において、認識結果候補決定部106は、仮説探索部104によってある時刻に探索された複数の仮説から、スコアの分布に応じてスコア上位の仮説を認識結果候補として決定する。具体的には、ステップ106(S106)において、認識結果候補決定部106は、仮説探索部104によって探索された各仮説のスコアを比較し、2つの仮説の差が第1のしきい値を超えた場合にはステップ108(S108)の処理に進み、そうでない場合にはS102の処理に戻る。例えば、認識結果候補決定部106は、スコアの高い順に仮説を並べ、ある仮説のスコアと次の順位の仮説のスコアとの差が第1のしきい値を超えた場合にはS108の処理に進む。
ステップ108(S108)において、認識結果候補決定部106は、スコア上位の仮説を認識結果候補として決定する。具体的には、認識結果候補決定部106は、次の順位の仮説のスコアとの差が第1のしきい値を超える仮説までを認識結果候補として決定する。
図4は、第1の実施の形態にかかる音声認識装置1の動作を示すシーケンス図である。図4に示すように、ステップ200(S200)〜ステップ212(S210)において、音声入力部100が音声を入力し、特徴量抽出部102がフレーム単位で特徴量を抽出し、仮説探索部104が特徴量から仮説を探索し、認識結果候補決定部106が探索された仮説の中から認識結果候補を決定し、結果出力部108が認識結果候補を出力する。
一方、特許文献1に記載された技術では、図4に示すように、S200〜S204において、音声入力処理、特徴量抽出処理および仮説探索処理が実行される。さらに、ステップ214(S214)において発声が終了し、ステップ216(S216)において音声が終了した後、ステップ218(S218)において特徴量抽出処理が終了する。ステップ220(S220)では、仮説の探索がフレーム単位で繰り返され、仮説が最終フレームまで探索され、ステップ222(S222)において、認識結果候補が決定される。
したがって、本発明の第1の実施形態に係る音声認識装置1は、特許文献1に記載されている技術と比較して、図4に示された時間αだけ早く結果を出力することができる。以上説明したように、本実施の形態にかかる音声認識装置1によれば、適切な数の認識結果候補を発声途中に出力することができる。
本発明の第1の実施形態に係る音声認識装置1は、例えば、スコアの高い仮説が1つしかない場合には、最もスコアの高い仮説を認識結果候補として決定する。また、音声認識装置1は、スコアの高い仮説が複数ある場合には、複数のスコアの高い仮説を認識結果候補として決定する。このため、音声認識装置1は、状況に応じて適切な数の認識結果候補を出力することができる。
また、音声認識装置1は、設定されているしきい値に応じた数の認識結果候補を出力してもよい。このため、音声認識装置1によれば、ユーザの用途に容易に適応させることができる。例えば、しきい値が高く設定されている場合には、認識結果候補数が少なくなるので、本実施形態にかかる音声認識装置1によれば、ユーザが認識結果候補から適切な候補を選択する手間を省くことができる。
<第2の実施の形態>
次に、本発明にかかる音声認識装置の第2の実施の形態について説明する。
図5は、本発明の第2の実施の形態にかかる音声認識装置2の構成例を示すブロック図である。図5に示すように、本発明の第2の実施の形態にかかる音声認識装置2は、信頼度算出部110を備え、認識結果候補決定部106が認識結果候補決定部112に置き換えられた構成を有する点を備える点が、第1の実施形態とは異なっている。
信頼度算出部110は、仮説探索部104により探索された仮説の信頼度を算出する。具体的には、信頼度算出部106は、仮説探索部104によって探索された各仮説のスコアを正規化したものを信頼度として算出し、認識結果候補決定部112に対して出力する。
認識結果候補決定部112は、第1の実施の形態の動作に加え、信頼度算出部110により算出された仮説の信頼度によって、適切な数の認識結果候補を決定する。具体的には、認識結果候補決定部112は、信頼度算出部110により算出されたスコア上位の仮説の信頼度を合計し、信頼度の合計が予め決められたしきい値(第2のしきい値)を超えた場合、認識結果候補を決定し、認識結果候補を結果出力部110に対して出力する。
認識結果候補決定部112は、信頼度算出部110により算出されたスコア上位の仮説の信頼度の合計のみによって、認識結果候補を決定してもよい。
次に、音声認識装置2の動作を説明する。
図6は、本発明の第2の実施の形態にかかる音声認識装置2の動作を示すフローチャートである。なお、図6に示された各処理のうち、図3に示された処理と実質的に同一のものには同一の符号が付されている(重複する説明は省略する)。図6に示すように、S100〜S106において、音声入力部100が音声を入力し、特徴量抽出部102がフレーム単位で特徴量を抽出し、仮説探索部104が特徴量から仮説を探索し、認識結果候補決定部112がスコアを比較する。
ステップ110(S110)において、信頼度算出部110は、仮説探索部104によって探索された仮説のスコアに基づいて信頼度を算出する。
ステップ112(S112)において、認識結果候補決定部112は、信頼度算出部110によって算出された各仮説の中において、上位スコアの仮説の信頼度の合計が、第2のしきい値を超えた場合にはS108の処理に進み、そうでない場合にはS102の処理に戻る。具体的には、認識結果候補決定部112は、スコアの高い順に仮説を並べ、上位スコアの仮説から信頼度を合計し、第2のしきい値を信頼度の合計が超えた場合にはS108の処理に進む。
<第3の実施の形態>
次に、本発明にかかる音声認識装置の第3の実施の形態について説明する。
図7は、本発明の第3の実施形態にかかる音声認識装置3の構成例を示すブロック図である。図7に示すように、本発明の第3の実施の形態にかかる音声認識装置3は、認識結果候補決定部112が認識結果候補決定部114に置き換えられた構成を有する点が、第2の実施の形態にかかる音声認識装置2と異なる。
第3の実施の形態において、認識結果候補決定部114は、仮説探索部104によって探索された2つの仮説のスコアの差が予め決められたしきい値(第3のしきい値)を超えた状態が所定の時間経過した場合に認識結果候補を決定する。
次に、音声認識装置3の動作を説明する。
図8は、本発明の第3の実施の形態にかかる音声認識装置3の動作を示すフローチャートである。なお、図8に示された各処理のうち、図6に示された処理と実質的に同一のものには同一の符号が付されている(重複する説明は省略する)。図8に示すように、S100〜S112において、音声入力部100が音声を入力し、特徴量抽出部102がフレーム単位で特徴量を抽出し、仮説探索部104が特徴量に基づいて仮説を探索し、信頼度算出部110が各仮説の信頼度を算出し、認識結果候補決定部112がスコアを比較し、認識結果候補部112が上位スコアの仮説の信頼度の合計を計算する。
ステップ114(S114)において、認識結果候補決定部114は、2つの仮説のスコアの差が第3のしきい値を超えた状態が所定の時間経過した場合にはS108の処理に進み、そうでない場合にはS102の処理に戻る。
<第3の実施の形態の変形例>
次に、本発明にかかる音声認識装置の第3の実施の形態の変形例について説明する。第3の実施の形態において、認識結果候補決定部114は、仮説探索部104で探索された2つの仮説のスコアの差が第3のしきい値を超えた状態が所定の時間経過した場合に認識結果候補を決定する。これに対して、本変形例において、認識結果候補決定部114は、上位スコアの仮説の信頼度算出部110で算出された信頼度の合計が予め決められたしきい値(第4のしきい値)を超えた状態が所定の時間経過した場合に認識結果候補を決定する。
また、認識結果候補決定部114は、仮説探索部104によって探索された2つの仮説のスコアの差と、上位スコアの仮説の信頼度算出部110によって算出された信頼度の合計の2つの基準を満たした状態が所定の時間経過した場合に認識結果候補を決定してもよい。
<第4の実施の形態>
次に、本発明にかかる音声認識装置の第4の実施の形態について説明する。
図9は、本発明の第4の実施の形態にかかる音声認識装置4の構成例を示すブロック図である。図9に示すように、本発明の第3の実施の形態にかかる音声認識装置4は、認識対象語彙記憶部118および音響モデル記憶部120をさらに有する点が、第2の実施の形態にかかる音声認識装置2とは異なる。認識対象語彙記憶部118および音響モデル記憶部120は、例えば、メモリ12、HDD14等の記憶装置により実現される。
認識対象語彙記憶部118には、「オンセイ(oNsei:音声)」、「オンセイニンシキ(oNseiniNsiki:音声認識)」、「オンセイゴウセイ(oNseigousei:音声合成)」、「オンセツ(oNsetsu:音節)」、「オンセン(oNseN:温泉)」等の音素列が記憶されている。認識対象語彙記憶部118に記憶される音素列は、仮説探索部104によって同じ先頭音素を持つ単語の先頭音素部分がマージされるようにして用いられる。
図10は、認識対象語彙記憶部118に記憶されている音素列の利用例を示す図である。図10に示すように、例えば、「オンセイ(oNsei:音声)」、「オンセイニンシキ(oNseiniNsiki:音声認識)」、「オンセイゴウセイ(oNseigousei:音声合成)」、「オンセツ(oNsetsu:音節)」、「オンセン(oNsen:温泉)」等の音素列がマージされて用いられる。
音響モデル記憶部120は、読みに対応する音響パタンをモデル化した音響モデルを記憶する。例えば、音響モデルとして、HMM(Hidden Markov Model:隠れマルコフモデル)などが用いられる。
仮説探索部116は、認識対象語彙記憶部116と音響モデル記憶部118から木構造辞書と音響モデルを読み込み、時刻順にフレーム単位で入力される音声特徴量から算出した認識結果候補の仮説のスコアにより仮説を探索する。具体的には、仮説探索部104は、特徴量抽出部102から出力された音声特徴量を時刻順にフレーム単位で受け付け、木構造辞書の先頭音素から順に仮説を展開し、スコアを算出する。
また、仮説探索部116は、言語スコアを使用してもよい。この場合、仮説探索部104は、ビームサーチによる枝刈りを行ってもよい。ビームサーチは、各時刻における音響スコアおよび言語スコアを総合的に判断して、スコアの良くない仮説は見込みがないものとして枝刈り、つまり以降の仮説展開を行わないようにする。仮説探索部104は、ある時刻におけるスコアによって、スコアのよくない仮説について仮説展開を終了してもよい。仮説探索部116は、探索された仮説とスコアを信頼度算出部106に対して出力する。
<第5の実施の形態>
次に、本発明にかかる音声認識装置の第5の実施の形態について説明する。
図11は、本発明の第5の実施の形態にかかる音声認識装置5の構成例を示すブロック図である。本発明の第5の実施の形態にかかる音声認識装置5は、上述した各実施の形態に共通する構成である。
仮説探索部104は、時刻順にフレーム単位で入力される音声特徴量を基に認識結果候補の仮説のスコアを算出し、算出した認識結果候補の仮説のスコアを参照することにより前記仮説を探索する。
認識結果候補決定部106は、前記仮説探索部によってある時刻に探索された複数の仮説から、前記時刻までに累積されたスコアの分布に基づいて、該スコア上位の仮説を前記認識結果候補として決定する。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2012年2月21日に出願された日本出願特願2012−035402を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、アプリケーションランチャーや人名入力等に用いられる孤立単語音声認識システム等に用いることができる。
1、2、3、4、5 音声認識装置
10 CPU
12 メモリ
14 HDD
16 通信IF
18 表示装置
20 音声入力装置
22 入力装置
24 バス
100 音声入力部
102 特徴量抽出部
104 仮説探索部
106、112、114 認識結果候補決定部
108 結果出力部
110 信頼度算出部
116 仮説探索部
118 認識対象語彙記憶部
120 音響モデル記憶部

Claims (8)

  1. 時刻順にフレーム単位で入力される音声特徴量を基に認識結果候補の仮説のスコアを算出し、算出した認識結果候補の仮説のスコアを参照することにより前記仮説を探索する仮説探索部と、
    前記仮説探索部によってある時刻に探索された複数の仮説から、前記時刻までに累積されたスコアの分布に基づいて、該スコア上位の仮説を前記認識結果候補として決定する認識結果候補決定部と、
    を備える音声認識装置。
  2. 前記認識結果候補決定部は、前記仮説探索部により探索されたある仮説のスコアと、次の順位の仮説のスコアとの差が第1のしきい値を超えた場合、前記スコア上位の仮説をスコアの高い順に認識結果候補として決定する請求項1に記載の音声認識装置。
  3. 仮説の信頼度を算出する信頼度算出部を更に備え、
    前記認識結果候補決定部は、前記信頼度算出部により算出されたスコア上位の仮説の信頼度の合計が第2のしきい値を超えた場合、前記スコア上位の仮説を認識結果候補として決定する請求項1または2に記載の音声認識装置。
  4. 前記認識結果候補決定部は、ある仮説のスコアと、次の順位の仮説のスコアとの差が第3のしきい値を超えた状態が所定の時間経過した場合、前記認識結果候補を決定する請求項2または3に記載の音声認識装置。
  5. 前記認識結果候補決定部は、前記スコア上位の仮説の信頼度の合計が第4のしきい値を超える状態が所定の時間経過した場合、前記スコア上位の仮説を認識結果候補として決定する請求項3に記載の音声認識装置。
  6. 前記しきい値は、前記仮説探索部によって探索された複数の仮説のスコアの合計に所定の割合を乗じた値であることを特徴とする請求項2乃至5のいずれかに記載の音声認識装置。
  7. 時刻順にフレーム単位で入力される音声特徴量を基に認識結果候補の仮説のスコアを算出し、算出した認識結果候補の仮説のスコアを参照することにより前記仮説を探索し、
    ある時刻に探索された複数の仮説から、前記時刻までに累積されたスコアの分布に基づいて、該スコア上位の仮説を前記認識結果候補として決定する
    音声認識方法。
  8. コンピュータを含む音声認識装置において、
    時刻順にフレーム単位で入力される音声特徴量を基に認識結果候補の仮説のスコアを算出し、算出した認識結果候補の仮説のスコアを参照することにより前記仮説を探索する仮説探索ステップと、
    ある時刻に探索された複数の仮説から、前記時刻までに累積されたスコアの分布に基づいて、該スコア上位の仮説を前記認識結果候補として決定する認識結果候補決定ステップと、
    を前記コンピュータに実行させるプログラム。
JP2014500915A 2012-02-21 2013-02-18 音声認識装置、音声認識方法およびコンピュータプログラム Pending JPWO2013125203A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014500915A JPWO2013125203A1 (ja) 2012-02-21 2013-02-18 音声認識装置、音声認識方法およびコンピュータプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012035402 2012-02-21
JP2012035402 2012-02-21
JP2014500915A JPWO2013125203A1 (ja) 2012-02-21 2013-02-18 音声認識装置、音声認識方法およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JPWO2013125203A1 true JPWO2013125203A1 (ja) 2015-07-30

Family

ID=49005400

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014500915A Pending JPWO2013125203A1 (ja) 2012-02-21 2013-02-18 音声認識装置、音声認識方法およびコンピュータプログラム

Country Status (2)

Country Link
JP (1) JPWO2013125203A1 (ja)
WO (1) WO2013125203A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637519B (zh) * 2018-11-13 2020-01-21 百度在线网络技术(北京)有限公司 语音交互实现方法、装置、计算机设备及存储介质
JP6818082B2 (ja) * 2019-05-17 2021-01-20 日本放送協会 音声認識装置、認識結果出力制御装置、およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2864775B2 (ja) * 1991-03-28 1999-03-08 日本電気株式会社 音声認識装置
JPH0782357B2 (ja) * 1993-03-29 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 適応的探索方法
ITTO980383A1 (it) * 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
EP1024476A1 (en) * 1998-08-17 2000-08-02 Sony Corporation Speech recognizing device and method, navigation device, portable telephone, and information processor
JP3818154B2 (ja) * 2002-01-11 2006-09-06 日本電気株式会社 音声認識方法
JP2003208195A (ja) * 2002-01-16 2003-07-25 Sharp Corp 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
JP2004012615A (ja) * 2002-06-04 2004-01-15 Sharp Corp 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
JP4796460B2 (ja) * 2006-09-05 2011-10-19 日本放送協会 音声認識装置及び音声認識プログラム
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
WO2011083528A1 (ja) * 2010-01-06 2011-07-14 日本電気株式会社 データ処理装置、そのコンピュータプログラムおよびデータ処理方法

Also Published As

Publication number Publication date
WO2013125203A1 (ja) 2013-08-29

Similar Documents

Publication Publication Date Title
US7249017B2 (en) Speech recognition with score calculation
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
US9978364B2 (en) Pronunciation accuracy in speech recognition
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
US7921014B2 (en) System and method for supporting text-to-speech
US20070038453A1 (en) Speech recognition system
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
JP3961780B2 (ja) 言語モデル学習装置およびそれを用いた音声認識装置
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP5590549B2 (ja) 音声検索装置および音声検索方法
WO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2012255867A (ja) 音声認識装置
JP3440840B2 (ja) 音声認識方法及びその装置
Arısoy et al. Discriminative n-gram language modeling for Turkish