JPWO2009147927A1 - 音声認識装置、音声認識方法および電子機器 - Google Patents

音声認識装置、音声認識方法および電子機器 Download PDF

Info

Publication number
JPWO2009147927A1
JPWO2009147927A1 JP2010515817A JP2010515817A JPWO2009147927A1 JP WO2009147927 A1 JPWO2009147927 A1 JP WO2009147927A1 JP 2010515817 A JP2010515817 A JP 2010515817A JP 2010515817 A JP2010515817 A JP 2010515817A JP WO2009147927 A1 JPWO2009147927 A1 JP WO2009147927A1
Authority
JP
Japan
Prior art keywords
speech recognition
candidate
speech
likelihood
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010515817A
Other languages
English (en)
Other versions
JP5467043B2 (ja
Inventor
満次 吉田
満次 吉田
一峰 兵藤
一峰 兵藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RayTron Inc
Original Assignee
RayTron Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RayTron Inc filed Critical RayTron Inc
Priority to JP2010515817A priority Critical patent/JP5467043B2/ja
Publication of JPWO2009147927A1 publication Critical patent/JPWO2009147927A1/ja
Application granted granted Critical
Publication of JP5467043B2 publication Critical patent/JP5467043B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Navigation (AREA)

Abstract

音声特徴量算出回路31によって、入力された音声のフレーズごとの音声特徴量を算出し、推定処理尤度算出回路33によって、算出されたフレーズごとの音声特徴量と記憶装置34に記憶されている複数のフレーズの音声パターン系列情報とを比較してフレーズごとの尤度値の高い候補から順次尤度値の低い候補を複数算出し、認識フィルタリング装置4は、第1候補の尤度値と、第2候補の尤度値との差と、第2候補の尤度値と、第3候補の尤度値との差との尤度差比に基づいて、抽出された候補を棄却するか否かを判定する。

Description

この発明は、音声認識装置、音声認識方法および電子機器に関するものであって、特に、入力された音声を登録されたフレーズ単位で認識し、認識した候補のうち、尤度値の低い候補を棄却する音声認識装置、音声認識方法およびこのような音声認識装置を備える電子機器に関するものである。
音声認識装置には、入力された音声を登録されているフレーズごとに認識するものが知られている。そのような一例として、特開2003−50595号公報(特許文献1)に開示されている音声認識装置がある。この音声認識装置は、入力された音声を所定時間間隔のフレームごとに区分し、各フレームのパワー成分を求め、パワー成分の値から音声区間を検出する。各音声区間の音声特徴量と予め用意されている音声パターン系列情報である隠れマルコフモデル(Hidden Markov Model)に基づいて、フレーズ辞書に含まれているフレーズのうちで最も尤度値の高い第1候補フレーズが抽出される。この例では、抽出した第1候補フレーズについての尤度信頼率を求めて、この尤度信頼率がしきい値以下であれば、第1候補フレーズを破棄するようにしている。
また、従来から、電子機器の中には、入力された音声を認識することができる音声認識機能を具備するものがある。このような電子機器は、例えば、WO2006/093003号公報(特許文献2)に開示されている。
特許文献2によると、電子機器は、ハードディスク/DVDレコーダであって、入力された音声から、例えば、録画対象となる番組名を認識する。具体的には、番組名のキーワードに対応する音声の特徴量パターン、例えば、隠れマルコフモデルによって示される特徴量パターンを予め登録しておくことにより、キーワードを含む音声が入力された際には、入力された音声の特徴量パターンを抽出し、抽出した特徴量パターンと登録された特徴量パターンとの類似度を算出して、類似度が最も高い番組名を録画対象として特定することとしている。
特開2003−50595号公報 WO2006/093003号公報
一般的に、音声認識装置を実際に使用する場合は、登録しているフレーズ(以下、登録内フレーズと称する。)以外に、未登録のフレーズ(以下、登録外フレーズと称する。)が入力されたり、使用環境での雑音も音声と一緒に入力されたりするため、誤認識されやすいという問題がある。例えば、フレーズの「スタート」が登録されており、「ストップ」が登録されていないものと仮定すると、発話者が「スタート」を発話したときに、それを「スタート」と認識されれば「スタート」は登録内フレーズであるため、その認識は正しい。
しかし、発話者が「ストップ」と発話したにもかかわらず、「スタート」と認識された場合は、「ストップ」は登録外フレーズであるため、誤認識したことになる。このような誤認識を避けるために、登録外フレーズが発話されたにもかかわらず、登録内フレーズが認識候補として挙げられたときには、その認識候補を棄却する必要がある。登録外フレーズ以外にもSN比の悪い環境下においては、雑音が入力されて、登録内フレーズと誤認識することもあり、そのような候補も棄却する必要がある。
特許文献1に開示の音声認識装置は、尤度値と予め設定された棄却判定のためのしきい値として1つの値を用いているに過ぎない。このため、雑音レベルの高い使用環境によっては、雑音を音声認識候補として抽出される場合があり、その候補を棄却する必要があるが、しきい値が1つの場合は、その雑音による音声認識候補を棄却できず、認識率が低下する場合がある。
特に、登録されているフレーズが少ない場合には、登録外のフレーズをできるだけ早期の段階処理で棄却することが望まれている。
また、特許文献2に開示の電子機器では、類似度が最も高い番組名を録画対象として特定しているのみであるため、例えば、雑音レベルの高い環境で使用すると、雑音が入力されたにもかかわらず、雑音の特徴量パターンと類似度が最も高い番組名を録画対象として特定する虞がある。
そこで、この発明の目的は、実際の使用環境を考慮した雑音条件下において、認識率を向上できる音声認識装置を提供することである。
また、この発明の他の目的は、実際の使用環境を考慮した雑音条件下において、認識率を向上できる音声認識方法を提供することである。
また、この発明のさらに他の目的は、認識率を向上させると共に、音声に基づいて、確実に所定の動作を行うことができる電子機器を提供することである。
この発明は、雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置であって、発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して尤度値を算出する尤度値算出手段と、尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に複数の音声認識候補を選び出す候補抽出手段と、候補抽出手段によって選び出された複数の音声認識候補のそれぞれの尤度値の分布に基づいて、選び出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備える。
この発明によれば、選び出された複数の音声認識候補のそれぞれの尤度値の分布に基づいて、棄却するか否かを定めることができ、棄却率を高めて認識率を向上できる。
この発明の他の局面は、雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置に関する。音声認識装置は、発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して尤度値を算出する尤度値算出手段と、尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に第1音声認識候補、第1音声認識候補より下位の第2音声認識候補、第2音声認識候補よりも下位の第3音声認識候補を選び出す候補抽出手段と、候補抽出手段によって抽出された第1音声認識候補と第2音声認識候補の尤度値の差と、第2音声認識候補と第3音声認識候補の尤度値の差との、尤度差比に基づいて、抽出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備える。
この発明の他の局面によれば、尤度差比に基づいて音声認識候補を認識の対象から棄却するか否かを判定することにより、登録されていないフレーズの音声認識候補や、入力された雑音による候補などの棄却率を高めることができるので、認識率を向上できる。
より好ましくは、認識フィルタリング手段は、尤度差比が、所定の値よりも小さければ、第1音声認識候補を棄却し、所定の値よりも大きければ、第1音声認識候補を音声認識の対象とする。
これにより、選ばれた第1音声認識候補を音声認識の対象として採用すべきか、棄却すべきかを判定できる。
好ましくは、フレーズ記憶手段は、音声の特徴別のグループの音声パターン系列情報を記憶しており、認識フィルタリング手段は、音声の特徴別のグループの尤度差比に基づいて、抽出された各音声認識候補を棄却するか否かを判定する第1の判定手段を含む。
男性、女性および子供など音声の特徴別にグルーピングし、それぞれのグループ内での尤度差比に基づいて、抽出された音声認識候補を棄却するか否かを判定することにより、認識フィルタリング手段による棄却率がさらに向上する。
好ましくは、認識フィルタリング手段は、第1音声認識候補の尤度値と、第2音声認識候補の尤度値との差に基づいて、抽出された音声認識候補を棄却するか否かを判定する。尤度値算出手段は、第3音声認識候補よりも下位の第4音声認識候補を抽出し、認識フィルタリング手段は、第1音声認識候補の尤度値と、第4音声認識候補の尤度値との差に基づいて、抽出された音声認識候補を棄却するか否かを判定し、第1音声認識候補の尤度値に基づいて、抽出された音声認識候補を棄却するか否かを判定する。
このようにして選ばれた音声認識候補を棄却するか否かを判定することにより、登録外フレーズや入力された雑音による候補の棄却率が高められる。
好ましくは、候補抽出手段は、第1音声認識候補よりも下位の音声認識候補に第1音声認識候補の音声パターン系列情報に近似する音声認識候補が存在する場合には、その音声認識候補を除外し、その音声認識候補よりも下位の音声認識候補を抽出する。
候補抽出手段が第1音声認識候補に近似する候補を除外することにより、より認識率を高めることができる。
この発明のさらに他の局面は、雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識方法に関する。この方法は、発話された音声のフレーズごとの音声特徴量を算出するステップと、算出されたフレーズごとの音声特徴量と、予め記憶されている複数のフレーズの音声パターン系列情報とを比較して音声認識の対象とする複数の音声認識候補の尤度値を算出するステップと、フレーズごとに算出された尤度値に基づいて、尤度値の高い順に第1音声認識候補、第1音声認識候補より下位の第2音声認識候補、第2音声認識候補よりも下位の第3音声認識候補を選び出すステップと、選び出された第1音声認識候補と、第2音声認識候補の尤度値の差と、第2音声認識候補と、第3音声認識候補の尤度値の差との尤度差比を比較するステップと、尤度差比が所定の値よりも小さければ、第1音声認識候補を棄却し、所定の値よりも大きければ、第1音声認識候補を音声認識の対象とするステップとを備える。
この発明のさらに他の局面の音声認識方法は、登録されていないフレーズの音声認識候補や、入力された雑音による候補などの棄却率を高めることができるので、認識率を向上できる。
この発明のさらに他の局面の電子機器は、雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置を備える電子機器である。音声認識装置は、発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して尤度値を算出する尤度値算出手段と、尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に複数の音声認識候補を選び出す候補抽出手段と、候補抽出手段によって選び出された複数の音声認識候補のそれぞれの尤度値の分布に基づいて、選び出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備える。電子機器は、音声認識装置によって認識された音声に基づいて、電子機器に対して所定の動作を行うよう制御する制御手段を備える。
このように、電子機器は、音声認識装置を備える。この音声認識装置は、尤度値の高い順に複数の音声認識候補を選び出し、選び出した複数の音声認識候補のそれぞれの尤度値の分布に基づいて、棄却するか否かを判定することができるため、認識率を向上させることができる。その結果、電子機器は、音声に基づいて、確実に所定の動作を行うことができる。
好ましくは、尤度値算出手段は、複数の音声認識候補の尤度値を算出し、候補抽出手段は、尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に第1音声認識候補、第1音声認識候補より下位の第2音声認識候補、第2音声認識候補よりも下位の第3音声認識候補を選び出し、認識フィルタリング手段は、候補抽出手段によって抽出された第1音声認識候補と第2音声認識候補の尤度値の差と、第2音声認識候補と第3音声認識候補の尤度値の差との、尤度差比に基づいて、抽出された音声認識候補を棄却するか否かを判定する。
このように、音声認識装置は、尤度差比に基づいて音声認識候補を認識の対象から棄却するか否かを判定することにより、登録されていないフレーズの音声認識候補や、入力された雑音による候補などの棄却率を高めることができ、認識率を向上させることができる。その結果、電子機器は、音声に基づいて、確実に所定の動作を行うことができる。
一実施形態として、音声認識装置によって認識された音声は、所定の番号と関連付けられており、所定の番号は、電子機器の具備する動作内容ごとに定められている。
他の実施形態として、動作内容は、2値によって定められている。
さらに他の実施形態として、動作内容は、多値によって定められている。
この発明に係る音声認識装置は、選び出された複数の音声認識候補のそれぞれの尤度値の分布に基づいて、棄却するか否かを定めることができ、棄却率を高めて認識率を向上できる。
また、この発明に係る音声認識方法は、登録されていないフレーズの音声認識候補や、入力された雑音による候補などの棄却率を高めることができるので、認識率を向上できる。
また、この発明に係る電子機器は、音声認識装置を備える。この音声認識装置は、尤度値の高い順に複数の音声認識候補を選び出し、選び出した複数の音声認識候補のそれぞれの尤度値の分布に基づいて、棄却するか否かを定めることができるため、認識率を向上させることができる。その結果、電子機器は、音声に基づいて、確実に所定の動作を行うことができる。
この発明の一実施形態に係る電子機器の構成を示すブロック図である。 図1に示す音声認識装置の構成を示すブロック図である。 SN比が20dB以上の雑音環境下で、登録内フレーズとして「こんにちは」を発話したときの尤度値分布を示す図である。 SN比が20dB以上の雑音環境下で、登録外フレーズとして「こんばんは」を発話したときの尤度値分布を示す図である。 図2に示した認識フィルタリング装置の動作を説明するためのフローチャートである。 図5に示す登録内フレーズ棄却動作を説明するためのフローチャートである。 図5に示す登録外フレーズ棄却動作を説明するためのフローチャートである。 図5に示すグルーピング評価動作を説明するためのフローチャートである。 この発明の一実施形態における音声認識装置の認識フィルタリング装置によって、5人の話者が登録内フレーズ「7(ナナ)」および登録外フレーズ「3(サン)」を発話したときに判定情報αで判定したときの判定結果の分布を示す図である。 同じく、5人の話者が登録内フレーズ「7(ナナ)」および登録外フレーズ「3(サン)」を発話したときに判定情報βで判定したときの判定結果の分布を示す図である。 5人の話者が登録内フレーズ「7(ナナ)」および登録外フレーズ「3(サン)」を発話したときに判定情報Δで判定したときの判定結果の分布を示す図である。 同じく、5人の話者が登録内フレーズ「7(ナナ)」および登録外フレーズ「3(サン)」を発話したときに判定情報γで判定したときの判定結果の分布を示す図である。 この発明の一実施形態における音声認識装置の認識フィルタリング装置によって、5人の話者が登録内フレーズ「スタート」および登録外フレーズ「ストップ」を発話したときに判定情報αで判定したときの判定結果の分布を示す図である。 同じく、5人の話者が登録内フレーズ「スタート」および登録外フレーズ「ストップ」を発話したときに判定情報βで判定したときの判定結果の分布を示す図である。 同じく、5人の話者が登録内フレーズ「スタート」および登録外フレーズ「ストップ」を発話したときに判定情報Δで判定したときの判定結果の分布を示す図である。 同じく、5人の話者が登録内フレーズ「スタート」および登録外フレーズ「ストップ」を発話したときに判定情報γで判定したときの判定結果の分布を示す図である。 この発明の一実施形態における音声認識装置の認識フィルタリング装置によって、言葉以外の音声を13種類の雑音として入力したときの判定結果の分布を示す図である。 同じく、言葉以外の音声を13種類の雑音として入力したときに判定情報αで判定したときの判定結果の分布を示す図である。 同じく、言葉以外の音声を13種類の雑音として入力したときに判定情報βで判定したときの判定結果の分布を示す図である。 同じく、言葉以外の音声を13種類の雑音として入力したときに判定情報Δで判定したときの判定結果の分布を示す図である。 同じく、言葉以外の音声を13種類の雑音として入力したときに判定情報γで判定したときの判定結果の分布を示す図である。 しきい値である判定情報α,β,Δ,γをフレーズごとに設定する場合について示すフローチャートである。 図1に示す電子機器を照明機器に適用した場合を示すブロック図である。 照明機器を点灯する場合における照明機器の動作を示すフローチャートである。 照明機器の光を調光する場合における照明機器の動作を示すフローチャートである。 電子機器をリモコン装置に適用した場合を示す図である。 テレビのチャンネルを変更する場合におけるリモコン装置およびテレビの動作を示すフローチャートである。
以下、この発明の実施の形態を図面を参照して説明する。図1は、この発明の一実施形態に係る電子機器10の構成を示すブロック図である。図1を参照して、電子機器10は、発話された音声の入力を受け付けるマイクロフォン9と、発話された音声を認識する音声認識装置1と、電子機器10の本体であって、電子機器10の具備する機能を発揮する本体部10aとを備える。音声認識装置1は、本体部10aの外部に取り付けられている。
図2は、図1に示すこの発明の一実施形態に係る音声認識装置1の構成を示すブロック図である。図2を参照して、音声認識装置1の構成について詳細に説明する。
図2において、音声認識装置1は、発話された音声を登録されているフレーズごとに認識する音声認識装置1であって、音声区間検出装置2と、ロバスト音声認識装置3と、認識フィルタリング手段および第1ないし第4の判定手段として作動する認識フィルタリング装置4とを含む。音声区間検出装置2は入力された音声信号が与えられる音声パワー算出回路21と、音声区間検出回路22とを含む。音声パワー算出回路21は、入力された音声信号のパワー成分を算出する。音声区間検出回路22は、音声パワー算出回路21で算出されたパワー成分に基づいて、音声区間を検出する。
ロバスト音声認識装置3は、音声以外の雑音を除去することにより、雑音環境下でも高い精度で音声を認識するものであり、音声特徴量算出手段として作動する音声特徴量算出回路31と、雑音ロバスト処理回路32と、尤度値算出手段および候補抽出手段として作動する推定処理尤度算出回路33と、フレーズ記憶手段として作動する記憶装置34とを含む。
音声特徴量算出回路31は、検出した音声区間の音声特徴量を算出する。雑音ロバスト処理回路32は、音声特徴量算出回路31によって算出された音声特徴量に含まれている音声以外の雑音成分を除去する。記憶装置34は、異なる複数のフレーズを示すと共に、音声パターン系列情報であるHMM音声モデルのデータ35を記憶している。ここでは、データ35は、音声の特徴別のグループのHMM音声モデルとして、男性登録フレーズデータ36と、女性登録フレーズデータ37と、子供登録フレーズデータ38とを含む。男性、女性、子供によって音声の特徴が異なっているので、グループごとにフレーズのHMM音声モデルを記憶しておくことにより、尤度値の高い候補を算出して認識率を高めることができる。
なお、グループ分けは、男性,女性,子供に限ることなく、男性の声の高いグループと低い声のグループなどにグループ分けしてもよい。また、グループ分けすることなく、男性、女性、子供のいずれか1つのグループのみで棄却するようにしてもよい。
推定処理尤度算出回路33は、雑音ロバスト処理回路32によって雑音成分が除去された音声特徴量と、記憶装置34に記憶されているHMM音声モデルのデータ35とを順次比較して、各フレーズに対する対数尤度値(以下、尤度値と略称する。)を算出するための処理を行う。そして、尤度値が大きい方から順に、複数の音声認識候補(以下、候補と略称する。)を選出する。尤度値が最大となるフレーズを第1候補、その次に大きいフレーズを第2候補などと言及する。
認識フィルタリング装置4は、推定処理尤度算出回路33によって選び出された複数の候補の尤度値の分布に基づいて、選び出された各候補を棄却するか否かを判定する。
図3および図4は、この発明の原理を説明するための図であり、縦軸は推定処理尤度算出回路33で算出された尤度値を示し、横軸は認識されたフレーズの尤度値の高い第1候補から尤度値の低い第8候補の順位を示している。
SN比が20dB以上の雑音環境下において、5人の話者1〜話者5が、登録内フレーズの、例えば「こんにちは」を発話したときに、推定処理尤度算出回路33が算出した登録内フレーズの尤度値分布を示すと、図3になる。この例では、第1候補の「こんにちは」の尤度値が最も高くなっている。しかし、推定処理尤度算出回路33では、第1候補以外の、例えば、第2候補の「こんばんは」、第3候補の「おはよう」、第4候補の「ただいま」、第5候補の「おやすみ」、第6候補の「さよなら」、第7候補の「ばいばい」、第8候補の「むかつく」の尤度値も算出する。しかし、図3に示すように、第1候補の尤度値は、他の候補に比較して飛び抜けて高くなっている。
これに対して、同じ環境下で、5人の話者8〜話者12が登録外フレーズを発話したときに、推定処理尤度算出回路33が算出した登録内フレーズの第1候補〜第8候補の尤度値分布を示すと図4に示すようになる。
図3および図4の対比から明らかなように、棄却を第1候補の尤度値で認識判断する場合、登録内フレーズを発話したときの第1候補の尤度値と、登録外フレーズを発話したときの第1候補の尤度値にあまり差がない場合があるので、第1候補の尤度値での棄却判断は難しい。
本願発明者は、図3および図4に示した尤度値分布を詳細に検討した結果、下記のことを見出した。
(A)登録内フレーズを発話した場合、
(a)雑音環境20dB以上では、図3に示すように、第1候補の尤度値はある範囲に収束する。図示していないが、雑音環境10dB以下では、第1候補の尤度値がある範囲に収束しない場合がある。
(b)雑音環境10dB以下の場合でも、第1候補の尤度値と第2候補の尤度値の差と、第2候補の尤度値と第3候補以降の尤度値との差を比べた場合、前者のほうが大きい場合が多く見受けられる。
(B)登録外フレーズを発話した場合、
(a)図4に示した第1候補の尤度値は、図3に示した登録内フレーズを発話した場合と同じ値になる場合がある。
(b)第1候補の尤度値と第2候補以降の尤度値との差があまり大きくない。
(c)第1候補の尤度値が発話者により、一定化しない。
これらの結果を考慮して、抽出された第1候補を棄却すべきか採用すべきかについて、種々のフレーズデータを用いて実験した結果、次のような条件を考慮してしきい値を決定し、各候補を棄却すべきか、あるいは採用すべきかを判定すれば、認識率が向上することを見出した。
抽出された複数の候補からフレーズごとに尤度値の高い順に第1候補、第1候補よりも下位の複数の候補を選び出し、各候補の尤度値の分布に基づいて選び出した候補を棄却するか否かを決定する。尤度値の分布を求めることで、尤度値の分布に応じてしきい値を定めることができ、棄却率を高めて認識率を向上できる。
さらに、より具体的には、尤度値の分布の例として、下記に説明するように、複数の候補の尤度差比と、尤度値とを求め、しきい値α,β,Δ,γと比較する。しきい値α,β,Δ,γは、判定情報として、記憶装置34の男性登録フレーズデータ36と、女性登録フレーズデータ37と、子供登録フレーズデータ38のそれぞれに対応して予め設定されている。
(1)第1候補と、第2候補の尤度値の差と、第2候補と、下位の第M候補(例えば第6候補)の尤度値の差との比を求めると、尤度差比を算出できる。このように、第1候補と、第2候補の尤度値の差と、第2候補と、下位の第M候補の尤度値の差との尤度差比を求めて第1のしきい値αと判定する。そこで、第1式を演算し、しきい値αと比較する。
(第1候補の尤度値−第2候補の尤度値)/(第2候補の尤度値−第M候補の尤度値)≧α・・・・・・・・・・・・・・・・(第1式)
なお、第1式では、≧αで判別しているが、>αで判定してもよい。また、第M候補は第3候補以下のいずれかの候補であればよい。このように第1候補と第2候補の尤度値と、第2候補と第M候補の尤度値との尤度差比を算出することにより認識率を高めることができる。ただし、第1式の演算結果がしきい値αよりも≧であっても、図4に示す登録外フレーズのように第1候補の尤度値と、第2候補の尤度値との差があまり大きくなければ、第1候補とは判定できない。
(2)そこで、第2式の演算を行い、第2のしきい値であるβと比較する。
(第1候補の尤度値−第2候補の尤度値)>β・・・・・(第2式)
なお、第2式では、>βで判別しているが、≧βで判定してもよい。多くの場合、第1式および第2式の判定をするだけで、認識率の低い第1候補を棄却することができるので処理速度を早くできる。しかし、第1式および第2式を満足しても、図4に示す登録外フレーズのように第1候補と第3候補以下の候補との尤度値の差が少ない場合もあり得る。すなわち、第1候補を認識候補とするためには、第1候補と第3候補以下の尤度値の差もある程度大きいことが必要である。
(3)そこで、第3式の演算を行い、第3のしきい値であるΔと比較する。第3式において、第N候補は例えば第3候補以下の候補である。
(第1候補の尤度値−第N候補の尤度値)>Δ・・・・・(第3式)
なお、第3式では、>Δで判別しているが、≧Δで判定してもよい。このように第1式、第2式および第3式を満足することにより、認識率を高めることができる。
さらに、図4に示す登録外フレーズのように第1候補の尤度値自体が小さければ、認識候補とできないので、第1候補の尤度値がある程度大きいことが必要である。
(4)そこで、第4式の演算を行い、第4のしきい値γと比較する。
(第1候補の尤度値)>γ・・・・・・・・・・・・・・(第4式)
なお、第4式では、>γで判別しているが、≧γで判定してもよい。
次に、第1式で第M候補を選び、第3式において第N候補を選んだ理由について説明する。αの比較は、第1候補と第2候補との尤度値の差分値と、第2候補と第3候補以降との尤度値の差分値との比、すなわち傾きを求めることである。発話者による、傾きのバラツキを最小にするために、第2候補と第3候補以降の尤度値の差分値が、ある値に収束するポイントで、なるべく上位の候補を第M候補としている。実験データより、第2候補と第3候補、第3候補と第4候補、第4候補と第5候補、第5候補と第6候補、第6候補と第7候補、第7候補と第8候補の尤度値の差を求めて、その差が60以下に収束するポイントを第M候補(第6候補)とした。第M候補を第6候補の「さよなら」とし、第N候補を第8候補の「むかつく」とした場合、第N候補は最下位候補である。
ここで、選ばれる候補の数が6候補というように数が決められているものとする。第1候補のフレーズに対して、尤度値が非常に近いHMM音声モデルを持つフレーズ(以下、近似語と称する。)が第2,第3候補に存在する場合は、第1式〜第4式の特性を得られない場合がある。そのために、フレーズごとに近似語を設定し、第1候補の近似語が第2候補、第3候補に連続して並んでいる場合は、そのフレーズを除去して(1),(2)の判定を行う。上記の例では、第2候補が「こんばんは」、第3候補が「おはよう」であるので、これらのフレーズを近似語として除去し、第4候補の「ただいま」を第2候補とし、第5候補の「おやすみ」を第3候補とし、第6候補の「さよなら」を第4候補とし、第7候補の「ばいばい」を第5候補とし、第8候補の「むかつく」を最下位の第6候補(第N候補)としている。そこで、第3式のΔの比較では、近似語の有り無しに関わらず、最下位候補の第N候補(第8候補)を選んでいる。
なお、登録内フレーズであることを判定するためのしきい値として、登録内判定情報(αi,βi,Δi,γi)を設定し、登録内フレーズ以外のフレーズを判定するために登録外判定情報(αo,βo,Δo,γo)を個別に設定してもよい。
図5は、図2に示した認識フィルタリング装置4の動作を説明するためのフローチャートであり、図6は、図5に示す登録内フレーズ棄却評価サブルーチンの動作を説明するためのフローチャートであり、図7は、図5に示す登録外フレーズ棄却評価サブルーチンの動作を説明するためのフローチャートであり、図8は、図5に示すグルーピング評価サブルーチンの動作を説明するためのフローチャートである。
次に、図5〜図8を参照して、この発明の一実施形態における音声認識装置1の具体的な動作について説明する。
音声認識装置1の音声区間検出装置2は、入力された音声信号から音声区間を検出して音声検出信号をロバスト音声認識装置3に与える。ロバスト音声認識装置3の音声特徴量算出回路31は、入力された音声のフレーズの音声特徴量を算出し、雑音ロバスト処理回路32は音声以外の雑音成分を除去する。
推定処理尤度算出回路33は、算出された音声特徴量と、記憶装置34に記憶されているデータ35とに基づいて、尤度値を算出する。すなわち、記憶装置34に記憶されている男性登録フレーズデータ36と、女性登録フレーズデータ37と、子供登録フレーズデータ38とに基づいて、男性,女性,子供の音声の特徴別のグループにおける候補の尤度値の算出が行われる。各尤度値の算出は、第1候補、第2候補、第3候補…の順に行われる。
なお、推定処理尤度算出回路33をハード回路で構成すれば、男性,女性,子供のそれぞれの候補の尤度値の算出を同時に行うことが可能であり、推定処理尤度算出回路33による尤度値の算出をソフト処理により行うときは、男性,女性,子供というように候補の尤度値を順次算出すればよい。
認識フィルタリング装置4は、図5に示す認識フィルタリング処理のためのフローチャートにしたがって、認識フィルタリング処理を実行する。すなわち、図5に示すステップ(図示ではSPと略称する。)SP1において、男性,女性,子供のグルーピング振り分け処理が行なわれる。グルーピング振り分け処理によって、推定処理尤度算出回路33が男性,女性,子供のそれぞれの候補のいずれの尤度値を算出したかを決定する。例えば、男性の候補の尤度値が算出されるとステップSP2に進み、女性の候補の尤度値が算出されるとステップSP6に進み、子供の候補の尤度値が算出されるとステップSP10に進む。
ここでは男性の候補の尤度値が算出された場合について説明する。ステップSP2において登録内フレーズ棄却評価が行われる。登録内フレーズ棄却評価処理は、各候補の算出された尤度値に基づいて、第1候補を棄却するかあるいは採用するかを識別するためのしきい値となる男性の登録内判定情報(αi,βi,Δi,γi)で評価するための処理である。ステップSP3において、評価された第1候補を棄却するか(NO)、あるいは採用するか(YES)を判定する。棄却する場合は処理を終了し、採用する場合はステップSP4において、登録外フレーズ棄却評価が行われる。
ステップSP4の登録外フレーズ棄却評価処理は、各候補の算出された尤度値に基づいて、第1候補を棄却するかあるいは採用するかを男性の登録外判定情報(αo,βo,Δo,γo)で評価するための処理である。ステップSP5において、評価された第1候補を棄却するか(NO)、あるいは採用するか(YES)を判定する。
女性の候補の尤度値が算出された場合には、男性の候補の処理と同様にして、女性の登録内判定情報(αi,βi,Δi,γi)と女性の登録外判定情報(αo,βo,Δo,γo)をもとに、ステップSP6ないしステップSP9の処理が行われ、子供の候補の尤度値が算出された場合には、子供の登録内判定情報(αi,βi,Δi,γi)と子供の登録外判定情報(αo,βo,Δo,γo)をもとに、ステップSP10ないしステップSP13の処理が行われる。ステップSP2ないしステップSP13の処理において、第1候補を採用することが判定されると、ステップSP14において、グルーピング評価が行われる。ステップSP14のグルーピング評価処理は、男性,女性,子供の候補のように、声の周波数帯域が異なっていてもグループ別に評価処理を行うことにより、棄却判断を正確に行うものである。
次に、図5に示した登録内フレーズ棄却評価処理について、図6に示すサブルーチンを参照して詳細に説明する。図5では、ステップSP2において登録内フレーズ棄却評価処理を行い、ステップSP3において判定処理を行うように示されているが、具体的には、登録内棄却評価処理と、判定処理は、図6に示す登録内フレーズ棄却評価処理により実行される。
ステップSP21において、前述の第1式の演算が行われ、その演算結果と、第1のしきい値である登録内判定情報αiとの比較が行われる。ステップSP22において、第1式の演算結果が登録内判定情報αiよりも大きいか否かを判定する。演算結果が登録内判定情報αiよりも大きければ第1候補を採用する候補として判定され(YES)、ステップSP23の演算を行い、そうでなければ(NO)登録内フレーズ棄却処理を終了する。
ステップSP23において、第2式の演算が行われ、その演算結果と、第2のしきい値である登録内判定情報βiとの比較が行われる。ステップSP24において、第2式の演算結果が登録内判定情報βiよりも大きいか否かが判定される。演算結果が登録内判定情報βiよりも大きければYESと判定され、ステップSP25の演算を行い、そうでなければNOと判定され、登録内フレーズ棄却処理を終了する。
ステップSP25において、第3式の演算が行われ、その演算結果と、第3のしきい値である登録内判定情報Δiとの比較が行われる。ステップSP26において、第3式の演算結果が登録内判定情報Δiよりも大きいか否かが判定される。演算結果が登録内判定情報Δiよりも大きければけれYESと判定され、そうでなければNOと判定され、登録内フレーズ棄却処理を終了する。
ステップSP27の比較処理では第1候補の尤度値が第4のしきい値である登録内判定情報γiよりも大きいか否かが判定される。ステップSP28において、第1候補の尤度値が登録内判定情報γiよりも大きいか否かの判定結果に応じて、登録内フレーズ棄却の処理を終了する。ステップSP22,SP24,SP26,SP28の処理において、NOと判定された候補に対して棄却の決定が行われ、すべてYESと判定された候補に対して採用の決定が行われる。そして、ステップSP28の処理後に、図5に示すフローチャートの処理にリターンする。
登録外フレーズ棄却評価処理は、図5では、ステップSP4において登録外フレーズ棄却評価処理を行い、ステップSP5において判定処理を行うように示されているが、具体的には、登録外フレーズ棄却評価処理と、判定処理は、図7に示す登録外フレーズ棄却評価処理により実行される。すなわち、各候補の算出された尤度値に基づいて、前述の第1式〜第4式の演算を行い、その各候補を棄却するか否かを評価するためのしきい値となる登録外判定情報(αo,βo,Δo,γo)で判定する処理が行われる。
ステップSP31において、第1式の演算が行われ、その演算結果としきい値である登録外判定情報αoとの比較が行われる。ステップSP32において、第1式の演算結果が登録外判定情報αoよりも大きいか否かが判定される。演算結果が登録外判定情報αoよりも大きければYESと判定され、ステップSP33の演算を行い、そうでなければNOと判定され、登録外フレーズ棄却処理を終了する。ステップSP33において、第2式の演算が行われ、その演算結果と登録外判定情報βoとの比較が行われる。
ステップSP34において、第2式の演算結果が登録外判定情報βoよりも大きい否かが判定される。演算結果が登録外判定情報βoよりも大きければYESと判定され、ステップSP35の演算を行い、そうでなければNOと判定され、登録外フレーズ棄却処理を終了する。ステップSP35において、第3式の演算が行われ、その演算結果と登録外判定情報Δoとの比較が行われる。
ステップSP36において、第3式の演算結果が登録外判定情報Δoよりも大きいか否かを判定する。演算結果が登録外判定情報Δoよりも大きければYESと判定され、ステップSP37において、第4式の比較処理を行い、そうでなければ登録内フレーズ棄却処理を終了する。ステップSP37の比較処理では第1候補の尤度値が登録外判定情報γoよりも大きいか否かが判定される。ステップSP38において、第1候補の尤度値が登録外判定情報γoよりも大きいか否かの判定結果に応じて、登録外フレーズ棄却の処理を終了する。ステップSP32,SP34,SP36,SP38の処理において、NOと判定された候補に対して棄却の決定が行われ、すべてYESと判定された候補に対して採用の決定が行われる。
図6に示す登録内フレーズ棄却評価処理において、第1候補の採用が決定されるとともに、図7に示す登録外フレーズ棄却評価処理において、異なる第1候補の採用が決定されたときには、例えば尤度差比の大きい方の第1候補を選択するようにすればよい。
図5に示したグルーピング評価処理は、図8に示すサブルーチンを実行することにより行われる。
図8に示すステップSP41において、次の第5式の演算が行われる。
(男性別の第1候補の尤度値×K1)≧(女性別の第1候補の尤度値×K2)
または(子供別の第1候補の尤度値×K3)・・・・・・(第5式)
なお、第5式では、≧で判別しているが、>で判定してもよい。
また、K1,K2,K3は、それぞれ男性,女性,子供の候補にそれぞれ予め定められた定数であり、所定の割合で定められる。これは、子供のHMM音声モデルのバラツキが大きいため、男性および女性のHMM音声モデルよりも小さな値としている。
ステップSP42において、第5式の結果を判定し、男性の第1候補の尤度値が女性の第1候補の尤度値または子供の第1候補の尤度値よりも大きければ(YES)、ステップSP43において、男性の第1候補のフレーズが認識候補として採用される。ステップSP42において、男性の第1候補の尤度値が大きくない(NO)ことを判定すると、ステップSP44において、第6式の演算が行われる。
(女性の第1候補の尤度値×K2)
≧(子供の第1候補の尤度値×K3)・・・・・(第6式)
なお、第6式では、≧で判別しているが、>で判定してもよい。
ステップSP45において、第6式の結果を判定し、女性の第1候補の尤度値が子供の第1候補の尤度値よりも大きければ(YES)、ステップSP46において、女性の第1候補のフレーズを認識候補として採用する。女性の第1候補の尤度値が大きくなければ(NO)、ステップSP47において、子供の第1候補のフレーズを認識候補として採用する。
図9〜図12は、図5〜図8に示した処理により、登録内フレーズの発話されたフレーズを残し、登録外のフレーズを棄却するための動作を説明するための図である。ここでは、登録内フレーズおよび登録外フレーズの判定情報α、β、Δ、γは、同じ値を使用している。
図9の縦軸は第1式で求められる各候補の尤度差比を示し、図10の縦軸は第1候補の尤度値から第2候補の尤度値を引いた第2式で求められる差分尤度値を示し、図11の縦軸は、第1候補の尤度値から第8候補の尤度値を引いた第3式で求められる差分尤度値を示し、図12の縦軸は第4式で求められる第1候補の尤度値を示している。各図における横軸は話者の番号を示している。
図9の特性a1は、SN比が20dB以上の雑音環境下において、話者1〜話者5が登録内フレーズとして、例えば「7(ナナ)」を発話したときの各候補の尤度差比を示している。特性b1は、SN比が20dB以上の雑音環境下において、話者8〜話者12が登録外フレーズとして、例えば「3(サン)」を発話したときの各候補の尤度差比を示している。特性c1は、SN比が10dB以下の雑音環境下において、話者15〜話者19が登録内フレーズとして、例えば「7(ナナ)」を発話したときの各候補の尤度差比を示している。
図10の特性d1は、SN比が20dB以上の雑音環境下において、登録内フレーズとして、話者1〜話者5が「7(ナナ)」を発話したときに認識された候補の差分尤度値(第1候補と第2候補の尤度の差分)を示している。特性e1は、SN比が20dB以上の雑音環境下において、話者8〜話者12が登録外フレーズとして、「3(サン)」を発話したときに認識された候補の差分尤度値(第1候補と第2候補の尤度の差分)を示している。特性f1は、SN比が10dB以下の雑音環境下において、話者15〜話者19が登録内フレーズとして、「7(ナナ)」を発話したときに認識された各候補の差分尤度値(第1候補と第2候補の尤度の差分)を示している。
図11の特性g1は、SN比が20dB以上の雑音環境下において、登録内フレーズとして、話者1〜話者5が「7(ナナ)」を発話したときに認識された候補の差分尤度値(第1候補と第8候補の尤度の差分)を示している。特性h1は、SN比が20dB以上の雑音環境下において、話者8〜話者12が登録外フレーズとして、「3(サン)」を発話したときに認識された候補の差分尤度値(第1候補と第8候補の尤度の差分)を示している。特性i1は、SN比が10dB以下の雑音環境下において、話者15〜話者19が登録内フレーズとして、「7(ナナ)」を発話したときに認識された各候補の差分尤度値(第1候補と第8候補の尤度の差分)を示している。
図12の特性j1は、SN比が20dB以上の雑音環境下において、登録内フレーズとして、話者1〜話者5が「7(ナナ)」を発話したときに認識された第1候補の尤度値を示している。特性k1は、SN比が20dB以上の雑音環境下において、話者8〜話者12が登録外フレーズとして、「3(サン)」を発話したときに認識された第1候補の尤度値を示している。特性m1は、SN比が10dB以下の雑音環境下において、話者15〜話者19が登録内フレーズとして、「7(ナナ)」を発話したときに認識された第1候補の尤度値を示している。
図9の特性において、しきい値を太線で示す判定情報αを例えば「1.3」に設定すると、尤度差比値が判定情報α以上である、特性a1に関する話者1〜話者5の発話した登録内フレーズの候補と特性c1に関する話者15〜話者19の発話した登録内フレーズの候補を採用でき、尤度差比値が判定情報α以下である、特性b1における話者9、話者12の発話した登録外フレーズの候補いずれも棄却できる。
図10において、しきい値を太線で示す判定情報βを「350」に設定することにより、差分尤度値が判定情報β以上である、特性d1に関する話者1〜話者5の発話した登録内フレーズの候補と特性f1に関する話者15〜話者19の発話した登録内フレーズの候補を採用でき、差分尤度値が判定情報β以下である、特性e1における話者8、話者9、話者11、話者12の発話した登録外フレーズの候補を棄却できる。
図11において、しきい値を太線で示す判定情報Δを「700」に設定することにより、差分尤度値が判定情報Δ以上である、特性g1に関する話者1〜話者5の発話した登録内フレーズの候補と特性i1に関する話者15〜話者19の発話した登録内フレーズの候補を採用でき、差分尤度値が判定情報Δ以下である、特性h1における話者8、話者10、話者11、話者12の発話した登録外フレーズの候補を棄却できる。
図12において、しきい値を太線で示す判定情報γを「12300」に設定することにより、尤度値が判定情報γ以上である、特性j1に関する話者1〜話者5の発話した登録内フレーズの候補と特性m1に関する話者15〜話者19の発話した登録内フレーズの候補を採用できる。このように、判定情報α、β、Δ、γを最適に設定することにより、登録内フレーズの候補は採用され、登録外フレーズの候補は棄却できる。例えば、1フレーズに対して、100個のサンプルデータを用意し、各判定情報α、β、Δ、γの実際の値を入力し、そのときに棄却率が高くなる判定情報を採用する。
図9〜図12では、処理速度を向上させるために、第1式〜第4式におけるしきい値である判定情報α,β,Δ,γを用いている。すなわち、登録内判定情報(αi,βi,Δi,γi)と、登録外判定情報(αo,βo,Δo,γo)から、αiとαoとを求め、その値で棄却率が最適になるときの値をαとしている。これらは、尤度値の最も高いフレーズごとにコンピュータ上でシミュレーションを行い、音声認識する上で最も好ましいと思われるデータを基にして最適なパラメータを定めている。同様にして、βi,Δi,γiとβo,Δo,γoとをそれぞれ求め、それぞれの値で棄却率が最適となるときの値をそれぞれβ,Δ,γとしている。なお、特性b1,e1,h1に関しては、図9,図10,図11の処理により廃棄できている。
図13〜図16は、同じく、5人の話者が登録内フレーズ「スタート」、登録外フレーズ「ストップ」を発話したとき、および言葉以外の雑音を入力したときに、それぞれしきい値を判定情報α,β,Δ,γで評価したときの結果の分布を特性で示した図である。
図13において、縦軸は尤度差比を示し、横軸は話者の番号を示している。特性a2は、SN比が20dB以上の雑音環境下において、話者1〜話者5が登録内フレーズ「スタート」を発話したときの各候補の尤度差比を示している。特性b2は、SN比が20dB以上の雑音環境下において、話者8〜話者12が登録外フレーズ「ストップ」を発話したときの各候補の尤度差比を示している。特性c2は、SN比が10dB以下の雑音環境下において、話者15〜話者19が登録内フレーズ「スタート」を発話したときの各候補の尤度差比を示している。
図14において、縦軸は尤度値を示し、横軸はそれぞれ話者の番号を示している。特性d2は、SN比が20dB以上の雑音環境下において、話者1〜話者5が登録内フレーズ「スタート」を発話したときの各候補の差分尤度値(第1候補と第2候補の尤度の差分)を示している。特性e2は、SN比が20dB以上の雑音環境下において、話者8〜話者12が登録外フレーズ「ストップ」を発話したときの各候補の差分尤度値(第1候補と第2候補の尤度の差分)を示している。特性f2は、SN比が10dB以下の雑音環境下において、話者15〜話者19が登録内フレーズ「スタート」を発話したときの各候補の差分尤度値(第1候補と第2候補の尤度の差分)を示している。
図15において、縦軸は尤度値を示し、横軸はそれぞれ話者の番号を示している。特性g2は、SN比が20dB以上の雑音環境下において、話者1〜話者5が登録内フレーズ「スタート」を発話したときの各候補の差分尤度値(第1候補と第8候補の尤度の差分)を示している。特性h2は、SN比が20dB以上の雑音環境下において、話者8〜話者12が登録外フレーズ「ストップ」を発話したときの各候補の差分尤度値(第1候補と第8候補の尤度の差分)を示している。特性i2は、SN比が10dB以下の雑音環境下において、話者15〜話者19が登録内フレーズ「スタート」を発話したときの各候補の差分尤度値(第1候補と第8候補の尤度の差分)を示している。
図16において、縦軸は尤度値を示し、横軸はそれぞれ話者の番号を示している。特性j2は、SN比が20dB以上の雑音環境下において、話者1〜話者5が登録内フレーズ「スタート」を発話したときの各候補の尤度値(第1候補の尤度値)を示している。特性k2は、SN比が20dB以上の雑音環境下において、話者8〜話者12が登録外フレーズ「ストップ」を発話したときの各候補の尤度値(第1候補の尤度値)を示している。特性m2は、SN比が10dB以下の雑音環境下において、話者15〜話者19が登録内フレーズ「スタート」を発話したときの各候補の尤度値(第1候補の尤度値)を示している。
図13〜図16に示した例においても、図9〜図12と同様に処理することで、登録外フレーズを発話した話者8〜話者12の候補を棄却することができる。
図17は、衝撃音などの言葉以外の種々の音声を13種類の雑音系列として入力したときの評価の結果の分布を示す図であり、図18〜図21は、雑音である13種類の音声の認識候補をしきい値として判定情報α,β,Δ,γで評価したときの結果の分布を示す図である。図18〜図21に示す各候補は、登録内フレーズ以外の雑音であるため、棄却する必要がある。
図18に示すように、しきい値の判定情報αを「0.7」に設定すると、雑音2,3,12以外の雑音1,雑音4〜雑音11,雑音13の候補は尤度値が判定情報α以下であるため、これらを棄却できる。図19に示すように、しきい値の判定情報βを「300」に設定すると、雑音2以外の候補は尤度値が判定情報βであるためこれらを棄却できる。図20に示すように、しきい値の判定情報Δを「600」に設定すると、雑音3〜雑音8、雑音10〜雑音13の候補は尤度値が判定情報Δ以下であるため、これらを棄却できる。図21に示すように、しきい値の判定情報γを「13000」に設定すると、雑音1,雑音2,雑音4,雑音7〜雑音9の候補は尤度値が判定情報γ以下であるため、これらを除去できる。したがって、しきい値を判定情報α,β,Δ,γで判定すれば雑音1〜雑音13の候補をすべて棄却できる。
なお、上記の実施の形態においては、第1候補を棄却するかあるいは採用するかを判定する際に、まず、第1式を演算してしきい値αと判定し、次に、第2式を演算してしきい値βと判定し、そして、第3式を演算してしきい値Δと判定し、さらに、第4式を演算してしきい値γと判定する、という順である例について説明したが、これに限ることなく、まず、第4式を演算してしきい値γと判定してもよいし、これらの判定の順は、任意である。
上述のごとく、この実施形態によれば、入力した音声をフレーズごとの尤度値の分布を算出し、その尤度値分布をしきい値である判定情報α,β,Δ,γで評価することにより、尤度値の低い登録内フレーズの候補を棄却したり、登録外フレーズの候補を棄却したり、言葉以外の雑音を棄却することができ、棄却率を向上できる。
また、入力した音声の特性を例えば、男性,女性,子供などにグループ分けし、詳細評価をグループごとに行うことにより、より正確な判断が可能になる。
また、判定情報α,β,Δ,γは、記憶装置34に記憶されるフレーズごとに最適化することにより尤度値の低い登録内フレーズの棄却率、登録外フレーズの棄却率の向上を図ることができる。最適化は、例えば1フレーズに対して、100個のサンプルデータを用意し、各判定情報α、β、Δ、γの実際の値を入力し、そのときに棄却率が高くなる判定情報を採用することにより、棄却率を向上できる。
ここで、具体的に、しきい値である判定情報α,β,Δ,γをフレーズごとに設定する場合について説明する。図22は、しきい値である判定情報α、β、Δ、γをフレーズごとに設定する場合について示すフローチャートである。図22を参照して、説明する。
まず、登録内フレーズの音声の入力を受け付ける(S51)。この登録内フレーズの音声は、音声認識装置1を使用する環境の雑音を重畳したものや、ユーザにとって騒々しいと感じる雑音環境条件下として、白色雑音(ホワイトノイズ)を10dB重畳したものである。そして、上記と同様に、音声特徴量の算出等を行い、記憶装置34に記憶されているデータに基づいて、尤度値を算出する(S52)。
そして、1個の登録内フレーズにつき、所定の個数分、例えば、上記したように100個分のデータにおいてS51〜S52を繰り返す(S53において、NO)。そして、100個分を終了すると(S53において、YES)、まず、第4式のしきい値γを算出する(S54)。第4式のしきい値γは、判定する際の認識パス率が、例えば99%になるように算出される。認識パス率とは、音声認識が正しい場合における通過率を示しており、音声認識が正しいフレーズを棄却することなく通過させた回数÷音声認識が正しい回数×100で算出される。具体的には、100個分のデータにおいて、98個分の音声認識が正しい場合には、98個分のうち97個分を棄却することなく通過させるように算出される。さらに、第4式のしきい値γは、所定の値、例えば10000以上の値になるように算出される。
次に、第3式のしきい値Δを算出する(S55)。第3式のしきい値Δは、S54における第4式のしきい値γとあわせて、判定する際の認識パス率が、例えば90%になるように算出される。具体的には、100個分のデータにおいて、98個分の音声認識が正しい場合には、98個分のうち88個分を棄却することなく通過させるように算出される。さらに、第3式のしきい値Δは、所定の値、例えば200以上の値になるように算出される。
次に、第1式のしきい値αを算出する(S56)。第1式のしきい値αは、S54における第4式のしきい値γと、S55における第3式のしきい値Δとあわせて、判定する際の認識パス率が、例えば85%になるように算出される。具体的には、100個分のデータにおいて、98個分の音声認識が正しい場合には、98個分のうち83個分を棄却することなく通過させるように算出される。さらに、第1式のしきい値αは、所定の値、例えば0.1以上の値になるように算出される。
そして、第2式のしきい値βを算出する(S57)。第2式のしきい値βは、S54における第4式のしきい値γと、S55における第3式のしきい値Δと、S56における第1式のしきい値αとあわせて、判定する際の認識パス率が、例えば80%になるように算出される。具体的には、100個分のデータにおいて、98個分の音声認識が正しい場合には、98個分のうち78個分を棄却することなく通過させるように算出される。さらに、第2式のしきい値βは、所定の値、例えば90以上の値になるように算出される。
そして、S57において、第2式のしきい値βで判定する際の認識パス率が、80%より大きいか否かを判定する。ここで、80%より大きい場合には(S58において、YES)、登録外フレーズの音声の入力を受け付ける(S59)。この登録外フレーズの音声においても、登録内フレーズの音声と同様に、音声認識装置1を使用する環境の雑音を重畳したものや、ユーザにとって騒々しいと感じる雑音環境条件下として、白色雑音を10dB重畳したものである。そして、尤度値を算出する(S60)。
そして、S54〜S57において算出したしきい値γ,Δ,α,βを用いて、登録外フレーズが棄却されるか否かを判定する。ここで、棄却される場合には(S61において、YES)、算出したしきい値γ,Δ,α,βを判定情報として採用する(S62)。
なお、S58において、第2式のしきい値βで判定する際の認識パス率が、80%以下の場合には(S58において、NO)、入力を受け付けた登録内フレーズに近似語が存在する可能性が高いため、その近似語を除去して、再度、第3式のしきい値Δ、第1式のしきい値α、および第2式のしきい値βを算出する。これにより、判定時における認識パス率が、80%より大きくなるよう調整する。
また、S61において、棄却されない場合には(S61において、NO)、第2式のしきい値βを大きくする(S63)。具体的には、第2式のしきい値βを1加算する。これにより、棄却されるよう調整する。
このように、簡易な方法で、しきい値である判定情報α,β,Δ,γを算出することができるため、処理時間を軽減させることができる。また、しきい値を調整するのみで、棄却する際のレベルの調整を容易に行うことができる。
例えば、棄却レベルの低いしきい値と、棄却レベルの高いしきい値と、上記において算出した基準となるしきい値とを用いて、棄却レベルの調整を行う。棄却レベルの低いしきい値とは、認識パス率が一律に例えば95%になるように算出した場合を下限とするしきい値である。また、棄却レベルの高いしきい値とは、第1式のしきい値αにおいて、認識パス率が例えば80%になるように算出し、第2式のしきい値βにおいて、認識パス率が例えば70%となるように算出した場合を上限とするしきい値である。
また、しきい値である判定情報α,β,Δ,γをフレーズごとに設定する場合には、第4式のしきい値γ、第3式のしきい値Δ、第1式のしきい値α、第2式のしきい値βの順に算出する。これにより、徐々に通過させる範囲を狭くするよう調整することができる。
なお、S61において、棄却されない場合には、第2式のしきい値βを大きくするよう制御する例について説明したが、これに限ることなく、第1式のしきい値αを大きくするよう制御してもよいし、棄却されない個数が、所定の個数、例えば2個以下の場合には、第2式のしきい値βを大きくしなくてもよい。このように、棄却されない個数に応じて、しきい値を調整することとしてもよい。
また、しきい値である判定情報α,β,Δ,γを外部から任意に設定可能にしてもよい。こうすることにより、例えば、音声認識装置1において、棄却する際のレベルの調整を外部から行うことができる。
図23は、図1に示す電子機器10を照明機器40に適用した場合を示すブロック図である。図23を参照して、照明機器40の構成について説明する。照明機器40は、マイクロフォン9と、音声認識装置1と、照明機器40の本体となる本体部40aとを備える。本体部40aは、本体部40a全体を制御する制御部41と、音声認識装置1からの指示を受け付ける受付部42と、電球等の光の点灯および消灯を制御するスイッチ回路を有し、受付部42からの指示に従って、電球等の光を点灯および消灯する点灯部43とを備える。
制御部41は、受付部42から指示の受け付けを行うと、指示に対応する動作を行う。具体的には、受付部42から所定の番号の受け付けを行うことによって、その番号に対応する動作を行う。所定の番号は、照明機器40の具備する動作内容ごとに定められている。例えば、番号1に対応する動作は点灯であって、番号2に対応する動作は消灯である。すなわち、動作内容は、点灯および消灯のようなON−OFFの動作であって、2値によって定められる。また、番号3に対応する動作は点灯した光を1段階明るくさせる調光であって、番号4に対応する動作は点灯した光を2段階明るくさせる調光である。また、番号5に対応する動作は点灯した光を1段階暗くさせる調光であって、番号6に対応する動作は点灯した光を2段階暗くさせる調光である。すなわち、動作内容は、複数の段階の動作であって、多値によって定められる。
音声認識装置1は、本体部40aの外部に取り付けられており、受付部42に対して、採用が決定した音声認識候補のフレーズに対応する番号を出力する。すなわち、発話された言葉に対応する番号を出力する。
具体的には、音声認識候補となるフレーズには、所定の番号が関連付けられており、採用が決定した音声認識候補のフレーズに対応する番号を出力する。例えば、「ツケル」という言葉に対応する番号は1であって、「ケス」という言葉に対応する番号は2である。また、「アカルクイチ」という言葉に対応する番号は3であって、「アカルクニ」という言葉に対応する番号は4であって、「クラクイチ」という言葉に対応する番号は5であって、「クラクニ」という言葉に対応する番号は6である。
ここで、照明機器40を点灯する場合について説明する。図24は、照明機器40を点灯する場合における照明機器40の動作を示すフローチャートである。図23および図24を参照して、説明する。
まず、音声認識装置1は、マイクロフォン9を介して、「ツケル」という音声の入力を受け付ける(S71)。そうすると、入力された「ツケル」という音声に対して、上記と同様に、音声認識候補を選び出し、選び出した音声認識候補を棄却するか否かを判定する。ここでは、「ツケル」の採用が決定する(S72)。
そうすると、音声認識装置1は、本体部40aに対して「ツケル」という言葉に対応する番号を出力する(S73)。ここでは「ツケル」という言葉に対応する番号は、1である。したがって、音声認識装置1は、本体部40aに対して、番号1を出力する。
そうすると、照明機器40の制御部41は、番号1に対応する所定の動作を行う(S74)。ここでは、番号1に対応する動作は、点灯が割り当てられているため、点灯部43を点灯するよう制御する。例えば、スイッチ回路をONして、点灯部43へ電圧を送信することによって、点灯部43を点灯するよう制御する。
次に、照明機器40の光を調光する場合について説明する。図25は、照明機器40の光を調光する場合における照明機器40の動作を示すフローチャートである。図23および図25を参照して、照明機器40の光を調光する場合について説明する。
まず、音声認識装置1は、マイクロフォン9を介して、「アカルクイチ」という音声の入力を受け付ける(S81)。そうすると、入力された「アカルクイチ」という音声に対して、上記と同様に、音声認識候補を選び出し、選び出した音声認識候補を棄却するか否かを判定する。ここでは、「アカルクイチ」の採用が決定する(S82)。
そうすると、音声認識装置1は、「アカルクイチ」という言葉に対応する番号を出力する(S83)。ここでは「アカルクイチ」という言葉に対応する番号は、3である。したがって、音声認識装置1は、本体部40aに対して、番号3を出力する。
そうすると、照明機器40の制御部41は、番号3に対応する所定の動作を行う(S84)。ここでは、番号3に対応する動作は、点灯した光を1段階明るくさせる調光が割り当てられているため、点灯部43へ送信する電圧を大きくすることによって、点灯した光を1段階明るくするよう調光する。
このように、電子機器10は、音声認識装置1によって認識された音声に基づいて、電子機器10に対して、所定の動作を行うよう制御する。この場合、電子機器10は、認識率を向上した音声認識装置1を備える。その結果、音声に基づいて、確実に所定の動作を行うことができる。
なお、上記の実施の形態においては、電子機器10を照明機器40に適用する例について説明したが、これに限ることなく、テレビ等を操作するためのリモコン装置にも適用することもできる。
ここで、リモコン装置に適用した場合について説明する。図26は、電子機器10をリモコン装置50に適用した場合を示す図である。図26を参照して、リモコン装置50は、マイクロフォン9と、音声認識装置1と、リモコン装置50の本体となる本体部50aとを備える。本体部50aは、本体部50a全体を制御する制御部51と、音声認識装置1からの指示を受け付ける受付部52と、テレビ60と通信を行う通信部53とを備える。リモコン装置50は、テレビ60と例えば赤外線通信を行うことによって、テレビ60の電源をON−OFFしたり、音量を変更したり、チャンネルを変更したりして、テレビ60を操作する。具体的には、受付部52から所定の番号の受け付けを行うことによって、その番号に対応する赤外線データを送信することによりテレビ60を操作する。例えば、番号1に対応する赤外線データは、テレビ60の電源をONすることであって、番号10に対応する赤外線データは、テレビ60のチャンネルを1に変更することであって、番号20に対応する赤外線データは、テレビ60の音量を大きくすることである。
音声認識装置1は、リモコン装置50の外部に取り付けられており、受付部52に対して、採用が決定した音声認識候補のフレーズに対応する番号を出力する。例えば、「オン」という言葉に対応する番号は1であって、「チャンネルイチ」という言葉に対応する番号は10であって、「オトヲオオキク」という言葉に対応する番号は20である。
ここで、テレビ60のチャンネルを変更する場合について説明する。図27は、テレビ60のチャンネルを変更する場合におけるリモコン装置50およびテレビ60の動作を示すフローチャートである。図26および図27を参照して、説明する。
まず、音声認識装置1は、マイクロフォン9を介して、「チャンネルイチ」という音声の入力を受け付ける(S91)。そうすると、入力された「チャンネルイチ」という音声に対して、上記と同様に、音声認識候補を選び出し、選び出した音声認識候補を棄却するか否かを判定する。ここでは、「チャンネルイチ」の採用が決定する(S92)。
そうすると、音声認識装置1は、本体部50aに対して「チャンネルイチ」という言葉に対応する番号を出力する(S93)。ここでは「チャンネルイチ」という言葉に対応する番号は、10である。したがって、音声認識装置1は、本体部50aに対して、番号10を出力する。
そうすると、リモコン装置50の制御部51は、番号10に対応する所定の動作を行う(S94)。ここでは、番号10に対応する動作は、テレビ60のチャンネルを1に変更することであるため、通信部53を介して、テレビ60のチャンネルを1に変更するよう赤外線通信を行う。
テレビ60は、リモコン装置50からの通信を受けて、チャンネルを1に変更する(S95)。
また、電子機器10は、上記の実施の形態に限らず、例えば、カメラにも適用することができる。この場合、音声認識装置1を用いて、シャッタの押下や、撮影モードの変更等を行うことができる。また、電話にも適用することができる。この場合、音声認識装置1を用いて、電話番号を入力して電話をかけたり、電話帳の登録等を行うことができる。また、時計にも適用することができる。この場合、音声認識装置1を用いて、アラームの設定や、時刻の調整等を行うことができる。また、玩具のコントローラ、冷蔵庫、洗濯機、エアコン、扇風機、コンピュータ、デジタル複合機、ラジオ、オーディオ機器、調理機器等、あらゆる電子機器に適用することができる。
また、上記の実施の形態においては、音声認識装置1は、電子機器10の本体となる本体部10aの外部に取り付けられている例について説明したが、これに限ることなく、内部に組み込んでもよい。
また、上記の実施の形態においては、音声認識装置1は、日本語の音声を認識する例について説明したが、これに限ることなく、英語、中国語、韓国語等のあらゆる言語を認識することができる。
以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。
この発明は、入力された音声を登録されたフレーズ単位で認識し、認識した候補のうち、尤度値の低い候補を棄却する音声認識装置、音声認識方法およびこのような音声認識装置を備える電子機器に有効に利用される。
1 音声認識装置、2 雑音区間検出装置、3 ロバスト音声認識装置、4 認識フィルタリング装置、9 マイクロフォン、10 電子機器、21 音声パワー算出回路、22 音声区間検出回路、31 音声特徴量算出回路、32 雑音ロバスト処理回路、33 推定処理尤度算出回路、34 記憶装置、35 データ、36 男性登録フレーズデータ、37 女性登録フレーズデータ、38 子供登録フレーズデータ、40 照明機器、10a,40a,50a 本体部、41,51 制御部、42,52 受付部、43 点灯部、50 リモコン装置、53 通信部、60 テレビ。

Claims (14)

  1. 雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置であって、
    前記発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、
    前記フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、
    前記音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、前記フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して尤度値を算出する尤度値算出手段と、
    前記尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に複数の音声認識候補を選び出す候補抽出手段と、
    前記候補抽出手段によって選び出された前記複数の音声認識候補のそれぞれの尤度値の分布に基づいて、前記選び出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備える、音声認識装置。
  2. 雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置であって、
    前記発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、
    前記フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、
    前記音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、前記フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して複数の音声認識候補の尤度値を算出する尤度値算出手段と、
    前記尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に第1音声認識候補、前記第1音声認識候補より下位の第2音声認識候補、前記第2音声認識候補よりも下位の第3音声認識候補を選び出す候補抽出手段と、
    前記候補抽出手段によって抽出された前記第1音声認識候補と前記第2音声認識候補の尤度値の差と、前記第2音声認識候補と前記第3音声認識候補の尤度値の差との、尤度差比に基づいて、前記抽出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備える、音声認識装置。
  3. 前記認識フィルタリング手段は、前記尤度差比が、所定の値よりも小さければ、前記第1音声認識候補を棄却し、前記所定の値よりも大きければ、前記第1音声認識候補を音声認識の対象とする、請求項2に記載の音声認識装置。
  4. 前記フレーズ記憶手段は、音声の特徴別のグループの音声パターン系列情報を記憶しており、
    前記認識フィルタリング手段は、音声の特徴別のグループの前記尤度差比に基づいて、前記抽出された第1音声認識候補を棄却するか否かを判定する第1の判定手段を含む、請求項2に記載の音声認識装置。
  5. 前記認識フィルタリング手段は、前記第1音声認識候補の尤度値と、前記第2音声認識候補の尤度値とに基づいて、前記抽出された第1音声認識候補を棄却するか否かを判定する第2の判定手段を含む、請求項2に記載の音声認識装置。
  6. 前記尤度値算出手段は、前記第3音声認識候補よりも下位の第4音声認識候補を抽出し、
    前記認識フィルタリング手段は、前記第1音声認識候補の尤度値と、前記第4音声認識候補の尤度値との差に基づいて、前記抽出された第1音声認識候補を棄却するか否かを判定する第3の判定手段を含む、請求項2に記載の音声認識装置。
  7. 前記認識フィルタリング手段は、前記第1音声認識候補の尤度値に基づいて、前記抽出された第1音声認識候補を棄却するか否かを判定する第4の判定手段とを含む、請求項2に記載の音声認識装置。
  8. 前記候補抽出手段は、前記第1音声認識候補よりも下位の音声認識候補に前記第1音声認識候補の音声パターン系列情報に近似する音声認識候補が存在する場合には、前記音声認識候補を除外し、前記音声認識候補よりも下位の音声認識候補を抽出する、請求項2に記載の音声認識装置。
  9. 雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識方法であって、
    前記発話された音声のフレーズごとの音声特徴量を算出するステップと、
    前記算出されたフレーズごとの音声特徴量と、予め記憶されている複数のフレーズの音声パターン系列情報とを比較して音声認識の対象とする複数の音声認識候補の尤度値を算出するステップと、
    前記各フレーズごとに前記算出された尤度値に基づいて、尤度値の高い順に第1音声認識候補、前記第1音声認識候補より下位の第2音声認識候補、前記第2音声認識候補よりも下位の第3音声認識候補を選び出すステップと、
    前記選び出された前記第1音声認識候補と、前記第2音声認識候補の尤度値の差と、前記第2音声認識候補と、前記第3音声認識候補の尤度値の差との尤度差比を比較するステップと、
    前記尤度差比が所定の値よりも小さければ、前記第1音声認識候補を棄却し、前記所定の値よりも大きければ、前記第1音声認識候補を前記音声認識の対象とするステップとを備える、音声認識方法。
  10. 雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置を備える電子機器であって、
    前記音声認識装置は、
    前記発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、
    前記フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、
    前記音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、前記フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して尤度値を算出する尤度値算出手段と、
    前記尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に複数の音声認識候補を選び出す候補抽出手段と、
    前記候補抽出手段によって選び出された前記複数の音声認識候補のそれぞれの尤度値の分布に基づいて、前記選び出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備え、
    前記電子機器は、
    前記音声認識装置によって認識された音声に基づいて、前記電子機器に対して所定の動作を行うよう制御する制御手段を備える、電子機器。
  11. 前記尤度値算出手段は、複数の音声認識候補の尤度値を算出し、
    前記候補抽出手段は、前記尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に第1音声認識候補、前記第1音声認識候補より下位の第2音声認識候補、前記第2音声認識候補よりも下位の第3音声認識候補を選び出し、
    前記認識フィルタリング手段は、前記候補抽出手段によって抽出された前記第1音声認識候補と前記第2音声認識候補の尤度値の差と、前記第2音声認識候補と前記第3音声認識候補の尤度値の差との、尤度差比に基づいて、前記抽出された音声認識候補を棄却するか否かを判定する、請求項10に記載の電子機器。
  12. 前記音声認識装置によって認識された音声は、所定の番号と関連付けられており、前記所定の番号は、前記電子機器の具備する動作内容ごとに定められている、請求項10に記載の電子機器。
  13. 前記動作内容は、2値によって定められている、請求項12に記載の電子機器。
  14. 前記動作内容は、多値によって定められている、請求項12に記載の電子機器。
JP2010515817A 2008-06-06 2009-05-11 音声認識装置、音声認識方法および電子機器 Active JP5467043B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010515817A JP5467043B2 (ja) 2008-06-06 2009-05-11 音声認識装置、音声認識方法および電子機器

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008149732 2008-06-06
JP2008149732 2008-06-06
PCT/JP2009/058784 WO2009147927A1 (ja) 2008-06-06 2009-05-11 音声認識装置、音声認識方法および電子機器
JP2010515817A JP5467043B2 (ja) 2008-06-06 2009-05-11 音声認識装置、音声認識方法および電子機器

Publications (2)

Publication Number Publication Date
JPWO2009147927A1 true JPWO2009147927A1 (ja) 2011-10-27
JP5467043B2 JP5467043B2 (ja) 2014-04-09

Family

ID=41398004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010515817A Active JP5467043B2 (ja) 2008-06-06 2009-05-11 音声認識装置、音声認識方法および電子機器

Country Status (7)

Country Link
US (1) US20110087492A1 (ja)
EP (1) EP2293289B1 (ja)
JP (1) JP5467043B2 (ja)
CN (1) CN102047322B (ja)
DK (1) DK2293289T3 (ja)
HK (1) HK1157046A1 (ja)
WO (1) WO2009147927A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120323967A1 (en) * 2011-06-14 2012-12-20 Microsoft Corporation Spelling Using a Fuzzy Pattern Search
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
US10088853B2 (en) 2012-05-02 2018-10-02 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
KR101330671B1 (ko) 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
US10145579B2 (en) 2013-05-01 2018-12-04 Honeywell International Inc. Devices and methods for interacting with a control system that is connected to a network
US9697831B2 (en) 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
GB2552280B (en) * 2013-06-26 2018-04-18 Cirrus Logic Int Semiconductor Ltd Speech recognition
WO2015026933A2 (en) 2013-08-21 2015-02-26 Honeywell International Inc. Devices and methods for interacting with an hvac controller
US10030878B2 (en) 2013-08-21 2018-07-24 Honeywell International Inc. User interaction with building controller device using a remote server and a duplex connection
JP2015125499A (ja) * 2013-12-25 2015-07-06 株式会社東芝 音声通訳装置、音声通訳方法及び音声通訳プログラム
US10514677B2 (en) 2014-04-11 2019-12-24 Honeywell International Inc. Frameworks and methodologies configured to assist configuring devices supported by a building management system
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
US9418679B2 (en) * 2014-08-12 2016-08-16 Honeywell International Inc. Methods and apparatus for interpreting received speech data using speech recognition
JP6481939B2 (ja) * 2015-03-19 2019-03-13 株式会社レイトロン 音声認識装置および音声認識プログラム
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
CN105489222B (zh) * 2015-12-11 2018-03-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
JP6553111B2 (ja) * 2017-03-21 2019-07-31 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US10524046B2 (en) 2017-12-06 2019-12-31 Ademco Inc. Systems and methods for automatic speech recognition
CN110493616B (zh) * 2018-05-15 2021-08-06 中国移动通信有限公司研究院 一种音频信号处理方法、装置、介质和设备
US20190390866A1 (en) 2018-06-22 2019-12-26 Honeywell International Inc. Building management system with natural language interface
US11915698B1 (en) * 2021-09-29 2024-02-27 Amazon Technologies, Inc. Sound source localization
CN116959421B (zh) * 2023-09-21 2023-12-19 湖北星纪魅族集团有限公司 处理音频数据的方法及装置、音频数据处理设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06324699A (ja) * 1993-05-11 1994-11-25 N T T Data Tsushin Kk 連続音声認識装置
JPH09212189A (ja) * 1996-02-02 1997-08-15 Ricoh Elemex Corp 音声認識方法及び装置
JPH09258770A (ja) * 1996-03-19 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 音声認識のための話者適応化方法
JPH11249688A (ja) * 1998-03-05 1999-09-17 Mitsubishi Electric Corp 音声認識装置およびその方法
JP2001215996A (ja) * 2000-01-31 2001-08-10 Sumitomo Electric Ind Ltd 音声認識装置
JP2003036094A (ja) * 2001-07-23 2003-02-07 Oki Electric Ind Co Ltd 音声対話装置及び音声対話処理方法
JP2004177551A (ja) * 2002-11-26 2004-06-24 Matsushita Electric Ind Co Ltd 音声認識用未知発話検出装置及び音声認識装置
JP2006215315A (ja) * 2005-02-04 2006-08-17 Kddi Corp 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
JP3576272B2 (ja) * 1995-06-22 2004-10-13 シャープ株式会社 音声認識装置および方法
US6574596B2 (en) * 1999-02-08 2003-06-03 Qualcomm Incorporated Voice recognition rejection scheme
US6577997B1 (en) * 1999-05-28 2003-06-10 Texas Instruments Incorporated System and method of noise-dependent classification
US7526539B1 (en) * 2000-01-04 2009-04-28 Pni Corporation Method and apparatus for a distributed home-automation-control (HAC) window
US6952676B2 (en) * 2000-07-11 2005-10-04 Sherman William F Voice recognition peripheral device
US7003465B2 (en) * 2000-10-12 2006-02-21 Matsushita Electric Industrial Co., Ltd. Method for speech recognition, apparatus for the same, and voice controller
US6876968B2 (en) * 2001-03-08 2005-04-05 Matsushita Electric Industrial Co., Ltd. Run time synthesizer adaptation to improve intelligibility of synthesized speech
JP4604424B2 (ja) 2001-08-07 2011-01-05 カシオ計算機株式会社 音声認識装置及び方法、並びにプログラム
US7822612B1 (en) * 2003-01-03 2010-10-26 Verizon Laboratories Inc. Methods of processing a voice command from a caller
CN1957397A (zh) * 2004-03-30 2007-05-02 先锋株式会社 声音识别装置和声音识别方法
US7778830B2 (en) * 2004-05-19 2010-08-17 International Business Machines Corporation Training speaker-dependent, phrase-based speech grammars using an unsupervised automated technique
JP4459267B2 (ja) 2005-02-28 2010-04-28 パイオニア株式会社 辞書データ生成装置及び電子機器
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
US7653543B1 (en) * 2006-03-24 2010-01-26 Avaya Inc. Automatic signal adjustment based on intelligibility
CN101118745B (zh) * 2006-08-04 2011-01-19 中国科学院声学研究所 语音识别系统中的置信度快速求取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06324699A (ja) * 1993-05-11 1994-11-25 N T T Data Tsushin Kk 連続音声認識装置
JPH09212189A (ja) * 1996-02-02 1997-08-15 Ricoh Elemex Corp 音声認識方法及び装置
JPH09258770A (ja) * 1996-03-19 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 音声認識のための話者適応化方法
JPH11249688A (ja) * 1998-03-05 1999-09-17 Mitsubishi Electric Corp 音声認識装置およびその方法
JP2001215996A (ja) * 2000-01-31 2001-08-10 Sumitomo Electric Ind Ltd 音声認識装置
JP2003036094A (ja) * 2001-07-23 2003-02-07 Oki Electric Ind Co Ltd 音声対話装置及び音声対話処理方法
JP2004177551A (ja) * 2002-11-26 2004-06-24 Matsushita Electric Ind Co Ltd 音声認識用未知発話検出装置及び音声認識装置
JP2006215315A (ja) * 2005-02-04 2006-08-17 Kddi Corp 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム

Also Published As

Publication number Publication date
JP5467043B2 (ja) 2014-04-09
DK2293289T3 (da) 2012-06-25
EP2293289B1 (en) 2012-05-30
HK1157046A1 (en) 2012-06-22
EP2293289A1 (en) 2011-03-09
EP2293289A4 (en) 2011-05-18
WO2009147927A1 (ja) 2009-12-10
US20110087492A1 (en) 2011-04-14
CN102047322A (zh) 2011-05-04
CN102047322B (zh) 2013-02-06

Similar Documents

Publication Publication Date Title
JP5467043B2 (ja) 音声認識装置、音声認識方法および電子機器
EP3132442B1 (en) Keyword model generation for detecting a user-defined keyword
US9373321B2 (en) Generation of wake-up words
EP1936606B1 (en) Multi-stage speech recognition
US9633652B2 (en) Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
KR101154011B1 (ko) 다중 모델 적응화와 음성인식장치 및 방법
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US9009048B2 (en) Method, medium, and system detecting speech using energy levels of speech frames
US7684984B2 (en) Method for recognizing speech/speaker using emotional change to govern unsupervised adaptation
Zelinka et al. Impact of vocal effort variability on automatic speech recognition
WO2021030918A1 (en) User-defined keyword spotting
US20220076683A1 (en) Data mining apparatus, method and system for speech recognition using the same
CN110914897A (zh) 语音识别系统和语音识别装置
KR20200023893A (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
CN116343797A (zh) 语音唤醒方法及相应装置
CN113192501A (zh) 一种指令词识别方法及装置
JP4784056B2 (ja) 音声認識機能付制御装置
KR100998230B1 (ko) 화자 독립 음성 인식 처리 방법
KR101214252B1 (ko) 다중 모델 적응화장치 및 방법
JP3615088B2 (ja) 音声認識方法及び装置
US20090254335A1 (en) Multilingual weighted codebooks
KR101427806B1 (ko) 전투기 조종사 음성명령실행방법 및 이의 음성명령어 인식 시스템
Herbig et al. Detection of unknown speakers in an unsupervised speech controlled system
JP2009265567A (ja) 音声認識装置と音声認識方法とコンピュータ・プログラムおよびコマンド認識装置
JP7482086B2 (ja) キーワード検出装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111012

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20121105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140127

R150 Certificate of patent or registration of utility model

Ref document number: 5467043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250