JPWO2009147927A1

JPWO2009147927A1 - 音声認識装置、音声認識方法および電子機器

Info

Publication number: JPWO2009147927A1
Application number: JP2010515817A
Authority: JP
Inventors: 満次吉田; 一峰兵藤
Original assignee: RayTron Inc
Current assignee: RayTron Inc
Priority date: 2008-06-06
Filing date: 2009-05-11
Publication date: 2011-10-27
Anticipated expiration: 2029-05-11
Also published as: JP5467043B2; DK2293289T3; EP2293289B1; HK1157046A1; EP2293289A1; EP2293289A4; WO2009147927A1; US20110087492A1; CN102047322A; CN102047322B

Abstract

音声特徴量算出回路３１によって、入力された音声のフレーズごとの音声特徴量を算出し、推定処理尤度算出回路３３によって、算出されたフレーズごとの音声特徴量と記憶装置３４に記憶されている複数のフレーズの音声パターン系列情報とを比較してフレーズごとの尤度値の高い候補から順次尤度値の低い候補を複数算出し、認識フィルタリング装置４は、第１候補の尤度値と、第２候補の尤度値との差と、第２候補の尤度値と、第３候補の尤度値との差との尤度差比に基づいて、抽出された候補を棄却するか否かを判定する。

Description

この発明は、音声認識装置、音声認識方法および電子機器に関するものであって、特に、入力された音声を登録されたフレーズ単位で認識し、認識した候補のうち、尤度値の低い候補を棄却する音声認識装置、音声認識方法およびこのような音声認識装置を備える電子機器に関するものである。

音声認識装置には、入力された音声を登録されているフレーズごとに認識するものが知られている。そのような一例として、特開２００３−５０５９５号公報（特許文献１）に開示されている音声認識装置がある。この音声認識装置は、入力された音声を所定時間間隔のフレームごとに区分し、各フレームのパワー成分を求め、パワー成分の値から音声区間を検出する。各音声区間の音声特徴量と予め用意されている音声パターン系列情報である隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）に基づいて、フレーズ辞書に含まれているフレーズのうちで最も尤度値の高い第１候補フレーズが抽出される。この例では、抽出した第１候補フレーズについての尤度信頼率を求めて、この尤度信頼率がしきい値以下であれば、第１候補フレーズを破棄するようにしている。

また、従来から、電子機器の中には、入力された音声を認識することができる音声認識機能を具備するものがある。このような電子機器は、例えば、ＷＯ２００６／０９３００３号公報（特許文献２）に開示されている。

特許文献２によると、電子機器は、ハードディスク／ＤＶＤレコーダであって、入力された音声から、例えば、録画対象となる番組名を認識する。具体的には、番組名のキーワードに対応する音声の特徴量パターン、例えば、隠れマルコフモデルによって示される特徴量パターンを予め登録しておくことにより、キーワードを含む音声が入力された際には、入力された音声の特徴量パターンを抽出し、抽出した特徴量パターンと登録された特徴量パターンとの類似度を算出して、類似度が最も高い番組名を録画対象として特定することとしている。

特開２００３−５０５９５号公報ＷＯ２００６／０９３００３号公報

一般的に、音声認識装置を実際に使用する場合は、登録しているフレーズ（以下、登録内フレーズと称する。）以外に、未登録のフレーズ（以下、登録外フレーズと称する。）が入力されたり、使用環境での雑音も音声と一緒に入力されたりするため、誤認識されやすいという問題がある。例えば、フレーズの「スタート」が登録されており、「ストップ」が登録されていないものと仮定すると、発話者が「スタート」を発話したときに、それを「スタート」と認識されれば「スタート」は登録内フレーズであるため、その認識は正しい。

しかし、発話者が「ストップ」と発話したにもかかわらず、「スタート」と認識された場合は、「ストップ」は登録外フレーズであるため、誤認識したことになる。このような誤認識を避けるために、登録外フレーズが発話されたにもかかわらず、登録内フレーズが認識候補として挙げられたときには、その認識候補を棄却する必要がある。登録外フレーズ以外にもＳＮ比の悪い環境下においては、雑音が入力されて、登録内フレーズと誤認識することもあり、そのような候補も棄却する必要がある。

特許文献１に開示の音声認識装置は、尤度値と予め設定された棄却判定のためのしきい値として１つの値を用いているに過ぎない。このため、雑音レベルの高い使用環境によっては、雑音を音声認識候補として抽出される場合があり、その候補を棄却する必要があるが、しきい値が１つの場合は、その雑音による音声認識候補を棄却できず、認識率が低下する場合がある。

特に、登録されているフレーズが少ない場合には、登録外のフレーズをできるだけ早期の段階処理で棄却することが望まれている。

また、特許文献２に開示の電子機器では、類似度が最も高い番組名を録画対象として特定しているのみであるため、例えば、雑音レベルの高い環境で使用すると、雑音が入力されたにもかかわらず、雑音の特徴量パターンと類似度が最も高い番組名を録画対象として特定する虞がある。

そこで、この発明の目的は、実際の使用環境を考慮した雑音条件下において、認識率を向上できる音声認識装置を提供することである。

また、この発明の他の目的は、実際の使用環境を考慮した雑音条件下において、認識率を向上できる音声認識方法を提供することである。

また、この発明のさらに他の目的は、認識率を向上させると共に、音声に基づいて、確実に所定の動作を行うことができる電子機器を提供することである。

この発明は、雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置であって、発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して尤度値を算出する尤度値算出手段と、尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に複数の音声認識候補を選び出す候補抽出手段と、候補抽出手段によって選び出された複数の音声認識候補のそれぞれの尤度値の分布に基づいて、選び出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備える。

この発明によれば、選び出された複数の音声認識候補のそれぞれの尤度値の分布に基づいて、棄却するか否かを定めることができ、棄却率を高めて認識率を向上できる。

この発明の他の局面は、雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置に関する。音声認識装置は、発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して尤度値を算出する尤度値算出手段と、尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に第１音声認識候補、第１音声認識候補より下位の第２音声認識候補、第２音声認識候補よりも下位の第３音声認識候補を選び出す候補抽出手段と、候補抽出手段によって抽出された第１音声認識候補と第２音声認識候補の尤度値の差と、第２音声認識候補と第３音声認識候補の尤度値の差との、尤度差比に基づいて、抽出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備える。

この発明の他の局面によれば、尤度差比に基づいて音声認識候補を認識の対象から棄却するか否かを判定することにより、登録されていないフレーズの音声認識候補や、入力された雑音による候補などの棄却率を高めることができるので、認識率を向上できる。

より好ましくは、認識フィルタリング手段は、尤度差比が、所定の値よりも小さければ、第１音声認識候補を棄却し、所定の値よりも大きければ、第１音声認識候補を音声認識の対象とする。

これにより、選ばれた第１音声認識候補を音声認識の対象として採用すべきか、棄却すべきかを判定できる。

好ましくは、フレーズ記憶手段は、音声の特徴別のグループの音声パターン系列情報を記憶しており、認識フィルタリング手段は、音声の特徴別のグループの尤度差比に基づいて、抽出された各音声認識候補を棄却するか否かを判定する第１の判定手段を含む。

男性、女性および子供など音声の特徴別にグルーピングし、それぞれのグループ内での尤度差比に基づいて、抽出された音声認識候補を棄却するか否かを判定することにより、認識フィルタリング手段による棄却率がさらに向上する。

好ましくは、認識フィルタリング手段は、第１音声認識候補の尤度値と、第２音声認識候補の尤度値との差に基づいて、抽出された音声認識候補を棄却するか否かを判定する。尤度値算出手段は、第３音声認識候補よりも下位の第４音声認識候補を抽出し、認識フィルタリング手段は、第１音声認識候補の尤度値と、第４音声認識候補の尤度値との差に基づいて、抽出された音声認識候補を棄却するか否かを判定し、第１音声認識候補の尤度値に基づいて、抽出された音声認識候補を棄却するか否かを判定する。

このようにして選ばれた音声認識候補を棄却するか否かを判定することにより、登録外フレーズや入力された雑音による候補の棄却率が高められる。

好ましくは、候補抽出手段は、第１音声認識候補よりも下位の音声認識候補に第１音声認識候補の音声パターン系列情報に近似する音声認識候補が存在する場合には、その音声認識候補を除外し、その音声認識候補よりも下位の音声認識候補を抽出する。

候補抽出手段が第１音声認識候補に近似する候補を除外することにより、より認識率を高めることができる。

この発明のさらに他の局面は、雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識方法に関する。この方法は、発話された音声のフレーズごとの音声特徴量を算出するステップと、算出されたフレーズごとの音声特徴量と、予め記憶されている複数のフレーズの音声パターン系列情報とを比較して音声認識の対象とする複数の音声認識候補の尤度値を算出するステップと、フレーズごとに算出された尤度値に基づいて、尤度値の高い順に第１音声認識候補、第１音声認識候補より下位の第２音声認識候補、第２音声認識候補よりも下位の第３音声認識候補を選び出すステップと、選び出された第１音声認識候補と、第２音声認識候補の尤度値の差と、第２音声認識候補と、第３音声認識候補の尤度値の差との尤度差比を比較するステップと、尤度差比が所定の値よりも小さければ、第１音声認識候補を棄却し、所定の値よりも大きければ、第１音声認識候補を音声認識の対象とするステップとを備える。

この発明のさらに他の局面の音声認識方法は、登録されていないフレーズの音声認識候補や、入力された雑音による候補などの棄却率を高めることができるので、認識率を向上できる。

この発明のさらに他の局面の電子機器は、雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置を備える電子機器である。音声認識装置は、発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して尤度値を算出する尤度値算出手段と、尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に複数の音声認識候補を選び出す候補抽出手段と、候補抽出手段によって選び出された複数の音声認識候補のそれぞれの尤度値の分布に基づいて、選び出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備える。電子機器は、音声認識装置によって認識された音声に基づいて、電子機器に対して所定の動作を行うよう制御する制御手段を備える。

このように、電子機器は、音声認識装置を備える。この音声認識装置は、尤度値の高い順に複数の音声認識候補を選び出し、選び出した複数の音声認識候補のそれぞれの尤度値の分布に基づいて、棄却するか否かを判定することができるため、認識率を向上させることができる。その結果、電子機器は、音声に基づいて、確実に所定の動作を行うことができる。

好ましくは、尤度値算出手段は、複数の音声認識候補の尤度値を算出し、候補抽出手段は、尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に第１音声認識候補、第１音声認識候補より下位の第２音声認識候補、第２音声認識候補よりも下位の第３音声認識候補を選び出し、認識フィルタリング手段は、候補抽出手段によって抽出された第１音声認識候補と第２音声認識候補の尤度値の差と、第２音声認識候補と第３音声認識候補の尤度値の差との、尤度差比に基づいて、抽出された音声認識候補を棄却するか否かを判定する。

このように、音声認識装置は、尤度差比に基づいて音声認識候補を認識の対象から棄却するか否かを判定することにより、登録されていないフレーズの音声認識候補や、入力された雑音による候補などの棄却率を高めることができ、認識率を向上させることができる。その結果、電子機器は、音声に基づいて、確実に所定の動作を行うことができる。

一実施形態として、音声認識装置によって認識された音声は、所定の番号と関連付けられており、所定の番号は、電子機器の具備する動作内容ごとに定められている。

他の実施形態として、動作内容は、２値によって定められている。

さらに他の実施形態として、動作内容は、多値によって定められている。

この発明に係る音声認識装置は、選び出された複数の音声認識候補のそれぞれの尤度値の分布に基づいて、棄却するか否かを定めることができ、棄却率を高めて認識率を向上できる。

また、この発明に係る音声認識方法は、登録されていないフレーズの音声認識候補や、入力された雑音による候補などの棄却率を高めることができるので、認識率を向上できる。

また、この発明に係る電子機器は、音声認識装置を備える。この音声認識装置は、尤度値の高い順に複数の音声認識候補を選び出し、選び出した複数の音声認識候補のそれぞれの尤度値の分布に基づいて、棄却するか否かを定めることができるため、認識率を向上させることができる。その結果、電子機器は、音声に基づいて、確実に所定の動作を行うことができる。

この発明の一実施形態に係る電子機器の構成を示すブロック図である。図１に示す音声認識装置の構成を示すブロック図である。ＳＮ比が２０ｄＢ以上の雑音環境下で、登録内フレーズとして「こんにちは」を発話したときの尤度値分布を示す図である。ＳＮ比が２０ｄＢ以上の雑音環境下で、登録外フレーズとして「こんばんは」を発話したときの尤度値分布を示す図である。図２に示した認識フィルタリング装置の動作を説明するためのフローチャートである。図５に示す登録内フレーズ棄却動作を説明するためのフローチャートである。図５に示す登録外フレーズ棄却動作を説明するためのフローチャートである。図５に示すグルーピング評価動作を説明するためのフローチャートである。この発明の一実施形態における音声認識装置の認識フィルタリング装置によって、５人の話者が登録内フレーズ「７（ナナ）」および登録外フレーズ「３（サン）」を発話したときに判定情報αで判定したときの判定結果の分布を示す図である。同じく、５人の話者が登録内フレーズ「７（ナナ）」および登録外フレーズ「３（サン）」を発話したときに判定情報βで判定したときの判定結果の分布を示す図である。５人の話者が登録内フレーズ「７（ナナ）」および登録外フレーズ「３（サン）」を発話したときに判定情報Δで判定したときの判定結果の分布を示す図である。同じく、５人の話者が登録内フレーズ「７（ナナ）」および登録外フレーズ「３（サン）」を発話したときに判定情報γで判定したときの判定結果の分布を示す図である。この発明の一実施形態における音声認識装置の認識フィルタリング装置によって、５人の話者が登録内フレーズ「スタート」および登録外フレーズ「ストップ」を発話したときに判定情報αで判定したときの判定結果の分布を示す図である。同じく、５人の話者が登録内フレーズ「スタート」および登録外フレーズ「ストップ」を発話したときに判定情報βで判定したときの判定結果の分布を示す図である。同じく、５人の話者が登録内フレーズ「スタート」および登録外フレーズ「ストップ」を発話したときに判定情報Δで判定したときの判定結果の分布を示す図である。同じく、５人の話者が登録内フレーズ「スタート」および登録外フレーズ「ストップ」を発話したときに判定情報γで判定したときの判定結果の分布を示す図である。この発明の一実施形態における音声認識装置の認識フィルタリング装置によって、言葉以外の音声を１３種類の雑音として入力したときの判定結果の分布を示す図である。同じく、言葉以外の音声を１３種類の雑音として入力したときに判定情報αで判定したときの判定結果の分布を示す図である。同じく、言葉以外の音声を１３種類の雑音として入力したときに判定情報βで判定したときの判定結果の分布を示す図である。同じく、言葉以外の音声を１３種類の雑音として入力したときに判定情報Δで判定したときの判定結果の分布を示す図である。同じく、言葉以外の音声を１３種類の雑音として入力したときに判定情報γで判定したときの判定結果の分布を示す図である。しきい値である判定情報α，β，Δ，γをフレーズごとに設定する場合について示すフローチャートである。図１に示す電子機器を照明機器に適用した場合を示すブロック図である。照明機器を点灯する場合における照明機器の動作を示すフローチャートである。照明機器の光を調光する場合における照明機器の動作を示すフローチャートである。電子機器をリモコン装置に適用した場合を示す図である。テレビのチャンネルを変更する場合におけるリモコン装置およびテレビの動作を示すフローチャートである。

以下、この発明の実施の形態を図面を参照して説明する。図１は、この発明の一実施形態に係る電子機器１０の構成を示すブロック図である。図１を参照して、電子機器１０は、発話された音声の入力を受け付けるマイクロフォン９と、発話された音声を認識する音声認識装置１と、電子機器１０の本体であって、電子機器１０の具備する機能を発揮する本体部１０ａとを備える。音声認識装置１は、本体部１０ａの外部に取り付けられている。

図２は、図１に示すこの発明の一実施形態に係る音声認識装置１の構成を示すブロック図である。図２を参照して、音声認識装置１の構成について詳細に説明する。

図２において、音声認識装置１は、発話された音声を登録されているフレーズごとに認識する音声認識装置１であって、音声区間検出装置２と、ロバスト音声認識装置３と、認識フィルタリング手段および第１ないし第４の判定手段として作動する認識フィルタリング装置４とを含む。音声区間検出装置２は入力された音声信号が与えられる音声パワー算出回路２１と、音声区間検出回路２２とを含む。音声パワー算出回路２１は、入力された音声信号のパワー成分を算出する。音声区間検出回路２２は、音声パワー算出回路２１で算出されたパワー成分に基づいて、音声区間を検出する。

ロバスト音声認識装置３は、音声以外の雑音を除去することにより、雑音環境下でも高い精度で音声を認識するものであり、音声特徴量算出手段として作動する音声特徴量算出回路３１と、雑音ロバスト処理回路３２と、尤度値算出手段および候補抽出手段として作動する推定処理尤度算出回路３３と、フレーズ記憶手段として作動する記憶装置３４とを含む。

音声特徴量算出回路３１は、検出した音声区間の音声特徴量を算出する。雑音ロバスト処理回路３２は、音声特徴量算出回路３１によって算出された音声特徴量に含まれている音声以外の雑音成分を除去する。記憶装置３４は、異なる複数のフレーズを示すと共に、音声パターン系列情報であるＨＭＭ音声モデルのデータ３５を記憶している。ここでは、データ３５は、音声の特徴別のグループのＨＭＭ音声モデルとして、男性登録フレーズデータ３６と、女性登録フレーズデータ３７と、子供登録フレーズデータ３８とを含む。男性、女性、子供によって音声の特徴が異なっているので、グループごとにフレーズのＨＭＭ音声モデルを記憶しておくことにより、尤度値の高い候補を算出して認識率を高めることができる。

なお、グループ分けは、男性，女性，子供に限ることなく、男性の声の高いグループと低い声のグループなどにグループ分けしてもよい。また、グループ分けすることなく、男性、女性、子供のいずれか１つのグループのみで棄却するようにしてもよい。

推定処理尤度算出回路３３は、雑音ロバスト処理回路３２によって雑音成分が除去された音声特徴量と、記憶装置３４に記憶されているＨＭＭ音声モデルのデータ３５とを順次比較して、各フレーズに対する対数尤度値（以下、尤度値と略称する。）を算出するための処理を行う。そして、尤度値が大きい方から順に、複数の音声認識候補（以下、候補と略称する。）を選出する。尤度値が最大となるフレーズを第１候補、その次に大きいフレーズを第２候補などと言及する。

認識フィルタリング装置４は、推定処理尤度算出回路３３によって選び出された複数の候補の尤度値の分布に基づいて、選び出された各候補を棄却するか否かを判定する。

図３および図４は、この発明の原理を説明するための図であり、縦軸は推定処理尤度算出回路３３で算出された尤度値を示し、横軸は認識されたフレーズの尤度値の高い第１候補から尤度値の低い第８候補の順位を示している。

ＳＮ比が２０ｄＢ以上の雑音環境下において、５人の話者１〜話者５が、登録内フレーズの、例えば「こんにちは」を発話したときに、推定処理尤度算出回路３３が算出した登録内フレーズの尤度値分布を示すと、図３になる。この例では、第１候補の「こんにちは」の尤度値が最も高くなっている。しかし、推定処理尤度算出回路３３では、第１候補以外の、例えば、第２候補の「こんばんは」、第３候補の「おはよう」、第４候補の「ただいま」、第５候補の「おやすみ」、第６候補の「さよなら」、第７候補の「ばいばい」、第８候補の「むかつく」の尤度値も算出する。しかし、図３に示すように、第１候補の尤度値は、他の候補に比較して飛び抜けて高くなっている。

これに対して、同じ環境下で、５人の話者８〜話者１２が登録外フレーズを発話したときに、推定処理尤度算出回路３３が算出した登録内フレーズの第１候補〜第８候補の尤度値分布を示すと図４に示すようになる。

図３および図４の対比から明らかなように、棄却を第１候補の尤度値で認識判断する場合、登録内フレーズを発話したときの第１候補の尤度値と、登録外フレーズを発話したときの第１候補の尤度値にあまり差がない場合があるので、第１候補の尤度値での棄却判断は難しい。

本願発明者は、図３および図４に示した尤度値分布を詳細に検討した結果、下記のことを見出した。

（Ａ）登録内フレーズを発話した場合、
（ａ）雑音環境２０ｄＢ以上では、図３に示すように、第１候補の尤度値はある範囲に収束する。図示していないが、雑音環境１０ｄＢ以下では、第１候補の尤度値がある範囲に収束しない場合がある。
（ｂ）雑音環境１０ｄＢ以下の場合でも、第１候補の尤度値と第２候補の尤度値の差と、第２候補の尤度値と第３候補以降の尤度値との差を比べた場合、前者のほうが大きい場合が多く見受けられる。

（Ｂ）登録外フレーズを発話した場合、
（ａ）図４に示した第１候補の尤度値は、図３に示した登録内フレーズを発話した場合と同じ値になる場合がある。
（ｂ）第１候補の尤度値と第２候補以降の尤度値との差があまり大きくない。
（ｃ）第１候補の尤度値が発話者により、一定化しない。

これらの結果を考慮して、抽出された第１候補を棄却すべきか採用すべきかについて、種々のフレーズデータを用いて実験した結果、次のような条件を考慮してしきい値を決定し、各候補を棄却すべきか、あるいは採用すべきかを判定すれば、認識率が向上することを見出した。

抽出された複数の候補からフレーズごとに尤度値の高い順に第１候補、第１候補よりも下位の複数の候補を選び出し、各候補の尤度値の分布に基づいて選び出した候補を棄却するか否かを決定する。尤度値の分布を求めることで、尤度値の分布に応じてしきい値を定めることができ、棄却率を高めて認識率を向上できる。

さらに、より具体的には、尤度値の分布の例として、下記に説明するように、複数の候補の尤度差比と、尤度値とを求め、しきい値α，β，Δ，γと比較する。しきい値α，β，Δ，γは、判定情報として、記憶装置３４の男性登録フレーズデータ３６と、女性登録フレーズデータ３７と、子供登録フレーズデータ３８のそれぞれに対応して予め設定されている。

（１）第１候補と、第２候補の尤度値の差と、第２候補と、下位の第Ｍ候補（例えば第６候補）の尤度値の差との比を求めると、尤度差比を算出できる。このように、第１候補と、第２候補の尤度値の差と、第２候補と、下位の第Ｍ候補の尤度値の差との尤度差比を求めて第１のしきい値αと判定する。そこで、第１式を演算し、しきい値αと比較する。

（第１候補の尤度値−第２候補の尤度値）／（第２候補の尤度値−第Ｍ候補の尤度値）≧α・・・・・・・・・・・・・・・・（第１式）
なお、第１式では、≧αで判別しているが、＞αで判定してもよい。また、第Ｍ候補は第３候補以下のいずれかの候補であればよい。このように第１候補と第２候補の尤度値と、第２候補と第Ｍ候補の尤度値との尤度差比を算出することにより認識率を高めることができる。ただし、第１式の演算結果がしきい値αよりも≧であっても、図４に示す登録外フレーズのように第１候補の尤度値と、第２候補の尤度値との差があまり大きくなければ、第１候補とは判定できない。

（２）そこで、第２式の演算を行い、第２のしきい値であるβと比較する。

（第１候補の尤度値−第２候補の尤度値）＞β・・・・・（第２式）
なお、第２式では、＞βで判別しているが、≧βで判定してもよい。多くの場合、第１式および第２式の判定をするだけで、認識率の低い第１候補を棄却することができるので処理速度を早くできる。しかし、第１式および第２式を満足しても、図４に示す登録外フレーズのように第１候補と第３候補以下の候補との尤度値の差が少ない場合もあり得る。すなわち、第１候補を認識候補とするためには、第１候補と第３候補以下の尤度値の差もある程度大きいことが必要である。

（３）そこで、第３式の演算を行い、第３のしきい値であるΔと比較する。第３式において、第Ｎ候補は例えば第３候補以下の候補である。

（第１候補の尤度値−第Ｎ候補の尤度値）＞Δ・・・・・（第３式）
なお、第３式では、＞Δで判別しているが、≧Δで判定してもよい。このように第１式、第２式および第３式を満足することにより、認識率を高めることができる。

さらに、図４に示す登録外フレーズのように第１候補の尤度値自体が小さければ、認識候補とできないので、第１候補の尤度値がある程度大きいことが必要である。

（４）そこで、第４式の演算を行い、第４のしきい値γと比較する。

（第１候補の尤度値）＞γ・・・・・・・・・・・・・・（第４式）
なお、第４式では、＞γで判別しているが、≧γで判定してもよい。

次に、第１式で第Ｍ候補を選び、第３式において第Ｎ候補を選んだ理由について説明する。αの比較は、第１候補と第２候補との尤度値の差分値と、第２候補と第３候補以降との尤度値の差分値との比、すなわち傾きを求めることである。発話者による、傾きのバラツキを最小にするために、第２候補と第３候補以降の尤度値の差分値が、ある値に収束するポイントで、なるべく上位の候補を第Ｍ候補としている。実験データより、第２候補と第３候補、第３候補と第４候補、第４候補と第５候補、第５候補と第６候補、第６候補と第７候補、第７候補と第８候補の尤度値の差を求めて、その差が６０以下に収束するポイントを第Ｍ候補（第６候補）とした。第Ｍ候補を第６候補の「さよなら」とし、第Ｎ候補を第８候補の「むかつく」とした場合、第Ｎ候補は最下位候補である。

ここで、選ばれる候補の数が６候補というように数が決められているものとする。第１候補のフレーズに対して、尤度値が非常に近いＨＭＭ音声モデルを持つフレーズ（以下、近似語と称する。）が第２，第３候補に存在する場合は、第１式〜第４式の特性を得られない場合がある。そのために、フレーズごとに近似語を設定し、第１候補の近似語が第２候補、第３候補に連続して並んでいる場合は、そのフレーズを除去して（１），（２）の判定を行う。上記の例では、第２候補が「こんばんは」、第３候補が「おはよう」であるので、これらのフレーズを近似語として除去し、第４候補の「ただいま」を第２候補とし、第５候補の「おやすみ」を第３候補とし、第６候補の「さよなら」を第４候補とし、第７候補の「ばいばい」を第５候補とし、第８候補の「むかつく」を最下位の第６候補（第Ｎ候補）としている。そこで、第３式のΔの比較では、近似語の有り無しに関わらず、最下位候補の第Ｎ候補（第８候補）を選んでいる。

なお、登録内フレーズであることを判定するためのしきい値として、登録内判定情報（αｉ，βｉ，Δｉ，γｉ）を設定し、登録内フレーズ以外のフレーズを判定するために登録外判定情報（αｏ，βｏ，Δｏ，γｏ）を個別に設定してもよい。

図５は、図２に示した認識フィルタリング装置４の動作を説明するためのフローチャートであり、図６は、図５に示す登録内フレーズ棄却評価サブルーチンの動作を説明するためのフローチャートであり、図７は、図５に示す登録外フレーズ棄却評価サブルーチンの動作を説明するためのフローチャートであり、図８は、図５に示すグルーピング評価サブルーチンの動作を説明するためのフローチャートである。

次に、図５〜図８を参照して、この発明の一実施形態における音声認識装置１の具体的な動作について説明する。

音声認識装置１の音声区間検出装置２は、入力された音声信号から音声区間を検出して音声検出信号をロバスト音声認識装置３に与える。ロバスト音声認識装置３の音声特徴量算出回路３１は、入力された音声のフレーズの音声特徴量を算出し、雑音ロバスト処理回路３２は音声以外の雑音成分を除去する。

推定処理尤度算出回路３３は、算出された音声特徴量と、記憶装置３４に記憶されているデータ３５とに基づいて、尤度値を算出する。すなわち、記憶装置３４に記憶されている男性登録フレーズデータ３６と、女性登録フレーズデータ３７と、子供登録フレーズデータ３８とに基づいて、男性，女性，子供の音声の特徴別のグループにおける候補の尤度値の算出が行われる。各尤度値の算出は、第１候補、第２候補、第３候補…の順に行われる。

なお、推定処理尤度算出回路３３をハード回路で構成すれば、男性，女性，子供のそれぞれの候補の尤度値の算出を同時に行うことが可能であり、推定処理尤度算出回路３３による尤度値の算出をソフト処理により行うときは、男性，女性，子供というように候補の尤度値を順次算出すればよい。

認識フィルタリング装置４は、図５に示す認識フィルタリング処理のためのフローチャートにしたがって、認識フィルタリング処理を実行する。すなわち、図５に示すステップ（図示ではＳＰと略称する。）ＳＰ１において、男性，女性，子供のグルーピング振り分け処理が行なわれる。グルーピング振り分け処理によって、推定処理尤度算出回路３３が男性，女性，子供のそれぞれの候補のいずれの尤度値を算出したかを決定する。例えば、男性の候補の尤度値が算出されるとステップＳＰ２に進み、女性の候補の尤度値が算出されるとステップＳＰ６に進み、子供の候補の尤度値が算出されるとステップＳＰ１０に進む。

ここでは男性の候補の尤度値が算出された場合について説明する。ステップＳＰ２において登録内フレーズ棄却評価が行われる。登録内フレーズ棄却評価処理は、各候補の算出された尤度値に基づいて、第１候補を棄却するかあるいは採用するかを識別するためのしきい値となる男性の登録内判定情報（αｉ，βｉ，Δｉ，γｉ）で評価するための処理である。ステップＳＰ３において、評価された第１候補を棄却するか（ＮＯ）、あるいは採用するか（ＹＥＳ）を判定する。棄却する場合は処理を終了し、採用する場合はステップＳＰ４において、登録外フレーズ棄却評価が行われる。

ステップＳＰ４の登録外フレーズ棄却評価処理は、各候補の算出された尤度値に基づいて、第１候補を棄却するかあるいは採用するかを男性の登録外判定情報（αｏ，βｏ，Δｏ，γｏ）で評価するための処理である。ステップＳＰ５において、評価された第１候補を棄却するか（ＮＯ）、あるいは採用するか（ＹＥＳ）を判定する。

女性の候補の尤度値が算出された場合には、男性の候補の処理と同様にして、女性の登録内判定情報（αｉ，βｉ，Δｉ，γｉ）と女性の登録外判定情報（αｏ，βｏ，Δｏ，γｏ）をもとに、ステップＳＰ６ないしステップＳＰ９の処理が行われ、子供の候補の尤度値が算出された場合には、子供の登録内判定情報（αｉ，βｉ，Δｉ，γｉ）と子供の登録外判定情報（αｏ，βｏ，Δｏ，γｏ）をもとに、ステップＳＰ１０ないしステップＳＰ１３の処理が行われる。ステップＳＰ２ないしステップＳＰ１３の処理において、第１候補を採用することが判定されると、ステップＳＰ１４において、グルーピング評価が行われる。ステップＳＰ１４のグルーピング評価処理は、男性，女性，子供の候補のように、声の周波数帯域が異なっていてもグループ別に評価処理を行うことにより、棄却判断を正確に行うものである。

次に、図５に示した登録内フレーズ棄却評価処理について、図６に示すサブルーチンを参照して詳細に説明する。図５では、ステップＳＰ２において登録内フレーズ棄却評価処理を行い、ステップＳＰ３において判定処理を行うように示されているが、具体的には、登録内棄却評価処理と、判定処理は、図６に示す登録内フレーズ棄却評価処理により実行される。

ステップＳＰ２１において、前述の第１式の演算が行われ、その演算結果と、第１のしきい値である登録内判定情報αｉとの比較が行われる。ステップＳＰ２２において、第１式の演算結果が登録内判定情報αｉよりも大きいか否かを判定する。演算結果が登録内判定情報αｉよりも大きければ第１候補を採用する候補として判定され（ＹＥＳ）、ステップＳＰ２３の演算を行い、そうでなければ（ＮＯ）登録内フレーズ棄却処理を終了する。

ステップＳＰ２３において、第２式の演算が行われ、その演算結果と、第２のしきい値である登録内判定情報βｉとの比較が行われる。ステップＳＰ２４において、第２式の演算結果が登録内判定情報βｉよりも大きいか否かが判定される。演算結果が登録内判定情報βｉよりも大きければＹＥＳと判定され、ステップＳＰ２５の演算を行い、そうでなければＮＯと判定され、登録内フレーズ棄却処理を終了する。

ステップＳＰ２５において、第３式の演算が行われ、その演算結果と、第３のしきい値である登録内判定情報Δｉとの比較が行われる。ステップＳＰ２６において、第３式の演算結果が登録内判定情報Δｉよりも大きいか否かが判定される。演算結果が登録内判定情報Δｉよりも大きければけれＹＥＳと判定され、そうでなければＮＯと判定され、登録内フレーズ棄却処理を終了する。

ステップＳＰ２７の比較処理では第１候補の尤度値が第４のしきい値である登録内判定情報γｉよりも大きいか否かが判定される。ステップＳＰ２８において、第１候補の尤度値が登録内判定情報γｉよりも大きいか否かの判定結果に応じて、登録内フレーズ棄却の処理を終了する。ステップＳＰ２２，ＳＰ２４，ＳＰ２６，ＳＰ２８の処理において、ＮＯと判定された候補に対して棄却の決定が行われ、すべてＹＥＳと判定された候補に対して採用の決定が行われる。そして、ステップＳＰ２８の処理後に、図５に示すフローチャートの処理にリターンする。

登録外フレーズ棄却評価処理は、図５では、ステップＳＰ４において登録外フレーズ棄却評価処理を行い、ステップＳＰ５において判定処理を行うように示されているが、具体的には、登録外フレーズ棄却評価処理と、判定処理は、図７に示す登録外フレーズ棄却評価処理により実行される。すなわち、各候補の算出された尤度値に基づいて、前述の第１式〜第４式の演算を行い、その各候補を棄却するか否かを評価するためのしきい値となる登録外判定情報（αｏ，βｏ，Δｏ，γｏ）で判定する処理が行われる。

ステップＳＰ３１において、第１式の演算が行われ、その演算結果としきい値である登録外判定情報αｏとの比較が行われる。ステップＳＰ３２において、第１式の演算結果が登録外判定情報αｏよりも大きいか否かが判定される。演算結果が登録外判定情報αｏよりも大きければＹＥＳと判定され、ステップＳＰ３３の演算を行い、そうでなければＮＯと判定され、登録外フレーズ棄却処理を終了する。ステップＳＰ３３において、第２式の演算が行われ、その演算結果と登録外判定情報βｏとの比較が行われる。

ステップＳＰ３４において、第２式の演算結果が登録外判定情報βｏよりも大きい否かが判定される。演算結果が登録外判定情報βｏよりも大きければＹＥＳと判定され、ステップＳＰ３５の演算を行い、そうでなければＮＯと判定され、登録外フレーズ棄却処理を終了する。ステップＳＰ３５において、第３式の演算が行われ、その演算結果と登録外判定情報Δｏとの比較が行われる。

ステップＳＰ３６において、第３式の演算結果が登録外判定情報Δｏよりも大きいか否かを判定する。演算結果が登録外判定情報Δｏよりも大きければＹＥＳと判定され、ステップＳＰ３７において、第４式の比較処理を行い、そうでなければ登録内フレーズ棄却処理を終了する。ステップＳＰ３７の比較処理では第１候補の尤度値が登録外判定情報γｏよりも大きいか否かが判定される。ステップＳＰ３８において、第１候補の尤度値が登録外判定情報γｏよりも大きいか否かの判定結果に応じて、登録外フレーズ棄却の処理を終了する。ステップＳＰ３２，ＳＰ３４，ＳＰ３６，ＳＰ３８の処理において、ＮＯと判定された候補に対して棄却の決定が行われ、すべてＹＥＳと判定された候補に対して採用の決定が行われる。

図６に示す登録内フレーズ棄却評価処理において、第１候補の採用が決定されるとともに、図７に示す登録外フレーズ棄却評価処理において、異なる第１候補の採用が決定されたときには、例えば尤度差比の大きい方の第１候補を選択するようにすればよい。

図５に示したグルーピング評価処理は、図８に示すサブルーチンを実行することにより行われる。

図８に示すステップＳＰ４１において、次の第５式の演算が行われる。

（男性別の第１候補の尤度値×Ｋ１）≧（女性別の第１候補の尤度値×Ｋ２）
または（子供別の第１候補の尤度値×Ｋ３）・・・・・・（第５式）
なお、第５式では、≧で判別しているが、＞で判定してもよい。

また、Ｋ１，Ｋ２，Ｋ３は、それぞれ男性，女性，子供の候補にそれぞれ予め定められた定数であり、所定の割合で定められる。これは、子供のＨＭＭ音声モデルのバラツキが大きいため、男性および女性のＨＭＭ音声モデルよりも小さな値としている。

ステップＳＰ４２において、第５式の結果を判定し、男性の第１候補の尤度値が女性の第１候補の尤度値または子供の第１候補の尤度値よりも大きければ（ＹＥＳ）、ステップＳＰ４３において、男性の第１候補のフレーズが認識候補として採用される。ステップＳＰ４２において、男性の第１候補の尤度値が大きくない（ＮＯ）ことを判定すると、ステップＳＰ４４において、第６式の演算が行われる。

（女性の第１候補の尤度値×Ｋ２）
≧（子供の第１候補の尤度値×Ｋ３）・・・・・（第６式）
なお、第６式では、≧で判別しているが、＞で判定してもよい。

ステップＳＰ４５において、第６式の結果を判定し、女性の第１候補の尤度値が子供の第１候補の尤度値よりも大きければ（ＹＥＳ）、ステップＳＰ４６において、女性の第１候補のフレーズを認識候補として採用する。女性の第１候補の尤度値が大きくなければ（ＮＯ）、ステップＳＰ４７において、子供の第１候補のフレーズを認識候補として採用する。

図９〜図１２は、図５〜図８に示した処理により、登録内フレーズの発話されたフレーズを残し、登録外のフレーズを棄却するための動作を説明するための図である。ここでは、登録内フレーズおよび登録外フレーズの判定情報α、β、Δ、γは、同じ値を使用している。

図９の縦軸は第１式で求められる各候補の尤度差比を示し、図１０の縦軸は第１候補の尤度値から第２候補の尤度値を引いた第２式で求められる差分尤度値を示し、図１１の縦軸は、第１候補の尤度値から第８候補の尤度値を引いた第３式で求められる差分尤度値を示し、図１２の縦軸は第４式で求められる第１候補の尤度値を示している。各図における横軸は話者の番号を示している。

図９の特性ａ１は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者１〜話者５が登録内フレーズとして、例えば「７（ナナ）」を発話したときの各候補の尤度差比を示している。特性ｂ１は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者８〜話者１２が登録外フレーズとして、例えば「３（サン）」を発話したときの各候補の尤度差比を示している。特性ｃ１は、ＳＮ比が１０ｄＢ以下の雑音環境下において、話者１５〜話者１９が登録内フレーズとして、例えば「７（ナナ）」を発話したときの各候補の尤度差比を示している。

図１０の特性ｄ１は、ＳＮ比が２０ｄＢ以上の雑音環境下において、登録内フレーズとして、話者１〜話者５が「７（ナナ）」を発話したときに認識された候補の差分尤度値（第１候補と第２候補の尤度の差分）を示している。特性ｅ１は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者８〜話者１２が登録外フレーズとして、「３（サン）」を発話したときに認識された候補の差分尤度値（第１候補と第２候補の尤度の差分）を示している。特性ｆ１は、ＳＮ比が１０ｄＢ以下の雑音環境下において、話者１５〜話者１９が登録内フレーズとして、「７（ナナ）」を発話したときに認識された各候補の差分尤度値（第１候補と第２候補の尤度の差分）を示している。

図１１の特性ｇ１は、ＳＮ比が２０ｄＢ以上の雑音環境下において、登録内フレーズとして、話者１〜話者５が「７（ナナ）」を発話したときに認識された候補の差分尤度値（第１候補と第８候補の尤度の差分）を示している。特性ｈ１は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者８〜話者１２が登録外フレーズとして、「３（サン）」を発話したときに認識された候補の差分尤度値（第１候補と第８候補の尤度の差分）を示している。特性ｉ１は、ＳＮ比が１０ｄＢ以下の雑音環境下において、話者１５〜話者１９が登録内フレーズとして、「７（ナナ）」を発話したときに認識された各候補の差分尤度値（第１候補と第８候補の尤度の差分）を示している。

図１２の特性ｊ１は、ＳＮ比が２０ｄＢ以上の雑音環境下において、登録内フレーズとして、話者１〜話者５が「７（ナナ）」を発話したときに認識された第１候補の尤度値を示している。特性ｋ１は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者８〜話者１２が登録外フレーズとして、「３（サン）」を発話したときに認識された第１候補の尤度値を示している。特性ｍ１は、ＳＮ比が１０ｄＢ以下の雑音環境下において、話者１５〜話者１９が登録内フレーズとして、「７（ナナ）」を発話したときに認識された第１候補の尤度値を示している。

図９の特性において、しきい値を太線で示す判定情報αを例えば「１．３」に設定すると、尤度差比値が判定情報α以上である、特性ａ１に関する話者１〜話者５の発話した登録内フレーズの候補と特性ｃ１に関する話者１５〜話者１９の発話した登録内フレーズの候補を採用でき、尤度差比値が判定情報α以下である、特性ｂ１における話者９、話者１２の発話した登録外フレーズの候補いずれも棄却できる。

図１０において、しきい値を太線で示す判定情報βを「３５０」に設定することにより、差分尤度値が判定情報β以上である、特性ｄ１に関する話者１〜話者５の発話した登録内フレーズの候補と特性ｆ１に関する話者１５〜話者１９の発話した登録内フレーズの候補を採用でき、差分尤度値が判定情報β以下である、特性ｅ１における話者８、話者９、話者１１、話者１２の発話した登録外フレーズの候補を棄却できる。

図１１において、しきい値を太線で示す判定情報Δを「７００」に設定することにより、差分尤度値が判定情報Δ以上である、特性ｇ１に関する話者１〜話者５の発話した登録内フレーズの候補と特性ｉ１に関する話者１５〜話者１９の発話した登録内フレーズの候補を採用でき、差分尤度値が判定情報Δ以下である、特性ｈ１における話者８、話者１０、話者１１、話者１２の発話した登録外フレーズの候補を棄却できる。

図１２において、しきい値を太線で示す判定情報γを「１２３００」に設定することにより、尤度値が判定情報γ以上である、特性ｊ１に関する話者１〜話者５の発話した登録内フレーズの候補と特性ｍ１に関する話者１５〜話者１９の発話した登録内フレーズの候補を採用できる。このように、判定情報α、β、Δ、γを最適に設定することにより、登録内フレーズの候補は採用され、登録外フレーズの候補は棄却できる。例えば、１フレーズに対して、１００個のサンプルデータを用意し、各判定情報α、β、Δ、γの実際の値を入力し、そのときに棄却率が高くなる判定情報を採用する。

図９〜図１２では、処理速度を向上させるために、第１式〜第４式におけるしきい値である判定情報α，β，Δ，γを用いている。すなわち、登録内判定情報（αｉ，βｉ，Δｉ，γｉ）と、登録外判定情報（αｏ，βｏ，Δｏ，γｏ）から、αｉとαｏとを求め、その値で棄却率が最適になるときの値をαとしている。これらは、尤度値の最も高いフレーズごとにコンピュータ上でシミュレーションを行い、音声認識する上で最も好ましいと思われるデータを基にして最適なパラメータを定めている。同様にして、βｉ，Δｉ，γｉとβｏ，Δｏ，γｏとをそれぞれ求め、それぞれの値で棄却率が最適となるときの値をそれぞれβ，Δ，γとしている。なお、特性ｂ１，ｅ１，ｈ１に関しては、図９，図１０，図１１の処理により廃棄できている。

図１３〜図１６は、同じく、５人の話者が登録内フレーズ「スタート」、登録外フレーズ「ストップ」を発話したとき、および言葉以外の雑音を入力したときに、それぞれしきい値を判定情報α，β，Δ，γで評価したときの結果の分布を特性で示した図である。

図１３において、縦軸は尤度差比を示し、横軸は話者の番号を示している。特性ａ２は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者１〜話者５が登録内フレーズ「スタート」を発話したときの各候補の尤度差比を示している。特性ｂ２は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者８〜話者１２が登録外フレーズ「ストップ」を発話したときの各候補の尤度差比を示している。特性ｃ２は、ＳＮ比が１０ｄＢ以下の雑音環境下において、話者１５〜話者１９が登録内フレーズ「スタート」を発話したときの各候補の尤度差比を示している。

図１４において、縦軸は尤度値を示し、横軸はそれぞれ話者の番号を示している。特性ｄ２は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者１〜話者５が登録内フレーズ「スタート」を発話したときの各候補の差分尤度値（第１候補と第２候補の尤度の差分）を示している。特性ｅ２は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者８〜話者１２が登録外フレーズ「ストップ」を発話したときの各候補の差分尤度値（第１候補と第２候補の尤度の差分）を示している。特性ｆ２は、ＳＮ比が１０ｄＢ以下の雑音環境下において、話者１５〜話者１９が登録内フレーズ「スタート」を発話したときの各候補の差分尤度値（第１候補と第２候補の尤度の差分）を示している。

図１５において、縦軸は尤度値を示し、横軸はそれぞれ話者の番号を示している。特性ｇ２は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者１〜話者５が登録内フレーズ「スタート」を発話したときの各候補の差分尤度値（第１候補と第８候補の尤度の差分）を示している。特性ｈ２は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者８〜話者１２が登録外フレーズ「ストップ」を発話したときの各候補の差分尤度値（第１候補と第８候補の尤度の差分）を示している。特性ｉ２は、ＳＮ比が１０ｄＢ以下の雑音環境下において、話者１５〜話者１９が登録内フレーズ「スタート」を発話したときの各候補の差分尤度値（第１候補と第８候補の尤度の差分）を示している。

図１６において、縦軸は尤度値を示し、横軸はそれぞれ話者の番号を示している。特性ｊ２は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者１〜話者５が登録内フレーズ「スタート」を発話したときの各候補の尤度値（第１候補の尤度値）を示している。特性ｋ２は、ＳＮ比が２０ｄＢ以上の雑音環境下において、話者８〜話者１２が登録外フレーズ「ストップ」を発話したときの各候補の尤度値（第１候補の尤度値）を示している。特性ｍ２は、ＳＮ比が１０ｄＢ以下の雑音環境下において、話者１５〜話者１９が登録内フレーズ「スタート」を発話したときの各候補の尤度値（第１候補の尤度値）を示している。

図１３〜図１６に示した例においても、図９〜図１２と同様に処理することで、登録外フレーズを発話した話者８〜話者１２の候補を棄却することができる。

図１７は、衝撃音などの言葉以外の種々の音声を１３種類の雑音系列として入力したときの評価の結果の分布を示す図であり、図１８〜図２１は、雑音である１３種類の音声の認識候補をしきい値として判定情報α，β，Δ，γで評価したときの結果の分布を示す図である。図１８〜図２１に示す各候補は、登録内フレーズ以外の雑音であるため、棄却する必要がある。

図１８に示すように、しきい値の判定情報αを「０．７」に設定すると、雑音２，３，１２以外の雑音１，雑音４〜雑音１１，雑音１３の候補は尤度値が判定情報α以下であるため、これらを棄却できる。図１９に示すように、しきい値の判定情報βを「３００」に設定すると、雑音２以外の候補は尤度値が判定情報βであるためこれらを棄却できる。図２０に示すように、しきい値の判定情報Δを「６００」に設定すると、雑音３〜雑音８、雑音１０〜雑音１３の候補は尤度値が判定情報Δ以下であるため、これらを棄却できる。図２１に示すように、しきい値の判定情報γを「１３０００」に設定すると、雑音１，雑音２，雑音４，雑音７〜雑音９の候補は尤度値が判定情報γ以下であるため、これらを除去できる。したがって、しきい値を判定情報α，β，Δ，γで判定すれば雑音１〜雑音１３の候補をすべて棄却できる。

なお、上記の実施の形態においては、第１候補を棄却するかあるいは採用するかを判定する際に、まず、第１式を演算してしきい値αと判定し、次に、第２式を演算してしきい値βと判定し、そして、第３式を演算してしきい値Δと判定し、さらに、第４式を演算してしきい値γと判定する、という順である例について説明したが、これに限ることなく、まず、第４式を演算してしきい値γと判定してもよいし、これらの判定の順は、任意である。

上述のごとく、この実施形態によれば、入力した音声をフレーズごとの尤度値の分布を算出し、その尤度値分布をしきい値である判定情報α，β，Δ，γで評価することにより、尤度値の低い登録内フレーズの候補を棄却したり、登録外フレーズの候補を棄却したり、言葉以外の雑音を棄却することができ、棄却率を向上できる。

また、入力した音声の特性を例えば、男性，女性，子供などにグループ分けし、詳細評価をグループごとに行うことにより、より正確な判断が可能になる。

また、判定情報α，β，Δ，γは、記憶装置３４に記憶されるフレーズごとに最適化することにより尤度値の低い登録内フレーズの棄却率、登録外フレーズの棄却率の向上を図ることができる。最適化は、例えば１フレーズに対して、１００個のサンプルデータを用意し、各判定情報α、β、Δ、γの実際の値を入力し、そのときに棄却率が高くなる判定情報を採用することにより、棄却率を向上できる。

ここで、具体的に、しきい値である判定情報α，β，Δ，γをフレーズごとに設定する場合について説明する。図２２は、しきい値である判定情報α、β、Δ、γをフレーズごとに設定する場合について示すフローチャートである。図２２を参照して、説明する。

まず、登録内フレーズの音声の入力を受け付ける（Ｓ５１）。この登録内フレーズの音声は、音声認識装置１を使用する環境の雑音を重畳したものや、ユーザにとって騒々しいと感じる雑音環境条件下として、白色雑音（ホワイトノイズ）を１０ｄＢ重畳したものである。そして、上記と同様に、音声特徴量の算出等を行い、記憶装置３４に記憶されているデータに基づいて、尤度値を算出する（Ｓ５２）。

そして、１個の登録内フレーズにつき、所定の個数分、例えば、上記したように１００個分のデータにおいてＳ５１〜Ｓ５２を繰り返す（Ｓ５３において、ＮＯ）。そして、１００個分を終了すると（Ｓ５３において、ＹＥＳ）、まず、第４式のしきい値γを算出する（Ｓ５４）。第４式のしきい値γは、判定する際の認識パス率が、例えば９９％になるように算出される。認識パス率とは、音声認識が正しい場合における通過率を示しており、音声認識が正しいフレーズを棄却することなく通過させた回数÷音声認識が正しい回数×１００で算出される。具体的には、１００個分のデータにおいて、９８個分の音声認識が正しい場合には、９８個分のうち９７個分を棄却することなく通過させるように算出される。さらに、第４式のしきい値γは、所定の値、例えば１００００以上の値になるように算出される。

次に、第３式のしきい値Δを算出する（Ｓ５５）。第３式のしきい値Δは、Ｓ５４における第４式のしきい値γとあわせて、判定する際の認識パス率が、例えば９０％になるように算出される。具体的には、１００個分のデータにおいて、９８個分の音声認識が正しい場合には、９８個分のうち８８個分を棄却することなく通過させるように算出される。さらに、第３式のしきい値Δは、所定の値、例えば２００以上の値になるように算出される。

次に、第１式のしきい値αを算出する（Ｓ５６）。第１式のしきい値αは、Ｓ５４における第４式のしきい値γと、Ｓ５５における第３式のしきい値Δとあわせて、判定する際の認識パス率が、例えば８５％になるように算出される。具体的には、１００個分のデータにおいて、９８個分の音声認識が正しい場合には、９８個分のうち８３個分を棄却することなく通過させるように算出される。さらに、第１式のしきい値αは、所定の値、例えば０．１以上の値になるように算出される。

そして、第２式のしきい値βを算出する（Ｓ５７）。第２式のしきい値βは、Ｓ５４における第４式のしきい値γと、Ｓ５５における第３式のしきい値Δと、Ｓ５６における第１式のしきい値αとあわせて、判定する際の認識パス率が、例えば８０％になるように算出される。具体的には、１００個分のデータにおいて、９８個分の音声認識が正しい場合には、９８個分のうち７８個分を棄却することなく通過させるように算出される。さらに、第２式のしきい値βは、所定の値、例えば９０以上の値になるように算出される。

そして、Ｓ５７において、第２式のしきい値βで判定する際の認識パス率が、８０％より大きいか否かを判定する。ここで、８０％より大きい場合には（Ｓ５８において、ＹＥＳ）、登録外フレーズの音声の入力を受け付ける（Ｓ５９）。この登録外フレーズの音声においても、登録内フレーズの音声と同様に、音声認識装置１を使用する環境の雑音を重畳したものや、ユーザにとって騒々しいと感じる雑音環境条件下として、白色雑音を１０ｄＢ重畳したものである。そして、尤度値を算出する（Ｓ６０）。

そして、Ｓ５４〜Ｓ５７において算出したしきい値γ，Δ，α，βを用いて、登録外フレーズが棄却されるか否かを判定する。ここで、棄却される場合には（Ｓ６１において、ＹＥＳ）、算出したしきい値γ，Δ，α，βを判定情報として採用する（Ｓ６２）。

なお、Ｓ５８において、第２式のしきい値βで判定する際の認識パス率が、８０％以下の場合には（Ｓ５８において、ＮＯ）、入力を受け付けた登録内フレーズに近似語が存在する可能性が高いため、その近似語を除去して、再度、第３式のしきい値Δ、第１式のしきい値α、および第２式のしきい値βを算出する。これにより、判定時における認識パス率が、８０％より大きくなるよう調整する。

また、Ｓ６１において、棄却されない場合には（Ｓ６１において、ＮＯ）、第２式のしきい値βを大きくする（Ｓ６３）。具体的には、第２式のしきい値βを１加算する。これにより、棄却されるよう調整する。

このように、簡易な方法で、しきい値である判定情報α，β，Δ，γを算出することができるため、処理時間を軽減させることができる。また、しきい値を調整するのみで、棄却する際のレベルの調整を容易に行うことができる。

例えば、棄却レベルの低いしきい値と、棄却レベルの高いしきい値と、上記において算出した基準となるしきい値とを用いて、棄却レベルの調整を行う。棄却レベルの低いしきい値とは、認識パス率が一律に例えば９５％になるように算出した場合を下限とするしきい値である。また、棄却レベルの高いしきい値とは、第１式のしきい値αにおいて、認識パス率が例えば８０％になるように算出し、第２式のしきい値βにおいて、認識パス率が例えば７０％となるように算出した場合を上限とするしきい値である。

また、しきい値である判定情報α，β，Δ，γをフレーズごとに設定する場合には、第４式のしきい値γ、第３式のしきい値Δ、第１式のしきい値α、第２式のしきい値βの順に算出する。これにより、徐々に通過させる範囲を狭くするよう調整することができる。

なお、Ｓ６１において、棄却されない場合には、第２式のしきい値βを大きくするよう制御する例について説明したが、これに限ることなく、第１式のしきい値αを大きくするよう制御してもよいし、棄却されない個数が、所定の個数、例えば２個以下の場合には、第２式のしきい値βを大きくしなくてもよい。このように、棄却されない個数に応じて、しきい値を調整することとしてもよい。

また、しきい値である判定情報α，β，Δ，γを外部から任意に設定可能にしてもよい。こうすることにより、例えば、音声認識装置１において、棄却する際のレベルの調整を外部から行うことができる。

図２３は、図１に示す電子機器１０を照明機器４０に適用した場合を示すブロック図である。図２３を参照して、照明機器４０の構成について説明する。照明機器４０は、マイクロフォン９と、音声認識装置１と、照明機器４０の本体となる本体部４０ａとを備える。本体部４０ａは、本体部４０ａ全体を制御する制御部４１と、音声認識装置１からの指示を受け付ける受付部４２と、電球等の光の点灯および消灯を制御するスイッチ回路を有し、受付部４２からの指示に従って、電球等の光を点灯および消灯する点灯部４３とを備える。

制御部４１は、受付部４２から指示の受け付けを行うと、指示に対応する動作を行う。具体的には、受付部４２から所定の番号の受け付けを行うことによって、その番号に対応する動作を行う。所定の番号は、照明機器４０の具備する動作内容ごとに定められている。例えば、番号１に対応する動作は点灯であって、番号２に対応する動作は消灯である。すなわち、動作内容は、点灯および消灯のようなＯＮ−ＯＦＦの動作であって、２値によって定められる。また、番号３に対応する動作は点灯した光を１段階明るくさせる調光であって、番号４に対応する動作は点灯した光を２段階明るくさせる調光である。また、番号５に対応する動作は点灯した光を１段階暗くさせる調光であって、番号６に対応する動作は点灯した光を２段階暗くさせる調光である。すなわち、動作内容は、複数の段階の動作であって、多値によって定められる。

音声認識装置１は、本体部４０ａの外部に取り付けられており、受付部４２に対して、採用が決定した音声認識候補のフレーズに対応する番号を出力する。すなわち、発話された言葉に対応する番号を出力する。

具体的には、音声認識候補となるフレーズには、所定の番号が関連付けられており、採用が決定した音声認識候補のフレーズに対応する番号を出力する。例えば、「ツケル」という言葉に対応する番号は１であって、「ケス」という言葉に対応する番号は２である。また、「アカルクイチ」という言葉に対応する番号は３であって、「アカルクニ」という言葉に対応する番号は４であって、「クラクイチ」という言葉に対応する番号は５であって、「クラクニ」という言葉に対応する番号は６である。

ここで、照明機器４０を点灯する場合について説明する。図２４は、照明機器４０を点灯する場合における照明機器４０の動作を示すフローチャートである。図２３および図２４を参照して、説明する。

まず、音声認識装置１は、マイクロフォン９を介して、「ツケル」という音声の入力を受け付ける（Ｓ７１）。そうすると、入力された「ツケル」という音声に対して、上記と同様に、音声認識候補を選び出し、選び出した音声認識候補を棄却するか否かを判定する。ここでは、「ツケル」の採用が決定する（Ｓ７２）。

そうすると、音声認識装置１は、本体部４０ａに対して「ツケル」という言葉に対応する番号を出力する（Ｓ７３）。ここでは「ツケル」という言葉に対応する番号は、１である。したがって、音声認識装置１は、本体部４０ａに対して、番号１を出力する。

そうすると、照明機器４０の制御部４１は、番号１に対応する所定の動作を行う（Ｓ７４）。ここでは、番号１に対応する動作は、点灯が割り当てられているため、点灯部４３を点灯するよう制御する。例えば、スイッチ回路をＯＮして、点灯部４３へ電圧を送信することによって、点灯部４３を点灯するよう制御する。

次に、照明機器４０の光を調光する場合について説明する。図２５は、照明機器４０の光を調光する場合における照明機器４０の動作を示すフローチャートである。図２３および図２５を参照して、照明機器４０の光を調光する場合について説明する。

まず、音声認識装置１は、マイクロフォン９を介して、「アカルクイチ」という音声の入力を受け付ける（Ｓ８１）。そうすると、入力された「アカルクイチ」という音声に対して、上記と同様に、音声認識候補を選び出し、選び出した音声認識候補を棄却するか否かを判定する。ここでは、「アカルクイチ」の採用が決定する（Ｓ８２）。

そうすると、音声認識装置１は、「アカルクイチ」という言葉に対応する番号を出力する（Ｓ８３）。ここでは「アカルクイチ」という言葉に対応する番号は、３である。したがって、音声認識装置１は、本体部４０ａに対して、番号３を出力する。

そうすると、照明機器４０の制御部４１は、番号３に対応する所定の動作を行う（Ｓ８４）。ここでは、番号３に対応する動作は、点灯した光を１段階明るくさせる調光が割り当てられているため、点灯部４３へ送信する電圧を大きくすることによって、点灯した光を１段階明るくするよう調光する。

このように、電子機器１０は、音声認識装置１によって認識された音声に基づいて、電子機器１０に対して、所定の動作を行うよう制御する。この場合、電子機器１０は、認識率を向上した音声認識装置１を備える。その結果、音声に基づいて、確実に所定の動作を行うことができる。

なお、上記の実施の形態においては、電子機器１０を照明機器４０に適用する例について説明したが、これに限ることなく、テレビ等を操作するためのリモコン装置にも適用することもできる。

ここで、リモコン装置に適用した場合について説明する。図２６は、電子機器１０をリモコン装置５０に適用した場合を示す図である。図２６を参照して、リモコン装置５０は、マイクロフォン９と、音声認識装置１と、リモコン装置５０の本体となる本体部５０ａとを備える。本体部５０ａは、本体部５０ａ全体を制御する制御部５１と、音声認識装置１からの指示を受け付ける受付部５２と、テレビ６０と通信を行う通信部５３とを備える。リモコン装置５０は、テレビ６０と例えば赤外線通信を行うことによって、テレビ６０の電源をＯＮ−ＯＦＦしたり、音量を変更したり、チャンネルを変更したりして、テレビ６０を操作する。具体的には、受付部５２から所定の番号の受け付けを行うことによって、その番号に対応する赤外線データを送信することによりテレビ６０を操作する。例えば、番号１に対応する赤外線データは、テレビ６０の電源をＯＮすることであって、番号１０に対応する赤外線データは、テレビ６０のチャンネルを１に変更することであって、番号２０に対応する赤外線データは、テレビ６０の音量を大きくすることである。

音声認識装置１は、リモコン装置５０の外部に取り付けられており、受付部５２に対して、採用が決定した音声認識候補のフレーズに対応する番号を出力する。例えば、「オン」という言葉に対応する番号は１であって、「チャンネルイチ」という言葉に対応する番号は１０であって、「オトヲオオキク」という言葉に対応する番号は２０である。

ここで、テレビ６０のチャンネルを変更する場合について説明する。図２７は、テレビ６０のチャンネルを変更する場合におけるリモコン装置５０およびテレビ６０の動作を示すフローチャートである。図２６および図２７を参照して、説明する。

まず、音声認識装置１は、マイクロフォン９を介して、「チャンネルイチ」という音声の入力を受け付ける（Ｓ９１）。そうすると、入力された「チャンネルイチ」という音声に対して、上記と同様に、音声認識候補を選び出し、選び出した音声認識候補を棄却するか否かを判定する。ここでは、「チャンネルイチ」の採用が決定する（Ｓ９２）。

そうすると、音声認識装置１は、本体部５０ａに対して「チャンネルイチ」という言葉に対応する番号を出力する（Ｓ９３）。ここでは「チャンネルイチ」という言葉に対応する番号は、１０である。したがって、音声認識装置１は、本体部５０ａに対して、番号１０を出力する。

そうすると、リモコン装置５０の制御部５１は、番号１０に対応する所定の動作を行う（Ｓ９４）。ここでは、番号１０に対応する動作は、テレビ６０のチャンネルを１に変更することであるため、通信部５３を介して、テレビ６０のチャンネルを１に変更するよう赤外線通信を行う。

テレビ６０は、リモコン装置５０からの通信を受けて、チャンネルを１に変更する（Ｓ９５）。

また、電子機器１０は、上記の実施の形態に限らず、例えば、カメラにも適用することができる。この場合、音声認識装置１を用いて、シャッタの押下や、撮影モードの変更等を行うことができる。また、電話にも適用することができる。この場合、音声認識装置１を用いて、電話番号を入力して電話をかけたり、電話帳の登録等を行うことができる。また、時計にも適用することができる。この場合、音声認識装置１を用いて、アラームの設定や、時刻の調整等を行うことができる。また、玩具のコントローラ、冷蔵庫、洗濯機、エアコン、扇風機、コンピュータ、デジタル複合機、ラジオ、オーディオ機器、調理機器等、あらゆる電子機器に適用することができる。

また、上記の実施の形態においては、音声認識装置１は、電子機器１０の本体となる本体部１０ａの外部に取り付けられている例について説明したが、これに限ることなく、内部に組み込んでもよい。

また、上記の実施の形態においては、音声認識装置１は、日本語の音声を認識する例について説明したが、これに限ることなく、英語、中国語、韓国語等のあらゆる言語を認識することができる。

以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。

この発明は、入力された音声を登録されたフレーズ単位で認識し、認識した候補のうち、尤度値の低い候補を棄却する音声認識装置、音声認識方法およびこのような音声認識装置を備える電子機器に有効に利用される。

１音声認識装置、２雑音区間検出装置、３ロバスト音声認識装置、４認識フィルタリング装置、９マイクロフォン、１０電子機器、２１音声パワー算出回路、２２音声区間検出回路、３１音声特徴量算出回路、３２雑音ロバスト処理回路、３３推定処理尤度算出回路、３４記憶装置、３５データ、３６男性登録フレーズデータ、３７女性登録フレーズデータ、３８子供登録フレーズデータ、４０照明機器、１０ａ，４０ａ，５０ａ本体部、４１，５１制御部、４２，５２受付部、４３点灯部、５０リモコン装置、５３通信部、６０テレビ。

Claims

雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置であって、
前記発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、
前記フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、
前記音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、前記フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して尤度値を算出する尤度値算出手段と、
前記尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に複数の音声認識候補を選び出す候補抽出手段と、
前記候補抽出手段によって選び出された前記複数の音声認識候補のそれぞれの尤度値の分布に基づいて、前記選び出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備える、音声認識装置。
雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置であって、
前記発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、
前記フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、
前記音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、前記フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して複数の音声認識候補の尤度値を算出する尤度値算出手段と、
前記尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に第１音声認識候補、前記第１音声認識候補より下位の第２音声認識候補、前記第２音声認識候補よりも下位の第３音声認識候補を選び出す候補抽出手段と、
前記候補抽出手段によって抽出された前記第１音声認識候補と前記第２音声認識候補の尤度値の差と、前記第２音声認識候補と前記第３音声認識候補の尤度値の差との、尤度差比に基づいて、前記抽出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備える、音声認識装置。
前記認識フィルタリング手段は、前記尤度差比が、所定の値よりも小さければ、前記第１音声認識候補を棄却し、前記所定の値よりも大きければ、前記第１音声認識候補を音声認識の対象とする、請求項２に記載の音声認識装置。
前記フレーズ記憶手段は、音声の特徴別のグループの音声パターン系列情報を記憶しており、
前記認識フィルタリング手段は、音声の特徴別のグループの前記尤度差比に基づいて、前記抽出された第１音声認識候補を棄却するか否かを判定する第１の判定手段を含む、請求項２に記載の音声認識装置。
前記認識フィルタリング手段は、前記第１音声認識候補の尤度値と、前記第２音声認識候補の尤度値とに基づいて、前記抽出された第１音声認識候補を棄却するか否かを判定する第２の判定手段を含む、請求項２に記載の音声認識装置。
前記尤度値算出手段は、前記第３音声認識候補よりも下位の第４音声認識候補を抽出し、
前記認識フィルタリング手段は、前記第１音声認識候補の尤度値と、前記第４音声認識候補の尤度値との差に基づいて、前記抽出された第１音声認識候補を棄却するか否かを判定する第３の判定手段を含む、請求項２に記載の音声認識装置。
前記認識フィルタリング手段は、前記第１音声認識候補の尤度値に基づいて、前記抽出された第１音声認識候補を棄却するか否かを判定する第４の判定手段とを含む、請求項２に記載の音声認識装置。
前記候補抽出手段は、前記第１音声認識候補よりも下位の音声認識候補に前記第１音声認識候補の音声パターン系列情報に近似する音声認識候補が存在する場合には、前記音声認識候補を除外し、前記音声認識候補よりも下位の音声認識候補を抽出する、請求項２に記載の音声認識装置。
雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識方法であって、
前記発話された音声のフレーズごとの音声特徴量を算出するステップと、
前記算出されたフレーズごとの音声特徴量と、予め記憶されている複数のフレーズの音声パターン系列情報とを比較して音声認識の対象とする複数の音声認識候補の尤度値を算出するステップと、
前記各フレーズごとに前記算出された尤度値に基づいて、尤度値の高い順に第１音声認識候補、前記第１音声認識候補より下位の第２音声認識候補、前記第２音声認識候補よりも下位の第３音声認識候補を選び出すステップと、
前記選び出された前記第１音声認識候補と、前記第２音声認識候補の尤度値の差と、前記第２音声認識候補と、前記第３音声認識候補の尤度値の差との尤度差比を比較するステップと、
前記尤度差比が所定の値よりも小さければ、前記第１音声認識候補を棄却し、前記所定の値よりも大きければ、前記第１音声認識候補を前記音声認識の対象とするステップとを備える、音声認識方法。
雑音環境下において、発話された音声を登録されているフレーズごとに認識する音声認識装置を備える電子機器であって、
前記音声認識装置は、
前記発話された音声のフレーズごとの音声特徴量を算出する音声特徴量算出手段と、
前記フレーズごとの音声パターン系列情報を記憶するフレーズ記憶手段と、
前記音声特徴量算出手段によって算出されたフレーズごとの音声特徴量と、前記フレーズ記憶手段に記憶されている複数のフレーズの音声パターン系列情報とを比較して尤度値を算出する尤度値算出手段と、
前記尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に複数の音声認識候補を選び出す候補抽出手段と、
前記候補抽出手段によって選び出された前記複数の音声認識候補のそれぞれの尤度値の分布に基づいて、前記選び出された音声認識候補を棄却するか否かを判定する認識フィルタリング手段とを備え、
前記電子機器は、
前記音声認識装置によって認識された音声に基づいて、前記電子機器に対して所定の動作を行うよう制御する制御手段を備える、電子機器。
前記尤度値算出手段は、複数の音声認識候補の尤度値を算出し、
前記候補抽出手段は、前記尤度値算出手段によって算出された尤度値に基づいて、尤度値の高い順に第１音声認識候補、前記第１音声認識候補より下位の第２音声認識候補、前記第２音声認識候補よりも下位の第３音声認識候補を選び出し、
前記認識フィルタリング手段は、前記候補抽出手段によって抽出された前記第１音声認識候補と前記第２音声認識候補の尤度値の差と、前記第２音声認識候補と前記第３音声認識候補の尤度値の差との、尤度差比に基づいて、前記抽出された音声認識候補を棄却するか否かを判定する、請求項１０に記載の電子機器。
前記音声認識装置によって認識された音声は、所定の番号と関連付けられており、前記所定の番号は、前記電子機器の具備する動作内容ごとに定められている、請求項１０に記載の電子機器。
前記動作内容は、２値によって定められている、請求項１２に記載の電子機器。
前記動作内容は、多値によって定められている、請求項１２に記載の電子機器。