WO2010086927A1

WO2010086927A1 - 音声認識装置

Info

Publication number: WO2010086927A1
Application number: PCT/JP2009/005487
Authority: WO
Inventors: 海老原充; 石井純; 坂下博紀; 野木和行
Original assignee: 三菱電機株式会社
Priority date: 2009-01-30
Filing date: 2009-10-20
Publication date: 2010-08-05
Also published as: JPWO2010086927A1; CN102246226A; JP4772164B2; DE112009003930T5; DE112009003930B4; US20110196672A1; CN102246226B; US8200478B2

Abstract

　認識対象文の候補の中から音声片数が所定値以下である文を認識対象文として選択する文選択部２２を備える。

Description

音声認識装置

　この発明は、音声認識装置に関するものである。

　従来の音声認識装置としては、新規語彙と既登録語彙との混同のしやすさを数値化し、この数値を評価して新規語彙を登録するか否かを判定するものがある（例えば、特許文献１参照）。また、特許文献２には、音声認識用の記憶装置を階層構造とし、包括範囲を次第に狭めることで次発話内容を予測しながら認識を行う音声認識装置が開示されている。

特開２００２－２９７１８１号公報特開２００４－３２５７０４号公報

　従来の音声認識装置は、認識対象とする文のテキスト表記を用いて音声認識辞書を作成する。ここで、認識対象とする文数が多い場合や文が長い場合には、音声認識辞書サイズが大きくなる。例えば、ナビゲーションシステムや携帯電話等の機器に対する組み込みソフトウェアで音声認識装置を実現する場合、当該機器のメモリには制約が存在するため、音声認識辞書サイズがメモリの使用可能容量を超えると、音声認識装置が正常に動作しなくなるという課題があった。

　これに対し、特許文献１は、新規語彙と既登録語彙との混同のしやすさに関する評価値から新規語彙を登録するか否かを判定するものであるが、音声認識装置を組み込みソフトウェアで実現する場合が考慮されておらず、メモリの容量に制約がある場合が考慮されていないため、上記課題を解決することができない。

　また、特許文献２では、語彙の増加による認識性能の低下を考慮して音声認識辞書を作成するものであり、上記と同様にメモリの容量に制約がある場合を考慮していないため、上記課題を解決することができない。

　この発明は、上記のような課題を解決するためになされたもので、音声認識辞書の辞書サイズの増大を抑制することができる音声認識装置を得ることを目的とする。

　この発明に係る音声認識装置は、認識対象文の候補の中から音声片数が所定値以下である文を認識対象文として選択する文選択部を備えるものである。

　この発明によれば、認識対象文の候補の中から音声片数が所定値以下である文を認識対象文として選択するので、当該認識対象文から構成される音声認識辞書のサイズの増大を抑制することができ、ナビゲーションシステムや携帯電話等の機器に対する組み込みソフトウェアで音声認識装置を実現する場合であっても、メモリの使用可能容量以内の辞書サイズを実現できるという効果がある。

この発明の実施の形態１による音声認識装置の構成を示すブロック図である。実施の形態１の音声認識装置による動作の流れを示すフローチャートである。認識対象文候補の除外処理を説明するための図である。この発明の実施の形態２による音声認識装置の構成を示すブロック図である。実施の形態２の音声認識装置による動作の流れを示すフローチャートである。実施の形態２の辞書作成処理部による処理を説明するための図である。この発明の実施の形態３による音声認識装置の構成を示すブロック図である。実施の形態３の音声認識装置による動作の流れを示すフローチャートである。認識対象文候補の文打ち切り処理を説明するための図である。この発明の実施の形態４による音声認識装置の構成を示すブロック図である。実施の形態４の音声認識装置による動作の流れを示すフローチャートである。この発明の実施の形態５による音声認識装置の構成を示すブロック図である。実施の形態５の音声認識装置による動作の流れを示すフローチャートである。除外する語彙の通知例を示す図である。

　以下、この発明をより詳細に説明する為に、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、この発明の実施の形態１による音声認識装置の構成を示すブロック図である。図１において、実施の形態１による音声認識装置１は、辞書作成処理部２及び音声認識処理部３を備える。辞書作成処理部２は、予め定めた音声片数以下の文だけで構成した音声認識辞書を作成する手段であり、認識対象文候補の記憶部２１、文選択部２２、認識対象文の記憶部２３、音声認識辞書作成部２４及び音声認識辞書の記憶部２５を備える。

　記憶部２１に格納される認識対象文候補は、音声認識装置１で認識させるべきテキストの候補と当該テキストの発音内容を示す音声片との組から構成される。ここで、認識対象文とは、音声片が予め定めた数以下の文をいう。また、音声片とは、音素や音節等の短い音声単位である。この音声片数が多い程、音声認識辞書のサイズが増加する。そこで、実施の形態１による音声認識装置１では、予め定めた音声片数以下の文のみで音声認識辞書を作成し、辞書サイズの増大を防いでいる。

　文選択部２２は、音声片である音素を基準とし、認識対象文候補の中から、１つの認識対象文に対して予め設定した音素数の定義値を超える認識対象文候補を除外して、上記定義値以内の音素数の認識対象文を選択する手段である。音声認識辞書作成部２４は、記憶部２３から読み出した認識対象文を用いて音声認識辞書を作成する手段である。

　音声認識処理部３は、音声認識辞書の記憶部２５及び音声認識部２６を備える。音声認識部２６は、記憶部２５に格納される音声認識辞書を参照して、ユーザが発話した認識対象の音声（以下、認識対象音声と呼ぶ）について音声認識処理を実行し、認識結果を得る手段である。

　なお、文選択部２２、音声認識辞書作成部２４及び音声認識部２６は、この発明の趣旨に従う辞書作成・音声認識用プログラムをコンピュータに読み込ませ、そのＣＰＵに実行させることで、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータ上で実現することができる。また、認識対象文候補の記憶部２１、認識対象文の記憶部２３及び音声認識辞書の記憶部２５は、上記コンピュータが備える記憶装置（例えば、ハードディスク装置や外部記憶メディアなど）の記憶領域上に構築することができる。

　次に動作について説明する。
　図２は、実施の形態１の音声認識装置による動作の流れを示すフローチャートであり、図２中に記号Ａを付した破線で囲まれる処理ステップは、辞書作成処理部２による処理を示しており、記号Ｂを付した破線で囲まれる処理ステップは、音声認識処理部３による処理を示している。

　先ず、文選択部２２は、音声認識辞書を作成するための認識対象文候補を記憶部２１から読み出して用意する（ステップＳＴ１）。次に、文選択部２２は、各認識対象文候補に対して処理順に付した通し番号である文番号Ｎをカウントするカウンタ（図１において不図示）のカウント値を０（Ｎ＝０）に初期化する（ステップＳＴ２）。

　文選択部２２は、上記カウンタのカウント値を１インクリメントして（ステップＳＴ３）、文番号Ｎが記憶部２１から読み出した認識対象文候補数以内の数であるか否かを判定する（ステップＳＴ４）。ここで、文番号Ｎが認識対象文候補数以内の数であると（ステップＳＴ４；Ｙｅｓ）、文選択部２２は、現在の文番号Ｎに対応する認識対象文候補の音声片の数が定義値以内に収まっているか否かを判定する（ステップＳＴ５）。文番号Ｎに対応する認識対象文候補の音声片の数が定義値以内に収まっていれば（ステップＳＴ５；Ｙｅｓ）、文選択部２２は、当該文書番号Ｎの認識対象文候補を認識対象文として記憶部２３に格納する（ステップＳＴ６）。

　一方、文番号Ｎに対応する認識対象文候補の音声片の数が定義値以内に収まっていない場合（ステップＳＴ５；Ｎｏ）、文選択部２２は、当該文番号Ｎの文を認識対象文候補から除外する（ステップＳＴ８）。ステップＳＴ６若しくはステップＳＴ８の処理が完了すると、文選択部２２は、ステップＳＴ３に戻って文番号Ｎをカウントするカウンタのカウント値を１インクリメントし、次の文番号に対応する認識対象文候補に対して、ステップＳＴ４からステップＳＴ８までの処理を繰り返す。

　ここで、ステップＳＴ８における除外処理について説明する。
　図３は、認識対象文候補の除外処理を説明するための図であり、音声片として音素を基準とし、音素数が２０を超える文を認識対象文候補から除外する場合を示している。図３に示すように、文番号Ｎ＝１である「かながわけん　かまくらし」という認識対象文候補は、音素列が「ｋａｎａｇａｗａｋｅＮ　ｋａｍａｋｕｒａｓｉ」（２１音素）となり、２０音素を超えているので除外する。同様に、文番号Ｎ＝６，８の文の音素数が２０を超えるために除外され、文番号Ｎ＝２～５，７の文が認識対象文として記憶部２３に格納される。

　認識対象文を構成する音素はそれぞれが音響モデルに対応しているため、音声認識辞書のサイズに大きく影響を与える。そこで、この実施の形態１では、音素数が定義値を超える候補文を除外することにより、辞書サイズの増加を防止することができる。なお、図３の例では、文を構成する音素を１つずつ数えて音素数を求めたが、モーラ数を利用して音素数を計算するようにしてもよい。

　図２の説明に戻ると、文番号Ｎが認識対象文候補数を超える数（文番号Ｎ＞認識対象文候補数）になると（ステップＳＴ４；Ｎｏ）、音声認識辞書作成部２４は、それまで記憶部２３に蓄積された認識対象文から音声認識辞書を作成する（ステップＳＴ７）。作成された音声認識辞書は、記憶部２５に格納される。

　音声認識処理部３の音声認識部２６は、ユーザが発話した認識対象音声を入力し（ステップＳＴ９）、当該認識対象音声について、記憶部２５に格納された音声認識辞書を参照して音声認識処理を行い、認識結果を出力する（ステップＳＴ１０）。

　以上のように、この実施の形態１によれば、認識対象文の候補の中から音声片数が所定値以下である文を認識対象文として選択する文選択部２２を備えたので、音声認識辞書の辞書サイズの増大を抑制することができ、ナビゲーションシステムや携帯電話等の機器に対する組み込みソフトウェアで音声認識装置を実現する場合であっても、メモリの使用可能容量以内の辞書サイズを実現可能である。これにより、組み込みソフトウェアで構築する場合に好適な音声認識装置を提供することができる。

実施の形態２．
　図４は、この発明の実施の形態２による音声認識装置の構成を示すブロック図である。図４において、実施の形態２による音声認識装置１Ａは、上記実施の形態１の図１と基本的に同様な構成を有するが、個々の認識対象文候補の音声片数による文選択部２２の代わりに、全ての認識対象文候補の総音声片数による文選択部２２ａを備える点で異なる。

　文選択部２２ａは、全ての認識対象文候補の音声片数の合計が定義値以内となるように認識対象文を選択して記憶部２３に格納する。なお、音声認識処理部３及び辞書作成処理部２の文選択部２２ａ以外の構成については、上記実施の形態１と同様であるので説明を省略する。

　次に動作について説明する。
　図５は、実施の形態２の音声認識装置による動作の流れを示すフローチャートであり、図５中に記号Ａを付した破線で囲まれる処理ステップは、辞書作成処理部２による処理を示しており、記号Ｂを付した破線で囲まれる処理ステップは、音声認識処理部３による処理を示している。

　先ず、文選択部２２ａは、音声認識辞書を作成するための認識対象文候補を記憶部２１から読み出して用意する（ステップＳＴ１）。次に、文選択部２２ａは、各認識対象文候補を音声片数が小さい順にソートする（ステップＳＴ１－１）。続いて、文選択部２２ａは、各認識対象文候補に対して処理順に付した通し番号である文番号Ｎをカウントするカウンタ（図４において不図示）のカウント値を０（Ｎ＝０）に初期化し、全ての認識対象文候補の総音声片数をカウントするカウンタ（図４において不図示）のカウント値を０に初期化する（ステップＳＴ２ａ）。

　文選択部２２ａは、文番号Ｎをカウントするカウンタのカウント値を１インクリメントして（ステップＳＴ３）、文番号Ｎが記憶部２１から読み出した認識対象文候補数以内の数であるか否かを判定する（ステップＳＴ４）。ここで、文番号Ｎが認識対象文候補数以内の数であると（ステップＳＴ４；Ｙｅｓ）、文選択部２２ａは、総音声片数をカウントするカウンタのカウント値に当該文番号Ｎの文の音声片数を加算する（ステップＳＴ４－１）。

　次に、文選択部２２ａは、上記カウンタのカウント値で示される総音声片数が定義値以内に収まっているか否かを判定する（ステップＳＴ５ａ）。総音声片数が定義値以内に収まっていれば（ステップＳＴ５ａ；Ｙｅｓ）、文選択部２２ａは、当該文書番号Ｎの認識対象文候補を認識対象文として記憶部２３に格納する（ステップＳＴ６）。

　文番号Ｎが記憶部２１から読み出した認識対象文候補数を超える場合（ステップＳＴ４；Ｎｏ）、音声認識辞書作成部２４が、記憶部２３に格納されている認識対象文から音声認識辞書を作成して記憶部２５に格納する（ステップＳＴ７）。また、総音声片数が定義値を超えると（ステップＳＴ５ａ；Ｎｏ）、文選択部２２ａが記憶部２３への認識対象文の蓄積を中止し、音声認識辞書作成部２４が、その時点までに記憶部２３に格納されている認識対象文から音声認識辞書を作成して記憶部２５に格納する（ステップＳＴ８ａ）。

　文選択部２２ａは、ステップＳＴ６で認識対象文を選択すると、ステップＳＴ３に戻って文番号Ｎをカウントするカウンタのカウント値を１インクリメントし、次の文番号に対応する認識対象文候補に対して、ステップＳＴ４からステップＳＴ８ａまでの処理を繰り返す。

　上述のようにして作成された音声認識辞書を参照する音声認識処理（ステップＳＴ９及びステップＳＴ１０）については、上記実施の形態１と同様である。

　図６は、実施の形態２の辞書作成処理部による処理を説明するための図であり、音声片として音素を基準とし、総音素数が１００までの認識対象文候補を認識対象文として選択できる場合を示している。図６に示す例では、文選択部２２ａが、音素数の少ない文から順に選択し、全文の総音素数が１００を超えた時点で選択を中止する。つまり、文番号Ｎ＝１から文番号Ｎ＝６までの総音素数が合計９４音素であり、次の文番号Ｎ＝７の文の音素数を加えると１００音素より多くなる。従って、文番号Ｎ＝６の「かながわけん　かまくらし」までが認識対象文として選択される。

　この実施の形態２では、認識対象文となる複数の文が、当該複数の文の音声片数の合計が定義値以下となるように選択される。認識対象文の総音声片数が多い程、音声認識辞書サイズが増加するため、予め定めた総音声片数以下の音声認識辞書を作成すれば、音声認識辞書サイズの増大を防ぐことができる。総音声片による文選択部２２ａでは、音声片として音素を用いて認識対象文候補の音素数を加算していき、途中までの合計値（総音声片数）が定義された値を超過した場合にその文以降の文を除外して認識対象文を得る。

　なお、上記実施の形態２において、ステップＳＴ５ａで認識対象文候補の総音声片数が定義値を超える場合、ステップＳＴ１０で実行した音声認識処理の結果に応じて、文選択部２２ａが除外すべき認識対象文候補を選択するようにしてもよい。
　例えば、音声片数が多い文を再び認識対象文候補に戻し、次回の選択処理で認識対象文として音声認識辞書の作成に利用する。これにより作成された音声認識辞書を参照する音声認識結果が良好である場合、その旨をユーザに提示するようにして除外すべきか否かを判断させる。

　また、認識対象文候補の総音声片数が定義値を超える場合、実施の形態３で後述する文の打ち切りを実行して総音声片数を調整するようにしてもよい。この場合、文選択部２２ａが、打ち切り対象となる文の選択用のＧＵＩ（Graphical User Interface）を提供し、これに応じてユーザが打ち切り対象の文を選択するようにしてもよい。

　以上のように、この実施の形態２によれば、総音声片数が定義値を超えた場合、及び、文番号Ｎ＞認識対象文候補数となる場合に、その時点まで記憶部２３に蓄積された認識対象文から音声認識辞書を生成する。このように構成することにより、音声認識辞書の辞書サイズの増大を抑制することができ、組み込みソフトウェアで構築する場合に好適な音声認識装置を提供することができる。

実施の形態３．
　図７は、この発明の実施の形態３による音声認識装置の構成を示すブロック図である。図７において、実施の形態３による音声認識装置１Ｂは、上記実施の形態１の図１と基本的に同様な構成を有するが、個々の認識対象文候補の音声片数による文選択部２２の代わりに、認識対象文候補の音声片数による文打ち切り部２７を備え、認識対象文の記憶部２３の代わりに、打ち切り済の認識対象文を記憶する記憶部２８を備える点で異なる。

　文打ち切り部２７は、認識対象文候補の音声片数が定義値を超える場合、当該文を、定義値を超える部分の音声片を含む音節の１つ前で打ち切ったテキストとする手段である。音声片数が多い文やテキストは音声認識辞書サイズの増大に繋がるが、この実施の形態３では、そのようなテキストであっても、音声片数が定義値を超えない部分までは認識可能とする。

　記憶部２８は、文打ち切り部２７によって打ち切り処理がなされた認識対象文を格納する記憶部である。なお、文打ち切り部２７及び記憶部２８以外の構成については、上記実施の形態１と同様であるので説明を省略する。

　次に動作について説明する。
　図８は、実施の形態３の音声認識装置による動作の流れを示すフローチャートであり、図８中に記号Ａを付した破線で囲まれる処理ステップは、辞書作成処理部２による処理を示しており、記号Ｂを付した破線で囲まれる処理ステップは、音声認識処理部３による処理を示している。図８において、ステップＳＴ１からステップＳＴ７までの処理は、上記実施の形態１の図２で示した内容と同様であるので説明を省略する。

　文番号Ｎに対応する認識対象文候補の音声片の数が定義値以内に収まっていない場合（ステップＳＴ５；Ｎｏ）、文打ち切り部２７は、当該認識対象文候補の上記定義値を超える音節以降を打ち切った文を文番号Ｎの認識対象文として記憶部２８に記憶する（ステップＳＴ８ｂ）。

　ステップＳＴ６若しくはステップＳＴ８ｂの処理が完了すると、文打ち切り部２７は、ステップＳＴ３に戻って文番号Ｎをカウントするカウンタのカウント値を１インクリメントし、次の文番号に対応する認識対象文候補に対して、ステップＳＴ４からステップＳＴ８ｂまでの処理を繰り返す。

　ここで、ステップＳＴ８ｂにおける文打ち切り処理について説明する。
　図９は、認識対象文候補の文打ち切り処理を説明するための図であり、音声片として音素を基準とし、音素数が２０を超える音節以降を認識対象文候補から除外する場合を示している。図９の上段に示す例では、文番号Ｎ＝１，６，８の各認識対象文候補が打ち切り対象となる。この場合、図９の下段に示すように、文打ち切り部２７が、２０音素を超える音節以降を除外する。

　例えば、文番号Ｎ＝１である「かながわけん　かまくらし」という認識対象文候補は、音素列が「ｋａｎａｇａｗａｋｅＮ　ｋａｍａｋｕｒａｓｉ」（２１音素）となり、２０音素を超えている。そこで、２０音素を超える音節「ｓｉ」及びそれ以降を除外対象として、「ｋａｎａｇａｗａｋｅＮ　ｋａｍａｋｕｒａ」（１９音素）を認識対象文とする。つまり、２０音素目を超える音素「ｉ」を含む音節「ｓｉ」の前までのテキストとして打ち切る。文番号６，８についても同様の処理を行い、文打ち切り後は、音素数が２０以下の認識対象文候補のみが打ち切り済の認識対象文として得られる。

　なお、音節単位ではなく、音素単位で打ち切りを行っても構わない。例えば、「ｋａｎａｇａｗａｋｅＮ　ｋａｍａｋｕｒａｓｉ」の例では、２０音素を超える音素が打ち切り対象となり、「ｋａｎａｇａｗａｋｅＮ　ｋａｍａｋｕｒａｓ」（２０音素）が認識対象文となる。つまり、２０音素目を超える音素「ｉ」の前までのテキストとして打ち切る。

　図８の説明に戻ると、文番号Ｎが認識対象文候補数を超える数（文番号Ｎ＞認識対象文候補数）になると（ステップＳＴ４；Ｎｏ）、音声認識辞書作成部２４は、その時点までに記憶部２８に蓄積された打ち切り済みの認識対象文から音声認識辞書を作成する（ステップＳＴ７）。作成された音声認識辞書は、記憶部２５に格納される。

　以上のように、この実施の形態３によれば、認識対象文の候補の音声片数が所定値を超える場合、当該所定値を超えた音声片及びそれ以降の音声片、若しくは、当該音声片を含む音節及びそれ以降の音節を打ち切って除外した文を認識対象文とする文打ち切り部２７を備えたので、音声片数が定義値を超えない部分まで認識対象文とされ、認識語彙数をできるだけ減らさずに、音声認識辞書の辞書サイズの増大を抑制することができ、組み込みソフトウェアで構築する場合に好適な音声認識装置を提供することができる。

実施の形態４．
　図１０は、この発明の実施の形態４による音声認識装置の構成を示すブロック図である。図１０において、実施の形態４による音声認識装置１Ｃは、上記実施の形態３の図７と基本的に同様な構成を有するが、音声認識辞書作成部２４の代わりに、打ち切り済みの文に対してガーベジモデル（以下、ＧＭと適宜略す）を後続追加した認識対象文を用いて音声認識辞書を作成するＧＭ付加音声認識辞書作成部２９を備え、さらにガーベジモデルを格納する記憶部３０を備える点で異なる。

　ＧＭ付加音声認識辞書作成部２９は、打ち切り済の認識対象文にガーベジモデルを後続追加して音声認識辞書を作成する手段である。記憶部３０に格納したガーベジモデルは、音声区間を検知するように構成されたモデルであり、不要語や雑音を含む未知発話が後続しても認識できる。

　そこで、音声認識辞書の認識語彙の前後にガーベジモデルを付与することで、当該認識語彙の発話の前後に付帯語が付与されても当該認識語彙を認識できる。これにより、文の途中で打ち切った認識対象文の打ち切られた続きの部分が認識され、認識結果として得られるスコア（尤度）の低下を防止することができる。なお、ＧＭ付加音声認識辞書作成部２９及び記憶部３０以外の構成については、上記実施の形態３と同様であるので説明を省略する。

　次に動作について説明する。
　図１１は、実施の形態４の音声認識装置による動作の流れを示すフローチャートであり、図１１中に記号Ａを付した破線で囲まれる処理ステップは、辞書作成処理部２による処理を示しており、記号Ｂを付した破線で囲まれる処理ステップは、音声認識処理部３による処理を示している。図１１において、ステップＳＴ１からステップＳＴ６まで、及びステップＳＴ８ｂの処理は、上記実施の形態３の図８で示した内容と同様であるので説明を省略する。

　文番号Ｎが認識対象文候補数を超える数（文番号Ｎ＞認識対象文候補数）になると（ステップＳＴ４；Ｎｏ）、ＧＭ付加音声認識辞書作成部２９は、その時点までに記憶部２８に蓄積された打ち切り済みの認識対象文の末尾に、記憶部３０から読み出したガーベジモデルを付与し、ガーベジモデルを付与した認識対象文から音声認識辞書を作成する（ステップＳＴ７ａ）。作成された音声認識辞書は、記憶部２５に格納される。

　上記実施の形態３で示した図９の例で説明すると、文番号Ｎ＝１，６，８の認識対象文が打ち切り済みであった場合、文打ち切り部２７が、これら認識対象文に対して打ち切り済みである旨を示すフラグを設定する。ＧＭ付加音声認識辞書作成部２９は、当該フラグの値を参照して打ち切り済みであることを特定すると、文番号Ｎ＝１，６，８の認識対象文についてガーベジモデルを後続させ、これら認識対象文を用いて音声認識辞書を作成する。

　以上のように、この実施の形態４によれば、打ち切り済みの認識対象文にガーベジモデルを後続付加して音声認識辞書を作成するので、認識語彙数をできるだけ減らさず、かつ打ち切られた語彙であっても認識できることから、音声認識辞書の辞書サイズの増大が抑制され、かつ認識結果として得られるスコアの低下を防止することができる。これにより、組み込みソフトウェアで構築する場合に好適な音声認識装置を提供することができる。

実施の形態５．
　図１２は、この発明の実施の形態５による音声認識装置の構成を示すブロック図である。図１２において、実施の形態５による音声認識装置１Ｄは、上記実施の形態１の図１と基本的に同様な構成を有するが、認識対象外候補通知部３１を備える点で異なる。認識対象外候補通知部３１は、文選択部２２により認識対象外として除外される認識対象文候補をユーザに通知する手段である。なお、認識対象外候補通知部３１以外の構成は、上記実施の形態１と同様であるので説明を省略する。

　次に動作について説明する。
　図１３は、実施の形態５の音声認識装置による動作の流れを示すフローチャートであり、図１３中に記号Ａを付した破線で囲まれる処理ステップは、辞書作成処理部２による処理を示しており、記号Ｂを付した破線で囲まれる処理ステップは、音声認識処理部３での処理を示している。図１３において、ステップＳＴ１からステップＳＴ８までの処理は、上記実施の形態１の図２で示した内容と同様であるので説明を省略する。

　ステップＳＴ８で音声片数が定義値を超える認識対象文候補を除外するにあたり、文選択部２２は、除外する認識対象文候補を認識対象外候補通知部３１に通知する。認識対象外候補通知部３１は、音声認識辞書作成部２４によって音声認識辞書が作成されるとき、上記通知された認識対象文候補をユーザに通知する（ステップＳＴ８－１）。このようにすることで、ユーザが認識対象外の文を認識することができる。

　例えば、上記実施の形態１で示した図３のように、音声片として音素を用いて２０音素以下の文のみを認識対象とする場合、「かながわけん　かまくらし」という認識対象文候補では、音素が「ｋａｎａｇａｗａｋｅＮ　ｋａｍａｋｕｒａｓｉ」（２１音素）となり２０音素を超えているので除外対象となる。このとき、認識対象外候補通知部３１が、当該語彙が認識対象外であることをユーザに通知する。通知方法としては、図１４に示すように、認識対象外となる語彙の見出しと、その語彙が認識対象外である旨を記載したテロップで通知する方法が可能である。

　図１３の説明に戻る。ステップＳＴ６若しくはステップＳＴ８－１の処理が完了すると、文選択部２２は、ステップＳＴ３に戻って文番号Ｎをカウントするカウンタのカウント値を１インクリメントし、次の文番号に対応する認識対象文候補に対して、ステップＳＴ４からステップＳＴ８－１までの処理を繰り返す。

　以上のように、この実施の形態５によれば、認識対象文として選択されなかった候補又は打ち切り処理の対象となった候補を通知する認識対象外候補通知部３１を備えたので、認識対象外となる語彙をユーザに事前に理解させながら、音声認識辞書の辞書サイズの増大を抑制することができ、利便性がよく、かつ組み込みソフトウェアで構築する場合に好適な音声認識装置を提供することができる。

　また、上記実施の形態５による認識対象外候補通知部３１は、上記実施の形態２～４の構成にも追加することができる。この場合、認識対象外候補通知部３１は、文選択部２２ａによって除外対象となった認識対象文候補をユーザに通知したり、文打ち切り部２７によって打ち切り対象となった認識対象文候補をユーザに通知する。このように構成することでも、音声認識辞書の作成にあたり、認識対象外若しくは認識語彙が途中で打ち切られるテキストであることをユーザに事前に理解させられる。これにより、ユーザの利便性を向上させることができる。

産業上利用可能性

　この発明に係る音声認識装置は、当該認識対象文から構成される音声認識辞書のサイズの増大を抑制することができ、ナビゲーションシステムや携帯電話等の機器に対する組み込みソフトウェアで音声認識装置を実現する場合であっても、メモリの使用可能容量以内の辞書サイズを実現できるため、メモリに多くの容量を必要とする音声認識装置等に用いるのに適している。

Claims

　認識対象文から音声認識辞書を作成する音声認識辞書作成部と、前記音声認識辞書を参照して認識対象の音声を音声認識する音声認識部とを備えた音声認識装置において、
　前記認識対象文の候補の中から音声片数が所定値以下である文を前記認識対象文として選択する文選択部を備えたことを特徴とする音声認識装置。
　認識対象文から音声認識辞書を作成する音声認識辞書作成部と、前記音声認識辞書を参照して認識対象の音声を音声認識する音声認識部とを備えた音声認識装置において、
　前記認識対象文の候補の音声片数を合計した総音声片数が所定値以下となるように文を選択して前記認識対象文とする文選択部を備えたことを特徴とする音声認識装置。
　認識対象文から音声認識辞書を作成する音声認識辞書作成部と、前記音声認識辞書を参照して認識対象の音声を音声認識する音声認識部とを備えた音声認識装置において、
　前記認識対象文の候補の音声片数が所定値を超える場合、当該所定値を超える音声片及びそれ以降の音声片、若しくは、当該音声片を含む音節及びそれ以降の音節を打ち切って除外した文を前記認識対象文とする文打ち切り部を備えたことを特徴とする音声認識装置。
　音声認識辞書作成部は、文打ち切り部により打ち切り処理が施された認識対象文の末尾にガーベジモデルを付与し、当該ガーベジモデルを付与した前記認識対象文から音声認識辞書を作成することを特徴とする請求項３記載の音声認識装置。
　認識対象文として選択されなかった候補又は打ち切り処理の対象となった候補を通知する通知部を備えたことを特徴とする請求項１記載の音声認識装置。
　認識対象文として選択されなかった候補又は打ち切り処理の対象となった候補を通知する通知部を備えたことを特徴とする請求項２記載の音声認識装置。
　認識対象文として選択されなかった候補又は打ち切り処理の対象となった候補を通知する通知部を備えたことを特徴とする請求項３記載の音声認識装置。