WO2011045846A1

WO2011045846A1 - 音声認識装置

Info

Publication number: WO2011045846A1
Application number: PCT/JP2009/005416
Authority: WO
Inventors: 住吉悠希; 竹裏尚嘉; 古本友紀
Original assignee: 三菱電機株式会社
Priority date: 2009-10-16
Filing date: 2009-10-16
Publication date: 2011-04-21

Abstract

制御部１０が、通信部１５で取得された語彙ごとのカテゴリをモニタ９等に提示し、入力装置２を用いた対話的な操作によりカテゴリごとに語彙を選択させ、辞書管理部１２が、入力装置２を用いて選択された語彙を認識辞書へ追加登録する。

Description

音声認識装置

　この発明は、音声認識装置に関するものである。

　従来の技術として、例えば、特許文献１に開示されるシステムがある。このシステムでは、音声の認識辞書をサーバが管理しており、サーバからダウンロードされた認識辞書を用いて、音声認識処理が実行される。このようにすることで、平均的な音声周波数から外れた音声や訛りのあるユーザであっても、これらに対応する認識辞書をサーバからダウンロードすることにより、ユーザに適した音声認識処理を行うことができる。

　また、特許文献２には、認識結果の語彙に関して、接続や出現の頻度が多い他の語彙を抽出する抽出手段と、この抽出手段により抽出された語彙とこの接続や出現の頻度情報を言語辞書に追加する追加手段を備えた音声認識装置が開示されている。この構成を有することにより、ユーザが必要な語彙を認識辞書に登録することができる。

　しかしながら、特許文献１のシステムでは、どのユーザであっても同じ語彙数でダウンロードされるため、ユーザの必要に応じて語彙数を限定することができない。このため、認識率があまり向上しないという課題がある。
　また、特許文献２の装置では、言語辞書に登録済みの語彙と追加語彙とが同一であると登録できず、登録済み語彙と追加語彙の読みが類似しているかどうか及び登録済み語彙数を考慮していないため、認識率はあまり向上しないという課題がある。

　この発明は、上記のような課題を解決するためになされたもので、認識辞書への無制限な語彙追加を抑制することにより、認識率の向上を図ることができる音声認識装置を得ることを目的とする。

特開２００４－３５４７１１号公報特開２００５－１８９２８７号公報

　この発明に係る音声認識装置は、認識対象の語彙が登録された認識辞書と、入力音声を認識辞書の語彙と比較して音声認識する音声認識部と、外部からの操作を受け付ける操作部と、音声又は画面表示により情報を外部へ提示する提示部を備えた音声認識装置において、外部との通信により語彙を取得する通信部と、通信部で取得された語彙ごとのカテゴリを提示部に提示させ、操作部を用いた対話的な操作によりカテゴリごとに語彙を選択させる制御部と、操作部を用いて選択された語彙を認識辞書へ追加登録する辞書管理部を備えるものである。

　この発明によれば、通信部で取得された語彙ごとのカテゴリを提示部に提示し、操作部を用いた対話的な操作によりカテゴリごとに語彙を選択させて、選択された語彙を認識辞書へ追加登録する。このようにすることで、ユーザが必要とする語彙を認識辞書へ追加できることから、認識率の向上を図ることができるという効果がある。

この発明の実施の形態１による音声認識装置を用いたシステムの構成を示すブロック図である。語彙追加時のモニタの画面遷移を示す図である。この発明の実施の形態２の音声認識装置による動作の流れを示すフローチャートである。この発明の実施の形態３の音声認識装置による動作の流れを示すフローチャートである。ダウンロードした語彙を追加すべきか否かを選択させる処理の流れを示すフローチャートである。ダウンロードされた語彙を音声認識装置が提示した別の語彙で認識辞書に追加する処理の流れを示すフローチャートである。不使用期間情報を示す図である。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、この発明の実施の形態１による音声認識装置を用いたシステムの構成を示すブロック図である。図１において、実施の形態１の音声認識装置１は、周辺機器として、手動操作に用いるリモコンやタッチパネル等の入力装置（操作部）２、音声を入力するマイク（操作部）３、音声を出力するスピーカ（提示部）８、及び画像やテロップを表示するモニタ（提示部）９を備える。

　また、音声認識装置１は、内部構成として、キー入力部（操作部）４、音声入力部（操作部）５、音声出力部（提示部）６、画面出力部（提示部）７、制御部１０、音声認識部１１、辞書管理部１２、認識辞書の記憶部１３、警告内容生成部１４、通信部１５、語彙数カウント部１６及び類似語彙比較部１７を備える。

　キー入力部４は、入力装置２を介して入力されたコマンドを受け付けて制御部１０に出力する。音声入力部５は、マイク３から音声入力されたコマンドを受け付けて制御部１０に出力する。音声出力部６は、スピーカ８を介した音声出力を制御する構成部であり、音声認識装置１からのガイダンスや認識結果等をユーザに提示する。画面出力部７は、モニタ９の画面表示を制御する構成部である。

　制御部１０は、キー入力部４や音声入力部５から受け付けたコマンドに応じて、他の構成部を制御することにより、当該コマンドに対応する処理を実行する構成部である。音声認識部１１は、認識辞書に基づいて音声入力部５から入力した音声の音声認識処理を実行する。辞書管理部１２は、記憶部１３に格納された認識辞書を管理する構成部であって、制御部１０からの命令に応じて、認識辞書から認識対象の語彙を読み出したり、追加する処理を行う。

　警告内容生成部１４は、語彙を追加する際にユーザに提示する警告内容を生成する構成部である。通信部１５は、外部のサーバ装置１９と通信を行う構成部である。語彙数カウント部１６は、語彙数をカウントする構成部であり、追加する語彙数と記憶部１３の登録済み語彙数をカウントする。類似語彙比較部１７は、追加する語彙と記憶部１３の登録済み語彙とを比較して両者の読みが同じであるか否かを判定する構成部である。なお、読みが同じ語彙を類似する語彙と判断する。

　なお、キー入力部４、音声入力部５、音声出力部６、画面出力部７、制御部１０、音声認識部１１、辞書管理部１２、警告内容生成部１４、通信部１５、語彙数カウント部１６及び類似語彙比較部１７は、この発明の趣旨に従う処理プログラムをコンピュータに読み込ませ、そのＣＰＵに実行させることによって、ハードウエアとソフトウエアが協働した具体的な手段として実現することができる。

　記憶部１３は、音声認識装置１が構築されたコンピュータが備える記憶装置（例えば、ハードディスク装置や外部記憶メディア等）あるいは上記コンピュータと通信接続可能な他のコンピュータの記憶装置に構築することができる。

　また、音声認識装置１は、ネットワーク１８を介してサーバ装置１９から語彙をダウンロードして認識辞書に登録する。このサーバ装置１９は、通信部２０、制御部２１、辞書管理部２２及び認識辞書を格納する記憶部２３を備える。
　通信部２０は、ネットワーク１８を介して音声認識装置１の通信部１５と通信を行う構成部である。制御部２１は、他の構成部を制御する構成部である。辞書管理部２２は、記憶部２３に格納された認識辞書を管理する構成部であって、制御部２１からの命令に応じて、認識辞書から認識対象の語彙を読み出したり、追加する処理を行う。

　次に動作について説明する。
　先ず、音声認識装置１が、サーバ装置１９から語彙をダウンロードして認識辞書に登録する処理を説明する。図２は、語彙追加時のモニタの画面遷移を示す図である。
　音声認識装置１の通信部１５とサーバ装置１９の通信部２０との通信が成功すると、サーバ装置１９の制御部２１が、通信部２０を介して画面表示情報を送信する。音声認識装置１の制御部１０は、通信部１５を介して受信された上記画面表示情報を画面出力部７に出力する。画面出力部７が、上記画面表示情報を表示するようモニタ９を制御することにより、図２の画面９－１が表示される。

　認識辞書に語彙を追加したい場合、ユーザは「語彙追加」欄を選択する。選択方法は、マイク３を用いた音声入力か、入力装置２を用いた手動入力のいずれであってもよい。
「語彙追加」欄が選択されると、この選択結果が音声入力部５又はキー入力部４を介して制御部１０へ送られる。制御部１０は、通信部１５を用いて、この選択結果をサーバ装置１９へ送信する。サーバ装置１９の制御部２１は、通信部２０により受信された上記選択結果に基づいて、次に遷移すべき画面を示す画面表示情報を選択し、この画面表示情報を画面９－１の場合と同様にして音声認識装置１へ返信する。

　画面出力部７が、音声認識装置１へ返信された上記画面表示情報を表示するようにモニタ９を制御することで、モニタ９の表示画面が図２の画面９－２へ遷移する。ユーザがジャンル名の語彙を追加する場合、この画面９－２における「ジャンル」欄を選択する。なお、コマンドや住所等を選択する場合には、それぞれのカテゴリを表示したボタンを選択する。「ジャンル」欄が選択されると、制御部１０が、上記と同様の流れで通信部１５を用いて選択結果をサーバ装置１９へ送信し、サーバ装置１９から次に遷移すべき画面を示す画面表示情報を取得する。

　画面出力部７が、この画面表示情報を受けることで、モニタ９の表示画面が図２の画面９－３へ遷移する。画面９－３には、ジャンルの大分類が表示される。ここで、交通に関連するジャンルの語彙を追加する場合、画面９－３中の「交通」欄を選択する。この選択結果に応じて、サーバ装置１９から画面表示情報を受信することにより、モニタ９の表示画面が図２の画面９－４へ遷移する。

　画面９－４には、サーバ装置１９からダウンロード可能な語彙のリストが表示される。全ての語彙をダウンロードしたい場合は「全て」欄を選択する。また、一部の語彙をダウンロードしたい場合には、ダウンロードしたい語彙のチェック欄２４をアクティブにして「選択語彙のみ」欄を選択する。「全て」又は「選択語彙のみ」欄のいずれかが選択されると、制御部１０が、通信部１５を用いて、この選択結果をサーバ装置１９へ送信する。サーバ装置１９の制御部２１は、辞書管理部２２を介して選択結果に対応する語彙を取得し、通信部２０を介して音声認識装置１へダウンロードする。

　音声認識装置１の制御部１０は、通信部１５を介してサーバ装置１９から受信した語彙を辞書管理部１２へ出力して、記憶部１３の認識辞書に追加するように指示する。辞書管理部１２は、制御部１０からの指示に従い、入力した語彙を認識辞書に追加する。
　このように、制御部１０は、通信部１５で取得された語彙ごとのカテゴリをモニタ９の画面に表示させ、入力装置２を用いた対話的な操作によりカテゴリごとに語彙を選択させる。辞書管理部１２では、入力装置２を用いて選択された語彙を認識辞書へ追加する。

　なお、サーバ装置１９の記憶部２３に格納される認識辞書は、辞書管理部２２によってジャンルや地域などのカテゴリごとに分割して管理されているものとする。
　また、上述の画面遷移に応じた処理は一例を示すものであって、ユーザが必要な語彙を選択することができ、また、選択された語彙のみを追加語彙として認識辞書に登録できるＧＵＩ（Graphical User Interface）であれば、図２の場合に限定されるものではない。
　例えば、画面９－１で「語彙追加」欄を選択した後、ユーザが読みを入力して語彙を登録できる画面へ遷移するようにしてもよい。

　また、図２の画面９－１で「語彙削除」欄が選択された場合、制御部１０が、モニタ９の画面上に登録済み語彙を表示するように制御する。このとき、入力装置２を用いてユーザが削除する語彙を選択すると、制御部１０が、この選択情報に基づいて辞書管理部１２に語彙を削除するように指示する。これにより、辞書管理部１２が、ユーザにより削除指定された登録済み語彙を認識辞書から削除する。

　以上のように、この実施の形態１によれば、制御部１０が、通信部１５で取得された語彙ごとのカテゴリをモニタ９等に提示し、入力装置２を用いた対話的な操作によりカテゴリごとに語彙を選択させ、辞書管理部１２が、入力装置２を用いて選択された語彙を認識辞書へ追加登録する。このようにジャンルや地域等の語彙のカテゴリを対話的に指定することにより、ユーザが必要な語彙のみを選択し認識辞書へ登録できる。従って、認識辞書に追加される語彙がユーザにとって真に必要な語彙のみに限定されるため、認識率を向上させることができる。

実施の形態２．
　この実施の形態２では、既に認識辞書に登録されている登録済み語彙のうち、追加する語彙と類似する語彙の存在をユーザに警告する場合を述べる。
　なお、実施の形態２による音声認識装置は、上記実施の形態１で図１を用いて説明した構成と基本的に同一の構成を有している。従って、音声認識装置の構成については、実施の形態２においても図１を参照する。

　次に動作について説明する。
　図３は、この発明の実施の形態２の音声認識装置による動作の流れを示すフローチャートである。例えば、図２の画面９－４で語彙を選択し追加する語彙をサーバ装置１９からダウンロードすると、類似語彙比較部１７が、上記追加する語彙と辞書管理部１２により管理される認識辞書に登録済みの語彙とを比較して、両者の読みが同じ（類似）であるか否かを判定する（ステップＳＴ１、ステップＳＴ２）。なお、読みが同じ語彙を類似語彙とする場合を示したが、読みが一字違いなど、読みの文字列同士が完全一致する場合以外に所定の文字数まで同一である場合を類似と判定してもよい。

　サーバ装置１９からダウンロードした語彙と読みが同じ語彙がない場合（ステップＳＴ２；ＮＯ）、類似語彙比較部１７は、その旨を制御部１０に通知する。制御部１０は、この通知を受けると、サーバ装置１９からダウンロードした上記語彙を認識辞書に追加するように辞書管理部１２に指示する。これにより、辞書管理部１２は、当該語彙を認識辞書に追加する（ステップＳＴ５）。

　一方、サーバ装置１９からダウンロードした語彙と読みが同じ語彙がある場合（ステップＳＴ２；ＹＥＳ）、類似語彙比較部１７は、その旨を制御部１０に通知する。制御部１０は、この通知を受けると、サーバ装置１９からダウンロードした語彙と類似する語彙が既に認識辞書に存在することをユーザへ提示する警告音声文や表示内容を生成するように警告内容生成部１４へ指示する。警告内容生成部１４は、制御部１０の指示に従い、上記警告音声文や表示内容などの警告内容を示す情報を生成する（ステップＳＴ３）。警告音声文や表示内容は、音声出力部６や画面出力部７へ出力される。

　音声出力部６は警告音声文をスピーカ８を介して出力し、画面出力部７は警告の表示内容をモニタ９に表示する（ステップＳＴ４）。この後、ステップＳＴ５の処理に進んで、辞書管理部１２は、サーバ装置１９からダウンロードした語彙を認識辞書に追加する。

　例えば、「局（きょく）」という語彙が認識辞書に登録されている状態で、サーバ装置１９から「曲（きょく）」という語彙をダウンロードして追加する場合、両者が同じ読みであるため、ステップＳＴ３の処理に進んで、警告内容生成部１４が、同じ読みの語彙がある旨を示す警告音声文や、これら語彙を表示する画面情報を生成する。

　以上のように、この実施の形態２によれば、類似語彙比較部１７が、通信部１５で取得された語彙を認識辞書に登録される語彙と比較して、同一又は類似する語彙の有無を判定し、類似語彙比較部１７で同一又は類似する語彙があることが判定されると、警告内容生成部１４が、この判定結果を示す警告内容の情報を生成し、制御部１０が、警告内容生成部１４で生成された警告内容の情報をスピーカ８やモニタ９でユーザに提示させる。
　このように構成することで、認識辞書に登録済みの語彙のうち、サーバ装置１９からダウンロードされた語彙と同一又は類似する語彙が既に登録済みであることをユーザに報知できる。これにより、ユーザが、必要に応じて同一又は類似する語彙を登録しないように追加語彙を選択することが可能となり、認識率を向上させることができる。

実施の形態３．
　この実施の形態３では、既に認識辞書に登録されている登録済み語彙と、追加する語彙との数が所定数を超える場合をユーザに警告する。
　なお、実施の形態３による音声認識装置は、上記実施の形態１で図１を用いて説明した構成と基本的に同一の構成を有している。従って、音声認識装置の構成は、実施の形態３においても図１を参照する。

　次に動作について説明する。
　図４は、この発明の実施の形態３の音声認識装置による動作の流れを示すフローチャートである。例えば、図２の画面９－４で語彙を選択し追加する語彙をサーバ装置１９からダウンロードすると、語彙数カウント部１６が、上記追加する語彙の数と、辞書管理部１２により管理される認識辞書に登録済みの語彙の数とをカウントし、両者の数の合計が所定数を超えているか否かを判定する（ステップＳＴ１ａ、ステップＳＴ２ａ）。

　サーバ装置１９からダウンロードした語彙と登録済みの語彙との数が所定数以下の場合（ステップＳＴ２ａ；ＮＯ）、語彙数カウント部１６は、その旨を制御部１０に通知する。制御部１０は、この通知を受けると、サーバ装置１９からダウンロードした上記語彙を認識辞書に追加するように辞書管理部１２に指示する。これにより、辞書管理部１２は、当該語彙を認識辞書に追加する（ステップＳＴ５ａ）。

　一方、サーバ装置１９からダウンロードした語彙と登録済みの語彙との数が所定数より多い（超えている）場合（ステップＳＴ２ａ；ＹＥＳ）、語彙数カウント部１６は、その旨を制御部１０に通知する。制御部１０は、この通知を受けると、サーバ装置１９からダウンロードした語彙と既に認識辞書に存在する語彙の数が所定数を超えていることをユーザへ提示する警告音声文や表示内容を生成するように警告内容生成部１４へ指示する。警告内容生成部１４は、制御部１０の指示に従い、上記警告音声文や表示内容などの警告内容を示す情報を生成する（ステップＳＴ３ａ）。警告音声文や表示内容は、音声出力部６や画面出力部７へ出力される。

　音声出力部６は警告音声文をスピーカ８を介して出力し、画面出力部７は警告の表示内容をモニタ９に表示する（ステップＳＴ４ａ）。この後、ステップＳＴ５ａの処理に進んで、辞書管理部１２は、サーバ装置１９からダウンロードした上記語彙を認識辞書に追加する。

　例えば、サーバ装置１９からダウンロードして追加する語彙の数と、辞書管理部１２で管理している登録済み語彙の数の合計が１０００以下の場合は、ステップＳＴ５ａの処理に進み、１０００を超える場合には、警告内容生成部１４が、追加する語彙と登録済み語彙の数の合計が１０００を超えていることを示す警告音声文や、これら語彙を表示する画面情報を生成する。

　認識辞書に登録された語彙数が多いと、認識処理に時間が掛かったり、誤認識率が増加する要因となり得る。また、認識処理時間及び誤認識率が許容される最大語彙数は、音声認識装置１を構築するコンピュータのＣＰＵ等の演算能力に依存しており、静的に定義されているものとする。そこで、上記の所定数としては、上記の静的に定義された最大語彙数を用いる。

　以上のように、この実施の形態３によれば、語彙数カウント部１６が、通信部１５で取得された語彙と認識辞書に登録される語彙との合計数をカウントし、合計数が所定数を超えたか否かを判定し、語彙数カウント部で合計数が所定数を超えたことが判定されると、この判定結果を示す警告情報を生成する警告内容生成部１４と、警告内容生成部１４で生成された警告情報をモニタ９等に提示させる。
　このようにすることで、語彙追加時に音声認識装置１の演算能力を考慮して追加する語彙数が妥当でない場合にユーザへ警告することができる。これにより、ユーザが、過剰な語彙の登録を控えるようになり、認識率を向上させることができる。

　なお、上記実施の形態２及び上記実施の形態３において、サーバ装置１９からダウンロードした語彙を追加すべきか否かをユーザに選択させる警告を出力するように構成してもよい。このようにすることで、必要な語彙のみをユーザが追加することができる。

　図５は、ダウンロードした語彙を追加すべきか否かを選択させる処理の流れを示すフローチャートである。図５のステップＳＴ１ｂの処理は、実施の形態２で説明した図３のステップＳＴ４又は実施の形態３で説明した図４のステップＳＴ４ａに後続する処理に相当する。また、ステップＳＴ２ｂの処理は、図３のステップＳＴ５又は図４のステップＳＴ５ａの処理に相当する。

　制御部１０は、警告内容がユーザに提示されると、サーバ装置１９からダウンロードした語彙を認識辞書に追加すべきか否かを示すＧＵＩを提供する。例えば、制御部１０は、サーバ装置１９からダウンロードした語彙を認識辞書に追加すべきか否かを示す音声文や表示内容を生成し、音声出力部６や画面出力部７によりスピーカ８やモニタ９に出力させる。このとき、制御部１０は、ユーザからの語彙追加の可否を示す操作入力を受け付け、この入力情報に基づいて語彙を追加するか否かを判定する（ステップＳＴ１ｂ）。

　入力装置２やマイク３を用いてユーザから語彙を追加しないことが選択されると（ステップＳＴ１ｂ；ＮＯ）、制御部１０は、サーバ装置１９からダウンロードした語彙を認識辞書に追加しないように辞書管理部１２に指示して処理を終了する。辞書管理部１２は、制御部１０の指示に従い、当該語彙を認識辞書に追加しない。

　一方、入力装置２やマイク３を用いてユーザから語彙を追加することが選択されると（ステップＳＴ１ｂ；ＹＥＳ）、制御部１０は、サーバ装置１９からダウンロードした語彙を認識辞書に追加するように辞書管理部１２に指示する。これにより、辞書管理部１２は、当該語彙を認識辞書に追加する（ステップＳＴ２ｂ）。

　また、ステップＳＴ１ｂで語彙を追加する場合に、制御部１０が、登録済み語彙（例えば「局（きょく）」）と追加語彙（例えば「曲（きょく）」）をユーザに提示するとともに、音声認識における優先度をユーザが設定可能な出力情報を生成して、音声出力部６や画面出力部７によってスピーカ８やモニタ９に出力させるようにしてもよい。このようにすることで、ユーザの意図した認識結果を提示でき、認識率を向上させることができる。

　例えば、制御部１０が、ユーザにより語彙の追加が選択されると、サーバ装置１９からダウンロードした語彙と類似する登録済み語彙に加え、これらの語彙の音声認識に関する優先度を設定させる音声文や設定画面を生成して、音声出力部６や画面出力部７によってスピーカ８やモニタ９に出力させる。このとき、制御部１０は、ユーザによる優先度設定を示す操作入力を受け付ける。

　入力装置２又はマイク３を用いて、ユーザが語彙に優先度を設定すると、制御部１０は、サーバ装置１９からダウンロードした語彙及び登録済み語彙に優先度を対応付けるように辞書管理部１２に指示して処理を終了する。辞書管理部１２は、制御部１０の指示に従って、サーバ装置１９からダウンロードした語彙にユーザが設定した優先度を対応付けて認識辞書に追加し、またこれに類似する登録済み語彙に対してもユーザが設定した優先度を対応付けて格納する。

　これにより、サーバ装置１９からダウンロードした追加すべき語彙が「曲（きょく）」であり、これに類似する登録済み語彙が「局（きょく）」であるとき、ユーザが「局（きょく）」の優先度を「曲（きょく）」より高く設定すれば、音声認識部１１が読み「きょく」を認識した場合、認識結果として「局（きょく）」がユーザに提示される。

　また、ステップＳＴ１ｂで語彙を追加する場合に、制御部１０が、登録済み語彙（例えば「局（きょく）」）と追加語彙（例えば「曲（きょく）」）をユーザに提示するとともに、音声認識処理の際に両語彙を認識結果候補として提示するか否かを、ユーザによって指定可能な出力情報を生成して、音声出力部６や画面出力部７によりスピーカ８やモニタ９に出力させるようにしてもよい。このようにすることでも、ユーザの意図した認識結果を提示することができるようになり、認識率を向上させることができる。

　例えば、制御部１０が、ユーザにより語彙の追加が選択されると、サーバ装置１９からダウンロードした語彙と類似する登録済み語彙に加え、音声認識処理の際にこれらの語彙を認識結果候補として提示するか否かを指定させる音声文や設定画面を生成して、音声出力部６や画面出力部７によってスピーカ８やモニタ９に出力させる。このとき、制御部１０は、ユーザによる指定内容を示す操作入力を受け付ける。

　入力装置２又はマイク３を用いて、ユーザが両語彙を認識結果候補として提示すべきことを指定すると、制御部１０は、認識結果候補として提示すべき指定情報とともに、サーバ装置１９からダウンロードした語彙及び登録済み語彙を格納するように辞書管理部１２に指示して処理を終了する。辞書管理部１２は、制御部１０の指示に従って、認識結果候補として提示すべき指定情報とともに、サーバ装置１９からダウンロードした語彙を認識辞書に追加し、認識結果候補として提示すべき指定情報を登録済み語彙に設定する。

　一方、ユーザがいずれかの語彙のみを認識結果候補とすべきことを指定すると、制御部１０は、認識結果候補として提示すべき指定情報を、ユーザにより指定された語彙のみに対応付けて格納するように辞書管理部１２に指示する。辞書管理部１２は、制御部１０の指示に従って、認識結果候補として提示すべき指定情報を、ユーザにより指定された語彙のみに対応付けて認識辞書に登録する。

　これにより、サーバ装置１９からダウンロードした追加すべき語彙が「曲（きょく）」であり、これに類似する登録済み語彙が「局（きょく）」であるとき、ユーザが「局（きょく）」及び「曲（きょく）」を認識結果候補として提示すべきことが指定された場合、音声認識部１１が読み「きょく」を認識した場合、認識結果候補として「局（きょく）」と「曲（きょく）」がユーザに提示される。また、ユーザが「局（きょく）」のみを認識結果候補として提示することが指定されていれば、認識結果候補として「局（きょく）」のみがユーザに提示される。

　なお、前述した優先度を設定するＧＵＩと組み合わせて、追加する語彙と類似する登録済み語彙がある場合に複数の認識結果候補を提示すべきか否かのみをユーザに指定させるように構成してもよい。この場合、複数の認識結果候補を提示しない指定がなされると、優先度の最も高い語彙が認識結果として提示される。また、複数の認識結果候補が指定された場合には、優先度が上位の所定数までの語彙が認識結果候補として提示される。

　また、ステップＳＴ１ｂで語彙を追加する場合、制御部１０が、登録済み語彙（例えば「局（きょく）」）と追加する語彙（例えば「曲（きょく）」）をユーザに提示するとともに、当該追加する語彙を読みの異なる別の語彙として追加するか否かを、ユーザによって指定可能な出力情報を生成して、音声出力部６や画面出力部７によりスピーカ８やモニタ９に出力させるようにしてもよい。このようにすることで、登録済み語彙と同一又は類似する語彙の無制限な追加が抑制されるため、認識率の向上を図ることができる。

　制御部１０は、ユーザによって登録済み語彙に類似する語彙の追加が選択されると、追加する語彙を読みの異なる別の語彙として追加するか否かを指定させる音声文や設定画面を生成し、音声出力部６や画面出力部７によってスピーカ８やモニタ９に出力させる。
　入力装置２又はマイク３を用いて、ユーザにより別の語彙としては追加しないことが指定された場合、制御部１０は、サーバ装置１９からダウンロードした語彙をそのまま追加するように辞書管理部１２に指示する。辞書管理部１２は、制御部１０の指示に従って、サーバ装置１９からダウンロードした語彙を認識辞書に追加する。

　一方、ユーザによって別の語彙として追加することが指定された場合、制御部１０は、通信部１５を用いて、サーバ装置１９で管理される語彙から、ユーザに新たに語彙を選択させるか、あるいは、ユーザに読みを設定させる出力情報を生成して、音声出力部６や画面出力部７によりスピーカ８やモニタ９に出力させる。

　制御部１０は、ユーザによる操作入力で新たな語彙が選択されるか、新たな読みが設定されると、新たに選択された語彙の表記及び読みとこの読みに対応付けて追加語彙の表記を登録するか、または、ユーザが設定した読みと追加語彙の表記とを対応付けて登録するように辞書管理部１２に指示する。
　辞書管理部１２は、制御部１０の指示に従って、新たに選択された語彙の表記及び読みに加えて、登録済み語彙の読みと新たに選択された語彙の読みに対応付けて追加語彙の表記を認識辞書に登録するか、又は、登録済み語彙の読み及びユーザが設定した読みに対応付けて追加語彙の表記を認識辞書に登録する。

　サーバ装置１９からダウンロードされた追加語彙が「局（きょく）」であり、登録済み語彙が「曲（きょく）」であって、ユーザによって別の読み「ほうそうきょく」が設定された場合を例に挙げる。この場合、認識辞書には、読みが「きょく」に対応する認識語彙の表記として「曲」に加えて「局」が追加され、表記「局」には読み「きょく」と「ほうそうきょく」が登録される。
　従って、音声認識部１１によって読み「きょく」が認識された場合、認識結果候補としては、複数候補の提示が許可されていれば、「局」及び「曲」がユーザに提示される。
　また、音声認識部１１によって読み「ほうそうきょく」が認識された場合、認識結果候補として「局」が提示される。

　また、上述のように読みの異なる別の語彙として追加する場合、音声認識装置１側で、別の語彙として追加する語彙の案を提示してユーザに選択させるように構成してもよい。このようにすることでも、登録済み語彙と同一又は類似する語彙の無制限な追加が抑制されるため、認識率の向上を図ることができる。

　図６は、ダウンロードされた語彙を音声認識装置が提示した別の語彙で認識辞書に追加する処理の流れを示すフローチャートである。図６のステップＳＴ１ｃからステップＳＴ４ｃまでの処理は、図５のステップＳＴ１ｂに後続する処理に相当する。また、ステップＳＴ５ｃの処理は、図５のステップＳＴ２ｂの処理に相当する。

　制御部１０は、ユーザによって登録済み語彙に類似する語彙の追加が選択されると、追加する語彙を読みの異なる別の語彙として追加するか否かを指定させる音声文や設定画面を生成し、音声出力部６や画面出力部７によってスピーカ８やモニタ９に出力させる。
　このとき、制御部１０は、ユーザによる指定内容を示す操作入力を受け付け、この指定内容に基づいて、別の語彙として追加するか否かを判定する（ステップＳＴ１ｃ）。

　入力装置２又はマイク３を用いて、ユーザにより別の語彙としては追加しないことが指定された場合（ステップＳＴ１ｃ；ＮＯ）、制御部１０は、サーバ装置１９からダウンロードした語彙をそのまま追加するように辞書管理部１２に指示して処理を終了する。辞書管理部１２は、制御部１０の指示に従って、サーバ装置１９からダウンロードした語彙を認識辞書に追加する（ステップＳＴ５ｃ）。

　一方、ユーザによって別の語彙で追加することが指定された場合（ステップＳＴ１ｃ；ＹＥＳ）、制御部１０は、通信部１５を用いて語彙の候補をサーバ装置１９へ問い合わせる（ステップＳＴ２ｃ）。例えば、追加する語彙が「曲」であれば、表記「曲」と読み「きょく」をサーバ装置１９へ送信する。サーバ装置１９の辞書管理部２２は、認識語彙の表記に関連する語彙を分類して管理しており、音声認識装置１から問い合わせがあった語彙の表記及び読みを入力すると、この表記に関連し、かつ読みが異なる語彙を記憶部２３から読み出して制御部２１に出力する。制御部２１は、辞書管理部２２から入力した語彙の表記及び読みを、語彙の案として音声認識装置１へ返信する。

　制御部１０は、サーバ装置１９から受信した語彙の案を提示する出力情報を生成して、音声出力部６や画面出力部７によりスピーカ８やモニタ９に出力させる（ステップＳＴ３ｃ）。この後、制御部１０は、ユーザによる指定内容を示す操作入力を受け付けて、この指定内容に基づいて、語彙の案を追加するか否かを判定する（ステップＳＴ４ｃ）。

　ここで、ユーザの指定内容から語彙の案を追加語彙として追加しないと判定した場合（ステップＳＴ４ｃ；ＮＯ）、制御部１０は、ステップＳＴ２ｃの処理に戻り、前述と同様の処理を施すことで、今回提示したものとは別の語彙の案をサーバ装置１９からダウンロードして提示する。

　例えば、追加語彙の表記「曲」に対する語彙の案として、関連する語彙「トラック（とらっく）」を提示したが、追加しないと判定された場合、別の語彙案として、語彙「タイトル（たいとる）」を提示する。なお、「トラック（とらっく）」と「タイトル（たいとる）」は、記憶媒体で楽曲データを格納する格納場所及び曲名を示す語彙であり、関連する語彙としてサーバ装置１９で管理されている。

　追加語彙として語彙案を追加すると判定した場合（ステップＳＴ４ｃ；ＹＥＳ）、制御部１０は、登録済み語彙の読み及び語彙案の読みを追加語彙の表記に対応付けて追加するように辞書管理部１２に指示し処理を終了する。辞書管理部１２は、制御部１０の指示に従い、追加語彙の表記及びこれに対応付けて登録済み語彙の読み及び語彙案の読みを認識辞書に追加する（ステップＳＴ５ｃ）。

　また、ステップＳＴ１ｂで語彙を追加する場合、制御部１０が、追加語彙（例えば「曲（きょく）」）とこれに類似する登録済み語彙（例えば「局（きょく）」）とをユーザに提示するとともに、登録済み語彙を削除して追加語彙を追加するか否かを、ユーザにより指定可能な出力情報を生成してスピーカ８やモニタ９に出力させるようにしてもよい。
　このようにすることでも、同一又は類似する語彙の追加が抑制されるために、認識率の向上を図ることができる。

　制御部１０は、ユーザによって登録済み語彙に類似する語彙の追加が選択された場合、類似する登録済み語彙を削除して追加語彙を追加するか否かを指定させる音声文や設定画面を生成してスピーカ８やモニタ９に出力させる。
　入力装置２又はマイク３を用いて、ユーザにより削除しないことが指定された場合、制御部１０は、サーバ装置１９からダウンロードした語彙をそのまま追加するように辞書管理部１２に指示する。辞書管理部１２は、制御部１０の指示に従って、サーバ装置１９からダウンロードした語彙を認識辞書に追加する。

　一方、登録済み語彙を削除して追加語彙を追加することが指定された場合、制御部１０は、類似する登録済み語彙を削除して追加語彙を追加するように辞書管理部１２に指示し処理を終了する。辞書管理部１２では、制御部１０の指示に従って、サーバ装置１９からダウンロードした語彙を認識辞書に追加するとともに、これに類似する登録済み語彙を削除する。

　例えば、登録済み語彙「局（きょく）」があるところに、サーバ装置１９から追加語彙「曲（きょく）」がダウンロードされた場合に、登録済み語彙を削除することをユーザが選択すれば、登録済み語彙「局（きょく）」が削除されて、追加語彙「曲（きょく）」が追加される。

　なお、上記実施の形態１～３において、音声認識装置１の辞書管理部１２が、認識辞書に登録されている語彙ごとに、図７に示す不使用期間情報を管理し、一定期間使用されなかった語彙を自動的に削除するようにしてもよい。例えば、削除判定する期間を１年間と定めた場合、図７における「電話番号検索」という語彙は、３年間使用されなかったため削除される。このようにすることで、語彙数が削減され、認識率を向上させることができる。

　この発明に係る音声認識装置は、認識辞書への無制限な語彙の追加を抑制することで、認識率の向上を図ることができることから、携帯端末や車載情報機器の音声認識装置として好適である。

Claims

　認識対象の語彙が登録された認識辞書と、入力音声を前記認識辞書の語彙と比較して音声認識する音声認識部と、外部からの操作を受け付ける操作部と、音声又は画面表示により情報を外部へ提示する提示部を備えた音声認識装置において、
　外部との通信により語彙を取得する通信部と、
　前記通信部で取得された語彙ごとのカテゴリを前記提示部に提示させ、前記操作部を用いた対話的な操作によりカテゴリごとに語彙を選択させる制御部と、
　前記操作部を用いて選択された語彙を前記認識辞書へ追加登録する辞書管理部を備えたことを特徴とする音声認識装置。
　認識対象の語彙が登録された認識辞書と、入力音声を前記認識辞書の語彙と比較して音声認識する音声認識部と、外部からの操作を受け付ける操作部と、音声又は画面表示により情報を外部へ提示する提示部とを備えた音声認識装置において、
　外部との通信により語彙を取得する通信部と、
　前記通信部で取得された語彙を前記認識辞書に登録される語彙と比較して、同一又は類似する語彙の有無を判定する類似語彙比較部と、
　前記類似語彙比較部で同一又は類似する語彙があることが判定されると、この判定結果を示す警告情報を生成する警告内容生成部と、
　前記警告内容生成部で生成された警告情報を前記提示部に提示させる制御部を備えたことを特徴とする音声認識装置。
　認識対象の語彙が登録された認識辞書と、入力音声を前記認識辞書の語彙と比較して音声認識する音声認識部と、外部からの操作を受け付ける操作部と、音声又は画面表示により情報を外部へ提示する提示部とを備えた音声認識装置において、
　外部との通信により語彙を取得する通信部と、
　前記通信部で取得された語彙と前記認識辞書に登録される語彙との合計数をカウントし、前記合計数が所定数を超えたか否かを判定する語彙数カウント部と、
　前記語彙数カウント部で前記合計数が前記所定数を超えたことが判定されると、この判定結果を示す警告情報を生成する警告内容生成部と、
　前記警告内容生成部で生成された警告情報を前記提示部に提示させる制御部を備えたことを特徴とする音声認識装置。
　通信部にて取得された語彙を認識辞書に登録される語彙と比較して、同一又は類似する語彙の有無を判定する類似語彙比較部と、
　前記通信部で取得された語彙と前記認識辞書に登録される語彙との合計数をカウントし、前記合計数が所定数を超えたか否かを判定する語彙数カウント部と、
　同一又は類似する語彙があることを示す警告情報又は前記合計数が前記所定数を超えたことを示す警告情報を生成する警告内容生成部を備え、
　制御部は、前記警告内容生成部で生成された警告情報を提示部に提示させることを特徴とする請求項１記載の音声認識装置。
　制御部は、通信部で取得された語彙を認識辞書へ追加登録するか否かを提示部に提示させ、
　辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて追加登録することが選択されると、前記通信部で取得された語彙を認識辞書へ追加登録することを特徴とする請求項４記載の音声認識装置。
　制御部は、通信部で取得された語彙と認識辞書に登録される同一又は類似の語彙とに対する優先度の設定を提示部に提示させ、
　辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて各語彙に設定された優先度を前記認識辞書へ登録し、
　音声認識部は、前記優先度に応じて、認識結果候補の語彙を出力することを特徴とする請求項４記載の音声認識装置。
　制御部は、通信部で取得された語彙と認識辞書に登録される同一又は類似の語彙を認識結果候補として提示するか否かを提示部に提示させ、
　辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて指定された認識結果候補として提示するか否かを示す情報とともに語彙を前記認識辞書へ登録し、
　音声認識部は、前記認識結果候補として提示するか否かを示す情報に基づいて認識結果候補の語彙を出力することを特徴とする請求項４記載の音声認識装置。
　制御部は、通信部で取得された語彙を異なる読みの語彙として追加するか否かを提示部に提示させ、
　辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて異なる読みの語彙として追加することが選択されると、前記通信部で取得された語彙を、前記異なる読みに対応付けて前記認識辞書へ追加登録することを特徴とする請求項４記載の音声認識装置。
　制御部は、異なる読みの語彙として追加することが選択されると、異なる読みの語彙候補を提示部に提示させ、
　辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて選択された語彙候補の読みに対応付けて、通信部で取得された語彙を認識辞書へ追加登録することを特徴とする請求項８記載の音声認識装置。
　制御部は、通信部で取得された語彙と同一又は類似する語彙を認識辞書から削除するか否かを提示部に提示させ、
　辞書管理部は、前記提示部の提示内容に基づき、操作部を用いて削除することが選択されると、前記同一又は類似する語彙を前記認識辞書から削除することを特徴とする請求項４記載の音声認識装置。
　辞書管理部は、認識辞書に登録された語彙が所定の削除条件に合致すると、前記認識辞書から削除することを特徴とする請求項４記載の音声認識装置。