WO2008072413A1

WO2008072413A1 - 音声認識装置

Info

Publication number: WO2008072413A1
Application number: PCT/JP2007/069479
Authority: WO
Inventors: Takayoshi Chikuri
Original assignee: Mitsubishi Electric Corporation
Priority date: 2006-12-15
Filing date: 2007-10-04
Publication date: 2008-06-19
Also published as: HK1135225A1; JP4790024B2; CN101558443B; DE112007002665T5; US20100076751A1; CN101558443A; JPWO2008072413A1; US8195461B2; DE112007002665B4

Abstract

　検索対象とされる語彙がジャンル毎に格納されたジャンルデータベース（ＤＢ）を備えた車載機器用の音声認識装置であって、発話された音声を発話データとして出力するマイク１と、ジャンルＤＢで検索対象とされるジャンルの語彙を認識するための第１音声認識辞書２ａと、検索対象外とされるジャンルの語彙を認識するための第２音声認識辞書２ｂと、マイクから送られてくる発話データと第１および第２音声認識辞書に含まれる語彙とを照合して発話された音声を認識する音声認識部３と、音声認識部から認識結果として送られてくる語が、第２音声認識辞書を用いて得られた語である場合は、その旨を表すメッセージを提示情報として出力する対話制御部４と、この提示情報を外部に提示する提示部５を備えている。

Description

明細書

音声認識装置

技術分野

[0001] この発明は、発話された音声を認識する音声認識装置に関し、特に音声の誤認識に伴って発生する問題を低減させる技術に関する。

背景技術

[0002] 従来、音声認識を利用して各種指示を与えることができるカーナビゲーシヨン装置が知られている。音声認識を利用しないカーナビゲーシヨン装置では、一覧表示されたメニューから選択操作を行うことによりジャンル指定するのに対し、音声認識を利用したカーナビゲーシヨン装置では、運転中など一覧表示を見ることができな!/、状態であっても、例えばジャンル名称等を発話することによりジャンルを指定できる。

[0003] このような音声認識は、予め音声認識辞書に登録された語彙のみを認識できる技術であるため、音声認識による入力を行なう際には、ジャンルを表す言葉をユーザが正確に発話する必要がある。し力もながら、カーナビゲーシヨン装置で検索対象とされるジャンルの数は、一般に、数十以上にのぼるため、ユーザは、カーナビゲーション装置で利用できるジャンルを覚えておくことは困難である。また、カーナビグーション装置で利用できるジャンルと、タウンページやインターネットなど、ユーザが日常生活で目にするジャンルや他のカーナビゲーシヨン装置で利用可能なジャンルとを区另リすることは困難である。

[0004] なお、関連する技術として、特許文献 1は、施設名等の入力対象が不正確に発声された場合でも好適な音声認識ができる音声認識装置を開示して!/、る。この音声認識装置において、地図データ記憶手段は、各施設の正式名称を基本単語として記憶している。音声認識ユニットでは、基本単語内の派生キー文字列が検出され、このキー文字歹 IJを用いて基本単語が部分的に変形される。これにより基本単語と同じ施設を他の表現で表す派生単語が自動生成される。例えば、基本単語「静岡県立裾野高等学校」には、キー文字列「静岡県立」「高等学校」が含まれる。そして、派生単語「裾野高等学校」や「裾野高校」が生成される。このような派生単語および基本単語を認識対象に用いて音声認識が行われる。従って、対象ごとに 1つの単語を記憶しておけばよくなる。

[0005] 特許文献 1 :特開平 11 202891号公報

[0006] 従来のカーナビゲーシヨン装置に適用される音声認識装置では、上述した問題があるにもかかわらず、カーナビゲーシヨン装置の機能として検索可能なジャンルを表現する語彙のみが音声認識辞書に登録されている。そのため、ユーザが、カーナビゲーシヨン装置で利用できな!/、ジャンルを表す語を発話した場合、別の語に誤認識してしまい、カーナビゲーシヨン装置がユーザの意図とは異なる挙動をするという問題が発生している。

[0007] 本発明は、上述した問題を解消するためになされたものであり、その課題は、音声認識により動作する装置がユーザの意図とは異なる挙動をすることを防止できる音声認識装置を提供することにある。

発明の開示

[0008] 上記目的を達成するために、この発明に係る音声認識装置は、検索対象とされる語彙がジャンル毎に格納されたジャンルデータベースを備えた車載機器用の音声認識装置であって、発話された音声を電気信号に変換し、発話データとして出力するマイクロフォンと、ジャンルデータベースで検索対象とされるジャンルの語彙を認識するための第 1音声認識辞書と、ジャンルデータベースで検索対象外とされるジャンルの語彙を認識するための第 2音声認識辞書と、マイクロフォンから送られてくる発話デ一タと第 1音声認識辞書および第 2音声認識辞書に含まれる語彙とを照合することにより、発話された音声を認識する音声認識部と、音声認識部から認識結果として送られてくる語が、第 2音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、検索対象とされるジャンルの語でない旨を表すメッセージを提示情報として出力する対話制御部と、対話制御部から送られてくる提示情報を外部に提示する提示部を備えている。

[0009] この発明に係る音声認識装置によれば、ジャンルデータベースで検索対象とされるジャンルの語彙を認識するための第 1音声認識辞書の他に、ジャンルデータベースで検索対象外とされるジャンルの語彙を認識するための第 2音声認識辞書を備え、発話データと第 1音声認識辞書および第 2音声認識辞書を用いて発話された音声を認識し、この認識結果が第 2音声認識辞書に基づき得られた場合は、検索対象とされるジャンルの語でない旨を表すメッセージを提示するように構成したので、ジャンルデータベースで検索不可能な語が発話された場合であっても、発話された語を正しく認識すること力 Sできる。その結果、他の語に誤認識することによってカーナビグーション装置がユーザの意図とは異なる挙動をするという問題を解消できる。また、認識結果が第 2音声認識辞書に基づき得られた場合はその旨のメッセージが提示されるので、ユーザは、違和感なく音声認識機能を使用することができる。

図面の簡単な説明

[図 1]この発明の実施の形態 1に係る音声認識装置が適用されたカーナビゲーシヨン装置の構成を示すブロック図である。

[図 2]この発明の実施の形態 1に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。

[図 3]この発明の実施の形態 2に係る音声認識装置が適用されたカーナビゲーシヨン装置の構成を示すブロック図である。

[図 4]この発明の実施の形態 2に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。

[図 5]この発明の実施の形態 3に係る音声認識装置が適用されたカーナビゲーシヨン装置の構成を示すブロック図である。

[図 6]この発明の実施の形態 3に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。

[図 7]この発明の実施の形態 4に係る音声認識装置が適用されたカーナビゲーシヨン装置の構成を示すブロック図である。

[図 8]この発明の実施の形態 4に係る音声認識装置の動作を、辞書更新処理を中心に示すフローチャートである。

[図 9]この発明の実施の形態 5に係る音声認識装置が適用されたカーナビゲーシヨン装置の構成を示すブロック図である。

[図 10]この発明の実施の形態 5に係る音声認識装置の動作を、対話制御処理を中心に示すフローチャートである。

[図 11]この発明の実施の形態 5に係る音声認識装置の動作を、音声認識サーバで行われる処理を中心に示すフローチャートである。

発明を実施するための最良の形態

[0011] 以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。なお、以下では、この発明の実施の形態に係る音声認識装置が、車載機器としてのカーナビゲーシヨン装置に適用される場合について説明する。

[0012] 実施の形態 1.

図 1は、この発明の実施の形態 1に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、マイクロフォン (以下、「マイク」と略する） 1、音声認識辞書 2、音声認識部 3、対話制御部 4および提示部 5から構成されている。なお、この音声認識装置が適用されるカーナビゲーシヨン装置は、図示は省略している力検索データベースとして、検索対象とされる語彙をジャンル毎に格納したジャンルデータべースを備えている。

[0013] マイク 1は、ユーザが発話した音声を電気信号に変換し、発話データとして音声認識部 3に送る。音声認識辞書 2は、第 1音声認識辞書 2aと第 2音声認識辞書 2bとから構成されている。第 1音声認識辞書 2aは、カーナビゲーシヨン装置で検索対象とすること力 Sできるジャンル (以下、「ナビ検索対象ジャンル」という）の語彙、換言すれば、ジャンルデータベースで検索対象とされるジャンルの語彙（例えば、駅、インターチェンジ、病院など）を格納している。第 2音声認識辞書 2bは、ナビゲーシヨン装置で検索対象外とするジャンル (以下、「ナビ検索対象外ジャンル」という）の語彙、換言すれば、ジャンルデータベースで検索対象外とされているジャンルの語彙 (例えば、学校、トイレなど）を格納している。

[0014] 音声認識部 3は、マイク 1から送られてくる発話データを保持するとともに、この保持した発話データと音声認識辞書 2 (第 1音声認識辞書 2aおよび第 2音声認識辞書 2b )に格納されている語彙と照合することにより、ユーザが発話した音声を認識する。この音声認識部 3における認識結果は、対話制御部 4に送られる。 [0015] 対話制御部 4は、音声認識部 3から送られてくる認識結果が、第 1音声認識辞書 2a に含まれる語彙と照合することにより認識されたことを示している場合は、認識された語を出力し、第 2音声認識辞書 2bに含まれる語彙と照合することにより認識されたことを示している場合は、その旨を表すメッセージを出力する。これにより、ユーザとの対話が制御される。この対話制御部 4から出力される語またはメッセージは、提示部 5 に送られる。

[0016] 提示部 5は、例えばスピーカから構成されており、対話制御部 4から送られてくる語またはメッセージを音声で出力する。この提示部 5はディスプレイから構成することもできる。この場合は、対話制御部 4から送られてくる語またはメッセージは、ディスプレィの画面に表示される。なお、提示部 5は、スピーカとディスプレイの 2つから構成することあでさる。

[0017] 次に、上記のように構成される、この発明の実施の形態 1に係る音声認識装置の動作を、対話制御部 4で行われる対話制御処理を中心に、図 2に示すフローチャートを参照しながら説明する。

[0018] 対話制御処理では、まず、認識結果が受領される（ステップ ST11)。すなわち、対話制御部 4は、音声認識部 3から送られてくる認識結果を受領する。次いで、ステップ ST11で受領した認識結果がナビ検索対象ジャンルの語を示して!/、るかどうかが調ベられる (ステップ ST12)。すなわち、対話制御部 4は、第 1音声認識辞書 2aに含まれる語彙と照合することにより認識されたことを示している力、、または、第 2音声認識辞書 2bに含まれる語彙と照合することにより認識されたことを示しているかを調べる。

[0019] このステップ ST12において、認識結果がナビ検索対象ジャンルの語を示していることが判断されると、認識ジャンル検索が行われる（ステップ ST13)。すなわち、カーナビゲーシヨン装置の図示しな!/、制御部は、音声認識により得られた語を検索キーとしてジャンルデータベースを検索する。その後、音声認識装置の動作は終了する。

[0020] 一方、ステップ ST12において、認識結果がナビ検索対象ジャンルの語を示していないことが判断されると、その旨を表すメッセージが出力される (ステップ ST14)。すなわち、対話制御部 4は、発話された語がジャンルデータベースに存在しない旨のメッセージを生成し、提示部 5に送る。これにより、提示部 5は、対話制御部 4から受け取ったメッセージをスピーカから音声で出力し、または、ディスプレイの画面に文字で表示する。その後、音声認識装置の動作は終了する。

[0021] 上述した処理により実現される具体例を説明する。例えば、カーナビゲーシヨン装置のジャンルデータベースに格納されていないジャンルの「学校」が発話された場合、音声認識部 3は、第 2音声認識辞書 2bを用いて「学校」を正しく認識し、この認識結果を対話制御部 4に送る。この認識結果を受けた対話制御部 4は、例えば「学校はデータベースにないため検索できません」というメッセージを生成して提示部 5に送る。これにより、提示部 5から上記メッセージが音声または文字でユーザに提示される。

[0022] 以上説明したように、この発明の実施の形態 1に係る音声認識装置によれば、カーナビゲーシヨン装置のジャンルデータベースで検索不可能な語が発話された場合であっても、発話された語を正しく認識することができるので、他の語に誤認識することによってカーナビゲーシヨン装置がユーザの意図とは異なる挙動をするという問題を解消できる。

[0023] 実施の形態 2.

図 3は、この発明の実施の形態 2に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態 1に係る音声認識装置に、検索データベース 6 および検索部 7が追加されて構成されている。以下、実施の形態 1と相違する部分を中心に説明する。

[0024] 検索データベース 6は、ジャンルデータベース 6aと名称データベース 6bとから構成されている。ジャンルデータベース 6aは、実施の形態 1と同様に、カーナビゲーシヨン装置で検索対象とされる語彙をジャンル毎に格納している。また、名称データベースは、ジャンルとは無関係に、カーナビゲーシヨン装置で検索可能な名称を格納している。検索部 7は、対話制御部 4からの指示に応じて検索データベース 6を検索し、この検索により得られた語を対話制御部 4に送る。

[0025] 次に、上記のように構成される、この発明の実施の形態 2に係る音声認識装置の動作を、対話制御部 4で行われる対話制御処理を中心に、図 4に示すフローチャートを参照しながら説明する。なお、実施の形態 1に係る音声認識装置と同様の処理が行われるステップには実施の形態 1で用いた符号と同一の符号を付して、説明を簡略化する。

[0026] 対話制御処理では、まず、認識結果が受領される（ステップ ST11)。次!/、で、ステツプ ST11で受領した認識結果がナビ検索対象ジャンルの語を示して!/、るかどうかが調べられる（ステップ ST12)。このステップ ST12において、認識結果がナビ検索対象ジヤンノレの語を示して!/、ること力 S判断されると、認識ジヤンノレ検索が行われる (ステップ ST13)。その後、音声認識装置の動作は終了する。

[0027] 上記ステップ ST12にお!/、て、認識結果がナビ検索対象ジャンルの語でな!/、ことを示していることが判断されると、認識結果の語を検索キーとして名称データベースが検索される（ステップ ST21)。すなわち、対話制御部 4は、認識結果の語を検索部 7 に送る。検索部 7は、対話制御部 4から受け取った語を検索キーとして、検索データベース 6の中の名称データベース 6bを検索する。そして、この検索により得られた語を対話制御部 4に返す。

[0028] 次いで、検索結果が出力される (ステップ ST22)。すなわち、対話制御部 4は、検索部 7から検索結果として受け取った語を、提示部 5に送る。これにより、提示部 5は、対話制御部 4から受け取った検索結果を表す語をスピーカから音声で出力し、または、ディスプレイの画面に文字で表示する。その後、音声認識装置の動作は終了す

[0029] 上述した処理により実現される具体例を説明する。例えば、カーナビゲーシヨン装置のジャンルデータベース 6aに格納されて!/、な!/、ジャンルの「学校」が発話された場合、音声認識部 3は、第 2音声認識辞書 2bを用いて「学校」を正しく認識し、この認識結果を対話制御部 4に送る。この認識結果を受けた対話制御部 4は、検索部 7に「学校」を検索キーとして検索データベース 6の中の名称データベース 6bを検索するように指示する。検索部 7は、名称データベース 6bを検索することにより名称に「学校」が含まれる語、例えば「〇〇学校」および「X X学校」を取得し、対話制御部 4に送る。対話制御部 4は、例えば「〇〇学校、 X X学校が見つかりました」というメッセージを生成して提示部 5に送る。これにより、提示部 5から上記メッセージが音声または文字でユーザに提示される。

[0030] 以上説明したように、この発明の実施の形態 2に係る音声認識装置によれば、上述した実施の形態 1に係る音声認識装置による効果に加え、下記の効果を奏する。すなわち、カーナビゲーシヨン装置のジャンルデータベースで検索不可能な語が発話された場合に、その語を検索キーとして、ジャンルデータベース 6aとは別に用意された名称データベース 6bを検索し、この検索により得られた語をユーザに提示すること力できる。したがって、例えば「学校」というジャンルと異なるジャンルに「学校」という名称を含む語が存在する場合は、その語をユーザに提示することができるので、より細かレ、検索ができるとレ、う利点がある。

[0031] 実施の形態 3.

図 5は、この発明の実施の形態 3に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態 1に係る音声認識装置に、通信部 8が追加されて構成されている。通信部 8は、ネットワーク 9に接続されている。以下、実施の形態 1と相違する部分を中心に説明する。

[0032] 通信部 8は、対話制御部 4からの指示に応じて、例えばネットワーク検索エンジンを使用してネットワーク 9上のサイトを検索し、この検索により得られた語を対話制御部 4 に送る。ネットワーク 9としては、例えばインターネットを用いることができる。

[0033] 次に、上記のように構成される、この発明の実施の形態 3に係る音声認識装置の動作を、対話制御部 4で行われる対話制御処理を中心に、図 6に示すフローチャートを参照しながら説明する。なお、実施の形態 1に係る音声認識装置と同様の処理が行われるステップには実施の形態 1で用いた符号と同一の符号を付して、説明を簡略化する。

[0034] 対話制御処理では、まず、認識結果が受領される（ステップ ST11)。次!/、で、ステツプ ST11で受領した認識結果がナビ検索対象ジャンルの語を示して!/、るかどうかが調べられる（ステップ ST12)。このステップ ST12において、認識結果がナビ検索対象ジヤンノレの語を示して!/、ること力 S判断されると、認識ジヤンノレ検索が行われる (ステップ ST13)。その後、音声認識装置の動作は終了する。

[0035] 上記ステップ ST12にお!/、て、認識結果がナビ検索対象ジャンルの語でな!/、ことを示して!/、ること力 S判断されると、認識結果の語をキーワードとしてネットワーク 9が検索される（ステップ ST31)。すなわち、対話制御部 4は、認識結果の語を通信部 8に送る。通信部 8は、対話制御部 4から受け取った語をキーワードとして、例えばネットヮーク検索エンジンを使用してネットワーク 9を検索する。そして、この検索により得られた語を対話制御部 4に返す。

[0036] 次いで、検索結果が出力される (ステップ ST32)。すなわち、対話制御部 4は、通信部 8から検索結果として受け取った語を、提示部 5に送る。これにより、提示部 5は、対話制御部 4から受け取った検索結果を表す語をスピーカから音声で出力し、または、ディスプレイの画面に文字で表示する。その後、音声認識装置の動作は終了す

[0037] 上述した処理により実現される具体例を説明する。例えば、カーナビゲーシヨン装置のジャンルデータベース 6aに格納されて!/、な!/、ジャンルの「学校」が発話された場合、音声認識部 3は、第 2音声認識辞書 2bを用いて「学校」を正しく認識し、この認識結果を対話制御部 4に送る。この認識結果を受けた対話制御部 4は、検索部 7に「学校」をキーワードとしてネットワーク 9を検索するように指示する。通信部 8は、ネットヮーク 9を検索することにより名称に「学校」が含まれる語を取得し、対話制御部 4に送る。対話制御部 4は、名称に「学校」が含まれる語を示すメッセージを生成して提示部 5に送る。これにより、提示部 5から上記メッセージが音声または文字でユーザに提示される。

[0038] 以上説明したように、この発明の実施の形態 3に係る音声認識装置によれば、上述した実施の形態 1に係る音声認識装置による効果に加え、下記の効果を奏する。すなわち、カーナビゲーシヨン装置のジャンルデータベースで検索不可能な語が発話された場合に、その語をキーワードとして、ネットワーク 9を検索し、この検索により得られた語をユーザに提示することができる。したがって、カーナビゲーシヨン装置のジヤンルデータベースに格納されて!/、な!/、ジャンルの語が発話された場合でも、関連する情報をユーザに提示できるという利点がある。

[0039] 実施の形態 4.

図 7は、この発明の実施の形態 4に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態 1に係る音声認識装置に、辞書更新部 10が追カロされて構成されている。辞書更新部 10には、 PCカード 11が装着される。以下、実施の形態 1と相違する部分を中心に説明する。

[0040] PCカード 11には、第 2音声認識辞書 2bを更新するための更新用音声認識辞書 1 laが格納されている。更新用音声認識辞書 11aは、カーナビゲーシヨン装置で検索対象外とされるナビ検索対象外ジャンルの語彙であって、既存の第 2音声認識辞書 2bに対する追加または削除を行った後の語彙を格納している。図 7は、実施の形態 1に係る第 2音声認識辞書 2bに、「靴屋」という新たな語が追加された更新用音声認識辞書 11 aの例を示して!/、る。

[0041] 辞書更新部 10は、 PCカード 11が装着されることにより、既存の第 2音声認識辞書

2bを、 PCカード 11から読み出した更新用音声認識辞書 11aで置き換え、新たな第 2 音声認識辞書 2bとする。

[0042] 次に、上記のように構成される、この発明の実施の形態 4に係る音声認識装置の動作を辞書更新部 10で行われる辞書更新処理を中心に、図 8に示すフローチャートを参照しながら説明する。なお、辞書更新処理以外の動作は、実施の形態 1に係る音声認識装置の動作と同じである。

[0043] 辞書更新処理では、まず、更新対象辞書の確認が行われる（ステップ ST41)。すなわち、辞書更新部 10は、第 2音声認識辞書 2bのバージョンと、 PCカード 11から読み込んだ更新用音声認識辞書 11aのバージョンを確認する。次いで、更新が必要であるかどうかが調べられる (ステップ ST42)。すなわち、辞書更新部 10は、第 2音声認識辞書 2bのバージョン力 PCカード 11から読み込んだ更新用音声認識辞書 1 la のバージョンより古!/、かどうかを調べる。

[0044] このステップ ST42において、更新が必要でないことが判断されると、辞書更新処理は終了する。一方、ステップ ST42において更新が必要であることが判断されると、次いで、旧辞書が新辞書に置き換えられる（ステップ ST43)。すなわち、辞書更新部 1 0は、既存の第 2音声認識辞書 2bを、 PCカード 11から読み込んだ更新用音声認識辞書 11aで置き換え、新たな第 2音声認識辞書 2bとする。その後、辞書更新処理は終了する。

[0045] 以上説明したように、この発明の実施の形態 4に係る音声認識装置によれば、第 2 音声認識辞書 2bを更新できるように構成したので、この更新により、古い第 2音声認識辞書 2bでは認識できなかったナビ検索対象外ジャンルの語、例えば「靴屋」を認識できるようになる。したがって、ユーザが発話しそうなナビ検索対象外ジャンルの語彙を追加することができるので、時代の変化等によって新しいジャンルが発生した場合などは、その新しいジャンルを追加することが可能になる。

[0046] 実施の形態 5.

図 9は、この発明の実施の形態 5に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態 4に係る音声認識装置に、通信部 8、訂正スィツチ 12およびネットワーク 9に接続された音声認識サーバ 13が追加されるとともに、対話制御部 4および辞書更新部 10の機能が変更されて構成されている。以下、実施の形態 4と相違する部分を中心に説明する。

[0047] 訂正スィッチ 12は、音声認識部 3における認識結果の訂正を指示するために使用される。この訂正スィッチ 12の操作の有無を表す操作信号は、対話制御部 4に送られる。対話制御部 4は、訂正スィッチ 12から送られてくる操作信号が、訂正スィッチ 1 2が操作されて!/、な!/、ことを示して!/、る場合は、実施の形態 1に係る音声認識装置のそれと同様の動作を行う。一方、訂正スィッチ 12から送られてくる操作信号が、訂正スィッチ 12が操作されたことを示している場合は、対話制御部 4は、音声認識部 3に保持されている発話データを取り出して通信部 8に送るとともに、通信部 8から送られてくる更新用音声認識辞書 (後述する）を辞書更新部 10に送る。

[0048] 通信部 8は、対話制御部 4からの指示に応じて、ネットワーク 9を介して音声認識サーバ 13との間の通信を制御する。具体的には、通信部 8は、対話制御部 4から送られてくる発話データおよび第 2音声認識辞書 2bを、ネットワーク 9を介して音声認識サーバ 13に送るとともに、音声認識サーバ 13から送られてくる更新用音声認識辞書を対話制御部 4に送る。辞書更新部 10は、既存の第 2音声認識辞書 2bを、対話制御部 4から送られてくる更新用音声認識辞書で置き換え、新たな第 2音声認識辞書 2 bとする。

[0049] 音声認識サーバ 13は、音声認識部 13aと音声認識辞書 13bとを備えている。音声認識辞書 13bは、第 2音声認識辞書 2bに格納されて!/、るナビ検索対象外ジャンルの語彙に加え、さらに他のジャンルの語彙 (以下、「サーバ用ジャンル」という）を記憶している。図 9は、実施の形態 1に係る第 2音声認識辞書 2bの語彙に、「靴屋」、「花屋」と!/、つたジャンルが追加されて!/、る例を示して!/、る。

[0050] 音声認識部 13aは、通信部 8からネットワーク 9を介して送られてくる発話データと、音声認識辞書 13bに格納されている語彙と照合することにより、発話データによって示された音声を認識する。この音声認識部 13aにおいて、発話データによって示された音声を認識することができ、かつ、その発話データに対応する語彙が、通信部 8からネットワーク 9を介して受け取った音声認識装置の第 2音声認識辞書 2bに含まれていない場合は、発話データに対する音声認識に使用した語彙を含む更新用音声認識辞書を生成し、ネットワーク 9を介して通信部 8に送信する。

[0051] 次に、上記のように構成される、この発明の実施の形態 5に係る音声認識装置の動作を説明する。まず、対話制御部 4で行われる対話制御処理を中心に、図 10に示すフローチャートを参照しながら説明する。なお、実施の形態 1に係る音声認識装置と同様の処理が行われるステップには実施の形態 1で用いた符号と同一の符号を付して、説明を簡略化する。

[0052] 対話制御処理では、まず、認識結果が受領される（ステップ ST11)。次!/、で、認識結果が訂正された力、どうかが調べられる（ステップ ST51)。すなわち、対話制御部 4 は、訂正スィッチ 12から送られてくる操作信号力訂正スィッチ 12が操作されたことを示しているかどうかを調べる。このステップ ST51において、認識結果が訂正されていないことが判断されると、認識結果が提示される（ステップ ST54)。その後、音声認識装置の動作は終了する。

[0053] 一方、ステップ ST51において、認識結果が訂正されたことが判断されると、発話データおよび第 2音声認識辞書が送信される（ステップ ST52)。すなわち、対話制御部 4は、音声認識部 3に保持されて!/、る発話データおよび第 2音声認識辞書 2bを取得し、通信部 8に送る。通信部 8は、対話制御部 4から送られてきた発話データおよび第 2音声認識辞書 2bを、ネットワーク 9を介して音声認識サーバ 13に送る。これに応答して、音声認識サーバ 13は、更新用音声認識辞書を生成し、ネットワーク 9を介して通信部 8に送信する。この音声認識サーバ 13で行われる処理の詳細は後述する。

[0054] 次いで、第 2音声認識辞書が更新される (ステップ ST53)。すなわち、通信部 8は、音声認識サーバ 13からネットワーク 9を介して送られてくる更新用音声認識辞書を伴つた辞書更新依頼を受信し、対話制御部 4に送る。対話制御部 4は、通信部 8から受け取った更新用音声認識辞書を辞書更新部 10に送る。辞書更新部 10は、既存の第 2音声認識辞書 2bを、対話制御部 4から送られてくる更新用音声認識辞書で置き換え、新たな第 2音声認識辞書 2bとする。その後、音声認識装置の動作は終了する

[0055] 次に、音声認識サーバ 13で行われる処理の詳細を、図 11に示すフローチャートを参照しながら説明する。音声認識サーバ 13では、まず、発話データおよび第 2音声認識辞書が受領される (ステップ ST61)。すなわち、音声認識サーバ 13は、音声認識装置の通信部 8からネットワーク 9を介して送られてくる発話データおよび第 2音声認識辞書 2bを受信する。これら発話データおよび第 2音声認識辞書 2bは、音声認識部 13aに送られる。

[0056] 次いで、認識処理が実行される（ステップ ST62)。すなわち、音声認識部 13aは、ステップ ST61で受領した発話データと、音声認識辞書 13bに格納されている語彙と照合することにより、発話データによって示された音声を認識する。次いで、ステップ ST62における認識結果が受領した第 2音声認識辞書の語彙に含まれるかどうかが調べられる（ステップ ST63)。すなわち、音声認識部 13aは、ステップ ST62で認識された語力ステップ ST61で受領された第 2音声認識辞書 2bに含まれるかどうかを調ベる。このステップ ST63において、認識結果が受領した第 2音声認識辞書の語彙に含まれることが判断されると、音声認識装置にぉレ、て単なる認識エラーが発生したものと認識され、シーケンスはステップ ST61に戻って上述した処理が繰り返される。

[0057] 一方、ステップ ST63において、ステップ ST62における認識結果が受領した第 2音声認識辞書の語彙に含まれなレ、ことが判断されると、辞書更新依頼が送信される (ステツプ ST64)。すなわち、音声認識部 13aは、認識結果の語彙を含む更新用音声認識辞書を作成し、これを添付して辞書更新依頼を音声認識装置に送信する。その後、シーケンスはステップ ST61に戻る。以上により、音声認識サーバ 13における処理は終了する。

[0058] 上述した処理により実現される具体例を説明する。例えば、カーナビゲーシヨン装置のジャンルデータベース 6aに格納されて!/、な!/、ジャンルの「靴屋」が発話された場合、音声認識部 3は、第 2音声認識辞書 2bに「靴屋」が含まれていなければ、発話された「靴屋」を認識することができない。この場合、ユーザは、訂正スィッチ 12を操作して、訂正を指示する。これにより、「靴屋」を表す発話データおよび第 2音声認識辞書 2bが音声認識サーバ 13に送信される。音声認識サーバ 13では、発話データに対する音声認識処理を実行する。ここで、認識結果として得られた語「靴屋」が音声認識装置から受領した第 2音声認識辞書 2bの語彙に含まれない場合は、その語「靴屋」を含む更新用音声認識辞書が作成され、音声認識装置に送信される。音声認識装置では、既存の第 2音声認識辞書 2bを、受信した更新用音声認識辞書で置き換えることにより、新しい第 2音声認識辞書 2bとする。これにより、音声認識装置では、以後は、「靴屋」を正しく認識できるようになる。

[0059] 以上説明したように、この発明の実施の形態 5に係る音声認識装置によれば、入力された発話が正しく認識されなかった場合は、その発話を表す発話データを音声認識サーバ 13で認識させて発話内容を推定し、その語彙を含む更新用音声認識辞書を作成し、辞書更新部 10の機能を用いてカーナビゲーシヨン装置の音声認識装置の第 2音声認識辞書 2bとして登録することができる。これにより、カーナビゲーシヨン装置の第 2音声認識辞書 2bを無駄なぐ効率的に更新できる。

[0060] なお、上述した実施の形態 5に係る音声認識装置では、発話データおよび第 2音声認識辞書 2bを音声認識サーバ 13に送信し、音声認識サーバ 13においてサーバ用ジャンルの音声認識辞書を用いて音声認識処理を実行し、発話データを認識できた場合に、その認識された語を含む更新用音声認識辞書を作成して音声認識装置に返信するように構成した力音声認識装置は、発話データのみを音声認識サーバ 13に送信し、音声認識サーバ 13は、サーバ用ジャンルの音声認識辞書を用いて音声認識処理を実行し、発話データを認識できた場合に、その認識された語を音声認識装置に返信し、音声認識装置は、この返信された語を含む更新用音声認識辞書を作成して第 2音声認識辞書 2bを更新するように構成することもできる。この構成によれば、音声認識装置と音声認識サーバ 13との間で送受されるデータ量を減らすこと力 Sできる。産業上の利用可能性

以上のように、この発明に係る音声認識装置は、発話された音声を、検索対象のジヤンルの語彙を格納した第 1音声認識辞書と、検索対象としな!/、ジャンルの語彙を格納した第 2音声認識辞書とで照合して、第 2音声認識辞書に含まれる語彙であると認識した場合は、その旨のメッセージを提示して、ユーザが違和感なく音声認識機能を使用できるようにしたことにより、車載用カーナビゲーシヨン装置などに用いるのに適している。

Claims

請求の範囲

[1] 検索対象とされる語彙がジャンル毎に格納されたジャンルデータベースを備えた車載機器用の音声認識装置であって、

発話された音声を電気信号に変換し、発話データとして出力するマイクロフォンと、前記ジャンルデータベースで検索対象とされるジャンルの語彙を認識するための第

1音声認識辞書と、

前記ジャンルデータベースで検索対象外とされるジャンルの語彙を認識するための第 2音声認識辞書と、

前記マイクロフォンから送られてくる発話データと前記第 1音声認識辞書および前記第 2音声認識辞書に含まれる語彙とを照合することにより、発話された音声を認識する音声認識部と、

前記音声認識部から認識結果として送られてくる語が、前記第 2音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、検索対象とされるジヤンルの語でな!/、旨を表すメッセージを提示情報として出力する対話制御部と、前記対話制御部から送られてくる提示情報を外部に提示する提示部

とを備えた音声認識装置。

[2] 検索対象とされる語彙を名称別に格納した名称データベースと、

対話制御部から送られてくる語を検索キーとして前記名称データベースを検索し、該検索により得られた前記検索キーを名称に含む語を前記対話制御部に返す検索部を備え、

前記対話制御部は、音声認識部から認識結果として送られてくる語が、第 2音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、該語を前記検索部に送って検索を指示し、該指示に応答して前記検索部から返される前記検索キ一を名称に含む語を提示情報として出力する

ことを特徴とする請求項 1記載の音声認識装置。

[3] 対話制御部から送られてくる語をキーワードとしてネットワーク検索を実行し、該ネットワーク検索により得られた前記キーワードを含む語を前記対話制御部に返す通信部を備え、前記対話制御部は、音声認識部から認識結果として送られてくる語が、第 2音声認識辞書に含まれる語彙と照合することにより得られた語である場合は、該語を前記通信部に送ってネットワーク検索を指示し、該指示に応答して前記検索部から返される前記キーワードを含む語を提示情報として出力する

ことを特徴とする請求項 1記載の音声認識装置。

[4] 既存の第 2音声認識辞書を、外部から取得した更新用音声認識辞書で置き換えることにより新しい第 2音声認識辞書とする辞書更新部

を備えたことを特徴とする請求項 1記載の音声認識装置。

[5] 音声認識部から送られてくる認識結果の訂正を指示する認識訂正手段と、

前記認識訂正手段からの指示に応じて、マイクロフォンから対話制御部を介して送られてくる発話データを、ネットワークを介して音声認識サーバに送信し、該音声認識サーバにおいて該発話データを認識できた場合に使用された語彙を含むように生成された更新用音声認識辞書を前記音声認識サーバからネットワークを介して受信して前記対話制御部に返す通信部を備え、

辞書更新部は、前記対話制御部から更新用音声認識辞書を取得し、該取得した更新用音声認識辞書で既存の第 2音声認識辞書を置き換えることにより新しい第 2 音声認識辞書とする

ことを特徴とする請求項 4記載の音声認識装置。