JPWO2009008115A1

JPWO2009008115A1 - 音声認識装置およびナビゲーションシステム

Info

Publication number: JPWO2009008115A1
Application number: JP2009522500A
Authority: JP
Inventors: 朋宏野田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-07-09
Filing date: 2008-04-03
Publication date: 2010-09-02
Also published as: WO2009008115A1; DE112008001763T5

Abstract

音声認識装置は、発話した音声を文字列として認識する音声認識処理部２２と、認識した文字列を当該文字列を構成する単語に分割する単語分割部２３と、分割された単語毎の認識信頼度を算出する信頼度算出部２４と、分割された単語毎の認識信頼度が閾値より高いか否かを判定する信頼度判定部２５と、信頼度判定部２５が認識信頼度の判定に使用する閾値を設定する閾値設定部２７と、信頼度判定部２５で単語の認識信頼度が閾値より低いと判定された時点で、それまで高いと判定された１以上の単語の出力を行なうか、低いと判定された１以上の単語の再発話を促すかを決定するユーザインタフェース提供部２６と、により構成される。

Description

この発明は、例えば、目的地を音声入力して目的地設定を行なう用途に用いて好適な、音声認識装置およびナビゲーションシステムに関するものである。

近年、ナビゲーションシステムが普及し、目的地の音声入力による目的地設定は普通のように行なわれるようになった。この目的地発話による目的地検索機能によれば、発話した目的地の全ての文字列を元に結果を出力し、ユーザが意図する結果にあわなければ、再度目的地の全てを発話させる必要がある。この場合、何度発話しても、以前に音声認識した結果は以後の音声認識処理において有効とならず、ユーザに発話の煩わしさを感じさせる他、全体的に認識率を向上させることができなかった。

一方、ユーザに発話の煩わしさを感じさせること無く高い精度で音声を認識させるために、音声認識の結果得られる文字列を音節ごとに分解し、当該分割された音節の信頼度がある固有の閾値より低いと判定された場合に、その音節のみの発話を促す技術が知られている（例えば、特許文献１参照）

特開２００５−１５７１６６号公報

上記した特許文献１に開示された技術によれば、音声認識により認識された音声の信頼度を算出し、信頼度が低い場合は発話された音声を認識し、信頼度が高い場合は連続認識された音声を出力するため、ユーザの発話の負担を軽減し、かつ、認識率の向上がはかれる。
しかしながら、信頼度の高低を判定する基準となる閾値は、ある固有の値に設定されているため、ユーザの要求、あるいはユーザの属性に応じた、柔軟性のある音声認識を行なうことが出来ないといった課題があった。

この発明は上記した課題を解決するためになされたものであり、ユーザの要求や属性に応じて柔軟性のある音声認識を行うことが出来る、音声認識装置およびナビゲーションシステムを提供することを目的とする。

上記した課題を解決するためにこの発明の音声認識装置は、発話した音声を文字列として認識する音声認識部と、前記認識した文字列を、前記文字列を構成する単語に分割する単語分割部と、前記分割された単語毎の認識信頼度を算出する信頼度算出部と、前記分割された単語毎の認識信頼度が閾値より高いか否かを判定する信頼度判定部と、前記信頼度判定部が認識信頼度の判定に使用する前記閾値を設定する閾値設定部と、前記信頼度判定部で前記単語の認識信頼度が前記閾値より低いと判定された時点で、それまで高いと判定された１以上の単語の出力を行なうか、前記低いと判定された１以上の単語の再発話を促すかを決定するユーザインタフェース提供部と、を有するものである。

この発明のナビゲーションシステムは、発話した目的地を文字列として認識し、当該認識した文字列を単語に分割し、当該分割された単語毎に認識信頼度が閾値より高いか否かを判定し、前記閾値より高いと判定された場合に認識結果を出力する音声認識部と、前記認識信頼度の判定に使用する閾値を設定するとともに、前記音声認識部で前記単語の認識信頼度が前記閾値より低いと判定された時点で、それまでに高いと判定された単語に基づき目的地設定を行なうか、前記閾値を変更し、前記低いと判定された単語の再発話を促して前記音声認識部による音声認識を繰り返し、当該認識結果を用いて目的地設定を行なう目的地設定処理部と、を有するものである。

この発明によれば、ユーザの要求や属性に応じて柔軟性のある音声認識を行うことが出来る、音声認識装置およびナビゲーションシステムを提供することができる。

この発明の実施の形態１に係るナビゲーションシステムの構成の一例を示すブロック図である。この発明の実施の形態１に係る音声認識装置の構成の一例を示すブロック図である。この発明の実施の形態１に係る音声認識装置の閾値設定部の内部構成の一例を示すブロック図である。この発明の実施の形態１に係る音声認識装置の動作を示すフローチャートである。

以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１に係るナビゲーションシステムの構成の一例を示すブロック図である。
この発明の実施の形態１に係るナビゲーションシステムは、図１に示されるように、マイクロフォン（ＭＩＣ）１と、音声認識部２と、目的地設定処理部３と、タッチパネル４と、音声波形ＤＢ５と、地図ＤＢ６とにより構成される。

音声認識部２は、ＭＩＣ１により集音された、ユーザの発話内容を文字列として認識し、当該認識した文字列を単語に分割し、当該分割された単語毎に認識信頼度が閾値より高いか否かを判定し、当該閾値より高いと判定された場合に認識結果を目的地設定処理部３へ出力する機能を有する。
目的地設定処理部３は、認識信頼度の判定に使用する閾値を設定するとともに、音声認識部２で単語の認識信頼度が閾値より低いと判定された時点で、それまでに高いと判定された単語に基づき目的地設定を行なうか、もしくは閾値を変更し、低いと判定された単語の再発話を促して音声認識部２による音声認識を繰り返し、当該認識結果を用いて目的地設定を行なう機能を有する。

なお、音声波形ＤＢ５には音声認識に使用される音声素片が波形として格納されており、音声認識部２が音声認識処理を行う際に類似度を判定するための相関演算を行う際に参照される。また、地図ＤＢ６には地図データが格納されており、目的地設定処理部３が音声認識部２で認識された音声により目的地設定を行なう際に、当該地図データ上にマッピングされ、タッチパネル４上に表示される。
なお、タッチパネル４は、後述するように、ユーザによる閾値設定、ユーザに再発話を促すためのメッセージ表示、あるいは音声認識結果の表示等、ユーザインタフェースとしての役割を担う。

図２は、この発明の実施の形態１に係る音声認識装置（図１の音声認識部２）の内部構成を機能展開して示したブロック図である。
図２に示されるように、この発明の実施の形態１に係る音声認識装置（音声認識部２）は、音声入力取得部２１と、音声認識処理部２２と、単語分割部２３と、信頼度算出部２４と、信頼度判定部２５と、ＵＩ（User Interface）提供部２６と、閾値設定部２７と、により構成される。

音声入力取得部２１は、ＭＩＣ１によって集音される、ユーザが発話した音声を取得して音声認識処理部２２へ供給する機能を有する。また、音声認識処理部２２は、入力された音声を文字列として認識して単語分割処理部２３へ供給する機能を有する。
単語分割部２３は、音声認識処理部２２が認識した文字列を、当該文字列を構成する単語に分割して信頼度算出部２４へ供給する機能を有する。また、信頼度算出部２４は、単語分割部２３で分割された単語毎の認識信頼度を算出して信頼度判定部２５へ供給する機能を有する。

信頼度判定部２５は、単語分割部２３で分割され、信頼度算出部２４で算出された単語毎の認識信頼度が、閾値設定部２７により設定された閾値より高いか否かを判定してＵＩ提供部２６へ供給する機能を有する。
ＵＩ提供部２６は、信頼度判定部２５で単語の認識信頼度が閾値より低いと判定された時点で、それまで高いと判定された単語の出力を行なうか、低いと判定された単語の再発話を促すかを決定する機能を有する。ＵＩ提供部２６は、例えば、図１に示すタッチパネル４等の入出力装置を用いてユーザと音声認識装置との間のインタフェースを担う。

閾値設定部２７は、信頼度判定部２５が認識信頼度の判定に使用する閾値を設定する機能を有する。
具体的に、閾値設定部２７は、ＵＩ提供部２６を介して単語の再発話が選択された場合、再発話の回数をカウントして基準値と比較し、当該比較結果によっては閾値を更新する。また、閾値設定部２７は、ＵＩ提供部２６を介してユーザにより入力される閾値を取り込み、設定された閾値を更新する。また、閾値設定部２７は、閾値の設定に関し、発話単位でなく、単語分割部２３により出力される認識単語毎に設定してもよい。

閾値設定部２７は、図３にその内部構成の一例が示されるように、カウンタ（ＣＮＴ）２７１と、定数レジスタ２７２と、比較器（ＣＯＭＰ）２７３と、閾値調整部２７４とにより構成される。
ＣＮＴ２７１は、ＵＩ提供部２６を介してユーザにより再発話が選択された場合に、その再発話の回数をカウントしてＣＯＭＰ２７３の一方の入力端子に供給する。ＣＯＭＰ２７３の他方の入力端子には定数レジスタ２７２から読み出される基準値が供給されており、ＣＯＭＰ２７３は、入力される再発話の回数と基準値とを比較し、その結果を閾値調整部２７４へ供給する。閾値調整部２７４へは他に、ＵＩ提供部２６からユーザにより手動設定された閾値が供給されており、ここで、手動設定された閾値の微調整を行なう。詳細は後述する。

上記した図２、図３に示す構成において、ユーザは、まず、ＭＩＣ１に向かって目的地設定したい住所、名称、電話番号等を発話し、ここでは、例えば、「兵庫県三田市三輪３−３３」と発話したものとする。
音声認識処理部２２では、音声入力取得部２１により取得されたユーザによって発話された音声情報から文字列情報を生成し、単語分割部２３へその文字列情報を引き渡す。単語分割部２３は、音声認識処理部２２により認識された文字列情報を単語単位に区分する。具体的に、ここでは、「兵庫県」「三田市」「三輪」「３−３３」のように分割される。

信頼度算出部２４は、単語分割部２３で分解された単語毎の認識信頼度を算出し、閾値より高いか低いかの判定を行い、その結果を出力する。例えば、ここでは、音声認識結果が「兵庫県三田市」とする。この結果に基づき、ＵＩ提供部２６はユーザ指示にしたがい、閾値に満たない単語、ここでは、「三輪３−３３」を再度発話するか、あるいは閾値に満たない単語を無視して音声認識された結果から住所による目的地検索を行うか否かの判定を行う。この発話は、ユーザが納得した音声認識結果が得られるまで繰り返し行うことも可能である。ＵＩ提供部２６は、ユーザが再発話することを選択し、信頼度算出部２４により算出される認識信頼度が信頼度判定部２５で閾値以下だったと判定された単語のみ再発話を行なわせることで、音声認識処理部２２は、前回より範囲を限定した音声認識処理を行うことができ、したがって、前回の発話よりも認識率を向上させることができる。

一方、閾値設定部２７は、ＵＩ提供部２６を介して行なわれるユーザによる手動設定に基づき、信頼度判定部２５で使用する閾値を変更、あるいは設定することができる。ユーザが閾値を自由に設定することで、以下の効果を有する。
すなわち、イントネーションには個人差があり、閾値がある固有の値である場合、個人差（例えば“訛り”が強いユーザ）によって全く認識がなされないこともあり得る。この場合、閾値を下げることによってこの問題を解消できる。また、より正確な音声認識を望むユーザには閾値を上げることにより、ユーザが希望する音声認識装置を提供することができる。

ユーザは、例えばタッチパネル４を手動操作することにより大まかな認識信頼度のための閾値を設定することができる（例えば、１〜５の５段階）。また、一次認識結果におけるユーザの意思をフィードバックすることにより閾値を微調整することが出来る。例えば、ユーザが閾値として“４”を手動で設定したとすれば、音声入力装置（閾値設定部２７）により、自動的に、３．５〜４．５の間で閾値の微調整が行なわれる。詳細は後述する。

図４は、この発明の実施の形態１に係る音声認識装置のうち、特に、閾値設定部２７の動作を中心に示したフローチャートである。
以下、図４のフローチャートを参照しながら、図２、図３に示すこの発明の実施の形態１に係る音声認識装置の動作について詳細に説明する。

図４に示されるように、信頼度判定部２５は、音声認識処理部２２で認識文字列に変換し、単語分割部２３で分割された単語の認識信頼度が、閾値以下であるか否かを判定する（ステップＳＴ４１）。ここで、認識信頼度に閾値以下の単語があれば（ステップＳＴ４１“有り”）、ＵＩ提供部２６を介してユーザにその単語の再発話を行うか否かの選択を促す（ステップＳＴ４２）。

仮に、再発話が頻繁になされた場合、閾値設定部２７は、内蔵するＣＮＴ２７１で再発話回数をカウントしておき、ＣＯＭＰ２７３で定数レジスタ２７２に設定された基準値との比較を都度行う（ステップＳＴ４３）。
ここで、基準値以上の再発話がなされたと判定された場合（ステップＳＴ４３“Ｙｅｓ”）、先にユーザ設定された閾値は希望よりも高いことを意味するため、閾値調整部２７４は、ユーザ設定値を上記した微調整を行い、ここでは低めの閾値に自動的に再設定する（ステップＳＴ４４）。そして、ＵＩ提供部２６を介してユーザに再発話を促す（ステップＳＴ４５）。ここでは、ＵＩ提供部２６は、タッチパネル４等の入出力装置に認識された文字列を表示し、閾値以下の単語を強調表示することにより再発話を促すこととする。

なお、ステップＳＴ４３の処理において、再発話回数が基準値以下と判定された場合も（ステップＳＴ４３“Ｎｏ”）同様に再発話を促す。また、ステップＳＴ４１の処理で、信頼度が閾値以上の単語について（ステップＳＴ４１“無し”）、あるいはステップＳＴ４２の処理で再発話が選択されず、それまでに高いと判定された単語の出力が選択された場合は音声認識処理を終了する。

以上説明のようにこの発明の実施の形態１に係る音声認識装置によれば、閾値を手動、もしくは自動で動的に変更し、認識できなかった単語を繰り返し発話させることにより認識率が向上し、且つ、ユーザの要求、あるいはユーザの属性（例えば、訛りの有無等）に応じた、柔軟性のある音声認識を行うことが出来る。
また、分割された単語の認識信頼度が閾値より低いと判定された場合に、その単語のみの再発話を促し、ユーザが意図する内容に合う単語の認識結果は有効になるため、ユーザに再発話の煩わしさを感じさせることなく全体的に認識率を向上させることができる。

なお、図１は、この発明の実施の形態１に係る音声認識装置をナビゲーションシステムの住所発話による目的地検索機能に応用したものである。

ここでは、音声認識部２は、発話した住所を音声波形ＤＢ５に格納された音声素片との相関を判定することにより文字列として認識し、当該認識した文字列を単語に分割し、当該分割された単語毎に認識信頼度が閾値より高いか否かを判定し、閾値より高いと判定された場合にその認識結果を目的地設定処理部３へ供給する。
目的地設定処理部３は、認識信頼度の判定に使用する閾値を設定するとともに、音声認識部２で単語の認識信頼度が閾値より低いと判定された時点で、それまでに高いと判定された単語に基づき目的地設定を行なうか、あるいは閾値を変更し、低いと判定された単語の再発話を促して音声認識部２による音声認識を繰り返し実行させ、当該認識結果により地図ＤＢ６を参照して目的地設定を行なう。

上記したように、音声認識部１は、発話した文字列に含まれる単語毎の信頼度を算出し、信頼度が閾値よりも高い単語については認識できたものとしてタッチパネル４に結果を出力し、また、このとき使用する閾値について、タッチパネル４を用いてユーザが手動で設定し、あるいは上記したように音声認識装置（音声認識部１）自身が自動で微調整を行うことができる。

上記したこの発明の実施の形態１に係るナビゲーションシステムによれば、ユーザの要求、あるいはユーザの属性に応じた目的地設定のための音声認識を行わせることができ、ユーザに利便性を提供することができる。

なお、上記したこの発明の実施の形態に係る音声認識装置、あるいはナビゲーションシステムによれば、閾値の設定に関し、発話する単位で設定したが、分割される単語毎に設定することも可能である。この場合、より柔軟性の高い音声認識が可能になる。
また、図２に示す音声認識部２が有する構成ブロックの機能は、全てをソフトウェアによって実現しても、あるいはその少なくとも一部をハードウェアで実現してもよい。例えば、音声入力取得部２１、音声認識処理部２２、単語分割部２３、信頼度算出部２４、信頼度判定部２５、ＵＩ提供部２６、閾値設定部２７のそれぞれにおけるデータ処理は、１または複数のプログラムによりコンピュータ上で実現してもよく、また、その少なくとも一部をハードウェアで実現してもよい。

以上のように、この発明に係る音声認識装置は、発話された文字列を単語毎に信頼度を算出して判定するとともに、判定に用いる閾値をユーザが設定できるようにしたので、音声認識により目的地を行うことができる車載用ナビゲーションシステムなどに用いるのに適している。

Claims

発話した音声を文字列として認識する音声認識処理部と、
前記認識した文字列を、前記文字列を構成する単語に分割する単語分割部と、
前記分割された単語毎の認識信頼度を算出する信頼度算出部と、
前記分割された単語毎の認識信頼度が閾値より高いか否かを判定する信頼度判定部と、
前記信頼度判定部が認識信頼度の判定に使用する前記閾値を設定する閾値設定部と、
前記信頼度判定部で前記単語の認識信頼度が前記閾値より低いと判定された時点で、それまで高いと判定された１以上の単語の出力を行なうか、前記低いと判定された１以上の単語の再発話を促すかを決定するユーザインタフェース提供部と、
を有することを特徴とする音声認識装置。
前記閾値設定部は、
前記ユーザインタフェース提供部を介して前記単語の再発話が選択された場合、前記再発話の回数をカウントして基準値と比較し、当該比較結果によっては前記閾値を更新することを特徴とする請求項１記載の音声認識装置。
前記閾値設定部は、
前記ユーザインタフェース提供部を介してユーザにより入力される閾値を取り込み、前記設定された閾値を更新することを特徴とする請求項１記載の音声認識装置。
前記閾値設定部は、
前記閾値を、前記単語分割部により出力される認識単語毎に設定することを特徴とする請求項１記載の音声認識装置。
目的地を音声入力して目的地設定を行なうナビゲーションシステムであって、
発話した目的地を文字列として認識し、当該認識した文字列を単語に分割し、当該分割された単語毎に認識信頼度が閾値より高いか否かを判定し、前記閾値より高いと判定された場合に認識結果を出力する音声認識部と、
前記認識信頼度の判定に使用する閾値を設定するとともに、前記音声認識部で前記単語の認識信頼度が前記閾値より低いと判定された時点で、それまでに高いと判定された単語に基づき目的地設定を行なうか、前記閾値を変更し、前記低いと判定された単語の再発話を促して前記音声認識部による音声認識を繰り返し、当該認識結果を用いて目的地設定を行なう目的地設定処理部と、
を有することを特徴とするナビゲーションシステム。