JPWO2009008115A1 - 音声認識装置およびナビゲーションシステム - Google Patents
音声認識装置およびナビゲーションシステム Download PDFInfo
- Publication number
- JPWO2009008115A1 JPWO2009008115A1 JP2009522500A JP2009522500A JPWO2009008115A1 JP WO2009008115 A1 JPWO2009008115 A1 JP WO2009008115A1 JP 2009522500 A JP2009522500 A JP 2009522500A JP 2009522500 A JP2009522500 A JP 2009522500A JP WO2009008115 A1 JPWO2009008115 A1 JP WO2009008115A1
- Authority
- JP
- Japan
- Prior art keywords
- unit
- recognition
- reliability
- threshold
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000306 recurrent effect Effects 0.000 description 9
- 238000000034 method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- ZZUFCTLCJUWOSV-UHFFFAOYSA-N furosemide Chemical compound C1=C(Cl)C(S(=O)(=O)N)=CC(C(O)=O)=C1NCC1=CC=CO1 ZZUFCTLCJUWOSV-UHFFFAOYSA-N 0.000 description 2
- 101000893549 Homo sapiens Growth/differentiation factor 15 Proteins 0.000 description 1
- 101000692878 Homo sapiens Regulator of MON1-CCZ1 complex Proteins 0.000 description 1
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
Abstract
音声認識装置は、発話した音声を文字列として認識する音声認識処理部22と、認識した文字列を当該文字列を構成する単語に分割する単語分割部23と、分割された単語毎の認識信頼度を算出する信頼度算出部24と、分割された単語毎の認識信頼度が閾値より高いか否かを判定する信頼度判定部25と、信頼度判定部25が認識信頼度の判定に使用する閾値を設定する閾値設定部27と、信頼度判定部25で単語の認識信頼度が閾値より低いと判定された時点で、それまで高いと判定された1以上の単語の出力を行なうか、低いと判定された1以上の単語の再発話を促すかを決定するユーザインタフェース提供部26と、により構成される。
Description
この発明は、例えば、目的地を音声入力して目的地設定を行なう用途に用いて好適な、音声認識装置およびナビゲーションシステムに関するものである。
近年、ナビゲーションシステムが普及し、目的地の音声入力による目的地設定は普通のように行なわれるようになった。この目的地発話による目的地検索機能によれば、発話した目的地の全ての文字列を元に結果を出力し、ユーザが意図する結果にあわなければ、再度目的地の全てを発話させる必要がある。この場合、何度発話しても、以前に音声認識した結果は以後の音声認識処理において有効とならず、ユーザに発話の煩わしさを感じさせる他、全体的に認識率を向上させることができなかった。
一方、ユーザに発話の煩わしさを感じさせること無く高い精度で音声を認識させるために、音声認識の結果得られる文字列を音節ごとに分解し、当該分割された音節の信頼度がある固有の閾値より低いと判定された場合に、その音節のみの発話を促す技術が知られている(例えば、特許文献1参照)
上記した特許文献1に開示された技術によれば、音声認識により認識された音声の信頼度を算出し、信頼度が低い場合は発話された音声を認識し、信頼度が高い場合は連続認識された音声を出力するため、ユーザの発話の負担を軽減し、かつ、認識率の向上がはかれる。
しかしながら、信頼度の高低を判定する基準となる閾値は、ある固有の値に設定されているため、ユーザの要求、あるいはユーザの属性に応じた、柔軟性のある音声認識を行なうことが出来ないといった課題があった。
しかしながら、信頼度の高低を判定する基準となる閾値は、ある固有の値に設定されているため、ユーザの要求、あるいはユーザの属性に応じた、柔軟性のある音声認識を行なうことが出来ないといった課題があった。
この発明は上記した課題を解決するためになされたものであり、ユーザの要求や属性に応じて柔軟性のある音声認識を行うことが出来る、音声認識装置およびナビゲーションシステムを提供することを目的とする。
上記した課題を解決するためにこの発明の音声認識装置は、発話した音声を文字列として認識する音声認識部と、前記認識した文字列を、前記文字列を構成する単語に分割する単語分割部と、前記分割された単語毎の認識信頼度を算出する信頼度算出部と、前記分割された単語毎の認識信頼度が閾値より高いか否かを判定する信頼度判定部と、前記信頼度判定部が認識信頼度の判定に使用する前記閾値を設定する閾値設定部と、前記信頼度判定部で前記単語の認識信頼度が前記閾値より低いと判定された時点で、それまで高いと判定された1以上の単語の出力を行なうか、前記低いと判定された1以上の単語の再発話を促すかを決定するユーザインタフェース提供部と、を有するものである。
この発明のナビゲーションシステムは、発話した目的地を文字列として認識し、当該認識した文字列を単語に分割し、当該分割された単語毎に認識信頼度が閾値より高いか否かを判定し、前記閾値より高いと判定された場合に認識結果を出力する音声認識部と、前記認識信頼度の判定に使用する閾値を設定するとともに、前記音声認識部で前記単語の認識信頼度が前記閾値より低いと判定された時点で、それまでに高いと判定された単語に基づき目的地設定を行なうか、前記閾値を変更し、前記低いと判定された単語の再発話を促して前記音声認識部による音声認識を繰り返し、当該認識結果を用いて目的地設定を行なう目的地設定処理部と、を有するものである。
この発明によれば、ユーザの要求や属性に応じて柔軟性のある音声認識を行うことが出来る、音声認識装置およびナビゲーションシステムを提供することができる。
以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1に係るナビゲーションシステムの構成の一例を示すブロック図である。
この発明の実施の形態1に係るナビゲーションシステムは、図1に示されるように、マイクロフォン(MIC)1と、音声認識部2と、目的地設定処理部3と、タッチパネル4と、音声波形DB5と、地図DB6とにより構成される。
実施の形態1.
図1は、この発明の実施の形態1に係るナビゲーションシステムの構成の一例を示すブロック図である。
この発明の実施の形態1に係るナビゲーションシステムは、図1に示されるように、マイクロフォン(MIC)1と、音声認識部2と、目的地設定処理部3と、タッチパネル4と、音声波形DB5と、地図DB6とにより構成される。
音声認識部2は、MIC1により集音された、ユーザの発話内容を文字列として認識し、当該認識した文字列を単語に分割し、当該分割された単語毎に認識信頼度が閾値より高いか否かを判定し、当該閾値より高いと判定された場合に認識結果を目的地設定処理部3へ出力する機能を有する。
目的地設定処理部3は、認識信頼度の判定に使用する閾値を設定するとともに、音声認識部2で単語の認識信頼度が閾値より低いと判定された時点で、それまでに高いと判定された単語に基づき目的地設定を行なうか、もしくは閾値を変更し、低いと判定された単語の再発話を促して音声認識部2による音声認識を繰り返し、当該認識結果を用いて目的地設定を行なう機能を有する。
目的地設定処理部3は、認識信頼度の判定に使用する閾値を設定するとともに、音声認識部2で単語の認識信頼度が閾値より低いと判定された時点で、それまでに高いと判定された単語に基づき目的地設定を行なうか、もしくは閾値を変更し、低いと判定された単語の再発話を促して音声認識部2による音声認識を繰り返し、当該認識結果を用いて目的地設定を行なう機能を有する。
なお、音声波形DB5には音声認識に使用される音声素片が波形として格納されており、音声認識部2が音声認識処理を行う際に類似度を判定するための相関演算を行う際に参照される。また、地図DB6には地図データが格納されており、目的地設定処理部3が音声認識部2で認識された音声により目的地設定を行なう際に、当該地図データ上にマッピングされ、タッチパネル4上に表示される。
なお、タッチパネル4は、後述するように、ユーザによる閾値設定、ユーザに再発話を促すためのメッセージ表示、あるいは音声認識結果の表示等、ユーザインタフェースとしての役割を担う。
なお、タッチパネル4は、後述するように、ユーザによる閾値設定、ユーザに再発話を促すためのメッセージ表示、あるいは音声認識結果の表示等、ユーザインタフェースとしての役割を担う。
図2は、この発明の実施の形態1に係る音声認識装置(図1の音声認識部2)の内部構成を機能展開して示したブロック図である。
図2に示されるように、この発明の実施の形態1に係る音声認識装置(音声認識部2)は、音声入力取得部21と、音声認識処理部22と、単語分割部23と、信頼度算出部24と、信頼度判定部25と、UI(User Interface)提供部26と、閾値設定部27と、により構成される。
図2に示されるように、この発明の実施の形態1に係る音声認識装置(音声認識部2)は、音声入力取得部21と、音声認識処理部22と、単語分割部23と、信頼度算出部24と、信頼度判定部25と、UI(User Interface)提供部26と、閾値設定部27と、により構成される。
音声入力取得部21は、MIC1によって集音される、ユーザが発話した音声を取得して音声認識処理部22へ供給する機能を有する。また、音声認識処理部22は、入力された音声を文字列として認識して単語分割処理部23へ供給する機能を有する。
単語分割部23は、音声認識処理部22が認識した文字列を、当該文字列を構成する単語に分割して信頼度算出部24へ供給する機能を有する。また、信頼度算出部24は、単語分割部23で分割された単語毎の認識信頼度を算出して信頼度判定部25へ供給する機能を有する。
単語分割部23は、音声認識処理部22が認識した文字列を、当該文字列を構成する単語に分割して信頼度算出部24へ供給する機能を有する。また、信頼度算出部24は、単語分割部23で分割された単語毎の認識信頼度を算出して信頼度判定部25へ供給する機能を有する。
信頼度判定部25は、単語分割部23で分割され、信頼度算出部24で算出された単語毎の認識信頼度が、閾値設定部27により設定された閾値より高いか否かを判定してUI提供部26へ供給する機能を有する。
UI提供部26は、信頼度判定部25で単語の認識信頼度が閾値より低いと判定された時点で、それまで高いと判定された単語の出力を行なうか、低いと判定された単語の再発話を促すかを決定する機能を有する。UI提供部26は、例えば、図1に示すタッチパネル4等の入出力装置を用いてユーザと音声認識装置との間のインタフェースを担う。
UI提供部26は、信頼度判定部25で単語の認識信頼度が閾値より低いと判定された時点で、それまで高いと判定された単語の出力を行なうか、低いと判定された単語の再発話を促すかを決定する機能を有する。UI提供部26は、例えば、図1に示すタッチパネル4等の入出力装置を用いてユーザと音声認識装置との間のインタフェースを担う。
閾値設定部27は、信頼度判定部25が認識信頼度の判定に使用する閾値を設定する機能を有する。
具体的に、閾値設定部27は、UI提供部26を介して単語の再発話が選択された場合、再発話の回数をカウントして基準値と比較し、当該比較結果によっては閾値を更新する。また、閾値設定部27は、UI提供部26を介してユーザにより入力される閾値を取り込み、設定された閾値を更新する。また、閾値設定部27は、閾値の設定に関し、発話単位でなく、単語分割部23により出力される認識単語毎に設定してもよい。
具体的に、閾値設定部27は、UI提供部26を介して単語の再発話が選択された場合、再発話の回数をカウントして基準値と比較し、当該比較結果によっては閾値を更新する。また、閾値設定部27は、UI提供部26を介してユーザにより入力される閾値を取り込み、設定された閾値を更新する。また、閾値設定部27は、閾値の設定に関し、発話単位でなく、単語分割部23により出力される認識単語毎に設定してもよい。
閾値設定部27は、図3にその内部構成の一例が示されるように、カウンタ(CNT)271と、定数レジスタ272と、比較器(COMP)273と、閾値調整部274とにより構成される。
CNT271は、UI提供部26を介してユーザにより再発話が選択された場合に、その再発話の回数をカウントしてCOMP273の一方の入力端子に供給する。COMP273の他方の入力端子には定数レジスタ272から読み出される基準値が供給されており、COMP273は、入力される再発話の回数と基準値とを比較し、その結果を閾値調整部274へ供給する。閾値調整部274へは他に、UI提供部26からユーザにより手動設定された閾値が供給されており、ここで、手動設定された閾値の微調整を行なう。詳細は後述する。
CNT271は、UI提供部26を介してユーザにより再発話が選択された場合に、その再発話の回数をカウントしてCOMP273の一方の入力端子に供給する。COMP273の他方の入力端子には定数レジスタ272から読み出される基準値が供給されており、COMP273は、入力される再発話の回数と基準値とを比較し、その結果を閾値調整部274へ供給する。閾値調整部274へは他に、UI提供部26からユーザにより手動設定された閾値が供給されており、ここで、手動設定された閾値の微調整を行なう。詳細は後述する。
上記した図2、図3に示す構成において、ユーザは、まず、MIC1に向かって目的地設定したい住所、名称、電話番号等を発話し、ここでは、例えば、「兵庫県三田市三輪3−33」と発話したものとする。
音声認識処理部22では、音声入力取得部21により取得されたユーザによって発話された音声情報から文字列情報を生成し、単語分割部23へその文字列情報を引き渡す。単語分割部23は、音声認識処理部22により認識された文字列情報を単語単位に区分する。具体的に、ここでは、「兵庫県」「三田市」「三輪」「3−33」のように分割される。
音声認識処理部22では、音声入力取得部21により取得されたユーザによって発話された音声情報から文字列情報を生成し、単語分割部23へその文字列情報を引き渡す。単語分割部23は、音声認識処理部22により認識された文字列情報を単語単位に区分する。具体的に、ここでは、「兵庫県」「三田市」「三輪」「3−33」のように分割される。
信頼度算出部24は、単語分割部23で分解された単語毎の認識信頼度を算出し、閾値より高いか低いかの判定を行い、その結果を出力する。例えば、ここでは、音声認識結果が「兵庫県三田市」とする。この結果に基づき、UI提供部26はユーザ指示にしたがい、閾値に満たない単語、ここでは、「三輪3−33」を再度発話するか、あるいは閾値に満たない単語を無視して音声認識された結果から住所による目的地検索を行うか否かの判定を行う。この発話は、ユーザが納得した音声認識結果が得られるまで繰り返し行うことも可能である。UI提供部26は、ユーザが再発話することを選択し、信頼度算出部24により算出される認識信頼度が信頼度判定部25で閾値以下だったと判定された単語のみ再発話を行なわせることで、音声認識処理部22は、前回より範囲を限定した音声認識処理を行うことができ、したがって、前回の発話よりも認識率を向上させることができる。
一方、閾値設定部27は、UI提供部26を介して行なわれるユーザによる手動設定に基づき、信頼度判定部25で使用する閾値を変更、あるいは設定することができる。ユーザが閾値を自由に設定することで、以下の効果を有する。
すなわち、イントネーションには個人差があり、閾値がある固有の値である場合、個人差(例えば“訛り”が強いユーザ)によって全く認識がなされないこともあり得る。この場合、閾値を下げることによってこの問題を解消できる。また、より正確な音声認識を望むユーザには閾値を上げることにより、ユーザが希望する音声認識装置を提供することができる。
すなわち、イントネーションには個人差があり、閾値がある固有の値である場合、個人差(例えば“訛り”が強いユーザ)によって全く認識がなされないこともあり得る。この場合、閾値を下げることによってこの問題を解消できる。また、より正確な音声認識を望むユーザには閾値を上げることにより、ユーザが希望する音声認識装置を提供することができる。
ユーザは、例えばタッチパネル4を手動操作することにより大まかな認識信頼度のための閾値を設定することができる(例えば、1〜5の5段階)。また、一次認識結果におけるユーザの意思をフィードバックすることにより閾値を微調整することが出来る。例えば、ユーザが閾値として“4”を手動で設定したとすれば、音声入力装置(閾値設定部27)により、自動的に、3.5〜4.5の間で閾値の微調整が行なわれる。詳細は後述する。
図4は、この発明の実施の形態1に係る音声認識装置のうち、特に、閾値設定部27の動作を中心に示したフローチャートである。
以下、図4のフローチャートを参照しながら、図2、図3に示すこの発明の実施の形態1に係る音声認識装置の動作について詳細に説明する。
以下、図4のフローチャートを参照しながら、図2、図3に示すこの発明の実施の形態1に係る音声認識装置の動作について詳細に説明する。
図4に示されるように、信頼度判定部25は、音声認識処理部22で認識文字列に変換し、単語分割部23で分割された単語の認識信頼度が、閾値以下であるか否かを判定する(ステップST41)。ここで、認識信頼度に閾値以下の単語があれば(ステップST41“有り”)、UI提供部26を介してユーザにその単語の再発話を行うか否かの選択を促す(ステップST42)。
仮に、再発話が頻繁になされた場合、閾値設定部27は、内蔵するCNT271で再発話回数をカウントしておき、COMP273で定数レジスタ272に設定された基準値との比較を都度行う(ステップST43)。
ここで、基準値以上の再発話がなされたと判定された場合(ステップST43“Yes”)、先にユーザ設定された閾値は希望よりも高いことを意味するため、閾値調整部274は、ユーザ設定値を上記した微調整を行い、ここでは低めの閾値に自動的に再設定する(ステップST44)。そして、UI提供部26を介してユーザに再発話を促す(ステップST45)。ここでは、UI提供部26は、タッチパネル4等の入出力装置に認識された文字列を表示し、閾値以下の単語を強調表示することにより再発話を促すこととする。
ここで、基準値以上の再発話がなされたと判定された場合(ステップST43“Yes”)、先にユーザ設定された閾値は希望よりも高いことを意味するため、閾値調整部274は、ユーザ設定値を上記した微調整を行い、ここでは低めの閾値に自動的に再設定する(ステップST44)。そして、UI提供部26を介してユーザに再発話を促す(ステップST45)。ここでは、UI提供部26は、タッチパネル4等の入出力装置に認識された文字列を表示し、閾値以下の単語を強調表示することにより再発話を促すこととする。
なお、ステップST43の処理において、再発話回数が基準値以下と判定された場合も(ステップST43“No”)同様に再発話を促す。また、ステップST41の処理で、信頼度が閾値以上の単語について(ステップST41“無し”)、あるいはステップST42の処理で再発話が選択されず、それまでに高いと判定された単語の出力が選択された場合は音声認識処理を終了する。
以上説明のようにこの発明の実施の形態1に係る音声認識装置によれば、閾値を手動、もしくは自動で動的に変更し、認識できなかった単語を繰り返し発話させることにより認識率が向上し、且つ、ユーザの要求、あるいはユーザの属性(例えば、訛りの有無等)に応じた、柔軟性のある音声認識を行うことが出来る。
また、分割された単語の認識信頼度が閾値より低いと判定された場合に、その単語のみの再発話を促し、ユーザが意図する内容に合う単語の認識結果は有効になるため、ユーザに再発話の煩わしさを感じさせることなく全体的に認識率を向上させることができる。
また、分割された単語の認識信頼度が閾値より低いと判定された場合に、その単語のみの再発話を促し、ユーザが意図する内容に合う単語の認識結果は有効になるため、ユーザに再発話の煩わしさを感じさせることなく全体的に認識率を向上させることができる。
なお、図1は、この発明の実施の形態1に係る音声認識装置をナビゲーションシステムの住所発話による目的地検索機能に応用したものである。
ここでは、音声認識部2は、発話した住所を音声波形DB5に格納された音声素片との相関を判定することにより文字列として認識し、当該認識した文字列を単語に分割し、当該分割された単語毎に認識信頼度が閾値より高いか否かを判定し、閾値より高いと判定された場合にその認識結果を目的地設定処理部3へ供給する。
目的地設定処理部3は、認識信頼度の判定に使用する閾値を設定するとともに、音声認識部2で単語の認識信頼度が閾値より低いと判定された時点で、それまでに高いと判定された単語に基づき目的地設定を行なうか、あるいは閾値を変更し、低いと判定された単語の再発話を促して音声認識部2による音声認識を繰り返し実行させ、当該認識結果により地図DB6を参照して目的地設定を行なう。
目的地設定処理部3は、認識信頼度の判定に使用する閾値を設定するとともに、音声認識部2で単語の認識信頼度が閾値より低いと判定された時点で、それまでに高いと判定された単語に基づき目的地設定を行なうか、あるいは閾値を変更し、低いと判定された単語の再発話を促して音声認識部2による音声認識を繰り返し実行させ、当該認識結果により地図DB6を参照して目的地設定を行なう。
上記したように、音声認識部1は、発話した文字列に含まれる単語毎の信頼度を算出し、信頼度が閾値よりも高い単語については認識できたものとしてタッチパネル4に結果を出力し、また、このとき使用する閾値について、タッチパネル4を用いてユーザが手動で設定し、あるいは上記したように音声認識装置(音声認識部1)自身が自動で微調整を行うことができる。
上記したこの発明の実施の形態1に係るナビゲーションシステムによれば、ユーザの要求、あるいはユーザの属性に応じた目的地設定のための音声認識を行わせることができ、ユーザに利便性を提供することができる。
なお、上記したこの発明の実施の形態に係る音声認識装置、あるいはナビゲーションシステムによれば、閾値の設定に関し、発話する単位で設定したが、分割される単語毎に設定することも可能である。この場合、より柔軟性の高い音声認識が可能になる。
また、図2に示す音声認識部2が有する構成ブロックの機能は、全てをソフトウェアによって実現しても、あるいはその少なくとも一部をハードウェアで実現してもよい。例えば、音声入力取得部21、音声認識処理部22、単語分割部23、信頼度算出部24、信頼度判定部25、UI提供部26、閾値設定部27のそれぞれにおけるデータ処理は、1または複数のプログラムによりコンピュータ上で実現してもよく、また、その少なくとも一部をハードウェアで実現してもよい。
また、図2に示す音声認識部2が有する構成ブロックの機能は、全てをソフトウェアによって実現しても、あるいはその少なくとも一部をハードウェアで実現してもよい。例えば、音声入力取得部21、音声認識処理部22、単語分割部23、信頼度算出部24、信頼度判定部25、UI提供部26、閾値設定部27のそれぞれにおけるデータ処理は、1または複数のプログラムによりコンピュータ上で実現してもよく、また、その少なくとも一部をハードウェアで実現してもよい。
以上のように、この発明に係る音声認識装置は、発話された文字列を単語毎に信頼度を算出して判定するとともに、判定に用いる閾値をユーザが設定できるようにしたので、音声認識により目的地を行うことができる車載用ナビゲーションシステムなどに用いるのに適している。
Claims (5)
- 発話した音声を文字列として認識する音声認識処理部と、
前記認識した文字列を、前記文字列を構成する単語に分割する単語分割部と、
前記分割された単語毎の認識信頼度を算出する信頼度算出部と、
前記分割された単語毎の認識信頼度が閾値より高いか否かを判定する信頼度判定部と、
前記信頼度判定部が認識信頼度の判定に使用する前記閾値を設定する閾値設定部と、
前記信頼度判定部で前記単語の認識信頼度が前記閾値より低いと判定された時点で、それまで高いと判定された1以上の単語の出力を行なうか、前記低いと判定された1以上の単語の再発話を促すかを決定するユーザインタフェース提供部と、
を有することを特徴とする音声認識装置。 - 前記閾値設定部は、
前記ユーザインタフェース提供部を介して前記単語の再発話が選択された場合、前記再発話の回数をカウントして基準値と比較し、当該比較結果によっては前記閾値を更新することを特徴とする請求項1記載の音声認識装置。 - 前記閾値設定部は、
前記ユーザインタフェース提供部を介してユーザにより入力される閾値を取り込み、前記設定された閾値を更新することを特徴とする請求項1記載の音声認識装置。 - 前記閾値設定部は、
前記閾値を、前記単語分割部により出力される認識単語毎に設定することを特徴とする請求項1記載の音声認識装置。 - 目的地を音声入力して目的地設定を行なうナビゲーションシステムであって、
発話した目的地を文字列として認識し、当該認識した文字列を単語に分割し、当該分割された単語毎に認識信頼度が閾値より高いか否かを判定し、前記閾値より高いと判定された場合に認識結果を出力する音声認識部と、
前記認識信頼度の判定に使用する閾値を設定するとともに、前記音声認識部で前記単語の認識信頼度が前記閾値より低いと判定された時点で、それまでに高いと判定された単語に基づき目的地設定を行なうか、前記閾値を変更し、前記低いと判定された単語の再発話を促して前記音声認識部による音声認識を繰り返し、当該認識結果を用いて目的地設定を行なう目的地設定処理部と、
を有することを特徴とするナビゲーションシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007180022 | 2007-07-09 | ||
JP2007180022 | 2007-07-09 | ||
PCT/JP2008/000863 WO2009008115A1 (ja) | 2007-07-09 | 2008-04-03 | 音声認識装置およびナビゲーションシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2009008115A1 true JPWO2009008115A1 (ja) | 2010-09-02 |
Family
ID=40228309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009522500A Pending JPWO2009008115A1 (ja) | 2007-07-09 | 2008-04-03 | 音声認識装置およびナビゲーションシステム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JPWO2009008115A1 (ja) |
DE (1) | DE112008001763T5 (ja) |
WO (1) | WO2009008115A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5869497B2 (ja) | 2010-02-08 | 2016-02-24 | アクセス ビジネス グループ インターナショナル リミテッド ライアビリティ カンパニー | 入力寄生金属の検出 |
CN102543082B (zh) * | 2012-01-19 | 2014-01-15 | 北京赛德斯汽车信息技术有限公司 | 使用自然语言的车载信息服务系统语音操作方法及系统 |
KR101598948B1 (ko) | 2014-07-28 | 2016-03-02 | 현대자동차주식회사 | 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법 |
JP6716968B2 (ja) * | 2016-03-07 | 2020-07-01 | 株式会社デンソー | 音声認識装置、音声認識プログラム |
CN109215631A (zh) * | 2017-07-05 | 2019-01-15 | 松下知识产权经营株式会社 | 语音识别方法、程序、语音识别装置和机器人 |
JP6997437B2 (ja) * | 2017-10-25 | 2022-01-17 | 株式会社パロマ | 加熱調理器 |
JP6999236B2 (ja) * | 2018-04-02 | 2022-01-18 | アルパイン株式会社 | 音声認識システム |
CN111754995B (zh) * | 2019-03-29 | 2024-06-04 | 株式会社东芝 | 阈值调整装置、阈值调整方法以及记录介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07210199A (ja) * | 1994-01-20 | 1995-08-11 | Hitachi Ltd | 音声符号化方法および音声符号化装置 |
JPH07219951A (ja) * | 1994-01-28 | 1995-08-18 | Matsushita Electric Ind Co Ltd | 特殊範囲抽出装置および文抽出装置 |
JP2003029782A (ja) * | 2001-07-19 | 2003-01-31 | Mitsubishi Electric Corp | 対話処理装置及び対話処理方法並びにプログラム |
JP2005258198A (ja) * | 2004-03-12 | 2005-09-22 | Internatl Business Mach Corp <Ibm> | 設定装置、プログラム、記録媒体、及び設定方法 |
WO2006083020A1 (ja) * | 2005-02-04 | 2006-08-10 | Hitachi, Ltd. | 抽出された音声データを用いて応答音声を生成する音声認識システム |
JP2006317573A (ja) * | 2005-05-11 | 2006-11-24 | Xanavi Informatics Corp | 情報端末 |
JP2007026347A (ja) * | 2005-07-21 | 2007-02-01 | Nec Corp | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
JP2007041319A (ja) * | 2005-08-03 | 2007-02-15 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3454897B2 (ja) * | 1994-01-31 | 2003-10-06 | 株式会社日立製作所 | 音声対話システム |
JP2005157166A (ja) | 2003-11-28 | 2005-06-16 | Toyota Central Res & Dev Lab Inc | 音声認識装置、音声認識方法及びプログラム |
-
2008
- 2008-04-03 DE DE112008001763T patent/DE112008001763T5/de not_active Withdrawn
- 2008-04-03 WO PCT/JP2008/000863 patent/WO2009008115A1/ja active Application Filing
- 2008-04-03 JP JP2009522500A patent/JPWO2009008115A1/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07210199A (ja) * | 1994-01-20 | 1995-08-11 | Hitachi Ltd | 音声符号化方法および音声符号化装置 |
JPH07219951A (ja) * | 1994-01-28 | 1995-08-18 | Matsushita Electric Ind Co Ltd | 特殊範囲抽出装置および文抽出装置 |
JP2003029782A (ja) * | 2001-07-19 | 2003-01-31 | Mitsubishi Electric Corp | 対話処理装置及び対話処理方法並びにプログラム |
JP2005258198A (ja) * | 2004-03-12 | 2005-09-22 | Internatl Business Mach Corp <Ibm> | 設定装置、プログラム、記録媒体、及び設定方法 |
WO2006083020A1 (ja) * | 2005-02-04 | 2006-08-10 | Hitachi, Ltd. | 抽出された音声データを用いて応答音声を生成する音声認識システム |
JP2006317573A (ja) * | 2005-05-11 | 2006-11-24 | Xanavi Informatics Corp | 情報端末 |
JP2007026347A (ja) * | 2005-07-21 | 2007-02-01 | Nec Corp | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
JP2007041319A (ja) * | 2005-08-03 | 2007-02-15 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2009008115A1 (ja) | 2009-01-15 |
DE112008001763T5 (de) | 2010-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112262430B (zh) | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 | |
US11776540B2 (en) | Voice control of remote device | |
JPWO2009008115A1 (ja) | 音声認識装置およびナビゲーションシステム | |
KR101788500B1 (ko) | 이름 발음을 위한 시스템 및 방법 | |
US9922640B2 (en) | System and method for multimodal utterance detection | |
JP3943492B2 (ja) | ディクテーションとコマンドの区別を向上させる方法 | |
CN109754793B (zh) | 用于推荐车辆的功能的装置和方法 | |
JP2002511154A (ja) | ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム | |
KR19990087935A (ko) | 연속음성인식시에구두점들을자동으로발생시키기위한장치및방법 | |
JP6150268B2 (ja) | 単語登録装置及びそのためのコンピュータプログラム | |
JP2018173752A (ja) | 会議システム、会議システム制御方法、およびプログラム | |
JP2002162993A (ja) | 対話システム | |
KR20230150377A (ko) | 대화 동안 텍스트 음성 변환에서의 즉각적인 학습 | |
JP2023073393A (ja) | 音声認識 | |
JP6233867B2 (ja) | 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム | |
JPWO2014203370A1 (ja) | 音声合成辞書作成装置及び音声合成辞書作成方法 | |
JP2017198790A (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
JP5493537B2 (ja) | 音声認識装置、音声認識方法及びそのプログラム | |
JP2007286376A (ja) | 音声案内システム | |
JP4877112B2 (ja) | 音声処理装置およびプログラム | |
US20180336191A1 (en) | Method for multi-sense fusion using synchrony | |
JP2007010995A (ja) | 話者認識方法 | |
US11783831B1 (en) | Data protection in a multi-assistant system | |
JP2009053522A (ja) | 音声出力装置 | |
JP2020034832A (ja) | 辞書生成装置、音声認識システムおよび辞書生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120120 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120724 |