JPWO2015125274A1 - 音声認識装置、システムおよび方法 - Google Patents

音声認識装置、システムおよび方法 Download PDF

Info

Publication number
JPWO2015125274A1
JPWO2015125274A1 JP2016502550A JP2016502550A JPWO2015125274A1 JP WO2015125274 A1 JPWO2015125274 A1 JP WO2015125274A1 JP 2016502550 A JP2016502550 A JP 2016502550A JP 2016502550 A JP2016502550 A JP 2016502550A JP WO2015125274 A1 JPWO2015125274 A1 JP WO2015125274A1
Authority
JP
Japan
Prior art keywords
line
display
recognition
unit
sight detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016502550A
Other languages
English (en)
Other versions
JP5925401B2 (ja
Inventor
政信 大沢
政信 大沢
友紀 古本
友紀 古本
渡邉 圭輔
圭輔 渡邉
匠 武井
匠 武井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5925401B2 publication Critical patent/JP5925401B2/ja
Publication of JPWO2015125274A1 publication Critical patent/JPWO2015125274A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

この発明の音声認識装置によれば、表示画面上に複数のアイコン(表示物)が密集しているなど、隣接する視線検出範囲や視線検出範囲同士の重複部分が多い場合であっても、視線と音声操作とにより効率的に絞り込んで1つのアイコン(表示物)を特定することができ、また、誤認識も減少させることができるため、ユーザの利便性を向上させることができる。

Description

この発明は、ユーザにより発話された音声を認識して認識結果に対応する表示物を特定する音声認識装置、システムおよび方法に関するものである。
従来より、ユーザにより発話された音声を認識して認識結果に対応する表示物を特定する際に、表示画面上に設けられた視線検出範囲へのユーザの視線の停留に基づいて、視線の停留した範囲に関連付けられた音声認識辞書への切替えを行う音声認識装置が知られている(例えば、特許文献1参照)。
特開平8−83093号公報
しかしながら、例えば特許文献1のような従来の音声認識装置では、複数のアイコン(表示物)の視線検出範囲が重複していたり、視線検出範囲同士が隣接していたりする場合、ユーザが特定しようとしたアイコンと、ユーザの視線に基づいて実際に特定されたアイコンとの不一致が起き、ユーザが所望しないアイコンに対応する音声認識辞書が有効になってしまい、誤認識が増加するという課題があった。
また、ユーザは、音声操作の対象とするアイコンを特定するために、例えば、重複部分以外や所望のアイコンの視線検出範囲に近くて他の視線検出範囲からは遠い位置に、意識的に視線を向ける必要があるため、例えば車両の運転中には運転に集中できずに危険となるなど、表示画面の大きさが限られていたり、他のことを意識しながら操作したりする場合に利便性が低くなるという課題があった。
この発明は、上記のような課題を解決するためになされたものであり、表示画面上に複数のアイコン(表示物)が密集しているなど、隣接する視線検出範囲や姿勢検出範囲同士に重複部分が多い場合であっても、視線と音声操作とにより効率的に1つのアイコンを特定することができる音声認識装置、システムおよび方法を提供することを目的とする。
上記目的を達成するため、この発明は、表示装置に表示されている複数の表示物の中から、ユーザにより発話された音声を認識して認識結果に対応する1つの表示物を特定する音声認識装置であって、前記ユーザにより発話された音声を取得し、音声認識辞書を参照して前記取得した音声を認識し、認識結果を出力する制御部と、前記ユーザの視線を取得する視線取得部と、前記視線取得部により取得された視線結果に基づいて前記表示物ごとに定められた視線検知領域を統合し、その統合された視線検知統合領域内に存在する表示物をグループ化するグループ生成部と、前記制御部により出力された認識結果に基づいて、前記グループ生成部によりグループ化された表示物の中から1つの表示物を特定する特定部とを備え、前記特定部は、前記グループ化された表示物の中から1つの表示物を特定、または、前記1つの表示物を特定できなかった場合は前記絞り込みを行った表示物を再グループ化することを特徴とする。
この発明の音声認識装置によれば、表示画面上に複数のアイコン(表示物)が密集しているなど、隣接する視線検出範囲や視線検出範囲同士の重複部分が多い場合であっても、視線と音声操作とにより効率的に絞り込んで1つのアイコン(表示物)を特定することができ、また、誤認識も減少させることができるため、ユーザの利便性を向上させることができる。
実施の形態1による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。 表示部に表示された表示物(アイコン)と視線検知領域の一例を示す図である。 表示物(アイコン)の詳細情報の一例を示す表である。 表示部に表示された表示物(アイコン)と視線検知領域の別の例を示す図であり、表示物のグループ化についての説明図である。 実施の形態1において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。 実施の形態1において、グループ化された表示物から、音声操作によって1つの表示物を特定する処理を示すフローチャートである。 表示部に表示された表示物(アイコン)と視線検知領域のさらに別の例を示す図である。 実施の形態2による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。 実施の形態2において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。 実施の形態2において、グループ化された表示物から、音声操作によって1つの表示物を特定する処理を示すフローチャートである。 認識結果文字列と認識スコアとの対応の一例を示す表である。 実施の形態3による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。 実施の形態3において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。 実施の形態3において、グループ化された表示物から、音声操作によって1つの表示物を特定する処理を示すフローチャートである。
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
なお、以下の実施の形態では、この発明の音声認識装置および音声認識システムを車両等の移動体用のナビゲーション装置やナビゲーションシステムに適用した場合を例に挙げて説明するが、ディスプレイ等に表示された表示物を選択し、操作を指示することができる装置やシステムであれば、どのような装置やシステムに適用してもよい。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。このナビゲーション装置は、ナビゲーション部1、指示入力部2、表示部(表示装置)3、スピーカ4、マイク5、音声認識部6、音声認識辞書7、認識結果選択部8、カメラ9、視線検出部10、グループ生成部11、特定部12、認識辞書制御部13を備えている。
なお、音声認識部6、認識結果選択部8および認識辞書制御部13が、制御部20を構成し、この制御部20と、音声認識辞書7、視線検出部10、グループ生成部11および特定部12が、音声認識装置30を構成する。また、この音声認識装置30と、表示部(表示装置)3およびカメラ9が、音声認識システム100を構成する。
ナビゲーション部1は、GPS受信機等から取得した移動体の現在位置情報や地図データベースに格納されている情報を用いて、後述する表示部(表示装置)3に表示すべき描画情報を生成する。地図データベースには、例えば、道路に関する「道路情報」、施設に関する「施設情報」(種別、名称、位置等)、「各種文字情報」(地名、施設名、交差点名、道路名など)および施設・道路番号などを表す「各種アイコン情報」等が含まれる。
また、指示入力部2や音声操作により、ユーザによって設定された施設や地点、移動体の現在位置および地図データベースの情報等を用いて、現在位置からユーザにより設定された施設等までの経路を計算する。そして、当該経路に沿って移動体を案内するための誘導案内図や誘導案内メッセージを生成し、表示部(表示装置)3やスピーカ4に対して当該生成した情報を出力するよう指示出力する。
また、同じく指示入力部2や音声操作によって、ユーザにより指示された内容に対応する機能を実行する。例えば、施設や住所を検索したり、表示部(表示装置)3に表示されているアイコンやボタン等の表示物を選択したり、表示物に対応付けられた機能を実行したりする。
指示入力部2は、ユーザの手動による指示を入力するものである。これは例えば、ナビゲーション装置に設けられたハードウェアのスイッチ、表示部(表示装置)3に組み込まれているタッチセンサ、あるいは車両のハンドル等に設置されたリモコンもしくは別体のリモコンによる指示を認識する認識装置などが挙げられる。
表示部(表示装置)3は、例えばLCD(Liquid Crystal Display)やHUD(Head−Up Display)やインストルメントパネル等であり、タッチセンサが組み込まれているものであってもよい。そして、ナビゲーション部1の指示に基づき画面上に描画を行う。
また、スピーカ4も、ナビゲーション部1の指示に基づき音声を出力する。
マイク5は、ユーザが発話した音声を取得(集音)する。マイク5には、例えば、全指向性のマイク、複数の全指向性のマイクをアレイ状に配列して指向特性を調整可能としたアレイマイク、あるいは一方向のみに指向性を有しており、指向特性を調整できない単一指向性マイク等がある。
音声認識部6は、マイク5により取得されたユーザ発話、すなわち、入力された音声を取り込み、例えばPCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換するとともに、デジタル化された音声信号から、ユーザが発話した内容に該当する音声区間を検出した後、該音声区間の音声データの特徴量を抽出する。
その後、認識辞書制御部13により有効化された音声認識辞書7を参照して、抽出した特徴量に対する認識処理を行い、認識結果を出力する。ここで、認識結果には少なくとも、単語もしくは単語列(以下、認識結果文字列)または認識結果文字列に対応づけられているID等の識別情報、および、尤度を表す認識スコア、が含まれている。なお、認識処理としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよいため説明を省略する。
ここで、この実施の形態1においては、音声認識部6に対して音声認識開始を指示するためのボタン(以下、音声認識開始指示部と記載する)が、指示入力部2に設置されており、ユーザにより音声認識開始指示部が押下されると、音声認識部6はマイク5から入力されたユーザ発話に対する認識処理を開始するものとして説明する。
なお、当該音声認識開始指示がなくても、音声認識部6は常時、認識処理を行うとしてもよい(以下の実施の形態においても同様)。
音声認識辞書7は、音声認識部6による音声認識処理において使用されるものであり、音声認識対象となる語が格納されている。音声認識辞書7には、予め用意されているものと、ナビゲーション装置の動作中に、必要に応じて動的に生成されるものがある。
例えば、地図情報などから予め用意される施設名認識用の音声認識辞書や、後述するように、グループ生成部11によりグループ化された表示物または特定部12により再グループ化された表示物に複数種類の表示物が存在する場合に、その表示物の種類を特定するための認識対象語を含む音声認識辞書、単一種類の表示物が複数存在する場合に、1つの表示物を特定するための認識対象語を含む音声認識辞書、グループ化された表示物または再グループ化された表示物の中から1つの表示物を特定するための認識対象語を含む音声認識辞書、グループ化された表示物または再グループ化された表示物の個数が予め定められた個数以上である場合に、その予め定められた個数以上の表示物を消去する認識対象語を含む音声認識辞書などがある。
認識結果選択部8は、音声認識部6により出力された認識結果文字列から、予め定められた所定の条件を満たす認識結果文字列を選択する。この実施の形態1においては、認識結果選択部8は、認識スコアが最も高く、かつ認識スコアが予め定められた数値以上の(または、予め定められた数値より大きい)認識結果文字列を一つ選択するものとして説明する(以下の実施の形態についても同様)。
なお、当該条件に限られるものではなく、認識対象となっている語彙やナビゲーション装置で実行中の機能によっては、複数の認識結果文字列を選択するとしてもよい。例えば、予め定められた数値以上の(または、予め定められた数値より大きい)認識スコアを有する認識結果文字列から、認識スコアが高い上位N個の認識結果文字列を選択してもよいし、音声認識部6により出力された認識結果文字列をすべて選択する等としてもよい。
カメラ9は、赤外線カメラやCCDカメラ等、ユーザの目画像を撮影して取得するものである。
視線検出部10は、カメラ9により取得された画像を解析して表示部(表示装置)3に向けられるユーザの視線を検出し、表示部(表示装置)3上における視線の位置を算出する。なお、視線を検出する方法および表示部(表示装置)3上における視線の位置を算出する方法については、公知の技術を用いればよいためここでは説明を省略する。
グループ生成部11は、表示部(表示装置)3に表示されている表示物に関する情報を、ナビゲーション部1から取得する。具体的には、表示部(表示装置)3上における表示物の位置情報や表示物の詳細情報等の情報を取得する。
そして、グループ生成部11は、表示部(表示装置)3に表示されている表示物毎に、ナビゲーション部1から取得した表示物の表示位置に基づいて、表示物を含む一定の範囲を視線検知領域に設定する。この実施の形態1では、表示物の中心から予め定められた半径の円を視線検知領域とするが、これに限られず、例えば、視線検知領域は多角形とする等してもよい。なお、表示物毎に視線検知領域が異なるようにしてもよい(以下の実施の形態においても同様)。
図2は、表示部(表示装置)3に表示された表示物と視線検知領域の一例を示す図である。ここでは、アイコン40が表示物であり、破線で囲まれた範囲50が視線検知領域を表している。
なお、図2に示すアイコン40は、地図画面に表示される駐車場を表すアイコンであり、この実施の形態1においては、表示物としては、地図画面に表示される施設を表すアイコンを例にして説明するが、ボタン等ユーザによって選択されるものであればどのような表示物であってもよく、施設アイコンに限らない(以下の実施の形態においても同様)。
図3は、表示物(アイコン)の詳細情報の一例を示す図である。例えば、駐車場アイコンには詳細情報として、「施設名」「種別」「空き状況」「料金」の項目が設定されており、図3(a)〜(c)に示すような内容が格納されている。また、例えば、ガソリンスタンドアイコンには詳細情報として、「施設名」「種別」「営業時間」「レギュラー」「ハイオク」の項目が設定されており図3(d)〜(e)に示すような内容が格納されている。
なお、詳細情報の項目はこれらに限られるものではなく、項目の追加や削除をしてもよい。
さらに、グループ生成部11は、視線検出部10からユーザの視線位置を取得し、当該視線位置情報と表示物毎に設定された視線検知領域の情報を用いて、表示物をグループ化する。すなわち、グループ生成部11は、表示部(表示装置)3の表示画面上に複数の表示物(アイコン)が表示されている場合に、どの表示物(アイコン)を1つのグループとしてまとめるかを決定して、グループ化する。
ここで、グループ生成部11による表示物のグループ化について説明する。
図4は、表示部(表示装置)3に表示された表示物(アイコン)と視線検知領域の別の例を示す図であり、表示物のグループ化についての説明図である。
例えば、図4(a)に示すように、表示部(表示装置)3の表示画面に6つのアイコン41〜46が表示されており、グループ生成部11によって各アイコンに対して視線検知領域51〜56が設定されているとする。
グループ生成部11は、視線が存在していない視線検知領域(以下、「他の視線検知領域」と記載する)であって、その視線検知領域の少なくとも一部が、視線の存在している視線検知領域と重複しているものを特定する。
その後、視線が存在している視線検知領域と、特定された他の視線検知領域とを統合する。そして、グループ生成部11は、統合した視線検知統合領域内に存在する表示物を1つのグループにグループ化する。
図4(a)の例では、グループ生成部11は、視線60がアイコン41の視線検知領域51内にあるので、視線検知領域の一部が視線検知領域51と重複している視線検知領域52〜55を、他の視線検知領域として特定し、視線検知領域51〜55を統合する。そして、統合した視線検知統合領域内に含まれるアイコン41〜45を選択し、グループ化する。
なお、この実施の形態1では上述の方法でアイコンをグループ化するとしたが、この方法に限られない。例えば、他の視線検知領域の特定において、視線が存在している視線検知領域と隣接する視線検知領域を他の視線検知領域としてもよい。
また、例えば、図4(b)に示すように、表示部(表示装置)3の表示画面に7つのアイコン41〜47が表示されており、グループ生成部11によって各アイコンに対して視線検知領域51〜57が設定されている場合には、上述の方法では、グループ生成部11は、視線60がアイコン41の視線検知領域51内にあるので、視線検知領域の一部が視線検知領域51と重複している視線検知領域52〜55を、他の視線検知領域として特定し、視線検知領域51〜55を統合する。そして、統合した視線検知統合領域内に含まれるアイコン41〜45および47を選択し、グループ化する。
この方法でグループ化する場合とは別の方法として、グループ化の対象となるアイコンの選択においては、視線が存在する視線検知領域と、特定された他の視線検知領域のそれぞれに対応するアイコンをグループ化の対象としてもよい。すなわち、例えば図4(b)の場合には、統合した視線検知統合領域内の視線検知領域51〜55のそれぞれに対応するアイコン41〜45のみをグループ化するようにしてもよい。
特定部12は、グループ生成部11により取得された表示物の詳細情報および認識結果選択部8により選択された認識結果の少なくとも一方を用いて、グループ生成部11によりグループ化された表示物の絞り込みを行う。そして、グループ化された表示物の中から1つの表示物を特定する。また、1つの表示物を特定できなかった場合は、1つの表示物を特定できなかったことを示す絞り込み結果を出力するとともに、絞り込まれた表示物を再グループ化する。1つの表示物を特定することができた場合は、そのことを示す絞り込み結果を出力する。
認識辞書制御部13は、ナビゲーション部1から取得した情報に基づいて、音声認識部6に対して、所定の音声認識辞書7を有効化するよう指示出力する。
具体的には、表示部(表示装置)3に表示される画面(例えば、地図画面等)毎やナビゲーション部1で実行される機能(例えば住所検索機能、施設検索機能等)毎に予め音声認識辞書が対応付けられており、ナビゲーション部1から取得した画面情報や実行中の機能の情報に基づいて、対応する音声認識辞書を有効化するよう音声認識部6に対して指示出力する。
また、認識辞書制御部13は、グループ生成部11によりグループ化された表示物または特定部12により再グループ化された表示物の詳細情報に基づいて、グループ化された表示物から1つの表示物を特定するための音声認識辞書(以下、「表示物特定用辞書」と記載する)を動的に生成する。すなわち、グループ生成部11によりグループ化された表示物または特定部12により再グループ化された表示物に対応する音声認識辞書を動的に生成する。そして、音声認識部6に対して、その動的に生成した表示物特定用辞書のみを有効化するよう指示出力する。
また、認識辞書制御部13は、音声認識部6に対して、特定部12により特定された1つの表示物を操作するための単語列等を認識対象とする音声認識辞書(以下、「表示物操作用辞書」と記載する)を有効化するよう指示出力する。
ここで、表示物特定用辞書を生成する方法について説明する。
認識辞書制御部13は、異なる種別の表示物がグループ化されている場合は、各表示物の詳細情報を用いて、1つの種別を特定するための単語等を含む音声認識辞書を生成する。具体的には、例えば「駐車場」「ガソリンスタンド」等の種別そのものを認識語彙として含む辞書であってもよいし、「駐車する」「給油する」等の項目名に対応する言い換え語や「駐車したい」「給油したい」等の意図を含む認識語彙を含む辞書であってもよい。
また、認識辞書制御部13は、同一種別の表示物がグループ化されている場合は、各表示物の詳細情報を用いて、1つの表示物を特定するための単語等を含む音声認識辞書を生成する。具体的には、例えば「駐車場」という種別の複数の表示物がグループ化されている場合には、その複数の「駐車場」という表示物(アイコン)の中から1つの表示物を特定するために「駐車場」という種別に関連する「空き状況」や「料金」などの情報を含む辞書を生成する。
次に図5および図6に示すフローチャートを用いて、実施の形態1の音声認識装置の動作を説明する。
図5は、実施の形態1において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。
まず、視線検出部10は、カメラ9により取得された画像を解析して表示部(表示装置)3に向けられるユーザの視線を検出し、表示部(表示装置)3上における視線の位置を算出する(ステップST01)。
次に、グループ生成部11は、ナビゲーション部1から、表示部(表示装置)3に表示されている表示物の位置情報と詳細情報を取得する(ステップST02)。
その後、グループ生成部11は、ナビゲーション部1から取得した表示物毎に視線検知領域を設定し、視線が何れかの視線検知領域に存在するか否かを判定する(ステップST03)。
視線が何れの視線検知領域にも存在しない場合(ステップST03の「NO」の場合)、認識辞書制御部13は、音声認識部6に対して、例えば表示部(表示装置)3に表示されている画面に応じた音声認識辞書を有効化するよう指示出力し、音声認識部6は当該指示された辞書を有効化する(ステップST04)。
一方、視線が何れかの視線検知領域に存在する場合(ステップST03の「YES」の場合)、ユーザは表示物に対する音声操作を所望しているとして、ステップST05以降の処理を行う。その際、まずはグループ生成部11が、上述した方法で表示物をグループ化する(ステップST05)。
そして、特定部12は、グループ生成部11からグループ化された各表示物の詳細情報を取得し、当該詳細情報に基づいてグループ化された表示物の絞り込みを行い、絞り込み結果を出力する(ステップST06)。
その後、認識辞書制御部13は、特定部12から当該絞り込み結果と絞り込まれた表示物の詳細情報を取得し、当該絞り込み結果が1つの表示物を特定できたことを示すものである場合(ステップST07の「YES」の場合)、当該特定された表示物に対する音声操作を可能とするため、音声認識部6に対して、当該特定された表示物に対応する表示物操作用辞書を有効化するよう指示し、音声認識部6は当該指示された音声認識辞書を有効化する(ステップST08)。
一方、当該絞り込み結果が1つの表示物を特定できたことを示すものでない場合(ステップST07の「NO」の場合)、ユーザが1つの表示物を効率的に特定できるようにするため、認識辞書制御部13は、グループ化された表示物の詳細情報に基づいて、表示物特定用辞書を生成する(ステップST09)。
その後、認識辞書制御部13は、音声認識部6に対して、当該生成した表示物特定用辞書のみを有効化するよう指示出力し、音声認識部6は当該指示された表示物特定用辞書のみを有効化する(ステップST10)。
以上のフローチャートを用いて説明した処理について、具体例を用いて説明する。例えば、図4(a)のように表示部(表示装置)3にアイコン41〜46が表示されており、視線検出部10によって視線が60の位置であると算出されているとする。また、アイコン41〜43の詳細情報は図3(a)、(b)、(c)、アイコン44と45の詳細情報は図3(d)および(e)であるとする。
グループ生成部11は、視線60がアイコン41の視線検知領域51内にあるので、視線検知領域の一部が視線検知領域51と重複している視線検知領域52〜55を、他の視線検知領域として特定し、視線検知領域51〜55を統合し、アイコン41〜45をグループ化する(ステップST01〜ステップST05)。
特定部12は、グループ生成部11から図3の(a)〜(e)の詳細情報を取得する。
ここで、アイコン42に対応する詳細情報の「空き状況」項目の内容が満車を表す「満」であるため、特定部12は、表示物をアイコン41および43〜45に絞り込んで再グループ化する。そして、1つの表示物を特定できなかったことを示す絞り込み結果を出力する(ステップST06)。
そして、認識辞書制御部13は、当該絞り込み結果に従って(ステップST07の「NO」の場合)、表示物特定用辞書を生成する(ステップST09)。
具体的には、アイコン41と43の種別は、図3(a)(c)の詳細情報を参照すると「駐車場」であり、アイコン44と45の種別は、図3(d)(e)の詳細情報を参照すると「ガソリンスタンド」であるため、異なる二つの種別のアイコンがグループ化されている。そこで、認識辞書制御部13は、各アイコンの詳細情報から、項目名「駐車場」「ガソリンスタンド」を取得し、それらを認識対象語に含む、1つの種別を特定するための表示物特定用辞書を生成する。
なお、例えば「駐車する」「給油する」等、項目名に対応する言い換え語を認識対象語としてもよい。
また、認識辞書制御部13は、グループ化されたアイコンであって、予め定められた所定個数以上(または、所定個数より多く)存在するアイコンについては、当該アイコンを非表示にしたり、当該アイコンの大きさを縮小するための認識対象語を、表示物特定用辞書に含めるとしてもよい。
例えば、予め定められた所定個数が「5」であり、種別が「ガソリンスタンド」のアイコンが、グループ化されたアイコン中に6個存在する場合、認識辞書制御部13は、例えば「ガソリンスタンド非表示」のような認識対象語を含む表示物特定用辞書を生成する。
さらに、認識辞書制御部13は、グループ化された各アイコンの表示部(表示装置)3上の位置情報に基づいて、例えば「右」「左のアイコン」等の位置を特定する認識対象語を、表示物特定用辞書に含めるとしてもよい。すなわち、例えば図4(a)に示すように表示部(表示装置)3に表示されているアイコン41〜45がグループ化されている場合に、ユーザがアイコン45を選択したい場合に「右下のアイコン」と発話するかもしれないことを想定して、それらの語彙も表示物特定用辞書に含めるようにしてもよい。
その後、認識辞書制御部13は、音声認識部6に対して、生成した表示物特定用辞書のみを有効化するよう指示し、音声認識部6は当該指示された表示物特定用辞書のみを有効化する(ステップST10)。
次に、図7のように表示部(表示装置)3にアイコン48と49が表示されており、視線が60の位置であると算出されているとした場合について説明する。また、アイコン48と49の詳細情報は図3(a)および(c)であり、いずれも種別は「駐車場」、空き状況は「空」、料金は「600円」であるとする。
ここで、図5のフローチャートに示すステップST01〜ST05までの処理については、図4の例で説明した場合と同様であるため説明を省略する。
この場合、特定部12は、グループ生成部11によりグループ化されたアイコン48と49に対応する詳細情報に基づいて、1つのアイコンを特定できないため、そのことを示す絞り込み結果を出力する(ステップST06)、認識辞書制御部13は、当該絞り込み結果に従って(ステップST07の「NO」の場合)、表示物特定用辞書を生成する(ステップST09)。
具体的には、認識辞書制御部13は、アイコン48と49の種別は、図3(a)(c)を参照すると「駐車場」であるため、同一種別のアイコンがグループ化されている。そこで、認識辞書制御部13は、アイコンの詳細情報から項目名「空き状況」「料金」を取得し、それらに基づいて、例えば、「空きがある」「料金が安い」等の認識対象語を含む、1つの表示物を特定するための表示物特定用辞書を生成する。
その後、認識辞書制御部13は、音声認識部6に対して、生成した表示物特定用辞書のみを有効化するよう指示し、音声認識部6は当該指示された表示物特定用辞書のみを有効化する(ステップST10)。
最後に、図2のように表示部(表示装置)3にアイコン40が表示されており、視線が60の位置であると算出されているとした場合について説明する。
グループ生成部11は、視線60が存在する視線検知領域50の一部と重複している視線検知領域がないため、視線検知領域50に対応するアイコン40をグループ化する(ステップST01〜ステップST05)。
特定部12は、グループ化されたアイコンが1つであるため、1つのアイコンを特定できたことを示す絞り込み結果を出力する(ステップST06)。認識辞書制御部13は、当該判定(ステップST07の「YES」の判定)に従って、アイコン40に対応する表示物操作用辞書を有効化するよう、音声認識部6に指示出力する。そして、音声認識部6は当該指示された表示物操作用辞書を有効化する(ステップST08)。
なお、表示物操作用辞書は、予め表示物毎に用意されているものとする。
図6は、実施の形態1において、グループ化された表示物から、音声操作によって1つの表示物を特定する処理を示すフローチャートである。
まず、ユーザにより音声認識開始指示部が押下されると、音声認識部6は、音声が入力されたかどうか判定し、所定期間、音声が入力されなかった場合(ステップST11の「NO」の場合)、処理を終了する。
一方、音声が入力された場合(ステップST11の「YES」の場合)、音声認識部6は、入力された音声を認識し、認識結果を出力する(ステップST12)。
次に、認識結果選択部8は、音声認識部6により出力された認識結果文字列から、最も高い認識スコアを有するものを1つ選択する(ステップST13)。
その後、認識結果選択部8は、選択した認識結果文字列が表示物特定用辞書に含まれているものか判定する(ステップST14)。
そして、表示物特定用辞書に含まれていない、すなわち、ユーザ発話が1つの表示物を特定するためのものではないと判定した場合(ステップST14の「NO」の場合)、認識結果選択部8は、ナビゲーション部1に対して認識結果を出力する。
その後、ナビゲーション部1は、認識結果選択部8から出力された認識結果を取得し、認識結果文字列が表示物操作用辞書に含まれているものか否かを判定する(ステップST15)。
ここで、表示物操作用辞書に含まれていない、すなわち、ユーザ発話が1つの表示物に対して操作するためのものではないと判定した場合(ステップST15の「NO」の場合)、ナビゲーション部1は、認識結果に対応する機能を実行する(ステップST16)。
一方、表示物操作用辞書に含まれている、すなわち、ユーザ発話が1つの表示物に対して操作するためのものであると判定した場合(ステップST15の「YES」の場合)、ナビゲーション部1は、特定部12により特定された1つの表示物に対して、認識結果に対応する機能を実行する(ステップST17)。
また、ステップST14において、認識結果選択部8が、選択した認識結果文字列が表示物特定用辞書に含まれている、すなわち、ユーザ発話が1つの表示物を特定するためのものであると判定した場合(ステップST14の「YES」の場合)、認識結果選択部8は、特定部12に対して選択した認識結果を出力する。
そして、特定部12は、認識結果選択部8により出力された認識結果を取得し、グループ化された表示物の絞り込みを行い、絞り込み結果を出力する(ステップST18)。
認識辞書制御部13は、特定部12から当該判定結果と絞り込まれた表示物の詳細情報を取得し、当該判定結果が、1つの表示物を特定できたことを示すものである場合(ステップST19の「YES」の場合)、音声認識部6に対して、当該特定された表示物に対応する表示物操作用辞書を有効化するよう指示出力し、音声認識部6は、当該指示された表示物操作用辞書を有効化する(ステップST20)。
一方、特定部12の判定結果が、1つの表示物を特定できたことを示すものでない場合(ステップST19の「NO」の場合)、認識辞書制御部13は、絞り込まれた表示物の詳細情報に基づいて、表示物特定用辞書を生成する(ステップST21)。
その後、認識辞書制御部13は、音声認識部6に対して、当該生成した表示物特定用辞書を有効化するよう指示出力し、音声認識部6は、当該指示された音声認識辞書を有効化する(ステップST22)。
以上のフローチャートを用いて説明した処理について、具体例を用いて説明する。
例えば、図4(a)のように表示部(表示装置)3にアイコン41〜46が表示されており、視線検出部10によって視線が60の位置であると算出されているとする。また、アイコン41〜43の詳細情報は図3(a)、(b)、(c)、アイコン44と45の詳細情報は図3(d)および(e)であるとする。
ここでは、この図4(a)のような状況において、図5のフローチャートの処理によって、例えば、アイコン41,42および44,45がグループ化されており、1つの種別を特定するための単語等、すなわち「駐車場」「ガソリンスタンド」を認識対象とする表示物特定用辞書のみが有効化されているものとする。
まず、システムガイダンスに従って、ユーザにより「駐車場」と発話されると(ステップST11の「YES」の場合)、音声認識部6は、音声認識処理を行い認識結果を出力する(ステップST12)。
ここでは、「駐車場」「ガソリンスタンド」のみが音声認識の対象語となっているため、認識結果として「駐車場」が出力される。
認識結果選択部8は、音声認識部6から出力された認識結果「駐車場」を選択する(ステップST13)。そして、認識結果選択部8は、選択した認識結果文字列が表示物特定用辞書に含まれているため(ステップST14の「YES」の場合)、特定部12に対して選択した認識結果を出力する。
そして、特定部12は、グループ化された各表示物の詳細情報を参照して、認識結果文字列「駐車場」と一致する種別を有するアイコン41と42を特定し、それらを再グループ化する。また、1つのアイコンを特定できなかったことを示す絞り込み結果を出力する(ステップST18)。
認識辞書制御部13は、特定部12から絞り込み結果とアイコン41とアイコン42の詳細情報を取得する。ここで、絞り込み結果は、1つのアイコンを特定できなかったことを示すものであり(ステップST19の「NO」の場合)、図3(a)および(b)を参照すると、2つのアイコンの種別が「駐車場」で同一であるため、表示物の詳細情報から項目名「空き状況」「料金」を取得し、それらに基づいて、例えば、「空きがある」「料金が安い」等を認識対象とする表示物特定用辞書を生成する(ステップST21)。
その後、認識辞書制御部13は、音声認識部6に対して、当該生成した表示物特定用辞書のみを有効化するよう指示出力し、音声認識部6は、当該指示された表示物特定用辞書を有効化する(ステップST22)。
続いて、システムガイダンスに従って、ユーザにより1つの表示物を特定するために「空き状況」と発話されると(ステップST11の「YES」の場合)、音声認識部6は、音声認識処理を行い認識結果を出力する(ステップST12)。ここでは、「空き状況」「料金が安い」のみが認識対象語となっているため、認識結果として「空き状況」が出力される。
認識結果選択部8は、音声認識部6から出力された認識結果「空き状況」を選択する(ステップST13)。そして、認識結果選択部8は、選択した認識結果文字列が表示物特定用辞書に含まれるため(ステップST14の「YES」の場合)、特定部12に対して選択した認識結果を出力する。
次に、特定部12は、グループ化されたアイコン41と43の詳細情報を参照して、空き状況が「空」であるアイコンを特定する。ここで、空き状況が「空」であるアイコンは、アイコン41のみであるため、一つの表示物を特定できたことを示す絞り込み結果を出力する(ステップST18)。
そして、認識辞書制御部13は、特定部12から判定結果とアイコン41の詳細情報を取得する。そして、絞り込み結果に従って(ステップST19の「YES」の場合)、音声認識部6に対して、アイコン41に対応する表示物操作用辞書を有効化するよう指示出力し、音声認識部6は、当該指示された表示物操作用辞書を有効化する(ステップST20)。
以上のように、この実施の形態1によれば、表示画面上に複数のアイコン(表示物)が密集しているなど、隣接する視線検出範囲や視線検出範囲同士の重複部分が多い場合であっても、視線と音声操作により効率的に絞り込んで1つのアイコン(表示物)を特定することができ、また、誤認識も減少させることができるため、ユーザの利便性を向上させることができる。
なお、この実施の形態1において、視線が表示物の視線検知領域またはグループ生成部11により統合された視線検知統合領域から外れても、予め定められた一定時間が経過するまでは、有効化されている音声認識辞書を変更しないようにしてもよい。すなわち、認識辞書制御部13が、表示物の視線検知領域または視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書を有効化しておくようにしてもよい。
これは、視線が外れてからの経過時間が短い場合は、ユーザが意図せず視線検知範囲から視線を外してしまっている可能性があるからである。一方、視線が外れてからの経過時間が長くなるにつれ、ユーザが表示物の特定や表示物への操作をやめる(他の操作をする)ために、意図的に視線を外した可能性が高くなっていくと考えられる。
具体的な処理としては、グループ生成部11は、視線が検出された視線検知領域またはグループ生成部11により統合された視線検知統合領域内に視線が存在しない場合(図5のステップST03の「NO」の場合)であっても、表示物をグループ化してから予め定められた一定時間を経過していなければ、ステップST04を実行することなしに、処理を終了するようにすればよい。
なお、上記の「一定時間」は予め定められたものではなく、視線が表示物の視線検知領域または視線検知統合領域に存在していた時間と正の相関を有するようにして算出されるものであってもよい。つまり、視線が表示物の視線検知領域または視線検知統合領域に存在していた時間が長ければ、ユーザが本当にその表示物を選択したいのであろうと考えられるので、それに応じて「一定時間」も長くするようにしてもよい。
また、この実施の形態1において、特定部12が、グループ生成部11によりグループ化された表示物、特定部12により再グループ化された表示物、または、特定部12により特定された表示物の、色や大きさなどの表示態様を他の表示物とは異なるようにしてもよい。以下の実施の形態においても、同様である。
この場合、特定部12が、グループ化された表示物や再グループ化された表示物や特定された表示物を所定の表示態様で表示するよう指示出力し、ナビゲーション部1が、当該指示に従って表示物を表示するよう表示部(表示装置)3に対して指示出力するようにすればよい。
なお、音声認識装置30は、これが適用されるナビゲーション装置のマイクロコンピュータが、この発明に特有な処理に関するプログラムを実行することにより、ハードウェアとソフトウェアとが協働した具体的な手段として実現される。以下の実施の形態においても、同様である。
実施の形態2.
図8は、この発明の実施の形態2による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。
以下に示す実施の形態2では、実施の形態1と比べると、制御部20の中にスコア調整部14をさらに備える点が異なる。また、認識辞書制御部13が、表示物特定用辞書を生成した後、スコア調整部14に対して、生成した表示物特定用辞書に含まれる単語等(または単語等に対応付けたID)を出力する点が異なる。
さらに、認識辞書制御部13が、表示物特定用辞書を有効化する際、その時点で有効化されている他の音声認識辞書(例えば、地図表示画面に対応する音声認識辞書等)を有効化したままとする点が異なる。
スコア調整部14は、音声認識部6により出力された認識結果文字列(または認識結果文字列に対応付けられたID)が、認識辞書制御部13から取得した単語等(または単語等に対応付けられたID)に中に存在するか判定する。そして、認識結果文字列が認識辞書制御部13から取得した単語等の中に存在する場合は、当該認識結果文字列に対応する認識スコアを一定量増加させる。すなわち、認識辞書制御部13により動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させる。
なお、この実施の形態2では、認識スコアを一定量増加させるものとして説明するが、一定の割合増加させるとしてもよい。
また、スコア調整部14は音声認識部6に含まれているとしてもよい。
次に図9および図10に示すフローチャートを用いて、実施の形態2の音声認識装置の動作を説明する。
図9は、実施の形態2において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。
図9に示すフローチャートにおいて、ステップST31〜ST38の処理については、実施の形態1における図5に示すフローチャートのステップST01〜ST08と同一であるため説明を省略する。
ステップST37において、絞り込み結果が1つの表示物を特定できたことを示すものではない場合(ステップST37の「NO」の場合)、ユーザが1つの表示物を効率的に特定できるようにするため、認識辞書制御部13は、グループ化された表示物の詳細情報に基づいて、表示物特定用辞書を生成する(ステップST39)。
その後、認識辞書制御部13は、生成した表示物特定用辞書を有効化するが、この表示物特定用辞書のみを有効化するのではなく、すなわち、他の音声認識辞書が有効化されていた場合でもそれらを無効化することなしに、表示物特定用辞書を有効化する(ステップST40)。
そして、認識辞書制御部13は、スコア調整部14に対して、生成した表示物特定用辞書に含まれる単語等(または単語等に対応付けたID)を出力する(ステップST41)。
以上のフローチャートを用いて説明した処理について、実施の形態1と同様に、図4(a)を用いて具体的に説明する。ここで、ステップST39までの処理については、実施の形態1と同様であるため詳細な説明を省略し、主に、ステップST39〜ST41の処理について具体的に説明する。
表示部(表示装置)3には、図4(a)に示すようにアイコン41〜46が表示されており、視線検出部10によって視線が60の位置であると算出されているとする。また、アイコン41〜43の詳細情報は図3(a)、(b)、(c)、アイコン44と45の詳細情報は図3(d)および(e)であるとする。
グループ生成部11は、視線60がアイコン41の視線検知領域51内にあるので、視線検知領域の一部が視線検知領域51と重複している視線検知領域52〜55を、他の視線検知領域として特定し、視線検知領域51〜55を統合し、アイコン41〜45をグループ化する(ステップST31〜ステップST35)。
特定部12は、グループ生成部11から図3の(a)〜(e)の詳細情報を取得する。
ここで、アイコン42に対応する詳細情報の「空き状況」項目の内容が満車を表す「満」であるため、特定部12は、表示物を41および43〜45に絞り込んで再グループ化する。そして、1つの表示物を特定できなかったことを示す絞り込み結果を出力する(ステップST36)。
そして、認識辞書制御部13は、当該絞込結果に従って(ステップST37の「NO」の場合)、各アイコンの詳細情報から、項目名「駐車場」「ガソリンスタンド」を取得し、それらを認識対象語に含む、1つの種別を特定するための表示物特定用辞書を生成する(ステップST39)
その後、認識辞書制御部13は、当該生成した辞書を有効化するが(ステップST40)、このとき、例えば施設名認識用の音声認識辞書が有効化されていたとしても、それを無効化することはしない。
最後に、認識辞書制御部13は、「駐車場」「ガソリンスタンド」の単語をスコア調整部14に対して出力する(ステップST41)
なお、例えば「駐車する」「給油する」等、項目名に対応する言い換え語を認識対象語とした場合は、これらの単語列もスコア調整部14に対して出力する。
図10は、実施の形態2において、グループ化された表示物から、音声操作によって1つの表示物を特定する処理を示すフローチャートである。
まず、ユーザにより音声認識開始指示部が押下されると、音声認識部6は、音声が入力されたかどうか判定し、所定期間、音声が入力されなかった場合(ステップST51の「NO」の場合)、処理を終了する。
一方、音声が入力された場合(ステップST51の「YES」の場合)、音声認識部6は、入力された音声を認識し、認識結果を出力する(ステップST52)。
次に、スコア調整部14は、音声認識部6により出力された認識結果文字列(または認識結果文字列に対応付けられたID)が、認識辞書制御部13から取得した単語等(または単語等に対応付けられたID)の中に存在するか判定する。そして、認識結果文字列が認識辞書制御部13から取得した単語等の中に存在する場合は、当該認識結果文字列に対応する認識スコアを一定量増加させる。(ステップST53)。
そして、認識結果選択部8は、音声認識部6により出力された認識結果文字列から、スコア調整部14により調整された後の認識スコアが最も高いものを1つ選択する(ステップST54)。
なお、ステップST55〜ST62の処理については、実施の形態1における図6に示すフローチャートのステップST14〜ST21の処理と同一であるため、説明を省略する。
ステップST62において、表示物特定用辞書を生成した後、認識辞書制御部13は、生成した表示物特定用辞書を有効化するが、このとき、表示物特定用辞書のみを有効化することはせずに、すなわち、他の音声認識辞書が有効化されていた場合でもそれらを無効化することなしに、表示物特定用辞書を有効化する(ステップST63)。
そして、認識辞書制御部13は、スコア調整部14に対して、生成した表示物特定用辞書に含まれる単語等(または単語等に対応付けたID)を出力する(ステップST64)。
以上のフローチャートを用いて説明した処理について、具体例を用いて説明する。
ここでは、図4(a)に示すような状況において、図9に示すフローチャートの処理によって、アイコン41,42,44,45がグループ化されており、1つの種別を特定するための単語等、すなわち「駐車場」「ガソリンスタンド」を認識対象とする表示物特定用辞書と施設名認識用の音声認識辞書が有効化されているものとする。
また、スコア調整部14におけるスコア調整量は、予め「+10」と定められているとする。
まず、システムガイダンスに従って、ユーザにより「駐車場」と発話されると(ステップST51の「YES」の場合)、音声認識部6は、音声認識処理を行い認識結果を出力する(ステップST52)。ここで、表示物特定用辞書と施設認識用辞書が有効化されているため、音声認識部6から図11(a)に示すような認識結果が出力されたとする。
図11は、認識結果文字列と認識スコアとの対応の一例を示す表である。
スコア調整部14は、音声認識部6から出力された認識結果文字列「駐車場」が、認識辞書制御部13から取得した単語列(表示物特定用辞書に含まれる単語等からなる単語列)に含まれているので、認識結果文字列「駐車場」に対応する認識スコアに「10」を加算する(ステップST53)。すなわち、図11(a)に示すように、認識結果文字列「駐車場」の認識スコア「70」に「10」を加算するので、「駐車場」の認識スコアが「80」となる。
その結果、認識結果選択部8により「駐車場」が選択され(ステップST54)、以降の処理で表示物が絞り込まれる。すなわち、単に表示物特定用辞書だけでなく施設認識用辞書も有効化されている、というだけであれば、「駐車場」と発話された場合には、図11(a)に示すように「駐車場」と「中華堂」の認識スコアが同じであるため認識結果を特定することができないが、この実施の形態2のようにスコア調整部14により調整を加えることにより、正しい認識結果を得ることができる。
一方、ユーザが急に施設を検索したくなり「中華堂」と発話された場合(ステップST51の「YES」の場合)、音声認識部6は、音声認識処理を行い認識結果を出力する(ステップST52)。ここで、表示物特定用辞書と施設認識用辞書が有効化されているため、音声認識部6から図11(b)に示すような認識結果が出力されたとする。
スコア調整部14は、音声認識部6から出力された認識結果文字列「駐車場」が、認識辞書制御部13から取得した単語列(表示物特定用辞書に含まれる単語等からなる単語列)に含まれているので、認識結果文字列「駐車場」に対応する認識スコアに「10」を加算する(ステップST53)。すなわち、図11(b)に示すように、認識結果文字列「駐車場」の認識スコア「65」に「10」を加算するので、「駐車場」の認識スコアが「75」となる。
この場合には、上記のように「駐車場」の認識スコアに「10」を加算しても、調整後の認識スコアは「中華堂」の方が大きいので、認識結果選択部8により「中華堂」が選択され(ステップST54)、以降の処理で認識結果「中華堂」に対応する機能が実行される(ステップST55〜ST57)。すなわち、このような場合には、実施の形態1においては、表示物特定用辞書のみが有効化されていたため、「中華堂」を認識することができず、音声認識部6によって「駐車場」と誤認識され、その結果、ユーザが意図していない表示物の絞り込み処理を行ってしまうこととなるが、この実施の形態2では、施設認識用辞書が有効化されているため、実施の形態1の場合とは異なり、認識結果選択部8により「中華堂」が選択される可能性があるため、誤認識を減少させることができる。
以上のように、この実施の形態2によれば、実施の形態1と同様の効果に加え、1つのアイコン(表示物)を特定するための発話を認識しやすくするとともに、ユーザの発話の自由度を上げることができる。
なお、この実施の形態2において、視線が表示物の視線検知領域またはグループ生成部11により統合された視線検知統合領域から外れても、予め定められた一定時間が経過するまでは、認識スコアを調整するようにしてもよい。すなわち、スコア調整部14が、表示物の視線検知領域または視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させるようにしてもよい。
これは、視線が外れてからの経過時間が短い場合は、ユーザが意図せず視線検知範囲から視線を外してしまっている可能性があるからである。一方、視線が外れてからの経過時間が長くなるにつれ、ユーザが表示物の特定や表示物への操作をやめる(他の操作をする)ために、意図的に視線を外した可能性が高くなっていくと考えられる。
具体的な処理としては、グループ生成部11は、視線が検出された視線検知領域またはグループ生成部11により統合された視線検知統合領域内に視線が存在しない場合(図9に示すフローチャートのステップST33の「NO」の場合)であっても、表示物をグループ化してから予め定められた一定時間を経過していなければ、ステップST34を実行することなしに、処理を終了するようにすればよい。
なお、「一定時間」は予め定められたものではなく、グループ生成部11によって、視線が表示物の視線検知領域または視線検知統合領域に存在していた時間を計測しておき、当該計測された時間と正の相関を有するようにして算出されるものであってもよい。つまり、視線が表示物の視線検知領域または視線検知統合領域に存在していた時間が長ければ、ユーザが本当にその表示物を選択したいのであろうと考えられるので、それに応じて「一定時間」も長くするようにしてもよい。
また、スコア調整部14は、視線が視線検知領域または視線検知統合領域から外れてから経過した時間と負の相関を有するように、認識スコアの増加量を変化させるとしてもよい。すなわち、視線が視線検知領域または視線検知統合領域から外れてから経過した時間が短い場合には、認識スコアの増加量を多くし、視線が外れてから経過した時間が長い場合には、認識スコアの増加量を少なくする。
これも、視線が外れてからの経過時間が短い場合は、ユーザが意図せず視線検知範囲から視線を外してしまっている可能性があり、視線が外れてからの経過時間が長くなるにつれ、ユーザが表示物の特定や表示物への操作をやめる(他の操作をする)ために、意図的に視線を外した可能性が高くなっていくと考えられるからである。
実施の形態3.
図12は、この発明の実施の形態3による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。なお、実施の形態1,2で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。
以下に示す実施の形態3では、実施の形態2に比べると、表示物特定用辞書を生成することなく、音声認識辞書7に予め作成された表示物特定用辞書を含んでいる点で異なる。また、認識辞書制御部13は、特定部12から取得した判定結果が、1つの表示物を特定できたことを示すものでない場合、表示物特定用辞書を生成するのではなく、予め作成された表示物特定用辞書を有効化にする点で異なる。
さらに、スコア調整部14は、特定部12から判定結果と絞り込まれた表示物の詳細情報を取得し、判定結果が1つの表示物を特定できたことを示すものでない場合、表示物の詳細情報に基づいて、表示物を特定するための単語等のリストを生成する。そして、音声認識部6により出力された認識結果文字列が、当該リストに存在するか判定し、存在する場合は、当該認識結果文字列に対応する認識スコアを一定量増加させる。
すなわち、この実施の形態3におけるスコア調整部14は、音声認識部6が、グループ生成部11によりグループ化された表示物または特定部12により再グループ化された表示物に関連した認識対象語彙を認識した場合、音声認識部6により出力された認識結果の認識スコアを一定量増加させる。
なお、この実施の形態3では、認識スコアを一定量増加させるものとして説明するが、一定の割合増加させるとしてもよい。
また、スコア調整部14は音声認識部6に含まれているとしてもよい。
次に図13および図14に示すフローチャートを用いて、実施の形態3の音声認識装置の動作を説明する。
図13は、実施の形態2において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。
図13に示すフローチャートにおいて、ステップST71〜ST75の処理については、実施の形態1における図5に示すフローチャートのステップST01〜ST05(実施の形態2における図9に示すフローチャートのステップST31〜ST35)と同一であるため説明を省略する。
ステップST75において、グループ生成部11がアイコンをグループ化した後に、特定部12は、グループ生成部11からグループ化された各表示物の詳細情報を取得し、当該詳細情報に基づいてグループ化された表示物の絞り込みを行い、絞り込み結果を出力する(ステップST76)。
そして、認識辞書制御部13は、特定部12から当該絞り込み結果を取得する。また、スコア調整部14は、特定部12から当該絞り込み結果と絞り込まれた表示物の詳細情報を取得する。
当該絞り込み結果が1つの表示物を特定できたことを示すものである場合(ステップST77の「YES」の場合)、認識辞書制御部13は、音声認識部6に対して、当該特定された表示物に対応する表示物操作用辞書を有効化するよう指示し、音声認識部6は当該指示された辞書を有効化する(ステップST78)。一方で、スコア調整部14は、何もしない。
また、絞り込み結果が1つの表示物を特定できたことを示すものでない場合(ステップST77の「NO」の場合)、スコア調整部14は、表示物の詳細情報に基づいて、表示物を特定するための単語等のリストを生成し(ステップST79)、認識辞書制御部13は、音声認識部6に対して、表示物特定用辞書を有効化するよう指示し、音声認識部6は当該指示された辞書を有効化する(ステップST80)。
図14は、実施の形態3において、グループ化された表示物から、音声操作によって1つの表示物を特定する処理を示すフローチャートである。
まず、ユーザにより音声認識開始指示部が押下されると、音声認識部6は、音声が入力されたかどうか判定し、所定期間、音声が入力されなかった場合(ステップST81の「NO」の場合)、処理を終了する。
一方、音声が入力された場合(ステップST81の「YES」の場合)、音声認識部6は、入力された音声を認識し、認識結果を出力する(ステップST82)。
次に、スコア調整部14は、音声認識部6により出力された認識結果文字列が、表示物を特定するための単語等のリストに存在するか判定する。そして、認識結果文字列が当該リストに含まれている場合は、当該認識結果文字列に対応する認識スコアを一定量増加させる。(ステップST83)。
そして、認識結果選択部8は、音声認識部6により出力された認識結果文字列から、スコア調整部14により調整された後の認識スコアが最も高いものを1つ選択する(ステップST84)。
なお、ステップST85〜ST89の処理については、実施の形態1における図6に示すフローチャートのステップST15〜ST18(実施の形態2における図10に示すフローチャートのステップST55〜ST59)の処理と同一であるため、説明を省略する。
特定部12は、グループ生成部11からグループ化された各表示物の詳細情報を取得し、当該詳細情報に基づいてグループ化された表示物の絞り込みを行い、絞り込み結果を出力する(ステップST89)。
そして、認識辞書制御部13は、特定部12から当該判定結果を取得する。また、スコア調整部14は、特定部12から当該判定結果と絞り込まれた表示物の詳細情報を取得する。
認識辞書制御部13は、当該判定結果が1つの表示物を特定できたことを示すものである場合(ステップST90の「YES」の場合)、音声認識部6に対して、当該特定された表示物に対応する表示物操作用辞書を有効化するよう指示出力し、音声認識部6は、当該指示された表示物操作用辞書を有効化する(ステップST91)。
一方、当該判定結果が1つの表示物を特定できたことを示すものでない場合(ステップST90の「NO」の場合)、スコア調整部14は、表示物の詳細情報に基づいて、表示物を特定するための単語等のリストを生成する(ステップST92)。一方で、認識辞書制御部13は、何もしない。
なお、この実施の形態3では、必要に応じて、予め作成された音声認識辞書ごとに、すなわち、例えば施設名認識用辞書、コマンド用辞書、表示物特定用辞書、表示物操作用辞書などをそれぞれ必要に応じて有効化するものとして説明したが、それぞれの音声認識辞書の中から必要な語彙のみを有効化するようにしてもよい。
以上のように、この実施の形態3によれば、実施の形態1と同様の効果に加え、1つのアイコン(表示物)を特定するための発話を認識しやすくするとともに、ユーザの発話の自由度を上げることができる。
なお、この実施の形態3においても、視線が表示物の視線検知領域またはグループ生成部11により統合された視線検知統合領域から外れても、予め定められた一定時間が経過するまでは、認識スコアを調整するようにしてもよい。すなわち、スコア調整部14が、表示物の視線検知領域または視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させるようにしてもよい。
具体的には、グループ生成部11は、視線が検出された視線検知領域またはグループ生成部11により統合された視線検知統合領域内に視線が存在しない場合(図13に示すフローチャートのステップST63の「NO」の場合)であっても、表示物をグループ化してから予め定められた一定時間を経過していなければ、ステップST64を実行することなしに、処理を終了するようにすればよい。
なお、「一定時間」は予め定められたものではなく、グループ生成部11によって、視線が表示物の視線検知領域または視線検知統合領域に存在していた時間を計測しておき、当該計測された時間と正の相関を有するようにして算出されるものであってもよい。つまり、視線が表示物の視線検知領域または視線検知統合領域に存在していた時間が長ければ、ユーザが本当にその表示物を選択したいのであろうと考えられるので、それに応じて「一定時間」も長くするようにしてもよい。
また、スコア調整部14は、視線が視線検知領域または視線検知統合領域から外れてから経過した時間と負の相関を有するように、認識スコアの増加量を変化させるとしてもよい。すなわち、視線が視線検知領域または視線検知統合領域から外れてから経過した時間が短い場合には、認識スコアの増加量を多くし、視線が外れてから経過した時間が長い場合には、認識スコアの増加量を少なくする。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明の音声認識装置は、車両等の移動体に搭載されるナビゲーション装置やナビゲーションシステムの他、ディスプレイ等に表示された表示物を選択し、操作を指示することができる装置やシステムであれば、どのような装置やシステムにも適用することができる。
1 ナビゲーション部、2 指示入力部、3 表示部(表示装置)、4 スピーカ、5 マイク、6 音声認識部、7 音声認識辞書、8 認識結果選択部、9 カメラ、10 視線検出部、11 グループ生成部、12 特定部、13 認識辞書制御部、14 スコア調整部、20 制御部、30 音声認識装置、40〜49 表示物(アイコン)、50〜59 視線検知領域、60 視線、100 音声認識システム。

Claims (20)

  1. 表示装置に表示されている複数の表示物の中から、ユーザにより発話された音声を認識して認識結果に対応する1つの表示物を特定する音声認識装置であって、
    前記ユーザにより発話された音声を取得し、音声認識辞書を参照して前記取得した音声を認識し、認識結果を出力する制御部と、
    前記ユーザの視線を検出する視線検出部と、
    前記視線検出部により検出された視線検出結果に基づいて前記表示物ごとに定められた視線検知領域を統合し、その統合された視線検知統合領域内に存在する表示物をグループ化するグループ生成部と、
    前記制御部により出力された認識結果に基づいて、前記グループ生成部によりグループ化された表示物の絞り込みを行う特定部とを備え、
    前記特定部は、前記グループ化された表示物の中から1つの表示物を特定、または、前記1つの表示物を特定できなかった場合は前記絞り込みを行った表示物を再グループ化する
    ことを特徴とする音声認識装置。
  2. 前記制御部は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物に対応する音声認識辞書を動的に生成する
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記音声認識辞書は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物の中から1つの表示物を特定するための認識対象語を含む
    ことを特徴とする請求項2記載の音声認識装置。
  4. 前記音声認識辞書は、複数種類の表示物が存在する場合は、前記表示物の種類を特定するための認識対象語を含む
    ことを特徴とする請求項3記載の音声認識装置。
  5. 前記音声認識辞書は、単一種類の表示物が複数存在する場合は、1つの表示物を特定するための認識対象語を含む
    ことを特徴とする請求項3記載の音声認識装置。
  6. 前記音声認識辞書は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物の個数が予め定められた個数以上である場合は、当該予め定められた個数以上の表示物を消去する認識対象語を含む
    ことを特徴とする請求項3記載の音声認識装置。
  7. 前記制御部は、前記動的に生成した音声認識辞書のみを有効化する
    ことを特徴とする請求項2記載の音声認識装置。
  8. 前記制御部は、前記動的に生成した音声認識辞書に含まれる認識結果の認識スコアを増加させる
    ことを特徴とする請求項2記載の音声認識装置。
  9. 前記制御部は、前記視線検知領域または前記視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書を有効化しておく
    ことを特徴とする請求項2記載の音声認識装置。
  10. 前記一定時間は、前記視線検知領域または前記視線検知統合領域に視線が存在していた時間と正の相関を有する
    ことを特徴とする請求項9記載の音声認識装置。
  11. 前記制御部は、前記視線検知領域または前記視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させる
    ことを特徴とする請求項2記載の音声認識装置。
  12. 前記一定時間は、前記視線検知領域または前記視線検知統合領域に視線が存在していた時間と正の相関を有する
    ことを特徴とする請求項11記載の音声認識装置。
  13. 前記認識スコアの増加量は、前記視線検知領域または前記視線検知統合領域から視線が外れてから経過した時間と負の相関を有する
    ことを特徴とする請求項11記載の音声認識装置。
  14. 前記制御部は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物に関連した認識対象語彙を認識した場合、前記出力された認識結果の認識スコアを増加させる
    ことを特徴とする請求項1記載の音声認識装置。
  15. 前記制御部は、前記視線検知領域または前記視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させる
    ことを特徴とする請求項14記載の音声認識装置。
  16. 前記一定時間は、前記視線検知領域または前記視線検知統合領域に視線が存在していた時間と正の相関を有する
    ことを特徴とする請求項15記載の音声認識装置。
  17. 前記認識スコアの増加量は、前記視線検知領域または前記視線検知統合領域から視線が外れてから経過した時間と負の相関を有する
    ことを特徴とする請求項15記載の音声認識装置。
  18. 前記特定部は、前記グループ生成部によりグループ化された表示物、前記特定部により再グループ化された表示物、または、前記特定部により特定された表示物の表示態様を変更する
    ことを特徴とする請求項1記載の音声認識装置。
  19. 複数の表示物が表示される表示装置と、
    ユーザの目画像を撮影して取得するカメラと、
    前記表示装置に表示されている複数の表示物の中から、ユーザにより発話された音声を認識して認識結果に対応する1つの表示物を特定する音声認識装置と
    を備える音声認識システムであって、
    前記音声認識装置は、
    前記ユーザにより発話された音声を取得し、音声認識辞書を参照して前記取得した音声を認識し、認識結果を出力する制御部と、
    前記カメラにより取得された画像から前記ユーザの視線を検出する視線検出部と、
    前記視線検出部により検出された視線検出結果に基づいて前記表示物ごとに定められた視線検知領域を統合し、その統合された視線検知統合領域内に存在する表示物をグループ化するグループ生成部と、
    前記制御部により出力された認識結果に基づいて、前記グループ生成部によりグループ化された表示物の絞り込みを行う特定部とを備え、
    前記特定部は、前記グループ化された表示物の中から1つの表示物を特定、または、前記1つの表示物を特定できなかった場合は前記絞り込みを行った表示物を再グループ化する
    ことを特徴とする音声認識システム。
  20. 音声認識装置が、表示装置に表示されている複数の表示物の中から、ユーザにより発話された音声を認識して認識結果に対応する1つの表示物を特定する音声認識方法であって、
    制御部が、前記ユーザにより発話された音声を取得し、音声認識辞書を参照して前記取得した音声を認識し、認識結果を出力するステップと、
    視線検出部が、前記ユーザの視線を検出するステップと、
    グループ生成部が、前記視線検出部により検出された視線検出結果に基づいて前記表示物ごとに定められた視線検知領域を統合し、その統合された視線検知統合領域内に存在する表示物をグループ化するステップと、
    特定部が、前記制御部により出力された認識結果に基づいて、前記グループ生成部によりグループ化された表示物の絞り込みを行い、前記グループ化された表示物の中から1つの表示物を特定、または、前記1つの表示物を特定できなかった場合は前記絞り込みを行った表示物を再グループ化するステップと
    を備えることを特徴とする音声認識方法。
JP2016502550A 2014-02-21 2014-02-21 音声認識装置、システムおよび方法 Expired - Fee Related JP5925401B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/054172 WO2015125274A1 (ja) 2014-02-21 2014-02-21 音声認識装置、システムおよび方法

Publications (2)

Publication Number Publication Date
JP5925401B2 JP5925401B2 (ja) 2016-05-25
JPWO2015125274A1 true JPWO2015125274A1 (ja) 2017-03-30

Family

ID=53877808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016502550A Expired - Fee Related JP5925401B2 (ja) 2014-02-21 2014-02-21 音声認識装置、システムおよび方法

Country Status (3)

Country Link
US (1) US20160335051A1 (ja)
JP (1) JP5925401B2 (ja)
WO (1) WO2015125274A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015207181A (ja) * 2014-04-22 2015-11-19 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
JP6483680B2 (ja) * 2014-06-30 2019-03-13 クラリオン株式会社 情報処理システム、及び、車載装置
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
JP6516585B2 (ja) * 2015-06-24 2019-05-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
US10083685B2 (en) * 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
CN105677287B (zh) * 2015-12-30 2019-04-26 苏州佳世达电通有限公司 显示装置的控制方法以及主控电子装置
US10950229B2 (en) * 2016-08-26 2021-03-16 Harman International Industries, Incorporated Configurable speech interface for vehicle infotainment systems
US10535342B2 (en) * 2017-04-10 2020-01-14 Microsoft Technology Licensing, Llc Automatic learning of language models
JP7327939B2 (ja) * 2019-01-09 2023-08-16 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム
KR20210020219A (ko) 2019-08-13 2021-02-24 삼성전자주식회사 대용어(Co-reference)를 이해하는 전자 장치 및 그 제어 방법
CN116185190B (zh) * 2023-02-09 2024-05-10 江苏泽景汽车电子股份有限公司 一种信息显示控制方法、装置及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04372012A (ja) * 1991-06-20 1992-12-25 Fuji Xerox Co Ltd 入力装置
JPH0651901A (ja) * 1992-06-29 1994-02-25 Nri & Ncc Co Ltd 視線認識によるコミュニケーション装置
JP3530591B2 (ja) * 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置

Also Published As

Publication number Publication date
US20160335051A1 (en) 2016-11-17
WO2015125274A1 (ja) 2015-08-27
JP5925401B2 (ja) 2016-05-25

Similar Documents

Publication Publication Date Title
JP5925401B2 (ja) 音声認識装置、システムおよび方法
US9881605B2 (en) In-vehicle control apparatus and in-vehicle control method
JP6400109B2 (ja) 音声認識システム
KR101999182B1 (ko) 사용자 단말 장치 및 그의 제어 방법
JP5158174B2 (ja) 音声認識装置
JP4715805B2 (ja) 車載情報検索装置
JP2008058409A (ja) 音声認識方法及び音声認識装置
US9421866B2 (en) Vehicle system and method for providing information regarding an external item a driver is focusing on
US20160035352A1 (en) Voice recognition system and recognition result display apparatus
CN105355202A (zh) 语音识别装置、具有语音识别装置的车辆及其控制方法
JPWO2014006690A1 (ja) 音声認識装置
US9495088B2 (en) Text entry method with character input slider
WO2013069060A1 (ja) ナビゲーション装置および方法
JP6214297B2 (ja) ナビゲーション装置および方法
JP6522009B2 (ja) 音声認識システム
JP2010039099A (ja) 音声認識および車載装置
JP2009031065A (ja) 車両用情報案内装置、車両用情報案内方法及びコンピュータプログラム
JP2015161632A (ja) 画像表示システム、ヘッドアップディスプレイ装置、画像表示方法、及び、プログラム
JP5446540B2 (ja) 情報検索装置、制御方法及びプログラム
JP2008164809A (ja) 音声認識装置
JP7233918B2 (ja) 車載装置、通信システム
JP2006178898A (ja) 地点検索装置
JP2009251470A (ja) 車載情報システム
JP2005215474A (ja) 音声認識装置、プログラム、記憶媒体及びナビゲーション装置
JP2017102320A (ja) 音声認識装置

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160419

R150 Certificate of patent or registration of utility model

Ref document number: 5925401

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees