JPWO2015125274A1 - 音声認識装置、システムおよび方法 - Google Patents
音声認識装置、システムおよび方法 Download PDFInfo
- Publication number
- JPWO2015125274A1 JPWO2015125274A1 JP2016502550A JP2016502550A JPWO2015125274A1 JP WO2015125274 A1 JPWO2015125274 A1 JP WO2015125274A1 JP 2016502550 A JP2016502550 A JP 2016502550A JP 2016502550 A JP2016502550 A JP 2016502550A JP WO2015125274 A1 JPWO2015125274 A1 JP WO2015125274A1
- Authority
- JP
- Japan
- Prior art keywords
- line
- display
- recognition
- unit
- sight detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 34
- 238000001514 detection method Methods 0.000 claims abstract description 158
- 238000012545 processing Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 10
- 102100035353 Cyclin-dependent kinase 2-associated protein 1 Human genes 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 102100029860 Suppressor of tumorigenicity 20 protein Human genes 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 102100036848 C-C motif chemokine 20 Human genes 0.000 description 1
- 101000713099 Homo sapiens C-C motif chemokine 20 Proteins 0.000 description 1
- 101000710013 Homo sapiens Reversion-inducing cysteine-rich protein with Kazal motifs Proteins 0.000 description 1
- 101000661816 Homo sapiens Suppression of tumorigenicity 18 protein Proteins 0.000 description 1
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04817—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
なお、以下の実施の形態では、この発明の音声認識装置および音声認識システムを車両等の移動体用のナビゲーション装置やナビゲーションシステムに適用した場合を例に挙げて説明するが、ディスプレイ等に表示された表示物を選択し、操作を指示することができる装置やシステムであれば、どのような装置やシステムに適用してもよい。
図1は、この発明の実施の形態1による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。このナビゲーション装置は、ナビゲーション部1、指示入力部2、表示部(表示装置)3、スピーカ4、マイク5、音声認識部6、音声認識辞書7、認識結果選択部8、カメラ9、視線検出部10、グループ生成部11、特定部12、認識辞書制御部13を備えている。
また、スピーカ4も、ナビゲーション部1の指示に基づき音声を出力する。
なお、当該音声認識開始指示がなくても、音声認識部6は常時、認識処理を行うとしてもよい(以下の実施の形態においても同様)。
視線検出部10は、カメラ9により取得された画像を解析して表示部(表示装置)3に向けられるユーザの視線を検出し、表示部(表示装置)3上における視線の位置を算出する。なお、視線を検出する方法および表示部(表示装置)3上における視線の位置を算出する方法については、公知の技術を用いればよいためここでは説明を省略する。
なお、図2に示すアイコン40は、地図画面に表示される駐車場を表すアイコンであり、この実施の形態1においては、表示物としては、地図画面に表示される施設を表すアイコンを例にして説明するが、ボタン等ユーザによって選択されるものであればどのような表示物であってもよく、施設アイコンに限らない(以下の実施の形態においても同様)。
なお、詳細情報の項目はこれらに限られるものではなく、項目の追加や削除をしてもよい。
図4は、表示部(表示装置)3に表示された表示物(アイコン)と視線検知領域の別の例を示す図であり、表示物のグループ化についての説明図である。
例えば、図4(a)に示すように、表示部(表示装置)3の表示画面に6つのアイコン41〜46が表示されており、グループ生成部11によって各アイコンに対して視線検知領域51〜56が設定されているとする。
その後、視線が存在している視線検知領域と、特定された他の視線検知領域とを統合する。そして、グループ生成部11は、統合した視線検知統合領域内に存在する表示物を1つのグループにグループ化する。
具体的には、表示部(表示装置)3に表示される画面(例えば、地図画面等)毎やナビゲーション部1で実行される機能(例えば住所検索機能、施設検索機能等)毎に予め音声認識辞書が対応付けられており、ナビゲーション部1から取得した画面情報や実行中の機能の情報に基づいて、対応する音声認識辞書を有効化するよう音声認識部6に対して指示出力する。
認識辞書制御部13は、異なる種別の表示物がグループ化されている場合は、各表示物の詳細情報を用いて、1つの種別を特定するための単語等を含む音声認識辞書を生成する。具体的には、例えば「駐車場」「ガソリンスタンド」等の種別そのものを認識語彙として含む辞書であってもよいし、「駐車する」「給油する」等の項目名に対応する言い換え語や「駐車したい」「給油したい」等の意図を含む認識語彙を含む辞書であってもよい。
図5は、実施の形態1において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。
次に、グループ生成部11は、ナビゲーション部1から、表示部(表示装置)3に表示されている表示物の位置情報と詳細情報を取得する(ステップST02)。
視線が何れの視線検知領域にも存在しない場合(ステップST03の「NO」の場合)、認識辞書制御部13は、音声認識部6に対して、例えば表示部(表示装置)3に表示されている画面に応じた音声認識辞書を有効化するよう指示出力し、音声認識部6は当該指示された辞書を有効化する(ステップST04)。
ここで、アイコン42に対応する詳細情報の「空き状況」項目の内容が満車を表す「満」であるため、特定部12は、表示物をアイコン41および43〜45に絞り込んで再グループ化する。そして、1つの表示物を特定できなかったことを示す絞り込み結果を出力する(ステップST06)。
そして、認識辞書制御部13は、当該絞り込み結果に従って(ステップST07の「NO」の場合)、表示物特定用辞書を生成する(ステップST09)。
なお、例えば「駐車する」「給油する」等、項目名に対応する言い換え語を認識対象語としてもよい。
例えば、予め定められた所定個数が「5」であり、種別が「ガソリンスタンド」のアイコンが、グループ化されたアイコン中に6個存在する場合、認識辞書制御部13は、例えば「ガソリンスタンド非表示」のような認識対象語を含む表示物特定用辞書を生成する。
ここで、図5のフローチャートに示すステップST01〜ST05までの処理については、図4の例で説明した場合と同様であるため説明を省略する。
グループ生成部11は、視線60が存在する視線検知領域50の一部と重複している視線検知領域がないため、視線検知領域50に対応するアイコン40をグループ化する(ステップST01〜ステップST05)。
なお、表示物操作用辞書は、予め表示物毎に用意されているものとする。
まず、ユーザにより音声認識開始指示部が押下されると、音声認識部6は、音声が入力されたかどうか判定し、所定期間、音声が入力されなかった場合(ステップST11の「NO」の場合)、処理を終了する。
次に、認識結果選択部8は、音声認識部6により出力された認識結果文字列から、最も高い認識スコアを有するものを1つ選択する(ステップST13)。
そして、表示物特定用辞書に含まれていない、すなわち、ユーザ発話が1つの表示物を特定するためのものではないと判定した場合(ステップST14の「NO」の場合)、認識結果選択部8は、ナビゲーション部1に対して認識結果を出力する。
ここで、表示物操作用辞書に含まれていない、すなわち、ユーザ発話が1つの表示物に対して操作するためのものではないと判定した場合(ステップST15の「NO」の場合)、ナビゲーション部1は、認識結果に対応する機能を実行する(ステップST16)。
そして、特定部12は、認識結果選択部8により出力された認識結果を取得し、グループ化された表示物の絞り込みを行い、絞り込み結果を出力する(ステップST18)。
その後、認識辞書制御部13は、音声認識部6に対して、当該生成した表示物特定用辞書を有効化するよう指示出力し、音声認識部6は、当該指示された音声認識辞書を有効化する(ステップST22)。
例えば、図4(a)のように表示部(表示装置)3にアイコン41〜46が表示されており、視線検出部10によって視線が60の位置であると算出されているとする。また、アイコン41〜43の詳細情報は図3(a)、(b)、(c)、アイコン44と45の詳細情報は図3(d)および(e)であるとする。
ここでは、「駐車場」「ガソリンスタンド」のみが音声認識の対象語となっているため、認識結果として「駐車場」が出力される。
具体的な処理としては、グループ生成部11は、視線が検出された視線検知領域またはグループ生成部11により統合された視線検知統合領域内に視線が存在しない場合(図5のステップST03の「NO」の場合)であっても、表示物をグループ化してから予め定められた一定時間を経過していなければ、ステップST04を実行することなしに、処理を終了するようにすればよい。
この場合、特定部12が、グループ化された表示物や再グループ化された表示物や特定された表示物を所定の表示態様で表示するよう指示出力し、ナビゲーション部1が、当該指示に従って表示物を表示するよう表示部(表示装置)3に対して指示出力するようにすればよい。
図8は、この発明の実施の形態2による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。
また、スコア調整部14は音声認識部6に含まれているとしてもよい。
図9は、実施の形態2において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。
そして、認識辞書制御部13は、スコア調整部14に対して、生成した表示物特定用辞書に含まれる単語等(または単語等に対応付けたID)を出力する(ステップST41)。
ここで、アイコン42に対応する詳細情報の「空き状況」項目の内容が満車を表す「満」であるため、特定部12は、表示物を41および43〜45に絞り込んで再グループ化する。そして、1つの表示物を特定できなかったことを示す絞り込み結果を出力する(ステップST36)。
なお、例えば「駐車する」「給油する」等、項目名に対応する言い換え語を認識対象語とした場合は、これらの単語列もスコア調整部14に対して出力する。
まず、ユーザにより音声認識開始指示部が押下されると、音声認識部6は、音声が入力されたかどうか判定し、所定期間、音声が入力されなかった場合(ステップST51の「NO」の場合)、処理を終了する。
次に、スコア調整部14は、音声認識部6により出力された認識結果文字列(または認識結果文字列に対応付けられたID)が、認識辞書制御部13から取得した単語等(または単語等に対応付けられたID)の中に存在するか判定する。そして、認識結果文字列が認識辞書制御部13から取得した単語等の中に存在する場合は、当該認識結果文字列に対応する認識スコアを一定量増加させる。(ステップST53)。
なお、ステップST55〜ST62の処理については、実施の形態1における図6に示すフローチャートのステップST14〜ST21の処理と同一であるため、説明を省略する。
そして、認識辞書制御部13は、スコア調整部14に対して、生成した表示物特定用辞書に含まれる単語等(または単語等に対応付けたID)を出力する(ステップST64)。
ここでは、図4(a)に示すような状況において、図9に示すフローチャートの処理によって、アイコン41,42,44,45がグループ化されており、1つの種別を特定するための単語等、すなわち「駐車場」「ガソリンスタンド」を認識対象とする表示物特定用辞書と施設名認識用の音声認識辞書が有効化されているものとする。
また、スコア調整部14におけるスコア調整量は、予め「+10」と定められているとする。
図11は、認識結果文字列と認識スコアとの対応の一例を示す表である。
具体的な処理としては、グループ生成部11は、視線が検出された視線検知領域またはグループ生成部11により統合された視線検知統合領域内に視線が存在しない場合(図9に示すフローチャートのステップST33の「NO」の場合)であっても、表示物をグループ化してから予め定められた一定時間を経過していなければ、ステップST34を実行することなしに、処理を終了するようにすればよい。
これも、視線が外れてからの経過時間が短い場合は、ユーザが意図せず視線検知範囲から視線を外してしまっている可能性があり、視線が外れてからの経過時間が長くなるにつれ、ユーザが表示物の特定や表示物への操作をやめる(他の操作をする)ために、意図的に視線を外した可能性が高くなっていくと考えられるからである。
図12は、この発明の実施の形態3による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。なお、実施の形態1,2で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。
また、スコア調整部14は音声認識部6に含まれているとしてもよい。
図13は、実施の形態2において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。
まず、ユーザにより音声認識開始指示部が押下されると、音声認識部6は、音声が入力されたかどうか判定し、所定期間、音声が入力されなかった場合(ステップST81の「NO」の場合)、処理を終了する。
次に、スコア調整部14は、音声認識部6により出力された認識結果文字列が、表示物を特定するための単語等のリストに存在するか判定する。そして、認識結果文字列が当該リストに含まれている場合は、当該認識結果文字列に対応する認識スコアを一定量増加させる。(ステップST83)。
なお、ステップST85〜ST89の処理については、実施の形態1における図6に示すフローチャートのステップST15〜ST18(実施の形態2における図10に示すフローチャートのステップST55〜ST59)の処理と同一であるため、説明を省略する。
そして、認識辞書制御部13は、特定部12から当該判定結果を取得する。また、スコア調整部14は、特定部12から当該判定結果と絞り込まれた表示物の詳細情報を取得する。
Claims (20)
- 表示装置に表示されている複数の表示物の中から、ユーザにより発話された音声を認識して認識結果に対応する1つの表示物を特定する音声認識装置であって、
前記ユーザにより発話された音声を取得し、音声認識辞書を参照して前記取得した音声を認識し、認識結果を出力する制御部と、
前記ユーザの視線を検出する視線検出部と、
前記視線検出部により検出された視線検出結果に基づいて前記表示物ごとに定められた視線検知領域を統合し、その統合された視線検知統合領域内に存在する表示物をグループ化するグループ生成部と、
前記制御部により出力された認識結果に基づいて、前記グループ生成部によりグループ化された表示物の絞り込みを行う特定部とを備え、
前記特定部は、前記グループ化された表示物の中から1つの表示物を特定、または、前記1つの表示物を特定できなかった場合は前記絞り込みを行った表示物を再グループ化する
ことを特徴とする音声認識装置。 - 前記制御部は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物に対応する音声認識辞書を動的に生成する
ことを特徴とする請求項1記載の音声認識装置。 - 前記音声認識辞書は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物の中から1つの表示物を特定するための認識対象語を含む
ことを特徴とする請求項2記載の音声認識装置。 - 前記音声認識辞書は、複数種類の表示物が存在する場合は、前記表示物の種類を特定するための認識対象語を含む
ことを特徴とする請求項3記載の音声認識装置。 - 前記音声認識辞書は、単一種類の表示物が複数存在する場合は、1つの表示物を特定するための認識対象語を含む
ことを特徴とする請求項3記載の音声認識装置。 - 前記音声認識辞書は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物の個数が予め定められた個数以上である場合は、当該予め定められた個数以上の表示物を消去する認識対象語を含む
ことを特徴とする請求項3記載の音声認識装置。 - 前記制御部は、前記動的に生成した音声認識辞書のみを有効化する
ことを特徴とする請求項2記載の音声認識装置。 - 前記制御部は、前記動的に生成した音声認識辞書に含まれる認識結果の認識スコアを増加させる
ことを特徴とする請求項2記載の音声認識装置。 - 前記制御部は、前記視線検知領域または前記視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書を有効化しておく
ことを特徴とする請求項2記載の音声認識装置。 - 前記一定時間は、前記視線検知領域または前記視線検知統合領域に視線が存在していた時間と正の相関を有する
ことを特徴とする請求項9記載の音声認識装置。 - 前記制御部は、前記視線検知領域または前記視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させる
ことを特徴とする請求項2記載の音声認識装置。 - 前記一定時間は、前記視線検知領域または前記視線検知統合領域に視線が存在していた時間と正の相関を有する
ことを特徴とする請求項11記載の音声認識装置。 - 前記認識スコアの増加量は、前記視線検知領域または前記視線検知統合領域から視線が外れてから経過した時間と負の相関を有する
ことを特徴とする請求項11記載の音声認識装置。 - 前記制御部は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物に関連した認識対象語彙を認識した場合、前記出力された認識結果の認識スコアを増加させる
ことを特徴とする請求項1記載の音声認識装置。 - 前記制御部は、前記視線検知領域または前記視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させる
ことを特徴とする請求項14記載の音声認識装置。 - 前記一定時間は、前記視線検知領域または前記視線検知統合領域に視線が存在していた時間と正の相関を有する
ことを特徴とする請求項15記載の音声認識装置。 - 前記認識スコアの増加量は、前記視線検知領域または前記視線検知統合領域から視線が外れてから経過した時間と負の相関を有する
ことを特徴とする請求項15記載の音声認識装置。 - 前記特定部は、前記グループ生成部によりグループ化された表示物、前記特定部により再グループ化された表示物、または、前記特定部により特定された表示物の表示態様を変更する
ことを特徴とする請求項1記載の音声認識装置。 - 複数の表示物が表示される表示装置と、
ユーザの目画像を撮影して取得するカメラと、
前記表示装置に表示されている複数の表示物の中から、ユーザにより発話された音声を認識して認識結果に対応する1つの表示物を特定する音声認識装置と
を備える音声認識システムであって、
前記音声認識装置は、
前記ユーザにより発話された音声を取得し、音声認識辞書を参照して前記取得した音声を認識し、認識結果を出力する制御部と、
前記カメラにより取得された画像から前記ユーザの視線を検出する視線検出部と、
前記視線検出部により検出された視線検出結果に基づいて前記表示物ごとに定められた視線検知領域を統合し、その統合された視線検知統合領域内に存在する表示物をグループ化するグループ生成部と、
前記制御部により出力された認識結果に基づいて、前記グループ生成部によりグループ化された表示物の絞り込みを行う特定部とを備え、
前記特定部は、前記グループ化された表示物の中から1つの表示物を特定、または、前記1つの表示物を特定できなかった場合は前記絞り込みを行った表示物を再グループ化する
ことを特徴とする音声認識システム。 - 音声認識装置が、表示装置に表示されている複数の表示物の中から、ユーザにより発話された音声を認識して認識結果に対応する1つの表示物を特定する音声認識方法であって、
制御部が、前記ユーザにより発話された音声を取得し、音声認識辞書を参照して前記取得した音声を認識し、認識結果を出力するステップと、
視線検出部が、前記ユーザの視線を検出するステップと、
グループ生成部が、前記視線検出部により検出された視線検出結果に基づいて前記表示物ごとに定められた視線検知領域を統合し、その統合された視線検知統合領域内に存在する表示物をグループ化するステップと、
特定部が、前記制御部により出力された認識結果に基づいて、前記グループ生成部によりグループ化された表示物の絞り込みを行い、前記グループ化された表示物の中から1つの表示物を特定、または、前記1つの表示物を特定できなかった場合は前記絞り込みを行った表示物を再グループ化するステップと
を備えることを特徴とする音声認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/054172 WO2015125274A1 (ja) | 2014-02-21 | 2014-02-21 | 音声認識装置、システムおよび方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5925401B2 JP5925401B2 (ja) | 2016-05-25 |
JPWO2015125274A1 true JPWO2015125274A1 (ja) | 2017-03-30 |
Family
ID=53877808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016502550A Expired - Fee Related JP5925401B2 (ja) | 2014-02-21 | 2014-02-21 | 音声認識装置、システムおよび方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160335051A1 (ja) |
JP (1) | JP5925401B2 (ja) |
WO (1) | WO2015125274A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015207181A (ja) * | 2014-04-22 | 2015-11-19 | ソニー株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
JP6483680B2 (ja) * | 2014-06-30 | 2019-03-13 | クラリオン株式会社 | 情報処理システム、及び、車載装置 |
JP6739907B2 (ja) * | 2015-06-18 | 2020-08-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
JP6516585B2 (ja) * | 2015-06-24 | 2019-05-22 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 制御装置、その方法及びプログラム |
US10083685B2 (en) * | 2015-10-13 | 2018-09-25 | GM Global Technology Operations LLC | Dynamically adding or removing functionality to speech recognition systems |
CN105677287B (zh) * | 2015-12-30 | 2019-04-26 | 苏州佳世达电通有限公司 | 显示装置的控制方法以及主控电子装置 |
US10950229B2 (en) * | 2016-08-26 | 2021-03-16 | Harman International Industries, Incorporated | Configurable speech interface for vehicle infotainment systems |
US10535342B2 (en) * | 2017-04-10 | 2020-01-14 | Microsoft Technology Licensing, Llc | Automatic learning of language models |
JP7327939B2 (ja) * | 2019-01-09 | 2023-08-16 | キヤノン株式会社 | 情報処理システム、情報処理装置、制御方法、プログラム |
KR20210020219A (ko) | 2019-08-13 | 2021-02-24 | 삼성전자주식회사 | 대용어(Co-reference)를 이해하는 전자 장치 및 그 제어 방법 |
CN116185190B (zh) * | 2023-02-09 | 2024-05-10 | 江苏泽景汽车电子股份有限公司 | 一种信息显示控制方法、装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04372012A (ja) * | 1991-06-20 | 1992-12-25 | Fuji Xerox Co Ltd | 入力装置 |
JPH0651901A (ja) * | 1992-06-29 | 1994-02-25 | Nri & Ncc Co Ltd | 視線認識によるコミュニケーション装置 |
JP3530591B2 (ja) * | 1994-09-14 | 2004-05-24 | キヤノン株式会社 | 音声認識装置及びこれを用いた情報処理装置とそれらの方法 |
JP2008058409A (ja) * | 2006-08-29 | 2008-03-13 | Aisin Aw Co Ltd | 音声認識方法及び音声認識装置 |
-
2014
- 2014-02-21 US US15/110,075 patent/US20160335051A1/en not_active Abandoned
- 2014-02-21 WO PCT/JP2014/054172 patent/WO2015125274A1/ja active Application Filing
- 2014-02-21 JP JP2016502550A patent/JP5925401B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20160335051A1 (en) | 2016-11-17 |
WO2015125274A1 (ja) | 2015-08-27 |
JP5925401B2 (ja) | 2016-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5925401B2 (ja) | 音声認識装置、システムおよび方法 | |
US9881605B2 (en) | In-vehicle control apparatus and in-vehicle control method | |
JP6400109B2 (ja) | 音声認識システム | |
KR101999182B1 (ko) | 사용자 단말 장치 및 그의 제어 방법 | |
JP5158174B2 (ja) | 音声認識装置 | |
JP4715805B2 (ja) | 車載情報検索装置 | |
JP2008058409A (ja) | 音声認識方法及び音声認識装置 | |
US9421866B2 (en) | Vehicle system and method for providing information regarding an external item a driver is focusing on | |
US20160035352A1 (en) | Voice recognition system and recognition result display apparatus | |
CN105355202A (zh) | 语音识别装置、具有语音识别装置的车辆及其控制方法 | |
JPWO2014006690A1 (ja) | 音声認識装置 | |
US9495088B2 (en) | Text entry method with character input slider | |
WO2013069060A1 (ja) | ナビゲーション装置および方法 | |
JP6214297B2 (ja) | ナビゲーション装置および方法 | |
JP6522009B2 (ja) | 音声認識システム | |
JP2010039099A (ja) | 音声認識および車載装置 | |
JP2009031065A (ja) | 車両用情報案内装置、車両用情報案内方法及びコンピュータプログラム | |
JP2015161632A (ja) | 画像表示システム、ヘッドアップディスプレイ装置、画像表示方法、及び、プログラム | |
JP5446540B2 (ja) | 情報検索装置、制御方法及びプログラム | |
JP2008164809A (ja) | 音声認識装置 | |
JP7233918B2 (ja) | 車載装置、通信システム | |
JP2006178898A (ja) | 地点検索装置 | |
JP2009251470A (ja) | 車載情報システム | |
JP2005215474A (ja) | 音声認識装置、プログラム、記憶媒体及びナビゲーション装置 | |
JP2017102320A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5925401 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |