JPWO2016088410A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JPWO2016088410A1
JPWO2016088410A1 JP2016562324A JP2016562324A JPWO2016088410A1 JP WO2016088410 A1 JPWO2016088410 A1 JP WO2016088410A1 JP 2016562324 A JP2016562324 A JP 2016562324A JP 2016562324 A JP2016562324 A JP 2016562324A JP WO2016088410 A1 JPWO2016088410 A1 JP WO2016088410A1
Authority
JP
Japan
Prior art keywords
display
volume
information processing
voice
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016562324A
Other languages
English (en)
Other versions
JP6627775B2 (ja
Inventor
祐平 滝
祐平 滝
真一 河野
真一 河野
邦仁 澤井
邦仁 澤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2016088410A1 publication Critical patent/JPWO2016088410A1/ja
Application granted granted Critical
Publication of JP6627775B2 publication Critical patent/JP6627775B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1423Digital output to display device ; Cooperation and interconnection of the display device with other functional units controlling a plurality of local displays, e.g. CRT and flat panel display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能な技術を提供する。入力音声に基づいてユーザ発話音量を判定する判定部と、表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、情報処理装置が提供される。

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。
近年、ユーザによって発せられた音声を入力音声として受け付け、入力音声に対して音声認識を行うことによって入力音声から文字列を認識する技術が存在する。例えば、入力音声に対して音声認識を行うモードが開始されたことをユーザに把握させる技術が開示されている(例えば、特許文献1参照)。
特開2013−25605号公報
しかし、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能な技術が提供されることが望まれる。
本開示によれば、入力音声に基づいてユーザ発話音量を判定する判定部と、表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、情報処理装置が提供される。
本開示によれば、入力音声に基づいてユーザ発話音量を判定することと、表示オブジェクトが表示部によって表示されるように前記表示部を制御することと、を含み、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させることを含む、情報処理方法が提供される。
本開示によれば、コンピュータを、入力音声に基づいてユーザ発話音量を判定する判定部と、表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、情報処理装置として機能させるためのプログラムが提供される。
以上説明したように本開示によれば、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係る情報処理システムの機能構成例を示すブロック図である。 表示部によって表示される画面の例を示す図である。 第1の動きオブジェクトの表示開始を説明するための図である。 認識可能音量について説明するための図である。 認識可能音量について説明するための図である。 認識可能音量について説明するための図である。 表示部によって表示される画面の他の例を示す図である。 第2の動きオブジェクトの表示開始を説明するための図である 情報処理システムの動作の流れの例を示すフローチャートである。 情報処理システムの動作の流れの例を示すフローチャートである。 表示部による表示形態の変形例1を示す図である。 表示部による表示形態の変形例2を示す図である。 表示部による表示形態の変形例3を示す図である。 表示部による表示形態の変形例4を示す図である。 表示部による表示形態の変形例5を示す図である。 情報処理システムのハードウェア構成例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットまたは数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
なお、説明は以下の順序で行うものとする。
1.本開示の実施形態
1.1.システム構成例
1.2.機能構成例
1.3.第1の動きオブジェクトの表示
1.4.認識可能音量の設定
1.5.第2の動きオブジェクトの表示
1.6.動作例
1.7.表示形態の変形例
1.8.ハードウェア構成例
2.むすび
<1.本開示の実施形態>
[1.1.システム構成例]
まず、図面を参照しながら本開示の実施形態に係る情報処理システム10の構成例について説明する。図1は、本開示の実施形態に係る情報処理システム10の構成例を示す図である。図1に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、音声入力部120と、表示部130とを備える。情報処理システム10は、ユーザU(以下、単に「ユーザ」とも言う。)によって発せられた音声に対して音声認識を行うことが可能である。
画像入力部110は、画像を入力する機能を有する。図1に示した例では、画像入力部110は、テーブルTblに埋め込まれた2つのカメラを含んでいる。しかし、画像入力部110に含まれるカメラの数は1以上であれば特に限定されない。かかる場合、画像入力部110に含まれる1以上のカメラそれぞれが設けられる位置も特に限定されない。また、1以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。
操作入力部115は、ユーザUの操作を入力する機能を有する。図1に示した例では、操作入力部115は、テーブルTblの上方に存在する天井から吊り下げられた1つのカメラを含んでいる。しかし、操作入力部115に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部115はユーザUの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。
表示部130は、テーブルTblに画面を表示する機能を有する。図1に示した例では、表示部130は、テーブルTblの上方に天井から吊り下げられている。しかし、表示部130が設けられる位置は特に限定されない。また、典型的には、表示部130は、テーブルTblの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。
なお、本明細書では、テーブルTblの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルTblの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよいし、他の場所にある面であってもよい。また、表示部130が表示面を有する場合には、画面の表示面は、表示部130が有する表示面であってもよい。
音声入力部120は、音声を入力する機能を有する。図1に示した例では、音声入力部120は、テーブルTblの上方に存在する3つのマイクとテーブルTblの上面に存在する3つのマイクとの合計6つのマイクを含んでいる。しかし、音声入力部120に含まれるマイクの数は1以上であれば特に限定されない。かかる場合、音声入力部120に含まれる1以上のマイクそれぞれが設けられる位置も特に限定されない。ただし、音声入力部120が、複数のマイクを含んでいれば、複数のマイクそれぞれに入力された音声に基づいて音源方向が推定され得る。また、音声入力部120が指向性を有するマイクを含んでいれば、指向性を有するマイクに入力された音声に基づいて音源方向が推定され得る。
以上、本開示の実施形態に係る情報処理システム10の構成例について説明した。
[1.2.機能構成例]
続いて、本開示の実施形態に係る情報処理システム10の機能構成例について説明する。図2は、本開示の実施形態に係る情報処理システム10の機能構成例を示すブロック図である。図2に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、音声入力部120と、表示部130と、情報処理装置140(以下、「制御部140」とも言う。)と、を備える。
情報処理装置140は、情報処理システム10の各部の制御を実行する。例えば、情報処理装置140は、表示部130から出力する情報を生成する。また、例えば、情報処理装置140は、画像入力部110、操作入力部115および音声入力部120それぞれが入力した情報を、表示部130から出力する情報に反映させる。図2に示したように、情報処理装置140は、入力画像取得部141と、入力音声取得部142と、操作検出部143と、判定部144と、音声認識部145と、表示制御部146とを備える。これらの各機能ブロックについての詳細は、後に説明する。
なお、情報処理装置140は、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてもよい。情報処理装置140がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。
以上、本開示の実施形態に係る情報処理システム10の機能構成例について説明した。
[1.3.第1の動きオブジェクトの表示]
まず、音声認識開始オブジェクト(不図示)を選択する操作が操作検出部143によって検出されると、音声認識部145によって入力音声に対する音声認識が開始される。図3は、表示部130によって表示される画面の例を示す図である。図3を参照すると、表示制御部146は、音声認識キャンセル操作オブジェクトBu1と音声認識終了操作オブジェクトBu2と表示オブジェクトSbとを表示させている。音声認識キャンセル操作オブジェクトBu1は、音声認識を取り消す操作の入力を受け付けるためのオブジェクトである。音声認識終了操作オブジェクトBu2は、音声認識を終了する操作の入力を受け付けるためのオブジェクトである。
表示オブジェクトSbは、ユーザに視認可能なオブジェクトであれば特に限定されない。例えば、表示オブジェクトSbは、静止しているオブジェクトであってもよいし、動きのあるオブジェクトであってもよい。音声認識が開始されると、判定部144は、入力音声に基づいてユーザUによる発話音量を判定する。ここで、ユーザ発話音量の判定手法は特に限定されない。例えば、判定部144は、ユーザによる発話音声の音源方向Duを推定し、ユーザによる発話音声の音源方向Duから入力される音量をユーザ発話音量として判定してよい。なお、ユーザによる発話音声の音源方向Duの推定手法も特に限定されない。
例えば、判定部144は、音声入力部120によって閾値を超える大きさの音量で入力された音声の到来方向をユーザによる発話音声の音源方向Duとして推定してもよい。また、判定部144は、閾値を超える大きさの音量で入力された音声の到来方向が複数あった場合には、複数の到来方向のうち最初に閾値を超える大きさの音量で入力された音声の到来方向をユーザによる発話音声の音源方向Duとして推定してもよいし、複数の到来方向のうち音声による音声認識開始オブジェクト(不図示)を選択する操作を行ったユーザの指方向(例えば、指先から指の根元への方向)に一致または類似する1の到来方向をユーザによる発話音声の音源方向Duとして推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。
また、例えば、判定部144は、音声入力部120によって最も大きな音量で入力された音声の到来方向をユーザによる発話音声の音源方向Duとして推定してもよい。あるいは、判定部144は、音声認識開始オブジェクト(不図示)を選択する操作を行ったユーザの指方向に一致または類似する1の到来方向をユーザによる発話音声の音源方向Duとして推定してもよい。このとき、判定部144は、ユーザによる発話音声の音源方向以外の方向から音声入力部120に入力された音声をノイズとして判定し、ユーザによる発話音声の音源方向Du以外の方向から音声入力部120に入力された音量をノイズ音量として判定してよい。
そして、表示制御部146は、音声認識部145による音声認識が可能な音量(以下、「認識可能音量」とも言う。)をユーザ発話音量が超えている場合に、表示オブジェクトSbに向かって移動する第1の動きオブジェクトMuを表示部130に表示させればよい。そうすれば、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能となる。また、表示制御部146は、ユーザによる発話音声の音源方向Duに基づいて第1の動きオブジェクトMuを表示部130に表示させてもよい。そうすれば、自分自身の発話音量が音声認識可能な音量を超えているか否かをユーザにより確実に把握させることが可能となる。
具体的には、表示制御部146は、ユーザによる発話音声の音源方向Duとは逆向きに第1の動きオブジェクトMuを表示オブジェクトSbに向かって移動させるとよい。図3に示した例では、ユーザの近隣に次々と出現した円形状のオブジェクトが、ユーザによる発話音声の音源方向Duとは逆向きに移動し、表示オブジェクトSbに到達すると消失する場合を想定しているが、第1の動きオブジェクトMuの動きは、かかる例に限定されない。例えば、表示制御部146は、入力音声に応じた所定の情報に基づいて第1の動きオブジェクトMuに関するパラメータを制御してよい。このときに用いられる入力音声は、ユーザによる発話音声の音源方向からの入力音声であるとよい。例えば、第1の動きオブジェクトに関するパラメータは、第1の動きオブジェクトMuのサイズ、形状、色および移動速度のうち、少なくともいずれか一つを含んでもよい。
また、入力音声に応じた所定の情報は、ユーザ発話音量、入力音声の周波数、認識文字列の取得速度、入力音声から抽出される特徴量および入力音声から識別されるユーザのうち、少なくともいずれか一つを含んでもよい。例えば、表示制御部146は、認識文字列の取得速度が高くなるほど、第1の動きオブジェクトMuの移動速度を高くしてもよい。また、表示制御部146は、認識文字列の取得速度が所定の速度を超えた場合には、第1の動きオブジェクトMuに所定の動き(例えば、表示オブジェクトSbに弾かれるような動き)を与えることによって音声認識が困難な状況をユーザに把握させてもよい。
なお、音声認識部145は、ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うことにより認識文字列を取得するのがよい。そうすれば、音声入力部120によって入力された音声に対して直接的に音声認識が行われる場合と比較して、ノイズの少ない音声に対して音声認識が行われるため、音声認識の精度が向上することが期待される。また、表示制御部146は、認識文字列を表示部130に表示させるのがよい。そうすれば、音声認識によって得られた認識文字列をユーザに把握させることが可能となる。
第1の動きオブジェクトMuの表示開始についてさらに説明する。図4は、第1の動きオブジェクトMuの表示開始を説明するための図である。図4に示すように、ノイズ音量およびユーザ発話音量が時間とともに変化した場合を想定する。図4に示したように、表示制御部146は、ユーザ発話音量が認識可能音量V_ableを超えた時点(あるいは、ユーザ発話音量が認識可能音量V_ableと等しくなった時点)において、第1の動きオブジェクトMuを表示部130に表示させ始めてよい。
[1.4.認識可能音量の設定]
続いて、認識可能音量について詳細に説明する。上記した認識可能音量は、常に一定とは限らずにノイズ音量に基づいて変化することが考えられる。図5〜図7は、認識可能音量について説明するための図である。例えば、図5に示すように、ノイズ音量平均値N_aveが所定の下限値(以下、「ノイズ音量下限値」とも言う。)N_minを下回る場合、認識可能音量V_ableは変化しないと考えられる。そこで、判定部144は、ノイズ音量平均値N_aveがノイズ音量下限値N_minを下回る場合、認識可能音量V_ableに規定値V_able_minを設定してよい。なお、ノイズ音量平均値N_aveの代わりにノイズ音量自体が用いられてもよい。
一方、例えば、図6に示すように、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合、認識可能音量V_ableはノイズ音量平均値N_aveに応じて変化すると考えられる。そこで、判定部144は、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合、認識可能音量V_ableに、ノイズ音量平均値N_aveに応じた音量(図6に示した例では、ノイズ音量平均値N_aveをV_ratio倍して得られる値)を設定してよい。なお、ノイズ音量平均値N_aveの代わりにノイズ音量自体が用いられてもよい。
図5および図6に示した例に基づいて、ノイズ音量平均値N_aveと認識可能音量V_ableとの関係を図示すると、図7に示す通りとなる。図7を参照すると、ノイズ音量平均値N_aveがノイズ音量下限値N_minを下回る場合には、認識可能音量V_ableに規定値V_able_minが設定されるが、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合には、認識可能音量V_ableにノイズ音量平均値N_aveをV_ratio倍して得られる値が設定されることが把握される。しかし、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合における認識可能音量V_ableの変化は、線形的な変化でなくてもよい。
なお、ノイズ音量平均値N_aveとノイズ音量下限値N_minとが等しい場合は、認識可能音量V_ableに規定値V_able_minが設定されてもよいし、認識可能音量V_ableに、ノイズ音量平均値N_aveに応じた音量が設定されてもよい。また、規定値V_able_min、ノイズ音量下限値N_min、V_ratioなどの値は、音声認識を行う製品の使用環境、ユースケースなどに応じて事前に設定されてもよいし、音声認識開始時などに行われるソフトウェアアップデートなどにより動的に更新されてもよい。
[1.5.第2の動きオブジェクトの表示]
上記のようにして第1の動きオブジェクトMuが表示されれば、音声認識が可能な音量で発話がなされていることをユーザに把握させることが可能となる。一方、音声認識が可能な音量で発話がなされていたとしても、ノイズによって音声認識が妨害される可能性もある。そこで、ノイズの存在をユーザに把握させることが有効である。図8は、表示部130によって表示される画面の他の例を示す図である。図8を参照すると、ノイズ音源Ns1、Ns2が存在している。ここでは、ノイズ音源が2つ存在する場合を説明するが、ノイズ音源の数は限定されない。
なお、図8においては、ノイズ音源Ns1、Ns2の例として、ユーザUとは別の2人の人物が示されているが、ノイズ音源の種類は人物以外の生物であってもよいし、生物以外(例えば、人工物など)であってもよい。かかる状況において、判定部144は、入力音声に基づいてノイズ音量を判定する。ここで、ノイズ音量の判定手法は特に限定されない。例えば、判定部144は、ノイズ音源方向Dn1、Dn2を推定し、ノイズ音源方向Dn1、Dn2から入力される音量をノイズ音量として判定してよい。なお、ノイズ音源方向Dn1、Dn2の推定手法も特に限定されない。
例えば、判定部144は、閾値を超える大きさの音量で入力された音声の到来方向が複数あった場合には、複数の到来方向のうち2番目以降に閾値を超える大きさの音量で入力された音声の到来方向をノイズ音源方向Dn1、Dn2として推定してもよい。あるいは、例えば、判定部144は、音声入力部120によって2番目以降に大きな音量で入力された音声の到来方向をノイズ音源方向Dn1、Dn2として推定してもよい。
そして、表示制御部146は、ノイズ音量が音声認識可能音量を超えている場合に、第1の動きオブジェクトMuとは異なる第2の動きオブジェクトMn1、Mn2を表示部130に表示させてよい。そうすれば、認識可能音量を超える音量を発するノイズが存在するか否かをユーザUに把握させることが可能となる。また、表示制御部146は、ノイズ音源方向に基づいて第2の動きオブジェクトMn1、Mn2を表示部130に表示させてもよい。そうすれば、認識可能音量を超える音量を発するノイズ音源の方向をユーザに把握させることが可能となる。
また、表示制御部146は、第2の動きオブジェクトMn1、Mn2を、表示オブジェクトSbへの移動がブロックされるように移動させてもよい。例えば、図8に示すように、表示制御部146は、第2の動きオブジェクトMn1、Mn2を、所定の範囲の外側には出ないように移動させてもよい。そうすれば、ユーザによる発話音声の音源方向からの入力音声に対して音声認識が行われている場合に、ノイズ音源方向Dn1、Dn2から発せられた音声に対する音声認識がなされていないことをより直感的にユーザに把握させることが可能となる。
図9は、第2の動きオブジェクトMn1、Mn2の表示開始を説明するための図である。図9に示すように、ノイズ音源Ns1から発せられる第1のノイズ音量、ノイズ音源Ns2から発せられる第2のノイズ音量およびユーザUによる発話音量が時間とともに変化した場合を想定する。このとき、表示制御部146は、第1のノイズ音量が認識可能音量V_ableを超えた時点(あるいは、第1のノイズ音量が認識可能音量V_ableと等しくなった時点)において、第2の動きオブジェクトMn1を表示部130に表示させてよい。また、表示制御部146は、第2のノイズ音量が認識可能音量V_ableを超えた時点(あるいは、第2のノイズ音量が認識可能音量V_ableと等しくなった時点)において、第2の動きオブジェクトMn2を表示部130に表示させてよい。第1の動きオブジェクトMuの表示開始については既に説明した通りである。
[1.6.動作例]
続いて、本開示の実施形態に係る情報処理システム10の動作の流れについて説明する。図10Aおよび図10Bは、本開示の実施形態に係る情報処理システム10の動作の流れの例を示すフローチャートである。なお、図10Aおよび図10Bのフローチャートは、本開示の実施形態に係る情報処理システム10の動作の流れの例に過ぎないため、本開示の実施形態に係る情報処理システム10の動作の流れは、図10Aおよび図10Bのフローチャートに示された例に限定されない。
まず、入力画像取得部141は、画像入力部110によって入力された入力画像を取得する(S11)。また、入力音声取得部142は、音声入力部120によって入力された入力音声を取得する(S12)。続いて、情報処理装置140は、入力画像および入力音声に基づいてユーザ発話音声の音源方向を特定不可能である場合には(S13において「No」)、S11およびS12に動作を移行させるが、入力画像および入力音声に基づいてユーザ発話音声の音源方向を特定可能である場合には(S13において「Yes」)、S14に動作を移行させる。
続いて、判定部144は、ユーザ発話音声の音源方向とユーザ発話音量とを判定し(S14)、ノイズ音源の方向とノイズ音量とを判定する(S15)。続いて、判定部144は、ノイズ音量がノイズ音量下限値N_minを上回る場合(S16において「No」)、認識可能音量V_ableにノイズ音量平均値N_aveをV_ratio倍して得られる値を設定して(S17)、S19に動作を移行させる。一方、判定部144は、ノイズ音量がノイズ音量下限値N_minを下回る場合(S16において「Yes」)、認識可能音量V_ableに規定値V_able_minを設定して(S18)、S19に動作を移行させる。
続いて、情報処理装置140は、ユーザ発話音量が認識可能音量V_ableを上回る場合(S19において「No」)、S24に動作を移行させる。一方、音声認識部145は、ユーザ発話音量が認識可能音量V_ableを上回る場合(S19において「Yes」)、入力音声から音声認識を行う。このとき、音声認識部145は、ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うのがよい。
続いて、表示制御部146は、ユーザ発話音声の音源方向に応じた第1の動きオブジェクトMuを表示部130に表示させる(S21)。そして、表示制御部146は、認識可能音量V_ableを上回るノイズ音量を発するノイズ音源が存在する場合には(S22において「Yes」)、ノイズ音源の方向に応じた第2の動きオブジェクトを表示部130に表示させ(S23)、動作をS13に移行させる。一方、情報処理装置140は、認識可能音量V_ableを上回るノイズ音量を発するノイズ音源が存在しない場合には(S22において「No」)、S24に動作を移行させる。S24に動作が移行されると、情報処理装置140は、次時間単位の入力画像および入力音声を入力画像取得部141および入力音声取得部142に取得させ(S24)、動作をS13に移行させる。
[1.7.表示形態の変形例]
上記においては、表示部130がテーブルTblの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、表示部130による表示形態は、かかる例に限定されない。以下では、表示部130による表示形態の変形例について説明する。図11は、表示部130による表示形態の変形例1を示す図である。図11に示すように、情報処理システム10が携帯端末である場合に、表示部130は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。
また、図12は、表示部130による表示形態の変形例2を示す図である。図12に示すように、情報処理システム10がテレビジョン受像機を含んでいる場合に、表示部130は、テレビジョン受像機に備わっていてもよい。このとき、図12に示すように、表示制御部146は、ユーザUによる発話音声の音源方向に基づいて第1の動きオブジェクトMuを表示部130に表示させ、ノイズ音源Nsの方向に基づいて第2の動きオブジェクトMnを表示部130に表示させてもよい。
図13は、表示部130による表示形態の変形例3を示す図である。図13に示すように、表示部130は、ヘッドマウントディスプレイであってもよい。かかる場合、図13に示すように、表示制御部146は、ヘッドマウントディスプレイが有するカメラによる撮像画像から表示オブジェクトSbに対応する物体Obを認識した場合に、表示オブジェクトSbを表示部130に表示させてもよい。例えば、表示制御部146は、物体Obの3次元位置および姿勢を認識し、認識した3次元位置および姿勢に従って表示オブジェクトSbをAR(augmented reality)空間に配置してよい。
第1の動きオブジェクトMuも、物体Obの3次元位置に基づいて移動されてよい。例えば、表示制御部146は、ユーザ発話音量が音声認識可能音量を超えている場合に、物体Obの3次元位置に向けて第1の動きオブジェクトMuをAR空間において移動させることによって、第1の動きオブジェクトMuが手前から奥に移動するように表示してもよい。なお、図13に示した例では、ユーザUの口がユーザによる発話音声の音源方向として推定されているため、ユーザの口の近隣から第1の動きオブジェクトMuが出現し、表示オブジェクトSbに移動している。
また、図13に示した例では、物体Obは照明器具であり、表示オブジェクトSbが表示されている状態で音声認識がなされると、情報処理装置140は、音声認識により得られた認識文字列に応じた動作(例えば、照明器具の電源ONとOFFとの間の切り替え)を物体Obに実行させることを想定している。しかし、物体Obは照明器具以外のいかなる物体であってよい。
図14は、表示部130による表示形態の変形例4を示す図である。図14に示すように、情報処理システム10が3次元立体視ディスプレイを含んでいる場合に、表示部130は、3次元立体視ディスプレイに備わっていてもよい。かかる場合、図14に示すように、表示制御部146は、ユーザ発話音量が音声認識可能音量を超えている場合に、手前から奥に移動するような表現を伴って表示オブジェクトSbに向かって移動する第1の動きオブジェクトMuを表示させてもよい。手前から奥に移動するような表現は、ユーザUの左右眼の視差を利用することによって実現され得る。
図14に示した例では、ユーザUに立体視用メガネLを着用させることによって手前から奥に移動するような表現を実現しているが、ユーザUに立体視用メガネLを着用させない裸眼立体視により手前から奥に移動するような表現を実現してもよい。例えば、図14に示すように、複数のオブジェクト(例えば、アプリケーションウィンドウなど)G1〜G8が表示部130によって表示されている場合であっても、オブジェクトG1に表示されている表示オブジェクトSbの奥行きに第1の動きオブジェクトMuの移動先の奥行きを合わせることによって、オブジェクトG1において音声認識が利用されていることをユーザUに把握させやすくなる。
図15は、表示部130による表示形態の変形例5を示す図である。図15に示すように、表示制御部146は、仮想オブジェクトVrを表示部130に表示させ、仮想オブジェクトVrに含まれる所定のオブジェクトを表示オブジェクトSbとして表示部130に表示させてもよい。図15に示した例では、仮想オブジェクトVrがゲームコントローラCrに対応しているが、仮想オブジェクトVrはゲームコントローラCr以外の物体に対応していてもよい。また、図15に示した例では、所定のオブジェクトがゲームコントローラCrに含まれるマイクMcに対応しているが、所定のオブジェクトは、マイクMcに限定されない。
このようにして仮想オブジェクトVrおよび表示オブジェクトSbが表示されれば、ユーザUは、表示部130によって表示されている第1の動きオブジェクトMuの移動先を見ることによって、自らの発話音声がどこに入力されるのかを容易に把握することが可能となる。また、このようにして仮想オブジェクトVrおよび表示オブジェクトSbが表示されれば、誤った位置(例えば、表示部130の位置)に向けて発話を行ってしまうといったユーザUの行為を防止することが可能となる。
[1.8.ハードウェア構成例]
次に、図16を参照して、本開示の実施形態に係る情報処理システム10のハードウェア構成について説明する。図16は、本開示の実施形態に係る情報処理システム10のハードウェア構成例を示すブロック図である。
図16に示すように、情報処理システム10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理システム10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理システム10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理システム10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理システム10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理システム10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro−Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917は、情報処理システム10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。
ストレージ装置919は、情報処理システム10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk
Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理システム10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
接続ポート923は、機器を情報処理システム10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High−Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理システム10と外部接続機器929との間で各種のデータが交換され得る。
通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
センサ935は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば情報処理システム10の筐体の姿勢など、情報処理システム10自体の状態に関する情報や、情報処理システム10の周辺の明るさや騒音など、情報処理システム10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
以上、情報処理システム10のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
<2.むすび>
以上説明したように、本開示の実施形態によれば、入力音声に基づいてユーザ発話音量を判定する判定部144と、表示オブジェクトSbが表示部130によって表示されるように表示部130を制御する表示制御部146と、を備え、表示制御部146は、ユーザ発話音量が音声認識可能音量を超えている場合に、表示オブジェクトSbに向かって移動する第1の動きオブジェクトを表示部130に表示させる、情報処理装置140が提供される。
かかる構成によれば、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能となる。例えば、音声認識が正しく行われない場合にユーザは、発話をどのように変化させればよいかを把握することが可能となる。また、その結果に基づいてユーザの発話が変化すれば、音声認識の成功率が向上することが期待される。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記においては、表示部130による表示形態の変形例を説明したが、表示部130による表示形態は、上記した例に限定されない。例えば、表示部130は、ヘッドマウントディスプレイ以外のウェアラブル端末(例えば、時計、眼鏡など)に備わるディスプレイであってもよい。また、例えば、表示部130は、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、表示部130は、ヘルスケア分野において利用されるディスプレイであってもよい。
また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した情報処理システム10が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
また、表示制御部146は、表示部130に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を表示部130に出力することで、当該表示内容が表示部130に表示されるように表示部130を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。
具体的な一例として、情報処理装置140を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。
なお、上述した情報処理システム10の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部110、操作入力部115および音声入力部120と表示部130と情報処理装置140とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置140が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部110、操作入力部115および音声入力部120と表示部130とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
入力音声に基づいてユーザ発話音量を判定する判定部と、
表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、
情報処理装置。
(2)
前記判定部は、ユーザによる発話音声の音源方向を判定し、
前記表示制御部は、前記ユーザによる発話音声の音源方向に基づいて前記第1の動きオブジェクトを前記表示部に表示させる、
前記(1)に記載の情報処理装置。
(3)
前記情報処理装置は、前記ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うことにより認識文字列を取得する音声認識部を備える、
前記(2)に記載の情報処理装置。
(4)
前記表示制御部は、前記認識文字列を前記表示部に表示させる、
前記(3)に記載の情報処理装置。
(5)
前記判定部は、前記入力音声に基づいてノイズ音量を判定し、
前記表示制御部は、前記ノイズ音量が前記音声認識可能音量を超えている場合に、前記第1の動きオブジェクトとは異なる第2の動きオブジェクトを前記表示部に表示させる、
前記(1)〜(4)のいずれか一項に記載の情報処理装置。
(6)
前記判定部は、ノイズ音源方向を判定し、
前記表示制御部は、前記ノイズ音源方向に基づいて前記第2の動きオブジェクトを前記表示部に表示させる、
前記(5)に記載の情報処理装置。
(7)
前記第2の動きオブジェクトは、前記表示オブジェクトへの移動がブロックされるように移動する、
前記(6)に記載の情報処理装置。
(8)
前記表示制御部は、前記入力音声に応じた所定の情報に基づいて前記第1の動きオブジェクトに関するパラメータを制御する、
前記(1)〜(7)のいずれか一項に記載の情報処理装置。
(9)
前記第1の動きオブジェクトに関するパラメータは、前記第1の動きオブジェクトのサイズ、形状、色および移動速度のうち、少なくともいずれか一つを含む、
前記(8)に記載の情報処理装置。
(10)
前記入力音声に応じた所定の情報は、前記ユーザ発話音量、前記入力音声の周波数、認識文字列の取得速度、前記入力音声から抽出される特徴量および前記入力音声から識別されるユーザのうち、少なくともいずれか一つを含む、
前記(8)または(9)に記載の情報処理装置。
(11)
前記判定部は、閾値を超える大きさの音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
前記(2)に記載の情報処理装置。
(12)
前記判定部は、最も大きな音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
前記(2)に記載の情報処理装置。
(13)
前記判定部は、指先から指の根元への方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
前記(2)に記載の情報処理装置。
(14)
前記判定部は、前記ノイズ音量が下限値を下回る場合には、前記音声認識可能音量に規定値を設定する、
前記(6)に記載の情報処理装置。
(15)
前記判定部は、前記ノイズ音量が下限値を上回る場合には、前記音声認識可能音量に前記ノイズ音量の平均値に応じた音量または前記ノイズ音量に応じた音量を設定する、
前記(6)に記載の情報処理装置。
(16)
前記表示制御部は、前記表示オブジェクトに対応する物体を撮像画像から認識した場合に、前記表示オブジェクトを前記表示部に表示させる、
前記(1)〜(15)のいずれか一項に記載の情報処理装置。
(17)
前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、手前から奥に移動するような表現を伴って前記表示オブジェクトに向かって移動する前記第1の動きオブジェクトを前記表示部に表示させる、
前記(1)〜(16)のいずれか一項に記載の情報処理装置。
(18)
前記表示制御部は、仮想オブジェクトを前記表示部に表示させ、前記仮想オブジェクトに含まれる所定のオブジェクトを前記表示オブジェクトとして前記表示部に表示させる、
前記(1)〜(17)のいずれか一項に記載の情報処理装置。
(19)
入力音声に基づいてユーザ発話音量を判定することと、
表示オブジェクトが表示部によって表示されるように前記表示部を制御することと、を含み、
前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させることを含む、
情報処理方法。
(20)
コンピュータを、
入力音声に基づいてユーザ発話音量を判定する判定部と、
表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、
情報処理装置として機能させるためのプログラム。
10 情報処理システム
110 画像入力部
115 操作入力部
120 音声入力部
130 表示部
140 情報処理装置(制御部)
141 入力画像取得部
142 入力音声取得部
143 操作検出部
144 判定部
145 音声認識部
146 表示制御部
Mu 第1の動きオブジェクト
Mn、Mn1、Mn2 第2の動きオブジェクト
Ns、Ns2、Ns1 ノイズ音源
Du ユーザによる発話音声の音源方向
Dn、Dn1、Dn2 ノイズ音源方向
Sb 表示オブジェクト

Claims (20)

  1. 入力音声に基づいてユーザ発話音量を判定する判定部と、
    表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
    前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、
    情報処理装置。
  2. 前記判定部は、ユーザによる発話音声の音源方向を判定し、
    前記表示制御部は、前記ユーザによる発話音声の音源方向に基づいて前記第1の動きオブジェクトを前記表示部に表示させる、
    請求項1に記載の情報処理装置。
  3. 前記情報処理装置は、前記ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うことにより認識文字列を取得する音声認識部を備える、
    請求項2に記載の情報処理装置。
  4. 前記表示制御部は、前記認識文字列を前記表示部に表示させる、
    請求項3に記載の情報処理装置。
  5. 前記判定部は、前記入力音声に基づいてノイズ音量を判定し、
    前記表示制御部は、前記ノイズ音量が前記音声認識可能音量を超えている場合に、前記第1の動きオブジェクトとは異なる第2の動きオブジェクトを前記表示部に表示させる、
    請求項1に記載の情報処理装置。
  6. 前記判定部は、ノイズ音源方向を判定し、
    前記表示制御部は、前記ノイズ音源方向に基づいて前記第2の動きオブジェクトを前記表示部に表示させる、
    請求項5に記載の情報処理装置。
  7. 前記第2の動きオブジェクトは、前記表示オブジェクトへの移動がブロックされるように移動する、
    請求項6に記載の情報処理装置。
  8. 前記表示制御部は、前記入力音声に応じた所定の情報に基づいて前記第1の動きオブジェクトに関するパラメータを制御する、
    請求項1に記載の情報処理装置。
  9. 前記第1の動きオブジェクトに関するパラメータは、前記第1の動きオブジェクトのサイズ、形状、色および移動速度のうち、少なくともいずれか一つを含む、
    請求項8に記載の情報処理装置。
  10. 前記入力音声に応じた所定の情報は、前記ユーザ発話音量、前記入力音声の周波数、認識文字列の取得速度、前記入力音声から抽出される特徴量および前記入力音声から識別されるユーザのうち、少なくともいずれか一つを含む、
    請求項8に記載の情報処理装置。
  11. 前記判定部は、閾値を超える大きさの音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
    請求項2に記載の情報処理装置。
  12. 前記判定部は、最も大きな音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
    請求項2に記載の情報処理装置。
  13. 前記判定部は、指先から指の根元への方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
    請求項2に記載の情報処理装置。
  14. 前記判定部は、前記ノイズ音量が下限値を下回る場合には、前記音声認識可能音量に規定値を設定する、
    請求項6に記載の情報処理装置。
  15. 前記判定部は、前記ノイズ音量が下限値を上回る場合には、前記音声認識可能音量に前記ノイズ音量の平均値に応じた音量または前記ノイズ音量に応じた音量を設定する、
    請求項6に記載の情報処理装置。
  16. 前記表示制御部は、前記表示オブジェクトに対応する物体を撮像画像から認識した場合に、前記表示オブジェクトを前記表示部に表示させる、
    請求項1に記載の情報処理装置。
  17. 前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、手前から奥に移動するような表現を伴って前記表示オブジェクトに向かって移動する前記第1の動きオブジェクトを前記表示部に表示させる、
    請求項1に記載の情報処理装置。
  18. 前記表示制御部は、仮想オブジェクトを前記表示部に表示させ、前記仮想オブジェクトに含まれる所定のオブジェクトを前記表示オブジェクトとして前記表示部に表示させる、
    請求項1に記載の情報処理装置。
  19. 入力音声に基づいてユーザ発話音量を判定することと、
    表示オブジェクトが表示部によって表示されるように前記表示部を制御することと、を含み、
    前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させることを含む、
    情報処理方法。
  20. コンピュータを、
    入力音声に基づいてユーザ発話音量を判定する判定部と、
    表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
    前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、
    情報処理装置として機能させるためのプログラム。
JP2016562324A 2014-12-02 2015-08-21 情報処理装置、情報処理方法およびプログラム Active JP6627775B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014243906 2014-12-02
JP2014243906 2014-12-02
PCT/JP2015/073488 WO2016088410A1 (ja) 2014-12-02 2015-08-21 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2016088410A1 true JPWO2016088410A1 (ja) 2017-09-14
JP6627775B2 JP6627775B2 (ja) 2020-01-08

Family

ID=56091368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016562324A Active JP6627775B2 (ja) 2014-12-02 2015-08-21 情報処理装置、情報処理方法およびプログラム

Country Status (5)

Country Link
US (1) US10642575B2 (ja)
EP (1) EP3229128A4 (ja)
JP (1) JP6627775B2 (ja)
CN (1) CN107148614B (ja)
WO (1) WO2016088410A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019146032A1 (ja) * 2018-01-25 2019-08-01 三菱電機株式会社 ジェスチャー操作装置およびジェスチャー操作方法
JP7250547B2 (ja) * 2019-02-05 2023-04-03 本田技研工業株式会社 エージェントシステム、情報処理装置、情報処理方法、およびプログラム
JP7169921B2 (ja) * 2019-03-27 2022-11-11 本田技研工業株式会社 エージェント装置、エージェントシステム、エージェント装置の制御方法、およびプログラム
CN111265851B (zh) * 2020-02-05 2023-07-04 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN113934289A (zh) * 2020-06-29 2022-01-14 北京字节跳动网络技术有限公司 数据处理方法、装置、可读介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11352995A (ja) * 1998-06-08 1999-12-24 Toshiba Tec Corp 音声認識装置
JP2000000377A (ja) * 1998-06-12 2000-01-07 Umbrella:Kk 音声入力式ヒューマンインタフェースに特徴を有するビデオゲーム機およびプログラム記録媒体
JP2001079265A (ja) * 1999-09-14 2001-03-27 Sega Corp ゲーム装置
JP2006227499A (ja) * 2005-02-21 2006-08-31 Toyota Motor Corp 音声認識装置
JP2007329702A (ja) * 2006-06-08 2007-12-20 Toyota Motor Corp 受音装置と音声認識装置とそれらを搭載している可動体
JP2011227199A (ja) * 2010-04-16 2011-11-10 Nec Casio Mobile Communications Ltd 雑音抑圧装置、雑音抑圧方法及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7096185B2 (en) * 2000-03-31 2006-08-22 United Video Properties, Inc. User speech interfaces for interactive media guidance applications
US7023498B2 (en) * 2001-11-19 2006-04-04 Matsushita Electric Industrial Co. Ltd. Remote-controlled apparatus, a remote control system, and a remote-controlled image-processing apparatus
US7260538B2 (en) * 2002-01-08 2007-08-21 Promptu Systems Corporation Method and apparatus for voice control of a television control device
JP2007142840A (ja) * 2005-11-18 2007-06-07 Canon Inc 情報処理装置及び情報処理方法
JP4887911B2 (ja) * 2006-05-31 2012-02-29 船井電機株式会社 電子機器
US8175885B2 (en) * 2007-07-23 2012-05-08 Verizon Patent And Licensing Inc. Controlling a set-top box via remote speech recognition
WO2012169679A1 (ko) 2011-06-10 2012-12-13 엘지전자 주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템
US9563265B2 (en) 2012-01-12 2017-02-07 Qualcomm Incorporated Augmented reality with sound and geometric analysis
US8793136B2 (en) * 2012-02-17 2014-07-29 Lg Electronics Inc. Method and apparatus for smart voice recognition
US9020825B1 (en) * 2012-09-25 2015-04-28 Rawles Llc Voice gestures
CN108491182A (zh) 2013-03-29 2018-09-04 联想(北京)有限公司 一种信息处理方法以及一种电子设备
JP2014203207A (ja) 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11352995A (ja) * 1998-06-08 1999-12-24 Toshiba Tec Corp 音声認識装置
JP2000000377A (ja) * 1998-06-12 2000-01-07 Umbrella:Kk 音声入力式ヒューマンインタフェースに特徴を有するビデオゲーム機およびプログラム記録媒体
JP2001079265A (ja) * 1999-09-14 2001-03-27 Sega Corp ゲーム装置
JP2006227499A (ja) * 2005-02-21 2006-08-31 Toyota Motor Corp 音声認識装置
JP2007329702A (ja) * 2006-06-08 2007-12-20 Toyota Motor Corp 受音装置と音声認識装置とそれらを搭載している可動体
JP2011227199A (ja) * 2010-04-16 2011-11-10 Nec Casio Mobile Communications Ltd 雑音抑圧装置、雑音抑圧方法及びプログラム

Also Published As

Publication number Publication date
EP3229128A4 (en) 2018-05-30
WO2016088410A1 (ja) 2016-06-09
US20180150279A1 (en) 2018-05-31
US10642575B2 (en) 2020-05-05
CN107148614A (zh) 2017-09-08
CN107148614B (zh) 2020-09-08
JP6627775B2 (ja) 2020-01-08
EP3229128A1 (en) 2017-10-11

Similar Documents

Publication Publication Date Title
US10546582B2 (en) Information processing device, method of information processing, and program
JP6729555B2 (ja) 情報処理システムおよび情報処理方法
JP6627775B2 (ja) 情報処理装置、情報処理方法およびプログラム
US11373650B2 (en) Information processing device and information processing method
US10962738B2 (en) Information processing apparatus and information processing method to calibrate line-of-sight of a user
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6575518B2 (ja) 表示制御装置、表示制御方法およびプログラム
US20180063283A1 (en) Information processing apparatus, information processing method, and program
JP2016109726A (ja) 情報処理装置、情報処理方法およびプログラム
WO2019021566A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
WO2019054037A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2016180778A (ja) 情報処理システムおよび情報処理方法
US20200342229A1 (en) Information processing device, information processing method, and program
WO2019187593A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2016170584A (ja) 情報処理装置、情報処理方法およびプログラム
JP7078036B2 (ja) 情報処理装置、情報処理方法およびプログラム
US10855639B2 (en) Information processing apparatus and information processing method for selection of a target user
WO2019026392A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180625

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190416

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190425

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191118

R151 Written notification of patent or utility model registration

Ref document number: 6627775

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151