JPWO2018116556A1 - 情報処理装置、および情報処理方法 - Google Patents
情報処理装置、および情報処理方法 Download PDFInfo
- Publication number
- JPWO2018116556A1 JPWO2018116556A1 JP2018557542A JP2018557542A JPWO2018116556A1 JP WO2018116556 A1 JPWO2018116556 A1 JP WO2018116556A1 JP 2018557542 A JP2018557542 A JP 2018557542A JP 2018557542 A JP2018557542 A JP 2018557542A JP WO2018116556 A1 JPWO2018116556 A1 JP WO2018116556A1
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- utterance
- recognition
- visual effect
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 167
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 230000000007 visual effect Effects 0.000 claims abstract description 142
- 230000008859 change Effects 0.000 claims description 21
- 230000004424 eye movement Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 37
- 238000004891 communication Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 9
- 230000008451 emotion Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 230000033001 locomotion Effects 0.000 description 8
- 238000000034 method Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000015541 sensory perception of touch Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010422 painting Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000012447 hatching Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 206010049976 Impatience Diseases 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035900 sweating Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
1.実施形態
1.1.実施形態の概要
1.2.システム構成例
1.3.情報処理端末10の機能構成例
1.4.情報処理サーバ20の機能構成例
1.5.出力制御部130による出力制御の詳細
1.6.情報処理端末10の動作の流れ
2.ハードウェア構成例
3.まとめ
<<1.1.実施形態の概要>>
まず、本開示に係る一実施形態の概要について説明する。上述したとおり、近年においては、種々の認識技術に基づく動作を行う種々の装置が開発されている。また、認識アプリケーションに係るユーザインタフェースも多く存在する。しかし、上記のようなユーザインタフェースでは、多くの場合、認識結果が入力される入力領域と認識の状態を示すオブジェクトとが異なる場所に配置されている。上記のようなオブジェクトには、例えば、認識が開始状態にあることを示すオブジェクトや、ユーザの発話音量などに対するフィードバックを示すオブジェクトなどが含まれ得る。
次に、本実施形態に係る情報処理システムのシステム構成例について説明する。図2は、本実施形態に係る情報処理システムの構成例を示す図である。図2を参照すると、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10および情報処理サーバ20は、互いに通信が行えるようにネットワーク30を介して接続される。
本実施形態に係る情報処理端末10は、認識アプリケーションに係るユーザインタフェースをユーザに提供する情報処理装置である。このため、本実施形態に係る情報処理端末10は、ユーザに係る情報を検出する入力機能と、ユーザインタフェースを出力するための出力機能とを有する。さらには、本実施形態に係る情報処理端末10は、ユーザの行動や状態、入力操作に基づいて、ユーザインタフェースの表示に係る種々の制御を行う機能を有する。この際、本実施形態に係る情報処理端末10は、ユーザインタフェース上において、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させることを特徴の一つとする。本実施形態に係る情報処理端末10は、例えば、スマートフォン、タブレット、携帯電話、PC(Personal Computer)、ウェアラブルデバイス、ゲーム機などの各種のエージェントであり得る。
本実施形態に係る情報処理サーバ20は、情報処理端末10により入力されたユーザの情報に基づいて認識処理を行う情報処理装置である。また、本実施形態に係る情報処理サーバ20は、情報処理端末10から送信されるユーザの発話情報に基づいて、ユーザの発話の長さを算出する機能を有する。
ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP−VPN(Internt Protocol−Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi−Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図3は、本実施形態に係る情報処理端末10の機能ブロック図の一例である。図3を参照すると、本実施形態に係る情報処理端末10は、入力部110、出力部120、出力制御部130、およびサーバ通信部140を備える。
本実施形態に係る入力部110は、認識アプリケーションに用いられる種々の情報入力を受け付ける機能を有する。このために、本実施形態に係る入力部110は、入力部110は、音声入力部112、操作入力部114、およびセンサ部116を含んで構成される。
本実施形態に係る音声入力部112は、ユーザの発話を検出する機能を有する。このために、本実施形態に係る音声入力部112は、マイクロフォンなどの音声検出デバイスを含んで構成される。
本実施形態に係る操作入力部114は、ユーザによる種々の入力操作を検出する機能を有する。操作入力部114は、例えば、ユーザによる音声認識の開始操作やキャレットの移動操作、文字列の削除操作などを検出することができる。このために、本実施形態に係る操作入力部114は、マウス、キーボード、コントローラ、タッチパネル、各種のボタンなどを含んで構成される。
本実施形態に係るセンサ部116は、認識アプリケーションを利用するユーザに係る種々の情報を収集する機能を有する。センサ部116は、例えば、ユーザの唇や視線の動き、ジェスチャを含む行動に係る情報などを収集することができる。このために、本実施形態に係るセンサ部116は、撮像センサや赤外線センサなどを含んで構成される。また、センサ部116は、ユーザの生体情報を収集してよい。上記の生体情報には、例えば、心拍、脈拍、血圧、顔面温度、体温、表情、脳波、呼吸、眼球運動などが含まれ得る。このため、本実施形態に係るセンサ部116は、上記の生体情報を収集するための各種の生体センサを含んで構成されてよい。
本実施形態に係る出力部120は、出力制御部130による制御に基づいて、ユーザに対し様々な情報提示を行う機能を有する。このために、本実施形態に係る出力部120は、表示部122、音声出力部124、および触覚提示部126を含んで構成される。
本実施形態に係る表示部122は、出力制御部130による制御に基づいて、ユーザに視覚情報を提示する機能を有する。特に、本実施形態に係る表示部122は、認識アプリケーションに係るユーザインタフェースを表示してよい。このために、本実施形態に係る表示部122は、視覚情報を提示する表示デバイスを含んで構成される。上記の表示デバイスには、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。
本実施形態に係る音声出力部124は、出力制御部130による制御に基づいて、ユーザに聴覚情報を提示する機能を有する。音声出力部124は、例えば、認識結果を人工音声により読み上げたり、認識アプリケーションにより提供される各種の効果音などを出力したりすることができる。このために、本実施形態に係る音声出力部124は、アンプやスピーカなどを含んで構成される。
本実施形態に係る触覚提示部126は、出力制御部130による制御に基づいて、ユーザに触覚情報を提示する機能を有する。触覚提示部126は、例えば、音声出力部124による聴覚情報と共に振動などを出力してもよい。このために、本実施形態に係る触覚提示部126は、例えば、LRA(Linear Resonant Actuator:リニア・バイブレータ)、ピエゾ素子、偏心モーターなどの振動デバイスや当該振動デバイスを駆動するIC(Integrated Circuit)を含んで構成され得る。
本実施形態に係る出力制御部130は、出力部120による各種の情報出力を制御する機能を有する。特に、本実施形態に係る出力制御部130は、認識アプリケーションに係るユーザインタフェースの表示を制御してよい。この際、本実施形態に係る出力制御部130は、上記のユーザインタフェース上において認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させることができる。
本実施形態に係るサーバ通信部140は、ネットワーク30を介して情報処理サーバ20との情報通信を行う機能を有する。具体的には、本実施形態に係るサーバ通信部140は、音声入力部112が検出したユーザの発話に係る情報やセンサ部116が収集した種々のセンサ情報を情報処理サーバ20に送信する。また、サーバ通信部140は、上記の発話やセンサ情報に対する認識結果を情報処理サーバ20から受信する。また、サーバ通信部140は、情報処理サーバ20が算出したユーザの発話の長さに係る情報を受信する。
次に、本実施形態に係る情報処理サーバ20の機能構成例について説明する。図4は、本実施形態に係る情報処理サーバ20の機能ブロック図の一例である。図4を参照すると、本実施形態に係る情報処理サーバ20は、認識部210、発話長推定部220、および端末通信部230を備える。
本実施形態に係る認識部210は、情報処理端末10により送信されるユーザの発話情報に基づいて音声認識を行う機能を有する。具体的には、認識部210は、上記の発話情報に含まれる音声信号を文字列情報に変換してよい。また、上述したとおり、本実施形態に係る認識部210は、音声認識以外の認識や推定を行ってもよい。本実施形態に係る認識部210は、例えば、ユーザの唇の動きから発話内容を推定し文字列化を行う唇認識(Lip reading)などを行ってもよい。この場合、認識部210は、情報処理端末10のセンサ部116が撮像した画像情報に基づいて上記の処理を行うことができる。
本実施形態に係る発話長推定部220は、情報処理端末10により送信されるユーザの発話情報に基づいて、ユーザの発話の長さを算出する機能を有する。この際、本実施形態に係る発話長推定部220は、例えば、上記の発話情報に基づいて発話区間を検出し、当該発話区間における発話音量からユーザの発話の長さを算出してもよい。
本実施形態に係る端末通信部230は、ネットワーク30を介して情報処理端末10との情報通信を行う機能を有する。具体的には、本実施形態に係る端末通信部230は、情報処理端末10の音声入力部112が検出したユーザの発話や、センサ部116が検出したセンサ情報を受信する。また、端末通信部230は、認識部210による認識結果と発話長推定部220により算出される発話の長さに係る情報を情報処理端末10に送信する。
次に、本実施形態に係る情報処理端末10の出力制御部130による出力制御の詳細について説明する。以下では、本実施形態に係る認識部210が音声認識を行う場合を例に説明する。この際、本実施形態に係る出力制御部130は、音声認識アプリケーションに係るユーザインタフェース上において、音声認識結果が入力される入力領域に、音声認識に係る状態を示す種々の視覚効果を出力させることができる。以下、出力制御部130により制御される上記の視覚効果について、具体例を挙げながら説明する。
まず、本実施形態に係る出力制御部130による音声認識の可否に係る状態を示す視覚効果の制御について詳細に説明する。本実施形態に係る出力制御部130は、音声認識の可否に係る状態を示す様々な視覚効果を出力させることができる。より具体的には、本実施形態に係る出力制御部130は、音声認識が可能な状態であることを示す視覚効果を出力させてよい。本実施形態に係る出力制御部130が有する上記の機能によれば、ユーザが入力領域を注視しながらも、音声認識が可能な状態であることを直観的に知覚することが可能となり、誤操作などを効果的に防止することができる。
次に、本実施形態に係る出力制御部130による発話に対するフィードバックを示す視覚効果の制御について詳細に説明する。本実施形態に係る出力制御部130は、入力中の発話に対するフィードバックを示す様々な視覚効果を出力させることができる。特に、本実施形態に係る出力制御部130は、発話の長さや発話音量に係るフィードバックを、音声認識結果が入力される入力領域に表示させてよい。本実施形態に係る出力制御部130が有する上記の機能によれば、ユーザが入力領域を注視しながらも、自身の発話に対するフィードバックを直観的に把握することが可能となり、音声認識精度を効果的に向上させることができる。
次に、本実施形態に係る音声認識結果と共に表示される視覚効果の制御について詳細に説明する。本実施形態に係る出力制御部130は、声認識結果と共に発話に対するフィードバックに係る視覚効果を出力させることができる。特に、本実施形態に係る出力制御部130は、音声認識結果と共に発話の長さが不十分であることを示す視覚効果を表示させてよい。本実施形態に係る出力制御部130が有する上記の機能によれば、ユーザが発話の長さと認識精度の関係を直観的に把握することができ、今後の発話に活かすことが可能となる。
次に、本実施形態に係る情報処理端末10の動作の流れについて詳細に説明する。図9は、情報処理端末10の動作の流れを示すフローチャートである。なお、図9には、本実施形態に係る情報処理サーバ20が音声認識を行う場合における情報処理端末10の動作の流れが示されている。
次に、本開示に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図10は、本開示に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図10を参照すると、情報処理端末10および情報処理サーバ20は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
リムーバブル記録媒体901は、例えば、DVDメディア、Blu−ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
以上説明したように、本開示に係る出力制御部130は、認識に係る状態を示す種々の視覚効果を、認識結果が入力される入力領域に表示させることができる。より具体的には、本開示に係る出力制御部130は、認識が可能な状態であることを示す視覚効果を上記の入力領域に表示させることができる。また、本開示に係る出力制御部130は、発話の長さや発話音量に対するフィードバックを示す視覚効果を上記の入力領域に表示させることができる。係る構成によれば、認識アプリケーションに係るユーザインタフェースにおいて、視線移動の負荷を軽減することが可能となる。
(1)
認識アプリケーションに係るユーザインタフェースの表示を制御する出力制御部、
を備え、
前記出力制御部は、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させる、
情報処理装置。
(2)
前記視覚効果は、前記入力領域内に表示される表示オブジェクトを含む、
前記(1)に記載の情報処理装置。
(3)
前記表示オブジェクトは、前記入力領域において前記認識結果の入力位置を示す位置表示オブジェクトを含む、
前記(2)に記載の情報処理装置。
(4)
前記視覚効果は、前記入力領域の背景に係る視覚効果を含む、
前記(1)〜(3)のいずれかに記載の情報処理装置。
(5)
前記視覚効果は、前記入力領域の領域枠に係る視覚効果を含む、
前記(1)〜(4)のいずれかに記載の情報処理装置。
(6)
前記視覚効果は、前記認識結果に対応する文字列に係る視覚効果を含む、
前記(1)〜(5)のいずれかに記載の情報処理装置。
(7)
前記出力制御部は、前記認識に係る状態に基づいて、前記視覚効果を変化させる、
前記(1)〜(6)のいずれかに記載の情報処理装置。
(8)
前記出力制御部は、前記認識に係る状態に基づいて、形状、大きさ、または色のうち少なくともいずれかの変化を伴う視覚効果を表示させる、
前記(1)〜(7)のいずれかに記載の情報処理装置。
(9)
前記認識に係る状態は、発話に対するフィードバックを含む、
前記(1)〜(8)のいずれかに記載の情報処理装置。
(10)
前記発話に対するフィードバックは、入力中の発話に対するフィードバックを含む、
前記(9)に記載の情報処理装置。
(11)
前記発話に対するフィードバックは、前記発話の長さに対するフィードバックを含む、
前記(9)または(10)に記載の情報処理装置。
(12)
前記出力制御部は、前記発話の長さに基づいて前記視覚効果を変化させる、
前記(11)に記載の情報処理装置。
(13)
前記出力制御部は、前記発話の長さが不十分であることを示す視覚効果を表示させる、
前記(11)または(12)に記載の情報処理装置。
(14)
前記出力制御部は、発話区間における発話音量から算出された前記発話の長さに基づいて、前記視覚効果を出力させる、
前記(11)〜(13)のいずれかに記載の情報処理装置。
(15)
前記出力制御部は、前記認識結果と共に前記発話に対するフィードバックに係る視覚効果を出力させる、
前記(9)〜(13)のいずれかに記載の情報処理装置。
(16)
前記出力制御部は、前記認識結果と共に前記発話の長さが不十分であることを示す視覚効果を表示させる、
前記(9)〜(14)のいずれかに記載の情報処理装置。
(17)
前記認識に係る状態は、認識の可否に係る状態を含む、
前記(1)〜(16)のいずれかに記載の情報処理装置。
(18)
前記出力制御部は、認識が可能な状態であることを示す視覚効果を表示させる、
前記(17)に記載の情報処理装置。
(19)
ユーザの発話を検出する入力部、
をさらに備える、
前記(1)〜(18)のいずれかに記載の情報処理装置。
(20)
プロセッサが、認識アプリケーションに係るユーザインタフェースの表示を制御すること、
を含み、
前記表示を制御することは、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させること、をさらに含む、
情報処理方法。
110 入力部
112 音声入力部
114 操作入力部
116 センサ部
120 出力部
122 表示部
124 音声出力部
126 触覚提示部
130 出力制御部
140 サーバ通信部
20 情報処理サーバ
210 認識部
220 発話長推定部
230 端末通信部
Claims (20)
- 認識アプリケーションに係るユーザインタフェースの表示を制御する出力制御部、
を備え、
前記出力制御部は、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させる、
情報処理装置。 - 前記視覚効果は、前記入力領域内に表示される表示オブジェクトを含む、
請求項1に記載の情報処理装置。 - 前記表示オブジェクトは、前記入力領域において前記認識結果の入力位置を示す位置表示オブジェクトを含む、
請求項2に記載の情報処理装置。 - 前記視覚効果は、前記入力領域の背景に係る視覚効果を含む、
請求項1に記載の情報処理装置。 - 前記視覚効果は、前記入力領域の領域枠に係る視覚効果を含む、
請求項1に記載に情報処理装置。 - 前記視覚効果は、前記認識結果に対応する文字列に係る視覚効果を含む、
請求項1に記載の情報処理装置。 - 前記出力制御部は、前記認識に係る状態に基づいて、前記視覚効果を変化させる、
請求項1に記載の情報処理装置。 - 前記出力制御部は、前記認識に係る状態に基づいて、形状、大きさ、または色のうち少なくともいずれかの変化を伴う視覚効果を表示させる、
請求項1に記載の情報処理装置。 - 前記認識に係る状態は、発話に対するフィードバックを含む、
請求項1に記載の情報処理装置。 - 前記発話に対するフィードバックは、入力中の発話に対するフィードバックを含む、
請求項9に記載の情報処理装置。 - 前記発話に対するフィードバックは、前記発話の長さに対するフィードバックを含む、
請求項9に記載の情報処理装置。 - 前記出力制御部は、前記発話の長さに基づいて前記視覚効果を変化させる、
請求項11に記載の情報処理装置。 - 前記出力制御部は、前記発話の長さが不十分であることを示す視覚効果を表示させる、
請求項11に記載の情報処理装置。 - 前記出力制御部は、発話区間における発話音量から算出された前記発話の長さに基づいて、前記視覚効果を出力させる、
請求項11に記載の情報処理装置。 - 前記出力制御部は、前記認識結果と共に前記発話に対するフィードバックに係る視覚効果を出力させる、
請求項9に記載の情報処理装置。 - 前記出力制御部は、前記認識結果と共に前記発話の長さが不十分であることを示す視覚効果を表示させる、
請求項9に記載の情報処理装置。 - 前記認識に係る状態は、認識の可否に係る状態を含む、
請求項1に記載の情報処理装置。 - 前記出力制御部は、認識が可能な状態であることを示す視覚効果を表示させる、
請求項17に記載の情報処理装置。 - ユーザの発話を検出する入力部、
をさらに備える、
請求項1に記載の情報処理装置。 - プロセッサが、認識アプリケーションに係るユーザインタフェースの表示を制御すること、
を含み、
前記表示を制御することは、認識結果が入力される入力領域に、認識に係る状態を示す視覚効果を出力させること、をさらに含む、
情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016249485 | 2016-12-22 | ||
JP2016249485 | 2016-12-22 | ||
PCT/JP2017/034090 WO2018116556A1 (ja) | 2016-12-22 | 2017-09-21 | 情報処理装置、および情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018116556A1 true JPWO2018116556A1 (ja) | 2019-10-31 |
JP6969576B2 JP6969576B2 (ja) | 2021-11-24 |
Family
ID=62627264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018557542A Active JP6969576B2 (ja) | 2016-12-22 | 2017-09-21 | 情報処理装置、および情報処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11183189B2 (ja) |
EP (1) | EP3561653A4 (ja) |
JP (1) | JP6969576B2 (ja) |
WO (1) | WO2018116556A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022036352A (ja) | 2018-12-27 | 2022-03-08 | ソニーグループ株式会社 | 表示制御装置、及び表示制御方法 |
KR102330496B1 (ko) * | 2019-08-20 | 2021-11-24 | 주식회사 포켓메모리 | 음성인식 방법 및 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001166860A (ja) * | 1999-12-07 | 2001-06-22 | Canon Inc | 情報処理装置、カーソル表示方法、及び記憶媒体 |
JP2002116792A (ja) * | 2000-10-11 | 2002-04-19 | Sony Corp | ロボット制御装置およびロボット制御方法、並びに記録媒体 |
JP2014203207A (ja) * | 2013-04-03 | 2014-10-27 | ソニー株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
WO2016103988A1 (ja) * | 2014-12-26 | 2016-06-30 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6075534A (en) | 1998-03-26 | 2000-06-13 | International Business Machines Corporation | Multiple function graphical user interface minibar for speech recognition |
US6965863B1 (en) * | 1998-11-12 | 2005-11-15 | Microsoft Corporation | Speech recognition user interface |
US8214214B2 (en) * | 2004-12-03 | 2012-07-03 | Phoenix Solutions, Inc. | Emotion detection device and method for use in distributed systems |
US20120089392A1 (en) * | 2010-10-07 | 2012-04-12 | Microsoft Corporation | Speech recognition user interface |
JP5790238B2 (ja) * | 2011-07-22 | 2015-10-07 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
US9721587B2 (en) * | 2013-01-24 | 2017-08-01 | Microsoft Technology Licensing, Llc | Visual feedback for speech recognition system |
US20140337788A1 (en) * | 2013-05-08 | 2014-11-13 | Tencent Technology (Shenzhen) Company Limited | Method and device for text message input |
WO2015059976A1 (ja) | 2013-10-24 | 2015-04-30 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9430186B2 (en) * | 2014-03-17 | 2016-08-30 | Google Inc | Visual indication of a recognized voice-initiated action |
US20160163331A1 (en) * | 2014-12-04 | 2016-06-09 | Kabushiki Kaisha Toshiba | Electronic device and method for visualizing audio data |
-
2017
- 2017-09-21 JP JP2018557542A patent/JP6969576B2/ja active Active
- 2017-09-21 US US16/463,178 patent/US11183189B2/en active Active
- 2017-09-21 WO PCT/JP2017/034090 patent/WO2018116556A1/ja unknown
- 2017-09-21 EP EP17884583.0A patent/EP3561653A4/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001166860A (ja) * | 1999-12-07 | 2001-06-22 | Canon Inc | 情報処理装置、カーソル表示方法、及び記憶媒体 |
JP2002116792A (ja) * | 2000-10-11 | 2002-04-19 | Sony Corp | ロボット制御装置およびロボット制御方法、並びに記録媒体 |
JP2014203207A (ja) * | 2013-04-03 | 2014-10-27 | ソニー株式会社 | 情報処理装置、情報処理方法及びコンピュータプログラム |
WO2016103988A1 (ja) * | 2014-12-26 | 2016-06-30 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2018116556A1 (ja) | 2018-06-28 |
EP3561653A4 (en) | 2019-11-20 |
US11183189B2 (en) | 2021-11-23 |
US20200066269A1 (en) | 2020-02-27 |
JP6969576B2 (ja) | 2021-11-24 |
EP3561653A1 (en) | 2019-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8903176B2 (en) | Systems and methods using observed emotional data | |
CN110598576B (zh) | 一种手语交互方法、装置及计算机介质 | |
JP6760271B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2017130486A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP6841239B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113678133A (zh) | 用于对话中断检测的具有全局和局部编码的上下文丰富的注意记忆网络的系统和方法 | |
JP6897677B2 (ja) | 情報処理装置及び情報処理方法 | |
JP2017525002A (ja) | 改善された音声認識を容易にする視覚的コンテンツの修正 | |
JP7405093B2 (ja) | 情報処理装置および情報処理方法 | |
KR20200059112A (ko) | 로봇 상호작용 시스템 및 그를 위한 프로그램 | |
JP6969576B2 (ja) | 情報処理装置、および情報処理方法 | |
WO2018105373A1 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
US20200234187A1 (en) | Information processing apparatus, information processing method, and program | |
WO2018198447A1 (ja) | 情報処理装置および情報処理方法 | |
JP7468360B2 (ja) | 情報処理装置および情報処理方法 | |
WO2018061346A1 (ja) | 情報処理装置 | |
Goetze et al. | Multimodal human-machine interaction for service robots in home-care environments | |
WO2019142420A1 (ja) | 情報処理装置および情報処理方法 | |
WO2023188904A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2019054009A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20240179113A1 (en) | Methods and devices for communication with multimodal compositions | |
JP6897678B2 (ja) | 情報処理装置及び情報処理方法 | |
JP2021136547A (ja) | 制御装置、制御方法、オペレーターの提示装置、オペレーターへの提示方法、ユーザーの提示装置、ユーザーへの提示方法、プログラム及び通信システム | |
JP2022052816A (ja) | 制御装置、制御方法、オペレーターの提示装置、オペレーターへの提示方法、ユーザーの提示装置、ユーザーへの提示方法、プログラム及び通信システム | |
CN118251878A (zh) | 使用多模态合成进行通信的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200708 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210928 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211011 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6969576 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |