WO2019142420A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2019142420A1
WO2019142420A1 PCT/JP2018/038757 JP2018038757W WO2019142420A1 WO 2019142420 A1 WO2019142420 A1 WO 2019142420A1 JP 2018038757 W JP2018038757 W JP 2018038757W WO 2019142420 A1 WO2019142420 A1 WO 2019142420A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information processing
control unit
output control
information
Prior art date
Application number
PCT/JP2018/038757
Other languages
English (en)
French (fr)
Inventor
真里 斎藤
亜由美 中川
宇津木 慎吾
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/960,680 priority Critical patent/US11935449B2/en
Publication of WO2019142420A1 publication Critical patent/WO2019142420A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1601Constructional details related to the housing of computer displays, e.g. of CRT monitors, of flat displays
    • G06F1/1605Multimedia displays, e.g. with integrated or attached speakers, cameras, microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/142Managing session states for stateless protocols; Signalling session states; State transitions; Keeping-state mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0382Plural input, i.e. interface arrangements in which a plurality of input device of the same type are in communication with a PC
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04801Cursor retrieval aid, i.e. visual aspect modification, blinking, colour changes, enlargement or other visual cues, for helping user do find the cursor in graphical user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04803Split screen, i.e. subdividing the display area or the window area into separate subareas
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G3/00Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes
    • G09G3/20Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes for presentation of an assembly of a number of characters, e.g. a page, by composing the assembly by combination of individual elements arranged in a matrix no fixed position being assigned to or needed to be assigned to the individual characters or partial characters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Abstract

【課題】複数のユーザのそれぞれに入力の受付可否を明確に知覚させる。 【解決手段】ユーザ入力に対する認識処理の結果に基づく出力を制御する出力制御部、を備え、前記出力制御部は、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御する、情報処理装置が提供される。また、プロセッサが、ユーザ入力に対する認識処理の結果に基づく出力を制御すること、を含み、前記制御することは、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御すること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置および情報処理方法
 本開示は、情報処理装置および情報処理方法に関する。
 近年、情報処理技術の発展により、複数人のユーザが同時に同一のシステムを利用するシーンが増加している。例えば、特許文献1には、コンピュータセッションにおいて、複数ユーザ間の音声通話を実現し、また発話者を識別するための視覚情報を表示する技術が開示されている。特許文献1に記載の技術によれば、受聴者が、複数存在し得る発話者の存在や状態を視認し、発話者ごとに音声通話の可否を設定することなどが可能となる。
特開2005-100420号公報
 一方、特許文献1に記載されるように、複数のユーザが同時に入力を行い得るシステムの場合、処理能力や仕様上の観点から、同時に入力が可能なユーザの数が制限されることも想定される。例えば、音声認識処理において、常時音声認識が可能な状態を保つ場合、誤作動が生じる可能性が高くなる。また、あるユーザに対し音声認識処理を提供している場合において、その場にいる全員の発話に対しても受付が可能な状態とする場合、システムとの対話とは関係のない会話をしている人物の発話により誤動作の可能性が高まるため、同時に音声入力が可能なユーザの数を制限することが重要となる。また、上記のような同時入力に係る制限がない場合であっても、ユーザ入力に対する処理の実行可否が動的に切り替わるシステムにおいては、当該実行可否に係る状態をユーザごとに提示することが重要となる。
 そこで、本開示では、複数のユーザのそれぞれに入力の受付可否を明確に知覚させることが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。
 本開示によれば、ユーザ入力に対する認識処理の結果に基づく出力を制御する出力制御部、を備え、前記出力制御部は、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御する、情報処理装置が提供される。
 また、本開示によれば、プロセッサが、ユーザ入力に対する認識処理の結果に基づく出力を制御すること、を含み、前記制御することは、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御すること、をさらに含む、情報処理方法が提供される。
 以上説明したように本開示によれば、複数のユーザのそれぞれに入力の受付可否を明確に知覚させることが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係るセッション状態の表示について説明するための図である。 本開示の一実施形態に係るセッション状態の表示について説明するための図である。 同実施形態に係る比較端末が、複数のユーザに共通してセッション状態を示す場合の一例である。 同実施形態に係る情報処理端末が出力する付加情報の一例である。 同実施形態に係る情報処理システムの構成例を示すブロック図である。 同実施形態に係る情報処理端末の機能構成例を示すブロック図である。 同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。 同実施形態に係る出力制御部により制御される付加情報の遷移例を示す図である。 同実施形態に係る出力制御部250による複数のシンボルの表示制御について説明するための図である。 同実施形態に係る出力制御部250による複数のシンボルの表示制御について説明するための図である。 同実施形態に係る出力制御部による外部シンボルの表示制御について説明するための図である。 同実施形態に係る出力制御部による外部シンボルの表示制御について説明するための図である。 同実施形態に係る出力制御部による外部シンボルの表示制御について説明するための図である。 同実施形態に係る付加情報とモーダルとの関係をまとめた図である。 同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。 同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。 同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。 同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。 同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。 同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。 同実施形態に係る出力制御部による出力表現のバリエーションについて説明するための図である。 同実施形態に係る情報処理サーバによる出力制御の流れを示すフローチャートである。 同実施形態に係る外部シンボルの表示制御の流れを示すフローチャートである。 本開示の一実施形態に係るハードウェア構成例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.概要
  1.2.システム構成例
  1.3.情報処理端末10の機能構成例
  1.4.情報処理サーバ20の機能構成例
  1.5.出力制御の具体例
  1.6.動作の流れ
 2.ハードウェア構成例
 3.まとめ
 <1.実施形態>
 <<1.1.概要>>
 まず、本開示の一実施形態の概要について説明する。上述したように、近年においては、複数のユーザによる同時利用を許容する装置が多く存在する。上記のような装置には、例えば、家庭や職場などにおいて、ユーザからの入力を受け付け、当該入力への応答を出力するエージェント装置が挙げられる。エージェント装置は、例えば、ユーザが発話により入力した質問に対する回答を音声や視覚情報などを用いて出力したり、ユーザの依頼に対応した機能の提供などを行うことができる。
 この際、多くのエージェント装置は、ユーザの発話を常に受け付けるのではなく、所定の起動ワードを検出した場合にのみ上記発話を受け付ける状態に遷移することで、装置への入力を意図していないユーザの発話(例えば、ユーザ同士の会話など)に起因する誤作動を防止することができる。
 一方、質問や依頼ごとに起動ワードを入力することは、ユーザにとって煩雑であるため、起動ワードにより発話の受付状態へと遷移した場合、当該受付状態をある程度の時間継続させ、ユーザによる複数の発話に対する処理を連続で実行することも想定される。なお、本開示では、発話の受付状態、すなわちユーザの発話を認識し、当該認識に基づく処理を実行可能な状態を、ユーザと装置との対話に係るセッションが開いている、と表現する。
 上記のような処理によれば、一度の起動ワードにより、セッションが開いている状態を継続することで、ユーザの連続した発話を許容し、起動ワードの入力に係る煩雑さを大きく低減することが可能である。
 しかし、この場合、ユーザに対し、セッションの継続に係る状態(以下、単に、セッション状態、と称する)を示すことが重要となる。図1Aおよび図1Bは、本開示の一実施形態に係るセッション状態の表示について説明するための図である。
 図1Aには、本実施形態における比較端末90による情報出力の一例が示されている。また、図1Bには、本実施形態に係る情報処理端末10による情報出力の一例が示されている。比較端末90および情報処理端末10は、ユーザUの発話UOを認識し、当認識の結果に基づく応答をプロジェクションにより画像投影により出力する機能を有する。
 図1Aおよび図1Bには、比較端末90および情報処理端末10がそれぞれ出力する表示領域DAにおいて、ディナースポットに係る情報が提示される場合の一例が示されている。また、比較端末90および情報処理端末10は、表示領域DA上にユーザUとの対話を行うエージェント機能に対応したシンボルASを表示してよい。シンボルASは、表示領域DAにおいてエージェント機能を実体化した視覚表現であり、ユーザUは、シンボルASに対し、種々の発話を投げかけ、当該発話に対する機能提供を享受することができる。
 なお、図1Aには、比較端末90が、セッション状態に係る提示を行わない場合の一例が示されている。この場合、ユーザUは、セッションが開いている状態か、あるいはセッションが切れている状態かを知覚することができないことから、実際にはセッションが切れている状態であっても、起動ワードなしに発話UOを入力しようとすることが想定される。この場合、図1Aに示すように、比較端末90は、発話UOに対する認識処理を実行しないため、当該認識処理に基づく応答処理も実行されないこととなる。
 一方、図1Bには、本実施形態に係る情報処理端末10がセッション状態に係る提示を行う場合の一例が示されている。図1Bに示す一例の場合、情報処理端末10は、シンボルASの中心を表す球状体の周囲に、セッションが開いていることを示す付加情報AIを出力している。本実施形態に係る情報処理端末10による上記の表現によれば、ユーザUは、付加情報AIを視認することで、セッションが開いている状態であることを把握することができ、起動ワードなしに発話UOを入力し、また情報処理端末10が発話UOに対する回答に対応する音声発話SOを出力することができる。
 このように、本実施形態に係る情報処理端末10によれば、セッション状態を表示することで、ユーザにセッションが開いているか否かを直観的に知覚させ、発話の直前における起動ワードの要否を判断させることができる。
 一方、複数のユーザが同時に装置を利用する場合、セッションをユーザごとに複数設定し、対話を制御することが想定される。この場合、セッション状態をユーザごとに示すこと重要となる。
 図2は、本実施形態における比較端末90が、複数のユーザに共通してセッション状態を示す場合の一例である。図2では、ユーザU1に対しセッションが開かれており、かつユーザU2に対しては、セッションが開いていない場合の一例が示されている。この際、比較端末90は、ユーザU1に対しセッションが開かれていることから、当該セッションの状態を示す付加情報AIを表示している。
 また、付加情報AIを視認したユーザU2は、自身に対してもセッションが開いていると誤認し、発話UOを行っている。しかし、実際には、ユーザU2に対してはセッションが開いていないことから、比較端末90は、発話UOに対する認識処理を実行せず、当該認識処理に基づく応答処理も実行されないこととなる。
 本開示に係る技術思想は、上記のような点に着目して発想されたものであり、複数のユーザのそれぞれに入力の受付可否を明確に知覚させることを可能とする。このために、本発明の一実施形態に係る情報処理装置は、複数のユーザが存在する状況において、ユーザ入力に対する認識処理の実行可否状態の出力を、ユーザごとに動的に制御することを特徴の一つとする。
 図3は、本実施形態に係る情報処理端末10が出力する付加情報の一例である。例えば、図3の左には、個人識別ができている2人のユーザU1およびU2が存在し、両ユーザに対しセッションが開いている場合に出力される付加情報の一例が示されている。
 この場合、情報処理端末10は、ユーザU1およびユーザU2にそれぞれ対応する2つの付加情報AI1およびAI2を表示してよい。また、この際、情報処理端末10は、ユーザU1およびユーザU2が識別できていることを、付加情報の色や模様などにより表してもよい。図3の左に示す一例の場合、情報処理端末10は、ユーザU1に対応する付加情報AI1と、ユーザU2に対応する付加情報AI2とで、それぞれ異なる模様を用いている。この際、情報処理端末10は、ユーザごとに予め設定された色や模様を用いてもよい。
 さらに、情報処理端末10は、色の濃淡や模様の密度などにより、ユーザごとのセッション状態を表すことができる。例えば、図3の左に示す一例の場合、情報処理端末10は、ユーザU1およびU2の両方にセッションが開いていることから、付加情報AI1およびAI2の模様の密度を高く設定している。図3の中央に示す一例の場合、情報処理端末10は、ユーザU2に対するセッションが開いていない状態であることから、対応する付加情報AI2の模様の密度を低く設定している。すなわち、図3の中央に示す一例の場合、ユーザU1は、識別されており、かつセッションが開いている状態であり、ユーザU2は、識別はされているが、セッションが開いていない状態である。
 このように、本実施形態に係る情報処理端末10によれば、ユーザごとの識別状態やセッション状態を、直観的に提示することが可能である。また、本実施形態に係る情報処理端末10は、セッション状態、識別状態に加え、検出状態に係る情報を出力してもよい。図3の右には、情報処理端末10が、個人識別ができているユーザU1に対応する付加情報AI1に加え、検出はできているが個人識別ができていないユーザU3に対する付加情報AI3を出力する場合の一例が示されている。
 図3の右に示す一例の場合、情報処理端末10は、ユーザU3の個人識別ができていないことを、ドット模様を有する付加情報AI3により表現している。なお、色を用いて付加情報AI3を表現する場合、情報処理端末10は、例えば、グレーなどを用いて、個人識別ができていないことを示してもよい。また、情報処理端末10は、個人識別ができていない状態も同様に、セッション状態を色の濃淡や模様の密度により示すことができる。
 また、情報処理端末10は、それぞれのユーザが検出された方向を、対応する付加情報の形状などにより示してよい。図3に示す一例の場合は、情報処理端末10は、楕円形で示す付加情報AI~AI3の下端を、対応するユーザを検出した方向に向けることで、検出方向を示している。
 このように、本実施形態に係る情報処理端末10によれば、複数のユーザに係る検出状態、検出方向、識別状態、およびセッション状態を、ユーザごとに表現することが可能となる。本実施形態に係る情報処理端末10が有する上記の機能によれば、各ユーザは、自身に係る検出状態、識別状態、またセッション状態を直観的に知覚し、状況に応じた発話を行うことが可能となる。なお、上記のような情報をユーザに提示できる要件が満たされる場合、情報処理端末10は、音や触覚によるフィードバックなど、視覚以外の表現を用いて、情報提示を行ってもよい。
 <<1.2.システム構成例>>
 次に、本開示の一実施形態に係る情報処理システムの構成例について説明する。図4は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図4を参照すると、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10および情報処理サーバ20は、互いに通信が行えるように、ネットワーク30を介して接続される。
 (情報処理端末10)
 本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザの入力などに対する視覚情報や音声情報を出力する情報処理装置である。本実施形態に係る情報処理端末10は、特に、複数のユーザが存在する状況において、ユーザ入力に対する認識処理の実行可否状態をユーザごとに出力すること、を特徴の一つとする。
 本実施形態に係る情報処理端末10は、例えば、スマートフォン、タブレット、汎用コンピュータ、据え置き型または自律移動型の専用装置であってもよい。
 (情報処理サーバ20)
 本実施形態に係る情報処理サーバ20は、ユーザ入力に対する認識処理の結果に基づいて、情報処理端末10の挙動を制御する情報処理装置である。この際、本実施形態に係る情報処理サーバ20は、複数のユーザが存在する場合において、ユーザ入力に対する認識処理の実行可否状態の出力を、ユーザごとに動的に制御すること、を特徴の一つとする。
 (ネットワーク30)
 ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
 以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図4を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10および情報処理サーバ20が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.3.情報処理端末10の機能構成例>>
 次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図5は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図5を参照すると、本実施形態に係る情報処理端末10は、表示部110、音声出力部120、音声入力部130、撮像部140、センサ部150、制御部160、およびサーバ通信部170を備える。
 (表示部110)
 本実施形態に係る表示部110は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部110は、例えば、情報処理サーバ20による制御に基づいて、認識処理の実行可否状態を示す付加情報を表示する。
 このために、本実施形態に係る表示部110は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部110は、プロジェクション機能により視覚情報を出力してもよい。
 (音声出力部120)
 本実施形態に係る音声出力部120は、音声を含む種々の音を出力する機能を有する。本実施形態に係る音声出力部120は、例えば、情報処理サーバ20による制御に基づいて、ユーザの発話に対する回答を音声により出力する。このために、本実施形態に係る音声出力部120は、スピーカやアンプなどの音声出力装置を備える。
 (音声入力部130)
 本実施形態に係る音声入力部130は、ユーザの発話や、情報処理端末10の周囲で発生する周囲音などの音情報を収集する機能を有する。音声入力部130が収集する音情報は、情報処理サーバ20による音声認識に用いられる。本実施形態に係る音声入力部130は、音情報を収集するための複数のマイクロフォンを備える。
 (撮像部140)
 本実施形態に係る撮像部140は、ユーザや周囲環境の画像を撮像する機能を有する。撮像部140が撮像した画像情報は、情報処理サーバ20によるユーザの検出や識別に用いられる。本実施形態に係る撮像部140は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。
 (センサ部150)
 本実施形態に係るセンサ部150は、周囲環境やユーザに関する種々のセンサ情報を収集する機能を有する。センサ部150が収集したセンサ情報は、例えば、情報処理サーバ20によるユーザ検出に用いられる。センサ部150は、例えば、赤外線センサを含む人感センサなどを備える。
 (制御部160)
 本実施形態に係る制御部160は、情報処理端末10が備える各構成を制御する機能を有する。制御部160は、例えば、各構成の起動や停止を制御する。また、制御部160は、情報処理サーバ20により生成される制御信号を表示部110や音声出力部120に入力する。また、本実施形態に係る制御部160は、後述する情報処理サーバ20の出力制御部250と同等の機能を有してもよい。
 (サーバ通信部170)
 本実施形態に係るサーバ通信部170は、ネットワーク30を介して情報処理サーバ20との情報通信を行う機能を有する。具体的には、サーバ通信部170は、音声入力部130が収集した音情報や、撮像部140が撮像した画像情報、センサ部150が収集したセンサ情報を情報処理サーバ20に送信する。また、サーバ通信部170は、情報処理サーバ20から、シンボルや付加情報の出力に係る制御信号などを受信する。
 以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図5を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10は、図5に示す構成のすべてを必ずしも備えなくてもよい。例えば、情報処理端末10は、撮像部140やセンサ部150などを備えない構成をとることもできる。また、上述したように、本実施形態に係る制御部160は、情報処理サーバ20の出力制御部250と同等の機能を有してもよい。本実施形態に係る情報処理端末10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.4.情報処理サーバ20の機能構成例>>
 次に、本開示の一実施形態に係る情報処理サーバ20の機能構成例について説明する。図6は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図6を参照すると、本実施形態に係る情報処理サーバ20は、音声認識部210、意味解析部220、ユーザ認識部230、ユーザ状態推定部240、出力制御部250、ユーザDB260、提示情報DB270、および端末通信部280を備える。
 (音声認識部210)
 本実施形態に係る音声認識部210は、情報処理端末10が収集したユーザの発話に係る音情報に基づいて、音声認識処理を実行する。
 (意味解析部220)
 本実施形態に係る意味解析部220は、音声認識部210が認識したユーザの発話に係る意味解析を行う。この際、意味解析部220は、ユーザDB260に保存されるユーザの発話傾向などに基づいて、ユーザ個人ごとに最適化された意味解析を行ってもよい。本実施形態に係る出力制御部250は、意味解析部220が解析した発話の意味に基づいて、当該発話に対応する回答などを情報処理端末10に出力させることができる。
 (ユーザ認識部230)
 本実施形態に係るユーザ認識部230は、情報処理端末10が収集した音情報、画像情報、センサ情報などに基づいて、ユーザの検出、識別を行う。この際、ユーザ認識部230は、ユーザDB260に保存されるユーザの音声データや顔画像データとの比較を行うことにより、ユーザの識別を行うことができる。
 (ユーザ状態推定部240)
 本実施形態に係るユーザ状態推定部240は、情報処理端末10が収集した音情報、画像情報、センサ情報に基づいて、ユーザに係る種々の状態を推定する。本実施形態に係るユーザ状態推定部240は、例えば、情報処理端末10が備える複数のマイクロフォンが収集した音情報や、顔検出結果などに基づいて、ユーザの検出方向を推定してよい。
 (出力制御部250)
 本実施形態に係る出力制御部250は、ユーザ入力に対する認識処理結果に基づいて、情報処理端末10の挙動を制御する機能を有する。本実施形態に係る出力制御部250は、複数のユーザが存在する状況において、ユーザ入力に対する認識処理の実行可否状態の出力を、ユーザごとに動的に制御すること、を特徴の一つとする。
 より具体的には、本実施形態に係る出力制御部250は、認識処理に係るセッション状態、ユーザの検出有無、検出方向、識別状態などに係る表示を制御してよい。
 また、本実施形態に係る出力制御部250は、意味解析部220が解析した発話の意味に基づいて、種々の情報を情報処理端末10に出力させる機能を有する。この際、出力制御部250は、例えば、意味解析部220が解析した発話の意味に基づいて、提示情報DB270が蓄積する情報の検索を行い、発話の意味に対応した情報を取得することで、当該情報に対応する音声や視覚情報を情報処理端末10に出力させることができる。
 (ユーザDB260)
 本実施形態に係るユーザDB260は、ユーザに係る種々の情報を広く記憶する。ユーザDB260は、例えば、ユーザの氏名、年齢、性別などの基本情報に加え、顔画像や音声特徴、嗜好や傾向などの情報を記憶する。
 (提示情報DB270)
 本実施形態に係る提示情報DB270は、ユーザに提示することを目的とした種々の情報を蓄積する。提示情報DB270は、例えば、レストランなどを含むスポット情報や、一般知識などを蓄積してもよい。
 (端末通信部280)
 本実施形態に係る端末通信部280は、ネットワーク30を介して、情報処理端末10との情報通信を行う。例えば、端末通信部280は、情報処理端末10から、音情報、画像情報、センサ情報などを受信する。また、端末通信部280は、出力制御部250が生成した出力制御に係る制御信号を情報処理端末10に送信する。
 以上、本開示の一実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、図6を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。例えば、上記に示した構成は、複数の装置により分散されて実現されてもよい。また、上述したように、情報処理端末10と情報処理サーバ20が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.5.出力制御の具体例>>
 次に、本実施形態に係る出力制御部250による出力制御について、具体例を挙げながら説明する。上述したように、本実施形態に係る出力制御部250は、音声認識処理の実行可否状態の出力を、ユーザごとに動的に制御することができる。
 また、本実施形態に係る出力制御部250は、音声認識処理に基づいたユーザとの対話を行うエージェント機能に対応する表示領域上のシンボルの表示を制御してよい。この際、本実施形態に係る出力制御部250は、複数ユーザに係る検出有無や検出方向、識別状態、およびセッション状態と、上記のシンボルとを、ユーザが同時に視認できるように表下制御を行うこと、を特徴の一つとする。
 上述したように、本実施形態に係るシンボルは、表示領域においてエージェント機能を実体化した視覚表現であり、ユーザは、シンボルに対し、種々の発話を投げかけ、当該発話に対する機能提供を享受することができる。このため、シンボルとセッション状態などとを同時に視認できる位置に表示させることで、ユーザが視線を動かさずに、状態を認識しながら発話を行うことが可能となり、ユーザの利便性を向上させることができる。
 なお、エージェント機能を、例えば、人や擬人化した動物などの生物により表現することも可能であるが、本実施形態に係る出力制御部250は、シンボルを、生物を模倣しない抽象的な視覚情報として表示させてよい。エージェント機能を人型などにより表現する場合、エージェントに対する印象はユーザの嗜好などに強く影響され、また利用されるシーンが限定されることが想定される。このため、本実施形態に係る出力制御部250は、抽象的な視覚情報によりシンボルを表現することで、よりユーザやシーンを選ばないエージェント機能を提供することが可能である。
 ここで、本実施形態に係る出力制御部250により制御される付加情報の遷移について具体例を挙げて説明する。図7は、本実施形態に係る出力制御部250により制御される付加情報の遷移例を示す図である。
 まず、図7の上段左には、ユーザU1が起動ワードを用いて発話を行った場合に表示される付加情報の一例が示されている。この際、出力制御部250は、識別されたユーザU1に対応する模様を用いた付加情報AI1を情報処理端末10に表示させる。また、出力制御部250は、ユーザU1に対するセッションが開かれていることを、付加情報AI1の模様の密度を高く設定することにより表すことができる。
 さらには、上述したように、出力制御部250は、ユーザU1が検出された検出方向を付加情報AI1の形状により表現することが可能である。具体的には、出力制御部250は、楕円形で表す付加情報AI1の下端が検出方向を向くように、付加情報AI1の出力を動的に制御してよい。なお、上記の検出方向は、表示領域上におけるシンボルASの表示位置を基準とした検出方向であってよい。
 続いて、図7の上段中央には、ユーザU2が表示領域の向かって右から登場し、起動ワードを用いて発話を行った場合に表示される付加情報の一例が示されている。この際、出力制御部250は、識別されたユーザU2に対応する模様を用いた付加情報AI2を情報処理端末10に表示させる。また、出力制御部250は、ユーザU2に対するセッションが開かれていることを、付加情報AI2の模様の密度を高く設定することにより表す。また、出力制御部250は、ユーザU2の検出方向を付加情報AI2の形状により表してよい。
 また、出力制御部250は、ユーザU1に係るセッション状態と識別状態が維持していることを、付加情報AI1により継続して表してよい。なお、ユーザU1の検出方向に変化があった場合は、出力制御部250は、当該検出方向に応じて付加情報AI1の形状を動的に変化させることができる。以下の流れにおいては、ユーザの検出方向に関する説明は省略する。
 続いて、図7の上段右には、ユーザU3が表示領域の中央付近に登場し、起動ワードを用いて発話を行った場合に表示される付加情報の一例が示されている。この際、出力制御部250は、ユーザU3の個人識別ができなかったことから、不明のユーザを示すドット模様を用いて付加情報AI3を表示させている。また、出力制御部250は、ユーザU3(不明ユーザ)に対するセッションが開かれていることを、付加情報AI3のドット模様の密度を高く設定することにより表している。
 続いて、図7の下段左には、ユーザU2が情報処理端末10の付近からいなくなり、ユーザU1およびU3の識別状態およびセッション状態が維持されている場合に表示される付加情報の一例が示されている。この際、出力制御部250は、検出されなくなったユーザU2に対応する付加情報AI2の表示を情報処理端末10に停止される。
 続いて、図7の下段中央には、不明ユーザであるユーザU3が所定時間より長く発話を行わなかったことなどによりセッションが切れた場合に表示される付加情報の一例が示されている。この際、出力制御部250は、ユーザU3に対するセッションが切れたことに基づいて、付加情報AI3に係るドット模様の密度を低下させる。一方、出力制御部250は、ユーザU1が発話を継続して行っていることから、セッション状態が維持されていることを、付加情報AI1の模様の密度を維持することで表現してよい。
 続いて、図7の下段右には、ユーザU2が再度、表示領域の向かって右から登場し、起動ワードを用いた発話を行わなかった場合に表示される付加情報の一例が示されている。この際、出力制御部250は、ユーザU2に対応する模様を用いた付加情報AI2を再度表示させ、また、当該模様の密度を低く設定することで、ユーザU2に対するセッションが開いていないことを表現する。また、出力制御部250は、ユーザU1およびユーザU3の識別状態、セッション状態に変化がないことに基づいて、付加情報AI1およびAI3の出力表現を維持してよい。
 以上、本実施形態に係る出力制御部250による付加情報の出力制御について、具体例を挙げながら説明した。このように、本実施形態に係る出力制御部250によれば、音声認識処理に係るセッション状態や、ユーザの検出有無、検出方向、識別状態を、ユーザごとに動的に表示させることができる。本実施形態に係る出力制御部250が有する上記の機能によれば、各ユーザは、自身の検出情報や識別状態を把握し、また、セッションが開いているか否かを視認することで、起動ワードの要否を判断することができ、ストレスなくシステムを利用することが可能となる。
 また、本実施形態に係る付加情報は、上述したような検出有無、検出方向、識別状態、およびセッション状態のほか、音声認識状態の実行状態や、音声認識処理の結果に基づく応答生成処理(例えば、検索処理を含む)の実行状態を含んでよい。本実施形態に係る出力制御部250は、上記のような実行状態を表す付加情報AIと、シンボルASとを、ユーザが同時に視認できるように表示制御を行うことができる。
 出力制御部250は、例えば、上記のような実行状態を、色の明滅、膨張や収縮などの形状の変化、回転などの挙動により、セッション状態などと同時に表現することが可能である。本実施形態に係る出力制御部250が有する上記の機能によれば、ユーザが、シンボルASを注視しながら、視線の移動を伴わず種々の状態を把握することができ、利便性をより向上させることが可能となる。
 次に、本実施形態に係る出力制御部250によるシンボルおよび付加情報の表示位置に係る制御について説明する。本実施形態に係る出力制御部250は、上記で述べたシンボルや付加情報の表示位置を、種々の状況に応じて制御することが可能である。
 例えば、家庭や職場などにおいて、単一のエージェント機能が複数のユーザにより利用される場合、出力制御部250は、家族や職場の一員として受け入れられやすいような位置に、シンボルおよび付加情報を表示させてよい。
 具体的には、出力制御部250は、識別された複数のユーザの検出方向や、検知された当該複数のユーザの発話ターンに基づいて、発話を行うユーザの中間位置にシンボルおよび付加情報を表示し、依頼等に対する応答を行わせてもよい。また、出力制御部250は、あるユーザから別のユーザへ発話ターンが切り替わる場合、交代して発話を行うユーザの検出方向にシンボルを移動させる、などの表示制御を行うことができる。
 本実施形態に係る出力制御部250が有する上記の機能によれば、実際の人間が行うような、発話者間の相対位置や発話中の人物に着目した挙動をシンボルに行わせることができ、より親しみやすいユーザインタフェースを実現することが可能となる。
 また、出力制御部250は、ユーザの属性や状態など基づいて、シンボルおよび付加情報の表示位置を制御してもよい。例えば、ユーザが子供である場合や、ユーザが座っている状態の場合、出力制御部250は、表示領域の低位置にシンボルを表示させてよい。一方、ユーザが大人である場合や、ユーザが立っている状態の場合、出力制御部250は、表示領域の高位置にシンボルを表示させてよい。
 また、出力制御部250は、ユーザからの入力に依らない主体的な情報提示を行う場合、シンボルがより目立つように表示制御を行ってもよい。この際、出力制御部250は、例えば、シンボルを表示領域のより高位置に表示させてもよい。また、出力制御部250は、シンボルを通常状態よりも大きく表示させてもよい。また、出力制御部250は、シンボルを情報通知するユーザにより接近させる、などの制御を行ってよい。
 このように、本実施形態に係る出力制御部250は、ユーザの検出位置などの種々の状況に応じて、シンボルの表示位置を動的に制御することが可能である。
 また、本実施形態に係る出力制御部250は、複数のエージェント機能に対応する複数のシンボルの表示を制御してもよい。例えば、家庭において各ユーザが専用のエージェント機能を有している場合、出力制御部250は、各ユーザが有する複数のエージェント機能に対応するシンボルの表示を動的に制御することができる。
 図8Aよび図8Bは、本実施形態に係る出力制御部250による複数のシンボルの表示制御について説明するための図である。図8Aには、各ユーザがそれぞれ専用のエージェント機能を有しており、また各エージェントが、専属するユーザ以外の発話を受け付けない場合におけるシンボルの表示例が示されている。
 図8Aに示す一例の場合、出力制御部250は、ユーザU1が有する専用エージェント機能に対応するシンボルAS1、およびユーザU2が有する専用エージェント機能に対応するシンボルAS2の表示を同時に制御している。
 この際、出力制御部250は、検出されたユーザU1およびU2の検出位置(検出方向)に基づいて、シンボルAS1およびAS2の表示位置を動的かつ独立的に制御してよい。具体的には、出力制御部250は、ユーザU1およびユーザU2の間で会話が行われており、かつエージェント機能への呼びかけがない場合、シンボルAS1およびAS2が、ユーザU1およびU2の間に入らないよう、シンボルAS1およびAS2を、それぞれユーザU1およびU2の脇に表示させてもよい。また、この際、出力制御部250は、検出されたユーザU1およびU2の位置変化に追随するよう、シンボルAS1およびAS2の表示を制御することができる。
 また、図8Bには、各ユーザがそれぞれ専用のエージェント機能を有しているが、各エージェントは、所有者であるユーザ以外の発話にも対応する場合におけるシンボルの表示例が示されている。この場合、出力制御部250は、図8Aの場合に示した一例とは異なり、シンボルAS1およびAS2を、ユーザU1およびU2の間に表示させてもよいが、ユーザU1およびU2の間の会話を妨害しないよう、例えば、ユーザU1およびU2の頭部より高い位置に表示させるなどの制御を行ってよい。また、出力制御部250は、発話を行ったユーザの方向にシンボルAS1およびAS2を近づける、あるいは近づけた後に元の位置に戻す(視線を向けるような動作)などの表示制御を行ってもよい。
 また、出力制御部250の表示制御対象は、情報処理サーバ20により提供される内部エージェント機能に対応するシンボルに限定されない。本実施形態に係る出力制御部250は、第三者により提供されるエージェント機能に対応する外部シンボルの表示を制御してもよい。
 図9A~図9Cは、本実施形態に係る出力制御部250による外部シンボルの表示制御について説明するための図である。図9A~図9Cでは、出力制御部250が、内部エージェント機能に対応するシンボルASと、第三者により提供される外部エージェント機能に対応する外部シンボルESとに係る表示制御を同時に行っている。なお、外部シンボルESは、旅行業者により提供される外部エージェント機能に対応するシンボルであってよい。
 ここで、本実施形態に係る出力制御部250は、図9Aに示すように、表示領域DAにおいて内部エージェント機能に対応するシンボルASを表示する内部エリアIAと、外部シンボルを表示する外部エリアEAを設定してよい。また、この際、出力制御部250は、ユーザの発話に係る情報が、外部エリアEAに配置される外部シンボルESに対応する外部エージェント機能には伝達されないよう制御を行う。
 例えば、図9Aに示す一例の場合、ユーザU1およびU2は、賞与に係る情報、通常の旅行費用に関する情報、家族の個人情報などを含む発話UO1およびUO2を行っている。この際、出力制御部250は、上記のような機微情報が、外部エリアEAに伝達されないように制御することで、情報が不用意に外部に流出することを防ぐことができる。
 一方、外部エージェント機能を利用する際、本実施形態に係る出力制御部250は、ユーザの発話内容を一般化し、外部シンボルに係る外部エージェント機能に引き渡してよい。図9Bに示す一例の場合、出力制御部250は、図9Aに示す発話UO1およびUO2の内容を一般化した引き渡し情報SIを生成し、表示領域DA上に表示させ、外部エージェント機能に問い合わせを行う旨を示す音声発話SO1を出力させている。このように、生成した引き渡し情報SIを表示領域DA上に表示させることで、ユーザは、どのような情報が外部に送信されるのかを明確に把握することができる。
 なお、出力制御部250は、外部エージェント機能が提供するAPIの形式に合わせて、図9Bに示すような引き渡し情報SIを生成してよい。図9Bに示す一例の場合、出力制御部250は、旅行ツアーの検索のために定義された予算、場所、日時、人数のような項目を含む引き渡し情報SIを生成している。また、この際、出力制御部250は、図9Aに示す発話UO1に含まれる賞与の情報などから予算を自動的に設定し、発話UO2に含まれる誕生日の情報やユーザDB260に記憶される家族構成の情報から日時および人数を自動で設定している。
 また、出力制御部250は、外部エージェント機能から、送信した引き渡し情報SIに基づく回答を受信した場合、図9Bに示すように、外部シンボルESに対応付けて、音声発話SO2や視覚情報を出力させてよい。
 また、この際、発話UO3のような、詳細の取得や、外部エージェント機能との直接対話に係る要求が検出された場合、出力制御部250は、外部シンボルESを内部エリアIAに移動させ、ユーザと外部シンボルESに係る外部エージェント機能とが直接対話できるように制御を行ってよい。
 図9Cには、図9Bに示す発話SO3に基づいて、内部エリアIAに移動された外部シンボルESが示されている。この場合、出力制御部250が、内部エリアに表示される外部シンボルESに係る外部エージェント機能に、発話UO4などの内容をそのまま送信することで、外部エージェント機能がユーザUIおよびU2と直接対話することを許容することができる。
 このように、本実施形態に係る出力制御部250によれば、内部エージェント機能に対応するシンボルと、外部エージェント機能に対応する外部シンボルの表示領域を明確に分離し、情報伝達のレベルを制御することで、機微情報が外部へ流出することを防ぐことができる。また、本実施形態に係る出力制御部250が有する上記の機能によれば、ユーザの要求に基づいて、外部エージェント機能とユーザの直接対話を許容することで、セキュリティ性と利便性を両立することが可能である。なお、本実施形態に係る外部エージェント機能は、人工知能による機能提供のほか、オペレータなどの有人対応により実現される機能であってもよい。
 以上、本実施形態に係る出力制御部250が有する機能について詳細に説明した。上述したように、本実施形態に係る出力制御部250は、エージェント機能に対応するシンボルおよび種々の付加情報に係る表示を動的に制御することができる。上記の付加情報には、認識処理の実行可否状態、ユーザの検出状態および識別状態に係る情報が広く含まれる。
 なお、上記では、出力制御部250が、音声認識処理に係るセッション状態を付加情報の一つとして表示させる場合を例に述べたが、本実施形態に係る認識処理および実行可否状態は係る例に限定されない。本実施形態に係る認識処理には、例えば、ジェスチャ認識や感情推定などの技術が広く含まれ得る。上記のような技術を用いた装置が複数のユーザにおいて利用される場合であっても、同時に機能提供が可能なユーザの数は有限であることから、ユーザごとに認識処理の実行可否状態を示すことは、同様に重要となる。
 このため、本実施形態に係る出力制御部250は、種々の認識処理に係る実行可否状態、ユーザの検出状態および識別状態を、複数のモーダルを用いて表現することが可能である。図10は、本実施形態に係る付加情報とモーダルとの関係をまとめた図である。図10を参照すると、出力制御部250は、例えば、表示体の方向などのモーダル1を用いて、ユーザの検出状態を表してもよい。また、出力制御部250は、表示体の色などのモーダル2を用いて、ユーザの識別状態を表すことができる。また、出力制御部250は、表示体の明度などのモーダル3を用いて、認識処理の実行可否を表してもよい。
 このように、本実施形態に係る出力制御部250は、複数のモーダルを用いることで、種々の認識処理に係る実行可否状態を多様に表現することが可能である。このため、上記までに述べた付加情報の表現方法はあくまで一例であり、本実施形態に係る出力制御部250は、他の出力表現を用いて情報処理端末10に付加情報を表示させてもよい。以下、出力制御部250による付加情報の多様な表示制御について、例を挙げながら説明を続ける。
 図11A~図15は、本実施形態に係る出力制御部250による出力表現のバリエーションについて説明するための図である。図11Aおよび図11Bには、出力制御部250が、ユーザの検出状態および識別状態に係る付加情報を、シンボルASとは別途にユーザごとに表現する場合の一例が示されている。
 図11Aに示す一例の場合、出力制御部250は、ユーザU1およびユーザU2に対応する模様を用いて、ユーザU1およびU2の識別状態を示す付加情報AI1およびAI2をそれぞれ別途に出力させている。この際、出力制御部250は、ユーザU1およびU2が識別されていることを、付加情報AIおよびAI2の模様の密度を高く設定することにより表している。
 一方、図11Bに示す一例では、ユーザU2が識別されなくなったことから、出力制御部250は、ユーザU2に対応する付加情報AI2の模様の密度を低下するように表示させている。このように、本実施形態に係る出力制御部250は、ユーザの識別状態に係る付加情報AIを、シンボルASとは別途に表示させることも可能である。
 また、図12Aおよび図12Bには、出力制御部250が、シンボルAS自体の表示を変化させることで、付加情報を表現する場合の一例が示されている。例えば、図12Aおよび図12Bに示す一例の場合、出力制御部250は、シンボルASの大きさを変化させることにより、セッションが開いているか否かを表現している。
 具体的には、図12Aでは、出力制御部250は、通常の状態よりもシンボルASを大きく表示させ強調させることにより、セッションが開いていることを表している。一方、図12Bでは、出力制御部250は、シンボルASを図12Aの状態より小さく表示させることで、セッションが開いていないこと、すなわち起動ワードが必要なことを表している。このように、本実施形態に係る出力制御部250は、別途の表示体を用いず、シンボルASのみを用いてセッション状態などの付加情報を表現することも可能である。なお、図12Aおよび図12Bでは、出力制御部250がシンボルASの大きさを変化させることによりセッション状態を表現する場合を例に述べたが、出力制御部250は、例えば、色や明度、形状の変化などによりセッション状態を表してもよい。
 また、図13は、出力制御部250が、シンボルASの挙動により付加情報を表現する場合の一例が示されている。図13に示す一例の場合、出力制御部250は、シンボルASが、セッションが開いているユーザの周囲を浮遊するように表示制御を行っている。また、この際、出力制御部250は、ユーザU1およびユーザU2に対しセッションが開いていることを、浮遊するシンボルASの挙動により表現している。
 具体的には、出力制御部250は、浮遊するシンボルASが、ユーザU1またはユーザU2に近づいた際、輪を描くような回転運動R1およびR2を行うよう表示を制御することで、セッションが開いていることを表現している。このように、本実施形態に係る出力制御部250は、シンボルASの挙動をモーダルの一つとして用いることが可能である。
 また、図14には、出力制御部250が、単一の輪により複数のユーザに対応する付加情報を表現する場合の一例が示されている。図3や図7では、出力制御部250が、複数のユーザに対応する付加情報を独立した複数の輪を用いて表現する場合の一例を示した。一方、出力制御部250は、図14に示すように、単一の輪を用いて複数のユーザに対応する付加情報を表現することも可能である。
 例えば、図14の左に示す一例の場合、出力制御部250は、輪の一部を太くすることで、ユーザの検出方向に係る付加情報AI1およびAI2を表している。なお、出力制御部250は、輪の一部の明度を上げることで検出方向を示してもよい。
 また、図14の右に示す一例の場合、出力制御部250は、輪の一部に各ユーザに対応した模様を適用することで、各ユーザの識別状態に係る付加情報AI1~AI3を表現している。
 また、図15には、出力制御部250が、複数の球状態を用いて各ユーザに対応する付加情報を表現する場合の一例が示している。図3や図7では、シンボルASが単一の球状体により表現される場合を例に示した。一方、出力制御部250は、シンボルASが複数のユーザに対応する複数の球状体を有するように表示制御を行い、当該球状体により各ユーに対応する付加情報を表現してもよい。
 例えば、図15に示す一例の場合、出力制御部250は、3つの球状体を用いて3名のユーザにそれぞれ対応する付加情報AI1~AI3を表現している。図15の左に示す一例では、出力制御部250は、輪の上における付加情報AI1~AI3の位置により各ユーザの検出方向を表しており、図15の右に示す一例では、出力制御部250は、輪の中心における付加情報AI1~AI3の位置を制御することにより、各ユーザの検出方向を表している。また、出力制御部250は、各球状体に各ユーザに対応する模様を適用することで、各ユーザの識別状態を表してよい。
 以上、本実施形態に係る出力制御部250による出力表現のバリエーションについて説明した。このように、本実施形態に係る出力制御部250は、セッション状態、ユーザの検出方向、ユーザの識別状態などの付加情報を、緯度、模様、形状、明度、また挙動などの各種のモーダルを用いて表現することが可能である。
 また、出力制御部250は、例えば、情報処理端末10が備えるLEDなどの光源を用いて、上記のような付加情報を表現してもよい。例えば、エージェントに対する呼びかけが所定時間以上行われない場合、出力制御部250は、エージェント機能に対応するシンボルを表示領域から情報処理端末10に格納するような表示制御を行うこともできる。この際、出力制御部250は、シンボルが情報処理端末10に格納されている場合であっても、情報処理端末10が外装に備える光源により、ユーザの検出方向や識別状態などを表現することが可能である。
 また、出力制御部250は、エージェントの感情を含む種々の状態を付加情報の一つとして表現してもよい。この際、出力制御部250は、上述したような種々のモーダルを用いることで、エージェントの状態を多様に表現することが可能である。
 <<1.6.動作の流れ>>
 次に、本実施形態に係る情報処理サーバ20の動作の流れについて詳細に説明する。まず、本実施形態に係る情報処理サーバ20による出力制御の基本的な流れについて説明する。
 図16は、本実施形態に係る情報処理サーバ20による出力制御の流れを示すフローチャートである。図16を参照すると、まず、端末通信部280が、情報処理端末10が収集した収集情報を受信する(S1101)。上記の収集情報には、音情報、画像情報、およびセンサ情報が含まれる。
 次に、ユーザ認識部230が、ステップS1101において受信された収集情報に基づいて、ユーザの検出を行う(S1102)。ユーザ認識部230は、例えば、画像情報に基づく人検出や、人感センサが収集したセンサ情報などに基づいて、ユーザを検出することができる。
 続いて、ユーザ認識部230は、ステップS1101において受信された収集情報に基づいて、ユーザの識別を行う(S1103)。ユーザ認識部230は、例えば、画像情報に基づく顔認識や、音情報に基づく話者認識により、ユーザの識別を行ってもよい。
 次に、ユーザ状態推定部240が、ステップS1102において検出されたユーザの検出方向を取得する(S1104)。ユーザ状態推定部240は、例えば、ユーザが撮像された画像情報や、複数のマイクロフォンにより取得されたユーザの発話を含む音情報に基づいて、ユーザの検出方向を取得することができる。
 次に、音声認識部210がステップS1101において受信された音情報に基づく音声認識処理を実行し、意味解析部220が、音声認識処理の結果に基づく意味解析を行う(S1105)。
 ここで、ステップS1105において認識されたユーザの発話に起動ワードが含まれる場合、出力制御部250は、当該起動ワードを発話したユーザに対しセッションを開く制御を行う(S1106)。
 続いて、出力制御部250は、ステップS1104において取得されたユーザの検出方向などに基づいて、シンボルの表示位置を決定する(S1107)。
 続いて、出力制御部250は、ステップS1104において取得されたユーザの検出方向や、ステップS1103において取得されたユーザの識別状態、またセッション状態などの付加情報に係る出力制御を行う(S1108)。
 また、出力制御部250は、ステップS1105において解析されたユーザの発話意図に応じた音声発話などの出力制御を実行する(S1109)。
 次に、本実施形態に係る外部シンボルの表示制御の流れについて詳細に説明する。図17は、本実施形態に係る外部シンボルの表示制御の流れを示すフローチャートである。
 図17を参照すると、まず、出力制御部250が、外部シンボルが表示領域内に設定した外部エリアに表示されるよう制御を行う(S1201)。
 次に、音声認識部210が収集されたユーザの発話に係る音情報に基づく音声認識処理を実行し、意味解析部220が、音声認識処理の結果に基づく意味解析を行う(S1202)。
 次に、出力制御部250が、ステップS1202において解析されたユーザの発話内容を一般化し引き渡し情報を生成する(S1203)。
 続いて、出力制御部250は、ステップS1203において生成した引き渡し情報を、外部エージェント機能に送信する(S1204)。
 次に、出力制御部250が、ステップS1204において送信した引き渡し情報に対応する回答を外部エージェント機能から受信する(S1205)。
 続いて、出力制御部250は、ステップS1205において受信した回答に係る出力制御を行う(S1207)。
 ここで、ユーザから、外部エージェント機能との直接対話に係る要求があった場合(S1207:Yes)、出力制御部250は、外部シンボルを表示領域内に設定した内部エリアに移動させ、ユーザと外部エージェント機能との直接対話を許容する(S1208)。
 一方、外部エージェント機能との直接対話に係る要求が検出されない場合(S1207:No)、出力制御部250は、待機状態に復帰する。
 <2.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図18は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図18を参照すると、情報処理端末10および情報処理サーバ20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (プロセッサ871)
 プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <3.まとめ>
 以上説明したように、本開示の一実施形態に係る情報処理サーバ20は、ユーザ入力に対する認識処理の結果に基づく出力を制御する出力制御部250を備える。また、本開示の一実施形態に係る出力制御部250は、複数のユーザが存在する状況において、ユーザ入力に対する認識処理の実行可否状態の出力を、ユーザごとに動的に制御すること、を特徴の一つとする。係る構成によれば、複数のユーザのそれぞれに入力の受付可否を明確に知覚させることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、本明細書の情報処理サーバ20の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ20の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 ユーザ入力に対する認識処理の結果に基づく出力を制御する出力制御部、
 を備え、
 前記出力制御部は、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御する、
情報処理装置。
(2)
 前記出力制御部は、前記ユーザの検出方向に係る情報の出力を、前記ユーザごとに動的に制御する、
前記(1)に記載の情報処理装置。
(3)
 前記出力制御部は、前記ユーザの識別状態に係る情報の出力を、前記ユーザごとに動的に制御する、
前記(1)または(2)に記載の情報処理装置。
(4)
 前記出力制御部は、前記ユーザの検出有無に係る情報の出力を、前記ユーザごとに動的に制御する、
前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
 前記認識処理は、音声認識処理を含み、
 前記出力制御部は、前記音声認識処理のセッション状態に係る情報の出力を、前記ユーザごとに動的に制御する、
前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
 前記出力制御部は、前記音声認識処理に基づいた前記ユーザとの対話を行うエージェント機能に対応する表示領域上のシンボルの表示を制御する、
前記(5)に記載の情報処理装置。
(7)
 前記出力制御部は、前記セッション状態、前記ユーザの検出方向、前記ユーザの識別状態のうち少なくともいずれかと、前記シンボルとを、前記ユーザが同時に視認できるように表示制御を行う、
前記(6)に記載の情報処理装置。
(8)
 前記出力制御部は、前記音声認識処理の実行状態または前記音声認識処理の結果に基づく応答生成処理の実行状態のうち少なくとも一方と、前記シンボルとを、前記ユーザが同時に視認できるように表示制御を行う、
前記(6)または(7)に記載の情報処理装置。
(9)
 前記出力制御部は、前記セッション状態、前記ユーザの検出方向、前記ユーザの識別状態のうち少なくともいずれかを、色、模様、形状、または挙動の変化により表現する、
前記(7)に記載の情報処理装置。
(10)
 前記出力制御部は、前記ユーザの検出位置に基づいて、前記シンボルの表示位置を動的に制御する、
前記(6)~(9)のいずれかに記載の情報処理装置。
(11)
 前記出力制御部は、前記シンボルが前記ユーザの位置変化に追随するように表示制御を行う、
前記(10)に記載の情報処理装置。
(12)
 前記出力制御部は、前記ユーザ同士が会話を行っている場合、前記ユーザ同士の会話を妨害しない位置に前記シンボルを表示させる、
前記(10)または(11)に記載の情報処理装置。
(13)
 前記出力制御部は、第三者により提供されるエージェント機能に対応する外部シンボルの表示を制御する、
前記(1)~(12)のいずれかに記載の情報処理装置。
(14)
 前記出力制御部は、内部エージェント機能に対応するシンボルを表示する内部エリアと前記外部シンボルを表示する外部エリアを分離し、前記外部エリアには、前記ユーザの発話に係る情報が伝達しないよう制御を行う、
前記(13)に記載の情報処理装置。
(15)
 前記出力制御部は、前記ユーザの発話内容を一般化し、前記外部シンボルに係るエージェント機能に引き渡す、
前記(14)に記載の情報処理装置。
(16)
 前記出力制御部は、前記ユーザからの要求に基づいて、前記外部シンボルを前記内部エリアに移動させ、前記ユーザと前記外部シンボルに係るエージェント機能とが直接対話できるように制御を行う、
前記(14)または(15)に記載の情報処理装置。
(17)
 前記出力制御部は、前記シンボルを、生物を模倣しない抽象的な視覚情報により表示させる、
前記(6)~(12)のいずれかに記載の情報処理装置。
(18)
 前記ユーザ入力に対する音声認識処理を実行する音声認識部、
 をさらに備える、
前記(1)~(17)のいずれかに記載の情報処理装置。
(19)
 前記出力制御部による制御に基づいて、前記認識処理の実行可否状態を、前記ユーザごとに表示する表示部、
 をさらに備える、
前記(1)~(18)のいずれかに記載の情報処理装置。
(20)
 プロセッサが、ユーザ入力に対する認識処理の結果に基づく出力を制御すること、
 を含み、
 前記制御することは、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御すること、
 をさらに含む、
情報処理方法。
 10   情報処理端末
 110  表示部
 120  音声出力部
 130  音声入力部
 140  撮像部
 150  センサ部
 160  制御部
 170  サーバ通信部
 20   情報処理サーバ
 210  音声認識部
 220  意味解析部
 230  ユーザ認識部
 240  ユーザ状態推定部
 250  出力制御部
 260  ユーザDB
 270  提示情報DB
 280  端末通信部

Claims (20)

  1.  ユーザ入力に対する認識処理の結果に基づく出力を制御する出力制御部、
     を備え、
     前記出力制御部は、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御する、
    情報処理装置。
  2.  前記出力制御部は、前記ユーザの検出方向に係る情報の出力を、前記ユーザごとに動的に制御する、
    請求項1に記載の情報処理装置。
  3.  前記出力制御部は、前記ユーザの識別状態に係る情報の出力を、前記ユーザごとに動的に制御する、
    請求項1に記載の情報処理装置。
  4.  前記出力制御部は、前記ユーザの検出有無に係る情報の出力を、前記ユーザごとに動的に制御する、
    請求項1に記載の情報処理装置。
  5.  前記認識処理は、音声認識処理を含み、
     前記出力制御部は、前記音声認識処理のセッション状態に係る情報の出力を、前記ユーザごとに動的に制御する、
    請求項1に記載の情報処理装置。
  6.  前記出力制御部は、前記音声認識処理に基づいた前記ユーザとの対話を行うエージェント機能に対応する表示領域上のシンボルの表示を制御する、
    請求項5に記載の情報処理装置。
  7.  前記出力制御部は、前記セッション状態、前記ユーザの検出方向、前記ユーザの識別状態のうち少なくともいずれかと、前記シンボルとを、前記ユーザが同時に視認できるように表示制御を行う、
    請求項6に記載の情報処理装置。
  8.  前記出力制御部は、前記音声認識処理の実行状態または前記音声認識処理の結果に基づく応答生成処理の実行状態のうち少なくとも一方と、前記シンボルとを、前記ユーザが同時に視認できるように表示制御を行う、
    請求項6に記載の情報処理装置。
  9.  前記出力制御部は、前記セッション状態、前記ユーザの検出方向、前記ユーザの識別状態のうち少なくともいずれかを、色、模様、形状、または挙動の変化により表現する、
    請求項7に記載の情報処理装置。
  10.  前記出力制御部は、前記ユーザの検出位置に基づいて、前記シンボルの表示位置を動的に制御する、
    請求項6に記載の情報処理装置。
  11.  前記出力制御部は、前記シンボルが前記ユーザの位置変化に追随するように表示制御を行う、
    請求項10に記載の情報処理装置。
  12.  前記出力制御部は、前記ユーザ同士が会話を行っている場合、前記ユーザ同士の会話を妨害しない位置に前記シンボルを表示させる、
    請求項10に記載の情報処理装置。
  13.  前記出力制御部は、第三者により提供されるエージェント機能に対応する外部シンボルの表示を制御する、
    請求項1に記載の情報処理装置。
  14.  前記出力制御部は、内部エージェント機能に対応するシンボルを表示する内部エリアと前記外部シンボルを表示する外部エリアを分離し、前記外部エリアには、前記ユーザの発話に係る情報が伝達しないよう制御を行う、
    請求項13に記載の情報処理装置。
  15.  前記出力制御部は、前記ユーザの発話内容を一般化し、前記外部シンボルに係るエージェント機能に引き渡す、
    請求項14に記載の情報処理装置。
  16.  前記出力制御部は、前記ユーザからの要求に基づいて、前記外部シンボルを前記内部エリアに移動させ、前記ユーザと前記外部シンボルに係るエージェント機能とが直接対話できるように制御を行う、
    請求項14に記載の情報処理装置。
  17.  前記出力制御部は、前記シンボルを、生物を模倣しない抽象的な視覚情報により表示させる、
    請求項6に記載の情報処理装置。
  18.  前記ユーザ入力に対する音声認識処理を実行する音声認識部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  19.  前記出力制御部による制御に基づいて、前記認識処理の実行可否状態を、前記ユーザごとに表示する表示部、
     をさらに備える、
    請求項1に記載の情報処理装置。
  20.  プロセッサが、ユーザ入力に対する認識処理の結果に基づく出力を制御すること、
     を含み、
     前記制御することは、複数のユーザが存在する状況において、前記ユーザ入力に対する前記認識処理の実行可否状態の出力を、前記ユーザごとに動的に制御すること、
     をさらに含む、
    情報処理方法。
PCT/JP2018/038757 2018-01-22 2018-10-18 情報処理装置および情報処理方法 WO2019142420A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/960,680 US11935449B2 (en) 2018-01-22 2018-10-18 Information processing apparatus and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018007857 2018-01-22
JP2018-007857 2018-01-22

Publications (1)

Publication Number Publication Date
WO2019142420A1 true WO2019142420A1 (ja) 2019-07-25

Family

ID=67302095

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/038757 WO2019142420A1 (ja) 2018-01-22 2018-10-18 情報処理装置および情報処理方法

Country Status (2)

Country Link
US (1) US11935449B2 (ja)
WO (1) WO2019142420A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232225A1 (zh) * 2020-05-19 2021-11-25 京东方科技集团股份有限公司 电源管理装置和显示设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082748A (ja) * 2000-09-06 2002-03-22 Sanyo Electric Co Ltd ユーザ支援装置
JP2005100382A (ja) * 2003-09-01 2005-04-14 Matsushita Electric Ind Co Ltd 対話装置及び対話方法
WO2016157662A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020052913A1 (en) 2000-09-06 2002-05-02 Teruhiro Yamada User support apparatus and system using agents
US7503006B2 (en) 2003-09-25 2009-03-10 Microsoft Corporation Visual indication of current voice speaker
JP5248225B2 (ja) * 2008-07-11 2013-07-31 富士フイルム株式会社 コンテンツ表示装置、コンテンツ表示方法およびプログラム
US8522308B2 (en) * 2010-02-11 2013-08-27 Verizon Patent And Licensing Inc. Systems and methods for providing a spatial-input-based multi-user shared display experience
US9274744B2 (en) * 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US9372540B2 (en) * 2011-04-19 2016-06-21 Lg Electronics Inc. Method and electronic device for gesture recognition
US8943411B1 (en) * 2012-03-06 2015-01-27 Amdocs Software Systems Limited System, method, and computer program for displaying controls to a user
JP5860144B2 (ja) * 2012-06-04 2016-02-16 株式会社Pfu 情報処理装置、方法およびプログラム
US11956290B2 (en) * 2015-03-04 2024-04-09 Avaya Inc. Multi-media collaboration cursor/annotation control
CN104881181B (zh) * 2015-05-27 2019-07-26 联想(北京)有限公司 显示方法及电子设备
WO2017047182A1 (ja) * 2015-09-18 2017-03-23 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2017210785A1 (en) * 2016-06-06 2017-12-14 Nureva Inc. Method, apparatus and computer-readable media for touch and speech interface with audio location
JP6791994B2 (ja) * 2017-02-02 2020-11-25 マクセル株式会社 表示装置
CN109583261A (zh) * 2017-09-28 2019-04-05 丽宝大数据股份有限公司 身体信息分析装置及其辅助比对眉型方法
TWI669703B (zh) * 2018-08-28 2019-08-21 財團法人工業技術研究院 適於多人觀看的資訊顯示方法及資訊顯示裝置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082748A (ja) * 2000-09-06 2002-03-22 Sanyo Electric Co Ltd ユーザ支援装置
JP2005100382A (ja) * 2003-09-01 2005-04-14 Matsushita Electric Ind Co Ltd 対話装置及び対話方法
WO2016157662A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム

Also Published As

Publication number Publication date
US11935449B2 (en) 2024-03-19
US20200357321A1 (en) 2020-11-12

Similar Documents

Publication Publication Date Title
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
EP2597868B1 (en) Enhanced interface for voice and video communications
US9111538B2 (en) Genius button secondary commands
JP6719739B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
WO2017130486A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR20140136964A (ko) 인스턴트 통신 음성 인식 방법 및 단말기
KR20210137118A (ko) 대화 단절 검출을 위한 글로벌 및 로컬 인코딩을 갖는 컨텍스트 풍부 주의 기억 네트워크를 위한 시스템 및 방법
CN113572889B (zh) 简化用户接口生成
JP2020021025A (ja) 情報処理装置、情報処理方法及びプログラム
JP7194507B2 (ja) 会議システム、会議システム制御方法およびプログラム
WO2016157993A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2020136921A (ja) ビデオ通話システム、およびコンピュータプログラム
WO2019142420A1 (ja) 情報処理装置および情報処理方法
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP7468360B2 (ja) 情報処理装置および情報処理方法
WO2020194828A1 (ja) 情報処理システム、情報処理装置、および情報処理方法
WO2019146199A1 (ja) 情報処理装置、及び情報処理方法
JP6794872B2 (ja) 音声取引システムおよび連携制御装置
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2018088626A (ja) 自動応答システム、オペレータ割当装置、自動応答方法、およびプログラム
WO2019054009A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020158218A1 (ja) 情報処理装置、情報処理方法及びプログラム
EP4281855A1 (en) Digital assistant interactions in copresence sessions
KR20190091189A (ko) 대화 이해 ai 시스템에 의한, 사용자를 위한 대화 세션에 연관된 관리자 디스플레이를 제어하는 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18900945

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18900945

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP