JPWO2017195388A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JPWO2017195388A1
JPWO2017195388A1 JP2018516335A JP2018516335A JPWO2017195388A1 JP WO2017195388 A1 JPWO2017195388 A1 JP WO2017195388A1 JP 2018516335 A JP2018516335 A JP 2018516335A JP 2018516335 A JP2018516335 A JP 2018516335A JP WO2017195388 A1 JPWO2017195388 A1 JP WO2017195388A1
Authority
JP
Japan
Prior art keywords
information
user
result
processing apparatus
intention interpretation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018516335A
Other languages
English (en)
Inventor
長坂 英夫
英夫 長坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2017195388A1 publication Critical patent/JPWO2017195388A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声認識結果に応じた処理結果がユーザに提供されるに際して、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能な技術が提供されることが望まれる。【解決手段】表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、を備える、情報処理装置が提供される。【選択図】図1

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。
近年、ユーザによって発話がなされると、ユーザ発話に対して音声認識処理を実行し、音声認識処理の実行により得られた音声認識結果に応じた処理結果をユーザに提供する技術が存在する(例えば、特許文献1参照)。
特開2011−253375号公報
しかし、ユーザ発話の意図は状況に応じて変化し得る。したがって、音声認識結果に応じた処理結果がユーザに提供されるに際して、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能な技術が提供されることが望まれる。
本開示によれば、表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、を備える、情報処理装置が提供される。
本開示によれば、表示装置によって表示される表示情報に関連する関連情報を取得することと、前記関連情報に応じて音声認識結果の意図解釈がなされると、プロセッサにより、意図解釈結果に基づく処理結果をユーザに提供することと、を含む、情報処理方法が提供される。
本開示によれば、コンピュータを、表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、を備える情報処理装置として機能させるためのプログラムが提供される。
以上説明したように本開示によれば、音声認識結果に応じた処理結果がユーザに提供されるに際して、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理装置の概要について説明するための図である。 同実施形態に係る情報処理装置の概要について説明するための図である。 エージェントの機能構成例を示す図である。 制御部の詳細構成例を示す図である。 PC型のエージェントの表示部によって表示される画面例を示す図である。 商品絞り込み時の画面構成例を説明するための図である。 状況に応じた意図解釈の動作例を示すシーケンス図である。 意図解釈モードを示す情報の表示例を示す図である。 状況に応じた意図解釈がなされる場合におけるシステムの構成例を示す図である。 表示情報を見ているか否かに応じた対話の動作例を示すシーケンス図である。 EC画面の表示例を示す図である。 一般的なECサイトにおいて表示される検索キー表示エリアの例を示す図である。 本開示の実施形態に係る絞り込みの支援を説明するための図である。 ユーザ発話をシンプルかつノイズに強くするための工夫を説明するための図である。 候補リストを属性情報ごとにユーザに提供する例を説明するための図である。 第3の音声認識結果に含まれる属性情報に対応する候補リストのすべてが属性情報ごとにユーザに提供される例を説明するための図である。 ユーザ発話に有効語が含まれる場合と有効語が含まれない場合それぞれにおける動作例を示す図である。 候補リストがユーザに提供される場合におけるシステムの構成例を示す図である。 ECサイトを利用した商品の購入に係るエージェントの動作例を示すフローチャートである。 ECサイトを利用した商品の購入に係るシステム全体の動作例を示すシーケンス図である。 一般的に検索に利用される画面の例を示す図である。 属性情報の選択例を説明するための図である。 ECサイトを利用した楽曲の配信に係るシステム全体の動作例を示すシーケンス図である。 複数の属性情報が階層的に構成されている場合を説明するための図である。 検索対象と検索対象に対応する属性情報の例を示す図である。 手動によって入力された検索キーに基づいて検索がなされる場合を説明するための図である。 画像情報がロード時間の例を示す図である。 情報処理装置のハードウェア構成例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
なお、説明は以下の順序で行うものとする。
1.本開示の実施形態
1.1.概要
1.2.機能構成例
1.3.機能詳細
1.3.1.画面構成例
1.3.2.商品絞り込み時の対話例
1.3.3.商品絞り込み時の画面構成例
1.3.4.状況に応じた意図解釈
1.3.5.表示情報を見ているか否かに応じた対話
1.3.6.EC画面の表示例
1.3.7.絞り込みを支援する技術
1.3.8.属性情報の選択
1.3.9.補足情報のアナウンス
1.4.ハードウェア構成例
1.5.補足
1.5.1.計算における変形例の詳細
1.5.2.補足事項1
1.5.3.補足事項2
1.5.4.補足事項3
1.5.5.補足事項4
1.5.6.補足事項5
1.5.7.補足事項6
1.5.8.補足事項7
1.5.9.補足事項8
1.5.10.補足事項9
1.5.11.補足事項10
1.5.12.補足事項11
<1.本開示の実施形態>
[1.1.概要]
まず、図面を参照しながら、本開示の一実施形態に係る情報処理装置の概要について説明する。図1および図2は、本開示の一実施形態に係る情報処理装置の概要について説明するための図である。本開示の一実施形態においては、図1および図2に示すように、情報処理装置10とユーザ80とが登場する。
なお、本明細書においては、情報処理装置10がエージェントとして機能する場合を主に想定する(本明細書においては、情報処理装置をエージェントと称することがある。)。ここで、エージェントは、ユーザによって発せられた音声(以下、「ユーザ発話」とも言う。)を音声情報として受け取り、この音声情報に対する音声認識結果に応じた処理結果をユーザに提供する装置であり得る。
エージェント10は、図1に示すように、PC(Personal Computer)型のエージェント10−1として実現され得る。図1に示した例では、表示部150にエージェントのキャラクタ画像Chが表示されている。あるいは、エージェント10は、図2に示すように、ロボット型のエージェント10−2としても実現され得る。以下では、エージェント10がPC型のエージェント10−1によって実現される例を主に説明するが、エージェント10がロボット型のエージェント10−2によって実現される例も適宜説明する。
近年では、PC(Personal Computer)およびモバイルなどといった電子機器を使うのが困難である老人を中心として、インターネットを利用して誰もが簡単に買い物することを可能とする技術が望まれている。かかる技術の実現のためには、ユーザが難しいGUI(Graphical User Interface)などを操作することなく、図1および図2に示すように、ユーザとエージェント10との対話(特に自然言語での対話)により商品の購入を可能とするサービスを提供することが必要である。
例えば、このようなサービスとして、ユーザが「お米を買いたい」と発話するだけで目的のお米の購入を可能とするサービスが一般的にイメージされると推定される。しかし、実際には「お米を買いたい」というユーザ発話に基づいて検索が実行された場合には、候補となる「お米」が大量に見つかってしまうため、ユーザが目的のお米を購入するためには、お米の品種、量、産地およびブランドなどといった複数の条件を設定する必要がある。
図1および図2に示された例では、「お米」という条件に「2キロ」という量についての条件を加えるようにユーザ80から発話がなされている。この例のように、一般的なイメージとは裏腹に、音声情報だけを用いてユーザが目的の商品にたどり着くことは難しいと言える。したがって、本明細書においては、音声情報による操作と目的の商品の選択を助けるための視覚情報とを組み合わせることにより、簡単に目的の商品の選択および購入を可能とする技術を主に提案する。
例として、あるEC(electronic commerce)サイトにおいて「お米」というキーワードを用いた検索が実行された場合、検索結果として数千件の候補が見つかる。つまり、ユーザが最終的に目的の商品を購入するためには、数千件の候補から目的の商品(例えば、1件)が残るまで絞り込みを行う必要がある。具体的に、ユーザは、購入したい商品を示すメインワード(例えば、「お米」などといった商品の名称)をもとに、下記のような2つの作業のいずれかを行う必要がある。
1つめの作業として、商品の重さ、種別およびブランドなどといった各種条件を設定し、各種条件を検索に用いることによって、検索だけによって目的の商品が残るまで絞り込みを行う作業が挙げられる。2つめの作業として、同様にして各種条件を検索に用いることによって、検索によってある程度の数の商品が残るまで絞り込みを行い、残った商品のリストから商品を一つずつ取捨選択しながら目的の商品が残るまで絞り込みを行う作業が挙げられる。
これらの例によって示されるように、ユーザがECサイトにおいて目的の商品にたどり着くためには、目的の商品を示すメインワードを最初にユーザに入力させ、このメインワードを起点として、絞り込みのための条件に利用されるキーワードを、簡単かつ適切にユーザに入力させることが重要となる。
図1および図2を参照しながら、エージェント10の概要について説明した。
[1.2.機能構成例]
続いて、エージェント10の機能構成例について説明する。図3は、エージェント10の機能構成例を示す図である。図3に示したように、エージェント10は、音出力部111、音声入力部113、非音声入力部114、距離検出部115、制御部120、記憶部130、通信部140および表示部150を有している。また、エージェント10は、通信ネットワーク931を介して意図理解器30およびサーバ装置40と接続されている。通信ネットワーク931は、例えば、インターネットにより構成される。
音出力部111は、音を出力する機能を有する。例えば、音出力部111は、スピーカを含んでおり、スピーカによって音を出力する。音出力部111に含まれるスピーカの数は1以上であれば特に限定されない。そして、音出力部111に含まれる1以上のスピーカそれぞれが設けられる位置も特に限定されない。なお、音出力部111は、音を出力する機能を有すれば、スピーカ以外の形態(例えば、イヤホン、ヘッドセットなど)の音出力装置を含んでもよい。
音声入力部113は、集音によって音を得る機能を有する。例えば、音声入力部113は、マイクロフォンを含んでおり、マイクロフォンによって集音する。音声入力部113に含まれるマイクロフォンの数は1以上であれば特に限定されない。そして、音声入力部113に含まれる1以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。なお、音声入力部113は、音情報を集音する機能を有すれば、マイクロフォン以外の形態の集音装置を含んでもよい。
非音声入力部114は、音声以外の情報を得る機能を有する。本明細書においては、非音声入力部114がタッチパネルおよび撮像装置を備える例を主に説明する。タッチパネルは、ユーザによる押下操作を検出し得る。また、撮像装置は、撮像によって得られた画像からユーザのジェスチャおよび視線を検出し得る。しかし、非音声入力部114は、かかる例に限定されない。例えば、非音声入力部114は、押下操作を検出するボタンを備えてもよい。また、非音声入力部114は、ユーザの動きを検出するモーションセンサを備えてもよい。モーションセンサは、加速度センサによって加速度を検出してもよいし、ジャイロセンサによって角速度を検出してもよい。
距離検出部115は、ユーザまでの距離を検出する機能を有する。例えば、距離検出部115は測距センサを含んでおり、測距センサによって検出されたユーザまでの距離を取得する。測距センサが設けられる位置は特に限定されない。また、測距センサの種類は特に限定されない。例えば、測距センサは、赤外線距離センサであってもよいし、超音波距離センサであってもよい。
通信部140は、通信ネットワーク931を介して通信ネットワーク931に接続されたサーバ装置40および意図理解器30と通信を行う機能を有する。例えば、通信部140は、通信インターフェースにより構成される。なお、通信ネットワーク931に接続されるサーバ装置40は、1つであってもよいし、複数であってもよい。本明細書においては、サーバ装置40がエージェント10にECサイトを提供する例を主に説明する。
記憶部130は、制御部120によって実行されるプログラムを記憶したり、プログラムの実行に必要なデータを記憶したりする記録媒体である。また、記憶部130は、制御部120による演算のためにデータを一時的に記憶する。記憶部130は、磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または、光磁気記憶デバイスなどにより構成される。
表示部150は、各種の画面を表示する機能を有する。本実施形態においては、表示部150がプロジェクタである場合を主に想定するが、表示部150の種類は限定されない。例えば、表示部150は、ユーザに視認可能な表示を行うことが可能なディスプレイ(表示装置)であればよく、液晶ディスプレイであってもよいし、有機EL(Electro−Luminescence)ディスプレイであってもよい。また、本明細書においては、表示部150が比較的高い位置(例えば、壁など)に表示を行ったり、比較的低い位置(例えば、エージェントのお腹、ユーザの手元など)に表示を行ったりする場合を主に想定するが、表示部150が表示を行う位置も限定されない。
制御部120は、エージェント10の各部の制御を実行する。図4は、制御部120の詳細構成例を示す図である。図4に示したように、制御部120は、データ取得部121、認識部122、提供部123および処理部124を備える。これらの各機能ブロックについての詳細は、後に説明する。なお、制御部120は、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてよい。制御部120がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成されてよい。
なお、以下の説明において、音声(voiceまたはspeech)と音(sound)とは区別して用いられる。すなわち、音声(voiceまたはspeech)は、音声入力部113によって集音された音のうち、主にユーザ発話を示すのに対し、音(sound)は、ユーザ発話の他、物音などをも含み得る。
以上、本実施形態に係るエージェント10の機能構成例について説明した。
[1.3.機能詳細]
(1.3.1.画面構成例)
続いて、エージェント10の機能詳細について説明する。まず、PC型のエージェント10−1の表示部150によって表示される画面例について説明する。図5は、PC型のエージェント10−1の表示部150によって表示される画面例を示す図である。図5に示すように、表示部150によって画面G10が表示される。画面G10には、キャラクタ画像表示エリアG20が含まれる他、EC画面G30が含まれる。
キャラクタ画像表示エリアG20は、キャラクタ画像Chおよびその背景画像を含んでいる。キャラクタ画像Chは、ユーザに対して対話を喚起させたり愛着を湧かせたりするようなキャラクタの画像であるのがよい。キャラクタ画像Chが表示されることによって、ユーザがエージェント10−1との間で対話を行いやすくなる。なお、キャラクタ画像表示エリアG20は特に存在していなくてもよい。あるいは、キャラクタ画像Chを省略し、背景画像のみを表示しても良い。
EC画面G30には、検索ワード(以下、「検索キー」とも言う。)が表示される検索キー表示エリアG31および商品リストが表示される商品リスト表示エリアG32が含まれる。検索キー表示エリアG31には、ユーザ発話から音声認識処理によって得られた検索キー(例えば、メインワードおよび絞り込みワード)が表示される。例えば、メインワード(以下、「メインキー」とも言う。)は、商品名であり、絞り込みワード(以下、「絞り込みキー」とも言う。)は、商品の重さ、種別およびブランドなどであってよい。商品リスト表示エリアG32には、検索キーを用いた検索によって取得された商品に関する情報の一覧(商品リスト)が表示される。
例えば、ユーザが「お米を買いたい」と発話すると、エージェント10−1のデータ取得部121は、音声入力部113を介してユーザ発話「お米を買いたい」を取得し、認識部122は、ユーザ発話「お米を買いたい」から商品名「お米」を抽出し、商品名が「お米」である一つまたは複数の商品に関する情報を商品名「お米」に関連付けられた検索結果として取得する。そして、提供部123は、商品リスト表示エリアG32に「お米」に関連付けられた検索結果を表示する。なお、商品名として、「お米」のような一般名称だけでなく固有の商品名が認識されてもよい。例えば、固有の商品名として商標権により保護されている商品名が認識されてもよい。
続いて、ユーザが「洗剤を買いたい」と発話すると、同様にして、処理部124は、商品名が「洗剤」である一つまたは複数の商品に関する情報を商品名「洗剤」に関連付けられた検索結果として取得する。そして、提供部123は、商品リスト表示エリアG32の表示を、「お米」に関連付けられた検索結果から「洗剤」に関連付けられた検索結果に切り替える。
(1.3.2.商品絞り込み時の対話例)
基本的には、最初に商品名をメインキーとした検索がなされるが、商品名を検索キーとして利用するだけでは、目的の商品だけが残るように絞り込みを行うことができない場合がある。かかる場合には、ユーザが追加的に絞り込みワード(商品絞り込みのための検索キー)を入力する必要がある。例えば、ユーザは、品種、量、産地およびブランドなどの絞り込みキーを「お米」というメインキーに付加していく必要がある。
例えば、最初にユーザが「お米が欲しい」と発話した場合、ユーザ発話「お米が欲しい」から商品名「お米」が抽出され、商品名「お米」が商品選択のためのメインキーとして入力される。そして、サーバ装置40(ECサイト)において、メインキー「お米」を検索キーとして用いた商品検索が実行される。
続いて、ユーザが「5Kgを加えて」と発話した場合、ユーザ発話「5Kgを加えて」から商品の量「5Kg」が抽出され、量「5Kg」が絞り込みキーとして入力される。そして、サーバ装置40(ECサイト)において、メインキー「お米」と絞り込みキー「5Kg」とがand条件として組み合わされた検索キー「お米+5Kg」を用いた商品検索が実行される。
続いて、ユーザが「AAA(銘柄)を加えて」と発話した場合、ユーザ発話「AAA(銘柄)を加えて」から商品の銘柄「AAA」が抽出され、銘柄「AAA」が絞り込みキーとして入力される。そして、サーバ装置40(ECサイト)において、メインキー「お米」と絞り込みキー「5Kg」と絞り込みキー「AAA」とがand条件として組み合わされた検索キー「お米+5Kg+AAA」を用いた商品検索が実行される。
続いて、ユーザが「決定」と発話し、認識部122によって「決定」が認識されると、サーバ装置40(ECサイト)においては、検索によって見つかった商品の購入処理(検索によって見つかった商品をカートに入れる処理、または、検索によって見つかった商品の決済処理)を行う。続いて、ユーザが「マヨネーズが欲しい」と発話した場合、同様にして、サーバ装置40(ECサイト)において、メインキー「マヨネーズ」を検索キーとして用いた商品検索が実行される。
(1.3.3.商品絞り込み時の画面構成例)
続いて、商品絞り込み時の画面構成例について説明する。図6は、商品絞り込み時の画面構成例を説明するための図である。図6を参照すると、ユーザ発話の各段階が示されており、ユーザ発話の各段階に対応した「ロボット型エージェント」「2D型エージェントUI遷移」および「エージェントの処理」が示されている。
「ロボット型エージェント」は、エージェント10がロボット型のエージェント10−2である場合におけるロボット型のエージェント10−2の外観例を示している。「2D型エージェントUI遷移」は、エージェント10がPC型のエージェント10−1である場合において、PC型のエージェント10−1によって表示される画面G10の例を示している。「エージェントの処理」は、エージェント10が実行する処理の例を示している。
例えば、「ユーザ発話」に示すように、ユーザが「お米を買いたい」と発話した場合、「エージェントの処理」に示すように、データ取得部121は、音声入力部113を介してユーザ発話「お米を買いたい」を取得し、認識部122は、ユーザ発話「お米を買いたい」から商品名「お米」を抽出する。サーバ装置40(ECサイト)において、商品名が「お米」である商品リストが検索されると、処理部124は、商品リストを取得する。そして、提供部123は、取得された商品リストをEC画面G30に表示する。
続いて、「ユーザ発話」に示すように、ユーザが「5kgを加えて」と発話した場合、ユーザ発話「5Kgを加えて」から商品の量「5Kg」が抽出され、量「5Kg」が絞り込みキーとして入力される。そして、「エージェントの処理」に示すように、サーバ装置40(ECサイト)において、メインキー「お米」と絞り込みキー「5Kg」とがand条件として組み合わされた検索キー「お米+5Kg」を用いた商品検索が実行される。
続いて、「ユーザ発話」に示すように、ユーザが「AAA(銘柄)を加えて」と発話した場合、ユーザ発話「AAA(銘柄)を加えて」から商品の銘柄「AAA」が抽出され、銘柄「AAA」が絞り込みキーとして入力される。そして、「エージェントの処理」に示すように、サーバ装置40(ECサイト)において、メインキー「お米」と絞り込みキー「5Kg」と絞り込みキー「AAA」とがand条件として組み合わされた検索キー「お米+5Kg+AAA」を用いた商品検索が実行される。
続いて、「ユーザ発話」に示すように、ユーザが「それ買う」と発話し、認識部122によって「それ買う」が認識されると、サーバ装置40(ECサイト)においては、検索によって見つかった商品の購入処理(検索によって見つかった商品をカートに入れる処理、または、検索によって見つかった商品の決済処理)を行う。続いて、「ユーザ発話」に示すように、ユーザが「買い物終わり」と発話し、認識部122によって「買い物終わり」が認識されると、EC画面G30の表示が終了する。
ここで、EC画面G30が表示されていないタイミングで「AAA(銘柄)を加えて」とユーザが発話したとしても、「AAA(銘柄)」を絞り込みキーとして追加しないようにしてもよい(TPO(Time Place Occasion)、または、コンテキストに応じてユーザ発話に対する意図解釈が異なってもよい)。例えば、キャラクタ画像Chが着ている服、キャラクタ画像Chの背景画像に応じて、同じ発話に対して異なる解釈がなされてもよい。
さらに具体的には、キャラクタ画像Chがエプロンを着ている様子が表示されている場合(または、キャラクタ画像Chの背景にキッチンが表示されている場合)には、ユーザ発話が食材関連の意図を有していると解釈されるときにだけ、その意図解釈結果に基づいた処理が実行されてもよい(すなわち、表示情報に含まれる所定の要素の属性に基づいてユーザ発話に対する意図解釈がなされてよい)。
(1.3.4.状況に応じた意図解釈)
ユーザは、エージェント10に対して同じ発話を行ったとしても、状況に応じて発話の意図が異なることが想定される。例えば、ユーザは、エージェント10に対して「XXXを加えて」と発話を行ったとしても、以下に例を示すように、状況に応じてユーザ発話「XXXを加えて」の意図が異なることが想定される。
例えば、EC画面G30が表示されている状態であり、かつ、商品リスト表示エリアG32に商品リストが表示されていない状態においては、ユーザ発話「XXXを加えて」は、検索時の絞り込みキー「XXX」の追加を意図した発話であることが想定される。一方、EC画面G30が表示されている状態(商品絞り込み中の状態)であり、かつ、商品リスト表示エリアG32に商品リストが表示されている状態においては、カートへの新たな商品「XXX」の追加を意図した発話であることが想定される。
あるいは、教育関連のアプリケーション(以下、「アプリケーション」を単に「アプリ」と言う場合がある。)の画面が表示されている状態においては(例えば、数学の問題を解くための画面が表示されている状態においては)、ユーザ発話「XXXを加えて」は、何らかの数(例えば、既に入力された数)に対して「XXX」を足し合わせる演算を意図した発話であることが想定される。したがって、ユーザ発話に対する意図解釈は、状況に応じて異なるのがよい。
図7は、状況に応じた意図解釈の動作例を示すシーケンス図である。例えば、データ取得部121が、音声入力部113を介してユーザ発話「XXXを加えて」を取得し(S11)、認識部122が、ユーザ発話に対する音声認識処理を実行すると(S12)、データ取得部121は、表示部150によって表示されている情報(表示情報)に関連する情報(以下、「関連情報」とも言う。)の例として、表示情報と連動するアプリケーションの状態を取得し、チェックする(S13)。
以下では、関連情報が表示情報と連動するアプリケーションの状態である場合を説明するが、関連情報はアプリケーションの状態に限定されず、表示情報に関連する情報であればよい。アプリケーションの状態は、アプリケーションの種類(例えば、ECサイトのアプリケーション、教育関連のアプリケーションなど)を含み得る。また、アプリケーションの状態は、アプリケーションの実行段階(例えば、商品絞り込み中の状態、商品リストの表示状態など)をさらに含み得る。
表示情報と連動するアプリケーションは、表示情報を表示させるアプリケーションであってよいが、表示情報と連動するアプリケーションは、これに限定されず、表示情報と何らかの関係を有するアプリケーションであってよい。表示情報と連動するアプリケーションの状態は、提供部123によって、音声認識結果「XXXを加えて」とともに、意図理解器30に提供される(S14)。意図理解器30は、アプリケーションの状態に応じて音声認識結果の意図解釈を行う。そして、意図理解器30は、意図解釈結果をエージェント10に提供する(S15)。
表示情報が異なる場合には、意図解釈結果は異なっていてよい。より詳細には、表示部150によって表示される表示情報は、第1の関連情報と関連する第1の表示情報を含み得る。また、表示部150によって表示される表示情報は、第2の関連情報と関連する第2の表示情報を含み得る。そして、第1の関連情報に応じた意図解釈結果と、第1の関連情報とは異なる第2の関連情報に応じた意図解釈結果とは異なっていてよい。
意図理解器30は、アプリケーションの状態に応じて音声認識結果の意図解釈モードを決定し、決定した意図解釈モードに従って音声認識結果の意図を解釈する。ここで、意図理解器30は、アプリケーションの状態に応じて音声認識結果の意図解釈モードが決定されると、意図解釈モードを示す情報をエージェント10に提供し、エージェント10において、提供部123は、意図解釈モードを示す情報をユーザに提供する。
ここでは、提供部123が、意図解釈モードを示す情報を視覚情報として表示する例を想定する(S16)。しかし、意図解釈モードを示す情報は、視覚情報および音声情報の少なくとも一方によってユーザに提供されればよい。また、意図解釈モードを示す情報は、キャラクタ画像、アイコン画像、背景画像およびBGMのうち少なくともいずれか一つを含んでよい。
図8は、意図解釈モードを示す情報の表示例を示す図である。図8に示す例では、意図解釈モードを示す情報が、キャラクタ画像Ch、アイコン画像G21、背景画像G22およびBGM(T10)を含んでいる。しかし、これらの少なくともいずれか一つが意図解釈モードを示す情報に含まれていてもよい。
キャラクタ画像Chは、意図解釈モードに対応する服を着ているように表示されれば、その服によって意図解釈モードを示す情報を表現し得る。このとき、服に特定のシンボルまたはマーク(例えば、企業ロゴなど)が付加されれば、そのシンボルまたはマークによって意図解釈モードを示す情報が表現され得る。なお、服の代わりに他の着用可能な物(例えば、帽子など)が表示されてもよい。あるいは、キャラクタ画像Chは、キャラクタそのものによって意図解釈モードを示す情報を表現してもよい。
アイコン画像G21は、その形状または色によって意図解釈モードを示す情報を表現し得る。例えば、アプリケーションの状態が商品絞り込み中の状態においては、アイコン画像G21はカートであってよい。あるいは、アプリケーションの状態が教育関連のアプリケーションの画面が表示されている状態においては、アイコン画像G21は電卓アイコンであってよい。
その他、背景画像G22は、背景に描かれる物または背景色によって意図解釈モードを示す情報を表現し得る。また、BGM(T10)は、意図解釈モードに対応する音(例えば、楽曲など)が出力されれば、その音によって意図解釈モードを示す情報を表現し得る。
図7に戻って説明を続ける。処理部124は、意図解釈結果に基づく処理を実行し(S17)、提供部123は、意図解釈結果に基づく処理結果をユーザに提供する。意図解釈結果に基づく処理結果がユーザに提供されれば、ユーザ発話の意図が考慮された処理結果がユーザに提供される。したがって、ユーザの所望する処理結果がユーザに提供される可能性を高めることが可能となる。例えば、処理結果は、視覚情報および音声情報の少なくともいずれか一方によってユーザに提供されればよい。
ここで、意図解釈結果に基づく処理の種類は特に限定されない。例えば、アプリケーションの状態が商品絞り込み中の状態である場合には、意図解釈結果に基づく処理は、「XXX」を検索キーとして追加する処理であってよい。あるいは、アプリケーションの状態が教育関連のアプリケーションの画面の表示状態である場合には、意図解釈結果に基づく処理は、何らかの数(例えば、既に入力された数)に対して「XXX」を足し合わせる処理であってよい。
図9は、状況に応じた意図解釈がなされる場合におけるシステムの構成例を示す図である。図9に示すように、ユーザが「XXX(ここでは、2キロ)を加えて」と発話すると、エージェント10において、データ取得部121は、音声入力部113を介してユーザ発話「XXXを加えて」を取得し、認識部122は、「XXXを加えて」を音声認識結果として認識する。音声認識結果「XXXを加えて」とアプリケーション状態とは、意図理解器30に通知される。
アプリケーション状態の例としては、「エージェントからの状態通知(※1)」に示すように、「検索状態」「商品リスト表示状態」「XXXを足すという計算状態」などが挙げられる。意図理解器30は、音声認識結果「XXXを加えて」の意図を、アプリケーション状態に応じて解釈する。
例えば、意図理解器30は、「意図解釈結果(※2)」に示すように、アプリケーション状態が「検索状態」である場合、アプリケーション状態「検索状態」に対応して、音声認識結果「XXXを加えて」の意図を「検索キーにXXXを加える指示」であると解釈する。このとき、意図理解器30からエージェント10には、意図解釈結果「検索キーにXXXを加える指示」が提供され、エージェント10は、意図解釈結果「検索キーにXXXを加える指示」に応じた処理として、サーバ装置(ECサイト)40に対して、検索キーにXXXを加える処理を指示する。
また、意図理解器30は、アプリケーション状態が「商品リスト表示状態」である場合、アプリケーション状態「商品リスト表示状態」に対応して、音声認識結果「XXXを加えて」の意図を「商品リストにXXXを追加する指示」であると解釈する。エージェント10は、意図解釈結果「商品リストにXXXを追加する指示」に応じた処理として、サーバ装置(ECサイト)40に対して、商品リストにXXXを追加する処理を指示する。
また、意図理解器30は、アプリケーション状態が「XXXを足すという計算状態」である場合、アプリケーション状態「XXXを足すという計算状態」に対応して、音声認識結果「XXXを加えて」の意図を「計算式にXXXを加える指示」であると解釈する。エージェント10は、意図解釈結果「計算式にXXXを加える指示」に応じた処理として、サーバ装置(ECサイト)40に対して、計算式にXXXを加える処理を指示する。
(1.3.5.表示情報を見ているか否かに応じた対話)
表示情報がユーザによって見られている場合には、ユーザが処理結果を見ることが可能な状況であるため、処理結果は視覚的にユーザによって認識され得る。一方、表示情報がユーザによって見られていない場合には、ユーザが処理結果を見ることができない状況であるため、処理結果が視覚的にユーザによって認識され得ない。例えば、処理結果は、エージェント10が認識している状態(context;ユーザが入力した検索キーを含み得る)であり得る。
したがって、提供部123は、ユーザが表示情報を見ている場合と、ユーザが表示情報を見ていない場合とにおいて、異なる音声情報をユーザに提供するとよい。そうすれば、ユーザの状況に合わせた音声情報がユーザに提供される。ユーザが表示情報を見ているか否かは、ユーザの視線が表示情報の表示範囲内に存在するか否かによって判断され得る。なお、ユーザの視線は、例えば撮像によって得られたユーザの画像から得られる、ユーザの眼球表面のプルキニエ像に基づいて推定され得る。
なお、ユーザが表示情報を見ているか否かは、ユーザの視線に関連する情報以外の種々の情報に基づいて推定され得る。例えば、撮像によって得られたユーザの画像に基づいて判定されるユーザの向きに基づいて、ユーザが表示情報を見ているか否かが推定されても良い。ここで、ユーザの向きはユーザの顔の向きと見做されても良く、あるいはユーザの体全体の向きと見做されても良い。これらのユーザの向きは、画像中に含まれるユーザの顔や体全体の特徴量から推定され得る。あるいは、ユーザがウェアラブルデバイスを装着している場合、ウェアラブルデバイスの向きを示すセンサ情報に基づいてユーザが表示情報を見ているか否かが推定されても良い。ウェアラブルデバイスの一例としてはヘッドマウントディスプレイが挙げられる。ウェアラブルデバイスはヘッドマウントディスプレイに限られず、リストバンド型、ネックバンド型等の種々の形態が採用されてよい。また、センサ情報としては、加速度情報、角加速度情報、撮像画像情報等が採用され得る。
例えば、エージェント10から提供される音声情報が増えるとユーザが音声情報を聞く時間が増えてしまうために、ユーザが目的の商品にたどり着くまでに時間が掛かってしまう。したがって、ユーザが処理結果を見ることが可能な状況においては、処理結果が視覚情報によってユーザに提供されるのが望ましい。一方で、ユーザが処理結果を見ることができない状況においては、処理結果の一部または全部が音声情報によってユーザに提供されるのが望ましい。
したがって、提供部123は、ユーザが表示情報を見ていない場合には、ユーザが表示情報を見ている場合よりも、詳細な音声情報をユーザに提供すればよい。より詳細には、提供部123は、ユーザが表示情報を見ている場合には、処理結果を少なくとも視覚情報としてユーザに提供し、ユーザが表示情報を見ていない場合には、視覚情報に対応する音声情報(視覚情報と同等の音声情報)を詳細な音声情報としてユーザに提供してもよい。
具体例を説明する。ユーザが「お米を買いたい」と発話し、エージェント10がEC画面G30を表示した後に、ユーザが「XXXを加えて」と発話した場合を想定する。かかる場合、提供部123は、ユーザが表示情報を見ている場合には、「はい」という音声情報を提供し、EC画面G30に検索キーを表示し、その検索キーを用いた検索結果と検索結果件数とを表示する。
一方、提供部123は、ユーザが表示情報を見ていない場合には、処理内容「XXXを絞り込みキーとして検索キーに加えますね」を音声情報によって提供する。これによって、ユーザによる入力が正しかったか否かも確認され得る。また、エージェント10は、EC画面G30に絞り込みキーを追加し、メインキーと絞り込みキーとを用いた検索結果件数を音声情報「絞り込みの結果はN件です」によって提供し、次の動作をユーザに促す音声情報「絞り込みキーをさらに追加しますか?」を提供する。
図10は、表示情報を見ているか否かに応じた対話の動作例を示すシーケンス図である。図10に示した例は、図7に示した例と比較して、提供部123が、ユーザが画面(すなわち、表示情報)を見ているか否かを認識し(S21)、ユーザが画面を見ているか否かを追加的に意図理解器30に提供する点(S22)が異なっている。この例においては、意図理解器30は、ユーザが画面を見ているか否かにさらに応じて、音声認識結果の意図を解釈する。
また、図10に示した例は、図7に示した例と比較して、提供部123が、ユーザが画面を見ているか否かにさらに応じた発話(音声情報の提供)を行う点(S23)が異なっている。例えば、提供部123は、ユーザが表示情報を見ている場合には、エージェント10は「はい」という音声情報を提供する。一方、提供部123は、ユーザが表示情報を見ていない場合には、検索結果件数を音声情報「絞り込みの結果はN件です」によって提供する。
(1.3.6.EC画面の表示例)
EC画面G30の表示例について説明する。図11は、EC画面G30の表示例を示す図である。図11に示すように、表示部150によって表示される画面G10には、EC画面G30が含まれ得る。ECサイトによる検索が行われると、EC画面G30には、検索によって得られた商品リストが表示される。図11に示された例では、商品リストとして、商品1〜4が表示されている。
ここで、ユーザが決定を示す発話(図11に示した例では、「それ」という発話)を行い、エージェント10において、決定を示す発話が認識されると、意図理解器30は、アプリの状態および画面状態に基づいて、フォーカスが当たっている商品を特定する。その後、特定された商品の購入処理が実行される。アプリの状態および画面状態は、EC.Select.Recommendなどの指示によって、エージェント10から意図理解器30に通知される。
図11に示した例では、商品リストの中で一番購入される可能性が高い商品(商品1)にフォーカスが当てられている。しかし、フォーカスが当てられる商品は、ユーザの操作によって適宜に変更されてよい。あるいは、フォーカスは商品に当てられていなくてもよく、商品を選択する発話(例えば、右から3番目)によって、購入商品が選択されてもよい。このとき、選択された商品が強調表示されてもよい。
(1.3.7.絞り込みを支援する技術)
上記においては、ユーザに絞り込みキーを入力させる例を示した。かかる例によれば、ユーザは、絞り込みキーの入力によって目的の商品にたどり着くことが可能である。しかし、現実的には、ユーザは商品に対してどのような絞り込みキーを入力すべきか判断しにくい場合もあり得る。すなわち、絞り込みキーをユーザが自力で思いついて、最短距離で商品にたどり着くのは困難である場合もあり得る。
そこで、ユーザによる絞り込みキーの入力を支援するために、検索サイトまたはECサイトにおいて行われているサジェスチョンのような仕掛け(候補ワードの表示など)が実行されるとよい。まず、一般的なECサイトにおいて行われているサジェスチョンについて説明する。
図12は、一般的なECサイトにおいて表示される検索キー表示エリアの例を示す図である。図12を参照すると、ユーザによって入力された検索キーK11が表示されている。また、図12を参照すると、検索キーK11に関連するワードが、候補ワードK12として表示されている。候補ワードK12の表示によって、ユーザが商品の絞り込みのアシストがなされる。なお、候補ワードK12は、ユーザによる商品の検索履歴または購入履歴に基づいて作成される。
図13は、本開示の実施形態に係る絞り込みの支援を説明するための図である。図13に示すように、ユーザがメインキーの入力に際して「お米を買いたい」と発話すると、ユーザ発話に対して音声認識処理がなされ、第1の音声認識結果「お米を買いたい」とアプリケーションの状態とが意図理解器30に提供される。意図理解器30は、アプリケーションの状態に応じて第1の音声認識結果の意図解釈を行う。そして、意図理解器30は、意図解釈結果をエージェント10に提供する。
エージェント10においては、データ取得部121は、意図解釈結果から第1の入力ワード「お米」を抽出し、第1の入力ワード「お米」に対応する1または複数の候補ワードを含む候補リストを取得する。図13に示すように、提供部123は、検索キーK11「お米」を検索キー表示エリアG31に表示させるとともに、候補リストK13「5kg,10kg,2kg,無洗米」を検索キー表示エリアG31に表示させる。また、提供部123は、意図解釈結果に基づく処理結果をユーザに提供する。具体的に、提供部123は、検索キー「お米」の検索結果と検索結果件数とを商品リスト表示エリアG32に表示させる。
候補リストK13によって、ユーザによる絞り込みキーの選択が支援される。続いて、ユーザが候補リストK13「5kg,10kg,2kg,無洗米」から絞り込みキーとして「5kg」を選択し、「5kgを足して」と発話すると、ユーザ発話に対して音声認識処理がなされ、第2の音声認識結果「5kgを足して」とアプリケーションの状態とが意図理解器30に提供される。意図理解器30は、アプリケーションの状態に応じて第2の音声認識結果の意図解釈を行う。そして、意図理解器30は、意図解釈結果をエージェント10に提供する。
エージェント10においては、データ取得部121は、意図解釈結果から第2の入力ワード「5kg」を抽出し、第2の入力ワード「5kg」に対応する1または複数の候補ワードを含む候補リストを取得する。図13に示すように、提供部123は、検索キーK11「お米,5kg」を検索キー表示エリアG31に表示させるとともに、候補リストK13「無洗米,XXX(銘柄)」を検索キー表示エリアG31に表示させる。また、提供部123は、意図解釈結果に基づく処理結果をユーザに提供する。具体的に、提供部123は、検索キー「お米+5kg」の検索結果と検索結果件数とを商品リスト表示エリアG32に表示させる。
ここで、ユーザ発話をシンプルかつノイズに強くするための工夫がなされてもよい。図14は、ユーザ発話をシンプルかつノイズに強くするための工夫を説明するための図である。例えば、メインキー入力に際して「お米を買いたい」と発話され、絞り込みキー入力に際して「5kg」と発話された場合を想定する。すなわち、発話に指示ワード(図14に示した例では、「を足して」)が含まれていない場合を想定する。このとき、エージェント10によって第2の音声認識結果「5kg」が得られ、第2の入力ワード「5kg」が得られる。なお、本明細書において“指示ワード”とは、“入力ワード”に関してどのような処理を行うのかを情報処理装置10に対し指示するための発話として見做されてよい。例えば、「を買いたい」、「を足して」等の動詞が“指示ワード”に相当すると見做されてもよい。
図14を参照すると、第2の入力ワード「5kg」が候補リストK13に含まれている。このような場合、提供部123は、第2の音声認識結果「5kg」に指示ワードが含まれていない場合であっても、第2の入力ワード「5kg」に応じた意図解釈結果に基づく処理結果をユーザに提供するとよい。具体的には、提供部123は、第2の入力ワード「5kg」を絞り込みキーとしてメインキー「お米」に追加し、検索キー「お米、5kg」による検索結果をユーザに提供するとよい。これによって、ユーザ発話がシンプルかつノイズに強くなることが期待される。
なお、候補リストK13のすべてが表示されていなくてもよい。すなわち、図14には、候補ワード「5kg」が表示されている例を示したが、候補ワード「5kg」が表示されていなくてもよい。また、提供部123は、更なる商品の絞り込みが必要であるか否かをユーザに判断させるために、商品リストよりも先に検索結果数をユーザに提供してもよい。
また、提供部123は、ユーザ発話によって絞り込みキー「5kg」が追加されて新たな検索キー「お米、5kg」が生成されるたびに、新たな検索キー「お米、5kg」による検索結果をユーザに提供してもよい。あるいは、提供部123は、所定時間内にユーザが絞り込みキーを発話しなかった場合、候補リストK13に存在する候補ワード「5kg」が絞り込みキーとして追加された新たな検索キー「お米、5kg」による検索結果をユーザに提供してもよい。
上記した例では、第2の入力ワードが候補リストK13に含まれている場合を想定したが、第2の入力ワードが候補リストK13に含まれていない場合もあり得る。かかる場合、提供部123は、第2の音声認識結果に指示ワードが含まれている場合には、第2の入力ワードに応じた意図解釈結果に基づく処理結果をユーザに提供すればよい。
例えば、絞り込みキーの入力に際して、ユーザが「20kgを足して」と発話した場合を想定する。かかる場合、第2の入力ワード「20kg」は候補リストK13に含まれていないが、第2の音声認識結果「20kgを足して」に指示ワードが含まれている。そのため、提供部123は、第2の入力ワード「20kg」に応じた意図解釈結果に基づく処理結果をユーザに提供すればよい。具体的に、提供部123は、検索キー「お米+20kg」の検索結果と検索結果件数とを商品リスト表示エリアG32に表示させればよい。
一方、第2の入力ワードが候補リストK13に含まれていない場合、かつ、第2の音声認識結果に指示ワードが含まれていない場合も想定される。かかる場合には、提供部123は、第2の入力ワードを無視すればよい。
例えば、絞り込みキーの入力に際して、ユーザが「20kg」と発話した場合を想定する。かかる場合、第2の入力ワード「20kg」は候補リストK13に含まれておらず、第2の音声認識結果「20kg」に指示ワードが含まれていない。そのため、提供部123は、第2の入力ワード「20kg」を無視すればよい。具体的に、検索キー「お米+20kg」による検索は行われなくてよい。
ここで、候補リストに含まれる1または複数の候補ワードそれぞれは、属性を有している。例えば、候補ワード「2kg」は、属性「重さ」を有しており、候補ワード「XXX」は、属性「銘柄」を有している。上記した例では、候補リストに含まれる1または複数の候補ワードそれぞれが有する属性は特に考慮されていないが、それぞれの属性が考慮された上で、候補リストがユーザに提供されてもよい。そうすれば、ユーザは、属性を考慮に入れて候補ワードを選択することが可能である。
ここで、候補リストに含まれる1または複数の候補ワードそれぞれには属性情報があらかじめ関連付けられていてよい。そして、提供部123は、属性が考慮された候補リストの提供の例として、候補リストの少なくとも一部を対応する属性情報ごとにユーザに提供してもよい。以下では、一例として、作成された候補リストのすべてが属性情報ごとにユーザに提供される例を説明する。
図15は、候補リストを属性情報ごとにユーザに提供する例を説明するための図である。図15を参照すると、候補ワード「数字+kg」は、属性情報「重さ,重量,質量」に関連付けられた上で、辞書131に登録されている。また、これらの候補ワードのうち、候補ワード「数字+ML,L,CC」は、属性情報「容量,量」に関連付けられた上で、辞書131に登録されている。また、これらの候補ワードのうち、候補ワード「S会社,C会社」は、属性情報「メーカー,会社,ブランド」に関連付けられた上で、辞書131に登録されている。
また、図15を参照すると、複数の候補ワードの例として「2kg,5kg,10kg,・・・,XXX(銘柄),YYY(銘柄)」などが用意されている。このような複数の候補ワードは、辞書131に登録されている候補ワードと属性情報との関連付けに基づいて、属性情報ごとに分類される。
続いて、図15に示すように、ユーザがメインキーの入力に際して「お米を買いたい」と発話すると、上記したように、エージェント10において、データ取得部121は、第1の入力ワード「お米」に対応する1または複数の候補ワードを含む候補リストを取得する。提供部123は、検索キーK11「お米」を検索キー表示エリアG31に表示させるとともに、候補リストK13を属性情報ごとに検索キー表示エリアG31に表示させる。
候補ワード「2kg,5kg,10kg」の属性情報は「重さ」であり、候補ワード「XXX,YYY」の属性情報は「銘柄」である。ここで、複数の候補ワードの表示順序は、特に限定されない。例えば、複数の候補ワードの表示順序は、検索回数が多い順であってもよいし、商品の量が小さい順であってもよいし、購入回数が高い順であってもよい。
また、提供部123は、属性が考慮された候補リストの提供の例として、第2の音声認識結果の前に取得される第3の音声認識結果に属性情報が含まれる場合、属性情報に対応する候補リストの少なくとも一部をユーザに提供してもよい。以下では、一例として、第3の音声認識結果に含まれる属性情報に対応する候補リストのすべてが属性情報ごとにユーザに提供される例を説明する。
図16は、第3の音声認識結果に含まれる属性情報に対応する候補リストのすべてが属性情報ごとにユーザに提供される例を説明するための図である。図16を参照すると、図15に示した例と同様に、複数の候補ワードの例として「2kg,5kg,10kg,・・・,XXX(銘柄),YYY(銘柄)」などが想定されている。このような複数の候補ワードがあらかじめ用意されている。また、図16を参照すると、図15に示した例と同様に、辞書131の登録がなされている。
続いて、図16に示すように、ユーザがメインキーの入力に際して「お米を買いたい」と発話し、絞り込みキーの入力前に「重さは?」と発話すると、エージェント10において、データ取得部121は、第1の入力ワード「お米」に対応し、かつ、属性情報「重さ」に対応する1または複数の候補ワードを含む候補リストを取得する。提供部123は、検索キーK11「お米」を検索キー表示エリアG31に表示させるとともに、属性情報「重さ」に対応する候補リストK13を検索キー表示エリアG31に表示させる。
例えば、絞り込みキーの入力に際して、候補リストに存在しない重さ「3kg」が発話された場合には、ユーザ発話「3kg」に最も近い「2kg」が自動的に選択されてもよい。また、この例では、ユーザが属性を指定するための発話として「重さは?」を想定しているが、ユーザが属性を指定するための発話は、「重さは?」に限定されず、「メーカーは?」などであってもよい。また、上記と同様に、複数の候補ワードの表示順序は、特に限定されない。例えば、複数の候補ワードの表示順序は、検索回数が多い順であってもよいし、商品の量が小さい順であってもよいし、購入回数が高い順であってもよい。
ここで、ユーザによる入力が必須な検索キーは商品ごとにあらかじめ決められていてもよい。このとき、ユーザは、入力が必須であるが、まだ入力がされていない検索キーが存在する場合には、当該検索キーの属性を指定するための発話を行ってよい。ユーザは、かかる検索キーが複数存在する場合、サジェスチョンの順位(絞り込みキーとしての利用頻度が高い順)または必要度に応じて属性指定の順序を決めてもよい。
上記では、ユーザが商品購入に関係する発話をする場合を主に説明した。しかし、エージェント10がユーザ発話を受け付け可能である状態において、ユーザは商品購入とは関係しない発話をする可能性もある。そこで、エージェント10は、ユーザ発話が商品購入に関係するか否かを判断してもよい。
例えば、商品購入に関係する発話の形式を「XXXを加えて」といったように決められている場合、この形式に従ってユーザ発話が商品購入に関係するか否かを判断することが可能である。しかし、人間同士の会話のように文脈を読んで自然な対話ができるほうが望ましい。
そこで、提供部123は、音声認識結果に含まれる入力ワードがアプリケーションの状態に対応している場合にのみ、処理結果をユーザに提供すればよい。そうすれば、アプリケーションの状態に対応していない入力ワードは無効語としてブロックされる。以下では、アプリケーションの状態に対応していない入力ワードを無効語と言い、アプリケーションの状態に対応している入力ワードを有効語と言う場合がある。すなわち、有効語とはアプリケーションの操作に利用される入力ワードとして見做され良い。
より具体的には、エージェント10は、辞書131に登録されているデータに基づいて、アプリケーションの状態(例えば、商品絞り込み中の状態)に対応する1または複数の候補ワードをあらかじめ把握している。そのため、提供部123は、音声認識結果に含まれる入力ワードがこれらの候補ワードのいずれかとマッチした場合にのみ、その候補ワードを検索キーに追加することが可能である。
このような無効語のブロックは、ユーザ発話の音声認識処理の精度が低い状態においても(例えば、外乱などが含まれている場合においても)、有効に働くと考えられる。
また、ユーザの周囲に会話を行っている他のユーザが存在する場合などには、ユーザ発話と他のユーザによる会話との分離が難しく、ユーザ発話の音声認識処理を正確に行うことができない可能性がある。しかし、無効語のブロックによって、ユーザ発話の音声認識処理を部分的に誤ってもアプリケーションの状態に対応する入力ワードが検出されれば、正常に処理結果がユーザに提供される。
図17は、ユーザ発話に有効語が含まれる場合と有効語が含まれない場合それぞれにおける動作例を示す図である。ここでは、アプリケーションの状態が商品絞り込み中の状態となった場合を想定し、アプリケーションの状態が商品絞り込み中の状態となった後に、音声認識結果に含まれる入力ワードを判断する例を説明する。したがって、ユーザが買い物会話をする場合には、音声認識結果に有効語が含まれ、一般会話をする場合には、音声認識結果に有効語が含まれないと考えられる。ここで、一般会話とは、アプリケーションの状態に対応している入力ワードを含まない会話、すなわち有効語を含まない会話として見做されてよい。
図17に示すように、有効語が含まれるユーザ発話として「(1)ユーザがXXX(銘柄)はうまいよね」を想定し、有効語が含まれないユーザ発話として「(2)今日は暑いね」を想定する。それぞれのユーザ発話に対して音声認識処理がなされると(S31)、TEXT列として「XXXはうまいよね」および「今日は暑いね」が取得される。
ここで、エージェント10においては、サーバ装置(ECサイト)40から提供される1または複数の候補ワードに基づいて、アプリケーションの状態(商品絞り込み中の状態)に対応する1または複数の候補ワードがあらかじめ把握されている。そのため、提供部123は、TEXT列「XXXはうまいよね」およびTEXT列「今日は暑いね」とアプリケーションの状態に対応する1または複数の候補ワードとの間でTextマッチングによる文脈判定を行う(S32)。
TEXT列「XXXはうまいよね」には、候補ワード「XXX」にマッチする入力ワード「XXX」が含まれている。そのため、提供部123は、候補ワード「XXX」を検索キーに追加する旨を示す発話を生成する。一方、TEXT列「今日は暑いね」には、候補ワードにマッチする入力ワードが含まれていない。そのため、提供部123は、候補ワードの追加とは異なる一般的な発話を生成する(S33)。
続いて、提供部123は、「(1)ユーザがXXX(銘柄)はうまいよね」に対応する発話として、候補ワード「XXX」を検索キーに追加する旨を示す「XXXを検索キーに加えます」といった発話を提供する。一方、提供部123は、「(2)今日は暑いね」に対応する発話として、候補ワードの追加とは異なる一般的な発話の例として「そうですね!」といった発話を提供する。発話の提供は、視覚情報および音声情報の少なくともいずれか一方によってなされてよい。
図18は、候補リストがユーザに提供される場合におけるシステムの構成例を示す図である。図18に示すように、ユーザが「お米を買いたい」と発話すると、エージェント10において、データ取得部121は、音声入力部113を介してユーザ発話「お米を買いたい」を取得し、認識部122は、「お米を買いたい」を音声認識結果として認識する。音声認識結果「お米を買いたい」とアプリケーション状態とは、意図理解器30に通知される。
アプリケーション状態の例としては、「検索状態」「商品リスト表示状態」などが挙げられる。意図理解器30は、音声認識結果「お米を買いたい」の意図を、アプリケーション状態に応じて解釈する。意図理解器30からエージェント10には、意図解釈結果が提供され、エージェント10は、意図解釈結果に応じた処理として、サーバ装置(ECサイト)40に対して、検索キーに「お米」を設定する処理を指示する。
サーバ装置(ECサイト)40においては、検索履歴132および購入履歴133の少なくともいずれか一方に基づいて、候補リストK13を生成し、候補リストK13をエージェント10に提供する。エージェント10においては、候補リストK13がユーザに提供され、候補リストK13に含まれる複数の候補ワードのいずれかの発話を受け付ける。ここでは、候補ワード「2キロ」がユーザによって発話されたとする。
提供部123は、候補ワード(2キロ)を検索キーに追加し、検索キー「お米,候補ワード(2キロ)」をサーバ装置(ECサイト)40に提供する。サーバ装置(ECサイト)40においては、検索キー「お米,候補ワード(2キロ)」を用いた検索が実行され、検索結果がエージェント10に提供される。エージェント10においては、提供部123が、検索結果と検索結果件数とをユーザに提供する。
続いて、ECサイトを利用した商品の購入に係るエージェント10の動作例を説明する。図19は、ECサイトを利用した商品の購入に係るエージェント10の動作例を示すフローチャートである。図19に示すように、ユーザ発話による指定商品の購入指示がなされると(S41)、ユーザ発話による指定商品名の抽出がなされる(S42)。エージェント10においては、指定商品名による検索結果が取得される(S43)。
エージェント10は、検索結果件数が「0件」である場合には、商品名の入力を促すメッセージ「お探しの商品はありません。再度ご指定ください。」をユーザに提供する(S45)。エージェント10は、商品名の入力待ちを経て(S46)、S42に移行する。一方、エージェント10は、検索結果件数が「1件以上」である場合には、指定商品リストを表示し(S44)、指定商品名に対応する候補ワードがない場合には、S51に移行し、指定商品名に対応する候補ワードがある場合には、S61に移行する。
エージェント10は、指定商品名に対応する候補ワードがない場合には、ユーザに対する購入の意志を確認し(S51)、購入の意志が確認されたら購入処理を行い(S52)、次の商品を促す発話を行い(S53)、S46に移行する。一方、エージェント10は、指定商品名に対応する候補ワードがある場合には、候補ワードの表示を行い(S61)、ユーザ発話の入力待ちをする(S62)。ユーザ発話の入力があると、エージェント10は、ユーザ発話の意図チェックを行う(S63)。
エージェント10は、ユーザ発話に候補ワードとマッチする入力ワードが含まれない場合には、ユーザ発話が一般会話であると解釈し、商品の絞り込みを促す発話を行って(S64)、S62に移行する。一方、エージェント10は、ユーザ発話に候補ワードとマッチする入力ワードが含まれる場合には、既に検索が開始されている商品名に当該候補ワードを絞り込みキーとして追加し、S43に移行する。その他の場合(例えば、商品よりも上位カテゴリと一致する発話がなされた場合)、エージェント10は、既に検索が開始されている商品名とは異なる商品名を改めてユーザに指定させ、S42に移行する。
続いて、ECサイトを利用した商品の購入に係るシステム全体の動作例を説明する。図20は、ECサイトを利用した商品の購入に係るシステム全体の動作例を示すシーケンス図である。エージェント10は、音声処理部およびUI部を有している。図20に示すように、ユーザが「XXXを買いたい」と発話した場合を想定する(S71)。このとき、エージェント10には、ユーザ発話「XXXを買いたい」が入力され、音声処理部においてユーザ発話「XXXを買いたい」から商品名「XXX」が抽出される。音声処理部は、UI部にECサイトの起動指示と商品名「XXX」とを出力し(S72)、UI部は、ECサイトの起動指示を受け付けると、商品名「XXX」を含んだ検索情報をサーバ装置(ECサイト)40に出力する(S73)。
サーバ装置(ECサイト)40は、商品名「XXX」によって検索を実行し、検索結果と商品名「XXX」に対応する候補ワードとをUI部に返信する(S74)。UI部は、検索結果を表示するとともに(S75)、候補ワードを表示し、検索結果件数と候補ワードとを音声処理部に出力する(S76)。音声処理部は、絞り込みキーの入力を促すガイダンス「XXXに対する絞り込みキーを入力してください」を発話し(S77)。ユーザ発話があるまで待機する。
ユーザによって「YYY」が発話されると(S81)、音声処理部は、「YYY」が候補ワードであるか否かを確認する(S82)。なお、「YYY」が候補ワードであるか否かの確認は、サーバ装置(ECサイト)40によってなされてもよい。音声処理部は、「YYY」が候補ワードである場合、商品名「XXX」と候補ワード「YYY」とをUI部に出力し、UI部は、検索キー「XXX+YYY」を含んだ検索情報をサーバ装置(ECサイト)40に出力する(S84)。サーバ装置(ECサイト)40は、検索キー「XXX+YYY」によって検索を実行し、検索結果と検索キー「XXX+YYY」に対応する候補ワードとをUI部に返信する(S85)。
(1.3.8.属性情報の選択)
上記では、ユーザが発する音声によって検索キーを生成する例を説明した。しかし、ユーザが発する音声から認識されるテキストだけでは、そのテキストが何を意味しているかを判断するのが難しいこともある。図21は、一般的に検索に利用される画面G90の例を示す図である。図21に示すように、画面G90には、マイクアイコンG41が含まれている。ユーザによってマイクアイコンG41が選択され、音声「ベートーベン」が入力されると、音声「ベートーベン」が認識され、「ベートーベン」によって検索がなされる。
しかし、「ベートーベン」は、楽曲、アルバムおよびバンドのいずれにも該当してしまう。仮に、楽曲、アルバムおよびバンドすべてに対して検索を行うと、楽曲、アルバムおよびバンドそれぞれに対する検索結果が得られるため、ボタンG51〜G53のいずれかの選択によって絞り込みを行う必要が生じる。そこで、以下では、楽曲、アルバムおよびバンドといった属性情報を容易に選択することを可能にする技術について説明する。
なお、以下では、非音声入力部114が、表示部150によって画面表示がなされるタッチパネルを含み、各種操作を検出する場合を主に想定する。しかし、非音声入力部114は、タッチパネルに限定されない。例えば、非音声入力部114は、押下操作を検出可能なボタンを含んでもよい。あるいは、非音声入力部114は、撮像画像から認識したジェスチャまたは視線から各種操作を検出可能な撮像装置を含んでもよい。あるいは、非音声入力部114は、ユーザの動きから各種操作を検出可能なモーションセンサ(加速度センサ、ジャイロセンサなど)を含んでもよい。
図22は、属性情報の選択例を説明するための図である。図22に示すように、画面G10−1は、マイクアイコン(第1の音声入力部)G41と音声入力「ベートーベン」に関連付けられた属性情報(楽曲、アルバムおよびバンド)に応じたボタン(第2の音声入力部)G51〜G53とを含んでいる。属性情報は少なくとも1つ存在すればよい。ユーザは、非音声入力部114への入力(タッチ操作)によって、属性情報のいずれかを選択可能である。
あるいは、図22に示すように、マイクアイコンG41を含む画面G10−3が表示され、マイクアイコンG41が選択されている間、マイクアイコンG41の隣接する位置に、音声入力「ベートーベン」に関連付けられた属性情報に応じたボタンG51〜G53が表示されてもよい(画面G10−4)。表示されるボタンG51〜G53は、あらかじめ決められていてもよいし、ユーザの好みに依存して決定されてもよい。ユーザは、マイクアイコンG41からボタンG51〜G53のいずれかに至るまでフリック操作を行うことによって、属性情報のいずれかを選択可能である。
データ取得部121は、画面G10−1または画面G10−4において属性情報のいずれかが選択された場合、選択された属性情報に対応する1または複数の候補ワードを含む候補リストを取得する。例えば、属性情報「アルバム」が選択された場合、属性情報「アルバム」に対応する候補リストK13を取得する。画面G10−2は、候補リストK13を含んでいる。
ユーザは、属性情報「アルバム」に対応する候補リストK13を参照して発話を行うことが可能である。ユーザ発話に対して音声認識処理がなされると、提供部123は、属性情報「アルバム」に対応する候補リストK13に基づいて、音声認識結果の意図解釈結果に基づく処理結果をユーザに提供する。例えば、属性情報「アルバム」に対応する候補リストK13に含まれる候補ワードのいずれかが発話された場合、その候補ワードの意図解釈に基づく処理結果がユーザに提供される。
続いて、ECサイトを利用した楽曲の配信に係るシステム全体の動作例を説明する。図23は、ECサイトを利用した楽曲の配信に係るシステム全体の動作例を示すシーケンス図である。エージェント10は、音声処理部およびUI部を有している。図23に示すように、ユーザがアーティストボタンを押下した場合を想定する(S91)。GUI部は、ユーザ発話からアーティスト名を抽出するように指示を出す(S92)。
続いて、ユーザがアーティスト名「ベートーベン」を発話した場合を想定する(S93)。このとき、音声処理部は、このとき、エージェント10には、ユーザ発話「ベートーベン」が入力され、音声処理部においてユーザ発話「ベートーベン」からアーティスト名「ベートーベン」が抽出される。音声処理部は、UI部にECサイトの起動指示とアーティスト名「ベートーベン」とアーティストを示す情報とを出力し(S94)、UI部は、ECサイトの起動指示を受け付けると、アーティスト名「ベートーベン」とアーティストを示す情報とを含んだ検索情報をサーバ装置(ECサイト)40に出力する(S95)。
サーバ装置(ECサイト)40は、アーティスト名「ベートーベン」によって検索を実行し、検索結果とアーティスト名「ベートーベン」に対応する候補ワードとをUI部に返信する(S96)。UI部は、検索結果を表示するとともに(S97)、候補ワードを表示し、検索結果件数と候補ワードとを音声処理部に出力する(S98)。音声処理部は、絞り込みキーの入力を促すガイダンス「ベートーベンに対する絞り込みキーを入力してください」を発話し(S99)。ユーザ発話があるまで待機する。
ユーザによって楽曲ボタンが押下され(S101)、ユーザによって「BBB」が発話されると(S102)、音声処理部は、「BBB」が候補ワードであるか否かを確認する。なお、「BBB」が候補ワードであるか否かの確認は、サーバ装置(ECサイト)40によってなされてもよい。音声処理部は、「BBB」が候補ワードである場合、アーティスト名「ベートーベン」と候補ワード「BBB」と楽曲を示す情報とをUI部に出力し、UI部は、検索キー「ベートーベン+BBB」と楽曲を示す情報とを含んだ検索情報をサーバ装置(ECサイト)40に出力する(S104)。サーバ装置(ECサイト)40は、検索キー「ベートーベン+BBB」によって検索を実行し、検索結果と検索キー「ベートーベン+BBB」に対応する候補ワードとをUI部に返信する(S105)。
UI部は、検索結果を表示するとともに(S106)、候補ワードを表示し、検索結果件数と候補ワードとを音声処理部に出力する。音声処理部は、楽曲データの選択を促すガイダンスを発話し。ユーザ発話があるまで待機する。ユーザによって楽曲データが選択され、再生指示がなされると(S107)、UI部は、楽曲データの配信をサーバ装置(ECサイト)40に指示し(S108)、サーバ装置(ECサイト)40は、楽曲データをUI部に配信する(S109)。
なお、上記では、属性情報が一度選択される場合を主に想定している。しかし、複数の属性情報が階層的に構成されている場合も想定される。かかる場合には、ある属性情報の選択に続いて、当該属性情報に関連する属性情報が選択可能であってもよい。図24は、複数の属性情報が階層的に構成されている場合を説明するための図である。具体的には、属性情報「料理名」に対して、属性情報「中華」「フレンチ」が関連している。
このような場合には、図24に示すように、マイクアイコンG41が選択されている間、マイクアイコンG41の隣接する位置に、音声入力「ベートーベン」に関連付けられた属性情報に応じたボタンG61〜G63が表示されてもよい(画面G10−5)。ユーザは、マイクアイコンG41からボタンG61〜G63のいずれかに至るまでフリック操作を行うことによって、属性情報のいずれかを選択可能である。そして、ボタンG61が選択されたとする。
かかる場合、図24に示すように、ボタンG61が選択されている間、ボタンG61の隣接する位置に、属性情報「料理名」に関連付けられた属性情報に応じたボタンG71〜G72が表示されてもよい(画面G10−6)。ユーザは、ボタンG61からボタンG71〜G72のいずれかに至るまでフリック操作を行うことによって、属性情報「中華」「フレンチ」のいずれかを選択可能である。そして、ボタンG71が選択されたとする。
かかる場合には、属性情報「料理名」と属性情報「中華」とが選択されたことになる。そのため、これらの属性情報「料理名,中華」に対応する候補リストは、単に属性情報「料理名」に対応する候補リストよりも、絞り込み度合いが強まると考えられる。したがって、よりユーザの望む候補ワードがユーザに提供され得る。図25は、検索対象と検索対象に対応する属性情報(フリックによる表示内容)の例を示す図である。
上記した例では、ユーザによって音声入力がなされる例を説明した。しかし、音声入力がなされる場合に限らず、手動によって入力された検索キーに基づいて検索がなされる場合にも、同様な手法が適用され得る。図26は、手動によって入力された検索キーに基づいて検索がなされる場合を説明するための図である。
図26を参照すると、図24に示したマイクアイコンG41の代わりに、検索アイコンG42が表示されている。図26に示した例においても、図24に示した例と同様に、フリック操作によって属性情報が選択され、選択された属性情報に対応する候補リストがユーザに提供され得る。ユーザは、属性情報に対応する候補リストに含まれる候補ワードのいずれかを、新たな検索キーとして選択することが可能である。
(1.3.9.補足情報のアナウンス)
ここで、意図解釈結果に基づく処理に画像情報のロードが含まれる場合が想定される。かかる場合には、画像情報がロードされている時間が有効に利用されるとよい。図27は、画像情報がロード時間の例を示す図である。図27に示す例においては、意図解釈結果に基づく処理として、メインキー「お米」に対して、絞り込みキー「XXX(銘柄)」を追加する処理が実行される場合を想定している。
この意図解釈結果に基づく処理に画像情報のロードが含まれる場合、画像情報がロードされている時間が有効に利用されるとよい。例えば、提供部123は、意図解釈結果に基づく処理に画像情報のロードが含まれる場合、画像情報のロード中に、意図解釈結果に含まれる入力ワード(例えば、「お米」など)に対応する所定の補足情報を音声情報としてユーザに提供してもよい。補足情報は特に限定されないが、「お米」の絞り込みを価格が安い順に行うことができるといった情報などであってよい。
以上、本実施形態に係るエージェント10の機能詳細について説明した。
[1.4.ハードウェア構成例]
次に、図28を参照して、本開示の実施形態に係る情報処理装置(エージェント)10のハードウェア構成について説明する。図28は、本開示の実施形態に係る情報処理装置10のハードウェア構成例を示すブロック図である。
図28に示すように、情報処理装置10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理装置10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理装置10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理装置10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro−Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917は、情報処理装置10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。
ストレージ装置919は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
接続ポート923は、機器を情報処理装置10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High−Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理装置10と外部接続機器929との間で各種のデータが交換され得る。
通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
センサ935は、例えば、測距センサ、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば情報処理装置10の筐体の姿勢など、情報処理装置10自体の状態に関する情報や、情報処理装置10の周辺の明るさや騒音など、情報処理装置10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
[1.5.補足]
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
(1.5.1.計算における変形例の詳細)
エージェント10は、計算において音声認識をする場合、ECサイトにおけるサジェスチョンと同様に、認識したキーワードに応じて数学記号を予測表示してもよい。この変形例においては、エージェント10は、認識したキーワードに応じて、数学記号や数値等の計算に関連するキーワードのみを認識してもよい。
(1.5.2.補足事項1)
本開示の実施形態は、特定の装置、方法、プログラム、システムおよび記録媒体等に適用されてよい。例えば、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した制御部120が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
また、音声は、ユーザが接している端末から直接/間接的に取得され得る。また、音声認識結果の意図解釈は、端末/クラウドコンピューティングのいずれが実施してもよい。音声認識結果の意図解釈に限られず、各種処理はクラウドコンピューティング等の端末外部の処理部で実行されてよい。具体的な一例として、認識部122などは、通信ネットワーク931を介して接続された図示しないサーバなどに設けられてもよい。この場合には、エージェント10が当該サーバに通信ネットワーク931を介して接続されたクライアントに相当し得る。
(1.5.3.補足事項2)
本開示の実施形態および変形例によれば、例えば、文章作成のための音声入力がなされたのか、あるいは、エージェント10への音声指示がなされたのかを判別することができる。文章作成の一例としては、小説の執筆やビジネス文書の作成が挙げられる。
(1.5.4.補足事項3)
本開示の実施形態においては、実空間の画像認識情報に基づいて意図解釈モードが決定されてもよい。実空間の画像認識情報が取得される場合、ユーザのジェスチャ、実オブジェクトを含む環境情報に基づいて意図解釈モードが決定されてもよい。また、画像認識情報に含まれる特定用途の実オブジェクトに基づいて意図解釈モードが決定されてもよい。特定の実オブジェクトは、家電、調理器具等の一般家庭に備えられた実オブジェクトに限定されない。例えば、医療器具等の特殊用途の実オブジェクトが認識されてもよい。
あるいは、ユーザによる端末のボタン操作情報に基づいて意図解釈モードが決定されてもよい。
(1.5.5.補足事項4)
あるいは、特定機器に関連した情報に基づいて、意図解釈モードが決定されてもよい。このようなケースとしては、いわゆる家庭内におけるIoTの例が挙げられる。あるいは、特定の機器間で連携して処理が行われるケースにおいては、連携している機器の状態情報に基づいて、意図解釈入力モードが決定されてもよい。例えば、起動している機器(例えば、コーヒーメーカー、炊飯器など)に対応する意図解釈モードが決定されてもよい。ここで、機器間の連携は、有線/無線のいずれであってもよい。
(1.5.6.補足事項5)
本開示の実施形態は、医療用途にも適用され得る。医療用途においては、手術中等においてユーザが非接触で端末を操作入力する需要があるため、スムーズにキーワードが認識されることが有効である。また、非接触で操作入力できることは、感染症予防の観点からも有効である。
(1.5.7.補足事項6)
また、本開示の実施形態は、医療用途以外にも、工場、車両、農業等に適用され得る。例えば、車両、特に乗用車においては、車両の走行状態情報(速度、加速度、温度、SOC(State of Charge)、燃料の残量等)、ナビゲーション情報、車両内の音情報(音声、音楽等)等に基づいて、意図解釈モードが決定されてよい。例えば、車両が走行状態であるときには、主に道路交通情報、地図情報に関するキーワードが認識されるようにしてもよい。車両が停止状態であるときのみ、音楽等のエンターテイメントに関連したキーワードが認識されてもよい。車両のコンポーネントのいずれかに異常がある場合には、異常に関連したキーワードが認識されてもよい。
(1.5.8.補足事項7)
また、複数のユーザの属性情報を取得した場合、ユーザそれぞれの属性情報に応じて認識されるキーワードが切り替えられてもよい。すなわち、ある時点において、ユーザごとに異なる意図解釈モードが設定されていてもよい。
(1.5.9.補足事項8)
認識されたキーワードと認識されなかったキーワードが区別されて表示されてもよい。この場合、認識されなかったキーワードは、ユーザにわずかでも視認できる程度の視認性を有していればよい。例えば、認識されたキーワードの視認性が、認識されなかったキーワードの視認性よりも大きく設定されてもよい。この場合、例えば、視認性は、明度、輝度、サイズ、あるいは、太さの変更によって変更されてよい。例えば、視認性の変更には、フォント種類の変更、フォント彩度(色)の変更、フォントサイズの変更、太字、斜体、下線等の表示処理の付加、フォントに対するアニメーションの付加等、種々の方法が採用されてよい。
(1.5.10.補足事項9)
エージェント10は、視覚情報と音声情報の少なくとも一方を用いて意図解釈モードを示す情報を提供する。また、エージェント10は、提供している/提供した意図解釈モードを示す情報に基づいて、音声認識に応じて提供する意図解釈結果を異ならせる。この場合、意図解釈結果は、視覚情報と音声情報の少なくとも一方を用いて提供されればよい。エージェント10は、意図解釈モードを示す情報が異なる場合、提供する意図解釈結果の少なくとも一部を異ならせる。
エージェント10は、意図解釈モードを示す情報に基づいて、意図解釈結果の視覚情報を提供する。エージェント10は、意図解釈モードが異なる場合、音声認識に応じて提供する意図解釈結果の少なくとも一部を異ならせる。この場合、意図解釈モードを示す情報は、視覚情報と音声情報の少なくとも一方を用いてユーザに提供されてもよいが、ユーザに提供されなくてもよい。すなわち、設定されている意図解釈モードを示す情報が取得されればよく、取得された意図解釈モードを示す情報はユーザに提供されなくてもよい。
(1.5.11.補足事項10)
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
(1.5.12.補足事項11)
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
を備える、情報処理装置。
(2)
前記表示情報は、第1の関連情報と関連する第1の表示情報および第2の関連情報と関連する第2の表示情報の少なくとも一方を含み、
前記第1の関連情報に応じた意図解釈結果と、前記第1の関連情報とは異なる前記第2の関連情報に応じた意図解釈結果とは異なる、
前記(1)に記載の情報処理装置。
(3)
前記提供部は、前記関連情報に応じて音声認識結果の意図解釈モードが決定されると、前記意図解釈モードを示す情報をユーザに提供する、
前記(1)または(2)に記載の情報処理装置。
(4)
前記意図解釈モードを示す情報は、キャラクタ画像、アイコン画像、背景画像およびBGMのうち少なくともいずれか一つを含む、
前記(3)に記載の情報処理装置。
(5)
前記提供部は、前記処理結果を、視覚情報および音声情報の少なくとも一方によって前記ユーザに提供する、
前記(1)〜(4)のいずれか一項に記載の情報処理装置。
(6)
前記提供部は、前記ユーザが前記表示情報を見ている場合と、前記ユーザが前記表示情報を見ていない場合とにおいて、異なる音声情報を前記ユーザに提供する、
前記(5)に記載の情報処理装置。
(7)
前記提供部は、前記ユーザが前記表示情報を見ていない場合には、前記ユーザが前記表示情報を見ている場合よりも、詳細な音声情報を前記ユーザに提供する、
前記(6)に記載の情報処理装置。
(8)
前記提供部は、前記ユーザが前記表示情報を見ている場合には、前記処理結果を少なくとも視覚情報として前記ユーザに提供し、前記ユーザが前記表示情報を見ていない場合には、前記視覚情報に対応する音声情報を前記詳細な音声情報として前記ユーザに提供する、
前記(7)に記載の情報処理装置。
(9)
前記データ取得部は、前記関連情報に応じて第1の音声認識結果の意図解釈がなされると、意図解釈結果に含まれる第1の入力ワードに対応する1または複数の候補ワードを含む候補リストを取得し、
前記提供部は、前記候補リストに基づいて、前記第1の音声認識結果の後に取得される第2の音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
前記(1)〜(8)のいずれか一項に記載の情報処理装置。
(10)
前記提供部は、前記第2の音声認識結果に含まれる第2の入力ワードが前記候補リストに含まれている場合、かつ、前記第2の音声認識結果に前記第2の入力ワードの処理に関する指示ワードが含まれていない場合、前記第2の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
前記(9)に記載の情報処理装置。
(11)
前記提供部は、前記第2の音声認識結果に含まれる第2の入力ワードが前記候補リストに含まれていない場合、かつ、前記第2の音声認識結果に前記第2の入力ワードの処理に関する指示ワードが含まれている場合、前記第2の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
前記(9)または(10)に記載の情報処理装置。
(12)
前記提供部は、前記第2の音声認識結果に含まれる前記第2の入力ワードが前記候補リストに含まれていない場合、かつ、前記第2の音声認識結果に前記指示ワードが含まれていない場合、前記第2の入力ワードを無視する、
前記(10)または(11)に記載の情報処理装置。
(13)
前記提供部は、前記候補リストの少なくとも一部を前記ユーザに提供し、
前記提供部は、前記第2の音声認識結果の前に取得される第3の音声認識結果に属性情報が含まれる場合、前記属性情報に対応する前記候補リストの少なくとも一部を前記ユーザに提供する、
前記(9)〜(11)のいずれか一項に記載の情報処理装置。
(14)
前記提供部は、前記候補リストの少なくとも一部を前記候補リストに対応する属性情報ごとに前記ユーザに提供する、
前記(9)〜(11)のいずれか一項に記載の情報処理装置。
(15)
音声入力部と非音声入力部とを備え、
前記データ取得部は、音声入力に関連付けられかつ前記表示装置によって表示されている少なくとも1つの属性情報が前記非音声入力部への入力により選択された場合、前記選択された属性情報に対応する1または複数の候補ワードを含む候補リストを取得し、
前記提供部は、前記候補リストに基づいて、前記音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
前記(1)〜(8)のいずれか一項に記載の情報処理装置。
(16)
前記非音声入力部はタッチパネルであり、
前記表示装置は、前記タッチパネルに第1の音声入力部を表示し、
前記タッチパネルへのタッチ操作により前記第1の音声入力部が選択されている間、前記第1の音声入力部の隣接する位置に、前記属性情報に応じた少なくとも1つの第2の音声入力部を表示する、
前記(15)に記載の情報処理装置。
(17)
前記提供部は、前記音声認識結果に含まれる入力ワードが前記関連情報に対応している場合にのみ、前記処理結果を前記ユーザに提供する、
前記(1)〜(16)のいずれか一項に記載の情報処理装置。
(18)
前記提供部は、前記意図解釈結果に基づく処理に画像情報のロードが含まれる場合、前記画像情報のロード中に、前記意図解釈結果に含まれる入力ワードに対応する所定の補足情報を音声情報として前記ユーザに提供する、
前記(1)〜(17)のいずれか一項に記載の情報処理装置。
(19)
表示装置によって表示される表示情報に関連する関連情報を取得することと、
前記関連情報に応じて音声認識結果の意図解釈がなされると、プロセッサにより、意図解釈結果に基づく処理結果をユーザに提供することと、
を含む、情報処理方法。
(20)
コンピュータを、
表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
を備える情報処理装置として機能させるためのプログラム。
10 情報処理装置(エージェント)
111 音出力部
113 音声入力部
114 非音声入力部
115 距離検出部
120 制御部
121 データ取得部
122 認識部
123 提供部
124 処理部
130 記憶部
131 辞書
132 検索履歴
133 購入履歴
140 通信部
150 表示部
30 意図理解器
40 サーバ装置

Claims (20)

  1. 表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
    前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
    を備える、情報処理装置。
  2. 前記表示情報は、第1の関連情報と関連する第1の表示情報および第2の関連情報と関連する第2の表示情報の少なくとも一方を含み、
    前記第1の関連情報に応じた意図解釈結果と、前記第1の関連情報とは異なる前記第2の関連情報に応じた意図解釈結果とは異なる、
    請求項1に記載の情報処理装置。
  3. 前記提供部は、前記関連情報に応じて音声認識結果の意図解釈モードが決定されると、前記意図解釈モードを示す情報をユーザに提供する、
    請求項1に記載の情報処理装置。
  4. 前記意図解釈モードを示す情報は、キャラクタ画像、アイコン画像、背景画像およびBGMのうち少なくともいずれか一つを含む、
    請求項3に記載の情報処理装置。
  5. 前記提供部は、前記処理結果を、視覚情報および音声情報の少なくとも一方によって前記ユーザに提供する、
    請求項1に記載の情報処理装置。
  6. 前記提供部は、前記ユーザが前記表示情報を見ている場合と、前記ユーザが前記表示情報を見ていない場合とにおいて、異なる音声情報を前記ユーザに提供する、
    請求項5に記載の情報処理装置。
  7. 前記提供部は、前記ユーザが前記表示情報を見ていない場合には、前記ユーザが前記表示情報を見ている場合よりも、詳細な音声情報を前記ユーザに提供する、
    請求項6に記載の情報処理装置。
  8. 前記提供部は、前記ユーザが前記表示情報を見ている場合には、前記処理結果を少なくとも視覚情報として前記ユーザに提供し、前記ユーザが前記表示情報を見ていない場合には、前記視覚情報に対応する音声情報を前記詳細な音声情報として前記ユーザに提供する、
    請求項7に記載の情報処理装置。
  9. 前記データ取得部は、前記関連情報に応じて第1の音声認識結果の意図解釈がなされると、意図解釈結果に含まれる第1の入力ワードに対応する1または複数の候補ワードを含む候補リストを取得し、
    前記提供部は、前記候補リストに基づいて、前記第1の音声認識結果の後に取得される第2の音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
    請求項1に記載の情報処理装置。
  10. 前記提供部は、前記第2の音声認識結果に含まれる第2の入力ワードが前記候補リストに含まれている場合、かつ、前記第2の音声認識結果に前記第2の入力ワードの処理に関する指示ワードが含まれていない場合、前記第2の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
    請求項9に記載の情報処理装置。
  11. 前記提供部は、前記第2の音声認識結果に含まれる第2の入力ワードが前記候補リストに含まれていない場合、かつ、前記第2の音声認識結果に前記第2の入力ワードの処理に関する指示ワードが含まれている場合、前記第2の入力ワードに応じた意図解釈結果に基づく処理結果を前記ユーザに提供する、
    請求項9に記載の情報処理装置。
  12. 前記提供部は、前記第2の音声認識結果に含まれる前記第2の入力ワードが前記候補リストに含まれていない場合、かつ、前記第2の音声認識結果に前記指示ワードが含まれていない場合、前記第2の入力ワードを無視する、
    請求項10に記載の情報処理装置。
  13. 前記提供部は、前記候補リストの少なくとも一部を前記ユーザに提供し、
    前記提供部は、前記第2の音声認識結果の前に取得される第3の音声認識結果に属性情報が含まれる場合、前記属性情報に対応する前記候補リストの少なくとも一部を前記ユーザに提供する、
    請求項9に記載の情報処理装置。
  14. 前記提供部は、前記候補リストの少なくとも一部を前記候補リストに対応する属性情報ごとに前記ユーザに提供する、
    請求項9に記載の情報処理装置。
  15. 音声入力部と非音声入力部とを備え、
    前記データ取得部は、音声入力に関連付けられかつ前記表示装置によって表示されている少なくとも1つの属性情報が前記非音声入力部への入力により選択された場合、前記選択された属性情報に対応する1または複数の候補ワードを含む候補リストを取得し、
    前記提供部は、前記候補リストに基づいて、前記音声認識結果の意図解釈結果に基づく処理結果を前記ユーザに提供する、
    請求項1に記載の情報処理装置。
  16. 前記非音声入力部はタッチパネルであり、
    前記表示装置は、前記タッチパネルに第1の音声入力部を表示し、
    前記タッチパネルへのタッチ操作により前記第1の音声入力部が選択されている間、前記第1の音声入力部の隣接する位置に、前記属性情報に応じた少なくとも1つの第2の音声入力部を表示する、
    請求項15に記載の情報処理装置。
  17. 前記提供部は、前記音声認識結果に含まれる入力ワードが前記関連情報に対応している場合にのみ、前記処理結果を前記ユーザに提供する、
    請求項1に記載の情報処理装置。
  18. 前記提供部は、前記意図解釈結果に基づく処理に画像情報のロードが含まれる場合、前記画像情報のロード中に、前記意図解釈結果に含まれる入力ワードに対応する所定の補足情報を音声情報として前記ユーザに提供する、
    請求項1に記載の情報処理装置。
  19. 表示装置によって表示される表示情報に関連する関連情報を取得することと、
    前記関連情報に応じて音声認識結果の意図解釈がなされると、プロセッサにより、意図解釈結果に基づく処理結果をユーザに提供することと、
    を含む、情報処理方法。
  20. コンピュータを、
    表示装置によって表示される表示情報に関連する関連情報を取得するデータ取得部と、
    前記関連情報に応じて音声認識結果の意図解釈がなされると、意図解釈結果に基づく処理結果をユーザに提供する提供部と、
    を備える情報処理装置として機能させるためのプログラム。
JP2018516335A 2016-05-12 2016-08-19 情報処理装置、情報処理方法およびプログラム Pending JPWO2017195388A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662335419P 2016-05-12 2016-05-12
US62/335,419 2016-05-12
PCT/JP2016/074223 WO2017195388A1 (ja) 2016-05-12 2016-08-19 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JPWO2017195388A1 true JPWO2017195388A1 (ja) 2019-03-07

Family

ID=60266977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018516335A Pending JPWO2017195388A1 (ja) 2016-05-12 2016-08-19 情報処理装置、情報処理方法およびプログラム

Country Status (5)

Country Link
US (1) US11195517B2 (ja)
EP (1) EP3457297A4 (ja)
JP (1) JPWO2017195388A1 (ja)
CN (1) CN109074364A (ja)
WO (1) WO2017195388A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7409628B2 (ja) * 2018-04-05 2024-01-09 株式会社サウスポイント 結婚式における音楽選曲のための自動選曲システム
CN111222322B (zh) * 2019-12-31 2022-10-25 联想(北京)有限公司 信息处理方法和电子设备
JP2022050169A (ja) * 2020-09-17 2022-03-30 富士フイルムビジネスイノベーション株式会社 情報処理システム及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205523A (ja) * 2012-03-27 2013-10-07 Yahoo Japan Corp 応答生成装置、応答生成方法および応答生成プログラム
JP2015151059A (ja) * 2014-02-18 2015-08-24 本田技研工業株式会社 車載機器操作装置
JP2015531109A (ja) * 2012-07-15 2015-10-29 マイクロソフト テクノロジー ライセンシング,エルエルシー 自然動作入力を使用する文脈的クエリ調整
WO2016003510A1 (en) * 2014-06-30 2016-01-07 Apple Inc. Real-time digital assistant knowledge updates

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078552A1 (en) * 2006-01-13 2007-04-05 Outland Research, Llc Gaze-based power conservation for portable media players
JP2002041460A (ja) * 2000-07-31 2002-02-08 Oki Electric Ind Co Ltd ネットワーク上での情報提供方法及びシステム
US10437459B2 (en) * 2007-01-07 2019-10-08 Apple Inc. Multitouch data fusion
EP3125134B1 (en) * 2014-03-28 2018-08-15 Panasonic Intellectual Property Management Co., Ltd. Speech retrieval device, speech retrieval method, and display device
JP6355383B2 (ja) * 2014-03-28 2018-07-11 Kddi株式会社 電子機器、検索方法及びプログラム
US10317992B2 (en) * 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions
US10423303B1 (en) * 2016-09-29 2019-09-24 A9.Com, Inc. Progressive information panels in a graphical user interface

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205523A (ja) * 2012-03-27 2013-10-07 Yahoo Japan Corp 応答生成装置、応答生成方法および応答生成プログラム
JP2015531109A (ja) * 2012-07-15 2015-10-29 マイクロソフト テクノロジー ライセンシング,エルエルシー 自然動作入力を使用する文脈的クエリ調整
JP2015151059A (ja) * 2014-02-18 2015-08-24 本田技研工業株式会社 車載機器操作装置
WO2016003510A1 (en) * 2014-06-30 2016-01-07 Apple Inc. Real-time digital assistant knowledge updates

Also Published As

Publication number Publication date
CN109074364A (zh) 2018-12-21
US20200335087A1 (en) 2020-10-22
EP3457297A4 (en) 2019-08-14
US11195517B2 (en) 2021-12-07
WO2017195388A1 (ja) 2017-11-16
EP3457297A1 (en) 2019-03-20

Similar Documents

Publication Publication Date Title
US12067985B2 (en) Virtual assistant operations in multi-device environments
US11526368B2 (en) Intelligent automated assistant in a messaging environment
Khan et al. An insight into smartphone-based assistive solutions for visually impaired and blind people: issues, challenges and opportunities
US11853647B2 (en) Proactive assistance based on dialog communication between devices
AU2018282384B2 (en) Intelligent task discovery
US11093045B2 (en) Systems and methods to augment user interaction with the environment outside of a vehicle
US20210365174A1 (en) Digital assistant user interfaces and response modes
EP3414667B1 (en) Digital assistant providing automated status report
CN106104677B (zh) 所识别的语音发起的动作的视觉指示
CN107615378B (zh) 设备语音控制
US9720644B2 (en) Information processing apparatus, information processing method, and computer program
JP6229287B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
WO2015178078A1 (ja) 情報処理装置、情報処理方法及びプログラム
KR20180103136A (ko) 크리덴셜을 제공하는 음성 입력의 식별
KR20170105581A (ko) 가상 어시스턴트 연속성
JP2014203208A (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
WO2019231537A1 (en) Virtual assistant operation in multi-device environments
WO2017195388A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR20180103547A (ko) 휴대 장치 및 휴대 장치의 화면 제어방법
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
AU2017100557A4 (en) Digital assistant providing automated status report
KR102057936B1 (ko) 차량에 탑재 가능한 단말 장치 및 이와 연동하는 모바일 디바이스와, 이들의 서비스 제공 방법
CN112099720A (zh) 数字助理用户界面和响应模式
WO2018139050A1 (ja) 情報処理装置、情報処理方法およびプログラム
US20230409174A1 (en) Home automation device control and designation

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200707

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200728