JPWO2018034028A1 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JPWO2018034028A1
JPWO2018034028A1 JP2018534269A JP2018534269A JPWO2018034028A1 JP WO2018034028 A1 JPWO2018034028 A1 JP WO2018034028A1 JP 2018534269 A JP2018534269 A JP 2018534269A JP 2018534269 A JP2018534269 A JP 2018534269A JP WO2018034028 A1 JPWO2018034028 A1 JP WO2018034028A1
Authority
JP
Japan
Prior art keywords
display
utterance
information processing
unit
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018534269A
Other languages
English (en)
Other versions
JP6451907B2 (ja
Inventor
長坂 英夫
英夫 長坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Application granted granted Critical
Publication of JP6451907B2 publication Critical patent/JP6451907B2/ja
Publication of JPWO2018034028A1 publication Critical patent/JPWO2018034028A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

【課題】発話に基いて処理が実行される場面における利便性を向上させることが可能な、情報処理装置、情報処理方法、およびプログラムを提案する。
【解決手段】集音された発話を取得する取得部と、現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、を備える、情報処理装置。
【選択図】図9

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、例えばネットショッピングなどのEC(Electronic Commerce)に関する技術が各種開発されている。
例えば、下記特許文献1には、ネットショッピングにおいてユーザが商品名を音声入力することにより、当該商品名の商品を購入可能とする技術が記載されている。
特開2014−229278号公報
しかしながら、特許文献1に記載の技術では、音声入力の利用時の利便性が低い。例えば、特許文献1に記載の技術では、入力された音声の音声認識結果のみに依存して、実行される処理が決定されてしまう。
そこで、本開示では、発話に基いて処理が実行される場面における利便性を向上させることが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
本開示によれば、集音された発話を取得する取得部と、現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、を備える、情報処理装置が提供される。
また、本開示によれば、集音された発話を取得することと、現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、プロセッサが所定の処理を行うことと、を含む、情報処理方法が提供される。
また、本開示によれば、コンピュータを、集音された発話を取得する取得部と、現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部、として機能させるためのプログラムが提供される。
以上説明したように本開示によれば、発話に基いて処理が実行される場面における利便性を向上させることができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本開示の実施形態による情報処理システムの構成例を示した説明図である。 同実施形態による処理定義DB30の構成例を示した説明図である。 同実施形態によるECアプリを用いた商品の購入に関する全体的な処理の流れの一例を示したフローチャートである。 同実施形態による検索結果表示画面の表示例を示した図である。 同実施形態によるエージェント装置10の構成例を示した機能ブロック図である。 同実施形態による音声認識の一例を示した説明図である。 同実施形態による検索結果表示画面の別の表示例を示した図である。 同実施形態による複数の表示オブジェクトが選出された場合における問い合わせの情報の出力例を示した説明図である。 同実施形態による複数の表示オブジェクトの表示例、および、表示オブジェクトを選び出すための発話の例を示した説明図である。 同実施形態による複数の表示オブジェクトの中からの表示オブジェクトの選出例を示した説明図である。 同実施形態による複数の表示オブジェクトの中からの表示オブジェクトの別の選出例を示した説明図である。 同実施形態による複数の表示オブジェクトの中からの表示オブジェクトの別の選出例を示した説明図である。 表示画面40に対するスクロール操作と同時に発話が行われる例を示した説明図である。 同実施形態による選出対象の表示範囲の例を示した説明図である。 同実施形態による「現在の表示範囲」の例を示した説明図である。 同実施形態による、表示オブジェクトを連続的に選び出す発話の例を示した説明図である。 同実施形態による処理の流れの一部を示したシーケンス図である。 同実施形態による処理の流れの一部を示したシーケンス図である。 同実施形態の応用例による、発話に対する回答の情報の出力例を示した説明図である。 同実施形態の応用例による、発話に基づいて複数のタスクが並行的に実行される例を示した説明図である。 図20に示した状況に対応する処理の流れを示した説明図である。 同応用例による買い物メモのメイン画面の表示例を示した図である。 同実施形態によるエージェント装置10のハードウェア構成を示した説明図である。 同実施形態の変形例による、スクロールのためのスライド操作と、マイクロフォンの起動のためのスライド操作との区別の例を示した説明図である。 同変形例による、発話に基づくプレイリストの作成例を示した説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じてエージェント装置10aおよびエージェント装置10bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、エージェント装置10aおよびエージェント装置10bを特に区別する必要が無い場合には、単にエージェント装置10と称する。
また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
1.情報処理システムの構成
2.実施形態の詳細な説明
3.ハードウェア構成
4.変形例
<<1.情報処理システムの構成>>
まず、本開示の実施形態による情報処理システムの構成について、図1を参照して説明する。図1に示すように、当該情報処理システムは、エージェント装置10、サーバ20、および、通信網22を含む。
<1−1.サーバ20>
サーバ20は、例えばECサービスを管理するための装置である。サーバ20は、例えば複数の事業者からWebページなどへ掲載することを依頼された複数の商品の情報を管理する。また、当該複数の商品の各々と、一または複数の表示オブジェクトとが関連付けられ得る。
ここで、表示オブジェクトは、表示される文字列、画像、および/または、GUIオブジェクトなどを一以上含み得る。なお、表示オブジェクトは、該当の表示オブジェクトに関連付けられている情報(メタデータ(例えば商品の詳細情報など)やリンク情報など)をさらに含んでもよい。なお、以下では、表示オブジェクトが、例えばECサービスに関する表示画面(Webページなど)上に表示される例を中心に説明を行う。例えば、表示オブジェクトは、当該表示オブジェクトに対応する商品の名前や価格などの文字列、当該商品の画像、および、当該商品の購入用ボタンなどを含み得る。
<1−2.エージェント装置10>
{1−2−1.概要}
エージェント装置10は、本開示における情報処理装置の一例である。エージェント装置10は、例えば所定の建物(例えばユーザの自宅など)内の机、壁、または、天井などに配置され得る。但し、かかる例に限定されず、エージェント装置10は、携帯型の装置であってもよい。
このエージェント装置10は、ユーザの発話などの音を集音すること、および、集音された音声の音声認識を行うことが可能である。例えば、エージェント装置10は、集音された発話に対して音声認識を行い、そして、音声認識結果から得られる文字列の意味を解析することが可能である。
また、エージェント装置10は、画像を表示する機能を有する。例えば、図1に示すように、エージェント装置10は、画像を投影面24上に投影することが可能である。
また、エージェント装置10は、撮影部(図示省略)を有し得る。そして、エージェント装置10は、例えば投影面24の方向を撮影した画像に基いて、投影面24に対するユーザのタッチ操作などを認識することが可能である。
また、エージェント装置10は、ユーザがEC(Electronic Commerce)サービスを利用するためのアプリケーション(以下、ECアプリと称する)を実装することが可能である。エージェント装置10は、このECアプリを用いて、サーバ20に登録されている複数の商品の各々に対応する表示オブジェクトの一覧を後述する通信網22を介してサーバ20から受信し、表示することが可能である。また、エージェント装置10は、例えばユーザの自然発話やタッチ入力などに基いて、複数の表示オブジェクトの中から一部の表示オブジェクトのみを選び出して表示したり、または、表示オブジェクトの並び順を変更することが可能である。例えば、エージェント装置10は、ユーザの発話から特定される検索キーワードを通信網22を介してサーバ20へ送信し、そして、サーバ20から受信される検索結果に基いて当該複数の表示オブジェクトのうちの一部の表示オブジェクトのみを表示する。これにより、ユーザは、表示される複数の表示オブジェクトの各々に対応する商品の中から(ECサービスを介した)購入希望の商品を絞り込むことができる。
図2は、ECアプリに関して、ユーザの発話の種類と、当該発話の音声データの取得時にエージェント装置10が実行する処理の種類とが定義された処理定義DB30の構成例を示した説明図である。図2に示したように、例えば、処理定義DB30では、シーンと、発話の種類と、当該発話の音声データの取得時にエージェント装置10が実行する処理の種類とが対応付けられている。図2の一レコード目に示した例では、ECアプリが起動していない状態において、「xxxが買いたい」という発話が集音された際には、エージェント装置10は、ECアプリを起動し、かつ、例えばサーバ20に登録されている複数の商品の各々に対応する表示オブジェクトの中から、「xxx」というキーワードに基いた検索結果をサーバ20から受信し、そして、表示する。
{1−2−2.ECアプリに関する処理の流れ}
ここで、図3を参照して、ECアプリを用いた商品の購入に関する全体的な処理の流れの一例について説明する。なお、図3に示したフローチャートは、処理定義DB30の登録内容によって変更され得る。
図3に示したように、まず、「ECアプリを立ち上げて、買い物をしたい」とユーザが発話すると(S11)、エージェント装置10は、ECアプリのトップ画面を投影面24に投影する(S13)。
また、最初に、もしくは、S13の後に、「XXXが買いたい」とユーザが発話すると(S15)、エージェント装置10は、「XXX」に対応する表示オブジェクトの検索要求をサーバ20へ送信することにより、検索結果の一覧をサーバ20から受信する。そして、エージェント装置10は、受信した検索結果の一覧を含む検索結果表示画面を投影面24上に投影する(S17)。あるいは、エージェント装置10は、当該検索結果表示画面の表示制御情報をサーバ20から受信してもよい。そして、エージェント装置10は、当該表示制御情報に基づいて検索結果表示画面を投影面24上に投影してもよい。
なお、この検索結果表示画面の表示時に、例えば「XXXを買う」などとユーザが発話すると、エージェント装置10は、表示されている複数の表示オブジェクトのうち「XXX」に対応する表示オブジェクトを選び出し、そして、選び出した表示オブジェクト(または当該表示オブジェクトに対応する商品)の識別情報を、後述する記憶部130に一時的に格納する。
S17の後、「XXXの詳細を見せて」とユーザが発話すると(S19)、エージェント装置10は、「XXX」に対応する表示オブジェクトが示す商品の商品詳細画面を投影面24上に投影する(S21)。なお、この商品詳細画面の表示時に、例えば「これ買う」などとユーザが発話すると、エージェント装置10は、該当の商品の識別情報を記憶部130に一時的に格納する。
また、S17の後、もしくは、S21の後に、「カートを見せて」とユーザが発話すると(S23)、エージェント装置10は、現在カートに格納されている商品の一覧を示すカート画面を投影面24上に投影する(S25)。
{1−2−3.検索結果表示画面}
次に、図4を参照して、検索結果表示画面の表示例(検索結果表示画面40a)について説明する。図4に示したように、検索結果表示画面40aには、複数の商品の各々に対応する表示オブジェクト410が表示される。ここで、複数の表示オブジェクト410は、図4に示したように、カテゴリ欄400ごとに分類されて表示され得る。また、図4に示したように、検索結果表示画面40aには、さらに、発話ヒント420が表示され得る。ここで、発話ヒント420は、購入対象の商品をユーザが絞り込むための検索キーワードの候補を含む。なお、個々のカテゴリ欄400、および/または、発話ヒント420には、過去の検索履歴などに基いて学習されたキーワードの候補が表示され得る。例えば、個々のカテゴリ欄400、および/または、発話ヒント420には、絞り込み(検索)のキーワードとしてユーザが使用する確率が高い種類の順番で、一回の絞り込みごとに異なる種類のキーワードの候補が表示され得る。図4に示した例では、1回目は「内容量」、2回目は「ブランド」、3回目は「個数」などのように、絞り込みのキーワードとしてユーザが使用する確率が高い種類の順番で、(当該順番に沿ってユーザが絞り込みを指示する度に)異なる種類のキーワードの候補が表示され得る。この表示例によれば、購入希望の商品をユーザは効率的に絞り込んでいくことができる。
<1−3.通信網22>
通信網22は、通信網22に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網22は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網22は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
<1−4.課題の整理>
以上、本実施形態による情報処理システムの構成について説明した。ところで、例えば図4に示したような検索結果一覧画面の表示中に、当該検索結果一覧画面に含まれる複数の表示オブジェクトの中から特定の表示オブジェクト(例えば、表示オブジェクト410eなど)を自然発話により直接指定可能であると利便性が高く、望ましい。特に、検索結果一覧画面が表示されている投影面(または当該検索結果一覧画面を表示するディスプレイ)とユーザとの間の距離が大きいなど、当該検索結果一覧画面に対してユーザがタッチすることが非常に困難な場面では、特定の表示オブジェクトを自然発話により指定可能であることが一層望まれる。
そこで、上記事情を一着眼点にして、本実施形態によるエージェント装置10を創作するに至った。本実施形態によるエージェント装置10は、集音された発話を取得し、そして、現在の表示範囲に応じた選出対象の表示範囲内の複数の表示オブジェクトと、当該発話とに基いて、当該複数の表示オブジェクトの中から表示オブジェクトを選び出すことが可能である。このため、ユーザは、例えば、現在見えている複数の表示オブジェクトの中から所望の表示オブジェクトを容易に選び出すことができる。ここで、選出対象の表示範囲は、本開示における第1の表示範囲の一例である。なお、選出対象の表示範囲の具体的な内容については後述する。
<<2.実施形態の詳細な説明>>
<2−1.構成>
次に、本実施形態による構成について詳細に説明する。図5は、本実施形態によるエージェント装置10の構成例を示した機能ブロック図である。図5に示すように、エージェント装置10は、制御部100、通信部120、センサ部122、集音部124、表示部126、音声出力部128、および、記憶部130を有する。
{2−1−1.制御部100}
制御部100は、エージェント装置10に内蔵される、例えば、後述するCPU(Central Processing Unit)150や、後述するRAM(Random Access Memory)154などのハードウェアを用いて、エージェント装置10の動作を統括的に制御する。また、図5に示すように、制御部100は、検出結果取得部102、音声認識部104、選出部106、および、出力制御部108を有する。
{2−1−2.検出結果取得部102}
検出結果取得部102は、本開示における取得部の一例である。検出結果取得部102は、後述するセンサ部122により検出された各種の情報、および、集音部124により集音された音情報を取得する。
{2−1−3.音声認識部104}
音声認識部104は、本開示における処理実行部の一例である。音声認識部104は、例えば表示部126により現在表示されている複数の表示オブジェクトに基いて、検出結果取得部102により取得された発話に対して音声認識を行う。例えば、音声認識部104は、まず、集音された発話に対して音声認識を行うことにより、音声認識結果の候補を複数特定する。そして、音声認識部104は、現在表示されている複数の表示オブジェクトに基づいて、特定した複数の音声認識結果の候補の各々のマッチ度を算出する。そして、音声認識部104は、マッチ度が最も高い候補を、当該発話の音声認識結果として決定する。
図6は、音声認識部104による音声認識の一例を示した説明図である。図6に示した例では、複数の表示オブジェクト410を含む検索結果表示画面40が表示されている際に、ユーザが「flour」という発話50を行ったことを前提とする。
この場合、例えば、音声認識部104は、まず、集音された発話の音素列に基いて、「flower」や「flour」など複数の音声認識結果の候補を特定する。次に、音声認識部104は、現在表示されている複数の表示オブジェクト410に基づいて、特定した複数の音声認識結果の候補の各々のマッチ度を算出する。図6に示した例では、表示オブジェクト410bは、「flour」という文字列を含んでおり、かつ、他の音声認識結果の候補に対応する文字列は検索結果画面40内に表示されていない。そこで、音声認識部104は、特定した複数の音声認識結果の候補のうち「flour」のマッチ度を最も高く算出する。そして、音声認識部104は、「flour」を発話50の音声認識結果として決定する。
{2−1−4.出力制御部108}
(2−1−4−1.表示制御)
出力制御部108は、本開示における処理実行部の一例である。出力制御部108は、表示部126に対する表示を制御する。例えば、表示方法に関する指示を含む発話が集音された場合には、出力制御部108は、当該発話の音声認識結果に応じた表示方法で複数の表示オブジェクトを表示部126に表示させるように、表示部126による表示を更新する。例えば、表示オブジェクトの並び替えを指示する発話が集音された場合には、出力制御部108は、当該発話に応じた順序で複数の表示オブジェクトを並べ替えて、表示部126に表示させる。図4に示した例において、「安い順に並べて」という発話が集音された場合には、出力制御部108は、複数の表示オブジェクト410の各々に対応する商品の価格の安い順に当該複数の表示オブジェクト410を並べ替えて、表示部126に表示させる。
また、分類の変更を指示する発話が集音された場合には、出力制御部108は、当該発話に応じた分類で複数の表示オブジェクトを表示し直すように、表示部126による表示を更新する。図4に示した例において、「ブランド別で表示して」という発話が集音された場合には、出力制御部108は、例えば図7に示した検索結果表示画面40bのように、複数の表示オブジェクト410の各々に対応する商品の「ブランド」別に当該複数の表示オブジェクト410を分類し直して、表示部126に表示させる。
また、出力制御部108は、後述する選出部106による選出の結果に基いて、表示部126に対する表示を制御する。例えば、複数の表示オブジェクトの中から一以上の表示オブジェクトが選出部106により選び出された場合には、出力制御部108は、当該選び出された表示オブジェクトのみが表示されるように、表示部126による表示を更新する。
(2−1−4−2.音の出力制御)
また、出力制御部108は、音声出力部128に対する音の出力を制御する。例えば、発話が集音された際に、出力制御部108は、例えば音声認識部104による当該発話の意味の解析結果などに基づいて、当該発話に対する応答の音声を生成し、そして、生成した音声を音声出力部128に出力させる。
また、出力制御部108は、選出部106による選出の結果に基いて、音声出力部128に対する音の出力を制御する。例えば、選出部106により複数の表示オブジェクトが選び出された場合には、出力制御部108は、当該選び出された複数の表示オブジェクトのうちのいずれを選択するかに関する問い合わせの情報を音声出力部128(または表示部126)に出力させることが可能である。
ここで、図8を参照して、上記の機能についてより詳細に説明する。図8に示したように、「ABC」という文字列を含む表示オブジェクト410が5個、表示画面40に表示されている状況において、ユーザが、まず、「カートに入れて」という発話50aを行い、その後「ABC」という発話50bを行ったとする。そして、集音された発話50bに基いて、5個の表示オブジェクト410(表示オブジェクト410a〜表示オブジェクト410e)が選出部106により選び出されたことを想定する。
この場合、出力制御部108は、図8に示したように、「5個あるよ」という音声52bのような、5個の表示オブジェクト410の中から一以上をユーザに選択させるための問い合わせの音声52bを音声出力部128に出力させる。なお、その後、ユーザが例えば「ABC4をカートに入れて」という発話50cを行うと、(5個の表示オブジェクト410の中から)表示オブジェクト410dが選出部106により選び出され得る。なお、問い合わせの音声52bの出力時から、音声52bに対するユーザの回答の発話50cが取得されるまでの間は、出力制御部108は、仮にユーザがスクロール操作などを行っても、現在の表示範囲を変更しないように制御し得る。これにより、5個の表示オブジェクト410をユーザに十分確認させ、所望の表示オブジェクトをユーザに正確に選択させることができる。
{2−1−5.選出部106}
(2−1−5−1.基本的な選出例)
選出部106は、本開示における処理実行部の一例である。選出部106は、選出対象の表示範囲内の複数の表示オブジェクトの中から、音声認識部104による発話の音声認識結果に対応する表示オブジェクト(または当該表示オブジェクトに対応する商品)を選び出す。ここで、選出対象の表示範囲は、現在の表示範囲を含み得る。
例えば、選出部106は、当該複数の表示オブジェクトの各々に関連する情報と、当該音声認識結果との比較に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出す。一例として、選出部106は、当該複数の表示オブジェクトの各々に関連する情報と、当該音声認識結果に含まれるキーワードとの比較結果が一致する表示オブジェクトのみを、当該複数の表示オブジェクトの中から選び出す。
例えば、選出部106は、まず、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトのみを抽出するための検索ワードを特定する。そして、選出部106は、特定した検索ワードを含む検索要求をサーバ20へ通信部120に送信させることにより、当該音声認識結果に対応する表示オブジェクトをサーバ20から取得する。
ここで、表示オブジェクトに関連する情報は、該当の表示オブジェクトに関連付けられているメタデータ、該当の表示オブジェクトの画像解析の結果(色、形状、ラベルの種類など)、および/または、現在の表示範囲における該当の表示オブジェクトの表示位置の情報を含み得る。また、メタデータは、該当の表示オブジェクトに関連付けられている識別番号、該当の表示オブジェクトに対応する商品の名称、当該商品の個数、当該商品のメーカー名、当該商品のブランド名などを含み得る。
−具体例1
例えば、発話が集音された際に、選出部106は、当該発話の音声認識結果に含まれる番号と、当該複数の表示オブジェクトの各々に関連付けられている識別番号とをそれぞれ比較することにより、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出す。また、例えば、「ブランドAの200ml」のような、特徴に関する発話が集音された場合には、選出部106は、当該発話の音声認識結果と、当該複数の表示オブジェクトの各々に関連付けられているメタデータ内の情報とをそれぞれ比較することにより、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出す。
ここで、図9〜図10を参照して、上記の選出例についてより詳細に説明する。例えば、図9に示したように、複数の表示オブジェクト410を含む表示画面40が表示されている状況において、ユーザが「6缶のにする」という発話50を行ったとする。この場合、図10に示したように、選出部106は、まず、「6缶のにする」という発話50の音声認識結果から「6缶」というキーワードを抽出する。次に、選出部106は、表示画面40中に表示されている複数の表示オブジェクト410の各々に関して、当該表示オブジェクト410に関連付けられているメタデータ60内の情報と、「6缶」というキーワードとをそれぞれ比較する。そして、選出部106は、「販売単位」が「6缶」である商品に対応する表示オブジェクト410(図9に示した例では表示オブジェクト410a)を選び出す。
−具体例2
また、例えば「真ん中の赤いやつ」という発話が集音された場合には、選出部106は、現在の表示範囲における「真ん中」に対応する位置に存在する一以上の表示オブジェクトのうち画像解析結果が「赤色」である表示オブジェクトを、当該音声認識結果に対応する表示オブジェクトとして選び出す。
ここで、図11〜図12を参照して、上記の選出例についてより詳細に説明する。例えば、図11に示したように、9個の表示オブジェクト410を含む表示画面40aが表示されている状況において、ユーザが「青いやつ」という発話50aを行ったとする。この場合、図11に示したように、選出部106は、まず、発話50aの音声認識結果から「青」というキーワードを抽出する。次に、選出部106は、表示画面40bに示したように、当該9個の表示オブジェクト410のうち、画像解析結果が「青色」である2個の表示オブジェクト410を選び出す。
その後、ユーザが「右」という発話50bを行ったとする。この場合、図11に示したように、選出部106は、まず、発話50bの音声認識結果から「右」というキーワードを抽出する。そして、選出部106は、表示画面40bに表示されている2個の表示オブジェクト410のうち、表示画面40bにおける「右」に位置する表示オブジェクト410bをさらに選び出す。
また、図12は、別の選出例を示した説明図である。なお、図12に示した例では、表示オブジェクト410cおよび表示オブジェクト410dにそれぞれ対応する商品の色は青以外の色であり、かつ、これらの商品のシリーズとして青色タイプがそれぞれ存在することを前提としている。なお、その他の内容に関しては、図11に示した例と同様である。
図12に示したように、表示画面40aが表示されている状況において、ユーザが「青いやつ」という発話50aを行ったとする。この場合、選出部106は、まず、発話50aの音声認識結果から「青」というキーワードを抽出する。次に、選出部106は、図12に示した表示画面40bのように、当該9個の表示オブジェクト410のうち、画像解析結果が「青色」である2個の表示オブジェクト410(つまり表示オブジェクト410aおよび表示オブジェクト410b)、および、青色タイプの商品が存在する2個の表示オブジェクト410(つまり表示オブジェクト410cおよび表示オブジェクト410d)を選び出す。
その後、ユーザが「右上」という発話50bを行ったとする。この場合、図12に示したように、選出部106は、まず、発話50bの音声認識結果から「右上」というキーワードを抽出する。そして、選出部106は、表示画面40bに表示されている4個の表示オブジェクト410のうち、表示画面40bにおける「右上」に位置する表示オブジェクト410bをさらに選び出す。
−具体例3
また、選出部106は、さらに、ユーザ(発話者)の属性情報(例えば年齢、性別、身長、体重、住所など)に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出すことも可能である。また、選出部106は、さらに、当該発話の音声認識結果から特定される、ジャンルや用途(例えばプレゼント向けの商品など)の指定に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出すことも可能である。また、選出部106は、さらに、表示部126により表示されている、現在の表示範囲に対するユーザの注視位置や注視方向の検出結果に基いて、当該複数の表示オブジェクトの中から、当該音声認識結果に対応する表示オブジェクトを選び出すことも可能である。
(2−1−5−2.スクロールしながらの選出例)
また、選出部106は、例えばスクロール操作などのタッチ操作中に集音された発話の音声認識結果に基いて、選出対象の表示範囲内の複数の表示オブジェクトの中から一以上の表示オブジェクトを選び出すことも可能である。例えば、図13に示したように、表示画面40に対してスクロール操作6を行っている最中に、「6缶のにする」という発話50をユーザが行ったとする。この場合、選出部106は、当該選出対象の表示範囲内の複数の表示オブジェクトの中から、発話50に対応する表示オブジェクト410(例えば表示オブジェクト410a)を選び出す。
‐選出対象の表示範囲
ここで、図14および図15を参照して、選出対象の表示範囲の一例(選出対象の表示範囲70)について詳細に説明する。図14に示したように、選出対象の表示範囲70は、現在の表示範囲72、(現在の表示範囲以外の)表示済みの表示範囲74、および、未表示の表示範囲78を含む。また、選出対象の表示範囲70は、図14に示したように、スクロールの方向6に沿った表示範囲であり得る。ここで、表示済みの表示範囲74は、本開示における第2の表示範囲の一例である。表示済みの表示範囲74は、現在の表示範囲72の表示タイミングよりも前に表示部126により連続的に表示された表示範囲であり得る。また、未表示の表示範囲78は、本開示における第3の表示範囲の一例である。未表示の表示範囲78は、現在の表示範囲72の表示タイミングまでには表示されておらず、かつ、当該表示タイミング後に表示部126により連続的に表示されることが推定される表示範囲であり得る。
例えば、図14に示したように、ユーザが「XYZの」という発話50を行ったとする。また、「XYZ」という文字列に対応する表示オブジェクト410が、表示済みの表示範囲74内、および、未表示の表示範囲78内にそれぞれ一つずつ含まれているとする。この場合、選出部106は、表示済みの表示範囲74内の表示オブジェクト410a、および、未表示の表示範囲78内の表示オブジェクト410bをともに選び出すことが可能である。
なお、現在の表示範囲72は、発話の開始の検出タイミングに応じて定められ得る。例えば、図15に示したように、上から下へとスクロール中にユーザが「XYZの」という発話50を行う場合、現在の表示範囲72の最上位ラインが、発話50の最初の音素の検出タイミング(図15に示した例では時刻t1)における最上位ラインと同一になるように現在の表示範囲72は定められ得る。
また、選出部106による選出の優先度は、表示範囲の種類ごとに異なるように定められ得る。例えば、現在の表示範囲72、(現在の表示範囲以外の)表示済みの表示範囲74、未表示の表示範囲78の順に優先度が低くなるように、選出部106による選出の優先度は定められ得る。例えば、図14に示した例では、選出部106は、表示済みの表示範囲74内の表示オブジェクト410aを、未表示の表示範囲78内の表示オブジェクト410bよりも優先的に選び出す。但し、かかる例に限定されず、例えば、「さっきの赤いやつ」や「さっき見た、6缶入りのモノ」など、過去を示すキーワードが含む発話が集音された場合には、選出部106は、表示済みの表示範囲内の表示オブジェクトを、現在の表示範囲内の表示オブジェクトよりも優先的に選び出してもよい。また、「XXの6缶入りのものない?」など、ユーザがまだ閲覧していないと推定される表示オブジェクトを選び出すことを指示する発話が集音された場合には、選出部106は、未表示の表示範囲内の表示オブジェクトを、現在の表示範囲内の表示オブジェクトよりも優先的に選び出してもよい。
(2−1−5−3.連続発話による選出例)
また、発話が連続になされる場合には、選出部106は、発話が集音される度に、当該発話の音声認識結果が所定の条件を満たす限り、当該発話に対応する表示オブジェクトを連続的に選び出すことが可能である。例えば、発話が集音される度に、選出部106は、まず、当該発話の音声認識結果が所定の条件を満たすか否かを判定する。そして、当該発話の音声認識結果が所定の条件を満たさないと最初に判定したタイミングまでに取得された全ての発話の各々に関して、選出部106は、(選出対象の表示範囲内の)複数の表示オブジェクトの中から当該発話の音声認識結果に対応する表示オブジェクトをそれぞれ選び出す。
ここで、図16を参照して、上記の機能についてより詳細に説明する。図16に示したように、ユーザは、例えば「カートに入れて」などの所定の開始の発話50aを行う。その後、ユーザは、例えば「AAAと」という発話50b、「BBBと」という発話50b、および「CCCと」という発話50cのように、選択を希望する商品名および「と(and)」からなる発話を連続的に行う。この場合、語尾に「と」を含む発話50が連続的に取得される度に、選出部106は、選出対象の表示範囲内の複数の表示オブジェクトの中から、当該発話50の音声認識結果に対応する表示オブジェクトを逐次選び出し、かつ、選び出した表示オブジェクトの識別情報を例えば記憶部130に一時的に保存する。その後、例えば図16に示したように「終わり」などの所定の終了の発話50eが検出された際には、選出部106は、当該検出タイミングまでに一時的に保存されている全ての表示オブジェクトを、ユーザにより選択された表示オブジェクトとして確定する。
(2−1−5−4.変形例)
なお、変形例として、表示部126により現在表示されている複数の表示オブジェクトのうちいずれかが指でポインティング(例えばタッチなど)されながら、かつ、例えば「これ」という発話が集音された場合には、選出部106は、当該指のポインティング先の表示オブジェクトを選び出すことも可能である。この場合、選出部106は、さらに、選び出した表示オブジェクトに対応する商品をカートに入れる処理(例えば、「カート」用の保存領域に格納すること)を行ってもよい。
一般的にタッチ操作では、表示オブジェクトを選択するためのタッチと、カートに入れる操作のためのタッチとが必要になる。一方、この変形例によれば、一回のタッチだけで所望の表示オブジェクトをカートに入れることができるので、通常のタッチ操作と比較して、操作時間が短縮することが期待できる。
{2−1−6.通信部120}
通信部120は、例えば通信網22を介して他の装置との間で情報の送受信を行う。例えば、通信部120は、選出部106の制御に従って、集音された発話の音声認識結果に対応する表示オブジェクトを抽出するための検索要求をサーバ20へ送信する。また、通信部120は、検索結果の一覧をサーバ20から受信する。
{2−1−7.センサ部122}
センサ部122は、例えばイメージセンサ(カメラ)、および/または、デプスセンサなどを含み得る。例えば、センサ部122に含まれるカメラは、当該カメラの前方の映像を所定のタイミング(例えば所定時間間隔など)で撮影する。また、センサ部122に含まれるデプスカメラは、当該デプスカメラの前方に位置する各物体までの距離を計測する。また、センサ部122は、さらに、3軸加速度センサ、ジャイロスコープ、および、磁気センサなどを含んでもよい。
{2−1−8.集音部124}
集音部124は、例えばマイクロフォンである。集音部124は、外部の音(空気振動)を検出し、そして、電気信号に変換する。また、集音部124は、変換後の信号を制御部100へ伝達する。
{2−1−9.表示部126}
表示部126は、出力制御部108の制御に従って、画像を表示する。例えば、表示部126がプロジェクタを有する場合、表示部126は、出力制御部108の制御に従って、画像を当該プロジェクタの投影方向へ投影する。また、表示部126がディスプレイを有する場合、表示部126は、出力制御部108の制御に従って、画像を当該ディスプレイに表示する。
{2−1−10.音声出力部128}
音声出力部128は、スピーカを含み得る。音声出力部128は、出力制御部108の制御に従って、音声を出力する。
{2−1−11.記憶部130}
記憶部130は、各種のデータや各種のソフトウェアを記憶する。例えば、図5に示したように、記憶部130は、処理定義DB30を記憶する。
<2−2.処理の流れ>
以上、本実施形態の構成について説明した。次に、本実施形態による処理の流れについて、図17および図18を参照して説明する。なお、ここでは、ユーザがエージェント装置10に対する発話により、サーバ20に登録されている複数の商品の中から所望の商品を検索する場面における処理の流れの例について説明する。
図17に示したように、まず、ユーザ2は、エージェント装置10に対して「XXを買いたい」と発話する。そして、エージェント装置10の音声認識部104は、集音された発話に対して音声認識を行う(S101)。
続いて、選出部106は、S101の音声認識結果から特定される「XX」というキーワードを検索ワードに設定することにより、検索要求を生成する。そして、通信部120は、生成された検索要求をサーバ20へ送信する(S103)。
その後、サーバ20は、複数の商品の情報が登録されているデータベースに対して、受信された検索要求に基いて検索を行う(S105)。そして、サーバ20は、検索結果の一覧をエージェント装置10へ送信する(S107)。
その後、エージェント装置10の表示部126は、出力制御部108の制御に従って、受信された検索結果の一覧を表示する(S109)。
その後、ユーザ2は、エージェント装置10に対して「YYで絞り込んで、並び替えて」と発話する。そして、エージェント装置10の音声認識部104は、集音された発話に対して音声認識を行い、そして、当該発話の意味を解析する(S111)。
続いて、通信部120は、制御部100の制御に従って、状態確認およびGUIのロック依頼をサーバ20へ送信する(S113)。
その後、サーバ20は、受信されたロック依頼に基いて、例えば全てのGUIをロックする(S115)。そして、サーバ20は、アプリケーションのステート情報をエージェント装置10へ送信する(S117)。その後、サーバ20は、所定の時間が経過するまで待機する(S119)。所定の時間が経過した場合には(S119:Yes)、サーバ20は、後述するS137の処理を行う。
また、S117の後、エージェント装置10の制御部100は、受信されたステート情報が示す値が「OK」であるか否かを判定する(S121)。当該ステート情報が示す値が「OK」ではない場合(例えば「NG」である場合)には(S121:No)、音声出力部128は、出力制御部108の制御に従って、例えば「カート画面では絞り込みできません」など、S111の発話に対応する処理が実行不可能であることを示す音声を出力する(S123)。そして、本処理は終了する。
ここで、図18を参照して、S121において、当該ステート情報が示す値が「OK」である場合(S121:Yes)における処理の流れについて説明する。
図18に示したように、エージェント装置10の選出部106は、S101の音声認識結果から特定される「XX」というキーワード、および、S111の音声認識結果から特定される「YY」というキーワードを検索ワードに設定することにより、検索要求を生成する。また、出力制御部108は、S111の音声認識結果に応じた並べ方で、検索結果の表示オブジェクトを表示させるための指示情報を生成する。そして、通信部120は、生成された検索要求および指示情報をサーバ20へ送信する(S131)。
その後、サーバ20は、上記のデータベースに対して、受信された検索要求に基いて検索を行う(S133)。そして、サーバ20は、検索結果の一覧をエージェント装置10へ送信する(S135)。
S135の後、もしくは、S119の条件が成立した場合には、サーバ20は、S115でロックされた全てのGUIのロックを解除する(S137)。
また、S135の後、エージェント装置10の表示部126は、出力制御部108の制御に従って、受信された検索結果の一覧を表示する(S139)。
<2−3.効果>
{2−3−1.効果1}
以上説明したように、本実施形態によれば、エージェント装置10は、集音された発話を取得し、そして、現在の表示範囲に応じた選出対象の表示範囲内の複数の表示オブジェクトと、当該発話とに基いて、当該複数の表示オブジェクトの中から表示オブジェクトを選び出したり、複数の表示オブジェクトの表示の仕方を変更することが可能である。このため、集音された発話と、選出対象の表示範囲内の複数の表示オブジェクトとの関係に適応的に処理が実行されるので、ユーザの利便性が高い。例えば、ユーザは、現在見えている複数の表示オブジェクトの中から所望の表示オブジェクトを、自然発話により容易に選び出すことができる。そして、ユーザが高齢者などである場合でも、自然発話により所望の表示オブジェクトを選び出すことが可能であるので、より多くのユーザがECを容易に利用することができる。
{2−3−2.効果2}
なお、一般的に、GUIボタン(例えば図9に示したカートボタン412など)を含む表示画面では、スクロール操作時に当該GUIボタンをユーザが誤って押してしまう恐れがあるので、スクロール操作時には当該GUIボタンが無効になるように設定される場合が多い。このため、スクロール操作を一旦停止しないと所望のGUIボタンをユーザは選択することができず、不便になり得る。また、例えばスクロール操作中の手の位置と、所望のGUIボタンとの間の距離が大きい状況では手の移動距離が大きくなるので、操作し難い。特にエージェント装置10が、ディスプレイを有する携帯型装置である場合では操作が一層不安定になり得る。
一方、本実施形態によれば、発話により表示オブジェクトを選び出すことが可能であるので、スクロール操作中でも誤操作が生じないことが期待できる。例えば「XXXをカートに入れて」のような発話が集音された場合には、エージェント装置10は、当該発話に対応する商品をカートに正確に格納することができる。また、スクロール操作中に、所望の商品に対応するGUIボタンが表示範囲外になった場合でも、ユーザは、現在の表示範囲を変更することなく、発話により当該商品を正確に選択することができるという利点がある。また、本実施形態によれば、エージェント装置10が、ディスプレイを有する携帯型装置である場合であっても、ユーザは所望の操作を安定的に行うことができる。
{2−3−3.効果3}
また、本実施形態によれば、通常のタッチ操作と比較して、サイトの切り替え時における操作が容易になる。例えば、サイトAに表示されている文字列をサイトBにおいて検索することをユーザが希望する場合、通常のタッチ操作では、ユーザは、当該文字列を一旦コピーして、そして、サイトBにおける該当箇所にペーストを行う必要がある。一方、本実施形態によれば、サイトAの表示時において、例えば「XXXをサイトBで調べて」のような発話をユーザはエージェント装置10に対して行うだけで、該当の文字列(つまりXXX)をサイトBで検索することができるので、操作が容易である。
{2−3−4.効果4}
また、本実施形態によれば、通常のタッチ操作と比較して、検索窓を含むWebページの表示中における検索操作が容易になる。例えば、現在表示されている表示範囲内の文字列を検索キーにすることをユーザが希望し、かつ、現在の表示範囲外に当該検索窓が位置する場合には、通常のタッチ操作では、ユーザは、該当の文字列を一旦コピーして、そして、当該検索窓の位置まで表示範囲をスクロールする必要があり、操作が面倒である。一方、本実施形態によれば、表示範囲を変更せずに、例えば「XXXを検索して」のような発話をユーザはエージェント装置10に対して行うだけで、該当の文字列を検索することができるので、操作が容易である。
<2−4.応用例>
以上、本実施形態について説明した。ところで、ある表示画面の閲覧時に、ユーザは、当該表示画面に表示されている内容から影響を受けることにより、別の作業をしたくなったり、別の作業をする必要があることを思い出すことがあり得る。
次に、本実施形態の応用例について説明する。後述するように、本応用例によれば、ある表示画面の表示中において、他のタスクを実行させるための発話が集音されると、エージェント装置10は、当該表示画面を表示しながら、当該他のタスクを並行的に処理することができる。なお、以下では、上記の説明と重複する内容については説明を省略する。
{2−4−1.応用例1}
(2−4−1−1.出力制御部108)
まず、応用例1について説明する。応用例1による出力制御部108は、現在の表示範囲内の一以上の表示オブジェクトと、集音された発話の意味解析の結果とに基いて、当該発話に対する回答の情報を特定し、かつ、特定した回答の情報を出力することが可能である。
ここで、図19を参照して、上記の内容についてより詳細に説明する。図19に示した例では、「ABC」という文字列を含む表示オブジェクト410aが表示画面40に表示されている状況において、ユーザが「ABCのメーカはどこ?」という発話50を行ったとする。この場合、まず、エージェント装置10の選出部106は、現在の表示範囲内の一以上の表示オブジェクトの各々に関連付けられているメタ情報の中から、「ABC」という文字列を商品名に含む表示オブジェクト410aを選び出す。そして、出力制御部108は、表示オブジェクト410aのメタ情報に基づいて、当該発話50が示す質問に対応する回答(図19に示した例では「XDZ」)を特定し、そして、特定した回答を示す音声52を音声出力部128に出力させる。
なお、出力制御部108は、表示オブジェクト410aのメタ情報から、当該質問に対する回答を特定する代わりに、例えばサーバ20へ問い合わせることにより、当該質問に対する回答を特定することも可能である。
(2−4−1−2.音声認識部104)
また、応用例1による音声認識部104は、集音された発話から特定される音素列に対応する文字列が現在の表示範囲内に存在する場合には、当該音素列が特定される度に、毎回当該音素列を当該文字列に変換するように音声認識を行うことが可能である。
例えば、図6に示した検索結果表示画面40の表示中に、「flourって何?」や「flourをメモして」などのように、「flour」を含む発話が集音される度に、音声認識部104は、当該発話から特定される「flour」に対応する音素列を、全て同じ文字列(「flour」)に変換する。これにより、複数の作業をユーザは効率的に行うことができる。
{2−4−2.応用例2}
次に、応用例2について説明する。図20は、応用例2によるエージェント装置10により、集音された発話の取得に基づいて実行される処理の一例を示した説明図である。図20に示したように、例えば、料理のレシピのWebページ40が表示部126により現在表示されているとする。そして、当該Webページ40に含まれる「パプリカ」という文字列430aを見た際に、ユーザは、「今夜はパプリカの・・・」という文面のメールを家族に対して送信したくなり、そして、「「今夜はパプリカの・・・」と家族にメールして」という発話50aをエージェント装置10に対して行ったとする。この場合、エージェント装置10は、別の画面に遷移させずに、当該文面のメールを当該家族宛てに送信する処理を行う。そして、当該処理が完了すると、エージェント装置10は、図20に示したように、例えば「「今夜はパプリカの・・・」と家族にメールを送りました」という文字列を含むGUI補助画面440aを当該Webページ40上に表示する。
その後、ユーザは、「パプリカ」を買い物メモに登録したくなり、そして、例えば「パプリカを買い物メモに入れて」という発話50bをエージェント装置10に対して行ったとする。この場合、エージェント装置10は、別の画面に遷移させずに、「パプリカ」を買い物メモに登録する処理を行う。そして、当該処理が完了すると、エージェント装置10は、例えば「パプリカを買い物メモに登録しました」という文字列を含むGUI補助画面440bをWebページ40上に表示する。
(2−4−2−1.処理の流れ)
次に、応用例2による処理の流れについて、図21を参照して説明する。なお、図21では、図20に示した状況に対応する処理の流れの例を示している。
図21に示したように、まず、エージェント装置10は、例えば発話の音声データの取得に基いてECアプリを起動する。そして、エージェント装置10の表示部126は、出力制御部108の制御に従って、ECアプリの表示画面(以下、ECアプリ画面と称する)を表示する(S201)。なお、エージェント装置10は、後述するS215まで、画面遷移させずに、ECアプリ画面を表示し続ける。
その後、図20に示した発話50aの音声データが取得されると、エージェント装置10の制御部100は、メールアプリケーションを起動する(S203)。そして、メールの送信処理が完了すると、表示部126は、出力制御部108の制御に従って、図20に示したGUI補助画面440aを例えば所定の時間だけECアプリ画面上に表示する(S205)。
その後、図20に示した発話50bの音声データが取得されると、エージェント装置10の制御部100は、買い物メモを起動する(S207)。そして、買い物メモの登録処理が完了すると、表示部126は、出力制御部108の制御に従って、図20に示したGUI補助画面440bを例えば所定の時間だけECアプリ画面上に表示する(S209)。
さらに、エージェント装置10は、登録された買い物メモに関するワークの情報を一時的に記憶部130にスタック(保存)する。これにより、後述するように、ECアプリ画面の終了後に、買い物メモのメイン画面を自動的に表示することが可能になる。
その後、図20に示した発話50cの音声データが取得されると、エージェント装置10は、上述したS207〜S209と概略同様の処理を行う(S211〜S213)。
その後、例えばECアプリ画面の表示を終了する操作をユーザが行うと、エージェント装置10の出力制御部108は、ECアプリ画面から、例えば図22に示したような、S209でスタックされた買い物メモのメイン画面80へ画面遷移させる(S217)。
その後、スタック中の、発話50bに対応するワーク(例えば、「パプリカ」を購入するか否かを決定する入力を行うことなど)が終了すると、エージェント装置10の出力制御部108は、買い物メモのメイン画面80の表示内容を更新する。そして、スタック中の、発話50cに対応するワークが開始される(S219)。
(2−4−2−2.効果)
以上説明したように、応用例2によれば、他のタスクを実行させるための発話をユーザが行うだけで、現在表示されている表示画面が遷移されずに、同じ表示画面内で複数の作業を並行して行うことができる。例えば、ユーザは、メインの作業を中止せずに、サブの作業を次々に行うことができる。
{2−4−3.変形例}
なお、本応用例は、上述した例に限定されない。例えば、表示中のWebページ内に音楽に関する情報(画像や文字列など)が含まれており、かつ、当該音楽を再生するように指示する発話が集音された場合には、エージェント装置10は、当該発話の音声認識結果に基いて、該当の音楽を再生してもよい。
また、表示中のWebページ内に広告が含まれており、かつ、当該広告に対応する商品を買い物リストへ入れるように指示する発話が集音された場合には、エージェント装置10は、当該発話の音声認識結果に基いて、該当の商品を買い物リストへ入れてもよい。
また、表示中のWebページ内に含まれる文字列に関する検索結果を音声で出力するように指示する発話が集音された場合には、エージェント装置10は、当該発話の音声認識結果に基いて、該当の文字列に関して検索を行い、かつ、検索結果を音声で出力してもよい。
また、表示部126により表示中の、第1の言語の文章をユーザが読み上げる音声が集音された際には、エージェント装置10は、当該音声の音声認識結果を第2の言語(例えば予め設定されている言語)で翻訳し、かつ、翻訳結果に対応する音声を出力してもよい。
また、SNS(Social Networking Service)の表示画面の表示中に、当該SNS上で他のユーザからメッセージが届いた際には、エージェント装置10は、当該メッセージを自動的に読み上げてもよい。その後、当該メッセージに対する返信の発話が集音された場合には、さらに、エージェント装置10は、当該発話の音声認識結果から得られるメッセージを当該他のユーザ宛てに自動的に送信してもよい。
(効果)
一般的に、Webページ間ではリンクが張られているので、ユーザがリンクを辿ると、現在行っている作業が中断されてしまう。一方、これらの変形例によれば、例えばWebページの表示中であっても、エージェント装置10に対してユーザが発話により指示を行うことにより、作業が中断されることなく、他の作業を並行して進めることができる。
<<3.ハードウェア構成>>
次に、本実施形態によるエージェント装置10のハードウェア構成について、図23を参照して説明する。図23に示すように、エージェント装置10は、CPU150、ROM(Read Only Memory)152、RAM154、バス156、インターフェース158、入力装置160、出力装置162、ストレージ装置164、および、通信装置166を備える。
CPU150は、演算処理装置および制御装置として機能し、各種プログラムに従ってエージェント装置10内の動作全般を制御する。また、CPU150は、エージェント装置10において制御部100の機能を実現する。なお、CPU150は、マイクロプロセッサなどのプロセッサにより構成される。
ROM152は、CPU150が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。
RAM154は、例えば、CPU150により実行されるプログラムなどを一時的に記憶する。
バス156は、CPUバスなどから構成される。このバス156は、CPU150、ROM152、および、RAM154を相互に接続する。
インターフェース158は、入力装置160、出力装置162、ストレージ装置164、および、通信装置166を、バス156と接続する。
入力装置160は、例えばタッチパネル、ボタン、スイッチ、レバー、マイクロフォンなどユーザが情報を入力するための入力手段、および、ユーザによる入力に基づいて入力信号を生成し、CPU150に出力する入力制御回路などから構成される。
出力装置162は、プロジェクタや、例えばLCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)などのディスプレイなどの表示装置を含む。また、出力装置162は、スピーカなどの音声出力装置を含む。
ストレージ装置164は、記憶部130として機能する、データ格納用の装置である。ストレージ装置164は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または、記憶媒体に記録されたデータを削除する削除装置などを含む。
通信装置166は、例えば通信網22などに接続するための通信デバイス等で構成された通信インターフェースである。また、通信装置166は、無線LAN対応通信装置、LTE(Long Term Evolution)対応通信装置、または、有線による通信を行うワイヤー通信装置であってもよい。この通信装置166は、通信部120として機能する。
<<4.変形例>>
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
<4−1.変形例1>
例えば、ユーザは、十分判断しないまま、発話により、とりあえずカートに商品を入れることも考えられる。そこで、例えば、同じカテゴリの商品がカートに格納された場合には、エージェント装置10は、当該複数の商品同士を比較し、かつ、比較結果のリストを生成してもよい。また、エージェント装置10は、ユーザが過去に購入している商品の種類の学習結果と、カートに格納された複数の商品の各々とを比較し、そして、比較結果のリストを生成してもよい。これらの変形例によれば、ユーザが商品の決済を行う前に、エージェント装置10が当該比較リストを表示することができる。これにより、意図しない商品を購入しないようにユーザに注意喚起することができる。
<4−2.変形例2>
また、別の変形例として、エージェント装置10のカメラ、または、ロボットなどの他の装置が有するカメラ(以下、環境カメラと称する)で例えばリアルタイムに撮影された映像が表示されている間において集音されたユーザの発話の音声認識結果と、当該映像の解析結果とに基いて、エージェント装置10は、購入対象の商品を選び出すことも可能である。例えば、当該環境カメラが店舗や倉庫における商品棚、または、ユーザの自宅内を撮影しており、かつ、当該環境カメラにより撮影された映像をエージェント装置10が受信し、そして、表示しているとする。この場合、例えば「XXXが買いたい」、「その洗剤が買いたい」、または、「真ん中のやつ」などのユーザの発話が集音された場合には、エージェント装置10は、当該映像における、当該発話の音声認識結果に対応する商品を購入対象の商品として選び出すことが可能である。
または、テレビジョン受信機で表示されている映像をユーザが見ていることが推定される状況において、当該映像の表示中に集音された発話の音声認識結果と、当該映像に関する情報とに基いて、エージェント装置10は、購入対象の商品を選び出すことも可能である。例えば、テレビジョン受信機により男性の映像が表示されている際に、「男の人が着ているシャツを買いたい」という発話が集音された場合には、エージェント装置10は、当該男性が着ているシャツを購入対象の商品として選び出してもよい。
<4−3.変形例3>
また、一般的に、長い文章を発話する場合では、スクロール操作をしながら発話をすることは不便であり、通常のタッチ入力の方が容易な場合もある。そこで、変形例として、スクロール操作と、マイクロフォンの起動操作とが予め区別して設定されることが望ましい。例えば図24に示したように、表示画面40に対する縦方向(上下方向)のスライド操作6aが表示範囲のスクロール操作、また、横方向(左右方向)のスライド操作6bがマイクロフォンの起動のジェスチャーとしてそれぞれ設定されてもよい。
<4−4.変形例4>
また、上記の説明では、本実施形態がECにおいて適用される例を中心に説明したが、かかる例に限定されず、EC以外のサービスやアプリケーションにも適用可能である。図25は、音楽再生用アプリケーションにおける適用例を示した説明図である。図25に示したように、音楽再生用アプリケーションの表示画面90の表示中において、エージェント装置10は、楽曲の情報を示す発話の音声データの取得に基いてプレイリストを作成することが可能である。
例えば、図25に示したように、まず、ユーザは、例えば「プレイリストを作って」などの所定の開始の発話50aを行う。その後、ユーザは、例えば「サムデイと」という発話50bや「ナイトライフと」という発話50bなどのように、選択を希望する楽曲の情報(楽曲名など)および「と(and)」からなる発話を連続的に行う。この場合、語尾に「と」を含む発話50が連続的に取得される度に、選出部106は、表示画面90内の複数の楽曲の情報の中から、当該発話50の音声認識結果に対応する楽曲の情報を逐次選び出し、かつ、選び出した楽曲の情報を例えば記憶部130に一時的に保存する。その後、例えば図25に示したように「終わり」などの所定の終了の発話50eが検出された際には、選出部106は、当該検出タイミングまでに一時的に保存されている全ての種類の楽曲を含むようにプレイリストを作成する。なお、楽曲名の発話に限定されず、選出部106は、例えば「ビートの早い曲」や「盛り上がるやつ」のような発話などに基いて、当該発話に対応する楽曲を選び出すことも可能である。
<4−5.変形例5>
また、本実施形態による情報処理システムの構成は、図1に示した例に限定されない。例えば、図1では、エージェント装置10が一台だけ図示されているが、かかる例に限定されず、複数台のコンピュータが協同して動作することにより、上述したエージェント装置10の機能が実現されてもよい。
<4−6.変形例6>
また、本実施形態によるエージェント装置10の構成は、図5に示した例に限定されない。例えば、センサ部122、集音部124、表示部126、および、音声出力部128のうちの一以上はエージェント装置10に含まれる代わりに、エージェント装置10が通信可能な他の装置に含まれてもよい。
<4−7.変形例7>
また、上述した実施形態では、本開示における情報処理装置がエージェント装置10である例について説明したが、本開示はかかる例に限定されない。例えば、当該情報処理装置は、汎用PC(Personal Computer)、タブレット型端末、ゲーム機、スマートフォンなどの携帯電話、携帯型音楽プレーヤ、テレビジョン受信機、ロボット、または、例えばHMD(Head Mounted Display)、ヘッドセット、または、スマートウォッチなどのウェアラブルデバイスであってもよい。
また、上述した制御部100に含まれる各構成要素をサーバ20が含む場合には、当該情報処理装置は、サーバ20であってもよい。
<4−8.変形例8>
また、図17および図18に示した処理の流れにおける各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。
また、上述した実施形態によれば、例えばCPU150、ROM152、およびRAM154などのハードウェアを、上述した実施形態によるエージェント装置10の構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
集音された発話を取得する取得部と、
現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、
を備える、情報処理装置。
(2)
前記第1の表示範囲は、前記現在の表示範囲を含む、前記(1)に記載の情報処理装置。
(3)
前記処理実行部は、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、前記(2)に記載の情報処理装置。
(4)
前記処理実行部は、前記複数の表示オブジェクトの各々に関連する情報と、前記発話の音声認識結果との比較に基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、前記(3)に記載の情報処理装置。
(5)
前記処理実行部は、前記複数の表示オブジェクトの各々の画像解析の結果と、前記発話の音声認識結果とに基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、前記(3)または(4)に記載の情報処理装置。
(6)
集音された発話が取得される度に、前記処理実行部は、当該発話の音声認識結果が所定の条件を満たすか否かを判定し、かつ、
前記処理実行部は、当該発話の音声認識結果が前記所定の条件を満たさないと最初に判定された第1のタイミングまでに取得された一以上の発話の各々の音声認識結果に対応する表示オブジェクトを前記複数の表示オブジェクトの中からそれぞれ選び出す、前記(3)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記処理実行部は、さらに、選び出した表示オブジェクトを表示部に表示させる、前記(3)〜(6)のいずれか一項に記載の情報処理装置。
(8)
前記発話の音声認識結果に対応する表示オブジェクトが複数選び出される場合には、前記処理実行部は、さらに、当該選び出された複数の表示オブジェクトのうちの一以上をユーザに選択させるための問い合わせの情報の出力を制御する、前記(3)〜(7)のいずれか一項に記載の情報処理装置。
(9)
前記処理実行部は、前記複数の表示オブジェクトに基づいて前記発話の音声認識を行う、前記(2)に記載の情報処理装置。
(10)
前記処理実行部は、さらに、前記複数の表示オブジェクトの中から、前記音声認識の結果に対応する表示オブジェクトを選び出す、前記(9)に記載の情報処理装置。
(11)
前記現在の表示範囲は、前記発話の開始の検出タイミングに応じたタイミングに、表示部により表示された表示範囲である、前記(2)〜(10)のいずれか一項に記載の情報処理装置。
(12)
前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示順を、前記発話の音声認識結果に基いて変更する、前記(11)に記載の情報処理装置。
(13)
前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示分類を、前記発話の音声認識結果に基いて変更する、前記(11)に記載の情報処理装置。
(14)
前記第1の表示範囲は、さらに、前記現在の表示範囲の表示タイミングよりも前に表示部により連続的に表示された第2の表示範囲を含む、前記(2)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記処理実行部は、前記第2の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、前記(14)に記載の情報処理装置。
(16)
前記第1の表示範囲は、さらに、前記現在の表示範囲の表示タイミングまでには表示されておらず、かつ、当該表示タイミング後に表示部により表示されることが推定される第3の表示範囲を含む、前記(2)〜(15)のいずれか一項に記載の情報処理装置。
(17)
前記処理実行部は、前記第3の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、前記(16)に記載の情報処理装置。
(18)
前記第1の表示範囲は、ユーザにより指定された方向に沿って表示部により連続的に表示される、前記(2)〜(17)のいずれか一項に記載の情報処理装置。
(19)
集音された発話を取得することと、
現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、プロセッサが所定の処理を行うことと、
を含む、情報処理方法。
(20)
コンピュータを、
集音された発話を取得する取得部と、
現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部、
として機能させるためのプログラム。
10 エージェント装置
20 サーバ
22 通信網
30 処理定義DB
100 制御部
102 検出結果取得部
104 音声認識部
106 選出部
108 出力制御部
120 通信部
122 センサ部
124 集音部
126 表示部
128 音声出力部
130 記憶部

Claims (20)

  1. 集音された発話を取得する取得部と、
    現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部と、
    を備える、情報処理装置。
  2. 前記第1の表示範囲は、前記現在の表示範囲を含む、請求項1に記載の情報処理装置。
  3. 前記処理実行部は、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、請求項2に記載の情報処理装置。
  4. 前記処理実行部は、前記複数の表示オブジェクトの各々に関連する情報と、前記発話の音声認識結果との比較に基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、請求項3に記載の情報処理装置。
  5. 前記処理実行部は、前記複数の表示オブジェクトの各々の画像解析の結果と、前記発話の音声認識結果とに基いて、前記複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを選び出す、請求項3に記載の情報処理装置。
  6. 集音された発話が取得される度に、前記処理実行部は、当該発話の音声認識結果が所定の条件を満たすか否かを判定し、かつ、
    前記処理実行部は、当該発話の音声認識結果が前記所定の条件を満たさないと最初に判定された第1のタイミングまでに取得された一以上の発話の各々の音声認識結果に対応する表示オブジェクトを前記複数の表示オブジェクトの中からそれぞれ選び出す、請求項3に記載の情報処理装置。
  7. 前記処理実行部は、さらに、選び出した表示オブジェクトを表示部に表示させる、請求項3に記載の情報処理装置。
  8. 前記発話の音声認識結果に対応する表示オブジェクトが複数選び出される場合には、前記処理実行部は、さらに、当該選び出された複数の表示オブジェクトのうちの一以上をユーザに選択させるための問い合わせの情報の出力を制御する、請求項3に記載の情報処理装置。
  9. 前記処理実行部は、前記複数の表示オブジェクトに基づいて前記発話の音声認識を行う、請求項2に記載の情報処理装置。
  10. 前記処理実行部は、さらに、前記複数の表示オブジェクトの中から、前記音声認識の結果に対応する表示オブジェクトを選び出す、請求項9に記載の情報処理装置。
  11. 前記現在の表示範囲は、前記発話の開始の検出タイミングに応じたタイミングに、表示部により表示された表示範囲である、請求項2に記載の情報処理装置。
  12. 前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示順を、前記発話の音声認識結果に基いて変更する、請求項11に記載の情報処理装置。
  13. 前記処理実行部は、前記複数の表示オブジェクトのうち、表示部により表示される複数の表示オブジェクトの表示分類を、前記発話の音声認識結果に基いて変更する、請求項11に記載の情報処理装置。
  14. 前記第1の表示範囲は、さらに、前記現在の表示範囲の表示タイミングよりも前に表示部により連続的に表示された第2の表示範囲を含む、請求項2に記載の情報処理装置。
  15. 前記処理実行部は、前記第2の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、請求項14に記載の情報処理装置。
  16. 前記第1の表示範囲は、さらに、前記現在の表示範囲の表示タイミングまでには表示されておらず、かつ、当該表示タイミング後に表示部により表示されることが推定される第3の表示範囲を含む、請求項2に記載の情報処理装置。
  17. 前記処理実行部は、前記第3の表示範囲内の複数の表示オブジェクトよりも、前記現在の表示範囲内の複数の表示オブジェクトの中から、前記発話の音声認識結果に対応する表示オブジェクトを優先的に選び出す、請求項16に記載の情報処理装置。
  18. 前記第1の表示範囲は、ユーザにより指定された方向に沿って表示部により連続的に表示される、請求項2に記載の情報処理装置。
  19. 集音された発話を取得することと、
    現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、プロセッサが所定の処理を行うことと、
    を含む、情報処理方法。
  20. コンピュータを、
    集音された発話を取得する取得部と、
    現在の表示範囲に応じた第1の表示範囲内の複数の表示オブジェクトと、前記発話とに基いて、所定の処理を行う処理実行部、
    として機能させるためのプログラム。
JP2018534269A 2016-08-16 2017-05-11 情報処理装置 Expired - Fee Related JP6451907B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016159668 2016-08-16
JP2016159668 2016-08-16
PCT/JP2017/017935 WO2018034028A1 (ja) 2016-08-16 2017-05-11 情報処理装置、情報処理方法、およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018226632A Division JP2019075135A (ja) 2016-08-16 2018-12-03 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP6451907B2 JP6451907B2 (ja) 2019-01-16
JPWO2018034028A1 true JPWO2018034028A1 (ja) 2019-03-28

Family

ID=61196591

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018534269A Expired - Fee Related JP6451907B2 (ja) 2016-08-16 2017-05-11 情報処理装置
JP2018226632A Pending JP2019075135A (ja) 2016-08-16 2018-12-03 情報処理装置、情報処理方法、およびプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2018226632A Pending JP2019075135A (ja) 2016-08-16 2018-12-03 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US10795641B2 (ja)
EP (1) EP3502840B1 (ja)
JP (2) JP6451907B2 (ja)
WO (1) WO2018034028A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6451907B2 (ja) * 2016-08-16 2019-01-16 ソニー株式会社 情報処理装置
CN108346073B (zh) * 2017-01-23 2021-11-02 北京京东尚科信息技术有限公司 一种语音购物方法和装置
US10258295B2 (en) * 2017-05-09 2019-04-16 LifePod Solutions, Inc. Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication
US11301734B2 (en) * 2017-07-12 2022-04-12 Lenovo (Singapore) Pte. Ltd. Object association determination
US10373165B2 (en) * 2017-09-25 2019-08-06 Capital One Services, Llc Automated sensor-based customer identification and authorization systems within a physical environment
JP7203865B2 (ja) * 2018-05-07 2023-01-13 グーグル エルエルシー ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話
JP7143665B2 (ja) * 2018-07-27 2022-09-29 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
JP7177999B2 (ja) * 2018-09-27 2022-11-25 大日本印刷株式会社 商品情報提供システム
US11568007B2 (en) * 2018-10-03 2023-01-31 Walmart Apollo, Llc Method and apparatus for parsing and representation of digital inquiry related natural language
CN111723281A (zh) * 2019-03-22 2020-09-29 北京京东尚科信息技术有限公司 信息获取方法及系统、计算机系统和介质
US11954719B2 (en) * 2019-05-30 2024-04-09 Ncr Voyix Corporation Personalized voice-based assistance
TWI727521B (zh) * 2019-11-27 2021-05-11 瑞昱半導體股份有限公司 動態語音辨識方法及其裝置
US20230186910A1 (en) 2020-05-20 2023-06-15 Nec Corporation Information processing apparatus, information processing method and recording medium
US20220366911A1 (en) * 2021-05-17 2022-11-17 Google Llc Arranging and/or clearing speech-to-text content without a user providing express instructions
KR20230016513A (ko) * 2021-07-26 2023-02-02 주식회사 카카오 상담 서비스 제공 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0362293A (ja) * 1989-07-31 1991-03-18 Toshiba Corp 音声入力装置
JPH06110486A (ja) * 1992-09-25 1994-04-22 Toshiba Corp 音声入力手段を持つマルチメディア装置
JP2001092845A (ja) * 1999-09-27 2001-04-06 Toshiba Corp 文書取得方法及び記録媒体
JP2005500591A (ja) * 2001-03-22 2005-01-06 キヤノン株式会社 情報処理装置及びその方法、プログラム
JP2005322148A (ja) * 2004-05-11 2005-11-17 Mitsubishi Electric Corp ブラウザ装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198731A (ja) * 1997-01-08 1998-07-31 Hitachi Ltd 情報処理装置
JP2001034292A (ja) * 1999-07-26 2001-02-09 Denso Corp 単語列認識装置
JP4156563B2 (ja) * 2004-06-07 2008-09-24 株式会社デンソー 単語列認識装置
JP2006031200A (ja) * 2004-07-14 2006-02-02 Nec Corp 商品検索システム及びその方法並びにそれに用いる端末装置、サーバ装置及びプログラム
JP2007322370A (ja) * 2006-06-05 2007-12-13 Matsushita Electric Ind Co Ltd 地図表示装置
JP4938737B2 (ja) * 2008-09-11 2012-05-23 ヤフー株式会社 商品検索システム、商品検索方法、及びプログラム
CA2814615A1 (en) * 2009-10-13 2011-04-21 Ezsav Inc. Apparatuses, methods, and computer program products enabling association of related product data and execution of transaction
JP5629890B2 (ja) * 2011-03-30 2014-11-26 日立マクセル株式会社 ネットスーパーシステムにおける画面表示方法
KR101793999B1 (ko) * 2011-07-22 2017-11-06 삼성전자주식회사 휴대용 단말기에서 사용자 인터페이스 객체를 배치하는 방법 및 장치
KR20140093957A (ko) * 2011-11-24 2014-07-29 마이크로소프트 코포레이션 상호작용 멀티-모달 이미지 검색 기법
KR20140132246A (ko) 2013-05-07 2014-11-17 삼성전자주식회사 오브젝트 선택 방법 및 오브젝트 선택 장치
US10102561B2 (en) * 2014-02-26 2018-10-16 Amazon Technologies, Inc. Delivery service system
JP6114706B2 (ja) * 2014-02-28 2017-04-12 富士フイルム株式会社 検索システム及び検索システムの制御方法
US9412363B2 (en) * 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
KR102184272B1 (ko) * 2014-06-25 2020-11-30 엘지전자 주식회사 글래스 타입 단말기 및 이의 제어방법
JP6451907B2 (ja) * 2016-08-16 2019-01-16 ソニー株式会社 情報処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0362293A (ja) * 1989-07-31 1991-03-18 Toshiba Corp 音声入力装置
JPH06110486A (ja) * 1992-09-25 1994-04-22 Toshiba Corp 音声入力手段を持つマルチメディア装置
JP2001092845A (ja) * 1999-09-27 2001-04-06 Toshiba Corp 文書取得方法及び記録媒体
JP2005500591A (ja) * 2001-03-22 2005-01-06 キヤノン株式会社 情報処理装置及びその方法、プログラム
JP2005322148A (ja) * 2004-05-11 2005-11-17 Mitsubishi Electric Corp ブラウザ装置

Also Published As

Publication number Publication date
US20190163437A1 (en) 2019-05-30
EP3502840A4 (en) 2019-06-26
EP3502840B1 (en) 2020-11-04
EP3502840A1 (en) 2019-06-26
US10795641B2 (en) 2020-10-06
JP2019075135A (ja) 2019-05-16
JP6451907B2 (ja) 2019-01-16
WO2018034028A1 (ja) 2018-02-22

Similar Documents

Publication Publication Date Title
JP6451907B2 (ja) 情報処理装置
JP7037602B2 (ja) デジタルアシスタントサービスの遠距離拡張
US11005787B2 (en) Answer message recommendation method and device therefor
US11157577B2 (en) Method for searching and device thereof
US11256865B2 (en) Method and apparatus for sending sticker image during chat session
US9412363B2 (en) Model based approach for on-screen item selection and disambiguation
JP6391234B2 (ja) 情報検索方法、そのような機能を有するデバイス及び記録媒体
CN102460362B (zh) 在计算设备上的字形输入
US10162865B2 (en) Generating image tags
CN108733438A (zh) 应用程序与数字助理集成
JP6502923B2 (ja) コンピューティングデバイスのための認識インターフェース
CN107615276A (zh) 用于媒体回放的虚拟助理
JP2020537198A (ja) 音楽を特定の歌曲として識別する
KR102276856B1 (ko) 컴퓨팅 디바이스와 상호작용하는 장치 및 방법
CN107015979B (zh) 一种数据处理方法、装置和智能终端
US11314826B2 (en) Method for searching and device thereof
WO2018120169A1 (zh) 自动设置壁纸的方法、终端设备和图形用户界面
JP2016192121A (ja) 制御装置、制御方法及びコンピュータプログラム
KR20180079762A (ko) 컨텐트에 관한 정보를 제공하는 방법 및 디바이스
TW202004525A (zh) 搜索方法、電子裝置及非暫時性電腦可讀記錄媒體
WO2017026146A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN113190752A (zh) 信息推荐方法、移动终端及存储介质
US11942081B2 (en) Information processing device and information processing method for response presentation
JP6394463B2 (ja) 楽曲検索システム、および楽曲検索プログラム
JP2018169661A (ja) 情報処理方法、装置、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181018

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181018

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181126

R151 Written notification of patent or utility model registration

Ref document number: 6451907

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

LAPS Cancellation because of no payment of annual fees