JPWO2019098036A1

JPWO2019098036A1 - 情報処理装置、情報処理端末、および情報処理方法

Info

Publication number: JPWO2019098036A1
Application number: JP2019527268A
Authority: JP
Inventors: 真里斎藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-11-15
Filing date: 2018-11-01
Publication date: 2020-10-01
Also published as: US11392646B2; EP3567471A1; EP3567471A4; WO2019098036A1; US20190384795A1

Abstract

本技術は、音声認識しやすい選択肢を提示することができるようにする情報処理装置、情報処理端末、および情報処理方法に関する。本技術の一側面の情報処理装置は、選択肢として提示する複数の提示情報を取得し、それぞれの提示情報のうちの、他の提示情報と類似しない部分を、類似する部分と異なる形式で提示させる。本技術は、ユーザの行動を支援する音声アシスタント機能を有する装置に適用することができる。

Description

本技術は、情報処理装置、情報処理端末、および情報処理方法に関し、特に、音声認識しやすい選択肢を提示することができるようにした情報処理装置、情報処理端末、および情報処理方法に関する。

音声によって操作が可能な音声アシスタント機能を搭載したデバイスが注目されている。いわゆるスマートスピーカーと呼ばれるようなデバイスの中には、ディスプレイを搭載したものもある。

ユーザは、ディスプレイに表示された情報の中に詳細を知りたいと思うような情報がある場合、その情報を音声によって選択して、詳細な情報の提示を要求するような使い方をすることになる。

特許文献１には、音声によって操作可能な表示画面において、音声によって操作できる部分を強調して表示したり、読み方を付与して表示したりする技術が開示されている。

特開２００７−１７１８０９号公報

項目の名称（語彙）によっては、音声認識しにくい項目が選択肢として並べて表示されることがある。例えば発音が似ている項目が並ぶ場合、ユーザが想定している項目と異なる項目が選択されてしまうことがある。

本技術はこのような状況に鑑みてなされたものであり、音声認識しやすい選択肢を提示することができるようにするものである。

本技術の一側面の情報処理装置は、選択肢として提示する複数の提示情報を取得する取得部と、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部とを備える。

本技術の他の側面の情報処理端末は、ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信する通信部と、受信された複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部とを備える。

本技術においては、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分が、類似する部分と異なる形式で提示される。

本技術によれば、音声認識しやすい選択肢を提示することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の一実施形態に係る情報処理システムの構成例を示す図である。音声を用いた入力の例を示す図である。音声による提示例を示す図である。検索結果の表示例を示す図である。単語の抽出例を示す図である。検索結果の選択の例を示す図である。検索結果の他の表示例を示す図である。情報処理端末の構成例を示すブロック図である。情報提示サーバのハードウェア構成例を示すブロック図である。情報提示サーバの機能構成例を示すブロック図である。情報処理端末の処理について説明するフローチャートである。情報処理装置の処理について説明するフローチャートである。検索結果の他の表示例を示す図である。検索結果の他の表示例を示す図である。音声を用いた入力の例を示す図である。登録済みのタスクの表示例を示す図である。削除対象の選択の例を示す図である。音声による提示例を示す図である。

以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
１．情報処理システムにおける情報提示
２．各装置の構成
３．各装置の動作
４．検索結果以外の情報提示
５．変形例
６．その他の例

＜情報処理システムにおける情報提示＞
図１は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。

図１の情報処理システムは、情報処理端末１と情報提示サーバ２がインターネット３を介して接続されることによって構成される。

情報処理端末１は、ユーザの行動を支援するための各種の処理をAI（Artificial Intelligence）を用いて行う、いわゆる音声アシスタントの機能を搭載した装置である。

情報処理端末１の機能は、例えば情報提示サーバ２と通信を行うことによって実現される。例えば、情報処理端末１と情報提示サーバ２により、ユーザが要求する情報を検索して提示する機能、ユーザのタスクを管理する機能、電子メールやSNS（Social Networking Service）のメッセージを送信する機能などの各種の機能が実現される。

情報処理端末１は、例えば、家庭内の所定の位置に設置される。情報処理端末１は、家庭内に設置されたルータ（図示せず）などを介してインターネット３に接続される。図１の例においては、情報処理端末１が設置型の装置とされているが、スマートフォン、タブレット端末、腕時計型のウェアラブルなどの携帯型の装置であってもよい。

情報処理端末１の操作は、主に音声UI（User Interface）によって行われる。情報処理端末１には、ユーザの発話音声を集音するためのマイク（マイクロホン）や、合成音声を出力することによってユーザに対して各種の情報を提示するためのスピーカが設けられる。

また、情報の提示は、画面UIによっても行われる。情報処理端末１には、プロジェクタやディスプレイなどの、画面を表示するための画像表示デバイスが設けられている。

情報処理端末１は、ユーザと情報提示サーバ２の間のインタフェースとしての役割を有するデバイスである。

例えば、図１に示すように情報処理端末１の周りにいるユーザが発話を行った場合、ユーザの音声は情報処理端末１により検出され、音声データが情報処理端末１から情報提示サーバ２に送信される。

情報提示サーバ２においては、情報処理端末１から送信されてきた音声データに基づいて、音声認識、発話内容の意味解析などが行われる。例えば、ユーザが情報の検索を要求している場合、情報の検索が行われ、検索結果が、ユーザに提示する提示情報として取得される。情報提示サーバ２においては、例えば複数の提示情報が取得され、情報処理端末１に対して送信される。

情報提示サーバ２から送信された提示情報は、情報処理端末１により受信され、プロジェクタなどの画像表示デバイスにより、選択肢としてユーザに提示される。

提示情報を見たユーザは、名称を発話するなどして所定の提示情報を音声で選択する。このように、ユーザは、例えば、情報の検索を音声によって要求することにより、検索結果を、情報処理端末１により表示された画面から確認することができる。

図２は、音声を用いた入力の例を示す図である。

ここでは、図２の吹き出しに示すように、ユーザが、「近くにあるAAAコーヒーのお店を教えて。」の発話を行うことによって「AAAコーヒー」の店舗の検索を行う場合について説明する。「AAAコーヒー」は各チェーン店で共通して使われる店舗の名称である。

情報提示サーバ２においては、音声認識と発話内容の意味解析などの処理が行われ、ユーザの発話に含まれるキーワードである「AAAコーヒー」に基づいて、ユーザの自宅の近くにある店舗の検索が行われる。検索には、情報処理端末１の位置情報も適宜用いられる。

例えば、検索結果として３店舗見つかった場合、情報提示サーバ２から送信されてきた情報に基づいて、図３の吹き出しに示すように、「３店舗あります。どの店舗の情報を知りたいですか？」の音声が情報処理端末１から出力される。また、情報提示サーバ２から送信されてきた情報に基づいて、検索結果を表示する画面が情報処理端末１により表示される。

図４は、検索結果の表示例を示す図である。

図４に示す画面は、例えば、情報処理端末１が内蔵するプロジェクタにより、情報処理端末１の近くにある壁面に投影される画面である。

以下、主に、画面表示がプロジェクタを用いて行われる場合について説明するが、同様の画面が情報処理端末１に設けられるディスプレイに表示されるようにしてもよい。また、情報処理端末１に接続されるディスプレイに表示されるようにしてもよい。

図４の例においては、検索結果Ｒ１乃至Ｒ３が縦に並べて表示されている。矩形状の領域に表示される検索結果Ｒ１乃至Ｒ３は、それぞれの、「AAAコーヒーモミネエスト新宿店」、「AAAコーヒー新四角ビル店」、「AAAコーヒーゲートウェイ大崎店」の情報である。

それぞれの検索結果の領域の左方の位置には店舗のイメージ画像が表示され、イメージ画像の右側に店舗の名称が表示される。店舗の名称の下には、場所、店舗ジャンル、金額、店舗の特徴などの詳細情報が表示される。詳細情報は、検索結果として取得された情報のメタデータに基づいて表示される。

図４の例においては、検索結果Ｒ１の名称である「AAAコーヒーモミネエスト新宿店」の文字列のうちの「新宿店」の部分が、枠＃１によって囲まれ、強調表示されている。

また、検索結果Ｒ２の名称である「AAAコーヒー新四角ビル店」の文字列のうちの「新四角ビル店」の部分が、枠＃２によって囲まれ、強調表示されている。

検索結果Ｒ３の名称である「AAAコーヒーゲートウェイ大崎店」の文字列のうちの「ゲートウェイ大崎店」の部分が、枠＃３によって囲まれ、強調表示されている。

枠の画像を用いた強調表示は、その部分が、検索結果を選択するためにユーザに発話させようとする部分であることを表す。検索結果の名称の文字列から特定の部分を選択する処理が、情報提示サーバ２において行われることになる。

店舗の名称を表す文字列のうちのどの部分を強調表示するのかは、例えば、文字列全体を単語毎に区切り、発音が類似しない単語を抽出するようにして特定される。

図５は、単語の抽出例を示す図である。

図５に示すように、検索結果Ｒ１の名称である「AAAコーヒーモミネエスト新宿店」の文字列は、「AAA」、「コーヒー」、「モミネ」、「エスト」、「新宿店」の各単語に区切られる。また、検索結果Ｒ２の名称である「AAAコーヒー新四角ビル店」の文字列は、「AAA」、「コーヒー」、「新」、「四角ビル店」の各単語に区切られる。検索結果Ｒ３の名称である「AAAコーヒーゲートウェイ店」の文字列は、「AAA」、「コーヒー」、「ゲートウェイ」、「大崎店」に区切られる。

情報処理端末１においては、例えば、各単語の発音の類似度が求められ、発音が類似しない文字列が抽出される。

図５の例においては、波線を付して示すように、検索結果Ｒ１の名称からは「新宿店」の部分が抽出され、検索結果Ｒ２の名称からは「新四角ビル店」の部分が抽出されている。また、検索結果Ｒ３の名称からは「ゲートウェイ大崎店」の部分が抽出されている。音声認識の精度を高めるために、例えば、短すぎない、所定の長さの部分が抽出される。

このようにして抽出された文字列に対して枠の画像が付加され、図４に示すような形で強調表示される。

特定の部分が強調表示されることにより、ユーザは、強調表示されている部分を発話すればよいことを直感的に認識することができる。例えば、検索結果Ｒ１を選択する場合、ユーザは「新宿店」と発話すればよいことになる。

図６は、検索結果の選択の例を示す図である。

例えば、図６の吹き出しに示すように、ユーザが「新宿店の場所を教えて。」と発話した場合、音声認識などの処理が行われ、検索結果Ｒ１の選択が受け付けられる。また、ユーザの要求に応じて、「AAAコーヒーモミネエスト新宿店」の地図が表示される。

このように、選択肢として提示する情報の発音が類似する場合、誤認識が生じないような部分（文字列）が抽出され、ユーザに提示される。

検索結果Ｒ１乃至Ｒ３として示される店舗の名称は、「AAAコーヒー」の部分において共通する。従って、所定の店舗を選択するために店舗の名称の文字列を全て発話させるとした場合、発音が類似する部分が含まれることから、音声認識の誤認識が生じる可能性がある。

このように、発音が類似しない部分を強調して表示し、その部分をユーザに発話させることにより、情報提示サーバ１０２は、ユーザが音声で選択する場合の誤認識を防ぐことができる。誤認識が減ることにより、ユーザは、提示された情報を、音声によってより効率的に選択することができる。

図７は、検索結果の他の表示例を示す図である。

例えば、「スカイレストランを調べて。」のような発話が行われ、店舗の検索がユーザにより要求された場合、図７に示すような検索結果が表示される。

図７の例においては、検索結果Ｒ１１乃至Ｒ１３が縦に並べて表示されている。検索結果Ｒ１１乃至Ｒ１３は、それぞれ、「スカイビアガーデン Gri Grill〜グリグリル〜新宿店」、「スカイビューフードトレイン（Sky View Food Train）」、「新宿青空ダイニング SKY COURT〜スカイコート〜」の情報である。

図７の例においては、検索結果Ｒ１１の名称である「スカイビアガーデン Gri Grill〜グリグリル〜新宿店」の文字列のうちの「グリグリル」の部分が、枠＃１１によって囲まれ、強調表示されている。

また、検索結果Ｒ１２の名称である「スカイビューフードトレイン（Sky View Food Train）」の文字列のうちの「フードトレイン」の部分が、枠＃１２によって囲まれ、強調表示されている。

検索結果Ｒ１３の名称である「新宿青空ダイニング SKY COURT〜スカイコート〜」の文字列のうちの「青空ダイニング」の部分が、枠＃１３によって囲まれ、強調表示されている。

このように、検索結果などの各種の情報を選択肢として提示する場合、適宜、選択肢の名称のうちの発音が類似しない部分が抽出され、強調表示される。

名称の文字列の一部ではなく全体が強調表示されるようにしてもよい。例えば、「カフェ・ブルー」と「カフェ・ブルース」の文字列を提示する場合、前者の選択肢については「カフェ・ブルー」全体が強調表示され、後者の選択肢については「ブルース」だけが強調表示される。

以上のような音声認識しやすい選択肢を提示する情報処理端末１と情報提示サーバ２の処理についてはフローチャートを参照して後述する。

＜各装置の構成＞
・情報処理端末１の構成
図８は、情報処理端末１の構成例を示すブロック図である。

CPU(Central Processing Unit)５１、ROM(Read Only Memory)５２、RAM(Random Access Memory)５３は、バス５４により相互に接続される。

CPU５１においては、所定のプログラムが実行されることにより、通信制御部５１Ａと提示制御部５１Ｂが実現される。

通信制御部５１Ａは、通信部６２を制御し、情報提示サーバ２との間で通信を行う。例えば、通信制御部５１Ａは、ユーザが発話を行った場合、音声データを情報提示サーバ２に送信する。また、通信制御部５１Ａは、情報提示サーバ２から送信されてきた情報を受信する。情報提示サーバ２からは、TTS(Text-to-Speech)により生成された音声（合成音声）のデータや、提示情報を表示するための表示画面の情報などが送信されてくる。

提示制御部５１Ｂは、ユーザに対する情報の提示を制御する。例えば、提示制御部５１Ｂは、スピーカ５７を制御し、情報提示サーバ２から送信されてきたデータに基づいて音声を出力させる。また、提示制御部５１Ｂは、ディスプレイ５８や画像表示デバイス５９を制御し、情報提示サーバ２から送信されてきたデータに基づいて画面を表示させる。

バス５４には、マイク５５、カメラ５６、スピーカ５７、ディスプレイ５８、画像表示デバイス５９、入力部６０、記憶部６１、および通信部６２が接続される。

マイク５５は、ユーザの発話音声を検出する。マイク５５により検出された音声のデータは、通信部６２に供給され、情報提示サーバ２に送信される。

カメラ５６は、情報処理端末１の周りの様子を撮影し、撮影して得られた画像をCPU５１に出力する。カメラ５６により撮影された画像も、適宜、情報提示サーバ２に送信される。カメラ５６により撮影された画像に基づいて各種の状況が特定される。

スピーカ５７は、音声や、BGMなどの音楽を出力する。

ディスプレイ５８は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどにより構成される。ディスプレイ５８は、メニュー画面、上述した検索結果の画面などの各種の画面を表示する。

画像表示デバイス５９は例えばプロジェクタである。画像表示デバイス５９は、図４を参照して説明したような検索結果の画面などの各種の画面を壁面や床面などに投影する。

入力部６０は、ディスプレイ５８に重ねて設けられたタッチパネルや、情報処理端末１の筐体に設けられた各種のボタンにより構成される。入力部６０は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。

記憶部６１は、不揮発性のメモリなどにより構成される。記憶部６１は、CPU５１が実行するプログラムなどの各種のデータを記憶する。

通信部６２は、ネットワークインタフェースなどにより構成される。通信部６２は、インターネット３を介して情報提示サーバ２と通信を行う。

加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサが情報処理端末１に設けられるようにしてもよい。

・情報提示サーバ２の構成
図９は、情報提示サーバ２のハードウェア構成例を示すブロック図である。

CPU１０１、ROM１０２、RAM１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウスなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７が接続される。また、入出力インタフェース１０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、リムーバブルメディア１１１を駆動するドライブ１１０が接続される。

この例においては、情報提示サーバ２が１台のコンピュータにより構成されるものとしているが、複数のコンピュータにより構成されるようにしてもよい。複数のコンピュータが協働して処理を行うことにより、情報提示サーバ２の機能が実現される。

図１０は、情報提示サーバ２の機能構成例を示すブロック図である。図１０に示す構成のうちの少なくとも一部は、図９のCPU１０１により所定のプログラムが実行されることによって実現される。

図１０に示すように、情報提示サーバ２においては情報処理部１５１が実現される。情報処理部１５１は、音声認識部１６１、意味解析部１６２、提示情報DB１６３、提示情報取得部１６４、および提示方法制御部１６５から構成される。

なお、説明の便宜上、図１０には、情報処理端末１の構成であるマイク５５と画像表示デバイス５９が示されている。ユーザが発話を行うことに応じてマイク５５により検出され、情報処理端末１から送信されてきた音声データは、通信部１０９において受信され、音声認識部１６１に入力される。また、提示方法制御部１６５が出力した表示画面の情報は、通信部１０９から情報処理端末１に対して送信され、画像表示デバイス５９において画面の表示に用いられる。

音声認識部１６１は、ユーザの音声を認識し、認識結果を表す文字列を意味解析部１６２に出力する。

意味解析部１６２は、音声認識部１６１から供給された文字列に基づいて、ユーザの発話内容の意味を解析する。ユーザの発話の意味の解析結果を表す情報は提示情報取得部１６４に供給される。

提示情報取得部１６４は、意味解析部１６２による解析結果に基づいて、検索結果の情報などの提示情報を提示情報DB１６３から読み出して取得する。提示情報DB１６３には、各種の情報が記憶されている。ユーザに提示する情報が、インターネット３上の他のサーバや、ユーザの携帯端末などの他の装置から取得されるようにしてもよい。提示情報取得部１６４は、取得した提示情報を提示方法制御部１６５に出力する。

提示方法制御部１６５は、画像表示デバイス５９を制御し、提示情報取得部１６４から供給された提示情報を含む画面を表示させる。提示方法制御部１６５は、選択肢として提示する情報の発音が類似している場合、類似しない部分を強調表示するなどして提示方法を制御する。

＜各装置の動作＞
ここで、情報処理端末１と情報提示サーバ２の動作について説明する。

・情報処理端末１の動作
はじめに、図１１のフローチャートを参照して、情報処理端末１の処理について説明する。

ステップＳ１において、マイク５５は、ユーザの音声を検出する。

ステップＳ２において、通信制御部５１Ａは、音声データを情報提示サーバ２に送信する。

音声データを受信した情報提示サーバ２においては、情報の検索が行われ、表示画面の情報が情報処理端末１に対して送信される。画面の表示に合わせて音声を出力する場合、情報提示サーバ２からは、音声のデータも適宜送信されてくる。

ステップＳ３において、通信制御部５１Ａは、情報提示サーバ２から送信されてきた、表示画面の情報を受信する。

ステップＳ４において、提示制御部５１Ｂは、情報提示サーバ２から送信されてきた情報を画像表示デバイス５９に出力し、提示情報を含む画面を表示させる。

このような処理が、ユーザが発話を行う毎に行われる。

・情報提示サーバ２の動作
次に、図１２のフローチャートを参照して、情報提示サーバ２の処理について説明する。

図１２の処理は、情報処理端末１から送信されてきた音声データに基づいて音声認識部１６１において音声認識が行われ、ユーザの発話内容の意味の解析結果を表す情報が意味解析部１６２から提示情報取得部１６４に入力されたときに開始される。

ステップＳ１１において、提示情報取得部１６４は、ユーザの発話の意味の解析結果に基づいて、選択肢として提示する複数の提示情報を提示情報DB１６３から取得する。選択肢として提示する提示情報は、音声によって選択される可能性のある情報である。

ステップＳ１２において、提示方法制御部１６５は、それぞれの選択肢の名称の発音を解析する。

ステップＳ１３において、提示方法制御部１６５は、それぞれの選択肢の名称の発音が類似するか否かを判定する。

選択肢の名称の発音が類似しないとステップＳ１３において判定した場合、ステップＳ１４において、提示方法制御部１６５は、表示画面の情報を情報処理端末１に送信し、選択肢の情報をそのまま表示させる。この場合、名称全体をそのまま発音させたとしても誤認識が生じる可能性が低いため、強調表示が行われないことになる。

一方、選択肢の名称の発音が類似するとステップＳ１３において判定した場合、ステップＳ１５において、提示方法制御部１６５は、発音が類似しない部分があるか否かを判定する。

選択肢の名称の発音が類似しない部分があるとステップＳ１５において判定した場合、ステップＳ１６において、提示方法制御部１６５は、名称の文字列のうちの発音が類似しない部分を、発話すべき部分、すなわち強調表示する部分として特定する。

その後、ステップＳ１４において、提示方法制御部１６５は、表示画面の情報を情報処理端末１に送信し、類似しない部分を強調表示した形で、それぞれの選択肢を表示させる。

これにより、例えば、図４に示したように、「新宿店」、「新四角ビル店」、「ゲートウェイ大崎店」などの部分が強調表示された検索結果の画面が表示される。ユーザは、「新宿店の場所を教えて。」などといったように強調表示された部分を発話することで、所定の選択肢を選択することができる。

一方、選択肢の名称の発音が類似しない部分がないとステップＳ１５において判定された場合、処理はステップＳ１７に進む。

ステップＳ１７において、提示方法制御部１６５は、それぞれの選択肢のメタデータに、発話させたときに各選択肢を区別可能な情報があるか否かを判定する。上述したように、選択肢としてユーザに提示される各情報には、場所、店舗ジャンル、金額、店舗の特徴などの詳細情報がメタデータとして含まれている。

各選択肢を区別可能な情報がメタデータに含まれているとステップＳ１７において判定した場合、ステップＳ１８において、提示方法制御部１６５は、各選択肢を区別可能な情報を、選択肢の名称に付加する情報としてメタデータから特定する。

その後、ステップＳ１４において、提示方法制御部１６５は、表示画面の情報を情報処理端末１に送信し、メタデータから特定した情報を名称に付加した形でそれぞれの選択肢を表示させる。選択肢の名称に付加される付加情報は強調表示される。

例えば、同じ名称の店舗を選択肢として提示する場合、場所、最寄り駅、ジャンル名などの、発話が行われたときに各店舗を識別することができそうな情報が付加情報として特定され、店舗の名称に付加して強調表示される。

具体的には、図４を参照して説明した検索結果Ｒ１乃至Ｒ３の全ての名称が「AAAコーヒー」として設定されている場合、各店舗の場所を表す「新宿店」、「新四角ビル店」、「ゲートウェイ大崎店」が検索結果Ｒ１乃至Ｒ３のメタデータから特定される。また、「AAAコーヒー」の名称に付加され、図４に示すように「新宿店」、「新四角ビル店」、「ゲートウェイ大崎店」の部分が強調表示される。

付加情報として、注目メニューやセールスポイントなどの、店舗の特徴を表すキーワードが用いられるようにしてもよい。このようなキーワードもメタデータに含まれる。

具体的には、図７を参照して説明した検索結果Ｒ１１乃至Ｒ１３の全ての名称が「スカイレストラン」として設定されているものとする。検索結果Ｒ１１のメタデータには、「ビアガーデン」、「食べ放題」、・・・などの情報が含まれ、検索結果Ｒ１２のメタデータには、「バーベキュー」、「フリードリンク」、・・・などの情報が含まれるものとする。検索結果Ｒ１３のメタデータには、「バイキング」、「パフェが自慢」、・・・などの情報が含まれるものとする。

この場合、図１３に示すように、検索結果Ｒ１１の名称の「スカイレストラン」の文字列には、検索結果Ｒ１１の店舗のセールスポイントを表す「食べ放題」の付加情報が付加され、枠＃２１で囲むことによって強調表示される。

また、検索結果Ｒ１２の名称の「スカイレストラン」の文字列には、検索結果Ｒ１２の店舗の特徴を表す「フリードリンク」の付加情報が付加され、枠＃２２で囲むことによって強調表示される。

検索結果Ｒ１３の名称の「スカイレストラン」の文字列には、検索結果Ｒ１３の店舗の特徴を表す「パフェが自慢」の付加情報が付加され、枠＃２３で囲むことによって強調表示される。

ユーザは、検索結果Ｒ１３の店舗を選択するとき、「パフェが自慢のお店の詳細を教えて。」など発話することになる。店舗のセールスポイントをユーザに自ら発話させることにより、その店舗に対する関心を深めさせることが可能になる。

図１２の説明に戻り、ステップＳ１７において、各選択肢を区別可能な情報がメタデータに含まれていないと判定された場合、処理はステップＳ１９に進む。

ステップＳ１９において、提示方法制御部１６５は、選択肢に付加する情報を画像から特定する。上述したように、選択肢として提示される情報にはイメージ画像などの画像が含まれている。提示方法制御部１６５は、例えば、それぞれの提示情報の画像を解析し、画像に写っている被写体の特徴を表すキーワードを付加情報として特定する。

その後、ステップＳ１４において、提示方法制御部１６５は、表示画面の情報を情報処理端末１に送信し、画像から特定した情報を名称に付加した形でそれぞれの選択肢を表示させる。

例えば、図１３に示す検索結果Ｒ１３のイメージ画像に青いテーブルが写っている場合、検索結果Ｒ１３の名称の「スカイレストラン」の文字列には、イメージ画像に写っている被写体の特徴を表す「青いテーブル」の付加情報が付加され、強調表示される。

ユーザは、検索結果Ｒ１３の店舗を選択するとき、「青いテーブルのお店の詳細を教えて。」など発話することになる。

以上の処理のように、選択肢の名称の発音が類似する場合、選択肢を提示するための一段階目の処理として、発音が類似しない部分を特定し、強調表示する処理が行われる。

また、選択肢を提示するための二段階目の処理として、各選択肢を区別可能な付加情報をメタデータから特定し、名称に付加して強調表示する処理が行われる。

さらに、選択肢を提示するための三段階目の処理として、付加情報を画像から特定し、名称に付加して強調表示する処理が行われる。

これにより、情報提示サーバ２は、選択が音声によって行われた場合でも誤認識の生じにくい選択肢を生成し、ユーザに提示することができる。

図１４は、検索結果の他の表示例を示す図である。

選択肢として提示される名称の部分が強調表示されるのではなく、図１４に示すように、詳細情報の部分が強調表示されるようにしてもよい。

図１４の例においては、検索結果Ｒ１１の詳細情報のうち、「食べ放題」の部分が枠＃３１によって強調表示されている。また、検索結果Ｒ１２の詳細情報のうち、「フリードリンク」の部分が枠＃３２によって強調表示されている。検索結果Ｒ１３の詳細情報のうち、「パフェが自慢」の部分が枠＃３３によって強調表示されている。

このように、情報提示サーバ２は、選択肢の名称以外の、ユーザに発話させたい各種の情報を強調表示させることが可能である。

なお、図１４の例においては、強調表示に用いる枠の画像が波線の画像とされている。このように、強調表示の方法として各種の方法を採用することが可能である。

枠の画像を用いた方法ではなく、例えば、強調する部分を他の部分より目立つ色で表示したり、強調する部分のフォントサイズを他の部分のフォントサイズより大きくしたりすることによって強調表示が行われるようにしてもよい。

＜検索結果以外の情報提示＞
次に、検索結果以外の情報を提示する場合について説明する。

図１５は、音声を用いた入力の例を示す図である。

ここでは、図１５の吹き出しに示すように、ユーザが、「予定のキャンセルがあったからタスクを見せて。」の発話を行い、登録しているタスクの提示を要求する場合について説明する。

情報提示サーバ２は、情報処理端末１のユーザのタスクを管理している。タスクの登録は、ユーザが、タスクの登録を情報処理端末１に対して音声で要求することによって行われるようにしてもよいし、携帯電話機などの他の機器を操作して行われるようにしてもよい。

情報提示サーバ２には、例えば、毎週土曜日の繰り返しのタスクとして「サッカー」が登録されているものとする。情報提示サーバ２においては、音声認識などが行われ、ユーザの発話に基づいて、登録済みのタスクの情報が提示情報DB１６３から読み出される。

登録済みのタスクの情報は、提示情報として情報処理端末１に送信され、情報処理端末１により提示される。ユーザは、情報処理端末１により提示された登録済みのタスクの中から所定のタスクを選択し、キャンセルを要求する。

図１６は、登録済みのタスクの表示例を示す図である。

例えば、情報処理端末１は、図１６に示すようなリストを表示するとともに、吹き出しに示すように、「どのタスクを削除しますか？」などの音声を出力する。図１６に示すリストは、削除対象とするタスクの選択画面となる。

図１６の例においては、今月のタスクとして、「７日のサッカー」、「１４日のサッカー」、「２１日のサッカー」、「２８日のサッカー」の４つのタスクが削除対象の選択肢として表示されている。

単に４つの「サッカー」の文字だけがリストに表示され、削除対象とするタスクを音声によってユーザに選択させるとした場合、発音がすべて同じであるから、ユーザが想定しない「サッカー」が選択されてしまう可能性がある。

このようなユーザが想定しない処理が行われるのを防ぐため、図１６に示すように、それぞれの「サッカー」の文字に対して、そのタスクが登録されている日付が付加された形でリストに表示される。ユーザは、例えば、１つ目の「サッカー」のタスクを選択する場合、「７日のサッカー」と発話することになる。

このように、繰り返しのタスクを選択肢として提示する場合、タスクを表す文字列には、日時や場所などの、各タスクを区別するための情報が提示方法制御部１６５により付加される。

図１７は、削除対象の選択の例を示す図である。

例えば、ユーザが「１４日のサッカーをキャンセルして。」と発話した場合、音声認識などが行われることによって、「１４日のサッカー」のタスクの削除が受け付けられる。また、ユーザの要求に応じて、「１０月１４日土曜日、１０時からのサッカーの予定を削除します。」の音声が情報処理端末１から出力される。

このように、選択肢として提示する情報が類似する場合、誤認識が生じないような情報が適宜付加され、ユーザに提示される。情報提示サーバ２は、所定の選択肢をユーザが音声によって選択したときの誤認識を防ぐことができる。

＜変形例＞

音声を用いたユーザの選択の誤認識を防ぐために各種の提示方法を採用することができる。

・各選択肢に数字を付加する例
選択肢にそれぞれ数字が付加されるようにしてもよい。これにより、ユーザは、数字を発話することで、その数字が付加された選択肢を選択することができる。

この場合、選択肢の名称に数字が含まれているときには、ユーザが発話した数字が、選択肢の名称に含まれる数字であるのか、選択肢に付加された数字であるのかが判別できない。従って、この場合、誤認識の生じにくい情報を選択肢に付加して、ユーザに提示するようにしてもよい。

例えば、「レストラン５番街」、「ラーメン一番星」、「中華２番星」、「焼肉三番館」、「くいもの市場（いちば）」の名称に数字を付加し、下記に示すような選択肢を提示するものとする。
１．レストラン５番街
２．ラーメン一番星
３．中華２番星
４．焼肉三番館
５．くいもの市場

ユーザが「いちばん」の発話を行ったとすると、「１．レストラン５番街」を選択しているのか、「２．ラーメン一番星」を選択しているのか、あるいは、音声認識の誤りにより「５．くいもの市場」を選択しているのかが分からない。

情報提示サーバ２の提示方法制御部１６５は、選択肢の名称に数字が含まれる場合や、数字に類似する発音（例えば、いちばん、いちば）が含まれる場合、その数字を名称に付加しないか、その数字自体を名称に付加して選択肢の提示を行う。また、提示方法制御部１６５は、アルファベット（Ａ，Ｂ，Ｃ，・・・）などの、数字ではない情報を名称に付加して選択肢の提示を行う。

・表示順を調整する例
また、複数の選択肢を複数のページ（画面）に跨がって表示する場合、発音が類似する選択肢が同じ画面に含まれないように、選択肢の表示順が制御されるようにしてもよい。この場合、１つの画面には、発音が類似しない選択肢だけが表示される。

・ユーザの属性に応じて表示を調整する例
選択肢を提示する相手となるユーザの属性に応じて選択肢の表示を変えるようにしてもよい。この場合、提示方法制御部１６５においては、例えばマイク５５から供給された音声やカメラ５６により撮影された画像が解析され、ユーザの年齢、性別などの属性が特定される。

例えば、幼いユーザに対して、難しい漢字の部分を強調表示したとしてもその漢字をユーザが読めない可能性がある。この場合、提示方法制御部１６５は、送り仮名を追加したり、ひらがなに変換したり、選択しやすい絵（例えば、うさぎの絵、くまの絵など）を付加したりして選択肢の提示を情報処理端末１に行わせる。

・発話の難易度に応じて表示を調整する例
下記に示すような読みにくい文字の部分の強調表示を避けるようにして選択肢の提示が行われるようにしてもよい。
・外国語（英語、アルファベット表記など）
・読みにくい漢字（「牛蒡（ごぼう）」、「欠伸（あくび）」など）
・独特な言い方、読み方をする単語（ネット用語、アーティスト名の愛称など）
・誤読しやすい漢字（「ぎっしゃ」と読む「牛車」、「こもんじょ」と読む「古文書」など）
・見間違いやすい単語（「緑と縁」、「萩原と荻原」、「227と277」、「z77と2z7」など）

・複数箇所を強調表示する例
１つの選択肢につき、複数の部分が強調表示によってユーザに提示されるようにしてもよい。

また、１つの選択肢を提示する場合において、強調表示の候補となる部分が複数あるとき、言いやすいかどうかや一般的な言葉であるかどうかなどを基準として、強調表示する１つの部分が選択されるようにしてもよい。言いやすいかどうかや一般的な言葉であるかどうかについては、例えば、収集済みのユーザの発話データやWebサイトなどで利用されている表現の頻度に関する統計的な情報に基づいて判断される。

・音声を用いた提示
図１８は、音声による提示例を示す図である。

画面表示ではなく、検索結果などの選択肢を音声によってユーザに提示する場合にも、発音が類似しない部分が提示される。例えば、図２乃至図４を参照して説明したようなやりとりが行われ、検索結果Ｒ１乃至Ｒ３が取得された場合について説明する。

この場合、図１８の吹き出しに示すように、「新宿店と新四角ビル店とゲートウェイ大崎店があります。」が、検索結果として音声によって提示される。検索結果Ｒ１乃至Ｒ３は、それぞれ、発音が類似しない「新宿店」、「新四角ビル店」、「ゲートウェイ大崎店」の部分の音声により表される。

ユーザは、この音声を聞いて、例えば、「新宿店」などと発話することによって検索結果Ｒ１の店舗を選択することになる。

このように、音声により選択肢を提示する場合、誤認識が生じないようにするために、発話が類似する部分については、発話が行われない。このように、選択肢を音声によって提示する場合にも、特定の部分を強調して提示することが可能である。

選択肢を音声によって提示する場合、特定の部分のみを発話するのではなく、読み上げ時の発話の強弱によって、特定の部分が強調して提示されるようにしてもよい。

上述した提示方法は適宜組み合わせて用いることが可能である。例えば、各選択肢に数字を付加する場合、付加した数字が強調表示されるようにしてもよい。

＜その他の例＞
ユーザにも誤読がある可能性があるため、強調表示によって提示した部分の読み方に類似する発話が行われた場合に、その部分を含む選択肢が選択されたものとして処理が行われるようにしてもよい。また、類似する発話が行われた部分を含む選択肢を選択したのかどうかの問い合わせがユーザに対して行われるようにしてもよい。

情報の提示がユーザからの要求に応じて行われるものとしたが、上述したような強調表示などを用いた情報の提示は、ユーザに推薦する情報を、情報提示サーバ２側から主体的に提示する場合にも適用可能である。

以上においては、各種の処理が情報提示サーバ２において行われるものとしたが、上述した情報提示サーバ２の機能のうちの少なくとも一部の機能が情報処理端末１に搭載されるようにしてもよい。

この場合、図１０に示す情報処理部１５１の機能部のうち少なくとも一部が情報処理端末１に設けられる。ユーザに提示する情報は、情報処理端末１内のデータベースである提示情報DB１６３から、または、インターネット３上のサーバから取得される。

このように、情報処理部１５１の構成のうちのどの構成が情報処理端末１側と情報提示サーバ２側にそれぞれ設けられるようにするのかは任意に選択可能である。

例えば、音声認識部１６１と意味解析部１６２が情報処理端末１に設けられ、提示情報DB１６３、提示情報取得部１６４、および提示方法制御部１６５が情報提示サーバ２に設けられるようにすることが可能である。

また、音声認識部１６１、意味解析部１６２、提示情報取得部１６４、および提示方法制御部１６５が情報処理端末１に設けられ、提示情報DB１６３だけが情報提示サーバ２に設けられるようにすることも可能である。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

インストールされるプログラムは、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)等）や半導体メモリなどよりなる図９に示されるリムーバブルメディア１１１に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

・構成の組み合わせ例
本技術は、以下のような構成をとることもできる。

（１）
選択肢として提示する複数の提示情報を取得する取得部と、
それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部と
を備える情報処理装置。
（２）
前記提示情報は、音声によって選択される選択肢であり、
前記提示制御部は、他の前記提示情報と発音が類似しない部分を、発音が類似する部分と異なる形式で提示させる
前記（１）に記載の情報処理装置。
（３）
前記提示制御部は、他の前記提示情報と類似しない部分を強調して提示させる
前記（２）に記載の情報処理装置。
（４）
前記提示制御部は、それぞれの前記提示情報の名称を表す文字列のうち、他の前記提示情報の名称を表す文字列に含まれない部分を強調して提示させる
前記（３）に記載の情報処理装置。
（５）
前記提示制御部は、それぞれの前記提示情報のメタデータから、他の前記提示情報と区別可能な情報を抽出し、抽出した情報を付加して、それぞれの前記提示情報を提示させる
前記（１）または（２）に記載の情報処理装置。
（６）
前記提示制御部は、前記メタデータから、それぞれの前記提示情報の特徴を表す情報を抽出する
前記（５）に記載の情報処理装置。
（７）
前記提示制御部は、前記提示情報の内容を表す画像を提示する場合、前記画像から、他の前記提示情報と区別可能な情報を抽出し、抽出した情報を付加して、それぞれの前記提示情報を提示させる
前記（１）または（２）に記載の情報処理装置。
（８）
前記提示制御部は、前記画像から、被写体の特徴を表す情報を抽出する
前記（７）に記載の情報処理装置。
（９）
前記提示制御部は、前記提示情報の名称を表す文字列に数字が含まれる場合、数字以外の識別情報をそれぞれの前記提示情報の名称に付加して提示させる
前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
前記提示制御部は、他の前記提示情報と類似する部分を含む前記提示情報が同じ画面に表示されないように、それぞれの前記提示情報の表示順を制御する
前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
前記提示制御部は、前記提示情報を音声によって選択するユーザの属性に応じた情報を、前記提示情報の名称に付加して提示させる
前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
前記提示制御部は、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、各部分の読みやすさに基づいて選択する
前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
情報処理装置が、
選択肢として提示する複数の提示情報を取得し、
それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる
情報処理方法。
（１４）
ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信する通信部と、
受信された複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部と
を備える情報処理端末。
（１５）
情報処理端末が、
ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信し、
受信した複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる
情報処理方法。

１情報処理端末，２情報提示サーバ，５１ CPU，５５マイク，５６カメラ，５７スピーカ，５８ディスプレイ，５９画像表示デバイス，１５１情報処理部，１６１音声認識部，１６２意味解析部，１６３提示情報DB，１６４提示情報取得部，１６５提示方法制御部

Claims

選択肢として提示する複数の提示情報を取得する取得部と、
それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部と
を備える情報処理装置。
前記提示情報は、音声によって選択される選択肢であり、
前記提示制御部は、他の前記提示情報と発音が類似しない部分を、発音が類似する部分と異なる形式で提示させる
請求項１に記載の情報処理装置。
前記提示制御部は、他の前記提示情報と類似しない部分を強調して提示させる
請求項２に記載の情報処理装置。
前記提示制御部は、それぞれの前記提示情報の名称を表す文字列のうち、他の前記提示情報の名称を表す文字列に含まれない部分を強調して提示させる
請求項３に記載の情報処理装置。
前記提示制御部は、それぞれの前記提示情報のメタデータから、他の前記提示情報と区別可能な情報を抽出し、抽出した情報を付加して、それぞれの前記提示情報を提示させる
請求項１に記載の情報処理装置。
前記提示制御部は、前記メタデータから、それぞれの前記提示情報の特徴を表す情報を抽出する
請求項５に記載の情報処理装置。
前記提示制御部は、前記提示情報の内容を表す画像を提示する場合、前記画像から、他の前記提示情報と区別可能な情報を抽出し、抽出した情報を付加して、それぞれの前記提示情報を提示させる
請求項１に記載の情報処理装置。
前記提示制御部は、前記画像から、被写体の特徴を表す情報を抽出する
請求項７に記載の情報処理装置。
前記提示制御部は、前記提示情報の名称を表す文字列に数字が含まれる場合、数字以外の識別情報をそれぞれの前記提示情報の名称に付加して提示させる
請求項１に記載の情報処理装置。
前記提示制御部は、他の前記提示情報と類似する部分を含む前記提示情報が同じ画面に表示されないように、それぞれの前記提示情報の表示順を制御する
請求項１に記載の情報処理装置。
前記提示制御部は、前記提示情報を音声によって選択するユーザの属性に応じた情報を、前記提示情報の名称に付加して提示させる
請求項１に記載の情報処理装置。
前記提示制御部は、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、各部分の読みやすさに基づいて選択する
請求項１に記載の情報処理装置。
情報処理装置が、
選択肢として提示する複数の提示情報を取得し、
それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる
情報処理方法。
ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信する通信部と、
受信された複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部と
を備える情報処理端末。
情報処理端末が、
ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信し、
受信した複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる
情報処理方法。