JPWO2019098036A1 - 情報処理装置、情報処理端末、および情報処理方法 - Google Patents
情報処理装置、情報処理端末、および情報処理方法 Download PDFInfo
- Publication number
- JPWO2019098036A1 JPWO2019098036A1 JP2019527268A JP2019527268A JPWO2019098036A1 JP WO2019098036 A1 JPWO2019098036 A1 JP WO2019098036A1 JP 2019527268 A JP2019527268 A JP 2019527268A JP 2019527268 A JP2019527268 A JP 2019527268A JP WO2019098036 A1 JPWO2019098036 A1 JP WO2019098036A1
- Authority
- JP
- Japan
- Prior art keywords
- information
- presentation
- information processing
- presented
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 124
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000004891 communication Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 15
- 238000000034 method Methods 0.000 description 50
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 240000005528 Arctium lappa Species 0.000 description 1
- 235000003130 Arctium lappa Nutrition 0.000 description 1
- 235000008078 Arctium minus Nutrition 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 206010048232 Yawning Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 235000021168 barbecue Nutrition 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本技術は、音声認識しやすい選択肢を提示することができるようにする情報処理装置、情報処理端末、および情報処理方法に関する。本技術の一側面の情報処理装置は、選択肢として提示する複数の提示情報を取得し、それぞれの提示情報のうちの、他の提示情報と類似しない部分を、類似する部分と異なる形式で提示させる。本技術は、ユーザの行動を支援する音声アシスタント機能を有する装置に適用することができる。
Description
本技術は、情報処理装置、情報処理端末、および情報処理方法に関し、特に、音声認識しやすい選択肢を提示することができるようにした情報処理装置、情報処理端末、および情報処理方法に関する。
音声によって操作が可能な音声アシスタント機能を搭載したデバイスが注目されている。いわゆるスマートスピーカーと呼ばれるようなデバイスの中には、ディスプレイを搭載したものもある。
ユーザは、ディスプレイに表示された情報の中に詳細を知りたいと思うような情報がある場合、その情報を音声によって選択して、詳細な情報の提示を要求するような使い方をすることになる。
特許文献1には、音声によって操作可能な表示画面において、音声によって操作できる部分を強調して表示したり、読み方を付与して表示したりする技術が開示されている。
項目の名称(語彙)によっては、音声認識しにくい項目が選択肢として並べて表示されることがある。例えば発音が似ている項目が並ぶ場合、ユーザが想定している項目と異なる項目が選択されてしまうことがある。
本技術はこのような状況に鑑みてなされたものであり、音声認識しやすい選択肢を提示することができるようにするものである。
本技術の一側面の情報処理装置は、選択肢として提示する複数の提示情報を取得する取得部と、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部とを備える。
本技術の他の側面の情報処理端末は、ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信する通信部と、受信された複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部とを備える。
本技術においては、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分が、類似する部分と異なる形式で提示される。
本技術によれば、音声認識しやすい選択肢を提示することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.情報処理システムにおける情報提示
2.各装置の構成
3.各装置の動作
4.検索結果以外の情報提示
5.変形例
6.その他の例
1.情報処理システムにおける情報提示
2.各装置の構成
3.各装置の動作
4.検索結果以外の情報提示
5.変形例
6.その他の例
<情報処理システムにおける情報提示>
図1は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。
図1は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。
図1の情報処理システムは、情報処理端末1と情報提示サーバ2がインターネット3を介して接続されることによって構成される。
情報処理端末1は、ユーザの行動を支援するための各種の処理をAI(Artificial Intelligence)を用いて行う、いわゆる音声アシスタントの機能を搭載した装置である。
情報処理端末1の機能は、例えば情報提示サーバ2と通信を行うことによって実現される。例えば、情報処理端末1と情報提示サーバ2により、ユーザが要求する情報を検索して提示する機能、ユーザのタスクを管理する機能、電子メールやSNS(Social Networking Service)のメッセージを送信する機能などの各種の機能が実現される。
情報処理端末1は、例えば、家庭内の所定の位置に設置される。情報処理端末1は、家庭内に設置されたルータ(図示せず)などを介してインターネット3に接続される。図1の例においては、情報処理端末1が設置型の装置とされているが、スマートフォン、タブレット端末、腕時計型のウェアラブルなどの携帯型の装置であってもよい。
情報処理端末1の操作は、主に音声UI(User Interface)によって行われる。情報処理端末1には、ユーザの発話音声を集音するためのマイク(マイクロホン)や、合成音声を出力することによってユーザに対して各種の情報を提示するためのスピーカが設けられる。
また、情報の提示は、画面UIによっても行われる。情報処理端末1には、プロジェクタやディスプレイなどの、画面を表示するための画像表示デバイスが設けられている。
情報処理端末1は、ユーザと情報提示サーバ2の間のインタフェースとしての役割を有するデバイスである。
例えば、図1に示すように情報処理端末1の周りにいるユーザが発話を行った場合、ユーザの音声は情報処理端末1により検出され、音声データが情報処理端末1から情報提示サーバ2に送信される。
情報提示サーバ2においては、情報処理端末1から送信されてきた音声データに基づいて、音声認識、発話内容の意味解析などが行われる。例えば、ユーザが情報の検索を要求している場合、情報の検索が行われ、検索結果が、ユーザに提示する提示情報として取得される。情報提示サーバ2においては、例えば複数の提示情報が取得され、情報処理端末1に対して送信される。
情報提示サーバ2から送信された提示情報は、情報処理端末1により受信され、プロジェクタなどの画像表示デバイスにより、選択肢としてユーザに提示される。
提示情報を見たユーザは、名称を発話するなどして所定の提示情報を音声で選択する。このように、ユーザは、例えば、情報の検索を音声によって要求することにより、検索結果を、情報処理端末1により表示された画面から確認することができる。
図2は、音声を用いた入力の例を示す図である。
ここでは、図2の吹き出しに示すように、ユーザが、「近くにあるAAAコーヒーのお店を教えて。」の発話を行うことによって「AAAコーヒー」の店舗の検索を行う場合について説明する。「AAAコーヒー」は各チェーン店で共通して使われる店舗の名称である。
情報提示サーバ2においては、音声認識と発話内容の意味解析などの処理が行われ、ユーザの発話に含まれるキーワードである「AAAコーヒー」に基づいて、ユーザの自宅の近くにある店舗の検索が行われる。検索には、情報処理端末1の位置情報も適宜用いられる。
例えば、検索結果として3店舗見つかった場合、情報提示サーバ2から送信されてきた情報に基づいて、図3の吹き出しに示すように、「3店舗あります。どの店舗の情報を知りたいですか?」の音声が情報処理端末1から出力される。また、情報提示サーバ2から送信されてきた情報に基づいて、検索結果を表示する画面が情報処理端末1により表示される。
図4は、検索結果の表示例を示す図である。
図4に示す画面は、例えば、情報処理端末1が内蔵するプロジェクタにより、情報処理端末1の近くにある壁面に投影される画面である。
以下、主に、画面表示がプロジェクタを用いて行われる場合について説明するが、同様の画面が情報処理端末1に設けられるディスプレイに表示されるようにしてもよい。また、情報処理端末1に接続されるディスプレイに表示されるようにしてもよい。
図4の例においては、検索結果R1乃至R3が縦に並べて表示されている。矩形状の領域に表示される検索結果R1乃至R3は、それぞれの、「AAAコーヒー モミネエスト新宿店」、「AAAコーヒー 新四角ビル店」、「AAAコーヒー ゲートウェイ大崎店」の情報である。
それぞれの検索結果の領域の左方の位置には店舗のイメージ画像が表示され、イメージ画像の右側に店舗の名称が表示される。店舗の名称の下には、場所、店舗ジャンル、金額、店舗の特徴などの詳細情報が表示される。詳細情報は、検索結果として取得された情報のメタデータに基づいて表示される。
図4の例においては、検索結果R1の名称である「AAAコーヒー モミネエスト新宿店」の文字列のうちの「新宿店」の部分が、枠#1によって囲まれ、強調表示されている。
また、検索結果R2の名称である「AAAコーヒー 新四角ビル店」の文字列のうちの「新四角ビル店」の部分が、枠#2によって囲まれ、強調表示されている。
検索結果R3の名称である「AAAコーヒー ゲートウェイ大崎店」の文字列のうちの「ゲートウェイ大崎店」の部分が、枠#3によって囲まれ、強調表示されている。
枠の画像を用いた強調表示は、その部分が、検索結果を選択するためにユーザに発話させようとする部分であることを表す。検索結果の名称の文字列から特定の部分を選択する処理が、情報提示サーバ2において行われることになる。
店舗の名称を表す文字列のうちのどの部分を強調表示するのかは、例えば、文字列全体を単語毎に区切り、発音が類似しない単語を抽出するようにして特定される。
図5は、単語の抽出例を示す図である。
図5に示すように、検索結果R1の名称である「AAAコーヒー モミネエスト新宿店」の文字列は、「AAA」、「コーヒー」、「モミネ」、「エスト」、「新宿店」の各単語に区切られる。また、検索結果R2の名称である「AAAコーヒー 新四角ビル店」の文字列は、「AAA」、「コーヒー」、「新」、「四角ビル店」の各単語に区切られる。検索結果R3の名称である「AAAコーヒー ゲートウェイ店」の文字列は、「AAA」、「コーヒー」、「ゲートウェイ」、「大崎店」に区切られる。
情報処理端末1においては、例えば、各単語の発音の類似度が求められ、発音が類似しない文字列が抽出される。
図5の例においては、波線を付して示すように、検索結果R1の名称からは「新宿店」の部分が抽出され、検索結果R2の名称からは「新四角ビル店」の部分が抽出されている。また、検索結果R3の名称からは「ゲートウェイ大崎店」の部分が抽出されている。音声認識の精度を高めるために、例えば、短すぎない、所定の長さの部分が抽出される。
このようにして抽出された文字列に対して枠の画像が付加され、図4に示すような形で強調表示される。
特定の部分が強調表示されることにより、ユーザは、強調表示されている部分を発話すればよいことを直感的に認識することができる。例えば、検索結果R1を選択する場合、ユーザは「新宿店」と発話すればよいことになる。
図6は、検索結果の選択の例を示す図である。
例えば、図6の吹き出しに示すように、ユーザが「新宿店の場所を教えて。」と発話した場合、音声認識などの処理が行われ、検索結果R1の選択が受け付けられる。また、ユーザの要求に応じて、「AAAコーヒー モミネエスト新宿店」の地図が表示される。
このように、選択肢として提示する情報の発音が類似する場合、誤認識が生じないような部分(文字列)が抽出され、ユーザに提示される。
検索結果R1乃至R3として示される店舗の名称は、「AAAコーヒー」の部分において共通する。従って、所定の店舗を選択するために店舗の名称の文字列を全て発話させるとした場合、発音が類似する部分が含まれることから、音声認識の誤認識が生じる可能性がある。
このように、発音が類似しない部分を強調して表示し、その部分をユーザに発話させることにより、情報提示サーバ102は、ユーザが音声で選択する場合の誤認識を防ぐことができる。誤認識が減ることにより、ユーザは、提示された情報を、音声によってより効率的に選択することができる。
図7は、検索結果の他の表示例を示す図である。
例えば、「スカイレストランを調べて。」のような発話が行われ、店舗の検索がユーザにより要求された場合、図7に示すような検索結果が表示される。
図7の例においては、検索結果R11乃至R13が縦に並べて表示されている。検索結果R11乃至R13は、それぞれ、「スカイビアガーデン Gri Grill〜グリグリル〜新宿店」、「スカイビューフードトレイン(Sky View Food Train)」、「新宿青空ダイニング SKY COURT〜スカイコート〜」の情報である。
図7の例においては、検索結果R11の名称である「スカイビアガーデン Gri Grill〜グリグリル〜新宿店」の文字列のうちの「グリグリル」の部分が、枠#11によって囲まれ、強調表示されている。
また、検索結果R12の名称である「スカイビューフードトレイン(Sky View Food Train)」の文字列のうちの「フードトレイン」の部分が、枠#12によって囲まれ、強調表示されている。
検索結果R13の名称である「新宿青空ダイニング SKY COURT〜スカイコート〜」の文字列のうちの「青空ダイニング」の部分が、枠#13によって囲まれ、強調表示されている。
このように、検索結果などの各種の情報を選択肢として提示する場合、適宜、選択肢の名称のうちの発音が類似しない部分が抽出され、強調表示される。
名称の文字列の一部ではなく全体が強調表示されるようにしてもよい。例えば、「カフェ・ブルー」と「カフェ・ブルース」の文字列を提示する場合、前者の選択肢については「カフェ・ブルー」全体が強調表示され、後者の選択肢については「ブルース」だけが強調表示される。
以上のような音声認識しやすい選択肢を提示する情報処理端末1と情報提示サーバ2の処理についてはフローチャートを参照して後述する。
<各装置の構成>
・情報処理端末1の構成
図8は、情報処理端末1の構成例を示すブロック図である。
・情報処理端末1の構成
図8は、情報処理端末1の構成例を示すブロック図である。
CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53は、バス54により相互に接続される。
CPU51においては、所定のプログラムが実行されることにより、通信制御部51Aと提示制御部51Bが実現される。
通信制御部51Aは、通信部62を制御し、情報提示サーバ2との間で通信を行う。例えば、通信制御部51Aは、ユーザが発話を行った場合、音声データを情報提示サーバ2に送信する。また、通信制御部51Aは、情報提示サーバ2から送信されてきた情報を受信する。情報提示サーバ2からは、TTS(Text-to-Speech)により生成された音声(合成音声)のデータや、提示情報を表示するための表示画面の情報などが送信されてくる。
提示制御部51Bは、ユーザに対する情報の提示を制御する。例えば、提示制御部51Bは、スピーカ57を制御し、情報提示サーバ2から送信されてきたデータに基づいて音声を出力させる。また、提示制御部51Bは、ディスプレイ58や画像表示デバイス59を制御し、情報提示サーバ2から送信されてきたデータに基づいて画面を表示させる。
バス54には、マイク55、カメラ56、スピーカ57、ディスプレイ58、画像表示デバイス59、入力部60、記憶部61、および通信部62が接続される。
マイク55は、ユーザの発話音声を検出する。マイク55により検出された音声のデータは、通信部62に供給され、情報提示サーバ2に送信される。
カメラ56は、情報処理端末1の周りの様子を撮影し、撮影して得られた画像をCPU51に出力する。カメラ56により撮影された画像も、適宜、情報提示サーバ2に送信される。カメラ56により撮影された画像に基づいて各種の状況が特定される。
スピーカ57は、音声や、BGMなどの音楽を出力する。
ディスプレイ58は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどにより構成される。ディスプレイ58は、メニュー画面、上述した検索結果の画面などの各種の画面を表示する。
画像表示デバイス59は例えばプロジェクタである。画像表示デバイス59は、図4を参照して説明したような検索結果の画面などの各種の画面を壁面や床面などに投影する。
入力部60は、ディスプレイ58に重ねて設けられたタッチパネルや、情報処理端末1の筐体に設けられた各種のボタンにより構成される。入力部60は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。
記憶部61は、不揮発性のメモリなどにより構成される。記憶部61は、CPU51が実行するプログラムなどの各種のデータを記憶する。
通信部62は、ネットワークインタフェースなどにより構成される。通信部62は、インターネット3を介して情報提示サーバ2と通信を行う。
加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサが情報処理端末1に設けられるようにしてもよい。
・情報提示サーバ2の構成
図9は、情報提示サーバ2のハードウェア構成例を示すブロック図である。
図9は、情報提示サーバ2のハードウェア構成例を示すブロック図である。
CPU101、ROM102、RAM103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウスなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107が接続される。また、入出力インタフェース105には、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、リムーバブルメディア111を駆動するドライブ110が接続される。
この例においては、情報提示サーバ2が1台のコンピュータにより構成されるものとしているが、複数のコンピュータにより構成されるようにしてもよい。複数のコンピュータが協働して処理を行うことにより、情報提示サーバ2の機能が実現される。
図10は、情報提示サーバ2の機能構成例を示すブロック図である。図10に示す構成のうちの少なくとも一部は、図9のCPU101により所定のプログラムが実行されることによって実現される。
図10に示すように、情報提示サーバ2においては情報処理部151が実現される。情報処理部151は、音声認識部161、意味解析部162、提示情報DB163、提示情報取得部164、および提示方法制御部165から構成される。
なお、説明の便宜上、図10には、情報処理端末1の構成であるマイク55と画像表示デバイス59が示されている。ユーザが発話を行うことに応じてマイク55により検出され、情報処理端末1から送信されてきた音声データは、通信部109において受信され、音声認識部161に入力される。また、提示方法制御部165が出力した表示画面の情報は、通信部109から情報処理端末1に対して送信され、画像表示デバイス59において画面の表示に用いられる。
音声認識部161は、ユーザの音声を認識し、認識結果を表す文字列を意味解析部162に出力する。
意味解析部162は、音声認識部161から供給された文字列に基づいて、ユーザの発話内容の意味を解析する。ユーザの発話の意味の解析結果を表す情報は提示情報取得部164に供給される。
提示情報取得部164は、意味解析部162による解析結果に基づいて、検索結果の情報などの提示情報を提示情報DB163から読み出して取得する。提示情報DB163には、各種の情報が記憶されている。ユーザに提示する情報が、インターネット3上の他のサーバや、ユーザの携帯端末などの他の装置から取得されるようにしてもよい。提示情報取得部164は、取得した提示情報を提示方法制御部165に出力する。
提示方法制御部165は、画像表示デバイス59を制御し、提示情報取得部164から供給された提示情報を含む画面を表示させる。提示方法制御部165は、選択肢として提示する情報の発音が類似している場合、類似しない部分を強調表示するなどして提示方法を制御する。
<各装置の動作>
ここで、情報処理端末1と情報提示サーバ2の動作について説明する。
ここで、情報処理端末1と情報提示サーバ2の動作について説明する。
・情報処理端末1の動作
はじめに、図11のフローチャートを参照して、情報処理端末1の処理について説明する。
はじめに、図11のフローチャートを参照して、情報処理端末1の処理について説明する。
ステップS1において、マイク55は、ユーザの音声を検出する。
ステップS2において、通信制御部51Aは、音声データを情報提示サーバ2に送信する。
音声データを受信した情報提示サーバ2においては、情報の検索が行われ、表示画面の情報が情報処理端末1に対して送信される。画面の表示に合わせて音声を出力する場合、情報提示サーバ2からは、音声のデータも適宜送信されてくる。
ステップS3において、通信制御部51Aは、情報提示サーバ2から送信されてきた、表示画面の情報を受信する。
ステップS4において、提示制御部51Bは、情報提示サーバ2から送信されてきた情報を画像表示デバイス59に出力し、提示情報を含む画面を表示させる。
このような処理が、ユーザが発話を行う毎に行われる。
・情報提示サーバ2の動作
次に、図12のフローチャートを参照して、情報提示サーバ2の処理について説明する。
次に、図12のフローチャートを参照して、情報提示サーバ2の処理について説明する。
図12の処理は、情報処理端末1から送信されてきた音声データに基づいて音声認識部161において音声認識が行われ、ユーザの発話内容の意味の解析結果を表す情報が意味解析部162から提示情報取得部164に入力されたときに開始される。
ステップS11において、提示情報取得部164は、ユーザの発話の意味の解析結果に基づいて、選択肢として提示する複数の提示情報を提示情報DB163から取得する。選択肢として提示する提示情報は、音声によって選択される可能性のある情報である。
ステップS12において、提示方法制御部165は、それぞれの選択肢の名称の発音を解析する。
ステップS13において、提示方法制御部165は、それぞれの選択肢の名称の発音が類似するか否かを判定する。
選択肢の名称の発音が類似しないとステップS13において判定した場合、ステップS14において、提示方法制御部165は、表示画面の情報を情報処理端末1に送信し、選択肢の情報をそのまま表示させる。この場合、名称全体をそのまま発音させたとしても誤認識が生じる可能性が低いため、強調表示が行われないことになる。
一方、選択肢の名称の発音が類似するとステップS13において判定した場合、ステップS15において、提示方法制御部165は、発音が類似しない部分があるか否かを判定する。
選択肢の名称の発音が類似しない部分があるとステップS15において判定した場合、ステップS16において、提示方法制御部165は、名称の文字列のうちの発音が類似しない部分を、発話すべき部分、すなわち強調表示する部分として特定する。
その後、ステップS14において、提示方法制御部165は、表示画面の情報を情報処理端末1に送信し、類似しない部分を強調表示した形で、それぞれの選択肢を表示させる。
これにより、例えば、図4に示したように、「新宿店」、「新四角ビル店」、「ゲートウェイ大崎店」などの部分が強調表示された検索結果の画面が表示される。ユーザは、「新宿店の場所を教えて。」などといったように強調表示された部分を発話することで、所定の選択肢を選択することができる。
一方、選択肢の名称の発音が類似しない部分がないとステップS15において判定された場合、処理はステップS17に進む。
ステップS17において、提示方法制御部165は、それぞれの選択肢のメタデータに、発話させたときに各選択肢を区別可能な情報があるか否かを判定する。上述したように、選択肢としてユーザに提示される各情報には、場所、店舗ジャンル、金額、店舗の特徴などの詳細情報がメタデータとして含まれている。
各選択肢を区別可能な情報がメタデータに含まれているとステップS17において判定した場合、ステップS18において、提示方法制御部165は、各選択肢を区別可能な情報を、選択肢の名称に付加する情報としてメタデータから特定する。
その後、ステップS14において、提示方法制御部165は、表示画面の情報を情報処理端末1に送信し、メタデータから特定した情報を名称に付加した形でそれぞれの選択肢を表示させる。選択肢の名称に付加される付加情報は強調表示される。
例えば、同じ名称の店舗を選択肢として提示する場合、場所、最寄り駅、ジャンル名などの、発話が行われたときに各店舗を識別することができそうな情報が付加情報として特定され、店舗の名称に付加して強調表示される。
具体的には、図4を参照して説明した検索結果R1乃至R3の全ての名称が「AAAコーヒー」として設定されている場合、各店舗の場所を表す「新宿店」、「新四角ビル店」、「ゲートウェイ大崎店」が検索結果R1乃至R3のメタデータから特定される。また、「AAAコーヒー」の名称に付加され、図4に示すように「新宿店」、「新四角ビル店」、「ゲートウェイ大崎店」の部分が強調表示される。
付加情報として、注目メニューやセールスポイントなどの、店舗の特徴を表すキーワードが用いられるようにしてもよい。このようなキーワードもメタデータに含まれる。
具体的には、図7を参照して説明した検索結果R11乃至R13の全ての名称が「スカイレストラン」として設定されているものとする。検索結果R11のメタデータには、「ビアガーデン」、「食べ放題」、・・・などの情報が含まれ、検索結果R12のメタデータには、「バーベキュー」、「フリードリンク」、・・・などの情報が含まれるものとする。検索結果R13のメタデータには、「バイキング」、「パフェが自慢」、・・・などの情報が含まれるものとする。
この場合、図13に示すように、検索結果R11の名称の「スカイレストラン」の文字列には、検索結果R11の店舗のセールスポイントを表す「食べ放題」の付加情報が付加され、枠#21で囲むことによって強調表示される。
また、検索結果R12の名称の「スカイレストラン」の文字列には、検索結果R12の店舗の特徴を表す「フリードリンク」の付加情報が付加され、枠#22で囲むことによって強調表示される。
検索結果R13の名称の「スカイレストラン」の文字列には、検索結果R13の店舗の特徴を表す「パフェが自慢」の付加情報が付加され、枠#23で囲むことによって強調表示される。
ユーザは、検索結果R13の店舗を選択するとき、「パフェが自慢のお店の詳細を教えて。」など発話することになる。店舗のセールスポイントをユーザに自ら発話させることにより、その店舗に対する関心を深めさせることが可能になる。
図12の説明に戻り、ステップS17において、各選択肢を区別可能な情報がメタデータに含まれていないと判定された場合、処理はステップS19に進む。
ステップS19において、提示方法制御部165は、選択肢に付加する情報を画像から特定する。上述したように、選択肢として提示される情報にはイメージ画像などの画像が含まれている。提示方法制御部165は、例えば、それぞれの提示情報の画像を解析し、画像に写っている被写体の特徴を表すキーワードを付加情報として特定する。
その後、ステップS14において、提示方法制御部165は、表示画面の情報を情報処理端末1に送信し、画像から特定した情報を名称に付加した形でそれぞれの選択肢を表示させる。
例えば、図13に示す検索結果R13のイメージ画像に青いテーブルが写っている場合、検索結果R13の名称の「スカイレストラン」の文字列には、イメージ画像に写っている被写体の特徴を表す「青いテーブル」の付加情報が付加され、強調表示される。
ユーザは、検索結果R13の店舗を選択するとき、「青いテーブルのお店の詳細を教えて。」など発話することになる。
以上の処理のように、選択肢の名称の発音が類似する場合、選択肢を提示するための一段階目の処理として、発音が類似しない部分を特定し、強調表示する処理が行われる。
また、選択肢を提示するための二段階目の処理として、各選択肢を区別可能な付加情報をメタデータから特定し、名称に付加して強調表示する処理が行われる。
さらに、選択肢を提示するための三段階目の処理として、付加情報を画像から特定し、名称に付加して強調表示する処理が行われる。
これにより、情報提示サーバ2は、選択が音声によって行われた場合でも誤認識の生じにくい選択肢を生成し、ユーザに提示することができる。
図14は、検索結果の他の表示例を示す図である。
選択肢として提示される名称の部分が強調表示されるのではなく、図14に示すように、詳細情報の部分が強調表示されるようにしてもよい。
図14の例においては、検索結果R11の詳細情報のうち、「食べ放題」の部分が枠#31によって強調表示されている。また、検索結果R12の詳細情報のうち、「フリードリンク」の部分が枠#32によって強調表示されている。検索結果R13の詳細情報のうち、「パフェが自慢」の部分が枠#33によって強調表示されている。
このように、情報提示サーバ2は、選択肢の名称以外の、ユーザに発話させたい各種の情報を強調表示させることが可能である。
なお、図14の例においては、強調表示に用いる枠の画像が波線の画像とされている。このように、強調表示の方法として各種の方法を採用することが可能である。
枠の画像を用いた方法ではなく、例えば、強調する部分を他の部分より目立つ色で表示したり、強調する部分のフォントサイズを他の部分のフォントサイズより大きくしたりすることによって強調表示が行われるようにしてもよい。
<検索結果以外の情報提示>
次に、検索結果以外の情報を提示する場合について説明する。
次に、検索結果以外の情報を提示する場合について説明する。
図15は、音声を用いた入力の例を示す図である。
ここでは、図15の吹き出しに示すように、ユーザが、「予定のキャンセルがあったからタスクを見せて。」の発話を行い、登録しているタスクの提示を要求する場合について説明する。
情報提示サーバ2は、情報処理端末1のユーザのタスクを管理している。タスクの登録は、ユーザが、タスクの登録を情報処理端末1に対して音声で要求することによって行われるようにしてもよいし、携帯電話機などの他の機器を操作して行われるようにしてもよい。
情報提示サーバ2には、例えば、毎週土曜日の繰り返しのタスクとして「サッカー」が登録されているものとする。情報提示サーバ2においては、音声認識などが行われ、ユーザの発話に基づいて、登録済みのタスクの情報が提示情報DB163から読み出される。
登録済みのタスクの情報は、提示情報として情報処理端末1に送信され、情報処理端末1により提示される。ユーザは、情報処理端末1により提示された登録済みのタスクの中から所定のタスクを選択し、キャンセルを要求する。
図16は、登録済みのタスクの表示例を示す図である。
例えば、情報処理端末1は、図16に示すようなリストを表示するとともに、吹き出しに示すように、「どのタスクを削除しますか?」などの音声を出力する。図16に示すリストは、削除対象とするタスクの選択画面となる。
図16の例においては、今月のタスクとして、「7日のサッカー」、「14日のサッカー」、「21日のサッカー」、「28日のサッカー」の4つのタスクが削除対象の選択肢として表示されている。
単に4つの「サッカー」の文字だけがリストに表示され、削除対象とするタスクを音声によってユーザに選択させるとした場合、発音がすべて同じであるから、ユーザが想定しない「サッカー」が選択されてしまう可能性がある。
このようなユーザが想定しない処理が行われるのを防ぐため、図16に示すように、それぞれの「サッカー」の文字に対して、そのタスクが登録されている日付が付加された形でリストに表示される。ユーザは、例えば、1つ目の「サッカー」のタスクを選択する場合、「7日のサッカー」と発話することになる。
このように、繰り返しのタスクを選択肢として提示する場合、タスクを表す文字列には、日時や場所などの、各タスクを区別するための情報が提示方法制御部165により付加される。
図17は、削除対象の選択の例を示す図である。
例えば、ユーザが「14日のサッカーをキャンセルして。」と発話した場合、音声認識などが行われることによって、「14日のサッカー」のタスクの削除が受け付けられる。また、ユーザの要求に応じて、「10月14日土曜日、10時からのサッカーの予定を削除します。」の音声が情報処理端末1から出力される。
このように、選択肢として提示する情報が類似する場合、誤認識が生じないような情報が適宜付加され、ユーザに提示される。情報提示サーバ2は、所定の選択肢をユーザが音声によって選択したときの誤認識を防ぐことができる。
<変形例>
音声を用いたユーザの選択の誤認識を防ぐために各種の提示方法を採用することができる。
・各選択肢に数字を付加する例
選択肢にそれぞれ数字が付加されるようにしてもよい。これにより、ユーザは、数字を発話することで、その数字が付加された選択肢を選択することができる。
選択肢にそれぞれ数字が付加されるようにしてもよい。これにより、ユーザは、数字を発話することで、その数字が付加された選択肢を選択することができる。
この場合、選択肢の名称に数字が含まれているときには、ユーザが発話した数字が、選択肢の名称に含まれる数字であるのか、選択肢に付加された数字であるのかが判別できない。従って、この場合、誤認識の生じにくい情報を選択肢に付加して、ユーザに提示するようにしてもよい。
例えば、「レストラン5番街」、「ラーメン一番星」、「中華2番星」、「焼肉三番館」、「くいもの市場(いちば)」の名称に数字を付加し、下記に示すような選択肢を提示するものとする。
1.レストラン5番街
2.ラーメン一番星
3.中華2番星
4.焼肉三番館
5.くいもの市場
1.レストラン5番街
2.ラーメン一番星
3.中華2番星
4.焼肉三番館
5.くいもの市場
ユーザが「いちばん」の発話を行ったとすると、「1.レストラン5番街」を選択しているのか、「2.ラーメン一番星」を選択しているのか、あるいは、音声認識の誤りにより「5.くいもの市場」を選択しているのかが分からない。
情報提示サーバ2の提示方法制御部165は、選択肢の名称に数字が含まれる場合や、数字に類似する発音(例えば、いちばん、いちば)が含まれる場合、その数字を名称に付加しないか、その数字自体を名称に付加して選択肢の提示を行う。また、提示方法制御部165は、アルファベット(A,B,C,・・・)などの、数字ではない情報を名称に付加して選択肢の提示を行う。
・表示順を調整する例
また、複数の選択肢を複数のページ(画面)に跨がって表示する場合、発音が類似する選択肢が同じ画面に含まれないように、選択肢の表示順が制御されるようにしてもよい。この場合、1つの画面には、発音が類似しない選択肢だけが表示される。
また、複数の選択肢を複数のページ(画面)に跨がって表示する場合、発音が類似する選択肢が同じ画面に含まれないように、選択肢の表示順が制御されるようにしてもよい。この場合、1つの画面には、発音が類似しない選択肢だけが表示される。
・ユーザの属性に応じて表示を調整する例
選択肢を提示する相手となるユーザの属性に応じて選択肢の表示を変えるようにしてもよい。この場合、提示方法制御部165においては、例えばマイク55から供給された音声やカメラ56により撮影された画像が解析され、ユーザの年齢、性別などの属性が特定される。
選択肢を提示する相手となるユーザの属性に応じて選択肢の表示を変えるようにしてもよい。この場合、提示方法制御部165においては、例えばマイク55から供給された音声やカメラ56により撮影された画像が解析され、ユーザの年齢、性別などの属性が特定される。
例えば、幼いユーザに対して、難しい漢字の部分を強調表示したとしてもその漢字をユーザが読めない可能性がある。この場合、提示方法制御部165は、送り仮名を追加したり、ひらがなに変換したり、選択しやすい絵(例えば、うさぎの絵、くまの絵など)を付加したりして選択肢の提示を情報処理端末1に行わせる。
・発話の難易度に応じて表示を調整する例
下記に示すような読みにくい文字の部分の強調表示を避けるようにして選択肢の提示が行われるようにしてもよい。
・外国語(英語、アルファベット表記など)
・読みにくい漢字(「牛蒡(ごぼう)」、「欠伸(あくび)」など)
・独特な言い方、読み方をする単語(ネット用語、アーティスト名の愛称など)
・誤読しやすい漢字(「ぎっしゃ」と読む「牛車」、「こもんじょ」と読む「古文書」など)
・見間違いやすい単語(「緑と縁」、「萩原と荻原」、「227と277」、「z77と2z7」など)
下記に示すような読みにくい文字の部分の強調表示を避けるようにして選択肢の提示が行われるようにしてもよい。
・外国語(英語、アルファベット表記など)
・読みにくい漢字(「牛蒡(ごぼう)」、「欠伸(あくび)」など)
・独特な言い方、読み方をする単語(ネット用語、アーティスト名の愛称など)
・誤読しやすい漢字(「ぎっしゃ」と読む「牛車」、「こもんじょ」と読む「古文書」など)
・見間違いやすい単語(「緑と縁」、「萩原と荻原」、「227と277」、「z77と2z7」など)
・複数箇所を強調表示する例
1つの選択肢につき、複数の部分が強調表示によってユーザに提示されるようにしてもよい。
1つの選択肢につき、複数の部分が強調表示によってユーザに提示されるようにしてもよい。
また、1つの選択肢を提示する場合において、強調表示の候補となる部分が複数あるとき、言いやすいかどうかや一般的な言葉であるかどうかなどを基準として、強調表示する1つの部分が選択されるようにしてもよい。言いやすいかどうかや一般的な言葉であるかどうかについては、例えば、収集済みのユーザの発話データやWebサイトなどで利用されている表現の頻度に関する統計的な情報に基づいて判断される。
・音声を用いた提示
図18は、音声による提示例を示す図である。
図18は、音声による提示例を示す図である。
画面表示ではなく、検索結果などの選択肢を音声によってユーザに提示する場合にも、発音が類似しない部分が提示される。例えば、図2乃至図4を参照して説明したようなやりとりが行われ、検索結果R1乃至R3が取得された場合について説明する。
この場合、図18の吹き出しに示すように、「新宿店と新四角ビル店とゲートウェイ大崎店があります。」が、検索結果として音声によって提示される。検索結果R1乃至R3は、それぞれ、発音が類似しない「新宿店」、「新四角ビル店」、「ゲートウェイ大崎店」の部分の音声により表される。
ユーザは、この音声を聞いて、例えば、「新宿店」などと発話することによって検索結果R1の店舗を選択することになる。
このように、音声により選択肢を提示する場合、誤認識が生じないようにするために、発話が類似する部分については、発話が行われない。このように、選択肢を音声によって提示する場合にも、特定の部分を強調して提示することが可能である。
選択肢を音声によって提示する場合、特定の部分のみを発話するのではなく、読み上げ時の発話の強弱によって、特定の部分が強調して提示されるようにしてもよい。
上述した提示方法は適宜組み合わせて用いることが可能である。例えば、各選択肢に数字を付加する場合、付加した数字が強調表示されるようにしてもよい。
<その他の例>
ユーザにも誤読がある可能性があるため、強調表示によって提示した部分の読み方に類似する発話が行われた場合に、その部分を含む選択肢が選択されたものとして処理が行われるようにしてもよい。また、類似する発話が行われた部分を含む選択肢を選択したのかどうかの問い合わせがユーザに対して行われるようにしてもよい。
ユーザにも誤読がある可能性があるため、強調表示によって提示した部分の読み方に類似する発話が行われた場合に、その部分を含む選択肢が選択されたものとして処理が行われるようにしてもよい。また、類似する発話が行われた部分を含む選択肢を選択したのかどうかの問い合わせがユーザに対して行われるようにしてもよい。
情報の提示がユーザからの要求に応じて行われるものとしたが、上述したような強調表示などを用いた情報の提示は、ユーザに推薦する情報を、情報提示サーバ2側から主体的に提示する場合にも適用可能である。
以上においては、各種の処理が情報提示サーバ2において行われるものとしたが、上述した情報提示サーバ2の機能のうちの少なくとも一部の機能が情報処理端末1に搭載されるようにしてもよい。
この場合、図10に示す情報処理部151の機能部のうち少なくとも一部が情報処理端末1に設けられる。ユーザに提示する情報は、情報処理端末1内のデータベースである提示情報DB163から、または、インターネット3上のサーバから取得される。
このように、情報処理部151の構成のうちのどの構成が情報処理端末1側と情報提示サーバ2側にそれぞれ設けられるようにするのかは任意に選択可能である。
例えば、音声認識部161と意味解析部162が情報処理端末1に設けられ、提示情報DB163、提示情報取得部164、および提示方法制御部165が情報提示サーバ2に設けられるようにすることが可能である。
また、音声認識部161、意味解析部162、提示情報取得部164、および提示方法制御部165が情報処理端末1に設けられ、提示情報DB163だけが情報提示サーバ2に設けられるようにすることも可能である。
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなる図9に示されるリムーバブルメディア111に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
・構成の組み合わせ例
本技術は、以下のような構成をとることもできる。
本技術は、以下のような構成をとることもできる。
(1)
選択肢として提示する複数の提示情報を取得する取得部と、
それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部と
を備える情報処理装置。
(2)
前記提示情報は、音声によって選択される選択肢であり、
前記提示制御部は、他の前記提示情報と発音が類似しない部分を、発音が類似する部分と異なる形式で提示させる
前記(1)に記載の情報処理装置。
(3)
前記提示制御部は、他の前記提示情報と類似しない部分を強調して提示させる
前記(2)に記載の情報処理装置。
(4)
前記提示制御部は、それぞれの前記提示情報の名称を表す文字列のうち、他の前記提示情報の名称を表す文字列に含まれない部分を強調して提示させる
前記(3)に記載の情報処理装置。
(5)
前記提示制御部は、それぞれの前記提示情報のメタデータから、他の前記提示情報と区別可能な情報を抽出し、抽出した情報を付加して、それぞれの前記提示情報を提示させる
前記(1)または(2)に記載の情報処理装置。
(6)
前記提示制御部は、前記メタデータから、それぞれの前記提示情報の特徴を表す情報を抽出する
前記(5)に記載の情報処理装置。
(7)
前記提示制御部は、前記提示情報の内容を表す画像を提示する場合、前記画像から、他の前記提示情報と区別可能な情報を抽出し、抽出した情報を付加して、それぞれの前記提示情報を提示させる
前記(1)または(2)に記載の情報処理装置。
(8)
前記提示制御部は、前記画像から、被写体の特徴を表す情報を抽出する
前記(7)に記載の情報処理装置。
(9)
前記提示制御部は、前記提示情報の名称を表す文字列に数字が含まれる場合、数字以外の識別情報をそれぞれの前記提示情報の名称に付加して提示させる
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記提示制御部は、他の前記提示情報と類似する部分を含む前記提示情報が同じ画面に表示されないように、それぞれの前記提示情報の表示順を制御する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記提示制御部は、前記提示情報を音声によって選択するユーザの属性に応じた情報を、前記提示情報の名称に付加して提示させる
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記提示制御部は、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、各部分の読みやすさに基づいて選択する
前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
情報処理装置が、
選択肢として提示する複数の提示情報を取得し、
それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる
情報処理方法。
(14)
ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信する通信部と、
受信された複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部と
を備える情報処理端末。
(15)
情報処理端末が、
ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信し、
受信した複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる
情報処理方法。
選択肢として提示する複数の提示情報を取得する取得部と、
それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部と
を備える情報処理装置。
(2)
前記提示情報は、音声によって選択される選択肢であり、
前記提示制御部は、他の前記提示情報と発音が類似しない部分を、発音が類似する部分と異なる形式で提示させる
前記(1)に記載の情報処理装置。
(3)
前記提示制御部は、他の前記提示情報と類似しない部分を強調して提示させる
前記(2)に記載の情報処理装置。
(4)
前記提示制御部は、それぞれの前記提示情報の名称を表す文字列のうち、他の前記提示情報の名称を表す文字列に含まれない部分を強調して提示させる
前記(3)に記載の情報処理装置。
(5)
前記提示制御部は、それぞれの前記提示情報のメタデータから、他の前記提示情報と区別可能な情報を抽出し、抽出した情報を付加して、それぞれの前記提示情報を提示させる
前記(1)または(2)に記載の情報処理装置。
(6)
前記提示制御部は、前記メタデータから、それぞれの前記提示情報の特徴を表す情報を抽出する
前記(5)に記載の情報処理装置。
(7)
前記提示制御部は、前記提示情報の内容を表す画像を提示する場合、前記画像から、他の前記提示情報と区別可能な情報を抽出し、抽出した情報を付加して、それぞれの前記提示情報を提示させる
前記(1)または(2)に記載の情報処理装置。
(8)
前記提示制御部は、前記画像から、被写体の特徴を表す情報を抽出する
前記(7)に記載の情報処理装置。
(9)
前記提示制御部は、前記提示情報の名称を表す文字列に数字が含まれる場合、数字以外の識別情報をそれぞれの前記提示情報の名称に付加して提示させる
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記提示制御部は、他の前記提示情報と類似する部分を含む前記提示情報が同じ画面に表示されないように、それぞれの前記提示情報の表示順を制御する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記提示制御部は、前記提示情報を音声によって選択するユーザの属性に応じた情報を、前記提示情報の名称に付加して提示させる
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記提示制御部は、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、各部分の読みやすさに基づいて選択する
前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
情報処理装置が、
選択肢として提示する複数の提示情報を取得し、
それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる
情報処理方法。
(14)
ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信する通信部と、
受信された複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部と
を備える情報処理端末。
(15)
情報処理端末が、
ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信し、
受信した複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる
情報処理方法。
1 情報処理端末, 2 情報提示サーバ, 51 CPU, 55 マイク, 56 カメラ, 57 スピーカ, 58 ディスプレイ, 59 画像表示デバイス, 151 情報処理部, 161 音声認識部, 162 意味解析部, 163 提示情報DB, 164 提示情報取得部, 165 提示方法制御部
Claims (15)
- 選択肢として提示する複数の提示情報を取得する取得部と、
それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部と
を備える情報処理装置。 - 前記提示情報は、音声によって選択される選択肢であり、
前記提示制御部は、他の前記提示情報と発音が類似しない部分を、発音が類似する部分と異なる形式で提示させる
請求項1に記載の情報処理装置。 - 前記提示制御部は、他の前記提示情報と類似しない部分を強調して提示させる
請求項2に記載の情報処理装置。 - 前記提示制御部は、それぞれの前記提示情報の名称を表す文字列のうち、他の前記提示情報の名称を表す文字列に含まれない部分を強調して提示させる
請求項3に記載の情報処理装置。 - 前記提示制御部は、それぞれの前記提示情報のメタデータから、他の前記提示情報と区別可能な情報を抽出し、抽出した情報を付加して、それぞれの前記提示情報を提示させる
請求項1に記載の情報処理装置。 - 前記提示制御部は、前記メタデータから、それぞれの前記提示情報の特徴を表す情報を抽出する
請求項5に記載の情報処理装置。 - 前記提示制御部は、前記提示情報の内容を表す画像を提示する場合、前記画像から、他の前記提示情報と区別可能な情報を抽出し、抽出した情報を付加して、それぞれの前記提示情報を提示させる
請求項1に記載の情報処理装置。 - 前記提示制御部は、前記画像から、被写体の特徴を表す情報を抽出する
請求項7に記載の情報処理装置。 - 前記提示制御部は、前記提示情報の名称を表す文字列に数字が含まれる場合、数字以外の識別情報をそれぞれの前記提示情報の名称に付加して提示させる
請求項1に記載の情報処理装置。 - 前記提示制御部は、他の前記提示情報と類似する部分を含む前記提示情報が同じ画面に表示されないように、それぞれの前記提示情報の表示順を制御する
請求項1に記載の情報処理装置。 - 前記提示制御部は、前記提示情報を音声によって選択するユーザの属性に応じた情報を、前記提示情報の名称に付加して提示させる
請求項1に記載の情報処理装置。 - 前記提示制御部は、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、各部分の読みやすさに基づいて選択する
請求項1に記載の情報処理装置。 - 情報処理装置が、
選択肢として提示する複数の提示情報を取得し、
それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる
情報処理方法。 - ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信する通信部と、
受信された複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる提示制御部と
を備える情報処理端末。 - 情報処理端末が、
ネットワークを介して接続される情報処理装置から送信されてきた、選択肢として提示する複数の提示情報を受信し、
受信した複数の前記提示情報に基づいて、それぞれの前記提示情報のうちの、他の前記提示情報と類似しない部分を、類似する部分と異なる形式で提示させる
情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017219983 | 2017-11-15 | ||
JP2017219983 | 2017-11-15 | ||
PCT/JP2018/040661 WO2019098036A1 (ja) | 2017-11-15 | 2018-11-01 | 情報処理装置、情報処理端末、および情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2019098036A1 true JPWO2019098036A1 (ja) | 2020-10-01 |
Family
ID=66540199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019527268A Pending JPWO2019098036A1 (ja) | 2017-11-15 | 2018-11-01 | 情報処理装置、情報処理端末、および情報処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11392646B2 (ja) |
EP (1) | EP3567471A4 (ja) |
JP (1) | JPWO2019098036A1 (ja) |
WO (1) | WO2019098036A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110780956A (zh) * | 2019-09-16 | 2020-02-11 | 平安科技(深圳)有限公司 | 一种智能远程协助方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005267574A (ja) * | 2004-03-22 | 2005-09-29 | Fujitsu Ltd | 音声検索システム |
JP2010139826A (ja) * | 2008-12-12 | 2010-06-24 | Toyota Motor Corp | 音声認識システム |
US20120253984A1 (en) * | 2011-03-30 | 2012-10-04 | W.W. Grainger, Inc. | System and method for highlighting differences in items in a search result listing |
JP2014202832A (ja) * | 2013-04-02 | 2014-10-27 | 株式会社東芝 | 編集装置、方法、及びプログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007171809A (ja) | 2005-12-26 | 2007-07-05 | Canon Inc | 情報処理装置及び情報処理方法 |
US8949266B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8515185B2 (en) * | 2009-11-25 | 2013-08-20 | Google Inc. | On-screen guideline-based selective text recognition |
JP2012043000A (ja) * | 2010-08-12 | 2012-03-01 | Sony Corp | 検索装置、検索方法、及び、プログラム |
US20120116764A1 (en) * | 2010-11-09 | 2012-05-10 | Tze Fen Li | Speech recognition method on sentences in all languages |
JP5642037B2 (ja) * | 2011-09-22 | 2014-12-17 | 株式会社東芝 | 検索装置、検索方法およびプログラム |
US9548052B2 (en) * | 2013-12-17 | 2017-01-17 | Google Inc. | Ebook interaction using speech recognition |
EP3353679A4 (en) * | 2015-09-22 | 2019-05-22 | Nuance Communications, Inc. | SYSTEMS AND METHOD FOR DETECTING INTEREST POINTS |
CN106251869B (zh) * | 2016-09-22 | 2020-07-24 | 浙江吉利控股集团有限公司 | 语音处理方法及装置 |
-
2018
- 2018-11-01 WO PCT/JP2018/040661 patent/WO2019098036A1/ja unknown
- 2018-11-01 US US16/471,930 patent/US11392646B2/en active Active
- 2018-11-01 JP JP2019527268A patent/JPWO2019098036A1/ja active Pending
- 2018-11-01 EP EP18878205.6A patent/EP3567471A4/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005267574A (ja) * | 2004-03-22 | 2005-09-29 | Fujitsu Ltd | 音声検索システム |
JP2010139826A (ja) * | 2008-12-12 | 2010-06-24 | Toyota Motor Corp | 音声認識システム |
US20120253984A1 (en) * | 2011-03-30 | 2012-10-04 | W.W. Grainger, Inc. | System and method for highlighting differences in items in a search result listing |
JP2014202832A (ja) * | 2013-04-02 | 2014-10-27 | 株式会社東芝 | 編集装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US11392646B2 (en) | 2022-07-19 |
EP3567471A1 (en) | 2019-11-13 |
EP3567471A4 (en) | 2020-02-19 |
WO2019098036A1 (ja) | 2019-05-23 |
US20190384795A1 (en) | 2019-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10586541B2 (en) | Communicating metadata that identifies a current speaker | |
US10691473B2 (en) | Intelligent automated assistant in a messaging environment | |
JP5671557B2 (ja) | クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法 | |
US9484034B2 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
CN108648750A (zh) | 混合模型语音识别 | |
CN105874531B (zh) | 终端设备、服务器设备以及计算机可读记录介质 | |
US11328716B2 (en) | Information processing device, information processing system, and information processing method, and program | |
US10360455B2 (en) | Grouping captured images based on features of the images | |
JP2020003926A (ja) | 対話システムの制御方法、対話システム及びプログラム | |
US10043069B1 (en) | Item recognition using context data | |
JP2016177386A (ja) | プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム | |
US20140136196A1 (en) | System and method for posting message by audio signal | |
JP5242726B2 (ja) | 外国語接客支援装置、外国語接客方法及びプログラム | |
US20210165540A1 (en) | Information processing device, information processing method, and program | |
US11392646B2 (en) | Information processing device, information processing terminal, and information processing method | |
CN113168354B (zh) | 用于从一个或多个计算机应用中选择并提供可用动作给用户的系统和方法 | |
JPWO2018043137A1 (ja) | 情報処理装置及び情報処理方法 | |
US11430429B2 (en) | Information processing apparatus and information processing method | |
JP2006301967A (ja) | 会話支援装置 | |
JP2022018724A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP7257010B2 (ja) | 検索支援サーバ、検索支援方法及びコンピュータプログラム | |
US20220157295A1 (en) | Information processing apparatus and information processing method | |
JP2023162822A (ja) | 情報処理方法、情報処理システムおよびプログラム | |
JP6399221B2 (ja) | プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム | |
JP2011053851A (ja) | 分類処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220822 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221220 |