WO2017199486A1

WO2017199486A1 - 情報処理装置

Info

Publication number: WO2017199486A1
Application number: PCT/JP2017/004825
Authority: WO
Inventors: 浩明小川; 東山　恵祐
Original assignee: ソニー株式会社
Priority date: 2016-05-16
Filing date: 2017-02-09
Publication date: 2017-11-23
Also published as: JPWO2017199486A1; US20190066676A1; JP6828741B2; EP3460791A4; EP3460791A1

Abstract

【課題】ユーザの発話に応じたより自然な応答を行う。【解決手段】発話情報を収集する取得部と、前記発話情報に基づく認識情報を送信する送信部と、前記認識情報に基づき解析部により標準化された処理内容を受信する受信部と、前記処理内容に基づく処理結果とユーザの発話特性とに応じた応答情報を出力する出力部と、を備える、情報処理装置が提供される。また、収集された発話情報に基づく認識情報を受信する受信部と、前記認識情報に基づいて処理内容の標準化を行う解析部と、前記処理内容を送信する送信部と、を備える、情報処理装置が提供される。

Description

情報処理装置

　本開示は、情報処理装置に関する。

　近年、ユーザの発話を認識し、認識した音声入力に対応する処理を実行する種々の装置が提案されている。また、ユーザの発話に係る表現の幅を吸収し、音声認識の精度を高める技術が知られている。上記のような技術としては、例えば、特許文献１に記載の音声処理装置がある。

特開２００８－１３９４３８号公報

　しかし、特許文献１に記載の音声処理装置は、認識したユーザの発話に係る表現を保存する手段を有しておらず、また、音声合成に反映する手段を有していないため、ユーザが用いた表現に応じた音声応答を行うことが困難である。

　そこで、本開示では、ユーザの発話に応じたより自然な応答を行うことが可能な情報処理装置を提案する。

　本開示によれば、発話情報を収集する取得部と、前記発話情報に基づく認識情報を送信する送信部と、前記認識情報に基づき解析部により標準化された処理内容を受信する受信部と、前記処理内容に基づく処理結果とユーザの発話特性とに応じた応答情報を出力する出力部と、を備える、情報処理装置が提供される。

　また、本開示によれば、収集された発話情報に基づく認識情報を受信する受信部と、前記認識情報に基づいて処理内容の標準化を行う解析部と、前記処理内容を送信する送信部と、を備える、情報処理装置が提供される。

　以上説明したように本開示によれば、ユーザの発話に応じたより自然な応答を行うことが可能となる。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施形態に係る概要を説明するための概念図である。同実施形態に係るシステム構成例を示す図である。同実施形態に係る情報処理端末の機能ブロック図である。同実施形態に係る情報処理サーバの機能ブロック図である。同実施形態に係るユーザ情報ＤＢが保有するユーザの発話傾向に関するテーブル例である。同実施形態に係る呼称の傾向に応じた応答情報の出力を示す概念図である。同実施形態に係る複数ユーザの呼称の傾向に応じた応答情報の出力を示す概念図である。同実施形態に係る単語の傾向に応じた応答情報の出力を示す概念図である。同実施形態に係る語順の傾向に応じた応答情報の出力例を示す概念図である。同実施形態に係る場所及び日時に係る語順に応じた応答情報の生成について説明するための概念図である。同実施形態に係る発音の傾向に応じた応答情報の出力例を示す概念図である。同実施形態に係る情報処理端末１０及び情報処理サーバ３０の動作に係るシーケンス図である。同実施形態に係る情報処理端末１０及び情報処理サーバ３０の動作に係るシーケンス図である。同実施形態に係る情報処理端末１０及び情報処理サーバ３０の動作に係るシーケンス図である。本開示に係るハードウェア構成例である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．本開示に係る実施形態の概要
　　１．２．システム構成例
　　１．３．情報処理端末１０の機能構成例
　　１．４．情報処理サーバ３０の機能構成例
　　１．５．発話傾向に応じた応答情報の出力
　　１．６．動作の流れ
　２．ハードウェア構成例
　３．まとめ

　＜１．実施形態＞
　［１．１．本開示に係る実施形態の概要］

　近年、自律型ロボットやスマートフォンアプリケーションなどにおいて、ユーザの発話を認識し、当該発話に基づいた音声応答を行う技術が普及している。上記のような音声応答は、画面などを用いた視覚的な出力とは異なりユーザの視線を拘束しない。このため、ユーザは、他の作業を行いながら、上記のような音声応答システムを同時に利用することができる。

　例えば、ユーザは、台所仕事をしながら、音声応答システムに明日の天気予報を問い合わせることが可能である。ユーザは、手元に視線を向けながら、「明日の東京の天気は？」と質問してもよい。この際、音声応答システムは、ユーザの発話意図が天気予報に係る問い合わせであることを認識し、発話中から抽出した「東京」が地名「東京」を示すことや、同じく抽出した「明日」が時間情報を示すことを同定することができる。音声応答システムは、認識した発話意図や抽出したパラメータに基づいて、天気予報サービスなどにアクセスし、「明日の東京の天気は晴れです」、と答えることができる。

　一方、上記のような音声応答では、システムから出力される音声をユーザが聞き逃した場合、再度問い合わせを行うことが求められる。このため、システムからの音声出力にユーザが知らない語彙や、ユーザが普段用いない語彙が含まれる場合、ユーザが応答内容を正しく（また、瞬時に）理解することが困難となり、システムの利便性を大きく損ねる要因となり得る。

　例えば、ユーザの発話が、“Ｓｔａｔｕｅ　ｏｆ　Ｌｉｂｅｒｔｙ”の料金に係る問い合わせである場合について考察する。この際、システムは、“Ｓｔａｔｕｅ　ｏｆ　Ｌｉｂｅｒｔｙ”が、正式名称である“Ｌｉｂｅｒｔｙ　Ｅｎｌｉｇｈｔｅｎｉｎｇ　ｔｈｅ　Ｗｏｒｌｄ”を指すことを判断し、当該正式名称を用いて音声出力を行う。しかし、ユーザが上記の正式名称を知らない場合、ユーザはシステムからの応答が自身の質問に対する正しい答えであるか否かを判断することが困難である。

　また、例えば、ユーザからの問い合わせへの応答以外でも、システム主導による音声出力を行う場合も想定される。この際、システムが、“Ｌｉｂｅｒｔｙ　Ｅｎｌｉｇｈｔｅｎｉｎｇ　ｔｈｅ　Ｗｏｒｌｄ”でイベントがある旨を音声出力しても、正式名称を知らないユーザにとっては、音声出力の意図を正しく理解することが困難である。

　このように、システムが常に正式名称や定型句を用いて音声応答を行う場合、ユーザの理解を大きく低下させる可能性がある。また、応答内容が理解可能である場合でも、普段使用しない語彙などを用いた音声応答に対して、ユーザが違和感を覚えることが想定される。このため、音声応答を行うシステムでは、ユーザにとって、よりわかりやすい、より親しみやすい応答を実現することが求められていた。

　本開示に係る情報処理装置は、上記の点に着目して発想されたものであり、ユーザの発話特性に応じた応答情報を出力することを可能とする。ここで、本開示に係る実施形態の概要について説明する。図１は、本実施形態の概要を説明するための概念図である。図１には、ユーザの発話を認識し、当該発話に基づいて処理を実行する情報処理端末１０が示されている。ここで、本実施形態に係る情報処理端末１０は、ユーザとの音声対話を実現するエージェント機能を有してもよい。

　図１を参照すると、情報処理端末１０は、ユーザＵ１の発話Ｓ１を認識し、発話Ｓ１に基づき、応答情報Ｒ１を出力している。より具体的には、情報処理端末１０は、発話Ｓ１から抽出されたユーザの発話意図に基づいて種々の処理を実行し、当該処理の結果を応答情報Ｒ１として出力することができる。

　例えば、情報処理端末１０は、ユーザＵ１の発話Ｓ１に基づいて、スケジュール情報を検索し、検索結果を含めた応答情報Ｒ１を音声出力する機能を有してもよい。図１に示す一例においては、情報処理端末１０は、発話Ｓ１“Ｄｏ　Ｉ　ｈａｖｅ　ｐｌａｎｓ　ｔｏｄａｙ？”から抽出された発話意図に基づいて、スケジュール管理に係るサービスＳＶ１からユーザＵ１のスケジュール情報を抽出している。また、情報処理端末１０は、上記で抽出したスケジュール情報に基づいて、応答情報Ｒ１“Ｙｏｕ　ｈａｖｅ　ａｎ　ａｐｐｏｉｎｔｍｅｎｔ　ａｔ　Ｍａｒｙ’ｓ　ａｔ　１３：００”を出力している。

　この際、本実施形態に係る情報処理端末１０は、ユーザの発話特性に応じた応答情報の出力を行うことが可能である。例えば、本実施形態に係る情報処理端末１０は、ユーザが使用する呼称の傾向に応じた応答情報を出力する機能を有してよい。ここで、上記の呼称の傾向とは、人物、物体、場所など、あらゆる対象に対してユーザが用いる呼び方の傾向であってよい。このため、本実施形態に係る呼称とは、略称、愛称、俗称などを含む概念であってよい。

　例えば、図１に示されるサービスＳＶ１には、“Ｍａｒｙ’ｓ　ｓａｌｏｎ”に関連付いたユーザＵ１のスケジュール情報が記憶されている。ここで、“Ｍａｒｙ’ｓ　ｓａｌｏｎ”は、サロンの商業的な正式名称であってもよい。一方、図１に示す一例では、情報処理端末１０は、正式名称である“Ｍａｒｙ’ｓ　ｓａｌｏｎ”を用いずに、“Ｍａｒｙ’ｓ”という名称に変換し、応答情報Ｒ１を出力している。

　このように、情報処理端末１０は、記憶されるユーザの発話特性を参照し、当該発話特性に応じた応答情報Ｒ１を出力することが可能である。すなわち、情報処理端末１０は、記憶されるユーザＵ１の発話特性から、ユーザＵ１が、“Ｍａｒｙ’ｓ　ｓａｌｏｎ”を“Ｍａｒｙ’ｓ”と呼ぶ傾向があることを認識し、図１に示すような応答情報Ｒ１の出力を実現することができる。このように、本実施形態に係る発話特性には、ユーザの属性に係る情報に加え、ユーザの発話傾向が含まれてよい。

　以上、本実施形態に係る概要について説明した。上述したとおり、本実施形態に係る情報処理端末１０は、ユーザの発話特性に応じた応答情報を出力することが可能である。情報処理端末１０が有する上記の機能によれば、ユーザの発話特性に対応したより自然、かつより理解しやすい音声対話を実現することが可能となる。

　なお、上記の説明では、ユーザの発話に対し情報処理端末１０が応答する場合を例に述べたが、本実施形態に係る情報処理端末１０は、システム主導による音声出力を行ってもよい。この場合においても、情報処理端末１０は、認識したユーザ情報に基づいて、当該ユーザの発話特性に応じた音声出力を行うことができる。以降の説明では、本実施形態に係る情報処理端末１０、及び情報処理サーバ３０に係る機能上の特徴を挙げながら、当該特徴の奏する効果について述べる。

　［１．２．システム構成例］
　次に、本実施形態に係るシステム構成例について説明する。図２は、本実施形態に係るシステム構成例を示す図である。図２を参照すると、本実施形態に係る情報処理システムは、情報処理端末１０、及び情報処理サーバ３０を備える。また、情報処理端末１０及び情報処理サーバ３０は、互いに通信が行えるように、ネットワーク２０を介して接続される。

　（情報処理端末１０）
　本実施形態に係る情報処理端末１０は、ユーザの発話情報を収集し、当該発話情報に基づく種々の処理を実行する機能を有する。また、情報処理端末は、上記の処理の結果とユーザの発話特性とに応じた応答情報を出力する機能を有する。

　より具体的には、本実施形態に係る情報処理端末１０は、収集したユーザの発話情報に基づく認識情報を情報処理サーバ３０に送信してよい。また、情報処理端末１０は、情報処理サーバ３０により標準化された処理内容を受信し、当該処理内容に基づいた処理を実行することができる。

　本実施形態に係る情報処理端末１０は、上記の機能を有する種々の情報処理装置であってよい。情報処理端末１０は、例えば、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）、スマートフォン、タブレット、携帯電話、自律型ロボットなどであってもよい。

　（情報処理サーバ３０）
　本実施形態に係る情報処理サーバ３０は、収集された発話情報に基づく認識情報を受信し、当該認識情報に基づいて処理内容の標準化を行う情報処理装置である。より具体的には、情報処理サーバ３０は、ユーザごとの発話特性に係る差異を吸収し、実行する処理内容の標準化を行ってよい。また、情報処理サーバ３０は、標準化した処理内容を情報処理端末１０に送信する機能を有してよい。なお、情報処理サーバ３０が有する処理内容の標準化については、後に詳細に説明する。

　（ネットワーク２０）
　ネットワーク２０は、情報処理端末１０、及び情報処理サーバ３０を互いに接続する機能を有する。ネットワーク２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク２０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク２０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

　以上、本実施形態に係るシステム構成例について説明した。なお、図２を用いた上記の説明では、情報処理端末１０、及び情報処理サーバ３０がそれぞれ独立した情報処理装置として実現される場合を例に述べたが、本実施形態に係るシステム構成例は、係る例に限定されない。本実施形態に係る情報処理端末１０、及び情報処理サーバ３０は、単一の情報処理装置として実現されてもよい。この場合、例えば、情報処理端末１０は、処理内容の標準化に係る機能をさらに有してもよい。

　また、情報処理端末１０、及び情報処理サーバ３０が有する各機能は、３台以上の複数の情報処理装置に実現されてもよい。本実施形態に係るシステム構成例は、扱われる情報量やシステムの仕様、運用条件などに応じて柔軟に変形され得る。

　［１．３．情報処理端末１０の機能構成例］
　次に、本実施形態に係る情報処理端末１０の機能構成例について、詳細に説明する。図３は、本実施形態に係る情報処理端末１０の機能ブロック図である。図３を参照すると、本実施形態に係る情報処理端末１０は、取得部１１０、画像認識部１２０、結果統合部１３０、サービス実行部１４０、応答生成部１５０、出力部１６０、サーバ通信部１７０、及びユーザ情報ＤＢ４００ａを備える。また、本実施形態に係る取得部１１０は、音声取得部１１２及び撮像部１１４を含む。また、本実施形態に係る出力部１６０は、音声出力部１６２及び表示部１６４を含む。

　以降、上記に示す各構成について当該構成が有する特徴を中心に詳細に説明する。なお、図３に示す機能構成はあくまで例示であり、図３に示される機能の一部は、情報処理端末１０とは異なる装置の機能として実現されてもよい。本実施形態に係る情報処理端末１０の機能構成は、装置の特性や運用条件などにより適宜変更され得る。

　（取得部１１０）
　取得部１１０は、ユーザに係る情報を取得する機能を有する。このため、取得部１１０は、ユーザの発話や状態、またはユーザによる入力操作を検出するための各種のセンサや装置を含んでよい。特に、本実施形態においては、取得部１１０は、音声取得部１１２及び撮像部１１４を含んでよい。

　（（音声取得部１１２））
　音声取得部１１２は、ユーザの発話情報を収集する機能を有する。ここで、上記の発話情報には、ユーザの発した音声の他、周囲の環境音等が含まれてもよい。音声取得部１１２は、例えば、ユーザの音声や環境音を電気信号に変換するマイクロフォンにより実現され得る。

　（（撮像部１１４））
　撮像部１１４は、ユーザの画像情報を収集する機能を有する。ここで、上記のユーザには、情報処理端末１０への発話を行うユーザの他、発話ユーザと対話している別のユーザなど、情報処理端末１０の周囲に存在する複数の人物が含まれてよい。撮像部１１４は、例えば、撮像素子を備える各種のカメラにより実現され得る。

　（画像認識部１２０）
　画像認識部１２０は、撮像部１１４が収集した画像情報と後述するユーザ情報ＤＢ４００ａが有するユーザ情報とに基づいて、情報処理端末１０の周囲に存在するユーザを認識する機能を有する。

　（結果統合部１３０）
　結果統合部１３０は、画像認識部１２０が認識したユーザ情報と、後述する音声認識部３１０が認識する音声認識結果と、を対応付ける機能を有する。具体的には、本実施形態に係る結果統合部１３０は、サービス実行に係る発話コマンドを発した発話ユーザを特定することが可能である。また、結果統合部１３０は、情報処理端末１０の周囲に存在する発話ユーザとは異なる別のユーザを同時に認識することができる。すなわち、結果統合部１３０は、音声認識部３１０による音声認識結果、発話ユーザの認識結果、及び発話ユーザとは異なる別のユーザの認識結果を統合した認識情報を、サーバ通信部１７０を介して、解析部３２０に出力する機能を有する。

　（サービス実行部１４０）
　サービス実行部１４０は、後述する解析部３２０により標準化された処理内容に基づき、種々の処理を実行する機能を有する。すなわち、サービス実行部１４０は、標準化された処理内容に基づいてサービスに対する種々の要求を行う機能を有する。このため、サービス実行部１４０が実行する機能は、上記サービスの種類に応じて決定され得る。提供サービスがスケジュール管理に係るサービスの場合、サービス実行部１４０は、例えば、標準化された処理内容に基づいて、スケジュールの参照、登録、変更、または削除などを行ってもよい。また、提供サービスが天気予報に係るサービスの場合、サービス実行部１４０は、標準化された処理内容に基づいて天気予報サービスから該当する情報を抽出することができる。

　また、上記のサービスは、例えば、情報処理端末１０の機能として実現される各種のアプリケーションであってもよい。この場合、サービス実行部１４０は、当該アプリケーションの管理や実行を制御する機能を有してよい。また、上記のサービスは、例えば、ネットワーク２０上に公開される各種のＷｅｂサービスなどであってもよい。この場合、サービス実行部１４０は、ネットワーク２０を介して、Ｗｅｂサービスにアクセスし、サービス内容に応じた機能の実行や情報の取得を要求することが可能である。

　（応答生成部１５０）
　応答生成部１５０は、標準化された処理結果とユーザの発話特性とに応じた応答情報を生成する機能を有する。すなわち、応答生成部１５０は、サービス実行部１４０による処理結果と、ユーザ情報ＤＢ４００ａが保有するユーザ情報と、に応じた応答情報を生成することができる。この際、応答生成部１５０は、上記のユーザ情報に含まれる発話ユーザの発話特性に応じた応答情報を生成してよい。より具体的には、応答生成部１５０は、上記の発話特性に含まれるユーザの発話傾向に応じた応答情報を生成することができる。このように、本実施形態に係る発話特性には、ユーザの属性情報に加え、ユーザの発話傾向が含まれてよい。ここで、上記の発話傾向には、例えば、ユーザが使用する呼称、単語、語順、発音などの傾向が含まれてよい。すなわち、本実施形態に係る応答生成部１５０は、上記の呼称、単語、語順、発音などの傾向に応じた応答情報を生成することが可能である。

　また、応答生成部１５０は、発話ユーザの発話特性と当該発話ユーザとは異なる別のユーザの発話特性に応じた応答情報を生成してもよい。さらには、応答生成部１５０は、発話ユーザと当該発話ユーザとは異なる別のユーザとに共通する発話特性を用いた応答情報を生成してもよい。本実施形態に係る応答情報の生成については、後に詳細に説明する。また、応答生成部１５０は、生成した応答情報に基づいて人工音声を合成する音声合成機能を有してよい。

　（出力部１６０）
　出力部１６０は、応答生成部１５０が生成した応答情報をユーザに提示する機能を有する。すなわち、本実施形態に係る出力部１６０は、ユーザが使用する呼称、単語、語順、発音などの傾向に応じた応答情報を出力することができる。このため、出力部１６０は、上記の応答情報を出力するための各種の装置を含んでよい。特に、本実施形態においては、出力部１６０は、音声出力部１６２及び表示部１６４を含んでよい。

　（（音声出力部１６２））
　音声出力部１６２は、電気信号を音に変換し出力する機能を有する。具体的には、音声出力部１６２は、応答生成部１５０が合成した音声データに基づいた音声をユーザに提示する機能を有する。音声出力部１６２は、上記の機能を有するスピーカやアンプなどを含んでよい。

　（（表示部１６４））
　表示部１６４は、応答生成部１５０が生成した応答情報に基づいて、視覚情報を伴う出力を行う機能を有する。当該機能は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置により実現されてもよい。また、表示部１６４は、ユーザの操作を受け付ける操作部としての機能を有してもよい。操作部としての機能は、例えば、タッチパネルにより実現され得る。

　（サーバ通信部１７０）
　サーバ通信部１７０は、ネットワーク２０を介して、情報処理サーバ３０との通信を行う機能を有する。サーバ通信部１７０は、例えば、音声取得部１１２が取得した発話情報を情報処理サーバ３０に送信し、当該発話情報に基づく音声認識結果を受信してもよい。また、サーバ通信部１７０は、結果統合部１３０が統合した認識情報を情報処理サーバ３０に送信し、当該認識情報に基づき標準化された処理内容を受信してもよい。ここで、上記の認識情報には、上記の音声認識結果、発話ユーザの認識結果、及び当該発話ユーザとは異なる別のユーザの認識結果が含まれてよい。

　（ユーザ情報ＤＢ４００ａ）
　ユーザ情報ＤＢ４００ａは、ユーザに関する種々の情報を保有するデータベースであってよい。ユーザ情報ＤＢ４００ａが保有するユーザ情報には、例えば、ユーザＩＤやユーザに関する氏名、性別、年齢などの基本情報が含まれてよい。また、上記のユーザ情報には、ユーザを識別するための画像情報や音響的特徴が含まれてよい。画像認識部１２０や後述する音声認識部３１０は、上記の画像情報または音響的特徴に基づいて、ユーザを識別することが可能である。また、上記のユーザ情報には、ユーザごとの発話特性が含まれてよい。上述したとおり、上記の発話特性には、ユーザの性別、年齢、出身などの属性情報の他、ユーザごとの発話傾向が含まれてよい。当該発話傾向には、ユーザが使用する呼称、単語、語順、発音などの発話傾向が含まれてよい。

　また、ユーザ情報ＤＢ４００ａが保有するユーザ情報は、後述するユーザ情報ＤＢ４００ｂが保有するユーザ情報と同期制御が行われてよい。例えば、ユーザ情報ＤＢ４００ａに新規ユーザの情報が登録された場合、当該ユーザに関するユーザ情報は、ユーザ情報ＤＢ４００ｂにコピーされてよい。

　以上、本実施形態に係る情報処理端末１０の機能構成例について詳細に説明した。上述したとおり、本実施形態に係る情報処理端末１０は、サービス実行結果とユーザの発話特性とに応じた応答情報を出力することができる。より具体的には、情報処理端末１０は、ユーザの発話傾向に応じた応答情報を出力することができる。本実施形態に係る情報処理端末１０が備える上記の機能によれば、ユーザの発話特性に対応したより自然、かつより理解しやすい音声対話を実現することが可能となる。

　なお、上記で説明した機能構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は、係る例に限定されない。例えば、画像認識部１２０、結果統合部１３０、サービス実行部１４０、及び応答生成部１５０は、情報処理サーバ３０や他の装置の機能として実現されてもよい。また、上記では、情報処理端末１０がユーザ情報ＤＢ４００ａを備える場合を例に説明したが、ユーザ情報ＤＢ４００ａは情報処理端末１０の外部に備えられてもよいし、後述するユーザ情報ＤＢ４００ｂと統合されて備えられてもよい。本実施形態に係る情報処理端末１０の機能構成は、柔軟に変更され得る。

　［１．４．情報処理サーバ３０の機能構成例］
　次に、本実施形態に係る情報処理サーバ３０の機能構成例について詳細に説明する。図４は、本実施形態に係る情報処理サーバ３０の機能ブロック図である。図４を参照すると、本実施形態に係る情報処理サーバ３０は、音声認識部３１０、解析部３２０、端末通信部３３０、及びユーザ情報ＤＢ４００ｂを備える。また、本実施形態に係る解析部３２０は、意図解釈部３２２及び曖昧性解消部３２４を含む。

　以降、上記に示す各構成について当該構成が有する特徴を中心に詳細に説明する。なお、図４に示す機能構成はあくまで例示であり、図４に示される機能の一部は、例えば、情報処理端末１０の機能として実現されてもよい。本実施形態に係る情報処理サーバ３０の機能構成は、装置の特性や運用条件などにより適宜変更され得る。

　（音声認識部３１０）
　音声認識部３１０は、情報処理端末１０の音声取得部１１２が収集した発話情報に基づいて音声認識を行う機能を有する。具体的には、音声認識部３１０は、上記の発話情報に含まれる音声信号を文字列情報に変換してよい。また、音声認識部３１０は、ユーザ情報ＤＢ４００ｂが保有するユーザごとの音響的特徴に基づいて、発話ユーザの識別を行う機能を有する。この際、音声認識部３１０は、例えば、パターンマッチングや隠れマルコフモデルなどを用いて音声認識を行うことが可能である。

　（解析部３２０）
　解析部３２０は、情報処理端末１０の結果統合部１３０が統合する認識情報に基づいて、サービス実行部１４０により実行される処理内容を標準化する機能を有する。すなわち、本実施形態に係る解析部３２０は、ユーザ間の発話特性に係る差異を吸収し、ユーザの発話特性に依存しない処理内容を生成することができる。このため、本実施形態に係る解析部３２０は、意図解釈部３２２及び曖昧性解消部３２４を含む。

　（（意図解釈部３２２））
　意図解釈部３２２は、上記の認識情報に含まれる音声認識結果に基づいて発話ユーザの発話意図を抽出する機能を有する。例えば、ユーザが、「今日の午後一時に、Ｍａｒｙ’ｓの予定を登録」（発話例１）と発話した場合、意図解釈部３２２は、スケジュールサービスへの予定登録を発話ユーザの発話意図として抽出することができる。また、この際、意図解釈部３２２は、音声認識結果に基づいて発話パラメータを抽出する機能を有する。上記の発話例１の場合、意図解釈部３２２は、「日時：今日午後１時」及び「場所：Ｍａｒｙ’ｓ」を発話パラメータとして抽出してよい。この際、意図解釈部３２２は、自然言語処理の分野で広く用いられる方法を適用して上記の処理を行ってもよい。

　（（曖昧性解消部３２４））
　曖昧性解消部３２４は、認識情報に含まれる発話ユーザの認識結果と、ユーザ情報ＤＢ４００ｂに記憶される当該発話ユーザの発話特性とに基づいて、上記の発話パラメータを標準化した処理内容を生成する機能を有する。すなわち、本実施形態に係る曖昧性解消部３２４は、発話ユーザの発話特性に依存する発話パラメータの曖昧性を解消する機能を有する。

　図５は、ユーザ情報ＤＢ４００ｂが保有するユーザの発話傾向に関するテーブル例を示す図である。ここで、図５に示すテーブルは、ユーザが使用する呼称の傾向に関する情報を示す一例である。図５を参照すると、同テーブルには、対象に係る正式名称と当該対象に対してユーザが使用する呼称とが対応付けられて記憶されている。例えば、上記の発話例１の場合、曖昧性解消部３２４は、意図解釈部３２２が抽出した発話パラメータ「場所：Ｍａｒｙ’ｓ」と、発話ユーザの認識結果（ｕｓｅｒ１）と、に基づいてユーザ情報ＤＢ４００ｂを検索してよい。曖昧性解消部３２４は、上記の処理により発話パラメータ「Ｍａｒｙ’ｓ」の正式名称「Ｍａｒｙ’ｓ　Ｓａｌｏｎ」を取得し、当該発話パラメータを置換することが可能である。このように、本実施形態に係る曖昧性解消部３２４は、ユーザ間の発話特性に係る差異を吸収し、ユーザの発話特性に依存しない標準化された処理内容を生成することが可能である。

　また、曖昧性解消部３２４は、予め記憶される情報に基づいて発話パラメータの曖昧性を解消してもよい。例えば、上記の発話例１の場合、曖昧性解消部３２４は、意図解釈部３２２が抽出した発話パラメータ「日時：今日午後１時」を、サービスが用いるデータ型の仕様に基づいて、「日時：４／２０／２０１６　１３：００」に変換してもよい。このように、本実施形態に係る曖昧性解消部３２４は、意図解釈部３２２が抽出した発話パラメータに係る曖昧性を解消し、サービスの実行に適した標準化された処理内容を生成することが可能である。

　また、曖昧性解消部３２４は、意図解釈部３２２が抽出した発話パラメータと発話ユーザの認識結果とに基づいて、当該発話ユーザの発話傾向を記憶させる機能を有する。具他的には、曖昧性解消部３２４は、意図解釈部３２２が抽出した発話パラメータと発話ユーザのＩＤとを対応付けて、ユーザ情報ＤＢ４００ｂに記憶させてもよい。なお、上述したとおり、上記の発話傾向には、呼称、単語、語順、または発音などが含まれてよい。曖昧性解消部３２４が有する上記の機能によれば、ユーザの発話傾向を動的に収集し、最新の状態に保つことが可能となる。

　（端末通信部３３０）
　端末通信部３３０は、ネットワーク２０を介して、情報処理端末１０との通信を行う機能を有する。例えば、端末通信部３３０は、収集された発話情報を受信し、音声認識部３１０による音声認識結果を情報処理端末１０に送信してもよい。また、端末通信部３３０は、結果統合部１３０が統合した認識情報を受信し、当該認識情報に基づいて標準化された処理内容を情報処理端末１０に送信してもよい。

　（ユーザ情報ＤＢ４００ｂ）
　ユーザ情報ＤＢ４００ｂは、ユーザに関する種々の情報を保有するデータベースであってよい。ユーザ情報ＤＢ４００ｂが保有するユーザ情報は、ユーザ情報ＤＢ４００ａが保有するユーザ情報と同一であってよいため、詳細な説明は省略する。また、上述したとおり、ユーザ情報ＤＢ４００ｂが保有するユーザ情報は、ユーザ情報ＤＢ４００ａが保有するユーザ情報と同期制御が行われてよい。例えば、ユーザ情報ＤＢ４００ｂに新たなユーザの発話傾向が登録された場合、当該発話傾向に係る情報は、ユーザ情報ＤＢ４００ａにコピーされてよい。

　以上、本実施形態に係る情報処理サーバ３０の機能構成例について詳細に説明した。上述したとおり、本実施形態に係る情報処理サーバ３０は、認識情報とユーザの発話特性とに基づいて、サービス実行に係る処理内容を標準化することができる。また、本実施形態に係る情報処理サーバ３０は、抽出した発話パラメータを発話ユーザの発話傾向として記憶することができる。本実施形態に係る情報処理サーバ３０が備える上記の機能によれば、ユーザ間の発話特性に係る差異を吸収し、より安定したサービス実行を実現することが可能となる。

　［１．５．発話傾向に応じた応答情報の出力］
　次に、本実施形態に係る発話傾向に応じた応答情報の出力について詳細に説明する。上述したとおり、本実施形態に係る情報処理端末１０は、ユーザの発話傾向に応じた応答情報を生成し、当該応答情報を出力することが可能である。以降、本実施形態に係る情報処理端末１０が有する上記の機能について、具体例を挙げながら詳細に説明する。

　（呼称の傾向に応じた応答情報の出力）
　まず、本実施形態に係る呼称の傾向に応じた応答情報の出力について詳細に説明する。図１を用いて説明したように、本実施形態に係る情報処理端末１０は、認識した発話ユーザの使用する呼称の傾向に応じた応答情報を出力することができる。なお、図１を用いた説明では、発話ユーザが当該発話ユーザに関するスケジュール情報を参照する場合を例に述べた。一方、本実施形態に係る情報処理端末１０は、発話ユーザが別のユーザのスケジュール情報を参照する場合においても、当該発話ユーザの呼称の傾向に応じた応答情報を出力してよい。

　図６は、発話ユーザが別のユーザに係るスケジュール情報を参照する場合の応答情報の出力例を示す概念図である。ここで、図６が示す一例は、ユーザＵ２が妻（ｕｓｅｒ１）のスケジュール情報を参照する場合を示している。この際、情報処理端末１０は、ユーザＵ２の発話Ｓ２、及び取得したユーザＵ２の画像情報に基づく認識情報を情報処理サーバ３０に送信する。ここで、情報処理サーバ３０の解析部３２０は、発話Ｓ２から発話意図及び発話パラメータを抽出し、処理内容の標準化を行う。具体的には、曖昧性解消部３２４は、ユーザＳ２の認識結果と発話傾向とに基づいて、発話パラメータ“ｍｙ　ｗｉｆｅ”を“ｕｓｅｒ１”に変換することができる。また、曖昧性解消部３２４は、発話パラメータ“ｔｏｄａｙ”をサービス仕様に基づいて変換してよい。

　次に、情報処理端末１０のサービス実行部１４０は、情報処理サーバ３０により標準化された処理内容に基づいてサービスＳＶ２からｕｓｅｒ１のスケジュール情報を取得する。この際、取得されるスケジュール情報には、場所情報として正式名称である“Ｍａｒｙ’ｓ　ｓａｌｏｎ”が用いられている。

　続いて、情報処理端末１０の応答生成部１５０は、上記の取得結果とユーザＵ２の発話傾向とに基づいた応答情報を生成する。この際、情報処理端末１０は、“Ｍａｒｙ’ｓ　ｓａｌｏｎ”に対しユーザＵ２が使用する呼称の傾向をユーザ情報ＤＢ４００ａから検索し、当該検索の結果に応じた応答情報を生成してよい。ここで、図５のテーブル例を再度参照すると、ユーザ情報ＤＢ４００ａには、“Ｍａｒｙ’ｓ　ｓａｌｏｎ”に対しユーザＵ２（ｕｓｅｒ２）が使用する呼称が記憶されていないことがわかる。一方、この際、応答生成部１５０が、ｕｓｅｒ１が使用する呼称である“Ｍａｒｙ’ｓ”を用いて応答情報を生成した場合、ユーザＵ２（ｕｓｅｒ２）にとっては、応答情報の内容が正確に理解できない恐れが生じる。このため、応答生成部１５０は、正式名称である“Ｍａｒｙ’ｓ　ｓａｌｏｎ”をそのまま用いた応答情報Ｒ２を生成し、音声出力部１６２が応答情報Ｒ２を出力している。なお、この際、応答生成部１５０は、選択した正式名称や呼称に応じて前置詞などを変更することも可能である。応答生成部１５０による応答情報の生成は、使用される言語の特性に応じて適宜変更され得る。

　このように、本実施形態に係る情報処理端末１０は、認識した発話ユーザが使用する呼称の傾向に応じた応答情報を出力することが可能である。本実施形態に係る情報処理端末１０が有する上記の機能によれば、スケジュール情報の取得結果など、同一の処理結果に対しても、発話ユーザに応じた柔軟な応答情報を出力することが可能となる。

　次に、図７を参照して、本実施形態に係る呼称の傾向に応じた応答情報生成の別の例を説明する。図７に示す一例は、発話ユーザであるユーザＵ１に加え、別のユーザであるユーザＵ２が情報処理端末１０の周囲に存在する場合を示している。上述したとおり、本実施形態に係る情報処理端末１０の画像認識部１２０は、撮像部１１４が取得した画像情報に基づいてユーザＵ２を識別することが可能である。

　図７に示す一例において、ユーザＵ１は、周辺におけるイベント情報の問い合わせに係る発話Ｓ３“Ａｒｅ　ｔｈｅｒｅ　ａｎｙ　ｅｖｅｎｔｓ　ｎｅａｒｂｙ？”を行っている。この際、情報処理端末１０は、取得部１１０が取得したＧＰＳ情報を認識情報に含めて情報処理サーバ３０に送信することができる。この場合、情報処理サーバ３０は、抽出した発話パラメータ“ｎｅａｒｂｙ”を座標情報に変換し、処理内容の標準化を行うことができる。

　次に、情報処理端末１０のサービス実行部１４０は、標準化された処理内容に基づいてサービスＳＶ３からイベント情報を取得する。この際、取得されるイベント情報には、場所情報として正式名称である“ＡＢＣ　Ｏｕｔｌｅｔ　Ｍａｌｌ”が用いられている。

　続いて、情報処理端末１０の応答生成部１５０は、上記の取得結果とユーザＵ１及びＵ２の発話傾向とに基づいた応答情報を生成する。この際、情報処理端末１０は、“ＡＢＣ　Ｏｕｔｌｅｔ　Ｍａｌｌ”に対しユーザＵ１及びＵ２が使用する呼称の傾向をユーザ情報ＤＢ４００ａから検索し、当該検索の結果に応じた応答情報を生成してよい。ここで、図５のテーブル例を再度参照すると、“ＡＢＣ　Ｏｕｔｌｅｔ　Ｍａｌｌ”に対しユーザＵ１（ｕｓｅｒ１）が“Ｏｕｔｌｅｔ”または“ＡＢＣ”という呼称を使用していることがわかる。また、“ＡＢＣ　Ｏｕｔｌｅｔ　Ｍａｌｌ”に対しユーザＵ２（ｕｓｅｒ２）が“Ｍａｌｌ”または“ＡＢＣ”という呼称を使用していることがわかる。この場合、応答生成部１５０は、ユーザＵ１及びＵ２に共通する呼称である“ＡＢＣ”を用いて応答情報Ｒ３を生成してもよい。

　このように、本実施形態に係る情報処理端末１０は、認識した発話ユーザ及び当該発話ユーザとは異なる別のユーザが使用する呼称の傾向に応じた応答情報を出力することが可能である。本実施形態に係る情報処理端末１０が有する上記の機能によれば、複数のユーザ間における発話特性の差異を吸収し、より汎用的な応答情報を出力することが可能となる。

　なお、上記の説明では、２名のユーザ間で共通する呼称を用いて応答情報を生成する場合を例に述べたが、応答生成部１５０は、複数ユーザを認識した場合には、正式名称を用いて応答情報の生成を行うこともできる。また、応答生成部１５０は、３名以上のユーザを認識した場合、より使用する人数の多い呼称を用いて応答情報を生成してもよい。また、応答生成部１５０は、認識したユーザが使用する呼称からランダムに選択して応答情報を生成することも可能である。本実施形態に係る呼称の傾向に応じた応答情報の生成は、柔軟に変更され得る。

　以上、図６及び図７を用いて、情報処理端末１０が、異なるユーザ間における呼称の傾向に関する差異を吸収した応答情報を出力する場合を説明した。一方、本実施形態に係る情報処理端末１０は、図１に示したように、ユーザが１名である場合であっても、同様の効果を奏する。

　ここでは、サービス実行部１４０が音楽再生サービスに係る処理を実行する例について述べる。この際、発話ユーザが、ミュージシャンＡに係る略称（以下、略称Ａ、と呼ぶ）を用いて、「略称Ａの曲をかけて」と発話した場合、曖昧性解消部３２４は、一般知識を参照し、略称Ａを正式名称であるミュージシャンＡに変換する。ここで、上記の一般知識は、情報処理サーバ３０に記憶される情報であってもよいし、例えば、インターネット上に公開される情報であってもよい。また、この際、曖昧性解消部３２４は、発話ユーザが、ミュージシャンＡに対し略称Ａを用いたことをユーザ情報ＤＢ４００ｂに記憶させる。

　この場合、情報処理端末１０は、ミュージシャンＡに係る音楽を再生するとともに、「略称Ａの曲を再生します」という応答情報を出力することができる。また、以降にユーザがミュージシャンＡに関する発話を行った場合、情報処理端末１０は、上記で記憶された呼称の傾向に応じた応答情報を出力してよい。例えば、ユーザが流れているミュージシャンＡの曲に対し、「この曲、だれの？」という発話を行った場合、応答生成部１５０は、ユーザ情報ＤＢ４００ｂに記憶される当該ユーザの呼称の傾向を参照し、「略称Ａの曲です」と答えることが可能である。

　（単語の傾向に応じた応答情報の出力）
　次に、本実施形態に係る単語の傾向に応じた応答情報の出力について詳細に説明する。本実施形態に係る情報処理端末１０は、認識した発話ユーザの使用する単語の傾向に応じた応答情報を出力することができる。図８は、発話ユーザの使用する単語の傾向に応じた応答情報の出力例を示す概念図である。なお、以降の説明では、呼称の傾向に応じた応答情報の出力との差異について中心に説明し、共通する情報処理端末１０及び情報処理サーバ３０の機能については説明を省略する。

　図８に示す一例において、ユーザＵ１は、スケジュール情報の削除に係る発話Ｓ４“Ｃａｎｃｅｌ　ａｌｌ　ｍｙ　Ｍｅｅｔｉｎｇｓ　ｔｏｄａｙ”を行っている。この場合、情報処理サーバ３０の意図解釈部３２２は、発話Ｓ４の発話意図がスケジュール情報の削除であることを抽出し、また、発話パラメータ“Ｃａｎｃｅｌ”を抽出する。また、この際、曖昧性解消部３２４は、抽出された発話意図と発話パラメータ“Ｃａｎｃｅｌ”とを対応付けてユーザ情報ＤＢ４００ｂに記憶させてよい。

　次に、情報処理端末１０のサービス実行部１４０は、情報処理サーバ３０により標準化された処理内容に基づいて、スケジュールの削除に係る処理を実行する。続いて、応答生成部１５０は、記憶されたユーザＵ１の発話傾向に基づいて応答情報を生成する。この際、応答生成部１５０は、上記で記憶された“Ｃａｎｃｅｌ”という単語を用いて応答情報Ｒ４ａを生成してよい。一方、この際、応答生成部１５０がユーザＵ１が使用していない類義語（Ｄｅｌｅｔｅ，Ｅｌｉｍｉｎａｔｅ，Ｒｅｍｏｖｅなど）を用いて応答情報Ｒ４ｂを生成した場合、ユーザＵ１にとっては、違和感のある応答となる可能性がある。

　このように、本実施形態に係る情報処理端末１０は、発話ユーザが使用する単語の傾向に応じた応答情報を出力することで、当該発話ユーザにとってより自然に感じられる応答を実現することが可能である。なお、上記の説明では、スケジュールの削除に係る例を示したが、スケジュールの変更（Ｅｄｉｔ，Ｃｏｒｒｅｃｔ，Ｃｈａｎｇｅ）や登録（Ａｄｄ，ｃｈａｎｇｅ）についても、同様の処理が行われてよい。

　また、上記では、類義語に関する例を示したが、本実施形態に係る情報処理端末１０は、同義語についても同様に、ユーザが使用した単語を用いて応答情報を生成することができる。例えば、ユーザが単語“Ｍｏｖｉｅ”を使用した場合、応答生成部１５０は、同義語“Ｆｉｌｍ”を用いずに、ユーザが使用した“Ｍｏｖｉｅ”を用いて応答情報の生成を行ってよい。また、本実施形態に係る単語の傾向には、動詞や動名詞に係る使用傾向が含まれてもよい。応答生成部１５０は、例えば、ユーザが動名詞を用いた発話を行った場合、動詞を用いずに動名詞を用いて応答情報の生成を行うことも可能である。本実施形態に係る単語の傾向に応じた応答情報の生成は、用いられる言語の特性に応じて適宜変形され得る。

　（語順の傾向に応じた応答情報の出力）
　次に、本実施形態に係る語順の傾向に応じた応答情報の出力について詳細に説明する。本実施形態に係る情報処理端末１０は、認識した発話ユーザの使用する語順の傾向に応じた応答情報を出力することができる。図９は、発話ユーザの使用する語順の傾向に応じた応答情報の出力例を示す概念図である。なお、以降の説明では、呼称及び単語の傾向に応じた応答情報の出力との差異について中心に説明し、共通する情報処理端末１０及び情報処理サーバ３０の機能については説明を省略する。

　図９に示す一例において、ユーザＵ１は、招待状の送信に係る発話Ｓ５“Ｓｅｎｄ　ａｎ　ｉｎｖｉｔａｔｉｏｎ　ｔｏ　Ｐｅｔｅｒ”を行っている。この場合、情報処理サーバ３０の意図解釈部３２２は、発話Ｓ５の発話意図が招待状の送信であることを抽出し、また、発話パラメータ“ｉｎｖｉｔａｔｉｏｎ”、“Ｐｅｔｅｒ（対象）”、及び当該発話パラメータの語順を抽出する。また、この際、曖昧性解消部３２４は、抽出された発話意図と発話パラメータの語順とを対応付けてユーザ情報ＤＢ４００ｂに記憶させてよい。

　次に、情報処理端末１０のサービス実行部１４０は、情報処理サーバ３０により標準化された処理内容に基づいて、招待状の送信に係る処理を実行する。続いて、応答生成部１５０は、記憶されたユーザＵ１の発話傾向に基づいて応答情報を生成する。この際、応答生成部１５０は、上記で記憶された発話パラメータの語順を用いて応答情報Ｒ５ａを生成してよい。一方、この際、応答生成部１５０がユーザＵ１が使用していない語順を用いて応答情報Ｒ５ｂを生成した場合、ユーザＵ１にとっては、違和感のある応答となる可能性がある。

　以上説明したように、本実施形態に係る応答生成部１５０は、ユーザの使用する言語の傾向に応じた応答情報を生成することが可能である。なお、上記の説明では、目的語の語順に係る例を用いて説明したが、本実施形態に係る語順には、例えば、場所及び日時に係る語順が含まれてよい。図１０は、場所及び日時に係る語順に応じた応答情報の生成について説明するための概念図である。図１０には、発話意図“Ｗｅａｔｈｅｒ　ｆｏｒｅｃａｓｔ”に関しユーザが使用した語順、及び生成される応答情報が対応付けて示されている。

　例えば、図１０の１行目には、“Ｗｈａｔ’ｓ　ｔｈｅ　ｗｅａｔｈｅｒ　ｔｏｄａｙ　ｉｎ　Ｔｏｋｙｏ”など、ユーザが、＜時間＞＜場所＞の語順を用いた場合に適用される語順テンプレートが示されている。この際、応答生成部１５０は、ユーザが用いた語順に基づいて、ユーザ情報ＤＢ４００ａを検索し、検索されたテンプレートを用いて、例えば、“Ｉｔ’ｓ　ｓｕｎｎｙ　ｔｏｄａｙ　ｉｎ　Ｔｏｋｙｏ”という応答情報を生成することができる。

　また、図１０の３行目及び４行目には、ユーザが語彙を省略した場合の語順テンプレートが示されている。例えば、“Ｗｈａｔ’ｓ　ｔｈｅ　ｗｅａｔｈｅｒ　ｔｏｄａｙ”など、ユーザが＜場所＞を省略して発話した場合、応答生成部１５０は、該当する語順テンプレートを抽出し、ユーザと同様に＜場所＞を省略した応答情報を生成してもよい。あるいは、応答生成部１５０は、図１０に示されるように、ユーザが省略した情報を補完して応答情報を生成することもできる。この場合、応答生成部１５０は、ユーザが予め設定した＜場所＞や、認識情報に含まれるＧＰＳ情報に基づいて＜場所＞を補完した応答情報を生成してもよい。また、この際、情報処理端末１０は、表示部１６４に＜場所＞を補完した応答情報を出力させながら、音声出力部１６２には、＜場所＞を省略した簡潔な応答情報を出力させてもよい。

　このように、本実施形態に係る情報処理端末１０は、発話ユーザが使用する語順の傾向に応じた応答情報を出力することで、当該発話ユーザにとってより自然に感じられる応答を実現することが可能である。なお、上記では、目的語に係る語順、及び場所や時間に係る語順を例に説明したが、本実施形態に係る語順の傾向に応じた応答情報の生成は、用いられる言語の特性に応じて適宜変更され得る。

　（単語の傾向に応じた応答情報の出力）
　次に、本実施形態に係る発音の傾向に応じた応答情報の出力について詳細に説明する。本実施形態に係る情報処理端末１０は、認識した発話ユーザの使用する発音の傾向に応じた応答情報を出力することができる。図１１は、発話ユーザの使用する発音の傾向に応じた応答情報の出力例を示す概念図である。なお、以降の説明では、呼称、単語、及び語順の傾向に応じた応答情報の出力との差異について中心に説明し、共通する情報処理端末１０及び情報処理サーバ３０の機能については説明を省略する。

　図１１に示す一例において、ユーザＵ１は、スケジュール情報の削除に係る発話Ｓ６“Ｃａｎｃｅｌ　ｍｙ　ｗｅｅｋｅｎｄ　ｓｃｈｅｄｕｌｅ”を行っている。この場合、情報処理サーバ３０の意図解釈部３２２は、発話Ｓ４の発話意図がスケジュール情報の削除であることを抽出し、また、発話パラメータ“Ｓｃｈｅｄｕｌｅ”及び当該発話パラメータに係るユーザの発音を抽出する。また、この際、曖昧性解消部３２４は、抽出された発話パラメータ“Ｓｃｈｅｄｕｌｅ”と上記のユーザの発音とを対応付けてユーザ情報ＤＢ４００ｂに記憶させてよい。

　次に、情報処理端末１０のサービス実行部１４０は、情報処理サーバ３０により標準化された処理内容に基づいて、スケジュールの削除に係る処理を実行する。続いて、応答生成部１５０は、記憶されたユーザＵ１の発話傾向に基づいて応答情報を生成する。この際、応答生成部１５０は、上記で記憶された“Ｓｃｈｅｄｕｌｅ”に関連付いた発音を用いて応答情報Ｒ６ａを生成してよい。一方、この際、応答生成部１５０がユーザＵ１が使用していない発音を用いて応答情報Ｒ６ｂを生成した場合、ユーザＵ１にとっては、違和感のある応答となる可能性がある。

　このように、本実施形態に係る情報処理端末１０は、発話ユーザが使用する発音の傾向に応じた応答情報を出力することで、当該発話ユーザにとってより自然に感じられる応答を実現することが可能である。なお、上記の説明では、“Ｓｃｈｅｄｕｌｅ”に関する発音を例に説明したが、本実施形態に係る応答生成部１５０は、例えば、ｒｈｏｔｉｃに対応する応答情報の生成を行うことも可能である。また、応答生成部１５０は、ユーザの使用する発音の傾向が記憶されていない場合、ユーザの発話特性に含まれるユーザの出身地などを参照して、応答情報の生成を行ってもよい。本実施形態に係る情報処理端末１０が有する上記の機能によれば、地域や個人による発音の傾向に応じた応答情報の出力をより柔軟に実現することが可能となる。

　［１．６．動作の流れ］
　次に、本実施形態に係る情報処理端末１０及び情報処理サーバ３０による動作の流れについて説明する。図１２～図１４は、本実施形態に係る情報処理端末１０及び情報処理サーバ３０の動作に係るシーケンス図である。

　図１２を参照すると、まず、情報処理端末１０の音声取得部１１２は、発話ユーザの発話情報を取得する（Ｓ１１０１）。続いて、サーバ通信部１７０は、情報処理サーバ３０にステップＳ１１０１で取得した発話情報を送信する（Ｓ１１０２）。

　次に、情報処理サーバ３０の音声認識部３１０は、受信した発話情報に基づいて、音声認識及び発話ユーザの識別を行う（Ｓ１１０３）。続いて、端末通信部３３０は、ステップＳ１１０３で認識した音声認識結果と発話ユーザの認識結果とを情報処理端末１０に送信する（Ｓ１１０４）。

　また、情報処理端末１０の撮像部１１４は、情報処理端末１０の周囲に存在するユーザの画像情報を取得する（Ｓ１１０５）。続いて、画像認識部１２０は、ステップＳ１１０５において取得された画像情報に基づいてユーザの識別を行う（Ｓ１１０６）。なお、ステップＳ１１０５及びＳ１１０６に係る処理は、ステップＳ１１０１～Ｓ１１０４に係る処理と同時に行われてもよい。

　続いて、情報処理端末１０の結果統合部１３０は、ステップＳ１１０４及びＳ１１０６において取得された認識結果を統合し、認識情報を生成する（Ｓ１１０７）。この際、上記の認識情報には、音声認識結果、発話ユーザの認識結果、及び当該発話ユーザとは異なる別のユーザの認識結果が含まれてよい。サーバ通信部１７０は、ステップＳ１１０７で生成された認識情報を情報処理サーバ３０に送信する（Ｓ１１０８）。

　続いて、図１３を参照して、引き続き、本実施形態に係る情報処理端末１０及び情報処理サーバ３０の動作の流れについて説明する。

　図１２におけるステップＳ１１０８の処理が完了すると、情報処理サーバ３０の意図解釈部３２２は、受信した認識情報に含まれる音声認識結果に基づいて発話意図及び発話パラメータの抽出を行う（Ｓ１２０１）。続いて、曖昧性解消部３２４は、認識情報に含まれる発話ユーザの認識結果と、ステップＳ１２０１において抽出された発話意図及び発話パラメータに基づいてユーザ情報ＤＢ４００ｂを検索し、処理内容の標準化を行う（Ｓ１２０２）。

　続いて、曖昧性解消部３２４は、発話ユーザの認識結果と、ステップＳ１２０１において抽出された発話パラメータと、に基づいて発話ユーザの発話傾向をユーザＤＢ４００ｂに記憶させてよい（Ｓ１２０３）。また、この際、ユーザ情報ＤＢ４００ｂは新たに登録されたユーザの発話傾向に係る情報をユーザ情報ＤＢ４００ａにコピーすることができる（Ｓ１２０４）。

　次に、情報処理サーバ３０の端末通信部３３０は、ステップＳ１２０２において標準化された処理内容を情報処理端末１０に送信する（Ｓ１２０５）。

　続いて、図１４を参照して、引き続き、本実施形態に係る情報処理端末１０及び情報処理サーバ３０の動作の流れについて説明する。

　図１３におけるステップＳ１２０５の処理が完了すると、情報処理端末１０のサービス実行部１４０は、受信した処理内容に基づいたサービスの実行を行う（Ｓ１３０１）。

　次に、情報処理端末１０の応答生成部１５０は、ステップＳ１１０７において生成された認識情報に基づいて、ユーザ認識結果の判定を行う（Ｓ１３０２）。この際、応答生成部１５０は、発話ユーザとは異なる別のユーザが認識されているか否か、を判定してよい。

　続いて、応答生成部１５０は、ステップＳ１３０２における判定結果に基づいて、ユーザ情報ＤＢ４００ａからユーザの発話傾向を取得する（Ｓ１３０３）。この際、ステップＳ１３０２において、別のユーザが認識されていると判定された場合、応答生成部１５０は、発話ユーザの発話傾向に加え、上記の別のユーザの発話傾向を取得してよい。

　続いて、応答生成部１５０は、ステップＳ１３０３において取得された発話傾向に基づいて、応答情報の生成を行う（Ｓ１３０４）。次に、情報処理端末１０の音声出力部１６２及び表示部１６４は、ステップＳ１３０４において生成された応答情報に基づいて、応答情報の出力を行い（ステップＳ１３０５）、処理を終了する。

　＜２．ハードウェア構成例＞
　次に、本開示に係る情報処理端末１０及び情報処理サーバ３０に共通するハードウェア構成例について説明する。図１５は、本開示に係る情報処理端末１０及び情報処理サーバ３０のハードウェア構成例を示すブロック図である。図１５を参照すると、情報処理端末１０及び情報処理サーバ３０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（ＣＰＵ８７１）
　ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

　（出力装置８７９）
　出力装置８７９には、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜３．まとめ＞
　以上説明したように、本開示に係る情報処理端末１０は、サービス実行結果とユーザの発話特性とに応じた応答情報を出力することができる。より具体的には、情報処理端末１０は、ユーザの発話傾向に応じた応答情報を出力することができる。また、本開示に係る情報処理サーバ３０は、認識情報とユーザの発話特性とに基づいて、サービス実行に係る処理内容を標準化することができる。また、本開示に係る情報処理サーバ３０は、抽出した発話パラメータを発話ユーザの発話傾向として記憶することができる。係る構成によれば、ユーザの発話に応じたより自然な応答を行うことが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　発話情報を収集する取得部と、
　前記発話情報に基づく認識情報を送信する送信部と、
　前記認識情報に基づき解析部により標準化された処理内容を受信する受信部と、
　前記処理内容に基づく処理結果とユーザの発話特性とに応じた応答情報を出力する出力部と、
　を備える、
情報処理装置。
（２）
　前記認識情報は、前記発話情報に基づく音声認識結果、及び発話ユーザの認識結果を含む、
前記（１）に記載の情報処理装置。
（３）
　前記発話特性は、ユーザの発話傾向を含み、
　前記出力部は、前記発話ユーザの前記発話傾向に応じた応答情報を出力する、
前記（２）に記載の情報処理装置。
（４）
　前記発話傾向は、ユーザが使用する呼称の傾向を含み、
　前記出力部は、前記呼称の傾向に応じた応答情報を出力する、
前記（３）に記載の情報処理装置。
（５）
　前記発話特性は、ユーザが使用する単語の傾向を含み、
　前記出力部は、前記単語の傾向に応じた応答情報を出力する、
前記（３）または（４）に記載の情報処理装置。
（６）
　前記発話特性は、ユーザが使用する語順の傾向を含み、
　前記出力部は、前記語順の傾向に応じた応答情報を出力する、
前記（３）～（５）のいずれかに記載の情報処理装置。
（７）
　前記発話特性は、ユーザの発音傾向を含み、
　前記出力部は、前記発音傾向に応じた応答情報を出力する、
前記（３）～（６）のいずれかに記載の情報処理装置。
（８）
　前記取得部は、ユーザの画像情報をさらに収集し、
　前記送信部は、前記発話情報と前記画像情報とに基づく認識情報を前記解析部に送信し、
　前記認識情報は、前記発話ユーザとは異なる別のユーザの認識結果をさらに含む、
　
前記（２）～（７）のいずれかに記載の情報処理装置。
（９）
　前記出力部は、前記発話ユーザの発話特性と前記別のユーザの発話特性とに応じた応答情報を出力する、
前記（８）に記載の情報処理装置。
（１０）
　前記出力部は、前記発話ユーザと前記別のユーザとに共通する発話特性を用いた応答情報を出力する、
前記（９）に記載の情報処理装置。
（１１）
　前記処理内容に基づく処理結果とユーザの発話特性とに応じた応答情報を生成する応答生成部、
　をさらに備える、
前記（１）～（１０）のいずれかに記載の情報処理装置。
（１２）
　処理内容に基づいた処理を実行するサービス実行部、
　をさらに備える、
前記（１）～（１１）のいずれかに記載の情報処理装置。
（１３）サーバ
　収集された発話情報に基づく認識情報を受信する受信部と、
　前記認識情報に基づいて処理内容の標準化を行う解析部と、
　前記処理内容を送信する送信部と、
　を備える、
情報処理装置。
（１４）
　前記解析部は、意図解釈部及び曖昧性解消部を含み、
　前記意図解釈部は、前記認識情報に含まれる音声認識結果に基づいて発話ユーザの発話意図及び発話パラメータを抽出し、
　前記曖昧性解消部は、前記認識情報に含まれる前記発話ユーザの認識結果と、記憶される前記発話ユーザの発話特性と、に基づいて前記発話パラメータを標準化した前記処理内容を生成する、
前記（１３）に記載の情報処理装置。
（１５）
　前記曖昧性解消部は、前記意図解釈部が抽出した発話パラメータと前記発話ユーザの認識結果とに基づいて、前記発話ユーザの発話傾向を記憶させる、
前記（１４）に記載の情報処理装置。
（１６）
　前記発話傾向は、呼称、単語、語順、または発音のうち少なくともいずれかを含む、
前記（１５）に記載の情報処理装置。
（１７）
　前記発話情報に基づいて音声認識及び前記発話ユーザの認識を行う音声認識部、
　をさらに備える、
前記（１４）～（１６）のいずれかに記載の情報処理装置。

　１０　　　情報処理端末
　１１０　　取得部
　１１２　　音声取得部
　１１４　　撮像部
　１２０　　画像認識部
　１３０　　結果統合部
　１４０　　サービス実行部
　１５０　　応答生成部
　１６０　　出力部
　１６２　　音声出力部
　１６４　　表示部
　１７０　　サーバ通信部
　２０　　　ネットワーク
　３０　　　情報処理サーバ
　３１０　　音声認識部
　３２０　　解析部
　３２２　　意図解釈部
　３２４　　曖昧性解消部
　３３０　　端末通信部
４００ａ、４００ｂ　ユーザ情報ＤＢ

Claims

　発話情報を収集する取得部と、
　前記発話情報に基づく認識情報を送信する送信部と、
　前記認識情報に基づき解析部により標準化された処理内容を受信する受信部と、
　前記処理内容に基づく処理結果とユーザの発話特性とに応じた応答情報を出力する出力部と、
　を備える、
情報処理装置。
　前記認識情報は、前記発話情報に基づく音声認識結果、及び発話ユーザの認識結果を含む、
請求項１に記載の情報処理装置。
　前記発話特性は、ユーザの発話傾向を含み、
　前記出力部は、前記発話ユーザの前記発話傾向に応じた応答情報を出力する、
請求項２に記載の情報処理装置。
　前記発話傾向は、ユーザが使用する呼称の傾向を含み、
　前記出力部は、前記呼称の傾向に応じた応答情報を出力する、
請求項３に記載の情報処理装置。
　前記発話特性は、ユーザが使用する単語の傾向を含み、
　前記出力部は、前記単語の傾向に応じた応答情報を出力する、
請求項３に記載の情報処理装置。
　前記発話特性は、ユーザが使用する語順の傾向を含み、
　前記出力部は、前記語順の傾向に応じた応答情報を出力する、
請求項３に記載の情報処理装置。
　前記発話特性は、ユーザの発音傾向を含み、
　前記出力部は、前記発音傾向に応じた応答情報を出力する、
請求項３に記載の情報処理装置。
　前記取得部は、ユーザの画像情報をさらに収集し、
　前記送信部は、前記発話情報と前記画像情報とに基づく認識情報を前記解析部に送信し、
　前記認識情報は、前記発話ユーザとは異なる別のユーザの認識結果をさらに含む、
　
請求項２に記載の情報処理装置。
　前記出力部は、前記発話ユーザの発話特性と前記別のユーザの発話特性とに応じた応答情報を出力する、
請求項８に記載の情報処理装置。
　前記出力部は、前記発話ユーザと前記別のユーザとに共通する発話特性を用いた応答情報を出力する、
請求項９に記載の情報処理装置。
　前記処理内容に基づく処理結果とユーザの発話特性とに応じた応答情報を生成する応答生成部、
　をさらに備える、
請求項１に記載の情報処理装置。
　処理内容に基づいた処理を実行するサービス実行部、
　をさらに備える、
請求項１に記載の情報処理装置。
　収集された発話情報に基づく認識情報を受信する受信部と、
　前記認識情報に基づいて処理内容の標準化を行う解析部と、
　前記処理内容を送信する送信部と、
　を備える、
情報処理装置。
　前記解析部は、意図解釈部及び曖昧性解消部を含み、
　前記意図解釈部は、前記認識情報に含まれる音声認識結果に基づいて発話ユーザの発話意図及び発話パラメータを抽出し、
　前記曖昧性解消部は、前記認識情報に含まれる前記発話ユーザの認識結果と、記憶される前記発話ユーザの発話特性と、に基づいて前記発話パラメータを標準化した前記処理内容を生成する、
請求項１３に記載の情報処理装置。
　前記曖昧性解消部は、前記意図解釈部が抽出した発話パラメータと前記発話ユーザの認識結果とに基づいて、前記発話ユーザの発話傾向を記憶させる、
請求項１４に記載の情報処理装置。
　前記発話傾向は、呼称、単語、語順、または発音のうち少なくともいずれかを含む、
請求項１５に記載の情報処理装置。
　前記発話情報に基づいて音声認識及び前記発話ユーザの認識を行う音声認識部、
　をさらに備える、
請求項１４に記載の情報処理装置。