WO2018087967A1

WO2018087967A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2018087967A1
Application number: PCT/JP2017/028471
Authority: WO
Inventors: 井原　圭吾
Original assignee: ソニー株式会社
Priority date: 2016-11-08
Filing date: 2017-08-04
Publication date: 2018-05-17
Also published as: JP7092035B2; EP3540677A4; EP3540677A1; KR20190084033A; US11289099B2; US20190214023A1; CN109906466B; CN109906466A; JPWO2018087967A1

Abstract

【課題】ユーザの発話音声を収音し、所定期間内のユーザの発話回数に基づいて特定ユーザを認識することが可能な情報処理装置および情報処理方法を提供する。【解決手段】離散的に配される複数のマイクロホンにより収音された音声に関する音声情報を受信可能な通信部と、前記通信部を介して受信された、前記複数のマイクロホンのうちの特定のマイクロホンにより収音された音声に関する音声情報に基づき識別されたユーザを、少なくとも、一定の期間に規定の回数以上の発話を行った特定ユーザであると判別し、前記通信部を介して、前記特定のマイクロホンに対応するスピーカに対して、前記特定ユーザに送信すべき音声情報を送信するように制御する制御部と、を備える、情報処理装置。

Description

情報処理装置および情報処理方法

　本開示は、情報処理装置および情報処理方法に関する。

　従来、スマートフォン等で起動するアプリケーションにより測位技術を用いてユーザの来店頻度を計測し、来店ポイントやお得情報等をユーザに提供するサービスが存在している。

　ここで、顧客の識別技術に関し、例えば下記特許文献１では、カラオケの歌声を解析して生成した声特徴データに基づいて、顧客データベースから予め登録された個人情報を抽出して顧客を特定し、割り当てられたメッセージを出力する通信カラオケシステムが開示されている。

　また、下記特許文献２では、ＩＤカードから顧客ＩＤを読み取り、対応する顧客別レコードの内容の解析結果に基づいて顧客向けのメッセージを出力する通信カラオケシステムが開示されている。

　また、下記特許文献３では、ポイントカード等の顧客記録媒体から顧客情報を読み取り、顧客の来店回数と遊技場の営業日数から顧客の来店率を算出し、常連客および非常連客を正確に判別して遊技場の営業戦略に役立てる顧客管理装置が開示されている。

特開２０１１－４３７１５号公報特開２００４－４６２３３号公報特開２００１－３０００９９号公報

　しかしながら、上記いずれの技術においても、予め顧客情報の登録を行う必要があるが、個人情報の登録はユーザにとって抵抗のあるものである。また、サービスを受けるためには、来店時にＩＤカードやポイントカードを提示しなければならず、手間であった。

　また、スマートフォンおよびアプリケーションの利用が必要になるシステムでは、機器の利用に慣れていない高齢者は利用できないという問題があった。

　そこで、本開示では、ユーザの発話音声を収音し、所定期間内のユーザの発話回数に基づいて特定ユーザを認識することが可能な情報処理装置および情報処理方法を提案する。

　本開示によれば、離散的に配される複数のマイクロホンにより収音された音声に関する音声情報を受信可能な通信部と、前記通信部を介して受信された、前記複数のマイクロホンのうちの特定のマイクロホンにより収音された音声に関する音声情報に基づき識別されたユーザを、少なくとも、一定の期間に規定の回数以上の発話を行った特定ユーザであると判別し、前記通信部を介して、前記特定のマイクロホンに対応するスピーカに対して、前記特定ユーザに送信すべき音声情報を送信するように制御する制御部と、を備える、情報処理装置を提案する。

　本開示によれば、プロセッサが、離散的に配される複数のマイクロホンにより収音された音声に関する音声情報を受信可能な通信部を介して受信された、前記複数のマイクロホンのうちの特定のマイクロホンにより収音された音声に関する音声情報に基づき識別されたユーザを、少なくとも、一定の期間に規定の回数以上の発話を行った特定ユーザであると判別することと、前記通信部を介して、前記特定のマイクロホンに対応するスピーカに対して、前記特定ユーザに送信すべき音声情報を送信するように制御することと、を含む、情報処理方法を提案する。

　以上説明したように本開示によれば、ユーザの発話音声を収音し、所定期間内のユーザの発話回数に基づいて特定ユーザを認識することが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態による情報処理システムの全体構成の一例を示す図である。本実施形態による端末装置の構成の一例を示す図である。本実施形態によるサーバの構成の一例を示す図である。本実施形態によるアプリケーションサービス管理テーブルの一例を示す図である。本実施形態によるアプリケーションサービスキーワードリストの一例を示す図である。本実施形態によるアプリケーションサービス端末リストの一例を示す図である。本実施形態によるユーザ管理テーブルの一例を示す図である。本実施形態によるユーザキーワード履歴の一例を示す図である。本実施形態によるユーザ特定履歴の一例を示す図である。本実施形態によるアプリケーションサービスの登録処理を示すシーケンス図である。本実施形態による情報処理システムの応答処理を示すシーケンス図である。本実施形態による情報処理システムの応答処理を示すシーケンス図である。第１の実施例の概要を説明する図である。第１の実施例によるプレミアムユーザの判定処理を示すフローチャートである。第１の実施例による応答音声データの生成処理を示すフローチャートである。第２の実施例の概要を説明する図である。第２の実施例によるプレミアムユーザの判定処理を示すフローチャートである。第２の実施例による応答音声データの生成処理を示すフローチャートである。第２の実施例の応用例について説明する図である。第３の実施例の概要を説明する図である。第３の実施例によるプレミアムユーザの判定処理を示すフローチャートである。第３の実施例による応答音声データの生成処理を示すフローチャートである。第３の実施例の応用例１の概要について説明する図である。第３の実施例の応用例１によるプレミアムユーザの判定処理を示すフローチャートである。第３の実施例の応用例１による応答音声データの生成処理を示すフローチャートである。第３の実施例の応用例１によるプレイ履歴の管理処理を示すシーケンス図である。第３の実施例の応用例２の概要について説明する図である。第３の実施例の応用例２によるプレミアムユーザの判定処理を示すフローチャートである。第３の実施例の応用例２による応答音声データの生成処理を示すフローチャートである。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、説明は以下の順序で行うものとする。
　１．本開示の一実施形態による情報処理システムの概要
　２．構成
　　２－１．端末装置１の構成
　　２－２．サーバ２の構成
　３．動作処理
　　３－１．登録処理
　　３－２．応答処理
　４．実施例
　　４－１．第１の実施例
　　４－２．第２の実施例
　　４－３．第３の実施例
　　（４－３－１．応用例１）
　　（４－３－２．応用例２）
　５．まとめ

　＜＜１．本開示の一実施形態による情報処理システムの概要＞＞
　図１は、本開示の一実施形態による情報処理システムの概要について説明する図である。図１に示すように、本実施形態による情報処理システムは、音声の入力および出力機能を有する端末装置１によりユーザの発話音声を収音し、所定の条件を満たす特定ユーザであると判定されたユーザに対して、所定の応答音声を出力する。

　具体的には、例えば店舗内で「いつものあるかしら…」と呟いたユーザの音声を、店舗内に設置された端末装置１の音声入力部１２（マイクロホン）により収音し、当該ユーザの音声情報の声紋を解析してユーザの識別を行い、当該ユーザが常連客であるか否か（例えば、声紋解析に基づいて識別された当該ユーザが、当該店舗で所定期間内に所定の日数で音声認識されたか否か）の判定が行われる。そして、当該ユーザが判定条件を満たす場合、常連客であると判断し、常連客向けの特別な応答（例えば「お得様限定のステーキ肉の特売」等）を図１に示すように端末装置１の音声出力部１３（スピーカ）から音声出力する。

　このように、本実施形態では、発話音声の解析により固体識別を行うため、ユーザの氏名や住所等の個人情報を事前に登録する必要がなく、また、ＩＤカードやポイントカード等の提示が無くとも、常連客の判定を行うことが可能となる。また、ＩＤカードやポイントカード等は、通常、店舗での購入行為時に作成されるが、本実施形態のように音声に基づいて固体識別を行う場合、必ずしも事前の購入行為が必要とはならない。また、ユーザの発話音声は、店員や他の客との会話、挨拶、独り言、呟き、または店舗の音声エージェントとの会話等の際に収音され得る。また、発話音声に基づく個体識別は、カメラで顔を撮像される顔認識に比べて顧客（ユーザ）の心理的な抵抗が低いという効果も奏し得る。

　続いて、このような本実施形態による情報処理システムの全体構成について図２を参照して説明する。図２は、本実施形態による情報処理システムの全体構成の一例を示す図である。

　図２に示すように、本実施形態による情報処理システムは、様々な場所に配された複数の端末装置１（ここでは一例として３つの端末装置１ａ～１ｃを図示している）と、サーバ２とを含む。端末装置１は、商店街やデパート、飲食店、アパレルショップ、ゲームセンター等、街中の様々な場所に多数設置されていると想定する。また、端末装置１の形態は特に限定せず、例えばぬいぐるみやゲーム機、店頭のロボット、ご当地キャラの着ぐるみ等の中に設けられていてもよい。

　サーバ２は、複数の端末装置１とネットワーク３を介して接続し、互いにデータの送受信を行う。また、サーバ２は、複数の端末装置１から受信した発話音声情報に対して、声紋解析を行い、ユーザの特定（個体識別）を行い、さらに所定の条件を満たすプレミアムユーザであるか否かの判定を行う。また、プレミアムユーザであると判定した場合、プレミアムユーザ向けの応答音声データを取得し、端末装置１へ送信する。プレミアムユーザ向けの応答音声データは、対応する所定のアプリケーションサービスサーバ４（４ａ～４ｃ）から取得される。アプリケーションサービスサーバ４は、各端末装置１で適用されるアプリケーションサービスに対応するサーバであって、当該サービスにおけるプレミアムユーザの判定条件や、本サービスを適用する端末装置１のＩＤ（端末ＩＤ）の情報を保有する。また、アプリケーションサービスサーバ４は、サーバ２からの要求に応じて、プレミアムユーザ向けの応答音声データ（お得意様情報等）を生成し、サーバ２へ送信する。

　以上、本開示の一実施形態による情報処理システムについて説明した。続いて、本実施形態による情報処理システムに含まれる各装置の具体的な構成について図面を参照して説明する。

　＜＜２．構成＞＞
　　＜２－１．端末装置１の構成＞
　図３は、本実施形態による端末装置１の構成の一例を示すブロック図である。図３に示すように、端末装置１は、制御部１０、通信部１１、音声入力部１２、音声出力部１３、および記憶部１４を有する。

　制御部１０は、演算処理装置および制御装置として機能し、各種プログラムに従って端末装置１内の動作全般を制御する。制御部１０は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部１０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　また、本実施形態による制御部１０は、音声入力部１２により収音した音声情報（具体的には、ユーザの発話音声情報）を継続的に通信部１１からサーバ２へ送信するよう制御する。これにより、例えば店舗内で発話したユーザの音声が自動的にサーバ２へ送信され、常連客、お得意様等のプレミアムユーザか否かの判定が行われる。サーバ２へ送信される音声情報は、生の音声データであってもよいし、符号化、特徴量抽出等の加工した音声データであってもよい。また、制御部１０は、サーバ２から受信した音声情報（具体的には、プレミアムユーザ向けの応答音声データ）を音声出力部１３から再生するよう制御する。これにより、プレミアムユーザ向けの情報を提示することが可能となる。

　また、制御部１０は、ユーザの発話に対して自動的に応答する音声エージェントの機能を有していてもよい。ユーザ発話に対する応答パターンは、記憶部１４に記憶されていてもよいし、サーバ２から取得してもよい。

　音声入力部１２は、マイクロホンと、そのマイクロホンで得られた音声信号を増幅処理するマイクアンプ部と、音声信号にデジタル変換するＡ／Ｄ変換器により実現され、音声信号を制御部１０に出力する。

　音声出力部１３は、音声信号を再生するスピーカと、スピーカに対するアンプ回路を有する。

　通信部１１は、有線または無線によりネットワーク３と接続し、ネットワーク上のサーバ２とデータの送受信を行う。通信部１１は、例えば有線／無線ＬＡＮ（Local　Area　Network）、またはＷｉ－Ｆｉ（登録商標）、携帯通信網（ＬＴＥ（Long　Term　Evolution）、３Ｇ（第３世代の移動体通信方式））等によりネットワーク３と通信接続する。

　記憶部１４は、制御部１０の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。

　以上、本実施形態による端末装置１の構成について具体的に説明した。なお端末装置１の構成は、図３に示す例に限定されない。例えば、音声入力部１２または音声出力部１３の少なくともいずれかが、端末装置１とは別体であってもよい。

　　＜２－２．サーバ２の構成＞
　図４は、本実施形態によるサーバ２の構成の一例を示すブロック図である。図４に示すように、サーバ２（情報処理装置）は、制御部２０、ネットワーク通信部２１、アプリケーションサービスサーバＩ／Ｆ（インタフェース）２２、および記憶部２３を有する。

　（制御部２０）
　制御部２０は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ２内の動作全般を制御する。制御部２０は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部２０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　また、本実施形態による制御部２０は、図４に示すように、アプリケーションサービス管理部２０ａ、ユーザ情報管理部２０ｂ、声紋解析部２０ｃ、音声認識部２０ｄ、ユーザ特定部２０ｅ、プレミアムユーザ判定部２０ｆ、および応答音声データ取得部２０ｇとして機能する。

　アプリケーションサービス管理部２０ａは、記憶部２３に記憶されているアプリケーションサービス管理テーブル、アプリケーションサービスキーワードリスト、およびアプリケーションサービス端末リストによりアプリケーションサービスに関する情報の管理（例えばデータの読み出し、書き込み等）を行う。アプリケーションサービスに関する情報は、アプリケーションサービスサーバＩ／Ｆ２２を介して各アプリケーションサービスサーバ４から取得される。

　ここで、図５に、本実施形態によるアプリケーションサービス管理テーブルの一例を示す。図５に示すように、アプリケーションサービス管理テーブルは、アプリケーションサービスＩＤに、アプリケーション名、およびプレミアムユーザ判定条件を対応付けて格納する。アプリケーションサービスＩＤは、アプリケーションサービスの識別情報である。アプリケーション名は、アプリケーションサービスの名称である。プレミアムユーザ判定条件は、当該アプリケーションサービスが対象とするプレミアムユーザの判定条件であって、例えば所定期間内における来店回数（発声日数）や、所定キーワードの発声回数等が挙げられる。また、プレミアムユーザ判定条件は複数であってもよい。例えば図５に示す例では、アプリケーションサービスＩＤ：app0001において、「ＡＢＣ商店街お得意様キャンペーン」として、ビーフジャーキーを１カ月に１０回以上注文した人を、ビーフジャーキーの特売を行う対象のプレミアムユーザとして判定し、ステーキ肉を１カ月に５回以上注文した人を、ステーキ肉の特売を行う対象のプレミアムユーザとして判定することが可能である。

　また、図６に、アプリケーションサービスキーワードリストの一例を示す。図６に示すように、アプリケーションサービスキーワードリストは、アプリケーションサービスＩＤに紐付けられたキーワードのリストである。具体的には、プレミアムユーザ判定で用いられるキーワードのリストとなる。なお各アプリケーションサービスＩＤに紐付けられるキーワードは１つに限定されず、複数であってもよい。また、あるキーワードの下位概念のキーワードがさらに紐付けられていてもよい。

　また、図７に、アプリケーションサービス端末リストの一例を示す。アプリケーションサービス端末リストは、アプリケーションサービスＩＤに紐付けられる端末装置のリストである。例えば、図７に示す例では、アプリケーションサービスＩＤ：app0001のアプリケーションサービスが適用される端末装置のＩＤ：dev0001、dev0002…が登録されている。

　ユーザ情報管理部２０ｂは、記憶部２３に記憶されているユーザ管理テーブルによりユーザに関する情報の管理を行う。ユーザに関する情報とは、システム側でユーザ毎に割り振ったユーザＩＤおよび声紋解析結果（声紋データ）や、ユーザが発話したキーワード履歴、ユーザを特定した履歴を含む。以下、図８～図１０を参照してユーザ情報の具体例について説明する。

　図８は、本実施形態によるユーザ管理テーブルの一例を示す図である。図８に示すように、ユーザ管理テーブルは、ユーザ毎に割り振られたユーザＩＤ、その声紋データ、および、アプリケーションサービス毎に自由に利用できる「アプリケーションサービスデータ」の領域が含まれる。アプリケーションサービスデータを各ユーザＩＤに対応付けて記憶することで、各アプリケーションが独自に提供する機能との連携が実現され得る。

　図９は、ユーザキーワード履歴の一例を示す図である。図９に示すように、ユーザキーワード履歴では、ユーザＩＤに紐付けて、ユーザが所定のキーワードを発した日時（登録日時）や、対応するアプリケーションサービスＩＤが蓄積される。これにより、ユーザが所定期間内に所定のキーワードを発したか否かを判断することが可能となる。

　図１０は、ユーザ特定履歴の一例を示す図である。図１０に示すように、ユーザ特定履歴として、ユーザＩＤに紐付けて、当該ユーザを特定した端末装置のＩＤと特定日時（登録日時）が蓄積される。これにより、例えば商店街やショッピングセンターへのユーザの来訪回数を判断することが可能となる。

　声紋解析部２０ｃは、ネットワーク通信部２１により端末装置１から受信したユーザ発話の音声情報に対して声紋解析を行い、声紋データ（すなわち声紋解析結果）を取得する。本実施形態では、声紋解析のアルゴリズムは特に限定しない。声紋データは人によって異なるものであり、個人識別を行うことが可能となる。

　音声認識部２０ｄは、ユーザ発話の音声情報をテキスト化して形態素解析等を行い、キーワードの抽出、意味理解、属性評価等を行う。属性評価とは、発話者の性別、年齢等の推定である。

　ユーザ特定部２０ｅは、声紋解析部２０ｃによる声紋解析結果に基づいて、ユーザの特定を行う。具体的には、ユーザ特定部２０ｅは、記憶部２３に記憶されているユーザ管理テーブルを用いて、各ユーザＩＤに紐付けられた声紋データと声紋解析結果を比較し、どのユーザの声であるかを特定する。

　プレミアムユーザ判定部２０ｆは、記憶部２３に記憶されているプレミアムユーザ判定条件を参照し、ユーザ特定部２０ｅで特定されたユーザがプレミアムユーザであるか否かを判定する。例えばプレミアムユーザ判定部２０ｆは、記憶部２３に記憶されているユーザ情報（ユーザキーワード履歴やユーザ特定履歴）を参照し、少なくとも一定の期間に規定の回数以上の発話を行ったユーザをプレミアムユーザ（特定ユーザの一例）であると判別する。また、プレミアムユーザ判定条件は、図５を参照して説明したように、アプリケーションサービス単位で設定されている。このため、プレミアムユーザ判定部２０ｆは、ユーザ発話音声を収音した端末装置１に適用されるアプリケーションサービスの判定条件を用いてプレミアムユーザの判定を行う。

　応答音声データ取得部２０ｇは、ユーザ発話に対する応答音声データを取得する。具体的には、例えば応答音声データ取得部２０ｇは、アプリケーションサービスサーバ４に、当該ユーザが満たした判定条件および当該ユーザの発話音声を収音した端末装置ＩＤ等を送信し、プレミアムユーザ向けの応答音声データを要求し、取得する。応答音声データ取得部２０ｇが取得した応答音声データは、ネットワーク通信部２１を介して端末装置１（プレミアムユーザの発話音声を収音したマイクロホンに対応するスピーカを備える装置）へ送信される。

　（ネットワーク通信部２１）
　ネットワーク通信部２１は、有線または無線によりネットワーク３と接続し、ネットワーク３を介して各端末装置１とデータの送受信を行う。ネットワーク通信部２１は、例えば有線／無線ＬＡＮ（Local　Area　Network）、またはＷｉ－Ｆｉ（Wireless　Fidelity、登録商標）等によりネットワーク３と通信接続する。

　（アプリケーションサービスサーバＩ／Ｆ２２）
　アプリケーションサービスサーバＩ／Ｆ２２は、アプリケーションサービスサーバ４とデータの送受信を行う。アプリケーションサービスサーバＩ／Ｆ２２との通信は、専用回線を介してでもよいし、ネットワーク３を介してであってもよい。

　（記憶部２３）
　記憶部２３は、制御部２０の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ、および適宜変化するパラメータ等を一時記憶するＲＡＭにより実現される。例えば本実施形態による記憶部２３は、上述したアプリケーションサービス管理テーブル、アプリケーションサービスキーワードリスト、アプリケーションサービス端末リスト、ユーザ管理テーブル、ユーザキーワード履歴、およびユーザ特定履歴を記憶する。

　以上、本実施形態によるサーバ２の構成について具体的に説明した。

　＜＜３．動作処理＞＞
　続いて、本実施形態による情報処理システムの動作処理について図面を用いて具体的に説明する。

　　＜３－１．登録処理＞
　まず、図１１を参照してアプリケーションサービスの登録処理について説明する。図１１は、本実施形態によるアプリケーションサービスの登録処理を示すシーケンス図である。

　図１１に示すように、まず、アプリケーションサービスサーバ４は、自身に割り振られたアプリケーションサービスＩＤ、および名称情報をサーバ２に送信する（ステップＳ１０３）。

　次に、サーバ２のアプリケーションサービス管理部２０ａは、受信したアプリケーションサービスＩＤおよび名称情報を、記憶部２３に記憶されているアプリケーションサービス管理テーブルに登録する（ステップＳ１０６）。

　次いで、アプリケーションサービスサーバ４は、自身が提供するアプリケーションサービスを適用する端末装置のＩＤをサーバ２へ送信する（ステップＳ１０９）。

　次に、サーバ２のアプリケーションサービス管理部２０ａは、受信した端末装置のＩＤを、記憶部２３に記憶されているアプリケーションサービス端末リストに、アプリケーションサービスＩＤと対応付けて登録する（ステップＳ１１２）。

　次いで、アプリケーションサービスサーバ４が、音声認識の対象とするキーワードのリストをサーバ２へ送信する（ステップＳ１１５）。

　次に、サーバ２のアプリケーションサービス管理部２０ａは、受信したキーワードリストに含まれる各キーワードにユニークなＩＤを割振り、当該ＩＤとキーワードを、アプリケーションサービスＩＤに紐付けて、記憶部２３に記憶されているアプリケーションサービスキーワードリストに登録する（ステップＳ１１８）。

　次いで、アプリケーションサービスサーバ４は、プレミアムユーザの判定条件をサーバ２へ送信する（ステップＳ１２１）。

　次に、サーバ２のアプリケーションサービス管理部２０ａは、受信した判定条件をアプリケーションサービスＩＤに紐付けて、記憶部２３に記憶されているアプリケーションサービス管理テーブルに登録する（ステップＳ１２４）。

　以上説明したアプリケーションサービスの登録処理は、アプリケーションサービス毎にサーバ２との間で適宜行われる。

　　＜３－２．応答処理＞
　続いて、プレミアムユーザを判定して所定のアプリケーションサービスに基づく応答を行う動作処理について図１２および図１３を参照して説明する。図１２および図１３は、本実施形態による情報処理システムの応答処理を示すシーケンス図である。

　図１２に示すように、まず、端末装置１は、音声入力部１２によりユーザ発話音声を収音する（ステップＳ２０３）。端末装置１は、例えば店舗内や店舗の入口に設けられ、ユーザの会話や呟き等を継続的に収音する。

　次に、端末装置１は、端末装置１のＩＤと、収音した音声情報をサーバ２へ送信する（ステップＳ２０６）。

　次いで、サーバ２は、受信した音声情報を声紋解析部２０ｃにより声紋解析する（ステップＳ２０９）。

　次に、サーバ２は、ユーザ特定部２０ｅにより、声紋解析の結果をユーザ管理テーブルに照らし合わせる（ステップＳ２１２）。ユーザ管理テーブルには、図８を参照して説明したように、ユーザＩＤに紐付けられた声紋データが格納されているため、声紋解析結果を声紋データと比較することで、ユーザの特定が可能となる。

　続いて、ユーザ管理テーブルに該当するユーザがいなかった場合（ステップＳ２１５／Ｎｏ）、ユーザ情報管理部２０ｂにより、声紋解析の結果を新規ユーザの声紋データとしてユーザ管理テーブルに登録する（ステップＳ２１８）。

　次に、ユーザ情報管理部２０ｂは、ユーザを認識した日時と、受信した端末装置のＩＤをユーザ特定履歴に記録する（ステップＳ２２１）。「ユーザを認識した」とは、上記ステップＳ２１５において該当するユーザがいた場合、若しくは上記ステップＳ２１８において新規ユーザを登録した場合である。

　次いで、サーバ２は、音声認識部２０ｄにより、端末装置１から受信したユーザ発話の音声情報を音声認識し、発話内容からキーワードを抽出する（ステップＳ２２４）。具体的には、音声認識部２０ｄは、音声情報のテキスト化および形態素解析を行い、発話テキストからキーワードの抽出（ここでは、広く単語の抽出）を行う。

　次に、図１３に示すように、サーバ２は、アプリケーションサービス管理部２０ａにより、受信した端末装置１のＩＤを、アプリケーションサービス端末リスト（図７参照）に照らし合わせ、当該端末装置１に適用されるアプリケーションサービスＩＤを抽出する（ステップＳ２２７）。

　次いで、音声認識部２０ｄは、抽出されたアプリケーションサービスＩＤに登録されたキーワードリスト（図６参照）を取得する（ステップＳ２３０）。

　次に、音声認識部２０ｄは、音声認識によりユーザ発話の音声情報から抽出したキーワードが上記キーワードリストに含まれているか否かを判断する（ステップＳ２３３）。

　次いで、キーワードリストに含まれている場合（ステップＳ２３３／Ｙｅｓ）、ユーザ情報管理部２０ｂは、当該キーワードをユーザキーワード履歴（図９参照）に記録する（ステップＳ２３６）。

　次に、プレミアムユーザ判定部２０ｆは、プレミアムユーザ判定処理を行う（ステップＳ２３９）。具体的には、プレミアムユーザ判定部２０ｆは、アプリケーションサービス管理テーブルに設定されているプレミアムユーザ判定条件に従って、発話したユーザがプレミアムユーザか否かを判定する。なおプレミアムユーザ判定条件は、適用するアプリケーションサービスによって異なる。プレミアムユーザ判定条件の具体例については、複数の実施例を用いて後述する。

　次いで、プレミアムユーザ判定部２０ｆによりプレミアムユーザではないと判定された場合（ステップＳ２４２／Ｎｏ）、サーバ２は、プレミアムユーザではないことを端末装置１に通知する（ステップＳ２４５）。

　そして、端末装置１は、ユーザがプレミアムユーザではないとサーバ２により判定された場合、当該ユーザへの応答は行わない（ステップＳ２４８）。なお、端末装置１は、アプリケーションサービスに基づくプレミアムユーザ向けの応答は行わなくとも、「いらっしゃいませ」等、音声エージェントによる一般向けの自動応答を行ってもよい。

　一方、プレミアムユーザであると判定された場合（ステップＳ２４２／Ｙｅｓ）、サーバ２は、適用されるアプリケーションサービスＩＤで示されるアプリケーションサービスサーバ４に、合致した判定条件等（例えば、合致した判定条件、プレミアムユーザのユーザＩＤ、および端末装置ＩＤを含む）を送信する（ステップＳ２５１）。

　次に、アプリケーションサービスサーバ４は、サーバ２から受信した情報に応じて、プレミアムユーザ向けの応答音声データを生成する（ステップＳ２５４）。プレミアムユーザ向けの応答音声データは、予めアプリケーションサービスサーバ４に保有されていてもよいし、所定のアルゴリズムにより生成してもよい。なお生成される応答音声データの具体例については、複数の実施例を用いて後述する。

　次いで、アプリケーションサービスサーバ４は、生成したプレミアムユーザ向けの応答音声データをサーバ２に送信する（ステップＳ２５７）。

　次に、サーバ２は、アプリケーションサービスサーバ４から受信した応答音声データを端末装置１に送信する（ステップＳ２６０）。

　そして、端末装置１は、サーバ２から受信した応答音声データを、音声出力部１３から音声出力する（ステップＳ２６３）。これにより、本実施形態では、プレミアムユーザであると判定されたユーザに対して、対応するアプリケーションサービスに基づく特別な応答（例えば常連客向けのキャンペーン情報の提供等）を行うことが可能となる。

　以上、本実施形態による応答処理について説明した。

　続いて、上記プレミアムユーザの判定処理および応答音声データの生成処理の具体例について、複数の実施例を用いて説明する。

　＜＜４．実施例＞＞
　　＜４－１．第１の実施例＞
　第１の実施例では、声紋解析により特定したユーザが、店舗において過去に高い頻度で何らかの発声を行っていた（すなわち、高い頻度で来店した）場合に、プレミアムユーザであると判定する。なお、本実施例で用いるアプリケーションサービスは、図５に示すアプリケーションサービス管理テーブルに登録された「アプリケーションサービスＩＤ：app0002、アプリケーション名：ＤＤモール来店感謝イベント、判定条件：１週間内に５日来店（何かを発声）した場合」に相当する。

　図１４は、本実施例の概要を説明する図である。本実施例では、図１４の上段に示すように、例えば「ＤＤモール」に多数設置されている端末装置１－１ａ～１－１ｃ（単数であってもよい）の近くで、訪れたユーザが所定期間内（例えば１週間内）に所定日数（例えば５日）以上何らかの発声をした場合、当該ユーザが高い頻度でＤＤモールに来店していると推定できるため、プレミアムユーザであると判定する。

　そして、図１４の下段に示すように、来店頻度の高さに感謝と親しみを込めて、「毎度ご利用ありがとうございます」といった特別な応答音声を端末装置１－１ｄから出力する。併せてキャンペーン情報を提供してもよい。これによりユーザも店側からの感謝や親しみを感じることができる。なお、端末装置１－１ａ～１－１ｄは、いずれもＤＤモールに設置されている端末装置群であって、少なくともいずれかの端末装置１－１において発声が認識されると、ユーザ特定が行われる。ただし本実施例はこれに限定されず、ＤＤモールに設置されている端末装置１－１が１つであってもよい。

　（動作処理）
　続いて、第１の実施例による動作処理について説明する。本実施例による基本的な動作処理は、主に図１２および図１３を参照して説明した動作処理と同様であるため、ここでは本実施例特有の処理となるプレミアムユーザ判定処理（図１３に示すステップＳ２３９）および応答音声データ生成処理（図１３に示すステップＳ２５４）について図１５および図１６を参照して順次説明する。

　・プレミアムユーザ判定処理
　図１５は、第１の実施例によるプレミアムユーザの判定処理を示すフローチャートである。図１５に示すように、まず、サーバ２のプレミアムユーザ判定部２０ｆは、記憶部２３に記憶されているユーザ特定履歴（図１０参照）およびアプリケーションサービス端末リストを参照し、適用するアプリケーションサービスＩＤに属している端末装置に対するユーザの発声頻度を取得する（ステップＳ３０３）。具体的には、例えばプレミアムユーザ判定部２０ｆは、端末装置１－１ｄに適用されるアプリケーションサービスＩＤと同じアプリケーションサービスＩＤに属している端末装置１－１ａ～１－１ｃをアプリケーションサービス端末リストから抽出する。次いで、プレミアムユーザ判定部２０ｆは、ユーザ特定履歴と照らし合わせ、端末装置１－１ａ～１－１ｄでユーザが特定された（すなわち声紋解析によりユーザの発話が認識された）日時（発声頻度）を取得する。

　次に、プレミアムユーザ判定部２０ｆは、アプリケーションサービス管理テーブルに登録されているアプリケーションサービスID：app0002のプレミアムユーザ判定条件に従って、過去１週間に５日以上、ユーザが何らかの発声をしたか否かを判断する（ステップＳ３０６）。

　次いで、上記判定条件を満たす場合（ステップＳ３０６／Ｙｅｓ）、プレミアムユーザ判定部２０ｆは、当該ユーザがプレミアムユーザであると判定する（ステップＳ３０９）。

　一方、上記判定条件を満たさない場合（ステップＳ３０９／Ｎｏ）、プレミアムユーザ判定部２０ｆは、当該ユーザはプレミアムユーザではないと判定する（ステップＳ３１２）。

　以上、第１の実施例によるプレミアムユーザ判定処理について具体的に説明した。本実施例では、特にキーワードは特定せずに、何らかの発声を所定期間内に所定日数以上行ったユーザ（すなわち、所定期間内に所定日数以上来店したと推定されるユーザ）をプレミアムユーザであると判定している。

　・応答音声データ生成処理
　図１６は、第１の実施例による応答音声データの生成処理を示すフローチャートである。図１６に示すように、アプリケーションサービスサーバ４は、サーバ２から受信した、合致した判定条件に基づいて、例えば「毎度ご利用ありがとうございます」といった所定の応答音声データを生成する（ステップＳ３２０）。アプリケーションサービスサーバ４は、例えば判定条件に応じた応答音声データ若しくは応答音声データの生成アルゴリズムを保有し、サーバ２から受信した「合致した判定条件」に基づいて応答音声データを生成することが可能である。

　以上、第１の実施例による応答音声データの生成処理について具体的に説明した。アプリケーションサービスサーバ４により生成された応答音声データは、図１３のステップＳ２５７～ステップＳ２６３に示すように、アプリケーションサービスサーバ４からサーバ２を経由して端末装置１－１へ送信され、端末装置１－１から音声出力される。

　　＜４－２．第２の実施例＞
　第２の実施例では、声紋解析により特定したユーザが、店舗で過去に高い頻度で所定のキーワードを発声していた場合に、プレミアムユーザであると判定する。なお、本実施例で用いるアプリケーションサービスは、図５に示すアプリケーションサービス管理テーブルに登録された「アプリケーションサービスＩＤ：app0001、アプリケーション名：ＡＢＣ商店街お得意様キャンペーン、判定条件：１ヶ月内に『ビーフジャーキー』を１０回注文（『ビーフジャーキー』と発声）」に相当する。

　図１７は、本実施例の概要を説明する図である。本実施例では、図１７の上段に示すように、例えば「ＡＢＣ商店街」に多数設置されている端末装置１－２ａ～１－２ｃ（単数であってもよい）の近くで、訪れたユーザが所定期間内（例えば１ヶ月）に所定回数（例えば１０回）以上、所定のキーワード「ビーフジャーキー」と発声をした場合、当該ユーザが高い頻度でビーフジャーキーを購入していると推定できるため、プレミアムユーザであると判定する。

　そして、図１７の下段に示すように、「ビーフジャーキー」を高い頻度で購入する常連客のユーザに対して、「ビーフジャーキーの特売だよ！」といったお得情報を端末装置１－２ｄから出力する。なお、端末装置１－２ａ～１－２ｄは、いずれもＡＢＣ商店街に設置されている端末装置群であって、少なくともいずれかの端末装置１－２において発声が認識されると、ユーザ特定が行われる。ただし本実施例はこれに限定されず、端末装置１－２が１つであってもよい。

　（動作処理）
　続いて、第２の実施例による動作処理について説明する。本実施例による基本的な動作処理は、主に図１２および図１３を参照して説明した動作処理と同様であるため、ここでは本実施例特有の処理となるプレミアムユーザ判定処理（図１３に示すステップＳ２３９）および応答音声データ生成処理（図１３に示すステップＳ２５４）について図１８および図１９を参照して順次説明する。

　・プレミアムユーザ判定処理
　図１８は、第２の実施例によるプレミアムユーザの判定処理を示すフローチャートである。図１８に示すように、まず、サーバ２のプレミアムユーザ判定部２０ｆは、記憶部２３に記憶されているユーザキーワード履歴（図９参照）を参照し、所定のキーワード「ビーフジャーキー」のユーザによる発声頻度を取得する（ステップＳ４０３）。具体的には、例えばプレミアムユーザ判定部２０ｆは、端末装置１－２ｄに適用されるアプリケーションサービスの対象となるプレミアムユーザの判定条件に用いられる所定のキーワードを、アプリケーションサービスキーワードリストから抽出する。次いで、プレミアムユーザ判定部２０ｆは、ユーザキーワード履歴と照らし合わせ、ユーザが所定のキーワードを発声した日時（発声頻度）を取得する。

　次に、プレミアムユーザ判定部２０ｆは、アプリケーションサービス管理テーブルに登録されているアプリケーションサービスＩＤ：app0001のプレミアムユーザ判定条件に従って、過去１ヶ月に１０回以上、ユーザが「ビーフジャーキー」と発声したか否かを判断する（ステップＳ４０６）。

　次いで、上記判定条件を満たす場合（ステップＳ４０６／Ｙｅｓ）、プレミアムユーザ判定部２０ｆは、当該ユーザがプレミアムユーザであると判定する（ステップＳ４０９）。

　一方、上記判定条件を満たさない場合（ステップＳ４０９／Ｎｏ）、プレミアムユーザ判定部２０ｆは、当該ユーザはプレミアムユーザではないと判定する（ステップＳ４１２）。

　以上、第２の実施例によるプレミアムユーザ判定処理について具体的に説明した。本実施例では、所定のキーワードの発声を所定期間内に所定回数以上行ったユーザ（例えば端末装置１－２がレジの近くに設置されている場合、所定期間内に所定回数以上、所定のキーワードの商品を注文したと推定されるユーザ）をプレミアムユーザであると判定している。

　・応答音声データ生成処理
　図１９は、第２の実施例による応答音声データの生成処理を示すフローチャートである。図１９に示すように、アプリケーションサービスサーバ４は、サーバ２から受信した、合致した判定条件に基づいて、例えば「ビーフジャーキーの特売だよ！」といった所定の応答音声データを生成する（ステップＳ４２０）。アプリケーションサービスサーバ４は、例えば判定条件に応じた応答音声データ若しくは応答音声データの生成アルゴリズムを保有し、サーバ２から受信した「合致した判定条件」に基づいて応答音声データを生成することが可能である。

　以上、第２の実施例による応答音声データの生成処理について具体的に説明した。アプリケーションサービスサーバ４により生成された応答音声データは、図１３のステップＳ２５７～ステップＳ２６３に示すように、アプリケーションサービスサーバ４からサーバ２を経由して端末装置１－２へ送信され、端末装置１－２から音声出力される。

　なお、端末装置１－２が設置される場所は、商店街やモールに限定されず、街中の露店、例えば占いスペース等であってもよい。図２０は、本実施例の応用例について説明する図である。

　図２０に示すように、例えば街中の占いスペースに端末装置１－２が設置されている場合に、占い師の前を通行するユーザが、同行する人との会話等で「憂鬱」「心配」「不安」等の悩みを示す所定のキーワードを頻繁に発していた場合（例えば、悩みを示す言葉を１週間に５回以上発声していた場合）、当該ユーザに対して占いを勧める応答音声データを端末装置１－２から出力するようにしてもよい。

　　＜４－３．第３の実施例＞
　第３の実施例では、声紋解析により特定したユーザが、店舗で過去に高い頻度で何らかの発声を行い、かつ特定のユーザ属性を持ち、かつ所定のキーワードを発声した場合に、プレミアムユーザであると判定する。ユーザ属性とは、ユーザの発話音声データの音声認識により推定されるユーザの性別や年齢等である。なお、本実施例で用いるアプリケーションサービスは、図５に示すアプリケーションサービス管理テーブルに登録された「アプリケーションサービスＩＤ：app0003、アプリケーション名：ＥＥショッピングセンター男性プレミアムユーザ特典、判定条件：１週間内に５日来店（店内で何かを発声）、かつ成人男性、かつ特定のキーワード『暑い』を発声した場合」に相当する。

　図２１は、本実施例の概要を説明する図である。本実施例では、図２１の上段に示すように、例えば「ＥＥショッピングセンター」に多数設置されている端末装置１－３ａ～１－３ｃ（単数であってもよい）の近くで、店舗に訪れたユーザが所定期間内（例えば１週間）に所定日（例えば５日）以上何らかの発声をし、かつ当該ユーザの属性が「成人男性」であって、かつ図２１の下段に示すように、所定のキーワード「暑い」を発声した場合、当該ユーザがプレミアムユーザであると判定する。

　そして、プレミアムユーザ向けのお得な情報として、「４時からハッピーアワー！ビールが半額！」といった応答音声を端末装置１－３ｄから出力する。これにより、常連客のうち特定の属性を持つ人物であって、かつ特定のキーワードを発声したユーザに対して、キャンペーン等の特別な情報を提示することができる。なお、端末装置１－３ａ～１－３ｄは、いずれもＥＥショッピングセンターに設置されている端末装置群であって、少なくともいずれかの端末装置１－３において発声が認識され、ユーザ特定が行われる。ただし本実施例はこれに限定されず、端末装置１－３が１つであってもよい。

　（動作処理）
　続いて、第３の実施例による動作処理について説明する。本実施例による基本的な動作処理は、主に図１２および図１３を参照して説明した動作処理と同様であるため、ここでは本実施例特有の処理となるプレミアムユーザ判定処理（図１３に示すステップＳ２３９）および応答音声データ生成処理（図１３に示すステップＳ２５４）について図２２および図２３を参照して順次説明する。

　・プレミアムユーザ判定処理
　図２２は、第３の実施例によるプレミアムユーザの判定処理を示すフローチャートである。図２２に示すように、まず、サーバ２は、発話音声情報の音声認識により、ユーザの属性（性別、年代等）を推定する（ステップＳ５０３）。具体的には、例えばサーバ２の制御部２０は、ユーザの話し方、口調、語尾の言い回し、声色、声の高さ、声の特徴、または声紋等から、ユーザ属性として性別や年代（年齢）を推定する。

　次いで、プレミアムユーザ判定部２０ｆは、記憶部２３に記憶されているユーザ特定履歴（図１０参照）およびアプリケーションサービス端末リストを参照し、適用するアプリケーションサービスＩＤに属している端末装置に対するユーザの発声頻度を取得する（ステップＳ５０６）。具体的には、例えばプレミアムユーザ判定部２０ｆは、端末装置１－３ｄに適用されるアプリケーションサービスＩＤと同じアプリケーションサービスＩＤに属している端末装置１－３ａ～１－３ｃをアプリケーションサービス端末リストから抽出する。次いで、プレミアムユーザ判定部２０ｆは、ユーザ特定履歴と照らし合わせ、端末装置１－３ａ～１－３ｄでユーザが特定された（すなわち声紋解析によりユーザの発話が認識された）日時（発声頻度）を取得する。

　次に、プレミアムユーザ判定部２０ｆは、アプリケーションサービス管理テーブルに登録されているアプリケーションサービスＩＤ：app0003のプレミアムユーザ判定条件に従って、過去１週間に５日以上、ユーザが何らかの発声をしたか否か（ステップＳ５０９）、属性が「成人男性」であるか（ステップＳ５１２）、所定のキーワード「暑い」を発声したか否か（ステップＳ５１５）を判断する。

　次いで、上記いずれの条件も満たす場合（ステップＳ５０９／Ｙｅｓ、ステップＳ５１２／Ｙｅｓ、ステップＳ５１５／Ｙｅｓ）、プレミアムユーザ判定部２０ｆは、当該ユーザがプレミアムユーザであると判定する（ステップＳ５１８）。

　一方、上記条件のうち少なくともいずれかを満たさない場合（ステップＳ５０９／Ｎｏ、ステップＳ５１２／Ｎｏ、またはステップＳ５１５／Ｎｏ）、プレミアムユーザ判定部２０ｆは、当該ユーザはプレミアムユーザではないと判定する（ステップＳ５１９）。

　以上、第３の実施例によるプレミアムユーザ判定処理について具体的に説明した。本実施例では、特にキーワードは特定せずに、何らかの発声を所定期間内に所定日数以上行ったユーザ（すなわち、所定期間内に所定日数以上来店したと推定されるユーザ）であって、かつ所定の属性を持ち、さらにトリガとなる特定のキーワードを発声した場合に、プレミアムユーザであると判定している。

　・応答音声データ生成処理
　図２３は、第３の実施例による応答音声データの生成処理を示すフローチャートである。図２３に示すように、アプリケーションサービスサーバ４は、サーバ２から受信した合致した判定条件に基づいて、例えば「４時からハッピーアワー！ビールが半額！」といった所定の応答音声データを生成する（ステップＳ５２０）。アプリケーションサービスサーバ４は、例えば判定条件に応じた応答音声データ若しくは応答音声データの生成アルゴリズムを保有し、サーバ２から受信した「合致した判定条件」に基づいて応答音声データを生成することが可能である。

　以上、第３の実施例による応答音声データの生成処理について具体的に説明した。アプリケーションサービスサーバ４により生成された応答音声データは、図１３のステップＳ２５７～ステップＳ２６３に示すように、アプリケーションサービスサーバ４からサーバ２を経由して端末装置１－３へ送信され、端末装置１－３から音声出力される。

　（４－３－１．応用例１）
　なお、端末装置１－３が設置される場所は店舗に限定されず、例えばゲームセンター等の遊技場であってもよい。ここで、端末装置１－３がゲームセンターに設置されている場合について図２４～図２７を参照して説明する。

　図２４は、本実施例の応用例１の概要について説明する図である。図２４の上段に示すように、例えばゲーム機５の周辺に端末装置１－３ａが設置されており、ゲーム機５の前をよく通る（例えば１ヶ月内に１０日以上）成人男性のユーザが、同行する人との会話や独り言等で「むしゃくしゃする」「イライラする」「ぶっとばしたい」等のストレス発散を要求する所定のキーワードを発した場合、当該ユーザが高い頻度で訪れる常連客であって、現在ゲームを勧める最適な状態であると推定でき、プレミアムユーザであると判定する。

　そして、プレミアムユーザであると判定した場合、図２４の下段に示すように、サンドバッグを叩くゲーム機５でストレス発散することを勧める応答音声データを端末装置１－３ａから出力する。

　また、ゲーム機５のプレイ履歴（スコア）を参照し、今日一日の全プレーヤーの最高得点よりもユーザの今までの得点（ユーザ情報の一例）の平均の方が上回る場合、「あなたのいつもの調子なら今日はトップになれますよ。」等のメッセージも含めてゲームを勧める応答を行うことも可能である。

　（動作処理）
　次に、本応用例の動作処理について説明する。本実施例による基本的な動作処理は、主に図１２および図１３を参照して説明した動作処理と同様であるため、ここでは本実施例特有の処理となるプレミアムユーザ判定処理（図１３に示すステップＳ２３９）および応答音声データ生成処理（図１３に示すステップＳ２５４）について図２５および図２６を参照して順次説明する。

　・プレミアムユーザ判定処理
　図２５は、応用例１によるプレミアムユーザの判定処理を示すフローチャートである。図２５に示すように、まず、サーバ２は、発話音声情報の音声認識により、ユーザの属性（性別、年代等）を推定する（ステップＳ６０３）。具体的には、例えばサーバ２の制御部２０は、ユーザの話し方、口調、声色、声の高さ、声の特徴、または声紋等から、ユーザ属性として性別や年代（年齢）を推定する。

　次いで、プレミアムユーザ判定部２０ｆは、記憶部２３に記憶されているユーザ特定履歴（図１０参照）およびアプリケーションサービス端末リスト（図７参照）を参照し、適用するアプリケーションサービスＩＤに属している端末装置に対するユーザの発声頻度を取得する（ステップＳ６０６）。具体的には、例えばプレミアムユーザ判定部２０ｆは、端末装置１－３ａに適用されるアプリケーションサービスＩＤと同じアプリケーションサービスＩＤに属している端末装置（例えばゲーム機周辺やゲームセンターに設置されている複数の端末装置）をアプリケーションサービス端末リストから抽出する。次いで、プレミアムユーザ判定部２０ｆは、ユーザ特定履歴と照らし合わせ、端末装置１－３ａや同アプリケーションサービスＩＤに属する端末装置でユーザが特定された（すなわち声紋解析によりユーザの発話が認識された）日時（発声頻度）を取得する。

　次に、プレミアムユーザ判定部２０ｆは、アプリケーションサービス管理テーブルに登録されている当該アプリケーションサービスのプレミアムユーザ判定条件に従って、プレミアムユーザの判定を行う（ステップＳ６０９～ステップＳ６１５）。具体的には、例えば過去１ヶ月に１０日以上、ユーザが何らかの発声をしたか否か（ステップＳ６０９）、属性が「成人男性」であるか（ステップＳ６１２）、所定のキーワード「むしゃくしゃする」や「ぶっとばしたい」等のストレス発散を要求する言葉を発声したか否か（ステップＳ６１５）を判断する。なおいずれの判定条件も一例であって、本応用例はこれに限定されない。

　次いで、上記いずれの条件も満たす場合（ステップＳ６０９／Ｙｅｓ、ステップＳ６１２／Ｙｅｓ、ステップＳ６１５／Ｙｅｓ）、プレミアムユーザ判定部２０ｆは、当該ユーザがプレミアムユーザであると判定する（ステップＳ６１８）。

　一方、上記条件のうち少なくともいずれかを満たさない場合（ステップＳ６０９／Ｎｏ、ステップＳ６１２／Ｎｏ、またはステップＳ６１５／Ｎｏ）、プレミアムユーザ判定部２０ｆは、当該ユーザはプレミアムユーザではないと判定する（ステップＳ６１９）。

　以上、応用例１によるプレミアムユーザ判定処理について具体的に説明した。本応用例では、特にキーワードは特定せずに、何らかの発声を所定期間内に所定日数以上行ったユーザ（すなわち、所定期間内に所定日数以上訪れたと推定されるユーザ）であって、かつ所定の属性を持ち、さらにトリガとなる特定のキーワードを発声した場合に、プレミアムユーザであると判定している。

　・応答音声データ生成処理
　図２６は、本応用例による応答音声データの生成処理を示すフローチャートである。本応用例では、ゲームのプレイ履歴も考慮して応答音声データを生成する。各ユーザのプレイ履歴は、例えばサーバ２の記憶部２３に記憶されたユーザ管理テーブル（図８参照）の「アプリケーションサービスデータ」に蓄積されている。

　図２６に示すように、まず、アプリケーションサービスサーバ４は、プレミアムユーザと判定されたユーザのユーザＩＤと、アプリケーションサービスＩＤをサーバ２に送信する（ステップＳ６２０）。

　次に、アプリケーションサービスサーバ４は、サーバ２から、当該ユーザのアプリケーションデータを受信し（ステップＳ６２３）、アプリケーションデータに記録されている、当該アプリケーションサービスと紐付くゲーム機５における当該ユーザのプレイ履歴を取得する（ステップＳ６２６）。

　次いで、アプリケーションサービスサーバ４で管理するプレイ履歴から、本日の全プレーヤーにおけるハイスコアを取得する（ステップＳ６２９）。

　次に、アプリケーションサービスサーバ４は、当該ユーザの平均スコアが本日のハイスコアより上回るか否かを判断する（ステップＳ６３２）。

　次いで、上回ると判断した場合（ステップＳ６３２／Ｙｅｓ）、アプリケーションサービスサーバ４は、サーバ２から受信した、合致した判定条件に基づいて、例えば「一発なぐっていきませんか？あなたのいつもの調子なら今日はトップになれますよ！」といった所定の応答音声データを生成する（ステップＳ６３５）。

　一方、上回らないと判断した場合（ステップＳ６３２／Ｎｏ）、アプリケーションサービスサーバ４は、サーバ２から受信した合致した判定条件に基づいて、例えば「一発なぐっていきませんか？今日こそハイスコアにチャレンジしましょう！」といった所定の応答音声データを生成する（ステップＳ６３８）。

　以上、応用例１による応答音声データの生成処理について具体的に説明した。アプリケーションサービスサーバ４により生成された応答音声データは、図１３のステップＳ２５７～ステップＳ２６３に示すように、アプリケーションサービスサーバ４からサーバ２を経由して端末装置１－３ａへ送信され、端末装置１－３ａから音声出力される。

　・プレイ履歴の管理処理
　次に、ゲーム機５のプレイ結果の管理処理について、図２７を参照して説明する。図２７は、応用例１によるゲーム機５のプレイ結果の管理処理を示すシーケンス図である。

　図２７に示すように、まず、ゲーム機５は、ゲームのプレイが開始されると（ステップＳ６４３）、ネットワークを介してアプリケーションサービスサーバ４にプレイ開始を通知する（ステップＳ６４６）。

　次に、アプリケーションサービスサーバ４は、ゲーム機５からのプレイ開始通知に応じて、サーバ２によりプレミアムユーザが判定されてから一定時間内にゲームが開始された場合（ステップＳ６４９／Ｙｅｓ）、当該プレミアムユーザがゲームをプレイしていると判断する（ステップＳ６５２）。図１３のステップＳ２５１では、サーバ２が判定したプレミアムユーザのユーザＩＤもアプリケーションサービスサーバ４に送信するため、アプリケーションサービスサーバ４は、サーバ２でプレミアムユーザが判定されたこと、およびプレミアムユーザのユーザＩＤを認識し得る。

　次いで、アプリケーションサービスサーバ４は、ゲームのプレイ結果がゲーム機５から送信されると（ステップＳ６５５）、受信したプレイ結果を、プレミアムユーザのユーザＩＤおよび自身のアプリケーションサービスＩＤと共にサーバ２に送信する（ステップＳ６５８）。

　そして、サーバ２は、ユーザ管理テーブル（図８参照）において、該当するユーザおよびアプリケーションサービスに紐付くアプリケーションデータを更新する（ステップＳ６６１）。すなわち、サーバ２は、プレミアムユーザの当該ゲームにおけるプレイ結果をアプリケーションデータとしてユーザ管理テーブルに登録する。

　なお、アプリケーションサービスサーバ４は、プレミアムユーザと判定されない通常のユーザのプレイ結果もゲーム機５から受信し、プレイ履歴として記録し得る。具体的には、プレミアムユーザの判定がされていない時にゲーム機５からプレイ結果が送信された場合、アプリケーションサービスサーバ４は、不特定ユーザ（プレーヤー）のプレイ結果として当該プレイ結果を蓄積する。また、アプリケーションサービスサーバ４は、不特定ユーザのプレイ結果を、自身のアプリケーションサービスＩＤと共にサーバ２へ送信する。サーバ２は、受信した不特定ユーザのプレイ結果を、例えばアプリケーションサービス管理テーブル（図５参照）において、該当するアプリケーションサービスに紐付けて登録する。これにより、例えばゲーム機５における今日一日のプレーヤーのスコアが把握され得る。

　以上説明したように、本応用例では、ゲーム機５と連動し、ゲーム機５におけるプレイ履歴（例えばスコア）を参照して応答音声データを生成することが可能となる。

　（４－３－２．応用例２）
　また、端末装置１－３が設置される場所は、上述した例に限定されず、例えばバッティングセンターであってもよい。図２８は、応用例２の概要について説明する図である。

　図２８の上段に示すように、例えばバッティングセンターに端末装置１－３ｂが設置されている場合、バッティングセンターによく訪れる（例えば１週間に３日以上）成人男性のユーザがプロ野球の球団に関するキーワードを発声した場合、プレミアムユーザであると判定する。そして、プレミアムユーザであると判定した場合、図２８の下段に示すように、バッティングセンターの利用を勧める応答音声データを端末装置１－３ｂから出力する。

　この際、本応用例では、バッティングセンターによく訪れるユーザ（常連客）が発したキーワードから当該ユーザがどの球団のファンであるか（ユーザ情報（嗜好情報）の一例）を判断し、直近の勝敗結果や試合内容等を参照して特定球団ファンの常連客向けの応答音声データを生成することが可能である。

　（動作処理）
　次に、本応用例の動作処理について説明する。本実施例による基本的な動作処理は、主に図１２および図１３を参照して説明した動作処理と同様であるため、ここでは本実施例特有の処理となるプレミアムユーザ判定処理（図１３に示すステップＳ２３９）および応答音声データ生成処理（図１３に示すステップＳ２５４）について図２９および図３０を参照して順次説明する。

　・プレミアムユーザ判定処理
　図２９は、応用例２によるプレミアムユーザの判定処理を示すフローチャートである。図２９に示すように、まず、サーバ２は、発話音声情報の音声認識により、ユーザの属性（性別、年代等）を推定する（ステップＳ７０３）。具体的には、例えばサーバ２の制御部２０は、ユーザの話し方、口調、声色、声の高さ、声の特徴、または声紋等から、ユーザ属性として性別や年代（年齢）を推定する。

　次いで、プレミアムユーザ判定部２０ｆは、記憶部２３に記憶されているユーザ特定履歴（図１０参照）およびアプリケーションサービス端末リスト（図７参照）を参照し、適用するアプリケーションサービスＩＤに属している端末装置に対するユーザの発声頻度を取得する（ステップＳ７０６）。具体的には、例えばプレミアムユーザ判定部２０ｆは、端末装置１－３ｂに適用されるアプリケーションサービスＩＤと同じアプリケーションサービスＩＤに属している端末装置（例えばバッティングセンターに設置されている複数の端末装置）をアプリケーションサービス端末リストから抽出する。次いで、プレミアムユーザ判定部２０ｆは、ユーザ特定履歴と照らし合わせ、端末装置１－３ｂや同アプリケーションサービスＩＤに属する端末装置でユーザが特定された（すなわち声紋解析によりユーザの発話が認識された）日時（発声頻度）を取得する。

　次に、プレミアムユーザ判定部２０ｆは、アプリケーションサービス管理テーブルに登録されている当該アプリケーションサービスのプレミアムユーザ判定条件に従って、プレミアムユーザの判定を行う（ステップＳ７０９～ステップＳ７１５）。具体的には、例えば過去１週間に３日以上、ユーザが何らかの発声をしたか否か（ステップＳ７０９）、属性が「成人男性」であるか（ステップＳ７１２）、特定の球団に関する所定のキーワード（チーム名、選手名等）を発声したか否か（ステップＳ７１５）を判断する。なおいずれの判定条件も一例であって、本応用例はこれに限定されない。

　次いで、上記いずれの条件も満たす場合（ステップＳ７０９／Ｙｅｓ、ステップＳ７１２／Ｙｅｓ、ステップＳ７１５／Ｙｅｓ）、プレミアムユーザ判定部２０ｆは、当該ユーザが特定の球団のファンであると判断してユーザ属性に追加し（ステップＳ７１８）、また、当該ユーザがプレミアムユーザであると判定する（ステップＳ７２１）。なおユーザ属性は、例えばサーバ２の記憶部２３に記憶されたユーザ管理テーブル（図８参照）に蓄積される。

　一方、上記条件のうち少なくともいずれかを満たさない場合（ステップＳ７０９／Ｎｏ、ステップＳ７１２／Ｎｏ、またはステップＳ７１５／Ｎｏ）、プレミアムユーザ判定部２０ｆは、当該ユーザはプレミアムユーザではないと判定する（ステップＳ７２４）。

　以上、応用例２によるプレミアムユーザ判定処理について具体的に説明した。本応用例では、特にキーワードは特定せずに、何らかの発声を所定期間内に所定日数以上行ったユーザ（すなわち、所定期間内に所定日数以上訪れたと推定されるユーザ）であって、かつ所定の属性を持ち、さらにトリガとなる特定のキーワードを発声した際にプレミアムユーザであると判定している。

　・応答音声データ生成処理
　図３０は、本応用例による応答音声データの生成処理を示すフローチャートである。本応用例では、ユーザがどの球団（野球チーム）のファンであるかも考慮して応答音声データを生成する。各ユーザがどの球団のファンであるかは、属性情報の一例として、例えばサーバ２の記憶部２３に記憶されたユーザ管理テーブル（図８参照）に蓄積される。

　図３０に示すように、まず、アプリケーションサービスサーバ４は、プレミアムユーザの属性に基づいて、どの球団のファンであるかを取得する（ステップＳ７３０）。具体的には、例えばアプリケーションサービスサーバ４は、プレミアムユーザのユーザＩＤをサーバ２に送信して当該ユーザの属性情報を要求し、どの球団のファンであるかの情報を取得する。

　次に、アプリケーションサービスサーバ４は、前日のプロ野球勝敗データをネットワーク上の所定サーバ（不図示）から取得する（ステップＳ７３３）。

　次いで、アプリケーションサービスサーバ４は、当該ユーザがＧチーム（球団の一例）ファンの場合（ステップＳ７３６／Ｙｅｓ）、前日のプロ野球勝敗データを参照してＧチームが勝利したか否かを確認する（ステップＳ７３９）。

　そして、Ｇチームが勝利していた場合（ステップＳ７３９／Ｙｅｓ）、アプリケーションサービスサーバ４は、例えば「昨夜はＧチームが勝ったね。△△選手みたいにホームランを打って行かない？」「Ｇチームファンのお兄さん！今日はお得意様限定で、半額で打てるよ！」等の応答音声データを生成する（ステップＳ７４２）。

　一方、Ｇチームが負けていた場合（ステップＳ７３９／Ｎｏ）、アプリケーションサービスサーバ４は、例えば「昨夜は残念だったね。リベンジに打って行かない？」等の応答音声データを生成する（ステップＳ７４５）。

　また、アプリケーションサービスサーバ４は、当該ユーザがＨチーム（球団の他の例）ファンの場合（ステップＳ７４８／Ｙｅｓ）、前日のプロ野球勝敗データを参照してＨチームが勝利したか否かを確認する（ステップＳ７５１）。

　そして、Ｈチームが勝利していた場合（ステップＳ７５１／Ｙｅｓ）、アプリケーションサービスサーバ４は、例えば「昨夜はＨチームが勝ったね。□□選手みたいに打ちまくろうよ！」「Ｈチームファンのお兄さん！今日はお得意様限定で、半額で打てるよ！」等の応答音声データを生成する（ステップＳ７５４）。

　一方、Ｈチームが負けていた場合（ステップＳ７５１／Ｎｏ）、アプリケーションサービスサーバ４は、例えば「昨夜は残念だったね。Ｈチームの復活を願って打って行こうよ！」等の応答音声データを生成する（ステップＳ７５７）。

　また、ＧチームやＨチーム以外の他の球団のファンの場合も（ステップＳ７４８／Ｎｏ）、同様に、ユーザがファンの特定球団の勝敗に応じて、応答音声データを生成する（ステップＳ７６０）。

　以上、応用例２による応答音声データの生成処理について具体的に説明した。アプリケーションサービスサーバ４により生成された応答音声データは、図１３のステップＳ２５７～ステップＳ２６３に示すように、アプリケーションサービスサーバ４からサーバ２を経由して端末装置１－３ｂへ送信され、端末装置１－３ｂから音声出力される。

　このように、本応用例では、プレミアムユーザが特定の球団のファンである場合、当該球団の試合内容等に言及した上でバッティングを勧める応答音声データをバッティングセンターに設けられた端末装置１－３ｂから出力することが可能となる。

　＜＜５．まとめ＞＞
　上述したように、本開示の実施形態による情報処理システムでは、ユーザの発話音声を収音し、所定期間内のユーザの発話回数に基づいて特定ユーザを認識することが可能となる。

　また、本実施形態では音声処理によりユーザを特定するため、処理負荷が比較的少ないという利点がある。また、音声の収集は、カメラによる撮像に比べて抵抗のあるユーザが少なく、また、マイクロホンはカメラに比べて指向性があまりないため、周辺の音声情報を取得しやすいという効果がある。しかし、本実施形態は音声処理のみには限定されず、声紋解析等の音声処理だけではユーザ判定が難しい場合等、補助的にカメラを併用してユーザ判定を行うようにしてもよい。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上述した端末装置１、またはサーバ２に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、端末装置１、またはサーバ２の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

　また、上述した実施形態では、発話音声に基づいて、常連客等のポジティブなユーザの判定を行っているが、本実施形態はこれに限定せず、同システムを用いて発話音声に基づき不審者や好ましくない客等のネガティブなユーザの判定を行うことも可能である。ネガティブなユーザであると判定した場合、サーバ２は、セキュリティ対応の応答音声データを生成して端末装置１から出力させるようにしてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　離散的に配される複数のマイクロホンにより収音された音声に関する音声情報を受信可能な通信部と、
　前記通信部を介して受信された、前記複数のマイクロホンのうちの特定のマイクロホンにより収音された音声に関する音声情報に基づき識別されたユーザを、少なくとも、一定の期間に規定の回数以上の発話を行った特定ユーザであると判別し、
　前記通信部を介して、前記特定のマイクロホンに対応するスピーカに対して、前記特定ユーザに送信すべき音声情報を送信するように制御する制御部と、
を備える、情報処理装置。
（２）
　前記制御部は、
　特定のマイクロホンにより収音された音声に関する音声情報に基づき識別されたユーザを、アプリケーションサービス単位で規定されている特定ユーザであると判定するとき、
　前記通信部を介して、前記特定のマイクロホンに対応するスピーカに対して、前記特定ユーザに送信すべき音声情報を送信するように制御する、前記（１）に記載の情報処理装置。
（３）
　前記制御部は、
　特定のマイクロホンにより収音された音声に関する音声情報を認識した結果抽出されたキーワードと、アプリケーションサービス単位で規定されているキーワードとに応じて、当該音声情報に基づき識別されたユーザを、アプリケーションサービス単位で規定されている特定ユーザであると判定する、前記（２）に記載の情報処理装置。
（４）
　前記制御部は、
　特定のマイクロホンにより収音された音声に関する音声情報に基づき特定されたユーザの属性に応じて、当該音声情報に基づき識別されたユーザを、アプリケーションサービス単位で規定されている特定ユーザであると判定する、前記（２）に記載の情報処理装置。
（５）
　前記制御部は、
　特定のマイクロホンにより収音された音声に関する音声情報に基づき特定されたユーザ情報に応じて、前記通信部を介して前記特定のマイクロホンに対応するスピーカに対し、前記ユーザ情報に応じた音声情報を送信するように制御する、前記（２）～（４）のいずれか１項に記載の情報処理装置。
（６）
　前記ユーザ情報は、ユーザ属性、連動するゲーム機のプレイ履歴、またはユーザの嗜好情報である、前記（５）に記載の情報処理装置。
（７）
　前記制御部は、前記収音された音声の声紋を解析してユーザの識別を行う、前記（１）～（６）のいずれか１項に記載の情報処理装置。
（８）
　前記制御部は、前記音声を収音した特定のマイクロホンに対応するスピーカに適用されるアプリケーションサービスで規定された判定条件を用いて、前記特定ユーザの判定を行う、前記（２）～（７）のいずれか１項に記載の情報処理装置。
（９）
　プロセッサが、
　離散的に配される複数のマイクロホンにより収音された音声に関する音声情報を受信可能な通信部を介して受信された、前記複数のマイクロホンのうちの特定のマイクロホンにより収音された音声に関する音声情報に基づき識別されたユーザを、少なくとも、一定の期間に規定の回数以上の発話を行った特定ユーザであると判別することと、
　前記通信部を介して、前記特定のマイクロホンに対応するスピーカに対して、前記特定ユーザに送信すべき音声情報を送信するように制御することと、
を含む、情報処理方法。

　１　　端末装置
　２　　サーバ
　３　ネットワーク
　４　アプリケーションサービスサーバ
　５　ゲーム機
　１０　制御部
　１１　通信部
　１２　音声入力部
　１３　音声出力部
　１４　記憶部
　２０　制御部
　２０ａ　アプリケーションサービス管理部
　２０ｂ　ユーザ情報管理部
　２０ｃ　声紋解析部
　２０ｄ　音声認識部
　２０ｅ　ユーザ特定部
　２０ｆ　プレミアムユーザ判定部
　２０ｇ　応答音声データ取得部
　２１　ネットワーク通信部
　２２　アプリケーションサービスサーバＩ／Ｆ
　２３　記憶部

Claims

　離散的に配される複数のマイクロホンにより収音された音声に関する音声情報を受信可能な通信部と、
　前記通信部を介して受信された、前記複数のマイクロホンのうちの特定のマイクロホンにより収音された音声に関する音声情報に基づき識別されたユーザを、少なくとも、一定の期間に規定の回数以上の発話を行った特定ユーザであると判別し、
　前記通信部を介して、前記特定のマイクロホンに対応するスピーカに対して、前記特定ユーザに送信すべき音声情報を送信するように制御する制御部と、
を備える、情報処理装置。
　前記制御部は、
　特定のマイクロホンにより収音された音声に関する音声情報に基づき識別されたユーザを、アプリケーションサービス単位で規定されている特定ユーザであると判定するとき、
　前記通信部を介して、前記特定のマイクロホンに対応するスピーカに対して、前記特定ユーザに送信すべき音声情報を送信するように制御する、請求項１に記載の情報処理装置。
　前記制御部は、
　特定のマイクロホンにより収音された音声に関する音声情報を認識した結果抽出されたキーワードと、アプリケーションサービス単位で規定されているキーワードとに応じて、当該音声情報に基づき識別されたユーザを、アプリケーションサービス単位で規定されている特定ユーザであると判定する、請求項２に記載の情報処理装置。
　前記制御部は、
　特定のマイクロホンにより収音された音声に関する音声情報に基づき特定されたユーザの属性に応じて、当該音声情報に基づき識別されたユーザを、アプリケーションサービス単位で規定されている特定ユーザであると判定する、請求項２に記載の情報処理装置。
　前記制御部は、
　特定のマイクロホンにより収音された音声に関する音声情報に基づき特定されたユーザ情報に応じて、前記通信部を介して前記特定のマイクロホンに対応するスピーカに対し、前記ユーザ情報に応じた音声情報を送信するように制御する、請求項２に記載の情報処理装置。
　前記ユーザ情報は、ユーザ属性、連動するゲーム機のプレイ履歴、またはユーザの嗜好情報である、請求項５に記載の情報処理装置。
　前記制御部は、前記収音された音声の声紋を解析してユーザの識別を行う、請求項１に記載の情報処理装置。
　前記制御部は、前記音声を収音した特定のマイクロホンに対応するスピーカに適用されるアプリケーションサービスで規定された判定条件を用いて、前記特定ユーザの判定を行う、請求項２に記載の情報処理装置。
　プロセッサが、
　離散的に配される複数のマイクロホンにより収音された音声に関する音声情報を受信可能な通信部を介して受信された、前記複数のマイクロホンのうちの特定のマイクロホンにより収音された音声に関する音声情報に基づき識別されたユーザを、少なくとも、一定の期間に規定の回数以上の発話を行った特定ユーザであると判別することと、
　前記通信部を介して、前記特定のマイクロホンに対応するスピーカに対して、前記特定ユーザに送信すべき音声情報を送信するように制御することと、
を含む、情報処理方法。