WO2019187543A1

WO2019187543A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2019187543A1
Application number: PCT/JP2019/001872
Authority: WO
Inventors: 拓也藤田
Original assignee: ソニー株式会社
Priority date: 2018-03-30
Filing date: 2019-01-22
Publication date: 2019-10-03
Also published as: US20210082427A1; JP2021103191A

Abstract

【課題】入力音声に対する応答是非を精度高く判定する。【解決手段】入力音声のスタイルまたは出力音声のスタイルのうち少なくとも１つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定する知的処理部、を備える、情報処理装置が提供される。また、プロセッサが、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも１つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定すること、を含む、情報処理方法が提供される。

Description

情報処理装置および情報処理方法

　本開示は、情報処理装置および情報処理方法に関する。

　近年、ユーザの発話音声を検出し、当該発話音声に対する応答処理を実行する装置が普及している。また、上記のような装置において、ユーザが応答処理の享受を意図する発話音声のみを精度高く検出するための手法が提案されている。例えば、特許文献１には、ユーザとの距離に基づいて、入力音声に対する応答処理を実行するか否かを判定する技術が開示されている。

特開２０１７－１４４５２１号公報

　しかし、応答処理の実行是非に関し、考慮すべき要因はユーザとの距離のみに留まらない。このため、特許文献１に記載の技術では、入力音声に対する応答是非を正しく判定できない状況も想定される。

　そこで、本開示では、入力音声に対する応答是非を精度高く判定することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。

　本開示によれば、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも１つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定する知的処理部、を備える、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも１つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定すること、を含む、情報処理方法が提供される。

　以上説明したように本開示によれば、入力音声に対する応答是非を精度高く判定することが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理システムの構成例を示すブロック図である。同実施形態に係る情報処理端末の機能構成例を示すブロック図である。同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。同実施形態に係る入力音声の内容に基づく応答是非判定の一例を示す図である。同実施形態に係る入力音声のスタイルから推定される音声行動に基づく応答是非判定の一例を示す図である。同実施形態に係る所定環境において有意に検出される音声スタイルとの類似性に基づく応答是非判定の一例を示す図である。同実施形態に係る所定環境において有意に検出される音声スタイルとの類似性に基づく応答是非判定の一例を示す図である。同実施形態に係る入力音声のスタイルと出力情報のスタイルとに基づく応答是非判定の一例を示す図である。同実施形態に係る入力内容および出力内容とに基づく応答是非判定の一例を示す図である。同実施形態に係る入力音声のスタイル、入力音声の内容、出力音声のスタイル、および出力音声の内容に基づく応答是非判定の一例を示す図である。同実施形態に係る入力音声のスタイルおよび入力音声の内容に基づく応答是非判定の別の一例を示す図である。同実施形態に係るコンテキストに基づく応答是非判定の一例を示す図である。同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。同実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。同実施形態に係る情報処理サーバ２０の動作の流れを示すフローチャートである。本開示の一実施形態に係る情報処理サーバのハードウェア構成例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．概要
　　１．２．システム構成例
　　１．３．情報処理端末１０の機能構成例
　　１．４．情報処理サーバ２０の機能構成例
　　１．５．応答是非の判定
　　１．６．応答是非判定の具体例
　　１．７．動作の流れ
　２．ハードウェア構成例
　３．まとめ

　＜１．実施形態＞
　＜＜１．１．概要＞＞
　まず、本開示の一実施形態の概要について説明する。上述したように、近年では、ユーザの発話音声を検出し、当該発話音声に対応する応答処理を実行する種々の装置が普及している。上記のような装置には、例えば、音声エージェント装置が挙げられる。

　ここで、音声エージェント装置とは、ユーザとの音声対話により種々の機能を提供する装置の総称である。音声エージェント装置は、例えば、ユーザの発話による問い合わせに対し、人工音声を用いて回答を行ったり、ユーザの発話による指示に基づいて種々の機能を実行することができる。

　一方、音声エージェント装置では、ユーザが意図する発話音声のみを正しく受理し、ユーザが意図しない音声については、正しく棄却することが重要となる。

　上記のユーザが意図しない音声には、例えば、テレビジョン装置、ラジオ、オーディオプレイヤー、他のエージェント装置など、機器が出力する種々の音声が含まれる。また、ユーザが意図しない音声には、ユーザの発話音声であるものの、例えば、他者との発話や独り言など、エージェント装置への入力を意図しない発話音声が含まれる。

　ユーザが意図する音声を精度高く検出するための手法としては、例えば、上述した特許文献１に記載の技術が挙げられる。しかし、ユーザとの距離に基づいて、応答是非を判定する特許文献１の技術では、上述したユーザが意図しない音声を正しく棄却できない状況も多々想定される。上記の状況には、例えば、ユーザがエージェント装置の近くにおいて他者と会話を行う状況や、ユーザがエージェント装置の近くに居る場合において、他の装置が出力する音声が入力された状況などが挙げられる。

　このため、種々の状況に汎用的に適用可能であり、かつ入力音声に対する応答処理の是非を精度高く判定する手法が望まれていた。

　本開示に係る技術思想は上記の点に着目して発想されたものであり、入力音声に対する応答是非を精度高く判定することを可能とする。このために、本開示の一実施形態に係る情報処理方法を実現する情報処理装置は、入力音声の内容、入力音声のスタイル、出力情報の内容、出力情報のスタイル、また種々のコンテキストなどに基づいて、入力音声の棄却または受理を幅広く判定することを特徴の一つとする。

　ここで、上記の入力音声の内容には、認識されたコマンドの種類（ドメインゴール）、認識された文字列、解釈された発話意図などが含まれる。

　また、上記の入力音声のスタイルには、韻律情報などを広く含む。具体的には、入力音声のスタイルには、音声の大きさ（振幅、パワー）、音声の高さ（基本周波数）、声色（周波数スペクトル）、リズム（口調）、長短、入力タイミングなどが含まれる。また入力音声のスタイルには、音声の入力方向（水平方向の角度、垂直方向の角度）、音源との距離などの情報が含まれてよい。

　また、上記の出力情報の内容には、種々の音情報、視覚情報、また動作が含まれる。ここで、上記の音情報には、例えば、出力音声の内容、楽曲やＢＧＭ、効果音の種別などが挙げられる。また、上記の視覚情報には、画像やテキスト、ＬＥＤなどを用いた発光表現などが挙げられる。また、上記の動作は、例えば、ジェスチャなどを含んでよい。

　また、上記の出力情報のスタイルには、例えば、視覚情報の場合には、出力タイミング、表示の大きさや明暗などが含まれる。また、音情報の場合には、上述した入力音声のスタイルと同様の要素や出力タイミング、または後述する出力モードなどが含まれてよい。また、動作の場合には、動作のタイミングや大きさ、速さなどが含まれる。

　また、上記のコンテキストは、装置、周囲に存在する人、環境などに係る種々の状態を含む。装置に係るコンテキストには、例えば、ＰＴＴ（Ｐｕｓｈ　Ｔｏ　Ｔａｌｋ）ボタンが押下されているか否か、起動ワード（ＷＵＷ：Ｗａｋｅ　Ｕｐ　Ｗｏｒｄ）が認識されてから一定の時間内であるか否か、などの状態が含まれる。

　また、装置に係るコンテキストには、情報の入出力に係る各種の設定が含まれてよい。上記設定には、例えば、出力モーダル（画面表示や音出力）、音声出力設定や音声入力設定が挙げられる。なお、音声出力設定には、スピーカ、イヤホン、ＢｌｕｅＴｏｏｔｈ（登録商標）接続などの外部機器接続設定、音量、ミュート設定が、音声入力設定は、マイクロフォンなどの外部機器接続設定やミュート設定などが含まれてよい。

　また、装置に係るコンテキストには、上記の要素の他に、型番や製造年月日などのスペック情報が含まれる。

　また、人に係るコンテキストとしては、例えば、室内に人が何人いるかなどの検出情報や、表情、視線、行動などの認識情報が広く含まれる。なお、認識される行動の一例としては、立っている、座っている、眠っている、歩いている、走っている、踊っている、電話をしている、他者と会話している、などの行動が挙げられる。

　また、人に係るコンテキストは、検出した人物の年齢や性別などの属性情報や登録ユーザであるか否かの分類に係る情報が含まれてよい。

　また、環境に係るコンテキストとしては、装置の現在地に係る座標や現在地のカテゴリなどが用いられてよい。現在地のカテゴリには、例えば、自宅、屋外、電車（地下鉄や新幹線などの種別、また混雑度）、自動車、船舶、飛行機などが挙げられる。

　以上、本実施形態に係る応答是非の判定に用いられる得る要素について例を述べた。本実施形態に係る情報処理方法によれば、上記のような種々の要素を考慮することで、ユーザが意図する音声入力のみを精度高く受理し、受理時における種々のアクションを実行することが可能となる。また、本実施形態に係る情報処理方法によれば、ユーザが意図しない音声入力を精度高く棄却し、棄却時におけるアクションを正しく実行することが可能となる。なお、本実施形態に係るアクションは、必ずしも表出を伴うものではなく、装置内部における種々の処理が含まれる。また、本実施形態に係る情報処理装置は、応答是非判定の結果、なんらアクションを実行しない場合もある。

　なお、以下の説明においては、本開示に係る技術思想が、入力音声に対する応答是非の判定に適用される場合を主な例として説明するが、本開示に係る技術思想は、係る例に限定されず、ユーザによる入力に基づいて、なんらかの処理を実行する装置に広く適用され得る。本開示に係る技術思想は、例えば、ジェスチャ入力に基づいて処理を行う装置などにも適用可能である。

　＜＜１．２．システム構成例＞＞
　まず、本開示の一実施形態に係る情報処理システムの構成例について説明する。図１は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図１を参照すると、本実施形態に係る情報処理システムは、情報処理端末１０および情報処理サーバ２０を備える。また、情報処理端末１０と情報処理サーバ２０は、互いに通信が行えるように、ネットワーク３０を介して接続される。

　（情報処理端末１０）
　本実施形態に係る情報処理端末１０は、情報処理サーバ２０による制御に基づいて、ユーザとの音声対話を行う情報処理装置である。本実施形態に係る情報処理端末１０は、例えば、スマートフォン、タブレット、ウェアラブルデバイス、汎用コンピュータ、据え置き型または自律移動型の専用装置などにより実現される。

　（情報処理サーバ２０）
　本実施形態に係る情報処理サーバ２０は、上述した種々の要素に基づいて、入力音声に対する応答処理を実行するか否かを判定する情報処理装置である。

　（ネットワーク３０）
　ネットワーク３０は、情報処理端末１０と情報処理サーバ２０とを接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

　以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図１を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末１０および情報処理サーバ２０が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．３．情報処理端末１０の機能構成例＞＞
　次に、本実施形態に係る情報処理端末１０の機能構成例について説明する。図２は、本実施形態に係る情報処理端末１０の機能構成例を示すブロック図である。図２を参照すると、本実施形態に係る情報処理端末１０は、表示部１１０、音声出力部１２０、音声入力部１３０、撮像部１４０、センサ部１５０、制御部１６０、およびサーバ通信部１７０を備える。

　（表示部１１０）
　本実施形態に係る表示部１１０は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部１１０は、例えば、情報処理サーバ２０による制御に基づいて、入力音声への応答としての視覚情報を表示する。

　このために、本実施形態に係る表示部１１０は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部１１０は、プロジェクション機能により視覚情報を出力してもよい。

　（音声出力部１２０）
　本実施形態に係る音声出力部１２０は、音声を含む種々の音を出力する機能を有する。本実施形態に係る音声出力部１２０は、例えば、情報処理サーバ２０による制御に基づいて、入力音声への回答などを音声により出力する。このために、本実施形態に係る音声出力部１２０は、スピーカやアンプなどの音声出力装置を備える。

　（音声入力部１３０）
　本実施形態に係る音声入力部１３０は、ユーザの発話や、情報処理端末１０の周囲で発生する周囲音などの音情報を収集する機能を有する。本実施形態に係る音声入力部１３０は、音情報を収集するためのマイクロフォンを備える。

　（撮像部１４０）
　本実施形態に係る撮像部１４０は、ユーザや周囲環境の画像を撮像する機能を有する。撮像部１４０が撮像した画像情報は、情報処理サーバ２０によるユーザの行動認識や状態認識、環境認識などに用いられてもよい。本実施形態に係る撮像部１４０は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。

　（センサ部１５０）
　本実施形態に係るセンサ部１５０は、周囲環境やユーザに関する種々のセンサ情報を収集する機能を有する。センサ部１５０が収集したセンサ情報は、例えば、情報処理サーバ２０によるユーザの行動認識や状態認識、環境認識などに用いられ得る。センサ部１５０は、例えば、赤外線センサ、紫外線センサ、加速度センサ、ジャイロセンサ、地磁気センサ、照度センサ、近接センサ、指紋センサ、服の形状を取得するセンサ、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）信号受信機、無線信号受信機などを備える。

　（制御部１６０）
　本実施形態に係る制御部１６０は、情報処理端末１０が備える各構成を制御する機能を有する。制御部１６０は、例えば、各構成の起動や停止を制御する。また、制御部１６０は、情報処理サーバ２０により生成される制御信号を表示部１１０や音声出力部１２０に入力する。また、本実施形態に係る制御部１６０は、後述する情報処理サーバ２０の知的処理部２３０と同等の機能を有してもよい。同様に、制御部１６０は、情報処理サーバ２０の音声認識部２１０、コンテキスト認識部２２０、出力制御部２４０と同等の機能を有してもよい。

　（サーバ通信部１７０）
　本実施形態に係るサーバ通信部１７０は、ネットワーク３０を介して情報処理サーバ２０との情報通信を行う機能を有する。具体的には、サーバ通信部１７０は、音声入力部１３０が収集した音情報や、撮像部１４０が撮像した画像情報、センサ部１５０が収集したセンサ情報を情報処理サーバ２０に送信する。また、サーバ通信部１７０は、情報処理サーバ２０から、応答処理に係る制御信号などを受信する。

　以上、本実施形態に係る情報処理端末１０の機能構成例について説明した。なお、図２を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末１０は、図２に示す構成のすべてを必ずしも備えなくてもよい。また、上述したように、本実施形態に係る制御部１６０は、情報処理サーバ２０の音声認識部２１０、コンテキスト認識部２２０、知的処理部２３０、出力制御部２４０と同等の機能を有してもよい。本実施形態に係る情報処理端末１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．４．情報処理サーバ２０の機能構成例＞＞
　次に、本実施形態に係る情報処理サーバ２０の機能構成例について説明する。図３は、本実施形態に係る情報処理サーバ２０の機能構成例を示すブロック図である。図３を参照すると、本実施形態に係る情報処理サーバ２０は、音声認識部２１０、コンテキスト認識部２２０、知的処理部２３０、出力制御部２４０、および端末通信部２５０を備える。

　（音声認識部２１０）
　本実施形態に係る音声認識部２１０は、情報処理端末１０が収集した音声に基づいて音声認識処理を実行する。なお、本実施形態に係る音声認識部２１０は、音声をテキストに変換する機能のほか、当該テキストに基づいて意味解釈を行う機能を有してよい。

　（コンテキスト認識部２２０）
　本実施形態に係るコンテキスト認識部２２０は、情報処理端末１０が収集した音情報、画像情報、およびセンサ情報に基づいて、上述したような種々のコンテキストを認識する機能を有する。コンテキスト認識部２２０は、例えば、ユーザの行動や位置、情報処理端末１０の向き、周囲の混雑度（周囲にどれだけの人がいるか）などのコンテキストを認識してもよい。なお、上記の混雑度を算出する手法としては、例えば、画像に写った人体の数に基づく算出や、音に含まれる人由来の成分に基づく算出、また無線通信に係るチャンネルの混雑度に基づく算出などが挙げられる。

　（知的処理部２３０）
　本実施形態に係る知的処理部２３０は、入力音声の内容、入力音声のスタイル、出力情報の内容、出力情報のスタイル、およびコンテキストに基づいて、入力音声に対する応答処理を実行するか否かを判定する機能を有する。なお、本実施形態に係る応答処理とは、ユーザが意図的に入力した音声に基づき、当該ユーザが意図する機能を提供すること、を指す。すなわち、本実施形態に係る応答処理とは、知的処理部２３０が入力音声を受理すると判定した場合に実行される種々のアクションである。一方、本実施形態に係る知的処理部２３０は、入力音声がユーザが意図したものではないと判定した場合、当該入力音声を棄却し、棄却時におけるアクションの実行を制御する場合もあるが、当該アクションは、上記の応答処理には含まれないものとする。本実施形態に係る知的処理部２３０が有する機能の詳細については別途後述する。

　（出力制御部２４０）
　本実施形態に係る出力制御部２４０は、知的処理部２３０が決定した応答処理に基づいて、情報処理端末１０による応答情報の出力を制御する機能を有する。

　（端末通信部２５０）
　本実施形態に係る端末通信部２５０は、ネットワーク３０を介して、情報処理端末１０との情報通信を行う。例えば、端末通信部２５０は、情報処理端末１０から、音情報、画像情報、センサ情報などを受信する。また、端末通信部２５０は、出力制御部２４０が生成した応答情報の出力制御に係る制御信号を情報処理端末１０に送信する。

　以上、本実施形態に係る情報処理サーバ２０の機能構成例について説明した。なお、図３を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ２０の機能構成は係る例に限定されない。例えば、上記に示した構成は、複数の装置により分散されて実現されてもよい。また、上述したように、情報処理端末１０と情報処理サーバ２０が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理サーバ２０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．５．応答是非の判定＞＞
　次に、本実施形態に係る応答是非の判定について詳細に説明する。まず、ここで、音声対話機能を有する装置への一般的な音声入力手法について説明する。

　音声対話機能を有する装置への一般的な音声入力手法としては、例えば、ＰＴＴを用いる手法、起動ワードを用いる手法、および起動ワードとビームフォーミングを併用する手法などが挙げられる。

　ＰＴＴを用いる手法では、ユーザが音声入力を開始するボタンを押下することにより、装置による音声認識処理が開始される。この際、装置は、ユーザの発話が終了するタイミング、またはユーザがボタンから指などを放したタイミングまで音声入力を受け付ける。

　しかし、ＰＴＴを用いる手法では、ユーザが音声入力を行う前にボタンを押下することが求められるため煩雑であると同時に、ユーザの手元にボタンを配した装置があることが前提となる。

　また、起動ワードを用いる手法では、予め設定された起動ワードをユーザが発話することにより、装置による音声認識処理が開始される。この際、装置は、起動ワードに続いて入力される音声を受理する。

　しかし、起動ワードを用いる手法では、ユーザが音声入力を行う前に都度起動ワードを発話することが求められる。また、一般的に、起動ワードは、誤入力を回避するために日常会話では偶然に使用されないような言葉を用いる必要があるため、ユーザによっては発話しづらいなどの状況も想定される。

　また、起動ワードとビームフォーミングを併用する手法では、装置が、ユーザが起動ワードを発話した方向にビームフォーミングを設定し、当該方向からの音声を一定時間受け付ける。

　しかし、当該手法も起動ワードの使用を前提としているため、上記と同様の煩雑さや困難さが認められる。

　一方、本実施形態に係る情報処理方法によれば、ボタンの押下や起動ワードの発話を行わなくても精度高く応答是非の判定を行うことができ、ユーザの負荷を低減することが可能である。

　他方で、本実施形態に係る情報処理方法は、例えば、上述した起動ワードやビームフォーミングなどと併用して用いることも可能である。この場合、まず起動ワードやビームフォーミングなどにより応答是非を判定した後に、本実施形態に係る情報処理手法により、再度応答是非の判定を行うことで、応答是非に係る判定精度を大幅に向上させることが可能である。なお、以下においては、本実施形態に係る情報処理方法が、起動ワードやビームフォーミングとは併用されない場合を例に説明を行う。

　上述したように、本実施形態に係る知的処理部２３０は、入力音声の内容、入力音声のスタイル、出力情報の内容、出力情報のスタイル、およびコンテキストに基づいて、入力音声に対する応答処理を実行するか否かを判定する機能を有する。

　本実施形態に係る知的処理部２３０が、上記の要素を単独、または組み合わせて利用することにより、ユーザの意図する入力音声のみを精度高く検出し、ユーザの意図に沿った応答処理を行うことが可能である。

　例えば、本実施形態に係る知的処理部２３０が、入力音声のスタイルを単独で利用して、応答是非を判定してもよい。具体的には、本実施形態に係る知的処理部２３０は、入力音声のスタイルに基づいて、入力音声が応答処理を意図して入力されたものか否かを判定し、当該判定の結果に基づいて、応答処理を実行するか否かを判定することができる。

　この際、本実施形態に係る知的処理部２３０は、例えば、入力音声のスタイルに基づいて、当該入力音声が入力される要因となった音声行動を特定し、当該音声行動に基づいて、応答処理を実行するか否かを判定してもよい。

　ここで、本実施形態に係る音声行動とは、人が行う、発声を伴う種々の行動であってよい。音声行動には、例えば、通常発話、歌唱、音読、感情表現、非言語発話（ボイスパーカッションなど）が含まれる。

　上記の通常発話には、命令、依頼（お願い）、質問（疑問）、挨拶、呼びかけ、相槌、フィラー、また上記に該当しない標準発話などが挙げられる。

　また、上記の歌唱には、ポップス、歌謡曲、民謡、フォークソング、リズム＆ブルース、ロック、メタル、ラップ、オペラなどの様々なジャンルの歌の歌唱が含まれる。

　また、上記の音読には、物語などの朗読、単語などの発音練習、浪曲、演技の練習などが含まれてよい。

　また、上記の感情表現には、笑い声、泣き声、掛け声、叫び声、歓声、悲鳴などが挙げられる。

　このように、音声行動には多様な行動が含まれるが、一方で、応答処理を意図するものと想定されるのは、通常発話における一部の音声行動のみである。このため、本実施形態に係る知的処理部２３０は、特定した音声行動が、応答処理を意図するものとは認められない場合、入力音声を棄却し、応答処理を実行しなくてよい。

　例えば、知的処理部２３０は、音声スタイルに基づいて特定した音声行動が歌唱である場合、ユーザの音声は、応答処理を意図するものではないと判定し、当該音声を棄却することができる。また、音声行動が、音読、感情表現、その他の非言語発話である場合も同様である。

　本実施形態に係る知的処理部２３０が有する上記の機能によれば、ユーザが発声した音声であっても、応答処理を期待していないことが推定される場合には、当該音声を棄却することで、ユーザの想定しない応答処理が誤って実行されるのを防止することが可能となる。

　また、知的処理部２３０は、ある特定の音源から入力される入力音声に基づく音声行動の推定履歴を利用することで、当該特定の音源が何であるかを推測し、当該推定の結果を応答是非の判定に用いることも可能である。例えば、知的処理部２３０は、ある特定の音源からの入力される入力音声から音声行動「歌唱」ばかりが推定される場合、当該特定の音源がオーディオプレイヤーであると推測し、以降、当該特定の音源からの入力音声を棄却することができる。

　一方、知的処理部２３０は、ある特定の音源から音声行動「フィラー」が所定の割合以上で検出された場合、当該特定の音源がテレビジョン装置ではなく、情報処理端末１０の周囲に実際に存在する人である可能性（入力音声がアナウンサーの発話ではない可能性）が高いと推測し、以降の応答是非判定に利用することが可能である。

　なお、本実施形態に係る知的処理部２３０は、例えば、入力音声に係る入力波形をフレームに分解し、フレームごとの特徴量を抽出することで、種々の音声行動を特定してもよい。上記の特徴量としては、例えば、パワー、基本周波数（Ｆ０）、ゼロ交差数、メル周波数ケプストラム係数（ＭＦＣＣ）、スペクトル形状などが挙げられる。

　以上、本実施形態に係る音声行動に基づく応答是非の判定について説明した。続いて、本実施形態に係る音韻的な特徴に基づく応答是非の判定について説明する。上記では、本実施形態に係る知的処理部２３０が、入力音声のスタイルから特定される音声行動に基づいて、応答是非を判定する場合について説明した。

　一方、同一の音声行動であっても、発話が行われる状況によっては、音韻的な特徴は変化することが想定される。例えば、音声行動が「通常発話」である場合であっても、直接その場にいる相手（情報処理端末１０を含む）に対して発話を行う場合と、電話などの通話相手に発話を行う場合では、音韻的特徴に変化が生じる。また、その場にいる相手に対して発話を行う場合であっても、相手が１人なのか複数なのか（例えば、プレゼンテーションなど）によって、音韻的特徴は変化し得る。

　このため、本実施形態に係る知的処理部２３０は、入力音声のスタイルが、所定環境において有意に検出される音声のスタイルと類似するか否かを判定し、当該判定の結果に基づいて、応答処理を実行するか否かを判定してもよい。

　より具体的には、本実施形態に係る知的処理部２３０は、入力音声のスタイルから抽出した音韻的特徴が、所定環境において有意に検出される音声の音韻的特徴と類似する場合、入力音声を棄却し、応答処理を実行しないでよい。

　ここで、上記の所定環境において有意に検出される音声のスタイルとは、所定の場面や職業などにおいて、他には見られない、目立って特徴的な音声のスタイルを指す。当該音声のスタイルには、例えば、アナウンサーなどが話す一般人とは異なる特徴的な音声のスタイルが該当する。

　本実施形態に係る知的処理部２３０は、例えば、入力音声の音声スタイルから抽出された音韻的特徴がアナウンサーの音声スタイルに係る音韻的特徴と類似する場合、当該入力音声は、ユーザの発話ではなく、テレビジョン装置などから出力されたニュース番組のアナウンサーの発話であると推定し、当該入力音声を棄却することが可能である。

　なお、上記の所定の場面や職業には、ニュース番組のアナウンサーの他に、例えば、駅または電車内におけるアナウンス、バスガイド、ドラマやアニメの登場人物、選挙演説、演劇などの芝居、落語、歌舞伎、合成音声、ロボットなどが挙げられる。

　以上、本実施形態に係る音韻的な特徴に基づく応答是非の判定について説明した。続いて、本実施形態に係る感情推定に基づく応答是非の判定について説明する。本実施形態に係る知的処理部２３０は、例えば、入力音声の音声スタイルから推定される感情に基づいて、応答是非を判定してもよい。

　一般的に、エージェント装置と対話を行うユーザは、人と話す場合と比較して感情的にならずに、音声入力を行うことが想定される。このため、本実施形態に係る知的処理部２３０は、入力音声のスタイルから推定された感情の度合いが閾値を超える場合などには、当該入力音声が応答処理を期待するものではないと判定することも可能である。

　上記の感情には、例えば、喜び、怒り、悲しみ、楽しさ、不安、興奮などが挙げられる。

　以上説明したように、本実施形態に係る知的処理部２３０は、入力音声の音声スタイルのみからでも多様な分析を行い、当該分析の結果に基づいて応答是非を精度高く判定することが可能である。また、知的処理部２３０は、上述したような複数の分析結果を組み合わせることで、判定の精度をより向上させることも可能である。

　一方、本実施形態に係る知的処理部２３０は、入力音声のスタイルのみではなく、入力音声の内容、出力情報の内容、出力情報のスタイル、および種々のコンテキストを組み合わせて利用することで、より高次な応答是非判定を実現することも可能である。なお、上述したように、上記の出力情報には、出力音声、出力される視覚情報や動作などが含まれる。以下においては、知的処理部２３０が出力音声の内容および出力音声のスタイルに基づいて応答是非を判定する場合を主な例として説明する。

　以下では、本実施形態に係る知的処理部２３０が、上記の要素を単体で、あるいは組み合わせ実現する応答是非判定について、具体例を挙げながら説明する。

　＜＜１．６．応答是非判定の具体例＞＞
　まず、本実施形態に係る知的処理部２３０が、入力音声の内容を単体で用いて応答是非を判定する場合の例について説明する。図４は、本実施形態に係る入力音声の内容に基づく応答是非判定の一例を示す図である。

　図４には、情報処理端末１０とは異なる他のエージェント装置５０に対し、ユーザＵが音声入力を行った場合の一例が示されている。この際、入力音声の内容には、図中右側に示すように、「ハロー　エージェント」、という他のエージェント装置５０に対する起動ワードが含まれている。

　このように、入力音声の内容に他の端末の機能を実行させるための起動ワードが含まれる場合、知的処理部２３０は、当該入力音声を棄却し、応答処理を実行しないでよい。

　本実施形態に係る知的処理部２３０が有する上記の機能によれば、他のエージェント装置に対する依頼や指示などの入力音声を誤って受理し、ユーザが想定しない応答処理を行うことを防止することが可能となる。

　また、図５は、本実施形態に係る入力音声のスタイルから推定される音声行動に基づく応答是非判定の一例を示す図である。図５には、ユーザＵが情報処理端末１０の近辺において歌っている場合の一例が示されている。この際、本実施形態に係る知的処理部２３０は、図中右側に示すように、入力音声のスタイルから音声行動「歌唱」を特定することが可能である。

　この場合、知的処理部２３０は、音声行動「歌唱」が一般的に応答処理を意図するものとは認められないことから、入力音声を棄却し、応答処理を実行しないでよい。

　一方、上記のように入力音声を棄却する場合、知的処理部２３０は、入力音声の棄却に係るフィードバックを情報処理端末１０に出力させてもよい。この際、知的処理部２３０は、何を要因として入力音声の棄却を行ったのかを明示的または暗示的にユーザに示すことが可能である。

　図５に示す一例の場合、知的処理部２３０は、「よい歌ですね。私も歌いたくなってきました」、という音声発話ＳＯ１を情報処理端末１０に出力させている。当該フィードバックによれば、ユーザＵは、歌いながらではコマンドが入力できないことを自然に学習することができる。

　なお、図５では、知的処理部２３０が特定した音声行動に基づいて入力音声を棄却する場合のフィードバックについて一例を示したが、知的処理部２３０は、上述した所定環境において有意に検出される音声のスタイルや、推定した感情などに基づいて入力音声を棄却し、また棄却に係るフィードバックを情報処理端末１０に出力させてもよい。また、知的処理部２３０は、音声行動、上記の所定環境、感情の種別などに基づいて、フィードバックの内容を決定してよい。

　また、知的処理部２３０は、音声入力のスタイルに基づいて入力音声を棄却した場合のみではなく、音声入力の内容、出力情報の内容、出力情報のスタイル、コンテキストのいずれか、または組み合わせに基づいて棄却を行った場合も同様に、上記のようなフィードバックを情報処理端末１０に出力させることができる。

　また、図６は、本実施形態に係る所定環境において有意に検出される音声スタイルとの類似性に基づく応答是非判定の一例を示す図である。図６には、情報処理端末１０の近辺に存在するテレビジョン装置４０が、ニュース番組を再生している場合の一例が示されている。この際、本実施形態に係る知的処理部２３０は、図中右側に示すように、入力音声のスタイルがアナウンサーに特徴的な音声のスタイルに類似することを検出することができる。

　この場合、知的処理部２３０は、入力音声に係る滑舌がプロフェッショナルなアナウンサーのレベルであることから、当該入力音声がユーザのものではないと推定し、当該入力音声を棄却してよい。本実施形態に係る知的処理部２３０が有する上記の機能によれば、テレビジョン装置や他のエージェント装置が出力する音声に誤って応答処理を行う可能性を効果的に低減することが可能である。

　一方、入力音声のスタイルが所定環境において有意に検出される音声スタイルと類似する場合であっても、近辺に入力音声を発話したと推定されるユーザが検出された場合には、知的処理部２３０は、当該入力音声を受理してよい。

　図７には、滑舌のよいユーザＵが、応答処理を期待して情報処理端末１０に向かって発話を行った場合の一例が示されている。この際、本実施形態に係る知的処理部２３０は、図中右側に示すように、入力音声のスタイルがアナウンサーに特徴的な音声のスタイルに類似することを検出する。

　一方、図７に示す一例では、図６の場合とは異なり、コンテキストとして、「近辺に存在するユーザが発話」したことが認識されている。この場合、知的処理部２３０は、当該コンテキストに基づいて入力音声を受理し、応答処理を実行することができる。なお、コンテキスト認識部２２０は、例えば、撮像された画像からユーザの口の動きなどを検出することで、ユーザが発話を行っていることを認識することが可能である。

　このように、本実施形態に係る知的処理部２３０は、音声入力スタイルに加え、コンテキストを用いることで、応答是非に係る判定精度を高めることが可能である。知的処理部２３０は、例えば、「ユーザが近辺にいない状況で垂直方向に近い角度から音声が入力された」場合などにも、当該状況をコンテキストとして認識し、入力された音声を棄却することができる。

　以上、知的処理部２３０が入力音声のスタイルを単体で、あるいはコンテキストと組み合わせて利用して、応答是非を判定する場合の例について述べた。なお、知的処理部２３０が入力音声のスタイル単体で応答是非を判定する別の例としては、例えば、音声スタイルの口調によって応答是非を判定する場合などが挙げられる。この際、知的処理部２３０は、起動ワードを発話したユーザの口調を学習し、当該口調と入力音声の口調を比較することで、応答是非を判定することができる。また、知的処理部２３０は、入力音声の入力方向が、例えば窓の方向など、室内ではない方向から入力された場合、当該入力音声を棄却するなどの判定を行うことが可能である。

　次に、本実施形態に係る入力音声のスタイルと出力情報のスタイルとに基づく応答是非の判定について説明する。図８は、本実施形態に係る入力音声のスタイルと出力情報のスタイルとに基づく応答是非判定の一例を示す図である。

　図８には、情報処理端末１０が音楽を出力している状況において、ユーザＵが歌っている場合の一例が示されている。この際、入力音声のメロディラインと出力音声のメロディラインは、図中右側に示すように類似する。

　このように、入力音声のスタイルと出力音声のスタイルとが類似する場合、ユーザが情報処理端末１０から出力される音声に合わせて歌っていることが想定される。このため、知的処理部２３０は、当該入力音声を棄却し、応答処理を実行しないでよい。

　また、上記のような出力音声に合わせた歌唱は、入力内容および出力内容とに基づいて推定することも可能である。図９は、本実施形態に係る入力内容および出力内容とに基づく応答是非判定の一例を示す図である。

　図９には、情報処理端末１０が音楽を出力している状況において、ユーザＵが歌っている場合の一例が示されている。この際、入力音声の内容および出力音声の内容、すなわち歌詞はほぼ一致することが想定される。

　このため、知的処理部２３０は、入力音声の内容と出力音声の内容とが類似する場合、当該入力音声を棄却し、応答処理を実行しないでよい。なお、知的処理部２３０は、音声に限らず、例えば、入力ジェスチャと出力ジェスチャの内容が類似する場合には、当該入力ジェスチャを棄却するなどの制御を行うことも可能である。

　次に、入力音声のスタイル、入力音声の内容、出力音声のスタイル、および出力音声の内容に基づく応答是非判定について説明する。図１０は、入力音声のスタイル、入力音声の内容、出力音声のスタイル、および出力音声の内容に基づく応答是非判定の一例を示す図である。

　図１０には、情報処理端末１０が英文を出力している状況において、ユーザＵが当該英文をリピートしている場合の一例が示されている。この際、入力音声の内容および出力音声の内容は、図９に示した一例と同様にほぼ一致することが想定される。

　また、図１０に示すような一例の場合、入力音声の入力タイミングは、出力音声の出力タイミングに少し遅れることが想定される。

　このように、入力音声のスタイル、入力音声の内容、出力音声のスタイル、および出力音声の内容に基づいて、入力音声が出力音声をリピートしていることが推定される場合、知的処理部２３０は、当該入力音声を棄却し、応答処理を実行しないでよい。

　本実施形態に係る知的処理部２３０が有する上記の機能によれば、語学学習などを行っているユーザの発話を誤って受理対象とし、ユーザの期待しない応答動作を行う可能性を効果的に低減することが可能である。

　また、図１１は、入力音声のスタイルおよび入力音声の内容に基づく応答是非判定の別の一例を示す図である。

　図１１には、ユーザＵが東京の天気を尋ねる発話を情報処理端末１０に対し行う場合の一例が示されている。図１１に示す一例の場合、知的処理部２３０は、入力音声のスタイルとして音の高低を取得している。

　この際、ユーザＵによる入力音声が情報の問い合わせを目的としたものである場合、入力音声のスタイルは、語尾が上がった疑問形であり、かつ入力音声の内容は、語尾が終止形であることが予想される。

　このため、本実施形態に係る知的処理部２３０は、入力音声のスタイルが疑問形であり、かつ入力音声の内容に係る語尾が終止形である場合、当該入力音声を受理し、応答処理を実行してよい。図１１に示す一例の場合、知的処理部２３０は、東京は晴れる旨を通知する音声発話ＳＯ２を情報処理端末１０に出力させている。一方、知的処理部２３０は、入力音声のスタイルが、語尾が下がる断定形である場合には、入力音声を棄却してよい。

　このように、本実施形態に係る知的処理部２３０によれば、入力音声の内容と入力音声のスタイルとに基づいて、当該入力音声が問い合わせなどを目的としたものかを判定することが可能である。

　以上、本実施形態に係る入力音声のスタイルおよび入力音声の内容に基づく応答是非の判定について説明した。なお、知的処理部２３０が入力音声のスタイルおよび入力音声の内容に基づいて応答是非を判定する別の例としては、例えば、音声入力スタイルから音声行動「歌唱」が特定されている場合であっても、入力音声の内容からユーザが歌っている歌が既存の歌詞ではない場合、ユーザが歌いながら情報処理端末１０に対する音声入力を実行している可能性を考慮して当該入力音声を受理する場合などが挙げられる。

　次に、本実施形態に係るコンテキストに基づく応答是非の判定について説明する。図１２は、本実施形態に係るコンテキストに基づく応答是非判定の一例を示す図である。

　図１２には、ユーザＵが情報処理端末１０に背を向けて発話を行った場合の一例が示されている。この際、知的処理部２３０は、入力音声の発話者であるユーザＵが情報処理端末１０の方向を向いていないことがコンテキストとして検出されたことに基づいて、ユーザＵが他者と会話を行っているか、電話で話している、あるいは独り言を喋っていると推定し、当該入力音声を棄却してよい。

　本実施形態に係る知的処理部２３０が有する上記の機能によれば、応答処理を期待しないユーザの発話を誤って受理し、ユーザの会話などを妨害する可能性を効果的に低減することが可能である。

　以上、本実施形態に係るコンテキストを単体で用いた応答是非判定について説明した。なお、知的処理部２３０がコンテキスト単体から応答是非を判定する別の例としては、ユーザが別のエージェントの方向を向いている場合、ユーザが未登録ユーザなどの所定の属性を有する場合、ユーザが所定の所在地に居る場合、ユーザが所定の行動を行っている場合などが挙げられる。

　続いて、本実施形態に係るコンテキストと入力音声の内容とに基づく応答是非の判定について説明する。図１３～図１８は、本実施形態に係るコンテキストと入力音声の内容とに基づく応答是非判定の一例を示す図である。

　図１３には、ユーザＵがイヤホンをしている状態で、「音量最大」という内容の入力音声が認識された場合の一例が示されている。なお、図１３では、情報処理端末１０が、スマートフォンである場合の一例が示されている。

　この際、知的処理部２３０は、情報処理端末１０がイヤホン出力モードであることがコンテキストとして認識されたことに基づいて、音量調整に係る入力音声を棄却してよい。これは、イヤホンを装着中に音量を急激に上げることなどにより、ユーザＵの耳に損傷を与える可能性を排除するためである。

　なお、図示するように、イヤホン出力などに係る各種の出力モードの情報は、コンテキストとして認識されることに加え、出力音声のスタイルの１つとして検出されてもよい。

　図１４には、情報処理端末１０がミュートモードである状態において、「音量を上げて」という内容の入力音声が認識された場合の一例が示されている。

　この際、知的処理部２３０は、情報処理端末１０がミュートモードであることがコンテキストまたは出力音声のスタイルとして検出されたことに基づいて、音量調整に係る入力音声を棄却してよい。これは、音量調整に係る入力音声がユーザの発話によるものではない場合に、誤ってミュートモードを解除する可能性を排除するためである。

　また、図１５には、ユーザＵが電車に乗っている状態がコンテキストとして検出されている状態において、「メール届いてる」という内容の入力音声が認識された場合の一例が示されている。また、図１５に示す一例では、情報処理端末１０がスピーカ出力モードであることがコンテキストまたは出力音声のスタイルとして検出されている。

　この際、知的処理部２３０は、電車内で個人情報を含み得るメールの内容をスピーカ出力することを回避するため、入力音声を棄却し、応答処理を実行しなくてもよい。このように、本実施形態に係る知的処理部２３０は、動作モードに応じて受理できないコマンド（入力音声）を棄却することが可能である。

　また、知的処理部２３０は、動作モードに応じてコマンドを棄却する場合、当該コマンドを棄却する理由をユーザに対し通知させてもよい。図１６には、ユーザＵが電車に乗っている状態、および電車内が閾値以上に混雑していることがコンテキストとして検出されている状態において、「田中さんに電話掛けて」という内容の入力音声が認識された場合の一例が示されている。

　この際、知的処理部２３０は、周りの乗客の迷惑とならないように配慮し、入力音声を棄却してよい。また、知的処理部２３０は、例えば、図示するように、電車内が混雑しているため電話機能が利用できない旨を音声発話ＳＯ３などによりユーザＵに通知してよい。このように、知的処理部２３０がコマンドの棄却理由に係るフィードバックを制御することで、ユーザが特定の動作モードでは特定のコマンドが使用できないことを自然に学習することが可能となる。なお、電車内の混雑度が著しく高い場合などにおいては、知的処理部２３０は、電話機能が利用できない旨を視覚情報により表示させてよい。

　また、図１７には、ユーザＵが電車に乗っている状態、および電車内の混雑度が閾値未満であることがコンテキストとして検出されている状態において、「田中さんに電話掛けて」という内容の入力音声が認識された場合の一例が示されている。

　この際、知的処理部２３０は、電車が空いており周りの乗客の迷惑となる可能性が低いことから、入力音声を受理し、応答処理を実行してよい。図１７に示す一例の場合、知的処理部２３０は、田中さんに電話を掛ける旨の音声発話ＳＯ４を情報処理端末１０に出力させ、その後、架電の制御に係る処理を実行する。

　また、図１８には、ユーザＵにビームフォーミングが張られていることがコンテキストとして検出されている状態において、他のエージェント装置５０の起動ワードを含む内容の入力音声が認識された場合の一例が示されている。

　この際、知的処理部２３０は、上記の起動ワードが認識されたことに基づいて、ユーザＵにビームフォーミングが張られている状態であっても、入力音声を棄却し、応答処理を実行しないでよい。本実施形態に係る知的処理部２３０が有する上記の機能によれば、ユーザが複数のエージェント装置を使い分けている場合であっても、ユーザの意図しない応答処理を実行する可能性を排除することが可能である。なお、知的処理部２３０は、ユーザにビームフォーミングが張られている場合に限定されず、情報処理端末１０を基準としたある方向にビームフォーミングが張られている場合においても、上記と同様の判定を行うことが可能である。

　以上、本実施形態に係る入力音声の内容とコンテキストとに基づく応答是非の判定について説明した。なお、知的処理部２３０が、入力音声の内容とコンテキストとに基づいて応答是非を判定する別の例としては、例えば、ユーザが子供であることがコンテキストとして認識されている状態において、決済を指示する内容の入力音声が認識された場合、責任能力や判断能力が不十分である可能性を考慮し、当該入力音声を棄却する場合などが挙げられる。

　以上説明したように、本実施形態に係る知的処理部２３０は、入力音声の内容、入力音声のスタイル、出力音声の内容、出力音声のスタイル、コンテキストのいずれか、または組み合わせに基づいて、精度の高い応答是非判定を実現することが可能である。

　＜＜１．７．動作の流れ＞＞
　次に、本実施形態に係る情報処理サーバ２０の動作の流れについて詳細に説明する。図１９は、本実施形態に係る情報処理サーバ２０の動作の流れを示すフローチャートである。

　図１９を参照すると、まず、端末通信部２５０が、情報処理端末１０が収集した音声信号を受信する（Ｓ１１０１）。

　次に、知的処理部２３０は、音声認識部２１０により入力音声が検出されたか否かを判定する（Ｓ１１０２）。

　ここで、音声認識部２１０により入力音声が検出されていない場合（Ｓ１１０２：Ｎｏ）、情報処理サーバ２０は、ステップＳ１１０１に復帰する。

　一方、音声認識部２１０により入力音声が検出された場合（Ｓ１１０２：Ｙｅｓ）、知的処理部２３０は、検出された入力音声の特徴量を抽出する（Ｓ１１０３）。また、知的処理部２３０は、出力音声の特徴量を抽出してもよい。

　続いて、知的処理部２３０は、ステップＳ１１０３において抽出した特徴量に基づいて、入力音声を受理するか否かを判定する（Ｓ１１０４）。

　ここで、入力音声を受理する場合（Ｓ１１０４：Ｙｅｓ）、知的処理部２３０は、入力音声に基づいて受理時のアクションを実行する（Ｓ１１０５）。

　一方、入力音声を棄却する場合（Ｓ１１０４：Ｎｏ）、知的処理部２３０は、入力音声に基づいて棄却時のアクションを実行する（Ｓ１１０６）。

　＜２．ハードウェア構成例＞
　次に、本開示の一実施形態に係る情報処理サーバ２０のハードウェア構成例について説明する。図２０は、本開示の一実施形態に係る情報処理サーバ２０のハードウェア構成例を示すブロック図である。図２０を参照すると、情報処理サーバ２０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（プロセッサ８７１）
　プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、またはレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜３．まとめ＞
　以上説明したように、本開示の一実施形態に係る情報処理サーバ２０は、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも１つ以上に基づいて、入力音声に対する応答処理を実行するか否かを判定する知的処理部２３０を備える。係る構成によれば、入力音声に対する応答是非を精度高く判定することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、情報処理サーバ２０が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

　また、本明細書の情報処理サーバ２０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ２０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　入力音声のスタイルまたは出力音声のスタイルのうち少なくとも１つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定する知的処理部、
　を備える、
情報処理装置。
（２）
　前記知的処理部は、前記入力音声のスタイルに基づいて、前記入力音声が前記応答処理を意図して入力されたものか否かを判定し、当該判定の結果に基づいて、前記応答処理を実行するか否かを判定する、
前記（１）に記載の情報処理装置。
（３）
　前記知的処理部は、前記入力音声のスタイルに基づいて前記入力音声が入力される要因となった音声行動を特定し、前記音声行動に基づいて、前記応答処理を実行するか否かを判定する、
前記（１）または（２）に記載の情報処理装置。
（４）
　前記知的処理部は、前記音声行動が前記応答処理を意図するものとは認められない場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記（３）に記載の情報処理装置。
（５）
　前記応答処理を意図するものとは認められない前記音声行動は、歌唱、音読、または感情表現のうち少なくともいずれかを含む、
前記（４）に記載の情報処理装置。
（６）
　前記知的処理部は、前記入力音声のスタイルが、所定環境において有意に検出される音声のスタイルと類似するか否かを判定し、当該判定の結果に基づいて、前記応答処理を実行するか否かを判定する、
前記（１）～（５）のいずれかに記載の情報処理装置。
（７）
　前記知的処理部は、前記入力音声のスタイルから抽出した特徴が、前記所定環境において有意に検出される音声の特徴と類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記（６）に記載の情報処理装置。
（８）
　前記知的処理部は、前記入力音声のスタイルから抽出した特徴が、前記所定環境において有意に検出される音声の特徴と類似し、かつ前記入力音声を発声したと推定されるユーザの存在が検出された場合、前記入力音声を受理し、前記応答処理を実行する、
前記（７）に記載の情報処理装置。
（９）
　前記知的処理部は、前記入力音声のスタイルと前記出力音声のスタイルとが類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記（１）～（８）のいずれかに記載の情報処理装置。
（１０）
　前記出力音声のスタイルは、出力モードの設定を含む、
前記（１）～（９）のいずれかに記載の情報処理装置。
（１１）
　前記知的処理部は、前記入力音声の内容にさらに基づいて、前記応答処理を実行するか否かを判定する、
前記（１）～（１０）のいずれかに記載の情報処理装置。
（１２）
　前記知的処理部は、前記入力音声のスタイルが疑問形であり、かつ前記入力音声の内容に係る語尾が終止形である場合、前記入力音声を受理し、前記応答処理を実行する、
前記（１１）に記載の情報処理装置。
（１３）
　前記知的処理部は、前記入力音声の内容に他の端末の機能を実行させるための起動ワードが含まれる場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記（１１）または（１２）に記載の情報処理装置。
（１４）
　前記知的処理部は、前記出力音声の内容にさらに基づいて、前記応答処理を実行するか否かを判定する、
前記（１）～（１２）のいずれかに記載の情報処理装置。
（１５）
　前記知的処理部は、前記入力音声の内容と前記出力音声の内容とが類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記（１３）に記載の情報処理装置。
（１６）
　前記知的処理部は、前記入力音声が前記出力音声をリピートしていることが推定される場合、前記入力音声を棄却し、前記応答処理を実行しない、
前記（１３）または（１４）に記載の情報処理装置。
（１７）
　前記知的処理部は、検出されたコンテキストにさらに基づいて、前記応答処理を実行するか否かを判定する、
前記（１）～（１５）のいずれかに記載の情報処理装置。
（１８）
　前記知的処理部は、前記入力音声を棄却した場合、前記入力音声の棄却に係るフィードバックを出力させる、
前記（１）～（１７）のいずれかに記載の情報処理装置。
（１９）
　前記入力音声のスタイルは、音声の大きさ、音声の高さ、声色、リズムのうち少なくとも１つを含む、
前記（１）～（１８）のいずれかに記載の情報処理装置。
（２０）
　プロセッサが、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも１つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定すること、
　を含む、
情報処理方法。

　１０　　　情報処理端末
　１１０　　表示部
　１２０　　音声出力部
　１３０　　音声入力部
　１４０　　撮像部
　１５０　　センサ部
　１６０　　制御部
　１７０　　サーバ通信部
　２０　　　情報処理サーバ
　２１０　　音声認識部
　２２０　　コンテキスト認識部
　２３０　　知的処理部
　２４０　　出力制御部
　２５０　　端末通信部

Claims

　入力音声のスタイルまたは出力音声のスタイルのうち少なくとも１つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定する知的処理部、
　を備える、
情報処理装置。
　前記知的処理部は、前記入力音声のスタイルに基づいて、前記入力音声が前記応答処理を意図して入力されたものか否かを判定し、当該判定の結果に基づいて、前記応答処理を実行するか否かを判定する、
請求項１に記載の情報処理装置。
　前記知的処理部は、前記入力音声のスタイルに基づいて前記入力音声が入力される要因となった音声行動を特定し、前記音声行動に基づいて、前記応答処理を実行するか否かを判定する、
請求項１に記載の情報処理装置。
　前記知的処理部は、前記音声行動が前記応答処理を意図するものとは認められない場合、前記入力音声を棄却し、前記応答処理を実行しない、
請求項３に記載の情報処理装置。
　前記応答処理を意図するものとは認められない前記音声行動は、歌唱、音読、または感情表現のうち少なくともいずれかを含む、
請求項４に記載の情報処理装置。
　前記知的処理部は、前記入力音声のスタイルが、所定環境において有意に検出される音声のスタイルと類似するか否かを判定し、当該判定の結果に基づいて、前記応答処理を実行するか否かを判定する、
請求項１に記載の情報処理装置。
　前記知的処理部は、前記入力音声のスタイルから抽出した特徴が、前記所定環境において有意に検出される音声の特徴と類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
請求項６に記載の情報処理装置。
　前記知的処理部は、前記入力音声のスタイルから抽出した特徴が、前記所定環境において有意に検出される音声の特徴と類似し、かつ前記入力音声を発声したと推定されるユーザの存在が検出された場合、前記入力音声を受理し、前記応答処理を実行する、
請求項７に記載の情報処理装置。
　前記知的処理部は、前記入力音声のスタイルと前記出力音声のスタイルとが類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
請求項１に記載の情報処理装置。
　前記出力音声のスタイルは、出力モードの設定を含む、
請求項１に記載の情報処理装置。
　前記知的処理部は、前記入力音声の内容にさらに基づいて、前記応答処理を実行するか否かを判定する、
請求項１に記載の情報処理装置。
　前記知的処理部は、前記入力音声のスタイルが疑問形であり、かつ前記入力音声の内容に係る語尾が終止形である場合、前記入力音声を受理し、前記応答処理を実行する、
請求項１１に記載の情報処理装置。
　前記知的処理部は、前記入力音声の内容に他の端末の機能を実行させるための起動ワードが含まれる場合、前記入力音声を棄却し、前記応答処理を実行しない、
請求項１１に記載の情報処理装置。
　前記知的処理部は、前記出力音声の内容にさらに基づいて、前記応答処理を実行するか否かを判定する、
請求項１に記載の情報処理装置。
　前記知的処理部は、前記入力音声の内容と前記出力音声の内容とが類似する場合、前記入力音声を棄却し、前記応答処理を実行しない、
請求項１３に記載の情報処理装置。
　前記知的処理部は、前記入力音声が前記出力音声をリピートしていることが推定される場合、前記入力音声を棄却し、前記応答処理を実行しない、
請求項１３に記載の情報処理装置。
　前記知的処理部は、検出されたコンテキストにさらに基づいて、前記応答処理を実行するか否かを判定する、
請求項１に記載の情報処理装置。
　前記知的処理部は、前記入力音声を棄却した場合、前記入力音声の棄却に係るフィードバックを出力させる、
請求項１に記載の情報処理装置。
　前記入力音声のスタイルは、音声の大きさ、音声の高さ、声色、リズムのうち少なくとも１つを含む、
請求項１に記載の情報処理装置。
　プロセッサが、入力音声のスタイルまたは出力音声のスタイルのうち少なくとも１つ以上に基づいて、前記入力音声に対する応答処理を実行するか否かを判定すること、
　を含む、
情報処理方法。