WO2023058515A1

WO2023058515A1 - 情報処理方法、情報処理システム、及びプログラム

Info

Publication number: WO2023058515A1
Application number: PCT/JP2022/036130
Authority: WO
Inventors: 健太郎柴田; ミヒャエルヘンチェル; 寛黒田; 裕一郎小山; 匡伸中村; 浩明小川; 崇澁谷; 典子戸塚; 俊允上坂; 敬一山田; 衣未留角尾
Original assignee: ソニーグループ株式会社
Priority date: 2021-10-07
Filing date: 2022-09-28
Publication date: 2023-04-13

Abstract

情報処理方法は、位置情報及び環境情報の少なくとも一方を取得する取得ステップと、前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識ステップと、前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御を行う制御ステップと、を有する。

Description

情報処理方法、情報処理システム、及びプログラム

　本開示は、情報処理方法、情報処理システム、及びプログラムに関する。

　音出力装置（例えば、ヘッドホン、ヘッドセット、又はイヤホン）は、ユーザの没入感を高めるための機能又は構造を備えることがある。例えば、音出力装置は、ノイズキャンセリング機能を有していたり、遮音性の高い構造となっていたりすることがある。

特開２０１０－１８３４５１号公報

　このような音出力装置は、ユーザの没入感が高くなる反面、ユーザの利便性が低下することがある。例えば、ノイズキャンセリング機能付きのヘッドホンを装着しているユーザは、周りから呼びかけられてもその声に気付くことが難しい。

　そこで、本開示では、利便性が高い音出力装置を実現可能な情報処理方法、情報処理システム、及びプログラムを提案する。

　なお、上記課題又は目的は、本明細書に開示される複数の実施形態が解決し得、又は達成し得る複数の課題又は目的の１つに過ぎない。

　上記の課題を解決するために、本開示に係る一形態の情報処理方法は、位置情報及び環境情報の少なくとも一方を取得する取得ステップと、前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識ステップと、前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御を行う制御ステップと、を有する。

本開示の実施形態に係る情報処理システムの構成例を示す図である。語彙重みテーブルの一例を示す図である。話者重みテーブルの一例を示す図である。信頼度重みテーブルの一例を示す図である。第１の動作例に係る情報処理システムの機能ブロック図である。第１の動作例に係る外音取込処理を示すフローチャートである。音声認識の感度調整のためのパラメータを設定するためのスマートフォンのアプリの例を示す図である。音声認識の感度調整のためのパラメータを設定するためのスマートフォンのアプリの例を示す図である。音声認識の感度調整のためのパラメータを設定するためのスマートフォンのアプリの例を示す図である。音声認識の感度調整のためのパラメータを設定するためのスマートフォンのアプリの例を示す図である。第２の動作例に係る情報処理システムの機能ブロック図である。音響イベント重みテーブルの一例を示す図である。第３の動作例に係る外音取込処理を示すフローチャートである。第４の動作例に係る情報処理システムの機能ブロック図である。第５の動作例に係る情報処理システムの機能ブロック図である。外音通知の表示例を示す図である。第６の動作例に係る外音通知処理及び外音取込処理を示すフローチャートである。本開示の実施形態に係る情報処理システムの他の構成例を示す図である。本開示の実施形態に係る出力装置の構成例を示す図である。本開示の実施形態に係る端末装置の構成例を示す図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に説明される１又は複数の実施形態（実施例、変形例を含む）は、各々が独立に実施されることが可能である。一方で、以下に説明される複数の実施形態は少なくとも一部が他の実施形態の少なくとも一部と適宜組み合わせて実施されてもよい。これら複数の実施形態は、互いに異なる新規な特徴を含み得る。したがって、これら複数の実施形態は、互いに異なる目的又は課題を解決することに寄与し得、互いに異なる効果を奏し得る。

　また、以下に示す項目順序に従って本開示を説明する。
　　１．概要
　　２．システム構成
　　　２－１．情報処理装置
　　３．第１の動作例
　　　３－１．機能構成
　　　３－２．フローチャート
　　　３－３．音声認識の感度調整
　　４．第２の動作例
　　５．第３の動作例
　　６．第４の動作例
　　７．第５の動作例
　　８．第６の動作例
　　９．システム構成の他の例
　　　９－１．出力装置
　　　９－２．端末装置
　　１０．変形例
　　１１．むすび

＜＜１．概要＞＞
　音出力装置（例えば、ヘッドホン、ヘッドセット、又はイヤホン）は、ユーザの没入感を高めるための機能又は構造を備えることがある。例えば、音出力装置は、ノイズキャンセリング機能を有していたり、遮音性の高い構造となっていたりすることがある。

　このような音出力装置は、ユーザの没入感が高くなる反面、ユーザの利便性が低下することがある。例えば、遮音性の高い構造のイヤホンを装着してオフィスで仕事中をしているユーザは、同僚に話しかけられても、それに気付くことができないことがある。また、ノイズキャンセリング機能付きのヘッドホンを装着して音楽を聴いているユーザは、電車から降りる際にハンカチを落として近くにいた人に「すみません。落としましたよ。」と呼びかけられても、それに気付くことができないことがある。

　この問題を解決する手段として、音出力装置に音声認識機能を搭載し、音声認識機能が「すみません。」等の呼びかけキーワードを検出した際に、音出力装置が外音取込機能等でユーザに知らせる、という仕組みが考えられる。しかし、実際の運用を考えると、この仕組みでは、音声認識の誤検出によって呼びかけ以外の音声に反応してしまうことや、ユーザに関係ない呼びかけに反応してしまうことは避けられない。また、逆に、音出力装置が音声認識結果に確信が持てずに呼びかけを取りこぼしてしまうことも想定される。こうなると、音出力装置は、ユーザにストレスを与えたり、利便性を低下させたりする。

　そこで、本実施形態では、以下の方法により、上記の問題を解決する。

　まず、音出力装置はマイクロフォンで周辺の音声を検出する。そして、音出力装置は、検出した音声を基に音認識を行い、音出力装置を装着するユーザに対する呼びかけを検出する。その際、音出力装置は、ＧＰＳ情報やマイク入力からの音を解析することで、位置情報（例えば、自宅、オフィス等）や環境情報（例えば、電車内、屋外等）を取得して、その位置情報や環境情報を基に音認識（呼び掛け検出）の精度を調整する。音出力装置は、ユーザへの呼びかけが検出された場合、外音の取込に関する制御（外部の音をユーザが聞くための機能の制御）や外音の通知に関する制御を行う。例えば、音出力装置は、外音の取込に関する制御として外音取込機能（例えば、マイクで拾った外部の音をスピーカーから再生する機能）をオンにする。また、音出力装置は、外音の取込に関する制御として音楽の再生を停止したり、ボリュームを下げたりしてもよい。また、音出力装置は、外音の取込に関する制御としてノイズキャンセル機能をオフしたり、弱くしたりしてもよい。また、音出力装置が補聴機能を有しているのであれば、音出力装置は、外音の取込に関する制御として補聴機能をオンにしたり、強くしたりしてもよい。また、音出力装置は、通知音やバイブレーション機能で呼びかけがあったことをユーザに知らせてもよい。

　これにより、ユーザは、例えば、ノイズキャンセリング機能付きヘッドホン等を装着して耳が塞がれていたとしても、外部からの呼びかけを適切に把握することができる。また、呼びかけの誤検出や呼びかけ検出の頻繁な発生を減らすことができるので、ユーザのストレスを低減できる。また、呼びかけ検出の取りこぼしを減らすことができるので、ユーザの利便性が高まる。

　以上、本実施形態の概要を述べたが、以下、本実施形態の情報処理システム１を詳細に説明する。

＜＜２．システム構成＞＞
　図１は、本開示の実施形態に係る情報処理システム１の構成例を示す図である。情報処理システム１は、外音の取込に関する制御を可能にするシステムである。情報処理システム１は、図１に示すように、情報処理装置１０を備える。

　情報処理装置１０は、音出力装置を制御するコンピュータである。情報処理装置１０は、音出力装置そのものであってもよいし、音出力装置と通信で接続される、音出力装置とは別体の装置であってもよい。

　音出力装置は、典型的には、ヘッドホン、ヘッドセット、又はイヤホンである。本実施形態の音出力装置は、ユーザの没入感を高めるための機能又は構造を備えていてもよい。例えば、音出力装置は、ユーザの没入感が高くなるよう、ノイズキャンセリング機能が付いていてもよい。また、音出力装置は、遮音性の高い構造を備え、外音取込機能を備えていてもよい。

　なお、音出力装置は、ヘッドホン、ヘッドセット、又はイヤホンに限られない。例えば、音出力装置は、ネックバンド式スピーカーであってもよい。また、音出力装置は、ＡＲ（Augmented　Reality）デバイス、ＶＲ（Virtual　Reality）デバイス、ＭＲ（Mixed　Reality）デバイス等のｘＲデバイスであってもよい。このとき、ｘＲデバイスは、ＡＲグラス、ＭＲグラス等のメガネ型デバイスであってもよいし、ＶＲヘッドマウントディスプレイ等のヘッドマウント型デバイスであってもよい。

　また、音出力装置は、装着型の装置に限られず、例えば、据え置き型のスピーカーであってもよい。また、音出力装置は、パーソナルコンピュータ、携帯電話、スマートデバイス（スマートフォン、又はタブレット）、ＰＤＡ（Personal　Digital　Assistant）、ノートＰＣ等のモバイル端末であってもよい。また、音出力装置は、スマートウォッチ等のウェアラブルデバイスであってもよい。

　なお、情報処理装置１０は、持ち運び可能なＩｏＴ（Internet　of　Things）デバイスであってもよい。また、情報処理装置１０は、ＦＰＵ（Field　Pickup　Unit）等の通信機器が搭載されたバイクや移動中継車等であってもよい。また、情報処理装置１０は、ＩｏＴ（Internet　of　Things）デバイスであってもよい。また、情報処理装置１０は、ＰＣサーバ、ミッドレンジサーバ、メインフレームサーバ等のサーバ装置であってもよい。その他、情報処理装置１０には、あらゆる形態のコンピュータを採用可能である。

　情報処理装置１０は、図１に示すように、通信部１１と、記憶部１２と、制御部１３と、出力部１４と、センサ部１５と、撮像部１６と、を備える。なお、図１に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。また、情報処理装置１０の機能は、複数の物理的に分離された構成に分散して実装されてもよい。

　通信部１１は、他の装置と通信するための通信インタフェースである。例えば、通信部１１は、ＮＩＣ（Network　Interface　Card）等のＬＡＮ（Local　Area　Network）インタフェースである。また、通信部１１は、ＵＳＢ（Universal　Serial　Bus）等の機器接続インタフェースであってもよい。通信部１１は、有線インタフェースであってもよいし、無線インタフェースであってもよい。通信部１１は、制御部１３の制御に従って外部の装置と通信する。

　記憶部１２は、ＤＲＡＭ（Dynamic　Random　Access　Memory）、ＳＲＡＭ（Static　Random　Access　Memory）、フラッシュメモリ、ハードディスク等のデータ読み書き可能な記憶装置である。記憶部１２は、情報処理装置１０の記憶手段として機能する。記憶部１２は、語彙重みテーブルと、話者重みテーブルと、信頼度重みテーブルと、を記憶する。図２は、語彙重みテーブルの一例を示す図である。語彙重みテーブルは、複数の語彙それぞれに対する、位置情報及び／又は環境情報毎の重みを示したテーブルである。図３は、話者重みテーブルの一例を示す図である。話者重みテーブルは、複数の話者それぞれに対する、位置情報及び／又は環境情報毎の重みを示したテーブルである。図４は、信頼度重みテーブルの一例を示す図である。信頼度重みテーブルは、音認識結果の信頼度に対する、位置情報及び／又は環境情報毎の重みを示したテーブルである。

　なお、図２～図４の例では、重みテーブルは、語彙、話者、信頼度毎に独立したテーブルとなっているが、語彙、話者、信頼度の直積結合を取った一つのテーブルであってもよい。また、重みテーブルはデフォルトのものが予め記憶部１２に保持されていてもよい。また、情報処理システム１は、ユーザが重みテーブルを編集できるよう構成されていてもよい。

　制御部１３は、情報処理装置１０の各部を制御するコントローラ（controller）である。制御部１３は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等のプロセッサにより実現される。例えば、制御部１３は、情報処理装置１０内部の記憶装置に記憶されている各種プログラムを、プロセッサがＲＡＭ（Random　Access　Memory）等を作業領域として実行することにより実現される。なお、制御部１３は、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＳＩＣ、及びＦＰＧＡは何れもコントローラとみなすことができる。

　制御部１３は、取得部１３１と、音認識制御部１３２と、外音取込制御部１３３と、を備える。制御部１３を構成する各ブロック（取得部１３１～外音取込制御部１３３）はそれぞれ制御部１３の機能を示す機能ブロックである。これら機能ブロックはソフトウェアブロックであってもよいし、ハードウェアブロックであってもよい。例えば、上述の機能ブロックが、それぞれ、ソフトウェア（マイクロプログラムを含む。）で実現される１つのソフトウェアモジュールであってもよいし、半導体チップ（ダイ）上の１つの回路ブロックであってもよい。勿論、各機能ブロックがそれぞれ１つのプロセッサ又は１つの集積回路であってもよい。制御部１３は上述の機能ブロックとは異なる機能単位で構成されていてもよい。機能ブロックの構成方法は任意である。

　なお、制御部１３は上述の機能ブロックとは異なる機能単位で構成されていてもよい。また、制御部１３を構成する各ブロック（取得部１３１～外音取込制御部１３３）の一部又は全部の動作を、他の装置が行ってもよい。また、上述の各ブロックの名称は他の名称に言い換えることができる。例えば、音認識制御部は認識部と言い換えることができる。制御部１３を構成する各ブロックの動作は後述する。

　出力部１４は、音、光、振動、画像等、外部に各種出力を行う装置である。例えば、出力部１４は、外部に音を出力するスピーカーである。制御部１３の制御に従って、ユーザに各種出力を行う。なお、出力部１４は、各種情報を表示する表示装置（表示部）を備えていてもよい。表示装置は、例えば、液晶ディスプレイ、又は、有機ＥＬディスプレイである。なお、出力部１４は、タッチパネル式の表示装置であってもよい。この場合、出力部１４は、入力部としても機能する。

　センサ部１５は、各種情報を検出するセンサである。例えば、センサ部１５は、音を検出するセンサ（音の取得機能となるセンサ）である。例えば、センサ部１５は、マイクロフォン或いはマイクロフォンアレイである。また、センサ部１５は、デプスセンサ（例えば、ＬｉＤＡＲ）であってもよい。また、センサ部１５は、ＧＮＳＳ（Global　Navigation　Satellite　System）センサであってもよい。ＧＮＳＳセンサは、ＧＰＳ（Global　Positioning　System）センサであってもよいし、ＧＬＯＮＡＳＳセンサであってもよいし、Ｇａｌｉｌｅｏセンサであってもよいし、ＱＺＳＳ（Quasi-Zenith　Satellite　System）センサであってもよい。その他、センサ部１５は、加速度センサであってもよいし、ＩＭＵ（Inertial　Measurement　Unit）であってもよい。また、センサ部１５は、地磁気センサであってもよいし、３Ｄセンサであってもよい。また、センサ部１５は、これら複数のセンサを組み合わせたものであってもよい。

　撮像部１６は、光像を電気信号に変換する変換部である。撮像部１６は、例えば、イメージセンサと、イメージセンサから出力されたアナログの画素信号の処理を行う信号処理回路等を備え、レンズから入ってきた光をデジタルデータ（画像データ）に変換する。なお、撮像部１６が撮像する画像は、映像（動画）に限られず、静止画であってもよい。なお、撮像部１６は、カメラと言い換えることができる。

　以上、情報処理システム１の構成を説明したが、次に、このような構成を有する情報処理システム１の動作を説明する。

＜＜３．第１の動作例＞＞
　まず、第１の動作例を説明する。

　本実施形態の情報処理システム１は、音出力装置を装着するユーザへの呼びかけ音声を検出するためのシステムである。情報処理システム１は、位置情報または環境情報に応じて音声認識の精度（感度）を調節する。情報処理システム１は、呼びかけ音声だと判断した場合には、外音の取込に関する制御（外部の音をユーザが聞くための機能の制御）や外音の通知に関する制御を行う。例えば、情報処理システム１は、音楽を止めたり、音量を下げたり、又は、マイクロフォンで拾った外部の音をスピーカーから出力したりする。また、情報処理システム１は、呼びかけ音声だと判断した場合には、通知音やバイブレーション機能で呼びかけがあったことをユーザに知らせてもよい。

＜３－１．機能構成＞
　図５は、第１の動作例に係る情報処理システム１の機能ブロック図である。以下、図５を参照しながら情報処理システム１が有する機能を説明する。

　（音声の取得）
　第１の動作例では、情報処理システム１は、ヘッドセットや携帯端末のマイクロホン（或いはマイクロフォンアレイ）で外音を取り込む。情報処理システム１は、その音声を音認識制御部１３２の音声認識エンジン１３２Ａに入力する。外音を常に取り込み音声認識エンジン１３２Ａに入力することも考えられる。しかしながら、計算資源の節約や音声以外に対する誤検出を減らすために、情報処理システム１は、入力音に対して音声区間検出（ＶＡＤ：Voice　Activity　Detection）を行い、音声だと思われる部分だけを音声認識エンジン１３２Ａに入力するようにしてもよい。

　（位置情報及び／又は環境情報の取得）
　情報処理システム１の取得部１３１は、予め、もしくは音声認識エンジン１３２Ａの音声認識と並行して、位置情報及び／又は環境情報を取得する。取得部１３１は、センサ部１５又は撮像部１６で取得した情報（例えばマイクロフォン又はマイクロフォンアレイで取得した音の情報）に基づいて、位置情報及び／又は環境情報を生成してもよい。ここで位置情報とは、例えば、ＧＮＳＳセンサ等のセンサ情報や携帯電話の基地局からの情報等によって取得可能な自宅や駅といった場所のレベルの情報である。また、環境情報は、例えば、マイクロフォンによって得られる環境音から推定されるユーザの現在環境の情報である。例えば、環境情報は、オフィス内、電車内といったような情報である。なお、ヘッドホン等の端末装置にカメラやＬｉＤＡＲセンサを搭載することで、隣に人が座っている状態やこちらに向かって歩いてくる人がいる状態といったような、さらに詳細な情報を環境情報として用いることも考えられる。

　（呼びかけ音声の検出）
　音認識制御部１３２のスコア算出部１３２Ｂは、音声認識エンジン１３２Ａの出力結果に対して、位置情報及び／又は環境情報に応じた重み付けを行うことで、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する。情報処理システム１は、このスコアに基づいて、ユーザに対して呼びかけが行われたか否かを判断する。

　本実施形態を実現する最もシンプルなアイデアとしては、音声認識結果の語彙（文字列）のみをスコアを算出に用いることが考えられる。本実施形態では、位置情報ごとに及び／又は環境情報ごとに「語彙重みテーブル」が用意されている。スコア算出部１３２Ｂは、音声認識結果の語彙に対応するスコアを重みテーブルから参照することでスコアを算出する。情報処理システム１は、このスコアが一定値以上の場合、発話を呼びかけ音声だと見なす。

　音声認識エンジンの出力結果としては、「語彙（文字列）」の他に、音声認識エンジン１３２Ａの認識結果の「信頼度」や「話者情報」が考えられる。本実施形態を実現する一例として、音声認識結果の「語彙」「信頼度」「話者情報」に、位置情報及び／又は環境情報に応じて異なった重み付けを行う方法も考えられる。この場合、情報処理システム１は、位置情報ごとに及び／又は環境情報ごとに「語彙重みテーブル」と「信頼度重みテーブル」と「話者重みテーブル」とを事前に保持する。そして、情報処理システム１は、音声認識エンジン１３２Ａの出力結果（語彙、信頼度、話者情報）それぞれに、位置情報及び／又は環境情報に対応する重み掛け合わせ、重み付き和を取ることで呼びかけ音声スコアを計算する。そして、情報処理システム１は、スコアが一定以上であれば呼びかけ音声だとみなす。

　例えば、情報処理システム１の取得部１３１はユーザの現在位置が「自宅」であるとする位置情報を取得したとする。図２に示した語彙の重みテーブルでは、位置情報が「自宅」を示す場合、「お父さん」や「ご飯だよ」といった語彙の重みは大きく、その他の語彙の重みは小さくなっている。また、図３に示した話者重みテーブルでは、家族（図３の例では母、子）の話者重みが大きく、家族以外の話者の重みが０になっている。これら重みテーブルをスコアの算出に使用することで、情報処理システム１は、例えば、テレビからの音声による検出の湧き出しを抑えつつ、家族からの呼びかけに対する感度を上げることが可能となる。

　位置情報及び／又は環境情報とそれに対する動作として、以下の（１）～（４）に示す例が挙げられる。

　（１）ユーザが自宅にいるとき
　家庭においてユーザに話しかける可能性があるのは家族等に限られるので「お父さん」「ご飯だよ」といった語彙の重みを強くする。また、テレビ等の音に対して反応しないように、話者テーブルに家族の音声を登録し、重みを強くする。

　（２）ユーザが電車やバスに乗っている時
　公共の場でユーザに呼びかけがある場合、「すみません」や「落としましたよ」といった一般的なキーワードの可能性が高いため、これらの語彙の重みを強くする。また、呼びかける人が知人である可能性は低いため、話者情報の重みは極めて小さくする。

　（３）ユーザがオフィスにいるとき
　オフィスにおいては同僚が「山田さん、今いいですか」といったような呼びかけをしてくる可能性が高いので、「名前＋さん」のキーワードの重みを強くする。また、話しかけてくる頻度の高い同僚の音声は話者テーブルに登録し、重みを強くする。また、オフィスでの呼びかけは取りこぼしを減らしたいので、信頼度重みを強くして、全体的に検出されやすくする。

　（４）ユーザがコンビニエンスストアやスーパーマーケットにいる時
　雑音が多く、音声認識の精度は低くなることが予測される。また、呼びかけられる頻度は少ないと想定される。そのため、誤検出の頻度を下げるために信頼度・話者の重みを小さくする。

　（呼びかけ検出時の対応）
　音声認識結果が呼びかけ音声であると判定された場合、情報処理システム１は呼びかけられたことをユーザに伝えたり、外音の取込に関する制御（外部の音をユーザが聞くための機能の制御）を行ったりする。例えば、情報処理システム１の外音取込制御部１３３は、音楽の再生を一時停止したり、音量を下げたりする。又は、外音取込制御部１３３は、マイクロフォンで拾った外部の音をスピーカーから再生したり、ノイズキャンセリング機能をＯＦＦにしたりする。外音取込制御部１３３は、通知音やバイブレーション機能で呼びかけがあったことをユーザに知らせてもよい。なお、音出力装置が、例えば補聴器等、補聴機能を有するデバイスの場合、外音取込制御部１３３は、ユーザへの呼びかけが検出された時に、補聴機能をＯＮ又は強くしてもよい。

＜３－２．フローチャート＞
　図６は、第１の動作例に係る外音取込処理を示すフローチャートである。ユーザが、音出力装置の動作（例えば、音楽の再生）を開始すると、情報処理システム１は、外音取込処理を開始する。以下の処理は、情報処理装置１０の制御部１３で実行される。以下、図６を参照しながら外音取込処理を説明する。

　まず、情報処理装置１０の制御部１３は、センサ部１５（マイクロフォン又はマイクロフォンアレイ）から周辺の音声の情報を取得する（ステップＳ１０１）。また、情報処理装置１０の取得部１３１は、位置情報及び／又は環境情報を取得する（ステップＳ１０２）。

　次に、情報処理装置１０の音認識制御部１３２は、ステップＳ１０１で取得した音声の音認識を実行する。第１の動作例では、音認識制御部１３２は、音声認識（呼びかけ認識）を実行する。そして、音認識制御部１３２は、音声認識の結果として、語彙情報及び話者情報の少なくとも１つを出力する。音認識制御部１３２は、音声認識の結果として、信頼度情報を出力してもよい。音認識制御部１３２は、音声認識の出力結果に対して、位置情報及び／又は環境情報に応じた重み付けを行うことで、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する（ステップ１０３）。

　続いて、情報処理装置１０の制御部１３は、ステップＳ１０３で算出したスコアが所定の閾値を超えているか判別する（ステップＳ１０４）。スコアが所定の閾値を超えていない場合（ステップＳ１０４：Ｎｏ）、制御部１３は、外音取込処理を終了する。

　一方、スコアが所定の閾値を超えている場合（ステップＳ１０４：Ｙｅｓ）、外音取込制御部１３３は、外音の取込に関する制御（外部の音をユーザが聞くための機能の制御）を行う（ステップＳ１０５）。例えば、外音取込制御部１３３は、ノイズキャンセル機能に関する制御を行う。また、外音取込制御部１３３は、外音の取込機能に関する制御を行ってもよいし、音出力装置の出力音量に関する制御を行ってもよい。また、外音取込制御部１３３は、補聴機能に関する制御を行ってもよい。

　外音の取込に関する制御が完了したら、制御部１３は、外音取込処理を終了する。

＜３－３．音声認識の感度調整＞
　情報処理システム１は、位置情報及び／又は環境情報に応じた音声認識の感度調整のためのパラメータを、ユーザが設定できるよう構成されていてもよい。図７から図１０は、音声認識の感度調整のためのパラメータを設定するためのスマートフォンのアプリの例を示す図である。図７は、ユーザが自宅にいると判断されたときに適用されるパラメータの設定画面の例である。また、図８は、ユーザがオフィスにいると判断されたときに適用されるパラメータの設定画面の例である。また、図９は、ユーザが外出していると判断されたときに適用されるパラメータの設定画面の例である。また、図１０は、ユーザが呼びかけを拒否する場合に使用する設定画面の例である。

　図７から図１０では、位置情報ごとの、及び／又は、環境情報ごとの「語彙の重み」と「話者重み」全体をユーザが設定することを可能にするアプリの例を示している。この例の拡張として、より詳細な設定、例えば話者重みの中でも特定話者の重みを変更可能にする、場所ごとに特定の語彙の重みをユーザが編集可能にするといった実施例も考えられる。また、例えばオフィス等の特定の位置において、関わりたくない面倒な人からの呼びかけを無視したい場合など、特定話者の重みを０に設定することで、ブロックリストを実現することができる。

＜＜４．第２の動作例＞＞
　第１の動作例では、音声による呼びかけを検出対象としたが、検出対象は音声による呼びかけに限られない。情報処理システム１は、音声による呼びかけのみならず、音響イベントを認識し、それをユーザに伝えるか否かを位置情報及び／又は環境情報を基に制御するよう構成されていてもよい。例えば、情報処理システム１は、ユーザが歩道を歩いている又は走っている時の車のクラクション音や自転車のベル音に対しては重みを強くすることにより、ユーザに迫る危険を検出しやすくするよう構成されていてもよい。一方、ユーザが自宅にいるときはこれらの音はユーザにあまり関係ないと思われるので、情報処理システム１は、ユーザが自宅にいる時の車のクラクション音や自転車のベル音に対しては重みを弱くして、これらの音を検出し難く構成されていてもよい。

　図１１は、第２の動作例に係る情報処理システム１の機能ブロック図である。以下、図１１を参照しながら第２の動作例に係る情報処理システム１が有する機能を説明する。

　（音の取得）
　第２の動作例では、情報処理システム１は、ヘッドセットや携帯端末のマイクロホン（或いはマイクロフォンアレイ）で外音を取り込む。情報処理システム１は、その音声を音認識制御部１３２の音声認識エンジン１３２Ａ及び音響イベント検出エンジン１３２Ｃに入力する。

　（位置情報及び／又は環境情報の取得）
　情報処理システム１の取得部１３１は、予め、もしくは音声認識エンジン１３２Ａの音声認識と並行して、位置情報及び／又は環境情報を取得する。

　（呼びかけ音声の検出）
　音認識制御部１３２のスコア算出部１３２Ｂは、記憶部１２から音響イベント重みテーブルを含む複数の重みテーブルを取得する。図１２は、音響イベント重みテーブルの一例を示す図である。音響イベント重みテーブルは、複数の音響イベントそれぞれに対する、位置情報及び／又は環境情報毎の重みを示したテーブルである。図１１に戻り、音認識制御部１３２のスコア算出部１３２Ｂは、音声認識エンジン１３２Ａ及び音響イベント検出エンジン１３２Ｃの出力結果に対して、位置情報及び／又は環境情報に応じた重み付けを行うことで、認識結果が呼びかけ音声又は音響イベントである可能性の高さを示すスコアを算出する。情報処理システム１は、このスコアに基づいて、ユーザに対して呼びかけが行われたか否か、或いは、所定の音響イベントが発生したか否か、を判断する。

　（呼びかけ検出時の対応）
　音声認識結果が呼びかけ音声であると判定された場合、或いは、所定の音響イベントが発生したと判定された場合、情報処理システム１は呼びかけられたことをユーザに伝えたり、外音の取込に関する制御を行ったりする。

＜＜５．第３の動作例＞＞
　情報処理システム１は、ユーザが呼びかけに応じたか否かのフィードバックを基に自動で話者や語彙を登録するよう構成されていてもよい。例えば、情報処理システム１が、特定の位置や環境において呼びかけらしい音声が入ってきたと判別したとする。そして、このとき、情報処理システム１が、さらに、ジャイロセンサを用いてユーザが後ろを向いたことと、マイク入力からの音声認識結果を用いてユーザが会話をしたことを検出したとする。このとき、情報処理システム１は、その音声の話者情報を話者テーブルに保存する。又は、情報処理システム１は、その位置及び／又は環境における話者重みを更新する。

　以下、この重みや話者情報を自動で登録する処理を説明する。図１３は、第３の動作例に係る外音取込処理を示すフローチャートである。ユーザが、音出力装置の動作（例えば、音楽の再生）を開始すると、情報処理システム１は、外音取込処理を開始する。以下の処理は、情報処理装置１０の制御部１３で実行される。以下、図１３を参照しながら外音取込処理を説明する。

　まず、情報処理装置１０の制御部１３は、センサ部１５（マイクロフォン又はマイクロフォンアレイ）から周辺の音声の情報を取得する（ステップＳ２０１）。また、情報処理装置１０の取得部１３１は、位置情報及び／又は環境情報を取得する（ステップＳ２０２）。

　次に、情報処理装置１０の音認識制御部１３２は、ステップＳ２０１で取得した音声の音認識を実行する。第１の動作例では、音認識制御部１３２は、音声認識（呼びかけ認識）を実行する。そして、音認識制御部１３２は、音声認識の結果として、語彙情報及び話者情報の少なくとも１つを出力する。音認識制御部１３２は、音声認識の結果として、信頼度情報を出力してもよい。音認識制御部１３２は、音声認識の出力結果に対して、位置情報及び／又は環境情報に応じた重み付けを行うことで、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する（ステップ２０３）。

　続いて、情報処理装置１０の制御部１３は、ステップＳ２０３で算出したスコアが所定の閾値を超えているか判別する（ステップＳ２０４）。スコアが所定の閾値を超えていない場合（ステップＳ２０４：Ｎｏ）、制御部１３は、ユーザが会話（呼びかけ）に応じたか判別する（ステップＳ２０５）。例えば、制御部１３は、ユーザが後ろを向き、ユーザが会話をした場合に、ユーザが会話に応じたと判別する。ユーザが後ろを向いたか否かは、音出力装置が備える加速度センサやジャイロセンサで検出可能である。また、ユーザが会話をしたか否かは、マイクロフォン入力を音声認識することで検出可能である。ユーザが会話に応じた場合（ステップＳ２０５：Ｙｅｓ）、制御部１３は、ステップＳ２０８に処理を進める。ユーザが会話に応じていない場合（ステップＳ２０５：Ｎｏ）、制御部１３は、外音取込処理を終了する。

　ステップＳ２０４に戻り、スコアが所定の閾値を超えている場合（ステップＳ２０４：Ｙｅｓ）、外音取込制御部１３３は、外音の取込に関する制御（外部の音をユーザが聞くための機能の制御）を行う（ステップＳ２０６）。例えば、外音取込制御部１３３は、ノイズキャンセル機能に関する制御を行う。また、外音取込制御部１３３は、外音の取込機能に関する制御を行ってもよいし、音出力装置の出力音量に関する制御を行ってもよい。また、外音取込制御部１３３は、補聴機能に関する制御を行ってもよい。

　外音の取込に関する制御が完了したら、制御部１３は、ユーザが会話（呼びかけ）に応じたか判別する（ステップＳ２０７）。ユーザが会話に応じていない場合（ステップＳ２０７：Ｎｏ）、制御部１３は、外音取込処理を終了する。ユーザが会話に応じた場合（ステップＳ２０７：Ｙｅｓ）、制御部１３は、重みテーブルを更新する（ステップＳ２０８）。例えば、制御部は、ステップＳ２０１で認識した話者の情報を話者テーブルに保存する。制御部１３は、ステップＳ２０２で取得した位置及び／又は環境における話者重みを更新してもよい。

　更新が完了したら、制御部１３は、外音取込処理を終了する。

＜＜６．第４の動作例＞＞
　第１の動作例では、情報処理システム１は、一般的なデータで学習された音声認識エンジンによる認識結果に対して位置情報及び／又は環境情報に基づく重みをかけることで、呼びかけ検出の感度調整を実現した。しかしながら、情報処理システム１は、位置情報及び／又は環境情報をラベルデータやエンベディングベクトルといった形で音声認識エンジンの特徴量として与えることで、位置や環境に応じて呼びかけ検出の感度を暗示的に調節してもよい。

　図１４は、第４の動作例に係る情報処理システム１の機能ブロック図である。以下、図１４を参照しながら第４の動作例に係る情報処理システム１が有する機能を説明する。

　（音声の取得）
　第４の動作例では、情報処理システム１は、ヘッドセットや携帯端末のマイクロホン（或いはマイクロフォンアレイ）で外音を取り込む。情報処理システム１は、その音声を音認識制御部１３２の音声認識エンジン１３２Ｄに入力する。音声認識エンジン１３２Ｄは、Ｅｎｄ－ｔｏ－Ｅｎｄ型の音声認識エンジンである。例えば、音声認識エンジン１３２Ｄは、Ｅｎｄ－ｔｏ－Ｅｎｄ型のＤＮＮ（Deep　Neural　Network）である。

　（位置情報及び／又は環境情報の取得）
　情報処理システム１の取得部１３１は、予め、もしくは音声認識エンジン１３２Ｄの音声認識と並行して、位置情報及び／又は環境情報を取得する。

　（呼びかけ音声の検出）
　音認識制御部１３２のスコア算出部１３２Ｂは、音声認識エンジン１３２Ｄの出力結果に基づいて、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する。第４の動作例の場合、ユーザは、重みテーブルを明示的に構成する必要はない。位置情報毎の及び／又は環境情報毎の重みは、End-to-End型の音声認識エンジンのモデルパラメータ等の形で暗示的に含まれることになる。情報処理システム１は、このスコアに基づいて、ユーザに対して呼びかけが行われたか否かを判断する。

＜＜７．第５の動作例＞＞
　第１の動作例では、情報処理システム１は、音声認識結果に対して位置情報及び／又は環境情報に基づく重みをかけることで、呼びかけ検出の感度を調整した。しかしながら、情報処理システム１は、音声認識エンジン内の重みつき有限状態トランスデューサ（ＷＦＳＴ：Weighted　Finite-State　Transducer）等の重みを位置・環境に応じて切り替えることで、位置や環境に応じて呼びかけ検出の感度を明示的に調節してもよい。第５の動作例では、第４の動作例とは異なり、明示的に重みテーブルを作成するので設計者やユーザによる編集が可能である。

　図１５は、第５の動作例に係る情報処理システム１の機能ブロック図である。以下、図１５を参照しながら第５の動作例に係る情報処理システム１が有する機能を説明する。

　（音声の取得と音声認識）
　第４の動作例では、情報処理システム１は、ヘッドセットや携帯端末のマイクロホン（或いはマイクロフォンアレイ）で外音を取り込む。情報処理システム１は、その音声を音認識制御部１３２の音声認識エンジン１３２Ｄに入力する。音声認識エンジン１３２Ｅは、例えば、ＤＮＮ－ＨＭＭ（Deep　Neural　Network　-　Hidden　Markov　model）ハイブリッド音声認識システムである。音声認識エンジン１３２Ｅは、GMM-HMM（Gaussian　mixture　model　-　Hidden　Markov　model）音声認識システムであってもよい。第５の動作例の場合、情報処理システム１は、音声認識エンジン内の重みつき有限状態トランスデューサ（ＷＦＳＴ）等の重みを位置及び／又は環境に応じて切り替える。

　（位置情報及び／又は環境情報の取得）
　情報処理システム１の取得部１３１は、予め、もしくは音声認識エンジン１３２Ｅの音声認識と並行して、位置情報及び／又は環境情報を取得する。

　（呼びかけ音声の検出）
　音認識制御部１３２のスコア算出部１３２Ｂは、音声認識エンジン１３２Ｅの出力結果に基づいて、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する。情報処理システム１は、このスコアに基づいて、ユーザに対して呼びかけが行われたか否かを判断する。

＜＜８．第６の動作例＞＞
　第１の動作例では、情報処理システム１は、音声認識結果に基づいて外音の取込に関する制御を行った。しかしながら、情報処理システム１は、音声認識結果が呼びかけ音声や音響イベントであると判定された場合、外音の取込に関する制御に代えて外音の通知に関する制御を行ってもよい。具体的には、第１の動作例や第３の動作例において、情報処理装置１０の制御部１３は、外音の取込に関する制御を行わず呼びかけ通知や音響イベント通知の制御を行ってもよい。また、情報処理システム１は、音声認識結果が呼びかけ音声や音響イベントであると判定された場合、外音の通知に関する制御に加えて、外音の取込に関する制御を行ってもよい。例えば、情報処理システム１は、外音の通知に関する制御と外音の取込に関する制御を同時に行ってもよいし、外音の通知に関する制御に基づいて外音の取込に関する制御を行ってもよい。

　情報処理システム１は、音声認識結果が呼びかけ音声や音響イベントであると判定された場合、出力部１４から音、振動、光等を出力することで、呼びかけ音声や音響イベントが検出されたことをユーザに伝える外音の通知に関する制御を行う。図１６は、外音通知の表示例を示す図である。図１６の例では、スマートフォンの画面上に、呼びかけが検出されたことを示す外音通知のメッセージが表示されている。

　図１６では、スマートフォンの画面上に、呼びかけを検出した旨の通知メッセージが表示される。例えば、通知メッセージには、誰からの呼びかけがあったのかを表示してもよい。また、通知メッセージは、外音の取込に関する制御を指示するためのＧＵＩ（Graphical　User　Interface）を含んでいてもよい。例えば、通知メッセージには、音楽の再生を停止するためのボタン、ノイズキャンセル機能をオフにするためのボタン、外音取込機能をオンにするためのボタン等がＧＵＩとして含まれる。外音取込制御部１３３は、操作されたボタンに基づいて外音の取込に関する制御を行う。また、通知メッセージは音声で出力されてもよく、この場合には、外音の取込に関する制御を指示するための音声に対して、ユーザが発話で応答することが考えられる。

　図１７は、第６の動作例に係る外音通知処理及び外音取込処理を示すフローチャートである。ユーザが、音出力装置の動作（例えば、音楽の再生）を開始すると、情報処理システム１は、外音通知処理及び外音取込処理を開始する。以下の処理は、情報処理装置１０の制御部１３で実行される。以下、図１７を参照しながら外音通知処理及び外音取込処理を説明する。

　まず、情報処理装置１０の制御部１３は、センサ部１５（マイクロフォン又はマイクロフォンアレイ）から周辺の音声の情報を取得する（ステップＳ３０１）。また、情報処理装置１０の取得部１３１は、位置情報及び／又は環境情報を取得する（ステップＳ３０２）。

　次に、情報処理装置１０の音認識制御部１３２は、ステップＳ３０１で取得した音声の音認識を実行する。第１の動作例では、音認識制御部１３２は、音声認識（呼びかけ認識）を実行する。そして、音認識制御部１３２は、音声認識の結果として、語彙情報及び話者情報の少なくとも１つを出力する。音認識制御部１３２は、音声認識の結果として、信頼度情報を出力してもよい。音認識制御部１３２は、音声認識の出力結果に対して、位置情報及び／又は環境情報に応じた重み付けを行うことで、認識結果が呼びかけ音声である可能性の高さを示すスコアを算出する（ステップ３０３）。

　続いて、情報処理装置１０の制御部１３は、ステップＳ３０３で算出したスコアが所定の閾値を超えているか判別する（ステップＳ３０４）。スコアが所定の閾値を超えていない場合（ステップＳ３０４：Ｎｏ）、制御部１３は、処理を終了する。

　一方、スコアが所定の閾値を超えている場合（ステップＳ３０４：Ｙｅｓ）、外音取込制御部１３３は、外音の通知に関する制御を行う（ステップＳ３０５）。例えば、外音取込制御部１３３は、外音通知のメッセージを画像として提示する制御を行う。また、外音取込制御部１３３は、外音通知のメッセージを音声として提示する制御を行ってもよい。外音通知のメッセージは、外音の取込に関する制御を指示するための情報を含んでいる。なお、外音の通知に関する制御と外音の取込に関する制御をステップＳ３０５で同時に行う場合は、ステップＳ３０５で外音の通知に関する制御と外音の取込に関する制御が完了したら、制御部１３は、ステップＳ３０６以降の処理は行わずに外音通知処理及び外音取込処理を終了してもよい。

　次に、外音取込制御部１３３は、ステップＳ３０５で提示した外音の取込に関する制御を指示するための情報に基づく外音取込指示があったか判別する（ステップＳ３０６）。外音取込指示がない場合（ステップＳ３０６：Ｎｏ）、制御部１３は、処理を終了する。

　外音取込指示がある場合（ステップＳ３０６：Ｙｅｓ）、外音取込制御部１３３は、外音取込指示に基づいて外音の取込に関する制御（外部の音をユーザが聞くための機能の制御）を行う（ステップＳ３０７）。例えば、外音取込制御部１３３は、ノイズキャンセル機能に関する制御を行う。また、外音取込制御部１３３は、外音の取込機能に関する制御を行ってもよいし、音出力装置の出力音量に関する制御を行ってもよい。また、外音取込制御部１３３は、補聴機能に関する制御を行ってもよい。

　外音の取込に関する制御が完了したら、制御部１３は、外音通知処理及び外音取込処理を終了する。

＜＜９．システム構成の他の例＞＞
　情報処理システム１は、１つの装置によって構成されていてもよいし、複数の装置によって構成されていてもよい。図１８は、本開示の実施形態に係る情報処理システム１の他の構成例を示す図である。情報処理システム１は、出力装置２０と、端末装置３０と、を備える。

＜９－１．出力装置＞
　出力装置２０は、音出力装置として機能するデバイスである。出力装置２０は、例えば、ヘッドホン、ヘッドセット、又はイヤホンである。出力装置２０は、音の出力機能に加えて、音の取得機能を備える。また、出力装置２０は、ユーザの没入感を高めるための機能又は構造を備える。例えば、出力装置２０は、ノイズキャンセリング機能を備えていてもよいし、外音取込機能を備えていてもよい。

　なお、出力装置２０は、ヘッドホン、ヘッドセット、又はイヤホンに限られない。例えば、出力装置２０は、補聴器や集音器、ネックバンド式スピーカーであってもよい。また、音出力装置は、ＡＲデバイス、ＶＲデバイス、ＭＲデバイス等のｘＲデバイスであってもよい。このとき、ｘＲデバイスは、ＡＲグラス、ＭＲグラス等のメガネ型デバイスであってもよいし、ＶＲヘッドマウントディスプレイ等のヘッドマウント型デバイスであってもよい。また、出力装置２０は、装着型の装置に限られず、例えば、据え置き型のスピーカーであってもよい。

　図１９は、本開示の実施形態に係る出力装置２０の構成例を示す図である。出力装置２０は、図１９に示すように、通信部２１と、記憶部２２と、制御部２３と、出力部２４と、センサ部２５と、撮像部２６と、を備える。なお、図１９に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。また、出力装置２０の機能は、複数の物理的に分離された構成に分散して実装されてもよい。

　通信部２１は、他の装置（例えば、端末装置３０）と通信するための通信インタフェースである。記憶部２２はデータ読み書き可能な記憶装置である。制御部２３は、出力装置２０の各部を制御するコントローラである。出力部２４は、外部に各種出力を行う装置である。センサ部２５は、各種情報を検出するセンサである。撮像部２６は、光像を電気信号に変換する変換部である。通信部２１～撮像部２６の構成は、図１に示す情報処理装置１０の通信部１１～撮像部１６と同様であってもよい。

＜９－２．端末装置＞
　端末装置３０は、出力装置２０を制御するコンピュータである。端末装置３０は、パーソナルコンピュータ、携帯電話、スマートデバイス（スマートフォン、又はタブレット）、ＰＤＡ、ノートＰＣ等のモバイル端末であってもよい。また、端末装置３０は、スマートウォッチ等のウェアラブルデバイスであってもよい。

　また、端末装置３０は、持ち運び可能なＩｏＴ（Internet　of　Things）デバイスであってもよい。また、端末装置３０は、ＦＰＵ（Field　Pickup　Unit）等の通信機器が搭載されたバイクや移動中継車等であってもよい。また、端末装置３０は、ＩｏＴ（Internet　of　Things）デバイスであってもよい。また、端末装置３０は、ＰＣサーバ、ミッドレンジサーバ、メインフレームサーバ等のサーバ装置であってもよい。その他、端末装置３０には、あらゆる形態のコンピュータを採用可能である。

　図２０は、本開示の実施形態に係る端末装置３０の構成例を示す図である。端末装置３０は、図２０に示すように、通信部３１と、記憶部３２と、制御部３３と、出力部３４と、センサ部３５と、撮像部３６と、を備える。なお、図２０に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。また、端末装置３０の機能は、複数の物理的に分離された構成に分散して実装されてもよい。

　通信部３１は、他の装置（例えば、出力装置２０）と通信するための通信インタフェースである。記憶部３２はデータ読み書き可能な記憶装置である。制御部３３は、出力装置２０の各部を制御するコントローラである。出力部３４は、外部に各種出力を行う装置である。センサ部３５は、各種情報を検出するセンサである。撮像部３６は、光像を電気信号に変換する変換部である。

　制御部３３は、取得部３３１と、音認識制御部３３２と、外音取込制御部３３３と、を備える。制御部３３を構成する各ブロック（取得部３３１～外音取込制御部３３３）はそれぞれ制御部３３の機能を示す機能ブロックである。これら機能ブロックはソフトウェアブロックであってもよいし、ハードウェアブロックであってもよい。例えば、上述の機能ブロックが、それぞれ、ソフトウェア（マイクロプログラムを含む。）で実現される１つのソフトウェアモジュールであってもよいし、半導体チップ（ダイ）上の１つの回路ブロックであってもよい。勿論、各機能ブロックがそれぞれ１つのプロセッサ又は１つの集積回路であってもよい。制御部３３は上述の機能ブロックとは異なる機能単位で構成されていてもよい。機能ブロックの構成方法は任意である。

　なお、制御部３３は上述の機能ブロックとは異なる機能単位で構成されていてもよい。また、制御部３３を構成する各ブロック（取得部３３１～外音取込制御部３３３）の一部又は全部の動作を、他の装置が行ってもよい。制御部３３を構成する各ブロックの動作は図１に示す情報処理装置１０の取得部１３１～外音取込制御部１３３と同様である。例えば、取得部３３１は、出力装置２０が取得した音の情報に基づいて、位置情報及び／又は環境情報を生成する。その他、制御部３３を構成する各ブロックは、上述の第１の動作例から第５の動作例で示した動作を行うよう構成されていてもよい。

　その他、通信部３１～撮像部３６の構成は、図１に示す情報処理装置１０の通信部１１～撮像部１６と同様である。

＜＜１０．変形例＞＞
　上述の実施形態は一例を示したものであり、種々の変更及び応用が可能である。

　例えば、上述の第１の動作例から第５の動作例で示した処理は、ユーザが有する音出力装置とネットワークを介して接続されたＷｅｂ上のサーバ装置が行ってもよい。

　また、本実施形態は、音出力装置が、例えば据え置き型のスピーカー等、装着型の装置でない場合であっても適用可能である。

　本実施形態の情報処理装置１０、出力装置２０、又は端末装置３０は、専用のコンピュータシステムにより実現してもよいし、汎用のコンピュータシステムによって実現してもよい。

　例えば、上述の動作を実行するための通信プログラムを、光ディスク、半導体メモリ、磁気テープ、フレキシブルディスク等のコンピュータ読み取り可能な記録媒体に格納して配布する。そして、例えば、該プログラムをコンピュータにインストールし、上述の処理を実行することによって制御装置を構成する。このとき、制御装置は、情報処理装置１０、出力装置２０、又は端末装置３０の外部の装置（例えば、パーソナルコンピュータ）であってもよい。また、制御装置は、情報処理装置１０、出力装置２０、又は端末装置３０の内部の装置（例えば、制御部１３、制御部２３、制御部３３）であってもよい。

　また、上記通信プログラムをインターネット等のネットワーク上のサーバ装置が備えるディスク装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。また、上述の機能を、ＯＳ（Operating　System）とアプリケーションソフトとの協働により実現してもよい。この場合には、ＯＳ以外の部分を媒体に格納して配布してもよいし、ＯＳ以外の部分をサーバ装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。なお、この分散・統合による構成は動的に行われてもよい。

　また、上述の実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。また、上述の実施形態のフローチャートに示された各ステップは、適宜順序を変更することが可能である。また、例えば、１つのフローチャートの各ステップを、１つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、１つのステップに複数の処理が含まれる場合、その複数の処理を、１つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

　また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

　また、例えば、本実施形態は、装置またはシステムを構成するあらゆる構成、例えば、システムＬＳＩ（Large　Scale　Integration）等としてのプロセッサ、複数のプロセッサ等を用いるモジュール、複数のモジュール等を用いるユニット、ユニットにさらにその他の機能を付加したセット等（すなわち、装置の一部の構成）として実施することもできる。

　なお、本実施形態において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。

　また、例えば、本実施形態は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

＜＜１１．むすび＞＞
　以上説明したように、本実施形態によれば、情報処理システム１は、位置情報及び環境情報の少なくとも一方に基づいて音認識に関する制御を行う。例えば、情報処理システム１は、位置情報及び環境情報の少なくとも１つに基づいて音認識（例えば、呼びかけや音響イベントの認識）の精度を調整する。そして、情報処理システム１は、音認識の結果に基づいて外音の取込に関する制御や外音の通知に関する制御を行う。

　これにより、ユーザは、例えば、ヘッドホン等の音出力装置を使用していたとしても、呼びかけ音声を適切に把握することができる。また、呼びかけの誤検出や呼びかけ検出の頻繁な発生を減らすことができるので、ユーザのストレスを低減できる。また、呼びかけ検出の取りこぼしを減らすことができるので、ユーザの利便性が高まる。

　以上、本開示の各実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　位置情報及び環境情報の少なくとも一方を取得する取得ステップと、
　前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識ステップと、
　前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御を行う制御ステップと、
　を有する情報処理方法。
（２）
　前記認識ステップは、前記位置情報及び前記環境情報の少なくとも１つに基づいて前記音認識の精度を調整する、
　前記（１）に記載の情報処理方法。
（３）
　前記音認識には、少なくとも呼びかけ認識が含まれ、
　前記認識ステップは、前記位置情報及び前記環境情報の少なくとも１つに基づいて前記呼びかけ認識の精度を調整する、
　前記（２）に記載の情報処理方法。
（４）
　前記認識ステップは、語彙及び話者の少なくとも１つを認識する音声認識処理を行い、前記位置情報及び前記環境情報の少なくとも１つと、音声認識の結果と、に基づいて前記呼びかけ認識の精度を調整する、
　前記（３）に記載の情報処理方法。
（５）
　前記音声認識処理は、少なくとも音声認識の結果の信頼度の情報を出力し、
　前記認識ステップは、前記位置情報及び前記環境情報の少なくとも１つと、前記信頼度の情報を含む音声認識の結果と、に基づいて前記呼びかけ認識の精度を調整する、
　前記（４）に記載の情報処理方法。
（６）
　前記位置情報は、ＧＮＳＳセンサによって推定される、ユーザが現在いる場所の情報であり、
　前記認識ステップは、前記位置情報に基づいて前記呼びかけ認識の精度を調整する、
　前記（３）～（５）のいずれかに記載の情報処理方法。
（７）
　前記環境情報は、マイクロフォンによって得られる環境音から推定される、ユーザの現在環境の情報であり、
　前記認識ステップは、前記環境情報に基づいて前記呼びかけ認識の精度を調整する、
　前記（３）～（６）のいずれかに記載の情報処理方法。
（８）
　前記制御ステップでは、前記音認識の結果に基づいて、前記外音の取込に関する制御及び前記外音の通知に関する制御を行う、
　前記（１）～（７）のいずれかに記載の情報処理方法。
（９）
　前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
　前記外音の通知に対する操作に基づいて前記外音の取込に関する制御を行う外音取込制御ステップをさらに有する、
　前記（１）～（８）のいずれかに記載の情報処理方法。
（１０）
　前記音認識には、少なくとも音響イベントの認識が含まれ、
　前記認識ステップは、前記位置情報及び前記環境情報の少なくとも一方に基づいて、前記音響イベントの認識の精度を調整する、
　前記（２）～（９）のいずれかに記載の情報処理方法。
（１１）
　前記音響イベントには、車のクラクション、自転車のベル音、及び自転車のブレーキ音、の少なくとも１つが含まれる、
　前記（１０）に記載の情報処理方法。
（１２）
　前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
　前記外音取込制御ステップでは、前記外音の取込に関する制御として、ノイズキャンセル機能に関する制御を行う、
　前記（１）～（１１）のいずれかに記載の情報処理方法。
（１３）
　前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
　前記外音取込制御ステップでは、前記外音の取込に関する制御として、外音の取込機能のオン又はオフの制御を行う、
　前記（１）～（１１）のいずれかに記載の情報処理方法。
（１４）
　前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
　前記外音取込制御ステップでは、前記外音の取込に関する制御として、出力音量に関する制御を行う、
　前記（１）～（１１）のいずれかに記載の情報処理方法。
（１５）
　前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
　前記外音取込制御ステップでは、前記外音の取込に関する制御として、補聴機能に関する制御を行う、
　前記（１）～（１１）のいずれかに記載の情報処理方法。
（１６）
　前記取得ステップは、マイクロフォンで取得した音の情報に基づいて、前記位置情報及び前記環境情報の少なくとも一方を生成する、
　前記（１）～（１５）のいずれかに記載の情報処理方法。
（１７）
　位置情報及び環境情報の少なくとも一方を取得する取得部と、
　前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識制御部と、
　前記音認識の結果に基づいて、外音の取り込みに関する制御又は外音の通知に関する制御を行う外音取込制御部と、
　を備える情報処理システム。
（１８）
　前記情報処理システムは、音の出力装置であり、
　前記出力装置は、前記取得部と、前記認識制御部と、前記外音取込制御部と、を備える、
　前記（１７）に記載の情報処理システム。
（１９）
　前記情報処理システムは、
　前記取得部、前記認識制御部及び前記外音取込制御部の少なくとも一つを備える端末装置と、
　前記端末装置と通信で接続され、前記外音の取り込みに関する制御又は前記外音の通知に関する制御に基づく出力を行う音の出力装置と、
　を備える前記（１７）に記載の情報処理システム。
（２０）
　コンピュータに、
　位置情報及び環境情報の少なくとも一方を取得させ、
　前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行わせ、
　前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御　を行わせる、
　プログラム。

　１　情報処理システム
　１０　情報処理装置
　１１、２１、３１　通信部
　１２、２２、３２　記憶部
　１３、２３、３３　制御部
　１４、２４、３４　出力部
　１５、２５、３５　センサ部
　１６、２６、３６　撮像部
　２０　出力装置
　３０　端末装置
　１３１、３３１　取得部
　１３２、３３２　音認識制御部
　１３２Ａ、１３２Ｄ、１３２Ｅ　音声認識エンジン
　１３２Ｂ　スコア算出部
　１３２Ｃ　音響イベント検出エンジン
　１３３、３３３　外音取込制御部

Claims

　位置情報及び環境情報の少なくとも一方を取得する取得ステップと、
　前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識ステップと、
　前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御を行う制御ステップと、
　を有する情報処理方法。
　前記認識ステップは、前記位置情報及び前記環境情報の少なくとも１つに基づいて前記音認識の精度を調整する、
　請求項１に記載の情報処理方法。
　前記音認識には、少なくとも呼びかけ認識が含まれ、
　前記認識ステップは、前記位置情報及び前記環境情報の少なくとも１つに基づいて前記呼びかけ認識の精度を調整する、
　請求項２に記載の情報処理方法。
　前記認識ステップは、語彙及び話者の少なくとも１つを認識する音声認識処理を行い、前記位置情報及び前記環境情報の少なくとも１つと、音声認識の結果と、に基づいて前記呼びかけ認識の精度を調整する、
　請求項３に記載の情報処理方法。
　前記音声認識処理は、少なくとも音声認識の結果の信頼度の情報を出力し、
　前記認識ステップは、前記位置情報及び前記環境情報の少なくとも１つと、前記信頼度の情報を含む音声認識の結果と、に基づいて前記呼びかけ認識の精度を調整する、
　請求項４に記載の情報処理方法。
　前記位置情報は、ＧＮＳＳセンサによって推定される、ユーザが現在いる場所の情報であり、
　前記認識ステップは、前記位置情報に基づいて前記呼びかけ認識の精度を調整する、
　請求項３に記載の情報処理方法。
　前記環境情報は、マイクロフォンによって得られる環境音から推定される、ユーザの現在環境の情報であり、
　前記認識ステップは、前記環境情報に基づいて前記呼びかけ認識の精度を調整する、
　請求項３に記載の情報処理方法。
　前記制御ステップでは、前記音認識の結果に基づいて、前記外音の取込に関する制御及び前記外音の通知に関する制御を行う、
　請求項１に記載の情報処理方法。
　前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
　前記外音の通知に対する操作に基づいて前記外音の取込に関する制御を行う外音取込制御ステップをさらに有する、
　請求項１に記載の情報処理方法。
　前記音認識には、少なくとも音響イベントの認識が含まれ、
　前記認識ステップは、前記位置情報及び前記環境情報の少なくとも一方に基づいて、前記音響イベントの認識の精度を調整する、
　請求項２に記載の情報処理方法。
　前記音響イベントには、車のクラクション、自転車のベル音、及び自転車のブレーキ音、の少なくとも１つが含まれる、
　請求項１０に記載の情報処理方法。
　前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
　前記外音取込制御ステップでは、前記外音の取込に関する制御として、ノイズキャンセル機能に関する制御を行う、
　請求項１に記載の情報処理方法。
　前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
　前記外音取込制御ステップでは、前記外音の取込に関する制御として、外音の取込機能のオン又はオフの制御を行う、
　請求項１に記載の情報処理方法。
　前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
　前記外音取込制御ステップでは、前記外音の取込に関する制御として、出力音量に関する制御を行う、
　請求項１に記載の情報処理方法。
　前記制御ステップとして、前記音認識の結果に基づいて前記外音の通知に関する制御を行う外音通知制御ステップを有し、
　前記外音取込制御ステップでは、前記外音の取込に関する制御として、補聴機能に関する制御を行う、
　請求項１に記載の情報処理方法。
　前記取得ステップは、マイクロフォンで取得した音の情報に基づいて、前記位置情報及び前記環境情報の少なくとも一方を生成する、
　請求項１に記載の情報処理方法。
　位置情報及び環境情報の少なくとも一方を取得する取得部と、
　前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行う認識制御部と、
　前記音認識の結果に基づいて、外音の取り込みに関する制御又は外音の通知に関する制御を行う外音取込制御部と、
　を備える情報処理システム。
　前記情報処理システムは、音の出力装置であり、
　前記出力装置は、前記取得部と、前記認識制御部と、前記外音取込制御部と、を備える、
　請求項１７に記載の情報処理システム。
　前記情報処理システムは、
　前記取得部、前記認識制御部及び前記外音取込制御部の少なくとも一つを備える端末装置と、
　前記端末装置と通信で接続され、前記外音の取り込みに関する制御又は前記外音の通知に関する制御に基づく出力を行う音の出力装置と、
　を備える請求項１７に記載の情報処理システム。
　コンピュータに、
　位置情報及び環境情報の少なくとも一方を取得させ、
　前記位置情報及び前記環境情報の少なくとも一方に基づいて音認識に関する制御を行わせ、
　前記音認識の結果に基づいて、外音の取込に関する制御又は外音の通知に関する制御を行わせる、
　プログラム。