WO2018207453A1

WO2018207453A1 - 情報処理装置

Info

Publication number: WO2018207453A1
Application number: PCT/JP2018/009662
Authority: WO
Inventors: 充奨澤田; 裕一郎小山
Original assignee: ソニー株式会社
Priority date: 2017-05-08
Filing date: 2018-03-13
Publication date: 2018-11-15
Also published as: US11468884B2; JPWO2018207453A1; JP7103353B2; CN110603587A; US20200074998A1

Abstract

特定位置からの音声を少ない演算量により検出する。　情報処理装置は、音声取得部と、信頼度生成部と、処理実行部とを備える。音声取得部は、周囲の音声を取得する。信頼度生成部は、取得された音声が特定位置からのものである度合いを示す信頼度を所定の伝達特性に基づいて生成する。所定の伝達特性としては、音声の位相差や音響特性が想定され得る。処理実行部は、生成された信頼度に応じた処理を実行する。信頼度に応じた処理としては、信頼度に応じた通知や、所定のコマンドを実行することが想定され得る。

Description

情報処理装置

　本技術は、情報処理装置に関する。詳しくは、取得した音声に応じた処理を行う情報処理装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。

　従来の音声検出技術においては、人間の音声の周期構造に基づいて、音声か否かを判定して、音声区間を検出していた。例えば、入力信号の周期性を表す周期性情報とパワーとに基づいてゲイン情報を求め、そのゲイン情報に応じた大きさのノイズを付加したノイズ付加信号の周期性情報を入力信号の特徴量として音声区間を検出する技術が提案されている（例えば、特許文献１参照。）。この場合、音声から話者を識別するためには、音源の方向を検出する必要があった。そのため、例えば、打合せの発話音声の話者音響特徴量や方向情報などからそれぞれの発話の話者を識別する会議音声録音システムが提案されている（例えば、特許文献２参照。）。

特開２００７－３２８２２８号公報特開２００９－３０１１２５号公報

　上述の従来技術では、話者を識別するために全ての音源方向を検査した後に検出する必要があり、そのため、演算量が多くなってしまうという問題がある。近年では、ユーザが身体の一部に装着するウェアラブルデバイスが用いられており、そのユーザインタフェースとして音声入力を利用する場合、処理に要する演算量が少ないことが要求される。また、話者を事前登録しておいて、個別に照合することも考えられるが、登録作業が煩わしく、また、話者の体調による声の変化や音声揺らぎに起因する精度が問題となる。

　本技術はこのような状況に鑑みて生み出されたものであり、特定位置からの音声を少ない演算量により検出することを目的とする。

　本技術は、上述の問題点を解消するためになされたものであり、その第１の側面は、周囲の音声を取得する音声取得部と、上記取得された音声が特定位置からのものである度合いを示す信頼度を所定の伝達特性に基づいて生成する信頼度生成部と、上記信頼度に応じた処理を実行する処理実行部とを具備する情報処理装置である。これにより、音声が特定位置からのものである信頼度を伝達特性に基づいて生成し、その信頼度に応じて処理を実行するという作用をもたらす。

　また、この第１の側面において、上記音声取得部は、複数のマイクロフォンを備え、上記信頼度生成部は、上記所定の伝達特性として上記複数のマイクロフォンにより取得された上記音声の位相差に基づいて上記信頼度を生成するようにしてもよい。これにより、伝達特性として音声の位相差を用いて上記信頼度を生成するという作用をもたらす。この場合において、上記複数のマイクロフォンの少なくとも一部は、上記特定位置の近傍に配置されることが望ましい。また、上記複数のマイクロフォンのいずれか一対は、上記特定位置に相対して配置されることが望ましい。

　また、この第１の側面において、上記信頼度生成部は、上記所定の伝達特性として上記音声取得部により取得された上記音声の音響特性に基づいて上記信頼度を生成するようにしてもよい。これにより、伝達特性として音声の音響特性を用いて上記信頼度を生成するという作用をもたらす。

　また、この第１の側面において、上記処理実行部は、上記信頼度に応じた通知を行うようにしてもよい。これにより、信頼度に応じた通知を行うという作用をもたらす。この場合において、上記処理実行部は、上記音声が特定位置からのものであるか否かを示す上記通知を行ってもよい。また、上記処理実行部は、上記音声が特定位置からのものであるかを判別不能な状態である旨の上記通知を行ってもよい。また、上記処理実行部は、上記情報処理装置が装着型端末である場合において、装着状態に関する上記通知を行ってもよい。

　また、この第１の側面において、上記処理実行部は、上記音声が特定位置からのものである場合において、所定のコマンドを実行するようにしてもよい。

　本技術によれば、特定位置からの音声を少ない演算量により検出することができるという優れた効果を奏し得る。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の実施の形態における情報処理システムの構成例を示す図である。本技術の実施の形態における音声指示検出部１２０の構成例を示す図である。音声の伝搬モデルの一例を示す図である。本技術の実施の形態におけるウェアラブルデバイス１００の具体例を示す図である。本技術の実施の形態のウェアラブルデバイス１００におけるマイクロフォン１１０の配置例を示す図である。本技術の実施の形態におけるウェアラブルデバイス１００を想定した音響特性の一例を示す図である。本技術の実施の形態における信頼度生成部１２４により生成される信頼度の一例を示す図である。本技術の実施の形態における携帯端末２００上の通知の第１の例を示す図である。本技術の実施の形態における携帯端末２００上の通知の第２の例を示す図である。本技術の実施の形態におけるウェアラブルデバイス１００装着ずれの改善例を示す図である。

　以下、本技術を実施するための形態（以下、実施の形態と称する）について説明する。説明は以下の順序により行う。
　１．システム構成
　２．音源推定処理
　３．適用例

　＜１．システム構成＞
　［情報処理システム］
　図１は、本技術の実施の形態における情報処理システムの構成例を示す図である。この情報処理システムは、ウェアラブルデバイス１００と、携帯端末２００とを備える。ウェアラブルデバイス１００は、ユーザの身体の一部に装着されるデバイスである。このウェアラブルデバイス１００を装着するユーザを装着者と称する。携帯端末２００は、ユーザによって携帯される端末装置である。ウェアラブルデバイス１００と携帯端末２００の間は、無線通信により接続されて使用されることが想定される。例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）によるペアリングによって、ウェアラブルデバイス１００と携帯端末２００との間が接続される。

　ウェアラブルデバイス１００は、マイクロフォン１１０と、音声指示検出部１２０と、コマンド生成部１３０と、コマンド処理部１４０と、通知部１５０とを備える。

　マイクロフォン１１０は、音声を電気信号に変換する装置であり、周囲の音声を取得するために用いられる。電気信号に変換された音声は、信号線１１１を介して音声指示検出部１２０に供給される。マイクロフォン１１０は、１つまたは複数のマイクロフォンを含み得る。複数のマイクロフォンが使用された場合には、信号線１１１を介して供給される音声は複数チャンネル信号となる。なお、マイクロフォン１１０は、特許請求の範囲に記載の音声取得部の一例である。

　音声指示検出部１２０は、マイクロフォン１１０によって取得された音声から、装着者による音声指示を検出するものである。この音声指示は、音声ユーザインタフェースとして利用される。装着者による音声指示を検出した場合には、音声指示検出部１２０は信号線１２８を介してコマンド生成部１３０にその音声指示の内容を供給する。また、この音声指示検出部１２０は、マイクロフォン１１０によって取得された音声が特定位置からのものである度合いを示す信頼度を生成して、信号線１２９を介して通知部１５０に供給する。

　コマンド生成部１３０は、信号線１２８を介して音声指示検出部１２０から供給された音声指示の内容に応じたコマンドを生成するものである。すなわち、音声指示に基づく音声ユーザインタフェースによりコマンドが生成される。コマンド処理部１４０は、コマンド生成部１３０によって生成されたコマンドを実行するものである。このコマンド処理部１４０は、通知部１５０を介して、必要に応じてその実行結果を携帯端末２００に通知する。

　通知部１５０は、音声指示検出部１２０によって生成された信頼度に応じた通知を行うものである。この通知部１５０による通知としては、例えば、音声が装着者からのものであるか否かを示す通知や、装着状態に関する通知、上述のコマンド処理部１４０の実行結果の通知などが想定される。

　なお、コマンド処理部１４０および通知部１５０は、特許請求の範囲に記載の処理実行部の一例である。

　［音声指示検出部］
　図２は、本技術の実施の形態における音声指示検出部１２０の構成例を示す図である。この音声指示検出部１２０は、音声統合部１２１と、音声区間検出部１２２と、認識対象判別部１２３と、信頼度生成部１２４とを備える。

　音声統合部１２１は、信号線１１１を介して供給される音声が複数チャンネル信号である場合に、それらを１チャンネル信号に統合するものである。音声統合部１２１によって統合された１チャンネル信号は、信号線１２５を介して音声区間検出部１２２に供給される。

　音声区間検出部１２２は、信号線１２５を介して音声統合部１２１から供給された１チャンネル信号において音声区間を検出するものである。音声区間は音声が発話された区間であり、この音声区間の検出は、ＶＡＤ（Voice Activity Detection）と呼ばれる。音声区間検出部１２２は、音声統合部１２１から供給された１チャンネル信号において音声らしさを表す音声尤度を生成し、この音声尤度が所定の閾値を超えた時間的区間を音声区間として検出する。音声区間検出部１２２は、音声区間を検出すると、信号線１２６を介してその音声区間の音声を認識対象判別部１２３に供給する。

　認識対象判別部１２３は、音声区間検出部１２２において音声区間が検出されてその音声区間の音声が供給されると、その音声区間において認識対象が含まれるか否かを判別する。認識対象としては、例えば、「ＯＫ」や「ハロー」等の起動ワードが想定される。認識対象判別部１２３は、音声区間に認識対象が含まれる旨を検出すると、信号線１２７を介してその旨を信頼度生成部１２４に通知する。その結果、信頼度生成部１２４において生成された信頼度が所定の閾値より高い場合には、信号線１２８を介してその音声区間の音声をコマンド生成部１３０に供給する。

　信頼度生成部１２４は、認識対象判別部１２３から音声区間に認識対象が含まれる旨の通知を受けると、信号線１１１を介して供給される音声が特定位置からのものである度合いを示す信頼度を生成するものである。この信頼度生成部１２４は、音声の伝達特性に基づいて信頼度を生成する。伝達特性としては、後述するように、複数の音声の到達時間による位相差や、音声の振幅の特性（音響特性）を利用することができる。この伝達特性に基づいて、信頼度生成部１２４は信頼度を生成して、信号線１２９を介してその信頼度を認識対象判別部１２３および通知部１５０に出力する。

　＜２．音源推定処理＞
　［ＭＵＳＩＣ法］
　図３は、音声の伝搬モデルの一例を示す図である。ここでは、前提となる従来のＭＵＳＩＣ法について説明する。ＭＵＳＩＣ（MUltiple SIgnal Classification）法は、複数のマイクロフォン間の位相差を固有空間において解析することによって、音源定位を行う手法である。一般に、音源定位とは、複数のマイクロフォンを搭載している機器において、各マイクロフォンで観測される音波の差等を利用することによって音源の位置を同定する技術である。ここでは、空間にＭ（Ｍは１より大きい整数）個のマイクロフォン２０およびＮ（ＮはＭより小さい整数）個の音源１０があると仮定して、これらにより伝搬した音波を測定することを考える。

　このとき、ｍ（ｍは１からＭの何れかの整数）番目のマイクロフォンにおける伝搬波の遅延をτ_ｍと表すものとすると、時刻ｔにおける各マイクロフォンによる観測信号ｚ_ｍ（ｔ）は次式で表される。ただし、ｓ（ｔ）は時刻ｔにおける音源信号を表す。

　そして、上式をフーリエ変換することにより、次式に示す任意の周波数ｆｉに関するフーリエスペクトルが得られる。ただし，Ｚ_ｍ（ｆ_ｉ）は、ｓ（ｔ－τ_ｍ）＝ｚ_ｍ（ｔ）をフーリエ変換した結果を表す。

　このとき，音源信号のフーリエスペクトルをＳ（ｆｉ）、音源が各マイクロフォンに到達するまでの経路の伝達関数をａ_ｍとすると、上式は次式のように書き直すことができる。一般に、ａ_ｆｉはアレイ・マニフォールドベクトルと呼ばれ、各音源に関するアレイ・マニフォールドベクトルを並べた行列Ａ＝［ａ_１，ａ_２，・・・，ａ_Ｎ］はアレイ・マニフォールド行列と呼ばれる。ただし、アレイ・マニフォールドベクトルａ_ｆｉはＭ次元の複素数であり、アレイ・マニフォールド行列ＡはＭ×Ｎ次元の複素数である。

　ここで、周波数領域での観測信号を並べたベクトル（以下、観測ベクトルと称する。）に関して、音声信号のフレーム毎に共分散行列を算出し、次式のようにフレーム平均を取ることによって周波数ｆｉに関する空間相関行列Ｒを得る。ただし、空間相関行列Ｒは、Ｍ×Ｍ次元の複素数である。また、ｚ_ｎ（ｆ_ｉ）は、観測信号をＦ個にフレーム分割したフレーム＃ｎにおける信号を、周波数ｆ_ｉについてフーリエ変換することによって得られる観測ベクトルである。

　このようにして得られた空間相関行列Ｒは、各マイクロフォンによって観測されたパワースペクトルを対角成分に持ち、その他の要素にはマイクロフォン間の空間的なパワー相関を持つ、音源の空間的性質を表す統計量である。ＭＵＳＩＣ法では、この空間相関行列Ｒについて、次式を満足する固有ベクトルｅ_ｍおよび固有値λ_ｍを算出することにより、周波数領域から固有空間への議論として展開される。
　　Ｒ・ｅ_ｍ＝λ_ｍ・ｅ_ｍ

　上式は、共分散行列の最大化を行う主成分分析（ＰＣＡ：Principle Component Analysis）が最終的に解く一般化固有値問題と同じである。したがって、空間相関行列の固有ベクトルを算出することは、固有空間において、観測された音波を可能な限り少ない情報量で最もよく表す軸を探すことと同義である。そのため、理想的なクリーンな環境下では、より支配的な音源を表す固有ベクトルに対応する固有値が降順に音源の数だけ算出され、「音源数＋１」以降の固有値はゼロとなる。

　一般に、部分空間法では各音源までの伝達経路を並べた行列Ａの各列ベクトルによって張られる空間は、信号部分空間と呼ばれる。このとき、上式により算出される音源数の固有ベクトルが固有値の降順に張る空間は、信号部分空間の正規直交基底となる。また、固有値の降順に「音源数＋１」以降の固有ベクトルによって張られる空間は雑音部分空間と呼ばれる。固有ベクトルの正規直交基底の性質から、信号部分空間および雑音部分空間は直交補空間の関係になる。

　ＭＵＳＩＣ法では、上述の信号部分空間および雑音部分空間の直交性に着目して、雑音部分空間に対応する固有ベクトルを並べた行列Ｅ＝［ｅ_Ｎ＋１，ｅ_Ｎ＋１，…，ｅ_Ｍ］を用いて、次式で定義される空間スペクトルを用いることによって音源が存在する方向θを推定する。ただし、行列Ｅは、Ｍ×（Ｍ－Ｎ）次元の複素数である。また、ａ（θ）は、方向θに音源があると仮定した場合の仮想的なアレイ・マニフォールドベクトルを表す。
　　Ｐ_ＭＵ（θ）
　　　＝（ａ^Ｈ（θ）・ａ（θ））／（ａ^Ｈ（θ）・Ｅ・Ｅ^Ｈ・ａ（θ））

　上式を方向θについて評価していくと、真に音源が存在する方向については、雑音部分空間と信号部分空間の直交性から、上式の分母はゼロとなる。すなわち、空間スペクトルＰ_ＭＵ（θ）は極めて大きな値となり、ピークを持つ。ＭＵＳＩＣ法では、以上のように空間スペクトルＰ_ＭＵ（θ）のピークを探すことによって、音源定位を実現する。

　［特定位置からの音声のアレイ・マニフォールドベクトル測定］
　上述のＭＵＳＩＣ法は、一般に他の音源定位の手法と比較して空間分解能が高く、高性能であることが知られている。しかしながら、これをウェアラブルデバイスに適用しようとした場合、ウェアラブルデバイスは十分な計算のためのリソースを搭載できないことが多く、固有値分解によるピーク探索を全方向について行うことは計算量の点から望ましくない。また、ウェアラブルデバイスは様々な環境で用いられるため、そのときの背景ノイズの違いや用いる周波数帯域によって一概に「ピーク」といっても値に大きなばらつきが存在するため、ピーク同定が困難になるおそれがある。

　そこで、以下では、装着者とマイクロフォンの位置関係が概ね一定なことに着目し、装着者の方向のみを解析対象として全方位探索を行わない新たな手法について説明する。この手法によれば、全方位探索を行わないことにより、計算量を低減することができる。また、ＭＵＳＩＣ法において定義される空間スペクトルＰ_ＭＵ（θ）に対して、信号部分空間の寄与率に応じた重み付き正規化を周波数帯域毎に施すことにより、信頼度生成部１２４において信頼度を出力することが可能となる。

　まず、離散フーリエ変換を施した周波数領域において、任意の周波数ｆ_ｊ（ｊは１からＪの整数）において、次式で定義される空間スペクトル値を算出することを考える。ただし、Ｊは周波数ビンの総数である。ここで、ｅ_ｉは、固有値分解をして得られるｉ番目の固有ベクトルを表す。また、ａ_ｗｅａｒは、装着者の口からマイクロフォンまでの伝達距離を既知のものとして想定した、アレイ・マニフォールドベクトルの値である。また、φ_ｉは、ａ_ｗｅａｒとｅ_ｉとの角度を表す。

　このとき、上式は、次式のように展開することができる。

　ここで、最終的なＰ（ｆ_ｊ）の分母は、［０、（Ｍ－Ｎ）］の閉区間内の値となる。したがって、この逆数Ｐ^-1（ｆ_ｊ）を用いることにより、任意の周波数ｆ_ｊにおける評価関数を次式の通りに定義する。
　　Ｅ（ｆ_ｊ）＝Ｐ^-1（ｆ_ｊ）／（Ｍ－Ｎ）　（０≦Ｅ（ｆ_ｊ）≦１）

　次に、上式において定義した評価関数Ｅを、使用する全周波数ビンについて重みを付与しながら、次式の通りに評価関数Ｅ_ａｌｌとして統合する。

ただし、ｗ_ｊは信号部分空間が全体の部分空間に対して占める寄与率に基づく重みであり、次式によって定義される。ここで、λ^ｉ _ｊは，任意の周波数ｆ_ｊについて固有値分解を施した際、降順にソートしたｉ番目の固有値である。

　以上のようにして得られる評価関数Ｅ_ａｌｌは、その値がゼロに近いほど特定位置からの音声である確率が高いことを示す評価関数となる。すなわち、装着者の口元の位置を特定位置とすれば、装着者由来の音声である確率を示す評価関数となる。本実施の形態における信頼度生成部１２４は、この評価関数に基づいて上述の信頼度を生成する。この手法によれば、ピーク同定を行わずに、装着者のアレイ・マニフォールドベクトルａ_ｗｅａｒに関する固有値分解のみを行うため、全方位を探索するよりも計算量が削減される。また、最終的に用いられる評価関数Ｅ_ａｌｌは、閉区間［０，１］の出力値となるため、閾値の決定を容易にすることができる。

　＜３．適用例＞
　［ウェアラブルデバイスの具体例］
　図４は、本技術の実施の形態におけるウェアラブルデバイス１００の具体例を示す図である。ここでは、ウェアラブルデバイス１００として、装着者の首の部分に掛けて使用することを想定したネックバンド型のものを示している。このウェアラブルデバイス１００は、一部が開口したリング状の形状を有する。

　このウェアラブルデバイス１００は、上述のようにマイクロフォン１１０を有しており、周囲の音声を取得する。このウェアラブルデバイス１００においてマイクロフォン１１０が配置される位置については後述する。

　このウェアラブルデバイス１００は、マイクロフォン１１０により集音された音声について、上述の音声区間を検出し、認識対象を判別するとともに、取得された音声が特定位置からのものである度合いを示す信頼度を生成する。そして、その音声について音声認識技術や自然言語処理技術に基づく解析を施すことにより、ユーザが発話した内容を認識してコマンドを生成する。これにより、ウェアラブルデバイス１００は、例えば、ユーザからの指示内容を認識し、認識結果に応じて各種処理（アプリケーション）を実行することが可能となる。また、他の応用例として、さらに通話機能を備え、集音された音声を通話の相手である他の情報処理装置に転送してもよい。

　以下では、信頼度生成部１２４が信頼度を生成する際の伝達特性の例として、位相差を利用した場合と、音響特性を利用した場合について説明する。

　［位相差に基づく判別］
　図５は、本技術の実施の形態のウェアラブルデバイス１００におけるマイクロフォン１１０の配置例を示す図である。ここでは、ネックバンド型のウェアラブルデバイス１００において、複数のマイクロフォン１１０を配置して、複数のマイクロフォン間の位相差に基づいて装着者からの音声であるか否かを判別する。複数のマイクロフォン１１０が配置されている場合、装着者の音声固有の伝達経路がマイクロフォン１１０の数だけ存在することになる。したがって、それら複数のマイクロフォン間の位相差に基づいて、装着者からの音声であるか否かを判別することができる。

　同図は、マイクロフォン１１０の数に応じた最適な配置例を示している。同図におけるａは、２チャンネルマイクの例であり、１つのマイクロフォン１１０を装着者の口元付近（近傍）に設け、もう１つのマイクロフォン１１０を装着者の首裏部分に設けた例である。すなわち、両者は装着者を中心として、相対して配置されている。同図におけるｂは、３チャンネルマイクの例であり、ａに対してさらに装着者の口元にマイクロフォン１１０を１つ追加した例である。同図におけるｃは、４チャンネルマイクの例であり、ｂに対してさらに装着者の口元にマイクロフォン１１０を１つ追加した例である。なお、同図は、装着者の頭部から捉えた図であり、上側が装着者の正面、下側が装着者の背後をそれぞれ示している。

　同図に示したように、ウェアラブルデバイス１００における装着者の発話識別に有効なマイクロフォン１１０の配置の要件としては、装着者の口元に近く、ＳＮＲ（Signal to Noise Ratio）が良好なマイクロフォンが多く配置されていることが望ましい。

　また、少なくとも１つのマイクロフォンが他のマイクロフォンと装着者を原点に概ね１８０度裏側、すなわち点対称の相対する位置にあることが望ましい。より具体的には、首を原点とした１８０度裏側のマイクロフォンによって観測される信号は、回折等によって周波数特性に影響が生じ、それが音源の空間的性質を表す空間相関行列にも影響を及ぼすことが、特定方向の非装着者からの音声に対する識別性能の向上に寄与するものと考えられる。

　［音響特性に基づく判別］
　図６は、本技術の実施の形態におけるウェアラブルデバイス１００を想定した音響特性の一例を示す図である。ここでは、ネックバンド型の首裏部分に１つのマイクロフォン１１０を設けた場合の周波数特性の例を示している。実線で示したグラフは装着者による発音の周波数特性を示している。点線で示したグラフは一例として装着者の真正面に位置する非装着者による発音の周波数特性を示している。なお、縦軸の値は、比較し易いように、装着者および非装着者のそれぞれについて、全周波数帯域に関する周波数特性の平均値がゼロとなるよう正規化を施している。

　この図から明らかなように、両者には周波数特性の分布が異なっている。したがって、取得された音声の周波数特性の分布を調べることにより、その音声が装着者由来のものであるかまたは他者由来のものであるかを判別することができる。

　なお、この例ではネックバンド型のウェアラブルデバイスを想定したが、例えば、イヤホン型のウェアラブルデバイスであれば、耳中マイク等の骨伝導音の伝達特性等を利用することが考えられる。

　［信頼度と通知］
　図７は、本技術の実施の形態における信頼度生成部１２４により生成される信頼度の一例を示す図である。ここでは、信頼度は「０」から「１」の値を示し、「１」に近いほど装着者らしさが大きく、「０」に近いほど装着者らしさが小さいことを意味するものとする。

　信頼度には判別閾値が設けられ、この判別閾値より信頼度が大きければ装着者領域となり、装着者による音声であるものと判別される。この場合は、ユーザからの音声指示が音声ユーザインタフェースとして問題なく利用され得る状態となる。

　一方、この判別閾値よりも信頼度が小さい場合には、装着者による音声であるとは判別されない。信頼度が「０」に十分近ければ、非装着者領域となり、装着者以外の者による音声であるものと判別される。このとき、例えば図８に示すように、「装着者以外の音声と判断しました」等のメッセージが携帯端末２００上に通知されることが望ましい。

　そして、装着者領域または非装着者領域の何れにも属さない領域は曖昧領域とされ、何れの者による音声であるかは判別できない。この場合、ウェアラブルデバイス１００の装着がずれている可能性があるため、例えば図９に示すように、「装着ずれが生じている可能性があります」等のメッセージが携帯端末２００上に通知されることが望ましい。これにより、例えば、当初は図１０におけるａのようにウェアラブルデバイス１００の装着ずれが生じていた場合、ユーザ自身では装着ずれに気がつかないことがある。そこで、装着ずれを示唆する通知を受けると、そのユーザは装着ずれに気がつき、図１０におけるｂのように適正な位置に配置し直すことが期待できる。

　ユーザに対する通知は、上述の通知部１５０によって行われる。ここでは、通知の態様として、携帯端末２００上にメッセージを表示する例について説明したが、通知の態様はこれに限定されない。例えば、ウェアラブルデバイス１００が音声を出力するスピーカや振動を発生するバイブレータを有する場合には、そのスピーカから通知音を出力し、バイブレータから振動を発生してもよい。また、ウェアラブルデバイス１００が表示画面を有する場合には、通知音または振動とともにテキストによるメッセージを表示してもよい。また、携帯端末２００においてメッセージを表示する際に、通知音または振動とともに表示してもよい。

　また、非装着者領域の信頼度が発生した回数をカウントしておき、それが一定回数を超えた時点で所定の例外処理を実行するようにしてもよい。ただし、その途中で装着者領域の信頼度が発生した場合にはカウント数をゼロに初期化し、曖昧領域の信頼度が発生した場合には初期化もカウントもせずに現状維持とすることが考えられる。なお、例外処理に移行するまでの回数は、システムの状況に応じて適切に設定することが望ましい。

　ここで、所定の例外処理としては、例えば、音声ユーザインタフェースの使用を強制的に禁止することが考えられる。この使用禁止を解除するためには、指紋認証やボタンを介したパスワード入力、話者認識などが用いられる。また、音声ユーザインタフェースを使用禁止にするか否かをユーザに確認して、ユーザが音声による応答またはボタンによる応答を行うようにしてもよい。また、何度も通知を行ってユーザに不快感を与えるような状況においては、以降の通知を行わないようにすることも考えられる。

　このように、本技術の実施の形態によれば、取得された音声が特定位置からのものである度合いを示す信頼度に応じて、音声ユーザインタフェースにおける通知やコマンド処理などを実行することができる。

　なお、上述の実施の形態は本技術を具現化するための一例を示したものであり、実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本技術の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本技術は実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。

　また、上述の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、ＣＤ（Compact Disc）、ＭＤ（MiniDisc）、ＤＶＤ（Digital Versatile Disc）、メモリカード、ブルーレイディスク（Blu-ray（登録商標）Disc）等を用いることができる。

　なお、本明細書に記載された効果はあくまで例示であって、限定されるものではなく、また、他の効果があってもよい。

　なお、本技術は以下のような構成もとることができる。
（１）周囲の音声を取得する音声取得部と、
　前記取得された音声が特定位置からのものである度合いを示す信頼度を所定の伝達特性に基づいて生成する信頼度生成部と、
　前記信頼度に応じた処理を実行する処理実行部と
を具備する情報処理装置。
（２）前記音声取得部は、複数のマイクロフォンを備え、
　前記信頼度生成部は、前記所定の伝達特性として前記複数のマイクロフォンにより取得された前記音声の位相差に基づいて前記信頼度を生成する
前記（１）に記載の情報処理装置。
（３）前記複数のマイクロフォンの少なくとも一部は、前記特定位置の近傍に配置される
前記（２）に記載の情報処理装置。
（４）前記複数のマイクロフォンのいずれか一対は、前記特定位置に相対して配置される
前記（２）または（３）に記載の情報処理装置。
（５）前記信頼度生成部は、前記所定の伝達特性として前記音声取得部により取得された前記音声の音響特性に基づいて前記信頼度を生成する
前記（１）に記載の情報処理装置。
（６）前記処理実行部は、前記信頼度に応じた通知を行う前記（１）から（５）のいずれかに記載の情報処理装置。
（７）前記処理実行部は、前記音声が特定位置からのものであるか否かを示す前記通知を行う前記（６）に記載の情報処理装置。
（８）前記処理実行部は、前記音声が特定位置からのものであるかを判別不能な状態である旨の前記通知を行う前記（６）に記載の情報処理装置。
（９）前記処理実行部は、前記情報処理装置が装着型端末である場合において、装着状態に関する前記通知を行う前記（６）に記載の情報処理装置。
（１０）前記処理実行部は、前記音声が特定位置からのものである場合において、所定のコマンドを実行する前記（１）から（９）のいずれかに記載の情報処理装置。

　１０　音源
　２０　マイクロフォン
　１００　ウェアラブルデバイス
　１１０　マイクロフォン
　１２０　音声指示検出部
　１２１　音声統合部
　１２２　音声区間検出部
　１２３　認識対象判別部
　１２４　信頼度生成部
　１３０　コマンド生成部
　１４０　コマンド処理部
　１５０　通知部
　２００　携帯端末

Claims

　周囲の音声を取得する音声取得部と、
　前記取得された音声が特定位置からのものである度合いを示す信頼度を所定の伝達特性に基づいて生成する信頼度生成部と、
　前記信頼度に応じた処理を実行する処理実行部と
を具備する情報処理装置。
　前記音声取得部は、複数のマイクロフォンを備え、
　前記信頼度生成部は、前記所定の伝達特性として前記複数のマイクロフォンにより取得された前記音声の位相差に基づいて前記信頼度を生成する
請求項１記載の情報処理装置。
　前記複数のマイクロフォンの少なくとも一部は、前記特定位置の近傍に配置される
請求項２記載の情報処理装置。
　前記複数のマイクロフォンのいずれか一対は、前記特定位置に相対して配置される
請求項２記載の情報処理装置。
　前記信頼度生成部は、前記所定の伝達特性として前記音声取得部により取得された前記音声の音響特性に基づいて前記信頼度を生成する
請求項１記載の情報処理装置。
　前記処理実行部は、前記信頼度に応じた通知を行う請求項１記載の情報処理装置。
　前記処理実行部は、前記音声が特定位置からのものであるか否かを示す前記通知を行う請求項６記載の情報処理装置。
　前記処理実行部は、前記音声が特定位置からのものであるかを判別不能な状態である旨の前記通知を行う請求項６記載の情報処理装置。
　前記処理実行部は、前記情報処理装置が装着型端末である場合において、装着状態に関する前記通知を行う請求項６記載の情報処理装置。
　前記処理実行部は、前記音声が特定位置からのものである場合において、所定のコマンドを実行する請求項１記載の情報処理装置。