JPWO2019073803A1

JPWO2019073803A1 - 音声入力装置および方法、並びにプログラム

Info

Publication number: JPWO2019073803A1
Application number: JP2019548109A
Authority: JP
Inventors: 和也立石; 高橋　秀介; 秀介高橋; 高橋　晃; 晃高橋; 和樹落合
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-10-11
Filing date: 2018-09-27
Publication date: 2020-11-05
Also published as: WO2019073803A1; US11310593B2; EP3696811A4; US20200329308A1; EP3696811A1; CN111194464A

Abstract

本技術は、発話方向を推定し易くすることができるようにする音声入力装置および方法、並びにプログラムに関する。音声入力装置は、所定の位置に配置される固定部と、固定部に対して可動する可動部と、固定部に取り付けられたマイクロフォンアレイと、マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、推定された発話方向に対応して可動部を駆動する駆動部とを備える。この音声入力装置は、例えば、スマートスピーカ、音声エージェント、ロボット等に組み込んで利用することができる。

Description

本技術は、音声入力装置および方法、並びにプログラムに関し、特に発話方向を推定し易くすることができるようにした音声入力装置および方法、並びにプログラムに関する。

近年、ロボット技術と人工知能(AI:Artificial Intelligence)の発展により、人と会話したり、自らその体を動かすことができるようにした機器が増えてきた。人の声を認識するためにはさまざまな使用環境を想定して、少しでも雑音を抑圧できるようにする必要がある。そこで、複数のマイクロフォンを並べたマイクロフォンアレイにより集音し、空間情報を利用した信号処理によって雑音を抑圧することが知られている。

例えば人型のロボットの場合、頭部にマイクロフォンを複数配置することが考えられる。このようにすると、ユーザの口とマイクロフォンの位置が近くなる可能性が高く、音声が認識し易くなる。また、マイクロフォンとモータ等の駆動音源との距離が遠くなり、騒音が少なくなって、目的音声のSNR（Signal-to-Noise ratio）がよくなることが期待できる。

マイクロフォンアレイによって集音した信号を演算して得られた相関行列を利用して話者の方向を推定し、推定した方向の音声を強調することで、正確な音声認識ができるようにすることが知られている（例えば特許文献１）。

特開２００１−３３７６９４号公報

しかし、発話方向を推定した後、発話方向に機器が向いてしまうと、これまで学習していた空間の雑音方向の情報と、機器の移動後のマイクロフォンアレイとの位置関係が崩れてしまう。そのため、これまで逐次的に学習してきた雑音学習情報が使用できなくなり、移動後に改めて雑音情報を空間的に学習する必要が出てくる。

しかし、機器が発話方向を向いた後、すぐに次のユーザの発話が行われることもあり、その場合十分な学習時間を確保することができず、結果的に雑音抑圧性能が劣化し、音声認識に失敗するおそれがある。

本技術はこのような状況に鑑みてなされたものであり、発話方向を推定し易くすることができるようにするものである。

本技術の一側面は、所定の位置に配置される固定部と、前記固定部に対して可動する可動部と、前記固定部に取り付けられたマイクロフォンアレイと、前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、推定された前記発話方向に対応して前記可動部を駆動する駆動部とを備える音声入力装置である。

前記マイクロフォンアレイから入力された、前記発話者からの前記音声を認識し、その認識結果に基づいて、前駆動部を制御する制御部をさらに備えることができる。

前記制御部は、内部または外部に、前記発話者からの前記音声を認識する音声認識エンジンを備えることができる。

前記マイクロフォンアレイにおいては、複数のマイクロフォンが平面的に配置されていることができる。

前記可動部は、回転中心に対して対称であることができる。

前記発話方向推定部は、前記発話者からの前記音声の信号から前記発話方向の水平角である第１の水平角を推定する第１の推定部と、前記第１の水平角を基準として、前記第１の水平角の近傍の所定の範囲において、前記発話方向の前記水平角である第２の水平角と仰角を推定する第２の推定部とを備えることができる。

本技術の一側面は、所定の位置に配置される固定部と、前記固定部に対して可動する可動部と、前記固定部に取り付けられたマイクロフォンアレイとを備える音声入力装置の音声入力方法において、前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、推定された前記発話方向に対応して前記可動部を駆動するステップとを含む音声入力方法である。

本技術の一側面は、コンピュータに、所定の位置に配置される固定部と、前記固定部に対して可動する可動部と、前記固定部に取り付けられたマイクロフォンアレイとを備える音声入力装置の音声入力処理を実行させるプログラムにおいて、前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、推定された前記発話方向に対応して前記可動部を駆動するステップとを含むプログラムである。

本技術の一側面においては、固定部が、所定の位置に配置され、可動部が、固定部に対して可動し、マイクロフォンアレイが固定部に取り付けられ、発話方向推定部が、マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定し、駆動部が、推定された発話方向に対応して可動部を駆動する。

以上のように、本技術の一側面によれば、発話方向を推定し易くすることができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本明細書中に記載されたいずれかの効果であってもよい。

音声入力装置の一実施の形態の物理的な構成を示す斜視図である。マイクロフォンアレイの構成を示す図である。音声入力装置の一実施の形態の物理的な構成を示す斜視図である。音声入力装置の電気的構成を示すブロック図である。発話方向推定部の構成を示すブロック図である。音声入力処理を説明するフローチャートである。発話方向推定処理を説明するフローチャートである。第１MUSIC処理を説明するフローチャートである。水平角推定処理を説明するフローチャートである。第２MUSIC処理を説明するフローチャートである。推定範囲を説明する図である。空間スペクトルの特性を示す図である。空間スペクトルの特性を示す図である。空間スペクトルの特性を示す図である。パーソナルコンピュータの構成例を示すブロック図である。

以下、本技術を実施するための実施の形態について説明する。なお、説明は以下の順序で行う。
１．音声入力装置の物理的構成（図１乃至図３）
２．音声入力装置の電気的構成（図４、図５）
３．音声入力装置の動作（図６乃至図１１）
４．空間スペクトルの特性（図１２乃至図１４）
５．コンピュータ（図１５）
６．その他

＜音声入力装置の物理的構成＞
（図１乃至図３）
最初に、図１乃至図３を参照して、音声入力装置の物理的構成について説明する。図１は、音声入力装置の一実施の形態の物理的構成を示す斜視図であり、図２は、マイクロフォンアレイの構成を示す図である。

図１に示されるように、この実施の形態の音声入力装置１は、ほぼ円柱状の筐体１１を備え、その外周側面の下方には、マイクロフォンアレイ１２が設けられている。図２に示されるように、マイクロフォンアレイ１２は、複数（図２の例においては、８個）のマイクロフォン１３が略水平の円環状に、中心から半径に沿って外周方向に向くように配置されて構成されている。なお、マイクロフォンアレイ１２の複数のマイクロフォン１３は、直線状、あるいは立体的に配置することもできる。

筐体１１の上方には、筐体１１に対して可動する可動部１４が形成されている。可動部１４は、駆動部としての、内蔵されるサーボモータ５３（図４を参照して後述する）により駆動され、水平面内において可動（この例においては回転）する。つまり、テーブルや床に接するように、所定の位置に配置される筐体１１は回転せず、いわば固定部を形成している。マイクロフォンアレイ１２は、筐体１１に設けられているため、可動部１４が回転しても、回転しない。

なお、地磁気センサ、ジャイロセンサなどのセンサ情報を使用して、可動部１４が動いても、マイクロフォンアレイ１２を有する筐体１１は元の位置を保ち続けるようにすることもできる。

可動部１４もほぼ円柱状に形成されており、その正面には、表示部１５が設けられている。この例においては、表示部１５に顔の絵が表示されており、それによりその面が、正面であることが判る。可動部１４は、例えば表示部１５が発話方向に向くように回転される。可動部１４においては、表示部１５の裏側にスピーカ１６が収容されている。スピーカ１６は、ユーザに対してメッセージ等の音を出力する。

音声入力装置１は、例えば室内などの空間２１に配置される。

図３は、音声入力装置の一実施の形態の物理的構成を示す斜視図である。音声入力装置１は、図３に示されるように構成することもできる。図３の音声入力装置１においては、ほぼ円柱状の筐体１１の下端１１Ｂと上端１１Ｔの径が大きく、外側に突出しており、その間の部分は、径が小さく、内側に凹んだ状態になっている。そして、凹んだ部分に、可動部１４が回転自在に配置されている。この例においては、マイクロフォンアレイ１２は、筐体１１の上端１１Ｔに設けられている。このため、可動部１４が回転しても、マイクロフォンアレイ１２は、回転しない。可動部１４には表示部１５が形成され、その裏面側には、スピーカ１６が配置されている。

音声入力装置１は、例えば、スマートスピーカ、音声エージェント、ロボット等に組み込まれ、周囲の音源（例えば人）から音声が発せられた場合、その音声が発せられた発話方向を推定する機能を有している。推定された方向は、装置の正面を発話方向に指向させるのに利用される。

＜音声入力装置の電気的構成＞
（図４、図５）
次に図４を参照して、音声入力装置の電気的構成について説明する。図４は、音声入力装置の電気的構成を示すブロック図である。

図４の音声入力装置１は、マイクロフォンアレイ１２、信号処理部５１、メイン制御部５２、サーボモータ５３、可動部１４、およびスピーカ１６により構成されている。

マイクロフォンアレイ１２からの信号を処理する信号処理部５１は、発話方向推定部７１、信号強調部７２、雑音抑圧部７３、およびエコーキャンセル部７４を有している。発話方向推定部７１は、マイクロフォンアレイ１２からの信号に基づいて、発話方向を推定する。信号強調部７２は、目的音信号を強調する。雑音抑圧部７３は目的音信号に含まれる雑音成分を抑圧する。エコーキャンセル部７４は、マイクロフォンアレイ１２から入力された信号に含まれるエコー成分をキャンセルする処理を行う。

メイン制御部５２は、音声認識エンジン８１と動作決定部８２を有している。音声認識エンジン８１は、入力された信号から音声を認識する。動作決定部８２は、認識された音声に含まれる内容に基づいて、実行する動作を決定する。

なお、メイン制御部５２がインターネット等を介してクラウド６１に接続され、そこに音声認識エンジンが存在する場合においては、内部の音声認識エンジン８１に替えて、外部のその音声認識エンジンを用いて音声認識処理を行うこともできる。

サーボモータ５３は動作決定部８２により可動部１４の駆動が指示された場合には、その指示に応じて可動部１４を駆動する。図１または図３に示される例の場合、例えば可動部１４が所定の位置に回転される。

次に、発話方向推定部７１の構成について図５を参照して説明する。図５は、発話方向推定部の構成を示すブロック図である。

図５の発話方向推定部７１は、周波数変換部１０１、第１MUSIC処理部１０２、水平角推定部１０３、第２MUSIC処理部１０４、および第２ピーク検出部１０５により構成されている。

周波数変換部１０１は、マイクロフォンアレイ１２から入力された音響信号を周波数変換する。第１の推定部としての第１MUSIC処理部１０２は、周波数変換部１０１から入力された周波数領域信号に基づいて、各周波数の信号の相関行列の固有値と固有ベクトルを求める。さらに第１MUSIC処理部１０２は、マイクロフォンアレイ１２から見た発話方向に対する仰角を、所定の一定値に固定した状態で、全水平角に関して空間スペクトルを演算する。

水平角推定部１０３は、第１MUSIC処理部１０２で演算された空間スペクトルから閾値を計算する。また、水平角推定部１０３は、その閾値を超えるピーク値を有する空間スペクトルを検出し、その空間スペクトルが対応する方向を、発話方向（第１の水平角θ＾）であると推定し、検出する。

第２の推定部としての第２MUSIC処理部１０４には、第１MUSIC処理部１０２で求められた各周波数の信号の相関行列の固有ベクトルが供給される。第２MUSIC処理部１０４は、その固有ベクトルに基づいて、水平角推定部１０３で推定された第１の水平角θ＾を基準とする、その近傍の限定した所定の範囲の水平角と全ての仰角の空間スペクトルを算出する。

第２ピーク検出部１０５は、第２MUSIC処理部１０４により算出された、所定の範囲の水平角と仰角に関する空間スペクトルのピーク値を検出し、そのピーク値に対応する方向を最終的な発話方向（θ^out,φ^out）として推定する。

第１MUSIC処理部１０２は、第１相関行列計算部４１１、固有値分解部４１２、周波数重み算出部４１３、伝達関数記憶部４１４、および第１空間スペクトル算出部４１５により構成される。さらに第１MUSIC処理部１０２は、周波数情報統合部４１６、および第２相関行列計算部４１７により構成される。ただし、この構成は、GEVD-MUSICの場合であり、SEVD-MUSICの場合には、第２相関行列計算部４１７は省略される。GEVD(Generalized Eigenvalue Decomposition)は、一般化固有分解を意味し、SEVD(Standard Eigenvalue Decomposition)は、標準固有分解を意味する。

第１相関行列計算部４１１は、時刻フレーム毎に各周波数の目的信号の相関行列を計算する。第２相関行列計算部４１７は、時刻フレーム毎に各周波数の雑音信号の相関行列を計算する。固有値分解部４１２は、相関行列の固有値と固有ベクトルを演算する。周波数重み算出部４１３は、周波数毎の空間スペクトルの寄与度合いを表す周波数重みを算出する。ある方向から音が到来している場合には固有値の分布に偏りが生じており、音源数分の固有値のみが大きくなる。

伝達関数記憶部４１４は、予め伝達関数ベクトルを記憶する。第１空間スペクトル算出部４１５は、固有ベクトルと水平角θに関する伝達関数ベクトルを用いて、水平角θの方向から音が到来している度合いを表す空間スペクトルを算出する。周波数情報統合部４１６は、周波数重みに基づいて、第１の空間スペクトルを統合する。

水平角推定部１０３は、閾値更新部４５１と第１ピーク検出部４５２により構成されている。閾値更新部４５１は、空間スペクトルのピークを検出結果として採用するか否かを決定するための閾値を計算する。第１ピーク検出部４５２は、閾値を超えるピークを有する空間スペクトルの方向を検出する。

第２MUSIC処理部１０４は、伝達関数記憶部４８１、第２空間スペクトル算出部４８２、および周波数情報統合部４８３により構成されている。伝達関数記憶部４８１は、予め伝達関数ベクトルを記憶する。第２空間スペクトル算出部４８２は、所定の水平角と仰角の方向から音が到来している度合いを表す空間スペクトルを算出する。周波数情報統合部４８３は、空間スペクトルの周波数毎の重み付け平均を算出する。

＜音声入力装置の動作＞
（図６乃至図１１）

次に、図６を参照して、音声入力装置１の動作について説明する。図６は、音声入力処理を説明するフローチャートである。ステップＳ１においてマイクロフォンアレイ１２は、音声を入力する。すなわち発話者が発生した音声が入力される。ステップＳ２において発話方向推定部７１により発話方向推定処理が実行される。その詳細は、図７乃至図１１を参照して後述するが、これにより、発話者の音声が発せられた方向（水平角と仰角）が推定される。

ステップＳ３において信号強調部７２は、信号を強調する。すなわち発話方向と推定された方向の音声成分が強調される。ステップＳ４において雑音抑圧部７３は、雑音成分を抑圧し、ＳＮを改善する。

ステップＳ５において音声認識エンジン８１（またはクラウド６１に存在する外部の音声認識エンジン）は、信号処理部５１から供給された音声信号から音声を認識する処理を行う。認識結果は必要に応じてテキスト化される。ステップＳ６において動作決定部８２は、動作を決定する。すなわち、認識された音声の内容に対応する動作が決定される。そして、ステップＳ７において動作決定部８２は、サーボモータ５３を制御し、可動部１４を駆動する。さらにステップＳ８において動作決定部８２は、信号をスピーカ１６に供給し、音声を出力させる。

これにより、例えば発話者から「こんにちは」との挨拶が認識された場合、その発話者の方向に可動部１４が回転され、スピーカ１６から「こんにちは。お元気ですか」といった挨拶が発話者に向けて発せられる。

ステップＳ９においてエコーキャンセル部７４は、エコーをキャンセルする。すなわちスピーカ１６から出力された音声が、所定の時間だけ遅延して、エコーとしてマイクロフォンアレイ１２により他の音に混じって集音されることがある。エコーキャンセル部７４は、スピーカ１６から出力させた音声信号を参照信号として、マイクロフォンアレイ１２により集音された信号から、そのエコー成分を相殺するように処理する。

この音声入力装置１においては、正面が発話者を指向するように可動部１４が回転しても、マイクロフォンアレイ１２は回転しないので、可動部１４の回転の前後で、マイクロフォンアレイ１２の伝達関数が変化するようなことがない。従って、伝達関数を再度学習しなくても、発話方向を迅速に正しく推定することができる。

次に、図７を参照して発話方向推定処理について説明する。図７は、発話方向推定処理を説明するフローチャートである。

ステップＳ１０１において周波数変換部１０１は、マイクロフォンアレイ１２から入力された音響信号を周波数変換する。すなわち、音響信号が時間軸領域の信号から周波数領域の信号に変換される。例えば、フレーム毎に離散フーリエ変換（DFT:Discrete Fourier Transform）または短時間フーリエ変換（STFT:Short Time Fourier Transform）する処理が行われる。例えば、フレーム長は32ms、フレームシフトは10msとすることができる。

ステップＳ１０２において第１MUSIC処理部１０２は、第１MUSIC処理を実行する。第１MUSIC処理の詳細について、図８を参照して説明する。図８は、第１MUSIC処理を説明するフローチャートである。

図８のステップＳ１３１において第１相関行列計算部４１１は、第１の相関行列を計算する。第１の相関行列は、時刻フレーム毎の各周波数の目的音の信号の相関行列であり、その各要素は、各マイクロフォン１３の相関を表している。第１の相関行列は、次式（１）に基づいて演算される。式（１）において、Ｔ_Ｒは相関行列を計算するフレーム長を表し、ベクトルｚ_ω,τは時刻フレームτにおける周波数ωの信号を表す。Ｈはエルミート転置を表す。

ステップＳ１３２において第２相関行列計算部４１７は、第２の相関行列を計算する。第２の相関行列は、時刻フレーム毎の各周波数の雑音信号の相関行列であり、次の式（２）に基づいて計算される。

式（２）において、Ｔ_Ｋは相関行列を計算するフレーム長を表し、Δｔは式（１）のＲ_ω,tと式（２）のＫ_ω,tに共通の時刻フレームの信号が使われないようにするためのものである。α_ω,τは重みであり、一般的には１で良いが、音源の種類によって重みを変えたい場合は、式（３）のようにして、重みが全て０になることを防ぐことができる。

式（３）によれば、第２相関行列計算部４１７は、後段の固有値分解部４１２による一般化固有値分解の対象となる、重みを適用した第２の空間相関行列を、過去の重みを適用した第２の空間相関行列に基づいて逐次的に更新する。このような更新式により、長時間の定常雑音成分の利用が可能になる。さらに重みが０〜１の連続値である場合、過去の第２空間相関行列ほど重みの積算回数が増えて重みがより小さくなるので、直近の時刻の定常雑音成分ほど大きな重みが置かれることになる。従って、目的音の背景にある定常雑音成分に近いと考えられる、直近の時刻の定常雑音成分に大きな重みを置いた状態で第２の空間相関行列の計算が可能になる。

ステップＳ１３３において固有値分解部４１２は、固有値分解する。すなわち、第２相関行列計算部４１７から供給される、重みを適用した第２の空間相関行列と、第１相関行列計算部４１１から供給される、第１の空間相関行列に基づく一般化固有値分解が行われる。例えば次式（４）から固有値と固有ベクトルが計算される。

式（４）においてλ_ｉは、一般化固有値分解で求められるｉ番目に大きな固有値ベクトル、ｅ_ｉは、λｉに対応する固有ベクトル、Ｍは、マイクロフォン１３の数を表す。

SEVDの場合においては、Ｋ_ω,tは、式（５）のようにしたものである。

GEVDの場合においては、次式（６）を満たす行列Φ_ω,tを用いて、式（４）が式（７）と式（８）で表されるように変形される。これによりSEVDの問題となり、式（７）と式（８）から固有値と固有ベクトルが求められる。

式（７）のΦ^−Ｈ _ω,tは、白色化行列であり、式（７）の左辺の括弧内は、定常雑音成分でＲ_ω,tを白色化したもの、すなわち定常雑音成分が除去されたものである。

ステップＳ１３４において第１空間スペクトル算出部４１５は、次の式（９）と式（１０）に基づいて、第１の空間スペクトルＰ^ｎ _ω,θ,tを算出する。すなわち、第１空間スペクトル算出部４１５は、小さい方からM-N個の固有値に対応した固有ベクトルｅ_ｉとステアリングベクトルａ_θを用いて、方向θから音が到来している度合いを表す空間スペクトルＰ^ｎ _ω,θ,tを算出する。固有ベクトルｅ_ｉは、固有値分解部４１２から供給される。方向θに関する伝達関数であるステアリングベクトルａ_θは、方向θに音源があると仮定して予め求められた伝達関数であり、伝達関数記憶部４１４に予め記憶されている。

Ｎは音源の数を表し、θは仰角を固定して空間スペクトルを計算する水平方向を表す。

ステップＳ１３５において周波数重み算出部４１３は、周波数毎の空間スペクトルの寄与度合いを表す周波数重みを算出する。ある方向から音が到来している場合には、固有値の分布に偏りが生じており、音源数分の固有値のみが大きくなる。例えば以下の式（１１）に従って周波数重みｗ_ω,ｔが計算される。λ_ｉは一般化固有値分解で求められるｉ番目に大きな固有値であり、式（１１）の分子の固有値は、一番大きい固有値を意味する。

ステップＳ１３６において周波数情報統合部４１６は、次の式（１２）と式（１３）に従って、周波数毎の第１の空間スペクトルの重み付け平均Ｐ^-ｎ _θ,tを算出する。第１の空間スペクトルＰ^ｎ _ω,θ,tは、第１空間スペクトル算出部４１５から供給され、周波数重みｗ_ω,ｔは周波数重み算出部４１３から供給される。

なお、式（１３）の第２項は、仰角を固定して空間スペクトルを計算する水平方向θの全ての範囲でθ’を変化させたときに、式（１３）のlogP^-ｎ _θ’，ｔを最小にするものである。

式（１２）の演算では、調和平均が求められているが、算術平均や幾何平均を求めるようにすることもできる。式（１３）の演算により、最小値が０に正規化されており、この演算におけるlogの底は任意だが、例えばネイピア数を用いることができる。式（１３）の演算により、後段の第１ピーク検出部４５２で音源と無関係なピークを閾値以下に抑える効果がある。

以上のようにして、第１MUSIC処理部１０２における第１MUSIC処理により、第１の空間スペクトルの重み付け平均Ｐ＾^ｎ _θ,tが計算される。

図７に戻って、ステップＳ１０２の第１MUSIC処理（図８の処理）の後、ステップＳ１０３において水平角推定部１０３により、水平角推定処理が行われる。この水平角推定処理について、図９を参照して説明する。図９は、水平角推定処理を説明するフローチャートである。

ステップＳ１６１において閾値更新部４５１は、閾値を計算する。すなわち、第１MUSIC処理部１０２の周波数情報統合部４１６から出力された第１の空間スペクトルの重み付け平均Ｐ＾^ｎ _θ,tのうち、ピーク検出を行うか否かを決めるための閾値Ｐ^ｔｈ _θ,ｔが、例えば次の式（１４）と式（１５）に従って計算される。α^ｔｈ，β^ｔｈ，γ^ｔｈは、それぞれ定数であり、Θはスキャンする方向の数を表す。

この閾値Ｐ^ｔｈ _θ,ｔは音源がその方向にないものの、値の小さいピークとなってしまったものを除去したり、ある方向から鳴り続けている音を除去したりする効果がある。目的音声は短いコマンドや機器を操作するための発話であることが多く、長時間続くものではないと想定される。

次にステップＳ１６２において第１ピーク検出部４５２は、第１のピークを検出する。すなわち、周波数情報統合部４１６から出力された第１の空間スペクトルの重み付け平均Ｐ＾^ｎ _θ,tのうち、閾値更新部４５１から出力された閾値Ｐ^ｔｈ _θ,ｔを超えるピークを有するものが検出される。そして、検出されたピークを有する第１の空間スペクトルの重み付け平均Ｐ＾^ｎ _θ,tに対応する水平角θ＾が、仰角を固定したときの発話方向（第１の水平角）として出力される。

以上のようにして、図７のステップＳ１０３における水平角推定部１０３の水平角推定処理（図９の処理）により、仰角を固定したときの発話方向である第１の水平角θ＾が推定される。

図７のステップＳ１０３の水平角推定処理の次に、ステップＳ１０４において第２MUSIC処理部１０４により第２MUSIC処理が実行される。この第２MUSIC処理の詳細について、図１０を参照して説明する。図１０は、第２MUSIC処理を説明するフローチャートである。

ステップＳ１８１において第２空間スペクトル算出部４８２は、第２の空間スペクトルを算出する。すなわち、固有値分解部４１２で得られた固有ベクトルｅ_ｉのうち、小さい方からM-N個の固有値λ_ｉに対応した固有ベクトルｅ_ｉと、方向（θ~，φ）に関する伝達関数であるスステアリングベクトルａ_θ~，φを用いて、第２の空間スペクトルが算出される。第２の空間スペクトルＰ^ｎ _{ω，θ~，φ，ｔ}の算出は、例えば次の式（１６）に従って行われる。

θ~は、仰角を固定したときの音源の推定方向θ＾を基準として、その近傍の制限された範囲（θ＾±ｓ）である。すなわち、θ＾-ｓ＜θ~＜ θ＾＋ｓとされる。つまり、仰角を推定する範囲が、３６０度の全水平角の範囲ではなく、一次的に推定された第１の水平角θ＾の近傍の制限された範囲とされる。φは空間スペクトルを計算する仰角方向を表す。

図１１は、推定範囲を説明する図である。図１１に示されるように、仰角を推定する範囲は、３６０度の全水平角の範囲ではなく、一次的に推定された第１の水平角θ＾の近傍の制限された範囲（θ＾±ｓ）であるので、演算量を少なくすることができる。その結果、演算リソースの高くない（演算能力が高くない）デバイスでも、リアルタイムに演算することが可能になる。本技術は、ユーザがいそうな方向が完全に未知な条件（カメラ等の画角に入っていることや、ウェアラブルデバイスのように予め「この方向にいる」という情報がない場合）でも適用可能である。

第２の空間スペクトルは、方向（θ~，φ）から音が到来している度合いを表す空間スペクトルである。方向（θ~，φ）に関するステアリングベクトルａ_θ~，φは予め伝達関数記憶部４８１に記憶されており、固有ベクトルｅ_ｉは、第１MUSIC処理部１０２の固有値分解部４１２から供給される。

ステップＳ１８２において周波数情報統合部４８３は、次の式（１７）と式（１８）に従って、周波数毎の第２の空間スペクトルの重み付け平均Ｐ＾^ｎ _θ~,φ,tを算出する。第２の空間スペクトルＰ^ｎ _ω，θ _~，φ，ｔは、第２空間スペクトル算出部４８２から供給され、周波数重みｗ_ω,ｔは第１MUSIC処理部１０２の周波数重み算出部４１３から供給される。

以上の第２MUSIC処理部１０４の第２MUSIC処理により、周波数毎の第２の空間スペクトルの重み付け平均Ｐ＾^ｎ _θ~,φ,tが算出される。

図７に戻って、ステップＳ１０４の第２MUSIC処理（図１０の処理）が終了すると、ステップＳ１０５において第２ピーク検出部１０５がピークを検出する。すなわち、第２MUSIC処理部１０４が出力した、重み付き平均された空間スペクトルのうち、最大値を取る空間スペクトルが検出され、その空間スペクトルに対応する水平角（第２の水平角θ^out）と仰角φ^outが、発話方向（θ^out,φ^out）として出力される。

以上のようにして、可動部１４を回転させ、表示部１５を推定された発話方向に向かせることにより、その方向からの音声を受け付けていることを示すことができる。

この例では、MUSIC法による演算が行われるので、発話方向を正確に求めることができる。また、水平角と仰角を推定する範囲が、３６０度の全水平角の範囲ではなく、一次的に推定された第１の水平角θ＾の近傍の制限された範囲（θ＾±ｓ）とされるので、演算量を少なくすることができる。その結果、演算リソースの高くない（演算能力が高くない）デバイスでも、リアルタイムに演算することが可能になる。

＜空間スペクトルの特性＞
（図１２乃至図１４）
次に、図１２乃至図１４を参照して、空間スペクトルの特性について説明する。図１２乃至図１４は、空間スペクトルの特性を示す図である。

第２の空間スペクトルの重み付け平均Ｐ＾^ｎ _θ~,φ,tは、図１２に示されるように、発話方向θsにおいてピークを持つ。音源が１つの環境においては、この空間スペクトルは発話方向の水平角θiの位置で鋭いピークを持つ。しかし、常時雑音が発生しているような環境においては、例えば図１３に示されるように、発話方向θsだけでなく、雑音方向θnといったように、２つ以上のピークが出現することがある。また、スペクトルが歪んできれいにピークが求められないといったことが起こる。

そこでこの音声入力装置１においては、式（７）を参照して説明したように、一般化固有値分解により、雑音が白色化される。これにより、空間的に有色な雑音を白色化することができるため、得られる新たな固有ベクトルを用いてMUSIC法による処理を行うと、図１４に示されるように、空間スペクトルから、発話方向θsに比べて雑音方向θnのピークを抑圧することができる。

発話方向推定部７１を、図５に示したように構成した場合、演算リソースの高くないデバイスでも、リアルタイムに演算することが可能であるので、マイクロフォンアレイ１２を、必ずしも固定部としての筐体１１に設ける必要はない。しかしながら、マイクロフォンアレイ１２を、固定部としての筐体１１に設けておけば、発話者の方向を推定するのに、より演算能力が低いデバイスを用いることが可能になる。

そして、上述した式（２）の雑音信号の相関行列Ｋ_ω,tを、予め学習しておくか、または逐次的に更新しながらある程度の時間幅を持った雑音区間情報から計算し、保持しておくことができる。可動部１４が回転しても、回転の前後でマイクロフォンアレイ１２の配置、発話方向、空間の間の位置関係が変わらなければ、それまで学習した空間情報がそのまま使用できるため、動作による性能劣化が起こらず、不要な混乱を招かない。そして、通話、音声認識等のアプリケーションを、安定して使用することができる。

マイクロフォンアレイ１２を立体的に配置した方が、演算量が増える反面、発話方向の正確な推定には有利となる。しかし、マイクロフォンアレイ１２を固定部に取り付けることにより、図１乃至図３に示されるように、平面的に配置し、より演算量が少ない方法を採用しても、正確に発話方向を推定することが可能になる。その結果、コストを低減することができる。

相関行列Ｋ_ω,tの逐次学習は、使用環境の雑音の特徴を推定しているものであり、例えばテレビジョン放送やラジオ放送などの音が定常的に流されていると、その方向の雑音情報が相関行列Ｋ_ω,tの中に蓄積される。その結果、人の発話を検出するときに誤ってテレビやラジオの方向が検出され難くなる。この相関行列Ｋ_ω,t に十分な情報を蓄積するためにはある程度の時間が必要である。

マイクロフォンアレイ１２を固定せずに、回転してしまうと、回転直後はマイクロフォンアレイ１２と空間の位置関係がリセットされてしまう。回転直後のユーザ（または別の方向の新たなユーザ）の発話を検出するための方向推定時に、これまで学習していた相関行列Ｋ_ω,tを使用してしまうと、テレビジョン放送やラジオ放送による雑音の方向や強さの情報が相関行列Ｋ_ω,tにまだ学習されていない。そのため、マイクロフォンアレイ１２の回転直後においては、発話方向を正確に推定することが困難になる。

しかし、マイクロフォンアレイ１２を固定しておけば、マイクロフォンアレイ１２と空間の位置関係がリセットされることはないので、このような問題は発生しない。特に、可動部１４を円柱状のように、回転中心に対して対称に形成しておけば、可動部１４による反射を考慮しても、回転の前後において、マイクロフォンアレイ１２と空間の位置関係が変化することはない。

また、マイクロフォンアレイ１２を回転させ、それを駆動するサーボモータの回転軸の回転ステップ数から回転角度を計算し、その回転角度の分だけ、推定された方向を補正する構成も考えられる。しかし、マイクロフォンアレイ１２を固定しておけば、このような補正処理も不要となる。

＜コンピュータ＞
（図１５）
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。この場合、例えば、各装置は、図１５に示されるようなパーソナルコンピュータにより構成される。図１５は、パーソナルコンピュータの構成例を示すブロック図である。

図１５において、CPU（Central Processing Unit）９２１は、ROM（Read Only Memory）９２２に記憶されているプログラム、または記憶部９２８からRAM（Random Access Memory）９２３にロードされたプログラムに従って各種の処理を実行する。RAM９２３にはまた、CPU９２１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU９２１、ROM９２２、およびRAM９２３は、バス９２４を介して相互に接続されている。このバス９２４にはまた、入出力インタフェース９２５も接続されている。

入出力インタフェース９２５には、キーボード、マウスなどよりなる入力部９２６、CRT、LCDなどよりなるディスプレイ、並びにスピーカなどよりなる出力部９２７、ハードディスクなどより構成される記憶部９２８、モデム、ターミナルアダプタなどより構成される通信部９２９が接続されている。通信部９２９は、例えばインターネットなどのネットワークを介しての通信処理を行う。

入出力インタフェース９２５にはまた、必要に応じてドライブ９３０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア９３１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部４８にインストールされる。

なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

＜その他＞
本技術は、以下のような構成もとることができる。
（１）
所定の位置に配置される固定部と、
前記固定部に対して可動する可動部と、
前記固定部に取り付けられたマイクロフォンアレイと、
前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、
推定された前記発話方向に対応して前記可動部を駆動する駆動部と
を備える音声入力装置。
（２）
前記マイクロフォンアレイから入力された、前記発話者からの前記音声を認識し、その認識結果に基づいて、前駆動部を制御する制御部をさらに備える
前記（１）に記載の音声入力装置。
（３）
前記制御部は、内部または外部に、前記発話者からの前記音声を認識する音声認識エンジンを備える
前記（１）または（２）に記載の音声入力装置。
（４）
前記マイクロフォンアレイにおいては、複数のマイクロフォンが平面的に配置されている
前記（１）乃至（３）のいずれかに記載の音声入力装置。
（５）
前記可動部は、回転中心に対して対称である
前記（１）乃至（４）のいずれかに記載の音声入力装置。
（６）
前記発話方向推定部は、
前記発話者からの前記音声の信号から前記発話方向の水平角である第１の水平角を推定する第１の推定部と、
前記第１の水平角を基準として、前記第１の水平角の近傍の所定の範囲において、前記発話方向の前記水平角である第２の水平角と仰角を推定する第２の推定部と
を備える
前記（１）乃至（５）のいずれかに記載の音声入力装置。
（７）
所定の位置に配置される固定部と、
前記固定部に対して可動する可動部と、
前記固定部に取り付けられたマイクロフォンアレイと
を備える音声入力装置の音声入力方法において、
前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
推定された前記発話方向に対応して前記可動部を駆動するステップと
を含む音声入力方法。
（８）
コンピュータに、
所定の位置に配置される固定部と、
前記固定部に対して可動する可動部と、
前記固定部に取り付けられたマイクロフォンアレイと
を備える音声入力装置の音声入力処理を実行させるプログラムにおいて、
前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
推定された前記発話方向に対応して前記可動部を駆動するステップと
を含むプログラム。

１音声入力装置，１１筐体，１２マイクロフォンアレイ，１３マイクロフォン，１４可動部，１５表示部，１６スピーカ，５１信号処理部，５２メイン制御部，７１発話方向推定部，７２信号強調部，７３雑音抑圧部，７４エコーキャンセル部，８１音声認識エンジン，８２動作決定部

Claims

所定の位置に配置される固定部と、
前記固定部に対して可動する可動部と、
前記固定部に取り付けられたマイクロフォンアレイと、
前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、
推定された前記発話方向に対応して前記可動部を駆動する駆動部と
を備える音声入力装置。
前記マイクロフォンアレイから入力された、前記発話者からの前記音声を認識し、その認識結果に基づいて、前駆動部を制御する制御部をさらに備える
請求項１に記載の音声入力装置。
前記制御部は、内部または外部に、前記発話者からの前記音声を認識する音声認識エンジンを備える
請求項２に記載の音声入力装置。
前記マイクロフォンアレイにおいては、複数のマイクロフォンが平面的に配置されている
請求項３に記載の音声入力装置。
前記可動部は、回転中心に対して対称である
請求項４に記載の音声入力装置。
前記発話方向推定部は、
前記発話者からの前記音声の信号から前記発話方向の水平角である第１の水平角を推定する第１の推定部と、
前記第１の水平角を基準として、前記第１の水平角の近傍の所定の範囲において、前記発話方向の前記水平角である第２の水平角と仰角を推定する第２の推定部と
を備える
請求項１に記載の音声入力装置。
所定の位置に配置される固定部と、
前記固定部に対して可動する可動部と、
前記固定部に取り付けられたマイクロフォンアレイと
を備える音声入力装置の音声入力方法において、
前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
推定された前記発話方向に対応して前記可動部を駆動するステップと
を含む音声入力方法。
コンピュータに、
所定の位置に配置される固定部と、
前記固定部に対して可動する可動部と、
前記固定部に取り付けられたマイクロフォンアレイと
を備える音声入力装置の音声入力処理を実行させるプログラムにおいて、
前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
推定された前記発話方向に対応して前記可動部を駆動するステップと
を含むプログラム。