WO2021124537A1

WO2021124537A1 - 情報処理装置、算出方法、及び算出プログラム

Info

Publication number: WO2021124537A1
Application number: PCT/JP2019/049975
Authority: WO
Inventors: 智治粟野; 木村　勝
Original assignee: 三菱電機株式会社
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2021-06-24
Also published as: JPWO2021124537A1; US20220295180A1; US12015901B2; JP7004875B2

Abstract

情報処理装置（１００）は、マイクアレイ（２００）から出力された音信号を取得する音信号取得部（１３０）と、音信号の周波数を解析する解析部（１４０）と、マイクアレイ（２００）から対象音源の方向である第１の方向のステアリングベクトルを示す、予め設定された情報を取得する情報取得部（１２０）と、周波数と第１の方向のステアリングベクトルを示す情報とに基づいて、第１の方向と異なる方向である第２の方向に形成させるフィルタを算出し、算出されたフィルタと第２の方向のステアリングベクトルとの関係を示す式を用いて、第２の方向のステアリングベクトルを算出する算出部（１６０）と、を有する。

Description

情報処理装置、算出方法、及び算出プログラム

　本開示は、情報処理装置、算出方法、及び算出プログラムに関する。

　マイクロフォン（以下、マイク）には、音が集音される。例えば、音は、音声である。集音の目的となる音は、目的音と呼ぶ。音に関する技術では、ＳＮ（ｓｉｇｎａｌ－ｎｏｉｓｅ）比が重要である。ＳＮ比を向上させる方法として、ビームフォーミング（Ｂｅａｍ　Ｆｏｒｍｉｎｇ）技術が知られている。

　ビームフォーミング技術では、マイクアレイが用いられる。ビームフォーミング技術では、複数の集音の信号の特性差（例えば、位相差）が利用されることで、目的音の音源方向（言い換えれば、目的音の到来方向）にビームが形成される。これにより、雑音、妨害音などの不要な音が抑圧されながら、目的音が強調される。例えば、ビームフォーミング技術は、雑音が大きい場所で行われる音声認識処理、車内で行われるハンズフリー通話などで用いられる。

　ビームフォーミング技術では、固定ビームフォーミングと適応ビームフォーミングが知られている。
　例えば、固定ビームフォーミングでは、遅延和（ＤＳ：Ｄｅｌａｙ　ａｎｄ　Ｓｕｍ）法が用いられる。ＤＳ法では、音源からマイクアレイまでの到達時間の差が利用される。ＤＳ法では、集音の信号である集音信号に遅延が付加される。遅延が付加された集音信号に基づく総和により、目的音の音源方向にビームが形成される。

　また、例えば、適応ビームフォーミングでは、最小分散（ＭＶ：Ｍｉｎｉｍｕｍ　Ｖａｒｉａｎｃｅ）法が用いられる。ＭＶ法は、非特許文献１に記載されている。ＭＶ法では、マイクアレイから目的音の音源の方向（以下、目的音方向）を示すステアリングベクトル（ＳＶ：Ｓｔｅｅｒｉｎｇ　Ｖｅｃｔｏｒ）を用いて、目的音方向にビームが形成される。また、ＭＶ法では、不要な音を抑圧するために、ヌルビーム（Ｎｕｌｌ　Ｂｅａｍ）が形成される。これにより、ＳＮ比が向上される。不要な音の方向（以下、妨害音方向）が変化する環境では、適応ビームフォーミングは、固定ビームフォーミングよりも効果が大きい。

　ＭＶ法の性能は、ＳＶの正しさに依存する。目的音方向のＳＶは、目的音方向からマイクアレイに入力された音のインパルス応答で表される。また、目的音方向を示すＳＶ　ａ（ω）は、次の式（１）で表される。ωは、周波数を示す。マイクアレイのマイクの数は、Ｎ（Ｎは、１以上の整数）個である。“ａ_１（ω），ａ_２（ω），…，ａ_Ｎ（ω）”は、目的音方向からマイクそれぞれに入力された音のインパルス応答である。Ｔは、転置である。

　ところで、目的音方向が時間と共に変化するため、ＳＶを更新する必要がある。しかし、時間の変化と共に、測定者がインパルス応答を測定することは、難しい。そのため、ＳＶを更新することも難しい。そこで、ＳＶの推定値を更新する技術が提案されている（特許文献１を参照）。

特開２０１０－１７６１０５号公報

浅野太「音のアレイ信号処理　音源の定位・追跡と分離」、コロナ社、２０１１年

　ところで、ＳＶは、インパルス応答の測定によって、算出される。測定者がインパルス応答の測定作業を実行することは、測定者の負担を大きくする。

　本開示の目的は、測定者の負担を軽減することである。

　本開示の一態様に係る情報処理装置が提供される。情報処理装置は、複数のマイクロフォンから出力された音信号を取得する音信号取得部と、前記音信号の周波数を解析する解析部と、前記複数のマイクロフォンから対象音源の方向である第１の方向のステアリングベクトルを示す、予め設定された情報を取得する情報取得部と、前記周波数と前記第１の方向のステアリングベクトルを示す情報とに基づいて、前記第１の方向と異なる方向である第２の方向に形成させるフィルタを算出し、算出されたフィルタと前記第２の方向のステアリングベクトルとの関係を示す式を用いて、前記第２の方向のステアリングベクトルを算出する第１の算出部と、を有する。

　本開示によれば、測定者の負担を軽減できる。

実施の形態１の情報処理装置が有するハードウェア構成を示す図（その１）である。実施の形態１の情報処理装置が有するハードウェア構成を示す図（その２）である。実施の形態１の適応環境の具体例を示す図である。実施の形態１の情報処理装置が有する機能ブロック図である。実施の形態１の運転席方向が目的音方向である場合の例を示す図である。実施の形態１の助手席方向が目的音方向である場合の例を示す図である。実施の形態１の情報処理装置が実行する処理を示す図である。実施の形態２の情報処理装置が有する機能ブロック図である。実施の形態３の情報処理装置が有する機能ブロック図である。

　以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。

実施の形態１．
　図１は、実施の形態１の情報処理装置が有するハードウェア構成を示す図（その１）である。情報処理装置１００は、算出方法を実行する装置である。情報処理装置１００は、マイクアレイ２００と出力装置３００と接続する。マイクアレイ２００は、複数のマイクを含む。例えば、出力装置３００は、スピーカである。
　情報処理装置１００は、処理回路１０１、揮発性記憶装置１０２、不揮発性記憶装置１０３、及びインタフェース部１０４を有する。処理回路１０１、揮発性記憶装置１０２、不揮発性記憶装置１０３、及びインタフェース部１０４は、バスで接続されている。

　処理回路１０１は、情報処理装置１００全体を制御する。例えば、処理回路１０１は、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　ＧＡＴＥ　Ａｒｒａｙ）、ＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｅｄ　ｃｉｒｃｕｉｔ）などである。

　揮発性記憶装置１０２は、情報処理装置１００の主記憶装置である。例えば、揮発性記憶装置１０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。
　不揮発性記憶装置１０３は、情報処理装置１００の補助記憶装置である。例えば、不揮発性記憶装置１０３は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）である。
　インタフェース部１０４は、マイクアレイ２００及び出力装置３００と接続する。

　情報処理装置１００は、次のようなハードウェア構成でもよい。
　図２は、実施の形態１の情報処理装置が有するハードウェア構成を示す図（その２）である。情報処理装置１００は、プロセッサ１０５、揮発性記憶装置１０２、不揮発性記憶装置１０３、及びインタフェース部１０４を有する。
　揮発性記憶装置１０２、不揮発性記憶装置１０３、及びインタフェース部１０４については、図１で説明した。そのため、揮発性記憶装置１０２、不揮発性記憶装置１０３、及びインタフェース部１０４については、説明を省略する。
　プロセッサ１０５は、情報処理装置１００全体を制御する。例えば、プロセッサ１０５は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）である。

　図３は、実施の形態１の適応環境の具体例を示す図である。図３は、運転席と助手席とに人が存在することを示している。また、図３は、マイクアレイ２００を示している。
　例えば、運転席方向が目的音方向とされる。助手席方向が妨害音方向とされる。情報処理装置１００は、運転席に存在する人の音声を集音の対象に設定できる。情報処理装置１００は、助手席に存在する人の音声を集音の対象外に設定できる。
　以下、車内に１以上の人が存在する場合を用いて、説明する。

　次に、情報処理装置１００の機能を説明する。
　図４は、実施の形態１の情報処理装置が有する機能ブロック図である。情報処理装置１００は、記憶部１１０、情報取得部１２０、音信号取得部１３０、解析部１４０、解析部１５０、算出部１６０、及び算出部１７０を有する。算出部１６０は、ビームフォーミング処理部１６１及びＳＶ２算出部１６２を有する。算出部１７０は、ビームフォーミング処理部１７１及びＳＶ１算出部１７２を有する。
　記憶部１１０は、揮発性記憶装置１０２又は不揮発性記憶装置１０３に確保した記憶領域として実現される。

　情報取得部１２０、音信号取得部１３０、解析部１４０、解析部１５０、算出部１６０、及び算出部１７０の一部又は全部は、処理回路１０１によって実現してもよい。

　情報取得部１２０、音信号取得部１３０、解析部１４０、解析部１５０、算出部１６０、及び算出部１７０の一部又は全部は、プロセッサ１０５が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ１０５が実行するプログラムは、算出プログラムとも言う。例えば、算出プログラムは、記録媒体に記録されている。
　ここで、図４は、マイク２０１，２０２を示している。マイク２０１，２０２は、マイクアレイ２００の一部である。以下、２つのマイクを用いて、処理を説明する。しかし、マイクの数は、３つ以上でも構わない。

　記憶部１１０は、予め設定された、初期値であるＳＶ１と初期値であるＳＶ２を記憶する。例えば、初期値であるＳＶ１は、第１の方向のステアリングベクトルを示す情報とも言う。言い換えれば、初期値であるＳＶ１は、第１の方向のステアリングベクトルを示すパラメータとも言う。また、例えば、初期値であるＳＶ２は、第２の方向のステアリングベクトルを示す情報とも言う。言い換えれば、初期値であるＳＶ２は、第２の方向のステアリングベクトルを示すパラメータとも言う。

　情報取得部１２０は、初期値であるＳＶ１と初期値であるＳＶ２とを取得する。例えば、情報取得部１２０は、初期値であるＳＶ１と初期値であるＳＶ２とを記憶部１１０から取得する。ここで、初期値であるＳＶ１と初期値であるＳＶ２とは、外部装置に格納されてもよい。例えば、外部装置は、クラウドサーバである。初期値であるＳＶ１と初期値であるＳＶ２とが外部装置に格納されている場合、情報取得部１２０は、初期値であるＳＶ１と初期値であるＳＶ２とを外部装置から取得する。
　音信号取得部１３０は、マイク２０１，２０２から出力された音信号を取得する。解析部１４０，１５０は、音信号に基づいて、音信号の周波数を解析する。

　算出部１６０は、第１の算出部とも言う。算出部１６０の詳細な処理は、ビームフォーミング処理部１６１及びＳＶ２算出部１６２で実現される。
　ビームフォーミング処理部１６１は、初期値であるＳＶ１を用いて、適応ビームフォーミングを実行することで、ＳＶ１方向にビームを形成する。また、適応ビームフォーミングでは、ＭＶ法が用いられる。ＳＶ２算出部１６２は、音を抑制するためのフィルタとＳＶとに基づいてヌルビーム方向を算出する。

　算出部１７０は、第２の算出部とも言う。算出部１７０の詳細な処理は、ビームフォーミング処理部１７１及びＳＶ１算出部１７２で実現される。
　ビームフォーミング処理部１７１は、初期値であるＳＶ２を用いて、適応ビームフォーミングを実行することで、ＳＶ２方向にビームを形成する。また、適応ビームフォーミングでは、ＭＶ法が用いられる。ＳＶ１算出部１７２は、音を抑制するためのフィルタとＳＶとに基づいてヌルビーム方向を算出する。

　ここで、ＳＶ１方向を運転席方向とする。ＳＶ２方向を助手席方向とする。

　図５は、実施の形態１の運転席方向が目的音方向である場合の例を示す図である。ビームフォーミング処理部１６１は、適応ビームフォーミングを用いることで、運転席に存在する人の音声と助手席に存在する人の音声とを分離することができる。すなわち、ビームフォーミング処理部１６１は、音源分離を実現できる。

　矢印１１が示す方向は、ＳＶ１方向である。また、矢印１１が示す方向は、目的音方向である。矢印１１が示す方向は、第１の方向とも言う。すなわち、第１の方向は、マイクアレイ２００から対象音源（言い換えれば、目的音の音源）の方向である。
　矢印１２が示す方向は、ヌルのビーム方向（以下、ヌルビーム方向）である。すなわち、矢印１２が示す方向は、妨害音方向又は第２の方向とも言う。

　図６は、実施の形態１の助手席方向が目的音方向である場合の例を示す図である。ビームフォーミング処理部１７１は、適応ビームフォーミングを用いることで、運転席に存在する人の音声と助手席に存在する人の音声とを分離することができる。すなわち、ビームフォーミング処理部１７１は、音源分離を実現できる。

　矢印２１が示す方向は、ヌルビーム方向である。すなわち、矢印２１が示す方向は、妨害音方向である。
　矢印２２が示す方向は、ＳＶ２方向である。また、矢印２２が示す方向は、目的音方向である。
　ここで、ＳＶ１をベクトルａ（ω）と表現する。例えば、ベクトルａ（ω）は、式（２）で表現される。

　ベクトルａ（ω）は、式（１）で表されたＳＶ　ａ（ω）と同義である。
　また、ＳＶ２をベクトルｂ（ω）と表現する。例えば、ベクトルｂ（ω）は、式（３）で表現される。

　次に、情報処理装置１００が実行する処理を詳細に説明する。
　図７は、実施の形態１の情報処理装置が実行する処理を示す図である。
　ステップＳ１１～Ｓ１３は、ステップＳ２１～Ｓ２３と並行に実行されてもよい。まず、ステップＳ１１～Ｓ１３を説明する。

　（ステップＳ１１）解析部１４０は、マイク２０１及びマイク２０２から出力された音信号の周波数を解析する。例えば、解析部１４０は、高速フーリエ変換を用いて、音信号の周波数を解析する。

　（ステップＳ１２）ビームフォーミング処理部１６１は、ＳＶ１方向（すなわち、ベクトルａ（ω））にビームを形成し、妨害音方向にヌルを形成するためのフィルタｗ_１（ω）を算出する。なお、目的音方向は、ＳＶ１方向である。当該妨害音方向は、ＳＶ２方向（すなわち、ベクトルｂ（ω））である。

　ここで、フィルタｗ_１（ω）は、第２の方向に形成させるフィルタである。言い換えれば、フィルタｗ_１（ω）は、第２の方向にヌルを形成させるためのフィルタである。また、ｗ_１（ω）は、ベクトルで表記される。しかし、ｗ_１（ω）がベクトルであることを示す矢印が、省略される場合がある。
　ベクトルａ（ω）、フィルタｗ_１（ω）は、次の式（４）で表される。また、ｗ_１（ω）^Ｈは、フィルタｗ_１（ω）の共役転置行列である。

　また、ベクトルｂ（ω）、フィルタｗ_１（ω）は、次の式（５）で表される。

　ここで、ベクトルａ（ω）（すなわち、初期値のＳＶ１）を算出する方法を説明する。以下の説明では、点ｐに音源が存在するものとする。そのため、ベクトルａ（ω）は、ベクトルａ_ｐ（ω）とする。なお、点ｐは、適当な点である。また、ｐは、平面上の一点を示す２次元の縦ベクトルで表現できる。以下の説明では、Ｍ個のマイクが用いられる。
　点ｐからｍ番目のマイクまでの距離をｌ_ｍ，ｐとする。音波が点ｐからｍ番目のマイクに到達するまでの時間ｔ_ｍ，ｐは、式（６）で表される。ｃは、音速である。

　点ｐに音源が存在する場合、１番目のマイクを基準として、点ｐから発生された音波がｍ番目のマイクに到達するまでの遅延時間ｄ_ｍ，ｐは、式（７）で表される。

　周波数ωにおける、点ｐを向くＭ次元のベクトルａ_ｐ（ω）は、式（８）で表される。なお、ｊは、虚数単位である。

　車内空間では、運転席と助手席との位置は、固定されている。そのため、運転席とマイク２０１との間の距離、及び運転席とマイク２０２との間の距離を計測することは、可能である。例えば、運転席とマイク２０１との間の距離は、５０ｃｍである。運転席とマイク２０１との間の距離は、５２ｃｍである。また、マイクと運転席との間の角度及びマイクと助手席との間の角度を計測することは、可能である。例えば、マイク２０１と運転席との間の角度は、３０°である。マイク２０１と助手席との間の角度は、１５０°である。このように、計測された値と式（８）とを用いて、ベクトルａ_ｐ（ω）が算出可能である。

　ビームフォーミング処理部１６１は、ＭＶ法を用いて、フィルタｗ_１（ω）を算出する。具体的には、ビームフォーミング処理部１６１は、式（９）を用いて、フィルタｗ_１（ω）を算出する。なお、周波数ωは、解析部１４０によって解析された周波数である。

　Ｒ（ω）は、相互相関行列である。Ｒ（ω）は、式（１０）を用いて表現される。なお、Ｘ_Ｍ（ω）は、ｍ番目のマイクに入力された音の音信号の周波数である。Ｅは、平均を示す。

　このように、ビームフォーミング処理部１６１は、解析部１４０が解析した音信号の周波数と、初期値のＳＶ１とに基づいて、フィルタｗ_１（ω）を算出する。フィルタｗ_１（ω）が算出されることで、式（４）、式（５）の中で未知の変数は、ベクトルｂ（ω）のみとなる。

　（ステップＳ１３）ＳＶ２算出部１６２は、式（４）、式（５）の連立方程式を解くことで、ベクトルｂ（ω）を算出できる。すなわち、ＳＶ２算出部１６２は、ＳＶ２を算出できる。ＳＶ２算出部１６２は、フィルタｗ_１（ω）が算出されているため、式（５）のみを用いて、ＳＶ２を算出してもよい。算出されたＳＶ２は、第２の方向のステアリングベクトルと考えてもよい。なお、式（４）、式（５）には、ＳＶ２の精度を悪くする要素が含まれていない。そのため、算出されたＳＶ２の精度は、高い。

　ここで、ベクトルｂ（ω）（すなわち、ＳＶ２）は、図６における目的音方向のＳＶである。よって、情報処理装置１００は、目的音方向のＳＶを算出できる。

　次に、ステップＳ２１～Ｓ２３を説明する。
　（ステップＳ２１）解析部１５０は、マイク２０１及びマイク２０２から出力された音信号の周波数を解析する。例えば、解析部１５０は、高速フーリエ変換を用いて、音信号の周波数を解析する。

　（ステップＳ２２）ビームフォーミング処理部１７１は、ＳＶ２方向（すなわち、ベクトルｂ（ω））にビームを形成し、妨害音方向にヌルを形成するためのフィルタｗ_２（ω）を算出する。なお、目的音方向は、ＳＶ２方向である。当該妨害音方向は、ＳＶ１方向（すなわち、ベクトルａ（ω））である。

　ここで、フィルタｗ_２（ω）は、第１の方向に形成させるフィルタである。言い換えれば、フィルタｗ_２（ω）は、第１の方向にヌルを形成させるためのフィルタである。また、ｗ_２（ω）は、ベクトルで表記される。しかし、ｗ_２（ω）がベクトルであることを示す矢印が、省略される場合がある。
　ベクトルｂ（ω）、フィルタｗ_２（ω）は、次の式（１１）で表される。また、ｗ_２（ω）^Ｈは、フィルタｗ_２（ω）の共役転置行列である。

　また、ベクトルａ（ω）、フィルタｗ_２（ω）は、次の式（１２）で表される。

　ここで、ベクトルｂ（ω）（すなわち、初期値のＳＶ２）を算出する方法は、ベクトルａ（ω）を算出する方法と同様である。例えば、ベクトルｂ（ω）は、ベクトルｂ_ｐ（ω）とする。
　点ｐを向くＭ次元のベクトルｂ_ｐ（ω）は、式（１３）で表される。

　ビームフォーミング処理部１７１は、ＭＶ法を用いて、フィルタｗ_２（ω）を算出する。具体的には、ビームフォーミング処理部１７１は、式（１４）を用いて、フィルタｗ_２（ω）を算出する。なお、周波数ωは、解析部１５０によって解析された周波数である。

　このように、ビームフォーミング処理部１７１は、解析部１５０が解析した音信号の周波数と、初期値のＳＶ２とに基づいて、フィルタｗ_２（ω）を算出する。フィルタｗ_２（ω）が算出されることで、式（１１）、式（１２）の中で未知の変数は、ベクトルａ（ω）のみとなる。

　（ステップＳ２３）ＳＶ１算出部１７２は、式（１１）、式（１２）の連立方程式を解くことで、ベクトルａ（ω）を算出できる。すなわち、ＳＶ１算出部１７２は、ＳＶ１を算出できる。ＳＶ１算出部１７２は、フィルタｗ_２（ω）が算出されているため、式（１２）のみを用いて、ＳＶ１を算出してもよい。算出されたＳＶ１は、第１の方向のステアリングベクトルと考えてもよい。また、式（１１）、式（１２）には、ＳＶ１の精度を悪くする要素が含まれていない。そのため、算出されたＳＶ１の精度は、高い。

　ここで、ベクトルａ（ω）（すなわち、ＳＶ１）は、図５における目的音方向のＳＶである。よって、情報処理装置１００は、目的音方向のＳＶを算出できる。

　上記では、初期値のＳＶ１が式（８）を用いて算出できる場合を示した。初期値のＳＶ１は、測定された値でもよい。初期値のＳＶ２も、同様に、測定された値でもよい。

　実施の形態１によれば、情報処理装置１００は、インパルス応答の測定値を用いずに、ＳＶを算出する。そのため、測定者は、インパルス応答の測定作業を行わなくてよい。よって、情報処理装置１００は、測定者の負担を軽減できる。

実施の形態２．
　次に、実施の形態２を説明する。実施の形態２では、実施の形態１と相違する事項を主に説明する。そして、実施の形態２では、実施の形態１と共通する事項の説明を省略する。実施の形態２の説明では、図１～７を参照する。

　図８は、実施の形態２の情報処理装置が有する機能ブロック図である。図４に示される構成と同じ図８の構成は、図４に示される符号と同じ符号を付している。
　情報処理装置１００ａは、情報取得部１２０ａ、算出部１６０ａ、及び算出部１７０ａを有する。算出部１６０ａは、ビームフォーミング処理部１６１ａ及びＳＶ２算出部１６２ａを有する。算出部１７０ａは、ビームフォーミング処理部１７１ａ及びＳＶ１算出部１７２ａを有する。

　ビームフォーミング処理部１６１ａは、ビームフォーミング処理部１６１の機能を有する。ＳＶ２算出部１６２ａは、ＳＶ２算出部１６２の機能を有する。
　ビームフォーミング処理部１７１ａは、ビームフォーミング処理部１７１の機能を有する。ＳＶ１算出部１７２ａは、ＳＶ１算出部１７２の機能を有する。

　ＳＶ２算出部１６２ａは、記憶部１１０に格納されているＳＶ２を、算出したＳＶ２に更新する。情報取得部１２０ａは、更新されたＳＶ２をビームフォーミング処理部１７１ａに送信する。ビームフォーミング処理部１７１ａは、更新されたＳＶ２に基づいて、助手席方向にビームを形成する処理を実行する。これにより、情報処理装置１００ａは、助手席方向の音が強調された音信号を出力できる。

　また、音信号取得部１３０は、ＳＶ２が算出された後に、マイク２０１，２０２から出力された音信号を取得する。ビームフォーミング処理部１７１ａは、ＳＶ２が算出された後に取得された音信号の周波数と、更新されたＳＶ２を用いて、フィルタｗ_２を算出する。そして、ＳＶ１算出部１７２ａは、式（１２）を用いて、ＳＶ１を算出し、記憶部１１０に格納されているＳＶ１を、算出したＳＶ１に更新する。このように、情報処理装置１００ａは、ＳＶ１の更新を繰り返す。これにより、情報処理装置１００ａは、運転席に存在する人が発する音の方向が時間と共に変化しても、精度の高いＳＶを算出できる。

　ＳＶ１算出部１７２ａは、記憶部１１０に格納されているＳＶ１を、算出したＳＶ１に更新する。情報取得部１２０ａは、更新されたＳＶ１をビームフォーミング処理部１６１ａに送信する。ビームフォーミング処理部１６１ａは、更新されたＳＶ１に基づいて、運転席方向にビームを形成する処理を実行する。これにより、情報処理装置１００ａは、運転席方向の音が強調された音信号を出力できる。

　また、音信号取得部１３０は、ＳＶ１が算出された後に、マイク２０１，２０２から出力された音信号を取得する。ビームフォーミング処理部１６１ａは、ＳＶ１が算出された後に取得された音信号の周波数と、更新されたＳＶ１を用いて、フィルタｗ_１を算出する。そして、ＳＶ２算出部１６２ａは、式（５）を用いて、ＳＶ２を算出し、記憶部１１０に格納されているＳＶ２を、算出したＳＶ２に更新する。このように、情報処理装置１００ａは、ＳＶ２の更新を繰り返す。これにより、情報処理装置１００ａは、助手席に存在する人が発する音の方向が時間と共に変化しても、精度の高いＳＶを算出できる。

実施の形態３．
　次に、実施の形態３を説明する。実施の形態３では、実施の形態１と相違する事項を主に説明する。そして、実施の形態３では、実施の形態１と共通する事項の説明を省略する。実施の形態３の説明では、図１～７を参照する。

　図９は、実施の形態３の情報処理装置が有する機能ブロック図である。情報処理装置１００ｂは、カメラ４００と接続する。図４に示される構成と同じ図９の構成は、図４に示される符号と同じ符号を付している。

　情報処理装置１００ｂは、発話判定部１８０を有する。発話判定部１８０は、ＳＶ１方向又はＳＶ２方向で発話があったか否かを判定する。例えば、発話判定部１８０は、マイク２０１，２０２から出力された音信号と学習モデルとを用いて、発話を判定する。また、発話判定部１８０は、カメラ４００がユーザを撮影することにより得られた画像に基づいて、発話を判定してもよい。例えば、発話判定部１８０は、複数の画像を解析し、人の口の動きから、発話を判定する。

　具体的には、発話判定部１８０は、ＳＶ１方向で発話があった場合、ＳＶ２方向で発話があった場合、ＳＶ１方向とＳＶ２方向とで同時発話があった場合、及び発話がない場合のうちの、いずれであるかを判定する。なお、例えば、方向は、音信号の位相差に基づいて、特定される。

　ＳＶ１方向で発話があった場合、発話判定部１８０は、ビームフォーミング処理部１７１に動作指示を送信する。ＳＶ２方向で発話があった場合、発話判定部１８０は、ビームフォーミング処理部１６１に動作指示を送信する。ＳＶ１方向とＳＶ２方向とで同時発話があった場合、又は発話がない場合、発話判定部１８０は、何もしない。このように、発話判定部１８０は、妨害音方向で発話があった場合、動作指示を送信する。

　動作指示を受信した場合、算出部１６０，１７０は、フィルタを算出する。ここで、フィルタの算出では、相互相関行列Ｒ（ω）が用いられる。相互相関行列Ｒ（ω）は、平均を示す。例えば、２回目のフィルタの算出で用いられる相互相関行列Ｒ（ω）は、今回の周波数成分を示す行列と前回の相互相関行列Ｒ（ω）との平均である。フィルタを算出する回数が増えることは、１つの相互相関行列Ｒ（ω）に収束する。１つの相互相関行列Ｒ（ω）に収束することは、形成されるヌルの精度を向上できる。よって、情報処理装置１００ｂは、複数回、フィルタを算出することで、形成されるヌルの精度を向上できる。詳細に、処理を説明する。

　算出部１６０は、動作指示を受信した場合、次の処理を行う。すなわち、算出部１６０は、ＳＶ２方向で発話があった場合、次の処理を行う。算出部１６０は、マイク２０１，２０２から出力された音信号が取得される度に、取得された音信号の周波数と初期値であるＳＶ１と相互相関行列とを用いて、フィルタｗ_１を算出する。当該相互相関行列は、取得された音信号の周波数成分を示す行列と、前回、フィルタｗ_１を算出した際に用いられた相互相関行列との平均である。このように、算出部１６０は、複数回、フィルタｗ_１を算出する。また、算出部１６０は、動作指示を受信しない場合でも、上記処理を実行してもよい。

　算出部１７０は、動作指示を受信した場合、次の処理を行う。算出部１７０は、マイク２０１，２０２から出力された音信号が取得される度に、取得された音信号の周波数と初期値であるＳＶ２と相互相関行列とを用いて、フィルタｗ_２を算出する。当該相互相関行列は、取得された音信号の周波数成分を示す行列と、前回、フィルタｗ_２を算出した際に用いられた相互相関行列との平均である。このように、算出部１７０は、複数回、フィルタｗ_２を算出する。また、算出部１７０は、動作指示を受信しない場合でも、上記処理を実行してもよい。

　実施の形態１～３は、車内に設置されたマイクアレイ２００が音を取得する場合を例示した。実施の形態１～３は、テレビ会議が行われている会議室にマイクアレイ２００が設置されている場合、テレビがマイクアレイ２００を備えている場合などに適用できる。

　以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。

　１１，１２，２１，２２…矢印、　１００、１００ａ、１００ｂ…情報処理装置、　１０１…処理回路、　１０２…揮発性記憶装置、　１０３…不揮発性記憶装置、　１０４…インタフェース部、　１０５…プロセッサ、　１１０…記憶部、　１２０、１２０ａ…情報取得部、　１３０…音信号取得部、　１４０，１５０…解析部、　１６０，１６０ａ，１７０，１７０ａ…算出部、　１６１，１６１ａ…ビームフォーミング処理部、　１６２、１６２ａ…ＳＶ２算出部、　１７１，１７１ａ…ビームフォーミング処理部、　１７２，１７２ａ…ＳＶ１算出部、　１８０…発話判定部、　２００…マイクアレイ、　２０１，２０２…マイク、　３００…出力装置、　４００…カメラ。

Claims

　複数のマイクロフォンから出力された音信号を取得する音信号取得部と、
　前記音信号の周波数を解析する解析部と、
　前記複数のマイクロフォンから対象音源の方向である第１の方向のステアリングベクトルを示す、予め設定された情報を取得する情報取得部と、
　前記周波数と前記第１の方向のステアリングベクトルを示す情報とに基づいて、前記第１の方向と異なる方向である第２の方向に形成させるフィルタを算出し、算出されたフィルタと前記第２の方向のステアリングベクトルとの関係を示す式を用いて、前記第２の方向のステアリングベクトルを算出する第１の算出部と、
　を有する情報処理装置。
　第２の算出部をさらに有し、
　前記情報取得部は、前記第２の方向のステアリングベクトルを示す、予め設定された情報を取得し、
　前記第２の算出部は、前記周波数と前記第２の方向のステアリングベクトルを示す情報とに基づいて、前記第１の方向に形成させるフィルタを算出し、算出されたフィルタと前記第１の方向のステアリングベクトルとの関係を示す式を用いて、前記第１の方向のステアリングベクトルを算出する、
　請求項１に記載の情報処理装置。
　前記第２の算出部は、ビームフォーミング処理部を有し、
　前記ビームフォーミング処理部は、算出された前記第２の方向のステアリングベクトルに基づいて、前記第２の方向にビームを形成する処理を実行する、
　請求項２に記載の情報処理装置。
　前記第１の算出部は、ビームフォーミング処理部を有し、
　前記ビームフォーミング処理部は、算出された前記第１の方向のステアリングベクトルに基づいて、前記第１の方向にビームを形成する処理を実行する、
　請求項２に記載の情報処理装置。
　前記音信号取得部は、前記第１の方向のステアリングベクトルが算出された後に、前記複数のマイクロフォンから出力された音信号を取得し、
　前記第１の算出部は、前記第１の方向のステアリングベクトルが算出された後に取得された音信号の周波数と、算出された前記第１の方向のステアリングベクトルとを用いて、前記第２の方向に形成させるフィルタを算出し、算出されたフィルタと前記第２の方向のステアリングベクトルとの関係を示す式を用いて、前記第２の方向のステアリングベクトルを算出する、
　請求項２から４のいずれか１項に記載の情報処理装置。
　前記音信号取得部は、前記第２の方向のステアリングベクトルが算出された後に、前記複数のマイクロフォンから出力された音信号を取得し、
　前記第２の算出部は、前記第２の方向のステアリングベクトルが算出された後に取得された音信号の周波数と、算出された前記第２の方向のステアリングベクトルとを用いて、前記第１の方向に形成させるフィルタを算出し、算出されたフィルタと前記第１の方向のステアリングベクトルとの関係を示す式を用いて、前記第１の方向のステアリングベクトルを算出する、
　請求項２から４のいずれか１項に記載の情報処理装置。
　前記第２の算出部は、前記複数のマイクロフォンから出力された音信号が取得される度に、取得された音信号の周波数と前記第２の方向のステアリングベクトルを示す情報と相互相関行列とを用いて、前記第１の方向に形成させるフィルタを算出し、
　前記相互相関行列は、取得された音信号の周波数成分を示す行列と、前回、フィルタを算出した際に用いられた相互相関行列との平均である、
　請求項２に記載の情報処理装置。
　ユーザを撮影することにより得られた画像又は前記複数のマイクロフォンから出力された音信号に基づいて、前記第１の方向又は前記第２の方向で発話があったか否かを判定する発話判定部をさらに有し、
　前記第２の算出部は、前記第１の方向で発話があった場合、前記第１の方向に形成させるフィルタを算出する、
　請求項７に記載の情報処理装置。
　前記第１の算出部は、前記複数のマイクロフォンから出力された音信号が取得される度に、取得された音信号の周波数と前記第１の方向のステアリングベクトルを示す情報と相互相関行列とを用いて、前記第２の方向に形成させるフィルタを算出し、
　前記相互相関行列は、取得された音信号の周波数成分を示す行列と、前回、フィルタを算出した際に用いられた相互相関行列との平均である、
　請求項１に記載の情報処理装置。
　ユーザを撮影することにより得られた画像又は前記複数のマイクロフォンから出力された音信号に基づいて、前記第１の方向又は前記第２の方向で発話があったか否かを判定する発話判定部をさらに有し、
　前記第１の算出部は、前記第２の方向で発話があった場合、前記第２の方向に形成させるフィルタを算出する、
　請求項９に記載の情報処理装置。
　情報処理装置が、
　複数のマイクロフォンから出力された音信号を取得し、
　前記音信号の周波数を解析し、
　前記複数のマイクロフォンから対象音源の方向である第１の方向のステアリングベクトルを示す、予め設定された情報を取得し、
　前記周波数と前記第１の方向のステアリングベクトルを示す情報とに基づいて、前記第１の方向と異なる方向である第２の方向に形成させるフィルタを算出し、
　算出されたフィルタと前記第２の方向のステアリングベクトルとの関係を示す式を用いて、前記第２の方向のステアリングベクトルを算出する、
　算出方法。
　情報処理装置に、
　複数のマイクロフォンから出力された音信号を取得し、
　前記音信号の周波数を解析し、
　前記複数のマイクロフォンから対象音源の方向である第１の方向のステアリングベクトルを示す、予め設定された情報を取得し、
　前記周波数と前記第１の方向のステアリングベクトルを示す情報とに基づいて、前記第１の方向と異なる方向である第２の方向に形成させるフィルタを算出し、
　算出されたフィルタと前記第２の方向のステアリングベクトルとの関係を示す式を用いて、前記第２の方向のステアリングベクトルを算出する、
　処理を実行させる算出プログラム。