WO2023054047A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2023054047A1
WO2023054047A1 PCT/JP2022/034914 JP2022034914W WO2023054047A1 WO 2023054047 A1 WO2023054047 A1 WO 2023054047A1 JP 2022034914 W JP2022034914 W JP 2022034914W WO 2023054047 A1 WO2023054047 A1 WO 2023054047A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
speaker
microphone
information processing
sound collection
Prior art date
Application number
PCT/JP2022/034914
Other languages
English (en)
French (fr)
Inventor
裕 高瀬
哲哉 皆川
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023054047A1 publication Critical patent/WO2023054047A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Abstract

本技術の一形態に係る情報処理装置は、情報取得部と、集音制御部とを具備する。前記情報取得部は、音源の位置と前記音源が音を発する方向とを示す音源情報を取得する。前記集音制御部は、前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する。

Description

情報処理装置、情報処理方法、及びプログラム
 本技術は、集音システム等に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。
 近年、音源を分離して集音を行う技術が開発されている。例えば、特定の方向から発せられた音を選択的に集音することで、様々な音の中から目的とする音を分離することができる。方向を指定して集音を行う方法としては、例えばアレイ状に配意された複数のマイクの出力を処理して特定の方向の音源を分離するビームフォーミング技術が知られている。
 特許文献1には、ビームフォーミング技術を用いた音声認識システムについて記載されている。このシステムでは、アレイマイク周辺を撮影した画像から人体が検出される。アレイマイクから見て人体がある方向は集音方向に設定され、人体がない方向はノイズ方向に設定される。またビームフォーミング処理が実行され、アレイマイクの出力から集音方向の音源(目的音)とノイズ方向の音源(ノイズ音)とが分離される。この目的音からノイズ音をキャンセルすることで、高精度なノイズキャンセルが可能となっている(特許文献1の明細書段落[0017][0018][0023][0024]図3等)。
特開2020-3724号公報
 特許文献1のように、目的音からノイズ音をキャンセルできたとしても、目的音が発せられる方向によっては、所望の音質が得られないこともあり得る。このため、目的とする音そのものをより高い品質で集音する技術が求められている。
 以上のような事情に鑑み、本技術の目的は、音源が発する音を高品質に集音することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、情報取得部と、集音制御部とを具備する。
 前記情報取得部は、音源の位置と前記音源が音を発する方向とを示す音源情報を取得する。
 前記集音制御部は、前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する。
 この情報処理装置では、音源の周辺に配置された複数の集音装置から、音源の音を集音するための対象装置が少なくとも1つ選択される。各集音装置は、集音方向を設定できる装置であり、対象装置の選択には、音源の位置及び音源が音を発する方向を示す音源情報が用いられる。これにより、例えば音源の位置や音の出る方向に適応した集音装置を用いることが可能となり、音源が発する音を高品質に集音することが可能となる。
 前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定してもよい。
 前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定してもよい。
 前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択してもよい。
 前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成されてもよい。この場合、前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択してもよい。
 前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択してもよい。
 前記情報取得部は、複数の音源ごとに前記音源情報を取得してもよい。この場合、前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択してもよい。
 前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択してもよい。
 前記情報処理装置は、さらに、前記少なくとも1つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備してもよい。
 前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含んでもよい。この場合、前記集音制御部は、前記複数の候補装置から前記対象装置を選択してもよい。また、前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させてもよい。
 前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択してもよい。
 前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成してもよい。
 前記音源は、発話者であってもよい。この場合、前記音源が音を発する方向は、前記発話者の発話方向であってもよい。
 前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定してもよい。
 前記情報取得部は、前記発話者のジェスチャーを検出してもよい。
 前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御してもよい。
 前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止してもよい。
 前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離してもよい。
 前記集音装置は、複数のマイクが配置されたマイクアレイであってもよい。この場合、前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向であってもよい。
 本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、音源の位置と前記音源が音を発する方向とを示す音源情報を取得することを含む。
 前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置が選択される。
 本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
 音源の位置と前記音源が音を発する方向とを示す音源情報を取得するステップ。
 前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択するステップ。
本技術の一実施形態に係る集音システムの構成例を示すブロック図である。 BFマイクの構成例を示す模式図である。 BFマイクに設定されるビームの一例を示す模式図である。 集音システムの基本的な集音動作を示す模式図である。 集音システムの動作例を示すフローチャートである。 BFマイクの配置例を示す模式図である。 発話者の発話方向の一例を示す模式図である。 複数の発話者に対する集音動作について説明するための模式図である。 複数のBFマイクを用いた集音動作の一例を示す模式図である。 発話者が移動する際の集音動作の一例を示す模式図である。 音声の合成処理について説明するための模式図である。 複数の発話者が移動する際の集音動作の一例を示す模式図である。 発話者の発話方向を想定した集音動作の一例を示す模式図である。 ジャスチャーに応じた集音動作の一例を示す模式図である。 音声と動作音とを集音する集音動作の一例を示す模式図である。
 以下、本技術に係る実施形態を、図面を参照しながら説明する。
 [集音システムの構成]
 図1は、本技術の一実施形態に係る集音システムの構成例を示すブロック図である。集音システム100は、集音対象となる空間内にいる発話者1の音声5を集音して、発話者1の音声データ6を生成するシステムである。本実施形態では、発話者1は音源の一例であり、発話者1の音声5が集音対象となる音(目的音)となる。
 図1に示すように、集音システム100は、複数のBFマイクMと、検出カメラ10と、記憶部11と、コントローラ20とを有する。
 複数のBFマイクMは、各々がビームフォーミング(BF)技術を用いて特定方向に対する集音を行うことが可能な集音装置である。
 図1には、複数のBFマイクMとして、4つのBFマイクM1~M4が模式的に図示されている。なおBFマイクMの個数は限定されない。
 ここでビームフォーミング技術は、BFマイクMから特定の方向に伸びるビームを設定し、そのビームに沿って到来する音波を高感度に集音する技術である。この場合、ビームが設定される方向は、BFマイクMの集音方向となる。
 各BFマイクMは、発話者1がいる空間に設定された所定の位置にそれぞれ配置される。集音システム100におけるBFマイクMの配置例については、後に詳しく説明する。
 このように、各BFマイクMは、音源である発話者1の周辺に配置され集音方向を設定可能な装置である。本実施形態では、BFマイクMは、集音装置に相当する。
 図2は、BFマイクMの構成例を示す模式図である。図3は、BFマイクMに設定されるビーム7の一例を示す模式図である。
 図2に示すBFマイクMは、平板状の基板15と、基板15に配置された複数のマイク16とを有する。すなわち、BFマイクMは、複数のマイク16が配置されたマイクアレイである。
 図2Aは、基板15と直交する方向から見たBFマイクMの平面図であり、図2Bは、基板15と平行な方向から見たBFマイクMの側面図である。
 基板15は、平面形状が円形の板状部材であり、第1の面17aと、第1の面17aとは反対側の第2の面17bとを有する。第1の面17aは、複数のマイク16が配置される面である。図2Aは、BFマイクMの第1の面17aを見た平面図である。また図2Bでは、基板15の図中上側の表面が第1の面17aであり、基板15の図中下側の表面が第2の面17bである。
 複数のマイク16は、音波に応じた電気信号(音信号)を発生させる素子である。各マイク16は、無指向性マイクとして構成され、音波の到来方向によらず略一定の感度で音波を検出する。マイク16としては、例えばダイナミック型のマイクロフォンや、コンデンサ型のマイクロフォン等が用いられる。
 図2Bに示す例では、各マイク16は、音波を受ける受音部分を基板15とは反対側に向けて配置される。この場合、第1の面17a側がBFマイクMの受音側となる。この構成では、例えば第1の面17a側に各マイク16を保護するカバー等が設けられてもよい。
 これに限定されず、第2の面17a側がBFマイクMの受音側となるようにBFマイクMを構成してもよい。この場合、基板15上の各マイク16の配置位置には、第1の面17aから第2の面17bに貫通するマイク孔が設けられる。また各マイク16は、受音部分をマイク孔に向けて配置される。
 図2Aに示すように、BFマイクMには、8つのマイク16a~16hが設けられる。各マイク16a~16hは、第1の面17aにおける基板15の中心(基板中心C)を基準として回転対称となるように配置される。従って、基板中心Cと、互いに隣接する2つのマイク16とを結ぶ2つの線分のなす角度(角度間隔)は45°となる。
 以下では、基板中心Cから見たマイク16aの方位角φを0°とする。また図2Aにおいて時計回りの方向(基板中心Cを右側に見ながら回転する右回りの方向)に方位角φが増えるものとする。従ってマイク16a~16hが配置される方位角は0°、45°、90°、135°、180°、225°、270°、及び315°となる。
 BFマイクMは、典型的には、基板15(第1の面17a又は第2の面17b)が水平となるように配置して用いられる。従って、マイク16a~16hの方位角は水平面における方位角として扱うことができる。なお、BFマイクMの姿勢は限定されない。例えばBFマイクMを水平面に対して傾けて配置することも可能である。
 BFマイクMからは、マイク16a~16hが生成した各音信号が出力される。すなわち、複数のマイク16a~16hが生成する多チャンネルの音信号が、BFマイクMの出力となる。
これらの音信号に対して、後述するコントローラ20(集音処理部23)によりビームフォーミング処理が実行される。
 ビームフォーミング処理では、特定の方向を向いたビーム7が設定され、ビーム7に沿って到来する音波を集音する処理が行われる。例えば、ビーム7に沿って到来する音波の各マイク16a~16hへの伝搬遅延(到達時間のずれ)が補正される。また伝搬遅延が補正された信号が適宜加算され、ビーム7に沿って到来する音波を強調した信号が生成される。これにより、ビーム7に沿って到来する音波を選択的に集音することが可能となる。
 このように、BFマイクMの集音方向3は、BFマイクMに関するビームフォーミング処理で設定されるビーム7の方向である。
 図3には、BFマイクMに設定されるビーム7の範囲が灰色の領域を用いて模式的に図示されている。BFマイクMでは、基板中心Cから集音方向3を中心に扇状に広がる範囲が、ビーム7の範囲となる。このビーム7の範囲は、集音方位角A及びビーム幅βで規定される。
 集音方位角Aは、集音方向3の中心角を表す方位角度である。例えばBFマイクMを集音方向3に指向性をもつマイクと見做した場合に、集音方位角Aは、指向性をもつマイクの向きに相当する。
 BFマイクMでは、8つのマイク16a~16hを回転対象に配置することで、集音方位角Aを360°の全方位にわたって設定すること、すなわち360°の全方位に向けてビームを張ることが可能となっている。従って、図2に示すBFマイクMは、音源方位360°対応のビームフォーミングマイクアレイであると言える。
 ビーム幅βは、集音方位角Aに対するBFマイクMの指向性を表す角度である。ビーム幅βが小さいほど、指向性が高くなる。またビーム幅βが大きいほど、集音可能な範囲が広くなる。本実施形態では、ビーム幅βは一定の値に設定されるものとする。
 なお、マイク16の個数やマイクアレイの直径等のBFマイクMの装置規模を拡大することで、ビーム幅βを可変にすることも可能である。この場合、例えば発話者1の状況やシーンに応じてビーム幅βを変更するといった処理が行われてもよい。
 本実施形態では、集音方位角Aは、外部のセンサ(検出カメラ10)を用いて検出された発話者1の位置の情報をもとに、発話者1を逐次追従するように設定される。集音対象となる発話者1に対して、ビーム7の方位角度の範囲をA±βに制御することで、目的音である発話者1の音声5の高品位な集音を実現することが可能となる。
 集音方位角Aを設定する方法については、後に詳しく説明する。
 図1に戻り、検出カメラ10は、音源である発話者1を撮影するカメラである。検出カメラ10は、例えば発話者1がいる空間に向けて配置され、集音システム100の動作中に発話者1を撮影する。
 検出カメラ10としては、CMOSやCCD等のイメージセンサを備えたデジタルカメラが用いられる。また検出カメラ10として、例えばステレオカメラやToFカメラ等の奥行きを測定可能な測距カメラが用いられてもよい。
 なお検出カメラ10は、1台でもよいし、複数の検出カメラ10が用いられてもよい。
 記憶部11は、不揮発性の記憶デバイスであり、例えばSSD(Solid State Drive)やHDD(Hard Disk Drive)等が用いられる。その他、コンピュータが読み取り可能な非一過性の任意の記録媒体が用いられてよい。
 図1に示すように記憶部11には、制御プログラム12と、マイク情報13と、音声データベース(音声DB14)とが記憶される。
 制御プログラム12は、集音システム100全体の動作を制御するプログラムである。
 マイク情報13は、複数のBFマイクMに関する情報である。例えば各BFマイクMが配置された位置の3次元座標や、各BFマイクMの姿勢等がマイク情報として格納される。これらのマイク情報は、ビームフォーミング処理を実行する際に適宜参照される。この他、BFマイクMの種類や型番等がマイク情報13として格納されてもよい。
 音声DB14は、発話者1の音声データ6を記録したデータベースである。例えばコントローラ20で生成された音声データ6が、発話者1のラベルとともに逐次記録される。また例えば、複数の発話者1がいる場合には、各発話者1ごとに音声データ6が記録される。
 コントローラ20は、集音システム100が有する各ブロックの動作を制御する。コントローラ20は、例えばCPUやメモリ(RAM、ROM)等のコンピュータに必要なハードウェア構成を有する。CPUが記憶部11に記憶されている制御プログラム12をRAMにロードして実行することにより、種々の処理が実行される。
 コントローラ20は、例えばPC等のコンピュータを用いて構成される。またコントローラ20として、例えばFPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、その他ASIC(Application Specific Integrated Circuit)等のデバイスが用いられてもよい。
 本実施形態では、コントローラ20のCPUが本実施形態に係る制御プログラム12を実行することで、機能ブロックとして、画像処理部21、集音制御部22、及び集音処理部23が実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
 画像処理部21は、検出カメラ10が撮影した画像に対して各種の画像処理を実行して音源情報を生成する。ここで音源情報とは、集音システム100の集音対象となる音源に関する情報である。
 音源情報には、音源を識別する情報が含まれる。例えば複数の音源が集音対象となっている場合には、各音源を識別するID等が音源情報として生成される。
 また音源情報には、音源の位置を示す情報、音源が音を発する方向を示す情報が含まれる。すなわち、音源が音を発する位置及び方向を示す情報が音源情報として生成される。
 このように、画像処理部21は、音源の位置と音源が音を発する方向とを示す音源情報を取得する。本実施形態では、画像処理部21は、音源情報を取得する情報取得部に相当する。
 本実施形態では、音源である発話者1を対象とした音源情報が生成される。
 このため、音源を識別する情報は、発話者1を識別する情報(発話者1の名称やID等)となる。画像処理部21では、検出カメラ10を用いて発話者1を撮影した画像データから発話者1が識別される。発話者1の識別には、例えば画像認識技術を利用した個人識別等の処理が用いられる。
 また音源の位置を示す情報は、発話者1の位置を示す情報となる。
 画像処理部21では、検出カメラ10を用いて発話者1を撮影した画像データから発話者1の位置が算出される。発話者1の位置を示す情報は、発話者1がいる床面における2次元座標でもよいし、発話者1の頭部の3次元座標でもよい。
 発話者1の位置を算出する方法は限定されない。
 また音源が音を発する方向は、発話者1の発話方向である。発話方向は、例えば発話者1の頭部正面が向けられた方向である。音源情報には、このような発話者1の発話方向を示す情報(例えば発話者1の頭部の向き等を示す情報)が含まれる。
 画像処理部21では、検出カメラ10を用いて発話者1を撮影した画像データに基づいて、発話者1に関するボーン検出(骨格推定)が実行され発話者1の発話方向が推定される。ボーン検出を用いることで、発話方向を精度よく推定することが可能である。また複数の発話者1が存在する場合であっても、各発話者1の発話方向を容易に推定可能である。
 なお発話方向を検出する方法は、ボーン検出を用いた方法に限定されず、例えば頭部の向き等を推定可能な任意の方法が用いられてよい。
 例えば、発話者1が特定できている場合には、その発話者1の位置や発話方向が逐次算出される。また、複数の発話者1が存在する場合には、各発話者1が個別に識別され、発話者1ごとに音源情報(位置や発話方向)が算出される。
 このように、集音システム100では、検出カメラ10と、画像処理部21とにより、集音対象となる発話者1を識別し、発話者1の位置及び発話方向を検出する検出装置が構成される。
 集音制御部22は、集音システム100による集音動作を制御する。
 本実施形態では、集音制御部22は、上記した音源情報に基づいて、音源(発話者1)の周辺に配置され集音方向3を設定可能な複数のBFマイクMから、音源が発する音(発話者1の音声5)の集音に用いる少なくとも1つの対象マイク25を選択する。
 ここで対象マイク25とは、集音対象となる発話者1の音声データ6の生成に使用されるBFマイクMである。すなわち、対象マイク25として選択されたBFマイクMの出力が、音声データ6の元データとして用いられる。
 対象マイク25は、音源情報が示す発話者1の位置や発話方向をもとに選択される。
 この処理では、例えば発話者1の音声5を十分な感度で検出することができるBFマイクMが、対象マイク25として選択される。選択されるBFマイクMは1つでもよいし、複数でもよい。これにより、発話者1の状態にあった適切なBFマイクMを対象マイク25として選択することが可能となる。
 図1に示す例では、BFマイクM1が対象マイク25に選択されている。
 また本実施形態では、集音制御部22は、音源情報に基づいて、対象マイク25の集音方向3を設定する。すなわち、音源情報が示す発話者1の位置や発話方向をもとに、対象マイク25のビーム7の方向が設定される。
 この処理では、例えば発話者1の発話方向に沿った集音が可能となるように、集音方向3(ビーム7の方向)が設定される。これにより、発話方向2にあった適切な集音方向を設定することが可能となる。
 なお、複数の発話者1が集音対象となる場合には、各発話者1の音源情報をもとに、各発話者1ごとに対象マイク25が選択されその集音方向3が設定される。
 図1に示すように、集音制御部22では、複数のBFマイクMのうち対象マイク25を指定する信号(音声選択信号)と、対象マイク25に関する集音方向3を指定する信号(集音方向信号)とが生成される。
 音声選択信号は、集音処理部23に出力される。また対象マイク25として選択されたBFマイクMについては、集音方向信号が指定する方向にその集音方向3が設定される。
 なお図1では、各BFマイクMに対して集音方向信号が出力される様子が模式的に図示されている。実際には、集音方向信号は、集音処理部23に出力され、集音処理部23により実行される対象マイク25に関するビームフォーミング処理に用いられる。
 集音処理部23は、少なくとも1つの対象マイク25の出力に基づいて、発話者1が発する音声5を表す音声データ6を生成する。
 上記したように対象マイク25の出力は、対象マイク25を構成する複数のマイク16a~16hが生成する音信号である。これらの音信号に対して、ビームフォーミング処理が実行され、発話者1の音声5を集音した音声データ6が生成される。本実施形態では、音声データ6は、音源が発する音を表す音データに相当する。
 図1に示すように、集音処理部23は、マイク切替部27と、音声データ生成部28とを有する。
 マイク切替部27は、音声選択信号に基づいて、複数のBFマイクMから対象マイク25を選択する。マイク切替部27は、全てのBFマイクMの出力を読み込むことが可能である。このうち、音声選択信号により対象マイク25に指定されたBFマイクMの出力が読み込まれる。従ってマイク切替部27は、複数のBFマイクMの出力のうち対象マイク25の出力を読み込むことで、対象マイク25を選択するとも言える。
 なお図1に示すマイク切替部27は、4つのBFマイクM1~M4のうち、単一のBFマイクMを対象マイク25として選択する切替スイッチとして模式的に図示されている。これに限定されず、マイク切替部27は、4つのBFマイクM1~M4のうち、複数のBFマイクMを対象マイク25として選択することも可能である。
 音声データ生成部28は、マイク切替部27により読み込まれた対象マイク25の出力(マイク16a~16hの音信号)にビームフォーミング処理を実行し音声データ6を生成する。
 ビームフォーミング処理では、集音方向信号が指定する集音方向3にビーム7が設定される。そして設定されたビーム7に沿って到来する音波について、伝搬遅延を補正する処理や、補正後の音信号を加算する処理等が実行される。
 またビームフォーミング処理の他にも、各音信号の強度を調整する処理や、ノイズを除去する処理等が実行されてもよい。
 音声データ生成部28により生成された音声データ6は、所定の再生装置29に出力される。あるいは、音声データ6は、記憶部11に構成された音声DB14に格納される。
 なお、複数の発話者1が集音対象となる場合には、各発話者1ごとに選択された対象マイク25の出力をもとに、各発話者1ごとに音声データ6が生成される。
 図4は、集音システム100の基本的な集音動作を示す模式図である。図4には、発話者1と、2つのBFマイクM1及びM2と、検出カメラ10とが模式的に図示されている。
 以下では、発話者1の位置をQと記載し、BFマイクM1及びM2の位置をそれぞれP1及びP2と記載する。また発話者1の発話方向2やBFマイクMの集音方向3が水平面内の方向であるものとして説明を行う。図4には発話方向2及び集音方向3が、それぞれ白抜きの実線の矢印及び黒抜きの実線の矢印を用いて模式的に図示されている。
 また、発話者1の発話方向2と、発話者1から見たBFマイクMの方向とのなす角度を、BFマイクMの集音角度と記載する。
 図4では、発話者1は、図中の右側を向いている。従って、発話者1の発話方向2は、図中の右側に向かう方向となる。
 また発話者1の正面から左側にずれた位置には、BFマイクM1が配置されており、発話者1から見て右側にはBFマイクM2が配置されている。従って、BFマイクM1の集音角度は、BFマイクM2の集音角度よりも小さい。なお、発話者1から見て、BFマイクM1の位置は、BFマイクM2の位置よりも離れている。
 例えば検出カメラ10により検出された発話者1の位置情報だけを用いて、発話者1の音声5を集音するためのBFマイクMを選択する場合を考える。位置情報だけを参照した場合、例えば発話者1に最も近い位置にあるBFマイクM2が選択される。
 ところで、図4に示すシーンでは、発話者1は、BFマイクM2の方向を向いておらず、発話者1の発話方向2と、発話者1から見たBFマイクM2の方向(点Qから点P2に向かう方向)とのなす集音角度が90°を超えている。
 例えば、発話位置(発話者1の口元)で発話された音声5を点音源とすると、発話者1自身が障害物となる。このため、BFマイクM2は、口元で発せられた直接音ではなく回折音を集音することになる。
 ここで、直接音とは、障害物等によって遮られることなく、音源からBFマイクMに到達する音声5である。
 一方で、障害物によって遮られ障害物を回り込んで伝搬された音声5(障害物による回折を受けた音声5)は、回折音となる。例えば、集音角度が十分に大きくなると音声5の回折数が多くなり、その分だけ音声5の減衰量も大きくなる。
 また図4に示すように、BFマイクM2では、発話者1の左側から到来する環境雑音30が直接集音される。従って、BFマイクM2を用いて発話者1の音声5を集音する場合、目的音である音声5に比べ環境雑音30の音量レベルが高くなる。
 これに対し、図4に示すシーンでは、BFマイクM1は、発話者1の正面近くに配置される。このため、発話方向2に対するBFマイクM1の集音角度は90°未満となる。従って、BFマイクM1を用いた場合、発話者1が発した直接音を集音可能となり、回折音を集音する場合に比べて音声5の減衰量を十分に抑制することができる。
 またBFマイクM1は、環境雑音30を直接集音することはない。これにより、発話者1の音声5の雑音レベルを十分に抑制することが可能である。
 そこで、集音システム100では、検出カメラ10で撮影した映像信号(画像データ)をもとに、画像処理部21により発話者1の位置検出と同時に、発話者1のボーン検出が実行されその発話方向2が検出される。
 このようにして得られた発話者1の位置Q及び発話方向2の情報(音源情報)から、集音制御部22により発話者1の音声5を集音するBFマイクM(対象マイク25)が選択される。また集音制御部22により対象マイク25の集音方向3が設定される。
 対象マイク25を選択する処理では、音源である発話者1が音声5を発する発話方向2を基準として発話者1が発する直接音を集音可能なBFマイクMが判定され、当該BFマイクMが対象マイク25として選択される。
 例えば発話方向2を中心とする所定の範囲に集音方向3を設定可能であるか否かを判定することで、直接音を集音可能であるか否かが判定される。例えば音源が発話者1である場合、発話方向2を中心として±90°の範囲が、所定の範囲として設定される。
 直接音を集音可能であるか否かを判定する方法は限定されず、例えば障害物の有無等に応じて判定されてもよい。
 図4に示す例では、発話方向2から左側にずれて配置されたBFマイクM1が、直接音を集音可能であるとして、対象マイク25として選択される。
 また集音方向3を設定する処理では、対象マイク25から発話者1に向かう方向が対象マイク25の集音方向3に設定される。これにより、発話者1が発する直接音を最も効率的に集音することが可能となる。
 図4に示す例では、対象マイク25であるBFマイクM1の位置P1から、発話者1の位置Qに向かう方向が、BFマイクM1の集音方向3に設定される。またBFマイクM1のビーム7の範囲は、発話者1に向かう集音方向3を中心として±βの角度で広がる扇状の領域となる。
 このように、集音システム100には、特定方向からの音を集音可能な複数の集音装置(BFマイクM)と、集音対象となる発話者1の位置Q及び発話方向2を検出する機構(検出カメラ10及び画像処理部21)が設けられる。そして、集音制御部22により発話者1の位置Q及び発話方向2にあったBFマイクMが選択され、集音処理部23により発話者1の音声データ6が生成される。これにより、発話者1の音声5を品質よく集音することが可能となる。
 例えば、発話者1の近くにある集音マイクを用いて集音を行うような会議システムでは、発話者1が集音マイクに背を向けていた場合、発話方向2とは反対の方向から集音を行うことになり、音量や音質が大幅に低下する可能性があった。例えばビームフォーミング技術を備えたマイクアレイを用いる場合でも同様の問題が発生する。
 これに対して、本実施形態に係る集音システム100では、複数のBFマイクMから、発話者1の位置Q及び発話方向2にあったBFマイクMを選択して集音動作が実行される。
 例えば映像コンテンツの制作現場等では、演者の正面から集音するようにマイクの位置を移動させている。また演者の正面から集音する場合に、その背後からくる雑音の混入が想定される場合には、マイクの指向範囲にノイズ源が入らないようにマイクの位置や姿勢を変化させて高音質な集音を実現している。
 集音システム100で行われる集音動作は、発話者1を正面から集音を出来るBFマイクMを選択することで、上記した制作現場での集音方法と同様の効果を発揮するものである。
 また集音システム100では、集音動作が行われている間に、上記した画像処理部21により所定のフレームレートで発話者1の音源情報(位置Q及び発話方向2)を算出する処理が繰り返し実行される。従って画像処理部21は、音源情報をモニタリングするともいえる。
 また、集音制御部22により、音源情報のモニタリング結果に応じて、対象マイク25と対象マイク25の集音方向とを指定する信号(音声選択信号及び集音方向信号)を動的に算出される。そして、集音処理部23により、音声選択信号及び集音方向信号に基づいて、音声データ6が生成される。
 これにより、各タイミングでの発話者1の位置や発話方向に応じて、動的に集音動作を行うことが可能となり、発話者1の音声5を常時高感度で集音することが可能となる。
 図5は、集音システムの動作例を示すフローチャートである。図6は、BFマイクMの配置例を示す模式図である。
 図5に示す処理は、図6に示すように配置された4つのBFマイクM1~M4から集音に用いる対象マイク25を選択する処理である。なお対象マイク25についての集音方向を設定する処理や、対象マイク25の出力から音声データ6を生成する処理等は、対象マイク25を選択した後に適宜実行される。
 また図5に示す処理は、集音動作が行われている間に所定のフレームレートで繰り返し実行されるループ処理である。
 まず、図6に示すBFマイクMの配置について説明する。ここでは、4つのBFマイクM1~M4が、正方形状の領域の4つの頂点にそれぞれ配置される。この正方形状の領域が、集音システム100の集音対象領域40である。ここでは、集音対象領域40内の各点において、図中上方向の方位角を0°とし、時計回りの方向に方位角が増えるものとする。
 BFマイクM1は図中右上の頂点に配置され、BFマイクM2は図中右下の頂点に配置され、BFマイクM3は図中左下の頂点に配置され、BFマイクM4は図中左上の頂点に配置される。
 また本実施形態では、複数のBFマイクMは、各々の配置に応じて割り当てられた割当範囲41に集音方向3を設定可能なように構成される。
 割当範囲41は、例えば各BFマイクMが集音を担当する角度範囲であり、典型的には水平面における方位角度の範囲である。割当範囲41は、各BFマイクMの位置や、集音対象領域40の形状に合わせて適宜設定される。
 図6には、円弧状の矢印を用いてBFマイクM1の割当範囲41が模式的に図示されている。BFマイクM1の割当範囲41は、BFマイクM1を基準として180°から270°の範囲である。同様に、BFマイクM2の割当範囲41は、270°から360°の範囲であり、BFマイクM3の割当範囲41は、0°から90°の範囲であり、BFマイクM4の割当範囲41は、90°から180°の範囲である。
 各BFマイクMは、少なくとも上記した割当範囲41内に集音方向3を設定可能である。
 図5に示すように、まず画像処理部21により、検出カメラ10が撮影した画像データから発話者1が検出される(ステップ101)。発話者1の検出には、例えば人物を検出する任意の画像処理が用いられる。この時、発話者1の識別が行われてもよい。
 またステップ101では、発話者1が検出された場合、発話者1の位置座標が検出される。ここでは、集音対象領域40における発話者1の位置Qの2次元座標(xy座標)が検出される。
 またステップ101では、発話者1に対してボーン検出が実行され、発話者1の発話方向2が検出される。ここでは、集音対象領域40における発話方向2の方位角度(正面角度)が検出される。
 図7は、発話者1の発話方向2の一例を示す模式図である。
 図7に示すように、発話者1の位置Qを基準に算出される。ここでは、発話者1の位置Qから見て、図中上方向の方位角を0°とする。また図中右方向の方位角を90°とし、図中下方向の方位角を180°とし、図中左方向の方位角を270°とする。
 発話者1の発話方向2、すなわち発話者1の正面角度θは、0°~360°の方位角度として算出される。例えば図7に示す発話方向2の角度θは、およそ120°である。
 なお、発話者1の位置Qや発話方向2が検出できない場合には、各パラメータの検出ができない旨の情報が記録されてもよい。
 次に、発話方向2が検出可能であるか否かが判定される(ステップ102)。
 例えば画像処理部21により発話方向2が検出されない場合、発話方向2が検出できない状態であると判定され(ステップ102のNo)、発話者1の位置Q(xy座標)が取得可能であるか否かが判定される(ステップ103)。
 例えば画像処理部21により発話者1の位置Qが検出されない場合、発話者1の位置Qが検出できない状態であると判定され(ステップ103のNo)、再度ステップ101が実行される。
 一方で、発話者1の位置Qが検出された場合、発話者1の位置Qが検出可能な状態であると判定され(ステップ103のYes)、発話者1の位置Qに最寄りのBFマイクMが、対象マイク25として選択される(ステップ104)。
 このように、発話方向2が不明であるが、発話者1の位置Qがわかっている場合には、発話者1に直近にあるBFマイクM(図5ではBFマイク(N)と記載している)が選択される。なおNはBFマイクMを表すインデックスであり、N=1、2、3、4である。
 ステップ104で、対象マイク25が選択されると、次のループ処理が実行される。
 ステップ102に戻り、画像処理部21により発話方向2が検出された場合、発話方向2が検出可能な状態であると判定され(ステップ102のYes)、発話方向2に最も適したBFマイクMの有無が判定される(ステップ105)。
 ここで、発話方向2に最も適したBFマイクMとは、発話方向2と割当範囲41の中心方向とが対応しているBFマイクMである。
 このようなBFマイクMを用いることで、割当範囲41の中心に沿って到来する音声5を集音することが可能となる。この結果、効果的に音声5を強調することや、他のノイズを抑制するといった処理が可能となり、高品質な音声データ6を生成可能となる。
 具体的には発話方向2の角度θが、以下の関係を満たすか否かが判定される。
 θ=90°×N-45°    ・・・(1)
 (1)式より、N=1の場合、θ=45°となる。このθ=45°の発話方向2は、BFマイクM1の割当範囲41(180°から270°)の中心方向(225°)を180°回転させた方向であり、中心方向に沿ってBFマイクM1に進行する方向である。すなわち、θ=45°の発話方向2は、BFマイクM1の割当範囲41の中心方向と対応している。この場合、BFマイクM1が、発話方向2に最も適したBFマイクMとなる。
 同様に、N=2、3、4について、(1)式が満たされる場合には、BFマイクM2、M3、及びM4が、それぞれ発話方向2に最も適したBFマイクMとなる。
 なおステップ105では、(1)式によるθの判定に一定の幅αを持たせた処理が実行されてもよい。例えば、発話方向2の角度θが(90°×N-45°-α)≦θ≦(90°×N-45°+α)を満たすか否かが、各Nについて判定される。このように、発話方向2と割当範囲41の中心方向とが多少ずれていた場合であっても、高品質な音声データ6を生成可能である。
 (1)式を満たすNが存在した場合(ステップ105のYes)、(1)式を満たすBFマイク(N)が、発話方向2に最も適したBFマイクMとして対象マイク25に選択される(ステップ106)。
 このように、本実施形態では、割当範囲41の中心方向が発話方向2と対応しているBFマイクMが対象マイク25として選択される。これにより、発話者1の音声5を十分高い音質で集音するといったことが可能となる。
 ステップ106で、対象マイク25が選択されると、次のループ処理が実行される。
 ステップ105に戻り、(1)式を満たすNが存在しない場合(ステップ105のNo)、発話者1の位置Qのxy座標から、発話者1に最寄りのBFマイクMが検出される(ステップ107)。
 例えば図6に示す例では、発話者1の発話方向2について(1)式を満たすNは存在しないと判定され、発話者1に最も近いBFマイクM4(N=4)が検出される。
 ステップ107で検出されたBFマイクMについて、発話方向2に沿った集音が可能であるか否かが判定される(ステップ108)。ここで、発話方向2に沿った集音とは、発話方向2がビーム7の方向範囲に含まれた状態で行われる集音動作である。
 図6を参照して説明したように、ここでは各BFマイクMが、90°の割当範囲41内で集音方向3を設定可能である。従って、N番目のBFマイクMが設定可能な方位角の範囲は、90°×(N-1)-βから、90°×N+βまでの範囲となる。
 ステップ108では、発話者1に最も近いBFマイク(N)について、発話方向2の角度θが上記したビーム7を設定可能な範囲に収まるか否かが判定される。これは、以下の関係を満たすか否かを判定する処理である。
 90×(N-1)-β≦θ≦90°×N+β    ・・・(2)
 図6を参照して(2)式の判定について説明する。ここでは、BFマイクM4(N=4)が最寄りのBFマイクMとして検出されているため、(2)式は、270-β≦θ≦360°+βとなる。これは、BFマイクM4の割当範囲41に集音方向3を設定するという条件のもとで設定可能なビーム7の範囲に対応する。この範囲に、発話方向2の角度θが含まれているかどうかが判定される。
 これにより、発話者1に最も近いBFマイクMにおいて、発話方向2に沿った集音が可能であるかどうかがわかる。
 (2)式が満たされる場合(ステップ108のYes)、ステップ107で検出された最寄りのBFマイク(N)が対象マイク25に選択される(ステップ109)。これにより、発話者1に最も近い位置から十分な感度で音声5を集音することが可能となる。
 ステップ109で、対象マイク25が選択されると、次のループ処理が実行される。
 また(2)式が満たされない場合(ステップ108のNo)、ステップ107で検出された最寄りのBFマイク(N)は対象マイク25としては選択されない。この場合、次のBFマイク(N+1)について、発話方向2に沿った集音が可能であるか否かが判定される(ステップ110)。
 この処理では、発話方向2の角度θが以下の関係を満たすか否かが判定される。
 90×N+β<θ≦90×(N+1)+β    ・・・(3)
 (3)式は、発話者1の最寄りのBFマイク(N)に隣接するBFマイク(N+1)が、設定可能なビーム7の範囲のうち、BFマイク(N)と重複しない範囲に発話方向2の角度θが含まれているかどうかを判定する条件式である。
 図6に示す例では、最寄りのBFマイクM4であった。この場合ステップ110では、その次のBFマイクM1(N=1)がBFマイクM4とは別に設定可能なビーム7の範囲を対象として判定処理が実行される。
 (3)式が満たされる場合(ステップ110のYes)、最寄りのBFマイク(N)に隣接するBFマイク(N+1)が対象マイク25に選択される(ステップ111)。これにより、発話者1に2番目(又は3番目)に近い位置から十分な感度で音声5を集音することが可能となる。
 ステップ111で、対象マイク25が選択されると、次のループ処理が実行される。
 また(3)式が満たされない場合(ステップ110のNo)、最寄りのBFマイク(N)にBFマイク(N+1)とは反対側で隣接するBFマイク(N-1)が対象マイク25に選択される(ステップ112)。これにより、BFマイク(N+1)が選択された場合と同様に、発話者1に十分近い位置から十分な感度で音声5を集音することが可能となる。
 ステップ112で、対象マイク25が選択されると、次のループ処理が実行される。
 ステップ107~ステップ112で行われる処理は、発話方向2に沿った集音が可能なBFマイクMを近い順番に検索して対象マイク25に設定する処理である。このように、本実施形態では、発話方向2が割当範囲41の中心方向に対応するBFマイクMが存在しない場合、発話方向2に沿った集音が可能であり、音源との距離が最も近いBFマイクMが対象マイクとして選択される。
 これにより、可能な限り高い感度で音声5を集音することが可能なBFマイクMを対象マイク25に設定することが可能となる。この結果、音声データ6の音質を十分に向上することが可能となる。
 図8は、複数の発話者1に対する集音動作について説明するための模式図である。以下では、集音対象領域40に複数の発話者1が居る場合の集音動作について説明する。
 ここでは、正方形状の集音対象領域40の中心に置かれた机43の周りに座っている4人の発話者1A、1B、1C、及び1Dを対象として集音動作が行われものとする。発話者1A、1B、1C、及び1Dは、集音対象領域40の中心から見て図中の左上、右上、右下、及び左下に位置し、互いに向かい合うようにして会話をしている。
 また集音対象領域40の4つの頂点には、図6と同様にBFマイクM1~M4がそれぞれ配置される。
 複数の発話者1が集音対象となる場合、画像処理部21は、複数の発話者1(音源)ごとに音源情報を取得する。
 具体的には、集音対象領域40を図示しない検出カメラ10で撮影した画像データから、発話者1A、1B、1C、及び1Dの各々について、各発話者1の位置と発話方向2とがそれぞれ検出される。
 各発話者1の音源情報が取得されると、集音制御部22は、複数の発話者1ごとの音源情報に基づいて、複数の発話者1ごとに対象マイク25をそれぞれ選択する。また集音制御部22は、複数の発話者1ごとに選択された各対象マイク25について、集音方向3をそれぞれ設定する。
 図8に示す例では、発話者1Aの対象マイク25として、集音対象領域40の右上に配置されたBFマイクM1が選択される。また、発話者1Bの対象マイク25として、集音対象領域40の左上に配置されたBFマイクM4が選択される。また、発話者1Cの対象マイク25として、集音対象領域40の左下に配置されたBFマイクM3が選択される。また、発話者1Dの対象マイク25として、集音対象領域40の右下に配置されたBFマイクM2が選択される。
 例えば、発話者1Aの音声5の集音に、発話者1Aの直近に配置されたBFマイクM4を用いるとする。ここでは、発話者1Aは、机を挟んで対峙している発話者1B及び発話者1Cのほうを向いて会話をしている。このため、発話者1Aの発話方向2に対するBFマイクM4の集音角度は、90°以上である。さらにBFマイクM4を用いて発話者1Aの音声5を集音する場合、発話者1B及び1Cの発話方向2の90°以内にビームフォーミングの集音方向3を設定することになる。
 この結果、BFマイクM4では、発話者1Aの回折音と、発話者1B及び1Cの直接音とを集音することになり、発話者1Aの音声5を選択的に集音することが難しくなる。
 これに対し、例えば図5を参照して説明した処理のように、発話方向2の情報を加味することで、発話者1Aの音声を集音する対象マイク25として、BFマイクM1を選択することが可能である。BFマイクM1を用いることで、発話者1Aの直接音を集音することが可能となる。またBFマイクM1から発話者1Aに向けて設定される集音方向3は、発話者1B及び1Cの音声5をほとんど集音しない。このように、発話者1B及び1Cをビームフォーミングの集音範囲外にすることが可能となるので、集音対象でない発話者1の影響を十分に抑えることが可能となる。
 発話者1B~1Dに対して設定される対象マイク25についても、上記と同様の効果を発揮することが可能である。これにより、複数の発話者1が居る場合であっても、各発話者1の音声5を個別にかつ良好な音質で集音することが可能となる。
 図9は、複数のBFマイクMを用いた集音動作の一例を示す模式図である。
 図9では、複数のBFマイクMを使って一人の発話者1の音声を集音する例について説明する。この場合、集音制御部22では、単一の音源(一人の発話者1)について、複数のBFマイクMから複数の対象マイク25が選択される。
 ここでは、図6や図8と同様に4つのBFマイクM1~M4が正方形状の集音対象領域40に配置される。
 図9に示す発話者1は、集音対象領域40の中心よりも図中上側に位置した状態で、図中下側を向いて音声5を発している。このため、発話者1に近接するBFマイクM1やM4では、発話者1の直接音の集音が難しい。
 このような場合、集音制御部22により、集音対象領域40において発話者1の正面側(発話方向2が向けられた側)にあるBFマイクM2及びM3がともに発話者1の対象マイクとして選択される。また集音処理部23により、BFマイクM2及びM3使って、発話者1の音声5が同時に集音され、各集音結果を加算(合成)して音声データ6が生成される。
 このように2つのBFマイクM2及びM3を用いることで、遠距離集音時の集音レベルを向上することが可能となり、品質を低下させることなく発話者1の音声5を集音することが可能となる。
 図10は、発話者1が移動する際の集音動作の一例を示す模式図である。図11は、音声5の合成処理について説明するための模式図である。ここでは、図10及び図11を参照して、集音対象領域40内を発話者1が移動する場合の対象マイク25の選択動作について説明する。
 発話者1は、集音対象領域40の左上から中央右側を通って左下に向けて移動するものとする。図10には、時刻T1、T2、T3、及びT4における発話者1の位置及び発話方向2が模式的に図示されている。またビーム7の範囲を表すグレーの色は各時刻に対応しており、色が濃いほど後の時刻に設定されたビーム7を表している。
 例えば時刻T1では、発話者1は、集音対象領域40の左上に位置し発話方向2は図中右側に向けられている。この場合、BFマイクM1が対象マイク25となり、発話者1に向けてビーム7が設定される。
 時刻T2では、発話者1は、BFマイクM1に接近しており発話方向2は図中右下に向けられている。この場合、BFマイクM1とともに、BFマイクM2が対象マイク25として選択される。
 時刻T3では、発話者1は、集音対象領域40の中央右側に位置し発話方向2は図中下側に向けられている。この場合、BFマイクM1は対象マイク25から外されており、BFマイクM2が対象マイク25として選択される。
 時刻T4では、発話者1は、BFマイクM2に接近しており発話方向2は図中左下のBFマイクM3に向けられている。この場合、BFマイクM2とともに、BFマイクM3が対象マイク25として選択される。
 このように、本実施形態では、発話者1の移動に伴い、複数のBFマイクMを適宜切り替えて対象マイク25が設定される。
 また時刻T2やT4のように、2つのBFマイクMで集音が可能な場合には、両方のBFマイクMが対象マイク25として設定され、そのデータを用いて音声データ6が合成される。すなわち、集音処理部23では、複数の対象マイク25により集音されたデータを合成して、発話者1の音声データ6が生成される。
 以下では、時刻T2の場合を例に挙げて、対象マイク25として選択された2つのBFマイクM1及びM2を用いて音声データ6を合成する方法について説明する。
 図11には、時刻T2における発話者1とBFマイクM1及びM2との配置関係が模式的に図示されている。
 発話者1からBFマイクM1に向かう方向(QからP1に向かう方向)と発話方向2とのなす角度をγ1と記載し、発話者1からBFマイクM2に向かう方向(QからP2に向かう方向)と発話方向2とのなす角度をγ2と記載する。また、発話者1とBFマイクM1との距離(QとP1との距離)をL1と記載し、発話者1とBFマイクM2との距離(QとP2との距離)をL2と記載する。
 (γ1、γ2、L1、L2)は、例えば画像処理部21によるボーン検出及び人位置検出の各処理を用いてそれぞれ算出される。
 ここで、発話者1の正面で集音を行った場合に、必要な発話レベルAを集音可能な距離を、基準集音距離Lと記載する。
 例えば、基準集音距離Lに対して、発話者1から距離L1だけ離れた位置で集音するBFマイクM1の集音レベルA1は、以下の式で表される。
 A1=A×(L/L1)2    ・・・(4)
 同様に、基準集音距離Lに対して、発話者1から距離L2だけ離れた位置で集音するBFマイクM2の集音レベルA2は、以下の式で表される。
 A2=A×(L/L2)2    ・・・(5)
 また、BFマイクM1及びM2の各出力を以下の式に従って合成する。
 Amix=sqrt{(A1×(L1/L)2×cosγ) 2+(A1×(L1/L)2×cosγ) 2
                                ・・・(6)
 ここでAmixは、BFマイクM1及びM2の各出力を合成した合成レベルである。
 またsqrt{}は、{}内の値に対する平方根を意味する。
 またγは、上記した(γ1、γ2)のどちらか一方である。
 (4)及び(5)式より、必要な発話レベルAは、以下のように表される。
 A=A1×(L1/L)2=A2×(L2/L)2    ・・・(7)
 従って、(6)式に従って合成される合成レベルAmixは、Amix=Aとなる。
 このように、(6)式を用いることで、合成レベルAmixを常に発話レベルAと同等のレベルとすることが可能となる。
 また、(6)式のγは、例えば2つのBFマイクM(ここではM1及びM2)のうち、メインに集音を行うBFマイクM(主マイクアレイ)の発話方向2に対する集音角度である。
 例えば、発話者1の位置Q及び発話方向2をもとに、集音角度γが-90°≦γ≦90°となり、発話者1に近接する2つのBFマイクMが対象マイク25として選択される。また、選択された2つのBFマイクMのうち、発話者1に近いほうが、メインに集音を行うBFマイクMに設定され、その集音角度が(6)式のγとして用いられる。
 例えば、図11に示す状況では、発話者1に近いBFマイクM1がメインに集音を行うBFマイクMに設定され、その集音角度γ1が(6)式のγとして用いられる。
 また時刻T2以降に発話者1が移動して、γ1=90°(またはγ1=-90°)となった場合、メインに集音を行うBFマイクMは、BFマイクM2に切り替えられ、(6)式のγが集音角度γ1に切り替えられる。
 これにより、隣接するBFマイクMの連続的な切替えを実現することが可能となる。この結果、不自然な音切れ等を発生させることなく、集音レベルの高い高品質な集音を継続して行うことが可能となる。
 図12は、複数の発話者1が移動する際の集音動作の一例を示す模式図である。
 図12では、複数の発話者1が移動し、かつ各発話者1に対する集音動作が干渉する場合について説明する。
 ここでは、集音対象領域40内を2人の発話者1A及び1Bが、図中の太い矢印に沿ってそれぞれ移動するものとする。図12A及び図12Bには、時刻T1及び時刻T2での発話者1A及び1Bの配置が模式的に図示されている。
 また発話者1Aの対象マイク25のビーム7の範囲が薄いグレーの領域で示されており、発話者1Bの対象マイク25のビーム7の範囲が濃いグレーの領域で示されている。また、ドットの領域は、比較のために示した仮想的なビーム7の範囲を表している。
 図12Aでは、発話者1Aは集音対象領域40の左上の外周近くに位置し、発話者1Aの発話方向2は図中右側を向いている。また発話者1Bは集音対象領域40の中央下側の外周近くに位置し、発話者1Bの発話方向2は図中左上を向いている。
 図12Aに示す状況では、発話者1Aの正面側にある直近のBFマイクM1で、発話者1Aの音声5を集音してもその集音方向3(ビーム7aの方向)に他者(発話者1B)が重ならない。このため、BFマイクM1が発話者1Aの対象マイク25として選択され、発話者1Aに向けてビーム7aが設定される。
 同様に、発話者1Bの正面側にある直近のBFマイクM3で、発話者1Bの音声5を集音してもその集音方向3(ビーム7cの方向)に他者(発話者1A)が重ならない。このため、BFマイクM3が発話者1Bの対象マイク25として選択され、発話者1Bに向けてビーム7bが設定される。
 なお、発話者1Aに最も近い位置にあるBFマイクM4では、発話者1Aにビーム7dを向けたとしても、発話者1Aを背後から集音することになる。同様に、発話者1Bに最も近い位置にあるBFマイクM2では、発話者1Bにビーム7bを向けたとしても、発話者1Bを背後から集音することになる。従ってBFマイクM4のビーム7dや、BFマイクM2のビーム7bでは、発話者1の直接音が集音できないため、音質が低下する可能性がある。
 図12Bでは、発話者1Aは集音対象領域40の中心の右上に位置し、発話者1Aの発話方向2は図中右下を向いている。また発話者1Bは集音対象領域40の中心の左下に位置し、発話者1Bの発話方向2は図中上側を向いている。
 図12Bに示す状況では、図12Aと同様にBFマイクM1を用いて発話者1Aを集音した場合、BFマイクM1のビーム7a'上に、他者(発話者1B)が重なっている。また発話者1Bの発話方向2に対するBFマイクM1の集音角度が90°以下であるため、ビーム7a'を用いた場合、発話者1Bが発する直接音が集音される可能性がある。
 一方で、発話者1Aの正面側にあるもう一方のBFマイクM2を用いて発話者1Aを集音した場合、BFマイクM2のビーム7b'上に、他者(発話者1B)が重ならない。このため、図12Bでは、BFマイクM2が発話者1Aの対象マイク25として選択され、発話者1Aに向けてビーム7b'が設定される。これにより、発話者1Aの音声5だけを高品質に集音することが可能である。
 図12Bに示す発話者1Bについても同様に対象マイク25が切り替えられる。例えば、
図12Aと同様にBFマイクM3を用いて発話者1Bを集音した場合、BFマイクM3のビーム7c'には、他者(発話者1A)が重なっており、発話者1Aが発する直接音が集音される可能性がある。
 一方で、発話者1Bの正面側にあるBFマイクM4を用いて発話者1Bを集音した場合、BFマイクM4のビーム7d'上に、他者(発話者1A)が重ならない。このため、図12Bでは、BFマイクM4が発話者1Bの対象マイク25として選択され、発話者1Bに向けてビーム7d'が設定される。これにより、発話者1Bの音声5だけを高品質に集音することが可能である。
 このように本実施形態では、処理対象(集音対象)の発話者1が発する直接音を集音し処理対象とは異なる他の発話者1が発する直接音を集音しないように集音方向3を設定可能なBFマイクMが対象マイク25として選択される。
 これにより、例えば処理対象の発話者1が発した音声5を選択的に集音した音声データ6を生成することが可能となる。
 図13は、発話者1の発話方向2を想定した集音動作の一例を示す模式図である。
 図13では、複数の発話方向2にむけた発話が想定可能であり、発話方向2が比較的頻繁に切り替わるような状況での集音動作について説明する。
 ここでは、一例としてリモート会議が行われている状況を想定する。集音対象領域40には、発話者1A及び1Bが左右に分かれて座っている。また集音対象領域40の中央上側に設けられたモニター44には、リモート会議の参加者である発話者1Cが映し出されている。
 複数の発話方向2が想定される場合には、対応するBFマイクMに対して、想定される発話方向2に応じた集音方向3が予め設定される。集音方向3が予め設定されたBFマイクMは、対象マイク25の候補となる候補マイク26となる。
 このように、複数のBFマイクMには、予め集音方向3が設定された複数の候補マイク26が含まれる。本実施形態では、候補マイク26は、候補装置に相当する。
 発話者1Aに着目すると、図13に示す状況では、発話者1Aが発話者1Cに向かって発話する場合(発話方向2が上側に向けられる場合)と、発話者1Aが発話者1Bに向かって発話する場合(発話方向2が右側に向けられる場合)とが想定される。
 この場合、BFマイクM4及びM1が、発話者1Aの音声5を集音する候補マイク26として設定される。
 例えば、発話者1Aが発話者1Cに向かって発話する際の上側に向けられる発話方向2aに対応して、BFマイクM4に集音方向3aが設定される。同様に、発話者1Aが発話者1Bに向かって発話する際の右側に向けられる発話方向2bに対応して、BFマイクM1に集音方向3bが設定される。
 このように、候補マイク26が設定された状態で、発話者1に対する集音動作が実行される。具体的には、集音制御部22により、複数の候補マイク26から対象マイク25が選択される。例えば、発話者1の実際の発話方向2がモニタリングされ、そのモニタリング結果に応じて、各候補マイク26から対象マイク25が選択される。
 図13では、発話者1Aが発話者1Cに向かって発話しているとする。この場合、発話方向2aに対応する集音方向3aが設定されたBFマイクM4が対象マイク25として選択される。そして、BFマイクM4により集音方向3aに沿って発話者1Aの音声5が集音される。
 また、集音処理部23は、対象マイク25として選択されない候補マイク26を集音状態で待機させる。ここで集音状態での待機とは、例えば対象マイク25による集音動作のバックグラウンドで集音処理(ビームフォーミング処理)を継続する処理である。なお待機中に生成された音声データ6は適宜削除される。
 図13では、BFマイクM4が対象マイク25として選択されるため、もう一方の候補マイク26であるBFマイクM1が集音状態で待機することになる。このときBFマイクM1は集音方向3bに対する集音動作を継続している。
 これにより、発話方向2が急に変化した場合であっても、待機させた候補マイク26での集音に切り替えることで、高品質な集音を継続して行うことが可能となる。
 例えば図13では、発話者1Aの隣席に発話者1Bが居るため、発話者1Aがメインの方向(発話方向2a)を向いて発話者1Cと話していたとしても、急に発話者1Bとの会話が始まる可能性がある。そこで、上記したように予め隣席方向(発話方向2b)に対してもBFマイクM1を集音状態で待機すれば、発話者1Aが頻繁に且つ早急に向きを変えて隣席の発話者1Bと会話を始めても、頭切れをせずに発話者1Aの音声5を集音することが可能となる。
 図14は、ジャスチャーに応じた集音動作の一例を示す模式図である。
 図14では、発話者1のジェスチャー(特定動作)に応じて発話者1に対する集音処理を制御する方法について説明する。
 ここでは、画像処理部21により、発話者1のジェスチャーが検出される。本実施形態では、発話者1の発話方向2を検出するボーン検出機能を利用して、発話者1の骨格の情報から発話者1のジェスチャーが検出される。発話者1のジェスチャーは、静的なジェスチャー(ポーズ)であってもよいし、動的なジェスチャー(動作)であってもよい。
 図14(a)~(c)には、発話者1の骨格を用いて、発話者1の姿勢が模式的に図示されている。発話者1の骨格は、複数の座標点45で表されており、例えば発話者1の頭部は、頭座標点45aと、首座標点45bとで表されている。また発話者1の右手は、右手首及び右手のひらを表す座標点45のペア46Rで表されており、発話者1の左手は、左手首及び左手のひらを表す座標点45のペア46Lで表されている。
 これに限定されず、例えば、目、鼻、耳等の他の部分を表す座標点45が用いられてもよい。
 本実施形態では、集音処理部23により、発話者1のジェスチャーに応じて、発話者1の音声5を集音する集音処理が制御される。
 ここで集音処理とは、例えば発話者1の音声5を集音するために必要となる一連の処理である。集音処理には、音声データ6を生成するビームフォーミング処理の他、画像処理部21による発話者1の位置Q及び発話方向2の検出処理や、集音制御部22による対象マイク25を選択する処理や集音方向3を設定する処理が含まれる。
 これらの処理が、発話者1のジェスチャーに応じて制御される。
 図14(a)には、発話者1の一般姿勢が示されている。一般姿勢は、例えば発話者1の通常の姿勢であり、左右の手を下におろして直立した状態である。なお、左右の手(ペア46L及び46R)の位置が例えば肩の座標点45よりも低い位置にある場合を一般姿勢に設定してもよい。
 一般姿勢が検出された場合、発話者1に対して通常の集音処理が実行される。
 図14(b)には、集音を停止する停止ジェスチャーが示されている。停止ジェスチャーは、口前に手をかざす姿勢である。このように、発話者1が手で口を遮る停止ジェスチャーが検出された場合、発話者に対する集音処理が停止される。
 ここでは、発話者1の右手(ペア46R)が、頭座標点45a及び首座標点45bの間と重なる位置で検出される。このようなジェスチャーが検出された場合には、発話者1が口を塞いだとみなして、発話者1を対象とする集音処理が停止される。これにより、例えば発話者1が集音したくない会話等が集音される事態を回避することが可能となる。
 なお、他の発話者1に対して実行されている集音処理はそのまま継続される。
 図14(c)には、集音を優先する優先ジェスチャーが示されている。優先ジェスチャーは、左右どちらかの手を頭部より上にかざす姿勢である。このように、発話者1が手を挙げる優先ジェスチャーが検出された場合、発話者1に対する集音処理が優先して実行される。
 ここでは、発話者1の左手(ペア46L)が、頭座標点45aよりも高い位置で検出される。このようなジェスチャーが検出された場合には、発話者1が発言のために挙手をしたとみなして、発話者1を優先的に集音する集音処理(優先集音)が実行される。
 優先集音では、例えば発話者1の音声を集音するためのビームフォーミング処理の精度が引き上げられる。あるいは、発話者1の発話方向2等の検出精度が引き上げられる。逆に、他の発話者1に対して実行されている集音処理の精度が引き下げられてもよい。また、発話者1の音声5を単独で集音するといった処理が実行されてもよい。これにより、例えば発言を希望する発話者1の音声を高品質に集音することが可能となる。
 図15は、音声と動作音とを集音する集音動作の一例を示す模式図である。
 図15では、発話者1の移動等の動作に伴う所作音8を分離して集音する方法について説明する。以下では所作音の一例として、発話者1が移動した際に発生する足音を例に挙げて説明する。この処理は、例えばボーン検出や位置検出により、発話者1の移動が検出された場合に実行される。なお、発話者1の移動の有無に関わらず、所作音8(足音)を分離する処理が実行されてもよい。
 図15Aは、対象マイク25(BFマイクM)から発話者1に向けられたビーム7の垂直方向の広がりを示す模式図である。例えば対象マイク25に設定されたビーム7は、図15Aに示すように上下方向に広がる。このため、対象マイク25は、発話者1の音声5とともに、発話者1の足元で発生する足音(所作音8)も集音することが可能である。
 従って、対象マイク25の出力をもとに生成された音声データ6には、発話者1の音声5と所作音8が含まれている。
 本実施形態では、集音処理部23により、対象マイク25により集音された音声データ6から、発話者1の音声5と、発話者1の所作音8とが分離される。
 例えば音声データ6から発話成分を分離することで、発話者1の所作音8(足音)を集音した所作音データ等を生成することが可能である。
 図15Bは、所作音8を分離する集音処理部23の構成例を示すブロック図である。この集音処理部23には、図1を参照して説明した音声データ生成部28の後段に、音源分離部35が設けられる。
 音源分離部35は、対象マイク25を用いて生成された音声データ6から発話者1の音声5を除去して、所作音8を抽出する。所作音8の抽出には、データの内容や集音環境等に応じて分離周波数等のパラメータを変化させる適応型の音源分離処理が用いられる。あるいは、所作音8の特徴に合わせて固定型の帯域通過フィルタ(BPF)等が用いられてもよい。
 図15Cは、音声5及び所作音8に関する集音レベルの周波数分布を示す模式的なグラフである。グラフの横軸は、周波数であり、縦軸は、集音レベルである。音声5及び所作音8の集音レベルは、実線のグラフ及び一点鎖線のグラフを用いてそれぞれ示されている。
 例えば音声5は、1kHzを中心として比較的急峻なピーク状に分布しており、1kHzよりも十分に周波数が高い領域(または低い領域)には周波数成分を持たない。一方で、所作音8は、音声5よりも広い周波数範囲に分布した比較的ブロードな分布を示す。すなわち音声5が周波数成分を持たない領域にも、所作音8の周波数成分が分布している。
 このように、音声5の周波数成分は1kHz近辺に集中している。そこで、音源分離部35では、音声データ6から1kHz近辺の周波数成分を除去する処理が実行される。このように、音源分離部35は、1kHz近辺の周波数成分を除去したデータを所作音8(足音)とみなして集音する。
 図15Cには、1kHz近辺の周波数成分を除去するBPFの周波数特性が、破線のグラフを用いて示されている。このようなBPFを音声データ6に作用させることで、音声5が除去されて所作音8が抽出された所作音データが生成される。
 この他、所作音8を抽出する方法は限定されず、例えば機械学習等を用いた音源分離技術等が適宜用いられてもよい。
 音声5と分離された所作音8(所作音データ)は、例えば音声5とは別のトラックの音データとして、再生装置29や記憶部11に出力される。
 例えば、発話者1の挙動を遠隔地で再生するようなアプリケーション(リモート会議やリモートプレゼンテーション等)では、音声5と所作音8とを分けて再生することで、臨場感の向上をはかることが可能である。
 また例えば、映像コンテンツの収録を行う際に、所作音8を音声5とは別トラックで記録することが可能となり、コンテンツの品質を向上することが可能となる。
 以上、本実施形態に係るコントローラ20では、音源である発話者1の周辺に配置された複数のBFマイクMから、発話者1の音声5を集音するための対象マイク25が少なくとも1つ選択される。各BFマイクMは、集音方向3を設定できる装置であり、対象マイク25の選択には、発話者1の位置Q及び発話者1が音声を発する発話方向2を示す音源情報が用いられる。これにより、例えば発話者1の位置や音声5の出る方向に適応したBFマイクMを用いることが可能となり、発話者1が発する音声5を高品質に集音することが可能となる。
 音源の音を集音する方法として、例えば目的音以外の音を除去するノイズキャンセルを用いる方法が考えられる。例えば特許文献1では、一つのマイクアレイを用いたビームフォーミング技術によるノイズキャンセルの方法が記載されている。この方法では、マイクアレイとは別の画像処理装置を用いて集音対象となる人物の配置が検出され、集音対象の配置に基づいてノイズ方向が設定される。そして集音対象が存在する方向の音からノイズ方向の音を差し引くことで、ノイズがキャンセルされる。
 しかしながら、例えば集音対象となる人物がマイクアレイに背を向けた場合には、発話方向とは反対側から人物の音声を集音することになり、そもそも集音対象の音を高品質で集音することが難しい。また集音対象とノイズ源との配置関係によっては、目的音より雑音が大きく集音されることになる。この場合、目的音となる発話情報を雑音情報の中から抜き出すことになるので、音声の品質が劣化する可能性がある。
 本実施形態では、集音対象となる音源(発話者1)の位置Q及び発話方向2が音源情報として検出される。この音源情報をもとに、任意の方向に集音方向3を設定可能な複数の集音装置を制御して発話者1の音声5が集音される。これにより、様々な方向を向いている複数の発話者1から発せられる音声5を個別かつ同時に集音することが可能となる。
 また複数の発話者1が同時に発話しても、各発話者1の音声データ6を別々のオブジェクトとして発話数分だけ集音することが可能である。これにより、音声データ6の取り扱いが容易になる。
 また、複数のBFマイクMから、対象マイク25を選択しその集音方向3を設定する方法は、発話者1の音声5を良い音質で集音可能な状況を作り出すことを目的としている。これは、ノイズをキャンセルする前の段階で、おおもとのデータにおける音質を向上させる方法であると言える。
 このように、集音システム100で行われる集音方法は、ノイズ除去ではないので、再生した場合に明瞭に聞くことが可能な音声データ6を提供することが可能となる。
 <その他の実施形態>
 本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
 上記では、各BFマイクMに対して、1つのビーム7を設定して集音を行う方法について説明した。これに限定されず、例えば1つのBFマイクMに対して、複数のビーム7(集音方向3)を設定することも可能である。これにより、例えばBFマイクMの数よりも発話者1が多いような場合であっても、発話者1ごとの高品質な集音を実現することが可能となる。
 図1を参照して説明した構成では、集音処理部23によりビームフォーミング処理が実行された。例えば、各BFマイクMがそれぞれビームフォーミング処理を実行可能なように構成されてもよい。この場合、各BFマイクMでは、集音方向信号が指定する集音方向3の音波を集音するビームフォーミング処理が実行され、各BFマイクMからは、集音方向3の音声データ6が出力される。このような構成であっても、発話者1の音声5を高品質に集音することが可能である。
 集音方向3を設定可能な集音装置として、BFマイクMに代えて、単一指向性マイク等が用いられてもよい。この場合、例えば多数の単一指向性マイクが発話者1の周辺に配置される。そして発話者1の発話方向2にあった集音方向3をもつ単一指向性マイクが選択され、対象マイク25として用いられる。このような構成であっても、発話者1の音声5を高品質に集音することが可能である。
 上記では集音システムのコンピュータ(コントローラ)により、本技術に係る情報処理方法が実行される場合を説明した。しかしながら集音システムのコンピュータとネットワーク等を介して通信可能な他のコンピュータとにより、本技術に係る情報処理方法、及びプログラムが実行されてもよい。
 すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
 コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば音源情報を取得する処理及び対象マイクを選択する処理が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
 すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
 以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
 本開示において、「同じ」「等しい」「直交」等は、「実質的に同じ」「実質的に等しい」「実質的に直交」等を含む概念とする。例えば「完全に同じ」「完全に等しい」「完全に直交」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。
 なお、本技術は以下のような構成も採ることができる。
(1)音源の位置と前記音源が音を発する方向とを示す音源情報を取得する情報取得部と、
 前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する集音制御部と
 を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
 前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定する
 情報処理装置。
(3)(2)に記載の情報処理装置であって、
 前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定する
 情報処理装置。
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
 前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択する
 情報処理装置。
(5)(4)に記載の情報処理装置であって、
 前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成され、
 前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択する
 情報処理装置。
(6)(5)に記載の情報処理装置であって、
 前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択する
 情報処理装置。
(7)(1)から(6)のうちいずれか1つに記載の情報処理装置であって、
 前記情報取得部は、複数の音源ごとに前記音源情報を取得し、
 前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択する
 情報処理装置。
(8)(7)に記載の情報処理装置であって、
 前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択する
 情報処理装置。
(9)(1)から(8)のうちいずれか1つに記載の情報処理装置であって、さらに、
 前記少なくとも1つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備する
 情報処理装置。
(10)(9)に記載の情報処理装置であって、
 前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含み、
 前記集音制御部は、前記複数の候補装置から前記対象装置を選択し、
 前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させる
 情報処理装置。
(11)(9)又は(10)に記載の情報処理装置であって、
 前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択する
 情報処理装置。
(12)(11)に記載の情報処理装置であって、
 前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成する
 情報処理装置。
(13)(9)から(12)のうちいずれか1つに記載の情報処理装置であって、
 前記音源は、発話者であり、
 前記音源が音を発する方向は、前記発話者の発話方向である
 情報処理装置。
(14)(13)に記載の情報処理装置であって、
 前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定する
 情報処理装置。
(15)(13)又は(14)に記載の情報処理装置であって、
 前記情報取得部は、前記発話者のジェスチャーを検出し、
 前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御する
 情報処理装置。
(16)(15)に記載の情報処理装置であって、
 前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止する
 情報処理装置。
(17)(13)から(16)のうちいずれか1つに記載の情報処理装置であって、
 前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離する
 情報処理装置。
(18)(1)から(17)のうちいずれか1つに記載の情報処理装置であって、
 前記集音装置は、複数のマイクが配置されたマイクアレイであり、
 前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向である
 情報処理装置。
(19)音源の位置と前記音源が音を発する方向とを示す音源情報を取得し、
 前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する
 ことをコンピュータシステムが実行する情報処理方法。
(20)音源の位置と前記音源が音を発する方向とを示す音源情報を取得するステップと、
 前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択するステップと
 をコンピュータシステムに実行させるプログラム。
 M、M1~M4…BFマイク
 1、1A~1D…発話者
 2…発話方向
 3…集音方向
 5…音声
 10…検出カメラ
 11…記憶部
 12…制御プログラム
 16…マイク
 20…コントローラ
 21…画像処理部
 22…集音制御部
 23…集音処理部
 25…対象マイク
 26…候補マイク
 35…音源分離部
 41…割当範囲
 100…集音システム

Claims (20)

  1.  音源の位置と前記音源が音を発する方向とを示す音源情報を取得する情報取得部と、
     前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する集音制御部と
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記集音制御部は、前記音源情報に基づいて、前記対象装置の集音方向を設定する
     情報処理装置。
  3.  請求項2に記載の情報処理装置であって、
     前記集音制御部は、前記対象装置から前記音源に向かう方向を前記対象装置の集音方向に設定する
     情報処理装置。
  4.  請求項1に記載の情報処理装置であって、
     前記集音制御部は、前記音源が音を発する方向を基準として前記音源が発する直接音を集音可能な前記集音装置を判定し、当該集音装置を前記対象装置として選択する
     情報処理装置。
  5.  請求項4に記載の情報処理装置であって、
     前記複数の集音装置は、各々の配置に応じて割り当てられた割当範囲に前記集音方向を設定可能なように構成され、
     前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置を前記対象装置として選択する
     情報処理装置。
  6.  請求項5に記載の情報処理装置であって、
     前記集音制御部は、前記音源が音を発する方向が前記割当範囲の中心方向に対応する前記集音装置が存在しない場合、前記音源が音を発する方向に沿った集音が可能であり、前記音源との距離が最も近い前記集音装置を前記対象装置として選択する
     情報処理装置。
  7.  請求項1に記載の情報処理装置であって、
     前記情報取得部は、複数の音源ごとに前記音源情報を取得し、
     前記集音制御部は、前記複数の音源ごとの前記音源情報に基づいて、前記複数の音源ごとに前記対象装置をそれぞれ選択する
     情報処理装置。
  8.  請求項7に記載の情報処理装置であって、
     前記集音制御部は、処理対象の音源が発する直接音を集音し前記処理対象とは異なる他の音源が発する直接音を集音しないように前記集音方向を設定可能な前記集音装置を前記対象装置として選択する
     情報処理装置。
  9.  請求項1に記載の情報処理装置であって、さらに、
     前記少なくとも1つの対象装置の出力に基づいて、前記音源が発する音を表す音データを生成する集音処理部を具備する
     情報処理装置。
  10.  請求項9に記載の情報処理装置であって、
     前記複数の集音装置は、予め集音方向が設定された複数の候補装置を含み、
     前記集音制御部は、前記複数の候補装置から前記対象装置を選択し、
     前記集音処理部は、前記対象装置として選択されない候補装置を集音状態で待機させる
     情報処理装置。
  11.  請求項9に記載の情報処理装置であって、
     前記集音制御部は、単一の前記音源について、前記複数の集音装置から複数の対象装置を選択する
     情報処理装置。
  12.  請求項11に記載の情報処理装置であって、
     前記集音処理部は、前記複数の対象装置により集音されたデータを合成して、前記音源の前記音データを生成する
     情報処理装置。
  13.  請求項9に記載の情報処理装置であって、
     前記音源は、発話者であり、
     前記音源が音を発する方向は、前記発話者の発話方向である
     情報処理装置。
  14.  請求項13に記載の情報処理装置であって、
     前記情報取得部は、前記発話者を撮影した画像データに基づいて、前記発話者に関するボーン検出を実行して前記発話者の発話方向を推定する
     情報処理装置。
  15.  請求項13に記載の情報処理装置であって、
     前記情報取得部は、前記発話者のジェスチャーを検出し、
     前記集音処理部は、前記発話者のジェスチャーに応じて、前記発話者の音声を集音する集音処理を制御する
     情報処理装置。
  16.  請求項15に記載の情報処理装置であって、
     前記集音処理部は、前記発話者が手を挙げるジェスチャーが検出された場合、前記発話者に対する前記集音処理を優先して実行し、前記発話者が手で口を遮るジェスチャーが検出された場合、前記発話者に対する前記集音処理を停止する
     情報処理装置。
  17.  請求項13に記載の情報処理装置であって、
     前記集音処理部は、前記対象装置により集音されたデータから、前記発話者の音声と、前記発話者の所作音とを分離する
     情報処理装置。
  18.  請求項1に記載の情報処理装置であって、
     前記集音装置は、複数のマイクが配置されたマイクアレイであり、
     前記集音方向は、前記マイクアレイに関するビームフォーミング処理で設定されるビームの方向である
     情報処理装置。
  19.  音源の位置と前記音源が音を発する方向とを示す音源情報を取得し、
     前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択する
     ことをコンピュータシステムが実行する情報処理方法。
  20.  音源の位置と前記音源が音を発する方向とを示す音源情報を取得するステップと、
     前記音源情報に基づいて、前記音源の周辺に配置され集音方向を設定可能な複数の集音装置から、前記音源が発する音の集音に用いる少なくとも1つの対象装置を選択するステップと
     をコンピュータシステムに実行させるプログラム。
PCT/JP2022/034914 2021-10-01 2022-09-20 情報処理装置、情報処理方法、及びプログラム WO2023054047A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021162852A JP2023053670A (ja) 2021-10-01 2021-10-01 情報処理装置、情報処理方法、及びプログラム
JP2021-162852 2021-10-01

Publications (1)

Publication Number Publication Date
WO2023054047A1 true WO2023054047A1 (ja) 2023-04-06

Family

ID=85782523

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/034914 WO2023054047A1 (ja) 2021-10-01 2022-09-20 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2023053670A (ja)
WO (1) WO2023054047A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015170368A1 (ja) * 2014-05-09 2015-11-12 パナソニックIpマネジメント株式会社 指向性制御装置、指向性制御方法、記憶媒体及び指向性制御システム
WO2017098772A1 (ja) * 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017175598A (ja) * 2016-03-22 2017-09-28 パナソニックIpマネジメント株式会社 収音装置および収音方法
JP2020013340A (ja) * 2018-07-18 2020-01-23 パナソニックIpマネジメント株式会社 無人飛行体、情報処理方法およびプログラム
JP2021141424A (ja) * 2020-03-04 2021-09-16 富士フイルムビジネスイノベーション株式会社 表示システム、表示制御装置及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015170368A1 (ja) * 2014-05-09 2015-11-12 パナソニックIpマネジメント株式会社 指向性制御装置、指向性制御方法、記憶媒体及び指向性制御システム
WO2017098772A1 (ja) * 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017175598A (ja) * 2016-03-22 2017-09-28 パナソニックIpマネジメント株式会社 収音装置および収音方法
JP2020013340A (ja) * 2018-07-18 2020-01-23 パナソニックIpマネジメント株式会社 無人飛行体、情報処理方法およびプログラム
JP2021141424A (ja) * 2020-03-04 2021-09-16 富士フイルムビジネスイノベーション株式会社 表示システム、表示制御装置及びプログラム

Also Published As

Publication number Publication date
JP2023053670A (ja) 2023-04-13

Similar Documents

Publication Publication Date Title
CN106653041B (zh) 音频信号处理设备、方法和电子设备
EP3440538B1 (en) Spatialized audio output based on predicted position data
JP6101989B2 (ja) 拡張現実環境における信号増強ビーム形成
CN107534725B (zh) 一种语音信号处理方法及装置
CN105874408B (zh) 用手势交互的可穿戴式空间音频系统
KR101797804B1 (ko) 사운드 필드의 제스처 조종을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들
US10027888B1 (en) Determining area of interest in a panoramic video or photo
US6005610A (en) Audio-visual object localization and tracking system and method therefor
TW201120469A (en) Method, computer readable storage medium and system for localizing acoustic source
US20190200158A1 (en) Dynamic augmentation of real-world sounds into a virtual reality sound mix
US11496830B2 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
JP2003251583A (ja) ロボット視聴覚システム
CN112637529B (zh) 一种录像处理方法、装置、存储介质及电子设备
JP2011071702A (ja) 収音処理装置、収音処理方法、及びプログラム
US20230088530A1 (en) Sound-generating device, display device, sound-generating controlling method, and sound-generating controlling device
US9756421B2 (en) Audio refocusing methods and electronic devices utilizing the same
US20210092545A1 (en) Audio processing
CN113676592A (zh) 录音方法、装置、电子设备及计算机可读介质
JP2004198656A (ja) ロボット視聴覚システム
CN113853529A (zh) 用于空间音频捕获的装置和相关方法
WO2023054047A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6742216B2 (ja) 音響処理システム、音響処理方法、プログラム
KR101542647B1 (ko) 화자 검출을 이용한 오디오 신호 처리 방법 및 장치
KR20190016683A (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
US9992532B1 (en) Hand-held electronic apparatus, audio video broadcasting apparatus and broadcasting method thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22875918

Country of ref document: EP

Kind code of ref document: A1