WO2017061278A1

WO2017061278A1 - 信号処理装置、信号処理方法及びコンピュータプログラム

Info

Publication number: WO2017061278A1
Application number: PCT/JP2016/077869
Authority: WO
Inventors: 稀淳金; 俊一笠原; 将治吉野; 稲見　昌彦; 孝太南澤; 裕太杉浦
Original assignee: ソニー株式会社
Priority date: 2015-10-09
Filing date: 2016-09-21
Publication date: 2017-04-13
Also published as: EP3361756B1; JPWO2017061278A1; CN108141693A; JP6897565B2; US10674304B2; CN108141693B; EP3361756A1; EP3361756A4; US20180352361A1

Abstract

【課題】実空間中で放たれた音に、実空間とは異なる音響特性を与えることで、実空間と異なる環境を実空間に再現させることが可能な信号処理装置を提供する。【解決手段】集音されたユーザの周囲音を、異なる音響特性の空間で前記ユーザに聴取させるための所定の音響特性を、再生されているコンテンツまたはユーザの行動に応じて決定して、決定した音響特性を前記周囲音に加える制御部を備える、信号処理装置が提供される。

Description

信号処理装置、信号処理方法及びコンピュータプログラム

　本開示は、信号処理装置、信号処理方法及びコンピュータプログラムに関する。

　聴取者に臨場感のある音を聴取させるための技術が従前より存在する。聴取者に臨場感のある音を聴取させるために、例えば、コンテンツ内の音声を立体再生したり、コンテンツ内の音に対してある一定の音響特性を付加して再生したりされている。立体再生の技術としては、例えば５．１チャンネルや７．１チャンネル等のサラウンドオーディオを生成したり、複数の音声モード（サッカースタジアムモード、コンサートホールモードなど）を切り替えて再生したりする技術がある。後者のモード切替のために、空間特性を記録して、コンテンツ中の音にエフェクトを加えることは行われてきた（例えば特許文献１参照）。

特開平６－１８６９６６号公報

　しかし、上述した技術は、いずれもコンテンツ中の音をどのように再生するかという点にとどまっている。実空間中で放たれた音は、あくまでその実空間での音響特性に従って反響などがなされるので、コンテンツ中の音をいかに臨場感があるように再生しても、実空間とコンテンツ空間とが分離される感覚を聴取者が覚えてしまう。

　そこで、本開示では、実空間中で放たれた音に、実空間とは異なる音響特性を与えることで、実空間と異なる環境を実空間に再現させることが可能な、新規かつ改良された信号処理装置、信号処理方法及びコンピュータプログラムを提案する。

　本開示によれば、集音されたユーザの周囲音を、異なる音響特性の空間で前記ユーザに聴取させるための所定の音響特性を、再生されているコンテンツまたはユーザの行動に応じて決定して、決定した音響特性を前記周囲音に加える制御部を備える、信号処理装置が提供される。

　また本開示によれば、集音されたユーザの周囲音を、異なる音響特性の空間で前記ユーザに聴取させるための所定の音響特性を、再生されているコンテンツまたはユーザの行動に応じて決定して、決定した音響特性を前記周囲音に加える処理をプロセッサが実行することを含む、信号処理方法が提供される。

　また本開示によれば、集音されたユーザの周囲音を、異なる音響特性の空間で前記ユーザに聴取させるための所定の音響特性を、再生されているコンテンツまたはユーザの行動に応じて決定して、決定した音響特性を前記周囲音に加えることをコンピュータに実行させる、コンピュータプログラムが提供される。

　以上説明したように本開示によれば、実空間中で放たれた音に、実空間とは異なる音響特性を与えることで、実空間と異なる環境を実空間に再現させることが可能な、新規かつ改良された信号処理装置、信号処理方法及びコンピュータプログラムを提供することが出来る。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施の形態の概要について説明する説明図である。本開示の実施の形態の概要について説明する説明図である。信号処理装置の第１の構成例を示す説明図である。信号処理装置の第１の動作例を示す流れ図である。信号処理装置の第２の構成例を示す説明図である。信号処理装置の第２の動作例を示す流れ図である。信号処理装置の第３の構成例を示す説明図である。信号処理装置の第３の動作例を示す流れ図である。信号処理装置の第４の構成例を示す説明図である。信号処理装置の第４の動作例を示す流れ図である。信号処理装置の第５の構成例を示す説明図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の実施の形態
　　１．１．概要
　　１．２．第１の構成例及び動作例
　　１．３．第２の構成例及び動作例
　　１．４．第３の構成例及び動作例
　　１．５．第４の構成例及び動作例
　　１．６．第５の構成例
　　１．７．変形例
　２．まとめ

　＜１．本開示の実施の形態＞
　［１．１．概要］
　まず、本開示の実施の形態の概要について説明する。図１は、本開示の実施の形態の概要について説明する説明図である。

　図１に示した信号処理装置１００は、マイク１０が置かれている物理空間（現実空間）で発せられた音に、他の空間の音響特性を加える信号処理を行う装置である。現実空間で発せられた音に、他の空間の音響特性を加える信号処理を行うことで、信号処理装置１００は、現実空間に他の空間を再現し、または現実空間を他の空間で拡張する効果を与えることができる。

　テーブル１１の上に置かれているマイク１０は、現実空間で発せられた音、例えば人間の会話の音や、テーブル１１に物が置かれたときの音を集音する。マイク１０は、集音した音を信号処理装置１００に出力する。

　信号処理装置１００は、マイク１０が集音した音に対して、他の空間の音響特性を加える信号処理を行う。信号処理装置１００は、例えば現実空間に置かれている表示装置２０が出力しているコンテンツから、他の空間の音響特性を特定し、マイク１０が集音した音に対してその音響特性を加える。そして信号処理装置１００は、信号処理後の信号をスピーカ１２に出力する。スピーカ１２は、例えばテーブル１１の背面などに置かれる。

　例えば、表示装置２０が出力しているコンテンツが洞窟の中のシーンである場合に、現実空間にいる人間が音を発すると、信号処理装置１００は、そのコンテンツ中の洞窟と同じように、発した音が反響するような音響特性を加える。

　また例えば、表示装置２０が出力しているコンテンツがコンサート映像である場合に、現実空間にいる人間が音を発すると、信号処理装置１００は、そのコンテンツ中のコンサートホールと同じように、発した音が反響するような音響特性を加える。なお、映像を表示しなくても、コンサート音楽を再生する場合も、信号処理装置１００は、同様に空間の再現が可能である。

　また例えば、表示装置２０が出力しているコンテンツが宇宙映画である場合に、現実空間にいる人間が音を発すると、信号処理装置１００は、例えばその音と逆位相の音をエフェクトとして付加することで、実際に発した音を聞こえにくくし、真空の宇宙空間のような空間を再現することができる。

　また例えば、表示装置２０が出力しているコンテンツが水面をメインにしたコンテンツである場合に、現実空間にいる人間が音を発すると、信号処理装置１００は、現実空間で発した音に、物が水面に落ちたような残響音を付加することで水面空間を再現する。また例えば、表示装置２０が出力しているコンテンツが水中空間の映像である場合に、現実空間にいる人間が音を発すると、信号処理装置１００は、水中で音が発せられたような残響を付加する。

　また例えば、表示装置２０が出力しているコンテンツがバーチャル空間のコンテンツ、例えばゲームコンテンツである場合に、現実空間にいる人間が音を発すると、信号処理装置１００は、そのバーチャル空間の音響特性を、物理空間で発した音に適用して出力する。

　例えば、ゲームコンテンツ中の映像が洞窟の映像だった場合、信号処理装置１００は、まるで洞窟空間にいるかのように、現実空間の音を反響させる。また例えば、ゲームコンテンツ中の映像が水中の映像だった場合、信号処理装置１００は、まるで水中にいるかのように、現実空間の音を反響させる。また例えば、ゲームコンテンツ中の映像がＳＦ（Ｓｃｉｅｎｃｅ　Ｆｉｃｔｉｏｎ）の映像だった場合、信号処理装置１００は、現実空間で発せられた音に、コンテンツに登場するキャラクタの呼吸音等を残響として付加して出力する。信号処理装置１００は、このようにバーチャル空間の音響特性を、物理空間で発した音に適用して出力することで、現実空間をバーチャル空間に拡張することができる。

　信号処理装置１００は、表示装置２０が出力しているコンテンツのシーンごとに再現する空間を動的に切り替えてもよい。信号処理装置１００は、表示装置２０が出力しているコンテンツのシーンに連動して、現実空間で発せられた音に付加する音響特性を動的に切り替えることで、例えば、１つのコンテンツの中でもシーンが切り替わるごとに、そのシーンと同一の空間を、現実空間にいる人間に体験させ続けることができる。

　例えば、表示装置２０が出力しているコンテンツが映画で、その映画の中で水中のシーンになると、信号処理装置１００は、水中にいるかのような音響特性を与え、シーンが切り替わって洞窟の中のシーンになると、信号処理装置１００は、洞窟の中にいるかのような音響特性を与える。

　信号処理装置１００によって信号処理が施された音をスピーカ１２が出力することで、現実空間に位置する人間は、その現実空間で発せられた音を、あたかも表示装置２０が出力しているコンテンツにおける空間で発せられた音のように聴取することが出来る。

　このように、信号処理装置１００は、現実空間で発せられた音を、あたかも表示装置２０が出力しているコンテンツにおける空間で発せられた音のように聴取させる信号処理を実行する。なお、図１では、テーブル１１の上にマイク１０が置かれ、テーブル１１の背面にスピーカ１２が設けられている状態を図示したが、本開示は係る例に限定されるものではない。例えば、マイク１０やスピーカ１２は、表示装置２０に内蔵されていても良い。さらに言えば、マイク１０やスピーカ１２は、表示装置２０が置かれている部屋と同じ部屋に置かれていれば良い。

　図２は、本開示の実施の形態の概要について説明する説明図である。図２に示したのは、例えばスマートフォンのような機器として構成されている信号処理装置１００が、信号処理装置１００で再生中のコンテンツに基づいて、他の空間の音響特性を加える処理を行う際のシステムの構成例である。

　聴取者が、信号処理装置１００に接続したイヤホン１２ａ、１２ｂを耳に装着しており、イヤホン１２ａ、１２ｂに設けられているマイク１０ａ、１０ｂが現実空間の音を集音すると、信号処理装置１００は、マイク１０ａ、１０ｂが集音した音に対する信号処理を実行する。この信号処理は、信号処理装置１００で再生中のコンテンツに基づいて、他の空間の音響特性を加える処理である。

　マイク１０ａ、１０ｂは、聴取者自身が発した声や、聴取者の周囲で発せられた音を集音する。信号処理装置１００は、マイク１０ａ、１０ｂが集音した現実空間の音に対して、他の空間の音響特性を加える信号処理を行い、その信号処理後の音をイヤホン１２ａ、１２ｂから出力する。

　例えば電車の中という現実空間で、聴取者が信号処理装置１００を使用してコンサートのライブ音源を聴いている場合に、信号処理装置１００は、現実空間（電車の中）にいる周囲の人の声や物音に対して、コンサートホールの音響特性を加えてイヤホン１２ａ、１２ｂから出力する。信号処理装置１００は、現実空間（電車の中）にいる周囲の人の声や物音に対して、コンサートホールの音響特性を加えて出力することで、電車の中にいる他の人も含めて、コンサートホール空間にいる人として、コンサートホール空間を再現できる。

　マイク１０ａ、１０ｂにより音を記録し、さらに音を記録した場所の空間の音響特性を付加してコンテンツを作り込んでもよい。信号処理装置１００は、実際にバイノーラルな立体音として音を記録した場所の空間を感じると同時に、現実空間で発せられた音も、その音を記録した場所の音響特性を加えて出力することで、よりリアルな空間を再現する。

　複数人で同じコンテンツを視聴している場合であっても、信号処理装置１００ごとに現実空間で発せられた音に対して付加する音響特性を切り替えることができる。信号処理装置１００は、複数人が同じ現実空間で同じコンテンツを視聴しているにもかかわらず、異なる音響特性が現実空間で発せられた音に対して付加されるので、聴取者毎に空間を感じることを可能にする。

　以上、本開示の実施の形態の概要について説明した。続いて、本開示の実施の形態の構成例及び動作例について、いくつか例示して説明する。

　［１．２．第１の構成例及び動作例］
　まず、本開示の実施の形態に係る信号処理装置１００の第１の構成例及び動作例を説明する。図３は、本開示の実施の形態に係る信号処理装置１００の第１の構成例を示す説明図である。図３に示した第１の構成例は、（表示装置２０、または信号処理装置１００で）再生中のコンテンツに、現実空間の音に対するエフェクトのパラメータやエフェクト名などのメタ情報を予め付与しておき、そのコンテンツからメタ情報を抽出することで、現実空間の音に対するエフェクト処理のパラメータを設定するものである。

　図３に示したように、信号処理装置１００は、メタ情報抽出部１１０と、エフェクト設定部１２０と、を含んで構成される。

　メタ情報抽出部１１０は、再生中のコンテンツからメタ情報を抽出する。メタ情報抽出部１１０は、メタ情報として例えばコンテンツに予め付与されているエフェクトのパラメータや、エフェクト名等のメタ情報を抽出する。メタ情報抽出部１１０は、抽出したメタ情報をエフェクト設定部１２０に出力する。

　メタ情報抽出部１１０は、メタ情報の抽出を、所定の間隔で実行しても良く、メタ情報が切り替わったことを検出した時点で実行しても良い。

　エフェクト設定部１２０は、本開示の制御部の一例であり、現実空間で発せられた音に対してエフェクト処理を行うことで、現実空間で発せられた音に、再生中のコンテンツにおける他の空間の音響特性を加える信号処理を行う。そしてエフェクト設定部１２０は、他の空間の音響特性を加える信号処理を行う際に、メタ情報抽出部１１０が抽出したメタ情報を用いて現実空間で発せられた音に対するエフェクト処理のパラメータを設定する。

　例えば、メタ情報抽出部１１０が出力したメタ情報がエフェクトのパラメータであれば、エフェクト設定部１２０は、そのパラメータに基づいて現実空間で発せられた音に対するエフェクト処理のパラメータを設定する。また例えば、メタ情報抽出部１１０が出力したメタ情報がエフェクト名であれば、エフェクト設定部１２０は、そのエフェクト名に基づいて現実空間で発せられた音に対するエフェクト処理のパラメータを設定する。

　エフェクト設定部１２０は、例えば、洞窟の中にいるような効果を与える場合は、エフェクトとして、現実空間で発せられた音に対してエコーを掛けて、音の残存時間を長くする。エフェクト設定部１２０は、また例えば、水中にいるような効果を与える場合は、現実空間で発せられた音に対して水泡が発せられるようなエフェクトを掛ける。

　エフェクト設定部１２０は、メタ情報抽出部１１０が抽出したメタ情報を用いて現実空間で発せられた音に対するエフェクト処理のパラメータを設定すると、そのパラメータを用いて現実空間で発せられた音に対するエフェクト処理を実行し、エフェクト処理後の音を出力する。

　信号処理装置１００は、図３に示したような構成を有することで、（表示装置２０、または信号処理装置１００で）再生中のコンテンツに予め付与されているメタ情報に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。

　図４は、本開示の実施の形態に係る信号処理装置１００の第１の動作例を示す説明図である。図４に示した第１の動作例は、（表示装置２０、または信号処理装置１００で）再生中のコンテンツに、現実空間の音に対するエフェクトのパラメータやエフェクト名などのメタ情報を予め付与しておき、そのコンテンツからメタ情報を抽出することで、現実空間の音に対するエフェクト処理のパラメータを設定するものである。

　信号処理装置１００は、まず現実空間で発せられた周囲の環境音を継続的に取得する（ステップＳ１０１）。環境音の取得は、例えば、図１で示したマイク１０や、図２で示したマイク１０ａ、１０ｂが行う。

　信号処理装置１００は、再生中のコンテンツからメタ情報を抽出する（ステップＳ１０２）。信号処理装置１００は、メタ情報として例えばコンテンツに予め付与されているエフェクトのパラメータや、エフェクト名等のメタ情報を抽出する。信号処理装置１００は、メタ情報の抽出を、所定の間隔で実行しても良く、メタ情報が切り替わったことを検出した時点で実行しても良い。

　そして信号処理装置１００は、再生中のコンテンツからメタ情報を抽出すると、上記ステップＳ１０１で取得した環境音に対して実行するエフェクト処理のパラメータを、上記ステップＳ１０２で取得したメタ情報を用いて設定する（ステップＳ１０３）。信号処理装置１００は、エフェクト処理のパラメータを設定すると、そのパラメータを用いて上記ステップＳ１０１で取得した環境音に対するエフェクト処理を実行して、エフェクト処理後の音を出力する。

　信号処理装置１００は、図４に示したような動作を実行することで、（表示装置２０、または信号処理装置１００で）再生中のコンテンツに予め付与されているメタ情報に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。

　［１．３．第２の構成例及び動作例］
　次に、本開示の実施の形態に係る信号処理装置１００の第２の構成例及び動作例を説明する。図５は、本開示の実施の形態に係る信号処理装置１００の第２の構成例を示す説明図である。図５に示した第２の構成例は、（表示装置２０、または信号処理装置１００で）再生中のコンテンツに対する画像認識処理を行って、その画像認識処理の結果から、現実空間の音に対するエフェクト処理のパラメータを設定するものである。

　図５に示したように、信号処理装置１００は、画像認識部１１２と、エフェクト設定部１２０と、を含んで構成される。

　画像認識部１１２は、再生中のコンテンツに対する画像認識処理を実行する。画像認識処理の結果から、現実空間の音に対するエフェクト処理のパラメータが設定されるので、画像認識部１１２は、再生中のコンテンツがどのような場所のシーンであるかを判別できる程度の画像認識処理を行う。画像認識部１１２は、再生中のコンテンツに対する画像認識処理を実行すると、画像認識処理の結果をエフェクト設定部１２０に出力する。

　例えば、映像中に海や川、湖などが多く含まれていれば、画像認識部１１２は、再生中のコンテンツが水辺に近い場所のシーンや、水中にいるシーンであると認識出来る。また例えば、映像が暗く、その映像中に岩肌などが多く含まれていれば、画像認識部１１２は、再生中のコンテンツが洞窟の中のシーンであると認識出来る。

　画像認識部１１２は、画像認識処理を、毎フレーム実行しても良い。しかし、シーンがフレーム毎に頻繁に切り替わることは極めて稀であろうから、処理負荷の軽減のために、画像認識処理を所定の間隔で実行してもよい。

　エフェクト設定部１２０は、現実空間で発せられた音に対してエフェクト処理を行うことで、現実空間で発せられた音に、再生中のコンテンツにおける他の空間の音響特性を加える信号処理を行う。そしてエフェクト設定部１２０は、他の空間の音響特性を加える信号処理を行う際に、画像認識部１１２による画像認識処理の結果を用いて現実空間で発せられた音に対するエフェクト処理のパラメータを設定する。

　例えば、画像認識部１１２による画像認識処理の結果、再生中のコンテンツが水辺に近い場所のシーンや、水中にいるシーンであると認識された場合は、エフェクト設定部１２０は、物が水面に落ちたような残響音を付加したり、水中で音が発せられたような残響を付加したりするようなエフェクト処理のパラメータを設定する。

　また例えば、画像認識部１１２による画像認識処理の結果、再生中のコンテンツが洞窟の中のシーンであると認識された場合は、エフェクト設定部１２０は、洞窟の中にいるかのような残響を付加するようなエフェクト処理のパラメータを設定する。

　エフェクト設定部１２０は、画像認識部１１２による画像認識処理の結果を用いて現実空間で発せられた音に対するエフェクト処理のパラメータを設定すると、そのパラメータを用いて現実空間で発せられた音に対するエフェクト処理を実行し、エフェクト処理後の音を出力する。

　信号処理装置１００は、図５に示したような構成を有することで、再生中のコンテンツの内容に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。すなわち、信号処理装置１００は、図５に示したような構成を有することで、メタ情報が付加されていないコンテンツであっても、再生中のコンテンツの内容に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。

　図６は、本開示の実施の形態に係る信号処理装置１００の第２の動作例を示す説明図である。図６に示した第２の動作例は、（表示装置２０、または信号処理装置１００で）再生中のコンテンツに対する画像認識処理を行って、その画像認識処理の結果から、現実空間の音に対するエフェクト処理のパラメータを設定するものである。

　信号処理装置１００は、まず現実空間で発せられた周囲の環境音を継続的に取得する（ステップＳ１１１）。環境音の取得は、例えば、図１で示したマイク１０や、図２で示したマイク１０ａ、１０ｂが行う。

　信号処理装置１００は、再生中のコンテンツに対して画像を認識する（ステップＳ１１２）。例えば、映像中に海や川、湖などが多く含まれていれば、信号処理装置１００は、再生中のコンテンツが水辺に近い場所のシーンや、水中にいるシーンであると認識出来る。また例えば、映像が暗く、その映像中に岩肌などが多く含まれていれば、信号処理装置１００は、再生中のコンテンツが洞窟の中のシーンであると認識出来る。

　そして信号処理装置１００は、再生中のコンテンツに対して画像認識処理を行うと、上記ステップＳ１１１で取得した環境音に対して実行するエフェクト処理のパラメータを、上記ステップＳ１１２での画像認識処理の結果を用いて設定する（ステップＳ１１３）。信号処理装置１００は、エフェクト処理のパラメータを設定すると、そのパラメータを用いて上記ステップＳ１１１で取得した環境音に対するエフェクト処理を実行して、エフェクト処理後の音を出力する。

　信号処理装置１００は、図６に示したような動作を実行することで、再生中のコンテンツの内容に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。すなわち、信号処理装置１００は、図６に示したような動作を実行することで、メタ情報が付加されていないコンテンツであっても、再生中のコンテンツの内容に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。

　［１．４．第３の構成例及び動作例］
　次に、本開示の実施の形態に係る信号処理装置１００の第３の構成例及び動作例を説明する。図７は、本開示の実施の形態に係る信号処理装置１００の第２の構成例を示す説明図である。図７に示した第３の構成例は、（表示装置２０、または信号処理装置１００で）再生中のコンテンツに対する音声認識処理を行って、その音声認識処理の結果から、現実空間の音に対するエフェクト処理のパラメータを設定するものである。

　図７に示したように、信号処理装置１００は、音声認識部１１４と、エフェクト設定部１２０と、を含んで構成される。

　音声認識部１１４は、再生中のコンテンツに対する音声認識処理を実行する。音声認識処理の結果から、現実空間の音に対するエフェクト処理のパラメータが設定されるので、音声認識部１１４は、再生中のコンテンツがどのような場所のシーンであるかを判別できる程度の音声認識処理を行う。音声認識部１１４は、再生中のコンテンツに対する音声認識処理を実行すると、音声認識処理の結果をエフェクト設定部１２０に出力する。

　例えば、音声中に水に物を落とした場合に発生する反響音が存在することがわかれば、音声認識部１１４は、再生中のコンテンツが水辺に近い場所のシーンであると認識出来る。また例えば、音声中に洞窟の反響音が存在することがわかれば、音声認識部１１４は、再生中のコンテンツが洞窟の中のシーンであると認識出来る。

　エフェクト設定部１２０は、現実空間で発せられた音に対してエフェクト処理を行うことで、現実空間で発せられた音に、再生中のコンテンツにおける他の空間の音響特性を加える信号処理を行う。そしてエフェクト設定部１２０は、他の空間の音響特性を加える信号処理を行う際に、音声認識部１１４による音声認識処理の結果を用いて現実空間で発せられた音に対するエフェクト処理のパラメータを設定する。

　例えば、音声認識部１１４による音声認識処理の結果、再生中のコンテンツが水辺に近い場所のシーンであると認識された場合は、エフェクト設定部１２０は、物が水面に落ちたような残響音を付加するようなエフェクト処理のパラメータを設定する。

　また例えば、音声認識部１１４による画像認識処理の結果、再生中のコンテンツが洞窟の中のシーンであると認識された場合は、エフェクト設定部１２０は、洞窟の中にいるかのような残響を付加するようなエフェクト処理のパラメータを設定する。

　エフェクト設定部１２０は、音声認識部１１４による画像認識処理の結果を用いて現実空間で発せられた音に対するエフェクト処理のパラメータを設定すると、そのパラメータを用いて現実空間で発せられた音に対するエフェクト処理を実行し、エフェクト処理後の音を出力する。

　信号処理装置１００は、図７に示したような構成を有することで、再生中のコンテンツの内容に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。すなわち、信号処理装置１００は、図７に示したような構成を有することで、メタ情報が付加されていないコンテンツであっても、再生中のコンテンツの内容に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。

　図８は、本開示の実施の形態に係る信号処理装置１００の第２の動作例を示す説明図である。図８に示した第３の動作例は、（表示装置２０、または信号処理装置１００で）再生中のコンテンツに対する音声認識処理を行って、その音声認識処理の結果から、現実空間の音に対するエフェクト処理のパラメータを設定するものである。

　信号処理装置１００は、まず現実空間で発せられた周囲の環境音を継続的に取得する（ステップＳ１２１）。環境音の取得は、例えば、図１で示したマイク１０や、図２で示したマイク１０ａ、１０ｂが行う。

　信号処理装置１００は、再生中のコンテンツに対して音声を認識する（ステップＳ１２２）。例えば、音声中に水に物を落とした場合に発生する反響音が存在することがわかれば、信号処理装置１００は、再生中のコンテンツが水辺に近い場所のシーンであると認識出来る。また例えば、音声中に洞窟の反響音が存在することがわかれば、信号処理装置１００は、再生中のコンテンツが洞窟の中のシーンであると認識出来る。

　そして信号処理装置１００は、再生中のコンテンツに対して音声認識処理を行うと、上記ステップＳ１２１で取得した環境音に対して実行するエフェクト処理のパラメータを、上記ステップＳ１２２での音声認識処理の結果を用いて設定する（ステップＳ１２３）。信号処理装置１００は、エフェクト処理のパラメータを設定すると、そのパラメータを用いて上記ステップＳ１２１で取得した環境音に対するエフェクト処理を実行して、エフェクト処理後の音を出力する。

　信号処理装置１００は、図８に示したような動作を実行することで、再生中のコンテンツの内容に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。すなわち、信号処理装置１００は、図８に示したような動作を実行することで、メタ情報が付加されていないコンテンツであっても、再生中のコンテンツの内容に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。

　信号処理装置１００は、ここまで示したメタデータの抽出、映像認識、音声認識を組み合わせて、コンテンツ中のシーンがどのような場所であるかどうかを判断しても良い。また、コンテンツが楽曲データ等の映像が無いコンテンツである場合は、信号処理装置１００は、メタデータの抽出と音声認識とを組み合わせて、現実空間の音に対するエフェクト処理のパラメータを設定してもよい。

　［１．５．第４の構成例及び動作例］
　次に、本開示の実施の形態に係る信号処理装置１００の第４の構成例及び動作例を説明する。ここまでの説明では、いずれもエフェクト設定部１２０が、再生中のコンテンツの内容に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定していた。エフェクト設定部１２０は、現実空間の音に対するエフェクト処理のパラメータを設定する際に、ネットワーク上のサーバから、エフェクト処理のパラメータを検索してもよい。

　図９は、本開示の実施の形態に係る信号処理装置１００の第４の構成例を示す説明図である。図９に示したように、信号処理装置１００は、メタ情報抽出部１１０と、エフェクト設定部１２０と、を含んで構成される。

　メタ情報抽出部１１０は、図３に示した第１の構成例と同様に、再生中のコンテンツからメタ情報を抽出する。メタ情報抽出部１１０は、メタ情報として例えばコンテンツに予め付与されているエフェクトのパラメータや、エフェクト名等のメタ情報を抽出する。メタ情報抽出部１１０は、抽出したメタ情報をエフェクト設定部１２０に出力する。

　エフェクト設定部１２０は、現実空間で発せられた音に対してエフェクト処理を行うことで、現実空間で発せられた音に、再生中のコンテンツにおける他の空間の音響特性を加える信号処理を行う。そしてエフェクト設定部１２０は、他の空間の音響特性を加える信号処理を行う際に、図３に示した第１の構成例と同様に、メタ情報抽出部１１０が抽出したメタ情報を用いて現実空間で発せられた音に対するエフェクト処理のパラメータを設定する。

　この第４の構成例では、エフェクト設定部１２０は、現実空間で発せられた音に対するエフェクト処理のパラメータを設定する際に、ネットワーク上のサーバに置かれているデータベース２００を検索して、エフェクト処理のパラメータを取得しても良い。データベース２００に格納される情報のフォーマットは特定のものに限定されるものでは無いが、エフェクト名やシーンなどの情報からパラメータが抽出できるように情報がデータベース２００に格納されていることが望ましい。

　例えば、メタ情報抽出部１１０が出力したメタ情報がエフェクト名であれば、エフェクト設定部１２０は、そのエフェクト名に基づいて現実空間で発せられた音に対するエフェクト処理のパラメータを設定するが、エフェクト名に対応するパラメータをエフェクト設定部１２０が保持していなければ、エフェクト設定部１２０は、そのエフェクト名に対応するパラメータをデータベース２００から取得する。

　例えば、メタ情報抽出部１１０が出力したメタ情報が、「洞窟の中」というエフェクト名であり、洞窟の中にいるような音響特性を加えるパラメータをエフェクト設定部１２０が保持していなければ、エフェクト設定部１２０は、その洞窟の中にいるような音響特性を加えるエフェクト処理のパラメータをデータベース２００から取得する。

　信号処理装置１００は、図９に示したような構成を有することで、（表示装置２０、または信号処理装置１００で）再生中のコンテンツに予め付与されているメタ情報に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。

　図１０は、本開示の実施の形態に係る信号処理装置１００の第４の動作例を示す説明図である。図１０に示した第４の動作例は、（表示装置２０、または信号処理装置１００で）再生中のコンテンツに、現実空間の音に対するエフェクトのパラメータやエフェクト名などのメタ情報を予め付与しておき、そのコンテンツからメタ情報を抽出することで、現実空間の音に対するエフェクト処理のパラメータを設定するものである。

　信号処理装置１００は、まず現実空間で発せられた周囲の環境音を継続的に取得する（ステップＳ１３１）。環境音の取得は、例えば、図１で示したマイク１０や、図２で示したマイク１０ａ、１０ｂが行う。

　信号処理装置１００は、再生中のコンテンツからメタ情報を抽出する（ステップＳ１３２）。信号処理装置１００は、メタ情報として例えばコンテンツに予め付与されているエフェクトのパラメータや、エフェクト名等のメタ情報を抽出する。信号処理装置１００は、メタ情報の抽出を、所定の間隔で実行しても良く、メタ情報が切り替わったことを検出した時点で実行しても良い。

　信号処理装置１００は、再生中のコンテンツからメタ情報を抽出すると、上記ステップＳ１３１で取得した環境音に対して実行するエフェクト処理のパラメータを、データベース２００から取得する（ステップＳ１３３）。そして信号処理装置１００は、上記ステップＳ１３１で取得した環境音に対して実行するエフェクト処理のパラメータとして、ステップＳ１３３で取得したエフェクト処理のパラメータを設定する（ステップＳ１３４）。信号処理装置１００は、エフェクト処理のパラメータを設定すると、そのパラメータを用いて上記ステップＳ１３１で取得した環境音に対するエフェクト処理を実行して、エフェクト処理後の音を出力する。

　信号処理装置１００は、図１０に示したような動作を実行することで、（表示装置２０、または信号処理装置１００で）再生中のコンテンツに予め付与されているメタ情報に基づいて、現実空間の音に対するエフェクト処理のパラメータを設定することが出来る。

　なお、図９及び図１０に示した例では、再生中のコンテンツからメタ情報を抽出する構成及び動作を示したが、上述の第２の構成例のように再生中のコンテンツに対して映像認識処理を行って、その映像認識の結果に対応するパラメータをエフェクト設定部１２０が保持していなければ、エフェクト設定部１２０は、そのエフェクト名に対応するパラメータをデータベース２００から取得してもよい。

　また、上述の第３の構成例のように再生中のコンテンツに対して音声認識処理を行って、その音声認識の結果に対応するパラメータをエフェクト設定部１２０が保持していなければ、エフェクト設定部１２０は、そのエフェクト名に対応するパラメータをデータベース２００から取得してもよい。

　［１．６．第５の構成例］
　ここまでは、再生中のコンテンツからメタ情報を抽出したり、再生中のコンテンツに対して映像や音声の認識処理を行ったりすることで、エフェクト処理のパラメータを設定する信号処理装置１００の構成例及び動作例を説明した。次の例は、コンテンツに予め音響特性が付与されており、その音響特性に対応するエフェクト処理のパラメータを設定する信号処理装置１００の構成例を説明する。

　図１１は、本開示の実施の形態に係る信号処理装置１００の第５の構成例を示す説明図である。図１１に示したように、信号処理装置１００は、エフェクト設定部１２０を含んで構成される。

　エフェクト設定部１２０は、再生中のコンテンツの１つのチャンネルとして構成されている音響特性の情報を取得し、その音響特性に対応するエフェクト処理のパラメータを設定する。エフェクト設定部１２０は、再生中のコンテンツの音響特性に対応するエフェクト処理のパラメータを設定することで、現実空間の音に対して、よりリアルな再生中のコンテンツの音響特性を加えることが出来る。

　信号処理装置１００は、音響特性の情報が再生中のコンテンツに含まれていなければ、再生中のコンテンツからメタ情報を抽出する処理を実行してもよい。そして再生中のコンテンツにメタ情報が含まれていなければ、信号処理装置１００は、再生中のコンテンツの映像解析処理や音声解析処理を実行してもよい。

　［１．７．変形例］
　上述した信号処理装置１００は、いずれもコンテンツからメタ情報を抽出したり、コンテンツの映像や音声を解析したりすることで、現実空間の音に対するエフェクト処理のパラメータを設定していた。この他にも、例えば信号処理装置１００は、ユーザの行動に応じて現実空間の音に対するエフェクト処理のパラメータを設定してもよい。

　例えば信号処理装置１００は、ユーザにエフェクト処理の内容を選択させても良い。例えば、ユーザが視聴しているコンテンツに洞窟の中のシーンが登場し、ユーザが現実空間の音を洞窟の中のように響かせたいと思った場合、信号処理装置１００は、洞窟の中にいるようなエフェクト処理を行うようユーザが選択出来るようにしても良い。また例えば、ユーザが視聴しているコンテンツに森の中のシーンが登場し、ユーザが現実空間の音を森の中のようにあまり響かせたくないと思った場合、信号処理装置１００は、音を反響させないようなエフェクト処理を行うようユーザが選択出来るようにしても良い。

　また信号処理装置１００は、予め現実空間の音響特性の情報を保持するか、または参照できる状態にしておき、現実空間の音響特性に応じて、現実空間の音に対するエフェクト処理のパラメータを変更してもよい。現実空間の音響特性は、例えばマイク１０で集音された音を解析することで得られる。

　例えば、現実空間が会議室のような音が反響しやすい空間である場合に、信号処理装置１００は、洞窟の中にいるようなエフェクト処理を行うと、現実空間の音が響きすぎてしまうので、現実空間の音が響きすぎないようにパラメータを調整してもよい。また例えば、現実空間が広い部屋のような音が反響しにくい空間である場合に、信号処理装置１００は、洞窟の中にいるようなエフェクト処理を行う際に音が強めに反響するようパラメータを調整してもよい。

　例えば信号処理装置１００は、ユーザが携帯または装着するセンサが出力するセンシングデータに応じて現実空間の音に対するエフェクト処理のパラメータを設定してもよい。信号処理装置１００は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、照度センサ、温度センサ、または気圧センサなどのデータからユーザの行動を認識したり、または他の装置でこれらのセンサのデータから認識されたユーザの行動を取得したりして、そのユーザの行動に基づいて現実空間の音に対するエフェクト処理のパラメータを設定してもよい。

　例えば、上記センサのデータからユーザが集中していると認識出来た場合は、信号処理装置１００は、音を反響させないようなエフェクト処理のパラメータを設定してもよい。なお、行動認識の手法については、例えば特開２０１２－８７７１号公報など多くの文献に記載されているため、詳細な説明は省略する。

　＜２．まとめ＞
　以上説明したように本開示の実施の形態によれば、現実空間において再生されているコンテンツの音響特性を、現実空間で集音された音に加えることで、現実空間において再生されているコンテンツの空間を現実空間にまで拡張させた感覚をコンテンツの視聴者に感じさせることが可能な信号処理装置１００が提供される。

　本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

　また、各装置に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上述した各装置の構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供されることが可能である。また、機能ブロック図で示したそれぞれの機能ブロックをハードウェアまたはハードウェア回路で構成することで、一連の処理をハードウェアまたはハードウェア回路で実現することもできる。

　また上述の説明で用いた機能ブロック図で示したそれぞれの機能ブロックの一部又は全部は、たとえばインターネット等のネットワークを介して接続されるサーバ装置で実現されてもよい。また上述の説明で用いた機能ブロック図で示したそれぞれの機能ブロックの構成は、単独の装置で実現されてもよく、複数の装置が連携するシステムで実現されても良い。複数の装置が連携するシステムには、例えば複数のサーバ装置の組み合わせ、サーバ装置と端末装置との組み合わせ等が含まれ得る。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　集音されたユーザの周囲音を、異なる音響特性の空間で前記ユーザに聴取させるための所定の音響特性を、再生されているコンテンツまたはユーザの行動に応じて決定して、決定した音響特性を前記周囲音に加える制御部を備える、信号処理装置。
（２）
　前記制御部は、再生されているコンテンツに応じて音響特性を決定する場合、前記コンテンツのシーンに応じて音響特性を決定する、前記（１）に記載の信号処理装置。
（３）
　前記制御部は、前記コンテンツの画像または音を解析することで前記コンテンツのシーンを判定する、前記（２）に記載の信号処理装置。
（４）
　前記制御部は、前記コンテンツに付与されたメタデータに基づいて前記コンテンツのシーンを判定する、前記（２）に記載の信号処理装置。
（５）
　前記制御部は、再生されているコンテンツに応じて音響特性を決定する場合、前記コンテンツに付与された音響特性を前記周囲音に加える、前記（１）～（４）のいずれかに記載の信号処理装置。
（６）
　前記制御部は、ユーザの行動に応じて音響特性を決定する場合、前記ユーザが携帯または装着するセンサが出力するセンシングデータに応じて音響特性を決定する、前記（１）に記載の信号処理装置。
（７）
　前記制御部は、ユーザの行動に応じて音響特性を決定する場合、前記ユーザが選択した音響特性を前記周囲音に加える、前記（１）に記載の信号処理装置。
（８）
　前記制御部は、前記周囲音を取得するマイクが置かれている空間の音響特性を考慮して音響特性を決定する、前記（１）～（７）のいずれかに記載の信号処理装置。
（９）
　集音されたユーザの周囲音を、異なる音響特性の空間で前記ユーザに聴取させるための所定の音響特性を、再生されているコンテンツまたはユーザの行動に応じて決定して、決定した音響特性を前記周囲音に加える処理をプロセッサが実行することを含む、信号処理方法。
（１０）
　集音されたユーザの周囲音を、異なる音響特性の空間で前記ユーザに聴取させるための所定の音響特性を、再生されているコンテンツまたはユーザの行動に応じて決定して、決定した音響特性を前記周囲音に加えることをコンピュータに実行させる、コンピュータプログラム。

　１０、１０ａ、１０ｂ　　マイク
　１１　　テーブル
　１２、１２ａ、１２ｂ　　スピーカ
　１００　　信号処理装置

Claims

　集音されたユーザの周囲音を、異なる音響特性の空間で前記ユーザに聴取させるための所定の音響特性を、再生されているコンテンツまたはユーザの行動に応じて決定して、決定した音響特性を前記周囲音に加える制御部を備える、信号処理装置。
　前記制御部は、再生されているコンテンツに応じて音響特性を決定する場合、前記コンテンツのシーンに応じて音響特性を決定する、請求項１に記載の信号処理装置。
　前記制御部は、前記コンテンツの画像または音を解析することで前記コンテンツのシーンを判定する、請求項２に記載の信号処理装置。
　前記制御部は、前記コンテンツに付与されたメタデータに基づいて前記コンテンツのシーンを判定する、請求項２に記載の信号処理装置。
　前記制御部は、再生されているコンテンツに応じて音響特性を決定する場合、前記コンテンツに付与された音響特性を前記周囲音に加える、請求項１に記載の信号処理装置。
　前記制御部は、ユーザの行動に応じて音響特性を決定する場合、前記ユーザが携帯または装着するセンサが出力するセンシングデータに応じて音響特性を決定する、請求項１に記載の信号処理装置。
　前記制御部は、ユーザの行動に応じて音響特性を決定する場合、前記ユーザが選択した音響特性を前記周囲音に加える、請求項１に記載の信号処理装置。
　前記制御部は、前記周囲音を取得するマイクが置かれている空間の音響特性を考慮して音響特性を決定する、請求項１に記載の信号処理装置。
　集音されたユーザの周囲音を、異なる音響特性の空間で前記ユーザに聴取させるための所定の音響特性を、再生されているコンテンツまたはユーザの行動に応じて決定して、決定した音響特性を前記周囲音に加える処理をプロセッサが実行することを含む、信号処理方法。
　集音されたユーザの周囲音を、異なる音響特性の空間で前記ユーザに聴取させるための所定の音響特性を、再生されているコンテンツまたはユーザの行動に応じて決定して、決定した音響特性を前記周囲音に加えることをコンピュータに実行させる、コンピュータプログラム。