WO2022176417A1

WO2022176417A1 - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: WO2022176417A1
Application number: PCT/JP2022/000160
Authority: WO
Inventors: 正幸横山; 淳也鈴木
Original assignee: ソニーグループ株式会社
Priority date: 2021-02-16
Filing date: 2022-01-06
Publication date: 2022-08-25
Also published as: JPWO2022176417A1; US20240040328A1

Abstract

本技術は、静けさが要求される場所に適した空間知覚を行うことができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更が加えられる。

Description

情報処理装置、情報処理方法、及び、プログラム

　本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、静けさが要求される場所に適した空間知覚を行えるようにした情報処理装置、情報処理方法、及び、プログラムに関する。

　特許文献１、２には、実際に放射した検査音に対する反響音により、又は、実測された物体の位置から生成された模擬的な反響音により、視覚障がい者が周囲に状況を知覚するシステムが開示されている。

特開２０１８－７５１７８号公報特開２０１８－７８４４４号公報

　静けさが要求される場所では周囲の空間の状況を知覚するために可聴周波数帯域の検査音を使用することは適さない。

　本技術はこのような状況に鑑みてなされたものであり、静けさが要求される場所に適した空間知覚を行えるようにする。

　本技術の情報処理装置、又は、プログラムは、空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える処理部を有する情報処理装置、又は、そのような情報処理装置として、コンピュータを機能させるためのプログラムである。

　本技術の情報処理方法は、処理部を有する情報処理装置の前記処理部が、空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える情報処理方法である。

　本技術の情報処理装置、情報処理方法、及び、プログラムにおいては、空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更が加えられる。

本技術が適用された音響処理装置の第１の実施の形態の構成例を示す構成図である。可聴域の伝達関数の周波数スペクトル（可聴域IRの周波数スペクトル）を例示した図である。反響音生成部が行う畳み込み処理の様子を例示した図である。図１の音響処理装置の処理手順を例示したフローチャートである。本技術が適用された音響処理装置の第２の実施の形態の構成を例示するブロック図である。反響音データ収集装置の外観構成を例示した図である。反響音データ収集装置の処理手順を示したフローチャートである。図５の音響処理装置の処理手順を例示したフローチャートである。可聴域IR生成部における推論モデルの入出力の様子を表した図である。可聴域IR生成部におけるGANの入出力の様子を表した図である。一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　以下、図面を参照しながら本技術の実施の形態について説明する。

＜音響処理装置の第１の実施の形態＞
　図１は、本技術が適用された音響処理装置の第１の実施の形態の構成例を示す構成図である。

　図１の本実施の形態の音響処理装置１は、例えば、イヤフォン、ヘッドフォン、スピーカ等の電気信号である音信号を音波に変換するオーディオ出力装置を含む。オーディオ出力装置は、音響処理装置１の本体に対して有線又は無線により接続される場合であってよいし、音響処理装置１の本体がオーディオ出力装置に組み込まれる場合であってもよい。本実施の形態では、ステレオ対応のイヤフォンが音響処理装置１の本体に有線で接続されて、音響処理装置１の本体とイヤフォンとで音響処理装置１が構成されているものとする。

　音響処理装置１は、ユーザに対してユーザ周辺の空間の状況を音により知覚させる。

　音響処理装置１は、超音波送信部１１、バイノーラルマイク１２、可聴域IR（Impulse Response：インパルス応答）生成部１３、反響音生成部１４、及び、オーディオ出力部１５を有する。

　超音波送信部１１は、検査波として超音波パルス（信号）を所定時間間隔（所定周期）で空間に放射する。超音波送信部１１は、例えば、ユーザの右耳に装着される右用イヤフォンと左耳に装着される左用イヤフォンのそれぞれに設置された右用スピーカ及び左用スピーカを有する。右用スピーカからは、ユーザの頭部右向きの中心軸を中心にして広指向角の範囲度に超音波パルスが放射される。左用スピーカからは、ユーザの頭部左向きの中心軸を中心にして広指向角の範囲に超音波パルスが放射される。ただし、超音波送信部１１のスピーカは耳以外の部分に配置されていてもよいし、スピーカの数も２つ以外であってもよい。

　超音波送信部１１が放射する超音波パルスは、例えば、40kHz乃至80kHzの超音波周波数帯域の超音波信号からなり、パルス幅が約1msである。

　バイノーラルマイク１２は、超音波送信部１１により空間に放射された超音波パルスに対して、空間に配置された物体で反射（散乱）して戻る超音波インパルス応答信号（以下、超音波IRという）をステレオで受信する。

　バイノーラルマイク１２は、例えば、右用イヤフォンと左用イヤフォンのそれぞれに設置された右用マイクと左用マイクとを有する。右用マイクは、主に超音波送信部１１の右用スピーカから放射された超音波パルスに対する超音波IRを受信する。左用マイクは、主に超音波送信部１１の左用スピーカから放射された超音波パルスに対する超音波IRを受信する。ただし、超音波IRを受信するためのマイクは、耳以外の部分に配置されていてもよいし、マイクの数も２つ以外であってもよい。

　なお、バイノーラルマイク１２は、オーディオ出力装置と同様に、音響処理装置１の本体に対して有線又は無線により接続される場合であってよいし、音響処理装置１の本体がバイノーラルマイク１２に組み込まれる場合であってもよい。

　バイノーラルマイク１２で受信された超音波IRは、可聴域IR生成部１３に供給される。なお、超音波IRは、バイノーラルマイク１２の右用マイクで受信された超音波IR(R)と、左用マイクで受信された超音波IR(L)との２チャネル分からなる。以下、超音波IR(R)と超音波IR(L)とを特に区別しない場合には、単に超音波IRと称する。

　可聴域IR生成部１３は、バイノーラルマイク１２からの超音波IRを可聴域IRに変換する。なお、可聴域IRは、超音波IR(R)から得られる可聴域IR(R)と、超音波IR(L)から得られる可聴域IR(L)との２チャネル分からなる。以下、可聴域IR(R)と可聴域IR(L)とを特に区別しない場合には、単に可聴域IRと称する。

　可聴域IR生成部１３は、バイノーラルマイク１２からの１周期あたりの超音波IRを、例えばFFT（Fast Fourier Transform）で時間領域表現から周波数領域表現（周波数スペクトル）に周波数変換（フーリエ変換）する。

　可聴域IR生成部１３は、超音波IRの周波数スペクトル（周波数領域の超音波IR）を、可聴域（可聴周波数帯域）にシフトし、帯域幅を調整してフィッティングさせる。これによって、超音波パルスを放射した空間における可聴域のインパルス応答信号（可聴域IR）が生成される。ただし、本実施の形態では、可聴域IR生成部１３により生成される可聴域IRは、周波数領域表現の可聴域IRであり、可聴域の伝達関数、又は、単に伝達関数ともいう。

　即ち、可聴域IR生成部１３は、40kHz乃至80kHzの超音波帯域（超音波周波数帯域）の周波数と、20Hz乃至20kHzの可聴域の周波数とを対応付ける。具体的には、超音波帯域の周波数をｘ、可聴域の周波数をｙとすると、次式（１）の関係で、超音波帯域の周波数ｘと可聴域の周波数ｙとが線形的に対応付けられる。

　ｙ＝｛（20000-20）/（80000-40000）｝・ｘ＋（2・20-20000）・・・（１）

　可聴域IR生成部１３は、超音波IRの周波数スペクトルの周波数ｘの周波数成分を、式（１）により対応付けられた可聴域の周波数ｙの周波数成分とする。ただし、超音波帯域の周波数ｘと可聴域の周波数ｙとの式（１）による対応付けは、一例であって、線形的に対応付ける場合に限らない。超音波帯域の周波数ｘと可聴域の周波数ｙとを対応付けるそれぞれの周波数の範囲は、可聴域の20Hz乃至20kHzの範囲と、超音波帯域の40kHz乃至80kHzの範囲とに限らない。例えば、超音波送信部１１から放射される超音波パルスを生成する超音波の周波数が超音波帯域の40kHz乃至80kHzのうちの一部の周波数範囲の場合に、その周波数範囲と、可聴域の20Hz乃至20kHzの範囲とを対応付ける場合であってよい。

　可聴域IR生成部１３は、このようして得られた可聴域の周波数成分に対して、可聴音が実際に空間を伝搬したときの伝搬経路の長さに応じた実際の減衰特性等を反映させるためのイコライジング処理を施す。

　図２は、可聴域IR生成部１３により超音波IRの周波数スペクトルから生成された可聴域の伝達関数の周波数スペクトル（可聴域IRの周波数スペクトル）を例示した図である。

　図２において、周波数スペクトル３１は、超音波IRの周波数スペクトルを表す。横軸は周波数を示し、周波数スペクトル３１は、例えば、超音波帯域の40kHz乃至80kHzの周波数成分を有する。周波数スペクトル３１の周波数に対する減衰特性は、線形に近似されているが実際には空間の状況等に応じて変化する。縦軸は、パワースペクトルとし、グラフ上では周波数スペクトルがパワースペクトルで表されている。

　周波数スペクトル３２は、可聴域IR生成部１３により生成された可聴域の伝達関数の周波数スペクトルを表す。周波数スペクトル３２は、例えば、可聴域の20Hz乃至20kHzの周波数成分を有する。周波数スペクトル３２の周波数に対する減衰特性は、周波数スペクトル３１と同様に線形に近似されているが実際にはこれに限らない。

　可聴域IR生成部１３は、超音波IRの周波数スペクトルから生成した可聴域の伝達関数（可聴域IR）を、図１の反響音生成部１４に供給する。なお、可聴域の伝達関数は、超音波IR(R)から生成される伝達関数(R)と、超音波IR(L)から生成される伝達関数(L)との２チャネル分からなる。以下、伝達関数(R)と伝達関数(L)とを特に区別しない場合には、単に伝達関数と称する。伝達関数を、周波数領域表現の可聴域IRという場合、又は、時間領域表現と周波数領域表現との区別なく単に可聴域IRという場合に、可聴域IRについても超音波IR(R)から生成される可聴域IR(R)と、超音波IR(R)から生成される可聴域IR(L)との２チャネル分からなる。可聴域IR(R)と可聴域IR(L)を特に区別しない場合には、単に可聴域IRと称する。

　反響音生成部１４は、ユーザが聴取する可聴域の再生音（信号）に対して、可聴域IR生成部１３からの伝達関数（可聴域IR）に基づく音響効果を付与する。

　再生音は、例えば、不図示のメモリにあらかじめ保存された音信号であってよい。メモリに保存された再生音は、空間状況を通知する通知音として特化された連続的又は断続的なアラーム音等の音信号であってもよいし、ユーザが選択して聴取している音楽等の音信号であってもよい。再生音は、音響処理装置１とインターネット等のネットワーク等を介して接続された外部装置からストリーミングとして供給された音楽等の音信号であってよい。

　反響音生成部１４は、再生音に対して可聴域IR生成部１３からの伝達関数（可聴域IR）を畳み込むコンボリューション・リバーブ（サンプリング・リバーブ）処理を行う。なお、コンボリューション・リバーブ処理を畳み込み処理、又は、畳み込み積分ともいう。例えば、反響音生成部１４は、再生音を周波数領域表現に周波数変換（FFT）した再生音と可聴域IRとの畳み込み処理（畳み込み積分）を行う。この場合、周波数領域表現の再生音と伝達関数との掛け合わせとなる。なお、FFTを利用して長い再生音（信号）を畳み込み処理する方法には、overlap-save法やoverlap-add法が知られている。

　反響音生成部１４は、コンボリューション・リバーブ処理（畳み込み処理）を行った後の再生音を逆周波数変換（逆高速フーリエ変換、IFFT： Inverse Fast Fourier Transform）する。これによって、時間領域表現の再生音が得られる。反響音生成部１４は、再生音をオーディオ出力部１５に供給する。

　図３は、反響音生成部１４が行う畳み込み処理の様子を例示した図である。

　図３において、可聴域IR３３は、可聴域IR生成部１３からは反響音生成部１４に供給される信号を表す。図３の可聴域IR３３は、時間領域表現の伝達関数でもある。

　再生音３４は、不図示のメモリ等から反響音生成部１４に供給される信号である。再生音３４の例として音楽の音信号が示されている。

　再生音３５は、反響音生成部１４からオーディオ出力部１５に供給される音信号である。

　反響音生成部１４は、可聴域IR生成部１３から可聴域IR３３が供給されると、次の可聴域IR３３が供給されるまでの間、可聴域IR３３を用いて、再生音３４と可聴域IR３３との畳み込み積分を行う。その結果得られた再生音３５をオーディオ出力部１５に供給する。

　なお、再生音は、ユーザの右耳に聴取させる右用の再生音(R)と、左耳に聴取させる左用の再生音(L)との２チャネル分からなる。反響音生成部１４は、再生音(R)と伝達関数(R)（可聴域IR(R)）との畳み込み積分により得られた結果を、再生音(R)としてオーディオ出力部１５に供給する。反響音生成部１４は、再生音(L)と伝達関数(L)（可聴域IR(L)）との畳み込み積分により得られた結果を、再生音(L)としてオーディオ出力部１５に供給する。以下、再生音(R)と再生音(L)とを特に区別しない場合には、単に再生音と称する。

　オーディオ出力部１５は、反響音生成部１４からの再生音(R)をユーザが右耳に装着しているイヤフォン(R)により音波に変換して出力する。オーディオ出力部１５は、反響音生成部１４からの再生音(L)をユーザが左耳に装着しているイヤフォン(L)により音波に変換して出力する。

　図１の音響処理装置１によれば、可聴域IR生成部１３により、空間に可聴域のパルス信号を放射した場合に得られると推測される可聴域IR（可聴域の伝達関数）が超音波IRに基づいて生成される。したがって、空間に可聴域の検査音を放射する必要がなく、静けさが求められる場所でも空間の状況に応じた可聴域IR（可聴域の伝達関数）を取得することができる。

　音響処理装置１によれば、ユーザが聴取する再生音に対して可聴域IR生成部１３により生成された可聴域IRが畳み込み処理されるので、再生音に対して空間の状況（空間の物体配置等）が反映された音響効果が付与される。即ち、再生音に対して空間に存在する物体で反響させているかのような音響効果が付与される。したがって、ユーザは、周囲に何らかの物体が接近していることなどを再生音の音響効果によって知覚することができる。再生音としては通常の音楽プレイヤーのように音楽等のコンテンツを用いることができるので、長時間聞き続けることもユーザの苦痛とはならない。再生音として音楽などのコンテンツを聴きながら移動している場合等に、コンテンツに夢中になっている状態であっても、再生音の音響効果の変化から空間の状況を知覚することができるので、衝突や転落といった不測の事態を未然に抑止することができる。

　なお、超音波周波数帯域の検査音の反射音を可聴域に変調（ダウンサンプリング、引き延ばし等）してユーザに提示することも可能である。ただし、その場合、可聴音に対する反射音特性と異なるので、直感的に空間の状況を知覚することが難しくなる。単調な検査音を長時間聞き続けることになるので、ユーザが日常的に長時間使用するのには不向きである。

＜音響処理装置１の処理手順＞
　図４は、図１の音響処理装置１の処理手順を例示したフローチャートである。なお、本フローチャートは、空間に周期的に放射される超音波パルスの１周期の間の処理を示す。

　ステップＳ１１では、超音波送信部１１が空間に超音波パルスを放射（送信）する。処理はステップＳ１１からステップＳ１２に進む。

　ステップＳ１２では、バイノーラルマイク１２が空間から戻る超音波IRを受信する。処理はステップＳ１２からステップＳ１３に進む。

　ステップＳ１３では、可聴域IR生成部１３は、ステップＳ１２で受信された超音波IRに対してFFTにより周波数変換を行い、周波数領域表現の超音波IR（超音波IRの周波数スペクトル）、即ち、可聴域の伝達関数を得る。処理はステップＳ１３からステップＳ１４に進む。

　ステップＳ１４では、可聴域IR生成部１３は、ステップＳ１３で得た超音波IRの周波数スペクトルの帯域を可聴域にシフトさせる。処理はステップＳ１４からステップＳ１５に進む。

　ステップＳ１５では、可聴域IR生成部１３は、ステップＳ１４でシフトさせた可聴域の周波数成分（周波数スペクトル）に対して、可聴音が実際に空間を伝搬したときの伝搬経路の長さに応じた実際の減衰特性を反映させるためのイコライジング処理を施す。これにより、可聴域IRの周波数スペクトル（可聴域の伝達関数）が得られる。処理はステップＳ１５からステップＳ１６に進む。

　ステップＳ１６では、反響音生成部１７は、再生音（信号）に対して周波数変換を行って、ステップＳ１６で得られた可聴域IRとの畳み込み処理（コンボリューション・リバーブ処理）を行う。これによって、再生音に対して空間の状況に応じた音響効果が付与される。処理はステップＳ１６からステップＳ１７に進む。

　ステップＳ１７では、反響音生成部１７は、ステップＳ１６で音響効果が付与された再生音を、周波数領域表現から時間領域表現に逆周波数変換する。処理はステップＳ１７からステップＳ１８に進む。

　ステップＳ１８では、オーディオ出力部１５は、ステップＳ１７で時間領域表現に変換された再生音をイヤフォン等から出力する。

　音響処理装置１は、超音波送信部１１が空間に超音波パルス（１つのパルス）を出力するごとにステップＳ１１乃至ステップＳ１８の処理を繰り返す。

＜音響処理装置の第２の実施の形態＞
　次に本技術が適用された音響処理装置の第２の実施の形態について説明する。

　図５は、本技術が適用された音響処理装置の第２の実施の形態の構成を例示するブロック図である。なお、図１の音響処理装置１と共通する部分には、同一の符号を付してあり、詳細な説明を適宜省略する。

　図５の処理システム５１には、本技術が適用された音響処理装置の第２の実施の形態である音響処理装置５２を構築する際に使用される装置も含まれる。

　処理システム５１は、音響処理装置５２、反響音データ収集装置６１、及び、生成モデル学習装置６２を有する。

　音響処理装置５２は、超音波送信部１１、バイノーラルマイク１２、反響音生成部１４、オーディオ出力部１５、及び、可聴域IR生成部６３を有する。したがって、音響処理装置５２は、超音波送信部１１、バイノーラルマイク１２、反響音生成部１４、及び、オーディオ出力部１５を有する点で、図１の音響処理装置１と共通する。

　ただし、音響処理装置５２は、図１の可聴域IR生成部１３の代わりに可聴域IR生成部６３が設けられている点で、図１の音響処理装置１と相違する。

　可聴域IR生成部６３は、バイノーラルマイク１２からの超音波IRに対して可聴域IRを、ニューラルネットワークの構造を有する推論モデルにより推論する。推論モデルは、生成モデル学習装置６２において機械学習の手法を用いて教師あり学習により生成される。可聴域IR生成部６３には、生成モデル学習装置６２で生成された推論モデルが実装される。

　反響音データ収集装置６１は、推論モデルの学習に使用するデータセットを収集する。

　反響音データ収集装置６１は、超音波送信部７１、可聴音送信部７２、バイノーラルマイク７３、及び、記憶部７４を有する。

　超音波送信部７１は、音響処理装置１の超音波送信部１１と同様に40kHz乃至80kHzの超音波周波数帯域の超音波信号からなるパルス幅が約1msの超音波パルス（信号）を放射する。超音波パルスの周期については、音響処理装置１の超音波送信部１１の超音波パルスと一致していなくてもよく、任意の周期に設定される。

　可聴音送信部７２は、20Hz乃至20kHzの可聴域の可聴音信号からなるパルス幅が約1msの可聴域パルス（信号）を放射する。可聴域パルスのパルス幅は、超音波送信部７１から放射される超音波パルスと同等であるが、相違していてもよい。可聴域パルスの周期は、超音波送信部７１から放射される超音波パルスと同じであるが、可聴域パルスがオンのときと、超音波パルスがオンのときとが重ならないように超音波パルスと可聴域パルスとの放射のタイミングがずらされる。

　バイノーラルマイク７３は、超音波IR、及び、可聴域IRを受信する。

　記憶部７４は、バイノーラルマイク７３で受信された超音波IRと、可聴域IRとを記憶する。

　図６は、反響音データ収集装置６１の外観構成を例示した図である。

　図６において、スタンド８３には、人間の左右の耳の周辺部を模したダミーヘッド８２が支持されている。ダミーヘッド８２の右耳及び左耳の外耳付近の位置８１、８１には、超音波パルスを放射する超音波送信部７１の左右の超音波スピーカと、可聴域パルスを放射する可聴音送信部７２の左右の可聴域スピーカとが設置される。ダミーヘッド８２の左右の部分にはバイノーラルマイク７３の左右のマイクが組み込まれている。バイノーラルマイク７３の左右のマイクはそれぞれ超音波パルス及び可聴域パルスの両方を受信する。

　ダミーヘッド８２に配置されたスピーカやマイクは、それぞれパーソナルコンピュータ８４に接続される。

　パーソナルコンピュータ８４は、ダミーヘッド８２のスピーカやマイクが接続され、所定のプログラムを実行することで、反響音データ収集装置６１を構成する。なお、パーソナルコンピュータ８４は、生成モデル学習装置６２を含む場合であってもよい。

　図７は、反響音データ収集装置６１の処理手順を示したフローチャートである。

　ステップＳ３１では、推論モデルの学習データを収集する場所を決めてその場所に、反響音データ収集装置６１を設置する。例えば屋外、廊下、室内、家具などが配置された部屋等、様々な場所での音響処理装置５２の使用になるべく対応できる空間に設置する。処理はステップＳ３１からステップＳ３２に進む。

　ステップＳ３２では、超音波送信部７１は、ダミーヘッド８２の左右の超音波スピーカから超音波パルス（単パルス）を周囲に送信（放射）する。処理はステップＳ３２からステップＳ３３に進む。

　ステップＳ３３では、ステップＳ３２で放射されて空間から戻る超音波パルス（超音波IR）をバイノーラルマイク７３の左右のマイクで受信する。処理はステップＳ３３からステップＳ３４に進む。

　ステップＳ３４では、記憶部７４は、ステップＳ３３でバイノーラルマイク７３が受信した右耳側の超音波IR(R)と左耳側の超音波IR(L)とを保存する。処理はステップＳ３４からステップＳ３５に進む。

　ステップＳ３５では、可聴音送信部７２は、ダミーヘッド８２の左右の可聴域スピーカから可聴域パルス（単パルス）を周囲に送信（放射）する。処理はステップＳ３５からステップＳ３６に進む。

　ステップＳ３６では、ステップＳ３５で放射されて空間から戻る可聴域パルス（可聴域IR）をバイノーラルマイク７３の左右のマイクで受信する。処理はステップＳ３６からステップＳ３７に進む。

　ステップＳ３７では、記憶部７４は、ステップＳ３６でバイノーラルマイク７３が受信した右耳側の可聴域IR(R)と左耳側の可聴域IR(L)とを保存する。

　以上、ステップＳ３４では、超音波IR(R)及び超音波IR(L)の２チャネル分の超音波IRのデータが保存される。ステップＳ３７では、可聴域IR(R)及び可聴域IR(L)の２チャネル分の可聴域IRのデータが保存される。これらの２チャネル分の超音波IRのデータと、２チャネル分の可聴域IRのデータとは、互いに紐付けられて、超音波IRを入力データとして、可聴域IRを教師データ（正解データ）とするペアデータとなる。ステップＳ３２乃至ステップＳ３７の処理を繰り返すことで、ペアデータが増え、ペアデータの集合体であるデータセットが記憶部７４に保存される。

　なお、超音波IRと取得保存（ステップＳ３２乃至Ｓ３４）と可聴域IRの取得保存（ステップＳ３５乃至Ｓ３７）は、どちらが先に行われてもよい。

　以上のような学習データ（データセット）は、例えば、UnityやUnreal Engine等のゲームエンジンによるCG（Computer Graphics）の仮想空間上において、空間物体とその立体音響を再現可能なシミュレータにより生成してもよい。

　図５の生成モデル学習装置６２は、記憶部７４に保存されたデータセットを用いて、機械学習における推論モデルの学習を行う。推論モデルは、入力データを超音波IR、出力データを入力データから推測した可聴域IRとする。なお、超音波パルス及び可聴域パルスの１周期当たりのサンプル数をｎとすると、推論モデルの入力及び出力はそれぞれ２チャネル分の２ｎ次元となる。

　生成モデル学習装置６２は、記憶部７４に保存されたデータセットの各ペアデータのうち、超音波IRのデータを入力データとし、可聴域IRのデータを教師データとして推論モデルの学習を行う。学習が終了すると、学習済みの推論モデルは、音響処理装置５２の可聴域IR生成部６３に実装される。

　なお、入力と同じ次元の別データを出力可能なネットワークとして、例えばU-NetやFully Convolutional Networkなどが知られている。

＜音響処理装置の処理手順＞
　図８は、図５の音響処理装置５２の処理手順を例示したフローチャートである。本フローチャートは、空間に周期的に放射される超音波パルスの１周期の間の処理を示す。

　ステップＳ５１では、超音波送信部１１が空間に超音波パルスを放射（送信）する。処理はステップＳ５１からステップＳ５２に進む。

　ステップＳ５２では、バイノーラルマイク１２が空間から戻る超音波IRを受信する。処理はステップＳ５２からステップＳ５３に進む。

　ステップＳ５３では、可聴域IR生成部６３は、ステップＳ５２で受信された超音波IRを、推論モデルに入力して、推論モデルにより可聴域IRを算出する。処理はステップＳ５３からステップＳ５４に進む。

　図９は、可聴域IR生成部６３における推論モデルの入出力の様子を表した図である。

　図９において、推論モデルである推論用ネットワーク９１には、入力データとして、バイノーラルマイク１２からの超音波IR(R)９３のサンプル数ｎのデータと、超音波IR(L)９２のサンプル数ｎのデータとが入力される。推論用ネットワーク９１からは、入力データに対して可聴域IR(R)９６のサンプル数ｎのデータと、可聴域IR(L)９４のサンプル数ｎのデータとが出力される。

　図８において、ステップＳ５４では、反響音生成部１７は、再生音（信号）に対して周波数変換を行って、ステップＳ５３で得られた可聴域IRとの畳み込み処理（コンボリューション・リバーブ処理）を行う。これによって、再生音に対して空間の状況に応じた音響効果が付与される。処理はステップＳ５４からステップＳ５５に進む。

　ステップＳ５５では、オーディオ出力部１５は、ステップＳ５４で得られた再生音をイヤフォン等から出力する。

　音響処理装置５２は、超音波送信部１１が空間に超音波パルス（１つのパルス）を出力するごとにステップＳ５１乃至ステップＳ５５の処理を繰り返す。

　なお、可聴域IR生成部６３の推論モデルは、入力データを時間領域表現の超音波IRとし、出力データとして時間領域表現の可聴域IRを生成したが、これに限らない。推論モデルは、入力データとして周波数領域表現の超音波IR（超音波IRの周波数スペクトル）とし、出力データとして周波数領域表現の可聴域IR（可聴域IRの周波数スペクトル）、即ち、可聴域の伝達関数を生成する場合であってもよい。

　以上の第２の実施の形態の音響処理装置５２によれば、可聴域IR生成部１３により、空間に可聴域のパルス信号を放射した場合に得られると推測される可聴域IR（可聴域の伝達関数）が超音波IRに基づいて生成される。したがって、空間に可聴域の検査音を放射する必要がなく、静けさが求められる場所でも空間の状況に応じた可聴域IR（可聴域の伝達関数）を取得することができる。

　音響処理装置５２によれば、ユーザが聴取する再生音に対して可聴域IR生成部１３により生成された可聴域IRが畳み込み処理されるので、再生音に対して空間の状況（空間の物体配置等）が反映された音響効果が付与される。即ち、再生音に対して空間に存在する物体で反響させているかのような音響効果が付与される。したがって、ユーザは、周囲に何らかの物体が接近していることなどが再生音の音響効果によって知覚することができる。再生音としては通常の音楽プレイヤーのように音楽等のコンテンツを用いることができるので、長時間聞き続けることもユーザの苦痛とはならない。再生音として音楽などのコンテンツを聴きながら移動している場合等に、コンテンツに夢中になっている状態であっても、再生音の音響効果の変化から空間の状況を知覚することができるので、衝突や転落といった不測の事態を未然に抑止することができる。

＜音響処理装置の変形例＞
　図５の音響処理装置５２において、超音波送信部１１から放射する超音波パルスの周波数帯域幅が狭い場合がある。例えば、超音波スピーカが40kHzのサイン波のみしか放射できないような場合がある。そのような場合、可聴域IR生成部６３の推論モデルは、可聴域IRを推論するために十分な情報が得られない。その場合には、妥当な可聴域IRを生成する、GAN（Generative Adversarial Network：敵対的生成ネットワーク）に代表される推論モデルを用いて超音波IRから可聴域IRを生成してもよい。

　推論モデルとしてGANを用いる場合、図５の反響音データ収集装置６１により図８に示した手順で超音波IRと可聴域IRとのペアデータを収集し、データセットを構築する。生成モデル学習装置６２は、各ペアデータの超音波IRを入力データとし、可聴域IRを教師データ（正解データ）としてGANを学習させる。画像から画像、または音声から音声を生成するGANアルゴリズムを利用することで超音波IRのデジタルサンプルデータから可聴域IRのデジタルサンプルデータを生成する。この生成には、例えばpix2pixという手法が用いられる。

　図１０は、可聴域IR生成部６３におけるGANの入出力の様子を表した図である。

　図１０において、推論モデルであるGAN１０１には、入力データとして、バイノーラルマイク１２からの超音波IR(L)９２のサンプル数ｎのデータと、超音波IR(R)９３のサンプル数ｎのデータとが入力される。GAN１０１は、入力データに対して可聴域IR(R)のサンプル数ｎのデータと、可聴域IR(L)のサンプル数ｎのデータとを生成する。

　これによれば、推論モデルにより生成された可聴域IRが実空間の細かい反響特性（例えば材質など）を正確に再現していなかったとしても、例えば初期反射（アーリーリフレクション）の遅延、音圧の変化、残響の長さ、及び、周波数特性の変化等の反響音効果が再生音に付与される。したがって、ユーザは、空間や障害物の位置を再生音の音響効果により知覚することができる。

　図５の反響音データ収集装置６１は、様々な空間に設置して超音波IR及び可聴域IRを取得保存することでデータセットを構築できる。規模の大きいデータセットを構築するためには多くの空間に赴いて反響音データ収集装置６１のマイク、スピーカ等を設置し、超音波IR及び可聴域IRを取得保存するというプロセスを繰り返す必要がある。そのため、時間や移動に伴うコストがかかる。

　一方、仮想空間上に自由にオブジェクトを配置し、仮想空間で物理シミュレーションを再現するシミュレータの開発が、特にUnityやUnreal Engineといったゲームエンジン向けに行われている。このようなシミュレータでは仮想空間上にオーディオソースやマイクを自由に配置でき、ハイレゾ対応（例えばサンプリング周波数192kHz）のオーディオフォーマットも利用できるものもある。40kHzから80kHz程度の超音波であれば、シミュレータ上で超音波IRと可聴域IRのデータ収集を行うことができる。移動時間がかからず、並列処理により高速化できるので、比較的高速に大規模のデータセットを構築できる。

　シミュレータ上でデータ収集する場合、シミュレータ上の反響特性が、実世界の反響特性と必ずしも一致しない場合がある。そのような場合、シミュレータ上でデータセットを構築した上で、ドメイン変換により実世界の反響特性により近いデータセットに変換する。ドメイン変換の手法として、例えばCycleGANが知られている。CycleGANは、GANの一種であるが、pix2pixと違いペアデータを必要とせず、両ドメイン（この場合はシミュレータ上の反響音と実世界上の反響音）のデータを独立して収集することができる。実世界の反響特性に近づけるという目的のため、シミュレータ上の反響特性がある程度、実世界の反響特性に近ければ、機械学習の推論モデルのデータ収集に比べると比較的小規模のデータ収集だけでドメイン変換を行うことができる。

　以上、本技術は、上記実施の形態において再生音（信号）を再生信号と読み替えて再生信号に対応した振動をユーザに提示する場合にも適用できる。即ち、本技術は、再生音（信号）の代わりに、振動をユーザに知覚させる振動信号（再生信号）に対して、超音波IRに基づいて空間の状況に応じた変更を加える場合も含む。

　本技術は、空間の状況、特に、物体の接近等を音や振動などでユーザに知覚させることができるので、様々な分野で有効である。例えば、障害物センサとして自動車等の車両の外装等にスピーカとマイクを設置して車両周辺に超音波パルスを放射し、その超音波IRをマイクで受信する。マイクで受信された超音波IRに基づいて変更される再生音（再生信号）は、車両内のスピーカ等から出力してもよいし、座席の振動等としてユーザに提示してもよい。

＜プログラム＞
　上述した音響処理装置１、音響処理装置５２、反響音データ収集装置６１、又は、生成モデル学習装置６２における一連の処理は、ハードウエアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１１は、音響処理装置１、音響処理装置５２、反響音データ収集装置６１、又は、生成モデル学習装置６２が実行する各処理をコンピュータがプログラムにより実行する場合の、コンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

　バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、及びドライブ２１０が接続されている。

　入力部２０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア２１１を駆動する。

　以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５及びバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU２０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア２１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　本技術は以下のような構成も取ることができる。
（１）
　空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える処理部
　を有する情報処理装置。
（２）
　前記検査信号は、所定周期で放射されたパルス信号である
　前記（１）に記載の情報処理装置。
（３）
　前記空間の状況は、前記空間の物体配置の状況である
　前記（１）又は（２）に記載の情報処理装置。
（４）
　前記再生信号は、可聴周波数帯域の音の信号である
　前記（１）又は（３）に記載の情報処理装置。
（５）
　前記処理部は、前記超音波応答信号に基づいて、前記空間の状況に応じた音響効果を付与する
　前記（４）に記載の情報処理装置。
（６）
　前記処理部は、前記超音波応答信号に基づいて、前記空間における可聴周波数帯域の音の信号に対する伝達関数を生成し、前記再生信号に対して前記伝達関数に基づく前記音響効果を付与する
　前記（３）に記載の情報処理装置。
（７）
　前記処理部は、前記再生信号をフーリエ変換して得た周波数領域の前記再生信号と、前記伝達関数とを掛け合わすことにより、前記再生信号に対して前記音響効果を付与する
　前記（６）に記載の情報処理装置。
（８）
　前記処理部は、前記超音波応答信号の周波数成分に基づいて、前記伝達関数を生成する
　前記（６）又は（７）に記載の情報処理装置。
（９）
　前記処理部は、前記伝達関数を生成する処理として、前記超音波周波数帯域の周波数と前記可聴周波数帯域の周波数とを対応付け、前記超音波周波数帯域における前記超音波応答信号の各周波数に対する周波数成分を、前記超音波応答信号の各周波数に対応付けられた前記可聴周波数帯域の各周波数に対する前記伝達関数の周波数成分とする処理を含む
　前記（８）に記載の情報処理装置。
（１０）
　前記処理部は、機械学習により生成された推論モデルを用いて、前記超音波応答信号の周波数成分に対して、前記伝達関数の周波数成分を推定する
　前記（８）に記載の情報処理装置。
（１１）
　前記処理部は、前記超音波応答信号に基づいて、前記空間における前記可聴周波数帯域のインパルス応答信号を生成し、前記再生信号に対して前記インパルス応答信号に基づく前記音響効果を付与する
　前記（５）に記載の情報処理装置。
（１２）
　前記処理部は、前記再生信号と前記インパルス応答信号との畳み込み積分により前記再生信号に前記音響効果を付与する
　前記（１１）に記載の情報処理装置。
（１３）
　前記処理部は、機械学習における推論モデルを用いて前記超音波応答信号から前記インパルス応答信号を生成する
　前記（１１）又は前記（１２）に記載の情報処理装置。
（１４）
　前記超音波応答信号は、右耳用として検出された右耳用超音波応答信号と左耳用として検出された左耳用超音波応答信号とからなり、
　前記処理部は、前記右耳用超音波応答信号に基づいて、前記ユーザの右耳に知覚させる右耳用の前記再生信号に対して、前記変更を加え、前記左耳用超音波応答信号に基づいて、前記ユーザの左耳に知覚させる左耳用の前記再生信号に対して前記変更を加える
　前記（５）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
　前記超音波応答信号は、前記ユーザの右耳に配置された前記右耳用超音波応答信号を取得する右用マイクと、前記ユーザの左耳に配置された前記左耳用超音波応答信号を取得する左用マイクとにより取得された
　前記（１４）に記載の情報処理装置。
（１６）
　前記再生信号は、前記ユーザに振動を知覚させる振動信号である
　前記（１）又は（２）に記載の情報処理装置。
（１７）
　処理部
　を有する情報処理装置の
　前記処理部が、
　空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える
　情報処理方法。
（１８）
　コンピュータを
　空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える処理部
　として機能させるためのプログラム。

　１,５２　音響処理装置，　１１　超音波送信部，　１２　バイノーラルマイク，　１３　可聴域IR生成部，　１４　反響音生成部，　１５　オーディオ出力部，　６１　反響音データ収集装置，　６２　生成モデル学習装置

Claims

　空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える処理部
　を有する情報処理装置。
　前記検査信号は、所定周期で放射されたパルス信号である
　請求項１に記載の情報処理装置。
　前記空間の状況は、前記空間の物体配置の状況である
　請求項１に記載の情報処理装置。
　前記再生信号は、可聴周波数帯域の音の信号である
　請求項１に記載の情報処理装置。
　前記処理部は、前記超音波応答信号に基づいて、前記空間の状況に応じた音響効果を付与する
　請求項４に記載の情報処理装置。
　前記処理部は、前記超音波応答信号に基づいて、前記空間における可聴周波数帯域の音の信号に対する伝達関数を生成し、前記再生信号に対して前記伝達関数に基づく前記音響効果を付与する
　請求項５に記載の情報処理装置。
　前記処理部は、前記再生信号をフーリエ変換して得た周波数領域の前記再生信号と、前記伝達関数とを掛け合わすことにより、前記再生信号に対して前記音響効果を付与する
　請求項６に記載の情報処理装置。
　前記処理部は、前記超音波応答信号の周波数成分に基づいて、前記伝達関数を生成する
　請求項６に記載の情報処理装置。
　前記処理部は、前記伝達関数を生成する処理として、前記超音波周波数帯域の周波数と前記可聴周波数帯域の周波数とを対応付け、前記超音波周波数帯域における前記超音波応答信号の各周波数に対する周波数成分を、前記超音波応答信号の各周波数に対応付けられた前記可聴周波数帯域の各周波数に対する前記伝達関数の周波数成分とする処理を含む
　請求項８に記載の情報処理装置。
　前記処理部は、機械学習により生成された推論モデルを用いて、前記超音波応答信号の周波数成分に対して、前記伝達関数の周波数成分を推定する
　請求項８に記載の情報処理装置。
　前記処理部は、前記超音波応答信号に基づいて、前記空間における前記可聴周波数帯域のインパルス応答信号を生成し、前記再生信号に対して前記インパルス応答信号に基づく前記音響効果を付与する
　請求項５に記載の情報処理装置。
　前記処理部は、前記再生信号と前記インパルス応答信号との畳み込み積分により前記再生信号に前記音響効果を付与する
　請求項１１に記載の情報処理装置。
　前記処理部は、機械学習における推論モデルを用いて前記超音波応答信号から前記インパルス応答信号を生成する
　請求項１１に記載の情報処理装置。
　前記超音波応答信号は、右耳用として検出された右耳用超音波応答信号と左耳用として検出された左耳用超音波応答信号とからなり、
　前記処理部は、前記右耳用超音波応答信号に基づいて、前記ユーザの右耳に知覚させる右耳用の前記再生信号に対して、前記変更を加え、前記左耳用超音波応答信号に基づいて、前記ユーザの左耳に知覚させる左耳用の前記再生信号に対して前記変更を加える
　請求項５に記載の情報処理装置。
　前記超音波応答信号は、前記ユーザの右耳に配置された前記右耳用超音波応答信号を取得する右用マイクと、前記ユーザの左耳に配置された前記左耳用超音波応答信号を取得する左用マイクとにより取得された
　請求項１４に記載の情報処理装置。
　前記再生信号は、前記ユーザに振動を知覚させる振動信号である
　請求項１に記載の情報処理装置。
　処理部
　を有する情報処理装置の
　前記処理部が、
　空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える
　情報処理方法。
　コンピュータを
　空間に放射した超音波周波数帯域の検査信号に対して前記空間から戻る超音波応答信号に基づいて、ユーザに知覚させる再生信号に対して、前記空間の状況に応じた変更を加える処理部
　として機能させるためのプログラム。