WO2021090465A1

WO2021090465A1 - 帯域拡張装置、帯域拡張方法、およびプログラム

Info

Publication number: WO2021090465A1
Application number: PCT/JP2019/043787
Authority: WO
Inventors: 江村　暁
Original assignee: 日本電信電話株式会社
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2021-05-14

Abstract

広帯域信号の推定精度を向上する。補間部（１２１）は、入力された狭帯域信号を目標とする広帯域信号のサンプル数である目標サンプル数に補間した補間後狭帯域信号を生成する。帯域拡張ニューラルネットワーク（１２２）は、補間後狭帯域信号から広帯域信号を推定する。帯域拡張ニューラルネットワーク（１２２）は、狭帯域信号に対応する広帯域信号と広帯域信号を学習データとして、狭帯域信号を目標サンプル数に補間した補間後狭帯域信号を入力とし、広帯域信号の推定値を出力するように学習されたものである。

Description

帯域拡張装置、帯域拡張方法、およびプログラム

　本発明は、音声信号の帯域を拡張する技術に関する。

　主に音声を対象として、デジタルサンプリングされた信号のカバーする信号帯域から、より周波数の高い帯域を推測するために、帯域拡張技術（Bandwidth extension、BWE）の検討が進められてきた。帯域拡張技術の主な用途には、電話帯域（3.4kHz帯域）からAMラジオ相当（7kHz帯域）への拡張や、骨伝導（もしくは気導）マイクロホン信号の2kHz帯域から4kHz帯域への拡張などがある。

　帯域拡張技術は、当初は音声符号化における音声モデルに基づく手法が主流だった（例えば、非特許文献１参照）。近年、ディープラーニング技術の進展により、音声モデルに基づく方法の代わりに、大量の音声データを用い、ニューラルネットワークに帯域拡張を学習させる手法が増えている。そして、ニューラルネットワークを用いる方法は、従来の音声モデルのみに基づく方法よりも、品質を高められることが判明してきた。

　ニューラルネットワークを用いる方法として、ディープニューラルネットワーク（DNN）により、スペクトルグラムを推測する方法がある（例えば、非特許文献２，３参照）。この手法では、0-4kHz帯域の音声のスペクトル振幅時間変動から、4-8kHz帯域の音声のスペクトル振幅時間変動を、ニューラルネットワークにより推測する。

J. Epps, W.H. Holmes： A new technique for wideband enhancement of coded narrowband speech, 1999 IEEE Workshop on Speech Coding Proceedings, 1999. Kehuang Li, Chin-Hui Lee: A deep neural network approach to speech bandwidth expansion, 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Pages: 4395 - 4399, 2015. Matthias Zohrer, Robert Peharz, Franz Pernkopf: Representation Learning for Single-Channel Source Separation and Bandwidth Extension, IEEE/ACM Transactions on Audio Speech and Language Processing, 23, 12, pp. 2398-2409, 2015.

　音声の母音成分は、同じタイミングで低域成分と高域成分の両方に現れるため、推測精度が高い。一方、子音成分は、母音成分に先行して現れることが多いため、推測精度が低くなる。また、ディープニューラルネットワークが推測するのは振幅のみのため、位相を別途指定する必要があるが、0-4kHz帯域の信号をゼロ詰めによりアップサンプリングした信号の位相を暫定的に使うことが多く、本来の位相に合致している保証はない。

　この発明の目的は、上記のような技術的課題に鑑みて、ニューラルネットワークを用いた音声信号の帯域拡張において広帯域信号の推測精度を向上することである。

　上記の課題を解決するために、本発明の一態様の帯域拡張装置は、入力された狭帯域信号を目標とする広帯域信号のサンプル数である目標サンプル数に補間した補間後狭帯域信号を生成する補間部と、補間後狭帯域信号から広帯域信号を推定する帯域拡張ニューラルネットワークと、を含み、帯域拡張ニューラルネットワークは、狭帯域信号に対応する広帯域信号と広帯域信号を学習データとして、狭帯域信号を目標サンプル数に補間した補間後狭帯域信号を入力とし、広帯域信号の推定値を出力するように学習されたものである。

　本発明によれば、ニューラルネットワークを用いた音声信号の帯域拡張において広帯域信号の推測精度を向上することができる。

図１は、帯域拡張装置の機能構成を例示する図である。図２は、帯域拡張部の構成を例示する図である。図３は、帯域拡張方法の処理手順を例示する図である。図４は、コンピュータの機能構成を例示する図である。

　本明細書中で使用する記号「^」は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「y^」は数式中では次式で表される。

　以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　［実施形態］
　本実施形態では、周波数領域ではなく、時間領域での帯域拡張を考える。具体的には、0-4kHz帯域信号の２サンプル間の中間値を推定することで、0-8kHz帯域信号を得ることを考える。このサブサンプル推定には、画像処理における高解像度化のための超解像の手法を適用できる。現在、画素間のサブピクセルの値を畳み込みニューラルネットワーク（CNN）で推定する手法が盛んに研究されている（例えば、参考文献１参照）。これらの手法では、低解像度の画像もしくは単純補間によりサブピクセルを推定した画像を入力とし、高解像度の画像を出力する畳み込みニューラルネットワークを学習により得る。

　〔参考文献１〕C. Dong ; C. C. Loy ; K. He ; X. Tang: Image Super-Resolution Using Deep Convolutional Networks, IEEE Transactions on Pattern Analysis and Machine Intelligence, 38, 2, 2016.

　この手法は、そのまま１次元信号に適用できる。しかしながら、音声信号については、高域成分をうまく推測できないことがわかっている。それは、音声のパターンの局在性が画像と比べて低く、低域成分中の何らかのパターンから、高域成分の対応するパターンを推測するには、畳み込みニューラルネットワークでは能力が低いためと考えられる。そこで、本実施形態では、畳み込みニューラルネットワークの代わりにゲート付き畳み込みニューラルネットワーク（gated CNN）（例えば、参考文献２参照）を用いて、帯域拡張を行う。

　〔参考文献２〕Y. N. Dauphin, A. Fan, M. Auli, and D. Grangier, Language Modeling with Gated Convolutional Networks, arXiv:1612.08083, Submitted on 23 Dec 2016 (v1).

　実施形態の帯域拡張装置は、ゲート付き畳み込みニューラルネットワークから構成される帯域拡張ニューラルネットワークにより、狭帯域信号から広帯域信号へ帯域拡張する信号処理装置である。実施形態の帯域拡張装置１は、図１に例示するように、フレーム分割部１１、帯域拡張部１２、およびフレーム合成部１３を備える。帯域拡張部１２は、図２に例示するように、補間部１２１および帯域拡張ニューラルネットワーク１２２を備える。この帯域拡張装置１が、図３に例示する各ステップの処理を行うことにより実施形態の帯域拡張方法が実現される。

　帯域拡張装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。帯域拡張装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。帯域拡張装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。帯域拡張装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

　図２を参照して、帯域拡張ニューラルネットワーク１２２内で、入力データがどのように中間データに変換されていき、最終的に出力されるかを説明する。補間部１２１は、線形補間等の単純な補間方法を、対象とする狭帯域信号に適用し、そのサンプリング周波数を、目標とする広帯域信号に合わせる。帯域拡張ニューラルネットワーク１２２は、補間後の狭帯域信号のＬサンプルからなるフレームを入力とし、目標とする広帯域信号のＬサンプルからなるフレームを出力とするニューラルネットワークである。ここで、Ｌには１０００前後の値を用いる。帯域拡張ニューラルネットワーク１２２は、大量データの学習により獲得する。すなわち、狭帯域信号に対応する広帯域信号と広帯域信号を学習データとし、補間後の狭帯域信号を入力とし、広帯域信号の推定値を出力するように学習する。信号を帯域拡張する際には、入力信号のフレームを１／２シフト、１／４シフト等で帯域拡張ニューラルネットワークに入力し、帯域拡張ニューラルネットワークの出力に窓処理を適用して合成する。

　帯域拡張ニューラルネットワーク１２２は、多層のゲート付き畳み込みニューラルネットワークＧ１～Ｇ６で構成される。畳み込みニューラルネットワークは、入力データ（信号）を時間方向に複数切り出してフィルタをかけ、活性化関数に通すことで特徴ベクトルを出力する。信号長Ｌ＝１０２４のとき、フィルタ長には、例えば３～２０タップを用いる。フィルタの種類を増やすことで特徴ベクトルの数、すなわちチャネル数を増やす。図２において、四角形で示したデータＬ１～Ｌ５は各中間データであり、その縦幅が時間方向サンプル数に、その横幅がチャネル数に対応する。通常の畳み込みニューラルネットワークの１層分の変換は、Ｙを入力ベクトルとして、次式で表される。

　一方、ゲート付き畳み込みニューラルネットワークでは、この変換が次式になる。

ただし、

は要素ごとの積（element-wise product）であり、σは活性化関数であり、W, b, V, cは学習済みのパラメータである。本実施形態では、入力される信号および出力する信号は共に正負の値を取るため、活性化関数には正負の値を出力する関数（例えば、tanhなど）を用いる。

　帯域拡張ニューラルネットワークは、狭帯域信号を高次の特徴量へエンコードしていく過程（Ｇ１～Ｇ３）と、高次の特徴量を広帯域信号へデコードする過程（Ｇ４～Ｇ６）とからなる。エンコードの過程では、チャネル数を増やして畳み込みフィルタの種類を増やす。デコードの過程では逆にチャネル数を減らす。図２では隠れ層が５層の構成を示したが、本実施形態の層数はこれに限定されない。これより層数の少ない構成も多い構成も考えられる。なお、入力データから中間データ、中間データから中間データ、中間データから出力への各変換（Ｇ１～Ｇ６）には、図２に示すようにゲート付き畳み込みニューラルネットワークとバッチノーマライゼーションが使われる。各変換には適宜ドロップアウトを含めてもよい。

　帯域拡張ニューラルネットワーク全体を学習するときのコスト関数は、目標とする広帯域信号のフレームのベクトルをy、ニューラルネットワークの出力信号のフレームのベクトルをy^として、次式で表される。これは、目標とする広帯域信号のベクトルと帯域拡張後の信号ベクトルの差のＬ１ノルムである。

　以下、図３を参照して、実施形態の帯域拡張装置１が実行する帯域拡張方法の処理手続きを説明する。

　ステップＳ１１において、フレーム分割部１１は、帯域拡張装置１に入力された狭帯域信号をＬサンプルずつに分割して狭帯域信号のフレームを生成する。フレーム分割部１１は、生成した狭帯域信号のフレームを１／２シフト、１／４シフト等で帯域拡張部１２へ送る。

　ステップＳ１２において、帯域拡張部１２は、補間部１２１を用いて狭帯域信号のフレームを目標とする高帯域信号のサンプル数に補間した補間後狭帯域信号を生成し、帯域拡張ニューラルネットワーク１２２を用いて補間後狭帯域信号のフレームから広帯域信号のフレームを推定する。帯域拡張部１２は、推定した広帯域信号のフレームをフレーム合成部１３へ送る。

　ステップＳ１３において、フレーム合成部１３は、推定された広帯域信号のフレームに窓処理を適用してフレーム合成し、広帯域信号を出力する。

　［変形例］
　Ｌ次元信号に適用する離散コサイン変換行列をD、離散コサイン変換後のベクトルから高域成分に対応するベクトルを抜き取る行列をH、低域成分に対応するベクトルを抜き取る行列をLとして、次式をコスト関数としてもよい。

ここで、w_H, w_Lは誤差の高域成分と低域成分の重み付けを変えるための重みパラメータである。例えば、4kHz帯域から8kHz帯域を推測する際には、高域成分のパワーは低域成分のパワーよりもはるかに小さいため、w_Hをw_Lの３倍以上に設定する。

　以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

　［プログラム、記録媒体］
　上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図４に示すコンピュータの記憶部１０２０に読み込ませ、制御部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　入力された狭帯域信号を目標とする広帯域信号のサンプル数である目標サンプル数に補間した補間後狭帯域信号を生成する補間部と、
　上記補間後狭帯域信号から広帯域信号を推定する帯域拡張ニューラルネットワークと、
　を含み、
　上記帯域拡張ニューラルネットワークは、狭帯域信号に対応する広帯域信号と広帯域信号を学習データとして、狭帯域信号を上記目標サンプル数に補間した補間後狭帯域信号を入力とし、広帯域信号の推定値を出力するように学習されたものである、
　帯域拡張装置。
　請求項１に記載の帯域拡張装置であって、
　上記帯域拡張ニューラルネットワークは、ゲート付き畳み込みニューラルネットワークであり、活性化関数が正負の値を出力する関数である、
　帯域拡張装置。
　請求項２に記載の帯域拡張装置であって、
　上記帯域拡張ニューラルネットワークのコスト関数は、学習データの広帯域信号と出力信号との誤差に対して高域成分と低域成分とで異なる重み付けをするものである、
　帯域拡張装置。
　請求項３に記載の帯域拡張装置であって、
　上記帯域拡張ニューラルネットワークのコスト関数は、高域成分に与える重みが低域成分に与える重みよりも大きく設定されている、
　帯域拡張装置。
　補間部が、入力された狭帯域信号を目標とする広帯域信号のサンプル数である目標サンプル数に補間した補間後狭帯域信号を生成し、
　帯域拡張ニューラルネットワークが、上記補間後狭帯域信号から広帯域信号を推定し、
　上記帯域拡張ニューラルネットワークは、狭帯域信号に対応する広帯域信号と広帯域信号を学習データとして、狭帯域信号を上記目標サンプル数に補間した補間後狭帯域信号を入力とし、広帯域信号の推定値を出力するように学習されたものである、
　帯域拡張方法。
　請求項１から４のいずれかに記載の帯域拡張装置としてコンピュータを機能させるためのプログラム。