WO2021090465A1 - 帯域拡張装置、帯域拡張方法、およびプログラム - Google Patents

帯域拡張装置、帯域拡張方法、およびプログラム Download PDF

Info

Publication number
WO2021090465A1
WO2021090465A1 PCT/JP2019/043787 JP2019043787W WO2021090465A1 WO 2021090465 A1 WO2021090465 A1 WO 2021090465A1 JP 2019043787 W JP2019043787 W JP 2019043787W WO 2021090465 A1 WO2021090465 A1 WO 2021090465A1
Authority
WO
WIPO (PCT)
Prior art keywords
band
signal
neural network
band signal
narrow
Prior art date
Application number
PCT/JP2019/043787
Other languages
English (en)
French (fr)
Inventor
江村 暁
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/043787 priority Critical patent/WO2021090465A1/ja
Publication of WO2021090465A1 publication Critical patent/WO2021090465A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present invention relates to a technique for expanding the band of an audio signal.
  • Bandwidth extension has been studied in order to infer a higher frequency band from the signal band covered by the digitally sampled signal, mainly for audio.
  • the main applications of band expansion technology are expansion from the telephone band (3.4kHz band) to the equivalent of AM radio (7kHz band), and expansion of bone conduction (or air conduction) microphone signals from the 2kHz band to the 4kHz band. is there.
  • the band expansion technology was mainly based on a voice model in voice coding (see, for example, Non-Patent Document 1).
  • a method of making a neural network learn bandwidth expansion by using a large amount of voice data instead of a method based on a voice model is increasing.
  • the method using a neural network can improve the quality as compared with the method based only on the conventional voice model.
  • a method of using a neural network there is a method of estimating a spectral gram by a deep neural network (DNN) (see, for example, Non-Patent Documents 2 and 3).
  • DNN deep neural network
  • the spectral amplitude and time variation of the audio in the 4-8kHz band is estimated from the spectral amplitude and time variation of the audio in the 0-4kHz band by a neural network.
  • the estimation accuracy is high.
  • the consonant component often appears before the vowel component, so that the estimation accuracy is low.
  • the deep neural network estimates only the amplitude, it is necessary to specify the phase separately, but in many cases, the phase of the signal upsampled by zero-packing the signal in the 0-4kHz band is used provisionally. There is no guarantee that it will match the original phase.
  • An object of the present invention is to improve the estimation accuracy of a wideband signal in band expansion of an audio signal using a neural network in view of the above technical problems.
  • the band expansion device of one aspect of the present invention generates a narrow band signal after interpolation interpolated to the target sample number, which is the target wide band signal sample number of the input narrow band signal.
  • the band-expanded neural network includes a band-expanded neural network that estimates a wide-band signal from the narrow-band signal after interpolation, and the band-expanded neural network uses the wide-band signal and the wide-band signal corresponding to the narrow-band signal as learning data. It was learned to output an estimated value of a wideband signal by inputting a narrowband signal after interpolation by interpolating to the target number of samples.
  • FIG. 1 is a diagram illustrating a functional configuration of a band expansion device.
  • FIG. 2 is a diagram illustrating the configuration of the band expansion unit.
  • FIG. 3 is a diagram illustrating a processing procedure of the band expansion method.
  • FIG. 4 is a diagram illustrating a functional configuration of a computer.
  • band expansion in the time domain is considered instead of the frequency domain. Specifically, it is considered that a 0-8kHz band signal is obtained by estimating an intermediate value between two samples of a 0-4kHz band signal.
  • a super-resolution method for increasing the resolution in image processing can be applied to this subsample estimation.
  • a method of estimating the value of subpixels between pixels by a convolutional neural network (CNN) is being actively studied (see, for example, Reference 1).
  • CNN convolutional neural network
  • the band is expanded by using a convolutional neural network with a gate (gated CNN) (see, for example, Reference 2) instead of the convolutional neural network.
  • gated CNN gated CNN
  • the band expansion device of the embodiment is a signal processing device that expands the band from a narrow band signal to a wide band signal by a band expansion neural network composed of a convolutional neural network with a gate.
  • the band expansion device 1 of the embodiment includes a frame division unit 11, a band expansion unit 12, and a frame synthesis unit 13.
  • the band expansion unit 12 includes an interpolation unit 121 and a band expansion neural network 122, as illustrated in FIG.
  • the band expansion device 1 realizes the band expansion method of the embodiment by performing the processing of each step illustrated in FIG.
  • the band expansion device 1 is configured by loading a special program into a known or dedicated computer having, for example, a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), or the like. Device.
  • the band expansion device 1 executes each process under the control of the central processing unit, for example.
  • the data input to the band expansion device 1 and the data obtained by each process are stored in the main storage device, for example, and the data stored in the main storage device is read out to the central processing unit as needed. Used for other processing.
  • At least a part of each processing unit of the band expansion device 1 may be configured by hardware such as an integrated circuit.
  • the interpolation unit 121 applies a simple interpolation method such as linear interpolation to the target narrowband signal, and adjusts the sampling frequency to the target wideband signal.
  • the band expansion neural network 122 is a neural network that inputs a frame composed of L samples of a narrow band signal after interpolation and outputs a frame composed of L samples of a target wide band signal.
  • a value of around 1000 is used for L.
  • the band-extended neural network 122 is acquired by learning a large amount of data.
  • the wideband signal corresponding to the narrowband signal and the wideband signal are used as training data, the narrowband signal after interpolation is used as input, and the estimated value of the wideband signal is output.
  • the frame of the input signal is input to the band-expanded neural network by 1/2 shift, 1/4 shift, etc., and window processing is applied to the output of the band-expanded neural network for synthesis.
  • the band expansion neural network 122 is composed of a multi-layered convolutional neural network G1 to G6 with a gate.
  • the convolutional neural network outputs a feature vector by cutting out a plurality of input data (signals) in the time direction, filtering them, and passing them through an activation function.
  • the signal length L 1024, for example, 3 to 20 taps are used for the filter length.
  • the number of feature vectors that is, the number of channels, is increased by increasing the types of filters.
  • the data L1 to L5 shown by the quadrangle are intermediate data, the vertical width thereof corresponds to the number of samples in the time direction, and the horizontal width corresponds to the number of channels.
  • the conversion for one layer of a normal convolutional neural network is expressed by the following equation with Y as the input vector.
  • is the activation function
  • W, b, V, c are the learned parameters.
  • a function that outputs positive and negative values for example, tanh is used as the activation function.
  • the band-extended neural network consists of a process of encoding a narrow-band signal into a high-order feature (G1 to G3) and a process of decoding a high-order feature into a wide-band signal (G4 to G6).
  • the number of channels is increased to increase the types of convolution filters. On the contrary, the number of channels is reduced in the decoding process.
  • FIG. 2 shows a configuration in which the hidden layer has five layers, the number of layers in the present embodiment is not limited to this. It is conceivable that there are many configurations with fewer layers than this. As shown in FIG.
  • a convolutional neural network with a gate and batch normalization are used for each conversion (G1 to G6) from input data to intermediate data, intermediate data to intermediate data, and intermediate data to output (G1 to G6). Dropouts may be included in each conversion as appropriate.
  • the cost function when learning the entire band-extended neural network is expressed by the following equation, where y is the frame vector of the target wideband signal and y ⁇ is the frame vector of the output signal of the neural network. This is the L1 norm of the difference between the target wideband signal vector and the signal vector after band expansion.
  • step S11 the frame division unit 11 divides the narrow band signal input to the band expansion device 1 into L samples to generate a frame of the narrow band signal.
  • the frame division unit 11 sends the generated narrow band signal frame to the band expansion unit 12 by 1/2 shift, 1/4 shift, or the like.
  • step S12 the band expansion unit 12 generates a narrow band signal after interpolation interpolated to the target number of samples of the high band signal by using the interpolation unit 121, and uses the band expansion neural network 122. After interpolation, the frame of the wideband signal is estimated from the frame of the narrowband signal. The band expansion unit 12 sends a frame of the estimated wideband signal to the frame synthesis unit 13.
  • step S13 the frame synthesizing unit 13 applies window processing to the frame of the estimated wideband signal to synthesize the frame, and outputs the wideband signal.
  • D be the discrete cosine transform matrix applied to the L-dimensional signal
  • H be the matrix that extracts the vector corresponding to the high frequency component from the vector after the discrete cosine transform
  • L be the matrix that extracts the vector corresponding to the low frequency component. It may be a cost function.
  • w H and w L are weight parameters for changing the weighting of the high frequency component and the low frequency component of the error. For example, when estimating the 8kHz band from the 4kHz band, the power of the high frequency component is much smaller than the power of the low frequency component, so w H is set to 3 times or more of w L.
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
  • the distribution of this program is carried out, for example, by selling, transferring, renting, etc., portable recording media such as DVDs and CD-ROMs on which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own storage device and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be executed sequentially. In addition, the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer. May be.
  • the program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

広帯域信号の推定精度を向上する。補間部(121)は、入力された狭帯域信号を目標とする広帯域信号のサンプル数である目標サンプル数に補間した補間後狭帯域信号を生成する。帯域拡張ニューラルネットワーク(122)は、補間後狭帯域信号から広帯域信号を推定する。帯域拡張ニューラルネットワーク(122)は、狭帯域信号に対応する広帯域信号と広帯域信号を学習データとして、狭帯域信号を目標サンプル数に補間した補間後狭帯域信号を入力とし、広帯域信号の推定値を出力するように学習されたものである。

Description

帯域拡張装置、帯域拡張方法、およびプログラム
 本発明は、音声信号の帯域を拡張する技術に関する。
 主に音声を対象として、デジタルサンプリングされた信号のカバーする信号帯域から、より周波数の高い帯域を推測するために、帯域拡張技術(Bandwidth extension、BWE)の検討が進められてきた。帯域拡張技術の主な用途には、電話帯域(3.4kHz帯域)からAMラジオ相当(7kHz帯域)への拡張や、骨伝導(もしくは気導)マイクロホン信号の2kHz帯域から4kHz帯域への拡張などがある。
 帯域拡張技術は、当初は音声符号化における音声モデルに基づく手法が主流だった(例えば、非特許文献1参照)。近年、ディープラーニング技術の進展により、音声モデルに基づく方法の代わりに、大量の音声データを用い、ニューラルネットワークに帯域拡張を学習させる手法が増えている。そして、ニューラルネットワークを用いる方法は、従来の音声モデルのみに基づく方法よりも、品質を高められることが判明してきた。
 ニューラルネットワークを用いる方法として、ディープニューラルネットワーク(DNN)により、スペクトルグラムを推測する方法がある(例えば、非特許文献2,3参照)。この手法では、0-4kHz帯域の音声のスペクトル振幅時間変動から、4-8kHz帯域の音声のスペクトル振幅時間変動を、ニューラルネットワークにより推測する。
J. Epps, W.H. Holmes: A new technique for wideband enhancement of coded narrowband speech, 1999 IEEE Workshop on Speech Coding Proceedings, 1999. Kehuang Li, Chin-Hui Lee: A deep neural network approach to speech bandwidth expansion, 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),  Pages: 4395 - 4399, 2015. Matthias Zohrer, Robert Peharz, Franz Pernkopf: Representation Learning for Single-Channel Source Separation and Bandwidth Extension, IEEE/ACM Transactions on Audio Speech and Language Processing, 23, 12, pp. 2398-2409, 2015.
 音声の母音成分は、同じタイミングで低域成分と高域成分の両方に現れるため、推測精度が高い。一方、子音成分は、母音成分に先行して現れることが多いため、推測精度が低くなる。また、ディープニューラルネットワークが推測するのは振幅のみのため、位相を別途指定する必要があるが、0-4kHz帯域の信号をゼロ詰めによりアップサンプリングした信号の位相を暫定的に使うことが多く、本来の位相に合致している保証はない。
 この発明の目的は、上記のような技術的課題に鑑みて、ニューラルネットワークを用いた音声信号の帯域拡張において広帯域信号の推測精度を向上することである。
 上記の課題を解決するために、本発明の一態様の帯域拡張装置は、入力された狭帯域信号を目標とする広帯域信号のサンプル数である目標サンプル数に補間した補間後狭帯域信号を生成する補間部と、補間後狭帯域信号から広帯域信号を推定する帯域拡張ニューラルネットワークと、を含み、帯域拡張ニューラルネットワークは、狭帯域信号に対応する広帯域信号と広帯域信号を学習データとして、狭帯域信号を目標サンプル数に補間した補間後狭帯域信号を入力とし、広帯域信号の推定値を出力するように学習されたものである。
 本発明によれば、ニューラルネットワークを用いた音声信号の帯域拡張において広帯域信号の推測精度を向上することができる。
図1は、帯域拡張装置の機能構成を例示する図である。 図2は、帯域拡張部の構成を例示する図である。 図3は、帯域拡張方法の処理手順を例示する図である。 図4は、コンピュータの機能構成を例示する図である。
 本明細書中で使用する記号「^」は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「y^」は数式中では次式で表される。
Figure JPOXMLDOC01-appb-M000001
 以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 [実施形態]
 本実施形態では、周波数領域ではなく、時間領域での帯域拡張を考える。具体的には、0-4kHz帯域信号の2サンプル間の中間値を推定することで、0-8kHz帯域信号を得ることを考える。このサブサンプル推定には、画像処理における高解像度化のための超解像の手法を適用できる。現在、画素間のサブピクセルの値を畳み込みニューラルネットワーク(CNN)で推定する手法が盛んに研究されている(例えば、参考文献1参照)。これらの手法では、低解像度の画像もしくは単純補間によりサブピクセルを推定した画像を入力とし、高解像度の画像を出力する畳み込みニューラルネットワークを学習により得る。
 〔参考文献1〕C. Dong ; C. C. Loy ; K. He ; X. Tang: Image Super-Resolution Using Deep Convolutional Networks, IEEE Transactions on Pattern Analysis and Machine Intelligence, 38, 2, 2016.
 この手法は、そのまま1次元信号に適用できる。しかしながら、音声信号については、高域成分をうまく推測できないことがわかっている。それは、音声のパターンの局在性が画像と比べて低く、低域成分中の何らかのパターンから、高域成分の対応するパターンを推測するには、畳み込みニューラルネットワークでは能力が低いためと考えられる。そこで、本実施形態では、畳み込みニューラルネットワークの代わりにゲート付き畳み込みニューラルネットワーク(gated CNN)(例えば、参考文献2参照)を用いて、帯域拡張を行う。
 〔参考文献2〕Y. N. Dauphin, A. Fan, M. Auli, and D. Grangier, Language Modeling with Gated Convolutional Networks, arXiv:1612.08083, Submitted on 23 Dec 2016 (v1).
 実施形態の帯域拡張装置は、ゲート付き畳み込みニューラルネットワークから構成される帯域拡張ニューラルネットワークにより、狭帯域信号から広帯域信号へ帯域拡張する信号処理装置である。実施形態の帯域拡張装置1は、図1に例示するように、フレーム分割部11、帯域拡張部12、およびフレーム合成部13を備える。帯域拡張部12は、図2に例示するように、補間部121および帯域拡張ニューラルネットワーク122を備える。この帯域拡張装置1が、図3に例示する各ステップの処理を行うことにより実施形態の帯域拡張方法が実現される。
 帯域拡張装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。帯域拡張装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。帯域拡張装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。帯域拡張装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
 図2を参照して、帯域拡張ニューラルネットワーク122内で、入力データがどのように中間データに変換されていき、最終的に出力されるかを説明する。補間部121は、線形補間等の単純な補間方法を、対象とする狭帯域信号に適用し、そのサンプリング周波数を、目標とする広帯域信号に合わせる。帯域拡張ニューラルネットワーク122は、補間後の狭帯域信号のLサンプルからなるフレームを入力とし、目標とする広帯域信号のLサンプルからなるフレームを出力とするニューラルネットワークである。ここで、Lには1000前後の値を用いる。帯域拡張ニューラルネットワーク122は、大量データの学習により獲得する。すなわち、狭帯域信号に対応する広帯域信号と広帯域信号を学習データとし、補間後の狭帯域信号を入力とし、広帯域信号の推定値を出力するように学習する。信号を帯域拡張する際には、入力信号のフレームを1/2シフト、1/4シフト等で帯域拡張ニューラルネットワークに入力し、帯域拡張ニューラルネットワークの出力に窓処理を適用して合成する。
 帯域拡張ニューラルネットワーク122は、多層のゲート付き畳み込みニューラルネットワークG1~G6で構成される。畳み込みニューラルネットワークは、入力データ(信号)を時間方向に複数切り出してフィルタをかけ、活性化関数に通すことで特徴ベクトルを出力する。信号長L=1024のとき、フィルタ長には、例えば3~20タップを用いる。フィルタの種類を増やすことで特徴ベクトルの数、すなわちチャネル数を増やす。図2において、四角形で示したデータL1~L5は各中間データであり、その縦幅が時間方向サンプル数に、その横幅がチャネル数に対応する。通常の畳み込みニューラルネットワークの1層分の変換は、Yを入力ベクトルとして、次式で表される。
Figure JPOXMLDOC01-appb-M000002
 一方、ゲート付き畳み込みニューラルネットワークでは、この変換が次式になる。
Figure JPOXMLDOC01-appb-M000003
ただし、
Figure JPOXMLDOC01-appb-M000004
は要素ごとの積(element-wise product)であり、σは活性化関数であり、W, b, V, cは学習済みのパラメータである。本実施形態では、入力される信号および出力する信号は共に正負の値を取るため、活性化関数には正負の値を出力する関数(例えば、tanhなど)を用いる。
 帯域拡張ニューラルネットワークは、狭帯域信号を高次の特徴量へエンコードしていく過程(G1~G3)と、高次の特徴量を広帯域信号へデコードする過程(G4~G6)とからなる。エンコードの過程では、チャネル数を増やして畳み込みフィルタの種類を増やす。デコードの過程では逆にチャネル数を減らす。図2では隠れ層が5層の構成を示したが、本実施形態の層数はこれに限定されない。これより層数の少ない構成も多い構成も考えられる。なお、入力データから中間データ、中間データから中間データ、中間データから出力への各変換(G1~G6)には、図2に示すようにゲート付き畳み込みニューラルネットワークとバッチノーマライゼーションが使われる。各変換には適宜ドロップアウトを含めてもよい。
 帯域拡張ニューラルネットワーク全体を学習するときのコスト関数は、目標とする広帯域信号のフレームのベクトルをy、ニューラルネットワークの出力信号のフレームのベクトルをy^として、次式で表される。これは、目標とする広帯域信号のベクトルと帯域拡張後の信号ベクトルの差のL1ノルムである。
Figure JPOXMLDOC01-appb-M000005
 以下、図3を参照して、実施形態の帯域拡張装置1が実行する帯域拡張方法の処理手続きを説明する。
 ステップS11において、フレーム分割部11は、帯域拡張装置1に入力された狭帯域信号をLサンプルずつに分割して狭帯域信号のフレームを生成する。フレーム分割部11は、生成した狭帯域信号のフレームを1/2シフト、1/4シフト等で帯域拡張部12へ送る。
 ステップS12において、帯域拡張部12は、補間部121を用いて狭帯域信号のフレームを目標とする高帯域信号のサンプル数に補間した補間後狭帯域信号を生成し、帯域拡張ニューラルネットワーク122を用いて補間後狭帯域信号のフレームから広帯域信号のフレームを推定する。帯域拡張部12は、推定した広帯域信号のフレームをフレーム合成部13へ送る。
 ステップS13において、フレーム合成部13は、推定された広帯域信号のフレームに窓処理を適用してフレーム合成し、広帯域信号を出力する。
 [変形例]
 L次元信号に適用する離散コサイン変換行列をD、離散コサイン変換後のベクトルから高域成分に対応するベクトルを抜き取る行列をH、低域成分に対応するベクトルを抜き取る行列をLとして、次式をコスト関数としてもよい。
Figure JPOXMLDOC01-appb-M000006
ここで、wH, wLは誤差の高域成分と低域成分の重み付けを変えるための重みパラメータである。例えば、4kHz帯域から8kHz帯域を推測する際には、高域成分のパワーは低域成分のパワーよりもはるかに小さいため、wHをwLの3倍以上に設定する。
 以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
 [プログラム、記録媒体]
 上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図4に示すコンピュータの記憶部1020に読み込ませ、制御部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1.  入力された狭帯域信号を目標とする広帯域信号のサンプル数である目標サンプル数に補間した補間後狭帯域信号を生成する補間部と、
     上記補間後狭帯域信号から広帯域信号を推定する帯域拡張ニューラルネットワークと、
     を含み、
     上記帯域拡張ニューラルネットワークは、狭帯域信号に対応する広帯域信号と広帯域信号を学習データとして、狭帯域信号を上記目標サンプル数に補間した補間後狭帯域信号を入力とし、広帯域信号の推定値を出力するように学習されたものである、
     帯域拡張装置。
  2.  請求項1に記載の帯域拡張装置であって、
     上記帯域拡張ニューラルネットワークは、ゲート付き畳み込みニューラルネットワークであり、活性化関数が正負の値を出力する関数である、
     帯域拡張装置。
  3.  請求項2に記載の帯域拡張装置であって、
     上記帯域拡張ニューラルネットワークのコスト関数は、学習データの広帯域信号と出力信号との誤差に対して高域成分と低域成分とで異なる重み付けをするものである、
     帯域拡張装置。
  4.  請求項3に記載の帯域拡張装置であって、
     上記帯域拡張ニューラルネットワークのコスト関数は、高域成分に与える重みが低域成分に与える重みよりも大きく設定されている、
     帯域拡張装置。
  5.  補間部が、入力された狭帯域信号を目標とする広帯域信号のサンプル数である目標サンプル数に補間した補間後狭帯域信号を生成し、
     帯域拡張ニューラルネットワークが、上記補間後狭帯域信号から広帯域信号を推定し、
     上記帯域拡張ニューラルネットワークは、狭帯域信号に対応する広帯域信号と広帯域信号を学習データとして、狭帯域信号を上記目標サンプル数に補間した補間後狭帯域信号を入力とし、広帯域信号の推定値を出力するように学習されたものである、
     帯域拡張方法。
  6.  請求項1から4のいずれかに記載の帯域拡張装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/043787 2019-11-08 2019-11-08 帯域拡張装置、帯域拡張方法、およびプログラム WO2021090465A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/043787 WO2021090465A1 (ja) 2019-11-08 2019-11-08 帯域拡張装置、帯域拡張方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/043787 WO2021090465A1 (ja) 2019-11-08 2019-11-08 帯域拡張装置、帯域拡張方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2021090465A1 true WO2021090465A1 (ja) 2021-05-14

Family

ID=75849822

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/043787 WO2021090465A1 (ja) 2019-11-08 2019-11-08 帯域拡張装置、帯域拡張方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2021090465A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102618581B1 (ko) * 2023-03-30 2023-12-27 엘아이지넥스원 주식회사 초고해상도 레이더를 위한 노치 대역의 신호를 추정하기 위한 장치 및 그 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03254223A (ja) * 1990-03-02 1991-11-13 Eastman Kodak Japan Kk アナログデータ伝送方式
JPH08123484A (ja) * 1994-10-28 1996-05-17 Matsushita Electric Ind Co Ltd 信号合成方法および信号合成装置
JP2019008206A (ja) * 2017-06-27 2019-01-17 日本放送協会 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03254223A (ja) * 1990-03-02 1991-11-13 Eastman Kodak Japan Kk アナログデータ伝送方式
JPH08123484A (ja) * 1994-10-28 1996-05-17 Matsushita Electric Ind Co Ltd 信号合成方法および信号合成装置
JP2019008206A (ja) * 2017-06-27 2019-01-17 日本放送協会 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KULESHOV, VOLODYMYR, ENAM S ZAYD, ERMON STEFANO: "AUDIO SUPER-RESOLUTION USING NEURAL NETS,", PROC. INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR) 2017 - WORKSHOP TRACK, 2 March 2017 (2017-03-02), pages 1 - 5, XP055820878, Retrieved from the Internet <URL:https://openreview.net/pdf?id=S1gNakBFx&source=post_page---------------------------> [retrieved on 20200701] *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102618581B1 (ko) * 2023-03-30 2023-12-27 엘아이지넥스원 주식회사 초고해상도 레이더를 위한 노치 대역의 신호를 추정하기 위한 장치 및 그 방법

Similar Documents

Publication Publication Date Title
US11282535B2 (en) Electronic device and a controlling method thereof
CN111316352A (zh) 语音合成方法、装置、计算机设备和存储介质
CN113646833A (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
WO2021090465A1 (ja) 帯域拡張装置、帯域拡張方法、およびプログラム
Hao et al. Time-domain neural network approach for speech bandwidth extension
JP7488422B2 (ja) フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル
Li et al. Deeplabv3+ vision transformer for visual bird sound denoising
Yechuri et al. A nested U-net with efficient channel attention and D3Net for speech enhancement
CN107239623B (zh) 基于凸优化的m通道过采样图滤波器组的优化设计方法
JP6729804B2 (ja) パターン認識装置、方法及びプログラム
US20230298135A1 (en) Image super-resolution method using frequency domain features
WO2023226572A1 (zh) 特征表示的提取方法、装置、设备、介质及程序产品
WO2023152895A1 (ja) 波形信号生成システム、波形信号生成方法及びプログラム
Hara et al. Sampling set selection for graph signals under arbitrary signal priors
JP6912780B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JPH09127985A (ja) 信号符号化方法及び装置
JP2018142278A (ja) 符号化装置、符号化方法およびプログラム
WO2020255242A1 (ja) 復元装置、復元方法、およびプログラム
Si et al. Multi‐scale audio super resolution via deep pyramid wavelet convolutional neural network
JPH09127998A (ja) 信号量子化方法及び信号符号化装置
Srinivasarao Speech signal analysis and enhancement using combined wavelet Fourier transform with stacked deep learning architecture
JP7167686B2 (ja) 音響信号処理装置、その方法、およびプログラム
WO2022239186A1 (ja) 映像合成装置、映像合成方法、およびプログラム
US20220238126A1 (en) Methods of encoding and decoding audio signal using neural network model, and encoder and decoder for performing the methods
Shi et al. The construction of wavelet network for speech signal processing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19951314

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19951314

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP