WO2013140733A1 - 帯域パワー算出装置及び帯域パワー算出方法 - Google Patents

帯域パワー算出装置及び帯域パワー算出方法 Download PDF

Info

Publication number
WO2013140733A1
WO2013140733A1 PCT/JP2013/001486 JP2013001486W WO2013140733A1 WO 2013140733 A1 WO2013140733 A1 WO 2013140733A1 JP 2013001486 W JP2013001486 W JP 2013001486W WO 2013140733 A1 WO2013140733 A1 WO 2013140733A1
Authority
WO
WIPO (PCT)
Prior art keywords
power
channel power
signal
band
input signal
Prior art date
Application number
PCT/JP2013/001486
Other languages
English (en)
French (fr)
Inventor
利幸 森井
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to JP2014505998A priority Critical patent/JP6140685B2/ja
Priority to EP13763720.3A priority patent/EP2830066B1/en
Priority to US14/386,523 priority patent/US9581623B2/en
Publication of WO2013140733A1 publication Critical patent/WO2013140733A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R21/00Arrangements for measuring electric power or power factor
    • G01R21/006Measuring power factor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Definitions

  • the present invention relates to a band power calculation device and a band power calculation method.
  • FFT Fast Fourier transform
  • a technique for obtaining spectrum band power using FFT is used for noise removal (also referred to as a noise canceller or noise suppressor), voice band determination, voice detection or voice recognition.
  • Non-patent document 1 is known as an example used to determine the bandwidth of an input signal in speech coding.
  • FFT is performed on an input signal, a power spectrum is obtained and then added to a specified frequency to obtain a band power, and a band of the input signal is determined based on the value.
  • Patent Document 1 and Patent Document 2 are known as examples used for noise removal. These perform FFT on the input signal, remove the noise on the spectrum, reflect the result in the spectrum, and convert it into the output signal by inverse FFT to reduce the noise. Patent Document 1 and Patent Document 2 are characterized in that a spectrum is obtained using FFT, the power spectrum is added to obtain a band power, and noise is analyzed. This band power is a parameter that can analyze the presence or absence of voice or the quality of sound in addition to analyzing noise. Thus, analysis can be performed with high accuracy by using FFT.
  • An object of the present invention is to cut out a part of an input signal and perform Fourier transform, thereby reducing the amount of calculation necessary for calculating the channel power, and expanding and smoothing the channel power of the cut-out signal. Accordingly, it is an object to provide a band power calculation device and a band power calculation method capable of obtaining channel power with the same accuracy as when channel power is obtained from all input signals.
  • the band power calculation apparatus includes a cutting unit that cuts out a part of an input signal, a Fourier transform unit that generates a spectrum signal by performing Fourier transform on the signal cut out by the cutting unit, and the Fourier transform.
  • the calculation means for calculating the channel power of each frequency from the spectrum signal generated by the means, and the channel power calculated by the calculation means are expanded to a channel power equivalent to the channel power calculated from the input signal and the expanded
  • the power generation means for smoothing the expanded channel power and the power generation means smoothed Band power acquisition that acquires channel band power by adding channel power A configuration that includes a stage, the.
  • the band power calculation method of the present invention includes a step of cutting out a part of an input signal, a step of generating a spectrum signal by performing Fourier transform on the cut-out signal, and a channel power of each frequency from the generated spectrum signal. And calculating the calculated channel power to a channel power equivalent to the channel power calculated from the input signal and performing an operation using the expanded channel power and a predetermined constant on the higher frequency side.
  • the step of smoothing the expanded channel power by sequentially performing from the lower side to the lower side, and adding the smoothed channel power to obtain a predetermined band of power .
  • the present invention by cutting out a part of an input signal and performing Fourier transform, it is possible to reduce the amount of calculation necessary for calculating the channel power, and to expand and smooth the channel power of the cut-out signal. As a result, it is possible to obtain channel power with the same accuracy as when channel power is obtained from all input signals.
  • the inventor of the present invention pays attention to the fact that it is not necessary to perform the Fourier transform with high accuracy to obtain the channel power when obtaining the band power, and a band having the same accuracy even if a part of the input signal is used. I arrived at a more specific idea to gain power.
  • the inventor has invented a method of extending by using a plurality of channel power values in a part of the input signal, but it has been found that the method cannot obtain sufficient accuracy. Therefore, the inventor has invented an interpolation using the correlation between the frequencies, and predetermined values (constants) for the expanded channel power of the higher frequency from the higher frequency to the lower frequency. The method of adding the product multiplied by to the expanded channel power of the lower frequency was invented.
  • the band power calculation device of the present invention was invented by combining the above ideas.
  • FIG. 1 is a block diagram showing a configuration of band power calculation apparatus 100 according to the present embodiment.
  • the band power calculation apparatus 100 includes a partial section extraction unit 101, a window function storage unit 102, a windowing unit 103, an FFT unit 104, a power calculation unit 105, an expansion unit 106, a smoothing unit 107,
  • the band information storage unit 108 and the band division unit 109 are mainly configured.
  • the power generation unit 150 includes an expansion unit 106 and a smoothing unit 107.
  • the partial section cutout unit 101 cuts out a part of the input signal.
  • the length of the input signal is “256 samples”
  • the length of the extracted signal is “128 samples”
  • the location to be extracted is the center of the interval of the input signal.
  • the minute segment cutout unit 101 cuts out a part of the input signal so that the center on the time axis of the input signal that is a time domain signal matches the center on the time axis of the cut out signal.
  • an extraction algorithm is shown in equation (1).
  • the partial section cutout unit 101 outputs the cut out signal to the windowing unit 103.
  • the window function storage unit 102 stores window functions.
  • the windowing unit 103 multiplies the cut signal input from the partial section cutout unit 101 by the window function stored in the window function storage unit 102. That is, the windowing unit 103 performs the calculation of equation (2).
  • the Hanning window shown in Equation (3) is used as the window function.
  • the windowing unit 103 outputs a signal windowed by multiplying by a window function to the FFT unit 104.
  • the FFT unit 104 performs FFT on the windowed signal input from the windowing unit 103 to obtain a complex spectrum. That is, the FFT unit 104 performs a DFT (Discrete Fourier Transform) process shown in the following equation (4) at higher speed by devising an algorithm.
  • DFT Discrete Fourier Transform
  • the FFT unit 104 outputs the obtained complex spectrum to the power calculation unit 105.
  • the power calculation unit 105 calculates the channel power of each frequency (channel power obtained from the extracted signal) from the complex spectrum input from the FFT unit 104. Specifically, the power calculation unit 105 performs the calculation of the following equation (5).
  • the power calculation unit 105 determines the channel power in the half of the complex spectrum band input from the FFT unit 104 because the channel power to be calculated is a contrast centering on half the sampling frequency. . For example, when the length of the input signal is “256” and the length of the extracted signal is “128”, the power calculation unit 105 calculates the channel power for 64 frequencies. The power calculation unit 105 outputs the obtained channel power to the expansion unit 106.
  • the extension unit 106 extends the channel power (spectrum length) input from the power calculation unit 105. Specifically, since the length of the input signal is 256 and the length of the spectrum obtained from the signal of that length is 128, the extension unit 106 has 64 frequencies obtained from the extracted signal. One channel power is expanded by storing a plurality. In other words, the extension unit 106 performs the calculation of the following equation (6).
  • the expansion unit 106 expands the channel power to the same channel power as when the channel power is obtained without cutting out the input signal according to the equation (6), and outputs the expanded channel power to the smoothing unit 107.
  • the smoothing unit 107 performs smoothing by applying an AR filter to the expanded channel power input from the expansion unit 106. Specifically, the smoothing unit 107 determines a predetermined value (constant constant) for the expanded channel power having a higher frequency from the higher frequency to the lower frequency with respect to the expanded channel power. ) Is added to the expanded channel power of the lower frequency to perform smoothing. That is, the smoothing unit 107 performs the calculation of the following equation (7).
  • the smoothing unit 107 outputs the smoothed channel power to the band dividing unit 109.
  • the band information storage unit 108 stores in advance band information (starting and ending information indicating which frequency each band is from which frequency to).
  • the band dividing unit 109 adds the channel power input from the smoothing unit 107 and adds the band power (band) of the band indicated by the information acquired from the band information storage unit 108. Power).
  • band power is obtained from the input signal. This band power is used as a parameter indicating the presence / absence or magnitude of noise, the presence / absence of voice, or the magnitude of voice.
  • Patent Document 1 how to use the band power, which is the output of the band dividing unit 109, is shown in Patent Document 1, Patent Document 2, and Non-Patent Document 1 in the case of using for determination of a voice band or noise removal.
  • Patent Document 2 an application such as visually showing the analysis result of the noise based on the band power without reflecting the voice band determination or noise removal output in the complex spectrum can be easily inferred.
  • an inverse FFT IFFT: Inverse Fourier Transform
  • IFFT Inverse Fourier Transform
  • FIG. 2 is a flowchart showing a modification of the expansion and smoothing process in the present embodiment.
  • the power generation unit 150 sets R0 indicating channel power to “0.0”, sets the index k of the frequency after expansion to “127”, Is set to “63” (step ST201).
  • power generation section 150 determines whether j is “0” or more (step ST202).
  • step ST202: NO If it is determined that j is less than “0” (step ST202: NO), the power generation unit 150 ends the process.
  • step ST202 when it is determined that j is “0” or more (step ST202: YES), the power generation unit 150 sets the channel power of the clipped signal input from the power calculation unit 105 as the value of R1. (Step ST203).
  • the power generation unit 150 sets “1” to the index i (step ST203).
  • power generation section 150 determines whether or not the value of i is “0” or more (step ST204).
  • step ST204 If it is determined that the value of i is less than “0” (step ST204: NO), power generation section 150 subtracts “1” from the value of j (step ST205), and returns the process to step ST202. .
  • step ST204 when it is determined that the value of i is “0” or more (step ST204: YES), the power generation unit 150 expands and smoothes the channel power input from the power calculation unit 105. Specifically, the power generation unit 150 multiplies the channel power input from the power calculation unit 105 this time by a predetermined constant of 0.37 to obtain a multiplication result, and the channel power input from the power calculation unit 105 this time. And the multiplication result are added to obtain a smoothed channel power (step ST206).
  • the power generation unit 150 subtracts “1” from the value of k (step ST206).
  • step ST207 power generation section 150 subtracts “1” from the value of i (step ST207), and returns the process to step ST204.
  • the power generation unit 150 expands the channel power by repeating the process of step ST204 ⁇ step ST206 ⁇ step ST207 twice, that is, by using the channel power R1 twice in the loop of i.
  • the calculation amount of the present invention is 1.5 WMOPS (weighted million operations per second) less than the conventional method. Moreover, the difference in recognition results between the prior art and the present invention is only 2.4%. As a result, it was verified that the present invention can greatly reduce the amount of calculation without changing the performance as compared with the prior art.
  • ⁇ Effects of the present embodiment> by cutting out a part of the input signal and performing Fourier transform, it is possible to reduce the amount of calculation required for calculating the channel power, and also to smooth the expanded signal power. By doing this, it is possible to obtain channel power with the same accuracy as when channel power is obtained from all of the input signals.
  • the memory ep i for storing the expanded channel power is Since it can be made unnecessary, memory capacity can be saved.
  • a stable frequency analysis can be performed even when the number of samples is small by multiplying a cut-out signal with a small number of samples by a window function.
  • a part of the input signal is cut out so that the center on the time axis of the input signal, which is a time domain signal, matches the center on the time axis of the cut out signal.
  • the window function is a Hanning window
  • the end point of the cut signal becomes “0”, and more stable frequency analysis can be performed.
  • the Fourier transform can be performed with a smaller order than the case where the band power is obtained by performing the Fourier transform without cutting out the input signal, so that the amount of calculation can be reduced.
  • the length of the input signal is 256.
  • the present invention is not limited to this, and the length may be 512 or 1024, or may be 512 or 1024. Also, the same great effect as in the present embodiment can be obtained.
  • the length of the input signal is not limited to a power of 2, but can be any length such as 200 or 300. When the length of the input signal is set to 200 or 300, the length for performing the FFT becomes long, so that the effect of reducing the calculation amount of the present invention becomes larger.
  • the length of the cut out signal is 128.
  • the present invention is not limited to this, and the length of the cut out signal may be 64 or 32.
  • the length of the signal to be cut out does not have to be a power of 2. If the length of the signal to be cut out is reduced, the performance decreases, but the degree of reduction in the calculation amount increases.
  • the length of the signal to be cut out can be set depending on the application or purpose.
  • the center of the signal to be cut out matches the center of the input signal.
  • the present invention is not limited to this, and the center of the signal to be cut out may not match the center of the input signal. Good. However, it has been proved by experiments that it is preferable that the center of the signal to be extracted matches the center of the input signal.
  • the constant used for smoothing is 0.37.
  • the present invention is not limited to this and may be a numerical value other than 0.37. If the constant is large, the constant is more stable, but the follow-up with respect to the change in the band is delayed, and the performance is deteriorated. However, it has been verified that if the constant is small, the smoothing effect does not appear and the performance tends to deteriorate.
  • the constant may be changed depending on the length of the section where the input signal is cut out. At this time, a plurality of constants may be stored in advance, and the constants may be selected adaptively according to the length of the section from which the input signal is cut out.
  • smoothing is performed by applying the AR filter.
  • the present invention is not limited to this, and smoothing may be performed by a method other than applying the AR filter.
  • the present invention can be applied to speech recognition / synthesis or speech encoding, image recognition or image encoding, or the like. This is because the present invention obtains the band power and does not depend on the purpose of the entire system using the band power.
  • the present invention is suitable for a band power calculation device and a band power calculation method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 チャネルパワーの算出に必要な計算量を削減し、かつ、入力信号の全てからチャネルパワーを求めた場合と同様の精度のチャネルパワーを得る帯域パワー算出装置。この装置では、部分区間切出部(101)は、入力信号の一部を切り出す。FFT部(104)は、切り出した信号をフーリエ変換し、スペクトル信号を生成する。パワー算出部(105)は、スペクトル信号から各周波数のチャネルパワーを算出する。パワー生成部(150)は、チャネルパワーを、入力信号から算出するチャネルパワーと同等のチャネルパワーまで拡張し、かつ、拡張したチャネルパワーと所定の定数とを用いた演算を周波数の高い方から低い方に向かって順次行うことにより、拡張したチャネルパワーの平滑化を行う。

Description

帯域パワー算出装置及び帯域パワー算出方法
 本発明は、帯域パワー算出装置及び帯域パワー算出方法に関する。
 移動体通信においては伝送帯域の有効利用のために音声または画像のディジタル情報の圧縮符号化が必須である。その中でも携帯電話で広く利用された音声コーデック(符号化/復号化)技術に対する期待は大きく、圧縮率の高い従来の高効率符号化に更によりよい音質の要求が強まっている。また、公衆で使用されるために標準化が必須であり、それに伴う知的財産権の強さゆえに世界の各社で研究開発が盛んに行われている。近年では音声と音楽との双方を符号化できるコーデックの標準化がITU-T(International Telecommunication Union - Telecommunication Standardization Sector)またはMPEG(Moving Picture Experts Group)で検討されており、より効率的で高品質の音声コーデックが求められている。
 また、携帯電話またはカーナビを中心として音声を認識する技術の実用化がなされるようになった。世界の数多くのベンチャー企業は、合併を繰り返して少数の企業に集約されており、様々な企業の製品に同社の音声認識が使われるようになっている。
 その中で、音声コーデックでは多様な音声帯域の入力信号を符号化する規格コーデック(ITU-T G.729.1、G.718)が標準化されており、その中ではフーリエ変換(FFT:Fast Fourier Transform)(以下、「FFT」と記載する)でパワースペクトルを用いた後、帯域パワーを求めて入力信号の帯域を決定している。
 また、音声符号化及び音声認識で問題となるのが「環境ノイズ」であり、これを除去する技術も盛んに研究されてきた。またノイズ除去以外にも、入力信号をFFTによってスペクトルに変換して、ノイズまたは音声の有無の検出などを行う技術も研究が進んでいる。特にプロセッサの高速化により、近年では従来から使われているフィルターバンク以外にも、FFTによって精度よくスペクトルを分析する方法が採用されるようになり、そこから求めた帯域パワーを用いてノイズの分析を行っている。
 FFTを用いてスペクトルの帯域パワーを求める技術は、雑音除去(ノイズキャンセラまたはノイズサプレッサとも呼ばれる)、音声帯域の決定、音声の検出または音声認識などに使用されている。
 音声符号化における入力信号の帯域の決定に用いた例としては、非特許文献1が知られている。これは、入力信号に対してFFTを行い、パワースペクトルを求めた後で指定された周波数に対して加算して帯域パワーを求め、その値に基づいて入力信号の帯域を決定している。
 また、雑音除去に用いた例としては、特許文献1及び特許文献2が知られている。これらは、入力信号に対してFFTを行い、ノイズをスペクトル上で除去した後、スペクトルに結果を反映させて、逆FFTにより出力信号に変換することによりノイズを削減する。特許文献1及び特許文献2は、FFTを用いてスペクトルを求め、そのパワースペクトルを加算して帯域パワーを求めて雑音を分析していることに特徴がある。この帯域パワーは、雑音を分析する以外にも、音声の有無、または音の質を分析することができるパラメータである。このように、FFTを用いることにより、精度良く分析を行うことができる。
特開2001-134287号公報 特開2005-202222号公報
ITU-T標準G.718の規格書(6.1.4~6.1.6章)
 しかしながら、従来の装置においては、FFTの計算量の削減方法については研究し尽くされており、全体の計算量に余裕がない場合などにおいて、FFTの計算量を削減できないことにより、計算に伴う処理負荷が増大するという問題がある。
 本発明の目的は、入力信号の一部を切り出してフーリエ変換することにより、チャネルパワーの算出に必要な計算量を削減することができるとともに、切り出した信号のチャネルパワーを拡張して平滑化することにより、入力信号の全てからチャネルパワーを求めた場合と同様の精度のチャネルパワーを得ることができる帯域パワー算出装置及び帯域パワー算出方法を提供することである。
 本発明の帯域パワー算出装置は、入力信号の一部を切り出す切出手段と、前記切出手段により切り出した信号に対してフーリエ変換することによりスペクトル信号を生成するフーリエ変換手段と、前記フーリエ変換手段により生成したスペクトル信号より各周波数のチャネルパワーを算出する算出手段と、前記算出手段により算出したチャネルパワーを、前記入力信号より算出するチャネルパワーと同等のチャネルパワーまで拡張するとともに、前記拡張したチャネルパワーと所定の定数とを用いた演算を周波数の高い方から低い方に向かって順次行うことにより、前記拡張したチャネルパワーの平滑化を行うパワー生成手段と、前記パワー生成手段により平滑化したチャネルパワーを加算して所定帯域のパワーを取得する帯域パワー取得手段と、を具備する構成を採る。
 本発明の帯域パワー算出方法は、入力信号の一部を切り出すステップと、前記切り出した信号に対してフーリエ変換することによりスペクトル信号を生成するステップと、前記生成したスペクトル信号より各周波数のチャネルパワーを算出するステップと、前記算出したチャネルパワーを、前記入力信号より算出するチャネルパワーと同等のチャネルパワーまで拡張するとともに、前記拡張したチャネルパワーと所定の定数とを用いた演算を周波数の高い方から低い方に向かって順次行うことにより、前記拡張したチャネルパワーの平滑化を行うステップと、前記平滑化したチャネルパワーを加算して所定帯域のパワーを取得するステップと、を具備するようにした。
 本発明によれば、入力信号の一部を切り出してフーリエ変換することにより、チャネルパワーの算出に必要な計算量を削減することができるとともに、切り出した信号のチャネルパワーを拡張して平滑化することにより、入力信号の全てからチャネルパワーを求めた場合と同様の精度のチャネルパワーを得ることができる。
本発明の実施の形態に係る帯域パワー算出装置の構成を示すブロック図 本発明の実施の形態における拡張及び平滑化の処理の変形例を示すフロー図
 (発明に至るまでの経緯)
 本発明の発明者は、帯域パワーを求める際に、高精度でフーリエ変換を行ってチャネルパワーを求める必要はないということに着目し、入力信号の一部を用いても同様の精度を有する帯域パワーを得るための、より具体的な発想に辿り着いた。
 この際、入力信号の一部の区間に対するFFTにより得られるチャネルパワーは、入力信号の全区間に対するFFTにより得られるチャネルパワーよりも短いので、出力しなければならないチャネルパワーまで拡張する必要がある。その方法として、発明者は、入力信号の一部の区間のチャネルパワーの値を複数用いて拡張するという方法を発案したが、その方法では十分な精度が得られないことが分かった。そこで、発明者は、周波数間の相関を利用して補間することを発案し、周波数の高い方から低い方に向かって、周波数の高い方の拡張されたチャネルパワーに予め定めた値(定数)を乗じたものを、周波数の低い方の拡張されたチャネルパワーに加算するという方法を発案した。
 上記の発案を組み合わせることにより、本発明の帯域パワー算出装置を発明した。
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
 (実施の形態)
 <帯域パワー算出装置の構成>
 本発明の実施の形態に係る帯域パワー算出装置100の構成について、図1を用いて説明する。図1は、本実施の形態に係る帯域パワー算出装置100の構成を示すブロック図である。
 帯域パワー算出装置100は、部分区間切出部101と、窓関数格納部102と、窓掛け部103と、FFT部104と、パワー算出部105と、拡張部106と、平滑化部107と、バンド情報格納部108と、バンド分割部109とから主に構成されている。パワー生成部150は、拡張部106及び平滑化部107を含んでいる。
 部分区間切出部101は、入力信号の一部を切り出す。本実施の形態では、一例として、入力信号の長さを「256サンプル」とし、切り出された信号の長さを「128サンプル」とし、切り出す場所を入力信号の区間の中心とする。即ち、分部区間切出部101は、時間領域信号である入力信号の時間軸上の中心と切り出した信号の時間軸上の中心とが一致するように入力信号の一部を切り出す。この場合の、切り出すアルゴリズムを(1)式に示す。
Figure JPOXMLDOC01-appb-M000001
 部分区間切出部101は、切り出した信号を窓掛け部103に出力する。
 窓関数格納部102は、窓関数を格納している。
 窓掛け部103は、部分区間切出部101から入力した切り出された信号に対して、窓関数格納部102に格納されている窓関数を乗ずる。即ち、窓掛け部103は、(2)式の演算を行う。
Figure JPOXMLDOC01-appb-M000002
 本実施の形態では、窓関数として、(3)式に示すハニング窓を用いる。
Figure JPOXMLDOC01-appb-M000003
 窓掛け部103は、窓関数を乗じることにより窓掛けされた信号をFFT部104に出力する。
 FFT部104は、窓掛け部103から入力した窓掛けされた信号に対してFFTを行い、複素スペクトルを求める。即ち、FFT部104は、以下の(4)式に示すDFT(Discrete Fourier Transform)の処理を、アルゴリズムを工夫することにより、より高速に行う。
Figure JPOXMLDOC01-appb-M000004
 例えば、入力信号の長さを「256」とし、切り出された信号の長さを「128」とした場合には、FFTの次数は「7」である。FFT部104は、求めた複素スペクトルをパワー算出部105に出力する。
 パワー算出部105は、FFT部104から入力した複素スペクトルから各周波数のチャネルパワー(切り出された信号から求めたチャネルパワー)を算出する。具体的には、パワー算出部105は、以下の(5)式の演算を行う。
Figure JPOXMLDOC01-appb-M000005
 パワー算出部105は、求めるチャネルパワーはサンプリング周波数の半分の周波数を中心として対照であるので、実際にはFFT部104から入力した複素スペクトルの帯域のうちの半分の帯域のチャネルパワーを求めればよい。例えば、パワー算出部105は、入力信号の長さを「256」とし、切り出された信号の長さを「128」とした場合には、64の周波数についてチャネルパワーを求めることになる。パワー算出部105は、求めたチャネルパワーを拡張部106に出力する。
 拡張部106は、パワー算出部105から入力したチャネルパワー(スペクトルの長さ)を拡張する。具体的には、拡張部106は、入力信号の長さは256であり、その長さの信号から求められるスペクトルの長さは128であるので、切り出された信号から求めた64の周波数についてのチャネルパワーの1つを、複数格納することにより拡張する。即ち、拡張部106は、以下の(6)式の演算を行う。
Figure JPOXMLDOC01-appb-M000006
 拡張部106は、(6)式により、入力信号を切り出さずにチャネルパワーを求めた際と同等のチャネルパワーに拡張し、拡張したチャネルパワーを平滑化部107に出力する。
 平滑化部107は、拡張部106から入力した拡張されたチャネルパワーに対してARフィルタを掛けることにより平滑化を行う。具体的には、平滑化部107は、拡張されたチャネルパワーに対して、周波数の高い方から低い方に向かって、周波数の高い方の拡張されたチャネルパワーに対して予め定めた値(定数)を乗じたものを、周波数の低い方の拡張されたチャネルパワーに加算していくことによって平滑化を行う。即ち、平滑化部107は、以下の(7)式の演算を行う。
Figure JPOXMLDOC01-appb-M000007
 平滑化部107は、平滑化したチャネルパワーをバンド分割部109に出力する。
 バンド情報格納部108は、加算して纏める帯域(バンド)の情報(各バンドがどの周波数からどの周波数までかを示す始端及び終端の情報)を予め格納している。
 バンド分割部109は、(8)式に示すように、平滑化部107から入力したチャネルパワーを加算して、バンド情報格納部108から取得した情報が示す加算して纏める帯域の帯域パワー(バンドパワー)を得る。
Figure JPOXMLDOC01-appb-M000008
 以上のようにして入力信号から帯域パワーを得る。この帯域パワーはノイズの有無、大きさ、音声の有無または音声の大きさなどを示すパラメータとして使用される。
 因みに、バンド分割部109の出力である帯域パワーをどのように使用するかについては、特許文献1、特許文献2及び非特許文献1において、音声帯域の決定またはノイズ除去に使用する場合について示されている。ここで、これらの文献において、音声帯域の決定またはノイズ除去の出力を複素スペクトルに反映せずに、帯域パワーに基づくノイズの分析結果を視覚的に示すなどの応用は容易に類推できる。その場合には、逆FFT(IFFT:Inverse Fast Fourier Transform)は不要になり、パワースペクトルそのものを保持しておく必要もない。また、入力信号のどの周波数帯域に音が集中しているかの分析もこの帯域パワーに基づいて実現できる。高周波数帯域にあまり信号がない場合を検出するなど、帯域パワーの大きさから明らかに判定できる。また、スペクトルグラムの代用として、連続する帯域パワーを使用することもできる。したがって、本実施の形態は、音声認識または話者認識に使用できることは明らかである。
 <拡張及び平滑化の処理の変形例>
 本発明の実施の形態における拡張部106及び平滑化部107における上記処理の変形例を、図2を用いて説明する。図2は、本実施の形態における拡張及び平滑化の処理の変形例を示すフロー図である。
 拡張部106及び平滑化部107の上記処理は、(9)式に示すように、パワー生成部150において、1つの2重ループ内で計算することができる。
Figure JPOXMLDOC01-appb-M000009
 具体的には、図2より、まず、パワー生成部150は、チャネルパワーを示すR0を「0.0」に設定し、拡張後の周波数のインデックスkを「127」に設定するとともに、拡張前の周波数のインデックスjを「63」に設定する(ステップST201)。
 次に、パワー生成部150は、jが「0」以上であるか否かを判定する(ステップST202)。
 jが「0」未満であると判定した場合(ステップST202:NO)には、パワー生成部150は、処理を終了する。
 一方、jが「0」以上であると判定した場合(ステップST202:YES)には、パワー生成部150は、パワー算出部105から入力した切り出された信号のチャネルパワーをR1の値として設定する(ステップST203)。
 また、パワー生成部150は、インデックスiに「1」を設定する(ステップST203)。
 次に、パワー生成部150は、iの値が「0」以上であるか否かを判定する(ステップST204)。
 iの値が「0」未満であると判定した場合(ステップST204:NO)には、パワー生成部150は、jの値から「1」を減算し(ステップST205)、ステップST202に処理を戻す。
 一方、iの値が「0」以上であると判定した場合(ステップST204:YES)には、パワー生成部150は、パワー算出部105から入力したチャネルパワーを拡張及び平滑化する。具体的には、パワー生成部150は、パワー算出部105から今回入力したチャネルパワーに所定の定数である0.37を乗算して乗算結果を得るとともに、パワー算出部105から今回入力したチャネルパワーと乗算結果とを加算して平滑化されたチャネルパワーを得る(ステップST206)。
 また、パワー生成部150は、kの値から「1」を減算する(ステップST206)。
 次に、パワー生成部150は、iの値から「1」を減算し(ステップST207)、ステップST204に処理を戻す。パワー生成部150は、ステップST204→ステップST206→ステップST207の処理を2回繰り返すことにより、即ちチャネルパワーであるR1がiのループ内で2度使用されることにより、チャネルパワーを拡張する。
 <実験結果>
 本実施の形態の性能を検証するために音声データを用いた実験を行ったので、その結果について報告する。
 本実験では、帯域パワーを分析して音声の帯域幅を認識する実験を行った。この実験では、入力信号の全部をFFTして求めたパワースペクトルを用いて帯域パワーを求める従来の場合と、本発明により帯域パワーを求めた場合とで、その計算量及び認識性能を比較した。入力信号のサンプリングレートは48kHz、フレーム長は256、部分区間長は128である。評価データとしては男女8名分のそれぞれ約4秒の日本語の音声データを連結したデータを用いた。この連結データは途中で3.4kHzまで、7kHzまで、14kHzまで、制限なしの4つの帯域が入れ替わり現れるように作成した。実験の結果、本発明の方が、従来よりも計算量において1.5WMOPS(weighted million operations per second)少なくなった。また、従来と本発明との認識結果の違いは2.4%のみである。これより、本発明は、従来に比べて、性能を変えずに大きく計算量を削減できることが検証された。
 <本実施の形態の効果>
 本実施の形態によれば、入力信号の一部を切り出してフーリエ変換することにより、チャネルパワーの算出に必要な計算量を削減することができるとともに、切り出した信号のパワーを拡張して平滑化することにより、入力信号の全てからチャネルパワーを求めた場合と同様の精度のチャネルパワーを得ることができる。
 また、本実施の形態によれば、チャネルパワーの拡張及び拡張したチャネルパワーの平滑化の処理を1つの2重ループ内で計算する場合には、拡張されたチャネルパワーを格納するメモリeppを不要にすることができるので、メモリ容量を節約することができる。
 また、本実施の形態によれば、サンプル数の少ない切り出した信号に窓関数を乗ずることにより、サンプル数が少ない場合であっても安定した周波数分析を行うことができる。
 また、本実施の形態によれば、時間領域信号である入力信号の時間軸上の中心と切り出した信号の時間軸上の中心とが一致するように入力信号の一部を切り出すことにより、切り出した信号を用いて周波数分析を行う際に、入力信号を代表する周波数分析を行うことができ、精度の高い帯域パワーを得ることができる。
 また、本実施の形態によれば、窓関数をハニング窓にした場合には、切り出した信号の端点が「0」になり、より安定した周波数分析を行うことができる。
 また、本実施の形態によれば、入力信号を切り出さずにフーリエ変換して帯域パワーを取得する場合よりも小さい次数でフーリエ変換することができるので、計算量を削減することができる。
 <本実施の形態の変形例>
 なお、上記実施の形態において、入力信号の長さを256にしたが、本発明はこれに限らず、512または1024などの長さでもよく、512または1024などの長さにした場合であっても本実施の形態と同様の大きな効果を得ることができる。この際、入力信号の長さは、2の何乗に限らず、200または300などの任意の長さにすることができる。入力信号の長さを200または300にした場合には、FFTを行う長さが長くなるので、本発明の計算量削減の効果はより大きなものになる。
 また、上記実施の形態において、切り出した信号の長さを128としたが、本発明はこれに限らず、切り出す信号の長さを64または32にしてもよい。この際、切り出す信号の長さは、2の何乗という長さでなくてもよい。切り出す信号の長さを小さくすると性能は落ちるものの、計算量の削減度合いは大きくなる。切り出す信号の長さは、用途または目的によって設定することができる。
 また、上記実施の形態において、切り出す信号の中心と入力信号の中心とが一致するようにしたが、本発明はこれに限らず、切り出す信号の中心と入力信号の中心とが一致しなくてもよい。ただし、実験により、切り出す信号の中心と入力信号の中心とが一致するようにすることが好ましいことが実証されている。
 また、上記実施の形態において、平滑化に用いられる定数を0.37としたが、本発明はこれに限らず、0.37以外の数値でも良い。定数は、大きいとより安定するが、帯域の変化に対しての追従が遅くなり性能が劣化する。しかし、定数が小さいと平滑化の効果が出ず、やはり性能が劣化するという傾向があることを検証している。実用化の際には帯域パワー算出装置を設計後、最後にこの定数を調整するという設計手順が必要になる。定数は、入力信号を切り出す区間の長さ等によって変更してもよい。この際、複数の定数をあらかじめ格納しておいて、入力信号を切り出す区間の長さに応じて、適応的に定数を選択するようにしてもよい。
 また、上記実施の形態において、ARフィルタを掛けて平滑化を行ったが、本発明はこれに限らず、ARフィルタを掛ける以外の方法により平滑化を行ってもよい。
 また、本発明は、音声認識・合成若しくは音声符号化、または画像認識若しくは画像符号化などにも応用することができることは明らかである。本発明は、帯域パワーを求めるものであり、帯域パワーを用いるシステム全体の目的に依存しないからである。
 2012年3月23日出願の特願2012-067913の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明は、帯域パワー算出装置及び帯域パワー算出方法に好適である。
 100 帯域パワー算出装置
 101 部分区間切出部
 102 窓関数格納部
 103 窓掛け部
 104 FFT部
 105 パワー算出部
 106 拡張部
 107 平滑化部
 108 バンド情報格納部
 109 バンド分割部
 150 パワー生成部

Claims (6)

  1.  入力信号の一部を切り出す切出手段と、
     前記切出手段により切り出した信号に対してフーリエ変換することによりスペクトル信号を生成するフーリエ変換手段と、
     前記フーリエ変換手段により生成したスペクトル信号より各周波数のチャネルパワーを算出する算出手段と、
     前記算出手段により算出したチャネルパワーを、前記入力信号より算出するチャネルパワーと同等のチャネルパワーまで拡張するとともに、前記拡張したチャネルパワーと所定の定数とを用いた演算を周波数の高い方から低い方に向かって順次行うことにより、前記拡張したチャネルパワーの平滑化を行うパワー生成手段と、
     前記パワー生成手段により平滑化したチャネルパワーを加算して所定帯域のパワーを取得する帯域パワー取得手段と、
     を具備する帯域パワー算出装置。
  2.  前記切出手段は、
     時間領域信号である前記入力信号の時間軸上の中心と前記切り出した信号の時間軸上の中心とが一致するように前記入力信号の一部を切り出す、
     請求項1記載の帯域パワー算出装置。
  3.  前記切出手段により切り出した信号にハニング窓を乗算する窓掛け手段をさらに具備し、
     前記フーリエ変換手段は、
     前記窓掛け手段によりハニング窓を乗算した前記切り出した信号に対してフーリエ変換する、
     請求項1記載の帯域パワー算出装置。
  4.  前記フーリエ変換手段は、
     前記入力信号を切り出さずにフーリエ変換して前記所定帯域のパワーを取得する場合よりも小さい次数で前記切り出した信号をフーリエ変換する、
     請求項1記載の帯域パワー算出装置。
  5.  前記パワー生成手段は、
     前記スペクトル信号の所定帯域毎に、前記拡張及び前記平滑化を行う、
     請求項1記載の帯域パワー算出装置。
  6.  入力信号の一部を切り出すステップと、
     前記切り出した信号に対してフーリエ変換することによりスペクトル信号を生成するステップと、
     前記生成したスペクトル信号より各周波数のチャネルパワーを算出するステップと、
     前記算出したチャネルパワーを、前記入力信号より算出するチャネルパワーと同等のチャネルパワーまで拡張するとともに、前記拡張したチャネルパワーと所定の定数とを用いた演算を周波数の高い方から低い方に向かって順次行うことにより、前記拡張したチャネルパワーの平滑化を行うステップと、
     前記平滑化したチャネルパワーを加算して所定帯域のパワーを取得するステップと、
     を具備する帯域パワー算出方法。
PCT/JP2013/001486 2012-03-23 2013-03-08 帯域パワー算出装置及び帯域パワー算出方法 WO2013140733A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014505998A JP6140685B2 (ja) 2012-03-23 2013-03-08 帯域パワー算出装置及び帯域パワー算出方法
EP13763720.3A EP2830066B1 (en) 2012-03-23 2013-03-08 Band power computation device and band power computation method
US14/386,523 US9581623B2 (en) 2012-03-23 2013-03-08 Band power computation device and band power computation method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012067913 2012-03-23
JP2012-067913 2012-03-23

Publications (1)

Publication Number Publication Date
WO2013140733A1 true WO2013140733A1 (ja) 2013-09-26

Family

ID=49222217

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/001486 WO2013140733A1 (ja) 2012-03-23 2013-03-08 帯域パワー算出装置及び帯域パワー算出方法

Country Status (4)

Country Link
US (1) US9581623B2 (ja)
EP (1) EP2830066B1 (ja)
JP (1) JP6140685B2 (ja)
WO (1) WO2013140733A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11121784B2 (en) * 2017-05-11 2021-09-14 Keysight Technologies, Inc. Method and device for detecting power of a periodic signal in a band of interest

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134287A (ja) 1999-11-10 2001-05-18 Mitsubishi Electric Corp 雑音抑圧装置
JP2005202222A (ja) 2004-01-16 2005-07-28 Toshiba Corp ノイズサプレッサ及びノイズサプレッサを備えた音声通信装置
JP2006180354A (ja) * 2004-12-24 2006-07-06 Matsushita Electric Ind Co Ltd 不平衡成分解析装置、通信装置及び不平衡成分解析方法
JP2009058708A (ja) * 2007-08-31 2009-03-19 Internatl Business Mach Corp <Ibm> 音声処理システム、方法及びプログラム
JP2009150707A (ja) * 2007-12-19 2009-07-09 Mitsubishi Electric Corp レーダ装置
JP2010025972A (ja) * 2008-07-15 2010-02-04 Kawai Musical Instr Mfg Co Ltd コード名検出装置及びコード名検出用プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4163294B2 (ja) * 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US9530430B2 (en) * 2013-02-22 2016-12-27 Mitsubishi Electric Corporation Voice emphasis device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134287A (ja) 1999-11-10 2001-05-18 Mitsubishi Electric Corp 雑音抑圧装置
JP2005202222A (ja) 2004-01-16 2005-07-28 Toshiba Corp ノイズサプレッサ及びノイズサプレッサを備えた音声通信装置
JP2006180354A (ja) * 2004-12-24 2006-07-06 Matsushita Electric Ind Co Ltd 不平衡成分解析装置、通信装置及び不平衡成分解析方法
JP2009058708A (ja) * 2007-08-31 2009-03-19 Internatl Business Mach Corp <Ibm> 音声処理システム、方法及びプログラム
JP2009150707A (ja) * 2007-12-19 2009-07-09 Mitsubishi Electric Corp レーダ装置
JP2010025972A (ja) * 2008-07-15 2010-02-04 Kawai Musical Instr Mfg Co Ltd コード名検出装置及びコード名検出用プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"ITU-T G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s", ITU, 2008
See also references of EP2830066A4

Also Published As

Publication number Publication date
JP6140685B2 (ja) 2017-05-31
EP2830066A1 (en) 2015-01-28
EP2830066B1 (en) 2017-10-11
US20150100258A1 (en) 2015-04-09
EP2830066A4 (en) 2015-06-17
US9581623B2 (en) 2017-02-28
JPWO2013140733A1 (ja) 2015-08-03

Similar Documents

Publication Publication Date Title
EP2272062B1 (en) An audio signal classifier
JP5127754B2 (ja) 信号処理装置
US8639500B2 (en) Method, medium, and apparatus with bandwidth extension encoding and/or decoding
JP4818335B2 (ja) 信号帯域拡張装置
RU2510536C2 (ru) Устройство сглаживания спектра, устройство кодирования, устройство декодирования, устройство терминала связи, устройство базовой станции и способ сглаживания спектра
EP2005423B1 (en) Processing of excitation in audio coding and decoding
RU2733278C1 (ru) Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке спектрального улучшения аудиосигнала
KR20120090086A (ko) 협대역 신호로부터의 상위대역 신호의 결정
KR102380487B1 (ko) 오디오 신호 디코더에서의 개선된 주파수 대역 확장
KR20130133848A (ko) 스펙트럼 도메인 잡음 형상화를 사용하는 선형 예측 기반 코딩 방식
JP6073456B2 (ja) 音声強調装置
US10170126B2 (en) Effective attenuation of pre-echoes in a digital audio signal
KR20160075790A (ko) 오디오 프레임 손실 은폐
JP5295372B2 (ja) デジタルオーディオ信号におけるプリエコーの減衰
AU2015295624B2 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
JP5443547B2 (ja) 信号処理装置
JP6728142B2 (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
US10431226B2 (en) Frame loss correction with voice information
US9093068B2 (en) Method and apparatus for processing an audio signal
JP6140685B2 (ja) 帯域パワー算出装置及び帯域パワー算出方法
WO2010098130A1 (ja) トーン判定装置およびトーン判定方法
Dörfler et al. Adaptive Gabor frames by projection onto time-frequency subspaces
KR20220050924A (ko) 오디오 코딩을 위한 다중 래그 형식
JP6371530B2 (ja) 音声信号処理装置及び音声ピッチ変換プログラム
JP2016024454A (ja) 音声帯域拡張装置および音声帯域拡張方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13763720

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014505998

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14386523

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2013763720

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2013763720

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE