JPWO2010098130A1 - トーン判定装置およびトーン判定方法 - Google Patents
トーン判定装置およびトーン判定方法 Download PDFInfo
- Publication number
- JPWO2010098130A1 JPWO2010098130A1 JP2011501521A JP2011501521A JPWO2010098130A1 JP WO2010098130 A1 JPWO2010098130 A1 JP WO2010098130A1 JP 2011501521 A JP2011501521 A JP 2011501521A JP 2011501521 A JP2011501521 A JP 2011501521A JP WO2010098130 A1 JPWO2010098130 A1 JP WO2010098130A1
- Authority
- JP
- Japan
- Prior art keywords
- tone
- unit
- input signal
- encoding
- sdft
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 115
- 239000013598 vector Substances 0.000 claims abstract description 127
- 238000006243 chemical reaction Methods 0.000 claims description 31
- 238000004904 shortening Methods 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 abstract description 59
- 238000010219 correlation analysis Methods 0.000 abstract description 50
- 238000010586 diagram Methods 0.000 description 28
- 238000005070 sampling Methods 0.000 description 17
- 230000003044 adaptive effect Effects 0.000 description 14
- 230000005284 excitation Effects 0.000 description 12
- 230000008878 coupling Effects 0.000 description 10
- 238000010168 coupling process Methods 0.000 description 10
- 238000005859 coupling reaction Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 230000006866 deterioration Effects 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q1/00—Details of selecting apparatus or arrangements
- H04Q1/18—Electrical details
- H04Q1/30—Signalling arrangements; Manipulation of signalling currents
- H04Q1/44—Signalling arrangements; Manipulation of signalling currents using alternate current
- H04Q1/444—Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
- H04Q1/46—Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Error Detection And Correction (AREA)
Abstract
現フレームの周波数成分と前フレームの周波数成分との相関により入力信号のトーン性を判定するトーン判定装置において、計算量を低減させることができるトーン判定装置。この装置において、ベクトル結合部(104)は、前フレームのSDFT係数の一部と、前フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数を生成するとともに、現フレームのSDFT係数の一部と、現フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数を生成し、相関分析部(105)は、SDFT係数のフレーム間での相関を求めるとともに、現フレームのパワーを一定の帯域毎に求め、帯域決定部(106)は、パワーが最大となる帯域を決定し、決定した帯域の位置情報をシフト情報として出力し、トーン判定部(107)は、相関分析部(105)から入力される相関の値に応じて入力信号のトーン性を判定する。
Description
本発明は、トーン判定装置およびトーン判定方法に関する。
ディジタル無線通信や、インターネット通信に代表されるパケット通信、または、音声蓄積などの分野においては、電波などの伝送路の容量や記憶媒体の有効利用を図るため、音声信号の符号化/復号化技術が不可欠であり、これまでに多くの音声符号化/復号化方式が開発されてきた。その中で、CELP(Code Excited Linear Prediction)方式の音声符号化/復号化方式が主流の方式として実用化されている。
CELP方式の音声符号化装置は、予め記憶された音声モデルに基づいて入力音声をコード化する。具体的には、CELP方式の音声符号化装置は、ディジタル化された音声信号を10〜20ms程度のフレームに区切り、フレーム毎に音声信号の線形予測分析を行い、線形予測係数と線形予測残差ベクトルを求め、線形予測係数と線形予測残差ベクトルをそれぞれ個別に符号化する。
また、入力信号に応じてビットレートを変更する可変レート符号化装置も実現されている。可変レート符号化装置では、入力信号が主に音声情報を多く含む場合には高いビットレートで入力信号を符号化し、入力信号が主に雑音情報を多く含む場合には低いビットレートで入力信号を符号化することが可能である。すなわち、重要な情報を多く含む場合には高品質な符号化により、復号化装置側で再生される出力信号の高品質化を図る一方で、重要性が低い場合には低品質な符号化に抑えることにより、電力、伝送帯域等を節約することができる。このように、入力信号の特徴(例えば、有声性、無声性、トーン性等)を検出し、検出結果に応じて符号化方法を変更することにより、入力信号の特徴に適した符号化を行うことができ、符号化性能を向上させることができる。
入力信号が音声情報であるか、雑音情報であるかを分類する方法としてVAD(Voice Active Detector)がある。具体的には、(1)入力信号を量子化してクラス分類を行い、クラス情報から音声情報/雑音情報を分類する方法、(2)入力信号の基本周期を求め、基本周期の長さだけ遡った信号と現信号との相関の高さに応じて音声情報/雑音情報を分類する方法、(3)入力信号の周波数成分の時間変動を調べ、変動情報に応じて音声情報/雑音情報を分類する方法等がある。
また、SDFT(Shifted Discrete Fourier Transform)により入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との相関の高さに応じて入力信号のトーン性を分類する技術がある(例えば、特許文献1)。上記特許文献1開示の技術では、トーン性に応じて周波数帯域拡張の方法を切り替えることにより、符号化性能の向上を図っている。
しかしながら、上記特許文献1開示のようなトーン判定装置、すなわち、SDFTにより入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との相関により入力信号のトーン性を検出するトーン判定装置においては、すべての周波数帯域を考慮して相関を求めているため、計算量が大きくなってしまうという課題があった。
本発明の目的は、入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との相関により入力信号のトーン性を判定するトーン判定装置およびトーン判定方法において、計算量を低減させることである。
本発明のトーン判定装置は、周波数変換された入力信号のベクトル系列長を短縮する短縮処理を行う短縮手段と、ベクトル系列長短縮後のベクトル系列を用いて相関を求める相関手段と、前記相関を用いて前記入力信号のトーン性を判定する判定手段と、を具備する構成を採る。
本発明によれば、トーン判定に要する計算量を低減させることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本実施の形態に係るトーン判定装置100の主要な構成を示すブロック図である。ここでは、トーン判定装置100が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。入力信号は、音声信号であっても楽音信号であってもよい。
図1は、本実施の形態に係るトーン判定装置100の主要な構成を示すブロック図である。ここでは、トーン判定装置100が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。入力信号は、音声信号であっても楽音信号であってもよい。
図1において、周波数変換部101は、SDFTを用いて入力信号の周波数変換を行い、周波数変換により求められる周波数成分であるSDFT係数をダウンサンプリング部102とバッファ103とに出力する。
ダウンサンプリング部102は、周波数変換部101から入力されるSDFT係数に対してダウンサンプリング処理を行い、SDFT係数の系列長を短縮する。次いで、ダウンサンプリング部102は、ダウンサンプリング後のSDFT係数をバッファ103に出力する。
バッファ103は、前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数とを内部に格納しており、これら2つのSDFT係数をベクトル結合部104に出力する。次いで、バッファ103は、周波数変換部101から現フレームのSDFT係数を入力されるとともに、ダウンサンプリング部102から現フレームのダウンサンプリング後のSDFT係数を入力され、これらの2つのSDFT係数をベクトル結合部104に出力する。次いで、バッファ103は、内部に格納されている前フレームの上記2つのSDFT係数(前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数)と、現フレームの上記2つのSDFT係数(現フレームのSDFT係数と、現フレームのダウンサンプリング後のSDFT係数)とをそれぞれ入れ替えることにより、SDFT係数を更新する。
ベクトル結合部104は、バッファ103から前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数と、現フレームのSDFT係数と、現フレームのダウンサンプリング後のSDFT係数とを入力されるとともに、帯域決定部106からシフト情報を入力される。次いで、ベクトル結合部104は、前フレームのSDFT係数の一部と、前フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数(前フレーム結合SDFT係数)を生成し、この新たなSDFT係数を相関分析部105に出力する。また、ベクトル結合部104は、現フレームのSDFT係数の一部と、現フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数(現フレーム結合SDFT係数)を生成し、この新たなSDFT係数を相関分析部105に出力する。この際、どのように結合するのかは、上記シフト情報に応じて決定される。
相関分析部105は、ベクトル結合部104から前フレーム結合SDFT係数と、現フレーム結合SDFT係数とを入力され、SDFT係数のフレーム間での相関を求め、求めた相関をトーン判定部107に出力する。また、相関分析部105は、現フレームのパワーを一定の帯域毎に求め、現フレームの帯域毎のパワーをパワー情報として帯域決定部106に出力する。上記パワーは、相関を求める過程で得られる付随的な二次生成物であるため、パワーを求めるための計算を別途行う必要は無い。
帯域決定部106は、パワーが最大となる帯域は入力信号のトーン性の判定において重要な帯域であるため、相関分析部105から入力されるパワー情報を用いてパワーが最大となる帯域を決定し、決定した帯域の位置情報をシフト情報としてベクトル結合部104に出力する。
トーン判定部107は、相関分析部105から入力される相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部107は、トーン判定装置100の出力としてトーン情報を出力する。
次に、トーン判定対象となる入力信号の次数が2N次(Nは1以上の整数)である場合を例にとって、トーン判定装置100の動作について説明する。なお、以下の説明では、入力信号をx(i)(i=0,1,…,2N−1)と記す。
周波数変換部101は、入力信号x(i)(i=0,1,…,2N−1)を入力され、下記の式(1)に従って周波数変換を行い、得られたSDFT係数Y(k)(k=0,1,…,N)をダウンサンプリング部102とバッファ103とに出力する。
ここで、h(n)は窓関数であり、MDCT窓関数等が使用される。また、uは時間シフトの係数、vは周波数シフトの係数であり、例えば、u=(N+1)/2、v=1/2のように設定される。
ダウンサンプリング部102は、周波数変換部101からSDFT係数Y(k)(k=0,1,…,N)を入力され、下記の式(2)に従ってダウンサンプリング処理を行う。
ここで、n=m×2が成り立ち、mは1からN/2−1までの値をとる。m=0の場合は、ダウンサンプリングを行わずにY_re(0)=Y(0)としてもよい。ここで、フィルタ係数[j0,j1,j2,j3]には折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。例えば、入力信号のサンプリング周波数が32000Hzであるとき、j0=0.195、j1=0.3、j2=0.3、j3=0.195に設定すると良好な結果が得られることが判っている。
次いで、ダウンサンプリング部102は、ダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)をバッファ103に出力する。
バッファ103は、周波数変換部101からSDFT係数Y(k)(k=0,1,…,N)を入力されるとともに、ダウンサンプリング部102からダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)を入力される。次いで、バッファ103は、内部に格納されている前フレームのSDFT係数Y_pre(k)(k=0,1,…,N)と、前フレームのダウンサンプリング後のSDFT係数Y_re_pre(k)(k=0,1,…,N/2−1)とをベクトル結合部104に出力する。次いで、バッファ103は、現フレームのSDFT係数Y(k)(k=0,1,…,N)と、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)とをベクトル結合部104に出力する。次いで、バッファ103は、現フレームのSDFT係数Y(k)(k=0,1,…,N)をY_pre(k)(k=0,1,…,N)として内部に格納し、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)をY_re_pre(k)(k=0,1,…,N/2−1)として内部に格納する。すなわち、現フレームのSDFT係数と前フレームのSDFT係数とを入れ替えることにより、バッファの更新を行う。
ベクトル結合部104は、バッファ103から現フレームのSDFT係数Y(k)(k=0,1,…,N)と、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)と、前フレームのSDFT係数Y_pre(k)(k=0,1,…,N)と、前フレームのダウンサンプリング後のSDFT係数Y_re_pre(k)(k=0,1,…,N/2−1)とを入力されるとともに、帯域決定部106からシフト情報SHを入力される。次いで、ベクトル結合部104は、下記の式(3)に従って現フレームのSDFT係数の結合を行う。
ここで、LHは、結合に用いるSDFT係数Y(k)(k=0,1,…,N)の長さ、または、結合に用いるY_pre(k)(k=0,1,…,N)の長さである。
ベクトル結合部104での上記の結合処理の様子を表すと図2に示すようになる。
図2に示すように、結合後のSDFT係数には基本的にダウンサンプリング後のSDFT係数((1)と(3))が用いられ、シフト情報SHを先頭として長さLHの範囲に相当するSDFT係数((2))が、(1)と(2)の間に挿入されて結合が行われる。図2の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲同士を表している。すなわち、図2に示すように、シフト情報SHとは、SDFT係数Y(k)(k=0,1,…,N)またはSDFT係数Y_pre(k)(k=0,1,…,N)を、どの周波数帯域から抜き出すのかを指示する値である。ここで、抜き出す範囲の長さであるLHは、定数として適した値を予め設定しておく。LHを長くすると結合後のSDFT係数が長くなるため、後の相関を求める処理において計算量が大きくなる一方で、求める相関がより正確になる。従って、計算量と相関の正確さとのトレードオフを考慮して、LHを決めるとよい。また、LHを適応的に変化させることも可能である。
次いで、ベクトル結合部104は、現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と、前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを相関分析部105に出力する。ここで、K=(N+LH)/2−1である。
図3は、本実施の形態に係る相関分析部105の内部構成を示すブロック図である。
図3において、誤差パワー計算部201は、ベクトル結合部104から現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを入力され、下記の式(5)に従って誤差パワーSSを求める。
次いで、誤差パワー計算部201は、求めた誤差パワーSSを除算部204に出力する。
次いで、パワー計算部202は、求めたパワーSA(k)をパワー情報として加算部203と帯域決定部106(図1)とに出力する。
次いで、加算部203は、求めたパワーSAを除算部204に出力する。
除算部204は、誤差パワー計算部201から誤差パワーSSを入力されるとともに、加算部203からパワーSAを入力される。次いで、除算部204は、下記の式(8)に従って、相関Sを求め、求めた相関Sを相関情報としてトーン判定部107(図1)に出力する。
図4は、本実施の形態に係る帯域決定部106の内部構成を示すブロック図である。
図4において、重み係数格納部301は、相関分析部105(図1)がパワー情報として出力するパワーSA(k)に乗算する重み係数W(k)(k=0,1,…,N)を格納しており、この重み係数を長さKに短縮してWa(k)(k=0,1,…,K)として乗算部302に出力する。短縮の方法は、k<SHまたはSH+LH−1<kに相当する範囲において、W(k)を1つおきに間引けばよい。ここで、重み係数W(k)(k=0,1,…,N)を、低域の範囲では1.0に設定し、高域の範囲では0.9に設定する等して、低域の範囲をより重要視することが可能である。
乗算部302は、相関分析部105(図1)からパワー情報としてパワーSA(k)を入力されるとともに、重み係数格納部301から重み係数Wa(k)(k=0,1,…,K)を入力される。次いで、乗算部302は、下記の式(9)に従って、重み係数を乗じた重み付きパワーSW(k)(k=0,1,…,K)を求め、この重み付きパワーを最大パワー探索部303に出力する。
また、重み係数格納部301および乗算部302による重み付け処理を省くことも可能である。重み付け処理を省くことにより、式(9)に必要な乗算を無くすることができ、更なる計算量削減が可能となる。
最大パワー探索部303は、乗算部302から重み付きパワーSW(k)(k=0,1,…,K)を入力され、すべてのkの中から重み付きパワーSW(k)が最大となるkを探し出し、探し出したkをシフト数決定部304に出力する。
シフト数決定部304は、最大パワー探索部303から重み付きパワーSW(k)が最大となるkを入力され、このkに相当する周波数と一致するSHの値を求め、このSHの値をシフト情報としてベクトル結合部104(図1)に出力する。
図1に示すトーン判定部107は、相関分析部105から相関Sを入力され、相関Sの値に応じてトーン性を決定し、決定したトーン性をトーン情報として出力する。具体的には、トーン判定部107は、閾値Tと相関Sとを比較し、T>Sが成り立つ場合は現フレームを「トーン」と判定し、成り立たない場合は現フレームを「非トーン」と判定すればよい。閾値Tの値は、学習により統計的に適した値を求めておけばよい。また、上記特許文献1に開示されている方法でトーン性を判定してもよい。また、複数の閾値を設定し、段階的にトーンの度合いを判定してもよい。
このように、本実施の形態によれば、相関を求める前にダウンサンプリングを行って処理フレーム(ベクトル系列)を短縮するため、相関の計算に用いる処理フレーム(ベクトル系列)の長さが従来に比べて短くなる。よって、本実施の形態によれば、入力信号のトーン性の判定に要する計算量を低減することができる。
また、本実施の形態によれば、入力信号のトーン性を判定するために重要な区間(すなわち、入力信号のトーン性を判定するために重要な周波数帯域)ではダウンサンプリングを行わず、処理フレーム(ベクトル系列)を短縮せずにそのまま用いてトーン判定を行うため、トーン判定の性能劣化を抑えることができる。
なお、トーン判定によるトーン性の分類は通常2〜3種類程度(例えば、上記説明では「トーン」と「非トーン」の2種類)と少なく、細かい精度の判定結果が要求される訳ではない。よって、処理フレーム(ベクトル系列)を短縮しても、最終的に、処理フレーム(ベクトル系列)を短縮しないときと同様の分類結果に収束する可能性が高い。
また、入力信号のトーン性を判定するために重要な周波数帯域は、代表的には、周波数成分のパワーが大きな周波数帯域であると考えられる。よって、本実施の形態では、周波数成分のパワーが最も大きくなる周波数を探索し、次のフレームのトーン判定処理において、ダウンサンプリングを行わない範囲をパワーが最も大きい周波数近辺とした。これにより、トーン判定の性能劣化をさらに抑えることができる。なお、本実施の形態では、入力信号のトーン性の判定において、パワーが最大となる帯域を重要な周波数帯域と決定したが、パワーが予め設定された条件に該当する周波数帯域を重要な周波数帯域と決定すればよい。
(実施の形態2)
図5は、本実施の形態に係るトーン判定装置500の主要な構成を示すブロック図である。ここでは、トーン判定装置500が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図5において、図1(実施の形態1)と同一の構成部には同一符号を付す。
図5は、本実施の形態に係るトーン判定装置500の主要な構成を示すブロック図である。ここでは、トーン判定装置500が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図5において、図1(実施の形態1)と同一の構成部には同一符号を付す。
図5において、周波数変換部101は、SDFTを用いて入力信号の周波数変換を行い、周波数変換により求められたSDFT係数をバーク尺度分割部501に出力する。
バーク尺度分割部501は、周波数変換部101から入力されるSDFT係数を、バーク尺度に基づいて予め設定されている分割割合に従って分割し、分割されたSDFT係数をダウンサンプリング部502に出力する。ここで、バーク尺度とは、E.ツヴィッカー(Zwicker,E.)により提案された音響心理学的尺度であり、人間の聴覚の臨界帯域(critical band)を求めたものである。バーク尺度分割部501における分割は、互いに隣接する2つの臨界帯域の境界に相当する周波数の値を用いて行うことができる。
ダウンサンプリング部502は、バーク尺度分割部501から入力される分割されたSDFT係数に対してダウンサンプリング処理を行い、SDFT係数の系列長を短縮する。この際、ダウンサンプリング部502は、分割されたSDFT係数毎に異なるダウンサンプリング処理を行う。次いで、ダウンサンプリング部502は、ダウンサンプリング後のSDFT係数をバッファ503に出力する。
バッファ503は、前フレームのダウンサンプリング後のSDFT係数を内部に格納しており、これを相関分析部504に出力する。また、バッファ503は、ダウンサンプリング部502から入力される、現フレームのダウンサンプリング後のSDFT係数を相関分析部504に出力する。そして、バッファ503は、内部に格納されている前フレームのダウンサンプリング後のSDFT係数と、新たに入力された現フレームのダウンサンプリング後のSDFT係数とを入れ替えることにより、SDFT係数を更新する。
相関分析部504は、バッファ503から前フレームのSDFT係数と、現フレームのSDFT係数とを入力され、SDFT係数のフレーム間での相関を求め、求めた相関をトーン判定部107に出力する。
トーン判定部107は、相関分析部504から入力される相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部107は、トーン判定装置500の出力としてトーン情報を出力する。
次に、トーン判定対象となる入力信号の次数が2N次である場合を例にとって、図6を用いて、トーン判定装置500の動作について説明する。
バーク尺度分割部501は、周波数変換部101からSDFT係数Y(k)(k=0,1,…,N)を入力され、バーク尺度に基づいた分割割合でSDFT係数Y(k)(k=0,1,…,N)を分割する。例えば、入力信号のサンプリング周波数が32000Hzであるとき、バーク尺度分割部501は、下記の式(10)に示すように、SDFT係数Y(k)(k=0,1,…,N)を、バーク尺度に基づく割合(ba:bb:bc)で、Y_b_a(k),Y_b_b(k),Y_b_c(k)の3つの区間に3分割することができる(図6)。
ここで、ba=INT(0.0575×N),bb=INT(0.1969×N)−ba,bc=N−bb−baである。また、INTは、括弧内の計算結果の整数部分をとることを意味する。また、分割割合は、互いに隣接する2つの臨界帯域の境界に相当する周波数に基づいて、0〜920Hz,920〜3150Hz,3150〜16000Hzの3帯域に分割する場合を一例として挙げている。この3帯域の割合は、(0.0575:0.1394:0.8031)となる。なお、分割数および分割割合は、こられの値に限られず、適宜変更してもよい。
次いで、バーク尺度分割部501は、分割されたSDFT系列Y_b_a(k)(k=0,1,…,ba−1),Y_b_b(k)(k=0,1,…,bb−1),Y_b_c(k)(k=0,1,…,bc)をダウンサンプリング部502に出力する。
ダウンサンプリング部502は、バーク尺度分割部501から入力される分割されたSDFT係数Y_b_a(k)(k=0,1,…,ba−1),Y_b_b(k)(k=0,1,…,bb−1),Y_b_c(k)(k=0,1,…,bc)に対して、下記の式(11)に従ってダウンサンプリング処理を行う。
ここでは、n=m×2が成り立ち、mは1からbb/2−1までの値をとる。m=0の場合は、ダウンサンプリングを行わずにY_b_b_re(0)=Y_b_b(0)としてもよい。ここで、フィルタ係数[j0,j1,j2,j3]には、折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。
また、ここでは、s=r×3が成り立ち、sは1からbc/3−1までの値をとる。r=0の場合は、ダウンサンプリングを行わずにY_b_c_re(0)=Y_b_c(0)としてもよい。ここで、フィルタ係数[i0,i1,i2,i3]には、折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。
すなわち、ba区間のSDFT係数Y_b_a(k)(k=0,1,…,ba−1)についてはダウンサンプリングを行わずにそのままの値を残し、bb区間のSDFT係数Y_b_b(k)(k=0,1,…,bb−1)についてはSDFT係数の長さが2分の1となるようにダウンサンプリングを行い、bc区間のSDFT係数Y_b_c(k)(k=0,1,…,bc)についてはSDFT係数の長さが3分の1となるようにダウンサンプリングを行う(図6)。なお、図6の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲を表している。
このように、バーク尺度に従ってSDFT係数を低域、中域、高域の3区間に分割し、低域の区間ではSDFT係数をそのまま残し、中域の区間では2分の1にダウンサンプリングされたSDFT係数を求め、高域の区間では3分の1にダウンサンプリングされたSDFT係数を求める。これにより、音響心理的特性に基づいた尺度でSDFT係数のサンプル数を減少させることができる。
なお、バーク尺度に基づいた分割個数は3個に限らず、2個または4個以上の分割数であってもよい。
また、ダウンサンプリングの方法も上記の方法に限らず、本発明が適用される形態に応じて適したダウンサンプリング方法を用いてもよい。
次いで、ダウンサンプリング部502は、SDFT係数Y_b_a(k)(k=0,1,…,ba−1)と、ダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2−1),Y_b_c_re(k)(k=0,1,…,bc/3−1)と、をバッファ503に出力する。
バッファ503は、ダウンサンプリング部502からSDFT係数Y_b_a(k)(k=0,1,…,ba−1)と、ダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2−1),Y_b_c_re(k)(k=0,1,…,bc/3−1)と、を入力される。
次いで、バッファ503は、内部に格納されている前フレームのSDFT係数Y_b_a_pre(k)(k=0,1,…,ba−1)と、前フレームのダウンサンプリング後のSDFT係数Y_b_b_re_pre(k)(k=0,1,…,bb/2−1),Y_b_c_re_pre(k)(k=0,1,…,bc/3−1)と、を相関分析部504に出力する。
次いで、バッファ503は、現フレームのSDFT係数Y_b_a(k)(k=0,1,…,ba−1)と、現フレームのダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2−1),Y_b_c_re(k)(k=0,1,…,bc/3−1)と、を相関分析部504に出力する。
次いで、バッファ503は、現フレームのSDFT係数Y_b_a(k)(k=0,1,…,ba−1)をY_b_a_pre(k)(k=0,1,…,ba−1)として内部に格納し、現フレームのダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2−1),Y_b_c_re(k)(k=0,1,…,bc/3−1)をY_b_b_re_pre(k)(k=0,1,…,bb/2−1),Y_b_c_re_pre(k)(k=0,1,…,bc/3−1)として内部に格納する。すなわち、バッファ503は、現フレームのSDFT係数と前フレームのSDFT係数とを入れ替えることにより、SDFT係数を更新する。
相関分析部504は、バッファ503から現フレームのSDFT係数Y_b_a(k)(k=0,1,…,ba−1)と、現フレームのダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2−1),Y_b_c_re(k)(k=0,1,…,bc/3−1)と、前フレームのSDFT係数Y_b_a_pre(k)(k=0,1,…,ba−1)と、前フレームのダウンサンプリング後のSDFT係数Y_b_b_re_pre(k)(k=0,1,…,bb/2−1),Y_b_c_re_pre(k)(k=0,1,…,bc/3−1)と、を入力される。
ここで、式(12)および式(13)の第2項において、総和に対して2を乗算しているのはサンプル数が2分の1に減少されているからであり、また、式(12)および式(13)の第3項において、総和に対して3を乗算しているのはサンプル数が3分の1に減少されているからである。このように、ダウンサンプリングによりサンプル数が減少されている場合、それに応じた定数を乗ずることで、相関の計算に対する各項の寄与を一律にすることができる。
このように、本実施の形態によれば、相関を求める前にダウンサンプリングを行って処理フレーム(ベクトル系列)を短縮するため、相関の計算に用いる処理フレーム(ベクトル系列)の長さが従来に比べて短くなる。よって、本実施の形態によれば、入力信号のトーン性の判定に要する計算量を低減することができる。
また、本実施の形態によれば、人間の音響心理的特性に基づいた尺度を用いて設定される割合で周波数成分を分割することにより、ダウンサンプリングによるサンプル数の減少の度合いを段階的に強めていくことができる。これにより、人間の音響心理的に重要度の低い区間では特にサンプル数を減少させることが可能となり、更なる計算量の低減が可能となる。
なお、本実施の形態では、SDFT係数を分割する際に用いる尺度としてバーク尺度を用いたが、人間の音響心理的特性に基づいた尺度で適切なものであれば、他の尺度を用いてもよい。
(実施の形態3)
図7は、本実施の形態に係る符号化装置400の主要な構成を示すブロック図である。ここでは、符号化装置400が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。
図7は、本実施の形態に係る符号化装置400の主要な構成を示すブロック図である。ここでは、符号化装置400が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。
図7に示す符号化装置400は、上記実施の形態1に係るトーン判定装置100(図1)または上記実施の形態2に係るトーン判定装置500(図5)を備える。
図7において、トーン判定装置100,500は、上記実施の形態1または上記実施の形態2において説明したように、入力信号からトーン情報を得る。次いで、トーン判定装置100,500は、トーン情報を選択部401に出力する。また、このトーン情報は、必要に応じて符号化装置400の外部に出力してもよい。例えばこのトーン情報は、図示しない復号化装置において、復号化方法を切り替えるための情報として用いられる。図示しない復号化装置では、後述の選択部401が選択する符号化方法により生成される符号を復号化するために、選択された符号化方法に対応する復号化方法が選択される。
選択部401は、トーン判定装置100,500よりトーン情報を入力され、トーン情報に応じて入力信号の出力先を選択する。例えば、選択部401は、入力信号が「トーン」である場合には入力信号の出力先として符号化部402を選択し、入力信号が「非トーン」である場合には入力信号の出力先として符号化部403を選択する。符号化部402と符号化部403とは、互いに異なる符号化方法により入力信号を符号化するものである。よって、このような選択により、入力信号のトーン性に応じて、入力信号の符号化に用いる符号化方法を切り替えることができる。
符号化部402は、入力信号を符号化し、符号化により生成される符号を出力する。符号化部402に入力される入力信号は「トーン」であるため、符号化部402は、楽音の符号化に適している周波数変換符号化により入力信号を符号化する。
符号化部403は、入力信号を符号化し、符号化により生成される符号を出力する。符号化部403に入力される入力信号は「非トーン」であるため、符号化部403は、音声の符号化に適しているCELP符号化により入力信号を符号化する。
なお、符号化部402,403が符号化に用いる符号化方法は上記のものに限定されず、従来の符号化方法の中から最も適しているものを適宜用いてもよい。
また、本実施の形態では符号化部が2つである場合を一例として説明したが、互いに異なる符号化方法により符号化を行う符号化部が3つ以上あってもよい。この場合、段階的に判定されるトーンの度合いに応じて、3つ以上の符号化部のうちいずれかの符号化部を選択すればよい。
また、本実施の形態では入力信号が音声信号および/または楽音信号であるとして説明したが、本発明はその他の信号に対しても上記と同様にして実施することが可能である。
このようして、本実施の形態によれば、入力信号のトーン性に応じた最適な符号化方法により入力信号を符号化することができる。
(実施の形態4)
図8は、本実施の形態に係るトーン判定装置600の主要な構成を示すブロック図である。ここでは、トーン判定装置600が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図8において、図1(実施の形態1)と同一の構成部には同一符号を付し、その説明を省略する。
図8は、本実施の形態に係るトーン判定装置600の主要な構成を示すブロック図である。ここでは、トーン判定装置600が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図8において、図1(実施の形態1)と同一の構成部には同一符号を付し、その説明を省略する。
図8において、倍音成分算出部601は、後述する図10に示すCELP符号化器702から入力されるピッチラグを用いて倍音成分を算出し、算出した倍音成分を示す情報(倍音成分情報)をベクトル結合部602に出力する。
ベクトル結合部602は、バッファ103から前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数と、現フレームのSDFT係数と、現フレームのダウンサンプリング後のSDFT係数とを入力される。また、ベクトル結合部602は、倍音成分算出部601から倍音成分情報を入力される。次いで、ベクトル結合部602は、前フレームのSDFT係数の一部と、前フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数を生成し、生成したSDFT係数を相関分析部603に出力する。また、ベクトル結合部602は、現フレームのSDFT係数の一部と、現フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数を生成し、生成したSDFT係数を相関分析部603に出力する。この際、ベクトル結合部602がどのような結合を行うかは、倍音成分情報に応じて決定される。
相関分析部603は、ベクトル結合部602から前フレームの結合後のSDFT係数と、現フレームの結合後のSDFT係数とを入力され、SDFT係数のフレーム間での相関を求め、求めた相関をトーン判定部107に出力する。
トーン判定部107は、相関分析部603から相関を入力され、この相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部107は、トーン判定装置600の出力としてトーン情報を出力する。
次に、トーン判定対象となる入力信号の次数が2N次である場合を例にとって、図9を用いて、トーン判定装置600の動作について説明する。
倍音成分算出部601は、後述する図10に示すCELP符号化器702からピッチラグを入力する。ここで、ピッチラグとは、入力信号の基本となる周期(周波数)成分のことであり、時間領域では、ピッチ周期、基本周期等と呼ばれ、周波数領域では、ピッチ周波数、基本周波数等と呼ばれることもある。一般に、CELP符号化器では、適応音源ベクトルを生成する際にピッチラグが求められる。適応音源ベクトルは、過去に生成された音源系列(適応音源符号帳)の中から、入力信号の周期的な成分として最も適切な部分をフレーム(サブフレーム)の長さだけ切り出されたものである。ピッチラグとは、現時刻から何サンプル遡って適応音源ベクトルを切り出すのかを指示する値であるとも言える。後述する図10に示すように、符号化装置が、CELP符号化を行った後にさらに高域の成分を符号化するような構成を採る場合、CELP符号化器702内で求められるピッチラグをそのまま倍音成分算出部601に入力すればよく、ピッチラグを求めるための新たな処理を追加する必要はない。
次に、倍音成分算出部601は、入力されたピッチラグを用いて基本周波数を求める。例えば、入力が16000HzであるCELP符号化器でピッチラグを求めている場合、下記の式(15)により基本周波数Pを求めることができる。
ここで、plはピッチラグであり、適応音源符号帳から適応音源ベクトルを切り出す際の、切り出す部分の先頭位置に相当する。例えば、現時刻から40サンプルだけ遡った位置から適応音源ベクトルが切り出された場合(pl=40)、式(15)により、その基本周波数Pは400Hzであることがわかる。
次に、倍音成分算出部601は、基本周波数Pの整数倍(2×P,3×P,4×P,…)の倍音成分を求め、基本周波数Pと倍音成分情報とをベクトル結合部602に出力する。この際、倍音成分算出部601は、トーン判定に用いるSDFT係数の周波数帯域に相当する倍音成分情報のみを出力すればよい。例えば、トーン判定に用いるSDFT係数の周波数帯域が8000〜12000Hzであり、基本周波数Pが400Hzである場合、倍音成分算出部601は、周波数帯域8000〜12000Hzに含まれる倍音成分(8000,8400,8800,…,12000)のみを出力すればよい。また、すべての倍音成分情報を出力するのではなく、周波数の低い方から数個のみ(例えば、8000,8400,8800の3個のみ)に限定して出力してもよい。また、偶数番目の倍音成分情報(例えば、8000,8800,9600,…)のみ、または、奇数番目の倍音成分情報(例えば、8400,9200,10000,…)のみを出力するということも可能である。
また、倍音成分算出部601が出力する倍音成分情報はピッチラグplの値に応じて一意に定まる。そこで、前もってすべてのピッチラグplについて倍音成分情報を求めておきメモリに格納しておけば、倍音成分情報を求める上記のような処理を行わなくても、メモリを参照すれば出力すべき倍音成分情報がわかるので、倍音成分情報を求めるための計算量の増加を回避することができる。
ベクトル結合部602は、バッファ103から、現フレームのSDFT係数Y(k)(k=0,1,…,N)と、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)と、前フレームのSDFT係数Y_pre(k)(k=0,1,…,N)と、前フレームのダウンサンプリング後のSDFT係数Y_re_pre(k)(k=0,1,…,N/2−1)とを入力されるとともに、倍音成分算出部601から倍音成分情報(P,2×P,3×P,…)を入力される。
次いで、ベクトル結合部602は、倍音成分情報を用いて現フレームのSDFT係数の結合を行う。具体的には、ベクトル結合部602は、倍音成分に相当する周波数帯域の近傍ではダウンサンプリングしていないSDFT係数を選び、倍音成分に相当しない周波数帯域ではダウンサンプリング後のSDFT係数を選び、それらのSDFT係数を結合させる。例えば、倍音成分情報として2×Pのみを入力され、2×Pの周波数に相当するSDFT係数がY(PH)であり、Y(PH)の近傍の範囲(長さLH)においてはダウンサンプリングしていないSDFT係数が選択される場合、ベクトル結合部602は、下記の式(16)に従ってSDFT係数の結合を行う。
ベクトル結合部602での上記の結合処理の様子を表すと図9に示すようになる。
図9に示すように、結合後のSDFT係数には基本的にダウンサンプリング後のSDFT係数((1)と(3))が用いられ、倍音成分の周波数PHを中心として長さLHの範囲に相当するSDFT係数((2))が(1)と(3)の間に挿入されて結合が行われる。図9の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲同士を表している。すなわち、図9に示すように、倍音成分の周波数PHの近傍は重要であると考え、倍音成分の周波数PHの近傍には、ダウンサンプリングしていないSDFT係数をそのまま使うこととしている。ここで、抜き出す範囲の長さであるLHは、定数として適した値を予め設定しておく。LHを長くすると結合後のSDFT係数が長くなるため、後の相関を求める処理において計算量が大きくなるが、一方で、求める相関がより正確になる。従って、計算量と相関の正確さとのトレードオフを考慮して、LHを決めるとよい。また、LHを適応的に変化させることも可能である。
また、倍音成分情報として複数の倍音成分がベクトル結合部602に入力された場合、複数の倍音成分の周波数の近傍において、図9の(2)に示すように、ダウンサンプリングしていないSDFT係数を複数抜き出して結合に用いるとよい。
次いで、ベクトル結合部602は、現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と、前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを相関分析部603に出力する。ここで、K=(N+LH)/2−1である。
相関分析部603は、ベクトル結合部602から現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを入力され、式(5)〜(8)に従って相関Sを求め、求めた相関Sを相関情報としてトーン判定部107に出力する。
このように、本実施の形態によれば、倍音成分に相当する周波数近傍以外の周波数帯域では、ダウンサンプリングによるベクトル系列長の短縮を行うため、入力信号のトーン性の判定に要する計算量を低減することができる。また、音楽、特に楽器の弦や楽器管内の空気の振動には、通常、基本的な周波数成分の他に周波数が2倍、3倍等の整数倍の倍音成分が一緒に含まれている(調波構造)。このような場合でも、本実施の形態によれば、倍音成分に相当する周波数近傍の範囲ではベクトル系列長の短縮をせずにそのままトーン性の判定に用いる。そのため、トーン性の判定において重要となる調波構造が考慮され、ダウンサンプリングによる情報量欠落によるトーン性判定性能の劣化を防ぐことができる。
(実施の形態5)
図10は、本実施の形態に係る符号化装置700の主要な構成を示すブロック図である。ここでは、符号化装置700が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。なお、図10において、図7(実施の形態3)と同一の構成部には同一符号を付し、その説明を省略する。
図10は、本実施の形態に係る符号化装置700の主要な構成を示すブロック図である。ここでは、符号化装置700が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。なお、図10において、図7(実施の形態3)と同一の構成部には同一符号を付し、その説明を省略する。
図10に示す符号化装置700は、上記実施の形態4に係るトーン判定装置600(図8)を備える。
図10において、ダウンサンプリング部701は、入力信号のダウンサンプリングを行い、ダウンサンプリング後の入力信号をCELP符号化器702に出力する。例えば、ダウンサンプリング部701への入力信号が32000Hzである場合、その入力信号がCELP符号化器702への入力信号として最適な周波数帯域となるように、16000Hzにダウンサンプリングされることが多い。
CELP符号化器702は、ダウンサンプリング部701から入力されたダウンサンプリング後の入力信号をCELP符号化する。CELP符号化器702は、CELP符号化の結果得られる符号をCELP復号化器703に出力するとともに、符号化装置700の符号化結果の一部として符号化装置700の外部に出力する。また、CELP符号化器702は、CELP符号化の過程において得られるピッチラグをトーン判定装置600に出力する。
トーン判定装置600は、上記実施の形態4において説明したように、入力信号とピッチラグとからトーン情報を得る。次いで、トーン判定装置600は、トーン情報を選択部401に出力する。なお、実施の形態3と同様に、このトーン情報は、必要に応じて符号化装置700の外部に出力してもよい。
CELP復号化器703は、CELP符号化器702から入力される符号をCELP復号化する。CELP復号化器703は、CELP復号化の結果得られる復号化信号をアップサンプリング部704に出力する。
アップサンプリング部704は、CELP復号化器703から入力される復号化信号をアップサンプリングして加算器705に出力する。例えば、ダウンサンプリング部701への入力信号が32000Hzである場合、アップサンプリング部704は、アップサンプリングにより32000Hzの復号化信号を得る。
加算器705は、入力信号からアップサンプリング後の復号化信号を減算し、減算後の残差信号を選択部401に出力する。このように、CELP符号化器702により符号化された信号成分を入力信号から差し引くことにより、CELP符号化器702で符号化しなかった高周波数帯域側の信号成分を、次の符号化過程の符号化対象とすることができる。
符号化部402は、残差信号を符号化し、符号化により生成される符号を出力する。符号化部402に入力される入力信号は「トーン」であるため、符号化部402は、楽音の符号化に適している符号化方法により残差信号を符号化する。
符号化部403は、残差信号を符号化し、符号化により生成される符号を出力する。符号化部403に入力される入力信号は「非トーン」であるため、符号化部403は、音声の符号化に適している符号化方法により残差信号を符号化する。
なお、本実施の形態では符号化部が2つである場合を一例として説明したが、互いに異なる符号化方法により符号化を行う符号化部を3つ以上あってもよい。この場合、段階的に判定されるトーンの度合いに応じて、3つ以上の符号化部のうちいずれかの符号化部を選択すればよい。
また、本実施の形態では入力信号が音声信号および/または楽音信号であるとして説明したが、本発明はその他の信号に対しても上記と同様にして実施することが可能である。
このようにして、本実施の形態によれば、入力信号のトーン性に応じた最適な符号化方法により入力信号を符号化することができる。
また、ピッチラグの情報を得ることができる構成であれば、本実施の形態で説明した構成に限らず、種々形態を変更しても上記同様の効果を得ることができる。
以上、本発明の実施の形態について説明した。
なお、入力信号の周波数変換は、SDFT以外の周波数変換、例えば、DFT(離散フーリエ変換)、FFT(高速フーリエ変換)、DCT(離散コサイン変換)、MDCT(修正離散コサイン変換)等により行ってもよい。
また、上記実施の形態に係るトーン判定装置および符号化装置は、音声や楽音等の伝送が行われる移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るトーン判定方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るトーン判定装置と同様の機能を実現することができる。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部またはすべてを含むように1チップ化されてもよい。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。
2009年2月27日出願の特願2009−046517、2009年5月18日出願の特願2009−120112および2009年10月13日出願の特願2009−236451の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明は、音声符号化および音声復号化等の用途に適用することができる。
本発明は、トーン判定装置およびトーン判定方法に関する。
ディジタル無線通信や、インターネット通信に代表されるパケット通信、または、音声蓄積などの分野においては、電波などの伝送路の容量や記憶媒体の有効利用を図るため、音声信号の符号化/復号化技術が不可欠であり、これまでに多くの音声符号化/復号化方式が開発されてきた。その中で、CELP(Code Excited Linear Prediction)方式の音声符号化/復号化方式が主流の方式として実用化されている。
CELP方式の音声符号化装置は、予め記憶された音声モデルに基づいて入力音声をコード化する。具体的には、CELP方式の音声符号化装置は、ディジタル化された音声信号を10〜20ms程度のフレームに区切り、フレーム毎に音声信号の線形予測分析を行い、線形予測係数と線形予測残差ベクトルを求め、線形予測係数と線形予測残差ベクトルをそれぞれ個別に符号化する。
また、入力信号に応じてビットレートを変更する可変レート符号化装置も実現されている。可変レート符号化装置では、入力信号が主に音声情報を多く含む場合には高いビットレートで入力信号を符号化し、入力信号が主に雑音情報を多く含む場合には低いビットレートで入力信号を符号化することが可能である。すなわち、重要な情報を多く含む場合には高品質な符号化により、復号化装置側で再生される出力信号の高品質化を図る一方で、重要性が低い場合には低品質な符号化に抑えることにより、電力、伝送帯域等を節約することができる。このように、入力信号の特徴(例えば、有声性、無声性、トーン性等)を検出し、検出結果に応じて符号化方法を変更することにより、入力信号の特徴に適した符号化を行うことができ、符号化性能を向上させることができる。
入力信号が音声情報であるか、雑音情報であるかを分類する方法としてVAD(Voice Active Detector)がある。具体的には、(1)入力信号を量子化してクラス分類を行い、クラス情報から音声情報/雑音情報を分類する方法、(2)入力信号の基本周期を求め、基本周期の長さだけ遡った信号と現信号との相関の高さに応じて音声情報/雑音情報を分類する方法、(3)入力信号の周波数成分の時間変動を調べ、変動情報に応じて音声情報/雑音情報を分類する方法等がある。
また、SDFT(Shifted Discrete Fourier Transform)により入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との相関の高さに応じて入力信号のトーン性を分類する技術がある(例えば、特許文献1)。上記特許文献1開示の技術では、トーン性に応じて周波数帯域拡張の方法を切り替えることにより、符号化性能の向上を図っている。
しかしながら、上記特許文献1開示のようなトーン判定装置、すなわち、SDFTにより入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との
相関により入力信号のトーン性を検出するトーン判定装置においては、すべての周波数帯域を考慮して相関を求めているため、計算量が大きくなってしまうという課題があった。
相関により入力信号のトーン性を検出するトーン判定装置においては、すべての周波数帯域を考慮して相関を求めているため、計算量が大きくなってしまうという課題があった。
本発明の目的は、入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との相関により入力信号のトーン性を判定するトーン判定装置およびトーン判定方法において、計算量を低減させることである。
本発明のトーン判定装置は、周波数変換された入力信号のベクトル系列長を短縮する短縮処理を行う短縮手段と、ベクトル系列長短縮後のベクトル系列を用いて相関を求める相関手段と、前記相関を用いて前記入力信号のトーン性を判定する判定手段と、を具備する構成を採る。
本発明によれば、トーン判定に要する計算量を低減させることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本実施の形態に係るトーン判定装置100の主要な構成を示すブロック図である。ここでは、トーン判定装置100が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。入力信号は、音声信号であっても楽音信号であってもよい。
図1は、本実施の形態に係るトーン判定装置100の主要な構成を示すブロック図である。ここでは、トーン判定装置100が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。入力信号は、音声信号であっても楽音信号であってもよい。
図1において、周波数変換部101は、SDFTを用いて入力信号の周波数変換を行い、周波数変換により求められる周波数成分であるSDFT係数をダウンサンプリング部102とバッファ103とに出力する。
ダウンサンプリング部102は、周波数変換部101から入力されるSDFT係数に対してダウンサンプリング処理を行い、SDFT係数の系列長を短縮する。次いで、ダウンサンプリング部102は、ダウンサンプリング後のSDFT係数をバッファ103に出力する。
バッファ103は、前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数とを内部に格納しており、これら2つのSDFT係数をベクトル結合部104に出力する。次いで、バッファ103は、周波数変換部101から現フレームのSD
FT係数を入力されるとともに、ダウンサンプリング部102から現フレームのダウンサンプリング後のSDFT係数を入力され、これらの2つのSDFT係数をベクトル結合部104に出力する。次いで、バッファ103は、内部に格納されている前フレームの上記2つのSDFT係数(前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数)と、現フレームの上記2つのSDFT係数(現フレームのSDFT係数と、現フレームのダウンサンプリング後のSDFT係数)とをそれぞれ入れ替えることにより、SDFT係数を更新する。
FT係数を入力されるとともに、ダウンサンプリング部102から現フレームのダウンサンプリング後のSDFT係数を入力され、これらの2つのSDFT係数をベクトル結合部104に出力する。次いで、バッファ103は、内部に格納されている前フレームの上記2つのSDFT係数(前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数)と、現フレームの上記2つのSDFT係数(現フレームのSDFT係数と、現フレームのダウンサンプリング後のSDFT係数)とをそれぞれ入れ替えることにより、SDFT係数を更新する。
ベクトル結合部104は、バッファ103から前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数と、現フレームのSDFT係数と、現フレームのダウンサンプリング後のSDFT係数とを入力されるとともに、帯域決定部106からシフト情報を入力される。次いで、ベクトル結合部104は、前フレームのSDFT係数の一部と、前フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数(前フレーム結合SDFT係数)を生成し、この新たなSDFT係数を相関分析部105に出力する。また、ベクトル結合部104は、現フレームのSDFT係数の一部と、現フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数(現フレーム結合SDFT係数)を生成し、この新たなSDFT係数を相関分析部105に出力する。この際、どのように結合するのかは、上記シフト情報に応じて決定される。
相関分析部105は、ベクトル結合部104から前フレーム結合SDFT係数と、現フレーム結合SDFT係数とを入力され、SDFT係数のフレーム間での相関を求め、求めた相関をトーン判定部107に出力する。また、相関分析部105は、現フレームのパワーを一定の帯域毎に求め、現フレームの帯域毎のパワーをパワー情報として帯域決定部106に出力する。上記パワーは、相関を求める過程で得られる付随的な二次生成物であるため、パワーを求めるための計算を別途行う必要は無い。
帯域決定部106は、パワーが最大となる帯域は入力信号のトーン性の判定において重要な帯域であるため、相関分析部105から入力されるパワー情報を用いてパワーが最大となる帯域を決定し、決定した帯域の位置情報をシフト情報としてベクトル結合部104に出力する。
トーン判定部107は、相関分析部105から入力される相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部107は、トーン判定装置100の出力としてトーン情報を出力する。
次に、トーン判定対象となる入力信号の次数が2N次(Nは1以上の整数)である場合を例にとって、トーン判定装置100の動作について説明する。なお、以下の説明では、入力信号をx(i)(i=0,1,…,2N−1)と記す。
周波数変換部101は、入力信号x(i)(i=0,1,…,2N−1)を入力され、下記の式(1)に従って周波数変換を行い、得られたSDFT係数Y(k)(k=0,1,…,N)をダウンサンプリング部102とバッファ103とに出力する。
ここで、h(n)は窓関数であり、MDCT窓関数等が使用される。また、uは時間シフトの係数、vは周波数シフトの係数であり、例えば、u=(N+1)/2、v=1/2
のように設定される。
のように設定される。
ダウンサンプリング部102は、周波数変換部101からSDFT係数Y(k)(k=0,1,…,N)を入力され、下記の式(2)に従ってダウンサンプリング処理を行う。
ここで、n=m×2が成り立ち、mは1からN/2−1までの値をとる。m=0の場合は、ダウンサンプリングを行わずにY_re(0)=Y(0)としてもよい。ここで、フィルタ係数[j0,j1,j2,j3]には折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。例えば、入力信号のサンプリング周波数が32000Hzであるとき、j0=0.195、j1=0.3、j2=0.3、j3=0.195に設定すると良好な結果が得られることが判っている。
次いで、ダウンサンプリング部102は、ダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)をバッファ103に出力する。
バッファ103は、周波数変換部101からSDFT係数Y(k)(k=0,1,…,N)を入力されるとともに、ダウンサンプリング部102からダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)を入力される。次いで、バッファ103は、内部に格納されている前フレームのSDFT係数Y_pre(k)(k=0,1,…,N)と、前フレームのダウンサンプリング後のSDFT係数Y_re_pre(k)(k=0,1,…,N/2−1)とをベクトル結合部104に出力する。次いで、バッファ103は、現フレームのSDFT係数Y(k)(k=0,1,…,N)と、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)とをベクトル結合部104に出力する。次いで、バッファ103は、現フレームのSDFT係数Y(k)(k=0,1,…,N)をY_pre(k)(k=0,1,…,N)として内部に格納し、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)をY_re_pre(k)(k=0,1,…,N/2−1)として内部に格納する。すなわち、現フレームのSDFT係数と前フレームのSDFT係数とを入れ替えることにより、バッファの更新を行う。
ベクトル結合部104は、バッファ103から現フレームのSDFT係数Y(k)(k=0,1,…,N)と、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)と、前フレームのSDFT係数Y_pre(k)(k=0,1,…,N)と、前フレームのダウンサンプリング後のSDFT係数Y_re_pre(k)(k=0,1,…,N/2−1)とを入力されるとともに、帯域決定部106からシフト情報SHを入力される。次いで、ベクトル結合部104は、下記の式(3)に従って現フレームのSDFT係数の結合を行う。
ここで、LHは、結合に用いるSDFT係数Y(k)(k=0,1,…,N)の長さ、または、結合に用いるY_pre(k)(k=0,1,…,N)の長さである。
ベクトル結合部104での上記の結合処理の様子を表すと図2に示すようになる。
図2に示すように、結合後のSDFT係数には基本的にダウンサンプリング後のSDFT係数((1)と(3))が用いられ、シフト情報SHを先頭として長さLHの範囲に相当するSDFT係数((2))が、(1)と(2)の間に挿入されて結合が行われる。図2の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲同士を表している。すなわち、図2に示すように、シフト情報SHとは、SDFT係数Y(k)(k=0,1,…,N)またはSDFT係数Y_pre(k)(k=0,1,…,N)を、どの周波数帯域から抜き出すのかを指示する値である。ここで、抜き出す範囲の長さであるLHは、定数として適した値を予め設定しておく。LHを長くすると結合後のSDFT係数が長くなるため、後の相関を求める処理において計算量が大きくなる一方で、求める相関がより正確になる。従って、計算量と相関の正確さとのトレードオフを考慮して、LHを決めるとよい。また、LHを適応的に変化させることも可能である。
次いで、ベクトル結合部104は、現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と、前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを相関分析部105に出力する。ここで、K=(N+LH)/2−1である。
図3は、本実施の形態に係る相関分析部105の内部構成を示すブロック図である。
図3において、誤差パワー計算部201は、ベクトル結合部104から現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを入力され、下記の式(5)に従って誤差パワーSSを求める。
次いで、誤差パワー計算部201は、求めた誤差パワーSSを除算部204に出力する。
次いで、パワー計算部202は、求めたパワーSA(k)をパワー情報として加算部203と帯域決定部106(図1)とに出力する。
次いで、加算部203は、求めたパワーSAを除算部204に出力する。
除算部204は、誤差パワー計算部201から誤差パワーSSを入力されるとともに、加算部203からパワーSAを入力される。次いで、除算部204は、下記の式(8)に従って、相関Sを求め、求めた相関Sを相関情報としてトーン判定部107(図1)に出力する。
図4は、本実施の形態に係る帯域決定部106の内部構成を示すブロック図である。
図4において、重み係数格納部301は、相関分析部105(図1)がパワー情報として出力するパワーSA(k)に乗算する重み係数W(k)(k=0,1,…,N)を格納しており、この重み係数を長さKに短縮してWa(k)(k=0,1,…,K)として乗算部302に出力する。短縮の方法は、k<SHまたはSH+LH−1<kに相当する範囲において、W(k)を1つおきに間引けばよい。ここで、重み係数W(k)(k=0,1,…,N)を、低域の範囲では1.0に設定し、高域の範囲では0.9に設定する等して、低域の範囲をより重要視することが可能である。
乗算部302は、相関分析部105(図1)からパワー情報としてパワーSA(k)を入力されるとともに、重み係数格納部301から重み係数Wa(k)(k=0,1,…,K)を入力される。次いで、乗算部302は、下記の式(9)に従って、重み係数を乗じた重み付きパワーSW(k)(k=0,1,…,K)を求め、この重み付きパワーを最大パワー探索部303に出力する。
また、重み係数格納部301および乗算部302による重み付け処理を省くことも可能である。重み付け処理を省くことにより、式(9)に必要な乗算を無くすることができ、更なる計算量削減が可能となる。
最大パワー探索部303は、乗算部302から重み付きパワーSW(k)(k=0,1,…,K)を入力され、すべてのkの中から重み付きパワーSW(k)が最大となるkを探し出し、探し出したkをシフト数決定部304に出力する。
シフト数決定部304は、最大パワー探索部303から重み付きパワーSW(k)が最大となるkを入力され、このkに相当する周波数と一致するSHの値を求め、このSHの値をシフト情報としてベクトル結合部104(図1)に出力する。
図1に示すトーン判定部107は、相関分析部105から相関Sを入力され、相関Sの値に応じてトーン性を決定し、決定したトーン性をトーン情報として出力する。具体的には、トーン判定部107は、閾値Tと相関Sとを比較し、T>Sが成り立つ場合は現フレームを「トーン」と判定し、成り立たない場合は現フレームを「非トーン」と判定すればよい。閾値Tの値は、学習により統計的に適した値を求めておけばよい。また、上記特許文献1に開示されている方法でトーン性を判定してもよい。また、複数の閾値を設定し、段階的にトーンの度合いを判定してもよい。
このように、本実施の形態によれば、相関を求める前にダウンサンプリングを行って処理フレーム(ベクトル系列)を短縮するため、相関の計算に用いる処理フレーム(ベクトル系列)の長さが従来に比べて短くなる。よって、本実施の形態によれば、入力信号のトーン性の判定に要する計算量を低減することができる。
また、本実施の形態によれば、入力信号のトーン性を判定するために重要な区間(すなわち、入力信号のトーン性を判定するために重要な周波数帯域)ではダウンサンプリングを行わず、処理フレーム(ベクトル系列)を短縮せずにそのまま用いてトーン判定を行うため、トーン判定の性能劣化を抑えることができる。
なお、トーン判定によるトーン性の分類は通常2〜3種類程度(例えば、上記説明では「トーン」と「非トーン」の2種類)と少なく、細かい精度の判定結果が要求される訳ではない。よって、処理フレーム(ベクトル系列)を短縮しても、最終的に、処理フレーム(ベクトル系列)を短縮しないときと同様の分類結果に収束する可能性が高い。
また、入力信号のトーン性を判定するために重要な周波数帯域は、代表的には、周波数成分のパワーが大きな周波数帯域であると考えられる。よって、本実施の形態では、周波数成分のパワーが最も大きくなる周波数を探索し、次のフレームのトーン判定処理において、ダウンサンプリングを行わない範囲をパワーが最も大きい周波数近辺とした。これにより、トーン判定の性能劣化をさらに抑えることができる。なお、本実施の形態では、入力信号のトーン性の判定において、パワーが最大となる帯域を重要な周波数帯域と決定したが、パワーが予め設定された条件に該当する周波数帯域を重要な周波数帯域と決定すればよい。
(実施の形態2)
図5は、本実施の形態に係るトーン判定装置500の主要な構成を示すブロック図である。ここでは、トーン判定装置500が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図5において、図1(実施の形態1)と同一の構成部には同一符号を付す。
図5は、本実施の形態に係るトーン判定装置500の主要な構成を示すブロック図である。ここでは、トーン判定装置500が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図5において、図1(実施の形態1)と同一の構成部には同一符号を付す。
図5において、周波数変換部101は、SDFTを用いて入力信号の周波数変換を行い、周波数変換により求められたSDFT係数をバーク尺度分割部501に出力する。
バーク尺度分割部501は、周波数変換部101から入力されるSDFT係数を、バーク尺度に基づいて予め設定されている分割割合に従って分割し、分割されたSDFT係数をダウンサンプリング部502に出力する。ここで、バーク尺度とは、E.ツヴィッカー(Zwicker,E.)により提案された音響心理学的尺度であり、人間の聴覚の臨界帯域(critical band)を求めたものである。バーク尺度分割部501における分割は、互いに隣接
する2つの臨界帯域の境界に相当する周波数の値を用いて行うことができる。
する2つの臨界帯域の境界に相当する周波数の値を用いて行うことができる。
ダウンサンプリング部502は、バーク尺度分割部501から入力される分割されたSDFT係数に対してダウンサンプリング処理を行い、SDFT係数の系列長を短縮する。この際、ダウンサンプリング部502は、分割されたSDFT係数毎に異なるダウンサンプリング処理を行う。次いで、ダウンサンプリング部502は、ダウンサンプリング後のSDFT係数をバッファ503に出力する。
バッファ503は、前フレームのダウンサンプリング後のSDFT係数を内部に格納しており、これを相関分析部504に出力する。また、バッファ503は、ダウンサンプリング部502から入力される、現フレームのダウンサンプリング後のSDFT係数を相関分析部504に出力する。そして、バッファ503は、内部に格納されている前フレームのダウンサンプリング後のSDFT係数と、新たに入力された現フレームのダウンサンプリング後のSDFT係数とを入れ替えることにより、SDFT係数を更新する。
相関分析部504は、バッファ503から前フレームのSDFT係数と、現フレームのSDFT係数とを入力され、SDFT係数のフレーム間での相関を求め、求めた相関をトーン判定部107に出力する。
トーン判定部107は、相関分析部504から入力される相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部107は、トーン判定装置500の出力としてトーン情報を出力する。
次に、トーン判定対象となる入力信号の次数が2N次である場合を例にとって、図6を用いて、トーン判定装置500の動作について説明する。
バーク尺度分割部501は、周波数変換部101からSDFT係数Y(k)(k=0,1,…,N)を入力され、バーク尺度に基づいた分割割合でSDFT係数Y(k)(k=0,1,…,N)を分割する。例えば、入力信号のサンプリング周波数が32000Hzであるとき、バーク尺度分割部501は、下記の式(10)に示すように、SDFT係数Y(k)(k=0,1,…,N)を、バーク尺度に基づく割合(ba:bb:bc)で、Y_b_a(k),Y_b_b(k),Y_b_c(k)の3つの区間に3分割することができる(図6)。
ここで、ba=INT(0.0575×N),bb=INT(0.1969×N)−ba,bc=N−bb−baである。また、INTは、括弧内の計算結果の整数部分をとることを意味する。また、分割割合は、互いに隣接する2つの臨界帯域の境界に相当する周波数に基づいて、0〜920Hz,920〜3150Hz,3150〜16000Hzの3帯域に分割する場合を一例として挙げている。この3帯域の割合は、(0.0575:0.1394:0.8031)となる。なお、分割数および分割割合は、こられの値に限られず、適宜変更してもよい。
次いで、バーク尺度分割部501は、分割されたSDFT系列Y_b_a(k)(k=0,1,…,ba−1),Y_b_b(k)(k=0,1,…,bb−1),Y_b_c(k)(k=0,1,…,bc)をダウンサンプリング部502に出力する。
ダウンサンプリング部502は、バーク尺度分割部501から入力される分割されたSDFT係数Y_b_a(k)(k=0,1,…,ba−1),Y_b_b(k)(k=0,1,…,bb−1),Y_b_c(k)(k=0,1,…,bc)に対して、下記の式(11)に従ってダウンサンプリング処理を行う。
ここでは、n=m×2が成り立ち、mは1からbb/2−1までの値をとる。m=0の場合は、ダウンサンプリングを行わずにY_b_b_re(0)=Y_b_b(0)としてもよい。ここで、フィルタ係数[j0,j1,j2,j3]には、折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。
また、ここでは、s=r×3が成り立ち、sは1からbc/3−1までの値をとる。r=0の場合は、ダウンサンプリングを行わずにY_b_c_re(0)=Y_b_c(0)としてもよい。ここで、フィルタ係数[i0,i1,i2,i3]には、折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。
すなわち、ba区間のSDFT係数Y_b_a(k)(k=0,1,…,ba−1)についてはダウンサンプリングを行わずにそのままの値を残し、bb区間のSDFT係数Y_b_b(k)(k=0,1,…,bb−1)についてはSDFT係数の長さが2分の1となるようにダウンサンプリングを行い、bc区間のSDFT係数Y_b_c(k)(k=0,1,…,bc)についてはSDFT係数の長さが3分の1となるようにダウンサンプリングを行う(図6)。なお、図6の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲を表している。
このように、バーク尺度に従ってSDFT係数を低域、中域、高域の3区間に分割し、低域の区間ではSDFT係数をそのまま残し、中域の区間では2分の1にダウンサンプリングされたSDFT係数を求め、高域の区間では3分の1にダウンサンプリングされたSDFT係数を求める。これにより、音響心理的特性に基づいた尺度でSDFT係数のサンプル数を減少させることができる。
なお、バーク尺度に基づいた分割個数は3個に限らず、2個または4個以上の分割数であってもよい。
また、ダウンサンプリングの方法も上記の方法に限らず、本発明が適用される形態に応じて適したダウンサンプリング方法を用いてもよい。
次いで、ダウンサンプリング部502は、SDFT係数Y_b_a(k)(k=0,1,…,ba−1)と、ダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2−1),Y_b_c_re(k)(k=0,1,…,bc/3−1)と、をバッファ503に出力する。
バッファ503は、ダウンサンプリング部502からSDFT係数Y_b_a(k)(k=0,1,…,ba−1)と、ダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2−1),Y_b_c_re(k)(k=0,1,…,
bc/3−1)と、を入力される。
bc/3−1)と、を入力される。
次いで、バッファ503は、内部に格納されている前フレームのSDFT係数Y_b_a_pre(k)(k=0,1,…,ba−1)と、前フレームのダウンサンプリング後のSDFT係数Y_b_b_re_pre(k)(k=0,1,…,bb/2−1),Y_b_c_re_pre(k)(k=0,1,…,bc/3−1)と、を相関分析部504に出力する。
次いで、バッファ503は、現フレームのSDFT係数Y_b_a(k)(k=0,1,…,ba−1)と、現フレームのダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2−1),Y_b_c_re(k)(k=0,1,…,bc/3−1)と、を相関分析部504に出力する。
次いで、バッファ503は、現フレームのSDFT係数Y_b_a(k)(k=0,1,…,ba−1)をY_b_a_pre(k)(k=0,1,…,ba−1)として内部に格納し、現フレームのダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2−1),Y_b_c_re(k)(k=0,1,…,bc/3−1)をY_b_b_re_pre(k)(k=0,1,…,bb/2−1),Y_b_c_re_pre(k)(k=0,1,…,bc/3−1)として内部に格納する。すなわち、バッファ503は、現フレームのSDFT係数と前フレームのSDFT係数とを入れ替えることにより、SDFT係数を更新する。
相関分析部504は、バッファ503から現フレームのSDFT係数Y_b_a(k)(k=0,1,…,ba−1)と、現フレームのダウンサンプリング後のSDFT係数Y_b_b_re(k)(k=0,1,…,bb/2−1),Y_b_c_re(k)(k=0,1,…,bc/3−1)と、前フレームのSDFT係数Y_b_a_pre(k)(k=0,1,…,ba−1)と、前フレームのダウンサンプリング後のSDFT係数Y_b_b_re_pre(k)(k=0,1,…,bb/2−1),Y_b_c_re_pre(k)(k=0,1,…,bc/3−1)と、を入力される。
ここで、式(12)および式(13)の第2項において、総和に対して2を乗算しているのはサンプル数が2分の1に減少されているからであり、また、式(12)および式(13)の第3項において、総和に対して3を乗算しているのはサンプル数が3分の1に減少されているからである。このように、ダウンサンプリングによりサンプル数が減少されている場合、それに応じた定数を乗ずることで、相関の計算に対する各項の寄与を一律にすることができる。
このように、本実施の形態によれば、相関を求める前にダウンサンプリングを行って処理フレーム(ベクトル系列)を短縮するため、相関の計算に用いる処理フレーム(ベクトル系列)の長さが従来に比べて短くなる。よって、本実施の形態によれば、入力信号のトーン性の判定に要する計算量を低減することができる。
また、本実施の形態によれば、人間の音響心理的特性に基づいた尺度を用いて設定される割合で周波数成分を分割することにより、ダウンサンプリングによるサンプル数の減少の度合いを段階的に強めていくことができる。これにより、人間の音響心理的に重要度の低い区間では特にサンプル数を減少させることが可能となり、更なる計算量の低減が可能となる。
なお、本実施の形態では、SDFT係数を分割する際に用いる尺度としてバーク尺度を用いたが、人間の音響心理的特性に基づいた尺度で適切なものであれば、他の尺度を用いてもよい。
(実施の形態3)
図7は、本実施の形態に係る符号化装置400の主要な構成を示すブロック図である。ここでは、符号化装置400が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。
図7は、本実施の形態に係る符号化装置400の主要な構成を示すブロック図である。ここでは、符号化装置400が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。
図7に示す符号化装置400は、上記実施の形態1に係るトーン判定装置100(図1)または上記実施の形態2に係るトーン判定装置500(図5)を備える。
図7において、トーン判定装置100,500は、上記実施の形態1または上記実施の形態2において説明したように、入力信号からトーン情報を得る。次いで、トーン判定装置100,500は、トーン情報を選択部401に出力する。また、このトーン情報は、必要に応じて符号化装置400の外部に出力してもよい。例えばこのトーン情報は、図示しない復号化装置において、復号化方法を切り替えるための情報として用いられる。図示
しない復号化装置では、後述の選択部401が選択する符号化方法により生成される符号を復号化するために、選択された符号化方法に対応する復号化方法が選択される。
しない復号化装置では、後述の選択部401が選択する符号化方法により生成される符号を復号化するために、選択された符号化方法に対応する復号化方法が選択される。
選択部401は、トーン判定装置100,500よりトーン情報を入力され、トーン情報に応じて入力信号の出力先を選択する。例えば、選択部401は、入力信号が「トーン」である場合には入力信号の出力先として符号化部402を選択し、入力信号が「非トーン」である場合には入力信号の出力先として符号化部403を選択する。符号化部402と符号化部403とは、互いに異なる符号化方法により入力信号を符号化するものである。よって、このような選択により、入力信号のトーン性に応じて、入力信号の符号化に用いる符号化方法を切り替えることができる。
符号化部402は、入力信号を符号化し、符号化により生成される符号を出力する。符号化部402に入力される入力信号は「トーン」であるため、符号化部402は、楽音の符号化に適している周波数変換符号化により入力信号を符号化する。
符号化部403は、入力信号を符号化し、符号化により生成される符号を出力する。符号化部403に入力される入力信号は「非トーン」であるため、符号化部403は、音声の符号化に適しているCELP符号化により入力信号を符号化する。
なお、符号化部402,403が符号化に用いる符号化方法は上記のものに限定されず、従来の符号化方法の中から最も適しているものを適宜用いてもよい。
また、本実施の形態では符号化部が2つである場合を一例として説明したが、互いに異なる符号化方法により符号化を行う符号化部が3つ以上あってもよい。この場合、段階的に判定されるトーンの度合いに応じて、3つ以上の符号化部のうちいずれかの符号化部を選択すればよい。
また、本実施の形態では入力信号が音声信号および/または楽音信号であるとして説明したが、本発明はその他の信号に対しても上記と同様にして実施することが可能である。
このようして、本実施の形態によれば、入力信号のトーン性に応じた最適な符号化方法により入力信号を符号化することができる。
(実施の形態4)
図8は、本実施の形態に係るトーン判定装置600の主要な構成を示すブロック図である。ここでは、トーン判定装置600が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図8において、図1(実施の形態1)と同一の構成部には同一符号を付し、その説明を省略する。
図8は、本実施の形態に係るトーン判定装置600の主要な構成を示すブロック図である。ここでは、トーン判定装置600が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図8において、図1(実施の形態1)と同一の構成部には同一符号を付し、その説明を省略する。
図8において、倍音成分算出部601は、後述する図10に示すCELP符号化器702から入力されるピッチラグを用いて倍音成分を算出し、算出した倍音成分を示す情報(倍音成分情報)をベクトル結合部602に出力する。
ベクトル結合部602は、バッファ103から前フレームのSDFT係数と、前フレームのダウンサンプリング後のSDFT係数と、現フレームのSDFT係数と、現フレームのダウンサンプリング後のSDFT係数とを入力される。また、ベクトル結合部602は、倍音成分算出部601から倍音成分情報を入力される。次いで、ベクトル結合部602は、前フレームのSDFT係数の一部と、前フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数を生成し、生成したSDFT係数を相関分析部603に出力する。また、ベクトル結合部602は、現フレームのSDFT係数の一部
と、現フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数を生成し、生成したSDFT係数を相関分析部603に出力する。この際、ベクトル結合部602がどのような結合を行うかは、倍音成分情報に応じて決定される。
と、現フレームのダウンサンプリング後のSDFT係数の一部とを結合して新たなSDFT係数を生成し、生成したSDFT係数を相関分析部603に出力する。この際、ベクトル結合部602がどのような結合を行うかは、倍音成分情報に応じて決定される。
相関分析部603は、ベクトル結合部602から前フレームの結合後のSDFT係数と、現フレームの結合後のSDFT係数とを入力され、SDFT係数のフレーム間での相関を求め、求めた相関をトーン判定部107に出力する。
トーン判定部107は、相関分析部603から相関を入力され、この相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部107は、トーン判定装置600の出力としてトーン情報を出力する。
次に、トーン判定対象となる入力信号の次数が2N次である場合を例にとって、図9を用いて、トーン判定装置600の動作について説明する。
倍音成分算出部601は、後述する図10に示すCELP符号化器702からピッチラグを入力する。ここで、ピッチラグとは、入力信号の基本となる周期(周波数)成分のことであり、時間領域では、ピッチ周期、基本周期等と呼ばれ、周波数領域では、ピッチ周波数、基本周波数等と呼ばれることもある。一般に、CELP符号化器では、適応音源ベクトルを生成する際にピッチラグが求められる。適応音源ベクトルは、過去に生成された音源系列(適応音源符号帳)の中から、入力信号の周期的な成分として最も適切な部分をフレーム(サブフレーム)の長さだけ切り出されたものである。ピッチラグとは、現時刻から何サンプル遡って適応音源ベクトルを切り出すのかを指示する値であるとも言える。後述する図10に示すように、符号化装置が、CELP符号化を行った後にさらに高域の成分を符号化するような構成を採る場合、CELP符号化器702内で求められるピッチラグをそのまま倍音成分算出部601に入力すればよく、ピッチラグを求めるための新たな処理を追加する必要はない。
次に、倍音成分算出部601は、入力されたピッチラグを用いて基本周波数を求める。例えば、入力が16000HzであるCELP符号化器でピッチラグを求めている場合、下記の式(15)により基本周波数Pを求めることができる。
ここで、plはピッチラグであり、適応音源符号帳から適応音源ベクトルを切り出す際の、切り出す部分の先頭位置に相当する。例えば、現時刻から40サンプルだけ遡った位置から適応音源ベクトルが切り出された場合(pl=40)、式(15)により、その基本周波数Pは400Hzであることがわかる。
次に、倍音成分算出部601は、基本周波数Pの整数倍(2×P,3×P,4×P,…)の倍音成分を求め、基本周波数Pと倍音成分情報とをベクトル結合部602に出力する。この際、倍音成分算出部601は、トーン判定に用いるSDFT係数の周波数帯域に相当する倍音成分情報のみを出力すればよい。例えば、トーン判定に用いるSDFT係数の周波数帯域が8000〜12000Hzであり、基本周波数Pが400Hzである場合、倍音成分算出部601は、周波数帯域8000〜12000Hzに含まれる倍音成分(8000,8400,8800,…,12000)のみを出力すればよい。また、すべての倍音成分情報を出力するのではなく、周波数の低い方から数個のみ(例えば、8000,8400,8800の3個のみ)に限定して出力してもよい。また、偶数番目の倍音成分
情報(例えば、8000,8800,9600,…)のみ、または、奇数番目の倍音成分情報(例えば、8400,9200,10000,…)のみを出力するということも可能である。
情報(例えば、8000,8800,9600,…)のみ、または、奇数番目の倍音成分情報(例えば、8400,9200,10000,…)のみを出力するということも可能である。
また、倍音成分算出部601が出力する倍音成分情報はピッチラグplの値に応じて一意に定まる。そこで、前もってすべてのピッチラグplについて倍音成分情報を求めておきメモリに格納しておけば、倍音成分情報を求める上記のような処理を行わなくても、メモリを参照すれば出力すべき倍音成分情報がわかるので、倍音成分情報を求めるための計算量の増加を回避することができる。
ベクトル結合部602は、バッファ103から、現フレームのSDFT係数Y(k)(k=0,1,…,N)と、現フレームのダウンサンプリング後のSDFT係数Y_re(k)(k=0,1,…,N/2−1)と、前フレームのSDFT係数Y_pre(k)(k=0,1,…,N)と、前フレームのダウンサンプリング後のSDFT係数Y_re_pre(k)(k=0,1,…,N/2−1)とを入力されるとともに、倍音成分算出部601から倍音成分情報(P,2×P,3×P,…)を入力される。
次いで、ベクトル結合部602は、倍音成分情報を用いて現フレームのSDFT係数の結合を行う。具体的には、ベクトル結合部602は、倍音成分に相当する周波数帯域の近傍ではダウンサンプリングしていないSDFT係数を選び、倍音成分に相当しない周波数帯域ではダウンサンプリング後のSDFT係数を選び、それらのSDFT係数を結合させる。例えば、倍音成分情報として2×Pのみを入力され、2×Pの周波数に相当するSDFT係数がY(PH)であり、Y(PH)の近傍の範囲(長さLH)においてはダウンサンプリングしていないSDFT係数が選択される場合、ベクトル結合部602は、下記の式(16)に従ってSDFT係数の結合を行う。
ベクトル結合部602での上記の結合処理の様子を表すと図9に示すようになる。
図9に示すように、結合後のSDFT係数には基本的にダウンサンプリング後のSDFT係数((1)と(3))が用いられ、倍音成分の周波数PHを中心として長さLHの範囲に相当するSDFT係数((2))が(1)と(3)の間に挿入されて結合が行われる。図9の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲同士を表している。すなわち、図9に示すように、倍音成分の周波数PHの近傍は重要であると考え、倍音成分の周波数PHの近傍には、ダウンサンプリングしていないSDFT係数をそのまま使うこととしている。ここで、抜き出す範囲の長さであるLHは、定数として適した
値を予め設定しておく。LHを長くすると結合後のSDFT係数が長くなるため、後の相関を求める処理において計算量が大きくなるが、一方で、求める相関がより正確になる。従って、計算量と相関の正確さとのトレードオフを考慮して、LHを決めるとよい。また、LHを適応的に変化させることも可能である。
値を予め設定しておく。LHを長くすると結合後のSDFT係数が長くなるため、後の相関を求める処理において計算量が大きくなるが、一方で、求める相関がより正確になる。従って、計算量と相関の正確さとのトレードオフを考慮して、LHを決めるとよい。また、LHを適応的に変化させることも可能である。
また、倍音成分情報として複数の倍音成分がベクトル結合部602に入力された場合、複数の倍音成分の周波数の近傍において、図9の(2)に示すように、ダウンサンプリングしていないSDFT係数を複数抜き出して結合に用いるとよい。
次いで、ベクトル結合部602は、現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と、前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを相関分析部603に出力する。ここで、K=(N+LH)/2−1である。
相関分析部603は、ベクトル結合部602から現フレームの結合後のSDFT係数Y_co(k)(k=0,1,…,K)と前フレームの結合後のSDFT係数Y_co_pre(k)(k=0,1,…,K)とを入力され、式(5)〜(8)に従って相関Sを求め、求めた相関Sを相関情報としてトーン判定部107に出力する。
このように、本実施の形態によれば、倍音成分に相当する周波数近傍以外の周波数帯域では、ダウンサンプリングによるベクトル系列長の短縮を行うため、入力信号のトーン性の判定に要する計算量を低減することができる。また、音楽、特に楽器の弦や楽器管内の空気の振動には、通常、基本的な周波数成分の他に周波数が2倍、3倍等の整数倍の倍音成分が一緒に含まれている(調波構造)。このような場合でも、本実施の形態によれば、倍音成分に相当する周波数近傍の範囲ではベクトル系列長の短縮をせずにそのままトーン性の判定に用いる。そのため、トーン性の判定において重要となる調波構造が考慮され、ダウンサンプリングによる情報量欠落によるトーン性判定性能の劣化を防ぐことができる。
(実施の形態5)
図10は、本実施の形態に係る符号化装置700の主要な構成を示すブロック図である。ここでは、符号化装置700が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。なお、図10において、図7(実施の形態3)と同一の構成部には同一符号を付し、その説明を省略する。
図10は、本実施の形態に係る符号化装置700の主要な構成を示すブロック図である。ここでは、符号化装置700が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。なお、図10において、図7(実施の形態3)と同一の構成部には同一符号を付し、その説明を省略する。
図10に示す符号化装置700は、上記実施の形態4に係るトーン判定装置600(図8)を備える。
図10において、ダウンサンプリング部701は、入力信号のダウンサンプリングを行い、ダウンサンプリング後の入力信号をCELP符号化器702に出力する。例えば、ダウンサンプリング部701への入力信号が32000Hzである場合、その入力信号がCELP符号化器702への入力信号として最適な周波数帯域となるように、16000Hzにダウンサンプリングされることが多い。
CELP符号化器702は、ダウンサンプリング部701から入力されたダウンサンプリング後の入力信号をCELP符号化する。CELP符号化器702は、CELP符号化の結果得られる符号をCELP復号化器703に出力するとともに、符号化装置700の符号化結果の一部として符号化装置700の外部に出力する。また、CELP符号化器702は、CELP符号化の過程において得られるピッチラグをトーン判定装置600に出力する。
トーン判定装置600は、上記実施の形態4において説明したように、入力信号とピッチラグとからトーン情報を得る。次いで、トーン判定装置600は、トーン情報を選択部401に出力する。なお、実施の形態3と同様に、このトーン情報は、必要に応じて符号化装置700の外部に出力してもよい。
CELP復号化器703は、CELP符号化器702から入力される符号をCELP復号化する。CELP復号化器703は、CELP復号化の結果得られる復号化信号をアップサンプリング部704に出力する。
アップサンプリング部704は、CELP復号化器703から入力される復号化信号をアップサンプリングして加算器705に出力する。例えば、ダウンサンプリング部701への入力信号が32000Hzである場合、アップサンプリング部704は、アップサンプリングにより32000Hzの復号化信号を得る。
加算器705は、入力信号からアップサンプリング後の復号化信号を減算し、減算後の残差信号を選択部401に出力する。このように、CELP符号化器702により符号化された信号成分を入力信号から差し引くことにより、CELP符号化器702で符号化しなかった高周波数帯域側の信号成分を、次の符号化過程の符号化対象とすることができる。
符号化部402は、残差信号を符号化し、符号化により生成される符号を出力する。符号化部402に入力される入力信号は「トーン」であるため、符号化部402は、楽音の符号化に適している符号化方法により残差信号を符号化する。
符号化部403は、残差信号を符号化し、符号化により生成される符号を出力する。符号化部403に入力される入力信号は「非トーン」であるため、符号化部403は、音声の符号化に適している符号化方法により残差信号を符号化する。
なお、本実施の形態では符号化部が2つである場合を一例として説明したが、互いに異なる符号化方法により符号化を行う符号化部を3つ以上あってもよい。この場合、段階的に判定されるトーンの度合いに応じて、3つ以上の符号化部のうちいずれかの符号化部を選択すればよい。
また、本実施の形態では入力信号が音声信号および/または楽音信号であるとして説明したが、本発明はその他の信号に対しても上記と同様にして実施することが可能である。
このようにして、本実施の形態によれば、入力信号のトーン性に応じた最適な符号化方法により入力信号を符号化することができる。
また、ピッチラグの情報を得ることができる構成であれば、本実施の形態で説明した構成に限らず、種々形態を変更しても上記同様の効果を得ることができる。
以上、本発明の実施の形態について説明した。
なお、入力信号の周波数変換は、SDFT以外の周波数変換、例えば、DFT(離散フーリエ変換)、FFT(高速フーリエ変換)、DCT(離散コサイン変換)、MDCT(修正離散コサイン変換)等により行ってもよい。
また、上記実施の形態に係るトーン判定装置および符号化装置は、音声や楽音等の伝送
が行われる移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
が行われる移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るトーン判定方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るトーン判定装置と同様の機能を実現することができる。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部またはすべてを含むように1チップ化されてもよい。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。
2009年2月27日出願の特願2009−046517、2009年5月18日出願の特願2009−120112および2009年10月13日出願の特願2009−236451の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明は、音声符号化および音声復号化等の用途に適用することができる。
Claims (14)
- 周波数変換された入力信号のベクトル系列長を短縮する短縮処理を行う短縮手段と、
ベクトル系列長短縮後のベクトル系列を用いて相関を求める相関手段と、
前記相関を用いて前記入力信号のトーン性を判定する判定手段と、
を具備するトーン判定装置。 - 前記周波数変換された入力信号のベクトル系列と前記ベクトル系列長短縮後のベクトル系列とを結合して結合ベクトル系列を生成する結合手段、をさらに具備し、
前記相関手段は、前記結合ベクトル系列を用いて相関を求める、
請求項1記載のトーン判定装置。 - 前記短縮手段は、前記短縮処理をダウンサンプリング処理により行う、
請求項1記載のトーン判定装置。 - 前記入力信号の一定の周波数帯域毎のパワーを用いて、前記トーン性の判定において予め設定された条件に該当する周波数帯域を決定する決定手段、をさらに具備し、
前記短縮手段は、前記予め設定された条件に該当する周波数帯域以外の周波数帯域において前記短縮処理を行う、
請求項1記載のトーン判定装置。 - 前記決定手段は、前記相関手段が前記相関を求める過程で得られる前記一定の周波数帯域毎のパワーを用いて前記予め設定された条件に該当する周波数帯域を決定する、
請求項4記載のトーン判定装置。 - 前記周波数変換後の信号のベクトル系列を、人間の音響心理的特性に基づいた尺度を用いて設定される割合で分割する分割手段、をさらに具備し、
前記短縮手段は、分割後のベクトル系列のベクトル系列長を短縮する前記短縮処理を行う、
請求項1記載のトーン判定装置。 - 前記分割手段は、前記尺度としてバーク尺度を用いる、
請求項6記載のトーン判定装置。 - CELP(Code Excited Linear Prediction)符号化において求められるピッチラグを用いて倍音成分を算出する倍音成分算出手段、をさらに具備し、
前記結合手段は、前記倍音成分を用いて前記周波数変換された入力信号のベクトル系列と前記ベクトル系列長短縮後のベクトル系列とを結合する、
請求項2記載のトーン判定装置。 - 前記結合手段は、前記倍音成分に相当しない周波数帯域にある前記ベクトル系列長短縮後のベクトル系列を前記周波数変換された入力信号のベクトル系列に結合する、
請求項8記載のトーン判定装置。 - 請求項1記載のトーン判定装置と、
前記入力信号を互いに異なる符号化方法を用いて符号化する複数の符号化手段と、
前記判定手段での判定結果に応じて、前記入力信号の符号化を行う符号化手段を前記複数の符号化手段の中から選択する選択手段と、
を具備する符号化装置。 - 請求項8記載のトーン判定装置と、
前記入力信号をCELP符号化し、ピッチラグを求めるとともにCELP復号化信号を生成し、前記入力信号と前記CELP復号化信号との残差信号を生成するCELP符号化手段と、
前記残差信号を互いに異なる符号化方法を用いて符号化する複数の符号化手段と、
前記判定手段での判定結果に応じて、前記残差信号の符号化を行う符号化手段を前記複数の符号化手段の中から選択する選択手段と、
を具備する符号化装置。 - 請求項1記載のトーン判定装置を具備する通信端末装置。
- 請求項1記載のトーン判定装置を具備する基地局装置。
- 周波数変換された入力信号のベクトル系列長を短縮する短縮処理を行う短縮工程と、
ベクトル系列長短縮後のベクトル系列を用いて相関を求める相関工程と、
前記相関を用いて前記入力信号のトーン性を判定する判定工程と、
を具備するトーン判定方法。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009046517 | 2009-02-27 | ||
JP2009046517 | 2009-02-27 | ||
JP2009120112 | 2009-05-18 | ||
JP2009120112 | 2009-05-18 | ||
JP2009236451 | 2009-10-13 | ||
JP2009236451 | 2009-10-13 | ||
PCT/JP2010/001331 WO2010098130A1 (ja) | 2009-02-27 | 2010-02-26 | トーン判定装置およびトーン判定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2010098130A1 true JPWO2010098130A1 (ja) | 2012-08-30 |
Family
ID=42665343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011501521A Pending JPWO2010098130A1 (ja) | 2009-02-27 | 2010-02-26 | トーン判定装置およびトーン判定方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20110301946A1 (ja) |
EP (1) | EP2402938A1 (ja) |
JP (1) | JPWO2010098130A1 (ja) |
KR (1) | KR20110132339A (ja) |
CN (1) | CN102334156A (ja) |
BR (1) | BRPI1008915A2 (ja) |
MX (1) | MX2011008605A (ja) |
RU (1) | RU2011135735A (ja) |
WO (1) | WO2010098130A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2495721B1 (en) * | 2009-10-26 | 2018-05-30 | III Holdings 12, LLC | Tone determination device and method |
CN102783034B (zh) * | 2011-02-01 | 2014-12-17 | 华为技术有限公司 | 用于提供信号处理系数的方法和设备 |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
JP6907859B2 (ja) | 2017-09-25 | 2021-07-21 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1155942C (zh) * | 1995-05-10 | 2004-06-30 | 皇家菲利浦电子有限公司 | 具有改进的音调检测的编码语音传输系统和方法 |
JP3840684B2 (ja) * | 1996-02-01 | 2006-11-01 | ソニー株式会社 | ピッチ抽出装置及びピッチ抽出方法 |
US5864820A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for mixing of encoded audio signals |
US6718217B1 (en) * | 1997-12-02 | 2004-04-06 | Jsr Corporation | Digital audio tone evaluating system |
US6161088A (en) * | 1998-06-26 | 2000-12-12 | Texas Instruments Incorporated | Method and system for encoding a digital audio signal |
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6980950B1 (en) * | 1999-10-22 | 2005-12-27 | Texas Instruments Incorporated | Automatic utterance detector with high noise immunity |
JP3888097B2 (ja) * | 2001-08-02 | 2007-02-28 | 松下電器産業株式会社 | ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置 |
WO2004036939A1 (fr) * | 2002-10-18 | 2004-04-29 | Institute Of Acoustics Chinese Academy Of Sciences | Appareil de communication mobile numerique portable, procede de commande vocale et systeme |
US7363218B2 (en) * | 2002-10-25 | 2008-04-22 | Dilithium Networks Pty. Ltd. | Method and apparatus for fast CELP parameter mapping |
CN1768476B (zh) * | 2003-03-31 | 2010-06-09 | Nxp股份有限公司 | 采样率转换器及方法,包括采样率转换器的设备 |
CN1272948C (zh) * | 2003-08-21 | 2006-08-30 | 北京交通大学 | 一种同步码分多址用户信号二维波达方向估计方法和装置 |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
JP4736632B2 (ja) * | 2005-08-31 | 2011-07-27 | 株式会社国際電気通信基礎技術研究所 | ボーカル・フライ検出装置及びコンピュータプログラム |
US20070083365A1 (en) * | 2005-10-06 | 2007-04-12 | Dts, Inc. | Neural network classifier for separating audio sources from a monophonic audio signal |
US8473298B2 (en) * | 2005-11-01 | 2013-06-25 | Apple Inc. | Pre-resampling to achieve continuously variable analysis time/frequency resolution |
JP4986028B2 (ja) * | 2007-01-19 | 2012-07-25 | Kddi株式会社 | 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 |
EP2162880B1 (en) * | 2007-06-22 | 2014-12-24 | VoiceAge Corporation | Method and device for estimating the tonality of a sound signal |
GB2453117B (en) * | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
JP2009120112A (ja) | 2007-11-16 | 2009-06-04 | Toyota Motor Corp | 車両の制御装置 |
JP5006827B2 (ja) | 2008-03-28 | 2012-08-22 | 日本スピンドル製造株式会社 | 温調装置 |
JP2009046517A (ja) | 2008-11-05 | 2009-03-05 | Pias Arise Kk | 睫毛用化粧料 |
WO2012037515A1 (en) * | 2010-09-17 | 2012-03-22 | Xiph. Org. | Methods and systems for adaptive time-frequency resolution in digital data coding |
-
2010
- 2010-02-26 MX MX2011008605A patent/MX2011008605A/es active IP Right Grant
- 2010-02-26 EP EP10746013A patent/EP2402938A1/en not_active Withdrawn
- 2010-02-26 KR KR1020117019747A patent/KR20110132339A/ko not_active Application Discontinuation
- 2010-02-26 WO PCT/JP2010/001331 patent/WO2010098130A1/ja active Application Filing
- 2010-02-26 JP JP2011501521A patent/JPWO2010098130A1/ja active Pending
- 2010-02-26 RU RU2011135735/08A patent/RU2011135735A/ru not_active Application Discontinuation
- 2010-02-26 BR BRPI1008915A patent/BRPI1008915A2/pt not_active IP Right Cessation
- 2010-02-26 CN CN2010800092997A patent/CN102334156A/zh active Pending
- 2010-02-26 US US13/202,170 patent/US20110301946A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
MX2011008605A (es) | 2011-09-09 |
WO2010098130A1 (ja) | 2010-09-02 |
CN102334156A (zh) | 2012-01-25 |
KR20110132339A (ko) | 2011-12-07 |
EP2402938A1 (en) | 2012-01-04 |
RU2011135735A (ru) | 2013-05-10 |
US20110301946A1 (en) | 2011-12-08 |
BRPI1008915A2 (pt) | 2018-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101092167B1 (ko) | 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩 | |
US8521519B2 (en) | Adaptive audio signal source vector quantization device and adaptive audio signal source vector quantization method that search for pitch period based on variable resolution | |
US8543392B2 (en) | Encoding device, decoding device, and method thereof for specifying a band of a great error | |
KR101244310B1 (ko) | 광대역 부호화 및 복호화 방법 및 장치 | |
EP2492911B1 (en) | Audio encoding apparatus, decoding apparatus, method, circuit and program | |
EP1953736A1 (en) | Stereo encoding device, and stereo signal predicting method | |
MXPA06011957A (es) | Codificacion de senales. | |
JPH10124088A (ja) | 音声帯域幅拡張装置及び方法 | |
US8719011B2 (en) | Encoding device and encoding method | |
EP2626856B1 (en) | Encoding device, decoding device, encoding method, and decoding method | |
US20100185442A1 (en) | Adaptive sound source vector quantizing device and adaptive sound source vector quantizing method | |
WO2009125588A1 (ja) | 符号化装置および符号化方法 | |
WO2010098130A1 (ja) | トーン判定装置およびトーン判定方法 | |
JP5544370B2 (ja) | 符号化装置、復号装置およびこれらの方法 | |
JPH10124089A (ja) | 音声信号処理装置及び方法、並びに、音声帯域幅拡張装置及び方法 | |
WO2013057895A1 (ja) | 符号化装置及び符号化方法 | |
JP2003044099A (ja) | ピッチ周期探索範囲設定装置及びピッチ周期探索装置 | |
JP5511839B2 (ja) | トーン判定装置およびトーン判定方法 | |
WO2011058752A1 (ja) | 符号化装置、復号装置およびこれらの方法 | |
JPH10207495A (ja) | 音声情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120926 |