JPWO2007088853A1 - 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 - Google Patents
音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 Download PDFInfo
- Publication number
- JPWO2007088853A1 JPWO2007088853A1 JP2007556867A JP2007556867A JPWO2007088853A1 JP WO2007088853 A1 JPWO2007088853 A1 JP WO2007088853A1 JP 2007556867 A JP2007556867 A JP 2007556867A JP 2007556867 A JP2007556867 A JP 2007556867A JP WO2007088853 A1 JPWO2007088853 A1 JP WO2007088853A1
- Authority
- JP
- Japan
- Prior art keywords
- coefficient
- amplitude
- signal
- spectral
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000001228 spectrum Methods 0.000 claims abstract description 223
- 238000004364 calculation method Methods 0.000 claims abstract description 55
- 238000013139 quantization Methods 0.000 claims abstract description 50
- 230000003595 spectral effect Effects 0.000 claims description 162
- 238000006243 chemical reaction Methods 0.000 claims description 125
- 230000005284 excitation Effects 0.000 abstract description 53
- 238000010586 diagram Methods 0.000 description 30
- 238000004458 analytical method Methods 0.000 description 24
- 230000015572 biosynthetic process Effects 0.000 description 22
- 238000003786 synthesis reaction Methods 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
図1は、本発明の実施の形態1に係る音声信号用スペクトル振幅推定装置100の構成を示すブロック図である。このスペクトル振幅推定装置100は、主として音声符号化装置に用いられる。この図において、FFT(Fast Fourier Transform)部101は、駆動音源信号eを入力とし、駆動音源信号eを順方向周波数変換によって周波数領域信号に変換し、第1スペクトル振幅算出部102に出力する。なお、この入力信号は信号源のモノラル、左または右チャネルのいずれかが考えられる。
実施の形態1では、スペクトル振幅を推定する場合について説明したが、本発明の実施の形態2では、基準信号と基準信号の推定値との差(残差信号)を符号化する場合について説明する。残差信号は、非定常状態になる傾向があるランダム信号に近いので、図4に示したスペクトルと類似している。よって、実施の形態1において説明したスペクトル振幅推定方法を応用して残差信号を推定することができる。
ネルは変換領域で推定信号が検索されるため、このスケールファクタを用いて周波数帯域ごとに拡大または縮小される。この後、周波数の逆変換を施して推定変換領域スペクトルデータに対応する時間領域信号を得る。
図1は、本発明の実施の形態1に係る音声信号用スペクトル振幅推定装置100の構成を示すブロック図である。このスペクトル振幅推定装置100は、主として音声符号化装置に用いられる。この図において、FFT(Fast Fourier Transform)部101は、駆動音源信号eを入力とし、駆動音源信号eを順方向周波数変換によって周波数領域信号に変換し、第1スペクトル振幅算出部102に出力する。なお、この入力信号は信号源のモノラル、左または右チャネルのいずれかが考えられる。
ると共に、1〜N番目のピークの位置PosNをそれぞれ検索する。検索された1〜N番目のピーク位置PosNが係数選択部107に出力される。
実施の形態1では、スペクトル振幅を推定する場合について説明したが、本発明の実施の形態2では、基準信号と基準信号の推定値との差(残差信号)を符号化する場合について説明する。残差信号は、非定常状態になる傾向があるランダム信号に近いので、図4に示したスペクトルと類似している。よって、実施の形態1において説明したスペクトル振幅推定方法を応用して残差信号を推定することができる。
域信号に変換し、第1スペクトル振幅算出部302aに出力する。
定駆動音源信号e^Lを用いて、変換係数C^およびピーク位置PosNを求め、求めた変換係数C^およびピーク位置PosNを復号器側の復号器409に送信する。
ル音声M’と、LPC合成フィルタ414から出力された左チャネル信号L’との関係から右チャネル信号R’を導き出せる。すなわち、R’=2M’−L’の関係式によって右チャネル信号R’を求めることができる。
Claims (9)
- 第1入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、
前記周波数領域信号の第1スペクトル振幅を算出する第1算出手段と、
前記第1スペクトル振幅に周波数変換を施し、第2スペクトル振幅を算出する第2算出手段と、
前記第2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、
特定された前記ピーク位置に該当する前記第2スペクトル振幅の変換係数を選択する選択手段と、
選択された前記変換係数を量子化する量子化手段と、
を具備する音声符号化装置。 - 前記第1スペクトル振幅は、対数値である請求項1に記載の音声符号化装置。
- 前記第1スペクトル振幅は、絶対値である請求項1に記載の音声符号化装置。
- 前記量子化手段は、スカラー量子化又はベクター量子化によって量子化する請求項1に記載の音声符号化装置。
- 入力信号に2回の周波数変換を施して得られた変換係数のうち、上位複数の量子化された変換係数を取得し、取得した変換係数を逆量子化する逆量子化手段と、
前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、
前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、
を具備する音声復号装置。 - 前記スペクトル係数形成手段は、入力信号に2回の周波数変換を施して得られた変換係数から選択された上位複数の変換係数の位置に前記変換係数を配置し、残りの位置に0を配置する請求項5に記載の音声復号装置。
- 入力信号に周波数変換を施し、周波数領域信号を形成する変換手段と、
前記周波数領域信号の第1スペクトル振幅を算出する第1算出手段と、
前記第1スペクトル振幅に周波数変換を施し、第2スペクトル振幅を算出する第2算出手段と、
前記第2スペクトル振幅の上位複数のピークのピーク位置を特定する特定手段と、
特定された前記ピーク位置に該当する前記第2スペクトル振幅の変換係数を選択する選択手段と、
選択された前記変換係数を量子化する量子化手段と、
を有する音声符号化装置と、
量子化された前記変換係数を逆量子化する逆量子化手段と、
前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成手段と、
前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換手段と、
を具備する音声復号装置と、
を具備する音声符号化システム。 - 入力信号に周波数変換を施し、周波数領域信号を形成する変換工程と、
前記周波数領域信号の第1スペクトル振幅を算出する第1算出工程と、
前記第1スペクトル振幅に周波数変換を施し、第2スペクトル振幅を算出する第2算出工程と、
前記第2スペクトル振幅の上位複数のピークのピーク位置を特定する特定工程と、
特定された前記ピーク位置に該当する前記第2スペクトル振幅の変換係数を選択する選択工程と、
選択された前記変換係数を量子化する量子化工程と、
を具備する音声符号化方法。 - 入力信号に2回の周波数変換を施して得られた変換係数のうち、上位複数の量子化された変換係数を取得し、取得した変換係数を逆量子化する逆量子化工程と、
前記変換係数を周波数軸上に配置し、スペクトル係数を形成するスペクトル係数形成工程と、
前記スペクトル係数に逆周波数変換を施してスペクトル振幅の推定値を再構成し、前記スペクトル振幅推定値の線形値を取得する逆変換工程と、
を具備する音声復号方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006023756 | 2006-01-31 | ||
JP2006023756 | 2006-01-31 | ||
PCT/JP2007/051503 WO2007088853A1 (ja) | 2006-01-31 | 2007-01-30 | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2007088853A1 true JPWO2007088853A1 (ja) | 2009-06-25 |
Family
ID=38327425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007556867A Ceased JPWO2007088853A1 (ja) | 2006-01-31 | 2007-01-30 | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090018824A1 (ja) |
JP (1) | JPWO2007088853A1 (ja) |
WO (1) | WO2007088853A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101107505A (zh) * | 2005-01-26 | 2008-01-16 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
WO2008016097A1 (fr) * | 2006-08-04 | 2008-02-07 | Panasonic Corporation | dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci |
US20100332223A1 (en) * | 2006-12-13 | 2010-12-30 | Panasonic Corporation | Audio decoding device and power adjusting method |
JP5377287B2 (ja) * | 2007-03-02 | 2013-12-25 | パナソニック株式会社 | ポストフィルタ、復号装置およびポストフィルタ処理方法 |
EP2128854B1 (en) * | 2007-03-02 | 2017-07-26 | III Holdings 12, LLC | Audio encoding device and audio decoding device |
US8554548B2 (en) * | 2007-03-02 | 2013-10-08 | Panasonic Corporation | Speech decoding apparatus and speech decoding method including high band emphasis processing |
WO2008132850A1 (ja) * | 2007-04-25 | 2008-11-06 | Panasonic Corporation | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 |
EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
JP5404412B2 (ja) * | 2007-11-01 | 2014-01-29 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
WO2010140306A1 (ja) * | 2009-06-01 | 2010-12-09 | 三菱電機株式会社 | 信号処理装置 |
US8498874B2 (en) * | 2009-09-11 | 2013-07-30 | Sling Media Pvt Ltd | Audio signal encoding employing interchannel and temporal redundancy reduction |
RU2587652C2 (ru) * | 2010-11-10 | 2016-06-20 | Конинклейке Филипс Электроникс Н.В. | Способ и устройство для оценки структуры в сигнале |
WO2014118152A1 (en) * | 2013-01-29 | 2014-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low-frequency emphasis for lpc-based coding in frequency domain |
EP2980798A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Harmonicity-dependent controlling of a harmonic filter tool |
KR102189730B1 (ko) * | 2015-09-03 | 2020-12-14 | 주식회사 쏠리드 | 디지털 데이터 압축 및 복원 장치 |
US10553222B2 (en) * | 2017-03-09 | 2020-02-04 | Qualcomm Incorporated | Inter-channel bandwidth extension spectral mapping and adjustment |
CN108288467B (zh) * | 2017-06-07 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置及语音识别引擎 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01205200A (ja) * | 1988-02-12 | 1989-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方式 |
JPH03245200A (ja) * | 1990-02-23 | 1991-10-31 | Hitachi Ltd | 音声情報圧縮方法 |
JPH0777979A (ja) * | 1993-06-30 | 1995-03-20 | Casio Comput Co Ltd | 音声制御音響変調装置 |
JPH10228298A (ja) * | 1997-02-13 | 1998-08-25 | Taito Corp | 音声信号符号化方法 |
JP2001177416A (ja) * | 1999-12-17 | 2001-06-29 | Yrp Kokino Idotai Tsushin Kenkyusho:Kk | 音声符号化パラメータの取得方法および装置 |
JP2004070240A (ja) * | 2002-08-09 | 2004-03-04 | Yamaha Corp | オーディオ信号の時間軸圧伸装置、方法及びプログラム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL177950C (nl) * | 1978-12-14 | 1986-07-16 | Philips Nv | Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak. |
NL8400552A (nl) * | 1984-02-22 | 1985-09-16 | Philips Nv | Systeem voor het analyseren van menselijke spraak. |
EP0243479A4 (en) * | 1985-10-30 | 1989-12-13 | Central Inst Deaf | LANGUAGE PROCESSING ARRANGEMENT AND METHOD. |
US6876953B1 (en) * | 2000-04-20 | 2005-04-05 | The United States Of America As Represented By The Secretary Of The Navy | Narrowband signal processor |
US7184955B2 (en) * | 2002-03-25 | 2007-02-27 | Hewlett-Packard Development Company, L.P. | System and method for indexing videos based on speaker distinction |
US8498422B2 (en) * | 2002-04-22 | 2013-07-30 | Koninklijke Philips N.V. | Parametric multi-channel audio representation |
EP1881486B1 (en) * | 2002-04-22 | 2009-03-18 | Koninklijke Philips Electronics N.V. | Decoding apparatus with decorrelator unit |
ATE354161T1 (de) * | 2002-04-22 | 2007-03-15 | Koninkl Philips Electronics Nv | Signalsynthese |
US20060100861A1 (en) * | 2002-10-14 | 2006-05-11 | Koninkijkle Phillips Electronics N.V | Signal filtering |
US7272551B2 (en) * | 2003-02-24 | 2007-09-18 | International Business Machines Corporation | Computational effectiveness enhancement of frequency domain pitch estimators |
US7333930B2 (en) * | 2003-03-14 | 2008-02-19 | Agere Systems Inc. | Tonal analysis for perceptual audio coding using a compressed spectral representation |
US7451082B2 (en) * | 2003-08-27 | 2008-11-11 | Texas Instruments Incorporated | Noise-resistant utterance detector |
US7630396B2 (en) * | 2004-08-26 | 2009-12-08 | Panasonic Corporation | Multichannel signal coding equipment and multichannel signal decoding equipment |
RU2007107348A (ru) * | 2004-08-31 | 2008-09-10 | Мацусита Электрик Индастриал Ко., Лтд. (Jp) | Устройство и способ генерирования стереосигнала |
WO2006121101A1 (ja) * | 2005-05-13 | 2006-11-16 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置およびスペクトル変形方法 |
US20070011001A1 (en) * | 2005-07-11 | 2007-01-11 | Samsung Electronics Co., Ltd. | Apparatus for predicting the spectral information of voice signals and a method therefor |
US7546240B2 (en) * | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
KR100851970B1 (ko) * | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
-
2007
- 2007-01-30 US US12/162,645 patent/US20090018824A1/en not_active Abandoned
- 2007-01-30 JP JP2007556867A patent/JPWO2007088853A1/ja not_active Ceased
- 2007-01-30 WO PCT/JP2007/051503 patent/WO2007088853A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01205200A (ja) * | 1988-02-12 | 1989-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方式 |
JPH03245200A (ja) * | 1990-02-23 | 1991-10-31 | Hitachi Ltd | 音声情報圧縮方法 |
JPH0777979A (ja) * | 1993-06-30 | 1995-03-20 | Casio Comput Co Ltd | 音声制御音響変調装置 |
JPH10228298A (ja) * | 1997-02-13 | 1998-08-25 | Taito Corp | 音声信号符号化方法 |
JP2001177416A (ja) * | 1999-12-17 | 2001-06-29 | Yrp Kokino Idotai Tsushin Kenkyusho:Kk | 音声符号化パラメータの取得方法および装置 |
JP2004070240A (ja) * | 2002-08-09 | 2004-03-04 | Yamaha Corp | オーディオ信号の時間軸圧伸装置、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2007088853A1 (ja) | 2007-08-09 |
US20090018824A1 (en) | 2009-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2007088853A1 (ja) | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 | |
US7769584B2 (en) | Encoder, decoder, encoding method, and decoding method | |
RU2502138C2 (ru) | Кодирующее устройство, декодирующее устройство и способ | |
JP5413839B2 (ja) | 符号化装置および復号装置 | |
JP4859670B2 (ja) | 音声符号化装置および音声符号化方法 | |
RU2439718C1 (ru) | Способ и устройство для обработки звукового сигнала | |
JP4606418B2 (ja) | スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 | |
EP1801783B1 (en) | Scalable encoding device, scalable decoding device, and method thereof | |
JP5695074B2 (ja) | 音声符号化装置および音声復号化装置 | |
RU2462770C2 (ru) | Устройство кодирования и способ кодирования | |
US8386267B2 (en) | Stereo signal encoding device, stereo signal decoding device and methods for them | |
JP5809066B2 (ja) | 音声符号化装置および音声符号化方法 | |
KR20070085532A (ko) | 스테레오 부호화 장치, 스테레오 복호 장치 및 그 방법 | |
EP1801782A1 (en) | Scalable encoding apparatus and scalable encoding method | |
US20100017197A1 (en) | Voice coding device, voice decoding device and their methods | |
JPWO2008132850A1 (ja) | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 | |
JPWO2010140350A1 (ja) | ダウンミックス装置、符号化装置、及びこれらの方法 | |
JPWO2010016270A1 (ja) | 量子化装置、符号化装置、量子化方法及び符号化方法 | |
JPWO2009125588A1 (ja) | 符号化装置および符号化方法 | |
JPWO2007037359A1 (ja) | 音声符号化装置および音声符号化方法 | |
EP4189680B9 (en) | Neural network-based key generation for key-guided neural-network-based audio signal transformation | |
JP5774490B2 (ja) | 符号化装置、復号装置およびこれらの方法 | |
EP3252763A1 (en) | Low-delay audio coding | |
JP2006262292A (ja) | 符号化装置、復号装置、符号化方法及び復号方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120206 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20130129 |