KR101809298B1 - 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법 - Google Patents
부호화 장치, 복호 장치, 부호화 방법 및 복호 방법 Download PDFInfo
- Publication number
- KR101809298B1 KR101809298B1 KR1020137001556A KR20137001556A KR101809298B1 KR 101809298 B1 KR101809298 B1 KR 101809298B1 KR 1020137001556 A KR1020137001556 A KR 1020137001556A KR 20137001556 A KR20137001556 A KR 20137001556A KR 101809298 B1 KR101809298 B1 KR 101809298B1
- Authority
- KR
- South Korea
- Prior art keywords
- pitch
- time stretching
- time
- parameter
- encoding
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 96
- 239000011295 pitch Substances 0.000 claims description 598
- 230000008859 change Effects 0.000 claims description 144
- 230000005236 sound signal Effects 0.000 claims description 49
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000008602 contraction Effects 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 15
- 238000013459 approach Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 abstract description 7
- 230000002441 reversible effect Effects 0.000 description 57
- 238000010586 diagram Methods 0.000 description 38
- 238000001514 detection method Methods 0.000 description 31
- 238000006243 chemical reaction Methods 0.000 description 24
- 239000013598 vector Substances 0.000 description 21
- 238000012545 processing Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000012952 Resampling Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
- G10L2025/906—Pitch tracking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
부호화 장치(10)로서, 입력 음성 신호의 피치 패턴을 검출하는 피치 패턴 검출부(101)와, 피치 패턴에 의거하여, 피치 노드수를 결정하고, 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제1 시간 신축 파라미터를 생성하는 동적 시간 신축부(102)와, 제1 시간 신축 파라미터를 부호화하여 부호화 시간 신축 파라미터를 생성하는 제1 인코더(103)와, 제1 시간 신축 파라미터로부터 얻어지는 정보를 이용하여, 피치 노드수의 피치가 소정의 기준치에 가까워지도록 피치를 보정하는 시간 신축부(104)와, 보정된 피치로의 입력 음성 신호를 부호화하여 부호화 음성 신호를 생성하는 제2 인코더(105)와, 부호화 시간 신축 파라미터와 부호화 음성 신호를 다중화하여, 비트 스트림을 생성하는 멀티플렉서(106)를 구비한다.
Description
본 발명은, 입력되는 음성 신호를 부호화하거나, 또는 부호화된 음성 신호를 복호하는 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법에 관한 것이다.
부호화 장치는, 음성 신호를 효율적으로 부호화하도록 설계되어 있다. 사람의 발화의 경우, 음성 신호의 기본 주파수(피치)가 변화하는 경우도 한다. 이에 의해, 음성 신호의 에너지가 보다 넓은 주파수 대역으로 확산된다. 그리고 피치가 변화하는 음성 신호를 음향 신호 부호화 장치가 부호화하는 것은, 특히 저비트 레이트에서는 효율적이지 않다.
이 때문에, 종래, 시간 신축(Time Warping) 기술을 이용하여, 피치가 변화하는 영향을 보상하고 있다(예를 들면, 특허 문헌 1 및 비특허 문헌 1 참조).
구체적으로는 시간 신축 기술을 이용하여, 피치의 보정(피치 시프트)을 실현한다. 도 1a 및 도 1b는 종래의 피치를 시프트하는 수법의 일례를 도시하는 도면이다. 요컨대 도 1a는 피치 시프트 전의 음성 신호의 스펙트럼을 도시하는 도면이며, 도 1b는 피치 시프트 후의 음성 신호의 스펙트럼을 도시하는 도면이다.
이들 도면에 나타내는 바와 같이, 피치가 도 1a의 200Hz로부터 도 1b의 100Hz로 시프트되어 있다. 이와 같이, 다음 프레임의 피치를 앞의 프레임의 피치와 맞추도록 시프트함으로써, 피치는 일치된 것이 된다. 이 경우, 음성 신호의 에너지는, 도 2a~도 2c에 나타내는 바와 같이 집속된다.
도 2a는 종래의 음성 신호의 피치 시프트에 있어서의 피치 시프트 전의 스윕 신호를 도시하는 도면이다. 도 2b는 종래의 음성 신호의 피치 시프트에 있어서의 피치 시프트 후의 스윕 신호를 도시하는 도면이다. 이들 도면에 나타내는 바와 같이, 피치 시프트를 행함으로써, 음성 신호의 피치는 일정해진다.
또 도 2c는 종래의 음성 신호의 피치 시프트에 있어서의 피치 시프트 전후의 스펙트럼을 도시하는 도면이다. 여기에서 상기 도면의 그래프 a는, 피치 시프트 전의 스펙트럼을 나타내고, 상기 도면의 그래프 b는, 피치 시프트 후의 스펙트럼을 나타낸다. 상기 도면에 나타내는 바와 같이, 피치 시프트 후의 에너지가 좁은 대역폭에 들어가 있다.
여기에서 피치 시프트는, 예를 들면 재샘플링 방법을 이용하여 실현된다. 일치된 피치를 유지하기 위해, 재샘플링 하는 비율(이하, 재샘플링 레이트로 한다)은 피치 변화율에 따라 변화한다. 프레임을 부호화할 때, 피치 트래킹 알고리즘을 적용함으로써, 이 프레임의 피치 패턴이 얻어진다.
구체적으로는 피치 트래킹용으로 상기 프레임을 작은 섹션으로 분할한다. 인접하는 섹션은 서로 겹쳐져 있어도 된다. 피치 트래킹 알고리즘으로서는, 예를 들면 자기 상관에 의거한 피치 트래킹 알고리즘(예를 들면, 비특허 문헌 2 참조)과, 주파수 영역에 의거한 피치 검출 방법(예를 들면, 비특허 문헌 3 참조)이 존재한다.
각 섹션에는 대응하는 피치의 값이 있다. 도 3 및 도 4는 종래의 음성 신호의 피치 패턴의 계산 수법을 도시하는 도면이다. 도 3은 피치가 시간 변화하는 것을 나타내고 있다. 또 도 4에 나타내는 바와 같이, 1개의 피치의 값은, 음성 신호의 섹션 1개로부터 산출된다. 또한 피치 패턴은 피치의 값을 연결한 것이다.
피치 시프트에 있어서는, 재샘플링 레이트는 피치 변화율에 비례하고 있다. 또 피치 변화율을 나타내는 정보는, 피치 패턴으로부터 추출된다. 센트와 반음은, 이 피치 변화율을 측정하는데 자주 이용된다. 도 5는 센트와 반음의 척도를 도시하는 도면이다. 센트(cent, 상기 도면에서는 c)는, 이하와 같이 인접하는 피치의 피치비(피치 변화율)로부터 산출된다.
[수식 1]
피치 변화율에 따라, 재샘플링을 음성 신호에 적용한다. 일치된 피치를 얻기 위해, 다른 섹션의 피치를 기준 피치까지 시프트한다. 예를 들면, 다음 섹션의 피치가 앞의 피치보다 높으면, 2개의 피치간의 센트차에 비례하는, 보다 낮은 레이트로 재샘플링 레이트를 설정한다. 또 다음 섹션의 피치가 앞의 피치보다 낮은 경우는, 재샘플링 레이트를 높은 레이트로 설정한다.
보다 높은 톤에 대해, 재생 스피드를 낮춤으로써 오디오의 재생 스피드를 조정할 수 있는 기록 재생기를 생각하면, 그 톤은 보다 낮은 주파수로 시프트되어 있다. 이것은 피치 변화율에 비례하는 신호를 재샘플링한다는 생각과 동일한 것이다.
도 6 및 도 7은 시간 신축 방식을 이용한 부호화 장치 및 복호 장치를 도시하는 도면이다. 도 6에 나타내는 바와 같이, 부호화 장치는, 입력 신호를 피치비 정보를 이용하여 시간 신축시킨 후에, 변환 부호화를 행한다. 또 상기 피치비 정보는, 도 7에 나타내는 역시간 신축을 행하는 복호 장치에서 필요해진다.
이 때문에, 피치비는 부호화 장치에 있어서 부호화될 필요가 있다. 선행 기술에서는, 이들 피치비 정보를 부호화하는데, 작은 피치비에 대응한 고정 테이블이 이용되며, 또 피치비를 부호화하는데 이용할 수 있는 비트수는 한정되어 있는 조건 하에서, 시간 신축(Time Warping) 처리에 의해 부호화 음질을 향상시키는 것을 목표로 하고 있다.
Bernd Edler, "A Time-warpped MDCT Approach To Speech Transform Coding", AES 제126회 회의, 뮌헨, 독일, 2000년 5월
Milan Jelinek, "Wideband Speech Coding Advances in VMR-WB Standard", IEEE Transactions on Audio, Speech and Language Processing, 제15권 제4호, 2007년 5월
Xuejing Sun, "Pitch Detection and Voice Quality Analysis Using Subharmonic-to-Harmonic Ratio", IEEE ICASSP, 333-336, 올랜도, 2002년
시간 신축 수법을 이용함으로써, 1프레임 내에서 일치된 피치를 얻어, 부호화 효율의 향상을 실현할 수 있다. 이 시간 신축 수법은, 어느 정도까지는, 피치 트래킹의 정밀도에 의존한다. 그러나 음성 신호의 진폭 및 주기는 변화하므로, 피치 패턴을 정밀도 좋게 검출하는 것은 곤란하다.
피치 패턴의 검출 정밀도를 향상시키기 위해, 스무딩이나 미조정 역치 파라미터 등, 후처리 방식이 몇 가지 도입되어 있지만, 이들 방식은 특정 데이터베이스에 의거한 것이다. 부정확한 피치 패턴에 의거하여 시간 신축 수법을 적용하면, 음질은 저하하며, 시간 신축 정보를 송신하기 위해 비트가 낭비되게 된다. 이 때문에, 검출한 피치 패턴에 무조건 따르지 않는 시간 신축 수법의 설계가 필요하다.
현재, 선행 기술에 있어서의 시간 신축 수법에는, 피치 패턴 정보를 부호화하는 효율적인 방법이 없다. 선행 기술에서는, 작은 변화율의 피치 패턴에만 대응한 고정 테이블이 이용되고 있다. 그러나 음성 신호의 피치 변화율이 큰 경우에는, 상기 고정 테이블에서는 한계가 있으며, 시간 신축 수법에서의 성능이 저하한다. 이와 같이, 피치가 현저하게 변화하는 상황에서는 작은 고정 테이블로는 불충분하지만, 보다 큰 피치 변화율에 대응한 고정 테이블에서는 테이블 사이즈가 커지므로, 보다 많은 비트를 사용하여 피치비 정보를 부호화할 필요가 있다.
이것은, 특히 저비트 레이트의 부호화에 있어서 대상이 커질 수 있다. 요컨대 시간 신축 정보의 송신 시에 많은 비트를 사용함으로써 부호화 효율을 향상시킬 수는 있지만, 음성 신호의 부호화용의 비트가 그다지 남겨지지 않아, 음질이 열화하는 원인이 된다.
그러므로 시간 신축 수법에 있어서 보다 적은 비트수로 효율적으로 부호화를 행할 수 있으면, 확보해 둔 많은 비트를 음성 신호의 부호화에 사용할 수 있다. 이에 의해, 피치의 변화가 큰 음성 신호여도, 음질을 향상시킬 수 있다.
그래서 본 발명은, 이러한 문제를 감안하여 이루어진 것이며, 피치의 변화가 큰 음성 신호여도, 적은 비트수로 음질을 향상시킬 수 있는 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위해, 본 발명의 한 양태에 따른 부호화 장치는, 입력 음성 신호의 소정 기간에 있어서의 피치의 변화를 나타내는 정보인 피치 패턴을 검출하는 피치 패턴 검출부와, 검출된 상기 피치 패턴에 의거하여, 상기 소정 기간에 검출하는 피치의 수인 피치 노드수를 결정하고, 결정한 상기 피치 노드수와, 상기 피치 노드수의 피치에 있어서 피치의 변화가 발생하는 위치인 피치 변화 위치와, 상기 피치 변화 위치에 있어서의 피치의 변화 비율인 피치 변화율을 나타내는 정보를 포함하는 제1 시간 신축 파라미터를 생성하는 동적 시간 신축부와, 생성된 상기 제1 시간 신축 파라미터를 부호화하여 부호화 시간 신축 파라미터를 생성하는 제1 인코더와, 생성된 상기 제1 시간 신축 파라미터로부터 얻어지는 정보를 이용하여, 상기 피치 노드수의 피치가 소정의 기준치에 가까워지도록, 상기 피치 노드수의 피치 중 적어도 1개의 피치를 보정하는 시간 신축부와, 상기 시간 신축부가 보정한 피치로의 상기 입력 음성 신호를 부호화하여 부호화 음성 신호를 생성하는 제2 인코더와, 상기 제1 인코더가 생성한 상기 부호화 시간 신축 파라미터와 상기 제2 인코더가 생성한 상기 부호화 음성 신호를 다중화하여, 비트 스트림을 생성하는 멀티플렉서를 구비한다.
이에 의하면, 부호화 장치는, 검출한 피치 패턴에 의거하여, 피치 노드수를 결정하고, 상기 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제1 시간 신축 파라미터를 생성한다. 그리고 부호화 장치는, 제1 시간 신축 파라미터로부터 얻어지는 정보를 이용하여, 피치 노드수의 피치가 소정의 기준치에 가까워지도록 피치를 보정하고, 보정한 피치로의 입력 음성 신호를 부호화한 부호화 음성 신호와 제1 시간 신축 파라미터를 부호화한 부호화 시간 신축 파라미터를 다중화한 비트 스트림을 생성한다. 이와 같이 부호화 장치는, 검출한 피치 패턴에 따라, 최적의 피치 노드수를 결정함으로써, 제1 시간 신축 파라미터를 생성하여 피치 시프트를 행한다. 이 때문에, 피치의 변화가 큰 음성 신호여도, 정보량이 큰 고정 테이블을 필요로 하지 않으므로, 많은 비트수를 사용하지 않고 부호화를 행할 수 있다. 이에 의해 상기 부호화 장치는, 피치의 변화가 큰 음성 신호여도, 적은 비트수로 음질을 향상시킬 수 있다.
또 바람직하게는, 상기 제1 인코더가 생성한 상기 부호화 시간 신축 파라미터를 복호하여, 상기 소정 기간의 피치 패턴에 있어서의 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성하는 복호부를 더 구비하고, 상기 시간 신축부는, 상기 복호부가 생성한 상기 제2 시간 신축 파라미터를 이용하여, 상기 피치를 보정한다.
이에 의하면 부호화 장치는, 생성한 부호화 시간 신축 파라미터를 복호하여, 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성하고, 생성한 제2 시간 신축 파라미터를 이용하여, 피치를 보정한다. 요컨대 부호화 장치는, 피치 시프트에 제1 시간 신축 파라미터를 이용하는 것이 아니라, 제1 시간 신축 파라미터를 부호화한 부호화 시간 신축 파라미터를 복호하여 생성한 제2 시간 신축 파라미터를 이용하여 피치 시프트를 행한다. 여기에서 상기 제2 시간 신축 파라미터는, 복호 장치에서 음성 신호가 복호될 때에 사용되는 파라미터이다. 이 때문에 부호화 장치는, 복호 장치에서 사용되는 파라미터와 동일한 파라미터를 사용하여 피치 시프트를 행함으로써, 복호 시의 시간 신장 처리의 계산 정밀도를 향상시킬 수 있다. 이에 의해 상기 부호화 장치는, 피치의 변화가 큰 음성 신호여도, 정밀도 좋게 부호화를 행함으로써, 적은 비트수로 음질을 향상시킬 수 있다.
또 바람직하게는, 상기 입력 음성 신호는, 2개의 채널의 신호를 가지며, 상기 부호화 장치는, 상기 2개의 채널의 신호에 있어서의 피치 패턴의 유사도를 산출하고, 산출한 상기 유사도가 소정의 값보다 큰지의 여부를 나타내는 플래그를 생성하는 M/S 계산부와, 생성된 상기 플래그가, 상기 유사도가 상기 소정의 값보다 큰 것을 나타내는 경우에는, 상기 2개의 채널의 신호를 다운믹스하여 얻어지는 1개의 신호를 출력하고, 상기 유사도가 상기 소정의 값 이하인 것을 나타내는 경우에는, 상기 2개의 채널의 신호를 출력하는 다운믹스부를 더 구비하고, 상기 피치 패턴 검출부는, 상기 다운믹스부가 출력한 신호의 각각에 대해 피치 패턴을 검출한다.
이에 의하면 부호화 장치는, 입력 음성 신호인 2개의 채널의 신호에 있어서의 피치 패턴의 유사도를 산출하여, 상기 유사도가 소정의 값보다 큰 경우에는, 2개의 채널의 신호를 다운믹스하여 얻어지는 1개의 신호를 출력하고, 상기 유사도가 소정의 값 이하인 경우에는, 2개의 채널의 신호를 출력한다. 요컨대 부호화 장치는, 2개의 채널의 신호의 피치 패턴의 유사도가 높은 경우에는, 1개의 신호의 피치 패턴에 의거하여, 2개의 채널의 신호에 공통되는 1개의 제1 시간 신축 파라미터를 생성한다. 이와 같이 부호화 장치는, 2개의 채널의 신호를 부호화하는데, 1개의 제1 시간 신축 파라미터를 부호화하면 되어, 사용하는 비트수를 저감할 수 있다. 이 때문에 상기 부호화 장치는, 피치의 변화가 큰 음성 신호여도, 적은 비트수로 음질을 향상시킬 수 있다.
또 바람직하게는, 상기 제2 인코더가 생성한 상기 부호화 음성 신호인 제1 부호화 신호와, 다른 부호화 방식에 의해 상기 입력 음성 신호가 부호화된 제2 부호화 신호를 비교하는 비교부를 더 구비하고, 상기 비교부는, 상기 제1 부호화 신호를, 상기 제1 인코더가 생성한 상기 부호화 시간 신축 파라미터를 이용해 복호하여, 상기 입력 음성 신호와의 차분인 제1 차분을 산출하고, 상기 제2 부호화 신호를 복호하여, 상기 입력 음성 신호와의 차분인 제2 차분을 산출하며, 상기 제1 차분이 상기 제2 차분보다 작은 경우에, 상기 제1 부호화 신호를 출력하고, 상기 멀티플렉서는, 상기 비교부가 출력한 상기 제1 부호화 신호와 상기 부호화 시간 신축 파라미터를 다중화하여, 상기 비트 스트림을 생성한다.
이에 의하면 부호화 장치는, 생성한 부호화 음성 신호인 제1 부호화 신호와, 다른 부호화 방식에 의해 입력 음성 신호가 부호화된 제2 부호화 신호를 비교하여, 제1 부호화 신호를 복호한 신호와 입력 음성 신호의 차분이, 제2 부호화 신호를 복호한 신호와 입력 음성 신호의 차분보다 작은 경우에, 제1 부호화 신호를 출력한다. 요컨대 부호화 장치는, 부호화의 정밀도가 양호했던 경우에만, 생성한 부호화 음성 신호를 출력한다. 이에 의해, 상기 부호화 장치는, 피치의 변화가 큰 음성 신호여도, 정밀도 좋게 부호화를 행함으로써, 적은 비트수로 음질을 향상시킬 수 있다.
또 상기 목적을 달성하기 위해, 본 발명의 한 양태에 따른 복호 장치는, 피치가 보정된 음성 신호가 부호화된 부호화 음성 신호와, 피치를 보정하기 위한 제1 시간 신축 파라미터가 부호화된 부호화 시간 신축 파라미터가 다중화된 비트 스트림으로부터, 상기 부호화 음성 신호와 상기 부호화 시간 신축 파라미터를 분리하는 디멀티플렉서와, 상기 부호화 시간 신축 파라미터를 복호하여, 소정 기간에 검출하는 피치의 수인 피치 노드수와, 상기 피치 노드수의 피치에 있어서 피치의 변화가 발생하는 위치인 피치 변화 위치와, 상기 피치 변화 위치에 있어서의 피치의 변화 비율인 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성하는 제1 복호부와, 상기 부호화 음성 신호를 복호하여, 상기 피치 노드수의 피치가 소정의 기준치에 가까워지도록 피치가 보정된 음성 신호를 생성하는 제2 복호부와, 상기 제2 시간 신축 파라미터를 이용하여, 상기 피치 노드수의 피치가 보정 전의 피치로 되돌아가도록 상기 피치 노드수의 피치 중 적어도 1개의 피치를 변경함으로써, 상기 피치가 보정된 음성 신호를 보정 전의 음성 신호로 변환하는 시간 신축부를 구비한다.
이에 의하면 복호 장치는, 비트 스트림으로부터 부호화 음성 신호와 부호화 시간 신축 파라미터를 분리하고, 부호화 시간 신축 파라미터를 복호하여, 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성한다. 그리고 복호 장치는, 부호화 음성 신호를 복호하여 피치가 보정된 음성 신호를 생성하고, 제2 시간 신축 파라미터를 이용하여, 피치 노드수의 피치가 보정 전의 피치로 되돌아가도록 피치를 변경함으로써, 음성 신호를 보정 전의 음성 신호로 변환한다. 이와 같이 복호 장치는, 부호화 시간 신축 파라미터를 복호하여 제2 시간 신축 파라미터를 생성하고, 피치 노드수의 피치를 피치 시프트 전의 피치로 되돌림으로써, 음성 신호를 피치 시프트 전의 음성 신호로 되돌린다. 이 때문에 복호 장치는, 피치의 변화가 큰 음성 신호를 복호하는 경우여도, 정보량이 큰 고정 테이블을 사용하지 않고 생성된 부호화 시간 신축 파라미터를 복호하므로, 상기 정보량이 큰 고정 테이블을 필요로 하지 않는다. 요컨대 복호 장치는, 많은 비트수를 사용하지 않고 복호를 행할 수 있다. 이에 의해 상기 복호 장치는, 피치의 변화가 큰 음성 신호여도, 적은 비트수로 음질을 향상시킬 수 있다.
또 바람직하게는 상기 음성 신호는, 2개의 채널의 신호를 가지며, 상기 복호 장치는, 상기 2개의 채널의 신호에 있어서의 피치 패턴의 유사도가 소정의 값보다 큰지의 여부를 나타내는 플래그를 생성하는 M/S 모드 검출부를 더 구비하고, 상기 제1 복호부는, 생성된 상기 플래그가, 상기 유사도가 상기 소정의 값보다 큰 것을 나타내는 경우에는, 상기 2개의 채널의 신호에 공통되는 상기 제2 시간 신축 파라미터를 생성하고, 상기 유사도가 상기 소정의 값 이하인 것을 나타내는 경우에는, 상기 2개의 채널의 신호 각각에 대해 상기 제2 시간 신축 파라미터를 생성한다.
이에 의하면 복호 장치는, 음성 신호인 2개의 채널의 신호에 있어서의 피치 패턴의 유사도가 소정의 값보다 큰 경우에는, 2개의 채널의 신호에 공통되는 제2 시간 신축 파라미터를 생성하고, 상기 유사도가 소정의 값 이하인 경우에는, 2개의 채널의 신호 각각에 대해 제2 시간 신축 파라미터를 생성한다. 요컨대 복호 장치는, 2개의 채널의 신호의 피치 패턴의 유사도가 높은 경우에는, 1개의 제2 시간 신축 파라미터를 생성한다. 이와 같이 복호 장치는, 2개의 채널의 신호를 복호하는데, 1개의 제2 시간 신축 파라미터를 이용하기만 하면 되므로, 사용하는 비트수를 저감할 수 있다. 이 때문에 상기 복호 장치는, 피치의 변화가 큰 음성 신호여도, 적은 비트수로 음질을 향상시킬 수 있다.
또 본 발명은, 이러한 부호화 장치 또는 복호 장치로서 실현할 수 있을 뿐만 아니라, 상기 부호화 장치 또는 복호 장치에 포함되는 처리부가 행하는 특징적인 처리를 단계로 하는 부호화 방법 또는 복호 방법으로서도 실현할 수 있다. 또 부호화 방법 또는 복호 방법에 포함되는 특징적인 처리를 컴퓨터에 실행시키는 프로그램이나 집적 회로로서 실현하거나 할 수도 있다. 그리고 그러한 프로그램은, CD-ROM 등의 기록 매체 및 인터넷 등의 전송 매체를 통해 유통시킬 수 있는 것은 말할 필요도 없다.
본 발명에 따른 부호화 장치에 의하면, 피치의 변화가 큰 음성 신호여도, 적은 비트수로 음질을 향상시킬 수 있다.
도 1a는 종래의 피치를 시프트하는 수법의 일례를 도시하는 도면이다.
도 1b는 종래의 피치를 시프트하는 수법의 일례를 도시하는 도면이다.
도 2a는 종래의 음성 신호의 피치 시프트에 있어서의 피치 시프트 전의 스윕 신호를 도시하는 도면이다.
도 2b는 종래의 음성 신호의 피치 시프트에 있어서의 피치 시프트 후의 스윕 신호를 도시하는 도면이다.
도 2c는 종래의 음성 신호의 피치 시프트에 있어서의 피치 시프트 전후의 스펙트럼을 도시하는 도면이다.
도 3은 종래의 음성 신호의 피치 패턴의 계산 수법을 도시하는 도면이다.
도 4는 종래의 음성 신호의 피치 패턴의 계산 수법을 도시하는 도면이다.
도 5는 센트와 반음의 척도를 도시하는 도면이다.
도 6은 시간 신축 방식을 이용한 부호화 장치 및 복호 장치를 도시하는 도면이다.
도 7은 시간 신축 방식을 이용한 부호화 장치 및 복호 장치를 도시하는 도면이다.
도 8은 본 발명의 실시 형태 1에 따른 부호화 장치의 기능적인 구성을 도시하는 블록도이다.
도 9는 본 발명의 실시 형태 1에 따른 동적 시간 신축부가 결정되는 피치 노드수를 설명하기 위한 도면이다.
도 10은 본 발명의 실시 형태 1에 따른 부호화 장치가 입력 음성 신호를 부호화하는 처리의 일례를 도시하는 흐름도이다.
도 11은 본 발명의 실시 형태 2에 따른 부호화 장치가 행하는 동적 시간 신축 방식을 설명하기 위한 도면이다.
도 12는 본 발명의 실시 형태 2에 따른 동적 시간 신축부가 생성하는 제1 시간 신축 파라미터를 설명하기 위한 도면이다.
도 13은 본 발명의 실시 형태 3에 따른 복호 장치의 기능적인 구성을 도시하는 블록도이다.
도 14는 본 발명의 실시 형태 3에 따른 복호 장치가 부호화 음성 신호를 복호하는 처리의 일례를 도시하는 흐름도이다.
도 15는 본 발명의 실시 형태 5에 따른 부호화 장치의 기능적인 구성을 도시하는 블록도이다.
도 16은 본 발명의 실시 형태 6에 따른 부호화 장치의 기능적인 구성을 도시하는 블록도이다.
도 17은 본 발명의 실시 형태 7에 따른 복호 장치의 기능적인 구성을 도시하는 블록도이다.
도 18은 본 발명의 실시 형태 8에 따른 부호화 장치의 기능적인 구성을 도시하는 블록도이다.
도 19는 본 발명의 실시 형태 9에 따른 부호화 장치의 기능적인 구성을 도시하는 블록도이다.
도 1b는 종래의 피치를 시프트하는 수법의 일례를 도시하는 도면이다.
도 2a는 종래의 음성 신호의 피치 시프트에 있어서의 피치 시프트 전의 스윕 신호를 도시하는 도면이다.
도 2b는 종래의 음성 신호의 피치 시프트에 있어서의 피치 시프트 후의 스윕 신호를 도시하는 도면이다.
도 2c는 종래의 음성 신호의 피치 시프트에 있어서의 피치 시프트 전후의 스펙트럼을 도시하는 도면이다.
도 3은 종래의 음성 신호의 피치 패턴의 계산 수법을 도시하는 도면이다.
도 4는 종래의 음성 신호의 피치 패턴의 계산 수법을 도시하는 도면이다.
도 5는 센트와 반음의 척도를 도시하는 도면이다.
도 6은 시간 신축 방식을 이용한 부호화 장치 및 복호 장치를 도시하는 도면이다.
도 7은 시간 신축 방식을 이용한 부호화 장치 및 복호 장치를 도시하는 도면이다.
도 8은 본 발명의 실시 형태 1에 따른 부호화 장치의 기능적인 구성을 도시하는 블록도이다.
도 9는 본 발명의 실시 형태 1에 따른 동적 시간 신축부가 결정되는 피치 노드수를 설명하기 위한 도면이다.
도 10은 본 발명의 실시 형태 1에 따른 부호화 장치가 입력 음성 신호를 부호화하는 처리의 일례를 도시하는 흐름도이다.
도 11은 본 발명의 실시 형태 2에 따른 부호화 장치가 행하는 동적 시간 신축 방식을 설명하기 위한 도면이다.
도 12는 본 발명의 실시 형태 2에 따른 동적 시간 신축부가 생성하는 제1 시간 신축 파라미터를 설명하기 위한 도면이다.
도 13은 본 발명의 실시 형태 3에 따른 복호 장치의 기능적인 구성을 도시하는 블록도이다.
도 14는 본 발명의 실시 형태 3에 따른 복호 장치가 부호화 음성 신호를 복호하는 처리의 일례를 도시하는 흐름도이다.
도 15는 본 발명의 실시 형태 5에 따른 부호화 장치의 기능적인 구성을 도시하는 블록도이다.
도 16은 본 발명의 실시 형태 6에 따른 부호화 장치의 기능적인 구성을 도시하는 블록도이다.
도 17은 본 발명의 실시 형태 7에 따른 복호 장치의 기능적인 구성을 도시하는 블록도이다.
도 18은 본 발명의 실시 형태 8에 따른 부호화 장치의 기능적인 구성을 도시하는 블록도이다.
도 19는 본 발명의 실시 형태 9에 따른 부호화 장치의 기능적인 구성을 도시하는 블록도이다.
이하, 도면을 참조하면서, 본 발명의 실시 형태에 따른 부호화 장치 및 복호 장치에 대해 설명한다.
또한 이하에서 설명하는 실시 형태는, 모두 본 발명의 바람직한 한 구체예를 나타내는 것이다. 이하의 실시 형태에서 나타내어지는 수치, 구성 요소, 구성 요소의 배치 위치 및 접속 형태, 단계, 단계의 순서 등은 일례이며, 본 발명을 한정하는 주지는 아니다. 본 발명은 청구의 범위만에 의해 한정된다. 따라서 이하의 실시 형태에 있어서의 구성 요소 중, 본 발명의 최상위 개념을 나타내는 독립 청구항에 기재되어 있지 않은 구성 요소에 대해서는, 본 발명의 과제를 달성하는데 반드시 필요하지는 않지만, 보다 바람직한 형태를 구성하는 것으로서 설명된다.
요컨대 이하의 실시 형태는, 다양한 진보성의 원리를 설명하는 단순한 예이다. 여기에 기재되는 내용의 변형예는, 당업자에게 있어서 자명하다고 이해될 것이다.
(실시 형태 1)
실시 형태 1에서는, 동적 시간 신축(Dynamic Time Warping) 방식을 이용한 부호화 장치를 제안한다.
도 8은 본 발명의 실시 형태 1에 따른 부호화 장치(10)의 기능적인 구성을 도시하는 블록도이다.
상기 도면에 나타내는 바와 같이, 부호화 장치(10)는, 입력되는 음성 신호인 입력 음성 신호를 부호화하는 장치이며, 피치 패턴 검출부(101), 동적 시간 신축부(102), 가역 인코더(103), 시간 신축부(104), 변환 인코더(105) 및 멀티플렉서(106)를 구비하고 있다.
피치 패턴 검출부(101)는, 입력 음성 신호의 소정 기간에 있어서의 피치의 변화를 나타내는 정보인 피치 패턴을 검출한다.
요컨대, 좌우 채널의 입력 음성 신호 각각의 1프레임이 피치 패턴 검출부(101)에 입력된다. 그리고 피치 패턴 검출부(101)는, 좌우 채널의 입력 음성 신호의 피치 패턴을 각각 검출한다. 피치 패턴 검출 알고리즘은 선행 기술에 기재되어 있다.
동적 시간 신축부(102)는, 피치 패턴 검출부(101)가 검출한 피치 패턴에 의거하여, 상기 소정 기간에 검출하는 피치의 수인 피치 노드수를 결정하고, 결정한 피치 노드수와, 피치 노드수의 피치에 있어서 피치의 변화가 발생하는 위치인 피치 변화 위치와, 피치 변화 위치에 있어서의 피치의 변화 비율인 피치 변화율을 나타내는 정보를 포함하는 제1 시간 신축 파라미터를 생성한다.
구체적으로는 동적 시간 신축부(102)는, 피치 패턴에 의거하여 피치 노드수 M을 결정하고, 도 9에 도시되어 있는 바와 같이, 1프레임을 피치 노드수 M개의 서로 겹쳐진 섹션으로 분할한다. 도 9는 본 발명의 실시 형태 1에 따른 동적 시간 신축부(102)가 결정하는 피치 노드수를 설명하기 위한 도면이다. 여기에서 피치 노드수 M의 수치는 한정되지 않지만, 피치 패턴을 해석하여 얻어지는 피치 노드의 최적수인 것이 바람직하다.
그리고 동적 시간 신축부(102)는, 1프레임 내의 피치 노드수 M개의 섹션으로부터, 피치 노드수 M개의 피치를 산출한다. 그리고 동적 시간 신축부(102)는, 산출한 피치 노드수 M개의 피치로부터 피치 변화 위치를 취득하여, 피치 변화율을 산출한다.
이와 같이 동적 시간 신축부(102)는, 피치 패턴을 처리하여 하모닉 구조에 의거하여, 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제1 시간 신축 파라미터를 생성한다.
가역 인코더(103)는, 동적 시간 신축부(102)가 생성한 제1 시간 신축 파라미터를 부호화하여, 부호화 시간 신축 파라미터를 생성하는 제1 인코더이다.
요컨대 제1 시간 신축 파라미터는, 가역 인코더(103)에 송신된다. 그리고 가역 인코더(103)는, 제1 시간 신축 파라미터를 압축하여, 부호화 시간 신축 파라미터를 생성한다. 그리고 부호화 시간 신축 파라미터는, 멀티플렉서(106)에 송신된다.
시간 신축부(104)는, 동적 시간 신축부(102)가 생성한 제1 시간 신축 파라미터로부터 얻어지는 정보를 이용하여, 피치 노드수 M개의 피치가 소정의 기준치에 가까워지도록, 피치 노드수 M개의 피치 중 적어도 1개의 피치를 보정한다.
요컨대 제1 시간 신축 파라미터는 시간 신축부(104)에 송신된다. 시간 신축부(104)의 처리는 선행 기술에 기재되어 있다. 시간 신축부(104)는, 제1 시간 신축 파라미터에 따라, 입력 음성 신호를 재샘플링한다. 입력 음성 신호가 스테레오 신호인 경우, 좌우의 신호는 대응하는 제1 시간 신축 파라미터에 따라, 각각 피치 시프트(시간 신축)된다.
변환 인코더(105)는, 시간 신축부(104)가 보정한 피치로의 입력 음성 신호를 부호화하여, 부호화 음성 신호를 생성하는 제2 인코더이다.
요컨대 시간 신축된 좌우 채널의 신호는, 변환 인코더(105)에 송신되어 부호화된다. 그리고 부호화 음성 신호와 변환 인코더 정보는 멀티플렉서(106)에 송신된다.
멀티플렉서(106)는, 제1 인코더인 가역 인코더(103)가 생성한 부호화 시간 신축 파라미터와, 제2 인코더인 변환 인코더(105)가 생성한 부호화 음성 신호와 변환 인코더 정보를 다중화하여, 비트 스트림을 생성한다.
또한 피치 패턴 검출부(101)에 입력되는 입력 음성 신호는, 스테레오 신호일 필요는 없으며, 모노널 신호여도 멀티 신호여도 상관없다. 부호화 장치(10)에 의한 동적 시간 신축 방식은, 어떠한 수의 채널에도 적용 가능하다.
다음에 부호화 장치(10)가 입력 음성 신호를 부호화하는 처리에 대해 설명한다.
도 10은 본 발명의 실시 형태 1에 따른 부호화 장치(10)가 입력 음성 신호를 부호화하는 처리의 일례를 도시하는 흐름도이다.
상기 도면에 나타내는 바와 같이, 우선 피치 패턴 검출부(101)는, 입력 음성 신호의 피치 패턴을 검출한다(S102).
그리고 동적 시간 신축부(102)는, 피치 패턴 검출부(101)가 검출한 피치 패턴에 의거하여, 피치 노드수를 결정한다(S104).
그리고 동적 시간 신축부(102)는, 상기 피치 패턴에 의거하여, 결정한 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제1 시간 신축 파라미터를 생성한다(S106).
다음에 가역 인코더(103)는, 동적 시간 신축부(102)가 생성한 제1 시간 신축 파라미터를 부호화하여, 부호화 시간 신축 파라미터를 생성한다(S108).
또 시간 신축부(104)는, 동적 시간 신축부(102)가 생성한 제1 시간 신축 파라미터로부터 얻어지는 정보를 이용하여, 피치 노드수의 피치가 소정의 기준치에 가까워지도록, 피치 노드수의 피치 중 적어도 1개의 피치를 보정한다(S110).
그리고 변환 인코더(105)는, 시간 신축부(104)가 보정한 피치로의 입력 음성 신호를 부호화하여, 부호화 음성 신호를 생성한다(S112).
그리고 멀티플렉서(106)는, 가역 인코더(103)가 생성한 부호화 시간 신축 파라미터와, 변환 인코더(105)가 생성한 부호화 음성 신호와 변환 인코더 정보를 다중화하여, 비트 스트림을 생성한다(S114).
이상에 의해, 부호화 장치(10)가 입력 음성 신호를 부호화하는 처리는 종료된다.
상기 과제에서 서술한 바와 같이, 부정확한 피치 패턴은, 시간 신축 후의 음질 저하를 초래하게 된다. 동적 시간 신축 방식은, 이 과제를 극복하기 위해 제안되었다. 이것은 하모닉 구조도 고려한 시간 신축 방식이다. 요컨대 시간 신축 동안, 하모닉은 피치 시프트와 함께 수정되며, 시간 신축 중에 신호의 하모닉 구조를 고려할 필요가 있다. 그리고 부호화 장치(10)에 의한 하모닉 시간 신축 방식은, 하모닉 구조의 해석에 의거하여 피치 패턴을 수정한다. 그리고 이 방식은, 시간 신축 중에 하모닉 구조를 고려함으로써 음질을 개선한다.
이와 같이, 실시 형태 1에서는, 동적 시간 신축 방식으로 피치 패턴을 처리하여, 동적 시간 신축을 위한 파라미터를 생성한다. 이 파라미터는, 피치의 수와 시간 신축이 적용된 위치와 그들 대응 위치의 시간 신축치를 나타낸다. 제안한 동적 시간 신축 방식에 의해 음질은 개선된다. 또 가역 부호화도 도입하여, 또한 시간 신축치를 부호화하는 비트를 삭감한다.
이상과 같이, 본 실시 형태 1에 따른 부호화 장치(10)에 의하면, 검출한 피치 패턴에 의거하여 피치 노드수를 결정하고, 상기 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제1 시간 신축 파라미터를 생성한다. 그리고 부호화 장치(10)는, 제1 시간 신축 파라미터로부터 얻어지는 정보를 이용하여, 피치 노드수의 피치가 소정의 기준치에 가까워지도록 피치를 보정하고, 보정한 피치로의 입력 음성 신호를 부호화한 부호화 음성 신호와 제1 시간 신축 파라미터를 부호화한 부호화 시간 신축 파라미터를 다중화한 비트 스트림을 생성한다. 이와 같이 부호화 장치(10)는, 검출한 피치 패턴에 따라, 최적의 피치 노드수를 결정함으로써, 제1 시간 신축 파라미터를 생성하여 피치 시프트를 행한다. 이 때문에, 피치의 변화가 큰 음성 신호여도, 정보량이 큰 고정 테이블을 필요로 하지 않으므로, 많은 비트수를 사용하지 않고 부호화를 행할 수 있다. 이에 의해 부호화 장치(10)는, 피치의 변화가 큰 음성 신호여도, 적은 비트수로 음질을 향상시킬 수 있다.
(실시 형태 2)
본 실시 형태 2에서는, 부호화 장치(10)가 실행하는, 하모닉 구조에 따른 피치 패턴을 수정하는 방식을 구비한 동적 시간 신축 방식을 설명한다.
상기 과제에서 설명한 바와 같이, 피치 패턴의 검출은, 음성 신호의 진폭과 주기가 변화하므로 어려운 과제이다. 시간 신축용으로 피치 패턴 정보를 그대로 이용하는 경우, 피치 패턴이 부정확하면 시간 신축의 성능에 영향을 준다. 시간 신축 동안, 피치 시프트에 비례하여 신호의 하모닉은 수정되므로, 시간 신축의 하모닉으로의 영향을 고려하지 않으면 안 된다.
본 실시 형태 2에서는, 동적 시간 신축 방식을 제안한다. 하모닉 구조를 해석함으로써 피치 패턴을 수정하여, 효과적인 제1 시간 신축 파라미터를 생성한다.
이 동적 시간 신축 방식은 3개의 부분으로 이루어진다. 제1부는, 하모닉 구조에 따라 피치 패턴을 수정한다. 제2부는, 시간 신축 전후의 하모닉 구조를 비교함으로써, 시간 신축의 성능을 평가한다. 제3부는, 제1 시간 신축 파라미터의 효과적인 표현 방식을 이용한다. 선행 기술에서 서술되어 있는 피치 패턴 전체를 부호화하는 것이 아니라, 가역 부호화를 이용하여, 시간 신축이 행해지고 있는 위치 정보를 부호화하고, 그 대응 위치의 시간 신축치를 부호화한다.
제1부에서는 피치 패턴을 수정한다. 실시 형태 1에 의하면, 프레임을 피치 산출용으로 M개의 섹션으로 분할한다. 피치 패턴은, M개의 피치값(pitch1, pitch2,…pitchM)으로 구성된다. 선행 기술에서는 피치를 기준 피치 근처까지 시프트한다. 시간 신축 후, 일치된 기준 피치가 얻어진다.
이에 반해, 제안한 동적 시간 신축 방식에서는, 신호의 하모닉을 기준 피치의 하모닉 근처까지 시프트할 수 있다. 일례를 도 11에 나타낸다. 도 11은 본 발명의 실시 형태 2에 따른 부호화 장치(10)가 행하는 동적 시간 신축 방식을 설명하기 위한 도면이다.
상기 도면에 나타내는 바와 같이, 검출된 피치는 기준 피치의 하모닉에 가깝다. 요컨대 Δf1>Δf2이므로, 검출 피치를 기준 피치까지 시프트하는 경우에는 큰 신축치를 이용할 필요가 있지만, 검출 피치를 기준 피치의 하모닉까지 시프트하는 경우에는 작은 신축치를 이용할 수 있다.
이와 같이 동적 시간 신축 방식에서는, 피치 패턴을 수정하여 하모닉 성분을 시프트할 수 있다. 수정 처리를 이하에 서술한다.
우선 동적 시간 신축 방식에서는, 검출 피치와 기준 피치의 차를 비교한다. 구체적으로는, 기준 피치를 pitchref로 하고, 섹션 i의 검출 피치를 pitchi로 한 경우, pitchi>pitchref이면, 검출 피치 pitchi는 기준 피치 pitchref에 가까운 것인지, 그렇지 않으면, 기준 피치의 하모닉 k×pitchref에 가까운 것인지를 조사한다. 여기에서 k는, k>1의 정수이다.
그리고 다음의 식을 만족하는 k가 존재하면, 검출 피치 pitchi를 기준 하모닉 k×pitchref까지 시프트한다. 검출 피치 pitchi는 k×pitchref로 수정된다.
[수식 2]
또 pitchi<pitchref이면, 기준 피치 pitchref는 검출 피치 pitchi에 가까운 것인지, 그렇지 않으면, 검출 피치 pitchi의 하모닉에 가까운 것인지를 조사한다. 다음의 식을 만족하는 k가 존재하면, 검출 피치 pitchi의 하모닉을 기준 피치까지 시프트한다. 그러므로 검출 피치 pitchi는 k×pitchi로 수정된다.
[수식 3]
제2부에서는, 이 수정된 피치 패턴에 의거하여 시간 신축을 적용하고, 시간 신축 전후의 하모닉 구조를 비교함으로써 성능을 평가한다. 시간 신축 전후의 하모닉 성분의 합을, 본 실시 형태 2에 있어서의 성능 평가의 기준으로서 이용한다.
하모닉의 산출을 이하에 나타낸다.
[수식 4]
여기에서 q는, 하모닉 성분의 수이다. 본 실시 형태 2에서는 q=3을 추천한다. S()는 신호의 스펙트럼을 나타내고 있으며, pitchi는 피치 패턴으로부터 검출되는 피치 pitch1, pitch2,…pitchM이다.
시간 신축 후, 하모닉의 합은 이하와 같이 된다.
[수식 5]
여기에서 S'()는 시간 신축 후의 신호의 스펙트럼을 나타내고 있다.
시간 신축 전, 신호는 pitch1, pitch2,…pitchM의 하모닉으로 구성되어 있다. 이들 하모닉 성분간의 에너지 분포를 나타내기 위해, 하모닉비 HR을 정의한다.
[수식 6]
[수식 7]
는, 피치 pitch1, pitch2,…pitchM의 하모닉의 합으로 구성되어 있다.
시간 신축 후, 하모닉비 HR'는 이하와 같이 산출된다.
[수식 8]
H'(pitchref)는 시간 신축 후의 기준 피치의 하모닉의 합이다.
[수식 9]
는, 시간 신축 후의 피치 pitch1, pitch2,…pitchM의 하모닉의 합으로 구성되어 있다.
시간 신축 후, 에너지는 기준 피치에 제한된다고 생각되며, 다른 피치의 에너지는 억제된다. 그러므로 HR'>HR이라고 생각된다. HR'>HR이며, 시간 신축을 이 프레임에 대해 적용하는 경우는, 시간 신축이 유효한 것으로 간주된다.
동적 시간 신축의 제3부는, 효율적인 방식을 이용하여, 제1 시간 신축 파라미터를 생성하는 것이다. 1프레임 내에서의 피치 변화 위치는 1프레임 내에 그다지 많지 않으므로, 효율적인 방식에서는, 피치 변화 위치와 그 값 Δpi를 각각 부호화하도록 설계해도 된다.
우선 수정된 피치 패턴을 정규화한다. 다음에 인접하는 수정 피치의 차분을 계산한다.
[수식 10]
선행 기술과의 차이는, 동적 시간 신축 방식에서는,
[수식 11]
의 벡터 전체를 부호화하지 않는 점이다. 벡터 C를 이용하여, Δpi≠1인 위치를 나타낸다. 이 위치는, 시간 신축이 행해지고 있는 위치이다. Δpi≠1인 시간 신축치 Δpi만을, 가역 인코더(103)에 의해 부호화한다.
Δpi=1이면, C(i)를 1로 설정하고, 그렇지 않으면 C(i)를 0으로 설정한다. 벡터 C의 각 요소는, 수정 피치 패턴의 섹션 1개에 대응한다. 벡터 C의 설정예를 도 12에 나타낸다. 도 12는 본 발명의 실시 형태 2에 따른 동적 시간 신축부(102)가 생성하는 제1 시간 신축 파라미터를 설명하기 위한 도면이다.
구체적으로는 동적 시간 신축부(102)는, 벡터 C(피치 변화 위치)와 Δpi≠1인 시간 신축치(피치 변화율) Δpi를, 이하의 단계 1~3 중 어느 하나에 나타내는 방식으로 부호화한다. 또한 어느 방식을 선택하는지를 나타내기 위해, 플래그 A를 생성한다.
단계 1 : 동적 시간 신축부(102)는, 대상의 프레임에 피치 변화 위치가 있는지의 여부를 조사한다. N=0이면, 피치 변화 위치가 없는 것을 의미한다. 여기에서 N은 피치 변화 위치의 수, 요컨대 Δpi≠1의 섹션수이다. 그리고 동적 시간 신축부(102)는 플래그 A를 0으로 설정한다. 이 경우 동적 시간 신축부(102)는, 플래그 A만을 가역 인코더(103)에 송신한다.
단계 2 : 동적 시간 신축부(102)는, 대상의 프레임에 1 이상의 피치 변화 위치가 있으면, Δpi≠1인 시간 신축치 Δpi와 벡터 C를 가역 인코더(103)에 송신할 필요가 있다.
[수식 12]
이면, 이것은 피치 변화 위치가 다수 존재하는 것을 의미하지만, 이 상태의 경우는, 벡터 C와 Δpi≠1인 Δpi를 그대로 부호화하는 것이 보다 효율적이다.
이 경우 플래그 A를 1로 설정하고, M비트를 이용하여 벡터 C를 부호화한다. 예를 들면 벡터 C=00001111의 경우, 8비트를 이용하여 이 벡터 C를 나타낸다. 동적 시간 신축부(102)는, 플래그 A, 벡터 C 및 Δpi≠1인 Δpi를 가역 인코더(103)에 송신한다.
단계 3 : N>0 또한 이하의 식을 만족하는 경우는, 피치 변화 위치가 적은 것을 의미하고 있다.
[수식 13]
이 경우, 피치 변화 위치를 그대로 부호화하는 것이 보다 효율적이다. 이 때문에, 플래그 A를 2로 설정하고, log2M비트를 이용하여 벡터 C로 0으로 마크된 위치를 부호화한다. log2(M/log2M)비트를 이용하여, N, 요컨대 피치 변화 위치수를 부호화한다.
예를 들면 벡터 C=10111111의 경우, 피치 변화 위치는 2이다. 위치 2를 부호화하는데 3비트가 이용된다. 동적 시간 신축부(102)는, 플래그 A, 피치 변화 위치수 N, 피치 변화 위치, 및 Δpi≠1인 Δpi를 가역 인코더(103)에 송신한다.
Δpi를 통계적으로 해석하면, 값 Δpi가 발생할 확률은 균일하지 않으며, 가역 부호화를 이용하여 비트 레이트를 남겨 둘 수 있다. 가역 인코더(103)는, 산술 부호화나 허프만 부호화 등에 의해, Δpi≠1인 피치 변화율 Δpi를 부호화한다.
또한 복잡도를 저감하기 위해, 동적 시간 신축부(102)는, 최초의 2개의 방식(단계 1 및 2)을 적용하기만 해도 된다.
선행 기술에서는, 피치 패턴의 정보는, 압축 방식을 이용하지 않고 그대로 디코더에 송신된다. 여기에서 본원 발명자들은, 열심히 연구한 결과, 시간 신축의 피치 패턴을 통계적으로 해석하면, 시간 신축은, 신호의 1프레임 내에서 피치가 변화하는 위치 여러 점에서 행해질 뿐이라는 것을 알아내었다.
그러므로 시간 신축이 적용된 정보만을 부호화하는 것이 보다 효율적이다. 그리고 피치 변화가 발생하는 균일하지 않은 확률에 따라, 제1 시간 신축 파라미터를 부호화하므로, 가역 부호화를 이용하여 비트를 확보할 수 있다.
본 동적 시간 신축 방식은, 시간 신축이 적용된 위치 정보와 그 대응 위치의 시간 신축치로 구성되어 있다. 이 때문에 선행 기술에 기재되어 있는 고정 테이블을 이용하여 피치 패턴 전체를 부호화하지 않고 비트가 확보된다. 본 동적 시간 신축 방식은, 또 시간 신축치가 보다 큰 범위여도 대응할 수 있다. 확보된 비트는 입력 음성 신호의 부호화에 이용되며, 시간 신축치의 범위가 클수록 음질은 개선된다.
이상과 같이 본 실시 형태 2에 있어서의 동적 시간 신축 방식에 의하면, 시간 신축으로 하모닉 구조를 재구성할 수 있다. 에너지는 기준 피치와 그 하모닉 성분에 제한되어 있으므로, 부호화 효율이 개선된다. 또 본 방식에 의해, 피치 검출의 정밀도에 대한 의존도는 저감되어 부호화의 성능이 개선된다. 제1 시간 신축 파라미터를 효율적으로 부호화하는 본 방식은, 비트 레이트를 삭감함으로써 음질을 향상시키므로, 피치 변화율이 보다 큰 부호화 신호에 대응할 수 있다.
(실시 형태 3)
본 실시 형태 3에서는, 동적 시간 신축 방식을 구비한 복호 장치를 제안한다. 도 13은 본 발명의 실시 형태 3에 따른 복호 장치(20)의 기능적인 구성을 도시하는 블록도이다.
상기 도면에 나타내는 바와 같이, 복호 장치(20)는, 부호화 장치(10)에서 부호화된 부호화 음성 신호를 복호하는 장치이며, 가역 디코더(201), 동적 시간 신축 재구성부(202), 시간 신축부(203), 변환 디코더(204) 및 디멀티플렉서(205)를 구비하고 있다.
디멀티플렉서(205)는, 입력되는 비트 스트림을, 부호화 시간 신축 파라미터와 변환 인코더 정보와 부호화 음성 신호로 분리한다.
여기에서 입력되는 비트 스트림은, 부호화 장치(10)의 멀티플렉서(106)가 출력하는 비트 스트림이며, 구체적으로는 피치가 보정된 음성 신호가 부호화된 부호화 음성 신호와, 피치를 보정하기 위한 제1 시간 신축 파라미터가 부호화된 부호화 시간 신축 파라미터와, 변환 인코더 정보가 다중화된 비트 스트림이다.
가역 디코더(201) 및 동적 시간 신축 재구성부(202)는, 부호화 시간 신축 파라미터를 복호하여, 소정 기간에 검출하는 피치의 수인 피치 노드수와, 상기 피치 노드수의 피치에 있어서 피치의 변화가 발생하는 위치인 피치 변화 위치와, 상기 피치 변화 위치에 있어서의 피치의 변화 비율인 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성하는 제1 복호부이다.
요컨대 디멀티플렉서(205)는, 부호화 시간 신축 파라미터를 가역 디코더(201)에 송신한다. 그리고 가역 디코더(201)는, 부호화 시간 신축 파라미터를 복호하여, 복호 시간 신축 파라미터를 생성한다. 복호 시간 신축 파라미터는, 플래그, 시간 신축이 적용되는 위치 정보, 및 거기에 대응하는 시간 신축치 Δpi로 구성된다.
또 복호 시간 신축 파라미터는, 동적 시간 신축 재구성부(202)에 송신된다. 동적 시간 신축 재구성부(202)는, 복호 시간 신축 파라미터로부터 제2 시간 신축 파라미터를 생성한다.
변환 디코더(204)는, 부호화 음성 신호를 복호하여, 피치 노드수의 피치가 소정의 기준치에 가까워지도록 피치가 보정된 음성 신호를 생성하는 제2 복호부이다.
요컨대 변환 디코더(204)는, 변환 인코더 정보에 의거하여 디멀티플렉서(205)로부터 부호화 음성 신호를 수신한다. 그리고 변환 디코더(204)는, 시간 신축된 부호화 음성 신호를 복호한다.
시간 신축부(203)는, 제2 시간 신축 파라미터를 이용하여, 피치 노드수의 피치가 보정 전의 피치로 되돌아가도록 피치 노드수의 피치 중 적어도 1개의 피치를 변경함으로써, 피치가 보정된 음성 신호를 보정 전의 음성 신호로 변환한다.
요컨대 시간 신축부(203)는, 제2 시간 신축 파라미터를 수신하여, 입력되는 시간 신축된 좌우 채널의 신호에 시간 신축을 적용한다. 시간 신축의 처리는, 실시 형태 1의 시간 신축부(104)와 동일하다. 또한 제2 시간 신축 파라미터에 따라, 신호는 신축되지 않는다.
다음에 복호 장치(20)가 부호화 음성 신호를 복호하는 처리에 대해 설명한다.
도 14는 본 발명의 실시 형태 3에 따른 복호 장치(20)가 부호화 음성 신호를 복호하는 처리의 일례를 도시하는 흐름도이다.
상기 도면에 나타내는 바와 같이, 우선 디멀티플렉서(205)는, 입력되는 비트 스트림으로부터, 부호화 시간 신축 파라미터와 부호화 음성 신호를 분리한다(S202).
그리고 가역 디코더(201) 및 동적 시간 신축 재구성부(202)는, 부호화 시간 신축 파라미터를 복호하여, 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성한다(S204).
또 변환 디코더(204)는, 부호화 음성 신호를 복호하여, 피치 노드수의 피치가 소정의 기준치에 가까워지도록 피치가 보정된 음성 신호를 생성한다(S206).
그리고 시간 신축부(203)는, 제2 시간 신축 파라미터를 이용하여, 피치 노드수의 피치가 보정 전의 피치로 되돌아가도록 피치 노드수의 피치 중 적어도 1개의 피치를 변경함으로써, 피치가 보정된 음성 신호를 보정 전의 음성 신호로 변환한다(S208).
이상에 의해 복호 장치(20)가 부호화 음성 신호를 복호하는 처리는 종료된다.
이상과 같이 본 실시 형태 3에 따른 복호 장치(20)에 의하면, 비트 스트림으로부터 부호화 음성 신호와 부호화 시간 신축 파라미터를 분리하고, 부호화 시간 신축 파라미터를 복호하여, 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성한다. 그리고 복호 장치(20)는, 부호화 음성 신호를 복호하여 피치가 보정된 음성 신호를 생성하고, 제2 시간 신축 파라미터를 이용하여, 피치 노드수의 피치가 보정 전의 피치로 되돌아가도록 피치를 변경함으로써, 음성 신호를 보정 전의 음성 신호로 변환한다. 이와 같이 복호 장치(20)는, 부호화 시간 신축 파라미터를 복호하여 제2 시간 신축 파라미터를 생성하고, 피치 노드수의 피치를 피치 시프트 전의 피치로 되돌림으로써, 음성 신호를 피치 시프트 전의 음성 신호로 되돌린다. 이 때문에 복호 장치(20)는, 피치의 변화가 큰 음성 신호를 복호하는 경우여도, 피치 변화율이 큰 경우에 대응한 확장 고정 테이블을 이용하면서, 확장 고정 테이블의 인덱스를 Huffman 부호 등의 가역 가변 길이 부호를 이용함으로써 인덱스를 부호화할 때의 비트수를 삭감함으로써 얻어진 부호화 시간 신축 파라미터를 복호하므로, 복호 장치(20)는 많은 비트수를 사용하지 않고 복호를 행할 수 있다. 이에 의해 복호 장치(20)는, 피치의 변화가 큰 음성 신호여도, 적은 비트수로 음질을 향상시킬 수 있다.
(실시 형태 4)
본 실시 형태 4에서는, 피치 변화율을 부호화하는 가역 인코더 및 복호하는 가역 디코더의 상세에 대해 설명한다.
동적 시간 신축 재구성부(202)가 수신하는 복호 시간 신축 파라미터는, 플래그, 시간 신축이 적용되어 있는 위치 정보, 및 거기에 대응하는 시간 신축치 Δpi로 구성되어 있다.
우선 동적 시간 신축 재구성부(202)는, 상기 플래그를 확인한다. 플래그가 0이면, 대상 프레임에 시간 신축이 적용되어 있지 않은 것을 의미한다. 이 경우, 재구성된 피치 패턴의 벡터를 모두 1로 설정한다.
플래그가 1이면, 시간 신축이 적용되어 있는 위치를 나타내는 벡터 C를 부호화하기 위해 M비트를 사용하고 있는 것을 의미한다. 1개의 비트가 1개의 위치와 일치한다. 벡터 C 내의 1은 피치 변화가 없는 것을 나타내며, 한편 벡터 C 내의 0은 피치 변화가 있는 것을 나타낸다.
그리고 동적 시간 신축 재구성부(202)는, 벡터 C 내에 0이 몇 개 있는지를 카운트함으로써, 피치 변화 위치의 총수 N을 파악한다. 이하에 있어서, N개의 시간 신축치 Δpi는 버퍼로부터 취득된다. Δpi는 c(i)=0인 시간 신축치에 대응한다. 시간 신축치 Δpi는 가역 디코더에 의해 복호된다. 이 의사 코드는 이하와 같다.
정규화 피치 패턴은 이하와 같이 재구성된다.
[수식 14]
이 피치 패턴은, 이후의 시간 신축에서 이용된다.
(실시 형태 5)
본 실시 형태 5에서는, 동적 시간 신축 방식을 구비한 다른 부호화 장치를 제안한다. 도 15는 본 발명의 실시 형태 5에 따른 부호화 장치(11)의 기능적인 구성을 도시하는 블록도이다.
상기 도면에 나타내는 바와 같이, 부호화 장치(11)는, 피치 패턴 검출부(301), 동적 시간 신축부(302), 가역 인코더(303), 시간 신축부(304), 변환 인코더(305), 가역 디코더(306), 동적 시간 신축 재구성부(307) 및 멀티플렉서(308)를 구비하고 있다.
여기에서 도 8에 나타낸 실시 형태 1의 부호화 장치(10)와 본 실시 형태 5의 부호화 장치(11)의 차이는, 부호화 장치(11)가 가역 디코더(306) 및 동적 시간 신축 재구성부(307)를 갖는 것이다. 요컨대 실시 형태 1에서는, 시간 신축부(104)의 시간 신축에 대해 부호화(양자화) 전의 피치 정보를 이용하고 있다. 이 부호화(양자화) 전의 피치 정보는, 복호 장치(20)의 복호 피치 정보와는 상이한 경우가 있다.
구체적으로는 동적 시간 신축부(102)가 생성하는 제1 시간 신축 파라미터와, 제1 시간 신축 파라미터가 부호화된 부호화 시간 신축 파라미터가 복호 장치(20)에서 복호되어 생성되는 제2 시간 신축 파라미터가 상이한 경우가 있다. 특히, 제1 시간 신축 파라미터에 포함되는 피치 변화율과 제2 시간 신축 파라미터에 포함되는 피치 변화율이 상이할 가능성이 높다.
이 때문에 부호화의 정밀도를 향상시키기 위해, 본 실시 형태 5에서는, 우선 제1 시간 신축 파라미터를 부호화한 후에 가역 디코더(306)로 복호하여, 동적 시간 신축 재구성부(307)에서 제2 시간 신축 파라미터를 재구성한다.
또한 가역 디코더(306)의 기능은, 도 13에 나타내어진 가역 디코더(201)와 동일하다. 또 동적 시간 신축 재구성부(307)의 기능은, 도 13에 나타내어진 동적 시간 신축 재구성부(202)와 동일하다.
요컨대 가역 디코더(306) 및 동적 시간 신축 재구성부(307)는, 가역 인코더(303)가 생성한 부호화 시간 신축 파라미터를 복호하여, 소정 기간의 피치 패턴에 있어서의 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성하는 복호부이다.
그리고 시간 신축부(304)는, 가역 디코더(306) 및 동적 시간 신축 재구성부(307)가 생성한 제2 시간 신축 파라미터를 이용하여 피치를 보정한다.
이와 같이 부호화 장치(11)는, 복호 장치(20)와 완전히 동일한 시간 신축 파라미터를 사용할 수 있다.
또한 본 실시 형태 5의 부호화 장치(11)가 구비하는 피치 패턴 검출부(301), 동적 시간 신축부(302), 가역 인코더(303), 시간 신축부(304), 변환 인코더(305) 및 멀티플렉서(308)의 각각은, 실시 형태 1의 부호화 장치(10)가 구비하는 피치 패턴 검출부(101), 동적 시간 신축부(102), 가역 인코더(103), 시간 신축부(104), 변환 인코더(105) 및 멀티플렉서(106)와 동일한 기능을 가지므로, 상세한 설명은 생략한다.
이상과 같이 본 실시 형태 5에 따른 부호화 장치(11)에 의하면, 생성한 부호화 시간 신축 파라미터를 복호하여, 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성하고, 생성한 제2 시간 신축 파라미터를 이용하여 피치를 보정한다. 요컨대 부호화 장치(11)는, 피치 시프트에 제1 시간 신축 파라미터를 이용하는 것이 아니라, 제1 시간 신축 파라미터를 부호화한 부호화 시간 신축 파라미터를 복호하여 생성한 제2 시간 신축 파라미터를 이용하여 피치 시프트를 행한다. 여기에서 상기 제2 시간 신축 파라미터는, 복호 장치(20)에서 음성 신호가 복호될 때에 사용되는 파라미터이다. 이 때문에 부호화 장치(11)는, 복호 장치에서 사용되는 파라미터와 동일한 파라미터를 사용하여 피치 시프트를 행함으로써, 복호 시의 시간 신장 처리의 계산 정밀도를 향상시킬 수 있다. 이에 의해 부호화 장치(11)는, 피치의 변화가 큰 음성 신호여도, 정밀도 좋게 부호화를 행함으로써, 적은 비트수로 음질을 향상시킬 수 있다.
(실시 형태 6)
본 실시 형태 6에서는, 메인 및 사이드(M/S) 모드를 채용한 부호화 장치를 도입하고 있다. 도 16은 본 발명의 실시 형태 6에 따른 부호화 장치(12)의 기능적인 구성을 도시하는 블록도이다.
많은 코덱 중, M/S 모드는 스테레오 신호, 예를 들면 AAC 코덱에 대해 자주 이용된다. 이 M/S 모드를 이용하여, 주파수 영역의 서브밴드에 의해, 좌우의 채널 서브밴드의 유사성을 검출한다. 좌우 채널의 서브밴드가 유사하면, M/S 모드가 작동하고, 유사하지 않으면, M/S 모드는 작동하지 않는다.
M/S 모드의 정보는 많은 변환 부호화에 이용 가능하므로, 동적 시간 신축 방식에서는 M/S 모드의 정보를 이용하여, 하모닉 시간 신축의 성능을 개선할 수 있다.
구체적으로는 상기 도면에 나타내는 바와 같이, 부호화 장치(12)는, M/S 계산부(401), 다운믹스부(402), 피치 패턴 검출부(403), 동적 시간 신축부(404), 가역 인코더(405), 시간 신축부(406), 변환 인코더(407) 및 멀티플렉서(408)를 구비하고 있다.
여기에서 피치 패턴 검출부(403), 동적 시간 신축부(404), 가역 인코더(405), 시간 신축부(406), 변환 인코더(407) 및 멀티플렉서(408)의 각각은, 실시 형태 1의 부호화 장치(10)가 구비하는 피치 패턴 검출부(101), 동적 시간 신축부(102), 가역 인코더(103), 시간 신축부(104), 변환 인코더(105) 및 멀티플렉서(106)와 동일한 가능을 가지므로, 상세한 설명은 생략한다.
M/S 계산부(401)는, 입력 음성 신호가 갖는 2개의 채널의 신호에 있어서의 피치 패턴의 유사도를 산출하고, 산출한 유사도가 소정의 값보다 큰지의 여부를 나타내는 플래그를 생성한다.
구체적으로는, 좌우의 채널 신호가 M/S 계산부(401)에 송신된다. 그리고 M/S 계산부(401)는, 주파수 영역에 있어서 좌우 신호의 유사성을 산출한다. 이것은, 변환 부호화에 있어서의 M/S 모드에서의 검출과 동일하다. 그리고 M/S 계산부(401)는 1개의 플래그를 생성한다. 요컨대 M/S 계산부(401)는, 스테레오 신호의 서브밴드 모두에 대해 M/S 모드가 작동하면, 이 플래그를 1로 설정하고, 그렇지 않으면 플래그를 0으로 설정한다.
또 다운믹스부(402)는, M/S 계산부(401)가 생성한 플래그가, 상기 유사도가 상기 소정의 값보다 큰 것을 나타내는 경우에는, 상기 2개의 채널의 신호를 다운믹스하여 얻어지는 1개의 신호를 출력하고, 상기 유사도가 상기 소정의 값 이하인 것을 나타내는 경우에는, 상기 2개의 채널의 신호를 출력한다.
구체적으로는 플래그=1이면, 다운믹스부(402)에 있어서, 좌우 신호를 메인 신호 및 사이드 신호에 다운믹스한다. 메인 신호는, 피치 패턴 검출부(403)에 송신된다. 또 플래그=1이 아니면, 다운믹스부(402)는, 원래의 스테레오 신호를 피치 패턴 검출부(403)에 송신한다.
그리고 피치 패턴 검출부(403)는, 다운믹스부(402)가 출력한 신호의 각각에 대해 피치 패턴을 검출한다.
구체적으로는 피치 패턴 검출부(403)는, 원래의 스테레오 신호인지, 스테레오 신호의 다운믹스 신호인지 중 어느 쪽인지를 수신한다. 피치 패턴 검출부(403)은, 다운믹스 신호를 수신한 경우, 1세트의 피치 패턴을 검출한다. 피치 패턴 검출부(403)는, 다운믹스 신호를 수신하지 않았던 경우에는, 좌우의 음성 신호의 피치 패턴을 각각 검출한다.
이와 같이 본 실시 형태 6에서는, 동적 시간 신축 방식을, 스테레오 신호의 부호화에 보다 적합하도록 개선할 수 있다. 스테레오 신호를 부호화하는 경우, 좌우의 채널에서 특성이 상이한 경우도 한다. 이 경우, 상이한 채널에 대해 다른 제1 시간 신축 파라미터를 산출한다. 또 좌우 채널의 특성이 유사한 경우도 있다. 이 경우, 양 채널에 동일한 제1 시간 신축 파라미터를 이용하는 것이 합리적이다. 요컨대 좌우 채널의 특성이 유사한 경우는, 동일한 제1 시간 신축 파라미터를 이용하는 것이 보다 효율적이다.
이상과 같이 본 실시 형태 6에 따른 부호화 장치(12)에 의하면, 입력 음성 신호인 2개의 채널의 신호에 있어서의 피치 패턴의 유사도를 산출하여, 상기 유사도가 소정의 값보다 큰 경우에는, 2개의 채널의 신호를 다운믹스하여 얻어지는 1개의 신호를 출력하고, 상기 유사도가 소정의 값 이하인 경우에는, 2개의 채널의 신호를 출력한다. 요컨대 부호화 장치(12)는, 2개의 채널의 신호의 피치 패턴의 유사도가 높은 경우에는, 1개의 신호의 피치 패턴에 의거하여, 2개의 채널의 신호에 공통되는 1개의 제1 시간 신축 파라미터를 생성한다. 이와 같이 부호화 장치(12)는, 2개의 채널의 신호를 부호화하는데, 1개의 제1 시간 신축 파라미터를 부호화하면 되어, 사용하는 비트수를 저감할 수 있다. 이 때문에 부호화 장치(12)는, 피치의 변화가 큰 음성 신호여도, 적은 비트수로 음질을 향상시킬 수 있다.
(실시 형태 7)
본 실시 형태 7은, M/S 모드에 대응한 복호 장치를 도입한다. 도 17은 본 발명의 실시 형태 7에 따른 복호 장치(21)의 기능적인 구성을 도시하는 블록도이다.
상기 도면에 나타내는 바와 같이, 복호 장치(21)는, 가역 디코더(501), 동적 시간 신축 재구성부(502), 시간 신축부(503), M/S 모드 검출부(504), 변환 디코더(505) 및 디멀티플렉서(506)를 구비하고 있다.
여기에서 복호 장치(21)가 구비하는 가역 디코더(501), 동적 시간 신축 재구성부(502), 시간 신축부(503), 변환 디코더(505) 및 디멀티플렉서(506)는, 실시 형태 3에 있어서의 복호 장치(20)가 구비하는 가역 디코더(201), 동적 시간 신축 재구성부(202), 시간 신축부(203), 변환 디코더(204) 및 디멀티플렉서(205)와 동일한 기능을 가지므로, 상세한 설명은 생략한다.
우선, 입력 비트 스트림이 디멀티플렉서(506)에 송신된다. 그리고 디멀티플렉서(506)는, 부호화 시간 신축 파라미터와 변환 인코더 정보와 부호화 음성 신호를 출력한다.
그리고 변환 디코더(505)는, 부호화 음성 신호를 변환 인코더 정보에 따라 시간 신축된 신호에 복호하여, M/S 모드 정보를 추출한다. 그리고 변환 디코더(505)는, 추출한 M/S 모드 정보를 M/S 모드 검출부(504)에 송신한다.
M/S 모드 검출부(504)는, 음성 신호가 갖는 2개의 채널의 신호에 있어서의 피치 패턴의 유사도가 소정의 값보다 큰지의 여부를 나타내는 플래그를 생성한다.
구체적으로는, 프레임의 서브밴드 모두에 대해 M/S 모드가 작동하면, 이 M/S 모드가 시간 신축에 대해서도 작동하도록, M/S 모드 검출부(504)는 플래그를 1로 설정한다. 그렇지 않으면, M/S 모드는 하모닉 시간 신축 재구성에서는 이용되지 않으므로, M/S 모드 검출부(504)는 플래그를 0으로 설정한다. 그리고 M/S 모드 검출부(504)는, M/S 모드의 플래그를 동적 시간 신축 재구성부(502)에 송신한다.
동적 시간 신축 재구성부(502)는, M/S 모드 검출부(504)가 생성한 플래그가, 상기 유사도가 상기 소정의 값보다 큰 것을 나타내는 경우에는, 2개의 채널의 신호에 공통되는 제2 시간 신축 파라미터를 생성하고, 상기 유사도가 상기 소정의 값 이하인 것을 나타내는 경우에는, 2개의 채널의 신호 각각에 대해 제2 시간 신축 파라미터를 생성한다.
구체적으로는 동적 시간 신축 재구성부(502)는, 상기 플래그에 따라, 가역 디코더(501)에 의해 역양자화된 복호 시간 신축 파라미터를 제2 시간 신축 파라미터로 재구성한다.
요컨대 동적 시간 신축 재구성부(502)는, 플래그=1이면, 1세트의 제2 시간 신축 파라미터를 생성하고, 플래그가 1이 아니면, 2세트의 제2 시간 신축 파라미터를 생성한다. 제2 시간 신축 파라미터의 생성 프로세스는, 실시 형태 2에 있어서 동적 시간 신축부(102)가 제1 시간 신축 파라미터를 생성 프로세스와 동일하다.
시간 신축부(503)는, 플래그=1이면, 시간 신축된 스테레오 신호에 동일한 제2 시간 신축 파라미터를 적용한다. 또 시간 신축부(503)는, 플래그가 1이 아니면, 좌측의 시간 신축 신호와 우측의 시간 신축 신호에 상이한 제2 시간 신축 파라미터를 적용한다.
이상과 같이 본 실시 형태 7에 따른 복호 장치(21)에 의하면, 음성 신호인 2개의 채널의 신호에 있어서의 피치 패턴의 유사도가 소정의 값보다 큰 경우에는, 2개의 채널의 신호에 공통되는 제2 시간 신축 파라미터를 생성하고, 상기 유사도가 소정의 값 이하인 경우에는, 2개의 채널의 신호 각각에 대해 제2 시간 신축 파라미터를 생성한다. 요컨대 복호 장치(21)는, 2개의 채널의 신호의 피치 패턴의 유사도가 높은 경우에는, 1개의 제2 시간 신축 파라미터를 생성한다. 이와 같이 복호 장치(21)는, 2개의 채널의 신호를 복호하는데, 1개의 제2 시간 신축 파라미터를 이용하기만 하면 되므로, 사용하는 비트수를 저감할 수 있다. 이 때문에 복호 장치(21)는, 피치의 변화가 큰 음성 신호여도, 적은 비트수로 음질을 향상시킬 수 있다.
(실시 형태 8)
본 실시 형태 8은, 실시 형태 6을 개선하여, 복호 장치에 있어서의 시간 신축의 정밀도를 향상시킨다. 개선점은, 실시 형태 5의 개선점과 동일하다. 도 18은 본 발명의 실시 형태 8에 따른 부호화 장치(13)의 기능적인 구성을 도시하는 블록도이다.
상기 도면에 나타내는 바와 같이, 부호화 장치(13)는, M/S 계산부(601), 다운믹스부(602), 피치 패턴 검출부(603), 동적 시간 신축부(604), 가역 인코더(605), 시간 신축부(606), 변환 인코더(607), 가역 디코더(608), 동적 시간 신축 재구성부(609) 및 멀티플렉서(610)를 구비하고 있다.
여기에서 M/S 계산부(601), 다운믹스부(602), 피치 패턴 검출부(603), 동적 시간 신축부(604), 가역 인코더(605), 시간 신축부(606), 변환 인코더(607) 및 멀티플렉서(610)의 각각은, 실시 형태 6의 부호화 장치(12)가 구비하는 M/S 계산부(401), 다운믹스부(402), 피치 패턴 검출부(403), 동적 시간 신축부(404), 가역 인코더(405), 시간 신축부(406), 변환 인코더(407) 및 멀티플렉서(408)와 동일한 기능을 가지므로, 상세한 설명은 생략한다.
요컨대 본 실시 형태 8에서는, 실시 형태 6의 구성에, 가역 디코더(608)와 동적 시간 신축 재구성부(609)가 더해져 있다. 이 목적은, 실시 형태 5와 동일하게, 부호화 장치가 복호 장치와 동일한 제2 시간 신축 파라미터를 이용할 수 있도록 하는 것이다.
또한 가역 디코더(608) 및 동적 시간 신축 재구성부(609)는, 실시 형태 7의 복호 장치(21)에 있어서의 가역 디코더(501) 및 동적 시간 신축 재구성부(502)와 동일한 기능을 가지므로, 상세한 설명은 생략한다.
(실시 형태 9)
본 실시 형태 9에서는, 폐루프의 동적 시간 신축 방식을 구비한 부호화 장치를 도입한다. 도 19는 본 발명의 실시 형태 9에 따른 부호화 장치(14)의 기능적인 구성을 도시하는 블록도이다.
상기 도면에 나타내는 바와 같이, 부호화 장치(14)는, M/S 계산부(701), 다운믹스부(702), 피치 패턴 검출부(703), 동적 시간 신축부(704), 가역 인코더(705), 가역 디코더(706), 동적 시간 신축 재구성부(707), 시간 신축부(708), 변환 인코더(709), 비교부(710) 및 멀티플렉서(711)를 구비하고 있다.
또한 실시 형태 9의 구조는 실시 형태 8의 구조에 의거하고 있지만, 비교 방식이 더해져 있다. 요컨대 부호화 장치(14)는, 실시 형태 8의 부호화 장치(13)의 구성에 비교부(710)를 추가한 구성으로 되어 있다. 이 때문에, 부호화 장치(14)가 구비하는 비교부(710) 이외의 구성에 대한 상세한 설명은 생략한다.
비교부(710)는, 변환 인코더(709)가 생성한 부호화 음성 신호인 제1 부호화 신호화, 다른 부호화 방식에 의해 입력 음성 신호가 부호화된 제2 부호화 신호를 비교한다.
요컨대 비교부(710)는, 부호화 음성 신호와 부호화 시간 신축 파라미터를 멀티플렉서(711)에 송신하기 전에, 부호화 음성 신호를 확인한다. 구체적으로는 비교부(710)는, 시간 신축을 복호한 후에 음질이 전체적으로 개선되어 있는지의 여부의 판단을 행한다.
구체적으로는 비교부(710)는, 제1 부호화 신호를 가역 인코더(705)가 생성한 부호화 시간 신축 파라미터를 이용해 복호하여, 입력 음성 신호와의 차분인 제1 차분을 산출한다. 또 비교부(710)는, 제2 부호화 신호를 복호하여, 입력 음성 신호와의 차분인 제2 차분을 산출한다. 그리고 비교부(710)는, 제1 차분이 제2 차분보다 작은 경우에, 제1 부호화 신호를 출력한다.
여기에서 비교부(710)는, 다양한 종류의 비교 방식에 의해 비교를 행할 수 있다. 이 중 하나의 예로서, 복호 신호의 SNR(Signal-Noise Ratio, SN비)를 원래의 신호와 비교하는 것이 있다.
우선 비교부(710)는, 시간 신축된 부호화 음성 신호를 변환 디코더에 의해 복호한다. 예를 들면 비교부(710)는, 시간 신축부(708)와 같이, 복호된 음성 신호에 제2 시간 신축 파라미터를 이용하여 시간 신축을 적용한다. 그리고 비교부(710)는, 신축되어 있지 않은 음성 신호와 원래의 음성 신호를 비교함으로써, SNR1을 산출한다.
다음에 비교부(710)는, 시간 신축을 적용하지 않고 다른 부호화 음성 신호를 생성한다. 그리고 비교부(710)는, 이 부호화 음성 신호를 동일한 변환 디코더에 의해 복호하고, 이 복호된 음성 신호를 원래의 음성 신호와 비교함으로써, SNR2를 산출한다.
다음에 비교부(710)는, SNR1과 SNR2를 비교하여 판단을 행한다. 만일 SNR1>SNR2이면, 비교부(710)는 시간 신축을 선택하고, 제1 부호화 신호와 변환 인코더 정보와 부호화 시간 신축 파라미터를 멀티플렉서(711)에 송신한다.
그리고 멀티플렉서(711)는, 비교부(710)가 출력한 제1 부호화 신호와 변환 인코더 정보와 부호화 시간 신축 파라미터를 다중화하여, 비트 스트림을 생성한다.
또 SNR1≤SNR2이면, 시간 신축은 선택되지 않으며, 비교부(710)는 제2 부호화 신호와 변환 인코더 정보를 멀티플렉서(711)에 송신한다.
또한 비교부(710)는, 비교 방식의 다른 방법으로서, SNR 대신에, 사용하는 비트수를 비교하는 것으로 해도 된다.
이와 같이 본 동적 시간 신축 방식에서는, 시간 신축 전후의 하모닉 구조를 비교함으로써, 시간 신축의 효과의 평가도 행하여, 시간 신축이 대상 프레임에 적응되는지의 여부를 판단한다. 이에 의해, 부정확한 피치 패턴에 의해 초래되는 오류를 배제할 수 있다.
이상과 같이 본 실시 형태 9에 따른 부호화 장치(14)에 의하면, 생성한 부호화 음성 신호인 제1 부호화 신호와, 다른 부호화 방식에 의해 입력 음성 신호가 부호화된 제2 부호화 신호를 비교하여, 제1 부호화 신호를 복호한 신호와 입력 음성 신호의 차분이, 제2 부호화 신호를 복호한 신호와 입력 음성 신호의 차분보다 작은 경우에, 제1 부호화 신호를 출력한다. 요컨대 부호화 장치(14)는, 부호화의 정밀도가 양호했던 경우에만, 생성한 부호화 음성 신호를 출력한다. 이에 의해, 부호화 장치(14)는, 피치의 변화가 큰 음성 신호여도, 정밀도 좋게 부호화를 행함으로써, 적은 비트수로 음질을 향상시킬 수 있다.
(실시 형태 10)
본 실시 형태 10에서는, 동적 시간 신축 방식에 있어서, 피치 정보의 길이를 가변으로 하는 상세한 수법을 제안한다.
본 실시 형태 10의 부호화 장치의 구조는, 예를 들면 실시 형태 5에 있어서의 부호화 장치(11)와 동일한 것으로 한다. 또한 본 실시 형태 10의 부호화 장치의 구조는, 상기의 다른 실시 형태와 동일한 것으로 해도 된다.
본 실시 형태 10에 있어서의 부호화 장치(11)의 동적 시간 신축부(302)는, 검출된 피치 패턴을 해석하여, 피치 노드의 최적수를 결정한다. 그러므로, 피치 노드수는 가변이다. 피치 노드수를 나타내기 위해 길이 지시자를 이용한다. 이하의 표는, 피치 노드수가 길이 지시자를 나타낸 것이다.
[표 1]
그리고 log2N비트를 이용하여, 피치 노드수가 길이 지시자를 부호화한다. 피치 노드수 M은, 코덱의 비트 레이트에 따라, 예를 들면 64kbps인 경우는 M=16, 24kbps인 경우는 M=8 또는 2와 같이 유연하게 대응할 수 있다. 또 피치 노드수 M은, 윈도우 사이즈 등, 코덱에서 생성된 다른 파라미터에 의해서도, 예를 들면, 긴 윈도우 프레임의 경우는 M=8, 짧은 윈도우 프레임의 경우는 M=4와 같이 변화시킬 수 있다.
또 피치 노드수의 길이 지시자의 일례를, 이하의 표에 나타낸다.
[표 2]
이 경우는 2비트를 이용하여 길이 지시자를 부호화한다. 피치 변화 위치인 노드가 0이면, 시간 신축은 행해지지 않으며, 시간 신축 파라미터는 더 이상 부호화되지 않는다. 또 피치 변화 위치인 노드가 M개 있으면, M비트를 이용하여, 벡터 C라고 정의된, 각 위치에 대한 피치 변화 스테이터스를 부호화한다. 여기에서 M은, 16, 8 및 2를 취할 수 있다. 도 12에 나타낸 바와 같이, 1개의 비트가 1개의 위치와 일치한다. 위치 i에서 피치 변화가 없으면, C[i]를 1로 설정하고, 피치 변화가 있으면, 위치 i에서 피치 변화가 발생한 것을 나타내기 위해 C[i]를 0으로 설정한다.
C[i]가 0인 각 노드에서의 피치 변화치 Δpi를 가역 인코더(303)에서 부호화한다.
그리고 가역 인코더(303)는, 피치 노드수를 나타내는 부호화된 길이 지시자와, 피치 변화 위치를 나타내는 벡터 C와, 피치 변화율을 멀티플렉서(308)에 송신한다.
이와 같이 본 실시 형태 10에서 제안된 방식은, 피치 노드의 가변 길이를 나타내는 길이 지시자를 이용함으로써, 동적 시간 신축에 의한 부호화를 더욱 최적화한다.
요컨대 선행 기술에서는, 일정수의 피치값을 1프레임으로부터 산출한다. 여기에서 본원 발명자들은 열심히 연구한 결과, 피치 변화는 단시간에서는 그다지 일어나지 않는 것을 알아내었다. 이 때문에, 신호 특성에 따른 적응수의 피치를 갖는 것이 보다 효율적이다. 이에 의해, 비트수를 더욱 남겨 음질을 개선할 수 있다.
(실시 형태 11)
본 실시 형태 11에서는, 시간 신축 파라미터의 가변 길이를 복호하는 방식을 구비한 복호 장치를 제안한다. 예를 들면 본 실시 형태 11의 복호 장치의 예로서, 도 13에 나타낸 복호 장치(20)를 이용할 수 있다.
본 실시 형태 11에 있어서, 시간 신축 노드의 복호 길이는 가변이다. 이것은 실시 형태 10에서 설명한 부호화 장치에 대응하고 있으며, 이하에 실시 형태 11의 복호 장치의 일례를 설명한다.
실시 형태 11의 복호 장치(20)에서는, 비트 스트림을 분리한 후, 부호화 시간 신축 파라미터를 가역 디코더(201)에 송신한다. 실시 형태 10에 의하면, 길이 지시자는 log2N비트로 부호화된다. 가역 디코더(201)는, 실시 형태 10에 있어서의 피치 노드수의 길이 지시자의 표를 이용하여, 피치 노드수 M을 복호한다.
여기에서 피치 노드수 M은, 코덱의 비트 레이트에 따라, 예를 들면, 64kbps인 경우는 M=16, 24kbps인 경우는 M=8 또는 2와 같이 상이해도 상관없다. 또 피치 노드수 M은, 윈도우 사이즈 등, 코덱에서 생성된 다른 파라미터에 의해, 예를 들면, 긴 윈도우 프레임의 경우는 M=8, 짧은 윈도우 프레임의 경우는 M=4로 변화시킬 수 있다.
길이 지시자의 복호 방식의 일례를 이하의 표에 나타낸다.
[표 3]
피치 변화 위치인 노드가 0이면, 시간 신축은 행해지지 않으며, 시간 신축 파라미터는 더 이상 복호되지 않는다.
피치 변화 위치인 노드가 M개 있으면, M비트의 피치 변화 위치 벡터 C를 복호한다. 여기에서 M은, 16, 8 및 2를 취할 수 있다. 1개의 비트가 1개의 위치와 일치한다. C[i]가 1과 동일한 경우는, 위치 i에서 피치 변화가 없는 것을 의미한다. C[i]가 0과 동일한 경우는, 도 12에 나타내고 있는 바와 같이, 위치 i에서 피치 변화가 있는 것을 의미한다.
가역 디코더(201)는, 벡터 C[i]가 0인 위치에 있어서, 피치 변화치 Δpi를 복호한다.
이 의사 코드는 이하와 같이 기술된다.
그리고 정규화 피치 패턴은 이하와 같이 재구성된다.
[수식 15]
이 피치 패턴은, 시간 신축된 음성 신호의 피치를 시프트하는 시간 신축부(203) 내에서 이용된다.
이상, 본 발명의 실시 형태에 따른 부호화 장치 및 복호 장치에 대해 설명하였지만, 본 발명은 이 실시 형태에 한정되는 것은 아니다. 요컨대 금회 개시된 실시 형태는 모든 점에서 예시이며 제한적인 것은 아니라고 생각되어야 한다. 본 발명의 범위는 상기한 설명이 아니라 청구의 범위에 의해 나타내어지며, 청구의 범위와 균등한 의미 및 범위 내에서의 모든 변경이 포함되는 것이 의도된다.
또 본 발명은, 이러한 부호화 장치 또는 복호 장치로서 실현할 수 있을 뿐만 아니라, 상기 부호화 장치 또는 복호 장치에 포함되는 처리부가 행하는 특징적인 처리를 단계로 하는 부호화 방법 또는 복호 방법으로서도 실현할 수 있다. 또 부호화 방법 또는 복호 방법에 포함되는 특징적인 처리를 컴퓨터에 실행시키는 프로그램으로서 실현하거나 할 수도 있다. 그리고 그러한 프로그램은, CD-ROM 등의 기록 매체 및 인터넷 등의 전송 매체를 통해 유통시킬 수 있는 것은 말할 필요도 없다.
또 도 8, 15, 16, 18 혹은 19의 블록도에 나타내어진 부호화 장치, 또는 도 13 혹은 17의 블록도에 나타내어진 복호 장치의 각 기능 블록은, 집적 회로인 LSI로서 실현되어도 된다. 이들은 개별적으로 1칩화되어도 되고, 일부 또는 모두를 포함하도록 1칩화되어도 된다.
또한 여기에서는 LSI로 하였지만, 집적도의 차이에 따라, IC, 시스템 LSI, 슈퍼 LSI, 울트라 LSI로 호칭되는 경우도 있다.
또 집적 회로화의 수법은 LSI에 한정되는 것은 아니며, 전용 회로 또는 범용 프로세서로 실현해도 된다. LSI 제조 후에, 프로그램하는 것이 가능한 FPGA(Field Programmable Gate Array)나, LSI 내부의 회로 셀의 접속이나 설정을 재구성 가능한 리컨피규러블·프로세서를 이용해도 된다.
또한 반도체 기술의 진보 또는 파생되는 다른 기술에 의해 LSI로 치환되는 집적 회로화의 기술이 등장하면, 당연히 그 기술을 이용하여 기능 블록의 집적화를 행해도 된다. 바이오 기술의 적응 등이 가능성으로서 있을 수 있다.
[산업상의 이용 가능성]
본 발명은, 피치의 변화가 큰 음성 신호여도, 적은 비트수로 음질을 향상시킬 수 있는 부호화 장치 등에 적용 가능하다.
10, 11, 12, 13, 14 : 부호화 장치
20, 21 : 복호 장치
101, 301, 403, 603, 703 : 피치 패턴 검출부
102, 302, 404, 604, 704 : 동적 시간 신축부
103, 303, 405, 605, 705 : 가역 인코더
104, 304, 406, 606, 708 : 시간 신축부
105, 305, 407, 607, 709 : 변환 인코더
106, 308, 408, 610, 711 : 멀티플렉서
201, 501 : 가역 디코더
202, 502 : 동적 시간 신축 재구성부
203, 503 : 시간 신축부
204, 505 : 변환 디코더
205, 506 : 디멀티플렉서
306, 608, 706 : 가역 디코더
307, 609, 707 : 동적 시간 신축 재구성부
401, 601, 701 : M/S 계산부
402, 602, 702 : 다운믹스부
504 : M/S 모드 검출부
710 : 비교부
20, 21 : 복호 장치
101, 301, 403, 603, 703 : 피치 패턴 검출부
102, 302, 404, 604, 704 : 동적 시간 신축부
103, 303, 405, 605, 705 : 가역 인코더
104, 304, 406, 606, 708 : 시간 신축부
105, 305, 407, 607, 709 : 변환 인코더
106, 308, 408, 610, 711 : 멀티플렉서
201, 501 : 가역 디코더
202, 502 : 동적 시간 신축 재구성부
203, 503 : 시간 신축부
204, 505 : 변환 디코더
205, 506 : 디멀티플렉서
306, 608, 706 : 가역 디코더
307, 609, 707 : 동적 시간 신축 재구성부
401, 601, 701 : M/S 계산부
402, 602, 702 : 다운믹스부
504 : M/S 모드 검출부
710 : 비교부
Claims (12)
- 입력 음성 신호의 소정 기간에 있어서의 피치의 변화를 나타내는 정보인 피치 패턴을 검출하는 피치 패턴 검출부와,
검출된 상기 피치 패턴을 해석하고, 해석 결과에 의거하여, 상기 소정 기간에 검출하는 최적의 피치의 수인 피치 노드수를 결정하고, 결정한 상기 피치 노드수와, 상기 피치 노드수의 피치에 있어서 피치의 변화가 발생하는 위치인 피치 변화 위치와, 상기 피치 변화 위치에 있어서의 피치의 변화 비율인 피치 변화율을 나타내는 정보를 포함하는 제1 시간 신축 파라미터를 생성하는 동적 시간 신축부와,
생성된 상기 제1 시간 신축 파라미터를 부호화하여 부호화 시간 신축 파라미터를 생성하는 제1 인코더와,
생성된 상기 제1 시간 신축 파라미터로부터 얻어지는 정보를 이용하여, 상기 피치 노드수의 피치가 소정의 기준치에 가까워지도록, 상기 피치 노드수의 피치 중 적어도 1개의 피치를 보정하는 시간 신축부와,
상기 시간 신축부가 보정한 피치로의 상기 입력 음성 신호를 부호화하여 부호화 음성 신호를 생성하는 제2 인코더와,
상기 제1 인코더가 생성한 상기 부호화 시간 신축 파라미터와 상기 제2 인코더가 생성한 상기 부호화 음성 신호를 다중화하여, 비트 스트림을 생성하는 멀티플렉서를 구비하는, 부호화 장치. - 청구항 1에 있어서,
상기 제1 인코더가 생성한 상기 부호화 시간 신축 파라미터를 복호하여, 상기 소정 기간의 피치 패턴에 있어서의 피치 노드수와 피치 변화 위치와 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성하는 복호부를 더 구비하고,
상기 시간 신축부는, 상기 복호부가 생성한 상기 제2 시간 신축 파라미터를 이용하여, 상기 피치를 보정하는, 부호화 장치. - 청구항 1 또는 청구항 2에 있어서,
상기 입력 음성 신호는, 2개의 채널의 신호를 가지며,
상기 부호화 장치는,
상기 2개의 채널의 신호에 있어서의 피치 패턴의 유사도를 산출하고, 산출한 상기 유사도가 소정의 값보다 큰지의 여부를 나타내는 플래그를 생성하는 M/S 계산부와,
생성된 상기 플래그가, 상기 유사도가 상기 소정의 값보다 큰 것을 나타내는 경우에는, 상기 2개의 채널의 신호를 다운믹스하여 얻어지는 1개의 신호를 출력하고, 상기 유사도가 상기 소정의 값 이하인 것을 나타내는 경우에는, 상기 2개의 채널의 신호를 출력하는 다운믹스부를 더 구비하고,
상기 피치 패턴 검출부는, 상기 다운믹스부가 출력한 신호의 각각에 대해 피치 패턴을 검출하는, 부호화 장치. - 청구항 1 또는 청구항 2에 있어서,
상기 제2 인코더가 생성한 상기 부호화 음성 신호인 제1 부호화 신호와, 다른 부호화 방식에 의해 상기 입력 음성 신호가 부호화된 제2 부호화 신호를 비교하는 비교부를 더 구비하고,
상기 비교부는,
상기 제1 부호화 신호를, 상기 제1 인코더가 생성한 상기 부호화 시간 신축 파라미터를 이용해 복호하여, 상기 입력 음성 신호와의 차분인 제1 차분을 산출하고,
상기 제2 부호화 신호를 복호하여, 상기 입력 음성 신호와의 차분인 제2 차분을 산출하며,
상기 제1 차분이 상기 제2 차분보다 작은 경우에, 상기 제1 부호화 신호를 출력하고,
상기 멀티플렉서는, 상기 비교부가 출력한 상기 제1 부호화 신호와 상기 부호화 시간 신축 파라미터를 다중화하여, 상기 비트 스트림을 생성하는, 부호화 장치. - 피치가 보정된 음성 신호가 부호화된 부호화 음성 신호와, 피치를 보정하기 위한 제1 시간 신축 파라미터가 부호화된 부호화 시간 신축 파라미터가 다중화된 비트 스트림으로부터, 상기 부호화 음성 신호와 상기 부호화 시간 신축 파라미터를 분리하는 디멀티플렉서와,
상기 부호화 시간 신축 파라미터를 복호하여, 소정 기간에 검출하는 피치의 수인 피치 노드수와, 상기 피치 노드수의 피치에 있어서 피치의 변화가 발생하는 위치인 피치 변화 위치와, 상기 피치 변화 위치에 있어서의 피치의 변화 비율인 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성하는 제1 복호부와,
상기 부호화 음성 신호를 복호하여, 상기 피치 노드수의 피치가 소정의 기준치에 가까워지도록 피치가 보정된 음성 신호를 생성하는 제2 복호부와,
상기 제2 시간 신축 파라미터를 이용하여, 상기 피치 노드수의 피치가 보정 전의 피치로 되돌아가도록 상기 피치 노드수의 피치 중 적어도 1개의 피치를 변경함으로써, 상기 피치가 보정된 음성 신호를 보정 전의 음성 신호로 변환하는 시간 신축부를 구비하는, 복호 장치. - 청구항 5에 있어서,
상기 음성 신호는, 2개의 채널의 신호를 가지며,
상기 복호 장치는,
상기 2개의 채널의 신호에 있어서의 피치 패턴의 유사도가 소정의 값보다 큰지의 여부를 나타내는 플래그를 생성하는 M/S 모드 검출부를 더 구비하고,
상기 제1 복호부는, 생성된 상기 플래그가, 상기 유사도가 상기 소정의 값보다 큰 것을 나타내는 경우에는, 상기 2개의 채널의 신호에 공통되는 상기 제2 시간 신축 파라미터를 생성하고, 상기 유사도가 상기 소정의 값 이하인 것을 나타내는 경우에는, 상기 2개의 채널의 신호 각각에 대해 상기 제2 시간 신축 파라미터를 생성하는, 복호 장치. - 입력 음성 신호의 소정 기간에 있어서의 피치의 변화를 나타내는 정보인 피치 패턴을 검출하는 피치 패턴 검출 단계와,
검출된 상기 피치 패턴을 해석하고, 해석 결과에 의거하여, 상기 소정 기간에 검출하는 최적의 피치의 수인 피치 노드수를 결정하고, 결정한 상기 피치 노드수와, 상기 피치 노드수의 피치에 있어서 피치의 변화가 발생하는 위치인 피치 변화 위치와, 상기 피치 변화 위치에 있어서의 피치의 변화 비율인 피치 변화율을 나타내는 정보를 포함하는 제1 시간 신축 파라미터를 생성하는 동적 시간 신축 단계와,
생성된 상기 제1 시간 신축 파라미터를 부호화하여 부호화 시간 신축 파라미터를 생성하는 제1 부호화 단계와,
생성된 상기 제1 시간 신축 파라미터로부터 얻어지는 정보를 이용하여, 상기 피치 노드수의 피치가 소정의 기준치에 가까워지도록, 상기 피치 노드수의 피치 중 적어도 1개의 피치를 보정하는 시간 신축 단계와,
상기 시간 신축 단계에서 보정된 피치로의 상기 입력 음성 신호를 부호화하여 부호화 음성 신호를 생성하는 제2 부호화 단계와,
상기 제1 부호화 단계에서 생성된 상기 부호화 시간 신축 파라미터와 상기 제2 부호화 단계에서 생성된 상기 부호화 음성 신호를 다중화하여, 비트 스트림을 생성하는 다중화 단계를 포함하는, 부호화 방법. - 피치가 보정된 음성 신호가 부호화된 부호화 음성 신호와, 피치를 보정하기 위한 제1 시간 신축 파라미터가 부호화된 부호화 시간 신축 파라미터가 다중화된 비트 스트림으로부터, 상기 부호화 음성 신호와 상기 부호화 시간 신축 파라미터를 분리하는 분리 단계와,
상기 부호화 시간 신축 파라미터를 복호하여, 소정 기간에 검출하는 피치의 수인 피치 노드수와, 상기 피치 노드수의 피치에 있어서 피치의 변화가 발생하는 위치인 피치 변화 위치와, 상기 피치 변화 위치에 있어서의 피치의 변화 비율인 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성하는 제1 복호 단계와,
상기 부호화 음성 신호를 복호하여, 상기 피치 노드수의 피치가 소정의 기준치에 가까워지도록 피치가 보정된 음성 신호를 생성하는 제2 복호 단계와,
상기 제2 시간 신축 파라미터를 이용하여, 상기 피치 노드수의 피치가 보정 전의 피치로 되돌아가도록 상기 피치 노드수의 피치 중 적어도 1개의 피치를 변경함으로써, 상기 피치가 보정된 음성 신호를 보정 전의 음성 신호로 변환하는 시간 신축 단계를 포함하는, 복호 방법. - 청구항 7에 기재된 부호화 방법에 포함되는 단계를 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
- 청구항 8에 기재된 복호 방법에 포함되는 단계를 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
- 입력 음성 신호의 소정 기간에 있어서의 피치의 변화를 나타내는 정보인 피치 패턴을 검출하는 피치 패턴 검출부와,
검출된 상기 피치 패턴을 해석하고, 해석 결과에 의거하여, 상기 소정 기간에 검출하는 최적의 피치의 수인 피치 노드수를 결정하고, 결정한 상기 피치 노드수와, 상기 피치 노드수의 피치에 있어서 피치의 변화가 발생하는 위치인 피치 변화 위치와, 상기 피치 변화 위치에 있어서의 피치의 변화 비율인 피치 변화율을 나타내는 정보를 포함하는 제1 시간 신축 파라미터를 생성하는 동적 시간 신축부와,
생성된 상기 제1 시간 신축 파라미터를 부호화하여 부호화 시간 신축 파라미터를 생성하는 제1 인코더와,
생성된 상기 제1 시간 신축 파라미터로부터 얻어지는 정보를 이용하여, 상기 피치 노드수의 피치가 소정의 기준치에 가까워지도록, 상기 피치 노드수의 피치 중 적어도 1개의 피치를 보정하는 시간 신축부와,
상기 시간 신축부가 보정한 피치로의 상기 입력 음성 신호를 부호화하여 부호화 음성 신호를 생성하는 제2 인코더와,
상기 제1 인코더가 생성한 상기 부호화 시간 신축 파라미터와 상기 제2 인코더가 생성한 상기 부호화 음성 신호를 다중화하여, 비트 스트림을 생성하는 멀티플렉서를 구비하는, 집적 회로. - 피치가 보정된 음성 신호가 부호화된 부호화 음성 신호와, 피치를 보정하기 위한 제1 시간 신축 파라미터가 부호화된 부호화 시간 신축 파라미터가 다중화된 비트 스트림으로부터, 상기 부호화 음성 신호와 상기 부호화 시간 신축 파라미터를 분리하는 디멀티플렉서와,
상기 부호화 시간 신축 파라미터를 복호하여, 소정 기간에 검출하는 피치의 수인 피치 노드수와, 상기 피치 노드수의 피치에 있어서 피치의 변화가 발생하는 위치인 피치 변화 위치와, 상기 피치 변화 위치에 있어서의 피치의 변화 비율인 피치 변화율을 나타내는 정보를 포함하는 제2 시간 신축 파라미터를 생성하는 제1 복호부와,
상기 부호화 음성 신호를 복호하여, 상기 피치 노드수의 피치가 소정의 기준치에 가까워지도록 피치가 보정된 음성 신호를 생성하는 제2 복호부와,
상기 제2 시간 신축 파라미터를 이용하여, 상기 피치 노드수의 피치가 보정 전의 피치로 되돌아가도록 상기 피치 노드수의 피치 중 적어도 1개의 피치를 변경함으로써, 상기 피치가 보정된 음성 신호를 보정 전의 음성 신호로 변환하는 시간 신축부를 구비하는, 집적 회로.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010226681 | 2010-10-06 | ||
JPJP-P-2010-226681 | 2010-10-06 | ||
PCT/JP2011/005615 WO2012046447A1 (ja) | 2010-10-06 | 2011-10-05 | 符号化装置、復号装置、符号化方法及び復号方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130116862A KR20130116862A (ko) | 2013-10-24 |
KR101809298B1 true KR101809298B1 (ko) | 2017-12-14 |
Family
ID=45927452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020137001556A KR101809298B1 (ko) | 2010-10-06 | 2011-10-05 | 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9117461B2 (ko) |
EP (1) | EP2626856B1 (ko) |
JP (1) | JPWO2012046447A1 (ko) |
KR (1) | KR101809298B1 (ko) |
CN (1) | CN103098130B (ko) |
WO (1) | WO2012046447A1 (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
KR101809298B1 (ko) * | 2010-10-06 | 2017-12-14 | 파나소닉 주식회사 | 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법 |
FR2972320B1 (fr) * | 2011-03-03 | 2013-10-18 | Ass Pour La Rech Et Le Dev De Methodes Et Processus Ind Armines | Codage de donnees sans perte pour communication bidirectionnelle dans une session collaborative d'echange de contenu multimedia |
KR102697424B1 (ko) * | 2016-11-07 | 2024-08-21 | 삼성전자주식회사 | 대표 파형 제공 장치 및 방법 |
KR101925217B1 (ko) * | 2017-06-20 | 2018-12-04 | 한국과학기술원 | 가창 표현 이식 시스템 |
CN112151045B (zh) * | 2019-06-29 | 2024-06-04 | 华为技术有限公司 | 一种立体声编码方法、立体声解码方法和装置 |
CN113192517B (zh) * | 2020-01-13 | 2024-04-26 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100607A1 (en) * | 2005-11-03 | 2007-05-03 | Lars Villemoes | Time warped modified transform coding of audio signals |
US20080052065A1 (en) | 2006-08-22 | 2008-02-28 | Rohit Kapoor | Time-warping frames of wideband vocoder |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108085A (ja) * | 1991-10-19 | 1993-04-30 | Ricoh Co Ltd | 音声合成装置 |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
JP2002268694A (ja) | 2001-03-13 | 2002-09-20 | Nippon Hoso Kyokai <Nhk> | ステレオ信号の符号化方法及び符号化装置 |
JP4047296B2 (ja) * | 2004-03-12 | 2008-02-13 | 株式会社東芝 | 音声復号化方法及び音声復号化装置 |
WO2004090870A1 (ja) | 2003-04-04 | 2004-10-21 | Kabushiki Kaisha Toshiba | 広帯域音声を符号化または復号化するための方法及び装置 |
GB2422755A (en) * | 2005-01-27 | 2006-08-02 | Synchro Arts Ltd | Audio signal processing |
US7825321B2 (en) | 2005-01-27 | 2010-11-02 | Synchro Arts Limited | Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals |
PL1849154T3 (pl) | 2005-01-27 | 2011-05-31 | Synchro Arts Ltd | Sposoby i urządzenie do zastosowania w modyfikacji dźwięku |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
US8560328B2 (en) | 2006-12-15 | 2013-10-15 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
JP2008262140A (ja) | 2007-04-11 | 2008-10-30 | Arex:Kk | 音程変換装置及び音程変換方法 |
EP2107556A1 (en) | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
US8296131B2 (en) * | 2008-12-30 | 2012-10-23 | Audiocodes Ltd. | Method and apparatus of providing a quality measure for an output voice signal generated to reproduce an input voice signal |
KR101809298B1 (ko) * | 2010-10-06 | 2017-12-14 | 파나소닉 주식회사 | 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법 |
-
2011
- 2011-10-05 KR KR1020137001556A patent/KR101809298B1/ko active IP Right Grant
- 2011-10-05 US US13/816,741 patent/US9117461B2/en active Active
- 2011-10-05 WO PCT/JP2011/005615 patent/WO2012046447A1/ja active Application Filing
- 2011-10-05 EP EP11830381.7A patent/EP2626856B1/en active Active
- 2011-10-05 JP JP2012537591A patent/JPWO2012046447A1/ja active Pending
- 2011-10-05 CN CN201180037861.1A patent/CN103098130B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100607A1 (en) * | 2005-11-03 | 2007-05-03 | Lars Villemoes | Time warped modified transform coding of audio signals |
US20080052065A1 (en) | 2006-08-22 | 2008-02-28 | Rohit Kapoor | Time-warping frames of wideband vocoder |
Also Published As
Publication number | Publication date |
---|---|
JPWO2012046447A1 (ja) | 2014-02-24 |
EP2626856A4 (en) | 2017-07-19 |
CN103098130B (zh) | 2014-11-26 |
WO2012046447A1 (ja) | 2012-04-12 |
US20130144611A1 (en) | 2013-06-06 |
EP2626856B1 (en) | 2020-07-29 |
CN103098130A (zh) | 2013-05-08 |
KR20130116862A (ko) | 2013-10-24 |
US9117461B2 (en) | 2015-08-25 |
EP2626856A1 (en) | 2013-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101809298B1 (ko) | 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법 | |
JP6423460B2 (ja) | フレームエラー隠匿装置 | |
US8244524B2 (en) | SBR encoder with spectrum power correction | |
KR101274827B1 (ko) | 다수 채널 오디오 신호를 디코딩하기 위한 장치 및 방법, 및 다수 채널 오디오 신호를 코딩하기 위한 방법 | |
JP5530454B2 (ja) | オーディオ符号化装置、復号装置、方法、回路およびプログラム | |
KR100551862B1 (ko) | 고주파 복원 방법을 이용하는 코딩 시스템의 성능 향상방법 및 시스템 | |
KR102158896B1 (ko) | 음향 신호의 대역폭 확장을 행하는 장치 및 방법 | |
KR101139172B1 (ko) | 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술 | |
RU2487428C2 (ru) | Устройство и способ для вычисления числа огибающих спектра | |
KR101275892B1 (ko) | 오디오 신호를 인코딩하고 디코딩하기 위한 방법 및 장치 | |
KR101435893B1 (ko) | 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치 | |
JP5267362B2 (ja) | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 | |
KR101274802B1 (ko) | 오디오 신호를 인코딩하기 위한 장치 및 방법 | |
JP2010020346A (ja) | 音声信号および音楽信号を符号化する方法 | |
KR20130107257A (ko) | 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치 | |
JP2010540990A (ja) | 埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置 | |
KR20070083856A (ko) | 스케일러블 부호화 장치, 스케일러블 복호화 장치 및이러한 방법 | |
KR102204136B1 (ko) | 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법 | |
KR101387808B1 (ko) | 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치 | |
CN107924683B (zh) | 正弦编码和解码的方法和装置 | |
US11176954B2 (en) | Encoding and decoding of multichannel or stereo audio signals | |
Oztoprak et al. | Index assignment-based channel coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |