KR20070030796A - 음성신호 복호화 장치 및 음성신호 부호화 장치 - Google Patents

음성신호 복호화 장치 및 음성신호 부호화 장치 Download PDF

Info

Publication number
KR20070030796A
KR20070030796A KR1020067024727A KR20067024727A KR20070030796A KR 20070030796 A KR20070030796 A KR 20070030796A KR 1020067024727 A KR1020067024727 A KR 1020067024727A KR 20067024727 A KR20067024727 A KR 20067024727A KR 20070030796 A KR20070030796 A KR 20070030796A
Authority
KR
South Korea
Prior art keywords
signal
channel signal
frequency
downmix
audio
Prior art date
Application number
KR1020067024727A
Other languages
English (en)
Other versions
KR101120911B1 (ko
Inventor
곡 승 종
나오야 다나카
스아 홍 네오
미네오 츠시마
Original Assignee
마쯔시다덴기산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마쯔시다덴기산교 가부시키가이샤 filed Critical 마쯔시다덴기산교 가부시키가이샤
Publication of KR20070030796A publication Critical patent/KR20070030796A/ko
Application granted granted Critical
Publication of KR101120911B1 publication Critical patent/KR101120911B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

종래의 멀티채널 음성신호를 부호화하는 발명에서의 3개의 주요한 처리란, 올패스 필터를 이용한 잔향신호의 생성과, 레벨 조정을 목적으로 한 시간 및 주파수 축에서의 신호의 분할과, 부호화된 바이노럴 신호와 고정의 크로스 오버 주파수까지 부호화된 원음신호의 믹싱이다. 이들의 처리는, 본 발명에서 언급된 문제를 포함하고 있다.
본 발명에서는 3개의 실시형태를 제시한다. 채널간 간섭성 큐를 사용하여 올패스 필터 계수를 동적으로 조정함으로써, 잔향의 퍼짐을 제어한다; 시간축에서의 신호의 분할은, 저주파수에 대해서는 미세하게, 고주파수에 대해서는 성기게 한다; 믹싱을 행하기 위한 크로스 오버 주파수를 비트 레이트로 제어하고, 원음의 양자화가 성긴 경우, 채널간 간섭성 큐에서 결정되는 비율로 다운믹스 신호와 원음 신호를 믹싱한다.

Description

음성신호 복호화 장치 및 음성신호 부호화 장치{AUDIO SIGNAL DECODING DEVICE AND AUDIO SIGNAL ENCODING DEVICE}
본 발명은, 부호화 처리에서 음성신호로부터 바이노럴 큐(binaural cue)를 추출하여, 다운믹스 신호를 생성하는 부호화 장치 및 복호화 처리에 있어서, 상기 바이노럴 큐를 상기 다운믹스 신호에 부가함으로써 멀티채널 음성신호를 복호하는 음성신호 복호화 장치에 관한 것이다.
본 발명은, 부호화 처리에서 QMF(Quadrature Mirror Filter) 필터뱅크를 이용하여 멀티채널 음성신호를 시간-주파수(T/F) 표현으로 변환하는 바이노럴 큐 부호화 방법에 관한 것이다.
본 발명은, 멀티채널 음성신호의 부호화 및 복호화에 관한 것이다. 본 발명의 주된 목적은, 비트 레이트에 제약이 있는 경우라도, 디지털 음성신호의 지각상의 질을 최대한으로 유지하면서 해당 디지털 음성신호의 부호화를 행하는 것이다. 비트 레이트가 낮아지면, 전송 대역폭 및 기억용량을 작게 한다는 점에서 유리하다.
종래, 상기와 같이 비트 레이트 저감을 실현하기 위한 방법이 많이 존재한다.
"MS(mid-side) 스테레오"에 의한 방법에서는, 스테레오 채널(L 및 R)이, 그들의 "합"(L+R) 및 "차분"(L-R) 채널이라는 형으로 표현된다. 이들의 스테레오 채널의 상관성이 높은 경우, "차분" 신호에 포함되는 것은, "합" 신호보다 적은 비트로 성긴 양자화를 실시할 수 있는 중요도가 낮은 정보이다. L=R이 되는 것과 같은 극단적인 예에서는, 차분 신호에 관한 정보를 송신할 필요는 없다.
"인텐시티 스테레오"에 의한 방법에서는, 귀가 가지는 음향 심리학적 특성을 이용하여, 고주파수 영역에 대해서는, 주파수 의존성을 가지는 스케일 팩터와 함께 "합" 신호만을 송신하고, 디코더측에서 그 스케일 팩터를 "합" 신호에 적용하여, L 채널 및 R 채널을 합성한다.
"바이노럴 큐 부호화"에 의한 방법에서는, 복호화 처리에서 다운믹스 신호의 성형을 행하기 위해, 바이노럴 큐가 생성된다. 바이노럴 큐는, 예를 들면, 채널간 레벨/강도차(ILD), 채널간 위상/지연차(IPD), 채널간 간섭성/상관성(ICC) 등이다. ILD 큐로부터는 상대적인 신호의 파워를 측정할 수 있고, IPD 큐로부터는 소리가 양 귀에 닿기까지의 시간차를 측정할 수 있고, ICC 큐로부터는 유사성을 측정할 수 있다. 일반적으로, 레벨/강도 큐 및 위상/지연 큐에 의해 음성의 밸런스나 정위를 제어할 수 있고, 간섭성/상관성 큐에 의해 음성의 폭이나 퍼짐을 제어할 수 있다. 이들의 큐는 일체가 되어, 청자가 음향학적 센스를 머리 속에서 구성하는 것을 돕는 공간적 파라미터가 된다.
도 1은, 바이노럴 큐 부호화에 의한 부호화 및 복호화 방법을 이용한 전형적인 부호화 및 복호화 코덱의 구성을 나타내는 도면이다. 부호화 처리에서, 음성신 호는 프레임마다 처리된다. 다운 믹싱부(500)는, 왼쪽 채널(L) 및 오른쪽 채널(R)을 다운믹스하여, M=(L+R)/2를 생성한다. 바이노럴 큐 추출 모듈(502)은 L, R 및 M을 처리하여, 바이노럴 큐를 생성한다. 바이노럴 큐 추출 모듈(502)은, 통상, 시간-주파수 변환 모듈을 구비한다. 시간-주파수 변환 모듈은 L, R 및 M을 예를 들면, FFT, MDCT 등의 완전한 스펙트럼 표현으로 변환하든지, 또는 QMF 등과 같은 시간과 주파수의 혼합적 표현으로 변환한다. 이 대신, 스펙트럼 표현된 L 및 R의 평균치를 취함으로써, 스펙트럼 변환 후에 L 및 R로부터 M을 생성할 수도 있다. 바이노럴 큐는, 상기 한 바와 같이 표현된 L, R 및 M을 스펙트럼 대역 상에서, 스펙트럼 대역마다 비교함으로써 구할 수 있다.
음성 부호화기(504)는 M 신호를 부호화하여, 압축 비트 스트림을 생성한다. 음성 부호화기의 예로서, MP3, AAC 등의 부호화기가 있다. 바이노럴 큐는, (506)에서 양자화되고 나서, 압축된 M으로 다중화되어, 완전한 비트 스트림이 형성된다. 복호화 처리에서, 디멀티플렉서(508)는 M의 비트 스트림을 바이노럴 큐 정보로부터 분리한다. 음성 복호화기(510)는 M의 비트 스트림을 복호하여, 다운믹스 신호(M)를 복원한다. 다중채널 합성모듈(512)은, 해당 다운믹스 신호 및 역양자화된 바이노럴 큐를 처리하여, 멀티채널 신호를 복원한다. 종래 기술에 관련되는 문헌으로서는, 이하의 것을 예들 수 있다.
비특허문헌 1: [1]ISO/IEC 14496-3:2001/FDAM2, "Parametric Coding for high Quality Audio"
특허문헌 1: [2]WO03/007656A1, "Efficient and Scalable Parametric Stereo Coding for Low Bitrate Application"
특허문헌 2: [3]WO03/090208A1, "Parametric Representation of Spatial Audio"
특허문헌 3: [4]US6252965B1, "Multichannel Spectral Mapping Audio Apparatus and Method"
특허문헌 4: [5]US2003/0219130A1, "Coherence-based Audio Coding and Synthesis"
특허문헌 5: [6]US2003/0035553A1, "Backwards-Compatible Perceptual Coding of Spatial Cues"
특허문헌 6: [7]US2003/0235317A1, "Equalization For Audio Mixing"
특허문헌 7: [8]US2003/0236583A1, "Hybrid Multi-channel/Cue Coding/Decoding of Audio Signals"
종래 기술 [1](비특허문헌 1 참조)에서는, 다운믹스 신호와 "잔향신호"를 믹싱함으로써 소리의 퍼짐을 실현하고 있다. 잔향신호는, 다운믹스 신호를 Shroeder의 올패스 링크를 이용하여 처리함으로써 얻어진다. 이 필터의 계수는, 모두 복호처리에서 결정된다. 음성신호가 변화가 빠른 특징을 포함하는 경우, 과도한 에코 효과를 제거하기 위해, 이 잔향신호에 대해 별도로 과도 감쇠 처리를 실시하여 잔향의 퍼짐을 억제한다. 그러나, 이와 같이 별도 필터링 처리를 행하면, 계산 부하가 더 생기게 된다.
종래 기술 [5](특허문헌 4 참조)에서는, ILD 큐 및 IPD 큐에 대해 "랜덤 시 퀀스"를 삽입함으로써, 소리의 확산성(즉, 서라운드 효과)을 실현하고 있다. 랜덤 시퀀스는, ICC 큐에 의해 제어된다.
도 2는, 종래가 표준적인 시간 세그먼트의 분할방법을 나타내는 도면이다. ILD 큐를 계산하기 위해, 종래 기술 [1]의 방법에서는, T/F 표현된 L, R 및 M을("시간 경계선(601)"으로 구분된다) 시간 세그먼트로 분할하고, 시간 세그먼트에 대해 ILD를 하나 계산한다. 그러나, 이 방법은, 귀가 가지는 음향 심리학적 특성을 완전히 활용하고 있다고는 할 수 없다.
종래 기술 [1]에서는, 다운믹스 신호의 모든 주파수 스펙트럼에 대해 바이노럴 큐 부호화를 행하고 있다. 그러나 이 방법은, 고비트 레이트로 "투명감 있는" 음질을 실현하기 위해서는 불충분하다. 종래 기술 [8](특허문헌 7 참조)에 의하면, 비트 레이트가 높은 경우, 1.5kHz보다 낮은 주파수로 원음의 부호화가 행해지고 있다. 그러나, 중간의 비트 레이트로 최적한 음질을 얻을 수 없기 때문에, 고정의 크로스 오버 주파수(즉 1.5kHz)를 이용하는 것은 유리하다고는 할 수 없다.
본 발명은, 종래 기술에서의 바이노럴 큐 부호화에 의거하는 방법을 개량하는 것을 목적으로 한다
본 발명의 실시형태 1에서는, 잔향의 퍼짐에 영향을 주는 필터 계수를 변경함으로써 잔향의 퍼짐을 직접 제어하는 것을 제안한다. 또, 이들의 필터계수를 ICC 큐 및 과도검출 모듈에 의해 제어하는 것을 제안한다.
실시형태 2에서는, 우선, T/F 표현을 스펙트럼 방향으로 복수의 "섹션"으로 분할한다. 시간적 경계의 최대 허용수를 섹션마다 다르게 하고, 고주파수 영역에 속하는 섹션에 대해서는 시간적 경계의 허용수가 적어지도록 한다. 이렇게 하여, 저주파수 영역에서의 신호의 세분화를 보다 치밀하게 행할 수 있어, 비트 레이트의 급격한 변화를 억지하면서, 보다 정확하게 레벨 조정을 행할 수 있다.
실시형태 3에서는, 크로스 오버 주파수가 비트 레이트에 맞춰 변경되는 것을 제안한다. 또한, 비트 레이트의 제약이 있기 때문에 원음의 부호화가 성기게 행해지고 있다고 예측되는 경우, 원음신호와 다운믹스 신호를 저주파수로 믹싱하는 것을 제안한다. 또, 믹싱의 비율을 제어하기 위해 ICC 큐를 사용하는 것을 제안한다.
(발명의 효과)
본 발명에서는, 바이노럴 큐를 추출하고, 원음을 다운 믹싱하는 부호화 처리에서 압축된 원음이 가지는, 멀티채널 특유의 효과를 재현하는 것에 성공하였다. 이는, 복호화 처리에서 상기 바이노럴 큐를 다운믹스 신호에 부가함으로써 가능해진다.
도 1은, 종래의 전형적인 바이노럴 큐 부호화 시스템의 구성을 나타내는 도면이다.
도 2는, 여러 주파수 섹션에 대한 종래의 전형적인 시간분할 방법을 나타내는 도면이다.
도 3은, 본 발명에 관계하는 부호화 장치의 구성을 나타내는 블럭도이다.
도 4는, 여러 주파수 섹션에 대한 시간적 분할방법을 나타내는 도면이다.
도 5는, 본 발명의 실시형태 1에 관계하는 복호화 장치의 구성을 나타내는 블럭도이다.
도 6은 본 발명의 실시형태 3에 관계하는 복호화 장치의 구성을 나타내는 블럭도이다.
도 7은, 본 발명의 실시형태 3에 관한 부호화 시스템의 구성을 나타내는 블럭도이다.
*부호의 설명*
100 변환 모듈 102 다운믹스 모듈
104 에너지 엔벨로프 분석기 106 IPDL(b)를 산출하는 모듈
108 IPDR(b)를 산출하는 모듈 110 ICC(b)를 산출하는 모듈
200 변환 모듈 202 잔향 생성기
204 과도 검출기 206, 208 위상 조정기
210, 212 믹서 2 214, 216 에너지 조정기
218 역변환 모듈 300 변환 모듈
302 잔향 생성기 304 과도 검출기
306, 308 위상 조정기 310, 312 믹서 2
314, 316 에너지 조정기 318 역변환 모듈
320 저역통과 필터 322, 324 믹서 1
326 고역통과 필터 400 대역
402 섹션 O 404 섹션 2
406 경계 410 다운믹스부
411 AAC 인코더 412 바이노럴 큐 인코더
413 제2 인코더 414 AAC 디코더
415 프리 믹스부 416 신호 분리부
417 믹싱부 418 채널 분리부
419 위상 조정부 500 다운 믹싱부
502 바이노럴 큐 추출부 504 음성 부호화기
506 멀티플렉서 508 디멀티플렉서
510 음성 복호화기 512 멀티채널 합성부
601 경계
(실시형태 1)
이하에 나타내는 실시형태는, 본 발명의 여러 진보성의 원리를 예시하고 있는 것에 불과하고, 이하에 나타내는 상세한 설명에 대해 여러 변형을 가하는 것이 가능한 것은, 당업자라면 용이하게 이해하는 바이다. 따라서, 본 발명은 특허청구의 범위에 의해서만 제한되는 것으로, 이하에 나타내는 상세한 구체예에 의해 한정되는 것이 아니다.
또, 여기서는 스테레오-모노럴의 예를 나타내고 있지만, 본 발명은 이에 한정되는 것은 아니다. 이를 M개의 오리지널 채널 및 N개의 다운믹스 채널로서 일반화할 수 있다.
도 3은, 실시형태 1의 부호화 장치의 구성을 나타내는 블럭도이다. 도 3은 본 발명에 관계하는 부호화 처리를 나타낸다. 본 실시형태의 부호화 장치는, 변환 모듈(100), 다운믹스 모듈(102), L(t, f) 및 R(t, f)를 위한 2개의 에너지 엔벨로프 분석기(104), 왼쪽 채널의 채널간 위상 큐 IPDL(b)를 산출하는 모듈(106), 오른쪽 채널의 IPDR(b)를 산출하는 모듈(108) 및 ICC(b)을 산출하는 모듈(110)을 구비한다. 변환 모듈(100)은, 이하에서 시간의 함수 L(t) 및 R(t)로서 나타나는 오리지널 채널을 처리한다. 각각의 시간-주파수 표현 L(t, f) 및 R(t, f)를 얻는다. 여기서, t는 시간 지표를 나타내고, f는 주파수 지표를 나타낸다. 변환 모듈(100)은, 예를 들면, MPEG Audio Extension 1 및 2에서 이용되는 것과 같은 복소 QMF 필터뱅크 등이다. L(t, f) 및 R(t, f)는 연속하는 복수의 서브밴드를 포함하고 있고, 각각의 서브밴드는 원신호의 좁은 주파수 대역을 나타내고 있다. QMF 필터뱅크는, 저주파수 서브밴드에 대해서는 좁은 주파수 대역을 통과시키고, 고주파수 서브밴드에 대해서는 넓은 대역을 통과시키기 때문에, 복수의 스테지로 구성할 수 있다.
다운믹스 모듈(102)은, L(t, f) 및 R(t, f)를 처리하고, 다운믹스 신호 M(t, f)를 생성한다. 다운믹싱 방법은 수많이 존재하지만, 본 실시형태에서는 "평균화"를 이용한 방법을 나타낸다.
본 발명에서는, ILD 큐 대신에 에너지 큐를 이용하여 레벨 조정을 행한다. 에너지 큐를 계산하기 위해, 왼쪽 채널 에너지 엔벨로프 분석 모듈(104)은 L(t, f)을 더 처리하고, 에너지 엔벨로프 EL(1, b) 및 BorderL을 생성한다. 도 4는, 믹싱후의 음성채널 신호의 에너지 엔벨로프를 조정하기 위한 시간-주파수 섹션의 구분 방법을 나타내는 도면이다. 도 4에 나타나는 바와 같이, 우선, 시간-주파수 표현 L(t, f)를 주파수 방향으로 복수의 대역(400)으로 분할한다. 각각의 대역은 복수의 서브밴드를 포함한다. 귀가 가지는 음향 심리학적 특성을 이용하여, 저주파수 대역은, 고주파수 대역보다 서브밴드의 수가 적어지고 있다. 예를 들면, 서브밴드를 대역으로 그룹 나눔할 때에, 음향 심리학의 분야에서 잘 알려져 있는 "바크 척도(bark scale)" 또는 "임계 대역"을 이용할 수 있다.
L(t, f)는 시간방향으로 BorderL에서 주파수 대역(l, b)으로 더 분할되고, 이에 대해 EL(l, b)를 계산한다. 여기서, l은 시간적 구분의 지표이고, b는 대역의 지표를 나타낸다. BorderL의 최적한 배치 장소는, L(t, f)의 에너지의 변화가 크고, 또한 복호화 처리로 성형되는 신호의 에너지의 변화가 크다고 예측되는 시간적 위치이다.
복호화 처리에서, EL(l, b)은 다운믹스 신호의 에너지 엔벨로프를 대역마다 성형하기 위해 이용되고, 그 경계는, 같은 임계대역 경계 및 BorderL에 의해 결정된다. 에너지 EL(l, b)는 이하와 같이 정의된다.
Figure 112006086454074-PCT00001
같은 방법으로, 오른쪽 채널 에너지 엔벨로프 분석 모듈(104)은 R(t, f)를 처리하고 ER(1, b) 및 BorderR를 생성한다.
왼쪽 채널의 채널간 위상 큐를 취득하기 위해, 왼쪽 채널간 위상 큐 산출 모 듈(106)은 L(t, f) 및 M(t, f)를 처리하고, 이하의 수식을 이용하여 IPDL(b)를 구한다.
Figure 112006086454074-PCT00002
여기서, M*(t, f)는 M(t, f)의 복소 공역을 나타낸다. 오른쪽 채널간 위상 큐산출 모듈(108)은, 동일하게 하여 오른쪽 채널의 채널간 위상 큐 IPDR(b)를 구한다.
Figure 112006086454074-PCT00003
마지막으로, 부호화 처리에서 왼쪽 채널과 오른쪽 채널의 채널간 간섭성 큐를 구하기 위해, 모듈(110)은 L(t, f) 및 R(t, f)을 처리하고, 이하의 수식을 이용하여 ICC(b)를 구한다.
Figure 112006086454074-PCT00004
상기 바이노럴 큐는 모두, 부호화 처리에서의 부정보의 일부가 된다.
도 5는, 실시형태 1의 복호화 장치의 구성을 나타내는 블럭도이다. 본 실시형태 1의 복호화 장치는, 변환 모듈(200), 잔향 생성기(202), 과도 검출기(204), 위상 조정기(206, 208), 믹서 2(210, 212), 에너지 조정기(214, 216) 및 역변환 모듈(218)를 구비한다. 도 5는, 상술과 같이 생성된 바이노럴 큐를 이용하는, 상정 가능한 복호화 처리를 나타낸다. 변환 모듈(200)은 다운믹스 신호 M(t)를 처리하여, 시간-주파수 표현 M(t, f)으로 변환한다. 본 실시형태로 나타내는 변환 모듈(200)은, 복소 QMF 필터뱅크이다.
잔향 생성기(202)는 M(t, f)을 처리하고, MD(t, f)라 불리는 M(t, f)의 "확산 버전"을 생성한다. 이 확산 버전은, M(t, f)에 "에코"를 삽입함으로써, 보다 "스테레오"적인 인상(멀티채널의 경우는 "서라운드"적인 인상)을 창출하는 것이다. 종래 기술에서는, 그러한 잔향의 인상을, 단순히 지연을 이용하거나, 분수지연 올패스 필터링을 이용하거나 하여 생성하는 장치가 수많이 존재한다. 본 발명에서는, 잔향 효과를 얻기 위해, 분수지연 올패스 필터링를 이용한다. 통상, 복수의 올패스 필터의 캐스케이드 방식(Schroeder의 올패스 링크로서 알려진다)이 이용된다.
Figure 112006086454074-PCT00005
여기서, L은 링크의 수를 나타내고, d(m)은 각각의 링크의 필터의 차수를 나타낸다. 통상, 이들은 서로 소가 되도록 구성되어 있다. Q(f, m)는 에코의 밀도를 높게 하는 분수지연을 나타내고, slope(f, m)은 잔향의 감쇠율을 제어한다. 잔향의 감쇠는 slope(f, m)이 클수록 작다. 이들의 파라미터의 설계에 관한 구체적인 처리는 본 발명의 범위외이다. 종래 기술에서는, 이들의 파라미터는 바이노럴 큐에 의 해서 제어되지 않는다.
종래 기술에서의 잔향 감쇠율의 제어방법은, 모든 신호의 특징에 대해 최적한 것은 아니다. 예를 들면, 변화가 빠른 신호 "스파이크파"로 구성되는 신호인 경우, 에코 효과가 과잉이 되는 것을 피하기 위해, 잔향은 적은 편이 바람직하다. 종래 기술에서는, 과도감쇠 장치를 이용하여 별도로 잔향을 어느 정도 억지하고 있다.
마지막 문제는, 원음이 본질적으로 "모노럴"인 경우(예를 들면 독백), 잔향이 과잉이라고, 복호화된 신호가 원음과 크게 다르게 들릴 가능성이 있다는 것이다. 이 문제를 해결하기 위한 종래 기술이나 장치는 존재하지 않는다.
본 발명에서는, ICC 큐를 이용하여 slope(f, m) 파라미터를 적응적으로 제어한다. 상기 문제에 대처하기 위해, 이하와 같이 slope(f, m) 대신 new_s1ope(f, m)를 이용한다.
Figure 112006086454074-PCT00006
여기서, new_slope(f, m)는 과도검출 모듈(204)의 출력함수로서 정의되고, ICC(b)는 이하와 같이 정의된다.
Figure 112006086454074-PCT00007
여기서,
Figure 112006086454074-PCT00008
는 튜닝 파라미터이다. 신호에서의 대상 프레임이 본질적으로 모노럴인 경우, 해당 프레임의 오른쪽 채널과 왼쪽 채널 사이의 상관성을 평가하기 위한 ICC(b)은 상당히 높아진다. 잔향을 줄이기 위해, slope(f, m)를 (1-ICC(b))에 의해 대폭 저하시킨다. 또한, 역의 경우도 동일하다.
신호에서의 대상 프레임이 급속히 변화하는 신호 스파이크파로 구성되는 경우, 과도검출 모듈(204)은 slope(f, m)을 저감시키기 위해, 0.1 등이 작은 Tr_flag(b)를 되돌린다. 이에 의해, 잔향을 줄일 수 있다. 한편, 순조롭게 변화하는 신호의 경우, 과도검출 모듈(204)은, 0.99와 같이 큰 Tr_flag(b)의 값을 되돌린다. 이에 의해, 원하는 잔향량을 유지하는 것이 가능해진다. Tr_flag(b)은, 복호화 처리에서 M(t, f)를 분석함으로써 생성할 수 있다. 혹은, Tr_flag(b)을 부호화 처리에서 생성하고, 부정보로서 복호 처리측에 송신하는 것도 가능하다.
z 영역에 나타나는 잔향신호 MD(t, f)는, M(t, f)를 Hf(z)에 합성곱(convolution)함으로써 생성된다(합성곱은 z 영역에서의 승산이다).
Figure 112006086454074-PCT00009
Lreverb(t, f) 및 Rreverb(t, f)은, 위상 큐 IPDL(b) 및 IPDR(b)을 각각 위상조정 모듈(206) 및 (208)에서 MD(t, f)에 부가함으로써 생성된다. 이 처리를 행함으로써, 부호화 처리에서의 원음과 다운믹스 신호의 위상관계를 회복할 수 있다.
적용되는 수식은 이하대로이다.
Figure 112006086454074-PCT00010
여기서 부가된 위상은, 이전에 처리된 음성 프레임의 위상을 이용하여, 그들을 부가하기 전에 보간할 수 있다. 예를 들면 Lreverb (t, f)의 경우, 왼쪽 채널위상 조정모듈(208)에서의 수식은 이하와 같이 변경된다.
Figure 112006086454074-PCT00011
여기서, a-2, a-1 및 a0는 보간 계수이고, fr은 음성 프레임의 지표를 나타낸다. 보간을 행함으로써, Lreverb(t, f)의 위상이 급격히 변화하는 것을 방지할 수 있고, 음성이 전체적으로 안정한다.
오른쪽 채널위상 조정모듈(206)도 동일하게 하여 보간을 행하고, MD(t, f)로부터 Rreverb(t, f)를 생성한다.
Lreverb(t, f) 및 Rreverb(t, f)는 왼쪽 채널 에너지 조정모듈(214), 오른쪽 채널 에너지 조정모듈(216)에서 성형된다. 그 성형은, BorderL, BorderR이나, (도 4에 나타내는 것과 같은)소정의 주파수 섹션의 경계에서 구분되는 여러 대역에서의 에너지 엔벨로프가, 원음에서의 에너지 엔벨로프와 유사하도록 행해진다. 왼쪽 채널에 대해 설명하면, 게인 계수 GL(l, b)는 대역(l, b)에 대해 이하와 같이 계산된다.
Figure 112006086454074-PCT00012
다음으로, 해당 대역에서의 모든 샘플에 대해 Lreverb(t, f)에 게인 계수를 승산한다. 오른쪽 채널 에너지 조정모듈(216)은 동일한 처리를 오른쪽 채널에 대해 행한다.
Figure 112006086454074-PCT00013
Lreverb(t, f) 및 heverb(t, f)는 인공적인 잔향신호에 불과하기 때문에, 경우에 따라서는, 그들을 그대로 멀티채널 신호로서 이용하는 것이 최적이 되지 않는 일이 있다. 또, 잔향을 어느 정도 줄이기 위해, 파라미터 slope(f, m)를 조정하여 new_s1ope(f, m)에 맞추는데, 이것으로는 올패스 필터의 순서로 정해지는 에코의 주성분을 바꿀 수는 없다. 그래서 본 발명에서는, 에너지 조정을 행하기 전에, 믹싱 모듈인 왼쪽 채널 믹서 2(210) 및 오른쪽 채널 믹서 2(212)에서 Lreverb(t, f) 및 Rreverb(t, f)와, 다운믹스 신호 M(t, f)를 믹싱함으로써, 제어의 폭을 넓히는 옵션을 제공한다. 잔향신호 Lreverb(t, f) 및 Rreverb(t, f)와 다운믹스 신호 M(t, f)의 비율은, ICC(b)에 의해, 예를 들면 다음과 같이 제어할 수 있다.
Figure 112006086454074-PCT00014
ICC(b)는 왼쪽 채널과 오른쪽 채널간의 상관관계를 나타내고 있다. 상기 수식에서는, 상관성이 높을 경우, M(t, f)를 보다 많이 Lreverb(t, f) 및 Rreverb(t, f)에 믹싱한다. 또한, 역의 경우도 동일하다.
모듈(218)은 에너지 조정된 Ladj(t, f) 및 Radj(t, f)을 역변환하여, 시간축에서의 신호를 생성한다. 여기서는 역 QMF 처리를 이용한다. 멀티 스테이지 QMF의 경우, 수 스테이지에 걸쳐 역변환 처리를 행할 필요가 있다.
(실시형태 2)
실시형태 2는, 도 3에 나타내는 에너지 엔벨로프 분석 모듈(104)에 관계한다. 도 2에 나타내는 분할방법의 예에서는, 귀가 가지는 음향 심리학적 특성을 이용할 수 없다. 그래서 본 실시형태에서는, 도 4에 도시하는 바와 같이, 높은 주파수의 소리에 대해서는 감도가 낮다는 귀의 특성을 이용하여, 낮은 주파수에 대해서는 치밀하게 분할을 행하고, 높은 주파수에 대해서는 분할의 정밀도를 낮춘다.
이를 실현하기 위해, L(t, f)의 주파수 대역을 "섹션"(402)으로 더 분할한다. 도 4로서는 섹션 0(402)∼섹션 2(404)까지의 3개의 섹션이 나타나 있다. 고주파수의 섹션은, 예를 들면 최대 1개의 경계밖에 가질 수 없고(404), 이에 의해 해당 주파수 섹션은 2 분할되게 된다. 비트수를 더 절감하기 위해, 가장 고역의 주파수 섹션에서의 분할은 허가하지 않는다. 이 경우, 이 섹션에는 종래 기술에서 이용 되는 유명한 "인텐시티 스테레오"를 이용한다. 분할의 정밀도는, 귀의 감도가 보다 높아지는 저역의 섹션을 향할수록 높아진다.
부정보의 일부가 섹션의 경계가 되어도 되고, 부호화의 비트 레이트에 따라 미리 정해도 된다. 단, 각 섹션의 시간적 경계(406)는, 부정보 BorderL의 일부가 된다.
또, 대상 프레임의 제일 경계가 그 프레임의 시작의 경계일 필요는 없다.
연속하는 2개의 프레임에, 복수의 프레임 경계를 걸치는 동일한 에너지 엔벨로프를 공유시켜도 된다. 이 경우, 이 처리를 가능하게 하기 위해, 2개의 음성 프레임의 버퍼링을 행할 필요가 있다.
(실시형태 3)
비트 레이트가 높은 경우, 잔향신호를 이용하여 멀티채널 신호를 도출하는 것만으로는 고비트 레이트로 기대되는 투명성 레벨을 획득하는데 불충분하다. 이 때문에, 실시형태 3에서는, 성긴 양자화가 행해진 차분신호 Llf(t) 및 Rlf(t)을, 다운믹스 신호와는 별도로 부호화하여 복호화 장치로 보내고, 다운믹스 신호로부터 분리된 음성채널 신호와 원음채널 신호의 어긋남을 복호화 장치에서 보정한다. 도 6은, 실시형태 3의 복호화 장치의 구성을 나타내는 블럭도이다. 동 도면에서, 파선으로 둘러싸 나타내는 부분은, 믹서 1(322, 324)에서의 프리믹싱에 의해 얻어진 프리믹싱채널 신호의 위상을 조정하기 위한 Lreverb, Rreverb를, 잔향 생성기(302)에서 다운믹스 신호로부터 분리하는 신호 분리부이다. 이 복호화 장치는, 전술의 신호 분리부, 변환 모듈(300), 믹서 1(322, 324), 저역통과 필터(320), 믹서 2(310, 312), 에너지 조정기(314, 316) 및 역변환 모듈(318)을 구비한다. 도 6에 나타내는 본 실시형태 3의 복호화 장치에서는, 성긴 양자화를 행한 멀티채널 신호와 저주파수 영역에서의 잔향신호를 믹싱한다. 성긴 양자화가 행해지는 것은, 비트 레이트에 제한이 있기 때문이다.
성긴 양자화가 행해진 Llf(t) 및 Rlf(t)은, QMF 필터뱅크인 변환 모듈(300)에 있어서, 다운믹스 신호 M(t)와 함께 시간-주파수 변환되고, 각각 Llf(t, f) 및 Rlf(t, f)라 표현된다. 저역통과 필터(320)에서 정해지는 어느 일정한 크로스 오버 주파수(fx)에 도달할 때까지, 프리믹싱 모듈인 좌측 믹서 1(322) 및 오른쪽 믹서 1(324)는, 각각 오른쪽 채널 Rlf(t, f) 및 왼쪽 채널 Llf(t, f)을, 다운믹스 신호 M(t, f)에 프리믹싱한다. 이에 의해, 프리믹싱채널 신호 LM(t, f)와 RM(t, f)를 생성한다. 예를 들면, 이하와 같이 하여 프리믹싱을 행한다.
Figure 112006086454074-PCT00015
여기서, ICC(b)는 채널간의 상관을 나타내고 있고, Llf(t, f) 및 Rlf(t, f) 각각과, M(t, f)의 믹싱의 비율을 나타내고 있다. 예를 들면, ICC(b)=1일 때, lCC(b)는 성긴 양자화가 행하여져, 시간-주파수 표현으로 변환된 Llf(t, f) 및 Rlf(t, f) 각각과, M(t, f)가 매우 비슷한 것을 나타내고 있다. 즉, ICC(b)=1일 때에는, M(t, f)만으로, 믹싱채널 신호 LM(t, f)과 RM(t, f)를 충분히 정밀하게 복원할 수 있다.
크로스 오버 주파수(fx)보다 고역의 주파수 영역에 대한 이후의 처리 단계는, 도 4에 나타낸 실시형태 2와 동일한다. Llf(t) 및 Rlf(t)에 대해 성긴 양자화를 행하기 위한 하나의 방법은,
Figure 112006086454074-PCT00016
와 같이 Llf(t) 및 Rlf(t)에 대해 차분신호를 계산하고, 음향 심리학 모듈에 따라 결정되는 fx까지의 주요한 주파수 성분만을 부호화하는 것이다. 비트 레이트를 더 낮게 행하기 위해, 소정의 양자화 단계를 채용할 수 있다. 또, 상기의 수식 15에서는, 차분 신호로서 Llf(t)=L(t)-M(t), Rlf(t)=R(t)-M(t)를 계산하였지만, 본 발명은 이에 한정되지 않는다. 예를 들면, 상기 수식 15의 M(t) 대신에, 분리후의 각 채널 신호를 감산하는 것으로 해도 된다. 즉, Llf(t)=L(t)-Lreverb(t), Rlf(t)=R(t)-Rreverb(t)을 산출하고, 분리후의 각 채널 신호에 Llf(t), Rlf(t)를 가산하여, 신호의 어긋남을 보정하는 것으로 해도 된다.
저역통과 필터(320) 및 고역통과 필터(326)가 이용하는 크로스 오버 주파수(fx)는 비트 레이트의 함수이다. 비트 레이트가 매우 낮다는 극단적인 케이스에서는, Llf(t) 및 Rlf(t)을 양자화하기 위한 비트수가 불충분하기 때문에, 믹싱을 행할 수 없다. 예를 들면, fx가 제로라는 케이스이다. 실시형태 3에서는, fx보다 고역에 대해서만 바이노럴 큐 부호화를 행한다.
도 7은, 본 실시형태 3의 부호화 장치와 복호화 장치로 이루어지는 부호화 시스템의 구성을 나타내는 블럭도이다. 실시형태 3의 부호화 시스템은, 부호화측에 다운믹스부(410), AAC 인코더(411), 바이노럴 큐 인코더(412), 및 제2 인코더(413)를 구비하고, 복호화측에 AAC 디코더(414), 프리 믹스부(415), 신호 분리부(416) 및 믹싱부(417)를 구비한다. 신호 분리부(416)는, 채널 분리부(418) 및 위상 조정부(419)를 구비한다.
다운믹스부(410)는, 예를 들면, 도 1에 나타낸 다운믹스부(102)와 동일한다. 예를 들면, 다운믹스부(410)는, M(t)=(L(t)+R(t))/2으로 나타나는 다운믹스 신호를 생성한다. 이렇게 생성된 다운믹스 신호 M(t)는, AAC 인코더(411)에서, MDCT(Modified Descrete Cosine Transform) 변환되고, 서브밴드마다 양자화되어, 가변장 부호화되어 부호화 비트 스트림에 내장된다.
바이노럴 큐 인코더(412)는, 음성채널 L(t), R(t) 및 M(t)를, 일단 QMF에 의해 시간-주파수 표현으로 변환한 후, 각각의 채널 신호를 비교하여 바이노럴 큐를 산출한다. 바이노럴 큐 인코더(412)는, 산출한 바이노럴 큐를 부호화하여 부호열에 다중화한다.
또한, 제2 인코더(413)는, 예를 들면, 수식 15에 나타낸 바와 같은 오른쪽 채널 신호R(t) 및 왼쪽 채널 신호 L(t)의 각각과, 다운믹스 신호M(t)의 차분신호 Llf(t) 및 Rlf(t)을 산출하고, 성기게 양자화하여, 부호화한다. 제2 인코더(413)는, 반드시 AAC 인코더(411)와 같은 부호화 형식으로 부호화를 행할 필요는 없다.
AAC 디코더(414)는, AAC 방식으로 부호화된 다운믹스 신호를 복호화한 후, 복호화된 다운믹스 신호를, QMF에 의해 시간-주파수 표현 M(t, f)으로 변환한다.
신호 분리부(416)는, 채널 분리부(418)와 위상 조정부(419)를 구비한다. 채널 분리부(418)는, 바이노럴 큐 인코더(412)에 의해 부호화된 바이노럴 큐 파라미터와, 제2 인코더(413)에 의해 부호화된 차분신호 Llf(t), Rlf(t)를 복호화한 후, 차분신호 Llf(t), Rlt(t)를 시간-주파수 표현으로 변환한다. 그 후, 채널 분리부(418)는, 예를 들면, ICC(b)에 따라, AAC 디코더(414)의 출력인 다운믹스 신호 M(t, f)와, 시간-주파수 표현으로 변환된 차분신호 Llf(t, f), Rlf(t, f)를 프리믹싱하고, 이에 의해 생성된 프리믹싱채널 신호(LM, RM)를 믹싱부(417)에 출력한다.
위상 조정부(419)는, 다운믹스 신호 M(t, f)에 대해 필요한 잔향성분의 생성부가를 행한 후, 그 위상을 조정하여, 위상조정 신호 Lrev와 Rrev로서 믹싱부(417)에 출력한다.
믹싱부(417)는, 왼쪽 채널에 대해서는, 프리믹싱채널 신호(LM)와, 위상조정 신호(Lrev)를 믹싱하여, 얻어진 믹싱신호를 역 QMF하고, 시간의 함수로 나타나는 출력신호 L"를 출력한다. 또한, 오른쪽 채널에 대해서는, 프리믹싱채널 신호(RM)와, 위상조정 신호(Rrev)를 믹싱하여, 얻어진 믹싱신호를 역 QMF하고, 시간의 함수로 나타나는 출력신호 R"를 출력한다.
또, 상기 도 7에 나타낸 부호화 시스템에서도, 좌우의 차분신호 Llf(t), Rlf(t)를, 원음의 음성채널 신호 L(t), R(t)와, 위상조정에 의해 얻어지는 출력신호 Lrev(t), Rrev(t)의 차분으로 해도 된다. 즉, Llf(t)=L(t)-Lrev(t), Rlf(t)=R(t)-Rrev(t)으로 해도 된다.
본 발명은 홈시어터 시스템, 카오디오 시스템, 전자게임 시스템 등에 적용 가능하다.

Claims (22)

  1. 복수의 음성채널 신호를 다운믹스하여 얻어지는 다운믹스채널 신호로부터, 복수의 상기 음성채널 신호를 복호화하는 음성신호 복호화 장치로서,
    다운믹스채널 신호를, 주파수축을 따라 분할된 복수의 대역에서의 시간-주파수 표현으로 변환하는 다운믹스 신호 변환수단과,
    저비트량으로 양자화된 음성채널 신호를 상기 시간-주파수 표현으로 변환하는 음성채널 신호 변환수단과,
    변환후의 상기 다운믹스채널 신호와, 변환후의 상기 음성채널 신호를, 상기 대역마다 프리믹싱함으로써 프리믹싱채널 신호를 생성하는 프리믹싱 수단과,
    음성채널 신호간의 공간적 특징을 나타내는 공간음성 정보에 의거하여 소정의 처리가 실시된 상기 다운믹스채널 신호와, 생성된 상기 프리믹싱채널 신호를 상기 대역마다 믹싱함으로써, 믹싱채널 신호를 생성하는 믹싱수단과,
    상기 믹싱채널 신호를, 복수의 상기 음성채널 신호로 변환하는 믹싱채널 신호 변환수단을 구비하는 것을 특징으로 하는 음성신호 복호화 장치.
  2. 청구항 1에 있어서,
    상기 공간음성 정보는, 시간축 방향으로의 경계와, 주파수 방향으로의 경계에 의해 구분된 영역에 대해, 각각 주어지는 것을 특징으로 하는 음성신호 복호화 장치.
  3. 청구항 2에 있어서,
    상기 시간방향으로의 경계의 수는, 주파수 방향으로 설정된 섹션마다 다른 것을 특징으로 하는 음성신호 복호화 장치.
  4. 청구항 1에 있어서,
    상기 공간음성 정보는 채널간의 간섭성을 나타내는 성분을 더 포함하고, 상기 믹싱수단은, 상기 채널간의 간섭성을 나타내는 성분에 의해서 나타나는 비율로 믹싱하는 것을 특징으로 하는 음성신호 복호화 장치.
  5. 청구항 4에 있어서,
    상기 공간음성 정보에 의거하는 소정의 처리는, 다운믹스 신호에 대해 잔향성분을 생성 부가하는 처리를 포함하고,
    잔향성분을 생성하는 상기 처리는, 상기 채널간의 간섭성을 나타내는 성분에 의해 제어되는 것을 특징으로 하는 음성신호 복호화 장치.
  6. 청구항 1에 있어서,
    모든 주파수 대역에 대해, 상기 믹싱채널 신호의 게인 계수를 도출하기 위해, 상기 믹싱채널 신호의 에너지를 산출하고, 해당 게인 계수를 상기 주파수 대역에서의 믹싱신호에 승산하는 것을 특징으로 하는 음성신호 복호화 장치.
  7. 청구항 1에 있어서,
    상기 음성채널 신호는, 어느 일정한 상한 주파수까지, 낮은 비트량으로 양자화된 후, 부호화되어 있는 것을 특징으로 음성신호 복호화 장치.
  8. 청구항 4에 있어서,
    상기 상한 주파수는, 부호화의 비트 레이트에 맞춰 결정되어 있는 것을 특징으로 하는 음성신호 복호화 장치.
  9. 청구항 1에 있어서,
    상기 프리믹싱은, 상기 상한 주파수까지의 시간-주파수 신호에 대해 행하는 것을 특징으로 하는 음성신호 복호화 장치.
  10. 청구항 1에 있어서,
    상기 믹싱은, 상기 상한 주파수보다 고역의 시간-주파수 신호에 대해 행하는 것을 특징으로 하는 음성신호 복호화 장치.
  11. 청구항 1에 있어서,
    상기 다운믹스 신호 변환수단 및 음성채널 신호 변환수단은, QMF 수단이고, 상기 믹싱채널 신호 변환수단은, 역 QMF 수단인 것을 특징으로 하는 음성신호 복호 화 장치.
  12. 복수의 음성채널 신호를 상기 음성채널 신호간의 공간적 특징을 나타내는 공간음성 정보와 함께 부호화하는 음성신호 부호화 장치로서,
    복수의 상기 음성채널 신호를 다운믹스함으로써, 다운믹스채널 신호를 생성하는 다운믹스 수단과,
    복수의 상기 음성채널 신호와, 생성된 상기 다운믹스채널 신호를, 주파수축을 따라 분할된 복수의 대역에서의 시간-주파수 표현으로 변환하는 신호 변환수단과,
    소정의 시간-주파수 영역마다, 복수의 상기 음성채널 신호를 비교하여, 상기 공간음성 정보를 산출하는 공간음성 정보산출 수단과,
    상기 다운믹스채널 신호와 상기 공간음성 정보를 부호화하는 제1 부호화 수단과,
    복수의 상기 음성채널 신호를 저비트량으로 양자화한 후, 부호화하는 제2 부호화 수단을 구비하는 것을 특징으로 하는 음성신호 부호화 장치.
  13. 청구항 12에 있어서,
    상기 시간-주파수 영역의 시간 경계는, 상기 음성채널 신호 및 상기 다운믹스 채널 중 어느 것인가의 신호의 에너지로, 급격한 변화가 생기는 시간적 위치에 배치되는 것을 특징으로 하는 음성신호 부호화 장치.
  14. 청구항 12에 있어서,
    상기 공간음성 정보는, 상기 시간 경계와 상기 주파수의 경계에 의해 구분되는 영역마다 산출되는 것을 특징으로 하는 음성신호 부호화 장치.
  15. 청구항 12에 있어서,
    상기 공간음성 정보 중, 소리가 양 귀에 닿기까지의 시간차를 나타내는 성분은, 각 음성채널의 대역마다 산출되는 것을 특징으로 하는 음성신호 부호화 장치.
  16. 청구항 12에 있어서,
    상기 공간음성 정보 중, 상기 음성채널 신호간의 간섭성을 나타내는 성분은, 상기 복수의 음성채널 신호의 상관성으로서 산출되는 것을 특징으로 하는 음성신호 부호화 장치.
  17. 복수의 음성채널 신호를 다운믹스하여 얻어지는 다운믹스채널 신호로부터, 복수의 상기 음성채널 신호를 복호화하는 음성신호 복호화 방법으로서,
    다운믹스채널 신호를, 주파수축을 따라 분할된 복수의 대역에서의 시간-주파수 표현으로 변환하고,
    저비트량으로 양자화된 음성채널 신호를 상기 시간-주파수 표현으로 변환하고,
    변환후의 상기 다운믹스채널 신호와, 변환후의 상기 음성채널 신호를, 상기 대역마다 프리믹싱함으로써 프리믹싱채널 신호를 생성하고,
    음성채널 신호간의 공간적 특징을 나타내는 공간음성 정보에 의거하여 소정의 처리가 실시된 상기 다운믹스채널 신호와, 생성된 상기 프리믹싱채널 신호를 상기 대역마다 믹싱함으로써, 믹싱채널 신호를 생성하고,
    상기 믹싱채널 신호를, 복수의 상기 음성채널 신호로 변환하는 것을 특징으로 하는 음성신호 복호화 방법.
  18. 복수의 음성채널 신호를 상기 음성채널 신호간의 공간적 특징을 나타내는 공간음성 정보와 함께 부호화하는 음성신호 부호화 방법으로서,
    복수의 상기 음성채널 신호를 다운믹스함으로써, 다운믹스채널 신호를 생성하고,
    복수의 상기 음성채널 신호와, 생성된 상기 다운믹스채널 신호를, 주파수축을 따라 분할된 복수의 대역에서의 시간-주파수 표현으로 변환하고,
    소정의 시간-주파수 영역마다, 복수의 상기 음성채널 신호를 비교하여, 상기 공간음성 정보를 산출하고,
    상기 다운믹스채널 신호와 상기 공간음성 정보를 부호화하고,
    복수의 상기 음성채널 신호를 저비트량으로 양자화한 후, 부호화하는 것을 특징으로 하는 음성신호 부호화 방법.
  19. 복수의 음성채널 신호를 다운믹스하여 얻어지는 다운믹스채널 신호로부터, 복수의 상기 음성채널 신호를 복호화하는 음성신호 복호화 장치를 위한 프로그램으로서,
    다운믹스채널 신호를, 주파수축을 따라 분할된 복수의 대역에서의 시간-주파수 표현으로 변환하는 단계와, 저비트량으로 양자화된 음성채널 신호를 상기 시간-주파수 표현으로 변환하는 단계와, 변환후의 상기 다운믹스채널 신호와, 변환후의 상기 음성채널 신호를, 상기 대역마다 프리믹싱함으로써 프리믹싱채널 신호를 생성하는 단계와, 음성채널 신호간의 공간적 특징을 나타내는 공간음성 정보에 의거하여 소정의 처리가 실시된 상기 다운믹스채널 신호와, 생성된 상기 프리믹싱채널 신호를 상기 대역마다 믹싱함으로써, 믹싱채널 신호를 생성하는 단계와, 상기 믹싱채널 신호를, 복수의 상기 음성채널 신호로 변환하는 단계를 컴퓨터에 실행시키는 프로그램.
  20. 복수의 음성채널 신호를 상기 음성채널 신호간의 공간적 특징을 나타내는 공간음성 정보와 함께 부호화하는 음성신호 부호화 장치를 위한 프로그램으로서,
    복수의 상기 음성채널 신호를 다운믹스함으로써, 다운믹스채널 신호를 생성하는 단계와, 복수의 상기 음성채널 신호와, 생성된 상기 다운믹스채널 신호를, 주파수축을 따라 분할된 복수의 대역에서의 시간-주파수 표현으로 변환하는 단계와, 소정의 시간-주파수 영역마다, 복수의 상기 음성채널 신호를 비교하여, 상기 공간음성 정보를 산출하는 단계와, 상기 다운믹스채널 신호와 상기 공간음성 정보를 부 호화하는 단계와, 복수의 상기 음성채널 신호를 저비트량으로 양자화한 후, 부호화하는 단계를 컴퓨터에 실행시키는 프로그램.
  21. 다운믹스채널 신호를, 주파수축을 따라 분할된 복수의 대역에서의 시간-주파수 표현으로 변환하는 단계와, 저비트량으로 양자화된 음성채널 신호를 상기 시간-주파수 표현으로 변환하는 단계와, 변환후의 상기 다운믹스채널 신호와, 변환후의 상기 음성채널 신호를, 상기 대역마다 프리믹싱함으로써 프리믹싱채널 신호를 생성하는 단계와, 음성채널 신호간의 공간적 특징을 나타내는 공간음성 정보에 의거하여 소정의 처리가 실시된 상기 다운믹스채널 신호와, 생성된 상기 프리믹싱채널 신호를 상기 대역마다 믹싱함으로써, 믹싱채널 신호를 생성하는 단계와, 상기 믹싱채널 신호를, 복수의 상기 음성채널 신호로 변환하는 단계를 컴퓨터에 실행시키는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
  22. 복수의 상기 음성채널 신호를 다운믹스함으로써, 다운믹스채널 신호를 생성하는 단계와, 복수의 상기 음성채널 신호와, 생성된 상기 다운믹스채널 신호를, 주파수축을 따라 분할된 복수의 대역에서의 시간-주파수 표현으로 변환하는 단계와, 소정의 시간-주파수 영역마다, 복수의 상기 음성채널 신호를 비교하여, 상기 공간음성 정보를 산출하는 단계와, 상기 다운믹스채널 신호와 상기 공간음성 정보를 부호화하는 단계와, 복수의 상기 음성채널 신호를 저비트량으로 양자화한 후, 부호화하는 단계를 컴퓨터에 실행시키는 프로그램이 기록된 컴퓨터 판독 가능한 기록매 체.
KR1020067024727A 2004-07-02 2005-06-28 음성신호 복호화 장치 및 음성신호 부호화 장치 KR101120911B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2004-00197336 2004-07-02
JP2004197336 2004-07-02
PCT/JP2005/011842 WO2006003891A1 (ja) 2004-07-02 2005-06-28 音声信号復号化装置及び音声信号符号化装置

Publications (2)

Publication Number Publication Date
KR20070030796A true KR20070030796A (ko) 2007-03-16
KR101120911B1 KR101120911B1 (ko) 2012-02-27

Family

ID=35782698

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067024727A KR101120911B1 (ko) 2004-07-02 2005-06-28 음성신호 복호화 장치 및 음성신호 부호화 장치

Country Status (7)

Country Link
US (1) US7756713B2 (ko)
EP (1) EP1768107B1 (ko)
JP (1) JP4934427B2 (ko)
KR (1) KR101120911B1 (ko)
CN (1) CN1981326B (ko)
CA (1) CA2572805C (ko)
WO (1) WO2006003891A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015012594A1 (ko) * 2013-07-23 2015-01-29 한국전자통신연구원 잔향 신호를 이용한 다채널 오디오 신호의 디코딩 방법 및 디코더

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090052681A1 (en) * 2004-10-15 2009-02-26 Koninklijke Philips Electronics, N.V. System and a method of processing audio data, a program element, and a computer-readable medium
US8768691B2 (en) * 2005-03-25 2014-07-01 Panasonic Corporation Sound encoding device and sound encoding method
JP5227794B2 (ja) 2005-06-30 2013-07-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
US8073702B2 (en) 2005-06-30 2011-12-06 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8019614B2 (en) * 2005-09-02 2011-09-13 Panasonic Corporation Energy shaping apparatus and energy shaping method
RU2419249C2 (ru) * 2005-09-13 2011-05-20 Кониклейке Филипс Электроникс Н.В. Аудиокодирование
WO2008016097A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
RU2551797C2 (ru) 2006-09-29 2015-05-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
EP2575130A1 (en) 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
JP2010516077A (ja) * 2007-01-05 2010-05-13 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
JP5524237B2 (ja) 2008-12-19 2014-06-18 ドルビー インターナショナル アーベー 空間キューパラメータを用いてマルチチャンネルオーディオ信号に反響を適用する方法と装置
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
WO2011048792A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 音響信号処理装置、音響符号化装置および音響復号装置
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
EP2609591B1 (en) * 2010-08-25 2016-06-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating a decorrelated signal using transmitted phase information
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
KR101756838B1 (ko) * 2010-10-13 2017-07-11 삼성전자주식회사 다채널 오디오 신호를 다운 믹스하는 방법 및 장치
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
TWI462087B (zh) 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
CN102446507B (zh) * 2011-09-27 2013-04-17 华为技术有限公司 一种下混信号生成、还原的方法和装置
US9161149B2 (en) 2012-05-24 2015-10-13 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
JP2014074782A (ja) * 2012-10-03 2014-04-24 Sony Corp 音声送信装置、音声送信方法、音声受信装置および音声受信方法
WO2014058138A1 (ko) * 2012-10-12 2014-04-17 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
KR20140047509A (ko) 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN117012210A (zh) * 2013-05-24 2023-11-07 杜比国际公司 对音频场景进行解码的方法、装置及计算机可读介质
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
EP2840811A1 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
US10204630B2 (en) 2013-10-22 2019-02-12 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
CN104768121A (zh) * 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US10109284B2 (en) 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
CN108269577B (zh) * 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器
CN108665902B (zh) * 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
CN108694955B (zh) * 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
AU2020291190B2 (en) 2019-06-14 2023-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Parameter encoding and decoding

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5343171A (en) 1992-09-28 1994-08-30 Kabushiki Kaish Toshiba Circuit for improving carrier rejection in a balanced modulator
US5640385A (en) 1994-01-04 1997-06-17 Motorola, Inc. Method and apparatus for simultaneous wideband and narrowband wireless communication
JPH09102742A (ja) * 1995-10-05 1997-04-15 Sony Corp 符号化方法および装置、復号化方法および装置、並びに記録媒体
JPH09102472A (ja) * 1995-10-06 1997-04-15 Matsushita Electric Ind Co Ltd 誘電体素子の製造方法
US6252965B1 (en) * 1996-09-19 2001-06-26 Terry D. Beard Multichannel spectral mapping audio apparatus and method
DE19721487A1 (de) * 1997-05-23 1998-11-26 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Fehlerverschleierung bei Mehrkanaltonsignalen
JP3352406B2 (ja) * 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置
US6985594B1 (en) 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US8340302B2 (en) * 2002-04-22 2012-12-25 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
EP1500083B1 (en) 2002-04-22 2006-06-28 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
ES2280736T3 (es) * 2002-04-22 2007-09-16 Koninklijke Philips Electronics N.V. Sintetizacion de señal.
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015012594A1 (ko) * 2013-07-23 2015-01-29 한국전자통신연구원 잔향 신호를 이용한 다채널 오디오 신호의 디코딩 방법 및 디코더

Also Published As

Publication number Publication date
KR101120911B1 (ko) 2012-02-27
WO2006003891A1 (ja) 2006-01-12
CN1981326B (zh) 2011-05-04
EP1768107A4 (en) 2009-10-21
CA2572805C (en) 2013-08-13
US7756713B2 (en) 2010-07-13
EP1768107B1 (en) 2016-03-09
US20080071549A1 (en) 2008-03-20
JP4934427B2 (ja) 2012-05-16
CN1981326A (zh) 2007-06-13
EP1768107A1 (en) 2007-03-28
CA2572805A1 (en) 2006-01-12
JPWO2006003891A1 (ja) 2008-04-17

Similar Documents

Publication Publication Date Title
KR101120911B1 (ko) 음성신호 복호화 장치 및 음성신호 부호화 장치
KR101278546B1 (ko) 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법
US20190198029A1 (en) Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
EP2056294B1 (en) Apparatus, Medium and Method to Encode and Decode High Frequency Signal
RU2345506C2 (ru) Многоканальный синтезатор и способ для формирования многоканального выходного сигнала
US9064500B2 (en) Speech decoding system with temporal envelop shaping and high-band generation
US8019087B2 (en) Stereo signal generating apparatus and stereo signal generating method
US8417515B2 (en) Encoding device, decoding device, and method thereof
US10255928B2 (en) Apparatus, medium and method to encode and decode high frequency signal
US8200351B2 (en) Low power downmix energy equalization in parametric stereo encoders
KR102055022B1 (ko) 부호화 장치 및 방법, 복호 장치 및 방법, 및 프로그램
US8352249B2 (en) Encoding device, decoding device, and method thereof
CN102656628B (zh) 优化的低吞吐量参数编码/解码
WO2006075563A1 (ja) オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
KR20100086000A (ko) 오디오 신호 처리 방법 및 장치
US20110282674A1 (en) Multichannel audio coding
JPH1011094A (ja) 広帯域音声符号化装置及び音声復号装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150105

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151217

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161220

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171219

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20181219

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20191219

Year of fee payment: 9