KR20110100237A - 다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치 - Google Patents

다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20110100237A
KR20110100237A KR1020117014850A KR20117014850A KR20110100237A KR 20110100237 A KR20110100237 A KR 20110100237A KR 1020117014850 A KR1020117014850 A KR 1020117014850A KR 20117014850 A KR20117014850 A KR 20117014850A KR 20110100237 A KR20110100237 A KR 20110100237A
Authority
KR
South Korea
Prior art keywords
audio signal
gain
signal
vector
multichannel
Prior art date
Application number
KR1020117014850A
Other languages
English (en)
Other versions
KR101180202B1 (ko
Inventor
제임스 피. 애슐리
우다르 미탈
Original Assignee
모토로라 모빌리티, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 모빌리티, 인크. filed Critical 모토로라 모빌리티, 인크.
Publication of KR20110100237A publication Critical patent/KR20110100237A/ko
Application granted granted Critical
Publication of KR101180202B1 publication Critical patent/KR101180202B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

동작 중에, 다중채널 오디오 입력 신호가 수신되고 코딩되어 코딩된 오디오 신호를 생성한다. 각각이 다중채널 오디오 신호의 오디오 신호와 연관된 균형 인자 성분들을 가진 균형 인자가 생성된다. 균형 인자와 다중채널 오디오 신호에 기초하여 다중채널 오디오 신호의 추정치를 생성하기 위하여 코딩된 오디오 신호에 적용될 이득값이 결정되며, 이 이득값은 다중채널 오디오 신호와 다중채널 오디오 신호의 추정치 간의 왜곡값을 최소화하도록 구성된다. 이 이득값의 표현은 전송 및/또는 저장을 위해 출력될 수 있다.

Description

다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치{METHOD AND APPARATUS FOR GENERATING AN ENHANCEMENT LAYER WITHIN A MULTIPLE-CHANNEL AUDIO CODING SYSTEM}
본 발명은 일반적으로 통신 시스템에 관한 것으로, 특히 통신 시스템에서 음성과 오디오 신호를 코딩하는 기술에 관한 것이다.
디지털 음성 및 오디오 신호의 압축은 잘 알려져 있다. 압축은 일반적으로 통신 채널을 통해 신호를 효율적으로 전송하거나 고상(solid-state) 메모리 장치나 컴퓨터 하드디스크와 같은 디지털 매체 장치에 압축 신호를 저장하는데 필수적이다. 압축(또는 "코딩") 기법은 많이 있지만 "분석-합성(analysis-by-synthesis)" 코딩 알고리즘계의 하나인 CELP(Code Excited Linear Prediction)는 디지털 음성 코딩에 널리 이용되어 왔다. 분석-합성 코딩 알고리즘은 일반적으로 디지털 모델의 복수 파라미터를 이용하여, 입력 신호와 비교되어 왜곡에 대해 분석되는 후보 신호 세트를 합성하는 코딩 프로세스를 말한다. 그러면 왜곡을 가장 적게 하는 파라미터 세트가 전송 또는 저장되고, 최종적으로는 원 입력 신호의 추정치를 재구성하는데 이용된다. CELP는 코드북 인덱스에 따라서 검색되는 코드 벡터 세트를 포함하는 하나 이상의 코드북을 이용하는 특수한 분석-합성법이다.
현재의 CELP 코더에서는 적당하게 낮은 데이터 레이트에서 고품질의 음성과 오디오 재생을 유지하는데 있어 문제가 있다. 이 문제는 특히 CELP 음성 모델과 잘 맞지 않는 음악이나 기타 다른 일반적인 오디오 신호에 대해서 두드러진다. 이 경우에 그러한 모델 미스매치는 그러한 방법을 채용하는 장비의 최종 수요자가 받아들일 수 없는 정도로 오디오 품질을 심각하게 저하시킬 수 있다. 그러므로 낮은 비트 레이트에서의 CELP 타입 음성 코더 성능을 특히 음악이나 기타 다른 비음성식 입력에 대해서 개선할 필요가 있다.
본 출원은 이 출원과 함께 Motorola사가 소유하는 동일자로 출원된 하기 미국 특허출원들과 관련있다. 미국 특허출원 제12/345,141호[발명의 명칭: SELECTIVE SCALING MASK COMPUTATION BASED ON PEAK DETECTION"](Atty. Docket No. CS36251AUD); 미국 특허출원 제12/345,117호[발명의 명칭: METHOD AND APPARATUS FOR GENERATING AN ENHANCEMENT LAYER WITHIN A MULTIPLE-CHANNEL AUDIO CODING SYSTEM"](Atty. Docket No. CS36627AUD); 및 미국 특허출원 제12/345,096호[발명의 명칭: SELECTIVE SCALING MASK COMPUTATION BASED ON PEAK DETECTION"](Atty. Docket No. CS36655AUD)
첨부 도면은 본 발명을 포함하는 개념의 여러 가지 실시예를 구체적으로 예시하고 이러한 실시예의 여러 가지 원리와 이점들을 설명하기 위하여 제공되는 것으로, 도면에서 동일 또는 기능적으로 유사한 구성요소에 대해서는 동일 도면부호를 병기하고, 본 도면은 하기의 상세한 설명과 더불어 명세서에 포함되어 그 일부를 구성한다.
도 1은 종래의 임베디드 음성/오디오 압축 시스템의 블록도.
도 2는 도 1의 인핸스먼트 레이어 인코더의 더 구체적 예를 도시한 도.
도 3은 도 1의 인핸스먼트 레이어 인코더의 더 구체적 예를 도시한 도.
도 4는 인핸스먼트 레이어 인코더와 디코더의 블록도.
도 5는 멀티레이어 임베디드 코딩 시스템의 블록도.
도 6은 레이어-4 인코더 및 디코더의 블록도.
도 7은 도 4와 도 6의 인코더의 동작을 보여주는 플로우차트.
도 8은 종래의 임베디드 음성/오디오 압축 시스템의 블록도.
도 9는 도 8의 인핸스먼트 레이어 인코더의 더 구체적 예를 도시한 도.
도 10은 여러 가지 실시예에 따른 인핸스먼트 레이어 인코더 및 디코더의 블록도.
도 11은 여러 가지 실시예에 따른 인핸스먼트 레이어 인코더 및 디코더의 블록도.
도 12는 여러 가지 실시예에 따른 다중채널 오디오 신호 인코딩의 플로우차트.
도 13은 여러 가지 실시예에 따른 다중채널 오디오 신호 인코딩의 플로우차트.
도 14는 여러 가지 실시예에 따른 다중채널 오디오 신호의 디코딩의 플로우차트.
도 15는 여러 가지 실시예에 따른 마스크 생성에 기초한 피크 검출의 주파수 플롯.
도 16은 여러 가지 실시예에 따른 피크 마스크 생성을 이용한 코어 레이어 스케일링의 주파수 플롯.
도 17 내지 19는 여러 가지 실시예에 따른 피크 검출에 기초한 마스크 생성을 이용한 인코딩 및 디코딩 방법을 설명하는 흐름도.
당업자라면 도면에서의 구성요소들은 간략하고 명료하게 하기 위해 예시된 것이며 반드시 일정 비율에 따라 그려진 것이 아님을 잘 알 것이다. 예컨대 도면에서 일부 구성요소는 여러 가지 실시예의 이해에 도움이 되도록 다른 구성요소보다 더 크게 그려져 있을 수 있다. 그 외에도 상세한 설명과 도면은 반드시 예시된 순서를 요하는 것은 아니다. 더욱이 특정 동작 및/또는 단계들은 특정 생성 순서로 설명 또는 도시되어 있을 수 있지만 당업자라면 순서에 대한 그러한 특정이 실제로 요구되는 것은 아님을 잘 알 것이다. 장치와 방법 구성성분들을 적당한 곳에서 관례적인 기호를 이용하여 나타내었지만, 이는 여기서 설명되는 설명의 이익을 받는 당업자에게 명백할 세부 사항의 내용을 모호하게 하지 않도록 여러 가지 실시예를 이해하는데 적절한 특정 세부 사항만을 보여주는 것이다. 따라서 설명을 간략하고 명료하게 하기 위해 상업적으로 가능한 실시예에서 유용하거나 필요한 일반적이고 잘 이해하는 구성요소는 이들 여러 가지 실시예의 도면을 잘 볼 수 있도록 도시하지 않을 수 있다.
전술한 필요를 충족하기 위해 여기서는 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하는 방법 및 장치가 기술된다. 동작 중에, 코딩될 입력 신호가 수신되고 코딩되어 코딩된 오디오 신호를 생성한다. 그러면, 코딩된 오디오 신호는 복수의 이득값을 가지고 스케일링되어 각각이 관련 이득값을 가진 복수의 스케일링된 코딩된 오디오 신호를 생성하고, 입력 신호와 복수의 스케일링된 코딩된 오디오 신호 각각 간에 존재하는 복수의 에러값이 결정된다. 그러면, 입력 신호와 그 스케일링된 코딩된 오디오 신호 간에 존재하는 낮은 에러값을 주는 스케일링된 코딩된 오디오 신호와 연관된 이득값이 선택된다. 마지막으로 이 낮은 에러값은 코딩된 오디오 신호에 대한 인핸스먼트 레이어의 일부로서 이득값과 함께 전송된다.
도 1은 종래의 임베디드(embedded) 음성/오디오 압축 시스템을 보여준다. 먼저 입력 오디오 s(n)가 코어 레이어 인코더(120)에 의해 처리되는데, 이를 위해 CELP 타입 음성 코딩 알고리즘이 이용될 수 있다. 인코딩된 비트 스트림은 채널(125)에 전송됨과 동시에 로컬 코어 레이어 디코더(115)에 입력되며, 재구성된 코어 오디오 신호 sc(n)가 생성된다. 그런 다음에 인핸스먼트 레이어 인코더(120)는 신호들 s(n)과 sc(n)의 비교에 기초하여 부가 정보를 코딩하기 위해 이용되고, 코어 레이어 디코더(115)로부터의 파라미터를 선택적으로 이용할 수 있다. 코어 레이어 디코더(115)에서처럼 코어 레이어 디코더(130)는 코어 레이어 비트 스트림 파라미터를 코어 레이어 오디오 신호
Figure pct00001
로 변환한다. 그러면 인핸스먼트 레이어 디코더(135)는 채널(125)로부터의 인핸스먼트 레이어 비트 스트림과 이 신호
Figure pct00002
를 이용하여 소정의 증강된 오디오 출력 신호
Figure pct00003
을 생성한다.
이러한 임베디드 코딩 시스템의 주요 이점은 특정 채널(125)이 고품질 오디오 코딩 알고리즘과 연관된 대역폭 요건을 지속적으로 지원할 수 없어도 된다는 것이다. 그러나 임베디드 코더는 채널(125)로부터 부분적 비트 스트림(예컨대 코어 레이어 비트 스트림만)을 수신하여, 예컨대 인핸스먼트 레이어 비트 스트림이 분실되거나 훼손된 경우에 코어 출력 오디오만을 생성할 수 있다. 그러나 임베디드 코더와 논임베디드(non-embedded) 코더 간, 그리고 서로 다른 임베디드 코딩 최적화 객체(objective)들 간에는 품질의 트레이드오프(tradeoff)가 있다. 즉, 인핸스먼트 레이어 코딩의 품질이 높을수록 코어 레이어와 인핸스먼트 레이어 간의 균형을 더 잘 유지할 수 있고, 또 전송 특성을 더 좋게 하기 위해 총 데이터 레이트를 줄여(예컨대 혼잡도 감소) 인핸스먼트 레이어의 패킷 에러율을 더 낮출 수가 있다.
도 2는 종래의 인핸스먼트 레이어 인코더(120)의 더 구체적 예를 보여준다. 여기서 에러 신호 생성기(210)는 에러 신호 인코더(220)에 의한 처리를 위해 MDCT(Modified Discrete Cosine Transform) 도메인으로 변환되는 가중 차분 신호로 구성된다. 에러 신호 E는 다음과 같이 주어진다.
Figure pct00004
W는 코어 레이어 디코더(115)로부터의 LP(Linear Prediction) 필터 계수 A(z)에 기초한 인지 가중 행렬(perceptual weighting matrix), s는 입력 오디오 신호 s(n)로부터의 샘플의 벡터(즉, 프레임), s c 는 코어 레이어 디코더(115)로부터의 샘플의 대응 벡터이다. 예시적인 MDCT 프로세스는 ITU-T 권고안 G.729.1에 기재되어 있다. 그러면 에러 신호 E는 에러 신호 인코더(220)에 의해 처리되어 코드워드 iE를 생성하고, 이어서 이 신호는 채널(125)에 전송된다. 이 예에서 에러 신호 인코더(120)에는 단 하나의 에러 신호 E만 제시되고 하나의 코드워드 iE만 출력함에 유의하는 것이 중요하다. 그 이유는 뒤에 명백히 드러날 것이다.
그 다음, 인핸스먼트 레이어 디코더(135)가 채널(125)로부터 상기 인코딩된 비트 스트림을 수신하여 이를 적당히 디멀티플렉싱하여 코드워드 iE를 생성한다. 에러 신호 디코더(230)는 코드워드 iE를 이용하여 인핸스먼트 레이어 에러 신호
Figure pct00005
를 재구성하며, 그러면 이 재구성된 에러 신호는 신호 조합기(240)에 의해 코어 레이어 출력 오디오 신호
Figure pct00006
과 다음과 같이 조합되어 상기 증강된 오디오 출력 신호
Figure pct00007
을 생성한다.
Figure pct00008
이 식에서 MDCT-1은 (중첩-가산(overlap-add)을 포함한) 역 MDCT이고, W-1은 역 인지 가중 행렬이다.
도 3은 인핸스먼트 레이어 인코더의 다른 예를 보여준다. 여기서 에러 신호 생성기(315)에 의한 에러 신호 E의 생성은 코어 오디오 출력 sc(n)에 대한 약간의 변형이 행해지는 적응성 프리스케일링(pre-scaling)과 관련된다. 이 프로세스의 결과로서, 인핸스먼트 레이어 인코더(120)에서 코드워드 is로서 보이는 소정 수의 비트가 생성된다.
그 외에도, 인핸스먼트 레이어 인코더(120)는 에러 신호 인코더(320)에 입력되고 있는 입력 오디오 신호 s(n)과 변환된 코어 레이어 출력 신호 S c를 보여준다. 이들 신호는 인핸스먼트 레이어 에러 신호 E의 코딩을 개선하기 위한 심리음향 모델(psychoacoustic model)을 구축하는데 이용된다. 그러면 코드워드 is와 iE가 MUX(325)에 의해 멀티플렉싱되고, 그런 다음에 인핸스먼트 레이어 디코더(135)에 의한 후속 디코딩을 위해 채널(125)로 전송된다. 코딩된 비트 스트림은 DEMUX(335)에 의해 수신되며, 이는 이 비트 스트림을 성분 is와 iE로 분리한다. 그러면 에러 신호 디코더(340)는 이 코드워드 iE를 이용하여 인핸스먼트 레이어 에러 신호
Figure pct00009
를 재구성한다. 신호 조합기(345)는 스케일링 비트 is를 이용하여 신호
Figure pct00010
을 어떤 식으로든 스케일링하고, 그런 다음에 그 결과를 인핸스먼트 레이어 에러 신호
Figure pct00011
와 조합하여 상기 증강된 오디오 출력 신호
Figure pct00012
을 생성한다.
도 4는 본 발명의 제1 실시예를 보여준다. 이 도는 스케일링 유닛(415)에 의해 코어 레이어 출력 신호 sc(n)을 수신하고 있는 인핸스먼트 레이어 인코더(410)를 보여준다. 소정의 이들 세트 {g}를 이용하여 복수의 스케일링된 코어 레이어 출력 신호 {S}를 생성한다. 여기서 g jS j는 각자 세트의 j번째 후보이다. 스케일링 유닛(415) 내에서 제1 실시예는 (MDCT) 도메인에서 신호 sc(n)을 다음과 같이 처리한다.
Figure pct00013
여기서 W는 인지 가중 행렬, s c는 코어 레이어 디코더(115)로부터의 샘플의 벡터, MDCT는 본 기술분야에서 잘 알려져 있는 연산, G j는 이득 벡터 후보 g j를 이용하여 구성한 이득 행렬, M은 이득 벡터 후보 수이다. 제1 실시예에서 G j는 벡터 g j를 대각으로 이용하고 그 밖의 곳에서는 제로를 이용하나(즉, 대각 행렬이나) 다른 가능성도 많이 존재한다. 예컨대 G j는 밴드(band) 행렬이거나, 항등(identity) 행렬 I가 곱해진 단순 스칼라량일 수도 있다. 또는, 신호 S j를 시간 도메인에 두는 것이 일부 유리할 수도 있고, 또는 오디오를 DFT(Discrete Fourier Transform) 도메인과 같은 다른 도메인으로 변환하는 것이 유리한 경우도 있을 수 있다. 그러한 변환은 본 기술분야에 많이 알려져 있다. 이들 경우에 스케일링 유닛은 각자의 벡터 도메인에 기초하여 적당한 S j를 출력할 수 있다.
그러나 어떤 경우에서도 코어 레이어 출력 신호를 스케일링하는 주된 이유는 입력 신호와 코어 레이어 코덱 간에 큰 차이를 유발할 수 있는 모델 미스매치(또는 기타 다른 코딩 결핍(coding deficiency))를 보상하는 것이다. 예컨대 입력 오디오 신호가 주로 음악 신호이고 코어 레이어 코덱이 음성 모델에 기반을 둔 것이라면, 코어 레이어 출력은 심각하게 왜곡된 신호 특성을 포함할 수 있으며, 그런 경우에는, 하나 이상의 인핸스먼트 레이어를 통해 신호의 보충적 코딩을 적용하기 전에 이 신호 성분의 에너지를 줄이는 것이 음질 관점에서 유리하다.
그러면, 이득 스케일링된 코어 레이어 오디오 후보 벡터 S j와 입력 오디오 s(n)은 에러 신호 생성기(420)에의 입력으로 이용될 수 있다. 예시적인 실시예에서 입력 오디오 신호 s(n)은 벡터 SS j가 서로 대응하여 정렬되도록 벡터 S로 변환된다. 즉, s(n)을 나타내는 벡터 ss c와 정렬된 시간(위상)이고, 이에 해당하는 연산은 이 실시예에서는 다음과 같이 되도록 적용될 수 있다.
Figure pct00014
이 식은 MDCT 스펙트럼 도메인에서 입력 오디오와 이득 스케일링된 코어 레이어 출력 오디오 간의 가중차(weighted difference)를 나타내는 복수의 에러 신호 벡터 E j를 산출한다. 다른 도메인을 고려하는 다른 실시예에서는 위 식은 각자의 처리 도메인에 따라 변형될 수 있다.
그런 다음에는, 이득 선택기(425)를 이용하여, 본 발명의 제1 실시예에 따라 복수의 에러 신호 벡터 E j를 평가하여 최적 에러 벡터 E , 최적 이득 파라미터 g , 이어서 대응 이득 인덱스 ig를 생성한다. 이득 선택기(425)는 폐루프법(예컨대 왜곡 계량치(metric)의 최소화), 개루프법(예컨대 발견적 분류, 모델 성능 평가 등) 또는 이들의 조합과 같은 다양한 방법을 이용하여 최적 파라미터 E g 를 결정한다. 예시적인 실시예에서, 바이어스된(biased) 왜곡 계량치가 이용될 수 있으며, 이는, 하기 식과 같이, 원래 오디오 신호 벡터 S와 재구성된 합성 신호 벡터 간의 바이어스된(biased) 에너지차로 주어진다.
Figure pct00015
여기서,
Figure pct00016
는 에러 신호 벡터 E j의 양자화된 추정치일 수 있고, βj는 인지 최적 이득 에러 인덱스 j를 선택하는 판단을 보완하는데 이용되는 바이어스항(bias term)일 수 있다. 신호 벡터의 벡터 양자화를 위한 예시적인 방법은 미국 특허출원 제11/531122호(발명의 명칭: APPARATUS AND METHOD FOR LOW COMPLEXITY COMBINATORIAL CODING OF SIGNALS)에 기재되어 있으나, 많은 다른 방법도 가능하다. E j=S-S j임을 감안하면, 수학식 5는 다음과 같이 다시 쓸 수 있다.
Figure pct00017
이 식에서
Figure pct00018
항은 양자화되지 않은 에러 신호와 양자화된 에러 신호 간의 에너지 차를 나타낸다. 명확하게 하기 위해 이 량은 "잔류 에너지"라고 할 수 있으며 더욱이 최적 이득 파라미터 g를 선택하는 "이득 선택 기준"을 평가하는데 이용될 수 있다. 그와 같은 이득 선택 기준은 수학식 6으로 표현되지만 다른 많은 것도 가능하다.
바이어스 항 βj이 필요한 경우는 수학식 3과 수학식 4에서 에러 가중 함수 W가 벡터
Figure pct00019
에 대한 동일한 인지 왜곡을 적절하게 산출하지 못하는 경우일 수 있다. 예컨대 에러 가중 함수 W는 에러 스펙트럼을 어느 정도 "백색화(whiten)"하는데 이용될 수 있으나 사람 귀가 왜곡을 인지하기 때문에 저주파에 더 많은 가중을 둔다는 이점이 있을 수 있다. 저주파에 에러 가중을 더 두게 되면 고주파 신호는 인핸스먼트 레이어에 의해 언더-모델링될(under-modeled) 수 있다. 이들 경우에서는, 고주파 언더-모델링때문에 최종 재구성된 오디오 신호에 사운딩 아티팩트(sounding artifact)가 생기지 않도록 왜곡 계량치를 S j의 고주파 성분을 감쇄시키지 않는 g j값쪽으로 바이어스시키는 직접적인 이익이 있을 수 있다. 그 한 가지 예는 무성음 신호의 경우일 것이다. 이 경우에 입력 오디오는 일반적으로 사람의 입으로부터 나온 난기류로부터 생긴 중간주파수 내지 고주파 잡음 신호로 구성되어 있다. 코어 레이어 인코더는 런 형태의 파형을 직접적으로 코딩하지는 못하지만 잡음 모델을 이용하여 유사한 사운딩 오디오 신호를 생성할 수도 있을 것이다. 따라서 입력 오디오와 코어 레이어 출력 오디오 간의 상관이 일반적으로 낮게 될 수가 있다. 그러나 이 실시예에서는 에러 신호 벡터 E j는 입력 오디와 코어 레이어 오디오 출력 신호 간의 차이에 기초한다. 이들 신호는 그 다지 잘 상관하지 못할 수 있기 때문에 에러 신호 E j의 에너지는 입력 오디오나 코어 레이어 출력 오디오보다 반드시 더 낮은 것은 아닐 수 있다. 그 경우에 수학식 6에서 에러의 최소화의 결과로서 이득 스케일링이 지나치게 크게 되고, 따라서 잠재적인 가청 아티팩트가 생길 수가 있다.
다른 경우에서 바이어스 인자(bias factor) βj는 입력 오디오 및/또는 코어 레이어 출력 오디오 신호의 다른 신호 특성에 기초할 수 있다. 예컨대 어떤 신호의 스텍트럼의 피크 대 평균 비는 그 신호의 고조파 성분을 표시하는 것일 수 있다. 음성이나 특정 형태의 음악과 같은 신호는 높은 고조파 성분을 가질 수 있기 때문에 피크 대 평균 비가 높을 수 있다. 그러나 음성 코덱을 통해 처리된 음악 신호는 코딩 모델 미스매치로 인해 그 품질이 나쁠 수가 있으며, 그 결과, 코어 레이어 출력 신호 스펙트럼은 입력 신호 스펙트럼에 비해 피크 대 평균 비가 저하될 수가 있다. 이 경우에는 코어 레이어 출력 오디오가 더 낮은 에너지로 이득 스케일링될 수 있게 하여 인핸스먼트 레이어 코딩이 합성 출력 오디오에 더욱 현저한 영향을 미칠 수 있도록 하기 위해 최소화 프로세스에서 바이어스 량을 줄이는 것이 유리할 수 있다. 반대로, 특정 형태의 음성 또는 음악 입력 신호는 피크 대 평균 비가 낮을 수 있는데, 이 경우에는 이 신호는 잡음으로 인식될 수 있으며, 따라서 에러 바이어스(error bias)를 증가시켜 코어 레이어 출력 오디오의 보다 작은 스케일링으로 이익을 얻을 수가 있다. 바이어스 인자(bias factor) βj를 생성하는 함수의 예는 다음과 같이 주어진다.
Figure pct00020
여기서, λ는 임계치이고, 벡터 φy에 대한 피크 대 평균 비는 다음과 같이 주어질 수 있다.
Figure pct00021
여기서,
Figure pct00022
Figure pct00023
가 되게 하는 y(k)의 벡터 서브세트이다.
최적 이득 인덱스 j가 수학식 6으로부터 결정되고 나면, 관련 코드워드 ig가 생성되고, 최적 에러 벡터 E 는 에러 신호 인코더(430)로 전송되며, 여기서 E 는 (MUX(440)에 의해) 다른 코드워드와 멀티플렉싱하기에 적합한 형태로 코딩되어 해당 디코더에서 이용되도록 전송된다. 예시적인 실시예에서 에러 신호 인코더(408)는 FPC(Factorial Pulse Coding)를 이용한다. 이 방법은 벡터 E 의 코딩과 연관된 계수 프로세스(enumeration process)가
Figure pct00024
를 생성하는데 이용된 벡터 생성 프로세스와는 무관하기 때문에 처리 복잡성의 관점에서 보면 유리하다.
인핸스먼트 레이어 디코더(450)는 이들 프로세스를 반대순서로 실시하여 증강 오디오 출력
Figure pct00025
을 생성한다. 더 구체적으로 설명하면, ig와 iE가 디코더(450)에 수신되는데, 그 중 iE는 DEMUX(455)에 의해 에러 신호 디코더(460)로 전송되고, 이곳에서 최적 에러 벡터 E 가 코드워드로부터 도출된다. 최적 에러 벡터 E 는 신호 조합기(465)로 전송되고, 이 곳에서 그 수신된
Figure pct00026
은 수학식 2에 따라 변경되어
Figure pct00027
을 생성한다.
본 발명의 제2 실시예는 도 5에 도시된 바와 같은 멀티레이어 임베디드 코딩 시스템과 관련된 것이다. 여기서는 이 예에 대해 5개의 임베디드 레이어가 있음을 볼 수 있다. 레이어 1과 2는 모두 음성 코덱 기반이고, 레이어 3, 4 및 5는 MDCT 인핸스먼트 레이어일 수 있다. 따라서 인코더(502, 503)는 음성 코덱을 이용하여 인코딩된 입력 신호 s(n)을 생성하여 출력할 수 있다. 인코더(510, 610, 514)는 인핸스먼트 레이어 인코더이며, 각각 그 인코딩된 신호에 대해 서로 다른 인핸스먼트를 출력한다. 이전 실시예와 마찬가지로 레이어 3(인코더(510))에 대한 에러 신호 벡터는 다음과 같이 주어질 수 있다.
Figure pct00028
여기서, S=MDCT{Ws}는 가중 변환 입력 신호이고, S 2=MDCT{Ws 2}는 레이어 1/2 디코더(506)로부터 생성된 가중 변환 신호이다. 이 실시예에서 레이어 3은 로우 레이트(low rate) 양자화 레이어일 수 있으며, 따라서 해당 양자화된 에러 신호
Figure pct00029
를 코딩하기 위한 비트 수가 비교적 적을 수 있다. 이러한 제약하에서도 양호한 품질을 제공하기 위해서 E 3 내의 계수들 중 극히 일부만이 양자화될 수 있다. 코딩될 계수들의 위치는 고정적일 수도 가변적일 수도 있지만, 가변적인 경우에는 이들 위치를 식별하기 위해 디코더에 추가 정보를 보내야 할 필요가 있을 수 있다. 예컨대 코딩된 위치의 범위가 ks에서 시작하여 ke에서 끝나면(여기서 0≤ks<ke<N), 양자화된 에러 신호 벡터
Figure pct00030
는 그 범위 내에서만 비영값들(non-zero values)을 포함할 수 있고, 그 범위를 벗어난 위치에 대해서는 영들(zeros)을 포함한다. 이 위치 및 범위 정보도 이용된 코딩 방법에 따라서는 함축적(implicit)일 수 있다. 예컨대 오디오 코딩에서는 주파수 대역을 중요한 것으로 인지하여 생각될 수 있고 신호 벡터의 코딩이 이들 주파수에 집중될 수 있다는 것이 잘 알려져 있다. 이러한 상황에서는 코딩된 범위는 가변적일 수는 있으니 인접 주파수 세트에까지 걸쳐 이어질 수는 없다. 그러나 어쨌든 이 신호가 일단 양자화되고 나면 코딩된 합성 출력 스펙트럼은 다음과 같이 구성될 수 있다.
Figure pct00031
그러면, 위 식은 레이어 4 인코더(610)에의 입력으로 이용된다.
레이어 4 인코더(610)는 이전 실시예의 인핸스먼트 레이어 인코더(410)와 유사하다. 이득 벡터 후보 g j를 이용하면 대응 에러 벡터는 다음과 같이 기술될 수 있다.
Figure pct00032
여기서, G j는 대각 성분으로서 벡터 g j를 가진 이득 행렬일 수 있다. 그러나, 현 실시예에서는 이득 벡터 g j는 양자화된 에러 신호 벡터
Figure pct00033
와 다음과 같은 식으로 관련될 수 있다. 양자화된 에러 신호 벡터
Figure pct00034
는 예컨대 벡터 위치 ks에서 시작하여 ke에서 끝나는 것과 같이 그 주파수 범위가 제한되어 있기 때문에 레이어 3 출력 신호 S 3은 그 주파수 범위 내에서 아주 정확하게 코딩되는 것으로 가정한다. 그러므로 본 발명에 따라서 이득 벡터 g j는 레이어 3 에러 신호 벡터의 코딩된 위치 ks와 ke에 따라서 조정된다. 더 구체적으로 설명하면, 이들 위치에서 신호 무결성(integrity)을 보존하기 위하여 대응하는 개별 이득 요소들이 상수값 α로 설정될 수 있다. 즉, 다음과 같다.
Figure pct00035
여기서, 일반적으로 0≤γj(k)≤1이고, gj(k)는 j번째 후보 벡터의 k번째 위치의 이득이다. 예시적인 실시예에서 상수값은 1(α=1)이지만 다른 많은 값들도 가능하다. 게다가 주파수 범위는 복수의 시작 위치와 복수의 종료 위치에 걸쳐 있을 수 있다. 즉, 수학식 12는 에러 신호
Figure pct00036
의 일부 함수에 기초한 비연속적 가변 이득 범위들로 분할될 수 있으며, 더 일반적으로는 다음과 같이 쓸 수 있다.
Figure pct00037
이 예에서 고정 이득 α는 앞서 양자화된 에러 신호
Figure pct00038
내의 대응 위치가 비영일 때에 gj(k)를 생성하는데 이용되며, 이득 함수 γj(k)는
Figure pct00039
내의 대응 위치가 영일 때에 이용된다. 한 가지 가능한 이득 함수는 다음과 같이 정의될 수 있다.
Figure pct00040
여기서, Δ는 스텝 사이즈(예컨대,
Figure pct00041
), α는 상수, M은 후보 수(예컨대, M=4로서, 2 비트만을 이용하여 나타낼 수 있음), kl와 kh는 각각 이득 감소가 일어날 수 있는 저주파 컷오프와 고주파 컷오프이다. 파라미터 kl와 kh의 도입은 특정 주파수 범위에서만 스케일링을 원하는 시스템에서 유용하다. 예컨대 소정 실시예에서 고주파는 코어 레이어에 의해 적절하게 모델링되지 않을 수 있으며, 따라서 그 고주파 대역 내의 에너지는 본래적으로 입력 오디오 신호 내의 에너지보다 낮을 수 있다. 그 경우에는, 결과적으로 총 에러 에너지가 증가할 수 있으므로 그 영역 신호 내의 레이어 3 출력을 스케일링함으로써 얻을 수 있는 이익이 거의 없을 수 있다.
요약하면, 복수의 이득 벡터 후보 g j는 앞서 코딩된 신호 벡터, 이 경우에는
Figure pct00042
의 코딩된 요소의 함수에 기초한다. 이것은 일반적으로 다음과 같이 표현될 수 있다.
Figure pct00043
대응하는 디코더 동작은 도 5의 우측에 나타나 있다. 여러 가지 레이어의 코딩된 비트 스트림(i1 내지 i5)이 수신됨에 따라서 코어 레이어(레이어 1) 디코더 위의 인핸스먼트 레이어 계층에 더 높은 품질의 출력 신호들이 구축된다. 즉, 이 특정 실시예에서는 첫 번째 2개의 레이어가 시간 도메인 음성 모델 코딩(예컨대 CELP)으로 구성되고 나머지 3개의 레이어는 변환 도메인 코딩(예컨대 MDCT)으로 구성되므로 시스템의 최종 출력
Figure pct00044
은 다음 수학식에 따라 생성된다.
Figure pct00045
여기서,
Figure pct00046
은 레이어 2 시간 도메인 인핸스먼트 레이어 신호이고,
Figure pct00047
는 레이어 2 오디오 출력
Figure pct00048
에 대응하는 가중된 MDCT 벡터이다. 이 수학식에서 총 출력 신호
Figure pct00049
은 수신되는 연속 비트 스트림 레이어의 최고 레벨로부터 결정된다. 이 실시예에서는 레이어는 레벨이 낮을수록 채널로부터의 수신 확률이 더 높다고 가정하며, 따라서 코드워드 세트 {i1}, {i1 i2}, {i1 i2 i3} 등은 수학식 16에서의 적당한 레벨의 인핸스먼트 레이어 디코딩을 결정한다.
도 6은 레이어-4 인코더(610) 및 디코더(650)의 블록도이다. 도 6에 도시된 인코더와 디코더는 도 4에 도시된 것과 유사하고, 스케일링 유닛(615, 670)이 이용하는 이득값은 각각 주파수 선택 이득 생성기(630, 660)를 통해 도출된다는 점이 다르다. 동작 중에 레이어 3 오디오 출력 S 3은 레이어 3 인코더로부터 출력되어 스케일링 유닛(615)에 의해 수신된다. 게다가 레이어 3 에러 벡터
Figure pct00050
은 레이어 3 인코더(510)로부터 출력되어 주파수 선택 이득 생성기(630)에 의해 수신된다. 전술한 바와 같이, 양자화된 에러 신호 벡터
Figure pct00051
은 그 주파수 범위가 제한되어 있으므로 이득 벡터 g j는 예컨대 수학식 12에 나타낸 위치 ks와 ke 또는 수학식 13의 더 일반적인 표현에 따라서 조정된다.
스케일링된 오디오 S j는 스케일링 유닛(615)으로부터 출력되어 에러 신호 생성기(620)에 의해 수신된다. 전술한 바와 같이, 에러 신호 생성기(620)는 입력 오디오 신호 S를 수신하고 스케일링 유닛(615)이 이용하는 스케일링 벡터마다의 에러값 E j를 결정한다. 이들 에러 벡터는 최적 이득값 g에 따라서 에러 벡터와 특정 에러 E 를 결정하는데 이용되는 이득값과 함께 이득 선택기 회로(635)에 전송된다. 최적 이득 g를 나타내는 코드워드(ig)는 이득 선택기(635)로부터 출력되어, 최적 에러 벡터 E 와 함께 에러 신호 인코더(640)로 전송되고, 이 곳에서 코드워드 iE가 결정되어 출력된다. ig와 iE는 모두 멀티플렉서(645)로 출력되고 채널(125)을 통해 레이어 4 디코더(650)에 전송된다.
레이어 4 디코더(650)의 동작 중에 ig와 iE는 채널(125)로부터 수신되고 DEMUX(655)에 의해 디멀티플렉싱된다. 이득 코드워드 ig와 레이어 3 에러 벡터
Figure pct00052
은 주파수 선택 이득 생성기(660)에의 입력으로 이용되어 인코더(610)의 대응 방법에 따라서 이득 벡터 g 를 생성한다. 그러면 이득 벡터 g * 는 스케일링 유닛(670) 내의 레이어 3 재구성 오디오 벡터
Figure pct00053
에 적용되고, 그런 다음에 이 유닛의 출력은 신호 조합기(675)에서, 에러 신호 디코더(655)로부터 코드워드 iE의 디코딩을 통해 얻은 레이어 4 인핸스먼트 레이어 에러 벡터 E *와 조합되어, 도시된 바와 같이 레이어 4 재구성 오디오 출력
Figure pct00054
를 생성한다.
도 7은 본 발명의 제1 및 제2 실시예에 따른 인코더의 동작을 보여주는 플로우차트(700)이다. 전술한 바와 같이, 양 실시예는 인코딩된 오디오를 복수의 스케일링값을 가지고 스케일링한 다음에 최저 에러를 보여주는 스케일링값을 선택하는 인핸스먼트 레이어를 이용한다. 그러나 본 발명의 제2 실시예에서는 주파수 선택 이득 생성기(630)를 이용하여 이득값을 생성한다.
논리 흐름은 코어 레이어 인코더가 코딩될 입력 신호를 수신하고 이 입력 신호를 코딩하여 코딩된 오디오 신호를 생성하는 블록(710)에서 시작한다. 인핸스먼트 레이어 인코더(410)는 그 코딩된 오디오 신호(sc(n))를 수신하고 스케일링 유닛(415)은 그 코딩된 오디오 신호를 복수의 이득값을 가지고 스케일링하여 각각이 관련 이득값을 가진 복수의 스케일링된 코딩된 오디오 신호를 생성한다(블록(720)). 블록(730)에서, 에러 신호 생성기(420)는 입력 신호와 복수의 스케일링된 코딩된 오디오 신호 각각 간에 존재하는 복수의 에러값을 결정한다. 그러면 이득 선택기(425)는 복수의 이득값 중에서 하나를 선택한다(블록(740)). 전술한 바와 같이, 이득값(g *)은 스케일링된 코딩된 오디오 신호와 연관되어 입력 신호와 그 스케일링된 코딩된 오디오 신호 사이에 저 에러값(E *)이 존재하게 된다. 마지막으로 블록(750)에서, 송신기(440)는 이득값 (g *)와 함께 저(low) 에러값(E *)을 인핸스먼트 레이어의 일부로서 상기코딩된 오디오 신호에 전송한다. 당업자라면 잘 알겠지만 E *g * 모두 전송 전에 적절하게 인코딩된다.
전술한 바와 같이, 수신기측에서는 인코딩된 오디오 신호가 인핸스먼트 레이어와 함께 수신될 것이다. 인핸스먼트 레이어는 이득값(g *)과 이 이득값과 연관된 에러 신호(E *)를 포함하는 코딩된 오디오 신호에 대한 인핸스먼트이다.
스테레오에 대한 코어 레이어 스케일링
상기 설명에서는 레이어 각각이 모노 신호를 코딩한 임베디드 코딩 시스템에 대해 설명하였다. 이제는 스테레오 또는 다른 다중채널 신호를 코딩하는 임베디드 코딩 시스템에 대해서 설명한다. 간결하게 하기 위해 2개의 오디오 입력(소스)으로 이루어진 스테레오 신호와 관련한 기술에 대해 설명하겠지만 여기서 설명되는 예시적인 실시예는 다중채널 오디오 입력에서와 마찬가지로 스테레오 신호가 2개 보다 많은 오디오 입력을 가진 경우에도 쉽게 확장될 수 있다. 실례로서, 이에 한정되는 것은 아니지만, 2개의 오디오 입력은 좌신호(s L)와 우신호(s R)로 이루어진 스테레오 신호이고, 여기서 s Ls R은 오디오 데이터 프레임을 나타내는 n차원 열 벡터이다. 다시 간결하게 하기 위해 2개의 레이어, 즉 코어 레이어와 인핸스먼트 레이어로 이루어진 임베디드 코딩 시스템에 대해 자세히 설명한다. 여기서 제시된 개념은 멀티레이어 임베디드 코딩 시스템으로 쉽게 확장될 수 있다. 또한 코덱은 그 자체가 임베디드되는 것은 아닐 수도 있는데, 즉, 그 코덱의 비트 중 일부는 스테레오 전용이고 나머지 비트는 모노 신호 전용인, 단 하나의 레이어만을 가질 수도 있다.
단순히 모노 신호를 코딩하는 코어 레이어와 더 높은 주파수나 스테레오 신호를 코딩하는 인핸스먼트 레이어로 이루어진 임베디드 스테레오 코덱이 알려져 있다. 이 제한된 상황에서, 코어 레이어는 s Ls R의 조합으로부터 얻은 모노 신호(s)를 코딩하여 소정의 코딩된 모노 신호
Figure pct00055
를 생성한다. H를 모노 신호를 생성하는데 이용된 2×1 결합 행렬이라고 하면 다음과 같이 된다.
Figure pct00056
수학식 17에서 s R은 꼭 우채널(right channel) 신호인 것이 아니라 우(right) 오디오 신호가 지연된 것일 수 있다. 예컨대 s L과 지연된 s R의 상관을 최소화하는 지연이 계산될 수 있다. 행렬 H가 [0.5 0.5]T라면, 수학식 17은 각자의 우채널과 좌채널의 가중이 똑같게 되는데, 즉, s=0.5s L+0.5s R이 된다. 여기서 제시된 실시예는 모노 신호를 코딩하는 코어 레이어와 스테레오 신호를 코딩하는 인핸스먼트 레이어에 한정되는 것은 아니다. 임베디드 코덱의 코어 레이어와 인핸스먼트 레이어 모두 멀티채널 오디오 신호를 코딩할 수 있다. 코어 레이어 멀티채널에 의해 코딩되는 멀티채널 오디오 신호에서의 채널의 수는 인핸스먼트 레이어에 의해 코딩될 수 있는 멀티채널 오디오 신호에서의 채널의 수보다 적을 수 있다. (m, n)을 각각 코어 레이어와 인핸스먼트 레이어에 의해 코딩될 채널 수라고 하자. s 1, s 2, s 3, ..., s n을 임베디드 시스템에 의해 코딩될 n개 오디오 채널 표현이라고 하자. 코어 레이어에 의해 코딩될 m개 채널은 이들로부터 도출되고 다음과 같이 구해진다.
Figure pct00057
(17a)
여기서, H는 n×m 행렬이다.
전술한 바와 같이, 코어 레이어는 모노 신호 s를 인코딩하여 코어 레이어 인코딩된 신호
Figure pct00058
를 생성한다.
Figure pct00059
로부터 스테레오 성분의 추정치를 생성하기 위하여 균형 인자(balance factor)가 계산된다. 이 균형 인자는 다음과 같이 계산된다.
Figure pct00060
결합 행렬 H가 [0.5 0.5]T라면, 다음과 같이 됨을 알 수 있다.
Figure pct00061
비(ratio)는 단 하나의 파라미터의 양자화를 가능하게 하고 다른 비는 첫번째 것으로부터 쉽게 추출될 수 있음에 유의한다. 그러면 스테레오 출력은 다음과 같이 계산된다.
Figure pct00062
다음 절에서는 시간 도메인 대신에 주파수 도메인과 관련하여 설명할 것이다. 그래서 주파수 도메인에서의 대응 신호는 대문자로 나타내는데, 즉,
Figure pct00063
Figure pct00064
은 각각
Figure pct00065
Figure pct00066
의 주파수 도메인 표현이다. 주파수 도메인에서의 균형 인자는 주파수 도메인에서의 항을 이용하여 계산되며 다음과 같이 주어진다.
Figure pct00067
Figure pct00068
주파수 도메인에서는 벡터들은 중첩되지 않는 서브 벡터들로 더 분할될 수 있는데, 즉 차원 n의 벡터 S는 하기 수학식과 같이 되도록 차원 m1, m2, ..., mt의 t개 서브 벡터 S 1, S 2, ..., S t로 분할될 수 있다.
Figure pct00069
이 경우에 서브 벡터마다 다른 균형 인자가 계산될 수 있다. 즉, 다음과 같이 될 수 있다.
Figure pct00070
이 경우에 균형 인자는 이득과는 무관하다.
이제 도 8과 9를 참조로 설명하면, 스테레오와 기타 다은 다중채널 신호와 관련된 종래 기술 도면이 나타나 있다. 도 8의 종래의 임베디드 음성/오디오 압축 시스템(800)은 도 1과 유사하지만 이 예에서는 좌 및 우 스테레오 입력 신호 S(n)으로 나타낸 다중 오디오 입력 신호를 갖고 있는 점이 다르다. 이들 입력 오디오 신호는 조합기(810)에 공급되고, 이 조합기는 도시된 바와 같이 입력 오디오 s(n)을 생성한다. 이 다중 입력 신호는 도시된 바와 같이 인핸스먼트 레이어 인코더(820)에도 제공된다. 디코드 측에서는 인핸스먼트 레이어 디코더(830)가 도시된 바와 같이 증강된 출력 오디오 신호
Figure pct00071
을 생성한다.
도 9는 도 8에서 이용될 수 있는 종래의 인핸스먼트 레이어 인코더(900)를 보여준다. 복수의 오디오 입력은 도시된 바와 같은 코어 레이어 출력 신호와 함께 균형 인자 생성기에 제공된다. 인핸스먼트 레이어 인코더(910)의 균형 인자 생성기(920)는 복수의 오디오 입력을 수신하여 신호 i B 를 생성하고, 이 신호는 도시된 바와 같이 MUX(325)로 보내진다. 이 신호 i B 는 균형 인자를 표현한 것이다. 바람직한 실시예에서 i B 는 균형 인자를 표현하는 비트 계열이다. 디코더 측에서는 이 신호 i B 는 균형 인자 생성기(940)에 의해 수신되며, 이 생성기는 도시된 바와 같이 균형 인자 요소 W L (n)W R (n)을 생성하며, 이 요소들은 도시된 바와 같이 신호 조합기(950)에 의해 수신된다.
다중채널 균형 인자 계산
전술한 바와 같이, 많은 상황에서 모노 신호의 코딩에 이용된 코덱은 단일 채널 음성을 위해 설계되어 있기 때문에 이 코덱이 코덱 모델에 의해 충분히 지원되고 있지 않은 코딩 신호에 대해 이용될 때마다 코딩 모델 잡음이 생긴다. 음악 신호나 기타 다른 비음성 신호는 음성 모델에 기초한 코어 레이어 코덱에 의해 적절하게 모델링되지 못한 신호들 중 일부이다. 도 1 내지 7에 관한 상기 설명은 주파수 선택 이득을 코어 레이어에 의해 코딩된 신호에 적용하는 것을 제시한 것이다. 스케일링은 오디오 입력과 스케일링된 코딩된 신호 간의 특정 왜곡(에러값)을 최소화도록 최적화되었다. 상기 방식은 단일 채널 신호에 대해서는 잘 작동하지만 인핸스먼트 레이어가 스테레오 또는 다른 다중채널 신호를 코딩하는 경우에 코어 레이어 스케일링을 적용하는데는 최적이 아닐 수 있다.
스테레오 신호와 같은 다중채널 신호의 모노 성분은 2이상의 스테레오 오디오 입력의 조합으로부터 얻기때문에 조합된 신호 s도 단일 채널 음성 모델에 맞지 않을 수가 있으며, 따라서 코어 레이어 코덱이 그 조합 신호 코딩 시에 잡음을 생성할 수 있다. 따라서 임베디드 코딩 시스템에서 코어 레이어 코딩된 신호의 스케일링을 가능케하여 코어 레이어가 생성한 잡음을 줄일 수 있는 방식이 필요하다. 상기 모노 신호 방식에서는 주파수 선택 스케일링이 얻어졌던 특정 왜곡 량(distortion measure)은 모노 신호의 에러에 기초하였다. 이 에러 E 4(j)는 상기 수학식 11에 나타나 있다. 그러나 모노 신호만의 왜곡은 스테레오 통신 시스템의 품질을 개선하는데 충분치 않다. 수학식 11에서 얻은 스케일링은 단위(1) 스케일링 인자 또는 다른 알고 있는 함수에 의한 것일 수 있다.
스테레오 신호에 대해서 왜곡량은 우채널과 좌채널 양쪽의 왜곡을 포착하여야 한다. E LE R을 각각 좌채널과 우채널의 에러 벡터라고 하면 다음과 같이 주어진다.
Figure pct00072
종래 기술에서는 예컨대 AMR-WB+ 표준에 기재된 바와 같이 이들 에러 벡터는 다음과 같이 계산된다.
Figure pct00073
이제 주파수 선택 이득 벡터 g j(0≤j<M)가
Figure pct00074
에 적용되는 경우를 고려한다. 이 주파수 선택 이득 벡터는 G j와 같은 행렬 형태로 표현되는데, G j는 대각 요소 g j를 가진 대각 행렬이다. 각 벡터 G j에 대해서 에러 벡터는 다음과 같이 계산된다.
Figure pct00075
위 식에서 스테레오 신호의 추정치는
Figure pct00076
항으로 주어진다. 위 식에서 이득 행렬 G는 단위 행렬 (1)이거나 기타 다른 대각 행렬임을 알 수 있고, 모든 스케일링된 신호에 대해 모든 추정이 가능한 것은 아님을 알 수 있다.
스테레오 품질을 개선하기 위해 최소화되는 왜곡량 ε은 다음과 같이 2개 에러 벡터의 함수이다.
Figure pct00077
위 식으로부터 왜곡값은 복수의 왜곡량으로 이루어질 수 있음을 알 수 있다.
선택되는 주파수 선택 이들 벡터의 지수 j는 다음과 같이 주어진다.
Figure pct00078
예시적인 실시예에서 왜곡량은 다음과 같이 주어진 평균 자승 왜곡이다.
Figure pct00079
아니면 왜곡량은 다음과 같이 주어진 가중(weighted) 또는 바이어스된(biased) 왜곡일 수 있다.
Figure pct00080
바이어스 BL과 BR은 좌채널 에너지와 우채널 에너지의 함수일 수 있다.
전술한 바와 같이, 주파수 도메인에서는 벡터는 중첩하지 않는 서브 벡터들로 더 분할될 수 있다. 제시된 기술을 주파수 도메인 벡터의 서브 벡터로의 분할을 포함하도록 확장하기 위해서는 수학식 27에서 이용된 균형 인자가 서브 벡터마다 계산된다. 이에 따라서 주파수 선택 이득마다의 에러 벡터 E LE R은 다음과 같이 주어진 에러 서브 벡터의 연쇄로 구성된다.
Figure pct00081
그러면 이제는 수학식 28에서의 왜곡량 ε은 상기 에러 서브 벡터의 연쇄로 구성된 에러 벡터의 함수가 된다.
균형 인자 계산
종래 기술을 이용하여 생성된 균형 인자(수학식 21)는 코어 레이어의 출력과는 무관하다. 그러나 수학식 30과 수학식 31에 주어진 왜곡량을 최소화하기 위해서는 균형 인자를 계산하여 당해 왜곡을 최소화하는 것이 유리할 수도 있다. 이제 균형 인자 WL과 WR은 다음과 같이 계산될 수 있다.
Figure pct00082
위 식에서 균형 인자는 예컨대 도 11에 나타낸 바와 같이 이득과는 무관하다. 이 수학식은 수학식 30과 수학식 31에서의 왜곡을 최소화한다. 그와 같은 균형 인자를 이용하는 것의 문제점은 다음과 같은 것이다.
Figure pct00083
그러므로 WL과 WR을 양자화하기 위한 별도의 비트 필드가 필요할 수 있다. 이는 최적화에 WL(j)=2-WR(j)이라는 제약을 둠으로써 피할 수 있다. 이런 제약을 갖고서 수학식 30에 대한 최적해는 다음과 같이 주어진다.
Figure pct00084
위 식에서 균형 인자는 나타낸 바와 같이 이득항에 종속되며, 도 10은 종속 균형 인자를 보여준다. 바이어스 인자 BL과 BR이 1(unity)이라면 다음과 같이 된다.
Figure pct00085
수학식 33과 수학식 36에서
Figure pct00086
항은 다중채널 오디오 신호의 오디오 신호들 중 적어도 하나와 상기 스케일링된 코딩된 오디오 신호 간의 상관값을 나타낸다.
스테레오 코딩에서는 음원의 방향과 위치가 평균 자승 왜곡보다 더 중요할 수 있다. 그러므로 좌채널 에너지와 우채널 에너지의 비는 가중 왜곡량을 최소화하는 것보다 더 양호한 음원 방향(또는 위치)의 지표자가 될 수 있다. 그와 같은 상황에서는 수학식 35와 수학식 36에서 계산된 균형 인자는 균형 인자를 계산하는데 좋은 방식이 못될 수 있다. 필요한 것은 좌채널과 우채널의 코딩 전후에 이들 채널의 에너지의 비를 일정하게 유지하는 것이다. 코딩 전과 코딩 후의 채널 에너지 비는 각각 다음과 같이 주어진다.
Figure pct00087
이 2개의 에너지 비를 같게 놓고 WL(j)=2-WR(j)이라고 가정하면, 다음과 같게 된다.
Figure pct00088
위 식은 생성된 균형 인자의 균형 인자 성분을 나타낸다. 수학식 38에서 계산된 균형 인자는 이제는 Gj와 무관하고, 따라서 더 이상은 j의 함수가 아니고, 이득과 무관한 자기상관(self-correlated) 균형 인자를 제공함에 유의하고, 종속 균형 인자는 도 10에 자세히 나타나 있다. 이 결과를 수학식 29 및 수학식 32와 함께 이용하면 연쇄 벡터 세그먼트 k를 포함하도록 최적 코어 레이어 스케일링 지수 j의 선택폭을 넓혀서 최적 이득값 표현인 다음과 같은 수학식을 얻을 수 있다.
Figure pct00089
이득값 j*의 이 지수는 인핸스먼트 레이어 인코더의 출력 신호로서 전송된다.
이제 도 10을 참조로 설명하면, 여러 가지 실시예에 따른 인핸스먼트 레이어 인코더와 인핸스먼트 레이어 디코더의 블록도(1000)가 도시되어 있다. 입력 오디오 신호 s(n)은 인핸스먼트 레이어 인코더(1010)의 균형 인자 생성기(1050)와 이득 벡터 생성기(1020)의 에러 신호(왜곡 신호) 생성기(1030)에 의해 수신된다. 코어 레이어로부터의 코딩된 오디오 신호
Figure pct00090
은 도시된 바와 같이 이득 벡터 생성기(1020)의 스케일링 유닛(1025)에 의해 수신된다. 스케일링 유닛(1025)은 복수의 이득값을 가지고 상기 코딩된 오디오 신호
Figure pct00091
을 스케일링하여 다수의 후보 코딩된 오디오 신호를 생성하도록 동작하는데, 여기서는 후보 코딩된 오디오 신호들 중 적어도 하나는 스케일링된다. 전술한 바와 같이, 단위 스케일링 또는 임의의 원하는 식별 함수가 이용될 수 있다. 스케일링 유닛(1025)은 스케일링된 오디오 S j를 출력하고 이 신호는 균형 인자 생성기(1030)에 의해 수신된다. 인핸스먼트 레이어 인코더(1010)에 의해 수신된 다중채널 오디오 신호의 오디오 신호와 연관된 복수의 균형 인자 성분을 가진 균형 인자를 생성하는 것에 대해서는 수학식 18, 수학식 21, 수학식 24 및 수학식 33과 관련하여 전술하였다. 이것은 도시된 바와 같이 균형 인자 성분
Figure pct00092
을 생성하는 도시된 바와 같은 균형 인자 생성기(1050)에 의해 달성된다. 수학식 38과 관련하여 전술한 바와 같이 균형 인자 생성기(1030)는 균형 인자를 이득과 무관한 것으로 보여준다.
이득 벡터 생성기(1020)는 수학식 27, 수학식 28 및 수학식 29에서 설명한 바와 같이, 코딩된 오디오 신호에 적용될 이득값을 결정하여 다중채널 오디오 신호의 추정치를 생성한다. 이는 균형 인자와 적어도 하나의 스케일링된 코딩된 오디오 신호에 기초하여 추정치를 생성하는데 서로 협력하는 스케일링 유닛(1025)과 균형 인자 생성기(1050)에 의해 달성된다. 이득값은 균형 인자와 다중채널 오디오 신호에 기초하며, 이 때에 이득값은 다중채널 오디오 신호와 이 다중채널 오디오 신호의 추정치 간의 왜곡값을 최소화하도록 구성된다. 수학식 30은 왜곡값을 다중채널 입력 신호의 추정치와 실제 입력 신호 자체의 함수로서 기술한다. 따라서 균형 인자 성분은 입력 오디오 신호 s(n)과 함께 에러 신호 생성기(1030)에 의해 수신되어 스케일링 유닛(1025)에서 이용된 스케일링 벡터마다의 에러값 E j를 결정한다. 이들 에러 벡터는 최적 이득값 g *에 기초하여 에러 벡터와 특정 에러 E *를 결정하는데 이용된 이득값과 함께 이득 선택기 회로(1035)로 전송된다. 그러면 이득 선택기(1035)는 가능한 이득값들 중 최적 이득값 g *의 표현을 결정하기 위하여 다중채널 입력 신호 추정치와 실제 신호 자체에 기초하여 왜곡값을 평가하도록 동작한다. 최적 이득 g *을 나타내는 코드워드(ig)가 이득 선택기(1035)로부터 출력되어, 도시된 바와 같이 멀티플렉서(MUX)(1040)에서 수신된다.
ig와 iB는 모두 멀티플렉서(1040)으로 출력되며 송신기(1045)에 의해 채널(125)을 통해 인핸스먼트 레이어 디코더(1060)로 송신된다. 이득값 ig의 표현은 도시된 바와 같이 채널(125)로의 전송을 위해 출력되나 원한다면 저장될 수도 있다.
디코더 측에서는 인핸스먼트 레이어 디코더(1060)의 동작 중에 ig와 iE는 채널(125)로부터 수신되어 DEMUX(1065)에 의해 디멀티플렉싱된다. 따라서 인핸스먼트 레이어 디코더는 코딩된 오디오 신호
Figure pct00093
, 코딩된 균형 인자 i B 및 코딩된 이득값 i g를 수신한다. 이득 벡터 디코더(1070)는 도시된 바와 같이 주파수 선택 이득 생성기(1075)와 스케일링 유닛(1080)을 포함한다. 이득 벡터 디코더(1070)는 코딩된 이득값으로부터 디코딩된 이득값을 생성한다. 코딩된 이득값 i g는 주파수 선택 이득 생성기(1075)에 입력되고, 이 생성기는 인코더(1010)의 해당 방법에 따라서 이득 벡터 g *를 생성한다. 그러면, 이 이득 벡터 g *는 스케일링 유닛(1080)에 인가되고, 이 유닛은 코딩된 이득값 g *를 가지고 그 코딩된 오디오 신호
Figure pct00094
를 스케일링하여 스케일링된 오디오 신호를 생성한다. 신호 조합기(1095)는 스케일링된 오디오 신호
Figure pct00095
에 대한 균형 인자 디코더(1090)의 코딩된 균형 인자 출력 신호를 수신하여, 증강된 출력 오디오 신호로서 나타낸 디코딩된 다중채널 오디오 신호를 생성한다.
예시적인 인핸스먼트 레이어 인코더와 인핸스먼트 레이어 디코더의 블록도(1100)에서는, 수학식 33과 관련하여 전술한 바와 같이 균형 인자 생성기(1030)가 이득에 종속된 균형 인자를 생성한다. 이는 Gj 신호(1110)를 생성하는 에러 신호 생성기로 나타나 있다.
이제 도 12 내지 14를 참조로 설명하면, 여기서 설명된 여러 가지 실시에의 방법을 포괄하는 흐름이 제시된다. 도 12의 흐름(1200)에서는 다중채널 오디오 신호를 코딩하는 방법이 제시된다. 블록(1210)에서, 복수의 오디오 신호를 가진 다중채널 오디오 신호가 수신된다. 블록(1220)에서, 다중채널 오디오 신호가 코딩되어 코딩된 오디오 신호를 생성한다. 이 코딩된 오디오 신호는 모노 신호이거나, 아니면 도면에서 예시한 스테레오 신호와 같은 다중채널 신호일 수 있다. 더욱이 이 코딩된 오디오 신호는 복수의 채널을 포함할 수 있다. 코어 레이어에는 하나보다 많은 채널이 있을 수 있으며, 인핸스먼트 레이어의 채널 수는 코어 레이어의 채널 수보다 많을 수 있다. 다음, 블록(1230)에서, 다중채널 오디오 신호의 오디오 신호와 연관된 균형 인자 성분을 가진 균형 인자가 생성된다. 수학식 18, 수학식 21, 수학식 24 및 수학식 33은 그러한 균형 인자의 생성을 기술한다. 각 균형 인자 성분은, 수학식 38의 경우에서처럼, 생성된 다른 균형 인자 성분에 종속될 수 있다. 균형 인자를 생성하는 것은, 수학식 33과 수학식 36에서와 같이, 스케일링된 코딩된 오디오 신호와 다중채널 오디오 신호의 오디오 신호들 중 적어도 하나 간의 상관값을 생성하는 것을 포함할 수 있다. 오디오 신호들 중 적어도 하나 간의 자기상관은 수학식 38에서처럼 생성될 수 있으며, 이로부터 제곱근이 생성될 수 있다. 블록(1240)에서, 균형 인자와 다중채널 오디오 신호에 기초하여 다중채널 오디오 신호의 추정치를 생성하기 위해 상기 코딩된 오디오 신호에 적용될 이득값이 결정된다. 이 이득값은 다중채널 오디오 신호와 다중채널 오디오 신호의 추정치 간의 왜곡값을 최소화하도록 구성된다. 수학식 27, 수학식 28, 수학식 29 및 수학식 30은 이 이득값을 결정하는 것을 기술한다. 복수의 이득값 중에서 한 이득값을 선택하여 그 코딩된 오디오 신호를 스케일링하고 그 스케일링된 코딩된 오디오 신호를 생성할 수 있다. 왜곡값은 이 추정치에 기초하여 생성될 수 있고, 이득값은 이 왜곡값에 기초할 수 있다. 블록(1250)에서, 이득값 표현은 전송 및/또는 저장을 위해 출력된다.
도 13의 흐름(1300)은 여러 가지 실시예에 따른, 다중채널 오디오 신호를 코딩하는 다른 방법을 기술한다. 블록(1310)에서, 복수의 오디오 신호를 가진 다중채널 오디오 신호가 수신된다. 블록(1320)에서, 다중채널 오디오 신호가 코딩되어 코딩된 오디오 신호를 생성한다. 블록(1310, 1320)의 처리는 전술한 바와 같이 코어 레이어 인코더에 의해 수행된다. 전술한 바와 같이, 이 코딩된 오디오 신호는 모노 신호이거나, 아니면 도면에서 예시한 스테레오 신호와 같은 다중채널 신호일 수 있다. 더욱이 이 코딩된 오디오 신호는 복수의 채널을 포함할 수 있다. 코어 레이어에는 하나보다 많은 채널이 있을 수 있으며, 인핸스먼트 레이어의 채널 수는 코어 레이어의 채널 수보다 많을 수 있다.
블록(1330)에서, 코딩된 오디오 신호는 많은 이득값을 가지고 스케일링되어 많은 후보 코딩된 오디오 신호를 생성하는데, 이 후보 코딩된 오디오 신호들 중 적어도 하나가 스케일링된다. 스케일링은 이득 벡터 생성기의 스케일링 유닛에 의해 달성된다. 전술한 바와 같이, 코딩된 오디오 신호를 스케일링하는 것은 1(unity)의 이득값을 가지고 스케일링하는 것을 포함할 수 있다. 복수의 이득값의 이득값은 전술한 바와 같이 벡터 g j를 대각 성분으로 가진 이득 행렬일 수 있다. 이득 행렬은 주파수 선택적일 수 있다. 이는 도면에서 예시한 코딩된 오디오 신호인, 코어 레이어의 출력에 종속될 수 있다. 복수의 이득값 중에서 한 이득값을 선택하여 그 코딩된 오디오 신호를 스케일링하고 그 스케일링된 코딩된 오디오 신호를 생성할 수 있다. 블록(1340)에서, 다중채널 오디오 신호의 오디오 신호와 연관된 균형 인자 성분을 가진 균형 인자가 생성된다. 균형 인자 생성은 균형 인자 생성기에 의해 수행된다. 각 균형 인자 성분은, 수학식 38의 경우에서처럼, 생성된 다른 균형 인자 성분에 종속될 수 있다. 균형 인자를 생성하는 것은, 수학식 33과 수학식 36에서와 같이, 스케일링된 코딩된 오디오 신호와 다중채널 오디오 신호의 오디오 신호들 중 적어도 하나 간의 상관값을 생성하는 것을 포함할 수 있다. 오디오 신호들 중 적어도 하나 간의 자기상관은 수학식 38에서처럼 생성될 수 있으며, 이로부터 제곱근이 생성될 수 있다.
블록(1350)에서, 균형 인자와 그 적어도 하나의 스케일링된 코딩된 오디오 신호에 기초하여 다중채널 오디오 신호의 추정치가 생성된다. 이 추정치는 스케일링된 코딩된 오디오 신호(들)와 생성된 균형 인자에 기초하여 생성된다. 이 추정치는 복수의 후보 코딩된 오디오 신호에 대응하는 많은 추정치를 포함할 수 있다. 블록(1360)에서, 이 다중채널 오디오 신호의 추정치와 다중채널 오디오 신호에 기초하여 왜곡값이 평가 및/또는 생성되어 이득값들 중 최적 이득값의 표현을 결정할 수 있다. 이 왜곡값은 복수의 추정치에 대응하는 복수의 왜곡값을 포함할 수 있다. 왜곡값 평가는 이득 선택기 회로에 의해 수행된다. 최적 이득값 표현은 수학식 39로 주어진다. 블록(1370)에서, 이득값 표현은 전송 및/또는 저장을 위해 출력된다. 인핸스먼트 레이어 인코더의 송신기는 전술한 바와 같이 이득값 표현을 송신할 수 있다.
도 14의 플로우차트(1400)로 구현된 프로세스는 다중채널 오디오 신호의 디코딩을 예시한다. 블록(1410)에서, 코딩된 오디오 신호, 코딩된 균형 인자 및 코딩된 이득값이 수신된다. 블록(1420)에서, 코딩된 이득값으로부터 디코딩된 이득값이 생성된다. 이득값은 전술한 바와 같이 이득 행렬일 수 있으며, 이 이득 행렬은 주파수 선택적일 수 있다. 이 이득 행렬은 코어 레이어의 출력으로서 수신된 코딩된 오디오에 종속될 수도 있다. 더욱이 이 코딩된 오디오 신호는 모노 신호이거나, 아니면 도면에서 예시한 스테레오 신호와 같은 다중채널 신호일 수 있다. 게다가 이 코딩된 오디오 신호는 복수의 채널을 포함할 수 있다. 예컨대 코어 레이어에는 하나보다 많은 채널이 있을 수 있으며, 인핸스먼트 레이어의 채널 수는 코어 레이어의 채널 수보다 많을 수 있다.
블록(1430)에서, 코딩된 오디오 신호는 그 디코딩된 이득값을 가지고 스케일링되어 스케일링된 오디오 신호를 생성한다. 블록(1440)에서, 코딩된 균형 인자는 스케일링된 오디오 신호에 적용되어 디코딩된 다중채널 오디오 신호를 생성한다. 블록(1450)에서, 이 디코딩된 다중채널 오디오 신호가 출력된다.
피크 검출에 기초한 선택적 스케일링 마스크 계산
이득 벡터 g j를 구성하는 대각 요소를 가진 대각 행렬인 주파수 선택 이득 행렬 G j는 상기 수학식 14에서처럼 다음과 같이 정의될 수 있다.
Figure pct00096
여기서, Δ는 스텝 사이즈(예컨대,
Figure pct00097
), α는 상수, M은 후보 수(예컨대, M=8로서, 3 비트만을 이용하여 나타낼 수 있음), kl와 kh는 각각 이득 감소가 일어날 수 있는 저주파 컷오프와 고주파 컷오프이다. 여기서 k는 k번째 MDCT 또는 푸리에 변환 계수를 나타낸다. g j는 주파수 선택적이지만 이전 레이어의 출력과는 무관함에 유의한다. 이득 벡터 g j는 앞서 코딩된 신호 벡터, 이 경우에는
Figure pct00098
의 코딩된 요소의 함수에 기초할 수 있다. 이것은 다음과 같이 표현될 수 있다.
Figure pct00099
(2개 이상의 레이어를 가진) 멀티레이어 임베디드 코딩 시스템에서는, 이득 벡터 g j에 의해 스케일링될 출력
Figure pct00100
는 적어도 2개의 이전 레이어의 기여에 따라 얻어진다. 즉, 다음과 같다.
Figure pct00101
여기서,
Figure pct00102
은 제1 레이어(코어 레이어)의 출력이고,
Figure pct00103
는 제2 레이어 또는 제1 인핸스먼트 레이어의 기여분이다. 이 경우에 이득 벡터 g j는 앞서 코딩된 신호 벡터
Figure pct00104
의 코딩된 요소와 제1 인핸스먼트 레이어의 기여분의 함수일 수 있다.
Figure pct00105
가청 잡음의 대부분은 하위 레이어의 코딩 모델때문에 밸리(valley)에 있지 않고 피크에 있음이 관찰되었다. 즉, 스펙트럼 피크에 원 스펙트럼과 코딩된 스펙트럼 간에 더 양호한 매치가 있다. 따라서 피크는 변경되어서는 안되며, 즉, 스케일링이 밸리에만 한정되어야 한다. 이 관찰을 바람직하게 이용하기 위하여, 실시예들 중 하나에서는 수학식 41의 함수는
Figure pct00106
의 피크와 밸리에 기초한다.
Figure pct00107
Figure pct00108
의 검출된 피크 크기에 기초한 스케일링 마스크(mask)라고 하자. 이 스케일링 마스크는 검출된 피크에 비영값을 가진 벡터값 함수일 수 있는데, 즉, 다음과 같다.
Figure pct00109
여기서,
Figure pct00110
Figure pct00111
의 i번째 요소이다. 그러면 수학식 41은 다음과 같이 변형될 수 있다.
Figure pct00112
피크 검출에는 여러 가지 방식이 이용될 수 있다. 바람직한 실시예에서, 절대 스펙트럼
Figure pct00113
를 2개의 독립된 가중 평균화 필터에 통과시킨 다음에 필터링된 출력들을 비교함으로써 피크가 검출된다. A 1A 2를 2개의 평균화 필터의 행렬식이라고 하자. l1과 l2(l1>l2)를 2개 필터의 길이라고 하자. 피크 검출 함수는 다음과 같이 주어진다.
Figure pct00114
여기서, β는 실험적 임계치이다.
일례로서 도 15와 도 16을 참조하여 설명한다. 여기서 MDCT 도메인에서의 코딩된 신호의 절대치
Figure pct00115
는 양 도면에서 도면부호 1510으로 주어진다. 이 신호는 도시된 바와 같은 규칙적으로 이격된 고조파 계열을 만들어내는 "피치 파이프(pitch pipe)"로부터의 소리를 대표한다. 이 신호는, 그 기본 주파수가 음성 신호에 합당한 것으로 생각되는 것의 범위를 벗어나 있기 때문에, 음성 모델에 기초한 코어 레이어 코더를 이용하여 코딩하기가 어렵다. 그 결과, 코어 레이어에 의해 생성한 잡음 레벨이 상당히 높게 되고, 이는 코딩된 신호(1510)를 원 신호
Figure pct00116
(1610)의 모노 버전을 비교해 보면 알 수 있다.
임계치 생성기를 이용하여 그 코딩된 신호(1510)를 이용하여 수학식 45에서의 식
Figure pct00117
에 해당하는 임계치(1520)를 생성한다. 여기서 A 1은 바람직한 실시예에서는 길이 45의 코사인창(cosine window)을 가진 신호
Figure pct00118
의 콘볼루션을 구현하는 콘볼루션 행렬이다. 많은 창 형태가 가능하며 다양한 길이를 가질 수 있다. 또한, 바람직한 실시예에서 A 2는 항등 행렬이다. 그러면 피크 검출기는 신호(1510)를 임계치(1520)와 비교하여 도면부호 1530으로 나타낸 바와 같은 스케일링 마스크
Figure pct00119
를 생성한다.
그러면, (수학식 45에 주어진) 코어 레이어 스케일링 벡터 후보를 이용하여 상기 코딩된 신호
Figure pct00120
의 피크들 간 잡음을 스케일링하여 스케일링된 재구성된 신호(1620)를 생성할 수 있다. 최적 후보는 상기 수학식 39로 기술된 프로세스 등에 따라서 선택될 수 있다.
이제 도 17 내지 19를 참조로 설명하면, 여러 가지 실시예에 따른, 전술한 피크 검출에 기초한 선택적 스케일링 마스크 계산과 관련된 방법을 설명하는 흐름도가 제시된다. 도 17의 흐름도(1700) 중에서, 블록(1710)에서, 수신된 오디오 신호의 재구성된 오디오 벡터
Figure pct00121
의 피크들의 세트가 검출된다. 오디오 신호는 복수의 레이어에 임베드될 수 있다. 재구성된 오디오 벡터
Figure pct00122
는 주파수 도메인에 있을 수 있고 피크들의 세트는 주파수 도메인 피크일 수 있다. 피크들의 세트 검출은 예컨대 수학식 46으로 주어진 피크 검출 함수에 따라서 수행된다. 이 세트는, 모든 것이 감쇄되어 피크가 없는 경우처럼, 비어있을 수 있음에 유의한다. 블록(1720)에서, 검출된 피크들의 세트에 기초하여 스케일링 마스크
Figure pct00123
가 생성된다. 그러면, 블록(1730)에서, 적어도 하나의 스케일링 마스크와 이득 벡터를 대표하는 지수 j에 기초하여 이득 벡터 g *가 생성된다. 블록(1740)에서, 이 이득 벡터를 가진 재구성된 오디오 신호가 스케일링되어 스케일링된 재구성된 오디오 신호를 생성한다. 블록(1750)에서, 오디오 신호와 스케일링된 재구성된 오디오 신호에 기초하여 왜곡이 발생된다. 블록(1760)에서, 그 발생된 왜곡에 기초하여 이득 벡터의 지수가 출력된다.
이제 도 18을 참조로 설명하면, 흐름도(1800)는 특정 실시예에 따른 오디오 신호를 인코딩하는 대안적인 실시예를 예시한다. 블록(1810)에서, 오디오 신호가 수신된다. 이 오디오 신호는 복수의 레이어에 임베드되어 있을 수 있다. 그 다음, 블록(1820)에서, 이 오디오 신호는 인코딩되어 재구성된 오디오 벡터
Figure pct00124
를 생성한다. 재구성된 오디오 벡터
Figure pct00125
는 주파수 도메인에 있을 수 있고 피크들의 세트는 주파수 도메인 피크일 수 있다. 블록(1830)에서, 수신된 오디오 신호의 재구성된 오디오 벡터
Figure pct00126
의 피크들의 세트가 검출된다. 피크들의 세트 검출은 예컨대 수학식 46으로 주어진 피크 검출 함수에 따라서 수행된다. 또한 이 세트는, 모든 것이 감쇄되어 피크가 없는 경우처럼, 비어있을 수 있음에 유의한다. 블록(1840)에서, 검출된 피크들의 세트에 기초하여 스케일링 마스크
Figure pct00127
가 생성된다. 블록(1850)에서, 스케일링 마스크에 기초하여 복수의 이득 벡터 gj가 생성된다. 블록(1860)에서, 재구성된 오디오 신호가 복수의 이득 벡터를 가지고 스케일링되어 복수의 스케일링된 재구성된 오디오 신호를 생성한다. 다음, 블록(1870)에서, 오디오 신호와 복수의 스케일링된 재구성된 오디오 신호에 기초하여 복수의 왜곡이 발생된다. 블록(1880)에서, 복수의 왜곡에 기초하여 복수의 이득 벡터 중에서 한 이득 벡터가 선택된다. 이득 벡터는 복수의 왜곡 중에 최소 왜곡과 일치하도록 선택될 수 있다. 블록(1890)에서, 이득 벡터를 대표하는 지수가 출력되어 전송 및/또는 저장된다.
도 17 및 18에 예시된 인코더 흐름은 전술한 장치 구조에 의해 구현될 수 있다. 흐름(1700)을 참조하면, 오디오 신호를 코딩하도록 동작하는 장치에서, 인핸스먼트 레이어 인코더(1010)의 이득 벡터 생성기(1020)의 이득 선택기(1035)와 같은 이득 선택기는 수신된 오디오 신호의 재구성된 오디오 벡터
Figure pct00128
의 피크들의 세트를 검출하고 이 검출된 피크들의 세트에 기초하여 스케일링 마스크
Figure pct00129
를 생성한다. 또한 이 오디오 신호는 복수의 레이어에 임베드되어 있을 수 있다. 이 재구성된 오디오 벡터
Figure pct00130
는 주파수 도메인에 있을 수 있고 피크들의 세트는 주파수 도메인 피크일 수 있다. 피크들의 세트 검출은 예컨대 수학식 46으로 주어진 피크 검출 함수에 따라서 수행된다. 이 세트는, 신호 내의 모든 것이 감쇄되었다면 비어있을 수 있음에 유의한다. 이득 벡터 생성기(1020)의 스케일링 유닛(1025)과 같은 스케일링 유닛은 적어도 스케일링 마스크와 이득 벡터를 대표하는 지수 j에 기초하여 이득 벡터 g *를 생성하고, 이 이득 벡터를 가지고 상기 재구성된 오디오 신호를 스케일링하여 스케일링된 재구성된 오디오 신호를 생성한다. 이득 벡터 생성기(1025)의 에러 신호 생성기(1030)는 오디오 신호와 스케일링된 재구성된 오디오 신호에 기초하여 왜곡을 발생한다. 인핸스먼트 레이어 디코더(1010)의 송신기(1045)와 같은 송신기는 그 발생된 왜곡에 기초하여 이득 벡터의 지수를 출력하도록 동작한다.
도 18의 흐름(1800)을 참조하면, 오디오 신호를 코딩하도록 동작하는 장치에서, 인코더는 오디오 신호를 수신하고 이 오디오 신호를 인코딩하여 재구성된 오디오 벡터
Figure pct00131
를 생성한다. 이득 벡터 생성기(1020)의 스케일링 유닛(1025)과 같은 스케일링 유닛은 수신된 오디오 신호의 재구성된 오디오 벡터
Figure pct00132
의 피크들의 세트를 검출하고, 이 검출된 피크들의 세트에 기초하여 스케일링 마스크
Figure pct00133
를 생성하고, 이 스케일링 마스크에 기초하여 복수의 이득 벡터 gj를 생성하고, 이 복수의 이득 벡터를 가지고 상기 재구성된 오디오 신호를 스케일링하여 복수의 스케일링된 재구성된 오디오 신호를 생성한다. 에러 신호 생성기(1030)는 오디오 신호와 복수의 스케일링된 재구성된 오디오 신호에 기초하여 복수의 왜곡을 발생한다. 이득 선택기(1035)와 같은 이득 선택기는 이 복수의 왜곡에 기초하여 복수의 이득 벡터 중에서 하나를 선택한다. 예컨대 송신기(1045)는 후의 전송 및/또는 저장을 위해 이득 벡터를 대표하는 지수를 출력한다.
도 19의 흐름도(1900)에는 오디오 신호 디코딩 방법이 예시되어 있다. 블록(1910)에서, 재구성된 오디오 벡터
Figure pct00134
와 이득 벡터를 대표하는 지수가 수신된다. 블록(1920)에서, 재구성된 오디오 벡터의 피크들의 세트가 검출된다. 피크들의 세트 검출은 예컨대 수학식 46으로 주어진 피크 검출 함수에 따라서 수행된다. 또한 이 세트는, 모든 것이 감쇄되어 피크가 없는 경우처럼, 비어있을 수 있음에 유의한다. 블록(1930)에서, 검출된 피크들의 세트에 기초하여 스케일링 마스크
Figure pct00135
가 생성된다. 블록(1940)에서, 적어도 스케일링 마스크와 이득 벡터를 대표하는 지수에 기초하여 이득 벡터 g *가 생성된다. 블록(1950)에서, 재구성된 오디오 신호가 이득 벡터를 가지고 스케일링되어 스케일링된 재구성된 오디오 신호를 생성한다. 이 방법은 재구성된 오디오 벡터에 대한 인핸스먼트를 생성한 다음에, 그 스케일링된 재구성된 오디오 신호와 그 재구성된 오디오 벡터에 대한 인핸스먼트를 조합하여 증강된 디코딩된 신호를 생성하는 것을 더 포함할 수 있다.
도 19에 예시된 디코더 흐름은 전술한 장치 구조에 의해 구현될 수 있다. 오디오 신호를 디코딩하도록 동작하는 장치에서, 예컨대 인핸스먼트 레이어 디코더(1060)의 이득 벡터 디코더(1070)는 재구성된 오디오 벡터
Figure pct00136
와 이득 벡터 ig를 대표하는 지수를 수신한다. 도 10에 도시된 바와 같이 재구성된 오디오 벡터
Figure pct00137
가 이득 벡터 디코더(1070)의 스케일링 유닛(1080)에 의해 수신되는 반면에 ig는 이득 선택기(1075)에 의해 수신된다. 이득 벡터 디코더(1070)의 이득 선택기(1075)와 같은 이득 선택기는 재구성된 오디오 벡터의 피크들의 세트를 검출하고, 이 검출된 피크들의 세트에 기초하여 스케일링 마스크
Figure pct00138
를 생성하고, 적어도 스케일링 마스크와 이득 벡터를 대표하는 지수에 기초하여 이득 벡터 g *를 생성한다. 또한 이 세트는 신호가 대부분 감쇄된다면 파일이 없을 수 있다. 이득 선택기는 예컨대 수학식 46으로 주어진 것과 같은 피크 검출 함수에 따라서 피크들의 세트를 검출한다. 예컨대 스케일링 유닛(1080)은 이득 벡터를 가지고 상기 재구성된 오디오 벡터를 스케일링하여 스케일링된 재구성된 오디오 신호를 생성한다.
더욱이 도 6에서의 인핸스먼트 레이어 디코더의 에러 신호 디코더(665)와 같은 에러 신호 디코더는 그 재구성된 오디오 벡터에 대한 인핸스먼트를 생성할 수 있다. 도 6의 신호 조합기(675)와 같은 신호 조합기는 그 스케일링된 재구성된 오디오 신호와 그 재구성된 오디오 벡터에 대한 인핸스먼트를 조합하여 증강된 디코딩된 신호를 생성한다.
또한 도 12 내지 14의 균형 인자에 관련된 흐름과 도 17 내지 19의 피크 검출을 갖는 선택적 스케일링 마스크에 관련된 흐름은 여러 가지로 조합하여 수행될 수 있고 그러한 것은 여기서 설명된 장치와 구조에 의해 지원됨에 유의한다.
지금까지 본 발명을 특정 실시예를 참조로 구체적으로 설명하였지만, 당업자라면 본 발명의 본질과 범위로부터 벗어남이 없이 본 발명을 그 형태와 세부사항에 있어서 여러 가지로 변경할 수 있음을 잘 알 것이다. 예컨대 상기 기술들은 원격통신 시스템에서 채널을 통해 송수신하는 것에 관해 설명하지만, 이 기술들은 고상 메모리 장치나 컴퓨터 하드디스크와 같은 디지털 매체 장치에 대한 저장 요건을 완화하기 위해 신호 압축 시스템을 이용하는 시스템에도 똑같이 적용될 수 있다. 그러한 변경도 하기 청구범위에 속한다고 할 것이다.

Claims (18)

  1. 다중채널 오디오 신호를 코딩하도록 동작하는 장치로서,
    복수의 오디오 신호를 포함하는 다중채널 오디오 신호를 수신하고 상기 다중채널 오디오 신호를 코딩하여 코딩된 오디오 신호를 생성하는 인코더;
    코딩된 오디오 신호를 수신하고, 각각 상기 다중채널 오디오 신호의 상기 복수의 오디오 신호 중 하나의 오디오 신호와 연관된 복수의 균형 인자 성분을 가진 균형 인자(balance factor)를 생성하는, 인핸스먼트 레이어 인코더(enhancement layer encoder)의 균형 인자 생성기;
    상기 코딩된 오디오 신호에 적용될 이득값을 결정하여, 상기 균형 인자와 상기 다중채널 오디오 신호에 기초하여 상기 다중채널 오디오 신호의 추정치를 생성하는, 인핸스먼트 레이어 인코더의 이득 벡터 생성기 - 상기 이득값은 상기 다중채널 오디오 신호와 상기 다중채널 오디오 신호의 추정치 간의 왜곡값(distortion value)을 최소화하도록 구성됨 - ; 및
    전송과 저장 중 적어도 하나를 위해 상기 이득값의 표현을 송신하는 송신기
    를 포함하는 다중채널 오디오 신호 코딩 장치.
  2. 제1항에 있어서,
    복수의 이득값을 가지고 상기 코딩된 오디오 신호를 스케일링하여 복수의 후보 코딩된 오디오 신호를 생성하는, 상기 인핸스먼트 레이어 인코더의 스케일링 유닛 - 상기 후보 코딩된 오디오 신호들 중 적어도 하나는 스케일링되고, 상기 스케일링 유닛과 상기 균형 인자 생성기는 상기 균형 인자와 상기 복수의 후보 코딩된 오디오 신호 중 상기 적어도 하나의 스케일링된 코딩된 오디오 신호에 기초하여 상기 다중채널 오디오 신호의 추정치를 생성함 - ; 및
    상기 다중채널 오디오 신호의 추정치와 상기 다중채널 오디오 신호에 기초하여 상기 왜곡값을 평가하여 상기 복수의 이득값 중 최적의 이득값의 표현을 결정하는, 상기 인핸스먼트 레이어 인코더의 이득 선택기
    를 더 포함하는 다중채널 오디오 신호 코딩 장치.
  3. 제1항에 있어서,
    상기 인코더는 상기 오디오 신호를 인코딩하여 재구성된 오디오 벡터
    Figure pct00139
    를 생성하고, 상기 이득 벡터 생성기는
    수신된 오디오 신호의 상기 재구성된 오디오 벡터
    Figure pct00140
    의 피크들의 세트(a set of peaks)를 검출하고, 상기 검출된 피크들의 세트에 기초하여 스케일링 마스크
    Figure pct00141
    를 생성하고, 상기 스케일링 마스크에 기초하여 복수의 이득 벡터 gj를 생성하고, 상기 복수의 이득 벡터를 가지고 상기 재구성된 오디오 신호를 스케일링하여 복수의 스케일링된 재구성된 오디오 신호를 생성하는 스케일링 유닛;
    상기 오디오 신호와 상기 복수의 스케일링된 재구성된 오디오 신호에 기초하여 복수의 왜곡을 생성하는 에러 신호 생성기; 및
    상기 복수의 왜곡에 기초하여 상기 복수의 이득 벡터로부터 하나의 이득 벡터를 선택하는 이득 선택기
    를 더 포함하고,
    상기 송신기는 전송과 저장 중 적어도 한 가지를 위해 상기 이득 벡터를 표현하는 지수(index)를 출력하는 다중채널 오디오 신호 코딩 장치.
  4. 제3항에 있어서,
    상기 이득 선택기는, 또한
    Figure pct00142
    , (β는 임계치임)
    와 같이 주어지는 피크 검출 함수에 따라서 상기 피크들의 세트를 검출하는 다중채널 오디오 신호 코딩 장치.
  5. 다중채널 오디오 신호를 코딩하도록 동작하는 장치로서,
    복수의 오디오 신호를 포함하는 다중채널 오디오 신호를 수신하고 상기 다중채널 오디오 신호를 코딩하여 코딩된 오디오 신호를 생성하는 인코더;
    복수의 이득값을 가지고 상기 코딩된 오디오 신호를 스케일링하여 복수의 후보 코딩된 오디오 신호를 생성하는 인핸스먼트 레이어 인코더의 스케일링 유닛 - 상기 후보 코딩된 오디오 신호들 중 적어도 하나는 스케일링됨 - ;
    각각 상기 다중채널 오디오 신호의 상기 복수의 오디오 신호 중 하나의 오디오 신호와 연관된 복수의 균형 인자 성분을 가진 균형 인자를 생성하는 균형 인자 생성기 - 상기 스케일링 유닛과 상기 균형 인자 생성기는 상기 균형 인자와, 상기 복수의 후보 코딩된 오디오 신호 중 상기 적어도 하나의 스케일링된 코딩된 오디오 신호에 기초하여 상기 다중채널 오디오 신호의 추정치를 생성함 - ;
    상기 다중채널 오디오 신호의 추정치와 상기 다중채널 오디오 신호에 기초하여 왜곡값을 평가하여 상기 복수의 이득값 중 최적의 이득값의 표현을 결정하는, 상기 인핸스먼트 레이어 인코더의 이득 선택기; 및
    전송과 저장 중 적어도 하나를 위해 상기 최적의 이득값의 표현을 송신하는 송신기
    를 포함하는 다중채널 오디오 신호 코딩 장치.
  6. 제5항에 있어서,
    상기 복수의 이득값 중 하나의 이득 값은 벡터 g j를 대각 성분으로 갖는 이득 행렬이고, 상기 이득 행렬은 주파수 선택적인 다중채널 오디오 신호 코딩 장치.
  7. 제5항에 있어서,
    상기 최적의 이득값의 표현은
    Figure pct00143

    와 같이 주어지는 다중채널 오디오 신호 코딩 장치.
  8. 제5항에 있어서,
    각 균형 인자 성분은
    Figure pct00144

    와 같이 주어지는 다중채널 오디오 신호 코딩 장치.
  9. 제5항에 있어서,
    상기 균형 인자 생성기는 상기 스케일링된 코딩된 오디오 신호와 상기 다중채널 오디오 신호의 오디오 신호들 중 적어도 하나 간의 상관값을 생성하는 다중채널 오디오 신호 코딩 장치.
  10. 제5항에 있어서,
    상기 균형 인자 생성기는 상기 다중채널 오디오 신호의 오디오 신호들 중 적어도 하나 간의 자기 상관(self correlation)을 생성하고 상기 자기 상관의 제곱근을 생성하는 다중채널 오디오 신호 코딩 장치.
  11. 제5항에 있어서,
    상기 이득 선택기는 상기 다중채널 오디오 신호의 추정치와 상기 다중채널 오디오 신호에 기초하여 왜곡값을 생성하고, 상기 이득값은 상기 왜곡값에 기초하는, 다중채널 오디오 신호 코딩 장치.
  12. 제5항에 있어서,
    상기 추정치는 상기 복수의 후보 코딩된 오디오 신호에 대응하는 복수의 추정치를 포함하는 다중채널 오디오 신호 코딩 장치.
  13. 제5항에 있어서,
    상기 코딩된 오디오 신호는 모노 채널 신호 및 다중 채널 신호 중 하나인 다중채널 오디오 신호 코딩 장치.
  14. 제13항에 있어서,
    상기 코딩된 다중채널 오디오 신호는 스테레오 신호인 다중채널 오디오 신호 코딩 장치.
  15. 다중채널 오디오 신호를 코딩하는 방법으로서,
    복수의 오디오 신호를 포함하는 다중채널 오디오 신호를 수신하는 단계;
    코딩된 오디오 신호를 생성하기 위해 상기 다중채널 오디오 신호를 코딩하는 단계;
    각각 상기 다중채널 오디오 신호의 상기 복수의 오디오 신호 중 하나의 오디오 신호와 연관된 복수의 균형 인자 성분을 갖는 균형 인자를 생성하는 단계;
    상기 균형 인자와 상기 다중채널 오디오 신호에 기초하여 상기 다중채널 오디오 신호의 추정치를 생성하기 위해 상기 코딩된 오디오 신호에 적용될 이득값을 결정하는 단계 - 상기 이득값은 상기 다중채널 오디오 신호와 상기 다중채널 오디오 신호의 추정치 간의 왜곡값을 최소화하도록 구성됨 - ; 및
    전송과 저장 중 적어도 하나를 위한 상기 이득값의 표현을 출력하는 단계
    를 포함하는 다중채널 오디오 신호 코딩 방법.
  16. 제15항에 있어서,
    복수의 후보 코딩된 오디오 신호를 생성하기 위해 복수의 이득값을 가지고 상기 코딩된 오디오 신호를 스케일링하는 단계 - 상기 후보 코딩된 오디오 신호들 중 적어도 하나는 스케일링됨 - ;
    상기 균형 인자와 상기 복수의 후보 코딩된 오디오 신호 중 상기 적어도 하나의 스케일링된 코딩된 오디오 신호에 기초하여 상기 다중채널 오디오 신호의 추정치를 생성하는 단계; 및
    상기 복수의 이득값 중 최적의 이득값의 표현을 결정하기 위해 상기 다중채널 오디오 신호의 추정치와 상기 다중채널 오디오 신호에 기초하여 상기 왜곡값을 평가하는 단계
    를 더 포함하는 다중채널 오디오 신호 코딩 방법.
  17. 제15항에 있어서,
    수신된 오디오 신호의 재구성된 오디오 벡터
    Figure pct00145
    의 피크들의 세트를 검출하는 단계;
    상기 검출된 피크들의 세트에 기초하여 스케일링 마스크
    Figure pct00146
    를 생성하는 단계;
    적어도 상기 스케일링 마스크와 상기 이득 벡터를 표현하는 지수 j에 기초하여 이득 벡터 g *를 생성하는 단계;
    스케일링된 재구성된 오디오 신호를 생성하기 위해 상기 이득 벡터를 가지고 상기 재구성된 오디오 신호를 스케일링하는 단계;
    상기 오디오 신호와 상기 스케일링된 재구성된 오디오 신호에 기초하여 왜곡을 생성하는 단계; 및
    상기 생성된 왜곡에 기초하여 상기 이득 벡터의 지수를 출력하는 단계
    를 더 포함하는 다중채널 오디오 신호 코딩 방법.
  18. 제15항에 있어서,
    오디오 신호를 수신하는 단계;
    재구성된 오디오 벡터
    Figure pct00147
    를 생성하기 위해 상기 오디오 신호를 인코딩하는 단계;
    수신된 오디오 신호의 상기 재구성된 오디오 벡터
    Figure pct00148
    의 피크들의 세트를 검출하는 단계;
    상기 검출된 피크들의 세트에 기초하여 스케일링 마스크
    Figure pct00149
    를 생성하는 단계;
    상기 스케일링 마스크에 기초하여 복수의 이득 벡터 gj를 생성하는 단계;
    상기 복수의 스케일링된 재구성된 오디오 신호를 생성하기 위해 상기 복수의 이득 벡터를 가지고 상기 재구성된 오디오 신호를 스케일링하는 단계;
    상기 오디오 신호와 상기 복수의 스케일링된 재구성된 오디오 신호에 기초하여 복수의 왜곡을 생성하는 단계;
    상기 복수의 왜곡에 기초하여 상기 복수의 이득 벡터로부터 하나의 이득 벡터를 선택하는 단계; 및
    전송과 저장 중 적어도 하나를 위해 상기 이득 벡터를 표현하는 지수를 출력하는 단계
    를 더 포함하는 다중채널 오디오 신호 코딩 방법.
KR1020117014850A 2008-12-29 2009-12-03 다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치 KR101180202B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/345,165 2008-12-29
US12/345,165 US8175888B2 (en) 2008-12-29 2008-12-29 Enhanced layered gain factor balancing within a multiple-channel audio coding system
PCT/US2009/066507 WO2010077542A1 (en) 2008-12-29 2009-12-03 Method and apprataus for generating an enhancement layer within a multiple-channel audio coding system

Publications (2)

Publication Number Publication Date
KR20110100237A true KR20110100237A (ko) 2011-09-09
KR101180202B1 KR101180202B1 (ko) 2012-09-05

Family

ID=41718242

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117014850A KR101180202B1 (ko) 2008-12-29 2009-12-03 다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치

Country Status (6)

Country Link
US (2) US8175888B2 (ko)
EP (1) EP2382621B1 (ko)
KR (1) KR101180202B1 (ko)
CN (1) CN102265337B (ko)
ES (1) ES2430639T3 (ko)
WO (1) WO2010077542A1 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1839445A2 (en) * 2005-01-18 2007-10-03 Thomson Licensing Method and apparatus for estimating channel induced distortion
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
ATE474312T1 (de) * 2007-02-12 2010-07-15 Dolby Lab Licensing Corp Verbessertes verhältnis von sprachlichen zu nichtsprachlichen audio-inhalten für ältere oder hörgeschädigte zuhörer
EP2118885B1 (en) 2007-02-26 2012-07-11 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US7889103B2 (en) 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8149144B2 (en) * 2009-12-31 2012-04-03 Motorola Mobility, Inc. Hybrid arithmetic-combinatorial encoder
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
EP2975610B1 (en) 2010-11-22 2019-04-24 Ntt Docomo, Inc. Audio encoding device and method
WO2012093290A1 (en) * 2011-01-05 2012-07-12 Nokia Corporation Multi-channel encoding and/or decoding
WO2013051210A1 (ja) * 2011-10-07 2013-04-11 パナソニック株式会社 符号化装置及び符号化方法
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US10366698B2 (en) * 2016-08-30 2019-07-30 Dts, Inc. Variable length coding of indices and bit scheduling in a pyramid vector quantizer

Family Cites Families (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560977A (en) * 1982-06-11 1985-12-24 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4670851A (en) * 1984-01-09 1987-06-02 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4727354A (en) * 1987-01-07 1988-02-23 Unisys Corporation System for selecting best fit vector code in vector quantization encoding
JP2527351B2 (ja) * 1987-02-25 1996-08-21 富士写真フイルム株式会社 画像デ―タの圧縮方法
US5067152A (en) * 1989-01-30 1991-11-19 Information Technologies Research, Inc. Method and apparatus for vector quantization
DE68922610T2 (de) * 1989-09-25 1996-02-22 Rai Radiotelevisione Italiana Umfassendes System zur Codierung und Übertragung von Videosignalen mit Bewegungsvektoren.
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6253185B1 (en) * 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6904174B1 (en) * 1998-12-11 2005-06-07 Intel Corporation Simplified predictive video encoder
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
JP4249821B2 (ja) 1998-08-31 2009-04-08 富士通株式会社 ディジタルオーディオ再生装置
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
WO2000060575A1 (en) * 1999-04-05 2000-10-12 Hughes Electronics Corporation A voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6236960B1 (en) * 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6504877B1 (en) * 1999-12-14 2003-01-07 Agere Systems Inc. Successively refinable Trellis-Based Scalar Vector quantizers
JP4149637B2 (ja) * 2000-05-25 2008-09-10 株式会社東芝 半導体装置
US6304196B1 (en) * 2000-10-19 2001-10-16 Integrated Device Technology, Inc. Disparity and transition density control system and method
AUPR105000A0 (en) * 2000-10-27 2000-11-23 Canon Kabushiki Kaisha Method for generating and detecting marks
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
JP3404024B2 (ja) * 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3636094B2 (ja) * 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6662154B2 (en) * 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
US6947886B2 (en) 2002-02-21 2005-09-20 The Regents Of The University Of California Scalable compression of audio and other signals
CN1266673C (zh) * 2002-03-12 2006-07-26 诺基亚有限公司 可伸缩音频编码的有效改进
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
CA2524243C (en) 2003-04-30 2013-02-19 Matsushita Electric Industrial Co. Ltd. Speech coding apparatus including enhancement layer performing long term prediction
JP2005005844A (ja) * 2003-06-10 2005-01-06 Hitachi Ltd 計算装置及び符号化処理プログラム
JP4123109B2 (ja) * 2003-08-29 2008-07-23 日本ビクター株式会社 変調装置及び変調方法並びに復調装置及び復調方法
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
PL3561810T3 (pl) * 2004-04-05 2023-09-04 Koninklijke Philips N.V. Sposób kodowania lewego i prawego sygnału wejściowego audio, odpowiedni koder, dekoder i produkt w postaci programu komputerowego
US20060022374A1 (en) * 2004-07-28 2006-02-02 Sun Turn Industrial Co., Ltd. Processing method for making column-shaped foam
US6975253B1 (en) * 2004-08-06 2005-12-13 Analog Devices, Inc. System and method for static Huffman decoding
US7161507B2 (en) * 2004-08-20 2007-01-09 1St Works Corporation Fast, practically optimal entropy coding
US20060047522A1 (en) 2004-08-26 2006-03-02 Nokia Corporation Method, apparatus and computer program to provide predictor adaptation for advanced audio coding (AAC) system
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
CN101091208B (zh) * 2004-12-27 2011-07-13 松下电器产业株式会社 语音编码装置和语音编码方法
US20060190246A1 (en) * 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC
KR101346120B1 (ko) * 2005-03-30 2014-01-02 코닌클리케 필립스 엔.브이. 오디오 인코딩 및 디코딩
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
US7831421B2 (en) 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
US8630864B2 (en) * 2005-07-22 2014-01-14 France Telecom Method for switching rate and bandwidth scalable audio decoding rate
EP1912206B1 (en) 2005-08-31 2013-01-09 Panasonic Corporation Stereo encoding device, stereo decoding device, and stereo encoding method
JP5142723B2 (ja) * 2005-10-14 2013-02-13 パナソニック株式会社 スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
JP4969454B2 (ja) 2005-11-30 2012-07-04 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
WO2007093726A2 (fr) * 2006-02-14 2007-08-23 France Telecom Dispositif de ponderation perceptuelle en codage/decodage audio
US20070239294A1 (en) * 2006-03-29 2007-10-11 Andrea Brueckner Hearing instrument having audio feedback capability
US7230550B1 (en) * 2006-05-16 2007-06-12 Motorola, Inc. Low-complexity bit-robust method and system for combining codewords to form a single codeword
US7414549B1 (en) * 2006-08-04 2008-08-19 The Texas A&M University System Wyner-Ziv coding based on TCQ and LDPC codes
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8285555B2 (en) * 2006-11-21 2012-10-09 Samsung Electronics Co., Ltd. Method, medium, and system scalably encoding/decoding audio/speech
BRPI0711094A2 (pt) 2006-11-24 2011-08-23 Lg Eletronics Inc método para codificação e decodificação de sinal de áudio baseado em objeto e aparelho deste
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
JP5369180B2 (ja) 2008-07-11 2013-12-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ サンプリングされたオーディオ信号のフレームを符号化するためのオーディオエンコーダおよびデコーダ
US20100088090A1 (en) * 2008-10-08 2010-04-08 Motorola, Inc. Arithmetic encoding for celp speech encoders
US8219408B2 (en) 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8200496B2 (en) 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8442837B2 (en) 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US9858133B2 (en) 2010-09-20 2018-01-02 Netflix, Inc. Techniques for assessing the resiliency of a distribution computing service provided by a collection of interacting servers

Also Published As

Publication number Publication date
EP2382621B1 (en) 2013-09-18
ES2430639T3 (es) 2013-11-21
US8175888B2 (en) 2012-05-08
EP2382621A1 (en) 2011-11-02
US8340976B2 (en) 2012-12-25
WO2010077542A1 (en) 2010-07-08
CN102265337B (zh) 2013-07-10
KR101180202B1 (ko) 2012-09-05
US20100169101A1 (en) 2010-07-01
CN102265337A (zh) 2011-11-30
US20120226506A1 (en) 2012-09-06

Similar Documents

Publication Publication Date Title
KR101180202B1 (ko) 다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치
KR101274827B1 (ko) 다수 채널 오디오 신호를 디코딩하기 위한 장치 및 방법, 및 다수 채널 오디오 신호를 코딩하기 위한 방법
KR101275892B1 (ko) 오디오 신호를 인코딩하고 디코딩하기 위한 방법 및 장치
KR101274802B1 (ko) 오디오 신호를 인코딩하기 위한 장치 및 방법
US8209190B2 (en) Method and apparatus for generating an enhancement layer within an audio coding system
US7149683B2 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
MXPA98010783A (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150807

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160811

Year of fee payment: 5