KR20140082676A - 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치 - Google Patents

음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치 Download PDF

Info

Publication number
KR20140082676A
KR20140082676A KR1020147008256A KR20147008256A KR20140082676A KR 20140082676 A KR20140082676 A KR 20140082676A KR 1020147008256 A KR1020147008256 A KR 1020147008256A KR 20147008256 A KR20147008256 A KR 20147008256A KR 20140082676 A KR20140082676 A KR 20140082676A
Authority
KR
South Korea
Prior art keywords
transform coefficient
sine wave
adjacent
transform
information
Prior art date
Application number
KR1020147008256A
Other languages
English (en)
Other versions
KR102048076B1 (ko
Inventor
이영한
정규혁
강인규
전혜정
김락용
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20140082676A publication Critical patent/KR20140082676A/ko
Application granted granted Critical
Publication of KR102048076B1 publication Critical patent/KR102048076B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Abstract

본 발명은 음성 신호의 처리 방법 및 장치에 관한 것으로서, 본 발명에 따른 음성 신호의 부호화 방법은 입력 음성 신호를 구성하는 사인파 성분들을 변환하여 상기 사인파 성분들에 대한 변환 계수들을 생성하는 단계, 상기 생성된 변환 계수들 중 부호화 대상 변환 계수들을 결정하는 단계 및 상기 결정된 변환 계수들을 지시하는 지시 정보를 전송하는 단계를 포함하며, 상기 지시 정보는, 변환 계수들의 위치 정보, 크기 정보, 부호 정보를 포함할 수 있다.

Description

음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치{VOICE SIGNAL ENCODING METHOD, VOICE SIGNAL DECODING METHOD, AND APPARATUS USING SAME}
본 발명은 음성 신호의 부호화 및 복호화에 관한 것으로서, 더 구체적으로 사인파(sinusoid) 음성 신호의 부호화 방법 및 장치 그리고 복호화 방법 및 장치에 관한 것이다.
일반적으로, 오디오 신호는 다양한 주파수의 신호가 포함되어 있고, 사람의 가청 주파수는, 20Hz-20kHz인데 비해, 보통 사람의 음성은 약 200Hz-3kHz 영역에 존재한다. 입력 오디오 신호는 사람의 음성이 존재하는 대역뿐만 아니라, 사람의 음성이 존재하기 어려운 7kHz 이상의 고주파 영역의 성분까지 포함하는 경우가 있다.
최근 네트워크의 발달과 고품질 서비스에 대한 사용자 요구가 증가하고 있으며, 협대역(Narrow Band: NB, 이하 'NB'라 함), 광대역(Wide Band: WB, 이하 'WB'라 함), 초광대역(Super Wide Band: SWB, 이하 'SWB'라 함)과 같이 폭넓은 대역을 통해 오디오 신호를 전송하고 있다.
이와 관련하여 WB(샘플링 레이트(sampling rate)가 ∼ 약 16 kHz) 의 신호에 대해서, NB(샘플링 레이트가 ∼ 약 8 kHz)에 적합한 부호화 방식을 적용하게 되면, 음질의 열화가 발생되는 문제점이 있다.
또한 SWB(샘플링 레이트가 ∼ 약 32 kHz)의 신호에 대해서 NB(샘플링 레이트가 ∼ 약 8 kHz)에 적합한 부호화 방식이나 WB(샘플링 레이트(sampling rate)가 ∼ 약 16 kHz) 에 적합한 부호화 방식을 적용하게 되면 음질의 열화가 발생되는 문제점이 있다.
따라서, NB부터 WB 또는 SWB에 이르는 다양한 대역에 대하여, 혹은 다양한 대역 사이에서 통신 환경을 포함하는 다양한 환경에서 사용 가능한 음성 및 오디오 부호화 장치/복호화 장치에 관한 개발이 진행되고 있다.
본 발명은 사인파 모드를 적용함에 있어서 추가적인 비트의 사용없이 낮은 양자화 잡음을 가지는 부호화/복호화 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은 비트율의 증가 없이 추가 정보를 전송하여 사인파 모드의 음성 신호를 처리하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명은 비트스트림 구조의 변화 없이 추가 정보를 전송하여 부호화 효율을 높이고 양자화 잡음을 낮추는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 일 실시형태는 음성 신호 부호화 방법으로서, 입력 음성 신호를 구성하는 사인파 성분들을 변환하여 상기 사인파 성분들에 대한 변환 계수들을 생성하는 단계, 상기 생성된 변환 계수들 중 부호화 대상 변환 계수들을 결정하는 단계 및 상기 결정된 변환 계수들을 지시하는 지시 정보를 전송하는 단계를 포함하며, 상기 지시 정보는, 변환 계수들의 위치 정보, 크기 정보, 부호 정보를 포함하고, 상기 부호화 대상 변환 계수들이 인접한 변환 계수인 경우에, 상기 위치 정보는 동일한 위치 정보를 중복 지시할 수 있다.
상기 부호화 대상 변환 계수들을 결정하는 단계에서는, 변환 계수의 크기를 고려하여 가장 큰 제1 변환 계수와 두 번째로 큰 제2 변환 계수를 검색할 수 있고, 상기 제1 변환 계수 및 상기 제2 변환 계수, 상기 제1 변환 계수와 상기 제1 변환 계수에 인접한 변환 계수, 및 상기 제2 변환 계수와 상기 제2 변환 계수에 인접한 변환 계수의 세 조합 중 어느 하나를 부호화 대상 변환 계수들로서 결정할 수 있다.
이때, 상기 제1 변환 계수 및 상기 제2 변환 계수에 대한 MSE(Mean Square Error), 상기 제1 변환 계수와 상기 제1 변환 계수에 인접한 변환 계수에 대한 MSE, 및 상기 제2 변환 계수와 상기 제2 변환 계수에 인접한 변환 계수에 대한 MSE를 비교하여, MSE가 가장 작은 변환 계수의 조합을 부호화 대상 변환 계수들로서 결정할 수 있다.
혹은, 상기 제1 변환 계수 및 상기 제2 변환 계수에 대한 잔여 계수 합, 상기 제1 변환 계수와 상기 제1 변환 계수에 인접한 변환 계수에 대한 잔여 계수 합, 및 상기 제2 변환 계수와 상기 제2 변환 계수에 인접한 변환 계수에 대한 잔여 계수 합을 비교하여, 잔여 계수 합이 가장 작은 변환 계수의 조합을 부호화 대상 변환 계수들로서 결정할 수도 있다.
상기 제1 변환 계수에 인접한 두 변환 계수의 부호가 동일하지 않은 경우에는 상기 제1 변환 계수에 인접한 변환 계수를 부호화 대상에서 제외할 수 있으며, 상기 제2 변환 계수에 인접한 두 변환 계수의 부호가 동일하지 않은 경우에는 상기 제2 변환 계수에 인접한 변환 계수를 부호화 대상에서 제외할 수 있다.
상기 지시 정보 전송 단계에서는, 상기 부호화 대상 변환 계수의 부호를 지시하는 정보로서, 첫 번째 부호화 대상 변환 계수의 부호를 지시하는 정보를 전송할 수도 있다.
상기 제1 변환 계수와 상기 제1 변환 계수에 인접한 변환 계수가 부호화 대상 변환 계수로 결정된 경우에, 상기 위치 정보는 제1 변환 계수를 중복 지시할 수 있고, 상기 제2 변환 계수와 상기 제2 변환 계수에 인접한 변환 계수가 부호하 대상 변환 계수로 결정된 경우에, 상기 위치 정보는 제2 변환 계수를 중복 지시할 수 있다.
상기 부호화 대상이 되는 사인파 성분들은 초광대역에 속하는 신호일 수 있다.
본 발명의 다른 실시형태는 음성 신호의 복호화 방법으로서, 음성 정보를 포함하는 비트스트림을 수신하는 단계, 상기 비트스트림에 포함된 지시 정보를 기반으로 음성 신호를 구성하는 사인파 성분에 대한 변환 계수를 복원하는 단계, 및 상기 복원된 변환 계수를 역변환하고 음성 신호를 복원하는 단계를 포함하며,
상기 변환 계수를 복원하는 단계에서는, 상기 지시 정보가 동일한 위치를 중복 지시하는 경우에, 상기 지시되는 위치 및 상기 지시되는 위치와 인접하는 위치에 변환 계수를 복원할 수 있다.
상기 지시 정보는 변환 계수들에 관한 위치 정보, 크기 정보, 부호 정보를 포함할 수 있으며, 상기 위치 정보는, 트랙 내에서 가장 큰 제1 변환 계수의 정보 및 트랙 내에서 2 번째로 큰 제2 변환 계수를 지시하거나, 상기 제1 변환 계수의 위치를 중복 지시하거나, 상기 제2 변환 계수를 중복 지시할 수 있다.
상기 위치 정보가 제1 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 복원할 수 있고, 상기 위치 정보가 제2 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 복원할 수 있다.
상기 위치 정보가 제1 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 동일한 크기로 복원할 수 있고, 상기 위치 정보가 제2 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 동일한 크기로 복원할 수 있다. 상기 위치 정보가 제1 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 동일한 부호로 복원할 수 있고, 상기 위치 정보가 제2 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 동일한 부호로 복원할 수 있다.
이때, 상기 복원되는 음성 신호는 초광대역 음성 신호일 수 있다.
본 발명에 의하면, 사인파 모드를 적용함에 있어서 추가적인 비트의 사용 없이 더 효과적인 정보를 이용하여 부호화/복호화를 수행하고 양자화 잡음을 낮출 수 있다.
본 발명에 의하면, 비트율의 증가 없이 추가 정보를 전송하여 사인파 모드의 음성 신호를 처리함으로써 부호화 효율을 높이고 전송 오버헤드를 줄일 수 있다.
본 발명에 의하면, 추가 정보를 전송하여 부호화 효율을 높이고 양자화 잡음을 낮추되 비트스트림 구조를 유지하여 하위 호환성을 가질 수 있다.
본 발명에 의하면 고품질의 음성 및 오디오 통신 전송 서비스가 가능하며, 이를 통해 다양한 부가 서비스를 창출할 수 있다.
도 1은 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 부호화기 구성의 일 예를 개략적으로 나타낸 것이다.
도 2는 부호화기 구성의 일 예를 핵심 부호화기의 구성을 중심으로 설명하는 도면이다.
도 3은 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 복호화기 구성의 일 예를 개략적으로 나타낸 것이다.
도 4는 복호화기 구성의 일 예를 핵심 복호화기의 구성을 중심으로 설명하는 도면이다.
도 5는 사인파 모드에서 사인파를 부호화하는 방법을 개략적으로 설명하는 도면이다.
도 6은 첫 번째 SWB 계층(layer)인 레이어 6(layer 6)에서의 사인파 모드에 관한 트랙(track) 정보의 일 예를 개략적으로 도시한 것이다.
도 7은 제1 사인파와 제2 사인파를 선택하는 방법을 개략적으로 설명하는 도면이다.
도 8은 본 발명에 따라서 사인파 모드에서 전송할 정보를 결정하는 방법의 일 예를 개략적으로 나타내는 순서도이다.
도 9는 최대 크기를 가지는 사인파 2 개 중에 하나의 사인파에 대해서만 인접 사인파들의 부호가 동일한 경우를 예로서 설명하는 도면이다.
도 10은 가장 큰 두 사인파에 인접하는 두 사인파들의 부호가 각각 동일한 경우에 전송하는 정보를 선택하는 방법을 개략적으로 설명하는 도면이다.
도 11은 양자화 전의 MDCT 계수의 절대값을 이용하여 전송할 정보를 결정하는 방법의 일 예를 개략적으로 설명하는 순서도이다.
이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성 단위로 이루어짐을 의미하지 않는다. 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있다.
네트워크의 발달과 고품질 서비스에 대한 요구에 대응하여, NB부터 WB 또는 SWB에 이르는 다양한 대역에 대하여 오디오 신호 처리 방법이 연구되고 있다. 예컨대, 음성 및 오디오 부호화/복호화 기술로서, CELP(Code Excited Linear Prediction) 부호화 방식, 변환(transform) 부호화 방식, 대역 및 채널 확장 방법 등이 연구되고 있다.
부호화기는 베이스라인 코더(baseline coder)와 향상 계층(enhancement layer)으로 구분될 수 있다. 향상 계층은 다시 저대역 향상(Lower Band Enhancement: LBE) 계층과 대역 확장(Bandwidth Extension: BWE) 계층 그리고 고대역 향상(Higher Band Enhancement: HBE) 계층으로 나뉠 수 있다.
LBE 계층은 핵심 부호화기(core encoder)/핵심 복호화기(core decoder)로 처리한 음원과 원음과의 차이 신호, 즉 여기 신호(excited signal)를 부호화/복호화함으로써, 저대역의 음질을 향상시킨다. 고대역 신호는 저대역 신호와의 사이에서 유사성을 가지므로, 저대역을 이용한 고대역 확장 방법을 통해 낮은 비트율로 고대역 신호를 복원할 수 있다.
고대역의 신호를 확장하여 부호화하고, 복호화 과정을 거처 복원하는 방법으로서, SWB 신호를 스케일러블하게 확장(scalable extension)하여 처리하는 방법을 고려할 수 있다. SWB 신호를 대역 확장하는 방법은 MDCT(Modified Discrete Cosine Transform) 도메인에서 동작할 수 있다.
확장 계층들은 제네릭 모드(generic mode)와 사인파 모드(sinusoidal mode)로 나뉘어 처리될 수 있다. 예컨대, 3 개의 확장 계층이 이용되는 경우에, 첫 번째 확장 계층은 제네릭 모드와 사인파 모드로 처리되며, 두 번째 및 세 번째 확장 계층은 사인파 모드로 처리되도록 할 수 잇다.
본 명세서에서 사인파(sinusoid)는 정현파(sine wave)와 정현파를 반파장만큼 위상 쉬프트(shift)한 여현파(cosine wave)를 모두 포함한다. 따라서, 본 발명에서 사인파는 정현파를 의미할 수도 있고, 여현파를 의미할 수도 있다. 입력된 사인파가 여현파인 경우에는 부호화/복호화 과정에서 정현파 또는 여현파로 변환될 수도 있으며, 이런 변환은 입력 신호가 거치는 변환의 변환 방법에 따른다. 입력되는 사인파가 정현파인 경우에도 부호화/복호화 과정에서 여현파 또는 정현파로 변환될 수 있으며, 이런 변환은 입력 신호가 거치는 변환의 변환 방법에 따른다.
제네릭 모드에서, 코딩은 코딩된 광대역(wideband) 시그널 서브 밴드의 적응적 복제(replication)에 기반해서 이루어진다. 사인파 모드의 코딩에서는 고주파 콘텐츠(high frequency contents)에 사인파가 추가된다. 사인파 모드는 주기성이 강한 신호 또는 톤 성분이 있는 신호에 대한 효율적 부호화 기법으로서, 각 사인파 성분에 대해 부호(sign), 크기(amplitude), 위치(position) 정보를 부호화할 수 있다. 각 계층(layer)마다 소정 개수, 예를 들면 10개의 MDCT 계수들을 부호화할 수 있다.
도 1은 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 부호화기 구성의 일 예를 개략적으로 나타낸 것이다.
도 1을 참조하면, 부호화기(100)는 다운 샘플링부(105), 핵심 부호화기(110), MDCT 부(115), 토널리티(tonality) 추정부, 토널리티 판단부(125), SWB(Super Wide Band) 부호화부(130)를 포함한다. SWB 부호화부(130)는 제네릭 모드부(135), 사인파 모드부(140), 추가 사인파부(145, 150)를 포함한다.
SWB 신호가 입력되면, 다운 샘플링부(105)는 입력 신호를 다운 샘플링하여 핵심 부호화기(core encoder)가 처리할 수 있는 WB 신호를 생성한다.
SWB 부호화는 MDCT 도메인에서 수행된다. 핵심 부호화기(110)는 WB 신호를 부호화하여 합성된 WB 신호를 MDCT 하고, MDCT 계수들을 출력한다.
MDCT 부(115)는 SWB 신호를 MDCT하며, 토널리티 추정부(120)가 MDCT된 신호의 토널리티를 추정한다. 제네릭 모드와 사인파 모드 중 어떤 모드를 선택할 것인지는 토널리티(tonality)에 기반해서 판단한다. 예컨대, 스캐일러블 SWB 대역 확장 방법에서 3 개의 계층을 이용하는 경우에, 첫 번째 계층, 즉 레이어 6mo(layer 7mo)는 토널리티 추정에 기반해서 선택될 수 있다. 3 개의 계층 중 레이어 6mo에서는 제네릭 모드 및/또는 사인파 모드가 사용될 수 있으며, 상위 계층(레이어 7mo, 레이어 8mo)에서는 사인파 모드가 사용될 수 있다.
토널리티 추정은 현재 프레임(current frame)과 과거 프레임(past frame)에서 스펙트럴 피크(spectral peak)들 사이의 상관 분석(correlation analysis)에 기반하여 수행될 수 있다.
토널리티 추정부(120)은 토널리티 추정값을 토널리티 판단부(125)로 출력한다.
토널리티 판단부(125)는 MDCT 변환된 신호가 토널(tonal)인지를 토널리티 정도를 기반으로 판단해서, SWB 부호화부(130)에 전달한다. 예컨대, 토널리티 판단부(125)는 토널리티 추정부(120)로부터 입력된 토널리티 추정값을 소정의 기준값과 비교하여 MDCT 변환된 신호가 토널 신호인지 비토널 신호인지를 판단한다.
도시된 바와 같이, SWB 부호화부(130)는 MDCT된 SWB 신호의 MDCT 계수를 처리한다. 이때, SWB 부호화부(130)는 핵심 부호화기(110)를 거쳐 입력되는 합성 WB 신호의 MDCT 계수를 이용하여 SWB 신호의 MDCT 계수를 처리할 수 있다.
토널리티 판단부(125)에 의해 MDCT 변환된 신호가 토널이 아니라고 판단된 경우에는 제네릭 모드부(135)로 신호가 전달되고, 토널이라고 판단된 경우에는 사인파 모드부(140)로 신호가 전달된다.
제네릭 모드는 입력 프레임이 토널(tonal)이 아니라고 판단된 경우에 이용될 수 있다. 저대역 스펙트럼(low frequency spectrum)을 직접 고주파수(high frequency)들로 트랜스포즈(transpose)하고, 원래(original) 고주파수의 포락선(envelope)을 따르도록 파라미터화 한다. 이때, 파라미터화는 원래 고주파수의 경우보다 더 개략적으로(coarsely) 이루어질 수 있다.제네릭 모드를 적용함으로써, 고주파 콘텐츠를 낮은 비트율로 코딩할 수 있다.
예컨대, 제네릭 모드에서는 고주파 대역을 부대역(sub-band)로 나누고 소정의 유사성 판단 기준에 따라서, 부호화되고 파락선 정규화된 광대역 콘텐츠들 중에서 가장 유사하게 매치(match)되는 것을 선택한다. 선택된 콘텐츠들은 스케일링된 뒤에 합성된 고주파 컨텐츠로 출력된다.
사인파 모드(sinusoidal mode)부(140)는 입력된 프레임이 토널인 경우에 이용될 수 있다. 사인파 모드에서는 사인파 성분들의 유한 집합(finite set)을 HF(High Frequency) 스펙트럼에 더해서 SWB 신호를 생성한다. 이때, HF 스펙트럼은 SW 합성 신호의 MDCT 계수를 이용하여 생성된다.
추가 사인파부(145, 150)에서는 제네릭 모드로 출력된 신호와 사인파 모드로 출력된 신호에 추가 사인파를 부가하여 생성 신호를 향상시킨다. 예컨대, 추가 사인파부(145, 150)은 추가 비트가 할당되는 경우에, 전송할 추가 사인파(펄스)를 결정하고, 양자화하는 사인파 모드를 확장하여 신호를 개선한다.
한편, 도시된 바와 같이, 핵심 부호화기(110), 토널리티 판정부(125), 제네릭 모드부(135), 사인파 모드부(140), 추가 사인파부(145, 150)의 출력들은 비트 스트림으로 복호화기에 전송될 수 있다.
도 2는 부호화기 구성의 일 예를 핵심 부호화기의 구성을 중심으로 설명하는 도면이다. 도 2를 참조하면, 부호화기(200)는 대역폭 확인부(205), 샘플링 변환부(210), MDCT 변환부(215), 핵심 부호화부(220), 중요 MDCT 계수 추출부 및 양자화부(265)를 포함한다.
대역폭 확인부(205)는 입력 신호(음성 신호)가 NB(Narrow Band) 신호인지, WB(Wide Band) 신호인지, SWB(Super Wide Band) 신호인지를 판별할 수 있다. NB 신호는 샘플링 레이트(sampling rate)가 8 kHz, WB 신호는 샘플링 레이트가 16 kHz, SWB 신호는 샘플링 레이트가 32 kHz일 수 있다.
대역폭 확인부(205)는 입력 신호를 주파수 영역(domain)으로 변환하여 스펙트럼의 상위 대역 빈(bin)들의 성분과 존부를 판별할 수 있다.
부호화기(200)는 입력 신호가 고정되는 경우, 예컨대, 입력 신호가 NB로 고정되는 경우에는 대역폭 확인부(205)를 포함하지 않을 수도 있다.
대역폭 확인부(205)는 입력 신호를 판별하여 NB 또는 WB 신호는 샘플링 변환부(210)로 출력하고, SWB 신호는 샘플링 변환부(210) 또는 MDCT 변환부(215)로 출력한다.
샘플링 변환부(210)는 입력 신호를 핵심 부호화기(220)에 입력되는 WB 신호로 변환하는 샘플링을 수행한다. 예컨대, 샘플링 변환부(210)는 입력된 신호가 NB 신호의 경우에는 샘플링 레이트가 12.8kHz인 신호가 되게 업 샘플링(up-sampling) 하고, 입력된 신호가 WB 신호인 경우에는 샘플링 레이트가 12.8khz인 신호가 되게 다운 샘플링(down-sampling) 하여 12.8kHz의 하위 대역 신호를 만들 수 있다. 입력된 신호가 SWB 신호인 경우에, 샘플링 변환부(210)는 샘플링 레이트가 12.8 kHz가 되도록 다운 샘플링하여 핵심 부호화기(220)의 입력 신호를 생성한다.
핵심 부호화기(220)는 전처리부(225), 선형 예측 분석부(230), 양자화부(235), CELP 모드 수행부(240), 양자화부(245), 역양자화부(250), 합성 및 후처리부(255) 및 MDCT 변환부(260)를 포함한다.
전처리부(225)는 핵심 부호화기(220)에 입력되는 하위 대역 신호들 중에서 낮은 주파수 성분을 필터링하여 원하는 대역의 신호만을 선형 예측 분석부에 전달할 수 있다.
선형 예측 분석부(230)는 전처리부(225)에서 처리된 신호로부터 선형 예측 계수(Linear Prediction Coefficient: LPC)를 추출할 수 있다. 예컨대, 선형 예측 분석부(230)는 입력된 신호로부터 16차 선형 예측 계수를 추출하여 양자화부(235)에 전달할 수 있다.
양자화부(235)는 선형 예측 분석부(230)로부터 전달된 선형 예측 계수를 양자화한다. 하위 대역에서 양자화된 선형 예측 계수를 이용하여 원본 하위 대역 신호와의 필터링을 통해 선형 예측 잔여 신호(residual)를 생성한다.
양자화부(235)에서 생성된 선형 예측 잔여 신호는 CELP 모드 수행부(240)로 입력된다.
CELP 모드 수행부(240)는 입력된 선형 예측 잔여 신호의 피치(pitch)를 자기 상관(self-correlation) 함수를 이용하여 검출한다. 이때, 1차 개루프(open loop) 피치 검색 방법과 1차 폐루프(closed loop) 피치 검색 방법, AbS(Analysis by Synthesis) 등의 방법이 이용될 수 있다.
CELP 모드 수행부(240)는 검출된 피치들의 정보를 기반으로 적응 코드북 인덱스와 게인 정보를 추출할 수 있다. CELP 모드 수행부(240)는 선형 예측 잔여 신호에서 적응 코드북의 기여분을 제한 나머지 성분들을 기반으로 고정 코드북의 인덱스와 게인을 추출할 수 있다.
CELP 모드 수행부(240)는 피치 검색, 적응 코드북 검색, 고정 코드북 검색을 통해 추출한 선형 예측 잔여 신호에 관한 파라미터들(피치, 적응 코드북 인덱스 및 게인, 고정 코드북 인덱스 및 게인)을 양자화부(245)에 전달한다.
양자화부(245)는 CELP 모드 수행부(240)로부터 전달된 파라미터들을 양자화한다.
양자화부(245)에서 양자화된 선형 예측 잔여 신호에 관한 파라미터들은 비트 스트림으로 출력될 수 있어 복호화기로 전송될 수 있다. 또한, 양자화부(245)에서 양자화된 선형 예측 잔여 신호에 관한 파라미터들은 역양자화부(250)로 전달될 수 있다.
역양자화부(250)는 CELP 모드를 통해 추출되고 양자화된 파라미터들을 이용하여 복원된 여기 신호를 생성한다. 생성된 여기 신호는 합성 및 후처리부(255)에 전달된다.
합성 및 후처리부(255)는 복원된 여기 신호와 양자화된 선형 예측 계수를 합성한 후 12.8 kHz의 합성 신호를 생성하고 업 샘플링을 통해 16 kHz의 WB 신호를 복원한다.
MDCT 변환부(260)는 복원된 WB 신호를 MDCT(Modified Discrete Cosine Transform) 방법으로 변환한다. MDCT 변환된 WB 신호는 중요 MDCT 계수 추출 및 양자화부(265)로 출력된다.
중요 MDCT 계수 추출 및 양자화부(265)는 도 1에 도시된 SWB 부호화부에 대응한다. 중요 MDCT 계수 추출 및 양자화부(265)는 MDCT 변환부(215)로부터 SWB에 대한 MDCT 변환 계수를 입력받고, MDCT 변환부(260)로부터 합성된 WB에 대한 MDCT 변환 계수를 입력 받는다.
중요 MDCT 계수 추출 및 양자화부(265)는 입력된 MDCT 변환 계수들을 이용하여 양자화할 변환 계수를 추출한다. 중요 MDCT 계수 추출 및 양자화부(265)가 MDCT 계수를 추출하는 구체적인 내용은 도 1의 SWB 부호화부에 관한 설명과 동일하다.
중요 MDCT 계수 추출 및 양자화부(265)는 추출한 MDCT 계수를 양자화하여 비트스트림으로 출력하고, 복호화기로 전송한다.
도 3은 초광대역 신호를 대역 확장 방법으로 처리하는 경우에 이용할 수 있는 복호화기 구성의 일 예를 개략적으로 나타낸 것이다.
도 3을 참조하면, 복호화기(300)은 핵심 복호화기(305), 제1 후처리부(310) 업 샘플링부(315), SWB 복호화부(320), IMDCT부(350), 제2 후처리부(355), 가산부(360)를 포함한다. SWB 복호화부(320)는 제네릭 모드부(325), 사인파부(330), 추가 사인파부(335, 340)를 포함한다.
도시된 바와 같이, 핵심 부호화기(305), 제네릭 모드부(325), 사인파부(330), 추가 사인파부(335)에는 비트 스트림으로터 처리할 대상 정보 및/또는 처리를 위한 보조 정보가 입력될 수 있다.
핵심 복호화기(305)는 광대역 신호를 복호화하여 WB 신호를 합성한다. 합성된 WB 신호는 제1 후처리부(310)으로 입력되고, 합성된 WB 신호의 MDCT 변환 계수는 SWB 복호화부(320)으로 입력된다.
제1 후처리부(310)는 합성된 WB 신호를 시간 도메인에서 개선한다.
업 샘플링브(315)는 WB 신호를 업샘플링하여 SWB 신호를 구성한다.
SWB 복호화부(320)는 비트스트림으로부터 입력된 SWB 신호의 MDCT를 복호화한다. 이때, 핵심 복호화기(305)로부터 입력되는 합성된 WB 신호(Synthesized Super Wide Band Signal)의 MDCT 계수를 이용할 수 있. SWB 신호의 복호화는 주로 MDCT 도메인에서 수행된다.
제네릭 모드부(325)와 사인파 모드부(330)는 확장 계층의 첫 번째 계층을 디코딩하며, 상위 계층은 추가 사인파부(335, 340)에서 복호화될 수 있다.
SWB 복호화부(320)는 SWB 부호화부에서 설명한 부호화 과정에 대응하여, 부호화 과정의 역순으로 복호화 과정을 수행한다. 이때, SWB 복호화부(320)는 비트스트림으로부터 입력 정보가 토널(tonal)인지 여부를 판단하고, 토널인 경우에는 사인파 모드부(330) 또는 사인파 모드부(330)와 추가 사인파부(340)에서 복호화 과정을 진행하며, 토널이 아닌 경우에는 제네릭 모드부(325) 또는 제네릭 모드부(325)와 추가 사인파부(335)에서 복호화 과정을 진행하도록 할 수 있다.
예컨대, 제네릭 모드부(325)는 적응적인 부대역(sub-band) 복제(replica)에 의해 HF 신호를 구성한다. 이어서, 두 개의 사인파 성분들이 첫 번재 SWB 확장 계층의 스펙트럼에 더해진다. 제네릭 모드와 사인파 모드는 사인파 모드 코딩의 기반이 되는 유사한 향상 계층들을 활용한다.
사인파 모드부(330)는 사인파 성분들의 유한 집합에 기반해 HF(High Frequency) 신호를 생성한다. 추가 사인파부(335, 340)는 상위 SWB 계층에 사인파를 추가하고, 고대역 콘텐츠의 퀄리티를 개선한다.
IMDCT부(350)는 역 MDCT(Inverse MDCT)를 수행해서 시간 영역의 신호를 출력하며, 제2 후처리부(355)는 역MDCT 처리된 신호를 시간 영역에서 개선한다.
가산부(360)는 핵심 복호화기에서 복호화되고 업 샘플링된 SWB 신호와 SWB 복호화부(320)에서 출력된 SWB 신호를 합해, 복원된 신호를 출력한다.
도 4는 복호화기 구성의 일 예를 핵심 복호화기의 구성을 중심으로 설명하는 도면이다. 도 4를 참조하면, 복호화기(400)는 핵심 복호화기(410), 후처리/샘플링 변환부(450), 역양자화부(460), 상위 MDCT 계수 생성부(470), MDCT 역변환부(480), 후처리 필터링부(490)를 포함한다.
부호화기로부터 전송된 NB 신호 또는 WB 신호를 포함하는 비트스트림은 핵심 복호화기(410)로 입력된다.
핵심 복호화기(410)는 역변환부(420), 선형 예측 합성부(430), MDCT 변환부(440)를 포함한다.
역변환부(420)는 CELP 모드로 부호화된 음성 정보를 역변환하고, 부호화기로부터 수신한 파라미터를 기반으로 여기 신호를 복원할 수 있다. 역변환부(420)는 복원된 여기 신호를 선형 예측 합성부(430)에 전송할 수 있다
선형 예측 합성부(430)는 역변환부(420)로부터 전송된 여기 신호와 부호화기로부터 전송된 선형 예측 계수를 이용하여 하위 대역 신호(NB 신호, WB 신호 등)를 복원할 수 있다.
선형 예측 합성부(430)에서 복원된 하위 대역 신호(12.8 kHz)는 NB로 다운 샘플링 되거나 WB로 업 샘플링 될 수 있다. WB 신호는 후처리/샘플링 변환부(450)로 출력되거나, MDCT 변환부(440)로 출력된다.
후처리/샘플링 변환부(450)는 NB 신호 또는 WB 신호를 업 샘플링하여, SWB 신호 복원에 사용할 합성 신호를 생성할 수 있다.
MDCT 변환부(440)는 복원된 하위 대역 신호를 MDCT 변환하고, 상위 MDCT 계수 생성부(470)로 전송한다.
역양자화부(460)와 상위 MDCT 계수 생성부(470)는 도 3에 도시된 복호화기의 SWB 복호화부에 대응한다.
역양자화부(460)는 비트스트림을 통해 양자화된 SWB 신호와 파라미터를 부호화기로부터 수신하고, 수신한 정보를 역양자화한다.
역양자화된 SWB 신호 및 파라미터는 상위 MDCT 계수 생성부(470)에 전달된다.
상위 MDCT 계수 생성부(470)는 핵심 복호화기(410)로부터 합성된 NB 신호 또는 WB 신호에 대한 MDCT 계수를 수신하고, SWB 신호에 대한 비트스트림(bitstream)으로부터 필요한 파라미터를 수신하여 역양자화된 SWB 신호에 대한 MDCT 계수를 생성한다. 도 3에 도시된 바와 같이, 상위 MDCT 계수 생성부(470)는 신호의 토널 여부에 따라서 제네릭 모드 또는 사인파 모드를 적용할 수 있고, 확장 계층의 신호에 대해서는 추가 사인파를 적용할 수 있다.
MDCT 역변환부(480)는 생성된 MDCT 계수에 대한 역변환을 통해 신호를 복원한다.
후처리 필터링부(490)는 복원된 신호에 대한 필터링을 적용할 수 있다. 필터링을 통해 양자화 에러들 줄이고, 피크를 강조하고 밸리(valley)를 죽이는 등의 후처리를 진행할 수 있다.
후처리 필터링부(490)를 통해 복원된 신호와 후처리/샘플링 변환부(450)를 통해 복원된 신호를 합성하여 SWB 신호를 복원할 수 있다.
대역 확장 방법에 관해 도 1 내지 4에서 설명한 바와 같이, SWB 입력 신호를 부호화하기 위해 핵심 부호화기와 향상 계층 처리부(SWB 부호화부)를 거친다. SWB 신호를 복호화하기 위해서는 핵심 복호화기와 향상 계층 처리부(SWB 복호화부)를 거친다.
SWB 입력 신호 중 WB에 해당하는 신호 정보를 부호화하기 위해 SWB 신호는 WB에 대응하는 샘플링 레이트(sampling rate)로 다운 샘플링하고, WB 부호화기(핵심 부호화기)로 부호화된다.
SWB 신호의 부호화에 이용되기 위해, 부호화된 WB 신호는 합성된 후 MDCT 변환되며, WB에 대한 MDCT 계수가 SWB 부호화부로 입력될 수 있다. SWB 입력 신호는 MDCT 변환 후 MDCT 계수 도메인에서 토널리티(tonality) 정도에 따라서 제네릭 모드와 사인파 모드로 나뉘어 부호화된다. 부호화 효율을 높이기 위해 추가로 향상 계층에 대한 부호화가 추가 사인파를 이용하여 수행될 수 있다.
SWB 신호 중 WB에 해당하는 신호 정보는 WB 복호화기(핵심 복호화기)로 복호화된다. 복호화된 WB 신호는 합성된 후 MDCT 변환되어, WB에 대한 MDCT 계수가 SWB 복호화부에 입력될 수 있다. 부호화된 SWB 신호는 부호화된 모드에 대응하여 제네릭 모드와 사인파 모드로 나뉘어 복호화되며, 추가로 향상 계층에 대한 복호화가 추가 사인파를 이용하여 수행될 수 있다. 역변환된 SWB 신호와 WB 신호는 업샘플링 등 추가 후처리를 거처 합성된 뒤 SWB 신호로 복원될 수 있다.
이하, 본 발명과 관련하여 사인파 모드에 대하여 설명한다.
사인파 모드는 음성 신호를 구성하는 모든 사인파(음성 신호를 구성하는 사인파 성분이라고도 함)들을 부호화하는 것이 아니라, 음성 신호를 구성하는 사인파들 중 에너지가 큰 사인파만 부호화하는 방식이다. 따라서, 모든 사인파를 부호화할 때와 달리, 사인파 모드에서 부호화기는 선택된 사인파의 크기(amplitude) 정보, 부호(sign) 정보뿐만 아니라, 선택된 사인파의 위치(position) 정보를 부호화하여 복호화기에 전송한다.
이때, 음성 신호를 구성하는 '사인파'들은, 음성 신호를 구성하는 각 사인파들을 MDCT 변환하여 얻은 MDCT 계수(X(k))들을 의미한다. 따라서, 본 명세서에서 사인파 모드에서 사인파에 대한 특성을 설명할 때, 사인파의 크기는 해당 사인파 성분을 MDCT 변환하여 얻은 MDCT 계수의 크기(C), 해당 사인파 성분의 부호(sign), 해당 사인파 성분의 위치(pos)를 의미함에 유의한다. 사인파의 위치는 주파수 도메인에서의 위치로서, 음성 신호를 구성하는 각 사인파를 특정하는 파수(wave number) k일 수도 있고, 파수(k)에 대응하는 인덱스일 수도 있다.
본 명세서에서는 설명의 편의를 위해, 음성 신호를 구성하는 각 사인파 성분의 MDCT 계수를 '사인파' 또는 '펄스'로 간단하게 표시함에 유의한다. 따라서, 본 명세서에서는 특별한 설명이 없는 경우에, '사인파'또는 '펄스'는 입력 음성 신호를 구성하는 각 사인파 성분의 MDCT 계수를 의미할 수 있다.
또한, 본 명세서에서는 설명의 편의를 위해, 사인파의 위치를 해당 사인파의 파수(wave number)로 특정하여 설명한다. 다만, 이는 설명의 편의를 위한 것으로서 본 발명은 이에 한정되지 않으며, 사인파의 위치로서 주파수 도메인에서 사인파들의 위치를 특정할 수 있는 별도의 정보를 이용하는 경우에도 본 발명의 내용은 동일하게 적용될 수 있다.
사인파 모드는 사인파의 위치 정보를 전송해야 하기 때문에 모든 사인파들을 부호화 하기에는 적합하지 않지만, 적은 개수의 사인파들을 이용하여 음질을 보장해야 하거나, 낮은 비트율을 이용하여 전송해야 하는 경우에 효과적이다. 따라서, 대역 확장 기법이나 낮은 비트율의 음성 코덱에 활용될 수 있다.
도 5는 사인파 모드에서 사인파를 부호화하는 방법을 개략적으로 설명하는 도면이다.
도 5를 참조하면, 입력된 음성 신호를 구성하는 사인파들이 각 사인파의 파수(k)에 에 대응하여 위치한다.
위쪽을 향하는 사인파는 양의 값을 가지는 MDCT 계수를 나타내며, 아래를 향하는 사인파는 음의 값을 가지는 MDCT 계수를 의미한다. 사인파(MDCT 계수)의 크기는 사인파의 길이에 대응한다.
도 5는 위치 4에 크기 126을 가지는 양의 사인파가 위치하고, 위치 74에 크기 18을 가지는 음의 사인파가 위치하는 경우를 예로서 설명한다. 사인파 모드에서는, 상술한 바와 같이, 사인파의 크기 정보, 부호 정보, 위치 정보를 전송한다.
두 개의 가장 큰 사인파를 검색하여 해당 정보를 부호화하는 경우를 가정하면, 도 5의 예에서는 위치 4에 위치하는 첫 번째 사인파의 정보 [크기:126 부호:+ 위치:4]를 부호화하고, 두 번째 사인파의 정보 [크기:74 부호:- 위치:18]을 부호화할 수 있다.
도 6은 첫 번째 SWB 계층(layer)인 레이어 6(layer 6)에서의 사인파 모드에 관한 트랙(track) 정보의 일 예를 개략적으로 도시한 것이다.
도 6의 예에서는 주파수 도메인에서 음성 신호를 구성하는 각 사인파들(MDCT 계수)가 각 사인파들의 파수에 대응하는 위치에 표시되어 있다.
트랙 0은 280 ∼ 342의 주파수 구간에 위치하며, 위치 단위(예컨대, 파수 또는 주파수)에 있어서 2만큼씩의 간격을 가지는 사인파들로 구성된다. 트랙 1은 281 ∼ 343의 주파수 구간에 위치하며, 2만큼의 간격을 가지는 사인파들로 구성된다. 트랙 2는 344∼406의 주파수 구간에 위치하며, 2 만큼씩의 간격을 가지는 사인파들로 구성된다. 트랙 3은 345∼407의 주파수 구간에 위치하며, 2 만큼씩의 간격을 가지는 사인파들로 구성된다. 트랙 4는 408∼471의 주파수 구간에 위치하며, 1 만큼씩의 간격을 가지는 사인파들로 구성된다. 트랙 5는 472∼503의 주파수 구간에 위치하며, 1 만큼씩의 간격을 가지는 사인파들로 구성된다.
사인파 모드에서는 트랙 순서에 따라서 각 트랙마다 정해진 개수만큼 소정의 조건을 만족하는 사인파를 검색하고 검색된 사인파를 양자화한다. 검색되고 양자화되는 사인파는 상술한 바와 같이, 해당 사인파의 MDCT 계수임에 유의한다.
레이어 6에서는 비트 할당에 따라서, 트랙 0부터 트랙 3까지의 4 개 트랙에서는 각각 2개의 사인파가 검색되어 양자화되며, 트랙 4와 트랙 5에서는 각각 하나의 사인파가 검색되어 양자화된다.
각 트랙에서의 검색은, 트랙 내에서 가장 큰 사인파, 즉 크기(amplitude)가 가장 큰 사인파를 트랙별로 할당된 개수만큼 찾아내는 것이다. 따라서, 도 5와 같은 예를 고려하면, 트랙 0, 트랙 1, 트랙 2 및 트랙 3에서는 가장 큰 2 개의 사인파를 검색하고, 트랙 4 및 트랙 5에서는 가장 큰 하나의 사인파를 검색한다.
첫 번째 SWB 계층인 레이어 6에서 사인파 모드는 도 1 및 도 3의 사인파 모드부에서 수행될 수 있다.
사인파 모드는 HF(High Frequency) 신호에서 10 개의 펄스(사인파)를 추출하는 방법으로 부호화될 수 있다. 처음 네 개의 펄스는 7000∼8600Hz에 해당하는 위치에서 추출될 수 있고, 다음 네 개의 펄스는 8600∼10200Hz 대역, 마지막 2 개는 10200∼11800Hz 대역과 11800∼12699Hz 대역에서 각각 하나씩 추출될 수 있다.
검색된 펄스들은 양자화될 수 있다.
검색된 펄스의 위치, 즉 가장 큰 펄스의 위치는 현재 계층에서 구한 원래의 신호 M32(k)와 이전 계층에서 구한 HF 합성 신호
Figure pct00001
의 차이 값을 이용하여 결정할 수 있다. 수식 1은 차이값을 결정하는 방법의 일 예를 나타낸 것이다.
<수식 1>
Figure pct00002
수식 1에서 M은 MDCT 계수의 크기, k는 펄스(사인파)의 위치로서 파수(wave number)를 나타낸다. 따라서, M32(k)는 32KHz까지의 SWB에 대한 위치 k에서의 펄스 크기를 나타낸다.
레이어 6의 사인파 모드는 HF 합성 신호가 존재하지 않기 때문에, 초기값이 0으로 설정될 수 있다. 따라서, 레이어 6에서 수식 1을 이용하여 차이값을 구하는 과정은, 결국 M32(k)의 최대값을 구하는 것이라고 할 수 있다.
D(k)에서 다섯 개의 서브 밴드로 분할하여 Dj(k)(여기서, 0≤j≤4 또는 1≤j≤5)를 만든다. 각 서브 밴드의 펄스 개수는 미리 결정된 Nj (N은 정수) 값을 가진다.
표 1은 각 서브밴드별로 Nj 개의 가장 큰 펄스를 찾는 방법의 일 예를 나타낸 것이다.
Figure pct00003
표 1의 예와 같은 정렬 방법을 통해 최대값 N을 검색하고, 검색한 N 값을 input_data라는 배열에 저장한다.
표 2는 레이어 6에서 서브 밴드 Dj(k)별로 추출하는 펄스의 개수 및 범위를 설명하는 것이다.
Figure pct00004
표 2에서는 각 트랙별로 검색에 의해 부호화 대상으로 추출되는 사인파(펄스)의 개수, 트랙의 시작 위치(검색의 시작 위치), 각 트랙별 펄스 위치의 간격 사이즈, 각 트랙별 펄스의 개수를 나타낸다.
각 트랙별로 추출된 Nj 개의 펄스들은 위치 정보 posj(l) (l=0, ..., Nj)를 가지고 있으며, 위치 정보는 각 트랙의 시작 위치에 관련되어 있다.
추출된 펄스의 크기 cj(l)는 다음과 같이 부호화될 수 있다.
<수식 2>
cj(l) = log( | Dj( posj(l) ) | )
수식 2에 의하면, 크기값은 부호화되지만, 부호 정보를 잃게 된다. 따라서, 펄스의 부호값은 다음의 수식 3에 의해 별도로 부호화될 수 있다.
<수식 3>
Figure pct00005
이때, Nj=2 개인 경우에는 검색된 두 펄스의 부호값을 모두 전송하는 것이 아니라, 트랙별로 첫 번째 펄스의 부호값을 전송하게 된다. 다른 펄스의 부호값 정보는 첫 펄스의 부호값을 인코딩할 때 표 3을 이용하여 유도할 수 있다.
Figure pct00006
표 3에서 posj(0), Sign_sinj(0), cj(0)은 크기가 큰 펄스의 위치, 부호, 크기를 나타내고, posj(1), Sign_sinj(1), cj(1)은 크기가 작은 펄스의 위치, 부호, 크기를 나타낸다.
표 3의 방법에 의하면, 크기가 큰 펄스가 크기가 작은 펄스보다 주파수 축 상에서 앞에 위치하면 크기가 두 펄스의 부호가 동일한 것으로 유도되고, 크기가 큰 펄스가 크기가 작은 펄스보다 주파수 축 상에서 뒤에 위치하면 두 펄스의 부호가 다른 것으로 유도될 수 있다. 따라서, 복호화기 측에서는 부호화기가 표 3의 방식에 의해 정렬한 정보를 수신하면, 두 펄스의 부호를 유도할 수 있다.
레이어 6의 경우는 수식 1에서 원신호를 타겟 신호로 하여 부호화를 수행했으나, 레이어 6의 상위 계층, 예컨대 레이어 7이나 레이어 8의 경우에는 수식 1에 나타난 바와 같이, 이전 계층(layer)의 원신호와 상위 계층의 합성 신호 사이의 차를 타겟 신호로 하여 부호화가 수행된다.
레이어 6의 상위 계층에서 수행되는 부호화의 방식도 레이어 6에 대하여 앞서 설명한 부호화 방식과 유사하다.
SWB 향상 계층(enhancement layer)의 첫 번째 계층인 레이어 7에 대한 부호화에서는 HF (7 ∼ 14 kHz) 신호에서 추가적으로 10 개의 펄스가 추출된다. 레이어 7에서는 제네릭 모드와 사인파 모드에 따라서 부호화할 주파수 대역이 다르게 설정될 수 있다.
제네릭 모드에서 출력되는 HF 신호
Figure pct00007
는 총 8개의 서브밴드로 나뉘어 각 서브밴드별로 에너지가 계산된다. 각 서브밴드는 표 2와 같이 32개의 MDCT 계수로 구성되어 있으며, 각 서브밴드에서의 에너지 계산 방법은 수식 4와 같다.
<수식 4>
Figure pct00008
수식 4에서,
Figure pct00009
는 제네릭 모드를 거쳐 다시 합성된 HF 신호이다.
레이어 7에서 8개의 서브밴드는 각 서브밴드별 에너지를 서로 비교하여 에너지가 가장 많은 서브밴드부터 에너지 크기 순서대로 차례대로 정렬된다. 정렬된 서브밴드 중 에너지가 가장 많은 5개의 서브밴드를 선택하여 서브밴드별로 5개의 펄스를 레이어 6에서 설명한 사인파 코딩 방법에 따라 추출한다. 이때, 사인파 코딩 방법에서 정의되는 트랙의 위치는 프레임(frame)별 HF 신호의 에너지 특징에 따라 다르다.
사인파 모드에서 출력되는 HF 신호
Figure pct00010
에서 추출되는 총 10 개의 펄스는 4 개를 추출하는 과정과 6 개를 추출하는 두 과정을 통해 추출된다. 4 개의 펄스는 9400 ∼ 11000 Hz 대역에 해당하는 위치에서 추출되며, 6 개의 펄스는 11000∼13400 Hz 대역에 해당하는 위치에서 추출된다.
표 4는 레이어 7의 사인파 모드(사인파 모드 프레임)에서 각 트랙별 정보를 나타낸 것이다.
Figure pct00011
표 4에서는 레이어 7의 각 트랙별로 검색에 의해 부호화 대상으로 추출되는 사인파의 개수, 트랙의 시작 위치(검색의 시작 위치), 각 트랙별 펄스 위치의 간격 사이즈, 각 펄스의 개수를 나타낸다.
한편, 레이어 8에서는 추가적으로 20 개의 펄스를 추출하며, 레이어 7과 동일하게 레이어 6의 모드에 약간의 차이를 부가한다.
제네릭 모드(제네릭 모드 프레임)에서는 10 개씩의 펄스를 추출하는 두 개의 서로 다른 과정이 수행된다.
처음 10 개의 펄스 중 6 개의 펄스는 3개의 트랙에서 트랙당 2 개씩 추출되며, 펄스가 추출되는 대역은 9750 ∼ 12150 Hz이다. 처음 10 개의 펄스 중 남은 4 개의 펄스는 2 개의 트랙에서 2 개씩 추출되며, 펄스가 추출되는 대역은 12150 ∼ 13750 Hz 이다.
20 개의 펄스 중 남은 10 개의 펄스의 추출 방법도 유사하다. 10 개의 펄스 중 처음 6 개의 펄스는 3 개의 트랙에서 트랙당 2개씩 추출되며 펄스가 추출되는 대역은 8600 ∼ 11000 Hz 가 된다. 남은 4 개의 펄스는 2 개의 트랙에서 2 개씩 추출되며, 펄스가 추출되는 대역은 11000 ∼ 12600 Hz이다.
표 5는 레이어 8의 제네릭 모드 프레임에서 사인파 트랙 구조의 예를 설명하는 것이다.
Figure pct00012
표 6은 레이어 8의 사인파 모드 프레임에서 20 개의 펄스 중 첫 번째 10 개의 펄스를 추출하는 제1 집합에 관한 사인파 트랙 구조의 예를 나타낸 것이다.
Figure pct00013
표 7은 레이어 8의 사인파 모드 프레임에서 20 개의 펄스 중 두 번째 10 개의 펄스를 추출하는 제2 집합에 관한 사인파 트랙 구조의 예를 나타낸 것이다.
Figure pct00014
상술한 사인파 트랙 구조에 관한 예를 나타낸 표들을 살펴보면, 한 트랙당 2 개의 사인파를 부호화하는 것이 일반적이다. 예컨대, 레이어 7에 관한 표 4의 예에서는, 5 개의 트랙 중 각 트랙에서 2 개의 사인파를 부호화하기 위해 한 사인파당 32개의 위치, 즉 5 비트가 할당되고 있다. 5 비트를 사용할 경우, 25=32 가지의 탐색 공간을 가지고 모든 위치 정보를 표현하기 때문에, 위치 정보 외에 추가적인 정보를 전송하기는 어렵다.
기존의 사인파 모드에서는 32 개의 탐색 공간에 대해 2 개의 인덱스를 전송하며, 이를 위해 5 비트를 활용한다. 즉, 사인파 모드에서는 제1 사인파의 검출에서 절대값이 가장 큰 사인파인 제1 사인파의 위치 정보, 부호 정보 그리고 크기 정보를 추출한 후, 절대값이 2 번째로 큰 사인파인 제2 사인파를 검색해서 위치 정보, 부호 정보 그리고 크기 정보를 추출한다. 제2 사인파를 검출할 때는 검출된 제1 사인파가 다시 검출되지 않도록 제1 사인파의 크기를 0으로 설정한다.
제2 사인파를 검출할 때 제1 사인파의 크기를 0으로 설정하기 때문에, 제2 사인파를 검출하는 단계에서 제1 사인파의 위치와 동일한 위치가 선택되지 않는다.
도 7은 제1 사인파와 제2 사인파를 선택하는 방법을 개략적으로 설명하는 도면이다. 도 7의 예에서는 위치 4에 존재하는 펄스의 크기가 126으로 가장 크다. 따라서, 제1 사인파로서 위치 4의 펄스가 검색되어 위치, 부호, 크기 정보가 추출된다.
제2 사인파를 검출할 때, 이미 검출된 제1 사인파의 크기를 0으로 설정하지 않으면, 제2 사인파로서도 위치 4의 펄스가 다시 검색될 수 있으므로, 사인파 모드에서는 제1 사인파의 크기를 0으로 설정하고 제2 사인파를 검색한다.
따라서, 각 펄스의 위치에 5 비트를 사용하여 2 가지 펄스의 위치를 표시할 수 있는 조합의 수는 25 x 25 = 1024 가지이지만, 사인파 모드에서는 제2 사인파의 검색에 있어서 사용되지 않는 경우의 수가 존재하므로, 실제 사인파 모드에서 사용 가능한 조합의 수는 25 x (25-1) = 992 가지가 된다.
결국, 10 비트를 사용하되, 사용하지 않는 경우의 수 32 가지가 존재한다. 다시 말하자면, 도 7의 예에서, 제1 사인파를 검색하는 단계에서도 위치 4의 사인파를 선택하고 제2 사인파를 검색하는 단계에서도 위치 4의 사인파를 선택하는 경우가 사용은 되지 않지만, 전송 비트들에 할당된 경우의 수로서는 존재하게 된다.
따라서, 사용하지는 않되 존재는 하는 경우들이 음성 신호의 특징을 잘 나타내는 새로운 사인파들의 조합을 지시하도록 정의하고, 새로 정의된 사인파 조합을 지시하는 정보를 전송할 수 있다.
예컨대, 두 사인파의 위치를 지시하는 전송 정보가 동일한 위치를 제1 사인파의 위치를 중복 지시하거나 제2 사인파의 위치를 중복 지시하는 경우에는 중복 지시되는 사인파 및 중복 지시된 사인파에 인접하는 사인파를 지시하는 것으로 정의할 수 있다. 도 7의 예에서, 사인파의 위치를 지시하는 정보가 위치 4를 중복하여 지시하는 경우에는, 위치 4의 사인파 및 위치 5의 사인파를 지시하는 것으로 정의할 수 있다.
이 경우에, 지시하는 사인파와 함께, 지시하는 사인파의 전후에 인접하는 두 사인파가 부호화 대상 사인파로서 추출된 것으로 정의할 수 있으며, 전송되는 정보는 (1) 중복 지시하는 사인파 및 (2) 인접하는 두 사인파 중 어느 하나일 수 있다. 수신하는 복호화기 측에서는 전송된 정보 중 인접하는 사인파에 대한 정보는 중복 지시된 사인파 위치의 전후에서 동일한 것으로 해석하고 해당 사인파들을 복원할 수 있다.
예컨대, 복호화기는 두 사인파(펄스)의 위치를 지시하는 위치 인덱스가 동일한 인덱스인 경우, 가령 두 위치 인덱스가 모두 15인 경우에, 위치 인덱스 15의 사인파와 함께 위치 인덱스 14 또는 위치 인덱스 16의 사인파가 부호화 대상 사인파로서 추출된 것으로 판단할 수 있다. 따라서, 복호화기는 전송된 정보를 기반으로 위치 인덱스 15의 사인파를 복원하고, 위치 인덱스 14와 위치 인덱스 16의 사인파를 동일한 정보를 기반으로 복원할 수 있다.
따라서, 표 2 내지 표 7을 참조하면 각 트랙별로 2개의 사인파를 전송하는 경우, 즉 레이어 6에서 사인파 모드가 적용되는 프레임의 소정 트랙들(도 6의 예에 의하면 트랙 0 ∼ 트랙 3), 레이어 7에서 사인파 모드가 적용되는 프레임의 트랙들, 레이어 8에서 제네릭 모드가 적용되는 프레임과 사인파 모드가 적용되는 프레임의 트랙들, 그리고 레이어 6에서 제네릭 모드가 적용되고 레이어 8에서 추가 사인파 모드가 적용되는 프레임의 트랙들에 대해서는, 가장 큰 두 개의 사인파 대신 입력 음성 신호의 특성을 잘 반영하는 두 사인파들(예컨대, 인접한 두 사인파들)을 선택할 수도 있다. 선택된 두 사인파의 정보는 동일한 사인파 위치가 중복 지시되는 경우에 대응시켜 전송될 수 있다.
인접한 두 사인파의 정보를 전송하는 경우에도 정보를 전송하는 방법은 두 개의 가장 큰 사인파 정보를 전송하는 경우와 동일하다. 예컨대, 사인파의 위치를 지시하는 정보, 사인파의 크기를 지시하는 정보, 사인파의 부호를 지시하는 정보가 전송되며, 이때, '사인파'란 상술한 바와 같이 사인파의 MDCT 계수를 의미하고, 사인파의 위치는 해당 사인파(MDCT 계수)에 대응하는 파수(wave number)일 수 있다. 또한, 두 인접한 사인파의 부호는 1 비트를 이용하여 전송될 수 있다. 1 비트를 사용하여 인접한 두 사인파의 부호 정보를 전송하기 위해, 인접한 두 사인파의 부호가 같은 경우만을 전송 대상 정보로 한정하는 방법도 이용할 수 있다.
본 발명에서는 위치 정보를 부호화하는데 있어서, 전송에 사용하지 않는 경우의 수에 부가적인 정보를 대응시킴으로써 동일한 전송 비트를 사용하되 기존의 사인파 모드보다 부호화 하는 성분의 수, 즉 전송할 수 있는 정보의 수를 증가시킨다. 이를 통해, 추가 비트의 사용없이 양자화 잡음을 낮출 수 있다. 또한, 양자화에 따른 잡음을 고려하여 (1) 가장 큰 두 개의 사인파에 대한 정보를 전송하는 방법과 (2) 가장 큰 두 개의 사인파에 대한 정보와 인접한 두 사인파에 대한 정보 중 효율적인 정보를 선택적으로 전송하는 방법을 적응적으로 이용함으로써 양자화 잡음의 증가를 막고 음질을 향상시킬 수도 있다.
이하, 도면을 참조하여 가장 큰 두 개의 사인파에 대한 정보와 인접한 두 사인파에 대한 정보 중 효율적인 정보를 전송하는 방법을 설명한다.
해당 트랙에서 두 개의 사인파 정보를 전송하는 경우에, 검색에 의하여 가장 큰 두 개의 사인파, 제1 사인파와 제2 사인파가 검출된 경우를 가정하자. 제1 사인파는 해당 트랙에서 크기(amplitude)가 가장 큰 사인파이며, 제2 사인파는 해당 트랙에서 크기가 2 번째로 큰 사인파를 나타낸다.
본 발명에서는 (1) 제1 사인파와 제2 사인파의 정보, (2) 제1 사인파 및 제1 사인파와 인접한 사인파의 정보, (3) 제2 사인파 및 제2 사인파와 인접한 사인파의 정보 중 어느 하나를 선택하여 전송한다.
인접한 두 사인파의 정보를 전송하는 경우(즉, (2)와 (3)의 경우)에는 동일한 사인파의 위치를 지시하는 두 인덱스 정보를 전송한다. 예컨대, (2)의 경우에는 제1 사인파의 위치를 각각 지시하는 두 인덱스를 전송하고, (3)의 경우에는 제2 사인파의 위치를 지시하는 두 인덱스를 전송할 수 있다.
(1) 제1 사인파와 제2 사인파의 정보, (2) 제1 사인파 및 제1 사인파와 인접한 사인파의 정보, (3) 제2 사인파 및 제2 사인파와 인접한 사인파의 정보 중 어느 것을 전송할 것인지는 각 경우에 대한 MSE(Mean Square Error)를 비교하여 결정할 수 있다.
해당 트랙에서 n 번째로 큰 사인파의 위치를 posn MAX라고 하면, 제1 사인파의 위치는 pos1 MAX 로 나타내고 제2 사인파의 위치는 pos2 MAX 로 나타낼 수 있다. 또한, 제1 사인파에 인접한 두 사인파의 위치는 pos1 MAX-1과 pos1 MAX+1이 되고, 제2 사인파에 인접한 두 사인파의 위치는 pos2 MAX-1과 pos2 MAX+1이 된다.
따라서, 제1 사인파에 대한 MSE인 MSE1 MAX, 제2 사인파에 대한 MSE인 MSE2 MAX, 제1 사인파에 인접한 두 사인파에 대한 평균 MSE인 MSE1 adjacent, 제2 사인파에 인접한 두 사인파에 대한 평균 MSE인 MSE2 adjacent는 예컨대 수식 5와 같다.
<수식 5>
Figure pct00015
수식 5에서 X(k)는 원본 신호를 구성하는 k 번째 사인파 성분(파수가 k인 사인파)의 MDCT 계수를 의미하고,
Figure pct00016
는 k 번째 사인파 성분의 양자화된 MDCT 계수를 의미한다.
제1 사인파의 MDCT 계수는 X(pos1 MAX)로 나타내고 제2 사인파의 MDCT 계수는 X(pos2 MAX)로 나타낼 수 있다. 따라서, 제1 사인파에 인접한 두 사인파의 MDCT 계수는 X(pos1 MAX-1)과 X(pos1 MAX+1)으로 나타내고, 제2 사인파에 인접한 두 사인파의 MDCT 계수는 X(pos2 MAX-1)과 X(pos1 MAX+1)으로 나타낼 수 있다
본 발명에서는 (1) 제1 사인파와 제2 사인파의 정보, (2) 제1 사인파 및 제1 사인파와 인접한 사인파의 정보, (3) 제2 사인파 및 제2 사인파와 인접한 사인파의 정보에 대한 MSE를 비교하여, (1) ∼ (3) 중 MSE가 적은 정보를 전송할 수 있다.
또한, 인접한 두 사인파의 정보를 전송하되, (1)의 경우와 동일한 전송 비트를 사용하기 위해, 두 사인파의 부호가 같은 경우만을 (2)와 (3)의 대상으로 한정할 수도 있다. 따라서, 수식 3과 표 3을 이용하여 1 비트로 사인파의 부호를 전송하는 (1)의 경우와 동일하게, (2)와 (3)의 경우에서도 1 비트로 사인파들의 부호를 지시할 수 있다.
도 8은 본 발명에 따라서 사인파 모드에서 전송할 정보를 결정하는 방법의 일 예를 개략적으로 나타내는 순서도이다. 도 8의 방법은 도 1에 도시된 부호화기의 사인파 모드부 및 추가 사인파부에서 수행될 수도 있다. 도 8의 설명에서도, 앞서 설명한 바와 같이'사인파'는 해당 사인파의 MDCT 계수를 의미할 수 있다.
도 8을 참조하면, 사인파 정보를 전송할 트랙에서 검색을 통해 최대 크기를 가지는 두 사인파(제1 사인파 및 제2 사인파)가 검출된다(S800). 상술한 바와 같이, 검출되는 제1 사인파의 위치를 pos1 MAX라 하고, 제2 사인파의 위치를 pos2 MAX라고 한다. 가장 큰 크기를 가지는 두 사인파는 수식 1을 이용하여 검출된 D(k) 값을 이용하여 검출할 수 있다.
이어서, 검출한 사인파 중 제1 사인파에 인접한 두 사인파의 부호가 동일한지를 판단한다(S810). 두 사인파의 정보를 전송하는 경우에 부호에 관한 정보는 앞서 전송되는 사인파의 정보만 1 비트로 전송된다. 따라서, 가장 큰 두 사인파의 정보를 전송하는 대신 인접한 두 사인파의 정보를 전송할 때에는 인접한 두 사인파의 부호가 동일한 경우만을 대상으로 함으로써, 가장 큰 두 사인파의 정보를 전송하는 경우와 동일하게 부호에 관한 정보를 1 비트로 전송할 수 있다.
제1 사인파에 인접한 두 사인파의 부호가 동일하다면, 제2 사인파에 대한 MSE(Mean Square Error)와 제1 사인파에 인접한 사인파들의 평균 MSE의 크기를 비교한다(S820). 제2 사인파의 MSE와 제1 사인파에 인접한 사인파들의 평균 MSE는 수식 5의 경우와 같다.
제2 사인파의 MSE가 제1 사인파에 인접한 사인파들의 평균 MSE보다 작은 경우에, 제1 사인파에 인접한 사인파들의 정보는 전송 대상에서 제외된다. 따라서, 제2 사인파와 제1 사인파에 대한 정보를 전송할 것인지 제2 사인파와 제2 사인파에 인접한 사인파들의 정보를 전송할 것인지를 결정한다.
S810 단계에서, 제1 사인파에 인접한 두 사인파의 부호가 상이하다고 판단한 경우에도, 제1 사인파에 인접한 두 사인파의 정보는 전송 대상에서 제외되므로, 제2 사인파와 제1 사인파에 대한 정보를 전송할 것인지 제2 사인파와 제2 사인파에 인접한 사인파들의 정보를 전송할 것인지를 결정한다.
제2 사인파의 MSE가 제1 사인파에 인접한 사인파들의 평균 MSE보다 큰 경우에, 제2 사인파의 정보와 제1 사인파의 정보를 함께 전송하는 것은 대상에서 제외된다. 따라서, 제1 사인파와 제1 사인파에 인접한 사인파들의 정보를 전송할 것인지 제2 사인파와 제2 사인파에 인접한 사인파들의 정보를 전송할 것인지를 결정한다.
S820 단계에서, 제2 사인파의 MSE가 제1 사인파에 인접한 사인파들의 평균 MSE보다 작은 경우 또는 제1 사인파에 인접한 두 사인파의 부호가 상이한 경우에는 제2 사인파에 인접한 두 사인파의 부호가 동일한지를 판단한다(S830).
제2 사인파에 인접한 두 사인파의 부호가 동일하다면, 제1 사인파의 MSE와 제2 사인파에 인접한 사인파들의 평균 MSE의 크기를 비교한다(S840).
제1 사인파의 MSE가 제2 사인파에 인접한 사인파들의 평균 MSE보다 크다면, 제2 사인파 및 제2 사인파에 인접한 사인파들의 정보가 전송된다(S850). 이때, 제2 사인파의 정보와 함께 제2 사인파에 인접한 두 사인파들 중 하나의 정보가 전송된다. 예컨대, 제2 사인파의 위치를 중복 지시하는 위치 정보, 제2 사인파와 제2 사인파에 인접한 사인파의 크기 정보, 제2 사인파와 제2 사인파에 대한 부호 정보가 부호화되어 전송된다.
수신하는 복호화기 측에서는 전송된 사인파의 정보를 기반으로 제2 사인파와 제2 사인파에 인접한 사인파들을 유도할 수 있다. 제2 사인파에 인접하는 사인파들은, 제2 사인파에 인접하는 두 위치(제2 사인파의 전후)에 동일한 크기 및 부호의 사인파로서 유도될 수 있다.
제1 사인파의 MSE가 제2 사인파에 인접한 사인파들의 평균 MSE보다 작은 경우에는 제1 사인파와 제2 사인파의 정보가 전송된다(S860). S830 단계에서, 제2 사인파에 인접한 두 사인파의 부호가 상이한 경우에도 제2 사인파에 인접한 사인파들의 정보는 전송 대상이 아니므로, 제1 사인파와 제2 사인파의 정보가 전송된다(S860).
한편, S820 단계에서, 제2 사인파의 MSE가 제1 사인파에 인접한 사인파들의 평균 MSE보다 큰 경우에는 제1 사인파에 인접한 두 사인파의 부호가 동일한지를 판단한다(S870).
제1 사인파에 인접한 두 사인파의 부호가 동일한 경우에는, 제1 사인파 및 제1 사인파에 인접한 사인파들의 MSE의 크기와 제2 사인파 및 제2 사인파에 인접한 사인파들의 MSE 크기를 비교한다(S880). 제1 사인파 및 제1 사인파에 인접한 사인파들의 MSE는 제1 사인파의 MSE와 제1 사인파에 인접한 사인파들의 평균 MSE를 의미한다. 제2 사인파 및 제2 사인파에 인접한 사인파들의 MSE는 제2 사인파의 MSE와 제2 사인파에 인접한 사인파들의 평균 MSE를 의미한다.
제1 사인파 및 제1 사인파에 인접한 사인파들의 MSE가 제2 사인파 및 제2 사인파에 인접한 사인파들의 MSE보다 작으면, 제1 사인파와 제1 사인파에 인접한 사인파의 정보가 전송된다(S890). 이때, 제1 사인파의 정보와 함께 제1 사인파에 인접한 두 사인파들 중 하나의 정보가 전송된다. 예컨대, 제1 사인파의 위치를 중복 지시하는 위치 정보, 제1 사인파와 제1 사인파에 인접한 사인파의 크기 정보, 제1 사인파와 제1 사인파에 대한 부호 정보가 부호화되어 전송된다.
수신하는 복호화기 측에서는 전송된 사인파의 정보를 기반으로 제1 사인파와 제1 사인파에 인접한 사인파들을 유도할 수 있다. 제1 사인파에 인접하는 사인파들은, 제1 사인파에 인접하는 두 위치(제1 사인파의 전후)에 동일한 크기 및 부호의 사인파로서 유도될 수 있다.
제1 사인파 및 제1 사인파에 인접한 사인파들의 MSE가 제2 사인파 및 제2 사인파에 인접한 사인파들의 MSE보다 크면, 제2 사인파와 제2 사인파에 인접한 사인파의 정보가 전송된다(S850). 이때, 제2 사인파의 정보와 함께 제2 사인파에 인접한 두 사인파들 중 하나의 정보가 전송된다. 수신하는 복호화기 측에서는 상술한 바와 같이, 제2 사인파 및 제2 사인파에 인접한 사인파들을 유도할 수 있다.
S820에서 판단하는 관계인 MSE2 MAX < MSE1 adjacent는 MSE1 MAX + MSE2 MAX < MSE1 MAX + MSE1 adjacent와 등가가 된다. 또한, S840에서 판단하는 관계인 MSE1 MAX > MSE2 adjacent는 MSE1 MAX + MSE2 MAX > MSE2 MAX + MSE2 adjacent와 등가가 된다.
이를 고려하면, (1) 제1 사인파와 제2 사인파의 정보, (2) 제1 사인파 및 제1 사인파에 인접한 사인파의 정보, (3) 제2 사인파 및 제2 사인파와 인접한 사인파의 정보 중에서 전송 가능한 대상 정보들 중에서 MSE가 가장 작은 정보가 전송된다.
이때, 전송 가능한 대상 정보라 함은 (i) 제1 사인파 및 제2 사인파 정보, (ii) 제1 사인파 및 제1 사인파에 인접한 사인파의 정보로서, 제1 사인파에 인접한 두 사인파의 부호가 같은 경우, (iii) 제2 사인파 및 제2 사인파에 인접한 사인파의 정보로서, 제2 사인파에 인접한 두 사인파의 부호가 같은 경우를 말한다.
표 8은 도 8의 예에서 전송되는 정보를 간단하게 나타낸 것이다.
Figure pct00017
표 8에서 "제1 부호"는 제1 사인파에 인접한 두 사인파의 부호가 동일한지 상이한지를 나타낸다. 표 7에서 "제2 부호"는 제2 사인파에 인접한 두 사인파의 부호가 동일한지 상이한지를 나타낸다.
표 8에서 "MSE 1&2 VS MSE 1&ADJ"는 제1 사인파 및 제2 사인파의 정보를 전송하는 경우에 관한 MSE와 제1 사인파 및 제1 사인파에 인접한 사인파의 정보를 전송하는 경우에 대한 MSE 중 어느 것이 작은지를 나타낸다.
표 8에서 "MSE 1&2 VS MSE 2&ADJ"는 제1 사인파 및 제2 사인파의 정보를 전송하는 경우에 관한 MSE와 제2 사인파 및 제2 사인파에 인접한 사인파의 정보를 전송하는 경우에 대한 MSE 중 어느 것이 작은지를 나타낸다.
표 8에서 "MSE 1&ADJ VS MSE 2&ADJ"는 제1 사인파 및 제1 사인파에 인접한 사인파의 정보를 전송하는 경우에 대한 MSE와 제2 사인파 및 제2 사인파에 인접한 사인파의 정보를 전송하는 경우에 대한 MSE 중 어느 것이 작은지를 나타낸다.
본 발명에서는 단순히 트랙 내에서 가장 큰 두 개의 사인파를 검출하여 전송하는 방법에서는 활용하지 않던 경우들에 새로운 정보를 부가하여 활용하고 있다. 따라서, 가장 큰 두 개의 사인파의 정보만을 전송하는 경우의 비트스트림과 동일한 비트스트림 구조를 이용할 수 있다.
표 9는 본 발명에서 사용하는 비트스트림의 구조를 개략적으로 설명하는 것이다.
Figure pct00018
도 8의 예에서는 전송할 정보를 선택하는 방법으로서 가장 큰 크기를 가지는 것으로 검출된 사인파들(제1 사인파, 제2 사인파)에 대한 MSE와 인접한 사인파들에 대한 MSE의 평균을 비교하여 MSE가 낮은 경우를 선택하는 방법을 택하고 있다. 따라서, 추가적인 전송 비트를 사용하지 않아도 가장 큰 사인파들의 정보 외에 더 효과적인 정보가 있다면(MSE가 더 작은 정보가 있다면) 더 효과적인 정보를 전송함으로써 양자화 잡음을 줄일 수 있다.
예컨대, 표 10의 관계를 만족하는 경우에는 가장 큰 사인파로 검출된 2 개의 사인파를 선택하고 선택된 두 사인파의 정보를 전송한다. 반면에, 표 9의 관계를 만족하지 못하는 경우에는 가장 큰 사인파로 검출된 2 개의 사인파 중 어느 하나와 그에 인접한 사인파를 선택하고, 선택된 사인파의 정보를 전송한다.
Figure pct00019
표 10의 예는 도 8에서 설명한 방법 중 일부를 예로 보여주는 것으로서, 가장 큰 두 사인파의 정보와 가장 큰 하나의 사인파와 그에 인접한 사인파의 정보 중 어느 것을 전송할 것인지 선택하는 방법을 간단히 보여주는 것이다.
도 9는 최대 크기를 가지는 사인파 2 개 중에 하나의 사인파에 대해서만 인접 사인파들의 부호가 동일한 경우를 예로서 설명하는 도면이다.
도 9를 참조하면, pos1 MAX에 위치하는 제1 사인파에 대하여 인접하는 pos1 MAX-1과 pos1 MAX+1에는 동일한 부호를 가지는 사인파가 존재하지 않는다. 이에 반해, pop2 MAX에 위치하는 제2 사인파에 대해서는 인접하는 pos2 MAX-1과 pos2 MAX+1에 위치하는 두 사인파는 부호가 동일하다.
따라서, 제2 사인파는 부호화할 사인파로 선택되며, 제2 사인파와 함께 제1 사인파를 부호화할 것인지 인접 사인파들(910)을 부호화할 것인지가 결정된다. 제1 사인파를 부호화할 것인지 인접 사인파들(910)을 부호화할 것인지는 표 9와 같은 판별 방법을 통해 결정될 수 있다.
도 10은 가장 큰 두 사인파에 인접하는 두 사인파들의 부호가 각각 동일한 경우에 전송하는 정보를 선택하는 방법을 개략적으로 설명하는 도면이다.
도 10을 참조하면, 제1 사인파(X(pos1 MAX))에 인접하는 두 사인파(X(pos1MAX-1), X(pos1MAX+1))의 부호가 동일하다. 또한, 제2 사인파(X(pos2MAX))에 인접하는 두 사인파(X(pos2MAX-1), X(pos2MAX+1))의 부호 역시 동일하다.
따라서, 이 경우에는 (1) 제1 사인파와 제2 사인파의 정보를 전송할 것인지, (1) 제1 사인파와 인접 사인파들(1010)의 정보를 전송할 것인지, (3) 제2 사인파와 인접 사인파들(1020)의 정보를 전송할 것인지를 결정하여야 한다. 이 경우에, 각각의 MSE를 비교함으로써 수식 6과 같이 MSE를 최소화하는 경우를 결정한다. 전송하는 정보는 상기 (1) 내지 (3)에서 MSE를 최소화하는 경우의 정보로 결정된다.
<수식 6>
Min( { MSE1 MAX + Min( MSE2 MAX, MSE1 Adjacent ) }, { MSE2 MAX + MSE2 Adjacent } )
한편, 지금까지는 MSE를 이용하여 전송할 정보를 선택하는 방법을 설명하였으나, 본 발명은 이에 한정되지 않는다.
예컨대, MSE 대신 사인파의 크기(사인파 성분의 MDCT 계수의 크기)를 고려하여 전송할 정보를 선택하도록 할 수도 있다. 이때, 특정 사인파의 크기는 잔여 신호 합 의 크기로 판단될 수 있다. 잔여 신호 합(D)은 검색 대상 트랙의 사인파에 대한 전체 MDCT 계수의 합에서 상기 특정 사인파에 대응하는 MDCT 계수의 양자화된 값을 제외한 값으로 정의할 수 있다.
수식 7은 검색 대상 트랙에서 검색된 가장 큰 두 사인파들(제1 사인파, 제2 사인파)에 대한 잔여 신호 합과 제1 사인파에 인접한 사인파들에 대한 잔여 신호 합의 평균을 나타낸 것이다.
<수식 7>
Figure pct00020
수식 7에서
Figure pct00021
는 원본 MDCT 계수 X(k)들 중에서 현재 검색되는 트랙에서의 MDCT 계수들 중 k 번째 MDCT 계수를 의미하고,
Figure pct00022
는 현재 검색되는 트랙에서의 MDCT 계수들 중 양자화된 k 번째 MDCT 계수를 의미한다.
또한, posn MAX는 앞서 설명한 바와 같이, 트랙 내에서 n 번째로 큰 사인파(사인파 성분의 MDCT 계수)의 위치를 의미한다.
Dn MAX는 사인파 모드에서 각 사인파에 대한 MDCT 계수들 중 n 번째 사인파에 대한 MDCT 계수를 제외한 나머지 계수들의 합으로서 n 번째 사인파에 대한 잔여 신호 합이다.
Dn Adjacent는 n 번째 사인파에 인접한 두 사인파에 대한 잔여 신호 합의 평균을 의미한다. 즉, Dn Adjacent는 사인파 모드에서 각 사인파에 대한 MDCT 계수들 중 n-1 번째 사인파에 대한 MDCT 계수를 제외한 나머지 계수들의 합과 n+1 번째 사인파에 대한 MDCT 계수를 제외한 나머지 계수들의 합을 더하고, 2로 나눈 값에 해당한다.
도 11은 MSE 대신 양자화 전의 MDCT 계수의 절대값을 이용하여 전송할 정보를 결정하는 방법의 일 예를 개략적으로 설명하는 순서도이다. 도 11의 설명에서도, 상술한 바와 같이, '사인파'는 사인파의 MDCT 계수를 의미할 수 있다.
도 11을 참조하면, 사인파 정보를 전송할 트랙에서 검색을 통해 최대 크기를 가지는 두 사인파(제1 사인파 및 제2 사인파)가 검출된다(S1100). 상술한 바와 같이, 검출되는 제1 사인파의 위치를 pos1 MAX라 하고, 제2 사인파의 위치를 pos2 MAX라고 한다. 가장 큰 크기를 가지는 두 사인파는 수식 1을 이용하여 검출된 D(k) 값을 이용하여 검출할 수 있다.
이어서, 검출한 사인파 중 제1 사인파에 인접한 두 사인파의 부호가 동일한지를 판단한다(S1110). 가장 큰 두 사인파의 정보를 전송하는 대신 인접한 사인파의 정보를 전송할 때에는 인접한 두 사인파의 부호가 동일한 경우만을 대상으로 함으로써, 가장 큰 두 사인파의 정보를 전송하는 경우와 동일하게 부호에 관한 정보를 1 비트로 전송할 수 있다.
제1 사인파에 인접한 두 사인파의 부호가 동일하다면, 제2 사인파에 대한 D2 MAX 와 제1 사인파에 인접한 사인파들에 대한 D1 Adjacent의 크기를 비교한다(S1120). 제2 사인파에 대한 D2 MAX 와 제1 사인파에 인접한 사인파들에 대한 D1 Adjacent는 수식 7의 경우와 같다.
도 11의 예에서는 비교 대상이 되는 전송 대상 정보들 중 크기가 더 큰 사인파들의 정보를 우선적으로 전송하고자 한다. 따라서, 잔여 계수 합 또는 잔여 계수 합의 평균을 비교하는 도 11의 예에서는 값이 작은 쪽이 선택될 수 있다.
제2 사인파에 대한 D2 MAX가 제1 사인파에 인접한 사인파들에 대한 D1 Adjacent보다 작은 경우에 제1 사인파에 인접한 사인파들의 정보는 전송 대상에서 제외된다. 따라서, 제2 사인파와 제1 사인파에 대한 정보를 전송할 것인지 제2 사인파와 제2 사인파에 인접한 사인파들의 정보를 전송할 것인지를 결정한다.
S1110 단계에서, 제1 사인파에 인접한 두 사인파의 부호가 상이하다고 판단한 경우에도, 제1 사인파에 인접한 두 사인파의 정보는 전송 대상에서 제외되므로, 제2 사인파와 제1 사인파에 대한 정보를 전송할 것인지 제2 사인파와 제2 사인파에 인접한 사인파들의 정보를 전송할 것인지를 결정한다.
제2 사인파에 대한 D2 MAX가 제1 사인파에 인접한 사인파들에 대한 D1 Adjacent보다 큰 경우에, 제2 사인파의 정보와 제1 사인파의 정보를 함께 전송하는 것은 대상에서 제외된다. 따라서, 제1 사인파와 제1 사인파에 인접한 사인파들의 정보를 전송할 것인지 제2 사인파와 제2 사인파에 인접한 사인파들의 정보를 전송할 것인지를 결정한다.
S1120 단계에서, 제2 사인파에 대한 D2 MAX가 제1 사인파에 인접한 사인파들에 대한 D1 Adjacent보다 작은 경우 또는 제1 사인파에 인접한 두 사인파의 부호가 상이한 경우에는 제2 사인파에 인접한 두 사인파의 부호가 동일한지를 판단한다(S1130).
제2 사인파에 인접한 두 사인파의 부호가 동일하다면, 제1 사인파에 대한 D1 MAX 와 제2 사인파에 인접한 사인파들에 대한 D2 Adjacent의 크기를 비교한다(S1140).
제1 사인파에 대한 D1 MAX가 제2 사인파에 인접한 사인파들에 대한 D2 Adjacent 보다 크다면, 제2 사인파 및 제2 사인파에 인접한 사인파들의 정보가 전송된다(S1150). 이때, 제2 사인파의 정보와 함께 제2 사인파에 인접한 두 사인파들 중 하나의 정보가 전송된다. 예컨대, 제2 사인파의 위치를 중복 지시하는 위치 정보, 제2 사인파와 제2 사인파에 인접한 사인파의 크기 정보, 제2 사인파와 제2 사인파에 대한 부호 정보가 부호화되어 전송된다.
수신하는 복호화기 측에서는 전송된 사인파의 정보를 기반으로 제2 사인파와 제2 사인파에 인접한 사인파들을 유도할 수 있다. 제2 사인파에 인접하는 사인파들은, 제2 사인파에 인접하는 두 위치(제2 사인파의 전후)에 동일한 크기 및 부호의 사인파로서 유도될 수 있다.
제1 사인파에 대한 D1 MAX가 제2 사인파에 인접한 사인파들에 대한 D2 Adjacent 보다 작은 경우에는 제1 사인파와 제2 사인파의 정보가 전송된다(S1160). S1130 단계에서, 제2 사인파에 인접한 두 사인파의 부호가 상이한 경우에도 제2 사인파에 인접한 사인파들의 정보는 전송 대상이 아니므로, 제1 사인파와 제2 사인파의 정보가 전송된다(S1160).
한편, S1120 단계에서, 제2 사인파에 대한 D2 MAX가 제1 사인파에 인접한 사인파들에 대한 D1 Adjacent보다 큰 경우에는 제1 사인파에 인접한 두 사인파의 부호가 동일한지를 판단한다(S1170).
제1 사인파에 인접한 두 사인파의 부호가 동일한 경우에는, 제1 사인파 및 제1 사인파에 인접한 사인파들에 대한 D1 MAX + D1 Adjacent의 크기와 제2 사인파 및 제2 사인파에 인접한 사인파들에 대한 D2 MAX + D2 Adjacent의 크기를 비교한다(S1180).
1 사인파 및 제1 사인파에 인접한 사인파들에 대한 D1 MAX + D1 Adjacent가 제2 사인파 및 제2 사인파에 인접한 사인파들에 대한 D2 MAX + D2 Adjacent 보다 작으면, 제1 사인파와 제1 사인파에 인접한 사인파의 정보가 전송된다(S1190). 이때, 제1 사인파의 정보와 함께 제1 사인파에 인접한 두 사인파들 중 하나의 정보가 전송된다. 예컨대, 제1 사인파의 위치를 중복 지시하는 위치 정보, 제1 사인파와 제1 사인파에 인접한 사인파의 크기 정보, 제1 사인파와 제1 사인파에 대한 부호 정보가 부호화되어 전송된다.
수신하는 복호화기 측에서는 전송된 사인파의 정보를 기반으로 제1 사인파와 제1 사인파에 인접한 사인파들을 유도할 수 있다. 제1 사인파에 인접하는 사인파들은, 제1 사인파에 인접하는 두 위치(제1 사인파의 전후)에 동일한 크기 및 부호의 사인파로서 유도될 수 있다.
1 사인파 및 제1 사인파에 인접한 사인파들에 대한 D1 MAX + D1 Adjacent가 제2 사인파 및 제2 사인파에 인접한 사인파들에 대한 D2 MAX + D2 Adjacent 보다 크면, 제2 사인파와 제2 사인파에 인접한 사인파의 정보가 전송된다(S1150). 이때, 제2 사인파의 정보와 함께 제2 사인파에 인접한 두 사인파들 중 하나의 정보가 전송되며, 수신하는 복호화기 측에서는 상술한 바와 같이, 제2 사인파 및 제2 사인파에 인접한 사인파들을 유도할 수 있다.
S1120에서 판단하는 관계인 D2 MAX < D1 adjacent는 D1 MAX + D2 MAX < D1 MAX + D1 adjacent와 등가가 된다. 또한, S1140에서 판단하는 관계인 D1 MAX > D2 adjacent는 D1 MAX + D2 MAX > D2 MAX + D2 adjacent와 등가가 된다.
이를 고려하면, (1) 제1 사인파와 제2 사인파의 정보, (2) 제1 사인파 및 제1 사인파에 인접한 사인파의 정보, (3) 제2 사인파 및 제2 사인파와 인접한 사인파의 정보 중에서 전송 가능한 대상 정보들 중에서 잔여 계수 합이 가장 작은 정보가 전송된다.
이때, 전송 가능한 대상 정보라 함은 (i) 제1 사인파 및 제2 사인파 정보, (ii) 제1 사인파 및 제1 사인파에 인접한 사인파의 정보로서, 제1 사인파에 인접한 두 사인파의 부호가 같은 경우, (iii) 제2 사인파 및 제2 사인파에 인접한 사인파의 정보로서, 제2 사인파에 인접한 두 사인파의 부호가 같은 경우를 말한다.
표 11은 도 11의 예에서 전송되는 정보를 간단하게 나타낸 것이다.
Figure pct00023
표 11에서 "제1 부호"는 제1 사인파에 인접한 두 사인파의 부호가 동일한지 상이한지를 나타낸다. 표 7에서 "제2 부호"는 제2 사인파에 인접한 두 사인파의 부호가 동일한지 상이한지를 나타낸다.
표 11에서 "D1 & D2 VS D1 & Dadj"는 제1 사인파 및 제2 사인파의 정보를 전송하는 경우에 관한 잔여 계수의 합(D1 MAX + D2 MAX)과 제1 사인파 및 제1 사인파에 인접한 사인파의 정보를 전송하는 경우에 대한 잔여 계수의 합(D1 MAX + D1 Adjacent) 중 어느 것이 작은지를 나타낸다.
표 11에서 "D1 & D2 VS D2 & Dadj"는 제1 사인파 및 제2 사인파의 정보를 전송하는 경우에 관한 잔여 계수의 합(D1 MAX + D2 MAX)과 제2 사인파 및 제2 사인파에 인접한 사인파의 정보를 전송하는 경우에 대한 잔여 계수의 합(D2 MAX + D2 Adjacent) 중 어느 것이 작은지를 나타낸다.
표 11에서 "D1 & Dadj VS D2 & Dadj"는 제1 사인파 및 제1 사인파에 인접한 사인파의 정보를 전송하는 경우에 대한 잔여 계수의 합(D1 MAX + D1 Adjacent)과 제2 사인파 및 제2 사인파에 인접한 사인파의 정보를 전송하는 경우에 대한 잔여 계수의 합(D2 MAX + D2 Adjacent) 중 어느 것이 작은지를 나타낸다.
이와 같이, 선택된 정보들이 부호화되어 전송되면, 복호화기는 전송된 정보를 기반으로 해당 트랙의 사인파(사인파의 MDCT 계수)를 복원할 수 있다.
상술한 바와 같이, 해당 트랙에서 검출된 가장 큰 두 사인파의 정보가 전송되는 경우에는, (1) 두 사인파의 위치 정보, (2) 두 사인파의 크기 정보, (3) 두 사인파의 부호 정보가 전송되며, 복호화기는 이를 기반으로 사인파의 정보에 의해 지시되는 위치에, 지시되는 크기와 부호를 가지는 사인파들을 복원할 수 있다.
해당 트랙에서 검출되는 가장 큰 두 사인파들 중 어느 하나의 사인파와 그에 인접한 사인파에 대한 정보가 전송되는 경우에는, (1) 두 사인파의 위치 정보, (2) 두 사인파의 크기 정보, (3) 두 사인파의 부호 정보가 전송된다. 이때, 두 사인파의 위치 정보는 동일한 위치를 지시한다. 지시되는 위치는 두 사인파 중 더 큰 크기를 가지는 사인파의 위치이다.
복호화기는 전송된 두 사인파의 정보를 기반으로, 전송된 크기 정보 중 더 큰 크기에 대응하는 사인파를 위치 정보가 지시하는 위치에 유도할 수 있다. 위치 정보가 지시하는 위치에 인접한 곳(위치 정보가 지시하는 위치의 전후 또는 좌우)에는 전송된 크기 정보 중 작은 크기에 대응하는 사인파를 동일하게 각각 유도할 수 있다.
복호화기는 이렇게 사인파(MDCT 계수)를 유도한 후, 도 3과 도 4에서 설명한 바와 같이, IMDCT를 수행하는 과정을 포함하는 일련의 과정을 거쳐 음성 신호를 복원할 수 있다.
상술한 내용에서는 이해를 돕기 위해 괄호 안에 해당 내용을 병기하기도 하였으나, 병기되지 않는 경우에 괄호의 내용이 배제됨을 의미하는 것은 아니다. 예컨대, 이해를 돕기 위해 필요한 곳에서 "사인파(펄스)", "사인파(MDCT 계수)" 등의 병기를 사용하였으나, 병기되지 않은 경우에 사인파가 펄스임가 아님을 의미하거나 사인파가 MDCT 계수가 아님을 의미하는 것은 아님에 유의한다.
이와 같이 본 발명에서는 비트율을 증가시키지 않고도 추가 정보를 전송함으로써 부호화 효율을 높일 수 있으며, 비트스트림 구조의 변화 없이 부호화/복호화를 수행할 수 있으므로, 하위 호환성이 보장된다.
또한, 상술한 예시들에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 상술한 실시예들은 다양한 양태의 예시들을 포함한다. 예컨대, 상술한 실시형태들을 서로 조합하여 실시할 수도 있으며, 이 역시 본 발명에 따른 실시형태에 속한다. 본 발명은 이하의 특허청구범위 내에 속하는 본 발명의 기술적 사상에 따른 다양한 수정 및 변경을 포함한다.

Claims (14)

  1. 입력 음성 신호를 구성하는 사인파 성분들을 변환하여 상기 사인파 성분들에 대한 변환 계수들을 생성하는 단계;
    상기 생성된 변환 계수들 중 부호화 대상 변환 계수들을 결정하는 단계; 및
    상기 결정된 변환 계수들을 지시하는 지시 정보를 전송하는 단계를 포함하며,
    상기 지시 정보는, 변환 계수들의 위치 정보, 크기 정보, 부호 정보를 포함하며,
    상기 부호화 대상 변환 계수들이 인접한 변환 계수인 경우에,
    상기 위치 정보는 동일한 위치 정보를 중복 지시하는 것을 특징으로 하는 음성 신호 부호화 방법.
  2. 제1항에 있어서, 상기 부호화 대상 변환 계수들을 결정하는 단계에서는,
    변환 계수의 크기를 고려하여 가장 큰 제1 변환 계수와 두 번째로 큰 제2 변환 계수를 검색하고,
    상기 제1 변환 계수 및 상기 제2 변환 계수; 상기 제1 변환 계수와 상기 제1 변환 계수에 인접한 변환 계수; 및 상기 제2 변환 계수와 상기 제2 변환 계수에 인접한 변환 계수의 세 조합 중 어느 하나를 부호화 대상 변환 계수들로서 결정하는 것을 특징으로 하는 음성 신호 부호화 방법.
  3. 제2항에 있어서,
    상기 제1 변환 계수 및 상기 제2 변환 계수에 대한 MSE(Mean Square Error); 상기 제1 변환 계수와 상기 제1 변환 계수에 인접한 변환 계수에 대한 MSE; 및 상기 제2 변환 계수와 상기 제2 변환 계수에 인접한 변환 계수에 대한 MSE를 비교하여, MSE가 가장 작은 변환 계수의 조합을 부호화 대상 변환 계수들로서 결정하는 것을 특징으로 하는 음성 신호 부호화 방법.
  4. 제2항에 있어서,
    상기 제1 변환 계수 및 상기 제2 변환 계수에 대한 잔여 계수 합; 상기 제1 변환 계수와 상기 제1 변환 계수에 인접한 변환 계수에 대한 잔여 계수 합; 및 상기 제2 변환 계수와 상기 제2 변환 계수에 인접한 변환 계수에 대한 잔여 계수 합을 비교하여, 잔여 계수 합이 가장 작은 변환 계수의 조합을 부호화 대상 변환 계수들로서 결정하는 것을 특징으로 하는 음성 신호 부호화 방법.
  5. 제2항에 있어서, 상기 제1 변환 계수에 인접한 두 변환 계수의 부호가 동일하지 않은 경우에는 상기 제1 변환 계수에 인접한 변환 계수를 부호화 대상에서 제외하며, 상기 제2 변환 계수에 인접한 두 변환 계수의 부호가 동일하지 않은 경우에는 상기 제2 변환 계수에 인접한 변환 계수를 부호화 대상에서 제외하는 것을 특징으로 하는 음성 신호 부호화 방법.
  6. 제2항에 있어서, 상기 지시 정보 전송 단계에서는,
    상기 부호화 대상 변환 계수의 부호에 대하여, 첫 번째 부호화 대상 변환 계수의 부호를 지시하는 정보를 전송하는 것을 특징으로 하는 음성 신호 부호화 방법.
  7. 제2항에 있어서,
    상기 제1 변환 계수와 상기 제1 변환 계수에 인접한 변환 계수가 부호화 대상 변환 계수로 결정된 경우에, 상기 위치 정보는 제1 변환 계수를 중복 지시하고,
    상기 제2 변환 계수와 상기 제2 변환 계수에 인접한 변환 계수가 부호하 대상 변환 계수로 결정된 경우에, 상기 위치 정보는 제2 변환 계수를 중복 지시하는 것을 특징으로 하는 음성 신호 부호화 방법.
  8. 제1항에 있어서, 상기 사인파 성분들은 초광대역에 속하는 것을 특징으로 하는 음성 신호 부호화 방법.
  9. 음성 정보를 포함하는 비트스트림을 수신하는 단계;
    상기 비트스트림에 포함된 지시 정보를 기반으로 음성 신호를 구성하는 사인파 성분에 대한 변환 계수를 복원하는 단계; 및
    상기 복원된 변환 계수를 역변환하고 음성 신호를 복원하는 단계를 포함하며,
    상기 변환 계수를 복원하는 단계에서는,
    상기 지시 정보가 동일한 위치를 중복 지시하는 경우에,
    상기 지시되는 위치 및 상기 지시되는 위치와 인접하는 위치에 변환 계수를 복원하는 것을 특징으로 하는 음성 신호 복호화 방법.
  10. 제9항에 있어서,
    상기 지시 정보는 변환 계수들에 관한 위치 정보, 크기 정보, 부호 정보를 포함하며,
    상기 위치 정보는,
    트랙 내에서 가장 큰 제1 변환 계수의 정보 및 트랙 내에서 2 번째로 큰 제2 변환 계수를 지시하거나; 상기 제1 변환 계수의 위치를 중복 지시하거나; 상기 제2 변환 계수를 중복 지시하는 것을 특징으로 하는 음성 신호 복호화 방법.
  11. 제10항에 있어서, 상기 위치 정보가 제1 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 복원하고,
    상기 위치 정보가 제2 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 복원하는 것을 특징으로 하는 음성 신호 복호화 방법.
  12. 제10항에 있어서, 상기 위치 정보가 제1 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 동일한 크기로 복원하고,
    상기 위치 정보가 제2 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 동일한 크기로 복원하는 것을 특징으로 하는 음성 신호 복호화 방법.
  13. 제10항에 있어서, 상기 위치 정보가 제1 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 동일한 부호로 복원하고,
    상기 위치 정보가 제2 변환 계수를 중복 지시하는 경우에는 상기 제1 변환 계수 및 상기 제1 변환 계수에 인접한 두 변환 계수를 동일한 부호로 복원하는 것을 특징으로 하는 음성 신호 복호화 방법.
  14. 제9항에 있어서, 상기 복원되는 음성 신호는 초광대역 음성 신호인 것을 특징으로 하는 음성 신호 복호화 방법.
KR1020147008256A 2011-09-28 2012-09-28 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치 KR102048076B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161540518P 2011-09-28 2011-09-28
US61/540,518 2011-09-28
US201261684826P 2012-08-20 2012-08-20
US61/684,826 2012-08-20
PCT/KR2012/007889 WO2013048171A2 (ko) 2011-09-28 2012-09-28 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치

Publications (2)

Publication Number Publication Date
KR20140082676A true KR20140082676A (ko) 2014-07-02
KR102048076B1 KR102048076B1 (ko) 2019-11-22

Family

ID=47996640

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147008256A KR102048076B1 (ko) 2011-09-28 2012-09-28 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치

Country Status (6)

Country Link
US (1) US9472199B2 (ko)
EP (1) EP2763137B1 (ko)
JP (1) JP5969614B2 (ko)
KR (1) KR102048076B1 (ko)
CN (1) CN103946918B (ko)
WO (1) WO2013048171A2 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2610293C2 (ru) 2012-03-29 2017-02-08 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
PL3046104T3 (pl) * 2013-09-16 2020-02-28 Samsung Electronics Co., Ltd. Sposób kodowania sygnału oraz sposób dekodowania sygnału
US10388293B2 (en) 2013-09-16 2019-08-20 Samsung Electronics Co., Ltd. Signal encoding method and device and signal decoding method and device
JP6633547B2 (ja) * 2014-02-17 2020-01-22 サムスン エレクトロニクス カンパニー リミテッド スペクトル符号化方法
CN111968656B (zh) 2014-07-28 2023-11-10 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
CN107924683B (zh) * 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
KR20200127781A (ko) * 2019-05-03 2020-11-11 한국전자통신연구원 주파수 복원 기법 기반 오디오 부호화 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065785A1 (en) * 2000-11-22 2005-03-24 Bruno Bessette Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals
US20090210219A1 (en) * 2005-05-30 2009-08-20 Jong-Mo Sung Apparatus and method for coding and decoding residual signal
EP2120234A1 (en) * 2007-03-02 2009-11-18 Panasonic Corporation Encoding device and encoding method
WO2011087332A2 (ko) * 2010-01-15 2011-07-21 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US5394508A (en) * 1992-01-17 1995-02-28 Massachusetts Institute Of Technology Method and apparatus for encoding decoding and compression of audio-type data
US5684926A (en) * 1996-01-26 1997-11-04 Motorola, Inc. MBE synthesizer for very low bit rate voice messaging systems
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
JP3372908B2 (ja) * 1999-09-17 2003-02-04 エヌイーシーマイクロシステム株式会社 マルチパルス探索処理方法と音声符号化装置
US6539349B1 (en) * 2000-02-15 2003-03-25 Lucent Technologies Inc. Constraining pulse positions in CELP vocoding
DE60113034T2 (de) 2000-06-20 2006-06-14 Koninkl Philips Electronics Nv Sinusoidale kodierung
US6728669B1 (en) * 2000-08-07 2004-04-27 Lucent Technologies Inc. Relative pulse position in celp vocoding
JP2004518163A (ja) 2001-01-16 2004-06-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ又は音声信号のパラメトリック符号化
EP1527442B1 (en) 2002-08-01 2006-04-05 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and audio decoding method based on spectral band replication
JP2006503323A (ja) * 2002-10-17 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 位相の更新による正弦波オーディオコーディング
FI118704B (fi) * 2003-10-07 2008-02-15 Nokia Corp Menetelmä ja laite lähdekoodauksen tekemiseksi
FR2867648A1 (fr) * 2003-12-10 2005-09-16 France Telecom Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
US7788091B2 (en) * 2004-09-22 2010-08-31 Texas Instruments Incorporated Methods, devices and systems for improved pitch enhancement and autocorrelation in voice codecs
US8000967B2 (en) * 2005-03-09 2011-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Low-complexity code excited linear prediction encoding
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
JP2008040452A (ja) 2006-07-14 2008-02-21 Victor Co Of Japan Ltd 符号化装置及び復号化装置
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
KR100848324B1 (ko) * 2006-12-08 2008-07-24 한국전자통신연구원 음성 부호화 장치 및 그 방법
US8175870B2 (en) * 2006-12-26 2012-05-08 Huawei Technologies Co., Ltd. Dual-pulse excited linear prediction for speech coding
KR101080421B1 (ko) 2007-03-16 2011-11-04 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US20090180531A1 (en) * 2008-01-07 2009-07-16 Radlive Ltd. codec with plc capabilities
JP2012503212A (ja) * 2008-09-19 2012-02-02 ニューサウス イノベーションズ ピーティーワイ リミテッド オーディオ信号分析方法
US8805694B2 (en) * 2009-02-16 2014-08-12 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding audio signal using adaptive sinusoidal coding
CN102460574A (zh) 2009-05-19 2012-05-16 韩国电子通信研究院 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065785A1 (en) * 2000-11-22 2005-03-24 Bruno Bessette Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals
US20090210219A1 (en) * 2005-05-30 2009-08-20 Jong-Mo Sung Apparatus and method for coding and decoding residual signal
EP2120234A1 (en) * 2007-03-02 2009-11-18 Panasonic Corporation Encoding device and encoding method
WO2011087332A2 (ko) * 2010-01-15 2011-07-21 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Subpart 8: Technical description of parametric coding for high quality audio. w6795 (14496-3-200x_3rd_sp8) of w6795_Draft 3rd Edition of 14496-3. 2004.10.20. *

Also Published As

Publication number Publication date
JP5969614B2 (ja) 2016-08-17
EP2763137A4 (en) 2015-05-06
WO2013048171A2 (ko) 2013-04-04
JP2014531623A (ja) 2014-11-27
WO2013048171A3 (ko) 2013-05-23
EP2763137A2 (en) 2014-08-06
US20140236581A1 (en) 2014-08-21
CN103946918A (zh) 2014-07-23
US9472199B2 (en) 2016-10-18
EP2763137B1 (en) 2016-09-14
KR102048076B1 (ko) 2019-11-22
CN103946918B (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
JP4950210B2 (ja) オーディオ圧縮
JP5863868B2 (ja) 適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
KR101139172B1 (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
KR101171098B1 (ko) 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
KR102048076B1 (ko) 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
JP6039678B2 (ja) 音声信号符号化方法及び復号化方法とこれを利用する装置
JP2009524100A (ja) 符号化/復号化装置及び方法
JP6139685B2 (ja) 損失フレーム復元方法及びオーディオ復号化方法とそれを利用する装置
US20030088402A1 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
KR20180131518A (ko) 계층형 정현파 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
JP5629319B2 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
KR102052144B1 (ko) 음성 신호의 대역 선택적 양자화 방법 및 장치
US20100280830A1 (en) Decoder
Yamanashi et al. Low bit-rate high-quality audio encoding and low complexity bandwidth extension technologies for ITU-T G. 718/G. 718-SWB
Jeong et al. Embedded bandwidth scalable wideband codec using hybrid matching pursuit harmonic/CELP scheme
JPH09127986A (ja) 符号化信号の多重化方法及び信号符号化装置
Raut Advance Source Coding Techniquesfor Audio/Speech Signal: A Survey

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant