KR101100280B1 - 오디오 양자화 - Google Patents

오디오 양자화 Download PDF

Info

Publication number
KR101100280B1
KR101100280B1 KR1020097014907A KR20097014907A KR101100280B1 KR 101100280 B1 KR101100280 B1 KR 101100280B1 KR 1020097014907 A KR1020097014907 A KR 1020097014907A KR 20097014907 A KR20097014907 A KR 20097014907A KR 101100280 B1 KR101100280 B1 KR 101100280B1
Authority
KR
South Korea
Prior art keywords
audio signal
signal segment
quantization
parameters
predictive quantization
Prior art date
Application number
KR1020097014907A
Other languages
English (en)
Other versions
KR20090101932A (ko
Inventor
안씨 라모
라쎄 라아크소넨
아드리아나 바실라체
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20090101932A publication Critical patent/KR20090101932A/ko
Application granted granted Critical
Publication of KR101100280B1 publication Critical patent/KR101100280B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Abstract

오디오 신호 코딩 영역에서 예측 양자화 또는 비예측 양자화 중의 선택을 지원하기 위하여, 오디오 신호 세그먼트의 비예측(non-predictive) 양자화의 결과로 생기는 오류가 미리결정된 문턱값 이하인지 여부가 판단된다. 적어도, 오디오 신호 세그먼트의 비예측 양자화의 결과로 생기는 오류가 미리결정된 문턱값 이하라고 판단이 되면, 비예측 양자화로 양자화된 오디오 신호 세그먼트가 인코딩된 오디오 신호의 일부로서 제공된다. 그렇게 판단되지 않으면, 예측 양자화로 양자화된 오디오 신호갸 인코딩된 오디오 신호의 일부로서 제공된다.

Description

오디오 양자화{Audio quantization}
본 발명은 오디오 코딩 분야에 관련되고, 특히 오디오 양자화(quantization) 분야에 관련된다.
오디오 인코더 및 디코더(코덱들)는 통신 시스템, 멀티미디어 시스템, 및 스토리지 시스템의 다양한 애플리케이션들을 위해 사용된다. 오디오 인코더는 스피치와 같은, 오디오 신호(signal)들을 인코딩하기 위해 사용되며, 특히 오디오 신호의 효율적인 전송과 저장을 가능하게 하기 위해 사용되는 반면에, 오디오 디코더는 수신된 인코딩된 신호에 기초하여 합성된 신호를 구성한다.
코덱들을 구현할 때, 따라서 합성된 신호의 고품질을 유지하면서, 전송과 스토리지 용량을 절약하는 것이 목적이다. 특히 모바일 애플리케이션 및 VoIP( Voice over Internet Protocol) 애플리케이션에서의 전송 오류들에 대한 강건성(robustness)이 중요하다. 다른 한편으로, 코덱의 복잡도(complexity)가 애플리케이션 플랫폼의 프로세싱 파워에 의해 제한된다.
전형적인 스피치 인코더에서, 입력 스피치 신호는, 프레임들로 불리는 세그먼트들로 프로세싱된다. 보통 프레임 길이는 10-30 ms이다. 연속 프레임인 5-15 ms길이의 룩어헤드(lookahead) 세그먼트가 추가로 사용될 수 있다. 프레임은 다수의 서브프레임들로 또한 나뉠 수 있다. 매 프레임마다, 인코더는 입력 신호의 파라메트릭 표현(parametric representation)을 판단한다. 파라미터들은 양자화되고, 그리고 통신 채널을 통해 전송되거나, 또는 디지털 형태로 스토리지 매체에 저장된다. 수신 엔드(end)에서, 디코더는 수신된 파라미터들에 기초하여 합성된 신호를 구성한다.
파라미터들 및 양자화의 구성은 양자화 작업을 위해 최적화된(optimized) 코드벡터들을 담고 있는 코드북들에 보통 기초한다. 다수의 경우들에서, 압축비가 높을수록 코드북들이 더 고도로 최적화될 것을 요구한다. 종종 양자화기(quantizer)의 성능은 이전 프레임으로부터의 예측을 사용해서 주어진 압축비를 위해 향상될 수 있다. 이런 양자화(quantization)는 이전 프레임들로부터의 어떤 정보에도 의존하지 않는 비-예측(non-predictive) 양자화와 대조해서, 예측 양자화로 이하 지칭될 것이다. 예측 양자화는 현재 프레임에 대한 예측을 얻기 위해, 현재 오디오 프레임과 적어도 하나의 이웃 오디오 프레임 사이의 상관관계(correlation)를 이용해서, 예컨대 이 예측으로부터의 편차(deviation)들만이 인코딩되도록 하며, 이 예측 양자화에는 또한 전용 코드북들이 필요한다.
예측 양자화로 인해, 문제들이 생길 수 있으나, 전송 또는 저장에서의 오류들 문제가 있을 뿐이다. 예측 양자화를 썼을 때, 예측의 기초가 된 적어도 하나의 이전 프레임이 오류가 있다면, 새로운 프레임이 수신이 정확하게 되었을지라도, 완전하히 디코딩될 수 없다. 따라서 오류 전파(propagation)가 길게 지속되는 것을 막기 위해, 이따금 비-예측 양자화를 사용하는 것이 가능하다. "안정망(safety- net)" 양자화로 또한 불리는, 이따금씩의 비-예측 양자화를 위해, 예측 코드북과 비-예측 코드북 중에서 선택하기 위해 코드북 선택기가 사용될 수 있다.
안정망 양자화가, 저장 또는 전송에서 전반적으로 오류가 있는 실행과 오류가 없는 실행과 관련하여 순수 예측 양자화에 대한 향상이지만, 양자화의 예측 특성에 기인한 상당한 문제가 남아있다. 보통은, 프레임들 중 70 내지 80%에 대해서 예측이 사용된다. 한 열(row)에 여전히 많은 연속 예측 프레임들이 존재하기 때문에, 프레임 말소의 경우에, 종종 최대 5개의 프레임들이 손실된다.
예측 양자화의 사용에 대해 상대적으로 비-예측 양자화의 사용을 증가시키는 것이 가능할 것이다. 이는 오직 3개의 연속 프레임들만이 예측에 기초해 양자화될 수 있도록 하는, 카운터들에 기초하여 비-예측 양자화의 강요된 선택을 함으로써 달성될 수 있다. 또 하나의 옵션은 예측기 매트릭스에서 더 작은 계수(coefficient)를 사용함으로써, 예측을 덜 사용하는 것이다. 또 다른 하나의 옵션은 양자화 선택기에 선호(preference) 이득(gain)을 사용하는 것이다. 즉, 예측 양자화가 선택되기 전에, 비예측 양자화보다 양자화 오류면에서 예컨대 1.3배 나을때 예측 양자화가 필요하도록 해서, 예측 양자화의 사용을 감소시킨다. 모든 이런 옵션들은 저장 또는 전송시 오류들에 대하여 강건성을 증가시키고, 반면 깨끗한(clean) 채널의 경우에 양자화 성능(performance)을 감소시키기 위해 적합하다.
오디오 신호 세그먼트의 비예측(non-predictive) 양자화의 결과로 생기는 오류가 미리결정된 문턱값 이하인지 여부를 판단하는 것을 포함하는 본 발명의 방법이 설명된다. 그 방법은 또한 적어도, 상기 오디오 신호 세그먼트의 상기 비예측 양자화의 결과로 생기는 오류가 미리결정된 문턱값 이하라고 판단이 되면, 비예측 양자화로 양자화된 오디오 신호 세그먼트를 인코딩된 오디오 신호의 일부로서 제공하는 것을 포함한다. 그 방법은, 그렇게 판단되지 않으면, 예측 양자화로 양자화된 오디오 신호세그먼트를 인코딩된 오디오 신호의 일부로서 제공하는 것을 또한 포함한다.
오디오 신호 세그먼트의 비예측(non-predictive) 양자화의 결과로 생기는 오류가 미리결정된 문턱값 이하인지 여부를 판단하도록 구성된 프로세싱 컴포넌트를 포함하는 본 발명의 장치가 또한 설명된다. 그 장치는 적어도, 오디오 신호 세그먼트의 비예측 양자화의 결과로 생기는 오류가 미리결정된 문턱값 이하라고 판단이 되면, 비예측 양자화로 양자화된 오디오 신호 세그먼트를 인코딩된 오디오 신호의 일부로서 제공하도록 구성된 프로세싱 컴포넌트를 더 포함한다. 그 장치는 그렇게 판단되지 않으면, 예측 양자화로 양자화된 오디오 신호 세그먼트를 인코딩된 오디오 신호의 일부로서 제공하도록 구성된 프로세싱 컴포넌트를 더 포함한다.
설명된 장치의 프로세싱 컴포넌트들이 상이한 컴포넌트들 또는 단일 컴포넌트일 수 있다. 프로세싱 컴포넌트들은 하드웨어 및/또는 소프트웨어로 구현될 수 있다. 프로세싱 컴포넌트들은 예컨대 요구되는 기능들을 실행하도록 컴퓨터 프로그램 코드를 실행시키는 프로세서에 의해 구현될 수 있다. 대안적으로 예컨대 집적 회로와 같은 칩셋(chipset) 또는 칩에서 요구된 기능들이 실행되도록 설계된 하드웨어에 의해 프로세싱 컴포넌트들이 구현될 수 있다. 설명된 장치는 예컨대 포함된 프로세싱 컴포넌트들과 동일할 수 있지만, 추가 컴포넌트들을 포함할 수 있다.
또한 설명된 장치, 및 오디오 입력 컴포넌트들 포함하는 본 발명의 전자 디바이스가 설명된다. 이런 전자 디바이스는, 이동 전화, 녹음 디바이스, 퍼스널 컴퓨터 또는 랩톱 컴퓨터 기타 등등과 같은, 오디오 데이터를 인코딩할 필요가 있는 임의의 디바이스일 수 있다.
또한 설명된 장치, 및 설명된 장치에 의해 제공된 인코딩된 오디오 신호를 디코딩하도록 구성된 프로세싱 컴포넌트를 포함하는 추가 장치를 포함하는 본 발명의 시스템이 설명된다.
마지막으로, 프로그램 코드가 컴퓨터 판독가능 매체 내에 저장된 컴퓨터 프로그램 제품이 제안된다. 프로그램 코드는 프로세서에 의해 실행될 때 제안된 방법을 구현한다.
컴퓨터 프로그램 제품은 예컨대, 메모리 디바이스, 또는 전자 디바이스 내에 집적된 메모리일 수 있다.
본 발명은 또한 컴퓨터 프로그램 제품과 컴퓨터 판독가능 매체와 독립적으로 이런 컴퓨터 프로그램 코드를 포함한다는 것을 알아야 한다.
본 발명은 일정 문턱값 이하에서 인코딩된 오디오 세그먼트 내의 양자화 오류가 무시될 수 있다는 고려하에 진행된다. 따라서 본 발명은, 고려되는 오류가 미리결정된 문턱값을 초과하지 않는 때마다 비-예측 양자화가 선택될 수 있다는 것을 제안한다. 나머지 시간 동안, 예측 양자화가 선택될 수 있고, 또는 예측 양자화와 비예측 양자화 중에서의 선택을 위해 추가 기준이 평가될 수 있다.
따라서 본 발명은 채널 오류가 있을 경우에 코딩 성능(performance)을 향상시키는 가능성을 제공한다. 목표 평균 양자화 오류가 증가될 때, 문턱값이 너무 낮게 설정되어서 오류가 거의 들리지 않거나 전혀 들리지 않게되도록 된다.
따라서 본 발명의 하나의 실시 예에서, 미리결정된 문턱값은, 문턱값 이하에서 오류가 불가청(inaudible)으로 간주되게하는 문턱값이다.
예컨대 양자화에 기인한 스펙트럼 왜곡(spectral distortion)이 1dB 이하이면, 왜곡이 들릴 수 없다는 것을 가정한다. 따라서 인간의 청각 포인트에서 봤을 때 이미 충분한 0.9dB의 스펙트럼 왜곡의 결과가 비예측 양자화를 통해 생긴다면, 예컨대 0.5dB의 매우 낮은 스펙트럼 왜곡을 획득하기 위해 예측 양자화를 써서 특정 오디오 신호 세그먼트를 양자화할 필요가 없다. 절대(absolute) 오류가 개개의 오디오 신호 세그먼트보다 더 클지라도, 양자화 오류는 이 경우에 들릴 수 없다. 이 오디오 신호 세그먼트에 선행하는 오디오 신호 세그먼트 말소가 있다면, 예측 양자화는 불충분하게 실행될 것이지만, 비예측 양자화의 결과를 생기게하는 파라미터들은 충분히 디코딩될 것이다. 따라서 오류가 있는 오디오 신호 세그먼트들에 대해서만, 가청 향상되고, 반면에 깨끗한 채널들에 대해서는,어떤 가청 열화(audible degradation)도 없다.
따라서 상술로부터 명확해지듯이, 미리결정된 문턱값과 비교될 수 있는 적합한 오류가, 원본 오디오 신호 세그먼트와 비-예측 양자화의 결과로 생긴 오디오 신호 세그먼트 간의 주파수 범위에 걸친 스펙트럼 왜곡과 관련이 있을 수 있다. 그 주파수 범위에 걸친 스펙트럼 왜곡에 대하여 오류를 계산하는 것이, 예컨대 오디오 신호 세그먼트에 속하는, ISF(immittance spectral frequency) 파라미터들 또는 LSF(line spectral frequency) 파라미터들에게 또한 적합할 수 있다.
각각의 오디오 신호 세그먼트의 스펙트럼 왜곡 SD는 다음 수학식에 의해 나타날 수 있다. :
Figure 112009043373823-pct00001
Figure 112009043373823-pct00002
Figure 112009043373823-pct00003
은 각각 양자화를 한 스피치 프레임과 양자화를 하지 않은 스피치 프레임이다. 이 스펙트럼 왜곡이 예컨대 코드북과 LPC(linear predictive coding) 파라미터들의 양자화 선택을 위해 특히 정확한 척도(measure)일 것이지만, 이 스펙트럼 왜곡을 판단하기 위한 계산적 노력이 보다 단순한 방법을 사용함으로써 감소될 수 있다.
고려되는 오류가 또한 예컨대 원본 오디오 신호 세그먼트의 개개의 성분(component)과 비-예측 양자화의 결과로 생기는 오디오 신호 세그먼트의 대응 성분 간의 가중된 오류들을 결합함으로써 또한 획득될 수 있다. 가중된 평균 제곱(mean square) 오류들을 결합함으로써 오류가 획득될 수 있고, 그리고 오류들의 가중(weighting)은 음향 심리학적으로(psycho acoustically) 의미있는 가중일 수 있다. 음향심리학적으로 의미있는 가중 벡터란, 가중 벡터가, 인간의 귀로 분명히 인지되지 않는 오디오 신호 내의 스펙트럼 성분들과 비교할 때, 인간의 귀로 인지 되는 오디오 신호 내의 스펙트럼 성분들을 강조하는(emphasize) 것을 의미한다. 가중 벡터는 여러가지 방식으로 계산될 수 있다.
이런 음향심리학적으로 의미있는 오류는, 예컨대 ISF 벡터값 또는 LSF 벡터값 간의 가중된 평균 제곱 오류일 수 있다.
일반적으로, 고려되는 오류가 전체적으로 양자화된 오디오 신호 세그먼트에 기초하거나, 혹은 예컨대 선택된 양자화 파라미터에 기초한, 부분적으로 양자화된 오디오 신호 세그먼트에 기초하여 판단될 수 있다는 것을 알아야 한다.
제시된 문턱값에 기초한 기준은, 기준의 다양한 다른 유형들의 결합으로서 또한 사용될 수 있다.
이런 추가의 기준을 사용하는 하나의 실시 예에서, 오디오 신호 세그먼트의 상기 비예측(non-predictive) 양자화의 결과로 생기는 오류가 오디오 신호 세그먼트의 예측 양자화의 결과로 생기는 오류보다 작은지 여부가 판단된다. 오디오 신호 세그먼트의 비예측(non-predictive) 양자화의 결과로 생기는 오류가 오디오 신호 세그먼트의 예측 양자화의 결과로 생기는 오류보다 작다면, 비예측 양자화로 양자화된 오디오 신호 세그먼트가 추가로 제공된다. 그 결과로서, 오류가 없는 전송 또는 저장의 경우에서조차, 잔여 오디오 신호 세그먼트들에 대해 오류의 절대적인 최소화가 달성된다.
이 실시 예에서, 오디오 신호 세그먼트의 비예측(non-predictive) 양자화의 결과로 생기는 오류가 오디오 신호 세그먼트의 상기 예측 양자화의 결과로 생기는 오류보다 작은지 여부를 판단하기 전에, 비예측(non-predictive) 양자화의 결과로 생기는 오류와 예측 양자화의 결과로 생기는 오류 중 적어도 하나가 또한 가중될 수 있다. 이런 가중은 예측 양자화보다 비예측 양자화를 더 선호할 수 있게한다.
이런 추가 기준을 사용하는 다른 하나의 실시 예에서, 가장 최근에 제공된 양자화된 오디오 신호 세그먼트가 예측 양자화로 양자화된 오디오 신호 세그먼트들의 시퀀스에 속하는지 여부가 또한 판단되며, 오디오 신호 세그먼트들의 개수는 미리결정된 개수를 초과한다. 이어서, 시퀀스로 제공되었던 예측 양자화로 양자화된 오디오 신호 세그먼트들의 개수가 미리결정된 개수를 초과한다고 판단되면 비-예측 양자화로 양자화된 오디오 신호 세그먼트가 추가로 제공될 수 있다.
모든 제시된 예시적인 실시 예들이 임의의 적합한 조합으로서 또한 사용될 수 있다는 것을 알아야 한다.
설명된 방법, 장치, 디바이스, 시스템 및 프로그램 코드가 임의 종류의 오디오 코덱에서 사용될 수 있다는 것을 알아야 한다.
설명된 본 발명의 임의의 실시 예가 예컨대 VBR-EV(variable bit rate - embedded variable rate speech codec)의 코어 계층에서 사용될 수 있다. 이런 코덱은 8 내지 32 kbps의 비트레이트를 쓰고, 50-7000 Hz의 주파수 범위를 지원하는 광대역 코덱일 수 있다. 코덱 코어는 8 kbps에서 동작할 수 있고, 이때 상당히 작은 그래뉼러티()를 갖는 추가 계층들은 관측되는 스피치 및 오디어 품질을 향상시킬 수 있다. 예컨대 동일한 임베디드된 비트스트림에서 이용가능한 8 / 12 / 16 / 24 및 32 kbps의 적어도 5개의 비트 레이트가 있을 수 있다.
본 발명의 다른 목적들 및 특징들이 첨부된 도면들과 연관해서 고려되는 다 음의 상세한 설명으로부터 명백해질 것이다. 그러나 도면들이 오직 설명 목적만을 위해 디자인되었고 본 발명의 제한들에 대해 정의로서 디자인된 것이 아니며, 그 제한들에 대한 정의는 첨부된 청구항들을 참조해야함을 알아야 한다. 또한 도면들이 기준화하여(scale) 그려지지 않았고, 명세서에서 설명된 구조들 및 절차들을 개념적으로 설명할 의도일 뿐이라는 것을 또한 알아야 한다.
도 1은 본 발명의 하나의 실시 예에 따른 시스템의 개략적인 블록도이고;
도 2는 도 1의 시스템에서 예측 양자화 또는 비예측 양자화 중의 선택을 도해하는 다이어그램이고; 그리고
도 3은 본 발명의 하나의 실시 예에 따른 디바이스의 개략적인 블록도이다.
도 1은 본 발명의 하나의 실시 예에 따라 예측 양자화 또는 비예측 양자화 중의 선택이 구현될 수 있는 예시적인 시스템의 개략적인 블록도이다. 용어 '비예측 양자화' 및 '안정망 양자화'는 동의어로 사용될 것이다.
시스템은 제1 전자 디바이스(100)와 제2 전자 디바이스(150)을 포함한다. 제1 전자 디바이스(100)는 광대역(wideband) 전송을 위해 오디오 데이터를 인코딩하도록 구성되고, 그리고 제2 전자 디바이스(150)는 인코딩된 오디오 데이터를 디코딩하도록 구성된다.
전자 디바이스(100)는 칩(120)을 통해 전송 컴포넌트(TX, transmitting component)(112)로 연결된 오디오 입력 컴포넌트(111)를 포함한다.
오디오 입력 컴포넌트(110)는 예컨대 마이크로폰 또는 오디오 데이터를 제공하는 다른 디바이스로의 인터페이스일 수 있다.
칩(120)은 선택된 기능 블록들이 개략적으로 도해된, 오디오 인코더(121)용 회로소자를 포함하는, 예컨대 집적 회로(IC)일 수 있다. 그것들은 파라미터화(parameterization) 컴포넌트(124) 및 양자화 컴포넌트(125)를 포함한다.
전송 컴포넌트(112)는 유선 또는 무선 링크를 통해 예컨대 전자 다비이스(150)와 같은, 다른 디바이스로의 데이터의 전송을 할 수 있도록 구성된다.
도시된 연결들이 도시되지 않은 다양한 컴포넌트들을 통해 이뤄질 수 있다는 것을 알아야 한다.
인코더(121) 또는 칩(120)은 본 발명에 따른 예시적인 장치로 간주할 수 있고, 양자화 컴포넌트는 대응하는 프로세싱 컴포넌트들을 나타내는 것으로서 간주할 수 있다.
전자 디바이스(150)는 오디오 출력 컴포넌트(161)로 칩(170)을 통해 연결된, 수신 컴포넌트(162)를 포함한다.
수신 컴포넌트(162)는 유선 또는 무선 링크를 통해 예컨대 전자 다비이스(100)와 같은, 다른 디바이스로부터 데이터의 수신을 할 수 있도록 구성된다.
칩(170)은 예컨대 합성 컴포넌트(174)가 도해된 오디오 디코더(171)용 회로소자를 포함하는, 예컨대 집적 회로(IC)일 수 있다.
오디오 출력 컴포넌트(161)는 예컨대 디코딩된 오디오 데이터가 포워딩되는 다른 디바이스로의 인터페이스 또는 확성기일 수 있다.
도시된 연결들이 도시되지 않은 다양한 컴포넌트들을 통해 이뤄질 수 있다는 것을 알아야 한다.
도 1의 시스템의 동작이 이제 도 2를 참조하여 더 상세히 설명될 것이다.
도 2는 오디오 인코더(121)의 동작을 도해하는 흐름도이다.
오디오 신호가 예컨대 오디오 입력 컴포넌트(111)를 통해 전자 디바이스(100)로의 입력이 될 때, 그 오디오 신호는 인코딩을 위해 오디오 인코더(121)로 제공될 수 있다. 오디오 신호가 오디오 인코더(121)로 제공되기 전에, 일정 사전-프로세싱(pre-processing)을 받을 수 있다. 입력 오디오 신호가 예컨대 아날로그 오디오 신호라면, 그 입력 오디오 신호는 우선 아날로그-투-디지털 변환 등을 거칠 수 있다.
오디오 인코더(121)가 10ms의 룩어헤드(lookahead)를 사용해서, 예컨대 20ms의 프레임들로 오디오 신호를 프로세싱한다. 각각의 프레임은 오디오 신호 세그먼트를 구성한다.
파라미터화 컴포넌트(124)가 우선 현재 오디오 프레임을 파라미터 표현(representation)으로 변환한다(단계 201). 현 예에서, 파라미터들은 ISF 벡터 값 및 LSF 벡터 값을 포함한다.
양자화 컴포넌트(125)는 반면에 비-예측 코드북을 사용해서 오디오 프레임의 파라미터들의 비예측 양자화를 수행한다(단계 211). 양자화 컴포넌트(125)는 이 단계에서만 선택된 파라미터들의 양자화를 수행한다. 현 예에서, 양자화 컴포넌트(125)가 적어도 ISF 벡터의 값들에게 비예측 양자화를 적용한다(단계 211).
또한 양자화 컴포넌트(125)가 현 프레임 i에 대해 가중된 오류
Figure 112009043373823-pct00004
를 판단한다. (단계 212):
Figure 112009043373823-pct00005
여기서 N은 양자화된 벡터의 길이이고,
Figure 112009043373823-pct00006
은 프레임 i에 대한 안전망 양자화된 최적 ISF 벡터값 p이고,
Figure 112009043373823-pct00007
는 프레임 i에 대한 원본, 비양자화된 ISF 벡터값 p이고,
Figure 112009043373823-pct00008
는 프레임 i에 대한 음향심리학적으로 관련있는 가중 벡터 값 p 이다.
GSM(Global System for Mobile communications )에서, 예컨대 각각의 벡터값 p에 대한 가중치
Figure 112009043373823-pct00009
가 다음 수학식을 사용해서 현재 프레임 i에 대한 LSF 파라미터들에 기초해 판단될 수 있는 것이 다른 정황에서 특정되었다.
Figure 112009043373823-pct00010
이때
Figure 112009043373823-pct00011
(
Figure 112009043373823-pct00012
,
Figure 112009043373823-pct00013
)이고, LSF는 라인 스펙트럼 주파수이다. 본 발명의 실시 예에 의해 지원되는 광대역 전송을 위한 인코딩용 가중치들은 예컨대 적절한 방식으로 수정된 수학식들을 사용해서 LSF 파라미터들 대신에 ISF 파라미터들에 기초하여 판단될 수 있다. 가중치들
Figure 112009043373823-pct00014
이 가중 벡터
Figure 112009043373823-pct00015
를 사용하여 간략해질 수 있다.
양자화 컴포넌트(125)는 반면에 예측 코드북을 사용해서 오디오 프레임의 파라미터들의 예측 양자화를 수행한다(단계 221). 양자화 컴포넌트(125)는 이 단계에서만 선택된 파라미터들의 양자화를 다시 수행할 수 있다. 본 발명의 예에서, 양자화 컴포넌트(125)는 적어도 ISF 벡터값들에 예측 양자화를 적용한다(단계 221).
또한 양자화 컴포넌트(125)는 현재 프레임 i에 대해 가중된 오류
Figure 112009043373823-pct00016
를 판단한다(단계 222).
Figure 112009043373823-pct00017
이때 N은 양자화된 벡터의 길이이며, 여기서
Figure 112009043373823-pct00018
는 프레임 i에 대한 예측 양자화된 최적 ISF 벡터값 p이고,
Figure 112009043373823-pct00019
는 프레임 i에 대한 원본, 비양자화된 ISF 벡터값 p이고,
Figure 112009043373823-pct00020
는 프레임 i에 대해 음향심리학적으로 관련 있는 가중 벡 터이다.
다음에, 양자화 컴포넌트(125)는 판단된 오류들
Figure 112009043373823-pct00021
Figure 112009043373823-pct00022
에 기초하여, 현재 프레임에 대해 예측 양자화 또는 비예측 양자화 중에서 하나를 선택한다.
이 끝에서, 양자화 컴포넌트(125)는 첫째로, 카운트
Figure 112009043373823-pct00023
가 미리결정된 한계
Figure 112009043373823-pct00024
를 초과하는지를 결정한다. 카운트
Figure 112009043373823-pct00025
는, 예측 양자화에 기초하고, 그리고 비-예측 양자화의 최종 선택 이후에 제공되었던 프레임들의 개수를 나타낸다. 한계
Figure 112009043373823-pct00026
는 예컨대 다른 원하는 값으로 동일하게 설정될 수 있겠지만, 예컨대 3개로 설정될 수 있다.
카운트
Figure 112009043373823-pct00027
가 설정한계
Figure 112009043373823-pct00028
를 초과하면, 양자화 컴포넌트(125)는 비예측 양자화를 사용하여 단계(211)에서 양자화되었던 양자화된 오디오 프레임을 전송기(112)를 통한 전송을 위해, 제공한다 (단계 213). 선택된 파라미터들이 단계(211)에서 양자화된 경우에만, 양자화 컴포넌트(125)가 비예측 양자화를 사용하여 오디오 프레임으로부터 모든 파라미터들을 양자화하고, 그것들을 전송을 위해 제공한다.
그리고, 카운트
Figure 112009043373823-pct00029
를 카운팅하는 카운터는 0으로 리셋된다(단계 214).
반대로, 카운트
Figure 112009043373823-pct00030
가 설정한계를 초과하지 않은 경우에는 양자화 컴 포넌트는 판단된 오류
Figure 112009043373823-pct00031
가 미리결정된 문턱값
Figure 112009043373823-pct00032
를 초과하는지 여부를 또한 판단한다. 문턱값
Figure 112009043373823-pct00033
는 그 값 이하에 오류
Figure 112009043373823-pct00034
가 불가청으로 간주되는 값으로 설정된다(단계 203).
적절한 문턱값은 상이한 가중 함수들 및 코덱 파라미터들에게 상이하고, 그것은 시행착오(trial-and-error)를 통해 오프라인으로 계산되어야 한다. 그러나 적절한 문턱값이 찾아지면, 인코더에서의 계산 복잡도 증가는 최소이다. 본 발명의 예에서, 그것은 대략 0.9dB일 수 있다.
오류
Figure 112009043373823-pct00035
가 미리결정된 문턱값
Figure 112009043373823-pct00036
를 초과하지 않는다고 판단되면, 양자화 컴포넌트(125)는 비예측 양자화를 사용하여 양자화되었던 양자화된 오디오 프레임을 다시 전송기(112)를 통한 전송을 위해 또한 제공한다(단계 213). 그리고 카운트
Figure 112009043373823-pct00037
를 카운팅하는 카운터는 0으로 리셋된다(단계 214).
반대로 오류
Figure 112009043373823-pct00038
가 미리결정된 문턱값
Figure 112009043373823-pct00039
를 초과한다고 판단되면, 양자화 컴포넌트(125)는 단계(222)에서 판단되고 가중 인자
Figure 112009043373823-pct00040
로 가중된 오류
Figure 112009043373823-pct00041
가 단계(212)에서 판단된 오류
Figure 112009043373823-pct00042
를 초과하는지 여부를 또한 체크한다(단계 204). 가중 인자
Figure 112009043373823-pct00043
는 예측 코드북 사용보다 안정망 코드북 사용을 더 선호하도록 하기 위해 사용된다.
가중된 오류
Figure 112009043373823-pct00044
가 판단된 오류
Figure 112009043373823-pct00045
를 초과한다고 판단되면, 양자화 컴포넌트(125)는 비예측 양자화를 사용하여 양자화되었던 양자화된 오디오 프레임을 전송기(112)를 통해 전송하기 위해 다시 제공한다(단계 213). 그리고 카운트
Figure 112009043373823-pct00046
를 카운팅하는 카운터는 0으로 리셋된다(단계 214).
반대로, 가중된 오류
Figure 112009043373823-pct00047
가 판단된 오류
Figure 112009043373823-pct00048
를 초과하지 않는다고 판단되면, 양자화 컴포넌트(125)는 마침내 예측 양자화를 사용하여 단계(221)에서 양자화되었던 양자화된 오디오 프레임을 전송기(112)를 통해 전송하기 위해 제공한다.
선택된 파라미터들만이 단계(221)에서 양자화되었던 경우에, 양자화 컴포넌트(125)는 예측 양자화를 사용하여 오디오 프레임의 모든 파라미터들을 양자화하고, 그리고 전송을 위해 그것들을 전송한다. 따라서 양자화 선택은 다음의 의사코드(pseudo-code)로서 간략화될 수 있다.
Figure 112009043373823-pct00049
따라서 비예측 양자화는 오디오 품질의 심각한 열화없이 가능한 종종 선택되고, 그리고 또한 예측 양자화 프레임들의 긴 시퀀스들을, 이런 시퀀스들이 계속 발생하는한, 중단시키기(interrupt) 위해 선택된다.
이 코드 및 상술된 절차(procedure)에서, 가중 인자
Figure 112009043373823-pct00050
가 생략될 수 있다. 즉, 비예측 양자화가 예측 양자화보다 선호될 필요가 없다. 그리고 기준
Figure 112009043373823-pct00051
또한 선택적이다.
제공된 양자화 오디오 프레임들이 추가 정보와 함께 [예컨대 사용된 양자화의 표시와 함께 그리고/또는 인핸스먼트 계층 데이터 기타 등등과 함께] 비트 스트림에서 인코딩된 오디오 데이터의 일부로서 전송기(112)에 의해 전송된다.
전자 디바이스(150)에서, 비트스트림이 수신 컴포넌트(162)에 의해 수신되고, 그리고 디코더(171)로 제공된다. 디코더(171)에서, 합성(synthesizing) 컴포넌트(174)는 수신 비트 스트림 내의 양자화된 파라미터들에 기초하여 합성된 신호를 구성한다. 재구성된(reconsturctd) 오디오 신호는 그 다음에, 가능하게는 디지털-투-아날로그 변환과 같은 추가 프로세싱 이후에, 오디오 출력 컴포넌트(161)로 제공될 수 있다.
도 2의 블록들은, 개략적으로 표현되고, 양자화 컴포넌트(125)의 별개인 프로세싱 블록들로 또한 이해될 수 있다.
도 3은 본 발명의 예측 양자화 또는 비예측 양자화의 선택이 소프트웨어로 구현되는, 예시적인 전자 디바이스(300)의 개략적인 블록도이다.
전자 디바이스(300)는 예컨대 이동 전화일 수 있다. 전자 디바이스(300)는 프로세서(330), 및 이 프로세서(330)에 연결된, 오디오 입력 컴포넌트(311), 오디오 출력 컴포넌트(361), 트랜시버(RX/TX)(312) 및 메모리(340)를 포함한다. 표시된 연결들이 미도시된 다양한 다른 요소들을 통해 구현될 수 있다는 것을 알아야 한다.
오디오 입력 컴포넌트(311)는 예컨대 마이크로폰 또는 일정 오디오 소스로의 인터페이스일 수 있다. 오디오 출력 컴포넌트(361)는 예컨대 확성기일 수 있다. 메모리(340)는 컴퓨터 프로그램 코드를 저장하는 섹션(341) 및 데이터를 저장하는 섹션(342)을 포함한다. 저장된 컴퓨터 프로그램 코드는 선택가능한 양자화를 사용하여 오디오 신호들을 인코딩하는 코드, 및 오디외 신호들을 디코딩하는 코드를 포함한다. 프로세서(330)는 가용 컴퓨터 프로그램 코드를 실행시키도록 구성된다. 가용 코드가 메모리(340)에 저장되어 있는 한, 프로세서(330)는 필요할 때마다 메모리(340)의 섹션(341)으로부터 코드를 검색할 수 있다. 다양한 다른 컴퓨터 프로그램 코드가, 동작 프로그램 코드 및 다양한 애플리케이션들을 위한 프로그램 코드처럼 실행을 위해서 또한 이용가능할 수 있다는 것을 알아야 한다.
저장된 인코딩 코드 또는 메모리(340)와 결합된 프로세서(330)가 본 발명에 따른 예시적인 장치로서 또한 간주할 수 있다. 메모리(340)는 본 발명에 따른 예시적인 컴퓨터 프로그램 제품으로서 또한 간주할 수 있다.
사용자가 입력 오디오 신호의 인코딩을 요청하는, 전자 디바이스(300)의 기능을 선택했을 때, 이 기능을 제공하는 애플리케이션은 프로세서로 하여금 메모 리(340)로부터 인코딩 코드를 검색하게 할 수 있다.
그 다음에, 오디오 입력 컴포넌트(311)를 통해 수신된 오디오 신호들은 - 디지널 오디오 신호들로의 변환 기타 등등 이후에 수신된 아날로그 오디오 신호들의 경우 - 프로세서(330)로 제공된다.
프로세서(330)는 디지털 오디오 신호를 인코딩하기 위해 검색된 인코딩 코드를 실행한다. 인코딩은 도 2와 관련하여 도 1에서 상술된 인코딩에 상응할 수 있다.
인코딩된 오디오 신호는 이후 사용을 위해 메모리(340)의 데이터 저장부(342)에 저장되거나, 또는 다른 전자 디바이스로 트랜시버(312)에 의해 전송된다.
프로세서(330)는, 또한 메모리(340)로부터 디코딩 코드를 검색할 수 있고, 그리고 트랜시버(312)를 통해 수신되거나, 또는 메모리(340)의 데이터 저장부(342)로부터 검색되는 인코딩된 오디오 신호를 디코딩 하기위해 그것을 실행시킬 수 있다. 디코딩은 도 1에서 상술된 디코딩에 상응할 수 있다.
그 다음에, 디코딩된 디지털 오디오 신호는 오디오 출력 컴포넌트(361)로 제공될 수 있다. 오디오 출력 컴포넌트(361)가 확성기를 포함하는 경우에, 디코딩된 오디오 신호는 예컨대 아날로그 오디오 신호로의 변환 이후에 확성기를 통해 사용자에게 제시될 수 있다. 대안적으로, 디코딩된 디지털 오디오 신호는 메모리(340)의 데이터 저장부(342)에 저장될 수 있다.
도 1의 양자화 컴포넌트(125)로서 도해된 기능들 또는 도 3의 프로그램 코 드(341)를 실행하는 프로세서(330)로서 도해된 기능들은, 오디오 신호 세그먼트의 비예측 양자화의 결과로 생기는 오류가 미리결정된 문턱값 아래인지 여부를 판단하는 수단; 적어도, 오디오 신호 세그먼트의 상기 비예측 양자화의 결과로 생기는 오류가 미리결정된 문턱값 이하라고 판단이 되면, 비예측 양자화로 양자화된 오디오 신호 세그먼트를 인코딩된 오디오 신호의 일부로서 제공하는 수단; 및 그렇게 판단되지 않으면, 예측 양자화로 양자화된 오디오 신호를 인코딩된 오디오 신호의 일부로서 제공하는 수단처럼 보일 수 있다.
프로그램 코드(341)는 기능 모듈들 또는 코드 컴포넌트들의 형태로 이런 수단을 포함하는 것으로 또한 보일 수 있다.
본 발명의 바람직한 실시 예들에 적용되는 본 발명의 기초적인 신규한 특징들을 도시되고, 설명되고, 그리고 강조되었지만, 설명된 디바이스들 및 방법들의 형태 및 세부적인 사항들에서 다양한 생략들 대체들 및 변경들이 본 발명의 사상을 벗어남이 없이 이 기술 분야의 당업자에 의해 만들어질 수 있다는 것을 알 것이다. 예컨대 동일한 결과들을 달성하기 위해 실질적으로 동일한 방법으로 실질적으로 동일한 기능을 수행하는 요소들 및/또는 방법의 단계들의 모든 조합들이 본 발명의 범위 내에 있다는 것이 특히 의도된다. 또한 본 발명의 임의의 개시된 형태 또는 실시 예와 연관하여 도시되고/또는 설명된 구조들 및/또는 요소들 및/또는 방법의단계들이 설계적인 선택으로서 모든 다른 개시되거나 설명되거나 제안된 형태로 포함될 수 있다는 것을 인식해야 한다. 따라서 본 발명은 명세서에 첨부된 청구항들의 범위에서 지시된 것으로만 제한될 의도이다. 그리고, 기능 수단 청구항(means- plus-function)들은 제시된 기능을 수행하는 것으로 명세서에 설명된 구조들, 및 구조적 동등물들 뿐만 아니라 동등 구조들을 포함할 의도이다.

Claims (30)

  1. 오디오 신호 세그먼트를 나타내는 파라미터들의 비예측(non-predictive) 양자화의 결과로 생기는 오류가 미리결정된 문턱값 이하인지 여부를 판단하고;
    적어도, 상기 파라미터들의 상기 비예측 양자화의 결과로 생기는 상기 오류가 미리결정된 문턱값 이하라고 판단이 되면, 상기 비예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들을 인코딩된 오디오 신호의 일부로서 제공하며; 그리고
    그렇게 판단되지 않으면, 예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들을 인코딩된 오디오 신호의 일부로서 제공하는 것을 포함하는 방법.
  2. 제1항에 있어서,
    상기 미리결정된 문턱값은, 그 문턱값 이하에서 상기 오류가 불가청(inaudible)으로 간주되게하는 문턱값인, 방법.
  3. 제1항에 있어서,
    상기 오류는, 상기 오디오 신호 세그먼트를 나타내는 원본 파라미터들과 상기 비예측 양자화의 결과로 생기는 오디오 신호 세그먼트를 나타내는 파라미터들 간의 주파수 범위에 걸친 스펙트럼 왜곡(spectral distortion)인, 방법.
  4. 제1항에 있어서,
    상기 오류는, 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 개개의 성분(component)과 상기 비예측 양자화의 결과로 생기는 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 대응 성분 간의 가중된 오류들을 결합함으로써 획득되는, 방법.
  5. 제4항에 있어서,
    상기 오류는 가중된 평균 제곱(mean square) 오류들을 결합함으로써 획득되는, 방법.
  6. 제4항에 있어서,
    오류들의 상기 가중(weighting)은 음향 심리학적으로(psycho acoustically ) 의미있는 가중인, 방법.
  7. 제1항에 있어서,
    오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 비예측(non-predictive) 양자화의 결과로 생기는 오류가 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 예측 양자화의 결과로 생기는 오류보다 작은지 여부를 판단하는 것을 더 포함하며,
    오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 비예측(non-predictive) 양자화의 결과로 생기는 상기 오류가 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 예측 양자화의 결과로 생기는 상기 오류보다 작다면, 상기 비예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들이 추가로 제공되는, 방법.
  8. 제7항에 있어서,
    오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 비예측(non-predictive) 양자화의 결과로 생기는 상기 오류가 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 예측 양자화의 결과로 생기는 상기 오류보다 작은지 여부를 판단하기 전에, 상기 비예측(non-predictive) 양자화의 결과로 생기는 상기 오류와 상기 예측 양자화의 결과로 생기는 상기 오류 중 적어도 하나가 가중되는, 방법.
  9. 제1항에 있어서,
    양자화된 파라미터들이 제공된 가장 최근의 오디오 신호 세그먼트가, 파라미터들이 상기 예측 양자화로 양자화된 오디오 신호 세그먼트들의 시퀀스에 속하는지 여부를 판단하는 것을 더 포함하며 [상기 오디오 신호 세그먼트들의 개수는 미리결정된 개수를 초과함],
    상기 예측 양자화로 양자화된 파라미터들이 제공된, 시퀀스 내의 오디오 신호 세그먼트들의 상기 개수가 상기 미리결정된 개수를 초과한다고 판단되면 상기 비-예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들이 추가로 제공되는, 방법.
  10. 오디오 신호 세그먼트를 나타내는 파라미터들의 비예측(non-predictive) 양자화의 결과로 생기는 오류가 미리결정된 문턱값 이하인지 여부를 판단하도록 구성된 프로세싱 컴포넌트;
    적어도, 상기 파라미터들의 상기 비예측 양자화의 결과로 생기는 상기 오류가 미리결정된 문턱값 이하라고 판단이 되면, 상기 비예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들을 인코딩된 오디오 신호의 일부로서 제공하도록 구성된 프로세싱 컴포넌트; 및
    그렇게 판단되지 않으면, 예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들을 인코딩된 오디오 신호의 일부로서 제공하도록 구성된 프로세싱 컴포넌트를 포함하는 장치.
  11. 제10항에 있어서,
    상기 미리결정된 문턱값은, 그 문턱값 이하에서 상기 오류가 불가청(inaudible)으로 간주되게하는 문턱값인, 장치.
  12. 제10항에 있어서,
    상기 프로세싱 컴포넌트는, 상기 오류를, 상기 오디오 신호 세그먼트를 나타내는 원본 파라미터들과 상기 비예측 양자화의 결과로 생기는 오디오 신호 세그먼트를 나타내는 파라미터들 간의 주파수 범위에 걸친 스펙트럼 왜곡(spectral distortion)으로서 계산하도록 또한 구성된, 장치.
  13. 제10항에 있어서,
    상기 프로세싱 컴포넌트는, 상기 오류를, 상기 오디오 신호 세그먼트를 나타내는 파라미터들의 개개의 성분(component)과 상기 비예측 양자화의 결과로 생기는 상기 오디오 신호 세그먼트를 나타내는 파라미터들의 대응 성분 간의 가중된 오류들을 결합함으로써 계산하도록 또한 구성된, 장치.
  14. 제13항에 있어서,
    상기 오류는 가중된 평균 제곱(mean square) 오류들을 결합함으로써 획득되는, 장치.
  15. 제13항에 있어서,
    오류들의 상기 가중(weighting)은 음향 심리학적으로(psycho acoustically) 의미있는 가중인, 장치.
  16. 제10항에 있어서,
    상기 프로세싱 컴포넌트는, 오디오 신호 세그먼트를 나타내는 파라미터들의 상기 비예측(non-predictive) 양자화의 결과로 생기는 오류가 상기 오디오 신호 세그먼트를 나타내는 파라미터들의 상기 예측 양자화의 결과로 생기는 오류보다 작은지 여부를 판단하도록 또한 구성되며,
    오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 비예측(non-predictive) 양자화의 결과로 생기는 상기 오류가 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 예측 양자화의 결과로 생기는 상기 오류보다 작다면, 상기 비예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들이 추가로 제공되는, 장치.
  17. 제16항에 있어서,
    오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 비예측(non-predictive) 양자화의 결과로 생기는 상기 오류가 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 예측 양자화의 결과로 생기는 상기 오류보다 작은지 여부를 판단하기 전에, 상기 비예측(non-predictive) 양자화의 결과로 생기는 상기 오류와 상기 예측 양자화의 결과로 생기는 상기 오류 중 적어도 하나가 가중되는, 장치.
  18. 제10항에 있어서,
    상기 프로세싱 컴포넌트는, 양자화된 파라미터들이 제공된 가장 최근의 오디오 신호 세그먼트가, 파라미터들이 상기 예측 양자화로 양자화된 오디오 신호 세그먼트들의 시퀀스에 속하는지 여부를 판단하도록 또한 구성되며 [상기 오디오 신호 세그먼트들의 개수는 미리결정된 개수를 초과함],
    상기 예측 양자화로 양자화된 파라미터들이 제공된, 시퀀스 내의 오디오 신호 세그먼트들의 상기 개수가 상기 미리결정된 개수를 초과한다고 판단되면 상기 비-예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들이 추가로 제공되는, 장치.
  19. 제10항에 따른 장치; 및
    오디오 입력 컴포넌트;를 포함하는 전자 디바이스.
  20. 제10항에 따른 장치; 및
    상기 제10항에 따른 장치에 의해 제공된 인코딩된 오디오 신호를 디코딩하도록 구성된 프로세싱 유닛;을 포함하는 장치를 포함하는 시스템.
  21. 프로그램 코드를 포함한 컴퓨터 프로그램이 기록된 컴퓨터로 판독가능한 기록 매체로서, 상기 프로그램 코드는, 프로세서에 의해 실행될 때,
    오디오 신호 세그먼트를 나타내는 파라미터들의 비예측(non-predictive) 양자화의 결과로 생기는 오류가 미리결정된 문턱값 이하인지 여부를 판단하고;
    적어도, 상기 파라미터들의 상기 비예측 양자화의 결과로 생기는 상기 오류가 미리결정된 문턱값 이하라고 판단이 되면, 상기 비예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들을 인코딩된 오디오 신호의 일부로서 제공하며; 그리고
    그렇게 판단되지 않으면, 예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들을 인코딩된 오디오 신호의 일부로서 제공하는 것을 실행시키는 컴퓨터로 판독가능한 기록 매체.
  22. 제21항에 있어서,
    상기 미리결정된 문턱값은, 그 문턱값 이하에서 상기 오류가 불가청(inaudible)으로 간주되게하는 문턱값인, 컴퓨터로 판독가능한 기록 매체.
  23. 제21항에 있어서,
    상기 오류는, 오디오 신호 세그먼트를 나타내는 원본 파라미터들과 상기 비예측 양자화의 결과로 생기는 오디오 신호 세그먼트를 나타내는 파라미터들 간의 주파수 범위에 걸친 스펙트럼 왜곡(spectral distortion)인, 컴퓨터로 판독가능한 기록 매체.
  24. 제21항에 있어서,
    상기 오류는, 오디오 신호 세그먼트를 나타내는 원본 파라미터들의 개개의 성분(component)과 상기 비예측 양자화의 결과로 생기는 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 대응 성분 간의 가중된 오류들을 결합함으로써 획득되는, 컴퓨터로 판독가능한 기록 매체.
  25. 제24항에 있어서,
    상기 오류는 가중된 평균 제곱(mean square) 오류들을 결합함으로써 획득되는, 컴퓨터로 판독가능한 기록 매체.
  26. 제24항에 있어서,
    오류들의 상기 가중(weighting)은 음향 심리학적으로(psycho acoustically ) 의미있는 가중인, 컴퓨터로 판독가능한 기록 매체.
  27. 제21항에 있어서, 상기 프로그램 코드는,
    상기 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 비예측(non-predictive) 양자화의 결과로 생기는 오류가 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 예측 양자화의 결과로 생기는 오류보다 작은지 여부를 판단하는 것을 또한 실행시키며,
    오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 비예측(non-predictive) 양자화의 결과로 생기는 상기 오류가 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 예측 양자화의 결과로 생기는 상기 오류보다 작다면, 상기 비예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들이 추가로 제공되는, 컴퓨터로 판독가능한 기록 매체.
  28. 제27항에 있어서,
    오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 비예측(non-predictive) 양자화의 결과로 생기는 상기 오류가 오디오 신호 세그먼트를 나타내는 상기 파라미터들의 상기 예측 양자화의 결과로 생기는 상기 오류보다 작은지 여부를 판단하기 전에, 상기 비예측(non-predictive) 양자화의 결과로 생기는 상기 오류와 상기 예측 양자화의 결과로 생기는 상기 오류 중 적어도 하나가 가중되는, 컴퓨터로 판독가능한 기록 매체.
  29. 제21항에 있어서, 상기 프로그램 코드는,
    양자화된 파라미터들이 제공된 가장 최근의 오디오 신호 세그먼트가, 파라미터들이 상기 예측 양자화로 양자화된 오디오 신호 세그먼트들의 시퀀스에 속하는지 여부를 판단하는 것을 또한 실행시키며 [상기 오디오 신호 세그먼트들의 개수는 미리결정된 개수를 초과함],
    상기 예측 양자화로 양자화된 파라미터들이 제공된, 시퀀스 내의 오디오 신호 세그먼트들의 상기 개수가 상기 미리결정된 개수를 초과한다고 판단되면 상기 비-예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들이 추가로 제공되는, 컴퓨터로 판독가능한 기록 매체.
  30. 오디오 신호 세그먼트를 나타내는 파라미터들의 비예측(non-predictive) 양자화의 결과로 생기는 오류가 미리결정된 문턱값 이하인지 여부를 판단하는 수단;
    적어도, 상기 파라미터들의 상기 비예측 양자화의 결과로 생기는 상기 오류가 미리결정된 문턱값 이하라고 판단이 되면, 상기 비예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들을 인코딩된 오디오 신호의 일부로서 제공하는 수단; 및
    그렇게 판단되지 않으면, 예측 양자화로 양자화된 오디오 신호 세그먼트를 나타내는 파라미터들을 인코딩된 오디오 신호의 일부로서 제공하는 수단;을 포함하는 장치.
KR1020097014907A 2007-01-30 2008-01-10 오디오 양자화 KR101100280B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/700,732 2007-01-30
US11/700,732 US7813922B2 (en) 2007-01-30 2007-01-30 Audio quantization
PCT/EP2008/050217 WO2008092719A1 (en) 2007-01-30 2008-01-10 Audio quantization

Publications (2)

Publication Number Publication Date
KR20090101932A KR20090101932A (ko) 2009-09-29
KR101100280B1 true KR101100280B1 (ko) 2011-12-28

Family

ID=39469436

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097014907A KR101100280B1 (ko) 2007-01-30 2008-01-10 오디오 양자화

Country Status (11)

Country Link
US (1) US7813922B2 (ko)
EP (1) EP2127088B1 (ko)
JP (1) JP2010517065A (ko)
KR (1) KR101100280B1 (ko)
CN (1) CN101611550B (ko)
AT (1) ATE540479T1 (ko)
CA (1) CA2673745C (ko)
HK (1) HK1135523A1 (ko)
MX (1) MX2009007383A (ko)
UA (1) UA98952C2 (ko)
WO (1) WO2008092719A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2009017105A1 (ja) * 2007-07-30 2010-10-21 日本電気株式会社 通信端末、配信システム、変換方法、及びプログラム
AU2012246798B2 (en) 2011-04-21 2016-11-17 Samsung Electronics Co., Ltd Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
JP6178305B2 (ja) * 2011-04-21 2017-08-09 サムスン エレクトロニクス カンパニー リミテッド 量子化方法
ES2705223T3 (es) 2012-10-30 2019-03-22 Nokia Technologies Oy Un método y aparato para cuantificación de vector flexible
PL3859734T3 (pl) * 2014-05-01 2022-04-11 Nippon Telegraph And Telephone Corporation Urządzenie dekodujące sygnał dźwiękowy, sposób dekodowania sygnału dźwiękowego, program i nośnik rejestrujący
CN107077856B (zh) 2014-08-28 2020-07-14 诺基亚技术有限公司 音频参数量化
CN106126162B (zh) * 2016-06-16 2019-07-19 Oppo广东移动通信有限公司 一种防止音效突变的方法及终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691092B1 (en) 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07109990B2 (ja) 1989-04-27 1995-11-22 日本ビクター株式会社 適応型フレーム間予測符号化方法及び復号方法
US6438518B1 (en) * 1999-10-28 2002-08-20 Qualcomm Incorporated Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US7003454B2 (en) * 2001-05-16 2006-02-21 Nokia Corporation Method and system for line spectral frequency vector quantization in speech codec
US7523032B2 (en) * 2003-12-19 2009-04-21 Nokia Corporation Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
US7587314B2 (en) * 2005-08-29 2009-09-08 Nokia Corporation Single-codebook vector quantization for multiple-rate applications

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691092B1 (en) 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system

Also Published As

Publication number Publication date
EP2127088B1 (en) 2012-01-04
ATE540479T1 (de) 2012-01-15
HK1135523A1 (zh) 2010-06-04
KR20090101932A (ko) 2009-09-29
US7813922B2 (en) 2010-10-12
EP2127088A1 (en) 2009-12-02
MX2009007383A (es) 2009-08-13
CN101611550A (zh) 2009-12-23
CA2673745C (en) 2010-11-23
JP2010517065A (ja) 2010-05-20
CN101611550B (zh) 2016-05-04
US20080180307A1 (en) 2008-07-31
UA98952C2 (en) 2012-07-10
CA2673745A1 (en) 2008-08-07
WO2008092719A1 (en) 2008-08-07

Similar Documents

Publication Publication Date Title
US8060363B2 (en) Audio signal encoding
US20080208575A1 (en) Split-band encoding and decoding of an audio signal
KR101100280B1 (ko) 오디오 양자화
US10607624B2 (en) Signal codec device and method in communication system
JP2023169294A (ja) 符号化及び復号化のための符号化装置、復号化装置、システム及び方法
EP2057626B1 (en) Encoding an audio signal
US20190348055A1 (en) Audio paramenter quantization
KR20220044857A (ko) 스테레오 신호 인코딩 방법 및 인코딩 장치
JP4091506B2 (ja) 2段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体
WO2020001568A1 (zh) 立体声信号编码过程中确定加权系数的方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141201

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151118

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161123

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171117

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20181115

Year of fee payment: 8