KR101705276B1

KR101705276B1 - 낮은 또는 중간 비트 레이트에 대한 인지 품질에 기반한 오디오 분류

Info

Publication number: KR101705276B1
Application number: KR1020157009481A
Authority: KR
Inventors: 양 가오
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2012-09-18
Filing date: 2013-09-18
Publication date: 2017-02-22
Also published as: JP2019174834A; KR20170018091A; JP6545748B2; JP2015534109A; BR112015005980B1; US11393484B2; SG10201706360RA; US20140081629A1; JP6843188B2; EP3296993B1; HK1206863A1; SG11201502040YA; US20190237088A1; EP2888734A1; EP2888734B1; KR101801758B1; JP6148342B2; US20170116999A1; ES2870487T3; US10283133B2

Abstract

인코딩 신호의 품질은 신호의 주기성 파라미터(periodicity parameter)가 하나 이상의 기준을 충족할 때 비음성 데이터를 반송하는 AUDIO 신호를 VOICE 신호로 재분류함으로써 향상될 수 있다. 일부의 실시예에서는, 일부의 낮은 또는 중간 비트 레이트 신호만이 재분류를 위해 고려된다. 주기성 파라미터는 주기성을 나타내는 임의의 특성 또는 특성의 집합을 포함할 수 있다. 예를 들어, 주기성 파라미터는 오디오 신호 내의 서브프레임 간의 피치 차이, 하나 이상의 서브프레임에 대한 정규 피치 상관관계, 오디오 신호에 대한 평균 정규 피치 상관관계, 또는 이것들의 조합을 포함할 수 있다. VOICED 신호로 재분류되는 오디오 신호는 시간-도메인에서 인코딩될 수 있는 반면, AUDIO 신호로 분류되어 유지되는 오디오 신호는 주파수-도메인에서 인코딩될 수 있다.

Description

낮은 또는 중간 비트 레이트에 대한 인지 품질에 기반한 오디오 분류{AUDIO CLASSIFICATION BASED ON PERCEPTUAL QUALITY FOR LOW OR MEDIUM BIT RATES}

삭제

본 발명은 일반적으로 낮은 또는 중간 비트 레이트에 대한 인지 품질에 기반한 오디오 분류에 관한 것이다.

오디오 데이터는 통상적으로 오디오 데이터 압축을 달성하기 위해 저장 또는 전송되기 전에 압축되는데, 이는 오디오 데이터의 전송 대역폭 및/또는 저장 요건을 감소한다. 오디오 압축 알고리즘은 코딩, 패턴 인식, 선형 예측, 및 그외 기술을 통해 정보 과잉을 감소한다. 오디오 압축 알고리즘은 현실적으로 손실 또는 무손실일 수 있으며, 손실 압축 알고리즘이 무손실 압축 알고리즘보다 데이터 압축 면에서 더 우수하다.

기술적 이점은 일반적으로 낮은 또는 중간 비트 레이트에 대한 인지 품질에 기반한 AUDIO/VOICED 분류를 개선하는 방법 및 기술을 설명하는 본 개시의 실시예를 구현함으로써 달성된다.

실시예에 따라, 인코딩 전에 신호를 분류하는 방법이 제공된다. 본 예에서, 상기 방법은 오디오 데이터를 포함하는 디지털 신호를 수신하는 단계를 포함한다. 상기 디지털 신호는 초기에 오디오(AUDIO) 신호로 분류된다. 상기 방법은 상기 디지털 신호의 하나 이상의 주기성 파라미터(periodicity parameter)가 기준을 충족할 때 상기 디지털 신호를 보이스드(VOICED) 신호로 재분류하는 단계, 및 상기 디지털 신호의 분류에 따라 상기 디지털 신호를 인코딩하는 단계를 더 포함한다. 상기 디지털 신호가 AUDIO 신호로 분류될 때 상기 디지털 신호는 주파수-도메인에서 인코딩된다. 상기 디지털 신호가 VOICED 신호로 재분류될 때 상기 디지털 신호는 시간-도메인에서 인코딩된다. 상기 방법을 수행하는 장치도 제공된다.

다른 실시예에 따라, 인코딩 전에 신호를 분류하는 다른 방법이 제공된다. 본 예에서, 상기 방법은 오디오 데이터를 포함하는 디지털 신호를 수신하는 단계를 포함한다. 상기 디지털 신호는 초기에 오디오(AUDIO) 신호로 분류된다. 상기 방법은 상기 디지털 신호 내의 서브프레임에 대한 정규 피치 상관관계 값을 결정하는 단계, 상기 정규 피치 상관관계 값을 평균화함으로써 평균 정규 피치 상관관계 값을 결정하는 단계, 및 상기 디지털 신호 내의 각각의 서브프레임과 관련된 상기 정규 피치 상관관계 값을 비교함으로써 상기 서브프레임 간의 피치 차이를 결정하는 단계를 더 포함한다. 상기 방법은 상기 피치 차이 각각이 제1 임계값보다 낮고 상기 평균 정규 피치 상관관계 값이 제2 임계값을 초과할 때 상기 디지털 신호를 VOICED 신호로 재분류하는 단계, 및 상기 디지털 신호의 분류에 따라 상기 디지털 신호를 인코딩하는 단계를 포함한다. 상기 디지털 신호가 AUDIO 신호로 분류될 때 상기 디지털 신호는 주파수-도메인에서 인코딩된다. 상기 디지털 신호가 VOICED 신호로 재분류될 때 상기 디지털 신호는 시간-도메인에서 인코딩된다.
본 발명의 한 관점은 인코딩 전에 신호를 분류하는 방법을 제공하며, 상기 방법은:
오디오 데이터를 포함하고, 초기에 오디오(AUDIO) 신호로 분류되는 디지털 신호를 수신하는 단계;
상기 디지털 신호 내의 서브프레임에 대한 정규 피치 상관관계 값을 결정하는 단계;
상기 정규 피치 상관관계 값을 평균화함으로써 평균 정규 피치 상관관계 값을 결정하는 단계;
상기 디지털 신호 내의 각각의 서브프레임과 관련된 상기 정규 피치 상관관계 값을 비교함으로써 상기 서브프레임 간의 피치 차이를 결정하는 단계;
상기 피치 차이 각각이 제1 임계값보다 낮고 상기 평균 정규 피치 상관관계 값이 제2 임계값을 초과할 때 상기 디지털 신호를 VOICED 신호로 재분류하는 단계; 및
상기 디지털 신호의 분류에 따라 상기 디지털 신호를 인코딩하는 단계
를 포함하며,
상기 디지털 신호가 AUDIO 신호로 분류될 때 상기 디지털 신호는 주파수-도메인에서 인코딩되며,
상기 디지털 신호가 VOICED 신호로 재분류될 때 상기 디지털 신호는 시간-도메인에서 인코딩된다.
상기 관점의 가능한 실시 방식에서, 디지털 신호는 음악을 반송한다.

도 1은 코드 여기 선형 예측(code-excited linear prediction: CELP) 인코더의 실시예에 대한 도면이다.
도 2는 초기 인코더의 실시예에 대한 도면이다.
도 3은 인코더의 실시예에 대한 도면이다.
도 4는 디코더의 실시예에 대한 도면이다.
도 5는 디지털 신호의 피치 주기를 나타내는 그래프이다.
도 6은 다른 디지털 신호의 피치 주기를 나타내는 그래프이다.
도 7a 및 도 7b는 주파수-도메인 인지 코드에 대한 도면이다.
도 8a 및 도 8b는 저/중간 비트-레이트 인코딩 시스템에 대한 도면이다.
도 9는 처리 시스템의 실시예에 대한 도면이다.
도면 중 대응하는 수치 및 기호는 다른 언급이 없는 한 대응하는 부분을 나타낸다. 도면은 실시예의 관련 관점을 명확하게 나타내도록 도시하고 있으나 반드시 축척대로 도시한 것은 아니다.

본 개시에 대한 실시예를 만들고 이용하는 것에 대하여 이하에 상세히 설명한다. 그렇지만, 여기서 개시된 개념은 특정한 배경에서 폭넓게 구현될 수 있고, 여기서 개시된 특정한 실시예는 단지 도해에 불과하며 특허청구범위의 범위를 제한하려는 것이 아니다는 것을 이해해야 한다. 또한, 첨부된 특허청구범위에 의해 정해진 본 개시의 정신 범주를 벗어남이 없이 다양한 변형, 대체 및 대안이 여기서 이루어질 수 있다는 것을 이해해야 한다.

오디오 신호는 일반적으로 시간-도메인 또는 주파수-도메인 중 어느 하나에서 인코딩된다. 더 구체적으로, 음성 데이터를 반송하는 오디오 신호는 통상적으로 VOICE 신호로 분류되고 시간-도메인 인코딩 기술을 사용하여 인코딩되는 반면, 비음성 데이터를 반송하는 오디오 신호는 통상적으로 AUDIO 신호로 분류되고 주파수-도메인 인코딩 기술을 사용하여 인코딩된다. 특히, "audio(소문자) 신호"는 여기서 사운드 데이터(음성 데이터, 비음성 데이터 등)를 반송하는 임의의 신호를 나타내는 데 사용되는 반면, "AUDIO(대문자) 신호"는 여기서 특정한 신호 분류를 나타내는 데 사용된다. 오디오 신호를 분류하는 이러한 종래의 방식은 음성 데이터가 현실적으로 주기적이기 때문에 통상적으로 고품질 인코딩 신호를 생성하며, 따라서 시간-도메인 인코딩에서 더 수정하기 쉬운 반면, 비음성 데이터는 현실적으로 비주기적이며, 따라서 주파수-도메인 인코딩에서 더 수정하기 쉽다.

이러한 개시의 관점은 오디오 신호의 주기성 파라미터가 임계값을 초과할 때 비음성 데이터를 반송하는 오디오 신호를 VOICE 신호로 재분류한다. 일부의 실시예에서, 낮은 및/또는 중간 비트-레이트 AUDIO 신호만이 재분류를 위해 고려된다. 다른 실시예에서는, 모든 AUDIO 신호가 고려된다. 주기성 파라미터는 주기성을 나타내는 임의의 특성 또는 특성의 집합을 포함할 수 있다. 예를 들어, 주기성 파라미터는 오디오 신호 내의 서브프레임 간의 피치 차이, 하나 이상의 서브프레임에 대한 정규 피치 상관관계, 오디오 신호에 대한 평균 정규 피치 상관관계, 또는 이것들의 조합을 포함할 수 있다. VOICED 신호로 분류되는 오디오 신호는 시간-도메인에서 인코딩될 수 있는 반면, AUDIO 신호로 분류되는 오디오 신호는 주파수-도메인에서 인코딩될 수 있다.

일반적으로, 최상의 품질을 얻기 위해 음성 신호에 대해서는 시간 도메인 코딩을 사용하고 음악 신호에 대해서는 주파수 도메인 코딩을 사용하는 것이 낫다. 그렇지만, 매우 주기적인 신호와 같이 일부의 특정한 음악 신호에 있어서는, 매우 높은 롱텀 예측(Long-Term Prediction: LTP) 이득으로부터 이득을 취함으로써 시간 도메인 코딩을 사용하는 것이 나을 수 있다. 따라서 인코딩 전의 오디오 신호의 분류는 주의 깊게 수행되어야 하며, 신호의 비트 레이트 및/또는 코딩 알고리즘의 특성과 같은 다양한 보조 인자를 고려하여 이득을 취할 수 있다.

음성 데이터는 스펙트럼 및/또는 에너지가 다른 신호 유형(예를 들어, 음악 등)보다 더 고속으로 가변하는 고속 변화 신호에 의해 통상적으로 특징지어진다. 음성 신호는 오디오 데이터의 특성에 따라 UNVOICED 신호, VOICED 신호, GENERIC 신호, 또는 TRANSITION 신호로 분류될 수 있다. 비음성 데이터(예를 들어, 음악 등)는 통상적으로 느린 변화 신호로 규정될 수 있는데, 음성 신호보다 더 느리게 변하는 스펙트럼 및/또는 에너지로 규정될 수 있다. 통상적으로, 음악 신호는 AUDIO 신호의 톤 및 하모니 유형을 포함할 수 있다. 고 비트 레이트 코딩에 있어서, 통상적으로 비음성 신호를 코딩하는 데는 주파수-도메인 코딩 알고리즘을 사용하는 것이 이로울 수 있다. 그렇지만, 낮은 또는 중간 비트 레이트 코딩 알고리즘을 사용할 때, 강한 주기성을 보이는 비음성 신호의 톤 또는 하모니 유형을 인코딩하는 데는 시간-도메인 코딩을 사용하는 것이 더 이로울 수 있는데, 이는 주파수 도메인 코딩이 낮은 또는 중간 비트 레이트에서는 전체 주파수 대역을 정교하게 인코딩할 수 없기 때문이다. 환언하면, 주파수 도메인에서 강한 주기성을 보이는 비음성 신호를 인코딩하면 일부의 주파수 서브대역이 인코딩되지 않거나 조악하게 인코딩되어 버린다. 다른 한편, 시간 도메인 코딩의 CELP는 강한 주기성으로부터 많은 이점을 취할 수 있는 LTP 기능을 가진다. 이하에서 예를 들어 상세하게 설명한다.

수 개의 파라미터가 먼저 규정된다. 피치 래그(pitch lag) P에 있어서, 정규 피치 상관관계는 종종 다음과 같은 기계적 형태로 규정된다.

이 방정식에서, S_W(n)는 가중 음성 신호이고, 분자는 상관관계이며, 분모는 에너지 정규화 인자이다. Vocing은 현재의 음성 프레임에서 4개의 서브프레임의 평균 정규 피치 상관관계 값을 말하는 것으로 하고: Vocing = [R₁(P₁) + R₂(P₂) + R₃(P₃) + R₄(P₄)] / 4.R₁(P₁), R₂(P₂), R₃(P₃) 및 R₄(P₄)은 현재의 음성 프레임의 각각의 서브프레임에 대해 계산된 4개의 정규 피치 상관관계이며; 각각의 서브프레임에 대한 P₁, P₂, P₃, 및 P₄는 P=PIT_MIN으로부터 P=PIT_MAX까지의 피치 범위에서 찾아낸 최상의 피치 후보이다. 이전의 프레임으로부터 현재의 프레임까지의 평활 피치 상관관계는 이하의 표현을 사용하여 찾아낼 수 있다:

서브프레임 간의 피치 차이는 이하의 표현을 사용하여 규정될 수 있다:

오디오 신호는 AUDIO 신호로 원래 분류되고 도 8에 도시된 알고리즘과 같은 주파수 도메인 코딩 알고리즘으로 코딩될 것이다. 전술한 품질 이유와 관련해서, AUDIO 분류는 VOICED 분류로 바뀔 수 있고 그런 다음 CELP와 같은 시간 도메인 코딩 방식으로 코딩된다. 이하는 재분류 신호에 대한 C-코드 예이다:

따라서, 낮은 또는 중간 비트 레이트에서, 일부의 AUDIO 신호 또는 음악 신호의 인지 품질은 이 신호들을 인코딩 전에 VOICED 신호로 재분류함으로써 향상될 수 있다. 이하는 신호를 재분류하기 위한 C-코드 예이다.

오디오 신호는 시간-도메인 또는 주파수 도메인에서 인코딩될 수 있다.

종래의 시간 도메인 파라미터 오디오 코딩 기술은 음성/오디오 신호에 내재하는 리던던시(redundancy)를 사용하여 단시간에 신호의 음성 샘플의 파라미터를 추정할 뿐만 아니라 인코딩 정보의 양을 감소한다. 이 리던던시는 의사-주기 레이트(quasi-periodic rate)에서 음파 형태의 반복, 및 음성 신호의 느린 변화 스펙트럼 엔벨로프로부터 생긴다. 음파 형태의 리던던시는 보이스드(voiced) 및 언보이스드(unvoiced)와 같이, 음성 신호의 수 개의 상이한 유형과 관련해서 고려될 수 있다. voiced 음성에 있어서, 음성 신호는 필수적으로 주기적이며; 그렇지만, 이 주기성은 음성 세그먼트의 지속시간을 넘어 가변적일 수 있고 주기 파의 형상은 통상적으로 세그먼트로부터 세그먼트로 점차 변한다. 시간 도메인 음성 코딩은 주기성과 같은 탐사로부터 크게 이득을 취할 수 있다. voiced 음성 주기를 피치라고 하고, 피치 예측을 롱텀 예측(Long-Term Prediction: LTP)으로 명명한다. unvoiced 음성과 관련해서, 신호는 랜덤 노이즈와 더 유사하고 더 소량의 예측성을 가진다. voiced 및 unvoiced 음성은 다음과 같이 규정된다.

어느 경우이든지, 파라미터 코딩은 스펙트럼 엔벨로프 컴포넌트로부터 음성 신호의 여기 컴포넌트(excitation component)를 분리함으로써 음성 세그먼트의 리던던시를 감소하는 데 사용될 수 있다. 느리게 변하는 스펙트럼 엔벨로프는 쇼트텀 예측(Short-Term Prediction: STP)이라고도 하는 선형 예측 코딩()에 의해 표현될 수 있다. 시간 도메인 음성 코딩은 쇼트텀 예측과 같은 탐사로부터 많은 이득을 취할 수 있다. 그럼에도, 파라미터가 수 밀리초 내에서 유지되는 값들과 현저하게 다르게 되는 것은 드물다. 따라서, 8 kHz, 12.8 kHz, 또는 16 kHz의 샘플링 레이트에서, 음성 코딩 알고리즘은 명목상의 프레임 지속시간이 10 내지 30 밀리초의 범위에 있도록 되어 있다. 20 밀리초의 프레임 지속시간이 가장 공통적인 선택인 것으로 보인다. G.723.1, G.729, G.718, EFR, SMV, AMR, VMR-WB 또는 AMR-WB와 같은 더 최근의 잘 알려진 표준에서는, 코드 여기 선형 예측 기술(Linear Prediction Technique: "CELP")이 채택되었고; CELP는 흔히 코딩 여기, 롱텀 예측 및 쇼트텀 예측의 기술적 조합으로 이해된다. 코드 여기 선형 예측 기술(CELP) 음성 코딩은 다른 코덱을 위한 CELP의 상세가 현저하게 다르기는 하지만 음성 압축 영역에서는 매우 대중적인 알고리즘 원리이다.

도 1은 초기의 코드-여기 선형 예측(CELP) 인코더를 도시하고 있으며 여기서 합성 음성(102)과 원래의 음성(101) 간의 가중 오차(109)는 소위 합성에 의한 분석 방식(analysis-by-synthesis approach)을 사용함으로써 종종 최소화된다. W(z)는 오차 가중 필터(110)이다. 1/B(z)은 롱텀 선형 예측 필터(105)이고; 1/A(z)은 쇼트텀 선형 예측 필터(105)이다. 코드 예측(108)은, 고정 코드북 여기라고도 하며, 선형 필터로 통과하기 전에 이득 G_C(107)에 의해 스케일링된다. 쇼트텀 선형 필터(103)는 원래의 신호(101)를 분석함으로써 획득되고, 이것은 다음과 같은 계수의 집합으로 표현될 수 있다:

가중 필터(110)는 위의 쇼트텀 예측 필터와 다소 관련이 있다. 실시예 가중 필터는 이하의 방정식으로 표현된다:

롱텀 예측(105)은 피치 및 피치 이득에 의존한다. 피치는 원래의 신호, 잔류 신호, 또는 가중된 원래의 신호로부터 추정될 수 있다. 롱텀 예측 함수는 원리적으로 다음과 같이 표현될 수 있다: B(z) = 1 - g_PㆍZ^-Pitch.

코딩 여기(108)는 통상적으로 펄스형 신호나 노이즈형 신호를 포함하는데, 이 신호는 코드북에 수학적으로 구성 또는 저장될 수 있다. 마지막으로, 코드 여기 인덱스, 양자화 이득 인덱스, 양자화 롱텀 예측 파라미터 인덱스, 및 양자화 쇼트텀 예측 파라미터 인덱스가 디코더에 전송된다.

도 2는 합성 음성(206) 후에 포스트 프로세싱 블록(207)을 부가하는 초기 디코더를 도시하고 있다. 디코더는 코딩 여기(201), 롱텀 예측(203), 쇼트텀 예측(205), 및 포스트 프로세싱(207)을 포함하는 수개 블록의 조합이다. 블록(201, 203, 및 205)은 도 1의 인코더의 대응하는 블록(101, 103, 및 105)과 유사하게 구성된다. 포스트 프로세싱은 쇼텀 포스트 프로세싱 및 롱텀 포스트 프로세싱으로 추가로 이루어질 수 있다.

도 3은 통과 합성 여기(304)를 포함하는 적응성 코드북(307)을 사용하거나 피치 주기에서 통과 여기 피치 사이클을 반복함으로써 롱텀 선형 예측을 실현하는 기본적인 CELP 인코더를 도시하고 있다. 피치 래그는 크거나 길 때 정수 값으로 인코딩될 수 있고; 피치 래그는 작거나 짧은 대 더 정확한 분수 값으로 종종 인코딩된다. 피치의 주기 정보를 적용하여 여기의 적응성 컴포넌트를 생성한다. 이 그런 다음 여기 컴포넌트는 이득 G_p(305)(피치 이득이라고도 함)에 의해 스케일링된다. 2개의 스케일링된 여기 컴포넌트는 쇼트텀 선형 예측 필터(303)를 통과하기 전에 함께 부가된다. 2개의 이득(G_p 및 G_c)은 양자화된 다음 디코더로 송신된다.

도 4는 도 3에서의 인코더에 대응하는 기본적인 디코더를 도시하고, 이 디코더는 합성 음성(407) 후에 포스트 프로세싱 블록(408)을 부가한다. 이 디코더는 적응성 코드북(307)을 포함하는 것을 제외하곤, 도 2에서의 도시된 것과 유사하다. 디코더는 코딩 여기(402), 적응성 코드북(401), 쇼트텀 예측(406) 및 포스트 프로세싱(408)인 수 개의 블록의 조합이다. 포스트 프로세싱을 제외한 모든 블록은 도 3의 인코더에서 설명된 바와 동일한 기능을 가진다. 포스트 프로세싱은 쇼트텀 포스트 프로세싱 및 롱텀 프로세싱으로 추가로 이루어질 수 있다.

롱텀 예측은 voiced 음성이 강한 주기성을 가지고 있으므로 voiced 음성 코딩을 위해 중요한 역할을 할 수 있다. voiced 음성 신호의 인접하는 피치 사이클은 서로 유사하고, 이것은 e(n) = G_pㆍe_p(n) + G_cㆍe_c(n)와 같이 표현될 때 수학적으로 이하의 여기 표현 내의 피치 이득 G_p가 1보다 높거나 근접하다는 의미이고, 여기서 e_p(n)은 통과 여기(304)를 포함하는 적응성 코드북(307)으로부터 나오는, n에 의해 인덱스된 샘플 시리즈의 하나의 서브프레임이고; e_p(n)은 저주파 영역이 종종 고주파 영역보다 더 많은 주기 또는 더 많은 하모니일 때 적응적으로 저역-통과 필터링된다. e_c(n)은 현재의 여기 기여인 코딩 여기 코드북(308)으로부터 나오고; e_c(n)은 또한 고역 필터링 향상, 피치 향상, 확산 향상(dispersion enchancement), 포먼트 향상(formant enhancement) 등과 같이 향상될 수 있다. voiced 음성에 있어서, 적응성 코드북으로부터 e_p(n)의 기여는 우성일 수 있고 피치 이득 G_p(305)는 약 1의 값이다. 여기는 통상적으로 각각의 서브프레임에 대해 갱신된다. 통상적인 프레임 크기는 20 밀리초(ms)이고 통상적인 서브프레임은 5 밀리초이다.

voiced 음성에 있어서, 하나의 프레임은 통상적으로 2 피치 사이클보다 많이 포함한다. 도 5는 피치 주기(503)가 서브프레임 크기(502)보다 더 작은 예를 도시하고 있다. 도 6은 피치 주기(603)가 서브프레임 크기(602)보다 더 크고 절반 프레임 크기보다 더 작은 예를 도시하고 있다. 전술한 바와 같이, CELP는 특정한 사람의 목소리 특성 또는 사람의 보컬 음성 생성 모델로부터 이득을 취함으로써 음성 신호를 인코딩하는 데 사용된다. CELP는 다양한 ITU-T, MPEG, 3GPP, 및 3GPP2 표준에서 사용되는 매우 대중적인 기술이다 음성 신호를 더 효과적으로 인코딩하기 위해, 음성 신호는 상이한 클래스로 분류될 수 있고 각각의 클래스는 상이한 방식으로 인코딩된다. 예를 들어, G.718, VMR-WB 또는 AMR-WB와 같은 일부의 표준에서, 음성 신호는 UNVOICED, TRANSITION, GENERIC, VOICED 및 NOISE로 분류된다. 각각의 분류에 있어서, LPC 또는 STP 필터는 스펙트럼 엔벨로프를 나타내는 데 사용될 수 있지만, LPC 필터에 대한 노이즈는 다를 수 있다. UNVOICED 및 NOISE는 노이즈 여기 및 일부의 여기 향상으로 코딩될 수 있다. TRANSITION은 적응성 코드북 또는 LTP를 사용하지 않고서 펄스 여기 및 일부의 여기 향상으로 코딩될 수 있다. GENERIC는 G.729 또는 AMR-WB에서 사용되는 대수 CELP와 같은 기존의 CELP 방식으로 코딩될 수 있으며, 여기서 하나의 20ms 프레임은 4개의 5ms 서브프레임을 포함하며, 적응성 코드북 여기 컴포넌트 및 고정 코드북 여기 컴포넌트 모두는 각각의 서브프레임에 대해 일부의 여기 향상으로 생성되며, 제1 및 제3 서브프레임 내의 적응성 코드북에 대한 피치 래그는 최소 피치 한계 PIT_MIN으로부터 최대 피치 한계 PIT_MAX까지의 완전한 범위 내에서 코딩되고, 제2 및 제4 서브프레임 내의 적응성 코드북에 대한 피치 래그는 이전의 코딩 피치 래그와는 다르게 코딩된다. VOICED는 GENERIC와는 약간 다르게 코딩되는데, 제1 서브프레임 내의 피치 래그는 최소 피치 한계 PIT_MIN으로부터 최대 피치 한계 PIT_MAX까지의 완전한 범위 내에서 코딩되고, 다른 서브프레임 내의 피치 래그는 이전의 코딩 피치 래그와는 다르게 코딩되며; 여기 샘플링 레이트는 12.8 kHz이고, 예시적인 PIT_MIN 값은 34이거나 또는 더 짧을 수 있고; PIT_MAX는 231일 수 있다.

현대의 오디오/음성 디지털 신호 통신 시스템에서, 디지털 신호는 인코더에서 압축되고, 압축된 정보 또는 비트 스트림은 패킷화되어 통신 채널을 통해 프레임 단위로 디코더에 송신된다. 결합된 인코더 및 디코더를 흔히 코덱이라고 한다. 음성/오디오 압축은 음성/오디오 신호를 나타내는 비트 수를 감소시키는 데 사용되고, 이에 의해 전송에 필요한 대역폭 및/또는 비트 레이트를 감소시킨다. 일반적으로, 비트 레이트가 높을수록 오디오 품질도 높아지는 반면, 비트 레이트가 낮을수록 오디오 품질은 낮아진다.

필터 뱅크 기술에 기반한 오디오 코딩이 폭넓게 사용된다. 신호 처리에서, 필터 뱅크는 입력 신호를 복수의 컴포넌트로 분리하는 대역통과 필터의 어레이이고, 각각은 원래의 입력 신호의 신호 주파수 서브대역을 반송한다. 필터 뱅크에 의해 수행되는 디콤포지션의 처리를 분석이라 하고, 필터 뱅크 분석의 출력을 필터 뱅크에 있는 만큼 많은 서브대역을 가지는 서브대역 신호라 한다. 재구성 프로세스 역시 수신기의 뱅크에 흔히 적용되고, 이것은 또한 서브대역들을 감소된 레이트로 리샘플링될 수 있는 낮은 중심 주파수로 다운-컨버트할 수 있다. 동일한 합성 결과는 때때로 대역통과 서브대역을 언더-샘플링(under-sampling)함으로써 달성될 수도 있다. 필터 뱅크 분석의 출력은 복소 계수의 형태일 수 있고; 실수 요소 및 허수 요소를 가지는 각각의 복소 계수는 필터 뱅크의 각각의 서브대역에 대한 코사인 항 및 사인 항을 각각 나타낸다.

필터 뱅크 분석 및 필터 뱅크 합성은 시간 도메인 신호를 주파수 도메인 계수로 변환하고 주파수 도메인 계수를 시간 도메인 신호로 역변환하는 변환 페어(transformation pair)의 한 종류이다. 다른 대중적인 분석 기술은 고속 푸리에 변환(FFT) 및 역 FFT, 이산 푸리에 변환(DFT) 및 역 DFT, 이산 코사인 변환(DCT) 및 역 DCT뿐만 아니라 수정된 DCT(MDCT) 및 역 MDCT와 같이, 코사인/사인 변환에 기반한 합성 페어를 포함하는, 음성/오디오 신호 코딩에 사용될 수 있다.

신호 압축 또는 주파수 도메인 오디오 압축에 대한 필터 뱅크의 응용에서, 일부의 주파수는 다른 것보다 인지적으로 더 중요하다. 디콤포지션 후, 인지적으로 중요한 주파수는 이러한 주파수에서의 작은 차이가 이러한 계수를 보존하는 코딩 방식을 사용하여 보증(warrant)에 대해 인지적으로 주시할 수 있을 때, 고분해능으로 코딩될 수 있다. 다른 한편, 인지적으로 덜 중요한 주파수는 정밀하게 복제되지 않으며, 따라서 미세한 상세 중 일부가 코딩 중에 손실되어도 코서 코딩 방식(coarser coding scheme)이 사용될 수 있다. 통상적인 코서 코딩 방식은 고대역 확장(High Band Extension: HBE)이라고도 알려진 대역폭 확장(BWE)의 개념에 기반할 수 있다. 하나의 최근 대중적인 특정한 BWE 또는 HBE 방식이 서브대역 복제(Sub Band Replica: SBR) 또는 스펙트럼 복제(Spectrum Band Replication: SBR)로 공지되어 있다. 이러한 기술들은 비트 레이트 버짓(bit rate budget)이 거의 없이 또는 전혀 없이 일부의 주파수 서브대역(통상적으로 고대역)을 인코딩하고 디코딩한다는 점에서 유사하며, 이에 의해 정상적인 인코딩/디코딩 방식보다 현저히 낮은 비트 레이트를 생성한다. SBR 기술에 따라, 고주파 대역에서의 스펙트럼 미세 구조가 저주파 대역으로부터 복제되고, 랜덤 노이즈가 부가될 수 있다. 다음, 고주파 대역의 스펙트럼 엔벨로프는 인코더에서 디코더로 전송된 사이드 정보(side information)를 사용하여 형성된다. 오디오 압축의 설계를 위한 음향심리 원리 또는 인지 마스킹 효과의 사용은 이치에 맞다. 오디오/음성 설비 또는 통신은 인지에 대한 사람들의 모든 능력 및 한계로 사람들과의 상호작용을 위해 의도된 것이다. 기존의 오디오 설비는 원래의 것에 대한 충실도가 최고인 신호를 재생하려 시도한다. 더 근사적으로 향하면서 종종 더 유효한 목표는 사람이 인지할 수 있는 충실도를 달성하는 것이다. 이것이 인지 코더의 목표이다. 디지털 오디오 인지 코더의 하나의 주요한 목표가 데이터 감소이지만, 인지 코딩은 고급 비트 할당을 통해 디지털 오디오의 표현을 향상시키는 데 사용될 수 있다. 인지 코더의 일례는 다중대역 시스템일 수 있고, 음향심리학의 임계 대역을 모방하는 방식으로 스펙트럼을 분할한다(Ballman 1991). 사람의 인지를 모델링함으로써, 인지 코더는 사람이 하는 방식으로 신호를 더 처리할 수 있고, 마스킹과 같은 현상의 이점을 취할 수 있다. 이것이 목적이지만, 프로세스는 정확한 알고리즘에 따라 다르다. 보통 사람의 듣기 행동을 커버하는 매우 정확한 인지 모델을 가지는 것이 어렵다는 사실로 인해, 인지 모델의 수학적 표현의 정확도가 여전히 제한되고 있다. 그렇지만, 제한된 정확도로, 인지 개념은 오디오 코덱의 설계에 많은 도움을 주어 왔다. 많은 MPEG 오디오 코딩 방식은 인지 마스킹 효과를 탐사함으로써 혜택을 받아 왔다. 수 개의 ITU 표준 코덱도 또한 인지 개념을 사용하며; 예를 들어, ITU G.729.1은 인지 마스킹 개념에 기반한 소위 동적 비트 할당을 수행하며; 인지 중요도 기반한 동적 비트 할당 개념은 또한 최근의 3GPP EVS 코덱에서 사용된다. 도 7a 및 도 7b는 통상적인 주파수 도메인 인지 코덱에 대해 간략하게 설명한다. 입력 신호(701)는 먼저 주파수 도메인으로 변환되어 비양자화 주파수 도메인 계수(unquantized frequency domain coefficient)(702)를 획득한다. 계수를 양자화하기 전에, 마스킹 기능(인지 중요도)은 주파수 스펙트럼을 많은 서브대역으로 분할한다(단순화를 위해 공간적으로 동일하게 되어 있다). 각각의 서브대역은 모든 서브대역에 분배된 총 비트 수가 상한을 넘지 않게 유지하면서 필요한 비트 수를 동적으로 할당한다. 일부의 서브대역은 심지어 마스킹 임계값 이하로 되는 것으로 판정되면 0 비트를 할당한다. 폐기될 수 있는 것에 관한 판정이 이루어지면, 나머지는 이용 가능한 비트 수에 할당된다. 비트는 마스킹된 스펙트럼에 낭비되지 않기 때문에, 비트는 신호의 나머지에 더 많은 양이 분배될 수 있다. 할당된 비트에 따라, 계수는 양자화되고 비트-스트림(703)은 디코더에 송신된다. 인지 마스킹 개념은 코덱 설계 동안 많은 도움을 주었으나, 여러 이유와 한계로 인해 완전하지는 않으며; 디코더 측 프로세싱(도 7b를 참조)은 제한된 비트 레이트를 생성되는 디코딩 신호의 인지 품질을 더 향상시킬 수 있다. 디코더는 먼저 수신된 비트(704)를 사용하여 양자화 계수(705)를 재구성하고; 그런 다음 양자화 계수는 적절하게 설계된 모듈(706)에 의해 포스트-프로세싱되어 향상된 계수(707)를 획득하며; 이 향상된 계수에 대해 역변환을 수행하여 최종 시간 도메인 출력(708)을 가진다.

낮은 또는 중간 비트 레이트 오디오 코딩에 있어서, 쇼트텀 선형 예측(STP) 및 롱텀 선형 예측(LTP)은 주파수 도메인 여기 코딩과 결합될 수 있다. 도 8은 낮은 또는 중간 비트 레이트 오디오 코딩 시스템에 대한 개략적인 설명을 제공한다. 원래의 신호(801)는 쇼트텀 예측 및 롱텀 예측에 의해 분석되어 양자화 STP 필터 및 LTP 필터를 획득하고; STP 필터 및 LTP 필터의 양자화 파라미터는 인코더에서 디코더로 전송되며; 인코더에서, 신호(801)는 역 STP 필터 및 LTP 필터에 의해 필터링되어 기준 여기 신호(802)를 획득한다. 주파수 도메인 코딩은 주파수 도메인으로 전송되는 기준 여기 신호에 대해 수행되어 비양자화 주파수 도메인 계수(803)를 획득한다. 계수를 양자화하기 전에, 주파수 스펙트럼은 종종 많은 서브대역으로 분할되고 마스킹 기능(인지 중요도)이 탐색된다. 각각의 서브대역은 모든 서브대역에 분배된 총 비트 수가 상한을 넘지 않게 유지하면서 필요한 비트 수를 동적으로 할당한다. 일부의 서브대역은 심지어 마스킹 임계값 이하로 되는 것으로 판정되면 0 비트를 할당한다. 폐기될 수 있는 것에 관한 판정이 이루어지면, 나머지는 이용 가능한 비트 수에 할당된다. 할당된 비트에 따라, 계수는 양자화되고 비트스트림(803)은 디코더에 송신된다. 디코더는 수신된 비트(805)를 사용하여 양자화 계수(806)를 재구성하고; 그런 다음 양자화 계수는 적절하게 설계된 모듈(807)에 의해 포스트-프로세싱되어 향상된 계수(808)를 획득하며; 이 향상된 계수에 대해 역변환을 수행하여 시간 도메인 여기(809)를 가진다. 최종 출력 신호(810)는 LTP 합성 필터 및 STP 합성 필터로 시간 도메인 여기(809)를 필터링함으로써 획득된다.

도 9는 여기에 개시된 장치 및 방법을 실행하는 데 사용될 수 있는 프로세싱 시스템의 블록도를 도시하고 있다. 특정한 장치는 도시된 컴포넌트 전부를 활용할 수도 있고, 컴포넌트의 서브세트만을 활용할 수도 있으며, 통합 수준은 장치마다 다를 수 있다. 또한, 장치는 복수의 프로세싱 유닛, 프로세서, 메모리, 전송기, 수신기 등과 같은 복수의 컴포넌트의 예를 포함할 수 있다. 프로세싱 시스템은 스피커, 마이크로폰, 마우스, 터치스크린, 키패드, 키보드, 프린터, 디스플레이 등과 같이, 하나 이상의 입력/출력 장치를 구비한 프로세싱 유닛을 포함할 수 있다. 프로세싱 유닛은 중앙처리장치(CPU), 메모리, 대용량 저장 장치, 비디오 어댑터, 및 버스에 접속된 I/O 인터페이스를 포함할 수 있다.

버스는 메모리 버스 또는 메모리 제어기, 주변 버스, 비디오 버스 등을 포함하는 수 개의 버스 아키텍처 중 하나 이상의 임의의 유형일 수 있다. 메모리는 정적 랜덤 액세스 메모리(SRAM), 동적 랜덤 액세스 메모리(DRAM), 동기 DRAM(SDRAM), 리드-온리 메모리(ROM), 및 이것들의 조합과 같이, 임의의 유형의 시스템 메모리를 포함할 수 있다. 실시예에서, 메모리는 부트-업에서 사용하기 위한 ROM, 프로그램을 위한 DRAM 및 프로그램을 실행하는 동안 사용하기 위한 데이터 저장을 포함할 수 있다.

대용량 저장 장치는 데이터, 프로그램 및 다른 정보를 저장하도록 구성되어 있는 임의의 유형의 저장 장치를 포함하여 데이터, 프로그램, 및 다른 정보가 버스를 통해 액세스 가능하게 한다. 대용량 저장 장치는 예를 들어 솔리드 스테이트 드라이브, 하드디스크 드라이브, 자기디스크 드라이브, 광디스크 드라이브 등 중 하나 이상을 포함할 수 있다.

비디오 어댑터 및 I/O 인터페이스는 외부의 입력 및 출력 장치를 프로세싱 유닛과 결합하도록 인터페이스를 제공한다. 도시된 바와 같이, 입력 및 출력 장치의 예는 비디오 어댑터에 결합된 디스플레이 및 I/O 인터페이스에 결합된 마우스 /키보드/프린터를 포함한다. 다른 장치들은 프로세싱 유닛에 결합될 수 있고, 추가의 또는 더 적은 수의 인터페이스 카드가 활용될 수 있다. 예를 들어, 범용 시리얼 버스(USB)(도시되지 않음)와 같은 시리얼 인터페이스를 사용하여 프린터에 인터페이스를 제공할 수 있다.

프로세싱 유닛도 하나 이상의 네트워크 인터페이스를 포함하는데, 이것은 이더넷 케이블 등과 같은 유선 링크, 및/또는 노드 또는 다른 네트워크에 액세스하기 위한 무선 링크를 포함할 수 있다. 네트워크 인터페이스에 의해 프로세싱 유닛은 네트워크를 통해 원격의 유닛과 통신할 수 있다. 예를 들어, 네트워크 인터페이스는 하나 이상의 전송기/전송 안테나 및 하나 이상의 수신기/수신 안테나를 통해 무선 통신을 제공할 수 있다. 실시예에서, 프로세시 유닛은 데이터 프로세싱을 위한 근거리 통신망 또는 광대역 네트워크에 결합되고 다른 프로세싱 유닛, 인터넷, 원격 저장 설비 등과 같은 원격 장치와 통신할 수 있다.

설명을 상세하게 하였으나, 첨부된 특허청구범위에 의해 규정된 바와 같이 본 개시의 정신 및 범주를 벗어남이 없이 다양한 변형, 대체 및 대안이 이루어질 수 있다는 것을 이해해야 한다. 또한, 당업자는 본 개시로부터, 현재 있거나 후에 개발될 장치, 수단, 방법, 또는 단계의 프로세스, 머신, 제조, 조성은 여기에 개시된 동일한 기능을 실질적으로 수행하거나 대응하는 실시예와 동일한 결과를 실질적으로 달성한다는 것을 쉽게 이해할 것이므로, 개시의 범위는 여기에 개시된 특별한 실시예에 제한되도록 의도되지 않는다. 따라서, 첨부된 특허청구범위는 장치, 수단, 방법, 또는 단계의 이러한 프로세스 머신, 제조, 조성을 그 범위 내에서 포함하도록 의도된다.

Claims

신호 인코딩 방법으로서,
오디오 데이터를 포함하고, 초기에 오디오(AUDIO) 신호로 분류되는 디지털 신호를 수신하는 단계;
분류 조건이 충족되는지 여부를 판정하는 단계 - 상기 분류 조건은, 상기 디지털 신호 내의 서브프레임들 간의 피치 차이(pitch difference)가 제1 임계값보다 작은 경우를 포함함 - ;
상기 분류 조건이 충족되면 상기 디지털 신호를 보이스드(VOICED) 신호로 분류하는 단계; 및
상기 디지털 신호가 AUDIO 신호로 분류되면 상기 디지털 신호를 주파수-도메인에서 인코딩하고, 상기 디지털 신호가 VOICED 신호로 분류되면 상기 디지털 신호를 시간-도메인에서 인코딩하는 단계
를 포함하며,
상기 서브프레임은 4개이고,
스트레이트 피치 차이는, 제1 스트레이트 피치 차이 dpit1, 제2 스트레이트 피치 차이 dpit2, 및 제3 스트레이트 피치 차이 dpit3를 포함하며,
상기 dpit1, 상기 dpit2, 및 상기 dpit3는 이하의 식에 따라 계산되고,
(식):

여기서 상기 P₁, P₂, P₃, 및 P₄는 서브프레임들에 각각 대응되는 네 개의 피치값이며;
이에 따라, 상기 디지털 신호 내의 서브프레임들 간의 스트레이트 피치 차이가 임계값보다 작은 경우의 분류 조건은: 상기 dpit1, 상기 dpit2, 및 상기 dpit3가 모두 상기 제1 임계값보다 작은 경우를 포함하는,
신호 인코딩 방법.
제1항에 있어서,
상기 분류 조건은, 상기 디지털 신호의 비트 레이트가 임계값보다 낮은 경우를 더 포함하는,
신호 인코딩 방법.
제1항에 있어서,
상기 디지털 신호 내의 서브프레임에 대한 평균 정규 피치 상관관계 값(average normalized pitch correlation value)을 결정하는 단계를 더 포함하고,
상기 분류 조건은, 상기 디지털 신호 내의 서브프레임에 대한 평균 정규 피치 상관관계 값이 임계값보다 큰 경우를 더 포함하는,
신호 인코딩 방법.
제3항에 있어서,
상기 디지털 신호 내의 서브프레임에 대한 평균 정규 피치 상관관계 값을 결정하는 단계는,
상기 디지털 신호 내의 각각의 서브프레임에 대한 정규 피치 상관관계 값을 결정하는 단계; 및
모든 정규 피치 상관관계 값의 합을 상기 디지털 신호 내의 서브프레임의 수로 제산하여 상기 평균 정규 피치 상관관계 값을 획득하는 단계
를 포함하는, 신호 인코딩 방법.
제1항에 있어서,
상기 디지털 신호는 비음성 데이터(no-speech data)를 반송하는, 신호 인코딩 방법.
제1항에 있어서,
상기 디지털 신호는 음악 데이터를 반송하는, 신호 인코딩 방법.
제1항에 있어서,
상기 P₁, P₂, P₃, 및 P₄는, 각각의 서브프레임에 대해, 최소 피치 한계치 PIT_MIN에서부터 최대 피치 한계치 PIT_MAX까지의 피치 범위 내에서 발견된 최상의 피치값들인,
신호 인코딩 방법.
제1항에 있어서,
상기 각각의 스트레이트 피치 차이는 상기 제1 임계값보다 작고,
상기 신호 인코딩 방법은,
상기 디지털 신호 내의 서브프레임들에 대한 정규 피치 상관관계 값을 결정하는 단계; 및
상기 정규 피치 상관관계 값의 평균을 내서 평균 정규 피치 상관관계 값을 결정하는 단계
를 더 포함하며,
이에 따라 상기 분류 조건은, 상기 평균 정규 피치 상관관계 값이 제2 임계값을 초과하는 경우를 더 포함하는,
신호 인코딩 방법.
제8항에 있어서,
상기 디지털 신호 내의 서브프레임에 대한 평균 정규 피치 상관관계 값을 결정하는 단계는,
상기 디지털 신호 내의 서브프레임 각각에 대한 평균 피치 상관관계 값을 결정하는 단계; 및
모든 정규 피치 상관관계 값의 합을 상기 디지털 신호 내의 서브프레임의 수로 제산하여 상기 평균 정규 피치 상관관계 값을 획득하는 단계
를 포함하는, 신호 인코딩 방법.
제8항에 있어서,
상기 평균 정규 피치 상관관계 값에 따라 평활 피치 상관관계를 결정하는 단계를 더 포함하고,
이에 따라 상기 분류 조건은, 평활 피치 상관관계가 제3 임계값을 초과하는 경우를 더 포함하는,
신호 인코딩 방법.
제10항에 있어서,
상기 분류 조건은, 상기 디지털 신호의 비트 레이트가 제4 임계값보다 작은 경우를 더 포함하는,
신호 인코딩 방법.
오디오 인코더로서,
프로세서; 및
상기 프로세서에 의한 실행을 위한 프로그래밍을 저장하는 컴퓨터 판독 가능형 저장 매체
를 포함하며,
상기 프로그래밍은:
오디오 데이터를 포함하고, AUDIO 신호로 분류되는 디지털 신호를 수신하는 명령;
분류 조건이 충족되는지 여부를 결정하는 명령 - 상기 분류 조건은, 상기 디지털 신호 내의 서브프레임들 간의 스트레이트 피치 차이가 제1 임계값보다 작은 경우를 포함함 -;
상기 분류 조건이 충족될 때 상기 디지털 신호를 VOICED 신호로 분류하는 명령; 및
상기 디지털 신호가 VOICED 신호로 분류될 경우 상기 디지털 신호를 시간-도멘인에서 인코딩하고, 상기 디지털 신호가 AUDIO 신호로 분류될 경우 상기 디지털 신호를 주파수-도메인에서 인코딩하는 명령
을 포함하고,
상기 서브프레임은 4개이고,
상기 스트레이트 피치 차이는, 제1 스트레이트 피치 차이 dpit1, 제2 스트레이트 피치 차이 dpit2, 및 제3 스트레이트 피치 차이 dpit3를 포함하며,
상기 dpit1, 상기 dpit2, 및 상기 dpit3는 이하의 식에 따라 계산되고,
(식):

여기서 상기 P₁, P₂, P₃, 및 P₄는 서브프레임들에 각각 대응되는 네 개의 피치값이며;
이에 따라, 상기 디지털 신호 내의 서브프레임들 간의 스트레이트 피치 차이가 임계값보다 작은 경우의 분류 조건은: 상기 dpit1, 상기 dpit2, 및 상기 dpit3가 모두 상기 제1 임계값보다 작은 경우를 포함하는,
오디오 인코더.
제12항에 있어서,
상기 분류 조건이, 상기 디지털 신호의 비트 레이트가 임계값보다 작은 경우를 더 포함하는, 오디오 인코더.
제12항에 있어서,
상기 프로그래밍은,
상기 디지털 신호 내의 서브프레임에 대한 평균 정규 피치 상관관계 값을 결정하는 명령을 더 포함하고,
여기서 상기 분류 조건은, 상기 평균 정규 피치 상관관계 값이 임계값보다 큰 경우를 더 포함하는,
오디오 인코더.
제14항에 있어서,
상기 디지털 신호 내의 서브프레임에 대한 평균 정규 피치 상관관계 값을 결정하는 명령은,
상기 디지털 신호 내의 각각의 서브프레임에 대한 정규 피치 상관관계 값을 결정하는 명령; 및
모든 정규 피치 상관관계 값의 합을 상기 디지털 신호 내의 서브프레임의 수로 제산하여 상기 평균 정규 피치 상관관계 값을 획득하는 명령
을 포함하는, 오디오 인코더.
제12항에 있어서,
상기 디지털 신호는 비음성 데이터를 반송하는, 오디오 인코더.
제12항에 있어서,
상기 디지털 신호는 음악 데이터를 반송하는, 오디오 인코더.
제17항에 있어서,
상기 P₁, P₂, P₃, 및 P₄는, 각각의 서브프레임에 대해, 최소 피치 한계치 PIT_MIN에서부터 최대 피치 한계치 PIT_MAX까지의 피치 범위 내에서 발견된 최상의 피치값들인,
오디오 인코더.
제17항에 있어서,
상기 각각의 스트레이트 피치 차이는 상기 제1 임계값보다 작고,
상기 프로그래밍은,
상기 디지털 신호 내의 서브프레임들에 대한 정규 피치 상관관계 값을 결정하는 명령; 및
상기 정규 피치 상관관계 값의 평균을 내서 평균 정규 피치 상관관계 값을 결정하는 명령
을 더 포함하며,
이에 따라 상기 분류 조건은, 상기 평균 정규 피치 상관관계 값이 제2 임계값을 초과하는 경우를 더 포함하는,
오디오 인코더.
제19항에 있어서,
상기 디지털 신호 내의 서브프레임에 대한 평균 정규 피치 상관관계 값을 결정하는 명령은,
상기 디지털 신호 내의 서브프레임 각각에 대한 평균 피치 상관관계 값을 결정하는 명령; 및
상기 평균 정규 피치 상관관계 값을 얻기 위해, 모든 정규 피치 상관관계 값의 합을 상기 디지털 신호 내의 서브프레임의 수로 제산하라는 명령
을 포함하는, 오디오 인코더.
제20항에 있어서,
상기 프로그래밍은,
상기 평균 정규 피치 상관관계 값에 따라 평활 피치 상관관계를 결정하는 명령을 더 포함하고,
이에 따라 상기 분류 조건은, 평활 피치 상관관계가 제3 임계값을 초과하는 경우를 더 포함하는,
오디오 인코더.
제21항에 있어서,
상기 분류 조건은, 상기 디지털 신호의 비트 레이트가 제4 임계값보다 작은 경우를 더 포함하는,
오디오 인코더.
프로세서에 의해, 복수의 프레임을 포함하는 오디오 신호를 인코딩하는 방법으로서,
상기 오디오 신호의 프레임을 수신하는 단계 ; 및
분류 조건이 충족되면 상기 프레임을 시간-도메인에서 인코딩하는 단계
를 포함하고,
상기 프레임은 복수의 서브프레임을 포함하며,
상기 분류 조건은, 상기 복수의 서브프레임 간의 스트레이트 피치 차이가 제1 임계값보다 작은 경우를 포함하며,
상기 서브프레임은 4개이고,
상기 스트레이트 피치 차이는, 제1 스트레이트 피치 차이 dpit1, 제2 스트레이트 피치 차이 dpit2, 및 제3 스트레이트 피치 차이 dpit3를 포함하며,
상기 dpit1, 상기 dpit2, 및 상기 dpit3는 이하의 식에 따라 계산되고,
(식):

여기서 상기 P₁, P₂, P₃, 및 P₄는 서브프레임들에 각각 대응되는 네 개의 피치값이며;
이에 따라, 디지털 신호 내의 서브프레임들 간의 스트레이트 피치 차이가 임계값보다 작은 경우의 분류 조건은: 상기 dpit1, 상기 dpit2, 및 상기 dpit3가 모두 상기 제1 임계값보다 작은 경우를 포함하는,
복수의 프레임을 포함하는 오디오 신호를 인코딩하는 방법.
제23항에 있어서,
디지털 신호 내의 서브프레임에 대한 평균 정규 피치 상관관계 값을 결정하는 단계를 더 포함하고,
이에 따라 상기 분류 조건은, 상기 디지털 신호 내의 서브프레임들에 대한 평균 정규 피치 상관관계 값의 평균이 임계값보다 큰 경우를 더 포함하는,
복수의 프레임을 포함하는 오디오 신호를 인코딩하는 방법.
제24항에 있어서,
상기 디지털 신호 내의 서브프레임에 대한 평균 정규 피치 상관관계 값을 결정하는 단계는,
상기 디지털 신호 내의 각 서브프레임에 대한 정규 피치 상관관계 값을 결정하는 단계; 및
모든 정규 피치 상관관계 값의 합을 상기 디지털 신호 내의 서브프레임의 수로 제산하여 상기 평균 정규 피치 상관관계 값을 획득하는 단계
를 더 포함하는,
복수의 프레임을 포함하는 오디오 신호를 인코딩하는 방법.
제23항에 있어서,
상기 P₁, P₂, P₃, 및 P₄는, 각각의 서브프레임에 대해, 최소 피치 한계치 PIT_MIN에서부터 최대 피치 한계치 PIT_MAX까지의 피치 범위 내에서 발견된 최상의 피치값들인,
복수의 프레임을 포함하는 오디오 신호를 인코딩하는 방법.
제23항에 있어서,
상기 스트레이트 피치 차이 각각은 상기 제1 임계값보다 작고,
상기 복수의 프레임을 포함하는 오디오 신호를 인코딩하는 방법은,
상기 디지털 신호 내의 서브프레임들에 대한 정규 피치 상관관계 값을 결정하는 단계;
상기 정규 피치 상관관계 값의 평균을 내서 평균 정규 피치 상관관계 값을 결정하는 단계
를 더 포함하고,
이에 따라 상기 분류 조건은, 상기 평균 정규 피치 상관관계 값이 제2 임계값을 초과하는 경우를 더 포함하는,
복수의 프레임을 포함하는 오디오 신호를 인코딩하는 방법.
제27항에 있어서,
상기 디지털 신호 내의 서브프레임에 대한 평균 정규 피치 상관관계 값을 결정하는 단계는,
상기 디지털 신호 내의 서브프레임 각각에 대한 평균 피치 상관관계 값을 결정하는 단계; 및
모든 정규 피치 상관관계 값의 합을 상기 디지털 신호 내의 서브프레임의 수로 제산하여 상기 평균 정규 피치 상관관계 값을 획득하는 단계
를 포함하는,
복수의 프레임을 포함하는 오디오 신호를 인코딩하는 방법.
제27항에 있어서,
상기 평균 정규 피치 상관관계 값에 따라 평활 피치 상관관계를 결정하는 단계를 더 포함하고,
이에 따라 상기 분류 조건은, 평활 피치 상관관계가 제3 임계값을 초과하는 경우를 더 포함하는,
복수의 프레임을 포함하는 오디오 신호를 인코딩하는 방법.
제29항에 있어서,
상기 분류 조건은, 상기 디지털 신호의 비트 레이트가 제4 임계값보다 작은 경우를 더 포함하는,
복수의 프레임을 포함하는 오디오 신호를 인코딩하는 방법.
삭제
삭제
삭제
삭제
삭제
삭제