KR20190029779A

KR20190029779A - 시간 도메인 코딩과 주파수 도메인 코딩 간의 분류 향상

Info

Publication number: KR20190029779A
Application number: KR1020197007223A
Authority: KR
Inventors: 양 가오
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2014-07-26
Filing date: 2015-07-23
Publication date: 2019-03-20
Also published as: CN106663441A; ES2938668T3; US20200234724A1; EP3152755B1; ES2721789T3; WO2016015591A1; PL3499504T3; RU2017103905A3; MY192074A; US9685166B2; US9837092B2; FI3499504T3; EP3499504A1; JP6334808B2; HK1232336A1; US20160027450A1; PT3152755T; EP3499504B1; RU2017103905A; US10586547B2

Abstract

오디오 데이터를 포함하는 디지털 신호를 인코딩하기 전에 스피치 신호들을 처리하기 위한 방법은, 디지털 신호를 코딩하기 위해 사용될 코딩 비트 레이트, 및 디지털 신호의 짧은 피치 래그 검출에 기초하여 주파수 도메인 코딩 또는 시간 도메인 코딩을 선택하는 단계를 포함한다.

Description

시간 도메인 코딩과 주파수 도메인 코딩 간의 분류 향상{IMPROVING CLASSIFICATION BETWEEN TIME-DOMAIN CODING AND FREQUENCY DOMAIN CODING}

본 발명은 일반적으로 신호 코딩의 분야에 있다. 특히, 본 발명은 시간 도메인 코딩과 주파수 도메인 코딩 간의 분류를 향상시키는 분야에 있다.

스피치 코딩(speech coding)은 스피치 파일의 비트 레이트를 감소시키는 프로세스를 지칭한다. 스피치 코딩은 스피치를 포함하는 디지털 오디오 신호들의 데이터 압축의 애플리케이션이다. 스피치 코딩은 오디오 신호 처리 기술을 사용하는 스피치-특정 파라미터 추정을 이용하여, 스피치 신호를 모델링하고 일반 데이터 압축 알고리즘들과 결합하여 결과로 생긴 모델링된 파라미터들을 콤팩트 비트 스트림으로 표현한다. 스피치 코딩의 목적은, 디코딩된(압축 해제된) 스피치가 원래 스피치와 지각적으로 구분될 수 없도록 샘플당 비트 수를 감소시킴으로써 필요한 메모리 저장 공간, 전송 대역폭 및 전송 전력의 절약을 달성하는 것이다.

그러나 스피치 코더들은 손실이 많은 코더들이며, 즉, 디코딩된 신호는 원래 신호와는 상이하다. 그러므로, 스피치 코딩의 목적들 중 하나는 주어진 비트 레이트에서 왜곡(또는 인지 가능한 손실)을 최소화하거나, 또는 주어진 왜곡에 도달하기 위해 비트 레이트를 최소화하는 것이다.

스피치 코딩은, 스피치가 대부분의 다른 오디오 신호들보다 훨씬 더 단순한 신호이고 더 많은 통계 정보가 스피치의 속성들에 대해 이용 가능하다는 점에서 다른 형태들의 오디오 코딩과는 상이하다. 그 결과, 오디오 코딩에 적절한 일부 청각 정보가 스피치 코딩 정황에서는 불필요할 수 있다. 스피치 코딩에서, 가장 중요한 기준은 제한된 양의 전송된 데이터를 이용하여, 스피치의 이해도(intelligibility)와 "쾌감(pleasantness)"을 보존하는 것이다.

스피치의 이해도는 실제 말 그대로의 콘텐츠 외에도, 화자 신원(speaker identity), 감정들, 억양, 음색 등을 포함하며, 이들 모두는 완전한 이해도를 위해 중요하다. 열화된 스피치의 쾌감에 대한 보다 추상적인 개념은, 열화된 스피치가 완전히 이해될 수 있지만 청취자에게 주관적으로 짜증을 줄 가능성이 있기 때문에 이해도와는 상이한 속성이다.

전통적으로, 모든 파라메트릭 스피치 코딩 방법들은 송신되어야 하는 정보량을 감소시키고 짧은 간격들에서 신호의 스피치 샘플들의 파라미터들을 추정하기 위해 스피치 신호에 고유한 중복성(redundancy)을 이용한다. 이 중복성은 주로 준-주기 레이트(quasi-periodic rate)에서의 스피치 파형들의 반복, 및 스피치 신호의 느리게 변화하는 스펙트럼 포락선(spectral envelop)으로부터 발생한다.

스피치 파형들의 중복성은 유성(voiced) 및 무성(unvoiced)의 스피치 신호들 같은, 여러 상이한 타입의 스피치 신호에 대해 고려될 수 있다. 유성 사운드들(voiced sounds), 예를 들어, 'a', 'b'는 본질적으로 성대의 진동에 기인하며 진동적이다. 따라서, 이들은 짧은 기간 동안 정현파들과 같은 주기적 신호들의 합산들에 의해 잘 모델링된다. 즉, 유성 스피치의 경우, 스피치 신호는 본질적으로 주기적이다. 그러나 이 주기성은 스피치 세그먼트의 지속 기간 동안 가변적일 수 있으며, 주기적 파형의 형상은 보통 세그먼트들 사이에서 점진적으로 변화한다. 낮은 비트 레이트 스피치 코딩은 그런 주기성을 탐색함으로써 큰 이익을 얻을 수 있다. 시간 도메인 스피치 코딩은 그런 주기성을 탐색함으로써 큰 이익을 얻을 수 있다. 유성 스피치 기간은 피치라고도 불리며, 피치 예측은 종종 장기 예측(Long-Term Prediction)(LTP)으로 명명된다. 대조적으로, 's', 'sh'와 같은 무성 사운드들은 노이즈와 더 유사하다. 이것은, 무성 스피치 신호가 랜덤 노이즈와 더 유사하고 예측 가능성이 더 적기 때문이다.

어느 경우든, 파라메트릭 코딩은 느린 레이트에서 변화하는 스펙트럼 포락선 컴포넌트로부터 스피치 신호의 여기 컴포넌트(excitation component)를 분리함으로써 스피치 세그먼트들의 중복성을 감소시키기 위해 이용될 수 있다. 느리게 변화하는 스펙트럼 포락선 컴포넌트는 단기 예측(Short-Term Prediction)(STP)이라고도 불리는 선형 예측 코딩(Linear Prediction Coding)(LPC)으로 표현될 수 있다. 낮은 비트 레이트 스피치 코딩은 또한 그러한 단기 예측을 탐색하는 것으로부터 많은 이득을 얻을 수 있다. 코딩 이점은 파라미터들이 변화하는 느린 레이트에서 발생한다. 그렇지만, 파라미터들이 수 밀리 초 내에서 유지되는 값들과 현저하게 다른 경우는 거의 없다.

G.723.1, G.729, G.718, 향상된 풀 레이트(Enhanced Full Rate)(EFR), 선택가능 모드 보코더(Selectable Mode Vocoder)(SMV), 적응적 다중-레이트(Adaptive Multi-Rate)(AMR), 가변-레이트 멀티모드 광대역(Variable-Rate Multimode Wideband)(VMR-WB), 또는 적응적 다중-레이트 광대역(Adaptive Multi-Rate Wideband)(AMR-WB)과 같은 더 최근의 주지된 표준들에서, 코드 여기 선형 예측 기술(Code Excited Linear Prediction Technique)("CELP")이 채택되었다. CELP는 코딩된 여기, 장기 예측, 및 단기 예측의 기술적 결합으로서 통상적으로 이해된다. CELP는 특정한 인간 음성 특성들 또는 인간 보컬 음성 생성 모델로부터 이익을 얻음으로써, 스피치 신호를 인코딩하는 데 주로 사용된다. 상이한 코덱들에 대해서는 CELP의 상세 사항들이 현저하게 상이할 수 있지만, CELP 스피치 코딩은 스피치 압축 영역에서 매우 인기 있는 알고리즘 원리이다. 그것의 인기 때문에, CELP 알고리즘은 다양한 ITU-T, MPEG, 3GPP, 및 3GPP2 표준들에 이용되었다. CELP의 변형들은 대수학적 CELP, 릴렉스된 CELP, 저-지연 CELP, 및 벡터 합 여기 선형 예측, 및 다른 것들을 포함한다. CELP는 알고리즘들의 클래스에 대한 일반 용어이며 특정한 코덱에 대한 것은 아니다.

CELP 알고리즘은 4개의 주요 아이디어에 기초한다. 첫째, 선형 예측(LP)을 통한 스피치 생성의 소스 필터 모델이 이용된다. 스피치 생성의 소스 필터 모델은 스피치를 성대와 같은 음원(sound source)과, 선형 음향 필터, 성도(및 방사 특성)의 결합으로서 모델링한다. 스피치 생성의 소스 필터 모델의 구현에서, 음원 또는 여기 신호는 유성 스피치에 대한 주기적인 임펄스 트레인, 또는 무성 스피치에 대한 백색 잡음로서 종종 모델링된다. 둘째, 적응적 및 고정된 코드북이 LP 모델의 입력(여기)으로서 이용된다. 셋째, 검색은 "인지적으로 가중화된 도메인" 내의 폐쇄-루프에서 수행된다. 넷째, 벡터 양자화(vector quantization)(VQ)가 적용된다.

본 발명의 일 실시예에 따르면, 오디오 데이터를 포함하는 디지털 신호를 인코딩하기 전에 스피치 신호들을 처리하기 위한 방법은, 디지털 신호들을 코딩하기 위해 사용될 코딩 비트 레이트, 및 디지털 신호의 짧은 피치 래그 검출(short pitch lag detection)에 기초하여 주파수 도메인 코딩 또는 시간 도메인 코딩을 선택하는 단계를 포함한다.

본 발명의 대안적 실시예에 따르면, 오디오 데이터를 포함하는 디지털 신호를 인코딩하기 전에 스피치 신호들을 처리하기 위한 방법은, 코딩 비트 레이트가 상위 비트 레이트 한계보다 더 높을 때 디지털 신호를 코딩하기 위한 주파수 도메인 코딩을 선택하는 단계를 포함한다. 대안적으로, 본 방법은 코딩 비트 레이트가 하위 비트 레이트 한계보다 더 낮을 때 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택한다. 디지털 신호는 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함한다.

본 발명의 대안적 실시예에 따르면, 인코딩 전에 스피치 신호들을 처리하기 위한 방법은 디지털 신호가 짧은 피치 신호를 포함하지 않고 디지털 신호가 무성 스피치 또는 정상 스피치로서 분류될 때 오디오 데이터를 포함하는 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하는 단계를 포함한다. 상기 방법은 코딩 비트 레이트가 하위 비트 레이트 한계와 상위 비트 레이트 한계 사이의 중간일 때 디지털 신호를 코딩하기 위한 주파수 도메인 코딩을 선택하는 단계를 더 포함한다. 디지털 신호는 짧은 피치 신호를 포함하고, 유성화 주기성(voicing periodicity)은 낮다. 상기 방법은 코딩 비트 레이트가 중간이고 디지털 신호가 짧은 피치 신호를 포함하고 유성화 주기성이 매우 강할 때 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하는 단계를 더 포함한다.

본 발명의 대안적 실시예에 따르면, 오디오 데이터를 포함하는 디지털 신호를 인코딩하기 전에 스피치 신호들을 처리하기 위한 장치는, 디지털 신호를 코딩하기 위해 사용될 코딩 비트 레이트, 및 디지털 신호의 짧은 피치 래그 검출에 기초하여 주파수 도메인 코딩 또는 시간 도메인 코딩을 선택하도록 구성된 코딩 선택기를 포함한다.

본 발명과 그 장점들의 더욱 완벽한 이해를 위해, 이하에서는 첨부 도면과 함께 취해지는 후속하는 기재들에 대한 참조가 이루어진다.
도 1은 종래의 CELP 인코더를 이용하는 원래 스피치의 인코딩 동안 수행되는 동작들을 도시한다.
도 2는 CELP 디코더를 이용하는 원래 스피치의 디코딩 동안 수행되는 동작들을 도시한다.
도 3은 종래의 CELP 인코더를 도시한다.
도 4는 도 3의 인코더에 대응하는 기본 CELP 디코더를 도시한다.
도 5 및 도 6은 개략적 스피치 신호들의 예들, 및 시간 도메인에서 프레임 크기와 서브 프레임 크기에 대한 이것의 관계를 도시한다.
도 7은 원래의 유성 광대역 스펙트럼의 예를 도시한다.
도 8은 더블링 피치 래그 코딩(doubling pitch lag coding)을 이용하는, 도 7에 도시된 원래의 유성 광대역 스펙트럼의 코딩된 유성 광대역 스펙트럼을 도시한다.
도 9a 및 9b는 전형적인 주파수 도메인 인식 코덱의 개략도를 도시하며, 도 9a는 주파수 도메인 인코더를 도시하는 반면, 도 9b는 주파수 도메인 디코더를 도시한다.
도 10은 본 발명의 실시예들에 따른, 오디오 데이터를 포함하는 스피치 신호를 인코딩하기 전에 인코더에서의 동작의 개요를 도시한다.
도 11은 본 발명의 일 실시예에 따른 통신 시스템(10)을 도시한다.
도 12는 본 명세서에 개시된 디바이스들 및 방법들을 구현하기 위해 이용될 수 있는 처리 시스템의 블록도를 도시한다.
도 13은 디지털 신호를 인코딩하기 전에 스피치 신호들을 처리하기 위한 장치의 블록도를 도시한다.
도 14는 디지털 신호를 인코딩하기 전에 스피치 신호들을 처리하기 위한 다른 장치의 블록도를 도시한다.

현대의 오디오/스피치 디지털 신호 통신 시스템에서, 디지털 신호는 인코더에서 압축되고, 압축된 정보 또는 비트-스트림은 패킷화될 수 있고 통신 채널을 통해 프레임 단위로 디코더로 송신될 수 있다. 디코더는 압축된 정보를 수신하고 디코딩하여 오디오/스피치 디지털 신호를 획득한다.

현대의 오디오/스피치 디지털 신호 통신 시스템에서, 디지털 신호는 인코더에서 압축되고, 압축된 정보 또는 비트 스트림은 패킷화될 수 있고 통신 채널을 통해 프레임 단위로 디코더로 송신될 수 있다. 인코더와 디코더가 함께 있는 시스템을 코덱이라고 부른다. 스피치/오디오 압축은 스피치/오디오 신호를 표현하는 비트 수를 감소시켜 전송에 필요한 대역폭 및/또는 비트 레이트를 감소시키는데 사용될 수 있다. 일반적으로 비트 레이트가 높을수록 오디오 품질이 높아지게 되는 반면, 비트 레이트가 낮을수록 오디오 음질은 낮아지게 될 것이다.

도 1은 종래의 CELP 인코더를 이용하는 원래 스피치의 인코딩 동안 수행되는 동작들을 도시한다.

도 1은 종래의 초기 CELP 인코더를 도시하고, 여기서 합성된 스피치(102)와 원래 스피치(101) 사이의 가중화된 에러(109)가 종종 분석-합성 접근법을 이용하여 최소화되는데, 이것은 디코딩된(합성) 신호를 폐루프에서 인지적으로 최적화함으로써 인코딩(분석)이 수행됨을 의미한다.

모든 스피치 코더들이 이용하는 기본 원리는, 스피치 신호들이 크게 상관된 파형들이라는 사실에 있다. 예시로서, 스피치는 아래의 수학식 1에서와 같은 자기회귀적(autoregressive)(AR) 모델을 이용하여 표현될 수 있다.

수학식 1에서, 각각의 샘플은 이전의 P 개의 샘플들 플러스 백색 잡음의 선형 조합으로서 표현된다. 가중 계수들 a₁, a₂, ... a_P는 선형 예측 계수들(LPCs)이라고 불린다. 각각의 프레임에 대해, 가중 계수들 a₁, a₂, ... a_P는, 상기 모델을 이용하여 생성된 {X₁, X₂, ..., X_N}의 스펙트럼이 입력 스피치 프레임의 스펙트럼과 근사하게 일치하도록 선택된다.

대안적으로, 스피치 신호들은 또한 고조파 모델과 잡음 모델의 조합에 의해 표현될 수 있다. 모델의 고조파 부분은 사실상 신호의 주기적 컴포넌트의 푸리에 급수 표현이다. 일반적으로, 유성 신호들에 대해서는, 스피치의 고조파 플러스 잡음 모델이 고조파들과 잡음 양쪽의 혼합으로 구성된다. 유성 스피치에서의 고조파와 잡음의 비율은, 화자 특성들(예를 들어, 어느 정도의 화자의 음성이 정상인지 또는 호흡하는 것인지), 스피치 세그먼트 캐릭터(speech segment character)(예를 들어, 어느 정도의 스피치 세그먼트가 주기적인지)를 포함하는 다수의 팩터, 및 주파수에 의존한다. 유성 스피치의 주파수가 높을수록 더 높은 비율의 잡음-유사 컴포넌트들을 갖는다.

선형 예측 모델 및 고조파 잡음 모델은 스피치 신호들의 모델링 및 코딩을 위한 두 개의 주요 방법이다. 선형 예측 모델은, 특히 스피치의 스펙트럼 포락선을 모델링하는데 양호한 반면, 고조파 잡음 모델은 스피치의 미세 구조를 모델링하는데 양호하다. 두 개의 방법은 그들의 상대적인 강점들을 이용하기 위해 결합될 수 있다.

앞서 나타낸 바와 같이, CELP 코딩 전에, 핸드셋의 마이크로폰으로의 입력 신호는 필터링되고, 예를 들어 초당 8000개 샘플의 레이트에서 샘플링된다. 그 후 각각의 샘플은, 예를 들어 샘플당 13비트로 양자화된다. 샘플링된 스피치는 20ms의 세그먼트들 또는 프레임들로 세그먼트화된다(예를 들어, 이 경우에 160개 샘플).

스피치 신호가 분석되고, 그것의 LP 모델, 여기 신호들, 및 피치가 추출된다. LP 모델은 스피치의 스펙트럼 포락선을 표현한다. 이것은 라인 스펙트럼 주파수들(line spectral frequencies)(LSF) 계수들의 세트로 변환되는데, 이는 LSF 계수들이 양호한 양자화 속성들을 갖기 때문에, 선형 예측 파라미터들의 대안적인 표현이 된다. LSF 계수들은 스칼라 양자화될 수 있거나, 또는 더 효율적으로 그들은 이전에 트레이닝된 LSF 벡터 코드북들을 이용하여 벡터 양자화될 수 있다.

코드-여기는 코드 백터들을 포함하는 코드북을 포함하며, 코드 백터들은, 각각의 코드 백터가 대략 '백색' 스펙트럼을 가질 수 있도록 모두 독립적으로 선택되는 컴포넌트들을 갖는다. 입력 스피치의 각각의 서브프레임에 대해, 각각의 코드 백터들은 단기 선형 예측 필터(103)와 장기 예측 필터(105)를 통해 필터링되고, 출력은 스피치 샘플들과 비교된다. 각각의 서브프레임에서, 출력이 입력 스피치와 가장 잘 일치하는(에러가 최소화됨) 코드 백터가 해당 서브프레임을 표현하기 위해 선택된다.

코딩된 여기(108)는 통상적으로 펄스-유사 신호 또는 잡음-유사 신호를 포함하고, 이들은 수학적으로 구축되거나 코드북에 저장된다. 코드북은 인코더 및 수신 디코더의 양쪽 모두에서 이용 가능하다. 확률론적인 또는 고정된 코드북일 수 있는 코딩된 여기(108)는 (내재적으로 또는 명시적으로) 코덱 내에 하드코딩되는 벡터 양자화 사전일 수 있다. 그러한 고정된 코드북은 대수학적 코드-여기된 선형 예측일 수 있거나 또는 명시적으로 저장될 수 있다.

코드북으로부터의 코드 백터는 에너지를 입력 스피치의 에너지와 동일하게 하기 위해 적절한 게인에 의해 스케일링된다. 따라서, 코딩된 여기(108)의 출력은 선형 필터들을 통과하기 전에 게인 G_c(107)에 의해 스케일링된다.

단기 선형 예측 필터(103)는 코드 백터의 '백색' 스펙트럼을 입력 스피치의 스펙트럼과 닮도록 성형한다. 동등하게, 시간-도메인에서, 단기 선형 예측 필터(103)는 백색 시퀀스에 단기 상관들(short-term correlations)(이전 샘플들과의 상관)을 통합시킨다. 여기를 성형하는 필터는 1/A(z)(단기 선형 예측 필터(103)) 형태의 모든-폴 모델을 가지며, 여기서 A(z)는 예측 필터라고 불리고, 선형 예측(예를 들어, Levinson-Durbin 알고리즘)을 이용하여 획득될 수 있다. 하나 이상의 실시예에서, 모든-폴 필터는, 그것이 인간 성대의 양호한 표현이고 계산하기 용이하기 때문에, 이용될 수 있다.

단기 선형 예측 필터(103)는 원래 신호(101)를 분석함으로써 획득되고 계수들의 세트에 의해 표현된다:

전술한 바와 같이, 유성 스피치의 영역들은 장기 주기성을 나타낸다. 피치로서 알려진 이런 주기는 피치 필터 1/(B(z))에 의해 합성된 스펙트럼에 도입된다. 장기 예측 필터(105)의 출력은 피치와 피치 게인에 의존한다. 하나 이상의 실시예에서, 피치는 원래 신호, 잔차 신호, 또는 가중화된 원래 신호로부터 추정될 수 있다. 일 실시예에서, 장기 예측 함수(B(z))는 다음과 같은 수학식 3을 이용하여 표현될 수 있다.

가중화 필터(110)는 상기의 단기 예측 필터와 관련된다. 전형적인 가중화 필터들 중 하나는 수학식 4에서 기술되는 바와 같이 표현될 수 있다.

여기서,

이다.

다른 실시예에서, 가중화 필터 W(z)는 일 실시예에서 예시되는 바와 같이 아래의 수학식 5의 대역폭 확장을 이용하여 LPC 필터로부터 도출될 수 있다.

수학식 5에서, γ1 > γ2이며, 이들 팩터들에 의해 폴들이 원점을 향하여 이동된다.

따라서, 스피치의 모든 프레임마다, LPC들과 피치가 계산되고 필터들이 업데이트된다. 스피치의 모든 서브프레임마다, '최상의' 필터링된 출력을 생성하는 코드 백터가 서브프레임을 표현하기 위해 선택된다. 대응하는 게인의 양자화된 값이 적절한 디코딩을 위해 디코더에 전송되어야 한다. LPC들과 피치 값들은 또한 양자화되어야 하고, 디코더에서 필터들을 재구성하기 위해 프레임마다 송신되어야 한다. 따라서, 코딩된 여기 인덱스, 양자화된 게인 인덱스, 양자화된 장기 예측 파라미터 인덱스, 및 양자화된 단기 예측 파라미터 인덱스가 디코더에 전송된다.

도 2는 CELP 디코더를 이용하는 원래 스피치의 디코딩 동안 수행되는 동작들을 도시한다.

수신된 코드 백터들을 대응하는 필터들에 통과시킴으로써 디코더에서 스피치 신호가 재구성된다. 따라서, 후-처리를 제외한 모든 블록은 도 1의 인코더에서 설명된 것과 동일한 정의를 갖는다.

코딩된 CELP 비트스트림이 수신 디바이스에서 수신되고 언팩된다(80). 수신된 각각의 서브프레임에 대해, 수신되는 코딩된 여기 인덱스, 양자화된 게인 인덱스, 양자화된 장기 예측 파라미터 인덱스, 및 양자화된 단기 예측 파라미터 인덱스는 대응하는 디코더들, 예를 들어 게인 디코더(81), 장기 예측 디코더(82), 및 단기 예측 디코더(83)를 이용하여 대응하는 파라미터들을 찾기 위해 이용된다. 예를 들어, 수신되는 코딩된 여기 인덱스로부터, 여기 펄스들의 위치들 및 진폭 사인들과, 코드-여기(402)의 대수학적인 코드 벡터가 결정될 수 있다.

도 2를 참조하면, 디코더는 코딩된 여기(201), 장기 예측(203), 단기 예측(205)을 포함하는 여러 블록의 조합이다. 초기 디코더는 합성된 스피치(206) 이후에 후-처리 블록(207)을 더 포함한다. 후-처리는 단기 후-처리와 장기 후-처리를 더 포함할 수 있다.

도 3은 종래의 CELP 인코더를 도시한다.

도 3은 장기 선형 예측을 향상시키기 위해 추가적인 적응적 코드북을 이용하는 기본 CELP 인코더를 도시한다. 여기는 적응적 코드북(307)과 코드 여기(308)로부터의 기여들을 합산함으로써 생성되고, 이것은 전술한 바와 같이 확률론적인 또는 고정된 코드북일 수 있다. 적응적 코드북 내의 엔트리들은 여기의 지연된 버전들을 포함한다. 이것은 유성 사운드들과 같은 주기적 신호들을 효율적으로 코딩하는 것을 가능하게 한다.

도 3을 참조하면, 적응적 코드북(307)은 과거 합성된 여기(304) 또는 피치 주기에서의 반복하는 과거 여기 피치 사이클을 포함한다. 피치 래그는, 그것이 크거나 길 때, 정수 값으로 인코딩될 수 있다. 피치 래그는, 그것이 작거나 짧을 때, 더 정확한 소수 값으로 종종 인코딩된다. 피치의 주기적인 정보는 여기의 적응적 컴포넌트를 생성하기 위해 채택된다. 이런 여기 컴포넌트는 그 후 게인 G_p(305)(피치 게인이라고도 불림)에 의해 스케일링된다.

장기 예측은, 유성 스피치가 강한 주기성을 가지기 때문에, 유성 스피치 코딩에 매우 중요한 역할을 한다. 유성 스피치의 인접한 피치 사이클들은 서로 유사하고, 이것은 수학적으로 아래의 여기 표현식 내의 피치 게인 G_p가 높거나 또는 1에 근사한 것을 의미한다. 결과적인 여기는 개별 여기들의 조합으로서 수학식 6에서와 같이 표현될 수 있다.

여기서, e _p (n)은 피드백 루프(도 3)를 통한 과거 여기(304)를 포함하는 적응적 코드북(307)으로부터 유래하는, n에 의해 인덱스되는 샘플 급수들의 하나의 서브프레임이다. e _p (n)은, 저주파수 영역이 종종 고주파수 영역보다 더 주기적 또는 더 고조파적이기 때문에, 적응적으로 로우-패스 필터링될 수 있다. e _c (n)은 코딩된 여기 코드북(308)(고정된 코드북이라고도 불림)으로부터 유래하고, 이것은 현재 여기 기여이다. 또한, e _c (n)은, 예를 들어 하이-패스 필터링 증강, 피치 증강, 확산 증강, 포먼트 증강(formant enhancement), 및 다른 것들을 이용하여 증강될 수 있다.

유성 스피치의 경우, 적응적 코드북(307)으로부터의 e _p (n)의 기여가 지배적일 수 있고, 피치 게인 G_p(305)는 대략 1의 값이다. 여기는 일반적으로 각각의 서브프레임에 대해 업데이트된다. 전형적인 프레임 크기는 20 밀리초이고, 전형적인 서브프레임 크기는 5 밀리초이다.

도 1에 기재된 바와 같이, 고정되고 코딩된 여기(308)는 선형 필터들을 통과하기 전에 게인 G_c(306)에 의해 스케일링된다. 고정되고 코딩된 여기(108)와 적응적 코드북(307)으로부터의 2개의 스케일링된 여기 컴포넌트들은 단기 선형 예측 필터(303)를 통과하기 전에 함께 가산된다. 2개의 게인(G_p와 G_c)은 양자화되고 디코더에 전송된다. 따라서, 코딩된 여기 인덱스, 적응적 코드북 인덱스, 양자화된 게인 인덱스들, 및 양자화된 단기 예측 파라미터 인덱스는 수신 오디오 디바이스에 전송된다.

도 3에 도시된 디바이스를 이용하여 코딩된 CELP 비트스트림은 수신 디바이스에서 수신된다. 도 4는 수신 디바이스의 대응하는 디코더를 도시한다.

도 4는 도 3의 인코더에 대응하는 기본 CELP 디코더를 도시한다. 도 4는 메인 디코더로부터 합성된 스피치(407)를 수신하는 후-처리 블록(408)을 포함한다. 이 디코더는 적응적 코드북(307)을 제외하고는 도 3과 유사하다.

수신된 각각의 서브프레임에 대해, 수신되고 코딩된 여기 인덱스, 양자화되고 코딩된 여기 게인 인덱스들, 양자화된 피치 인덱스, 양자화된 적응적 코드북 게인 인덱스, 및 양자화된 단기 예측 파라미터 인덱스는 대응하는 디코더들, 예를 들어 게인 디코더(81), 피치 디코더(84), 적응적 코드북 게인 디코더(85), 및 단기 예측 디코더(83)를 이용하여 대응하는 파라미터들을 찾기 위해 이용된다.

다양한 실시예에서, CELP 디코더는 여러 블록의 조합이고, 코딩된 여기(402), 적응적 코드북(401), 단기 예측(406), 및 후-처리(408)를 포함한다. 후-처리를 제외한 모든 블록은 도 3의 인코더에서 기재된 것과 동일한 정의를 갖는다. 후-처리는 단기 후-처리와 장기 후-처리를 더 포함할 수 있다.

코드-여기 블록(도 3의 라벨(308) 및 도 4의 402를 참조)은 일반적인 CELP 코딩에 대한 고정된 코드북(Fixed Codebook)(FCB)의 위치를 도시한다. FCB로부터의 선택된 코드 벡터는 종종 G_c(306)로서 표기된 게인에 의해 스케일링된다.

도 5 및 도 6은 개략적 스피치 신호의 예들과, 시간 도메인에서 프레임 크기 및 서브 프레임 크기에 대한 이것의 관계를 도시한다. 도 5 및 도 6은 복수의 서브 프레임을 포함하는 프레임을 도시한다.

입력 스피치의 샘플들은, 프레임들, 예를 들어, 80-240개의 샘플 또는 프레임으로 각각 불리는 샘플들의 블록으로 분할된다. 각 프레임은 서브 프레임들로 각각 불리는 더 작은 샘플들의 블록으로 분할된다. 8kHz, 12.8kHz 또는 16kHz의 샘플링 레이트에서, 스피치 코딩 알고리즘은, 공칭 프레임 지속 기간이 10 내지 30밀리초, 및 전형적으로 20밀리초의 범위 내에 있도록 한다. 도시된 도 5에서, 프레임은 프레임 크기 1과 서브 프레임 크기 2를 가지며, 여기서 각각의 프레임은 4개의 서브 프레임으로 분할된다.

도 5 및 도 6의 하부 또는 저부들을 참조하면, 스피치에서의 유성 영역들은 시간 도메인 표현에서 가까운 주기적 신호(near periodic signal)와 유사하게 보인다. 화자의 성대의 주기적인 개폐는 유성 스피치 신호들에서 고조파 구조를 초래한다. 따라서, 짧은 시간 기간 동안, 유성 스피치 세그먼트들은 모든 실제 분석 및 처리를 위해 주기적으로 취급될 수 있다. 이러한 세그먼트들과 연관된 주기성은 시간 도메인에서 "피치 주기" 또는 간단히 "피치"로 정의되고 주파수 도메인에서 "피치 주파수 또는 기본 주파수 f₀"로 정의된다. 피치 주기의 역수는 스피치의 기본 주파수이다. 스피치의 피치 및 기본 주파수라는 용어들은 종종 상호 교환 가능하게 사용된다.

대부분의 유성 스피치의 경우, 하나의 프레임은 2개 보다 많은 피치 사이클을 포함한다. 도 5는 피치 주기 3이 서브 프레임 크기 2보다 더 작은 예를 추가로 도시한다. 대조적으로, 도 6은 피치 주기 4가 서브 프레임 크기 2보다 더 크고 프레임 크기 절반보다 더 작은 예를 도시한다.

스피치 신호를 보다 효율적으로 인코딩하기 위해서, 스피치 신호는 상이한 클래스들로 분류될 수 있고, 각각의 클래스는 상이한 방식으로 인코딩된다. 예를 들어, G.718, VMR-WB 또는 AMR-WB와 같은 일부 표준에서는, 스피치 신호가 UNVOICED, TRANSITION, GENERIC, VOICED 및 NOISE로 분류된다.

각각의 클래스에 대해, LPC 또는 STP 필터는 항상 스펙트럼 포락선을 나타내는데 사용된다. 그러나 LPC 필터로의 여기는 다를 수 있다. UNVOICED 및 NOISE 클래스들은 노이즈 여기 및 일부 여기 강화로 코딩될 수 있다. TRANSITION 클래스는 적응적 코드북 또는 LTP를 이용하지 않고 펄스 여기 및 일부 여기 강화로 코딩될 수 있다.

GENERIC은 G.729 또는 AMR-WB에서 사용되는 대수(Algebraic) CELP와 같은 전통적인 CELP 접근법으로 코딩될 수 있으며, 여기서 하나의 20ms 프레임은 4개의 5ms 서브 프레임을 포함한다. 적응적 코드북 여기 컴포넌트 및 고정된 코드북 여기 컴포넌트의 양쪽 모두는 각각의 서브 프레임에 대한 일부 여기 강화를 통해 생성된다. 제1 및 제3 서브 프레임들에서의 적응적 코드북에 대한 피치 래그들은 최소 피치 제한 PIT_MIN으로부터 최대 피치 제한 PIT_MAX까지의 전체 범위에서 코딩된다. 제2 및 제4 서브 프레임들에서의 적응적 코드북에 대한 피치 래그들은 이전에 코딩된 피치 래그와는 상이하게 코딩된다.

VOICED 클래스들은 GENERIC 클래스와는 약간 상이한 방식으로 코딩될 수 있다. 예를 들어, 제1 서브 프레임에서의 피치 래그는 최소 피치 제한 PIT_MIN으로부터 최대 피치 제한 PIT_MAX까지의 전체 범위로 코딩될 수 있다. 다른 서브 프레임들에서의 피치 래그는 이전에 코딩된 피치 래그와는 상이하게 코딩될 수 있다. 실례로, 여기 샘플링 레이트가 12.8kHz라고 가정하면, 예시적인 PIT_MIN 값은 34일 수 있고 PIT_MAX는 231일 수 있다.

시간 도메인 코딩 및 주파수 도메인 코딩의 분류를 향상시키기 위한 본 발명의 실시예들이 이하 설명될 것이다.

일반적으로 말하면, 매우 높은 비트 레이트(예를 들어, 24kbps <= 비트 레이트 <= 64kbps)에서 최상의 품질을 달성하기 위해, 스피치 신호에 대해서는 시간 도메인 코딩 및 음악 신호에 대해서는 주파수 도메인 코딩을 이용하는 것이 더 바람직하다. 그러나, 예를 들어 짧은 피치 신호, 노래하는 스피치 신호 또는 매우 시끄러운 스피치 신호와 같은 일부 특정한 스피치 신호에 대해서는, 주파수 도메인 코딩을 이용하는 것이 더 바람직할 수 있다. 매우 주기적인 신호와 같은 일부 특정한 음악 신호들의 경우에는, 매우 높은 LTP 게인으로부터 이익을 얻음으로써 시간 도메인 코딩을 이용하는 것이 더 바람직할 수 있다. 비트 레이트는 분류에 중요한 파라미터이다. 보통, 시간 도메인 코딩은 낮은 비트 레이트를 선호하고, 주파수 도메인 코딩은 높은 비트 레이트를 선호한다. 시간 도메인 코딩과 주파수 도메인 코딩 간의 최상의 분류 또는 선택은 비트 레이트 범위 및 코딩 알고리즘들의 특성을 또한 고려하여 신중히 결정될 필요가 있다.

다음 섹션에서는, 정상 스피치 및 짧은 피치 신호의 검출이 설명될 것이다.

정상 스피치는 노래하는 스피치 신호, 짧은 피치 스피치 신호 또는 스피치/음악 혼합된 신호를 배제한 스피치 신호이다. 정상 스피치는 또한, 빠르게 변화하는 스피치 신호이고, 이것의 스펙트럼 및/또는 에너지는 대부분의 음악 신호들보다 더 빠르게 변화한다. 통상적으로, 시간 도메인 코딩 알고리즘은 정상 스피치 신호를 코딩하기 위해서 주파수 도메인 코딩 알고리즘보다 낫다. 다음은 정상적인 스피치 신호를 검출하는 알고리즘의 예이다.

피치 후보 P에 대해, 정규화된 피치 상관은 종종 수학식 8에서와 같은 수학적 형태로 정의된다.

수학식 8에서, s_w(n)은 가중된 스피치 신호이고, 분자는 상관이며, 분모는 에너지 정규화 팩터이다. Voicing이 현재 스피치 프레임 내의 4개의 서브 프레임의 평균 정규화된 피치 상관 값을 언급한다고 가정하면, Voicing은 아래의 수학식 9와 같이 계산될 수 있다.

R₁(P₁), R₂(P₂), R₃(P₃) 및 R₄(P₄)는 각 서브 프레임에 대해 계산된 4개의 정규화된 피치 상관이다; 각 서브 프레임에 대한 P₁, P₂, P₃ 및 P₄는 P=PIT_MIN에서 P=PIT_MAX까지의 피치 범위에서 발견되는 최상의 피치 후보들이다. 이전 프레임에서 현재 프레임까지의 평활화된 피치 상관은 수학식 10과 같이 계산될 수 있다.

수학식 10에서, VAD는 음성 활성 검출(Voice Activity Detection)이고, VAD=1은 스피치 신호가 존재하는 것을 나타낸다. F_s가 샘플링 레이트이고, 매우 낮은 주파수 영역[0, F_MIN=F_s/PIT_MIN] (Hz)에서의 최대 에너지가 Energy0 (dB)이고, 저주파수 영역[F_MIN, 900] (Hz)에서의 최대 에너지가 Energy1 (dB)이고, 고주파수 영역[5000, 5800] (Hz)에서의 최대 에너지가 Energy3 (dB)이라 가정하면, 스펙트럼 틸트 파라미터 Tilt는 다음과 같이 정의된다.

평활화된 스펙트럼 틸트 파라미터는 수학식 12에서 같이 언급된다.

현재 프레임과 이전 프레임의 차분 스펙트럼 틸트(difference spectral tilt)는 수학식 13과 같이 주어질 수 있다.

평활화된 차분 스펙트럼 틸트는 수학식 14와 같이 주어질 수 있다.

현재 프레임과 이전 프레임의 차분 저주파수 에너지는 다음의 수학식 15이다.

평활화된 차분 에너지는 수학식 16에 의해 주어진다.

또한, Speech_flag로 표기된 정상 스피치 플래그는 수학식 17에서 제공되는 바와 같은, 에너지 변동 Diff_energy1_sm, 유성화 변동 Voicing_sm, 및 스펙트럼 틸트 변동 Diff_tilt_sm을 고려하여 유성 영역 동안 결정되고 변경된다.

짧은 피치 신호를 검출하기 위한 본 발명의 실시예들이 설명될 것이다.

대부분의 CELP 코덱들은 정상 스피치 신호에 대해 잘 작동한다. 그러나 낮은 비트 레이트의 CELP 코덱들은 종종 음악 신호들 및/또는 노래하는 음성 신호에 대해 실패한다. 피치 코딩 범위가 PIT_MIN에서 PIT_MAX까지이고 실제 피치 래그가 PIT_MIN보다 더 작은 경우, CELP 코딩 성능은 더블 피치 또는 트리플 피치로 인해 지각적으로 불량할 수 있다. 예를 들어, F_s=12.8kHz 샘플링 주파수에 대한 PIT_MIN=34과 PIT_MAX=231 사이의 피치 범위는 대부분의 사람 음성들을 조정한다. 그러나 정규 음악 또는 노래하는 유성 신호의 실제 피치 래그는 상기 예시적인 CELP 알고리즘에서 정의된 최소 제한 PIT_MIN=34보다 훨씬 더 짧을 수 있다.

실제 피치 래그가 P일 때, 대응하는 정규화된 기본 주파수(또는 제1 고조파)는 f₀=F_s/P이고, 여기서 F_s는 샘플링 주파수이고, f₀는 스펙트럼에서의 제1 고조파 피크의 위치이다. 따라서, 주어진 샘플링 주파수에 대해, 최소 피치 제한 PIT_MIN은 CELP 알고리즘을 위한 최대 기본 고조파 주파수 제한 F_M=F_s/PIT_MIN을 실제로 정의한다.

도 7은 원래의 유성 광대역 스펙트럼의 예를 도시한다. 도 8은 더블링 피치 래그 코딩을 이용하는, 도 7에 도시된 원래의 유성 광대역 스펙트럼의 코딩된 유성 광대역 스펙트럼을 도시한다. 즉, 도 7은 코딩 이전의 스펙트럼을 도시하고, 도 8은 코딩 이후의 스펙트럼을 도시한다.

도 7에 도시된 예에서, 스펙트럼은 고조파 피크들(701) 및 스펙트럼 포락선(702)에 의해 형성된다. 실제 기본 고조파 주파수(제1 고조파 피크의 위치)는 이미 최대 기본 고조파 주파수 제한 F_M을 초과하므로, CELP 알고리즘에 대한 전송된 피치 래그는 실제 피치 래그와 동일할 수 없고 실제 피치 래그의 2배 또는 여러 배가 될 수 있다.

실제 피치 래그의 배수로 전송된 잘못된 피치 래그는 명백한 품질 저하를 유발할 수 있다. 즉, 고조파 음악 신호 또는 노래하는 음성 신호의 실제 피치 래그가 CELP 알고리즘에서 정의된 최소 래그 제한 PIT_MIN보다 더 작을 때, 전송된 래그는 실제 피치 래그의 2배, 3배 또는 여러 배가 될 수 있다.

그 결과, 전송된 피치 래그를 갖는 코딩된 신호의 스펙트럼은 도 8에 도시된 바와 같을 수 있다. 도 8에 도시된 바와 같이, 고조파 피크들(8011) 및 스펙트럼 포락선(802)을 포함하는 것 이외에, 실제 고조파 피크들 사이의 원치 않는 작은 피크들(803)이 보일 수 있지만 정확한 스펙트럼은 도 7의 스펙트럼과 같아야 한다. 도 8에서의 이러한 작은 스펙트럼 피크들은 불편한 지각 왜곡을 유발할 수 있다.

본 발명의 실시예들에 따르면, CELP가 일부 특정 신호들에 대해 실패할 때 이 문제를 해결하는 하나의 해결책은, 시간 도메인 코딩 대신에 주파수 도메인 코딩이 사용된다는 것이다.

통상, 음악 고조파 신호들 또는 노래하는 음성 신호들은 정상 스피치 신호들보다 더 고정적이다. 정상 스피치 신호의 피치 래그(또는 기본 주파수)는 항상 변화한다. 그러나 음악 신호 또는 노래하는 음성 신호의 피치 래그(또는 기본 주파수)는 종종 꽤 오랜 지속 기간 동안 비교적 느린 변화를 유지한다. 매우 짧은 피치 범위는 PIT_MIN0와 PIT_MIN 사이에서 정의된다. 샘플링 주파수 F_s=12.8kHz에서, 매우 짧은 피치 범위의 예시적 정의는 PIT_MIN0<=17과 PIT_MIN=34 사이에 있을 수 있다. 피치 후보가 너무 짧기 때문에, 0Hz에서 F_MIN=F_s/PIT_MIN Hz까지의 에너지는 상대적으로 충분히 낮아야 한다. 짧은 피치 신호의 존재를 검출하는 동안 음성 활동 검출 및 유성 분류와 같은 다른 조건들이 추가될 수 있다.

다음 2개의 파라미터는 매우 짧은 피치 신호의 존재 가능성을 검출하는 데 도움이 될 수 있다. 하나의 파라미터는 "매우 낮은 주파수 에너지의 부족"을 특징으로 하고, 다른 하나는 "스펙트럼 선명도(Spectral Sharpness)"를 특징으로 한다. 이미 위에서 언급한 바와 같이, 주파수 영역[0, F_MIN] (Hz)에서의 최대 에너지가 Energy0 (dB)이고, 주파수 영역[F_MIN, 900] (Hz)에서의 최대 에너지가 Energy1 (dB)이라고 가정하면, Energy0과 Energy1 사이의 상대적인 에너지 비는 아래의 수학식 18에 제공된다.

이 에너지 비는 평균 정규화된 피치 상관 값 Voicing을 승산함으로써 가중될 수 있으며, 이는 하기의 수학식 19에 도시된다.

Voicing 팩터를 이용하여 수학식 19에서 가중 처리를 수행하는 이유는, 짧은 피치 검출이 유성 스피치 또는 고조파 음악에 대해 의미가 있고, 무성 스피치 또는 비-고조파 음악에 대해서는 의미가 없기 때문이다. Ratio 파라미터를 이용하여 저주파수 에너지의 부족을 검출하기 전에, 이것은 수학식 20에서와 같이 불확실성을 줄이기 위해 평활화되는 것이 바람직하다.

LF_lack_flag=1이, 저주파수 에너지의 부족이 검출된 것을 의미하면(그렇지 않으면 LF_lack_flag=0임), LF_lack_flag는 다음의 절차에 의해 결정될 수 있다.

Spectral Sharpness 관련 파라미터들은 다음과 같은 방식으로 결정된다. Energy1 (dB)가 저주파수 영역[F_MIN, 900] (Hz)에서의 최대 에너지이고, i_peak가 주파수 영역[F_MIN, 900] (Hz)에서의 최대 에너지 고조파 피크 위치이고, Energy2 (dB)가 주파수 영역[i_peak, i_peak+400] (Hz)에서의 평균 에너지라고 가정한다. 하나의 스펙트럼 선명도 파라미터는 수학식 21과 같이 정의된다.

평활화된 스펙트럼 선명도 파라미터는 다음과 같이 주어진다.

짧은 피치 신호의 존재 가능성을 나타내는 하나의 스펙트럼 선명도 플래그는 다음에 의해 평가된다.

다양한 실시예들에서, 상기 추정된 파라미터들은 시간 도메인 코딩 및 주파수 도메인 코딩의 분류 또는 선택을 향상시키기 위해 사용될 수 있다. Sp_Aud_Deci=1은 주파수 도메인 코딩이 선택되었음을 나타내고, Sp_Aud_Deci=0은 시간 도메인 코딩이 선택되었음을 나타낸다고 가정한다. 다음의 절차는 상이한 코딩 비트 레이트들에 대한 시간 도메인 코딩 및 주파수 도메인 코딩의 분류를 향상시키기 위한 예시적인 알고리즘을 제공한다.

본 발명의 실시예들은 높은 비트 레이트들을 향상시키기 위해 사용될 수 있는데, 예를 들어, 코딩 비트 레이트는 46200 bps 이상이다. 코딩 비트 레이트가 매우 높고 짧은 피치 신호가 존재할 수 있는 경우, 주파수 도메인 코딩은 강건하고 신뢰성 있는 품질을 제공할 수 있는 반면, 시간 도메인 코딩은 잘못된 피치 검출로 인해 유해한 영향을 줄 수 있기 때문에, 주파수 도메인 코딩이 선택된다. 대조적으로, 짧은 피치 신호가 존재하지 않고 신호가 무성 스피치 또는 정상 스피치인 경우, 시간 도메인 코딩이 정상 스피치 신호에 대해 주파수 도메인 코딩보다 더 양호한 품질을 제공할 수 있기 때문에, 시간 도메인 코딩이 선택된다.

본 발명의 실시예들은, 예를 들어 코딩 비트 레이트가 24.4 kbps와 46200 bps 사이 일 때, 중간 비트 레이트 코딩을 향상시키기 위해 사용될 수 있다. 짧은 피치 신호가 존재할 수 있고 유성화 주기성이 낮을 때, 주파수 도메인 코딩은 강건하고 신뢰성 있는 품질을 전달할 수 있는 반면 시간 도메인 코딩은 낮은 유성화 주기성으로 인해 유해한 영향을 줄 수 있기 때문에, 주파수 도메인 코딩이 선택된다. 짧은 피치 신호가 존재하지 않고 신호가 무성 스피치 또는 정상 스피치일 때, 시간 도메인 코딩은 정상 스피치 신호에 대해 주파수 도메인 코딩보다 더 양호한 품질을 전달할 수 있기 때문에, 시간 도메인 코딩이 선택된다. 유성화 주기성이 매우 강할 때, 시간 도메인 코딩은 매우 강한 유성화 주기성을 갖는 높은 LTP 게인으로부터 많은 이익을 얻을 수 있기 때문에, 시간 도메인 코딩이 선택된다.

본 발명의 실시예들은 또한 높은 비트 레이트들을 향상시키기 위해 사용될 수 있는데, 예를 들어, 코딩 비트 레이트는 24.4kbps 미만이다. 짧은 피치 신호가 존재하고 유성화 주기성이 정확한 피치 래그 검출과 함께 낮지 않을 때, 주파수 도메인 코딩은 낮은 레이트에서 강건하고 신뢰성 있는 품질을 전달할 수 없는 반면, 시간 도메인 코딩은 LTP 기능으로부터 이득을 잘 얻을 수 있기 때문에, 주파수 도메인 코딩이 선택되지 않는다.

다음의 알고리즘은 상기 실시예의 특정 실시예를 예시로서 도시한다. 모든 파라미터들은 하나 이상의 실시예에서 전술한 바와 같이 계산될 수 있다.

다양한 실시예들에서, 시간 도메인 코딩 및 주파수 도메인 코딩의 분류 또는 선택은 일부 특정 스피치 신호들 또는 음악 신호의 지각 품질을 현저하게 향상시키기 위해 사용될 수 있다.

필터 뱅크 기술에 기초하는 오디오 코딩은 주파수 도메인 코딩에서 널리 사용된다. 신호 처리에서, 필터 뱅크는 입력 신호를 다수의 컴포넌트로 분리하는 대역 통과 필터들의 어레이이며, 이들 컴포넌트 각각은 원래의 입력 신호의 단일 주파수 부대역을 반송한다. 필터 뱅크에 의해 수행되는 분해의 프로세스는 분석이라고 불리며, 필터 뱅크 분석의 출력은 필터 뱅크에 필터들이 존재하는 수만큼 많은 부대역들을 갖는 부대역 신호로서 지칭된다. 재구성 프로세스는 필터 뱅크 합성이라고 불린다. 디지털 신호 처리에서, 필터 뱅크라는 용어는 수신기들의 뱅크에 공통으로 적용되며, 이것은 또한 부대역들을, 감소된 레이트에서 재샘플링될 수 있는 낮은 중심 주파수로 다운 컨버팅할 수 있다. 동일한 합성 결과는 대역 통과 부대역들을 언더샘플링(undersampling)함으로써 때때로 달성될 수 있다. 필터 뱅크 분석의 출력은 복소수 계수의 형태일 수 있다. 각각의 복소수 계수는 필터 뱅크의 각 부대역에 대한 코사인 항 및 사인 항을 각각 나타내는 실수 요소 및 허수 요소를 갖는다.

필터 뱅크 분석 및 필터 뱅크 합성은 시간 도메인 신호를 주파수 도메인 계수들로 변환하고 주파수 도메인 계수들을 시간 도메인 신호로 다시 역변환하는 변환 쌍의 한 종류이다. (FFT 및 iFFT), (DFT 및 iDFT) 및 (MDCT 및 iMDCT)와 같은 다른 대중적인 변환 쌍들도 스피치/오디오 코딩에 사용될 수 있다.

신호 압축을 위한 필터 뱅크들의 애플리케이션에서, 일부 주파수는 다른 것들보다 지각적으로 더 중요하다. 분해 후, 지각적으로 중요한 주파수들은, 이들 주파수에서의 작은 차이가 이러한 차이들을 보존하는 코딩 방식을 이용하는 것을 보장하기 위해 지각적으로 눈에 띄도록, 미세 분해능으로 코딩될 수 있다. 반면에, 지각적으로 덜 중요한 주파수들은 정확하게 복제되지 않는다. 따라서, 더 세분화된 세부 사항들 중 일부가 코딩에서 손실되더라도 더 거친 코딩 방식(coarser coding scheme)이 사용될 수 있다. 전형적인 더 거친 코딩 방식은 고 대역 확장(High Band Extension)(HBE)으로 또한 알려진 대역폭 확장(Bandwidth Extension)(BWE)의 개념에 기초할 수 있다. 최근에 대중적인 하나의 특정한 BWE 또는 HBE 접근법은 SBR(Sub Band Replica) 또는 SBR(Spectral Band Replication)으로 알려져 있다. 이들 기술은 비트 레이트 예산을 거의 또는 전혀 갖지 않는 일부 주파수 부대역들(보통 고 대역들)을 인코딩 및 디코딩함으로써, 통상적인 인코딩/디코딩 접근법보다 상당히 낮은 비트 레이트를 산출한다는 점에서 유사하다. SBR 기술을 이용하면, 고주파수 대역에서의 스펙트럼 미세 구조는 저주파수 대역으로부터 복사되고 랜덤 노이즈가 추가될 수 있다. 다음에, 고주파수 대역의 스펙트럼 포락선은 인코더로부터 디코더로 전송된 사이드 정보를 이용하여 형상화된다.

오디오 압축 설계를 위한 심리 음향 원리(psychoacoustic principle) 또는 지각 마스킹 효과의 사용이 이해된다. 오디오/스피치 장비 또는 통신은 모든 능력과 지각의 한계를 갖는 인간과의 상호 작용을 위한 것이다. 전통적인 오디오 장비는 원래 신호에 대한 최대한의 충실도로 신호들을 재생하려고 시도한다. 보다 적절하게 지시되고 종종 더 효율적인 목표는 인간이 인지할 수 있는 충실도를 달성하는 것이다. 이것은 지각 코더의 목표이다.

디지털 오디오 지각 코더들의 주요 목적 중 하나는 데이터 축소이지만, 지각 코딩(perceptual coding)은 또한 진보된 비트 할당을 통해 디지털 오디오의 표현을 향상시키는데 사용될 수 있다. 지각 코더들의 예 중 하나는 다중 대역 시스템들일 수 있으며, 이들은 심리 음향의 중요한 대역들을 모방하는 방식으로 스펙트럼을 분할한다. 지각 코더들은 인간의 지각을 모델링하여, 인간이 하는 것처럼 신호들을 처리할 수 있으며 마스킹과 같은 현상을 이용할 수 있다. 이것이 이들의 목표인 동안, 프로세스는 정확한 알고리즘에 의존한다. 공통적인 인간의 청각 행동을 커버하는 매우 정확한 지각 모델을 갖는 것이 어렵다는 사실 때문에, 지각 모델의 임의의 수학적 표현의 정확성은 여전히 제한적이다. 그러나 제한된 정확성으로 인해, 지각 개념은 오디오 코덱들의 설계에 도움이 된다. 다수의 MPEG 오디오 코딩 방식은 지각 마스킹 효과를 탐색하는 데 도움이 된다. 여러 ITU 표준 코덱에서도 지각 개념을 이용한다. 예를 들어, ITU G.729.1은 지각 마스킹 개념에 기초하는 소위 동적 비트 할당을 수행한다. 지각 중요성에 기초하는 동적 비트 할당 개념은 최근의 3GPP EVS 코덱에서도 사용된다.

도 9a 및 9b는 전형적인 주파수 도메인 지각 코덱의 개요를 도시한다. 도 9a는 주파수 도메인 인코더를 도시하는 반면, 도 9b는 주파수 도메인 디코더를 도시한다.

원래 신호(901)는 양자화되지 않은 주파수 도메인 계수들(902)을 얻기 위해 먼저 주파수 도메인으로 변환된다. 계수들을 양자화하기 전에, 마스킹 함수(지각 중요성)는 주파수 스펙트럼을 많은 부대역들(종종 단순성을 위해 동일하게 이격됨)로 분할한다. 각각의 부대역은, 모든 부대역들에 분배된 총 비트 수가 상한을 초과하지 않게 유지하면서 필요한 비트 수를 동적으로 할당한다. 일부 부대역들은 마스킹 임계치 아래에 있다고 판단되면 0비트가 할당될 수 있다. 폐기될 수 있는 것에 관한 결정이 이루어지면, 나머지는 이용 가능한 비트 수로 할당된다. 비트들이 마스킹된 스펙트럼에 낭비되지 않기 때문에, 이들 비트는 신호의 나머지에 더 많은 양이 분배될 수 있다.

할당된 비트들에 따라, 계수들은 양자화되고 비트스트림(703)은 디코더로 송신된다. 지각 마스킹 개념이 코덱 설계 도중에 많은 도움이 되었지만, 다양한 이유와 한계로 인해 여전히 완벽하지는 않다.

도 9b를 참조하면, 디코더 측 후-처리는 제한된 비트 레이트들로 생성된 디코딩된 신호의 지각 품질을 추가로 향상시킬 수 있다. 디코더는 수신된 비트들(904)을 먼저 이용하여 양자화된 계수들(905)을 재구성한다. 그 다음, 그들은 향상된 계수들(907)을 얻기 위해 적절하게 설계된 모듈(906)에 의해 후-처리된다. 최종 시간 도메인 출력(908)을 갖기 위해 역 변환은 향상된 계수들에 대해 수행된다.

도 10은 본 발명의 실시예들에 따른, 오디오 데이터를 포함하는 스피치 신호를 인코딩하기 이전의 인코더에서의 동작의 개요를 도시한다.

도 10을 참조하면, 본 방법은 디지털 신호를 코딩하기 위해 사용될 코딩 비트 레이트, 및 디지털 신호의 피치 래그에 기초하여 주파수 도메인 코딩 또는 시간 도메인 코딩을 선택하는 단계(박스 1000)를 포함한다.

주파수 도메인 코딩 또는 시간 도메인 코딩의 선택은 디지털 신호가, 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함하는지를 결정하는 단계(박스 1010)를 포함한다. 또한, 코딩 비트 레이트가 상위 비트 레이트 한계보다 더 높은지가 결정된다(박스 1020). 디지털 신호가 짧은 피치 신호를 포함하고 코딩 비트 레이트가 상위 비트 레이트 한계보다 더 높으면, 디지털 신호를 코딩하기 위해 주파수 도메인 코딩이 선택된다.

그렇지 않으면, 코딩 비트 레이트가 하위 비트 레이트 한계보다 더 낮은지가 결정된다(박스 1030). 디지털 신호가 짧은 피치 신호를 포함하고 코딩 비트 레이트가 하위 비트 레이트 한계보다 더 낮은 경우, 디지털 신호를 코딩하기 위해 시간 도메인 코딩이 선택된다.

그렇지 않으면, 코딩 비트 레이트가 하위 비트 레이트 한계와 상위 비트 레이트 한계 사이의 중간인지가 결정된다(박스 1040). 유성화 주기성은 그 다음에 결정된다(박스 1050). 디지털 신호가 짧은 피치 신호를 포함하고 코딩 비트 레이트가 중간이고 유성화 주기성이 낮은 경우, 디지털 신호를 코딩하기 위해 주파수 도메인 코딩이 선택된다. 대안적으로, 디지털 신호가 짧은 피치 신호를 포함하고 코딩 비트 레이트가 중간이고 유성화 주기성이 매우 강한 경우, 디지털 신호를 코딩하기 위해 시간 도메인 코딩이 선택된다.

대안적으로, 박스(1010)를 참조하면, 디지털 신호는 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함하지 않는다. 디지털 신호가 무성 스피치 또는 정상 스피치로서 분류되는지가 결정된다(박스 1070). 디지털 신호가 짧은 피치 신호를 포함하지 않고 디지털 신호가 무성 스피치 또는 정상 스피치로서 분류되는 경우, 디지털 신호를 코딩하기 위해 시간 도메인 코딩이 선택된다.

따라서, 다양한 실시예에서, 오디오 데이터를 포함하는 디지털 신호를 인코딩하기 전에 스피치 신호들을 처리하기 위한 방법은 디지털 신호를 코딩하기 위해 사용될 코딩 비트 레이트, 및 디지털 신호의 짧은 피치 래그에 기초하여 주파수 도메인 코딩 또는 시간 도메인 코딩을 선택하는 단계를 포함한다. 디지털 신호는, 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함한다. 다양한 실시예에서, 주파수 도메인 코딩 또는 시간 도메인 코딩을 선택하는 방법은, 코딩 비트 레이트가 상위 비트 레이트 한계보다 더 높을 때 디지털 신호를 코딩하기 위한 주파수 도메인 코딩을 선택하는 단계, 및 코딩 비트 레이트가 하위 비트 레이트 한계보다 더 낮을 때 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하는 단계를 포함한다. 코딩 비트 레이트가 46200 bps 이상일 때, 코딩 비트 레이트는 상위 비트 레이트 한계보다 더 높다. 코딩 비트 레이트가 24.4 kbps 미만일 때, 코딩 비트 레이트는 하위 비트 레이트 한계보다 더 낮다.

유사하게, 다른 실시예에서, 오디오 데이터를 포함하는 디지털 신호를 인코딩하기 전에 스피치 신호를 처리하기 위한 방법은, 코딩 비트 레이트가 상위 비트 레이트 한계보다 더 높을 때 디지털 신호를 코딩하기 위한 주파수 도메인 코딩을 선택하는 단계를 포함한다. 대안적으로, 본 방법은, 코딩 비트 레이트가 하위 비트 레이트 한계보다 더 낮을 때 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택한다. 디지털 신호는, 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함한다. 코딩 비트 레이트가 46200 bps 이상일 때, 코딩 비트 레이트는 상위 비트 레이트 한계보다 더 높다. 코딩 비트 레이트가 24.4 kbps 미만일 때, 코딩 비트 레이트는 하위 비트 레이트 한계보다 더 낮다.

유사하게, 다른 실시예에서, 인코딩 전에 스피치 신호들을 처리하기 위한 방법은, 디지털 신호가 짧은 피치 신호를 포함하지 않고 디지털 신호가 무성 스피치 또는 정상 스피치로서 분류될 때 오디오 데이터를 포함하는 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하는 단계를 포함한다. 상기 방법은, 코딩 비트 레이트가 하위 비트 레이트 한계와 상위 비트 레이트 한계 사이의 중간일 때 디지털 신호를 코딩하기 위한 주파수 도메인 코딩을 선택하는 단계를 더 포함한다. 디지털 신호는 짧은 피치 신호를 포함하고, 유성화 주기성은 낮다. 상기 방법은, 코딩 비트 레이트가 중간이고 디지털 신호가 짧은 피치 신호를 포함하고 유성화 주기성이 매우 강할 때 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하는 단계를 더 포함한다. 하위 비트 레이트 한계는 24.4 kbps이고, 상위 비트 레이트 한계는 46.2 kbps이다.

도 11은 본 발명의 일 실시예에 따른 통신 시스템(10)을 도시한다.

통신 시스템(10)은 통신 링크들(38 및 40)을 통해 네트워크(36)에 결합된 오디오 액세스 디바이스들(7 및 8)을 갖는다. 일 실시예에서, 오디오 액세스 디바이스들(7 및 8)은 VOIP(voice over internet protocol) 디바이스들이고, 네트워크(36)는 광역 네트워크(WAN), 공중 교환 전화 네트워크(public switched telephone network)(PSTN) 및/또는 인터넷이다. 다른 실시예에서, 통신 링크들(38 및 40)은 유선 및/또는 무선 광대역 접속들이다. 대안적인 실시예에서, 오디오 액세스 디바이스들(7 및 8)은 셀룰러 또는 모바일 전화들이고, 링크들(38 및 40)은 무선 모바일 전화 채널들이고, 네트워크(36)는 모바일 전화 네트워크를 나타낸다.

오디오 액세스 디바이스(7)는 음악 또는 사람의 음성과 같은 사운드를 아날로그 오디오 입력 신호(28)로 변환하기 위해 마이크로폰(12)을 이용한다. 마이크로폰 인터페이스(16)는 아날로그 오디오 입력 신호(28)를 코덱(20)의 인코더(22)로의 입력을 위한 디지털 오디오 신호(33)로 변환한다. 인코더(22)는 본 발명의 실시예들에 따라 네트워크 인터페이스(26)를 통해 네트워크(26)에 전송하기 위한 인코딩된 오디오 신호(TX)를 생성한다. 코덱(20) 내의 디코더(24)는 네트워크 인터페이스(26)를 통해 네트워크(36)로부터 인코딩된 오디오 신호(RX)를 수신하고, 인코딩된 오디오 신호(RX)를 디지털 오디오 신호(34)로 변환한다. 스피커 인터페이스(18)는 디지털 오디오 신호(34)를 라우드스피커(14)를 구동하기에 적합한 오디오 신호(30)로 변환한다.

본 발명의 실시예들에서, 오디오 액세스 디바이스(7)가 VOIP 디바이스인 경우, 오디오 액세스 디바이스(7) 내의 컴포넌트들의 일부 또는 전부가 핸드셋 내에 구현된다. 그러나 일부 실시예에서, 마이크로폰(12)과 라우드스피커(14)는 개별 유닛들이고, 마이크로폰 인터페이스(16), 스피커 인터페이스(18), 코덱(20), 및 네트워크 인터페이스(26)는 퍼스널 컴퓨터 내에 구현된다. 코덱(20)은 컴퓨터 또는 전용 프로세서 상에서 실행되는 소프트웨어로 구현될 수 있거나, 또는 예를 들어, 주문형 집적 회로(ASIC) 상에서 전용 하드웨어에 의해 구현될 수 있다. 마이크로폰 인터페이스(16)는 아날로그-대-디지털(A/D) 변환기뿐만 아니라, 핸드셋 내에 그리고/또는 컴퓨터 내에 위치한 다른 인터페이스 회로에 의해 구현된다. 마찬가지로, 스피커 인터페이스(18)는 디지털-대-아날로그 변환기뿐만 아니라, 핸드셋 내에 그리고/또는 컴퓨터 내에 위치한 다른 인터페이스 회로에 의해 구현된다. 추가 실시예들에서, 오디오 액세스 디바이스(7)는 본 기술 분야에 알려져 있는 다른 방식들로 구현될 수 있고 파티션될 수 있다.

본 발명의 실시예들에서, 오디오 액세스 디바이스(7)가 셀룰러 또는 모바일 전화인 경우, 오디오 액세스 디바이스(7) 내의 요소들은 셀룰러 핸드셋 내에 구현된다. 코덱(20)은 핸드셋 내의 프로세서 상에서 실행되는 소프트웨어에 의해 또는 전용 하드웨어에 의해 구현된다. 본 발명의 추가 실시예들에서, 오디오 액세스 디바이스는 인터컴들 및 무선 핸드셋들과 같은, 피어-투-피어 유선 및 무선 디지털 통신 시스템들 등의 다른 디바이스들 내에 구현될 수 있다. 소비자 오디오 디바이스들과 같은 애플리케이션들에서, 오디오 액세스 디바이스는, 예를 들어 디지털 마이크로폰 시스템 또는 음악 재생 디바이스에서 인코더(22) 또는 디코더(24)만을 가진 코덱을 포함할 수 있다. 본 발명의 다른 실시예들에서, 코덱(20)은, 예를 들어 PTSN에 액세스하는 셀룰러 기지국들에서 마이크로폰(12) 및 스피커(14) 없이 이용될 수 있다.

본 발명의 다양한 실시예에 설명되었던, 무성/유성 분류를 향상시키기 위한 스피치 처리는, 예를 들어 인코더(22) 또는 디코더(24) 내에 구현될 수 있다. 무성/유성 분류를 향상시키기 위한 스피치 처리는 다양한 실시예에서 하드웨어 또는 소프트웨어로 구현될 수 있다. 예를 들어, 인코더(22) 또는 디코더(24)는 디지털 신호 처리(DSP) 칩의 일부일 수 있다.

도 12는 본 명세서에 개시된 디바이스들과 방법들을 구현하기 위해 이용될 수 있는 처리 시스템의 블록도를 도시한다. 특정 디바이스들은 도시된 컴포넌트들 모두, 또는 그 컴포넌트들의 서브세트만을 활용할 수 있고, 통합의 레벨들은 디바이스마다 다를 수 있다. 또한, 디바이스는, 예를 들어 다수의 처리 유닛, 프로세서, 메모리, 전송기, 수신기 등과 같은 컴포넌트의 다수의 인스턴스를 포함할 수 있다. 처리 시스템은, 예를 들어 스피커, 마이크로폰, 마우스, 터치스크린, 키패드, 키보드, 프린터, 및 디스플레이 등과 같은 하나 이상의 입/출력 디바이스를 구비한 처리 유닛을 포함할 수 있다. 처리 유닛은 버스에 접속되는 중앙 처리 유닛(CPU), 메모리, 대용량 저장 디바이스, 비디오 어댑터, 및 I/O 인터페이스를 포함할 수 있다.

버스는 메모리 버스 또는 메모리 제어기, 주변장치 버스, 또는 비디오 버스 등을 포함하는 임의의 타입의 여러 버스 아키텍처들 중 하나 이상일 수 있다. CPU는 임의의 타입의 전자 데이터 프로세서를 포함할 수 있다. 메모리는 정적 랜덤 액세스 메모리(SRAM), 동적 랜덤 액세스 메모리(DRAM), 동기식 DRAM(SDRAM), 판독-전용 메모리(ROM), 또는 이들의 조합 등과 같은 임의의 타입의 시스템 메모리를 포함할 수 있다. 일 실시예에서, 메모리는 기동시에 사용하기 위한 ROM, 및 프로그램들을 실행하는 동안 사용하기 위한 프로그램 및 데이터 저장을 위한 DRAM을 포함할 수 있다.

대용량 저장 디바이스는 데이터, 프로그램들, 및 다른 정보를 저장하고, 데이터, 프로그램들, 및 다른 정보를 버스를 통해 액세스 가능하게 만들도록 구성되는 임의의 타입의 저장 디바이스를 포함할 수 있다. 대용량 저장 디바이스는, 예를 들어 고체 상태 드라이브, 하드 디스크 드라이브, 자기 디스크 드라이브, 또는 광학 디스크 드라이브 등 중 하나 이상을 포함할 수 있다.

비디오 어댑터 및 I/O 인터페이스는 외부 입력 및 출력 디바이스들을 처리 유닛에 결합하기 위한 인터페이스들을 제공한다. 예시된 바와 같이, 입력 및 출력 디바이스들의 예들은 비디오 어댑터에 결합된 디스플레이, 및 I/O 인터페이스에 결합된 마우스/키보드/프린터를 포함한다. 다른 디바이스들이 처리 유닛에 결합될 수 있고, 추가적인 또는 더 적은 수의 인터페이스 카드들이 활용될 수 있다. 예를 들어, 프린터에 대한 인터페이스를 제공하기 위해 유니버셜 시리얼 버스(Universal Serial Bus)(USB)(도시 생략)와 같은 직렬 인터페이스가 사용될 수 있다.

처리 유닛은 또한 하나 이상의 네트워크 인터페이스를 포함하는데, 네트워크 인터페이스들은, 예를 들어 노드들 또는 상이한 네트워크들에 액세스하기 위한 무선 링크들, 및/또는 이더넷(Ethernet) 케이블 등과 같은 유선 링크들을 포함할 수 있다. 네트워크 인터페이스는 처리 유닛이 네트워크들을 통해 원격 유닛들과 통신하도록 허용한다. 예를 들어, 네트워크 인터페이스는 하나 이상의 전송기/전송 안테나 및 하나 이상의 수신기/수신 안테나를 통해 무선 통신을 제공할 수 있다. 일 실시예에서, 처리 유닛은, 예를 들어 다른 처리 유닛들, 인터넷, 또는 원격 저장 설비들 등과 같은 원격 디바이스들과의 통신 및 데이터 처리를 위해 근거리 네트워크 또는 광역 네트워크에 결합된다.

본 발명이 예시적인 실시예들을 참조하여 설명되었지만, 이 설명은 제한적인 의미로 해석되도록 의도되지는 않는다. 예시적인 실시예들의 다양한 수정들과 조합들뿐만 아니라, 본 발명의 다른 실시예들은 상기 설명의 참조 시에 통상의 기술자에게 명백해질 것이다. 예를 들어, 전술한 다양한 실시예들은 서로 결합될 수 있다.

도 13을 참조하면, 디지털 신호를 인코딩하기 전에 스피치 신호를 처리하기 위한 장치(130)의 일 실시예가 설명된다. 상기 장치는,

디지털 신호를 코딩하기 위해 사용될 코딩 비트 레이트, 및 디지털 신호의 짧은 피치 래그 검출에 기초하여 주파수 도메인 코딩 또는 시간 도메인 코딩을 선택하도록 구성된 코딩 선택기(131)를 포함한다.

디지털 신호가, 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함할 때, 상기 코딩 선택기는

코딩 비트 레이트가 상위 비트 레이트 한계보다 더 클 때 디지털 신호를 코딩하기 위한 주파수 도메인 코딩을 선택하고,

코딩 비트 레이트가 하위 비트 레이트 한계보다 더 낮을 때 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하도록

구성된다.

디지털 신호가, 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함할 때, 상기 코딩 선택기는, 코딩 비트 레이트가 하위 비트 레이트 한계와 상위 비트 레이트 한계 사이의 중간일 때 디지털 신호를 코딩하기 위한 주파수 도메인 코딩을 선택하도록 구성되고, 유성화 주기성은 낮다.

디지털 신호가, 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함하지 않을 때, 상기 코딩 선택기는, 디지털 신호가 무성 스피치 또는 정상 스피치로서 분류될 때 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하도록 구성된다.

디지털 신호가, 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함할 때, 상기 코딩 선택기는, 코딩 비트 레이트가 하위 비트 레이트 한계와 상위 비트 레이트 한계 사이의 중간이고 유성화 주기성이 매우 강할 때, 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하도록 구성된다.

상기 장치는 코딩 유닛(132)을 더 포함하고, 코딩 유닛은 선택기(131)에 의해 선택된 주파수 도메인 코딩 또는 선택기(131)에 의해 선택된 시간 도메인 코딩을 이용하여 디지털 신호를 코딩하도록 구성된다.

코딩 선택기 및 코딩 유닛은 CPU, 또는 FPGA, ASIC와 같은 일부 하드웨어 회로에 의해 구현될 수 있다.

도 14를 참조하면, 디지털 신호를 인코딩하기 전에 스피치 신호들을 처리하기 위한 장치(140)의 일 실시예가 설명된다. 상기 장치는 코딩 선택 유닛(141)을 포함하고, 상기 코딩 선택 유닛은,

디지털 신호가 짧은 피치 신호를 포함하지 않고 디지털 신호가 무성 스피치 또는 정상 스피치로서 분류될 때, 오디오 데이터를 포함하는 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하고;

코딩 비트 레이트가 하위 비트 레이트 한계와 상위 비트 레이트 한계 사이의 중간이고 디지털 신호가 짧은 피치 신호를 포함하고 유성화 주기성이 낮을 때, 디지털 신호를 코딩하기 위한 주파수 도메인 코딩을 선택하고,

코딩 비트 레이트가 중간이고 디지털 신호가 짧은 피치 신호를 포함하고 유성화 주기성이 매우 강할 때, 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하도록

구성된다.

상기 장치는 제2 코딩 유닛(142)을 더 포함하고, 상기 제2 코딩 유닛은 코딩 선택 유닛(141)에 의해 선택된 주파수 도메인 코딩 또는 코딩 선택 유닛(141)에 의해 선택된 시간 도메인 코딩을 이용하여 디지털 신호를 코딩하도록 구성된다.

코딩 선택 유닛 및 코딩 유닛은 CPU, 또는 FPGA, ASIC와 같은 일부 하드웨어 회로에 의해 구현될 수 있다.

본 발명 및 그것의 이점들이 상세하게 설명되었지만, 첨부된 청구항들에 정의되는 본 발명의 사상 및 범위를 벗어나지 않고서 다양한 변형, 대체, 및 변경이 이루어질 수 있음을 이해해야 한다. 예를 들어, 전술한 많은 특징과 기능은 소프트웨어, 하드웨어, 또는 펌웨어, 또는 그들의 조합으로 구현될 수 있다. 더욱이, 본 출원의 범위는 본 명세서에 설명되는 프로세스, 머신, 제조물, 물질의 조성(composition of matter), 수단, 방법들, 및 단계들의 특정 실시예들로 한정되도록 의도되지 않는다. 통상의 기술자는 본 발명의 개시내용으로부터 본 명세서에 설명되는 해당 실시예들과 실질적으로 동일한 기능을 수행하거나 실질적으로 동일한 결과를 달성하는, 현재 존재하거나 추후에 개발될 프로세스들, 머신들, 제조물, 물질의 조성들, 수단, 방법들, 또는 단계들이 본 발명에 따라 활용될 수 있음을 쉽게 이해할 것이다. 따라서, 첨부된 청구항들은 그들의 범위 내에 이러한 프로세스들, 머신들, 제조물들, 물질의 조성들, 수단, 방법들, 또는 단계들을 포함하는 것으로 의도된다.

Claims

오디오 데이터를 포함하는 디지털 신호를 인코딩하기 전에 상기 디지털 신호를 처리하기 위한 방법으로서,
상기 디지털 신호를 코딩하기 위해 사용될 코딩 비트 레이트가 하위 비트 레이트 한계보다 더 낮은 것, 및
상기 디지털 신호가, 피치 래그가 피치 래그 한계(pitch lag limit)보다 더 짧은, 짧은 피치 신호를 포함한다는 것을 검출하는 것
에 기초하여 상기 디지털 신호를 인코딩하기 위한 시간 도메인 코딩을 선택하는 단계
를 포함하고, 상기 피치 래그 한계는 상기 디지털 신호를 코딩하기 위한 코드 여기 선형 예측(Code Excited Linear Prediction)(CELP) 알고리즘에 대한 최소 허용 가능한 피치인, 방법.
제1항에 있어서, 상기 최소 허용 가능한 피치는 샘플링 레이트가 12.8 kHz일 때 34인, 방법.
제1항에 있어서, 상기 하위 비트 레이트 한계는 24.4 kbps인, 방법.
제1항에 있어서,
상기 디지털 신호를 코딩하기 위해 사용될 상기 코딩 비트 레이트가 상위 비트 레이트 한계 이상인 것, 및
상기 디지털 신호가, 상기 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함한다는 것을 검출하는 것
에 기초하여 상기 디지털 신호를 인코딩하기 위한 주파수 도메인 코딩을 선택하는 단계
를 더 포함하는 방법.
제4항에 있어서, 상기 상위 비트 레이트 한계는 46200 bps인, 방법.
제1항에 있어서,
상기 디지털 신호가, 상기 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함한다는 것을 검출하는 것,
상기 코딩 비트 레이트가 하위 비트 레이트 한계와 상위 비트 레이트 한계 사이의 중간인 것, 및
유성화 주기성이 낮은 것
에 기초하여 상기 디지털 신호를 인코딩하기 위한 주파수 도메인 코딩을 선택하는 단계
를 더 포함하는 방법.
제1항에 있어서,
상기 디지털 신호가, 상기 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함하지 않는다는 것을 검출하는 것, 및
상기 디지털 신호가 무성 스피치 또는 정상 스피치로서 분류되는 것
에 기초하여 상기 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하는 단계
를 더 포함하는 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 디지털 신호가 짧은 피치 신호를 포함한다는 것을 검출하는 것은 매우 낮은 주파수 에너지의 부족을 검출하기 위한 파라미터 또는 스펙트럼 선명도에 대한 파라미터에 기초하여 상기 디지털 신호가 상기 짧은 피치 신호를 포함한다는 것을 검출하는 것을 포함하는, 방법.
오디오 데이터를 포함하는 디지털 신호를 인코딩하기 전에 상기 디지털 신호를 처리하기 위한 장치로서,
상기 디지털 신호를 코딩하기 위해 사용될 코딩 비트 레이트가 하위 비트 레이트 한계보다 더 낮은 것, 및
상기 디지털 신호가, 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함한다는 것을 검출하는 것
에 기초하여 상기 디지털 신호를 인코딩하기 위한 시간 도메인 코딩을 선택하도록 구성된 코딩 선택기
를 포함하고, 상기 피치 래그 한계는 상기 디지털 신호를 코딩하기 위한 코드 여기 선형 예측(CELP) 알고리즘에 대한 최소 허용 가능한 피치인, 장치.
제9항에 있어서, 상기 최소 허용 가능한 피치는 샘플링 레이트가 12.8 kHz일 때 34인, 장치.
제9항에 있어서, 상기 하위 비트 레이트 한계는 24.4 kbps인, 장치.
제9항에 있어서,
상기 코딩 선택기는,
상기 디지털 신호를 코딩하기 위해 사용될 상기 코딩 비트 레이트가 상위 비트 레이트 한계 이상인 것, 및
상기 디지털 신호가, 상기 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함한다는 것을 검출하는 것
에 기초하여 상기 디지털 신호를 인코딩하기 위한 주파수 도메인 코딩을 선택하도록 더 구성되는, 장치.
제12항에 있어서, 상기 상위 비트 레이트 한계는 46200 bps인, 장치.
제9항에 있어서,
상기 코딩 선택기는,
상기 디지털 신호가, 상기 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함한다는 것을 검출하는 것,
상기 코딩 비트 레이트가 하위 비트 레이트 한계와 상위 비트 레이트 한계 사이의 중간인 것, 및
유성화 주기성이 낮은 것
에 기초하여 상기 디지털 신호를 인코딩하기 위한 주파수 도메인 코딩을 선택하도록 더 구성되는, 장치.
제9항에 있어서,
상기 코딩 선택기는,
상기 디지털 신호가, 상기 피치 래그가 피치 래그 한계보다 더 짧은, 짧은 피치 신호를 포함하지 않는다는 것을 검출하는 것, 및
상기 디지털 신호가 무성 스피치 또는 정상 스피치로서 분류되는 것
에 기초하여 상기 디지털 신호를 코딩하기 위한 시간 도메인 코딩을 선택하도록 더 구성되는, 장치.
제9항 내지 제15항 중 어느 한 항에 있어서, 상기 디지털 신호가 짧은 피치 신호를 포함한다는 것을 검출하는 것은 매우 낮은 주파수 에너지의 부족을 검출하기 위한 파라미터 또는 스펙트럼 선명도에 대한 파라미터에 기초하여 상기 디지털 신호가 상기 짧은 피치 신호를 포함한다는 것을 검출하는 것을 포함하는, 장치.