KR20120121928A

KR20120121928A - 오디오 코덱 포스트 필터

Info

Publication number: KR20120121928A
Application number: KR1020127026715A
Authority: KR
Inventors: 샤오킨 선; 티안 왕; 호삼 에이. 카릴; 가즈히또 코이시다; 웨이-게 첸
Original assignee: 마이크로소프트 코포레이션
Priority date: 2005-05-31
Filing date: 2006-04-05
Publication date: 2012-11-06
Also published as: KR101344174B1; CN101501763B; US7707034B2; EP1899962A4; IL187167A0; ES2644730T3; JP5688852B2; JP2012163981A; CA2609539A1; AU2006252962B2; EG26313A; CA2609539C; AU2006252962A1; KR20080011216A; WO2006130226A2; EP1899962A2; KR101246991B1; ZA200710201B; EP1899962B1; WO2006130226A3

Abstract

재구성된 오디오 신호를 처리하기 위한 기술 및 도구가 설명된다. 예를 들어, 재구성된 오디오 신호는 적어도 부분적으로 주파수 도메인에서 계산된 필터 계수들을 이용하여 시간 도메인에서 필터링된다. 다른 예로서, 재구성된 오디오 신호를 필터링하기 위한 한 세트의 필터 계수들을 생성하는 단계는 한 세트의 계수 값들의 하나 이상의 피크를 클립핑하는 단계를 포함한다. 또 다른 예로서, 부대역 코덱에 대해, 2개의 부대역 간의 교점 근처의 주파수 영역에서, 재구성된 합성 신호가 보강된다.

Description

오디오 코덱 포스트 필터{AUDIO CODEC POST-FILTER}

설명되는 도구 및 기술은 오디오 코덱에 관한 것으로서, 구체적으로는 디코딩된 음성의 후처리에 관한 것이다.

디지털 무선 전화 네트워크, 인터넷을 통한 오디오 스트리밍 및 인터넷 전화의 출현과 함께, 음성의 디지털 처리 및 전송이 일반화되어 왔다. 엔지니어들은 다양한 기술을 이용하여 음성을 효율적으로 처리하면서 여전히 품질을 유지한다. 이러한 기술을 이해하기 위해서는, 오디오 정보가 컴퓨터에서 어떻게 표현되고 처리되는지를 이해하는 것이 도움이 된다.

I. 컴퓨터에서의 오디오 정보의 표현

컴퓨터는 오디오 정보를 오디오를 표현하는 일련의 수치로서 처리한다. 하나의 수치는 특정 시간에서의 진폭 값인 오디오 샘플을 표현할 수 있다. 샘플 심도 및 샘플링 레이트를 포함하는 여러 팩터가 오디오의 품질에 영향을 미친다.

샘플 심도(또는 정확도)는 샘플을 표현하는 데 사용되는 수치들의 범위를 나타낸다. 일반적으로 각 샘플에 대해 보다 많은 가능한 값들은 보다 높은 품질 출력을 제공하는데, 이는 보다 미세한 진폭 변화가 표현될 수 있기 때문이다. 8비트 샘플은 256개의 가능한 값을 갖는 반면, 16비트 샘플은 65,536개의 가능한 값을 갖는다.

샘플링 레이트(일반적으로 초당 샘플 수로서 측정됨)도 품질에 영향을 미친다. 샘플링 레이트가 높을수록 품질도 높아지는데, 이는 보다 많은 음성 주파수가 표현될 수 있기 때문이다. 일반적인 몇몇 샘플링 레이트는 8,000, 11,025, 22,050, 32,000, 44,100, 48,000 및 96,000 샘플/초(Hz)이다. 표 1은 상이한 품질 레벨을 갖는 여러 오디오 포맷을, 대응하는 원시(raw) 비트 레이트 비용과 함께 나타내고 있다.

상이한 품질 오디오의 비트 레이트

샘플 심도 (비트/샘플)	샘플링 레이트 (샘플/초)	채널 모드	원시 비트 레이트(비트/초)
8	8,000	모노	64,000
8	11,025	모노	88,200
16	44,100	스테레오	1,411,200

표 1이 보이는 바와 같이, 고품질 오디오의 비용은 높은 비트 레이트이다. 고품질 오디오 정보는 많은 양의 컴퓨터 저장 장치 및 전송 용량을 소비한다. 많은 컴퓨터 및 컴퓨터 네트워크는 원시 디지털 오디오를 처리할 자원이 부족하다. 압축(인코딩 또는 코딩이라고도 함)은 정보를 보다 낮은 비트 레이트 형태로 변환함으로써 오디오 정보를 저장하고 전송하는 비용을 감소시킨다. 압축은 손실이 없거나(품질이 저하되지 않는다) 손실이 많을(품질이 저하되지만, 후속 무손실 압축으로부터의 비트 레이트 감소는 더욱 극적이다) 수 있다. 압축 풀기(디코딩이라고 함)는 압축된 형태로부터 최초 정보의 재구성 버전을 추출한다. 코덱은 인코더/디코더 시스템이다.

II. 음성 인코더 및 디코더

오디오 압축의 하나의 목표는 오디오 신호를 디지털 방식으로 표현하여 주어진 양의 비트들에 대해 최대 신호 품질을 제공하는 것이다. 달리 말하면, 이 목표는 주어진 레벨의 품질에 대해 최소 비트로 오디오 신호를 표현하는 것이다. 전송 에러에 대한 복원력 및 인코딩/전송/디코딩에 기인한 전체 지연의 제한과 같은 다른 목표는 몇몇 시나리오에서 적용된다.

상이한 종류의 오디오 신호들은 상이한 특성을 갖는다. 음악은 큰 범위의 주파수 및 진폭에 의해 특성화되며, 종종 둘 이상의 채널을 포함한다. 반면, 음성은 보다 작은 범위의 주파수 및 진폭에 의해 특성화되며, 일반적으로 단일 채널로 표현된다. 소정의 코덱 및 처리 기술이 음악 및 일반 오디오에 적합하며, 다른 코덱 및 처리 기술은 음성에 적합하다.

한 가지 유형의 종래의 음성 코덱은 선형 예측을 이용하여 압축을 달성한다. 음성 인코딩은 여러 스테이지를 포함한다. 인코더는 샘플 값들을 이전 샘플 값들의 선형 조합으로서 예측하는 데 사용되는 선형 예측 필터의 계수들을 발견하고 양자화한다. 잔여 신호("여기" 신호로서 표현됨)는 필터링에 의해 정확하게 예측되지 않는 최초 신호의 부분들을 지시한다. 몇몇 스테이지에서, 음성 코덱은 유성음 세그먼트(음성 화음 진동에 의해 특성화됨), 무성음 세그먼트, 및 묵음 세그먼트에 대해 상이한 압축 기술을 이용하는데, 이는 상이한 종류의 음성들이 상이한 특성을 갖기 때문이다. 유성음 세그먼트는 일반적으로 잔여 영역에서도 고도로 반복하는 음성 패턴을 나타낸다. 유성음 세그먼트에 대해, 인코더는 현재 잔여 신호를 이전 잔여 사이클과 비교하고 현재 잔여 신호를 이전 사이클에 대한 지연 또는 지체 정보에 관하여 인코딩함으로써 보다 큰 압축을 달성한다. 인코더는 최초 신호와 예측된 인코딩된 표현(선형 예측 및 지연 정보로부터) 사이의 다른 불일치들을 특수하게 설계된 코드북을 이용하여 처리한다.

전술한 몇몇 음성 코덱은 많은 애플리케이션에 대해 양호한 전체 성능을 갖지만, 이들은 여러 단점을 갖는다. 예를 들어, 손실이 많은 코덱들은 일반적으로 음성 신호에서 중복을 줄임으로써 비트 레이트를 줄이는데, 이는 디코딩된 음성 내에 잡음 또는 다른 바람직하지 못한 가공물을 발생시킨다. 따라서, 소정의 코덱들은 디코딩된 음성을 필터링하여 품질을 향상시킨다. 이러한 포스트 필터들은 일반적으로 두 가지 유형, 즉 시간 도메인 포스트 필터 및 주파수 도메인 포스트 필터로 나와 있다.

컴퓨터 시스템에서 음성 신호의 표현에 압축 및 압축 풀기의 중요성을 가정하면, 재구성된 음성의 포스트 필터링의 연구에 관심을 갖는 것은 놀라운 일이 아니다. 재구성된 음성 또는 다른 오디오의 처리를 위한 종래 기술들의 이점이 무엇이든, 이들은 본 명세서에서 설명되는 기술 및 도구의 이점을 갖지 못한다.

요컨대, 상세한 설명은 오디오 코덱을 위한 다양한 기술 및 도구에 관한 것이며, 구체적으로는 디코딩된 음성의 필터링에 관한 것이다. 설명되는 실시예들은 다음을 포함하지만 그에 한정되지 않는 설명되는 기술 및 도구 중 하나 이상을 구현한다.

일 양태에서, 재구성된 오디오 신호에 적용하기 위한 한 세트의 필터 계수들이 계산된다. 계산은 하나 이상의 주파수 도메인 계산을 수행하는 단계를 포함한다. 한 세트의 필터 계수들을 이용하여 시간 도메인에서 재구성된 오디오 신호의 적어도 일부를 필터링함으로써 필터링된 오디오 신호가 생성된다.

다른 양태에서, 재구성된 오디오 신호에 적용하기 위한 한 세트의 필터 계수들이 생성된다. 계수들의 생성은 하나 이상의 피크 및 하나 이상의 밸리를 표현하는 한 세트의 계수 값들을 처리하는 단계를 포함한다. 한 세트의 계수 값들을 처리하는 단계는 상기 피크들 또는 밸리들 중 하나 이상을 클립핑하는 단계를 포함한다. 필터 계수들을 이용하여 재구성된 오디오 신호의 적어도 일부가 필터링된다.

또 다른 양태에서, 복수의 재구성된 주파수 부대역 신호로부터 합성된 재구성된 합성 신호가 수신된다. 부대역 신호들은 제1 주파수 대역의 재구성된 제1 주파수 부대역 신호 및 제2 주파수 대역의 재구성된 제2 주파수 부대역 신호를 포함한다. 제1 주파수 대역과 제2 주파수 대역 간의 교점 주위의 주파수 영역에서, 재구성된 합성 신호가 선택적으로 보강된다.

다양한 기술 및 도구가 조합하여 또는 개별적으로 이용될 수 있다.

추가적인 특징 및 이점은 첨부 도면을 참조하여 진행하는 아래의 여러 실시예의 상세한 설명으로부터 명백해질 것이다.

도 1은 설명되는 실시예들 중 하나 이상이 구현될 수 있는 적절한 컴퓨팅 환경의 블록도.
도 2는 설명되는 실시예들 중 하나 이상이 관련하여 구현될 수 있는 네트워크 환경의 블록도.
도 3은 부대역 인코딩에 사용될 수 있는 하나의 가능한 주파수 부대역 구조를 나타내는 그래프.
도 4는 설명되는 실시예들 중 하나 이상이 관련하여 구현될 수 있는 실시간 음성 대역 인코더의 블록도.
도 5는 일 구현에서 코드북 파라미터들의 결정을 나타내는 흐름도.
도 6은 설명되는 실시예들 중 하나 이상이 관련하여 구현될 수 있는 실시간 음성 대역 디코더의 블록도.
도 7은 소정의 구현들에서 이용될 수 있는 포스트 필터 계수들을 결정하기 위한 기술을 나타내는 흐름도.

설명되는 실시예들은 인코딩 및/또는 디코딩에 있어서 오디오 정보를 처리하기 위한 기술 및 도구에 관한 것이다. 이러한 기술을 이용하여, 실시간 음성 코덱과 같은 음성 코덱으로부터 도출되는 음성의 품질이 향상된다. 이러한 향상은 다양한 기술 및 도구를 개별적으로 또는 조합하여 이용함으로써 달성될 수 있다.

이러한 기술 및 도구는 주파수 도메인에서 설계 또는 처리되는 계수들을 이용하여 시간 도메인에서 디코딩된 오디오 신호에 적용되는 포스트 필터를 포함할 수 있다. 기술들은 또한 이러한 필터에서 또는 소정의 다른 유형의 포스트 필터에서 사용하기 위한 필터 계수 값들을 클립핑 또는 캡핑하는 단계를 포함할 수 있다.

기술들은 또한 주파수 대역들로의 분할로 인해 에너지가 감쇠되었을 수 있는 주파수 영역들에서 디코딩된 오디오 신호의 크기를 보강하는 포스트 필터를 포함할 수 있다. 일례로, 필터는 인접 대역들의 교점 근처의 주파수 영역들에서 신호를 보강할 수 있다.

다양한 기술의 동작들이 프리젠테이션을 위해 구체적인 순서로 설명되지만, 이러한 설명 방식은 특정 순서가 요구되지 않는 한은 동작들의 순서의 사소한 재배열을 포함하는 것으로 이해되어야 한다. 예를 들어, 순차적으로 설명되는 동작들은 소정의 경우에 재배열되거나 동시에 수행될 수도 있다. 더욱이, 간명화를 위해, 흐름도들은 특정 기술들이 다른 기술들과 함께 이용될 수 있는 다양한 방법을 도시하지 않을 수도 있다.

특정 컴퓨팅 환경 특징 및 오디오 코덱 특징이 아래에 설명되지만, 도구들 및 기술들 중 하나 이상은 다양한 상이한 유형의 컴퓨팅 환경 및/또는 다양한 상이한 유형의 코덱과 함께 이용될 수 있다. 예를 들어, 포스트 필터 기술들 중 중 하나 이상은 적응성 차동 펄스 코드 변조 코덱, 변환 코덱 및/또는 다른 유형의 코덱들과 같이 CELP 코딩 모델을 이용하지 않는 코덱들과 함께 이용될 수 있다. 다른 예로서, 포스트 필터 기술들 중 하나 이상은 단일 대역 코덱들 또는 부대역 코덱들과 함께 이용될 수 있다. 또 다른 예로서, 포스트 필터 기술들 중 하나 이상은 다중 대역 코덱의 단일 대역 및/또는 다중 대역 코덱의 다수 대역의 기여를 포함하는 합성되거나 인코딩되지 않은 신호에 적용될 수 있다.

I. 컴퓨팅 환경

도 1은 설명되는 실시예들 중 하나 이상이 구현될 수 있는 적합한 컴퓨팅 환경(100)의 일반적인 예를 나타낸다. 본 발명은 다양한 범용 또는 특수 목적 컴퓨팅 환경에서 구현될 수 있으므로, 컴퓨팅 환경(100)은 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다.

도 1을 참조하면, 컴퓨팅 환경(100)은 적어도 하나의 처리 유닛(110) 및 메모리(120)를 포함한다. 도 1에서, 이 가장 기본적인 구성(130)은 점선 내에 포함되어 있다. 처리 유닛(110)은 컴퓨터 실행 가능 명령어들을 실행하며 실제 또는 가상 프로세서일 수 있다. 다중 처리 시스템에서는, 다수의 처리 유닛이 컴퓨터 실행 가능 명령어들을 실행하여 처리 능력을 향상시킨다. 메모리(120)는 휘발성(예를 들어, 레지스터, 캐시, RAM), 불휘발성 메모리(예를 들어, ROM, EEPROM, 플래시 메모리 등), 또는 이들 양자의 소정 조합일 수 있다. 메모리(120)는 본 명세서에서 설명되는 음성 디코더에 대한 포스트 필터링 기술들 중 하나 이상을 구현하는 소프트웨어(180)를 저장한다.

컴퓨팅 환경(100)은 추가 특징을 가질 수 있다. 도 1에서, 컴퓨팅 환경(100)은 저장 장치(140), 하나 이상의 입력 장치(150), 하나 이상의 출력 장치(160), 및 하나 이상의 통신 접속(170)을 포함한다. 버스, 제어기, 또는 네트워크와 같은 상호접속 메커니즘(도시되지 않음)이 컴퓨팅 환경(100)의 컴포넌트들을 상호접속한다. 일반적으로, 운영 체제 소프트웨어(도시되지 않음)는 컴퓨팅 환경(100)에서 실행되는 다른 소프트웨어에 대한 운영 환경을 제공하며, 컴퓨팅 환경(100)의 컴포넌트들의 활동을 조정한다.

저장 장치(140)는 이동식 또는 비이동식일 수 있으며, 자기 디스크, 자기 테이프 또는 카세트, CD-ROM, CD-RW, DVD, 또는 정보를 저장하는 사용될 수 있고 컴퓨팅 환경(100) 내에서 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 저장 장치(140)는 소프트웨어(180)에 대한 명령어들을 저장한다.

입력 장치(150)는 키보드, 마우스, 펜 또는 트랙볼과 같은 터치 입력 장치, 음성 입력 장치, 스캐닝 장치, 네트워크 어댑터, 또는 컴퓨팅 환경(100)에 입력을 제공하는 다른 장치일 수 있다. 오디오에 대해, 입력 장치(150)는 사운드 카드, 마이크로폰, 또는 아날로그 또는 디지털 형태로 오디오 입력을 수신하는 다른 장치, 또는 오디오 샘플을 컴퓨팅 환경(100)에 제공하는 CD/DVD 판독 장치일 수 있다. 출력 장치(160)는 표시 장치, 프린터, 스피커, CD/DVD 기록 장치, 네트워크 어댑터, 또는 컴퓨팅 환경(100)으로부터 출력을 제공하는 다른 장치일 수 있다.

통신 접속(170)은 통신 매체를 통해 다른 컴퓨팅 엔티티와 통신하는 것을 가능하게 한다. 통신 매체는 컴퓨터 실행 가능 명령어들, 압축된 음성 정보, 또는 변조된 데이터 신호 내의 다른 데이터와 같은 정보를 전달한다. 변조된 데이터 신호는, 신호 내의 정보를 인코딩하는 방식으로 신호의 특성들 중 하나 이상이 설정 또는 변경된 신호이다. 제한적이 아닌 예로서, 통신 매체는 전기, 광학, RF, 적외선, 음향 또는 다른 캐리어로 구현되는 유선 또는 무선 기술들을 포함한다.

본 발명은 컴퓨터 판독 가능 매체와 일반적으로 관련하여 설명될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨팅 환경 내에서 액세스될 수 있는 임의의 이용 가능 매체이다. 제한적이 아닌 예로서, 컴퓨팅 환경(100)에서, 컴퓨터 판독 가능 매체는 메모리(120), 저장 장치(140), 통신 매체, 및 이들의 임의 조합을 포함한다.

본 발명은 일반적으로 프로그램 모듈에 포함되어 컴퓨팅 환경에서 타겟 실제 또는 가상 프로세서 상에서 실행되는 것들과 같은 컴퓨터 실행 가능 명령어와 관련하여 기술될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 라이브러리, 개체, 클래스, 컴포넌트, 데이터 구조 등을 포함한다. 프로그램 모듈들의 기능은 다양한 실시예에서 원하는 바와 따라 조합되거나, 프로그램 모듈들 사이에 분산될 수 있다. 프로그램 모듈에 대한 컴퓨터 실행 가능 명령어는 로컬 또는 분산 컴퓨팅 환경에서 실행될 수 있다.

프리젠테이션을 위해, 상세한 설명은 "결정한다", "생성한다", "조정한다" 및 "적용한다"라는 용어를 이용하여 컴퓨팅 환경에서의 컴퓨팅 동작을 설명한다. 이들 용어는 컴퓨터에 의해 수행되는 동작들에 대한 하이 레벨 추상화이며, 인간에 의해 수행되는 행위들과 혼란되지 않아야 한다. 이들 용어에 대응하는 실제 컴퓨터 동작들은 구현에 따라 변한다.

II. 일반화된 네트워크 환경 및 실시간 음성 코덱

도 2는 설명되는 실시예들 중 하나 이상이 관련하여 구현될 수 있는 일반화된 네트워크 환경(200)의 블록도이다. 네트워크(250)는 다양한 인코더측 컴포넌트를 다양한 디코더측 컴포넌트와 구별한다.

인코더측 및 디코더측 컴포넌트들의 주요 기능은 각각 음성 인코딩 및 디코딩이다. 인코더측에서, 입력 버퍼(210)는 음성 입력(202)을 수신하고 저장한다. 음성 인코더(230)는 입력 버퍼(210)로부터 음성 입력(202)을 취하여 이를 인코딩한다.

구체적으로, 프레임 분할기(212)는 음성 입력(202)의 샘플들을 프레임들로 분할한다. 일 구현에서, 프레임들은 균일하게 20 ms 길이인데, 8 kHz 입력에 대해서는 160개의 샘플, 16 kHz 입력에 대해서는 320개의 샘플이다. 다른 구현들에서, 프레임들은 상이한 지속 기간을 가지며, 균일하지 않거나 중복되며, 그리고/또는 입력(202)의 샘플링 레이트가 상이하다. 프레임들은 수퍼 프레임/프레임, 프레임/수퍼 프레임, 또는 인코딩 및 디코딩의 상이한 스테이지들에 대한 다른 구성으로 구성될 수 있다.

프레임 분류기(214)는 신호의 에너지, 제로 교차 레이트, 장기 예측 이득, 이득차, 그리고/또는 서브 프레임 또는 전체 프레임에 대한 다른 기준과 같은 하나 이상의 기준에 따라 프레임들을 분류한다. 기준에 기초하여, 프레임 분류기(214)는 상이한 프레임들을 묵음, 무성음, 유성음 및 전이(예를 들어, 무성음에서 유성음으로)와 같은 클래스들로 분류한다. 또한, 프레임들은, 존재한다면, 프레임에 대해 이용되는 중복 코딩의 유형에 따라 분류될 수 있다. 프레임 클래스는 프레임을 인코딩하기 위해 계산되는 파라미터들에 영향을 미친다. 또한, 프레임 클래스는 파라미터들이 인코딩되는 해상도 및 손실 복원력에 영향을 미쳐, 보다 중요한 프레임 클래스 및 파라미터에 보다 높은 해상도 및 손실 복원력을 제공할 수 있다. 예를 들어, 묵음 프레임들은 일반적으로 매우 낮은 레이트로 코딩되고, 손실될 경우 은닉에 의해 매우 간단하게 복구되며, 손실에 대한 보호를 필요로 하지 않을 수 있다. 무성음 프레임들은 일반적으로 약간 더 높은 레이트로 코딩되고, 손실될 경우 은닉에 의해 상당히 간단하게 복구되며, 손실에 대해 중요하게 보호되지 않는다. 유성음 및 전이 프레임들은 일반적으로 프레임의 복잡성은 물론 전이의 존재에 따라 보다 많은 비트가 인코딩된다. 유성음 및 전이 프레임들은 또한 손실될 경우 복구하기가 어려우며, 따라서 손실에 대해 매우 중요하게 보호된다. 대안으로, 프레임 분류기(214)는 다른 및/또는 추가 프레임 클래스를 이용한다.

입력된 음성 신호는 하나의 프레임에 대한 부대역 정보에 CELP 인코딩 모델과 같은 인코딩 모델을 적용하기 전에 부대역 신호들로 분할될 수 있다. 이것은 일련의 하나 이상의 분석 필터 뱅크(QMF 분석 필터)(216)를 이용하여 행해질 수 있다. 예를 들어, 3대역 구조가 사용되는 경우, 신호를 저역 통과 필터에 통과시킴으로써 저주파수 대역이 분할될 수 있다. 마찬가지로, 신호를 고역 통과 필터에 통과시킴으로써 고주파수 대역이 분할될 수 있다. 직렬 연결된 저역 통과 필터와 고역 통과 필터를 포함할 수 있는 대역 통과 필터에 신호를 통과시킴으로써 중간 대역이 분할될 수 있다. 대안으로, 부대역 분할 및/또는 필터링의 타이밍(예를 들어, 프레임 분할 전)을 위한 다른 유형의 필터 배열들도 사용될 수 있다. 신호의 일부에 대해 하나의 대역만이 디코딩되는 경우, 그 부분은 분석 필터 뱅크(216)를 바이패스할 수 있다.

대역들의 수(n)는 샘플링 레이트에 의해 결정될 수 있다. 예를 들어, 일 구현에서, 8 kHz 샘플링 레이트에 대해 단일 대역 구조가 사용된다. 도 3에 도시된 바와 같이, 16 kHz 및 22.05 kHz 샘플링 레이트에 대해서는, 3 대역 구조가 사용된다. 도 3의 3 대역 구조에서, 저주파수 대역(310)은 전체 대역폭 F의 절반(0에서 0.5F까지)에 걸친다. 대역폭의 나머지 절반은 중간 대역(320)과 고대역(330)으로 동일하게 분할된다. 대역들의 교점 근처에서, 대역에 대한 주파수 응답이 통과 레벨에서 정지 레벨로 점차 감소하는데, 이는 교점에 접근할 때 양측에서의 신호의 감쇠에 의해 특성화된다. 주파수 대역폭의 다른 분할들도 이용될 수 있다. 예를 들어, 32 kHz 샘플링 레이트에 대해, 동일하게 이격된 4 대역 구조가 사용될 수 있다.

저주파수 대역은 일반적으로 음성 신호에 가장 중요한 대역인데, 이는 신호 에너지가 일반적으로 보다 높은 주파수 범위를 향해 감쇠하기 때문이다. 따라서, 저주파수 대역은 종종 다른 대역들보다 많은 비트를 사용하여 인코딩된다. 단일 대역 코딩 구조에 비해, 부대역 구조는 더 유연하며, 주파수 대역 전체에서 양자화 잡음의 보다 양호한 제어를 가능하게 한다. 따라서, 부대역 구조를 이용함으로써 인식되는 음성 품질이 크게 향상될 것으로 믿어진다. 그러나, 후술하는 바와 같이, 부대역들의 분할은 인접 대역들의 교점 근처의 주파수 영역들에서 신호의 에너지 손실을 초래할 수 있다. 이러한 에너지 손실은 결과적인 디코딩된 음성 신호의 품질을 저하시킬 수 있다.

도 2에서, 인코딩 컴포넌트들(232, 234)에 의해 도시된 바와 같이, 각각의 부대역은 개별적으로 인코딩된다. 대역 인코딩 컴포넌트들(232, 234)이 개별적으로 도시되어 있지만, 모든 대역의 인코딩은 단일 인코더에 의해 행해지거나, 모든 대역이 개별 인코더들에 의해 인코딩될 수 있다. 이러한 대역 인코딩은 도 4를 참조하여 더 상세히 후술된다. 대안으로, 코덱은 단일 대역 코덱으로서 동작할 수 있다. 결과적인 인코딩된 음성은 멀티플렉서("MUX")(236)를 통해 하나 이상의 네트워킹 계층(240)에 대한 소프트웨어에 제공된다. 네트워킹 계층(240)은 네트워크(250)를 통한 전이를 위해 인코딩된 음성을 처리한다. 예를 들어, 네트워크 계층 소프트웨어는 인코딩된 음성 정보의 프레임들을 RTP 프로토콜을 따르는 패킷들로 패키지하는데, 이들 패킷은 UDP, IP 및 다양한 물리 계층 프로토콜을 이용하여 인터넷을 통해 중계된다. 대안으로, 다른 및/또는 추가 소프트웨어 계층 또는 네트워킹 프로토콜이 사용된다.

네트워크(250)는 인터넷과 같은 광역 패킷 교환 네트워크이다. 대안으로, 네트워크(250)는 근거리 네트워크 또는 다른 종류의 네트워크이다.

디코더측에서, 하나 이상의 네트워킹 계층(260)에 대한 소프트웨어는 전송된 데이터를 수신하여 처리한다. 디코더측 네트워킹 계층(260)에서의 네트워크, 전송, 및 상위 계층 프로토콜 및 소프트웨어는 일반적으로 인코더측 네트워킹 계층(240)에서의 그것들과 대응한다. 네트워킹 계층은 인코딩된 음성 정보를 디멀티플렉서("DEMUX")(276)를 통해 음성 디코더(270)에 제공한다.

디코더(270)는 대역 디코딩 컴포넌트들(272, 274)에 도시된 바와 같이 부대역들 각각을 개별적으로 디코딩한다. 모든 부대역은 단일 디코더에 의해 디코딩되거나 개별 대역 디코더들에 의해 디코딩될 수 있다.

이어서, 디코딩된 부대역들은 일련의 하나 이상의 합성 필터 뱅크(QMF 합성 필터 등)(280)에서 합성되어, 디코딩된 음성(292)이 출력된다. 대안으로, 부대역 합성을 위한 다른 유형의 필터 배열이 이용된다. 단일 대역만이 존재하는 경우, 디코딩된 대역은 필터 뱅크들(280)을 바이패스할 수 있다. 다수의 대역이 존재하는 경우, 디코딩된 음성 출력(292)은 또한 결과적인 보강된 음성 출력(294)의 품질을 향상시키기 위해 중간 주파수 보강 포스트 필터(284)를 통과할 수 있다. 중간 주파수 보강 포스트 필터의 구현이 상세히 후술된다.

하나의 일반화된 실시간 음성 대역 디코더가 도 6을 참조하여 아래에 설명되지만, 다른 음성 디코더들이 대신 사용될 수도 있다. 또한, 설명되는 도구 및 기술 모두는 음악 인코더 및 디코더, 또는 범용 오디오 인코더 및 디코더와 같은 다른 유형의 오디오 인코더 및 디코더와 함께 이용될 수 있다.

이러한 주요 인코딩 및 디코딩 기능과는 별도로, 컴포넌트들은 또한 인코딩된 음성의 레이트, 품질, 및/또는 손실 복원력을 제어하기 위해 정보를 공유할 수 있다(도 2에서 점선으로 표시). 레이트 제어기(220)는 입력 버퍼(210)에서의 현재 입력의 복잡성, 인코더(230) 또는 다른 곳에서의 출력 버퍼들의 버퍼 충만도, 원하는 출력 레이트, 현재의 네트워크 대역폭, 네트워크 혼잡/잡음 조건 및/또는 디코더 손실 레이트와 같은 다양한 팩터를 고려한다. 디코더(270)는 디코더 손실 레이트 정보를 레이트 제어기(220)에 피드백한다. 네트워킹 계층(240, 260)은 현재 네트워크 대역폭 및 혼잡/잡음 조건에 대한 정보를 수집 또는 평가하여, 레이트 제어기(220)에 피드백한다. 대안으로, 레이트 제어기(220)는 다른 및/또는 추가 팩터를 고려한다.

레이트 제어기(220)는 음성 인코더(230)에게 음성이 인코딩되는 레이트, 품질 및/또는 손실 복원력을 변경하도록 지시한다. 인코더(230)는 파라미터들에 대한 양자화 팩터를 조정하거나 파라미터들을 표현하는 엔트로피 코드의 해상도를 변경함으로써 레이트 및 품질을 변경할 수 있다. 또한, 인코더는 중복 코딩의 레이트 또는 유형을 조정함으로써 손실 복원력을 변경할 수 있다. 따라서, 인코더(230)는 네트워크 조건에 따라 주요 인코딩 기능들과 손실 복원 기능들 간의 비트들의 할당을 변경할 수 있다.

도 4는 설명되는 실시예들 중 하나 이상이 관련되어 구현될 수 있는 일반화된 음성 대역 인코더(400)의 블록도이다. 대역 인코더(400)는 일반적으로 도 2의 대역 인코딩 컴포넌트들(232, 234) 중 어느 하나에 대응한다.

대역 인코더(400)는 신호가 다수의 대역으로 분할되는 경우에 필터 뱅크들(또는 다른 필터들)로부터 대역 입력(402)을 수신한다. 신호가 다수의 대역으로 분할되지 않는 경우에, 대역 입력(402)은 전체 대역폭을 표현하는 샘플들을 포함한다. 대역 인코더는 인코딩된 대역 출력(492)을 생성한다.

신호가 다수의 대역으로 분할되는 경우, 다운샘플링 컴포넌트(420)가 각 대역에 대해 다운샘플링을 수행한다. 일례로, 샘플링 레이트가 16 kHz로 설정되고, 각 프레임의 지속 기간이 20 ms인 경우, 각 프레임은 320 샘플을 포함한다. 다운샘플링이 수행되지 않고, 프레임이 도 3에 도시된 3 대역 구조로 분할될 경우, 프레임에 대해 세 배 많은 샘플(즉, 대역당 320 샘플, 또는 총 960 샘플)이 인코딩되고 디코딩될 것이다. 그러나, 각 대역은 다운샘플링될 수 있다. 예를 들어, 저주파수 대역(310)은 320 샘플에서 160 샘플로 다운샘플링될 수 있으며, 중간 대역(320) 및 고대역(330) 각각은 320 샘플에서 80 샘플로 다운샘플링될 수 있는데, 대역들(310, 320, 330)은 각각 주파수 범위의 1/2, 1/4 및 1/4에 걸친다. (이 구현에서 다운샘플링의 정도는 대역들(310, 320, 330)의 주파수 범위와 관련하여 변한다. 그러나, 다른 구현들도 가능하다. 후속 스테이지들에서, 일반적으로 보다 높은 대역들에 대해 보다 적은 비트가 사용되는데, 이는 일반적으로 신호 에너지가 보다 높은 주파수 범위를 향해 감쇠하기 때문이다.) 따라서, 이것은 프레임에 대해 인코딩 및 디코딩될 총 320 샘플을 제공한다.

LP 분석 컴포넌트(430)는 선형 예측 계수(432)를 계산한다. 일 구현에서, LP 필터는 8 kHz 입력에 대해서는 10개의 계수를, 16 kHz 입력에 대해서는 16개의 계수를 사용하며, LP 분석 컴포넌트(430)는 프레임당 한 세트의 선형 예측 계수들을 계산한다. 대안으로, LP 분석 컴포넌트(430)는 프레임당 2 세트의 계수들, 즉 상이한 위치에 중심을 가진 2개의 윈도우 각각에 대해 하나씩을 계산하거나, 프레임당 상이한 수의 계수들을 계산한다.

LPC 처리 컴포넌트(435)는 선형 예측 계수들(432)을 수신하여 처리한다. 일반적으로, LPC 처리 컴포넌트(435)는 보다 효율적인 양자화 및 인코딩을 위해 LPC 값들을 상이한 표현으로 변환한다. 예를 들어, LPC 처리 컴포넌트(435)는 LPC 값들을 선 스펙트럼 쌍(LSP) 표현으로 변환하며, LSP 값들은 (예를 들어 벡터 양자화에 의해) 양자화되고 인코딩된다. LSP 값들은 인트라 코딩되거나 다른 LSP 값들로부터 예측될 수 있다. 다양한 표현, 양자화 기술, 및 인코딩 기술이 LPC 값들에 대해 가능하다. LPC 값들은 (임의의 양자화 파라미터들 및 재구성에 필요한 다른 정보와 함께) 패킷화 및 전송을 위해 인코딩된 대역 출력(492)의 일부로서 소정의 형태로 제공된다. 인코더(400)에서의 후속 이용을 위해, LPC 처리 컴포넌트(435)는 LPC 값들을 재구성한다. LPC 처리 컴포넌트(435)는 (LSP 표현 또는 다른 표현에서와 같이 등가적으로) LPC 값들에 대한 보간을 수행하여, 상이한 LPC 계수 세트들 사이, 또는 프레임들의 상이한 서브 프레임들에 사용되는 LPC 계수들 사이의 전이를 매끄럽게 할 수 있다.

합성(또는 "단기 예측") 필터(440)는 재구성된 LPC 값들(438)을 수신하여, 이들을 필터 내로 합체시킨다. 합성 필터(440)는 여기 신호를 수신하여, 최초 신호의 근사치를 생성한다. 주어진 프레임에 대해, 합성 필터(440)는 예측의 개시를 위해 이전 프레임으로부터 다수의 재구성된 샘플(예를 들어 10탭 필터에 대해 10개)을 버퍼링한다.

지각 가중 컴포넌트(450, 455)는 최초 신호 및 합성 필터(440)의 모델링된 출력에 지각 가중치를 적용하여 음성 신호들의 포먼트 구조를 선택적으로 덜 강조함으로써 청각 시스템을 양자화 에러에 덜 민감하게 만든다. 지각 가중 컴포넌트(450, 455)는 마스킹과 같은 음향 심리학적 현상을 이용한다. 일 구현에서, 지각 가중 컴포넌트(450, 455)는 LP 분석 컴포넌트(430)로부터 수신된 최초 LPC 값들(432)에 기초하여 가중치를 적용한다. 대안으로, 지각 가중 컴포넌트(450, 455)는 다른 및/또는 추가 가중치를 적용한다.

지각 가중 컴포넌트(450, 455)에 이어서, 인코더(400)는 지각 가중된 최초 신호와 지각 가중된 합성 필터(340)의 출력 간의 차이를 계산하여 차 신호(434)를 생성한다. 대안으로, 인코더(430)는 상이한 기술을 이용하여 음성 파라미터를 계산한다.

여기 파라미터화 컴포넌트(460)는 지각 가중된 최초 신호와 합성 신호 간의 차이를 최소화하는 것과 관련하여(가중 제곱 평균 에러 또는 다른 기준 면에서) 적응성 코드북 인덱스, 고정 코드북 인덱스 및 이득 코드북 인덱스의 최상 조합을 찾으려고 시도한다. 많은 파라미터가 서브 프레임마다 계산되지만, 보다 일반적으로는 파라미터들은 수퍼 프레임, 프레임 또는 서브 프레임마다 계산될 수 있다. 전술한 바와 같이, 프레임 또는 서브 프레임의 상이한 대역들에 대한 파라미터들은 상이할 수 있다. 표 2는 일 구현에서 상이한 프레임 클래스들에 대해 이용 가능한 파라미터 유형을 나타낸다.

상이한 프레임 클래스들에 대한 파라미터들

프레임 클래스	파라미터
묵음	클래스 정보; LSP; 이득(프레임당, 생성된 잡음에 대해)
무성음	클래스 정보; LSP; 펄스, 랜덤, 및 이득 코드북 파라미터(서브 프레임마다)
유성음	클래스 정보; LSP; 적응성, 펄스, 랜덤, 및 이득 코드북 파라미터(서브 프레임마다)
전이	클래스 정보; LSP; 적응성, 펄스, 랜덤, 및 이득 코드북 파라미터(서브 프레임마다)

도 4에서, 여기 파라미터화 컴포넌트(460)는 프레임을 서브 프레임들로 분할하고, 적절한 경우에 각각의 서브 프레임에 대한 코드북 인덱스 및 이득을 계산한다. 예를 들어, 사용될 코드북 스테이지들의 수 및 유형, 및 코드북 인덱스들의 해상도는 전술한 레이트 제어 컴포넌트에 의해 지시되는 인코딩 모드에 의해 초기에 결정될 수 있다. 특정 모드는 코드북 스테이지들의 수 및 유형과 다른 인코딩 및 디코딩 파라미터, 예를 들어 코드북 인덱스들의 해상도를 또한 지시할 수 있다. 각 코드북 스테이지의 파라미터들은 타겟 신호와 그 코드북 스테이지의 합성 신호에 대한 기여 사이의 에러를 최소화하도록 파라미터들을 최적화함으로써 결정된다. (본 명세서에서 사용되는 "최적화"라는 용어는, 파라미터 공간에 대한 완전한 검색을 수행하는 것과 달리, 왜곡 감소, 파라미터 검색 시간, 파라미터 검색 복잡성, 파라미터의 비트 레이트 등과 같은 적용 가능한 제한 하에 적절한 솔루션을 발견하는 것을 의미한다. 마찬가지로, "최소화"라는 용어는 적용 가능한 제한 하에 적절한 솔루션을 발견하는 것과 관련하여 이해되어야 한다.) 예를 들어, 최적화는 수정된 제곱 평균 에러 기술을 이용하여 행해질 수 있다. 각 스테이지에 대한 타겟 신호는 잔여 신호와 존재할 경우 합성 신호에 대한 이전 코드북 스테이지들의 기여들의 합 간의 차이이다. 대안으로, 다른 최적화 기술이 이용될 수 있다.

도 5는 일 구현에 따른 코드북 파라미터를 결정하기 위한 기술을 나타낸다. 여기 파라미터화 컴포넌트(460)는 잠재적으로 레이트 제어기와 같은 다른 컴포넌트들과 함께 이 기술을 수행한다. 대안으로, 인코더 내의 다른 컴포넌트가 이 기술을 수행한다.

도 5를 참조하면, 유성음 또는 전이 프레임 내의 각 서브 프레임에 대해, 여기 파라미터화 컴포넌트(560)는 적응성 코드북이 현재 서브 프레임에 대해 사용될 수 있는지를 결정한다(510). (예를 들어, 레이트 제어는 어떠한 적응성 코드북도 특정 프레임에 대해 사용되지 말 것을 지시할 수 있다.) 적응성 코드북이 사용되지 않는 경우, 적응성 코드북 스위치는 적응성 코드북이 사용되지 않음을 지시할 것이다(535). 예를 들어, 이것은 프레임에서 어떠한 적응성 코드북도 사용되지 않음을 지시하는 프레임 레벨의 1비트 플래그를 설정함으로써, 프레임 레벨에서 특정 코딩 모드를 지정함으로써, 또는 서브 프레임에서 어떠한 적응성 코드북도 사용되지 않음을 지시하는 각 서브 프레임에 대한 1비트 플래그를 설정함으로써 행해질 수 있다.

도 5를 계속 참조하면, 적응성 코드북이 사용될 수 있는 경우, 컴포넌트(560)는 적응성 코드북 파라미터들을 결정한다. 이들 파라미터는 여기 신호 이력의 원하는 세그먼트를 지시하는 인덱스 또는 피치 값은 물론 원하는 세그먼트에 적용할 이득을 포함한다. 도 4 및 5에서, 컴포넌트(460)는 폐루프 피치 검색을 수행한다(520). 이 검색은 도 4에서 옵션인 개루프 피치 검색 컴포넌트(425)에 의해 피치가 결정되는 것으로부터 시작된다. 개루프 피치 검색 컴포넌트(425)는 가중 컴포넌트(450)에 의해 생성된 가중 신호를 분석하여 그의 피치를 추정한다. 이 추정된 피치와 함께 시작하여, 폐루프 피치 검색(520)은 피치 값을 최적화하여, 타겟 신호와 여기 신호 이력의 지시된 세그먼트로부터 생성된 가중 합성 신호 간의 에러를 감소시킨다. 적응성 코드북 이득 값도 최적화된다(525). 적응성 코드북 이득 값은 값들의 스케일을 조정하기 위해 피치 예측 값들(지시된 여기 신호 이력의 세그먼트로부터의 값들)에 적용할 승수를 지시한다. 피치 예측 값들을 곱한 이득은 현재의 프레임 또는 서브 프레임의 여기 신호에 대한 적응성 코드북 기여이다. 이득 최적화(525) 및 폐루프 피치 검색(520)은 각각은 타겟 신호와 적응성 코드북 기여로부터의 가중 합성 신호 간의 에러를 최소화하는 이득 값 및 인덱스 값을 생성한다.

컴포넌트(460)가 적응성 코드북이 사용될 것으로 결정(530)하는 경우, 적응성 코드북 파라미터들이 비트 스트림 내에서 시그널링된다(540). 그렇지 않은 경우, 예를 들어 전술한 바와 같이 1비트 서브 프레임 레벨 플래그를 설정함으로써 적응성 코드북이 서브 프레임에 대해 사용되지 않음이 지시된다(535). 이러한 결정(530)은 특정 서브 프레임에 대한 적응성 코드북 기여가 적응성 코드북 파라미터들을 시그널링하는 데 필요한 비트 수의 가치만큼 충분히 큰지를 결정하는 것을 포함할 수 있다. 대안으로, 결정을 위해 소정의 다른 근거가 이용될 수 있다. 더욱이, 도 5는 결정 후의 시그널링을 도시하고 있지만, 대안으로 신호들은 프레임 또는 수퍼 프레임에 대해 기술이 종료할 때까지 배치화될 수 있다.

여기 파라미터화 컴포넌트(460)는 또한 펄스 코드북이 사용되는지를 결정한다(550). 펄스 코드북의 사용 또는 비사용은 현재 프레임에 대한 전체 코딩 모드의 일부로서 지시되거나, 다른 방식으로 지시 또는 결정될 수 있다. 펄스 코드북은 여기 신호에 기여할 하나 이상의 펄스를 지정하는 일 유형의 고정 코드북이다. 펄스 코드북 파라미터는 인덱스 및 사인(이득은 양 또는 음일 수 있다)의 쌍을 포함한다. 각 쌍은 여기 신호에 포함될 펄스를 지시하는데, 인덱스는 펄스의 위치를 지시하고 사인은 펄스의 극성을 지시한다. 펄스 코드북에 포함되고 여기 신호에 기여하는 데 사용되는 펄스들의 수는 코딩 모드에 따라 다를 수 있다. 또한, 펄스들의 수는 적응성 코드북이 사용되고 있는지의 여부에 의존할 수 있다.

펄스 코드북이 사용되는 경우, 펄스 코드북 파라미터들은 지시된 펄스들의 기여와 타겟 신호 간의 에러를 최소화하도록 최적화된다(555). 적응성 코드북이 사용되지 않는 경우, 타겟 신호는 가중 최초 신호이다. 적응성 코드북이 사용되는 경우, 타겟 신호는 가중 최초 신호와 가중 합성 신호에 대한 적응성 코드북의 기여 간의 차이이다. 이어서, 소정의 포인트(도시되지 않음)에서, 펄스 코드북 파라미터들이 비트 스트림 내에서 시그널링된다.

여기 파라미터화 컴포넌트(560)는 또한 임의의 랜덤 고정 코드북 스테이지들이 사용될 것인지를 결정한다(565). 랜덤 코드북 스테이지들의 수(존재할 경우)는 현재 프레임에 대한 전체 코딩 모두의 일부로서 지시되거나, 다른 방식으로 결정될 수 있다. 랜덤 코드북은 이것이 인코딩하는 값들에 대해 사전 정의된 신호 모델을 이용하는 일 유형의 고정 코드북이다. 코드북 파라미터들은 신호 모델의 지시된 세그먼트에 대한 시작 포인트 및 양 또는 음일 수 있는 사인을 포함할 수 있다. 지시된 세그먼트의 길이 또는 범위는 일반적으로 고정되며, 따라서 일반적으로 시그널링되지 않지만, 대안으로 지시된 세그먼트의 길이 또는 범위가 시그널링된다. 이득에는 지시된 세그먼트 내의 값들이 곱해져, 여기 신호에 대한 랜덤 코드북의 기여가 산출된다.

적어도 하나의 랜덤 코드북 스테이지가 사용되는 경우, 코드북에 대한 코드북 스테이지 파라미터들은 랜덤 코드북 스테이지의 기여와 타겟 신호 사이의 에러를 최소화하도록 최적화된다(570). 타겟 신호는 가중 최초 신호와, (존재할 경우) 적응성 코드북, (존재할 경우) 펄스 코드북 및 (존재할 경우) 이전 결정된 랜덤 코드북 스테이지들의 가중 합성 신호에 대한 기여의 합 간의 차이이다. 이어서, 소정의 포인트에서(도시되지 않음), 랜덤 코드북 파라미터들이 비트 스트림 내에서 시그널링된다.

이어서, 컴포넌트(460)는 임의의 랜덤 코드북 스테이지들이 더 사용될 것인지를 결정한다(580). 그러한 경우, 다음 랜덤 코드북 스테이지의 파라미터들이 전술한 바와 같이 최적화되고(570) 시그널링된다. 이것은 랜덤 코드북 스테이지들에 대한 모든 파라미터가 결정될 때까지 계속된다. 모든 랜덤 코드북 스테이지들은 아마도 모델로부터 상이한 세그먼트를 지시하고 상이한 이득 값을 가질 것이지만, 동일한 신호 모델을 이용할 수 있다. 대안으로, 상이한 랜덤 코드북 스테이지들에 대해 상이한 신호 모델들이 이용될 수 있다.

레이트 제어기 및/또는 다른 컴포넌트에 의해 결정되는 바와 같이, 각각의 여기 이득이 개별적으로 양자화되거나, 둘 이상의 이득이 함께 양자화될 수 있다.

본 명세서에서는 다양한 코드북 파라미터를 최적화하기 위해 특정 순서가 설명되지만, 다른 순서 또는 최적화 기술이 사용될 수도 있다. 예를 들어, 모든 랜덤 코드북이 동시에 최적화될 수 있다. 따라서, 도 5는 상이한 코드북 파라미터들의 순차적 계산을 도시하고 있지만, 대안으로 둘 이상의 상이한 코드북 파라미터가 함께 최적화된다(예를 들어, 파라미터들을 함께 변화시키고, 소정의 비선형 최적화 기술에 따라 결과를 평가함으로써). 또한, 코드북 또는 다른 여기 신호 파라미터들의 다른 구성이 이용될 수 있다.

본 구현에서 여기 신호는 적응성 코드북, 펄스 코드북, 및 랜덤 코드북 스테이지(들)의 임의의 기여들의 합이다. 대안으로, 컴포넌트(460)는 여기 신호에 대한 다른 및/또는 추가 파라미터를 계산할 수 있다.

도 4를 참조하면, 여기 신호에 대한 코드북 파라미터는 로컬 디코더(465)(도 4의 점선에 의해 둘러싸임)는 물론, 프레임 출력(492)으로 시그널링 또는 제공된다. 따라서, 각 대역에 대해, 인코더 출력(492)은 전술한 LPC 처리 컴포넌트(435)로부터의 출력은 물론, 여기 파라미터화 컴포넌트(460)로부터의 출력도 포함한다.

출력(492)의 비트 레이트는 코드북에 의해 사용되는 파라미터들에 부분적으로 의존하며, 인코더(400)는 내장 코덱을 이용하거나 다른 기술을 이용한 상이한 코드북 인덱스들의 세트들 간의 스위칭에 의해 비트 레이트 및/또는 품질을 제어할 수 있다. 코드북 유형들 및 스테이지들의 상이한 조합은 상이한 프레임들, 대역들 및/또는 서브 프레임들에 대해 상이한 인코딩 모드를 산출할 수 있다. 예를 들어, 무성음 프레임은 하나의 랜덤 코드북 스테이지만을 이용할 수 있다. 적응성 코드북 및 펄스 코드북은 낮은 레이트의 유성음 프레임에 대해 이용될 수 있다. 높은 레이트의 프레임은 적응성 코드북, 펄스 코드북, 및 하나 이상의 랜덤 코드북 스테이지를 이용하여 인코딩될 수 있다. 1 프레임에서, 모든 부대역에 대한 모든 인코딩 모드의 조합을 모드 세트라고 지칭할 수 있다. 각각의 샘플링 레이트에 대해 미리 정의된 여러 개의 모드 세트가 존재할 수 있는데, 상이한 모드들은 상이한 코딩 비트 레이트들에 대응한다. 레이트 제어 모듈은 각 프레임에 대한 모드를 결정하거나 영향을 미칠 수 있다.

도 4를 계속 참조하면, 여기 파라미터화 컴포넌트(460)의 출력은 파라미터화 컴포넌트(460)에 의해 사용되는 코드북들에 대응하는 코드북 재구성 컴포넌트들(470, 472, 474, 476) 및 이득 적용 컴포넌트들(480, 482, 484, 486)에 의해 수신된다. 코드북 스테이지들(470, 472, 474, 476) 및 대응하는 이득 적용 컴포넌트들(480, 482, 484, 486)은 코드북들의 기여들을 재구성한다. 이들 기여는 합산되어 여기 신호(490)를 생성하고, 이는 합성 필터(440)에 의해 수신되고, 후속 선형 예측이 발생하는 "예측" 샘플들과 함께 이용된다. 여기 신호의 지연된 부분들도 여기 이력 신호로서, 적응성 코드북 재구성 컴포넌트(470)에 의해 후속 적응성 코드북 파라미터들(예를 들어, 피치 기여)을 재구성하는 데 사용되고, 파라미터화 컴포넌트(460)에 의해 후속 적응성 코드북 파라미터들(예를 들어, 피치 인덱스 및 피치 이득 값)을 계산하는 데 사용된다.

도 2를 다시 참조하면, 인코딩된 프레임 출력이 다른 파라미터들과 함께 MUX(236)에 의해 수신된다. 이러한 다른 파라미터들은 다른 정보 중에서 프레임 분류기(214)로부터의 프레임 클래스 정보(222) 및 프레임 인코딩 모드를 포함할 수 있다. MUX(236)는 다른 소프트웨어로 전송할 애플리케이션 계층 패킷들을 구성하거나, MUX(236)는 RTP와 같은 프로토콜을 따르는 패킷들의 페이로드에 데이터를 넣는다. MUX는 나중 패킷들에서의 순방향 에러 정정을 위해 파라미터들의 선택적인 반복을 허가하도록 파라미터들을 버퍼링할 수 있다. 일 구현에서, MUX(236)는 하나의 프레임에 대한 주요 인코딩된 음성 정보를 하나 이상의 이전 프레임의 모두 또는 일부에 대한 순방향 에러 정정 정보와 함께 단일 패킷으로 팩킹한다.

MUX(236)는 레이트 제어 목적으로 현재의 버퍼 충만도와 같은 피드백을 제공한다. 보다 일반적으로, 인코더(230)의 다양한 컴포넌트(프레임 분류기(214) 및 MUX(236)를 포함함)는 도 2에 도시된 것과 같은 레이트 제어기(220)에 정보를 제공할 수 있다.

도 2의 비트 스트림 DEMUX(276)는 인코딩된 음성 정보를 입력으로서 수신하고 이를 분석하여 파라미터들을 식별하고 처리한다. 파라미터들은 프레임 클래스, LPC 값들의 소정 표현, 및 코드북 파라미터들을 포함할 수 있다. 프레임 클래스는 주어진 프레임에 대해 어느 다른 파라미터들이 존재하는지를 지시할 수 있다. 보다 일반적으로, DEMUX(276)는 인코더(230)에 의해 사용되는 프로토콜들을 이용하고, 인코더(230)가 패킷들로 팩킹하는 파라미터들을 추출한다. 동적 패킷 교환 네트워크를 통해 수신된 패킷들에 대해, DEMUX(276)는 주어진 기간 동안의 패킷 레이트의 단기 변동을 완화하기 위한 지터 버퍼를 포함한다. 몇몇 경우에, 디코더(270)는 버퍼 지연을 조절하며, 지연, 품질 제어, 누락 프레임들의 은닉 등을 디코딩에 통합하기 위해 버퍼로부터 패킷들이 언제 판독될지를 관리한다. 다른 경우에, 애플리케이션 계층 컴포넌트는 지터 버퍼를 관리하며, 지터 버퍼는 가변 레이트로 채워지고, 일정하거나 비교적 일정한 레이트로 디코더(270)에 의해 비워진다.

DEMUX(276)는 주요 인코딩된 버전 및 하나 이상의 보조 에러 정정 버전을 포함하는 주어진 세그먼트에 대한 다수의 파라미터 버전을 수신할 수 있다. 에러 정정이 실패한 때, 디코더(270)는 올바르게 수신된 정보에 근거하는 파라미터 반복 또는 추정과 같은 은닉 기술과 같은 은닉 기술을 이용한다.

도 6은 하나 이상의 설명되는 실시예가 관련하여 구현될 수 있는 일반화된 실시간 음성 대역 디코더(600)의 블록도이다. 대역 디코더(600)는 일반적으로 도 2의 대역 디코딩 컴포넌트들(272, 274) 중 어느 하나에 대응한다.

대역 디코더(600)는 인코딩된 음성 정보(692)를 입력으로서 수신하고, 디코딩 후 재구성된 출력(602)을 생성한다. 디코더(600)의 컴포넌트들은 인코더(400) 내에 대응하는 컴포넌트들을 갖지만, 전체적으로 디코더(600)가 더 간단한데, 디코더에는 지각 가중, 여기 처리 루프 및 레이트 제어를 위한 컴포넌트들이 없기 때문이다.

LPC 처리 컴포넌트(635)는 대역 인코더(400)에 의해 제공되는 형태로 LPC 값들을 표현하는 정보(는 물론 임의의 양자화 파라미터들 및 재구성에 필요한 다른 정보)를 수신한다. LPC 처리 컴포넌트(635)는 LPC 값들에 대해 이전에 적용된 변환, 양자화, 인코딩 등의 역을 이용하여 LPC 값들(638)을 재구성한다. LPC 처리 컴포넌트(635)는 또한 (LPC 표현 또는 LSP와 같은 다른 표현에서) LPC 값들에 대한 보간을 수행하여, 상이한 LPC 계수 세트들 간의 전이를 매끄럽게 할 수 있다.

코드북 스테이지들(670, 672, 674, 676) 및 이득 적용 컴포넌트들(680, 682, 684, 686)은 여기 신호에 대해 사용되는 임의의 대응 코드북 스테이지의 파라미터들을 디코딩하고, 사용되는 각 코드북 스테이지의 기여를 계산한다. 일반적으로, 코드북 스테이지들(670, 672, 674, 676) 및 이득 적용 컴포넌트들(680, 682, 684, 686)의 구성 및 동작은 인코더(400) 내의 코드북 스테이지들(470, 472, 474, 476) 및 이득 적용 컴포넌트들(480, 482, 484, 486)의 구성 및 동작에 대응한다. 사용되는 코드북 스테이지들의 기여들은 합산되며, 결과적인 여기 신호(690)가 합성 필터(640)로 공급된다. 여기 신호(690)의 지연 값들은 또한 적응성 코드북(670)에 의해 여기 신호의 후속 부분들에 대한 적응성 코드북의 기여를 계산하는 데에 여기 이력으로서 사용된다.

합성 필터(640)는 재구성된 LPC 값들(638)을 수신하고, 이들을 필터 내에 통합한다. 합성 필터(640)는 처리를 위해 이전에 재구성된 샘플들을 저장한다. 여기 신호(690)는 합성 필터를 통과하여 최초 음성 신호의 근사치를 형성한다.

재구성된 부대역 신호(602)는 또한 단기 포스트 필터(694)에 공급된다. 단기 포스트 필터는 필터링된 부대역 출력(604)을 생성한다. 단기 포스트 필터(694)에 대한 계수를 계산하기 위한 여러 기술이 아래에 설명된다. 적응성 포스트 필터링에 대해, 디코더(270)는 인코딩된 음성에 대한 파라미터들(예를 들어, LPC 값들)로부터 계수들을 계산할 수 있다. 대안으로, 계수들은 소정의 다른 기술을 통해 제공된다.

도 2를 다시 참조하면, 전술한 바와 같이, 다수의 부대역이 존재하는 경우, 각 부대역에 대한 부대역 출력이 합성 필터 뱅크들(280)에서 합성되어, 음성 출력(292)을 형성한다.

도 2 내지 도 6에 도시된 관계들은 정보의 일반적인 흐름을 나타내며, 간략화를 위해 다른 관계들은 도시되어 있지 않다. 구현 및 원하는 압축 유형에 따라, 컴포넌트들은 추가, 생략, 다수의 컴포넌트로 분할, 다른 컴포넌트들과 조합, 및/또는 유사 컴포넌트들로 대체될 수 있다. 예를 들어, 도 2에 도시된 환경(200)에서, 레이트 제어기(220)는 음성 인코더(230)와 조합될 수 있다. 잠재적인 추가 컴포넌트는 음성 인코더(또는 디코더)는 물론 다른 인코더(또는 디코더)를 관리하고 네트워크 및 디코더 조건 정보를 수집하고 적응성 에러 정정 기능을 수행하는 멀티미디어 인코딩(또는 재생) 애플리케이션을 포함한다. 대안적 실시예들에서, 컴포넌트들의 상이한 조합 및 구성이 본 명세서에서 설명되는 기술들을 이용하여 음성 정보를 처리한다.

III. 포스트 필터 기술

몇몇 실시예에서, 디코더 또는 다른 도구는 재구성된 음성과 같은 재구성된 오디오를 디코딩한 후에 단기 포스트 필터를 적용한다. 이러한 필터는 재구성된 음성의 인식 품질을 향상시킬 수 있다.

포스트 필터는 일반적으로 시간 도메인 포스트 필터 또는 주파수 도메인 포스트 필터이다. CELP 코덱의 통상의 시간 도메인 포스트 필터는 하나의 상수 팩터에 의해 스케일링되는 올폴(all-pole) 선형 예측 계수 합성 필터 및 다른 하나의 상수 팩터에 의해 스케일링되는 올제로(all-zero) 선형 예측 계수 역 필터를 포함한다.

또한, "스펙트럼 틸트"라고 알려진 현상이 많은 음성 신호에서 발생할 수 있는데, 이는 정상 음성에서 보다 낮은 주파수의 진폭이 종종 보다 높은 주파수의 진폭보다 크기 때문이다. 따라서, 음성 신호의 주파수 도메인 진폭 스펙트럼은 종종 경사 또는 "틸트"를 포함한다. 따라서, 최초의 음성으로부터의 스펙트럼 틸트는 재구성된 음성 신호 내에 존재해야 한다. 그러나, 포스트 필터의 계수들이 또한 그러한 틸트를 포함하는 경우, 틸트의 효과는 포스트 필터 출력에서 배가될 것이며, 따라서 필터링된 음성 신호는 왜곡될 것이다. 따라서, 소정의 시간 도메인 포스트 필터들은 또한 스펙트럼 틸트를 보상하기 위한 1차 고역 통과 필터를 구비한다.

따라서, 시간 도메인 포스트 필터들의 특성들은 일반적으로 2개 또는 3개의 파라미터에 의해 제어되는데, 이는 많은 유연성을 제공하지 못한다.

한편, 주파수 도메인 포스트 필터는 포스트 필터 특성들을 정의하는 보다 유연한 방법을 갖는다. 주파수 도메인 포스트 필터에서, 필터 계수들은 주파수 도메인에서 결정된다. 디코딩된 음성 신호는 주파수 도메인으로 변환되고, 주파수 도메인에서 필터링된다. 이어서, 필터링된 신호는 시간 도메인으로 다시 변환된다. 그러나, 결과적인 필터링된 시간 도메인 신호는 일반적으로 최초의 필터링되지 않은 시간 도메인 신호와 다른 수의 샘플을 갖는다. 예를 들어, 160 샘플을 가진 프레임은 후속 샘플들의 패딩 또는 포함 후에 256 포인트 고속 푸리어 변환("FFT")과 같은 256 포인트 변환을 이용하여 주파수 도메인으로 변환될 수 있다. 256 포인트 역 FFT를 적용하여 프레임을 다시 시간 도메인으로 변환할 때, 이것은 256 시간 도메인 샘플을 생성할 것이다. 따라서, 이것은 여분의 96 샘플을 생성한다. 여분의 96 샘플은 다음 프레임의 최초 96 샘플의 각 샘플들과 중복되거나 그에 추가될 수 있다. 이것은 종종 중복-추가 기술이라고 한다. 음성 신호의 변환은 물론 중복 추가 기술과 같은 기술들의 구현은, 특히 주파수 변환 컴포넌트를 아직 포함하지 않은 코덱들에 대해 전체 디코더의 복잡성을 크게 증가시킬 수 있다. 따라서, 일반적으로 주파수 도메인 포스트 필터들은 사인 곡선 기반 음성 코덱들에 대해서만 사용되는데, 이는 이러한 필터들의 비 사인 곡선 기반 코덱들에 대한 적용이 너무 많은 지연 및 복잡성을 도입하기 때문이다. 주파수 도메인 포스트 필터들은 또한 일반적으로, 코덱 프레임 크기가 코딩 동안에 변하는 경우에 프레임 크기를 변경하기 위해 보다 낮은 유연성을 갖게 되는데, 이는 상이한 크기의 프레임(160 샘플이 아니라 80 샘플을 가진 프레임)을 만날 경우에 전술한 중복 추가 기술의 복잡성이 엄청나게 증가하기 때문이다.

특정 컴퓨팅 환경 특징들 및 오디오 코덱 특징들이 위에 설명되었지만, 도구들 및 기술들 중 하나 이상은 다양한 상이한 유형의 컴퓨팅 환경 및/또는 다양한 상이한 유형의 코덱과 함께 이용될 수 있다. 예를 들어, 포스트 필터 기술들 중 하나 이상은 적응성 차동 펄스 코드 변조 코덱, 변환 코덱 및/또는 다른 유형의 코덱과 같은 CELP 코딩 모델을 이용하지 않는 코덱들과 함께 이용될 수 있다. 다른 예로서, 포스트 필터 기술들 중 하나 이상은 단일 대역 코덱 또는 부대역 코덱과 함께 이용될 수 있다. 또 다른 예로서, 포스트 필터 기술들 중 하나 이상은 다중 대역 코덱의 단일 대역에, 그리고/또는 다중 대역 코덱의 다수 대역의 기여를 포함하는 합성되거나 인코딩되지 않은 신호에 적용될 수 있다.

A. 예시적인 하이브리드 단기 포스트 필터

몇몇 실시예에서, 도 6에 도시된 디코더(600)와 같은 디코더는 후처리를 위한 적응성 시간-주파수 '하이브리드' 필터를 포함하거나, 이러한 필터는 디코더(600)의 출력에 적용된다. 대안으로, 이러한 필터는 소정의 다른 유형의 오디오 디코더 또는 처리 도구, 예를 들어 본 명세서의 다른 곳에서 설명되는 음성 코덱에 포함되거나 그의 출력에 적용된다.

도 6을 참조하면, 몇몇 구현에서, 단기 포스트 필터(694)는 시간 도메인 및 주파수 도메인 처리들의 조합에 기초하는 '하이브리드' 필터이다. 포스트 필터(694)의 계수들은 주로 주파수 도메인에서 유연하고 효율적으로 설계될 수 있으며, 계수들은 시간 도메인에서 단기 포스트 필터(694)에 적용될 수 있다. 이러한 접근 방식의 복잡성은 일반적으로 표준 주파수 도메인 포스트 필터들보다 낮으며, 이것은 무시할 수 있는 지연을 도입하는 방식으로 구현될 수 있다. 또한, 필터는 종래의 시간 도메인 포스트 필터들보다 많은 유연성을 제공할 수 있다. 이러한 하이브리드 필터는 과도한 지연 또는 디코더 복잡성을 필요로 하지 않고 출력 음성 품질을 크게 향상시킬 수 있을 것으로 믿어진다. 또한, 필터(694)는 시간 도메인에서 적용되므로 임의 크기의 프레임에 적용될 수 있다.

일반적으로, 포스트 필터(694)는 LPC 합성 필터의 크기 스펙트럼의 로그에 대해 행해진 비선형 프로세스의 결과인 주파수 응답을 갖는 유한 임펄스 응답("FIR") 필터일 수 있다. 포스트 필터의 크기 스펙트럼은 필터(694)가 스펙트럼 밸리에서만 감쇠되도록 설계될 수 있으며, 몇몇 경우에 크기 스펙트럼의 적어도 일부가 클립핑되어 포먼트 영역들 주위에서 편평해진다. 후술하는 바와 같이, FIR 포스트 필터 계수들은 처리된 크기 스펙트럼의 역 푸리어 변환으로부터 결과되는 정규화된 시퀀스를 절단함으로써 얻어질 수 있다.

필터(694)는 시간 도메인에서 재구성된 음성에 적용된다. 필터는 전체 대역 또는 부대역에 적용될 수 있다. 또한, 필터는 단독으로, 또는 아래에 상세히 설명되는 장기 포스트 필터 및/또는 중간 주파수 보강 필터와 같은 다른 필터들과 함께 이용될 수 있다.

설명되는 포스트 필터는 다양한 비트 레이트, 상이한 샘플링 레이트 및 상이한 코딩 알고리즘을 이용하는 코덱들과 함께 동작할 수 있다. 포스트 필터(694)는 포스트 필터가 없는 음성 코덱들 이상의 상당한 품질 향상을 이룰 수 있을 것으로 믿어진다. 구체적으로, 포스트 필터(694)는 신호 전력이 비교적 낮은 주파수 영역들에서, 즉 포먼트들 사이의 스펙트럼 밸리들에서 인식 가능한 양자화 잡음을 줄인다. 이들 영역에서, 일반적으로 신호 대 잡음비는 열악하다. 즉, 약한 신호로 인해, 존재하는 잡음이 상대적으로 더 강하다. 포스트 필터는 이들 영역에서 잡음 레벨을 감소시킴으로써 전체 음성 품질을 향상시킬 것으로 믿어진다.

재구성된 LPC 계수들(638)은 종종 포먼트 정보를 포함하는데, 이는 일반적으로 LPC 합성 필터의 주파수 응답이 입력 음성의 스펙트럼 엔빌로프를 따르기 때문이다. 따라서, LPC 계수들(638)은 단기 포스트 필터의 계수들을 도출하는 데 사용된다. LPC 계수들(638)은 프레임마다 또는 소정의 다른 기준에 따라 변하므로, 이들로부터 도출되는 포스트 필터 계수들도 프레임마다 또는 소정의 다른 기준에 따라 변한다.

포스트 필터(694)의 필터 계수들을 계산하기 위한 기술이 도 7에 도시되어 있다. 도 6의 디코더(600)는 이 기술을 수행한다. 대안으로, 다른 디코더 또는 포스트 필터링 도구가 이 기술을 수행한다.

디코더(600)는 한 세트의 LPC 계수들(710) a(i)(i=0, 1, 2,..., P이고, a(0)=1이다)를 제로 패딩(715)함으로써 LPC 스펙트럼을 얻는다. 한 세트의 LPC 계수들(710)은 CELP 코덱과 같은 선형 예측 코덱이 사용되는 경우에는 비트 스트림으로부터 얻어질 수 있다. 대안으로, 한 세트의 LPC 계수들(710)은 재구성된 음성 신호를 분석하여 얻을 수 있다. 이것은 코덱이 선형 예측 코덱이 아닌 경우에도 행해질 수 있다. P는 포스트 필터 계수들의 결정에 사용되는 LPC 계수들 a(i)의 LPC 차수이다. 일반적으로, 제로 패딩은 제로들을 가진 신호(또는 스펙트럼)를 확장하여 그의 시간(또는 주파수 대역) 한계를 확장하는 것을 필요로 한다. 이 프로세스에서, 제로 패딩은 길이 P의 신호를 길이 N의 신호에 맵핑하는데, N>P이다. 전체 대역 코덱 구현에 있어서, P는 8 kHz 샘플링 레이트에 대해 10이고, 8 kHz보다 높은 샘플링 레이트에 대해서는 16이다. 대안으로, P는 소정의 다른 값이다. 부대역 코덱들에 대해, P는 각각의 부대역에 대해 상이한 값일 수 있다. 예를 들어, 도 3에 도시된 3 부대역 구조를 이용하는 16 kHz 샘플링 레이트에 대해, P는 저주파수 대역(310)에 대해 10, 중간 대역(320)에 대해 6, 그리고 고대역(330)에 대해서는 4일 수 있다. 일 구현에서, N은 128이다. 대안으로, N은 256과 같은 소정의 다른 수치이다.

이어서, 디코더(600)는 제로 패딩된 계수들에 대해 FFT(720)와 같은 N 포인트 변환을 수행하여, 크기 스펙트럼 A(k)를 산출한다. A(k)는 k=0, 1, 2,..., N-1에 대한 제로 패딩된 LPC 역 필터의 스펙트럼이다. 크기 스펙트럼의 역(즉, 1/|A(k)|)은 LPC 합성 필터의 크기 스펙트럼을 제공한다.

LPC 합성 필터의 크기 스펙트럼은 옵션으로, 그 크기 범위를 감소시키기 위해 로그 도메인(725)으로 변환된다. 일 구현에서, 이 변환은 다음과 같다.

여기서, ln은 상용 로그이다. 그러나, 범위를 감소시키기 위해 다른 연산들이 이용될 수 있다. 예를 들어, 상용 로그 연산 대신에 지수 10의 로그 연산이 이용될 수 있다.

3 가지 옵션 비선형 연산은 H(k)의 값들, 즉 정규화(730), 비선형 압축(735) 및 클립핑(740)에 기초한다.

정규화(730)는 H(k)의 범위를 프레임마다 그리고 대역마다 더욱 일정하게 하는 경향이 있다. 정규화(730) 및 비선형 압축(735) 양자는 비선형 크기 스펙트럼의 범위를 감소시켜, 음성 신호가 포스트 필터에 의해 너무 많이 변경되지 않게 한다. 대안으로, 추가 및/또는 다른 기술들이 크기 스펙트럼의 범위를 줄이는 데 이용될 수 있다.

일 구현에서, 초기 정규화(730)는 다음과 같이 다중 대역 코덱의 각 대역에 대해 수행된다.

여기서, Hmin은 k=0, 1, 2,..., N-1에 대한 H(k)의 최소값이다.

정규화(730)는 다음과 같이 전체 대역 코덱에 대해 수행될 수 있다.

여기서, Hmin은 k=0, 1, 2,..., N-1에 대한 H(k)의 최소값이고, Hmax는 H(k)의 최대값이다. 위의 두 정규화 수학식에서,

의 최대 및 최소값들 각각이 1과 0이 되는 것을 방지하기 위해 0.1의 상수 값이 더해지며, 따라서 비선형 압축이 더 효과적으로 된다. 대안으로, 다른 상수 값들 또는 다른 기술들이 제로 값을 방지하기 위해 이용될 수 있다.

비선형 압축(735)은 다음과 같이 비선형 스펙트럼의 동적 범위를 더 조정하도록 수행된다.

여기서, k=0, 1,..., N-1이다. 따라서, 계수들을 주파수 도메인으로 변환하기 위해 128 포인트 FFT가 사용된 경우, k=0, 1,...,127이다. 또한,

(Hmax-Hmin)이며, η 및 γ는 적절히 선택된 상수 팩터로서 취해진다. η 및 γ의 값들은 음성 코덱의 유형 및 인코딩 레이트에 따라 선택될 수 있다. 일 구현에서, η 및 γ 파라미터는 실험적으로 선택된다. 예를 들어, γ는 0.125 내지 0.135 범위의 값으로 선택되고, η은 0.5 내지 0.1 범위의 값으로 선택된다. 상수 값들은 선호에 기초하여 조정될 수 있다. 예를 들어, 상수 값들의 범위는 다양한 상수 값으로부터 결과되는 예측 스펙트럼 왜곡(주로 피크 및 밸리 주위)을 분석함으로써 얻어진다. 일반적으로, 예측 왜곡의 소정 레벨을 초과하지 않는 범위를 선택하는 것이 바람직하다. 이어서, 최종 값들은 주관적인 청취 테스트의 결과를 이용하여 범위 내의 한 세트의 값들 중에서 선택된다. 예를 들어, 8 kHz의 샘플링 레이트를 갖는 포스트 필터에서, η은 0.5이고 γ은 0.125이며, 16 kHz의 샘플링 레이트를 갖는 포스트 필터에서, η은 1.0이고 γ은 0.135이다.

클립핑(740)은 다음과 같이 압축된 스펙트럼 Hc(k)에 적용될 수 있다.

여기서, Hmean은 Hc(k)의 평균값이고, λ는 상수이다. λ의 값은 음성 코덱의 유형 및 인코딩 레이트에 따라 상이하게 선택될 수 있다. 몇몇 구현에서, λ는 실험적으로 선택되며(0.95 내지 1.1의 값 등), 선호에 기초하여 조정될 수 있다. 예를 들어, λ의 최종값은 주관적인 청취 테스트의 결과를 이용하여 선택될 수 있다. 예를 들어, 8 kHz 샘플링 레이트를 가진 포스트 필터에서 λ는 1.1이고, 16 kHz 샘플링 레이트를 가진 포스트 필터에서 λ는 0.95이다.

이러한 클립핑 연산은 Hpf(k)의 값을 최대 또는 상한으로 캡핑한다. 상기 수학식들에서, 이 최대값은 λ*Hmean으로 표현된다. 대안으로, 크기 스펙트럼의 값을 캡핑하기 위해 다른 연산들이 이용된다. 예를 들어, 상한은 평균값이 아니라 Hc(k)의 중간값에 기초할 수 있다. 또한, 모든 높은 Hc(k) 값을 특정 최대 값(λ*Hmean 등)으로 클립핑하는 것이 아니라, 이 값들은 보다 복잡한 연산에 따라 클립핑될 수 있다.

클립핑은 필터 계수들이 포먼트 영역과 같은 다른 영역에서 음성 스펙트럼을 크게 변경하지 않고 그의 밸리에서 음성 신호를 감쇠시키게 하는 경향이 있다. 이것은 포스트 필터가 음성 포먼트를 왜곡시키는 것을 방지하며, 따라서 보다 높은 품질의 음성 출력을 생성하게 된다. 또한, 클립핑은 스펙트럼 틸트의 효과를 줄일 수 있는데, 이는 클립핑이 큰 값들을 캡핑된 값으로 줄이는 반면 밸리 근처의 값들은 거의 불변으로 유지함으로써 포스트 필터 스펙트럼을 평탄화하기 때문이다.

로그 도메인으로의 변환이 수행된 때, 결과적인 클립핑된 크기 스펙트럼 Hpf(k)는 다음과 같이 예를 들어 로그 도메인에서 선형 도메인으로 변환된다(745).

여기서, exp는 역 상용 로그 함수이다.

Hpf(k)에 대해 N 포인트 역 고속 푸리어 변환(750)이 수행되어, f(n)의 시간 시퀀스를 산출하는데, 여기서 n=0, 1,..., N-1이며, N은 전술한 FFT 연산에서와 동일하다. 따라서, f(n)은 N 포인트 시간 시퀀스 이다.

도 7에서, f(n)의 값들은 다음과 같이 n>M-1에 대해 값들을 제로로 설정함으로써 절단된다(755).

여기서, M은 단기 포스트 필터의 차수이다. 일반적으로, 보다 높은 M 값은 보다 높은 품질의 필터링된 음성을 생성한다. 그러나, M이 증가함에 따라 포스트 필터의 복잡성이 증가한다. M의 값은 이러한 절충점을 고려하여 선택될 수 있다. 일 구현에서 M은 17이다.

h(n)의 값은 옵션으로, 프레임들 간의 갑작스러운 변경을 피하기 위해 정규화된다(760). 예를 들어, 이것은 다음과 같이 행해진다.

대안으로, 소정의 다른 정규화 연산이 이용된다. 예를 들어, 다음 연산이 이용될 수 있다.

정규화가 포스트 필터 계수들 h_pf(n)(765)을 산출하는 구현에서, h_pf(n)(765)의 계수를 갖는 FIR 필터가 시간 도메인에서 합성 음성에 적용된다. 따라서, 이 구현에서, 1차 포스트 필터 계수(n=0)는 모든 프레임에 대해 1의 값으로 설정되어 프레임마다의 필터 계수들의 커다란 편차를 방지한다.

B. 예시적인 중간 주파수 보강 필터

몇몇 실시예에서, 도 2에 도시된 디코더(270)와 같은 디코더가 후처리를 위한 중간 주파수 보강 필터를 포함하거나, 이러한 필터가 디코더(270)의 출력에 적용된다. 대안으로, 이러한 필터는 소정의 다른 유형의 오디오 디코더 또는 처리 도구, 예를 들어 본 명세서의 다른 곳에서 설명되는 음성 코덱에 포함되거나 그의 출력에 적용된다.

전술한 바와 같이, 다중 대역 코덱들은 입력 신호를 감소된 대역폭의 채널들로 분할하는데, 이는 일반적으로 부대역들이 코딩을 위해 더 관리 가능하고 유연하기 때문이다. 도 2와 관련하여 전술한 필터 뱅크들(216)과 같은 대역 통과 필터들은 종종 인코딩 이전에 신호 분할을 위해 사용된다. 그러나, 신호 분할은 대역 통과 필터들의 통과 대역들 사이의 주파수 영역들에서 신호 에너지의 손실을 초래할 수 있다. 중간 주파수 보강("MFE") 필터는 에너지를 다른 주파수 영역들에서 크게 변경하지 않고 신호 분할에 의해 에너지가 감쇠되는 주파수 영역들에서 디코딩된 출력 음성의 크기 스펙트럼을 증폭함으로써 그러한 잠재적인 문제에 도움을 준다.

도 2에서, MFE 필터(284)가 필터 뱅크들(280)의 출력(292)과 같은 대역 합성 필터(들)의 출력에 적용된다. 따라서, 대역 n 디코더들(272, 274)이 도 6에 도시된 바와 같을 때, 단기 포스트 필터(694)가 부대역 디코더의 각각의 재구성된 대역에 개별적으로 적용되는 반면, MFE 필터(284)는 다수의 부대역의 기여를 포함하는 조합 또는 합성 재구성 신호에 적용된다. 전술한 바와 같이, 대안으로, MFE 필터는 다른 구성을 가진 디코더와 함께 적용된다.

몇몇 구현에서, MFE 필터는 2차 대역 통과 FIR 필터이다. 이것은 1차 저역 통과 필터와 1차 고역 통과 필터를 캐스케이딩한다. 양 1차 필터들은 동일한 계수를 가질 수 있다. 계수들은 일반적으로 MFE 필터 이득이 통과 대역들에서 바람직하고(신호의 에너지를 증가시킴) 정지 대역들에서 1이 되도록(변경이 없거나 비교적 변경이 없는 신호를 통과시킴) 선택된다. 대안으로, 대역 분할로 인해 감쇠된 주파수 영역들을 보강하기 위해 소정의 다른 기술이 이용된다.

하나의 1차 저역 통과 필터의 전달 함수는 다음과 같다.

하나의 1차 고역 통과 필터의 전달 함수는 다음과 같다.

따라서, 저역 통과 필터와 고역 통과 필터를 캐스케이딩한 2차 MFE 필터의 전달 함수는 다음과 같다.

대응하는 MFE 필터 계수들은 다음과 같이 표현될 수 있다.

μ의 값은 실험에 의해 선택될 수 있다. 예를 들어, 다양한 상수 값으로부터 결과되는 예측 스펙트럼 왜곡을 분석함으로써 상수 값들의 범위가 얻어진다. 일반적으로, 예측 왜곡의 소정 레벨을 초과하지 않는 범위를 선택하는 것이 바람직하다. 이어서, 최종 값은 주관적인 청취 테스트의 결과를 이용하여 범위 내의 한 세트의 값들 중에서 선택된다. 일 구현에서, 16 kHz 샘플링 레이트가 사용되고, 음성이 3개 대역으로 분할되는 경우(8kHz에 대해 제고, 12 kHz에 대해 8, 16 kHz에 대해 12), 8kHz 주위 영역을 보강하는 것이 바람직할 수 있으며, μ는 0.45로 선택된다. 대안으로, 특히 소정의 다른 주파수 영역을 보강하는 것이 바람직한 경우에 μ의 다른 값들이 선택된다. 대안으로, MFE 필터는 상이한 설계의 하나 이상의 대역 통과 필터로 구현되거나, MFE 필터는 하나 이상의 다른 필터로 구현된다.

설명된 실시예와 관련하여 본 발명의 원리를 설명하고 도시하였지만, 설명된 실시예들은 그러한 원리를 벗어나지 않고 배열 및 상세에 있어서 변경될 수 있음을 이해할 것이다. 본 명세서에 설명되는 프로그램, 프로세스 또는 방법은 달리 지시되지 않는 한은 임의의 특정 유형의 컴퓨팅 환경과 관련되거나 그에 한정되지 않는다는 것을 이해해야 한다. 다양한 유형의 범용 또는 특수 컴퓨팅 환경이 함께 이용되거나, 본 명세서에 설명되는 가르침에 따라 동작들을 수행할 수 있다. 소프트웨어로 나타낸 설명된 실시예들의 요소들은 하드웨어로 구현될 수 있으며, 그 역도 마찬가지다.

본 발명의 원리가 적용될 수 있는 많은 가능한 실시예에 비추어, 아래의 청구범위 및 그의 균등물의 범위 및 사상 안에 있을 수 있는 모든 그러한 실시예들을 본 발명으로서 청구한다.

Claims

오디오 디코더에서 수행되는 방법으로서,
인코딩된 오디오 신호를 복수의 프레임으로서 수신하는 단계와,
상기 프레임과 연관된 선형 예측 계수를 획득하는 단계와,
상기 프레임 선형 예측 계수와 연관된 주파수 도메인 계수를 획득하는 단계와,
상기 주파수 도메인 계수를 스펙트럼 밸리(spectral valley)에서 감쇠시키기 위해 상기 주파수 도메인 계수를 클립핑(clipping)하는 단계와,
상기 클립핑된 주파수 도메인 계수에 기초하여 포스트 필터 계수(post-filter coefficients)를 획득하는 단계와,
각각의 프레임에 대한 상기 포스트 필터 계수의 시간 도메인 적용에 의해 오디오 신호를 생성하는 단계를 포함하는
방법.
제 1 항에 있어서,
상기 선형 예측 계수를 틸트 보상하는 단계를 더 포함하고,
상기 주파수 도메인 계수는 상기 틸트 보상된 프레임 선형 예측 계수와 연관되는
방법.
제 2 항에 있어서,
상기 주파수 도메인 계수를 처리하여 상기 프레임에 대한 상기 틸트 보상된 선형 예측 계수의 역의 로그에 대응하는 로그 스펙트럼 엔벨로프 계수를 획득하는 단계를 더 포함하고, 상기 클립핑은 상기 로그 스펙트럼 엔벨로프 계수에 적용되는
방법.
제 1 항에 있어서,
상기 주파수 도메인 계수를 처리하여 상기 프레임에 대한 상기 선형 예측 계수의 역의 로그의 역에 대응하는 로그 스펙트럼 엔벨로프 계수를 획득하는 단계를 더 포함하고, 상기 클립핑은 상기 로그 스펙트럼 엔벨로프 계수에 적용되는
방법.
제 4 항에 있어서,
상기 로그 스펙트럼 엔벨로프 계수를 정규화(normalizing)하여 상기 프레임에 대한 압축된 스펙트럼 계수를 획득하는 단계를 더 포함하고, 상기 클립핑은 상기 정규화된 로그 스펙트럼 엔벨로프 계수에 적용되는
방법.
제 4 항에 있어서,
상기 정규화는 다중 대역의 수신되어 인코딩된 오디오 신호에 대한 다중 대역 정규화 및 전체 대역의 수신된 오디오 신호에 대한 전체 대역 정규화를 포함하는
방법.
제 6 항에 있어서,
상기 다중 대역 정규화는 로그 스펙트럼 계수와 로그 스펙트럼 계수의 최소값의 차에 기초하는
방법.
제 6 항에 있어서,
상기 전체 대역 정규화는 로그 스펙트럼 계수의 최대값과 최소값의 차에 대한 로그 스펙트럼 계수와 로그 스펙트럼 계수의 최소값의 차의 비에 기초하는
방법.
오디오 디코더에서 수행되는 방법으로서,
인코딩된 오디오 신호를 복수의 프레임으로서 수신하는 단계와,
각각의 프레임에 대해
선형 예측 계수 및 상기 선형 예측 계수와 연관된 주파수 도메인 계수를 획득하는 단계와,
상기 주파수 도메인 계수를 스펙트럼 밸리에서 감쇠시키기 위해 각각의 프레임에 대해 상기 주파수 도메인 계수를 클립핑하여 포스트 필터 계수를 획득하는 단계와,
상기 프레임에 대한 상기 포스트 필터 계수의 적용에 기초하여 오디오 신호를 생성하는 단계를 포함하는
방법.
제 9 항에 있어서,
상기 주파수 도메인 계수를 클립핑하기 전에, 상기 주파수 도메인 계수에 비선형 압축을 적용하는 단계를 더 포함하는
방법.
제 9 항에 있어서,
퓨리에 변환에 기초하여 포스트 필터 계수를 변환하여 시간 도메인 포스트 필터 계수를 획득하는 단계를 더 포함하는
방법.
오디오 디코더 장치로서,
인코딩된 오디오 신호를 복수의 프레임으로서 수신하도록 구성된 인코딩된 오디오 입력부와,
프로세서를 포함하되,
상기 프로세서는
상기 프레임과 관련된 선형 예측 계수를 처리하고,
각각의 프레임에 대해
상기 선형 예측 계수와 연관된 주파수 도메인 계수를 획득하고,
상기 주파수 도메인 계수를 스펙트럼 밸리에서 감쇠시키기 위해 각 프레임에 대해 주파수 도메인 계수를 클립핑하여 포스트 필터 계수를 획득하고,
상기 프레임에 대한 상기 포스트 필터 계수의 적용에 기초하여 오디오 신호를 생성하도록 구성되는
오디오 디코더 장치.
제 12 항에 있어서,
상기 주파수 도메인 계수 및 로그 스펙트럼 계수는 상기 선형 예측 계수와 연관된 퓨리에 계수의 역의 로그에 대응하고, 상기 프로세서는 상기 로그 스펙트럼 계수를 클립핑하도록 구성되는
오디오 디코더 장치.
제 13 항에 있어서,
상기 프로세서는 다중 대역의 수신되어 인코딩된 오디오 신호에 대한 다중 대역 정규화 및 전체 대역의 수신된 오디오 신호에 대한 전체 대역 정규화를 선택하고, 상기 선택된 정규화를 상기 주파수 도메인 계수에 적용하도록 구성되는
오디오 디코더 장치.
제 14 항에 있어서,
상기 다중 대역 정규화는 로그 스펙트럼 계수와 로그 스펙트럼 계수의 최소값의 차에 기초하는
오디오 디코더 장치.
제 14 항에 있어서,
상기 전체 대역 정규화는 로그 스펙트럼 계수의 최대값과 최소값의 차에 대한 로그 스펙트럼 계수와 로그 스펙트럼 계수의 최소값의 차의 비에 기초하는
오디오 디코더 장치.
제 14 항에 있어서,
상기 프로세서는 상기 선형 예측 계수를 틸트 보상하도록 구성되고, 상기 로그 스펙트럼 계수는 상기 틸트 보상된 선형 예측 계수와 연관되는
오디오 디코더 장치.