KR102605961B1

KR102605961B1 - 고해상도 오디오 코딩

Info

Publication number: KR102605961B1
Application number: KR1020217025448A
Authority: KR
Inventors: 양 가오
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2019-01-13
Filing date: 2020-01-13
Publication date: 2023-11-23
Also published as: ZA202105028B; EP3903309A1; EP3903309B1; CN113196387A; KR20210113342A; JP7150996B2; US20210343302A1; JP2022517232A; BR112021013767A2; WO2020146867A1; EP3903309A4

Abstract

컴퓨터 스토리지 매체 상에서 인코딩된, 오디오 코딩을 수행하기 위한 컴퓨터 프로그램을 포함하는 방법, 시스템, 및 장치를 설명한다. 방법의 일 예는 하나 이상의 부대역 신호를 포함하는 오디오 신호를 수신하는 단계를 포함한다. 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호는 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 생성된다. 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호는 하이 피치 신호인 것으로 결정된다. 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호라는 결정에 응답하여, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하여 가중된 잔차 신호를 생성한다.

Description

고해상도 오디오 코딩

본 발명은 신호 처리에 관한 것으로, 보다 구체적으로 오디오 신호 코딩의 효율성을 개선하기 위한 것이다.

고선명 오디오 또는 HD 오디오라고도 하는 고해상도(High-resolution, hi-res) 오디오는 일부 녹음된 음악 소매업체 및 고충실도 사운드 재생 장비 판매업체에서 사용하는 마케팅 용어이다. 가장 간단한 용어로 고해상도 오디오는 16비트/44.1kHz로 지정된 컴팩트 디스크(compact disc, CD)보다 샘플링 주파수 및/또는 비트 깊이가 더 높은 음악 파일을 참조하는 경향이 있다. 고해상도 오디오 파일의 주요 이점은 압축된 오디오 형식보다 우수한 음질이다. 재생할 파일에 대한 정보가 많을수록 고해상도 오디오의 디테일과 질감이 더 높아져 청취자가 원래 성능에 더 가깝게 다가갈 수 있다.

그러나 고해상도 오디오에는 파일 크기라는 단점이 있다. 고해상도 파일의 크기는 일반적으로 수십 메가바이트일 수 있으며 몇 개의 트랙이 장치의 저장 공간을 빠르게 차지할 수 있다. 저장 공간이 예전보다 훨씬 저렴해졌지만 파일 크기로 인해 압축 없이 Wi-Fi나 모바일 네트워크를 통해 스트리밍하기에는 여전히 고해상도 오디오가 번거로울 수 있다.

일부 구현에서, 본 명세서는 오디오 신호 코딩의 효율성을 개선하기 위한 기술을 설명한다.

제1 구현에서, 오디오 코딩을 위한 방법은: 하나 이상의 부대역 신호(subband signal)를 포함하는 오디오 신호를 수신하는 단계; 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호를 생성하는 단계; 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호(high pitch signal)인 것으로 결정하는 단계; 및 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호라는 결정에 응답하여, 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하여 가중된 잔차 신호를 생성하는 단계를 포함를 포함한다.

제2 구현에서, 전자 디바이스는 명령을 포함하는 비일시적 메모리 스토리지, 및 상기 메모리 스토리지와 통신하는 하나 이상의 하드웨어 프로세서를 포함하고, 상기 하나 이상의 하드웨어 프로세서는 명령을 실행하여: 하나 이상의 부대역 신호를 포함하는 오디오 신호를 수신하고; 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호를 생성하고; 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하며; 그리고 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호라는 결정에 응답하여, 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하여 가중된 잔차 신호를 생성한다.

제3 구현에서, 오디오 코딩을 위한 컴퓨터 명령을 저장하는 비 일시적 컴퓨터 판독 가능형 매체는, 하나 이상의 하드웨어 프로세서에 의해 실행될 때, 상기 하나 이상의 하드웨어 프로세서로 하여금: 하나 이상의 부대역 신호를 포함하는 오디오 신호를 수신하는 단계; 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호를 생성하는 단계; 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하는 단계; 및 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호라는 결정에 응답하여, 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하여 가중된 잔차 신호를 생성하는 단계를 포함하는 동작을 수행하게 하게 한다.

이전에 설명된 구현은 컴퓨터 구현 방법을 사용하여 구현 가능하다. 컴퓨터로 구현되는 방법을 수행하기 위한 컴퓨터 판독가능 명령을 저장하는 비일시적 컴퓨터 판독가능 매체; 및 컴퓨터 구현 방법 및 비일시적 컴퓨터 판독 가능 매체에 저장된 명령어를 수행하도록 구성된 하드웨어 프로세서와 상호 운용 가능하게 결합된 컴퓨터 메모리를 포함하는 컴퓨터 구현 시스템을 포함한다.

본 명세서의 요지의 하나 이상의 실시예의 자세한 내용은 첨부 도면 및 아래의 설명에 기재되어 있다. 주제의 다른 특징, 측면 및 이점은 설명, 도면 및 청구범위로부터 명백해질 것이다.

도 1은 일부 구현들에 따른 저지연 및 저복잡도 고해상도 코덱(Low delay & Low complexity High resolution Codec, L2HC) 인코더의 예시적인 구조를 도시한다.
도 2는 일부 구현들에 따른 L2HC 디코더의 예시적인 구조를 도시한다.
도 3은 일부 구현들에 따른 저저대역(LLB) 인코더의 예시적인 구조를 도시한다.
도 4는 일부 구현들에 따른 LLB 디코더의 예시적인 구조를 도시한다.
도 5는 일부 구현들에 따른 저고대역(LHB) 인코더의 예시적인 구조를 도시한다.
도 6은 일부 구현들에 따른 LHB 디코더의 예시적인 구조를 도시한다.
도 7은 일부 구현들에 따른 고저대역(HLB) 및/또는 고고대역(HHB) 부대역에 대한 인코더의 예시적인 구조를 도시한다.
도 8은 일부 구현들에 따른 HLB 및/또는 HHB 부대역에 대한 디코더의 예시적인 구조를 도시한다.
도 9는 일부 구현에 따른 하이 피치 신호의 예시적인 스펙트럼 구조를 도시한다.
도 10은 일부 구현들에 따른 하이 피치 검출의 예시적인 프로세스를 도시한다.
도 11은 일부 구현들에 따른 하이 피치 신호의 지각적 가중을 수행하는 예시적인 방법을 예시하는 흐름도이다.
도 12는 일부 구현들에 따른 잔차 양자화 인코더의 예시적인 구조를 도시한다.
도 13은 일부 구현들에 따른 잔차 양자화 디코더의 예시적인 구조를 도시한다.
도 14는 일부 구현들에 따른 신호에 대한 잔차 양자화를 수행하는 예시적인 방법을 예시하는 흐름도이다.
도 15는 일부 구현에 따른 유성음의 예를 도시한다.
도 16은 일부 구현들에 따른 장기 예측(LTP) 제어를 수행하는 예시적인 프로세스를 도시한다.
도 17은 일부 구현들에 따른 오디오 신호의 예시적인 스펙트럼을 도시한다.
도 18은 일부 구현들에 따른 장기 예측(LTP)을 수행하는 예시적인 방법을 예시하는 흐름도이다.
도 19는 일부 구현들에 따른 선형 예측 코딩(LPC) 파라미터들의 예시적인 양자화 방법을 예시하는 흐름도이다.
도 20은 일부 구현들에 따른 오디오 신호의 예시적인 스펙트럼을 도시한다.
도 21은 일부 구현예에 따른 전자 장치의 예시적인 구조를 나타내는 도면이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.

하나 이상의 실시예의 예시적인 구현이 아래에 제공되지만, 개시된 시스템 및/또는 방법은 현재 알려져 있거나 존재하는 임의의 수의 기술을 사용하여 구현될 수 있다는 것이 처음부터 이해되어야 한다. 본 개시는 여기에 예시되고 설명된 예시적인 설계 및 구현을 포함하여 아래에 예시된 예시적인 구현, 도면 및 기술에 결코 제한되어서는 안 되며, 등가물의 전체 범위와 함께 첨부된 청구의 범위 내에서 수정될 수 있다.

고선명 오디오 또는 HD 오디오라고도 하는 고해상도(High-resolution, hi-res)) 오디오는 일부 녹음된 음악 소매업체 및 고충실도 사운드 재생 장비 판매업체에서 사용하는 마케팅 용어이다. 고해상도 오디오는 더 많은 제품, 스트리밍 서비스 및 고해상도 표준을 지원하는 스마트폰의 출시 덕분에 느리지만 확실히 주류를 이루었다. 그러나 고화질 비디오와 달리 고해상도 오디오에 대한 단일한 보편적 표준은 없다. 디지털 엔터테인먼트 그룹(Digital Entertainment Group), 소비자 전자기기 협회(Consumer Electronics Association), 및 더 레코딩 아카데미(The Recording Academy)는 음반사와 함께 공식적으로 고해상도 오디오를 다음과 같이 정의하였다: ”마스터링된 녹음에서 전체 범위의 사운드를 CD 품질의 음원보다 더 낫게 재생할 수 있는 무손실 오디오.” 가장 간단한 용어로 고해상도 오디오는 16비트/44.1kHz로 지정된 CD(컴팩트 디스크)보다 샘플링 주파수 및/또는 비트 깊이가 더 높은 음악 파일을 참조하는 경향이 있다. 샘플링 주파수(또는 샘플 속도)는 아날로그-디지털 변환 프로세스 동안 신호의 샘플이 초당 취해지는 횟수를 나타낸다. 비트가 많을수록 제1 인스턴스에서 신호를 더 정확하게 측정할 수 있다. 따라서 비트 깊이에서 16비트에서 24비트로 이동하면 품질이 눈에 띄게 향상될 수 있다. 고해상도 오디오 파일은 일반적으로 24비트에서 96kHz(또는 훨씬 더 높은)의 샘플링 주파수를 사용한다. 일부 경우에 88.2kHz의 샘플링 주파수를 고해상도 오디오 파일에도 사용할 수 있다. HD 오디오라고 표시된 44.1kHz/24비트 녹음도 있다.

고유한 호환성 요구 사항을 가진 여러 다른 고해상도 오디오 파일 형식이 있다. 고해상도 오디오를 저장할 수 있는 파일 형식에는 널리 사용되는 자유 무손실 오디오 코덱(Free Lossless Audio Codec, FLAC) 및 애플 무손실 오디오 코덱(Apple Lossless Audio Codec, ALAC) 형식이 있으며, 둘 다 압축되지만 이론상 정보가 손실되지 않는 방식이다. 다른 형식으로는 압축되지 않은 WAV 및 AIFF 형식, DSD(Super Audio CD에 사용되는 형식) 및 최신 MQA(Master Quality Authenticated)가 있다. 다음은 주요 파일 형식에 대한 분석이다:

WAV(고해상도): 모든 CD가 인코딩되는 표준 형식. 뛰어난 음질이지만 압축되지 않아 파일 크기(특히 고해상도 파일의 경우)가 매우 크다. 메타데이터 지원(즉, 앨범 아트워크, 아티스트 및 노래 제목 정보)이 좋지 않다.

AIFF(고해상도): WAV에 대한 애플의 대안으로 더 나은 메타데이터 지원을 제공한다. 무손실 및 비압축이지만(그래서 파일 크기가 너무 크다) 대중적이지는 않다.

FLAC(고해상도): 이 무손실 압축 형식은 고해상도 샘플 속도를 지원하고 WAV 공간의 약 절반을 차지하며 메타데이터를 저장한다. 로열티가 없고 널리 지원되며(Apple에서는 지원하지 않는다) 고해상도 앨범을 다운로드하고 저장하는 데 선호되는 형식으로 간주된다.

ALAC(고해상도): 애플의 자체 무손실 압축 형식도 고해상도를 수행하고 메타데이터를 저장하며 WAV 공간의 절반을 차지한다. FLAC에 대한 아이튠즈(iTunes) 및 iOS 친화적인 대안.

DSD(고해상도): 슈퍼 오디오 CD에 사용되는 단일 비트 형식이다. 2.8MHz, 5.6MHz 및 11.2MHz 종류로 제공되지만 널리 지원되지는 않는다.

MQA(고해상도): 시간 도메인에 더 중점을 두고 고해상도 파일을 패키징하는 무손실 압축 형식. 타이달 마스터즈(Tidal Masters) 고해상도 스트리밍에 사용되지만 제품 전반에 걸쳐 지원이 제한적이다.

MP3(고해상도 아님): 인기 있는 손실 압축 형식은 작은 파일 크기를 보장하지만 최상의 음질과는 거리가 멀다. 스마트폰과 iPod에 음악을 저장하는 데 편리하지만, 고음질은 지원하지 않는다.

AAC(고해상도 아님): MP3의 대안으로 손실 및 압축되지만 고음질이다. iTunes 다운로드, (256kbps에서의) 애플 뮤직(Apple Music) 스트리밍 및 유튜브(YouTube) 스트리밍에 사용된다.

고해상도 오디오 파일의 주요 주장된 이점은 압축된 오디오 형식보다 우수한 음질이다. 아마존(Amazon) 및 iTunes와 같은 사이트에서 다운로드하고 스포티파이(Spotify)와 같은 스트리밍 서비스는 Apple Music의 256kbps AAC 파일 및 Spotify의 320kbps Ogg Vorbis 스트림과 같이 비트 전송 레이트가 비교적 낮은 압축 파일 형식을 사용한다. 손실 압축을 사용한다는 것은 인코딩 과정에서 데이터가 손실된다는 것을 의미하며, 이는 결과적으로 편의성과 더 작은 파일 크기를 위해 해상도가 희생됨을 의미한다. 이것은 음질에 영향을 미친다. 예를 들어, 최고 품질의 MP3의 비트 전송 레이트는 320kbps인 반면 24비트/192kHz 파일의 데이터 전송 레이트는 9216kbps이다. 음악 CD는 1411kbps이다. 따라서 고해상도 24비트/96kHz 또는 24비트/192kHz 파일은 음악가와 엔지니어가 스튜디오에서 작업했던 음질을 더 가깝게 복제해야 한다. 재생할 파일에 대한 정보가 많을수록 고해상도 오디오는 재생 시스템이 충분히 투명하게 제공된다면 청취자가 원래 성능에 더 가깝게 다가가도록 하여 더 많은 디테일과 질감을 자랑하는 경향이 있다.

고해상도 오디오를 재생하고 지원할 수 있는 제품은 매우 다양하다. 그것은 모두 시스템이 얼마나 크거나 작은지, 예산이 얼마인지, 음악을 듣는 데 주로 사용되는 방법에 따라 다르다. 고해상도 오디오를 지원하는 제품의 몇 가지 예가 아래에 설명되어 있다.

스마트폰

스마트폰은 점점 더 고해상도 재생을 지원하고 있다. 이는 현재 삼성 갤럭시(Samsung Galaxy) S9 및 S9+ 및 Note 9(모두 DSD 파일 지원)와 소니(Sony)의 Xperia XZ3과 같은 주력 안드로이드(Android) 모델로 제한된다. LG의 V30 및 V30S ThinQ의 고해상도 지원 휴대폰은 현재 MQA 호환성을 제공하는 반면 삼성의 S9 휴대폰은 Dolby Atmos까지 지원한다. 지금까지 Apple iPhone은 기본적으로 고해상도 오디오를 지원하지 않지만 올바른 앱을 사용한 다음 DAC(디지털-아날로그 변환기)를 연결하거나 아이폰의 라이트닝 커넥터를 갖춘 라이트닝(Lightning) 헤드폰을 사용하여 이 문제를 해결할 수 있다.

태블릿

고해상도 태블릿도 존재하며 Samsung Galaxy Tab S4와 같은 것을 포함한다. MWC 2018에서 후아웨이(Huawei)의 M5 제품군과 온쿄(Onkyo)의 흥미로운 그랜비트(Granbeat) 태블릿을 포함하여 다양한 새로운 호환 모델이 출시되었다.

포터블 뮤직 플레이어

대안적으로, 다양한 Sony Walkman 및 Astell & Kern의 수상 경력에 빛나는 휴대용 플레이어와 같은 전용 휴대용 고해상도 음악 플레이어가 있다. 이 뮤직 플레이어는 멀티태스킹 스마트폰보다 더 많은 저장 공간과 훨씬 더 나은 음질을 제공한다. 그리고 기존의 휴대형과는 거리가 멀지만, 놀랍도록 값비싼 Sony DMP-Z1 디지털 음악 플레이어는 고해상도 및 DSD(직접 스트림 디지털) 재능으로 가득 차 있다.

데스크탑

데스크탑 솔루션의 경우, 랩탑(Windows, Mac, Linux)은 고해상도 음악을 저장하고 재생하기 위한 프라임 소스이다(결국 여기에서 고해상도 다운로드 사이트의 음악이 다운로드된다).

DAC

USB 또는 데스크탑 DAC(Cyrus soundKey 또는 Chord Mojo 등)는 컴퓨터나 스마트폰( 음질을 위해 오디오 회로가 최적화되지 않는 경향이 있다)에 저장된 고해상도 파일에서 우수한 음질을 얻을 수 있는 좋은 방법이다. 즉각적인 음향 향상을 위해 소스와 헤드폰 사이에 적절한 DAC(디지털-아날로그 변환기)를 연결하기만 하면 된다.

압축되지 않은 오디오 파일은 전체 오디오 입력 신호를 들어오는 데이터의 전체 로드를 저장할 수 있는 디지털 형식으로 인코딩한다. 그들은 최고 품질과 큰 파일 크기를 희생시키는 보관 기능을 제공하면서 많은 경우에 널리 사용되는 것을 금지한다. 무손실 인코딩은 비압축과 손실의 중간 지점이다. 축소된 크기의 압축되지 않은 오디오 파일에 유사하거나 동일한 오디오 품질을 부여한다. 무손실 코덱은 디코딩 시 압축되지 않은 정보를 복원하기 전에 인코딩 시 들어오는 오디오를 비파괴적인 방식으로 압축하여 이를 달성한다. 무손실 인코딩 오디오의 파일 크기는 여전히 많은 응용 프로그램에서 너무 크다. 손실 파일은 비압축 또는 무손실과 다르게 인코딩된다. 아날로그-디지털 변환의 필수 기능은 손실 인코딩 기술에서 동일하게 유지된다. 손실은 압축되지 않은 것과 다르다. 손실 코덱은 주관적인 오디오 품질을 원래 음파에 최대한 가깝게 유지하면서 원래 음파에 포함된 상당한 양의 정보를 버린다. 이 때문에 손실 오디오 파일은 비압축 파일보다 훨씬 작아 라이브 오디오 시나리오에서 사용할 수 있다. 손실 오디오 파일과 압축되지 않은 오디오 파일 사이에 주관적인 품질 차이가 없다면 손실 오디오 파일의 품질은 "투명"한 것으로 간주될 수 있다. 최근에는 LDAC(Sony)와 AptX(Qualcomm)가 가장 인기 있는 고해상도 손실 오디오 코덱이 여러 개 개발되었다. LHDC(Savitech)도 그 중 하나이다.

소비자 및 고급 오디오 회사는 최근 그 어느 때보다 Bluetooth 오디오에 대해 더 많이 이야기하고 있다. 무선 헤드셋, 핸즈프리 이어피스, 자동차 또는 커넥티드 홈 등 고품질 블루투스(Bluetooth) 오디오의 사용 사례가 점점 늘어나고 있다. 많은 회사에서 즉시 사용 가능한 블루투스 솔루션의 성능을 능가하는 솔루션을 사용하고 있다. 퀄컴(Qualcomm)의 aptX에는 이미 수많은 안드로이드(Android) 휴대폰이 포함되어 있지만 멀티미디어 대기업인 소니(Sony)는 LDAC라는 자체 고급 솔루션을 보유하고 있다. 이 기술은 이전에 소니의 엑스페리아(Xperia) 핸드셋 제품군에서만 사용할 수 있었지만 Android 8.0 Oreo가 출시됨에 따라 원하는 경우 다른 OEM이 구현할 수 있는 핵심 AOSP 코드의 일부로 블루투스 코덱을 사용할 수 있다. 가장 기본적인 수준에서 LDAC는 블루투스를 통해 무선으로 24비트/96kHz(고해상도) 오디오 파일 전송을 지원한다. 가장 가까운 경쟁 코덱은 24비트/48kHz 오디오 데이터를 지원하는 퀄컴의 aptX HD이다. LDAC에는 품질 우선, 일반 및 연결 우선의 세 가지 연결 모드가 있다. 이들 각각은 각각 990kbps, 660kbps 및 330kbps의 다른 비트 전송 레이트를 제공한다. 따라서 사용 가능한 연결 유형에 따라 다양한 품질 수준이 있다. LDAC의 가장 낮은 비트 전송 레이트는 LDAC가 자랑하는 완전한 24비트/96kHz 품질을 제공하지 않을 것이 분명하다. LDAC는 소니에서 개발한 오디오 코딩 기술로, 블루투스 연결을 통해 24비트/96kHz에서 최대 990kbit/s까지 오디오를 스트리밍할 수 있다. 헤드폰, 스마트폰, 휴대용 미디어 플레이어, 액티브 스피커, 홈시어터 등 다양한 소니 제품에 사용된다. LDAC는 보다 효율적인 데이터 압축을 제공하기 위해 MDCT를 기반으로 하는 코딩 방식을 사용하는 손실 코덱이다. LDAC의 주요 경쟁자는 퀄컴의 aptX-HD 기술이다. 고품질 표준 저복잡성 부대역 코덱(SBC)은 최대 328kbps, 이고, 퀄컴의 aptX는 352kbps이고, aptX HD는 576kbps이다. 문서상 990kbps LDAC는 다른 어떤 블루투스 코덱보다 훨씬 많은 데이터를 전송한다. 그리고 로우 엔드 연결 우선 순위 설정(low end connection priority setting)조차도 SBC 및 aptX와 경쟁하며 가장 인기있는 서비스에서 음악을 스트리밍하는 사람들을 수용할 것이다. 소니의 LDAC에는 두 가지 주요 부분이 있다. 첫 번째 부분은 990kbps에 도달할 만큼 충분히 높은 Bluetooth 전송 속도를 달성하는 것이고, 두 번째 부분은 품질 손실을 최소화하면서 고해상도 오디오 데이터를 이 대역폭에 압축하는 것이다. LDAC는 블루투스의 선택적 EDR(Enhanced Data Rate) 기술을 사용하여 일반적인 A2DP(Advanced Audio Distribution Profile) 프로필 제한을 벗어나 데이터 속도를 높이다. 그러나 이것은 하드웨어에 따라 다르다. EDR 속도는 일반적으로 A2DP 오디오 프로필에서 사용되지 않는다.

원래의 aptX 알고리즘은 심리음향 청각 마스킹 기술(psychoacoustic auditory masking techniques)이 없는 시간 도메인 적응 차동 펄스 코드 변조(time domain adaptive differential pulse-code modulation, ADPCM) 원리를 기반으로 하였다. 퀄컴의 aptX 오디오 코딩은 부품 이름이 APTX100ED인 맞춤형 프로그래밍 DSP 집적 회로인 반도체 제품으로 상업 시장에 처음 소개되었으며, 방송 자동화 장비 제조업체에서 처음 채택하였으며 라디오 쇼 중 자동 재생을 위해 컴퓨터 하드 디스크 드라이브에 CD 품질의 오디오를 저장하는 수단이 필요하며, 따라서 예를 들어 디스크 자키의 작업을 대체한다. 1990년대 초 상업적으로 도입된 이후 실시간 오디오 데이터 압축을 위한 aptX 알고리즘의 범위는 전문 오디오, 텔레비전 및 라디오 방송을 위한 소프트웨어, 펌웨어 및 프로그래밍 가능한 하드웨어의 형태로 사용할 수 있는 지적 재산권, 및 소비자 전자 제품, 특히 무선 오디오, 게임 및 비디오용 저지연 무선 오디오, IP를 통한 오디오의 애플리케이션과 함께 계속 확장되었다. 또한 근거리 무선 개인-영역 네트워크 표준인 블루투스의 A2DP를 위해 블루투스 SIG에서 의무화한 손실 스테레오/모노 오디오 스트리밍을 위한 부대역 코딩 방식인 부대역 코딩(sub-band coding, SBC) 대신 aptX 코덱을 사용할 수 있다. AptX는 고성능 블루투스 주변기기에서 지원된다. 오늘날 표준 aptX와 E-aptX(Enhanced aptX)는 여러 방송 장비 제조업체의 ISDN 및 IP 오디오 코덱 하드웨어에 모두 사용된다. 최대 8:1 압축을 제공하는 aptX Live의 형태로 추가된 aptX 제품군이 2007년에 도입되었다. 그리고 손실이 있지만 확장 가능한 적응형 오디오 코덱인 aptX-HD가 2009년 4월에 발표되었다. AptX는 이전에 2010년 CSR plc에 인수될 때까지 apt-X로 명명되었다. CSR은 이후 2015년 8월 Qualcomm에 인수되었다. aptX 오디오 코덱은 소비자 및 자동차 무선 오디오 애플리케이션, 특히 "소스" 장치(예를 들어, 스마트폰, 태블릿 또는 랩톱)와 "싱크" 액세서리(예를 들어, 블루투스 스테레오 스피커, 헤드셋 또는 헤드폰) 간의 블루투스 A2DP 연결/페어링을 통한 손실 스테레오 오디오의 실시간 스트리밍에 사용된다. 블루투스 표준에서 요구하는 기본 부대역 코딩(SBC)에 비해 aptX 오디오 코딩의 음향적 이점을 얻으려면 이 기술을 송신기와 수신기 모두에 통합해야 한다. 향상된 aptX는 전문 오디오 방송 애플리케이션을 위해 4:1 압축 비율로 코딩을 제공하며 AM, FM, DAB, HD 라디오에 적합하다.

향상된 aptX는 16, 20 또는 24비트의 비트 깊이를 지원한다. 48kHz로 샘플링된 오디오의 경우 E-aptX의 비트 전송 레이트는 384kbit/s(듀얼 채널)이다. AptX-HD의 비트 전송 레이트는 576kbit/s이다. 최대 48kHz 샘플링 레이트의 고음질 오디오와 최대 24비트의 샘플 해상도를 지원한다. 이름과 달리 코덱은 여전히 손실로 간주된다. 그러나 평균 또는 피크 압축 데이터 속도가 제한된 수준에서 제한되어야 하는 응용 프로그램에 대해 "하이브리드" 코딩 체계를 허용한다. 여기에는 대역폭 제약으로 인해 완전한 무손실 코딩이 불가능한 오디오 섹션에 대해 "무손실에 가까운(near lossless)"의 동적 적용을 포함한다. "무손실에 가까운" 코딩은 코선명 오디오 품질을 유지하고, 최대 20kHz의 오디오 주파수 및 적어도 120 dB의 동적 범위를 유지한다. 주요 경쟁자는 소니에서 개발한 LDAC 코덱이다. aptX-HD 내에서 확장 가능한 또 다른 파라미터는 코딩 지연이다. 압축 수준 및 계산 복잡성과 같은 다른 파라미터에 대해 동적으로 거래할 수 있다.

LHDC는 Low Latency 및 High-Definition 오디오 코덱의 약자로 Savitech에서 발표되었다. LHDC는 Bluetooth SBC 오디오 형식에 비해 3배 이상의 데이터 전송을 허용하여 가장 사실적이고 고화질의 무선 오디오를 제공하고 유무선 오디오 장치 간의 오디오 품질 격차를 더 이상 달성할 수 없다. 전송되는 데이터의 증가에 따라 사용자는 더 많은 디테일과 더 나은 음장(sound field)을 경험할 수 있게 하고 음악의 감성에 몰입할 수 있다. 그러나 SBC 데이터 속도의 3배 이상은 많은 실제 응용 프로그램에서 너무 높을 수 있다.

도 1은 일부 구현들에 따른 L2HC(저지연 및 저복잡성 고해상도 코덱) 인코더(100)의 예시적인 구조를 도시한다. 도 2는 일부 구현들에 따른 L2HC 디코더(200)의 예시적인 구조를 도시한다. 일반적으로 L2HC는 합리적으로 낮은 비트 전송 레이트에서 "투명한" 품질을 제공할 수 있다. 일부 경우에 인코더(100) 및 디코더(200)는 신호 코덱 장치로 구현될 수 있다. 일부 경우에 인코더(100) 및 디코더(200)는 서로 다른 장치에서 구현될 수 있다. 일부 경우에, 인코더(100) 및 디코더(200)는 임의의 적절한 디바이스에서 구현될 수 있다. 일부 경우에, 인코더(100) 및 디코더(200)는 동일한 알고리즘 지연(예를 들어, 동일한 프레임 크기 또는 동일한 수의 서브프레임)을 가질 수 있다. 일부 경우에 샘플의 서브프레임 크기가 고정될 수 있다. 예를 들어 샘플링 레이트가 96kHz 또는 48kHz인 경우 서브프레임 크기는 192개 또는 96개 샘플이 될 수 있다. 각 프레임은 서로 다른 알고리즘 지연에 해당하는 1, 2, 3, 4 또는 5개의 서브프레임을 가질 수 있다. 일부 예에서, 인코더(100)의 입력 샘플링 레이트가 96kHz인 경우, 디코더(200)의 출력 샘플링 레이트는 96kHz 또는 48kHz일 수 있다. 일부 예에서, 샘플링 레이트의 입력 샘플링 레이트가 48kHz일 때, 디코더(200)의 출력 샘플링 레이트는 또한 96kHz 또는 48kHz일 수 있다. 일부 경우에는 인코더(100)의 입력 샘플링 레이트가 48kHz이고 디코더(200)의 출력 샘플링 레이트가 96kHz이면 고대역이 인위적으로 추가된다.

일부 예에서, 인코더(100)의 입력 샘플링 레이트가 88.2kHz일 때, 디코더(200)의 출력 샘플링 레이트는 88.2kHz 또는 44.1kHz일 수 있다. 일부 예에서, 인코더(100)의 입력 샘플링 레이트가 44.1kHz일 때, 디코더(200)의 출력 샘플링 레이트는 또한 88.2kHz 또는 44.1kHz일 수 있다. 마찬가지로, 인코더(100)의 입력 샘플링 레이트가 44.1kHz이고 디코더(200)의 출력 샘플링 레이트가 88.2kHz인 경우 고대역이 인위적으로 추가될 수도 있다. 96kHz 또는 88.2kHz 입력 신호를 인코딩하는 것과 동일한 인코더이다. 또한 48kHz 또는 44.1kHz 입력 신호를 인코딩하는 것도 동일한 인코더이다.

일부 경우에, L2HC 인코더(100)에서, 입력 신호 비트 깊이는 32b, 24b, 또는 16b일 수 있다. L2HC 디코더(200)에서, 출력 신호 비트 깊이는 또한 32b, 24b, 또는 16b일 수 있다. 일부 경우에, 인코더(100)에서의 인코더 비트 깊이와 디코더(200)에서의 디코더 비트 깊이는 상이할 수 있다.

일부 경우에 인코더(100)에서 코딩 모드(예를 들어, ABR_mode)가 설정될 수 있고, 실행 중에 실시간으로 수정될 수 있다. 일부 경우에 ABR_mode=0은 높은 비트 전송 레이트를 나타내고, ABR_mode=1은 중간 비트 전송 레이트를 나타내고, ABR_mode=2는 낮은 비트 전송 레이트를 나타낸다. 일부 경우에 ABR_mode 정보는 2비트를 소비하여 비트스트림 채널을 통해 디코더(200)로 전송될 수 있다. 디폴트 채널 수는 블루투스 이어폰 애플리케이션과 마찬가지로 스테레오(2채널)일 수 있다. 일부 예에서, ABR_mode=2에 대한 평균 비트 레이트는 370 내지 400kbps일 수 있고, ABR_mode=1에 대한 평균 비트 레이트는 450 내지 550kbps일 수 있고, ABR_mode=0에 대한 평균 비트 레이트는 550 내지 710kbps일 수 있다. 일부 경우에 모든 경우/모드에 대한 최대 인스턴트 비트 전송 레이트는 990kbps 미만일 수 있다.

도 1에 도시된 바와 같이, 인코더(100)는 프리-엠퍼시스 필터(104), 직교 미러 필터(QMF) 분석 필터 뱅크(106), 저저대역(low low band, LLB) 인코더(118), 저 고대역(low high band, LHB) 인코더(120), 고저대역(high low band, HLB) 인코더(122), 고고대역(high high band, HHB) 인코더(123), 및 멀티플렉서(126)를 포함한다. 원래의 입력 디지털 신호(102)는 먼저 프리-엠퍼시스 필터(pre-emphasis filter)(104)에 의해 사전 강조된다. 일부 경우에, 프리-엠퍼시스 필터(104)는 일정한 고역 통과 필터가 된다. 프리-엠퍼시스 필터(104)는 대부분의 음악 신호가 고주파수 대역 에너지보다 훨씬 높은 저주파 대역 에너지를 포함하기 때문에 대부분의 음악 신호에 유용하다. 고주파 대역 에너지의 증가는 고주파 대역 신호의 처리 정밀도를 증가시킬 수 있다.

프리-엠퍼시스 필터(104)의 출력은 QMF 분석 필터 뱅크(106)를 통과하여 4개의 부대역 신호 - LLB 신호(110), LHB 신호(112), HLB 신호(114), 및 HHB 신호(116)를 생성한다. 일 예에서, 원래의 입력 신호는 96kHz 샘플링 레이트로 생성된다. 이 예에서, LLB 신호(110)는 0-12kHz 부대역을 포함하고, LHB 신호(112)는 12-24kHz 부대역을 포함하고, HLB 신호(114)는 24-36kHz 부대역을 포함하고, HHB 신호(116)는 36-48kHz 부대역을 포함한다. 도시된 바와 같이, 4개의 부대역 신호 각각은 LLB 인코더(118), LHB 인코더(120), HLB 인코더(122), 및 HHB 인코더(124)에 의해 각각 인코딩되어 인코딩된 부대역 신호를 생성한다. 4개의 인코딩된 신호는 멀티플렉서(126)에 의해 멀티플렉싱되어 인코딩된 오디오 신호를 생성할 수 있다.

도 2에 도시된 바와 같이, 디코더(200)는 LLB 디코더(204), LHB 디코더(206), HLB 디코더(208), HHB 디코더(210), QMF 합성 필터 뱅크(212), 포스트-프로세스 컴포넌트(214), 및 디엠퍼시스 필터(de-emphasis filter)(216)를 포함한다. 일부 경우에, LLB 디코더(204), LHB 디코더(206), HLB 디코더(208), 및 HHB 디코더(210) 각각은 채널(202)로부터 인코딩된 부대역 신호를 수신하고 디코딩된 부대역 신호를 생성할 수 있다. 4개의 디코더(204-210)로부터 디코딩된 부대역 신호는 QMF 합성 필터 뱅크(212)를 통해 다시 합산되어 출력 신호를 생성할 수 있다. 출력 신호는 필요하다면 포스트-프로세스 컴포넌트(214)에 의해 포스트-프로세스될 수 있고, 디코딩된 오디오 신호(218)를 생성하기 위해 디엠퍼시스 필터(216)에 의해 디엠퍼시스될 수 있다. 일부 경우에, 디엠퍼시스 필터(216)는 하나의 예에서, 디코딩된 오디오 신호(218)는 디코더(200)에 의해 입력 오디오 신호(예를 들어, 오디오 신호(102))와 동일한 샘플링 레이트로 생성될 수 있다. 이 예에서, 디코딩된 오디오 신호(218)는 96kHz 샘플링 레이트에서 생성된다.

도 3 및 도 4는 LLB 인코더(300) 및 LLB 디코더(400)의 예시적인 구조를 각각 도시한다. 도 3에 도시된 바와 같이, LLB 인코더(300)는 고 스펙트럼 틸트 검출 컴포넌트(304), 틸트 필터(306), 선형 예측 코딩(LPC) 분석 컴포넌트(308), 역 LPC 필터(310), 장기 예측(LTP) 조건 컴포넌트(312), 하이 피치 검출 컴포넌트(314), 가중 필터(316), 고속 LTP 기여 컴포넌트(318), 가산 기능 유닛(320), 비트 레이트 제어 컴포넌트(322), 초기 잔차 양자화 컴포넌트(324), 비트 레이트 조정 컴포넌트(326), 및 고속 양자화 최적화 컴포넌트(328)를 포함한다.

도 3에 도시된 바와 같이, LLB 부대역 신호(302)는 먼저 스펙트럼 틸트 검출 컴포넌트(304)에 의해 제어되는 틸트 필터(306)를 통과한다. 일부 경우에, 틸트 필터링된 LLB 신호는 틸트 필터(306)에 의해 생성된다. 틸트 필터링된 LLB 신호는 그런 다음 LPC 분석 컴포넌트(308)에 의해 LPC 분석되어 LLB 부대역에서 LPC 필터 파라미터를 생성한다. 일부 경우에, LPC 필터 파라미터는 양자화되어 LLB 디코더(400)로 전송될 수 있다. 역 LPC 필터(310)는 틸트 필터링된 LLB 신호를 필터링하고 LLB 잔차 신호를 생성하기 위해 사용될 수 있다. 이 잔차 신호 도메인에서, 가중 필터(316)는 하이 피치 신호에 대해 추가된다. 일부 경우에, 가중 필터(316)는 하이 피치 검출 컴포넌트(314)에 의한 하이 피치 검출에 따라 스위치 온 또는 오프될 수 있으며, 이에 대한 자세한 내용은 나중에 더 자세히 설명될 것이다. 일부 경우에, 가중 필터(316)에 의해 가중된 LLB 잔차 신호가 생성될 수 있다.

도 3에 도시된 바와 같이, 가중된 LLB 잔차 신호는 참조 신호가 된다. 일부 경우에, 원래의 신호에 강한 주기성이 존재할 때, LTP 조건(312)에 기초하여 고속 LTP 기여 컴포넌트(318)에 의해 LTP(장기 예측(Long-Term Prediction)) 기여가 도입될 수 있다. 인코더(300)에서, LTP 기여가 감산될 수 있다. 가산 기능 유닛(320)에 의해 가중된 LLB 잔차 신호로부터 초기 LLB 잔차 양자화 컴포넌트(324)에 대한 입력 신호가 되는 제2 가중된 LLB 잔차 신호를 생성한다. 일부 경우에, 초기 LLB 잔차 양자화 컴포넌트(324)의 출력 신호는 양자화된 LLB 잔차 신호(330)를 생성하기 위해 고속 양자화 최적화 컴포넌트(328)에 의해 처리된다. 일부 경우에, LTP 파라미터(LTP가 존재할 때)와 함께 양자화된 LLB 잔차 신호(330)는 비트스트림 채널을 통해 LLB 디코더(400)로 전송될 수 있다 .

도 4는 LLB 디코더(400)의 예시적인 구조를 도시한다. 도시된 바와 같이, LLB 디코더(400)는 양자화된 잔차 컴포넌트(406), 고속 LTP 기여 컴포넌트(408), LTP 스위치 플지연 컴포넌트(410), 가산 기능 유닛(414), 역 가중 필터(416), 하이 피치 플지연 컴포넌트(420), LPC 필터(422), 인버스 틸트 필터(424), 및 고 스펙트럼 틸트 플지연 컴포넌트(428)를 포함한다. 일부 경우에, 양자화된 잔차 컴포넌트(406)로부터의 양자화된 잔차 신호 및 고속 LTP 기여 컴포넌트(408)로부터의 LTP 기여 신호는 역 가중 필터(416)에 대한 입력 신호로서 가중된 LLB 잔차 신호를 생성하기 위해 가산 기능 유닛(414)에 의해 함께 추가될 수 있다.

일부 경우에, 역 가중 필터(416)는 가중을 제거하고 LLB 양자화된 잔차 신호의 스펙트럼 평탄도(spectral flatness)를 복구하는 데 사용될 수 있다. 일부 경우에, 복원된 LLB 잔차 신호는 역 가중 필터(416)에 의해 생성될 수 있다. 복원된 LLB 잔차 신호는 신호 도메인에서 LLB 신호를 생성하기 위해 LPC 필터(422)에 의해 다시 필터링될 수 있다. 일부 경우에, 틸트 필터(예를 들어, 틸트 필터(306))가 LLB 인코더(300)에 존재하는 경우, LLB 디코더(400)의 LLB 신호는 고 스펙트럼 타일 플지연 컴포넌트(428)에 의해 제어되는 인버스 틸트 필터(424)에 의해 필터링될 수 있다. 일부 경우에, 디코딩된 LLB 신호(430)는 인버스 틸트 필터(424)에 의해 생성될 수 있다.

도 5 및 도 6은 LHB 인코더(500) 및 LHB(600) 디코더의 예시적인 구조를 도시한다. 도 5에 도시된 바와 같이, LHB 인코더(500)는 LPC 분석 컴포넌트(504), 역 LPC 필터(506), 비트 레이트 제어 컴포넌트(510), 초기 잔차 양자화 컴포넌트(512), 및 고속 양자화 최적화 컴포넌트(514)를 포함한다. 일부 경우에, LHB 부대역 신호(502)는 LPC 분석 컴포넌트(504)에 의해 LPC 분석되어 LHB 부대역에서 LPC 필터 파라미터를 생성할 수 있다. 일부 경우에, LPC 필터 파라미터는 양자화되어 LHB 디코더(600)로 전송될 수 있다. LHB 부대역 신호(502)는 인코더(500)에서 역 LPC 필터(506)에 의해 필터링될 수 있다. 일부 경우에, LHB 잔차 신호는 역 LPC 필터(506)에 의해 생성될 수 있다. LHB 잔차 양자화를 위한 입력 신호가 되는 LHB 잔차 신호는 양자화된 LHB 잔차 신호(516)를 생성하기 위해 초기 잔차 양자화 컴포넌트(512) 및 고속 양자화 최적화 컴포넌트(514)에 의해 처리될 수 있다. 양자화된 LHB 잔차 신호(516)는 LHB 디코더(600)에 후속적으로 전송될 수 있다. 도 6에 도시된 바와 같이, 비트(602)로부터 획득된 양자화된 잔차(604)는 디코딩된 LHB 신호(608)를 생성하기 위해 LHB 부대역에 대한 LPC 필터(606)에 의해 처리될 수 있다.

도 7 및 도 8은 HLB 및/또는 HHB 부대역에 대한 인코더(700) 및 디코더(800)의 예시적인 구조를 예시한다. 도시된 바와 같이, 인코더(700)는 LPC 분석 컴포넌트(704), 역 LPC 필터(706), 비트 레이트 스위치 컴포넌트(708), 비트 레이트 제어 컴포넌트(710), 잔차 양자화 컴포넌트(712), 및 에너지 엔벨로프 양자화 컴포넌트(714)를 포함한다. HLB와 HHB는 상대적으로 높은 주파수 영역에 위치한다. 일부 경우에는 두 가지 가능한 방법으로 인코딩 및 디코딩된다. 예를 들어, 비트 전송 레이트가 충분히 높으면(예를 들어, 96kHz/24비트 스테레오 코딩이 경우 700kbps보다 높다) LHB처럼 인코딩 및 디코딩될 수 있다. 일 예에서, HLB 또는 HHB 부대역 신호(702)는 HLB 또는 HHB 부대역에서 LPC 필터 파라미터들을 생성하기 위해 LPC 분석 컴포넌트(704)에 의해 LPC 분석될 수 있다. 일부 경우에, LPC 필터 파라미터는 양자화되어 HLB 또는 HHB 디코더(800)로 전송될 수 있다. HLB 또는 HHB 부대역 신호(702)는 HLB 또는 HHB 잔차 신호를 생성하기 위해 역 LPC 필터(706)에 의해 필터링될 수 있다. 잔차 양자화를 위한 목표 신호가 되는 HLB 또는 HHB 잔차 신호는 잔차 양자화 컴포넌트(712)에 의해 처리되어 양자화된 HLB 또는 HHB 잔차 신호(716)를 생성할 수 있다. 양자화된 HLB 또는 HHB 잔차 신호(716)는 디코더 측(예를 들어, 디코더(800))에 후속적으로 전송되고 잔차 디코더(806) 및 LPC 필터(812)에 의해 처리되어 디코딩된 HLB 또는 HHB 신호(814)를 생성할 수 있다.

일부 경우에, 비트 레이트가 상대적으로 낮으면(예를 들어, 96kHz/24비트 스테레오 코딩의 경우 500kbps 미만이다), HLB 또는 HHB 부대역에 대한 LPC 분석 컴포넌트(704)에 의해 생성된 LPC 필터의 파라미터가 여전히 양자화되어 디코더 측(예를 들어, 디코더(800))으로 전송된다. 그러나 HLB 또는 HHB 잔차 신호는 비트를 소비하지 않고 생성될 수 있으며 잔차 신호의 시간 도메인 에너지 엔벨로프만이 양자화되어 매우 낮은 비트 레이트(예를 들어, 에너지 엔벨로프를 인코딩하기 위해 3kbps 미만)으로 디코더에 전송된다. 일 예에서, 에너지 엔벨로프 양자화 컴포넌트(714)는 역 LPC 필터로부터 HLB 또는 HHB 잔차 신호를 수신하고 디코더(800)에 후속적으로 전송될 수 있는 출력 신호를 생성할 수 있다. 그런 다음, 인코더(700)로부터의 출력 신호는 에너지 엔벨로프 디코더(808) 및 잔차 생성 컴포넌트(810)에 의해 처리되어 LPC 필터(812)에 대한 입력 신호를 생성할 수 있다. 일부의 경우에, LPC 필터(812)는 잔차 생성 컴포넌트(810)로부터 HLB 또는 HHB 잔차 신호를 수신하고 디코딩된 HLB 또는 HHB 신호(814)를 생성할 수 있다.

도 9는 하이 피치 신호의 예시적인 스펙트럼 구조(900)를 도시한다. 일반적으로 정상적인 음성 신호는 상대적으로 하이 피치 스펙트럼 구조를 갖는 경우가 드물다. 그러나 음악 신호와 노래하는 음성 신호는 종종 고음 스펙트럼 구조를 포함한다. 도시된 바와 같이, 스펙트럼 구조(900)는 상대적으로 더 높은(예를 들어, F0>500Hz) 제1 고조파 주파수 F0 및 상대적으로 더 낮은 배경 스펙트럼 레벨을 포함한다. 이 경우, 스펙트럼 구조(900)를 갖는 오디오 신호는 고음의 신호로 간주될 수 있다. 하이 피치 신호의 경우 히어링 마스킹 효과(hearing masking effect)가 없기 때문에 0Hz와 F0 사이의 코딩 오류가 쉽게 들릴 수 있다. 오류(예를 들어, F1과 F2 사이의 오류)는 F1과 F2의 피크 에너지가 정확하기만 하면 F1과 F2에 의해 마스킹될 수 있다. 그러나 비트 전송 레이트가 충분히 높지 않으면 코딩 오류를 피할 수 없다.

일부 경우에는 LTP에서 정확한 짧은 피치(하이 피치) 지연을 찾는 것이 신호 품질을 개선하는 데 도움이 될 수 있다. 그러나 "투명한" 품질을 달성하기에는 충분하지 않을 수 있다. 강력한 방식으로 신호 품질을 개선하기 위해 적응 가중 필터가 도입될 수 있다. 이 필터는 고주파수에서 코딩 오류를 증가시키는 대가로 매우 낮은 주파수를 향상시키고 매우 낮은 주파수에서 코딩 오류를 줄인다. 일부 경우에, 적응 가중 필터(예를 들어, 가중 필터(316))는 아래와 같은 일차 극 필터(one order pole filter)일 수 있고:

,

그리고 역 가중 필터(예를 들어, 역 가중 필터(416))는 아래와 같이 일차 제로 필터(one order zero filter)일 수 있다:

.

일부 경우에, 적응 가중 필터는 하이 피치의 경우를 개선하기 위해 보여질 수 있다. 그러나 다른 경우에는 품질이 저하될 수 있다. 따라서, 일부 경우에, 적응 가중 필터는 하이 피치 경우의 검출에 기초하여 (예를 들어, 도 3의 하이 피치 검출 컴포넌트(314)를 사용하여) 스위치 온 및 오프될 수 있다. 하이 피치 신호를 검출하는 방법에는 여러 가지가 있다. 하나의 방법이 도 10을 참조하여 아래에서 설명된다.

도 10에 도시된 바와 같이, 현재 피치 이득(current pitch gain)(1002), 평활화된 피치 이득(smoothed pitch gain)(1004), 피치 지연 길이(pitch lag length)(1006) 및 스펙트럼 틸트(spectral tilt)(1008)를 포함하는 4개의 파라미터는 하이 피치 신호가 존재하는지를 결정하기 위해 하이 피치 검출 컴포넌트(1010)에 의해 사용될 수 있다. 일부 경우에, 피치 이득(1002)은 신호의 주기성을 나타낸다. 일부 경우에, 평활화된 피치 이득(1004)은 피치 이득(1002)의 정규화된 값을 나타낸다. 일 예에서, 정규화된 피치 이득(예를 들어, 평활화된 피치 이득(1004))이 0과 1 사이인 경우, 정규화된 피치 이득의 높은 값은 (예를 들어, 정규화된 피치 이득이 1에 가까울 때) 스펙트럼 영역에서 강한 고조파의 존재를 나타낼 수 있다. 평활화된 피치 이득(1004)은 주기성이 안정적임을 나타낼 수 있다(단지 국부적이지 않다). 일부 경우에, 피치 지연 길이(1006)가 짧으면(예를 들어, 3ms 미만), 이것은 제1 고조파 주파수 F0가 크다(높다)는 것을 의미한다. 스펙트럼 틸트(1008)는 하나의 샘플 거리에서의 세그먼트 신호 상관 또는 LPC 파라미터의 제1 반사 계수에 의해 측정될 수 있다. 일부 경우에, 스펙트럼 틸트(1008)는 초저 주파수 영역이 상당한 에너지를 포함하는지를 나타내기 위해 사용될 수 있다. 매우 낮은 주파수 영역(예를 들어, F0보다 낮은 주파수)의 에너지가 상대적으로 높으면 하이 피치 신호가 존재하지 않을 수 있다. 일부 경우에 하이 피치 신호가 감지되면 가중치 필터가 적용될 수 있다. 그렇지 않으면 하이 피치 신호가 감지되지 않을 때 가중치 필터가 적용되지 않을 수 있다.

도 11은 하이 피치 신호의 지각적 가중을 수행하는 예시적인 방법(1100)을 예시하는 흐름도이다. 일부 경우에, 방법(1100)은 오디오 코덱 디바이스(예를 들어, LLB 인코더(300))에 의해 구현될 수 있다. 일부 경우에, 방법(1100)은 임의의 적절한 장치에 의해 구현될 수 있다.

방법(1100)은 신호(예를 들어, 도 1의 신호(102))가 수신되는 블록(1102)에서 시작할 수 있다. 일부 경우에 신호는 오디오 신호일 수 있다. 일부 경우에, 신호는 하나 이상의 부대역 성분을 포함할 수 있다. 일부 경우에, 신호는 LLB 성분, LHB 성분, HLB 성분 및 HHB 성분을 포함할 수 있다. 일 예에서, 신호는 96kHz의 샘플링 레이트에서 생성될 수 있고 48kHz의 대역폭을 가질 수 있다. 이 예에서, 신호의 LLB 성분은 0-12kHz 부대역을 포함할 수 있고, LHB 성분은 12-24kHz 부대역을 포함할 수 있고, HLB 성분은 24-36kHz 부대역을 포함할 수 있고, HHB 성분은 36-48kHz 부대역을 포함할 수 있다. 일부 경우에, 신호는 4개의 부대역에서 부대역 신호를 생성하기 위해 프리-엠퍼시스 필터(예를 들어, 프리-엠퍼시스 필터(104)) 및 QMF 분석 필터 뱅크(예를 들어, QMF 분석 필터 뱅크(106))에 의해 처리될 수 있다. 이 예에서, LLB 부대역 신호, LHB 부대역 신호, HLB 부대역 신호 및 HHB 부대역 신호는 4개의 부대역에 대해 각각 생성될 수 있다.

블록(1104)에서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호가 생성된다. 일부 경우에, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호는 틸트 필터링된 신호를 생성하기 위해 틸트 필터링될 수 있다. 일 예에서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호는 LLB 부대역의 부대역 신호(예를 들어, 도 3의 LLB 부대역 신호(302))를 포함할 수 있다. 일부 경우에, 틸트 필터링된 신호는 역 LPC 필터(예를 들어, 역 LPC 필터(310))에 의해 추가 처리되어 잔차 신호를 생성할 수 있다.

블록(1106)에서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정된다. 일부 경우에, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호는 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 현재 피치 이득, 평활화된 피치 이득, 피치 지연 길이, 또는 스펙트럼 틸트 중 적오도 하나에 기초하여 하이 피치 신호인 것으로 결정된다.

일부 경우에, 피치 이득은 신호의 주기성을 나타내고, 평활화된 피치 이득은 피치 이득의 정규화된 값을 나타낸다. 일부 예에서, 정규화된 피치 이득은 0과 1 사이일 수 있다. 이러한 예에서, 정규화된 피치 이득의 높은 값(예를 들어, 정규화된 피치 이득이 1에 가까울 때)은 스펙트럼 도메인에서 강한 고조파의 존재를 나타낼 수 있다. 일부 경우에, 짧은 피치 지연 길이는 제1 고조파 주파수(예를 들어, 도 9의 주파수 F0(906))가 크다(높다)는 것을 의미한다. 제1 고조파 주파수 F0가 상대적으로 더 높고(예를 들어, F0>500Hz) 배경 스펙트럼 레벨이 상대적으로 더 낮은 경우(예를 들어, 미리 결정된 임계값 미만), 하이 피치 신호가 검출될 수 있다. 일부 경우에, 스펙트럼 틸트는 하나의 샘플 거리에서의 세그먼트 신호 상관 또는 LPC 파라미터의 제1 반사 계수에 의해 측정될 수 있다. 일부 경우에는 스펙트럼 틸트가 매우 낮은 주파수 영역에 상당한 에너지가 포함되어 있는지를 나타내는 데 사용될 수 있다. 매우 낮은 주파수 영역(예를 들어, F0보다 낮은 주파수)의 에너지가 상대적으로 높으면 하이 피치 신호가 존재하지 않을 수 있다.

블록(1108)에서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호라는 결정에 응답하여 하나 이상의 부대역 신호 중 적어도 하나의 잔차 신호에 대해 가중 동작이 수행된다. 일부 경우에, 하이 피치 신호가 검출될 때, 가중 필터(예를 들어, 가중 필터(316))가 잔차 신호에 적용될 수 있다. 일부 경우에 가중 잔차 신호가 생성될 수 있다. 일부 경우에 하이 피치 신호가 감지되지 않으면 가중 연산이 수행되지 않을 수 있다.

언급한 바와 같이, 하이 피치 신호의 경우, 낮은 주파수 영역에서의 코딩 오류는 청력 마스킹 효과의 부족으로 인해 지각적으로 감지될 수 있다. 비트 전송 레이트가 충분히 높지 않으면 코딩 오류를 피할 수 없다. 적응 가중 필터(예를 들어, 가중 필터(316)) 및 본 명세서에 설명된 가중 방법은 코딩 에러를 감소시키고 저주파 영역에서 신호 품질을 개선하기 위해 사용될 수 있다. 그러나 일부 경우에 이것은 더 높은 주파수에서 코딩 오류를 증가시킬 수 있으며, 이는 하이 피치 신호의 지각 품질에 중요하지 않을 수 있다. 일부 경우에 적응 가중 필터는 하이 피치 신호의 감지에 따라 조건부로 턴 온 및 오프될 수 있다. 상술한 바와 같이, 가중치 필터는 하이 피치 신호가 감지되면 턴 온되고 하이 피치 신호가 감지되지 않으면 턴 오프될 수 있다. 이러한 방식으로, 고음 케이스의 품질은 여전히 개선될 수 있지만 고음이 아닌 케이스의 품질은 손상되지 않을 수 있다.

블록(1110)에서, 블록(1108)에서 생성된 가중된 잔차 신호에 기초하여 양자화된 잔차 신호가 생성된다. 일부 경우에, 가중된 잔차 신호는 LTP 기여와 함께 가산 기능 유닛에서 처리되어 제2 가중 잔차 신호를 생성할 수 있다. 일부 경우에, 제2 가중 잔차 신호는 양자화되어 양자화된 잔차 신호를 생성할 수 있으며, 이 신호는 디코더 측(예를 들어, 도 4의 LLB 디코더(400))로 더 전송될 수 있다.

도 12 및 도 13은 잔차 양자화 인코더(1200) 및 잔차 양자화 디코더(1300)의 예시적인 구조를 도시한다. 일부 예에서, 잔차 양자화 인코더(1200) 및 잔차 양자화 디코더(1300)는 LLB 부대역에서 신호를 처리하기 위해 사용될 수 있다. 도시된 바와 같이, 잔차 양자화 인코더(1200)는 에너지 엔벨로프 코딩 컴포넌트(1204), 잔차 정규화 컴포넌트(1206), 제1 대형 단계 코딩 컴포넌트(1210), 제1 미세 스텝 균일 컴포넌트(1212), 목표 최적화 컴포넌트(1214), 비트 레이트 조정 컴포넌트(1216), 제2 대형 단계 코딩 컴포넌트(1218) 및 제2 미세 스텝 코딩 컴포넌트(1220)를 포함한다.

도시된 바와 같이, LLB 부대역 신호(1202)는 에너지 엔벨로프 코딩 컴포넌트(1204)에 의해 먼저 처리될 수 있다. 일부 경우에, LLB 잔차 신호의 시간 도메인 에너지 엔벨로프는 에너지 엔벨로프 코딩 컴포넌트(1204)에 의해 결정되고 양자화될 수 있다. 일부 경우에, 양자화된 시간 도메인 에너지 엔벨로프는 디코더 측(예를 들어, 디코더(1300))으로 전송될 수 있다. 일부 예에서, 결정된 에너지 엔벨로프는 잔류 도메인에서 12dB 내지 132dB의 동적 범위를 가질 수 있으며, 이는 매우 낮은 레벨 및 매우 높은 레벨을 커버한다. 일부 경우에, 한 프레임의 모든 서브프레임은 하나의 에너지 레벨 양자화를 가지며 그 프레임의 피크 서브프레임 에너지는 dB 도메인에서 직접 코딩될 수 있다. 동일한 프레임의 다른 서브프레임 에너지는 피크 에너지와 현재 에너지 간의 차이를 코딩함으로써 허프만 코딩 접근법으로 코딩될 수 있다. 일부 경우에 하나의 서브프레임 기간이 약 2ms 정도로 짧을 수 있으므로 사람의 귀 마스킹 원리에 따라 엔벨로프 정밀도가 허용될 수 있다.

양자화된 시간 도메인 에너지 엔벨로프를 가진 후, LLB 잔차 신호는 잔차 정규화 컴포넌트(1206)에 의해 정규화될 수 있다. 일부 경우에, LLB 잔차 신호는 양자화된 시간 도메인 에너지 엔벨로프에 기초하여 정규화될 수 있다. 일부 예에서, LLB 잔차 신호는 정규화된 LLB 잔차 신호를 생성하기 위해 양자화된 시간 도메인 에너지 엔벨로프에 의해 분할될 수도 있다. 일부의 경우에, 정규화된 LLB 잔차 신호는 초기 양자화를 위한 초기 목표 신호(1208)로서 사용될 수 있다. 일부 경우에, 초기 양자화는 코딩/양자화의 두 단계를 포함할 수 있다. 일부 경우에, 코딩/양자화의 제1 단계는 큰 단계의 허프만 코딩을 포함하고, 코딩/양자화의 제2 단계는 미세 스텝 균일 코딩을 포함한다. 도시된 바와 같이, 정규화된 LLB 잔차 신호인 초기 목표 신호(1208)는 먼저 대형 스텝 허프만 코딩 컴포넌트(1210)에 의해 처리될 수 있다. 고해상도 오디오 코덱의 경우 모든 잔차 샘플이 양자화될 수 있다. 허프만 코딩은 특수 양자화 인덱스 확률 분포(quantization index probability distribution)를 활용하여 비트를 절약할 수 있다. 일부 경우에 잔차 양자화 단계 크기가 충분히 크면 양자화 지수 확률 분포가 허프만 코딩에 적합하게 된다. 일부 경우에는 큰 단계 양자화의 양자화 결과가 차선책일 수 있다. 허프만 코딩 후에 더 작은 양자화 단계로 균일한 양자화가 추가될 수 있다. 도시된 바와 같이, 미세 스텝 균일 코딩 컴포넌트(1212)는 대형 스텝 허프만 코딩 컴포넌트(1210)로부터의 출력 신호를 양자화하기 위해 사용될 수 있다. 이와 같이, 정규화된 LLB 잔차 신호의 코딩/양자화의 제1 단계는 양자화된 코딩 인덱스의 특별한 분포는 더 효율적인 허프만 코딩으로 이어지며, 코딩/양자화의 제2 단계는 제1 단계 코딩/양자화에서의 양자화 오류를 더 줄이기 위해 상대적으로 작은 양자화 단계로 비교적 간단한 균일 코딩을 사용한다.

일부 경우에, 초기 잔차 신호는 잔차 양자화에 오류가 없거나 충분히 작은 오류가 있는 경우 이상적인 목표 참조가 될 수 있다. 코딩 비트 레이트가 충분히 높지 않으면 코딩 오류가 항상 존재할 수 있으며 중요하지 않을 수 있다. 따라서, 이 초기 잔차 목표 참조 신호(1208)는 양자화에 대해 지각적으로 차선책일 수 있다. 초기 잔차 목표 참조 신호(1208)가 지각적으로 차선책이지만, 신속한 양자화 오류 추정을 제공할 수 있으며, 이것은 코딩 비트 레이트를 조정하는 데 (예를 들어, 비트 레이트 조정 컴포넌트(1216)에 의해) 사용될 수 있을 뿐만 아니라 지각적으로 최적화된 목표 참조 신호를 구축하는 데도 사용된다. 일부 경우에, 지각적으로 최적화된 목표 참조 신호는 초기 잔차 목표 참조 신호(1208) 및 초기 양자화의 출력 신호(예를 들어, 미세 스텝 균일 코딩 컴포넌트(1212)의 출력 신호)에 기초하여 목표 최적화 컴포넌트(1214)에 의해 생성될 수 있다.

일부 경우에, 최적화된 목표 참조 신호는 현재 샘플뿐만 아니라 이전 샘플 및 미래 샘플의 오류 영향을 최소화하는 방식으로 구축될 수 있다. 또한, 인간의 귀 지각 마스킹 효과를 고려하기 위해 스펙트럼 영역의 오류 분포를 최적화할 수 있다.

최적화된 목표 참조 신호가 목표 최적화 컴포넌트(1214)에 의해 구축된 후, 제1(초기) 양자화 결과를 대체하고 더 나은 지각 품질을 얻기 위해 제1 스텝 허프만 코딩 및 제2 단계 균일 코딩이 다시 수행될 수 있다. 이 예에서, 제2 대형 스텝 허프만 코딩 컴포넌트(1218) 및 제2 미세 스텝 균일 코딩 컴포넌트(1220)는 최적화된 목표 참조 신호에 대해 제1 스테이지 허프만 코딩 및 제2 스테이지 균일 코딩을 수행하는 데 사용될 수 있다. 초기 목표 참조 신호 및 최적화된 목표 참조 신호의 양자화에 대해서는 아래에서 더 자세히 논의될 것이다.

일부 예에서, 양자화되지 않은 잔차 신호 또는 초기 목표 잔차 신호는 에 의해 표현될 수도 있다. 을 목표로 사용하여, 잔차 신호는 초기에 양자화되어 으로 표시된 제1 양자화된 잔차 신호를 얻을 수 있다. 에 기초하여, 및 지각 가중 필터의 임펄스 응답 을 기반으로 지각적으로 최적화된 목표 잔차 신호 을 평가할 수 있다. 업데이트되거나 최적화된 목표로서 을 사용하여, 잔차 신호는 으로 표시된 제2 양자화된 잔차 신호를 얻기 위해 다시 양자화될 수 있으며, 제2 양자화된 잔차 신호는 제1 양자화된 잔차 신호 을 대체하도록 지각적으로 최적화되었다. 일부 경우에, 은 예를 들어 LPC 필터에 기초하여 을 추정함으로써 많은 가능한 방식으로 결정될 수 있다.

일부 경우에, LLB 부대역에 대한 LPC 필터는 다음과 같이 표현될 수 있다:

지각적으로 가중된 필터 W(z)는 다음과 같이 정의될 수 있다:

여기서 는 상수 계수이고, 0<<1이다. 는 LPC 필터의 제1 반사 계수이거나 단순히 상수일 수 있고, -1<<1이다. 필터 W(z)의 임펄스 응답은 으로 정의될 수 있다. 일부 경우에는 의 길이가 와 의 값에 따라 달라진다. 일부 경우에는 와 가 0에 가까울 때 의 길이가 짧아지고 빠르게 0으로 감소한다. 계산 복잡성의 관점에서 볼 때 짧은 임펄스 응답 을 갖는 것이 최적이다. 이 충분히 짧지 않은 경우 을 0으로 빠르게 감소시키기 위해 하프 해밍 윈도우(half-jamming window) 또는 하프 해닝 윈도우(half-hanning window)로 곱할 수 있다. 임펄스 응답 을 얻은 후, 지각적으로 가중된 신호 영역의 목표는 다음과 같이 표현될 수 있고

이것은 과 사이의 컨볼루션이다. 지각적으로 가중된 신호 영역에서 초기 양자화된 잔차 의 기여는 다음과 같이 표현될 수 있다.

잔차 도메인에서의 오류

는 직접 잔차 영역에서 양자화되어 최소화된다. 그러나 지각적으로 가중된 신호 영역의 오류

는 최소화되지 않을 수 있다. 따라서 지각적으로 가중된 신호 영역에서 양자화 오류를 최소화해야 할 수 있다. 일부 경우에는 모든 잔차 샘플이 공동으로 양자화될 수 있다. 그러나 이로 인해 추가 복잡성이 발생할 수 있다. 일부 경우에는 잔차가 샘플별로 양자화되지만 지각적으로 최적화될 수 있다. 예를 들어, 은 현재 프레임의 모든 샘플에 대해 초기에 설정될 수 있다. m에서의 샘플이 양자화되지 않은 것을 제외하고 모든 샘플이 양자화되었다고 가정하면 현재 m에서 지각적으로 가장 좋은 값은 이 아니지만 다음

이어야 하고, 여기서 은 벡터 과 벡터 사이의 상호 상관을 나타내며, 여기서 벡터 길이는 임펄스 반응 의 길이와 같고 의 벡터 시작점은 m에 있다. 은 벡터의 에너지이며, 이는 동일한 프레임에서 일정한 에너지이다. 은 다음과 같이 표현할 수 있다.

일단 지각적으로 최적화된 새로운 목표 값 이 결정되면, 대형 스텝 허프만 코딩 및 미세 스텝 균일 코딩을 포함하는 초기 양자화와 유사한 방식으로 을 생성하기 위해 다시 양자화될 수 있다. 그런 다음 m은 다음 샘플 위치로 이동한다. 위의 처리는 샘플별로 반복되는 반면 식 (7)과 (8)은 모든 샘플이 최적으로 양자화될 때까지 새로운 결과로 업데이트된다. 각 m에 대한 각 업데이트 동안 의 대부분의 샘플이 변경되지 않기 때문에 식 (8)을 다시 계산할 필요가 없다. 식 (7)에서 분모는 상수이므로 나눗셈이 상수 곱셈이 될 수 있다.

도 13에 도시된 바와 같이 디코더 측에서, 대형 스텝 허프만 디코딩(1302) 및 미세 스텝 균일 디코딩(1304)으로부터의 양자화된 값은 가산 기능 유닛(1306)에 의해 함께 가산되어 정규화된 잔차 신호를 형성한다. 정규화된 잔차 신호는 디코딩된 잔차 신호(1310)를 생성하기 위해 시간 도메인에서 에너지 엔벨로프 디코딩 컴포넌트(1308)에 의해 처리될 수 있다.

도 14는 신호에 대해 잔차 양자화를 수행하는 예시적인 방법(1400)을 예시하는 흐름도이다. 일부 경우에, 방법(1400)은 오디오 코덱 디바이스(예를 들어, LLB 인코더(300) 또는 잔차 양자화 인코더(1200))에 의해 구현될 수 있다. 일부 경우에, 방법(1100)은 임의의 적절한 장치에 의해 구현될 수 있다.

방법(1400)은 입력 잔차 신호의 시간 도메인 에너지 엔벨로프가 결정되는 블록(1402)에서 시작한다. 일부 경우에, 입력 잔차 신호는 LLB 부대역의 잔차 신호(예를 들어, LLB 잔차 신호(1202))일 수 있다.

블록(1404)에서, 입력 잔차 신호의 시간 도메인 에너지 엔벨로프가 양자화되어 양자화된 시간 도메인 에너지 엔벨로프를 생성한다. 일부 경우에, 양자화된 시간 도메인 에너지 엔벨로프는 디코더 측(예를 들어, 디코더(1300))으로 전송될 수 있다.

블록(1406)에서, 입력 잔차 신호는 제1 목표 잔차 신호를 생성하기 위해 양자화된 시간 도메인 에너지 엔벨로프에 기초하여 정규화된다. 일부 경우에, LLB 잔차 신호는 정규화된 LLB 잔차 신호를 생성하기 위해 양자화된 시간 도메인 에너지 엔벨로프에 의해 분할될 수 있다. 일부 경우에 정규화된 LLB 잔차 신호가 초기 양자화를 위한 초기 목표 신호로 사용될 수 있다.

블록(1408)에서, 제1 양자화된 잔차 신호를 생성하기 위해 제1 비트 레이트에서 제1 목표 잔차 신호에 대해 제1 양자화가 수행된다. 일부 경우에, 제1 잔차 양자화는 2개의 하위-양자화/코딩 단계를 포함할 수 있다. 제1 하위-양자화 출력 신호를 생성하기 위해 제1 양자화 단계에서 제1 목표 잔차 신호에 대해 제1 하위-양자화 단계가 수행될 수 있다. 제2 양자화 단계에서 제1 하위-양자화 출력 신호에 대해 제2 하위-양자화 단계가 수행되어 제1 양자화된 잔차 신호를 생성할 수 있다. 일부 경우에는 제1 양자화 단계가 제2 양자화 단계보다 크기가 더 크다. 일부 예에서, 하위-양자화의 제1 단계는 대형 스텝 허프만 코딩(large step Huffman coding)일 수 있고, 하위-양자화의 제2 단계는 미세 스텝 균일 코딩(fine step uniform coding)일 수 있다.

일부 경우에, 제1 목표 잔차 신호는 복수의 샘플을 포함한다. 제1 양자화는 샘플 단위로 제1 목표 잔차 신호에 대해 수행될 수 있다. 일부 경우에 양자화의 복잡성을 줄여 양자화 효율성을 향상시킬 수 있다.

블록(1410)에서, 제1 양자화된 잔차 신호 및 제1 목표 잔차 신호에 적어도 기초하여 제2 목표 잔차 신호가 생성된다. 일부 경우에, 제2 목표 잔차 신호는 제1 목표 잔차 신호, 제1 양자화된 잔차 신호, 지각 가중 필터의 임펄스 응답 에 기초하여 생성될 수 있다. 일부 경우에, 제2 잔차 양자화를 위해 제2 목표 잔차 신호인 지각적으로 최적화된 목표 잔차 신호가 생성될 수 있다.

블록(1412)에서, 제2 비트 레이트에서 제2 목표 잔차 신호에 대해 제2 잔차 양자화가 수행되어 제2 양자화된 잔차 신호를 생성한다. 일부 경우에, 제2 비트 레이트는 제1 비트 레이트와 다를 수 있다. 일 예에서, 제2 비트 레이트는 제1 비트 레이트보다 높을 수 있다. 일부 경우에, 제1 비트 레이트에서의 제1 잔차 양자화로부터의 코딩 오류는 중요하지 않을 수 있다. 일부 경우에, 코딩 비트 레이트는 코딩 레이트를 감소시키기 위해 제2 잔차 양자화에서 조정될 수 있다(예를 들어, 상승될 수 있다).

일부 경우에, 제2 잔차 양자화는 제1 잔차 양자화와 유사하다. 일부 예에서, 제2 잔차 양자화는 또한 하위-양자화/코딩의 2개의 스테이지를 포함할 수도 있다. 이들 예에서, 하위-양자화의 제1 단계는 하위-양자화 출력 신호를 생성하기 위해 큰 양자화 단계에서 제2 목표 잔차 신호에 대해 수행될 수 있다. 제2 양자화 잔차 신호를 생성하기 위해 작은 양자화 단계에서 하위-양자화 출력 신호에 대해 하위-양자화의 제2 단계가 수행될 수 있다. 일부 경우에, 하위-양자화의 제1 단계는 대형 스텝 허프만 코딩일 수 있고, 하위-양자화의 제2 단계는 미세 스텝 균일 코딩일 수 있다. 일부 경우에, 제2 양자화된 잔차 신호는 비트스트림 채널을 통해 디코더 측(예를 들어, 디코더(1300))으로 전송될 수 있다.

도 3 내지 도 4에서 언급된 바와 같이, 더 나은 PLC를 위해 LTP를 조건부로 턴 온 및 턴 오프될 수 있다. 코덱 비트 레이트가 투명 품질을 달성하기에 충분히 높지 않은 경우 LTP는 주기적 및 고조파 신호에 매우 유용하다. 고해상도 코덱의 경우 LTP 애플리케이션에 대해 두 가지 문제를 해결해야 할 수 있다: (1) 기존 LTP가 높은 샘플링 레이트 환경에서 매우 높은 계산 복잡성을 요할 수 있으므로 계산 복잡성을 줄여야 한다; 및 (2) LTP가 프레임 간 상관 관계를 이용하고 전송 채널에서 패킷 손실이 발생할 때 오류 전파를 일으킬 수 있기 때문에 패킷 손실 은닉(packet loss concealment, PLC)에 대한 부정적인 영향을 제한해야 한다.

일부 경우에, 피치 지연 검색은 LTP에 추가적인 계산 복잡성을 추가한다. 코딩 효율을 개선하기 위해 LTP에서 보다 효율적인 것이 바람직할 수 있다. 피치 지연 검색의 예시적인 프로세스는 도 16 내지 도 16을 참조하여 아래에서 설명된다.

도 15는 피치 지연(1502)이 2개의 이웃하는 주기적 사이클 사이의 거리(예를 들어, 피크 P1 및 P2 사이의 거리)를 나타내는 유성음의 예를 도시한다. 일부 음악 신호는 강한 주기성을 가질 뿐만 아니라 안정적인 피치 지연(거의 일정한 피치 지연)을 가질 수 있다.

도 16은 더 나은 패킷 손실 은닉을 위해 LTP 제어를 수행하는 예시적인 프로세스(1600)를 도시한다. 일부 경우에, 프로세스(1600)는 코덱 장치(예를 들어, 인코더(100) 또는 인코더(300))에 의해 구현될 수 있다. 일부 경우에, 프로세스(1600)는 임의의 적합한 장치에 의해 구현될 수 있다. 프로세스(1600)는 피치 지연(이하에서 간략하게 "피치"로 설명됨) 검색 및 LTP 제어를 포함한다. 일반적으로 피치 검색은 많은 수의 피치 후보로 인해 기존 방식으로 높은 샘플링 레이트에서 복잡할 수 있다. 본 명세서에 기재된 바와 같은 프로세스(1600)는 3개의 페이즈/스텝을 포함할 수 있다. 제1 페이즈/스텝 동안, 신호(예를 들어, LLB 신호(1602))는 주기성이 주로 저주파 영역에 있기 때문에 저역 통과 필터링(1604)될 수 있다. 그런 다음, 필터링된 신호는 고속 초기 러프 피치 검색(fast initial rough pitch search)(1608)을 위한 입력 신호를 생성하기 위해 다운-샘플링될 수 있다. 일 예에서, 다운-샘플링된 신호는 2kHz 샘플링 레이트에서 생성된다. 낮은 샘플링 레이트에서 피치 후보의 총 개수가 많지 않기 때문에 샘플링 레이트가 낮은 모든 피치 후보를 검색하여 대략적인 피치 결과를 빠르게 얻을 수 있다. 일부 경우에, 초기 피치 검색(1608)은 짧은 윈도우로 정규화된 교차-상관(cross-correlation) 또는 큰 윈도우로 자동-상관(auto-correlation)을 최대화하는 종래의 접근 방식을 사용하여 수행될 수 있다.

초기 피치 검색 결과가 상대적으로 거칠 수 있기 때문에, 다중 초기 피치의 부근에서 교차-상관 접근법을 사용한 정밀 검색은 높은 샘플링 레이트(예를 들어, 24kHz)에서 여전히 복잡할 수 있다. 따라서, 제2 페이즈/스텝(예를 들어, 고속 미세 피치 검색(1610)) 동안, 낮은 샘플링 레이트에서 파형 피크 위치를 단순히 관찰함으로써 파형 영역에서 피치 정밀도가 증가될 수 있다. 그런 다음, 제3 페이즈/스텝(예를 들어, 최적화된 미세 피치 검색(1612)) 동안, 제2 페이즈/스텝으로부터의 미세 피치 검색 결과는 높은 샘플링 레이트에서 작은 검색 범위 내에서 교차-상관 접근법으로 최적화될 수 있다.

예를 들어, 제1 페이즈/스텝(예를 들어, 초기 피치 검색(1608)) 동안, 검색된 모든 피치 후보에 기초하여 초기 러프 피치 검색 결과가 획득될 수 있다. 일부의 경우에, 피치 후보 이웃은 초기 러프 피치 탐색 결과에 기초하여 정의될 수 있고 더 정확한 피치 탐색 결과를 얻기 위해 제2 페이즈/스텝에 사용될 수 있다. 제2 페이즈/스텝(예를 들어, 고속 미세 피치 검색(1610)) 동안, 파형 피크 위치는 제1 페이즈/스텝에서 결정된 바와 같이 피치 후보에 기초하여 피치 후보 이웃 내에서 결정될 수 있다. 도 15에 도시된 바와 같은 일 예에서, 도 15의 제1 피크 위치 P1은 초기 피치 검색 결과로부터 정의된 제한된 검색 범위 내에서 결정될 수 있다(예를 들어, 제1 페이즈/스텝으로부터 약 15% 변동이 결정된 피치 후보 이웃). 도 15의 제2 피크 위치 P2도 유사한 방식으로 결정될 수 있다. P1과 P2 사이의 위치 차이는 초기 피치 추정치보다 훨씬 더 정확한 피치 추정치가 된다. 일부 경우에, 제2 페이즈/스텝으로부터 획득된 보다 정확한 피치 추정은 최적화된 미세 피치 지연, 예를 들어 피치 후보 이웃, 예를 들어 제2 페이즈/스텝에서 약 15% 변동이 결정된 피치 후보 이웃을 찾기 위해 제3 페이즈/스텝에서 사용될 수 있는 제2 피치 후보 이웃을 정의하는 데 사용될 수 있다. 제3 페이즈/스텝(예를 들어, 최적화된 미세 피치 검색(1612)) 동안, 최적화된 미세 피치 지연은 매우 작은 검색 범위(예를 들어, 제2 피치 후보 이웃) 내에서 정규화된 교차-상관 접근법으로 검색될 수 있다.

일부 경우에는 LTP가 항상 턴 온되어 있으면 비트스트림 패킷이 손실될 때 가능한 오류 전파로 인해 PLC가 차선책일 수 있다. 일부 경우에는 LTP가 오디오 품질을 효율적으로 개선할 수 있고 PLC에 큰 영향을 미치지 않을 때 턴 온될 수 있다. 실제로, LTP는 피치 이득이 높고 안정적일 때 효율적일 수 있고, 이것은 높은 주기성이 적어도 여러 프레임(하나의 프레임이 아님) 동안 지속된다는 것을 의미한다. 일부 경우에 주기성이 높은 신호 영역에서 PLC는 항상 주기성을 사용하여 이전 정보를 현재 손실된 프레임에 복사하기 때문에 PLC는 상대적으로 간단하고 효율적이다. 일부 경우에 안정적인 피치 지연이 PLC에 대한 부정적인 영향을 줄일 수도 있다. 안정적인 피치 지연은 피치 지연 값이 적어도 몇 프레임 동안 크게 변하지 않는다는 것을 의미하며, 가까운 장래에 안정적인 피치를 얻을 수 있다. 일부 경우에 비트스트림 패킷의 현재 프레임이 손실되면 PLC는 현재 프레임을 복구하기 위해 이전 피치 정보를 사용할 수 있다. 이와 같이 안정적인 피치 지연은 PLC의 현재 피치 추정에 도움이 될 수 있다.

도 16을 참조하여 예를 계속하면, 주기성 검출(1614) 및 안정성 검출(1616)은 LTP를 턴 온 또는 턴 오프하기로 결정하기 전에 수행된다. 일부 경우에 피치 이득이 안정적으로 높고 피치 지연이 상대적으로 안정적인 경우 LTP가 턴 온될 수 있다. 예를 들어, 피치 이득은 블록(1618)에 도시된 바와 같이 매우 주기적이고 안정적인 프레임에 대해 설정될 수 있다(예를 들어, 피치 이득은 0.8보다 안정적으로 높음). 도 3에 도시된 바와 같이, LTP 기여 신호가 생성되고 가중된 잔차 신호와 결합되어 잔차 양자화를 위한 입력 신호를 생성할 수 있다. 반면, 피치 이득이 안정적으로 높지 않거나 피치 지연이 안정적이지 않은 경우 LTP가 턴 오프될 수 있다.

일부 경우에, 비트스트림 패킷이 손실될 때 가능한 오류 전파를 피하기 위해 LTP가 이전에 여러 프레임에 대해 턴 온된 경우 LTP가 하나 또는 두 개의 프레임에 대해 턴 오프될 수도 있다. 일 예에서, 블록(1620)에 도시된 바와 같이, 피치 이득은 더 나은 PLC를 위해 조건부로 0으로 재설정될 수 있으며, 예를 들어 LTP가 여러 프레임에 대해 이전에 턴 온된 경우이다. 일부 경우에 LTP가 턴 오프되어 있을 때 가변 비트 레이트 코딩 시스템에서 조금 더 많은 코딩 비트 레이트가 설정될 수 있다. 일부 경우에, LTP가 턴 온된 것으로 결정될 때, 피치 이득 및 피치 지연이 양자화되어 블록(1622)에 도시된 바와 같이 디코더 측으로 전송될 수 있다.

도 17은 오디오 신호의 예시적인 스펙트로그램을 도시한다. 도시된 바와 같이, 스펙트로그램(1702)은 오디오 신호의 시간-주파수 플롯을 보여준다. 스펙트로그램(1702)은 오디오 신호의 높은 주기성을 나타내는 많은 고조파를 포함하는 것으로 표시된다. 스펙트로그램(1704)은 오디오 신호의 원래 피치 이득을 보여준다. 피치 이득은 대부분의 시간 동안 안정적으로 높은 것으로 나타났으며, 이는 또한 오디오 신호의 높은 주기성을 나타낸다. 스펙트로그램(1706)은 오디오 신호의 평활화된 피치 이득(피치 상관)을 보여준다. 이 예에서 평활화된 피치 이득은 정규화된 피치 이득을 나타낸다. 스펙트로그램(1708)은 피치 지연을 나타내고 스펙트로그램(1710)은 양자화된 피치 이득을 보여준다. 피치 지연은 대부분의 시간 동안 비교적 안정적인 것으로 나타났다. 표시된 대로 피치 이득은 오류 전파를 방지하기 위해, LTP가 턴 오프되어 있음을 나타내는 0으로 주기적으로 재설정되었다. LTP가 꺼지면 양자화된 피치 이득도 0으로 설정된다.

도 18은 LTP를 수행하는 예시적인 방법(1800)을 예시하는 흐름도이다. 일부 경우에, 방법(1400)은 오디오 코덱 디바이스(예를 들어, LLB 인코더(300))에 의해 구현될 수 있다. 일부 경우에, 방법(1100)은 임의의 적절한 장치에 의해 구현될 수 있다.

방법(1800)은 입력 오디오 신호가 제1 샘플링 레이트로 수신되는 블록(1802)에서 시작한다. 일부 경우에, 오디오 신호는 복수의 제1 샘플을 포함할 수 있고, 여기서 복수의 제1 샘플은 제1 샘플 레이트에서 생성된다. 일 예에서, 복수의 제1 샘플은 96kHz의 샘플링 레이트에서 생성될 수 있다.

블록(1804)에서, 오디오 신호는 다운-샘플링된다. 일부 경우에, 오디오 신호의 복수의 제1 샘플은 제2 샘플링 레이트로 복수의 제2 샘플을 생성하기 위해 다운-샘플링될 수 있다. 일부 경우에는 제2 샘플링 레이트가 제1 샘플링 레이트보다 낮다. 이 예에서, 복수의 제2 샘플은 2kHz의 샘플링 레이트로 생성될 수 있다.

블록(1806)에서, 제1 피치 지연이 제2 샘플링 레이트에서 결정된다. 낮은 샘플링 레이트에서 피치 후보의 총 개수가 많지 않기 때문에 샘플링 레이트가 낮은 모든 피치 후보를 검색하여 대략적인 피치 결과를 빠르게 얻을 수 있다. 일부 경우에, 제2 샘플링 레이트에서 복수의 제2 샘플에 기초하여 복수의 피치 후보가 결정될 수 있다. 일부 경우에, 제1 피치 지연은 복수의 피치 후보에 대해 결정될 수 있다. 일부 경우에, 제1 피치 지연은 제1 윈도우와의 정규화된 교차-상관 또는 제2 윈도우와의 자동-상관을 최대화함으로써 결정될 수 있으며, 여기서 제2 윈도우는 제1 윈도우보다 크다.

블록(1808)에서, 블록(1804)에서 결정된 바와 같이 제1 피치 지연에 기초하여 제2 피치 지연이 결정된다. 일부 경우에, 제1 검색 범위가 제1 피치 지연에 기초하여 결정될 수 있다. 일부 경우에, 제1 피크 위치 및 제2 피크 위치는 제1 검색 범위 내에서 결정될 수 있다. 일부 경우에, 제2 피치 지연은 제1 피크 위치 및 제2 피크 위치에 기초하여 결정될 수 있다. 예를 들어, 제1 피크 위치와 제2 피크 위치 사이의 위치 차이는 제2 피치 지연을 결정하기 위해 사용될 수 있다.

블록(1810)에서, 블록(1808)에서 결정된 바와 같이 제2 피치 지연에 기초하여 제3 피치 지연이 결정된다. 일부 경우에, 제2 피치 지연은 최적화된 미세 피치 지연을 찾는 데 사용될 수 있는 피치 후보 이웃을 정의하는 데 사용될 수 있다. 예를 들어, 제2 피치 지연에 기초하여 제2 탐색 범위가 결정될 수 있다. 일부 경우에, 제3 피치 지연은 제3 샘플링 레이트에서 제2 검색 범위 내에서 결정될 수 있다. 일부 경우에는 제3 샘플링 레이트가 제2 샘플링 레이트보다 높다. 이 예에서, 제3 샘플링 레이트는 24kHz일 수 있다. 일부 경우에, 제3 피치 지연은 제3 샘플링 레이트에서 제2 검색 범위 내에서 정규화된 교차-상관 접근법을 사용하여 결정될 수 있다. 일부 경우에, 제3 피치 지연은 입력 오디오 신호의 피치 지연으로 결정될 수 있다.

블록(1812)에서, 입력 오디오 신호의 피치 이득이 미리 결정된 임계값을 초과했고 입력 오디오 신호의 피치 지연의 변화가 프레임의 적어도 미리 결정된 수에 대해 미리 결정된 범위 내에 있었다는 것으로 결정된다. LTP는 피치 이득이 높고 안정적일 때 더 효율적일 수 있고, 즉, 높은 주기성이 적어도 여러 프레임(하나의 프레임이 아님) 동안 지속된다. 일부 경우에 안정적인 피치 지연이 PLC에 대한 부정적인 영향을 줄일 수도 있다. 안정적인 피치 지연은 피치 지연 값이 적어도 수 개의 프레임 동안 크게 변하지 않는다는 것을 의미하며, 가까운 장래에 안정적인 피치를 얻을 수 있다.

블록(1814)에서, 입력 오디오 신호의 피치 이득이 미리 결정된 임계값을 초과했고 제3 피치 지연의 변화가 적어도 미리 결정된 수의 이전 프레임에 대해 미리 결정된 범위 내에 있었다는 결정에 응답하여 입력 오디오 신호의 현재 프레임에 대한 피치 이득이 설정된다. 이와 같이 매우 주기적이고 안정적인 프레임에 대해 피치 이득을 설정하여 PLC에 영향을 주지 않으면서 신호 품질을 향상시킨다.

일부 경우에, 입력 오디오 신호의 피치 이득이 미리 결정된 임계값보다 낮고 및/또는 제3 피치 지연의 변화가 적어도 미리 결정된 수 동안 미리 결정된 범위 내에 있지 않다고 결정한 것에 응답하여, 이전 프레임의 피치 이득은 입력 오디오 신호의 현재 프레임에 대해 0으로 설정된다. 이와 같이, 오류 전파가 감소될 수 있다.

언급된 바와 같이, 모든 잔차 샘플은 고해상도 오디오 코덱에 대해 양자화된다. 이것은 프레임 크기가 10ms에서 2ms로 변경될 때 잔차 샘플 양자화의 계산 복잡도 및 코딩 비트 레이트가 크게 변경되지 않을 수 있음을 의미한다. 그러나 프레임 크기가 10ms에서 2ms로 변경되면 LPC와 같은 일부 코덱 파라미터의 계산 복잡도 및 코딩 비트 레이트가 크게 증가할 수 있다. 일반적으로 LPC 파라미터는 모든 프레임에 대해 양자화되고 전송되어야 한다. 일부 경우에 현재 프레임과 이전 프레임 간의 LPC 차등 코딩은 비트를 절약할 수 있지만 전송 채널에서 비트스트림 패킷이 손실될 때 오류 전파를 일으킬 수도 있다. 따라서 낮은 지연 코덱을 구현하기 위해 짧은 프레임 크기를 설정할 수 있다. 일부 경우에 프레임 크기가 2ms와 같이 짧을 때 LPC 파라미터의 코딩 비트 전송 레이트가 매우 높을 수 있고 프레임 시간 지속 기간이 비트 전송 레이트 또는 복잡도의 분모에 있기 때문에 계산 복잡도도 높을 수 있다.

도 12에 도시된 시간 도메인 에너지 엔벨로프 양자화를 참조하는 일 예에서, 서브프레임 크기가 2ms인 경우, 10ms 프레임은 5개의 서브프레임을 포함해야 한다. 일반적으로 각 서브프레임에는 양자화해야 하는 에너지 레벨이 있다. 하나의 프레임이 5개의 서브프레임을 포함하기 때문에, 5개의 서브프레임의 에너지 레벨은 시간 도메인 에너지 엔벨로프의 코딩 비트 레이트가 제한되도록 공동 양자화될 수 있다. 일부 경우에 프레임 크기가 서브프레임 크기와 같거나 하나의 프레임에 하나의 서브프레임이 포함되는 경우 각 에너지 레벨을 독립적으로 양자화하면 코딩 비트 레이트가 크게 증가할 수 있다. 이러한 경우에, 연속 프레임 사이의 에너지 레벨의 차등 코딩은 코딩 비트 레이트를 감소시킬 수 있다. 그러나 이러한 접근 방식은 전송 채널에서 비트스트림 패킷이 손실될 때 오류 전파를 유발할 수 있으므로 차선책일 수 있다.

일부 경우에, LPC 파라미터의 벡터 양자화는 더 낮은 비트 레이트를 전달할 수 있다. 하지만 더 많은 계산 부하가 걸릴 수 있다. LPC 파라미터의 단순 스칼라 양자화는 복잡성이 더 낮지만 더 높은 비트 전송 레이트를 요구할 수 있다. 일부 경우에 허프만 코딩을 활용한 특수 스칼라 양자화가 사용될 수 있다. 그러나 이 방법은 매우 짧은 프레임 크기나 매우 낮은 지연 코딩에는 충분하지 않을 수 있다. LPC 파라미터의 새로운 양자화 방법은 도 19 내지 도 20을 참조하여 후술한다.

블록(1902)에서, 오디오 신호의 현재 프레임과 이전 프레임 사이의 차분 스펙트럼 틸트 및 에너지 차이 중 적어도 하나가 결정된다. 도 20을 참조하면, 스펙트로그램(2002)은 오디오 신호의 시간-주파수 플롯을 보여준다. 스펙트로그램(2004)은 오디오 신호의 현재 프레임과 이전 프레임 사이의 차동 스펙트럼 틸트의 절댓값을 보여준다. 스펙트로그램(2006)은 오디오 신호의 현재 프레임과 이전 프레임 사이의 에너지 차이의 절댓값을 보여준다. 스펙트로그램(2008)은 1이 현재 프레임이 이전 프레임에서 양자화된 LPC 파라미터를 복사할 것임을 나타내고 0은 LPC 파라미터를 다시 양자화/전송할 것임을 의미하는 복사 결정을 보여준다. 이 예에서 차동 스펙트럼 틸트(differential spectrum tilt)의 절댓값과 에너지 차이의 절댓값은 대부분의 시간 동안 상대적으로 매우 작으며 끝(오른쪽)에서 상대적으로 커진다.

블록(1904)에서, 오디오 신호의 안정성이 검출된다. 일부 경우에, 오디오 신호의 스펙트럼 안정성은 차동 스펙트럼 타일 및/또는 오디오 신호의 현재 프레임과 이전 프레임 사이의 에너지 차이에 기초하여 결정될 수 있다. 일부 경우에, 오디오 신호의 스펙트럼 안정성은 오디오 신호의 주파수에 기초하여 더 결정될 수 있다. 일부 경우에, 차동 스펙트럼 틸트의 절댓값은 오디오 신호(예를 들어, 스펙트로그램(2004))의 스펙트럼에 기초하여 결정될 수 있다. 일부 경우에, 오디오 신호의 현재 프레임과 이전 프레임 사이의 에너지 차이의 절댓값은 또한 오디오 신호의 스펙트럼(예를 들어, 스펙트로그램(2006))에 기초하여 결정될 수 있다. 일부 경우에, 차동 스펙트럼 틸트의 절댓값의 변화 및/또는 에너지 차이의 절댓값의 변화가 적어도 미리 결정된 프레임 수에 대해 미리 결정된 범위 내에 있었다고 결정되면, 스펙트럼은 오디오 신호의 안정성이 검출된 것으로 판단될 수 있다.

블록(1906)에서, 오디오 신호의 스펙트럼 안정성 검출에 응답하여 이전 프레임에 대한 양자화된 LPC 파라미터가 오디오 신호의 현재 프레임에 복사된다. 일부 경우에 오디오 신호의 스펙트럼이 매우 안정적이고 한 프레임에서 다음 프레임으로 의미 있게 변경되지 않는 경우 현재 프레임에 대한 현재 LPC 파라미터가 코딩/양자화되지 않을 수 있다. 대신, 양자화되지 않은 LPC 파라미터가 이전 프레임에서 현재 프레임까지 거의 동일한 정보를 유지하기 때문에 이전 양자화된 LPC 파라미터가 현재 프레임에 복사될 수 있다. 그러한 경우에, 양자화된 LPC 파라미터가 이전 프레임에서 복사되어 현재 프레임에 대해 매우 낮은 비트 레이트 및 매우 낮은 복잡성을 초래한다는 것을 디코더에 알리기 위해 1비트만 전송될 수 있다.

오디오 신호의 스펙트럼 안정성이 검출되지 않으면, LPC 파라미터는 강제로 양자화되고 코딩될 수 있다. 일부 경우에, 오디오 신호에 대한 현재 프레임과 이전 프레임 사이의 차분 스펙트럼 틸트의 절댓값의 변화가 적어도 미리 결정된 수의 프레임 동안 미리 결정된 범위 내에 있지 않다고 결정되는 경우, 오디오 신호의 스펙트럼 안정성이 감지되지 않는 것으로 결정될 수 있다. 일부 경우에, 에너지 차이의 절댓값의 변화가 적어도 미리 결정된 프레임 수 동안 미리 결정된 범위 내에 있지 않다고 결정되면, 오디오 신호의 스펙트럼 안정성이 검출되지 않는 것으로 결정할 수 있다.

블록(1908)에서, 양자화된 LPC 파라미터가 현재 프레임 이전에 적어도 미리 결정된 수의 프레임에 대해 복사되었다고 결정된다. 일부 경우에, 양자화된 LPC 파라미터가 여러 프레임에 대해 복사된 경우 LPC 파라미터는 강제로 양자화되고 다시 코딩될 수 있다.

블록(1910)에서, 양자화된 LPC 파라미터가 적어도 미리 결정된 수의 프레임에 대해 복사되었다는 결정에 응답하여 현재 프레임에 대한 LPC 파라미터에 대해 양자화가 수행된다. 일부 경우에는 전송 채널에서 비트스트림 패킷이 손실될 때 오류 전파를 피하기 위해 양자화된 LPC 파라미터를 복사하기 위한 연속 프레임 수가 제한된다.

일부 경우에, LPC 복사 결정(스펙트로그램(2008)에 도시됨)은 시간 도메인 에너지 엔벨로프를 양자화하는 데 도움이 될 수 있다. 일부의 경우에, 복사 결정이 1일 때, 현재 프레임과 이전 프레임 간의 차분 에너지 레벨을 코딩하여 비트를 절약할 수 있다. 일부의 경우에, 복사 결정이 0일 때, 전송 채널에서 비트스트림 패킷이 손실될 때 오류 전파를 피하기 위해 에너지 레벨의 직접 양자화가 수행될 수 있다.

도 21은 일 실시예에 따른, 본 개시에서 설명되는 전자 장치(2100)의 구조의 일 예를 도시한 도면이다. 전자 디바이스(2100)는 하나 이상의 프로세서(2102), 메모리(2104), 인코딩 회로(2106), 및 디코딩 회로(2108)를 포함한다. 일부 구현들에서, 전자 디바이스(2100)는 본 개시에서 설명된 단계 중 임의의 하나 또는 조합을 수행하기 위한 하나 이상의 회로를 더 포함할 수 있다.

주제의 설명된 구현은 하나 이상의 특징을 단독으로 또는 조합하여 포함할 수 있다.

제1 구현에서, 오디오 코딩을 위한 방법은: 하나 이상의 부대역 신호를 포함하는 오디오 신호를 수신하는 단계; 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호를 생성하는 단계; 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하는 단계; 및 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호라는 결정에 응답하여, 가중된 잔차 신호를 생성하기 위해 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하는 단계를 포함한다.

전술한 구현 및 기타 설명된 구현은 각각 선택적으로 다음 기능 중 하나 이상을 포함할 수 있다:

다음 특징 중 임의의 것과 결합 가능한 제1 특징으로서, 하나 이상의 부대역 신호는 다음: 저대역(LLB) 신호; 저 고대역(LHB) 신호; 고저대역(HLB) 신호; 또는 고대역(HHB) 신호 중 적어도 하나를 포함한다.

이전 또는 다음의 특징 중 임의의 것과 결합 가능한 제2 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 하나 이상의 부대역 신호 중 적어도 하나의 잔차 신호를 생성하는 단계는: 상기 하나 이상의 부대역 신호 중 적어도 하나의 잔차 신호를 생성하기 위해 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 대해 역 선형 예측 코딩(LPC) 필터링을 수행하는 단계를 포함한다.

이전 또는 다음 특징 중 임의의 것과 결합 가능한 제3 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 가중 잔차 신호를 생성하는 단계는: 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 틸트-필터링된 신호를 생성하는 단계를 포함한다.

이전 또는 다음의 특징 중 임의의 것과 결합 가능한 제4 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하는 단계는: 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 신호는 현재 피치 이득, 평활화된 피치 이득, 피치 지연 길이, 또는 하나 이상의 부대역 신호 중 적어도 하나의 스펙트럼 틸트 중 적어도 하나에 기초한 하이 피치 신호인 것으로 결정하는 단계를 포함한다.

이전 또는 다음의 특징 중 임의의 것과 결합 가능한 제5 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호는 복수의 고조파 주파수를 포함하고, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호는 신호가 하이 피치 신호인 단계는: 복수의 고조파 주파수의 제1 고조파 주파수가 제1 미리 결정된 임계값을 초과하고 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 배경 스펙트럼 레벨이 제2 미리 결정된 임계값보다 낮다는 것으로 결정하는 단계를 포함한다.

이전 또는 다음의 특징 중 임의의 것과 결합 가능한 제6 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하는 단계는: 저역 통과 일극 필터(low pass one pole filter)에 의해 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하는 단계를 포함한다.

이전의 특징 중 임의의 것과 결합 가능한 제7 특징으로서, 상기 방법은: 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 가중된 잔류 신호에 적어도 기초하여 양자화된 잔류 신호를 생성하는 단계를 더 포함한다.

제2 구현에서, 전자 디바이스는: 명령을 포함하는 비일시적 메모리 스토리지, 및 메모리 스토리지와 통신하는 하나 이상의 하드웨어 프로세서를 포함하고, 여기서 하나 이상의 하드웨어 프로세서는 명령을 실행하여: 하나 이상의 부대역 신호를 포함하는 오디오 신호를 수신하고; 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 하나 이상의 부대역 신호 중 적어도 하나의 잔차 신호를 생성하고; 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하고; 및 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호라는 결정에 응답하여, 가중된 잔차 신호를 생성하기 위해 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하도록 구성된다.

이전의 또는 다음의 특징 중 임의의 것과 결합 가능한 제2 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 하나 이상의 부대역 신호 중 적어도 하나의 잔차 신호를 생성하는 단계는: 상기 하나 이상의 부대역 신호 중 적어도 하나의 잔차 신호를 생성하기 위해 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 대해 역 선형 예측 코딩(LPC) 필터링을 수행하는 단계를 포함한다.

이전 또는 다음 특징 중 임의의 것과 결합 가능한 제3 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 가중된 잔차 신호를 생성하는 단계는: 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 하나 이상의 부대역 신호의 틸트-필터링된 신호를 생성하는 단계를 포함한다.

이전 또는 다음의 특징 중 임의의 것과 결합 가능한 제5 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 복수의 고조파 주파수를 포함하고, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하는 단계는: 복수의 고조파 주파수의 제1 고조파 주파수가 제1 미리 결정된 임계값을 초과하고 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 배경 스펙트럼 레벨이 제2 미리 결정된 임계값보다 낮다는 것으로 결정하는 단계를 포함한다.

이전 또는 다음의 특징 중 임의의 것과 결합 가능한 제6 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하는 단계는: 저역 통과 일극 필터에 의해 하나 이상의 부대역 신호 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하는 단계를 포함한다.

이전의 특징 중 임의의 것과 결합 가능한 제7 특징으로서, 하나 이상의 하드웨어 프로세서는 명령을 더 실행하여: 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 적어도 기초하여 양자화된 잔차 신호를 생성한다.

제3 구현에서, 비일시적 컴퓨터 판독가능 매체는 하나 이상의 하드웨어 프로세서에 의해 실행될 때 하나 이상의 하드웨어 프로세서로 하여금: 하나 이상의 부대역 신호를 포함하는 오디오 신호를 수신하는 단계; 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호를 생성하는 단계; 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하는 단계; 및 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호라는 결정에 응답하여, 가중된 잔차 신호를 생성하기 위해 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하는 단계를 포함하는 동작을 수행하게 한다.

전술한 구현 및 기타 설명된 구현은 각각 선택적으로 다음 기능 중 하나 이상을 포함할 수 있다.

이전 또는 다음 특징 중 임의의 것과 결합 가능한 제3 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 가중된 잔차 신호를 생성하는 단계는: 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 틸트-필터링된 신호를 생성하는 단계를 포함한다.

이전 또는 다음의 특징 중 임의의 것과 결합 가능한 제4 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하는 단계는: 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 신호는 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 현재 피치 이득, 평활화된 피치 이득, 피치 지연 길이, 또는 스펙트럼 틸트 중 적어도 하나에 기초한 하이 피치 신호인 것으로 결정하는 단계를 포함한다.

이전 또는 다음의 특징 중 임의의 것과 결합 가능한 제5 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 복수의 고조파 주파수를 포함하고, 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 단계는: 복수의 고조파 주파수의 제1 고조파 주파수가 제1 미리 결정된 임계값을 초과하고 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 배경 스펙트럼 레벨이 제2 미리 결정된 임계값보다 낮다는 것으로 결정하는 단계를 포함한다.

이전 또는 다음의 특징 중 임의의 것과 결합 가능한 제6 특징으로서, 하나 이상의 부대역 신호 중 적어도 하나의 잔차 신호에 대해 가중을 수행하는 단계는: 저역 통과 일극 필터에 의해 하나 이상의 부대역 신호 중 적어도 하나의 잔차 신호에 대해 가중을 수행하는 단계를 포함한다.

이전의 특징 중 임의의 것과 결합 가능한 제7 특징으로서, 동작은 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 가중된 잔류 신호에 적어도 기초하여 양자화된 잔류 신호를 생성하는 단계를 더 포함한다.

몇몇 실시예가 본 개시에서 제공되었지만, 개시된 시스템 및 방법은 본 개시의 사상 또는 범위를 벗어나지 않으면서 많은 다른 특정 형태로 구현될 수 있다는 것이 이해될 수 있다. 본 예는 예시적인 것으로 간주되어야 하며 제한적이지 않으며, 그 의도는 여기에 주어진 세부 사항으로 제한되지 않는다. 예를 들어, 다양한 구성 요소 또는 구성 요소가 다른 시스템에 결합 또는 통합되거나 특정 기능이 생략되거나 구현되지 않을 수 있다.

또한, 이산 또는 개별로서 다양한 실시예에서 설명되고 예시된 기술, 시스템, 서브시스템 및 방법은 본 개시의 범위를 벗어나지 않고 다른 시스템, 구성요소, 기술, 또는 방법과 결합되거나 통합될 수 있다. 변경, 대체 및 변경의 다른 예는 당업자에 의해 확인 가능하고 여기에 개시된 정신 및 범위를 벗어나지 않고 이루어질 수 있다.

본 명세서에 기술된 본 발명의 실시예 및 모든 기능적 동작은 본 명세서에 개시된 구조 및 그 구조적 등가물을 포함하는 디지털 전자 회로, 또는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어에서, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 발명의 실시예는 하나 이상의 컴퓨터 프로그램 제품, 즉, 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위해 컴퓨터 판독 가능 매체 상에 인코딩된 컴퓨터 프로그램 명령의 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터 판독가능 매체는 비일시적 컴퓨터 판독가능 저장 매체, 기계 판독 가능형 저장 디바이스, 기계 판독 가능형 저장 기판, 메모리 디바이스, 기계 판독 가능형 전파 신호에 영향을 미치는 물질의 구성, 또는 이들 중 하나 이상의 조합일 수 있다. "데이터 처리 장치"라는 용어는 예를 들어 프로그램 가능한 프로세서, 컴퓨터, 또는 다중 프로세서 또는 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 장치, 장치 및 기계를 포함한다. 장치는 하드웨어에 추가하여 해당 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 전파된 신호는 인공적으로 생성된 신호, 예를 들어 적절한 수신기 장치로 전송하기 위한 정보를 인코딩하기 위해 생성되는 기계 생성 전기, 광학 또는 전자기 신호이다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드로도 알려짐)은 컴파일된 언어 또는 해석된 언어를 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있으며 독립 실행형 프로그램 또는 모듈, 구성 요소, 서브루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 기타 유닛을 포함하는 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램이 반드시 파일 시스템의 파일과 일치하는 것은 아니다. 프로그램은 다른 프로그램이나 데이터(예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트), 해당 프로그램 전용 단일 파일 또는 여러 조정 파일(예를 들어, 하나 이상의 모듈, 하위 프로그램 또는 코드 부분을 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 사이트에 있거나 여러 사이트에 분산되어 있고 통신 네트워크에 의해 상호 연결된 여러 컴퓨터에서 실행되도록 배포될 수 있다.

본 명세서에 설명된 프로세스 및 논리 흐름은 입력 데이터에 대해 동작하고 출력을 생성함으로써 기능을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능한 프로세서에 의해 수행될 수 있다. 프로세스 및 논리 흐름은 또한 특수 목적 논리 회로, 예를 들어 필드 프로그램 가능 게이트 어레이(field programmable gate array, FPGA) 또는 특정 응용 프로그램 집적 회로(application specific integrated circuit, ASIC)에 의해 수행될 수 있고 장치가 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 프로세서는 예로서 범용 및 특수 목적 마이크로프로세서, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서를 포함한다. 일반적으로 프로세서는 읽기 전용 메모리나 랜덤 액세스 메모리 또는 둘 다에서 명령과 데이터를 수신한다. 컴퓨터의 필수 요소는 명령을 수행하기 위한 프로세서와 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 장치이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치, 예를 들어 자기, 광자기 디스크 또는 광 디스크로부터 데이터를 수신하거나 이들로 데이터를 전송하거나 둘 모두를 포함하거나 작동 가능하게 연결된다. 그러나 컴퓨터에는 그러한 장치가 필요하지 않다. 더욱이, 컴퓨터는 다른 장치, 예를 들어 태블릿 컴퓨터, 이동 전화, 퍼스널 디지털 어시스턴트(Personal Digital Assistant, PDA), 모바일 오디오 플레이어, 글로벌 포지셔닝 시스템(Global Positioning System, GPS) 수신기에 내장될 수 있다. 컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 모든 형태의 비휘발성 메모리, 매체, 및 예를 들어 EPROM, EEPROM 및 플래시 메모리 장치와 같은 반도체 메모리 장치를 포함하는 메모리 장치; 자기 디스크, 예를 들어 내부 하드 디스크 또는 이동식 디스크; 자기 광 디스크; 및 CD ROM 및 DVD-ROM 디스크. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.

사용자와의 상호작용을 제공하기 위해, 본 발명의 실시예는 사용자에게 정보를 표시하기 위한 디스플레이 장치, 예를 들어 음극선관(cathode ray tube, CRT) 또는 액정 디스플레이(liquid crystal display, LCD) 모니터, 및 키보드 및 포인팅 장치, 예를 들어 사용자가 컴퓨터에 입력을 제공할 수 있는 마우스 또는 트랙볼을 포함한다. 다른 종류의 장치도 사용자와의 상호 작용을 제공하는 데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각적 피드백, 청각적 피드백 또는 촉각적 피드백과 같은 임의의 형태의 감각적 피드백일 수 있다. 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.

본 발명의 실시예는 예를 들어 데이터 서버와 같은 백엔드 구성요소를 포함하거나 애플리케이션 서버와 같은 미들웨어 구성 요소를 포함하거나 예를 들어 프론트 엔드 구성요소, 예를 들어 그래픽 사용자 인터페이스 또는 사용자가 본 발명의 구현과 상호작용할 수 있는 웹 브라우저를 갖는 클라이언트 컴퓨터를 포함하거나, 또는 하나 이상의 이러한 백엔드, 미들웨어 또는 프론트 엔드 구성요소의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 구성 요소는 통신 네트워크와 같은 디지털 데이터 통신의 모든 형태 또는 매체에 의해 상호 연결될 수 있다. 통신 네트워크의 예는 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램 덕분에 발생한다.

몇몇 구현들이 위에서 상세히 설명되었지만, 다른 수정들이 가능하다. 예를 들어, 클라이언트 애플리케이션이 클라이언트(들)에 액세스하는 것으로 설명되지만, 다른 구현에서 클라이언트(들)는 하나 이상의 서버에서 실행되는 애플리케이션과 같은 하나 이상의 프로세서에 의해 구현되는 다른 애플리케이션에 의해 사용될 수 있다. 또한, 도면에 도시된 논리 흐름은 원하는 결과를 달성하기 위해 표시된 특정 순서 또는 순차적 순서를 요구하지 않는다. 또한, 설명된 흐름에서 다른 동작이 제공되거나 동작이 제거될 수 있으며, 설명된 시스템에 다른 구성요소가 추가되거나 제거될 수 있다. 따라서, 다른 구현은 다음 청구항의 범위 내에 있다.

본 명세서는 많은 특정 구현 자세한 내용을 포함하지만, 이는 임의의 발명 또는 청구될 수 있는 것의 범위에 대한 제한으로 해석되어서는 안 되며, 오히려 특정 발명의 특정 실시예에 특정할 수 있는 특징의 설명으로 해석되어야 한다. 별도의 실시예와 관련하여 본 명세서에 설명된 특정 특징은 단일 실시예에서 조합하여 구현될 수도 있다. 역으로, 단일 실시예의 맥락에서 설명된 다양한 특징은 또한 개별적으로 또는 임의의 적절한 하위 조합으로 다중 실시예에서 구현될 수 있다. 더욱이, 특징이 특정 조합으로 작용하는 것으로 위에서 설명될 수 있고 심지어 초기에 그렇게 청구될 수도 있지만, 청구된 조합의 하나 이상의 특징이 일부 경우에 조합에서 제거될 수 있고 청구된 조합은 하위 조합 또는 변형으로 지시될 수 있다. 하위 조합의.

유사하게, 작업이 도면에 특정 순서로 도시되어 있지만, 이는 그러한 작업이 도시된 특정 순서로 또는 순차적인 순서로 수행되어야 하거나, 또는 예시된 모든 작업이 바람직한 것을 달성하기 위해 수행되어야 함을 요구하는 것으로 이해되어서는 안 된다. 결과. 특정 상황에서는 멀티태스킹과 병렬 처리가 유리할 수 있다. 더욱이, 위에서 설명된 실시예에서 다양한 시스템 모듈 및 구성요소의 분리는 모든 실시예에서 그러한 분리를 요구하는 것으로 이해되어서는 안 되며, 설명된 프로그램 구성요소 및 시스템은 일반적으로 단일 소프트웨어 제품 또는 여러 소프트웨어 제품으로 패키징된다.

주제의 특정 실시예가 설명되었다. 다른 실시예는 다음 청구항의 범위 내에 있다. 예를 들어, 청구범위에 언급된 조치는 다른 순서로 수행될 수 있으며 여전히 바람직한 결과를 얻을 수 있다. 일 예로서, 첨부 도면에 도시된 프로세스는 바람직한 결과를 달성하기 위해 도시된 특정 순서 또는 순차적인 순서를 반드시 필요로 하는 것은 아니다. 특정 구현에서 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims

오디오 코딩을 위한 컴퓨터 구현 방법(computer-implemented method)으로서,
하나 이상의 부대역 신호(subband signal)를 포함하는 오디오 신호를 수신하는 단계;
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호를 생성하는 단계;
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호(high pitch signal)인 것으로 결정하는 단계; 및
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호라는 결정에 응답하여, 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하여 가중된 잔차 신호를 생성하는 단계
를 포함하고,
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호를 생성하는 단계는:
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호를 생성하기 위해 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 대해 역 선형 예측 코딩(linear predictive coding, LPC) 필터링을 수행하는 단계
를 포함하며,
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 가중된 잔차 신호를 생성하는 단계는:
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 틸트 필터링된 신호(tilt-filtered signal)를 생성하는 단계
를 포함하는, 오디오 코딩을 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 하나 이상의 부대역 신호는 다음:
저저대역(low low band, LLB) 신호;
저고대역(low high bandLHB) 신호;
고저대역(high low band, HLB) 신호; 또는
고고대역(high high band, HHB) 신호
중 적어도 하나를 포함하는, 오디오 코딩을 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하는 단계는:
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 현재 피치 이득(current pitch gain), 평활화된 피치 이득(smoothed pitch gain), 피치 지연 길이(pitch lag length), 또는 스펙트럼 틸트(spectral tilt) 중 적어도 하나에 기초하는 하이 피치 신호인 것으로 결정하는 단계
를 포함하는, 오디오 코딩을 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호는 복수의 고조파 주파수를 포함하고, 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하는 단계는:
상기 복수의 고조파 주파수의 제1 고조파 주파수가 미리 결정된 제1 임계값을 초과하고 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 배경 스펙트럼 레벨이 미리 결정된 제2 임계값보다 낮다는 것으로 결정하는 단계
를 포함하는, 오디오 코딩을 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하는 단계는:
저역 통과 일극 필터(low pass one pole filter)에 의해 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하는 단계
를 포함하는, 오디오 코딩을 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 가중된 잔차 신호에 적어도 기초하여 양자화된 잔차 신호를 생성하는 단계
를 더 포함하는 오디오 코딩을 위한 컴퓨터 구현 방법.
전자 디바이스로서,
명령을 포함하는 비 일시적 메모리 스토리지; 및
상기 메모리 스토리지와 통신하는 하나 이상의 하드웨어 프로세서
를 포함하며, 상기 하나 이상의 하드웨어 프로세서는 상기 명령을 실행하여:
하나 이상의 부대역 신호를 포함하는 오디오 신호를 수신하고;
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호를 생성하고;
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하며; 그리고
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호라는 결정에 응답하여, 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하여 가중된 잔차 신호를 생성하고,
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호를 생성하는 것은:
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호를 생성하기 위해 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 대해 역 선형 예측 코딩(linear predictive coding, LPC) 필터링을 수행하는 것
을 포함하며,
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 가중된 잔차 신호를 생성하는 것은:
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호에 기초하여 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 틸트 필터링된 신호를 생성하는 것
을 포함하는, 전자 디바이스.
제7항에 있어서,
상기 하나 이상의 부대역 신호는 다음:
저저대역(low low band, LLB) 신호;
저고대역(low high bandLHB) 신호;
고저대역(high low band, HLB) 신호; 또는
고고대역(high high band, HHB) 신호
중 적어도 하나를 포함하는, 전자 디바이스.
제7항에 있어서,
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하는 것은:
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 현재 피치 이득, 평활화된 피치 이득, 피치 지연 길이, 또는 스펙트럼 틸트 중 적어도 하나에 기초하는 하이 피치 신호인 것으로 결정하는 것
을 포함하는, 전자 디바이스.
제7항에 있어서,
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호는 복수의 고조파 주파수를 포함하고, 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호가 하이 피치 신호인 것으로 결정하는 것은:
상기 복수의 고조파 주파수의 제1 고조파 주파수가 미리 결정된 제1 임계값을 초과하고 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 배경 스펙트럼 레벨이 미리 결정된 제2 임계값보다 낮다는 것으로 결정하는 것
을 포함하는, 전자 디바이스.
제7항에 있어서,
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하는 것은:
저역 통과 일극 필터(low pass one pole filter)에 의해 상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 잔차 신호에 대해 가중을 수행하는 것
을 포함하는, 전자 디바이스.
제7항에 있어서,
상기 하나 이상의 하드웨어 프로세서는 상기 명령을 실행하여:
상기 하나 이상의 부대역 신호 중 적어도 하나의 부대역 신호의 가중된 잔차 신호에 적어도 기초하여 양자화된 잔차 신호를 생성하는, 전자 디바이스.
프로그램이 기록되어 있는 컴퓨터 판독 가능형 매체로서,
상기 프로그램은 컴퓨터로 하여금 제1항 내지 제6항 중 어느 한 항의 방법을 실행하게 하는, 컴퓨터 판독 가능형 매체.
컴퓨터 프로그램으로서,
컴퓨터로 하여금 제1항 내지 제6항 중 어느 한 항의 방법을 실행하게 하도록 구성된 컴퓨터 판독 가능형 매체 상에 저장된 컴퓨터 프로그램.
삭제
삭제
삭제
삭제
삭제
삭제