KR20080083718A

KR20080083718A - 부호화 모델 선택

Info

Publication number: KR20080083718A
Application number: KR1020087020819A
Authority: KR
Inventors: 자리 매키넨
Original assignee: 노키아 코포레이션
Priority date: 2004-02-23
Filing date: 2005-02-22
Publication date: 2008-09-18
Also published as: RU2006129871A; EP1719120B1; EP1719120A1; CN1922659B; FI20045052A0; BRPI0508309A; KR20070015155A; AU2005215745A1; US7747430B2; ZA200606714B; SG150572A1; FI20045052A; CA2555768A1; US20050192797A1; TW200534599A; JP2007523388A; HK1099960A1; FI118835B; CN1922659A; KR100879976B1

Abstract

본 발명은 오디오신호의 프레임들을 입력하기 위한 입력단(201), 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 LTP분석 블록(209), 및 적어도, 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 제1여기블록(206), 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록(207)을 포함하는 부호기에 관련된다. 부호기는 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록(202), 및 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하기 위해 상기 제1여기블록(206) 및 상기 제2여기블록(207) 중에서 하나의 여기블록을 선택하기 위한 여기선택블록(203)을 더 포함한다. 또한 본 발명은 기기, 시스템, 방법, 모듈 및 컴퓨터프로그램 생성물에 관련된다.

Description

부호화 모델 선택{Coding model selection}

본 발명은 부호화 모드가 오디오신호의 속성들에 의존하여 변경되는 오디오 부호화에 관한 것이다. 본 발명은 오디오신호의 프레임들을 입력하기 위한 입력부, 오디오신호의 프레임들에 대해 장기간예측(LTP, long term prediction) 분석을 수행하여 오디오신호의 속성들을 기초로 하여 장기간예측(LTP) 매개변수들을 형성하는 장기간예측(LTP) 분석 블록, 및 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 적어도 제1여기(excitation)블록, 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록을 포함하는 부호기에 관한 것이다. 본 발명은 오디오신호의 프레임들을 입력하기 위한 입력부, 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 장기간예측(LTP) 분석 블록, 및 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 적어도 제1여기블록, 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록을 구비하는 부호기를 포함하는 기기에 관한 것이다. 본 발명은 오디오신호의 프레임들을 입력하기 위한 입력부, 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 장기간예측(LTP) 분석 블록, 및 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 적어도 제1여기블록, 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록을 구비하는 부호기를 포함하는 시스템에 관한 것이다. 추가로 본 발명은 LTP분석이 오디오신호의 프레임들에 대해 수행되어 그 신호의 속성들을 기초로 하여 LTP매개변수들을 형성하고 적어도 제1여기 및 제2여기가 오디오신호의 프레임들에 대해 수행되도록 선택될 수 있는 오디오신호를 처리하는 방법에 관한 것이다. 본 발명은 오디오신호의 프레임들에 대해 LTP분석을 수행하여 오디오신호의 속성들을 기초로 하여 LTP매개변수들을 형성하는 LTP분석 블록을 포함하는 모듈에 관한 것이다. 본 발명은, LTP분석이 오디오신호의 프레임들에 대해 수행되어 그 신호의 속성들을 기초로 하여 LTP매개변수들을 형성하고 적어도 제1여기 및 제2여기가 오디오신호의 프레임들에 대해 수행되도록 선택될 수 있는, 오디오신호를 부호화하는 기계실행가능 단계들을 포함하는 컴퓨터프로그램 생성물에 관한 것이다.

많은 오디오신호 처리 응용들에서 오디오신호들은 오디오신호를 처리할 때의 처리 전력 요건들을 줄이기 위해 압축된다. 예를 들면, 디지털 통신시스템에서 오디오신호는 전형적으로 아날로그 신호로서 포획되며, 아날로그-디지털(A/D) 변환기에서 디지털화된 다음 이동국 및 기지국과 같은 사용자 장비들 간에 무선 에어 인터페이스를 통해 전송되기 전에 부호화된다. 부호화의 목적은 디지털화된 신호를 압축하고, 그것을 무선 인터페이스를 통해 최소 데이터량으로 허용가능한 신호 품질수준을 유지하면서 송신하는 것이다. 이것은 무선 에어 인터페이스를 통한 라디오 채널 용량이 셀룰러 통신망에서 제한되므로 특히 중요하다. 디지털화된 오디오 신호가 오디오신호의 나중의 재생을 위해 저장매체에 저장되는 응용들도 있다.

압축은 손실 또는 무손실일 수 있다. 손실 압축에서 일부 정보는 압축 동안에 손실되어 압축된 신호로부터 원래 신호를 완전히 재구성하는 것은 가능하지 않다. 무손실 압축에서 통상 손실되는 정보는 없다. 그래서, 원래 신호는 보통 압축된 신호로부터 완전히 재건될 수 있다. 오디오신호라는 용어는 통상 음성, 음악(비음성) 또는 둘 다를 담고 있는 신호로서 이해된다. 음성 및 음악의 다른 성질은 음성 및 음악 둘 다에 충분히 잘 작용하는 하나의 압축알고리즘을 설계하는 것을 더 어렵게 한다. 그러므로, 이 문제는 오디오 및 음성 둘 다를 위해 다른 알고리즘들을 설계하고 어떤 종류의 인식방법을 이용하여 오디오신호가 음성유사인지 음악유사인지를 인식하고 인식에 따라 적당한 알고리즘을 선택하는 것에 의해 종종 풀린다.

전체적으로, 음성과 음악 또는 비음성 신호들 간을 섞임이 없이 분류하는 것은 어려운 작업이다. 요구된 정밀도는 애플리케이션에 많이 의존한다. 일부 애플리케이션들에서 정밀도는 음성 인식에서처럼 또는 저장 및 검색 목적들을 위한 정확한 보존(archive)에서 더욱 중요하다. 그러나, 만약 분류가 입력 신호를 위한 최적의 압축 방법을 선택하기 위해 사용되면 상황은 약간 다르다. 이 경우에, 음성에 항상 최적인 하나의 압축방법과 음악 또는 비음성 신호들에 항상 최적인 다른 방법이 존재할 수는 없다는 것은 흔히 있을 수 있다. 실용에서, 음성과도물들(speech transients)을 위한 압축방법은 음악과도물들을 위해서도 매우 효율적일 수 있다. 강한 톤의 성분들이 유성음 음성 세그먼트들을 위해 좋을 수 있다는 것도 가능하다. 그래서, 이런 경우들에서, 음성 및 음악에 대해 섞이지 않게 분류하기 위한 방법들은 최상의 압축방법을 선택하는 최적의 압축알고리즘을 만들지 않는다.

종종 음성은 대략 200Hz 및 3400Hz 사이로 대역폭 제한된다고 생각될 수 있다. 아날로그 음성신호를 디지털 신호로 변환하는 A/D변환기에 의해 사용된 전형적인 샘플링률(sampling rate)은 8kHz나 16kHz이다. 음악 또는 비음성 신호들은 정상적인 음성 대역폭 훨씬 위의 주파수 성분들을 담고 있을 수 있다. 일부 애플리케이션들에서 음성시스템은 약 20Hz 내지 20,000kHz 사이의 주파수대역을 다룰 수 있어야 한다. 그 종류의 신호들을 위한 샘플링률은 앨리어싱을 피하기 위해 적어도 40,000kHz여야만 한다. 전술한 값들이 비제한적인 예들임이 주의되어야만 한다. 예를 들면, 일부 시스템들에서 음악신호들을 위한 더 높은 한계는 약 10,000kHz 또는 그것 미만일 수 있다.

다음에, 샘플링된 디지털 신호는 통상 프레임 단위로 부호화되어, 부호화를 위해 이용된 코덱에 의해 결정되는 비트율을 가지는 디지털 데이터스트림이 생기게 한다. 비트율을 더 높게 할수록, 더 많은 데이터가 부호화되고, 이것은 입력 프레임이 더욱 정확히 표현되게 한다. 다음에, 부호화된 오디오신호는 복호화되고 디지털-아날로그(D/A) 변환기를 통과하여 가능한 한 원래 신호에 가까운 신호를 재건한다.

이상적인 코덱은 가능한 한 수 개의 비트들로 오디오신호를 부호화할 것이고 그것에 의해 채널 용량을 최적화하면서도 원래 오디오신호에 가능한 한 가깝게 들 리는 복호화된 오디오신호들을 생성할 것이다. 실용에서 코덱의 비트율과 부호화된 오디오의 품질 사이에는 통상 절충(trade off)이 있다.

현재 오디오신호들을 압축하고 부호화하기 위해 개발된 다수의 다른 코덱들, 이를테면 적응 다중 레이트(AMR) 코덱 및 적응 다중 레이트 광대역(AMR-WB) 코덱이 있다. AMR은 3세대 파터너쉽 프로젝터(3GPP)에 의해 GSM/EDGE 및 WCDMA 통신망들을 위해 개발되었다. 부가하여, AMR이 패킷교환망들에서 사용될 것도 상상되어 왔다. AMR은 ACELP(Algebraic Code Excited Linear Prediction)코딩에 기초한다. AMR 및 AMR WB 코덱들은 8 및 9 유효(active) 비트율로 각각 구성되고 또한 음성활동도 검출(VAD) 및 불연속 송신(DTX) 기능성을 포함한다. 지금, AMR 코덱의 샘플링률은 8kHz이고, AMR WB 코덱에서 샘플링률은 16kHz이다. 위에서 언급된 코덱들 및 샘플링률들이 단지 비제한적인 예들인 것은 명백하다.

ACELP 부호화는 신호원을 생성하는 방법의 모델을 사용하여 작용하고 신호로부터 모델의 매개변수들을 추출한다. 더 상세하게는, ACELP 부호화는 목구멍과 입이 선형필터로서 모델화되고 음성이 이 필터를 여기하는 공기의 주기적 진동에 의해 발생되는 인간의 발성계(vocal system)의 모델에 기초를 둔다. 음성은 프레임단위로 부호기에 의해 분석되고 프레임마다 모델화된 음성을 나타내는 매개변수들의 집합이 부호기에 의해 생성되고 출력된다. 매개변수들의 집합은 여기(excitation)매개변수들과 필터를 위한 계수들뿐만 아니라 다른 매개변수들도 포함할 수 있다. 음성 부호기로부터의 출력은 종종 입력 음성신호의 매개변수 표현이라고 한다. 다음에, 매개변수들의 집합은 입력 음성신호를 재생성하는 적당히 구성된 복호기에 의해 사용된다.

변환 부호화는 비음성 오디오 부호화에서 널리 이용되고 있다. 비음성신호들을 위한 변환 부호화의 우월성은 지각 마스킹 및 주파수 영역 부호화에 기초를 둔다. 변환 부호화 기법들이 오디오신호에 대해 우수한 품질을 준다고 해도, 성능은 주기성 음성신호들에 대해 좋지 못하고 그러므로 변환부호화된 음성의 품질은 보통 약간 낮다. 반면에, 인간의 음성생성계(speech production system)에 기초한 음성 코덱들은 통상 오디오신호들에 대해 불충분하게 수행된다.

일부 입력 신호들에 대해, 펄스형 ACELP-여기(excitation)는 더 높은 품질을 생성하고 일부 입력 신호들에 대해 변환 부호화 여기(TCX)는 더 최적이다. 여기서는 ACELP-여기가 대부분 전형적인 음성 콘텐츠를 입력 신호로서 하기 위해 사용되고 TCX-여기가 대부분 전형적인 음악 및 다른 비음성 오디오를 입력 신호로서 하기 위해 사용된다고 가정된다. 그러나, 이것은 항상 그 경우는 아니고, 즉, 때때로 음성신호는 음악에 유사한 부분들을 가지고 음악신호는 음성에 유사한 부분들을 가진다. 음악 및 음성 둘 다를 담고 있어 선택된 부호화방법이 종래기술 시스템들에서는 그러한 신호들을 위한 옵션이 될 수 없는 신호들이 존재할 수도 있다.

여기(excitation) 선택은 몇 가지 방식들로 행해질 수 있다: 가장 복잡하고 꽤 좋은 방법은 ACELP 및 TCX-여기 둘 다를 부호화한 다음 합성된 오디오신호에 기초하여 최고의 여기를 선택하는 것이다. 이 합성에 의한 분석 방법은 양호한 결과들을 제공할 것이지만 일부 애플리케이션들에서는 그것의 높은 복잡도 때문에 실용적이지 않다. 이 방법에서 예를 들면 SNR-형의 알고리즘은 양쪽 여기들에 의해 생 성된 품질을 측정하는데 이용될 수 있다. 이 방법은 "무차별 공격(brute-force)" 방법이라고 불릴 수 있는데, 그것이 다른 여기들의 모든 조합들을 시도해 보고 이후 최고의 하나를 선택하기 때문이다. 덜 복잡한 방법은 신호 속성들을 미리 분석한 다음 최고의 여기를 선택하는 것에 의해 합성을 한 번만 수행할 것이다. 이 방법은 또한 품질 및 복잡도 사이에 타협을 만드는 사전 선택 및 "무차별 공격"의 조합일 수 있다.

도 1은 간이화된 부호기(100)를 종래기술의 높은 복잡도 분류로 제시한다. 오디오신호가 입력신호블록(101)에 입력되고 그 블록에서 오디오신호는 디지털화되고 필터링된다. 입력신호블록(101)은 또한 디지털화되고 필터링된 신호로부터 프레임들을 형성한다. 이 프레임들은 선형예측부호화(LPC) 분석 블록(102)에 입력된다. 그것은 디지털화된 입력신호들에 대해 프레임단위로 LPC분석을 수행하여 입력신호와 가장 잘 부합되는 그러한 매개변수 집합을 찾는다. 결정된 매개변수들(LPC매개변수들)은 양자화되고 부호기(100)로부터 출력(109)된다. 부호기(100)는 또한 LPC합성 블록들(103, 104)로 2개의 출력신호들을 생성한다. 제1 LPC합성 블록(103)은 TCX여기 블록(105)에 의해 생성된 신호를 이용하여 오디오신호를 합성하여 TCX여기에 대한 최상의 결과를 생성하는 부호벡터를 찾는다. 제2 LPC합성 블록(104)은 ACELP여기 블록(106)에 의해 생성된 신호를 이용하여 오디오신호를 합성하여 ACELP여기에 대한 최상의 결과를 생성하는 부호벡터를 찾는다. 여기선택블록(107)에서 LPC합성 블록들(103, 104)에 의해 생성된 신호들은 여기방법들 중의 어떤 여기방법이 최상의(최적의) 여기를 주는 지를 결정하기 위해 비교된다. 선택된 여기방법에 관한 정보 및 선택된 여기신호들의 매개변수들은, 예를 들면, 부호기(100)로부터 전송을 위해 신호들을 출력(109)하기 전에 양자화되고 채널부호화된다(108).

본 발명의 하나의 목적은 오디오신호의 다른 부분들에 대해 부호화방법을 선택하는 개선된 방법을 제공하는 것이다. 본 발명에서는 개방루프방식에 의한 부호화를 위해 적어도 제1 및 제2 부호화방법들, 예를 들면, TCX 또는 ACELP 중에서 부호화방법을 선택하는데 알고리즘이 이용된다. 선택은 소스신호를 위한 최선의 부호화모델을 검출하도록 수행되고, 그것은 음성 및 음악의 분리를 의미하지는 않는다. 본 발명의 일 실시예에 의하면, 알고리즘은 특히 높은 장기간 상관을 가지는 주기성 신호들(예컨대, 유성음(voiced speech) 신호)에 대해 그리고 신호과도물들(signal transients)에 대해 ACELP를 선택한다. 한편, 어떤 종류의 정지신호들, 노이즈유사 신호들 및 톤(tone)유사 신호들은 주파수분해능을 더 잘 다루는 변환부호화를 이용하여 부호화된다.

본 발명은 LTP분석이 예컨대 과도물들, 주기성 부분들 등을 오디오신호로부터 찾기 위해 생성하는 매개변수들을 검사함으로써 입력신호가 분석된다는 아이디어에 기초한다. 본 발명에 따른 부호기는 이 부호기가 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록, 및 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 더 포함하고, 상기 제2여기는 변환부호화형 여기(transform coded excitation)이고, 상기 제1여기는 변환부호화형 여기와는 다르다는 것을 기본적인 특징으로 한다. 본 발명에 따른 기기는 이 기기가 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록, 및 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 더 포함하고, 상기 제2여기는 변환부호화형 여기이고, 상기 제1여기는 변환부호화형 여기와는 다르다는 것을 기본적인 특징으로 한다. 본 발명에 따른 시스템은 이 시스템이 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록, 및 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 더 포함하고, 상기 제2여기는 변환부호화형 여기(transform 이고, 상기 제1여기는 변환부호화형 여기와는 다르다는 것을 기본적인 특징으로 한다. 본 발명에 따른 방법은 이 방법이 상기 LTP매개변수들을 분석하는 단계, 및 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하는 단계를 더 포함하고, 상기 제2여기는 변환부호화형 여기를 이용하는 것을 포함하고, 상기 제1여기는 변환부호화형 여기와는 다른 것을 이용하는 단계를 포함하는 것을 기본적인 특징으로 한다. 본 발명에 따른 모듈은 이 모듈이 상기 LTP매개변수들을 분석하기 위한 매개변수 분석 블록, 및 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하고 선택된 여기방법을 부호기에 표시하기 위한 여기선택블록을 더 포함 하고, 상기 제2여기는 변환부호화형 여기이고, 상기 제1여기는 변환부호화형 여기와는 다르다는 것을 기본적인 특징으로 한다. 본 발명에 따른 컴퓨터프로그램 생성물은 이 컴퓨터프로그램 생성물이 상기 LTP매개변수들을 분석하기 위한 그리고 오디오신호의 프레임들에 대한 여기를 수행하기 위해 매개변수 분석을 기초로 하여 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 기계실행가능 단계들을 더 포함하고, 상기 제2여기를 수행하는 단계는 변환부호화형 여기를 이용하는 기계실행가능 단계들을 포함하고, 상기 제1여기를 수행하는 단계는 변환부호화형 여기와는 다른 것을 이용하기 위한 기계실행가능 단계들을 포함하는 것을 기본적인 특징으로 한다.

본 발명은 종래기술의 방법들 및 시스템들과 비교될 때 이점들을 제공한다. 본 발명에 따른 분류 방법을 사용하는 것에 의해, 재생되는 소리(sound) 품질을 압축 효율에 크게 영향을 미치는 일 없이 개선하는 것이 가능하다. 본 발명은 혼합된 신호들, 즉 음성유사 및 비음성유사 신호들 양쪽 다를 포함하는 신호들의 재생되는 사운드 품질을 개선한다.

다음에서 본 발명의 예의 실시예에 따른 부호기가 도 2를 참조하여 더 상세히 기술될 것이다. 부호기는 필요할 때 입력신호를 디지털화, 필터링 및 프레임화하기 위한 입력 블록(201)을 포함한다. 여기서 입력신호는 이미 부호화처리에 적합한 형태로 되어 있을 수 있다는 것이 주의되어야만 한다. 예를 들면, 입력신호는 이전 단계에서 디지털화되어 기억매체(미도시)에 저장되어 있을 수 있다. 입력신호 프레임들은 LPC분석 블록(208)에 입력되고 LPC분석 블록은 입력신호에 대해 LPC분석을 수행하고 그 신호의 속성들을 기초로 하여 LPC매개변수들을 형성한다. LTP분석 블록(209)은 LPC매개변수들을 기초로 하여 LTP매개변수들을 형성한다. LPC매개변수들과 LTP매개변수들은 매개변수 분석 블록(202)에서 검사된다. 이 분석의 결과를 기초로 하여 여기선택 블록(203)은 입력신호의 현재 프레임을 부호화하기 위한 최고로 적절한 여기방법이 무엇인지를 결정한다. 여기선택 블록(203)은 매개변수 분석에 따라 선택수단(205)을 제어하기 위해 제어신호(204)를 생성한다. 만약 입력신호의 현재 프레임을 부호화하기 위한 최상의 여기방법이 제1여기방법이라고 결정되었다면, 선택수단(205)은 제1여기블록(206)의 신호(여기매개변수들)를 선택하도록 제어되어 양자화 및 부호화 블록(212)에 입력되도록 한다. 만약 입력신호의 현재 프레임을 부호화하기 위한 최상의 여기방법이 제2여기방법이라고 결정되었다면, 선택수단(205)은 제2여기블록(207)의 신호(여기매개변수들)를 선택하도록 제어되어 양자화 및 부호화 블록(212)에 입력되도록 한다. 비록 도 2의 부호기가 부호화처리를 위해 제1여기블록(206) 및 제2여기블록(207)만을 가진다고 해도, 부호기에서 이용가능한 다른 여기방법들을 위해 2개를 넘는 다른 여기블록들이 입력신호의 부호화에 이용될 수 있다는 것이 명백하다.

제1여기블록(206)은 예를 들면 TCX여기신호(벡터)를 생성하고 제2여기블록(207)은 예를 들면 ACELP여기신호(벡터)를 생성한다. 선택된 여기블록(206, 207)이 먼저 둘 이상의 여기벡터들을 시험하여 가장 콤팩트한 결과를 생성하는 벡터가 송신을 위해 선택되게 하는 것도 가능하다. 가장 콤팩트한 결과의 결정은, 예를 들면, 송신하려는 비트들의 수 또는 부호화에러(합성된 오디오 및 실제 오디오 입력 사이의 차이)를 기초로 하여 행해질 수 있다.

LPC매개변수들(210), LPC매개변수들(211) 및 여기매개변수들(213)은, 예컨대, 통신망(604)(도 6)으로의 송신 전에, 예를 들면, 양자화 및 부호화 블록(212)에서 양자화되고 부호화된다. 그러나, 그 매개변수들을 송신하는 것이 반드시 필요한 것은 아니며, 그것들은 예를 들면 저장매체에 저장될 수 있고 나중의 단계에서 송신 및/또는 복호화를 위해 검색될 수 있다.

확장형 AMR-WB(AMR-WB+) 코덱에서, LP-합성을 위한 2 유형의 여기들인 ACELP 펄스유사 여기 및 변환부호화형 TCX여기가 있다. ACELP여기는 원래의 3GPP AMR-WB 표준(3 GPP TS 26.190)에서 이미 이용된 것과 동일하고 TCX-여기는 확장형 AMR-WB로 구현된 본질적인 개선물이다.

AMR-WB+코덱에서, 선형예측부호화(LPC)가 스펙트럼 포락선(envelope)을 모델화하기 위해 각 프레임에서 계산된다. LPC여기(부호화된 것의 LP필터의 출력)는 ACELP(algebraic code excitation linear prediction)형 또는 변환부호화기반 알고리즘(TCX)에 의해 부호화된다. 한 예로서, ACELP는 LTP를 수행하고 LPC여기를 위해 부호책(codebook) 매개변수들을 고정하였다. 예를 들면, AMR-WB+의 변환부호화(TCX)는 고속 푸리에 변환(FFT)을 이용한다. AMR-WB+코덱에서 TCX 부호화는 3개의 다른 프레임길이들(20, 40 및 80ms) 중의 하나를 이용하여 행해질 수 있다.

다음에 본 발명에 따른 방법의 예가 더 상세히 기술될 것이다. 이 방법에서 는 주기성(periodicity)과 피치와 같은 오디오신호의 일부 속성들을 결정하기 위해 알고리즘이 이용된다. 피치는 유성음은 기본 속성이다. 유성음의 경우, 성문(glottis)은 주기적인 형태를 열리고 닫히어, 여기에 주기적 특성을 부여한다. 피치 주기(T0)는 성문의 순차적인 개방들 사이의 시간 간격이다. 유성음 세그먼트들은 특히 강한 장기(long-term) 상관을 가진다. 이 상관은 성대의 진동에 의한 것이고, 그것은 보통 2부터 20ms까지의 범위의 피치 주기를 가진다.

LTP매개변수들인 지체 및 이득은 LPC 나머지를 위해 계산된다. LTP지체는 음성신호의 기본 주파수에 밀접한 관계가 있고 그것은 자주 "피치-지체" 매개변수, "피치 지연" 매개변수 또는 "지체(lag)"라고 불리는데, 그것은 음성 샘플들에 관해서 음성신호의 주기성을 기술한다. 피치-지연 매개변수는 적응 부호책을 이용함으로써 계산될 수 있다. 개방루프 피치 분석은 피치 지체를 추정하기 위해 행해질 수 있다. 이것은 피치 분석을 단순화하고 폐루프 피치 탐색을 개방루프로 추정된 지체들 주위의 작은 수의 지체들로 한정하기 위해 수행된다. 기본 주파수에 관련되는 다른 LTP 매개변수는 이득이고 LTP이득이라고도 불린다. LTP이득은 LTP지체와 함께 중요한 매개변수이고 그것들은 음성의 자연스런 표현을 제공하는데 이용된다.

소스신호가 정상 속성들은 예컨대 정규화된 상관에 의해 분석되고, 그것은 다음과 같이 계산될 수 있다:

여기서 T₀은 길이 N을 가지는 프레임의 개방루프 지체이다. x_i는 부호화된 프레임의 i번째 샘플이다. x_i-T₀은 최근 부호화된 프레임으로부터의 샘플이고, 그것은 샘플 x_i로부터 T₀ 샘플들만큼 과거로 돌아간 것이다.

시간의 함수으로서의 LTP매개변수 특성들의 몇 개의 예들은 도 3, 4 및 5에서 볼 수 있다. 이 도면들에서 곡선 A는 신호의 정규화된 상관을 보이며, 곡선 B는 지체를 보이고 곡선 C는 크기조정된 이득을 보인다. 정규화된 상관 및 LTP이득은 그것들이 동일 도면에서 LTP지체와 맞을 수 있도록 크기조정된다(100이 곱해짐). 도 3, 4 및 5에서, 또한 LTP 지체 값들은 2로 나누어진다. 한 예로서, 유성음 세그먼트(도 3)는 높은 LTP이득 및 안정한 LTP지체를 포함한다. 또한 유성음 세그먼트들의 정규화된 상관 및 LTP이득은 매칭되고 그러므로 높은 상관을 가진다. 본 발명에 따른 방법은 이 종류의 신호세그먼트를 분류하여 선택된 부호화방법이 ACELP(제1부호화방법)이 되도록 한다. 만약 LTP지연 윤곽선(현재 및 이전 지체들로 구성됨)가 안정되지만 LTP이득이 낮거나 불안정하고 및/또는 LTP이득 및 정규화된 상관이 작은 상관을 가진다면, 선택된 부호화방법은 TCX(제2부호화방법)이다. 이런 종류의 상황은 도 4의 예에서 하나의 악기(섹소폰)의 오디오신호의 매개변수들이 보이는 것으로 도시되어 있다. 만약 현재 및 이전 프레임들의 LTP지체 윤곽선이 매우 불안정하면, 선택된 코딩 방법 역시 이 경우 TCX이다.

이것은 도 5의 예에서 다수의 악기들의 오디오신호의 매개변수들이 보이는 것으로 도시된다. 안정한 이란 단어는 여기서 예컨대 현재 및 이전 프레임들의 최 소 및 최대 지체값들 사이의 차이가 어떤 기설정된 문턱(제2문턱(TH2)) 미만이다는 것을 의미한다. 그러므로, 지체는 현재 및 이전 프레임들에서 많이 변경되지 않는다. AMR-WB+코덱에서, LTP이득의 범위는 0 과 1.2 사이에 있다. 정규화된 상관의 범위는 0과 1.0 사이에 있다. 한 예로서, 높은 LTP이득을 나타내는 문턱은 0.8 이상일 수 있었다. LTP이득 및 정규화된 상관의 높은 상관(또는 유사성)은 예컨대 그것들의 차이에 의해 관찰될 수 있다. 만약 그 차이가 제3문턱(TH3) 아래 있으면, 예를 들면, 0.1이면, 현재 및/또는 과거 프레임들에서, LTP 이득 및 정규화된 상관은 높은 상관을 가진다.

만약 그 신호가 특성상 과도 상태라면, 그것은 본 발명의 예의 실시예에서 제1부호화방법에 의해, 예를 들면, ACELP부호화 방법에 의해 부호화된다. 과도 시퀀스들은 인접 프레임들의 스펙트럼 거리(SD)를 이용하는 것에 의해 검출될 수 있다. 예를 들면, 만약 현재 및 이전 프레임들에서 이미턴스 스펙트럼 쌍(immittance spectrum pair; ISP) 계수들(ISP표현으로 변환된 LP필터 계수들)로부터 계산된 프레임 n의 스펙트럼 거리(SD_n)가 기설정된 제1문턱(TH1)을 초과하면, 신호는 과도 상태로서 분류된다. 스펙트럼 거리(SD_n)는 ISP매개변수들로부터 다음과 같이 계산될 수 있다:

여기서 ISPn은 프레임 n의 ISP계수들의 벡터이고 ISPn(i)는 그것의 i번째 요 소이다.

잡음유사 시퀀스들이 제2부호화방법에 의해, 예를 들면, 변환부호화 TCX에 의해 부호화된다. 이 시퀀스들은 주파수영역에서 프레임을 따라 LTP매개변수들 및 평균 주파수에 의해 검출될 수 있다. LTP매개변수들이 매우 불안정하고 및/또는 평균 주파수가 기설정된 문턱(TH16)을 초과하면, 이 방법에서는 프레임이 잡음유사 신호를 담고 있는 것이라고 결정된다.

본 발명에 따른 처리를 분류하기 위한 예의 알고리즘은 아래에서 기술된다. 이 알고리즘은 AMR WB+ 코덱의 부호기와 같은 부호기에서 이용될 수 있다.

if(SD_n > TH1)

Mode = ACELP_MODE;

else

if(LagDif_buf < TH2)

if(Lag_n == HIGH LIMIT or Lag_n == LOW LIMIT){

if(Gain_n-NormCorr_n<TH3 and NormCorr_n>TH4)

Mode = ACELP_MODE

else

Mode = TCX_MODE

else if(Gain_n - NormCorr_n < TH3 and NormCorr_n > TH5)

Mode = ACELP_MODE

else if(Gain_n - NormCorr_n > TH6)

Mode = TCX_MODE

else

NoMtcx = NoMtcx +1

if(MaxEnergy_buf < TH7)

if(SD_n > TH8)

Mode = ACELP_MODE;

else

NoMtcx = NoMtcx +1

if(LagDif_buf < TH2)

if(NormCorr_n < TH9 and SD_n < TH10)

Mode = TCX_MODE;

if(lph_n > TH11 and SD_n < TH10)

Mode = TCX_MODE

if(vadFlag_old == 0 and vadFlag == 1 and Mode == TCX_MODE))

NoMtcx = NoMtcx +1

if(Gain_n - NormCorr_n < TH12 and NormCorr_n > TH13 and Lag_n > TH14)

DFTSum = 0;

for(i=1; i<NO_of_elements; i++) { /*First element left out*/

DFTSum = DFTSum + mag[i];

if(DFTSum > TH15 and mag[0] < TH16) {

Mode = TCX_MODE;

else

Mode = ACELP_MODE;

NoMtcx = NoMtcx +1

위의 알고리즘은 일부 문턱들(TH1 - TH15) 및 상수들(HIGH_LIMIT, LOW_LIMIT, Buflimit, NO_of_elements)를 포함한다. 다음에서 문턱들 및 상수들의 일부 예의 값들이 보이지만 그 값들이 예들로만 한정되는 것이 아님은 명백하다.

TH1=0.2

TH2=2

TH3=0.1

TH4=0.9

TH5=0.88

TH6=0.2

*TH7=60

TH8=0.15

TH9=0.80

TH10=0.1

TH11=200

TH12=0.006

TH13=0.92

TH14=21

TH15=95

TH16=5

NO_of_elements=40

HIGH_LIMIT=115

LOW_LIMIT=18

이 알고리즘의 변수들의 의미는 다음과 같다: HIGH_LIMIT 및 LOW_LIMIT는 최대 및 최소 LTP지체값들에 각각 관련되며, LagDif_buf는 현재 및 이전 프레임들로부터의 LTP지체들을 담고 있는 버퍼이다. Lag_n은 현재 프레임의 하나 이상의 LTP지연값이다(2개의 개방루프 지체값들이 AMR WB+코덱으로 프레임에서 계산된다). Gain_n은 현재 프레임의 하나 이상의 LTP이득값이다. NormCorr_n은 현재 프레임의 하나 이상의 정규화된 상관 값이다. MaxEnergy_buf는 현재 및 이전 프레임들의 에너지 값들을 담고 있는 버퍼의 최대값이다. lph_n은 스펙트럼의 경사를 표시한다. vadFlag_old는 이전 프레임의 VAD 플래그이고 vadFlag는 현재 프레임의 VAD플래그이다. NoMtcx는, 만약 제2부호화모델 TCX가 선택된다면, 긴 프레임길이(예컨대 80ms)의 TCX변환을 피한다는 것을 표시하는 플래그이다. Mag는 다음 프로그램코드에 따라 계산될 수 있는 현재 프레임의 LP필터계수들(Ap)로부터 만들어진 이산 푸리에 변환된(DFT) 스펙트럼 포락선이다:

for (i=0; i<DFTN*2; i++)

cos_t[i] = cos[i*N_MAX/(DFTN*2)]

sin_t[i] = sin[i*N_MAX/(DFTN*2)]

for (i=0; i<LPC_N; i++)

ip[i] = Ap[i]

mag[0] = 0.0;

for (i=0; i<DFTN; i++) /* calc DFT */

x = y = 0

for (j=0; j<LPC_N; j++) x = x + ip[j]*cos_t[(i*j)&(DFTN*2-1)]

y = y + ip[j]*sin_t[(i*j)&(DFTN*2-1)]

Mag[i] = 1/sqrt(x*x+y*y)

여기서 DFTN = 62, N_MAX = 1152, LPC_N = 16이다. 벡터들(cos 및 sin)은 코 사인 및 사인 함수들의 값들을 각각 포함한다. 벡터들(cos 및 sin)의 길이는 1152이다. DFTSum은 벡터 Mag의 첫 요소(mag(0))를 제외한 벡터 Mag의 처음 NO_of_elements(예컨대 40)개 요소들의 합이다.

위의 설명에서, AMR-WB 확장(AMR-WB+)는 부호기의 실제적인 예로서 사용되었다. 그러나, 본 발명은 AMR-WB 코덱들 또는 ACELP-여기 및 TCX-여기 방법들에 한정되지 않는다.

비록 본 발명이 위에서 2개의 다른 여기방법들을 이용하여 제시되었지만, 2개를 초과하는 다른 여기방법들을 이용하는 것과 오디오신호들을 압축하기 위해 그것들 중에서 선택을 행하는 것이 가능하다.

도 6은 본 발명이 적용될 수 있는 시스템의 예를 묘사한다. 이 시스템은 음성 및/또는 비음성 오디오신호들을 생성하는 하나 이상의 음원(601)을 포함한다. 오디오신호들은 A/D변환기(602)에 의해 필요하면 디지털 신호들로 변환된다. 디지털화된 신호는 송신기기의 부호기에 입력되고 거기서 본 발명에 따라 압축이 수행된다. 압축된 신호들은 또한 필요하면 부호기에서 송신을 위해 양자화되고 부호화된다. 송신기(603), 예를 들면 이동통신기기의 송신기는, 압축되고 부호화된 신호들을 통신망(604)에 송신한다. 이 신호들은 수신기기(606)의 수신기(605)에 의해 통신망(604)으로부터 수신된다. 수신된 신호들은 수신기(605)로부터 복호기(607)에 복호화, 역양자화 및 압축복원(decompression)를 위해 전달된다. 복호기(607)는 현재 프레임을 위해 부호기에서 사용된 압축방법을 결정하는 검출수단(608)을 포함한다. 복호기(607)는 결정을 기초로 하여 현재 프레임을 압축복원하기 위한 제1압축 복원수단(609) 또는 제2압축복원수단(610)을 선택한다. 압축복원된 신호들은 압축복원수단들(609, 610)로부터 필터(611) 및 D/A변환기(612)에 연결되어 디지털 신호가 아날로그 신호로 변환된다. 그 후 아날로그 신호는 예를 들면 확성기(613)에서 오디오로 변환될 수 있다.

본 발명은 다른 종류의 시스템들에서, 특히 오디오신호가 음성유사 신호들과 비음성유사 신호들 양쪽을 포함하는 상황(예컨대 음성과 음악이 혼합됨)에서 종래기술의 시스템들에서보다 재생된(압축복원된/복호화된) 오디오신호에 대해 더 효율적인 압축 및/또는 개선된 오디오 품질을 달성하기 위한 저속 전송에서 특히 구현될 수 있다. 본 발명에 따른 부호기는 통신 시스템들의 다른 부분들에 구현될 수 있다. 예를 들면, 부호기는 제한된 처리 능력을 가지는 이동통신기기에 구현될 수 있다.

본 발명은 또한 매개변수들을 분석하도록 그리고 부호기를 위해 여기방법의 선택을 제어하도록 부호기와 연결될 수 있는 모듈(202, 203)로서 구현될 수도 있다.

본 발명이 위에서 기술된 실시예들에만 한정되는 것이 아니고 첨부의 청구항들의 범위 내에서 변형될 수 있다는 것은 명백하다.

도 1은 종래기술의 높은 복잡도의 분류를 가지는 간이화된 부호기를 나타내며,

도 2는 본 발명에 따른 분류를 가지는 부호기의 예시적인 실시예를 나타내며,

도 3은 예의 유성음 시퀀스의 크기조정된(scaled) 상관(correlation), 지체(lag) 및 크기조정된 이득 매개변수들을 보이며,

도 4는 단일 악기의 소리를 담고 있는 예의 오디오신호의 크기조정된 정규화된 상관, 지체 및 크기조정된 이득 매개변수들을 보이며,

도 5는 몇 개의 악기들의 음악을 담고 있는 예의 오디오신호의 케일된 정규화된 상관, 지체 및 크기조정된 이득을 보이고,

도 6은 본 발명에 따른 시스템의 일 예를 보인다.

Claims

오디오신호의 프레임들을 입력하기 위한 입력단, 오디오신호의 프레임들에 대해 장기 기간 예측(LTP, long term prediction)분석을 수행하여 오디오신호의 속성들을 기초로 하여 장기 기간 예측 매개변수들을 형성하는 장기 기간 예측 분석 블록, 및 적어도, 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 제1여기블록, 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록을 포함하는 부호기에 있어서, 부호기는 상기 장기 기간 예측 매개변수들을 분석하기 위한 매개변수 분석 블록, 및 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하기 위해 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 더 포함하고, 상기 제2여기는 변환부호화형 여기이고, 상기 제1여기는 변환부호화형 여기와는 다르며,

상기 장기 기간 예측 매개변수들은 적어도 하나의 지체(lag) 및 적어도 하나의 이득을 포함하는 것을 특징으로 하는 부호기.
오디오신호의 프레임들을 입력하기 위한 입력단, 오디오신호의 프레임들에 대해 장기 기간 예측 분석을 수행하여 오디오신호의 속성들을 기초로 하여 장기 기간 예측 매개변수들을 형성하는 장기 기간 예측 분석 블록, 적어도, 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 제1여기블록, 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록을 포함하는 기기에 있어서, 기기는 상기 장기 기간 예측 매개변수들을 분석하기 위한 매개변수 분석 블록, 및 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하기 위해 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 더 포함하고, 상기 제2여기는 변환부호화형 여기이고, 상기 제1여기는 변환부호화형 여기와는 다르며,

상기 장기 기간 예측 매개변수들은 적어도 하나의 지체(lag) 및 적어도 하나의 이득을 포함하는 것을 특징으로 하는 기기.
오디오신호의 프레임들을 입력하기 위한 입력단, 오디오신호의 프레임들에 대해 장기 기간 예측 분석을 수행하여 오디오신호의 속성들을 기초로 하여 장기 기간 예측 매개변수들을 형성하는 장기 기간 예측 분석 블록, 적어도, 오디오신호의 프레임들에 대해 제1여기를 수행하기 위한 제1여기블록, 및 오디오신호의 프레임들에 대해 제2여기를 수행하기 위한 제2여기블록을 구비하는 부호기를 포함하는 시스템에 있어서, 시스템은 상기 부호기 내에 상기 장기 기간 예측 매개변수들을 분석하기 위한 매개변수 분석 블록, 및 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하기 위해 상기 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 더 포함하고, 상기 제2여기는 변환부호화형 여기이고, 상기 제1여기는 변환부호화형 여기와는 다르며,

상기 장기 기간 예측 매개변수들은 적어도 하나의 지체(lag) 및 적어도 하나의 이득을 포함하는 것을 특징으로 하는 시스템.
장기 기간 예측 분석을 오디오신호의 프레임들에 대해 수행하여 이 오디오신호의 속성들을 기초로 하여 장기 기간 예측 매개변수들을 형성하고 적어도 제1여기 및 제2여기가 오디오신호의 프레임들에 대해 수행되도록 선택가능한 오디오신호를 부호화하는 방법에 있어서, 이 방법은 상기 장기 기간 예측 매개변수들을 분석하는 단계, 및 상기 제1여기 및 상기 제2여기 중에서 하나의 여기 방법을 선택하여 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하는 단계를 더 포함하며, 상기 제2여기는 변환부호화형 여기를 이용하는 단계를 포함하고 제1여기는 변환부호화형 여기와는 다른 것을 이용하는 단계를 포함하며,

상기 장기 기간 예측 매개변수들은 적어도 하나의 지체(lag) 및 적어도 하나의 이득을 포함하는 것을 특징으로 하는 방법.
오디오신호의 프레임들에 대해 장기 기간 예측 분석을 수행하여 오디오신호의 속성들을 기초로 하여 장기 기간 예측 매개변수들을 형성하는 장기 기간 예측 분석 블록을 포함하는 장치에 있어서, 상기 장치는 상기 장기 기간 예측 매개변수들을 분석하기 위한 매개변수 분석 블록, 및 제1여기블록 및 제2여기블록 중에서 하나의 여기블록을 선택하고 선택된 여기 방법을 부호기에 나타내는 여기선택블록을 더 포함하며, 상기 제2여기는 변환부호화형 여기이고, 상기 제1여기는 변환부호화형 여기와는 다르며,

상기 장기 기간 예측 매개변수들은 적어도 하나의 지체(lag) 및 적어도 하나 의 이득을 포함하는 것을 특징으로 하는 장치.
장기 기간 예측 분석을 오디오신호의 프레임들에 대해 수행하여 이 오디오신호의 속성들을 기초로 하여 장기 기간 예측 매개변수들을 형성하고, 적어도 제1여기 및 제2여기가 오디오신호의 프레임들에 대해 수행되도록 선택가능한, 오디오신호를 부호화하기 위한 기계실행가능 단계들을 포함하는 컴퓨터프로그램을 저장한 컴퓨터로 독출가능한 기록매체에 있어서, 컴퓨터로 독출가능한 기록매체의 기계실행 단계들은 상기 장기 기간 예측 매개변수들을 분석하는 단계, 및 상기 제1여기 및 상기 제2여기 중에서 하나의 여기 방법을 선택하여 매개변수 분석을 기초로 하여 오디오신호의 프레임들에 대해 여기를 수행하는 단계를 더 포함하며, 상기 제2여기를 수행하는 단계는 변환부호화형 여기를 이용하기 위한 기계실행가능 단계들을 포함하고, 상기 제1여기를 수행하는 단계는 변환부호화형 여기와는 다른 것을 이용하기 위한 기계실행가능 단계들을 포함하며,

상기 장기 기간 예측 매개변수들은 적어도 하나의 지체(lag) 및 적어도 하나의 이득을 포함하는 것을 특징으로 하는 컴퓨터로 독출가능한 기록매체.