KR20080093074A

KR20080093074A - 오디오신호들의 분류

Info

Publication number: KR20080093074A
Application number: KR1020087023376A
Authority: KR
Inventors: 잔네 바이니오; 한누 믹콜라; 파시 오잘라; 자리 매키넨
Original assignee: 노키아 코포레이션
Priority date: 2004-02-23
Filing date: 2005-02-16
Publication date: 2008-10-17
Also published as: AU2005215744A1; CN1922658A; RU2006129870A; BRPI0508328A; FI20045051A0; DE602005019138D1; ES2337270T3; TW200532646A; KR100962681B1; CN103177726A; CA2555352A1; ATE456847T1; US8438019B2; WO2005081230A1; EP1719119B1; KR20070088276A; US20050192798A1; EP1719119A1; ZA200606713B; FI20045051A

Abstract

이 발명은 주파수대역의 오디오신호의 프레임들을 입력하기 위한 입력단(201), 적어도, 음성유사 오디오신호를 위한 제1여기를 수행하기 위한 제1여기블록(206), 및 비음성유사 오디오신호를 위한 제2여기를 수행하기 위한 제2여기블록(207)을 포함하는 부호기(200)에 관련된다. 부호기(200)는 주파수대역을 각각이 상기 주파수대역보다 좁은 대역폭을 가지는 복수의 부대역들로 나누기 위한 필터(300)를 더 포함한다. 또한 부호기(200)는 적어도 상기 부대역들 중의 하나에서 오디오신호의 속성들에 기초하여 오디오신호의 프레임에 대한 여기를 수행하기 위해 상기 적어도 제1여기블록(206) 및 상기 제2여기블록(207) 중에서 하나의 여기블록을 선택하기 위한 여기선택블록(203)을 포함한다. 또한 본 발명은 기기, 시스템, 방법 및 컴퓨터 프로그램을 위한 저장매체에 관련된다.

오디오신호 분류, 여기, 음성유사, 음악유사

Description

오디오신호들의 분류{Classification of audio signals}

본 발명은 입력신호가 음성유사 또는 음악유사 신호인지에 따라 부호화 모드가 변경되는 음성 및 오디오 부호화에 관한 것이다. 본 발명은 주파수대역의 오디오신호의 프레임들을 입력하기 위한 입력단, 음성유사 오디오신호를 위한 제1여기를 수행하기 위한 적어도 하나의 제1여기(excitation)블록, 및 비음성(non-speech)유사 오디오신호를 위한 제2여기를 수행하기 위한 제2여기블록을 포함하는 부호기에 관한 것이다. 또한 본 발명은 주파수대역의 오디오신호의 프레임들을 입력하기 위한 입력단, 음성유사 오디오신호를 위한 제1여기를 수행하기 위한 적어도 하나의 제1여기블록, 및 비음성유사 오디오신호를 위한 제2여기를 수행하기 위한 제2여기블록을 포함하는 부호기를 포함하는 기기에 관한 것이다. 또한 본 발명은 주파수대역의 오디오신호의 프레임들을 입력하기 위한 입력단, 음성유사 오디오신호를 위한 제1여기를 수행하기 위한 적어도 하나의 제1여기블록, 및 비음성유사 오디오신호를 위한 제2여기를 수행하기 위한 제2여기블록을 구비하는 부호기를 포함하는 시스템에 관한 것이다. 추가로 본 발명은 제1여기가 음성유사 오디오신호를 위해 이용되고 제2여기가 비음성유사 오디오신호를 위해 이용되는 주파수대역의 오디오신호들을 압축하기 위한 방법에 관한 것이다. 본 발명은 적어도 음성유사 오디오신호를 위한 제1여기와 비음성유사 오디오신호를 위한 제2여기 중에서 여기를 선택하기 위해 주파수대역의 오디오신호의 프레임들을 분류하기 위한 모듈에 관한 것이다. 본 발명은 제1여기가 음성유사 오디오신호를 위해 이용되고 제2여기가 비음성유사 오디오신호를 위해 이용되는 주파수대역의 오디오신호들을 압축하기 위한 기계실행가능 단계들을 포함하는 컴퓨터프로그램 생성물에 관한 것이다.

많은 오디오신호 처리 응용들에서 오디오신호들은 오디오신호를 처리할 때의 처리 전력 요건들을 줄이기 위해 압축된다. 예를 들면, 디지털 통신시스템에서 오디오신호는 전형적으로 아날로그 신호로서 포획되며, 아날로그-디지털(A/D) 변환기에서 디지털화된 다음 이동국 및 기지국과 같은 사용자 장비들 간에 무선 에어 인터페이스를 통해 전송되기 전에 부호화된다. 부호화의 목적은 디지털화된 신호를 압축하고, 그것을 무선 인터페이스를 통해 최소 데이터량으로 허용가능한 신호 품질수준을 유지하면서 송신하는 것이다. 이것은 무선 에어 인터페이스를 통한 라디오 채널 용량이 셀룰러 통신망에서 제한되므로 특히 중요하다. 디지털화된 오디오신호가 오디오신호의 나중의 재생을 위해 저장매체에 저장되는 응용들도 있다.

압축은 손실 또는 무손실일 수 있다. 손실 압축에서 일부 정보는 압축 동안에 손실되어 압축된 신호로부터 원래 신호를 완전히 재구성하는 것은 가능하지 않다. 무손실 압축에서 통상 손실되는 정보는 없다. 그래서, 원래 신호는 보통 압축된 신호로부터 완전히 재건될 수 있다. 오디오신호라는 용어는 통상 음성, 음악(비음성) 또는 둘 다를 담고 있는 신호로서 이해된다. 음성 및 음악의 다른 성질은 음 성 및 음악 둘 다에 충분히 잘 작용하는 하나의 압축알고리즘을 설계하는 것을 더 어렵게 한다. 그러므로, 이 문제는 오디오 및 음성 둘 다를 위해 다른 알고리즘들을 설계하고 어떤 종류의 인식방법을 이용하여 오디오신호가 음성유사인지 음악유사인지를 인식하고 인식에 따라 적당한 알고리즘을 선택하는 것에 의해 종종 풀린다.

전체적으로, 음성과 음악 또는 비음성 신호들 간을 섞임이 없이 분류하는 것은 어려운 작업이다. 요구된 정밀도는 애플리케이션에 많이 의존한다. 일부 애플리케이션들에서 정밀도는 음성 인식에서처럼 또는 저장 및 검색 목적들을 위한 정확한 보존(archive)에서 더욱 중요하다. 그러나, 만일 분류가 입력 신호를 위한 최적의 압축 방법을 선택하기 위해 사용되면 상황은 약간 다르다. 이 경우에, 음성에 항상 최적인 하나의 압축방법과 음악 또는 비음성 신호들에 항상 최적인 다른 방법이 존재할 수는 없다는 것은 흔히 있을 수 있다. 실용에서, 음성과도물들(speech transients)을 위한 압축방법은 음악과도물들을 위해서도 매우 효율적일 수 있다. 강한 톤의 성분들이 유성음 음성 세그먼트들을 위해 좋을 수 있다는 것도 가능하다. 그래서, 이런 경우들에서, 음성 및 음악에 대해 섞이지 않게 분류하기 위한 방법들은 최상의 압축방법을 선택하는 최적의 압축알고리즘을 만들지 않는다.

종종 음성은 대략 200Hz 및 3400Hz 사이로 대역폭 제한된다고 생각될 수 있다. 아날로그 음성신호를 디지털 신호로 변환하는 A/D변환기에 의해 사용된 전형적인 샘플링률(sampling rate)은 8kHz나 16kHz이다. 음악 또는 비음성 신호들은 정상적인 음성 대역폭 훨씬 위의 주파수 성분들을 담고 있을 수 있다. 일부 애플리케이 션들에서 음성시스템은 약 20Hz 내지 20,000kHz 사이의 주파수대역을 다룰 수 있어야 한다. 그 종류의 신호들을 위한 샘플링률은 앨리어싱을 피하기 위해 적어도 40,000kHz여야만 한다. 전술한 값들이 비제한적인 예들임이 주의되어야만 한다. 예를 들면, 일부 시스템들에서 음악신호들을 위한 더 높은 한계는 약 10,000kHz 또는 그것 미만일 수 있다.

다음에, 샘플링된 디지털 신호는 통상 프레임 단위로 부호화되어, 부호화를 위해 이용된 코덱에 의해 결정되는 비트율을 가지는 디지털 데이터스트림이 생기게 한다. 비트율을 더 높게 할수록, 더 많은 데이터가 부호화되고, 이것은 입력 프레임이 더욱 정확히 표현되게 한다. 다음에, 부호화된 오디오신호는 복호화되고 디지털-아날로그(D/A) 변환기를 통과하여 가능한 한 원래 신호에 가까운 신호를 재건한다.

이상적인 코덱은 가능한 한 수 개의 비트들로 오디오신호를 부호화할 것이고 그것에 의해 채널 용량을 최적화하면서도 원래 오디오신호에 가능한 한 가깝게 들리는 복호화된 오디오신호들을 생성할 것이다. 실용에서 코덱의 비트율과 부호화된 오디오의 품질 사이에는 통상 절충(trade off)이 있다.

현재 오디오신호들을 압축하고 부호화하기 위해 개발된 다수의 다른 코덱들, 이를테면 적응 다중 레이트(AMR) 코덱 및 적응 다중 레이트 광대역(AMR-WB) 코덱이 있다. AMR은 3세대 파터너쉽 프로젝터(3GPP)에 의해 GSM/EDGE 및 WCDMA 통신망들을 위해 개발되었다. 부가하여, AMR이 패킷교환망들에서 사용될 것도 상상되어 왔다. AMR은 ACELP(Algebraic Code Excited Linear Prediction)코딩에 기초한다. AMR 및 AMR WB 코덱들은 8 및 9 유효(active) 비트율로 각각 구성되고 또한 음성활동도 검출(VAD) 및 불연속 송신(DTX) 기능성을 포함한다. 지금, AMR 코덱의 샘플링률은 8kHz이고, AMR WB 코덱에서 샘플링률은 16kHz이다. 위에서 언급된 코덱들 및 샘플링률들이 단지 비제한적인 예들인 것은 명백하다.

ACELP 부호화는 신호원을 생성하는 방법의 모델을 사용하여 작용하고 신호로부터 모델의 매개변수들을 추출한다. 더 상세하게는, ACELP 부호화는 목구멍과 입이 선형필터로서 모델화되고 음성이 이 필터를 여기하는 공기의 주기적 진동에 의해 발생되는 인간의 발성계(vocal system)의 모델에 기초를 둔다. 음성은 프레임단위로 부호기에 의해 분석되고 프레임마다 모델화된 음성을 나타내는 매개변수들의 집합이 부호기에 의해 생성되고 출력된다. 매개변수들의 집합은 여기(excitation)매개변수들과 필터를 위한 계수들뿐만 아니라 다른 매개변수들도 포함할 수 있다. 음성 부호기로부터의 출력은 종종 입력 음성신호의 매개변수 표현이라고 한다. 다음에, 매개변수들의 집합은 입력 음성신호를 재생성하는 적당히 구성된 복호기에 의해 사용된다.

일부 입력 신호들에 대해, 펄스형 ACELP-여기(excitation)는 더 높은 품질을 생성하고 일부 입력 신호들에 대해 변환부호화형 여기(TCX)는 더 최적이다. 여기서는 ACELP-여기가 대부분 전형적인 음성 콘텐츠를 입력 신호로서 하기 위해 사용되고 TCX-여기가 대부분 전형적인 음악을 입력 신호로서 하기 위해 사용된다고 가정된다. 그러나, 이것은 항상 그 경우는 아니고, 즉, 때때로 음성신호는 음악에 유사한 부분들을 가지고 음악신호는 음성에 유사한 부분들을 가진다. 이 애플리케이션 에서 음성유사신호의 정의는 대부분의 음성이 이 카테고리에 속하고 음악의 일부 역시 이 카테고리에 속할 수 있다는 것이다. 음악유사신호들의 경우 정의는 반대이다. 부가적으로, 일부의 음성신호부분들과 음악신호부분들은 그것들이 양 분류들에 속할 수 있다는 점에서 중성이다.

여기의 선택은 몇 가지 방식들로 행해질 수 있다: 가장 복잡하고 꽤 좋은 방법은 ACELP 및 TCX-여기 둘 다를 부호화한 다음 합성된 음성신호에 기초하여 최고의 여기를 선택하는 것이다. 이 합성에 의한 분석 방법은 양호한 결과들을 제공할 것이지만 일부 애플리케이션들에서는 그것의 높은 복잡도 때문에 실용적이지 않다. 이 방법에서 예를 들면 SNR-형의 알고리즘은 양쪽 여기들에 의해 생성된 품질을 측정하는데 이용될 수 있다. 이 방법은 "무차별 공격(brute-force)" 방법이라고 불릴 수 있는데, 그것이 다른 여기들의 모든 조합들을 시도해 보고 이후 최고의 하나를 선택하기 때문이다. 덜 복잡한 방법은 신호 속성들을 미리 분석한 다음 최고의 여기를 선택하는 것에 의해 합성을 한 번만 수행할 것이다. 이 방법은 또한 품질 및 복잡도 사이에 타협을 만드는 사전 선택 및 "무차별 공격"의 조합일 수 있다.

도 1은 간이화된 부호기(100)를 종래기술의 높은 복잡도 분류로 제시한다. 오디오신호가 입력신호블록(101)에 입력되고 그 블록에서 오디오신호는 디지털화되고 필터링된다. 입력신호블록(101)은 또한 디지털화되고 필터링된 신호로부터 프레임들을 형성한다. 이 프레임들은 선형예측부호화(LPC) 분석 블록(102)에 입력되고, 그것은 디지털화된 입력신호들에 대해 프레임단위로 LPC분석을 수행하여 입력신호와 가장 잘 부합되는 그러한 매개변수 집합을 찾는다. 결정된 매개변수들(LPC매개 변수들)은 양자화되고 부호기(100)로부터 출력(109)된다. 부호기(100)는 또한 LPC합성 블록들(103, 104)로 2개의 출력신호들을 생성한다. 제1 LPC합성 블록(103)은 TCX여기 블록(105)에 의해 생성된 신호를 이용하여 오디오신호를 합성하여 TCX여기에 대한 최상의 결과를 생성하는 부호벡터를 찾는다. 제2 LPC합성 블록(104)은 ACELP여기 블록(106)에 의해 생성된 신호를 이용하여 오디오신호를 합성하여 ACELP여기에 대한 최상의 결과를 생성하는 부호벡터를 찾는다. 여기선택블록(107)에서 LPC합성 블록들(103, 104)에 의해 생성된 신호들은 여기방법들 중의 어떤 여기방법이 최상의(최적의) 여기를 주는 지를 결정하기 위해 비교된다. 선택된 여기방법에 관한 정보 및 선택된 여기신호들의 매개변수들은, 예를 들면, 부호기(100)로부터 전송을 위해 신호들을 출력(109)하기 전에 양자화되고 채널부호화된다(108).

본 발명이 해결하고자 하는 과제는 음성유사 및 음악유사 신호들을 신호의 주파수정보를 이용하여 효율적으로 분류하는 것이다.

본 발명의 목적은 음성유사 및 음악유사 신호들을 신호의 주파수정보를 이용하여 분류하기 위한 개선된 방법을 제공하는 것이다. 음악유사 음성신호 세그먼트들이 있고 음성유사 음악신호 세그먼트들도 있으며 어느 한쪽에 속할 수 있는 음성 및 음악의 신호세그먼트들이 있다. 바꾸어 말하면, 본 발명은 음성 및 음악 사이를 완전히 분류하지 않는다. 그러나, 그것은 일부 기준들에 따라 입력신호를 음악유사 및 음성유사 성분들로 분류하는 수단을 정의한다. 분류 정보는 예컨대 멀티모드 부호기에서 부호화모드를 선택하기 위해 사용될 수 있다.

본 발명은 입력신호가 몇 개의 주파수대역들로 나누어지고 하위 및 상위 주파수대역들 사이의 관계가 그 대역들에서의 에너지레벨 변동들과 함께 분석되고 그 신호는 계산된 측정들 또는 그 측정들의 몇 개의 다른 조합들의 양쪽에 기초하여 다른 분석 윈도우들과 결정문턱값들을 이용하여 음악유사 또는 음성유사로 분류된다는 아이디어에 기초한다. 다음에 이 정보는 예를 들면 압축방법의 선택에서 분석된 신호를 위해 이용될 수 있다.

본 발명에 따른 부호기는 이 부호기가 주파수대역을 각각이 상기 주파수대역보다 좁은 대역폭을 가지는 복수의 부대역들로 나누기 위한 필터, 및 적어도 상기 부대역들 중의 하나에서 오디오신호의 속성들에 기초하여 오디오신호의 프레임에 대한 여기를 수행하기 위해 상기 적어도 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 더 포함한다는 것을 기본적인 특징으로 한다.

본 발명에 따른 기기는 상기 부호기가 주파수대역을 각각이 상기 주파수대역보다 좁은 대역폭을 가지는 복수의 부대역들로 나누기 위한 필터를 구비한다는 것과, 기기는 적어도 상기 부대역들 중의 하나에서 오디오신호의 속성들에 기초하여 오디오신호의 프레임에 대한 여기를 수행하기 위해 상기 적어도 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 포함한다는 것을 기본적인 특징으로 한다.

본 발명에 따른 시스템은 상기 부호기가 주파수대역을 각각이 상기 주파수대역보다 좁은 대역폭을 가지는 복수의 부대역들로 나누기 위한 필터를 더 구비한다는 것과, 시스템은 적어도 상기 부대역들 중의 하나에서 오디오신호의 속성들에 기초하여 오디오신호의 프레임에 대한 여기를 수행하기 위해 상기 적어도 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 포함한다는 것을 기본적인 특징으로 한다.

본 발명에 따르는 방법은 주파수대역이 상기 주파수대역보다 좁은 대역폭을 각각 가지는 복수의 부대역들로 나누어진다는 것과, 상기 적어도 제1여기 및 상기 제2여기 중에서 하나의 여기가 적어도 상기 부대역들 중의 하나에서 오디오신호의 속성들에 기초하여 오디오신호의 프레임에 대한 여기를 수행하기 위해 선택된다는 것을 기본적인 특징으로 한다.

본 발명에 따르는 모듈은 이 모듈이 상기 주파수대역보다 좁은 대역폭을 각각 가지는 복수의 부대역들로 나누어진 주파수대역을 나타내는 정보를 입력하기 위한 입력단, 및 적어도 상기 부대역들 중의 하나에서 오디오신호의 속성들에 기초하여 오디오신호의 프레임에 대한 여기를 수행하기 위해 상기 적어도 제1여기블록 및 상기 제2여기블록 중에서 하나의 여기블록을 선택하기 위한 여기선택블록을 포함한다는 것을 기본적인 특징으로 한다.

본 발명에 따르는 컴퓨터프로그램 생성물은 이 컴퓨터프로그램 생성물이 주파수대역을 각각이 상기 주파수대역보다 좁은 대역폭을 가지는 복수의 부대역들로 나누기 위한 기계실행가능 단계들과, 오디오신호의 프레임에 대한 여기를 수행하기 위해 적어도 상기 부대역들 중의 하나에서 오디오신호의 속성들에 기초하여 상기 적어도 제1여기 및 상기 제2여기 중에서 하나의 여기를 선택하기 위한 기계실행가능 단계들을 포함한다는 것을 기본적인 특징으로 한다.

이 출원서에서, 용어 "음성유사(speech like)" 및 "음악유사(music like)"는 전형적인 음성 및 음악 분류들로부터 본 발명을 분리하기 위해 정의된다. 비록 음성의 약 90%가 본 발명에 따른 시스템에서 음성유사로서 분류되었다라고 해도, 음성신호의 나머지가 음악유사신호로서 정의될 수 있고, 그것은 만일 압축 알고리즘의 선택이 이 분류에 기초한다면 오디오 품질을 개선할 수 있다. 또한 전형적인 음악신호들은 80-90%의 경우들에서 음악유사신호들에 속하지만 음악신호의 부분을 음성유사 카테고리로 분류하는 것은 압축시스템을 위한 소리신호의 품질을 개선할 것 이다. 그러므로, 본 발명은 이점을 종래기술의 방법 및 시스템과 비교될 때 제공한다. 본 발명에 따른 분류 방법을 사용하는 것에 의해, 재생되는 소리(sound) 품질을 압축 효율에 크게 영향을 미치는 일 없이 개선하는 것이 가능하다.

위에 제시된 무차별 공격과 비교하여, 본 발명은 2 여기유형들 사이에서 선택을 행하는 훨씬 덜 복잡한 사전 선택형 접근방법을 제공한다. 본 발명은 입력신호를 주파수대역들로 나누고 하위 및 상위 주파수대역들 사이의 관계들을 함께 분석하고 예를 들면 그 대역들에서의 에너지레벨 변동을 이용할 수 있고 그 신호를 음악유사 또는 음성유사로 분류할 수 있다.

본 발명에 따라 음성유사 및 음악유사 신호들을 신호의 주파수정보를 이용하여 효율적으로 분류할 수 있다.

다음에서 본 발명의 예의 실시예에 따른 부호기(200)가 도 2를 참조하여 더 상세히 기술될 것이다. 부호기(200)는 필요할 때 입력신호를 디지털화, 필터링 및 프레임화하기 위한 입력 블록(201)을 포함한다. 여기서 입력신호는 이미 부호화처리에 적합한 형태로 되어 있을 수 있다는 것이 주의되어야만 한다. 예를 들면, 입력신호는 이전 단계에서 디지털화되어 기억매체(미도시)에 저장되어 있을 수 있다. 입력신호 프레임들은 음성활동도 검출(VAD) 블록(202)에 입력된다. 음성활동도 검출(VAD) 블록(202)은 입력된 다수의 좁은 대역 신호들을 여기선택 블록(203)에 출력한다. 여기선택 블록(203)은 그 신호들을 분석하여 어떤 여기방법이 입력신호를 부호화하기 위해 가장 적합한 것인지를 결정한다. 여기선택 블록(203)은 여기방법의 결정에 따라 선택수단(205)을 제어하기 위해 제어신호(204)를 생성한다. 만일 입력신호의 현재 프레임을 부호화하기 위한 최상의 여기방법이 제1여기방법이라고 결정되었다면, 선택수단(205)은 제1여기블록(206)의 신호를 선택하도록 제어된다. 만일 입력신호의 현재 프레임을 부호화하기 위한 최상의 여기방법이 제2여기방법이라고 결정되었다면, 선택수단(205)은 제2여기블록(207)의 신호를 선택하도록 제어된다. 비록 도 2의 부호기가 부호화처리를 위해 제1여기블록(206) 및 제2여기블록(207)만을 가진다고 해도, 부호기(200)에서 이용가능한 다른 여기방법들을 위해 2개를 넘는 다른 여기블록들이 입력신호의 부호화에 이용될 수 있다는 것이 명백하다.

제1여기블록(206)은 예를 들면 TCX여기신호를 생성하고 제2여기블록(207)은 예를 들면 ACELP여기신호를 생성한다.

LPC분석블록(208)은 디지털화된 입력신호에 대해 프레임단위로 LPC분석을 수행하여 입력신호에 가장 잘 부합되는 그러한 매개변수 집합을 찾는다.

LPC매개변수들(210) 및 여기매개변수들(211)은, 예컨대, 통신망(704)(도 7)으로의 송신 전에, 예를 들면, 양자화 및 부호화 블록(212)에서 양자화되고 부호화된다. 그러나, 그 매개변수들을 송신하는 것이 반드시 필요한 것은 아니며, 그것들은 예를 들면 저장매체에 저장될 수 있고 나중의 단계에서 송신 및/또는 복호화를 위해 검색될 수 있다.

도 3은 부호기(200)에서 신호 분석을 위해 사용될 수 있는 필터(300)의 일 예를 묘사한다. 필터(300)는, 예를 들면, AMR-WB 코덱의 음성활동도 검출 블록의 필터 뱅크이며, 별도의 필터가 필요하지 않지만 이 목적을 위해 다른 필터들을 이용하는 것도 가능하다. 필터(300)는 둘 이상의 필터 블록들(301)을 포함하여 입력신호를 다른 주파수들의 둘 이상의 부대역 신호들로 분리한다. 바꾸어 말하면, 필터(300)의 각 출력신호는 입력신호의 어떤 주파수대역을 표시한다. 필터(300)의 출력신호들은 여기선택 블록(203)에서 입력신호의 주파수 콘텐츠를 결정하기 위해 이용될 수 있다.

여기선택 블록(203)은 필터뱅크(300)의 각 출력의 에너지레벨들을 평가하고, 그 부대역들에서의 에너지레벨 변동들과 함께 하위 및 상위 주파수 부대역들 사이의 관계들을 분석하고 신호를 음악유사 또는 음성유사로 분류한다.

본 발명은 입력신호의 주파수 콘텐츠를 검사하여 입력신호의 프레임들을 위한 여기방법을 선택하는 것에 기초한다. 다음에서, AMR-WB 확장(AMR-WB+)이 입력신호를 음성유사 또는 음악유사 신호들로 분류하는데 그리고 그 신호를 위한 ACELP-여기나 TCX-여기를 선택하는데 이용되는 실용적인 예로서 사용된다. 그러나, 본 발명은 AMR-WB 코덱 또는 ACELP-여기 및 TCX-여기 방법들에 한정되지 않는다.

확장형 AMR-WB(AMR-WB+) 코덱에서, LP-합성을 위한 2 유형의 여기들인 ACELP 펄스유사 여기 및 TCX(transform coded excitation)가 있다. ACELP여기는 원래의 3GPP AMR-WB 표준(3 GPP TS 26.190)에서 이미 이용된 것과 동일하고 TCX는 확장형 AMR-WB로 구현된 개선물이다.

AMR-WB 확장 예는 AMR-WB VAD 필터뱅크들에 기초하는데, 그것은 각각의 20ms 입력프레임에 대해 도 3에 보인 바와 같은 0부터 6400Hz까지의 주파수범위에 걸친 12개 부대역들에서 신호에너지 E(n)을 생성한다. 필터뱅크들의 대역폭들은 통상 같지 않고 도 3에서 알 수 있는 것처럼 다른 대역들에 대해 가변할 수 있다. 또한 부대역들의 갯수는 변할 수 있고 부대역들은 부분적으로 겹쳐 있을 수 있다. 다음에 각 부대역의 에너지레벨은 각 부대역으로부터의 에너지레벨 E(n)을 각 대역의 정규화된 에너지레벨들인 EN(n)을 생성하는 그 부대역의 대역폭(Hz)에 의해 나눔으로써 정규화(normalization)되고 여기서 n은 0부터 11까지의 대역번호이다. 색인 0은 도 3에 보인 최저 부대역을 말한다.

여기선택블록(203)에서 에너지레벨들의 표준편차는 12개 부대역들의 각각을 위해 예컨대 2개의 윈도우들인 짧은 윈도우(stdshort(n)) 및 긴 윈도우(stdlong(n))를 이용하여 계산된다. AMR-WB+ 경우에 대해, 짧은 윈도우의 길이는 4개 프레임이고 긴 윈도우는 16개 프레임이다. 이 계산에서, 과거의 3 또는 15개 프레임들과 함께 현재 프레임으로부터의 12개 에너지레벨들은 이 2개의 표준편차값들을 도출하는데 이용된다. 이 계산의 특수한 특징은 그 계산이 음성활동도 검출 블록(202)이 213개의 유효 음성을 나타낼 때에만 수행된다는 것이다. 이것은 알고리즘이 특히 긴 음성 정지 후에 고속으로 반응하게 할 것이다.

다음에, 각 프레임에 대해, 모두 12개 필터뱅크들에 걸친 평균 표준편차는 긴 및 짧은 윈도우들 둘 다에 대해 취해지고 평균 표준편차값들(stdashort 및 stdalong)이 만들어진다.

오디오신호의 프레임들에 대해, 또한 하위 주파수대역들과 상위 주파수대역 들 사이의 관계가 계산된다. 하위 주파수 부대역들의 AMR-WB+에너지에서 1부터 7까지의 LevL이 취해지고 그것을 이 부대역들의 길이(대역폭)에 의해 나눔으로써 정규화된다. 8부터 11까지의 상위 주파수대역들에 대해 그것들의 에너지들이 취해지고 각각 정규화되어 LevH를 만든다. 이 예의 실시예에서 최저 부대역 0은 이 계산들에서 이용되지 않는데 그것이 통상 너무 많은 에너지를 함유하여 계산을 왜곡할 것이고 다른 부대역들로부터의 기여가 너무 작도록 할 것이기 때문이라는 것에 주의한다. 이 측정들로부터 관계 LPH = LevL/LevH가 정의된다. 부가하여, 각 프레임에 대해 이동평균(moving average; LPHa)이 현재 및 3개의 과거 LPH값들을 이용하여 계산된다. 이 계산들 후 현재 프레임에 관한 저 및 고 주파수 관계(LPHaF)는 최신의 값들에 약간 더 많은 가중치를 설정하는 것에 의해 현재 및 7개 이전 이동평균(LPHa)의 가중된 합을 이용함으로써 계산된다.

이용가능한 부대역들의 하나 또는 수 개만이 분석되도록 본 발명을 구현하는 것도 가능하다.

또한 현재 프레임을 위한 필터블록들(301)의 평균 레벨(AVL)은, 각각의 필터블록 출력으로부터 배경잡음의 추정된 레벨을 감산하고 상응하는 필터블록(301)의 최고주파수에 의해 곱해진 이 레벨들을 합산하는 것에 의해 계산되어, 하위 주파수대역들보다 상대적으로 적은 에너지를 함유하는 고주파수 대역들이 평균을 이루도록 한다.

또한 각 필터뱅크(301)의 배경잡음 추정치에 의해 감산된 모든 필터블록들(301)로부터의 현재 프레임의 총 에너지(TotE0)가 계산된다.

이 측정값들을 계산하고 난 후, ACELP 및 TCX 여기 사이의 선택은, 예를 들면, 다음 방법을 이용하여 행해진다. 다음에서 플래그가 설정될 때 다른 플래그들이 충돌을 방지하기 위해 클리어된다고 가정된다. 먼저, 긴 윈도우를 위한 평균 표준편차값(stdalong)은 제1문턱값(TH1), 예를 들면, 0.4와 비교된다. 만일 이 표준편차값(stdalong) 제1문턱값(TH1)보다 작으면, TCX MODE 플래그는 설정(set)된다. 그렇지 않으면, 저 및 고 주파수 관계의 계산된 측정값(LPHaF)은 제2문턱값(TH2), 예를 들면, 280과 비교된다.

만일 저 및 고 주파수 관계의 계산된 측정값(LPHaF)이 제2문턱값(TH2)보다 크다면, TCX MODE 플래그는 설정된다. 그렇지 않으면, 제1문턱값(TH1)에 의해 감산된 표준편차값(stdalong)의 역수가 계산되고 제1상수(C1), 예를 들면 5가 계산된 역수 값에 합산된다. 그 합은 저 및 고 주파수 관계의 계산된 측정값(LPHaF)과 비교된다:

C1+(1/(stdalong - TH1)) > LPHaF (1)

만일 비교의 결과가 참이라면, TCX MODE 플래그는 설정된다. 비교의 결과가 참이 아니라면, 표준편차값(stdalong)은 제1피승수(M1)(예컨대 -90)에 의해 곱해지고 제2상수(C2)(예컨대 120)가 곱셈의 결과에 가산된다. 그 합은 저 및 고 주파수 관계의 계산된 측정값(LPHaF)과 비교된다:

M1* stdalong +C2 < LPHaF (2)

만일 합이 저 및 고 주파수 관계의 계산된 측정값(LPHaF)보다 작다면, ACELP MODE 플래그가 설정된다. 그렇지 않으면 UNCERTAIN MODE 플래그가 설정되어 여기방 법이 현재 프레임을 위해 아직 선택될 수 없음을 나타낸다.

추가의 검사는 위에서 기술된 단계들 후에 현재 프레임을 위한 여기방법이 선택되기 전에 수행된다. 먼저, ACELP MODE 플래그 또는 UNCERTAIN MODE 플래그가 설정되는지가 검사되고 만일 현재 프레임을 위한 필터뱅크들(301)의 계산된 평균 레벨( AVL)이 제3문턱값(TH3)(예컨대 2000)보다 크면, TCX MODE 플래그는 설정되고 ACELP MODE 플래그 및 UNCERTAIN MODE 플래그는 클리어된다.

다음에, 만일 UNCERTAIN MODE 플래그가 설정되면, 유사한 평가들이 긴 윈도우를 위한 평균 표준편차값(stdalong)을 위해 위에서 수행되었던 것보다는 짧은 윈도우를 위한 평균 표준편차값(stdashort)을 위해 비교들에 상수들과 문턱들에 대해 약간 다른 값들을 이용하여 수행된다. 만일 짧은 윈도우를 위한 평균 표준편차값(stdashort)이 제4문턱값(TH4)(예컨대 0.2)보다 작다면, TCX MODE 플래그가 설정된다. 그렇지 않으면, 제4문턱값(TH4)에 의해 감산된 짧은 윈도우를 위한 표준편차값(stdashort)의 역수가 계산되고 제3상수(C3)(예컨대 2.5)가 계산된 역수 값에 더해진다. 그 합은 저 및 고 주파수 관계의 계산된 측정값(LPHaF)과 비교된다:

C3+(1/(stdashort-TH4)) > LPHaF (3)

만일 비교의 결과가 참이라면, TCX MODE 플래그는 설정된다. 만일 비교의 결과가 참이 아니면, 표준편차값(stdashort)은 제2피승수(M2)(예컨대 -90)에 의해 곱해지고 제4상수(C4)(예컨대 140)는 곱셈의 결과에 가산된다. 그 합은 저 및 고 주파수 관계의 계산된 측정값(LPHaF)과 비교된다:

M2* stdashort+C4 < LPHaF (4)

만일 합이 저 및 고 주파수 관계의 계산된 측정값(LPHaF)보다 작다면, ACELP MODE 플래그가 설정된다. 그렇지 않으면 UNCERTAIN MODE 플래그는 설정되어 여기방법이 현재 프레임을 위해 아직 선택될 수 없음을 나타낸다.

다음 단계에서 현재 프레임 및 이전 프레임의 에너지레벨들은 검사된다. 만일 현재 프레임의 총 에너지(TotE0) 및 이전의 프레임의 총 에너지(TotE-1) 사이의 비율이 제5문턱값(TH5)(예컨대 25)보다 크면, ACELP MODE 플래그은 설정되고 TCX MODE 플래그 및 UNCERTAIN MODE 플래그는 클리어된다.

끝으로, 만일 TCX MODE 플래그 또는 UNCERTAIN MODE 플래그가 설정되고 만일 현재 프레임을 위한 필터뱅크들(301)의 계산된 평균레벨(AVL)이 제3문턱값(TH3)보다 크고 현재 프레임의 총 에너지(TotE0)가 제6문턱값(TH6)(예컨대 60)보다 작다면 ACELP MODE 플래그는 설정된다.

위에서 기술된 평가방법이 수행될 때 만일 TCX MODE 플래그가 설정된다면 제1여기방법과 제1여기블록(206)이 선택되거나 또는 만일 ACELP MODE 플래그이 설정된다면 제2여기방법 및 제2여기블록(207)이 선택된다. 그러나, 만일 UNCERTAIN MODE 플래그가 설정되면, 평가방법은 선택을 수행하지 않을 수 있다. 그 경우에 ACELP 또는 TCX가 선택되거나 또는 얼마간의 추가 분석이 구별을 이루기 위해 수행되어야 한다.

이 방법은 또한 다음의 의사코드로서 예시될 수 있다:

if(stdalong < TH1)

SET TCX_MODE

else if(LPHaF > TH2)

SET TCX_MODE

else if((C1+(1/(stdalong - TH1))) > LPHaF)

SET TCX_MODE

else if((M1* stdalong + C2) < LPHaF)

SET ACELP_MODE

else

SET UNCERTAIN_MODE

if(ACELP_MODE or UNCERTAIN_MODE) and (AVL > TH3)

SET TCX_MODE

if(UNCERTAIN_MODE)

if(stdashort < TH4)

SET TCX_MODE

else if((C3+(1/(stdashort - TH4))) > LPHaF)

SET TCX_MODE

else if((M2* stdashort + C4) < LPHaF)

SET ACELP_MODE

else

SET UNCERTAIN_MODE

if(UNCERTAIN_MODE)

if((TotE0/TotE-1) > TH5)

SET ACELP_MODE

if(TCX_MODE || UNCERTAIN_MODE))

if(AVL > TH3 and TotE0 < TH6)

SET ACELP_MODE

분류 배후의 기본 생각은 도 4, 5 및 6에서 도시되어 있다. 도 4는 VAD 필터뱅크들에서의 에너지레벨들의 표준편차를 음악신호의 저 및 고 에너지성분들 사이의 관계의 함수로서 그린 예를 보인다. 각 도트는 음악의 다른 변주(variations)를 담고 있는 긴 음악신호로부터 취해진 20ms 프레임에 해당한다. 선 A는 음악신호 영역의 상부 경계에 대략 상응하게 맞추어진다. 즉, 이 선의 우측의 도트들은 본 발명에 따른 방법에서 음악유사 신호들로서 간주되지 않는다.

개별적으로, 도 5는 VAD 필터뱅크들에서의 에너지레벨들의 표준편차를 음성신호의 저 및 고 주파수성분들 사이의 관계의 함수로서 그린 예를 보인다. 각 도트는 음성 및 다른 화자들의 다른 변화를 담고 있는 긴 음성신호로부터 취해진 20ms 프레임에 해당한다. 곡선 B는 음성신호 영역의 대략 하부 경계를 나타내도록 맞추어진다. 즉, 곡선 B 왼쪽의 도트들은 본 발명에 따른 방법에서 음성유사 신호들로서 간주되지 않는다.

도 4에서 알 수 있는 바와 같이, 대부분의 음악신호는 분석된 주파수들에 대 해 상당히 작은 표준편차 및 비교적 고른 주파수분포를 가진다. 도 5에 그려진 음성신호의 경우, 그 경향은 뒤바뀌어, 표준편차들은 더 높고 주파수 성분은 더 낮다. 양 신호들을 도 6에서 동일한 도면에 두고 곡선들 A, B를 맞추어 양 음악 및 음성 신호들을 위한 영역들의 경계들을 일치시키면, 대부분의 음악신호들과 대부분의 음성신호들을 다른 카테고리들로 나누는 것은 상당히 용이하다. 도면들에서 맞추어진 곡선들 A, B는 위에서 첨부된 의사코드에서 제시된 것과 동일하다. 이 그림들은 단일 표준편차 및 긴 윈도우 처리에 의해 계산된 고 당 저(low per high) 주파수 값들을 설명한다. 의사코드는 2개의 다른 윈도우 처리들을 이용하여, 그래서 도 4, 5 및 6에 제시된 맵핑 알고리즘의 2개의 다른 버전들을 이용하는 알고리즘을 포함하고 있다.

도 6의 곡선들(A, B)에 의해 제한된 영역 C는 음악유사 및 음성유사 신호들을 분류하기 위한 추가의 수단이 통상 필요해질 수 있는 겹침(중첩)영역을 나타낸다. 신호 변동에 대해 다른 길이의 분석 윈도우들을 이용하고 이 다른 측정값들을 우리의 의사코드 예에서 행해진 것처럼 조합함으로써 영역 C는 더 작게 만들어질 수 있다. 얼마간의 겹침은 허용될 수 있는데, 음악신호들의 일부가 음성을 위해 최적화된 압축으로 효율적으로 부호화될 수 있고 얼마간의 음성신호들은 음악을 위해 최적화된 압축으로 효율적으로 부호화될 수 있기 때문이다.

위에 제시된 예에서 가장 최적의 ACELP 여기가 합성에 의한 분석을 이용하여 선택되고 최고의 ACELP-여기 및 TCX-여기 사이의 선택은 사전 선택에 의해 행해진다.

비록 본 발명이 위에서 2개의 다른 여기방법들을 이용하여 제시되었지만, 2개를 초과하는 다른 여기방법들을 이용하는 것과 오디오신호들을 압축하기 위해 그것들 중에서 선택을 행하는 것이 가능하다. 또한 필터(300)는 입력신호를 위에서 제시된 것들과는 다른 주파수대역들로 나눌 수 있고 또 주파수대역들의 갯수는 12와 다를 수 있다는 것도 명백하다.

도 7은 본 발명이 적용될 수 있는 시스템의 예를 묘사한다. 이 시스템은 음성 및/또는 비음성 오디오신호들을 생성하는 하나 이상의 음원(701)을 포함한다. 오디오신호들은 A/D변환기(702)에 의해 필요하면 디지털 신호들로 변환된다. 디지털화된 신호는 송신기기(700)의 부호기(200)에 입력되고 거기서 본 발명에 따라 압축이 수행된다. 압축된 신호들은 또한 필요하면 부호기(200)에서 송신을 위해 양자화되고 부호화된다. 송신기(703), 예를 들면 이동통신기기(700)의 송신기는, 압축되고 부호화된 신호들을 통신망(704)에 송신한다. 이 신호들은 수신기기(706)의 수신기(705)에 의해 통신망(704)으로부터 수신된다. 수신된 신호들은 수신기(705)로부터 복호기(707)에 복호화, 역양자화 및 압축복원(decompression)를 위해 전달된다. 복호기(707)는 현재 프레임을 위해 부호기(200)에서 사용된 압축방법을 결정하는 검출수단(708)을 포함한다. 복호기(707)는 결정을 기초로 하여 현재 프레임을 압축복원하기 위한 제1압축복원수단(709) 또는 제2압축복원수단(710)을 선택한다. 압축복원된 신호들은 압축복원수단들(709, 710)로부터 필터(711) 및 D/A변환기(712)에 연결되어 디지털 신호가 아날로그 신호로 변환된다. 그 후 아날로그 신호는 예를 들면 확성기(713)에서 오디오로 변환될 수 있다.

본 발명은 다른 종류의 시스템들에서, 특히 종래기술의 시스템들에서보다 더욱 효율적인 압축을 달성하기 위한 저속 전송으로 구현될 수 있다. 본 발명에 따른 부호기(200)는 통신 시스템들의 다른 부분들에 구현될 수 있다. 예를 들면, 부호기(200)는 제한된 처리 능력을 가지는 이동통신기기에 구현될 수 있다.

본 발명이 위에서 기술된 실시예들에만 한정되는 것이 아니고 첨부의 청구항들의 범위 내에서 변형될 수 있다는 것은 명백하다.

도 1은 종래기술의 높은 복잡도의 분류를 가지는 간이화된 부호기를 나타내며,

도 2는 본 발명에 따른 분류를 가지는 부호기의 예시적인 실시예를 나타내며,

도 3은 AMR-WB VAD 알고리즘에서의 VAD필터 뱅크 구조의 예를 도시하며,

도 4는 음악신호의 낮은 및 높은 에너지성분들 사이의 관계의 함수로서 VAD필터 뱅크들에서의 에너지레벨들의 표준편차를 그린 예를 보이며,

도 5는 음성신호의 낮은 및 높은 에너지성분들 사이의 관계의 함수로서 VAD필터 뱅크들에서의 에너지레벨들의 표준편차를 그린 예를 보이며,

도 6은 음악 및 음성 신호들 둘 다를 위해 조합하여 그린 예를 보이고,

도 7은 본 발명에 따른 시스템의 예를 보인다.

Claims

주파수대역의 오디오신호의 프레임들을 입력하기 위한 입력단(201), 적어도, 음성유사 오디오신호를 위한 제1여기를 수행하기 위한 제1여기블록(206), 및 비음성유사 오디오신호를 위한 제2여기를 수행하기 위한 제2여기블록(207)을 포함하는 부호기(200)에 있어서, 부호기(200)는 주파수대역을 각각이 상기 주파수대역보다 좁은 대역폭을 가지는 복수의 부대역들로 나누기 위한 필터(300), 및 적어도 상기 부대역들 중의 하나에서 오디오신호의 속성들에 기초하여 오디오신호의 프레임에 대한 여기를 수행하기 위해 상기 적어도 제1여기블록(206) 및 상기 제2여기블록(207) 중에서 하나의 여기블록을 선택하기 위한 여기선택블록(203)을 더 포함하는 것을 특징으로 하는 부호기(200).