KR101120913B1

KR101120913B1 - 멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법

Info

Publication number: KR101120913B1
Application number: KR1020107006423A
Authority: KR
Inventors: 조나단 앨라스테어 깁스
Original assignee: 모토로라 모빌리티, 인크.
Priority date: 2007-09-25
Filing date: 2008-09-09
Publication date: 2012-02-27
Also published as: BRPI0817982B1; JP5277508B2; EP2206110A1; JP2010541007A; CA2698600A1; ZA201001672B; US20170116997A1; MY169423A; GB2453117A; CA2698600C; WO2009042386A1; US8577045B2; KR20100057666A; RU2450369C2; EP2206110B1; MX2010002846A; BRPI0817982A2; RU2010116295A; GB2453117B; GB0718682D0

Abstract

인코딩 장치는 적어도 제1 마이크로폰(101)으로부터의 제1 오디오 신호 및 제2 마이크로폰(103)으로부터의 제2 오디오 신호를 포함하는 멀티 채널 오디오 신호를 수신하는 프레임 프로세서(105)를 포함한다. 그 다음 ITD 프로세서(107)는 제1 오디오 신호와 제2 오디오 신호 사이의 시간 격차를 결정하며 일련의 지연부(109, 111)는 시간 격차 신호에 응답하여 제1 및 제2 오디오 신호 중 적어도 하나를 지연시킴으로써 멀티 채널 오디오 신호로부터 보상된 멀티 채널 오디오 신호를 생성한다. 그 후, 결합기(113)는 보상된 멀티 채널 오디오 신호의 채널들을 결합함으로써 모노 신호를 생성하며 모노 신호 인코더(115)는 모노 신호를 인코드한다. 시간 격차는 특히 제1 및 제2 오디오 신호 간의 상호상관을 결정하는 것을 기반으로 하는 알고리즘에 의해 결정될 수 있다.

Description

멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법{APPARATUS AND METHOD FOR ENCODING A MULTI CHANNEL AUDIO SIGNAL}

본 발명은 멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법에 관한 것으로, 특히, 배타적인 것은 아니지만 스테레오 음성 신호를, 인코딩을 위해 코드 여기 선형 예측 인코더(Code Excited Linear Prediction encoder)와 같은 모노 인코더(mono encoder)를 이용하여 모노 신호로 다운-믹스(down-mix)하는 것에 관한 것이다.

오디오 신호의 효율적인 인코딩은 응용예와 시스템의 수를 증가시키는데 중요하다. 예를 들어, 이동 통신은 효율적인 음성 인코더를 이용하여 무선 인터페이스(air interface)를 통해 전송해야 하는 데이터의 양을 줄인다.

예를 들어, 국제전기통신연합(International Telecommunication Union: ITU)은 데이터율이 8 내지 64 kbps 범위로 하는 음성 신호를 고품질로 인코딩할 수 있는 임베디드 가변 비트율 코덱(Embedded Variable Bit Rate Codec: EV-VBR)으로 알려진 음성 인코더를 표준화하고 있다. 이러한 인코더뿐만 아니라 다른 많은 효율적인 음성 인코더는 코드 여기 선형 예측(Code Excited Linear Prediction: CELP) 기술을 이용하여 저비트율의 동작에서 인코딩 프로세스의 고압축율을 성취한다.

소정 응용예에서, 둘 이상의 오디오 신호가 캡쳐될 수 있으며 특히 스테레오 신호는 두 개의 마이크로폰을 이용하여 오디오 시스템에 기록될 수 있다. 예를 들어, 스테레오 기록은 전형적으로 오디오 및 비디오 회의뿐만 아니라 방송 응용에서 사용될 수 있다.

많은 멀티 채널 인코딩 시스템에서, 그리고 특히 많은 멀티 채널 음성 인코딩 시스템에서, 낮은 레벨의 인코딩은 단일 채널을 인코딩하는데서 비롯된다. 그러한 시스템에서, 멀티 채널 신호는 낮은 계층의 코더에서 인코딩하기 위해 모노 신호로 변환될 수 있다. 이러한 모노 신호의 생성을 다운-믹싱(down-mixing)이라 지칭한다. 그러한 다운-믹싱은 모노 신호에 대한 스테레오 신호의 국면을 기술하는 파라미터와 연관될 수 있다. 상세히 말해서, 다운 믹싱은 좌측 채널과 우측 채널 간의 타이밍 차이(timing difference)를 특징짓는 채널간 시간차(inter-channel time difference: ITD) 정보를 발생할 수 있다. 예를 들어, 만일 두 개의 마이크로폰이 서로 이격배치되어 있는 경우, 한 마이크로폰에 다른 마이크로폰보다 가까이 배치된 스피커로부터의 신호는 상기 가까운 마이크로폰에 비해 지연되어 다른 마이크로폰에 도달할 것이다. 이러한 ITD는 결정될 수 있으며 이 ITD는 디코더에서 모노 신호로부터 스테레오 신호를 재현하는데 사용될 수 있다. 대략 1 kHz 미만의 주파수인 경우에 ITD는 지각력에 의한 영향이 스테레오 위치에 가장 지배적으로 미치는 것으로 판명되었기 때문에 ITD는 재현된 스테레오 관점의 품질을 상당히 개선할 수 있다. 그러므로, ITD를 또한 추정하는 것이 중요하다.

통상적으로, 모노 신호는 스테레오 신호들을 서로 합침으로써 생성된다. 그 후, 모노 신호는 인코드되어 ITD와 함께 디코더에 전송된다.

예를 들어, 유럽 전기통신 표준 기구(European Telecommunication Standards Institute)는 기술 사양 ETSI TS126290 "Extended Adaptive Multi-Rate - Wideband(AMR-WB+) Codec; Transcoding Functions"에서 스테레오 신호 다운-믹싱을 규정하였는데, 여기서 모노 신호는 다음과 같이 좌측 채널과 우측 채널의 평균으로서 간단하게 결정된다.

여기서 x_ML(n)는 모노 신호의 n번째 샘플을 나타내고, x_LL(n)는 좌측 채널 신호의 n번째 샘플을 나타내며, x_RL(n)는 우측 채널 신호의 n번째 샘플을 나타낸다.

다운믹스의 또 다른 예는 2004년 10월 5-8일, 이탈리아 나폴리, Proceedings 7^th International Conference on Digital Audio Effects (DAFx'04)에서, 에이치 펀헤이건(H. Purnhagen)의 "Low Complexity Parametric Stereo Coding in MPEG-4"의 163-168 페이지에서 제공된다. 이 문서에서, 채널간 세기차(inter-channel intensity difference: IID)에 대해 구한 정보를 이용하여 대역별(band-by-band) 주파수에 기반한 인입 채널들(incoming channels)의 가중 합(weighted sum)으로서 출력 모노 신호를 구하는 다운-믹싱 방법이 기술되어 있다. 보다 상세하게,

여기서 M[k,i]는 모노 신호의 k번째 주파수 빈(frequency bin)의 i번째 샘플을 나타내고, L[k,i]는 좌측 채널 신호의 k번째 주파수 빈의 i번째 샘플을 나타내며, R[k,i]는 우측 채널 신호의 k번째 주파수 빈의 i번째 샘플을 나타내며, g_l은 좌측 채널 가중치이며 g_r는 우측 채널 가중치이다.

이러한 접근법들의 특징은 어느 접근법이나 모노 신호가 높은 반향음 시간(reverberation time)을 갖거나 그렇지 않다면 높은 복잡도 및/또는 지연을 갖는 결과를 가져온다는 것이다. 예를 들어, 다운-믹싱의 AMR-WB+ 방법은 반향음 시간이 대략 방안(room)의 반향음 시간에 두 마이크로폰들 사이의 비행시간을 합한 시간이라는 출력을 제공한다. 펀헤이건(Purnhagen)의 문서에서 제공된 다운믹스는 복잡도가 높으며 주파수 분석 및 재구성으로 인한 지연이 부과된다.

그러나, 많은 모노 인코더는 신호가 낮은 반향음 시간을 갖게 하는 최선의 결과를 제공한다. 예를 들어, 저비트율 CELP 음성 코더, 및 펄스-기반 여기(pulse-based excitation)를 이용하여 음성 및 오디오 신호를 나타내는 다른 인코더는 신호가 짧은 반향음 시간을 가질 때 가장 잘 동작한다. 따라서, 인코더의 성능과 인코드된 결과 신호의 품질은 차선책이 되기 쉽다.

그러므로, 개선된 시스템이 유익할 것이며 특히 유연성이 증가하고, 구현이 용이하고, 인코딩 품질이 향상되고, 인코딩 효율이 개선되고, 지연이 줄며 및/또는 성능이 개선되는 시스템이 유익할 것이다.

따라서, 본 발명은 바람직하게 전술한 한가지 이상의 단점을 한 개씩 또는 몇 개씩 완화하고, 경감하고 또는 제거하고자 한다.

본 발명의 양태에 따르면, 멀티 채널 오디오 신호를 인코딩하기 위한 장치가 제공되며, 상기 장치는, 적어도 제1 마이크로폰으로부터의 제1 오디오 신호 및 제2 마이크로폰으로부터의 제2 오디오 신호를 포함하는 상기 멀티 채널 오디오 신호를 수신하는 수신기; 상기 제1 오디오 신호와 상기 제2 오디오 신호의 시간 격차를 결정하는 시간 차 유닛; 상기 시간 격차 신호에 응답하여 상기 제1 오디오 신호 및 상기 제2 오디오 신호 중의 적어도 하나를 지연시킴으로써 상기 멀티 채널 오디오 신호로부터 보상된 멀티 채널 오디오 신호를 생성하는 지연 유닛; 상기 보상된 멀티 채널 오디오 신호의 채널들을 결합함으로써 모노 신호를 생성하는 모노 유닛; 및 상기 모노 신호를 인코딩하는 모노 신호 인코더를 포함한다.

본 발명은 멀티 채널 오디오 신호의 개선된 인코딩을 제공할 수 있다. 특히, 많은 실시예에서 주어진 데이터율의 개선된 품질이 성취될 수 있다. 본 발명은 모노 다운-믹스 신호의 반향음 시간을 줄임으로써 스테레오 신호로부터 모노 다운-믹스 신호의 모노 인코딩을 개선할 수 있다. 지연 유닛은 어떤 마이크로폰이 (메인) 오디오 소스에 가장 가까이 있는지에 따라서 제1 오디오 신호 또는 제2 오디오 신호를 지연시킬 수 있다. 시간 격차는 동일 오디오 소스로부터 발생하는 제1 및 제2 오디오 신호의 대응하는 오디오 컴포넌트들 사이의 시간 차를 나타낼 수 있다. 모노 신호를 생성하는 유닛은 제1 및 제2 오디오 신호에 대응하는 결합된 멀티 채널 오디오 신호의 두 채널들을 합치도록 배열될 수 있다. 소정 실시예에서, 합산은 가중 합산일 수 있다.

본 발명의 선택적인 특징에 따르면, 시간 차 유닛은 복수의 시간 옵셋을 위해 제1 오디오 신호와 제2 오디오 신호 사이의 상호상관을 결정하고, 그리고 상호상관에 응답하여 시간 격차를 결정하도록 배열된다.

이 특징은 시간 격차의 결정을 개선되게 할 수 있다. 이 특징은 인코드된 오디오 신호의 품질을 개선시킬 수 있으며 및/또는 구현을 용이하게할 수 있으며 및/또는 복잡성을 줄일 수 있다. 특히, 이 특징은 모노 신호 및 시간 격차로부터 랜더링된 스테레오 신호의 스테레오 지각력을 개선시켜 줄 수 있다. 상호상관은 개개의 상호상관의 시간 옵셋과 같아지는 시간 격차의 확률을 나타낼 수 있다.

본 발명의 다른 양태에 따르면, 멀티 채널 오디오 신호를 인코딩하기 위한 방법이 제공되며, 상기 방법은, 적어도 제1 마이크로폰으로부터의 제1 오디오 신호 및 제2 마이크로폰으로부터의 제2 오디오 신호를 포함하는 상기 멀티 채널 오디오 신호를 수신하는 단계; 상기 제1 오디오 신호와 상기 제2 오디오 신호의 시간 격차를 결정하는 단계; 상기 시간 격차 신호에 응답하여 상기 제1 오디오 신호 및 상기 제2 오디오 신호 중 적어도 하나를 지연시킴으로써 상기 멀티 채널 오디오 신호로부터 보상된 멀티 채널 오디오 신호를 생성하는 단계; 상기 보상된 멀티 채널 오디오 신호의 채널들을 결합함으로써 모노 신호를 생성하는 단계; 및 상기 모노 신호를 모노 신호 인코더에서 인코딩하는 단계를 포함한다.

본 발명의 이러한 양태와 다른 양태, 특징과 장점은 아래에서 기술된 실시예(들)로부터 자명해질 것이며 그 실시예를 참조하여 설명될 것이다.

본 발명의 실시예는 도면을 참조하여 단지 예로서만 설명될 것이다.
도 1은 본 발명의 소정 실시예에 따라서 멀티 채널 오디오 신호를 인코딩하기 위한 장치의 예를 예시한다.
도 2는 본 발명의 소정 실시예에 따라서 시간 격차(inter time difference)를 추정하는 프로세싱 유닛의 예를 예시한다.
도 3은 본 발명의 소정 실시예에 따라서 화이트닝 프로세서(whitening processor)의 예를 예시한다.
도 4는 본 발명의 소정 실시예에 따라서 트렐리스 상태 머신의 상태 갱신의 예를 예시한다.
도 5는 본 발명의 소정 실시예에 따라서 멀티 채널 오디오 신호를 인코딩하기 위한 방법의 예를 예시한다.

다음은 모노 인코더를 이용한 멀티 채널 오디오 신호의 인코딩, 특히 모노 CELP 인코더를 이용한 스테레오 음성 신호의 인코딩에 적용할 수 있는 본 발명의 실시예에 대해 중점적으로 설명한다.

도 1은 본 발명의 소정 실시예에 따라서 멀티 채널 오디오 신호를 인코딩하기 위한 장치를 예시한다. 특정한 예에서, 스테레오 음성 신호는 모노 인코더를 이용하여 모노 신호로 다운-믹스되고 인코드된다.

본 장치는 두 개의 마이크로폰(101, 103)을 포함하며, 이들 마이크로폰은 두 마이크로폰이 배치된 오디오 환경으로부터 오디오 신호를 캡처한다. 이 예에서, 두 마이크로폰은 실내에서 음성 신호를 기록하는데 사용되며 3 미터까지의 내부 거리를 두고 배치된다. 특정 응용에서, 마이크로폰(101, 103)은, 예를 들어, 실내에 있는 다수의 사람들로부터의 음성 신호를 기록할 수 있으며 두 개의 마이크로폰을 사용함으로써 실내의 오디오 커버리지가 더 좋아질 수 있다.

마이크로폰(101, 103)은 제1 및 제2 마이크로폰(101, 103)으로부터 각기 제1 및 제2 신호를 수신하는 프레임 프로세서(105)에 연결된다. 프레임 프로세서는 이 신호들을 순차적인 프레임으로 분할한다. 특정 예에서, 샘플 주파수는 16 ksamples/sec 이며 프레임 지속기간은 20 msec로서 결과적으로 각 프레임은 320 샘플을 포함한다. 프레임 처리는 이 프레임이 음성 인코딩에 사용된 것과 같은 프레임일 수 있기 때문에 또는 프레임 처리가, 예를 들어, 과거의 음성 샘플에 대해 수행될 수 있기 때문에 음성 경로에 부가적인 지연을 줄 필요가 없음을 알아야 한다.

프레임 프로세서(105)는 제1 오디오 신호와 제2 오디오 신호 간의 시간 격차(inter time difference)를 측정하도록 배열된 ITD 프로세서(107)에 결합된다. 시간 격차는 하나의 채널에서의 신호가 다른 채널에서의 신호에 비해 지연된 것을 나타낸다. 이 예에서, 시간 격차는 채널들 중 어느 채널이 다른 채널에 비해 지연되는가에 따라서 양의 값 또는 음의 값일 수 있다. 지연은 전형적으로 우세한 음성원(즉, 현재 동작 중인 스피커)과 마이크로폰(101, 103) 사이의 지연의 차로 인해 발생할 것이다.

ITD 프로세서(107)는 또한 두 지연부(109, 111)에 연결된다. 제1 지연부(109)는 제1 오디오 채널에 지연을 도입하도록 배열되며 제2 지연부(111)는 제2 오디오 채널에 지연을 도입하도록 배열된다. 도입된 지연의 양은 추정된 시간 격차에 따라 좌우된다. 또한, 특정 예에서, 지연들 중 단지 한 지연만이 어떤 주어진 시간에 사용된다. 그래서, 추정된 시간 격차의 부호에 따라서, 지연이 제1 또는 제2 오디오 신호에 도입된다. 지연 양은 구체적으로 말하자면 가능한 추정된 시간 격차에 가깝게 설정된다. 그 결과, 지연부(109, 111)의 출력에서의 오디오 신호는 밀집한 시간 간격으로 조정되며 구체적으로 말해서 전형적으로 제로에 가까워질 시간 격차를 갖게 될 것이다.

지연부(109, 111)는 결합기(113)에 연결되며, 이 결합기는 보상된 멀티 채널 오디오 신호의 채널들을 결합함으로써 구체적으로는 지연부(109, 111)의 두 출력 신호들을 결합함으로써 모노 신호를 발생한다. 이 예에서, 결합기(113)는 두 신호를 서로 합하는 간단한 합산 유닛이다. 또한, 신호들은 결합되기 전에 모노 신호의 진폭을 개개의 신호들의 진폭과 유사하게 유지하기 위하여 0.5라는 팩터로 스케일된다.

그러므로, 결합기(113)의 출력은 갭처된 두 신호가 다운 믹스된 모노 신호이다. 또한, 지연 때문에 그리고 시간 격차가 줄어듦으로 인해, 생성된 모노 신호는 반향음이 상당히 줄어든다.

결합기(113)는 모노 인코더(115)에 연결되며, 이 모노 인코더는 모노 신호에 대해 모노 인코딩을 수행하여 인코드된 데이터를 발생한다. 특정한 예에서, 모노 인코더는 국제 전기통신 연합(ITU)에서 표준화될 임베디드 가변 비트율 코덱(Embedded Variable Bit Rate Codec: EV-VBR)에 따른 코드 여기 선형 예측(Code Excited Linear Prediction: CELP) 인코더이다.

CELP 코더는 매우 효율적인 인코딩을 제공하는 것으로 알려져 있으며 구체적으로는 낮은 데이터율에도 불구하고 양호한 음성 품질을 제공하는 것으로 알려져 있다. 그러나, CELP 코더는 반향음 시간이 높은 신호에 대하여는 그와 같이 동작하지 못하는 경향이 있으며 그러므로 통상적으로 생성된 다운 믹스 모노 신호의 인코딩에는 적합하지 않았다. 그러나, 지연이 보상되고 결과적으로 반향음이 줄어듦으로 인해, CELP 모노 인코더는 도 1의 장치에서 이용되어 다운-믹스된 모노 음성 신호를 매우 효율적으로 인코딩할 수 있다. 이러한 장점은 제한하는 것은 아니지만 CELP 모노 인코더에 특히 적합하며 다른 많은 인코더에 적용될 수 있음을 인식할 것이다.

모노 인코더(115)는 출력 멀티플렉서(117)에 연결되며, 이 출력 멀티플렉서는 또한 ITD 프로세서(107)에 연결된다. 이 예에서, 출력 멀티플렉서(117)는 모노 인코더(115)로부터의 인코딩 데이터와 ITD 프로세서(107)로부터의 시간 격차를 나타내는 데이터를 단일 출력 비트스트림으로 멀티플렉스한다. 비트스트림에 시간 격차가 포함됨으로써 디코더는 인코딩 데이터로부터 디코드된 모노 신호에서 스테레오 신호를 재현하는데 도움을 줄 수 있다.

그러므로, 기술된 시스템은 개선된 성능을 제공하며 특히 소정 데이터율에 대해 개선된 오디오 품질을 제공할 수 있다. 특히, CELP 인코더와 같은 모노 인코더가 개선되어 사용됨으로써 결과적으로 상당히 개선된 품질을 가져올 수 있다. 더욱이, 기술된 기능은 구현하기가 간단하며 자원 요건이 비교적 낮다.

아래에서는 ITD 프로세서(107)에 의해 수행된 시간 격차 추정에 대해 도 2를 참조하여 설명할 것이다.

ITD 프로세서(107)에 의해 사용된 알고리즘은 채널들 간의 다른 가능한 시간 옵셋을 위해 제1 및 제2 오디오 신호 간의 상호상관(cross-correlations)의 연속 관측치를 결합함으로써 시간 격차 추정치를 결정한다. 상관은 상관을 더욱 잘 규정하고, 구현을 용이하게 하며 계산 요구를 줄이기 위하여 데시메이티드 LPC 잔여 영역(decimated LPC residual domain)에서 수행된다. 예를 들어, 상호상관은 -12 ms와 +12 ms (± ~4 미터) 사이의 각각의 잠재적 지연과 연관된 확률을 유도하기 위해 처리되며 그 확률은 변형 비터비형 알고리즘을 이용하여 누적된다. 결과는 고유 히스테리시스를 갖는 시간 격차의 추정치이다.

ITD 프로세서(107)는 프레임 프로세서(105)로부터 두 채널의 샘플들의 프레임을 수신하는 데시메이션 프로세서(201)를 포함한다. 데시메이션 프로세서(201)는 먼저 로우패스 필터링을 수행한 다음 데시메이션을 수행한다. 특정한 예에서, 로우 패스 필터는 약 2 kHz의 대역폭을 가지며, 16 ksamples/sec 신호에 대해 4라는 데시메이션 팩터가 사용되어 결과적으로 4 ksamples/sec의 데시메이팅된 샘플 주파수를 생성한다. 필터링과 데시메이션의 효과는 처리된 샘플들의 개수를 부분적으로 줄이는 것이며 그럼으로써 계산 요구가 줄어든다. 그러나, 또한, 이 접근법은 시간 격차를 지각하는 것이 가장 중요한 낮은 주파수에 시간 격차 추정치가 집중되게 한다. 그러므로, 필터링 및 데시메이션은 계산적인 부담을 줄일 뿐만 아니라 시간 격차 추정치가 가장 민감한 주파수와 관련 있음을 보장하는 상승 효과를 제공한다.

데시메이션 프로세서(201)는 화이트닝 프로세서(203)에 연결되며, 화이트닝 프로세서는 상관 전에 스펙트럼 화이트닝 알고리즘(spectral whitening algorithm)을 제1 및 제2 오디오 신호에 적용하도록 배열된다. 스펙트럼 화이트닝은 발성 음 또는 색조 음(voiced or tonal speech)인 경우에, 두 신호들의 시간 영역 신호들이 일련의 임펄스에 매우 유사하게 해줌으로써, 후속하는 상관이 상호상관 값이 더욱 잘 규정되게 해주는 결과를 가져오며 구체적으로 말해서 상관 피크치가 더 좁아지는 결과를 가져온다(임펄스의 주파수 응답이 플랫(flat) 또는 화이트 스펙트럼에 해당하며 그 반대로 화이트 스펙트럼의 시간 영역 표시가 임펄스이다).

특정한 예에서, 스펙트럼 화이트닝은 제1 및 제2 오디오 신호의 선형 예측 계수를 계산하고 그 선형 예측 계수에 응답하여 제1 및 제2 오디오 신호를 필터하는 것을 포함한다.

화이트닝 프로세서(203)의 구성요소들은 도 3에 도시된다. 더 상세히 말하면, 데시메이션 프로세서(201)로부터의 신호는 두 신호에 대해 선형 예측 필터의 선형 예측 계수(Linear Predictive Coefficients: LPCs)를 결정하는 LPC 프로세서(301, 303)에 제공된다. 숙련자들은 LPC를 결정하는 다른 알고리즘을 알 것이며 어떠한 적합한 알고리즘도 본 발명의 가치를 떨어뜨리지 않고 사용될 수 있음을 인식할 것이다.

이 예에서, 두 오디오 신호는 LPC 프로세서(301, 303)에 연결된 두 필터(305, 307)에 제공된다. 두 필터는 LPC 프로세서(301, 303)에 의해 결정된 선형 예측 필터의 역필터(inverse filters) 이도록 결정된다. 상세히 말해서, LPC 프로세서(301, 303)는 선형 예측 필터의 역필터의 계수를 결정하며 두 필터의 계수는 이들 값으로 설정된다.

두 역필터(305, 307)의 출력은 발성 음의 경우에 일련의 임펄스 트레인과 유사하며 그럼으로써 음성 영역에서 가능한 것보다 상당히 더 정확한 상호상관이 수행되게 해준다.

화이트닝 프로세서(203)는 상관기(205)에 연결되며 이 상관기는 복수의 시간 옵셋을 위한 두 필터(305, 307)의 출력 신호들 사이의 상호상관을 결정하도록 배열된다.

특히, 상관기는 하기 값을 결정할 수 있다.

여기서 t는 시간 옵셋이고, x 및 y는 두 신호들의 샘플들이며 N은 특정 프레임의 샘플들을 나타낸다.

상관은 일련의 가능한 시간 옵셋에 대해 수행된다. 특정한 예에서, 상관은 ±12 msec의 최대 시간 옵셋에 대응하는 총 97 시간 옵셋에 대해 수행된다. 그러나, 다른 실시예에서는 다른 일련의 시간 옵셋들이 사용될 수 있음이 인식될 것이다.

그러므로, 상관기는 97개의 상호상관 값을 생성하며, 각각의 상호상관 값은 두 채널 사이의 특정한 시간 옵셋에 대응하며, 그래서 가능한 시간 격차에 대응한다. 상호상관의 값은 특정 시간 옵셋에 대해 두 신호가 얼마나 가깝게 일치(match)하는지의 표시에 해당한다. 그래서, 상호상관 값이 높은 경우, 신호들은 더욱 가깝게 일치하며 그에 따라서 시간 옵셋이 정확한 시간 격차 추정치가 되는 확률이 높다. 반대로, 상호상관 값이 낮은 경우, 신호들은 가깝게 일치하지 않으며 그에 따라서 시간 옵셋이 정확한 시간 격차 추정치가 되는 확률은 낮다. 그래서, 매 프레임마다, 상관기(205)는 97개의 상호상관 값을 생성하며 이 각각의 상호상관 값은 대응하는 시간 옵셋이 정확한 시간 격차라는 확률을 표시한다.

이 예에서, 상관기(205)는 상호상관 전에 제1 및 제2 오디오 신호에 대해 윈도윙을 수행하도록 배열된다. 더 상세히 말해서, 두 신호의 각 프레임 샘플 블록은 14 ms의 중앙 사각 부분 및 각 단부에서 3 ms의 두 곳의 Hann 부분을 포함하는 20 ms 윈도우를 이용하여 윈도윙(windowing)된다. 이러한 윈도윙은 정확성을 개선하고 상관 윈도우의 에지에서 경계 효과의 영향을 줄여줄 수 있다.

또한, 이 예에서, 상호상관은 정규화된다. 정규화는 특히 (즉, 두 신호가 같을 때) 성취될 수 있는 최대 상호상관 값이 단일 값을 갖도록 보장하는 것이다. 정규화는 입력 신호의 신호 레벨 및 시험받은 상관 시간 옵셋에 상대적으로 무관한 상호상관 값을 제공하며 그럼으로써 더욱 정확한 확률 표시를 제공하게 된다. 특히, 정규화는 프레임의 시퀀스의 비교와 처리를 개선해준다.

간단한 실시예에서, 상관기(205)의 출력은 바로 평가될 수 있으며 현재 프레임의 시간 격차는 상호상관 값에 의해 표시된 것처럼 최고의 확률을 갖는 값으로 설정될 수 있다. 그러나, 그러한 방법은 음성 신호가 발성되기도 하고 묵음으로 발성되지 않고를 반복할 때 신뢰성이 떨어지는 출력을 제공하는 경향이 있으며, 기술된 예에서, 상관기는 상태 프로세서(207)에 연결되며, 이 상태 프로세서는 상관값을 복수의 상태에 대해 처리하여 더욱 정확한 시간 격차 추정치를 제공한다.

이 예에서, 상관값은 업데이트 단계로서 상태 프로세서(207)에서 구현된 비터비 알고리즘 메트릭 누산기에서 사용된다.

그래서, 상세히 말해서 상태 프로세서(207)는 시간 옵셋에 대응하는 복수의 상태를 갖는 메트릭 누산기를 구현한다. 그래서 각 상태는 하나의 시간 옵셋을 나타내며 연관된 메트릭 누산값을 갖는다.

따라서, 메트릭 누산기 형태의 비터비 기반 트렐리스 상태 머신은 각각의 시간 옵셋마다 상관값이 계산된(즉, 특정 예에서 97개의 상태/시간 옵셋) 메트릭 값을 저장한다. 상세히 말하자면, 각 상태/시간 옵셋은 시간 격차가 그 상태의 시간 옵셋에 대응하는 확률을 나타내는 확률 메트릭과 연관된다.

현재 프레임에 대해 결정된 상관값을 고려하기 위하여 모든 시간 옵셋의 확률 메트릭이 매 프레임마다 다시 계산된다. 상세하게는, 상호상관에 따라서 상태/시간 옵셋의 경로 메트릭이 계산된다. 특정한 예에서, 상호상관은 공식 로그(0.5 + p_i)을 적용함으로써 대수 영역으로 변환되며, 여기서 p_i는 i번째 상관값이다(이 값은 정규화 프로세스로 인해 0과 1 사이의 값이며 연관된 시간 옵셋에 시간 격차가 대응하는 확률에 대응한다).

이 예에서, 주어진 확률 메트릭의 기여 정도는 그 시간 옵셋의 이전 확률 메트릭 및 현재 프레임에 대해 계산된 옵셋의 상관값으로부터 결정된다. 또한, 기여 정도는 시간 격차가 한 값에서 다른 값으로 변하는 (즉, 가장 가능성 있는 상태가 한 시간 옵셋의 상관값으로부터 다른 시간 옵셋의 상관값으로 변하도록 하는) 상황에 대응하여 이웃 시간 옵셋과 연관된 상관값으로부터 이루어진다.

인접한 시간 격차 값에 대응하는 이웃 상태로부터의 경로의 경로 메트릭은 동일한 상태로부터의 경로의 경로 메트릭보다 실질적으로 낮게 가중된다. 더 상세히 말해서, 동일한 상태인 경우의 상호상관보다 이웃 상관값이 적어도 다섯 배 높게 가중되는 특정한 유리한 성능이 발견되었음이 실험을 통해 밝혀졌다. 특정한 예에서, 인접한 상태 경로 메트릭은 0.009의 팩터로 가중되며 동일한 상태 경로 메트릭은 0.982의 팩터로 가중된다.

도 4는 트렐리스 상태 머신에서 프레임 t에 대해 메트릭 갱신의 예를 예시한다. 특정 예에서, 시간 t에서 상태 s_n에 대한 상태 확률 메트릭은 시간 t-1에서 상태 s_n 및 시간 t-1에서 인접한 상태들 s_n _-1 및 s_n ₊₁을 포함하는 이전 상태들의 부분집합으로부터의 경로의 경로 메트릭으로부터 계산된다. 특히, 상태 s_n에 대한 상태 확률 메트릭은 아래와 같이 주어진다.

여기서

는 프레임 t에서 상태 x로부터 상태 n까지 계산된 가중 경로 메트릭이다.

이 예에서, 확률 메트릭은 매 프레임마다 최저 상태 확률 메트릭을 모든 상태 확률 메트릭에서 감산함으로써 변경된다. 이로써 연속하여 증가하는 상태 확률 메트릭으로부터의 오버플로우 문제가 완화된다.

이 예에서, 옵셋 자체와 인접 옵셋을 포함하는 부분집합의 옵셋들의 경우 소정의 시간 옵셋 메트릭에의 기여 정도만이 포함될 뿐이다. 그러나, 다른 실시예에서 다른 부분집합의 시간 옵셋들이 고려될 수 있음이 인식될 것이다.

이 예에서, 트렐리스 상태 머신의 상태 메트릭은 매 프레임마다 갱신된다. 그러나, 통상의 비터비 알고리즘과 다르게, 상태 프로세서(207)는 각 상태마다 바람직한 경로를 선택하지 않고 소정 상태의 상태 확률 메트릭을 그 상태에 들어가는 모든 경로들로부터의 기여 정도를 조합한 것으로서 계산한다. 또한, 상태 프로세서(207)는 생존 경로를 결정하기 위하여 트렐리스를 통해 거슬러 올라가지 않는다. 그보다는, 이 예에서, 현재의 시간 격차 추정치는 현재 최고의 상태 확률 메트릭을 갖는 상태에 대응하는 시간 옵셋으로서 간단히 선택될 수 있다. 그래서, 상태 머신에서는 어떠한 지연도 발생하지 않는다. 또한, 확률 상태 메트릭이 이전의 값(및 다른 상태)에 따라 종속하므로, 본래 히스테리시스가 성취된다.

더 상세히 말해서, 상태 프로세서(207)는 최고의 상태 확률 메트릭을 갖는 상태와 연관된 시간 옵셋으로부터 시간 격차를 결정하는 ITD 프로세서(209)에 연결된다. 특히, 시간 격차는 최고의 상태 확률 메트릭을 갖는 상태의 시간 옵셋과 동일하게 바로 설정될 수 있다.

ITD 프로세서(209)는 지연부(109, 111)에 적용될 지연을 결정하는 지연 프로세서(211)에 연결된다. 우선, 지연 프로세서(211)는 데시메이션 프로세서(201)에서 적용된 데시메이션 팩터에 의해 시간 격차를 보상한다. 간단한 실시예에서, 추정된 시간 격차는 (예를 들어 250 ㎲ 해상도에 대응하는 4 kHz에서) 다수의 데시메이트된 샘플로서 주어질 수 있으며 이것은 데시메이션 팩터를 곱셈함으로써 다수의 데시메이트되지 않은 샘플(예를 들어, 4라는 팩터로 곱셈함으로써 16 kHz의 샘플)로 변환될 수 있다.

이 예에서, 지연 프로세서(211)는 두 지연부(109, 111)의 값을 설정한다. 상세히 말하자면, 시간 격차의 부호에 따라서, 지연부들 중 한 지연부는 제로로 설정되며 다른 지연부는 데시메이트되지 않은 계산된 샘플의 개수로 설정된다.

시간 격차를 계산하는 기술된 접근법은 인코드된 신호의 품질을 개선해주며 특히 인코딩 전에 모노 신호의 반향음을 줄여주며, 그럼으로써 CELP 모노 인코더(115)의 동작과 성능이 개선된다.

상이한 구성에서 회의실에서 세 가지 스테레오 테스트 신호를 한 쌍의 마이크로폰을 이용하여 기록하는 특별한 시험을 수행하였다. 첫 번째 구성에서, 이들 마이크로폰을 1m 떨어져 배치하였고 두 명의 여성 화자가 두 마이크로폰을 각기 벗어난 축 상의 위치에 앉았으며 시험적인 대화 내용을 기록하였다. 두 번째 구성에서, 두 마이크로폰을 3m 떨어져 배치하고 여성 화자가 마찬가지로 두 마이크로폰의 각각을 벗어난 축 상의 위치에 앉았다. 마지막 구성에서, 마이크로폰을 2m 떨어져 배치하였고 두 명의 화자가 마이크로폰의 축의 옆으로 돌아가되 각각의 두 마이크로폰의 마주하는 축의 반대편에 앉았다. 이러한 모든 시나리오들에서, 알고리즘은 지연의 흔적을 잘 찾아냈으며 결과적인 모노 신호를 ITU-T EV-VBR 코덱용 베이스라인 알고리즘을 이용하여 인코드할 때, 각 시나리오에서 SEGSNR 및 WSEGSNR에서 대략 0.3 dB의 이득이 관측되었다.

소정 실시예에서, 한 지연에서 다른 지연으로의 전이는 적절한 신호가 지연부(109, 111)에 의해 지연되는 샘플들의 개수를 변경함으로써 간단하게 성취된다. 그러나, 소정 실시예에서, 하나의 지연에서 다른 지연으로의 부드러운 전이를 수행하는 기능이 포함될 수 있다.

상세히 말해서, 본 장치는 전이하기 전에 지연부에 의해 지연된 제1 신호 및 전이한 다음에 지연부에 의해 지연된 제2 신호를 발생함으로써 제1 지연에서 제2 지연으로 전이하도록 배열될 수 있다. 그 다음 제1 및 제2 신호는 결합되어 전이하기 전의 신호와 전이한 다음의 신호로부터 기여된 결합된 신호를 발생한다. 두 신호로부터의 기여 정도는 그 기여 정도가 처음에는 제1 신호로부터 두드러지게 또는 전적으로 나타나게 하고 전이의 끝무렵에서는 제2 신호로부터의 기여 정도가 두드러지게 또는 전적으로 나타나도록 점차 변한다.

그래서, 본 장치는 지연 전이 동안 초기 지연과 마지막 지연에 대응하는 두 신호를 합성할 수 있다. 두 신호는 다음과 같이 가중된 합으로 결합될 수 있다.

여기서 s₁및 s₂는 제1 및 제2 신호를 나타내며 a 및 b는 전이 구간(transition interval)(특히 단일의 프레임과 같을 수 있음) 동안 변경된 가중치이다. 특히, 초기에 이 값들은 a=1 및 b=0로 설정될 수 있으며 마지막 값들은 a=0 및 b=1로 설정될 수 있다. 이들 값들 간의 전이는 어떤 적합한 함수에 따라서 수행될 수 있으며 특히 전이 동안 a+b=1 이라는 관계를 유지할 수 있다.

그래서, 그러한 실시예에서, 두 지연부들의 신호들을 합성하고 시간 영역에서 한 지연에서 다른 지연으로 점차 전이함으로써 다른 지연들 간의 부드러운 전이 이 성취된다.

특정한 예에서, 20 ms 하프-한 오버랩-애드 윈도우(half-Hann overlap-add window)가 적용되어 한 지연에서 다음 지연으로의 전이가 가능한 지각할 수 없게 보장한다.

도 5는 본 발명의 소정 실시예에 따라서 멀티 채널 오디오 신호를 인코딩하는 방법을 예시한다.

본 방법은 적어도 제1 마이크로폰으로부터의 제1 오디오 신호 및 제2 마이크로폰으로부터의 제2 오디오 신호를 포함하는 멀티 채널 오디오 신호를 수신하는 단계(501)에서 시작한다.

단계(501) 다음의 단계(503)에서는 제1 오디오 신호와 제2 오디오 신호 사이의 시간 격차가 결정된다.

단계(503) 다음의 단계(505)에서는 시간 격차 신호에 응답하여 제1 및 제2 스테레오 신호들 중 적어도 하나를 지연시킴으로써 멀티 채널 오디오 신호로부터 보상된 멀티 채널 오디오 신호가 생성된다.

단계(505) 다음의 단계(507)에서는 보상된 멀티 채널 오디오 신호의 채널들을 결합함으로써 모노 신호가 생성된다.

단계(507) 다음의 단계(509)에서는 모노 신호 인코더에 의해 모노 신호가 인코드된다.

명료성을 위한 전술한 설명은 상이한 기능적인 유닛과 프로세서를 참조하여 본 발명의 실시예를 기술하였음이 인식될 것이다. 그러나, 본 발명을 손상하지 않고도 상이한 기능적 유닛들 또는 프로세서들 사이에서 기능의 어떠한 적합한 분배라도 이용될 수 있음은 자명할 것이다. 예를 들어, 별개의 프로세서 또는 컨트롤러에 의해 수행되는 것으로 예시된 기능은 동일한 프로세서 또는 컨트롤러에 의해서 수행될 수 있다. 그러므로, 특정한 기능적인 유닛을 참조하는 것은 엄격한 논리적 또는 물리적 구조 또는 조직을 나타내기보다는 기술된 기능을 제공하기에 적합한 수단을 참조하는 것으로 간주 될 뿐이다.

본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 어떠한 조합을 포함하는 어떤 적합한 형태로도 구현될 수 있다. 본 발명은 선택적으로 적어도 부분적으로 하나 이상의 데이터 프로세서 및/또는 디지털 신호 프로세서에서 실행하는 컴퓨터 소프트웨어로서 구현될 수 있다. 본 발명의 실시예의 구성요소 및 컴포넌트는 물리적으로, 기능적으로 그리고 논리적으로 어떤 적합한 방식으로도 구현될 수 있다. 정말로, 그러한 기능은 단일 유닛으로, 다수의 유닛으로 또는 다른 기능적인 유닛들의 부분으로서 구현될 수 있다. 그와 같이, 본 발명은 단일 유닛으로 구현될 수 있거나 또는 상이한 유닛들과 프로세서들 사이에서 물리적으로 및 기능적으로 분배될 수 있다.

비록 본 발명이 소정 실시예와 관련하여 기술되었을지라도, 본 발명은 본 명세서에 기술된 특정한 형태로 국한하려는 것은 아니다. 그보다는, 본 발명의 범주는 첨부의 청구범위만으로 국한된다. 부가적으로, 비록 특정한 실시예와 관련하여 특징이 기술되는 것으로 보일 수 있지만, 본 기술 분야의 숙련자는 기술된 실시예들의 여러 특징들이 본 발명에 따라서 조합될 수 있음을 인식할 것이다. 청구범위에서, '포함하는'이라는 용어는 다른 구성요소 또는 단계의 존재를 배제하지 않는다.

더욱이, 비록 개별적으로 열거되었을지라도, 다수의 유닛들, 수단들, 구성요소들 또는 방법 단계들이, 예를 들어, 단일 유닛 또는 프로세서에 의해 구현될 수 있다. 부가적으로, 비록 개별적인 특징들이 상이한 청구범위에 포함될 수 있을지라도, 이들 특징들은 아마도 유리하게 조합될 수 있으며, 다른 청구범위에 포함된 것은 특징들의 조합이 실행가능한 및/또는 유익하지 않다는 것을 의미하지는 않는다. 또한, 한가지 특징이 청구범위들의 한가지 카테고리에 포함된 것은 이 카테고리로 국한하려는 것이 아니며, 그보다는 이 특징이 다른 청구범위의 카테고리에도 동등하게 적용가능함이 타당하다는 것을 나타낸다. 더욱이, 청구범위에서 특징들의 순서는 특징들이 동작하여야 하는 어떤 특정한 순서를 의미하지 않으며, 특히 방법 청구항에서 개별 단계의 순서는 그 단계가 그 순서대로 수행되어야 함을 의미하지 않는다. 그보다는, 단계들은 어떠한 적합한 순서로도 수행될 수 있다.

Claims

멀티 채널 오디오 신호를 인코딩하기 위한 장치로서,
적어도 제1 마이크로폰으로부터의 제1 오디오 신호 및 제2 마이크로폰으로부터의 제2 오디오 신호를 포함하는 상기 멀티 채널 오디오 신호를 수신하는 수신기;
상기 제1 오디오 신호와 상기 제2 오디오 신호 간의 상호상관들의 연속 관측치들을 조합함으로써 상기 제1 오디오 신호와 상기 제2 오디오 신호 간의 시간 격차(inter time difference)를 결정하는 시간 차 유닛 - 상기 상호상관들은 비터비형 알고리즘을 이용하여 누산된 확률들을 도출하도록 처리됨 - ;
상기 시간 격차 신호에 응답하여 상기 제1 오디오 신호 및 상기 제2 오디오 신호 중 적어도 하나를 지연시킴으로써 상기 멀티 채널 오디오 신호로부터 보상된 멀티 채널 오디오 신호를 생성하는 지연 유닛;
상기 보상된 멀티 채널 오디오 신호의 채널들을 조합함으로써 모노 신호를 생성하는 모노 유닛; 및
상기 모노 신호를 인코딩하는 모노 신호 인코더
를 포함하는 멀티 채널 오디오 신호 인코딩 장치.
제1항에 있어서, 상기 시간 차 유닛은 복수의 시간 옵셋(time offsets)에 대해 상기 제1 오디오 신호와 상기 제2 오디오 신호 사이의 상호상관들을 결정하고, 또한 상기 상호상관들에 응답하여 상기 시간 격차를 결정하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
제2항에 있어서, 상기 시간 차 유닛은 상기 상호상관 전에 상기 제1 오디오 신호와 상기 제2 오디오 신호를 로우 패스 필터(low pass filter)하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
제2항에 있어서, 상기 시간 차 유닛은 상기 상호상관 전에 상기 제1 오디오 신호와 상기 제2 오디오 신호를 데시메이트(decimate)하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
제4항에 있어서, 상기 지연 유닛은, 상기 제1 오디오 신호 및 상기 제2 오디오 신호 중 적어도 하나의 지연을 결정하도록 상기 제1 오디오 신호 및 상기 제2 오디오 신호를 데시메이트하기 위한 데시메이션 팩터에 의해 상기 시간 격차를 보상하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
제2항에 있어서, 상기 시간 차 유닛은, 상기 상관 전에 상기 제1 오디오 신호 및 상기 제2 오디오 신호에 스펙트럼 화이트닝(spectral whitening)을 적용하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
제2항에 있어서, 상기 시간 차 유닛은, 상기 상호상관 전에 상기 제1 오디오 신호와 상기 제2 오디오 신호의 윈도윙(windowing)을 수행하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
제2항에 있어서, 상기 시간 차 유닛은,
복수의 상태를 갖는 트렐리스 상태 머신(trellis state machine) - 상기 복수의 상태 각각은 상기 복수의 시간 옵셋 중 하나의 시간 옵셋에 대응함 - ;
상기 상호상관들에 응답하여 상기 트렐리스 상태 머신의 상태들에 대한 경로 메트릭들을 결정하는 경로 유닛;
이전 상태들로부터 현재 상태들로의 경로들과 연관된 경로 메트릭들에 응답하여 상태들의 상태 메트릭들을 결정하는 계산 유닛; 및
상기 상태 메트릭들에 응답하여 상기 시간 격차를 결정하는 유닛을 포함하는 멀티 채널 오디오 신호 인코딩 장치.
제1항에 있어서, 상기 지연 유닛은, 제1 지연에 응답하여 제1 보상된 멀티 채널 오디오 신호를 생성하고 제2 지연에 응답하여 제2 보상된 멀티 채널 오디오 신호를 생성함으로써 상기 제1 지연으로부터 상기 제2 지연으로 전이(transition)하고, 또한 상기 제1 보상된 멀티 채널 오디오 신호 및 상기 제2 보상된 멀티 채널 오디오 신호를 조합하여 상기 보상된 멀티 채널 오디오 신호를 생성하도록 배열된 멀티 채널 오디오 신호 인코딩 장치.
삭제