KR101253278B1

KR101253278B1 - 복수의 입력 데이터 스트림을 믹싱하는 장치 및 방법

Info

Publication number: KR101253278B1
Application number: KR1020127005298A
Authority: KR
Inventors: 마르쿠스 슈넬; 맨프레드 러츠키; 마르쿠스 물트루스
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2008-03-04
Filing date: 2009-03-04
Publication date: 2013-04-11
Also published as: JP2011513780A; WO2009109374A2; RU2562395C2; JP2013190803A; ES2753899T3; CA2717196A1; BRPI0906079B1; CN102016985A; BRPI0906079A2; CN102016983B; KR20120039748A; WO2009109374A3; CN102016985B; JP2011518342A; CN102016983A; PL2250641T3; RU2012128313A; HK1149838A1; ES2374496T3; WO2009109373A3

Abstract

복수의 입력 데이터 스트림의 믹싱을 위한 장치(500)가 기술되고, 상기 입력 데이터 스트림(510) 각각은 스펙트럼 영역에서 음성 데이터의 프레임(540), 복수의 스펙트럼 성분을 위한 스펙트럼 정보를 포함하는 입력 데이터 스트림(510)의 프레임(540)을 포함한다. 상기 장치는 상기 복수의 입력 데이터 스트림(510)의 상기 프레임을 비교하기에 적합한 프로세싱 유닛(520)을 포함한다. 상기 프로세싱 유닛(520)은 비교에 기반하여, 출력 데이터 스트림(530)의 출력 프레임(550)의 스펙트럼 성분에 대하여, 상기 복수의 입력 데이터 스트림(510)의 정확하게 하나의 입력 데이터 스트림(510)을 결정하기에 더 적합하다. 상기 프로세싱 유닛(520)은 상기 출력 데이터 스트림(530)의 상기 출력 프레임(550)의 상기 스펙트럼 성분을 기술하기 위하여 상기 결정된 입력 데이터 스트림(510)의 상기 프레임(540)의 상응하는 스펙트럼 성분의 적어도 일 부분의 정보를 복제함에 의해 상기 출력 데이터 스트림을 생성시키기에 더 적합하다. 다른 또는 바람직하게는, 상기 제 1 입력 데이터 스트림(510-1) 및 상기 제 2 입력 데이터 스트림(510-2)의 상기 프레임(540)의 상기 제어 값은 비교 결과를 산출하기 위해서 비교될 수 있다. 그리고, 만일 상기 비교 결과가 양이라면, 출력 프레임(550)을 포함하는 출력 데이터 스트림(530)은 출력 프레임(550)이 상기 제 1 및 제 2 입력 데이터 스트림(510) 및 스펙트럼 영역에서 음성 데이터를 프로세싱함에 의해 상기 제 1 및 제 2 입력 데이터 스트림의 상기 프레임의 상기 페이로드(payload) 데이터로부터 얻어진 페이로드(payload) 데이터의 그것과 동등한 제어 값을 포함한다는 것과 같이 생성될 수 있다.

Description

복수의 입력 데이터 스트림을 믹싱하는 장치 및 방법{APPARATUS FOR MIXING A PLURALITY OF INPUT DATA STREAMS AND METHOD THEREOF}

본 발명에 따른 실시 예는 출력 데이터 스트림을 얻기 위해 복수의 입력 데이터 스트림을 믹싱하는 것에 관한 것이고, 각각의 제 1 및 제 2 입력 데이터 스트림을 믹싱함에 의해 출력 데이터 스트림을 생성하는 것에 관한 것이다. 출력 데이터 스트림은, 예를 들면, 화상 컨퍼런싱 시스템 및 원격 컨퍼런싱 시스템을 포함한 컨퍼런싱 시스템의 분야에서 사용될 수 있다.

많은 응용에 있어서, 하나 이상의 음성 신호는 복수의 많은 음성 신호로부터 하나의 신호, 또는 적어도 감소된 신호의 수가 생성되는 방식으로 프로세스되고, 이것은 종종 "믹싱(mixing)"으로써 언급된다. 음성 신호의 믹싱의 프로세스는, 따라서, 수 개의 각각의 음성 신호를 결과적인 신호를 결과적인 신호 안으로의 번들링(bundling)으로써 언급될 수 있다. 이 프로세스는 예컨데 컴팩트 디스크용 한 곡의 음악을 생성할 때 사용된다("더빙"). 이 경우에서, 보컬 공연을 포함하는 하나 또는 그 이상의 음성 신호와 더불어 다른 기구의 다른 음성 신호가 전형적으로 노래로 믹스된다.

믹싱이 중요한 역할을 하는 다른 응용 분야는, 화상 컨퍼런싱 시스템 및 원격 컨퍼런싱 시스템이다. 그러한 시스템은 중앙 서버(server)를 이용하여 컨퍼런스에서 공간적으로 수 개로 분포된 참가자들을 전형적으로 연결할 수 있고, 이것은 등록된 참가자의 인커밍(incoming) 화상 및 음성 데이터를 적당하게 믹스하고, 각각의 참가자에게 되돌려서 결과적인 신호를 전송한다. 이러한 결과적인 신호 또는 출력 신호는 모든 다른 컨퍼런스 참가자들의 음성 신호를 포함한다.

현대의 디지털 컨퍼런싱 시스템에서, 많은 부분적으로 모순되는 목표와 양상은 서로 경쟁한다. 음성 신호(예를 들면, 일반적인 음성 신호 및 음악 신호와 비교한 스피치 신호)의 다른 유형에 대한 약간의 코딩 및 디코딩 기술의 응용 및 사용 뿐만 아니라 재구성된 음성 신호의 질은 고려되어야만 한다. 컨퍼런싱 시스템의 설계 및 구현할 때 또한 고려되어야만 할 수 있는 다른 사항은 사용 가능한 밴드폭 및 지연 이슈(issue)이다.

예를 들면, 한편으로 질을 다른 편으로 밴드폭을 밸런싱(balancing)할 때, 타협이 대부분의 경우에서 불가피하다. 그러나, 질에 관한 개선은 AAC-ELD 기술 (AAC=Advanced Audio Codec; ELD=Enhanced Low Delay)과 같은 현대의 코딩 및 디코딩 기술을 구현하는 것에 의해 달성될 수 있다. 그러나, 달성 가능한 질은 더욱 기초적인 문제 및 양상에 의해서 그러한 현대 기술을 이용하는 시스템에서 부정적으로 영향받을 수 있다.

마주치게 되는 바로 그러한 하나의 도전을 바로 확인하기 위해서는, 모든 디지털 신호 전송은 필요한 양자화의 문제에 직면하고, 이것은, 적어도 원리상, 노이즈(noise) 없는 아날로그 시스템에서의 이상적 상황하에서는 피할 수 있다. 양자화 프로세스로 인하여 어떤 양의 양자화 노이즈(noise)는 불가피하게 프로세스되는 신호 안으로 도입된다. 가능하고 들을 수 있는 왜곡에 대응하기 위해서, 양자화 수준의 수를 증가시키도록 유혹될 수 있고, 따라서, 이에 상응하여 양자화 분해능을 증가시킨다. 이것은, 그러나, 전송되기 위한 신호 값의 훨씬 큰 수를 이끌고, 따라서, 전송되는 데이터의 양의 증가를 이끈다. 다른 말로 하면, 양자화 노이즈(noise)에 의해 도입된 가능한 왜곡을 낮춤에 의해서 질을 개선하는 것은 어떤 상황하에서 전송되는 데이터의 양을 증가시키고, 결과적으로 전송 시스템에 부과된 밴드폭 제한을 위반할 수 있다.

컨퍼런싱 시스템의 경우에서, 질, 가능한 밴드폭 및 다른 파라미터 사이에서 균형을 개선하는 것의 도전은 하나 이상의 입력 음성 신호가 전형적으로 전개된다는 사실에 의해 훨씬 더 복잡해질 수 있다. 따라서, 하나 이상의 음성 신호에 의해 부과된 경계 조건은 컨퍼런싱 시스템에 의해 야기된 출력 신호 또는 결과적인 신호를 야기할 때 고려되어야 할 수 있다.

참가자들에 의해 수용될 수 없는 정도로 여겨지는 실질적인 지연을 도입함이 없이 컨퍼런싱 참가자 사이에서 직접적인 통신이 가능하도록 충분히 낮은 지연을 갖는 컨퍼런싱 시스템을 구현하는 추가적인 도전이라는 특별한 관점에서는, 더욱 도전을 증가시킨다.

컨퍼런싱 시스템의 낮은 지연 구현에 있어서, 지연 소스(source of delay)는 전형적으로 그들의 수의 견지에서 제한되는데, 이것은 반면에 시간-영역 바깥에서 프로세싱 데이터의 도전으로 이끌 수 있고, 이 안에서, 음성 신호의 믹싱은 각각의 신호를 덧붙이거나 더함에 의해 달성될 수 있다.

일반적으로 말하면, 실시간으로 믹싱에 대한 프로세싱 오버헤드(processing overhead)에 조심스럽게 대처하기 위하여 컨퍼런싱 시스템에 대한 질, 가능한 밴드폭 및 적당한 다른 파라미터 사이에서 균형을 선택하는 것이 바람직하고, 더 낮은 하드웨어 양이 필요하고, 하드웨어 및 음성 질의 타협 없이 합리적인 트랜스미션 오버헤드(transmission overhead) 관점에서 비용을 유지한다.

전송되는 데이터 양을 낮추기 위하여, 현대의 음성 코덱(codecs)은 각각의 음성 신호의 스펙트럼 성분에 관한 스펙트럼 정보를 기술하기 위한 매우 복잡한 수단을 종종 이용한다. 그러한 수단을 이용하기 위해, 이것은 사이코-어쿠스틱(psycho-acoustic) 현상 및 검사 결과에 기반하는데, 전송된 데이터, 계산의 복잡성, 비트율(bitrate) 및 다른 파라미터들로부터 재조정된 음성 신호의 질과 같은 부분적으로 모순되는 파라미터 및 경계 조건 사이의 개선된 균형이 달성될 수 있다.

그러한 수단에 대한 예는 두 서너 가지 예를 들면 퍼셉츄얼 노이즈 서브스티튜션(perceptual noise substitution, PNS), 템포럴 노이즈 쉐이핑(temporal noise shaping, TNS), 및 스펙트럼 밴드 레플리케이션(spectral band replication, SBR)이다. 이러한 모든 기술은 감소된 비트 수의 적어도 스펙트럼 정보의 부분을 기술하는데 기반을 두고, 이러한 수단을 이용하지 않는 것에 기반을 둔 데이터 스트림과 비교하여 더 많은 비트가 스펙트럼의 스펙트럼으로 중요한 부분으로 할당될 수 있다. 결과적으로, 비트율(bitrate)을 유지하는 동안에, 질의 감지할 수 있는 수준은 그러한 수단을 이용하여 개선될 수 있다. 자연적으로, 다른 균형이 선택될 수 있는데, 즉 전반적인 음성 인상을 유지하는 음성 데이터의 프레임(frame)마다 전송되는 비트 수를 줄이기 위해서이다. 이러한 두 개의 극단에 놓인 다른 균형은 또한 동등하게 잘 실현될 수 있다.

이러한 수단은 원격 통신 응용에 또한 사용될 수 있다. 그러나, 그러한 통신 상황에서 두 명의 참가자보다 더 많이 참석할 때, 둘의 믹싱 또는 두 명의 참가자보다 더 많은 비트 스트림에 대한 컨퍼런싱 시스템을 이용하는 것이 유리할 수 있다. 이와 같은 상황이, 순전히 음성-기반 또는 화상 컨퍼런싱 상황뿐만 아니라 원격 컨퍼런싱 상황 둘 모두에서 발생한다.

주파수 영역에서 동작하는 컨퍼런싱 시스템은, 예를 들면, US 2008/0097764 A1에서 기술되는데, 이것은 주파수 영역에서 실제적인 믹싱을 수행하고, 따라서, 인커밍(incoming) 음성 신호를 시간 영역으로 다시 재송신하는 것을 생략한다.

그러나, 그 안에 기술한 컨퍼런싱 시스템은 상기에서 기술된 것과 같은 가능한 수단을 고려하지 않고, 이것은 더욱 압축된 방식으로 적어도 하나의 스펙트럼 성분의 스펙트럼 정보의 기술을 가능하게 한다. 그 결과로, 그러한 컨퍼런싱 시스템은 각각의 음성 신호가 주파수 영역에서 존재하는 적어도 그러한 정도로 컨퍼런싱 시스템에 제공되는 음성 신호를 재조정하는 추가적인 전송 단계를 요구한다. 더욱이, 결과적인 믹스된(mixed) 음성 신호는 또한 상기 언급한 추가적인 수단에 기반하여 재송신되는 것이 요구된다. 이러한 재송신과 송신 단계가 요구되고, 그러나, 복잡한 알고리즘의 응용, 이것은 증가된 계산의 복잡성으로 이끌수 있고, 예를 들면, 운반 가능하고, 정력적으로 임계적인 응용의 경우에 있어서, 증가된 에너지 소비 및 제한된 동작시간으로 이끈다.

따라서, 컨퍼런싱 시스템에 있어서의 질, 가능한 밴드폭 및 적당한 다른 파라미터 사이의 개선된 균형, 또는 상기 기술한 바와 같은 컨퍼런싱 시스템에서 요구되는 계산의 복잡의 감소를 가능하게 하는 본 발명에 따른 구현 예에 의해서 해결되는 문제이다.

이러한 목적은 청구항 1 또는 12 에 따른 장치에 의해 달성되고, 청구항 10 또는 26에 따른 복수의 입력 데이터 스트림의 믹싱에 대한 방법, 또는 청구항 11 또는 27에 따른 컴퓨터 프로그램에 의해 달성된다.

다수의 입력 데이터 스트림을 믹싱할 때 상기 언급한 파라미터 및 목표 사이에서 개선된 균형이 비교에 기반한 입력 데이터 스트림을 결정함에 의해, 그리고, 정해진 입력 데이터 스트림으로부터 출력 데이터 스트림으로 적어도 부분적으로 스펙트럼 정보를 복제하여 달성가능하다는 것을 발견한 것에 본 발명에 따른 제 1 실시 예는 기반한다. 적어도 부분적으로 하나의 입력 데이터 스트림으로부터의 스펙트럼 정보를 복제함에 의해, 재양자화는 생략될 수 있고, 따라서, 재양자화 노이즈(noise)는 거기에서와 연관된다. 지배적인 입력 스트림을 결정할 수 없다는 것에 대한 스펙트럼 정보의 경우에는 대응하는 스펙트럼 정보의 주파수 영역에서의 믹싱은 본 발명에 따른 실시 예에 의해 수행될 수 있다.

비교는, 예를 들면, 사이코-어쿠스틱(psycho-acoustic) 모델에 기반될 수 있다. 비교는 적어도 두 개의 다른 입력 데이터 스트림으로부터의 통상의 스펙트럼 성분(예를 들면 주파수 또는 주파수 밴드)에 대응되는 스펙트럼 정보에 관한 것일 수 있다. 따라서, 채널간-비교(inter-channel-comparison)가 될 수 있다. 비교는 사이코-어쿠스틱(psycho-acoustic) 모델의 경우에서, 비교는 채널간-마스킹(inter-channel-masking)을 고려함으로써 기술될 수 있다.

본 발명에 따른 제 2 실시 예는 출력 데이터 스트림을 야기하기 위한 제 1 입력 데이터 스트림과 제 2 입력 데이터 스트림을 믹싱하는 동안에 수행되는 작동의 복잡성이 각각의 입력 데이터 스트림의 페이로드(payload) 데이터와 연관된 제어 값을 고려함에 의해 감소될 수 있다는 것을 발견한 것에 기반하고, 여기에서 제어 값은 페이로드(payload) 데이터가 대응되는 스펙트럼 정보 또는 각각의 음성 신호의 스펙트럼 영역의 적어도 일 부분을 나타내는 방법을 가리킨다. 두 개의 입력 데이터 스트림의 제어 값이 같은 경우에는, 출력 데이터 스트림의 각각의 프레임에서 스펙트럼 영역과 같은 방법의 새로운 결정은 생략될 수 있고, 대신에 출력 스트림 생성은 입력 데이터 스트림, 즉 그로부터 제어 값이 채택된 인코더에 의해 이미 그리고 제어되어 결정된 결정에 의존할 수 있다. 제어 값에 의해 나타난 방법에 의존하는 것은, 보통 또는 평범한 시간/스펙트럼 샘플마다 하나의 스펙트럼 값을 갖는 방법과 같은 스페트럼 영역을 대표하는 또 다른 방법으로 되돌아간 각각의 페이로드(payload) 데이터를 재송신하는 것을 피하는 것이 심지어 가능하고 바람직할 수 있다. 후자의 경우는, 출력 데이터 스트림의 대응되는 페이로드(payload) 데이터 및 제 1 및 제 2 입력 데이터 스트림의 제어 값에 상당하는 제어 값을 산출하기 위한 직접적인 페이로드(payload) 데이터의 프로세싱(processing)은 PNS 또는 하기에서 더욱 상세하게 기술되는 특질에 의한 것과 같은 "스펙트럼 영역이 표시되는 방법을 바꾸지 않는다는" 의미의 "지향성(directivity)"으로 야기될 수 있다.

본 발명의 실시에 따른 실시 예에 있어서, 제어 값은 적어도 하나의 스펙트럼 성분만에 관한 것이다. 더욱이, 본 발명에 따른 실시 예에 있어서 그러한 동작은 제 1 입력 데이터 스트림과 제 2 입력 스트림의 프레임이 두 개의 입력 데이터 스트림의 프레임의 적절한 연속에 관한 통상 시간 지수에 대응할 때 수행될 수 있다.

제 1 및 제 2 데이터 스트림의 제어 값이 같지 않은 경우에서, 본 발명에 따른 실시 예는 다른 입력 데이터 스트림의 프레임의 페이로드(payload) 데이터의 표시를 얻기 위한 제 1 및 제 2 입력 데이터 스트림의 프레임의 페이로드(payload) 데이터의 송신의 단계를 수행할 수 있다. 출력 데이터 스트림의 페이로드(payload) 데이터는 송신 페이로드(payload) 데이터 및 다른 두 개 스트림의 페이로드(payload) 데이터에 기반하여 그 때 야기될 수 있다. 어떠한 경우에서, 다른 입력 데이터 스트림의 프레임의 페이로드(payload) 데이터의 표시에 하나의 입력 데이터 스트림의 프레임의 페이로드(payload) 데이터를 송신하는 본 발명에 따른 실시 예는 각각의 음성 송신을 플레인(plain) 주파수 영역으로 되돌리는 송신 없이 직접적으로 수행될 수 있다.

도 1은 컨퍼런싱 시스템의 블록 다이어그램을 나타낸다.
도 2는 통상의 음성 코덱(codec)에 기반한 컨퍼런싱 시스템의 블록 다이어그램을 나타낸다.
도 3은 비트 스트림 믹싱 기술을 이용한 주파수 영역에서 작동하는 컨퍼런싱 시스템의 블록 다이어그램을 나타낸다.
도 4는 복수의 프레임을 포함하는 데이터 스트림의 개략적인 도면을 나타낸다.
도 5는 스펙트럼 성분 및 스펙트럼 데이터 또는 정보의 다른 형태를 예시한다.
도 6은 본 발명에 따른 복수의 입력 데이터 스트림의 믹싱에 대한 더욱 상세한 장치를 예시한다.
도 7은 본 발명의 실시에 따른 도 6의 장치의 작동의 모드를 예시한다.
도 8은 컨퍼런싱 시스템의 맥락에서 본 발명의 다른 실시에 따른 복수의 입력 데이터 스트림의 믹싱에 대한 장치의 블록 다이어그램을 나타낸다.
도 9는 본 발명의 실시에 따른 출력 데이터 스트림을 야기하기 위한 장치의 단순화된 블록 다이어그램을 나타낸다.
도 10은 본 발명의 실시에 따른 출력 데이터를 야기하기 위한 장치의 더욱 상세한 블록 다이어그램을 나타낸다.
도 11은 컨퍼런싱 시스템의 맥락에서 본 발명의 다른 실시에 따른 복수의 입력 데이터 스트림으로부터 출력 데이터 스트림을 야기하기 위한 장치의 블록 다이어그램을 나타낸다.
도 12a는 PNS-구현을 위한 본 발명의 실시에 따른 출력 데이터 스트림 생성 장치의 동작을 예시한다.
도 12b는 SBR-구현을 위한 본 발명의 실시에 따른 출력 데이터 스트림 장치의 동작을 예시한다.
도 12c는 M/S-구현을 위한 본 발명의 실시에 다른 출력 데이터 스트림 생성 장치의 동작을 나타낸다.

본 발명에 따른 실시 예는 하기에서 다음의 도면을 참조하여 기술될 것이다.

도 4 내지 12c에 관하여, 본 발명에 따른 다른 실시 예가 더욱 상세하게 기술될 것이다. 그러나, 이러한 실시 예를 더욱 상세하게 기술하기 전에 도 1 내지 3에 관하여 첫번째로, 간략한 도입이 컨퍼런싱 시스템의 테두리 안에서 중요할 수 있는 도전과 요구의 관점에서 주어질 것이다.

도 1은 다점(multi-point) 제어 유닛(MCU)으로써 또한 언급될 수 있는 컨퍼런싱 시스템(100)의 블록 다이어그램을 나타낸다. 그것의 기능에 관한 기술로부터 명백해 질 것이기 때문에 도 1에 도시된 컨퍼런싱 시스템(100)은 시간 영역에서 동작하는 시스템이다.

도 1에 도시된 컨퍼런싱 시스템(100)은 도 1에서 단지 세 개가 도시된 입력 (110-1, 110-2, 110-3, ...) 의 적절한 수를 통하여 복수의 입력 데이터 스트림을 받도록 채택된다. 각각의 입력(110)은 각각의 디코더(120)에 결합된다. 더욱 상세하게는, 제 1 입력 데이터 스트림에 대한 입력(110-1)은 제 1 디코더(120-1)에 결합되고, 반면에 제 2 입력(110-2)은 제 2 디코더에 결합되고, 제 3 입력(110-3)은 제 3 디코더(120-3)에 결합된다.

컨퍼런싱 시스템(100)은 도 1에서 도시된 다시 한 번 세 개의 가산기(adder, 130-1, 130-2, 130-3, ...)의 적절한 수를 포함한다. 각각의 가산기(adders)는 컨퍼런싱 시스템(100)의 입력(110)의 하나와 연관된다. 예를 들면, 제 1 가산기(adder, 130-1)는 제 1 입력(110-1) 및 대응 디코더(120-1)와 연관된다.

각각의 가산기(130)는 모든 디코더(120)의 출력과 결합되고, 입력(110)이 결합된 디코더(120)로부터 분리된다. 다른 말로 하면, 제 1 가산기(130-1)는 모든 디코더(120)에 결합되고, 제 1 디코더(120-1)로부터 분리된다. 이에 따라서, 제 2 가산기(130-2)는 모든 디코더(120)와 결합되고, 제 2 디코더(120-2)로부터 분리된다.

각각의 가산기(130)는 하나의 인코더(140)와 각각 결합된 출력을 더 포함한다. 따라서, 제 1 가산기(130-1)는 제 1 인코더(140-1)에 출력-방향과 결합한다. 이에 따라서, 제 2 및 제 3 가산기(130-2, 130-3)는 또한 제 2 및 제 3 인코더(140-2, 140-3)와 각각 결합된다.

차례로, 각각의 인코더(140)는 각각의 출력(150)에 결합된다. 다른 말로 하면, 제 1 인코더는, 예를 들면, 제 1 출력(150-1)과 결합된다. 제 2 및 제 3 인코더(140-2, 140-3)은 또한 제 2 및 제 3 출력(150-2, 150-3)과 각각 결합된다.

도 1에서 도시된 컨퍼런싱 시스템(100)의 동작을 더욱 상세하게 기술할 수 있기 위해서, 도 1은 제 1 참가자의 컨퍼런싱 터미널(160)을 나타낸다. 컨퍼런싱 터미널(160)은, 예를 들면, 디지털 전화(예를 들면, ISDN-전화(ISDN=integrated service digital network)), 보이스-오버-IP-인프라스트럭처(voice-over-IP-infrastructure)를 포함하는 시스템 또는 유사한 터미널이 될 수 있다.

컨퍼런싱 터미널(160)은 컨퍼런싱 시스템(100)의 제 1 입력(110-1)에 결합된 인코더(170)를 포함한다. 컨퍼런싱 터미널(160)은 또한 컨퍼런싱 시스템(100)의 제 1 출력(150-1)에 결합된 디코더(180)를 포함한다.

유사한 컨퍼런싱 터미널(160)은 다른 참가자의 사이트(sites)에서 또한 존재할 수 있다. 이러한 컨퍼런싱 터미널은 도 1에 도시되어 있지 않고, 단지 단순화함을 위해서이다. 컨퍼런싱 시스템(100) 및 컨퍼런싱 터미널(160)은 각각의 매우 인접한 곳에서 물리적으로 존재할 것이 결코 요구되지 않는다는 것에 주목해야만 한다. 컨퍼런싱 터미널(160) 및 컨퍼런싱 시스템(100)은 예를 들면, WAN-기술(WAN=wide area networks)에 의해서만 연결될 수 있는 다른 사이트(sites)에서 처리될 수 있다.

컨퍼런싱 터미널(160)은 더욱 이해하기 쉬운 방법으로 유저와 더불어 음성 신호의 변화를 가능하게 하는 마이크로폰(microphones), 앰플리파이어(amplifier) 및 라우드스피커(loudspeaker) 또는 헤드폰과 같은 추가적인 구성을 더 포함하거나 연결될 수 있다. 이러한 것은 단순화만을 위해 도 1에 도시되어 있지 않다.

앞서 지적한 바와 같이, 도 1에 도시된 컨퍼런싱 시스템(100)은 시간 영역에서 동작하는 시스템이다. 예를 들면, 제 1 참가자가 마이크로폰(도 1에 도시되지 않은)으로 얘기할 때, 컨퍼런싱 시스템(160)의 인코더(170)는 각각의 음성 신호를 대응되는 비트 스트림으로 인코딩하고, 비트 스트림을 컨퍼런싱 시스템(100)의 제 1 입력(110-1)으로 전송한다.

컨퍼런싱 시스템(100)의 내부에서, 비트 스트림은 제 1 디코더(120-1)에 의해 디코딩되고, 시간 영역으로 다시 전송된다. 제 1 디코더(120-1)는 제 1 참가자가 제 2 및 제 3 참가자로부터 각각 제 2 및 제 3 믹서(130-1, 130-2, 130-3), 다른 재구성된 음성 신호로 재구성된 음성 신호를 단순히 더함에 의해 시간 영역에서 믹싱될 수 있음으로 인해 야기된 것과 같은 제 2 및 제 3 믹서(130-1, 130-3), 음성 신호와 결합되었기 때문이다.

이것은 각각 제 2 및 제 3 입력(110-2, 110-3)에 의해 수용된 제 2 및 제 3 참가자에 의해 제공되고, 제 2 및 제 3 디코더(120-2, 120-3)에 의해 프로세싱된 음성 신호에 대해서도 또한 사실이다. 제 2 및 제 3 참가자의 이와 같은 재구성된 음성 신호는 제 1 믹서(130-1)에 제공되고, 차례로, 제 1 인코더(140-1)에 시간 영역으로 가산된 음성 신호를 제공한다. 인코더(140-1)는 비트 스트림을 형성하기 위해 가산된 음성 신호를 다시 인코딩하고, 제 1 참가자 컨퍼런싱 터미널(160)에 제 1 출력(150-1)으로 동일하게 제공한다.

유사하게, 또한 제 2 및 제 3 인코더(140-2, 140-3)은 각각 제 2 및 제 3 가산기(130-2, 130-3)로부터 받은 시간 영역에서 가산된 음성 신호를 인코딩하고, 각각 제 2 및 제 3 출력(150-2, 150-3)을 통해서 각각 참가자에게 되돌려 인코딩된 데이터를 전송한다.

실질적인 믹싱을 수행하기 위해서, 음성 신호는 완전히 디코딩되고, 압축되지 않은 형태로 가산된다. 후에, 선택적으로 레벨 조정은 클립핑(clipping) 효과(즉 값의 허용되는 범위를 넘어서는 것)를 방지하기 위해서 각각의 출력 신호를 압축함에 의해 수행될 수 있다. 클립핑(clipping)은 하나의 샘플 값이 위로 오르거나 대응되는 값이 떨어지도록 허용된 값의 범위 아래로 떨어질 때 나타날 수 있다. 16 비트 양자화(quantization)의 경우에, 이것은 CD 들의 경우에 예컨데 이용되기 때문에, 샘플 값마다 -32768 및 32767 사이의 정수 값의 범위는 허용한다.

신호의 가능한 높은 혹은 낮은 스티어링(steering)을 대응하기 위하여, 압축 알고리즘이 사용된다. 이러한 알고리즘은 허용된 값의 범위 안에서 샘플 값을 유지하기 위한 어떤 임계값 위 또는 아래로의 전개를 제한한다.

도 1에서 도시된 컨퍼런싱 시스템(100)과 같은 컨퍼런싱 시스템에서 음성 데이터를 코딩할 때, 대부분 쉽게 달성할 수 있는 방법으로 인코딩되지 않은 상태에서 믹싱을 실행하기 위해서 약간의 단점이 수용된다. 더욱이, 인코딩된 음성 신호의 데이터율은 더 작은 밴드폭은 나이퀴스트-섀넌-샘플링(Nyquist-Shannon-Sampling) 이론에 따른 더 낮은 샘플링 주파수, 및 더 적은 데이터를 허용하기 때문에 전송된 주파수의 더 작은 영역으로 추가적으로 제한된다.

국제 원격통신 연합(ITC) 및 그것의 원격통신 표준화 섹터(ITU-T)는 멀티미디어 컨퍼런싱 시스템에 대한 수 개의 기준을 개발했다. H.320은 ISDN에 대한 표준 컨퍼런싱 프로토콜이다. H.323은 패킷-기반 네트워크(TCP/IP)에 대한 표준 컨퍼런싱 시스템을 정의한다. H.324는 아날로그 전화 네트워크 및 라디오 원격통신 시스템에 대한 컨퍼런싱 시스템을 정의한다.

이러한 표준 내에서, 신호를 송신하는 것 뿐만 아니라, 음성 데이터의 인코딩 및 프로세싱 또한 정의된다. 컨퍼런싱의 관리는 하나 또는 그 이상의 서버에 의해 관리되고, 말하자면 표준 H.231에 따른 다점(multi-point) 제어 유닛(MCU)이다. 다점(multi-point) 제어 유닛은 또한 수 개의 참가자의 화상 및 음성 데이터의 프로세싱 및 분배에 대하여 책임이 있다.

이것을 달성하기 위해, 다점(multi-point) 제어 유닛은 각각의 참가자에게 모든 다른 참가자의 음성 데이터를 포함하는 믹싱된 출력 또는 결과적인 신호를 보내고, 각각의 참가자에게 신호를 제공한다. 도 1은 컨퍼런싱 시스템(100)의 블록 다이어그램을 나타낼 뿐만 아니라, 그러한 컨퍼런싱 상황에서 신호 흐름 또한 나타낸다.

H.323 및 H.320 표준의 테두리 내에서, 클래스 G.7xx의 음성 코덱은 각각의 컨퍼런싱 시스템 내에서 동작을 위해 정의된다. 표준 G.711은 케이블-바운드(cable bound) 전화 시스템에서 ISDN-송신을 위해 사용된다. 8 kHz의 샘플링 주파수에서, G.711 표준은 8 비트의 양자화(quantization) 깊이에서 64 kbit/s의 비트율을 요구하는 300 및 3400 Hz 사이에서 음성 밴드폭에 걸친다.코딩은 0.125 ms의 매우 낮은 지연을 생성하는 뮤-로우(μ-Law) 또는 에이-로우(A-Law)로 불리우는 단순한 로그 코딩에 의해 형성된다.

G.722 표준은 16 kHz의 샘플링 주파수에서 50 부터 7000 Hz 까지 더 큰 음성 밴드폭을 인코딩한다. 그 결과로, 코덱은 1.5ms 의 지연에서 48, 56 또는 64 Kbit/s의 비트율로 더 많은 좁은 밴드을 갖는 G.7xx 음성 코덱과 비교할 때 어 나은 질을 달성한다. 더욱이, 두 개의 다른 개발에서, G.722.1 및 G.722.2는 존재하고, 이것은 심지어 더 낮은 비트율에서 상당한 스피치 질을 제공한다. G.722.2는 2.5ms 의 지연에서 6.6 kbit/s 및 23.85 kbit/s 사이에서 비트율의 선택을 허용한다.

G.729 표준은 IP-전화 통신의 경우에 전형적으로 이용된고, 이것은 또한 보이스-오버-IP-통신(VoIP)으로써 언급된다. 코덱은 스피치에 대해서 적정화되고, 에러 신호와 더불어 더 늦은 합성에 대한 일련의 분석된 스피치 파라미터를 전송한다. 그 결과로, G.729는 G.711 표준과 비교할 때, 상당한 샘플율 및 음성 밴드폭에서 대략 8 kbit/s 의 상당히 더 좋은 코딩을 달성한다. 더욱 알고리즘이 복잡할수록, 대략 15 ms의 지연을 창조한다.

결점으로써, G.7xx 코덱은 인코딩에 대해서 적정화되고, 스피치 또는 순수한 음악과 더불어 음악을 코딩할때, 좁은 주파수 밴드폭을 제외하고 상당한 문제를 나타낸다.

따라서, 도 1에서 도시된 컨퍼런싱 시스템(100)이 스피치 신호의 송신 및 프로세싱할 때 받아들일 수 있는 질에 대하여 사용될 수 있을 지라도, 통상적인 음성 신호는 스피치에 적합한 저지연 코덱을 사용할 때 만족스럽게 전개되지 않는다.

다른 말로 하면, 예를 들면 음악에 음성 신호를 포함하는 통상적인 음성 신호를 프로세싱하는 스피치 신호의 코딩 및 디코딩에 대한 코덱을 사용하는 것은 질에 견지에서 만족스런 결과를 이끌지 않는다. 도 1에서 도시된 컨퍼런싱 시스템(100)의 테두리 내에서 인코딩 및 디코딩 일반적 음성 신호에 대한 음성 코텍을 사용함에 의해 질은 개선될 수 있다. 하지만, 도 2의 맥락에서 더욱 상세하게 도시되었듯이, 그러한 컨퍼런싱 시스템에서 통상의 음성 코덱을 이용하는 것은 하나의 예만 들면 증가된 지연과 같은 원치 않는 효과를 더욱 이끌 수 있다.

그러나, 도 2에서 더욱 상세하게 기술하기 전에, 본 명세서에서 구성은 각각의 구성이 실시예 또는 도면에서 한 번 이상 나타나거나 몇 개의 실시 예 또는 도면에서 나타났을 때 동일한 또는 유사한 참조 신호로 나타난다. 외적 내적으로 달리 표시된 바가 없다면, 동일하거나 유사한 참조기호로 표시된 구성들은 유사하거나 동일한 방식, 예를 들면, 이들의 회로구성, 프로그래밍, 특징들, 또는 기타 파라미터를 이용하여 구현될 수 있다. 따라서 특징들의 몇 가지 구현 예들에 나타나고 동일하거나 유사한 참조기호로 표시된 구성들은 동일한 명세서, 파라미터들 및 특징들을 가지고 구현될 수 있다.

더욱이, 하기의 요약에서는 참조기호는 개개의 구성이 아닌, 구성의 그룹 또는 클래스를 나타내는데 사용될 것이다. 벌써 행해진 도 1의 테두리 내에서, 예컨대 제 1 입력이 입력(110-3)으로써, 제 2 입력이 입력(110-2)으로써, 제 3 입력이 입력(110-3)으로써, 표시될 때, 입력은 요약하는 경우 참조 기호 110 으로만 사용되었다. 다른 말로하면, 외적으로 그렇지 않게 적혀 있지 않다면, 요약하는 참조 기호로 표시된 구성을 언급하는 기술의 부분은 대응되는 각각의 참조 기호를 갖는 또한, 다른 구성에 관한 것일 수 있다.

이것은 동일하거나 또는 유사한 참조 기호를 표시하는 구성에 대해서도 또한 부합되기 때문에, 양자의 방법은 기술을 짧게 하는 것에 도움이 되고, 그 안에서 더욱 명백한 간결한 방법으로 개시된 실시 예를 기술한다.

도 2는 컨퍼런싱 터미널(160)과 함께 다른 컨퍼런싱 시스템(100)의 블록 다이어그램을 나타내고, 이것은 도 1에서 나타난 것과 유사하다. 도 2에서 나타난 컨퍼런싱 시스템(100)은 또한 입력(110), 디코더(120), 가산기(130), 인코더(140), 및 출력(150)을 포함하고, 이것은 도 1에서 도시된 컨퍼런싱 시스템(100)과 비교할 때 동등하게 서로 연결된다. 도 2에서 도시된 컨퍼런싱 터미널(160)은 다시 인코더(170) 및 디코더(180)를 또한 포함한다. 따라서, 도 1에 도시된 컨퍼런싱 시스템(100)의 기술은 참조된다.

그러나, 도 2에서 도시된 컨퍼런싱 터미널(160) 뿐만 아니라, 도 2에서 도시된 컨퍼런싱 시스템(100)은 통상의 음성 코덱(코더-디코더)을 사용하기 위해 채택된다. 결과적으로, 인코더(140, 170) 각각은 양자화기/코더(200) 앞에 결합된 시간/주파수 컨버터(190)의 일련의 연결을 포함한다. 시간/주파수 컨버터(190)는 도 2에서 "T/F"로써 또한 예시되고, 도 2에서 양자화기/코더(200)는 "Q/C"로 도시된다.

디코더(120, 180) 각각은 디코더/역양자화기(210)를 포함하고, 이것은 도 2에서 일련의 주파수/시간 컨버터(220)로 연결된 "Q/C^-1"로 언급되고, 도 2에서 "T/F^-1" FH 언급된다. 단순함 만을 위해서, 시간/주파수 컨버터(190)는 주파수/시간컨버터(220) 뿐만 아니라 시간/주파수 컨버터(190), 양자화기/코더(2000 및 디코더/역양자화기(210)는 그러한 인코더(140-3) 및 디코더(120-3)의 경우 뿐으로 표시된다. 그러나, 하기의 기술은 다른 그러한 성분을 또한 언급한다.

인코더(140) 또는 인코더(170)와 같은 인코더로 출발하는 것은 시간/주파수 컨버터(190)에 제공된 음성 신호가 시간 영역으로부터 주파수 영역 또는 컨버터(190)에 의한 주파수-관련 영역 안으로 변환된다. 그 후에, 변환된 음성 데이터는, 시간/주파수 컨버터(190)에 의해 야기된 스펙트럼 표시에서, 예를 들면, 각각의 인코더(140)의 경우에서 컨퍼런싱 시스템(100)의 출력(150)으로 제공된다.

디코더(120) 또는 디코더(180)와 같은 디코더의 경우에서, 디코더에 제공된 비트 스트림은 첫번째로 디코딩되고, 적어도 음성 신호의 부분의 스펙트럼 표시를 형성하기 위하여 다시 양자화되고, 이것은 주파수/시간 컨버터(220)에 의해 시간 영역으로 다시 변환된다.

역의 성분, 주파수/시간 컨버터(220) 뿐만 아니라 시간/주파수 컨버터(190)는 그로부터 제공되는 적어도 하나의 음성 신호의 스펙트럼 표시를 야기하기 위해서 채택되고, 시간 영역에서 각각 음성 신호의 대응되는 부분으로 스펙트럼 대표를 다시 전송하기 위해서 채택된다.

시간 영역에서 주파수 영역으로 음성 신호를 변화하는 과정에서. 그리고 주파수 영역에서 시간 영역으로 되돌리는 것에 있어서, 다시 확립되고, 다시 구성되고 또는 디코딩된 음성 신호가 원래 또는 소스 음선 신호와 다를 수 있기 위해서 편차가 발생할 수 있다. 양자화기 인코더(200) 및 리-코더(re-coder)(210)의 테두리 내에서 수행된 양자화 및 역양자화의 추가적인 단계에 의해 다른 인공품이 더해질 수 있다. 다른 말로 하면, 다시 확립된 음성 신호 뿐만 아니라, 원래의 음성 신호는 서로서로 다를 수 있다.

주파수/시간 컨버터(220) 뿐만 아니라, 시간/주파수 컨버터(190)는, 예를 들면, MDCT(수정된 이산 코사인 변환, modified discreet cosine transformation), MDST(수정된 이산 사인 변환, modified discreet sine transformation), FFT-기반 컨버터(FFT=Fast Fourier Transformation, 고속 푸리어 변환), 또 다른 푸리어(Fourier)-기반 컨버터에 기반하여 구현될 수 있다. 양자화기/코더(200) 및 디코더/역양자화기(210)의 테두리 내에서 양자화 및 재양자화는 예컨데, 직선 양자화에 기반하여 구현될 수 있고, 로그 양자화, 또는 다른 더욱 복잡한 양자화 알고리즘, 예를 들면, 인간의 청각 특징을 구체적으로 더욱 고려하여 구현될 수 있다. 양자화기/코더(200) 및 디코더/역양자화기(210)의 인코더 및 디코더 부분은 예를 들면, 허프만(Huffman) 코딩 또는 허프만(Huffman) 디코딩 기술을 이용하여 실행된다.

그러나, 더욱 복잡한 양자화기/코더 및 디코더/양자화기(200, 210) 뿐만 아니라 또한 더욱 복잡한 시간/주파수 및 주파수/시간 컨버터(190, 220)는 여기에서 기술된 바와 같이 다른 실시 예 및 시스템에 이용될 수 있고, 예를 들면, 인코더(140, 170)과 같은 AAC-ELD 인코더 및 디코더(120, 180)과 같은 AAC-ELD-디코더의 부분이 되거나 또는 형성할 수 있다.

컨퍼런싱 시스템(100) 및 컨퍼런싱 터미널(160)의 테두리 내에서 동등한 또는 적어도 호환이 되는 인코더(170, 140) 및 디코더(180, 120)를 구현하는 것은 바람직하다는 것은 말할 필요가 없다.

도 2에 도시된 바와 같이, 컨퍼런싱 시스템(100)은 또한, 음성 신호의 코딩 및 디코딩 기술에 기반하여, 시간 영역에서의 음성 신호의 실제적인 믹싱을 수행한다. 가산기(130)는 중첩을 수행하고, 따르는 인코더(140)의 시간/주파수 컨버터(190)로 시간 영역에서 믹싱된 신호를 제공하기 위해서 시간 영역에서 재구성된 음성 신호가 제공된다. 따라서, 컨퍼런싱 시스템은 다시 한번 디코더(120) 및 인코더(140)의 일련의 연결을 포함하고, 이것은 도 1 및 2에서 도시된 바와 같이 컨퍼런싱 시스템(100)이 "탠덤 코딩 시스템(tandem coding system)"으로 전형적으로 언급된다.

탠덤 코딩 시스템(tandem coding system)은 종종 매우 복잡하다는 결점을 나타낸다. 강한 믹싱의 복잡성은 사용되는 디코더 및 인코더의 복잡성에 의존하고, 수 개의 음성 입력과 음성 출력 신호의 경우에서 의미 있게 배가될 수 있다. 더욱이, 대부분의 인코딩 디코딩 기술은 손실이 있다는 사실 때문에, 탠덤 코딩 시스템(tandem coding system)은 도 1 및 2에 도시된 컨퍼런싱 시스템(100)에서 사용되었듯이, 전형적으로 질에 부정적인 영향을 이끈다.

다른 결점으로써, 디코딩 및 인코딩의 반복된 단계는 컨퍼런싱 시스템(100)의 입력(110) 및 출력(150) 사이에서 전반적인 지연을 또한 확장하고, 종단간 지연(end-to-end-delay)으로써 또한 언급된다. 사용되는 디코더 및 인코더의 초기 지연에 의존하여, 컨퍼런싱 시스템(100) 자체는 끌리지 않고, 방해 받지 않는다면, 심지어 불가능한 컨퍼런싱 시스템의 테두리 내에서 사용하는 수준까지 지연을 증가시킬 수 있다.

지연에 대한 주된 소스로써, 주파수/시간 컨버터(220)뿐만 아니라 시간/주파수 컨버터(190)는 컨퍼런싱 시스템(100)의 종단간 지연 및 컨퍼런싱 터미널(160)에 의해 부과된 추가적인 지연에 대하여 책임이 있다. 다른 성분에 의해 야기된 지연은, 즉 양자화기/코더(200) 및 디코더/역양자화기(210)는 이러한 성분은 시간/주파수 컨버터 및 주파수/시간 컨버터(190, 220)와 비교하여 훨씬 높은 주파수에서 작동될 수 있기 때문에 덜 중요하다. 대부분의 시간/주파수 컨버터 및 주파수/시간 컨버터(190, 220)은 블록 동작되거나 프레임 동작되는데, 이것은 많은 경우에 있어서 상당한 시간의 최소한 지연은 고려되어야만 한다는 것을 의미하고, 블록의 프레임의 길이를 갖는 버퍼(buffer) 또는 메모리(memory)를 채우기 위해 필요로 하는 시간에 상당한다. 이 시간은, 그러나, 디코더/역양자화기 뿐만 아니라 양자화기/코더(200)의 동작 속도가 근원적인 시스템의 클락(clock) 주파수에 의해 주로 결정되는 동안에, 수 kHz에서 수 10 kHz의 범위에서 전형적으로 있는 샘플링 주파수에 의해 상당히 영향받는다. 이것은 전형적으로 2, 3, 4 또는 그 이상의 더 큰 규모의 순서이다.

따라서, 통상적인 음성 신호 코덱을 사용하는 컨퍼런싱 시스템에서, 소위 비트 스트림 믹싱 기술이 도입되었다. 비트 스트림 믹싱 방법은, 예를 들면, MPEG-4 AAC-ELD 코덱에 기초하여 구현될 수 있는데, 이것은 상기에서 언급 및 탠ㄷ덤(tandem) 코딩에 의해 도입된 적어도 약간의 결점을 피할 가능성을 제공한다.

원칙적으로, 도 2에서 도시된 회의 시스템(100)은 앞서 언급한 스피치-기반 G.7xx 코덱군의 코드와 비교할 때 유사한 비트율 및 상당히 더 큰 주파수 밴드폭을 갖는 MPEG-4 AAC-ELD 코덱에 기초하여 또한 구현될 수 있다. 이것은 모든 신호 유형에 대한 상당히 더 좋은 음성 질이 상당히 증가된 비트율을 희생하여 달성될 수 있다는 것을 즉시 또한 내포한다. 비록 MPEG-4 AAC-ELD는 G.7xx 코덱의 범위 내에서 있는 지연을 요구하지만, 도 2에서 도시된 회의 시스템의 테두리 내에서 동일하게 구현되는 것은 실용적인 컨퍼런싱 시스템(100)을 이끌 수 없을 수 있다. 하기에서, 도 3과 관련하여, 이전에 언급한 소위 비트 스트림 믹싱에 기반한 더욱 실용적인 시스템은 윤곽이 나타날 것이다.

단순화만을 위하여, MPEG-4 AAC-ELD 코덱 및 그것의 데이터 스트림 및 비트 스트림에 주로 촛점이 맞추어질 것에 주목해야만 한다. 그러나, 또한 다른 인코더 및 디코더는 도 3에서 도시되고 보여진 바와 같이 컨퍼런싱 시스템(100)의 환경에서 사용될 수 있다.

도 3은 도 2의 맥락에서 기술된 바와 같이 컨퍼런싱 터미널(160)과 더불어 비트 스트림 믹싱의 원리에 따른 컨퍼런싱 시스템(100)의 블록 다이어그램을 나타낸다. 컨퍼런싱 시스템(100) 그 자체는 도 2에서 도시된 컨퍼런싱 시스템(100)의 단순화된 버전(version)이다. 더욱 정확하기 위해서, 도 2의 컨퍼런싱 시스템(100)의 디코더(120)는 도 3에서 도시된 디코더/역양자화기(220-1, 220-2, 210-3, ...)에 의해 대체되었다. 다른 말로 하면, 디코더(120)의 주파수/시간 컨버터는 도 2 및 3에 도시된 컨퍼런싱 시스템(100)과 비교할 때 제거되었다. 유사하게, 도 2의 컨퍼런싱 시스템(100)의 인코더(140)는 양자화기/코더(200-1, 200-2, 200-3)에 의해 대체되었다. 따라서, 인코더(140)의 시간/주파수 컨버터(190)는 도 2 및 3에서 도시되는 컨퍼런싱 시스템(100)과 비교할 때 제거되었다.

그 결과로, 가산기(130)는 주파수 또는 주파수-관련 영역에서의 주파수/시간 컨버터(220) 및 시간/주파수 컨버터(190)의 결핍으로 인하여 시간영역에서 더 이상 동작하지 않는다.

예를 들면, MPEG-4 AAC-ELD 코덱의 경우에서, 시간/주파수 컨버터(190) 및 주파수/시간 컨버터(220), 이것은 컨퍼런싱 터미널(160)에서 존재할 뿐인데, 는 MDCT 변환에 기반한다. 따라서, 컨퍼런싱 시스템(100) 안에서 믹서(130)는 MDCT-주파수 표시에서 음성 신호의 기여로 직접적으로 동작한다.

컨버터(190, 220)는 도 2에서 도시된 컨퍼런싱 시스템(100)의 경우에서 주요한 지연 소스를 나타내기 때문에, 지연은 이러한 컨버터(190, 220)를 제거함에 의해 상당히 감소된다. 더욱이, 컨퍼런싱 시스템(100) 내부에서 두 개의 컨버터(190, 220)에 의해 도입된 복잡성이 또한 상당히 감소된다. 예를 들면, MPEG-2 AAC-디코더의 경우에서, 주파수/시간 컨버터(220)의 테두리 내에서 수행된 역 MDCT-변환은 전반적인 복잡성의 대략 20%에 책임이 있다. 또한 MPEG-4 컨버터는 유사한 변환에 기반하기 때문에, 전반적인 복잡성에 기여하는 무관치 않은 기여는 컨퍼런싱 시스템(100)으로부터 떨어진 주파수/시간 컨버터(220)를 제거함에 의해 제거될 수 있다.

MDCT-영역 내에서 음성 신호를 믹싱하거나, 또는 또 다른 주파수-영역이 가능한데, MDCT-변환 또는 유사한 푸리어-기반 변환의 경우에서, 이러한 변환은 직선 변환이다. 이러한 변환은, 따라서, 수학적 가산성, 즉

그리고 수학적 균질성, 즉

f(x)는 변환 함수이고, x 및 y는 그것의 적당한 인수이고, 실수 또는 복소수 상수이다.

MDCT-변환 또는 또 다른 푸리어-기반 변환 모두의 특징은 시간 영역에서 믹싱에 유사한 각각의 주파수 영역에서의 믹싱을 허용한다. 따라서, 모든 계산은 스펙트럼 값에 기반하여 동등하게 잘 수행된다. 시간 영역으로의 데이터의 변환은 요구되지 않는다.

약간의 상황하에서, 또 다른 조건이 충족될 수 있다. 모든 적절한 스펙트럼 데이터는 모든 적절한 스펙트럼 성분에 대하여 믹싱 프로세스 동안에 시간 지수와 관련하여 동등하여야 한다. 이것은 변환하는 동안에 컨퍼런싱 터미널(160)의 인코더가 어떤 조건에 의존하는 서로 다른 블록 길이 사이에서 자유롭게 접촉할 수 있도록 소위 블록-스위칭(block-swiching) 기술의 경우라면 결과적으로 경우가 되지 않을 수 있다. 블록-스위칭(block-swiching)은 만일 믹싱된 데이터가 동등한 윈도우(windows)로 프로세싱되지 않는다면 서로 다른 블록 길이 및 대응하는 MDCT 윈도우(window) 길이 사이에서 스위칭으로 인하여 시간영역에서 샘플을 위한 각각의 스펙트럼 값을 유일하게 할당하는 것의 가능성을 위험하게 할 수 있다. 분포된 컨퍼런싱 터미널(160)을 갖는 통상적인 시스템 내에서 이것은 결과적으로 보증되지 않을 수 있기 때문에, 교대로 추가적인 지연 및 복잡성이 생성되는 복소 보간법(complex interpolation)이 필요할 수 있다. 결과적으로, 스위칭 블록 길이에 기반한 비트 스트림 믹싱 프로세스를 구현하지 못하는 것이 바람직할 수 있다.

대조적으로, AAC-ELD 코덱은 한 개의 블록 길이에 기반하고, 따라서, 믹싱이 더욱 쉽게 실현될 수 있도록 주파수 데이터의 일전의 기술된 할당 또는 동기화를 더욱 용이하게 보증할 수 있다. 도 3에 도시된 컨퍼런싱 시스템(100)은, 다른 말로 하면, 변환-영역 또는 주파수 영역에서 믹싱을 수행할 수 있는 시스템이다.

이 전에 요약되었듯이, 도 2에서 도시된 컨퍼런스 시스템(100)에서의 컨버터(190, 200)에 의해 도입된 추가적인 지연을 제거하기 위해서, 컨퍼런싱 터미널(160)에서 사용된 코덱은 고정된 길이 및 모양의 윈도우(window)를 사용한다. 이것은 시간 영역으로 음성 스트림을 돌려서 변환하지 않고 직접적으로 기술된 믹싱 프로세스의 구현을 가능하게 한다. 이러한 접근은 추가적으로 도입된 알고리즘 지역의 양을 한정할 수 있다. 더욱이, 복잡성은 디코더에서의 역변환 단계 및 인코더에서의 앞서의 변환 단계의 부재로 인하여 감소된다.

그러나, 도 3에서 도시된 컨퍼런싱 시스템(100)의 또한 테두리 내에서, 가산기(130)에 의해 믹싱 후에 음성 데이터를 재양자화하는 것이 필요할 수 있고, 이것은 추가적인 양자화 노이즈(noise)를 도입할 수 있다. 추가적인 양자화 노이즈(noise)는, 예를 들면, 컨퍼런싱 시스템(100)에 제공된 서로 다른 음성 신호의 서로 다른 양자화 단계로 인하여 생성될 수 있다. 그 결과로, 예를 들면 양자화 단계의 수가 이미 제한되어 있는 매우 낮은 비트율 전송의 경우에서, 주파수 영역 또는 변환 영역에서 두 개의 음성 신호를 믹싱하는 프로세스는 바람직하지 않은 추가적인 노이즈(noise)의 양 또는 생성된 신호에서의 왜곡으로 귀결될 수 있다.

다수의 입력 데이터 스트림을 믹싱하기 위한 장치의 형태에서의 본 발명에 따른 제 1 실시를 기술하기 전에, 도 4에 관하여, 그 안에서 포함된 데이터와 더불어 데이터 스트림 또는 비트 스트림은 짧게 기술될 것이다.

도 4는 스펙트럼 영역에서의 적어도 하나, 또는 더욱 빈번하게 하나보다 많은 음성 데이터의 하나의 프레임(260)을 포함하는 비트 스트림 또는 데이터 스트림(250)을 개략적으로 나타낸다. 더욱 상세하게는, 도 4는 스펙트럼 영역에서의 음성 데이터의 세 개의 프레임(260-1, 260-2, 260-3)을 나타낸다. 더욱이, 데이터 스트림(250)은 추가적인 정보 또는 추가적인 정보의 블록(270), 시간 지수 또는 다른 적절한 데이터에 관한 제어 값 또는 정보를 나타내는 제어 값과 같은, 예를 들면, 음성 데이터가 인코딩되는 방법과 같은 것을 또한 포함할 수 있다. 자연적으로, 도 4에 도시된 데이터 스트림(250)은 다른 추가적인 프레임을 포함할 수 있거나 프레임(260)은 하나의 채널(channel)보다 많은 음성 데이터를 포함할 수 있다. 예를 들면, 스테레오 음성 신호의 경우에서, 각각의 프레임(260)은, 예를 들면, 좌우 채널(channel) 또는 전에 언급한 데이터의 어떤 조합에서 얻어진 좌우 채널, 음성 데이터로부터 음성 데이터를 구성할 수 있다.

따라서, 도 4는 데이터 스트림(250)이 스펙트럼 영역에서 음성 데이터의 프레임을 구성할 뿐만 아니라, 추가적인 제어 정보, 제어 값, 상태 값, 상태 정보, 프로토콜-관련 값(예를 들면 체크(check) 합) 또는 그와 유사한 것을 포함할 수 있다는 것을 나타낸다.

도 1 내지 3의 맥락에서 기술된 컨퍼런싱 시스템의 구체적인 구현에 의존하는 것 또는 본 발명의 실시에 따른 장치의 구체적인 구현에 의존하는 것은 하기에서 설명하는 바와 같이, 특히, 도 9 내지 12C와 관련하여 기술된 것과 일치하여, 프레임의 페이로드(payload) 데이터와 연관된 방법을 나타내는 제어 값은 스펙트럼 영역을 잘 나타내거나 또는 음성 신호의 스펙트럼 정보는 프레임(260) 그 자체, 또는 추가적인 정보의 연관된 블록(270)에서 동등하게 잘 구성될 수 있다. 제어 값이 스펙트럼 성분에 관한 경우에서, 제어 값은 프레임(260) 자체 내로 인코딩될 수 있다. 만일, 그러나, 제어 값이 모든 프레임에 관한 것이라면, 추가적인 정보의 블록(270)에서 동등하게 잘 구성될 수 있다. 그러나, 앞에서 언급한 제어 값을 포함한 것에 대한 장소는, 상기에서 설명한 바와 같이, 결코 추가적인 블록들의 프레임(260) 또는 블록(270)에서 구성될 것이 요구되지 않는다. 제어 값이 하나의 또는 약간의 스펙트럼 성분에 관한 것일 뿐일 경우라면, 블록(270)에서 동등하게 잘 포함될 수 있다. 반면에, 전체 프레임(260)에 관한 제어 값은 프레임(260)에서 또한 포함될 수 있다.

도 5는 예를 들면 데이터 스트림(250)의 프레임(260)에서 포함된 것과 같은, 스펙트럼 성분에 관한 (스펙트럼) 정보를 나타낸다. 더욱 상세하게 설명하면, 도 5는 프레임(260)의 단일 채널(channel)의 스펙트럼 영역에서 정보의 단순한 다이어그램을 나타낸다. 스펙트럼 영역에서, 음성 데이터의 프레임은, 예를 들면, 강도 값 I와 주파수 f의 함수로써의 견지에서 기술될 수 있다. 이산 시스템에서, 예를 들면 디지털 시스템과 같은, 또한 주파수 분해능은 이산적이고, 따라서, 스펙트럼 정보는 전형적으로 각각의 주파수 또는 좁은 밴드(bands) 또는 서브밴드(subband)와 같은 어떤 스펙트럼 성분에 대해서 존재할 뿐이다. 각각의 주파수 또는 서브밴드(subbands) 뿐만 아니라 좁은 밴드(bands)는 스펙트럼 성분으로써 언급된다.

도 5는 도 5에서 설명된 경우에서, 네 개의 각각의 주파수를 포함하는 주파수 밴드 또는 서브밴드(310) 뿐만 아니라 여섯 개의 각각의 주파수(300-1, ..., 300-6)에 대한 강도 분포를 개략적으로 보여준다. 서브밴드 또는 주파수 밴드(300)뿐만 아니라 각각의 주파수 또는 대응되는 좁은 밴드(bands)(300)는 프레임은 스펙트럼 영역에서 음성 데이터에 관한 정보를 포함하는 것에 관한 스펙트럼 성분을 형성한다.

서브밴드(310)에 관한 정보는, 예를 들면, 전반적인 강도가 될 수 있거나, 평균 강도 값이 될 수 있다. 강도 또는 진폭과 같은 다른 에너지 관련 값은 차치하고, 각각의 스펙트럼 성분 자체의 에너지 또는 에너지나 진폭으로부터 얻은 또 다른 값, 상 정보 및 다른 정보는 프레임에서 또한 포함될 수 있고, 따라서, 스펙트럼 성분에 관한 정보로써 고려될 수 있다.

컨퍼런싱 시스템에 대한 포함된 약간의 문제 및 약간의 배경을 기술한 후에, 본 발명의 제 1 양상과 일치하는 실시 예는 입력 데이터 스트림이 결정된 입력 데이터 스트림으로부터 출력 데이터 스트림으로의 적어도 부분적인 스펙트럼 정보를 복제하기 위해서 비교에 근거하여 결정되는 것에 따라서 기술되고, 그에 의해 재양자화의 생략 및 그와 연관된 재양자화 노이즈의 생략을 가능하게 한다.

도 6은 복수의 입력 데이터 스트림(510)의 믹싱에 대한 장치(500)의 블록 다이어그램을 나타내고, 두 개가 도시된다(510-1, 510-2). 장치(500)는 데이터 스트림 (510)을 받고, 출력 데이터 스트림(530)을 야기하여 적용하기 위한 프로세싱 유닛(520)을 포함한다. 각각의 입력 데이터 스트림(510-1, 510-2)은 각각의 프레임(540-1, 540-2)을 포함하고, 이것은 도 5의 맥락에서 도 4에서 도시된 프레임과 유사하고, 스펙트럼 영역에서 음성 데이터를 포함한다. 이것은 가로축에서 주파수 f 및 강도 I가 도시된 세로 좌표인 도 6에 도시된 좌표계에 의해 다시 한번 설명된다. 출력 데이터 스트림(530)은 또한 스펙트럼 영역에서 음성 데이터를 포함하는 출력 프레임(550)을 또한 포함하고, 대응되는 좌표계에 의해 또한 설명된다.

프로세싱 유닛(520)은 복수의 입력 데이터 스트림(510)의 프레임(540-1, 540-2)과 비교하여 적용된다. 더욱 하기에서 상세하게 설명되었듯이, 이러한 비교는, 예를 들면, 마스킹(masking) 효과 및 인간의 청각 특질을 고려한 사이코-어쿠스틱(psycho-acoustic) 모델에 근거할 수 있다. 이러한 비교 결과에 근거하여, 프로세싱 유닛(520)은 적어도 하나의 스펙트럼 성분, 예를 들면 도 6에 도시된 스펙트럼 성분(560), 에 대하여 결정되도록 더욱 적용되고, 이것은 프레임(540-1, 540-2)양쪽에 존재하고, 정확하게 복수의 데이터 스트림(510)의 하나의 데이터 스트림이다. 그 때, 프로세싱 유닛(520)은 출력 프레임(550)을 포함한 출력 데이터 스트림(530)을 생성하기 위해 적용될 수 있고, 스펙트럼 성분(560)에 관한 그러한 정보는 각각의 입력 데이터 스트림의 결정된 프레임으로부터 복제된다.

더욱 상세하기 위해서, 프로세싱 유닛(520)은 복수의 입력 데이터 스트림(510)의 프레임(540)을 비교하는 것은 적어도 두 정보에 근거한다는 그러한 것에 적용된다- 강도 값은 관련된 두 개의 서로 다른 입력 데이터 스트림(510)의 프레임(540)의 동등한 스펙트럼 성분(560)에 대응하는 에너지 값이다.

이것을 더욱 설명하기 위해서, 도 7은 스펙트럼 성분(560)에 대응하는 정보의 경우를 보여주고, 이것은 주파수 또는 제 1 입력 데이터 스트림(510-1)의 프레임(540-1)의 좁은 주파수 밴드가 되기 위해서 여기에서 가정된다. 이것은 강도 값 I에 대응되어 비교되고, 제 2 입력 데이터 스트림(510-2)의 프레임(540-2)의 스펙트럼 성분(560)에 관한 정보가 될 수 있다. 비교는, 예를 들면, 약간의 입력 스트림만이 포함되는 믹싱된 신호와 완전하게 믹싱된 신호 사이에서 에너지 비율의 절개에 기반할 수 있다. 이것은, 예를 들면, 다음에 따라서 달성될 수 있고,

및

및 이에 따라서, 비율 r(n)을 계산하고

여기에서 n은 입력 데이터 스트림의 지수이고 N은 적절한 입력 데이터 스트림의 수이다. 만일 비율 r(n)이 충분이 높다면, 입력 데이터 스트림(510)의 덜 지배적인 채널(channel) 또는 덜 지배적인 프레임은 지배적인 것에 의해 표시됨으로써 보여질 수 있다. 따라서, 적절치 않은 감소가 프로세싱될 수 있고, 다른 스트림이 버려지는 동안에, 이것은 모두가 알 수 있는 스트림의 그러한 스펙트럼 성분만이 포함된다.

수학식 3 내지 5의 테두리 내에서 고려되어지는 에너지 값은, 예를 들면, 각각의 강도 값의 곱을 계산함에 의해 도 6에서 도시된 강도 값으로부터 얻어질 수 있다. 스펙트럼 성분에 관한 정보가 다른 값을 포함할 수 있는 경우에서, 유사한 계산이 프레임(510)에서 포함된 정보의 형태에 의존하여 수행될 수 있다. 예를 들면, 복소 값 정보의 경우에, 스펙트럼 성분에 관한 정보를 형성하는 각각의 값의 실수 및 허수 성분의 모듈을 계산하는 것은 수행될 수 있다.

각각의 주파수를 제외하고, 수학식 3 내지 5에 따른 사이코-어쿠스틱(psycho-acoustic) 모듈의 응용에 대해서, 수학식 3 내지 4에서의 합은 하나 보다 더 많은 주파수를 포함할 수 있다. 다른 말로 하면, 수학식 3 내지 4에서 각각의 에너지 값 E_n 은 복수의 주파수에 대응하는 전반적인 에너지 값에 의해 대체될 수 있고, 주파수 밴드의 에너지 또는 보다 일반적인 견지에서 그것을 놓기 위해, 단일 스펙트럼 정보에 의해 또는 하나 또는 그 이상의 스펙트럼 성분에 관한 복수의 스펙트럼 정보에 의해 대체될 수 있다.

예를 들면, AAC-ELD는 인간의 소리 시스템이 동시에 다루는 주파수 그룹과 유사한 밴드-와이즈(band wise) 방식에서 스펙트럼 선 위에서 작동하기 때문에, 부적절 계산 또는 사이코-어쿠스틱(psycho-acoustic) 모델은 유사한 방식으로 수행될 수 있고, 필요한 경우에 단일 주파수 밴드만의 신호의 부분을 제거 또는 대체가 가능하다.

사이코-어쿠스틱(psycho-acoustic) 실험이 보여주었듯이, 또 다른 신호에 의해 신호의 마스킹(masking)은 각각의 신호 형태에 의존한다. 최소한 부적절 결정에 대한 임계치로써, 가장 나쁜 경우의 시나리오가 적용될 수 있다. 예를 들면, 사인 곡선 또는 또 다른 명백하고 잘 정의된 소리에 의한 마스킹 노이즈에 대해서, 21 내지 28 dB의 다름이 전형적으로 요구된다. 실험은 약 28.5 dB 의 임계값이 좋은 대체 결과를 낳는다는 것을 보여준다. 이 값은 결과적으로 개선될 수 있고, 또한 실제적인 주파수 밴드 고려하에서 계산될 수 있다.

따라서, -28.5 dB 보다 더 크게 된 수학식 5에 따른 값 r(n)은 사이코-어쿠스틱(psycho-acoustic) 전개 또는 스펙트럼 성분에 기반한 부적절 계산 또는 고려하에서 스펙트럼 성분의 견지에서 부적절하도록 고려될 수 있다. 서로 다른 스펙트럼 성분에 대해서, 서로 다른 값이 사용될 수 있다. 따라서, 10 dB 내지 40 dB, 20 dB 내지 30 dB 또는 25 dB 내지 30 dB의 고려하에서 프레임의 견지에서 입력 데이터 스트림의 사이코-어쿠스틱(psycho-acoustic) 부적절에 대한 지표로써 임계치를 사용하는 것은 유용하게 고려될 수 있다.

도 7에 도시된 상황에서, 이것은 스펙트럼 성분(560)에 관하여, 제 1 입력 데이터 스트림(510-1)이 제 2 입력 데이터 스트림(510-2)기 스펙트럼 성분(560)과 관련되어 버려지는 동안에 결정된다는 것을 의미한다. 그 결과로, 스펙트럼 성분(560)에 관한 정보는 제 1 입력 데이터 스트림(510-1)의 프레임(540-1)으로부터 출력 데이터 스트림(530)의 출력 프레임(550)까지 적어도 부분적으로 복제된다. 이것은 화살표(570)에 의해 도 7에 나타난다. 동시에, 다른 입력 데이터 스트림(510)(즉, 도 7에서, 입력 데이터 스트림(510-2)의 프레임(540-2))의 프레임(540)의 스펙트럼 성분(560)에 관한 정보는 단속적인 직선(58/0)에 의해 표시됨으로써 버려진다.

또 다른 말로 하면, 장치(500)는, 예를 들면, MCU 또는 컨퍼런싱 시스템(100)으로써 사용될 수 있고, 이것은 그것의 출력 프레임(550)과 더불어 출력 데이터 스트림(530)이 생기는 것과 같이 적용되고, 대응되는 스펙트럼 성분의 정보가 출력 스트림(530)의 출력 프레임(550)의 스펙트럼 성분(560)을 기술하는 결정된 입력 데이터 스트림(510-1)의 유일한 프레임(540-1)으로부터 복제되는 것과 같이 적용된다. 자연스럽게, 장치(500)는 또한 하나 보다 더 많은 스펙트럼 성분에 관한 정보가 다른 입력 데이터 스트림을 버리면서, 적어도 이러한 스펙트럼 성분과 관련하여 입력 데이터 스트림으로부터 적용될 수 있다. 더욱이, 장치(500) 또는 그것의 프로세싱 유닛(520)은 서로 다른 스펙트럼 성분에 대해서 서로 다른 입력 데이터 스트림(510)이 결정되는 정도로 적용되는 것이 가능하다. 출력 데이터 스트림(530)의 동일한 출력 프레임(550)은 서로 다른 입력 데이터 스트림(510)으로부터 서로 다른 스펙트럼 성분과 관련한 복제된 스펙트럼 정보를 포함할 수 있다.

자연스럽게, 입력 데이터 스트림(510)에서 프레임(540)의 연속의 경우에서와 같이 장치(500)를 구현하는 것이 바람직할 수 있고, 프레임(540)만이 비교 또는 결정 동안에 교려될 수 있고, 이것은 유사한 또는 동시 지수에 대응한다.

다른 말로 하면, 도 7은 실시에 부합하여 상기에서 설명된 바와 같이 복수의 입력 데이터 스트림을 믹싱하기 위한 장치의 동작 원리를 나타낸다. 이전에 설계하여 배치하였듯이, 믹싱은 모든 인커밍(incoming) 스트림이 디코드된다는 의미에서 간단한 방식으로 행해지지 않고, 이것은 신호를 믹싱하고 다시 재-인코딩(re-encoding)하면서 시간 영역으로 역변환을 포함한다.

도 6 내지 8의 실시 예는 각각의 코덱의 주파수 영역에서 행해진 믹싱에 기반한다. 가능한 코덱은 AAC-ELD 코덱이 될 수 있고, 일정한 변환 윈도우(window)를 갖는 또 다른 코덱이 될 수 있다. 그러한 경우에서, 시간/주파수 변환은 각각의 데이터를 믹스할 수 있기 위해서 필요하지 않다. 본 발명의 실시에 따른 실시 예는 양자화 단계 크기 및 다른 파라미터와 같은 모든 비트 스트림 파라미터로의 접근은 가능하고 이러한 파라미터는 믹싱된 출력 비트 스트림을 야기하기 위해 사용될 수 있다는 사실을 이용한다.

도 6 내지 8의 실시 예는 스펙트럼 성분과 관련한 스펙트럼 직선 또는 스펙트럼 정보의 믹싱이 소스 스펙트럼 직선 또는 스펙트럼 정보의 편중된 요약에 의해 달성될 수 있다. 가중된 인자는 제로 또는 하나가 될 수 있고, 원리상, 사이에 어떤 값이 될 수 있다. 제로의 값은 소스가 부적절함으로써 취급되고 전혀 사용될 수 없다. 밴드 또는 스케일 팩터 밴드(scale factor bands)와 같은 직선의 그룹은 동일한 가중된 인자를 사용할 수 있다. 그러나, 전에 나타내었듯이, 가중된 인자(예를 들면, 제로 및 하나의 분배)가 단일의 입력 데이터 스트림(510)의 단일한 프레임(540)의 스펙트럼 성분에 대해서 변화할 수 있다. 더욱이, 스펙트럼 정보를 믹싱할 때, 가중된 인자 제로 또는 하나를 배타적으로 이용하는 것이 필요하지 않다. 입력 데이터 스트림(510)의 프레임(540)의 단일, 하나, 복수의 전반적인 스펙트럼 정보가 아닌 어떤 상황하에서, 각각의 가중된 인자는 제로 또는 하나로부터 서로 다를 수 있다.

하나의 특별한 경우는 모든 밴드 또는 하나의 소스(입력 데이터 스트림(510))의 스펙트럼 성분은 하나의 인자로 놓여질 수 있고, 다른 소스들의 모든 인자들은 제로로 놓여진다는 것이다. 이 경우에서, 하나의 참가자의 완전한 입력 비트 스트림은 마지막 믹싱된 비트 스트림으로써 동일하게 복제된다. 가중된 인자들은 프레임 간 기초로 계산될 수 있고, 더 긴 그룹 또는 일련의 프레임에 기반하여 또한 계산되거나 결정될 수 있다. 자연스럽게, 심지어 그러한 일련의 프레임 또는 내부 단일 프레임 내부에서, 가중된 인자는 다른 스펙트럼 성분, 상기에서 요약된, 에 대해 다를 수 있다. 가중된 인자는 사이코-어쿠스틱(psycho-acoustic) 모델의 결과에 따라서 계산되거나 결정될 수 있다.

사이코-어쿠스틱(psycho-acoustic) 모델의 예는 수학식 3 내지 4 및 5의 맥락에서 상기에서 이미 기술되었다. 사이코-어쿠스틱(psycho-acoustic) 모델 또는 각각의 모듈은 에너지 값 E_f 및 에너지 값 E_c를 갖는 완전히 믹싱된 신호를 이끄는 약간의 입력 스트림만이 포함되는 믹싱된 신호 사이에서 에너지율 r(n)을 계산한다. 에너지율 r(n)은 E_c 로 나눈 E_f의 로그의 20배 만큼 수학식 5에 따라서 계산된다.

만일, 비율이 충분히 높다면, 덜 지배적인 채널(channels)은 지배적인 것에 의해 마스킹되는 것으로써 간주될 수 있다. 따라서, 모든 다른 스트림은-하나의 스펙트럼 성분의 적어도 하나의 스펙트럼 정보- 버려지는 동안에 부적절 감소는 전혀 알 수 없는 그러한 스트림만이 포함되고, 하나의 가중된 인자이 탓이된다는 것을 의미하는 것으로 프로세싱된다. 다른 말로 하면, 제로의 그러한 가중된 인자 탓이다.

감소된 재양자화 단계가 도입될 수 있음으로 인하여 탠덤 코딩(tandem coding) 효과가 덜 또는 발생하지 않는다는 이점이 있다. 각각의 양자화 단계는 추가적인 양자화 노이즈를 감소시키는 상당한 위험을 견디기 때문에, 전반적인 음성 신호의 질은 다수의 입력 데이터 스트림의 믹싱에 대한 상기 언급한 실시 예 중의 하나를 사용함으로써 개선될 수 있다. 이것은 장치(500)의 프로세싱 유닛(520)이, 도 6에서 보여진 예에 대한 것과 같이, 출력 데이터 스트림(530)이 생성되고, 결정된 입력 스트림 또는 그것의 부분의 프레임의 양자화 수준의 분배와 비교한 양자화 단계의 분배는 유지된다는 점에서 적용된다. 다른 말로 하면, 복제함에 의해, 따라서, 스펙트럼 정보를 재-인코딩(re-encoding) 없이 각각의 데이터를 재사용함에 의해, 추가적인 양자화 노이즈의 도입이 생략될 수 있다.

더욱이, 컨퍼런싱 시스템, 예를 들면, 도 6 내지 5과 관련된 상기에서 기술된 실시 중의 하나를 이용한 둘 보다 많은 팜가자를 갖는 원격/화상 컨퍼런싱 시스템은 시간-영역 믹싱과 비교하여 더 적은 복잡성을 갖는 이점을 제공할 수 있고, 시간-주파수 변환 단계 및 재-인코딩(re-encoding) 단계는 생략될 수 있다. 더욱이, 더 이상의 지연은 필터뱅크(filterbank) 지연이 없음으로 인한 시간-영역에서 믹싱과 비교한 이러한 성분에 의해 야기되지 않는다.

요약하기 위해, 상기 기술된 실시 예는, 예를 들면, 스펙트럼 성분에 상응하는 밴드 또는 스펙트럼 정보, 이것은 하나의 소스로부터 취해지는 것과 같이 적용되고, 재양자화가 아니다. 따라서, 믹싱된 밴드 또는 스펙트럼 정보만이 재양자화되고, 이것은 추가적인 양자화 노이즈를 감소시킨다.

그러나, 상기에서 설명된 실시 예는 퍼셉츄얼 노이즈 서브스티튜션(PNS, perceptual noise substitution), 템포럴 노이즈 셰이핑(TNS, temporal noise shaping), 스펙트럴 밴드 레플리케이션(SBR, spectral band replication), 및 스테레오 코딩의 형태와 같은 다른 적용에서 또한 사용될 수 있다. 적어도 하나의 PNS 파라미터, TNS 파라미터, SBR 파라미터 또는 스테레오 코딩 파라미터를 프로세싱할 수 있는 장치의 작동을 기술하기 전에, 실시가 도 8을 참조하여 더욱 상세하게 기술될 것이다.

도 8은 프로세싱 유닛(520)을 포함하는 복수의 입력 데이터 스트림의 믹싱을 위한 장치(500)의 개략적인 블록 다이어그램을 나타낸다. 더욱 상세하게는, 도 8은 입력 데이터 스트림(비트 스트림)으로 인코딩된 매우 다른 음성 신호를 프로세싱할 수 있는 매우 유연한 장치(500)를 나타낸다. 하기에서 기술될 약간의 성분은, 따라서, 모든 상황하에서 구현되는 것이 요구되지 않는 임의적 성분이다.

프로세싱 유닛(500)은 프로세싱 유닛(520)에 의해 프로세싱되기 위한 각각의 입력 데이터 스트림 또는 코딩된 음성 비트 스트림에 대한 비트 스트림 디코더(700)를 포함한다. 단순함만을 위해서, 도 8은 두 개의 비트 스트림 디코더(700-1, 700-2)만을 나타낸다. 자연스럽게, 프로세싱되기 위한 입력 데이터 스트림의 수, 비트 스트림 디코더(700)의 더 많은 수 또는 더 낮은 수에 의존하는 것은 만일 예를 들면, 비트 스트림 디코더(700)가 연속적으로 입력 데이터 스트림의 하나보다 더 많이 프로세싱할 수 있다면, 구현될 수 있다.

다른 비트 스트림 디코더(700-2, ...) 뿐만 아니라, 비트 스트림 디코더(700-1) 각각은 받기 위해 적용되고, 받은 그리고, 비트 스트림 내에 포함된 데이터를 분리하거나 뽑아낸 신호를 프로세스하는 비트 스트림 리더(710)를 포함한다. 예를 들면, 비트 스트림 리더(710)는 내부 클락(clock)으로 인커밍(incoming) 데이터를 동기화하기 위해 적용될 수 있고, 더욱이, 인커밍(incoming) 비트 스트림을 적당한 프레임으로 분리하기 위해 적용될 수 있다.

비트 스트림 디코더(700)는 또한 비트 스트림 리더(710)로 부터 격리된 데이터를 받기 위한 비트 스트림 리더(710)의 출력에 결합된 허프만(Huffman) 디코더(720)로 또한 구성된다. 허프만(Huffman) 디코더(720)의 출력은 역양자화기(730)에 결합되고, 이것은 또한 인버스(inverse) 양자화기로써 또한 언급된다. 허프만(Huffman) 디코더(720) 뒤에 결합된 역양자화기는 스케일러(scaler)(740)에 따른다. 허프만(Huffman) 디코더(720), 역양자화기(730) 및 스케일러(scaler)(740)는 주파수 영역 또는 참가자(도 8에서 나타나지 않은)의 인코더가 동작하는 주파수-관련 영역에서 각각의 입력 데이터 스트림의 적어도 부분의 음성 신호를 사용할 수 있는 출력에서 제 1 유닛(750)을 형성한다.

비트 스트림 디코더(700)는 제 1 유닛(750)에 따른 데이터-와이즈(data-wise)와 결합된 제 2 유닛을 또한 포함한다. 제 2 유닛(760)은 PNS-디코더가 결합된 뒤에 스테레오 디코더(770)(M/S 모듈)를 포함한다. PNS-디코더(780)는 TNS-디코더(790)에 의해 데이터-와이즈(data-wise)로 따르고, 이것은 스테레오 디코더(770)에서 PNS-디코더(780)와 더불어 제 2 유닛(760)을 형성한다.

음성 데이터의 기술된 흐름을 제외하고, 비트 스트림 디코더(700)는 제어 데이터와 관련된 다른 모듈 사이에서 복수의 연결을 또한 포함한다. 더욱 상세하게, 비트 스트림 리더(710)는 또한 적절한 제어 값을 받기 위해 허프만(Huffman) 디코더(720)에 또한 결합된다. 더욱이, 허프만(Huffman) 디코더(720)는 스케일링 정보를 스케일러(scaler)(740)에 전송하기 위해 직접적으로 스케일러(scaler)(740)에 결합된다. 스테레오 디코더(770), PNS-디코더(780), TNS-디코더(790)는 또한 적절한 제어 데이터를 받기 위해 비트 스트림 리더(710)에 또한 각각 결합된다.

프로세싱 유닛(520)은 교대로 비트 스트림 디코더(700)에 입력-와이즈 결합된 스펙트럼 믹서(810)를 포함하는 믹싱 유닛(800)을 또한 포함할 수 있다. 스펙트럼 믹서(810)는, 예를 들면, 주파수 영역에서 실제적인 믹싱을 수행하기 위한 하나 또는 그 이상의 가산기를 포함할 수 있다. 더욱이, 스펙트럼 믹서(810)는 비트 스트림 디코더(700)에 의해 제공된 스펙트럼 정보의 임의적인 직선 조합을 허용하기 위한 멀티플라이어(multiplier)를 또한 포함할 수 있다.

믹싱 유닛(800)은 스펙트럼 믹서(810)의 출력에 데이터-와이즈(data-wise) 결합된 적정한 모듈(820)을 또한 포함할 수 있다. 적정한 모듈(820)은, 그러나, 또한 스펙트럼 믹서(810)에 제어 정보를 제공하기 위하여 스펙트럼 믹서(810)에 또한 결합된다. 데이터-방향(data-wise), 적정한 모듈(820)은 믹싱 유닛(800)의 출력을 나타낸다.

믹싱 유닛(800)은 다른 비트 스트림 디코더(700)의 비트 스트림 리더(710)의 출력에 직접 결합된 SBR-믹서(830)를 또한 포함할 수 있다. SBR-믹서(830)의 출력은 믹싱 유닛(800)의 또 다른 출력을 형성한다.

프로세싱 유닛(520)은 믹싱 유닛(800)에 결합된 비트 스트림 인코더(850)를 또한 포함한다. 비트 스트림 인코더(850)는 TNS-인코더(870), PNS-인코더(880), 스테레오 인코더(890)를 포함하는 제 3 유닛(860)을 포함하는데, 이것은 차례대로 기술한 순서대로 결합된다. 제 3 유닛(860)은, 따라서, 비트 스트림 디코더(700)의 제 1 유닛(750)의 인버스(inverse) 유닛을 형성한다.

비트 스트림 인코더(850)는 제 4 유닛의 입력 및 그것의 출력 사이에서 연속 결합을 형성하는 스케일러(910), 양자화기(920), 허프만(Huffman) 코더(930)를 포함하는 제 4 유닛을 또한 포함한다. 제 4 유닛(900)은, 따라서, 제 1 유닛(750)의 인버스 모듈을 포함한다. 따라서, 스케일러(910)는 허프만(Huffman) 코더(930)에 각각의 제어 데이터를 제공하기 위한 허프만(Huffman) 코더(930)에 또한 직접 결합된다.

비트 스트림 인코더(850)는 허프만(Huffman) 코더(930)의 출력에 결합된 비트 스트림 라이터(writer)(940)를 또한 포함한다. 게다가, 비트 스트림 라이터(writer)(940)는 이러한 모듈로부터 제어 데이터 및 정보를 받기 위한 TNS-인코더(870), PNS-인코더(880), 스테레오 인코더(890), 및 허프만(Huffman) 코더(930)에 또한 결합된다. 비트 스트림 라이터(writer)(940)의 출력은 프로세싱 유닛(520) 및 장치(500)의 출력을 형성한다.

비트 스트림 인코더(850)는 또한 사이코-어쿠스틱(psycho-acoustic) 모듈(950)을 또한 포함하고, 이것은 믹싱 유닛(800)의 출력에 또한 결합된다. 비트 스트림 인코더(850)는 제 3 유닛(860)의 모듈에 적정한 제어 지시 정보를 제공하기 위해서 적용되는데, 이것은 제 3 유닛(860)의 유닛의 테두리 내에서 믹싱 유닛(800)에 의한 음성 신호 출력을 인코드하기 위해 사용될 수 있다.

원칙적으로, 제 3 유닛(860)의 입력에 이를 때까지의 제 2 유닛(760)의 출력에서는, 스펙트럼 영역에서 음성 신호의 프로세싱은, 전송자 측에서 사용된 인코더에 의해 정의된 것과 같이 가능하다. 그러나, 앞서 지적한 바와 같이, 만일, 예를 들면, 입력 데이터 스트림 중의 하나의 프레임의 스펙트럼 정보가 지배적이라면 완전한 디코딩, 역양자화, 디스케일링(de-scaling), 및 다른 프로세싱 단계는 결과적으로 필요하지 않을 수 있다. 각각의 스펙트럼 성분의 스펙트럼 정보의 적어도 일부는 출력 데이터 스트림의 각각의 프레임의 스펙트럼 성분으로 그 때 복제된다.

그러한 프로세싱을 허용하기 위해, 장치(500) 및 프로세싱 유닛(520)은 데이터 교환을 위한 신호 라인을 더 포함한다. 도 8에 도시된 실시에서 그러한 프로세싱을 허용하기 위해, 스케일러(740)의 출력, 스테레오 디코더(770) 및 PNS-디코더(780) 뿐만 아니라 허프만(Huffman) 디코더(720)의 출력은 각각의 다른 비트 스트림 리더(710)의 성분과 함께, 각각의 프로세싱을 위한 믹싱 유닛(800)의 적정화 모듈(820)에 결합한다.

각각의 프로세싱 후에 비트 스트림 인코더(850) 내부로 상응하는 데이터플로우를 촉진하기 위해, 적정화된 데이터플로우를 위한 상응하는 데이터 선이 또한 구현된다. 더욱 상세하게는, 허프만(Huffman) 코더(930) 뿐만 아니라, 적정화된 모듈(820)의 출력은 PNS-인코더(780), 스테레오 인코더(890), 제 4 유닛 및 스케일러(910)의 입력에 결합된다. 더욱이 적정화된 모듈(820)의 출력은 비트 스트림 라이터(940)에 또한 직접 결합된다.

앞서 지적한 바와 같이, 상기 기술한 대부분 모든 모듈은 임의적인 모듈이고, 이것은 구현되는 것이 요구되지 않는다. 예를 들면, 단일 채널(channel)을 포함하는 음성 데이터 스트림의 경우에서, 스테레오 코딩 및 디코딩 유닛(770, 890)은 생략될 수 있다. 따라서, PNS-기반 신호가 프로세스되지 않는 경우에는, 상응하는 PNS-디코더 및 PNS-인코더(780, 880)가 또한 생략될 수 있다. TNS-모듈(790, 870)은 프로세스되는 신호 및 출력되는 신호가 TNS-데이터 기반이 아닌 경우에서 또한 생략될 수 있다. 제 1 및 제 4 유닛(750, 900) 내부에, 스케일러(910)뿐만 아니라 인버스(inverse) 양자화기(730), 스케일러(740), 양자화기(920)는 결과적으로 또한 생략될 수 있다. 허프만(Huffman) 디코더(720) 및 허프만(Huffman) 인코더(930)는 또 다른 알고리즘을 사용하여 다르게 구현될 수 있거나 완전히 생략될 수 있다.

만일, 예를 들면, 데이터의 SBR-파라미터가 현존하지 않는다면, SBR-믹서(830)는 또한 결과적으로 또한 생략될 수 있다. 더욱이, 스펙트럼 믹서(810)는 예를 들면, 적정화 모듈(820) 및 사이코-어쿠스틱(psycho-acoustic) 모듈(860)과 협력하여 다르게 구현될 수 있다. 따라서, 또한 이러한 모듈은 임의 성분으로 고려될 수 있다.

그 안에 포함된 프로세싱 유닛(520)과 더불어 장치(500)의 동작 모드와 관련하여, 인커밍(incoming) 입력 데이터 스트림은 첫 번째로 읽혀지고 비트 스트림 리더(710)에 의해 적절한 정보로 분리된다. 허프만(Huffman) 디코딩 후에, 결과적인 스펙트럼 정보는 결과적으로 역양자화기(730)에 의해 재양자화되고 디스케일러(740)에 의해 적절하게 스케일된다.

그 후에, 입력 데이터 스트림 안으로 포함된 제어 정보에 의존하는 동안, 입력 데이터 스트림 내부에 인코딩된 음성 신호가 스테레오 디코더(770)의 기초로 둘 또는 그 이상의 채널(channels)에 대한 음성 신호로 분해될 수 있다. 만일, 예를 들면, 음성 신호는 중간-채널(channel)(M) 및 측면-채널(channel)을 포함하고, 상응하는 좌측 채널(channel) 및 우측 채널(channel) 데이터는 상호간에 중간 및 측면-채널(channel) 데이터를 더하거나 빼는 것에 의해 얻어질 수 있다. 많은 구현에 있어서, 중간-채널(channel)은, 측면-채널(side-channel)이 좌측-채널(L) 및 우측-채널(R) 사이에서 다름에 비례하는 동안, 좌측-채널 및 우측-채널 음성 데이터 합에 비례한다. 구현에 의거하여, 상기 언급된 채널은 더해질 수 있고/있거나 클리핑(clipping) 효과를 막기 위하여 인자 1/2를 고려하여 뺄 수 있다. 일반적으로 말하면, 다른 채널은 상응하는 채널을 생산하기 위한 직선 조합에 의해 프로세스될 수 있다.

다른 말로 하면, 스테레오 디코더(770) 후에, 오디오 데이터가, 만일 적절하다면, 두 개의 각각의 채널로 분해될 수 있다. 자연스럽게, 또한 역 디코딩은 스테레오 디코더(770)에 의해 수행될 수 있다. 만일, 예를 들면, 비트 스트림 리더(710)에 의해 수신된 음성 신호가 좌측 및 우측 채널을 포함하고, 스테레오 디코더(770)는 동등하게 잘 계산될 수 있거나, 적절한 중간 및 측면 채널 데이터를 결정할 수 있다.

장치(500)의 구현에 의거할 뿐만 아니라, 각각의 입력 데이터 스트림을 제공하는 참가자의 인코더의 구현에 의거하여, 각각의 데이터 스트림은 PNS-파라미터(PNS=perceptual noise substitution)를 포함할 수 있다. PNS는 사람의 귀가 합성적으로 야기된 노이즈로부터의 밴드 또는 각각의 주파수와 같은 제한된 주파수 영역 또는 스펙트럼 성분에서 노이즈와 같은 소리를 가장 구별할 수 없을 것 같다는 사실에 기반한다. PNS는 따라서, 각각의 스펙트럼 성분을 합성적으로 도입된 노이즈 수준을 가리키고, 실제적인 음성 신호를 무시하는 에너지 값으로 음성 신호의 실제적인 노이즈같은 기여를 대체한다. 다른 말로 하면, PNS-디코더(780)는 하나 또는 그 이상의 성분에서, 입력 데이터 스트림 안에 포함된 PNS 파라미터에 기반한 실제적인 노이즈같은 음성 신호 기여를 재생산할 수 있다.

TNS-디코더(790) 및 TNS-인코더(870)에 관해서는, 각각의 음성 신호는 전송자 측에서 동작하는 TNS 모듈에 관하여 미수정 버전으로 재전송될 수도 있다. 템포럴 노이즈 셰이핑(temporal noise shaping, TNS)은 양자화에 의해 야기된 프리-에코(pre-echo) 인공물을 감소하기 위한 수단이고, 이것은 음성신호의 프레임 안에서 과신호 같은 경우에서 존재할 수 있다. 이러한 과신호에 대응하기 위해, 적어도 하나의 조정 예상 필터가 스펙트럼의 낮은 쪽, 스펙트럼의 높은 쪽, 또는 스펙트럼의 양쪽으로부터 시작하는 스펙트럼 정보에 적용된다. 예상 필터의 길이는 각각의 필터가 응용되는 주파수 범위만큼 잘 적용될 수 있다.

다른 말로 하면, TNS-모듈의 동작은 하나 또는 그 이상의 조정 IIT-필터(IIR=infinite impulse response)를 계산하는데 기반하고, 예상 필터의 필터 계수와 더불어 예상되고 실제적인 음성 신호 사이의 차이를 기술하는 에러 신호를 인코딩 및 송신함에 의한다. 그 결과로, 에러 신호를 유지하는 진폭을 감소시키기 위해 주파수 영역에서 예상 필터를 응용하고 과신호와 같은 신호에 대처함에 의해 전송기 데이터 스트림의 비트율을 유지하는 동안에 음성 질을 증가시킬 수 있고, 이것은 유사한 양자화 노이즈로 과신호 같은 음성 신호를 직접 인코딩과 비교할 때 더 적은 양자화 단계를 사용하여 그 때 인코딩될 수 있다.

TNS-응용의 견지에서, 사용되는 코덱에 의해 스펙트럼 영역에서 결정되는 "순수한" 표시에 도달하기 위한 입력 데이터 스트림의 TNS-부분을 디코드하기 위한 TNS-디코더(760)의 기능을 사용하기 위한 약간의 상황하에서 유리할 수 있다. 이러한 TNS-디코더(790)의 기능의 응용은 만일 사이코-어쿠스틱(psycho-acoustic) 모델(예를 들면, 사이코-어쿠스틱(psycho-acoustic) (모듈(950)에서 응용된)은 TNS-파라미터에서 포함된 예상 필터의 필터 계수에 기반하여 어림잡을 수 있다면, 유용할 수 있다. 이것은 특별히 적어도 하나의 입력 데이터 스트림이 TNS에 사용될 때, 또 다른 것은 그렇지 않은 동안의 경우에 중요할 수 있다.

프로세싱 유닛이 TNS를 사용하는 입력 데이터 스트림의 프레임으로부터의 스펙트럼 정보가 사용되어야 하는 입력 데이터 스트림의 프레임의 비교에 기반하여 결정될 때, TNS-파라미터는 출력 데이터의 프레임에 대해 사용될 수 있다. 만일, 예컨대 호환성이 안된다는 이유로, 출력 데이터 스트림의 수신인이 TNS 데이터의 디코딩을 할 수 없다면, 각각의 에러 신호의 스펙트럼 데이터와 TNS 파라미터를 복제하지 않고, TNS 인코더(870)를 사용하지 않는 스펙트럼 영역에서 정보를 얻는 TNS-관련 데이터로부터 재구성된 데이터를 프로세스하는 것이 유용할 수 있다. 이것은 도 8에 도시된 성분 또는 모듈의 부분이 구현되는 것이 요구되지 않고, 임의적으로 버려질 수 있음을 다시 한번 보여준다.

PNS 데이터를 비교한 적어도 하나의 음성 입력 스트림의 경우에서, 유사한 전략이 응용될 수 있다. 만일 입력 데이터 스트림의 스펙트럼 성분에 대한 프레임의 비교에서 하나의 입력 데이터 스트림이 그것의 현재 프레임 및 각각의 스펙트럼 성분 또는 지배적인 스펙트럼 성분의 견지에서 있는 것이 밝혀진다면, 각각의 PNS-파라미터(즉 각각의 에너지 값)는 출력 프레임의 각각의 스펙트럼 성분에 직접 또한 복제될 수 있다. 만일, 그러나, 수신인이 PNS-파라미터를 수용할 수 없다면, 스펙트럼 정보는 각각의 에너지 값에 의해 지시되었듯이 적절한 에너지 수준으로 노이즈를 생성함에 의한 각각의 스펙트럼 성분에 대한 PNS-파라미터로부터 재구성될 수 있다. 그 때, 노이즈 데이터는 이에 따라서, 스펙트럼 영역에서 프로세스될 수 있다.

이전에 요약되었듯이, 전송된 데이터는 또한 SBR 데이터를 포함할 수 있고, 이것은 SBR 믹서(830)에서 프로세스될 수 있다. 스펙트럼 밴드 복제(SBR)는 기여에 기반한 음성 신호 스펙트럼의 부분 및 같은 스펙트럼의 더 낮은 부분을 복제하는 기술이다. 결과적으로, 스펙트럼의 상단 부분은 적절한 시간/주파수 영역 그리드(grid)를 사용함에 의한 주파수 의존 및 시간-의존 방법에서 에너지 값을 기술하는 SBR-파라미터와는 별개로, 전송되는 것이 요구되지 않는다. 그 결과로, 스펙트럼의 상단 부분은 전혀 전송되는 것이 요구되지 않는다. 재구성된 신호의 질을 더욱 개선할 수 있기 위해서, 추가적인 노이즈 기여 및 사인 곡선 기여가 스펙트럼의 상단 부분에서 더해질 수 있다.

약간 더욱 상세하기 위해서, 상기의 크로스오버(cross-over) 주파수에 대해서, 음성 신호가 QMF 필터뱅크(filterbank)(예를 들면, 32 또는 64)의 서브밴드의 수에 동등하거나 비례하는 인자에 의해 감소되는 시간 분해능을 갖는 특별한 서브밴드(subband)신호(예를 들면, 32 서브밴드 신호)의 수를 창조하는 QMF 필터뱅크(filterbank)(QMF=quadrature mirror filter)의 견지에서 분해된다. 결과적으로, 시간/주파수 그리드(grid)는 시간축 또는 더 많은 소위 포락선(envelope) 및, 각각의 포락선에 대해, 전형적으로 각각의 스펙트럼 상단 부를 기술하는 7 내지 16 에너지 값 상에서 포함되어 결정될 수 있다.

추가적으로, SBR-파라미터는 이전에 언급한 시간/주파수 그리드(grid)에 의한 그들의 힘에 대하여 약해진 또는 결정된 추가적인 노이즈 및 사인 곡선에 관한 정보를 포함할 수 있다.

현재의 프레임에 관한 지배적인 입력 데이터 스트림이 되는 SBR-기반 입력 데이터 스트림의 경우에서, 스펙트럼 성분과 더불어 각각의 SBR-파라미터를 복제하는 것이 수행될 수 있다. 만일, 다시 한번, 수신인이 SBR-기반 신호를 디코딩할 수 없다면, 주파수 영역으로의 각각의 재구성은 수신인의 요구에 따른 재구성된 신호를 인코딩에 따라서 수행될 수 있다.

SBR은 두 개의 코딩 스테레오 채널에 대해서 허용하기 때문에, 본 발명의 실시에 따른 커플링 채널(C)의 견지에서와 같이 코딩뿐만 아니라 좌측-채널 및 우측-채널을 분리하여 코딩하는 것, 각각의 SBR-파라미터 또는 적어도 그것의 부분을 복제하는 것은 비교의 결과 및 결정의 결과에 의존하여, SBR-파라미터의 C 요소를 양쪽, 결정되고 전송된 또는 그 역의 SBR-파라미터의 좌측 및 우측 요소에 복제하는 것을 포함할 수 있다.

더욱이, 본 발명의 다른 실시 예에 있어서, 입력 데이터 스트림은 하나 및 둘 각각의 개별적으로 포함하는 채널양쪽, 모노 및 스테레오 음성 신호를 포함할 수 있기 때문에, 스테레오 업믹스(upmix)에 모노 또는 모노 다운믹스(downmix)에 스테레오는 출력 데이터 스트림의 프레임의 대응하는 스펙트럼 성분의 정보를 생성할 때, 적어도 정보의 부분의 복제의 토대에서 추가적으로 수행될 수 있다.

앞서의 설명에서 보여주었듯이, 스펙트럼 정보 및/또는 스펙트럼 성분 및 스펙트럼 정보(예를 들면, TNS-파라미터, SBR-파라미터, PNS-파라미터)와 관련된 각각의 파라미터의 복제의 정도는 복제되기 위한 서로 다른 데이터의 수에 기반할 수 있고, 관련된 스펙트럼 정보 또는 그것의 조각이 복제되는 것이 또한 요구되지 어떤지 결정될 수 있다. 예를 들면, SBR-데이터를 복제하는 경우에서, 서로 다른 스펙트럼 성분에 대한 스펙트럼 정보를 복잡한 믹싱을 방지하기 위한 각각의 데이터 스트림의 전체 프레임을 복제하는 것이 유리할 수 있다. 이것들의 믹싱은 사실 양자화 노이즈를 감소할 수 있는 재양자화를 요구할 수 있다.

TNS-파라미터의 견지에서 재양자화를 방지하기 위하여 지배적인 입력 데이터 스트림으로부터 출력 데이터 스트림까지 전체 프레임의 스펙트럼 정보와 더불어 각각의 TNS-파라미터를 복제하는 것이 또한 유리하다.

PNS-기반 스펙트럼 정보의 경우에서, 관련된 스펙트럼 성분을 복제하지 않고 각각의 에너지 값을 복제하는 것은 실행가능한 방법이다. 게다가, 복수의 입력 데이터 스트림의 프레임의 지배적인 스펙트럼 성분으로부터 출력 데이터 스트림의 출력 프레임의 대응되는 성분까지 각각의 PNS-파라미터를 단지 복제함에 의한 경우에서 추가적인 양자화 노이즈를 도입함이 없이 발생한다. 이것은 PNS-파라미터의 형태로 에너지 값을 재양자화하는 것에 또한 의해, 추가적인 양자화 노이즈가 도입될 수 있다는 것에 주목되어야 한다.

전에 개시하였듯이, 상기 개시된 실시는 스펙트럼 정보의 소스가 되는 출력 데이터 스트림 정확하게 하나의 데이터 스트림의 출력 프레임의 스펙트럼 성분에 비해서, 비교에 근거하여, 다수의 입력 데이터 스트림과 비교 및 결정 후에 스펙트럼 성분에 관한 스펙트럼 정보를 단순하게 복제함에 의해 또한 실현될 수 있다.

사이코-어쿠스틱(psycho-acoustic) 모듈(950)의 토대 내에서 수행된 대체 알고리즘은 단지 하나의 능동적인 성분으로 스펙트럼 성분을 확인하기 위한 결과적인 신호의 관련된 스펙트럼 성분(예를 들면, 주파수 밴드)에 관한 각각의 스펙트럼 정보를 조사한다. 이러한 밴드에 대해서, 입력 비트 스트림의 각각의 입력 데이터의 양자화된 값은 특정한 스펙트럼 성분에 대한 각각의 스펙트럼 데이터를 재인코딩 또는 재양자화 없이 인코더로부터 복제될 수 있다. 어떤 상황하에서 모든 양자화된 데이터는 출력 비트 스트림 또는 출력 데이터 스트림을 형성하기 위해서 단일한 능동적 입력 신호로부터 취해질 수 있고 따라서 -장치(500)의 견지에서- 입력 데이터 스트림의 손실이 없는 코딩은 달성할 수 있다.

더욱이, 인코더 내부의 사이코-어쿠스틱(psycho-acoustic) 분해와 같은 프로세싱 단계를 생략하는 것이 가능할 수 있다. 이것은 인코딩 프로세스를 짧게 하는 것을 허용하고, 이에 의해, 계산의 복잡성을 감소하고, 원칙적으로, 어떤 상황하에서 하나의 비트 스트림으로부터 또 다른 비트 스트림 내부로의 복제하는 것만이 수행되어야만 하기 때문이다.

예를 들면, PNS 경우에서, PNS-코딩된 밴드의 노이즈 인자가 출력 데이터 스트림의 하나로부터 출력 데이터 스트림으로 복제될 수 있기 때문에 대체가 행해질 수 있다. 적절한 PNS-파라미터를 갖는 각각의 스펙트럼 성분을 대체하는 것이 가능하고, PNS-파라미터는 스펙트럼 성분 -특히, 또는 다른 말로 하면, 서로로부터 독립한 매우 좋은 근사인 것이다.

그러나, 두 개의 기술된 알고리즘의 공격적인 응용은 질에 있어서 질이 저하된 듣기 경험 또는 바람직하지 않은 감소를 생산하는 것이 일어날 수 있다. 그것은, 따라서, 각각의 스펙트럼 성분에 관한 스펙트럼 정보 라기보다는 각각의 프레임에 대체를 제한하기 위하여 유리할 수 있다. 대체 분석뿐만 아니라, 그러한 부적절 판단 또는 부적절 결정의 작동 모드에서 변하지 않게 수행될 수 있다. 그러나, 대체는, 이러한 동작의 모드에서, 능동적인 프레임 내의 스펙트럼 성분의 모든 또는 적어도 중요한 수가 대체 가능할 때 수행될 뿐 일 수 있다.

비록 이것은 더 적은 대체 수로 이끌지만, 스펙트럼 정보의 내부 강도가 어떤 상황에서 심지어 약간 개선된 질로 이끌면서 개선될 수 있다.

하기에서, 본 발명의 제 2 양상과 부합된 실시 예가 각각의 입력 데이터 스트림의 페이로드(payload) 데이터와 연관된 제어 값이 고려되는 것에 따라서 기술되고, 페이로드(payload) 데이터는 적어도 부분적으로 대응하는 스펙트럼 정보 또는 각각의 음성 신호의 스펙트럼 영역에서 나타내는 방법으로 가리키고, 거기에서, 두 개의 입력 데이터 스트림의 제어 값이 같은 경우에서, 출력 데이터 스트림의 각각의 프레임에서 스펙트럼 영역의 방법으로 새로운 결정이 피해지고, 대신에 출력 스트림 생성은 입력 데이터 스트림의 인코더에 의해 이미 결정된 결정에 의존한다. 하기에 기술된 약간의 실시 예에 부합하여, 각각의 페이로드(payload) 데이터를 시간/스펙트럼 샘플당 하나의 스펙트럼 값을 갖는 정상적이거나 평범한 방법과 같은 스펙트럼 영역을 대표하는 또 다른 방법으로 되돌아가 재변환하는 것은 방지된다.

전에 기술한 바와 같이, 본 발명에 따른 실시 예는 믹싱을 수행하는 것에 기초하고, 이것은 모든 인커밍 스트림이 디코드되는 의미에서 간단한 방법으로 행해지지 않고, 이것은 신호를 믹싱하고 재인코딩하는 시간-영역으로 역 전송을 포함한다. 본 발명에 따른 실시 예는 각각의 코덱의 주파수 영역에서 행해진 믹싱에 기반한다. 가능한 코덱은 AAL-ELD 코덱이 될 수 있고, 또는 균일한 전송 윈도우를 갖는 다른 코덱이 될 수 있다. 그런 경우에서, 시간/주파수 변환은 각각의 데이터를 믹스할 수 있는 것이 필요하다. 더욱이, 양자화 단계 크기 및 다른 파라미터와 같은 모든 비트 스트림 파라미터에 근접은 가능하고, 이러한 파라미터는 믹스된 출력 비트 스트림을 생성하기 위해 사용될 수 있다.

추가적으로, 스펙트럼 라인의 믹싱 또는 스펙트럼 성분에 관한 스펙트럼 정보는 소스 스펙트럼 선 또는 스펙트럼 정보의 가중된 합에 의해 수행될 수 있다. 가중된 인자는 제로 또는 하나가 될 수 있거나, 원리적으로, 사이의 어떤 값이 될 수 있다. 제로 값은 소스가 부적절하도록 다루어지고 전혀 사용할 수 없다는 것을 의미한다. 선의 그룹, 밴드 또는 스케일 인자 밴드와 같은, 은 동일한 가중 인자를 사용할 수 있다. 가중 인자 (예를 들면, 제로 및 하나의 분배)는 하나의 입력 데이터 스트림의 단일 프레임의 스펙트럼 성분에 대해서 변화할 수 있다. 하기에서 기술된 실시 예는 결코 스펙트럼 정보를 믹싱할 때 제로 또는 하나의 가중 인자를 배타적으로 사용하는 것이 요구되지 않는다. 어떤 상황하에서, 입력 데이터 프레임의 단일, 하나, 복수의 전반적인 스펙트럼 정보가 아니고, 각각의 가중 인자는 제로 또는 하나와 다를 수 있다.

하나의 특별한 경우는 모든 밴드 또는 하나의 소스(입력 데이터 스트림)의 스펙트럼 성분이 하나의 인자으로 설정되고 모든 다른 소스의 인자이 제로로 설정되는 경우이다. 이러한 경우에서, 한 명의 참가자는 완전한 입력 비트 스트림이 최족적인 믹스된 비트 스트림으로써 동일하게 복제될 수 있다. 가중 인자는 프레임간 기초로 계산될 수 있고, 또한 더 긴 그룹 또는 프레임의 연속에 기초하여 계산되거나 결정될 수 있다. 자연스럽게, 심지어 그러한 일련의 프레임 또는 단일 프레임의 내부에, 가중 인자는 상기에서 개시되었듯이 다른 스펙트럼 성분에 대해 다를 수 있다. 가중 인자는, 어떤 실시 예에서, 사이코-어쿠스틱(psycho-acoustic) 모델의 결과에 따라서 계산되거나 결정될 수 있다.

그러한 비교는, 예를 들면, 약간의 입력 스트림 만이 포함된 믹스된 신호와 완전히 믹스된 신호 사이에서 에너지 비율의 전개에 기반하여 행해진다. 이것은, 예를 들면, 상기의 수학식 3 내지 5와 관련하여 기술된 바와 같이 달성될 수 있다. 다른 말로 하면, 사이코-어쿠스틱(psycho-acoustic) 모델은 에너지 값 E_f를 이끄는 약간의 입력 스트림 만이 포함되고 에너지 값 E_c를 갖는 완전히 믹스된 신호 사이에서 에너지 비율 r(n)을 계산할 수 있다. 에너지 비율 r(n)은 수학식 5에 따라서 그 때 계산되고 E_c 에 의해 나누어진 E_f의 로그에 20 배이다.

이에 따라서, 도 6 내지 8과 관련한 상기 실시 예의 기술과 유사하게 만일 비율이 충분히 높다면, 덜 지배적인 채널은 지배적인 것에 의해 마스크되도록 간주될 수 있다. 따라서, 부적절 감소는 모든 다른 스트림 - 하나의 스펙트럼 성분의 적어도 하나의 스펙트럼 정보 - 이 버려지는 동안, 전혀 알 수 없는 하나의 가중 인자에 속하는 그러한 스트림만이 포함된다는 것을 의미하는 것으로 프로세스 된다. 다른 말로 하면, 그러한 제로의 가중 인자에 속한다.

이것은 재양자화 단계의 감소된 수로 인한 더 적은 또는 전혀 탠덤(tandem) 코딩 효과가 발생하지 않는다는 추가적인 이점이 생길 수 있다. 각각의 양자화 단계는 감소된 추가적인 양자화 노이즈의 상당한 위험을 견디고, 전반적인 음성 신호의 질은, 따라서, 개선된다. 상기 언급한 도 6 내지 8의 실시 예와 유사하게, 하기에 기술된 실시 예는 예를 들면, 두 명보다 많은 참가자를 갖는 원격/화상 컨퍼런싱 시스템이 될 수 있는 컨퍼런싱 시스템으로 사용될 수 있고, 시간-영역 믹싱과 비교하여 덜 복잡하다는 이점을 제공할 수 있고, 시간-주파수 전송 단계 및 재-인코딩(re-encoding) 단계가 생략될 수 있다. 더욱이, 또 다른 지연은 필터뱅크(filterbank) 지연의 부재로 인한 시간-영역에서 믹싱된 것과 비교한 그러한 성분에 의해 야기되지 않는다.

도 9는 본 발명의 실시에 따른 입력 데이터 스트림의 믹싱을 위한 장치(500)의 단순화된 블록 다이어그램을 나타낸다. 참조 기호의 대부분은 이해가 쉽고 중복한 설명을 피하기 위해 도 6 내지 8의 실시 예로부터 채택되었다. 다른 참조 기호는 동일한 기능이 도 6 내지 8의 상기 실시 예와 비교하여 다르게 -필적할 만한 측면의 통상적인 기능이 아닌 추가적인 기능 또는 대안적인 기능- 정의되어서 나타내기 위하여 1000 단위로 증가되었다.

제 1 입력 데이터 스트림(510-1) 및 제 2 입력 데이터 스트림(510-2)에 기반하여, 장치(1500)에 포함된 프로세싱 유닛(1520)은 출력 데이터 스트림을 생성하기 위해 채택되었다. 제 1 및 제 2 입력 데이터 스트림(510)은 각각 프레임(540-1, 540-2)를 각각 포함하고, 이것은 각각 제어 값(1545-1, 1542-2)를 각각 포함하고, 이것은 프레임(540)의 페이로드(payload) 데이터가 적어도 일 부분의 스펙트럼 영역 또는 음성 신호의 스펙트럼 정보를 나타내는 방법을 가리킨다.

출력 데이터 스트림(530)은 또한 출력 프레임(550)의 페이로드(payload) 데이터가 출력 데이터 스트림(530)에서 인코딩된 음성 신호의 스펙트럼 영역에서 스펙트럼 정보를 나타내는 방식과 유사하게 가리키는 제어 값(555)을 갖는 출력 프레임(1550)을 또한 포함한다.

장치(1500)의 프로세싱 유닛(1520)은 비교 결과를 산출하기 위해서 제 1 입력 데이터 스트림(510-1)의 프레임(540-1)의 제어 값(1545-1) 및 제 2 입력 데이터 스트림(510-2)의 프레임(540-2)의 제어 값(1545-2)을 비교하기 위해 채택된다. 이러한 비교에 근거하여, 프로세싱 유닛(1520)은 출력 프레임(550)을 포함하는 출력 데이터 스트림(530)을 생산하기 위하여 더 채택되는데, 이것은 비교 결과가 제 1 및 제 2 입력 데이터 스트림(510)의 프레임(540)의 제어 값(1545)이 일치하거나 동일할 때, 출력 프레임(550)이 두 개의 입력 데이터 스트림(510)의 프레임(540)의 제어 값(1545)의 그것과 동등한 제어 값(1545)으로써 구성된다. 출력 프레임(550)에서 포함된 페이로드(payload) 데이터는 시간-영역으로 들어가지 않고 스펙트럼 영역에서 프로세싱에 의해 프레임(540)의 동일한 제어 값(1545)과 관련하여 상응하는 프레임(540)의 페이로드(payload) 데이터로부터 얻어진다.

만일, 예를 들면, 제어 값(1545)은 하나 또는 그 이상의 스펙트럼 성분의 스펙트럼 정보의 특별한 코딩을 가리키고, 두 개의 입력 데이터 스트림의 각각의 제어 값(1545)이 동일하다면, 그 때 동일한 스펙트럼 성분 또는 스펙트럼 성분에 대응하는 출력 프레임(550)의 대응하는 스펙트럼 정보는 심지어 직접 스펙트럼 영역에서 상응하는 페이로드(payload) 데이터의 프로세싱에 의해 얻어질 수 있고, 즉 스펙트럼 영역의 남기지 않는 종류의 표시에 의한다. 하기에서 개시되는 바와 같이, PNS-기반 스펙트럼 표시의 경우에서, 이것은 각각의 PNS-데이터를 요약함에 의해 달성될 수 있고, 선택적으로 표준화 프로세스에 의해 달성된다. 즉, 입력 데이터 스트림 중의 어느 하나의 PNS-데이터는 스펙트럼 샘플당 하나의 값으로 평범한 표시 뒤로 전환되지 않는다.

도 10은 프로세싱 유닛(1520)의 내부 구조와 관련하여 주로 도 9와는 다른 장치(1500)의 더욱 상세한 다이어그램을 나타낸다. 구체적으로, 프로세싱 유닛(1520)은 비교측정기(1560)를 포함하고, 이것은 제 1 및 제 2 입력 데이터 스트림(510)을 위한 적절한 입력에 결합되고, 그들의 각각의 프레임(540)의 제어 값(1545)을 비교하기 위해 채택된다. 입력 데이터 스트림은 더욱이 임의적인 변압기(1570-1, 1570-2)에 제공되는데, 두 개의 입력 데이터 스트림(510)의 각각에 대한 것이다. 비교측정기(1560)는 같은 것을 비교 결과로 제공하기 위해 임의적 변압기(1570)에 또한 결합된다.

프로세싱 유닛(1520)은 믹서(1580)를 더 포함하고, 이것은 임의적 변압기(570)에 입력-와이즈(wise) 결합된다. 또는 하나 또는 그 이상의 변압기(1570)는 구현되지 않는 경우에서- 입력 데이터 스트림(510)을 위한 상응하는 입력에 입력-와이즈 결합된다. 믹서(1580)는 임의 노멀라이저(normalizer)(1590)에 출력으로 결합되고, 만일, 프로세싱 유닛(1520)의 출력 및 출력 데이터 스트림(530)을 제공하기 위한 장치(1500)의 그것과 함께, 구현된다면, 교대로 결합된다.

전에 개시한 바와 같이, 비교측정기(1560)는 두 개의 입력 데이터 스트림(510)의 프레임(1540)의 제어 값을 비교하기 위해 채택된다. 비교측정기(1560)는, 만일 구현된다면, 각각의 프레임(540)의 제어 값(1545)이 동일하거나 그렇지 않은지를 가리키는 신호와 함께 변압기(1570)를 제공한다. 만일 비교 결과를 나타내는 신호가 두 개의 제어 값(1545)이, 적어도 하나의 스펙트럼 성분과 관련하여, 동일하거나 또는 동등하다는 것을 가리킨다면, 변압기(1570)는 프레임(540)에서 포함된 각각의 페이로드(payload) 데이터를 변환하지 않는다.

입력 데이터 스트림(510)의 프레임(540) 내부에 포함된 페이로드(payload) 데이터는 믹서(1580) 및 만일 구현된다면, 결과적인 값이 허용가능한 범위 값보다 더 나가거나, 덜 나가는지 않을 것을 보증하기 위하여 표준화 단계를 수행할 노멀라이저(normalizer)(1590)로의 출력에 의해 믹스될 것이다. 믹싱 페이로드(payload) 데이터의 예는 도 12a 내지 12c 의 맥락에서 하기에서 더욱 상세하게 설명될 것이다.

노멀라이저(1590)는 각각의 값에 따른 페이로드(payload) 데이터를 재양자화 하기에 적합한 양자화기로써 구현될 수 있고, 바람직하게는, 구체적인 그것의 구현에 근거하여, 노멀라이저(1590)는 양자화 분배 또는 최소값 또는 최대값 양자화 수준의 절대치를 나타내는 스케일 인자를 단지 바꾸기에 또한 적합할 수 있다.

비교측정기(1560)가 제어 값(1545)이, 적어도 하나 또는 그 이상의 스펙트럼 성분과 다르고, 비교측정기(1560)가 하나 또는 변압기(1570) 둘 모두에 다른 입력 데이터 스트림의 그것에 입력 데이터 스트림(510)의 적어도 하나의 페이로드(payload) 데이터를 변환하기 위한 각각의 변압기(1570)를 가리키는 각각의 제어 신호를 제공할 수 있다. 이러한 경우에, 변압기는 변환된 프레임의 제어 값을 동시에 변화시키기에 적합할 수 있고, 믹서(1580)는 두 개의 입력 데이터 스트림의 프레임(540)의 그것과 동등하게 되는 제어 값(1555)을 갖는 출력 데이터 스트림(530)의 출력 프레임(550)을 생성할 수 있고, 이것은 변환되지 않거나, 양 쪽 프레임(540)의 페이로드(payload) 데이터를 갖는다.

PNS-구현, SBR-구현, 및 M/S-구현 각각과 같은 다른 응용에 대해 도 12a 내지 12c의 맥락에서 하기에서 더욱 상세한 예가 기술될 것이다.

도 9 내지 12c의 실시 예는 도 9, 10 및 다가오는 도 11에서 도시된 두 개의 입력 데이터 스트림(1510-1, 1510-2)에 절대 제한되지 않는다는 것을 지적해야만 한다. 다소, 동일한 것이 둘 이상의 입력 데이터 스트림(510)을 포함하는 복수의 입력 데이터 스트림을 프로세스에 적합할 수 있다. 이런 경우에서, 비교측정기(1560)는, 예를 들면, 입력 데이터 스트림(510)의 적절한 수 및 그 안에 포함된 프레임(540)을 비교하기에 적합할 수 있다. 더욱이, 구체적인 구현에 의거하여, 적절한 변압기(1570)의 수는 또한 구현될 수 있다. 선택적 노멀라이저(1590)와 함께 믹서(1580)는 프로세스되는 데이터 스트림의 증가된 수에 결과적으로 적합할 수 있다.

단지 둘 이상의 입력 데이터 스트림(510)의 경우에서, 비교측정기(1560)는 하나 또는 그 이상의 임의적으로 구현된 변압기(1570)에 의해 변환하는 단계가 수행되는지에 대하여 결정하는 입력 데이터 스트림(510)의 모든 적절한 제어 값(1545)을 비교하기에 적합할 수 있다. 바람직하게는 또는 추가적으로, 비교측정기(1560)는, 비교 결과가 페이로드(payload) 데이터의 표시의 통상의 방법에 대한 변환이 달성가능한지를 가리킬 때, 변압기(1570)에 의하여 변환된 일련의 입력 데이터 스트림을 결정하기에 또한 적합할 수 있다. 예를 들면, 만일 포함된 페이로드(payload) 데이터의 다른 표시가 어떤 표시를 요구하지 않는다면, 비교측정기(1560)는 예컨대, 그런 방법으로 전반적인 복잡성을 최소화하는 것에 대해 변압기(1570)를 동작시키기에 적합할 수 있다. 이것은, 예를 들면, 비교측정기(1560) 내부에 저장된 또는 다른 방법으로 비교측정기(1560)에 사용가능한 복잡한 값의 미리 결정된 어림에 근거하여 달성될 수 있다.

더욱이, 변압기(1570)는 예를 들면, 주파수 영역으로 변환이 선택적으로 요구에 의해 믹서(1580)에 의해 수행될 수 있을 때 결과적으로 생략할 수 있다는 것을 주목해야 한다. 바람직하게는, 또는 추가적으로, 변압기(1570)의 기능은 또한 믹서(1580)에 포함될 수 있다.

더욱이, 프레임(540)은 퍼셉츄얼 노이즈 서브스티튜션(perceptual noise substitution, PNS), 템포럴 노이즈 셰이핑(temporal noise shaping, TNS), 및 스테레오 코딩의 모드와 같은 하나 이상의 제어 값을 포함할 수 있다는 것에 주목해야 한다. PNS 파라미터, TNS 파라미터 또는 스테레오 코딩 파라미터 중의 적어도 하나를 프로세싱할 수 있는 장치의 동작을 기술하기 전에, 도 8은 프로세싱 유닛(520, 1520)이 각각 도 9 및 10과 관련하여 기술된 기능을 수행하기에 적합할 수 있는 제 1 및 제 2 입력 데이터 스트림으로부터 출력 데이터 스트림을 생성하기 위한 실시를 이미 나타내는 것을 보여주기 위해서 참조 기호가 500 및 520을 사용하는 대신에 각각 1500 및 1520으로 도 8에 상응하는 도 11은 참조할 수 있다. 특히, 프로세싱 유닛(1520) 내부에, 스펙트럼 믹서(810), 적정화 모듈(820), 및 SBR 믹서(830)을 포함하는 믹싱 유닛(800)은 미리 기술된 도 9 및 10과 관련하여 설정된 기능을 수행한다. 앞서 지적한 바와 같이, 입력 데이터 스트림의 프레임에서 포함된 제어 값은 PNS-파라미터, SBR-파라미터, 또는 스테레오 인코딩, 다른 말로 하면, M/S-파라미터와 관련된 제어 데이터가 동등하게 잘 될 수 있다. 각각의 제어 값이 같거나 동일한 경우에서, 믹싱 유닛(800)은 출력 데이터 스트림의 출력 프레임 내로 포함되어 더 프로세스되는 상응하는 페이로드(payload) 데이터를 야기하기 위한 페이로드(payload) 데이터를 프로세스할 수 있다. 이 점에 관하여, 미리 상기에서 언급한 바와 같이, SBR은 두 개의 코딩 스테레오 채널을 혀용하기 때문에, 각각의 SBR-파라미터 또는 적어도 그것의 부분을 프로세싱하는 본 발명의 실시에 따른 커플링 채널(C)의 견지에서 똑같은 코딩 뿐만 아니라, 좌측 및 우측 채널 각각 코딩은 비교 및 결정의 결과에 근거하여, SBR 파라미터의 C 요소를 양쪽, SBR 파라미터의 좌측 및 우측 요소 또는 그 역의 경우를 프로세싱하는 것을 포함할 수 있다. 유사하게, 스펙트럼 정보 및/또는 스펙트럼 성분 및 스펙트럼 정보(예를 들면, TNS-파라미터, SBR-파라미터, PNS-파라미터)와 연관된 각각의 파라미터의 프로세싱 정도는 프로세스되기 위한 데이터의 서로 다른 수에 기초할 수 있고, 내포된 스펙트럼 정보 또는 그것의 조각이 또한 디코드되는 것이 또한 요구되는 여부를 결정할 수 있다. 예를 들면, SBR-데이터를 복제하는 경우에, 서로 다른 스펙트럼 성분에 대해 복잡한 스펙트럼 정보 믹싱을 방지하기 위한 각각의 데이터 스트림의 전체 프레임을 프로세스하기에 유리할 수 있다. 이들을 믹싱하는 것은 사실 양자화 노이즈를 감소시킬 수 있는 재양자화를 요구할 수 있다. TNS-파라미터의 견지에서, 재양자화를 방지하기 위해서 지배적인 입력 데이터 스트림으로부터 출력 데이터 스트림까지 전체 프레임의 스펙트럼 정보와 함께 각각의 TNS-파라미터를 분해하는 것이 또한 유리할 수 있다. PNS-기반 스펙트럼 정보의 경우에서, 내포된 스펙트럼 성분을 복제함 없이 각각의 에너지 값을 프로세싱하는 것은 실행가능한 방법이 될 수 있다. 더욱이, 복수의 입력 데이터 스트림의 프레임의 지배적인 스펙트럼 성분으로부터 출력 데이터 스트림의 출력 프레임의 상응하는 스펙트럼 성분까지 각각의 PNS-파라미터만의 프로세싱에 의한 경우에서 추가적인 양자화 노이즈 없이 발생한다. PNS-파라미터의 형태에서 에너지값을 또한 재양자화함에 의해 추가적인 양자화 노이즈가 도입될 수 있다는 것을 주목해야만 한다.

도 12A 내지 12C와 관련하여, 각각의 제어 값의 비교에 기초하여 페이로드(payload) 데이터의 믹싱의 세가지 다른 모드는 도욱 상세하게 기술될 것이다. 도 12a는 본 발명의 실시에 따른 장치(500)의 PNS-기반 구현의 예를 나타내고, 반면에 도 12b는 유사한 SBR-구현 및 도 12c는 그것의 M/S구현을 나타낸다.

도 12a는 적절한 입력 프레임(540-1, 540-2) 및 각각의 제어 값(545-1, 545-2)를 갖는 각각의 제 1 및 제 2 입력 데이터 스트림(510-1, 510-2)을 포함하고 있는 예를 나타낸다. 도 11a의 화살표에 의해 지시된 바와 같이, 입력 데이터 스트림(510)의 프레임(540)의 제어 값(1545)은 스펙트럼 성분이 스펙트럼 정보 견지에서 간접적으로 기술된 것이 아니고, 노이즈 소스 또는 다른 말로 하면, 적절한 PNS-파라미터의 견지에서 기술된 것을 나타낸다. 더욱 상세하게, 도 12a는 제 1 PNS-파라미터(2000-1) 및, PNS-파라미터(2000-2)를 포함하는 제 2 입력 데이터 스트림(510-2)의 프레임(540-2)을 나타낸다.

도 12a와 관련하여 가정된 바와 같이, 두 개의 입력 데이터 스트림(510)의 두 개의 프레임(540)의 제어 값(1545)은 각각의 PNS-파라미터(2000)에 의해 구체적인 스펙트럼 성분이 대체된다는 것을 나타내기 때문에, 이전에 기술한 바와 같이, 프로세싱 유닛(1520) 및 장치(1500)는 출력 데이터 스트림(530) 안으로 포함되기 위한 출력 프레임(550)의 PNS-파라미터(2000-3)에 도착하기 위한 두 개의 PNS-파라미터(2000-1, 2000-2)을 믹싱할 수 있다. 출력 프레임(550)의 각각의 제어 값(1555)은 본질적으로 각각의 스펙트럼 성분이 믹스된 PNS-파라미터(2000-3)에 의해 대체된다는 것을 또한 가리킨다. 이 믹싱 프로세스는 각각의 프레임(540-1, 540-2)의 결합된 PNS-파라미터가 되는 바와 같이 PNS-파라미터(2000-3)를 나타냄에 의해 도 12a에서 나타난다.

그러나, PNS-파라미터(2000-3)의 결정은 이것은 또한 PNS-출력 파라미터로 언급되는데, 하기에 따른 직선 조합에 근거하여 또한 실현될 수 있다.

여기에서 PNS(i)는 입력 데이터 스트림 i의 각각의 PNS-파라미터이고, N은 믹스되는 입력 데이터 스트림의 수이고, a_i는 적절한 가중 인자이다. 구체적인 구현에 의거하여, 가중 인자 a_i는 다음과 같이 동등하게 선택될 수 있다.

간단한 구현은, 도 12a에서 나타나듯이, 모든 가중 파라미터 a_i가 1과 같을 때, 다시말하면, 하기와 같은 경우가 될 수 있다.

도 10에 도시된 노멀라이저(1590)는 생략되는 경우에, 가중 인자는 다음과 같은 식으로 1/N 으로 같도록 동등하게 잘 정의될 수 있다.

파라미터 N은 여기에서 믹스되기 위한 입력 데이터 스트림의 수이고, 장치(1500)에 제공된 입력 데이터 스트림의 수는 비슷한 수이다. 단순함을 위해서, 가중 인자 a_i의 견지에서 또한 서로 다른 표준화가 구현될 수 있다는 것을 주목해야만 한다.

다른 말로 하면, 참가자 측 상의 동작되는 PNS 수단의 경우에서, 노이즈 에너지 인자는 스펙트럼 성분(예를 들면 스펙트럼 밴드) 안에서 양자화된 데이터와 더불어 적절한 스케일 인자를 대체한다. 이러한 인자를 제쳐놓고, PNS 수단에 의한 출력 데이터 스트림 내부로 더 이상의 데이터는 제공되지 않을 것이다. PNS-스펙트럼 성분을 믹싱하는 경우에, 두 개의 명백한 경우가 올 수 있다.

상기에서 기술한 바와 같이, 적절한 입력 데이터 스트림의 모든 프레임(540)의 각각의 스펙트럼 성분이 PNS-파라미터의 견지에서 각각 표현되는 때이다. 주파수 성분(예를 들면, 주파수 밴드)의 PNS-관련 기술의 주파수 데이터가 노이즈 에너지 인자(PNS-파라미터)로부터 직접 얻어지고, 적절한 인자는 각각의 값을 단순히 더함에 의해 믹스될 수 있다. 믹스된 PNS-파라미터는 수신인측에서의 PNS-디코더 내부에서 다른 스펙트럼 성분의 순수한 스펙트럼 값으로 믹스된 상당한 주파수 분해능을 그 때 야기할 것이다. 노멀라이징 프로세스가 믹싱 동안에 사용되는 경우에서, 가중 인자 a_i의 견지에서 유사한 표준화 인자를 구현하는 것이 도움이 될 수 있다. 예를 들면, 1/N에 비례하는 노멀라이징은 가중 인자 a_i가 수학식 9에 따라서 선택될 수 있다.

적어도 하나의 입력 데이터 스트림(510)의 제어 값(1545)이 스펙트럼 성분과 관련하여 다른 경우에서, 만일 각각의 입력 데이터 스트림이 낮은 에너지 수준으로 인하여 버려져야만 한다면, 스펙트럼 정보 또는 PNS 파라미터에 기반한 스펙트럼 데이터를 생성하기 위해서, 적정화 모듈(820)의 토대 내에서 PNS-파라미터의 믹싱을 대신하여 믹싱 유닛의 스펙트럼 믹서(810)의 토대 내에서 각각의 데이터를 믹스하기 위해서 도 11에서 도시된 PNS 디코더가 유리할 수 있다.

서로 서로에 관련하여 PNS-스펙트럼 성분의 독립으로 인하여, 입력 데이터 스트림 뿐만 아니라 출력 데이터 스트림의 전체적으로 정의된 파라미터에 관련하여, 믹싱 방법의 선택은 밴드-와이즈 기초로 채택될 수 있다. 그러한 PNS-기반 믹싱은 가능하지 않은 경우에, 스펙트럼 영역에서 믹싱 후에 PNS-인코더에 의해 각각의 스펙트럼 성분을 재인코딩을 고려하는 것이 바람직할 수 있다.

도 12b는 본 발명의 실시에 따른 실시의 동작 원리의 다른 예를 나타낸다. 더욱 상세하기 위해서, 도 12b는 적절한 프레임(540-1, 540-2)을 갖는 두 개의 입력 데이터 스트림(510-1, 510-2) 및 그들의 제어 값(1545-1, 1545-2)의 경우를 나타낸다. 프레임(540)은 소위 크로스-오버(cross-over) 주파수 f_x라 불리는 상기 스펙트럼 성분에 대한 SBR 데이터를 포함한다. 제어 값(1545)은 SBR-파라미터가 적어도 사용되는지에 관한 정보를 포함하고, 실제적인 프레임 그리드(grid) 또는 시간/주파수 그리드(grid)에 관한 정보를 포함한다.

상기에서 개시된 바와 같이, SBR 수단은 다르게 인코드된 스펙트럼의 더 낮은 부분을 복제함에 의해 스펙트럼의 크로스-오버(cross-over) 주파수 f_x 위의 상부 스펙트럼 밴드에서 복제한다. SBR 수단은 또한 더 스펙트럼 정보를 포함하는 입력 데이터 스트림(510)의 프레임(540)에 상당하는 각각의 SBR 프레임에 대한 수많은 시간대를 결정한다. 시간대는 작은 동등하게 차지한 주파수 밴드 또는 스펙트럼 성분에서 SBR 수단의 주파수 영역을 분리한다. SBR 프레임에서 이러한 주파수 밴드의 수는 송신자 또는 인코딩 전의 SBR 수단에 의해 결정될 것이다. MPEG-4 AAC-ELD의 경우에서, 시간대의 수는 16으로 고정된다.

시간대는 소위 포락선 내에서 현재 포함되고, 각각의 포락선은 각각의 그룹을 형성하는 적어도 둘 이상의 시간대를 포함한다. 각각의 포락선은 수 많은 SBR 주파수 데이터의 수에 속한다. 프레임 그리드(grid) 또는 시간/주파수 그리드(grid) 내에서, 각각의 포락선의 시간대의 유닛 내에서 수 및 길이는 저장된다.

각각의 포락선의 주파수 분해능은 얼마나 많은 SBR 에너지 데이터가 포락선에 대해서 계산되고 거기에 관해서 저장되는지를 결정한다. SBR 수단은 높고 낮은 분해능 사이에서만 다르고, 그 안에서 고분해능을 포함하는 포락선이 저분해능을 갖는 포락선 값의 두 배를 포함한다. 높은 또는 낮은 분해능을 포함하는 포락선에 대한 주파수 값 또는 스펙트럼 성분의 수는 비트율, 샘플링 주파수 등과 같은 인코더의 파라미터에 더 의존한다.

MPEG-4 AAC ELD의 맥락에서 SBR 수단은 고분해능을 갖는 포락선에 관한 16 내지 14 값을 종종 이용한다.

주파수에 관한 에너지 값의 적절한 숫자를 갖는 프레임(540)의 동적인 분할로 인하여, 과신호가 고려될 수 있다. 과신호가 프레임 내에서 현존하는 경우에서, SBR 인코더는 포락선의 적절한 수에서 각각의 프레임을 분할한다. 이러한 분배는 AAC-ELD 코덱에서 사용되는 SBR 수단의 경우에서 표준화되고, 시간대의 유닛에서 과신호 트랜스포즈(transpose)의 위치에 의존한다. 많은 경우에서, 결과적인 그리드(grid) 프레임 또는 시간/주파수 그리드(grid)는 과신호가 현존할 때 세 개의 포락선을 포함한다. 제 1 포락선, 시작 포락선은 트랜스포즈(transpose)-1에 제로 타임대 지수를 갖는 과신호를 받는 시간대까지 프레임의 시작을 포함한다. 제 2 포락선은 트랜스포즈(transpose)+2에 시간대 지수 트랜스포즈(transpose)로부터 과신호를 에워싸는 두 개의 시간대의 길이를 포함한다. 제 3 포락선은 16에 지수 트랜스포즈(transpose)+3을 갖는 모든 남아있는 시간대를 포함한다.

그러나, 포락선의 최소한 길이는 두 개의 시간대이다. 그 결과로, 프레임 경계 옆의 과신호를 포함하는 프레임은 결과적으로 두 개의 포락선을 포함할 수 있다. 과신호가 프레임 내에서 현존하지 않는 경우에서, 시간대는 동등하게 긴 포락선에 걸쳐서 분포된다.

도 12b는 프레임(540) 내부에서 그러한 시간/주파수 그리드(grid) 또는 프레임 그리드(grid)를 나타낸다. 제어 값(1545)은 같은 SBR 시간 그리드(grid) 또는 시간/주파수 그리드(grid)가 두 개의 프레임(540-1, 540-2) 내에서 현존하는 것을 가리키는 경우에서, 각각의 SBR 데이터는 상기 수학식 6 내지 9의 맥락에서 기술된 방법과 유사하게 복제될 수 있다. 다른 말로 하면, 도 11에서 도시된 SBR 믹싱 수단 또는 SBR 믹서(830)의 경우에서 시간/주파수 그리드(grid) 또는 각각의 입력 프레임의 프레임 그리드(grid)를 출력 프레임(550)에 복제할 수 있고, 수학식 6 내지 9와 유사하게 각각의 에너지 값을 계산할 수 있다. 또 다른 말로 하면, 프레임 그리드(grid)의 SBR 에너지 데이터는 각각의 데이터를 단순히 더함에 의해 믹스될 수 있고, 선택적으로, 각각의 데이터를 노멀라이징함에 의해 믹스된다.

도 12c는 본 발명에 따른 실시의 동작 모드의 다른 예를 나타낸다. 더욱 상세하기 위해서, 도 12는 M/S-구현을 나타낸다. 한번 다시, 도 12c는 두 개의 프레임(540)과 더불어 두 개의 입력 데이터 스트림(510)을 나타내고, 페이로드(payload) 데이터 프레임(540)이 나타내는 방법을, 그것의 적어도 하나의 스펙트럼 성분과 적어도 관련된, 가리키는 연관된 제어 값(545)을 나타낸다.

프레임(540) 각각은 두 개의 채널, 제 1 채널(2020) 및 제 2 채널(2030)의 음성 데이터 또는 스펙트럼 성분을 포함한다. 각각의 프레임(540), 제 1 채널(2020)의 제어 값(1545)에 의존하는 것은, 예를 들면, 좌측 채널 또는 중간 채널이 될 수 있고, 반면에, 제 2 채널(2030)이 스테레오 신호의 우측 채널 또는 측면 채널이 될 수 있다. 인코딩 모드의 첫번째는 종종 LR-모드로써 종종 언급되고, 반면에 제 2 모드는 종종 M/S-모드로써 언급된다.

M/S 모드에서, 이것은 때때로 또한 조인트(joint) 스테레오로써 언급되고, 중간 채널(M)은 좌측 채널(L) 및 우측 채널(R)의 합에 비례함으로써 정의된다. 종종, 추가 인자의 1/2가 정의에서 포함되고, 그것은 중간-채널이 양쪽, 시간 영역 및 주파수 영역, 에서 두개의 스테레오 채널의 평균값으로 포함된다.

측면 채널은 두 개의 스테레오 채널의 상이점에 비례하도록, 말하자면, 좌측 채널(L) 및 우측 채널(R)의 상이점에 비례하도록 전형적으로 정의된다. 때때로 또한 추가적인 인자 1/2는 측면 채널이 실제적으로 스테레오 신호의 두 개의 채널 사이에서의 편차, 또는 중간 채널로부터의 편차의 절반을 나타내도록 포함된다. 이에 따라서, 좌측 채널은 중간 채널 및 측면 체낼을 더함에 의해 재구성될 수 있고, 반면에 우측 채널은 중간 채널로부터 측면 채널을 뺌으로써 얻어질 수 있다.

프레임(540-1) 및 프레임(540-2)에 대해서 동일한 스테레오 인코딩(L/R 또는 M/S)가 사용되는 경우에서, 프레임 내의 포함된 채널의 재전송은 각각의 L/R- 또는 M/S- 인코딩된 영역에서 직접 믹싱을 허용하여 생략될 수 있다.

이러한 경우에서, 믹싱은 두 개의 프레임(540)의 제어 값(1545-1, 1545-2)에 상당하는 값의 각각의 제어 값(1555)을 갖는 출력 데이터 스트림(530) 안에서 포함된 프레임(550)을 이끄는 주파수 영역에서 직접적으로 다시 한번 수행될 수 있다. 출력 프레임(550)은 이에 상응하여, 입력 데이터 스트림의 프레임의 제 1 및 제 2 채널로부터 얻어진 두 개의 채널(2020-3, 2030-3)을 포함한다.

두 개의 프레임(540)의 제어 값(1545-1, 1545-2)이 같지 않은 경우에서는, 프레임의 하나가 상기 기술한 프로세스에 기반한 다른 표시로 전송하는 것이 유리할 수 있다. 출력 프레임(550)의 제어 값(1555)은 전송된 프레임을 보여주는 값에 따라서 설정될 수 있다.

본 발명의 실시 예에 따르면, 각각 전체 프레임(540, 550)의 나타냄을 표시하는 제어 값(1545, 1555)에 대해 가능하거나, 각각의 제어 값이 주파수 성분-특정이 될 수 있다. 첫 번째 경우에 있어서 채널(2020, 2030)은 구체적인 방법 중의 어느 하나에 의해 전체 프레임에 대해서 인코드되는 동안에, 두 번째 경우에서, 원칙적으로, 스펙트럼 성분에 관련된 스펙트럼 정보의 각각은 서로 다르게 인코드될 수 있다. 자연적으로, 스펙트럼 성분의 서브그룹은 제어 값(1545) 중의 어느 하나에 의해 또한 기술될 수 있다.

추가적으로, 대체 알고리즘은 단지 하나의 능동 성분을 갖는 스펙트럼 성분을 확인하기 위하여 결과적인 신호의 내포된 스펙트럼 성분(예를 들면, 주파수 밴드)에 대한 스펙트럼 정보의 각각을 조사하기 위하여 사이코-어쿠스틱(psycho-acoustic) 모듈(950)의 토대 내에서 수행될 수 있다. 이러한 밴드를 위해, 입력 비트 스트림의 각각의 입력 데이터 스트림의 양자화된 값은 인코더로부터 특정한 스펙트럼 성분에 대한 각각의 스펙트럼 데이터의 재인코딩 또는 재양자화 없이 복제될 수 있다. 어떤 상황하에서, 모든 양자화된 데이터는 단일 능동적 입력 신호로부터 출력 비트 스트림 또는 출력 데이터 스트림을 형성하기 위해서 취해질 수 있고, 따라서 -장치(1500)의 견지에서- 입력 데이터 스트림의 손실 없는 코딩은 달성 가능하다.

더욱이, 인코더 내부에 사이코-어쿠스틱(psycho-acoustic) 분석과 같은 프로세싱 단계를 생략하는 것이 가능할 수 있다. 이것은 인코딩 프로세스를 단축하는 것을 허용하고, 이에 의해, 계산의 복잡을 감소하고, 원칙적으로, 하나의 비트 스트림으로부터 또 다른 비트 스트림 안으로 데이터를 단순히 복제하는 것이 어떤 상황하에서 수행될 수 있다.

예를 들면, PNS의 경우에서, PNS-코딩된 밴드의 노이즈 인자가 출력 데이터 스트림 중의 하나로부터 출력 데이터 스트림까지 복제될 수 있기 때문에 대체는 수행될 수 있다. PNS-파라미터가 스펙트럼 성분 특정이기 때문이거나, 또는 다른 말로 하면, 서로로부터 독립적인 매우 좋은 근사치이기 때문에 적절한 PNS-파라미터를 갖는 각각의 스펙트럼 성분을 대체하는 것은 가능하다.

그러나, 기술된 알고리즘의 두 개의 공격적인 응용은 질이 낮은 듣기 경험 또는 바람직하지 않은 질에서의 감소를 산출할 수 있다. 그것은, 따라서, 각각의 스펙트럼 성분에 관하여 스펙트럼 정보라기보다는 각각의 프레임으로의 대체를 제한하는 것이 유리할 수 있다. 대체 분석뿐만 아니라 부적절 판단 또는 부적절 결정의 동작 모드에서 바뀌지 않고 수행될 수 있다. 그러나, 대체는, 이러한 동작 모드에서, 능동적 프레임 안에서 스펙트럼 성분의 모든 또는 적어도 상당한 수가 대체 가능할 때 수행될 수 있을 뿐이다.

*비록 이것은 대체의 더 적은 수를 이끌 수 있지만, 스펙트럼 정보의 내부 강도가 어떤 상황에서 심지어 약간 개선된 질로 이끌어서 개선될 수 있다.

상기에서 개요된 실시 예는, 자연적으로, 그것의 구현에 대해 다를 수 있다. 비록 상기 실시 예에서, 허프만(Huffman) 디코딩 및 인코딩은 단일 엔트로피 인코딩 스킴(scheme)으로써 기술되었지만, 또한 다른 엔트로피 인코딩 스킴(scheme)이 사용될 수 있다. 더욱이, 엔트로피 인코더 또는 엔트로피 디코더를 구현하는 것은 결코 요구되지 않는다. 따라서, 비록 전의 실시 예의 기술이 주로 AAC-ELD 코덱에 초점을 맞추었지만, 또한 다른 코덱은 입력 데이터 스트림을 제공하기 위해, 참가자 측에 출력 데이터 스트림을 디코딩하기 위해 사용될 수 있다. 예를 들면, 기반이 되는 어떤 코덱, 예를 들면, 블록 길이 스위칭이 없는 단일 윈도우(window)가 사용될 수 있다.

도 8 내지 11에서 도시된 실시 예의 앞의 기술은, 예를 들면, 또한 나타나듯이, 그 안에 기술한 모듈은 필수가 아니다. 예를 들면, 본 발명의 실시에 따른 장티는 프레임의 스펙트럼 정보 상에서 동작함에 의해 단순히 구현될 수 있다.

도 6 내지 12c에 대한 상기 기술한 실시 예는 매우 다른 방법으로 실현될 수 있다는 것에 주목해야 한다. 예를 들면, 복수의 입력 데이터 스트림의 믹싱에 대한 장치(500/1500) 및 그것의 프로세싱 유닛(520/1520)은 레지스터, 트랜지스터, 인덕터 및 이와 유사한 것과 같은 이산 상기 및 전자 기구의 기반으로 실현될 수 있다. 더욱이 본 발명에 따른 실시 예는 집적 회로만을 , 예를 들면 SOCs(SOC = system on chip), CPUs와 같은 프로세서(CPU = centural processing unit), GPU(GPU = graphic processing unit), 특정한 집정회로(ASIC)와 같은 다른 집적 회로(IC), 기반으로 또한 구현될 수 있다.

별개의 구현의 부분 또는 집적회로의 부분이 되는 상기 기구는 본 발명의 실시에 따른 장치를 구현하는 것을 통하여 다른 목적 및 다른 기능을 위해 사용될 수 있다는 것에 또한 주목되어야 한다. 자연스럽게, 또한 집적 회로 및 별개의 회로에 기반한 회로의 조합은 또한 본 발명에 따른 실시를 구현할 수 있다.

프로세서에 기반하여, 본 발명에 따른 실시 예는 컴퓨터 프로그램, 소프트웨어 프로그램, 또는 프로세서상에서 실행되는 프로그램에 기반하여 또한 구현될 수 있다.

다른 말로 하면, 독창적인 방법의 실시 예의 어떤 구현 요구에 근거하여, 독창적인 방법의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 디지털 저장 매개체, 특히 디스크, 독창적인 방법의 실시가 수행되는 프로그램 가능한 컴퓨터 또는 프로세서로 협력하는 그 위에 저장된 전자적으로 판독 가능한 신호를 갖는 CD 또는 DVD를 이용하여 수행될 수 있다. 일반적으로, 본 발명의 실시는, 따라서, 기계 판독가능한 캐리어에 저장된 프로그램 코드, 컴퓨터 프로그램 생산물이 컴퓨터 또는 프로세서 상에서 동작할 때 독창적인 방법의 실시를 수행할 수 있도록 가동되는 프로그램 코드를 갖는 컴퓨터 프로그램 생산물이다. 또한 다른 말로 하면, 독창적인 방법의 실시 예는, 따라서, 컴퓨터 프로그램이 컴퓨터 또는 프로세서 상에서 동작할 때, 적어도 독창적인 방법의 실시 예 중의 적어도 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다. 프로세서는 컴퓨터, 칩 카드, 스마트 카드, 응용 -특정 집적 회로, 칩 상의 시스템(SOC) 또는 집적 회로(IC)에 의해 형성될 수 있다.

100 컨퍼런싱 시스템
110 입력
120 디코더
130 가산기(Adder)
140 인코더
150 출력
160 컨퍼런싱 터미널
170 인코더
180 디코더
190 시간/주파수 컨버터
200 양자화기(Quantizer)/코더
210 디코더/역양자화기(Dequantizer)
220 주파수/시간 컨버터
250 데이터 스트림
260 프레임
270 다른 정보 블록
300 주파수
310 주파수 밴드
500 장치
510 입력 데이터 스트림
520 프로세싱(Processing) 유닛
530 출력 데이터 스트림
540 프레임
550 출력 프레임
560 스펙트럼 성분
570 화살표
580 브로큰 라인(Broken line)
700 비트 스트림 디코더
710 비트 스트림 리더
730 역양자화기(De-quantizer)
740 스케일러(Scaler)
750 제 1 유닛
760 제 2 유닛
770 스테레오 유닛
780 PNS-디코더
790 TNS-디코더
800 믹싱 유닛
810 스펙트럼 믹서
820 적정 모듈
830 SBR-믹서
850 비트 스트림 인코더
860 제 3 유닛
870 TNS-인코더
880 PNS-인코더
890 스테레오 인코더
900 제 4 유닛
910 스케일러
920 양자화기(Quantizer)
930 후프만(Huffman) 코더
940 비트 스트림 라이터(writer)
950 사이코-어쿠스틱(psycho-acoustic) 모듈
1500 장치
1520 프로세싱(Processing) 유닛
1545 제어 값
1550 출력 프레임
1555 제어 값

Claims

입력 데이터 스트림들(510) 각각은 스펙트럼 영역(spectral domain)에서 음성 데이터(audio data)의 프레임을 포함하고, 입력 데이터 스트림(510)의 프레임(540)은 복수의 스펙트럼 성분들에 대한 스펙트럼 정보를 포함하는 복수의 입력 데이터 스트림을 믹싱하는 장치(500)에 있어서,
채널간 마스킹(inter-channel-masking)을 고려하여 사이코 어쿠스틱(psycho-acoustic) 모델에 기반해서 상기 복수의 입력 데이터 스트림들(510)의 프레임들을 비교하도록 적응된 프로세싱 유닛(520);
을 포함하되,
상기 프로세싱 유닛(520)은, 상기 비교에 기반하여, 출력 데이터 스트림(530)의 출력 프레임(550)의 스펙트럼 성분들에 대하여, 상기 복수의 입력 데이터 스트림들(510) 중 정확히 하나의 입력 데이터 스트림(510)을 결정하도록 더 적응되고;
상기 프로세싱 유닛(520)은 상기 출력 데이터 스트림(530)의 출력 프레임(550)의 스펙트럼 성분을 기술하기 위하여 상기 결정된 입력 데이터 스트림(510)의 프레임(540)의 상응하는 스펙트럼 성분에 대한 정보 중 적어도 일부분을 복제하여 상기 출력 데이터 스트림을 생성하도록 더 적응되는 것을 특징으로 하는 복수의 입력 데이터 스트림을 믹싱하는 장치(500).
청구항 1에 있어서,
상기 프로세싱 유닛(520)은 상기 복수의 입력 데이터 스트림들(510)의 프레임들의 비교가 두 개의 서로 다른 입력 데이터 스트림들(510)의 프레임(540)의 공통 스펙트럼 성분에 상응하는 스펙트럼 정보 중 적어도 두 부분에 기반하도록 적응되는 것을 특징으로 하는 복수의 입력 데이터 스트림을 믹싱하는 장치(500).
청구항 1에 있어서,
상기 장치(500)는 복수의 스펙트럼 성분들 중 하나의 스펙트럼 성분이 하나의 주파수 또는 하나의 주파수 밴드에 상응하도록 적응되는 것을 특징으로 하는 복수의 입력 데이터 스트림을 믹싱하는 장치(500).
청구항 1에 있어서,
상기 프로세싱 유닛(520)은 상기 출력 데이터 스트림(530)의 출력 프레임(550)의 스펙트럼 성분을 기술하기 위해 상기 출력 데이터 스트림의 생성이 오직 상기 결정된 입력 데이터 스트림(510)의 프레임으로부터 상응하는 스펙트럼 요소에 대한 정보 중 적어도 일부분을 복제하는 것을 포함하도록 적응되는 것을 특징으로 하는 복수의 입력 데이터 스트림을 믹싱하는 장치(500).
청구항 1에 있어서,
상기 프로세싱 유닛(520)은 출력 데이터 스트림의 생성이 결정된 입력 데이터 스트림(510)의 프레임으로부터 스펙트럼 성분에 상응하는 스펙트럼 영역에 음성 데이터를 복제하는 것을 포함하도록 하는 것을 특징으로 하는 복수의 입력 데이터 스트림을 믹싱하는 장치(500).
청구항 1에 있어서,
상기 복수의 입력 데이터 스트림들(510)의 입력 데이터 스트림들(510)은, 시간 면에서, 상기 스펙트럼 영역에서 각각 음성 데이터의 일련의 프레임들을 포함하고,
상기 프로세싱 유닛(520)은 상기 프레임들(540)의 비교가 오직 상기 일련의 프레임들에 대한 공통의 시간 인덱스에 상응하는 프레임들에 기반하도록 적응되는 것을 특징으로 하는 복수의 입력 데이터 스트림을 믹싱하는 장치(500).
청구항 1에 있어서,
상기 프로세싱 유닛(520)은 상기 출력 데이터 스트림(530)의 생성이 결정된 입력 스트림(510)의 프레임의 상응하는 스펙트럼 성분에 대한 정보 중 적어도 일부분의 양자화 수준들의 분배와 비교하여 양자화 수준들의 분배를 유지하도록 적응되는 것을 특징으로 하는 복수의 입력 데이터 스트림을 믹싱하는 장치(500).
청구항 1에 있어서,
상기 상응하는 스펙트럼 성분에 대한 정보 중 상기 적어도 일부분은 양자화 수준들, 퍼셉츄얼 노이즈 서브스티튜션(perceptual noise substitution, PNS) 파라미터, 템포럴 노이즈 서브스티튜션(temporal noise substitution, TNS) 파라미터, 또는 스펙트럼 밴드 레플리케이션(spectral band replication, SBR) 파라미터에 관한 정보를 포함하는 것을 특징으로 하는 복수의 입력 데이터 스트림을 믹싱하는 장치(500).
청구항 1에 있어서,
상기 프로세싱 유닛(520)은 각각의 서로 다른 스펙트럼 성분들에 대하여 상기 복수의 입력 데이터 스트림들(510) 중 정확히 하나의 입력 데이터 스트림(510)을 결정하기 위해 상기 비교에 기반하여 상기 결정을 더 수행하고,
상기 출력 데이터 스트림(530)의 출력 프레임이 상기 복수의 입력 데이터 스트림들 중 서로 다른 것들로부터 상기 각각의 스펙트럼 성분들에 대한 정보 중 적어도 일부분을 그 안에 복제하도록 상기 출력 데이터 스트림(530)의 출력 프레임(550)의 각각의 스펙트럼 성분을 기술하기 위해 각각의 서로 다른 스펙트럼 성분들에 대하여 상기 결정된 입력 데이터 스트림(510)의 프레임(540)의 각각의 스펙트럼 성분에 대한 정보 중 적어도 일부분을 복제하여 상기 출력 데이터 스트림을 더 생성하거나,
상기 프로세싱 유닛(520)은 제 1 스펙트럼 성분들에 대하여 상기 복수의 입력 데이터 스트림들(510) 중 정확히 하나의 입력 데이터 스트림(510)을 결정하고, 제 2 스펙트럼 성분에 대하여 지배적인(dominant) 입력 데이터 스트림을 결정하기 않기 위해 상기 비교에 기반하여 상기 결정을 더 수행하고,
상기 출력 데이터 스트림(530)의 출력 프레임이 상기 결정된 입력 데이터 스트림으로부터 상기 제 1 스펙트럼 성분에 대한 정보 중 적어도 일부분을 그 안에 복제하도록 상기 출력 데이터 스트림(530)의 출력 프레임(550)의 상기 제 1 스펙트럼 성분을 기술하기 위해 상기 제 1 스펙트럼 성분들에 대해 결정된 정확히 하나의 입력 데이터 스트림(510)의 프레임(540)의 각각의 스펙트럼 성분에 대한 정보 중 적어도 일부분을 복제하고, 상기 출력 데이터 스트림(530)의 출력 프레임(550)의 상기 제 2 스펙트럼 성분을 기술하기 위해 스펙트럼 영역에서 상기 복수의 데이터 입력 스트림들의 제 2 스펙트럼 성분을 믹싱하여 상기 출력 데이터 스트림을 더 생성하는 것을 특징으로 하는 복수의 입력 데이터 스트림을 믹싱하는 장치(500).
입력 데이터 스트림들(510) 각각은 스펙트럼 영역에서 음성 데이터의 프레임(540)을 포함하고, 입력 데이터 스트림(510)의 프레임(540)은 복수의 스펙트럼 성분들을 포함하는 복수의 입력 데이터 스트림(510)을 믹싱하는 방법에 있어서,
채널간 마스킹을 고려하는 사이코 어쿠스틱 모델에 기반하여 상기 복수의 입력 데이터 스트림들(510)의 프레임들(540)을 비교하는 단계;
상기 비교에 기반하여, 출력 데이터 스트림(530)의 출력 프레임(550)의 스펙트럼 성분에 대하여 상기 복수의 입력 데이터 스트림들(510) 중 정확히 하나의 입력 데이터 스트림(510)을 결정하는 단계; 및
상기 출력 데이터 스트림(530)의 프레임의 스펙트럼 성분을 기술하기 위해 상기 결정된 입력 데이터 스트림(510)의 프레임에 상응하는 스펙트럼 성분에 대한 정보의 적어도 일부분을 복제하여 상기 출력 데이터 스트림(530)을 생성하는 단계;
를 포함하는 것을 특징으로 하는 복수의 입력 데이터 스트림(510)을 믹싱하는 방법
프로세서 상에서 구동할 때, 청구항 10에 따른 복수의 입력 데이터 스트림(510)을 믹싱하는 방법을 수행하기 위한 컴퓨터 프로그램이 그 위에 저장된 컴퓨터 판독가능한 매체.