KR101178114B1 - 복수의 입력 데이터 스트림을 믹싱하기 위한 장치 - Google Patents

복수의 입력 데이터 스트림을 믹싱하기 위한 장치 Download PDF

Info

Publication number
KR101178114B1
KR101178114B1 KR1020107022038A KR20107022038A KR101178114B1 KR 101178114 B1 KR101178114 B1 KR 101178114B1 KR 1020107022038 A KR1020107022038 A KR 1020107022038A KR 20107022038 A KR20107022038 A KR 20107022038A KR 101178114 B1 KR101178114 B1 KR 101178114B1
Authority
KR
South Korea
Prior art keywords
frequency
spectral
output
data
frame
Prior art date
Application number
KR1020107022038A
Other languages
English (en)
Other versions
KR20100125382A (ko
Inventor
마르쿠스 슈넬
맨프레드 러츠키
마르쿠스 물트루스
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20100125382A publication Critical patent/KR20100125382A/ko
Application granted granted Critical
Publication of KR101178114B1 publication Critical patent/KR101178114B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding

Abstract

제1 입력 데이타 스트림(510-1)의 제1 프레임(540-1)과 제2 입력 데이타 스트림(510-2)의 제2 프레임(540-2)을 믹싱하기 위한 장치(500)에 있어서,
출력 프레임(550)을 생성하도록 구성되는 프로세싱 유닛(520)을 포함하되, 상기 출력 프레임(55)이 출력 교차 주파수까지 출력 스펙트럼의 하위 부를 기술하는 출력 스펙트럼 데이타를 포함하고,
상기 출력 프레임이 출력 시간/주파수 그리드 해상도에서 에너지 관계 값 방식으로 출력 교차 주파수 위의 출력 스펙트럼의 상위 부를 기술하는 출력 SBR 데이타를 더 포함한다.
상기 프로세싱 유닛(520)은 제1 프레임의 교차 주파수의 최소값 위의 주파수에 상응하는 출력 스펙트럼 데이타와 스펙트럼 도메인에서 생성되는 출력 교차 주파수 및 제2 프레임 및 SBR 도메인에서 처리되는 제1, 제2 프레임 및 출력 교차 주파수의 교차 주파수들의 최소값 위의 주파수에 상응하는 출력 SBR 데이타를 더 포함하여 구성된다.

Description

복수의 입력 데이터 스트림을 믹싱하기 위한 장치{APPARATUS FOR MIXING A PLURALITY OF INPUT DATA STREAMS}
본 발명에 따른 실시 예들은 출력 데이타 스트림을 얻을 수 있도록 복수의 입력 데이터 스트림을 믹싱하기 위한 장치에 관한 것으로써, 예를 들면 화상회의 시스템(vedeo conferencing system) 및 텔레컨퍼런싱 시스템(teleconferencing system)을 포함하는 회의 시스템 분야에 사용될 수 있다.
많은 어플리케이션에서, 하나 이상의 오디오 신호는 오디오 신호들의 수효로부터, 하나의 신호 또는 신호들의 적어도 감쇄 수효가 발생되는 방식으로 처리되며, 이는 종종 "믹싱(mixing)"이라는 것으로 인용된다. 그러므로, 이하 오디오 신호의 믹싱 과정은 여러 가지 개별적인 오디오 신호를 소정의 결과 신호에 결합시키는 번들링(bundling)으로 인용될 수 있다. 예를 들면, 이 과정은 컴팩트 디스크(더빙)용 음악 작품들을 창작할 때 사용된다. 이 경우에 있어서, 일반적으로 보컬 퍼포먼스(vocal performance)를 포함하는 하나 혹은 그 이상의 오디오 신호와 함께 상이한 악기들이 가진 여러 가지 다른 오디오 신호들이 하나의 노래로 혼합된다.
어플리케이션에 있어서, 믹싱이 중요한 역할을 하는 또 하나의 분야는 화상회의 시스템 및 텔레컨퍼런싱 시스템이다. 그러한 시스템은 일반적으로 중앙 서버를 사용하여 회의에서 여러 가지 공간적으로 배분된 참가자를 연결할 수 있는데, 등록된 참가자들의 입력 비디오 및 오디오 데이터를 적절하게 믹싱하고, 각각의 참가자에게 결과 신호를 응답으로 보낸다. 결과 신호 혹은 출력 신호는 모든 다른 회의 참가자들의 오디오 신호들을 포함하여 구성된다.
현대의 디지털 회의 시스템에 있어서, 다수의 부분적으로 모순되는 목표 및 상황들이 서로 경쟁한다. 서로 다른 종류의 오디오 신호(예를 들면, 일반적인 오디오 신호 및 음악 신호와 비교되는 스피치 신호)를 위한 어떤 코딩 및 디코딩 기술의 적용성 및 유용성뿐만 아니라, 복원되는 오디오 신호의 품질이 고려되어야 한다. 또한 회의 시스템을 디자인하고 실행할 때 고려되어야만 하는 또 하나의 상황은 이용가능한 대역폭 및 지연 문제이다.
예를 들면, 한편으로는 품질을 다른 한편으로는 대역폭을 가늠할 때, 대부분의 경우에서 절충안은 피할 수 없다. 그러나, 품질에 관한 개량은 AAC-ELD 기술(AAC = 향상된 오디오 코덱(Advanced Audio Codec), 강화 저 지연(Enhanced Low Delay)과 같은 현대의 코딩 및 디코딩 기술을 실행함으로써 달성된다. 그러나, 달성할 수 있는 품질은 보다 근본적인 문제 및 상황에 의해 그러한 현대적인 기술을 사용하는 시스템에 부정적인 영향을 받을 수 있다.
직면하게 되는 하나의 문제를 거론한다면, 모든 디지털 신호 전송은, 적어도 원칙적으로는, 소음 없는 아날로그 시스템에서의 이상적인 상황 하에서 피할 수 있는 필요한 양자화(quantization)의 문제에 직면하고 있다. 양자화 과정 때문에 부득이하게 소정 양의 양자화 소음이 처리되는 신호에 도입된다. 가청 왜곡(distortions)을 축소시키기 위하여, 양자화 레벨의 수를 증가시키고, 그에 따라서 당연히 양자화 해상도를 증가시키려고 시도할 수 있다. 그러나, 이는 전송되어야 하는 더 많은 수의 신호 값을 초래하게 되며, 그에 따라서 전송되어야 하는 데이터 양의 증가를 초래한다. 바꾸어 말하면, 양자화 소음에 의해 도입되는 가청 왜곡의 축소에 의한 품질의 개량은 소정의 상황 하에서 전송되는 데이터 양을 증가시킬 수 있으며 결국 전송 시스템에 부과된 대역폭 제한을 위반할 수 있다.
회의 시스템의 경우에 있어서, 품질, 이용가능한 대역폭 및 다른 파라미터 사이의 트레이드-오프를 향상시키는 도전은 일반적으로 하나 이상의 입력 오디오 신호가 프로세스 된다는 사실에 의해 더 복잡해질 수 있다. 따라서, 회의 시스템에 의해 생산되는 출력 신호 혹은 결과 신호를 생성할 때 하나 이상의 오디오 신호에 의해 부과되는 경계 조건이 고려되어야만 할 수 있다.
특히 참가자에 의해 수용할 수 없는 것으로 간주될 수 있는 실질적인 지연을 도입하지 않고 회의 참가자들 사이의 직접적인 커뮤니케이션을 할 수 있는 충분한 저 지연을 갖는 회의 시스템을 실행하는 부가적인 도전을 고려하면, 더 도전을 증가시킨다.
회의 시스템의 저 지연의 실행에서, 지연의 근원은 일반적으로 다른 한편으로는 시간-도메인 외부의 데이터를 프로세싱하는 도전에 이르게 할 수 있는 그것들의 수의 관점에서 제한되는데, 이때 오디오 신호의 믹싱은 각각의 신호를 과부하하거나 혹은 더함으로써 달성될 수 있다.
일반적인 오디오 신호의 경우에 있어서 품질 및 비트레이트 사이의 트레이드-오프를 개량시키기 위하여, 제한된 신호, 비트레이트, 지연, 계산 복잡도(computational complexity) 및 다른 파라미터의 품질과 같은 그러한 상반되는 파라미터 사이의 트레이드-오프를 더 개량시킬 수 있는 상당한 수의 기술들이 존재한다.
앞서 언급한 트레이드-오프를 개량시키기 위한 최상의 호환성을 가진 도구는 이른바 스펙트럼 대역 복제(spectral band replication, SBR) 도구이다. SBR-모듈은 일반적으로 MPEG-4 AAC 인코더와 같은 중앙 인코더의 일부로 실행되는게 아니라, 부가적인 인코더 및 디코더이다. SBR은 오디오 신호 내의 고주파 및 저주파수 사이의 상관관계를 이용한다. SBR은 신호의 고주파수는 단지 진폭의 복합 정수이기 때문에 고주파수는 낮은 스펙트럼을 기초로 하여 반복될 수 있다는 가정을 기초로 한다. 대수적으로 고주파수의 경우에서 인간 청감의 음성 해상도 때문에, 고주파수 범위에 관한 낮은 차이는 더욱이 단지 매우 경험 많은 청취자에 의해 실현되기 때문에 SBR 인코더에 의해 도입되는 부정확성은 아마 대부분, 대다수 청취자에 의해 간과될 것이다.
SBR 인코더는 MPEG-4 인코더에 제공되는 오디오 신호를 전처리하며 입력 신호를 주파수 범위로 나뉘어진다. 저주파수 범위 혹은 대역은 이용가능한 비트레이트 및 추가 파라미터에 따라, 가변적으로 설정될 수 있는, 이른바 교차 주파수에 의해 상부 주파수 대역 혹은 주파수 범위로부터 분리된다. SBR 인코더는 주파수를 분석하기 위하여 필터뱅크(filterbank)를 사용하는데, 이는 일반적으로 격자구조 대칭 필터(quadrature mirror filter, QMF) 밴드로 구현된다.
SBR 인코더는 상부 주파수 범위 에너지 값의 주파수 표준으로부터 추출되는데, 이는 후에 저주파수 대역를 기초로 하는 이러한 주파수 범위를 재구성하기 위하여 사용될 것이다.
따라서, SBR 인코더는 코어 인코더(core encoder)에 대하여 필터된 오디오 신호 혹은 필터된 오디오 데이터와 함께 SBR 데이터 혹은 SBR 파라미터를 제공하는데, 이는 원래 오디오 신호의 샘플링 주파수의 절반을 근거로 하여 저주파수 대역에 적용된다. 이는 각각의 양자화 레벨이 더 정확하게 설정될 수 있도록 하기 위하여 훨씬 적은 샘플링 값을 프로세싱하는 기회를 제공한다. SBR 인코더에 의해 제공되는 부가적인 데이터, 즉 SBR 파라미터는, 부가 정보로서 MPEG-4 인코더 혹은 다른 인코더에 의해 결과 비트 스트림으로 저장될 것이다. 이는 적절한 비트 멀티플렉서(bit multiplexer)를 사용함으로써 달성될 수 있다.
디코더의 측면에서, 입력되는 비트 스트림은 비트 디멀티플렉서(demultiplexer)에 의하여 역다중화되며, 적어도 SBR 데이타를 분리하여 SBR 디코더에 제공한다. 하지만, SBR 디코더가 SBR 파라미터로 처리되기 이전에 저주파수 대역이 먼저 저주파수의 오디오 신호를 재구성하도록 코어 디코더에 의하여 디코드될 것이다. SBR 디코더는 SBR 에너지 값(SBR 파라미터)과 저주파수 범위의 스펙트럼 정보에 기초하여 오디오 신호의 스펙트럼 상위 부를 산출한다. 즉, SBR 디코더는 전술한 비트 스트림으로 SBR 파라미터가 전송될 뿐만 아니라 저주파수 대역에 기초한 오디오 신호의 상위 스펙트럼 대역을 재구성한다. 전술한 SBR 모듈의 가능성 외에도, 재구성되는 오디오 신호의 전체적인 오디오 인식력을 향상시키기 위하여, SBR은 개별적인 사인파 뿐만 아니라 추가적인 노이즈 요인을 인코딩할 수 있는 가능성을 더 제공한다.
따라서, SBR은 품질과 비트레이트 사이의 절충안을 향상시킬 수 있는 매우 유연한 도구를 제시하며, 또한 회의 시스템 분야에 있어서 어플리케이션을 위한 흥미로운 후보가 되는 것이다. 하지만, 복잡성과 다양한 가능성 및 선택수단에 기인하여, 인코드 SBR 오디오 신호는 각각의 오디오 신호를 시간-영역(time-domain) 신호로 완전하게 디코딩됨에 의하여 시간-영역 내에서 혼합되며, 실제적인 믹싱 처리가 그 영역 내에서 이루어지고, 혼합된 신호는 나중에 인코드 SBR 신호로 다시 인코드된다. 신호들을 시간-영역으로 인코드함에 따라서 도출되는 추가적인 지연(delay) 외에도 인코드 오디오 신호의 스펙트럼 정보의 재구성은 상당한 계산적 복잡성을 요구할 수 있는데, 예를 들면, 이동가능하거나 에너지-효율적이거나 또는 계산적인 복잡하고 효율적인 장치에는 매력이 없을 수 있다.
그러므로, 본 발명은 SBR으로 인코드된 오디오 신호를 믹싱할 때 관여하는 계산적인 복잡성 또는 계산 복잡도(computational complexity)을 축소시키는데 그 목적이 있다.
이러한, 본 발명의 목적은 청구항 1 혹은 3에 따른 장치, 청구항 15에 따른 방법, 혹은 청구항 16에 따른 프로그램에 의해 해결된다.
본 발명에 따른 실시예는, SBR-도메인에서의 최대 교차 주파수 위의 주파수를 위하여, 그리고 적어도 하나의 SBR 값의 추정 및 적어도 추정된 SBR 값을 기초로 한 것에 상응하는 SBR 값의 생성에 의한 최소값 및 최대값 사이의 영역에서의 주파수를 위하여, 또는 각각의 SBR 데이터를 기초로 한 스펙트럼 정보 혹은 스펙트럼 값을 계산하고 그 계산된 스펙트럼 값 혹은 스펙트럼 정보를 기초로 한 스펙트럼 값을 생성하기 위하여, 스펙트럼 도메인에서 스펙트럼 정보의 믹싱에 의해 포함되는 최소의 교차 주파수 아래의 주파수를 위한 믹싱을 수행함으로써 계산 복잡도가 축소될 수 있다는 것을 찾아내는 것에 기초한 것이다.
바꾸어 말하면, 본 발명에 따른 실시 예는, 최대 교차 주파수 위의 주파수를 위하여, 믹싱이 SBR-도메인 내에서 수행될 수 있으며, 반면에 최소 교차 주파수 아래의 주파수를 위해서는, 믹싱이 상응하는 스펙트럼 값을 직접적으로 프로세싱함으로써 스펙트럼 도메인 내에서 이루어질 수 있다는 것을 찾아내는 것에 토대를 둔 것이다. 더욱이, 본 발명의 실시 예에 따른 장치는, 최대 및 최소 값 사이에서의 주파수를 위하여, SBR-도메인 혹은 스펙트럼 도메인에서 상응하는 SBR 값으로부터 스펙트럼 값을 추정함에 의하여 믹싱을 수행하거나, 혹은 스펙트럼 값으로부터 SBR 값을 추정하여 SBR 도메인 혹은 스펙트럼 도메인에서 추정된 값을 기초로 한 실질적인 믹싱을 수행할 수 있다. 본 실시예의 설명에 있어서, 출력 교차 주파수는 입력 데이터 스트림 혹은 다른 값의 어떠한 교차 주파수로 구성될 수 있는 것으로 이해되어야 한다.
궁극적으로, 모든 관련된 교차 주파수의 위 및 아래에서 일어나는 믹싱이 각각의 도메인에서 직접 믹싱되는 것을 기초로 수행되기 때문에, 본 장치에 의해 실행되는 많은 단계 및 그에 따라서 포함되는 계산 복잡도가 축소되는 반면에, 추정은 단지 관련된 모든 교차 주파수의 최소값 및 관련된 모든 교차 주파수의 최대값 사이의 중간 영역에서만 실행된다. 그 이후에, 추정 과정을 기초로 하여, 실제 SBR 값 혹은 실제 스펙트럼 값이 계산 또는 결정된다. 그러므로, 많은 경우에 있어서, 그러한 중간 주파수 영역 조차에서도, 추정 및 처리과정의 프로세싱이 관련된 모든 입력 데이터 스트림을 위하여 수행되도록 일반적으로 요구되지는 않기 때문에 계산 복잡도가 감소되는 것이다.
본 발명의 실시 예에 따른 실시 예에서 출력 교차 주파수는 입력 데이터 스트림의 교차 주파수들 중의 하나와 동일할 수 있으나, 경우에 따라 독립적으로, 예를 들면, 심리음향 추정(psychoacoustic estimation)의 결과를 계산하기 위하여 독립적으로 선택될 수 있다. 더욱이, 본 발명에 따른 실시 예에서 생성되는 SBR 데이터 혹은 생성되는 스펙트럼 값은 중간 주파수 범위 내에서 SBR 데이터 혹은 스펙트럼 값을 변경하거나 부드럽게 평활하기 위하여 다르게 적용될 수 있다.
이하, 첨부된 도면을 참조하여, 본 발명에 따른 실시 예를 설명한다.
도 1은 회의 시스템의 블록도이다.
도 2는 일반적인 오디오 코덱을 기초로 한 회의 시스템의 블록도이다.
도 3은 비트 스트림 믹싱 기술을 사용하는 주파수 도메인에서 작동하는 회의 시스템의 블록도이다.
도 4는 복수의 프레임을 포함하는 데이터 스트림의 개략도이다.
도 5는 스펙트럼 데이터 또는 정보 및 스펙트럼 성분의 여러 가지 다른 형태를 도시한 것이다.
도 6A는 본 발명의 일 실시 예에 따른 제 1 입력 데이터의 제 1 프레임 및 제2 입력 데이터의 제 2 프레임의 믹싱을 위한 장치의 블록도이다.
도 6B는 데이터 스트림의 프레임의 시간/주파수 그리드 해상도의 블록도이다.
도 7은 본 발명의 일 실시 예에 따른 장치의 더 상세한 블록도이다.
도 8은 회의 시스템의 설명에 있어서 본 발명의 다른 실시예에 따른 복수의 입력 데이터 스트림의 믹싱을 위한 장치의 블록도이다.
도 9A 및 도 9B는 각각 본 발명의 일 실시 예에 따른 장치에 제공되는 제 1 및 제 2 입력 데이터 스트림의 제 1 프레임 및 제 2 프레임을 도시한 것이다.
도 9C는 도 9A 및9B에 도시된 입력 프레임의 오버레이 상황을 도시한 것이다.
도 9D는 입력 프레임의 두 교차 주파수 중에서 더 작은 출력 교차 주파수를 구비한 본 발명의 일 실시 예에 따른 장치에 의해 생성되는 출력 프레임을 도시한 것이다.
도 9E는 입력 프레임의 두 교차 주파수 중에서 더 큰 출력 교차 주파수를 구비한 본 발명의 일 실시 예에 따른 장치에 의해 생성되는 출력 프레임을 도시한 것이다.
도 10은 저주파 및 고주파 그리드 해상도의 정합과정을 도시한 것이다.
도 4 내지 10과 관련하여, 본 발명에 따른 다른 실시 예들이 더 상세히 설명될 것이다. 그러나, 이러한 실시 예들을 더 상세히 설명하기 전에, 먼저 도 1 내지 3과 관련하여, 회의 시스템의 구성에서 중요할 수 있는 요구와 도전과제 측면에 대하여 간단한 소개가 주어질 것이다.
도 1은 회의 시스템(100)의 블록도를 도시한 것이며, 이는 다중점 제어 유닛(multi-point control unit, MCU)로 언급될 수 있다. 그 기능성에 관한 설명으로부터 자명해질 것이지만, 회의 시스템(100)은, 도 1에 도시되는 것과 같이, 시간 도메인(time domain)에서 작동하는 시스템이다.
도 1에 도시되는 것과 같이, 회의 시스템(100)은 도 1에서는 단지 세 개만 도시되는 적절한 수의 입력(110-1, 110-2, 110-3, ... )을 거쳐 복수의 입력 데이터 스트림을 수신하도록 구성된다. 각각의 입력(110)은 각각의 디코더(decoder, 120)에 결합된다. 보다 상세하게는, 제 1 입력 데이터 스트림용 입력(110-1)은 제 1 디코더(120-1)에 결합되며, 제 2 입력(110-2)은 제 2 디코더(120-2)에 결합되고, 제 3 입력(110-3)은 제 3 디코더(120-3)에 결합된다.
회의 시스템(100)은 적절한 수의 가산기(130-1, 130-2, 130-3, ... )를 더 포함하며, 도 1에서는 단지 세 개만 도시된 것이다. 각각의 가산기는 회의 시스템(100)의 입력(110) 중의 하나와 관련된다. 예를 들면, 제 1 가산기(130-1)는 제 1 입력(110-1) 및 상응하는 디코더(120-1)와 관련된다.
각각의 가산기(130)는 모든 디코더(120)의 출력과 결합되는데, 입력(110)이 결합되는 디코더(120)는 제외된다. 바꾸어 말하면, 제 1 가산기(130-1)는 제 1 디코더(120-1)를 제외한, 모든 디코더(120)와 결합한다. 따라서, 제 2 가산기(130-2)는 제 2 디코더(120-2)를 제외한, 모든 디코더(120)와 결합한다.
각각의 가산기(130)는 각각 하나의 인코더(140)에 결합하는 출력을 더 포함한다. 그러므로, 제 1 가산기(130-1)는 제 1 인코더(140-1)에 결합된다. 따라서, 제 2 가산기(130-2) 및 제 3 가산기(130-3)는 제 2 인코더(140-2) 및 제 3 인코더(140-3)에 결합된다.
각각의 인코더(140)들은 각각의 출력(150)에 순차적으로 결합된다. 바꾸어 말하면, 제 1 인코더는, 예를 들면, 제 1 출력(150-1)에 결합된다. 제 2 인코더(140-2) 및 제 3 인코더(140-3)는 각각 제 2 출력(150-2) 및 제 3 출력(150-3)에 결합된다.
회의 시스템(100)의 운영을 설명하기 위하여, 도 1에 제 1 참가자의 회의 터미널(conferencing terminal, 160)이 도시되었다. 회의 터미널(160)은, 예를 들면, 디지털 전화기(예를 들면 ISDN 전화기, ISDN=integrated service digital network), VOIP 인프라를 포함하는 시스템 또는 유사한 터미널을 포함한다.
회의 터미널(160)은 회의 시스템(100)의 제 1 입력(110-1)에 결합하는 인코더(170)를 포함한다. 회의 터미널(160)은 또한 회의 시스템(100)의 제 1 출력(150-1)에 결합하는 디코더(180)를 포함한다.
유사한 회의 터미널(160)이 또한 추가 참가자의 장소, 즉 사이트(sites)에 존재할 수 있다. 이러한 회의 터미널들은 단지 단순성만을 위하여, 도 1에는 도시되지 않았다. 또한, 회의 시스템(100) 및 회의 터미널(160)은 보다 가까운 근접지역에서는 물리적으로 존재하도록 요구되지 않을 수 있다. 회의 터미널(160) 및 회의 시스템(100)은 서로 다른 사이트에서 배열될 수 있는데, 예를 들면, 단지 WAN(wide area networks)-기술에 의해 연결될 수 있다.
회의 터미널(160)은 더 포괄적인 방법으로 사용자와 함께 오디오 신호의 교환을 가능하게 하는 마이크로폰, 증폭기 및 확성기 혹은 헤드폰과 같은 부가적인 부품을 더 포함하거나 혹은 연결할 수 있다. 이것들은 단지 단순성을 위하여 도 1에는 도시되지 않았다.
초기에 나타낸 바와 같이, 도 1에 도시되는 회의 시스템(100)은 시간 도메인에서 작동하는 시스템이다. 예를 들면, 제 1 참가자가 마이크로폰 내로 말할 때(도 1에는 도시되지 않음), 회의 터미널(160)의 인코더(170)는 각각의 오디오 신호를 상응하는 비트 스트림으로 암호화하고 그 비트 스트림을 회의 시스템(100)의 제 1 입력(110-1)으로 전송한다.
회의 시스템(100) 내부에서, 비트 스트림은 제 1 디코더(120-1)에 의해 복호화되며 시간 도메인 내로 다시 변환된다. 제 1 디코더(120-1)가 제 2 믹서(130-1) 및 제 3 믹서(130-3)에 결합되기 때문에, 오디오 신호는, 제 1 참가자에 의해 생성되는 바와 같이, 재구성되는 오디오 신호와 각각 제 2 및 제 3 참가자로부터 추가되는 재구성 오디오 신호를 간단하게 더함으로써 시간 도메인에서 믹스될 수 있다.
또한, 전술한 과정은, 각각 제 2 디코더(120-2) 및 제 3 디코더(120-3)에 의해 처리되고, 제 2 입력(110-2) 및 제 3 입력(110-3)에 의해 수신되며, 제 2 및 제 3 참가자에 의해 제공되는 오디오 신호에 대해서도 마찬가지이다. 이후, 제 2 및 제 3 참가자에 의해 재구성된 오디오 신호는 제 1 믹서(130-1)에 제공되며, 차례로, 시간 도메인에서 더해진 오디오 신호를 제 1 인코더(140-1)에 제공한다. 인코더(140-1)는 비트 스트림을 형성하도록 더해진 오디오 신호를 재 인코드하며, 제 1 출력(150-1)에서와 동일하게 제 1 참가자 회의 터미널(160)에 제공한다.
마찬가지로, 제 2 인코더(140-2) 및 제 3 인코더(140-3)는 각각 제 2 가산기(130-2) 및 제 3 가산기(130-3)로부터 수신된 시간 도메인에서 더해진 오디오 신호를 인코드하며, 인코드된 데이터를 각각 제 2 출력(150-2) 및 제 3 출력(150-3)을 거쳐 각각의 참가자에게 다시 전송된다.
믹싱을 수행하기 위하여, 오디오 신호들은 완전히 디코드되며, 압축되지 않은 형태에서 더해진다. 이후에, 클리핑 효과(clipping effect, 예를 들면, 허용 범위 값의 초과)를 예방하기 위하여 각각의 출력 신호를 압축함으로써 선택적으로 레벨 조절이 실행될 수 있다. 클리핑은 하나의 샘플 값이 허용된 범위 이상으로 오르거나 범위 이하로 떨어질 때 나타날 수 있으며, 그에 상응하는 값들이 잘라 진다. 16-비트 양자화의 경우에 있어서, CD에 적용되는 사례와 같이, 샘플 값 당 -32768 및 32767 사이의 정수 값이 이용 가능하다.
신호의 가능한 오버 스티어링(over steering) 또는 언더 스티어링(under steering)을 감소시키기 위하여, 압축 알고리즘이 사용된다. 이러한 알고리즘은 값의 허용 범위 내에 샘플 값을 유지하기 위하여 특정 임계 값 이상 혹은 이하로 전개되는 것을 제한한다.
도 1에 도시된 바와 같이, 회의 시스템(100)과 같은 회의 시스템에서 오디오 데이터를 코딩할 때, 가장 쉽게 이룰 수 있는 방법으로 인코드되지 않은 상태에서 믹싱을 실행하기 위하여 몇 가지 결정을 받아들인다. 더욱이, 인코드된 오디오 신호의 데이터율은, 더 작은 대역폭이 더 낮은 샘플링 주파수를 허용하고 그에 따라서 나이키스트-섀넌 표본화 정리(Nyquist-Shannon-Sampling Theorem)에 따라, 더 적은 데이타를 허용하기 때문에 추가로 보다 적은 범위의 전송 주파수로 제한된다.나이키스트-섀넌 샘플링 정리는 샘플링 주파수가 샘플링된 신호의 대역폭에 의존하며 대역폭 크기의 (적어도) 두 배를 필요로 한다는 것을 나타낸다.
국제전기통신연합(International Telecommunication, ITU) 및 그 전기 통신 표준화 부문(Telecommunication Standardization Sector)은 멀티미디어 회의 시스템을 위해 개발된 몇몇 표준을 갖는다. H.320은 ISDN용 표준 회의 프로토콜이다. H.323은 패킷 기반 네트워크(packet-based network)용 표준 회의 시스템을 한정한다. H.324는 아날로그 전화 네트워크 및 무선 통신 시스템용 회의 시스템을 한정한다.
이러한 표준 내에서, 신호의 전송뿐만 아니라 오디오 데이터의 인코딩 및 프로세싱이 정의된다. 회의의 관리는 H.2321 표준에 따른 소위 다중점 제어 유닛(multi-point control unit)인, 하나 혹은 그 이상의 서버에 의해 이루어진다. 또한, 다중점 제어 유닛은 여러 참가자들의 비디오 및 오디오 데이터의 프로세싱 및 분배를 책임지고 있다.
이를 달성하기 위하여, 다중점 제어 유닛은 각각의 참가자에게 다른 모든 참가자의 오디오 데이터를 포함하는 믹스된 출력 혹은 결과 신호를 보내며 신호를 각각의 참가자에게 제공한다. 도 1은 회의 시스템(100)의 블록도 뿐만 아니라 그러한 회의 상태에서의 신호 흐름을 도시한 것이다.
H.323 및 H.320 표준의 프레임 워크에 있어서, G.7xx 클래스의 오디오 코덱은 각각의 회의 시스템에서의 운영을 위하여 정의되었다. G.711 표준은 케이블 전화 시스템에서 ISDN-전송용으로 사용된다. 8 ㎑의 샘플링 주파수에서, G.711 표준은 300 및 3400 ㎐ 사이의 오디오 대역폭을 포함하며, 8 비트의 (양자화) 깊이에서 64 Kbit/s의 비트율을 필요로 한다. 코딩은 단지 0.125 ㎳의 매우 낮은 지연을 일으키는 μ-Law 혹은 A-Law라 불리는 간단한 대수 코딩(logarithmic coding)에 의해 형성된다.
G.722 표준은 16 ㎑의 샘플링 주파수에서 50에서 7000 ㎐까지의 더 큰 오디오 대역폭을 인코딩한다. 그 결과, 코덱(codec)은 1.5 ㎳의 지연에서, 48, 56, 혹은 64 Kbit/s의 비트율에서의 더 낮은 대역의 G.7xx 오디오 코덱과 비교할 때 더 나은 품질을 획득한다. 더욱이, 두 가지 추가 발전기술로써, G.722.1 및 G722.2가 존재하는데, 이는 보다 낮은 비트율에서도 비슷한 음성 품질을 제공한다. G.722.2는 1.5 ㎳의 지연에서 6.6 Kbit/s 및 23.85 Kbit/s 사이의 비트율의 선택을 허용한다.
일반적으로 G.729는 IP-전화 통신의 경우에 사용되며, 이는 보이스-오버-IP 통신(VoIP)로서 언급된다. 코덱은 음성을 위하여 최적화되며 나중에 에러 신호와 함께 합성하기 위하여 분석된 음성 파라미터들로 구성된 소정의 세트를 전송한다.결과적으로, G.729는 G.711과 비교할 때, 유사한 샘플 비율 및 오디오 대역폭에서 약 8 Kbit/s의 훨씬 더 나은 코딩을 제공한다. 그러나, 더 복잡한 알고리즘은 약 15 ㎳의 지연을 일으킨다.
하나의 단점으로서, G.7xx 코덱은 음성 인코딩용으로 최적화 된 것이며, 협소한 주파수 대역폭 이외에, 음성과 함께 음악을 코딩하거나 혹은 순수 음악을 코딩할 때는 상당한 문제점를 나타낸다.
그러므로, 도 1에 도시되는 것과 같이, 비록 회의 시스템(100)이 음성 신호를 전송하고 프로세싱할 때 수용할 수 있는 품질을 위하여 사용될 수 있지만, 음성용으로 최적화된 낮은 지연을 사용할 때는 일반적인 오디오 신호가 만족스럽게 처리 되지 않는다.
바꾸어 말하면, 일반적인 오디오 신호, 예를 들면 음악이 포함된 오디오 신호를 처리하기 위하여 음성 신호의 코딩 및 디코딩하기 위한 코덱의 사용은 품질의 관점에서 만족스러운 결과에 이르게 하지 못한다. 도 1에 도시되는 것과 같이, 회의 시스템(100)의 프레임워크에서 일반적인 오디오 신호를 인코딩하고 디코딩하기 위한 오디오 코덱을 사용하여 품질이 향상될 수는 있다. 그러나, 도 2와 함께 설명하겠지만, 그러한 회의 시스템에서 일반적인 오디오 코덱의 사용은 단지 하나만을 지정하기 위한 증가된 지연과 같이, 바라지 않는 효과에 이르게 할 수 있다.
그러나, 도 2를 상세히 설명하기 전에, 본 발명의 설명에서, 각각의 대상들이 하나의 실시 예 혹은 도면에 한번 이상 나타나거나, 혹은 여러 가지 실시 예들 혹은 도면들에 나타날 때 그 대상들이 동일 또는 유사한 인용 부호로 표기됨에 유의 하여야 한다.
도 2는 회의 터미널(160)에 따른 다른 회의 시스템(100)의 블록도를 도시한 것이며, 이들은 도 1에 도시된 것들과 유사한 것이다. 또한, 도 2에 도시된 회의 시스템(100)은 입력(110)과, 디코더(120), 가산기(130), 인코더(140) 및 출력(150)을 포함하는데, 도 1에 도시된 회의 시스템(100)과 비교하여 동등하게 상호 연결된다. 또한, 도 2에 도시된 회의 터미널(160) 역시 인코더(170) 및 디코더(180)를 포함한다. 그러므로, 인용부호는 도 1에 도시된 회의 시스템(100)의 설명에 맞춰져 있다.
하지만, 도 2에 도시된 회의 터미널(160) 뿐만 아니라, 도 2에 도시된 회의 시스템(100)은 일반적인 오디오 코덱(코더-디코더)을 사용하기 위해 구성되었다. 궁극적으로, 각각의 인코더(140, 170)들은 양자화기/코더(200) 앞에서 결합되는 시간/주파수 컨버터(190)와의 직렬적인 연결 구성을 가진다. 또한, 시간/주파수 컨버터(190)는 도 2에서 "T/F"로 설명되며, 반면에 양자화기/코더(200)는 도 2에서 "Q/C"로 표기된다.
도2의 인용부호에 있어서, 각각의 디코더들(120, 180)은 디코더/역양자화기(210)를 구성하며, 도 2에서 T/F-1로 표기된 주파수/시간 컨버터(220)에 직렬 연결된 Q/C- 1 으로 표기되었다. 단지 단순성을 위하여, 시간/주파수 컨버터(190), 양자화기/코더(200) 및 디코더/역양자화기(210) 뿐만 아니라 주파수/시간 컨버터(220)들은 인코더(140-3)와 디코더(120-3)의 케이스에 표기된 것이다. 하지만 이하 설명에는 다른 요소로 인용한다.
인코더(140) 또는 인코터(170)과 같은 소정의 인코더로 시작시, 시간/주파수 컨버터(170)에 제공되는 오디오 신호는 컨버터(190)에 의하여 시간 도메인으로부터 주파수 도메인 또는 주파수-관계 도메인으로 변환된다. 시간/주파수 컨버터(190)에 의해 생성되는 스펙트럼 표시에 있어서, 변환된 오디오 데이타는 비트 스트림을 형성하도록 양자화 및 코드화되며, 이후 인코더(140)의 케이스 내에서 회의 시스템(100)의 출력(150)들로 제공된다.
디코더(120) 또는 디코더(180)과 같은 디코더에 있어서, 디코더들로 제공되는 비트 스트림은 먼저 복호화, 디코드 되며 오디오 신호의 적어도 일부를 구성하는 스펙트럼 표시를 형성하도록 재 양자화되고, 이후 주파수/시간 컨버터(220)에 의하여 시간 도메인으로 다시 변환된다.
그러므로, 시간/주파수 컨버터(190) 뿐만 아니라 반대 요소로써, 주파수 시간 컨버터(220)들은 제공되는 오디오 신호의 적어도 하나의 스펙트럼 표시를 생성하고, 그 스펙트럼 표시를 시간 도메인 내에서 오디오 신호의 상응 부분들로 각각 재변형시키도록 구성된다.
오디오 신호를 시간 도메인으로부터 주파수 도메인으로 그리고, 주파수 도메인으로부터 시간 도메인으로 다시 되돌리는 변환과정에 있어서, 소정의 굴곡 또는 편차(deviations)가 나타나서 재설정, 재구성 또는 복호화 오디오 신호가 원시 또는 소스 오디오 신호와 다를 수 있다. 양자화 인코더(200) 및 리-코더(210)의 프레임워크에서 수행되는 양자화 및 역양자화의 추가 과정에 의하여 가공이 더 부가될 수 있다. 바꾸어 설명하면, 원시 오디오 신호 QNs 아니라 재설정 오디오 신호가 서로 다를 수 있다.
예를 들면, 주파수/시간 컨버터(220) 뿐만 아니라 시간/주파수 컨버터(190)가 변형이산 코사인 변환(MDCT, Modified Discrete Cosine Transformation)이나 변형이산 사인 변환(MDST, Modified Discrete Sine Transformation), 고속 푸리에 기반 컨버터(FFT, Fast Fourier Transformation) 또는 다른 푸리에-기반 컨버터에 의하여 수행될 수 있다. 예를 들면, 디코더/역양자화기(210) 및 양자화기/코더(200)의 프레임워크에서 양자화 및 재양자화가 선형 양자화나 대수 양자화 또는 인간의 가청 특성을 계산할 수 있는 보다 복잡한 양자화 알고리즘에 의하여 수행될 수 있다. 예를 들면, 디코더/역양자화기(210) 및 양자화기/코더(200)의 디코더 및 인코더 요소들이 허프만 부호화 및 허프만 복호화(Huffman coding and Huffman decoding) 기술 사용에 의하여 작동할 수 있다.
하지만, 보다 복잡한 양자화기/코더 및 디코더/역양자화기(200,210) 뿐만 아니라 보다 복잡한 시간/주파수 및 주파수 시간 컨버터(190, 220)들이 전술한 여러가지 실시예 및 시스템들에 적용될 수 있는데, 예를 들면 인코더(140, 170)로써 AAC -ELD 인코더가 구성되고, 디코더(120, 180)로써 AAC -ELD 디코더가 구성될 수 있다. 회의 터미널(160) 및 회의 시스템(100)의 프레임워크에 있어서, 디코더(180, 120)들과 인코더(170. 140)들이 동일한 도구 또는 적어도 호환가능한 도구로 권고할 수 있음은 마찬가지이다.
또한, 일반적인 오디오 신호의 코딩 및 디코딩 기술에 기초하여, 도 2에 도시된 바와 같은 회의 시스템(100)이 시간 도메인에서 오디오 신호들의 믹싱을 수행할 수 있다. 가산기(130)는 상위-포지션을 수행하도록 시간 도메인에서 재구성되는 오디오 신호가 제공되어, 시간 도메인에서 믹스된 신호를 인코더(140)의 시간/주파수 컨버터(190)에 제공한다. 때문에, 회의 시스템은 다시 일련의 디코더(120) 및 인코더(140)를 구성하며, 이는 도 1 및 도 2에 도시된 바와 같은 회의 시스템(100)이 일반적으로 "직렬 코딩 시스템"으로 인용될 수 있는 이유이다.
직렬 코딩 시스템은 종종 높은 복잡성의 결점을 나타낸다. 사용되는 인코더 및 디코더들의 복잡성에 강하게 의존하는 믹싱의 복잡성은 여러 가지 오디오 입력 및 출력 신호의 경우에서 상당히 크게 증대할 수 있다. 더욱이, 대부분의 인코딩 및 디코딩 기술이 무손실이 아니라는 점에 기인하여, 도 1 및 도 2에 도시된 바와 같은 회의 시스템(100)에 적용된 직렬 코딩 기술은 일반적으로 좋지 않은 영향을 초래할 수 있다.
또 다른 단점으로써, 반복되는 디코딩 및 인코딩 과정이 회의 시스템(100)의 입력(110) 및 출력(150) 사이의 전체적 지연을 증대시키는데, 이는 엔드-투-엔드 지연(end to end delay)으로 인용된다. 사용되는 인코더 및 디코더의 초기 지연에 따라서, 회의 시스템(100)은 그 회의 시스템의 프레임워크를 사용하는 것이 매력이 없거나 혹은 불가능하게 되는 수준까지 전술한 지연을 증가시킬 수 있다. 대략 50ms의 지연을 참가자들이 대화에서 수용할 수 있는 최대 지연으로 고려하는 것이 보통이다.
지연의 주요 소스로써, 주파수/시간 컨버터(220) 뿐만 아니라 시간/주파수 컨버터(190)가 회의 시스템(100)의 엔드-투-엔드 지연 및 회의 터미널(160)에 의해 미치는 추가 지연에 대한 원인이 된다. 다른 요소들 즉, 양자화기/코더(200) 및 디코더/역양자화기(210)들에 의한 지연은 그들 요소들이 시간/주파수 컨버터 및 주파수/시간 컨버터(190, 220)에 비교하여 훨씬 고주파수에서 작동하기 때문에 별로 중요하지 않다. 대부분의 시간/주파수 컨버터들 및 주파수/시간 컨버터(190, 220)들이 블럭-작동 또는 프레임-작동으로 되고 있으며, 이는 많은 경우에 있어서 시간 당 최소 지연이 고려되고 있다는 것을 의미하고, 이는 버퍼를 채우거나 혹은 블럭에 구성된 프레임의 길이를 갖는 메모리를 채우는데 필요한 시간과 같다. 하지만, 이 시간은 수 kHz로부터 수십 kHz 범위의 샘플링 주파수에 의해 크게 영향을 받고 있는 반면에, 디코더/역양자화기(210) 뿐만 아니라 양자화기/코더(200)의 작동속도는 기반 시스템의 클락 주파수에 의에 주로 결정된다. 일반적으로, 이것은 적어도 2나 3, 4 혹은 보다 큰 규모의 주문이 된다.
때문에, 일반적인 오디오 신호의 코덱을 사용하는 회의 시스템에서는 소위 비트 스트림 믹싱 기술이 도입되었다. 예를 들면, 비트 스트림 믹싱 방법은 MPEG-4 AAC-ELD 코덱에 의하여 수행되며, 이는 직렬 코딩에 의해서도 설명하였지만 전술한 단점의 적어도 일정 부분을 회피할 가능성을 제공한다.
기본적으로, 도 2에 도시된 바와 같은 회의 시스템(100)은, G.7xx 코덱 계열의 음성-기반 코덱과 비교시, 상당히 큰 주파수 대역과 유사한 비트율을 구비한 MPEG-4 AAC-ELD 코덱에 의하여 수행될 수 있다. 이것은 모든 신호 유형에 대하여 보다 좋은 오디오 품질이 크게 증가된 비트율에 관한 비용으로 달성될 수 있음을 즉각적으로 암시한다. 비록, MPEG-4 AAC-ELD가 G.7xx 코덱의 범위에 있는 지연을 제공하더라도, 도 2에 도시된 바와 같은 회의 시스템의 프레임워크에서 동일한 수행과정이 실제적인 회의 시스템(100)을 유발한다. 전술한 소위 비트 스트림 믹싱에 따르는 보다 실적적인 시스템이 도 3에 개략적으로 도시되었다.
도 3에 도시된 회의 시스템(100)에 있어서, 단지 단순성을 위하여, MPEG-4 AAC-ELD 코덱과 그 데이타 스트림 및 비트 스트림에 촛점을 둔 것이며, 다른 인코더나 디코더가 사용될 수 있는 것으로 이해되어야 한다.
도 3은 도 2에서 설명된 회의 터미터(160)과 함께 비트 스트림 믹싱 원리에 따라 구동하는 회의 시스템(100)의 블럭도이다. 여기서, 회의 시스템(100)은 도 2에 도시된 회의 시스템(100)의 단순 버젼이다. 보다 구체적으로, 도 2의 회의 시스템(100)의 디코더(120)가 도 3에서는 디코더/역양자화기(220-1, 220-2, 220-2,...)들로 대체된 것이다. 바꾸어 설명하면, 도 2 및 도 3에 도시된 회의 시스템(100)과 비교시, 디코더(120)의 주파수/시간 컨버터(120)는 제거된 상태이다. 마찬가지로, 도 2의 회의 시스템(100)의 인코더(140)는 양자화기/코더(200-1, 200-2, 200-3)으로 대체된 것이다. 그에 따라서, 인코더(140)의 시간/주파수 컨버터(190)가 도 2 및 도 3에 도시된 회의 시스템(100)과 비교하여 제거된 상태이다.
결과적으로, 가산기(130)가 시간 도메인에서 더 이상 구동하지 않을 뿐만 아니라, 주파수/시간 컨버터(220) 및 시간/주파수 컨버터(190)이 없기 때문에 주파수 또는 주파수 관계 도메인에서도 구동하지 않는다. 예를 들면, 회의 터미널(160)에만 제공된 시간/주파수 컨버터(190) 및 주파수/시간 컨버터(220)는 MPEG-4 AAC-ELD 코덱 내에서 MDCT-변환에 따른다. 그러므로, 회의 시스템(100) 안에서는, 믹서(130)가 MDCT-주파수 표시에서 오디오 신호에 직접적으로 기여한다.
컨버터(190, 220)들이 도 2에 도시된 회의 시스템(100) 경우에서 지연의 주요 소스를 표시하기 때문에, 그들 컨버터(190, 220)들을 제검함으로써 지연이 상당히 감소된다. 더욱이, 회의 시스템(100) 안에서 두개의 컨버터(190, 220)에 의해 도입되는 복잡도 또한 충분히 감소된다. 예를 들면, MPEG-4 AAC-디코더의 경우에 있어서, 주파수/시간 컨커버(220)의 프레임워크에서 수행되는 역MDCT-변환이 전체 복잡도의 약 20% 정도의 원인이 된고 있다. 또한, MPEG-4 컨버터 역시 마찬가지 변환에 따르기 때문에 전체 복잡도에 대한 비관련 기여도는 회의 시스템(100)으로부터 주파수/시간 컨버터(220)를 제거함으로써 제거될 수 있다.
MDCT-변환의 경우나 비슷한 푸리엔-기반 변환의 경우에 그들 변환은 선형변환이기 때문에, MDCT-도메인 또는 다른 주파수-도메인에서 오디오 신호들이 믹싱 가능하다. 전술한 변환들은 아래에 식들에 기재된 바와 같은 수학적 특성 및 함수관계를 지니고 있다.
(1) f(x+y)=f(x)+f(y)
(2) f(a*x)=a*f(x)
이 식에서, f(x)는 변환함수이며, x와 y는 변수 그리고 a는 실제 또는 복합된 상수 값이다.
MDCT 변환이나 다른 푸리엔-기반 변환의 모든 특징은 시간 도메인 내에서 믹싱하는 것과 비슷하게 각각의 주파수 도메인 내에서의 믹싱을 허용한다. 그에 따라서 모든 계산이 스펙트럼 값에 따라서 동일하게 잘 수행된다. 시간 도메인으로 데이타의 변환은 요구되지 않는다.
상황에 따라서, 부가 조건이 있을 수 있다. 상관된 모든 스펙트럼 성분에 대한 믹싱 처리 과정 동안에, 상관된 모든 스펙트럼 데이타는 그 시간 인자들에 관해서 동일하다. 이것이, 회의 터미널(160)의 인코더가 다른 블럭 길이들 사이에서 자유롭게 전환될 수 있도록 소위 블럭 스위칭 기술이 적용된 변환과정 동안에는, 조건에 따라서 나타나지 않을 수 있다. 블럭 스위칭은, 믹스되는 데이타가 동일 윈도우에서 처리되지 않을 경우에, 서로 다른 블럭 길이와 그에 상응하는 MDCT 윈도우 길이 사이에서 스위칭을 하는데 기인하여,시간 도메인 속의 샘플에 대해서 단일하게 지정하는 개별 스펙트럼 값의 가능성을 위태롭게 할 수 있다. 분배 회의 터미널(160)을 구비한 일반적인 시스템에 있어서, 이는 확실하게 보증되지 않기 때문에, 복잡한 보간법이 필요로 할 수 있으며, 이는 순차적으로 부가적인 지연이나 복잡성을 만들 수 있다. 궁극적으로, 스위칭 블럭 길이에 의한 비트 스트림 믹싱 처리는 하지 않는 것이 바람직하다.
반면에, 싱글 블럭 길이에 기초를 둔 AAC-ELD 코덱이 주파수 데이터의 동기화나 전술한 지정(assignment) 문제를 보다 쉽게 보증할 수 있으며, 믹싱이 보다 용이하게 이루어질 수 있다. 바꾸어 설명하면, 도 3에 도시된 회의 시스템(100)은 주파수 도메인이나 변환 도메엔 내에서 믹싱을 수행할 수 있는 시스템이다.
도 2에 도시된 회의 시스템(100)에서 컨버터(190, 200)의 도입에 의한 부가적인 지연을 제거하기 위하여, 회의 터미널(160)에 사용된 코덱이 고정 길이 및 형태의 윈도우를 사용한다. 이는 시간 도메인으로 오디오 스트림을 직접적으로 변환하지 않고 전술한 믹싱 공정을 수행할 수 있게 한다. 이 방법은 부가적으로 도입되는 연산적인 지연 양을 제한할 수 있다. 더욱이, 인코더의 순방향 변환 과정 및 디코더의 역방향 변환 과정이 없기 때문에, 복잡성도 감소된다.
하지만, 도 3에 도시된 바와 같은 회의 시스템(100)의 프레임워크에 있어서, 가산기(130)에 의한 믹싱 이후에 오디오 데이타를 재 양자화시킬 필요가 있으며, 이는 부가적인 양자화 노이즈를 제공할 수 있다. 예를 들면, 회의 시스템(100)에 제공되는 여러 가지 다른 오디오 신호의 다른 양자화 과정으로 인하여, 부가적인 양자와 노이즈가 생성될 수 있다. 결과적으로, 많은 양자화 과정이 제한되는 매우 낮은 비트율 전송의 경우에, 변형 도메인 또는 주파수 도메인에서 두 개의 오디오 신호를 믹싱하는 프로세스는 일반적인 신호 속에 왜곡이나 노이즈를 바람직하지 않게 부가할 수 있다.
도 4를 참조하여 본 발명의 제1 실시예를 설명하기 이전에 데이타 스트림 또는 비트 스트림에 관하여 간략하게 설명한다.
도 4는 스펙트럼 도메인 내에서 적어도 하나 또는 보통 그 이상의 프레임(260)을 갖는 오디오 데이타를 구성하는 데이타 스트림(250) 또는 비트 스트림을 도시한 것이다. 보다 구체적으로, 도 4는 스펙트럼 도메인에서 오디오 데이타의 3개 프레임(260-1, 260-2, 260-3)을 도시한 것이다. 또한, 데이타 스트림(250)은 소정의 다른 제어 값 또는 시간 인자에 관계되는 정보 또는 다른 관계 데이타 또는 오디오 데이타가 인코드되는 방식을 나타내는 제어 값과 같은 부가적인 정보(270)의 블럭 또는 부가적인 정보를 포함한다. 당연히, 도 4에 도시된 데이타 스트림(250)은 하나 이상의 채널의 오디오 데이타를 구성하는 프레임(260) 또는 부가적인 프레임들을 더 포함할 수 있다. 예를 들면, 스테레오 오디오 신호의 경우에 있어서, 각각의 프레임(2600)은 좌측 채널, 우측 채널, 양측으로부터 발생되는 오디오 데이타, 좌우 채널 또는 전술한 데이타의 조합으로부터의 오디오 데이타를 포함할 수 있다.
따라서, 도 4는 데이타 스트림(250)이 스펙트럼 도메인에서 오디오 데이타의 프레임 뿐만 아니라 부가적인 제어 정보, 제어 값, 상태 값, 상태 정보, 프로토콜-관계 값(예를 들면, 합계) 등을 포함하는 것을 개략적으로 도시한 것이다.
도 5는 데이타 스트림(250)의 프레임(260)에 구성된 스펙트럼 성분 관련 (스펙트럼) 정보를 개략적으로 도시한 것이다. 구체적으로, 도 5는 프레임(260)의 싱글 채널의 스펙트럼 도메인에서 정보에 관하여 단순된 다이어그램을 나타낸 것이다. 스펙트럼 도메인에 있어서, 오디오 데이타의 프레임은 주파수f의 함수로써 강도 값 I로 설명될 수 있다. 또한, 디지털 시스템과 같은 이산 시스템에 있어서, 주파수 해상도가 이산되며, 일반적으로 스펙트럼 정보는 단지 서브밴드 또는 협소한 밴드 또는 개별 주파수와 같은 소정의 스펙트럼 성분을 제공할 뿐이다. 서브밴드 뿐만 아니라 협소한 밴드 또는 개별적인 각각의 주파수는 스펙트럼 성분으로 인용된다.
도 5는 4개의 개별 주파수를 구비한 주파수 대역 또는 서브밴드(310) 뿐만 아니라 6개의 개별 주파수(300-1, ..., 300-6)에 대한 강도 분포를 개략적으로 도시한 것이다. 서브밴드 또는 주파수 밴드(310) 뿐만 아니라 개별적인 주파수 또는 그에 상응하는 협소한 밴드(300) 모두는 스펙트럼 성분을 형성하고 있으며, 그에 관한 프레임은 스펙트럼 도메인에서 오디오 데이타에 관련된 정보를 포함한다.
예를 들면, 서브 밴드(310)에 관한 정보는 평균 강도 값 또는 전체 강도가 될 수 있다. 또한, 강도 또는 진폭과 같은 다른 에너지-관련 값 이외에, 각각의 스펙트럼 성분 자신의 에너지 또는 그 에너지로부터 발생되는 다른 값 또는 진폭, 위상 정보 및 다른 정보가 프레임에 포함될 수 있으며, 그에 따라서 스펙트럼 관계 정보로써 고려된다.
본 발명에 따른 실시예의 작동원리는 타임 도메인으로의 역변환과 믹싱 및 신호의 재 인코딩을 포함하여, 모든 입력 스트림이 디코드되는 간단한 방식으로 믹싱이 이루어지지 않는다.
본 발명에 따른 실시예는 각각의 코덱의 주파수 도메인에서 이루어지는 믹싱에 기초한다. 가능한 코덱은 AAC-ELD 코덱이나 일정한 변환 원도우를 구비한 다른 코덱이 사용될 수 있다. 경우에 따라서, 시간/주파수 변환이 각각의 데이타 믹스를 위하여 필요치 않을 수 있다. 본 발명에 따른 실시예는 양자화 과정 또는 양자화 스텝 크기 및 다른 파라메타와 같은 모든 비트 스트림 파라메타들에 접근하는데 사용 가능하며, 그들 파라메타들은 믹스된 출력 비트 스트림을 생성하는데 사용될 수 있다.
본 발명에 따른 실시예는, 스펙트럼 관계 스펙트럼 성분 또는 스펙트럼 라인들의 믹싱이 스펙트럼 정보나 소스 스펙트럼 라인의 가중합산(weighted summation)에 의하여 수행되는데 사용한다. 가중 요인(weighting factors)들은 제로나 1 또는 원칙적으로 어떠한 사이 값이 될 수 있다. 제로 값의 의미는 소스들이 무관(irrelevent)한 것으로 처리되며, 전혀 사용되지 않을 것임을 의미한다. 대역 또는 스케일 팩터 대역과 같은 라인들의 그룹이 본 발명에 따른 실시예에서의 가중 요인과 같이 동일하게 사용될 수 있다. 하지만, 가중 요인들(예를 들면, 제로와 1의 분포)이 싱글 입력 데이타 스트림의 싱글 프레임의 스펙트럼 성분으로 바뀔 수 있다. 더욱이, 본 발명에 따른 실시예는 스펙트럼 정보를 믹싱할 때 가중 요인으로써 1 또는 제로만을 배타적으로 사용하는 것으로 요구하지 않는다. 경우에 따라서, 입력 데이타 스트림의 프레임에 관하여 싱글이나 하나 또는 복수의 전체 스펙트럼 정보로써, 각각의 가중 요인은 제로 또는 1과는 다르게 될 수 있다.
하나의 실시예로써, 한 소스(입력 데이타 스트림 510)의 스펙트럼 성분 또는 모든 대역이 하나의 요인으로 셋팅되고, 다른 소스들의 요인 모두는 제로로 설정될 수 있다. 이 경우에 있어서, 한 참가자의 완전한 입력 비트 스트림이 최종적으로 믹스된 비트 스트림으로 동일하게 복사될 수 있다. 가중 요인은 프레임-투-프레임 기반(frame to frame basis)으로 계산될 수 있을 뿐만 아니라 보다 긴 그룹의 또는 일련의 프레임을 기반으로 계산 또는 결정될 수 있다. 당연히, 일련의 프레임 또는 싱글 프레임 내에서 조차도, 가중 요인들은 서로 다른 스펙트럼 성분에 대하여 상이하게 될 수 있다. 본 발명의 다른 실시예에 있어서, 가중 요인이 심리음향학적 모델(psycoacoustic model)로 얻어지는 결과에 따라서 결정되거나 계산될 수도 있다.
심리음향학적 모델 또는 각각의 모델은 에너지 값 Ef을 유도하는 단지 약간의 입력 스트림이 포함된 믹스된 신호와 에너지 값 Ec를 갖는 완전히 믹스된 신호 사이의 에너지 비율 r(n)을 계산할 수 있다. 이때, 에너지 비율 r(n)은 Ec에 의해 나누어지는 Ef 대수의 20배로 계산될 수 있다.
만약, 상기 비율이 충분히 높으면, 열등 채널은 우등 채널에 의해 가려진 것으로 간주될 수 있다. 따라서, 일부 스트림이 전혀 식별할 수 없는 상태로 포함된 것을 의미하는 비상관 축소(irrelevance reduction)가 진행되며, 한 스트림에 대한 가중 요인이 설정되는 반면에, 하나의 스펙트럼 성분의 적어도 하나의 스펙트럼 정보에서 모든 다른 스트림들은 무시된다. 바꾸어 설명하면, 스트림에 대한 제로의 가중 요인이 설정된다. 보다 구체적으로, 전술한 설명은, 다음 방정식들에 따라서 얻을 수 있을 것이다.
3)
Figure 112010063621878-pct00001
4)
Figure 112010063621878-pct00002

또한, 에너지 비율 r(n)은 다음 방정식에 따라서 얻을 수 있다.
5)
Figure 112010063621878-pct00003

여기서, n은 입력 데이타 스트림의 지수이고, N은 상관되는 입력 데이타 스트림 또는 모든 입력 데이타 스트림의 수효이다. 만약, 비율 r(n)이 충분히 높으면, 열들 채널 또는 입력 데이타 스트림(510)의 열등 프레임이 우등 스트림에 의해 가려진 것으로 보일 것이다. 따라서, 일부 스트림은 식별할 수 있는 상태로 포함된 것을 의미하는 비상관 축소(irrelevance reduction)가 진행되며, 다른 스트림들은 무시된다.
예를 들면, 방적식 (3) 내지 (5)에 관한 프레임워크에서 고려되어야 하는 에너지 값은 각각의 강도 값의 제곱을 산출함에 의해서 강도 값들을 생성할 수 있다. 다른 값을 포함하는 스펙트럼 성분을 고려한 정보의 경우에 있어서, 프레임에 포함된 정보의 형태에 의존하여 마찬가지로 동일한 산출이 이루어진다. 예를 들면, 복잡 정보의 경우에 있어서는, 스펙트럼 성분에 관한 정보를 결정하는 각각의 값의 허수 및 실수 요소의 비율을 산출하는 과정이 수행되어야 할 것이다.
각각의 개별적인 주파수와는 별도로, 방정식 (3) 내지 (5)에 관한 심리음향학적 모듈을 응용하기 위해서는 전술한 방정식 (3) 및 (4)에서 합산은 하나 이상의 주파수를 포함한다. 바꾸어 설명하면, 방정식 (3) 및 (4)에 있어서, 각각의 에너지 값 En은 다우의 개별 주파수에 상응하는 전체 에너지 값이나 주파수 대역의 에너지에 의해서 바꾸어질 수 있으며, 혹은 하나 또는 그 이상의 스펙트럼 성분에 관한 다수의 스펙트럼 정보 또는 한 조각의 스펙트럼 정보에 의하여 보다 일반화된 변수를 넣어서 바꾸어 질 수도 있다.
예를 들면, AAC-ELD는, 인간의 가정 시스템이 동일 시간에서 처리되는 주파수 그룹과 마찬가지로, 대역 방식(a band-wise manner)에서 스펙트럼 라인을 운영하기 때문에, 심리음향학적 모듈이나 비상관 추정(irrelevance estimation)이 유사한 방식으로 수행될 수 있다. 심리음향학적 모듈을 적용함에 의하여, 필요할 경우 단지 하나의 싱글 주파수의 신호 부분을 제거하거나 대체하는 것이 가능하다.
심리음향학 시험에서 밝혀진 바와 같이, 다른 신호에 의하여 어떤 신호를 덮는 마스킹(masking)은 각각의 신호의 유형에 의존한다. 비상관 결정을 위한 최소 한계로써, 최악의 시나리오가 적용될 수 있다. 예를 들면, 어떤 정현파나 다른 독특하고 잘 한정된 사운드에 의한 노이즈를 마스킹하기 위해서는 일반적으로 21 내지 28 dB의 차이가 요구된다. 시험결과들은 대략 28.5 dB의 한계 값이 좋다는 것으로 나타났다. 또한, 이 값은 실제 주파수 대역을 고려시 궁극적으로 개선될 수 있는 것이다.
-28.5 dB 이상시 방정식 (5)에 따르는 값 r(n)은 고려되는 스펙트럼 성분들이나 혹은 그 스펙트럼 성분에 기반한 비상관 평가 또는 심리음향학적 평가 면에서 관련성이 없는 것으로 고려될 수 있다. 다른 스펙트럼 성분들을 위해서는 다른 값들이 사용될 수 있다. 따라서, 10 dB 내지 40 dB, 혹은 20 dB 내지 30 dB, 혹은 25 dB 내지 30 dB를 고려한 프레임에 의하여 입력 데이타 스트림의 심리음향학적 비상관성을 위한 지침으로서의 한계를 사용하는 것은 매우 유용할 수 있다.
재 양자화 과정의 감소 수효에 기인하여, 직렬 코딩 효과가 없거나 혹은 거의 영향을 받지 않는 장점이 있다. 각각의 양자화 과정이 감소되는 부가적 양자화 노이즈의 상당한 위험을 드러내고 있기 때문에, 복수의 입력 데이타 스트림을 믹싱하기 위한 장치의 구성에 있어서 본 발명에 다른 실시예를 적용함에 의해 오디오 신호의 전체적인 품질이 개량될 수 있다. 이는 출력 데이타 스트림이 생성될 때의 경우이며, 그 결정되는 입력 스트림 또는 그 일부분의 프레임의 양자화 수준의 분포에 비교되는 양자화 수준의 분포가 유지된다.
도 6a는 제1 입력 데이타 스트림(510-1)과 제2 입력 데이타 스트림(510-2)의 프레임들을 믹싱하기 위한 장치(500)의 블럭도를 도시한 것이다. 상기 장치(500)는 출력 데이타 스트림(530)을 발생시키는 프로세싱 유닛(520)을 포함하여 구성된다. 구체적으로, 상기 장치(500) 및 프로세싱 유닛(520)은 각각 제1 및 제2 입력 데이타 스트림(510-1, 510-2)의 제1 프레임(540-1) 및 제2 프레임(540-2)를 기반으로 한 출력 데이타 스트림(530)에 구성된 출력 프레임(550)을 생성하도록 구성된다.
각각의 제1 프레임(540-1) 및 제2 프레임(540-2)은 각각 제1 및 제2 오디오 신호에 관계된 스펙트럼 정보를 포함한다. 상기 스펙트럼 정보는 각각 스펙트럼의 하위 부와 상위 부로 분리 구성되며, 스펙트럼의 상위 부는 시간/주파수 그리드 해상도에서 에너지 관련 값 또는 에너지에 관한 SBR-데이타에 의해 기술된다. 스펙트럼의 상위 부 및 하위 부는 SBR 파라메타의 하나인 소위 교차 주파수(cross-over frequency)에서 서로 분리 구성된다. 스펙트럼의 하위 부는 각각의 프레임(540) 내측의 스펙트럼 값에 의하여 기술된다. 도 6a는 스펙트럼 정보(560)의 표시를 개략적으로 도시한 것이다. 상기 스펙트럼 정보(560)는 도 6b를 참조하여 보다 상세하게 설명된다.
상기 장치(500)의 구성에서 본 발명에 따른 실시예를 사용하는 것이 바람직하며, 입력 데이타 스트림(510)에서 프레임(540) 시퀀스의 케이스 안의 프레임(540)은 비교 및 결정과정에서 고려될 것이다.
또한, 도 6a에 개략적으로 도시된 바와 같이, 출력 프레임(550)이 동일한 스펙트럼 정보 표시(560)를 포함하여 구성된다. 따라서, 출력 프레임(550)은 출력 교차 주파수에서 서로 접촉하는 출력 스펙트럼의 하위 부 및 출력 스펙트럼의 상위 부를 구비한 스펙트럼 정보 표시(560)을 포함하여 구성된다. 또한, 입력 데이타 스트림(510)의 프레임(540)과 마찬가지로, 출력 프레임(550)의 출력 스펙트럼의 하위 부 역시 출력 스펙트럼 값들에 의하여 기술되며, 스펙트럼의 상위 부는 출력 시간/주파수 그리드 해상도에서 에너지 값을 구성하는 SBR-데이타에 의하여 기술된다.
프로세싱 유닛(520)은 전술한 바와 같이 출력 프레임을 생성하여 출력시키도록 구성된다. 일반적으로, 제1 프레임(540-1)의 제1 교차 주파수와 제2 프레임(540-2)의 제2 교차 주파수가 서로 다르다. 궁극적으로, 상기 프로세싱 유닛이 사용되어, 제1 교차 주파수의 최소갑 아래의 주파수에 상응하는 출력 스펙트럼 데이타와 제2 교차 주파수 및 출력 교차 주파수가 제1 및 제2 스펙트럼 데이타에 따라서 스펙트럼 도메인에서 직접 생성된다. 이는, 스펙트럼 성분에 상응하는 각각의 스펙트럼 정보를 부가하거나 선형적으로 조합함에 의하여 얻어진다.
또한, 상기 프로세싱 유닛(520)은 최대값 및 최소값 사이의 주파수 영역에 대하여 제1 및 제2 스펙트럼 데이타의 적어도 하나로부터 적어도 하나의 SBR-값이 추정되고, 출력 SBR 데이타의 상응 SBR 값은 추정되는 적어도 하나의 SBR 값에 의하여 발생되도록 구성될 수 있다. 이는, 하나의 실예로서, 고려되는 스펙트럼 성분의 보수 및 주파수가 포함된 최소 교차 주파수 보다 작고 최소값 보다 클 때의 경우이다.
그러한 경우에 있어서, 적어도 하나의 입력 프레임(540)은 출력 프레임이 SBR-데이타가 되기를 기대하면서 각각의 스펙트럼의 하위 부의 일부로써 스펙트럼 값을 포함하여 구성되며, 이는 각각의 스펙트럼 성분가 출력 교차 주파수 위에 놓이기 때문이다. 바꾸어 설명하면, 교차 주파수의 최소값과 최대값 사이의 중간 주파수 영역에서 스펙트럼 중 하나의 하위 부로부터의 스펙트럼 데이타에 따라서 상응 SBR 데이타가 추정되어야 한다. 이후, 스펙트럼 성분에 상응하는 출력 SBR 데이타가 적어도 추정되는 SBR 데이타에 의존하여 고려된다. 보다 자세한 설명은 도 9a 내지 도 9e를 참조하여 설명한다.
한편, 전술한 중간의 주파수 영영에 놓여 있는 포함된 주파수 또는 스펙트럼 성분을 위하여 출력 프레임(550)은 스펙트럼 값을 기대하는데, 이는 각각의 스펙트럼 성분가 출력 스펙트럼의 하위 부에 속하기 때문이다. 하지만, 입력 프레임(540) 중에서 하나는 단지 관련 스펙트럼 성분에 대한 SBR-데이타를 포함할 수 있다. 이 경우에 있어서, SBR-데이타에 따라서 상응 스펙트럼 정보를 추정하는 것이 바람직하며, 선택적으로 스펙트럼 정보에 기반하거나 스펙트럼 정보의 적어도 일부 및 고려하는 입력 프레임의 스펙트럼의 하위 부에 따라서 추정하는 것이 바람직하다. 바꾸어 설명하면, SBR-데이타에 기초한 스펙트럼 데이타의 추정은 상황에 따라서 필요한 것이다. 이후, 추정된 스펙트럼 값에 따라서 각각의 스펙트럼 성분의 상응 스펙트럼 값이 스펙트럼 도메인에서 직접 프로세싱해서 결정되거나 얻을 수 있다.
하지만, 일반적인 SBR과 본 발명의 실시예에 따른 장치(500)의 운영 및 프로세스에 대한 이해를 돕기 위하여, 도 6b가 SBR-데이타를 사용하는 스펙트럼 정보에 대한 보다 자세한 표시(560)를 나타내고 있다.
전술한 바와 같이, 일반적으로 SBR 툴 및 SBR- 모듈은 기본적인 MPEG-4 인코더 및 디코더에 연설되는 여러 가지 인코더 또는 디코더로서 작동한다. SBR 툴은 QMF(quadrature mirror filterbank)와 같은 필터뱅크를 기초로 사용하는 것이며, 또한 선형 변환을 표시한다.
SBR 툴은, 기술된 및 묘사된 주파수 데이타의 정확한 디코딩을 촉진하기 위하여, 데이타 스트림 또는 MPEG 인코더의 비트 스트림 내에서 자신의 정보의 조각 또는 데이타(SBR-파라메타)를 저장한다. 전술한 정보의 조각들은 프레임 그리드 또는 시간/주파수 그리드 해상도로서 SBR 툴의 측면에서 설명될 것이다. 시간/주파수 그리드는 단지 현재의 프레임(540, 550)에 관한 데이타를 포함한다.
도 6b는 싱글 프레임(540, 550)에 대한 시간/주파수를 도시한 것이다. 가로 좌표는 시간축이며, 세로좌표는 주파수축이다.
주파수 f에 의하여 디스플레이되는 스펙트럼은, 먼저 교차 주파수 fx(570)를 하위 부(580)와 상위 부(590)으로 한정함에 의하여 여러 가지로 분리된다. 일반적으로, 스펙트럼의 하위 부(580)는 가장 낮은 주파수인 0 Hz으로부터 교차 주파수까지 연장되며, 스펙트럼의 상위 부(590)는 교차 주파수로부터 시작하여 도 6b에 라인 600으로 표기된 2배의 교차 주파수 2fx 위치에서 끝난다. 스펙트럼의 하위 부(580)은 해칭된 영역으로서 스펙트럼 값(610) 또는 스펙트럼 데이타에 의해 그려지는데, 이는 많은 프레임-기반 코덱과 그들의 시간/주파수 컨버터에서 오디오 데이타의 각각의 프레임이 주파수 도메인으로 완전히 변환되서 스펙트럼 데이타(610)가 양의 프레임 내부 시간 의존성을 포함하지 않게 되기 때문이다. 궁극적으로, 스펙트럼의 하위 부(580)에 의하여, 스펙트럼 데이타(610)가 도 6b에 도시된 시간/주파수 좌표 시스템과 같이 충분히 정확하게 디스플레이되지 않을 수 있다.
하지만, SBR 툴이 적어도 상위 부의 스펙트럼(590)을 다수의 서브밴드로 분리하는 QMF 시간/주파수 변환에 의하여 작동하며, 각각의 서브밴드 신호들은 시간 의존성 또는 시간 해상도를 포함한다. 바꾸어 서명하면, SBR 툴DP 의해 수행되는 서브밴드 도메인으로의 변환이 "믹스된 시간 및 주파수 표시"를 만드는 것이다.
본 설명의 서두에서 기재한 바와 같이, 스펙트럼(590)의 상위 부가 하위 부(580)에 대하여 상당한 유사성 및 그에 따른 충분한 상관성을 보이고 있다는 가정하에서, SBR 툴은 상위 부(590)의 스펙트럼 성분에 있는 주파수로 복사된 스펙트럼의 하위 부(580)의 스펙트럼 데이타의 진폭의 주파수 조작에 따라서 묘사를 하도록 에너지 관련 또는 에너지 값을 유도할 수 있다. 그러므로, 하위 부(580)로부터 상위 부(590)의 주파수로 스펙트럼 정보를 복사하고, 그들의 각각의 진폭을 변조함에 의하여, 스펙트럼 데이타의 상위 부(590)가 모사된다. 예를 들면, 스펙트럼 데이타의 하위 부(580)의 시간 해상도가 근본적으로 존재하지만, 위상정보 또는 다른 파라메타를 포함함에 따라서, 스펙트럼의 상위 부(590)의 서브밴드 설명 및 묘사(description)가 시간 해상도에 직접적인 액세스를 허용하는 것이다.
상기 SBR 툴은 각각의 SBR 프레임에 대한 다수의 타임 슬롯(time slot)을 포함하는 SBR 파라메타를 생성하며, 이는 SBR 프레임 길이 및 기본적인 인코더 프레임 길이가 호환 가능한 경우, 프레임(540, 550)과 동일하다. 그러나, SBR 툴이나 기본적인 인코더 및 디코더 역시 블럭 스위칭 기술을 사용하지는 않는다. 예를 들면, 이 임계조건은 MPEG-4 AAC-ELD 코덱에서 수행된다.
이후, 상기 타임 슬롯이 하나 또는 그 이상의 포락선(envelopes)을 형성하도록 결합된다. 상기 포락선은 적어도 2 또는 그 이상의 타임 슬롯을 포함하며 하나의 그룹으로 형성된다. 각각의 포락선은 서로 연관된 SBR 데이타의 특정 수효를 갖는다. 프레임 그리드에서 타임 슬롯에 의한 길이 및 수효가 각각의 포락선 내에 저장된다.
도 6B에 도시된 스펙트럼 정보(560)의 간략 표시는 제1 및 제2 포락선(620-1, 620-2)을 나타낸 것이다. 비록, 이론적으로는, 포락선(620)이 MPEG-4 AAC-ELD 코덱에서 두 개의 타임 슬롯 보다 적은 길이를 갖으면서도 자유롭게 한정될 수 있지만, SBR 프레임들은 두 개의 클래스, 즉 FIXFIX 클래스와 LD_TRAN 클래스 중에서 어떠한 것에도 속할 수 있다. 비록, 이론적으로는, 상기 포락선 측면에서 타임 슬롯의 어떠한 분포도 가능하지만, 이하 설명에서는 주로 MPEG-4 AAC ELD에 대한 것으로 참조하여야 한다.
상기 FIXFIX 클래스는 16의 가용 타임 슬롯을 다수의 동일하게 긴 포락선으로 나누어지며, LD_TRAN 클래스는 각각 정확히 두 개의 슬롯을 포함하는 두 개 또는 세 개의 포락선을 포함하여 구성된다. 상기 정확히 두 개의 슬롯을 포함하는 포락선은 오디오 신호의 과도 신호, 즉 매우 크고 급격한 사운드와 같은 오디오 신호의 급격한 변화 신호를 포함한다. 상기 과도 신호의 전,후에서 타임 슬롯은 각각의 포락선이 충분히 길게 제공되는 두 개의 추가 포락선을 더 포함할 수 있다.
바꾸어 설명하면, SBR 모듈은 포락선으로 다이나믹한 프레임 분할이 가능하기 때문에, 보다 정확한 주파수 해상도로써 오디오 신호의 과도 신호에 대하여 반응하는 것이 가능한 것이다. 현재 프레임에 오디오의 과도 신호가 존재하는 경우에 있어서, SBR 인코더는 프레임을 적절한 포락선 구조로 나눈다. 프레임 분할은 SBR과 함께하는 AAC-ELD 경우에서 표준화되어 있으며, 가변 트랜포스(TRANPOS)에 의해 특성화된 타임 슬롯에 관한 과도 신호 위치에 의존한다.
과도 신호가 존재하는 경우에 있어서 SBR 프레임은 SBR 인코더에 의해 선택되며, LD_TRAN 클래스는 일반적으로 세 개의 포락선을 포함한다. 스타팅 포락선은 제로에서 TRANPOS-1 까지의 타임 슬롯 지수에 의한 과신호 위치에 이르는 초기 프레임을 포함하며, 상기 과도 신호는 TRANPOS에서 TRANPOS+2 까지의 타임 슬롯 지수에 의하여 정확하게 두 개의 타임 슬롯을 포함하는 포락선에 의해 포락된다. 제3의 포락선은 TRANPOS+3에서 TRANPOS+16 까지의 지수들에 의하여 이어지는 모든 타임 슬롯을 포함한다. 하지만, SBR과 함께하는 AAC-ELD 경우에 있어서 포락선의 최소 길이는 두 개의 타임 슬롯으로 제한되며, 프레임 경계에 인접한 과도 신호를 구비한 프레임들은 단지 두 개의 포락선으로 분할된다.
도 6b에는 두 개의 포락선 620-1 및 620-2가 동일한 길이로 형성되는 상태를 도시한 것이며, 이는 두 개의 포락선을 구비한 FIXFIX SBR 프레임에 속하는 것이다. 따라서, 각각의 포락선은 8 타임 슬롯 길이를 포함하여 구성된다.
각각의 포락선으로 속성화되는 주파수 해상도는 각각의 포락선을 산출하고, 저장할 수 있도록 SBR 에너지 값 또는 에너지 값을 결정한다. AAC-ELD 코덱의 설명에 있어서, SBR 툴은 고해상도와 저해상도 사이에서 스위치될 수 있다. 저해상의 포락선에 비교시, 고해상의 포락선의 경우에 있어서는 2배의 에너지 값이 보다 정밀한 주파수 해상도로 사용될 수 있다. 고 해상도 또는 저 해상도를 위한 주파수 값은 비트율이나 샘플링 주파수 및 다른 파라메타를 포함하는 인코더 파라메타에 의존한다. MPEG-4 AAC-ELD 코덱의 경우에 있어서, SBR 툴은 종종 16 내지 14 값을 고 해상 포락선으로 사용한다. 따라서, 저해상 포락선에 있어서는 에너지 값이 포락선 당 7과 8 사이의 범위에 있는 것이 보통이다.
도 6b는 두 개의 포락선 620-1과 620-2, 6 시간/주파수 영역 630-1a, ...,630-1f, 630-2a..., 630-2f를 도시한 것이며, 각각의 시간/주파수 영역은 하나의 에너지 또는 에너지 관련 SBR 데이타를 표시하는 것이다. 단지 단순함을 위하여, 각각 두 개의 포락선 620-1과 620-2에 대한 3개의 시간/주파수 영역들(630)이 표기되었다. 더욱이, 두 개의 포락선 620-1과 620-2에 대한 시간/주파수 영역(630)의 주파수 분포가 동일하게 선택된 것이다. 당연히, 이는 많은 가성성 중의 하나의 가능성만을 표시한 것이다. 구체적으로, 시간/주파수 영역(630)은 각각의 포락선(620)에 대하여 독립적으로 분포될 수 있다. 그러므로, 포락선(620) 사이에서 스위칭이 일어날 때에는 스펙트럼 또는 그의 상위 부(590)가 전술한 바와 같은 분포로 분할되도록 요구되지 않는다. 시간/주파수 영역(630)의 수효 역시 전술한 바와 마찬가지로 포락선(620)에 의존할 수 있다.
더욱이, 부가 SBR 데이타로써, 노이즈 관계 에너지 값 및 정현파 관계 에너지 값이 각각의 포락선(620) 내에 구성될 수 있다. 단지 단순성만을 위하여, 그 부가 값들은 도시하지 않았다. 노이즈 관계 값이 미리 형성된 노이즈 소스에 관한 각각의 시간/주파수 영역(630)의 에너지 값에 관한 에너지 값을 기술하는 반면에, 정현파 에너지 값은 각각의 시간/주파수 영역과 동일한 에너지 값 및 미리 형성된 주파수에 의한 사인파 진동에 관한 것이다. 일반적으로, 포락선(620) 당 2 내지 3의 노이즈 관계 또는 정현파 관계 값들이 포함된다. 하지만, 작거나 큰 수효로 포함될 수도 있다.
도 7은 도 6a를 기초로 한 본 발명의 실시예에 따른 장치(500)의 상세한 블럭도이다. 그러므로, 도 6a의 설명에서 기술된 구성을 참조한다. 도 6b에 도시된 표시(560) 및 스펙트럼 정보에서 설명한 바로써, 본 발명에 따른 실시예에서는 출력 프레임(550)에 대한 새로운 프레임 그리드를 생성하기 위하여 먼저 프렘임 그리드를 분석하는 것이 바람직하다. 궁극적으로, 프로세싱 유닛(520)은 두 개의 입력 데이타 스트림(510-1, 510-2)이 제공되는 분석기(640)를 포함한다. 상기 프로세싱 유닛(520)은 입력 데이타 스트림(510) 또는 분석기(640)의 출력이 결합된 스펙트럼 믹서(650)을 더 포함하여 구성된다. 또한, 상기 프로세싱 유닛(520)은 입력 데이타 스트림(510) 또는 분석기(640)의 출력이 결합된 SBR 믹서(660)을 더 포함한다.
또한, 상기 프로세싱 유닛(520)은 구성된 프레임(540)이 구비된 입력 데이타 스트림 및/또는 분석 데이타를 수용하기 위하여 두 입력 데이타 스트림(510) 및/또는 분석기(640)에 결합되는 추정기(estimator, 670)를 더 포함한다. 상기 추정기(670)는 스펙트럼 믹서(650) 또는 SBR 믹서(660) 중 적어도 하나에 결합되며, 교차 주파수의 최대 값 또는 최소 값 사이에서 미리 형성된 중간 영역에의 주파수에 대한 추정 스펙트럼 값 또는 추정 SBR 값이 스펙트럼 믹서(650) 또는 SBR 믹서(660) 중 적어도 하나에 제공된다.
스펙트럼 믹서(650) 뿐만 아니라 SBR 믹서(660)가 믹서(680)에 결합되어 출력 프레임(550)을 포함하는 출력 데이타 스트림(530)을 생성 및 출력한다.
작동 방식에 있어서, 상기 분석기(640)는 프레임(540)을 분석하여 그에 포함된 프레임 그리드를 결정하며 교차 주파수를 포함하는 새로운 프레임 그리드를 생성한다. 스펙트럼 믹서(650)가 스펙트럼 도메인에서 주파수에 대한 프레임의 스펙트럼 정보 또는 스펙트럼 값이나 혹은 교차 주파수의 최소 값 이하의 스펙트럼 성분을 믹스하는 반면에, SBR 믹서(660)는 SBR 도메인에서 각각의 SBR 데이타를 믹스한다. 추정기(670)는 전술한 최대 값 및 최소 값 사이의 중간 주파수 영역에 대하여 제공하며, 필요한 경우에 SBR 도메인 또는 스펙트럼에서 적절한 데이타를 구비한 어떠한 믹서(650,66)로 하여금 상기 중간 주파수 도메인에서 작동하도록 한다. 이후, 상기 믹서(680)는 상기 두 믹서(650, 660)으로부터 받은 SBR 데이타 및 스펙트럼을 컴파일하여 출력 프레임(550)을 형성 및 생성한다.
본 발명에 따른 실시예는 회의 시스템, 예를 들면 두 참가자를 구비한 텔레/비디오 회의 시스템의 프레임워크에 사용될 수 있다. 그러한 회의 시스템은, 타임 도메인 믹싱에 비교하여 훨씬 적은 복장성을 가지는 장점을 제공하는데, 이는 시간-주파수 변환 과정 및 재 인코딩 과정이 생략되기 때문이다. 또한, 타임 도메인을 믹싱하는데 비교하여, 필터 뱅크 지연이 없기 때문에 그들 요소에 의한 지역이 일어나지 않는다.
또한, 본 발명에 따른 실시예는 PNS(perceptual noise substitution) 모듈이나 TNS(temporal noise shaping) 모듈 및 다른 스테레오 코딩 모드를 포함하는 보다 복잡한 어플리케이션에 사용될 수 있다. 그러한 실시예에 관해서는 도 8을 참조하여 설명한다.
도 8은 프로세싱 유닛(520)을 포함하는 다수의 입력 데이타 스트림을 믹싱하기 위한 장치(500)에 관한 블럭도이다. 구체적으로, 도 8은 입력 데이타 스트림(비트 스트림)에서 인코드되는 아주 다른 오디오 신호들을 처리할 수 있는 매우 플렉시블한 장치(500)을 도시한 것이다. 이하 설명되는 일부 구성요소는 본 발명에 따른 모든 실시예에 관한 프레임워크에 필요하지 않을 수 있다.
프로세싱 유닛(520)은 프로세싱 유닛(520)에 의해 처리되는 코드되는 오디오 비트 스트림 또는 입력 데이타 스트림 각각을 위한 비트 스트림 디코더(700)을 포함하여 구성된다. 도 8은 두 비트 스트림 디코더(700-1, 700-2)만을 간단하게 도시한 것이다. 당연히, 처리되는 입력 데이타 스트림의 수에 기반하여, 더 높거나 더 낮은 수의 비트 스트림 디코더(700)가 이용될 수 있으며, 일례로써, 상기 비트 스트림 디코더(700)는 하나 이상의 입력 데이타 스트림을 연속적으로 처리할 수 있다.
각각의 비트 스트림 디코더(700-1) 뿐만 아니라 다른 비트 스트림 디코더(700-2,...)은 수용되는 신호들을 받아서 처리하는 비트 스트림 리더(710)을 포함하며, 비트 스트림에서 구성되는 데이타를 분리 및 추출한다. 예를 들면, 상기 비트 스트림 리더(710)는 내부 클락으로 입력되는 데이타를 동기화하고, 입력되는 비트 스트림을 적절한 프레임으로 분리한다.
상기 비트 스트림 디코더(700)는 비트 스트림 리더(710)으로부터 분리된 데이타를 수용하도록 비트 스트림 리더(710)의 출력에 결합되는 허프만 디코더(720)을 더 포함한다. 상기 허프만 디코더(720)의 입력은 역 양자화기(730)에 결합된다. 허프만 디코더(720) 뒤에 결합되는 역 양자화기(730)는 스케일러(740)에 연결된다. 상기 허프만 디코더(720)와, 역 양자화기(730) 및 스케일러(740)는, 각각의 입력 데이타 스트림의 오디오 신호의 적어도 일부분이 참가자(도 8에 미도시됨)의 인코더가 작동하는 주파수 관계 도메인 또는 주파수 도메인에서 가용할 수 있는 출력에서 제1 유닛(750)을 형성한다.
또한, 상기 비트 스트림 디코더(700)는 상기 제1 유닛(750) 이후에 데이타 방식으로 결합되는 제2 유닛(760)을 더 포함한다. 상기 제2 유닛은 스테레오 디코더(770, M/S 모듈)를 포함하며, 그 뒤에는 PNS-디코더가 결합된다. 상기 PNS-디코더(780)는 데이타 방식으로 TNS-디코더(790)에 연결되며, 스테레오 디코더(770) 및 PNS-디코더(780)와 함께 제2 유닛(760)을 형성한다.
상기 비트 스트림 디코더(700)는 제어 데이타를 고려한 여러 가지 모듈 사이에서 다수의 연결장치를 더 포함한다. 보다 구체적으로, 비트 스트림 리더(710)이 적절한 제어 데이타를 받도록 허프만 디코더(720)에 결합된다. 또한, 상기 허프만 디코더(720)는 스케일러(740)에 스케일링 정보를 전송하도록 스케일러(740)에 결합된다. 또한, 스테레오 디코더(770)와 PNS-디코더(780) 및 TNS-디코더(790) 역시 비트 스트림 리더(710)에 결합되어 제어 데이타를 받는다.
상기 프로세싱 유닛(520)은 상기 비트 스트림 디코더(700)에 입력방식으로 결합되는 스펙트럼 믹서(810)가 순차적으로 구성되는 믹싱 유닛(800)을 더 포함하여 구성된다. 또한, 상기 스펙트럼 믹서(810)는 주파수 도메인에서 믹싱을 수행하는 하나 또는 그 이상의 가산기를 포함할 수 있다. 또한 상기 스펙트럼 믹서(810)는 비트 스트림 디코더(700)에 제공되는 스펙트럼 정보에 관한 임의의 선형 결합을 허용하는 곱셈기를 더 포함할 수 있다.
상기 믹싱 유닛(800)은 스펙틀럼 믹서(810)의 출력에 데이타 방식(data wise)으로 결합되는 최적화 모듈(820)을 더 포함한다. 또한, 최적화 모듈(820)은 스펙트럼 믹서(810)에 결합되며, 상기 스펙트럼 믹서(810)에 제어 정보를 제공한다. 상기 데이터 방식의 최적화 모듈(820)은 믹싱 유닛(800)의 출력을 표시한다.
믹싱 유닛(800)은 다른 비트 스트림 디코더(700)에 관한 비트 스트림 리더(710)의 출력에 직접적으로 결합되는 SBR 믹서(830)을 더 포함한다. SBR 믹서(830)의 출력은 믹싱 유닛(800)의 또 다른 출력을 형성한다.
상기 프로세싱 유닛(520)은 믹싱 유닛(800)에 결합되는 비트 스트림 인코더(850)를 더 포함한다. 상기 비트 스트림 인코더(850)은 직렬로 결합되는 TNS-디코더(790)와 PNS-디코더(780) 및 스테레오 디코더(770)를 포함하는 제3 유닛(860)을 포함하여 구성된다. 상기 제3 유닛(860)은 비트 스트림 디코더(700)의 제1 유닛(750)에 관하여 역방향 유닛을 형성한다.
비트 스트림 인코더(850)은 제4 유닛의 입력 및 출력 사이에서 직렬 연결을 형성하는 허프만 코더(930)와 스케일러(910) 및 양자화기(920)를 포함하는 제4 유닛(900)을 더 포함하여 구성된다. 제4 유닛(900)은 제1 유닛(750)에 관한여 역방향 모튤을 형성한다. 또한, 상기 스케일러(910)가 허프만 코더(930)에 직접적으로 결합되어 상기 허프만 코더(930)에 각각의 제어 데이타를 제공한다.
비트 스트림 인코더(850)는 허프만 코더(930)의 출력에 결합되는 비트 스트림 라이터(940)을 포함한다. 또한, 비트 스트림 라이터(940) 역시 TNS-디코더(790)와 PNS-디코더(780), 스테레오 디코더(770) 및 허프만 코더(930)에 결합되어 그들 모듈로부터 제어 데이타 및 정보를 받는다. 상기 비트 스트림 라이터(940)의 출력은 장치(500) 및 프로세싱 유닛(520)의 출력을 형성한다.
비트 스트림 인코더(850)는 믹싱 유닛(800)의 출력에 결합되는 심리음향 모듈(950)를 포함한다. 상기 비트스트림 인코더(850)는 제3 유닛(860)의 모듈에 적절한 제어 정보 표시를 제공하도록 구성되는데, 예를 들면 제3 유닛(860)의 유닛들에 관한 프레임워크에서 믹싱 유닛(800)에 의하여 오디오 신호 출력을 인코드하도록 적용될 수 있다.
기본적으로, 송신 측에서 사용되는 인코더에서 정의되는 바와 같이, 스펙트럼 도메인 내에서오디오 신호의 처리는 제2 유닛(760)의 출력에서 제3 유닛(860)의 입력에 이르기까지 가능하다. 하지만, 만약 입력 데이타 스트림 중의 하나의 프렘인의 스펙트럼 정보가 도미넌트(dominant) 상태에 있는 경우에는, 완전한 디코딩이나 역 양자화, 역 스케일링 및 축가과정이 궁극적으로 필요하지는 않다. 이후, 본 발명의 실시예에 따라서, 각각의 스펙트럼 성분의 스펙트럼 정보의 적어도 일부분이 출력 데이타 스트림의 각각의 프레임의 스펙트럼 성분에 결합된다.
프로세싱을 위하여, 상기 장치(500) 및 프로세싱 유닛(520)은 최적화된 데이타 교환을 위한 신호 라인을 더 포함한다. 도 8의 실시예에 있어서, 스케일러(740)나 스테레오 디코더(770) 및 PNS-디코더(780) 뿐만 아니라 허프만 디코더(720)는 다른 비트 스트림 리더(710) 각각의 요소들과 함께 개별적인 프로세싱을 위해서 믹싱 유닛(800)의 최적화 모듈(820)에 결합된다.
전술한 개별적인 프로세싱 이후에, 비트 스트림 인코더(850) 내에서의 상응 데이타 플로우를 촉진하기 위하여, 옵티마이즈된 데이타 플로우의 상응 데이타 라인이 처리된다. 구체적으로, 최적화 모듈(820)의 출력은 PNS-디코더(780)의 출력과 스테레오 디코더(770), 제4 유닛(900)의 입력 및 스케일러(910) 뿐만 아니라 허프만 코더(930)의 입력에 결합된다. 또한, 상기 최적화 모듈(820)의 출력은 비트 스트림 라이터(949)에 직접적으로 결합된다.
최적의 모듈로 기술한 전술한 대부분의 모듈이 본 발명에 따른 실시예에서 구성되도록 반드시 요구되는 것은 아니다. 예를 들면, 단지 싱글 채널을 구성하는 오디오 데이타 스트림의 경우에 있어서, 스테레오 코딩 및 디코딩 유닛(770, 890)들은 생략될 수 있다. 따라서, PNS-기반 신호가 처리될 필요가 없는 경우에는 상응 PNS 디코더 및 PNS 인코더(780.880) 역시 생략될 수 있다. 또한, TNS 모듈(790, 870) 역시 신호처리에서 생략될 수 있으며, 출력되는 신호는 TNS 데이타에 의존하지 않는다. 제1 및 제4 유닛(750, 900) 내부에서는 스케일러(910) 뿐만 아니라 역 양자화기(730), 스케일러(740) 및 양자화기(920)이 생략될 수 있다. 그러므로, 전술한 모듈들은 옵션 요소로 고려되어야 한다.
허프만 디코더(720)와 허프만 인코더(930)는 다른 알고리즘을 사용하여 상이하게 구성되거나 혹은 완전히 생략될 수 있다.
프로세싱 유닛(520)이 구비된 장치(500)의 작동에 있어서, 인가되는 입력 스트림이 먼저 비트 스트림 리더에 의하여 읽혀지고, 이어서 적절한 조각의 정보로 분리된다. 허프만 디코딩 이후, 결과 스펙트럼 정보가 역 양자화기(730)에 의하여 양자화되며, 역 스케일러(740)에 의하여 적절하게 스케일링 된다. 이후 입력 데이타 스트림에서 인코드된 오디오 신호는 입력 데이타 스트림에 포함된 제어 정보에 기반하여 스테레오 디코더(770)의 프레임워크에 2 또는 그 이상의 채널용 오디오 신호로 분리된다. 예를 들면, 만약 오디오 신호가 미드-채널(M) 및 사이드-채널(S)을 포함하고 있다면, 그에 상응하는 좌측-채널 및 우측-채널 데이타가 서로 더하거나 빼서 얻어진다. 수많은 처리과정에 있어서, 상기 미드-채널은 좌측-채널 및 우측-채널 오디오 데이타의 합에 비례하게 되는 반면에, 사이드-채널은 좌측-채널(L) 및 우측-채널(R) 사이의 차이에 비례하게 된다. 전술한 채널은 처리과정에 따라서, 요소의 1/2을 클리핑 효과(clipping effects)의 방지 요소로 고려하여 더해지거나 차감될 수 있다. 일반적으로 서로 다른 채널들은 선형 결합에 의해 처리되어 그에 상응하는 상응 채널들을 얻을 수 있다.
바꾸어 설명하면, 스테레오 디코더(770) 이후에서 적절한 경우에, 오디오 데이타가 개별적인 2 채널으로 분리될 수 있다. 또한, 당연히 역 디코팅 역시 스테레오 디코더(770)에 의해서 수행될 수 있다. 만약, 비트 스트림 리더(710)에 의해 수신되는 오디오 신호가 좌-우 채널을 포함하고 있다면, 스테레오 디코더(770)은 적절한 미드-채널 및 사이드-채널을 동일하게 산출 및 결정할 수 있다.
장치(6)의 처리과정 뿐만 아니라 각각의 입력 데이타 스트림을 제공하는 참가자의 인코더의 처리과정에 의존하여, 각각의 데이타 스트림은 PNS-파라메타를 포함할 수 있다. 상기 PNS는 인간의 귀가 혼잡 노이즈(혹은 잡음)로부터 개별적인 주파수 혹은 대역과 같은 제한된 주파수 범위 또는 스펙트럼 성분안에 포함된 노이즈와 비슷한 소리를 구별해낼 수 없다는 사실을 토대로 하고 있다. 그러므로, PNS는 오디오 신호의 실제적인 유사 노이즈 속성을 각각의 스펙트럼 성분으로 합성되어야 하는 노이즈의 수준을 가리키고 액티브 오디오 신호를 방치하는 에너지 값으로 대체한다. 바꾸어 설명하면, PNS 디코더는 입력 데이타 스트림에 포함된 PNS 파라메타에 기반한 실제적으로 노이즈와 비슷한 오디오 신호 속성에 관한 하나 또는 그 이상의 스펙트럼 성분을 재구성할 수 있다.
TNS 디코더(790) 및 TNS 인코더(870)에 의하여, 각각의 오디오 신호가 송신측에서 작동하는 TNS 모듈에 관한여 변조되지 않은 버젼으로 다시 변형되어야만 한다. TNS는 양자화 노이즈에 의해 야기되는 프리 에코 성부을 감소시킨다는 의미이며, 이는 오디오 신호의 프레임 안에 트렌진트(transient)와 같은 과도 신호가 존재할 수 있다는 것이다. 그러한 트렌진드를 억제하기 위하여, 적어도 하나의 적응 예측 필터가 스펙트럼의 하위 측이나, 상위 측 또는 양 측으로부터 시작하는 스펙트럼 정보에 가용된다. 예측 필터의 길이 뿐만 아니라 각각의 필터에 적용되는 주파수 범위도 적용될 수 있다.
바꾸어 설명하면, TNS 모듈의 작동은 하나 또는 그 이상의 적응 IIR(infinite impulse response) 필터의 연산과 인코딩 및 예측 필터의 필터 계수와 더불어 예측 및 실제 오디오 신호의 차이 또는 차분을 기술하는 에러 신호를 전송하는 것에 기초하고 있다. 궁극적으로, 오디오 품질을 증가시키는 반면에, 주파수 도메인에서 예측 필터를 사용하여 유사 트렌진트 신호(유사 과도 오디오 신호)를 복제함에 의하여 전송 데이타 스트림의 비트율을 유지하여 남아있는 에러 신호의 진폭을 감소시키며, 이후에는 동일한 유사한 양자화 노이즈로 전술한 유사 과도 오디오 신호를 직접적으로 인코딩하는 것에 비교하여 훨씬 적은 양자화 과정을 사용하여 인코딩될 수 있다.
TNS 어플리케이션 측면에서, 어떤 경우에는 TNS의 함수를 사용하는 것이 바람직한데, 이는 사용된 코텍에 의해 결정되는 스펙트럼 도메인에서 "pure" 표시까지 되도록 입력 데이타 스트림의 TNS 부분을 복호화한다. 상기 TNS 디코더(790)의 함수를 이용한 어플리케이션은 심리음향학적 모델의 추정(예를 들면, 심리음향 모듈(950)에서 적용)이 TNS 파라메타에 포함된 예측 필터의 필터 계수에 입각하여 추정시킬 수 없는 경우에 유용하다. 이는 적어도 하나의 입력 데이타 스트림이 TNS를 사용하는 반면에 다른 것은 사용하지 않을 경우에 특히 중요할 것이다.
TNS를 사용하여 입력 데이타 스트림의 프레임으로부터 스펙트럼 정보가 사용되는 입력 데이타 스트림의 프레임 비교를 토대로 상기 프로세싱 유닛이 결정을 할 때, TNS 파라메타는 출력 데이타의 프레임으로 사용될 수 있다. 만약, 출력 데이타 스트림의 수신기가 TNS 데이타를 복호화할 수 없으면, 에러 신호의 각각의 스펙트럼 데이타 및 추가 TNS 파라메타의 복제 뿐만 아니라 TNS 인코더(870)를 사용하여스펙트럼 데이타에서 정보를 얻도록 TNS 관계 데이타로부터 재구성 데이타를 처리하는데 매우 유용하다. 도 8에 도시된 모듈이나 구성요소가 본 발명에 따른 다른 실시예들에서는 불필요할 수 있다.
적어도 하나의 오디오 입력 스트림과 PNS 데이타를 비교하는 경우에 있어서, 비슷한 실시가 가능하다. 만약, 입력 데이타 스트림에 관한 스펙트럼 성분이 하나의 입력 데이타 스트림이 지배적인(dominating) 스펙트럼 성분들이나 각각의 스펙트럼 성분 및 현재 프레임으로 존재한다는 것을 나타내기 위하여 프레임들을 비교한다면, 각각의 PNS 파라메타(예를 들면 각각의 에너지 값)들은 출력 프레임의 각각의 스펙트럼 성분을 직접적으로 복제할 수 있다. 하지만, 수신측에서 PNS 파라메타를 받아들일 수 없다면, 스펙트럼 정보는 각각의 에너지 값에 의해 표시되는 바와 같이 적절한 에너지 레벨로 노이즈를 생성함에 의하여 각각의 스펙트럼 성분에 대하여 PNS 파라메타로부터 재구성될 수 있다. 이후에, 노이즈 데이타는 스펙트럼 도메인에서 처리된다.
전술한 바와 같이, 전송되는 데이타는 SBR 데이타를 포함하며, 이후에는 전술한 함수 작동을 수행하는 SBR 믹서(830)에 의하여 처리된다. SBR은 좌측 및 우측-채널을 별개로 코딩할 뿐만 아니라 커플링 채널(C)에 관해서 동일하게 코딩하는 2 코딩 스테레오 채널을 허용하기 때문에, 각각의 SBR 파라메타 또는 그들의 적어도 일부분에 대한 프로세싱은 SBR 파라메타의 C 요소를 결정 및 전송되는 SBR 파라메타의 좌측 및 우측 요소 전체에 복제하거나 혹은 그 반대의 복제단계를 포함하여 구성할 수 있다.
더욱이, 본 발명의 다른 실시예에 따르면, 입력 데이타 스트림이 각각 1 채널 및 2 채널을 포함하는 모노 오디오 신호 및 스테레오 오디오 신호 전체를 포함할 수 있기 때문에 모노-스테레오 다운믹스 혹은 스테레오-모노 다운믹스가 입력 데이타 스트림의 프레임의 처리 및 출력 데이타 스트림의 출력 프레임의 생성에 관한 프레임워크에서 부가적으로 수행될 수 있다.
전술한 바, TNS 파라메타 측면에서는, 재 양자화를 방지하기 위하여 지배적인 입력 데이타 스트림으로부터 출력 데이타 스트림에 이르는 전체 프레임의 스펙트럼 정보와 더불어 각각의 TNS 파라메타를 처리하는 것이 바람직하다.
PNS 기반 스펙트럼 정보에 있어서, 개별적인 에너지 값의 프로세싱은 기본적인 스펙트럼 성분의 디코딩 없이 실행할 수 있다. 게다가, 그 경우에 있어서는, 다수의 입력 데이타 스트림의 프레임의 지배적인 스펙트럼 성분으로부터 출력 데이타 스트림의 출력 프레임의 상응 스펙트럼 성분에 이르는 각각의 PNS 파라메타가 단지 추가적인 양자화 노이즈를 도입하지 않으면서 일어날 수 있다.
본 발명에 따른 일실시예는, 다수의 입력 데이타 스트림의 프레임을 비교하고, 이후 비교결과를 기초로 스펙트럼 정보의 소스가 되는 정확히 하나의 데이타 스트림인 출력 데이타 스트림의 출력 프레임의 스펙트럼 성분을 결정한 이후의 스펙트럼 성분을 고려한 스펙트럼 정보를 간단하게 복제하는 단계를 포함할 수 있다.
심리음향 모듈(950)의 프레임워크에서 수행되는 대체 알고리즘은 단지 하나의 싱글 액티브 요소로 스펙트럼 성분을 확인하는 결과 신호의 기본적인 스펙트럼 성분(예를 들면, 주파수 대역)을 고려한 각각의 스펙트럼 정보를 검사한다. 그 주파수 대역에 대하여, 입력 비트 스트림에 관한 각각의 입력 데이타 스트림의 양자화 값은 지정된 스펙트럼 성분에 대한 각각의 스펙트럼 데이타를 재 양자화하거나 재 인코딩하지 않고 인코더로부터 복제될 수 있다. 경우에 따라서, 모든 양자화 데이타는 출력 비트 스트림 또는 출력 데이타 스트림을 형성하는 싱글 액티브 입력 신호로부터 얻을 수 있어서 본 발명에 의한 장치(500)에 의하여, 입력 데이타 스트림의 무손실 코딩을 달성할 수 있다.
더욱이, 인코더내의 심리음향 분석과 같은 처리 단계를 생략할 수 있다. 이는 인코딩 프로세스를 짧게 하며 그에 따라서 계산 복잡도를 감소시킬 수 있다. 왜냐하면, 하나의 비트 스트림으로부터 또 다른 하나의 비트 스트림을 복제하는 단계는 단지 특정 상황하에서만 수행되기 때문이다.
예를 들면, PNS의 경우에서 대체 과정이 수행될 수 있는데, 이는 PNS 코드 대역의 노이즈 요소가 출력 데이타 스트림 중의 하나로부터 출력 데이타 스트림에 이르러 복제되기 때문이다. 또한, 개별적인 스펙트럼 성분을 적절한 PNS 파라메타로 대체하는 것이 가능하며, 이는 PNS 파라메타들이 스펙트럼 성분을 지정, 바꾸어 설명하면 서로 독립적인 매우 양호한 근사치가 되기 때문이다.
하지만, 전술한 알고리즘의 두 어플리케이션은 청취력을 떨어뜨리거나 품질을 바람직하지 않게 감소시킬 수 있다. 개별적인 스펙트럼 성분을 고려시, 스펙트럼 정보 보다는 개별적인 프레임으로 대체 과정을 제한하는 것이 바람직하다. 작동방식에 있어서, 대체 분석 뿐만 아니라 비상관 추정 또는 비상관 결정이 불변상태로 수행될 수 있다. 하지만, 본 발명에 있어서, 대체과정은 단지 액티브 프레임 내에 있는 적어도 상당수의 스펙트럼 성분 혹은 전체 스펙트럼 성분이 대체 가능 상태에 있을 시에만 수행된다. 비록, 이것이 보다 적의 수의 대체를 이끌어 내지만, 경우에 따라서 스펙트럼 정보의 내부 강도가 개량되어 약간의 품질 개량으로 이끌어 주는 장점도 있다.
본 발명의 실시에 따른 SBR 믹싱에 있어서, 도 8에 도시된 장치(50)의 추가 및 선택 요소를 배제하고, SBR 및 SBR 데이타의 믹싱에 관한 작동원리를 설명한다. 전술한 바, SBR 툴은 선형 변환을 표시하는 QMF를 사용한다. 궁극적으로, 이는 스펙트럼 도메인에서 직접적으로 스펙트럼 데이타(610, 도 6b 참조)를 처리할 뿐만 아니라 스펙트럼의 상위 부(590)에서 각각의 시간/주파수 영역(630)에 관계된 에너지 값을 처리할 수 있다. 하지만, 필요할 경우에는 믹싱 이전에 포함된 시간/주파수 그리드를 먼저 조절하는 것이 바람직하다.
비록, 완전히 새로운 시간/주파수 그리드를 생성하는 것이 가능하지만, 이하에서는 하나의 소스에서 일어나는 시간/주파수 그리드가 출력 프레임(550)의 시간/주파수 그리드로 사용될 수 있는 실시에 대하여 설명한다. 시간/주파수 그리드에 관한 결정은 일례로써 음향심리학적 고려를 토대로 사용될 수 있다. 예를 들면, 그리들 중의 하나가 트렌진트 및 과도 신호를 포함시, 상기 트렌진트를 포함하거나 혹은 상기 트렌진트와 호환가능한 시간/주파수 그리드를 사용하는 것이 바람직하며, 인간의 청각 시스템의 마스킹 효과 때문에 가청 성분들은 궁극적으로 지정 그리드를 벗어날 때 도입될 수 있다. 예를 들면, 트렌진트 및 과도 신호를 구비한 2 또는 그 이상의 프레임들은 본 발명의 실시예에 따른 장치(500)에 의해 처리될 수 있으며, 가장 빠른 트렌진트 및 과도 신호에 호환될 수 있는 시간/주파수 그리드를 선택하는 것이 바람직하다. 부연하면, 마스킹 효과에 기인하여, 심리음향학적 고려를 토대로, 보다 이른 시도를 포함하는 그리드를 선택하는 것이 바람직하다. 하지만, 경우에 따라서, 다른 시간/주파수 그리드가 산출되거나 선택될 수도 있다.
그러므로, SBR 프레임 그리드를 믹싱 할 때, 프레임(540)에 포함된 하나 또는 그 이상의 과도 신호 위치 및 그 존재를 분석하고 결정하는 것이 바람직하다. 이는, 경우에 따라서 선택적으로, 각각의 프레임(540)의 SBR 데이타의 프레임 그리드를 평가하고, 프레임 그리드들이 호환 가능하지 혹은 각각의 과도 신호의 존재를 가리키는지 여부를 확인함에 의해 달성될 수 있다. 예를 들면, AAC ELD 코덱의 경우에, LD_TRAN 프레임 클래스의 사용이 과도 신호의 존재를 나타낼 수 있다. 또한, 이 클래스는 가변 TRANPOSE를 포함하기 때문에 타임 슬롯에 의한 과도 신호의 위치가 분석기(640)에 알려진다(도7 참조).
하지만, 다른 SBR 프레임 클래스 FIXFIX가 사용될 수 있기 때문에, 다른 콘스텔레이션(constellation)이 출력 프레임(550)의 시간/주파수 그리드 생성시에 일어날 수 있다. 예를 들면, 프레임들이 과도 신호 없이 또는 동일한 과도 신호 위치에서 일어날 수 있다. 만약 프레임들이 과도 신호를 포함하지 않는다면, 단지 싱글 포락선만을 포락선 구조에 사용하여 전체 프레임으로 확장 가능하다. 또한, 포란선의 수효가 동일한 경우에는, 베이직 프레임 구조가 복제될 수도 있다. 한 프레임에 포함된 포락선의 수효가 다른 프레임의 정수인 경우에는 아주 질 좋은 포락선 분포가 사용될 수 있다.
마찬가지로, 모든 프레임(540)이 동일 위치에 있는 과도 신호를 포함할 때에는 시간/주파수 그리드가 두 그리드들 중의 하나로부터 복제된다.
과도 신호 없이 싱글 포락선을 구비한 프레임들과 과동신호를 구비한 프레임을 믹싱할 때에는 프레임을 포함한 과도 신호의 프레임 구조가 복제된다. 이 경우에 있어서, 각각의 데이타를 믹싱할 때, 새로운 과도 신호가 발생하지 않는다는 가정을 한다. 대체로, 이미 존재하는 과도 신호는 증폭되거나 줄어든다.
다른 과도 신호 위치가 포함된 프레임의 경우에는 각각의 프레임이 기본 타임 슬롯에 관해서 다른 위치에 있는 과도 신호를 포함한다. 이 경우, 과도 신호 위치를 토대로 분포를 적절하게 하는 것이 바람직하다. 대부분의 경우에는 프리 에코 효과 및 다른 문제가 제1 과도 신호의 사후 효과에 의해 가려지기 때문에, 제1 과도 신호의 위치가 상관적이다. 이 경우에 있어서, 제1 과도 신호의 위치에 프레임 그리드를 적용하는 것이 적절하다.
프레임에 관한 포락선의 분포를 결정한 후에, 각각의 포락선의 주파수 해상도가 결정된다. 일반적으로 새로운 포락선의 해상도로써, 입력 포락선의 가장 높은 해상도가 사용된다. 예를 들면, 분석되는 포락선 중의 하나의 해상도가 높으면, 출력 프레임 또한 그 주파수에 관하여 높은 주파수를 구비한 포락선을 포함한다.
구체적으로, 두 입력 데이타 스트림(510-1, 510-2)의 입력 프레임(540-1,540-2)이 다른 교차 주파수를 포함하는 경우, 도 9a 및 도 9b는 각각의 두 입력 프레임(510-1, 540-2)에 대하여 도 6a에 도시된 바와 같이 각각의 표시를 도시한 것이다. 도 6b의 묘사가 매우 상세하게 도시된 바에 기인하여, 도 9a 및 도 9b에는 부분적으로 축약이 있다. 또한, 도 9a에 도시된 프레임(540-1)은 도 6b에 도시된 것과 동일한 것이다. 그것은, 전술한 바와 같이, 교차 주파수(570) 위에서 다수의 시간/주파수 영역(630)을 구비한 동일 길이의 두 포락선(620-1, 620-2)을 포함한다.
도 9b에 개략적으로 도시된 제2 프레임(540-2)은 도 9a에 도시된 프레임과 다르다. 또한, 프레임 그리드가 동일하지 않은 길이의 세 포락선(620-1, 620-2, 620-3)을 포함하는 점 이외에, 교차 주파수(570) 및 시간/주파수 영역(630)에 관한 주파수 해상도가 도 9a에 도시된 바와 다르다. 도 9b에 도시된 실시예에 있어서, 교차 주파수9570)은 도 9a의 프레임(540-1) 보다 크다. 궁극적으로, 스펙트럼(590)의 상위 부가 도 9a에 도시된 프레임(540-1)의 것 보다 크다.
AAC ELD 코덱이 도 9a 및 도 9b에 도시된 바와 같은 프레임(540)을 제공한다는 가정하에서, 프레임(540-2)의 프레임 그리드가 동일하지 않은 길이의 세 포락선(620)들을 포함한다는 사실은 제2의 세 포락선(620)들이 과도 신호를 포함한다는 결론에 도달한다. 따라서, 제2 프레임(540-2)의 프레임 그리드가 적어도 시간 분포에 관하여 출력 프레임(550)을 위해 선택될 수 있는 해상도이다.
하지만, 도 9c에 도시된 바와 같이, 다른 교차 주파수(570)이 여기에 사용될 수 있다는 사실로부터 추가적인 도전을 받는다. 구체적으로, 도 9c는 주파수 정보 표시(560)에 의하여 두 프레임(540-1, 540-2)가 함께 나타나는 중첩 상황을 도시한 것이며, 오직 도 9a에 도시된 바(교차 주파수 fx1)와 같은 제1 프레임(540)의 교차 주파수(570-1)과 도 9b에 도시된 바(교차 주파수 fx2)와 같은 제2 프레임(540-2)의 보다 높은 교차 주파수를 고려함에 의해서만이 제1 프레임(540-1)으로부터의 SBR 데이타 및 제2 프레임(540-2)으로부터의 스펙트럼 데이타를 위한 중간 주파수 범위 (1000)는 구할 수 있다. 바꾸어 설명하면, 중간 주파수(1000) 내의 주파수의 스펙트럼 성분을 위하여, 믹싱 절차는 도 7에 도시된 추정기(670)에 의해 제공되는 바와 같이 추정된 스펙트럼 데이타 또는 추정된 SBR 값에 의존한다.
도 9c에 도시된 실시예에 있어서, 두 교차 주파수(570-1, 570-2)의 주파수에 의하여 감싸진 중간 주파수 범위(1000)은 추정기(670)와 프로세싱 유닛(520)이 작동하는 주파수 범위를 표시한다. 이 주파수 범위(1000)에 있어서, SBR 데이타는 단지 제1 프레임(540-10)으로부터 구할 수 있으며, 반면에 주파수 범위에 있는 제2 프레임(540-2)으로부터는 단지 스펙트럼 정보 또는 스펙트럼 값만이 구할 수 있다. 궁극적으로, 중간 주파수 범위(1000)의 주파수 또는 스펙트럼 성분이 출력 교차 주파수의 위 또는 아래에 있는지 여부에 따라서, SBR 도메인 내의 프레임(540-1, 540-2) 중 하나로부터 최초 값과 추정된 값을 믹싱하기 이전에 평가되어야 하는 SBR 값이나 스펙트럼 값이 스펙트럼 도메인에 있게 된다.
도 9D는 출력 프레임의 교차 주파수가 교차 주파수(570-1, 570-2)의 하위 부와 동일한 경우를 도시한 것이다. 궁극적으로, 출력 교차 주파수(570-3, fx0)가 제1 교차 주파수(570-1, fx1)와 동일하며, 또한 교차 주파수의 2배가 되도록 인코드된 스펙트럼의 상위 부를 제한한다.
이전에 결정된 시간 해상도 또는 그에 관한 포락선 분포를 토대로 시간/주파수의 주파수 해상도를 다시 결정하거나 복제(재구성)함에 의하여, 출력 SBR 데이타는 제2 프레임(540-2)의 스펙트럼 데이타(610)로부터 그들 주파수 상응 SBR 데이타를 추정하여 중간 주파수 범위(1000, 도 9c 참조) 내에서 결정된다.
이 추정은 주파수 범위가 제2 교차 주파수(570-2) 위의 주파수에 대한 SBR 데이타를 산출하므로 제2 프레임(540-2)의 스펙트럼 데이타(610)을 기반하여 수행된다. 이는 포락선 분포 또는 시간 해상도 측면에서, 제2 교차 주파수(5780-2) 주위의 주파수들이 대부분 확률적으로 동등하게 영향을 받는다는 가정에 따른 것이다. 그러므로 중간 주파수 범위 (1000)에서 SBR 데이타의 추정이 달성되는데, 예를 들면 각각의 스펙트럼 성분에 대한 스펙트럼 정보에 의존하는 각각의 에너지 값의 SBR 데이타에 의해 기술되는 가장 좋은 시간 및 주파수 해상도를 산출하고, 제2 프레임(540-2)의 SBR 데이타의 포락선들에 의해 나타나는 바와 같은 진폭의 시간적 전개에 의존하여 각각 증폭 또는 속성화 함에 의해서 달성된다.
그 이후에, 평활 필터나 다른 필터링 단계를 적용함에 의해서, 추정된 에너지 값들은 출력 프레임(550)을 위해 결정되는 시간/주파수 그리드의 시간/주파수 영역(630)으로 맵핑된다. 예를 들면, 도 9d에 도시된 바와 같은 솔루션은 보다 낮은 비트율에 의미가 있다. 들어오는 모든 스트림의 가장 낮은 교차 주파수는 출력 프레임을 위한 SBR 교차 주파수로 사용되며, SBR 에너지 값들은 스펙트럼 계수 또는 스펙트럼 정보로부터 SBR 코더(교차 주파수 위에서 작동함)와 코어 코더(교차 주파수까지 작동함) 사이의 갭 내에서 주파수 영역(1000)을 위해 추정된다. 이 추정은 MDCT 또는 LDFB(low-delay filter bank) 스펙트럼 계수로부터 추론할 수 있는 아주 큰 스펙트럼 정보의 다양성에 기초하여 이루어질 수 있다. 더욱이, 평활 필터는 SBR 부분과 코어 코더 사이의 갭을 매울 수 있도록 사용될 수 있다.
전술한 솔루션은 높은 비트율의 스트림, 예를 들면 64 kbit/s 의 스트림을 32 kbit/s 정도의 낮은 비트 스트림으로 추려내는데 사용할 수 있다. 또한, 그러한 솔루션은 믹싱 유닛에 대하여, 모뎀-다이얼 연결장치와 같은 저 데이타 율 연결장치를 참가자에게 제공하기 위하여 사용하는데 바람직하다.
교차 주파수의 또 다른 경우가 도 9e에 도시되었다. 도 9e는 보다 높은 두 교차 주파수(570-1, 570-2)가 출력 교차 주파수(570-3)로 사용되는 경우를 도시한 것이다. 출력 프레임(550)은 출력 교차 주파수 스펙트럼 정보(610) 까지 및 일반적으로 교차 주파수(570-3)의 2배의 주파수까지의 SBR 데이타에 상응하는 출력 교차 주파수 위에서 구성된다. 하지만, 이 경우는 중간 주파수(1000, 도 9c 참조)에서 스펙트럼 데이타를 어떻게 재 설정할 것인지에 대한 질문을 던지게 한다. 시간/주파수 그리드의 포락선 분포 또는 시간 해상도를 결정한 이후 및 출력 교차 주파수(570-3) 위의 주파수를 위한 시간/주파수 그리드에 관한 적어도 부분적인 주파수 해상도를 결정 또는 복제한 이후에, 중간 주파수 범위(1000)에서 제1 프레임(540-1)의 SBR 데이타에 기초하여, 스펙트럼 데이타가 프로세싱 유닛(520) 및 추정기(670)에 의하여 추정되어야 한다. 이는, 비록 약간의 또는 전체 스펙트럼 정보(610)가 제1 교차 주파수(570-1, 도 9a 참조) 아래에 있더라도, 선택적으로 고려하여 제1 프레임(540-1)의 주파수 범위(1000)에 대한 SBR 데이타에 기초한 스펙트럼 정보를 부분적으로 재구성함에 의해서 달성할 수 있다. 바꾸어 설명하면, 미싱(missing)되는 스펙트럼 정보의 추정이, 중간 주파수 범위(1000)의 주파수에 대하여 적어도 부분적으로 SBR 디코더의 재구성 알고리즘을 적용함에 의하여 스펙트럼의 하위 부(580)의 상응 스펙트럼 정보 및 SBR 데이타로부터의 스펙트럼 정보를 대체함에 의해서 달성될 수 있다.
부분적인 SBR 디코딩 또는 재구성을 주파수 도멘인으로 사용함에 의하여 중간 주파수 범위의 스펙트럼 정보를 추정한 이후에, 결과적으로 추정되는 스펙트럼 정보는 선형 조합을 사용하여 스펙트럼 도메인에서 제2 프레임(540-2)의 스펙트럼 정보와 함께 직접적으로 믹스된다.
또한, 교차 주파수 위의 공간 성분 또는 주파수에 대한 스펙트럼 정보의 재구성 또는 대체가 역 필터링으로 인용된다. 본 발명의 설명에 있어서, 중간 중파수 범위(1000)내의 성부이나 주파수에 대한 각각의 스펙트럼 정보를 추정시, 부가적인 배음 및 부가적인 잡음(noise) 에너지 값이 더 고려될 수 있다.
본 발명에 의한 실시예에 따른 솔루션은, 처리 가능한 높은 비트 율을 갖는 믹식 유닛 또는 장치에 연결되는 참가자 회의용으로 흥미로울 수 있다. 패치 또는 복사 알고리즘이, 각각의 교차 주파수에 의해 분리되는 SBR 부분이나 코어 코더 사이의 갭을 매울 수 있도록 낮은 대역으로부터 높은 대역에 걸쳐서 카피하기 위하여, 스펙트럼 도메인에 관한 스펙트럼 정보에 이용, 예를 들면 MDCT 또는 LDFB 스펙트럼 계수에 이용할 수 있다.
도 9d 및 도 9e의 경우에 있어서, 가장 낮은 하위의 교차 주파수 아래의 스펙트럼 정보가 스펙트럼 도메인에서 직접 처리될 수 있으며, 반면에 가장 높은 상위의 교차 주파수 위의 SBR 데이타가 SBR 도메인에서 직접 처리될 수 있다. 일반적으로, 포함된 교차 주파수의 최소 값의 2배 위에 있는 SBR 데이타에 의해 기술되는 바와 같은 가장 높은 교차 주파수의 최하위 위의 보다 높은 주파수를 위하여, 출력 프레임(550)의 교차 주파수를 기초로 다른 방법이 적용될 수 있다. 원칙적으로, 도 9e에 도시된 출력 교차 주파수(570-3)와 같이 포함된 가장 높은 교차 주파수를 사용시, 상기 가장 높은 주파수를 위한 SBR 데이타는 단지 제2 프레임(540-2)의 SBR 데이타에 주로 의존한다. 하나의 옵션으로써, 상기 값들은 교차 주파수 아래의 주파수를 위한 SBR 에너지 값의 선형 조합의 프레임워크에 사용되는 댐핑 요소 및 표준화 요소에 의해 줄어들 수 있다. 도 9d에 도시된 경우에 있어서, 가장 낮게 적용가능한 교차 주파수가 교차 주파수로 활용시, 제2 프레임(540-2)의 각각의 SBR 데이타가 무시될 수 있다.
당연히, 본 발명에 따른 실시예는 단지 2 입력 데이타 스트림에 제한되지 않고, 2 이상의 입력 데이타 스트림을 포함하는 복수의 입력 데이타 스트림으로 용이하게 확장될 수 있다. 이 경우, 전술한 방법은 입력 데이타 스트림 측면에서 사용된 실제 교차 주파수에 의존하는 다른 입력 데이타 스트림으로 용이하게 적용된다. 예를 들면, 입력 데이타 스트림의 교차 주파수가 출력 프레임(550)의 출력 교차 주파수 보다 높은 입력 데이타 스트림에 포함되는 프레임으로 구성될 때에는 도 9d에 관하여 설명된 알고리즘이 사용될 수 있다. 반면에, 상응 교차 주파수가 낮은 때에는, 도 9e에 관하여 설명된 알고리즘 및 프로세스가 사용될 수 있다. 2 이상의 각각의 데이타에 관한 스펙트럼 정보 또는 SBR 데이타의 실제적인 믹싱이 요약되어 나타난다.
더욱이, 출력 교차 주파수(570-3)는 임의적으로 선택될 수 있다. 이는 입력 데이타 스트림에 관한 어떠한 교차 주파수에 동일할 것을 요구하지 않는다. 예를 들면, 도 9d 및 도 9e에를 참조하여 설명한 경우에 있어서, 교차 주파수가 입력 데이타 스트림(510)의 모든 교차 주파수(570-1, 570-2)의 위 또는 아래 사이에 놓일 수 있다. 이 경우, 출력 프레임(550)의 교차 주파수는 자유롭게 선택될 수 있으며, SBR 데이타 뿐만 아니라 스펙트럼 데이타를 추정하는 면에서 전술한 모든 알고리즘을 사용하는 것이 바람직하다.
바꾸어 설명하면, 본 발명에 따른 다른 실시예는 항상 가장 낮거나 높은 교차 주파수가 사용되도록 구성 가능하다. 이 경우, 전술한 바와 같은 모든 기능을 사용할 필요는 없다. 예를 들면, 항상 낮은 교차 주파수를 적용하는 경우, 일반적으로 추정기(670)가 스펙트럼 정보 뿐만 아니라 SBR 데이타를 추정 처리할 필요가 없다. 때문에, 스펙트럼 데이타 추정에 관한 기능은 궁극적으로 회피될 수 있다. 반면에, 경우에 따라서, 본 발명에 따른 다른 실시예는 항상 가장 높은 출력 교차 주파수가 사용되어 SBR 데이타를 추정할 수 있는 추정기(670)가 생략될 수 있다.
본 발명에 따른 실시예는 멀티-채널 다운믹스(downmix) 또는 멀티-채널 업믹스(upmix) 요소, 예를 들면 스테레오 다운믹스 또는 스테레오 업믹스 요소를 더 포함할 수 있으며, 이 경우에는 참가자들이 스테레오 또는 다른 멀티-채널 스트림 및 단지 모토 스트림만을 전송할 수 있다. 이 경우에 있어서, 입력 데이타 스트림에 포함된 채널 수에 관한 상응 업믹스 또는 다운믹스를 사용하는 것이 바람직하다. 이는 인가되는 스트림의 파라메타를 매칭하여 믹스되는 비트 스트림을 제공하는 업믹싱 또는 다운믹싱에 의하여 소정의 스트림을 처리하는 것이 바람직하다. 이는 모노 스트림을 전송하는 참가자가 답례로 모노 스트림을 수신하기를 원하다는 의미일 수 있다. 결론적으로, 다른 참가자들로부터의 스테레오 또는 다른 멀티-채널 오디오 데이타가 모노 스트림으로 변환되거나 또는 역방향으로 변환되어야만 한다.
이는, 다른 임계 조건 및 제한에 따라서, 본 발명의 실시예에 따른 다수의 장치가 적용되거나 또는 하나의 장치를 기초로 모든 입력 데이타 스트림을 처리 가능하며, 입력 데이타 스트림은 상기 장치에 의한 프로세싱 이전에 업믹스 되거나 다운믹스 되고 참가자의 터밀너의 요구를 일치시키는 프로세싱 이후에 업믹스 되거나 다운믹스 된다.
또한, SBR은 스테레오 채널 코딩에 관한 2 가지 모드를 허용한다. 연산에 관한 제1 모드는 좌측 및 우측 채널(LR)을 분리해서 처리하는 반면에, 제2 모드는 결합 채널(C)을 연산한다. LR 인코드 및 C 인코드 요소의 믹싱을 위하여, LR 인코드 요소가 C 인코드 요소로 맵핑되거나 혹은 그 반대로 맵핑 된다. 코딩 방법이 사용되어야 하는 실제적인 결정은 에너지 소모나 연산 및 복잡성 등을 고려하여 이루어지거나 예비 셋팅될 수 있으며, 혹은 여러 가지 처리의 상관성 측면에서 심리음향학적 추정에 의존할 수 있다.
전술한 바와 같이, 실제적인 SBR 에너지 관계 데이타의 믹싱은 각각의 에너지 값의 선형 결합에 의해서 SBR 도메인에서 수행된다. 이는 다음 식에 의해서 얻을 수 있다.
(6)
Figure 112010063621878-pct00004
여기서, ak는 가중 요소이며, Ek(n)은 n에 의해 나타나는 시간/주파수의 위치에 상응하는 입력 데이타 스트림 k의 에너지 값이다. E(n)은 전술한 지수 n에 상응하는 상응 SBR 에너지이다. N은 예로써, 도 9a 및 도 9e에 2로 표시된 바와 같이 입력 데이타 스트림의 수이다.
상기 계수 ak는 중첩되는 각각의 입력 프레임(450)의 상응 시간/주파수 영역(630) 각각에 관한 가중치 뿐만 아니라 표준화를 수행하는데 사용된다. 예를 들면, 입력 프레임(550)의 두 시간/주파수 영역(630)과, 출력 프레임(550) 고려하에 시간/주파수 영역(630)의 50%에 관하여 50%정도로 서로 관계되는 중첩을 가지는 각각의 입력 프레임(540)이 입력 프레임(540)의 상응 시간/주파수 영역(630)까지 만들어지는 경우에는, 0.5(=50%) 값이 각각의 오디오 입력 스트림과 그에 포함된 입력 프레임(540)의 상관성을 가리키는 전체 게인 요소로 곱해질 수 있다.
보다 구체적으로, 각각의 계수 ak가 다음 식에 의해 정의된다.
(7)
Figure 112010063621878-pct00005
여기서, rik는 각각의 입력 프레임(540)과 출력 프레임(550)의 두 시간/주파수 영역(630)의 i 및 k의 중첩 영역을 나타내는 값이다. M은 입력 프레임(540)의 전체 시간/주파수 영역(630)의 수이다. g는 예로써 세계 정규화 표준으로 1/N과 동일하며, 허용 범위 값을 초과하거나 미치지 못하는 믹싱 처리의 결과를 방지하기 위한 것이다. 계수 rik는 0과 1 사이의 범위에 있으며, 여기서 "0"은 두 시간/주파수 영역(630)이 전혀 중첩되지 않음을 나타내고 "1"은 입력 프레임(540)의 시간/주파수 영역(630)이 출력 프레임(550)의 각각의 시간/주파수 영역(630)에 완전히 포함됨을 나타낸다.
하지만, 입력 프레임(540)M이프레임 그리드가 동일하게 나타날 수 있다. 이 경우, 프레임 그리드는 하나의 입력 프레임(540)으로부터 출력 프레임(550)으로 복제될 수 잇다. 따라서, SBR 관계 에너지 값의 믹싱이 용이하게 수행된다. 이 경우, 상응 주파수 값은 출력 값들의 가산 및 표준화에 의하여 상응 스펙트럼 정보(예를 들면, MDCT)를 믹싱하는 것과 마찬가지로 가산된다.
하지만, 주파수 측면에서 시간/주파수 영역(630)의 수가 각각의 포락선의 해상동에 따라서 바뀔 수 있기 때문에 저-포락선에서 고-포락선으로 맵핑하거나 혹은 그 반대로 맵핑을 수행시키는 것이 바람직하다.
도 10은 8 시간/주파수 영역(630-1) 및 16 상응 시간/주파수 영역(630-h)을 포함하는 고-포락선을 실시예로 도시한 것이다. 전술한 바와 같이, 일반적으로, 저-해상도 포락선은 고 해상도 포락선과 비교시 단지 주파수 데이타의 절반의 수효만을 포함하며, 도 10에 도시된 바와 같이 간단하게 매칭이 이루어진다. 포함한다. 저-해상도 포락선을 고-해상도 포락선에 맴핑시, 저-해상도 포락선에 관한 각각의 시간/주파수 영역(630-1)이 구-해상도 포락선의 두 상응 시간/주파수 영역(630-h)에 맵핑된다.
표준화에 관한 어떤 상황에 따라서, 0.5의 추가 요소를 사용하는 것이 믹스된 SBR 에너지 값의 초과를 방지하는데 바람직하다. 전술한 맵핑이 반대 방향으로 수행되는 경우에 있어서, 인접하는 두 시간/주파수 영역(630-h)들이 저-해상도 포락선에 관한 하나의 시간/주파수 영역(630-1)을 얻기 위하여 산술 평균 값 결정에 의해서 평균화될 수 있다.
바꾸어 설명하면, 식(7)에 관계된 첫번째 경우에 있어서, 계수 rik가 "0" 또는 "1" 중의 하나가 되는 반면에, 계수 g는 0.5가 되며, 두번째 경우에 있어서는, 계수 grk "1"로 셋팅되는 반면에 계수 rik가 "0" 또는 "0.5" 중의 하나가 될 수 있는 것이다.
하지만, 계수 g는 믹스되는 입력 데이타 스트림의 수를 고려한 추가 평균화 계수를 포함함에 의하여 더 변경될 수 있다. 전체 입력 신호의 에너지 값을 믹스하기 위하여, 전술한 바와 같이 동일한 계수가 추가되고, 선택적으로는 스펙트럼 믹싱이 수행되는 동안에 적용된 평균화 계수와 곱해질 수 있다. 전술한 추가적인 평균화 계수는 식(7)에 의해 계수 g를 결정시에 고려되어야 한다. 결론적으로, 이는 베이스 코덱의 스펙트럼 계수의 스케일 요소들이 SBR 에너지 값의 허용 범위 값을 확실하게 매치시킬 수 있게 한다.
당연히, 본 발명에 따른 실시예들은 그 이행도구에 관하여 차이가 있을 수 있다. 전술한 실시예에 있어서, 비록 허프만 디코딩 및 인코딩이 하나의 앤트로피 인코딩 기술로 설명되었지만 다른 엔트로피 인코딩 기술이 사용될 수 있다. 더욱이, 엔트로피 인코더 또는 엔트로피 디코더의 이행이 반드시 요구되지도 않는다. 따라서, 비록 전술한 실시예의 설명이 AAC-ELD 코덱에 주로 포커스 맞춰져 있더라도 다른 코덱들이 입력 데이타 스트림을 제공하고 참가자 측에 출력 데이타 스트림을 디코딩하는데 사용될 수 있다. 예를 들면, 블럭 길이 스위칭 처리없이 소정의 싱글 윈도우에 기초한 어떠한 코덱도 적용이 가능하다.
도 8에 도시된 실시예에 관하여 전술한 바, 그 실시예에 설명된 모듈 역시 강제적인 것은 아니다. 예를 들면, 본 발명의 실시예에 따른 장치가 프레임의 스펙트럼 정보를 연산함에 의하여 간단하게 실시될 수도 있다. 또한, 본 발명에 따른 실시예는 여러 가지 다른 방법으로 실시될 수도 있다. 예를 들면, 다수의 입력 데이타 스트림을 믹싱하기 위한 장치(500) 및 그 프로세싱 유닛(520)이 인턱터나 트랜지스터 및 저항과 같은 개별 전기 및 전자 장치를 기초로 실시될 수 있다. 또한, 본 발명에 따른 실시예는 ASIC과 같은 다른 집접회로나 CPU나 GPU(graphic processing unit) 같은 SOCs(System on Chips) 형태의 집적회로를 기반으로 실시될 수 있다.
또한, 개별 부품 및 통합 회로로 구성된 전기 장치가 본 발명의 실시예에 따른 장치를 구성시 다른 목적 및 다른 기능으로 사용될 수 있다. 또한, 개별 회로 및 집적 회로에 기초한 회로의 조합이 본 발명의 실시예에 따른 장치에 사용될 수도 있다.
또한, 프로세서 측면에서, 본 발명에 따른 실시예는 프로세서 상에서 수행되는 프로그램이나, 소프트웨어 프로그램 및 컴퓨터 프로그램을 기반으로 실시될 수 있다. 바꾸어 설명하면, 본 발명의 실시예는 방법 발명의 실시에 관한 특정 요구 사항에 의존하여 소프트웨어 또는 하드웨어에서 실시될 수도 있다. 그러한 본 발명의 실시는 디지털 저장매체를 사용하여 수행될 수 있으며, 특히 프로세서나 프로그램 가능한 컴퓨터와 연동하여 저장된 신호를 전기적으로 읽어낼 수 있는 디스크나 CD 및 DVD를 사용하여 수행될 수 있다. 그러므로, 본 발명의 실시는 일반적으로 기계에서 읽어낼 수 있는 캐리어에 저장된 프로그램 코드를 구비한 컴퓨터 프로그램 제품이 될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터나 프로세서 상에서 작동시 본 발명의 방법 발명이 수행되도록 작동 및 연산된다. 바꾸어 설명하면, 방법 발명에 있어서, 본 발명에 관한 실시는 컴퓨터 프로그램이 컴퓨터나 프로세서 상에서 작동시 방법에 관한 본 발명의 적어도 하나의 실시예를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램으로 할 수 있다. 프로세서는 컴퓨터나 칩 카드, 스파트 카드, 특정 어플리케이션 집적 회로, 시스템 온 칩(SOC) 또는 통합 회로(IC)로 형성될 수 있다.
100 : 회의 시스템
110 : 입력
120 : 디코더
130 : 가산기
140 : 인코더
150 : 출력
160 : 회의 터미널
170 : 인코더
180 : 디코더
190 : 시간/주파수 컨버터
200 : 양자화기/코더
210 : 디코더/역양자화기
220 : 주파수/시간 컨버터
250 : 데이타 스트림
260 : 프레임
270 : 추가 정보의 블럭
300 : 주파수
310 : 주파수 대력
500 : 장치
510 : 입력 데이타 스트림
520 : 프로세싱 유닛
530 : 출력 데이타 스트림
540 : 프레임
550 : 출력 프레임
560 : 스펙트럼 정보 표시
570 : 교차 주파수
580 : 스펙트럼의 하위 부
590 : 스펙트럼의 상위 부
600 : 라인
610 : 스펙트럼 데이타
620 : 포락선
630 : 시간/주파수 영역
640 : 분석기
650 : 스펙트럼 믹서
660 : SBR 믹서
670 : 추정기
680 : 믹서
700 : 비트 스트림 디코더
710 : 비트 스트림 리더
720 : 허프만 코더
730 : 역 양자화기
740 : 스케일러
750 : 제1 유닛
760 : 제2 유닛
770 : 스테레오 디코더
780 : PNS 디코더
790 : TNS 디코더
800 : 믹싱 유닛
810 : 스펙트럼 믹서
820 : 최적화 모듈
830 : SBR 믹서
850 : 비트 스트림 인코더
860 : 제3 유닛
870 : TNS 인코더
880 : PNS 인코더
890 : 스테레오 인코더
900 : 제4 유닛
910 : 스케일러
920 : 양자화기
930 : 허프만 코더
940 : 비트 스트림 라이터
950 : 심리음향학적 모듈
1000 : 중간 주파수 범위

Claims (16)

  1. 제1 교차 주파수(570)까지 제1 오디오 신호의 제1 스팩트럼의 하위 부(580)를 표시하는 제1 스펙트럼 데이타와 제1 교차 주파수(570)로부터 시작하는 제1 스펙트럼의 상위 부(590)를 표시하는 제1 스펙트럼 대역 복제 데이타를 포함하는 제1 프레임(540-1);
    제2 교차 주파수까지 제2 오디오 신호의 제2 스펙트럼의 하위 부를 표시하는 제2 스펙트럼 데이타와 제2 교차 주파수로부터 시작하는 제2 스펙트럼의 상위 부를 표시하는 제2 스펙트럼 대역 복제 데이타를 포함하는 제2 프레임(540-2); 및
    제1 교차 주파수(570)와 제2 교차주파수가 상이하며, 시간/주파수 그리드 해상도의 에너지 관련 값으로 제1 및 제2 스펙트럼들 각각의 상위 부를 표시하는 제1 및 제2 스펙트럼 대역 복제-데이타;를 구비하며,
    출력 데이타 스트림(530)의 출력 프레임(550)을 얻도록 제1 입력 데이타 스트림(510-1)의 제1 프레임(540-1)과 제2 입력 데이타 스트림(510-2)의 제2 프레임(540-2)을 믹싱하기 위한 장치(500)에 있어서,
    출력 교차 주파수까지 출력 스펙트럼의 하위 부를 표시하는 출력 스펙트럼 데이타와 출력 시간/주파수 그리드 해상도의 에너지 관련 값으로 출력 교차 주파수 위의 출력 스펙트럼의 상위 부를 표시하는 출력 스펙트럼 대역 복제-데이타를 포함하는 출력 프레임(550)이 발생되고,
    제1 교차 주파수(570)의 최소값 아래의 주파수에 상응하는 출력 스펙트럼 데이타와 제2 교차 주파수 및 출력 교차 주파수가 제1 및 제2 스펙트럼 데이타를 기초로 스펙트럼 도메인(spectral domain)에서 생성되고,
    제1 교차 주파수(570)의 최대값 위의 주파수에 상응하는 출력 스펙트럼 대역 복제-데이타와 제2 교차 주파수 및 출력 교차 주파수가 제1 및 제2 스펙트럼 대역 복제-데이타를 기초로 스펙트럼 대역 복제-도메인(SBR domain)에서 처리되고,
    최소값과 최대값 사이의 주파수 지역을 위하여, 적어도 하나의 제1 및 제2 스펙트럼 데이타로부터 적어도 하나의 스펙트럼 대역 복제-값이 추정되고, 출력 스펙트럼 대역 복제-데이타의 상응 스펙트럼 대역 복제-값이 적어도 상기 추정 스펙트럼 대역 복제-값에 기초하여 생성되도록 구성되는 처리 유닛(520)을 포함하여 이루어진 것을 특징으로 하는 믹싱 장치.
  2. 청구항 1에 있어서,
    상기 처리 유닛(520)이 추정되는 스펙트럼 대역 복제-값에 상응하는 주파수 성분에 상응하는 스펙트럼 값에 기초하여 적어도 하나의 스펙트럼 대역 복제-값을 추정하도록 구성되는 것을 특징으로 하는 장치.
  3. 제1 교차 주파수(570)까지 제1 오디오 신호의 제1 스팩트럼의 하위 부(580)를 표시하는 제1 스펙트럼 데이타와 제1 교차 주파수(570)로부터 시작하는 제1 스펙트럼의 상위 부(590)를 표시하는 제1 스펙트럼 대역 복제-데이타를 포함하는 제1 프레임(540-1);
    제2 교차 주파수까지 제2 오디오 신호의 제2 스펙트럼의 하위 부를 표시하는 제2 스펙트럼 데이타와 제2 교차 주파수로부터 시작하는 제2 스펙트럼의 상위 부를 표시하는 제2 스펙트럼 대역 복제-데이타를 포함하는 제2 프레임(540-2); 및
    제1 교차 주파수(570)와 제2 교차주파수가 상이하며, 시간/주파수 그리드 해상도의 에너지 관련 값으로 제1 및 제2 스펙트럼들 각각의 상위 부를 표시하는 제1 및 제2 스펙트럼 대역 복제-데이타;를 구비하며,
    출력 데이타 스트림(530)의 출력 프레임(550)을 얻도록 제1 입력 데이타 스트림(510-1)의 제1 프레임(540-1)과 제2 입력 데이타 스트림(510-2)의 제2 프레임(540-2)을 믹싱하기 위한 장치(500)에 있어서,
    출력 교차 주파수까지 출력 스펙트럼의 하위 부(580)를 표시하는 출력 스펙트럼 데이타와 출력 시간/주파수 그리드 해상도의 에너지 관련 값으로 출력 교차 주파수 위의 출력 스펙트럼의 상위 부를 표시하는 출력 스펙트럼 대역 복제- 데이타를 포함하는 출력 프레임(550)이 생성되고,
    제1 교차 주파수(570)의 최소값 아래의 주파수에 상응하는 출력 스펙트럼 데이타와 제2 교차 주파수 및 출력 교차 주파수가 제1 및 제2 스펙트럼 데이타를 기초로 스펙트럼 도메인(spectral domain)에서 생성되고,
    제1 교차 주파수(570)의 최대값 위의 주파수에 상응하는 출력 스펙트럼 대역 복제-데이타와 제2 교차 주파수 및 출력 교차 주파수가 제1 및 제2 스펙트럼 대역 복제-데이타를 기초로 스펙트럼 대역 복제-도메인에서 처리되고,
    최소값과 최대값 사이의 주파수 지역을 위하여, 적어도 하나의 제1 및 제2 프레임으로부터 적어도 하나의 스펙트럼 값이 각각의 프레임의 스펙트럼 대역 복제-데이타에 기초하여 추정되고, 출력 스펙트럼 데이타의 대응 스펙트럼 값이 스펙트럼 도메인에서 처리되는 적어도 상기 추정 스펙트럼 값에 기초하여 생성되도록 구성되는 처리 유닛(520)을 포함하여 이루어진 것을 특징으로 하는 장치.
  4. 청구항 3에 있어서,
    상기 처리 유닛(520)이 각각의 프레임의 스펙트럼의 하위 부의 스펙트럼 테이타와 스펙트럼 대역 복제-데이타에 기초한 스펙트럼 성분을 위하여 적어도 하나의 스펙트럼 값을 재구성하는데 따라서 적어도 하나의 스펙트럼 값을 추정하도록 구성되는 것을 특징으로 하는 장치.
  5. 청구항 1에 있어서,
    상기 처리 유닛(520)이 제1 교차 주파수 또는 제2 교차 주파수를 형성하도록 출력 교차 주파수(570)를 결정하는 것을 특징으로 하는 장치.
  6. 청구항 1에 있어서,
    상기 처리 유닛(520)이 제1 및 제2 교차 주파수를 갖는 주파수의 하위 교차 주파수로 출력 교차 주파수를 셋팅하거나, 제1 및 제2 교차 주파수의 상위로 출력 교차 주파수를 셋팅하도록 구성되는 것을 특징으로 하는 장치.
  7. 청구항 1에 있어서,
    상기 처리 유닛(520)이 제1 프레임 또는 제2 프레임의 시간/주파수 그리드 해상도에 의해 지시되는 임시 위치에 호환되도록 출력 시간/주파수 그리드 해상도를 결정하는 것을 특징으로 하는 장치.
  8. 청구항 7에 있어서,
    상기 처리 유닛(520)이, 제 1 및 제2 프레임의 시간/주파수 그리드 해상도가 하나 이상의 임시 위치의 출현을 지시할 때, 제1 및 제2 프레임의 시간/주파수 그리드 해상도에 의해 지시되는 앞선 임시 위치에 호환되도록 출력 시간/주파수 그리드 해상도를 결정하는 것을 특징으로 하는 장치.
  9. 청구항 1에 있어서,
    상기 처리 유닛(520)이 스펙트럼 대역 복제 주파수 도메인 또는 스펙트럼 대역 복제 도메인에서 선형 결합에 의하여 출력 스펙트럼 대역 복제-데이타 또는 출력 스펙트럼 데이타를 구성하는 것을 특징으로 하는 장치.
  10. 청구항 1에 있어서,
    상기 처리 유닛(520)이 제1 및 제2 프레임의 사인 관계 스펙트럼 대역 복제-데이타의 선형 결합에 의하여 사인 관계 스펙트럼 대역 복제-데이타를 구성하는 출력 스펙트럼 대역 복제-데이타를 생성시키는 것을 특징으로 하는 장치.
  11. 청구항 1에 있어서,
    상기 처리 유닛(520)이 제1 및 제2 프레임의 노이즈 관계 스펙트럼 대역 복제-데이타의 선형 결합에 의하여 노이즈 관계 스펙트럼 대역 복제-데이타를 구성하는 출력 스펙트럼 대역 복제-데이타를 생성시키는 것을 특징으로 하는 장치.
  12. 청구항 10에 있어서,
    상기 처리 유닛(520)이 상기 처리 유닛(520)이 제1 및 제2 프레임 각각의 스펙트럼 대역 복제-데이타에 관련된 심리음향학 추정에 의하여 사인 관계 스펙트럼 대역 복제-데이타 또는 노이즈 관계 스펙트럼 대역 복제-데이타를 포함하여 구성되는 것을 특징으로 하는 장치.
  13. 청구항 1에 있어서,
    상기 처리 유닛(520)이 평활 필터링에 의하여 출력 스펙트럼 대역 복제-데이타를 생성하도록 구성되는 것을 특징으로 하는 장치.
  14. 청구항 1에 있어서,
    상기 처리 유닛(520)이 두 가지 입력 데이타 스트림 이상으로 구성되는 다수의 입력 데이타 스트림(510)을 처리하되, 상기 다수의 입력 데이타 스트림이 제1 및 제2 입력 데이타 스트림(510-1, 510-2)을 포함하여 구성되는 것을 특징으로 하는 장치.
  15. 제1 교차 주파수(570)까지 제1 오디오 신호의 제1 스펙트럼의 하위 부(580)을 기술하는 제1 스펙트럼 데이타와 제1 교차 주파수(570)로부터 시작하는 상기 제1 스펙트럼의 상위 부(590)을 기술하는 제1 스펙트럼 대역 복제 데이타를 포함하는 제1 프레임;
    제2 교파 주파수까지 제2 오디오 신호의 제2 스펙트럼의 하위 부를 기술하는 제2 스펙트럼 데이타와 제2 교차 주파수로부터 시작하는 상기 제2 스펙트럼의 상위 부를 기술하는 제2 스펙트럼 대역 복제-데이타를 포함하는 제2 프레임;를 포함하되,
    상기 제1 및 제2 스펙트럼 대역 복제-데이타가 시간/주파수 그리드 해상도에서 에너지 관계 값에 의해 상기 제1 및 제2 스펙트럼들의 각각의 상위 부를 기술하고, 상기 제1 교차 주파수(570)가 제2 교차 주파수와 다르며,
    출력 데이타 스트림(530)의 출력 프레임(550)을 얻도록 제1 입력 데이타 스트림(510-1)의 제1 프레임(540-1)과 제2 입력 데이타 스트림(510-2)의 제2 프레임(540-2)을 믹싱하기 위한 방법에 있어서,
    상기 출력 프레임이 출력 시간/주파수 그리드 해상도에서 에너지 관계 값에 의하여 출력 교차 주파수 위의 출력 스펙트럼의 상위 부를 기술하는 출력 스펙트럼 대역 복제-데이타를 더 포함하고, 상기 출력 교차 주파수까지 출력 스펙트럼의 하위 부를 기술하는 출력 스펙트럼 데이타를 포함하는 출력 프레임을 생성하는 단계;
    제1 및 제2 스펙트럼 데이타에 의존하여 스펙트럼 도메인에서 출력 교차 주파수와 제2 교차 주파수 및 제1 교차 주파수의 최소값 아래의 주파수에 상응하는 스펙트럼 데이타를 생성하는 단계;
    제1 및 제2 스펙트럼 대역 복제-데이타에 의존하여 스펙트럼 대역 복제 도메인에서 출력 교차 주파수와 제2 교차 주파수 및 제1 교차 주파수의 최대값 위의 주파수에 상응하는 출력 스펙트럼 대역 복제-데이타를 생성하는 단계; 및
    적어도 추정되는 스펙트럼 대역 복제 값에 의존하여 출력 스펙트럼 대역 복제-데이타에 대한 상응 스펙트럼 대역 복제 값을 발생하고, 최소값 및 최대값 사이의 주파수 영역에서 주파수에 대한 적어도 하나의 제1 및 제2 스펙트럼 데이타로부터 적어도 하나의 스펙트럼 대역 복제 값을 추정하는 단계; 또는
    스펙트럼 도메인에서 동일하게 처리됨에 의하여 적어도 추정되는 스펙트럼 값에 의존하여 출력 스펙트럼 데이타의 스펙트럼 값을 생성하고 최소값 및 최대값 사이의 주파수 영역에서 주파수에 대한 각각의 프레임의 스펙트럼 대역 복제-데이타에 의존하는 적어도 하나의 제1 및 제2 프레임으로부터 적어도 하나의 스펙트럼 값을 추정하는 단계;를 포함하여 구성되는 것을 특징으로 하는 믹싱 방법.
  16. 프로세서 상에서 실행하는 경우에, 청구항 15에 따른 제1 입력 데이터 스트림의 제1 프레임 및 제2 입력 데이터 스트림의 제2 프레임을 믹싱하기 위한 방법을 수행하는 컴퓨터 프로그램이 저장된 컴퓨터로 판독가능한 기록 매체.
KR1020107022038A 2008-03-04 2009-03-04 복수의 입력 데이터 스트림을 믹싱하기 위한 장치 KR101178114B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3359008P 2008-03-04 2008-03-04
US61/033,590 2008-03-04
PCT/EP2009/001533 WO2009109373A2 (en) 2008-03-04 2009-03-04 Apparatus for mixing a plurality of input data streams

Publications (2)

Publication Number Publication Date
KR20100125382A KR20100125382A (ko) 2010-11-30
KR101178114B1 true KR101178114B1 (ko) 2012-08-30

Family

ID=41053617

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020107022038A KR101178114B1 (ko) 2008-03-04 2009-03-04 복수의 입력 데이터 스트림을 믹싱하기 위한 장치
KR1020107021918A KR101192241B1 (ko) 2008-03-04 2009-03-04 입력 데이터 스트림의 믹싱과 그로부터 출력 데이터 스트림의 생성
KR1020127005298A KR101253278B1 (ko) 2008-03-04 2009-03-04 복수의 입력 데이터 스트림을 믹싱하는 장치 및 방법

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020107021918A KR101192241B1 (ko) 2008-03-04 2009-03-04 입력 데이터 스트림의 믹싱과 그로부터 출력 데이터 스트림의 생성
KR1020127005298A KR101253278B1 (ko) 2008-03-04 2009-03-04 복수의 입력 데이터 스트림을 믹싱하는 장치 및 방법

Country Status (15)

Country Link
US (2) US8290783B2 (ko)
EP (3) EP2250641B1 (ko)
JP (3) JP5536674B2 (ko)
KR (3) KR101178114B1 (ko)
CN (3) CN102016985B (ko)
AT (1) ATE528747T1 (ko)
AU (2) AU2009221443B2 (ko)
BR (2) BRPI0906079B1 (ko)
CA (2) CA2716926C (ko)
ES (3) ES2753899T3 (ko)
HK (1) HK1149838A1 (ko)
MX (1) MX2010009666A (ko)
PL (1) PL2250641T3 (ko)
RU (3) RU2488896C2 (ko)
WO (2) WO2009109374A2 (ko)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101479011B1 (ko) * 2008-12-17 2015-01-13 삼성전자주식회사 다중 대역 스케쥴링 방법 및 이를 이용한 방송 서비스 시스템
WO2010070770A1 (ja) * 2008-12-19 2010-06-24 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
WO2010125802A1 (ja) * 2009-04-30 2010-11-04 パナソニック株式会社 デジタル音声通信制御装置及び方法
JP5645951B2 (ja) * 2009-11-20 2014-12-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
BR112012014856B1 (pt) 2009-12-16 2022-10-18 Dolby International Ab Método para fundir conjuntos de fonte de parâmetros de sbr a conjuntos-alvo de parâmetros de sbr, meio de armazenamento não transitório e unidade de fusão de parâmetros de sbr
US20110197740A1 (en) * 2010-02-16 2011-08-18 Chang Donald C D Novel Karaoke and Multi-Channel Data Recording / Transmission Techniques via Wavefront Multiplexing and Demultiplexing
TR201901336T4 (tr) 2010-04-09 2019-02-21 Dolby Int Ab Mdct-tabanlı karmaşık tahmin stereo kodlama.
ES2953084T3 (es) * 2010-04-13 2023-11-08 Fraunhofer Ges Forschung Decodificador de audio para procesar audio estéreo usando una dirección de predicción variable
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
JP5957446B2 (ja) * 2010-06-02 2016-07-27 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 音響処理システム及び方法
CN102568481B (zh) * 2010-12-21 2014-11-26 富士通株式会社 用于实现aqmf处理的方法、和用于实现sqmf处理的方法
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
AU2012217158B2 (en) * 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
TR201903388T4 (tr) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi.
WO2012110448A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
SG192746A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US8891775B2 (en) 2011-05-09 2014-11-18 Dolby International Ab Method and encoder for processing a digital stereo audio signal
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
CN103918029B (zh) * 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
US8615394B1 (en) * 2012-01-27 2013-12-24 Audience, Inc. Restoration of noise-reduced speech
EP2828855B1 (en) 2012-03-23 2016-04-27 Dolby Laboratories Licensing Corporation Determining a harmonicity measure for voice processing
CN103325384A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
WO2013142650A1 (en) 2012-03-23 2013-09-26 Dolby International Ab Enabling sampling rate diversity in a voice communication system
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
KR101998712B1 (ko) 2013-03-25 2019-10-02 삼성디스플레이 주식회사 표시장치, 표시장치를 위한 데이터 처리 장치 및 그 방법
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
US9553601B2 (en) * 2013-08-21 2017-01-24 Keysight Technologies, Inc. Conversion of analog signal into multiple time-domain data streams corresponding to different portions of frequency spectrum and recombination of those streams into single-time domain stream
BR112016004299B1 (pt) * 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
JP6224850B2 (ja) 2014-02-28 2017-11-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 会議における変化盲を使った知覚的連続性
JP6243770B2 (ja) * 2014-03-25 2017-12-06 日本放送協会 チャンネル数変換装置
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
US10015006B2 (en) 2014-11-05 2018-07-03 Georgia Tech Research Corporation Systems and methods for measuring side-channel signals for instruction-level events
US9668048B2 (en) 2015-01-30 2017-05-30 Knowles Electronics, Llc Contextual switching of microphones
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CN104735512A (zh) * 2015-03-24 2015-06-24 无锡天脉聚源传媒科技有限公司 一种同步音频数据的方法、设备及系统
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
CN105261373B (zh) * 2015-09-16 2019-01-08 深圳广晟信源技术有限公司 用于带宽扩展编码的自适应栅格构造方法和装置
WO2017064264A1 (en) * 2015-10-15 2017-04-20 Huawei Technologies Co., Ltd. Method and appratus for sinusoidal encoding and decoding
MX2018008886A (es) * 2016-01-22 2018-11-09 Fraunhofer Ges Zur Foerderung Der Angewandten Forscng E V Aparato y metodo para estereo mdct m/s con ild global con decision medio/lado mejorada.
US9826332B2 (en) * 2016-02-09 2017-11-21 Sony Corporation Centralized wireless speaker system
US9924291B2 (en) 2016-02-16 2018-03-20 Sony Corporation Distributed wireless speaker system
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
US10824629B2 (en) 2016-04-01 2020-11-03 Wavefront, Inc. Query implementation using synthetic time series
US10896179B2 (en) * 2016-04-01 2021-01-19 Wavefront, Inc. High fidelity combination of data
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
EP3246923A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
US9924286B1 (en) 2016-10-20 2018-03-20 Sony Corporation Networked speaker system with LED-based wireless communication and personal identifier
US9854362B1 (en) 2016-10-20 2017-12-26 Sony Corporation Networked speaker system with LED-based wireless communication and object detection
US10075791B2 (en) 2016-10-20 2018-09-11 Sony Corporation Networked speaker system with LED-based wireless communication and room mapping
US20180302454A1 (en) * 2017-04-05 2018-10-18 Interlock Concepts Inc. Audio visual integration device
IT201700040732A1 (it) * 2017-04-12 2018-10-12 Inst Rundfunktechnik Gmbh Verfahren und vorrichtung zum mischen von n informationssignalen
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
CN109559736B (zh) * 2018-12-05 2022-03-08 中国计量大学 一种基于对抗网络的电影演员自动配音方法
US11283853B2 (en) * 2019-04-19 2022-03-22 EMC IP Holding Company LLC Generating a data stream with configurable commonality
US11443737B2 (en) 2020-01-14 2022-09-13 Sony Corporation Audio video translation into multiple languages for respective listeners
CN111402907B (zh) * 2020-03-13 2023-04-18 大连理工大学 一种基于g.722.1的多描述语音编码方法
US11662975B2 (en) * 2020-10-06 2023-05-30 Tencent America LLC Method and apparatus for teleconference
CN113468656B (zh) * 2021-05-25 2023-04-14 北京临近空间飞行器系统工程研究所 基于pns计算流场的高速边界层转捩快速预示方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050102137A1 (en) 2001-04-02 2005-05-12 Zinser Richard L. Compressed domain conference bridge
WO2005078707A1 (en) 2004-02-16 2005-08-25 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK0513860T3 (da) * 1989-01-27 1997-08-18 Dolby Lab Licensing Corp Adaptiv biallokering for audiokoder og -dekoder
US5463424A (en) 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
JP3173482B2 (ja) * 1998-11-16 2001-06-04 日本ビクター株式会社 記録媒体、及びそれに記録された音声データの音声復号化装置
JP3344574B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
JP3344575B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
JP3344572B2 (ja) * 1998-11-16 2002-11-11 日本ビクター株式会社 記録媒体、音声復号装置
JP3387084B2 (ja) * 1998-11-16 2003-03-17 日本ビクター株式会社 記録媒体、音声復号装置
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
BR0304231A (pt) * 2002-04-10 2004-07-27 Koninkl Philips Electronics Nv Métodos para codificação de um sinal de canais múltiplos, método e disposição para decodificação de informação de sinal de canais múltiplos, sinal de dados incluindo informação de sinal de canais múltiplos, meio legìvel por computador, e, dispositivo para comunicação de um sinal de canais múltiplos
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
RU2325046C2 (ru) * 2002-07-16 2008-05-20 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
US8311809B2 (en) * 2003-04-17 2012-11-13 Koninklijke Philips Electronics N.V. Converting decoded sub-band signal into a stereo signal
US7349436B2 (en) 2003-09-30 2008-03-25 Intel Corporation Systems and methods for high-throughput wideband wireless local area network communications
WO2005043511A1 (en) * 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
US8423372B2 (en) 2004-08-26 2013-04-16 Sisvel International S.A. Processing of encoded signals
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
JP2006197391A (ja) * 2005-01-14 2006-07-27 Toshiba Corp 音声ミクシング処理装置及び音声ミクシング処理方法
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
KR100791846B1 (ko) * 2006-06-21 2008-01-07 주식회사 대우일렉트로닉스 오디오 복호기
JP5134623B2 (ja) * 2006-07-07 2013-01-30 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 複数のパラメータ的に符号化された音源を合成するための概念
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
JP2008219549A (ja) * 2007-03-06 2008-09-18 Nec Corp 信号処理の方法、装置、及びプログラム
US7983916B2 (en) * 2007-07-03 2011-07-19 General Motors Llc Sampling rate independent speech recognition
WO2009051401A2 (en) * 2007-10-15 2009-04-23 Lg Electronics Inc. A method and an apparatus for processing a signal
JP5086366B2 (ja) * 2007-10-26 2012-11-28 パナソニック株式会社 会議端末装置、中継装置、および会議システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050102137A1 (en) 2001-04-02 2005-05-12 Zinser Richard L. Compressed domain conference bridge
WO2005078707A1 (en) 2004-02-16 2005-08-25 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore

Also Published As

Publication number Publication date
JP2011513780A (ja) 2011-04-28
WO2009109374A2 (en) 2009-09-11
RU2562395C2 (ru) 2015-09-10
JP2013190803A (ja) 2013-09-26
ES2753899T3 (es) 2020-04-14
CA2717196A1 (en) 2009-09-11
BRPI0906079B1 (pt) 2020-12-29
CN102016985A (zh) 2011-04-13
BRPI0906079A2 (pt) 2015-10-06
CN102016983B (zh) 2013-08-14
KR20120039748A (ko) 2012-04-25
WO2009109374A3 (en) 2010-04-01
CN102016985B (zh) 2014-04-02
JP2011518342A (ja) 2011-06-23
CN102016983A (zh) 2011-04-13
PL2250641T3 (pl) 2012-03-30
RU2012128313A (ru) 2014-01-10
HK1149838A1 (en) 2011-10-14
ES2374496T3 (es) 2012-02-17
WO2009109373A3 (en) 2010-03-04
EP2378518B1 (en) 2018-01-24
KR20100125382A (ko) 2010-11-30
US20090228285A1 (en) 2009-09-10
ES2665766T3 (es) 2018-04-27
ATE528747T1 (de) 2011-10-15
US8290783B2 (en) 2012-10-16
EP2378518A2 (en) 2011-10-19
EP2250641A2 (en) 2010-11-17
CA2717196C (en) 2016-08-16
RU2488896C2 (ru) 2013-07-27
AU2009221443A1 (en) 2009-09-11
EP2250641B1 (en) 2011-10-12
KR20100125377A (ko) 2010-11-30
RU2010136360A (ru) 2012-03-10
JP5654632B2 (ja) 2015-01-14
CA2716926A1 (en) 2009-09-11
BRPI0906078A2 (pt) 2015-07-07
KR101253278B1 (ko) 2013-04-11
CA2716926C (en) 2014-08-26
CN102789782B (zh) 2015-10-14
JP5536674B2 (ja) 2014-07-02
JP5302980B2 (ja) 2013-10-02
US20090226010A1 (en) 2009-09-10
CN102789782A (zh) 2012-11-21
AU2009221444B2 (en) 2012-06-14
AU2009221443B2 (en) 2012-01-12
EP2260487B1 (en) 2019-08-21
EP2378518A3 (en) 2012-11-21
KR101192241B1 (ko) 2012-10-17
EP2260487A2 (en) 2010-12-15
RU2010136357A (ru) 2012-03-10
BRPI0906078B1 (pt) 2020-12-29
MX2010009666A (es) 2010-10-15
WO2009109373A2 (en) 2009-09-11
US8116486B2 (en) 2012-02-14
RU2473140C2 (ru) 2013-01-20
AU2009221444A1 (en) 2009-09-11

Similar Documents

Publication Publication Date Title
KR101178114B1 (ko) 복수의 입력 데이터 스트림을 믹싱하기 위한 장치
RU2711513C1 (ru) Устройство и способ оценивания межканальной разницы во времени
KR100913987B1 (ko) 다중-채널 출력 신호를 발생시키기 위한 다중-채널합성장치 및 방법
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
TW202215417A (zh) 多聲道信號產生器、音頻編碼器及依賴混合噪音信號的相關方法
CA2821325C (en) Mixing of input data streams and generation of an output data stream therefrom
AU2012202581B2 (en) Mixing of input data streams and generation of an output data stream therefrom
Gbur et al. Realtime implementation of an ISO/MPEG layer 3 encoder on Pentium PCs

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150728

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160817

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180813

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190816

Year of fee payment: 8