KR101552750B1 - 파라미트릭 스테레오 변환 시스템 및 방법 - Google Patents

파라미트릭 스테레오 변환 시스템 및 방법 Download PDF

Info

Publication number
KR101552750B1
KR101552750B1 KR1020117006034A KR20117006034A KR101552750B1 KR 101552750 B1 KR101552750 B1 KR 101552750B1 KR 1020117006034 A KR1020117006034 A KR 1020117006034A KR 20117006034 A KR20117006034 A KR 20117006034A KR 101552750 B1 KR101552750 B1 KR 101552750B1
Authority
KR
South Korea
Prior art keywords
data
channel
phase difference
frequency domain
phase
Prior art date
Application number
KR1020117006034A
Other languages
English (en)
Other versions
KR20110055651A (ko
Inventor
제프리 톰슨
로버트 리암스
아론 와너
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20110055651A publication Critical patent/KR20110055651A/ko
Application granted granted Critical
Publication of KR101552750B1 publication Critical patent/KR101552750B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Abstract

위상 변조된 스테레오 데이터로부터 파라미트릭(parametric) 스테레오 데이터를 생성하기 위한 시스템이 제공된다. 위상차 시스템은 좌측 채널 데이터와 우측 채널 데이터를 수신하고, 좌측 채널 데이터와 우측 채널 데이터간의 위상차를 결정한다. 위상차 가중 시스템은 위상차 데이터를 수신하고, 위상차 데이터에 기초하여 좌측 채널 진폭 데이터와 우측 채널 진폭 데이터를 조정하기 위한 가중 데이터를 생성한다. 진폭 변경 시스템은 좌측 채널 데이터와 우측 채널 데이터에서 위상 데이터를 제거하기 위해 가중 데이터를 이용하여 좌측 채널 진폭 데이터와 우측 채널 진폭 데이터를 조정한다.

Description

파라미트릭 스테레오 변환 시스템 및 방법{PARAMETRIC STEREO CONVERSION SYSTEM AND METHOD}
본 출원은 "Parametric Stereo Conversion System and Method"이라는 명칭으로 2007년 8월 17일에 출원된 미국 가출원 제60/965,227호의 우선권을 주장하며, 이 출원은 모든 목적을 위해 본 명세서에서 참조로서 병합된다.
본 발명은 오디오 코더의 분야에 관한 것이며, 보다 구체적으로는 위상 데이터가 누락되었을 때에 발생할 수 있는 오디오 인공물(artifact) 또는 기타의 노이즈의 생성 없이, 위상 데이터에서의 변동에 대해 진폭 데이터를 보상하여 각각의 채널마다 진폭 데이터만이 송신되도록 하기 위해 진폭 데이터와 위상 데이터를 갖는 멀티 채널 오디오 데이터를 조정하기 위한 시스템 및 방법에 관한 것이다.
위상 데이터와 진폭 데이터를 포함한 오디오 신호로부터 위상 데이터를 제거하는 멀티 채널 오디오 코딩 기술들이 본 발명분야에서 알려져 있다. 이러한 기술들에는 파라미트릭 스테레오가 있는데, 이것은 일반적으로 위상 정보를 포함할 스테레오포닉 사운드(stereophonic sound)를 시뮬레이션하기 위해 이용될 좌측 채널 신호와 우측 채널 신호간의 진폭 차이를 이용한다. 이와 같은 파라미트릭 스테레오는, 만약 위상 데이터가 신호내에 또한 포함되었다면 경험되었을 완전 심도(depth of field)를 갖는 스테레오포닉 사운드를 청취자로 하여금 경험하도록 허용하지는 않지만, (각 채널의 진폭이 동일한 경우와 같은) 단순한 모노랄 사운드(monaural sound)에 비해 음질을 개선시키는 어느 정도의 심도를 제공한다.
진폭 데이터와 위상 데이터를 포함한 멀티 채널 오디오 데이터로부터 오직 진폭 데이터만을 포함한 멀티 채널 오디오 데이터로 변환시키는 데에 있어서의 하나의 문제점은 위상 데이터의 적절한 처리이다. 만약 위상 데이터가 단순히 검출되면, 청취자가 듣기에 불쾌할 결과적인 진폭 단독 데이터를 초래시키는 오디오 인공물이 생성될 것이다. 어드밴스드 오디오 코딩(Advanced Audio Coding; AAC) 시스템과 같은 몇몇의 시스템들은 위상 데이터의 제거를 보상하기 위해 수신기에 의해 이용되는 측대역 정보를 활용하지만, 이와 같은 시스템들은 사용자로 하여금 측대역 데이터를 프로세싱할 수 있는 특수한 수신기를 가질 것을 요구하며, 또한 노이즈 신호가 측대역 데이터에서 유입될 때에 발생할 수 있는 문제를 겪게되며, 이것은 불쾌한 오디오 인공물을 생성시킬 수 있다. 게다가, 낮은 비트 레이트 송신 프로세스가 이용될 때에 고주파수 위상 변동에 대한 측대역 데이터를 송신하려는 시도는 오디오 인공물을 생성시킬 수 있다.
본 발명에 따르면, 위상 데이터와 진폭 데이터를 갖는 오디오 데이터를 진폭 데이터만을 갖는 오디오 데이터로 변환하는데 있어서의 알려진 문제들을 극복하는, 위상 데이터에 대해 진폭 데이터를 보상하도록 멀티 채널 오디오 신호를 프로세싱하는 시스템 및 방법이 제공된다.
구체적으로, 측대역 데이터에 대한 필요성을 제거시키고 변환 프로세스 동안에 발생할 수 있는 오디오 인공물에 대한 보상을 제공하는, 위상 데이터에 대해 진폭 데이터를 보상하도록 멀티 채널 오디오 신호를 프로세싱하는 시스템 및 방법이 제공된다.
본 발명의 예시적인 실시예에 따르면, 위상 변조된 스테레오 데이터로부터 파라미트릭 스테레오 데이터를 생성하기 위한 시스템이 제공된다. 위상차 시스템은 좌측 채널 데이터와 우측 채널 데이터를 수신하고, 좌측 채널 데이터와 우측 채널 데이터간의 위상차를 결정한다. 위상차 가중 시스템은 위상차 데이터를 수신하고, 위상차 데이터에 기초하여 좌측 채널 진폭 데이터와 우측 채널 진폭 데이터를 조정하기 위한 가중 데이터를 생성한다. 진폭 변경 시스템은 좌측 채널 데이터와 우측 채널 데이터에서 위상 데이터를 제거하기 위해 가중 데이터를 이용하여 좌측 채널 진폭 데이터와 우측 채널 진폭 데이터를 조정한다.
본 발명은 수 많은 중요한 기술 장점들을 제공한다. 본 발명의 하나의 중요한 기술 장점은, 낮은 비트 레이트 진폭 데이터가 고주파 위상 변동을 포함하도록 조정될 때에 발생할 수 있는 오디오 인공물의 생성을 회피하기 위해, 위상 데이터에서의 변동에 기초하여 진폭 데이터를 평탄화하는, 위상 데이터에 대해 진폭 데이터를 보상하도록 멀티 채널 오디오 신호를 프로세싱하기 위한 시스템 및 방법이다.
본 발명분야의 당업자는 도면과 함께 아래의 상세한 설명을 읽음으로써 본 발명의 다른 중요한 양태들과 함께 본 발명의 장점들 및 우수한 특징들을 한층 잘 이해할 것이다.
위상 변조된 스테레오 데이터로부터 파라미트릭 스테레오 데이터를 생성하기 위한 시스템이 제공될 수 있다.
도 1은 본 발명의 예시적인 실시예에 따라, 파라미트릭 스테레오와 같이, 위상 데이터와 진폭 데이터 모두를 갖는 멀티 채널 오디오 데이터를 진폭 데이터만을 활용하는 멀티 채널 오디오 데이터로 변환하기 위한 시스템의 도면이다.
도 2는 본 발명의 예시적인 실시예에 따른 위상차 가중 인자들의 도면이다.
도 3은 본 발명의 예시적인 실시예에 따른 코히어런스 공간 조정 시스템의 도면이다.
도 4는 본 발명의 예시적인 실시예에 따른 파라미트릭 코딩을 위한 방법의 도면이다.
도 5는 본 발명의 예시적인 실시예에 따른 동적 위상 경향 보정을 위한 시스템의 도면이다.
도 6은 본 발명의 예시적인 실시예에 따른 스펙트럼 평탄화를 수행하기 위한 시스템의 도면이다.
도 7은 본 발명의 예시적인 실시예에 따른 전력 보상된 세기 리패닝(re-panning)을 위한 시스템의 도면이다.
이하의 상세한 설명에서는, 명세서 및 도면에 걸쳐서 동일한 부분들은 동일한 참조번호들로 표시된다. 도면내의 도형들은 실척도가 아닐 수 있고 어떠한 컴포넌트들은 명료함과 간결함을 도모하기 위해 대략화 또는 개략화 형태로 도시될 수 있고 상업적 명칭에 의해 식별될 수 있다.
도 1은 본 발명의 예시적인 실시예에 따라, 파라미트릭 스테레오와 같이, 위상 데이터와 진폭 데이터 모두를 갖는 멀티 채널 오디오 데이터를 진폭 데이터만을 활용하는 멀티 채널 오디오 데이터로 변환하기 위한 시스템(100)의 도면이다. 시스템(100)은 좌우측 채널 사운드 데이터에서의 위상차를 식별하고, 세기 데이터 또는 진폭 데이터만을 이용하여 스테레오포닉 이미지 데이터를 생성하기 위해 위상차를 진폭차로 변환한다. 마찬가지로, 추가적인 채널들이 또한 이용될 수 있거나 또는 적절한 곳에서 이와 다르게 이용될 수 있다.
시스템(100)은 시간-주파수 변환 시스템(102)에서 시간 영역 우측 채널 오디오 데이터를 수신하고, 시간-주파수 변환 시스템(104)에서 시간 영역 좌측 채널 오디오 데이터를 수신한다. 하나의 예시적인 실시예에서, 시스템(100)은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 적절한 조합으로 구현될 수 있고, 이것은 디지털 시스템 프로세서, 범용 프로세싱 플랫폼, 또는 기타의 적절한 플랫폼들상에서 동작하는 하나 이상의 소프트웨어 시스템들일 수 있다. 본 명세서에서 이용될 때, 하드웨어 시스템은 이산적 컴포넌트들, 집적 회로, 응용 특정 집적 회로, 필드 프래그램가능 게이트 어레이, 또는 기타의 적절한 하드웨어의 조합을 포함할 수 있다.
소프트웨어 시스템은 두 개 이상의 소프트웨어 애플리케이션들 또는 두 개 이상의 프로세서들, 또는 기타의 적절한 소프트웨어 구조들에서 동작하는 하나 이상의 오브젝트들, 에이전트들, 쓰레드들, 코드 라인들, 서브루틴들, 별개의 소프트 애플리케이션들, 두 개 이상의 코드 라인들 또는 기타 적절한 소프트웨어 구조들을 포함할 수 있다. 하나의 예시적인 실시예에서, 소프트웨어 시스템은 운영 시스템과 같은, 범용 소프트웨어 애플리케이션에서 동작하는 하나 이상의 코드 라인들 또는 기타의 적절한 소프트웨어 구조들, 및 특정 목적용 소프트웨어 애플리케이션에서 동작하는 하나 이상의 코드 라인들 또는 기타의 적절한 소프트웨어 구조들을 포함할 수 있다.
시간-주파수 변환 시스템(102) 및 시간-주파수 변환 시스템(104)은 우측 채널 시간 영역 오디오 데이터와 좌측 채널 시간 영역 오디오 데이터를 각각 주파수 영역 데이터로 전환시킨다. 하나의 예시적인 실시예에서, 주파수 영역 데이터는, 30밀리초와 같은 적절한 시구간 동안의 1,024개의 주파수 데이터의 빈들(bins of frequency data)과 같이, 샘플 주기에 걸쳐 캡쳐된 주파수 데이터의 프레임을 포함할 수 있다. 주파수 데이터의 빈들은 20 kHz와 같은, 미리결정된 주파수 범위에 걸쳐 균등하게 이격될 수 있고, 바크(bark), 등사각형 대역폭(equivalent rectangular bandwidth; ERB)과 같은 미리결정된 대역들에서 응집될 수 있거나, 또는 이와 달리 적절하게 분포될 수 있다.
시간-주파수 변환 시스템(102) 및 시간-주파수 변환 시스템(104)은 위상차 시스템(106)에 결합된다. 본 명세서에서 이용될 때, 용어 "결합된"과 이것의 유사 용어들(예컨대, "결합하다" 또는 "결합되다")은 (와이어, 광섬유, 또는 원격통신 매체와 같은) 물리적 연결, (데이터 메모리 디바이스의 무작위적으로 지정된 메모리 위치들 또는 하이퍼텍스트 전송 프로토콜(hypertext transfer protocol; HTTP) 링크를 통해서와 같은) 가상적 연결, (집적 회로내의 하나 이상의 반도체 디바이스들을 통해서와 같은) 논리적 연결, 또는 기타의 적절한 연결들을 포함할 수 있다. 하나의 예시적인 실시예에서, 통신 매체는 네트워크일 수 있거나 또는 기타의 적절한 통신 매체일 수 있다.
위상차 시스템(106)은 시간-주파수 변환 시스템(102) 및 시간-주파수 변환 시스템(104)에 의해 생성된 주파수 데이터의 프레임들에서의 주파수 빈들간의 위상차를 결정한다. 이러한 위상차들은 청취자에 의해 평상시에 인식될 것이며, 신호의 스테레오포닉 퀄리티를 향상시켜주는 위상 데이터를 나타낸다.
위상차 시스템(106)은 N-2 프레임 버퍼(110), N-1 프레임 버퍼(112), 및 N 프레임 버퍼(114)를 포함한 버퍼 시스템(108)에 결합된다. 하나의 예시적인 실시예에서, 버퍼 시스템(108)은, 희망하는 프레임 갯수로부터 위상차 데이터를 저장하기 위해, 적절한 갯수의 프레임 버퍼들을 포함할 수 있다. N-2 프레임 버퍼(110)는 시간-주파수 변환 시스템(102) 및 시간-주파수 변환 시스템(104)에 의해 변환된 제2의 이전 데이터 프레임들에 대한, 위상차 시스템(106)으로부터 수신된 위상차 데이터를 저장한다. 마찬가지로, N-1 프레임 버퍼(112)는 위상차 시스템(106)으로부터의 이전의 위상차 데이터 프레임들에 대한 위상차 데이터를 저장한다. N 프레임 버퍼(114)는 위상차 시스템(106)에 의해 생성된 위상차의 현재 프레임들에 대한 현재의 위상차 데이터를 저장한다.
위상차 시스템(116)은 N-2 프레임 버퍼(110)와 N-1 프레임 버퍼(112)에 결합되고, 이러한 버퍼들에 저장된 두 개의 위상차 데이터 세트들간의 위상차를 결정한다. 마찬가지로, 위상차 시스템(118)은 N-1 프레임 버퍼(112)와 N 프레임 버퍼(114)에 결합되고, 이러한 버퍼들에 저장된 두 개의 위상차 데이터 세트들간의 위상차를 결정한다. 마찬가지로, 버퍼 시스템(108)에 저장된 적절한 갯수의 프레임들에 대한 위상차들을 생성하기 위해 추가적인 위상차 시스템들이 이용될 수 있다.
위상차 시스템(120)은 위상차 시스템(116) 및 위상차 시스템(118)에 결합되고, 각각의 시스템으로부터 위상차 데이터를 수신하며, 총 위상차를 결정한다. 이 예시적인 실시예에서, 보다 큰 위상차를 갖는 주파수 빈들과 보다 작은 위상차를 갖는 주파수 빈들을 식별하기 위해, 세 개의 연속적인 주파수 데이터 프레임들에 대한 위상차가 결정된다. 미리결정된 갯수의 위상차 데이터 프레임들에 대한 총 위상차를 결정하기 위해 추가적인 위상차 시스템이 또한 이용될 수 있거나 또는 양자택일적으로 이용될 수 있다.
위상차 버퍼(122)는 이전 세 개의 프레임들의 세트에 대한, 위상차 시스템(120)으로부터의 위상차 데이터를 저장한다. 마찬가지로, 만약 버퍼 시스템(108)이 세 개 보다 많은 프레임 차이들을 포함한다면, 위상차 버퍼(122)는 추가적인 위상차 데이터를 저장할 수 있다. 위상차 버퍼(122)는 또한 프레임들(N-4, N-3, N-2)로부터 생성된 세트, 프레임들(N-3, N-2, N-1)로부터 생성된 세트, 프레임들(N-2, N-1, N)로부터 생성된 세트, 프레임들(N-1, N, N+l)로부터 생성된 세트, 또는 기타의 적절한 위상차 데이터 세트들과 같은, 추가적인 이전 위상차 데이터 세트들에 대한 위상차 데이터를 저장할 수 있거나 또는 양자택일적으로 이러한 데이터를 저장할 수 있다.
위상차 가중 시스템(124)은 위상차 버퍼(122)로부터 버퍼링된 위상차 데이터를 수신하고, 위상차 시스템(120)으로부터 현재의 위상차 데이터를 수신하며, 위상차 가중 인자를 적용한다. 하나의 예시적인 실시예에서, 높은 위상차 정도를 나타내는 주파수 빈들에는 일관된 위상차를 나타내는 주파수 빈들보다 작은 가중 인자가 주어진다. 이러한 방식으로, 연속적인 프레임들간의 높은 위상차 정도를 나타내는 주파수 빈들로부터의 변경들을 제거하고, 연속적인 프레임들간의 낮은 위상차를 나타내는 주파수 빈들에 대한 강조를 제공하기 위해 진폭 데이터를 평탄화하는데 주파수 차이 데이터가 이용될 수 있다. 이러한 평탄화는 특히, 낮은 비트 레이트 오디오 데이터가 프로세싱중이거나 생성중에 있을 때에, 위상 데이터와 진폭 데이터를 갖는 오디오 데이터로부터, 파라미트릭 스테레오 데이터와 같은, 진폭 데이터만을 갖는 오디오 데이터로의 변환에 의해 도입될 수 있는 오디오 인공물을 감소 또는 제거시키는데 도움을 줄 수 있다.
진폭 변경 시스템(126)은 위상차 가중 시스템(124)으로부터 위상차 가중 인자 데이터를 수신하고, 진폭 변경 데이터를 시간-주파수 변환 시스템(102) 및 시간-주파수 변환 시스템(104)으로부터 변환된 좌측 채널 및 우측 채널 데이터에 제공한다. 이러한 방식으로, 진폭을 조정하여 위상차를 보정하기 위해 좌우 채널 오디오에 대한 현재의 프레임 주파수 데이터는 변경되며, 이것은 스테레오포닉 사운드를 생성하는데 이용될 좌우 진폭 값들간의 패닝(panning)을 가능하게 해준다. 이러한 방식으로, 위상 데이터가 송신될 필요 없이 진폭만에 의해 스테레오 채널 사운드 또는 기타의 멀티 채널 사운드를 시뮬레이팅하기 위해 좌우 채널들간의 위상차는 평탄화되고 진폭 변경 데이터로 변환된다. 마찬가지로, 주파수 데이터 프레임들(N-1, N, N+l)의 세트, 또는 기타의 적절한 데이터 세트들로부터의 데이터를 활용하기 위해, 변경중에 있는 주파수 데이터의 현재 프레임을 버퍼링하는데 버퍼 시스템이 이용될 수 있다. 진폭 변경 시스템(126)은 또한 청취자에 대한 명백한 스테이지를 좁히거나 넓히기 위해, 미리결정된 주파수 빈들, 주파수 빈들의 그룹에 대한 두 개 이상의 채널들간의 진폭차를 수축 또는 팽창시킬 수 있거나, 또는 기타의 적절한 방식으로 채널들간의 진폭차를 수축 또는 팽창시킬 수 있다.
주파수-시간 변환 시스템(128) 및 주파수-시간 변환 시스템(130)은 진폭 변경 시스템(126)으로부터 변경된 진폭 데이터를 수신하고, 주파수 데이터를 시간 신호로 변환시킨다. 이러한 방식으로, 세기만을 이용하여 스테레오 데이터를 시뮬레이팅하기 위해 주파수-시간 변환 시스템(128) 및 주파수-시간 변환 시스템(130)에 의해 생성된 촤즉 채널 및 우측 채널 데이터들은 각각 동위상이지만 진폭은 다르며, 이로써 위상 데이터는 저장되거나, 송신되거나 또는 이와 달리 프로세싱될 필요가 없다.
동작시, 스테레오포닉 또는 기타의 멀티 채널 오디오 데이터 또는 기타의 멀티 채널 오디오 데이터를 생성하기 위해 송신될 필요가 있는 데이터 양을 감소시키기 위해, 시스템(100)은 위상 및 진폭 데이터를 포함한 멀티 채널 오디오 데이터를 프로세싱하고, 진폭 데이터만을 갖는 멀티 채널 오디오 데이터를 생성한다. 시스템(100)은 고주파수 위상 변동으로부터의 효과를 감소시키는 방식으로 주파수 데이터에서의 변동에 대해 진폭 데이터를 보상시킴으로써, 위상 및 진폭 데이터를 포함한 오디오 데이터가 진폭 데이터만을 포함한 오디오 데이터로 변환될 때에 생성될 수 있는 오디오 인공물을 제거한다. 이러한 방식으로, 다른 방식을 통해서였다면 오디오 데이터의 송신에 대해 이용가능한 비트 레이트가 고주파수 위상 데이터를 정확하게 나타내는데 필요한 비트 레이트보다 낮을 때에 도입될 수 있는 오디오 인공물은 제거된다.
도 2는 본 발명의 예시적인 실시예에 따른 위상차 가중 인자들(200A, 200B)의 도면이다. 위상차 가중 인자들(200A, 200B)은 위상 변동 함수로서 진폭 데이터에 적용될 예시적인 평준화된 가중 인자들을 보여준다. 하나의 예시적인 실시예에서, 스테레오 사운드를 부적절하게 표현할 파라미트릭 스테레오 데이터 또는 기타의 멀티 채널 데이터를 일으킬 잠재적인 노이즈 또는 기타의 오디오 인공물을 평탄화 제거시키기 위해, 높은 위상 변동 정도를 보여주는 주파수 빈들은 보다 낮은 위상 변동 정도를 보여주는 주파수 빈들보다 낮은 평준화된 가중 인자로 가중치부여된다. 하나의 예시적인 실시예에서, 위상차 가중 인자들(200A, 200B)은 위상차 가중 시스템(124) 또는 기타의 적절한 시스템에 의해 적용될 수 있다. 오디오 데이터에 대한 비트 레이트에서의 예상된 감소를 도모하기 위해 가중치 양은 변경될 수 있다. 예를 들어, 높은 데이터 감소도가 필요한 경우, 높은 위상 변동 정도를 나타내는 주파수 빈들에게 주어진 가중치는 위상차 가중 인자(200A)에서 도시된 점근적 방식에서와 같이, 상당히 감소될 수 있으며, 낮은 데이터 감소도가 필요한 경우, 보다 높은 위상 변동 정도를 나타내는 주파수 빈들에 주어진 가중치는 위상차 가중 인자(200B)를 이용하는 것과 같이, 보다 작게 감소될 수 있다.
도 3은 본 발명의 예시적인 실시예에 따른 코히어런스 공간 조정 시스템(300)의 도면이다. 코히어런스 공간 조정 시스템(300)은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 적절한 조합으로 구현될 수 있고, 이것은 범용 프로세싱 플랫폼상에서 동작하는 하나 이상의 시스템들, 또는 하나 이상의 이산 디바이스들, 또는 기타의 적절한 시스템들일 수 있다.
코히어런스 공간 조정 시스템(300)은 예시적인 공간 조정 시스템의 실시예를 제공하지만, 공간 조정 알고리즘을 이행하기 위한 기타의 적절한 프레임워크, 시스템, 프로세스 또는 아키텍처가 또한 이용될 수 있거나 양자택일적으로 이용될 수 있다.
코히어런스 공간 조정 시스템(300)은 오디오 압축 동안의 인공물을 줄이기 위해 멀티 채널 오디오 신호의 공간적 양태(즉, 시스템(300)은 스테레오 조정 시스템을 도시한다)를 변경시킨다. 스테레오 입력 스펙트럼의 위상 스펙트럼이 제일 먼저 감산기(302)에 의해 차별화되어 차분 위상 스펙트럼을 생성시킨다. 차분 위상 스펙트럼은 승산기(304)를 통해 가중 인자들 Y(K) = B1X(K) + B2X(K-1) - A1Y(K-1)에 의해 가중치 부여되며,
여기서:
Y(K) = 평탄화된 주파수 빈 K 진폭;
Y(K-1) = 평탄화된 주파수 빈 K-1 진폭;
X(K) = 주파수 빈 K 진폭;
X(K-1) = 주파수 빈 K-1 진폭;
B1 = 가중 인자;
B2 = 가중 인자;
A1 = 가중 인자; 및
B1 + B2 + A1 = 1이다.
가중 인자들, B1, B2, A1은 관측, 시스템 설계, 또는 기타의 적절한 인자들에 기초하여 결정될 수 있다. 하나의 예시적인 실시예에서, 가중 인자들, B1, B2, A1은 모든 주파수 빈들에 대해 고정된다. 마찬가지로, 가중 인자들, B1, B2, A1은 바크(bark) 또는 기타의 적절한 주파수 빈들의 그룹에 기초하여 변경될 수 있다.
그 후 가중된 차분 위상 신호는 2로 나뉘어지고 감산기(308)에 의해 입력 위상 스펙트럼 0에서 감산되며 가산기(306)에 의해 입력 위상 스펙트럼 1과 합산된다. 감산기(308)와 가산기(306)의 출력들은 각각 출력 조정된 위상 스펙트럼 0과 출력 조정된 위상 스펙트럼 1이다.
동작시, 코히어런스 공간 조정 시스템(300)은 파라미트릭 스테레오에서의 이용을 위한 것과 같은, 모노 위상 스펙트럼 대역 생성의 효과를 갖는다.
도 4는 본 발명의 예시적인 실시예에 따른 파라미트릭 코딩을 위한 방법(400)의 도면이다. 방법(400)은 N개의 오디오 데이터 채널들이 주파수 영역으로 변환되는 단계 402에서 시작한다. 하나의 예시적인 실시예에서, 푸리에 변환 또는 기타의 적절한 변환을 이용하는 것과 같이, 좌측 채널 스테레오 데이터와 우측 채널 스테레오 데이터는 각각 미리결정된 기간에 걸쳐 주파수 영역 데이터의 프레임으로 변환될 수 있다. 그런 후, 본 방법은 단계 404로 진행한다.
단계 404에서, 채널들간의 위상차가 결정된다. 하나의 예시적인 실시예에서, 좌우측 채널들간의 위상차를 결정하기 위해 좌우측 채널 오디오 데이터들의 주파수 빈들은 비교되어질 수 있다. 그런 후, 본 방법은 단계 406로 진행한다.
단계 406에서, 프레임에 대한 위상차 데이터가 버퍼에 저장된다. 하나의 예시적인 실시예에서, 버퍼 시스템은 위상차 데이터를 저장하기 위한 미리결정된 갯수의 버퍼들을 포함할 수 있고, 버퍼들은 동적으로 할당될 수 있거나, 또는 기타의 적절한 프로세스들이 이용될 수 있다. 그런 후, 본 방법은 단계 408로 진행한다.
단계 408에서, M개의 데이터 프레임들이 버퍼내에 저장되어 있는지 여부를 결정한다. 하나의 예시적인 실시예에서, 희망하는 갯수의 프레임들간에 평탄화가 수행될 수 있도록 하기 위해, M은 3과 동일할 수 있거나 또는 임의의 기타 적절한 범자연수일 수 있다. 만약 단계 408에서, M개의 데이터 프레임들이 저장되어 있지 않다고 결정되면, 본 방법은 단계 402로 복귀한다. 그렇지 않은 경우에는, 본 방법은 단계 410으로 진행한다.
단계 410에서, M-1 프레임과 M 프레임간의 위상차가 결정된다. 예를 들어, 만약 M이 3과 동일하면, 데이터의 제2 프레임과 제3 프레임간의 위상차가 결정된다. 그 다음, 본 방법은 위상차 데이터가 버퍼링되는 단계 412로 진행한다. 하나의 예시적인 실시예에서, 미리결정된 갯수의 버퍼들이 하드웨어 또는 소프트웨어로 생성될 수 있고, 버퍼 시스템은 버퍼 데이터 저장 영역들을 동적으로 할당할 수 있거나, 또는 기타 적절한 프로세스들이 이용될 수 있다. 그 다음, 본 방법은 M이 1만큼 감소되는 단계 414로 진행한다. 그 다음, 본 방법은 M이 0과 동일한지 여부를 결정하는 단계 416으로 진행한다. 예를 들어, M이 0과 동일해지면, 버퍼링된 모든 데이터 프레임들은 프로세싱되었다. 만약 M이 0과 동일하지 않은 것으로 결정되면, 본 방법은 단계 402로 복귀한다. 그렇지 않은 경우에는, 본 방법은 단계 418로 진행한다.
단계 418에서, 버퍼링된 프레임 위상차 데이터간의 위상차가 결정된다. 예를 들어, 만약 두 개의 위상차 데이터 프레임들이 저장되었다면, 이 두 개의 프레임들간의 차이가 결정된다. 마찬가지로, 세 개, 네 개, 또는 이와 다른 적절한 갯수의 위상차 데이터 프레임들간의 차이가 이용될 수 있다. 그 다음, 본 방법은 멀티 프레임 차이 데이터가 버퍼링되는 단계 420으로 진행한다. 그런 후, 본 방법은 단계 422로 진행한다.
단계 422에서, 미리결정된 갯수의 멀티 프레임 버퍼값들이 저장되어 있는지 여부를 결정한다. 만약 미리결정된 갯수의 멀티 프레임 버퍼값들이 저장되어 있지 않다고 결정되면, 본 방법은 단계 402로 복귀한다. 그렇지 않은 경우에는, 본 방법은 단계 424로 진행한다.
단계 424에서, 이전 멀티 프레임 버퍼 및 현재의 멀티 프레임 버퍼에 대한 위상차 데이터가 생성된다. 예를 들어, 두 개의 멀티 프레임 버퍼링된 데이터 값들이 존재하는 경우, 두 개의 멀티 프레임 버퍼들간의 위상차가 결정된다. 마찬가지로, N이 2보다 큰 경우, 이전 멀티 프레임 버퍼 및 현재의 멀티 프레임 버퍼간의 위상차가 또한 결정될 수 있다. 그런 후, 본 방법은 단계 426으로 진행한다.
단계 426에서, 위상차 데이터에 기초하여 가중 인자가 주파수 데이터의 현재 프레임, 이전 프레임 또는 기타 적절한 프레임에서의 각각의 주파수 빈에 적용된다. 예를 들어, 만약 위상 데이터가 폐기되거나 또는 폐기되지 않고 달리 처분된다면 파라미트릭 스테레오 데이터에서 오디오 인공물을 생성시킬 수 있는 위상 데이터를 나타내는 기타의 정보, 오디오 인공물, 또는 노이즈를 감소시키기 위해, 가중 인자는, 작은 위상 변동을 나타내는 주파수 빈들에 대한 진폭 값들에 보다 높은 가중치를 적용할 수 있고, 높은 위상 변동을 나타내는 주파수 빈들을 덜 강조시킬 수 있다. 가중 인자들은 오디오 데이터 송신 비트 레이트에서의 미리결정된 감소에 기초하여 선택될 수 있고, 이것은 또한 주파수 빈 또는 주파수 빈들의 그룹에 기초하여 변할 수 있거나 또는 양자택일적으로 이와 같이 변할 수 있다. 그런 후, 본 방법은 단계 428로 진행한다.
단계 428에서, 좌측 채널 데이터와 우측 채널 데이터에 대한 가중된 주파수 데이터는 주파수 영역에서 시간 영역으로 변환된다. 하나의 예시적인 실시예에서, 오디오 데이터의 이전 프레임들의 세트들에 기초하여, 평탄화 프로세스가 오디오 데이터의 현재의 프레임들의 세트에 대해 수행될 수 있다. 또다른 예시적인 실시예에서, 오디오 데이터의 이전 프레임들 및 후속하는 프레임들의 세트들에 기초하여, 평탄화 프로세스가 오디오 데이터의 이전 프레임들의 세트에 대해 수행될 수 있다. 마찬가지로, 다른 적절한 프로세스들이 또한 이용될 수 있거나 또는 양자택일적으로 이용될 수 있다. 이러한 방식으로, 오디오 데이터의 채널들은, 위상 데이터의 저장 또는 송신을 요구하는 것 없이, 그리고 채널들간의 위상 변동들의 주파수가 이용가능한 송신 채널 대역폭에 의해 수용될 수 있는 주파수를 초과할 때 초래될 수 있는 오디오 인공물의 생성 없이, 멀티 채널 사운드를 시뮬레이팅하기 위해, 위상 데이터가 제거되었지만 위상 데이터가 진폭 데이터로 변환되어 있는 파라미트릭 멀티 채널 퀄리티를 나타낸다.
동작시, 방법(400)은 파라미트릭 스테레오 또는 기타의 멀티 채널 데이터가 생성될 수 있도록 해준다. 방법(400)은 좌측 및 우측 또는 기타의 멀티 채널들간의 위상 관계가 송신되거나 또는 이와 달리 프로세싱될 것을 요구하지 않고서, 스테레오포닉 또는 기타의 멀티 채널 사운드의 양태들을 보존하기 위해, 스테레오 또는 기타의 멀티 채널 데이터간의 주파수 차이를 제거하고, 이들의 주파수 변동을 진폭 변동으로 전환시킨다. 이러한 방식으로, 위상 데이터의 제거를 보상하기 위해 수신기에 의해 요구될 측대역 데이터 또는 기타 데이터에 대한 필요성 없이 위상 보상된 멀티 채널 오디오 데이터를 생성하는데 기존의 수신기들이 이용될 수 있다.
도 5는 본 발명의 예시적인 실시예에 따른 동적 위상 경향 보정을 위한 시스템(500)의 도면이다. 시스템(500)은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 적절한 조합으로 구현될 수 있고, 이것은 범용 프로세싱 플랫폼상에서 동작하는 하나 이상의 소프트웨어 시스템들일 수 있다.
시스템(500)은 좌측 시간 신호 시스템(502)과 우측 시간 신호 시스템(504)을 포함하며, 이것들은 스테레오포닉 사운드 소스, 또는 기타의 적절한 시스템들로부터 생성되거나 또는 수신된 좌우 채널 시간 신호들을 제공할 수 있다. 단구간 푸리에 변환 시스템들(506, 508)은 각각 좌측 시간 신호 시스템(502)과 우측 시간 신호 시스템(504)에 결합되며, 시간 신호들의 시간-주파수 영역 변환을 수행한다. 푸리에 변환, 이산 코사인 변환, 또는 기타의 적절한 변환들과 같은, 다른 변환들이 또한 이용될 수 있거나, 양자택일적으로 이용될 수 있다.
단구간 푸리에 변환 시스템들(506, 508)로부터의 출력은 3개 프레임 지연 시스템들(510, 520)에 각각 제공된다. 단구간 푸리에 변환 시스템들(506, 508)의 진폭 출력들은 진폭 시스템들(512, 518)에 각각 제공된다. 단구간 푸리에 변환 시스템들(506, 508)의 위상 출력들은 위상 시스템들(514, 516)에 각각 제공된다. 진폭 시스템들(512, 518) 및 위상 시스템들(514, 516)에 의해 추가적인 프로세싱이 수행될 수 있으며, 이러한 시스템들은 각각의 비프로세싱된 신호 또는 데이터를 제공할 수 있다.
임계 대역 필터 뱅크들(522, 524)은 진폭 시스템들(512, 518)로부터 각각 진폭 데이터를 수신하고, 미리결정된 주파수 데이터 대역들을 필터링한다. 하나의 예시적인 실시예에서, 임계 대역 필터 뱅크들(522, 524)은, 바크(Bark)의 주파수 스케일과 같은, 인간 청각 응답 및 주파수 빈들의 지각 에너지에 기초하여 주파수 빈들을 그룹화하는 심리음향 필터(psycho-acoustic filter)에 기초하여, 선형적으로 이격된 주파수 빈들을 주파수 빈들의 비선형적 그룹들로 그룹화할 수 있다. 하나의 예시적인 실시예에서, 바크 주파수 스케일은 처음 24개의 인간 청각 임계 대역들에 대응하는, 1 내지 24 바크의 범위를 가질 수 있다. 예시적인 바크 대역 엣지들은 0, 100, 200, 300, 400, 510, 630, 770, 920, 1080, 1270, 1480, 1720, 2000, 2320, 2700, 3150, 3700, 4400, 5300, 6400, 7700, 9500, 12000, 15500 헤르쯔로서 주어진다. 예시적인 바크 대역 중심들은 50, 150, 250, 350, 450, 570, 700, 840, 1000, 1170, 1370, 1600, 1850, 2150, 2500, 2900, 3400, 4000, 4800, 5800, 7000, 8500, 10500, 13500 헤르쯔이다.
이 예시적인 실시예에서, 바크 주파수 스케일은 15.5 kHz까지만 정의된다. 이에 따라, 이 예시적인 바크 스케일에 대한 최고 샘플링 레이트는 나이퀴스트 한계, 또는 31 kHz이다. 40 kHz의 샘플링 레이트가 이용될 수 있도록, 19 kHz(24번째 바크 대역 엣지와 23번째 임계 대역폭의 합)보다 높게 확장되는 25번째 예시적인 바크 대역이 활용될 수 있다. 마찬가지로, 54 kHz까지의 샘플링 레이트가 이용될 수 있도록, 20500값과 27000값을 부가시킴으로써, 추가적인 바크 대역 엣지들이 활용될 수 있다. 인간 청각은 대체로 20 kHz보다 높게 확장되지 않지만, 40 kHz보다 높은 오디오 샘플링 레이트가 실제적으로 보편화되어 있다.
시간 평탄화 시스템(526)은 임계 대역 필터 뱅크들(522, 524)로부터 필터링된 진폭 데이터를 수신하고, 위상 시스템들(514, 516)로부터 위상 데이터를 수신하며, 데이터의 시간 평탄화를 수행한다. 하나의 예시적인 실시예에서, 좌우측 채널들간의 위상 델타가, 예컨대 다음의 알고리즘 또는 다른 적절한 방식들을 적용함으로써 결정될 수 있다:
Figure 112011018860537-pct00001
여기서:
P = 좌우측 채널들간의 위상차;
Xl = 좌측 스테레오 입력 신호;
Xr = 우측 스테레오 입력 신호;
m = 현재 프레임; 및
K = 주파수 빈 지수.
그런 후, 델타 평탄화 계수가, 예컨대 다음의 알고리즘 또는 다른 적절한 방식들을 적용함으로써 결정될 수 있다:
Figure 112011018860537-pct00002
여기서:
δ = 평탄화 계수;
x = 평탄화 바이어스를 제어하기 위한 파라미터(일반적으로는 1이며, 패닝을 과장시키기 위해 1보다 클 수 있고, 패닝을 감소시키기 위해 1보다 작을 수 있음);
P = 좌우측 채널들간의 위상차;
m = 현재 프레임; 및
K = 주파수 빈 지수.
그런 후, 스펙트럼 우세적 평탄화 계수가, 예컨대 다음의 알고리즘 또는 다른 적절한 방식들을 적용함으로써 결정될 수 있다:
Figure 112011018860537-pct00003
여기서:
D = 평탄화 계수;
C = 임계적인 대역 에너지(필터 뱅크들의 출력);
N = 지각 대역들(필터 뱅크 대역들의 갯수);
m = 현재 프레임; 및
b = 주파수 대역.
그런 후, 위상 델타 신호가, 예컨대 다음의 알고리즘 또는 다른 적절한 방식들을 적용함으로써 평탄화될 수 있다:
Figure 112011018860537-pct00004
여기서:
δ = 평탄화 계수;
D = 선형 등가적 주파수들에 재맵핑된 스펙트럼 우세적 가중치; 및
P = 좌우측 채널들간의 위상차.
원하지 않는 오디오 인공물을 생성시킬 수 있는 스펙트럼 변동을 감소시키기 위해, 스펙트럼 평탄화 시스템(528)은 시간 평탄화 시스템으로부터 출력을 수신하고 출력의 공간 평탄화를 수행한다.
위상 응답 필터 시스템(530)은 스펙트럼 평탄화 시스템(528) 및 시간 지연 시스템들(510, 520)의 출력을 수신하고, 위상 응답 필터링을 수행한다. 하나의 예시적인 실시예에서, 위상 응답 필터 시스템(530)은, 예컨대 다음의 등식 또는 다른 적절한 방식들을 적용함으로써 위상 쉬프트 계수들을 계산할 수 있다:
Figure 112011018860537-pct00005
여기서:
Yl = 좌측 채널 복소 필터 계수;
Yr = 우측 채널 복소 필터 계수; 및
X = 입력 위상 신호.
그런 후, 입력 신호는, 예컨대 다음의 알고리즘 또는 다른 적절한 방식들을 적용함으로써 필터링될 수 있다:
Figure 112011018860537-pct00006
여기서:
Yl = 좌측 복소 계수;
Yr = 우측 복소 계수;
Xl = 좌측 스테레오 입력 신호;
Xr = 우측 스테레오 입력 신호;
Hl = 좌측 위상 쉬프트된 결과; 및
Hr = 우측 위상 쉬프트된 결과; 및
단구간 역 푸리에 변환 시스템들(532, 534)은 위상 응답 필터 시스템(530)으로부터 좌우 위상 쉬프트된 데이터를 각각 수신하고, 데이터에 대해 단구간 역 푸리에 변환을 수행한다. 역 푸리에 변환, 역 이산 코사인 변환, 또는 기타의 적절한 변환들과 같은, 다른 변환들이 또한 이용될 수 있거나, 양자택일적으로 이용될 수 있다.
좌측 시간 신호 시스템(536)과 우측 시간 신호 시스템(538)은 낮은 비트 레이트 채널을 통한 송신을 위한 스테레오포닉 신호와 같은, 좌우 채널 신호를 제공한다. 하나의 예시적인 실시예에서, 좌측 시간 신호 시스템(536)과 우측 시간 신호 시스템(538)에 의해 제공된 프로세싱된 신호들은, 본 발명을 이용하지 않은 경우 원하지 않는 오디오 인공물을 생성하였을 오디오 컴포넌트들의 제거에 의해 낮은 비트 레이트에서 개선된 오디오 퀄리티를 갖는 스테레오 사운드 데이터를 제공하는데 이용될 수 있다.
도 6은 본 발명의 예시적인 실시예에 따른 스펙트럼 평탄화를 수행하기 위한 시스템(600)의 도면이다. 시스템(600)은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 적절한 조합으로 구현될 수 있고, 이것은 범용 프로세싱 플랫폼상에서 동작하는 하나 이상의 소프트웨어 시스템들일 수 있다.
시스템(600)은 예컨대 시간 평탄화 시스템(502) 또는 기타의 적절한 시스템들로부터, 프로세싱된 위상 신호를 수신할 수 있는 위상 신호 시스템(602)을 포함한다. 코사인 시스템(604)과 사인 시스템(606)은 프로세싱된 위상 신호의 위상의 코사인 및 사인 값들을 각각 생성한다. 제로 위상 필터들(608, 610)은 코사인 및 사인 값들의 제로 위상 필터링을 각각 수행하며, 위상 추정 시스템(612)은 제로 위상 필터링된 코사인 및 사인 데이터를 수신하고 스펙트럼 평탄화된 신호를 생성한다.
동작시, 시스템(600)은 π에서 -π까지 변하는 위상값을 갖는 위상 신호를 수신하는데, 이것은 고주파수 컴포넌트들을 감소시키기 위해 필터링하는 것이 어려울 수 있다. 제로 위상 필터가 고주파수 컴포넌트들을 감소시키는데 이용될 수 있도록 하기 위해 시스템(600)은 위상 신호를 사인 및 코사인 값들로 변환시킨다.
도 7은 본 발명의 예시적인 실시예에 따른 전력 보상된 세기 리패닝(re-panning)을 위한 시스템(700)의 도면이다. 시스템(700)은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 적절한 조합으로 구현될 수 있고, 이것은 범용 프로세싱 플랫폼상에서 동작하는 하나 이상의 소프트웨어 시스템들일 수 있다.
시스템(700)은 좌측 시간 신호 시스템(702)과 우측 시간 신호 시스템(704)을 포함하며, 이것들은 스테레오포닉 사운드 소스, 또는 기타의 적절한 시스템들로부터 생성되거나 또는 수신된 좌우 채널 시간 신호들을 제공할 수 있다. 단구간 푸리에 변환 시스템들(706, 710)은 각각 좌측 시간 신호 시스템(702)과 우측 시간 신호 시스템(704)에 결합되며, 시간 신호들의 시간-주파수 영역 변환을 수행한다. 푸리에 변환, 이산 코사인 변환, 또는 기타의 적절한 변환들과 같은, 다른 변환들이 또한 이용될 수 있거나, 양자택일적으로 이용될 수 있다.
세기 리패닝 시스템(708)은 좌우 채널 변환 신호들의 세기 리패닝을 수행한다. 하나의 예시적인 실시예에서, 세기 리패닝 시스템(708)은 다음의 알고리즘 또는 기타의 적절한 프로세스들을 적용할 수 있다:
Figure 112011018860537-pct00007
여기서:
Ml = 좌측 채널 세기 패닝된 신호;
Mr = 우측 채널 세기 패닝된 신호;
Xl = 좌측 스테레오 입력 신호;
Xr = 우측 스테레오 입력 신호; 및
β = 좌우 신호간의 위상차의 제거로 인해 스테레오 이미지의 지각된 붕괴를 보상하기 위한 비선형 옵션(이것은 일반적으로 1이며, 패닝을 증가시키기 위해 1보다 클 수 있거나 패닝을 감소시키기 위해 1보다 작을 수 있음).
복합 신호 생성 시스템(712)은 좌우 채널 변환 신호들과 좌우 채널 세기 패닝된 신호들로부터 복합 신호를 생성한다. 하나의 예시적인 실시예에서, 복합 신호 생성 시스템(712)은 다음의 알고리즘 또는 기타의 적절한 프로세스들을 적용할 수 있다:
Figure 112011018860537-pct00008
여기서:
Cl = 주파수 의존 윈도우(W)에 의해 결정된 세기 패닝된 신호와 혼합된 오리지널 신호를 포함한 좌측 채널 복합 신호;
Cr = 주파수 의존 윈도우(W)에 의해 결정된 세기 패닝된 신호와 혼합된 오리지널 신호를 포함한 우측 채널 복합 신호;
Xl = 좌측 스테레오 입력 신호;
Xr = 우측 스테레오 입력 신호;
Ml = 좌측 세기 패닝된 신호;
Mr = 우측 세기 패닝된 신호;
W = 상이한 주파수들에서 혼합체를 결정하는 주파수 의존 윈도우(주파수들에 걸쳐 우회하는 변수; 만약 0이면, 오직 오리지날 신호이며, 0보다 크면(예컨대, 0.5), 오리지날 신호와 세기 패닝된 신호의 혼합체를 불러일으킴).
전력 보상 시스템(714)은 좌우 채널 변환 신호들과 좌우 채널 복합 신호들로부터 전력 보상된 신호를 생성한다. 하나의 예시적인 실시예에서, 전력 보상 시스템(714)은 다음의 알고리즘 또는 기타의 적절한 프로세스들을 적용할 수 있다:
Figure 112011018860537-pct00009
여기서:
Yl = 좌측 채널 전력 보상된 신호;
Yr = 우측 채널 전력 보상된 신호;
Cl = 좌측 채널 복합 신호;
Cr = 우측 채널 복합 신호;
Xl = 좌측 채널 스테레오 입력 신호; 및
Xr = 우측 채널 스테레오 입력 신호.
단구간 역 푸리에 변환 시스템들(716, 718)은 전력 보상 시스템(714)으로부터 전력 보상된 데이터를 수신하고, 데이터에 대해 단구간 역 푸리에 변환을 수행한다. 역 푸리에 변환, 역 이산 코사인 변환, 또는 기타의 적절한 변환들과 같은, 다른 변환들이 또한 이용될 수 있거나, 양자택일적으로 이용될 수 있다.
좌측 시간 신호 시스템(720)과 우측 시간 신호 시스템(722)은 낮은 비트 레이트 채널을 통한 송신을 위한 스테레오포닉 신호와 같은, 좌우 채널 신호를 제공한다. 하나의 예시적인 실시예에서, 좌측 시간 신호 시스템(720)과 우측 시간 신호 시스템(722)에 의해 제공된 프로세싱된 신호들은, 본 발명을 이용하지 않은 경우 원하지 않는 오디오 인공물을 생성하였을 오디오 컴포넌트들의 제거에 의해 낮은 비트 레이트에서 개선된 오디오 퀄리티를 갖는 스테레오 사운드 데이터를 제공하는데 이용될 수 있다.
본 발명의 시스템 및 방법의 예시적인 실시예들이 본 명세서에서 상세하게 설명되었지만, 본 발명분야의 당업자는 또한 첨부된 청구항들의 범위와 사상으로부터 이탈하지 않고서 다양한 대체구성과 변경이 본 시스템과 방법에 행해질 수 있다는 것을 알 것이다.
102: 시간-주파수 변환 시스템, 104: 시간-주파수 변환 시스템
106: 위상차 시스템, 128: 주파수-시간 변환 시스템
130: 주파수-시간 변환 시스템, 126: 진폭 변경 시스템
124: 위상차 가중 시스템, 108: 버퍼 시스템
110: N-2 프레임 버퍼, 112: N-1 프레임 버퍼
114: N 프레임 버퍼, 116, 118, 120: 위상차 시스템
122: 위상차 버퍼,
502, 536: 좌측 시간 신호 시스템,
504, 538: 우측 시간 신호 시스템,
510, 520: 3개 프레임 지연 시스템, 512, 518: 진폭 시스템
514, 516: 위상 시스템, 522, 524: 임계 대역 필터 뱅크
526: 시간 평탄화 시스템, 528: 스펙트럼 평탄화 시스템
530: 위상 응답 필터, 602: 위상 신호
608, 610: 제로 위상 필터, 612: 위상 추정 시스템
702, 720: 좌측 시간 신호 시스템,
704, 722: 우측 시간 신호 시스템, 708: 세기 리패닝 시스템
712: 복합 신호 생성 시스템, 714: 전력 보상 시스템

Claims (20)

  1. 위상 변조된 스테레오 데이터로부터 파라미트릭(parametric) 스테레오 데이터를 생성하기 위한 시스템에 있어서,
    좌측 채널 오디오 데이터 및 우측 채널 오디오 데이터를 수신하고, 상기 좌측 채널 오디오 데이터로부터 생성된 좌측 채널 주파수 영역 데이터와 상기 우측 채널 오디오 데이터로부터 생성된 우측 채널 주파수 영역 데이터 사이의 위상차(phase difference)에 기초하여 위상차 데이터를 생성하는 위상차 시스템으로서, 상기 좌측 채널 주파수 영역 데이터는 좌측 채널 진폭 데이터 및 좌측 채널 위상 데이터를 포함하고, 상기 우측 채널 주파수 영역 데이터는 우측 채널 진폭 데이터 및 우측 채널 위상 데이터를 포함하는 것인, 상기 위상차 시스템;
    상기 위상차 데이터를 수신하고, 상기 위상차 데이터에 기초하여 상기 좌측 채널 진폭 데이터 및 상기 우측 채널 진폭 데이터를 조정하기 위해 가중 데이터를 생성하는 위상차 가중 시스템; 및
    상기 가중 데이터를 이용하여 상기 좌측 채널 진폭 데이터 및 상기 우측 채널 진폭 데이터를 조정하고, 상기 좌측 채널 주파수 영역 데이터로부터 상기 좌측 채널 위상 데이터를 제거하고 상기 우측 채널 주파수 영역 데이터로부터 상기 우측 채널 위상 데이터를 제거하는 진폭 변경 시스템
    을 포함하는, 파라미트릭 스테레오 데이터를 생성하기 위한 시스템.
  2. 제1항에 있어서, 상기 위상차 가중 시스템은 좌측 채널 주파수 영역 데이터 및 우측 채널 주파수 영역 데이터의 복수의 프레임을 수신하는 것인, 파라미트릭 스테레오 데이터를 생성하기 위한 시스템.
  3. 제2항에 있어서, 좌측 채널 주파수 영역 데이터 및 우측 채널 주파수 영역 데이터의 2개 이상의 대응 프레임에 대한 상기 좌측 채널 주파수 영역 데이터와 상기 우측 채널 주파수 영역 데이터 사이의 상기 위상차 데이터를 저장하는 버퍼 시스템
    을 더 포함하는, 파라미트릭 스테레오 데이터를 생성하기 위한 시스템.
  4. 제3항에 있어서, 상기 위상차 가중 시스템은, 좌측 채널 주파수 영역 데이터 및 우측 채널 주파수 영역 데이터의 제1 대응 프레임 및 제2 대응 프레임에 대한 위상차 데이터를 수신하고, 좌측 채널 주파수 영역 데이터 및 우측 채널 주파수 영역 데이터의 상기 제1 대응 프레임과 상기 제2 대응 프레임 사이의 제1 위상차를 결정하고,
    상기 위상차 가중 시스템은, 좌측 채널 주파수 영역 데이터 및 우측 채널 주파수 영역 데이터의 제2 대응 프레임 및 제3 대응 프레임에 대한 위상차 데이터를 수신하고, 좌측 채널 주파수 영역 데이터 및 우측 채널 주파수 영역 데이터의 상기 제2 대응 프레임과 상기 제3 대응 프레임 사이의 제2 위상차를 결정하는 것인, 파라미트릭 스테레오 데이터를 생성하기 위한 시스템.
  5. 제4항에 있어서, 상기 위상차 가중 시스템은, 상기 제1 위상차 및 상기 제2 위상차에 기초하여 상기 좌측 채널 진폭 데이터 및 상기 우측 채널 진폭 데이터를 조정하기 위해 가중 데이터를 생성하는 것인, 파라미트릭 스테레오 데이터를 생성하기 위한 시스템.
  6. 삭제
  7. 제1항에 있어서, 상기 좌측 채널 위상 데이터가 제거된 좌측 채널 주파수 영역 데이터 및 상기 우측 채널 위상 데이터가 제거된 우측 채널 주파수 영역 데이터를 상기 진폭 변경 시스템으로부터 수신하고, 상기 좌측 채널 주파수 영역 데이터 및 상기 우측 채널 주파수 영역 데이터를 진폭 조정된 좌측 채널 시간 영역 데이터 및 진폭 조정된 우측 채널 시간 영역 데이터로 변환하는 주파수 영역 대 시간 영역 변환 시스템
    을 더 포함하는, 파라미트릭 스테레오 데이터를 생성하기 위한 시스템.
  8. 제1항에 있어서, 상기 위상차 시스템은 다음의 알고리즘,
    Figure 112015032888829-pct00010

    을 적용하며,
    여기서,
    P = 좌측 채널과 우측 채널 사이의 위상차;
    Xl = 좌측 스테레오 입력 신호;
    Xr = 우측 스테레오 입력 신호;
    m = 현재 프레임; 및
    K = 주파수 빈 지수(index)인 것인, 파라미트릭 스테레오 데이터를 생성하기 위한 시스템.
  9. 위상 변조된 오디오 데이터로부터 파라미트릭 오디오 데이터를 생성하기 위한 방법에 있어서,
    제1 채널 오디오 데이터를 시간 영역 신호로부터 제1 채널 주파수 영역 데이터로 변환하는 단계로서, 상기 제1 채널 주파수 영역 데이터는 제1 채널 진폭 데이터 및 제1 채널 위상 데이터를 포함하는 것인, 상기 제1 채널 오디오 데이터 변환 단계;
    제2 채널 오디오 데이터를 시간 영역 신호로부터 제2 채널 주파수 영역 데이터로 변환하는 단계로서, 상기 제2 채널 주파수 영역 데이터는 제2 채널 진폭 데이터 및 제2 채널 위상 데이터를 포함하는 것인, 상기 제2 채널 오디오 데이터 변환 단계;
    상기 제1 채널 주파수 영역 데이터와 상기 제2 채널 주파수 영역 데이터 사이의 위상차를 결정하는 단계;
    상기 제1 채널 주파수 영역 데이터와 상기 제2 채널 주파수 영역 데이터 사이의 상기 위상차에 기초하여 상기 제1 채널 진폭 데이터 및 상기 제2 채널 진폭 데이터에 적용하기 위한 가중 데이터를 결정하는 단계;
    상기 제1 채널 진폭 데이터를 상기 가중 데이터로 조정하는 단계;
    상기 제2 채널 진폭 데이터를 상기 가중 데이터로 조정하는 단계;
    상기 제1 채널 주파수 영역 데이터로부터 상기 제1 채널 위상 데이터를 제거하는 단계; 및
    상기 제2 채널 주파수 영역 데이터로부터 상기 제2 채널 위상 데이터를 제거하는 단계
    를 포함하는, 파라미트릭 오디오 데이터를 생성하기 위한 방법.
  10. 제9항에 있어서, 상기 제1 채널 주파수 영역 데이터는 제1 복수의 프레임을 포함하고, 상기 제2 채널 주파수 영역 데이터는 제2 복수의 프레임을 포함하며,
    상기 위상차는, 상기 제1 복수의 프레임 및 상기 제2 복수의 프레임의 2개 이상의 대응 프레임 사이에서 결정되는 것인, 파라미트릭 오디오 데이터를 생성하기 위한 방법.
  11. 제10항에 있어서, 상기 가중 데이터는, 상기 제1 복수의 프레임 및 상기 제2 복수의 프레임의 2개 이상의 대응 프레임 사이의 위상차에 기초하여 결정되는 것인, 파라미트릭 오디오 데이터를 생성하기 위한 방법.
  12. 삭제
  13. 제9항에 있어서, 상기 위상차를 결정하는 단계는 다음의 알고리즘,
    Figure 112015032888829-pct00011

    을 적용하는 단계를 포함하며,
    여기서,
    P = 좌측 채널과 우측 채널 사이의 위상차;
    Xl = 좌측 스테레오 입력 신호;
    Xr = 우측 스테레오 입력 신호;
    m = 현재 프레임; 및
    K = 주파수 빈 지수인 것인, 파라미트릭 오디오 데이터를 생성하기 위한 방법.
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
KR1020117006034A 2008-08-15 2009-08-14 파라미트릭 스테레오 변환 시스템 및 방법 KR101552750B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/192,404 US8385556B1 (en) 2007-08-17 2008-08-15 Parametric stereo conversion system and method
US12/192,404 2008-08-15

Publications (2)

Publication Number Publication Date
KR20110055651A KR20110055651A (ko) 2011-05-25
KR101552750B1 true KR101552750B1 (ko) 2015-09-11

Family

ID=41669154

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117006034A KR101552750B1 (ko) 2008-08-15 2009-08-14 파라미트릭 스테레오 변환 시스템 및 방법

Country Status (9)

Country Link
US (1) US8385556B1 (ko)
EP (1) EP2313884B1 (ko)
JP (1) JP5607626B2 (ko)
KR (1) KR101552750B1 (ko)
CN (1) CN102132340B (ko)
HK (2) HK1150186A1 (ko)
PL (1) PL2313884T3 (ko)
TW (1) TWI501661B (ko)
WO (1) WO2010019265A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010037426A1 (en) * 2008-10-03 2010-04-08 Nokia Corporation An apparatus
US20110206223A1 (en) * 2008-10-03 2011-08-25 Pasi Ojala Apparatus for Binaural Audio Coding
EP2326108B1 (en) * 2009-11-02 2015-06-03 Harman Becker Automotive Systems GmbH Audio system phase equalizion
CA3076786C (en) 2010-04-09 2021-04-13 Dolby International Ab Mdct-based complex prediction stereo coding
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
EP3429233B1 (en) 2013-07-30 2019-12-18 DTS, Inc. Matrix decoder with constant-power pairwise panning
KR102294767B1 (ko) * 2013-11-27 2021-08-27 디티에스, 인코포레이티드 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱
CN104681029B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
US10045145B2 (en) * 2015-12-18 2018-08-07 Qualcomm Incorporated Temporal offset estimation
US10491179B2 (en) * 2017-09-25 2019-11-26 Nuvoton Technology Corporation Asymmetric multi-channel audio dynamic range processing
CN107799121A (zh) * 2017-10-18 2018-03-13 广州珠江移动多媒体信息有限公司 一种无线广播音频的数字水印嵌入及检出方法
CN108962268B (zh) * 2018-07-26 2020-11-03 广州酷狗计算机科技有限公司 确定单声道的音频的方法和装置
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
ATE315823T1 (de) 2002-02-18 2006-02-15 Koninkl Philips Electronics Nv Parametrische audiocodierung
EP2065885B1 (en) 2004-03-01 2010-07-28 Dolby Laboratories Licensing Corporation Multichannel audio decoding
US7639823B2 (en) 2004-03-03 2009-12-29 Agere Systems Inc. Audio mixing using magnitude equalization
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
JP4794448B2 (ja) * 2004-08-27 2011-10-19 パナソニック株式会社 オーディオエンコーダ
US7283634B2 (en) * 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
JP3968450B2 (ja) * 2005-09-30 2007-08-29 ザインエレクトロニクス株式会社 ステレオ変調器およびそれを用いたfmステレオ変調器
US8190425B2 (en) 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
JP4940671B2 (ja) * 2006-01-26 2012-05-30 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
TW200742275A (en) * 2006-03-21 2007-11-01 Dolby Lab Licensing Corp Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information
ATE539434T1 (de) * 2006-10-16 2012-01-15 Fraunhofer Ges Forschung Vorrichtung und verfahren für mehrkanalparameterumwandlung

Also Published As

Publication number Publication date
JP2012500410A (ja) 2012-01-05
CN102132340B (zh) 2012-10-03
TW201016041A (en) 2010-04-16
WO2010019265A1 (en) 2010-02-18
CN102132340A (zh) 2011-07-20
PL2313884T3 (pl) 2014-08-29
TWI501661B (zh) 2015-09-21
HK1155549A1 (en) 2012-05-18
EP2313884A1 (en) 2011-04-27
JP5607626B2 (ja) 2014-10-15
HK1150186A1 (en) 2011-11-04
EP2313884A4 (en) 2012-12-12
EP2313884B1 (en) 2014-03-26
US8385556B1 (en) 2013-02-26
KR20110055651A (ko) 2011-05-25

Similar Documents

Publication Publication Date Title
KR101552750B1 (ko) 파라미트릭 스테레오 변환 시스템 및 방법
US20200143817A1 (en) Methods, Apparatus and Systems for Determining Reconstructed Audio Signal
US8971551B2 (en) Virtual bass synthesis using harmonic transposition
US10750278B2 (en) Adaptive bass processing system
US8090122B2 (en) Audio mixing using magnitude equalization
US7818079B2 (en) Equalization based on digital signal processing in downsampled domains
EP1377123A1 (en) Equalization for audio mixing
EP2291002A1 (en) Acoustic processing apparatus
EP2720477B1 (en) Virtual bass synthesis using harmonic transposition
EP2360686B1 (en) Signal processing method and apparatus for enhancing speech signals
EP2261894A1 (en) Signal analysis/control system and method, signal control device and method, and program
US10313820B2 (en) Sub-band spatial audio enhancement
JP3297050B2 (ja) デコーダスペクトル歪み対応電算式適応ビット配分符号化方法及び装置
US5588089A (en) Bark amplitude component coder for a sampled analog signal and decoder for the coded signal
JPWO2019203127A1 (ja) 情報処理装置、これを用いたミキシング装置、及びレイテンシ減少方法
JP6244652B2 (ja) 音声処理装置及びプログラム
JP2017212732A (ja) チャンネル数変換装置およびプログラム
JPH04302533A (ja) ディジタルデータの高能率符号化方法
KR20050011757A (ko) 디지털 압축오디오에 있어서 입체음향효과 생성방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180824

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190905

Year of fee payment: 5