KR20230091045A

KR20230091045A - 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치

Info

Publication number: KR20230091045A
Application number: KR1020220173938A
Authority: KR
Inventors: 백승권; 성종모; 이태진; 임우택; 장인선; 조병호
Original assignee: 한국전자통신연구원
Priority date: 2021-12-15
Filing date: 2022-12-13
Publication date: 2023-06-22

Abstract

오디오 신호 처리 장치 및 방법이 개시된다. 일 실시예에 따른 오디오 신호 처리 장치는, 압축된 오디오 신호에 대응하는 비트스트림(bitstream)을 수신하는 수신기와, 상기 비트스트림의 실수 데이터 또는 복소수 데이터에 대한 역 양자화(inverse quantization)을 수행함으로써 실수 복원 신호 또는 복소수 복원 신호를 생성하고, 상기 실수 복원 신호 또는 상기 복소수 복원 신호에 FDNS합성(Frequency Domain Noise Shaping synthesis)을 수행함으로써 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과를 생성하고, 상기 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과에 주파수-시간 변환(frequency to time transform)을 수행함으로써 복원된 오디오 신호를 생성하는 프로세서를 포함한다.

Description

복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치{AN AUDIO PROCESSING METHOD USING COMPLEX DATA AND DEVICES FOR PERFORMING THE SAME}

실시예들은 오디오 신호 처리 장치 및 방법에 관한 것이다.

오디오 코딩은 오디오 신호를 압축하여 전송하기 위한 기술이다. 오디오 코딩은 여러 세대를 거치면서 압축 성능이 개선되었다.

1 세대 MPEG(Moving Picture Experts Group) 오디오 코딩 기술은 지각적 음질 손실을 최소화하기 위하여 인간의 심리음향 모델에 근거한 양자화기를 설계하고 데이터를 압축하는 방식으로 개발되었다.

2 세대 MPEG 오디오 코딩 기술인 MPEG-2 AAC(Advanced Audio Coding) 기술은 기존 레이어들과 하위 호완성을 제공하기 위하여 QMF(Quadrature Mirror Filterbank)와 MDCT(Modified Discrete Cosine Transform) 조합의 하이브리드 주파수 변환 과정을 거쳐야 하는 구조적 제약사항을 가져 충실한 심리 음향 모델을 반영하기 힘들었다.

3세대 MPEG 오디오 코딩 기술인 MPEG-4 파라메트릭 코딩(parametric coding) 기술은 저 비트 레이트에서 주목할 만한 압축율을 달성하였으나, 여전히 높은 음질을 제공하기 위해서는 AAC 128kbps가 요구되었다.

4세대 MPEG 오디오 코딩 기술인 USAC(Unified Speech and Audio Coding)는 MPEG에서 이전까지 다루지 않던 저 비트 레이트 음성의 음질을 개선하기 위하여 개발되었다.

일 실시예에 따른 오디오 신호 처리 장치는, 압축된 오디오 신호에 대응하는 비트스트림(bitstream)을 수신하는 수신기와, 상기 비트스트림의 실수 데이터 또는 복소수 데이터에 대한 역 양자화(inverse quantization)을 수행함으로써 실수 복원 신호 또는 복소수 복원 신호를 생성하고, 상기 실수 복원 신호 또는 상기 복소수 복원 신호에 FDNS합성(Frequency Domain Noise Shaping synthesis)을 수행함으로써 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과를 생성하고, 상기 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과에 주파수-시간 변환(frequency to time transform)을 수행함으로써 복원된 오디오 신호를 생성하는 프로세서를 포함한다.

상기 프로세서는, 동일한 스케일 팩터(scale factor)에 기초하여 상기 실수 데이터 및 상기 복소수 데이터에 대한 역 양자화를 수행하여 상기 복소수 복원 신호를 생성할 수 있다.

상기 프로세서는, 제1 스위치 제어 신호에 기초하여 제1 스위치를 제어함으로써 상기 복소수 복원 신호에 TNS(Temporal Noise Shaping) 합성 또는 FDNS 합성을 수행할 수 있다.

상기 프로세서는, 상기 복소수 복원 신호가 TNS 잔차 신호인 경우, 상기 복소수 복원 신호에 상기 TNS 합성을 수행하고, 상기 TNS 합성의 결과에 상기 FDNS 합성을 수행할 수 있다.

상기 프로세서는, 상기 복소수 복원 신호가 FDNS 잔차 신호인 경우, 상기 복소수 복원 신호에 상기 복소수 FDNS 합성을 수행할 수 있다.

상기 프로세서는, 제2 스위치 제어 신호에 기초하여 제2 스위치를 제어함으로써 상기 비트스트림에 복소수 역 양자화 또는 실수 역 양자화를 수행할 수 있다.

상기 프로세서는, 상기 주파수-시간 변환의 결과에 스위칭 보상(switching compensation)을 수행할 수 있다.

상기 프로세서는, 상기 주파수-시간 변환의 결과의 현재 프레임에 대응하는 신호가 TDA(Time Domain Aliasing) 신호인지 여부를 판단하고, 상기 TDA 신호인지 여부의 판단 결과에 기초하여 오버랩-애드(overlap-add)를 수행할 수 있다.

상기 프로세서는, 상기 주파수-시간 변환의 결과의 이전 프레임에 대응하는 신호가 TDA 신호인지 여부를 판단하고, 상기 이전 프레임에 대응하는 신호가 TDA 신호인지 여부의 판단 결과에 기초하여 상기 오버랩-애드를 수행할 수 있다.

일 실시예에 따른 오디오 신호 처리 방법은, 압축된 오디오 신호에 대응하는 비트스트림(bitstream)을 수신하는 단계와, 상기 비트스트림의 실수 데이터 또는 복소수 데이터에 대한 역 양자화(inverse quantization)을 수행함으로써 실수 복원 신호 또는 복소수 복원 신호를 생성하는 단계와, 상기 실수 복원 신호 또는 상기 복소수 복원 신호에 FDNS합성(Frequency Domain Noise Shaping synthesis)을 수행함으로써 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과를 생성하는 단계와, 상기 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과에 주파수-시간 변환(frequency to time transform)을 수행함으로써 복원된 오디오 신호를 생성하는 단계를 포함한다.

상기 실수 복원 신호 또는 복소수 복원 신호를 생성하는 단계는, 동일한 스케일 팩터(scale factor)에 기초하여 상기 실수 데이터 및 상기 복소수 데이터에 대한 역 양자화를 수행하여 상기 복소수 복원 신호를 생성하는 단계를 포함할 수 있다.

상기 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과를 생성하는 단계는, 제1 스위치 제어 신호에 기초하여 제1 스위치를 제어함으로써 상기 복소수 복원 신호에 TNS(Temporal Noise Shaping) 합성 또는 FDNS 합성을 수행하는 단계를 포함할 수 있다.

상기 복소수 복원 신호에 TNS(Temporal Noise Shaping) 합성 또는 FDNS 합성을 수행하는 단계는, 상기 복소수 복원 신호가 TNS 잔차 신호인 경우, 상기 복소수 복원 신호에 상기 TNS 합성을 수행하는 단계와, 상기 TNS 합성의 결과에 상기 FDNS 합성을 수행하는 단계를 포함할 수 있다.

상기 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과를 생성하는 단계는, 상기 복소수 복원 신호가 FDNS 잔차 신호인 경우, 상기 복소수 복원 신호에 상기 복소수 FDNS 합성을 수행하는 단계를 포함할 수 있다.

상기 실수 복원 신호 또는 복소수 복원 신호를 생성하는 단계는, 제2 스위치 제어 신호에 기초하여 제2 스위치를 제어함으로써 상기 비트스트림에 복소수 역 양자화 또는 실수 역 양자화를 수행하는 단계를 포함할 수 있다.

상기 오디오 신호 처리 방법은, 상기 주파수-시간 변환의 결과에 스위칭 보상(switching compensation)을 수행하는 단계를 더 포함할 수 있다.

상기 스위칭 보상(switching compensation)을 수행하는 단계는, 상기 주파수-시간 변환의 결과의 현재 프레임에 대응하는 신호가 TDA(Time Domain Aliasing) 신호인지 여부를 판단하는 단계와, 상기 TDA 신호인지 여부의 판단 결과에 기초하여 오버랩-애드(overlap-add)를 수행하는 단계를 포함할 수 있다.

상기 TDA 신호인지 여부의 판단 결과에 기초하여 오버랩-애드(overlap-add)를 수행하는 단계는, 상기 주파수-시간 변환의 결과의 이전 프레임에 대응하는 신호가 TDA 신호인지 여부를 판단하는 단계와, 상기 이전 프레임에 대응하는 신호가 TDA 신호인지 여부의 판단 결과에 기초하여 상기 오버랩-애드를 수행하는 단계를 포함할 수 있다.

다른 실시예에 따른 오디오 신호 처리 장치는, 오디오 신호를 수신하는 수신기와, 상기 오디오 신호에 시간-주파수 변환(time-to-frequency transformation)을 수행함으로써 실수 변환 스펙트럼 또는 복소수 변환 스펙트럼을 생성하고, 상기 실수 변환 스펙트럼 또는 상기 복소수 변환 스펙트럼에 FDNS 분석(Frequency Domain Noise Shaping analysis)을 수행함으로써 실수 잔차 신호 또는 복소수 잔차 신호를 생성하고, 상기 실수 잔차 신호 또는 상기 복소수 잔차 신호에 양자화를 수행함으로써 압축된 오디오 신호에 대응하는 비트스트림을 생성하는 프로세서를 포함한다.

도 1은 일 실시예에 오디오 처리 시스템의 개략적인 블록도를 나타낸다.
도 2는 도 1에 도시된 인코더의 개략적인 블록도를 나타낸다.
도 3은 도 1에 도시된 디코더의 개략적인 블록도를 나타낸다.
도 4는 도 2에 도시된 인코더의 구현의 예를 나타낸다.
도 5는 복소수 TNS 이득을 설명하기 위한 그래프의 일 예를 나타낸다.
도 6은 복소수 TNS 이득을 설명하기 위한 그래프의 다른 예를 나타낸다.
도 7은 도 3에 도시된 디코더의 구현의 예를 나타낸다.
도 8은 도 7에 도시된 스위칭 보상 동작을 설명하기 위한 도면이다.
도 9는 오버랩-애드 동작의 일 예를 나타낸다.
도 10은 오버랩-애드 동작의 다른 예를 나타낸다.
도 11은 양자화 과정을 설명하기 위한 도면이다.
도 12는 역 양자화 과정을 설명하기 위한 도면이다.
도 13은 오디오 처리 장치의 성능의 일 예를 나타낸다.
도 14는 오디오 처리 장치의 성능의 다른 예를 나타낸다.
도 15는 도 1에 도시된 디코더의 동작의 흐름도를 나타낸다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.

본 문서에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 예를 들어, '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함할 수 있다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다. 또한, '~부'는 하나 이상의 프로세서를 포함할 수 있다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 일 실시예에 따른 오디오 신호 처리 시스템의 개략적인 블록도를 나타내고, 도 2는 도 1에 도시된 인코더의 개략적인 블록도를 나타내고, 도 3은 도 1에 도시된 디코더의 개략적인 블록도를 나타낸다.

도 1 내지 도 3을 참조하면, 오디오 신호 처리 시스템(10)은 오디오 신호를 처리할 수 있다. 오디오 신호는 소리에 대응하는 아날로그 신호 및/또는 디지털 신호를 포함할 수 있다.

오디오 신호 처리 시스템(10)은 오디오 신호를 인코딩(encoding)하여 비트스트림을 생성할 수 있다. 오디오 신호 처리 시스템(10)은 비트스트림을 디코딩(decoding)하여 오디오 신호를 복원할 수 있다.

오디오 신호 처리 시스템(10)은 오디오 데이터를 음질 열화 없이 최소한의 정보량으로 표현하여 비트열로 변환함으로써 오디오 압축을 수행할 수 있다. 오디오 신호 처리 시스템(10)은 음질의 열화 없이 최소한의 비트열로 나타내기 위해서 주파수와 시간 축 상의 정보량을 압축시킬 수 있다.

오디오 신호 처리 시스템(10)은 실수 데이터 및 복소수 데이터에 대한 데이터 변환을 수행할 수 있다. 오디오 신호 처리 시스템(10)은 실수 데이터와 복소수 데이터의 시간/주파수 정보를 정확히 추정하거나 제거함으로써 주파수 영역을 온전히 보존할 수 있다.

오디오 신호 처리 시스템(10)은 복소 변환 방식 기반의 오디오 인코딩 또는 디코딩을 수행할 수 있다. 오디오 신호 처리 시스템(10)은 복소수 데이터의 이용으로 인하여 증가하는 데이터량을 효과적으로 양자화 하고, 복소 영역에서 시간 및 주파수 정보를 감축함으로써 왜곡 없이 정보의 양을 감소시킬 수 있다.

오디오 신호 처리 시스템(10)은 인코더(30) 및 디코더(50)를 포함할 수 있다. 인코더(30)는 오디오 신호의 인코딩을 수행할 수 있다. 인코더(30)는 입력 오디오 신호를 인코딩하여 비트스트림을 생성할 수 있다. 디코더(50)는 오디오 신호의 복원을 수행할 수 있다. 디코더(50)는 비트스트림을 복호화하여 복원된 오디오 신호를 생성할 수 있다.

오디오 신호 처리 시스템(10)은 오디오 신호 처리 장치에 의해 구현될 수 있다. 오디오 신호 처리 장치는 인코더(30) 또는 디코더(50) 중에서 적어도 하나를 포함할 수 있다.

인코더(30)는 수신기(100) 및 프로세서(200)를 포함한다. 인코더(30)는 메모리(300)를 더 포함할 수 있다. 디코더(50)는 수신기(400) 및 프로세서(500)를 포함한다. 디코더(50)는 메모리(600)를 더 포함할 수 있다.

수신기(100) 및 수신기(400)는 수신 인터페이스를 포함할 수 있다. 수신기(100)는 오디오 신호를 수신할 수 있다. 수신기(100)는 수신한 오디오 신호를 프로세서(200)로 출력할 수 있다. 수신기(400)는 압축된 오디오 신호에 대응하는 비트스트림을 수신할 수 있다. 수신기(400)는 수신한 비트스트림을 프로세서(500)로 출력할 수 있다.

프로세서(200) 및/또는 프로세서(500)는 메모리(300) 및/또는 메모리(600)에 저장된 데이터를 처리할 수 있다. 프로세서(200) 및/또는 프로세서(500)는 메모리(300) 및/또는 메모리(600)에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 프로세서(200) 및/또는 프로세서(500)에 의해 유발된 인스트럭션(instruction)들을 실행할 수 있다.

프로세서(200) 및/또는 프로세서(500)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다.

예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.

메모리(300) 및/또는 메모리(600)는 연산을 위한 데이터 또는 연산 결과를 저장할 수 있다. 메모리(300) 및/또는 메모리(600)는 프로세서(200) 및/또는 프로세서(500)에 의해 실행가능한 인스트럭션들(또는 프로그램)을 저장할 수 있다. 예를 들어, 인스트럭션들은 프로세서의 동작 및/또는 프로세서의 각 구성의 동작을 실행하기 위한 인스트럭션들을 포함할 수 있다.

메모리(300) 및/또는 메모리(600)는 휘발성 메모리 장치 또는 비휘발성 메모리 장치로 구현될 수 있다.

휘발성 메모리 장치는 DRAM(dynamic random access memory), SRAM(static random access memory), T-RAM(thyristor RAM), Z-RAM(zero capacitor RAM), 또는 TTRAM(Twin Transistor RAM)으로 구현될 수 있다.

비휘발성 메모리 장치는 EEPROM(Electrically Erasable Programmable Read-Only Memory), 플래시(flash) 메모리, MRAM(Magnetic RAM), 스핀전달토크 MRAM(Spin-Transfer Torque(STT)-MRAM), Conductive Bridging RAM(CBRAM), FeRAM(Ferroelectric RAM), PRAM(Phase change RAM), 저항 메모리(Resistive RAM(RRAM)), 나노 튜브 RRAM(Nanotube RRAM), 폴리머 RAM(Polymer RAM(PoRAM)), 나노 부유 게이트 메모리(Nano Floating Gate Memory(NFGM)), 홀로그래픽 메모리(holographic memory), 분자 전자 메모리 소자(Molecular Electronic Memory Device), 또는 절연 저항 변화 메모리(Insulator Resistance Change Memory)로 구현될 수 있다.

도 4는 도 2에 도시된 인코더의 구현의 예를 나타내고, 도 5는 복소수 TNS 이득을 설명하기 위한 그래프의 일 예를 나타내고, 도 6은 복소수 TNS 이득을 설명하기 위한 그래프의 다른 예를 나타낸다.

도 4 내지 도 6을 참조하면, 프로세서(예: 도 2의 프로세서(200))는 오디오 신호의 압축을 수행할 수 있다. 프로세서(200)는 오디오 신호에 인코딩을 수행함으로써 비트스트림을 생성할 수 있다.

프로세서(200)는 오디오 신호에 시간-주파수 변환(time-to-frequency transformation)을 수행함으로써 실수 변환 스펙트럼 또는 복소수 변환 스펙트럼을 생성할 수 있다. 실수 변환 스펙트럼 및/또는 복소수 변환 스펙트럼은 후술하는 LPC(Linear Prediction Coefficients) 스펙트럼을 포함할 수 있다.

프로세서(200)는 실수 변환 스펙트럼 또는 복소수 변환 스펙트럼에 FDNS 분석(Frequency Domain Noise Shaping analysis)을 수행함으로써 실수 잔차 신호 또는 복소수 잔차 신호를 생성하고,

프로세서(200)는 실수 잔차 신호 또는 복소수 잔차 신호에 양자화를 수행함으로써 압축된 오디오 신호에 대응하는 비트스트림을 생성할 수 있다.

프로세서(200)는 LPC 추출 모듈(411), T/F 분석(1) 모듈(413), T/F 분석(2) 모듈(415), T/F분석(real) 모듈(417), FDNS 분석(1) 모듈(419), FDNS 분석(2) 모듈(421), 복소수 TNS 분석 모듈(423), 잔차 분석(1) 모듈(425), 잔차 분석(2) 모듈(427), 제1 스위치(429), 제2 스위치(431), 복소수 Q 모듈(433), 실수 Q 모듈(435) 및 무손실 인코딩 모듈(437)을 포함할 수 있다.

프로세서(200)는 오디오 신호 x(n)에 시간-주파수 변환(time-to-frequency transformation)을 수행할 수 있다. 프로세서(200)는 DFT(Discrete Fourier Transform)를 이용한 복소수 T/F(complex time-to-frequency) 변환 및/또는 MDCT(Modified Discrete Cosine Transform)를 이용한 실수 T/F 변환 방식을 이용하여 시간-주파수 변환을 수행할 수 있다.

프로세서(200)는 LPC추출 모듈(411)을 통해, 오디오 신호로부터 LPC를 추출할 수 있다. T/F 분석(1) 모듈(413)은 DFT(Discrete Fourier Transform)을 수행하여 LPC 스펙트럼을 생성할 수 있다.

LPC는 수학식 1과 같이 정의될 수 있다.

여기서, order는 LPC의 차수를 의미하고, b는 블록 또는 프레임 인덱스를 의미할 수 있다. T/F 분석(1) 모듈(413)은 lp(b)를 주파수 신호로 변환할 수 있다. T/F 분석(1) 모듈(413)은 수학식 2와 같이 시간-주파수 변환을 수행할 수 있다.

여기서, DFT{}는 DFT 변환 연산을 의미할 수 있다. T/F 분석(1) 모듈(413)은 오디오 신호의 프레임 크기 N 또는 서브 밴드의 수 M에 따라 DFT 계수의 수를 결정하여 lp(b)를 변환할 수 있다.

T/F 분석(2) 모듈(415)은 복소수 변환을 이용하여 DFT 변환을 수행할 수 있다. T/F 분석(2) 모듈(415)은 수학식 3과 같이 오디오 신호에 대해서 DFT변환을 수행할 수 있다.

여기서, N은 프레임 크기를 의미하고, win(b)는 오디오 신호를 주파수 신호로 변환할 때 적용하는 윈도우 함수를 의미하고, 연산자

는 각 요소별 곱을 수행하는 연산자를 의미할 수 있다.

T/F 분석 (real) 모듈(417)은 실수 변환을 이용하여 MDCT 변환을 수행할 수 있다. T/F 분석 (real) 모듈(417)은 수학식 4와 같이 MDCT 변환을 수행할 수 있다.

여기서, real 첨자는 실수 변환의 주파수 계수임을 의미할 수 있다.

프로세서(200)는 FDNS(Frequency Domain Noise Shaping)를 수행할 수 있다. FDNS 분석(1) 모듈(419) 및 FDNS 분석(2) 모듈(421)은 동일하게 동작할 수 있다.

FDNS 분석(1) 모듈(419)은 복소수 값인 주파수 계수를 처리하고, FDNS 분석(2) 모듈(421)은 실수 값인 주파수 계수를 처리할 수 있다.

FDNS 분석(1) 모듈(419) 및 FDNS 분석(2) 모듈(421)은 수학식 5와 같이 주파수 계수를 처리하여 잔차 신호를 추출할 수 있다.

FDNS 분석(1) 모듈(419) 및 FDNS 분석(2) 모듈(421)은 LPC 스펙트럼으로부터 포락선(envelop) 정보를 잔차 신호를 추출할 수 있다. FDNS 분석(1) 모듈(419)의 출력

은 복소수 값을 갖는 잔차 신호일 수 있다. FDNS 분석(2) 모듈(421)의 출력

는 실수 값을 갖는 잔차 신호일 수 있다.

복소수 TNS(complex temporal noise shaping) 분석 모듈(423)은 복소수 값을 갖는 잔차 신호

에 대하여 TNS를 수행할 수 있다. 복소수 TNS분석 모듈(423)은 주파수 영역의 복소수 값을 갖는 LPC 계수를 획득할 수 있다. 복소수 TNS분석 모듈(423)은 수학식 6과 같이 LPC 계수를 획득할 수 있다.

복소수 TNS분석 모듈(423)은 수학식 6을 통해 획득한

를 이용하여 2차 잔차 신호인 TNS 잔차 신호를 생성할 수 있다. 2차 잔차 신호를 생성하는 과정은 LPC 잔차 신호를 생성하는 과정과 동일할 수 있고, 입력 신호 및 LPC 계수가 복소수 값일 수 있다.

복소수 TNS분석 모듈(423)은 수학식 7 및 수학식 8과 같이 TNS 잔차 신호를 생성할 수 있다.

여기서, NH는 N/2일 수 있다. 다시 말해, 주파수 계수는 복소수이지만, 대칭적(symmetric)이기 때문에 복소수 TNS분석 모듈(423)은 절반의 데이터만 처리할 수 있다. 예를 들어, 복소수 TNS분석 모듈(423)은

와 같이 대칭성을 이용하여 잔차 신호를 생성할 수 있다.

잔차 분석(1) 모듈(425)은 양자화를 위한 잔차 신호를 선택할 수 있다. 잔차 분석(1) 모듈(425)은 제1 스위치 제어 신호를 생성하여

와 FDNS 만을 수행하여 획득한

중에서 하나의 블록을 선택하도록 제1 스위치(429)를 제어할 수 있다.

정보량이 적은 잔차 신호일수록 양자화 효율이 높기 때문에, 잔차 분석(1) 모듈(425)은 잔차 신호

와

를 비교하여 양자화 효율이 높은 신호를 선택하도록 제1 스위치(429)를 제어할 수 있다.

는 정보량 감축을 위해

에 복소수 TNS를 수행한 결과이기 때문에 정보량 또는 에너지(energy)가

보다 낮을 수 있다. 잔차 분석(1) 모듈(425)은 수학식 9와 같이 두 개의 잔차 신호를 비교함으로써 제1 스위치 제어 신호를 생성할 수 있다.

여기서, 복소수 TNS 이득(complex_TNS_gain)은 실제 복소수 TNS를 수행한 이후에 에너지가 얼마나 감소되었는지를 나타내는 수치일 수 있다. 복소수 TNS 이득이 클수록 복소수 TNS가 효과적으로 동작한 것일 수 있다. 복소수 TNS 이득에 큰 변화가 일어나지 않은 경우, 복소수 TNS 이득은 0에 가까운 값을 가질 수 있고, 복소수 TNS로 인한 추가적인 정보량 감소가 없다고 판단될 수 있다.

도 5의 예시는, 복소수 TNS 이득이 큰 경우를 나타낼 수 있다. 도 5의 예시에서, 실선으로 표시된

스펙트럼이 점선으로 표시된

에 비하여 감소된 것을 확인할 수 있다.

도 6의 예시와 같이, 복소수 TNS 이득이 0에 가까운 경우, 복소수 TNS를 적용하여도, 스펙트럼의 에너지 변화가 크지 않음을 확인할 수 있다.

잔차 분석(1) 모듈(425)은 0 보다 큰 적절한 문턱치 값을 이용하여 복소수 TNS 이득을 모니터링하고, 적절한 잔차 신호를 선택할 수 있다. 예를 들어, 잔차 분석(1) 모듈(425)은 복소수 TNS 이득이 3dB 이상인 경우,

를 양자화를 위한 잔차 신호로 선택할 수 있다. 복소수 TNS 이득이 3dB 미만인 경우, 잔차 분석(1) 모듈(425)은

를 양자화를 위한 잔차 신호로 선택할 수 있다.

제1 스위치(429)가 동작하여

가 선택될 경우, 제2 스위치(431)는 자동적으로 복소수 Q 모듈(433)에서 양자화를 수행하도록 스위칭을 수행할 수 있다. 제2 스위치(431)가 자동적으로 복소수 Q 모듈(433)을 선택하는 것은

가 복소수 값이기 때문에 복소수 양자화를 수행해야 하기 때문일 수 있다.

잔차 분석(2) 모듈(427)은 제2 스위치(431)를 제어하기 위한 제2 스위치 제어 신호를 생성할 수 있다. 제1 스위치(429)에 의해

가 선택될 경우에, 잔차 분석(2) 모듈(427)은 양자화 효율을 고려하여

와

중에서 하나의 잔차 신호를 선택하도록 제2 스위치(431)를 제어할 수 있다.

잔차 분석(2) 모듈(427)은 복소수 Q 모듈(433) 또는 실수 Q 모듈(435) 중에서 하나를 선택하여 복소수 양자화 또는 실수 양자화를 수행할 수 있다. 잔차 분석(2) 모듈(427)은 현재 프레임의 이전 또는 이후 프레임의 스위칭 상황과 전차 신호의 정보량을 고려하여 제2 스위치 제어 신호를 생성할 수 있다.

잔차 분석(2) 모듈(427)은 양자화 이후의 양자화 인덱스트 엔트로피 비트(entropy bit) 값을 비교하여 적은 비트수를 갖는 블록(예: 잔차 신호)을 선택할 수 있다. 또는, 잔차 분석(2) 모듈(427)은 양자화 이후 복원 시 왜곡이 낮은 블록의 신호를 선택하도록 제2 스위치 신호를 생성할 수 있다. 제2 스위치 제어 신호는 두 개의 블록 중에서 어떤 블록을 선택할지에 대한 결정을 위한 플래그(flag) 정보일 수 있다.

제2 스위치(431)에 의해 선택된 최종 신호는

로 표기될 수 있다. 다시 말해,

는

,

또는

중 하나일 수 있다.

복소수 Q 모듈(433) 및 실수 Q 모듈(435)의 양자화 동작은 도 11을 참조하여 자세하게 설명한다.

무손실 인코딩(lossless encoding) 모듈(437)은 양자화가 수행된 잔차 신호에 대하여 무손실 압축을 수행하여 비트스트림을 생성할 수 있다.

도 7은 도 3에 도시된 디코더의 구현의 예를 나타낸다.

도 7을 참조하면, 프로세서(예: 도 3의 프로세서(500))는 비트스트림을 디코딩 함으로써 오디오 신호를 복원할 수 있다. 프로세서(500)는 디코딩을 수행하여 비트스트림으로부터 복원된 오디오 신호를 생성할 수 있다. 디코딩과정은 도 4에서 수행하는 인코딩 과정의 역과정일 수 있다.

프로세서(500)는 제1 스위치, 제2 스위치, 복소수 dQ 모듈(713), 실수 dQ 모듈(715), 복소수 TNS 합성 모듈(717), FDNS 합성 모듈(719), FDNS 합성 모듈(721), F/T(frequency-to-time) 합성(2) 모듈(723), F/T 합성(real) 모듈(725) 및 스위칭 보상 모듈(727)을 포함할 수 있다.

제1 스위치 S1과 제2 스위치 S2는 도 4의 제1 스위치(429) 및 제2 스위치(431)과 동일하게 스위칭을 수행할 수 있다.

프로세서(500)는 비트스트림의 실수 데이터 또는 복소수 데이터에 대한 역 양자화(inverse quantization)을 수행함으로써 실수 복원 신호 또는 복소수 복원 신호를 생성할 수 있다. 프로세서(500)는 복소수 dQ 모듈(713) 및/또는 실수 dQ 모듈(715)를 이용하여 역 양자화를 수행하여 실수 복원 신호를 생성할 수 있다. 실수 복원 신호

는 인코더의

의 복원 신호일 수 있다. FDNS 합성 모듈(721)은

에 대하여 TNS 합성 없이 FDNS 합성을 수행할 수 있다. F/T 합성(real) 모듈(725)는 주파수 도메인의 신호를 시간 도메인의 신호로 변환함으로써 최종 오디오 신호를 생성할 수 있다.

프로세서(500)는 제1 스위치 s1을 제어함으로써

와

중에서 하나의 신호를 선택할 수 있다. 프로세서(500)는

에 복소수 TNS 합성 및 FDNS 합성을 수행하고, 복소수 F/T 변환을 수행함으로써 최종 출력 신호를 생성할 수 있다.

프로세서(500)는

에 FDNS 합성 및 F/T 합성을 수행함으로써 최종 출력 신호를 생성할 수 있다.

프로세서(500)는 동일한 스케일 팩터(scale factor)에 기초하여 실수 데이터 및 복소수 데이터에 대한 역 양자화를 수행하여 복소수 복원 신호를 생성할 수 있다.

프로세서(500)는 제2 스위치 제어 신호에 기초하여 제2 스위치를 제어함으로써 비트스트림에 복소수 역 양자화 또는 실수 역 양자화를 수행할 수 있다. 프로세서(500)는 복소수 dQ 모듈(713)을 통해 복소수 역 양자화를 수행할 수 있다. 프로세서(500)는 실수 dQ 모듈(715)를 통해 실수 역 양자화를 수행할 수 있다. 역 양자화 과정은 도 12를 참조하여 자세하게 설명한다.

프로세서(500)는 실수 복원 신호 또는 복소수 복원 신호에 FDNS합성(Frequency Domain Noise Shaping synthesis)을 수행함으로써 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과를 생성할 수 있다.

프로세서(500)는 제1 스위치 제어 신호에 기초하여 제1 스위치를 제어함으로써 복소수 복원 신호에 TNS(Temporal Noise Shaping) 합성 또는 FDNS 합성을 수행할 수 있다.

프로세서(500)는 복소수 복원 신호가 TNS 잔차 신호인 경우, 복소수 복원 신호에 TNS 합성을 수행할 수 있다. 프로세서(500)는 TNS 합성의 결과에 FDNS 합성을 수행할 수 있다.

프로세서(500)는 복소수 복원 신호가 FDNS 잔차 신호인 경우, 복소수 복원 신호에 복소수 FDNS 합성을 수행할 수 있다.

복소수 TNS 합성 및 FDNS 합성 과정은 인코더의 TNS 분석 및 FDNS 분석 과정의 역 과정일 수 있다. FDNS 합성 모듈(719) 및 FDNS 합성 모듈(721)은 수학식 10과 같이 FDNS 합성을 수행할 수 있다.

여기서, 햇(hat) 기호는 양자화된 신호를 의미할 수 있다.

복소수 TNS 합성 모듈(717)은 수학식 11과 같이 TNS 합성을 수행할 수 있다.

프로세서(500)는 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과에 주파수-시간 변환(frequency to time transform)을 수행함으로써 복원된 오디오 신호를 생성할 수 있다.

F/T 합성(2) 모듈(723)은

의 FDNS 합성 결과 또는

의 복소수 TNS 합성 + FDNS 합성 결과에 F/T 합성을 수행할 수 있다. F/T 합성(2) 모듈(723)은 IMDCT(Inverse Modified Discrete Cosine Transform)을 수행하여

를 생성할 수 있다.

F/T 합성(real) 모듈(725)은 FDNS 합성 모듈(721)의 결과에 IMDCT를 수행하여

를 생성할 수 있다. 스위칭 보상 모듈(727)은

및/또는

에 스위칭 보상을 수행하여 복원된 오디오 신호를 생성할 수 있다.

도 8은 도 7에 도시된 스위칭 보상 동작을 설명하기 위한 도면이고, 도 9는 오버랩-애드 동작의 일 예를 나타내고, 도 10은 오버랩-애드 동작의 다른 예를 나타낸다.

도 8 내지 도 10을 참조하면, 프로세서(예: 도 3의 프로세서(500))는 주파수-시간 변환의 결과에 스위칭 보상(switching compensation)을 수행할 수 있다. 스위칭 보상 동작은 블록들 간의 F/T 변환 과정이 상이한 경우에 발생하는 차이를 보정하는 동작을 의미할 수 있다.

프로세서(500)는 주파수-시간 변환의 결과의 현재 프레임에 대응하는 신호가 TDA(Time Domain Aliasing) 신호인지 여부를 판단할 수 있다. 프로세서(500)는 TDA 신호인지 여부의 판단 결과에 기초하여 오버랩-애드(overlap-add)를 수행할 수 있다.

프로세서(500)는 주파수-시간 변환의 결과의 이전 프레임에 대응하는 신호가 TDA 신호인지 여부를 판단할 수 있다. 프로세서(500)는 이전 프레임에 대응하는 신호가 TDA 신호인지 여부의 판단 결과에 기초하여 오버랩-애드를 수행할 수 있다.

프로세서(500)는 스위칭 보상 모듈(예: 도 7의 스위칭 보상 모듈(727))을 통해 스위칭 보상을 수행할 수 있다.

는 IMDCT 변환이 수행되면서 시간 영역에서 TDA(Time Domain Aliasing)이 발생하여 온전한 복원 신호가 아닐 수 있다. 스위칭 보상 모듈(727)은 TDAC(Time Domain Aliasing Cancellation)를 수행하여 TDA를 제거할 수 있다. 스위칭 보상 모듈(727)은 이전 시점의 신호인

와 오버랩-애드를 수행함으로써 발생한 TDA를 제거할 수 있다.

스위칭 보상 모듈(727)은 이전 프레임과 현재 프레임의 시간-주파수 변환 방식이 다른 경우에 스위칭 보상을 수행할 수 있다. 예를 들어, 스위칭 보상 모듈(727)은 디코딩된 프레임 시퀀스가

또는

인 경우에도 스위칭 보상을 수행할 수 있다. 스위칭 보상 모듈(727)은 제2 스위치의 스위칭 정보에 기초하여 시간-주파수 변환 방식에 관한 정보를 획득할 수 있다.

스위칭 보상 모듈(727)은 복원된 신호가

인지 판단할 수 있다(811). 복원된 신호가

인 경우, 스위칭 보상 모듈(727)은 이전 프레임의 복원 신호가

인지 여부를 판단할 수 있다(813). 이전 프레임이

와 같이 TDA 신호인 경우, 스위칭 보상 모듈(727)은 단순한 오버랩-애드를 수행하여 TDA를 상쇄시킬 수 있다(817).

이전 프레임의 복원 신호가

인 경우, 다시 말해,

조합인 경우, 스위칭 보상 모듈(727)은 TDA(b-1)을 이용한 오버랩-애드를 수행할 수 있다(819).

복원된 신호가

이 아닌 경우, 스위칭 보상 모듈(727)은 이전 프레임이

인지를 판단할 수 있다(815). 이전 프레임이

인 경우, 스위칭 보상 모듈(727)은 단순 오버랩-애드를 수행할 수 있다(821). 이전 프레임이

인 경우, 스위칭 보상 모듈(727)은 TDA(b)를 이용한 오버랩-애드를 수행할 수 있다.

도 9 및 도 10의 예시는, 이전 프레임 또는 현재 프레임에서 오버랩 되는 영역에 대하여 강제적으로 TDA를 발생시켜 오버랩을 수행하는 과정을 나타낼 수 있다.

도 9의 예시는

인 경우를 나타낼 수 있다. 현재 프레임이 TDA 프레임이고, 이전 프레임은 TDA가 존재하지 않는 프레임인 경우, 스위칭 보상 모듈(727)은 이전 프레임에서 오버랩되는 구간에 강제적으로 TDA를 발생시켜 현재 프레임과 보상이 가능한 보완적인(complemental) TDA(b-1)과 같은 형태로 변환함으로써 오버랩-애드를 수행할 수 있다. 도 9의 예시는, 도 8의 817 동작에 대응할 수 있다.

도 10의 예시는

인 경우를 나타낼 수 있다. 현재 프레임은 TDA가 없지만, 이전 프레임이 TDA가 존재할 경우, 스위칭 보상 모듈(727)은 보상이 가능한 보완적인 TDA(b)를 생성하여 오버랩-애드를 수행할 수 있다. 도 10의 예시는 도 8의 823 동작에 대응할 수 있다.

도 11은 양자화 과정을 설명하기 위한 도면이고, 도 12는 역 양자화 과정을 설명하기 위한 도면이다.

도 11 및 도 12를 참조하면, 도 11의 예시는 복소수 Q 모듈(예: 도 4의 복소수 Q 모듈(433)) 및/또는 실수 Q 모듈(예: 도 4의 실수 Q 모듈(435))의 양자화 동작을 나타내고, 도 12의 예시는 복소수 dQ 모듈(예: 도 7의 복소수 dQ 모듈(713)) 및/또는 실수 dQ 모듈(예: 도 7의 실수 dQ 모듈(715))의 역 양자화 동작을 나타낼 수 있다.

복소수 Q 모듈(433) 및/또는 실수 Q 모듈(435)은 res_f(b)(1111)에 기초하여 절대값(1113), 실수부(1115) 및 허수부(1117)을 추출할 수 있다. 복소수 Q 모듈(433) 및/또는 실수 Q 모듈(435)은 스칼라(scalar) 양자화를 실수부(1115) 및 허수부(1117)로 확장하여 양자화를 수행할 수 있다.

복소수 Q 모듈(433) 및/또는 실수 Q 모듈(435)은 복소수 값의 절대값(1113)에 기초하여 스케일팩터(1119)를 획득하고, 획득한 스케일 팩터(1119)를 실수부(1115) 및 허수부(1117)에 공통으로 이용할 수 있다.

복소수 Q 모듈(433) 및/또는 실수 Q 모듈(435)은 실수형 데이터를 정수형 데이터로 변환할 수 있다. 복소수 Q 모듈(433) 및/또는 실수 Q 모듈(435)은 실수부(1115)에 실수-정수 변환(1121)을 수행하여 정보량을 감소시킬 수 있고, 복소수 Q 모듈(433) 및/또는 실수 Q 모듈(435)은 허수부(1117)에 실수-정수 변환(1123)을 수행하여 정보량을 감소시킬 수 있다.

복소수 Q 모듈(433) 및/또는 실수 Q 모듈(435)은 스케일 팩터(1119)로 원 신호를 나누어 각 신호의 레벨을 감소시키고, 정수형으로 변환하여 정보량을 감소시킬 수 있다.

복소수 Q 모듈(433) 및/또는 실수 Q 모듈(435)은 정보량이 감소된 정수형 데이터에 무손실 인코딩(1125) 또는 무손실 인코딩(1127)을 수행하여 비트스트림을 생성할 수 있다. 무손실 인코딩(1125) 또는 무손실 인코딩(1127)은 엔트로피 코딩을 수행할 수 있다. 예를 들어, 엔트로피 코딩은 허프만 코딩(Huffman coding), 산술 코딩(arithmetic coding)을 포함할 수 있다.

도 12의 역 양자화 과정은 양자화 과정의 역 과정일 수 있다. 복소수 dQ 모듈(713) 및/또는 실수 dQ 모듈(715)은 비트스트림에 무손실 인코딩(1223) 또는 무손실 인코딩(1225)를 수행할 수 있다. 복소수 dQ 모듈(713) 및/또는 실수 dQ 모듈(715)은 무손실 인코딩 결과에 정수-실수 변환(1219) 또는 정수-실수 변환(1221)을 수행하여 정수-실수 변환을 수행할 수 있다.

복소수 dQ 모듈(713) 및/또는 실수 dQ 모듈(715)은 양자화 과정과 마찬가지로, 전송된 스케일 팩터(1217)을 실수부(1213) 및 허수부(1215)에 공통으로 이용하여 복소수 값

(1211)을 생성할 수 있다.

도 13은 오디오 처리 장치의 성능의 일 예를 나타내고, 도 14는 오디오 처리 장치의 성능의 다른 예를 나타낸다.

도 13 및 도 14를 참조하면, 오디오 처리 시스템(예 도 1의 오디오 처리 시스템(10))은 USAC(Unified Speech Audio Coding)의 TCX80 모드와 성능이 비교될 수 있다. TCX80은 USAC의 LPD(Linear Prediction Domain) 코딩 모드로 FDNS만이 MDCT 영역에서 적용되어 코딩하는 방식일 수 있다.

오디오 처리 시스템(10)은 복소수 계수 값을 인코딩함과 동시에 복소수 FDNS 및 복소수 TNS를 이용하여 코딩을 수행함으로써 USAC 인코딩에 비하여 효과적으로 인코딩 및 디코딩을 수행할 수 있다.

도 13의 예시는, 16kbps/channel의 저 비트 레이트에 대한 청취테스트 결과를 나타낼 수 있고, 도 14의 예시는 고 비트 레이트에 대한 청취 테스트 결과를 나타낼 수 있다. 청취 테스트 결과는 총 6명의 테스트 데이터이고, 평균 점수의 95% 신뢰구간을 이용하여 나타낼 수 있다. 성능 평가 환경은 표 1과 같을 수 있다.

평가환경	채택항목
평가방법	MUSRHA
피험자	14명
테스트 아이템	10개 (speech(3), music(3), mixed(4))
평가 시스템	HR: Hidden reference
	lp35: Anchor (low-pass-fiter 3.5kHz)
	ours_112k: DES 기반 오디오 부호화기
	usac_128k: USAC 오디오 부호화기
표본화 주파수	48kHz
비트레이트	ours_112k: 112 kbps stereo
비트레이트	usac_128k: 128 kbps stereo

여기서, HR(Hidden reference)은 원음을 나타낼 수 있다. 테스트 아이템은 MPEG 테스트 아이템이 이용될 수 있다. 테스트 아이템의 카테고리별로 '음악(music)', '스피치(speech)', '혼합(mixed)(스피치+음악)'으로 통합하여 결과가 측정될 수 있다. 저 비트 레이트에서 스피치에 대하여 월등한 성능 개선이 나타나는 것이 확인될 수 있다.

고 비트 레이트의 스테레오 컨텐츠에 대해서는 압축 효율이 명확하게 향상될 수 있다. 최종 평균에 대한 95% 신뢰구간을 고려했을 때, 두 시스템은 동등한 음질 성능을 나타내고 있음이 확인될 수 있다. 따라서, 오디오 처리 시스템(10)이 현재 USAC 기술 대비 12.5% 비트 감축률을 가짐에도 동등한 오디오 품질을 제공함을 확인할 수 있다.

도 15는 도 1에 도시된 디코더의 동작의 흐름도를 나타낸다.

도 15를 참조하면, 수신기(예: 도 3의 수신기(400))는 압축된 오디오 신호에 대응하는 비트스트림을 수신할 수 있다(1510). 프로세서(예: 도 3의 프로세서(500))는 비트스트림의 실수 데이터 또는 복소수 데이터에 대한 역 양자화(inverse quantization)을 수행함으로써 실수 복원 신호 또는 복소수 복원 신호를 생성할 수 있다(1530).

프로세서(500)는 제2 스위치 제어 신호에 기초하여 제2 스위치를 제어함으로써 비트스트림에 복소수 역 양자화 또는 실수 역 양자화를 수행할 수 있다.

프로세서(500)는 실수 복원 신호 또는 복소수 복원 신호에 FDNS합성(Frequency Domain Noise Shaping synthesis)을 수행함으로써 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과를 생성할 수 있다(1550).

프로세서(500)는 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과에 주파수-시간 변환(frequency to time transform)을 수행함으로써 복원된 오디오 신호를 생성할 수 있다(1570).

프로세서(500)는 주파수-시간 변환의 결과에 스위칭 보상(switching compensation)을 수행할 수 있다. 프로세서(500)는 주파수-시간 변환의 결과의 현재 프레임에 대응하는 신호가 TDA(Time Domain Aliasing) 신호인지 여부를 판단할 수 있다. 프로세서(500)는 TDA 신호인지 여부의 판단 결과에 기초하여 오버랩-애드(overlap-add)를 수행할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 저장할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

압축된 오디오 신호에 대응하는 비트스트림(bitstream)을 수신하는 수신기; 및
상기 비트스트림의 실수 데이터 또는 복소수 데이터에 대한 역 양자화(inverse quantization)을 수행함으로써 실수 복원 신호 또는 복소수 복원 신호를 생성하고,
상기 실수 복원 신호 또는 상기 복소수 복원 신호에 FDNS합성(Frequency Domain Noise Shaping synthesis)을 수행함으로써 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과를 생성하고,
상기 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과에 주파수-시간 변환(frequency to time transform)을 수행함으로써 복원된 오디오 신호를 생성하는 프로세서
를 포함하는 오디오 신호 처리 장치.
제1항에 있어서,
상기 프로세서는,
동일한 스케일 팩터(scale factor)에 기초하여 상기 실수 데이터 및 상기 복소수 데이터에 대한 역 양자화를 수행하여 상기 복소수 복원 신호를 생성하는,
오디오 신호 처리 장치.
제1항에 있어서,
상기 프로세서는,
제1 스위치 제어 신호에 기초하여 제1 스위치를 제어함으로써 상기 복소수 복원 신호에 TNS(Temporal Noise Shaping) 합성 또는 FDNS 합성을 수행하는,
오디오 신호 처리 장치.
제3항에 있어서,
상기 프로세서는,
상기 복소수 복원 신호가 TNS 잔차 신호인 경우,
상기 복소수 복원 신호에 상기 TNS 합성을 수행하고,
상기 TNS 합성의 결과에 상기 FDNS 합성을 수행하는,
오디오 신호 처리 장치.
제1항에 있어서,
상기 프로세서는,
상기 복소수 복원 신호가 FDNS 잔차 신호인 경우,
상기 복소수 복원 신호에 상기 복소수 FDNS 합성을 수행하는,
오디오 신호 처리 장치.
제1항에 있어서,
상기 프로세서는,
제2 스위치 제어 신호에 기초하여 제2 스위치를 제어함으로써 상기 비트스트림에 복소수 역 양자화 또는 실수 역 양자화를 수행하는,
오디오 신호 처리 장치.
제1항에 있어서,
상기 프로세서는,
상기 주파수-시간 변환의 결과에 스위칭 보상(switching compensation)을 수행하는,
오디오 신호 처리 장치.
제7항에 있어서,
상기 프로세서는,
상기 주파수-시간 변환의 결과의 현재 프레임에 대응하는 신호가 TDA(Time Domain Aliasing) 신호인지 여부를 판단하고,
상기 TDA 신호인지 여부의 판단 결과에 기초하여 오버랩-애드(overlap-add)를 수행하는,
오디오 신호 처리 장치.
제8항에 있어서,
상기 프로세서는,
상기 주파수-시간 변환의 결과의 이전 프레임에 대응하는 신호가 TDA 신호인지 여부를 판단하고,
상기 이전 프레임에 대응하는 신호가 TDA 신호인지 여부의 판단 결과에 기초하여 상기 오버랩-애드를 수행하는,
오디오 신호 처리 장치.
압축된 오디오 신호에 대응하는 비트스트림(bitstream)을 수신하는 단계;
상기 비트스트림의 실수 데이터 또는 복소수 데이터에 대한 역 양자화(inverse quantization)을 수행함으로써 실수 복원 신호 또는 복소수 복원 신호를 생성하는 단계;
상기 실수 복원 신호 또는 상기 복소수 복원 신호에 FDNS합성(Frequency Domain Noise Shaping synthesis)을 수행함으로써 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과를 생성하는 단계; 및
상기 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과에 주파수-시간 변환(frequency to time transform)을 수행함으로써 복원된 오디오 신호를 생성하는 단계
를 포함하는 오디오 신호 처리 방법.
제10항에 있어서,
상기 실수 복원 신호 또는 복소수 복원 신호를 생성하는 단계는,
동일한 스케일 팩터(scale factor)에 기초하여 상기 실수 데이터 및 상기 복소수 데이터에 대한 역 양자화를 수행하여 상기 복소수 복원 신호를 생성하는 단계
를 포함하는 오디오 신호 처리 방법.
제10항에 있어서,
상기 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과를 생성하는 단계는,
제1 스위치 제어 신호에 기초하여 제1 스위치를 제어함으로써 상기 복소수 복원 신호에 TNS(Temporal Noise Shaping) 합성 또는 FDNS 합성을 수행하는 단계
를 포함하는 오디오 신호 처리 방법.
제12항에 있어서,
상기 복소수 복원 신호에 TNS(Temporal Noise Shaping) 합성 또는 FDNS 합성을 수행하는 단계는,
상기 복소수 복원 신호가 TNS 잔차 신호인 경우, 상기 복소수 복원 신호에 상기 TNS 합성을 수행하는 단계; 및
상기 TNS 합성의 결과에 상기 FDNS 합성을 수행하는 단계
를 포함하는 오디오 신호 처리 방법.
제10항에 있어서,
상기 실수 FDNS 합성 결과 또는 복소수 FDNS 합성 결과를 생성하는 단계는,
상기 복소수 복원 신호가 FDNS 잔차 신호인 경우, 상기 복소수 복원 신호에 상기 복소수 FDNS 합성을 수행하는 단계
를 포함하는 오디오 신호 처리 방법.
제10항에 있어서,
상기 실수 복원 신호 또는 복소수 복원 신호를 생성하는 단계는,
제2 스위치 제어 신호에 기초하여 제2 스위치를 제어함으로써 상기 비트스트림에 복소수 역 양자화 또는 실수 역 양자화를 수행하는 단계
를 포함하는 오디오 신호 처리 방법.
제10항에 있어서,
상기 주파수-시간 변환의 결과에 스위칭 보상(switching compensation)을 수행하는 단계
를 더 포함하는 오디오 신호 처리 방법.
제16항에 있어서,
상기 스위칭 보상(switching compensation)을 수행하는 단계는,
상기 주파수-시간 변환의 결과의 현재 프레임에 대응하는 신호가 TDA(Time Domain Aliasing) 신호인지 여부를 판단하는 단계; 및
상기 TDA 신호인지 여부의 판단 결과에 기초하여 오버랩-애드(overlap-add)를 수행하는 단계
를 포함하는 오디오 신호 처리 방법.
제17항에 있어서,
상기 TDA 신호인지 여부의 판단 결과에 기초하여 오버랩-애드(overlap-add)를 수행하는 단계는,
상기 주파수-시간 변환의 결과의 이전 프레임에 대응하는 신호가 TDA 신호인지 여부를 판단하는 단계; 및
상기 이전 프레임에 대응하는 신호가 TDA 신호인지 여부의 판단 결과에 기초하여 상기 오버랩-애드를 수행하는 단계
를 포함하는 오디오 신호 처리 방법.
하드웨어와 결합되어 제10항 내지 제18항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독가능한 매체에 저장된 컴퓨터 프로그램.
오디오 신호를 수신하는 수신기; 및
상기 오디오 신호에 시간-주파수 변환(time-to-frequency transformation)을 수행함으로써 실수 변환 스펙트럼 또는 복소수 변환 스펙트럼을 생성하고,
상기 실수 변환 스펙트럼 또는 상기 복소수 변환 스펙트럼에 FDNS 분석(Frequency Domain Noise Shaping analysis)을 수행함으로써 실수 잔차 신호 또는 복소수 잔차 신호를 생성하고,
상기 실수 잔차 신호 또는 상기 복소수 잔차 신호에 양자화를 수행함으로써 압축된 오디오 신호에 대응하는 비트스트림을 생성하는 프로세서
를 포함하는 오디오 신호 처리 장치.