KR20140075466A

KR20140075466A - 오디오 신호의 인코딩 및 디코딩 방법, 및 오디오 신호의 인코딩 및 디코딩 장치

Info

Publication number: KR20140075466A
Application number: KR1020120143833A
Authority: KR
Inventors: 이남숙; 김현욱; 문한길
Original assignee: 삼성전자주식회사
Priority date: 2012-12-11
Filing date: 2012-12-11
Publication date: 2014-06-19
Also published as: US20140163999A1; US9508355B2; CN104981868B; WO2014092460A1; CN104981868A; EP2929531A4; EP2929531B1; EP2929531A1

Abstract

오디오 신호를 M(M은 1보다 큰 자연수)개의 샘플들을 포함하는 프레임들로 분할하는 단계; 제 1 윈도우, 상기 제 1 윈도우의 길이보다 긴 제 2 윈도우 및, 상기 제 1 윈도우의 길이보다 길고, 상기 제 2 윈도우의 길이보다 짧은 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 단계; 상기 제 1 윈도우, 제 2 윈도우 및 상기 적어도 하나의 제 3 윈도우가 적용된 프레임들을 시간-주파수 변환하는 단계; 및 시간-주파수 변환된 프레임들을 포함하는 비트스트림을 생성하여 출력하는 단계를 포함하는 것을 특징으로 하는 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 방법이 개시된다.

Description

오디오 신호의 인코딩 및 디코딩 방법, 및 오디오 신호의 인코딩 및 디코딩 장치{ENCODING AND DECODING METHOD OF AUDIO SIGNAL, AND ENCODING AND DECODING APPARATUS OF AUDIO SIGNAL}

본 발명은 오디오 신호를 인코딩 및 디코딩하는 방법, 및 오디오 신호를 인코딩 및 디코딩하는 장치에 관한 것이다. 보다 구체적으로, 본 발명은 제 1 윈도우, 제 2 윈도우 및 제 3 윈도우를 오디오 신호의 프레임들에 적용하여 프레임들을 시간-주파수 변환하는 방법 및 장치에 관한 것이다.

고음질의 오디오 인코딩 장치는 대부분 시간-주파수 변환(Time-Frequency Transform) 방식을 사용하고 있다. 이 방식은 MDCT(Modified Discrete Cosine Transform)와 같은 변환을 이용하여, 입력되는 오디오 신호를 주파수 공간으로 변환하여 얻은 계수를 부호화하는 방식이다.

시간-주파수 변환은 일반적으로 시간 영역의 신호보다 주파수 영역의 신호를 부호화하기가 쉽다는 것을 이용한 것으로서, 오디오 신호에 적용되는 윈도우의 형태는 주파수 해상도와 밀접한 관련이 있기 때문에 적절하게 선택되어야 한다.

본 발명의 일 실시예에 따른 오디오 신호의 인코딩 및 디코딩 방법, 및 오디오 신호의 인코딩 및 디코딩 장치는, 오디오 신호에 대한 인코딩 및 디코딩에 의해 발생하는 딜레이를 감소시키는 것을 목적으로 한다.

또한, 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 및 디코딩 방법, 및 오디오 신호의 인코딩 및 디코딩 장치는, 오디오 신호의 인코딩 및 디코딩 효율을 향상시키는 것을 목적으로 한다.

본 발명의 일 실시예에 따른 오디오 신호의 인코딩 방법은,

오디오 신호를 M(M은 1보다 큰 자연수)개의 샘플들을 포함하는 프레임들로 분할하는 단계; 제 1 윈도우, 상기 제 1 윈도우의 길이보다 긴 제 2 윈도우 및, 상기 제 1 윈도우의 길이보다 길고, 상기 제 2 윈도우의 길이보다 짧은 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 단계; 상기 제 1 윈도우, 제 2 윈도우 및 상기 적어도 하나의 제 3 윈도우가 적용된 프레임들을 시간-주파수 변환하는 단계; 및 시간-주파수 변환된 프레임들을 포함하는 비트스트림을 생성하여 출력하는 단계를 포함할 수 있다.

상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 단계는, 하나의 변환 단위에 적어도 하나의 제 1 윈도우, 적어도 하나의 제 2 윈도우 또는 적어도 하나의 제 3 윈도우를 적용하는 단계를 포함할 수 있다.

상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우는, 계수가 0인 구간을 제외하고, 서로 간에 중첩되는 중첩 구간의 길이가 모두 동일할 수 있다.

상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 단계는, 상기 오디오 신호 중 트랜지언트 신호를 포함하는 트랜지언트 구간에 적어도 하나의 제 1 윈도우를 적용하는 단계; 및 상기 트랜지언트 구간에 적용된 적어도 하나의 제 1 윈도우와 중첩되는 적어도 하나의 제 3 윈도우를 상기 트랜지언트 구간을 포함하는 변환 단위에 적용하는 단계를 포함할 수 있다.

상기 적어도 하나의 제 3 윈도우의 프레임 사이즈는, 상기 트랜지언트 구간에 적용된 적어도 하나의 제 1 윈도우의 프레임 사이즈에 따라 결정될 수 있다.

상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 단계는, 상기 오디오 신호 중 신호의 특성이 변하는 변화 구간을 포함하는 변환 단위에, 상기 변화 구간에서 서로 중첩되는 하나의 제 1 윈도우와 하나의 제 3 윈도우 또는 두 개의 제 3 윈도우를 적용하는 단계를 포함할 수 있다.

상기 제 2 윈도우와 적어도 하나의 제 3 윈도우는, 계수가 0인 제 1 제로(zero) 구간과 제 2 제로 구간 및, 계수가 1인 제 1 유니티(unity) 구간과 제 2 유니티 구간을 포함하되, 상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이는 완전 복원 조건(perfect reconstruction)을 만족하도록 결정될 수 있다.

상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이는, (F - L) ÷ 2로 결정이 되며, 상기 F는 윈도우의 프레임 사이즈, 상기 L은 윈도우들 사이의 중첩 구간의 길이일 수 있다.

상기 M은 2의 k승이고, 상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우의 길이는 2의 k승 개의 샘플일 수 있다.

상기 비트스트림은, 상기 오디오 신호의 프레임들에 적용된 윈도우들에 대한 정보를 포함할 수 있다.

본 발명의 다른 실시예에 따른 오디오 신호의 디코딩 방법은,

비트스트림으로부터 시간-주파수 변환된 오디오 신호의 프레임들 및 상기 프레임들에 적용된 윈도우들에 대한 정보를 추출하는 단계; 상기 프레임들을 시간-주파수 역변환하는 단계; 및 상기 윈도우들에 대한 정보를 기초로, 상기 시간-주파수 역변환된 프레임들을 합성하여 오디오 신호를 생성하는 단계를 포함하되, 상기 프레임들에 적용된 윈도우들은, 제 1 윈도우, 상기 제 1 윈도우의 길이보다 긴 제 2 윈도우 및, 상기 제 1 윈도우의 길이보다 길고, 상기 제 2 윈도우의 길이보다 짧은 적어도 하나의 제 3 윈도우를 포함할 수 있다.

상기 오디오 신호를 생성하는 단계는, 상기 시간-주파수 역변환된 프레임들에 포함된 하나의 변환 단위에 적어도 하나의 제 1 윈도우, 적어도 하나의 제 2 윈도우 또는 적어도 하나의 제 3 윈도우를 적용하는 단계를 포함할 수 있다.

상기 오디오 신호의 인코딩 방법을 실행하기 위한 컴퓨터 프로그램이 컴퓨터로 읽을 수 있는 기록 매체에 기록될 수 있다.

상기 오디오 신호의 디코딩 방법을 실행하기 위한 컴퓨터 프로그램이 컴퓨터로 읽을 수 있는 기록 매체에 기록될 수 있다.

본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치는,

오디오 신호를 M(M은 1보다 큰 자연수)개의 샘플들을 포함하는 프레임들로 분할하는 분할부; 제 1 윈도우, 상기 제 1 윈도우의 길이보다 긴 제 2 윈도우 및, 상기 제 1 윈도우의 길이보다 길고, 상기 제 2 윈도우의 길이보다 짧은 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 윈도우 적용부; 상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우가 적용된 프레임들을 시간-주파수 변환하는 변환부; 및 시간-주파수 변환된 프레임들을 포함하는 비트스트림을 생성하여 출력하는 다중화부를 포함할 수 있다.

상기 윈도우 적용부는, 하나의 변환 단위에 적어도 하나의 제 1 윈도우, 적어도 하나의 제 2 윈도우 또는 적어도 하나의 제 3 윈도우를 적용할 수 있다.

상기 윈도우 적용부는, 계수가 0인 구간을 제외하고, 서로 간에 중첩되는 중첩 구간의 길이가 모두 동일하도록 상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용할 수 있다.

상기 오디오 신호의 인코딩 장치는, 상기 오디오 신호의 특성을 분석하는 분석부를 더 포함하되, 상기 윈도우 적용부는, 상기 분석부에 의해 분석된 트랜지언트 구간에 적어도 하나의 제 1 윈도우를 적용하고, 상기 트랜지언트 구간에 적용된 적어도 하나의 제 1 윈도우와 중첩되는 적어도 하나의 제 3 윈도우를 상기 트랜지언트 구간을 포함하는 변환 단위에 적용할 수 있다.

상기 윈도우 적용부는, 상기 적어도 하나의 제 3 윈도우의 프레임 사이즈를 상기 트랜지언트 구간에 적용된 적어도 하나의 제 1 윈도우의 프레임 사이즈에 따라 결정할 수 있다.

상기 윈도우 적용부는, 상기 분석부에 의해 분석된 오디오 신호의 특성이 변하는 변화 구간을 포함하는 변환 단위에, 상기 변화 구간에서 서로 중첩되는 하나의 제 1 윈도우와 하나의 제 3 윈도우 또는 두 개의 제 3 윈도우를 적용할 수 있다.

상기 제 2 윈도우와 적어도 하나의 제 3 윈도우는, 계수가 0인 제 1 제로(zero) 구간과 제 2 제로 구간 및, 계수가 1인 제 1 유니티(unity) 구간과 제 2 유니티 구간을 포함하되, 상기 윈도우 적용부는, 상기 제 2 윈도우와 적어도 하나의 제 3 윈도우가 완전 복원 조건을 만족하도록, 상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이를 결정할 수 있다.

상기 윈도우 적용부는, 상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이를, (F - L) ÷ 2로 결정하며, 상기 F는 윈도우의 프레임 사이즈, 상기 L은 윈도우들 사이의 중첩 구간의 길이일 수 있다.

본 발명의 다른 실시예에 따른 오디오 신호의 디코딩 장치는,

비트스트림으로부터 시간-주파수 변환된 오디오 신호의 프레임들 및 상기 프레임들에 적용된 윈도우들에 대한 정보를 추출하는 역다중화부; 상기 프레임들을 시간-주파수 역변환하는 역변환부; 및 상기 윈도우들에 대한 정보를 기초로, 상기 시간-주파수 역변환된 프레임들을 합성하여 오디오 신호를 생성하는 합성부를 포함하되, 상기 프레임들에 적용된 윈도우들은, 제 1 윈도우, 상기 제 1 윈도우의 길이보다 긴 제 2 윈도우 및, 상기 제 1 윈도우의 길이보다 길고, 상기 제 2 윈도우의 길이보다 짧은 적어도 하나의 제 3 윈도우를 포함할 수 있다.

상기 합성부는, 상기 시간-주파수 역변환된 프레임들에 포함된 하나의 변환 단위에 적어도 하나의 제 1 윈도우, 적어도 하나의 제 2 윈도우 또는 적어도 하나의 제 3 윈도우를 적용할 수 있다.

상기 M은 2의 k승이고, 상기 제 1 윈도우, 제 2 윈도우 및 제 3 윈도우의 길이는 2의 k승 개의 샘플일 수 있다.

도 1은 종래 AAC 코덱에서 오디오 신호를 MDCT 변환하기 위해 오디오 신호에 윈도우를 적용하는 방법을 도시하는 도면이다.
도 2는 종래 AAC 코덱의 방법에 의하는 경우에 인코딩 및 디코딩에 의해 발생하는 딜레이를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치의 구성을 도시하는 도면이다.
도 4는 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치에 있어서, 오디오 신호의 프레임들에 적용되는 제 1 윈도우, 제 2 윈도우 및 제 3 윈도우를 도시하는 도면이다.
도 5는 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치에 있어서, 제 1 윈도우, 제 2 윈도우 및 제 3 윈도우가 적용된 오디오 신호의 프레임들을 도시하는 도면이다.
도 6은 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치에 있어서, 인코딩 및 디코딩에 의해 발생하는 딜레이를 설명하기 위한 도면이다.
도 7은 본 발명의 다른 실시예에 따른 오디오 신호의 인코딩 방법의 순서를 도시하는 순서도이다.
도 8은 본 발명의 다른 실시예에 따른 오디오 신호의 디코딩 장치의 구성을 도시하는 도면이다.
도 9는 본 발명의 또 다른 실시예에 따른 오디오 신호의 디코딩 방법의 순서를 도시하는 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 실시예에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.

한편, 본 명세서에서 "윈도우 또는 소정 구간의 길이가 a(a는 자연수)샘플이다"라는 표현은 "윈도우 또는 소정 구간이 a개의 샘플을 포함한다"는 것을 의미한다.

또한, 본 명세서에서 "소정 윈도우의 프레임 사이즈"는 소정 윈도우가 적용된 시간 영역의 프레임들을 시간-주파수 변환하였을 때 획득되는 주파수 영역에서의 계수의 개수를 의미한다.

도 1은 종래 AAC 코덱에서 오디오 신호(10)를 MDCT 변환하기 위해 오디오 신호(10)에 윈도우를 적용하는 방법을 도시하는 도면이다.

종래 AAC 코덱은 오디오 신호(10)의 프레임들에 적용되는 윈도우가 i) 롱(long) 윈도우(21), ii) 숏(short) 윈도우(23), iii) 롱 스타트(long start) 윈도우(22) 및 iv) 롱 숏(long short) 윈도우(24)를 포함하는 것으로 정의하고 있다.

도 1에 도시된 오디오 신호(10)의 각 프레임(N-2, N-1, N, N+1, N+2)의 길이는 1024 샘플이며, 롱 윈도우(21), 롱 스타트 윈도우(22), 롱 숏 윈도우(24)의 길이는 2048 샘플이고, 숏 윈도우(23)의 길이는 256 샘플이다.

윈도우가 적용된 n개의 샘플들이 시간-주파수 변환되면, n/2의 개수의 계수들이 획득되므로, 롱 윈도우(21), 롱 스타트 윈도우(22) 및 롱 숏 윈도우(24)의 프레임 사이즈는 1024이고, 숏 윈도우(23)의 프레임 사이즈는 128이다.

롱 윈도우(21), 롱 스타트 윈도우(22), 롱 숏 윈도우(24) 및 숏 윈도우(23)들은 서로 간에 50% 중첩된다.

한편, 오디오 신호는 변환 단위로 구분될 수 있는데, "변환 단위"는 윈도우가 적용되어 시간-주파수 변환되었을 때, 동일한 개수의 계수가 획득될 수 있는 구간을 의미한다.

AAC 코덱이 정의하고 있는 윈도우들 중 가장 긴 윈도우는 롱 윈도우(21), 롱 스타트 윈도우(22), 롱 숏 윈도우(24)이므로, 하나의 변환 단위에는 하나의 롱 윈도우(21), 하나의 롱 스타트 윈도우(22) 또는 하나의 롱 숏 윈도우(24)가 적용될 수 있다. 즉, 롱 윈도우(21), 롱 스타트 윈도우(22), 롱 숏 윈도우(24)에 대한 변환 단위의 길이는 2048 샘플이다.

하나의 변환 단위에 숏 윈도우(23)를 적용하고자 하는 경우에는, 계수의 개수가 1024가 되도록 총 8개의 숏 윈도우(8×128=1024)가 변환 단위에 적용된다. 8개의 숏 윈도우(23)들은 서로 간에 50% 중첩되므로, 숏 윈도우(23)가 적용되는 변환 단위의 길이는 2048 샘플보다 작을 것이다. 즉, 변환 단위의 길이는 해당 변환 단위에 적용되는 윈도우의 종류에 따라 그 길이가 달라질 수 있다.

종래 AAC 코덱은 시간 영역에서 빠르게 변화하는 신호, 즉 트랜지언트 신호 구간에 대해서는 숏 윈도우(23)를 적용하여 주파수 해상도를 증가시키고, 시간 영역에서 느리게 변화하는 신호에 대해서는 롱 윈도우(21)를 적용하여 주파수 대역의 낭비를 방지하였다. 롱 스타트 윈도우(22)는 숏 윈도우 세트가 시작될 때 첫 번째 숏 윈도우와 중첩되도록 프레임에 적용되며, 롱 숏 윈도우(24)는 숏 윈도우 세트가 종료할 때 마지막 숏 윈도우와 중첩되도록 프레임에 적용된다.

종래 AAC 코덱에 의하면, 각 윈도우들 사이의 50% 중첩에 의한 딜레이 및 롱 스타트 윈도우(22) 또는 롱 숏 윈도우(24)로의 윈도우 스위칭에 의한 딜레이가 발생하므로 코딩의 효율이 저하되는 문제점이 있었다.

또한, 종래 AAC 코덱은 변환 단위의 일부 구간에만 트랜지언트 신호가 존재하는 경우에도 변환 단위 전부에 8개의 숏 윈도우를 적용하므로, 역시 코딩의 효율이 저하되는 문제점이 있었다.

도 2는 종래 AAC 코덱의 방법에 의하는 경우에 인코딩 및 디코딩에 의해 발생하는 딜레이를 설명하기 위한 도면이다.

도 2(a)는 인코더에 입력되는 오디오 신호를 도시하고 있고, 도 2(b)는 인코더에 의해 수행되는 시간-주파수 변환을 도시하고 있고, 도 2(c)는 디코더에 의해 수행되는 시간-주파수 역변환을 도시하고 있다.

종래 AAC 코덱에서는 다음 프레임에 적용될 윈도우가 숏 윈도우인지 여부에 따라 현재 프레임(12)에 적용될 윈도우(26)가 롱 윈도우인지 롱 스타트 윈도우인지가 결정된다. 즉, 도 2(b)를 참조하면, 인코더는 현재 프레임(12)을 시간-주파수 변환하기 위해 현재 프레임(12)에 적용할 윈도우(26)를 결정하여야 하는데, 이 윈도우(26)의 결정은 다음 프레임에 포함된 소정 개수의 샘플들이 인코더에 의해 분석된 이후에 수행된다. 상기 소정 개수의 샘플들을 윈도우 스위칭을 위한 룩 어헤드(look-ahead) 샘플이라 한다. 따라서, 인코딩은 룩 어헤드 샘플만큼 딜레이된다.

도 1을 참조하면, 현재 프레임(12)의 다음 프레임에 적용되는 숏 윈도우 세트의 길이는 576 샘플(128×4+128÷2)이므로, 현재 프레임(12)에 적용할 윈도우(26)를 결정하기 위해서는 최소 576개의 룩 어헤드 샘플이 필요하다. 이 룩 어헤드 샘플에 의해 인코딩 딜레이(D1)가 발생된다.

디코더는 현재 프레임(12)을 시간-주파수 역변환하기 위해 현재 프레임(12)과 중첩되는 다음 프레임을 기다려야 한다. MDCT 변환에서는 윈도우 간에 50% 중첩이 되므로, 2048 샘플의 50%인 1024 샘플이 현재 프레임(12)과 중첩된다. 따라서, 디코더에서는 중첩 구간에 의한 딜레이가 발생한다.

또한, 현재 프레임(12)이 오디오 신호의 최초 프레임인 경우, 디코더는 현재 프레임(12)을 처리하기 위한 1024 샘플의 딜레이를 필요로 한다.

결국, 종래 AAC 코덱의 인코딩 및 디코딩에 의한 딜레이(D2)는 룩 어헤드 샘플에 의한 딜레이, 중첩 구간에 의한 딜레이 및 현재 프레임(12)에 의한 딜레이를 포함하며, 샘플링 레이트를 48kHz라 할 때, AAC 코덱에 의한 총 딜레이는 54.7ms가 발생한다.

도 3은 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치(300)의 구성을 도시하는 블럭도이다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치(300)는 분할부(310), 윈도우 적용부(320), 변환부(330) 및 다중화부(340)를 포함할 수 있다. 분할부(310), 윈도우 적용부(320), 변환부(330) 및 다중화부(340)는 마이크로 프로세서로 구성될 수 있다.

분할부(310)는 오디오 신호를 입력받아 M(M은 1보다 큰 자연수)개의 샘플들을 포함하는 프레임들로 분할할 수 있다. 분할부(310)는 인코딩 장치(300)에 구비된 메모리부(미도시)로부터 오디오 신호를 수신할 수 있고, 외부 장치로부터 오디오 신호를 수신할 수도 있다.

윈도우 적용부(320)는 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우를 오디오 신호의 프레임들에 적용한다. 제 2 윈도우는 제 1 윈도우의 길이보다 길며, 제 3 윈도우는 제 1 윈도우의 길이와 제 2 윈도우의 길이 사이의 길이를 가질 수 있다. 윈도우 적용부(320)은 하나의 변환 단위에 적어도 하나의 제 1 윈도우, 적어도 하나의 제 2 윈도우 또는 적어도 하나의 제 3 윈도우를 적용할 수 있다. 본 명세서에서는, 종래 AAC 코덱과의 비교를 위해, 제 1 윈도우의 길이를 256 샘플, 제 2 윈도우의 길이를 2048 샘플이라고 가정한다. 다만, 제 1 윈도우 및 제 2 윈도우의 길이는 당업자에게 자명한 범위에서 다양하게 설정될 수 있다.

제 1 윈도우, 제 2 윈도우 및 제 3 윈도우에 대해서는 도 4를 참조하여 하기에서 자세히 설명된다.

변환부(330)는 제 1 윈도우, 제 2 윈도우 및 제 3 윈도우가 적용된 프레임들을 시간-주파수 변환한다. 본 발명에 따른 시간-주파수 변환은 DCT(Discrete Cosine Transform), MDCT(Modified Discrete Cosine Transform) 및 FFT(Fast Fourier Transform) 중의 하나를 포함할 수 있다.

다중화부(340)는 시간-주파수 변환된 프레임들을 포함하는 비트스트림을 생성하여 출력한다.

도 3에는 도시되지 않았지만, 본 발명에 따른 인코딩 장치(300)는 변환부(330)에 의해 생성된 주파수 영역의 계수를 양자화하는 양자화부 및 양자화된 계수에 비트를 할당하는 비트 할당부를 더 포함할 수 있다.

도 4는 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치(300)에 있어서, 오디오 신호의 프레임들에 적용하는 제 1 윈도우, 제 2 윈도우 및 제 3 윈도우를 도시하는 도면이다.

도 4(a)는 제 1 윈도우, 도 4(b)는 제 2 윈도우, 도 4(c)는 제 3 윈도우를 도시한다.

전술한 바와 같이, 제 1 윈도우의 길이 256 샘플이고, 제 2 윈도우의 길이는 2048 샘플일 수 있다. 제 3 윈도우의 길이는 제 1 윈도우의 길이보다 길고, 제 2 윈도우의 길이보다 짧다. 제 3 윈도우는 오디오 신호의 특성에 따라 다양한 길이를 가질 수 있다.

도 4(b)를 참조하면, 본 발명에 따른 제 2 윈도우는 계수가 0인 제 1 제로(zero) 구간(a1)과 제 2 제로 구간(a2), 및 계수가 1인 제 1 유니티(unity) 구간(b1)과 제 2 유니티 구간(b2)을 포함할 수 있다. 또한, 도 4(c)를 참조하면, 제 3 윈도우도 제 2 윈도우와 같이, 제 1 제로 구간(c1)과 제 2 제로 구간(c2), 및 제 1 유니티 구간(d1)과 제 2 유니티 구간(d2)를 포함할 수 있다. 이와 반대로, 도 4(a)에 도시된 제 1 윈도우는 제로 구간과 유니티 구간을 포함하지 않을 수 있다.

도 5는 본 발명의 일 실시예에 따른 오디오 신호(10)의 인코딩 장치(300)에 있어서, 제 1 윈도우(51), 제 2 윈도우(52) 및 제 3 윈도우(53)가 적용된 오디오 신호(10)의 프레임들을 도시하는 도면이다.

먼저, 윈도우 적용부(320)는, 계수가 0인 구간을 제외하고, 윈도우들 사이의 중첩 구간의 길이가 모두 동일하도록 제 1 윈도우(51), 제 2 윈도우(52), 제 3 윈도우(53)를 프레임에 적용할 수 있다.

종래 AAC 코덱에서는 롱 윈도우와 롱 윈도우 사이의 중첩 구간의 길이와 숏 윈도우와 숏 윈도우 사이의 중첩 구간의 길이가 서로 상이하였다. 이에 따라 롱 윈도우와 숏 윈도우를 연결하는 롱 스타트 윈도우와 롱 숏 윈도우가 필요하였다. 그러나, 본 발명에 따른 제 1 윈도우(51), 제 2 윈도우(52), 제 3 윈도우(53) 사이의 중첩 구간은 모두 동일하므로, 롱 스타트 윈도우와 롱 숏 윈도우가 필요 없게 된다. 또한, 제 1 윈도우(51), 제 2 윈도우(52) 및 제 3 윈도우(53) 사이의 중첩 구간의 길이는 제 1 윈도우의 길이의 1/2로 설정될 수 있다. 즉, 중첩 구간의 길이는 128 샘플이 될 것이다. 본 발명에 따르면, 윈도우들 사이의 중첩 구간의 길이가 종래 AAC 코덱에 비해 매우 작아지므로 윈도우 중첩에 의한 딜레이가 감소된다.

한편, 전술한 바와 같이, 종래 AAC 코덱은 하나의 변환 단위의 일부 구간에 트랜지언트 신호 구간이 존재하는 경우, 상기 변환 단위 전체에 8개의 숏 프레임을 적용하여 코딩의 효율을 저하시켰으나, 도 5을 참조하면, 윈도우 적용부(320)는 트랜지언트 신호가 감지된 트랜지언트 신호 구간(t1)에만 적어도 하나의 제 1 윈도우(51)를 적용할 수 있다. 또한, 윈도우 적용부(320)는 변환 단위에서 트랜지언트 신호 구간(t1)을 제외한 나머지 구간에서는 길이가 적절히 조정된 적어도 하나의 제 3 윈도우(53-1)를 적어도 하나의 제 1 윈도우(51)와 중첩되도록 변환 단위에 적용될 수 있다.

도 3에는 도시되지 않았지만, 본 발명에 따른 인코딩 장치(300)는 오디오 신호의 특성을 분석하는 분석부를 더 포함할 수 있다. 분석부는 오디오 신호의 프레임들 사이의 유사도 또는 평균 에너지의 차이를 계산하여 현재 프레임 내에 트랜지언트 구간이 존재하는지를 판단할 수 있다. 분석부는 오디오 신호 인코딩 장치 자체에 트랜지언트 구간의 판별 기능이 있는 경우에는 별도로 구비될 필요가 없다. 예를 들어 AAC, MP3 등과 같은 파형 코더(wave coder)나 파라메트릭 코더와 같이 인코딩 장치 자체에 트랜지언트 구간을 판별하는 기능이 구비된 경우 해당 기능을 이용하면 된다.

이하에서는, 제 3 윈도우의 길이를 적절히 선택하는 방법을 설명한다.

본 발명에 따른 윈도우들 중 제 1 윈도우를 하나의 변환 단위에 적용하는 경우, 8개의 제 1 윈도우가 필요하게 된다.

그러나, 본 발명에 따른 윈도우 적용부(320)는 트랜지언트 신호가 존재하는 구간(t1)에만 제 1 윈도우를 적용하므로, 제 1 윈도우의 개수가 6개 이하가 될 수 있다.

제 1 윈도우가 6개 적용된 경우, 제 1 윈도우들의 프레임 사이즈의 합은 768(128×6)이므로, 제 3 윈도우의 프레임 사이즈는 256이고, 길이는 512 샘플이 된다. 도 5에 도시된 제 3 윈도우는 2 개의 제 1 윈도우 다음에 적용되므로, 그 길이는 1536 샘플이 될 것이다.

또한, 윈도우 적용부(320)는 오디오 신호의 특성이 변하는 변화 구간(t2)을 포함하는 변환 단위에, 변화 구간(t2)에서 서로 중첩되는 하나의 제 1 윈도우와 하나의 제 3 윈도우 또는 두 개의 제 3 윈도우(53-2, 53-3)를 적용할 수 있다. 여기서 오디오 신호의 특성은 오디오 신호의 주파수, 톤(tone), 세기 등 오디오 신호를 평가할 수 있는 다양한 특성을 포함할 수 있다. 변화 구간은 트랜지언트 신호 구간을 포함할 수 있다. 오디오 신호의 특성이 변하는 변화 구간의 길이가 매우 짧으면, 두 개의 윈도우만이 중첩되도록 하여 코딩의 효율을 향상시킬 수 있다. 도 5에 도시된 두 개의 제 3 윈도우(53-2, 53-3)의 길이는 전술한 방법과 같이 설정될 수 있다. 즉, 두 개의 제 3 윈도우(53-2, 53-3) 중 어느 하나의 제 3 윈도우(53-2)의 길이가 결정된다면, 나머지 제 3 윈도우(53-3)의 길이는, 두 개의 제 3 윈도우(53-2, 53-3)의 프레임 사이즈의 합이 제 2 윈도우(52)의 프레임 사이즈와 동일하게 되도록 결정될 수 있다.

한편, 본 발명에 따른 윈도우 적용부(320)는 시간-주파수 변환의 완전 복원 조건을 만족하도록 제 3 윈도우의 형태를 결정할 수 있다.

프린센-브래들리(Princen-Bradley) 조건에 따르면, 프레임에 적용되는 윈도우는 다음의 수학식 1을 만족하여야 한다.

w는 윈도우 함수를 의미하고, n은 샘플 인덱스, M은 프레임의 길이를 의미한다.

또한, 상기 수학식 1을 만족하기 위해서는 윈도우의 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이가 다음의 수학식 2를 만족하여야 한다.

F는 윈도우의 프레임 사이즈를 의미하고, L은 중첩 구간의 길이를 의미한다.

중첩 구간의 길이는 128 샘플이므로, 제 2 윈도우의 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이는 448 샘플이 된다((1024-128) / 2).

아래의 표 1은 윈도우의 프레임 사이즈에 따른 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이(R)를 의미한다.

상기 표 1에서 프레임 사이즈가 896인 윈도우는 변환 단위에 하나의 제 1 윈도우가 적용되었을 때, 해당 제 1 윈도우와 중첩되어 변환 단위에 적용되는 제 3 윈도우를 의미한다.

본 발명에 따른 M, 제 1 윈도우의 길이, 제 2 윈도우의 길이 및 제 3 윈도우의 길이는 모두 2의 k승으로 설정될 수 있다. 이에 의해, 인코딩 및 디코딩에서 필요한 계산량이 줄어들 수 있다.

윈도우 적용부(320)는 오디오 신호의 프레임들에 적용된 윈도우들에 대한 정보를 생성하여 다중화부(340)로 전송할 수 있고, 다중화부(340)는 시간-주파수 변환된 프레임과 윈도우들에 대한 정보를 포함하는 비트스트림을 생성하여 출력할 수 있다.

도 6은 본 발명의 일 실시예에 따른 오디오 신호의 인코딩 장치(300)에 있어서, 인코딩 및 디코딩에 의해 발생하는 딜레이를 설명하기 위한 도면이다.

도 6(a)는 인코더에 입력되는 오디오 신호를 도시하고 있고, 도 6(b)는 인코더에 의해 수행되는 시간-주파수 변환을 도시하고 있고, 도 6(c)는 디코더에 의해 수행되는 시간-주파수 역변환을 도시하고 있다.

전술한 바와 같이, 종래 AAC 코덱에서는 인코더가 현재 프레임(12)에 적용할 윈도우(26)를 결정하기 위해 룩 어헤드(look-ahead) 샘플을 필요로 하였다. 그러나, 본 발명에 따르면, 본 발명의 제 1 윈도우, 제 2 윈도우 및 제 3 윈도우는 서로 간에 중첩되는 구간의 길이가 모두 동일하므로, 현재 프레임(62)에 적용할 윈도우(66)를 결정하기 위한 룩 어헤드 샘플을 필요로 하지 않는다. 따라서, 도 6(a)에 도시된 인코딩에 있어서, 룩 어헤드 샘플에 의한 딜레이가 발생하지 않는다.

본 발명에 따른 디코더도 현재 프레임(62)을 시간-주파수 역변환하기 위해 현재 프레임(62)과 중첩되는 다음 프레임을 기다려야 한다. 제 1 윈도우, 제 2 윈도우 및 제 3 윈도우 간에 중첩되는 구간의 길이가 128 샘플이므로, 본 발명에 따른 디코더에서는 128 샘플의 중첩 딜레이가 발생한다. 이는 종래 AAC 코덱에서 발생하는 1024 샘플의 딜레이에 비해 현저히 줄어든 값이다.

또한, 현재 프레임(62)이 오디오 신호의 최초 프레임인 경우, 본 발명의 디코더는 종래 AAC 코덱과 마찬가지로 현재 프레임(62)을 처리하기 위한 1024 샘플의 딜레이를 필요로 한다.

결국, 본 발명에 따른 인코딩 및 디코딩에 의한 딜레이(D2)는 중첩 구간에 의한 딜레이 및 현재 프레임(62)에 의한 딜레이를 포함하며, 샘플링 레이트를 48kHz라 할 때, 총 딜레이는 24ms가 발생한다.

도 7은 본 발명의 다른 실시예에 따른 오디오 신호의 인코딩 방법의 순서를 도시하는 순서도이다. 도 7을 참조하면, 본 발명의 다른 실시예에 따른 오디오 신호의 인코딩 방법은 도 3에 도시된 오디오 신호의 인코딩 장치(300)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하에서 생략된 내용이라 하더라도 도 3에 도시된 오디오 신호의 인코딩 장치(300)에 관하여 이상에서 기술된 내용은 도 7의 오디오 신호의 인코딩 방법에도 적용됨을 알 수 있다.

먼저, S710 단계에서, 인코딩 장치(300)는 입력된 오디오 신호를 프레임들로 분할한다. 프레임 각각은 M(M은 1보다 큰 자연수)개의 샘플을 포함할 수 있다.

S720 단계에서, 인코딩 장치(300)는 프레임들에 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우를 적용한다. 제 1 윈도우의 길이는 가장 짧고, 제 2 윈도우의 길이는 가장 길며, 제 3 윈도우의 길이는 제 1 윈도우의 길이와 제 2 윈도우의 길이 사이의 중간 길이이다.

S730 단계에서, 인코딩 장치(300)는 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우가 적용된 프레임들을 시간-주파수 변환한다. 시간-주파수 변환은 DCT(Discrete Cosine Transform), MDCT(Modified Discrete Cosine Transform) 및 FFT(Fast Fourier Transform) 중의 하나를 포함할 수 있다.

S740 단계에서, 인코딩 장치(300)는 시간-주파수 변환된 프레임들을 포함하는 비트스트림을 출력한다. 비트스트림은 프레임들에 적용된 윈도우들에 대한 정보를 더 포함할 수 있고, 윈도우들에 대한 정보는 프레임들에 적용된 윈도우의 종류 또는 윈도우의 길이 정보를 포함할 수 있다.

도 8은 본 발명의 다른 실시예에 따른 오디오 신호의 디코딩 장치(800)의 구성을 도시하는 블럭도이다.

도 8을 참조하면, 본 발명의 다른 실시예에 따른 오디오 신호의 디코딩 장치(800)는 역다중화부(810), 역변환부(820) 및 합성부(830)를 포함할 수 있다. 역다중화부(810), 역변환부(820) 및 합성부(830)는 마이크로 프로세서로 구성될 수 있다.

역다중화부(810)는 비트스트림으로부터 시간-주파수 변환된 오디오 신호의 프레임들 및 상기 프레임들에 적용된 윈도우들에 대한 정보를 추출할 수 있다. 비트스트림은 외부 인코딩 장치(300)로부터 수신될 수 있다.

역변환부(820)는 시간-주파수 변환된 오디오 신호의 프레임들을 시간-주파수 역변환한다. 역변환부(820)는 인코딩 장치(300)에서 수행된 시간-주파수 변환 방법에 대응하는 방법으로 프레임들을 시간-주파수 역변환할 수 있다.

합성부(830)는 비트스트림으로부터 추출된 윈도우들에 대한 정보를 기초로, 시간-주파수 역변환된 프레임들을 합성하여 오디오 신호를 생성할 수 있다. 구체적으로, 합성부(830)는 비트스트림으로부터 추출된 윈도우들에 대한 정보를 기초로, 주파수 역변환된 프레임들에 대해 인코딩 장치(300)에서 사용된 윈도우와 동일한 윈도우들을 적용하고 프레임들을 합성하여 오디오 신호를 생성할 수 있다. 또한, 합성부(830)는 하나의 변환 단위에 적어도 하나의 제 1 윈도우, 적어도 하나의 제 2 윈도우 또는 적어도 하나의 제 3 윈도우를 적용할 수 있다.

비트스트림에 포함된 윈도우들에 대한 정보는 제 1 윈도우, 제 2 윈도우 및 제 3 윈도우에 대한 정보를 포함할 수 있으며, 제 1 윈도우의 길이는 가장 짧고, 제 2 윈도우의 길이는 가장 길며, 제 3 윈도우의 길이는 제 1 윈도우의 길이와 제 2 윈도우의 길이의 중간 길이일 수 있다.

제 1 윈도우, 제 2 윈도우 및 제 3 윈도우에 대해서는 인코딩 장치(300)와 관련하여 전술하였으므로, 자세한 설명은 생략한다.

도 8에는 도시되지 않았지만, 본 발명의 다른 실시예에 따른 디코딩 장치(800)는 인코딩 장치(300)에 대응하도록 역양자화부, 역비트할당부를 더 포함할 수 있다.

도 9는 본 발명의 또 다른 실시예에 따른 오디오 신호의 디코딩 방법의 순서를 도시하는 순서도이다.

먼저, S910 단계에서, 디코딩 장치(800)는 비트스트림으로부터 시간-주파수 변환된 오디오 신호의 프레임들 및 윈도우들에 대한 정보를 추출한다. 윈도우들에 대한 정보는 프레임들에 적용된 윈도우의 형태 및 길이 정보를 포함할 수 있다.

S920 단계에서, 디코딩 장치(800)는 시간-주파수 변환된 프레임들을 시간-주파수 역변환할 수 있다. 디코딩 장치(800)는 인코딩 장치(300)에서 수행한 시간-주파수 변환 방법에 대응하는 역변환을 수행할 수 있다.

S930 단계에서, 디코딩 장치(800)는 윈도우들에 대한 정보를 기초로, 시간-주파수 역변환된 프레임들을 합성하여 오디오 신호를 생성한다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.

이상과 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

300: 인코딩 장치
310: 분할부
320: 윈도우 적용부
330: 변환부
340: 다중화부
800: 디코딩 장치
810: 역다중화부
820: 역변환부
830: 합성부

Claims

오디오 신호를 M(M은 1보다 큰 자연수)개의 샘플들을 포함하는 프레임들로 분할하는 단계;
제 1 윈도우, 상기 제 1 윈도우의 길이보다 긴 제 2 윈도우 및, 상기 제 1 윈도우의 길이보다 길고, 상기 제 2 윈도우의 길이보다 짧은 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 단계;
상기 제 1 윈도우, 제 2 윈도우 및 상기 적어도 하나의 제 3 윈도우가 적용된 프레임들을 시간-주파수 변환하는 단계; 및
시간-주파수 변환된 프레임들을 포함하는 비트스트림을 생성하여 출력하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제1항에 있어서,
상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 단계는,
하나의 변환 단위에 적어도 하나의 제 1 윈도우, 적어도 하나의 제 2 윈도우 또는 적어도 하나의 제 3 윈도우를 적용하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제1항에 있어서,
상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우는,
계수가 0인 구간을 제외하고, 서로 간에 중첩되는 중첩 구간의 길이가 모두 동일한 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제1항에 있어서,
상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 단계는,
상기 오디오 신호 중 트랜지언트 신호를 포함하는 트랜지언트 구간에 적어도 하나의 제 1 윈도우를 적용하는 단계; 및
상기 트랜지언트 구간에 적용된 적어도 하나의 제 1 윈도우와 중첩되는 적어도 하나의 제 3 윈도우를 상기 트랜지언트 구간을 포함하는 변환 단위에 적용하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제4항에 있어서,
상기 적어도 하나의 제 3 윈도우의 프레임 사이즈는,
상기 트랜지언트 구간에 적용된 적어도 하나의 제 1 윈도우의 프레임 사이즈에 따라 결정되는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제1항에 있어서,
상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 단계는,
상기 오디오 신호 중 신호의 특성이 변하는 변화 구간을 포함하는 변환 단위에, 상기 변화 구간에서 서로 중첩되는 하나의 제 1 윈도우와 하나의 제 3 윈도우 또는 두 개의 제 3 윈도우를 적용하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제1항에 있어서,
상기 제 2 윈도우와 적어도 하나의 제 3 윈도우는,
계수가 0인 제 1 제로(zero) 구간과 제 2 제로 구간 및, 계수가 1인 제 1 유니티(unity) 구간과 제 2 유니티 구간을 포함하되,
상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이는 완전 복원 조건(perfect reconstruction)을 만족하도록 결정되는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제7항에 있어서,
상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이는,
(F - L) ÷ 2로 결정이 되며,
상기 F는 윈도우의 프레임 사이즈, 상기 L은 윈도우들 사이의 중첩 구간의 길이인 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제1항에 있어서,
상기 M은 2의 k승이고,
상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우의 길이는 2의 k승 개의 샘플인 것을 특징으로 하는 오디오 신호의 인코딩 방법.
제1항에 있어서,
상기 비트스트림은,
상기 오디오 신호의 프레임들에 적용된 윈도우들에 대한 정보를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 방법.
비트스트림으로부터 시간-주파수 변환된 오디오 신호의 프레임들 및 상기 프레임들에 적용된 윈도우들에 대한 정보를 추출하는 단계;
상기 프레임들을 시간-주파수 역변환하는 단계; 및
상기 윈도우들에 대한 정보를 기초로, 상기 시간-주파수 역변환된 프레임들을 합성하여 오디오 신호를 생성하는 단계를 포함하되,
상기 프레임들에 적용된 윈도우들은, 제 1 윈도우, 상기 제 1 윈도우의 길이보다 긴 제 2 윈도우 및, 상기 제 1 윈도우의 길이보다 길고, 상기 제 2 윈도우의 길이보다 짧은 적어도 하나의 제 3 윈도우를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제11항에 있어서,
상기 오디오 신호를 생성하는 단계는,
상기 시간-주파수 역변환된 프레임들에 포함된 하나의 변환 단위에 적어도 하나의 제 1 윈도우, 적어도 하나의 제 2 윈도우 또는 적어도 하나의 제 3 윈도우를 적용하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제11항에 있어서,
상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우는,
계수가 0인 구간을 제외하고, 서로 간에 중첩되는 중첩 구간의 길이가 모두 동일한 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제11항에 있어서,
상기 제 2 윈도우와 적어도 하나의 제 3 윈도우는,
계수가 0인 제 1 제로(zero) 구간과 제 2 제로 구간 및, 계수가 1인 제 1 유니티(unity) 구간과 제 2 유니티 구간을 포함하되,
상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이는 완전 복원 조건(perfect reconstruction)을 만족하도록 결정된 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제14항에 있어서,
상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이는,
(F - L) ÷ 2로 결정이 되며,
상기 F는 윈도우의 프레임 사이즈, 상기 L은 윈도우들 사이의 중첩 구간의 길이인 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제11항에 있어서,
상기 M은 2의 k승이고,
상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우의 길이는 2의 k승 개의 샘플인 것을 특징으로 하는 오디오 신호의 디코딩 방법.
제1항 내지 제10항 중 어느 하나의 항의 오디오 신호의 인코딩 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
제11항 내지 제16항 중 어느 하나의 항의 오디오 신호의 디코딩 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
오디오 신호를 M(M은 1보다 큰 자연수)개의 샘플들을 포함하는 프레임들로 분할하는 분할부;
제 1 윈도우, 상기 제 1 윈도우의 길이보다 긴 제 2 윈도우 및, 상기 제 1 윈도우의 길이보다 길고, 상기 제 2 윈도우의 길이보다 짧은 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 윈도우 적용부;
상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우가 적용된 프레임들을 시간-주파수 변환하는 변환부; 및
시간-주파수 변환된 프레임들을 포함하는 비트스트림을 생성하여 출력하는 다중화부를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제19항에 있어서,
상기 윈도우 적용부는,
하나의 변환 단위에 적어도 하나의 제 1 윈도우, 적어도 하나의 제 2 윈도우 또는 적어도 하나의 제 3 윈도우를 적용하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제19항에 있어서,
상기 윈도우 적용부는,
계수가 0인 구간을 제외하고, 서로 간에 중첩되는 중첩 구간의 길이가 모두 동일하도록 상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우를 상기 프레임들에 적용하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제19항에 있어서,
상기 오디오 신호의 인코딩 장치는,
상기 오디오 신호의 특성을 분석하는 분석부를 더 포함하되,
상기 윈도우 적용부는,
상기 분석부에 의해 분석된 트랜지언트 구간에 적어도 하나의 제 1 윈도우를 적용하고,
상기 트랜지언트 구간에 적용된 적어도 하나의 제 1 윈도우와 중첩되는 적어도 하나의 제 3 윈도우를 상기 트랜지언트 구간을 포함하는 변환 단위에 적용하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제22항에 있어서,
상기 윈도우 적용부는,
상기 적어도 하나의 제 3 윈도우의 프레임 사이즈를 상기 트랜지언트 구간에 적용된 적어도 하나의 제 1 윈도우의 프레임 사이즈에 따라 결정하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제19항에 있어서,
상기 윈도우 적용부는,
상기 분석부에 의해 분석된 오디오 신호의 특성이 변하는 변화 구간을 포함하는 변환 단위에, 상기 변화 구간에서 서로 중첩되는 하나의 제 1 윈도우와 하나의 제 3 윈도우 또는 두 개의 제 3 윈도우를 적용하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제19항에 있어서,
상기 제 2 윈도우와 적어도 하나의 제 3 윈도우는,
계수가 0인 제 1 제로(zero) 구간과 제 2 제로 구간 및, 계수가 1인 제 1 유니티(unity) 구간과 제 2 유니티 구간을 포함하되,
상기 윈도우 적용부는,
상기 제 2 윈도우와 적어도 하나의 제 3 윈도우가 완전 복원 조건을 만족하도록, 상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이를 결정하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제25항에 있어서,
상기 윈도우 적용부는,
상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이를,
(F - L) ÷ 2로 결정하며,
상기 F는 윈도우의 프레임 사이즈, 상기 L은 윈도우들 사이의 중첩 구간의 길이인 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제19항에 있어서,
상기 M은 2의 k승이고,
상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우의 길이는 2의 k승 개의 샘플인 것을 특징으로 하는 오디오 신호의 인코딩 장치.
제19항에 있어서,
상기 비트스트림은,
상기 오디오 신호의 프레임들에 적용된 윈도우들에 대한 정보를 포함하는 것을 특징으로 하는 오디오 신호의 인코딩 장치.
비트스트림으로부터 시간-주파수 변환된 오디오 신호의 프레임들 및 상기 프레임들에 적용된 윈도우들에 대한 정보를 추출하는 역다중화부;
상기 프레임들을 시간-주파수 역변환하는 역변환부; 및
상기 윈도우들에 대한 정보를 기초로, 상기 시간-주파수 역변환된 프레임들을 합성하여 오디오 신호를 생성하는 합성부를 포함하되,
상기 프레임들에 적용된 윈도우들은, 제 1 윈도우, 상기 제 1 윈도우의 길이보다 긴 제 2 윈도우 및, 상기 제 1 윈도우의 길이보다 길고, 상기 제 2 윈도우의 길이보다 짧은 적어도 하나의 제 3 윈도우를 포함하는 것을 특징으로 하는 오디오 신호의 디코딩 장치.
제29항에 있어서,
상기 합성부는,
상기 시간-주파수 역변환된 프레임들에 포함된 하나의 변환 단위에 적어도 하나의 제 1 윈도우, 적어도 하나의 제 2 윈도우 또는 적어도 하나의 제 3 윈도우를 적용하는 것을 특징으로 하는 오디오 신호의 디코딩 장치.
제29항에 있어서,
상기 제 1 윈도우, 제 2 윈도우 및 적어도 하나의 제 3 윈도우는,
계수가 0인 구간을 제외하고, 서로 간에 중첩되는 중첩 구간의 길이가 모두 동일한 것을 특징으로 하는 오디오 신호의 디코딩 장치.
제29항에 있어서,
상기 제 2 윈도우와 적어도 하나의 제 3 윈도우는,
계수가 0인 제 1 제로(zero) 구간과 제 2 제로 구간 및, 계수가 1인 제 1 유니티(unity) 구간과 제 2 유니티 구간을 포함하되,
상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이는 완전 복원 조건(perfect reconstruction)을 만족하도록 결정된 것을 특징으로 하는 오디오 신호의 디코딩 장치.
제32항에 있어서,
상기 제 1 제로 구간, 제 2 제로 구간, 제 1 유니티 구간 및 제 2 유니티 구간의 길이는,
(F - L) ÷ 2로 결정이 되며,
상기 F는 윈도우의 프레임 사이즈, 상기 L은 윈도우들 사이의 중첩 구간의 길이인 것을 특징으로 하는 오디오 신호의 디코딩 장치.
제29항에 있어서,
상기 M은 2의 k승이고,
상기 제 1 윈도우, 제 2 윈도우 및 제 3 윈도우의 길이는 2의 k승 개의 샘플인 것을 특징으로 하는 오디오 신호의 디코딩 장치.