KR20080050900A

KR20080050900A - 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를이용한 오디오 신호의 부호화/복호화 방법 및 장치

Info

Publication number: KR20080050900A
Application number: KR1020060121790A
Authority: KR
Inventors: 손창용; 오은미; 성호상; 주기현; 김중회; 이강은
Original assignee: 삼성전자주식회사
Priority date: 2006-12-04
Filing date: 2006-12-04
Publication date: 2008-06-10
Also published as: US8612215B2; US20080133223A1; WO2008069468A1; KR100868763B1

Abstract

본 발명은 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와, 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치를 개시한다. 본 발명의 오디오 신호의 중요 주파수 성분 추출 방법은 주파수 영역의 오디오 신호에서 하모닉 특성을 갖는 주파수 영역을 선택하고, 선택된 하모닉 특성을 갖는 주파수 영역으로부터 하모닉 특성을 갖는 중요 주파수 성분을 추출하는 단계를 포함한다. 본 발명은 중요 주파수 성분을 표현하는데 사용되는 비트를 절감시키기 때문에 낮은 비트율에서 효율적인 데이터 압축을 가능하게 하고, 음성 신호가 갖는 하모닉 구조를 잘 유지시키기 때문에 지각적으로 향상된 고음질의 오디오 신호를 복원할 수 있는 효과가 있다.

Description

오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치{Method and apparatus for extracting Important Spectral Component of audio signal, and method and appartus for encoding/decoding audio signal using it}

도 1은 본 발명이 일 실시예에 따른 오디오 신호의 중요 주파수 성분 추출 장치를 나타내는 블록도이다.

도 2는 본 발명의 일 실시예에 따른 오디오 신호의 부호화 장치를 나타내는 블록도이다.

도 3은 도2의 하모닉 모델 기반 ISC 추출부를 나타내는 세부 블록도이다.

도 4는 도2의 심리 음향 모델 기반의 ISC 추출부를 나타내는 세부 블록도 이다.

도 5는 본 발명의 또 다른 일 실시예에 따른 오디오 신호의 부호화 장치를 나타낸 블록도이다.

도 6은 본 발명의 일 실시예에 따른 오디오 신호의 중요 주파수 성분 추출 방법을 나타내는 흐름도이다.

도 7은 본 발명의 또 다른 실시예에 따른 오디오 신호의 중요 주파수 성분 추출 방법을 나타내는 흐름도이다.

도 8은 하모닉 모델 기반으로 ISC 정보를 추출하는 방법을 나타내는 흐름도 이다.

도 9은 본 발명의 일 실시예에 따른 오디오 신호의 부호화 방법을 나타내는 흐름도이다.

도 10은 본 발명의 일 실시예에 따른 오디오 신호의 복호화 장치를 나타내는 블록도이다.

도 11은 본 발명의 또 다른 일 실시예에 따른 오디오 신호의 복호화 장치를 나타내는 블록도이다.

본 발명은 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치에 관한 것으로서, 특히 낮은 비트율에서 효율적으로 데이터를 압축하여 고음질의 오디오 신호를 제공하는 저비트율의 부호화/복호화 방법 및 장치에 관한 것이다. 본 발명의 부호화/복호화 방법은 오디오 신호를 고압축률과 고음질로 압축/복원하는 핸드폰, 컴퓨터, 휴대용 전자기기, 가전 영상 기기 등의 음향 정보 기기에 사용될 수 있다.

MPEG 오디오는 고품질, 고능률 스테레오 부호화를 위한 ISO/IEC의 표준방식이다. 오디오 신호의 압축에는 32밴드에 기초한 서브 밴드 코딩(대역 분할 부호화)과 MDCT(Modified Discrete Cosine Transform: 변형이산여현변환)를 사용하는데, 청각 심리적(Psychoacoustic) 특성을 이용해서 고능률의 압축이 실현되고 있다. 이 기술에 의해 MPEG 오디오는 종래의 압축 부호화 방식에 비해 뛰어난 음질을 실현하게 되었다.

MPEG 오디오는 오디오 신호를 고능률로 압축하기 위해 신호를 받아들이는 인간의 감각 특성을 이용해서 감도가 낮은 세부의 정보를 생략하여 부호량을 절감하는 "지각부호화(Perceptual Coding)" 압축방법을 이용한다. 또한, MPEG 오디오에서 청각 심리 특성을 이용한 지각 부호화는 주로 고요할 때의 최소가청한계와 마스킹 특성을 이용한 것이다. 고요할 때의 최소가청한계란 청각이 감지할 수 있는 음의 최소 레벨로서, 고요할 때 청각이 감지할 수 있는 잡음의 한계와 관계가 있고, 최소가청한계는 음의 주파수에 따라 다르다. 어떤 주파수에서 최소가청한계보다 큰 음은 들을 수 있지만, 최소가청한계보다 작은 음은 들을 수 없다. 또한, 특정음의 감지 한계는 함께 들리는 다른 음에 의해 크게 변하는데, 이를 마스킹 효과라고 한다. 그리고, 마스킹 효과가 일어나는 주파수 폭을 임계 대역(Critical Band)이라고 부른다. 이와 같은 임계 대역 등의 청각 심리를 효율적으로 이용하기 위해서는 우선 신호를 주파수 성분으로 나누는 것이 중요한데 이 때문에 대역을 32개의 밴드로 세분하여 서브밴드 부호화를 행한다. 또한, 이때 MPEG 오디오에서는 32밴드의 엘리어싱 잡음을 소거시키기 위해 필터 뱅크를 사용한다.

MPEG 오디오는 이와 같이 필터 뱅크와 심리음향모델을 이용한 비트 할당과 양자화로 구성되어 있다. MDCT의 결과로 생성된 계수를 심리음향모델2를 이용하여, 최적의 양자화 비트를 할당하면서 압축을 하게 된다. 최적의 비트를 할당하기 위한 심리음향모델2는 FFT를 기초로 하고, 스프레딩 함수를 이용하여 마스킹 효과를 계산하기 때문에 상당히 많은 양의 복잡도가 요구된다.

일반적으로 오디오 신호를 저비트율(32 kbps 이하)로 압축하는 데 있어서 상기 오디오 신호의 모든 주파수 성분을 양자화하고 부호화하기에는 신호별 할당 가능한 비트수가 부족하다. 따라서 지각적으로 중요한 주파수 성분을 효율적으로 추출하여 부호화할 필요가 있다.

오디오 신호로부터 지각적으로 중요한 주파수 성분을 추출하고 추출된 성분을 압축 부호화하는 종래의 방법으로는, 심리음향적 측면을 고려하여 중요 주파수 성분과 노이즈 성분을 분리하고 분리된 성분을 부호화하는 방식, 오디오 신호의 주파수 영역에 따른 출력 에너지를 고려하여 주파수 성분을 감소시키는 처리를 하고 감소된 주파수 성분에 대하여 심리음향모델을 적용하여 부호화하는 방식 등이 있었다.

그러나, 기존의 부호화 방식에 의할 경우, 중요 주파수 성분을 특정하기 위해 비교적 많은 비트를 할당하는 것이 필요하고, 또한 음성 신호에 있어서 중요한 밸리(valley) 부분은 SMR이나 에너지가 낮아서 중요 주파수 성분으로 선택되지 않음에 따라 지각적으로 우수한 오디오 신호를 제공하는데 일정한 한계가 있었다.

본 발명이 이루고자 하는 기술적 과제는 하모닉 모델 기반으로 오디오 신호의 중요 주파수 성분을 추출하는 방법 및 장치를 제공하는 것이다. 또한, 본 발명은 하모닉 모델 기반의 중요 주파수 성분을 표현하는데 사용되는 비트를 절감하고, 낮은 비트율에서 효율적으로 데이터를 압축하며, 지각적으로 향상된 고음질의 오디오 신호를 복원할 수 있는 오디오 신호의 부호화/복호화 방법을 제공하는 것을 목적으로 한다.

상술한 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 중요 주파수 성분 추출 방법은 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 단계; 상기 주파수 영역으로 변환된 오디오 신호에서 하모닉 특성을 갖는 주파수 영역을 선택하는 단계; 및 상기 선택된 하모닉 특성을 갖는 주파수 영역으로부터 하모닉 특성을 갖는 중요 주파수 성분을 추출하는 단계를 포함하는 것을 특징으로 한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 중요 주파수 성분 추출 방법은 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환하는 단계; 상기 주파수 영역의 오디오 신호를 미리 설정된 기준에 따라 서브 밴드 단위로 분할하고, 상기 분할된 서브 밴드 별로 하모닉 특성을 갖는지 여부를 판단하는 단계; 및 상기 하모닉 특성 판단부의 판단 결과 하모닉 특성을 갖는 것으로 판단된 주파수 영역의 오디오 신호에 대하여 하모닉 모델 기반으로 중요 주파수 성분을 추출하거나, 상기 하모닉 특성의 판단 결과 하모닉 특성을 갖지 않는 것으로 판단된 주파수 영역의 오디오 신호에 대하여 심리 음향 모델 기반으로 중요 주파수 성분을 추출하는 단계를 포함한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 중요 주파수 추출 장치는 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환부; 상기 주파수 영역으로 변환된 오디오 신호에서 하모닉 특성을 갖는 주파수 영역을 선택하는 하모닉 영역 선택부; 및 상기 하모닉 특성을 갖는 주파수 영역으로부터 하모닉 특성을 갖는 중요 주파수 성분을 추출하는 추출부를 포함하여 구비된다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 중요 주파수 성분 추출 장치는 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환부; 상기 주파수 영역의 오디오 신호가 미리 설정된 주파수 영역 별로 하모닉 특성을 갖는지 여부를 판단하는 하모닉 특성 판단부; 상기 하모닉 특성 판단부의 판단 결과 하모닉 특성을 갖는 것으로 판단된 주파수 영역의 오디오 신호에 대하여 하모닉 모델 기반으로 중요 주파수 성분을 추출하는 제1 추출부; 및 상기 하모닉 특성의 판단 결과 하모닉 특성을 갖지 않는 것으로 판단된 주파수 영역의 오디오 신호에 대하여 심리 음향 모델 기반으로 중요 주파수 성분을 추출하는 제2 추출부를 포함하여 구비된다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 부호화 방법은 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 단계; 상기 주파수 영역으로 변환된 오디오 신호에서 하모닉 특성을 갖는 주파수 영역을 선택하는 단계; 상기 선택된 하모닉 특성을 갖는 주파수 영역으로부터 하모닉 특성을 갖는 중요 주파수 성분을 추출하는 단계; 상기 중요 주파수 성분으로부터 하모닉 파라미터를 추출하는 단계; 및 상기 추출된 하모닉 파라미터를 이용하여 오 디오 신호를 부호화하는 단계를 포함한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 부호화 방법은 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 단계; 상기 주파수 영역으로 변환된 오디오 신호를 서브 밴드 단위로 분할하는 단계; 상기 분할된 서브 밴드가 하모닉 특성을 갖는지 여부를 판단하고, 상기 판단 결과에 따라 서브 밴드에 따른 중요 주파수 성분의 추출 모드를 결정하는 단계; 상기 결정된 중요 주파수 성분의 추출 모드에 따라 하모닉 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하거나, 심리 음향 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하는 단계; 및 상기 추출된 중요 주파수 성분에 대한 정보를 부호화하는 단계를 포함한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 부호화 장치는 시간 영역에서의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환부; 주파수 영역에서 오디오 신호에서 하모닉 특성을 갖는 주파수 영역을 선택하는 하모닉 영역 선택부; 상기 하모닉 특성을 갖는 주파수 영역으로부터 하모닉 특성을 갖는 중요 주파수 성분을 추출하는 추출부; 상기 추출된 중요 주파수 성분으로부터 하모닉 파라미터를 추출하는 하모닉 파라미터 추출부; 및 상기 추출된 하모닉 파라미터를 이용하여 오디오 신호를 부호화하는 부호화부를 포함하여 구비된다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 부호화 장치는 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환부; 상기 주파수 영역으로 변환된 오디오 신호를 서브 밴드 단위로 분할하는 분할부; 상기 분할된 서브 밴드 별로 하모닉 특성을 갖는지 여부를 판단하고 상기 판단 결과에 따라 각각의 서브 밴드에 따른 중요 주파수 성분의 추출 모드를 결정하는 중요 주파수 성분의 추출 모드 결정부; 상기 결정된 중요 주파수 성분의 추출 모드에 따라 하모닉 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하거나, 심리 음향 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하는 중요 주파수 성분 추출부; 및 상기 추출된 중요 주파수 성분에 대한 정보를 부호화하는 부호화부를 포함하여 구비된다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 부호화 장치는 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환부; 상기 주파수 영역의 오디오 신호가 미리 설정된 주파수 영역 별로 하모닉 특성을 갖는지 여부를 판단하는 하모닉 특성 판단부; 상기 하모닉 특성 판단부의 판단 결과 하모닉 특성을 갖는 것으로 판단된 주파수 영역의 오디오 신호에 대하여 하모닉 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하는 제1 추출부; 상기 하모닉 특성의 판단 결과 하모닉 특성을 갖지 않는 것으로 판단된 주파수 영역의 오디오 신호에 대하여 심리 음향 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하는 제2 추출부; 및 상기 제1 추출부 또는 제2 추출부로부터 추출된 정보를 부호화시키는 부호화부를 포함하여 구비된다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 복호화 방법은 부호화된 비트스트림으로부터 하모닉 피크의 주기 정보, 양자화 스텝 크 기 정보 및 오디오 신호의 양자화값을 포함하는 정보를 복원하는 단계; 상기 복원된 정보 들을 이용하여 오디오 신호의 양자화값을 역양자화시키는 단계; 및 상기 역양자화된 값을 시간 영역의 신호로 변환하는 단계를 포함한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 복호화 방법은 부호화된 비트스트림으로부터 ISC(중요 주파수 성분) 추출 모드 정보, 양자화 스텝 크기 정보 및 오디오 신호의 양자화값을 포함하는 정보와, 하모닉 피크의 주기 정보 또는 ISC의 존재 여부를 나타내는 인덱스 정보를 복원하는 단계; 상기 ISC 추출 모드 정보에 따라 상기 복원된 정보 들을 이용하여 오디오 신호의 양자화값을 역양자화시키는 단계; 및 상기 역양자화된 값을 시간 영역의 신호로 변환하는 단계를 포함한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 복호화 장치는 부호화된 비트스트림으로부터 하모닉 피크의 주기 정보, 양자화 스텝 크기 정보 및 오디오 신호의 양자화값을 포함하는 정보를 복원하는 복호화부; 상기 복원된 정보 들을 이용하여 오디오 신호의 양자화값을 역양자화시키는 역양자화부; 및 상기 역양자화된 값을 시간 영역의 신호로 변환하는 F/T 변환부를 포함하여 구비된다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 복호화 장치는 부호화된 비트스트림으로부터 ISC(중요 주파수 성분) 추출 모드 정보를 복원하는 제1 복호화부; 상기 부호화된 비트스트림으로부터 하모닉 피크의 주기 정보 또는 ISC의 존재 여부를 나타내는 인덱스 정보를 복원하는 제2 복호화부; 상기 부호화된 비트스트림으로부터 양자화 스텝 크기 정보와 오디오 신호의 양자화값을 복원하는 제3 복호화부; 상기 제1 복호화부를 통해서 복원된 ISC 추출 모드 정보에 따라, 상기 제2 복호화부를 통해 복원된 하모닉 피크 정보와 상기 제3 복호화부를 통해 복원된 양자화 스텝 크기 정보를 이용하여 상기 오디오 신호의 양자화값을 역양자화시키는 제1 역양자화부; 상기 제1 복호화부를 통해서 복원된 ISC 추출 모드 정보에 따라, 상기 제2 복호화부를 통해 복원된 ISC의 존재 여부를 나타내는 인덱스 정보와 상기 제3 복호화부를 통해 복원된 양자화 스텝 크기 정보를 이용하여 상기 오디오 신호의 양자화값을 역양자화시키는 제2 역양자화부; 및 상기 역양자화된 값을 시간 영역의 신호로 변환하는 T/F변환부를 포함하여 구비된다.

또한, 본 발명은 상기 오디오 신호의 중요 주파수 성분 추출 방법, 부호화/복호화 방법이 컴퓨터 또는 네트워크 상에서 수행될 수 있는 컴퓨터에서 판독 가능한 저장 매체를 제공한다.

이하, 본 발명과 본 발명의 실시예에 대하여 첨부된 도면을 참고하여 상세하게 설명한다.

도1은 본 발명이 일 실시예에 따른 오디오 신호의 중요 주파수 성분 추출 장치를 나타내는 블록도이다. 도1에 따른 오디오 신호의 중요 주파수 성분 추출 장치는 T/F 변환부(110), 주파수 분할부(120), 하모닉 특성 판단부(130), 하모닉 모델 기반 ISC 추출부(140) 및 심리 음향 모델 기반 ISC 추출부(150)을 포함하여 구비된다.

T/F 변환부(110)는 시간 영역의 입력 오디오 신호를 주파수 영역의 오디오 신호로 변환한다. 입력 오디오 신호는 입력 시간에 따른 소정의 크기의 프레임으로 분할되며, 분할된 각각의 프레임은 T/F 변환부(110)에 의하여 주파수 영역의 신호로 변환된다.

본 실시예에서 T/F 변환부(110)는 시간 영역의 오디오 신호를 입력으로 하여 MDCT(Modified Discrete Cosine Transform)와 MDST(Modified Discrete Sine Transform)을 수행하여 주파수 영역의 오디오 신호로 변환한다

주파수 분할부(120)는 각각의 프레임에 따른 오디오 신호를 신호를 소정의 서브 밴드로 분할(decomposition)한다. 시간 영역에서의 하나의 프레임에 상응하는 주파수 영역에서의 신호를 주파수 밴드로 구분하고, 구분된 각각의 서브 밴드에 속하는 신호 성분에 대하여 적절한 중요 주파수 추출 모드를 할당하는 것은 부호화 효율 측면에서 매우 중요하다. 분할된 주파수 영역에 따라 하모닉 특성을 갖고 있는지 여부가 다르며, 하모닉 특성(harmonic feature)을 갖는 서브 밴드의 경우 종래의 심리 음향 모델 기반으로 중요 주파수 성분을 추출하는 것 보다는 하모닉 모델 기반으로 중요 주파수 성분을 추출할 필요가 있다. 왜냐하면, 하모닉 특성을 갖는 서브 밴드의 경우, 중요 주파수 성분을 특정하기 위한 파라미터 추출을 통해 더 적은 비트로 부호화할 수 있기 때문이다.

하모닉 특성 판단부(130)는 주파수 이동법을 이용하여 서브 밴드 단위로 하모닉 특성을 갖는지 여부를 판단한다. 하모닉 특성 판단부(130)는 피크 검출부(131), 자기 상관(autocorrelation) 계산부(132), 비교부(133)을 포함하여 구비된다.

하모닉 특성 판단부(130)는 상기 각각의 서브 밴드를 원점으로 주파수 영역상의 신호를 평행이동시키는 주파수 이동부(131), 역푸리에 변환을 통해 각 서브 밴드 별로 자기 상관값을 계산하고 정규화시키는 자기 상관값 계산부(132), 정규화된 자기 상관값을 소정의 기준 값과 비교하는 비교부(133)을 포함한다.

주파수 이동부(131)는 각각의 서브 밴드의 시작 주파수가 원점이 되도록 주파수를 쉬프트시킨다. 서브 밴드의 주기적인 하모닉 정도를 정확하게 계산하기 위하여는, 쉬프트된 주파수 성분은 하모닉의 피크(peak)가 원점에 위치하도록 조절하는 것이 바람직하다.

자기 상관값 계산부(132)는 주파수 이동된 스펙트럼에 대한 역푸리에 변환을 통해 상기 서브 밴드별 하모닉 주기에 대한 자기 상관도를 계산하고, 상기 자기 상관값을 0과 1사이의 값으로 정규화한다. 여기에서 자기 상관값이 클수록 유성화도(voicing level)가 큰 것이고, 작을수록 유성화도가 낮은 것이다.

비교부(133)는 상기 자기 상관값에 따라 각각의 서브 밴드가 하모닉 특성을 갖는지 여부를 판단한다. 하모닉 특성을 갖는지 여부는 자기 상관값의 임계값(threshold)과의 비교를 통해 판단할 수 있다. 정규화된 자기 상관값이 소정의 임계값 보다 클 경우에는 하모닉 특성을 갖는 밴드로 판단하고, 작을 경우에는 하모닉 특성을 갖지 않는 밴드로 판단한다. 이 경우 전자의 하모닉 특성 레벨을 1로 나타내고, 후자를 0으로 나타낼 수 있다. 상기 하모닉 특성 레벨에 대한 정보인 ISC 추출 모드 플래그는 비트스트림 생성부(290)에 전달된다.

하모닉 모델 기반 ISC 추출부(140)는 하모닉 특성을 갖는 오디오 신호로부터 중요 주파수 성분과 중요 주파수 성분으로부터 추출되는 하모닉 파라미터를 추출한다.

하모닉 모델 기반 ISC 추출부(140)가 추출하는 ISC 정보는 주파수 성분의 위치에 대한 정보의 부호화 즉 ISC에 대한 위치 코딩(location coding)을 위하여 추출되는 정보이다. 일반적으로 오디오 신호에 유성음이 포함되어 있을 경우 주파수 영역에서 피크 간격이 일정한 특성을 갖게 된다. 하모닉 피크의 주기 정보를 이용하면 중요 주파수 성분이 특정될 수 있다. 각각의 중요 주파수의 위치 또는 각각의 중요 주파수 값을 비트로 표현하는 기존의 심리 음향 모델과 달리, 하모닉 모델에 따른 중요 주파수 성분은 하모닉 피크의 주기 정보를 이용하여 효율적으로 특정될 수 있다.

또한, 하모닉 모델 기반 ISC 추출부(140)는 상기 계산된 하모닉 피크의 주기 정보와 함께 ISC의 폭 정보를 더욱 추출한다. 인간이 들을 수 있는 최소 가청한계 보다 큰 음성 신호는 하모닉 피크를 중심으로 그에 인접한 영역에 분포하여 있으며, 이를 고려하여 ISC 폭을 결정할 수 있다.

ISC 폭을 결정하는 방법에 특별한 제한이 있는 것은 아니지만, 예를 들어 서브 밴드에 따라 ISC 폭을 결정하고, 동일한 서브 밴드에 속하는 모든 하모닉 피크 공통된 간격으로 중요 주파수 성분을 선택하는 방법이 있다. 구체적인 ISC 폭을 결정하는 방법에 대하여는 후술한다.

심리 음향 모델 기반 ISC 추출부(150)는 주파수 영역으로 변환된 오디오 신호에 대하여 심리 음향적 특성을 고려하여 SMR(Signal to Mask Ratio)를 계산하고, 상기 계산된 SMR을 이용하여 중요 주파수 성분을 추출한다. 구체적인 중요 주파수 성분 추출 방법에 대하여는 후술 한다.

심리 음향 모델에 의하여 중요 주파수 성분을 추출할 경우, 음성 신호의 경우 밸리(valley) 부분의 하모닉은 SMR 값이나 에너지가 작아서, 밸리 부분의 주파수 성분이 중요 주파수 성분으로 선택되지 않는 경우가 있다. 그러나, 본 실시예와 같이 하모닉 특성을 판단하고, 하모닉 특성을 갖는 서브 밴드에 대하여 하모닉 피크 주기와 중요 주파수 성분의 폭 정보를 추출한다면 이러한 밸리 부분에 대한 코딩이 가능하며, 지각적으로 우수한 신호의 복원이 가능하다.

도 2에 따른 오디오 신호의 부호화 장치는 T/F 변환부(210), 주파수 분할부(220), 하모닉 특성 판단부(230), 하모닉 모델 기반의 ISC 추출부(제1 추출부), 심리 음향 모델 기반의 ISC 추출부(제2 추출부), 하모닉 파라미터 부호화부(260), 무손실 부호화부(270), ISC 크기 양자화부(280) 및 비트스트림 생성부(290)를 포함하여 구비된다. 본 실시예에 따른 오디오 신호의 부호화 장치는 도1의 중요 주파수 성분 추출 장치를 포함하고 있으므로 이하 공통된 설명은 생략한다.

도 3은 도 2의 하모닉 모델 기반 ISC 추출부(240)를 나타내는 세부 블록도이다. 하모닉 모델 기반 ISC 추출부(제1 추출부)는 하모닉 피크 성분 추출부(241), 하모닉 파라미터 추출부(242), ISC 크기 추출부(243)를 포함하여 구비된다.

하모닉 피크 성분 추출부(241)는 하모닉 특성을 갖는 것으로 판단된 서브 밴 드에 존재하는 하모닉 피크 성분을 추출한다. 하모닉 피크 성분은 피크 주파수 및/또는 피크 주파수에 따른 오디오 신호의 크기에 대한 정보를 포함한다.

하모닉 파라미터 추출부(242)는 하모닉 피크 주기 계산부(242a)와 ISC 폭 정보 결정부(242b)를 포함하여 구비된다. 하모닉 피크 주기 계산부(242a)는 하모닉 피크 성분 추출부(241)를 통해 추출된 하모닉 피크 주파수 정보를 이용하여 하모닉 피크의 주기 즉 하모닉 피크와 피크간의 거리(pitch)값을 계산한다.

ISC 폭 정보 결정부(242b)는 하모닉 피크 주기 추출부(242a)를 통해 계산된 하모닉 피크 주파수의 주기에 대한 정보를 이용하여 중요 주파수 성분(ISC)의 폭 정보를 결정한다. ISC 폭 정보 결정부(242b)가 중요 주파수 성분의 폭을 결정하는 방법에 대한 제한은 없으며, 예를 들어 서브 밴드 내에 하모닉 피크 성분의 개수와 중요 주파수 성분의 폭이 서로 반비례 관계에 있도록 중요 주파수 성분의 폭을 결정할 수 있다.

ISC 크기 추출부(243)는 하모닉 피크 주파수와 ISC 폭에 따라 특정된 중요 주파수 각각의 크기 정보를 추출한다. ISC 크기 추출부(243)로부터 추출된 ISC 크기 정보는 ISC 크기 양자화부(280)를 통해 미리 설정된 양자화 스탭 크기에 따라 양자화된다.

도4는 도2의 심리 음향 모델 기반의 ISC 추출부(250)를 나타내는 세부 블록도이다. 본 실시예에 따른 ISC 추출부(250)는 SMR계산부(251), 제1 ISC 추출부(252), 제2 ISC 추출부(253), 제3 ISC 추출부(254)를 포함하여 구비된다.

SMR 계산부(251)는 주파수 영역으로 변환된 오디오 신호에 대해 심리 음향적 모델을 고려하여 SMR 값을 계산한다. 제1 ISC 선택부(252)는 상기 계산된 SMR 값을 이용하여 주파수 영역의 오디오 신호 중 마스킹 역치 보다 큰 주파수 성분을 선택한다. 제2 ISC 선택부(253) 상기 선택된 주파수 성분 중 소정의 가중치를 고려하여 피크 주파수를 추출하고, 추출된 피크 주파수를 중요 주파수 성분으로 선택한다. 가중치는 하기 수학식1에 의하여 구할 수 있다.

수학식1

여기에서, |SC_k| 는 가중치를 구하고자 하는 현재 신호의 크기이고,|SC_i| 와 |SC_j| 는 현재 신호 주위에 있는 신호의 크기를 나타내며, len은 현재 신호와 주위에 있는 신호의 개수를 나타낸다.

제3 ISC 추출부(254)는 SNR 등화(equalization)를 수행한다. 제3 ISC 추출부(254)는 주파수 대역별로 SNR(Signal to Noise Ratio)을 구하고, SNR이 낮은 주파수 대역 중에서 소정 크기 이상의 피크를 갖는 주파수 성분을 중요 주파수 성분으로 선택한다. SNR 등화를 하는 이유는 특정 주파수 대역에 중요 주파수 성분이 집중되어 선택되는 것을 방지하기 위한 것이다.

본 실시예에서는 ISC 추출부(250)가 제1 ISC 추출부(251) 내지 제3 ISC 추출부(253)를 모두 포함하는 것으로 설명하였지만, 상기 ISC 추출부 중에서 필요에 따라 1개 또는 2개의 추출부만을 포함하여 ISC 추출부를 구성하는 것도 가능하다.

하모닉 파라미터 부호화부(260)는 하모닉 모델 기반으로 추출되며 양자화부(미도시)를 통해 양자화된 하모닉 파라미터를 부호화한다. 여기서 하모닉 파라미터는 피크 주파수 주기 정보, 중요 주파수 성분(ISC)의 폭 정보를 포함한다. 하모닉 파라미터 부호화부(260)는 양자화부를 통해 양자화된 하모닉 파라미터 정보를 부호화한다.

무손실 부호화부(270)는 심리 음향 모델 기반으로 추출되며 양자화부(미도시)를 통해 양자화된 ISC 정보를 무손실 부호화한다. 양자화부는 비트사용량과 양자화 에러 관계를 고려하여 부가 정보를 최소화할 수 있도록 그루핑을 하고, 그룹화된 신호 분포와 SMR값을 고려하여 양자화 스텝 크기를 결정한 후, 결정된 양자화 스텝 크기에 따라 그룹화된 신호를 양자화한다. 무손실 부호화부(270)는 컨텍스트 산술 부호화(context arithmetic coding)를 통해 양자화된 신호를 부호화한다. 무소실 부호화부(270)는 중요 주파수 성분으로 채택된 주파수 성분과 채택되지 않은 주파수를 0과 1로 부호화할 수 있다.

ISC 크기 양자화부(280)는 하모닉 모델 기반 ISC 추출부(240) 또는 심리음향 모델 기반 ISC 추출부(250)에 의해 추출된 중요 주파수 성분 각각에 따른 오디오 신호의 크기(magnitude)를 양자화한다.

비트스트림 생성부(290)는 하모닉 파라미터 부호화부(260), 무손실 부호화부(270) 및 ISC 크기 양자화부(280)의 출력 정보와 ISC 추출 모드 플래그(flag)를 포함하는 정보를 입력으로 하여 비트스트림을 출력한다.

하모닉 모델 기반으로 중요 주파수 성분을 선택할 경우와 심리 음향 모델 기 반으로 ISC를 선택하는 경우를 비교할 때, 전자의 경우 프레임당 사용되는 로케이션 코딩 비트를 후자의 1/10 정도의 수준으로 줄일 수 있다. 즉, 하모닉 특성을 이용하여 중요 주파수 성분을 추출할 경우 동일한 비트율에서 더 많은 중요 주파수 성분을 선택할 수 있는 장점이 있다. 또한, 음성 신호가 갖는 하모닉 구조를 잘 유지시켜줌으로써 향상된 음질을 얻을 수 있다.

도5는 본 발명의 또 다른 일 실시예에 따른 오디오 신호의 부호화 장치를 나타낸 블록도이다.

본 실시예에 따른 오디오 신호의 부호화 장치는 T/F변환부(310), 주파수 분할부(320), 하모닉 특성 판단부(330), 심리음향 모델 기반의 ISC 추출부(340), 하모닉 모델 기반의 ISC 추출부(350), 무손실 부호화부(370), 하모닉 파라미터 부호화부(360), ISC 크기 양자화부(380) 및 비트스트림 생성부(390)를 포함하여 구비된다. 본 실시예에 따른 오디오 신호의 부호화 장치는 도1의 중요 주파수 성분 추출 장치를 포함하고 있으므로 이하 공통된 설명은 생략한다.

하모닉 특성 판단부(330)는 서브 밴드 단위로 하모닉 특성을 갖는지 여부를 판단하고, 어떤 부호화 경로를 통하여 오디오 신호를 부호화할 것인지를 결정한다.

심리 음향 모델 기반 ISC 추출부(340)는 하모닉 특성 판단부(330)를 통해 수신되는 오디오 신호에 따른 ISC 추출 모드에 관계 없이 심리 음향 모델 기반으로 중요 주파수 성분을 추출한다.

본 실시예의 부호화 장치에서 하모닉 특성이 없는 것으로 판단된 서브 밴드에 속하는 오디오 신호는 심리 음향 모델 기반으로 ISC 정보를 추출하며, 추출된 ISC 정보는 무손실 부호화부(360)을 통해 부호화된다.

하모닉 모델 기반 ISC 추출부(350)는 심리 음향 모델을 통해 이미 추출된 ISC 정보를 이용하여 하모닉 모델 파라미터를 추출한다. 하모닉 모델 파라미터의 구체적인 추출 방법에 대하여는 후술한다.

1100단계에서 T/F 변환부(110)는 입력 오디오 신호를 프레임 별로 구분하고, 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환한다. 본 실시예에서 T/F 변환부(110)는 시간 영역의 오디오 신호에 대한 MDCT와 MDST를 수행하여 주파수 영역의 오디오 신호로 변환시킨다.

1200단계에서 주파수 분할부(120)는 주파수 영역의 오디오 신호를 서브 밴드 단위로 분할한다.

1300단계에서 하모닉 특성 판단부(130)는 서브 밴드 단위로 하모닉 특성을 갖는지 여부를 판단하는데, 1300단계는 1310 단계 내지 1330 단계를 포함한다.

1310단계에서 하모닉 특성 판단부(130)는 자기 상관도를 계산하고, 1320단계에서 자기 상관도를 정규화시킨 후, 1330단계에서 정규화된 자기 상관도 값을 소정의 임계값(α)과 비교한다.

1330단계의 비교 결과, 정규화된 자기 상관도 값이 소정의 임계값 보다 클 경우, 현재의 서브 밴드는 하모닉 특성을 갖는 서브 밴드이므로, 하모닉 모델을 기반으로 ISC 정보를 추출한다(1400단계).

여기서 하모닉 모델을 기반의 ISC 정보는 중요 주파수 성분 자체에 대한 정보 뿐만 아니라, 중요 주파수 성분으로부터 추출된 하모닉 파라미터를 포함한다. 상기 하모닉 파라미터(harmonic parameter)는 중요 주파수의 위치에 대한 로케이션에 대한 정보를 의미한다. 로케이션 정보(location information)는 중요 주파수의 위치 정보를 부호화하는데 사용된다. 부호화의 효율성은 중요 주파수 성분에 대한 로케이션 정보를 어떻게 결정하느냐에 달려있다.

본 실시예에서 대표적인 로케이션 정보로는 하모닉 피크의 주기 즉 하모닉 피크 주기에 대한 정보가 있다. 특히, 유성음의 경우 특정한 서브 밴드 내에서는 하모닉 피크간의 거리 값이 일정하게 유지되기 때문에, 상기 하모닉 피크 주기는 하모닉 특성을 갖는 서브 밴드를 적은 비트로 부호화하는데 유용하게 사용될 수 있다.

예를 들어, 서브 밴드별 하모닉 피크 주기를 부호화하는 경우, 저대역에 속하는 서브 밴드의 하모닉 주파수 주기는 5~6 비트로 표현을 하고, 이후의 서브 밴드는 차분 코딩(difference coding)을 이용하여 그 보다 적은 비트로 코딩할 수 있다.

본 실시예에서 하모닉 파라미터 정보는 하모닉 피크 주기와 함께 중요 주파수 성분의 폭 정보를 더 포함할 수 있다. 중요 주파수 성분은 하모닉 피크 및 그와 인접해 있는 주파수 성분을 포함하며, ISC 폭을 효율적으로 선택 또는 결정하는 것은 복원되는 오디오 신호의 음질 향상의 측면에서 중요하다.

예를 들어, 서브 밴드에 따라 ISC 폭을 결정하고 동일한 서브 밴드에 속하는 모든 하모닉 피크 공통된 간격을 갖도록하는 방법이 있다. 이 경우 각각의 하모닉 피크를 중심으로 정해진 ISC 폭에 따라 좌우 대칭적으로 중요 주파수 성분을 선택하는 것 보다 좌측(낮은 주파수 대역)에 상대적으로 많은 중요 주파수 성분을 선택하는 것이 바람직하다. 왜냐하면, 프리 마스킹(pre-masking) 보다 포스트 마스킹(post-masking) 커브가 완만하여 하모닉 피크 이후에 주파수 성분이 더 많이 마스킹되기 때문이다.

ISC 폭을 결정하는 또 다른 방법으로는 서브 밴드에 따른 하모닉 피크 주기를 고려하여 하모닉 피크 주기가 크면 ISC 폭을 넓게하고, 하모닉 피크 주기가 작으면 ISC 폭을 좁게하는 방법이 있다. 즉, 상기 방법을 통해 하모닉 피크 주파수의 주기와 ISC 폭이 양의 상관관계를 갖도록 ISC 폭을 하모닉 피크 주기에 따라 적응적으로 결정할 수 있다.

또한, 하모닉 파라미터 정보에 ISC 폭에 대한 정보를 직접적으로 더 포함하여 부호화하는 방법이 있다. 예를 들어, 심리 음향 모델 기반으로 구해진 ISC 폭 정보 및 서브 밴드별 ISC 개수를 이용하여 서브 밴드 마다 최적의 ISC 폭을 결정하고, 결정된 ISC 폭 정보를 서브 밴드별로 부호화하는 방법이 있다.

또한, 마스킹 임계값(masking threshold)를 고려하여 하모닉 피크를 중심으로 중요 주파수 성분을 선택하고, 각 하모닉 피크에 따른 중요 주파수의 개수를 결정한 후, 결정된 중요 주파수의 개수를 ISC 폭 정보로서 부호화시키는 방법이 있다. 이 경우 하모닉 주파수 각각에 따른 ISC 폭 정보를 모두 부호화하는 것보다, ISC 폭의 차이에 대한 차분 코딩(difference coding)을 이용하면 저비트율 부호화 측면에서 바람직하다.

1330단계의 비교 결과, 정규화된 자기 상관도 값이 소정의 임계값 보다 작을 경우 해당 서브 밴드는 하모닉 특성을 갖지 않는 밴드이므로, 심리 음향 모델을 기반으로 ISC 정보를 추출한다(1500단계).

1500단계에서, SMR 계산부(251)는 주파수 영역으로 변환된 오디오 신호에 대해 심리 음향적 모델을 고려하여 SMR 값을 계산하고, 제1 ISC 선택부(252)는 상기 계산된 SMR 값을 이용하여 주파수 영역의 오디오 신호 중 마스킹 역치 보다 큰 주파수 성분을 선택한다. 제2 ISC 선택부(253) 상기 선택된 주파수 성분 중 소정의 가중치를 고려하여 피크 주파수를 추출하고, 추출된 피크 주파수를 중요 주파수 성분으로 선택한다. 제3 ISC 추출부(254)는 SNR 등화(equalization)를 수행한다. 제3 ISC 추출부(254)는 주파수 대역별로 SNR(Signal to Noise Ratio)을 구하고, SNR이 낮은 주파수 대역 중에서 소정 크기 이상의 피크를 갖는 주파수 성분을 중요 주파수 성분으로 선택한다.

2100단계에서 T/F 변환부(110)는 입력 오디오 신호를 프레임 별로 구분하고, 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환한다.

2210단계에서 스팩트럴 자기상관 계산부(미도시)는 주파수 영역의 오디오 신호에 대한 자기상관값을 하기 수학식2에 따라 계산한다. 여기서 스펙트럴 자기상관(spectral autocorrelation)은 프레임별 하모닉 특성의 세기를 반영하는 것으로, 스팩트럴 자기상관이 클수록 해당 프레임의 하모닉 특성은 강한 것이다.

수학식 2

Rs(τ) 는 하모닉 피크 주기 또는 하모닉 피치 주파수(ω_τ)에 따른 정규화된 스팩트럴 자기상관값을 나타내고, 여기서 τ는 시간 영역에서의 주기값이다.

는 입력 신호 s(n)의 크기 스팩트럼(magnitude spectrum) S(w)에 대한 제로-평균 스팩트럼(zero-mean spectrum)을 나타낸다.

2220단계에서 스팩트럴 자기상관 계산부는 스팩트럴 자기상관값을 0~1 사이의 값이 되도록 정규화시키고, 2230단계에서 정규화된 스팩트럴 자기상관값과 소정의 임계값(β)을 비교한다.

2230단계에서의 비교 결과, 정규화된 스팩트럴 자기상관 값이 소정의 임계값 보다 작은 경우, 심리 음향 모델 기반으로 ISC 정보를 추출한다(2300단계).

2230단계에서의 비교 결과, 정규화된 스팩트럴 자기상관값이 소정의 임계값 보다 큰 경우, 주파수 분할부는 현재 프레임에 따른 주파수 영역의 오디오 신호를 서브 밴드 단위로 분할 하고(2410단계), 자기 상관값 계산부 분할된 서브 밴드 단위로 하모닉 피크 주파수의 주기(T)의 자기 상관값을 계산한다(2420단계).

2430단계에서 자기 상관값 계산부(132)는 자기 상관값을 정규화시키고, 2440단계에서 정규화된 자기 상관값과 소정의 임계값(α)을 비교한다.

2440단계에서의 비교 결과, 정규화된 자기 상관값이 소정의 임계값 보다 작을 경우, 해당 서브 밴드는 하모닉 특성을 갖지 않는 밴드로서 심리 음향 모델 기반으로 ISC 정보가 추출된다(2300단계).

2440단계에서의 비교 결과, 정규화된 자기 상관값이 소정의 임계값 보다 큰 경우, 해당 서브 밴드는 하모닉 특성을 갖는 밴드이므로 하모닉 모델을 기반으로 ISC 정보를 추출한다(2500단계).

도8은 하모닉 모델 기반으로 ISC 정보를 추출하는 단계를 나타내는 세부 흐름도이다.

2510단계에서 하모닉 피크 성분 추출부(241)는 해당 서브 밴드에서 하모닉 피크의 주파수 성분을 추출하고, 2520단계에서 하모닉 피크 주기 계산부(242a)는 하모닉 피크 주기를 계산한다.

2530단계에서 ISC 폭 정보 결정부(242b)는 각각의 서브 밴드에 따른 ISC 폭 또는 각각의 하모닉 피크에 따른 중요 주파수의 폭을 결정한다. 2530단계에서 ISC 폭 정보 추출부(242b)는 앞서 설명한 바 있는 다양한 폭 정보 결정 방법에 따라 ISC 폭 정보를 추출한다.

도 9은 본 발명의 일 실시예에 따른 오디오 신호의 부호화 방법을 나타내는 흐름도이다. 도 9에 도시된 3100단계 내지 3320 단계는 도6에 도시된 1100단계 내지는 1320 단계에 대응되는 것이므로, 이하 공통된 설명은 생략한다.

3400단계에서 심리 음향 모델 기반의 ISC 추출부(250)는 심리 음향 모델 기반으로 ISC 정보를 추출한다.

3330단계에서의 비교 결과 정규화된 자기 상관값이 소정의 임계값 보다 작은 경우, 무손실 부호화부(270)는 이미 추출된 심리 음향 기반의 ISC 정보에 대한 무손실 부호화를 수행한다(3500단계).

3330단계에서의 비교 결과 정규화된 자기 상관값이 소정의 임계값 보다 큰 경우, 하모닉 파라미터 추출부(260)는 심리 음향 모델 기반으로 이미 추출된 ISC 정보로부터 하모닉 파라미터를 추출한다(3600단계).

심리 음향 모델을 기반으로 이미 추출된 중요 주파수 성분 정보를 이용하여 하모닉 파라미터를 추출하는 방법의 예로는, 각각의 하모닉 피크에 따른 최소 가청 한계 보다 큰 주파수 성분 중 소정의 주파수 성분을 개별적으로 선택하고, 각각의 하모닉 피크에 따른 ISC 폭 정보를 추출하는 방법이 있다.

또한, 심리 음향 모델 기반으로 이미 추출된 서브 밴드별 중요 주파수 성분의 개수를 이용하는 이용하여 ISC 폭을 결정하는 방법이 있다. 우선, 서브 밴드 내에 있는 하모닉 피크를 중요 주파수 성분으로 선택하고, 각각의 하모닉 피크의 좌측(낮은 주파수 대역)에 있는 주파수 성분을 중요 주파수 성분으로 선택한 다음, 각각의 하모닉 피크의 우측(높은 주파수 대역)에 있는 주파수 성분을 중요 주파수 성분으로 선택한 다음, 서브 밴드에 따른 ISC 개수만큼 중요 주파수 성분이 선택될 때까지 위 과정을 반복하는 패턴을 통해 중요 주파수 성분을 선택할 수 있다. 이를 통해 중요 주파수 성분에 대한 폭은 자동적으로 결정되는데, 상술한 방법은 심리 음향 모델에 의해 추출된 서브 밴드별 ISC 개수 정보를 ISC 폭 정보로서 활용하는 방법이다.

도 10은 본 발명의 일 실시예에 따른 오디오 신호의 복호화 장치를 나타내는 블록도이다. 본 실시예의 복호화 장치는 상기 오디오 신호의 부호화 장치를 통해 부호화된 저비트율의 오디오 신호를 복호화하는 장치로서, 비트스트림 수신부(4100), 복호화부(4200), 역양자화부(4300) 및 F/T변환부(4400)을 포함하여 구비된다.

비트스트림 수신부(4100)는 부호화된 비트스트림으로부터 ISC 정보를 수신한다. 여기서 ISC 정보는 하모닉 피크의 주기 정보, 양자화 스텝 크기 정보, 오디오 신호의 양자화값, 양자화기 정보에 대한 정보를 포함한다.

복호화부(4200)는 부호화된 비트스트림으로부터 상기 ISC 정보를 복원하고, 역양자화부(4300)는 상기 복원된 하모닉 피크 주기 정보, 양자화기 정보와 양자화 스텝 크기 정보를 이용하여 상기 양자화값을 역양자화한다.

F/T 변환부(4400)는 역양자화부(4300)를 통해 상기 역양자화된 값을 시간 영역의 신호로 변환시킨다.

본 실시예에 따른 오디오 신호의 복호화 장치는 비트스트림 수신부(5100), 제1 복호화부(5210), 제2 복호화부(5220), 제3 복호화부(5230), 제1 역양자화부 (5300), 제2 역양자화부(5400) 및 F/T 변환부(5500)을 포함하여 구비된다.

본 실시예의 복호화부(5200)는 하모닉 모델 기반으로 부호화된 오디오 신호와, 심리 음향 모델 기반으로 부호화된 오디오 신호를 구별하여 복호화하는 것으 로, 제1 복호화부, 제2 복호화부 및 제3 복호화부를 포함하여 구비된다.

제1 복호화부(5210)는 부호화된 비트스트림으로부터 ISC(중요 주파수 성분) 추출 모드 정보를 복원한다. 여기서 추출 모드 정보는 오디오 신호가 하모닉 모델 기반으로 부호화된 경우와, 심리 음향 모델 기반으로 부호화된 경우를 구별하기 위한 정보이다.

제2 복호화부(5220)는 부호화된 비트스트림으로부터 하모닉 피크의 주기 정보 또는 ISC의 존재 여부를 나타내는 인덱스 정보를 복원한다. 제2 복호화부를 통해 복원된 정보는 중요 주파수 성분의 로케이션 정보이다.

제3 복호화부(5230)는 부호화된 비트스트림으로부터 양자화 스텝 크기 정보, 양자화기 정보 및 오디오 신호의 양자화값을 복원한다.

제1 역양자화부(5300)는 제1 복호화부를 통해서 복원된 ISC 추출 모드 정보에 따라, 상기 제2 복호화부를 통해 복원된 하모닉 피크 정보, 제3 복호화부를 통해 복원된 양자화 스텝 크기 정보 및 양자화기 정보를 이용하여 상기 오디오 신호의 양자화값을 역양자화시킨다.

제2 역양자화부(5400)는 제1 복호화부를 통해서 복원된 ISC 추출 모드 정보에 따라, 제2 복호화부를 통해 복원된 ISC의 존재 여부를 나타내는 인덱스 정보, 제3 복호화부를 통해 복원된 양자화 스텝 크기 정보 및 양자화기 정보를 이용하여 상기 오디오 신호의 양자화값을 역양자화시킨다.

한편 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스 템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트 들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이제까지 본 발명에 대하여 바람직한 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로, 상기 개시된 실시예 들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다.

본 발명에 따르면, 하모닉 특성을 갖는 주파수 대역에 속하는 오디오 신호에 대하여 하모닉 모델 기반으로 중요 주파수 성분을 추출하여 부호화/복호화함으로써, 동일한 비트율에서 더 많은 중요 주파수 성분을 선택하는 것이 가능하고, 음성 신호가 갖는 하모닉 구조를 잘 유지시키기 때문에 지각적으로 향상된 고음질의 오디오 신호를 복원할 수 있는 효과가 있다.

Claims

(a) 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 단계;

(b) 상기 주파수 영역으로 변환된 오디오 신호에서 하모닉 특성을 갖는 주파수 영역을 선택하는 단계; 및

(c) 상기 선택된 하모닉 특성을 갖는 주파수 영역으로부터 중요 주파수 성분을 추출하는 단계를 포함하는 오디오 신호의 중요 주파수 성분 추출 방법.
제 1 항에 있어서, 상기 (a) 단계를 통해 주파수 영역으로 변환된 오디오 신호를 서브 밴드로 구분하는 단계를 더 포함하고,

상기 (b) 단계에서 상기 하모닉 특성을 갖는 주파수 영역을 선택하는 것은, 상기 서브 밴드 단위로 하모닉 특성에 대한 분석을 수행하여 서브 밴드 단위로 하모닉 특성을 갖는 주파수 영역을 선택하는 것을 특징으로 하는 오디오 신호의 중요 주파수 성분 추출 방법.
제 2 항에 있어서, 상기 중요 주파수 성분은 상기 서브 밴드에 따른 하모닉 피크 주기 성분을 포함하는 것을 특징으로 하는 오디오 신호의 중요 주파수 성분 추출 방법.
제 2 항에 있어서, 상기 하모닉 특성에 대한 분석을 수행하는 것은 상기 서브 밴드에 따른 피크 주기의 자기 상관도를 포함하는 하모닉 특성에 대한 분석을 수행하는 것임을 특징으로 하는 오디오 신호의 중요 주파수 성분 추출 방법.
제 1 항에 있어서,

상기 (a) 단계를 통해 주파수 영역으로 변환된 오디오 신호로부터 심리 음향 모델을 기반으로 중요 주파수 성분을 추출하는 단계를 더 포함하고,

상기 (c) 단계는 상기 심리 음향 모델을 기반으로 추출된 중요 주파수 성분을 이용하여 하모닉 특성을 갖는 중요 주파수 성분을 추출하는 것을 특징으로 하는 오디오 신호의 중요 주파수 성분 추출 방법.
제 1 항 내지 제 5 항 중 어느 한 항의 방법에 따른 오디오 신호의 중요 주파수 성분 추출 방법이 컴퓨터 또는 네트워크 상에서 수행될 수 있는 컴퓨터에서 판독 가능한 저장 매체.
시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환하는 단계;

상기 주파수 영역의 오디오 신호를 미리 설정된 기준에 따라 서브 밴드 단위로 분할하고, 상기 분할된 서브 밴드 별로 하모닉 특성을 갖는지 여부를 판단하는 단계; 및

상기 하모닉 특성 판단부의 판단 결과 하모닉 특성을 갖는 것으로 판단된 주파수 영역의 오디오 신호에 대하여 하모닉 모델 기반으로 중요 주파수 성분을 추출하고,

상기 하모닉 특성의 판단 결과 하모닉 특성을 갖지 않는 것으로 판단된 주파수 영역의 오디오 신호에 대하여 심리 음향 모델 기반으로 중요 주파수 성분을 추출하는 단계를 포함하는 오디오 신호의 중요 주파수 성분 추출 방법.
(a) 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환부;

(b) 상기 주파수 영역으로 변환된 오디오 신호에서 하모닉 특성을 갖는 주파수 영역을 선택하는 하모닉 영역 선택부; 및

(c) 상기 하모닉 특성을 갖는 주파수 영역으로부터 하모닉 특성을 갖는 중요 주파수 성분을 추출하는 추출부를 포함하는 오디오 신호의 중요 주파수 성분 추출 장치.
시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환부;

상기 주파수 영역의 오디오 신호가 미리 설정된 주파수 영역 별로 하모닉 특성을 갖는지 여부를 판단하는 하모닉 특성 판단부;

상기 하모닉 특성 판단부의 판단 결과 하모닉 특성을 갖는 것으로 판단된 주 파수 영역의 오디오 신호에 대하여 하모닉 모델 기반으로 중요 주파수 성분을 추출하는 제1 추출부; 및

상기 하모닉 특성의 판단 결과 하모닉 특성을 갖지 않는 것으로 판단된 주파수 영역의 오디오 신호에 대하여 심리 음향 모델 기반으로 중요 주파수 성분을 추출하는 제2 추출부를 포함하는 것을 특징으로 하는 오디오 신호의 중요 주파수 성분 추출 장치.
제 9 항에 있어서,

상기 제1 추출부는 하모닉 특성을 갖는 주파수 영역의 오디오 신호로부터 하모닉 피크 성분을 추출하는 하모닉 피크 성분 추출부와 상기 추출된 하모닉 피크 성분을 이용하여 하모닉 피크 주기를 계산하는 하모닉 피크 주기 계산부를 포함하는 것을 특징으로 하는 오디오 신호의 중요 주파수 성분 추출 장치.
제 9 항에 있어서,

상기 주파수 영역의 오디오 신호를 서브 밴드 단위로 분할하는 주파수 분할부를 더 포함하고,

상기 하모닉 특성 판단부는 상기 서브 밴드 단위로 하모닉 특성을 갖는지 여부를 판단하는 것을 특징으로 하는 오디오 신호의 중요 주파수 성분 추출 장치.
제 11 항에 있어서, 상기 하모닉 특성 판단부는

상기 오디오 신호의 피크 성분을 검출하는 피크 검출부;

상기 서브 밴드 별로 상기 검출된 피크 주파수의 주기에 대한 자기 상관을 계산하는 자기 상관 계산부; 및

상기 계산된 자기 상관 값과 소정의 기준 값을 비교하여 상기 서브 밴드 단위로 하모닉 특성을 갖는지 여부를 판단하는 비교부를 포함하여 구비되는 것을 특징으로 하는 오디오 신호의 중요 주파수 성분 추출 장치.
제 11 항에 있어서,

상기 제1 추출부는 상기 하모닉 특성을 갖는 것으로 판단된 주파수 영역으로부터 피크 주파수와 상기 피크 주파수에 인접한 주파수에 대한 성분을 중요 주파수 성분으로 추출하는 것을 특징으로 하는 오디오 신호의 중요 주파수 성분 추출 장치.
제 10 항에 있어서,

상기 제1 추출부는 상기 하모닉 모델 기반으로 추출된 중요 주파수 성분의 폭 정보를 추출하는 폭정보 추출부를 더욱 포함하여 구비되는 것을 특징으로 하는 오디오 신호의 중요 주파수 성분 추출 장치.
제 14 항에 있어서,

상기 하모닉 피크의 주기와 상기 중요 주파수 성분의 폭은 서로 음의 상관관 계를 갖는 것을 특징으로 하는 오디오 신호의 중요 주파수 성분 추출 장치.
(a) 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 단계;

(b) 상기 주파수 영역으로 변환된 오디오 신호에서 하모닉 특성을 갖는 주파수 영역을 선택하는 단계;

(c) 상기 선택된 하모닉 특성을 갖는 주파수 영역으로부터 하모닉 특성을 갖는 중요 주파수 성분을 추출하는 단계;

(d) 상기 중요 주파수 성분으로부터 하모닉 파라미터를 추출하는 단계; 및

(e) 상기 추출된 하모닉 파라미터를 이용하여 오디오 신호를 부호화하는 단계를 포함하는 오디오 신호의 부호화 방법.
제 16 항에 있어서,

상기 (d) 단계에서 상기 하모닉 파라미터는 상기 (b) 단계에서 선택된 중요 주파수 영역에 따른 하모닉 피크의 주기 정보를 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
제 16 항에 있어서, 상기 (a) 단계를 통해 변환된 주파수 영역의 오디오 신호를 서브 밴드로 구분하는 단계를 더 포함하고,

상기 (b) 단계에서 상기 하모닉 특성을 갖는 주파수 영역을 선택하는 것은 상기 서브 밴드 단위로 하모닉 특성을 갖는지 여부를 판단하고, 상기 하모닉 특성을 갖는 것으로 판단된 서브 밴드를 상기 하모닉 특성을 갖는 주파수 영역으로 선택하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
제 16 항에 있어서,

상기 (c) 단계에서 상기 중요 주파수 성분은 상기 하모닉 특성을 갖는 서브 밴드에 속하는 피크 주파수 성분과 그에 인접한 주파수 성분을 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
제 17 항에 있어서,

상기 서브 밴드 단위로 하모닉 특성을 갖는지 여부를 판단하는 것은 상기 서브 밴드 단위로 피크의 주기에 대한 자기 상관도를 이용하여 판단하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
제 16 항에 있어서,

상기 (a) 단계를 통해 주파수 영역의 오디오 신호를 서브 밴드로 구분하는 단계와, 상기 서브 밴드로 구분된 오디오 신호에 대하여 심리 음향 모델 기반의 중요 주파수 성분을 선택하는 단계를 더 포함하고,

상기 (c) 단계에서 하모닉 특성을 갖는 중요 주파수 성분을 추출하는 것은 상기 심리 음향 모델 기반으로 추출된 중요 주파수 성분을 이용하여 하모닉 특성을 갖는 중요 주파수 성분을 추출하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
제 17 항에 있어서,

상기 하모닉 파라미터는 상기 중요 주파수 성분의 폭 정보를 더 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
제 22 항에 있어서,

상기 하모닉 피크의 주기와 상기 중요 주파수 성분의 폭은 서로 음의 상관관계를 갖는 것을 특징으로 하는 오디오 신호의 부호화 방법.
제 16 항에 있어서,

상기 (e) 단계에서 오디오 신호를 부호화하는 것은 상기 (c) 단계에서 추출된 중요 주파수 성분의 크기 정보를 더욱 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
제 16 항 내지 제 24 항 중 어느 한 항의 방법에 따른 오디오 신호의 부호화 방법이 컴퓨터 또는 네트워크 상에서 수행될 수 있는 컴퓨터에서 판독 가능한 저장 매체.
(a) 시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 단계;

(b) 상기 주파수 영역으로 변환된 오디오 신호를 서브 밴드 단위로 분할하는 단계;

(c) 상기 분할된 서브 밴드가 하모닉 특성을 갖는지 여부를 판단하고, 상기 판단 결과에 따라 서브 밴드에 따른 중요 주파수 성분의 추출 모드를 결정하는 단계;

(d) 상기 결정된 중요 주파수 성분의 추출 모드에 따라 하모닉 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하거나, 심리 음향 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하는 단계; 및

(e) 상기 추출된 중요 주파수 성분에 대한 정보를 부호화하는 단계를 포함하는 오디오 신호의 부호화 방법.
제 26 항에 있어서,

상기 하모닉 모델 기반의 중요 주파수 성분 정보는 하모닉 피크를 이루는 하모닉 피크의 주기 정보를 포함하고, 상기 심리 음향 모델 기반의 중요 주파수 성분 정보는 오디오 신호의 크기가 마스킹 역치 보다 큰 주파수에 대한 주파수 성분 정보를 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
제 26 항에 있어서,

상기 중요 주파수 성분 정보는 상기 중요 주파수 성분의 추출 모드에 대한 정보와 상기 중요 주파수 성분에 대한 크기 정보를 더욱 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
시간 영역에서의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환부;

주파수 영역에서 오디오 신호에서 하모닉 특성을 갖는 주파수 영역을 선택하는 하모닉 영역 선택부;

상기 하모닉 특성을 갖는 주파수 영역으로부터 하모닉 특성을 갖는 중요 주파수 성분을 추출하는 추출부;

상기 추출된 중요 주파수 성분으로부터 하모닉 파라미터를 추출하는 하모닉 파라미터 추출부; 및

상기 추출된 하모닉 파라미터를 이용하여 오디오 신호를 부호화하는 부호화부를 포함하는 오디오 신호 부호화 장치.
시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환부;

상기 주파수 영역으로 변환된 오디오 신호를 서브 밴드 단위로 분할하는 분할부;

상기 분할된 서브 밴드 별로 하모닉 특성을 갖는지 여부를 판단하고 상기 판 단 결과에 따라 각각의 서브 밴드에 따른 중요 주파수 성분의 추출 모드를 결정하는 중요 주파수 성분의 추출 모드 결정부;

상기 결정된 중요 주파수 성분의 추출 모드에 따라 하모닉 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하거나, 심리 음향 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하는 중요 주파수 성분 추출부; 및

상기 추출된 중요 주파수 성분에 대한 정보를 부호화하는 부호화부를 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
시간 영역의 오디오 신호를 주파수 영역의 오디오 신호로 변환하는 신호 변환부;

상기 주파수 영역의 오디오 신호가 미리 설정된 주파수 영역 별로 하모닉 특성을 갖는지 여부를 판단하는 하모닉 특성 판단부;

상기 하모닉 특성 판단부의 판단 결과 하모닉 특성을 갖는 것으로 판단된 주파수 영역의 오디오 신호에 대하여 하모닉 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하는 제1 추출부;

상기 하모닉 특성의 판단 결과 하모닉 특성을 갖지 않는 것으로 판단된 주파수 영역의 오디오 신호에 대하여 심리 음향 모델 기반으로 중요 주파수 성분에 대한 정보를 추출하는 제2 추출부; 및

상기 제1 추출부 또는 제2 추출부로부터 추출된 정보를 부호화시키는 부호화부를 포함하는 것을 특징으로 하는 오디오 신호의 부호화 장치.
부호화된 비트스트림으로부터 하모닉 피크의 주기 정보, 양자화 스텝 크기 정보 및 오디오 신호의 양자화값을 포함하는 정보를 복원하는 단계;

상기 복원된 정보 들을 이용하여 오디오 신호의 양자화값을 역양자화시키는 단계; 및

상기 역양자화된 값을 시간 영역의 신호로 변환하는 단계를 포함하는 오디오 신호의 복호화 방법.
부호화된 비트스트림으로부터 ISC(중요 주파수 성분) 추출 모드 정보, 양자화 스텝 크기 정보 및 오디오 신호의 양자화값을 포함하는 정보와, 하모닉 피크의 주기 정보 또는 ISC의 존재 여부를 나타내는 인덱스 정보를 복원하는 단계;

상기 ISC 추출 모드 정보에 따라 상기 복원된 정보 들을 이용하여 오디오 신호의 양자화값을 역양자화시키는 단계; 및

상기 역양자화된 값을 시간 영역의 신호로 변환하는 단계를 포함하는 오디오 신호의 복호화 방법.
제 32 항 또는 제 33 항의 오디오 신호 복호화 방법을 컴퓨터 또는 네트워크 상에서 수행하기 위한 프로그램이 기록된 컴퓨터에서 판독가능한 기록 매체.
부호화된 비트스트림으로부터 하모닉 피크의 주기 정보, 양자화 스텝 크기 정보 및 오디오 신호의 양자화값을 포함하는 정보를 복원하는 복호화부;

상기 복원된 정보 들을 이용하여 오디오 신호의 양자화값을 역양자화시키는 역양자화부; 및

상기 역양자화된 값을 시간 영역의 신호로 변환하는 F/T 변환부를 포함하는 오디오 신호의 복호화 장치.
부호화된 비트스트림으로부터 ISC(중요 주파수 성분) 추출 모드 정보를 복원하는 제1 복호화부;

상기 부호화된 비트스트림으로부터 하모닉 피크의 주기 정보 또는 ISC의 존재 여부를 나타내는 인덱스 정보를 복원하는 제2 복호화부;

상기 부호화된 비트스트림으로부터 양자화 스텝 크기 정보와 오디오 신호의 양자화값을 복원하는 제3 복호화부;

상기 제1 복호화부를 통해서 복원된 ISC 추출 모드 정보에 따라, 상기 제2 복호화부를 통해 복원된 하모닉 피크 정보와 상기 제3 복호화부를 통해 복원된 양자화 스텝 크기 정보를 이용하여 상기 오디오 신호의 양자화값을 역양자화시키는 제1 역양자화부;

상기 제1 복호화부를 통해서 복원된 ISC 추출 모드 정보에 따라, 상기 제2 복호화부를 통해 복원된 ISC의 존재 여부를 나타내는 인덱스 정보와 상기 제3 복호화부를 통해 복원된 양자화 스텝 크기 정보를 이용하여 상기 오디오 신호의 양자화값을 역양자화시키는 제2 역양자화부; 및

상기 역양자화된 값을 시간 영역의 신호로 변환하는 T/F 변환부를 포함하는 것을 특징으로 하는 오디오 신호 복호화 장치.