WO2011087332A2

WO2011087332A2 - 오디오 신호 처리 방법 및 장치

Info

Publication number: WO2011087332A2
Application number: PCT/KR2011/000324
Authority: WO
Inventors: 정규혁; 김대환; 강인규; 김락용; 홍기봉; 박지강; 이인성; 임종하; 문상현; 이병석; 전혜정
Original assignee: 엘지전자 주식회사; 충북대학교 산학협력단
Priority date: 2010-01-15
Filing date: 2011-01-17
Publication date: 2011-07-21
Also published as: CN104252862B; WO2011087332A3; CN104252862A; US9305563B2; CN102870155B; KR101764633B1; EP3002752A1; EP2525357A4; EP2525357B1; EP2525357A2; US20160217801A1; CN102870155A; US20130060365A1; US9741352B2; KR20120121895A

Abstract

본 발명은, 오디오 신호에 대해서 주파수 변환을 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 단계; 상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 단계; 및, 상기 비-일반 모드가 선택된 경우, 다음 단계가 수행되는 단계; 상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 펄스들을 추출하고, 펄스 정보를 생성하는 단계; 상기 고주파 대역의 주파수 변환 계수들로부터 상기 펄스들을 제외한 원본 노이즈 신호를 생성하는 단계; 상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 및, 상기 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 단계를 포함하는 오디오 신호 처리 방법이 개시된다.

Description

[DESCRIPTION] [Invention Title! 오디오 신호 처리 방법 및 장치 [Technical Field]

본 발명은 오디오 신호를 인코딩하거나 디코딩할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것이다.

[Background Art]

일반적으로, 오디오 신호는 다양한 주파수의 신호가 포함되어 있고, 사람의 가청 주파수는, 20Hz-20kHz 인데 비해, 보통 사람의 음성은 약 200Hz- 3kHz 영역에 존재한다.

사람의 음성이 존재하기 어려운 7kHz 이상의 고주파 영역의 오디오 신호를 인코딩하는 데 있어서, 오디오의 특성에 따라서 복수 개의 코딩 모드 또는 코딩 방식들 중 하나를 적용할 수 있다.

[Disclosure] [Technical Problem]

오디오의 특성에 적합하지 않은 코딩 모드 또는 코딩 방식을 적용할 경우, 음질이 왜곡되는 문제점이 있다.

[Technical Solution]

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 예컨대 타악기의 소리와 같이 특정 주파수 대역이 강한 신호의 경우, 해당 대역의 필스를 별도로 인코딩하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.

본 발명의 또 다른 목적은, 예컨대 현악의 소리와 같이 하모닉 (고조파)이 강하게 존재하는 신호의 경우, 해당 하모닉 트랙을 별도로 인코딩하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.

본 발명의 또 다른 목적은, 펄스비율 및 /또는 하모닉비율을 기반으로, 오디오 신호의 특성에 적절한 코딩 모드를 적용하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.

[Advantageous Effects]

본 발명은 다음과 같은 효과와 이점을 제공한다.

첫째, 특정 주파수 대역이 강한 신호에 대해서, 해당 대역의 펄스만을 별도로 인코딩으로써, 저주파 대역만을 이용한 인코딩 모드 (일반 모드)보다 복원를이 높기 때문에, 음질이 현저히 향상될 수 있다.

둘째, 하모닉이 포함된 신호에 대해서는, 하모닉에 해당하는 필스들올 각각 인코딩하기 보다는， 하모닉 트랙 전체를 인코딩함으로써, 비트수의 거의 증가시키지 않고 복원율을 높일 수 있다.

셋째， 프레임마다 각 오디오 특성에 맞게 총 4 개의 모드에 해당하는 인코딩 및 디코딩 방식들 중 하나를 적응적으로 적용함으로써, 음질을 향상시킬 수 있다. 넷째, MDCT 를 적용할 경우, MDCT 의 특성을 고려하여 , 메인 필스 그에 인접 한 서브 펄스를 추출함으로써 , 특정 주파수 대역에 매핑되는 펄스를 정확하게 추출함으로써 , 비-일반모드 인코딩 방식의 성능을 보다 높일 수 있다. 다섯째, 하모닉 모드에서 복수의 하모닉 트랙에서 최 대 필스와 그의 인접 한 펄스만을 추출하여 별도로 양자화함으로써 , 비트수를 절감할 수 있다. 여섯째, 하모닉 모드에 있어서， 동일한 피치를 갖는 하나의 그룹에 속하는 하모닉 트랙에 대해서 , 정해진 위치 셋 중 하나로 시작 위치를 설정함으로써， 복수의 하모닉 트랙들의 각 시작 위치를 표시하는 데 있어서 , 비트수를 절감할 수 있다.

[Description of Drawings ]

도 1 은 본 발명 의 실시 예에 따른 오디오 신호 처리 장치 중 인코더의 구성도.

도 2 는 프레임간 유사성 (tonality) 판단의 예를 설명하기 위 한 도면.

도 3 은 일반모드 또는 비 -일반모드로 코딩하기에 적합한 신호의 예들. 도 4 는 일반모드 인코딩부 (140)의 세부 구성도.

도 5 는 일반모드로 인코딩 한 경우의 신택스의 일 여 1.

도 6 은 비-일반모드 인코딩부 (150)의 세부 구성도.

도 7 및 도 8 은 필스 추출 과정을 설명하기 위한 도면.

도 9 는 펄스 추출 이 전의 신호 (SWB 신호) 및 펄스 추출 이후 신호 (원본 노이즈 신호)의 일 예.

도 10 은 참조 노이즈 생성과정을 설명하기 위한 도면. 도 11 은 비 -일반모드로 인코딩 한 경우의 신택스의 일 예.

도 12 는 특정 오디오 신호에 대해 일반 모드 및 비 -일반모드로 인코딩된 결과를 보여주기 위한 도면.

도 13 은 하모닉비율 판단부 (160)의 세부 구성도.

도 14 는 하모닉비율이 높은 오디오 신호의 예.

도 15 는 넌 -하모닉모드 인코딩부 (170)의 세부 구성도.

도 16 은 넌-하모닉모드인 경우, 고정 펄스를 추출하는 규칙올 설명하기 위한 도면.

도 17 은 넌-하모닉모드로 인코딩 한 경우의 신택스의 일 여 1.

도 18 은 하모닉모드 인코딩부 (180)의 세부 구성도.

도 19 는 하모닉트랙의 추출을 설명하기 위 한 도면

도 20 은 하모닉트랙 위치정보의 양자화를 설명하기 위한 도면.

도 21 은 하모닉모드로 인코딩 한 경우의 신택스의 일 여 1.

도 22 은 특정 오디오 신호에 대해 넌-하모닉 모드 및 하모닉모드로 인코딩 된 결과를 보여주기 위 한 도면.

도 23 은 본 발명의 실시 예에 따른 오디오 신호 처리 장치 중 디코더의 구성도.

도 24 는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 구현된 제품의 개략적 인 구성도.

도 25 은 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도. [Best Mode]

상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 처 리 방법은, 오디오 신호에 대해서 주파수 변환을 수행함으로써 , 복수 개의 주파수 변환 계수들을 획득하는 단계; 상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서 , 펄스 비율을 근거로 일반 모드 및 비- 일반모드 중 하나를 선택하는 단계 ; 및, 상기 비 -일반 모드가 선택된 경우, 다음 단계가 수행되는 단계 ; 상기 고주파 대역의 주파수 변환 계수들로부터 미 리 결정된 개수의 펄스들을 추출하고， 펄스 정보를 생성하는 단계; 상기 고주파 대역의 주파수 변환 계수들로부터 상기 필스들을 제외 한 원본 노이즈 신호를 생성하는 단계 ; 상기 복수 개의 주파수 변환 계수들 중 저주파 대 역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 및， 상기 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여 , 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 단계를 포함한다.

본 발명에 따르면, 상기 펄스 비율은, 현재 프레임의 전체 에너지에 대한 복수의 펄스들에 대한 에너지의 비율일 수 있다.

본 발명에 따르면, 미 리 결정된 개수의 펄스들을 추출하는 단계는 가장 큰 에너지를 갖는 메 인 필스를 추출하는 단계; 상기 메인 필스에 인접 한 서브 펄스를 추출하는 단계; 및 상기 고주파 대역의 주파수 변환 계수에서 상 7l 메인 필스 및 상기 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 생성하는 단계; 상기 타깃 노이즈 신호에 대해서 상기 메인 필스 및 상기 서브 펄스를 추출하는 것을 미 리 정해진 횟수만큼 반복하는 단계를 포함할 수 있다.

본 발명에 따르면, 상기 펄스 정보는, 필스 위 치 정보， 펄스 부호 정보， 펄스 크기 정보, 필스 서브밴드 정보 중 하나 이상을 포함할 수 있다.

본 발명 에 따르면， 상기 참조 노이즈 신호를 생성하는 단계는, 저주파 대역의 전체 에너지를 근거로 임 계치를 설정하는 단계; 및 상기 임 계치 이상의 펄스를 제외시킴으로써 , 상기 참조 노이즈 신호를 생성하는 단계를 포함할 수 있다.

본 발명에 따르면， 상기 노이즈 에너지 정보를 생성하는 단계는, 상기 미 리 결정된 개수의 필스의 에너지를 생성하는 단계 ; 상기 원본 노이즈 신호의 에너지를 생성하는 단계; 상기 펄스의 에너지 및 상기 원본 노이즈 신호의 에너지를 이용하여 펄스 비율을 획득하는 단계; 및,

상기 펄스 비율을 노이즈 에너지 정보로서 생성하는 단계를 포함할 수 있다.

본 발명의 또 다른 측면에 따르면, 오디오 신호에 대해서 주파수 변환을 수행함으로써， 복수 개의 주파수 변환 계수들을 획득하는 주파수 변환부; 상기 복수 개의 주파수 변환 계수들 중 고주파 대 역의 주파수 변환 계수들에 대해서 , 펄스 비율을 근거로 일반 모드 및 비 -일반모드 중 하나를 선택하는 펄스비율 판단부; 상기 비 -일반 모드가 선택된 경우에 동작하며 , 다음을 포함하는 비-일반모드 인코딩부; 상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 필스들을 추출하고, 필스 정보를 생성하는 펄스 추출부; 상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 참조노이즈 생성부; 및, 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 노이즈 탐색부를 포함하고, 상기 원본 노이즈 신호는， 상기 고주파 대역의 주파수 변환 계수들로부터 상기 필스들을 제외함으로써 생성되는 오디오 신호 처리 장치가 제공된다.

본 발명의 또 다른 측면에 따르면, 현재 프레임이 일반 모드 인지 아니면 비 -일반 모드인지 여부를 지시하는 제 2 모드 정보를 수신하는 단계; 상기 제 2 모드 정보가 현재 프레임이 비 -일반 모드임을 지시하는 경우, 펄스 정보， 노이즈 위치정보 및 노이즈 에너지정보를 수신하는 단계; 상기 펄스 정보를 이용하여, 주파수 변환 계수들에 대해서 미리 결정된 개수의 필스들을 생성하는 단계; 상기 노이즈 위치정보에 대웅하는 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 상기 노이즈 에너지정보를 이용하여 상기 참조 노이즈 신호의 에너지를 조절하는 단계; 및, 상기 에너지 조절된 참조 노이즈 신호 및 상기 복수의 펄스를 이용하여 고주파 대역에 대응하는 주파수 변환 계수들올 생성하는 단계를 포함하는 오디오 신호 처리 방법이 제공된다. 본 발명에 따르면, 오디오 신호를 수신하는 단계; 오디오 신호에 대해서 주파수 변환을 수행하여, 복수개의 주파수 변환 계수들을 획득하는 단계; 상기 주파수 변환 계수에 대해서, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계; 상기 하모닉 모드가 선택된 경우, 다음 단계가 수행되는 단계; 제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙들을 결정하는 단계; 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙들을 결정하는 단계; 및, 상기 복수의 하모닉 트랙들의 시작 위치 정보를 생성하는 단계를 포함하고, 상기 제 1 그룹의 하모닉 트팩들은 제 1 하모닉 트랙 및 제 2 하모닉 트랙을 포함하고, 상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함하고, 상기 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대웅되고, 상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대웅되는 것을 특징으로 하는 오디오 신호 처리 방법이 제공된다.

본 발명에 따르면, 상기 하모닉 비율은, 복수의 하모닉 트랙들의 에너지 및 복수 개의 펄스의 에너지를 근거로 생성된 것일 수 있다.

본 발명에 따르면, 상기 제 1 위치 셋은 짝수 위치들에 해당하고, 제 2 위치 셋은 홀수 위치들에 해당할 수 있다.

본 발명에 따르면, 상기 제 1 하모닉 트랙 중에서의 최대 펄스， 및 그의 인접 필스, 상기 제 2 하모닉 트랙 중에서 최대 펄스, 및 그의 인접 필스를 포함하는 제 1 타깃 백터를 생성하는 단계; 상기 제 3 하모닉 트랙 중에서의 최 대 필스， 그의 인접 필스, 상기 제 4 하모닉 트랙 중에서의 최 대 펄스， 그의 인접 필스를 포함하는 제 2 타깃 백터를 생성하는 단계; 상기 제 1 타깃 백터 및 상기 제 2 타깃 백터를 백터 -양자화하는 단계; 상기 하모닉 트랙들에서 상기 제 1 타깃 백터 및 상기 제 2 타깃 백터를 제외 한 대상에 대해 주파수 변환하는 단계를 더 포함할 수 있다.

본 발명에 따르면, 제 1 하모닉 트랙은 제 1 피 치를 갖는 복수의 펄스들의 집합이고, 제 2 하모닉 트랙은 게 1 피치를 갖는 복수의 펄스들의 집합이고, 제 3 하모닉 트랙은 제 2 피치를 갖는 복수의 필스들의 집합이고， 제 4 하모닉 트랙은 제 2 피치를 갖는 복수의 필스들의 집합일 수 있다.

본 발명에 따르면, 상기 제 1 피치 및 상기 제 2 피치를 지시하는 피치 정보를 생성하는 단계를 더 포함할 수 있다.

본 발명의 또 다른 측면에 따르면, 제 1 피치에 해당하는 제 1 그룹의 하모닉 트택들 및 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙을 포함하는 복수의 하모닉 트랙들의 시작 위치 정보를 수신하는 단계; 상기 시작 위치 정보에 대웅하는 복수의 하모닉 트택을 생성하는 단계 ; 및， 상기 복수의 하모닉 트랙을 이용하여 현재 프레임에 해당하는 오디오 신호를 생성하는 단계를 포함하고, 상기 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트랙 및 제 2 하모닉 트택을 포함하고, 상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함하고, 상기 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대웅되고, 상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대웅되는 오디오 신호 처리 방법이 제공된다.

본 발명의 또 다른 측면에 따르면, 오디오 신호에 대해서 주파수 변환을 수행하여, 복수개의 주파수 변환 계수들을 획득하는 단계; 상기 주파수 변환 계수들에 대해서, 프레임간 유사성을 근거로 넌 -토널 모드 및 토널 모드를 선택하는 단계; 상기 넌 -토널 모드가 선택된 경우, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 단계; 상기 토널 모드가 선택된 경우, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계; 및, 상기 선택된 모드에 따라서 상기 오디오 신호를 인코딩함으로써 파라미터를 생성하는 단계를 포함하고， 상기 일반 모드인 경우, 상기 파라미터는 인벨롭 위치정보 및 스케일링 정보를 포함하고, 상기 비 -일반 모드인 경우, 상기 파라미터는 펄스정보 및 노이즈 에너지정보를 포함하고 상기 넌-하모닉 모드인 경우, 상기 파라미터는 서브밴드별로 개수가 미리 정해진 고정 펄스들에 대한 정보인 고정 필스정보를 포함하고， 상기 하모닉 모드인 경우, 상기 파라미터는 제 1 그룹의 하모닉 트랙들의 위치정보들, 제 2 그룹의 하모닉 트택들의 위치정보들올 포함하는 오디오 신호 처리 방법이 제공된다. 본 발명 에 따르면， 상기 선택된 모드에 따라서 , 제 1 모드 정보 및 제 2 모드 정보를 생성하는 단계를 더 포함하고， 상기 제 1 모드 정보는, 상기 넌- 토널 모드 및 상기 토널 모드 중 하나를 지시하고, 상기 제 2 모드 정보는, 상기 제 1 모드 정보가 넌 -토널 모드를 지시하는 경우, 상기 일반모드 또는 상기 비 -일반 모드 중 하나를 지시하고, 상기 제 1 모드 정보가 토널 모드를 지시하는 경우, 상기 넌-하모닉 모드 및 상기 하모닉 모드 중 하나를 지시할 수 있다.

본 발명의 또 다른 측면에 따르면, 비트스트림을 통해 제 1 모드 정보 및 제 2 모드 정보를 추출하는 단계 ; 상기 제 1 모드 정보 및 제 2 모드 정보를 근거로 하여 , 현재 프레임에 해당하는 현재 모드를 결정하는 단계; 상기 현재 모드가 일반 모드인 경우, 인벨롭 위치 정보 및 스케일링 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 상기 현재 모드가 비 -일반 모드인 경우, 필스정보 및 노이즈 에너지 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계 ; 상기 현재 모드가 넌-하모닉 모드인 경우, 서브밴드별로 개수가 미 리 정해진 고정 필스들에 대한 정보인 고정펄스정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 및, 상기 현재 모드가 하모닉 모드인 경우， 제 1 그룹의 하모닉 트랙의 위치정보들 및 제 2 그룹의 하모닉 트랙의 위치정보들을 이용하여 현재 프레임의 오디오 신호를 복원하는 단계를 포함하는 오디오 신호 처리 방법 이 제공된다. [Mode for Invention]

이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고， 정보 (information)는 값 (values), 파라미터 (parameter), 계수 (coefficients), 성분 (elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있는 바， 그러나 본 발명은 이에 한정되지 아니한다.

여기서 오디오 신호 (audio signal)란, 광의로는， 비디오 신호와 구분되는 개념으로서, 재생 시 청각으로 식별할 수 있는 신호를 지칭하고， 협의로는, 음성 (speech) 신호와 구분되는 개념으로서, 음성 특성 이 없거나 적은 신호를 의미한다ᅳ 본 발명에서의 오디오 신호는 광의로 해석되어야 하며 음성 신호와 구분되 어 사용될 때 협 의의 오디오 신호로 이해될 수 있다. 또한 코딩 이 란, 인코딩만을 지칭할 수도 있지만, 인코딩 및 디코딩을 모두 포함하는 개념으로 사용될 수도 있다.

도 1 은 본 발명의 실시 예에 따른 오디오 신호 처 리 장치 증 인코더의 구성을 보여주는 도면이다. 실시 예에 따른 인코더 (100)는 펄스비율 판단부 (130), 하모닉비율 판단부 (160), 비-일반모드 인코딩부 (150), 및 하모닉모드 인코딩부 (180) 중 하나 이상을 포함하고, 주파수 변환부 (110), 유사성 판단부 (120), 일반모드 인코딩부 (140)， 및 넌 -하모닉모드 인코딩부 (180) 중 하나 이상을 더 포함할 수 있다.

개괄적으로 설명하면, 총 네 가지의 코딩 모드가 존재하는 바, 1) 일반 모드, 2) 비 -일반 모드, 3) 넌-하모닉모드, 4) 하모닉모드가 존재하는 데， 여 기서 1) 일반 모드 및 2) 비 -일반 모드는 넌 -토널 모드에 해당하고, 3) 넌-하모닉 모드 및 4) 하모닉모드는 토널 모드에 해당한다.

비 -토널 모드인지 아니면 토널 모드인지 여부는 프레 임간의 유사성의 정도에 따라서 유사성 판단부 (120)에 의 해 결정된다. 즉 유사성 이 높지 않은 경우에는 비 -토널 모드이고, 유사성 이 높은 경우에는 토널 모드에 해당한다. 한편, 비 -토널 모드인 경우, 펄스비율 판단부 (130)는 펄스비율 (구체적으로, 전체 에너지 대비 필스의 에너지의 비율)이 높은 경우 1) 일반 모드 방식을 적용하고 필스비율이 낮은 경우에는 2) 비 -일반 모드 방식을 적용할 것을 결정한다.

또한， 토널 모드일 때는， 하모닉 비율 판단부 (160)는 하모닉비율 (구체적으로, 펄스의 에너지 대비 하모닉 트랙의 에너지의 비율)이 높지 않는 경우 3) 넌-하모닉 모드를 적용할 것을 결정하고, 4) 하모닉 비율이 높은 경우에는 4) 하모닉 모드를 적용할 것을 결정한다.

주파수 변환부 (110)는 입 력되는 오디오 신호에 대해서 주파수 변환올 수행함으로써， 복수 개의 주파수 변환 계수들을 획득한다. 여기서 주파수 변환에는 MDCT(Modified Discrete Cosine Transform), FFT(Fast Fourier Transform) 방식 등이 적용될 수 있지만 본 발명은 이에 한정되지 아니 한다.

주파수 변환 계수들은 상대적으로 저주파 대역 에 해당하는 주파수 변환 계수들과, 고주파 대 역에 해당하는 주파수 변환 계수들이 존재할 수 있다. 저주파 대역의 주파수 변환 계수들을 광대 역 밴드 신호， WB(Wide Band) 신호, 또는 WB 계수라 지 칭하고, 고주파 대역의 주파수 변환 계수들을 초광대역 밴드 신호, SWB(Super Wide Band) 신호 또는 WB 계수라고도 지 칭하고자 한다. 한편 저주파 대역 및 고주파 대역의 기준은 약 7kHz 가 될 수 있지만， 본 발명은 특정 주파수에 한정되지 아니한다.

한편, 주파수 변환 방식 이 MDCT 의 경우， 전체 오디오 신호에 대해서 총 640 개의 주파수 변환 계수들이 생성될 수 있다. 이때, 가장 낮은 대역에 해당하는 약 280 개의 계수를 WB 신호로 지칭하고, 그 다음의 대역에 해당하는 약 280 개의 계수를 SWB 신호라 지 칭할 수도 있지 만, 역시 본 발명은 이 에 한정되지 아니 한다.

유사성 판단부 (120)는 입 력 오디오 신호에 대해서 프레 임간의 유사성을 판단하는데, 프레임간 유사성 이 란, 현재 프레임의 주파수 변환 계수들의 스펙트럼 이 이 전 프레임의 주파수 변환 계수들의 스펙트럼과 얼마나 유사한지 에 관한 것 이다. 프레임간 유사성은 음조성 (tonality)라고 지 칭하기도 한다. 프레임간 유사성에 관한 구체적 인 수식에 대한 설명은 생략하고자 한다. 도 2 는 프레임간 유사성 (tonality) 판단의 예를 설명하기 위 한 도면이다. 도 2 의 (A)를 참조하면, 이 전 프레임의 스펙트럼 및 현재 프레임의 스펙트럼의 예가 도시되어 있다. 직관적으로 판단해볼 때, 주파수 빈이 약 40 에서 60 사이 인 구간에서 유사성 이 가장 적은 것을 알 수 있다. 도 2 의 (B)를 참조하면, 직관에 의 한 결과와 마찬가지로 유사성은 40~60 구간에서 가장 낮은 수치를 보임을 알 수 있다.

유사성 판단부 (120)가 프레 임간 유사성을 판단한 결과, 유사성 이 낮은 경우는 노이즈와 유사한 신호로서 넌 -토널 모드 (non-tonal)로 분류하고, 유사성 이 높은 경우는 노이즈와는 다른 특성을 갖는 신호로서 토널 모드 (tonal)로 분류한다. 그리고 해당 프레임이 넌 -토널 모드에 해당하는지 토널 모드에 해당하는지를 지시하는 제 1 모드 정보를 생성하여 디코더에 전달한다. 넌 -토널 모드로 판단한 경우 (예를 들어 제 1 모드 정보가 0 인 경우), 고주파 대역의 주파수 변환 계수들을 펄스비율 판단부 (130)로 전달하고, 반대인 경우 (예를 들어 , 제 1 모드 정보가 1 인 경우), 상기 계수들을 하모닉비율 판단부 (160)에 전달한다.

다시 도 1 을 참고하면, 프레임간 유사성을 판단한 결과 유사성 이 낮은 경우, 즉 넌 -토널 모드인 경우, 펄스비율 판단부 (130)가 활성화된다.

펄스비율 판단부 (130)는 펄스 비율 즉, 현재 프레임의 전체 에너지 대비 복수의 필스들에 대한 에너지 비율을 근거로 하여 일반 모드 또는 비 -일반 모드를 결정한다. 여기서 펄스란, 주파수 변환 계수의 도메인 (예 : MDCT 도메인)에서 상대적으로 에너지가 높은 계수를 의미 한다.

도 3 은 일반모드 또는 비 -일반모드로 코딩하기 에 적합한 신호의 예들이다. 도 3 의 (A)를 참조하면, 특정 주파수 대역에 치우치지 않고 전체 주파수가 골고루 포함되어 있음을 알 수 있다. 이와 같이 노이즈와 유사한 특성을 갖는 경우, 일반 모드로 코딩하기에 적합한 신호라 할 수 있다. 도 3 의 (B)를 참조하면, 전체 주파수 신호가 고루 포함되 기 보다는 특정 대역 (라인)이 강한 것을 알 수 있다. 상기 특정 대역은 주파수 변환 계수의 도메 인에서는 펄스로 나타날 수 있는데, 이 펄스의 에너지가 전체 에너지에 비해서 높은 경우, 펄스 비율이 높으므로 비 -일반 모드로 인코딩하기 적합한 신호라 할 수 있다. 도 3 의 (A)와 같은 신호는 노이즈에 가까운 신호이고, 도 3 의 (B)는 타악기 소리에 가까운 신호일 수 있다.

펄스비율 판단부 (130)가 주파수 변환 계수의 도메인 상에서 높은 에너지를 갖는 필스들을 추출하는 과정에 관해서는, 비 -일반 모드의 코딩 방식이 적용되었을 때 수행되는 펄스 추출 과정과 동일할 수 있으므로, 이 추후 비-일반모드 인코딩부 (150)에서의 세부 구성과 함께 설명하고자 한다. 만약에， 총 8개의 필스를 추출한 경우， 다음과 같이 표현될 수 있다.

[수학식 1]

j ) = m x ({ 1 32 ¾ + 280 ) }² )， j = 0, · .. , 7 A: = 280, . · . _; 560 여기서， 32 ( 는 SWB 계수 (고주파 대역의 주파수 변환 계수), k는 주파수 변환 계수의 인덱스, 는 펄스 (또는 피크), j는 펄스 인덱스

여기서, 펄스 비율은 다음 수학식과 같이 표현될 수 있다.

[수학식 2]

_ ^peak

peakSᅳ

total

7 280

^ , E_peak = ∑ {P(k†} E_total = ∑{P(k + 280f

여기서， k = o , fc=o

여기서， RpeakS는 펄스 비.율， _e 는 필스의 총 에너지

에너지 .

이와 같이 펄스 비율 ( ^e« )을 추정한 후에, 펄스 비율이 특정 기준값 (예: 0.6)을 넘지 못할 경우, 일반 모드 (generic mode)로 결정하고, 기준값을 초과할 경우에는 비 -일반모드 (non-generic mode)로 결정한다.

다시, 도 1 을 참조하면, 펄스비율 판단부 (130)는 상기와 같은 과정을 통해 필스 비율을 기준으로 일반 모드 또는 비 -일반 모드를 결정하고， 넌 -토널 모드일 때， 일반 모드인지 비 -일반 모드인지 여부를 지시하는 제 2 모드 정보를 생성하여 디코더에 전송한다. 그러면 일반모드 인코딩부 (140)의 세부 구성 및 비 일반모드 인코딩부 (150)의 세부 구성을 각각 별도의 도면을 참조하면서 설명하고자 한다.

그런 다음 하모닉비율 판단부 (160), 넌 -하모닉모드 인코딩부 (170) 및 하모닉모드 인코딩부 (180)의 각 세부구성 에 대해서 별도 도면을 참조하면서 설명하고자 한다.

도 4 는 일반모드 인코딩부 (140)의 세부 구성을 보여주는 도면이고, 도 5 는 일반모드로 인코딩 한 경우의 신택스의 일 예이다.

우선 도 4 를 참조하면, 일반모드 인코딩부 (140)는 정규화부 (142), 서브밴드 생성부 (144), 및 탐색부 (146)를 포함한다. 일반모드인 경우에는, 고주파대역의 신호 (SWB 신호)는 부호화된 저주파 대역의 신호 (WB 신호)의 인벨롭과의 유사 정도를 이용하여 부호화한다.

정규화부 (142)는 WB 신호의 인벨롭을 지수 도메 인 (logarithmic domain)에서 정규화한다. 여기서 WB 신호는 디코더에서도 알 수 있는 신호여 야 하므로, 인코딩된 WB 신호를 이용하여 복원된 신호인 것이 바람직하다. WB 신호의 인벨롭 (포락선)이 급속도로 변화하기 때문에 , 2 개의 스케 일링 팩터의 양자화는 정확히 할 수 없을 수 있기 때문에 지수 도메인에서 정규화하는 과정 이 필요할 수 있다. 서브밴드 생성부 (144)는 SWB 신호를 복수 개 (약 4 개)의 서브 밴드로 분할한다. 예를 들어 , SWB 신호의 주파수 변환 계수들이 총 280 개인 경우， 각 서브밴드는, 40, 70,70, 100 개의 계수들을 가질 수 있다.

탐색부 (146)는 WB 신호의 정규화된 인벨롭을 탐색함으로써 , SWB 신호의 각 서브밴드와 유사도를 연산하고, 이 유사도를 기 반으로 하여 각 서브밴드와 유사한 인벨롭의 구간을 갖는 최 대유사 WB 신호를 결정한다. 이 최 대 유사 WB 신호의 시작 위치를 인벨롭 위치정보로서 생성한다.

그런 다음， 탐색부 (146)는 원본 SWB 신호와 청각적으로 유사하게 만들기 위해, 두 개의 스케일링 정보를 결정할 수 있다. 이따, 제 1 스케일링 정보는 선형 도메인에서 서브밴드별로 결정되며 , 제 2 스케일링 정보는 로그 도메인에서 서브밴드별로 결정될 수 있다.

이와 같이 일반모드 인코딩부 (140)는 WB 신호의 인벨롭을 이용하여 SWB 신호를 인코딩하며 , 인벨롭 위치정보 및 스케일링 정보를 생성 한다.

도 5 를 참조하면， 일반 모드인 경우의 신택스의 일 예로서 , 넌-토널인지 토널인지를 지시하는 제 1 모드 정보, 넌-토널일 경우 일반 모드인지 비 -일반 모드인지를 지시하는 제 2 모드 정보가 각각 1 비트씩 할당된다. 그리고， 인벨롭 위치 정보가 각 서브밴드별로 총 30 비트가 할당될 수 있다.

스케일링 정보는 각 서브밴드별 스케일링 부호 정보가 총 4 비트, 서브밴드별 제 1 스케일링 정보 (총 4 개)는 총 16 비트가 할당될 수 있고, 서브밴드별 제 2 스케일링 정보들 총 4 개는 8 비트 코드북을 기반으로 백터 양자화되어 총 8 비트가 할당될 수 있으나, 본 발명은 이에 한정되지 아니한다.

이하, 도 6 이하를 참조하면서 , 비-일반모드에서의 인코딩과정에 대해서 설명하고자 한다. 도 6 은 비-일반모드 인코딩부 (150)의 세부 구성을 보여주는 도면이다. 도 6 을 참조하면, 비 -일반모드 인코딩부 (150)는 펄스 추출부 (152), 참조 노이즈 생성부 (154) 및 노이즈 탐색부 (156)를 포함한다.

필스 추출부 (152)는 고주파 대역의 주파수 변환 계수들 (SWB 신호)로부터 미 리 결정된 개수의 필스들을 추출하고, 상기 펄스들에 대한 정보인 필스 정보 (예 : 필스 위치 정보, 필스 부호 정보, 펄스 크기 정보 등)을 생성한다. 여기서 필스는 앞서 펄스비율 판단부 (130)에서 정의한 펄스와 마찬가지 이다. 이하, 도 7 내지 도 9 를 참조하면서 , 펄스 추출에 대한 과정의 일 실시 예에 대해서 구체적으로 설명하고자 한다.

우선， 펄스 추출부 (152)는 SWB 신호를 아래와 같이 복수 개의 서브밴드 신호로 분할한다. 이때, 각 서브밴드는 총 64 개의 주파수 변환 계수들에 대웅될 수 있다.

[수학식 3]

)는 SWB 신호 중 제 1 서브밴드

그런 다음, 서브밴드별 에너지를 다음과 같이 산출한다. [수학식 4]

63

E° = ∑{ ₃₂(¾ + 280)}²

k= 0

은 제 1 서브밴드의 에너지

도 7 및 도 8 은 필스 추출 과정을 설명하기 위 한 도면이다. 우선 도 7 의 (A)를 참조하면, SWB 가 총 네 개의 서브밴드가 존재하고, 각 서브밴드별 필스의 예가 도시되어 있다.

그런 다음, 서브밴드별 에너지 (E⁰, E¹, E², E³)가 가장 큰 서브밴드 (j=0, 1, 2, 3 중 하나)를 선택한다. 도 7 의 (B)를 참조하면， 제 1 서브밴드의 에너지 (E⁰)가 가장 높아서 , 제 1 서브밴드 (j=0)가 선택된 예가 도시되어 있다.

그런 다음, 해당 서브밴드 내에서 가장 에너지가 높은 펄스를 메 인 펄스로 결정 한다. 그런 다음 메인 펄스와 인접 한 두 개의 필스들, 즉 메인 펄스의 왼쪽 필스 및 오른쪽 펄스 중 에너지가 높은 필스를 서브 펄스로 결정한다. 도 7 의 (C)를 참조하면， 제 1 서브밴드 중에서 메 인 필스와 서브 펄스를 결정한 예가 도시되어 있다.

특히 , 메인 필스 및 그에 인접 한 서브 펄스를 추출하는 과정은, 주파수 변환 계수들이 MDCT 를 통해 생성된 계수들인 경우에 바람직하다. 왜냐하면，

MDCT 의 독특한 특성 때문인데, 이 특성은 시간 이동 (time shift)에 민감하고 위상 변화성 (phase-variant)을 갖는 특징 이다. 따라서， 주파수 분해능 (frequency resolution)이 정확하지 않으므로, 하나의 특정 주파수가 1 개의 MDCT 계수에 대응되지 않고， 2 개 이상의 MDCT 계수에 대응될 수 있다ᅳ 따라서, MDCT 도메인에서 보다 정확하게 필스를 추출하기 위해서， MDCT 의 메인 펄스만을 추출하기 보다는, 그에 인접한 서브 펄스를 부가적으로 추출한다.

한편， 서브 펄스는 메인 필스의 좌측 또는 우측에 인접하기 때문에, 서브 펄스의 위치정보는 메인 펄스의 좌측인지 또는 우측인지를 지시하는 1 비트만으로 인코딩이 가능하기 때문에, 상대적으로 적은 비트를 사용하면서도 보다 정확한 펄스를 추정하는 것이 가능하다.

상기 메인 펄스 및 서브 필스의 추출과정을 논리식으로 정리하면 아래와 같다. 단 아래 표현에 본 발명은 한정되지 아니한다.

M^³Hk) = subband of maxium Energy

index = peak position in subband Λ/₃'" ^ax

if {index ==0 or

+ l)|)

P_f0S (1 ) = index + 1

if( _amp(l)< 0) else else

P_oo (1 ) = index― 1

else 이와 같이 필스 추출부 (152)는 SWB 신호에서 앞서 추출된 제 1 세트의 메인 펄스 및 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 생성 한다.

도 8 의 (A)를 참조하면, 도 7 의 (C)에서 추출된 제 1 세트의 펄스가 제외되어 있음을 알 수 있다. 그 타깃 노이즈 신호에 대해서 상기 메인 펄스 및 서브 펄스의 추출과정을 반복한다. 즉， 가장 큰 에너지를 갖는 서브밴드를 결정하고, 해당 서브밴드 내에서 가장 큰 에너지를 갖는 펄스를 메인 필스로 결정하고， 그 인접 한 펄스들 중 하나를 서브 펄스로 결정하는 것이다. 이와 같이 추출된 제 2 세트의 메인 펄스 및 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 다시 정의함으로써 , 제 N 세트까지 이 과정을 반복한다. 예를 들어 , 상기 과정을 제 3 세트까지 반복하고, 상기 제 3 세트를 제외한 타깃 노이즈 신호에 대해서 2 개의 단독 펄스를 더 추출할 수 있다. 여기서 단독 펄스랑 상기와 같이 메 인 및 서브의 관계 없이 , 타깃 노이즈 신호 중 가장 에너지가 높은 펄스를 의미 한다.

펄스 추출부 (152)는 상기와 같이 정해진 개수의 펄스들을 추출한 후에 , 이 펄스에 대한 정보인 필스 정보를 생성 한다. 여기서 정해진 개수의 필스들은 예를 들어 총 8 개 (총 3 세트의 메인 필스들 및 서브 펄스들， 총 3 개의 단독 펄스들)일 수 있지만, 본 발명은 이에 한정되지 아니 한다. 펄스 정보는, 필스 위치 정보, 펄스 부호 정보, 펄스 크기 정보， 펄스 서브밴드 정보 중 하나 이상을 포함할 수 있다. 여기서 먼저 펄스 서브밴드 정보는, 해당 펄스가 몇 번째 서브밴드에 속하는지에 대한 정보이다. 도 11 은 비 -일반모드로 인코딩 한 경우의 신택스의 일 예인데, 여기서 펄스 관련 정보에 대해서만 참조하고자 한다. 도 11 은 서브밴드가 총 4 개이고， 펄스가 총 8 개일 때 (각 3 개씩 의 메 인 펄스 및 서브 펄스들, 단독 펄스 2 개)의 경우이다. 도 11 의 펄스 서브밴드 정보는 2 비트씩 총 10 비트가 할당되어 있음을 알 수 있다. 이는, 서브밴드가 총 4 개인 경우, 하나의 필스가 서브밴드를 표시하기 위해서는 2 비트가 필요한데, 이는 각 세트의 메인 펄스 및 서브 펄스는 동일한 서브밴드에 속하기 때문에 , 한 세트 (메인 및 서브)의 필스를 표현하기 위해 총 2 비트만 소요된다. 그런데 단독 펄스의 경우, 각 하나의 펄스를 표현하기 위해 2 비트씩 이 소요된다.

따라서， 필스 서브밴드 정보를 인코딩 하기 위해서는 제 1 세트에 2 비트, 제 2 세트에 2 비트, 제 3 세트에 2 비트, 제 1 단독 필스에 2 비트, 제 2 단독 펄스에 2 비트, 즉 총 10 비트가 필요하다.

또한, 펄스 위치 정보는, 특정 서브밴드 내에서는 펄스가 몇 번째 계수에 존재하는지를 나타내기 위 한 정보이므로, 제 1 세트 내지 제 3 세트까지 각 6 비트, 제 1 단독 필스에 6 비트, 제 2 단독 펄스에 6 비트, 총 30 비트가 소요된다.

또한, 펄스 부호 정보는, 총 8 개의 비트 각각 1 비트씩 , 총 8 개의 비트가 소요되고， 필스 크기 정보는, 4 개의 펄스들의 크기 정보를 8 비트의 코드북을 이용하여 백터 양자화하여 , 총 16 비트를 할당한다.

다시 도 6 을 참조하면， 상기와 같은 과정을 통해 필스 추출부 (152)에 의해 추출된 펄스들이 고주파 대역의 신호 (SWB 신호)로부터 제외됨으로써， 원본 노이즈 신호 ₍ -¾₂ c) 등)가 생성된다. 예를 들어 , 총 280 개의 계수들 중에서 총 8 개의 필스에 해당하는 계수를 제외시킨 경우， 원본 노이즈 신호는 총 272 개의 계수들에 대응할 수 있다. 도 9 는 필스 추출 이전의 신호 (SWB 신호) 및 펄스 추출 이후 신호 (원본 노이즈 신호)의 일 예가 도시되어 있다. 도 9 의 (Α)에서 원본 SWB 신호는 주파수 변환 계수 도메인 상에서 높은 피크 에너지를 갖는 필스가 복수 개 포함되 어 있는 반면에 , 도 9 의 (Β)는 그 필스가 제외된 노이즈성 (noise-like)의 신호만이 남는다.

도 6 의 참조 노이즈 생성부 (154)는 저주파 대역의 주파수 변환 계수 (WB 신호)를 근거로, 참조 노이즈 신호를 생성 한다. 구체적으로, WB 신호의 전체 에너지를 근거로 임 계치를 설정하고, 그 임 계치 이상의 펄스를 제외시킴으로써 _: 참조 노이즈 신호를 생성 한다.

도 10 은 참조 노이즈 생성과정을 설명하기 위 한 도면이다. 도 10 의 (A)를 참조하면, WB 신호의 일 예가 주파수 변환 도메인 상에 표시되어 있다. 이 중 전체 에너지를 고려하여 임 계치가 설정되 었을 때, 임 계치를 벗어나는 펄스도 존재하고, 임 계치 범위 내에 존재하는 필스도 있다. 임 계치를 벗어나는 펄스를 제외시키면 도 10 의 (B)와 같은 신호가 남게 된다. 이와 같이 참조 노이즈 신호를 생성한 후, 정규화과정을 거친다. 그러면 도 10 의 (C)와 같이 표현될 수 있다.

참조 노이즈 생성부 (154)는 상기와 같은 과정을 통해 WB 신호를 이용하여 참조 노이즈 신호 ^16를 생성 한다. 도 6 의 노이즈 탐색부 (156)는 원본 노이즈 신호 및 참조 노이즈 신호 ^16 를 비교함으로써 , 원본 노이즈 신호 등)와 가장 유사한 참조 노이즈 신호의 구간을 결정하고， 노이즈 위치 정 보ᅳ 및 노이즈 에너지정보를 생성한다. 이 과정에 대한 일 실시 예를 아래와 같이 구체적으로 설명하고자 한다.

우선， 원본 노이즈 신호 (SWB 신호에서 펄스가 제외된 신호)를 아래와 같이 복수 개의 서브밴드 신호로 분할한다.

[수학식 5]

여 기서의 각 서브밴드의 크기는 앞서 일반모드에서의 서브밴드와 동일한 크기를 가질 수 있다. 서브밴드의 길이 j = 0v,3는 40, 70,

70, 100 개의 주파수 변환 계수들에 대웅할 수 있다. 모든 서브밴드는 각 다른 검 색시작 위치 와 각기 다른 검 색범위 W^J 를 가지며， 참조 노이즈 신호 ΐ/₁₆와의 유사정도를 검 색한다. 검 색시작 위치 는 j=₀, 2 일 때 0 으로 고정되고， j=l, 3 인 경우 이 전 서브밴드의 최 대 유사도를 갖는 서브밴드의 시작위치에 종속된다. j 번째 서브밴드에 대한 검 색시작 위치 및 검 색범위 는 다음과 같이 표현될 수 있다.

[수학식 6]

k³는 검색시작 위치, Bestldx³^ 최대유사 시작위치, J는 서브밴드의 길이, W³는 검색 범위 만약, r⁷ 가 음수가 되면 0 으로 수정해주며, 28으 ᅳ ί ^보다 커지면, 28으 < ᅳ 으로 수정해준다. 최대유사 시작위치는 Bestldx³은 다음 과정을 통해 각 서브밴드별로 추정한다. 우선 유사정도지표 에 해당하는 유사도 ^(^)는 다음 수학식과 같이 연산된다. 일반 모드와 유사한 방법으로 부호화되나, 한 샘플 (하나의 계수)가 아니라 4개의 샘플 단위로 검색을 실시한다.

[수학식 7]

k<d^j _

corrik')二 ∑ Mi₂{k)M_u{ > + k' + k), k' = 0,3,7,...,^^' - 1 k = o corrik')는 유사도, Λ (^는 원본 노이즈 (수학식 5 참조), ΐ6는 참조 노이즈, r⁷는 검색시작 위치， /유사정도지표, 는 검색 범위

유사정도지표 에 해당하는 에너지는 다음 수학식과 같이 연산된다. [수학식 8] k < d³

Ene{k')= M_i6(k> + k' + k)² k' = 0,d ,....,w^j - 1 실질적인 유사정도^ 는 다음 수학식과 같다.

[수학식 9

실질적인 유사정도 가 최대값이 되는 서브밴드의 시작 위치

Lag Index³ 파라미터로 변환되어 노이즈 위치 정보로서 비트스트림에 포함된다.

Bestldx 0

lag Corr = 0

lagEnergy= le30

for fc'― 0 to w³— I

ii(Ene{k^f) > 0)

i f (lag Corr En (k' ) < corr(k' )lagEnergy)

Bestldx^j = k'

lag Corr ― corr(k' )

lag Energy― Ene (fc' )

end

앞서 노이즈 탐색부 (156)가 노이즈 위치 정보를 생성한 과정에 대해서 설명한 바, 이하 노이즈 에너지 정보를 생성하는 과정에 대해서 설명하고자 한다. 참조 노이즈 신호는 원본 노이즈 신호와 유사한 파형을 유지하나, 그 에너지는 서로 다를 수 있다. 디코더에서 원본 노이즈와 유사한 에너지를 갖 노이즈 신호를 가질 수 있도록, 원본 노이즈 신호의 에너지에 대한 정보인 노이즈 에너지 정보를 생성하여 디코더에 전송할 필요가 있다.

한편， 상기 노이즈 에너지의 값은 다이나믹 레인지가 크기 때문에， 필스 비율이라는 값으로 변환하여 전송할 수 있다. 펄스 비율은 백분율 값이므로 0%~100%값을 가지므로 다이나믹 레인지가 작아서， 비트수를 절감할 수 있다. 이 변환 과정에 대해서 설명하고자 한다.

노이즈 신호의 에너지는 다음 수학식과 같이 SWB 신호의 전체 에너지에서 필스 에너지를 제외한 값과 같다.

[수학식 10]

280

Noise _energy = ∑ {M₃₂ (280 + k)}^{2 ~} P _energy

fc= o

Woise _energ/는 노이즈 에너지, ^32는 SWB 신호, P energy는 필스

, _ΐ , i -,ι P energy = TJip (k)\²

에너지 ( ί" = 0 ) ^' 상기 수학식을 백분율인 펄스 비율 perceni로 나타내면 다음과 같다. [수학식 11]

p

^" P energy + ¹ Noi^vs^tJe^energy

R per cent는 필스 비율, P energy는 펄스 에너지, ^No'^ise ene'rgy는 노이즈 에너지 즉, 인코더에서는 수학식 10 에 나타난 노이즈 에너지 ^Noise en^gy 대신에， 수학식 11 에 나타난 펄스 비율 ^perceni을 전송한다. 이 펄스 비율에 해당하는 노이즈 에너지 정보는 도 11 에 도시된 바와 같이 4비트로 인코딩될 수 있다.

그러면， 디코더에서는 우선, 펄스 추출부 (152)에 의해 생성된 펄스 정보를 근거로 펄스 에너지 _¾ {尸續 _P(^fc)}²)를 생성한다ᅳ 그런 다음

펄스 에너지 ( ^ener / ) 및 전송된 펄스 비율 ^perceni을 다음 수학식에 대입함으로써 , ^Noise ene gy^ 노이즈 에너지를 생성한다.

[수학식 12]

^ ― (100 ^ energy^ ^ ^'percent

^°^{% se} energy ^~~ ~ ^~ ^

-^* percent

상기 수학식 12는 수학식 11을 다시 정리한 식이다.

디코더는 전송된 펄스 비율을 상기와 같이 노이즈 에너지로 변환한 후, 노이즈 에너지는 참조 노이즈 신호의 각 계수에 다음과 같이 곱합으로써, 참조 노이즈 신호를 이용하여, 원본 노이즈 신호와 유사한 에너지 분포를 갖는 노이즈 신호를 획득할 수 있다.

[수학식 13]

^ amp ― l OibC _energy 272

M₃₂(k + 2S0)= M_i2(k+2S0)y S_amp fc = 0,...,280

노이즈 탐색부 (i₅₆₎는 상기와 같은 과정을 통해 노이즈 위치 정보를 생성하고, 노이즈 에너지 값을 필스 비율로 변환하고, 이를 노이즈 에너지 정보로서 디코더에 전송한다. 도 12 는 특정 오디오 신호에 대해 일반 모드 및 비 -일반모드로 인코딩된 결과를 보여주기 위한 도면이다. 도 12 의 (A)를 우선 참조하면, 특정 신호 (예: 타악기와 같이 특정 주파수 대역이 강한 신호)에 대해서는 일반 모드로 인코딩한 후 합성한 결과와， 비 -일반 모드로 인코딩한 후 다시 복호화한 결과가, 도 12 의 (A)에 나타난 바와 같이, 차이가 있을 수 있다. 도 12 의 (B)를 살펴보면， 도 12 에 나타난 원본 신호에 대해서는, 비 -일반 모드로 인코딩한 결과가， 일반 모드로 인코딩한 결과보다 우수함을 알수 있다.

즉, 오디오 신호의 특성에 따라， 미리 결정된 특정 펄스의 에너지가 높은 경우에는, 본 발명의 실시예에 따른 비 -일반 모드로서 인코딩함으로써, 비트수 증가는 거의 없이 보다 음질을 높일 수 있다.

이하에서는, 프레임간의 유사성이 높아서 토널-모드로 분류된 경우, 도

1 에서 언급한 하모닉비율 판단부 (160), 넌 -하모닉모드 인코딩부 (170) 및 하모닉모드 인코딩부 (180)에 대해서 각각 설명하고자 한다.

우선 도 13 은 하모닉비율 판단부 (160)의 세부 구성을 보여주는 도면이다. 도 13 을 참조하면, 하모닉비율 판단부 (160)는， 하모닉트랙 추출부 (162) 및 고정펄스 추출부 (164) 및 하모닉비율 결정부 (166)를 포함할 수 있는 데, 오디오 신호의 하모닉비율을 근거로 넌-하모닉 모드 및 하모닉 모드를 결정한다. 하모닉모드는 예를 들어, 단일 악기에 의한 하모닉 성분이 강한 신호, 또는 여러 악기에 의해서 발생하는 멀티플 피치 (multiple pitch) 신호를 포함하는 신호를 인코딩하기에 적절한모드이다. 도 14 는 하모닉 비율이 높은 오디오 신호의 예이다. 도 14 를 참조하면, 주파수 변환 계수 도메인 상에서 기본 주파수의 배수가 되는 하모닉들이 강하게 나타나고 있음을 알 수 있다. 이 러 한 하모닉 특성 이 강한 신호의 경우, 종래의 방식대로 인코딩을 할 경우, 하모닉에 해당하는 펄스를 모두 인코딩해야 하므로, 비트가 많이 소요되어 부호화기 의 성능이 떨어지는 문제점 이 있다. 반대로, 정해진 개수의 펄스만을 추출하는 인코딩 방식을 적용하였을 때, 모든 필스를 추출하기 어 렵기 때문에 음질이 저하되는 문제점 이 있다. 따라서， 이 러한 신호에 적 절한 코딩 방식을 본원에서는 제안하고자 한다.

하모닉트랙 추출부 (162)는 고주파 대역에 해당하는 주파수 변환 계수들에 대해서 , 하모닉 트택을 추출한다. 이 과정은 추후 하모닉모드 인코딩부 (180)의 하모닉트택 추출부 (182)와 동일한 과정을 수행하므로, 추후에 구체적으로 설명하고자 한다.

고정펄스 추출부 (164)는 정해진 영 역에서 정해진 개수의 펄스를 추출한다 (164). 이 과정은 추후 넌 -하모닉모드 인코딩부 (170)의 고정필스 추출부 (172)와 동일한 과정을 수행하므로， 추후에 구체적으로 설명하고자 한다. 하모닉비율 결정부 (166)는, 하모닉 비율 즉, 추출된 하모닉트랙의 에너지의 합에 비 한 고정펄스 에너지의 비율인 바, 하모닉 비율이 낮은 경우에는 넌-하모닉 모드로 결정하고, 하모닉 비율이 높은 경우에는 하모닉 모드로 결정 한다. 앞서 설명 한 바와 같이 넌-하모닉 모드인 경우 넌- 하모닉모드 인코딩부 (170)가 활성화되고, 하모닉 모드인 경우 하모닉모드 인코딩부 (180)가 활성화된다.

도 15 는 넌 -하모닉모드 인코딩부 (170)의 세부 구성을 보여주는 도면이고, 도 16 은 넌-하모닉모드인 경우, 고정 필스를 추출하는 규칙을 설명하기 위 한 도면이고, 도 17 은 넌-하모닉모드로 인코딩 한 경우의 신택스의 일 예이다.

우선, 도 15 를 참조하면, 넌 -하모닉모드 인코딩부 (170)는 고정펄스 추출부 (172) 및 펄스위 치정보 생성부 (174)를 포함한다.

고정펄스 추출부 (172)는 도 16 에 나타난 바와 같이 고정된 영 역에서 고정된 개수의 고정 필스를 추출한다.

[수학식 14]

D{k) =

k = 280, ....560 여기서， 2 ( ^는 SWB 신호, 2 ( 는 HF 합성신호.

HF 합성 신호 ⁷ ^32 ( 는 존재하지 않기 때문에 0 으로 결정되고, ikf₃₂ (/c) 의 최 대값을 찾는 과정 이 된다. ^(fc) 에서 5 개의 서브밴드로 분할하여 쟈를 만들고 각 서브밴드의 펄스의 개수는 이 전에 결정된 개수 지 값을 갖는다. 각 서브밴드별 개의 가장 큰 값을 찾는 과정은 다음과 같다. 다음의 알고리즘은 정 렬 알고리즘으로서 최 대값 N 을 찾고 이를 input_data 라는 배열에 저장한다. for = 0 to N

data_sorted{j )— 0

data—sortedXj ) = 0

Idx = 0

for k = 1 to length(input_dat )

l i (input_data(j) > dataᅳ, sorted ( ))

index _^sortedij)― k

Idx = h

end- end

end

도 16 을 참조하면, 각 서브밴드 별로 다수의 위치 셋 중 하나， 즉, 제 1 위치 셋 (예 : 짝수 위치들) 또는 제 2 위치 셋 (홀수 위치들)에서 정해진 개수 (예 : 10 개)의 필스를 추출하는 예가 도시되어 있다. 제 1 서브밴드에서는 짝수의 위치 (position: 280 등)에서 두 개의 펄스들 (track 0)을, 홀수의 위치 (position: 281, 등)에서도 두 개의 필스들 (track 1)을 추출한다. 제 2 서브밴드에서도 마찬가지로 _: 짝수의 위치 (position: 280 등)에서 두 개의 펄스들 (track 2)을, 홀수의 위치 (position: 281, 등)에서도 두 개의 필스들 (track 3)를 추출한다. 그런 다음 제 3 서브밴드에서는, 위치와 상관없이 1 개의 펄스 (track4)를, 제 4 서브밴드에서도, 위치와 상관없이 1 개의 펄스 (track5)를 추출한다.

위와 같이， 고정 펄스를 추출하는 이유는, 즉, 정해진 위치에서 정해진 개수만큼의 펄스를 추출하는 이유는, 고정 펄스의 위치정보에 해당하는 비트수를 절약하기 위해서 이다.

다시 도 15 를 참조하면, 펄스위치정보 생성부 (174)는 추출된 고정펄스에 대해서 , 정해진 규칙에 따라 고정펄스 위치정보를 생성 한다. 도 17 은 넌- 하모닉모드로 인코딩 한 경우의 신택스의 일 예이다. 도 17 를 참조하면, 도 16 에 나타난 규칙 대로 고정펄스를 추출할 경우， trackO 내지 track3 까지의 총 8 개의 펄스는 짝수 또는 홀수로 위치가 정해져 있기 때문에 , 고정펄스 위치정보를 인코딩하기 위한 비트수가 64 비트가 아니 라 32 비트가 될 수 있다. track4 에 해당하는 필스는 짝수 또는 홀수의 제한이 없으므로 64 비트가 소요되고, track5 의 경우에는 짝수 또는 홀수의 제한이 없지 만, 위치가 472 부터 503 으로 제한되므로, 32 비트가 필요하다.

이하, 도 18 내지 도 20 과 함께 하모닉모드 인코딩 과정을 설명하고자 한다.

도 18 은 하모닉모드 인코딩부 (180)의 세부 구성을 보여주는 도면이고, 도 19 는 하모닉트랙의 추출을 설명하기 위한 도면이고， 도 20 은 하모닉트랙 위치정보의 양자화를 설명하기 위한 도면이다.

도 18 을 참조하면, 하모닉모드 인코딩부 (180)은 하모닉트랙 추출부 (182) 및 하모닉정보 부호화부 (184)를 포함한다.

하모닉트랙 추출부 (182)는 고주파 대역에 해당하는 주파수 변환 계수들에 대해서 복수의 하모닉 트랙을 추출한다. 구체적으로, 제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙 (제 1 하모닉 트랙 및 제 2 하모닉 트랙)을 추출하고, 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙 (제 3 하모닉 트랙 및 제 4 하모닉 트랙)을 추출한다. 계 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위 치 셋 (예 : 홀수) 중 하나에 대응될 수 있고， 제 2 하모닉 트랙 및 게 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 (예: 짝수) 중 하나에 대웅될 수 있다ᅳ

도 19 의 (A)를 참조하면, 제 1 피치를 갖는 제 1 하모닉 트랙 및 제 1 피치를 갖는 게 2 하모닉 트랙이 표현되어 있다. 예를 들어, 제 1 하모닉 트랙의 시작 위치는 짝수, 제 2 하모닉 트랙의 시작 위치는흘수로 표현될 수 있다. 한편, 도 19 의 (B)를 참조하면, 제 2 피치를 갖는 제 3 하모닉 트랙 및 제 4 하모닉 트랙이 표시되어 있다. 제 3 하모닉 트랙의 시작위치는 홀수로 설정되고, 제 4 하모닉 트랙의 시작위치는 짝수로 설정될 수 있다. 한편, 각 그룹의 하모닉 트랙들이 3 개 이상일 경우 (즉, 게 1 그룹에 A 하모닉 트랙, B 하모닉 트랙, C 하모닉 트랙이 포함, 제 2 그룹에 K 하모닉 트랙, L 하모닉 트랙, M 하모닉 트랙이 포함), A I K 하모닉 트랙에 대응하는 제 1 위치 셋은 3N(N은 정수), B/ L하모닉 트랙에 대웅하는 제 2 위치 셋은 3N+1(N은 정수), C/M 하모닉 트랙에 대웅하는 제 3 위치 셋은 3N+2(N은 정수)일 수 있다.

상기와 같은 복수의 하모낙 트택은 다음 수학식을 통해 수행될 수 있다. [수학식 14]

D{k) = |i ₂(fc)-M₃₂(/c)|, A; = 280， ...,560 여기서， 2 W는 SWB 신호, ^32( )는 HF 합성신호.

HF 합성신호는 존재하지 않기 때문에 0 으로 초기값을 설정하면,

71//₃₂( )의 최대값을 찾는 과정이 된다. D(^k)는 미리 결정된 개수 (예: 총 4 개)의 하모닉 트랙의 합으로 표현된다. 각각의 하모닉 트랙 는 최대한 ₂ 개 이상의 피치 성분을 포함할 수 있으며, 하나의 피치 성분에 2 개의 하모닉 트랙 J^'을 추출할 수 있다. 각 피치 성분별 2 개의 가장 큰 값을 갖는 하모닉 트랙쟈를 찾는 과정은 다음과 같다._.

다음 수식은 오토코릴레이션 (autocorrelation) 함수를 이용하여 가장 많은 에너지를 포함하는 하모닉 트랙 ^ 의 피치 를 찾는다. 피치의 범위를 주파수 변환 계수들의 20-27 의 계수로 제한하여 추출되는 하모닉의 개수를 제한할 수 있다.

[수학식 15]

560― m

P_i(m)= ∑ (I ₂(n)|x|il½(n+m)|), m = 20,...,27 , i = 1,2 n = 280 다음 수식은 개별 피치 ^Pi마다 가장 많은 에너지를 포함하는 총

2 개의 하모닉 트랙 쟈^'의 시작위치 尸 를 계산하여 하모닉 트랙 Dj를 추출하는 과정이다. 하모닉 트랙 쟈의 시작위치 찌의 범위는 추출되는 하모닉의 개수를 포함하여 계산되며, MDCT 도메인 신호의 특성을 반영하여 피치 에 의해 2개의 시작위치 ^* 에 의해서 총 2개의 하모닉 트랙^? ^'이 추출된다.

[수학식 16]

l,…，： L6

' 추출된 4 개의 하모닉 트랙 ^ /^'의 피치 ^"^ 와 시작위치 의 범위와 개수는 도 19 의 (C)에 도시되어 있다.

하모닉정보 부호화부 (184)는 하모닉트택에 관한 상기 정보들을 인코딩하고 백터 양자화한다. 위의 과정에서 추출된 각 하모닉 트랙은 피치 와 시작위치 ^ 들으 위치정보를 갖고 있다. 추출된 피치 와 시작위치 ^PSH 다음과 같이 부호화된다. 피치 ^Pi 는 HF 에서 존재할 수 있는 하모닉의 개수를 제한하여

3 비트를 사용하여 양자화되며 , 시작위 치 는 4 비트를 사용하여 각각 양자화된다. 총 4 개의 하모닉 트랙을 추출하기 위 한 위치정보는 2 개의 피치 개의 시작위치^{^} 를 사용하여 총 22 비트가 사용될 수 있으나 본 발명은 이에 한정되지 아니 한다.

위 과정에서 추출되는 4 개의 하모닉 트랙은 최 대 44 개의 펄스를 포함한다. 44 개의 필스의 크기값과 부호정보를 모두 양자화하기 위해서는 많은 비트가 필요하다. 따라서 각각의 하모닉 트랙의 필스 중 펄스 피츠 추출 알고리즘을 이용하여 에너지를 많이 포함하는^' 펄스를 추출하여 크기 값과 부호화 정보를 다음 수식과 같이 별도 부호화한다.

다음의 알고리즘은 각각 하모닉 트랙에서 펄스 피크 PPi 추출 알고리즘으로서 에너지를 많이 포함하는 연속된 펄스를 찾고 크기값을 양자화하고, 부호정보를 다음 수식과 같이 별도로 부호화한다. 각각의 하모닉 트랙에서 필스 피크를 추출하기 위해서 3 비트를 사용하며, 2 개의 하모닉 트랙에서 추출된 4 개의 펄스는 8 비트를 사용하여 그 크기값이 양자화되며 , 각각의 부호정보를 위해 1 비트를 할당한다. 이를 통해 필스 피크 추출알고리즘을 통해 추출된 필스는 총 24 비트로 양자화된다.

[수학식 17]

+ 1)|²)： n = 1，…， 5

PP^n - l)= (|Λ^₂(η)|² + |^₂(η+ ΐ)|²)_; η = 7

^(«- 3)= (|ϋ^₂{η)|² + |^₂(η+ ί)||²)_; η = 11

위 과정에서 추출된 8 개의 펄스를 제외한 하모닉 트랙은 하나의 트랙으로 결합되어 DCT(Discrete Cosine Transform)을 이용하여 크기값과 부호정보를 동시에 양자화한다. DCT 양자화를 위해서는 19 비트가 사용된다. 추출된 4 개의 하모닉 트랙의 펄스 피크 추출 알고리즘을 통해 추출된 펄스와 이를 제외 한 하모닉 트택의 부호화 과정은 도 20 에 나타난 바와 같다. 도 20 을 참조하면, 제 1 그룹의 제 1 하모닉 트랙 중에 최 대 펄스와 그의 인접필스, 제 1 그룹의 제 2 하모닉 트랙 중에서 최 대 필스와 그의 인접 펄스에 대해 제 1 타깃 백터 (targetA)를 생성하고, 제 3 하모닉 트랙 중 최대 필스와 그의 인접펄스, 제 4 하모닉 트랙 중 최대 필스와 그의 인접 필스에 대해서 제 2 타깃 백터 (targetB)를 생성 한다. 제 1 타깃 백터 및 제 2 타깃 백터에 대해서 백터 _양자화를 수행하고, 각 하모닉 트랙들 중에서 상기 최대 펄스 및 인접 펄스를 제외 한 나머지 부분들 (residual)은 조합하여 이에 대해 주파수 변환을 수행한다. 이 때 주파수 변환에는 앞서 언급한 바와 같이 DCT(Discrete Cosine Transform)가 사용될 수 있다.

그리고 상기 에서 설명한 하모닉 트랙에 관한 정보의 일 예는 도 21 에 나타난 바와 같다.

도 22 은 특정 오디오 신호에 대해 넌-하모닉 모드 및 하모닉모드로 인코딩된 결과를 보여주기 위 한 도면이다. 도 22 를 참조하면， 하모닉 이 강한 신호에 대해서는 넌-하모닉 모드로 인코딩 한 결과보다, 하모닉 모드로 인코딩 한 결과가 원본 신호에 더욱 가깝기 때문에 , 음질이 향상될 수 있음을 알 수 있다.

도 23 은 본 발명의 실시 예에 따른 오디오 신호 처 리 장치 중 디코더 의 구성을 보여주는 도면이다. 도 23 을 참조하면, 본 발명의 실시 예에 따른 디코더 (200)는 모드결정부 (210), 비 -일반모드 디코딩부 (230)， 하모닉모드 디코딩부 (250) 중 하나 이상을 포함하고, 일반모드 디코딩부 (220), 넌- 하모닉모드 디코딩부 (240)를 더 포함할 수 있다. 한편, 수신된 오디오 신호에 대한 비트스트림를 파성하는 디 -멀티플렉서 (미도시)를 더 포함할 수 있다.

모드결정부 (210)는, 비트스트림을 통해 수신된 제 1 모드 정보 및 제 2 모드 정보를 근거로 현재 프레임에 대웅하는 모드 즉, 현재 모드를 결정한다. 제 1 모드 정보는， 앞서 인코더 (100)와 관련하여 언급한 바와 마찬가지로, 제 1 모드 정보는, 상기 넌 -토널 모드 및 상기 토널 모드 중 하나를 지시하고, 제 2 모드 정보는， 상기 제 1 모드 정보가 넌 -토널 모드를 지시하는 경우, 일반모드 또는 비 -일반 모드 중 하나를 지시하고, 제 1 모드 정보가 토널 모드를 지시하는 경우, 넌-하모닉 모드 및 하모닉 모드 중 하나를 지시한다.

이 결정된 현재 모드에 따라서， 현재 프레임에 대해 네 가지 디코딩부들 (220， 230, 240, 250) 중 하나가 활성화되고, 현재 모드에 따라서 각 모드에 대웅하는 파라미터가 디멀티플렉서 (미도시)에 의해 추출한다.

현재 모드가 일반 모드인 경우에는 인벨롭 위 치정보 및 스케일링 정보 등이 추출된다. 그러 면 일반모드 디코딩부 (220)는 복원된 저주파 대 역의 주파수 변환 계수들 (WB 신호) 중에서 상기 인벨롭 위치정보에 대웅하는 구간, 즉 최 대유사 밴드의 인벨롭을 추출한다. 그런 다음, 상기 스케일링 정보를 이용하여 인벨롭을 스케 일링 함으로써， 현재 프레 임의 고주파 대역 (SWB 신호)를 복원한다.

현재 모드가 비 -일반 모드인 경우에는 펄스 정보, 노이즈 위 치정보, 노이즈 에너지 정보 등이 추출된다. 그러면 비 -일반모드 디코딩부 (230)는, 펄스 정보를 근거로 복수 개의 펄스 (예를 들어 , 총 3 세트의 메 인펄스 및 서브펄스, 2 개의 단독 필스)를 생성 한다. 여 기서 펄스 정보는 펄스 위 치 정보， 펄스 부호 정보, 및 펄스 크기 정보를 포함할 수 있는데, 상기 필스 부호 정보에 따라 각 펄스들의 부호가 결정된다, 펄스 크기 정보 및 필스 위치 정보에 따라서 각 펄스들의 크기 및 위치가 결정된다. 그런 다음， 노이즈 위치정보를 이용하여 복원된 WB 신호 중에서 노이즈로 사용할 구간을 결정하고， 상기 노이즈 에너지 정보를 이용하여 노이즈 에너지를 조절한 후， 상기 펄스들을 합함으로써 , 현재 프레임의 SWB 신호를 복원한다. 현재 모드가 넌-하모닉 모드인 경우, 고정펄스들에 대한 정보인 고정필스정보가 추출된다. 넌 -하모닉모드 디코딩부 (240)는 고정펄스정보를 이용하여 서브밴드별로 정해진 위치 및 정해진 개수만큼의 고정필스를 획득한다. 고정펄스를 이용하여 현재 프레임의 SWB 신호를 생성 한다.

현재 모드가 하모닉 모드인 경우, 하모닉트랙의 위치정보 등이 추출된다. 여기서 하모닉트랙의 위치정보는 제 1 피 치를 갖는 제 1 그룹의 하모닉트랙들의 시작위치정보 및, 제 2 피치를 갖는 제 2 그룹의 하모닉트택들의 시작위치 정보를 포함한다. 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트택 및 제 2 하모닉 트택을 포함하고, 상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함할 수 있는데， 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대웅되고， 상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대웅될 수 있다.

여기서 , 상기 제 1 피치 및 제 2 피 치를 지시하는 피치 정보를 더 수신할 수 있다. 하모닉모드 디코딩부 (250)은 상기 피치 정보 및 상기 시작위치정보를 이용하여 상기 시작 위치 정보에 대응하는 복수의 하모닉 트랙을 생성하고, 복수의 하모닉 트랙을 이용하여 현재 프레임에 해당하는 오디오 신호 즉 SWB 신호를 생성 한다.

본 발명에 따른 오디오 신호 처 리 장치는 다양한 제품에 포함되어 이용될 수 있다. 이 러한 제품은 크게 스탠드 얼론 (stand alone) 군과 포터블 (portable) 군으로 나뉠 수 있는데, 스탠드 얼론군은 티비， 모니터 , 셋탑 박스 등을 포함할 수 있고， 포터블군은 PMP, 휴대폰, 네비 게이션 등을 포함할 수 있다.

도 24 는 본 발명의 실시 예에 따른 오디오 신호 처 리 장치가 구현된 제품의 개략적 인 구성을 보여주는 도면이다. 우선 도 24 를 참조하면, 유무선 통신부 (510)는 유무선 통신 방식을 통해서 비트스트림을 수신한다. 구체적으로 유무선 통신부 (510)는 유선통신부 (510A), 적외선통신부 (510B), 블루투스부 (510C), 무선랜통신부 (510D) 중 하나 이상을 포함할 수 있다.

사용자 인증부는 (520)는 사용자 정보를 입 력 받아서 사용자 인증을 수행하는 것으로서 지문인식부 (520A), 홍채 인식부 (520B), 얼굴인식부 (520C), 및 음성 인식부 (520D) 중 하나 이상을 포함할 수 있는데, 각각 지문, 홍채정보, 얼굴 윤곽 정보, 음성 정보를 입 력받아서 , 사용자 정보로 변환하고, 사용자 정보 및 기존 등록되어 있는 사용자 데이터와의 일치 여부를 판단하여 사용자 인증을 수행할 수 있다.

입 력부 (530)는 사용자가 여 러 종류의 명 령을 입 력하기 위 한 입 력장치로서 , 키 패드부 (530A), 터치패드부 (530B), 리모컨부 (530C) 중 하나 이상을 포함할 수 있지만， 본 발명은 이에 한정되지 아니한다.

신호 코딩 유닛 (540)는 유무선 통신부 (510)를 통해 수신된 오디오 신호 및 /또는 비디오 신호에 대해서 인코딩 또는 디코딩을 수행하고， 시간 도메인의 오디오 신호를 출력 한다. 오디오 신호 처 리 장치 (545)를 포함하는데, 이는 앞서 설명 한 본 발명의 실시 예 (즉, 제 1 실시 예에 따른 인코더 (100) 및 /또는 디코더 (200), 제 2 실시 예에 따른 인코더 (300) 및 /또는 디코더 (400))에 해당하는 것으로서, 이와 같이 오디오 처리 장치 (545) 및 이를 포함한 신호 코딩 유닛은 하나 이상의 프로세서에 의해 구현될 수 있다.

제어부 (550)는 입력장치들로부터 입력 신호를 수신하고, 신호 디코딩부 (540)와 출력부 (560)의 모든 프로세스를 제어한다. 출력부 (560)는 신호 디코딩부 (540)에 의해 생성된 출력 신호 등이 출력되는 구성요소로서, 스피커부 (560A) 및 디스플레이부 (560B)를 포함할 수 있다. 출력 신호가 오디오 신호일 때 출력 신호는 스피커로 출력되고, 비디오 신호일 때 출력 신호는 디스플레이를 통해 출력된다.

도 25 는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도이다. 도 25 는 도 24 에서 도시된 제품에 해당하는 단말 및 서버와의 관계를 도시한 것으로서， 도 25 의 (A)를 참조하면, 제 1 단말 (500.1) 및 제 2 단말 (500.2)이 각 단말들은 유무선 통신부를 통해서 데이터 내지 비트스트림을 양방향으로 통신할 수 있음을 알 수 있다. 도 16 의 (B)를 참조하면, 서버 (600) 및 제 1 단말 (500.1) 또한 서로 유무선 통신을 수행할 수 있음을 알 수 있다.

본 발명에 따른 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며， 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 ' 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD- ROM, 자기 테이프， 플로피디스크, 광 데이터 저장장치 등이 있으며， 또한 캐리어 웨이브 (예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유 /무선 통신망을 이용해 전송될 수 있다. 이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.

[Industrial Applicability]

본 발명은 오디오 신호를 인코딩하고 디코딩하는 데 적용될 수 있다.

Claims

【청구의 범위】

[청구항 1]

오디오 신호에 대해서 주파수 변환을 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 단계;

상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 단계; 및,

상기 비 -일반 모드가 선택된 경우, 다음 단계가 수행되는 단계;

상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 필스들을 추출하고， 펄스 정보를 생성하는 단계;

상기 고주파 대역의 주파수 변환 계수들로부터 상기 필스들올 제외한 원본 노이즈 신호를 생성하는 단계;

상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 및, 상기 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.

[청구항 2]

제 1 항에 있어서,

상기 펄스 비율은, 현재 프레임의 전체 에너지에 대한 복수의 펄스들에 대한 에너지의 비율인 것을 특징으로 하는 오디오 신호 처리 방법.

[청구항 3]

제 1항에 있어서,

미리 결정된 개수의 필스들을 추출하는 단계는

가장 큰 에너지를 갖는 메인 펄스를 추출하는 단계;

상기 메인 필스에 인접한서브 필스를 추출하는 단계; 및

상기 고주파 대역의 주파수 변환 계수에서 상기 메인 펄스 및 상기 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 생성하는 단계;

상기 타깃 노이즈 신호에 대해서 상기 메인 펄스 및 상기 서브 펄스를 추출하는 것을 미리 정해진 횟수만큼 반복하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법. [청구항 4]

제 1 항에 있어서, 상기 펄스 정보는, 필스 위치 정보, 펄스 부호 정보, 필스 크기 정보， 펄스 서브밴드 정보 중 하나 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법. [청구항 5]

제 1 항에 있어서,

상기 참조 노이즈 신호를 생성하는 단계는，

저주파 대역의 전체 에너지를 근거로 임계치를 설정하는 단계; 및 상기 임계치 이상의 펄스를 제외시킴으로써, 상기 참조 노이즈 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.

[청구항 6]

제 1 항에 있어서,

상기 노이즈 에너지정보를 생성하는 단계는,

상기 미리 결정된 개수의 펄스의 에너지를 생성하는 단계;

상기 원본 노이즈 신호의 에너지를 생성하는 단계;

상기 펄스의 에너지 및 상기 원본 노이즈 신호의 에너지를 이용하여 펄스 비율을 획득하는 단계; 및,

상기 펄스 비율을 노이즈 에너지 정보로서 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.

[청구항 7]

오디오 신호에 대해서 주파수 변환올 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 주파수 변환부;

상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 펄스비율 판단부;

상기 비 -일반 모드가 선택된 경우에 동작하며, 다음을 포함하는 비- 일반모드 인코딩부;

상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 펄스들을 추출하고, 펄스 정보를 생성하는 필스 추출부; 상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 참조노이즈 생성부; 및,

원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 노이즈 탐색부를 포함하고， 상기 원본 노이즈 신호는, 상기 고주파 대역의 주파수 변환 계수들로부터 상기 필스들을 제외함으로써 생성되는 것을 특징으로 하는 오디오 신호 처리 장치. ^' [청구항 8]

현재 프레임이 일반 모드 인지 아니면 비 -일반 모드인지 여부를 지시하는 제 2 모드 정보를 수신하는 단계;

상기 제 2 모드 정보가 현재 프레임이 비 -일반 모드임을 지시하는 경우， 필스 정보, 노이즈 위치정보 및 노이즈 에너지정보를 수신하는 단계;

상기 펄스 정보를 이용하여, 주파수 변환 계수들에 대해서 미리 결정된 개수의 펄스들을 생성하는 단계;

상기 노이즈 위치정보에 대웅하는 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계;

상기 노이즈 에너지정보를 이용하여 상기 참조 노이즈 신호의 에너지를 조절하는 단계; 및,

상기 에너지 조절된 참조 노이즈 신호 및 상기 복수의 필스를 이용하여 고주파 대역에 대웅하는 주파수 변환 계수들을 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법. [청구항 9]

오디오 신호를 수신하는 단계;

오디오 신호에 대해서 주파수 변환을 수행하여, 복수개의 주파수 변환 계수들을 획득하는 단계;

상기 주파수 변환 계수에 대해서, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계;

상기 하모닉 모드가 선택된 경우, 다음 단계가수행되는 단계;

제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙들을 결정하는 단계;

제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙들을 결정하는 단계; 및, 상기 복수의 하모닉 트랙들의 시작 위치 정보를 생성하는 단계를 포함하고,

상기 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트택 및 제 2 하모닉 트랙을 포함하고,

상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함하고,

상기 계 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대웅되고, 상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대웅되는 것을 특징으로 하는 오디오 신호 처리 방법.

[청구항 10]

제 9 항에 있어서,

상기 하모닉 비율은, 복수의 하모닉 트랙들의 에너지 및 복수 개의 펄스의 에너지를 근거로 생성된 것임을 특징으로 하는 오디오 신호 처리 방법.

[청구항 11]

제 9 항에 있어서,

상기 제 1 위치 셋은 짝수 위치들에 해당하고, 제 2 위치 셋은 홀수 위치들에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.

[청구항 12]

제 9 항에 있어서,

상기 제 1 하모닉 트랙 중에서의 최대 펄스， 및 그의 인접 펄스, 상기 제 2 하모닉 트랙 중에서 최대 펄스, 및 그의 인접 펄스를 포함하는 제 1 타깃 백터를 생성하는 단계;

상기 제 3 하모닉 트랙 중에서의 최대 필스, 그의 인접 펄스, 상기 제 4 하모닉 트랙 중에서의 최대 펄스, 그의 인접 펄스를 포함하는 제 2 타깃 백터를 생성하는 단계;

상기 제 1 타깃 백터 및 상기 제 2 타깃 백터를 백터 -양자화하는 단계; 상기 하모닉 트랙들에서 상기 게 1 타깃 백터 및 상기 제 2 타깃 백터를 제외한 대상에 대해 주파수 변환하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.

[청구항 13]

제 9 항에 있어서,

제 1 하모닉 트택은 제 1 피치를 갖는 복수의 펄스들의 집합이고， 제 2 하모닉 트랙은 제 1 피치를 갖는 복수의 펄스들의 집합이고, 제 3 하모닉 트랙은 제 2 피치를 갖는 복수의 필스들의 집합이고, 제 4 하모닉 트랙은 제 2 피치를 갖는 복수의 필스들의 집합인 것을 특징으로 하는 오디오 신호 처리 방법. [청구항 14]

제 9 항에 있어서 상기 제 1 피치 및 상기 제 2 피치를 지시하는 피치 정보를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처 리 방법 .

[청구항 15]

제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙들 및 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙을 포함하는 복수의 하모닉 트택들의 시작 위치 정보를 수신하는 단계;

상기 시작 위치 정보에 대응하는 복수의 하모닉 트택을 생성하는 단겨 h 상기 복수의 하모닉 트랙을 이용하여 현재 프레임에 해당하는 오디오 신호를 생성하는 단계를 포함하고,

상기 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트랙 및 제 2 하모닉 트랙을 포함하고,

상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트택을 포함하고，

상기 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대웅되고,

상기 제 2 하모닉 트랙 및 제 4 하모닉 ^랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대웅되는 것을 특징으로 하는 오디오 신호 처 리 방법 .

[청구항 16]

오디오 신호에 대해서 주파수 변환을 수행하여 , 복수개의 주파수 변환 계수들을 획득하는 단계;

상기 주파수 변환 계수들에 대해서 , 프레임간 유사성을 근거로 넌 -토널 모드 및 토널 모드를 선택하는 단계;

상기 넌 -토널 모드가 선택된 경우， 펄스 비율을 근거로 일반 모드 및 비 - 일반모드 중 하나를 선택하는 단계;

상기 토널 모드가 선택된 경우, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계; 및,

상기 선택된 모드에 따라서 상기 오디오 신호를 인코딩함으로써 파라미터를 생성하는 단계를 포함하고,

상기 일반 모드인 경우, 상기 파라미터는 인벨롭 위치정보 및 스케일링 정보를 포함하고,

상기 비 -일반 모드인 경우, 상기 파라미터는 펄스정보 및 노이즈 에너지정보를 포함하고

상기 넌-하모닉 모드인 경우, 상기 파라미터는 서브밴드별로 개수가 미 리 정해진 고정 필스들에 대한 정보인 고정 필스정보를 포함하고， 상기 하모닉 모드인 경우， 상기 파라미터는 제 1 그룹의 하모닉 트랙들의 위치정보들, 제 2 그룹의 하모닉 트택들의 위치정보들을 포함하는 것을 특징으로 하는 오디오 신호 처 리 방법 . [청구항 Π]

제 16 항에 있어서 ,

상기 선택된 모드에 따라서 , 제 1 모드 정보 및 제 2 모드 정보를 생성하는 단계를 더 포함하고,

상기 제 1 모드 정보는, 상기 넌 -토널 모드 및 상기 토널 모드 중 하나를 지시하고,

상기 제 2 모드 정보는, 상기 제 1 모드 정보가 넌 -토널 모드를 지시하는 경우， 상기 일반모드 또는 상기 비 -일반 모드 중 하나를 지시하고， 상기 제 1 모드 정보가 토널 모드를 지시하는 경우， 상기 넌- 하모닉 모드 및 상기 하모닉 모드 중 하나를 지시하는 것을 특징으로 하는 오디오 신호 처리 방법 .

[청구항 18]

비트스트림을 통해 제 1 모드 정보 및 제 2 모드 정보를 추출하는 단계 ;

상기 제 1 모드 정보 및 제 2 모드 정보를 근거로 하여 , 현재 프레임에 해당하는 현재 모드를 결정하는 단계 ; '

상기 현재 모드가 일반 모드인 경우, 인벨톱 위치 정보 및 스케일링 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 상기 현재 모드가 비 -일반 모드인 경우， 필스정보 및 노이즈 에너지 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계 ;

상기 현재 모드가 넌-하모닉 모드인 경우, 서브밴드별로 개수가 미 리 정해진 고정 펄스들에 대한 정보인 고정펄스정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 및,

상기 현재 모드가 하모닉 모드인 경우, 제 1 그룹의 하모닉 트랙의 위치정보들 및 제 2 그룹의 하모닉 트랙의 위치정보들을 이용하여 현재 프레임의 오디오 신호를 복원하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처 리 방법 .