KR102052144B1

KR102052144B1 - 음성 신호의 대역 선택적 양자화 방법 및 장치

Info

Publication number: KR102052144B1
Application number: KR1020147013262A
Authority: KR
Inventors: 정규혁; 이영한; 홍기봉; 전혜정; 이인성; 강인규; 김락용
Original assignee: 엘지전자 주식회사; 충북대학교 산학협력단
Priority date: 2011-10-24
Filing date: 2012-05-04
Publication date: 2019-12-05
Also published as: US20140303967A1; WO2013062201A1; JP6042900B2; KR20140088879A; EP2772911B1; EP2772911A4; EP2772911A1; US9390722B2; CN103999153A; JP2014531063A; CN103999153B

Abstract

음성 신호의 대역 선택적 양자화 방법 및 장치가 개시되어 있다. 음성 복호 방법은 선택적으로 양자화된 음성 대역에서 산출된 음성 파라메터 정보를 역양자화하는 단계와 역양자화된 음성 파라메터 정보를 기초로 역변환을 수행하는 단계를 포함할 수 있다. 따라서, 중요한 정보를 선택적으로 부복호화함으로서 음성 부복호화에서 부복호화효율을 높힐 수 있다.

Description

음성 신호의 대역 선택적 양자화 방법 및 장치{METHOD AND DEVICE FOR QUANTIZING VOICE SIGNALS IN A BAND-SELECTIVE MANNER}

본 발명은 음성 신호의 대역 선택적 양자화 방법 및 이러한 방법을 사용하는 장치에 관한 것으로 더욱 상세하게는 음성 부복호화 방법 및 장치에 관한 것이다.

음성 통신은 현재 이동 통신에서 주도적으로 사용되어지는 방법이다. 사람이 발생하는 음성 신호는 전기적인 아날로그 신호로 표현할 수 있으며 유선 전화는 이 아날로그 신호를 전송하고 수신측에서는 전송된 아날로그 전기신호를 음성 신호로 재생하는 과정을 거친다.

현재 정보 기술의 발달은 기존의 아날로그 전기 신호를 전송하는 아날로그 시스템보다 더욱 더 유연하고도 많은 정보를 전달할 수 있는 방법을 찾기 시작했다. 이런 이유로 음성 신호는 아날로그에서 디지털로 변환하기 시작했다. 디지털 음성신호는 아날로그에 비해서 전송에 많은 대역폭을 필요로 함에도 불구하고 신호 전달, 유연성, 보안, 그리고 타시스템과의 연동 등 많은 부분에서 장점을 가진다. 디지털 음성신호가 가지는 큰 대역폭의 단점을 보완하기 위해서 나타나는 것이 바로 음성 압축 기술이며 이를 통하여 음성 신호의 아날로그에서 디지털로의 변화는 가속되었으며 현재까지도 정보통신의 중요한 부분을 차지하고 있다.

음성 신호를 압축함에 있어서 신호를 모델링하는 방법에 따라 16kbps 이하의 중.저 전송속도 코덱(codec)과 고 전송속도 코덱으로 분류를 할 수 있다. 고 전송속도 코덱의 경우 파형 부호화(Wave Form Coding) 방식을 사용하여 이는 수신부에서 원 신호를 얼마나 정확히 복원하는가의 문제에 관심을 가지고 압축을 한다. 이러한 부호화 방식을 허용하는 코덱을 Waveform Coder라고 한다. 그러나 중.저 전송속도 코덱에서는 원 신호를 나타낼 수 있는 비트가 적어짐에 따라 파원 부호화 방식(Source coding)을 사용하여 압축을 하며 이는 음성 신호 발생 모델을 이용하여 특징 파라미터만을 전송함으로서 수신부에서 얼마나 비슷한 소리가 복원되는가에 관심을 가지고 코딩을 하고 이러한 방식의 coder를 보코더(vocoder)라고 한다.

본 발명의 목적은 음성 부호화 효율을 증가시키기 위한 음성의 주파수 대역별로 선택적으로 양자화 및 역양자화를 수행하는 방법을 제공하는 것이다.

또한, 본 발명의 다른 목적은 음성 부호화 효율을 증가시키기 위한 주파수대역별로 선택적으로 양자화 및 역양자화를 수행하는 방법을 수행하는 장치를 제공하는 것이다.

상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 측면에 따른 복호화 방법은 선택적으로 양자화된 음성의 주파수 대역에서 산출된 음성 파라메터 정보를 역양자화하는 단계와 상기 역양자화된 음성 파라메터 정보를 기초로 역변환을 수행하는 단계를 포함할 수 있다. 상기 선택적으로 양자화된 음성 대역은 미리 정해진 고정된 적어도 하나의 양자화 대상 저주파수 음성 대역 및 선택된 적어도 하나의 양자화 대상 고주파수 음성 대역일 수 있다. 상기 선택된 적어도 하나의 고주파수 음성 대역은 음성의 주파수 대역의 에너지의 분포 정보를 기초로 선택된 에너지 비중이 높은 주파수 대역일 수 있다. 상기 역양자화된 음성 파라메터 정보를 기초로 역변환을 수행하는 단계는 상기 역양자화된 음성 파라메터 정보를 기초로 선택된 양자화 대상 음성 대역에 대해 서로 다른 코드북을 적용하여 역변환을 수행하는 단계일 수 있다. 상기 양자화 대상 음성 대역은 미리 정해진 고정된 적어도 하나의 양자화 대상 저주파수 음성 대역 및 선택된 적어도 하나의 양자화 대상 고주파수 음성 대역일 수 있다. 상기 양자화 대상 음성 대역에 서로 다른 코드북을 적용하여 역변환을 수행하는 단계는 제1 코드북 및 역양자화된 상기 양자화 대상 저주파수 음성 대역의 음성 파라메터를 기초로 음성 신호을 복원하고, 제2 코드북 및 역양자화된 상기 양자화 대상 고주파수 음성 대역의 음성 파라메터를 기초로 음성 신호를 복원하는 단계일 수 있다. 상기 역양자화된 음성 파라메터 정보를 기초로 역변환을 수행하는 단계는 역양자화된 comfort noise level을 비양자화 대상 음성 대역에 적용하여 음성 신호를 복원하는 단계를 더 포함할 수 있다. 상기 선택적으로 양자화된 음성 대역은 미리 정해진 고정된 적어도 하나의 양자화 대상 저주파수 음성 대역 및 선택된 적어도 하나의 양자화 대상 고주파수 음성 대역일 수 있다. 상기 선택적으로 양자화된 음성 주파수 대역에서 산출된 음성 파라메터 정보를 역양자화하는 단계는 AbS(Analysis by Synthesis)를 이용하여 원본 신호와 가장 유사한 조합으로 선택된 상기 양자화 대상 고주파 음성 대역과 상기 미리 정해진 고정된 적어도 하나의 양자화 대상 저주파수 음성 대역에서 산출된 음성 파라메터 정보를 역양자화하는 단계일 수 있다. 상기 역양자화된 음성 파라메터 정보를 기초로 역변환을 수행하는 단계는 상기 양자화 대상 고주파 음성 대역에 IDFT(Inverse Direct Fourier Transform)를 사용하고, 상기 양자화 대상 저주파수 음성 대역에 IFFT(Inverse Fast Fourier Transform)를 사용하여 역변환을 수행하는 단계일 수 있다.

상술한 본 발명의 다른 목적을 달성하기 위한 본 발명의 다른 측면에 따른 복호화 장치는 선택적으로 양자화된 음성 주파수 대역에서 산출된 음성 파라메터 정보를 역양자화하는 역양자화부와 상기 역양자화부에서 역양자화된 음성 파라메터 정보를 기초로 역변환을 수행하는 역변환부를 포함할 수 있다. 상기 선택적으로 양자화된 음성 대역은 미리 정해진 고정된 적어도 하나의 양자화 대상 저주파수 음성 대역 및 선택된 적어도 하나의 양자화 대상 고주파수 음성 대역일 수 있다. 상기 역변환부는 상기 역양자화된 음성 파라메터 정보를 기초로 양자화 대상 음성 대역을 판단하고 상기 양자화 대상 음성 대역에 서로 다른 코드북을 적용하여 역변환을 수행하여 음성 신호를 복원하는 역변환부일 수 있다. 상기 역양자화부는 AbS (Analysis by Synthesis)를 이용하여 원본 신호와 가장 유사한 조합으로 선택된 양자화 대상 고주파 음성 대역과 미리 정해진 고정된 적어도 하나의 양자화 대상 저주파수 음성 대역에서 산출된 음성 파라메터 정보를 역양자화하는 역양자화부일 수 있다. 상기 역변환부는 상기 양자화 대상 고주파 음성 대역에 IDFT(Inverse Direct Fourier Transform)를 사용하고, 상기 양자화 대상 저주파수 음성 대역에 IFFT(Inverse Fast Fourier Transform)를 사용하여 역변환을 수행하는 역변환부일 수 있다.

상술한 바와 같이 본 발명의 실시예에 따른 음성 신호의 대역 선택적 양자화 방법 및 장치에 따르면, 음성 파라메터 정보를 양자화함에 있어서 중요 정보를 포함한 일부 대역만을 선택적으로 양자화함으로서 불필요한 정보를 줄여 음성 부호화 효율을 높일 수 있다. 또한 일부 대역을 선택할 때 abs방법을 통해 선택함으로 시간축 음성 신호에 가장 가까운 신호를 복원 할 수 있다.

도 1 내지 4는 본 발명의 실시예에 따른 음성 부호화기 및 복호화기를 나타내는 개념도이다.
도 1은 본 발명의 실시예에 따른 음성 부호화기를 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 TCX 모드를 수행하는 TCX 모드 수행부를 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 CELP 모드를 수행하는 CELP 모드 수행부를 나타낸 개념도이다.
도 4는 본 발명의 실시예에 따른 음성 복호화기를 나타낸 개념도이다.
도 5 내지 7은 본 발명의 실시예에 따른 TCX 모드로 부호화를 수행하는 방법을 나타낸 순서도이다.
도 8은 본 발명의 실시예에 따른 양자화 대상 밴드 선택 방법의 한 예를 도시한 것이다.
도 9는 본 발명의 실시예에 따른 전술한 양자화 선택 밴드의 선형 예측 잔여 신호의 정규화 과정의 한예를 도시한 것이다.
도 10은 본 발명의 실시예에 따른 comfort noise level (CN level) 삽입의 효과를 보여주기 위해 comfort noise를 삽입하기 전과 삽입한 후의 신호를 도시한 것이다.
도 11은 본 발명의 실시예에 따른 comfort noise 산출 방법을 나타낸 개념도이다.
도 12는 본 발명의 실시예에 따른 음성 부호화기의 일부(TCX 모드 블록의 양자화부)를 나타낸 개념도이다.
도 13은 본 발명의 실시예에 따른 TCX 모드 블록의 역양자화 과정을 나타내는 순서도이다.
도 14는 본 발명의 실시예에 따른 음성 복호화 장치의 일부(TCX 모드 블록의 역양자화부)를 나타낸 개념도이다.
도 15 내지 20은 본 발명의 또 다른 실시예로 AbS(Analysis by Synthesis) 방법을 사용하여 TCX 모드의 부호화를 수행하는 방법을 나타낸다.
도 15는 본 발명의 실시예에 따른 AbS(Analysis by Synthesis) 방법을 사용하는 TCX 모드로 부호화를 수행하는 방법을 나타낸 개념도이다.
도 16은 본 발명의 실시예에 따른 Band-Selection IDFT가 AbS 구조에 적용되는 방법을 나타낸 개념도이다.
도 17은 본 발명의 실시예에 따른 AbS 구조 전단에서 처리되는 Band-Selection IDFT의 과정을 나타낸 개념도이다.
도 18은 본 발명의 실시예에 따른 AbS 구조를 사용하여 TCX 모드를 부호화하는 방법을 나타낸 개념도이다.
도 19는 본 발명의 실시예에 따른 AbS 구조를 사용하여 TCX 모드 블록의 역양자화 과정을 나타낸 순서도이다.
도 20은 본 발명의 실시예에 따른 음성 복호화 장치의 일부(AbS 구조를 사용하는 TCX 모드 블록의 역양자화부)를 나타낸 개념도이다.
도 21, 도 22 및 도 23은 분석 및 합성 구조에서 상위 대역 신호 조합을 선택하기 위한 비교 신호로서 입력 음성 신호가 청각 인지 가중 필터인 W(z)를 통과한 경우를 나타낸 개념도이다.

이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

어떤 구성 요소가 다른 구성 요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 아울러, 본 발명에서 특정 구성을 “포함”한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

또한 본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.

또한, 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.

도 1은 본 발명의 실시예에 따른 음성 부호화기를 나타낸 개념도이다.

도 1을 참조하면, 음성 부호화기는 대역폭 확인부(103), 샘플링 변환부(106), 전처리부(109), 대역 분할부(112), 선형 예측 분석부(115, 118), 선형 예측 양자화부(121, 124), TCX 모드 수행부(127), CELP 모드 수행부(136), 모드 선택부(151), 대역 예측부(154), 보상 이득 예측부(157)를 포함할 수 있다.

도 1은 음성 부호화기를 설명하기 위한 하나의 실시예로 본 발명의 본질에서 벋어나지 않는 한 본 발명의 실시예에 따른 음성 부호화기는 다른 구성을 가질 수 있다. 또한, 도 1에 나타난 각 구성부들은 음성 부호화기에서 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시한 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성 단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벋어나지 않는 한 본 발명의 권리범위에 포함된다. 또한, 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 예를 들어 음성 신호의 대역폭에 따라 도 1에서 불필요한 구성부는 제외된 음성 부호화기가 구현될 수 있고 이러한 음성 부호화기의 실시예 또한, 본 발명의 권리 범위에 포함된다.

본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.

대역폭 확인부(103)는 입력되는 음성 신호의 대역폭 정보를 판단할 수 있다. 음성 신호는 약 4kHz의 대역폭을 가지고 PSTN(public switched telephone network)에서 많이 사용되는 협대역 신호(Narrowband), 약 7kHz의 대역폭을 가지고 협대혁의 음성 신호보다 자연스러운 고음질 스피치나 AM 라디오에서 많이 사용되는 광대역 신호(Wideband), 약 14kHz 정도의 대역폭을 가지며 음악, 디지털 방송과 같이 음질이 중요시되는 분야에서 많이 사용되는 초광대역 신호(Super wideband), 20kHz 정도의 대역폭을 가지는 fullband로 대역폭에 따라 음성 신호를 분류할 수 있다. 대역폭 확인부(103)에서는 입력된 음성 신호를 주파수 영역으로 변환하여 현재 음성 신호의 대역폭을 판단할 수 있다.

음성 부호화기에서는 음성의 대역폭에 따라 부호화 동작이 달라질 수 있다. 예를 들어, 입력 음성이 초광대역 신호일 경우 대역분활부(112) 블록으로만 입력되고 샘플링변환부(106)는 동작하지 않는다. 입력 음성이 협대역 신호 또는 광대역 신호의 경우 신호는 샘플링변환부(106) 블록으로만 입력되고 대역분활부(112) 블록 이후의 블록들(115,121,157,154)은 동작하지 않는다. 대역폭 확인부(103)는 구현에 따라 입력되는 음성 신호의 대역폭이 고정되어 있는 경우는 따로 구비되지 않을 수 있다.

샘플링 변환부(106)는 입력된 협대역 신호 또는 광대역 신호를 일정한 샘플링 레이트를 변경할 수 있다. 예를 들어, 입력받은 협대혁 음성신호의 샘플링 레이트가 8kHz인 경우, 12.8kHz로 업샘플링하여 상위 대역 신호를 생성할 수 있고 입력받은 광대혁 음성신호가 16kHz인 경우, 12.8kHz로 다운 샘플링을 수행하여 하위 대역 신호를 만들 수 있다. 내부 샘플링 주파수(internal sampling frequency)는 12.8kHz가 아닌 다른 샘플링 주파수를 가질 수도 있다.

전처리부(109)는 샘플링 변환부(106)로부터 변환된 내부 샘플링 주파수를 가진 음성신호에 대해 전처리를 수행하여 전처리부(109)의 후단에서 음성 파라메터를 효과적으로 산출할 수 있도록 한다. 예를 들어, 하이 패스 필터링 또는 프리-엠퍼시스(Pre-emphasis) 필터링과 같은 필터링을 사용하여 중요한 영역의 주파수 성분을 추출할 수 있다. 예를 들어, 음성 대역폭에 따라 차단 추파수(cutoff frequency)를 다르게 설정하여 상대적으로 덜 중요한 정보가 모여있는 주파수 대역인 very low frequency를 하이 패스 필터링함으로서 포커스를 파라미터 추출시 필요한 중요 대역에 맞출 수 있다. 또 다른 예로 pre-emphasis 필터링을 사용하여 입력 신호의 높은 주파수 대역을 부스트하여 낮은 주파수 영역과 높은 주파수 영역의 에너지를 스케일링하여 선형 예측 분석시 해상도를 증가시킬 수 있다.

대역 분할부(112)는 입력된 초광대역 신호의 샘플링 레이트를 변환하고 상위 대역과 하위 대역으로 분할할 수 있다. 예를 들어, 32kHz의 음성 신호를 25.6kHz의 샘플링 주파수로 변환하고 상위 대역과 하위 대역으로 12.8kHz씩 분할할 수 있다. 분할된 대역 중 하위 대역은 전처리부(109)로 전송되어 필터링될 수 있다.

선형 예측 분석부(118)는 LPC(Linear Prediction Coefficient)를 산출할 수 있다. 선형 예측 분석부(118)에서는 음성 신호의 주파수 스펙트럼의 전체 모양을 나타내는 포만트(Formant)를 모델링할 수 있다. 선형 예측 분석부(118)에서는 원래의 음성 신호와 선형 예측 분석부(118)에서 산출된 선형 예측 계수를 이용해 생성한 예측 음성 신호의 차이인 error 값의 MSE(mean square error)가 가장 작아지도록 LPC 계수값을 산출할 수 있다. LPC 계수를 산출하기 위해서는 autocorrelation 방법 또는 covariance 방법 등 다양한 LPC 계수 산출 방법이 사용될 수 있다.

선형 예측 양자화부(124)에서는 하위 대역 음성 신호에 대하여 추출된 LPC 계수를 LSP나 LSF와 같은 주파수 영역의 변환 계수들로 변환하여 양자화할 수 있다. LPC 계수는 큰 Dynamic Range를 가지기 때문에 이러한 LPC 계수를 그대로 전송하는 경우, 압축률이 떨어지게 된다. 따라서 주파수 영역으로 변환된 변환계수를 사용하여 적은 정보량으로 LPC 계수 정보를 생성할 수 있다. 선형 예측 양자화부(124)에서는 LPC 계수 정보를 양자화하여 부호화하고, 역양자화를 수행하여 시간도메인으로 변환된 LPC 계수를 이용하여 포만트 성분을 제외한 신호인 피치(pitch) 정보와 성분과 랜덤 신호를 포함한 선형 예측 잔여 신호를 선형 예측 양자화부(124)의 후단에 전송할 수 있다. 상위 대역에서는 선형 예측 잔여 신호가 보상 이득 예측부(157)로 전송되고, 하위 대역에서는 TCX 모드 수행부(127) 와 CELP 수행부(136)로 전달될 수 있다.

이하 본 발명의 실시예에서는 협대역 신호 또는 광대역 신호의 선형 예측 잔여 신호를 TCX(Transform Coded Excitation) 모드 또는 CELP(Code Excited Linear Prediction) 모드로 부호화하는 방법에 대해 개시한다.

도 2는 본 발명의 실시예에 따른 TCX 모드를 수행하는 TCX 모드 수행부를 나타낸 개념도이다.

TCX 모드 수행부는 TCX 변환부(200), TCX 양자화부(210), TCX 역변환부(220) 및 TCX 합성부(230)를 포함할 수 있다.

TCX 변환부(200)에서는 DFT(Discrete Fourier Transform) 또는 MDCT (Modified DiscreteCosine Transform)과 같은 변환 함수에 기초하여 입력된 잔여 신호를 주파수 도메인으로 변환시킬 수 있고 변환 계수 정보를 TCX 양자화부(210)에 전송할 수 있다.

TCX 양자화부(210)에서는 TCX 변환부(200)를 통해 변환된 변환 계수들에 대해 다양한 양자화 방법을 사용하여 양자화를 수행할 수 있다. 본 발명의 실시예에 따르면, TCX 양자화부(210)에서 선택적으로 주파수 대역에 따라 양자화를 수행할 수 있고 또한, AbS(Analysis by Synthesis)를 이용하여 최적의 주파수 조합을 산출할 수 있고 이러한 실시예에 대해서는 이하 본 발명의 실시예에서 상술한다.

TCX 역변환부(220)에서는 양자화된 정보를 기초로 변환부에서 주파수 도메인으로 변환된 선형 예측 잔여 신호를 다시 시간 도메인의 여기 신호로 역변환할 수 있다.

TCX 합성부(230)는 역변환된 TCX 모드로 양자화된 선형 예측 계수값과 복원된 여기 신호를 이용하여 합성된 음성 신호를 산출할 수 있다. 합성된 음성 신호는 모드 선택부(151)로 제공되고, TCX 모드로 복원된 음성 신호는 이후 후술할 CELP 모드로 양자화되고 복원된 음성 신호와 비교될 수 있다.

도 3은 본 발명의 실시예에 따른 CELP 모드를 수행하는 CELP 모드 수행부를 나타낸 개념도이다.

CELP 모드 수행부는 피치 검출부(300), 적응 코드북 검색부(310), 고정 코드북 검색부(320), CELP 양자화부(330), CELP 역변환부(340) 및 CELP 합성부(350)를 포함할 수 있다.

피치 검출부(300)에서는 선형 예측 잔여 신호를 기초로 피치의 주기 정보와 피크 정보를 Autocorrelation 방법과 같은 open-loop 방식으로 구할 수 있다.

피치 검출부(300)에서는 합성된 음성 신호와 실제의 음성 신호를 비교하여 피치 주기(피크값)을 산출할 수 있다. 산출된 피치 정보는 CELP 양자화부에서 양자화되고, 적응 코드북 검색부로 전달되어 피치 주기(피치값)를 AbS(Analysis by Synthesis)와 같은 방법으로 산출할 수 있다.

적응 코드북 검색부(310)는 피치 검출부(300)에서 산출된 양자화된 피치 정보를 기초로 선형 예측 잔여 신호에서 피치 구조를 AbS(Analysis by Synthesis)와 같은 방법으로 산출할 수 있다. 적응 코드북 검색부(310)에서는 피치 구조를 제외한 나머지 랜덤 신호 성분이 산출될 수 있다.

고정 코드북 검색부(320)는 적응 코드북 검색부(310)로부터 산출된 랜덤 신호 성분에 대하여 코드북 인덱스 정보와 코드북 이득 정보를 이용하여 부호화를 수행할 수 있다. 고정 코드북 검색부(320)에서 산출된 코드북 인덱스 정보와 코드북 이득 정보는 CELP 양자화부(330)에서 양자화될 수 있다.

CELP 양자화부(330)는 전술한 바와 같이 피치 검출부(300), 적응 코드북 검색부(310), 고정 코드북 검색부(320)에서 산출된 피치 관련 정보, 코드북 관련 정보를 양자화할 수 있다.

CELP 역변환부(340)는 CELP 양자화부(330)에서 양자화된 정보를 이용하여 여기 신호를 복원할 수 있다.

CELP 합성부(350)는 역변환된 CELP 모드로 양자화된 선형 예측 잔여 신호인 복원된 여기 신호에 대하여 선형 예측의 역과정을 수행하여 복원된 음성 신호와 양자화된 선형 예측 계수를 기초로 합성된 음성 신호를 산출할 수 있다. CELP 모드로 복원된 음성 신호는 모드 선택부(151)로 제공되고, 전술한 TCX 모드로 복원된 음성 신호와 비교될 수 있다.

모드 선택부(151)에서는 TCX 모드로 복원된 여기 신호로 생성한 TCX 복원 음성 신호와 CELP 모드로 복원된 여기 신호로 생성한 CELP 복원 음성 신호를 비교하여 원래의 음성 신호와 더 유사한 신호를 선택할 수 있고 어떠한 모드로 부호화된 것인지에 대한 모드 정보 역시 부호화할 수 있다. 선택 정보는 대역 예측부(154)로 전송될 수 있다.

대역 예측부(154)에서는 모드 선택부(151)에서 전송된 선택 정보와 복원된 여기 신호를 이용하여 상위 대역의 예측 여기 신호를 생성할 수 있다.

보상 이득 예측부(157)는 대역 예측부(154)에서 전송된 상위 대역 예측 여기 신호와 상위 대역 예측 잔여 신호를 비교하여 스펙트럼상의 게인을 보상할 수 있다.

도 4는 본 발명의 실시예에 따른 음성 복호화기를 나타낸 개념도이다.

도 4를 참조하면, 음성 복호화기는 역양자화부(401, 402), 역변환부(405), 제1 선형 예측 합성부(410), 샘플링 변환부(415), 후처리 필터링부(420, 445), 대역 예측부(440), 이득 보상부(430), 제2 선형 예측 합성부(435), 대역 합성부(440)를 포함할 수 있다.

역양자화부(401, 402)는 음성 부호화기에서 양자화된 파라메터 정보를 역양자화하여 음성 복호화기의 각 구성부에 제공할 수 있다.

역변환부(405)에서는 TCX 모드 또는 CELP 모드로 부호화된 음성 정보를 역변환하여 여기 신호를 복원할 수 있다. 본 발명의 실시예에 따르면 역변환부에서는 음성 부호화기에서 선택된 일부 대역에 대한 역변환만을 수행할 수 있고 이러한 실시예에 대해서는 이하, 본 발명의 실시예에서 상술한다. 복원된 여기 신호는 제1 선형 예측 합성부(410)와 대역 예측부(425)로 전송될 수 있다.

제1 선형 예측 합성부(410)는 역변환부(405)로부터 전송된 여기 신호와 음성 부호화기로부터 전송된 선형 예측 계수 정보를 이용하여 하위 대역 신호를 복원할 수 있다. 복원된 하위 대역 음성 신호는 샘플링 변환부(415)와 대역 합성부(440)로 전송될 수 있다.

대역 예측부(425)는 역변환부(405)로부터 전송된 복원된 여기 신호값을 기초로 상위 대역의 예측 여기 신호를 생성할 수 있다.

이득 보상부(430)에서는 대역 예측부(425)에서 전송된 상위 대역 예측 여기 신호와 부호화기에서 전송된 보상 이득값을 기초로 초광대역 음성 신호의 스펙트럼 상의 게인을 보상할 수 있다.

제2 상위 대역 선형 예측 합성부(435)는 이득 보상부(430)로부터 전송된 보상된 상위 대역 예측 여기 신호값과 음성 부호화기로부터 전송된 선형 예측 계수값을 기초로 상위 대역의 음성 신호를 복원할 수 있다.

대역 합성부(440)에서는 제1 선형 예측 합성부(410)에서 전송된 복원된 하위 대역 신호와 제2 상위 대역 선형 예측 합성부(435)에서 전송된 복원된 상위 대역 신호의 대역을 합성하여 대역 합성을 수행할 수 있다.

샘플링 변환부(415)에서는 내부 샘플링 주파수값을 다시 원래의 샘플링 주파수 값으로 변환시킬 수 있다.

후처리 필터링부(420, 445)에서는 예를 들어, 전처리부에서 pre-emphasis 필터를 역필터링할 수 있는 de-emphasis 필터가 포함될 수 있다. 이러한 필터링 뿐만 아니라, 양자화 에러는 최소화 한다던지 스펙트럼의 하모닉 피크를 살리고 valley를 죽이는 동작 등 여러가지 후처리 동작을 수행할 수 있다.

전술한 바와 같이 도 1과 도 2에서 개시한 음성 부호화기는 본 발명에서 개시된 발명이 사용되는 하나의 예시로서 본 발명의 본질에서 벋어나지 않는 한 다른 음성 부호화기의 구조를 사용할 수 있고 이러한 실시예 또한 본 발명의 본질에 포함된다.

도 5 내지 7은 본 발명의 실시예에 따른 TCX 모드로 부호화를 수행하는 방법을 나타낸 순서도이다.

본 발명의 실시예에 따른 TCX 부호화 방법에서는 신호의 중요도에 따라 양자화를 선택적으로 수행하는 방법을 사용함으로서 비트율 대비 높은 부호화율을 가질 수 있다.

도 5를 참조하면, 입력된 음성 신호에 대해 타겟 신호를 산출한다(단계 S500).타겟신호는 시간축에서 음성샘플간의 단기간 상관성을 뺀 선형예측잔여신호이다.

Aw(z)는 LPC 분석과 양자화부를 거친 후의 양자화된 선형예측계수(LPC)들로 이루어진 필터를 나타낸다. 입력 신호는 Aw(z) 필터를 통과하여 선형 예측 잔여 신호가 출력될 수 있고 이러한 선형 예측 잔여 신호는 TCX 모드를 이용한 부호화 대상인 타겟 신호가 될 수 있다.

이전 프레임이 TCX 모드가 아닌 다른 모드로 부호화된 경우 ZIR(Zero Input Response)를 제거한다(단계 S510).

예를 들어, 이전 프레임이 TCX 모드가 아닌 ACELP로 부호화된 프레임인 경우 이전 입력 신호로 인한 출력값의 효과를 없애기 위해 가중된 신호에서 가중 필터와 합성 필터 조합의 Zero-Input-Response가 제거될 수 있다.

적응적 윈도우잉(Adaptive windowing)을 수행한다(단계 S520).

선형 예측 잔여 신호는 전술한 바와 같이 TCX 또는 CELP와 같이 복수개의 방법으로 부호화될 수 있다. 연속된 프레임이 서로 다른 방법으로 부호화되는 경우 프레임의 경계면에서 음성 품질의 저하가 일어날 수 있다. 따라서, 이전 프레임이 현재 프레임과 서로 다른 모드로 부호화된 경우 윈도우잉을 사용하여 프레임 간의 연속성을 획득할 수 있다.

변환을 수행한다(단계 S530).

윈도우잉된 선형 예측 잔여 신호를 DFT 또는 MDCT와 같은 변환 함수를 사용하여 시간 도메인 신호에서 주파수 도메인 신호로 변환할 수 있다.

도 6을 참조하면, 단계 S530을 통해 변환된 선형 예측 잔여 신호에 대하여 스펙트럼 프리쉐이핑(spectrum preshaping) 및 대역 분할을 수행한다(단계 S600).

본 발명의 실시예에 따른 음성 신호 대역 분할 방법은 선형 예측 잔여 신호를 주파수의 크기에 따라 낮은 주파수 대역과 높은 주파수 대역으로 나누어 부호화를 수행할 수 있다. 대역을 구분하는 방법을 사용함으로서 대역이 가진 중요도에 따라 양자화를 수행할지 안할지 여부를 결정할 수 있다. 이하, 본 발명의 실시예에서는 저대역 일부 주파수 밴드를 고정하여 양자화를 수행하고 나머지 상위 고대역 주파수 밴드 중 에너지 비중이 높은 밴드를 선택하여 양자화를 수행하는 방법에 대해 개시한다. 양자화를 수행하는 대역을 양자화 대상 주파수 대역이라는 용어로 사용할 수 있고 또한 복수개의 고정된 저주파수 대역을 고정 저주파 대역이라는 용어로 선택적으로 양자화를 수행하는 복수개의 고주파수 대역을 선택 고주파 대역이라는 용어로 사용할 수 있다.

주파수 대역을 고주파수 대역과 저주파수 대역으로 구분하고 구분된 주파수 대역에서 양자화를 수행할 주파수 대역을 선택하는 것은 임의적인 것이다. 따라서 본 발명의 본질에서 벋어나지 않는 한 다른 방식의 주파수 대역 구분 방법을 사용하여 주파수 대역을 선택할 수 있고 또한, 각 주파수 대역에 대해 양자화를 수행할 밴드의 개수는 변할 수 있고 이러한 발명의 실시예 또한 본 발명의 권리 범위에 포함된다. 이하, 본 발명의 실시예에서는 설명의 편의상 변환 방법으로 DFT를 사용한 경우에 대해서만 개시하나 다른 변환 방법(예를 들어, MDCT)을 사용할 수도 있고 이러한 실시예 또한 본 발명의 권리범위에 포함된다.

스펙트럼 프리쉐이핑(spectrum preshaping)을 통해 TCX 모드의 타겟 신호는 주파수 영역의 계수들로 변환된다. 본 발명의 실시예에서는 설명의 편의상 내부 동작 샘플링율 12.8kHz에서의 20ms (256샘플)의 프레임 구간을 처리하는 과정을 개시하나 프레임 사이즈의 변경에 따라 구체적 값 (주파수 계수의 개수 및 대역분할의 특정값들)들은 임의적이다.

주파수 영역의 계수들은 288 샘플을 가지는 주파수 영역으로 변환될 수 있고, 다시 변환된 주파수 영역의 신호는 36개의 8개의 샘플을 가지는 밴드로 분할될 수 있다. 주파수 영역의 신호는 36개의 8개의 샘플을 가지는 밴드로 분할하기 위해 Transform 계수의 real과 image 값을 교차로 재 배열한 후 그룹핑하는 preshaping을 수행할 수 있다. 예를 들어 288 샘플을 DFT하게 되면 주파수 영역에서는 Fs/2를 중심으로 대칭이 되기에 부호화할 계수는 144개의 주파수 도메인 샘플이 될 수 있다. 1개의 주파수 도메인 계수는 real과 image로 구성되는데 양자화하기 위해 실수부과 허수부를 교차하여 144개를 288개로 만들어 낼 수 있고 288개를 8개씩 그룹핑하여 36개의 밴드로 생성할 수 있다.

아래의 수학식 1은 분할된 주파수 영역 신호를 나타낸 것이다.

이때 저대역의 4개의 밴드(

)는 고정하며 상위 고대역 32개 밴드 중 에너지 분포에 따른 중요 밴드를 4개 선택하여 양자화 선택 밴드로 정의할 수 있다. 최종적으로 양자화 선택 밴드는 저대역 4개의 주파수 밴드와 고대역 4개의 주파수 밴드를 포함한 8개의 밴드(

)가 될 수 있다. 전술한 바와 같이 양자화를 수행하기 위한 대상 주파수 밴드의 개수는 임의적이며 변할 수 있다. 선택된 밴드의 위치에 대한 정보는 복호화기로 전송될 수 있다.

도 8은 본 발명의 실시예에 따른 양자화 대상 밴드 선택 방법의 한 예를 도시한 것이다.

도 8을 참조하면, 도 8의 상단에서 가로축은 원래 선형예측 잔여신호를 주파수 대역으로 변환했을 때의 주파수 대역을 나타내는 것이다(800). 전술한 바와 같이 선형예측잔여신호의 주파수 변환계수들은 주파수 대역에 따라 32개의 밴드로 분할될 수 있고, 원래 LP 잔여 신호 주파수 대역에서 하위 대역의 고정된 4개 대역(820)과 상위 대역의 선택적인 4개의 대역(840)인 8개의 대역이 양자화 대상 밴드로 선택될 수 있다. 선택되는 8개의 대역은 하위 대역의 고정된 4개의 대역을 제외한 32개의 대역 중 에너지가 큰 순으로 배열하고 상위 8개 대역을 선택한다.

다시 도 6을 참조하면, 선택된 양자화 밴드들은 정규화될 수 있다(단계 S610).

양자화 대상 주파수 대역들은 아래의 수학식 2를 사용하여 선택된 대역별 에너지(

)를 계산하여 총 에너지

를 산출할 수 있다.

총 에너지는 선택된 샘플들의 수만큼 나뉘어 최종적으로 정규화할 이득값인

를 구할 수 있다. 선택된 양자화 대상 주파수 대역들은 아래의 수학식 3에서 산출된 이득으로 나뉘어 최종적으로 정규화된 신호

를 얻을 수 있다.

도 9는 본 발명의 실시예에 따른 전술한 양자화 선택 밴드의 선형 예측 잔여 신호의 정규화 과정의 한예를 도시한 것이다.

도 9를 참조하면, 도 9의 상단은 원본 선형 예측 잔여 신호의 주파수 변환 계수들이고, 도 9의 중단은 원본 주파수 변환 계수들에서 선택된 주파수 영역을 나타낸 것이다. 도 9의 하단은 도 9의 중단에서 선택된 밴드를 정규화한 선형 예측 잔여신호의 주파수 변환계수들 나타낸다.

다시 도 6을 참조하면, 정규화된 선형 예측 잔여 신호의 주파수 계수들은 밴드별 에너지값과 평균 에너지값을 비교하여 각 경우에 따라 코드북을 다르게 선택하여 양자화한다(단계 S620).

코드북의 코드워드들과 양자화해야 할 정규화된 신호의 MMSE(Minimun mean square error)를 구하여 코드북의 인덱스를 선택할 수 있다.

본 발명의 실시예에서는 소정의 수식을 통해 서로 다른 코드북을 선택할 수 있다. 양자화 대상 주파수 대역에서 양자화된 신호의 대역별 에너지와 평균 에너지를 연산하여 양자화 대상 주파수 대역의 에너지가 평균 에너지보다 클 경우, 큰 에너지가 있는 밴드들로 훈련된 제1 코드북을 선택하고 양자화 선택 밴드의 에너지가 평균 에너지보다 작을 경우, 낮은 에너지 비율을 가지는 밴드로 훈련된 제2 코드북을 선택한다. 평균 에너지와 양자화할 밴드의 에너지의 비교를 통해 선택된 코드북을 기초로 모양 벡터 양자화(shape vector quantization)가 수행될 수 있다. 수학식 4는 밴드별 에너지와 밴드별 에너지의 평균값을 나타낸 것이다.

스펙트럼을 디쉐이핑(deshaping)하고 양자화된 변환계수를 역변환 하여 시간축의 선형 예측 잔여 신호를 복원한다(단계 S630).

전술한 스펙트럼 프리쉐이핑 과정의 역과정으로 스펙트럼 디쉐이핑(spectrum deshaping)을 수행할 수 있고 스펙트럼 디쉐이핑 후 역변환을 수행할 수 있다.

양자화된 선형 예측 잔여 신호의 역변환을 통해 얻은 시간 도메인에서 전역 이득을 산출한다(단계 S640).

전역 이득은 단계 S520의 적응적인 윈도우잉을 통해 나온 선형 예측 잔여 신호와 단계 S630을 통해 산출된 양자화된 계수들로 역변환된 시간축 예측 잔여 신호를 기초로 산출될 수 있다.

도 7을 참조하면, 단계 S640을 통해 양자화된 선형 예측 잔여 신호에 대해 다시 적응적 윈도우잉을 수행한다(단계 S700).

재복원된 선형 예측 잔여 신호에 대하여 적응적으로 윈도우잉을 수행할 수 있다.

차후 전송될 신호에서 윈도우잉된 오버랩 신호를 제거하기 위해 윈도우잉된 오버랩 신호를 저장한다(단계 S710). 오버랩 신호는 전술된 S520에서의 다음 프레임과 중첩되는 구간과 동일하며, 저장되는 신호는 다음 프레임의 중첩/합산과정(S720)에서 사용된다.

단계 S700을 통해 윈도우잉된 복원된 예측 잔여신호는 이전 프레임에서 저장되었던 윈도우잉된 오버랩 신호를 중첩/합산함으로서 프레임간의 불연속성을 제거한다(단계 S720).

conmfort noise level을 산출한다(단계 S730).

청각적으로 향상된 음질을 제공하기 위해서 comfort noise를 사용할 수 있다.

도 10은 본 발명의 실시예에 따른 comfort noise level을 삽입하는 방법을 나타낸 개념도이다.

도 10의 상단은 comfort noise를 삽입하지 않은 경우, 도 10의 하단은 comfort noise를 삽입한 경우를 나타낸다. comfort noise는 양자화되지 않은 밴드에 채워질 수 있고, 이러한 comfort noise 정보는 부호화되어 음성 복호화기에 전송될 수 있다. 음성 신호를 청취하였을 경우, comfort noise가 삽입되지 않은 신호에 대해서는 양자화 오차 및 밴드의 불연속성에 대한 잡음을 청취할 수 있으나, noise가 삽입된 신호에서는 좀 더 안정된 소리를 청취할 수 있다.

따라서 각 프레임별 noise의 준위는 아래의 과정을 통해 산출될 수 있다. 산출된 게인(

)을 이용하여 원신호

의 상위 18개 밴드에 대해서 정규화 과정을 거친다. 정규화 과정을 거친 신호

는 밴드별 에너지를 연산하게 되며 연산된 밴드의 총 에너지

와 평균 에너지

를 구한다. 아래의 수학식 5는 밴드의 총 에너지와 평균 에너지를 산출하는 과정을 나타낸 것이다.

상위 18개 밴드에 대해

의 임계값을 넘는 밴드에 대해서는 총 에너지

에서 제외할 수 있다. 이때 상수 0.8은 실험에 의해 구해진 가중치값으로 다른 값을 사용할 수도 있다. 이는 comfort noise의 준위가 너무 높을 경우 오히려 양자화된 밴드보다 noise가 삽입된 밴드의 영향이 더 커 음질에 악영향을 줄 수 있기 때문에 일정 임계값 이하의 에너지만을 이용하여 준위를 결정한다.

도 11은 본 발명의 실시예에 따른 comfort noise 산출 방법을 나타낸 개념도이다.

도 11의 상단은 상위 18개의 주파수 대역의 신호를 나타낸다. 도 11의 중단은 임계값 및 상위 18개의 주파수 대역의 에너지값을 나타낸다. 임계값은 전술한 바와 같이 에너지의 평균값에 임의의 값을 곱하여 산출될 수 있고 이러한 임계값을 넘는 주파수 대역의 에너지만을 이용하여 에너지의 준위를 결정할 수 있다.

산출된 음성 신호(양자화된 선형 예측 잔여 신호)에 대해 1/Aw(z) 필터를 적용하여 음성 신호를 복원한다(단계 S740).

단계 S500에서 Aw(z)를 사용한 것과 역으로 LPC 계수 필터인 1/Aw(z) 필터를 사용하여 복원 음성 신호를 생성할 수 있다. 단계 S730과 S740의 순서는 바뀔 수 있고 이러한 경우도 본 발명의 권리 범위에 포함된다.

도 12는 본 발명의 실시예에 따른 음성 부호화기의 일부(TCX 모드 블록의 양자화부)를 나타낸 개념도이다.

도 12에서는 설명의 편의상 음성 부호화기의 양자화기에서 아래에서 개시할 동작들이 모두 일어나는 것으로 가정한 것으로서 다른 음성 부호화기의 구성부에서 아래에서 개시한 동작이 수행될 수 있고 이러한 실시예 또한 본 발명의 권리 범위에 포함된다.

도 12를 참조하면, 음성 부호화기의 양자화부(1200)는 대역 선택부(1210), 정규화부(1220), 코드북 판단부(1230), comfort noise factor 산출부(1240), 양자화 수행부(1250)를 포함할 수 있다.

대역 선택부(1210)는 프리쉐이핑을 통하여 대역을 정하고 어떠한 대역을 고정 저주파수 대역 및 선택 고주파수 대역으로 선택할지 여부를 결정할 수 있다.

정규화부(1220)에서는 선택된 대역을 정규화할 수 있다. 전술한 바와 같이 선택된 밴드별 에너지, 선택된 샘플 수를 기초로 정규화할 게인값을 구하고 최종적으로 정규화된 신호를 얻는다.

코드북 판단부(1230)는 소정의 판단 수식을 기초로 해당 대역에 어떠한 코드북을 적용할지 여부를 결정하고 코드북 인덱스 정보를 산출할 수 있다.

comfort noise factor 산출부(1240)는 소정의 주파수 대역을 기초로 선택되지 않은 대역에 삽입할 noise level을 산출할 수 있고 산출된 noise level 값을 기초로 양자화 대상이 아닌 대역에 noise factor를 계산할 수 있다. 음성 복호화기에서는 부호화기에서 양자화된 noise factor를 기초로 복원된 선형 예측 잔여 신호와 합성된 음성 신호를 생성할 수 있다. 복원된 선형 예측 잔여 신호는 대역 예측부(도1 154)의 입력으로 사용되고, 복원된 선형 예측 잔여 신호가 1/Aw(z) 필터를 통과하여 생성된 합성된 음성 신호는 모드 선택부(151)의 입력으로 들어가 모드를 선택시 사용될 수 있다. 또한 양자화된 noise factor는 복호화기에서 같은 정보를 생성하기 위해 양자화되어 전송될 수 있다.

양자화 수행부(1250)는 코드북 인덱스 정보를 양자화할 수 있다.

도 13은 본 발명의 실시예에 따른 TCX 모드 블록의 역양자화 과정을 나타내는 순서도이다.

도 13을 참조하면, 음성 부호화기에서 전송된 양자화된 파라메터 정보를 역양자화한다(단계 S1300).

음성 부호화기에서 전송된 양자화된 파라메터 정보는 이득 정보, 쉐이프 정보, 노이즈 팩터 정보, 선택 양자화 대역 정보 등이 있을 수 있고 이러한 양자화된 파라메터 정보를 역양자화한다.

역양자화된 파라메터 정보를 기초로 역변환을 수행하여 음성 신호를 복원한다(단계 S1310).

역양자화된 파라메터 정보를 기초로 어떠한 주파수 대역이 선택된 주파수 대역인지 여부를 판단하고(단계 S1310-1), 판단된 결과에 따라 선택된 주파수 대역에는 다른 코드북을 적용하여 역변환을 수행할 수 있다(단계 S1310-2). 또한, 역양자화된 comfort noise level 정보를 기초로 비선택된 주파수 대역에 noise level을 더해줄 수 있다(단계 S1310-3).

도 14는 본 발명의 실시예에 따른 음성 복호화 장치의 일부(TCX 모드 블록의 역양자화부)를 나타낸 개념도이다.

도 14에서 도 12와 마찬가지로 설명의 편의상 음성 복호화기의 역양자부와 역변환부에서 아래에서 개시할 동작들이 모두 일어나는 것으로 가정한 것으로서 다른 음성 부호화기의 구성부에서 아래에서 개시한 동작이 수행될 수 있고 이러한 실시예 또한 본 발명의 권리 범위에 포함된다.

음성 복호화 장치는 역양자화부(1400)와 역변환부(1450)를 포함할 수 있다.

역양자화부(1400)는 음성 부호화 장치에서 전송된 양자화된 파라메터를 기초로 역양자화를 수행할 수 있고, 이득 정보, 쉐이프 정보, 노이즈 팩터 정보, 선택 양자화 대역 정보를 산출할 수 있다.

역변환부(1450)는 주파수 대역 판단부(1410), 코드북 적용부(1420), comfort noise factor 적용부(1430)를 포함할 수 있고, 역양자화된 음성 파라메터 정보를 기초로 음성 신호를 복원할 수 있다.

주파수 대역 판단부(1410)는 현재 주파수 대역이 고정 저주파수 대역인지, 선택 고주파수 대역인지, comfort noise factor 적용 주파수 대역인지 여부를 판단할 수 있다.

코드북 적용부(1420)는 주파수 대역 판단부에 의해 판단된 양자화 대상 주파수 대역 및 역양자화부(1400)에 의해 전송된 코드북 인덱스 정보를 기초로 고정 저주파수 대역 또는 선택 고주파수 대역에 따라 서로 다른 코드북을 적용할 수 있다.

comfort noise factor 적용부(1430)는 comfort noise 적용 주파수 대역에 역양자화된 comfort noise factor를 적용할 수 있다.

도 15 내지 20은 본 발명의 또 다른 실시예로 AbS(Analysis by Synthesis) 방법을 사용하여 TCX 모드의 부호화를 수행하는 방법을 나타낸다.

도 15는 본 발명의 실시예에 따른 분석 및 합성(AbS:Analysis by Synthesis) 방법을 사용하는 TCX 모드로 부호화를 수행하는 방법을 나타낸 개념도이다.

전술한 음성 부호화기의 경우, 저대역 밴드는 고정하여 양자화하고 상위 고대역 밴드 중 에너지를 기준으로 일부의 밴드를 선택하여 양자화하는 방법을 사용하였다. 에너지 분포가 신호의 부호화시 일부 성능에 비례하기는 하나 목적 신호 즉 음성 신호와 유사한 에너지 분포를 가지는 주파수 밴드 중 실제 음질에 영향을 미치는 밴드를 선택하는 것이 더 중요할 수 있다.

실제 TCX 모드의 양자화 타겟 신호는 청각적으로 듣는 원신호가 아닌 Aw(z) 필터를 거친 잔여 신호이기 때문에 에너지가 유사할 경우, LPC 합성 filter (1/ Aw(z) )를 통해 실제 청취하는 신호로 합성한 후 그 결과를 확인한다면 실제 음질에 영향을 미치는 밴드를 효과적으로 선택할 수 있어 부호화 효율이 높아질 수 있다. 따라서 이하, 본 발명의 실시예에서는 후보 밴드들의 조합과 분석및 합성 구조를 이용하여 LPC 합성 filter 통과, 합성하여 최적의 밴드를 선택하는 방법에 대해 개시한다.

도 15의 단계 S1500 이전은 도 5의 단계 S500에서 단계 S520까지와 동일하고 도 15의 단계 S1540 이후는 도 7의 단계 S700에서 단계 S740과 동일하게 수행될 수 있다.

본 발명의 일실시예에 따른 음성 부호화 방법에서는 도 6에서와 동일한 방식으로 저주파수 대역에서 고정 저주파수 대역을 기초로 양자화를 수행할 수 있고 나머지 상위 고대역 주파수 밴드 중 에너지 비중이 높은 밴드를 선택하여 양자화를 수행하되, 후보 선택 고주파 대역의 수를 최종 선택할 선택할 선택 고주파 대역의 수보다 많이 선택되도록 할 수 있다(단계 S1500).

단계 S1500에서는 양자화 대상 주파수 대역을 정규화를 수행할 고정 저주파수 대역과 후보 선택 고주파 대역으로 나눌 수 있고, 후보 선택 고주파 대역은 최종적으로 선택할 선택 고주파 대역의 수보다 많이 선택할 수 있고 이후 분석 및 합성 단에서는 후보 선택 고주파 대역에서 최적의 조합을 찾아 최종적으로 양자화를 수행할 선택 고주파 대역을 결정할 수 있다.

단계 S1510과 단계 S1520의 과정은 전술한 도 6의 단계 S610과 단계 S620과 동일하게 선택된 양자화 밴드들에 대하여 정규화를 수행하고(단계 S1510), 정규화된 선형 예측 잔여 신호는 밴드별 에너지값과 평균 에너지값을 비교하여 각 경우에 따라 코드북을 다르게 선택하여 양자화한다(단계 S1520).

분석 및 합성 블록(AbS)(단계 S1540)을 수행하기 위해 고정된 4개 밴드에 대한 주파수 역변환 과정을 거쳐 저대역 밴드에 대한 시간 도메인 신호를 얻고 상위 고대역 밴드 중 후보 밴드들은 Band-Selection inverse DFT를 통해 각 밴드에 대한 시간 도메인 신호를 얻는다(단계 S1530).

분석 및 합성블록 (AbS) (단계 S1540)을 수행시 고정된 저대역 신호에 대해서는 변화가 없으며 상위 고대역 밴드들을 switching하며 조합하는 과정이기 때문에 신호의 변화가 없는 저대역 신호는 상대적으로 연산량이 적은 IFFT를 적용하며 각 밴드에 대한 시간 도메인 신호가 필요한 고대역 후보 밴드들은 밴드별 inverse transform이 가능한 Band-Selection inverse DFT를 적용한다. 단계 S1530에 대해서는 아래에서 자세히 설명한다.

IFFT와 Band-Selection inverse DFT를 통과한 저대역 신호와 고대역 후보 밴드의 신호의 조합을 통해 양자화된 선형 예측 잔여 신호에 대한 시간 도메인 신호를 얻고 AbS를 사용하여 최적의 조합을 산출한다(단계 S1540).

IFFT와 Band-Selection inverse DFT를 통과한 저대역 신호와 고대역 후보 밴드의 신호의 조합을 통해 생성된 복원된 후보 선형예측 잔여 신호들는 분석 및 합성 블록(AbS) 내부에 존재하는 합성필터인 1/Aw(z) 필터를 통과하여 청각적으로 듣는 신호들을 만들어 낼 수 있다. 이 신호들은 청각 가중필터를 통과하여 복원된 음성 신호들을 만들고, TCX 모드의 목적신호인, 양자화 과정을 거치지 않은 선형 예측 잔여 신호를 같은 필터를 통과하여 얻은 음성신호와 시간축의 신호 대 잡음비를 연산할 수 있고 위의 과정을 후보의 조합개수만큼 반복적으로 수행하여 가장 높은 신호 대 잡음비를 가지는 후보밴드의 조합을 선택밴드로 최종적으로 결정할 수 있다. 최종적으로 선택된 밴드들의 변환계수 양자화값은 S1520에서 양자화된 후보 밴드들의 변환계수의 양자화값들에서 선택된다.

Gain을 산출하고 양자화를 수행한다(단계 S1550).

단계 S1550에서는 시간축 선형 예측 잔여 신호와 단계 S1540에서 합성된 선형 예측 잔여신호를 기초로 Gain 값을 산출할 수 있고 또한, Gain값을 양자화할 수 있다.

본 발명의 실시예에 따른 AbS 구조에서 제안하는 Band-Selection Inverse Transform(BS-IDFT)은 조합에 필요한 밴드들의 역변환을 통해 연산량을 최소화할 수 있다. 즉, 분석 및 합성 구조 적용시 고정된 저대역 밴드는 상대적으로 연산량이 적은 IFFT를 적용하며 상위 고대역 밴드 중 후보 밴드들은 각 밴드에 대한 시간 도메인 신호를 얻기 위해 Band-Selection Inverse Transform을 적용하여 연산량을 줄일 수 있다. 수학식 6은 본 발명의 실시예에 따른 Inverse Discrete Fourier Transform을 나타내는 것이다.

본 발명의 실시예에 따른 Band-Selection inverse DFT(BS-IDFT)는 선택된 밴드의 주파수 성분에 대한 역변환을 실행함으로 연산량은

에서 밴드의 샘플 수(

)만 수행하는

로 감소될 수 있다. 또한, BS-IDFT는 IFFT 연산을 수행하는 경우와 비교하여도 필요한 부분에 대해서만 연산을 수행하기 때문에 연산량이 줄어들 수 있다.

도 16은 본 발명의 실시예에 따른 Band-Selection IDFT가 분석 및 합성 구조에 적용되는 방법을 나타낸 개념도이다.

본 발명의 실시예에 따른 분석 및 합성 방법은 역변환을 반복적으로 수행하지 않기 위해서 AbS 구조 외부에서 Band-Selection IDFT를 수행하는 방법을 사용하여 각 후보 밴드에 대한 시간축 신호를 구할 수 있다.

도 16을 참조하면, 고정된 하위 대역의 4개의 밴드에 대해서는 IFFT를 수행하고(1600), 상위 대역에 대해서는 분석 및 합성 블록(S1540) 외부에서 역양자화를 수행하고(1620), 분석 및 합성 블록(S1540) 내부에서 후보 밴드의 시간 도메인 신호들의 조합으로 합성을 수행한다(1640). 고정된 하위대역과 후보밴드들의 조합으로 합성된 시간축의 복원된 선형 예측 잔여 신호는 1/Aw(z) 필터를 통과하여 복원 음성 신호들을 생성한다. 이 신호들은 TCX 모드의 입력 신호, 즉 양자화되는 시간축 선형 예측 신호를 같은 합성 필터를 통과한 시간축 음성 신호와 신호 대 잡음비를 계산하여 최적의 조합을 가지는 상위 대역 신호 조합을 선택할 수 있다(1660).

최적의 조합을 가지는 상위 대역 신호 조합을 선택하기 위한 비교 신호로 입력된 음성 신호(Input Speech Signal)가 W(z)와 같은 청각 인지 가중 필터를 통과한 신호가 사용될 수도 있고 이러한 실시예는 도 21에 개시된다.도 17은 본 발명의 실시예에 따른 분석 및 합성 구조 전단에서 처리되는 Band-Selection IDFT의 과정을 나타낸 개념도이다.

도 17을 참조하면, 고정된 저주파수 대역에 대해서는 IFFT를 적용하고, 후보 선택 고주파 대역에서는 소정의 조합을 생성하여 에러를 최소화하는 최적의 조합을 생성할 수 있다.

도 17에서도 마찬가지로 최적의 조합을 가지는 상위 대역 신호 조합을 선택하기 위한 비교 신호로서 입력된 음성 신호(Input Speech Signal)가 W(z)와 같은 청각 인지 가중 필터를 통과해 필터링된 신호를 사용할 수도 있고 이러한 실시예는 도 22에 개시된다.도 22 및 도 23과 동일하게 도 19의 분할 및 합성부에서도 선형 예측 잔여 계수 정보 대신에 입력 음성 신호(Input Speech Signal)을 입력받아서 상위 대역 신호 조합을 선택하기 위해 사용할 수 있고 이러한 실시예는 도 23에 개시된다.

도 18은 본 발명의 실시예에 따른 음성 부호화기의 일부를 나타낸 개념도이다.

도 18을 참조하면, 음성 부호화기의 양자화부(1800)와 역변환부(1855)를 포함할 수 있고, 양자화부(1800)는 대역 분할부(1810), 정규화부(1820), 코드북 적용부(1830), 대역 조합부(1840), comfort noise level 산출부(1850), 역변환부(1855), 분석 및 합성부(1860), 양자화 수행부(1870)를 포함할 수 있다.

대역 분할부(1810)는 주파수 대역을 고정 저주파수 대역 및 후보 선택 고주파수 대역으로 나눌 수 있다. 주파수 대역을 정규화를 수행할 고정 저주파수 대역과 후보 선택 고주파 대역으로 나눌 수 있다. 후보 선택 고주파 대역은 조합을 통해 분석 및 합성블록(AbS)(1860)에서 최종적으로 선택할 선택 고주파 대역로 결정될 수 있다.

정규화부(1820)에서는 대역 분할부에서 선택된 대역인 고정 저주파수 대역과 선택될 후보 고주파 대역들을 정규화할 수 있다. 전술한 바와 같이 선택된 밴드별 에너지, 선택된 샘플 수를 기초로 정규화할 이득값을 구하고 최종적으로 정규화된 신호를 얻는다.

코드북 적용부(1830)는 소정의 판단 수식을 기초로 해당 대역에 어떠한 코드북을 적용할지 여부를 결정할 수 있다. 코드북 인덱스 정보는 양자화 수행부(1870)로 전송되어 양자화될 수 있다.

고주파수 대역 조합부(1840)는 역변환부(1855)에서 어떠한 선택 고주파수 대역을 조합하여 선택할 것인지를 결정할 수 있다.

양자화 수행부(1870)는 선택된 대역 정보, 각 대역에 적용된 코드북 인덱스 정보, comfort noise factor 정보 등 LP 잔여 신호를 복원하기 위한 음성 파라메터 정보를 양자화할 수 있다.

역변환부(1855)에서는 고정 저주파수 대역에 대하여 IFFT, 후보 선택 고주파수 대역에 대하여는 BS-IDFT를 수행하여 역변환을 수행할 수 있다.

분석 및 합성부(AbS) (1860)는 BS-IDFT를 수행한 후보 선택 고주파수 대역에 대하여는 소정의 조합을 수행하여 반복적으로 원본 신호와 비교하여 최적의 선택 고주파수 대역 조합을 선택할 수 있다. 최종적으로 결정된 선택 고주파수 대역 정보는 양자화 수행부(1870)으로 전송될 수 있다.

comfort noise level 산출부(1850)는 소정의 주파수 대역을 기초로 선택되지 않은 대역에 삽입할 noise level을 결정할 수 있다. Noise level에 기초한 noise factor 값은 양자화 수행부(1870)을 통해 양자화되어 전송된다.

도 19는 본 발명의 실시예에 따른 음성 복호화 방법을 나타낸 순서도이다.

도 19를 참조하면, 음성 부호화기에서 전송된 양자화된 파라메터 정보를 역양자화한다(단계 S1900).

음성 부호화기에서 전송된 양자화된 파라메터 정보는 이득 정보, 쉐이프 정보, 노이즈 팩터 정보, 부호화기의 분석 및 합성 구조에 의해 양자화 대상으로 선택된 선택 양자화 대역 정보 등이 있을 수 있고 이러한 양자화된 파라메터 정보를 역양자화한다.

역양자화된 파라메터 정보를 기초로 역변환을 수행한다(단계 S1910).

AbS에 의해 양자화 대상으로 선택된 선택 양자화 대역 정보를 기초로 어떠한 주파수 대역이 선택된 주파수 대역인지 여부를 판단하고(단계 S1910-1), 판단된 결과에 따라 선택된 주파수 대역에는 서로 다른 코드북을 적용하여 역변환을 수행할 수 있다(단계 S1910-2). 또한, 역양자화된 comfort noise level 정보를 기초로 비선택된 주파수 대역에 noise level을 더해줄 수 있다(단계 S1910-3)

도 20은 본 발명의 실시예에 따른 음성 복호화 장치의 일부를 나타낸 개념도이다.

도 20에서도 설명의 편의상 음성 복호화기의 역양자부와 역변환부에서 아래에서 개시할 동작들이 모두 일어나는 것으로 가정한 것으로서 또 다른 실시예에서는 음성 부호화기에 포함된 다른 구성부에서 아래에서 개시한 동작이 수행될 수 있고 이러한 실시예 또한 본 발명의 권리 범위에 포함된다.

음성 복호화 장치는 역양자화부(2000)와 역변환부(2010)를 포함할 수 있다.

역양자화부(2000)는 음성 부호화 장치에서 전송된 양자화된 파라메터를 기초로 역양자화를 수행할 수 있고, 이득 정보, 쉐이프 정보, 노이즈 팩터 정보, 음성부호화기의 AbS부에서 선택된 선택 양자화 대역 정보 등을 산출할 수 있다.

역변환부(2010)는 주파수 대역 판단부(2020), 코드북 적용부(2030), comfort noise level 적용부(2040)를 포함할 수 있다.

주파수 대역 판단부(2020)는 현재 주파수 대역이 고정 저주파수 대역인지, 선택 고주파수 대역인지, comfort noise level 적용 주파수 대역인지 여부를 판단할 수 있다.

코드북 적용부(2030)는 주파수 대역 판단부에 의해 판단된 양자화 대상 주파수 대역 및 역양자화부(2000)에 의해 전송된 코드북 인덱스 정보를 기초로 고정 저주파수 대역 또는 선택 고주파수 대역에 따라 코드북을 다르게 적용할 수 있다.

comfot noise level 적용부(2040)는 comfort 적용 주파수 대역에 역양자화된 comfort noise level 적용할 수 있다.

도 21, 도 22 및 도 23은 도 16, 도 17 및 도 15에서 전술한 바와 같이 상위 대역 신호 조합을 선택하기 위한 비교 신호로서 입력 음성 신호가 청각 인지 가중필터인 W(z)를 통과한 경우를 나타낸 것이다. 도 21, 도 22 및 도 23에서 그외의 구성은 도 16, 도 17 및 도 15와 동일하다.

이상에서 설명한 영상 부호화 및 영상 복호화 방법은 도 1 내지 도 4에서 전술한 각 음성 부호화기 및 음성 복호화기 장치의 각 구성부에서 구현될 수 있다.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

적어도 하나의 미리 결정된 고정된 저주파수 음성 대역 및 적어도 하나의 선택된 고주파수 음성 대역으로부터 추출된 음성 파라미터 정보를 역양자화하고; 및
상기 역양자화된 음성 파라미터 정보에 기반하여, 상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 대역 및 상기 적어도 하나의 선택된 고주파수 음성 대역에 대해, 상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 대역 및 상기 적어도 하나의 선택된 고주파수 음성 대역의 각각의 에너지에 기반하여 결정되는 코드북들을 적용하여 역변환을 수행하되,
상기 코드북들은 상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 대역 및 상기 적어도 하나의 선택된 고주파수 음성 대역의 각각의 에너지와 평균 에너지 간의 비교에 기반하고,
상기 평균 에너지는 상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 대역 및 상기 적어도 하나의 선택된 고주파수 음성 대역을 포함하는 전체 대역에 대한 평균 에너지이고,
상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 대역의 에너지가 상기 평균 에너지의 값 보다 높은 경우, 높은 에너지 비율을 가지는 밴드들로 학습된 코드북이 선택되고, 상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 밴드가 상기 평균 에너지의 값 보다 낮은 경우, 낮은 에너지 비율을 가지는 밴드들로 학습된 코드북이 선택되고, 및
상기 적어도 하나의 선택된 고주파수 음성 대역의 에너지가 상기 평균 에너지의 값 보다 높은 경우, 상기 높은 에너지 비율을 가지는 밴드들로 학습된 코드북이 선택되고, 상기 적어도 하나의 선택된 고주파수 음성 대역의 에너지가 상기 평균 에너지의 값 보다 낮은 경우, 상기 낮은 에너지 비율을 가지는 밴드들로 학습된 코드북이 선택되는 것을 특징으로 하는 음성 복호 방법.
삭제
삭제
삭제
삭제
삭제
제1항에 있어서, 상기 역변환을 수행하는 단계는, 역양자화된 comfort noise level을 비양자화 대상 음성 대역에 적용하여 음성 신호를 복원하는 단계를 더 포함하는 음성 복호 방법.
삭제
삭제
삭제
적어도 하나의 미리 결정된 고정된 저주파수 음성 대역 및 적어도 하나의 선택된 고주파수 음성 대역으로부터 추출된 음성 파라미터 정보를 역양자화하는 역양자화부; 및
상기 역양자화된 음성 파라미터 정보에 기반하여, 상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 대역 및 상기 적어도 하나의 선택된 고주파수 음성 대역에 대해, 상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 대역 및 상기 적어도 하나의 선택된 고주파수 음성 대역의 각각의 에너지에 기반하여 결정되는 코드북들을 적용하여 역변환을 수행하는 역변환부를 포함하되,
상기 코드북들은 상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 대역 및 상기 적어도 하나의 선택된 고주파수 음성 대역의 각각의 에너지와 평균 에너지 간의 비교에 기반하고,
상기 평균 에너지는 상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 대역 및 상기 적어도 하나의 선택된 고주파수 음성 대역을 포함하는 전체 대역에 대한 평균 에너지이고,
상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 대역의 에너지가 상기 평균 에너지의 값 보다 높은 경우, 높은 에너지 비율을 가지는 밴드들로 학습된 코드북이 선택되고, 상기 적어도 하나의 미리 결정된 고정된 저주파수 음성 밴드가 상기 평균 에너지의 값 보다 낮은 경우, 낮은 에너지 비율을 가지는 밴드들로 학습된 코드북이 선택되고, 및
상기 적어도 하나의 선택된 고주파수 음성 대역의 에너지가 상기 평균 에너지의 값 보다 높은 경우, 상기 높은 에너지 비율을 가지는 밴드들로 학습된 코드북이 선택되고, 상기 적어도 하나의 선택된 고주파수 음성 대역의 에너지가 상기 평균 에너지의 값 보다 낮은 경우, 상기 낮은 에너지 비율을 가지는 밴드들로 학습된 코드북이 선택되는 것을 특징으로 하는 음성 복호 장치.
제11항에 있어서, 상기 역변환부는, 역양자화된 comfort noise level을 비양자화 대상 음성 대역에 적용하여 음성 신호를 복원하는 것을 특징으로 하는 음성 복호 장치.
삭제
삭제
삭제