WO2016024853A1

WO2016024853A1 - 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기

Info

Publication number: WO2016024853A1
Application number: PCT/KR2015/008567
Authority: WO
Inventors: 주기현; 빅토로비치 포로브안톤; 새르기비치 오시포브콘스탄틴; 오은미; 박우정
Original assignee: 삼성전자 주식회사
Priority date: 2014-08-15
Filing date: 2015-08-17
Publication date: 2016-02-18
Also published as: EP3182412C0; EP3182412A1; US20170236526A1; EP3182412A4; EP3182412B1; US10304474B2

Abstract

음질 향상 방법은 시간 도메인에서 저주파 신호를 활용하여 고주파 신호를 생성하는 단계, 저주파 신호와 상기 생성된 고주파 신호를 결합하는 단계, 결합된 신호를 주파수 도메인으로 변환하는 단계, 복호화된 음성신호의 클래스를 결정하는 단계, 클래스에 근거하여, 변환단계에서 얻어지는 저주파 스펙트럼으로부터 엔벨로프를 예측하는 단계, 및 변환단계에서 얻어지는 고주파 스펙트럼에 예측된 엔벨로프를 적용하여 최종 고주파 스펙트럼을 생성하는 단계를 포함한다.

Description

음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기

본 개시는 대역폭 확장에 기반하여 음질을 향상시키기 위한 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기에 관한 것이다.

모바일폰 혹은 태블릿 등과 같은 단말기에 있어서 음성 통화 품질을 높이기 위한 다양한 기술들이 개발되고 있다. 일예로는 송신단에서 제공되는 음성신호의 품질을 전처리를 통하여 좋게 만들 수 있다. 구체적으로, 주변 잡음의 특성을 파악하여 송신단에서 제공되는 음성신호로부터 잡음을 제거함으로써 음질을 향상시킬 수 있다. 다른 예로는 수신단에서 복원된 음성신호에 대하여 단말기 사용자의 귀의 특성을 고려하여 이퀄라이징 처리함으로써 음질을 향상시킬 수 있다. 또 다른 예로는 수신단에 일반적인 귀의 특성을 고려한 여러가지의 프리셋(pre-set)을 구비하고 단말기 사용자가 선택하여 사용함으로써 복원된 음성신호에 대하여 향상된 음질을 제공할 수 있다.

한편, 단말기에서 통화에 활용되는 코덱의 주파수 대역폭을 확장시킴으로써 통화 품질을 향상시킬 수 있는데, 특히 표준화된 코덱의 구성을 변경할 필요없이 대역폭을 확장할 수 있는 기술이 요구되고 있다.

일부 실시예는, 대역폭 확장에 기반하여 음질을 향상시키기 위한 방법 및 장치를 제공할 수 있다.

또한, 일부 실시예는, 대역폭 확장에 기반하여 음질을 향상시키는 음성 복호화방법 및 장치를 제공할 수 있다.

또한, 일부 실시예는 대역폭 확장에 기반하여 음질을 향상시키는 기능을 채용한 멀티미디어 기기를 제공할 수 있다.

본 개시의 제 1 측면은, 시간 도메인에서 저주파 신호를 활용하여 고주파 신호를 생성하는 단계; 상기 저주파 신호와 상기 생성된 고주파 신호를 결합하는 단계; 상기 결합된 신호를 주파수 도메인으로 변환하는 단계; 복호화된 음성신호의 클래스를 결정하는 단계; 상기 클래스에 근거하여, 상기 변환단계에서 얻어지는 저주파 스펙트럼으로부터 엔벨로프를 예측하는 단계; 및 상기 변환단계에서 얻어지는 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하여 최종 고주파 스펙트럼을 생성하는 단계를 포함하는 음질 향상방법을 제공할 수 있다.

상기 엔벨로프를 예측하는 단계는 상기 음성신호의 저주파 스펙트럼으로부터 에너지를 예측하는 단계; 상기 음성신호의 저주파 스펙트럼으로부터 쉐이프를 예측하는 단계; 및 상기 예측된 에너지와 예측된 쉐이프를 이용하여 상기 엔벨로프를 산출하는 단계를 포함할 수 있다.

상기 에너지를 예측하는 단계는 상기 예측된 에너지에 리미터를 적용하는 단계를 포함할 수 있다.

상기 쉐이프를 예측하는 단계는 유성음 쉐이프와 무성음 쉐이프를 각각 예측하고, 상기 클래스와 보이싱 레벨에 근거하여, 상기 유성음 쉐이프와 무성음 쉐이프로부터 상기 쉐이프를 예측할 수 있다.

상기 쉐이프를 예측하는 단계는 상기 음성신호의 저주파 스펙트럼으로부터 고주파 스펙트럼을 위한 초기 쉐이프를 구성하는 단계; 및 상기 초기 쉐이프에 대하여 쉐이프 로테이션을 수행하는 단계를 포함할 수 있다.

상기 쉐이프를 예측하는 단계는 상기 로테이션된 초기 쉐이프에 대하여 역동성을 조절하는 단계를 더 포함할 수 있다.

상기 방법은 저주파 스펙트럼과 고주파 스펙트럼 중 적어도 하나에 대하여 이퀄라이징 처리하는 단계를 더 포함할 수 있다.

상기 방법은 저주파 스펙트럼과 고주파 스펙트럼 중 적어도 하나에 대하여 이퀄라이징 처리하는 단계; 상기 이퀄라이징 처리된 스펙트럼을 시간 도메인으로 역변환하는 단계; 및 상기 시간 도메인으로 변환된 신호를 후처리하는 단계를 더 포함할 수 있다.

상기 이퀄라이징 처리하는 단계와 상기 시간 도메인으로 변환하는 단계는 서브-프레임 단위로 수행되고, 상기 후처리하는 단계는 서브-서브 프레임 단위로 수행될 수 있다.

상기 후처리하는 단계는 저주파 에너지와 고주파 에너지를 산출하는 단계; 상기 저주파 에너지와 상기 고주파 에너지를 매칭시키기 위한 게인을 추정하는 단계; 및 고주파 시간 도메인 신호에 상기 추정된 게인을 적용하는 단계를 포함할 수 있다.

상기 게인을 추정하는 단계는 상기 추정된 게인이 소정 문턱치보다 큰 경우 상기 문턱치로 제한하는 단계를 포함할 수 있다.

본 개시의 제 2 측면은, 복호화된 음성신호의 특징으로부터 상기 음성신호의 클래스를 결정하는 단계; 상기 클래스에 근거하여, 저주파 스펙트럼과 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성하는 단계; 상기 클래스에 근거하여, 상기 저주파 스펙트럼으로부터 고주파 대역의 엔벨로프를 예측하는 단계; 상기 변형된 저주파 스펙트럼로부터 생성된 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하는 단계; 및 상기 복호화된 음성신호와 상기 엔벨로프가 적용된 고주파 스펙트럼을 이용하여 대역폭이 확장된 음성신호를 생성하는 단계를 포함하는 음질 향상방법을 제공할 수 있다.

상기 변형된 저주파 스펙트럼을 생성하는 단계는 예측 에러에 근거하여 제1 가중치를 결정하는 단계; 상기 제1 가중치와 상기 클래스에 근거하여 제2 가중치를 예측하는 단계; 상기 제2 가중치에 근거하여 상기 저주파 스펙트럼을 화이트닝하는 단계; 및 상기 화이트닝된 저주파 스펙트럼과 랜덤 노이즈를 상기 제2 가중치에 근거하여 혼합하여, 상기 변형된 저주파 스펙트럼을 생성하는 단계를 포함할 수 있다.

상기 각 단계는 서브-프레임 단위로 수행될 수 있다.

상기 클래스는 저주파 에너지에 근거하여 복수의 후보 클래스로 이루어질 수 있다.

본 개시의 제 3 측면은, 프로세서를 포함하며, 상기 프로세서는 복호화된 음성신호의 특징으로부터 상기 음성신호의 클래스를 결정하고, 상기 클래스에 근거하여, 저주파 스펙트럼과 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성하고, 상기 클래스에 근거하여, 상기 저주파 스펙트럼으로부터 고주파 대역의 엔벨로프를 예측하고, 상기 변형된 저주파 스펙트럼로부터 생성된 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하고, 상기 복호화된 음성신호와 상기 엔벨로프가 적용된 고주파 스펙트럼을 이용하여 대역폭이 확장된 음성신호를 생성하는 음질 향상장치를 제공할 수 있다.

본 개시의 제 4 측면은, 부호화된 비트스트림을 복호화하는 음성 복호화부; 및 상기 복호화된 음성 데이터로부터 대역폭이 확장된 광대역 음성 데이터를 생성하는 후처리부를 포함하며, 상기 후처리부는 복호화된 음성신호의 특징으로부터 상기 음성신호의 클래스를 결정하고, 상기 클래스에 근거하여, 저주파 스펙트럼과 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성하고, 상기 클래스에 근거하여, 상기 저주파 스펙트럼으로부터 고주파 대역의 엔벨로프를 예측하고, 상기 변형된 저주파 스펙트럼로부터 생성된 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하고, 상기 복호화된 음성신호와 상기 엔벨로프가 적용된 고주파 스펙트럼을 이용하여 대역폭이 확장된 음성신호를 생성하는 음성 복호화장치를 제공할 수 있다.

본 개시의 제 5 측면은, 부호화된 음성 패킷을 수신하는 통신부; 상기 수신된 음성 패킷을 복호화하는 음성 복호화부; 및 상기 복호화된 음성 데이터로부터 대역폭이 확장된 광대역 음성 데이터를 생성하는 후처리부를 포함하며, 상기 후처리부는 복호화된 음성신호의 특징으로부터 상기 음성신호의 클래스를 결정하고, 상기 클래스에 근거하여, 저주파 스펙트럼과 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성하고, 상기 클래스에 근거하여, 상기 저주파 스펙트럼으로부터 고주파 대역의 엔벨로프를 예측하고, 상기 변형된 저주파 스펙트럼로부터 생성된 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하고, 상기 복호화된 음성신호와 상기 엔벨로프가 적용된 고주파 스펙트럼을 이용하여 대역폭이 확장된 음성신호를 생성하는 멀티미디어 기기를 제공할 수 있다.

표준화된 코덱의 구성을 변경할 필요없이, 복호화단에서 협대역 음성신호로부터 대역폭이 확장된 광대역 신호를 얻을 수 있고, 그 결과 음질이 향상된 복원신호를 생성할 수 있다.

도 1은 일실시예에 따른 음성 복호화장치의 구성을 나타낸 블록도이다.

도 2는 일실시예에 따른 음질 향상 기능을 갖는 기기의 일부 구성을 나타낸 블록도이다.

도 3은 일실시예에 따른 음질 향상 장치의 구성을 나타낸 블록도이다.

도 4는 다른 실시예에 따른 음질 향상 장치의 구성을 나타낸 블록도이다.

도 5는 대역폭 확장처리를 위한 프레이밍의 예를 보여주는 도면이다.

도 6은 대역폭 확장처리를 위한 밴드 구성의 예를 보여주는 도면이다.

도 7은 일실시예에 따른 신호분류모듈의 구성을 나타낸 블록도이다.

도 8은 실시예에 따른 엔벨로프 예측모듈의 구성을 나타낸 블록도이다.

도 9는 도 8에 도시된 에너지 예측부의 세부 구성을 나타낸 블록도이다.

도 10은 도 8에 도시된 쉐이프 예측부의 세부 구성을 나타낸 블록도이다.

도 11은 무성음 쉐이프와 유성음 쉐이프를 생성하는 방법의 예를 나타내는 도면이다.

도 12는 일실시예에 따른 저주파여기 변형모듈의 구성을 나타낸 블록도이다.

도 13은 일실시예에 따른 고주파여기 생성모듈의 구성을 나타낸 블록도이다.

도 14는 트랜스포징 및 폴딩의 예를 나타낸 도면이다.

도 15는 일실시예에 따른 등화 모듈의 구성을 나타낸 블록도이다.

도 16은 일실시예에 따른 시간 도메인 후처리 모듈의 구성을 나타낸 블록도이다.

도 17은 다른 실시예에 따른 음질 향상 장치의 구성을 나타낸 블록도이다.

도 18은 도 8에 있어서 쉐이프 예측부의 구성을 나타낸 블록도이다.

도 19는 도 7에 있어서 클래스 결정부의 동작을 설명하는 도면이다.

도 20은 일실시예에 따른 음질 향상 방법을 설명하는 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 실시예들을 상세히 설명한다. 그러나 실시예들은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 실시예들을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 본 개시 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 개시 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 혹은 물리적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.

도 1은 일실시예에 따른 음성 복호화장치(100)의 구성을 나타낸 블록도이다. 여기서는 설명의 편의를 위하여, 음성으로 기재하였으나, 오디오 및/혹은 보이스를 포함하는 사운드를 칭할 수 있다.

도 1에 도시된 장치(100)는 복호화부(110)와 후처리부(130)를 포함할 수 있다. 복호화부(110)와 후처리부(130)는 별개의 프로세서로 구현되거나, 하나의 프로세서로 통합될 수 있다.

도 1을 참조하면, 복호화부(110)는 안테나(미도시)를 통하여 수신된 음성 통화 패킷에 대하여 복호화를 수행할 수 있다. 복호화부(110)는 장치(100)에 저장되어 있는 비트스트림에 대하여 복호화를 수행할 수 있다. 복호화부(110)는 복호화된 음성 데이터를 후처리부(130)로 제공할 수 있다. 복호화부(110)는 표준화된 코덱을 사용할 수 있으나, 이에 한정되지는 않는다. 실시예에 따르면, 복호화부(110)는 협대역 코덱인 AMR(Adaptive Multi-Rate) 코덱을 사용하여 복호화를 수행할 수 있다.

후처리부(130)는 복호화부(110)로부터 제공되는 복호화된 음성 데이터에 대하여 음질 향상을 위한 후처리를 수행할 수 있다. 실시예에 따르면 후처리부(130)는 광대역 대역폭 확장모듈을 포함할 수 있다. 후처리부(130)는 복호화부(110)에서 협대역 코덱을 이용하여 복호화한 음성 데이터의 대역폭을 광대역으로 확장시킴으로써 음의 자연성 및 현장감을 높여줄 수 있다. 후처리부(130)에 적용되는 대역폭 확장처리는 크게 송신단에서 대역폭 확장처리를 위한 부가정보를 제공하는 가이디드(guided) 방식과 송신단에서 대역폭 확장처리를 위한 부가정보를 제공하지 않는 넌-가이디드(non-guided) 즉, 블라인드(blind) 방식으로 나눌 수 있다. 가이디드 방식은 송신단에서 통화용 코덱의 구성 변경을 필요로 할 수 있다. 한편, 블라인드 방식은 송신단에서 통화용 코덱의 구성 변경없이, 수신단에서 후처리 부분을 변경하여 음질 향상을 도모할 수 있다.

도 2는 일실시예에 따른 음질 향상 기능을 갖는 기기(200)의 일부 구성을 나타낸 블록도이다. 도 2의 기기(200)는 모바일폰 혹은 태블릿과 같은 다양한 멀티미디어 기기에 해당할 수 있다.

도 2에 도시된 기기(200)는 통신부(210), 저장부(230), 복호화부(250), 후처리부(270) 및 출력부(290)를 포함할 수 있다. 복호화부(250) 및 후처리부(270)는 별개의 프로세서로 구현되거나, 하나의 프로세서로 통합될 수 있다. 도시되지 않았으나, 기기(200)는 사용자 인터페이스를 포함할 수 있다.

도 2를 참조하면, 통신부(210)는 송수신 안테나를 통하여 외부에서 음성 통화 패킷을 수신할 수 있다. 저장부(230)는 외부 기기와 연결되어, 외부 기기로부터 부호화된 비트스트림을 수신하여 저장할 수 있다.

복호화부(250)는 수신된 음성 통화 패킷 혹은 부호화된 비트스트림에 대하여 복호화를 수행할 수 있다. 복호화부(250)는 복호화된 음성 데이터를 후처리부(270)로 제공할 수 있다. 복호화부(250)는 표준화된 코덱을 사용할 수 있으나, 이에 한정되지는 않는다. 실시예에 따르면, 복호화부(250)는 협대역 코덱을 탑재할 수 있으며, 협대역 코덱의 예로는 AMR(Adaptive Multi-Rate) 코덱을 들 수 있다.

후처리부(270)는 복호화부(250)로부터 제공되는 복호화된 음성 데이터에 대하여 음질 향상을 위한 후처리를 수행할 수 있다. 실시예에 따르면 후처리부(270)는 광대역 대역폭 확장모듈을 포함할 수 있다. 후처리부(270)는 복호화부(250)에서 협대역 코덱을 이용하여 복호화한 음성 데이터의 대역폭을 광대역으로 확장시킴으로써 음의 자연성 및 현장감을 높여줄 수 있다. 후처리부(270)에서 수행되는 대역폭 확장처리는 크게 송신단에서 대역폭 확장처리를 위한 부가정보를 제공하는 가이디드(guided) 방식과 송신단에서 대역폭 확장처리를 위한 부가정보를 제공하지 않는 넌-가이디드(non-guided) 즉, 블라인드(blind) 방식으로 나눌 수 있다. 가이디드 방식은 송신단에서 통화용 코덱의 구성 변경을 필요로 할 수 있다. 한편, 블라인드 방식은 송신단에서 통화용 코덱의 구성 변경없이, 수신단에서 후처리를 변경하여 음질 향상을 도모할 수 있다. 후처리부(270)는 대역폭 확장처리가 수행된 음성데이터를 아날로그 신호로 변환할 수 있다.

출력부(290)는 후처리부(270)로부터 제공되는 아날로그 음성신호를 출력할 수 있다. 출력부(290)는 리시버, 스피커, 이어폰 혹은 헤드폰으로 대체될 수 있다. 출력부(290)는 후처리부(270)와 유선 혹은 무선으로 접속될 수 있다.

도 3은 일실시예에 따른 음질 향상 장치(300)의 구성을 나타낸 블록도로서, 도 1 혹은 도 2의 후처리부(130, 270)에 대응될 수 있다.

도 3에 도시된 장치(300)는 변환부(310), 신호 분류부(320), 저주파 스펙트럼 변형부(330), 고주파 스펙트럼 생성부(340), 등화부(350)와 시간도메인 후처리부(360)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다. 여기서, 등화부(350)와 시간도메인 후처리부(360)는 옵션으로 구비될 수 있다.

도 3을 참조하면, 변환부(310)는 복호화된 협대역 음성신호, 예를 들면 코어 신호를 주파수 도메인 신호로 변환할 수 있다. 변환된 주파수 도메인 신호는 저주파 스펙트럼일 수 있다. 변환된 주파수 도메인 신호는 코어 스펙트럼으로 칭할 수 있다.

신호 분류부(320)는 음성신호의 특징에 근거하여 음성신호를 분류하여 타입 혹은 클래스를 결정할 수 있다. 음성신호의 특징으로는 시간 도메인 특징과 주파수 도메인 특징 중 어느 하나 혹은 모두를 사용할 수 있다. 시간 도메인 특징과 주파수 도메인 특징에는 공지된 여러가지 파라미터가 포함될 수 있다.

저주파 스펙트럼 변형부(330)는 음성신호의 클래스에 근거하여, 변환부(310)로부터의 주파수 도메인 신호 즉, 저주파 스펙트럼 혹은 저주파 여기 스펙트럼을 변형할 수 있다.

고주파 스펙트럼 생성부(340)는 변형된 저주파 스펙트럼 혹은 저주파 여기 스펙트럼을 이용하여 고주파 여기 스펙트럼을 얻고, 음성신호의 클래스에 근거하여 저주파 스펙트럼으로부터 엔벨로프를 예측하고, 고주파 여기 스펙트럼에 예측된 엔벨로프를 적용하여 고주파 스펙트럼을 생성할 수 있다.

등화부(350)는 생성된 고주파 스펙트럼에 대하여 등화 처리를 수행할 수 있다.

시간도메인 후처리부(360)는 등화 처리된 고주파 스펙트럼을 고주파 시간 도메인 신호로 변환하고, 저주파 시간 도메인 신호와 결합하여 광대역 음성신호 즉 향상된 음성신호를 생성하고, 필터링과 같은 후처리를 수행할 수 있다.

도 4은 다른 실시예에 따른 음질 향상 장치(400)의 구성을 나타낸 블록도로서, 도 1 혹은 도 2의 후처리부(130, 270)에 대응될 수 있다.

도 4에 도시된 장치(400)는 업샘플링부(431), 변환부(433), 신호분류부(435), 저주파 스펙트럼 변형부(437), 고주파 여기 생성부(439), 엔벨로프 예측부(441), 엔벨로프 적용부(443), 등화부(445), 역변환부(447) 및 시간도메인 후처리부(449)를 포함할 수 있다. 여기서, 고주파 여기 생성부(439), 엔벨로프 예측부(441)와 엔벨로프 적용부(443)는 도 3의 고주파 스펙트럼 생성부(340)에 대응될 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다.

도 4를 참조하면, 업샘플링부(431)는 복호화된 N KHz 샘플링 레이트의 신호를 업샘플링할 수 있다. 예를 들어, 업샘플링을 통하여 8 KHz 샘플링 레이트의 신호로부터 16 KHz 샘플링 레이트의 신호를 생성할 있다. 업샘플링부(431)는 옵션으로 구비될 수 있다. 도 1 혹은 도 2의 복호화부(110, 250)로부터 업샘플링된 신호가 제공되는 경우, 업샘플링부(431)를 거치지 않고 바로 변환부(433)로 제공될 수 있다. 복호화된 N KHz 샘플링 레이트의 신호는 협대역 시간 도메인 신호일 수 있다.

변환부(433)는 업샘플링된 신호를 변환하여 주파수 도메인 신호 즉 저주파 스펙트럼을 생성할 수 있다. 변환처리에는 MDCT(Modified Discrete Cosine Transform), FFT(Fast Fourier Transform), MDCT+MDST (Modified Discrete Cosine Transform and Modified Discrete Sine Transform), QMF(Quadrature Mirror Filter) 등을 들 수 있으나, 이에 한정되는 것은 아니다. 여기서 저주파 스펙트럼은 저대역 혹은 코어 스펙트럼을 의미할 수 있다.

신호분류부(435)는 업샘플링된 신호와 주파수 도메인 신호를 입력으로 하여 신호의 특징을 추출하고, 추출된 특징에 근거하여 음성신호의 클래스 즉, 타입을 결정할 수 있다. 업샘플링된 신호는 시간 도메인 신호이므로, 신호분류부(435)는 시간 도메인 신호와 주파수 도메인 신호 각각에 대하여 특징을 추출할 수 있다. 신호분류부(435)에서 생성된 클래스 정보는 저주파 스펙트럼 변형부(437)와 엔벨로프 예측부(441)로 제공될 수 있다.

저주파 스펙트럼 변형부(437)는 변환부(433)로부터 제공되는 주파수 도메인 신호를 입력으로 하여, 신호분류부(435)로부터 제공된 클래스 정보에 근거하여 대역폭 확장처리에 적합한 신호인 저주파 스펙트럼으로 변형할 수 있다. 저주파 스펙트럼 변형부(437)는 변형된 저주파 스펙트럼을 고주파 여기 생성부(439)로 제공할 수 있다. 여기서, 저주파 스펙트럼 대신 저주파 여기 스펙트럼을 사용할 수도 있다.

고주파 여기 생성부(439)는 변형된 저주파 스펙트럼을 이용하여 고주파 여기 스펙트럼을 생성할 수 있다. 구체적으로, 변형된 저주파 스펙트럼은 원래의 저주파 스펙트럼으로부터 얻어지며, 고주파 여기 스펙트럼은 변형된 저주파 스펙트럼에 근거하여 시뮬레이션된 스펙트럼일 수 있다. 여기서 고주파 여기 스펙트럼은 고대역 여기 스펙트럼을 의미할 수 있다.

엔벨로프 예측부(441)는 변환부(433)로부터 제공되는 주파수 도메인 신호와 신호분류부(435)로부터 제공된 클래스 정보를 입력으로 하여, 엔벨로프를 예측할 수 있다.

엔벨로프 적용부(443)는 고주파 여기 생성부(439)로부터 제공된 고주파 여기 스펙트럼에 엔벨로프 예측부(441)로부터 제공된 예측된 엔벨로프를 적용하여 고주파 스펙트럼을 생성할 수 있다.

등화부(445)는 엔벨로프 적용부(243)로부터 제공된 고주파 스펙트럼을 입력으로 하여 고주파 대역에 대한 이퀄라이징 처리를 수행할 수 있다. 한편, 변환부(433)로부터의 저주파 스펙트럼 역시 다양한 경로를 통하여 등화부(445)로 입력될 수 있다. 이 경우, 등화부(445)는 저주파 대역과 고주파 대역에 대하여 선택적으로 이퀄라이징 처리를 수행하거나, 전대역에 대하여 이퀄라이징 처리를 수행할 수 있다. 이퀄라이징 처리는 공지된 다양한 방법을 사용할 수 있다. 일예로 들면, 대역별로 적응적 이퀄라이징 처리가 가능하다.

역변환부(447)는 등화부(445)로부터 제공되는 고주파 스펙트럼을 역변환하여 시간 도메인 신호를 생성할 수 있다. 한편, 등화부(445)로부터 이퀄라이징 처리가 수행된 저주파 스펙트럼 역시 역변환부(447)도 제공될 수 있다. 이 경우, 역변환부(247)는 저주파 스펙트럼과 고주파 스펙트럼을 별개로 역변환하여 저주파 시간 도메인 신호와 고주파 시간 도메인 신호를 생성할 수 있다. 일실시예에 따르면, 저주파 시간 도메인 신호는 업샘플링부(431)의 신호를 그대로 사용하고, 역변환부(447)는 고주파 시간 도메인 신호만 생성할 수 있다. 이 경우, 저주파 시간 도메인 신호는 원래의 음성신호와 동일하기 때문에, 딜레이 발생 없이 처리될 수 있다.

시간도메인 후처리부(449)는 역변환부(447)로부터 제공되는 저주파 시간 도메인 신호와 고주파 시간 도메인 신호에 대하여 후처리를 수행하여 잡음을 억제하고, 후처리된 저주파 시간 도메인 신호와 고주파 시간 도메인 신호를 합성하여 광대역 시간 도메인 신호를 생성할 수 있다. 시간도메인 후처리부(449)로부터 생성되는 신호는 2*N 혹은 M*N(M은 2 이상) KHz 샘플링 레이트의 신호일 수 있다. 시간도메인 후처리부(449)는 옵션으로 구비될 수 있다. 일실시예에 따르면, 저주파 시간 도메인 신호와 고주파 시간 도메인 신호는 모두 이퀄라이징 처리가 수행된 신호일 수 있다. 다른 실시예에 따르면, 저주파 시간 도메인 신호는 원래의 협대역 음성신호이고, 고주파 시간 도메인 신호는 이퀄라이징 처리가 수행된 신호일 수 있다.

실시예에 따르면, AMR 비트스트림으로부터 고주파 대역에 대하여 아무런 정보가 전송되지 않더라도, 협대역 스펙트럼으로부터의 예측을 통하여 고주파 스펙트럼을 생성할 수 있다.

도 5를 참조하면, 하나의 프레임은 예를 들면 4개의 서브-프레임으로 구성될 수 있다. 하나의 프레임이 통상적인 음성 코덱이 동작되는 20ms로 구성되는 경우, 하나의 서브-프레임은 5ms로 구성될 수 있다. 점선으로 표현된 블록은 이전 프레임 중 마지막 서브-프레임 즉, 라스트 엔드 프레임을 의미하고, 실선으로 표현된 4개의 블록은 현재 프레임의 4개의 서브-프레임을 의미할 수 있다. 변환처리시, 이전 프레임의 마지막 서브-프레임과 현재 프레임의 첫번째 서브-프레임에 대하여 윈도윙 처리할 수 있다. 윈도윙 처리된 신호를 대역폭 확장처리에 적용할 수 있다. 도 5의 프레이밍은 MDCT를 이용하여 변환처리를 수행하는 경우 적용할 수 있다. 한편, 다른 방식의 변환처리인 경우 다른 프레이밍이 적용될 수 있다. 여기서, 각 서브-프레임을 대역폭 확장 처리의 기본 단위로 사용할 수 있다. 구체적으로, 도 4에 있어서 업샘플링부(431)에서부터 시간도메인 후처리부(449)까지 서브-프레임 단위로 동작할 수 있다. 즉, 4회의 동작을 통하여 하나의 프레임에 대한 대역폭 확장 처리가 완료될 수 있다. 한편, 시간도메인 후처리부(449)에서는 하나의 서브-프레임에 대하여 서브-서브-프레임 단위로 후처리를 수행할 수 있다. 하나의 서브-프레임은 4개의 서브-서브-프레임으로 구성될 수 있다. 이에 따르면, 하나의 프레임은 16개의 서브-서브-프레임으로 구성될 수 있다. 프레임을 구성하는 서브 프레임의 갯수, 서브 프레임을 구성하는 서브-서브 프레임의 갯수는 변경될 수 있다.

도 6은 대역폭 확장처리를 위한 밴드 구성의 예를 보여주는 도면으로서, 광대역(Wide-band) 대역폭 확장처리를 가정한 것이다. 구체적으로, 8 KHz 샘플링 레이트의 신호를 업샘플링하여 16 KHz 샘플링 레이트의 신호를 얻고, 16 KHz 샘플링 레이트의 신호를 이용하여 4 ~ 8 KHz 스펙트럼을 생성하는 예이다.

도 6을 참조하면, 엔벨로프 밴드(B_E)는 전체 주파수 대역을 20개의 밴드로 구성한 것이고, 화이트닝 및 웨이팅 밴드(B_W)는 8개의 밴드로 구성한 것이다. 이때, 각 밴드는 주파수 대역에 따라서 균일하거나 불균일하게 구성할 수 있다.

도 7은 일실시예에 따른 신호분류모듈(700)의 구성을 나타낸 블록도로서, 도 4의 신호분류부(435)에 대응될 수 있다.

도 7에 도시된 모듈(700)은 주파수 도메인 특징 추출부(710), 시간 도메인 특징 추출부(730) 및 클래스 결정부(750)을 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다.

도 7에 있어서, 주파수 도메인 특징 추출부(710)는 변환부(도 4의 433)로부터 제공되는 주파수 도메인 신호 즉, 스펙트럼으로부터 주파수 도메인 특징을 추출할 수 있다.

시간 도메인 특징 추출부(730)는 업샘플링부(도 2의 431)로부터 제공되는 시간 도메인 신호로부터 시간 도메인 특징을 추출할 수 있다.

클래스 결정부(750)는 주파수 도메인 특징과 시간 도메인 특징으로부터 음성신호의 클래스, 예를 들면 현재 서브-프레임의 클래스를 결정하여 클래스 정보를 생성할 수 있다. 클래스 정보는 단일한 클래스 혹은 복수의 후보 클래스를 포함할 수 있다. 또한, 클래스 결정부(750)는 현재 서브-프레임에 대하여 결정된 클래스로부터 보이싱 레벨을 얻을 수 있다. 결정된 클래스는 가장 높은 확률값을 갖는 클래스일 수 있다. 실시예에 따르면, 클래스별로 보이싱 레벨이 매핑되어 있고, 결정된 클래스에 대응되는 보이싱 레벨을 얻을 수 있다. 한편, 현재 서브-프레임의 보이싱 레벨과 적어도 하나의 이전 서브-프레임의 보이싱 레벨을 이용하여 현재 서브-프레임의 최종 보이싱 레벨을 구할 수 있다.

각 구성요소의 동작에 대하여 좀 더 구체적으로 설명하면 다음과 같다.

주파수 도메인 특징 추출부(710)에서 추출된 특징의 예로는 Centroid(C)와 Energy Quotient(E)를 들 수 있으나, 이에 한정되는 것은 아니다.

Centroid(C)는 하기 수학식 1에서와 같이 정의될 수 있다.

수학식 1

여기서, x는 스펙트럼 계수를 나타낸다.

한편, Energy Quotient(E)는 하기 수학식 2에서와 같이 단구간 에너지(E_Short)와 장구간 에너지(E_Long)의 비율로 정의될 수 있다.

수학식 2

여기서, 단구간 에너지와 장구간 에너지는 모두 이전 서브 프레임까지의 히스토리를 기반으로 결정될 수 있다. 이때, 단구간과 장구간은 현재 서브 프레임의 에너지에 대한 기여분의 정도에 따라서 구분되며, 예를 들어 단구간에 비하여 장구간은 이전 서브 프레임까지의 에너지의 평균에 대해서 더 큰 비율을 곱하는 방식으로 정의될 수 있다. 구체적으로, 장구간은 현재 서브 프레임의 에너지를 적게 반영하고, 단구간은 장구간에 비하여 상대적으로 현재 서브 프레임의 에너지를 많이 반영하도록 설계된다.

한편, 시간 도메인 특징 추출부(730)에서 추출된 특징의 예로는 Gradient Index (G)를 들 수 있으나, 이에 한정되는 것은 아니다.

Gradient Index(G) 는 하기 수학식 3에서와 같이 정의될 수 있다.

수학식 3

여기서, t는 시간 도메인 신호를 나타낸다. Sign은 신호가 0이상일 경우에는 +1을, 0보다 작은 경우에는 -1을 표현한다.

클래스 결정부(750)는 적어도 하나 이상의 주파수 도메인 특징과 적어도 하나 이상의 시간 도메인 특징으로부터 음성신호의 클래스를 결정할 수 있다. 실시예에 따르면, 클래스 결정에는 저주파 에너지를 기준으로 널리 알려진 GMM(Gaussian Mixture Model) 모델을 이용할 수 있다. 클래스 결정부(750)는 서브-프레임별로 하나의 클래스를 확정하거나, 소프트 디시젼 기반으로 복수의 후보 클래스를 도출할 수 있다. 실시예에 따르면, 저주파 에너지를 기반으로 하며, 저주파 에너지가 특정 값 이하이면, 하나의 클래스를 확정하고, 그 이상인 경우에는 복수개의 후보 클래스를 도출할 수 있다. 여기서, 저주파 에너지는 협대역 에너지 혹은 특정 주파수 대역 이하의 에너지를 의미할 수 있다. 복수개의 후보 클래스는 예를 들면 가장 높은 확률값을 갖는 클래스와 이에 인접하는 클래스로 구성될 수 있다. 복수개의 후보 클래스가 선택된 경우에는 각 클래스 별로 확률값을 갖게 되므로, 확률값을 고려하여 예측값을 계산하게 된다. 보이싱 레벨(voicing level)은 단일한 클래스 혹은 가장 큰 확률값을 갖는 클래스에 매핑된 것을 사용할 수 있다. 한편, 에너지 예측은 후보 클래스와 후보 클래스의 확률값을 기반으로 수행할 수 있다. 후보 클래스별로 예측을 수행하고, 그 결과 얻어진 예측값에 확률값을 곱하여 최종 예측값을 결정할 수 있다.

도 8은 실시예에 따른 엔벨로프 예측모듈(800)의 구성을 나타낸 블록도로서, 도 4의 엔벨로프 예측부(441)에 대응될 수 있다.

도 8에 도시된 모듈(800)은 에너지 예측부(810), 쉐이프 예측부(830), 엔벨로프 산출부(850) 및 엔벨로프 후처리부(870)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다.

도 8에 있어서, 에너지 예측부(810)는 클래스 정보를 기반으로, 주파수 도메인 신호, 즉 저주파 스펙트럼으로부터 고주파 스펙트럼의 에너지를 예측할 수 있다. 에너지 예측부(810)의 일실시예에 대해서는 도 9를 참조하여 좀 더 구체적으로 설명하기로 한다.

쉐이프 예측부(830)는 클래스 정보와 보이싱 레벨 정보를 기반으로, 주파수 도메인 신호, 즉 저주파 스펙트럼으로부터 고주파 스펙트럼의 쉐이프를 예측할 수 있다. 쉐이프 예측부(830)는 유성음과 무성음에 대하여 각각 쉐이프를 예측할 수 있다. 쉐이프 예측부(830)의 일실시예에 대해서는 도 10을 참조하여 좀 더 구체적으로 설명하기로 한다.

도 9은 도 8에 도시된 에너지 예측부(810)의 세부 구성을 나타낸 블록도이다.

도 9에 도시된 에너지 예측부(900)는 제1 예측부(910), 리미터 적용부(930) 및 에너지 스무딩부(950)를 포함할 수 있다.

도 9에 있어서, 제1 예측부(910)는 클래스 정보를 기반으로, 주파수 도메인 신호, 즉 저주파 스펙트럼으로부터 고주파 스펙트럼의 에너지를 예측할 수 있다. 제1 예측부(710)에서 예측된 에너지

는 하기의 수학식 4와 같이 정의될 수 있다.

수학식 4

구체적으로, 도 4의 신호분류부(435)에서 결정된 복수개의 후보 클래스 각각에 대해서

를 예측하고, 이를 결정된 확률값(prob_j)과 곱한 후, 이들의 합으로 최종 예측된 에너지

를 구할 수 있다. 이를 위하여, 클래스별로 설정되어 있는 코드북과 현재 서브-프레임에서 추출된 저주파 엔벨로프와 저주파 엔벨로프의 표준편차로 구성된 베이시스를 구하고, 클래스 별로 저장되어 있는 매트릭스를 곱하여

를 예측할 수 있다.

한편, 저주파 엔벨로프 Env(i)는 하기의 수학식 5와 같이 정의할 수 있다. 즉, 저주파의 서브밴드별 로그 에너지와 표준편차를 이용하여 에너지를 예측할 수 있다.

수학식 5

이와 같이 구해진

들을 이용하여 상기 수학식 4에서와 같이

를 구할 수 있다.

리미터 적용부(730)는 제1 예측부(710)에서 제공되는 예측된 에너지

에 리미터를 적용함으로써,

값이 너무 클 경우 발생될 수 있는 잡음을 억제할 수 있다. 이때, 리미터로 동작할 에너지는 로그 도메인 엔벨로프가 아니라, 하기의 수학식 6에서와 같은 선형 엔벨로프를 이용할 수 있다.

수학식 6

이와 같이 구해진 선형 엔벨로프를 하기의 수학식 7에서와 같이 복수개의 Centroid(C)를 구하여 베이시스를 구성할 수 있다.

수학식 7

여기서, C_LB 는 도 7의 주파수 도메인 특징 추출부(710)에서 계산된 Centroid 값, mL 은 저대역 선형 엔벨로프의 평균값, mL_i 는 저대역 선형 엔벨로프 값, C_max 는 Centroid의 최대값으로 상수이다. 이와 같이 구해진 C_i값들 및 표준 편차를 사용하여 베이시스를 구하고, 베이시스의 일부를 활용하여 예측하는 복수개의 predictor들을 통해 centroid 예측값을 구할 수 있다. centroid 예측값들 중에서 최소와 최대 centroid를 구하고, 하기의 수학식 8을 이용하여 최소값과 최대값의 평균값(

)을 에너지로 변환하여 변환된 에너지값을 리미터로 활용할 수 있다. 복수개의 centroid 예측값을 구하는 방법은 전술한

를 예측하는 방법과 유사하며, 클래스 정보에 기반하여 코드북을 설정하고, 코드북과 구해진 베이시스를 곱하여 수행될 수 있다.

수학식 8

에너지 스무딩부(950)는 리미터 적용부(930)로부터 제공되는 예측 에너지를 이전 서브-프레임에서 예측된 복수개의 에너지값들을 반영하여 에너지 스무딩을 수행할 수 있다. 스무딩의 일예로서, 이전 서브-프레임과 현재 서브-프레임간 예측 에너지의 차이를 소정 범위 이내로 제한할 수 있다. 에너지 스무딩부(950)는 옵션으로 구비될 수 있다.

도 10은 도 8에 도시된 쉐이프 예측부(830)의 세부 구성을 나타낸 블록도이다.

도 10에 도시된 쉐이프 예측부(1000)는 유성음 쉐이프 예측부(1010), 무성음 쉐이프 예측부(1030) 및 제2 예측부(1050)을 포함할 수 있다.

도 10에 있어서, 유성음 쉐이프 예측부(1010)는 저주파 선형 엔벨로프 즉, 저주파 쉐이프를 이용하여 고주파 대역의 유성음 쉐이프를 예측할 수 있다

무성음 쉐이프 예측부(1030)는 저주파 선형 엔벨로프 즉, 저주파 쉐이프를 이용하여 고주파 대역의 무성음 쉐이프를 예측하고, 고주파 대역에서 저주파 부분과 고주파 부분간 쉐이프의 비교 결과에 따라서 무성음 쉐이프를 조정할 수 있다.

제2 예측부(1050)는 유성음 쉐이프와 무성음 쉐이프를 보이싱 레벨에 근거한 비율로 믹싱하여 고주파 스펙트럼의 쉐이프를 예측할 수 있다.

다시 도 8로 돌아가서, 엔벨로프 산출부(850)는 에너지 예측부(810)에서 예측된 에너지

와 쉐이프 예측부(830)에서 예측된 쉐이프 Sha(i)를 입력으로 하여, 고주파 스펙트럼의 엔벨로프 Env(i)를 얻을 수 있다. 고주파 스펙트럼의 엔벨로프는 하기의 수학식 9에서와 같이 구해질 수 있다.

수학식 9

엔벨로프 후처리부(870)는 엔벨로프 산출부(850)로부터 제공되는 엔벨로프에 대하여 후처리를 수행할 수 있다. 후처리의 예로는 저주파수와 고주파수의 경계에서 저주파수 끝 부분의 엔벨로프를 고려하여, 고주파수의 시작 부분의 엔벨로프를 조절할 수 있다. 엔벨로프 후처리부(870)는 옵션으로 구비될 수 있다.

도 11은 고주파 대역에서 유성음 쉐이프와 무성음 쉐이프를 생성하는 방법의 예를 나타내는 도면이다.

도 11을 참조하면, 유성음 쉐이프 생성 단계(1130)는 저주파 선형 엔벨로프 즉, 저주파 쉐이프 생성단계(1110)에서 얻어진 저주파 쉐이프를 고주파 대역으로 트랜스포징하여 유성음 쉐이프(1130)를 생성할 수 있다.

무성음 쉐이프 생성 단계(1150)는 기본적으로는 트랜스포징을 통하여 무성음 쉐이프를 생성하며, 고주파 대역에서 저주파 부분과 고주파 부분의 쉐이프를 비교하여 고주파 부분의 쉐이프가 큰 경우 고주파 부분의 쉐이프를 줄여줄 수 있다. 그 결과, 고주파 대역내 고주파 부분의 쉐이프가 상대적으로 커짐으로써 잡음이 발생할 가능성을 줄여줄 수 있다.

혼합 단계(1170)는 생성된 유성음 쉐이프와 무성음 쉐이프를 보이싱 레벨에 근거하여 믹싱하여 고주파 스펙트럼의 예측된 쉐이프를 생성할 수 있다. 여기서, 보이싱 레벨을 이용하여 믹싱 비율을 결정할 수 있다. 예측된 쉐이프는 도 8의 엔벨로프 산출부(850)로 제공될 수 있다.

도 12는 일실시예에 따른 저주파 스펙트럼 변형모듈(1200)의 구성을 나타낸 블록도로서, 도 4의 저주파 스펙트럼 변형부(437)에 대응될 수 있다.

도 12에 도시된 모듈(1200)은 가중치 산출부(1210), 가중치 예측부(1230), 화이트닝부(1250), 랜덤 노이즈 생성부(1270) 및 가중치 적용부(1290)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다. 한편, 저주파 스펙트럼 대신 저주파 여기 스펙트럼에 대하여 변형이 이루어질 수도 있기 때문에, 이하에서는 구별없이 혼용하여 사용하기로 한다.

도 12에 있어서, 가중치 산출부(1210)는 저주파 스펙트럼의 선형 예측 에러로부터 저주파 스펙트럼의 제1 가중치를 산출할 수 있다. 구체적으로, 저주파 스펙트럼을 화이트닝한 신호에 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성할 수 있다. 이때, 혼합 비율을 위하여 고주파 스펙트럼의 제2 가중치가 적용되며, 고주파 스펙트럼의 제2 가중치는 저주파 스펙트럼의 제1 가중치로부터 얻어질 수 있다. 여기서, 제1 가중치는 신호의 예측 가능성에 기반하여 산출될 수 있다. 구체적으로, 신호의 예측 가능성이 높으면 선형 예측 에러가 작아지고, 신호의 예측 가능성이 낮으면 선형 예측 에러가 커질 수 있다. 즉, 선형 예측 에러가 커지면 제1 가중치를 작은 값으로 설정하고, 그 결과 저주파 스펙트럼에 곱해지는 값(W)보다 랜덤 노이즈에 곱해지는 값(1-W)이 커지므로, 상대적으로 많은 랜덤 노이즈가 포함되어 변형된 저주파 스펙트럼을 생성할 수 있다. 한편, 선형 예측 에러가 작아지면 제1 가중치를 큰 값으로 설정하고, 그 결과 저주파 스펙트럼에 곱해지는 값(W)보다 랜덤 노이즈에 곱해지는 값(1-W)이 작아지므로, 상대적으로 적은 랜덤 노이즈가 포함되어 변형된 저주파 스펙트럼을 생성할 수 있다. 여기서, 선형 예측 에러와 제1 가중치간의 관계는 시뮬레이션 혹은 실험을 통하여 미리 매핑시킬 수 있다.

가중치 예측부(1030)는 가중치 산출부(1010)로부터 제공되는 저주파 스펙트럼의 제1 가중치에 근거하여 고주파 스펙트럼의 제2 가중치를 예측할 수 있다.

구체적으로, 도 4의 고주파여기 생성부(439)에서 고주파 여기 스펙트럼을 생성할 때, 소스 주파수 대역과 타겟 주파수 대역간의 관계를 고려하여 기본이 되는 소스 밴드를 결정하고, 결정된 소스 밴드의 가중치 즉, 저주파 스펙트럼의 제1 가중치가 결정되면, 제1 가중치에 클래스별로 설정된 상수를 곱하여 고주파 스펙트럼의 제2 가중치를 예측할 수 있다. 고주파 밴드 i의 예측된 제2 가중치(w_i)는 하기의 수학식 10에 의해 밴드별로 계산하는 것으로 정의될 수 있다.

수학식 10

여기서, g_i,midx 는 클래스 인덱스(midx)에 의해 결정되는 i 밴드에 곱해 줄 상수이고, w_j 는 소스 밴드 j의 산출된 제1 가중치를 나타낸다.

화이트닝부(1250)는 주파수 도메인 신호 즉, 저주파 스펙트럼에 대하여 주파수 빈별로 주변 스펙트럼을 고려하여 화이트닝 엔벨로프를 정의하고, 정의된 화이트닝 엔벨로프의 역수를 저주파 스펙트럼에 곱함으로써, 저주파 스펙트럼을 화이트닝시킬 수 있다. 이때, 고려되는 주변 스펙트럼의 범위는 가중치 예측부(1230)로부터 제공되는 고주파 스펙트럼의 제2 가중치에 의해 결정될 수 있다. 구체적으로, 고려되는 주변 스펙트럼의 범위는 기본 윈도우의 크기에 제2 가중치를 곱하여 얻어지는 윈도우로 결정되며, 제2 가중치는 소스 밴드와 타겟 밴드간의 매핑 관계에 근거하여, 해당하는 타겟 밴드로부터 얻어질 수 있다. 기본 윈도우는 사각 윈도우(rectangular window)를 사용할 수 있으나, 이에 한정되는 것은 아니다. 화이트닝 처리는 결정된 윈도우 내에서 에너지를 구하고, 에너지의 제곱근(square root)을 이용하여 주파수 빈에 해당하는 저주파 스펙트럼을 스케일링함으로써 수행될 수 있다.

랜덤 노이즈 생성부(1270)는 공지된 다양한 방법으로 랜덤 노이즈를 생성할 수 있다.

가중치 적용부(1290)는 화이트닝된 저주파 스펙트럼과 랜덤 노이즈를 입력으로 하여, 고주파 스펙트럼의 제2 가중치를 적용하여 혼합함으로써, 변형된 저주파 스펙트럼을 생성할 수 있다. 그 결과, 가중치 적용부(1290)는 변형된 저주파 스펙트럼을 엔벨로프 적용부(443)로 제공할 수 있다.

도 13은 일실시예에 따른 고주파여기 생성모듈(1300)의 구성을 나타낸 블록도로서, 도 4의 고주파여기 생성부(439)에 대응될 수 있다.

도 13에 도시된 모듈(1300)은 스펙트럼 폴딩/트랜스포징부(1310)을 포함할 수 있다.

도 13에 있어서, 스펙트럼 폴딩/트랜스포징부(1310)는 변형된 저주파 여기 스펙트럼을 이용하여 고주파 대역에 스펙트럼을 생성할 수 있다. 변형된 저주파 여기 스펙트럼 대신 변형된 저주파 스펙트럼을 사용할 수도 있다. 저주파 여기 스펙트럼을 트랜스포징 혹은 폴딩하여 고주파 대역의 특정 위치로 이동시킬 수 있다.

도 14에 도시된 트랜스포징 및 폴딩의 예를 살펴보면, 4 ~ 7 KHz 대역까지는 1 ~ 4 KHz 대역의 스펙트럼을 트랜스포징하여 생성하고, 7 ~ 8 KHz 대역은 3 ~ 4 KHz 대역의 스펙트럼을 폴딩하여 생성할 수 있다.

도 15는 일실시예에 따른 등화 모듈(1500)의 구성을 나타낸 블록도로서, 도 4의 등화부(445)에 대응될 수 있다.

도 15에 도시된 모듈(1500)은 묵음 검출부(1510), 노이즈 저감부(1530) 및 스펙트럼 이퀄라이저(1550)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다.

도 15에 있어서, 묵음 검출부(1510)는 현재 서브-프레임에서 저주파 에너지가 소정 문턱치보다 작은 경우가 수회 반복될 때, 현재 서브-프레임은 묵음 구간으로 검출될 수 있다. 여기서, 문턱치와 반복 횟수는 시뮬레이션 혹은 실험을 통하여 미리 설정될 수 있다.

노이즈 저감부(1530)는 묵음 검출부(1510)에서 현재 서브-프레임이 묵음 구간으로 검출되면, 현재 서브-프레임의 고주파 스펙트럼의 크기를 점진적으로 감소시킴으로써 묵음 구간에서 발생되는 잡음을 줄일 수 있다. 이를 위하여, 노이즈 저감부(1530)는 서브-프레임 단위로 노이즈 저감 게인을 적용할 수 있다. 저주파와 고주파를 포함하는 전대역의 신호를 점진적으로 감소시키는 경우 노이즈 저감 게인은 0에 가까운 값으로 수렴되도록 만들 수 있다. 또한, 묵음 구간인 서브-프레임에서 묵음 구간이 아닌 서브-프레임으로 바뀌는 경우, 점진적으로 신호의 크기를 증가시키는데, 이 경우 노이즈 저감 게인을 1로 수렴되도록 설정할 수 있다. 한편, 노이즈 저감부(1530)은 점진적으로 감소시키는 노이즈 저감 게인의 비율을 점진적으로 증가시키는 노이즈 저감 게인에 비하여 적게 만듦으로써, 감소는 천천히 이루어지는 한편, 증가는 신속하게 이루어질 수 있도록 처리할 수 있다. 여기서, 비율은 게인을 서브-프레임별로 점점 증가시키거나 혹은 점점 감소시킬 경우, 서브-프레임별 증가분 혹은 감소분의 크기를 의미할 수 있다. 묵음 검출부(1510) 및 노이즈 저감부(1530)는 선택적으로 적용할 수 있다.

스펙트럼 이퀄라이저(1550)는 노이즈 저감부(1530)로부터 제공되는 노이즈 저감된 신호에 주파수 대역 혹은 서브밴드별로 서로 다른 이퀄라이저 게인을 적용함으로써, 사용자가 보다 선호하는 음성으로 변경시킬 수 있다. 한편, 특정 주파수 대역 혹은 서브밴드에 대해서는 동일한 이퀄라이저 게인을 적용하는 것도 가능하다. 스펙트럼 이퀄라이저(1550)는 모든 신호 즉 주파수대역에 대해서 동일한 이퀄라이저 게인을 적용할 수 있다. 한편, 유성음인 경우의 이퀄라이저 게인과 무성음인 경우의 이퀄라이저 게인을 다르게 설정하고, 현재 서브-프레임의 보이싱 레벨에 근거하여 두개의 이퀄라이저 게인에 대하여 가중합(weighted sum)으로 믹싱하여 적용할 수 있다. 그 결과, 스펙트럼 이퀄라이저(1550)는 음질이 향상되고 잡음이 제거된 스펙트럼을 역변환부(도 4의 447)로 제공할 수 있다.

도 16은 일실시예에 따른 시간 도메인 후처리 모듈(1600)의 구성을 나타낸 블록도로서, 도 4의 시간 도메인 후처리부(449)에 대응될 수 있다.

도 16에 도시된 모듈(1600)은 제1 에너지 산출부(1610), 제2 에너지 산출부(1630), 게인 추정부(1650), 게인 적용부(1670) 및 결합부(1690)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다. 시간 도메인 후처리 모듈(1600)의 각 구성요소는 도 4에 도시된 음질 향상 장치(400)의 각 구성요소보다 작은 단위로 동작할 수 있다. 예를 들어, 도 4의 전체 구성요소가 서브-프레임 단위로 동작하는 경우, 시간 도메인 후처리 모듈(1600)의 각 구성요소는 서브-서브-프레임 단위로 동작할 수 있다.

도 16에 있어서, 제1 에너지 산출부(1610)는 서브-서브 프레임 단위로, 저주파 시간 도메인 신호로부터 에너지를 산출할 수 있다.

제2 에너지 산출부(1630)는 서브-서브 프레임 단위로, 고주파 시간 도메인 신호로부터 고주파 에너지를 산출할 수 있다.

게인 추정부(1650)는 저주파 에너지에서 현재 서브-서브 프레임과 이전 서브-서브 프레임간의 비율에 고주파 에너지에서 현재 서브-서브 프레임과 이전 서브-서브 프레임간의 비율을 맞추기 위하여, 현재 서브-서브 프레임에 적용할 게인을 추정할 수 있다. 추정되는 게인 g(i)는 하기의 수학식 11로 정의될 수 있다.

수학식 11

여기서, E_H(i), E_L(i)는 각각 i번째 서브-서브 프레임의 고주파 에너지와 저주파 에너지를 의미한다.

한편, 게인 g(i)이 너무 큰 값을 갖는 것을 방지하기 위하여, 소정 문턱치 g_th를 이용할 수 있다. 즉, 하기 수학식 12에서와 같이 게인 g(i)이 소정 문턱치 g_th 보다 크면 문턱치 g_th 를 게인 g(i)으로 추정할 수 있다.

수학식 12

게인 적용부(1670)는 게인 추정부(1650)에서 추정된 게인을 고주파 시간 도메인 신호에 적용할 수 있다.

결합부(1690)는 저주파 시간 도메인 신호와 게인이 적용된 고주파 시간 도메인 신호를 결합하여, 대역폭 확장된 시간 도메인 신호 즉, 광대역 시간 도메인 신호를 생성할 수 있다.

도 17는 다른 일실시예에 따른 음질 향상 장치(1700)의 구성을 나타낸 블록도로서, 도 1 혹은 도 2의 후처리부(130, 250)에 대응될 수 있다. 도 4에 도시된 음질 향상 장치(400)와는 가장 큰 차이점으로는 고주파여기 생성부(1733)의 위치를 들 수 있다.

도 17에 도시된 장치(1700)는 업샘플링부(1731), 고주파여기 생성부(1733), 결합부(1735), 변환부(1737), 신호분류부(1739), 엔벨로프 예측부(1741), 엔벨로프 적용부(1743), 등화부(1745), 역변환부(1747) 및 시간도메인 후처리부(1749)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다. 업샘플링부(1731), 엔벨로프 예측부(1741), 엔벨로프 적용부(1743), 등화부(1745), 역변환부(1747) 및 시간도메인 후처리부(1749)의 동작은 도 4의 해당하는 구성요소와 실질적으로 동일하거나 유사하므로 세부적인 설명을 생략하기로 한다.

도 17을 참조하면, 고주파여기 생성부(1733)는 업샘플링된 신호 즉, 저주파 신호를 고대역으로 쉬프팅시킴으로써 고주파여기 신호를 생성할 수 있다. 고주파여기 생성부(1733)는 저주파 신호 대신 저주파여기 신호를 이용하여 고주파여기 신호를 생성할 수 있다. 일실시예에 따르면, 스펙트럼 쉬프팅 방식을 사용할 수 있다. 구체적으로, 시간 도메인에서 코사인 모듈레이션을 통하여 저주파 신호를 고대역으로 쉬프팅시킬 수 있다.

결합부(1735)는 고주파여기 생성부(1733)로부터 제공되는 쉬프팅된 시간 도메인 신호 즉, 고주파여기 신호와 업샘플링된 신호 즉, 저주파 신호를 결합하여 변환부(1737)로 제공할 수 있다.

변환부(1737)는 결합부(1735)로부터 제공되는 저주파와 고주파가 결합된 신호를 변환하여 주파수 도메인 신호를 생성할 수 있다. 변환처리에는 MDCT(Modified Discrete Cosine Transform), FFT(Fast Fourier Transform), MDCT+MDST (Modified Discrete Cosine Transform and Modified Discrete Sine Transform), QMF(Quadrature Mirror Filter) 등을 들 수 있으나, 이에 한정되는 것은 아니다.

신호 분류부(1739)는 시간 도메인 특징 추출을 위하여 업샘플링부(1731)로부터 제공되는 저주파 신호를 사용할 수도 있고, 결합부(1735)에서 제공되는 저주파와 고주파가 합쳐진 신호를 사용할 수도 있다. 신호 분류부(1739)는 주파수 도메인 특징 추출을 위하여 변환부(1737)로부터 제공되는 전대역 스펙트럼을 사용할 수 있다. 이 경우, 전대역 스펙트럼으로부터 저주파 스펙트럼을 선택적으로 사용할 수 있다. 그외 신호 분류부(1739)의 동작은 도 4의 신호 분류부(435)와 동일할 수 있다.

엔벨로프 예측부(1741)는 도 4에서와 마찬가지로 저주파 스펙트럼을 이용하여 고주파의 엔벨로프를 예측하고, 엔벨로프 적용부(1743)는 도 4에서와 마찬가지로 고주파 스펙트럼에 예측된 엔벨로프에 적용할 수 있다.

도 4의 실시예에 따르면 주파수 도메인에서 고주파 여기신호를 생성할 수 있고, 도 17의 실시예에 따르면 시간 도메인에서 고주파 여기신호를 생성할 수 있다. 도 17에서와 같이 시간 도메인에서 고주파 여기신호를 생성하게 되면, 저주파 시간특성을 고주파에 용이하게 반영할 수 있다. 이에 따르면, 통화패킷에 주로 포함되는 음성신호의 경우 일반적으로 시간도메인 코딩방법을 사용하기 때문에 보다 적합할 수 있다. 한편, 도 4에서와 같이 주파수 도메인에서 고주파 여기신호를 생성하게 되면, 신호 컨트롤이 대역별로 자유롭게 행해질 수 있다.

도 18은 도 8에 있어서 쉐이프 예측부(830)의 구성을 나타낸 블록도이다.

도 18에 도시된 쉐이프 예측부(1800)는 초기 쉐이프 구성부(1810), 쉐이프 로테이션 처리부(1830) 및 쉐이프 역동성 조절부(1850)을 포함할 수 있다.

도 18을 참조하면, 초기 쉐이프 구성부(1810)는 저주파에서 엔벨로프 정보(Env(b))를 추출하고, 이로부터 고주파 쉐이프를 위한 초기 쉐이프로 구성할 수 있다. 쉐이프 정보는 저주파 밴드와 고주파 밴드간의 매핑 관계를 이용하여 추출될 수 있다. 이를 위하여, 예를 들어 고주파의 4kHz~4.4kHz는 저주파의 1kHz~1.4kHz에 해당하는 것과 같은 매핑 관계를 정의할 수 있다. 한편, 일부 저주파는 고주파에 중복되어 매핑될 수 있다.

쉐이프 로테이션 처리부(1830)는 초기 쉐이프에 대하여 쉐이프 로테이션을 수행할 수 있다. 쉐이프 로테이션을 위해서는 하기 수학식 13과 같이 슬로우프를 정의할 수 있다.

수학식 13

여기서, Env는 밴드별 엔벨로프 값을 의미하며, N_I는 초기 시작 복수개의 밴드, N_B는 전체 밴드를 의미한다.

쉐이프 로테이션 처리부(1830)는 초기 쉐이프에서 엔벨로프 값을 추출하고, 엔벨로프값을 이용해서 슬로우프를 계산하여 쉐이프 로테이션을 수행할 수 있다. 한편, 저주파 엔벨로프에서 슬로우프를 계산하여 쉐이프 로테이션을 수행할 수도 있다.

쉐이프 로테이션은 하기 수학식 14와 같이 수행할 수 있는데 여기서 로테이션 팩터인 ρ=1-slp _lf로 로테이션을 수행할 수 있다.

수학식 14

쉐이프 역동성 조절부(1850)는 로테이션된 쉐이프에 대하여 역동성을 조절할 수 있다. 역동성 조절은 하기 수학식 15를 이용하여 이루어질 수 있다.

수학식 15

여기에서 역동성 조절 팩터인 d = 0.5 slp 로 정의할 수 있다.

이와 같이 저주파의 쉐이프를 유지하면서 로테이션을 수행하기 때문에, 자연스러운 음색을 만들수 있다. 특히, 무성음의 경우는 저주파와 고주파간 쉐이프가 차이가 많이 발생할 수 있으므로, 이를 해결해주기 위해서 역동성(dynamics) 조절을 수행할 수 있다.

도 19는 도 7에 있어서 클래스 결정부(750)의 동작을 설명하는 도면이다.

도 19를 참조하면, 복수의 스테이지를 이용하여 클래스를 결정할 수 있다. 예를 들어, 첫번째 스테이지에서는 슬로우프 정보를 이용하여 4개의 클래스로 구분하고, 두번째 스테이지에서는 추가 특징을 활용하여 각각의 4개의 서브클래스로 분류할 수 있다. 즉, 16개의 서브클래스를 결정할 수 있으며, 이는 클래스 결정부(750)에서 정의한 클래스와 동일한 의미를 가질 수 있다. 제1 및 제2 스테이지에서는 GMM(Gaussian Mixture Model)을 특징으로 이용하고, 제2 스테이지에서는 Gradient index, Centroid, Energy quotient를 특징으로 활용할 수 있다. 구체적인 내용은 문헌 “Artificial bandwidth extension of narrowband speech - enhanced speech quality and intelligibility in mobile” (L. Laaksonen, doctoral dissertation, Aalto University, 2013)에 개시되어 있다.

도 20은 일실시예에 따른 음질 향상 방법을 설명하는 흐름도로서, 전술한 각 장치의 구성요소에 의해 해당 동작이 수행되거나, 별도의 프로세서에 의해 수행될 수 있다.

도 20을 참조하면, 2010 단계는 수신기에 내장된 코덱을 이용하여 음성신호를 복호화할 수 있다. 여기서, 복호화된 음성신호는 협대역 신호 즉, 저대역 신호일 수 있다.

2030 단계에서는 복호화된 저대역 신호를 이용하여 고대역 여기 신호 혹은 고대역 여기 스펙트럼을 생성할 수 있다. 여기서, 고대역 여기 신호는 협대역 시간 도메인 신호로부터 생성될 수 있다. 한편, 고대역 여기 스펙트럼은 변형된 저대역 스펙트럼으로부터 생성될 수 있다.

2050 단계에서는 복호화된 음성신호의 클래스에 근거하여 저대역 스펙트럼으로부터 고대역 여기 스펙트럼의 엔벨로프를 예측할 수 있다. 여기서, 각 클래스는 묵음, 배경잡음, 약한 음성신호, 강한 음성신호, 유성음 혹은 무성음 등을 의미할 수 있으나, 이에 한정되는 것은 아니다.

2070 단계에서는 고대역 여기 스펙트럼에 예측된 엔벨로프를 적용하여 고대역 스펙트럼을 생성할 수 있다.

2090 단계에서는 저대역 신호와 고대역 신호 중 적어도 하나에 대하여 등화 처리를 수행할 수 있다. 실시예에 따르면, 고대역 신호에 대해서만 수행되거나, 전 대역 신호에 대하여 수행될 수 있다.

저대역 신호와 고대역 신호가 합성되어 광대역 음성신호가 얻어질 수 있다. 여기서, 저대역 신호는 복호화된 음성신호이거나 등화 처리가 수행된 다음 시간도메인으로 변환된 신호일 수 있다. 고대역 신호는 예측된 엔벨로프가 적용된 다음 시간 도메인으로 변환된 신호이거나 등화 처리가 수행된 다음 시간도메인으로 변환된 신호일 수 있다.

상기 실시예에 있어서, 주파수 도메인 신호는 주파수 대역별로 분리될 수 있기 때문에, 필요에 따라서 전대역 스펙트럼으로부터 저주파 대역 혹은 고주파 대역을 분리하여 엔벨로프 예측 혹은 엔벨로프 적용에 이용할 수 있다.

일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

또한, 본 개시에서, “부” 혹은 “모듈”은 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.

전술한 설명은 예시를 위한 것이며, 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims

시간 도메인에서 저주파 신호를 활용하여 고주파 신호를 생성하는 단계;

상기 저주파 신호와 상기 생성된 고주파 신호를 결합하는 단계;

상기 결합된 신호를 주파수 도메인으로 변환하는 단계;

복호화된 음성신호의 클래스를 결정하는 단계;

상기 클래스에 근거하여, 상기 변환단계에서 얻어지는 저주파 스펙트럼으로부터 엔벨로프를 예측하는 단계; 및

상기 변환단계에서 얻어지는 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하여 최종 고주파 스펙트럼을 생성하는 단계를 포함하는 음질 향상방법.
제1 항에 있어서, 각 단계는 서브-프레임 단위로 수행되는 음질 향상 방법.
제1 항에 있어서, 상기 클래스는 저주파 에너지에 근거한 복수의 후보 클래스로부터 결정되는 음질 향상 방법.
제1 항에 있어서, 상기 엔벨로프를 예측하는 단계는

상기 음성신호의 저주파 스펙트럼으로부터 에너지를 예측하는 단계;

상기 음성신호의 저주파 스펙트럼으로부터 쉐이프를 예측하는 단계; 및

상기 예측된 에너지와 예측된 쉐이프를 이용하여 상기 엔벨로프를 구하는 단계를 포함하는 음질 향상 방법.
제4 항에 있어서, 상기 에너지를 예측하는 단계는 상기 예측된 에너지에 리미터를 적용하는 단계를 포함하는 음질 향상 방법.
제4 항 또는 제5 항에 있어서, 상기 쉐이프를 예측하는 단계는 유성음 쉐이프와 무성음 쉐이프를 각각 예측하고, 상기 클래스와 보이싱 레벨에 근거하여, 상기 유성음 쉐이프와 무성음 쉐이프로부터 상기 쉐이프를 예측하는 음질 향상 방법.
제4 항에 있어서, 상기 쉐이프를 예측하는 단계는

상기 음성신호의 저주파 스펙트럼으로부터 고주파 스펙트럼을 위한 초기 쉐이프를 구성하는 단계; 및

상기 초기 쉐이프에 대하여 쉐이프 로테이션을 수행하는 단계를 포함하는 음질 향상 방법.
제7 항에 있어서, 상기 쉐이프를 예측하는 단계는

상기 로테이션된 초기 쉐이프에 대하여 역동성을 조절하는 단계를 더 포함하는 음질 향상 방법.
제1 항에 있어서, 상기 방법은 저주파 스펙트럼과 고주파 스펙트럼 중 적어도 하나에 대하여 이퀄라이징 처리하는 단계를 더 포함하는 음질 향상 방법.
제1 항에 있어서, 상기 방법은

저주파 스펙트럼과 고주파 스펙트럼 중 적어도 하나에 대하여 이퀄라이징 처리하는 단계;

상기 이퀄라이징 처리된 스펙트럼을 시간 도메인으로 역변환하는 단계; 및

상기 시간 도메인으로 변환된 신호를 후처리하는 단계를 더 포함하는 음질 향상 방법.
제10 항에 있어서, 상기 이퀄라이징 처리하는 단계와 상기 시간 도메인으로 변환하는 단계는 서브-프레임 단위로 수행되고, 상기 후처리하는 단계는 서브-서브 프레임 단위로 수행되는 음질 향상 방법.
제10 항에 있어서, 상기 후처리하는 단계는

저주파 에너지와 고주파 에너지를 산출하는 단계;

상기 저주파 에너지와 상기 고주파 에너지를 매칭시키기 위한 게인을 추정하는 단계; 및

고주파 시간 도메인 신호에 상기 추정된 게인을 적용하는 단계를 포함하는 음질 향상 방법.
제12 항에 있어서, 상기 게인을 추정하는 단계는 상기 추정된 게인이 소정 문턱치보다 큰 경우 상기 문턱치로 제한하는 단계를 포함하는 음질 향상 방법.
입력되는 음성신호의 특징으로부터 상기 음성신호의 클래스와 보이싱 레벨을 결정하는 단계;

상기 클래스와 보이싱 레벨에 근거하여, 상기 음성신호의 저주파 스펙트럼으로부터 엔벨로프를 예측하는 단계;

상기 클래스에 근거하여, 상기 음성신호의 저주파 스펙트럼과 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성하는 단계; 및

상기 변형된 저주파 스펙트럼로부터 생성된 고주파여기 스펙트럼에 상기 예측된 엔벨로프를 적용하여 고주파 스펙트럼을 생성하는 단계를 포함하는 음질 향상방법.
제14 항에 있어서, 상기 변형된 저주파 스펙트럼을 생성하는 단계는

예측 에러에 근거하여 제1 가중치를 결정하는 단계;

상기 제1 가중치와 상기 클래스에 근거하여 제2 가중치를 예측하는 단계;

상기 제2 가중치에 근거하여 상기 저주파 스펙트럼을 화이트닝하는 단계; 및

상기 화이트닝된 저주파 스펙트럼과 랜덤 노이즈를 상기 제2 가중치에 근거하여 혼합하여, 상기 변형된 저주파 스펙트럼을 생성하는 단계를 포함하는 음질 향상 방법.
제14 항에 있어서, 상기 엔벨로프를 예측하는 단계는

상기 음성신호의 저주파 스펙트럼으로부터 에너지를 예측하는 단계;

상기 음성신호의 저주파 스펙트럼으로부터 쉐이프를 예측하는 단계; 및

상기 예측된 에너지와 예측된 쉐이프를 이용하여 상기 엔벨로프를 산출하는 단계를 포함하는 음질 향상 방법.
제16 항에 있어서, 상기 에너지를 예측하는 단계는 상기 예측된 에너지에 리미터를 적용하는 단계를 포함하는 음질 향상 방법.
제16 항에 있어서, 상기 쉐이프를 예측하는 단계는 유성음 쉐이프와 무성음 쉐이프를 각각 예측하고, 상기 클래스와 보이싱 레벨에 근거하여, 상기 유성음 쉐이프와 무성음 쉐이프로부터 상기 쉐이프를 예측하는 음질 향상 방법.
제16 항에 있어서, 상기 쉐이프를 예측하는 단계는

상기 음성신호의 저주파 스펙트럼으로부터 고주파 스펙트럼을 위한 초기 쉐이프를 구성하는 단계; 및

상기 초기 쉐이프에 대하여 쉐이프 로테이션을 수행하는 단계를 포함하는 음질 향상 방법.
제19 항에 있어서, 상기 방법은 상기 쉐이프를 예측하는 단계는

상기 로테이션된 초기 쉐이프에 대하여 역동성을 조절하는 단계를 더 포함하는 음질 향상 방법.