KR20140124004A

KR20140124004A - 음성 주파수 신호 처리 방법 및 장치

Info

Publication number: KR20140124004A
Application number: KR1020147025655A
Authority: KR
Inventors: 제신 리우; 레이 미아오
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2012-03-01
Filing date: 2013-03-01
Publication date: 2014-10-23
Also published as: EP3534365A1; MX2014010376A; KR101844199B1; US20190318747A1; KR20170013405A; US10013987B2; JP6558748B2; MY162423A; CN103295578B; US9691396B2; CA2865533C; CN105469805B; PT2821993T; US20180374488A1; RU2585987C2; BR112014021407A2; US10559313B2; JP2018197869A; KR101667865B1; EP3534365B1

Abstract

본 발명의 실시예에서는 음성 주파수 신호 처리 방법 및 장치가 개시되고, 실시예에서의 음성 주파수 신호 처리 방법은: 음성 주파수 신호가 대역폭을 전환활 때, 현재 프레임의 음성 주파수 신호에 대응하는 초기 고주파 대역 신호를 취득하는 단계; 초기 고주파 대역 신호의 시간 영역 전역 이득 파라미터를 취득하는 단계; 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하는 단계 ―에너지 비율은 이력 프레임의 고주파 대역 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 대역 신호의 에너지 사이의 비율임― ; 예측된 전역 이득 파라미터를 이용하여 초기 고주파 대역 신호를 보정하여, 보정된 고주파 대역 시간 영역 신호를 취득하는 단계; 현재 프레임의 좁은 주파수 대역 시간 영역 신호와 보정된 고주파 대역 시간 영역 신호를 합성하여, 합성된 결과를 출력하는 단계를 포함한다.

Description

음성 주파수 신호 처리 방법 및 장치{VOICE FREQUENCY SIGNAL PROCESSING METHOD AND DEVICE}

관련 출원에 대한 상호참조

본 출원은, 참조에 의해 전체를 본 명세서에 포함하는, 발명의 명칭이 "SPEECH/AUDIO SIGNAL PROCESSING METHOD AND APPARATUS"인, 2012년 3월 1일 중국 특허청에 출원된 중국 특허 출원 제201210051672.6호에 대한 우선권을 주장한다.

기술 분야

본 발명은 디지털 신호 처리 기술 분야에 관한 것으로, 특히, 음성/오디오 신호 처리 방법 및 장치에 관한 것이다.

디지털 통신 분야에서, 음성, 이미지, 오디오, 및 비디오의 전송은, 이동 전화 통화, 음성/화상 회의, 방송 텔레비전, 및 멀티미디어 엔터테인먼트 등의 광범위한 응용에서 요구된다. 오디오는 디지털화되어, 오디오 통신 네트워크를 이용해 한 단말기에서 다른 단말기로 전송된다. 여기서 단말기는, 이동 전화, 디지털 전화 단말기, 또는 기타 임의 타입의 오디오 단말기일 수 있고, 여기서, 디지털 전화 단말기는, 예를 들어, VOIP 전화, ISDN 전화, 컴퓨터, 또는 케이블 통신 전화이다. 저장 또는 전송 동안에 음성/오디오 신호(speech/audio signal)에 의해 점유되는 자원을 감소시키기 위해, 음성/오디오 신호는 전송단에서 압축된 다음 수신단에 전송되고, 수신단에서, 음성/오디오 신호는 압축해제(decompression) 처리에 의해 복원되고 재생된다.

현재의 멀티레이트 음성/오디오 코딩(multirate speech/audio coding)에서, 상이한 네트워크 상태 때문에, 네트워크는 상이한 비트 레이트들로 비트 스트림들을 절삭하고(truncate), 여기서, 비트 스트림들은 인코더로부터 네트워크로 전송되며, 디코더에서, 절삭된 비트 스트림들은 상이한 대역폭의 음성/오디오 신호로 디코딩된다. 그 결과, 출력 음성/오디오 신호들은 상이한 대역폭들 사이에서 전환된다.

상이한 대역폭들의 신호들 사이의 갑작스런 전환은 인간의 귀에는 명백한 청각적 불편함을 야기한다. 게다가, 시간-주파수 변환 또는 주파수-시간 변환 동안의 필터들의 상태의 업데이팅은 일반적으로 연속된 프레임들 사이에서 파라미터의 이용을 요구하므로, 대역폭 전환 동안에 어떤 적절한 처리가 수행되지 않으면, 이들 상태들의 업데이트 동안에 에러가 생길 수 있고, 이것은 갑작스런 에너지 변화와 청각적 품질 열화라는 일부 현상을 야기한다.

본 발명의 실시예들의 목적은, 음성/오디오 신호의 대역폭 전환 동안의 청각적 편안함을 개선하는 음성/오디오 신호 처리 방법 및 장치를 제공하는 것이다.

본 발명의 실시예에 따르면, 음성/오디오 신호 처리 방법은 하기 단계들을 포함한다:

음성/오디오 신호가 넓은 주파수 신호(wide frequency signal)로부터 좁은 주파수 신호(narrow frequency signal)로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계;

음성/오디오 신호의 현재 프레임의 스펙트럼 틸트 파라미터(spectrum tilt parameter), 및 현재 프레임의 좁은 주파수 신호와 이력 프레임(historical frame)의 좁은 주파수 신호 사이의 상관관계(correlation)에 따라 고주파 신호의 시간 영역 전역 이득 파라미터(time-domain global gain parameter)를 얻는 단계;

시간 영역 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 및

현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고 합성된 신호를 출력하는 단계.

본 발명의 또 다른 실시예에 따르면, 음성/오디오 신호 처리 방법은 하기 단계들을 포함한다:

음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계;

초기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계;

에너지 비율(energy ratio)과 시간 영역 전역 이득 파라미터에 관해 가중치 처리(weighting processing)를 수행하고, 얻어진 가중된 값(weighted value)을 예측된 전역 이득 파라미터로서 이용하는 단계 ―에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;

예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 및

현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하는 단계.

본 발명의 또 다른 실시예에 따르면, 음성/오디오 신호 처리 장치는 하기 유닛들을 포함한다:

음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 예측 유닛;

현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛;

예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛; 및

현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛.

음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 취득 유닛;

초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛;

에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛 ―에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;

본 발명의 실시예에서, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환 동안에, 고주파 신호가 보정되어 넓은 주파수 대역과 좁은 주파수 대역 사이의 고주파 신호의 평활한 천이(smooth transition)를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘은 동일한 신호 영역(signal domain)에 있기 때문에, 어떠한 추가의 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.

본 발명의 실시예에서의 또는 종래 기술에서의 기술적 해결책을 더 명확하게 설명하기 위하여, 이하에서는 실시예 또는 종래 기술을 설명하는데 요구되는 첨부된 도면을 간략하게 소개한다. 명백히, 이하의 설명에서의 첨부된 도면은 본 발명의 일부 실시예를 도시할 뿐이며, 이 기술분야의 통상의 기술자라면 창조적 노력없이 이들 첨부된 도면들로부터 다른 도면들을 여전히 유도해 낼 수 있을 것이다.
도 1은 본 발명에 따른 음성/오디오 신호 처리 방법의 실시예의 개략적 플로차트이다;
도 2는 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 3은 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 4는 본 발명에 따른 음성/오디오 신호 처리 방법의 또 다른 실시예의 개략적 플로차트이다;
도 5는 본 발명에 따른 음성/오디오 신호 처리 장치의 실시예의 개략적 구조도이다;
도 6은 본 발명에 따른 음성/오디오 신호 처리 장치의 실시예의 개략적 구조도이다;
도 7은 본 발명에 따른 파라미터 획득 유닛의 실시예의 개략적 구조도이다;
도 8은 본 발명에 따른 전역 이득 파라미터 획득 유닛의 실시예의 개략적 구조도이다;
도 9는 본 발명에 따른 취득 유닛의 실시예의 개략적 구조도이다;
도 10은 본 발명에 따른 음성/오디오 신호 처리 장치의 또 다른 실시예의 개략적 구조도이다.

이하에서는 본 발명의 실시예의 첨부된 도면을 참조하여 본 발명의 실시예에서의 기술적 해결책을 명확하고 완전하게 설명한다. 명백하게, 설명된 실시예들은 본 발명의 실시예들 전부가 아닌 일부일 뿐이다. 창조적 노력없이 본 발명의 실시예에 기초하여 이 기술분야의 통상의 기술자에 의해 얻어지는 다른 모든 실시예들은 본 발명의 보호 범위 내에 든다.

디지털 신호 처리 분야에서, 오디오 코덱 및 비디오 코덱은, 예를 들어, 이동 전화, 무선 장치, PDA(personal data assistant), 핸드헬드 또는 휴대 컴퓨터, GPS 수신기/네비게이터, 카메라, 오디오/비디오 재생기, 비디오 카메라, 비디오 레코더, 및 모니터링 장치 등의 다양한 전자 장치에 널리 적용된다. 대개, 이러한 타입의 전자 장치는 오디오 코더 또는 오디오 디코더를 포함하고, 오디오 코더 또는 디코더는 디지털 회로 또는 칩, 예를 들어, DSP(digital signal processor)에 의해 직접 구현되거나, 프로세서가 소프트웨어 코드로 프로세스를 실행하게 하는 소프트웨어 코드에 의해 구현될 수 있다.

종래 기술에서, 네트워크에서 전송된 음성/오디오 신호들의 대역폭들은 상이하므로, 음성/오디오 신호를 전송하는 과정에서, 음성/오디오 신호의 대역폭은 자주 변하고, 좁은 주파수 음성/오디오 신호로부터 넓은 주파수 음성/오디오 신호로의 전환, 및 넓은 주파수 음성/오디오 신호로부터 좁은 주파수 음성/오디오 신호로의 전환의 현상이 존재한다. 높은 주파수 대역과 낮은 주파수 대역 사이에서 음성/오디오 신호를 전환하는 이러한 프로세스는 대역폭 전환이라 불린다. 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환과 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환을 포함한다. 본 발명에서 언급되는 좁은 주파수 신호는, 업샘플링(up-sampling) 및 저역-통과 필터링(low-pass filtering) 후에 저주파 성분만을 갖고 고주파 성분은 비어 있는 음성 신호인 반면, 넓은 주파수 음성/오디오 신호는 저주파 신호 성분과 고주파 신호 성분 양쪽 모두를 갖는다. 좁은 주파수 신호와 넓은 주파수 신호는 상대적이다. 예를 들어, 협대역 신호에 대해, 광대역 신호는 넓은 주파수 신호이고; 광대역 신호에 대해, 초광대역 신호는 넓은 주파수 신호이다. 일반적으로, 협대역 신호는 샘플링 레이트(sampling rate)가 8 kHz인 음성/오디오 신호이고; 광대역 신호는 샘플링 레이트가 16 kHz인 음성/오디오 신호이고; 초광대역 신호는 샘플링 레이트가 32 kHz인 음성/오디오 신호이다.

전환 이전의 고주파 신호의 코딩/디코딩 알고리즘이 상이한 신호 타입에 따라 시간 영역 및 주파수 영역 코딩/디코딩 알고리즘들 사이에서 선택될 때, 또는 전환 이전의 고주파 신호의 코딩 알고리즘이 시간 영역 코딩 알고리즘일 때, 전환 동안의 출력 신호들의 연속성을 보장하기 위하여, 처리를 위해 신호 영역에서 전환 알고리즘이 유지되고, 여기서, 이 신호 영역은 전환 이전의 고주파 코딩/디코딩 알고리즘의 신호 영역과 동일하다. 즉, 시간 영역 코딩/디코딩 알고리즘이 전환 이전의 고주파 신호에 이용될 때, 이용될 전환 알고리즘으로서 시간 영역 전환 알고리즘이 이용된다; 주파수 영역 코딩/디코딩 알고리즘이 전환 이전의 고주파 신호에 이용될 때, 이용될 전환 알고리즘으로서 주파수 영역 전환 알고리즘이 이용된다. 종래 기술에서, 전환 이전에 시간 영역 주파수 대역 확장 알고리즘이 이용될 때, 전환 이후에 유사한 시간 영역 전환 기술은 이용되지 않는다.

음성/오디오 코딩에서, 처리는 일반적으로 단위로서 프레임을 이용하여 수행된다. 처리될 필요가 있는 현재의 입력 오디오 프레임은 음성/오디오 신호의 현재 프레임이다. 현재 프레임의 음성/오디오 신호는, 좁은 주파수 신호와 고주파 신호, 즉, 현재 프레임의 좁은 주파수 신호와 현재 프레임의 고주파 신호를 포함한다. 현재 프레임의 고주파 신호 이전의(before) 임의의 프레임의 음성/오디오 신호가 이력 프레임의 음성/오디오 신호이고, 이는 또한 이력 프레임의 좁은 주파수 신호와 이력 프레임의 고주파 신호를 포함한다. 현재 프레임의 음성/오디오 신호에 선행하는(previous to) 프레임의 음성/오디오 신호가 이전 프레임(previous frame)의 음성/오디오 신호이다.

도 1을 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 실시예는 하기 단계들을 포함한다:

S101: 음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는다.

현재 프레임의 음성/오디오 신호는 현재 프레임의 좁은 주파수 신호와 현재 프레임의 고주파 시간 영역 신호를 포함한다. 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환과 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환을 포함한다. 좁은 주파수 신호로부터 넓은 주파수 신호로 전환하는 경우, 현재 프레임의 음성/오디오 신호는 좁은 주파수 신호와 고주파 신호를 포함하는, 현재 프레임의 넓은 주파수 신호이고, 현재 프레임의 음성/오디오 신호의 초기 고주파 신호는 실제 신호(real signal)이고 현재 프레임의 음성/오디오 신호로부터 직접 얻어질 수 있다. 넓은 주파수 신호로부터 좁은 주파수 신호로 전환하는 경우, 현재 프레임의 음성/오디오 신호는 현재 프레임의 고주파 시간 영역 신호가 비어 있는 현재 프레임의 좁은 주파수 신호이고, 현재 프레임의 음성/오디오 신호의 초기 고주파 신호는 예측된 신호이며, 현재 프레임의 좁은 주파수 신호에 대응하는 고주파 신호는 예측되어 초기 고주파 신호로서 이용될 필요가 있다.

S102: 초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻는다.

좁은 주파수 신호로부터 넓은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 전역 이득 파라미터는 디코딩에 의해 얻어질 수 있다. 넓은 주파수 신호로부터 좁은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 전역 이득 파라미터는 현재 프레임의 신호에 따라 얻어질 수 있다: 고주파 신호의 시간 영역 전역 이득 파라미터는 좁은 주파수 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 얻어진다.

S103: 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하고, 여기서, 에너지 비율은 이력 프레임의 음성/오디오 신호의 고주파 시간 영역 신호의 에너지와 현재 프레임의 음성/오디오 신호의 초기 고주파 신호의 에너지 사이의 비율이다.

이력 프레임의 최종 출력 음성/오디오 신호는 이력 프레임의 음성/오디오 신호로서 이용되고, 초기 고주파 신호는 현재 프레임의 음성/오디오 신호로서 이용된다. 에너지 비율 Ratio=Esyn(-1)/Esyn_tmp이고, 여기서 Esyn(-1)은 이력 프레임의 출력 고주파 시간 영역 신호 syn의 에너지를 나타내고, Esyn_tmp는 현재 프레임에 대응하는 초기 고주파 시간 영역 신호 syn의 에너지를 나타낸다.

예측된 전역 이득 파라미터 gain=alfa*Ratio+beta*gain'이고, gain'는 시간 영역 전역 이득 파라미터이고, alfa+beta =1이며, alfa와 beta의 값들은 상이한 신호 타입들에 따라 상이하다.

S104: 예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.

보정이란 예측된 전역 이득 파라미터에 의해 신호가 곱해진다(multiply)는 것, 즉, 초기 고주파 신호가 곱해진다는 것을 가리킨다. 또 다른 실시예에서, 단계 S102에서, 초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터(time-domain envelope parameter)와 시간 영역 전역 이득 파라미터가 얻어진다; 따라서, 단계 S104에서, 초기 고주파 신호는 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 보정되어 보정된 고주파 시간 영역 신호를 얻는다; 즉, 예측된 고주파 신호는 시간 영역 엔빌로프 파라미터와 예측된 시간 영역 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.

좁은 주파수 신호로부터 넓은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 엔빌로프 파라미터는 디코딩에 의해 얻어질 수 있다. 넓은 주파수 신호로부터 좁은 주파수 신호로 전환하는 경우, 고주파 신호의 시간 영역 엔빌로프 파라미터는 신호의 현재 프레임에 따라 얻어질 수 있다; 이력 프레임의 고주파 시간 영역 엔빌로프 파라미터 또는 일련의 미리 결정된 값은 현재 프레임의 음성/오디오 신호의 고주파 시간 영역 엔빌로프 파라미터로서 이용될 수 있다.

S105: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.

상기 실시예에서, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환 동안에, 고주파 신호가 보정되어 넓은 주파수 대역과 좁은 주파수 대역 사이의 고주파 신호의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘은 동일한 신호 영역에 있기 때문에, 어떠한 추가의 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.

도 2를 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 또 다른 실시예는 하기 단계들을 포함한다:

S201: 넓은 주파수 신호가 좁은 주파수 신호로 전환할 때, 현재 프레임의 좁은 주파수 신호에 대응하는 예측된 고주파 신호를 예측한다.

넓은 주파수 신호가 좁은 주파수 신호로 전환할 때, 이전 프레임은 넓은 주파수 신호이고, 현재 프레임은 좁은 주파수 신호이다. 현재 프레임의 좁은 주파수 신호에 대응하는 예측된 고주파 신호를 예측하는 단계는, 현재 프레임의 좁은 주파수 신호에 따라 현재 프레임의 음성/오디오 신호의 고주파 신호의 여기 신호(excitation signal)를 예측하는 단계; 음성/오디오 신호의 현재 프레임의 고주파 신호의 LPC(Linear Predictive Coding) 계수를 예측하는 단계; 및 예측된 고주파 여기 신호와 LPC 계수를 합성하여 예측된 고주파 신호 syn_tmp를 얻는 단계를 포함한다.

실시예에서, 피치 주기(pitch period), 대수 코드북(algebraic codebook), 및 이득 등의 파라미터들은 좁은 주파수 신호로부터 추출될 수 있고, 고주파 여기 신호는 리샘플링(resampling)과 필터링에 의해 예측된다.

또 다른 실시예에서, 업샘플링, 저역통과, 절대값 또는 제곱을 얻는 등의 동작이 좁은 주파수 시간 영역 신호 또는 좁은 주파수 시간 영역 여기 신호에 관해 수행되어 높은 주파수 여기 신호를 예측한다.

고주파 신호의 LPC 계수를 예측하기 위해, 이력 프레임의 고주파 LPC 계수 또는 일련의 미리 설정된 값들이 현재 프레임의 LPC 계수로서 이용될 수 있다; 또는 상이한 신호 타입들에 대해 상이한 예측 방식들이 이용될 수 있다.

S202: 예측된 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터 및 시간 영역 전역 이득 파라미터를 얻는다.

일련의 미리 결정된 값들이 현재 프레임의 고주파 시간 영역 엔빌로프 파라미터로서 이용될 수 있다. 협대역 신호는 일반적으로 수 개의 타입들로 분류될 수 있고, 각각의 타입에 대해 일련의 값들이 미리 설정될 수 있으며, 협대역 신호의 현재 프레임의 타입에 따라 한 그룹의 미리 설정된 시간 영역 엔빌로프 파라미터들이 선택될 수 있다; 또는 한 그룹의 시간 영역 엔빌로프 값들이 설정될 수 있다, 예를 들어, 시간 영역 엔빌로프의 개수가 M일 때, 미리 설정된 값은 M 0.3536s일 수 있다. 이 실시예에서, 시간 영역 엔빌로프 파라미터의 획득은 선택사항이고 필요한 단계인 것은 아니다.

좁은 주파수 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터가 얻어지며, 실시예에서는 다음과 같은 단계들을 포함한다:

S2021: 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로서 분류하고, 한 실시예에서, 제1 타입의 신호는 마찰음(fricative) 신호이고, 제2 타입의 신호는 비마찰음(non-fricative) 신호이다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값보다 작을 때, 좁은 주파수 신호를 마찰음 신호로서 분류하고, 나머지는 비마찰음 신호로서 분류한다.

현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor는 동일한 주파수 대역의 신호들 사이의 에너지 크기 관계에 따라 결정되거나, 수 개의 동일한 주파수 대역 사이의 에너지 관계에 따라 결정되거나, 시간 영역 신호들 사이의 자기상관(self-correlation) 또는 교차상관(cross-correlation)을 보여주거나 시간 영역 여기 신호들 사이의 자기상관 또는 교차상관을 보여주는 공식에 따라 계산될 수 있다.

S2022: 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용한다. 즉, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값 이하일 때, 스펙트럼 틸트 파라미터의 원래 값이 스펙트럼 틸트 파라미터 제한값으로서 유지된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값보다 클 때, 제1 미리 결정된 값이 스펙트럼 틸트 파라미터 제한값으로서 이용된다.

시간 영역 전역 이득 파라미터 gain'는 다음과 같은 공식에 따라 얻어진다:

여기서, tilt는 스펙트럼 틸트 파라미터이고, ∂1은 제1 미리 결정된 값이다.

S2023: 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용한다. 즉, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위에 속할 때, 스펙트럼 틸트 파라미터의 원래 값이 스펙트럼 틸트 파라미터 제한값으로서 유지된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위의 상한보다 클 때, 제1 범위의 상한이 스펙트럼 틸트 파라미터 제한값으로서 이용된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 범위의 하한보다 작을 때, 제1 범위의 하한이 스펙트럼 틸트 파라미터 제한값으로서 이용된다.

여기서, tilt는 스펙트럼 틸트 파라미터이고, [a, b]는 제1 범위이다.

실시예에서, 좁은 주파수 신호의 스펙트럼 틸트 파라미터 tilt, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor가 얻어진다; 현재 프레임의 신호는 tilt 및 cor에 따라 2개의 타입, 마찰음 및 비마찰음으로 분류된다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만일 때, 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로 분류된다; tilt가 값 범위 0.5<=tilt<=1.0 내로 제한되어 비마찰음의 시간 영역 전역 이득 파라미터로서 이용되며, tilt가 값 범위 tilt <= 8.0으로 제한되어 마찰음의 시간 영역 전역 이득 파라미터로서 이용된다. 마찰음의 경우, 스펙트럼 틸트 파라미터는 5보다 큰 임의의 값일 수 있고, 비마찰음의 경우, 스펙트럼 틸트 파라미터는 5 이하의 임의의 값이거나, 5보다 큰 값일 수 있다. 스펙트럼 틸트 파라미터 tilt가 추정된 시간 영역 전역 이득 파라미터로서 이용될 수 있도록 보장하기 위해, tilt는 값 범위 내로 제한된 다음 시간 영역 전역 이득 파라미터로서 이용된다. 즉, tilt > 8일 때, tilt=8이 마찰음의 시간 영역 전역 이득 파라미터로서 이용되는 것으로 결정된다; tilt < 0.5일 때, tilt는 0.5라고 결정되거나, 또는 tilt > 1.0일 때, tilt =1.0이라고 결정되며, 0.5 또는 1.0이 비마찰음의 시간 영역 전역 이득 파라미터로서 이용된다.

S203: 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하고, 여기서, 에너지 비율은 이력 프레임의 음성/오디오 신호의 고주파 시간 영역 신호의 에너지와 현재 프레임의 음성/오디오 신호의 초기 고주파 신호의 에너지 사이의 비율이다.

에너지 비율 Ratio=Esyn(-1)/Esyn_tmp에 관해 계산이 수행되고, tilt와 Ratio의 가중된 값은 현재 프레임의 예측된 전역 이득 파라미터 gain, 즉, gain=alfa*Ratio+beta*gain'로서 이용되고, 여기서, gain'는 시간 영역 전역 이득 파라미터이고, alfa + beta = 1이며, alfa와 beta의 값들은 상이한 신호 타입들에 따라 상이하며, Esyn(-1)는 이력 프레임의 최종 출력 고주파 시간 영역 신호 syn의 에너지를 나타내고, Esyn_tmp는 현재 프레임의 예측된 고주파 시간 영역 신호 syn의 에너지를 나타낸다.

S204: 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 예측된 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.

예측된 고주파 신호는 시간 영역 엔빌로프 파라미터와 예측된 시간 영역 전역 이득 파라미터로 곱해져 고주파 시간 영역 신호를 얻는다.

이 실시예에서, 시간 영역 엔빌로프 파라미터는 선택사항이다. 시간 영역 전역 이득 파라미터만이 포함되는 경우, 예측된 고주파 신호는 예측된 전역 이득 파라미터를 이용해 보정되어 보정된 고주파 시간 영역 신호를 얻는다. 즉, 예측된 고주파 신호는 예측된 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.

S205: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.

고주파 시간 영역 신호 syn의 에너지 Esyn은 다음 프레임의 시간 영역 전역 이득 파라미터를 예측하는데 이용된다. 즉, Esyn의 값은 Esyn(-1)에 할당된다.

상기 실시예에서, 넓은 주파수 신호에 후속하는 좁은 주파수 신호의 높은 주파수 대역이 보정되어, 넓은 주파수 대역과 좁은 주파수 대역 사이의 높은 주파수 부분의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 전환 동안에 프레임에 관해 대응하는 처리가 수행되기 때문에, 파라미터와 상태 업데이트 동안에 발생하는 문제가 간접적으로 제거된다. 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘을 동일한 신호 영역에 유지함으로써, 어떠한 추가 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.

도 3을 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 또 다른 실시예는 하기 단계들을 포함한다:

S301: 좁은 주파수 신호가 넓은 주파수 신호로 전환할 때, 현재 프레임의 고주파 신호를 얻는다.

좁은 주파수 신호가 넓은 주파수 신호로 전환할 때, 이전 프레임은 좁은 주파수 신호이고, 현재 프레임은 넓은 주파수 신호이다.

S302: 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터 및 시간 영역 전역 이득 파라미터를 얻는다.

시간 영역 엔빌로프 파라미터 및 시간 영역 전역 이득 파라미터는 현재 프레임의 고주파 신호로부터 직접 얻어질 수 있다. 시간 영역 엔빌로프 파라미터의 획득은 선택사항적 단계이다.

S303: 에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하고, 여기서, 에너지 비율은 이력 프레임의 음성/오디오 신호의 고주파 시간 영역 신호의 에너지와 현재 프레임의 음성/오디오 신호의 초기 고주파 신호의 에너지 사이의 비율이다.

현재 프레임은 넓은 주파수 신호이므로, 고주파 신호의 파라미터들 모두는 디코딩에 의해 얻어질 수 있다. 전환 동안에 평활한 천이를 보장하기 위하여, 시간 영역 전역 이득 파라미터는 다음과 같은 방식으로 평활화된다:

에너지 비율 Ratio=Esyn(-1)/Esyn_tmp에 관해 계산이 수행되고, 여기서 Esyn(-1)은 이력 프레임의 최종 출력 고주파 시간 영역 신호 syn의 에너지를 나타내고, Esyn_tmp는 현재 프레임의 고주파 시간 영역 신호 syn의 에너지를 나타낸다.

디코딩에 의해 얻어지는 시간 영역 전역 이득 파라미터 gain과 Ratio의 가중된 값은 현재 프레임의 예측된 전역 이득 파라미터 gain, 즉, gain=alfa*Ratio+beta*gain'로서 이용되고, 여기서, gain'는 시간 영역 전역 이득 파라미터이고, alfa+beta =1이며, alfa와 beta의 값은 상이한 신호 타입들에 따라 상이하다.

현재 오디오 프레임 및 이전 프레임의 음성/오디오 신호의 협대역 신호들이 미리 결정된 상관관계를 가질 때, 특정 스텝 크기(step size)에 따라, 이전 프레임의 음성/오디오 신호에 대응하는 에너지 비율의 가중치 인자(weighting factor) alfa를 감쇠함으로써 얻어지는 값이 현재 오디오 프레임에 대응하는 에너지 비율의 가중치 인자로서 이용되고, 감쇠는 alfa가 0일 때까지 프레임별로(frame by frame) 수행된다.

연속된 프레임들의 좁은 주파수 신호들이 동일한 신호 타입이거나, 또는 연속된 프레임들의 좁은 주파수 신호들 사이의 상관관계가 특정 조건을 만족할 때, 즉, 연속된 프레임들이 특정 상관관계를 갖거나 연속된 프레임들의 신호 타입이 유사할 때, alfa는 alfa가 0으로 감쇠될 때까지 특정 스텝 크기에 따라 프레임별로 감쇠된다; 연속된 프레임들의 좁은 주파수 신호가 어떠한 상관관계도 갖지 않을 때, alfa는 바로 0으로 감쇠되는데, 즉, 가중치 또는 보정을 수행하지 않고 현재의 디코딩 결과가 유지된다.

S304: 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.

보정이란, 고주파 신호가 시간 영역 엔빌로프 파라미터와 예측된 시간 영역 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다는 것을 말한다.

이 실시예에서, 시간 영역 엔빌로프 파라미터는 선택사항이다. 시간 영역 전역 이득 파라미터만이 포함되는 경우, 고주파 신호는 예측된 전역 이득 파라미터를 이용해 보정되어 보정된 고주파 시간 영역 신호를 얻는다. 즉, 고주파 신호는 예측된 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.

S305: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.

상기 실시예에서, 좁은 주파수 신호에 후속하는 넓은 주파수 신호의 높은 주파수 대역이 보정되어, 넓은 주파수 대역과 좁은 주파수 대역 사이의 높은 주파수 부분의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이의 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다; 또한, 전환 동안에 프레임에 관해 대응하는 처리가 수행되기 때문에, 파라미터와 상태 업데이트 동안에 발생하는 문제가 간접적으로 제거된다. 대역폭 전환 알고리즘과 전환 이전의 고주파 신호의 코딩/디코딩 알고리즘을 동일한 신호 영역에 유지함으로써, 어떠한 추가 지연도 부가되지 않고 알고리즘이 간단해지는 것을 보장할 뿐만 아니라 출력 신호의 성능도 보장한다.

도 4를 참조하면, 본 발명의 음성/오디오 신호 처리 방법의 또 다른 실시예는 하기 단계들을 포함한다:

S401: 음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는다.

넓은 주파수 신호가 좁은 주파수 신호로 전환할 때, 이전 프레임은 넓은 주파수 신호이고, 현재 프레임은 좁은 주파수 신호이다. 현재 프레임의 좁은 주파수 신호에 대응하는 초기 고주파 신호를 예측하는 단계는, 현재 프레임의 좁은 주파수 신호에 따라 현재 프레임의 음성/오디오 신호의 고주파 신호의 여기 신호를 예측하는 단계; 현재 프레임의 음성/오디오 신호의 고주파 신호의 LPC 계수를 예측하는 단계; 및 예측된 고주파 여기 신호와 LPC 계수를 합성하여 예측된 고주파 신호 syn_tmp를 얻는 단계를 포함한다.

실시예에서, 피치 주기, 대수 코드북, 및 이득 등의 파라미터들은 좁은 주파수 신호로부터 추출될 수 있고, 고주파 여기 신호는 리샘플링과 필터링에 의해 예측된다.

또 다른 실시예에서, 좁은 주파수 시간 영역 신호 또는 좁은 주파수 시간 영역 여기 신호에 관해 업샘플링, 저역통과, 절대값 또는 제곱을 얻는 등의 동작을 수행하여, 높은 주파수 여기 신호를 예측한다.

고주파 신호의 LPC 계수를 예측하기 위해, 이력 프레임의 고주파 LPC 계수 또는 일련의 미리 설정된 값들이 현재 프레임의 LPC 계수로서 이용될 수 있거나; 또는 상이한 신호 타입들에 대해 상이한 예측 방식들이 이용될 수 있다.

S402: 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는다.

실시예에서, 다음과 같은 단계들이 포함된다:

S2021: 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로서 분류하고, 한 실시예에서, 제1 타입의 신호는 마찰음 신호이고, 제2 타입의 신호는 비마찰음 신호이다.

실시예에서, 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값보다 작을 때, 좁은 주파수 신호를 마찰음 신호로서 분류하고, 나머지는 비마찰음 신호로서 분류한다. 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor는 동일한 주파수 대역의 신호들 사이의 에너지 크기 관계에 따라 결정되거나, 수 개의 동일한 주파수 대역 사이의 에너지 관계에 따라 결정되거나, 시간 영역 신호들 사이의 자기상관 또는 교차상관을 보여주거나 시간 영역 여기 신호들 사이의 자기상관 또는 교차상관을 보여주는 공식에 따라 계산될 수 있다.

S2022: 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용한다. 즉, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값 이하일 때, 스펙트럼 틸트 파라미터의 원래 값이 스펙트럼 틸트 파라미터 제한값으로서 유지된다; 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터가 제1 미리 결정된 값보다 클 때, 제1 미리 결정된 값이 스펙트럼 틸트 파라미터 제한값으로서 이용된다.

현재 프레임의 음성/오디오 신호가 마찰음 신호일 때, 시간 영역 전역 이득 파라미터 gain'는 다음과 같은 공식에 따라 얻어진다:

현재 프레임의 음성/오디오 신호가 비마찰음 신호일 때, 시간 영역 전역 이득 파라미터 gain'는 다음과 같은 공식에 따라 얻어진다:

실시예에서, 좁은 주파수 신호의 스펙트럼 틸트 파라미터 tilt, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계를 보여주는 파라미터 cor가 얻어진다; 현재 프레임의 신호는 tilt 및 cor에 따라 2개의 타입, 마찰음 및 비마찰음으로 분류된다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만일 때, 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로 분류된다; tilt가 값 범위 0.5<=tilt<=1.0 내로 제한되어 비마찰음의 시간 영역 전역 이득 파라미터로서 이용되며, tilt가 값 범위 tilt <= 8.0으로 제한되어 마찰음의 시간 영역 전역 이득 파라미터로서 이용된다. 마찰음의 경우, 스펙트럼 틸트 파라미터는 5보다 큰 임의의 값일 수 있고, 비마찰음의 경우, 스펙트럼 틸트 파라미터는 5 이하의 임의의 값이거나, 5보다 큰 값일 수 있다. 스펙트럼 틸트 파라미터 tilt가 예측된 전역 이득 파라미터로서 이용될 수 있도록 보장하기 위해, tilt는 값 범위 내로 제한된 다음 시간 영역 전역 이득 파라미터로서 이용된다. 즉, tilt > 8일 때, tilt=8인 것으로 결정되고, 8이 마찰음 신호의 시간 영역 전역 이득 파라미터로서 이용된다; tilt < 0.5일 때, tilt=0.5라고 결정되거나, 또는 tilt > 1.0일 때, tilt=1.0이라고 결정되고, 0.5 또는 1.0이 비마찰음 신호의 시간 영역 전역 이득 파라미터로서 이용된다.

S403: 시간 영역 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는다.

실시예에서, 초기 고주파 신호는 시간 영역 전역 이득 파라미터로 곱해져 보정된 고주파 시간 영역 신호를 얻는다.

또 다른 실시예에서, 단계 S403은 다음과 같은 단계들을 포함할 수 있다:

에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하는 단계 ―에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ; 및

예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 즉, 초기 고주파 신호를 예측된 전역 이득 파라미터로 곱해서 보정된 고주파 시간 영역 신호를 얻는 단계.

선택사항으로서, 단계(S403) 이전에, 이 방법은:

초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터를 얻는 단계를 더 포함할 수 있고,

예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하는 단계는:

시간 영역 엔빌로프 파라미터와 시간 영역 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하는 단계를 포함한다.

S404: 현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력한다.

상기 실시예에서, 넓은 주파수 대역이 좁은 주파수 대역으로 전환할 때, 고주파 신호의 시간 영역 전역 이득 파라미터가 스펙트럼 틸트 파라미터와 프레임간 상관관계(interframe correlation)에 따라 얻어진다. 좁은 주파수 스펙트럼 틸트 파라미터를 이용하여, 좁은 주파수 신호와 고주파 신호 사이의 에너지 관계가 정확하게 추정되어 고주파 신호의 에너지를 더 양호하게 추정할 수 있다. 프레임간 상관관계를 이용함으로써, 좁은 주파수 프레임들 사이의 상관관계를 잘 이용해 고주파 신호들 사이의 프레임간 상관관계가 추정될 수 있다. 이런 방식으로, 가중치 처리를 수행하여 고주파 전역 이득을 얻게 되면, 전술한 실제 정보가 양호하게 이용될 수 있고, 바람직하지 않은 노이즈가 도입되지 않는다. 고주파 신호는 시간 영역 전역 이득 파라미터를 이용해 보정되어, 넓은 주파수 대역과 좁은 주파수 대역 사이의 고주파 부분의 평활한 천이를 구현함으로써, 넓은 주파수 대역과 좁은 주파수 대역 사이에서 전환에 의해 야기되는 청각적 불편함을 효과적으로 제거한다.

전술한 방법 실시예와 관련하여, 본 발명은 음성/오디오 신호 처리 장치를 더 제공한다. 이 장치는, 단말기 장치, 네트워크 장치, 또는 테스트 장치에 위치할 수 있다. 음성/오디오 신호 처리 장치는 하드웨어 회로에 의해 구현되거나, 하드웨어와 조합한 소프트웨어에 의해 구현될 수도 있다. 예를 들어, 도 5를 참조하면, 프로세서는 음성/오디오 신호 처리 장치를 기동하여 음성/오디오 신호 처리를 구현한다. 음성/오디오 신호 처리 장치는 전술한 방법 실시예들의 방법과 프로세스를 실행할 수 있다.

도 6을 참조하면, 음성/오디오 신호 처리 장치의 실시예는 하기 유닛들을 포함한다:

음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 취득 유닛(601);

초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛(602);

에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛(603) ―에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;

예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛(604); 및

현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛(605).

실시예에서, 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 파라미터 획득 유닛(602)은:

현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 전역 이득 파라미터 획득 유닛을 포함한다.

도 7을 참조하면, 또 다른 실시예에서, 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 파라미터 획득 유닛(602)은:

현재 프레임의 음성/오디오 신호의 고주파 시간 영역 엔빌로프 파라미터로서 일련의 미리 설정된 값들을 이용하도록 구성된 시간 영역 엔빌로프 획득 유닛(701); 및

현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 전역 이득 파라미터 획득 유닛(702)을 포함한다.

따라서, 보정 유닛(604)은, 시간 영역 엔빌로프 파라미터와 예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된다.

도 8을 참조하면, 또한, 전역 이득 파라미터 획득 유닛(702)의 실시예는:

현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하도록 구성된 분류 유닛(801);

현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제1 제한 유닛(802); 및

현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제2 제한 유닛(803)을 포함한다.

또한, 실시예에서, 제1 타입의 신호는 마찰음 신호이고, 제2 타입의 신호는 비마찰음 신호이다; 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류된다; 제1 미리 결정된 값은 8이고; 미리 설정된 제1 범위는 [0.5, 1]이다.

도 9를 참조하면, 실시예에서, 취득 유닛(601)은:

현재 프레임의 음성/오디오 신호에 따라 고주파 신호의 여기 신호를 예측하도록 구성된 여기 신호 획득 유닛(901);

고주파 신호의 LPC 계수를 예측하도록 구성된 LPC 계수 획득 유닛(902); 및

고주파 신호의 여기 신호와 고주파 신호의 LPC 계수를 합성하여 예측된 고주파 신호를 얻도록 구성된 생성 유닛(903)을 포함한다.

실시예에서, 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환이고, 음성/오디오 신호 처리 장치는:

현재 오디오 프레임의 음성/오디오 신호와 이전 프레임의 음성/오디오 신호의 협대역 신호들이 미리 결정된 상관관계를 가질 때, 특정 스텝 크기에 따라, 이전 프레임의 음성/오디오 신호에 대응하는 에너지 비율의 가중치 인자 alfa를 감쇠함으로써 얻어지는 값을 현재 오디오 프레임에 대응하는 에너지 비율의 가중치 인자로서 이용하도록 구성된 가중치 인자 설정 유닛을 더 포함하고, 여기서, 감쇠는 alfa가 0일 때까지 프레임별로 수행된다.

도 10을 참조하면, 음성/오디오 신호 처리 장치의 또 다른 실시예는:

음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 예측 유닛(1001);

현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛(1002);

예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛(1003); 및

현재 프레임의 좁은 주파수 시간 영역 신호와 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛(1004)을 포함한다.

도 8을 참조하면, 파라미터 획득 유닛(1002)은:

현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제1 제한 유닛(802); 및

현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 그 스펙트럼 틸트 파라미터 제한값을 고주파 신호의 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제2 제한 유닛(803)을 포함한다.

선택사항으로서, 실시예에서, 음성/오디오 신호 처리 장치는:

에너지 비율과 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛을 더 포함하고, 여기서, 에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율이고,

보정 유닛은, 예측된 전역 이득 파라미터를 이용하여 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된다.

또 다른 실시예에서, 파라미터 획득 유닛은 초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터를 얻도록 더 구성되고; 보정 유닛은 시간 영역 엔빌로프 파라미터와 시간 영역 전역 이득 파라미터를 이용해 초기 고주파 신호를 보정하도록 구성된다.

이 기술분야의 통상의 기술자라면, 실시예들의 방법들의 프로세스들 전부 또는 일부는 관련 하드웨어에게 명령하는 컴퓨터 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있을 것이다. 이 프로그램은 컴퓨터 판독가능한 저장 매체에 저장될 수 있다. 프로그램이 실행되면, 실시예의 방법의 프로세스가 수행된다. 저장 매체는, 자기 디스크, 광학 디스크, 판독 전용 메모리(ROM; Read-Only Memory), 또는 랜덤 액세스 메모리(RAM; Random Access Memory)를 포함할 수 있다.

위의 설명은 본 발명을 나타내기 위한 예시적인 실시예들일 뿐이고, 본 발명의 범위는 이것으로 제한되지 않는다. 본 발명의 사상과 범위로부터 벗어나지 않고 이 기술분야의 통상의 기술자에게 수정 또는 변형이 쉽게 명백하다.

Claims

음성/오디오 신호(speech/audio signal) 처리 방법으로서,
음성/오디오 신호가 넓은 주파수 신호(wide frequency signal)로부터 좁은 주파수 신호(narrow frequency signal)로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계;
상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터(spectrum tilt parameter), 및 현재 프레임의 좁은 주파수 신호와 이력 프레임(historical frame)의 좁은 주파수 신호 사이의 상관관계(correlation)에 따라 상기 고주파 신호의 시간 영역 전역 이득 파라미터(time-domain global gain parameter)를 얻는 단계;
상기 시간 영역 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 상기 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하는 단계
를 포함하는 음성/오디오 신호 처리 방법.
제1항에 있어서, 상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터를 얻는 단계는,
상기 현재 프레임의 음성/오디오 신호의 상기 스펙트럼 틸트 파라미터, 및 상기 현재 프레임의 좁은 주파수 신호와 상기 이력 프레임의 좁은 주파수 신호 사이의 상기 상관관계에 따라 상기 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하는 단계;
상기 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻는 단계;
상기 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻는 단계; 및
상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하는 단계
를 포함하는, 음성/오디오 신호 처리 방법.
제2항에 있어서, 상기 제1 타입의 신호는 마찰음(fricative) 신호이고, 상기 제2 타입의 신호는 비마찰음(non-fricative) 신호이며; 상기 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 상기 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류되며; 상기 제1 미리 결정된 값은 8이고; 미리 설정된 상기 제1 범위는 [0.5, 1]인, 음성/오디오 신호 처리 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 시간 영역 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계는,
에너지 비율(energy ratio)과 상기 시간 영역 전역 이득 파라미터에 관해 가중치 처리(weighting processing)를 수행하고, 얻어진 가중된 값(weighted value)을 예측된 전역 이득 파라미터로서 이용하는 단계 ―상기 에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ; 및
상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하는 단계
를 포함하는, 음성/오디오 신호 처리 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터(time-domain envelope parameter)를 얻는 단계를 더 포함하고,
상기 시간 영역 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하는 단계는,
상기 시간 영역 엔빌로프 파라미터와 상기 시간 영역 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하는 단계를 포함하는, 음성/오디오 신호 처리 방법.
음성/오디오 신호 처리 방법으로서,
음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계;
상기 초기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계;
에너지 비율과 상기 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하는 단계 ―상기 에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;
상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻는 단계; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 상기 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하는 단계
를 포함하는 음성/오디오 신호 처리 방법.
제6항에 있어서, 상기 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 상기 초기 고주파 신호에 대응하는 전역 이득 파라미터를 얻는 단계는,
상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계를 포함하는, 음성/오디오 신호 처리 방법.
제7항에 있어서, 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻는 단계는,
상기 현재 프레임의 음성/오디오 신호의 상기 스펙트럼 틸트 파라미터, 및 상기 현재 프레임의 좁은 주파수 신호와 상기 이력 프레임의 좁은 주파수 신호 사이의 상기 상관관계에 따라 상기 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하는 단계;
상기 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻는 단계;
상기 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻는 단계; 및
상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하는 단계
를 포함하는, 음성/오디오 신호 처리 방법.
제8항에 있어서, 상기 제1 타입의 신호는 마찰음 신호이고, 상기 제2 타입의 신호는 비마찰음 신호이며; 상기 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 상기 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류되며; 상기 제1 미리 결정된 값은 8이고; 미리 설정된 상기 제1 범위는 [0.5, 1]인, 음성/오디오 신호 처리 방법.
제6항에 있어서, 상기 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 상기 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻는 단계는,
상기 현재 프레임의 음성/오디오 신호에 따라 고주파 여기 신호(high frequency excitation signal)를 예측하는 단계;
상기 고주파 신호의 LPC 계수를 예측하는 단계; 및
상기 고주파 여기 신호와 상기 고주파 신호의 LPC 계수를 합성하여 예측된 고주파 신호를 얻는 단계
를 포함하는, 음성/오디오 신호 처리 방법.
제6항에 있어서, 상기 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환이고, 상기 방법은,
상기 현재 프레임의 음성/오디오 신호와 이전 프레임의 음성/오디오 신호의 협대역 신호들이 미리 결정된 상관관계를 가질 때, 특정 스텝 크기(step size)에 따라, 상기 이전 프레임의 음성/오디오 신호에 대응하는 상기 에너지 비율의 가중치 인자(weighting factor) alfa를 감쇠함으로써 얻어지는 값을 현재 오디오 프레임에 대응하는 상기 에너지 비율의 가중치 인자로서 이용하는 단계를 더 포함하고, 상기 감쇠는 alfa가 0일 때까지 프레임별로(frame by frame) 수행되는, 음성/오디오 신호 처리 방법.
음성/오디오 신호 처리 장치로서,
음성/오디오 신호가 넓은 주파수 신호로부터 좁은 주파수 신호로 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 예측 유닛;
상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 좁은 주파수 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛;
상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 상기 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛
을 포함하는 음성/오디오 신호 처리 장치.
제12항에 있어서, 상기 파라미터 획득 유닛은,
상기 현재 프레임의 음성/오디오 신호의 상기 스펙트럼 틸트 파라미터, 및 상기 현재 프레임의 음성/오디오 신호와 상기 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하도록 구성된 분류 유닛;
상기 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제1 제한 유닛; 및
상기 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제2 제한 유닛
을 포함하는 음성/오디오 신호 처리 장치.
제13항에 있어서, 상기 제1 타입의 신호는 마찰음 신호이고, 상기 제2 타입의 신호는 비마찰음 신호이며; 상기 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 상기 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류되며; 상기 제1 미리 결정된 값은 8이고; 미리 설정된 상기 제1 범위는 [0.5, 1]인, 음성/오디오 신호 처리 장치.
제12항 내지 제14항 중 어느 한 항에 있어서,
에너지 비율과 상기 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛을 더 포함하고, 상기 에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율이고,
상기 보정 유닛은, 상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된, 음성/오디오 신호 처리 장치.
제12항 내지 제14항 중 어느 한 항에 있어서,
상기 파라미터 획득 유닛은 상기 초기 고주파 신호에 대응하는 시간 영역 엔빌로프 파라미터를 얻도록 더 구성되고;
상기 보정 유닛은, 상기 시간 영역 엔빌로프 파라미터와 상기 시간 영역 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하도록 구성된, 음성/오디오 신호 처리 장치.
음성/오디오 신호 처리 장치로서,
음성/오디오 신호가 대역폭을 전환할 때, 현재 프레임의 음성/오디오 신호에 대응하는 초기 고주파 신호를 얻도록 구성된 취득 유닛;
상기 초기 고주파 신호에 대응하는 시간 영역 전역 이득 파라미터를 얻도록 구성된 파라미터 획득 유닛;
에너지 비율과 상기 시간 영역 전역 이득 파라미터에 관해 가중치 처리를 수행하고, 얻어진 가중된 값을 예측된 전역 이득 파라미터로서 이용하도록 구성된 가중치 처리 유닛 ―상기 에너지 비율은 이력 프레임의 고주파 시간 영역 신호의 에너지와 현재 프레임의 초기 고주파 신호의 에너지 사이의 비율임― ;
상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된 보정 유닛; 및
현재 프레임의 좁은 주파수 시간 영역 신호와 상기 보정된 고주파 시간 영역 신호를 합성하고, 합성된 신호를 출력하도록 구성된 합성 유닛
을 포함하는 음성/오디오 신호 처리 장치.
제17항에 있어서, 상기 대역폭 전환은 넓은 주파수 신호로부터 좁은 주파수 신호로의 전환이고, 상기 파라미터 획득 유닛은,
상기 현재 프레임의 음성/오디오 신호의 스펙트럼 틸트 파라미터, 및 현재 프레임의 음성/오디오 신호와 이력 프레임의 좁은 주파수 신호 사이의 상관관계에 따라 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터를 얻도록 구성된 전역 이득 파라미터 획득 유닛을 포함하는, 음성/오디오 신호 처리 장치.
제18항에 있어서, 상기 전역 이득 파라미터 획득 유닛은,
상기 현재 프레임의 음성/오디오 신호의 상기 스펙트럼 틸트 파라미터, 및 상기 현재 프레임의 음성/오디오 신호와 상기 이력 프레임의 좁은 주파수 신호 사이의 상기 상관관계에 따라 상기 현재 프레임의 음성/오디오 신호를 제1 타입의 신호 또는 제2 타입의 신호로 분류하도록 구성된 분류 유닛;
상기 현재 프레임의 음성/오디오 신호가 제1 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 미리 결정된 값 이하로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제1 제한 유닛; 및
상기 현재 프레임의 음성/오디오 신호가 제2 타입의 신호일 때, 상기 스펙트럼 틸트 파라미터를 제1 범위의 값으로 제한하여 스펙트럼 틸트 파라미터 제한값을 얻고, 상기 스펙트럼 틸트 파라미터 제한값을 상기 고주파 신호의 상기 시간 영역 전역 이득 파라미터로서 이용하도록 구성된 제2 제한 유닛
을 포함하는, 음성/오디오 신호 처리 장치.
제19항에 있어서, 상기 제1 타입의 신호는 마찰음 신호이고, 상기 제2 타입의 신호는 비마찰음 신호이며; 상기 스펙트럼 틸트 파라미터 tilt > 5이고 상관관계 파라미터 cor가 특정 값 미만이면, 상기 좁은 주파수 신호는 마찰음으로서 분류되고, 나머지는 비마찰음으로서 분류되며; 상기 제1 미리 결정된 값은 8이고; 미리 설정된 상기 제1 범위는 [0.5, 1]인, 음성/오디오 신호 처리 장치.
제17항 내지 제20항 중 어느 한 항에 있어서, 상기 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환이고, 상기 장치는,
상기 현재 프레임의 음성/오디오 신호의 고주파 시간 영역 엔빌로프 파라미터로서 일련의 미리 설정된 값들을 이용하도록 구성된 시간 영역 엔빌로프 획득 유닛을 더 포함하고,
상기 보정 유닛은, 상기 시간 영역 엔빌로프 파라미터와 상기 예측된 전역 이득 파라미터를 이용하여 상기 초기 고주파 신호를 보정하여, 보정된 고주파 시간 영역 신호를 얻도록 구성된, 음성/오디오 신호 처리 장치.
제17항 내지 제20항 중 어느 한 항에 있어서, 상기 취득 유닛은,
상기 현재 프레임의 음성/오디오 신호에 따라 상기 고주파 신호의 여기 신호를 예측하도록 구성된 여기 신호 획득 유닛;
상기 고주파 신호의 LPC 계수를 예측하도록 구성된 LPC 계수 획득 유닛; 및
상기 고주파 신호의 상기 여기 신호와 상기 고주파 신호의 상기 LPC 계수를 합성하여 예측된 고주파 신호를 얻도록 구성된 합성 유닛을 포함하는, 음성/오디오 신호 처리 장치.
제17항 내지 제20항 중 어느 한 항에 있어서, 상기 대역폭 전환은 좁은 주파수 신호로부터 넓은 주파수 신호로의 전환이고, 상기 장치는,
상기 현재 프레임의 음성/오디오 신호와 이전 프레임의 음성/오디오 신호의 협대역 신호들이 미리 결정된 상관관계를 가질 때, 특정 스텝 크기에 따라, 상기 이전 프레임의 음성/오디오 신호에 대응하는 상기 에너지 비율의 가중치 인자 alfa를 감쇠함으로써 얻어지는 값을 현재 오디오 프레임에 대응하는 상기 에너지 비율의 가중치 인자로서 이용하도록 구성된 가중치 인자 설정 유닛을 더 포함하고, 상기 감쇠는 alfa가 0일 때까지 프레임별로 수행되는, 음성/오디오 신호 처리 장치.