KR20080090002A

KR20080090002A - 이동 단말에서 음성의 명료도 향상 장치 및 방법

Info

Publication number: KR20080090002A
Application number: KR1020070032918A
Authority: KR
Inventors: 파벨 마르티노비치; 김석호; 김재범; 안철용
Original assignee: 삼성전자주식회사
Priority date: 2007-04-03
Filing date: 2007-04-03
Publication date: 2008-10-08
Also published as: US20080249772A1; KR100876794B1; US8019603B2

Abstract

본 발명은 이동 단말에서 명료도가 향상된 음성을 출력하기 위한 장치 및 방법에 관한 것으로, 특히 이동 단말에서 음성 신호를 강조하여 명료도가 향상된 음성을 출력하기 위한 장치 및 방법에 관한 것이다.

상기 본 발명에 따른 이동 단말에서 음성 명료도 향상 장치는, 입력된 음성 신호의 한 프레임을 푸리에 변환하여 복합 스펙트럼을 계산하는 복합 스펙트럼 계산기와, 상기 입력된 프레임의 인스턴트 레벨을 계산하는 음성 레벨 계산기와, 상기 입력된 프레임이 음성 프레임인지 판단하는 음성 판단기와, 상기 판단 결과 음성 프레임인 경우, 상기 인스턴트 레벨을 이용하여 상기 음성 프레임의 음성 평균 레벨을 계산하는 음성 평균 레벨 계산기와, 상기 음성 평균 레벨과 상기 인스턴트 레벨을 비교하여 스케일링 인자를 계산하는 스케일링 인자 계산기와, 상기 스케일링 인자를 이용하여 고역 통과 필터링을 위한 진폭 특성을 계산하는 고역 통과 필터(HPF) 특성 계산기와, 상기 복합 스펙트럼에 대해 상기 진폭 특성을 근거로 고역 통과 필터링을 수행하는 고역 통과 필터와, 상기 고역 통과 필터링된 신호를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 합성하는 합성기와,상기 합성된 시간 영역 신호와 상기 입력된 프레임을 결합하여 명료도가 향상된 음성 신호를 출력하는 결합기를 포함한다.

상기 설명한 바와 같이, 본 발명은 음성 프레임만을 선택하여 상기 음성 프레임의 스케일링 인자를 계산하고, 음성 프레임의 레벨에 따라 고역 통과 필터 특 성을 계산한 후, 고역 통과 필터링을 수행하여 명료도가 향상된 음성 신호를 출력할 수 있다.

음성의 명료도, HPF, 스케일링 인자, 음성 프레임, 엔벨로프.

Description

이동 단말에서 음성의 명료도 향상 장치 및 방법{APPARATUS AND METHOD FOR ENHANCING INTELLIGIBILITY OF SPEECH IN MOBILE TERMINAL}

도 1은 일반적인 음성 명료도 향상 장치가 포함된 이동 통신 시스템을 나타낸 블록도,

도 2는 본 발명의 실시 예에 따른 음성 명료도 향상(SIE) 장치의 입력 및 출력 신호를 나타낸 도면,

도 3은 본 발명의 실시 예에 따른 SIE 장치를 상세히 나타낸 블록도,

도 4는 도 3의 SIE 장치에서 스케일링 인자에 따른 HPF의 진폭 특성을 예를 들어 나타낸 도면,

도 5a는 도 3의 SIE 장치에서 추정된 스펙트럼 엔벨로프의 예를 나타낸 도면,

도 5b는 도 3의 SIE 장치에서 보상된 스펙트럼 엔벨로프의 예를 나타낸 도면,

도 6은 본 발명의 실시 예에 따른 SIE 방법을 나타낸 순서도.

핸드폰과 같은 이동 단말은 조용한 장소뿐만 아니라, 공항이나 역의 플랫폼과 같이 잡음이 존재하는 실재 환경에서도 사용된다. 이러한 환경에서 이동 단말은 주위의 잡음에 의해 음성의 명료도가 크게 열화된 음성을 청취자에게 제공한다.

종래 이동 단말은 잡음이 존재하는 실제 환경에서 음성의 명료도 열화를 최소화시키기 위해 클립핑(Clipping) 회로 또는 등화기 회로 또는 이동 단말의 음량 제어를 사용하거나 포르만트(Formant) 방법을 사용한다.

클립핑 회로를 사용하는 방법은 가장 간단한 방법으로서, 입력된 신호 중 강조된 샘플들을 클리핑하여 전체 신호를 증폭한다. 그리고 등화기 회로를 사용하는 방법은 입력된 신호를 높은 주파수 범위(2KHz 이상)로 변환하여 음성의 명료도를 향상시키는 것이다. 또한 음량 제어 방법은 잡음이 존재하는 경우 볼륨을 증가시켜 증가된 볼륨을 청취자에게 제공하는 것이다. 그러나 상기 클립핑 회로 및 등화기 회로 및 음량 제어 방법은 입력된 신호를 증폭시키면 음성 신호와 동시에 잡음 신호도 증폭되어 음성의 명료도를 열화시킨다.

상기한 입력된 신호를 증폭하는 방법 외, 일반적으로 음성의 포르만트 방식을 적용하여 음성의 명료도를 향상시킨다. 상기 포르만트 방법은 음성 신호의 주파수 스펙트럼에 존재하는 피크(Peak)를 이용하는 방법으로, 상기 피크를 포르만트라 고 부른다. 음성 신호의 주파수 스펙트럼은 3개 이하의 포르만트를 포함하며, 상기 음성 신호의 주파수 스펙트럼에 포르만트가 3개인 경우, 저주파수부터 차례로 제1 포르만트, 제2 포르만트, 제3 포르만트라고 지정된다. 상기 포르만트 방법은 음성 신호의 스펙트럼이 주파수가 높아짐에 따라 진폭(전력)이 작아지는 특성을 이용하여, 고차(제2, 제3)의 포르만트를 강조함으로써 음성의 명료도를 향상시키는 방법이다. 그러나 상기 포르만트 방법은 주파수 대역 내에 음성 신호의 스펙트럼만이 존재하는 경우 음성의 명료도를 향상시킬 수 있으나, 잡음 신호와 음성 신호의 스펙트럼이 동시에 존재하는 경우 포르만트 이외의 성분도 강조되어 음성의 명료도가 열화될 수 있다.

이에 따라 잡음이 존재하는 실제환경에서 사용되는 이동 단말에서 음성의 명료도를 향상시킬 수 있는 새로운 방안이 요구된다.

본 발명은 이동 단말에서 음성의 명료도를 향상시키는 장치 및 방법을 제공한다.

상기 본 발명에 따른 이동 단말에서 음성 명료도 향상 장치는, 입력된 음성 신호의 한 프레임을 푸리에 변환하여 복합 스펙트럼을 계산하는 복합 스펙트럼 계산기와, 상기 입력된 프레임의 인스턴트 레벨을 계산하는 음성 레벨 계산기와, 상기 입력된 프레임이 음성 프레임인지 판단하는 음성 판단기와, 상기 판단 결과 음성 프레임인 경우, 상기 인스턴트 레벨을 이용하여 상기 음성 프레임의 음성 평균 레벨을 계산하는 음성 평균 레벨 계산기와, 상기 음성 평균 레벨과 상기 인스턴트 레벨을 비교하여 스케일링 인자를 계산하는 스케일링 인자 계산기와, 상기 스케일링 인자를 이용하여 고역 통과 필터링을 위한 진폭 특성을 계산하는 고역 통과 필터(HPF) 특성 계산기와, 상기 복합 스펙트럼에 대해 상기 진폭 특성을 근거로 고역 통과 필터링을 수행하는 고역 통과 필터와, 상기 고역 통과 필터링된 신호를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 합성하는 합성기와,상기 합성된 시간 영역 신호와 상기 입력된 프레임을 결합하여 명료도가 향상된 음성 신호를 출력하는 결합기를 포함한다. 상기 본 발명에 따른 이동 단말에서 음성 명료도 향상 방법은, 입력된 음성 신호의 한 프레임을 푸리에 변환하여 복합 스펙트럼을 계산하는 과정과, 상기 입력된 프레임의 인스턴트 레벨을 계산하는 과정과, 상기 입력된 프레임이 음성 프레임인지 판단하는 과정과, 상기 판단 결과 음성 프레임인 경우, 상기 인스턴트 레벨을 이용하여 상기 음성 프레임의 음성 평균 레벨을 계산하는 과정과, 상기 음성 평균 레벨과 상기 인스턴트 레벨을 비교하여 스케일링 인자를 계산하는 과정과, 상기 스케일링 인자를 이용하여 고역 통과 필터링을 위한 진폭 특성을 계산하는 과정과, 상기 복합 스펙트럼에 대해 상기 진폭 특성을 근거로 고역 통과 필터링을 수행하는 과정과, 상기 고역 통과 필터링된 신호를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 합성하는 과정과, 상기 합성된 시간 영역 신호와 상기 입력된 프레임을 결합하여 명료도가 향상된 음성 신호를 출력하는 과정을 포함한다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한다. 또한 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 이용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 한다.

먼저, 본 발명의 개념을 설명하면, 본 발명은 입력된 프레임 중 음성만 존재하는 음성 프레임을 근거로 음성 프레임의 스케일링 인자를 계산한 후, 음성 프레임의 레벨에 따라 고역 통과 필터(High Pass Filter : 이하 'HPF'라 함.) 특성을 계산하고, HPF 특성에 따라 상기 음성 프레임에 대해 고역 통과 필터링을 수행하여 명료도가 향상된 음성 신호를 출력하는 것이다.

도 1은 일반적인 음성 명료도 향상 장치가 포함된 이동 통신 시스템을 나타낸 블록도이다.

도 1에서 송신측 단말의 인코더(110)는 마이크를 통해 입력된 음성 신호(101)를 부호화하여 채널로 전송한다. 상기 부호화된 음성 신호는 통신 채널을 통해 수신측 단말에 구비된 디코더(130)로 전달된다. 그리고 디코더(130)는 채널을 통해 전송된 부호화된 음성 신호를 복호화하여 음성 명료도 향상(Speech Intelligibility Enhancement : 이하 'SIE'라 함.) 장치(150)에 전달한다. 상기 SIE 장치(270)는 외부로부터 입력된 잡음 신호(103)에 근거하여, 복호화된 음성 신 호의 명료도를 향상시켜 명료도가 향상된 음성을 출력한다.

도 2는 본 발명의 실시 예에 따른 음성 명료도 향상 장치의 입력 및 출력 신호를 나타낸 도면이다.

도 2에서 SIE 장치(270)는 3개의 신호를 입력받을 수 있다. 먼저, SIE 장치(270)는 입력신호로 음성 신호(210)를 입력받아 명료도가 향상된 음성 신호(270)를 출력한다. 이때 SIE 장치(270)는 잡음 신호(230) 및/또는 수동적으로 사용자의 이득(250)을 입력받아 음성 신호(210)의 스펙트럼 변경의 정도를 제어할 수 있다. 여기서 잡음 신호(230)는 마이크를 통해 입력되는 주변 잡음 신호를 의미한다. 그리고 사용자의 이득(250)은 일반적인 볼륨 조절에 따른 볼륨 이득을 나타낸다. SIE 장치(270)에서는 입력된 음성 신호(210)와 잡음신호(230) 및 사용자의 이득(250)을 이용하여 명료도가 향상된 음성 신호(270)를 출력한다.

도 3은 본 발명의 실시 예에 따른 SIE 장치를 상세히 나타낸 블록도이다.

도 3에서 SIE 장치(270)는 복합 스펙트럼 계산기(301)와, 음성 판단기(303)와, 음성 레벨 계산기(305)와, 음성 평균 레벨 계산기(307)와, 스케일링 인자 계산기(309)와, HPF 특성 계산기(311)와, HPF(313)와, 합성기(315)와, 결합기(317)를 포함한다. 그리고 SIE 장치(270)는 선택적으로 스펙트럼 전처리부(330)와, 잡음 계산부(350)를 더 포함할 수 있다.

도 3에서 음성 신호(210)의 한 프레임은 복합 스펙트럼 계산기(301)와, 음성 판단기(303)와, 음성 레벨 계산기(305)에 입력된다. 상기 SIE 장치(270)에 입력된 프레임(x(f,t))들은 실제 음성이 존재하는 음성 프레임과 실제 음성 사이에 존재하 는 잡음(혹은 묵음) 프레임을 포함한다. 여기서 f는 프레임 카운터로 [0 내지 F-1]이고, t는 한 프레임에서 시간 인덱스 또는 샘플 카운터로 [0 내지 T-1]이다. 그리고 F는 프레임들의 총 개수이고, T는 한 프레임에서 샘플들의 개수이다.

상기 복합 스펙트럼 계산기(301)는 입력된 프레임(x(f,t))을 푸리에 변환하여 복합 스펙트럼(X(f,i))을 계산한다. 그리고 복합 스펙트럼 계산기(301)는 계산된 복합 스펙트럼(X(f,i))을 스펙트럼 전처리부(330)로 전달하는데, 만일 상기 스펙트럼 전처리부(330)가 구비되어 있지 않은 경우라면, HPF(313)로 전달한다. 여기서 i는 주파수 빈(bin) 인덱스로 [0 내지 I-1]이고, I는 주파수 빈들(bins)의 개수이다.

상기 음성 판단기(303)는 입력된 프레임(x(f,t))의 음성 활성도를 측정함으로써 상기 입력된 프레임(x(f,t))이 음성 프레임인지 판단하여, 음성 프레임인 경우 음성 레벨 평균 계산기(305)에 전달하고, 잡음 프레임인 경우 HPF(313)에 전달한다. 다른 경우 음성 판단기(303)는 입력된 프레임(x(f,t))이 음성 프레임인지의 여부를 음성 레벨 평균 계산기(305) 및 HPF(313)에게 단순히 통지한다.

상기 음성 레벨 계산기(305)는 입력된 프레임(x(f,t))에 대해 신호의 각 짧은 세그먼트(Short Segment)동안 인스턴트(Instant) 레벨(LS(f))을 계산한다.

그리고 상기 음성 평균 레벨 계산기(307)는 입력된 프레임(x(f,t))이 음성 프레임인 경우, 소정 시간 구간 동안 계산된 상기 인스턴트 레벨(LS(f))을 이용하여 음성 프레임의 음성 평균 레벨(ES(f))을 계산한다.

도 3에서 스케일링 인자(Scaling Factor) 계산기(309)는 상기 음성 평균 레 벨(ES(f))과 인스턴트 레벨(LS(f))을 비교하여 낮은(Low) 레벨의 음성 프레임과, 높은(High) 레벨의 음성 프레임의 볼륨을 증가시키기 위한 스케일링 인자(G(f))를 아래 <수학식 1>을 이용하여 계산한다.

G(f) = C * ES(f) / LS(f)

상기 <수학식 1>에서 C는 소정 상수로 요구된 SNR(Signal to Noise Ratio) 레벨이다. 상기 스케일링 인자(G(f)) 계산기(307)는 인스턴트 레벨(LS(f))이 음성 평균 레벨(ES(f)) 또는 소정의 감쇠량(attenualtion)보다 적은 경우, 스케일링 인자를 증폭 인자로 계산한다. 상기와 같이 증폭 인자로 계산하는 동작을 일반적으로 진폭압축(Amplitude Compression) 동작 이라 한다.

상기 HPF 특성 계산기(311)는 상기 스케일링 인자(G(f))를 이용하여 HPF의 진폭 특성(H(f,i))을 계산한다. 상기 HPF 특성 계산기(311)에서 이용되는 스케일링 인자(G(f))는 상기 <수학식 1>과 같이 낮은(Low) 레벨의 음성 프레임과 높은(High) 레벨의 음성 프레임의 볼륨을 증가시키도록 계산된다. 그러나 상기 낮은 레벨과 높은 레벨에서의 음성 프레임의 볼륨은 음성 명료도에 서로 다른 영향을 끼치므로 각 레벨의 주파수 대역에 따라 스케일링이 적용되어야 한다.

이에 따라 본 발명의 실시 예에서는 상기 주파수 대역에 따라 스케일링을 적용하는 방식으로 모음이 저주파에 있는 절정을 가지고 있는 동안, 음성의 명료도에 영향을 많이 끼치는 자음은 더 높은 주파수 대역에 위치함을 이용하여 스케일링을 적용한다. 즉, HPF 특성 계산기(311)는 상기 스케일링 인자(G(f))에 따라 도 4와 같이 HPF의 진폭 특성을 계산한다.

도 4는 도 3의 SIE 장치에서 스케일링 인자에 따른 HPF의 진폭 특성을 예를 들어 나타낸 도면이다.

HPF 특성 계산기(311)는 스케일링 인자(G(f))가 1보다 큰 경우, (a)와 같이 진폭이 저주파 대역에서 최소 1이고, 고주파 대역에서 최대 스케일링 인자(G(f))인 HPF의 진폭 특성(H(f,i))을 출력한다. 그리고 HPF 특성 계산기(311)는 스케일링 인자(G(f))가 1보다 작거나 같은 경우, (b)와 같이 진폭이 저주파 대역에서 최소 스케일링 인자(G(f))이고, 고주파 대역에서 최대 1인 HPF의 진폭 특성(H(f,i))을 출력한다.

다시 도 3을 참조하여 설명하면, HPF(313)는 복합 스펙트럼(X(f,i))에 대해 HPF의 진폭 특성(H(f,i))을 근거로 고역 통과 필터링을 수행하여 아래 <수학식 2>과 같은 결과를 출력한다.

Xo(f,i) = X(f,i) * H(f,i)

상기 <수학식 2>에서 Xo(f,i)는 고역 통과 필터링된 신호이다.

그리고 상기 합성기(315)는 고역 통과 필터링된 신호(Xo(f,i))를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 중첩 및 결합(overlap-and-add)방법을 이용하여 합성한다.

상기 결합기(317)는 상기 합성된 시간 영역 신호와 입력된 프레임(x(f,t))을 결합하여 명료도가 향상된 음성 신호(290)을 출력한다. 또한 결합기(317)는 사용자 의 이득(250)을 입력받은 경우, 입력받은 사용자의 이득(250)과 명료도가 향상된 음성 신호(290)를 결합한다.

한편, 도 3에서 SIE 장치(270)는 스펙트럼 전처리부(330)와, 잡음 계산부(350)를 선택적으로 구비하여 명료도가 향상된 음성 신호(290)을 출력할 수 있다.

상기 스펙트럼 전처리부(330)는 진폭 스펙트럼 계산기(331)와, 스펙트럼 엔벨로프(Envelope) 추정기(333)와, 스펙트럼 엔벨로프 보상기(335)를 포함한다.

상기 진폭 스펙트럼 계산기(331)는 상기 계산된 복합 스펙트럼(X(f,i))의 크기를 근거로 진폭 스펙트럼(A(f,i))를 아래 <수학식 3>를 이용하여 계산한다.

A(f,i) = |X(f,i)|

상기 스펙트럼 엔벨로프 추정기(335)는 상기 진폭 스펙트럼의 주파수 영역에서 필터뱅크를 이용하여 상기 진폭 스펙트럼의 스펙트럼 엔벨로프(스펙트럼의 최대 값을 저주파에서 고주파까지 연결한 포락선)를 추정한다. 이때 상기 필터뱅크에 포함된 각 필터의 필터 특성은 삼각형태이며, 상기 각 필터의 대역폭은 피치 고주파의 영향을 부드럽게 할 정도로 충분히 넓다.

상기 스펙트럼 엔벨로프 보상기(335)는 포르만트를 강조하기 위해 포르만트 대역폭의 스펙트럼을 증폭시키고, 음성 명료도를 위해 중요하지 않은 부분인 스펙트럼의 밸리(valley)를 감쇠시켜 스펙트럼 엔벨로프를 보상한다. 상기 스펙트럼 엔벨로프를 보상하는 방식은 여러 가지 방식으로 수행될 수 있으며, 그 중 하나의 방 식을 아래 도 5a 및 도 5b를 참조하여 설명하기로 한다.

도 5a는 도 3의 SIE 장치에서 추정된 스펙트럼 엔벨로프의 예를 나타낸 도면이고, 도 5b는 도 3의 SIE 장치에서 보상된 스펙트럼 엔벨로프의 예를 나타낸 도면이다.

도 5a와 같이 추정된 스펙트럼 엔벨로프에 저주파의 구성요소를 동작시킬 수 있는 기울기(Tilt)가 존재하는 경우, 스펙트럼 엔벨로프 보상기(335)는 추정된 스펙트럼 엔벨로프의 기울기를 제거하여 도 5b와 같은 기울기가 제거된 스펙트럼 엔벨로프를 생성한다. 그리고 스펙트럼 엔벨로프 보상기(335)는 상기 기울기가 제거된 스펙트럼 엔벨로프를 상기 계산된 복합 스펙트럼에 적용하여. 복합 스펙트럼의 스펙트럼 엔벨로프를 보상한다. 상기 보상된 스펙트럼 엔벨로프(Xa(f,i))의 진폭 범위는 0부터 1까지이고, 피크(Peak)들은 동일하며, 스펙트럼의 밸리들은 0에 근접한(close-to-zero) 값을 갖는다. 이에 따라 본 발명의 실시 예에 따른 상기 보상된 스펙트럼 엔벨로프(Xa(f,i))를 이용하여 밸리들을 감쇠시키고 포르만트들을 강조하여 음성의 명료도를 더 향상시킬 수 있다.

도 3에서 SIE 장치(270)에 스펙트럼 전처리부(330)가 구비되어 상기 보상된 스펙트럼 엔벨로프(Xa(f,i))를 입력받은 경우, HPF(313)는 보상된 스펙트럼 엔벨로프(Xa(f,i))에 대해, HPF의 진폭 특성(H(f,i))를 근거로 고역 통과 필터링을 수행하여 아래 <수학식 4>과 같은 결과를 출력한다.

Xo(f,i) = Xa(f,i) * H(f,i)

그리고 도 3에서 SIE 장치(270)에 선택적으로 포함될 수 있는 잡음 계산부(350)는 음성 판단기(351)와, 잡음 레벨 계산기(353)와, 잡음 평균 레벨 계산기(355)를 포함한다.

먼저, 잡음 신호(230)의 한 프레임이 잡음 판단기(351) 및 잡음 레벨 계산기(353)에 입력된다. 상기 잡음 신호(230)는 예를 들어 수신측 단말의 마이크를 통해 수집될 수 있다. 상기 잡음 판단기(351)는 입력된 잡음 프레임(n(f,t))에 음성이 존재하는지 판단하여 잡음만 존재하는 경우, 입력된 잡음 프레임을 잡음 평균 레벨 계산기(335)에 전달한다.

상기 잡음 레벨 계산기(353)는 현재 입력된 잡음 프레임에 대해 신호의 각 짧은 세그먼트 동안 인스턴트 레벨(LN(f))을 계산한다.

그리고 상기 잡음 평균 레벨 계산기(355)는 상기 잡음 프레임과 소정 시간 구간 동안 계산된 상기 인스턴트 레벨(LN(f))을 이용하여 잡음 프레임의 잡음 평균 레벨(EN(f))을 계산한다.

도 3에서 SIE 장치(270)에 잡음 계산부(350)가 구비되어 상기 잡음 평균 레벨(EN(f))을 입력받은 경우, 결합기(317)는 합성된 시간 영역 신호와 입력된 음성 프레임(X(f,t)을 결합한 후 잡음 평균 레벨(EN(f))에 따른 잡음을 제거하여 명료도가 향상된 음성 신호(290)을 출력한다.

도 6은 본 발명의 실시 예에 따른 SIE 방법을 나타낸 순서도이다. 여기에서는 스펙트럼 전처리 및 잡음에 의한 영향을 고려하지 않은 HPF 동작만을 도시하였다.

도 6의 601 단계에서 복합 스펙트럼 계산기(301)는 입력된 프레임(x(f,i))을 푸리에 변환하여 복합 스펙트럼(X(f,i))을 계산한다. 그리고 603 단계에서 음성 레벨 계산기(305)는 현재 입력된 프레임(x(f,i))에 대해 신호의 짧은 세그먼트 동안 인스턴트 레벨(LS(f))을 계산한다.

605 단계에서 음성 판단기(303)는 입력된 프레임(x(f,i))이 음성 프레임인지 판단하여 음성 프레임인 경우 607 단계로 진행하고, 잡음 프레임인 경우 613 단계로 진행한다.

상기 607 단계에서 음성 평균 레벨 계산기(607)는 상기 판단된 음성 프레임의 인스턴트 레벨(LS(f))을 이용하여 음성 프레임의 음성 평균 레벨(ES(f))을 계산한다. 그리고 609 단계에서 스케일링 인자 계산기(309)는 상기 음성 평균 레벨(ES(f))과 인스턴트 레벨(LS(f))를 비교하여 낮은 레벨의 음성 프레임과 높은 레벨의 음성 프레임의 볼륨을 증가시키기 위한 스케일링 인자(G(f))를 상기 <수학식 1>을 이용하여 계산한다.

도 3의 611 단계에서 HPF 특성 계산기(311)는 상기 스케일링 인자(G(f))를 이용하여 HPF의 진폭 특성(H(f,i))을 계산한다. 상기 613 단계에서 HPF(313)는 복합 스펙트럼(X(f,i))에 대해 HPF의 진폭 특성(H(f,i))을 근거로 고역 통과 필터링을 수행하여 상기 <수학식 2>와 같은 결과를 출력한다. 그리고 615 단계에서 합성기(315)는 고역 통과 필터링된 신호(Xo(f,i))를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 중첩 및 결합(overlap-and add) 방법을 이용하여 합성한다. 617 단계에서 결합기(317)는 상기 합성된 시간 영역 신호와 입력된 프레 임(x(f,t))을 결합하여 619 단계에서 명료도가 향상된 음성 신호를 출력한다.

이상과 같이 본 발명은 음성의 명료도에 영향을 많이 끼치는 자음이 모음보다 더 높은 주파수 대역에 위치함을 이용하여 음성 프레임의 스케일링 인자를 계산한 후, 음성 프레임의 레벨에 따라 고역 통과 필터 특성을 계산하고, HPF 특성에 따라 고역 통과 필터링을 수행하여 명료도가 향상된 음성 신호를 출력할 수 있다.

한편, 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

상기 설명한 바와 같이, 본 발명은 음성 프레임만을 선택하여 상기 음성 프레임의 스케일링 인자를 계산하고, 음성 프레임의 레벨에 따라 고역 통과 필터 특성을 계산한 후, 고역 통과 필터링을 수행하여 명료도가 향상된 음성 신호를 출력할 수 있다.

Claims

이동 단말에서 음성 명료도 향상 장치에 있어서,

입력된 음성 신호의 한 프레임을 푸리에 변환하여 복합 스펙트럼을 계산하는 복합 스펙트럼 계산기와,

상기 입력된 프레임의 인스턴트 레벨을 계산하는 음성 레벨 계산기와,

상기 입력된 프레임이 음성 프레임인지 판단하는 음성 판단기와,

상기 판단 결과 음성 프레임인 경우, 상기 인스턴트 레벨을 이용하여 상기 음성 프레임의 음성 평균 레벨을 계산하는 음성 평균 레벨 계산기와,

상기 음성 평균 레벨과 상기 인스턴트 레벨을 비교하여 스케일링 인자를 계산하는 스케일링 인자 계산기와,

상기 스케일링 인자를 이용하여 고역 통과 필터링을 위한 진폭 특성을 계산하는 고역 통과 필터(HPF) 특성 계산기와,

상기 복합 스펙트럼에 대해 상기 진폭 특성을 근거로 고역 통과 필터링을 수행하는 고역 통과 필터와,

상기 고역 통과 필터링된 신호를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 합성하는 합성기와,

상기 합성된 시간 영역 신호와 상기 입력된 프레임을 결합하여 명료도가 향상된 음성 신호를 출력하는 결합기를 포함하는 음성 명료도 향상 장치.
제 1 항에 있어서,

상기 진폭 특성은,

상기 스케일링 인자가 1보다 큰 경우, 저주파 대역에서 최소 1의 진폭을 가지고, 고주파 대역에서 최대 상기 스케일링 인자만큼의 진폭을 가지며,

상기 스케일링 인자가 1보다 작거나 같은 경우, 저주파 대역에서 최소 상기스케일링 인자만큼의 진폭을 가지고, 고주파 대역에서 최대 1의 진폭을 가지는 음성 명료도 향상 장치.
제 1 항에 있어서,

상기 복합 스펙트럼의 크기를 근거로 진폭 스펙트럼을 계산하는 진폭 스펙트럼 계산기와,

상기 진폭 스펙트럼의 주파수 영역에서 필터뱅크를 이용하여 상기 진폭 스펙트럼의 스펙트럼 엔벨로프를 추정하는 스펙트럼 엔벨로프 추정기와,

상기 스펙트럼 엔벨로프에서 포르만트 대역폭의 스펙트럼을 증폭시키고 스펙트럼의 밸리를 감쇠시켜 상기 스펙트럼 엔벨로프를 보상하고, 상기 보상된 스펙트럼 엔벨로프를 상기 고역 통과 필터에게 상기 복합 스펙트럼으로서 제공하는 스펙트럼 엔벨로프 보상기를 더 포함하는 음성 명료도 향상 장치.
제 1 항에 있어서,

상기 입력된 잡음 신호의 한 프레임의 잡음 인스턴트 레벨을 계산하는 잡음 레벨 계산기와,

상기 입력된 잡음 신호의 프레임에 잡음만 존재하는지 판단하는 잡음 판단기와,

상기 잡음 신호의 프레임에 잡음만 존재하는 경우 상기 잡음 인스턴트 레벨을 이용하여 상기 잡음 프레임의 잡음 평균 레벨을 계산하고, 상기 명료도가 향상된 음성 신호의 상기 잡음 신호에 의한 영향을 제거하도록 상기 잡음 평균 레벨을 상기 결합기에게 제공하는 잡음 평균 레벨 계산기를 더 포함하는 음성 명료도 향상 장치.
제 1 항에 있어서,

상기 결합기는,

상기 결합한 명료도가 향상된 음성 신호에 사용자의 이득을 적용하여 상기 명료도가 향상된 음성 신호의 볼륨을 조정하는 음성 명료도 향상 장치.
이동 단말에서 음성 명료도 향상 방법에 있어서,

입력된 음성 신호의 한 프레임을 푸리에 변환하여 복합 스펙트럼을 계산하는 과정과,

상기 입력된 프레임의 인스턴트 레벨을 계산하는 과정과,

상기 입력된 프레임이 음성 프레임인지 판단하는 과정과,

상기 판단 결과 음성 프레임인 경우, 상기 인스턴트 레벨을 이용하여 상기 음성 프레임의 음성 평균 레벨을 계산하는 과정과,

상기 음성 평균 레벨과 상기 인스턴트 레벨을 비교하여 스케일링 인자를 계산하는 과정과,

상기 스케일링 인자를 이용하여 고역 통과 필터링을 위한 진폭 특성을 계산하는 과정과,

상기 복합 스펙트럼에 대해 상기 진폭 특성을 근거로 고역 통과 필터링을 수행하는 과정과,

상기 고역 통과 필터링된 신호를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 합성하는 과정과,

상기 합성된 시간 영역 신호와 상기 입력된 프레임을 결합하여 명료도가 향상된 음성 신호를 출력하는 과정을 포함하는 음성 명료도 향상 방법.
제 6 항에 있어서,

상기 진폭 특성은,

상기 스케일링 인자가 1보다 큰 경우, 저주파 대역에서 최소 1의 진폭을 가지고, 고주파 대역에서 최대 상기 스케일링 인자만큼의 진폭을 가지며,

상기 스케일링 인자가 1보다 작거나 같은 경우, 저주파 대역에서 최소 상기스케일링 인자만큼의 진폭을 가지고, 고주파 대역에서 최대 1의 진폭을 가지는 음성 명료도 향상 방법.
제 6 항에 있어서,

상기 복합 스펙트럼의 크기를 근거로 진폭 스펙트럼을 계산하는 과정과,

상기 진폭 스펙트럼의 주파수 영역에서 필터뱅크를 이용하여 상기 진폭 스펙트럼의 스펙트럼 엔벨로프를 추정하는 과정과,

상기 스펙트럼 엔벨로프에서 포르만트 대역폭의 스펙트럼을 증폭시키고 스펙트럼의 밸리를 감쇠시켜 상기 스펙트럼 엔벨로프를 보상하고, 상기 보상된 스펙트럼 엔벨로프를 상기 고역 통과 필터에게 상기 복합 스펙트럼으로서 제공하는 과정을 더 포함하는 음성 명료도 향상 방법.
제 6 항에 있어서,

상기 입력된 잡음 신호의 한 프레임의 잡음 인스턴트 레벨을 계산하는 과정과,

상기 입력된 잡음 신호의 프레임에 잡음만 존재하는지 판단하는 과정과,

상기 잡음 신호의 프레임에 잡음만 존재하는 경우 상기 잡음 인스턴트 레벨을 이용하여 상기 잡음 프레임의 잡음 평균 레벨을 계산하고, 상기 명료도가 향상된 음성 신호의 상기 잡음 신호에 의한 영향을 제거하도록 상기 잡음 평균 레벨을 상기 결합기에게 제공하는 과정을 더 포함하는 음성 명료도 향상 방법.
제 6 항에 있어서,

상기 결합한 명료도가 향상된 음성 신호에 사용자의 이득을 적용하여 상기 명료도가 향상된 음성 신호의 볼륨을 조정하는 과정을 더 포함하는 음성 명료도 향상 방법.