KR20080090002A - 이동 단말에서 음성의 명료도 향상 장치 및 방법 - Google Patents

이동 단말에서 음성의 명료도 향상 장치 및 방법 Download PDF

Info

Publication number
KR20080090002A
KR20080090002A KR1020070032918A KR20070032918A KR20080090002A KR 20080090002 A KR20080090002 A KR 20080090002A KR 1020070032918 A KR1020070032918 A KR 1020070032918A KR 20070032918 A KR20070032918 A KR 20070032918A KR 20080090002 A KR20080090002 A KR 20080090002A
Authority
KR
South Korea
Prior art keywords
frame
voice
signal
noise
level
Prior art date
Application number
KR1020070032918A
Other languages
English (en)
Other versions
KR100876794B1 (ko
Inventor
파벨 마르티노비치
김석호
김재범
안철용
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070032918A priority Critical patent/KR100876794B1/ko
Priority to US12/062,034 priority patent/US8019603B2/en
Publication of KR20080090002A publication Critical patent/KR20080090002A/ko
Application granted granted Critical
Publication of KR100876794B1 publication Critical patent/KR100876794B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Abstract

본 발명은 이동 단말에서 명료도가 향상된 음성을 출력하기 위한 장치 및 방법에 관한 것으로, 특히 이동 단말에서 음성 신호를 강조하여 명료도가 향상된 음성을 출력하기 위한 장치 및 방법에 관한 것이다.
상기 본 발명에 따른 이동 단말에서 음성 명료도 향상 장치는, 입력된 음성 신호의 한 프레임을 푸리에 변환하여 복합 스펙트럼을 계산하는 복합 스펙트럼 계산기와, 상기 입력된 프레임의 인스턴트 레벨을 계산하는 음성 레벨 계산기와, 상기 입력된 프레임이 음성 프레임인지 판단하는 음성 판단기와, 상기 판단 결과 음성 프레임인 경우, 상기 인스턴트 레벨을 이용하여 상기 음성 프레임의 음성 평균 레벨을 계산하는 음성 평균 레벨 계산기와, 상기 음성 평균 레벨과 상기 인스턴트 레벨을 비교하여 스케일링 인자를 계산하는 스케일링 인자 계산기와, 상기 스케일링 인자를 이용하여 고역 통과 필터링을 위한 진폭 특성을 계산하는 고역 통과 필터(HPF) 특성 계산기와, 상기 복합 스펙트럼에 대해 상기 진폭 특성을 근거로 고역 통과 필터링을 수행하는 고역 통과 필터와, 상기 고역 통과 필터링된 신호를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 합성하는 합성기와,상기 합성된 시간 영역 신호와 상기 입력된 프레임을 결합하여 명료도가 향상된 음성 신호를 출력하는 결합기를 포함한다.
상기 설명한 바와 같이, 본 발명은 음성 프레임만을 선택하여 상기 음성 프레임의 스케일링 인자를 계산하고, 음성 프레임의 레벨에 따라 고역 통과 필터 특 성을 계산한 후, 고역 통과 필터링을 수행하여 명료도가 향상된 음성 신호를 출력할 수 있다.
음성의 명료도, HPF, 스케일링 인자, 음성 프레임, 엔벨로프.

Description

이동 단말에서 음성의 명료도 향상 장치 및 방법{APPARATUS AND METHOD FOR ENHANCING INTELLIGIBILITY OF SPEECH IN MOBILE TERMINAL}
도 1은 일반적인 음성 명료도 향상 장치가 포함된 이동 통신 시스템을 나타낸 블록도,
도 2는 본 발명의 실시 예에 따른 음성 명료도 향상(SIE) 장치의 입력 및 출력 신호를 나타낸 도면,
도 3은 본 발명의 실시 예에 따른 SIE 장치를 상세히 나타낸 블록도,
도 4는 도 3의 SIE 장치에서 스케일링 인자에 따른 HPF의 진폭 특성을 예를 들어 나타낸 도면,
도 5a는 도 3의 SIE 장치에서 추정된 스펙트럼 엔벨로프의 예를 나타낸 도면,
도 5b는 도 3의 SIE 장치에서 보상된 스펙트럼 엔벨로프의 예를 나타낸 도면,
도 6은 본 발명의 실시 예에 따른 SIE 방법을 나타낸 순서도.
본 발명은 이동 단말에서 명료도가 향상된 음성을 출력하기 위한 장치 및 방법에 관한 것으로, 특히 이동 단말에서 음성 신호를 강조하여 명료도가 향상된 음성을 출력하기 위한 장치 및 방법에 관한 것이다.
핸드폰과 같은 이동 단말은 조용한 장소뿐만 아니라, 공항이나 역의 플랫폼과 같이 잡음이 존재하는 실재 환경에서도 사용된다. 이러한 환경에서 이동 단말은 주위의 잡음에 의해 음성의 명료도가 크게 열화된 음성을 청취자에게 제공한다.
종래 이동 단말은 잡음이 존재하는 실제 환경에서 음성의 명료도 열화를 최소화시키기 위해 클립핑(Clipping) 회로 또는 등화기 회로 또는 이동 단말의 음량 제어를 사용하거나 포르만트(Formant) 방법을 사용한다.
클립핑 회로를 사용하는 방법은 가장 간단한 방법으로서, 입력된 신호 중 강조된 샘플들을 클리핑하여 전체 신호를 증폭한다. 그리고 등화기 회로를 사용하는 방법은 입력된 신호를 높은 주파수 범위(2KHz 이상)로 변환하여 음성의 명료도를 향상시키는 것이다. 또한 음량 제어 방법은 잡음이 존재하는 경우 볼륨을 증가시켜 증가된 볼륨을 청취자에게 제공하는 것이다. 그러나 상기 클립핑 회로 및 등화기 회로 및 음량 제어 방법은 입력된 신호를 증폭시키면 음성 신호와 동시에 잡음 신호도 증폭되어 음성의 명료도를 열화시킨다.
상기한 입력된 신호를 증폭하는 방법 외, 일반적으로 음성의 포르만트 방식을 적용하여 음성의 명료도를 향상시킨다. 상기 포르만트 방법은 음성 신호의 주파수 스펙트럼에 존재하는 피크(Peak)를 이용하는 방법으로, 상기 피크를 포르만트라 고 부른다. 음성 신호의 주파수 스펙트럼은 3개 이하의 포르만트를 포함하며, 상기 음성 신호의 주파수 스펙트럼에 포르만트가 3개인 경우, 저주파수부터 차례로 제1 포르만트, 제2 포르만트, 제3 포르만트라고 지정된다. 상기 포르만트 방법은 음성 신호의 스펙트럼이 주파수가 높아짐에 따라 진폭(전력)이 작아지는 특성을 이용하여, 고차(제2, 제3)의 포르만트를 강조함으로써 음성의 명료도를 향상시키는 방법이다. 그러나 상기 포르만트 방법은 주파수 대역 내에 음성 신호의 스펙트럼만이 존재하는 경우 음성의 명료도를 향상시킬 수 있으나, 잡음 신호와 음성 신호의 스펙트럼이 동시에 존재하는 경우 포르만트 이외의 성분도 강조되어 음성의 명료도가 열화될 수 있다.
이에 따라 잡음이 존재하는 실제환경에서 사용되는 이동 단말에서 음성의 명료도를 향상시킬 수 있는 새로운 방안이 요구된다.
본 발명은 이동 단말에서 음성의 명료도를 향상시키는 장치 및 방법을 제공한다.
상기 본 발명에 따른 이동 단말에서 음성 명료도 향상 장치는, 입력된 음성 신호의 한 프레임을 푸리에 변환하여 복합 스펙트럼을 계산하는 복합 스펙트럼 계산기와, 상기 입력된 프레임의 인스턴트 레벨을 계산하는 음성 레벨 계산기와, 상기 입력된 프레임이 음성 프레임인지 판단하는 음성 판단기와, 상기 판단 결과 음성 프레임인 경우, 상기 인스턴트 레벨을 이용하여 상기 음성 프레임의 음성 평균 레벨을 계산하는 음성 평균 레벨 계산기와, 상기 음성 평균 레벨과 상기 인스턴트 레벨을 비교하여 스케일링 인자를 계산하는 스케일링 인자 계산기와, 상기 스케일링 인자를 이용하여 고역 통과 필터링을 위한 진폭 특성을 계산하는 고역 통과 필터(HPF) 특성 계산기와, 상기 복합 스펙트럼에 대해 상기 진폭 특성을 근거로 고역 통과 필터링을 수행하는 고역 통과 필터와, 상기 고역 통과 필터링된 신호를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 합성하는 합성기와,상기 합성된 시간 영역 신호와 상기 입력된 프레임을 결합하여 명료도가 향상된 음성 신호를 출력하는 결합기를 포함한다. 상기 본 발명에 따른 이동 단말에서 음성 명료도 향상 방법은, 입력된 음성 신호의 한 프레임을 푸리에 변환하여 복합 스펙트럼을 계산하는 과정과, 상기 입력된 프레임의 인스턴트 레벨을 계산하는 과정과, 상기 입력된 프레임이 음성 프레임인지 판단하는 과정과, 상기 판단 결과 음성 프레임인 경우, 상기 인스턴트 레벨을 이용하여 상기 음성 프레임의 음성 평균 레벨을 계산하는 과정과, 상기 음성 평균 레벨과 상기 인스턴트 레벨을 비교하여 스케일링 인자를 계산하는 과정과, 상기 스케일링 인자를 이용하여 고역 통과 필터링을 위한 진폭 특성을 계산하는 과정과, 상기 복합 스펙트럼에 대해 상기 진폭 특성을 근거로 고역 통과 필터링을 수행하는 과정과, 상기 고역 통과 필터링된 신호를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 합성하는 과정과, 상기 합성된 시간 영역 신호와 상기 입력된 프레임을 결합하여 명료도가 향상된 음성 신호를 출력하는 과정을 포함한다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한다. 또한 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 이용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 한다.
먼저, 본 발명의 개념을 설명하면, 본 발명은 입력된 프레임 중 음성만 존재하는 음성 프레임을 근거로 음성 프레임의 스케일링 인자를 계산한 후, 음성 프레임의 레벨에 따라 고역 통과 필터(High Pass Filter : 이하 'HPF'라 함.) 특성을 계산하고, HPF 특성에 따라 상기 음성 프레임에 대해 고역 통과 필터링을 수행하여 명료도가 향상된 음성 신호를 출력하는 것이다.
도 1은 일반적인 음성 명료도 향상 장치가 포함된 이동 통신 시스템을 나타낸 블록도이다.
도 1에서 송신측 단말의 인코더(110)는 마이크를 통해 입력된 음성 신호(101)를 부호화하여 채널로 전송한다. 상기 부호화된 음성 신호는 통신 채널을 통해 수신측 단말에 구비된 디코더(130)로 전달된다. 그리고 디코더(130)는 채널을 통해 전송된 부호화된 음성 신호를 복호화하여 음성 명료도 향상(Speech Intelligibility Enhancement : 이하 'SIE'라 함.) 장치(150)에 전달한다. 상기 SIE 장치(270)는 외부로부터 입력된 잡음 신호(103)에 근거하여, 복호화된 음성 신 호의 명료도를 향상시켜 명료도가 향상된 음성을 출력한다.
도 2는 본 발명의 실시 예에 따른 음성 명료도 향상 장치의 입력 및 출력 신호를 나타낸 도면이다.
도 2에서 SIE 장치(270)는 3개의 신호를 입력받을 수 있다. 먼저, SIE 장치(270)는 입력신호로 음성 신호(210)를 입력받아 명료도가 향상된 음성 신호(270)를 출력한다. 이때 SIE 장치(270)는 잡음 신호(230) 및/또는 수동적으로 사용자의 이득(250)을 입력받아 음성 신호(210)의 스펙트럼 변경의 정도를 제어할 수 있다. 여기서 잡음 신호(230)는 마이크를 통해 입력되는 주변 잡음 신호를 의미한다. 그리고 사용자의 이득(250)은 일반적인 볼륨 조절에 따른 볼륨 이득을 나타낸다. SIE 장치(270)에서는 입력된 음성 신호(210)와 잡음신호(230) 및 사용자의 이득(250)을 이용하여 명료도가 향상된 음성 신호(270)를 출력한다.
도 3은 본 발명의 실시 예에 따른 SIE 장치를 상세히 나타낸 블록도이다.
도 3에서 SIE 장치(270)는 복합 스펙트럼 계산기(301)와, 음성 판단기(303)와, 음성 레벨 계산기(305)와, 음성 평균 레벨 계산기(307)와, 스케일링 인자 계산기(309)와, HPF 특성 계산기(311)와, HPF(313)와, 합성기(315)와, 결합기(317)를 포함한다. 그리고 SIE 장치(270)는 선택적으로 스펙트럼 전처리부(330)와, 잡음 계산부(350)를 더 포함할 수 있다.
도 3에서 음성 신호(210)의 한 프레임은 복합 스펙트럼 계산기(301)와, 음성 판단기(303)와, 음성 레벨 계산기(305)에 입력된다. 상기 SIE 장치(270)에 입력된 프레임(x(f,t))들은 실제 음성이 존재하는 음성 프레임과 실제 음성 사이에 존재하 는 잡음(혹은 묵음) 프레임을 포함한다. 여기서 f는 프레임 카운터로 [0 내지 F-1]이고, t는 한 프레임에서 시간 인덱스 또는 샘플 카운터로 [0 내지 T-1]이다. 그리고 F는 프레임들의 총 개수이고, T는 한 프레임에서 샘플들의 개수이다.
상기 복합 스펙트럼 계산기(301)는 입력된 프레임(x(f,t))을 푸리에 변환하여 복합 스펙트럼(X(f,i))을 계산한다. 그리고 복합 스펙트럼 계산기(301)는 계산된 복합 스펙트럼(X(f,i))을 스펙트럼 전처리부(330)로 전달하는데, 만일 상기 스펙트럼 전처리부(330)가 구비되어 있지 않은 경우라면, HPF(313)로 전달한다. 여기서 i는 주파수 빈(bin) 인덱스로 [0 내지 I-1]이고, I는 주파수 빈들(bins)의 개수이다.
상기 음성 판단기(303)는 입력된 프레임(x(f,t))의 음성 활성도를 측정함으로써 상기 입력된 프레임(x(f,t))이 음성 프레임인지 판단하여, 음성 프레임인 경우 음성 레벨 평균 계산기(305)에 전달하고, 잡음 프레임인 경우 HPF(313)에 전달한다. 다른 경우 음성 판단기(303)는 입력된 프레임(x(f,t))이 음성 프레임인지의 여부를 음성 레벨 평균 계산기(305) 및 HPF(313)에게 단순히 통지한다.
상기 음성 레벨 계산기(305)는 입력된 프레임(x(f,t))에 대해 신호의 각 짧은 세그먼트(Short Segment)동안 인스턴트(Instant) 레벨(LS(f))을 계산한다.
그리고 상기 음성 평균 레벨 계산기(307)는 입력된 프레임(x(f,t))이 음성 프레임인 경우, 소정 시간 구간 동안 계산된 상기 인스턴트 레벨(LS(f))을 이용하여 음성 프레임의 음성 평균 레벨(ES(f))을 계산한다.
도 3에서 스케일링 인자(Scaling Factor) 계산기(309)는 상기 음성 평균 레 벨(ES(f))과 인스턴트 레벨(LS(f))을 비교하여 낮은(Low) 레벨의 음성 프레임과, 높은(High) 레벨의 음성 프레임의 볼륨을 증가시키기 위한 스케일링 인자(G(f))를 아래 <수학식 1>을 이용하여 계산한다.
G(f) = C * ES(f) / LS(f)
상기 <수학식 1>에서 C는 소정 상수로 요구된 SNR(Signal to Noise Ratio) 레벨이다. 상기 스케일링 인자(G(f)) 계산기(307)는 인스턴트 레벨(LS(f))이 음성 평균 레벨(ES(f)) 또는 소정의 감쇠량(attenualtion)보다 적은 경우, 스케일링 인자를 증폭 인자로 계산한다. 상기와 같이 증폭 인자로 계산하는 동작을 일반적으로 진폭압축(Amplitude Compression) 동작 이라 한다.
상기 HPF 특성 계산기(311)는 상기 스케일링 인자(G(f))를 이용하여 HPF의 진폭 특성(H(f,i))을 계산한다. 상기 HPF 특성 계산기(311)에서 이용되는 스케일링 인자(G(f))는 상기 <수학식 1>과 같이 낮은(Low) 레벨의 음성 프레임과 높은(High) 레벨의 음성 프레임의 볼륨을 증가시키도록 계산된다. 그러나 상기 낮은 레벨과 높은 레벨에서의 음성 프레임의 볼륨은 음성 명료도에 서로 다른 영향을 끼치므로 각 레벨의 주파수 대역에 따라 스케일링이 적용되어야 한다.
이에 따라 본 발명의 실시 예에서는 상기 주파수 대역에 따라 스케일링을 적용하는 방식으로 모음이 저주파에 있는 절정을 가지고 있는 동안, 음성의 명료도에 영향을 많이 끼치는 자음은 더 높은 주파수 대역에 위치함을 이용하여 스케일링을 적용한다. 즉, HPF 특성 계산기(311)는 상기 스케일링 인자(G(f))에 따라 도 4와 같이 HPF의 진폭 특성을 계산한다.
도 4는 도 3의 SIE 장치에서 스케일링 인자에 따른 HPF의 진폭 특성을 예를 들어 나타낸 도면이다.
HPF 특성 계산기(311)는 스케일링 인자(G(f))가 1보다 큰 경우, (a)와 같이 진폭이 저주파 대역에서 최소 1이고, 고주파 대역에서 최대 스케일링 인자(G(f))인 HPF의 진폭 특성(H(f,i))을 출력한다. 그리고 HPF 특성 계산기(311)는 스케일링 인자(G(f))가 1보다 작거나 같은 경우, (b)와 같이 진폭이 저주파 대역에서 최소 스케일링 인자(G(f))이고, 고주파 대역에서 최대 1인 HPF의 진폭 특성(H(f,i))을 출력한다.
다시 도 3을 참조하여 설명하면, HPF(313)는 복합 스펙트럼(X(f,i))에 대해 HPF의 진폭 특성(H(f,i))을 근거로 고역 통과 필터링을 수행하여 아래 <수학식 2>과 같은 결과를 출력한다.
Xo(f,i) = X(f,i) * H(f,i)
상기 <수학식 2>에서 Xo(f,i)는 고역 통과 필터링된 신호이다.
그리고 상기 합성기(315)는 고역 통과 필터링된 신호(Xo(f,i))를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 중첩 및 결합(overlap-and-add)방법을 이용하여 합성한다.
상기 결합기(317)는 상기 합성된 시간 영역 신호와 입력된 프레임(x(f,t))을 결합하여 명료도가 향상된 음성 신호(290)을 출력한다. 또한 결합기(317)는 사용자 의 이득(250)을 입력받은 경우, 입력받은 사용자의 이득(250)과 명료도가 향상된 음성 신호(290)를 결합한다.
한편, 도 3에서 SIE 장치(270)는 스펙트럼 전처리부(330)와, 잡음 계산부(350)를 선택적으로 구비하여 명료도가 향상된 음성 신호(290)을 출력할 수 있다.
상기 스펙트럼 전처리부(330)는 진폭 스펙트럼 계산기(331)와, 스펙트럼 엔벨로프(Envelope) 추정기(333)와, 스펙트럼 엔벨로프 보상기(335)를 포함한다.
상기 진폭 스펙트럼 계산기(331)는 상기 계산된 복합 스펙트럼(X(f,i))의 크기를 근거로 진폭 스펙트럼(A(f,i))를 아래 <수학식 3>를 이용하여 계산한다.
A(f,i) = |X(f,i)|
상기 스펙트럼 엔벨로프 추정기(335)는 상기 진폭 스펙트럼의 주파수 영역에서 필터뱅크를 이용하여 상기 진폭 스펙트럼의 스펙트럼 엔벨로프(스펙트럼의 최대 값을 저주파에서 고주파까지 연결한 포락선)를 추정한다. 이때 상기 필터뱅크에 포함된 각 필터의 필터 특성은 삼각형태이며, 상기 각 필터의 대역폭은 피치 고주파의 영향을 부드럽게 할 정도로 충분히 넓다.
상기 스펙트럼 엔벨로프 보상기(335)는 포르만트를 강조하기 위해 포르만트 대역폭의 스펙트럼을 증폭시키고, 음성 명료도를 위해 중요하지 않은 부분인 스펙트럼의 밸리(valley)를 감쇠시켜 스펙트럼 엔벨로프를 보상한다. 상기 스펙트럼 엔벨로프를 보상하는 방식은 여러 가지 방식으로 수행될 수 있으며, 그 중 하나의 방 식을 아래 도 5a 및 도 5b를 참조하여 설명하기로 한다.
도 5a는 도 3의 SIE 장치에서 추정된 스펙트럼 엔벨로프의 예를 나타낸 도면이고, 도 5b는 도 3의 SIE 장치에서 보상된 스펙트럼 엔벨로프의 예를 나타낸 도면이다.
도 5a와 같이 추정된 스펙트럼 엔벨로프에 저주파의 구성요소를 동작시킬 수 있는 기울기(Tilt)가 존재하는 경우, 스펙트럼 엔벨로프 보상기(335)는 추정된 스펙트럼 엔벨로프의 기울기를 제거하여 도 5b와 같은 기울기가 제거된 스펙트럼 엔벨로프를 생성한다. 그리고 스펙트럼 엔벨로프 보상기(335)는 상기 기울기가 제거된 스펙트럼 엔벨로프를 상기 계산된 복합 스펙트럼에 적용하여. 복합 스펙트럼의 스펙트럼 엔벨로프를 보상한다. 상기 보상된 스펙트럼 엔벨로프(Xa(f,i))의 진폭 범위는 0부터 1까지이고, 피크(Peak)들은 동일하며, 스펙트럼의 밸리들은 0에 근접한(close-to-zero) 값을 갖는다. 이에 따라 본 발명의 실시 예에 따른 상기 보상된 스펙트럼 엔벨로프(Xa(f,i))를 이용하여 밸리들을 감쇠시키고 포르만트들을 강조하여 음성의 명료도를 더 향상시킬 수 있다.
도 3에서 SIE 장치(270)에 스펙트럼 전처리부(330)가 구비되어 상기 보상된 스펙트럼 엔벨로프(Xa(f,i))를 입력받은 경우, HPF(313)는 보상된 스펙트럼 엔벨로프(Xa(f,i))에 대해, HPF의 진폭 특성(H(f,i))를 근거로 고역 통과 필터링을 수행하여 아래 <수학식 4>과 같은 결과를 출력한다.
Xo(f,i) = Xa(f,i) * H(f,i)
그리고 도 3에서 SIE 장치(270)에 선택적으로 포함될 수 있는 잡음 계산부(350)는 음성 판단기(351)와, 잡음 레벨 계산기(353)와, 잡음 평균 레벨 계산기(355)를 포함한다.
먼저, 잡음 신호(230)의 한 프레임이 잡음 판단기(351) 및 잡음 레벨 계산기(353)에 입력된다. 상기 잡음 신호(230)는 예를 들어 수신측 단말의 마이크를 통해 수집될 수 있다. 상기 잡음 판단기(351)는 입력된 잡음 프레임(n(f,t))에 음성이 존재하는지 판단하여 잡음만 존재하는 경우, 입력된 잡음 프레임을 잡음 평균 레벨 계산기(335)에 전달한다.
상기 잡음 레벨 계산기(353)는 현재 입력된 잡음 프레임에 대해 신호의 각 짧은 세그먼트 동안 인스턴트 레벨(LN(f))을 계산한다.
그리고 상기 잡음 평균 레벨 계산기(355)는 상기 잡음 프레임과 소정 시간 구간 동안 계산된 상기 인스턴트 레벨(LN(f))을 이용하여 잡음 프레임의 잡음 평균 레벨(EN(f))을 계산한다.
도 3에서 SIE 장치(270)에 잡음 계산부(350)가 구비되어 상기 잡음 평균 레벨(EN(f))을 입력받은 경우, 결합기(317)는 합성된 시간 영역 신호와 입력된 음성 프레임(X(f,t)을 결합한 후 잡음 평균 레벨(EN(f))에 따른 잡음을 제거하여 명료도가 향상된 음성 신호(290)을 출력한다.
도 6은 본 발명의 실시 예에 따른 SIE 방법을 나타낸 순서도이다. 여기에서는 스펙트럼 전처리 및 잡음에 의한 영향을 고려하지 않은 HPF 동작만을 도시하였다.
도 6의 601 단계에서 복합 스펙트럼 계산기(301)는 입력된 프레임(x(f,i))을 푸리에 변환하여 복합 스펙트럼(X(f,i))을 계산한다. 그리고 603 단계에서 음성 레벨 계산기(305)는 현재 입력된 프레임(x(f,i))에 대해 신호의 짧은 세그먼트 동안 인스턴트 레벨(LS(f))을 계산한다.
605 단계에서 음성 판단기(303)는 입력된 프레임(x(f,i))이 음성 프레임인지 판단하여 음성 프레임인 경우 607 단계로 진행하고, 잡음 프레임인 경우 613 단계로 진행한다.
상기 607 단계에서 음성 평균 레벨 계산기(607)는 상기 판단된 음성 프레임의 인스턴트 레벨(LS(f))을 이용하여 음성 프레임의 음성 평균 레벨(ES(f))을 계산한다. 그리고 609 단계에서 스케일링 인자 계산기(309)는 상기 음성 평균 레벨(ES(f))과 인스턴트 레벨(LS(f))를 비교하여 낮은 레벨의 음성 프레임과 높은 레벨의 음성 프레임의 볼륨을 증가시키기 위한 스케일링 인자(G(f))를 상기 <수학식 1>을 이용하여 계산한다.
도 3의 611 단계에서 HPF 특성 계산기(311)는 상기 스케일링 인자(G(f))를 이용하여 HPF의 진폭 특성(H(f,i))을 계산한다. 상기 613 단계에서 HPF(313)는 복합 스펙트럼(X(f,i))에 대해 HPF의 진폭 특성(H(f,i))을 근거로 고역 통과 필터링을 수행하여 상기 <수학식 2>와 같은 결과를 출력한다. 그리고 615 단계에서 합성기(315)는 고역 통과 필터링된 신호(Xo(f,i))를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 중첩 및 결합(overlap-and add) 방법을 이용하여 합성한다. 617 단계에서 결합기(317)는 상기 합성된 시간 영역 신호와 입력된 프레 임(x(f,t))을 결합하여 619 단계에서 명료도가 향상된 음성 신호를 출력한다.
이상과 같이 본 발명은 음성의 명료도에 영향을 많이 끼치는 자음이 모음보다 더 높은 주파수 대역에 위치함을 이용하여 음성 프레임의 스케일링 인자를 계산한 후, 음성 프레임의 레벨에 따라 고역 통과 필터 특성을 계산하고, HPF 특성에 따라 고역 통과 필터링을 수행하여 명료도가 향상된 음성 신호를 출력할 수 있다.
한편, 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
상기 설명한 바와 같이, 본 발명은 음성 프레임만을 선택하여 상기 음성 프레임의 스케일링 인자를 계산하고, 음성 프레임의 레벨에 따라 고역 통과 필터 특성을 계산한 후, 고역 통과 필터링을 수행하여 명료도가 향상된 음성 신호를 출력할 수 있다.

Claims (10)

  1. 이동 단말에서 음성 명료도 향상 장치에 있어서,
    입력된 음성 신호의 한 프레임을 푸리에 변환하여 복합 스펙트럼을 계산하는 복합 스펙트럼 계산기와,
    상기 입력된 프레임의 인스턴트 레벨을 계산하는 음성 레벨 계산기와,
    상기 입력된 프레임이 음성 프레임인지 판단하는 음성 판단기와,
    상기 판단 결과 음성 프레임인 경우, 상기 인스턴트 레벨을 이용하여 상기 음성 프레임의 음성 평균 레벨을 계산하는 음성 평균 레벨 계산기와,
    상기 음성 평균 레벨과 상기 인스턴트 레벨을 비교하여 스케일링 인자를 계산하는 스케일링 인자 계산기와,
    상기 스케일링 인자를 이용하여 고역 통과 필터링을 위한 진폭 특성을 계산하는 고역 통과 필터(HPF) 특성 계산기와,
    상기 복합 스펙트럼에 대해 상기 진폭 특성을 근거로 고역 통과 필터링을 수행하는 고역 통과 필터와,
    상기 고역 통과 필터링된 신호를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 합성하는 합성기와,
    상기 합성된 시간 영역 신호와 상기 입력된 프레임을 결합하여 명료도가 향상된 음성 신호를 출력하는 결합기를 포함하는 음성 명료도 향상 장치.
  2. 제 1 항에 있어서,
    상기 진폭 특성은,
    상기 스케일링 인자가 1보다 큰 경우, 저주파 대역에서 최소 1의 진폭을 가지고, 고주파 대역에서 최대 상기 스케일링 인자만큼의 진폭을 가지며,
    상기 스케일링 인자가 1보다 작거나 같은 경우, 저주파 대역에서 최소 상기스케일링 인자만큼의 진폭을 가지고, 고주파 대역에서 최대 1의 진폭을 가지는 음성 명료도 향상 장치.
  3. 제 1 항에 있어서,
    상기 복합 스펙트럼의 크기를 근거로 진폭 스펙트럼을 계산하는 진폭 스펙트럼 계산기와,
    상기 진폭 스펙트럼의 주파수 영역에서 필터뱅크를 이용하여 상기 진폭 스펙트럼의 스펙트럼 엔벨로프를 추정하는 스펙트럼 엔벨로프 추정기와,
    상기 스펙트럼 엔벨로프에서 포르만트 대역폭의 스펙트럼을 증폭시키고 스펙트럼의 밸리를 감쇠시켜 상기 스펙트럼 엔벨로프를 보상하고, 상기 보상된 스펙트럼 엔벨로프를 상기 고역 통과 필터에게 상기 복합 스펙트럼으로서 제공하는 스펙트럼 엔벨로프 보상기를 더 포함하는 음성 명료도 향상 장치.
  4. 제 1 항에 있어서,
    상기 입력된 잡음 신호의 한 프레임의 잡음 인스턴트 레벨을 계산하는 잡음 레벨 계산기와,
    상기 입력된 잡음 신호의 프레임에 잡음만 존재하는지 판단하는 잡음 판단기와,
    상기 잡음 신호의 프레임에 잡음만 존재하는 경우 상기 잡음 인스턴트 레벨을 이용하여 상기 잡음 프레임의 잡음 평균 레벨을 계산하고, 상기 명료도가 향상된 음성 신호의 상기 잡음 신호에 의한 영향을 제거하도록 상기 잡음 평균 레벨을 상기 결합기에게 제공하는 잡음 평균 레벨 계산기를 더 포함하는 음성 명료도 향상 장치.
  5. 제 1 항에 있어서,
    상기 결합기는,
    상기 결합한 명료도가 향상된 음성 신호에 사용자의 이득을 적용하여 상기 명료도가 향상된 음성 신호의 볼륨을 조정하는 음성 명료도 향상 장치.
  6. 이동 단말에서 음성 명료도 향상 방법에 있어서,
    입력된 음성 신호의 한 프레임을 푸리에 변환하여 복합 스펙트럼을 계산하는 과정과,
    상기 입력된 프레임의 인스턴트 레벨을 계산하는 과정과,
    상기 입력된 프레임이 음성 프레임인지 판단하는 과정과,
    상기 판단 결과 음성 프레임인 경우, 상기 인스턴트 레벨을 이용하여 상기 음성 프레임의 음성 평균 레벨을 계산하는 과정과,
    상기 음성 평균 레벨과 상기 인스턴트 레벨을 비교하여 스케일링 인자를 계산하는 과정과,
    상기 스케일링 인자를 이용하여 고역 통과 필터링을 위한 진폭 특성을 계산하는 과정과,
    상기 복합 스펙트럼에 대해 상기 진폭 특성을 근거로 고역 통과 필터링을 수행하는 과정과,
    상기 고역 통과 필터링된 신호를 역푸리에 변환하여 시간 영역 신호를 생성한 후, 시간 영역 신호를 합성하는 과정과,
    상기 합성된 시간 영역 신호와 상기 입력된 프레임을 결합하여 명료도가 향상된 음성 신호를 출력하는 과정을 포함하는 음성 명료도 향상 방법.
  7. 제 6 항에 있어서,
    상기 진폭 특성은,
    상기 스케일링 인자가 1보다 큰 경우, 저주파 대역에서 최소 1의 진폭을 가지고, 고주파 대역에서 최대 상기 스케일링 인자만큼의 진폭을 가지며,
    상기 스케일링 인자가 1보다 작거나 같은 경우, 저주파 대역에서 최소 상기스케일링 인자만큼의 진폭을 가지고, 고주파 대역에서 최대 1의 진폭을 가지는 음성 명료도 향상 방법.
  8. 제 6 항에 있어서,
    상기 복합 스펙트럼의 크기를 근거로 진폭 스펙트럼을 계산하는 과정과,
    상기 진폭 스펙트럼의 주파수 영역에서 필터뱅크를 이용하여 상기 진폭 스펙트럼의 스펙트럼 엔벨로프를 추정하는 과정과,
    상기 스펙트럼 엔벨로프에서 포르만트 대역폭의 스펙트럼을 증폭시키고 스펙트럼의 밸리를 감쇠시켜 상기 스펙트럼 엔벨로프를 보상하고, 상기 보상된 스펙트럼 엔벨로프를 상기 고역 통과 필터에게 상기 복합 스펙트럼으로서 제공하는 과정을 더 포함하는 음성 명료도 향상 방법.
  9. 제 6 항에 있어서,
    상기 입력된 잡음 신호의 한 프레임의 잡음 인스턴트 레벨을 계산하는 과정과,
    상기 입력된 잡음 신호의 프레임에 잡음만 존재하는지 판단하는 과정과,
    상기 잡음 신호의 프레임에 잡음만 존재하는 경우 상기 잡음 인스턴트 레벨을 이용하여 상기 잡음 프레임의 잡음 평균 레벨을 계산하고, 상기 명료도가 향상된 음성 신호의 상기 잡음 신호에 의한 영향을 제거하도록 상기 잡음 평균 레벨을 상기 결합기에게 제공하는 과정을 더 포함하는 음성 명료도 향상 방법.
  10. 제 6 항에 있어서,
    상기 결합한 명료도가 향상된 음성 신호에 사용자의 이득을 적용하여 상기 명료도가 향상된 음성 신호의 볼륨을 조정하는 과정을 더 포함하는 음성 명료도 향상 방법.
KR1020070032918A 2007-04-03 2007-04-03 이동 단말에서 음성의 명료도 향상 장치 및 방법 KR100876794B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070032918A KR100876794B1 (ko) 2007-04-03 2007-04-03 이동 단말에서 음성의 명료도 향상 장치 및 방법
US12/062,034 US8019603B2 (en) 2007-04-03 2008-04-03 Apparatus and method for enhancing speech intelligibility in a mobile terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070032918A KR100876794B1 (ko) 2007-04-03 2007-04-03 이동 단말에서 음성의 명료도 향상 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20080090002A true KR20080090002A (ko) 2008-10-08
KR100876794B1 KR100876794B1 (ko) 2009-01-09

Family

ID=39827722

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070032918A KR100876794B1 (ko) 2007-04-03 2007-04-03 이동 단말에서 음성의 명료도 향상 장치 및 방법

Country Status (2)

Country Link
US (1) US8019603B2 (ko)
KR (1) KR100876794B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110009933A (ko) * 2009-07-23 2011-01-31 삼성전자주식회사 보정필터 설정방법/장치 및 상기 방법에 의해 설정된 보정필터를 구비한 수화특성 측정장치
KR20110063001A (ko) * 2009-12-04 2011-06-10 삼성전자주식회사 잡음 환경에서 음성 신호를 강화하는 방법 및 그 장치

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101597375B1 (ko) 2007-12-21 2016-02-24 디티에스 엘엘씨 오디오 신호의 인지된 음량을 조절하기 위한 시스템
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8204742B2 (en) * 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
GB2476043B (en) * 2009-12-08 2016-10-26 Skype Decoding speech signals
KR101115559B1 (ko) * 2010-11-17 2012-03-06 연세대학교 산학협력단 통화 품질 향상 방법 및 장치
KR102060208B1 (ko) 2011-07-29 2019-12-27 디티에스 엘엘씨 적응적 음성 명료도 처리기
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
JP2018504857A (ja) 2015-02-04 2018-02-15 エティモティック・リサーチ・インコーポレーテッド 語音了解度向上システム
EP3573059B1 (en) * 2018-05-25 2021-03-31 Dolby Laboratories Licensing Corporation Dialogue enhancement based on synthesized speech
US11455984B1 (en) * 2019-10-29 2022-09-27 United Services Automobile Association (Usaa) Noise reduction in shared workspaces

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69613380D1 (de) * 1995-09-14 2001-07-19 Ericsson Inc System zur adaptiven filterung von tonsignalen zur verbesserung der sprachverständlichkeit bei umgebungsgeräuschen
JP3454190B2 (ja) * 1999-06-09 2003-10-06 三菱電機株式会社 雑音抑圧装置および方法
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7526428B2 (en) * 2003-10-06 2009-04-28 Harris Corporation System and method for noise cancellation with noise ramp tracking
JP2005202335A (ja) 2004-01-19 2005-07-28 Takayuki Arai 音声処理方法と装置及びプログラム
DE102004049457B3 (de) * 2004-10-11 2006-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110009933A (ko) * 2009-07-23 2011-01-31 삼성전자주식회사 보정필터 설정방법/장치 및 상기 방법에 의해 설정된 보정필터를 구비한 수화특성 측정장치
KR20110063001A (ko) * 2009-12-04 2011-06-10 삼성전자주식회사 잡음 환경에서 음성 신호를 강화하는 방법 및 그 장치

Also Published As

Publication number Publication date
US20080249772A1 (en) 2008-10-09
KR100876794B1 (ko) 2009-01-09
US8019603B2 (en) 2011-09-13

Similar Documents

Publication Publication Date Title
KR100876794B1 (ko) 이동 단말에서 음성의 명료도 향상 장치 및 방법
US8249861B2 (en) High frequency compression integration
US8219389B2 (en) System for improving speech intelligibility through high frequency compression
KR102060208B1 (ko) 적응적 음성 명료도 처리기
KR100726960B1 (ko) 음성 처리에서의 인위적인 대역폭 확장 방법 및 장치
US8560308B2 (en) Speech sound enhancement device utilizing ratio of the ambient to background noise
US8229106B2 (en) Apparatus and methods for enhancement of speech
JP4836720B2 (ja) ノイズサプレス装置
US7912729B2 (en) High-frequency bandwidth extension in the time domain
US8972248B2 (en) Band broadening apparatus and method
US20110188671A1 (en) Adaptive gain control based on signal-to-noise ratio for noise suppression
EP3107097B1 (en) Improved speech intelligilibility
EP1638083A1 (en) Bandwidth extension of bandlimited audio signals
EP1278185A2 (en) Method for improving noise reduction in speech transmission
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
Park et al. Improving perceptual quality of speech in a noisy environment by enhancing temporal envelope and pitch
KR20160000680A (ko) 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치
JP6098038B2 (ja) 音声補正装置、音声補正方法及び音声補正用コンピュータプログラム
Tzur et al. Sound equalization in a noisy environment
Zölzer et al. Dynamic range control
EP2709104A1 (en) Adjustment apparatus and method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20141127

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20151127

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20161129

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee