KR20050049103A - 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치 - Google Patents

포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치 Download PDF

Info

Publication number
KR20050049103A
KR20050049103A KR1020030082976A KR20030082976A KR20050049103A KR 20050049103 A KR20050049103 A KR 20050049103A KR 1020030082976 A KR1020030082976 A KR 1020030082976A KR 20030082976 A KR20030082976 A KR 20030082976A KR 20050049103 A KR20050049103 A KR 20050049103A
Authority
KR
South Korea
Prior art keywords
coefficients
signal
linear
voice
boost
Prior art date
Application number
KR1020030082976A
Other languages
English (en)
Inventor
오윤학
박해광
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020030082976A priority Critical patent/KR20050049103A/ko
Priority to US10/982,827 priority patent/US20050114119A1/en
Priority to CNB2004100911129A priority patent/CN1303586C/zh
Priority to JP2004336538A priority patent/JP2005157363A/ja
Priority to EP04105947A priority patent/EP1533791A3/en
Publication of KR20050049103A publication Critical patent/KR20050049103A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

음향구간은 그대로 둔채 다이얼로그 구간의 포만트(formant) 대역을 부스트하는 다이얼로그 인핸싱 방법 및 장치가 개시되어 있다. 본 발명은 입력 신호에 대해 선형 예측 부호화에 기반한 선형 스펙트럼 쌍 계수를 계산하고, 그 선형 스펙트럼 쌍 계수를 바탕으로 상기 입력 신호의 음성 존재 여부를 판단하고, 그 음성 존재 여부에 따라 상기 선형 스펙트럼 쌍 계수로부터 포만트 대역을 추출하여 부스트한다.

Description

포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치{Method and apparatus for enhancing dialog using formant}
본 발명은 다이얼로그 인핸싱(dialog enhancing) 시스템에 관한 것이며, 특히 음향구간은 그대로 둔채 다이얼로그 구간의 포만트(formant) 대역을 부스트하는 다이얼로그 인핸싱 방법 및 장치에 관한 것이다.
통상적으로 다이얼로그 인핸싱 시스템은 주변 소리(음향 또는 잡음)에 의해 저하된 다이얼로그의 명료도(intelligibility)를 향상시킨다. 종래의 다이얼로그 인핸싱 시스템은 음성의 볼륨만을 증가시키기 위해 이퀄라이져, 클리핑 회로들을 사용하였다. 그러나 이퀄라이져 또는 클리핑 회로들은 다이얼로그 뿐만 아니라 주변 소리 까지 증폭시켜버리는 문제점이 있다.
이러한 문제점을 해결하기 위한 종래의 다이얼로그 인핸싱 시스템은 미국 특허 US 5,459,813(U.S. App. No. 82,128 filed 23 Jun 1993 to Klayman and entitled PUBLIC ADDRESS INTELLIGIBILITY SYSTEM)에 제시되어 있다.
종래 기술은 도 1에 도시된바와 같이 유성음/무성음 판단부(90)와 스펙트럼 분석부(42), VCA부(50), 결합부(60), 합성부(108)로 구성된다.
도 1을 참조하면, 유성음/무성음 판단부(90)는 입력 신호에 대해 로우패스필터로 유성음인지 무성음인지를 판단한다. 스펙트럼 분석부(42)는 30개의 필터 뱅크를 구비하며, 입력 신호의 주파수 성분을 분석하여 포만트 대역을 결정한다. VCA부(50)는 유성음/무성음 판단부(90)에서 판단된 유성음/무성음에 따라 이득 테이블에 저장된 이득을 포만트 대역에 적용하여 진폭을 조절한다. 결합부(60)는 VCA부(50)에서 진폭이 조절된 포만트 대역과 다른 대역의 주파수 성분을 결합한다.
이와 같은 종래의 다이얼로그 인핸싱 시스템은 스펙트럼 분석부(42)에서 주파수 분석을 위해 필터 뱅크를 사용하므로 많은 계산량을 필요로 할 뿐만 아니라 VCA부(50)에서 포만트 대역의 이득을 조절하므로 음성 신호의 엔빌로프를 왜곡하여 음색이 바뀌게되는 단점이 있다.
본 발명이 이루고자하는 기술적 과제는 LSP 계수에 근거한 음성 구간의 존재 여부에 따라 포만트 대역을 인핸싱시킴으로써 음향의 크기는 그대로 둔채 다이얼로그만 인핸스되는 다이얼로그 인핸싱 방법 및 장치를 제공하는 데 있다.
상기의 기술적 과제를 해결하기 위하여, 본 발명은
(a) 입력 신호에 대해 선형 예측 부호화에 기반한 선형 스펙트럼 쌍 계수를 계산하는 과정;
(b) 상기 계산된 선형 스펙트럼 쌍 계수를 바탕으로 상기 입력 신호의 음성 존재 여부를 판단하는 과정; 및
(c) 상기 음성 존재 여부에 따라 상기 선형 스펙트럼 쌍 계수로부터 포만트 대역을 추출하여 부스트하는 과정을 포함하는 것을 특징으로 한다.
상기의 다른 기술적 과제를 해결하기 위하여, 본 발명은
(a) 좌, 우 채널의 입력 신호를 합성하는 과정;
(b) 상기 합성된 신호를 다운 샘플링하여 선형 예측 부호에 기반한 스펙트럼 파라메터를 추출하는 과정;
(c) 상기 선형 스펙트럼 쌍 계수의 근접도에 따라 음성 존재 여부를 판단하는 과정;
(d) 상기 음성 존재 여부에 따라 상기 선형 스펙트럼 쌍 계수로부터 복수개의 포만트 대역을 추출하는 과정;
(e) 상기 복수개 포만트 대역 각각의 센터 주파수에 일정한 크기의 레벨을 갖는 복수개 대역의 부스트 필터 계수를 생성하는 과정; 및
(f) 상기 입력되는 좌, 우 채널의 신호에 대해 음성이 존재하면 상기 복수개 대역의 부스트 필터 계수를 바탕으로 필터링하는 과정을 포함하는 것을 특징으로한다.
상기의 또 다른 기술적 과제를 해결하기 위하여, 본 발명은 다이얼로그 인핸싱 장치에 있어서,
신호로부터 선형 예측 부호화에 근거한 선형 스펙트럼 쌍계수를 계산하여 복수개 포만트 대역을 추출하고, 그 복수개 포만트 대역의 일정한 레벨에 해당하는 부스트 필터 계수를 추출하고, 상기 선형 스펙트럼 쌍 계수의 근접도를 바탕으로 신호의 음성 여부를 결정하는 부스트 필터 계수 추출 수단; 및
상기 부스트 필터 계수 추출 수단에서 결정된 신호의 음성 여부에 따라 상기 부스트 필터 계수를 바탕으로 상기 음성 부분의 포만트 대역을 인핸스시키는 신호 처리 수단을 포함하며, 상기 부스트 필터 계수 추출 수단은
입력 신호를 소정배수로 다운 샘플링하는 다운 샘플링부;
상기 다운 샘플링부에서 다운 샘플링된 신호에 대해 선형 예측 부호화 계수를 추출하는 LPC 추출부;
상기 LPC 추출부에서 추출된 선형 예측 부호화 계수를 라인 스펙트럼 쌍계수로 변환하는 LSP변환부;
상기 LSP 변환부의 라인 스펙트럼 쌍 계수의 근접도와 임계치와 비교하여 음성 여부를 결정하는 음성 영역 결정부; 및
상기 LSP 변환부의 라인 스펙트럼 쌍계수로부터 복수개 포만트의 센터 주파수를 계산하고, 그 복수개 포만트의 센터 주파수로부터 일정한 부스트 이득을 갖는 부스트 필터 계수를 생성하는 부스트 필터 계수 추출부를 구비하는 것을 특징으로 한다.
이하 첨부된 도면을 참조로하여 본 발명의 바람직한 실시예를 설명하기로 한다.
도 2는 본 발명에 따른 다이얼로그 인핸싱 장치를 보이는 전체 블록도이다.
도 2를 참조하면, 신호 결합부(210)는 좌(L)채널, 우(R) 채널로 입력되는 신호를 결합한다. 이때 좌(L)채널, 우(R) 채널 신호에는 음성 신호와 주변 소리(음향 또는 잡음)이 섞여 있다.
부스트 필터 계수 추출부(220)는 결합된 신호로부터 선형 예측 부호화(LPC)와 선형 스펙트럼 쌍(LSP)계수를 계산하여 포만트 대역을 추출하고, 그 포만트 대역으로부터 부스트 필터 계수를 추출하며, 또한 선형 스펙트럼 쌍(LSP)계수의 근접도를 바탕으로 입력 신호의 음성 존재 여부를 판단하여 입력 신호의 부스트 여부를 선택하는 인핸싱 선택 모드를 발생한다.
제1신호처리부(230)는 부스트 필터 계수 추출부(220)에서 추출된 부스트 필터 계수를 적용한 4개 밴드의 부스트 필터를 구비하며, 인핸싱 선택 모드에 따라 입력되는 좌(L) 신호에 대해 4개 밴드의 부스트 필터를 통과 시켜 인핸스시킨다.
제2신호처리부(240)는 부스트 필터 계수 추출부(220)에서 추출된 부스트 필터 계수를 적용한 4개 밴드의 부스트 필터를 구비하며, 인핸싱 선택 모드에 따라 입력되는 우(L) 신호에 대해 4개 밴드의 부스트 필터를 통과 시켜 인핸스시킨다.
도 3은 도 2의 신호 결합부(210)의 상세도이다.
도 3을 참조하면, 다이얼로그 성분은 음향 성분에 비해 좌(L)/우(R) 채널에 균일하게 존재한다. 따라서 좌(L)/우(R) 채널의 신호 각각은 제1곱셈기(310) 및 제2곱셈기(320)를 통해 0.5배씩 곱해진다. 이어서, 좌(L)/우(R) 채널의 신호 각각은 가산기(330)를 통해 가산된다.
도 4는 도 2의 부스트 필터 계수 추출부(220)의 상세도이다.
도 4를 참조하면, 다이얼로그 성분은 4kHz 이내에 주요 주파수 성분을 갖는다. 다운 샘플링부(420)는 결합된 신호에 대해 샘플링 주파수 44.1KHz의 5배다운 샘플링(down sampling)을 수행한다(420 과정).
LPC 추출부(430)는 다운 샘플링부(420)에서 다운 샘플링된 신호에 대해 음성 성분의 스펙트럼 엔빌로프를 표현하기 위해 선형 예측 부호화(Liner Prediction Coding:LPC)계수를 추출한다. 이때 음성 성분의 스펙트럼에는 4kHz 이내에 4개의 포만트가 존재한다.
LSP변환부(440)는 LPC 추출부(430)에서 추출된 LPC 계수를 라인 스펙트럼 쌍(Line Spectrum Pair:LSP)계수로 변환한다. 이때 2개의 LSP 게수는 하나의 포만트를 나타낸다. 또한 포만트가 샤프(sharp)하고 높은 크기를 가질수록 2개의 LSP 계수의 간격은 좁아진다.
음성 결정부(450)는 LSP 변환부(440)의 LSP 간격 정보를 이용하여 일정한 임계치와 비교하여 음성 존재 여부를 결정한다. 즉, 음성 결정부(450)는 LSP 간격이 임계치보다 클 경우 음성이 아니라고 판단하여 바이패스 모드 신호를 발생하며, LSP 간격이 임계치보다 적을 경우 음성으로 판단하여 부스트 필터링 모드 신호를 발생한다.
부스트 필터 계수 생성부(640)는 LSP 변환부(440)의 LSP 계수로부터 제1,2,3,4 포만트의 센터 주파수를 계산하고, 그 제1,2,3,4 포만트의 센터 주파수로부터 일정한 부스트 이득을 갖는 부스트 필터 계수를 생성한다.
도 5는 본 발명에 따른 다이얼로그 인핸싱 방법을 보이는 흐름도이다.
먼저, 좌 채널, 우채널로 입력되는 신호를 합성한다(510 과정). 이때 좌 채널, 우 채널의 신호는 센터 신호를 포함한다.
따라서 좌(L)채널, 우(R) 채널 신호는 L = Lt + Ct, R = Rt + Ct 로 나타낼 수 있다. 여기서 Lt 는 순수한 L 채널 신호(true L), Rt 는 순수한 R 채널 신호(true )을 나타낸다. 또한 Ct는 순수한 C 성분을 의미한다. 따라서 입력되는 신호(Xinput)는 Xinput = 0.5*Lt + 0.5*Rt + Ct 로 타나낼 수 있다. 여기서 Lt = Rt 인 경우는 존재하지 않는다.
이때 음성 신호를 주파수 영역에서 살펴보면, 대부분의 주파수 성분은 6kHz이내에 존재하며 몇 개의 주파수 대역 성분이 다른 부분보다 지배적으로 나타난다. 음성 포만트(formant)는 주파수 영역에서 다른 대역보다 지배적인 대역 부분에 해당된다. 톨상 음성은 4개 정도의 포만트가 관측된다. 또한 포만트는 대략 1kHz당 하나씩 위치한다. 따라서 제 1, 2, 3, 4 포만트는 4kHz이하에 존재한다. 이에 따라 합성된 신호는 계산량을 감축하기 위해 샘플링 주파수 44.1KHz의 5배 다운 샘플링(down sampling)을 수행한다(520 과정).
이어서, 샘플링된 신호는 선형 예측 부호화(Liner Prediction Coding:LPC)를 이용하여 선형 예측 부호화 계수를 추출한다(530 과정). 이때 선형 예측 부호화(Linear Prediction Coding:LPC)방법은 음성발생기관중에서 성도(vocal tract)의 특성을 전극(all-pole)구조를 갖는 디지털 필터로 모델링하는 것으로서, 음성신호가 10 ~ 20ms 정도의 단구간에서 스테이셔너리(stationary)하다는 가정 하에 이 구간의 음성 신호로부터 디지털 필터의 계수들을 추정하는 것이다. 이때 신호(S(n))는 수학 식 1과 같이 나타낼 수 있다.
여기서 αi 는 성도를 모델링한 선형 필터 계수이며, G는 이득이며, u(n)은 여기(excitation) 신호이다.
이 선형 필터의 계수들은 단구간 음성신호의 주파수 특성을 표현하며, 특히 음성학적으로 의미 있는 특징인 성도의 공명주파수(formant)에 관한 정보를 잘 나타내 준다.
LPC 계수는 일반적으로 자기 상관 계수(autocorrelation coefficient)를 이용한 더빈(Durbin)의 방법을 이용하여 수학 식 2 ∼ 수학 식8과 같이 계산된다.
여기서, E0 는 입력 신호의 에너지이며, r(0)는 자기 상관 계수의 첫 번째 값이다.
여기서, ki 는 i번째 반사(reflection) 계수이며, r(i)는 i번째 자기 상관 계수이다. 따라서 선형 필터 계수는 수학 식4 및 5와 같이 계산된다.
여기서 자기 상관 계수 r(m)은 수학 식 7과 같이 미리 구해놓는다.
여기서 s(n)은 음성 신호이다.
결국, LPC 계수(LPC coefficient)는 최종적으로 수학 식 8과 같이 나타낼 수 있다.
이어서, 음성 신호의 주파수 스펙트럼 정보를 나타내기 위해서 선형예측 부호화 계수를 기반으로 라인 스펙트럼 쌍(Line Spectrum Pair:LSP)계수를 추출한다(540 과정). 라인 스펙트럼 쌍(Line Spectrum Pair:LSP)는 도 6에서 도시된 바와 같이 p개의 불연속적인 주파수 분포를 통해 음성의 스펙트럼 포락선을 표현한다. 즉, LSP는 선형 예측 기반의 계수를 이용하여 선형 예측 부호화 모델로부터 구해지며, 이타쿠라(Itakura)에 의해 선형 예측 부호화 계수의 다른 표현 형태로써 제안되었다.
수학 식 1에서 나타낸 바와 같이 음성(S(n))은 구강 구조를 모델링한 필터 전달함수 H(z) =1/A(z) 로 나타낼 수 있다. 여기서 A(z)는 수학 식 9와 같다.
여기서 {ak}는 p 차의 LPC 계수를 나타낸다.
A(z)를 이용하여 LSP를 정의할 수 있는데, 이를 위해 수학 식10 및 수학 식11의 두 다항식을 정의한다.
이렇게 정의된 두 다항식 P(z), Q(z)의 근을 LSP로 정의한다.
또한 LPC 계수와 LSP 계수는 상호 변환 가능(reversible)하다. 즉, LSP는 LPC로부터 구해질 수 있으며, 반대로 LSP 계수로부터 LPC 계수를 구할 수 있다.
또한 다항식 P(z)는 우함수(even function)이고 다항식 Q(z)는 기함수(odd function)이므로 전력 스펙트럼(power spectrum) 는 수학 식12와 같이 나타낼 수 있다.
수학 식12를 통해 A(z)의 근과 다항식 P(z), Q(z)의 근이 밀접하게 관련되어 있음을 알 수 있다. 즉, 2개 혹은 3개의 LSP 주파수가 모여 포만트 주파수( formant frequency)를 나타낸다. 또한 LSP의 선쌍(line pair)의 근접도에 따라 대역폭(bandwidth)을 표현할 수 있다. 즉, 도 6을 참조하여 설명하면 실선과 점선의 간격으로 나타내는 근접도가 높을수록 대역폭이 좁으며 높은 크기의 포만트(formant)를 나타낸다.
이어서, 선형 스펙트럼 쌍 계수를 바탕으로 음성 존재 여부를 판단한다(540 과정). 일반적으로 음성의 경우 포만트(formant)는 좁은 대역폭과 높은 크기(amplitude)를 가진다. 그러므로 포만트를 나타내는 LSP 계수의 근접도로부터 음성의 존재 여부를 판단한다(550 과정). 즉, LSP 계수의 근접도가 임계치보다 클 경우 음성 영역이 아니라고 판단하고, LSP 계수의 근접도가 임계치보다 적을 경우 음성 영역으로 판단한다.
이때 LSP의 근접도로부터 음성이 존재하지 않은 것으로 결정되면(560 과정) 입력 스테레오 신호가 그대로 바이패스(Bypass)된다(582 과정).
반면에 LSP의 근접도로부터 음성이 존재하는 것으로 결정되면(560 과정) 다음과 같이 음성의 포만트 대역을 부트시키는 과정(572, 574, 576 과정)을 수행하게 된다.
즉, 입력 신호에서 음성이 존재한다고 판단되면 LSP 파라메타로부터 제 1, 2, 3, 4 포만트의 센터 주파수를 결정한다(472 과정).
다음으로 제 1, 2, 3, 4 포만트의 센터 주파수에서 일정한 크기의 부스트 레벨(boost level)을 갖는 4개 밴드의 부스트 필터 계수를 구한다(574 과정). 이때 부스트 레벨은 음성 신호의 스펙트럼 엔빌로프(envelope)가 변하지 않도록 각 포만트에 대해 동일한 크기를 가진다. 일실시예로, 부스트 레벨은 5 dB 에서 10dB 까지로 가변적이다.
다음으로 입력 스테레오 신호는 부스트 필터 계수를 적용한 4개 밴드의 부스트 필터를 통과한다. 도 7은 제1, 2, 3, 4 포만트 대역(710, 720, 730, 740)마다 일정한 부스트 게인을 갖는 신호의 LPC 스펙트럼을 도시한다.
결국, 도 7에서 도시된바와 같이 입력 스테레오 신호는 4개 밴드의 부스트 필터를 통과함으로써 음성 부분이 향상된다.
본 발명은 상술한 실시예에 한정되지 않으며, 본 발명의 사상내에서 당업자에 의한 변형이 가능함은 물론이다.
또한 본 발명은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
상술한 바와 같이 본 발명에 의하면, LPC 계수를 이용하여 포만트를 추정함으로써 음성 검출/인핸싱에 대한 계산량을 줄일 수 있다. 또한 음성 신호의 제1,2,3,4 포만트 대역에 일정한 이득을 설정함으로써 음성 신호의 스펙트럼의 엔빌로프를 왜곡시키지 않고 이로 인해 음색이 바뀌지 않는 장점이 있다.
도 1은 종래의 다이얼로그 인핸싱 시스템의 전체 블록도이다.
도 2는 본 발명에 따른 다이얼로그 인핸싱 장치를 보이는 전체 블록도이다.
도 3은 도 2의 신호 결합부의 상세도이다.
도 4는 도 2의 부스트 필터 계수 추출부의 상세도이다.
도 5는 본 발명에 따른 다이얼로그 인핸싱 방법을 보이는 흐름도이다.
도 6은 p개의 불연속적인 주파수 분포를 통한 음성의 스펙트럼 포락선을 도시한 것이다.
도 7은 본 발명에 따른 부스트 필터를 통과한 음성의 스펙트럼 포락선을 도시한 것이다.

Claims (12)

  1. (a) 입력 신호에 대해 선형 예측 부호화에 기반한 선형 스펙트럼 쌍 계수를 계산하는 과정;
    (b) 상기 계산된 선형 스펙트럼 쌍 계수를 바탕으로 상기 입력 신호의 음성 존재 여부를 판단하는 과정; 및
    (c) 상기 음성 존재 여부에 따라 상기 선형 스펙트럼 쌍 계수로부터 포만트 대역을 추출하여 부스트하는 과정을 포함하는 다이얼로그 인핸싱 방법.
  2. 제1항에 있어서, 상기 (a) 과정은
    (a-1) 입력 신호에 선형 예측 부호화 모델을 적용하여 선형 예측 부호화 계수를 추출하는 과정; 및
    (a-2) 상기 선형 예측 부호화 계수를 소정의 선형 예측 부호화 모델을 통해 선형 스펙트럼 쌍 계수로 변환하는 과정을 포함하는 것을 특징으로 하는 다이얼로그 인핸싱 방법.
  3. 제1항에 있어서, 상기 (b) 과정은 상기 선형 스펙트럼 쌍 계수의 근접도가 임계치보다 클 경우 음성으로 판단하고, 상기 선형 스펙트럼 쌍 계수의 근접도가 임계치보다 적을 경우 비음성으로 판단하는 과정임을 특징으로 하는 다이얼로그 인핸싱 방법.
  4. 제1항에 있어서, 상기 (c) 과정은
    (c-1) 신호에서 음성이 있는 것으로 판단하면 상기 선형 스펙트럼 쌍 계수로부터 복수개 포만트 각각의 센터 주파수를 결정하는 과정;
    (c-2) 상기 복수개 포만트 각각의 센터 주파수에서 부스트 레벨을 갖는 부스트 필터 계수를 생성하는 과정; 및
    (c-3) 상기 부스트 필터 계수에 따라 신호의 복수개 포만트 대역을 부스트하는 과정을 포함하는 것을 특징으로 하는 다이얼로그 인핸싱 방법.
  5. 제4항에 있어서, 상기 부스트 레벨은 각 포만트에 대해 동일한 크기로 설정됨을 특징으로 하는 다이얼로그 인핸싱 방법.
  6. 제4항에 있어서, 상기 신호가 비음성으로 판단되면 그 입력 신호를 바이패스하는 과정을 더 포함하는 것을 특징으로 하는 다이얼로그 인핸싱 방법.
  7. (a) 좌, 우 채널의 입력 신호를 합성하는 과정;
    (b) 상기 합성된 신호를 다운 샘플링하여 선형 예측 부호에 기반한 스펙트럼 파라메터를 추출하는 과정;
    (c) 상기 선형 스펙트럼 쌍 계수의 근접도에 따라 음성 존재 여부를 판단하는 과정;
    (d) 상기 음성 존재 여부에 따라 상기 선형 스펙트럼 쌍 계수로부터 복수개의 포만트 대역을 추출하는 과정;
    (e) 상기 복수개 포만트 대역 각각의 센터 주파수에 일정한 크기의 레벨을 갖는 복수개 대역의 부스트 필터 계수를 생성하는 과정; 및
    (f) 상기 입력되는 좌, 우 채널의 신호에 대해 음성이 존재하면 상기 복수개 대역의 부스트 필터 계수를 바탕으로 필터링하는 과정을 포함하는 다이얼로그 인핸싱 방법.
  8. 다이얼로그 인핸싱 장치에 있어서,
    신호로부터 선형 예측 부호화에 근거한 선형 스펙트럼 쌍계수를 계산하여 복수개 포만트 대역을 추출하고, 그 복수개 포만트 대역의 일정한 레벨에 해당하는 부스트 필터 계수를 추출하고, 상기 선형 스펙트럼 쌍 계수의 근접도를 바탕으로 신호의 음성 여부를 결정하는 부스트 필터 계수 추출 수단; 및
    상기 부스트 필터 계수 추출 수단에서 결정된 신호의 음성 여부에 따라 상기 부스트 필터 계수를 바탕으로 상기 음성 부분의 포만트 대역을 인핸스시키는 신호 처리 수단을 포함하는 다이얼로그 인핸싱 장치.
  9. 제8항에 있어서, 좌채널, 우채널로 입력되는 신호를 결합여 상기 부스트 필터 계수 추출부에 출력하는 신호 결합 수단을 더 포함하는 다이얼로그 인핸싱 장치.
  10. 제8항에 있어서, 상기 부스트 필터 계수 추출 수단은
    입력 신호를 소정배수로 다운 샘플링하는 다운 샘플링부;
    상기 다운 샘플링부에서 다운 샘플링된 신호에 대해 선형 예측 부호화 계수를 추출하는 LPC 추출부;
    상기 LPC 추출부에서 추출된 선형 예측 부호화 계수를 라인 스펙트럼 쌍계수로 변환하는 LSP변환부;
    상기 LSP 변환부의 라인 스펙트럼 쌍 계수의 근접도와 임계치와 비교하여 음성 여부를 결정하는 음성 영역 결정부; 및
    상기 LSP 변환부의 라인 스펙트럼 쌍계수로부터 복수개 포만트의 센터 주파수를 계산하고, 그 복수개 포만트의 센터 주파수로부터 일정한 부스트 이득을 갖는 부스트 필터 계수를 생성하는 부스트 필터 계수 추출부를 구비하는 것을 특징으로 하는 다이얼로그 인핸싱 장치.
  11. 제10항에 있어서, 상기 음성 영역 결정부는 LSP 간격이 임계치보다 클 경우 비음성으로 판단하여 바이패스 모드 신호를 발생하며, LSP 간격이 임계치보다 적을 경우 음성으로 판단하여 부스트 필터링 모드 신호를 발생하는 것임을 특징으로 하는 다이얼로그 인핸싱 장치.
  12. 제8항에 있어서, 상기 신호 처리 수단은 상기 부스트 필터 계수 추출 수단에서 추출된 부스트 필터 계수를 적용한 4개 밴드의 부스트 필터를 구비하는 것을 특징으로 하는 다이얼로그 인핸싱 장치.
KR1020030082976A 2003-11-21 2003-11-21 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치 KR20050049103A (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020030082976A KR20050049103A (ko) 2003-11-21 2003-11-21 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
US10/982,827 US20050114119A1 (en) 2003-11-21 2004-11-08 Method of and apparatus for enhancing dialog using formants
CNB2004100911129A CN1303586C (zh) 2003-11-21 2004-11-18 使用共振峰增强对话的方法和装置
JP2004336538A JP2005157363A (ja) 2003-11-21 2004-11-19 フォルマント帯域を利用したダイアログエンハンシング方法及び装置
EP04105947A EP1533791A3 (en) 2003-11-21 2004-11-19 Voice/unvoice determination and dialogue enhancement

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030082976A KR20050049103A (ko) 2003-11-21 2003-11-21 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20050049103A true KR20050049103A (ko) 2005-05-25

Family

ID=34431806

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030082976A KR20050049103A (ko) 2003-11-21 2003-11-21 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치

Country Status (5)

Country Link
US (1) US20050114119A1 (ko)
EP (1) EP1533791A3 (ko)
JP (1) JP2005157363A (ko)
KR (1) KR20050049103A (ko)
CN (1) CN1303586C (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051464A (zh) 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
US8725499B2 (en) 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
TWI467979B (zh) * 2006-07-31 2015-01-01 Qualcomm Inc 用於信號改變偵測之系統、方法及裝置
CN101067929B (zh) * 2007-06-05 2011-04-20 南京大学 使用共振峰增强提取话音共振峰轨迹的方法
WO2013019562A2 (en) * 2011-07-29 2013-02-07 Dts Llc. Adaptive voice intelligibility processor
WO2012159370A1 (zh) * 2011-08-05 2012-11-29 华为技术有限公司 语音增强方法和设备
JP5590021B2 (ja) * 2011-12-28 2014-09-17 ヤマハ株式会社 音声明瞭化装置
CN102779527B (zh) * 2012-08-07 2014-05-28 无锡成电科大科技发展有限公司 基于窗函数共振峰增强的语音增强方法
CN114566183A (zh) 2013-04-05 2022-05-31 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
CN104143337B (zh) 2014-01-08 2015-12-09 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置
JP2015135267A (ja) * 2014-01-17 2015-07-27 株式会社リコー 電流センサ
RU2701055C2 (ru) * 2014-10-02 2019-09-24 Долби Интернешнл Аб Способ декодирования и декодер для усиления диалога
CN106409287B (zh) * 2016-12-12 2019-12-13 天津大学 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法
US11363147B2 (en) 2018-09-25 2022-06-14 Sorenson Ip Holdings, Llc Receive-path signal gain operations
CN109410971B (zh) * 2018-11-13 2021-08-31 无锡冰河计算机科技发展有限公司 一种美化声音的方法和装置
WO2021128003A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种声纹同一性鉴定方法和相关装置
CN112820277B (zh) * 2021-01-06 2023-08-25 网易(杭州)网络有限公司 语音识别服务定制方法、介质、装置和计算设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3180936A (en) * 1960-12-01 1965-04-27 Bell Telephone Labor Inc Apparatus for suppressing noise and distortion in communication signals
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
JP2564821B2 (ja) * 1987-04-20 1996-12-18 日本電気株式会社 音声判定検出装置
CA2056110C (en) * 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
EP0683916B1 (en) * 1993-02-12 1999-08-11 BRITISH TELECOMMUNICATIONS public limited company Noise reduction
FR2720850B1 (fr) * 1994-06-03 1996-08-14 Matra Communication Procédé de codage de parole à prédiction linéaire.
JPH09230896A (ja) * 1996-02-28 1997-09-05 Sony Corp 音声合成装置
GB9714001D0 (en) * 1997-07-02 1997-09-10 Simoco Europ Limited Method and apparatus for speech enhancement in a speech communication system
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US6463410B1 (en) * 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
WO2001033548A1 (fr) * 1999-10-29 2001-05-10 Fujitsu Limited Dispositif et procede de reglage du debit dans un systeme de codage de la parole a debit variable
EP1199711A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion

Also Published As

Publication number Publication date
CN1303586C (zh) 2007-03-07
EP1533791A3 (en) 2008-04-23
EP1533791A2 (en) 2005-05-25
US20050114119A1 (en) 2005-05-26
CN1619646A (zh) 2005-05-25
JP2005157363A (ja) 2005-06-16

Similar Documents

Publication Publication Date Title
US6889182B2 (en) Speech bandwidth extension
EP1252621B1 (en) System and method for modifying speech signals
KR101378696B1 (ko) 협대역 신호로부터의 상위대역 신호의 결정
KR101214684B1 (ko) 대역폭 확장 시스템에서 고-대역 에너지를 추정하기 위한 방법 및 장치
US8930184B2 (en) Signal bandwidth extending apparatus
US6336092B1 (en) Targeted vocal transformation
EP1638083B1 (en) Bandwidth extension of bandlimited audio signals
US7379866B2 (en) Simple noise suppression model
US6941263B2 (en) Frequency domain postfiltering for quality enhancement of coded speech
US20020128839A1 (en) Speech bandwidth extension
US8229738B2 (en) Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method
JP3321971B2 (ja) 音声信号処理方法
US7792672B2 (en) Method and system for the quick conversion of a voice signal
KR20050049103A (ko) 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
Ganapathy et al. Temporal envelope compensation for robust phoneme recognition using modulation spectrum
JP5148414B2 (ja) 信号帯域拡張装置
Kornagel Techniques for artificial bandwidth extension of telephone speech
JP2000122679A (ja) 音声帯域拡張方法及び装置、音声合成方法及び装置
JP4433668B2 (ja) 帯域拡張装置及び方法
JPH1138997A (ja) 雑音抑圧装置および音声の雑音除去の処理をするための処理プログラムを記録した記録媒体
WO2011029484A1 (en) Signal enhancement processing
Alcaraz Meseguer Speech analysis for automatic speech recognition
CN112201261A (zh) 基于线性滤波的频带扩展方法、装置及会议终端系统

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid