KR20010014352A - 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치 - Google Patents

음성 통신 시스템에서 음성 강화를 위한 방법 및 장치 Download PDF

Info

Publication number
KR20010014352A
KR20010014352A KR1019997012508A KR19997012508A KR20010014352A KR 20010014352 A KR20010014352 A KR 20010014352A KR 1019997012508 A KR1019997012508 A KR 1019997012508A KR 19997012508 A KR19997012508 A KR 19997012508A KR 20010014352 A KR20010014352 A KR 20010014352A
Authority
KR
South Korea
Prior art keywords
speech
voice
frequency
communication system
listener
Prior art date
Application number
KR1019997012508A
Other languages
English (en)
Inventor
챈스로버트제임스
맥로린이안빈스
Original Assignee
시모코 인터네셔널 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시모코 인터네셔널 리미티드 filed Critical 시모코 인터네셔널 리미티드
Publication of KR20010014352A publication Critical patent/KR20010014352A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Abstract

음성 통신 시스템은 음성 데이터를 수신하여 출력 음성(15)으로 사용하는 수신 유닛(14)을 포함한다. 복호화 유닛(decoding unit)에 의해 수신되는 음성의 특성은 음성이 청취자에 대한 인식도를 강화시키도록 출력되기 전에 청취자의 현재 배경 잡음의 분석에 기초하여 처리 유닛(10)에 의해 변경된다. 분석 유닛(12)은 마이크로폰(13)을 사용하여 배경 잡음의 형태 및 수준을 결정한다. 그 후, 결정 유닛(11)은 현재 수신되어 재생되는 음성이 현재의 배경 잡음 내에서 보통 수준의 청취자에게 인식될 수 있는지의 여부를 결정한다. 결정 유닛(11)이 음성이 쉽게 인식되는 것으로 결정하는 경우 어떠한 처리도 필요하지 않으므로, 처리 유닛(10)은 자신에게 전달된 음성을 변경시키지 않는다. 그러나, 결정 유닛(11)이 음성이 인식될 수 없는 것으로 결정하는 경우 처리가 필요하고, 처리 유닛(10)은 음성을 변경시켜 보다 쉽게 인식될 수 있도록 출력한다. 장치를 동작시키는 방법이 또한 기술된다. 특히 바람직한 실시예에서, 음성을 나타내는 선 스펙트럼 쌍(line spectral pair) 데이터를 변경시킴으로써 음성 특성이 변경된다.

Description

음성 통신 시스템에서 음성 강화를 위한 방법 및 장치 {METHOD AND APPARATUS FOR SPEECH ENHANCEMENT IN A SPEECH COMMUNICATION SYSTEM}
이동 전화 및 라디오와 같은 음성 통신 시스템은 차량 내부와 같이 잡음이 심한 환경 내에서 자주 사용된다. 또한, 이러한 환경 잡음은 대화 중에 달라질 수 있다. 이와 같이 달라지는 환경 잡음으로 인해 청취자는 자신의 전화 또는 라디오로부터 출력되는 음성을 인식하기가 매우 어렵다.
본 발명은 음성 통신 시스템(speech communication system)에서 음성 강화를 위한 방법 및 장치에 관한 것으로, 특히 잡음이 심한 환경 내에서 청취자가 보다 쉽게 인식할 수 있도록 음성을 강화하는 방법 및 장치에 관한 것이다.
도 1은 일반적인 CELP 코덱(generic CELP codec) 구조를 도시한 도면.
도 2는 본 발명에 따른 통상적인 음성 통신 시스템의 블록도.
도 3은 소리의 구간에 대한 주파수 스펙트럼을 예시하고, 그 소리에 대한 LSP 값의 숫자가 수직선에 붙여진 도면.
도 4는 특정 변경을 거쳐 도 3의 LSP 값으로부터 유도된 소리 구간에 대한 주파수 스펙트럼을 예시하고, 이 소리에 대해 변경된 LSP 값이 수직선에 붙여진 도면.
본 발명의 한가지 특징에 따르면, 음성 통신 시스템으로부터 이 시스템을 사용하는 청취자에게 출력되는 음성의 인식도(intelligibility)를 증가시키는 방법이 제공되고, 이 방법은 음성 통신 시스템의 현재 배경의 음향 잡음 환경(background acoustic noise environment)을 분석하는 단계; 상기 배경의 잡음 분석 결과를 사용하여 청취자가 현재 배경의 잡음 내에서 자신에게 출력되는 음성을 인식할 수 있는지의 여부를 결정하는 단계; 및 음성 통신 시스템에 의해 출력되는 음성이 현재 배경의 잡음 내에서 청취자에 대한 인식도를 증가시키도록 상기 결정에 기초하여 음성 통신 시스템에 의해 출력되는 음성의 특성을 변경하는 단계를 포함한다.
본 발명의 두 번째 특징에 따르면 음성 통신 시스템이 제공되고, 이 음성 통신 시스템은 음성 통신 시스템의 현재 배경의 음향 잡음 환경을 분석하는 수단; 상기 배경의 잡음 분석 결과를 사용하여 청취자가 현재 배경의 잡음 환경 내에서 음성 통신 시스템에 의해 출력되는 음성을 인식할 수 있는지의 여부를 결정하는 수단; 및 상기 결정 수단의 출력에 따라서 현재 배경의 잡음 내에서 청취자에 대한 인식도를 강화시키도록 음성 통신 시스템에 의해 출력되는 음성의 특성을 변경하는 수단을 포함한다.
따라서, 본 발명은 음성 통신 시스템이 사용되는 배경 잡음(즉, 청취자 근처의 외부 음향 잡음 환경)을 감시하고, 청취자가 이러한 현재 배경의 음향 잡음 내에서 보다 쉽게 인식할 수 있도록 음성 통신 시스템에 의해 출력되는 음성의 특성을 조절할 수 있다. 따라서, 잡음이 심한 환경에서 사용되는 경우, 예를 들면 이동 전화 또는 라디오의 확성기(loudspeaker) 또는 수화구(earpiece)에 의한 소리(sound)와 같은 음성 출력의 인식도가 강화된다.
또한, 본 발명이 현재 배경의 잡음을 분석하기 때문에 배경 잡음의 변화를 고려할 수 있으므로 음성을 강화할 수 있다. 따라서, 본 발명에서 배경 음향 잡음은 계속 분석되는 것이 바람직하고 음성 또한 상기 분석에 기초하여 계속 변경된다. 이로 인해 음성의 동적 강화(dynamic engancement)가 가능하고, 특히 차량에서와 같이 배경 잡음이 계속 변하고 또한 심하게 변하는 환경에서 유리하다.
배경 음향 잡음 환경은 종래 기술에서 알려진 바와 같은 여러 가지 기술에 의해 분석될 수 있다. 이 배경 음향 잡음 환경은, 예를 들면 음성 통신 시스템(이동 전화 또는 라디오 등)의 사용자 음성을 집음(pick up)하는 통상의 마이크로폰(microphone) 또는 별도의 마이크로폰을 사용하여 집음되거나 샘플링될 수 있다.
예시의 배경 잡음 분석 시스템은 (예를 들면 마이크로폰 신호에서) 사용자의 음성이 (주어진 시간 간격에서 입력 잡음 값을 모두 더한 후 소정의 임계값(threshold)과 비교하는 것과 같은, 통상의 많은 기술 중 하나를 사용하여) 검출되는 프로세스(process)일 수 있고, 음향 배경 잡음은 음성 구간(speech period)들 사이의 갭(gap) 중에 분석된다.
샘플링된 잡음은 또한 스펙트럼 내용(spectral content) 및 그 진폭을 모두 결정하도록 (아마도 선형 예측을 사용하여) 분석될 수 있다. 선형 예측 분석 결과인 선형 예측 계수(linear prediction coefficient; LPC)는 충분한 스펙트럼 정보를 포함하고, 이득 파라메터(gain parameter)는 LPC 파라메터의 상대 진폭을 절대 진폭과 관계시키는데 사용될 수 있다.
현재 배경의 잡음 내에서 음성 통신 시스템에 의해 출력되는 음성의 인식도는 보통 수준의 청취자가 현재 배경의 잡음 내에서 상기 음성을 인식할 수 있는지의 여부를 결정하는 알려진 임의의 표준 기술(즉, 상기 청취자의 음성 인식에 대한 상기 잡음의 효과를 평가하는데 적합한 임의의 기술)을 사용하여 결정될 수 있다.
바람직하게, 스펙트럼 분석 및 진폭 계수 인자(amplitude scaling factor)(이득)의 형태로 음성 및 배경 잡음을 기술하는 것은 청취자가 상기 잡음 내에서 음성을 들을 수 있는 지를 결정하는 것에 비교된다.
바람직한 실시예에서, 음성은 우선 둘 이상의 범주로 분류되고, 하나 이상의 주파수에서의 한가지 음성 범주의 진폭이 이들 주파수에서의 잡음 진폭과 비교된다.
이러한 한가지 비교 프로세스에서, 음성 내용은 초기에 비음성(non-speech), 유성음(voiced speech), 또는 무성음(unvoiced speech)으로 분류될 수 있다. 비음성이 있는 경우(아마도 단어와 단어 사이의 단절 부분) 이러한 부분의 가청도(audibility)는 중요하지 않기 때문에 무시될 수 있다.
유성음이 있는 경우 이에 대한 인식도가 결정되어야 한다. 이러한 인식도 결정은 유성음 내에 있는 하나 이상의, 또는 가장 바람직하게는 각각의 스펙트럼 피크(peak)의 진폭 및/또는 하나 이상의, 또는 가장 바람직하게는 각각의 포먼트(formant)의 진폭을 상기 피크 또는 포먼트 각각의 주파수에서의 잡음 진폭과 비교함으로써 행해지는 것이 바람직하다(종래 기술에서 알려진 바와 같이, 유성음은 다량의 정보를 전달하고 음성에 대한 스펙트럼 플롯(spectral plot) 내의 스펙트럼 피크에 대응되는 포먼트(formant)라고 불리는 가변 주파수에서 일련의 공진 피크(resonant peak)를 포함한다). 하나 이상의 피크 또는 포먼트가 고려되는 경우, 각 피크 또는 포먼트의 진폭은 각 피크 또는 포먼트의 주파수에서의 잡음 진폭과 비교되어야 한다.
음성은 임의의 포먼트 주파수 또는 스펙트럼 피크에서의 잡음 진폭, 또는 특정 수의 포먼트 또는 스펙트럼 피크 주파수에서의 잡음 진폭이 대응 포먼트 또는 스펙트럼 피크 진폭을 초과하는 경우 인식될 수 없는 것으로 결정되는 것이 가장 바람직하다.
음성에서의 스펙트럼 피크 및 포먼트의 상대 진폭과 배경 잡음과의 그러한 비교는 인식도에 대한 인간 청취자 모형에 의해 음성의 인식도를 효과적으로 결정하기 때문에, 즉 음성에 대한 인간 청취자의 실제 인식에 가깝게 모형화하는 방식으로 음성의 인식도를 평가하기 때문에 음성의 인식도에 대한 양호한 지표가 될 것이다. 잘 알려진 정신 음향 이론(psycho-acoustic theory)에 따르면, 주어진 주파수의 소리(sound)는 유사한 주파수에서 동시에 일어나는 제2의 소리에 의해 차폐될 것이고, 제2의 소리가 충분히 큰 경우 이전의 소리는 들리지 않을 것이다. 따라서, 음성의 경우 그 음성에서의 포먼트 또는 스펙트럼 피크의 주파수와 유사한 주파수를 갖는 심한 잡음에 의해 그 음성이 차폐될 것이다. 따라서 음성에서 하나 이상의 또는 각 포먼트, 또는 하나 이상의 또는 각 스펙트럼 피크의 진폭과 대응 주파수 또는 주파수들에서의 잡음 진폭의 비교는 그 포먼트(또는 이들 포먼트) 또는 스펙트럼 피크(들)의 가청도, 나아가 이 음성에 대한 인간 청취자의 인식도에 대한 양호한 지표가 될 것이다.
필요한 경우 다른 음성 분류 및 범주가 사용될 수 있다. 예를 들면, 음성이 모음 및 자음 (또는 기타 다른 언어음)으로 분류될 수 있다. 인식도 결정을 위해 하나의 분류가 사용되는 것이 바람직하다. 또한 상기 예에서와 같이, 상기 분류는 음성의 포먼트(바람직하게는 포먼트만)를 포함하는 범주로 구성되고, 이 범주는 잡음과 비교되는 것이 바람직하다. 상기 분류는 포먼트를 포함하는 범주 및 포먼트를 포함하지 않는 범주로 나눠진다.
일단 음성의 인식도가 결정되면, 음성은 이 결정에 따라 보다 쉽게 인식될 수 있도록 변경될 수 있다. 음성이 인식될 수 없는 것으로 결정되는 경우 음성 특성이 변경되고, 인식될 수 있는 것으로 결정되는 경우에는 음성 특성이 변경되지 않는 것이 바람직하다.
음성 특성을 변경하는 것은 종래 기술에서 알려진 여러 가지 방법으로 행해질 수 있다. 음성 특성 변경은 볼륨(진폭)을 증가시키는 것 또는 음성 구성요소 및 특히 음성에서의 포먼트 및/또는 스펙트럼 피크의 주파수를 변경시키는 것 및 볼륨을 증가시키고 또한 음성 구성요소 및 특히 음성에서의 포먼트 및/또는 스펙트럼 피크의 주파수를 변경시키는 것에 의해 행해지는 것이 바람직하다.
특히 이러한 바람직한 장치에서, 음성 특성은 음성 스펙트럼 플롯에서의 포먼트 및/또는 스펙트럼 피크의 위치를 조절함으로써 변경될 것이다. 이러한 변경으로 인해 인간 청취자가 음성을 보다 효과적으로 인식함으로써 음성 인식도가 특히 효과적으로 증가된다. 예를 들면, 하나 이상의 피크 또는 포먼트가 주파수에서 상향 또는 하향 이동될 수 있고, 또는 하나 이상의 피크 또는 포먼트의 진폭이 (대역폭에서의 감소에 대응하여) 증가될 수 있고, 또는 하나 이상의 피크 또는 포먼트의 대역폭이 (진폭에서의 감소에 대응하여) 증가될 수 있다.
따라서, 예를 들면 포먼트의 볼륨이 배경 잡음에도 불구하고 알아들을 수 있을 정도로 증가될 수 있다. 그러나, 이것은 어떤 상황, 특히 잡음이 심한 차량 내에서의 상황에서 음성을 인식할 수 있도록, 청취력 손실(hearing loss)을 발생하기에 충분한 음성 볼륨 수준(청취력 손실이 지속되는 경우)이 요구될 수 있기 때문에 음성 특성을 변경하는 바람직한 방식이 아닐 수 있다.
따라서, 음성 스펙트럼에서의 포먼트 또는 피크와 같은 음성 구성요소의 주파수가 조절되는 것이 바람직하다. 이것은 피크 또는 포먼트 등의 구성요소가 해당 주파수에서 들을 수 있을 정도로 잡음 수준이 낮은 주파수(즉, 이 주파수에서는 구성요소 진폭이 잡음보다 더 큼)로 구성요소를 이동시키는 것에 의해 행해지는 것이 바람직하다.
음성 특성의 변경은 배경 잡음의 분석 결과에 따라 실행되는 것이 바람직하고, 배경 잡음의 현재 또는 과거의 값에 의존한다. 잡음의 현재 값을 사용하면 직접 비교가 행해지고 음성 특성에 대한 변경이 행해지며, 잡음의 과거 값을 사용하면 예측 변화를 작성할 수가 있다. 예를 들면, 잡음 분석이 현재 들을 수 없는 포먼트가 들을 수 있는 수준으로 특정 주파수에서의 잡음 진폭을 감소시키는 것을 나타내는 경우, 음성 특성은 상기 포먼트의 주파수를 상기 특정 주파수로 변화시키도록 변경될 수 있다.
음성 특성의 실제 변경은 종래 기술에서와 같은 다수의 방법으로 실행될 수 있다. 예를 들면, 음성 신호는 포먼트의 대역폭을 좁히거나 또는 넓히기 위해 지각 오류 가중 필터(perceptual error weight filter)(CHEN, J. H., COK, E.V., LIN, Y., JAYANT, N., MIECHER, M.J.의 "A low delay CELP coder for the CCITT 16 kb/s speech coding standard"(pp830-849, IEEE J. Scl. Ateas Commun. 1992, 10. (5)에 기술됨))와 같은 적응 필터(adaptive filter)로 통과될 수 있다. 대안적으로, 진폭 피크는 무성음 부분이 음성 에너지 전체 중 보다 중요한 부분이 되도록 일부 제거될 수 있다. 이것으로 인해 음질은 저하되더라도 인식도는 증가된다.
특히 바람직한 실시예에서, 음성 특성은 음성을 나타내는 선 스펙트럼 쌍(line spectral pair; LSP) 데이터를 변경함으로써 변경된다.
종래 기술에 따르면, 선 스펙트럼 쌍은 소리의 구간에 대해 유도된 선형 예측 파라메터를 나타낸다. 소리가 음성인 경우, 음성 또는 포먼트의 공진 주파수는 선형 예측 스펙트럼에서 알 수 있다. LSP 값은 통상적으로 선형 예측 스펙트럼에서 그러한 공진 또는 포먼트의 위치에만 관련된다. 따라서, LSP 데이터는 음성을 나타내는데 사용될 수 있고, LSP 데이터를 변경함으로써 음성에서의 포먼트의 주파수 및 진폭과 같은 특성이 조절될 수 있다는 것을 알 수 있다. 이로 인해 음성 특성이 비교적 쉽게 조절되고, 음성이 청취자가 인식할 수 있도록 쉽게 변화되고, 예를 들어 적응 필터를 사용하는 경우보다 계산에 대한 부담이 훨씬 더 적어진다. 또한, 이러한 조절에 의해 음성 스펙트럼 부분은 제거되지는 않지만, 오히려 이 음성 스펙트럼 부분은 수정된다.
또한, 이동 전화 또는 현대의 디지털 라디오 시스템에서 사용되는 음성 부호화/복호화 시스템과 같은 많은 음성 통신 시스템은 음성에 대한 선형 예측 모형을 사용하고, 이러한 모형을 전송용 LSP 표현으로 변환한다. LSP 표현은 통상적으로 정보 보안 및 전송 효율을 이유로 그러한 시스템 내에서 사용된다.
따라서 본 발명의 이러한 실시예는 전송되는 LSP 정보가 음성 인식도를 강화하기 위해 수신되는 경우 음성 통신 시스템에서 변경될 수 있기 때문에 음성 전송용 LSP를 사용하는 시스템에서 특히 유리하다. 다음에 이와 같이 변경된 LSP 데이터는 선형 예측 파라메터로 재변환된 후, 음성으로 재구성되어 이전과 달리 변경된 특성을 가지는 소리로 출력된다.
음성 통신 시스템에 의해 출력되는 음성의 특성을 변화시키기 위해 이 시스템에서 음성을 나타내는 LSP를 조절하는 것은 그 자체가 장점이 될 수 있다.
따라서, 본 발명의 다른 특징에 따르면 처리되는 데이터 및 음성 통신 시스템에 의한 출력이 선 스펙트럼 쌍 데이터를 포함하는 음성 통신 시스템에서 청취자에게 출력되는 음성의 특성을 변경하는 방법은 음성 데이터 내의 선 스펙트럼 쌍 데이터를 변경하는 단계를 포함한다.
본 발명의 또 다른 특징에 따르면, 처리되는 음성 데이터가 선 스펙트럼 쌍 데이터를 포함하는 음성 통신 시스템은 청취자가 들을 수 있도록 처리된 음성의 특성을 변화시키기 위해 음성 통신 시스템에 의해 처리되는 음성 데이터 내의 선 스펙트럼 쌍 데이터를 변경하는 수단을 포함한다.
본 발명의 이러한 특징에서, 음성 데이터에서 LSP 데이터를 변경하는 것은 잡음이 심한 환경에서 듣는 경우에 출력 음성의 인식도를 강화하기 위한 목적으로 사용되는 것이 바람직하다(그러나, 청취자가 들을 수 있도록 음성의 특성을 변경하는 것(화자(話者; speaker)의 음성을 숨기기 위한 것)이 요구되는 기타 다른 상황에서 사용될 수 있다). 따라서, 본 발명의 이들 특징에는 시스템(즉, 청취자)의 배경 음향 잡음 환경의 분석에 기초한 음성 데이터 내에서 발견되는 LSP의 값을 조절하는 기술이 포함되는 것이 바람직하다. 음성에서 구해지는 포먼트와 같은 특정 주파수 영역 특징의 주파수 또는 전력 및 밴드폭은 이러한 방식으로 변경된다.
LSP 변경은 재구성된 음성에 특정 방식으로 작용하도록 설계될 수 있고, 특히 상기한 바와 같이 배경 잡음을 극복하고 음성의 인식도를 강화하도록 설계될 수 있다. 예를 들면, 포먼트와 관련되는 특정 선 스펙트럼 쌍(LSP)이 확인될 수 있고, 그 간격(또는 거리)은 또한 포먼트 대역폭을 증가시키거나 또는 감소시키기 위해 폭이 넓혀지거나 또는 좁혀질 수 있다. 대안적으로 또는 추가적으로, 선 스펙트럼 쌍은 특정 포먼트의 주파수를 증가시키거나 또는 감소시키기 위해 보다 높은 주파수 또는 보다 낮은 주파수로 이동될 수 있다.
LSP 정보는 하나 이상의 LSP(또는 LSP 선)에 값을 추가하거나 공제함으로써, 또는 음성 스펙트럼에서 하나 이상의 LSP(또는 LSP 선)을 이동시킴으로써 변경되는 것이 바람직하다. 이 값은 배경 잡음 분석에 따라서 결정될 수 있고, 각 LSP의 현재 또는 과거 값에 좌우될 수 있다. LSP 데이터의 현재 값을 사용하면 주변 잡음과의 직접 비교가 행해지고 LSP 데이터에 대한 조절이 행해지며, 과거 값을 사용하면 예측 변화가 작성될 수 있다.
특히 바람직한 이러한 장치에서, 본 발명은 음성을 한정하는 LSP(LSP 선) 집합 중 임의의 값 또는 모든 값을 수치적으로 증가시키거나 감소시키는 것을 포함한다. 따라서, 개별 LSP 또는 LSP 그룹은 하나 이상의 스펙트럼 피크 또는 포먼트를 (상향 또는 하향 중 어느 한쪽으로) 주파수 이동시키거나, 또는 하나 이상의 스펙트럼 피크 또는 포먼트의 진폭을 변화(진폭을 증가(대역폭을 감소)시키거나 또는 진폭을 감소(대역폭을 증가)시키는 것 중 어느 하나의 변화)시키도록 이동될 수 있다.
예를 들면, 둘 이상의 LSP 라인 집합의 값들 사이의 간격(및 가장 바람직하게는 한 쌍의 LSP 선들 사이의 간격)은 음성 주파수 스펙트럼에서 발견되는 (스펙트럼 피크 또는 포먼트와 같은) 주파수 특징을 좁히거나 또는 넓히기 위해 좁혀지거나 또는 넓혀질 수 있다. 대안적으로 또는 추가적으로, 둘 이상의 LSP 라인 집합의 값들(및 가장 바람직하게는 한 쌍의 LSP 선들)은 음성 주파수 스펙트럼에서 구해지는 (스펙트럼 피크 또는 포먼트와 같은) 중심 주파수의 특징을 조절하도록 증가 또는 감소, 가장 바람직하게는 (절대 값에서 또는 원형 값의 백분율로) 동일한 양에 의해 증가 또는 감소될 수 있다.
특히 바람직한 실시예에서, 선 스펙트럼 쌍은 음성 데이터에서의 특정 피크 또는 포먼트의 중심 주파수를 변화시키기 위해 주파수로 변환된다. 상기한 바와 같이, 이것은 특히 청취자가 들을 수 있도록, 예를 들어 배경 잡음을 넘어서 인식도를 증가시키도록 음성 특성을 변화시키는데 유리하다.
또한 배경 잡음의 스펙트럼 특성에서 이전의 변화를 분석하여 배경 잡음의 행동을 예측할 수 있고, LSP를 더 빠르고 보다 적절하게 조절할 수 있다. 이것은 특히 경찰차, 화재 감지기구 또는 구급차에서의 사이렌과 같은 반복성 잡음에 적용될 수 있다. 간섭성 잡음(interfering noise)이 변화되는 방식을 알게 되면 포먼트 주파수를 이동시키는 방식에 대해 결정할 수 있다.
상기한 어떠한 조절 또는 상기 모든 조절에서 청취자가 음성 통신 시스템에 의해 출력되는 음성을 보다 쉽게 인식할 수 있도록 청취자의 배경 잡음 분석에 따라서 음성 통신 시스템에 의해 출력되는 음성의 특성을 변경시키는 것이 개별적으로 사용되거나 또는 조합하여 사용될 수 있다.
본 발명은 이동 전화 및 라디오와 같은 음성 통신 시스템에 관하여 기술된다. 본 발명은, 예를 들면 이동 전화 또는 라디오에서 찾아 볼 수 있는 것과 같은 음성 복호기에서 사용되는 것이 특히 바람직하다. 그러나, 또한 음성 부호기에 의해 전송되는 사용자 입력 음성의 특성을 변경하는 것(예를 들면, 화자(speaker)의 배경 잡음을 넘어서 인식도를 증가시키는 것)이 요구되는 음성 부호기에서 사용될 수 있다(특히 LSP 변경에 관한 특정 특징에서 적용될 수 있다). 또한, 본 발명은 라디오 수신기, 텔레비전, 또는 음성을 청취자에게 방송하는 기타 다른 장치에서도 적용될 수 있다. 또한 음성의 인식도를 증가시키기 위해 특정 기준(reference)을 가지고 기술되었지만, 또한 본 발명은 음악과 같은 기타 다른 소리의 인식도를 증가시키는데 사용될 수 있다.
본 발명의 바람직한 실시예는 이하 실시예만을 통해 기술되고, 참조 도면을 참조로 하여 기술될 것이다.
본 발명은 특히 이동 전화 또는 라디오 시스템에서 사용되는 것과 같은 음성 코덱 시스템에서의 사용에 적용될 수 있다. 이러한 코덱 구조에 대한 예는 도 1에 일반적인 CELP 부호기의 형태로 도시된다.
일반적인 CELP(codebook-excited linear prediction) 구조는 1985년에 도입되었으며(예를 들면, shroeder MR, Atal BS의 "Code-excited linear prediction(CELP): high-quality speech at very low bit rates"(pp937-940, ICASSP, 1985 참조)), 이 후 많은 수정이 가해졌다.
일반적인 CELP 코덱 구조(22)는 도 1에 도시된다. 도 1에는 입력 음성(21)을 분석하여 선형 예측(LPC) 파라메터(3)를 출력하는 선형 예측 분석 유닛 또는 장치(2)가 도시된다. 선형 예측에 의해 기술될 수 없는 나머지 신호 입력은 예를 들어 음성의 이득 및 피치(pitch)를 생성하는 피치 필터, VQ 부호화 블록(4)으로 전달된다. 이들 프로세스는 본 발명에서는 중요하지 않고 상세하게는 상이한 CELP 구현들 사이에서 매우 달라지지만, 이들 프로세스는 LPC 파라메터와 함께 입력 음성을 기술하는 기타 다른 여러 가지 파라메터를 생성한다.
입력 음성을 기술하는 LPC 파라메터(3) 및 (이득 및 피치와 같은) 다른 임의의 파라메터(5)는 양자화기(quantizer; 6)에 의해 양자화된 후 역양자화기(dequantizer; 8)를 사용하여 상기 파라메터들을 역양자화하는 CELP 복호기(14)로 (전송 파라메터(7)로서) 전송된다. 그 후, 역양자화된 값들은 청취자에게 소리로서 출력될 음성(15)을 재생하는데 사용된다. (역양자화기(8)는 LPC 파라메터(3) 및 기타 다른 파라메터(5)를 재생하고, LPC 음성합성장치(synthesizer)(30)는 상기 파라메터(3, 5)를 사용하여 소리(15)로서 출력될 음성을 재생한다.)
LPC 파라메터는 대안적으로 부호기에서 양자화되기 전에 다른 형태로 변환될 수 있다(또한 역양자화 후에 LPC 계수로 재변환된다). 이러한 형태로는 로그 영역 비율(log area ratio), 편자기 상관방식(partial autocorrelation method; PARCOR)(reflection coefficients; 반사 계수) 및 선 스펙트럼 쌍 등이 있다.
사용된 LPC 파라메터의 표현과 피치 필터 및 벡터 양자화기(vertor quantizer; VQ)의 형태(또는 사용법) 사이의 차이로 인해 CELP 변형이 많아진다. 선택 가능한 작은 예로는 MELP(mixed excitation linear prediction), VSELP(variable slope excitation linear prediction), SB-CELP(sub-band CELP), LD-CELP(low delay CELP), RELP(residual excitation linear prediction), RPE-LP(residual pulse excitation linear prediction), 및 기타 다른 것들이 있다.
상기한 바와 같이, 이러한 많은 코덱에서는 LPC 파라메터가 LSP로서 전송된다.
용어 'LSP'는 Sugamura 및 Itakura의 논문(Sugamura N, Itakura F의 "Speech analysis and synthesis methods developed at ECL in NTT - from LPC to LSP -", pp199-213, Speech Communication, vol. 5, 1986)에 기술된 바와 같이 선 스펙트럼 쌍 기법을 사용하여 선형 예측 계수의 변환에 의해 생성되는 파라메터를 말한다. 선형 예측 계수 자체는 Makhoul J의 "Linear prediction: a tutorial review"(pp561-580, IEEE, vol 63, no. 4, 1975)에 기술된 것과 같은 (음성) 데이터 집합 상에서 동작하는 잘 구축된 임의의 분석 방법에 의해 생성된다.
LSP는 수학적 변형을 통해 LPC로부터 생성되므로 내용은 동일하지만 그 형태는 상이하다. LPC로부터 많은 다른 수학적 변형이 결정되지만 그 결과적인 파라메터에 있어서 본 발명에서 기술되는 것과 같이 LSP와 동일하도록 변경되는 것은 없다.
선 스펙트럼 쌍 파라메터는 선 스펙트럼 주파수로서 언급될 수 있지만, 이러한 용어는 LSP에만 독점적으로 적용되지는 않는다.
수학적으로 말하자면, LSP 파라메터는 역 선형 예측 다항식(inverse linear prediction ploynomial)의 계수를 특정하게 재배열함으로써 형성되는 두 개의 다항식의 근(root)으로서 정의될 수 있다. 이들 두 개의 다항식은 P 및 Q라고 하고, 선형 예측 계수 AP집합을 사용하여 형성되며, 다음과 같은 재귀적 관계(recursive relationship)를 가진다.
P(z-1) = AP(z-1) - Z-(P+1)AP(z)
Q(z-1) = AP(z-1) + Z-(P+1)AP(z)
다항식 P 및 Q를 해결하여 얻어지는 근은 선 스펙트럼 쌍으로 언급되는 선 스펙트럼 주파수 파라메터를 준다. 예를 들어 상기에서 언급된 Sugamura 및 Itakura의 논문에서 기술된 바와 같이, 이들 근을 결정하기 위한 방법이 많이 존재한다. 어떠한 방법을 선택하든지 간에 본 발명의 목적을 위해서는 무의미하다.
LSP 집합은 흔히 일정 비례 관계를 가진다. '기본적인' LSP 값을 참조하면 이들의 코사인 또는 사인은 또한 LSP로서 언급된다. 또한, 기본적인 LSP는 여러 가지 영역 중 하나에 존재할 수 있다. 즉, 기본적인 LSP의 최대 및 최소 값은 0과 π 사이, 0과 4000Hz(통상적인 샘플링 주파수) 사이, 또는 0과 1 등의 다른 임의의 범위 내에 있을 수 있다.
본 발명의 이해를 돕기 위해, 선 스펙트럼 쌍(LSP)에 대한 비수학적 기술이 또한 고려될 것이다. LSP는 LPC 및 반사 계수로부터 유도되기 때문에 우선 이들을 포함할 필요가 있다.
선형 예측은 미지의 시스템을 모형화하기 위해 길이가 고정된 공식을 사용하는 방법이다. 공식의 구조는 고정되지만 이 공식에 삽입될 값은 구해져야 한다. 선형 예측 분석이란 이러한 공식에 대해 가장 양호한 값들의 집합을 구하는 프로세스를 말한다. 이들 값이 선형 예측 계수이고, 이들 값의 가장 양호한 집합은 두 시스템에 대한 입력이 동일한 경우 방정식의 출력이 가장 근접하게 모형화된 시스템의 출력과 유사해지는 집합이다.
이러한 공식의 방정식이 수학적으로 재정리되는 경우 표준적인 다른 방정식에 이르게 된다. 새로운 방정식에 대한 계수는 반사 계수로 불리고 LPC 계수로부터 용이하게 구해질 수 있다.
반사 계수 방정식은 매우 쉽게 실제 시스템과 관련된다. 음성 처리에 있어서, LPC 분석은 짧은 구간의 음성을 모형화하는데 가장 양호한 파라메터를 구하려고 한다. 물리적인 용어에서, 모형은 다수의 상이한 폭을 가지나 길이는 동일한 직렬로 연결된 튜브(tube)로 이루어진다. 반사 계수는 각각 연속되는 튜브들 사이에 직접 관련되는 반사 계수로서 이러한 물리적 모형에 잘 맞는다.
공기가 튜브로 배출되는 경우 공진이 일어난다(파이프 오르간). 사람의 성도(vocal tract; 聲道)에서, 공기는 성문(glottis; 聲門)(신속하게 열리고 닫힘)에서 시작되어 성도를 통해 입으로 배출되도록 지나간다. 소리는 공진에 기인하는 성도의 형상과 매우 관련이 깊다.
LSP 파라메터는 각각 연결된 튜브 중 하나의 공진 주파수와 관련된다. 파라메터들의 반은 튜브의 소스 측이 개방된 것으로 가정하여 생성되고, 나머지 반은 폐쇄된 것으로 가정하여 생성된다. 사실상, 성문은 신속하게 열리고 닫히므로 개방된 상태 및 폐쇄된 상태 그 어느 것도 아니다. 따라서, 실제의 스펙트럼 공진은 각각 두 개의 인접하는 선 스펙트럼 주파수 사이에서 일어나고, 이들 두 개의 값은 한 쌍으로 고려된다(따라서 선 스펙트럼 쌍이라고 한다).
음성 코덱을 포함하고, 잡음이 심한 환경에서 음성의 인식도를 강화하기 위해 LSP 변경을 사용하는 음성 통신 시스템에서 본 발명의 실시예가 도 2에 도시되고, 신호 처리는 도 3 및 도 4에 도시된다. 도 2에 도시된 시스템은 도 1의 시스템과 같은 특징을 많이 가지므로 이 시스템의 동일한 특징에 대해 동일한 참조 번호가 사용된다.
LSP 변경 메커니즘은 도 2에 도시된 위치(즉, 음성 복호기(14))에서 음성 코덱(코덱은 부호화(22) 및 복호화(14) 메커니즘 양쪽 모두를 포함함) 내에서 동작할 수 있다. 음성 부호기(22)는 입력 음성(21)을 라디오 또는 기타 다른 수단이 수신 유닛(14)으로 전송하기에 적합한 압축된 파라메터(20) 집합으로 변환한다. (이러한 장치에서 선형 예측 분석기(2)에 의해 생성된 LPC 파라메터는 LPC-LSP 변환기(32)에 의해 선 스펙트럼 쌍 데이터로 변환된 후 양자화기(6)에 의해 양자화된다는 점에 유의하여야 한다.) 그 후, 수신 유닛은 전송된 데이터를 복호하여 음성(15)을 재구성한다. 예를 들면, 부호화 유닛(22)은 사무실 전화 내에 있고, 복호화 유닛(14)은 이동 전화 핸드세트(handset) 내에 있을 수 있다.
이러한 실시예에서, 복호화 유닛에 의해 수신된 LSP 정보를 포함하는 데이터에 대한 변경이 실행된다. 이러한 변경 유닛은 도 2에서 LSP 프로세서(10)로 도시된다.
LSP 처리는 청취자의 환경 내에 있는 음향 잡음 배경(16)의 정도 및 형태에 좌우된다. 도 2에 도시된 분석 유닛(12)은 마이크로폰(13)을 사용하여 집음되는 배경 잡음, 특히 청취자 주변의 실제 외부 배경의 음향 잡음의 형태 및 수준을 결정한다.
잡음 분석 시스템의 일례는 사용자 음성이 (주어진 시간 간격에서 입력 잡음 값 모두를 더한 후 임계값과 비교하는 것과 같은 많은 통상적인 기술 중 하나를 사용하여) 검출되는 프로세스일 것이고, 외부 음향 배경 잡음은 음성 구간들 사이의 갭 중에 고려된다.
그 후, 샘플링된 잡음이 분석되어 그 잡음의 스펙트럼 내용 및 진폭 모두가 결정되어야 한다. 선형 예측 분석 결과인 LPC(선형 예측 계수) 값은 충분한 스펙트럼 정보를 포함하고, 이득 파라메터는 LPC 파라메터의 상대 진폭을 절대 진폭과 관련시킬 것이다.
결정 장치 또는 유닛(11)은 복호기에 의해 현재 수신되어 이동 전화 유닛의 확성기 또는 수화구를 통해 소리로 재생되는 음성 데이터가 이동 전화 유닛(즉, 청취자)의 현재 배경 음향 잡음(16) 내에서 보통 수준의 청취자에 의해 인식되는 지의 여부를 결정한다.
결정 유닛이 음성이 쉽게 인식되는 것으로 결정하는 경우, 다음의 처리가 필요없으므로 처리 유닛(10)은 표준 음성 복호기에 의해 전달된 역양자화된 LSP 파라메터(17)를 변경하지 않고 LSP-LPC 변환기(33)로 전달한다.
한편, 결정 유닛이 음성이 인식될 수 없는 것으로 결정하는 경우 다음의 처리가 필요하고, 처리 유닛(10)은 음성 특성을 변경하기 위해 역양자화된 LSP 파라메터를 변경한 후 다음의 청취자에 대한 재생을 위해 LSP-LPC 변환기로 전달한다. 결정 유닛은 또한 음성이 곧 인식할 수 없게 되리라는 것을 예측할 수 있다.
결정 프로세스로의 입력은 스펙트럼 분석 및 진폭 계수 인자(이득) 형태로 음성 및 배경 잡음에 대해 기술된 것이다. 이 때 청취자가 그 잡음 내에서 음성을 들을 수 있는지를 결정하기 위해 음성 및 잡음이 비교되어야 한다.
비교에 의해 음성 신호의 내용은 초기에 비음성, 유성음, 또는 무성음으로 분류될 수 있다. 비음성이 존재하는 경우(아마도 단어와 단어 사이의 단절 부분) 이러한 부분의 가청도(audibility)는 중요하지 않기 때문에 강화될 필요가 없고, LSP 처리 모듈(module)은 처리를 실행하지 않도록 명령을 받을 수 있다.
유성음이 있는 경우(유성음은 포먼트라는 여러 가지 주파수에서 일련의 공진 피크를 포함함) 이 유성음의 인식도를 결정하기 위해 각 포먼트의 진폭이 그 주파수에서의 잡음 진폭과 비교된다. 임의의 포먼트 주파수에서 잡음 주파수가 포먼트 진폭을 초과하는 경우 포먼트 조절이 요구된다.
필요한 경우, 출력되는 음성의 인식도를 결정하기 위한 공지의 다른 기술이 사용될 수 있다.
LSP 처리 유닛(10)은 결정 유닛의 제어 하에 음성을 강화하도록 개별 LSP에 대해 수학 연산을 실행한다.
정확한 연산은 결정 프로세스의 방향에 의해 좌우된다. 한가지 음성 강화 기능으로 LSP 선들을 보다 유리한 위치로 이동시키는 것이 있다.
예를 들면, 포먼트 주파수 주위의 잡음 진폭의 자동 조사로 인해 아마 포먼트 주파수의 10% 상향 또는 하향 이동이 문제를 개선시킬 수 있는지가 나타날 것이다. (아마도 잡음 진폭이 포먼트 주파수보다 10% 낮게 감소되기 때문에) 상기와 같이 되는 경우, LSP 처리 블록은 적절한 LSP를 대응되는 양만큼 이동시키도록 지시를 받는다.
예를 들면 이동을 요구하는 포먼트의 위치가 600Hz인 경우, 두 개의 LSP 계수가 통상적으로 600Hz에 매우 가깝도록 양쪽에 존재한다. 10%의 하향 이동에 의해 가청도가 개선되는 경우, 이들 두 개의 LSP 파라메터의 값은 각각 그 이동을 달성하도록 0.9에 의해 곱해진다. LSP 조절 자체는 LSP 처리 블록 내로 제한된다.
다른 예와 같이, 결정 모듈이 LSP 집합으로부터 선 1 및 2를 주파수에서 10% 하향 이동시킴으로써 인식도가 개선되는 것으로 결정하는 경우, 선 1 및 2의 값은 모두 0.9의 인수로 곱해진다.
결정 모듈이 선 3을 100Hz 만큼 상향 이동시킴으로써 인식도가 개선되는 것으로 결정하는 경우, 해당 양(amount)이 선 3에 더해진다. 이러한 양은 LSP 파라메터가 Hz 단위의 값인 경우 100과 동일하거나 또는 보다 일반적으로 다음과 같은 식에 의해 결정된다.
여기에서, fs는 시스템의 샘플링 비율이고, LSP 값은 각 주파수 영역으로 제한된다.
다른 형태의 처리가 가능하지만, 이들 모두는 하나 이상의 LSP 선에 값을 추가/공제 연산(LSP 선들에 자신을 더하는 연산은 곱셈 연산과 동등한 연산임)으로 기술될 수 있다. 이 값은 결정 모듈에 의해 결정될 수 있거나 또는 각 LSP 선의 현재 또는 과거의 값에 의해 결정될 수 있다.
이러한 LSP 처리의 일례는 도 3에 예시되며, 도 3에는 소리 구간에 대한 주파수 스펙트럼이 도시되고 이러한 소리의 분석에 의해 얻어진 10개의 LSP 선들이 함께 도시된다. 따라서, 본 특정 예에서 도 3에는 도 2의 CELP 부호기(22)에서 음성(21) 분석에 의해 얻어진 소리에 대한 주파수 스펙트럼이 도시된다.
표준적인 CELP 복호기의 경우, 본 발명의 장점이 없이 동작하면 출력 음성(15)은 도 3의 데이터를 사용하여 재구성될 수 있다. 본 발명이 포함되는 경우, LSP 처리 블록(10)은 출력 음성(15)을 변화시키도록 LSP 값을 변경시킬 수 있다.
도 4의 특정 예에서, 도 3의 스펙트럼 중 어떤 LSP 값들이 변경됨으로써 새로운 LPC 계수 집합이 도 4에 도시되는 바와 같은 스펙트럼을 형성하도록 생성된다. 도 3의 원형 스펙트럼의 LSP 값을 참조하면, 다음과 같은 세 개의 동작이 실행된다.
1. 선 1과 2 사이가 더 멀어지도록 이동됨으로써 양쪽 선 사이의 간격이 증가된다(즉, 선 1의 주파수는 더 낮아지고 선 2의 주파수는 더 높아진다).
2. 선 5 및 6의 주파수가 각각 증가된다.
3. 선 10의 주파수가 증가된다.
상기한 세가지 동작으로 인해 전송되는 소리가 다음과 같은 특정 결과를 가진다.
1. 선 1 및 2는 스펙트럼 피크의 양쪽에 놓인다. 상기 두 선의 이동으로 인해 스펙트럼 피크의 진폭이 감소되고 폭이 더 넓어진다(대역폭의 증가와 동일함).
2. 선 5 및 6은 두 번째 스펙트럼 피크의 양쪽에 놓인다. 이들 두 선의 이동으로 인해 상기 피크의 주파수가 증가된다.
3. 선 10은 주파수가 상당히 증가되기 때문에 더 이상 분명하지 않은 매우 작은 스펙트럼 '범프(bump)'의 우측에 미리 놓인다.
이러한 음성 코덱의 특정 예에서, 분석 대상의 소리는 음성이다. 상기한 바와 같이, 스펙트럼 플롯에서 분명히 나타나는 스펙트럼 피크는 또한 자주 다량의 정보를 전송하는 음성의 중요한 구성요소인 포먼트에 대응될 것이다. 따라서 상기한 LSP에 의거한 조절에 의해 출력될 음성의 특성이 변화됨으로써 청취자가 인식할 수 있을 것이다. 예를 들면, 모음의 경우 스펙트럼 피크에 대응하는 선들을 적절하게 넓힘으로써 인식도가 개선되는 것을 알 수 있다.
도 2에 도시된 예는 추가로 청취자에게 재생될 음성이 인식될 수 있는지를 결정하도록 청취자의 환경 내에 존재하는 잡음을 분석한다. 청취자에게 재생될 음성이 인식될 수 없는 경우, 다음과 같은 동작 집합을 제공하기 위해 개별 LSP 또는 LSP 그룹을 이동시키는 동작에 의해 음성의 인식도를 개선하도록 본 발명에서 음성 특성이 변경된다.
1. 피크/포먼트의 주파수를 상향 이동시킨다.
2. 피크/포먼트의 주파수를 하향 이동시킨다.
3. 피크/포먼트의 진폭을 증가(대역폭을 감소)시킨다.
4. 피크/포먼트의 대역폭을 증가(진폭을 감소)시킨다.
잘 알려진 정신 음향 이론에 따르면, 주어진 주파수의 소리는 유사한 주파수에서 동시에 일어나는 제2의 소리에 의해 차폐될 것이다. 제2의 소리가 충분히 큰 경우 이전의 소리는 들리지 않을 것이다. 따라서, 음성의 경우 포먼트의 주파수와 유사한 주파수를 갖는 심한 잡음에 의해 그 음성이 차폐될 것이다. 음성을 듣기 위해서는 볼륨을 증가시키거나 또는 음성 구성요소의 주파수를 변경하여야 한다.
볼륨 변경이 상대적으로 용이하지만, 청취력 손실을 발생하기에 충분한 음성 볼륨 수준(청취력 손실이 지속되는 경우)이 어떤 상황, 특히 잡음이 심한 차량 내에서의 상황에서 음성을 인식할 수 있도록 요구될 수 있다는 점에 유의하여야 한다. 따라서, 음성 구성요소의 주파수를 변경하는 것이 바람직하다.
살펴본 바와 같이, 본 발명은 많은 현재의 표준적인 이동 전화 및 라디오 시스템, 및 이러한 시스템에서의 표준적인 음성 코덱과 결합될 수 있는 효율적인 프로세스를 통해 음향 배경 잡음에 의한 음성의 차폐를 감소시키는(따라서 인식도가 개선되는) 방법을 제공한다.
청취자의 배경 잡음 환경 분석이 정정되는 LSP 변경과 결합되는 경우 음성이 강화되고, 이러한 음성 강화로 인해 청취자가 처리된 소리를 들을 수 있는 가능성을 개선하도록 청취자에게 재생될 전송된 음성 데이터가 수신되어 조절된다. 이 기술은 청취자의 배경 음향 잡음 환경 분석에 기초한 음성 데이터 코덱 내에서 구해지는 LSP의 값을 조절한다. 수신된 음성에서 구해지는 특정 주파수 영역의 특징의 주파수 또는 전력 및 대역폭은 이러한 방식으로 변경된다.
본 발명은 음성 통신 시스템이 사용되는 배경 잡음을 감시하고, 청취자가 이러한 현재 배경의 음향 잡음 내에서 보다 쉽게 인식할 수 있도록 음성 통신 시스템에 의해 출력되는 음성의 특성을 조절할 수 있다. 따라서, 잡음이 심한 환경에서 사용되는 경우 음성 출력의 인식도가 강화된다.
또한, 본 발명이 현재 배경의 잡음을 분석하기 때문에 배경 잡음의 변화를 고려할 수 있으므로 음성을 강화할 수 있다. 따라서, 본 발명에서 배경 음향 잡음은 계속 분석되는 것이 바람직하고 음성 또한 상기 분석에 기초하여 계속 변경된다. 이로 인해 음성의 동적 강화가 가능하고, 특히 차량에서와 같이 배경 잡음이 계속 변하고 또한 심하게 변하는 환경에서 유리하다.

Claims (38)

  1. 음성 통신 시스템으로부터 이 시스템을 사용하는 청취자에게 출력되는 음성의 인식도(intelligibility)를 증가시키는 방법에 있어서,
    상기 청취자의 현재 배경의 음향 잡음 환경(background acoustic noise environment)을 분석하는 단계;
    상기 청취자에게 출력되는 음성이 상기 청취자의 현재 배경의 잡음 환경에서 상기 청취자에게 인식될 수 있는지의 여부를 상기 배경 잡음 분석 결과를 사용하여 결정하는 단계; 및
    상기 청취자의 현재 배경의 잡음 환경에서 상기 청취자에 대한 인식도를 강화하기 위해 상기 결정에 기초하여 상기 음성 통신 시스템에 의해 출력되는 음성의 특성을 변경하는 단계
    를 포함하는 음성 인식도 증가 방법.
  2. 제1항에 있어서,
    상기 출력되는 음성의 인식도가 상기 음성의 내용을 적어도 두가지 범주로 분류하고, 하나의 주파수에서의 한가지 범주에 따른 음성의 진폭을 상기 주파수에서의 상기 잡음의 진폭과 비교함으로써 결정되는 음성 인식도 증가 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 출력되는 음성의 인식도가 상기 음성의 내용을 음성 내에 포먼트(formant)를 포함하는 범주로 분류하고, 하나의 주파수에서의 포먼트 포함 음성 범주의 진폭을 상기 주파수에서의 잡음 진폭과 비교함으로써 결정되는 음성 인식도 증가 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 출력되는 음성의 인식도가 상기 음성의 내용을 비음성(non-speech), 유성음(voiced speech) 또는 무성음(unvoiced speech)으로 분류하고, 하나의 주파수에서의 유성음의 진폭을 상기 주파수에서의 잡음 진폭과 비교함으로써 결정되는 음성 인식도 증가 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 출력되는 음성의 인식도가 상기 음성의 내용을 비음성, 유성음 또는 무성음으로 분류하고, 중심 주파수를 가지는 유성음의 스펙트럼 피크(spectral peak)의 진폭을 상기 스펙트럼 피크의 중심 주파수에서의 잡음 진폭과 비교함으로써 결정되는 음성 인식도 증가 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 출력되는 음성의 인식도가 상기 음성의 내용을 비음성, 유성음 또는 무성음으로 분류하고, 중심 주파수를 가지는 유성음의 포먼트의 진폭을 상기 포먼트의 중심 주파수에서의 잡음 진폭과 비교함으로써 결정되는 음성 인식도 증가 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 음성 내의 스펙트럼 피크와 대체로 동일한 주파수에서의 상기 배경 잡음 진폭이 상기 스펙트럼 피크의 진폭을 초과하는 경우, 상기 음성이 인식될 수 없는 것으로 결정되는 음성 인식도 증가 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 음성 내의 포먼트와 대체로 동일한 주파수에서의 상기 배경 잡음 진폭이 상기 포먼트의 진폭을 초과하는 경우, 상기 음성이 인식될 수 없는 것으로 결정되는 음성 인식도 증가 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 음성 특성이 상기 음성을 나타내는 선 스펙트럼 쌍(line spectral pair; LSP) 데이터를 변경함으로써 변경되는 음성 인식도 증가 방법.
  10. 제9항에 있어서,
    상기 음성 특성이 상기 음성 스펙트럼 내에서 선 스펙트럼 쌍을 이동시킴으로써 변경되는 음성 인식도 증가 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 음성 특성이 상기 음성 스펙트럼 내에서 구성요소의 주파수를 변경함으로써 변경되는 음성 인식도 증가 방법.
  12. 제11항에 있어서,
    상기 음성 스펙트럼 내에서 포먼트의 주파수가 변경되는 음성 인식도 증가 방법.
  13. 제12항에 있어서,
    상기 음성 내의 포먼트의 주파수는 상기 배경 잡음 진폭이 보다 낮은 주파수로 상기 포먼트를 이동시키도록 변경되는 음성 인식도 증가 방법.
  14. 제11항, 제12항, 또는 제13항에 있어서,
    상기 음성 스펙트럼이 중심 주파수를 가지는 스펙트럼 피크를 포함하고, 상기 음성 스펙트럼 내에서 스펙트럼 피크의 중심 주파수가 변경되는 음성 인식도 증가 방법.
  15. 음성 통신 시스템에 있어서,
    상기 음성 통신 시스템의 현재 배경의 음향 잡음 환경을 분석하는 수단;
    상기 음성 통신 시스템으로부터 이 시스템을 청취하는 청취자에게 출력되는 음성이 상기 현재 배경의 잡음 환경에서 상기 청취자에게 인식될 수 있는지의 여부를 상기 배경 잡음 분석 결과를 사용하여 결정하는 수단; 및
    상기 현재 배경의 잡음에서 상기 청취자에 대한 음성의 인식도를 강화하기 위해 상기 결정 수단의 출력에 따라서 상기 음성 통신 시스템으로부터 상기 청취자에게 출력되는 음성의 특성을 변경하는 수단
    을 포함하는 음성 통신 시스템.
  16. 제15항에 있어서,
    상기 출력되는 음성이 인식될 수 있는지의 여부를 결정하는 수단이 상기 음성의 내용을 상이한 범주로 분류하는 수단, 및 하나의 주파수에서의 상기 한가지 음성 범주의 진폭을 상기 주파수에서의 잡음 진폭과 비교하는 수단을 포함하는 음성 통신 시스템.
  17. 제16항에 있어서,
    상기 음성의 내용을 상이한 범주로 분류하는 수단은 상기 음성의 내용을 상기 음성 내의 포먼트를 포함하는 범주로 분류하고, 상기 비교 수단은 하나의 주파수에서의 포먼트 포함 음성 범주의 진폭을 상기 주파수에서의 잡음 진폭과 비교하는 음성 통신 시스템.
  18. 제15항 내지 제17항 중 어느 한 항에 있어서,
    상기 출력되는 음성이 인식될 수 있는지의 여부를 결정하는 수단이 상기 음성 내의 포먼트와 대체로 동일한 잡음 진폭을 상기 포먼트의 진폭과 비교하는 수단을 포함하는 음성 통신 시스템.
  19. 제15항 내지 제18항 중 어느 한 항에 있어서,
    상기 음성은 선 스펙트럼 쌍(LSP) 데이터를 포함하는 데이터에 의해 표시되고, 상기 음성 통신 시스템에 의해 출력되는 음성의 특성을 변경하는 수단은 상기 음성을 나타내는 선 스펙트럼 쌍(LSP) 데이터를 변경하는 수단을 포함하는 음성 통신 시스템.
  20. 제15항 내지 제19항 중 어느 한 항에 있어서,
    상기 음성 통신 시스템에 의해 출력되는 음성의 특성을 변경하는 수단이 상기 음성 스펙트럼 내에서 구성요소의 주파수를 변경하는 수단을 포함하는 음성 통신 시스템.
  21. 제20항에 있어서,
    상기 음성 통신 시스템에 의해 출력되는 음성의 특성을 변경하는 수단은 상기 잡음 진폭이 보다 낮은 주파수로 포먼트를 이동시키도록 상기 음성 내의 포먼트의 주파수를 변경하는 수단을 포함하는 음성 통신 시스템.
  22. 처리되어 소리(sound)로 출력되는 음성 데이터가 선 스펙트럼 쌍 데이터를 포함하는 음성 통신 시스템에서 청취자에게 출력되는 음성의 특성을 변경하는 방법에 있어서,
    상기 음성 데이터 내의 선 스펙트럼 쌍 데이터를 변경하는 단계를 포함하는 음성 특성 변경 방법.
  23. 제22항에 있어서,
    상기 음성 데이터 내의 선 스펙트럼 쌍 데이터가 상기 음성 스펙트럼 내에서 구성요소의 주파수를 변경하도록 변경되는 음성 특성 변경 방법.
  24. 제23항에 있어서,
    상기 음성 스펙트럼 내에서 포먼트의 주파수가 변경되는 음성 특성 변경 방법.
  25. 제23항 또는 제24항에 있어서,
    상기 음성 스펙트럼 내에서 스펙트럼 피크의 중심 주파수가 변경되는 음성 특성 변경 방법.
  26. 제22항 내지 제25항 중 어느 한 항에 있어서,
    상기 선 스펙트럼 쌍 데이터가 상기 음성 스펙트럼 내에서 선 스펙트럼 쌍의 주파수를 변화시킴으로써 변경되는 음성 특성 변경 방법.
  27. 제22항 내지 제26항 중 어느 한 항에 있어서,
    상기 선 스펙트럼 쌍 데이터가 상기 음성 스펙트럼 내에서 선 스펙트럼 쌍의 간격을 감소시킴으로써 변경되는 음성 특성 변경 방법.
  28. 처리되는 음성 데이터가 선 스펙트럼 쌍 데이터를 포함하는 음성 통신 시스템에 있어서,
    청취자가 들을 수 있도록 상기 처리된 음성의 특성을 변화시키도록 상기 음성 통신 시스템에 의해 처리되는 음성 데이터 내의 선 스펙트럼 쌍 데이터를 변경하는 수단을 포함하는 음성 통신 시스템.
  29. 제28항에 있어서,
    상기 선 스펙트럼 쌍 데이터를 변경하는 수단이 상기 음성 스펙트럼 내에서 구성요소의 주파수가 변경되는 방식으로 상기 선 스펙트럼 쌍 데이터를 변경하는 수단을 포함하는 음성 통신 시스템.
  30. 제29항에 있어서,
    상기 선 스펙트럼 쌍 데이터를 변경하는 수단이 상기 음성 스펙트럼 내에서 포먼트의 주파수를 변경하는 수단을 포함하는 음성 통신 시스템.
  31. 제29항 또는 제30항에 있어서,
    상기 선 스펙트럼 쌍 데이터를 변경하는 수단이 상기 음성 스펙트럼 내에서 스펙트럼 피크의 주파수를 변경하는 수단을 포함하는 음성 통신 시스템.
  32. 제28항 내지 제31항 중 어느 한 항에 있어서,
    상기 선 스펙트럼 쌍 데이터를 변경하는 수단이 상기 음성 스펙트럼 내에서 선 스펙트럼 쌍의 주파수를 변경하는 수단을 포함하는 음성 통신 시스템.
  33. 제28항 내지 제32항 중 어느 한 항에 있어서,
    상기 선 스펙트럼 쌍 데이터를 변경하는 수단이 상기 음성 스펙트럼 내에서 선 스펙트럼 쌍의 간격을 감소시키는 수단을 포함하는 음성 통신 시스템.
  34. 음성 통신 시스템으로부터 이 시스템을 사용하는 청취자에게 출력되는 음성의 인식도를 증가시키는 방법에 있어서,
    상기 청취자의 현재 배경의 음향 잡음 환경을 분석하는 단계;
    상기 청취자에게 출력되는 음성에 대한 음성 스펙트럼 내의 상기 포먼트의 진폭을 상기 배경 잡음 분석 결과를 사용하여 상기 배경 잡음 진폭과 비교하는 단계; 및
    상기 청취자의 현재 배경의 잡음 환경에서 상기 청취자에 대한 인식도를 강화하기 위해 상기 비교에 기초하여 상기 음성 통신 시스템에 의해 출력되는 음성의 특성을 변경하는 단계
    를 포함하는 음성 인식도 증가 방법.
  35. 음성 통신 시스템에 있어서,
    상기 음성 통신 시스템의 현재 배경의 음향 잡음 환경을 분석하는 수단;
    상기 음성 통신 시스템에 의해 출력되는 음성에 대한 음성 스펙트럼 내의 상기 포먼트의 진폭을 상기 배경 잡음 분석 결과를 사용하여 상기 배경 잡음 진폭과 비교하는 수단; 및
    현재 배경의 잡음 환경에서 상기 청취자에 대한 음성의 인식도를 강화하기 위해 상기 비교 수단의 출력에 따라서 상기 음성 통신 시스템에 의해 상기 청취자에게 출력되는 음성의 특성을 변경하는 단계
    를 포함하는 음성 통신 시스템.
  36. 첨부된 도면 중 어느 하나를 참조하여 상세한 설명에서 대체로 기술되는 바와 같은 음성 통신 시스템.
  37. 첨부된 도면 중 어느 하나를 참조하여 상세한 설명에서 대체로 기술되는 바와 같은, 음성 통신 시스템에 의해 이 음성 통신 시스템을 사용하는 청취자에게 출력되는 음성의 인식도를 증가시키는 방법.
  38. 첨부된 도면 중 어느 하나를 참조하여 상세한 설명에서 대체로 기술되는 바와 같은, 음성 통신 시스템에서 청취자에게 출력되는 음성의 특성을 변경하는 방법.
KR1019997012508A 1997-07-02 1998-07-01 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치 KR20010014352A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9714001.6 1997-07-02
GBGB9714001.6A GB9714001D0 (en) 1997-07-02 1997-07-02 Method and apparatus for speech enhancement in a speech communication system

Publications (1)

Publication Number Publication Date
KR20010014352A true KR20010014352A (ko) 2001-02-26

Family

ID=10815285

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019997012508A KR20010014352A (ko) 1997-07-02 1998-07-01 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치

Country Status (12)

Country Link
EP (1) EP0993670B1 (ko)
JP (1) JP2002507291A (ko)
KR (1) KR20010014352A (ko)
CN (1) CN1265217A (ko)
AT (1) ATE214832T1 (ko)
AU (1) AU8227798A (ko)
CA (1) CA2235455A1 (ko)
DE (1) DE69804310D1 (ko)
GB (2) GB9714001D0 (ko)
PL (1) PL337717A1 (ko)
WO (1) WO1999001863A1 (ko)
ZA (1) ZA985607B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9099093B2 (en) 2007-01-05 2015-08-04 Samsung Electronics Co., Ltd. Apparatus and method of improving intelligibility of voice signal

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
FR2794322B1 (fr) * 1999-05-27 2001-06-22 Sagem Procede de suppression de bruit
AU6748600A (en) 1999-07-28 2001-02-19 Clear Audio Ltd. Filter banked gain control of audio in a noisy environment
US6876968B2 (en) * 2001-03-08 2005-04-05 Matsushita Electric Industrial Co., Ltd. Run time synthesizer adaptation to improve intelligibility of synthesized speech
DE10124189A1 (de) * 2001-05-17 2002-11-21 Siemens Ag Verfahren zum Signalempfang
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
AU2003263380A1 (en) * 2002-06-19 2004-01-06 Koninklijke Philips Electronics N.V. Audio signal processing apparatus and method
WO2004068467A1 (en) * 2003-01-31 2004-08-12 Oticon A/S Sound system improving speech intelligibility
KR20050049103A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
EP1795041A4 (en) * 2004-09-07 2009-08-12 Sensear Pty Ltd DEVICE AND METHOD FOR SOUND IMPROVEMENT
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
GB2433849B (en) 2005-12-29 2008-05-21 Motorola Inc Telecommunications terminal and method of operation of the terminal
DE102006001730A1 (de) 2006-01-13 2007-07-19 Robert Bosch Gmbh Beschallungsanlage, Verfahren zur Verbesserung der Sprachqualität und/oder Verständlichkeit von Sprachdurchsagen sowie Computerprogramm
EP1814109A1 (en) * 2006-01-27 2007-08-01 Texas Instruments Incorporated Voice amplification apparatus for modelling the Lombard effect
JP2007295347A (ja) * 2006-04-26 2007-11-08 Mitsubishi Electric Corp 音声処理装置
JP4926005B2 (ja) 2007-11-13 2012-05-09 ソニー・エリクソン・モバイルコミュニケーションズ株式会社 音声信号処理装置及び音声信号処理方法、通信端末
KR101597375B1 (ko) 2007-12-21 2016-02-24 디티에스 엘엘씨 오디오 신호의 인지된 음량을 조절하기 위한 시스템
JP5453740B2 (ja) * 2008-07-02 2014-03-26 富士通株式会社 音声強調装置
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
EP2372700A1 (en) * 2010-03-11 2011-10-05 Oticon A/S A speech intelligibility predictor and applications thereof
KR102060208B1 (ko) * 2011-07-29 2019-12-27 디티에스 엘엘씨 적응적 음성 명료도 처리기
CN103002105A (zh) * 2011-09-16 2013-03-27 宏碁股份有限公司 可增加通讯内容清晰度的移动通讯方法
CN103297896B (zh) * 2012-02-27 2016-07-06 联想(北京)有限公司 一种音频输出方法及电子设备
US9020818B2 (en) 2012-03-05 2015-04-28 Malaspina Labs (Barbados) Inc. Format based speech reconstruction from noisy signals
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
EP3010017A1 (en) * 2014-10-14 2016-04-20 Thomson Licensing Method and apparatus for separating speech data from background data in audio communication
JP6565206B2 (ja) * 2015-02-20 2019-08-28 ヤマハ株式会社 音声処理装置および音声処理方法
EP3107097B1 (en) 2015-06-17 2017-11-15 Nxp B.V. Improved speech intelligilibility
US9847093B2 (en) 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
JP6790732B2 (ja) * 2016-11-02 2020-11-25 ヤマハ株式会社 信号処理方法、および信号処理装置
ES2801924T3 (es) 2017-01-03 2021-01-14 Lizn Aps Inhibidores basados en oligonucleótidos que comprenden un motivo de ácido nucleico bloqueado
CN108369805B (zh) * 2017-12-27 2019-08-13 深圳前海达闼云端智能科技有限公司 一种语音交互方法、装置和智能终端
CN109346058A (zh) * 2018-11-29 2019-02-15 西安交通大学 一种语音声学特征扩大系统
US11817114B2 (en) 2019-12-09 2023-11-14 Dolby Laboratories Licensing Corporation Content and environmentally aware environmental noise compensation

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5870292A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 車両用音声認識装置
US4538295A (en) * 1982-08-16 1985-08-27 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
WO1987000366A1 (en) * 1985-07-01 1987-01-15 Motorola, Inc. Noise supression system
GB8801014D0 (en) * 1988-01-18 1988-02-17 British Telecomm Noise reduction
US5235669A (en) * 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
CA2056110C (en) * 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
FI102337B1 (fi) * 1995-09-13 1998-11-13 Nokia Mobile Phones Ltd Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi
GB2306086A (en) * 1995-10-06 1997-04-23 Richard Morris Trim Improved adaptive audio systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9099093B2 (en) 2007-01-05 2015-08-04 Samsung Electronics Co., Ltd. Apparatus and method of improving intelligibility of voice signal

Also Published As

Publication number Publication date
ATE214832T1 (de) 2002-04-15
EP0993670A1 (en) 2000-04-19
EP0993670B1 (en) 2002-03-20
GB2327835A (en) 1999-02-03
AU8227798A (en) 1999-01-25
GB9814279D0 (en) 1998-09-02
GB9714001D0 (en) 1997-09-10
JP2002507291A (ja) 2002-03-05
WO1999001863A1 (en) 1999-01-14
GB2327835B (en) 2000-04-19
PL337717A1 (en) 2000-08-28
CN1265217A (zh) 2000-08-30
DE69804310D1 (de) 2002-04-25
ZA985607B (en) 2000-06-01
CA2235455A1 (en) 1999-01-02

Similar Documents

Publication Publication Date Title
EP0993670B1 (en) Method and apparatus for speech enhancement in a speech communication system
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
US8554550B2 (en) Systems, methods, and apparatus for context processing using multi resolution analysis
EP1252621B1 (en) System and method for modifying speech signals
US8229738B2 (en) Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
JPH1097296A (ja) 音声符号化方法および装置、音声復号化方法および装置
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
GB2343822A (en) Using LSP to alter frequency characteristics of speech
EP2063420A1 (en) Method and assembly to enhance the intelligibility of speech
KR20060067016A (ko) 음성 부호화 장치 및 방법
Ekeroth Improvements of the voice activity detector in AMR-WB
McLoughlin CELP and speech enhancement
Kroon Speech and Audio Compression
Hennix Decoder based noise suppression
Chen Adaptive variable bit-rate speech coder for wireless
JPH09179588A (ja) 音声符号化方法

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid