KR20030034260A - 이동 통신 시스템의 음성 활성도 측정 장치 및 그 방법 - Google Patents
이동 통신 시스템의 음성 활성도 측정 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20030034260A KR20030034260A KR1020010047560A KR20010047560A KR20030034260A KR 20030034260 A KR20030034260 A KR 20030034260A KR 1020010047560 A KR1020010047560 A KR 1020010047560A KR 20010047560 A KR20010047560 A KR 20010047560A KR 20030034260 A KR20030034260 A KR 20030034260A
- Authority
- KR
- South Korea
- Prior art keywords
- flag
- voice activity
- vad
- lpc
- communication system
- Prior art date
Links
- 230000000694 effects Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000010295 mobile communication Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 title abstract description 6
- 238000005259 measurement Methods 0.000 claims abstract description 50
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 11
- 238000007796 conventional method Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
본 발명은 이동 통신 시스템의 음성 활성도 측정(VAD) 장치 및 그 방법에 관한 것이다. 본 발명의 이동 통신 시스템의 음성 활성도 측정(VAD) 장치는, 인가되는 입력 음성 신호를 수신하고 분석하여 선형 예측 계수(LPC)를 추출하는 LPC 분석 수단; 상기 LPC로부터 음성 신호를 재생하는 LPC 합성 수단; 상기 입력 음성 신호를 합산하고, 상기 LPC 합성 수단으로부터 수신한 신호를 감산하여 LPC 잔여 신호를 생성하는 합산 수단; 상기 LPC 잔여 신호를 이용하여 첨두치 측정(PM)을 수행하는 PM 계산 수단; 상기 PM 계산 수단으로부터 수신한 PM 값을 이용하여 플래그를 결정하는 제 1 플래그 결정 수단; 상기 입력 음성 신호의 프레임 에너지, 주파수 특성 및 분포를 분석하고, 이에 대해 플래그를 결정하는 분석 및 플래그 결정 수단; 및 상기 플래그 결정 수단 및 상기 분석 및 플래그 결정 수단으로부터 수신한 플래그를 이용하여 음성 활성도를 결정하는 음성 활성도 측정(VAD) 수단을 포함하는 것을 특징으로 한다.
Description
본 발명은 이동 통신 시스템의 음성 활성도 측정(Voice Activity Detection ; 이하 'VAD'라 한다) 장치 및 그 방법에 관한 것으로, 특히 다양하게 변하는 주변 잡음이 존재하는 환경에서 활성 음성과 배경 잡음을 정확하게 판단할 수 있도록 하는 이동 통신 시스템에서의 음성 활성도 측정 장치 및 방법에 관한 것이다.
일반적으로, 디지털 이동 통신 시스템은 좋은 통화 품질과 주파수 효율 증대를 위해 음성 부호화기를 사용하는데, 음성 부호화기는 음성 샘플을 입력으로 특정한 알고리즘을 사용하여 음성 신호를 압축한다.
일상적인 음성 통화인 경우, 한쪽 편에서 활성 음성 구간이 존재하는 구간, 즉 음성 활성도는 50% 이하로서 이의 활용을 통하여 추가적인 주파수 효율의 증대가 가능하다. 즉, 배경 잡음 구간과 음성 구간을 각각 다른 압축률로 압축함으로써 이동 통신 시스템의 용량을 증가시킬 수 있다.
이의 달성을 위해서는 활성 음성의 유무를 판단하는 음성 활성도 측정 알고리즘이 요구되는데, 주변잡음이 존재하지 않는 구간에서는 간단한 알고리즘으로도동작이 가능하지만, 이동통신 환경과 같이 다양하게 변화하는 주변 잡음이 존재하는 환경에서는 세밀한 고려가 요구되어진다. 특히 활성 음성과 배경 잡음의 경계 구간에서의 정확한 판단은 주파수 효율 및 음성 품질에 영향을 미치게 된다.
음성 활성화 측정을 위한 종래의 방법에는 10msec 또는 20msec 음성 프레임을 기준으로 프레임 에너지, 신호의 주파수 대역에 따른 분포 및 영교차율 등의 방법이 있으며, 이를 사용한 종래의 음성 부호화기에는 10msec 프레임 크기를 기준으로 한 국제 전기 통신 연합 통신부문(ITU-T; International Telecommunication Union-Telecommunication)의 G.792B와 20msec 프레임 크기를 기준으로 QCELP(Qualcomm-Codec Excited Linear Predictive Coding), EVRC(Enhanced Variable Rate Codec) 및 AMR(Advanced Multi Rate codec) 등이 있다.
음성은 무성음과 유성음으로 구분할 수 있으며, 무성음은 일반적으로 낮은 에너지 값을 가지게 되는데, 특히 파열음(unvoiced plosives)의 경우는 활성 음성이 존재하는 구간에 이어진 묵음 구간이 존재하게 된다.
그러나, 활성 음성과 묵음이 한 프레임 내에 존재하는 경우, 이러한 구간의 음성 활성도 측정 알고리즘으로 프레임 에너지 및 주파수에 따른 에너지 분포 등의 방법만을 사용하게 되면 주변의 배경 잡음으로 인하여 묵음 구간으로 처리되는 경우가 다수 발생하여 음성 품질의 저하를 야기하는 문제점이 있었다.
이러한 문제점을 해결하기 위한 종래의 기술로서 "METHOD AND APPARATUS FOR DETECTING VOICE ACTIVITY IN A SPEECH SIGNAL"이 미합중국(US) 특허 제6,188,981호에 개시되어 있다
상기 특허 제6,188,981호는 통신 시스템에서 활성 음성(active speech) 구간과 묵음(non-active speech) 구간이 연속되는 음성 신호를 입력으로 받는 음성 부호화기에서 프레임마다 음성 활성도를 결정하는 방법 및 장치를 제안한 것으로서, 입력 음성 신호에서 피치 이득(Pitch Gain), 피치 지연(Pitch Lag), 프레임 전 밴드 에너지(Frame Full Band Energy) 및 LSF 등 4가지 파라미터를 사용하고 있다.
그러나 상기 특허 제6,188,981호는 주기적인 피치 펄스(pitch pulse)에 의한 유성음의 경우, 한 프레임 내에서 배경 잡음 또는 무성음에서 유성음으로 변화하는 경우 및 한 프레임 내에서 배경 잡음에서 파열음으로 변화하는 경우에는 음성 활성도 측정에 있어서 성능이 저하되는 문제점이 있었다.
본 발명은 상기한 바와 같은 종래 기술의 제반 문제점을 해결하기 위해 제안된 것으로, 선형 예측 계수(Linear Prediction Coefficient; 이하 'LPC'라 한다) 잔여 신호의 첨두치 측정(PM)을 이용하여 배경 잡음이 존재하는 음성 통화에서 효율적으로 음성 구간을 배경 잡음 구간과 구별할 수 있도록 하는, 이동 통신 시스템에서의 음성 활성도 측정(VAD) 장치를 제공하는데 그 목적이 있다.
또한, 본 발명은 LPC 잔여 신호의 첨두치 측정(PM)을 이용하여 배경 잡음이 존재하는 음성 통화에서 효율적으로 음성 구간을 배경 잡음 구간과 구별할 수 있도록 하는, 이동 통신 시스템에서의 음성 활성도 측정(VAD) 방법을 제공하는데 또 다른 목적이 있다.
또한, 본 발명은 LPC 잔여 신호의 첨두치 측정(PM)을 이용하여 배경 잡음이 존재하는 음성 통화에서 효율적으로 음성 구간을 배경 잡음 구간과 구별할 수 있도록 하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 또 다른 목적이 있다.
도 1은 본 발명에 따른 음성 활성도 측정(VAD) 장치의 일실시예 구성도,
도 2는 본 발명에 따른 음성 활성도 측정(VAD) 방법의 일실시예 흐름도,
도 3a는 본 발명에 의한 실험에 따른 잡음에 의해 오염된 음성 샘플을 나타내는 일실시예 파형도,
도 3b는 본 발명에 의한 실험에 따른 전밴드 에너지(full-band energy)를 나타내는 일실시예 파형도,
도 3c는 본 발명에 의한 실험에 따른 주파수에 의한 에너지 분포를 나타내는 일실시예 파형도,
도 3d는 본 발명에 의한 실험에 따른 영교차율을 나타내는 일실시예 파형도,
도 3e는 본 발명에 의한 실험에 따른 PM 값을 나타내는 일실시예 파형도,
*도면의 주요 부분의 부호에 대한 설명
101 : LPC 분석기102 : LPC 합성기
104 : PM 계산기106 : 프레임 에너지 계산기
108 : 주파수 분포 계산기 110 : 영교차율 계산기
105, 107, 109, 111 : 플래그 결정기
112 : 음성 활성도 측정기
상기 목적을 달성하기 위한 본 발명은, 이동 통신 시스템의 음성 활성도 측정(VAD) 장치에 있어서, 인가되는 입력 음성 신호를 수신하고 분석하여 선형 예측 계수(LPC)를 추출하는 LPC 분석 수단; 상기 LPC로부터 음성 신호를 재생하는 LPC 합성 수단; 상기 입력 음성 신호를 합산하고, 상기 LPC 합성 수단으로부터 수신한 신호를 감산하여 LPC 잔여 신호를 생성하는 합산 수단; 상기 LPC 잔여 신호를 이용하여 첨두치 측정(PM)을 수행하는 PM 계산 수단; 상기 PM 계산 수단으로부터 수신한 PM값을 이용하여 플래그를 결정하는 제 1플래그 결정 수단; 상기 입력 음성 신호의 프레임 에너지, 주파수 특성 및 분포를 분석하고, 이에 대해 플래그를 결정하는 분석 및 플래그 결정 수단; 및 상기 플래그 결정 수단 및 상기 분석 및 플래그 결정 수단으로부터 수신한 플래그를 이용하여 음성 활성도를 결정하는 음성 활성도 측정(VAD) 수단을 포함하는 것을 특징으로 한다.
또한, 본 발명은 이동 통신 시스템의 음성 활성도 측정(VAD) 방법에 있어서, 인가되는 입력 음성 신호를 수신하여 프레임을 구성하는 제 1단계; 오프셋 신호를 처리하기 위해 각 프레임을 전처리하는 제 2단계; LPC 계수를 추출하고 LPC 신호를합성하여, LPC 잔여신호를 추출하는 제 3단계; 음성 신호의 프레임 에너지, 주파수 특성 및 분포를 분석하고, 이에 대해 플래그를 결정하는 제 4단계; 및 상기에서 결정한 플래그를 이용하여 음성 활성도를 측정하는 제 5단계를 포함하는 것을 특징으로 한다.
또한, 본 발명은 이동 통신 시스템의 음성 활성도 측정(VAD)을 제공하기 위해 마이크로프로세서를 구비한 음성 활성도 측정(VAD) 장치에, 인가되는 입력 음성 신호를 수신하여 프레임을 구성하는 제 1기능; 오프셋 신호를 처리하기 위해 각 프레임을 전처리하는 제 2기능; LPC 계수를 추출하고 LPC 신호를 합성하여, LPC 잔여신호를 추출하는 제 3기능; 음성 신호의 프레임 에너지, 주파수 특성 및 분포를 분석하고, 이에 대해 플래그를 결정하는 제 4기능; 및 상기에서 결정한 플래그를 이용하여 음성 활성도를 측정하는 제 5기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함하는 것을 특징으로 한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
일반적으로, 선형 예측 계수(LPC; 이하 'LPC'라 한다) 분석 및 합성 기술은 음성 신호를 선형 필터 구조로 모델링한 것으로, 사람의 폐에서 나오는 공기를 여기 신호(excitation signal)로 정의하고, 사람의 성도를 선형 필터(linear filter)로 정의하여, 여기 신호가 선형 필터를 통과함으로써 음성 신호가 발생하는 것으로 정의한 것이다.
LPC 분석은 10차의 선형 필터의 계수를 구하는 과정을 나타내며, LPC 합성은 LPC 분석을 통하여 구한 계수로부터 음성 신호를 재생하는 것이다.
LPC 부호화기(음성 분석에 의해 추출된 파라미터를 사용하여 음성을 재합성하는 장치)의 기능은 크게 입력된 음성을 분석하고 송신하는 기능과 전송 받은 부호로부터 다시 음성 신호를 합성해 내는 기능의 두 가지로 나뉜다.
분석시에 이루어지는 작업은 입력된 음성이 무성음인지 유성음인지 구별하는 작업, 음성의 고저 주기를 추출하는 작업, 여파기 계수를 결정하는 작업 등으로 나뉜다. 합성시에는 이렇게 전송된 파라미터를 조합하여 원래의 음성을 만들어낸다.
도 1은 본 발명에 따른 음성 활성도 측정(VAD) 장치의 일실시예 구성도이다.
도면에 도시된 바와 같이, 본 발명의 음성 활성도 측정(VAD) 장치는 LPC 분석기(101), LPC 합성기(102), 합산기(103), 첨두치 측정(이하 'PM'이라 한다) 계산기(104), 프레임 에너지 계산기(106), 주파수 분포 계산기(108), 영교차율 계산기(110), 플래그 결정기(105, 107, 109, 111) 및 음성 활성도 측정기(112)를 포함하고 있다.
상기 LPC 분석기(101)는 음성 신호를 수신하여 이를 분석하여 계수를 추출하는 기능은 담당하며, 상기 LPC 합성기(102)는 상기 계수로부터 음성신호를 재생하는 기능을 담당한다.
상기 합산기(103)는 수신받은 음성 신호에서 상기 LPC 합성기(102)로부터 수신받은 재생 신호를 감산하여 LPC 잔여 신호를 추출하는 기능을 담당한다.
상기 프레임 에너지 계산기(106)는 하기 수학식 1에 의해 전밴드에너지(Full-Band Energy)를 구하는 기능을 담당한다.
는 첫 번째 자기 상관 계수(First Autocorrelation Coefficient)이다.
음성 신호는 유성음 구간에서 많은 에너지를 가지고, 무성음 구간에서는 적은 에너지를 가지므로, 에너지 레벨을 측정하는 것은 묵음 구간을 검출하는데 기본적이고 효과적인 방법이다.
상기 플래그 결정기(107)는 묵음 구간을 결정하는 플래그를 하기 수학식 2에 의해 결정하는 기능을 담당한다. 상기는 배경 잡음 레벨에 기준한 적응 임계치에 따라서 결정된다.
상기 주파수 분포 계산기(108)는 주파수에 따른 에너지 분포(Ratio of Low-band to Full-band Energy)를 계산하는 기능을 담당한다.
일반적으로 유성음의 경우 그 음성을 내었을 때의 음파를 주파수 측정분석기에 걸면 각각의 음성에 고유한 주파수 분포도형이 얻어진다. 모음이면 성대의 1초간의 진동수를 나타내는 기본 주파수(대체로 75∼300Hz)와, 그 정수 배의 고조파(harmonics)로 이루어지고 있다. 이 고조파 중 몇 개가가 강조되는 것이 있고(대체로 3개), 그 낮은 것부터 차례로 제1, 제2, 제3 음조(formant)라고 한다.
유성음의 경우 1KHz 이하에 제 1음조(formant)가 위치하며, 많은 에너지가 집중된다. 무성음의 대부분은 높은 주파수 대역에 주파수가 집중되며, 배경 잡음의 경우에는 약간 고른 주파수 분포를 나타낸다.
따라서, 주파수 분포를 조사함으로써 활성 음성과 배경 잡음을 구별하는 것이 가능하다.
1KHz 주파수 대역 내의 에너지인 저대역 에너지는 하기 수학식 3에 따라 계산한다.
는 차단 주파수(Cutoff Frequency)가 1KHz인 필터의 주파수 응답이며,은 13차의 자기 상관 계수에서 유도된 13 * 13 차원의 토플리츠 행렬(Toeplitz Matrix)이다.
따라서, 주파수에 따른 에너지 분포는 하기 수학식 4에 의해 구한다.
상기 플래그 결정기(109)는 주파수에 따른 에너지 분포를 나타내는 플래그를 하기 수학식 5에 의하여 결정하는 기능을 담당한다.
과는 각각 무성음과 유성음에 대하여 실험적으로 추출된 임계치이다.
상기 영교차율 계산기(110)는 인가된 음성 신호의 영교차율(Zero-Crossing Rate)을 계산하는 기능을 담당한다. 음성 신호의 영교차율은 한 프레임 내에서 인접 음성 샘플간의 부호 변화(sign change)의 양으로 음성 신호의 주파수 특성을 내포하고 있다. 무성음일 경우 영교차율은 큰 값을 가진다.
영교차율은 하기 수학식 6에 의해 구할 수 있다.
은 시그넘 함수(Signum Function)로가 "0"보다 크면 출력이 "1"이고, 그렇지 않으면 출력이 "0"인 함수이다.
상기 플래그 결정기(111)는 유성음과 무성음의 영교차율에 대한 각각의 플래그인및를 하기 수학식 7 및 수학식 8에 의해 결정하는 기능을 담당한다.
과는 각각 유성음과 무성음에 대하여 실험적으로 추출된 임계치이다.
그러나, 프레임 내에 나머지 샘플의 절대값보다 매우 큰 펄스가 존재하는 경우와 배경 잡음 존재시 활성 음성 구간의 시작과 끝 구간에서는 그 특성이 손상을 받게 됨으로 인해 상기 세 파라미터에 의해서는 좋은 성능의 음성 활성도 측정(VAD) 결과를 얻지 못할 수도 있었다.
따라서, 본 발명에서는 상기 세 파라미터에 부가하여, LPC 잔여 신호의 PM값을 이용한 파라미터를 제안한다.
PM값이 매우 큰 경우는 주기적인 피치 펄스(pitch pulse)에 의한 유성음이 존재하는 경우, 한 프레임 내에서 배경 잡음 또는 무성음으로부터 유성음으로 변화하는 경우 및 한 프레임 내에서 배경 잡음에서 파열음으로 변화하는 경우 등이다.
상기 PM 계산기(104)는 LPC 잔여 신호를 이용하여 PM값을 하기 수학식 9에 의해 계산하는 기능을 담당한다.
은 LPC 잔여 신호이며,은 프레임의 크기이다.
상기 플래그 결정기(105)는 PM 값에 따른 플래그과를 각각 하기 수학식 10 및 수학식 11에 의해 결정하는 기능을 담당한다.
과는 각각 무성음과 파열음을 포함하는 유성음에 대하여 실험적으로 추출된 임계치이다.
상기 음성 활성도 측정기(112)는 상기 수학식 2, 수학식 5, 수학식 7, 수학식 8, 수학식 10 및 수학식 11에 의해 구한 플래그들을 이용하여 하기 수학식 12에 의해 음성 활성도를 측정하는 기능을 담당한다.
여기서, "", "" 및 "" 기호는 각각 논리 연산자 "not", "or" 및 "and"를 각각 의미한다.
음성 활성도 값이 "0"이면 묵음 구간(inactive speech frame)이고, "0"이 아니면 활성 음성 구간(active speech frame)이라 할 수 있다.
도 2는 본 발명에 따른 음성 활성도 측정(VAD) 방법의 일실시예 흐름도이다.
도면에 도시된 바와 같이, 본 발명의 음성 활성도 측정(VAD) 방법은, 인가되는 입력 음성 신호를 수신하여 해당 신호가 실제로 음성을 포함하고 있는지 여부를 알기 위해 프레임을 구성하고(201), 오프셋 신호를 추출하기 위해서 각 프레임을 전처리(pre-processing)한다(202).
상기 수학식에 따라 전화 대역폭(telephone bandwidth) 내의 전밴드 에너지(full-band energy)를 이용하여 프레임 에너지를 계산하고(204), 전밴드의 에너지에 대한 1000㎐ 이하의 에너지의 비를 이용하여 주파수 분포를 계산한다(205).
또한, 영교차율을 계산하고(206), LPC 잔여 신호를 이용하여 PM을 계산한다(207).
상기 계산에 의해 플래그가 결정되고(208), 본 발명의 음성 활성도 측정(VAD) 방법은 상기 플래그를 이용하여 음성 활성도를 결정한다(209).
본 발명에 따른 음성 활성도 측정(VAD) 방법의 성능을 실험하기 위하여, 남자 화자 2명과 여자 화자 2명으로 이루어진 4개 문장으로 1,145에 프레임에 해당하는 음성 데이터 베이스를 사용하였다. 상기 음성 데이터 베이스의 음성 신호는 전화 대역폭의 주파수 대역폭을 가지며 -12dBov의 레벨로 녹음되어 있으며, 이를 정리하면 표 1과 같다.
문장 | 샘플의 갯수 | 프레임의 갯수 | |
남자 | 샘플 1 | 20,800 | 260 |
샘플 2 | 25,360 | 317 | |
여자 | 샘플 1 | 19,840 | 248 |
샘플 2 | 25,600 | 320 | |
합계 | 91,600 | 1,145 |
3가지 형태의 배경 잡음, 즉 자동차 소음, 거리 소음, 군중의 왁자지껄한 소음이 50dB부터 10dB의 범위의 신호 대 잡음비(Signal-to-Noise Ratio; 이하 'SNR'이라 한다)에 해당되게 인가되었다.
도 3은 본 발명에 의한 실험에 따른 4가지 파라미터의 잡음이 섞인 음성 샘플을 나타내는 일실시예 파형도로서, 10dB SNR의 자동차 소음을 배경으로 한 환경에서 측정되었다.
도 3a는 본 발명에 의한 실험에 따른 잡음에 의해 오염된 음성 샘플을 나타내는 일실시예 파형도이다.
도 3b는 본 발명에 의한 실험에 따른 전밴드 에너지(full-band energy)를 나타내는 일실시예 파형도이다.
도면에 도시된 바와 같이, 본 발명의 전밴드 에너지의 측정은, 낮은 프레임 에너지를 가지는 무성음은 배경 잡음 때문에 유성음처럼 검출할 수는 없지만, 활성 프레임과 같은 에너지가 집중된 프레임에 의해 유성음을 결정할 수 있음을 알 수 있다. 따라서 프레임 에너지를 사용하는 것을 제 1 파라미터로 사용하는 것이다.
도 3c는 본 발명에 의한 실험에 따른 주파수에 의한 에너지 분포를 나타내는 일실시예 파형도이다.
도면에 도시된 바와 같이, 본 발명의 주파수에 의한 에너지 분포의 측정은, 유성음과 배경 잡음이 저주파수 대역에서 집중되고, 무성음은 더 낮은 밴드 에너지를 가짐을 알 수 있다. 이 주파수 분포에 의한 에너지 분포는 무성음 검출에 이용될 수 있다.
도 3d는 본 발명에 의한 실험에 따른 영교차율을 나타내는 일실시예 파형도이다.
도면에 도시된 바와 같이, 본 발명의 영교차율은, 유성음이나 배경 잡음의 경우보다 무성음의 경우에 훨씬 큰 값을 가짐을 알 수 있다. 따라서, 영교차율 무성음 검출에 이용될 수 있다.
도 3e는 본 발명에 의한 실험에 따른 PM 값을 나타내는 일실시예 파형도이다.
도면에 도시된 바와 같이, 본 발명의 PM 값은 유성음 프레임과, 파열음 또는 음성의 시작 및 끝 부분과 같이 프레임 내에 큰 진폭을 가지는 펄스를 포함하는 프레임에서 매우 큰 값을 나타냄을 알 수 있다.
이 파라미터는 유성음, 유성음의 시작과 끝 부분 및 파열음을 검출하는데 유용하게 이용할 수 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되는 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 주파수 자원을 이용하는 디지털 이동 통신 시스템의 음성 부호화기에서 음성 활성도 측정(VAD)시, LPC 잔여 신호에 의한 PM 값을 부여함으로써 예컨대, 20dB 배경 잡음 환경 등에서 동일한 음성 품질에서 요구되는 데이터 전송률을 감소시켜, 가입자 용량을 증대할 수 있도록 하는 효과가 있다.
또한, 본 발명은 주파수 자원을 이용하는 디지털 이동 통신 시스템의 음성 부호화기에서 음성 활성도 측정(VAD)시, LPC 잔여 신호에 의한 PM 값을 부여함으로써 예컨대, 10 dB 배경 잡음 환경 등의 동일한 통화자 환경에서 통화 품질을 개선할 수 있도록 하는 효과가 있다.
Claims (16)
- 이동 통신 시스템의 음성 활성도 측정(VAD) 장치에 있어서,인가되는 입력 음성 신호를 수신하고 분석하여 선형 예측 계수(LPC)를 추출하는 LPC 분석 수단;상기 LPC로부터 음성 신호를 재생하는 LPC 합성 수단;상기 입력 음성 신호를 합산하고, 상기 LPC 합성 수단으로부터 수신한 신호를 감산하여 LPC 잔여 신호를 생성하는 합산 수단;상기 LPC 잔여 신호를 이용하여 첨두치 측정(PM)을 수행하는 PM 계산 수단;상기 PM 계산 수단으로부터 수신한 PM 값을 이용하여 플래그를 결정하는 제 1 플래그 결정 수단;상기 입력 음성 신호의 프레임 에너지, 주파수 특성 및 분포를 분석하고, 이에 대해 플래그를 결정하는 분석 및 플래그 결정 수단; 및상기 플래그 결정 수단 및 상기 분석 및 플래그 결정 수단으로부터 수신한 플래그를 이용하여 음성 활성도를 결정하는 음성 활성도 측정(VAD) 수단을 포함하는 이동 통신 시스템의 음성 활성도 측정(VAD) 장치.
- 제 1항에 있어서,상기 PM 계산 수단은,하기 수학식에 PM 값을 계산하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 장치.(여기서,은 LPC 잔여 신호이며,은 프레임의 크기임)
- 제 1항에 있어서,상기 제 1플래그 결정 수단은,하기 수학식에 의해 플래그를 결정하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 장치.,(과는 각각 PM 값에 따른 플래그이며,과는 각각 무성음과 파열음을 포함하는 유성음에 대하여 실험적으로 추출된 임계치임)
- 제 1항에 있어서,상기 분석 및 플래그 결정 수단은,상기 입력 음성 신호의 전밴드 에너지를 계산하는 프레임 에너지 계산 수단;상기 프레임 에너지 계산 신호로부터 수신한 값을 이용하여 플래그를 결정하는 제 2 플래그 결정 수단;상기 입력 음성 신호의 주파수에 따른 에너지 분포를 계산하는 주파수 분포 계산 수단;상기 주파수 분포 계산 수단으로부터 수신한 값을 이용하여 플래그를 결정하는 제 3 플래그 결정 수단;상기 입력 음성 신호의 영교차율을 계산하는 영교차율 계산 수단; 및상기 영교차율 계산 수단으로부터 수신한 값을 이용하여 플래그를 결정하는 제 4 플래그 결정 수단을 포함하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 장치.
- 제 4항에 있어서,상기 프레임 에너지 계산 수단은,하기 수학식에 의해 전밴드 에너지를 계산하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 장치.(는 전밴드 에너지이며,는 첫 번째 자기 상관 계수임)
- 제 4항에 있어서,상기 제 2 플래그 결정 수단은,하기 수학식에 의해 플래그를 결정하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 장치.(는 묵음 구간을 결정하는 플래그이며,는 배경 잡음 레벨에 기준한 적응 임계치임)
- 제 4항에 있어서,상기 주파수 분포 계산 수단은,하기 수학식에 의해 주파수에 따른 에너지 분포를 계산하는 것을 특징으로하는 이동 통신 시스템의 음성 활성도 측정(VAD) 장치.(는 주파수에 따른 에너지 분포이며,은 1KHz 주파수 대역 내의 에너지인 저대역 에너지로서임. 여기서는 차단 주파수가 1KHz인 필터의 주파수 응답이며,은 13차의 자기 상관 계수에서 유도된 13 * 13 차원의 토플리츠 행렬임. 또한,는 전밴드 에너지임)
- 제 4항에 있어서,상기 제 3 플래그 결정 수단은,하기 수학식에 의해 플래그를 결정하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 장치.(과는 각각 무성음과 유성음에 대하여 실험적으로 추출된 임계치임)
- 제 4항에 있어서,상기 영교차율 계산 수단은,하기 수학식에 의해 영교차율을 계산하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 장치.(은 영교차율이며,은 시그넘 함수로가 "0"보다 크면 출력이 "1"이고, 그렇지 않으면 출력이 "0"인 함수임)
- 제 4항에 있어서,상기 제 4 플래그 결정 수단은,하기 수학식에 의해 플래그를 결정하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 장치.및는 유성음과 무성음의 영교차율에 대한 각각의 플래그이며,과는 각각 유성음과 무성음에 대하여 실험적으로 추출된 임계치임)
- 제 1항에 있어서,상기 음성 활성도 측정(VAD) 수단은,하기 수학식에 의해 음성 활성도를 결정하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 장치.(는 음성 활성도이며, "", "" 및 "" 기호는 각각 논리 연산자 "not", "or" 및 "and"임)
- 이동 통신 시스템의 음성 활성도 측정(VAD) 방법에 있어서,인가되는 입력 음성 신호를 수신하여 프레임을 구성하는 제 1단계;오프셋 신호를 처리하기 위해 각 프레임을 전처리하는 제 2단계;LPC 계수를 추출하고 LPC 신호를 합성하여, LPC 잔여신호를 추출하는 제 3단계;음성 신호의 프레임 에너지, 주파수 특성 및 분포를 분석하고, 이에 대해 플래그를 결정하는 제 4단계; 및상기에서 결정한 플래그를 이용하여 음성 활성도를 측정하는 제 5단계를 포함하는 이동 통신 시스템의 음성 활성도 측정(VAD) 방법.
- 제 12항에 있어서,상기 제 4단계는,인가된 입력 음성 신호의 전밴드 에너지를 계산하는 제 6단계; 및상기 전밴드 에너지를 이용하여 플래그를 결정하는 제 7단계를 포함하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 방법.
- 제 12항에 있어서,상기 제 4단계는,인가된 입력 음성 신호의 주파수에 따른 에너지 분포를 계산하는 제 6단계; 및상기 주파수에 따른 에너지 분포를 이용하여 플래그를 결정하는 제 7단계를 포함하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 방법.
- 제 12항에 있어서,상기 제 4단계는,인가된 입력 음성 신호의 영교차율을 계산하는 제 6단계; 및상기 영교차율을 이용하여 플래그를 결정하는 제 7단계를 포함하는 것을 특징으로 하는 이동 통신 시스템의 음성 활성도 측정(VAD) 방법.
- 이동 통신 시스템의 음성 활성도 측정(VAD)을 제공하기 위해 마이크로프로세서를 구비한 음성 활성도 측정(VAD) 장치에,인가되는 입력 음성 신호를 수신하여 프레임을 구성하는 제 1기능;오프셋 신호를 처리하기 위해 각 프레임을 전처리하는 제 2기능;LPC 계수를 추출하고 LPC 신호를 합성하여, LPC 잔여신호를 추출하는 제 3기능;음성 신호의 프레임 에너지, 주파수 특성 및 분포를 분석하고, 이에 대해 플래그를 결정하는 제 4기능; 및상기에서 결정한 플래그를 이용하여 음성 활성도를 측정하는 제 5기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2001-0047560A KR100399057B1 (ko) | 2001-08-07 | 2001-08-07 | 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2001-0047560A KR100399057B1 (ko) | 2001-08-07 | 2001-08-07 | 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20030034260A true KR20030034260A (ko) | 2003-05-09 |
KR100399057B1 KR100399057B1 (ko) | 2003-09-26 |
Family
ID=29561873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2001-0047560A KR100399057B1 (ko) | 2001-08-07 | 2001-08-07 | 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100399057B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100768737B1 (ko) * | 2003-06-25 | 2007-10-22 | 인터디지탈 테크날러지 코포레이션 | 복잡도가 감소된 슬라이딩 윈도우 기반의 등화기 |
CN106575511A (zh) * | 2014-07-29 | 2017-04-19 | 瑞典爱立信有限公司 | 音频信号中背景噪声的估计 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
IN184794B (ko) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
JP2762938B2 (ja) * | 1994-11-04 | 1998-06-11 | 日本電気株式会社 | 音声符号化装置 |
KR200192411Y1 (ko) * | 1998-04-10 | 2000-10-02 | 서순자 | 음식비치용기용전기히터 |
-
2001
- 2001-08-07 KR KR10-2001-0047560A patent/KR100399057B1/ko not_active IP Right Cessation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100768737B1 (ko) * | 2003-06-25 | 2007-10-22 | 인터디지탈 테크날러지 코포레이션 | 복잡도가 감소된 슬라이딩 윈도우 기반의 등화기 |
CN106575511A (zh) * | 2014-07-29 | 2017-04-19 | 瑞典爱立信有限公司 | 音频信号中背景噪声的估计 |
CN106575511B (zh) * | 2014-07-29 | 2021-02-23 | 瑞典爱立信有限公司 | 用于估计背景噪声的方法和背景噪声估计器 |
US11114105B2 (en) | 2014-07-29 | 2021-09-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimation of background noise in audio signals |
US11636865B2 (en) | 2014-07-29 | 2023-04-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Estimation of background noise in audio signals |
Also Published As
Publication number | Publication date |
---|---|
KR100399057B1 (ko) | 2003-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goldberg | A practical handbook of speech coders | |
KR100870502B1 (ko) | 배경잡음의 존재하에 음성 강화를 위한 방법 및 기기 | |
McCree et al. | A mixed excitation LPC vocoder model for low bit rate speech coding | |
AU2007210334B2 (en) | Non-intrusive signal quality assessment | |
KR20010014352A (ko) | 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치 | |
KR20080093074A (ko) | 오디오신호들의 분류 | |
JPH09503874A (ja) | 減少レート、可変レートの音声分析合成を実行する方法及び装置 | |
CN110663080A (zh) | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 | |
McClellan et al. | Variable-rate CELP based on subband flatness | |
EP0634041B1 (en) | Method and apparatus for encoding/decoding of background sounds | |
KR0155315B1 (ko) | Lsp를 이용한 celp보코더의 피치 검색방법 | |
KR100399057B1 (ko) | 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법 | |
Vlaj et al. | Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria | |
KR100291584B1 (ko) | 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법 | |
Ahmadi et al. | Low bit-rate speech coding based on an improved sinusoidal model | |
Srivastava et al. | Performance evaluation of Speex audio codec for wireless communication networks | |
GB2343822A (en) | Using LSP to alter frequency characteristics of speech | |
Kim et al. | A voice activity detection algorithm for wireless communication systems with dynamically varying background noise | |
Stefanovic et al. | A 2.4/1.2 kb/s speech coder with noise pre-processor | |
Holmes | Robust measurement of fundamental frequency and degree of voicing | |
Heute | Telephone-speech quality | |
Shi et al. | Experimental study on noise pre-processing for a low bit rate speech coder | |
Conway et al. | Evaluation of a technique involving processing with feature extraction to enhance the intelligibility of noise-corrupted speech | |
Ekeroth | Improvements of the voice activity detector in AMR-WB | |
Farsi et al. | A novel method to modify VAD used in ITU-T G. 729B for low SNRs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120831 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20130830 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20140917 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20150901 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20160901 Year of fee payment: 14 |
|
LAPS | Lapse due to unpaid annual fee |