KR100399057B1 - 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법 - Google Patents

이동통신 시스템의 음성 활성도 측정 장치 및 그 방법 Download PDF

Info

Publication number
KR100399057B1
KR100399057B1 KR10-2001-0047560A KR20010047560A KR100399057B1 KR 100399057 B1 KR100399057 B1 KR 100399057B1 KR 20010047560 A KR20010047560 A KR 20010047560A KR 100399057 B1 KR100399057 B1 KR 100399057B1
Authority
KR
South Korea
Prior art keywords
flag
voice activity
signal
determining
lpc
Prior art date
Application number
KR10-2001-0047560A
Other languages
English (en)
Other versions
KR20030034260A (ko
Inventor
김형중
지덕구
박만호
윤병식
최송인
김대식
김재원
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2001-0047560A priority Critical patent/KR100399057B1/ko
Publication of KR20030034260A publication Critical patent/KR20030034260A/ko
Application granted granted Critical
Publication of KR100399057B1 publication Critical patent/KR100399057B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야본 발명은 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.2. 발명이 해결하려고 하는 기술적 과제본 발명은 선형 예측 계수(LPC : Linear Prediction Coefficient) 잔여 신호의 첨두치 측정(PM)을 이용하여 배경 잡음이 존재하는 음성 통화에서 효율적으로 음성 구간을 배경 잡음 구간과 구별할 수 있도록 하는, 이동통신 시스템에서의 음성 활성도 측정(VAD) 장치 및 그 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.3. 발명의 해결 방법의 요지본 발명은, 이동통신 시스템의 음성 활성도 측정(VAD) 장치에 있어서, 인가되는 입력 음성신호를 분석하여, 선형예측계수(LPC)를 추출하기 위한 LPC 분석수단; 상기 LPC로부터 음성신호를 재생하기 위한 LPC 합성수단; 상기 입력 음성신호에서 상기 LPC 합성수단으로부터 전달된 재생신호를 감산하여 LPC 잔여신호를 생성하기 위한 합산수단; 상기 LPC 잔여신호를 이용하여 첨두치 측정(PM)을 수행하기 위한 PM 계산수단; 상기 PM 계산수단으로부터 전달된 PM 값을 이용하여 제1 플래그를 결정하기 위한 제1 플래그 결정수단; 상기 입력 음성신호의 프레임 에너지, 주파수 특성(영교차율) 및 분포를 분석하여, 이에 대한 제2 플래그를 결정하기 위한 제2 플래그 결정 수단; 및 상기 제1 및 제2 플래그 결정수단을 통해 결정된 제1 및 제2 플래그를 이용하여 음성 활성도를 결정하기 위한 음성 활성도 결정수단을 포함함.4. 발명의 중요한 용도본 발명은 이동통신 시스템 등에 이용됨.

Description

이동통신 시스템의 음성 활성도 측정 장치 및 그 방법{Apparatus for Voice Activity Detection in Mobile Communication System and Method Thereof}
본 발명은 이동통신 시스템의 음성 활성도 측정(VAD : Voice Activity Detection) 장치 및 그 방법에 관한 것으로, 특히 다양하게 변하는 주변 잡음이 존재하는 환경에서 활성 음성과 배경 잡음을 정확하게 판단할 수 있도록 하는 이동통신 시스템에서의 음성 활성도 측정 장치 및 방법과, 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
일반적으로, 디지털 이동통신 시스템은 좋은 통화품질과 주파수 효율 증대를 위해 음성 부호화기를 사용하는데, 음성 부호화기는 음성 샘플을 입력으로 특정한 알고리즘을 사용하여 음성신호를 압축한다.
일상적인 음성 통화인 경우, 한쪽 편에서 활성 음성 구간이 존재하는 구간, 즉 음성 활성도는 50% 이하로서 이의 활용을 통하여 추가적인 주파수 효율의 증대가 가능하다. 즉, 배경 잡음 구간과 음성 구간을 각각 다른 압축률로 압축함으로써 이동통신 시스템의 용량을 증가시킬 수 있다.
이를 위해서는, 활성 음성의 유무를 판단하는 음성 활성도 측정 알고리즘이 요구되는데, 주변잡음이 존재하지 않는 구간에서는 간단한 알고리즘으로도 동작이 가능하지만, 이동통신 환경과 같이 다양하게 변화하는 주변 잡음이 존재하는 환경에서는 세밀한 고려가 요구되어진다. 특히, 활성 음성과 배경 잡음의 경계 구간에서의 정확한 판단은 주파수 효율 및 음성 품질에 영향을 미치게 된다.
음성 활성화 측정을 위한 종래의 방법에는 10msec 또는 20msec 음성 프레임을 기준으로 프레임 에너지, 신호의 주파수 대역에 따른 분포 및 영교차율 등의 방법이 있으며, 이를 사용한 종래의 음성 부호화기에는 10msec 프레임 크기를 기준으로 한 국제 전기 통신 연합 통신부문(ITU-T : International Telecommunication Union-Telecommunication)의 G.792B와 20msec 프레임 크기를 기준으로 QCELP(Qualcomm-Codec Excited Linear Predictive Coding), EVRC(Enhanced Variable Rate Codec) 및 AMR(Advanced Multi Rate codec) 등이 있다.
일반적으로, 음성은 무성음과 유성음으로 구분할 수 있으며, 무성음은 일반적으로 낮은 에너지 값을 가지게 되는데, 특히 파열음(unvoiced plosives)의 경우는 활성 음성이 존재하는 구간에 이어진 묵음 구간이 존재하게 된다.
그러나, 활성 음성과 묵음이 한 프레임 내에 존재하는 경우, 이러한 구간의 음성 활성도 측정 알고리즘으로 프레임 에너지 및 주파수에 따른 에너지 분포 등의 방법만을 사용하게 되면 주변의 배경 잡음으로 인하여 묵음 구간으로 처리되는 경우가 다수 발생하여 음성 품질의 저하를 야기하는 문제점이 있었다.
이러한 문제점을 해결하기 위한 종래의 기술로서, "METHOD AND APPARATUS FOR DETECTING VOICE ACTIVITY IN A SPEECH SIGNAL"이 미합중국(US) 특허 제6,188,981호에 개시되어 있다
상기 특허 제6,188,981호는 통신 시스템에서 활성 음성(active speech) 구간과 묵음(non-active speech) 구간이 연속되는 음성신호를 입력으로 받는 음성 부호화기에서 프레임마다 음성 활성도를 결정하는 방법 및 장치를 제안한 것으로서, 입력 음성신호에서 피치 이득(Pitch Gain), 피치 지연(Pitch Lag), 프레임 전 밴드 에너지(Frame Full Band Energy) 및 LSF 등 4가지 파라미터를 사용하고 있다.
그러나, 상기 특허 제6,188,981호는 주기적인 피치 펄스(pitch pulse)에 의한 유성음의 경우, 한 프레임 내에서 배경 잡음 또는 무성음에서 유성음으로 변화하는 경우, 혹은 한 프레임 내에서 배경 잡음에서 파열음으로 변화하는 경우에는 음성 활성도 측정에 있어서 성능이 저하되는 문제점이 있었다.
본 발명은 상기한 바와 같은 종래 기술의 제반 문제점을 해결하기 위해 제안된 것으로, 선형 예측 계수(LPC : Linear Prediction Coefficient) 잔여 신호의 첨두치 측정(PM)을 이용하여 배경 잡음이 존재하는 음성 통화에서 효율적으로 음성 구간을 배경 잡음 구간과 구별할 수 있도록 하는, 이동통신 시스템에서의 음성 활성도 측정(VAD) 장치를 제공하는데 그 목적이 있다.
또한, 본 발명은 LPC 잔여 신호의 첨두치 측정(PM)을 이용하여 배경 잡음이 존재하는 음성 통화에서 효율적으로 음성 구간을 배경 잡음 구간과 구별할 수 있도록 하는, 이동통신 시스템에서의 음성 활성도 측정(VAD) 방법을 제공하는데 또 다른 목적이 있다.
또한, 본 발명은 LPC 잔여 신호의 첨두치 측정(PM)을 이용하여 배경 잡음이 존재하는 음성 통화에서 효율적으로 음성 구간을 배경 잡음 구간과 구별할 수 있도록 하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 또 다른 목적이 있다.
도 1 은 본 발명에 따른 음성 활성도 측정(VAD) 장치의 일실시예 구성도.
도 2 는 본 발명에 따른 음성 활성도 측정(VAD) 방법에 대한 일실시예 흐름도.
도 3a 는 본 발명에 따라 잡음에 의해 오염된 음성 샘플을 나타내는 일실시예 파형도.
도 3b 는 본 발명에 따라 전밴드 에너지(full-band energy)를 나타내는 일실시예 파형도.
도 3c 는 본 발명에 따라 주파수에 의한 에너지 분포를 나타내는 일실시예 파형도.
도 3d 는 본 발명에 따라 영교차율을 나타내는 일실시예 파형도.
도 3e 는 본 발명에 따라 PM 값을 나타내는 일실시예 파형도.
* 도면의 주요 부분의 부호에 대한 설명
101 : LPC 분석기 102 : LPC 합성기
104 : PM 계산기 106 : 프레임 에너지 계산기
108 : 주파수 분포 계산기 110 : 영교차율 계산기
105, 107, 109, 111 : 플래그 결정기
112 : 음성 활성도 측정기
상기 목적을 달성하기 위한 본 발명은, 이동통신 시스템의 음성 활성도 측정(VAD) 장치에 있어서, 인가되는 입력 음성신호를 분석하여, 선형예측계수(LPC)를 추출하기 위한 LPC 분석수단; 상기 LPC로부터 음성신호를 재생하기 위한 LPC 합성수단; 상기 입력 음성신호에서 상기 LPC 합성수단으로부터 전달된 재생신호를 감산하여 LPC 잔여신호를 생성하기 위한 합산수단; 상기 LPC 잔여신호를 이용하여 첨두치 측정(PM)을 수행하기 위한 PM 계산수단; 상기 PM 계산수단으로부터 전달된 PM 값을 이용하여 제1 플래그를 결정하기 위한 제1 플래그 결정수단; 상기 입력 음성신호의 프레임 에너지, 주파수 특성(영교차율) 및 분포를 분석하여, 이에 대한 제2 플래그를 결정하기 위한 제2 플래그 결정 수단; 및 상기 제1 및 제2 플래그 결정수단을 통해 결정된 제1 및 제2 플래그를 이용하여 음성 활성도를 결정하기 위한 음성 활성도 결정수단을 포함하여 이루어진 것을 특징으로 한다.
그리고, 본 발명은 이동통신 시스템의 음성 활성도 측정(VAD) 방법에 있어서, 인가되는 입력 음성신호를 프레임을 구성하고, 오프셋 신호를 처리하기 위해 각 프레임을 전처리하는 제 1 단계; 상기 입력 음성신호의 선형예측계수(LPC)를 추출한 후, 상기 LPC로부터 음성신호를 재생하고, 상기 입력 음성신호에서 재생신호를 감산하여, 음성의 단구간 상관관계가 제거된 LPC 잔여신호를 생성하는 제 2 단계; 상기 LPC 잔여신호를 이용하여 첨두치 측정(PM)을 수행하고, PM 값을 이용하여 제1 플래그를 결정하는 제 3 단계; 오프셋이 제거된 음성신호의 프레임 에너지, 주파수 특성 및 분포를 분석하고, 이에 대한 제2 플래그를 결정하는 제 4 단계; 및 상기 제1 및 제2 플래그를 이용하여 음성 활성도를 측정하는 제 5 단계를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명은 음성 활성도 측정(VAD)을 위하여, 프로세서를 구비한 음성 활성도 측정(VAD) 장치에, 인가되는 입력 음성신호를 프레임을 구성하고, 오프셋 신호를 처리하기 위해 각 프레임을 전처리하는 제 1 기능; 상기 입력 음성신호의 선형예측계수(LPC)를 추출한 후, 상기 LPC로부터 음성신호를 재생하고, 상기 입력 음성신호에서 재생신호를 감산하여, 음성의 단구간 상관관계가 제거된 LPC 잔여신호를 생성하는 제 2 기능; 상기 LPC 잔여신호를 이용하여 첨두치 측정(PM)을 수행하고, PM 값을 이용하여 제1 플래그를 결정하는 제 3 기능; 오프셋이 제거된 음성신호의 프레임 에너지, 주파수 특성 및 분포를 분석하고, 이에 대한 제2 플래그를 결정하는 제 4 기능; 및 상기 제1 및 제2 플래그를 이용하여 음성 활성도를 측정하는 제 5 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
일반적으로, 선형 예측 계수(LPC) 분석 및 합성 기술은 음성신호를 선형 필터 구조로 모델링한 것으로, 사람의 폐에서 나오는 공기를 여기 신호(excitation signal)로 정의하고, 사람의 성도를 선형 필터(linear filter)로 정의하여, 여기 신호가 선형 필터를 통과함으로써 음성신호가 발생하는 것으로 정의한 것이다.
LPC 분석은 10차의 선형 필터의 계수를 구하는 과정을 나타내며, LPC 합성은 LPC 분석을 통하여 구한 계수로부터 음성신호를 재생하는 것이다.
LPC 부호화기(음성 분석에 의해 추출된 파라미터를 사용하여 음성을 재합성하는 장치)의 기능은 크게 입력된 음성을 분석하고 송신하는 기능과 전송받은 부호로부터 다시 음성신호를 합성해내는 기능의 두 가지로 나뉜다.
분석시에 이루어지는 작업은 입력된 음성이 무성음인지 유성음인지 구별하는 작업, 음성의 고저 주기를 추출하는 작업, 여파기 계수를 결정하는 작업 등으로 나뉜다. 합성시에는 이렇게 전송된 파라미터를 조합하여 원래의 음성을 만들어낸다.
도 1 은 본 발명에 따른 음성 활성도 측정(VAD) 장치의 일실시예 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 음성 활성도 측정(VAD) 장치는 LPC 분석기(101), LPC 합성기(102), 합산기(103), 첨두치 측정(PM) 계산기(104), 프레임 에너지 계산기(106), 주파수 분포 계산기(108), 영교차율 계산기(110), 플래그 결정기(105, 107, 109, 111) 및 음성 활성도 측정기(112)를 포함하고 있다.
상기 LPC 분석기(101)는 음성신호를 수신하여 이를 분석하여 계수를 추출하는 기능은 담당하며, 상기 LPC 합성기(102)는 상기 계수로부터 음성신호를 재생하는 기능을 담당한다.
상기 합산기(103)는 수신받은 음성신호에서 상기 LPC 합성기(102)로부터 수신받은 재생 신호를 감산하여 LPC 잔여 신호를 추출하는 기능을 담당한다.
상기 프레임 에너지 계산기(106)는 하기의 [수학식 1]에 의해 전밴드 에너지(Full-Band Energy)를 구하는 기능을 담당한다.
는 첫 번째 자기 상관 계수(First Autocorrelation Coefficient)이다.
음성신호는 유성음 구간에서 많은 에너지를 가지고, 무성음 구간에서는 적은 에너지를 가지므로, 에너지 레벨을 측정하는 것은 묵음 구간을 검출하는데 기본적이고 효과적인 방법이다.
상기 플래그 결정기(107)는 묵음 구간을 결정하는 플래그를 하기의 [수학식 2]에 의해 결정하는 기능을 담당한다. 상기는 배경 잡음 레벨에 기준한 적응 임계치에 따라서 결정된다.
상기 주파수 분포 계산기(108)는 주파수에 따른 에너지 분포(Ratio of Low-band to Full-band Energy)를 계산하는 기능을 담당한다.
일반적으로, 유성음의 경우 그 음성을 내었을 때의 음파를 주파수 측정분석기에 걸면 각각의 음성에 고유한 주파수 분포도형이 얻어진다. 모음이면 성대의 1초간의 진동수를 나타내는 기본 주파수(대체로 75∼300Hz)와, 그 정수 배의 고조파(harmonics)로 이루어지고 있다. 이 고조파 중 몇 개가가 강조되는 것이 있고(대체로 3개), 그 낮은 것부터 차례로 제1, 제2, 제3 음조(formant)라고 한다.
유성음의 경우 1KHz 이하에 제 1음조(formant)가 위치하며, 많은 에너지가 집중된다. 한편, 무성음의 대부분은 높은 주파수 대역에 주파수가 집중되며, 배경 잡음의 경우에는 약간 고른 주파수 분포를 나타낸다.
따라서, 주파수 분포를 조사함으로써 활성 음성과 배경 잡음을 구별하는 것이 가능하다.
1KHz 주파수 대역 내의 에너지인 저대역 에너지는 하기의 [수학식 3]에 따라 계산한다.
는 차단 주파수(Cutoff Frequency)가 1KHz인 필터의 주파수 응답이며,은 13차의 자기 상관 계수에서 유도된 13 * 13 차원의 토플리츠 행렬(Toeplitz Matrix)이다.
따라서, 주파수에 따른 에너지 분포는 하기의 [수학식 4]에 의해 구한다.
상기 플래그 결정기(109)는 주파수에 따른 에너지 분포를 나타내는 플래그를 하기의 [수학식 5]에 의하여 결정하는 기능을 담당한다.
는 각각 무성음과 유성음에 대하여 실험적으로 추출된 임계치이다.
상기 영교차율 계산기(110)는 인가된 음성신호의 영교차율(Zero-Crossing Rate)을 계산하는 기능을 담당한다. 음성신호의 영교차율은 한 프레임 내에서 인접 음성 샘플간의 부호 변화(sign change)의 양으로 음성신호의 주파수 특성을 내포하고 있다. 무성음일 경우 영교차율은 큰 값을 가진다.
영교차율은 하기의 [수학식 6]에 의해 구할 수 있다.
은 시그넘 함수(Signum Function)로가 "0"보다 크면 출력이 "1"이고, 그렇지 않으면 출력이 "0"인 함수이다.
상기 플래그 결정기(111)는 유성음과 무성음의 영교차율에 대한 각각의 플래그인를 하기의 [수학식 7] 및 [수학식 8]에 의해 결정하는 기능을 담당한다.
는 각각 유성음과 무성음에 대하여 실험적으로 추출된 임계치이다.
그러나, 프레임 내에 나머지 샘플의 절대값보다 매우 큰 펄스가 존재하는 경우와 배경 잡음 존재시 활성 음성 구간의 시작과 끝 구간에서는 그 특성이 손상을 받게 됨으로 인해 상기 세 파라미터에 의해서는 좋은 성능의 음성 활성도 측정(VAD) 결과를 얻지 못할 수도 있었다.
따라서, 본 발명에서는 상기 세 파라미터에 부가하여, LPC 잔여 신호의 PM값을 이용한 파라미터를 제안한다.
PM값이 매우 큰 경우는 주기적인 피치 펄스(pitch pulse)에 의한 유성음이 존재하는 경우, 한 프레임 내에서 배경 잡음 또는 무성음으로부터 유성음으로 변화하는 경우 및 한 프레임 내에서 배경 잡음에서 파열음으로 변화하는 경우 등이다.
상기 PM 계산기(104)는 LPC 잔여 신호를 이용하여 PM값을 하기의 [수학식 9]에 의해 계산하는 기능을 담당한다.
은 LPC 잔여 신호이며,은 프레임의 크기이다.
상기 플래그 결정기(105)는 PM 값에 따른 플래그를 각각 하기의 [수학식 10] 및 [수학식 11]에 의해 결정하는 기능을 담당한다.
는 각각 무성음과 파열음을 포함하는 유성음에 대하여 실험적으로 추출된 임계치이다.
상기 음성 활성도 측정기(112)는 상기 [수학식 2], [수학식 5], [수학식 7], [수학식 8], [수학식 10] 및 [수학식 11]에 의해 구한 플래그들을 이용하여 하기의 [수학식 12]에 의해 음성 활성도를 측정하는 기능을 담당한다.
여기서, "", "" 및 "" 기호는 각각 논리 연산자 "not", "or" 및 "and"를 각각 의미한다.
음성 활성도 값이 "0"이면 묵음 구간(inactive speech frame)이고, "0"이 아니면 활성 음성 구간(active speech frame)이라 할 수 있다.
도 2 는 본 발명에 따른 음성 활성도 측정(VAD) 방법에 대한 일실시예 흐름도이다.
도 2에 도시된 바와 같이, 본 발명의 음성 활성도 측정(VAD) 방법은, 인가되는 입력 음성신호를 수신하여 해당 신호가 실제로 음성을 포함하고 있는지 여부를 알기 위해 프레임을 구성하고(201), 오프셋 신호를 추출하기 위해서 각 프레임을 전처리(pre-processing)한다(202). 그리고, 인가되는 입력 음성신호를 분석하여 선형예측계수(LPC)를 추출한 후, LPC로부터 음성신호를 재생하여, 입력 음성신호에서 재생신호를 감산하여 LPC 잔여신호를 생성한다(203).
이후, 상기 수학식에 따라 전화 대역폭(telephone bandwidth) 내의 전밴드 에너지(full-band energy)를 이용하여 프레임 에너지를 계산하고(204), 전밴드의 에너지에 대한 1000㎐ 이하의 에너지의 비를 이용하여 주파수 분포를 계산한다(205).
뿐만 아니라, 영교차율을 계산하고(206), LPC 잔여 신호를 이용하여 PM을 계산한다(207).
상기 계산에 의해 플래그가 결정되고(208), 본 발명의 음성 활성도 측정(VAD) 방법은 상기 플래그를 이용하여 음성 활성도를 결정한다(209).
본 발명에 따른 음성 활성도 측정(VAD) 방법의 성능을 실험하기 위하여, 남자 화자 2명과 여자 화자 2명으로 이루어진 4개 문장으로 1,145에 프레임에 해당하는 음성 데이터 베이스를 사용하였다. 상기 음성 데이터 베이스의 음성신호는 전화 대역폭의 주파수 대역폭을 가지며 -12dBov의 레벨로 녹음되어 있으며, 이를 정리하면 다음의 [표 1]과 같다.
문장 샘플의 갯수 프레임의 갯수
남자 샘플 1 20,800 260
샘플 2 25,360 317
여자 샘플 1 19,840 248
샘플 2 25,600 320
합계 91,600 1,145
3가지 형태의 배경 잡음, 즉 자동차 소음, 거리 소음, 군중의 왁자지껄한 소음이 50dB부터 10dB의 범위의 신호 대 잡음비(Signal-to-Noise Ratio; 이하 'SNR'이라 한다)에 해당되게 인가되었다.
도 3 은 본 발명에 따라 4가지 파라미터의 잡음이 섞인 음성 샘플을 나타내는 일실시예 파형도로서, 10dB SNR의 자동차 소음을 배경으로 한 환경에서 측정되었다.
도 3a 는 본 발명에 따라 잡음에 의해 오염된 음성 샘플을 나타내는 일실시예 파형도이다.
도 3b 는 본 발명에 따라 전밴드 에너지(full-band energy)를 나타내는 일실시예 파형도이다.
도면에 도시된 바와 같이, 본 발명의 전밴드 에너지의 측정은, 낮은 프레임 에너지를 가지는 무성음은 배경 잡음 때문에 유성음처럼 검출할 수는 없지만, 활성 프레임과 같은 에너지가 집중된 프레임에 의해 유성음을 결정할 수 있음을 알 수 있다. 따라서, 프레임 에너지를 사용하는 것을 제1 파라미터로 사용하는 것이다.
도 3c 는 본 발명에 따라 주파수에 의한 에너지 분포를 나타내는 일실시예 파형도이다.
도면에 도시된 바와 같이, 본 발명의 주파수에 의한 에너지 분포의 측정은, 유성음과 배경 잡음이 저주파수 대역에서 집중되고, 무성음은 더 낮은 밴드 에너지를 가짐을 알 수 있다. 이 주파수 분포에 의한 에너지 분포는 무성음 검출에 이용될 수 있다.
도 3d 는 본 발명에 따라 영교차율을 나타내는 일실시예 파형도이다.
도면에 도시된 바와 같이, 본 발명의 영교차율은, 유성음이나 배경 잡음의 경우보다 무성음의 경우에 훨씬 큰 값을 가짐을 알 수 있다. 따라서, 영교차율 무성음 검출에 이용될 수 있다.
도 3e 는 본 발명에 따라 PM 값을 나타내는 일실시예 파형도이다.
도면에 도시된 바와 같이, 본 발명의 PM 값은 유성음 프레임과, 파열음 또는 음성의 시작 및 끝 부분과 같이 프레임 내에 큰 진폭을 가지는 펄스를 포함하는 프레임에서 매우 큰 값을 나타냄을 알 수 있다.
이 파라미터는 유성음, 유성음의 시작과 끝 부분 및 파열음을 검출하는데 유용하게 이용할 수 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되는 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 주파수 자원을 이용하는 디지털 이동통신 시스템의 음성 부호화기에서 음성 활성도 측정(VAD)시, LPC 잔여 신호에 의한 PM 값을 부여함으로써, 예를 들면 20dB 배경 잡음 환경 등에서 동일한 음성 품질에서 요구되는 데이터 전송률을 감소시켜, 가입자 용량을 증대할 수 있도록 하는 효과가 있다.
또한, 본 발명은 주파수 자원을 이용하는 디지털 이동통신 시스템의 음성 부호화기에서 음성 활성도 측정(VAD)시, LPC 잔여 신호에 의한 PM 값을 부여함으로써, 예를 들면 10dB 배경 잡음 환경 등의 동일한 통화자 환경에서 통화품질을 개선할 수 있도록 하는 효과가 있다.

Claims (16)

  1. 이동통신 시스템의 음성 활성도 측정(VAD) 장치에 있어서,
    인가되는 입력 음성신호를 분석하여, 선형예측계수(LPC)를 추출하기 위한 LPC 분석수단;
    상기 LPC로부터 음성신호를 재생하기 위한 LPC 합성수단;
    상기 입력 음성신호에서 상기 LPC 합성수단으로부터 전달된 재생신호를 감산하여 LPC 잔여신호를 생성하기 위한 합산수단;
    상기 LPC 잔여신호를 이용하여 첨두치 측정(PM)을 수행하기 위한 PM 계산수단;
    상기 PM 계산수단으로부터 전달된 PM 값을 이용하여 제1 플래그를 결정하기 위한 제1 플래그 결정수단;
    상기 입력 음성신호의 프레임 에너지, 주파수 특성(영교차율) 및 분포를 분석하여, 이에 대한 제2 플래그를 결정하기 위한 제2 플래그 결정 수단; 및
    상기 제1 및 제2 플래그 결정수단을 통해 결정된 제1 및 제2 플래그를 이용하여 음성 활성도를 결정하기 위한 음성 활성도 결정수단
    을 포함하는 이동통신 시스템의 음성 활성도 측정(VAD) 장치.
  2. 제 1항에 있어서,
    상기 PM 계산수단은,
    하기의 수학식에 PM 값을 계산하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 장치.
    (여기서,은 LPC 잔여 신호이며,은 프레임의 크기임)
  3. 제 1 항에 있어서,
    상기 제1 플래그 결정 수단은,
    하기의 수학식에 의해 상기 제1 플래그를 결정하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 장치.
    ,
    (는 각각 PM 값에 따른 플래그이며,는 각각 무성음과 파열음을 포함하는 유성음에 대하여 실험적으로 추출된 임계치임)
  4. 제 1 항에 있어서,
    상기 제2 플래그 결정수단은,
    상기 입력 음성신호의 전밴드 에너지를 계산하기 위한 프레임 에너지 계산수단;
    상기 프레임 에너지 계산수단으로부터 수신된 값을 이용하여 묵음구간을 나타내는 플래그를 결정하는 제3 플래그 결정 수단;
    상기 입력 음성신호의 주파수에 따른 에너지 분포를 계산하기 위한 주파수 분포 계산수단;
    상기 주파수 분포 계산수단으로부터 수신된 값을 이용하여 주파수에 따른 에너지 분포를 나타내는 플래그를 결정하기 위한 제4 플래그 결정수단;
    상기 입력 음성신호의 영교차율을 계산하기 위한 영교차율 계산수단; 및
    상기 영교차율 계산수단으로부터 수신된 값을 이용하여 유성음과 무성음에 대한 플래그를 결정하기 위한 제5 플래그 결정수단
    을 포함하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 장치.
  5. 제 4 항에 있어서,
    상기 프레임 에너지 계산수단은,
    하기의 수학식에 의해 전밴드 에너지를 계산하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 장치.
    (여기서,는 전밴드 에너지이며,는 첫 번째 자기 상관 계수임)
  6. 제 5 항에 있어서,
    상기 제3 플래그 결정 수단은,
    하기의 수학식에 의해 묵음구간을 나타내는 플래그를 결정하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 장치.
    (여기서,는 묵음 구간을 결정하는 플래그이며,는 배경 잡음 레벨에 기준한 적응 임계치임)
  7. 제 4 항에 있어서,
    상기 주파수 분포 계산수단은,
    하기의 수학식에 의해 주파수에 따른 에너지 분포를 계산하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 장치.
    (여기서,는 주파수에 따른 에너지 분포이며,은 1KHz 주파수 대역 내의 에너지인 저대역 에너지로서임. 여기서는 차단 주파수가 1KHz인 필터의 주파수 응답이며,은 13차의 자기 상관 계수에서 유도된 13 * 13 차원의 토플리츠 행렬임. 또한,는 전밴드 에너지임)
  8. 제 7 항에 있어서,
    상기 제3 플래그 결정수단은,
    하기의 수학식에 의해 주파수에 따른 에너지 분포를 나타내는 플래그를 결정하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 장치.
    (여기서,는 각각 무성음과 유성음에 대하여 실험적으로 추출된 임계치임)
  9. 제 4 항에 있어서,
    상기 영교차율 계산수단은,
    하기의 수학식에 의해 영교차율을 계산하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 장치.
    (여기서,은 영교차율이며,은 시그넘 함수로가 "0"보다 크면 출력이 "1"이고, 그렇지 않으면 출력이 "0"인 함수임)
  10. 제 9 항에 있어서,
    상기 제5 플래그 결정수단은,
    하기의 수학식에 의해 유성음과 무성음에 대한 플래그를 결정하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 장치.
    (여기서,는 유성음과 무성음의 영교차율에 대한 각각의 플래그이며,는 각각 유성음과 무성음에 대하여 실험적으로 추출된 임계치임)
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 음성 활성도 결정수단은,
    하기의 수학식에 의해 음성 활성도를 결정하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 장치.
    (는 음성 활성도이며, "", "" 및 "" 기호는 각각 논리 연산자 "not", "or" 및 "and"임)
  12. 이동통신 시스템의 음성 활성도 측정(VAD) 방법에 있어서,
    인가되는 입력 음성신호를 프레임을 구성하고, 오프셋 신호를 처리하기 위해 각 프레임을 전처리하는 제 1 단계;
    상기 입력 음성신호의 선형예측계수(LPC)를 추출한 후, 상기 LPC로부터 음성신호를 재생하고, 상기 입력 음성신호에서 재생신호를 감산하여, 음성의 단구간 상관관계가 제거된 LPC 잔여신호를 생성하는 제 2 단계;
    상기 LPC 잔여신호를 이용하여 첨두치 측정(PM)을 수행하고, PM 값을 이용하여 제1 플래그를 결정하는 제 3 단계;
    오프셋이 제거된 음성신호의 프레임 에너지, 주파수 특성 및 분포를 분석하고, 이에 대한 제2 플래그를 결정하는 제 4 단계; 및
    상기 제1 및 제2 플래그를 이용하여 음성 활성도를 측정하는 제 5 단계
    를 포함하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 방법.
  13. 제 12 항에 있어서,
    상기 제 4 단계는,
    인가된 입력 음성신호의 전밴드 에너지를 계산하는 제 6 단계; 및
    상기 전밴드 에너지를 이용하여 묵음구간을 나타내는 플래그를 결정하는 제 7 단계
    를 포함하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 방법.
  14. 제 12 항에 있어서,
    상기 제 4 단계는,
    인가된 입력 음성신호의 주파수에 따른 에너지 분포를 계산하는 제 6 단계; 및
    상기 주파수에 따른 에너지 분포를 이용하여 주파수에 따른 에너지 분포를 나타내는 플래그를 결정하는 제 7 단계
    를 포함하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 방법.
  15. 제 12항에 있어서,
    상기 제 4 단계는,
    인가된 입력 음성신호의 영교차율을 계산하는 제 6 단계; 및
    상기 영교차율을 이용하여 유성음과 무성음에 대한 플래그를 결정하는 제 7 단계
    를 포함하는 것을 특징으로 하는 이동통신 시스템의 음성 활성도 측정(VAD) 방법.
  16. 음성 활성도 측정(VAD)을 위하여, 프로세서를 구비한 음성 활성도 측정(VAD) 장치에,
    인가되는 입력 음성신호를 프레임을 구성하고, 오프셋 신호를 처리하기 위해 각 프레임을 전처리하는 제 1 기능;
    상기 입력 음성신호의 선형예측계수(LPC)를 추출한 후, 상기 LPC로부터 음성신호를 재생하고, 상기 입력 음성신호에서 재생신호를 감산하여, 음성의 단구간 상관관계가 제거된 LPC 잔여신호를 생성하는 제 2 기능;
    상기 LPC 잔여신호를 이용하여 첨두치 측정(PM)을 수행하고, PM 값을 이용하여 제1 플래그를 결정하는 제 3 기능;
    오프셋이 제거된 음성신호의 프레임 에너지, 주파수 특성 및 분포를 분석하고, 이에 대한 제2 플래그를 결정하는 제 4 기능; 및
    상기 제1 및 제2 플래그를 이용하여 음성 활성도를 측정하는 제 5 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2001-0047560A 2001-08-07 2001-08-07 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법 KR100399057B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0047560A KR100399057B1 (ko) 2001-08-07 2001-08-07 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0047560A KR100399057B1 (ko) 2001-08-07 2001-08-07 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20030034260A KR20030034260A (ko) 2003-05-09
KR100399057B1 true KR100399057B1 (ko) 2003-09-26

Family

ID=29561873

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0047560A KR100399057B1 (ko) 2001-08-07 2001-08-07 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100399057B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MXPA05013518A (es) * 2003-06-25 2006-03-09 Interdigital Tech Corp Ecualizador basado en ventana deslizante de complejidad reducida.
KR101895391B1 (ko) 2014-07-29 2018-09-07 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 오디오 신호의 배경 잡음 추정

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JPH08139688A (ja) * 1994-11-04 1996-05-31 Nec Corp 音声符号化装置
KR19990039422U (ko) * 1998-04-10 1999-11-15 서순자 음식 비치 용기용 전기 히터
KR100363309B1 (ko) * 1993-09-14 2003-02-17 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 음성액티비티검출기

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
KR100363309B1 (ko) * 1993-09-14 2003-02-17 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 음성액티비티검출기
JPH08139688A (ja) * 1994-11-04 1996-05-31 Nec Corp 音声符号化装置
KR19990039422U (ko) * 1998-04-10 1999-11-15 서순자 음식 비치 용기용 전기 히터

Also Published As

Publication number Publication date
KR20030034260A (ko) 2003-05-09

Similar Documents

Publication Publication Date Title
Goldberg A practical handbook of speech coders
KR100870502B1 (ko) 배경잡음의 존재하에 음성 강화를 위한 방법 및 기기
KR20010014352A (ko) 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치
JPH09503874A (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
US5706392A (en) Perceptual speech coder and method
EP0634041B1 (en) Method and apparatus for encoding/decoding of background sounds
Bansal et al. Low bit-rate speech coding based on multicomponent AFM signal model
KR0155315B1 (ko) Lsp를 이용한 celp보코더의 피치 검색방법
KR100399057B1 (ko) 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
KR100291584B1 (ko) 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법
Kasap et al. A unified approach to speech enhancement and voice activity detection
GB2343822A (en) Using LSP to alter frequency characteristics of speech
Park Signal Enhancement of a Variable Rate Vocoder with a Hybrid domain SNR Estimator
Kim et al. A voice activity detection algorithm for wireless communication systems with dynamically varying background noise
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
CN112233686B (zh) Nvocplus高速宽带声码器的语音数据处理方法
Heute Telephone-speech quality
Kura Novel pitch detection algorithm with application to speech coding
Holmes Robust measurement of fundamental frequency and degree of voicing
Farsi et al. A novel method to modify VAD used in ITU-T G. 729B for low SNRs
Haque et al. Zero-Crossings with adaptation for automatic speech recognition
Moharir et al. Spectral enhancement preprocessing for the HNM coding of noisy speech.
Ekeroth Improvements of the voice activity detector in AMR-WB
KR100322704B1 (ko) 음성신호의지속시간변경방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120831

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20130830

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20140917

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20150901

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20160901

Year of fee payment: 14

LAPS Lapse due to unpaid annual fee