KR100294920B1 - 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치 - Google Patents

심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치 Download PDF

Info

Publication number
KR100294920B1
KR100294920B1 KR1019980037173A KR19980037173A KR100294920B1 KR 100294920 B1 KR100294920 B1 KR 100294920B1 KR 1019980037173 A KR1019980037173 A KR 1019980037173A KR 19980037173 A KR19980037173 A KR 19980037173A KR 100294920 B1 KR100294920 B1 KR 100294920B1
Authority
KR
South Korea
Prior art keywords
voice
section
frame
average
par
Prior art date
Application number
KR1019980037173A
Other languages
English (en)
Other versions
KR20000019199A (ko
Inventor
김경선
공병구
최승호
김동국
진 김
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019980037173A priority Critical patent/KR100294920B1/ko
Publication of KR20000019199A publication Critical patent/KR20000019199A/ko
Application granted granted Critical
Publication of KR100294920B1 publication Critical patent/KR100294920B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames

Abstract

본 발명은 고속도로 같은 심한 잡음 환경에서의 음성 검출 향상을 위하여 이동 전화시스템에서 음의 재생과정 없이 보코더에서 생성된 음성특징 파라미터만을 이용한 음성검출방법 및 장치에 관한 것으로, 이러한 음성검출방법은 (a)상기 보코더에서 상기 음성특징 파라미터를 추출하는 과정; (b)상기 음성특징 파라미터를 이용하여 유사신호를 생성하는 과정; (c)상기 유사신호의 절대값을 합해 얻어진 프레임별 유사신호의 게인을 생성하는 과정; (d)상기 유사신호 게인의 중첩평균을 시간에 따라 구하는 과정; (e)상기 유사신호 게인의 중첩평균결과와 이전 프레임들의 결과를 이용하여 현재 프레임이 음성인지, 음성과 음성사이의 묵음구간인지를 결정하고, 음성과 음성사이의 묵음구간을 포함한 시작위치와 끝위치 정보를 알려주는 과정; (f)상기 (e)과정의 결과를 이용하여 음성구간의 시작위치와 끝위치 결과의 앞뒤 소정 프레임내에서 상기 (e)과정을 다시 수행시켜 음성출력 결과를 보정하는 과정; 및 (g)상기 (f)과정후 스펙트럼 정보를 이용하여 재보정하는 과정을 포함함을 특징으로 한다. 본 발명에 의하면, 적은 계산량으로도 음성 검출이 가능하므로 하드웨어의 추가 없이 소프트웨어만으로 기존 이동 전화기에 음성 검출 기능을 적용시킬 수 있다. 고속도로 같은 잡음이 다양한 환경에서도 음성 검출이 가능하므로 자동차 운전시에도 음성 다이얼링을 할 수 있다.

Description

심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출 방법 및 장치{The method and apparatus of speech detection for speech recognition of cellular communication system in advers noisy environment}
본 발명은 이동전화기 단말기에 관한 것으로, 특히 이동전화기 단말기에서 잡음이 포함된 입력 음성에서 음성 부분만 선별하는 방법에 관한 것이다.
음성 신호를 입력받아 음성 검출하는 방법은 많이 나와있지만 이동전화기에서 음성 검출하는 것은 기존과는 다른 문제이다. 우선 입력이 음성이 아니라 각 이동전화기에서 채택한 부호화기의 결과이다. 예를 들면 CDMA 방식에서는 10차 LSP 값과 프레임별 게인값과 피치 정보이다. 그리고, 요구되는 계산량이 1~2 MIPS 이내여야하며 메모리도 100 KByte 이내여야 한다. 따라서, 복호화기를 구동시켜 음성신호를 재생하여 음성구간을 검출하는 기존의 방법은 별도의 하드웨어 추가 없이는 CDMA나 GSM용 이동전화기에서는 불가능하게 된다. 한편, 이동전화기에서 생성되는 음성 특징 파라미터 중 패킷데이타를 디코딩해서 얻어진 게인값을 이용하여 음성 검출하는 방법은 조용한 환경에서는 소용이 있으나 잡음이 있는 고속도로 환경에서는 성공률이 극히 희박하다. 심지어는 잡음이 있는 일반 사무실에서도 성공률이 70% 정도로 저조하다.
도 1과 도 2는 종래의 음성검출장치를 도시한 것이다.
먼저, 도 1은 프레임별 게인 파라미터를 이용한 음성검출장치를 도시한 블록도이다.
입력 인터페이스(110)는 프레임별 패킷 데이터에서 소정시간이내에 보코더에서 음성특징 파라미터를 추출한다. 프레임 상태 판정부(120)는 상기 음성특징 파라미터의 게인 파라미터를 이용하여 현재 프레임이 음성인지, 음성과 음성 사이의 묵음 구간인지, 배경 잡음 구간인지 판정하여 1차 음성구간을 결정한다. 1차 음성구간 결정은 음성과 음성 사이의 묵음 구간을 포함한 시작 위치와 끝 위치 정보를 알려준다. 상기 1차 음성 구간 결과를 이용하여 후처리부(130)는 시작 위치와 끝 위치를 좀더 상세하게 보정해 준다.
도 2는 재생신호를 이용한 음성검출장치를 도시한 블록도이다.
입력 인터페이스(210)는 프레임별 패킷 데이터에서 소정시간이내에 보코더에서 음성특징 파라미터를 추출한다. 입력신호재생부(220)은 상기 음성특징 파라미터를 이용하여 재생신호를 생성한다. 게인생성부(230)는 상기 재생신호의 절대값을합해 얻어진 프레임별 재생신호의 게인을 생성한다. 프레임상태판정부(240)은 상기 재생신호 게인의 결과를 이용하여 현재 프레임이 음성인지, 음성과 음성 사이의 묵음 구간인지, 배경 잡음 구간인지 판정하여 1차 음성구간을 결정한다. 1차 음성구간 결정은 음성과 음성 사이의 묵음 구간을 포함한 시작 위치와 끝 위치 정보를 알려준다. 상기 1차 음성 구간 결과를 이용하여 후처리부(230)는 시작 위치와 끝 위치를 좀더 상세하게 보정해 준다.
이동 전화기의 음성 다이얼링에서 음성검출이 어려운 점은 크게 네가지로 요약할 수 있다.
1. 보코더의 패킷 데이터라는 극히 제한된 정보만을 이용할 수 있다.
2. 일반 사무실, 거리, 식당, 전철, 고속도로를 달리는 자동차 안, 국도를 달리는 자동차 안 등의 다양한 음성 발성 환경과 목소리가 큰사람, 작은 사람, 노인, 어린이, 발성이 느린 사람, 발성이 빠른 사람 등의 다양한 경우를 다 처리해야 한다.
3. 고속도로를 달리는 자동차 같은 경우는 배경잡음의 크기가 일반 음성과 차이가 없으며 잡음의 종류도 다양하다. 또한, 이러한 잡음이 매시 변한다는 것이다. 즉, 고속도로나 국도에서의 신호대 잡음비(SNR)는 6dB ~ -6dB정도이고, 처리하여야 할 잡음의 종류는 자기 차의 엔진 소리, 틈새를 통해 들리는 바람 소리, 깜박이나 에어콘 소리, 옆차 지나가는 소리, 노면 상황에 따른 쿵쾅거리는 소리, 오디오 소리 등이 있으며, 자동차 속도의 변화나 방향에 따라 엔진 소리나 바람 소리의 절대 크기가 수시로 변화하여 일정한 특성을 미리 저장했다가 사용하는 방법을 이용할 수 없다.
4. 핸즈프리킷에서 사용하고 있는 핸즈프리키 장치의 동작 이상, 즉 일정 시간동안 마이크를 동작시키지 않다가 갑자기 입력으로 받아들이거나, 임의로 스피커 출력 레벨과 마이크 레벨을 조절하여 음성의 입력 크기가 비상식적으로 변한다.
따라서, 도 1의 경우는 신호대 잡음비가 6dB ~ -6dB정도인 지역에서는 음성검출 능력이 21%정도로 현저히 떨어진다는 단점이있다. 도 2의 경우는 음성검출 계산량이 15MIPS정도로 계산량이 너무 많으므로 별도의 하드웨어가 추가되어야 하는 단점이 있다. 또한, 도 2의 기술만으로 위에서 요약한 네가지 문제를 해결할 수 있는 것은 아니다.
본 발명이 이루고자하는 기술적 과제는 상기 언급한 4가지 음성검츨상의 문제점을 해결하여 음성검출 능력이 뛰어나며 적은 계산량으로도 음성 검출이 가능하므로 하드웨어의 추가 없이 소프트웨어만으로 기존 이동 전화기에 음성 검출 기능을 적용시킬 수 있는 유사신호 생성방법을 이용한 음성검출방법 및 그 장치를 제공함에 있다.
도 1은 프레임별 게인 파라미터를 이용한 음성 검출기
도 2는 재생 신호를 이용한 음성 검출기
도 3은 유사 신호 생성법, 게인정보, LSP 변화값 이용한 음성 검출기
도 4는 스펙트럼 계수를 이용한 음성 검출용 특징 추출 장치 및 방법.
상기 기술적 과제를 해결하기 위한 본 발명에 의한 음성검출방법은 음성 보코더에서 생성된 음성특징 파라미터만을 이용하여 음성을 검출하는 방법에 있어서, (a)상기 보코더에서 상기 음성특징 파라미터를 추출하는 과정; (b)상기 음성특징 파라미터를 이용하여 유사신호를 생성하는 과정; (c)상기 유사신호의 절대값을 합해 얻어진 프레임별 유사신호의 게인을 생성하는 과정; (d)상기 유사신호 게인의 중첩평균을 시간에 따라 구하는 과정; (e)상기 유사신호 게인의 중첩평균결과와 이전 프레임들의 결과를 이용하여 현재 프레임이 음성인지, 음성과 음성사이의 묵음구간인지를 결정하고, 음성과 음성사이의 묵음구간을 포함한 시작위치와 끝위치 정보를 알려주는 과정; (f)상기 (e)과정의 결과를 이용하여 음성구간의 시작위치와 끝위치 결과의 앞뒤 소정 프레임내에서 상기 (e)과정을 다시 수행시켜 음성출력 결과를 보정하는 과정; 및 (g)상기 (f)과정후 스펙트럼 정보를 이용하여 재보정하는 과정을 포함함을 특징으로 한다.
상기 다른 기술적 과제를 해결하기 위한 본 발명에 의한 음성검출장치는 음성 보코더에서 생성된 음성특징 파라미터만을 이용하여 음성을 검출하는 음성검출장치에 있어서, 프레임별 패킷 데이터에서 소정시간이내에 상기 보코더에서 음성특징 파라미터를 추출하는 입력 인터페이스; 상기 음성특징 파라미터를 이용하여 유사신호를 생성하는 유사신호 생성부; 상기 유사신호의 절대값을 합해 얻어진 프레임별 유사신호의 게인을 생성하는 유사신호 게인 생성부; 상기 유사신호 게인의 중첩평균(moving average)을 시간에 따라 구하는 게인 평균부; 음성과 비음성을 결정하기 위한 소정의 게인 문턱치를 계산하는 게인 문턱치 계산부; 상기 게인 평균부의 결과와 이전 프레임들의 결과를 이용하여 현재 프레임이 음성인지, 음성과 음성사이의 묵음구간인지를 결정하는 프레임 상태 판정부; 및 상기 현재 프레임의 음성과 음성사이의 묵음구간을 포함한 시작 위치와 끝 위치를 결정하는 음성구간 결정부; 상기 프레임 상태 판정부의 결과를 이용하여 음성구간의 시작위치와 끝위치 결과의 앞뒤 소정 프레임내에서 상기 프레임 상태 판정부를 다시 수행시켜 음성출력 결과를 보정하는 제1후처리부; 및 상기 제1후처리부로부터 출력된 결과를 스펙트럼 정보를 이용하여 재보정하는 제2후처리부를 포함함을 특징으로 한다.
이하 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
도 3은 본 발명에 의한 음성검출장치에 관한 것으로, 입력 인터페이스(310), 유사신호 생성부(320), 유사신호 게인생성부(330), 게인 평균부(340), 프레임상태 판정부(350), 제1후처리부(360) 및 제2후처리부(370)로 이루어진다.
입력 인터페이스(310)는 프레임별 패킷 데이터에서 소정시간이내에 상기 보코더에서 음성특징 파라미터를 추출하고, 보코더의 패킷 데이터를 언패킹(unpackin g)하고 그 데이타를 해석하여 음성 검출단에 입력시켜주는 일을 한다.
유사신호 생성부(320)는 음성특징 파라미터를 이용하여 유사 신호를 생성한다.
유사신호 게인생성부(330)는 생성된 유사신호를 절대값을 취한 후 프레임의 크기 만큼 합해 얻어진 프레임별 유사신호의 게인을 생성한다.
게인 평균 생성부(340)는 연속된 4개의 프레임의 평균값을 구하는 일을 수행한다.
게인 문턱치 생성부(350)는 음성과 비음성을 결정하기 위한 소정의 게인 문턱치를 계산한다.
프레임 상태 판정부(360)는 유사신호의 게인 평균값과 과거 상태 판정 결과 및 게인 문턱치를 이용하여 현재 프레임이 음성인지, 음성과 음성 사이의 묵음 구간인지, 배경 잡음 구간인지 판정해주는 일을 한다.
음성 구간 결정부(370)은 음성과 음성 사이의 묵음 구간을 포함한 시작 위치와 끝 위치 정보를 알려준다.
제1후처리부(360)은 1차 음성 구간 결과를 이용하여 시작 위치와 끝 위치를 좀더 상세하게 보정해 준다. 이것은 시작 위치 결과의 앞뒤 10프레임, 끝 위치 결과의 앞뒤 10프레임 내에서 상태 판정단을 다시 수행시켜 음성 검출 결과를 보정시키는 일을 수행한다.
제2후처리부(370)는 스펙트럼 정보를 이용하여 2차 구간 결과를 미세하게 조정하는 일을 수행한다. 이러한 제2후처리부(370)는 처리하고자 하는 음성구간의 초기구간에서 스펙트럼의 평균을 구하는 스펙트럼 초기 평균계산부(410), 각 프레임별 단구간 평균을 구해 스펙트럼변화 궤적을 부드럽게 만들어주는 평균 스펙트럼 계산부(420), 기준치가 되는 초기평균 스펙트럼 벡터와 현재 프레임의 평균 스펙트럼 벡터 간의 차이를 구해 절대값을 구하는 스펙트럼 파워 계산부(430), 상기 스펙트럼 파워 값들을 평균하는 평균 스펙트럼 파워 변화값 계산부(440) 및 상기 평균 스펙트럼 파워값을 이용하여 앞단에서 구해놓은 후보음성 구간내에서 음성구간 끝점을 미세하게 조정하는 디퍼런스 필터링부(450)로 이루어진다.
상술한 구성에 의거하여 본 발명의 동작에 대하여 설명하기로 한다.
본 발명은 QCELP, EVRC 및 RPE-LTP 같은 보코더에서 생성된 음성특징 파라미터만을 이용한 것이다. 상기 보코더의 패킷 데이터를 언패킹(unpacking)하고 그 데이타를 해석하여 음성검출단에 입력하고, 프레임 별 패킷 데이터에서 1~2msec 이내에 특징 파라미터를 추출한다.
상기 특징 파라미터를 이용하여 유사 신호를 생성하기 위해서는 백색 잡음 펄스에 보코더 게인 값을 이용하여 게인 필터링을 한 후, 피치 정보를 이용하여 피치 필터링을 수행한다. 이렇게 해서 생성된 신호는 사람의 귀로 구별할 수 있을 정도의 음성 신호는 아니지만 음성을 구별하는 기본 정보인 음의 크기와 주파수 정보를 포함하고 있다. 수학식 1은 유사 신호를 생성하는 식이다.
x(i)=w(i)*G+x(i-l)*B
여기서, i는 샘플 수에 해당하는 시간 변수이고, G값은 프레임별 게인 값, L은 프레임별 피치, B는 프레임별 피치 게인, x(i)는 유사 신호, w(i)는 백색 신호이다.
이런 방법을 이용하여 이동 전화기에서 음성검출기의 실시간 구현을 위해 각 보코더의 신호 재생 장치를 대치할 수 있는 것이다.
유사신호 게인값은 생성된 유사신호를 절대값을 취한 후 프레임의 크기 만큼 합한 수이다. 각 신호를 제곱하여 더한 후 제곱근을 구해야 정확한 게인값을 구할 수 있지만 실시간에 구현하기 위해서는 곱하기나 제곱근은 사용할 수 없다. 수학식 2는 유사신호의 게인을 생성하는 식이다.
s(j) = abs_sum(x(j*I) ~ x(j*(I+1) - 1))
여기서, j는 프레임 수로서 j = i / I 에 해당한다. I는 프레임의 크기로서160(20msec)이 일반적이다. abs_sum(x(k) ~ x(m))는 k번째 유사신호부터 m번째 유사신호까지의 절대값 합을 의미한다.
유사신호의 게인 평균값은 수학식 3과 같이 연속된 4개의 프레임의 평균값을 구하는 일을 수행한다. 본 발명에서 연속된 4개의 프레임을 사용하는 이유는 음성의 특징이 가장 잘 유지되는 프레임의 길이이기 때문이다.
nG(j) = (s(j-3) + s(j-2) + s(j-1) + s(j)) / 4
각 프레임별 유사신호의 게인은 시간에 따른 변화 폭이 커 수학식 2의 결과를 이용한 음성 검출시에 에러가 발생할 확률이 높아진다. 수학식 3은 수학식 2보다 게인의 변화폭이 안정되어서 음성 부분과 잡음 부분을 구분짓기가 용이하다.
프레임 상태 판정부(360)는 유사신호의 게인 평균값과 과거 상태 판정 결과 및 음성과 비음성을 구별하는 기준이 되는 소정의 게인 문턱치를 이용하여 현재 프레임이 음성인지, 음성과 음성 사이의 묵음 구간인지, 배경 잡음 구간인지 판정해주는 일을 한다.
또한, 프레임 상태 판정부(360)의 상세한 설명과 사용되는 용어는 다음과 같다.
1. 용어
X[i]: 현 프레임의 유사신호 게인 평균값
TH1 : 묵음구간의 평균에너지 값의 3.75배에 해다하는 값. 이것보다 작으면 그 프레임은 확실한 묵음구간.
TH2 : 묵음구간의 평균에너지 값의 6.25배에 해당하는 값. 이것보다 크면 그 프레임은 확실한 음성구간
LEN_TH : 음성입력 과정이 끝났다는 것을 판정하는데 쓰이는 수치로서 마지막 음성 끝부분부터 현 묵음프레임의 길이가 이 수치보다 큰지 작은지 비교하여 음성입력 종료여부를 결정한다. 보통 0.5초를 사용한다.
2. 단계별 설명
(1)X[i]가 TH1보다 작다면 그 구간은 묵음구간.
(2)X[i]가 TH2보다 크다면 그 구간은 음성구간.
(3)X[i]가 TH1보다 크고 TH2 보다 작다면,
1)바로 이전 프레임이 음성구간이라면 그 구간은 음성구간
2)바로 이전 프레임이 음성구간이 아니라면 그 구간은 묵음구간.
(4)앞의 단계에서 묵음구간으로 판정이 난 경우, 이전 상태판정단에서 음성구간이 있었고, 마지막 음성구간의 끝부터 현 프레임까지의 길이가 LEN_TH 보다 크다면 음성검출 완료.
(5)음성검출이 완료되었으면 전체 음성 입력에서 음성의 시작위치와 끝위치를 구한다.
음성 구간 결정부(370)는 1차 음성 구간 결정은 음성과 음성 사이의 묵음 구간을 포함한 시작 위치와 끝 위치 정보를 알려준다.
후처리부(380)는 상기 1차 음성 구간 결과를 이용하여 시작 위치와 끝 위치를 좀더 상세하게 보정해 준다. 이것은 시작 위치 결과의 앞뒤 10프레임, 끝 위치결과의 앞뒤 10프레임 내에서 상태 판정부를 다시 수행시켜 음성 검출 결과를 보정시키는 일을 수행한다.
후처리부(380)의 입력은 프레임 상태 판정부(360)에서 결정된 음성구간들의 위치정보와 그 구간들에 해당되는 유사게인 평균값들이다.
후처리과정을 단계별로 살펴보면 다음과 같다.
(1)음성구간이 연속되어 있다면 그 연속구간(혹은 음성펄스구간)의 시작과 끝 위치정보를 이용하여 펄스 구간 길이를 구한다.
(2)펄스 구간의 길이가 정해진 값(예:0.04초)보다 작다면 그 펄스 구간음 음성이 아니라 주변잡음이므로 묵음구간으로 편입시킨다.
(3)2단계 과정의 결과를 고려하여 묵음구간의 길이가 LEN_TH(0.5초)보다 큰 부분이 있는지 점검한다.
3-1)첫번째 펄스나 마지막 펄스가 2단계에 의해 묵음으로 편입되었다면 전체 음성의 시작과 끝도 그에 따라 변경해서음성구간 후처리 과정을 완료한다.
3-2)세개 이상의 펄스가 존재하는 경우에서 첫 번째나 마지막 펄스가 아닌 그 외의 펄스가 묵음으로 편입되어 바로 앞뒤의 음성사이가 LEN_TH(0.5초)보다 크게 될 때는 전체 음성구간을 두 부분으로 나누어 각각 음성구간의 시작 위치와 끝위치를 구하고 그 구간의 길이를 구한다. 이렇게 해서 얻어진 두 부분의 길이중 큰 쪽을 선택해 음성구간 후처리과정을 완료한다.
그리고, 스펙트럼 정보를 이용하여 2차 구간 결과를 미세하게 조정하는 일을 수행한다.
스펙트럼 정보를 이용하여 2차 구간 결과를 미세하게 조정하는 일은 다음 과정을 통해 구해진다.
수학식 4는 처리하고자 하는 음성 구간의 초기 구간에서 스펙트럼의 평균을 구하는 과정이다.
ave_par[k] = (par[0][k] + ... + par[4][k]) / 5 (k=0, .. ,K-1)
여기서, k 는 스펙트럼 차수를 의미한다.
수학식 5는 각 프레임 별 단구간 평균을 구해 스펙트럼 변화 궤적을 부드럽게 만들어 주는 일을 한다. 이것은 음성의 끝점을 검출하고자 할 때 잡음에 의한 영향을 감소시켜 준다.
x_par[i][k] = (par[i-2][k] + ... + par[i+2][k]) / 5
여기서, i 는 시간에 따른 프레임 인덱스이고, k 는 스펙트럼 차수를 의미한다.
수학식 6은 기준치가 되는 초기 평균 스펙트럼 벡터와 현재 프레임의 평균 스펙트럼 벡터 간의 차이를 구해 절대값을 구한 것이다. 이것은 프레임 별 스펙트럼 파워를 구한 것이 된다.
y_par[i] = abs(x_par[i][0] - ave_par[0]) + ...
+ abs(x_par[i][K-1] - ave_par[K-1])
여기서, i 는 시간에 따른 프레임 인덱스이고, k 는 스펙트럼 차수를 의미한다.
수학식 7은 스펙트럼 파워 값 들을 평균한 것이다. 이것 역시 스펙트럼 파워 값의 안정성을 부각시켜 음성 검출을 용이하게 하기 위해서이다.
p_par[i] = (y_par[i-2] + ... + y_par[i+2]) / 5
여기서, i 는 시간에 따른 프레임 인덱스이다.
수학식 8은 스펙트럼 정보를 이용한 최종 음성 검출 파라미터로서 게인을 이용한 방법과 같은 방법으로 앞 단에서 구해 놓은 후보 음성 구간 내에서 음성 구간 끝점을 미세하게 조정한다.
s_par[i] = abs(2*p_par[i-2] + p_par[i-1] - p_par[i+1] - 2*p_par[i+2])
여기서, i 는 시간에 따른 프레임 인덱스이다.
다음은 종래기술과 본 발명을 비교한 것을 표로 나타낸 것이다.
표 1은 CDMA단말기에서 종래의 프레임별 게인값과 본 발명에 의한 유사신호 게인값을 이용한 음성 검출 결과를 비교한 것이다.
종류 SNR 22dB이상 15~10dB -6~6dB
프레임별 게인 95% 72% 21%
유사 게인 95% 96% 75%
표 2는 CDMA단말기에서 유사게인값과 2단계 보정을 이용했을 때의 음성 검출결과를 비교한 것이다.
종류 SNR 22dB이상 15~10dB -6~6dB
유사 게인 99% 96% 75%
후처리1(게인 정보) 99% 97% 79%
후처리2(게인+스펙트럼) 99% 97% 87%
본 발명에 의하면, 적은 계산량으로도 음성 검출이 가능하므로 하드웨어의 추가 없이 소프트웨어만으로 기존 이동 전화기에 음성 검출 기능을 적용시킬 수 있다. 고속도로 같은 잡음이 다양한 환경에서도 음성 검출이 가능하므로 자동차 운전시에도 음성 다이얼링을 할 수 있다.

Claims (14)

  1. 음성 보코더에서 생성된 음성특징 파라미터만을 이용하여 음성을 검출하는 방법에 있어서,
    (a)상기 보코더에서 상기 음성특징 파라미터를 추출하는 과정;
    (b)상기 음성특징 파라미터를 이용하여 유사신호를 생성하는 과정;
    (c)상기 유사신호의 절대값을 합해 얻어진 프레임별 유사신호의 게인을 생성하는 과정;
    (d)상기 유사신호 게인의 중첩평균을 시간에 따라 구하는 과정;
    (e)상기 유사신호 게인의 중첩평균결과와 이전 프레임들의 결과를 이용하여 현재 프레임이 음성인지, 음성과 음성사이의 묵음구간인지를 결정하고, 음성과 음성사이의 묵음구간을 포함한 시작위치와 끝위치 정보를 알려주는 과정;
    (f)상기 (e)과정의 결과를 이용하여 음성구간의 시작위치와 끝위치 결과의 앞뒤 소정 프레임내에서 상기 (e)과정을 다시 수행시켜 음성출력 결과를 보정하는 과정; 및
    (g)상기 (f)과정후 스펙트럼 정보를 이용하여 재보정하는 과정을 포함함을 특징으로 하는 음성검출방법.
  2. 제1항에 있어서, 상기 (b)과정에서 상기 유사신호 x(i)는
    x(i) = w(i) * G + x(i-L) * B
    (여기서, i는 샘플 수에 해당하는 시간 변수이고, G값은 프레임별 게인 값, L은 프레임별 피치, B는 프레임별 피치 게인, x(i)는 유사 신호, w(i)는 백색 신호이다.)
    에 의해 생성됨을 특징으로 하는 음성검출방법.
  3. 제2항에 있어서, 상기 (c)과정에서 상기 유사신호 게인 s(j)는
    s(j) = abs_sum(x(j*I) ~ x(j*(I+1) - 1))
    (여기서, j는 프레임 수로서 j = i / I 에 해당한다. I는 프레임의 크기이다. abs_sum(x(k) ~ x(m))는 k번째 유사신호부터 m번째 유사신호까지의 절대값 합을 의미한다.)
    에 의해 생성됨을 특징으로 하는 음성검출방법.
  4. 제3항에 있어서, 상기 (d)과정에서 유사신호 게인의 중첩평균 nG(j)는
    nG(j) = (s(j-3) + s(j-2) + s(j-1) + s(j)) / 4
    에 의해 계산됨을 특징으로 하는 음성검출방법.
  5. 제1항에 있어서, 상기 (g)과정은
    (g.1)음성구간의 초기구간에서 스펙트럼의 초기 평균을 구하는 소과정;
    (g.2)프레임 별 단구간 평균 스펙트럼을 계산하는 소과정;
    (g.3)상기 평균 스펙트럼의 파워를 계산하는 소과정;
    (g.4)상기 평균 스펙트럼의 파워값에 대한 변화값을 계산하는 소과정; 및
    (g.5)상기 평균 스펙트럼의 파워 변화값으로부터 스펙트럼 파라미터를 구하는 소과정을 포함함을 특징으로 하는 음성검출방법.
  6. 제5항에 있어서, 상기 (g.1)과정에서 스펙트럼의 초기 평균은
    ave_par[k] = (par[0][k] + ... + par[4][k]) / 5 (k=0, .. ,K-1)
    (여기서, k 는 스펙트럼 차수를 의미한다.)
    에 의해 계산됨을 특징으로 하는 음성검출방법.
  7. 제5항에 있어서, 상기 (g.2)과정에서 평균 스펙트럼은
    x_par[i][k] = (par[i-2][k] + ... + par[i+2][k]) / 5
    (여기서, i 는 시간에 따른 프레임 인덱스이고, k 는 스펙트럼 차수를 의미한다.)
    에 의해 계산됨을 특징으로 하는 음성검출방법.
  8. 제5항에 있어서, 상기 (g.3)과정에서 평균 스펙트럼의 파워값은
    y_par[i] = abs(x_par[i][0] - ave_par[0]) + ...
    + abs(x_par[i][K-1] - ave_par[K-1])
    (여기서, i 는 시간에 따른 프레임 인덱스이고, k 는 스펙트럼 차수를 의미한다.)
    에 의해 계산됨을 특징으로 하는 음성검출방법.
  9. 제5항에 있어서, 상기 (g.4)과정에서 평균 스펙트럼의 파워 변화값은
    p_par[i] = (y_par[i-2] + ... + y_par[i+2]) / 5
    (여기서, i 는 시간에 따른 프레임 인덱스이다.)
    에 의해 계산됨을 특징으로 하는 음성검출방법.
  10. 제5항에 있어서, 상기 (g.5)과정에서 스펙트럼 파라미터는
    s_par[i] = abs(2*p_par[i-2] + p_par[i-1] - p_par[i+1] - 2*p_par[i+2])
    (여기서, i 는 시간에 따른 프레임 인덱스이다.)
    에 의해 계산됨을 특징으로 하는 음성검출방법.
  11. 음성 보코더에서 생성된 음성특징 파라미터만을 이용하여 음성을 검출하는 음성검출장치에 있어서,
    프레임별 패킷 데이터에서 소정시간이내에 상기 보코더에서 음성특징 파라미터를 추출하는 입력 인터페이스;
    상기 음성특징 파라미터를 이용하여 유사신호를 생성하는 유사신호 생성부;
    상기 유사신호의 절대값을 합해 얻어진 프레임별 유사신호의 게인을 생성하는 유사신호 게인 생성부;
    상기 유사신호 게인의 중첩평균(moving average)을 시간에 따라 구하는 게인 평균부;
    음성과 비음성을 결정하기 위한 소정의 게인 문턱치를 계산하는 게인 문턱치 계산부;
    상기 게인 평균부의 결과와 이전 프레임들의 결과를 이용하여 현재 프레임이 음성인지, 음성과 음성사이의 묵음구간인지를 결정하는 프레임 상태 판정부; 및
    상기 현재 프레임의 음성과 음성사이의 묵음구간을 포함한 시작 위치와 끝 위치를 결정하는 음성구간 결정부;
    상기 프레임 상태 판정부의 결과를 이용하여 음성구간의 시작위치와 끝위치 결과의 앞뒤 소정 프레임내에서 상기 프레임 상태 판정부를 다시 수행시켜 음성출력 결과를 보정하는 제1후처리부; 및
    상기 제1후처리부로부터 출력된 결과를 스펙트럼 정보를 이용하여 재보정하는 제2후처리부를 포함함을 특징으로 하는 음성검출장치.
  12. 제11항에 있어서, 제2후처리부는
    처리하고자 하는 음성구간의 초기구간에서 스펙트럼의 평균을 구하는 초기 평균 스펙트럼 계산부;
    각 프레임별 단구간에서의 스펙트럼의 평균을 구하는 평균 스펙트럼 계산부;
    기준치가 되는 상기 초기평균 스펙트럼과 현재 프레임의 상기 평균 스펙트럼간의 차이를 구해 절대값을 구하는 스펙트럼 파워 계산부;
    상기 스펙트럼 파워 값들을 평균하는 평균 스펙트럼 파워 계산부; 및
    상기 평균 스펙트럼 파워값을 이용하여 음성 구간내에서 음성구간 끝점을 미세하게 조정하는 디퍼런스 필터링부를 포함함을 특징으로 하는 음성검출장치.
  13. 제1항에 있어서, 상기 (e)과정은
    (e1)현재 프레임의 유사신호 게인 평균값이 묵음구간에 해당하는 제1임계치와 음성구간에 해당하는 제2임계치와 비교하는 과정;
    (e2)현재 프레임의 유사신호 게인 평균값이 제1임계치 보다 작다면 그 구간은 묵음구간, 현재 프레임의 유사신호 게인 평균값이 제2임계치 보다 크다면 그 구간은 음성구간, 현재 프레임의 유사신호 게인 평균값이 제1임계치 보다 크고, 제2임계치보다 작다면 바로 이전 프레임이 음성구간이라면 그 구간은 음성구간, 바로 이전 프레임이 음성구간이 아니라면 그 구간은 묵음구간으로 판정하는 단계;
    (e3)상기 단계에서 묵음구간으로 판정이 난 경우, 이전 상태판정단에서 음성구간이 있었고, 마지막 음성구간의 끝부터 현재 프레임까지의 길이가 소정의 음성입력종료임계치 보다 크다면 음성검출을 완료하는 과정; 및
    (e4)음성검출이 완료되었으면 전체 음성 입력에서 음성의 시작위치와 끝위치를 구하는 과정을 포함함을 특징으로 하는 음성검출방법.
  14. 제1항에 있어서, 상기 (f)과정은
    (f1)음성구간이 연속되어 있다면 그 연속구간(혹은 음성펄스구간)의 시작과 끝 위치정보를 이용하여 펄스 구간 길이를 구하는 과정;
    (f2)펄스 구간의 길이가 정해진 값보다 작다면 그 펄스 구간음 음성이 아니라 주변잡음이므로 묵음구간으로 편입시키는 과정; 및
    (f3)상기 (f2)과정의 결과를 고려하여 묵음구간의 길이가 소정의 음성입력종료임계치보다 큰 부분이 있는지 점검하여, 첫번째 펄스나 마지막 펄스가 상기 (f2)과정에 의해 묵음으로 편입되었다면 전체 음성의 시작과 끝도 그에 따라 변경하고, 세개 이상의 펄스가 존재하는 경우에서 첫 번째나 마지막 펄스가 아닌 그 외의 펄스가 묵음으로 편입되어 바로 앞뒤의 음성사이가 소정의 음성입력종료임계치보다 크게 될 때는 전체 음성구간을 두 부분으로 나누어 각각 음성구간의 시작 위치와 끝위치를 구하고 그 구간의 길이를 구하여 얻어진 두 부분의 길이중 큰 쪽을 선택하는 과정을 포함함을 특징으로 하는 음성검출방법.
KR1019980037173A 1998-09-09 1998-09-09 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치 KR100294920B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980037173A KR100294920B1 (ko) 1998-09-09 1998-09-09 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980037173A KR100294920B1 (ko) 1998-09-09 1998-09-09 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치

Publications (2)

Publication Number Publication Date
KR20000019199A KR20000019199A (ko) 2000-04-06
KR100294920B1 true KR100294920B1 (ko) 2001-07-12

Family

ID=19550072

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980037173A KR100294920B1 (ko) 1998-09-09 1998-09-09 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치

Country Status (1)

Country Link
KR (1) KR100294920B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100474310B1 (ko) * 2002-11-27 2005-03-10 엘지전자 주식회사 휴대폰의 소음 제거 장치

Also Published As

Publication number Publication date
KR20000019199A (ko) 2000-04-06

Similar Documents

Publication Publication Date Title
KR100719650B1 (ko) 잡음 신호에서 음성의 엔드포인팅 방법
EP1208563B1 (en) Noisy acoustic signal enhancement
CN109065067A (zh) 一种基于神经网络模型的会议终端语音降噪方法
EP0770988B1 (en) Speech decoding method and portable terminal apparatus
US6411927B1 (en) Robust preprocessing signal equalization system and method for normalizing to a target environment
Yang Frequency domain noise suppression approaches in mobile telephone systems
IL125649A (en) Method and device for detecting signal of a sound sampled from noise
Itoh et al. Environmental noise reduction based on speech/non-speech identification for hearing aids
EP0634041B1 (en) Method and apparatus for encoding/decoding of background sounds
Ramirez et al. Voice activity detection with noise reduction and long-term spectral divergence estimation
KR100294920B1 (ko) 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
KR100294921B1 (ko) 이동 전화기의 음성인식을 위한 음성 검출 방법 및 장치
JPH0449952B2 (ko)
JP2905112B2 (ja) 環境音分析装置
Brancaccio et al. Experiments on noise reduction techniques with robust voice detector in car environment.
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
JPH0643892A (ja) 音声認識方法
KR20040073145A (ko) 음성인식기의 성능 향상 방법
Vereecken et al. Noise suppression and loudness normalization in an auditory model-based acoustic front-end
JP3896654B2 (ja) 音声信号区間検出方法及び装置
Kleinschmidt et al. Combining monaural noise reduction algorithms and perceptive preprocessing for robust speech recognition
JPH05165496A (ja) 音声検出装置
Farsi et al. A novel method to modify VAD used in ITU-T G. 729B for low SNRs

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080312

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee