KR101250668B1 - Gmm을 이용한 응급 단어 인식 방법 - Google Patents

Gmm을 이용한 응급 단어 인식 방법 Download PDF

Info

Publication number
KR101250668B1
KR101250668B1 KR1020110048251A KR20110048251A KR101250668B1 KR 101250668 B1 KR101250668 B1 KR 101250668B1 KR 1020110048251 A KR1020110048251 A KR 1020110048251A KR 20110048251 A KR20110048251 A KR 20110048251A KR 101250668 B1 KR101250668 B1 KR 101250668B1
Authority
KR
South Korea
Prior art keywords
emergency
gmm
word
value
words
Prior art date
Application number
KR1020110048251A
Other languages
English (en)
Other versions
KR20120130371A (ko
Inventor
조영임
Original Assignee
수원대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 수원대학교산학협력단 filed Critical 수원대학교산학협력단
Priority to KR1020110048251A priority Critical patent/KR101250668B1/ko
Publication of KR20120130371A publication Critical patent/KR20120130371A/ko
Application granted granted Critical
Publication of KR101250668B1 publication Critical patent/KR101250668B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

본 발명은 GMM(Gaussian Mixture Model)을 이용한 응급 단어 인식 방법에 관한 것으로, 더욱 상세하게는 응급상황을 동적으로 보여주는 CCTV환경에서 응급 상황을 감지할 수 있도록 GMM을 이용하여 응급단어와 비응급단어를 검출 및 인식할 수 있도록 한 GMM을 이용한 응급단어 인식 방법에 관한 것이다. 이와 같은 본 발명은 입력되는 음성신호로부터 노이즈를 제거하여 음성신호의 시작점과 끝점을 검출하는 단계; 음성구간 검출 후, 검출된 음성신호에 대한 고역을 강조하고 멜 켑스트럼(MFCC)을 기반으로 특징 벡터를 추출하는 단계; 음성신호에 대한 추출된 특징벡터를 이용하여 구축된 글로벌 가우시안 혼합모델(Global GMM)을 통해 응급단어와 비응급 단어를 검출하는 단계; 및 검출된 응급 단어를 인식하기 위해 구축된 로컬 가우시안 혼합모델(Local GMM)을 통해 응급단어를 인식하는 단계를 포함하는 GMM을 이용한 응급단어 인식 방법을 제공한다.

Description

GMM을 이용한 응급 단어 인식 방법{METHOD FOR RECOGNING EMERGENCY SPEECH USING GMM}
본 발명은 GMM(Gaussian Mixture Model)을 이용한 응급 단어 인식 방법에 관한 것으로, 더욱 상세하게는 응급상황을 동적으로 보여주는 CCTV환경에서 응급 상황을 감지할 수 있도록 GMM을 이용하여 응급단어와 비응급단어를 검출 및 인식할 수 있도록 한 GMM을 이용한 응급단어 인식 방법에 관한 것이다.
인권침해의 문제에도 불구하고 효율적인 범죄예방 및 범죄수사 등에 적극적으로 활용되고 있는 CCTV 설치에 대한 요구가 지속적으로 증가하고 있다.
그러나, CCTV만을 의존하여 범죄가 발생하는 시점을 인지하여 즉각적으로 대처 하는 데는 몇 가지 문제점이 있다. 가장 큰 문제점으로 언제 발생할지 모르는 위급상황에 대처하기 위하여 관리요원 또는 담당자가 항상 화면을 관찰하여야 하나 눈의 피로감 또는 담당 인원의 부족으로 인하여 상시 화면을 감시할 수 없다는 점이다. 물론 CCTV가 사후 사건에 대하여 범죄자를 색출하는데 중요한 역할을 담당하고 있으나 발생 사건에 대한 동적인 대처의 기능으로는 한계가 있다.
이러한 문제점을 해결하기 위하여 CCTV에서 전송되는 영상정보를 이용하여 응급상황을 자동으로 검출하는 연구가 활발히 진행되고 있는데, 이러한 영상을 분석한 연구에서의 한계점은 다음과 같다. 첫째, CCTV 카메라의 영상인식이 가지고 있는 많은 기술적 문제들, 특히 기상 변화, 그림자 등 조명의 변화에 따른 오인식과 같은 문제점이 발생한다는 점이다. 둘째, 어두운 밤이나 혹은 화면상으로 구분이 불가능한 응급 상황 발생 시에 이를 확인하기 어렵다는 점이다. 셋째, CCTV가 설치된 지역이라 하더라도 CCTV 근방에서 발생한 응급상황이라 하더라도 화면에 나타나지 않는 사각지대에서 발생하였다면 이를 즉각적으로 확인할 수 없다는 점이다. 따라서 보다 효과적인 응급 상황 대처를 위해 음성인식 기술을 이용하여 보안성 강화를 고려한 연구들이 병행되어 연구되고 있다.
CCTV의 한계를 극복하기 위한 방법으로서 영상정보뿐만 아니라 음성정보까지 전송할 수 있은 디지털 CCTV에 대한 연구가 활발히 이루어지고 있다. 그러나 일반적으로 실내 환경만 아니라 실외 환경에서 발생할 수 있는 외부환경의 경우 주변에 소음이 생기는 잡음환경에 처해 있으며,
따라서 응급 상황 발생 시에 잡음으로 인하여 제한된 환경에서 음성인식시스템의 성능이 크게 저하되는 문제점이 발생된다. 이러한 문제점은 인식 시스템이 학습된 환경과 실제로 인식 시스템이 구현되는 환경에서의 음성 정보가 가지는 특성의 차이에서 오는 것이다. 마이크의 특성, 주변의 소음, 거리상의 문제 등 다양한 요소들이 인식 성능을 낮추게 된다. 그 중에 주변의 소음은 자동차 소음, 주위 사람들에 의한 잡음, 거리에서 일상적으로 나오는 잡음 등 다양한 형태로 발생하여, 인식 시스템에서 인식해야 하는 음성에 합쳐져 인식 시스템의 정확성을 떨어뜨리며, 잘못된 인식 결과를 가져오게 하는 문제점을 가지고 있다.
여러 가지 잡음에 대한 음성인식 시스템의 성능저하를 해결하기 위해 음성에 포함된 잡음을 제거하는 음질향상(speech enhancement)과 관련된 연구가 활발히 이루어지고 있다. 잡음처리를 위해 가장 대표적으로 사용되는 스펙트럼 차감법인 경우 음성이 존재하지 않는 구간에서 추정한 잡음을 잡음환경에서 차감하여 잡음을 제거하므로, 추정한 잡음의 형태가 음성인식기에 입력되는 잡음 음성에 포함된 잡음과 상이한 특성을 나타낼 경우에는 효과적인 잡음제거가 불가능하다는 문제점을 지니고 있다.
스펙트럼 차감법의 문제점을 해결하기 위해 위너필터링, 최소통계모델에 기반을 둔 MS(Minimum Statics) 방법 등이 있다. 이러한 방법들 중에서도 음질향상을 위해 널리 사용되는 MS방법은 음성 누설량을 감소시키기 위한 최소점 추적을 위해 긴 구간의 윈도우를 요구한다. 긴 구간 윈도우는 노이즈 레벨이 급격히 변화하는 순간에 추정능력이 저하되는 문제점이 있다.
본 발명은 상기와 같은 문제점을 감안하여 안출된 것으로, 응급상황을 동적으로 보여주는 CCTV환경에서 응급 상황을 감지할 수 있도록 GMM을 이용하여 응급단어와 비응급단어를 검출 및 인식할 수 있도록 한 GMM을 이용한 응급단어 인식 방법을 제공함에 그 목적이 있다.
본 발명의 다른 목적은 Global GMM 모델에 의해 응급단어와 일반단어를 검출하고 이 모델에 의해 응급단어라 판정된 경우에는 Local GMM 모델에 응급단어 인식을 수행할 수 있도록 한 GMM을 이용한 응급단어 인식 방법을 제공함에 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해되어질 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명의 일면에 따른 GMM을 이용한 응급단어 인식 방법은, 입력되는 음성신호로부터 노이즈를 제거하여 음성신호의 시작점과 끝점을 검출하는 단계; 음성구간 검출 후, 검출된 음성신호에 대한 고역을 강조하고 멜 켑스트럼(MFCC)을 기반으로 특징 벡터를 추출하는 단계; 음성신호에 대한 추출된 특징벡터를 이용하여 구축된 글로벌 가우시안 혼합모델(Global GMM)을 통해 응급단어와 비응급 단어를 검출하는 단계; 및 검출된 응급 단어를 인식하기 위해 구축된 로컬 가우시안 혼합모델(Local GMM)을 통해 응급단어를 인식하는 단계를 포함하는 것을 특징으로 한다.
ITL(Lower energy threshold)값은 음성신호의 처음 5 프레임의 평균값으로 설정하고, ITU(Upper energy threshold)값은 ITL값의 4배로 설정할 때, 상기 음성신호의 시작점과 끝점을 검출하는 단계는, 단구간 에너지를 이용하여 시작점이 위치한 후보 프레임을 선택하고 영교차율을 이용하여 정확하게 음성이 존재하는 시작점의 프레임을 검출하는 것으로서, 단구간 에너지를 이용하여 시작점이 위치한 프레임을 선택하는 방법으로, 입력된 음성신호에 대해 정방향으로 단구간 에너지값을 계산한 후, 계산된 단구간 에너지값이 미리 설정된 ITU값을 처음으로 넘는 점을 잠정적인 시작점으로 간주하여 프레임을 선택하는 제1 단계; 선택한 프레임을 기준으로 순방향으로 다음 프레임에서 미리 설정된 ITL 이하로 내려가기 전에 ITU를 넘어가게 되면 상기 제1 단계에서 선택한 프레임을 시작점으로 간주하고, ITU를 넘지 못하고 ITL 이하로 내려가면 상기 제1 단계에서 구한 시작점을 무시하고 순방향으로 그 다음 프레임에 대해 동일한 방식에 의하여 시작점을 구하는 제2 단계; 상기 제1 단계 또는 제2 단계에 의해 선택된 프레임을 기준으로 역방향으로 영교차율을 획득하고, 획득된 영교차율이 미리 설정된 IZCT(Zero crossings rate threshold)값을 초과하는 프레임이 연속적으로 특정개수 존재하면, 이 점을 시작점이라 간주하고, 존재하지 않을 경우 상기 제1 단계 또는 제2 단계에서 결정된 프레임을 시작점으로 결정하는 제3 단계; 및 음성의 끝점을 기준으로 음성신호에 대해 역방향으로 상기 제1~제3 단계를 수행하여 음성신호의 끝점을 결정하는 제4 단계를 포함하는 것을 특징으로 한다.
바람직하게, 상기 음성신호의 시작점과 끝점의 검출은, ITL값은 음성신호의 처음 5 프레임의 평균값을 설정하고, ITU값은 ITL값의 4배로 설정하고, IZCT값은 맨처음 5개의 묵음구간동안에 영교차율의 평균(IZC), 표준편차(
Figure 112011038021448-pat00001
)를 이용하여 IZCT=IZC+2
Figure 112011038021448-pat00002
에 의해 결정되는 것을 특징으로 한다.
바람직하게, 상기 특징 벡터를 추출하는 단계는, 분석구간의 음성 신호에 푸리에 변환을 취하여 스펙트럼을 획득하는 단계; 멜(Mel) 스케일에 맞춘 삼각 필터뱅크를 대응시켜 각 밴드에서의 크기의 합을 취하는 단계; 및 필터뱅크 출력값에 로그를 취하고, 로그를 취한 필터 뱅크 값에 이산 코사인 변환을 하여 MFCC를 구하는 단계를 포함하는 것을 특징으로 한다.
바람직하게, 상기 Global GMM은 모델 구축에 사용될 모든 훈련용 응급단어에 대한 특징을 추출한 후, 추출된 모든 특징벡터를 이용하여 GMM 모델의 파라미터를 추정할 수 있도록 구축된 것을 특징으로 한다.
바람직하게, 상기 Local GMM은 모델 구축에 사용될 훈련용 음성데이터를 응급단어별로 분류하여 특징을 추출할 수 있도록 구축된 것을 특징으로 한다.
전술한 과제해결 수단에 의해 본 발명은 응급상황을 동적으로 보여주는 CCTV환경에서 응급 상황을 감지할 수 있도록 GMM을 이용하여 응급단어와 비응급단어를 검출 및 인식할 수 있는 효과가 있다.
또한 외부 환경에서 CCTV와 더불어 응급상황을 검출할 수 있으므로, 응급상황에 대한 대처를 빠르게 할 수 있는 효과가 아울러, 응급 상황을 CCTV의 영상 ㅈ정보만으로 상황을 항상 모니터링할 필요가 없으므로, 편의성을 증대시키고, 인력과 비용의 문제점을 해소할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 응급단어 검출 및 인식 알고리즘의 구성도.
도 2는 본 발명의 실시예에 따른 음성 구간 검출 방법 및 결과를 설명하기 위한 예시도.
도 3은 본 발명에 따른 GMM을 이용한 응급단어 인식 방법중 MFCC과정을 보인 예시도.
도 4는 본 발명의 실시예에 따라 응급단어의 GMM 학습과정을 보인 예시도.
도 5는 본 발명의 실시예에 따라 응급단어에 대한 음질향상 전과 후의 파형도.
도 6은 본 발명에 따른 Global GMM의 출력값을 보인 예시도.
본 발명에 따른 GMM을 이용한 응급 단어와 비응급 단어의 인식 방법은 GMM을 이용한 응급상황에서 잡음이 섞인 음성인식 알고리즘을 제안한다. 외부환경에 의해 추가된 음성외의 잡음을 제거하기 위하여 Erkelens에 의해 제안된 노이즈 향상기법을 적용한다. 응급단어 검출 및 분류는 GMM을 이용하여 구축하였으며, 응급단어는 두 단계에 걸쳐 수해된다. 첫 번째 단계에서는 Global GMM 모델에 의해 응급단어와 일반단어를 검출하고 이 모델에 의해 응급단어라 판정된 경우에는 Local GMM 모델에 의해 응급단어 중 어떤 단어에 속하는지 응급단어 인식을 수행하게 된다.
하기의 설명에서 본 발명의 GMM을 이용한 응급 단어와 비응급 단어의 인식 방법의 특정 상세들이 본 발명의 보다 전반적인 이해를 제공하기 위해 나타나 있는데, 이들 특정 상세들 없이 또한 이들의 변형에 의해서도 본 발명이 용이하게 실시될 수 있다는 것은 이 기술분야에서 통상의 지식을 가진 자에게 자명할 것이다.
이하, 본 발명에 따른 바람직한 실시 예를 첨부된 도면을 참조하여 상세히 설명하되, 본 발명에 따른 동작 및 작용을 이해하는데 필요한 부분을 중심으로 설명한다.
이하에서는 본 발명에서 제안한 응급단어 검출 알고리즘을 설명하고, 실험방법과 실험결과에 대한 분석 순서로 상세히 설명하도록 한다
1. GMM 을 이용한 응급단어 검출 알고리즘
도 1은 본 발명의 실시예에 따른 응급단어 검출 및 인식 알고리즘의 구성도이다.
도 1에 도시된 바와 같이, 입력된 음성신호는 노이즈 제거 기법을 적용하여 음질을 향상시킨다. 그 다음 단계로 입력된 음성신호 중에서 시작점과 끝점 검출을 하는 음성구간 검출이 수행된 후 검출된 음성신호에 대한 고역강조 후 멜 켑스트럼에 기반을 둔 특징추출이 이루어진다.
다음 단계에서는 응급단어에 대한 모델 구축이 수행된다. 본 발명에서는 응급단어에 대한 모델을 Global GMM과 Local GMM으로 각각 구축하였다.
Global GMM은 응급단어의 검출에 사용된다. 즉, Gloal GMM은 고려하고 있는 모든 응급단어의 특징벡터을 이용하여 구축하였으며, 이 모델은 응급단어의 인식이 아닌 일반단어와 응급단어의 분류에만 사용된다. Global GMM에 의해 응급단어로 검출된 경우 Local GMM에 의해 응급단어가 어떤 단어에 속하는지 응급단어 인식이 수행된다. 이와 같이 2단계 구조를 갖는 응급단어 시스템의 주된 잇점은 Global GMM에 의해 일반단어와 응급단어만을 분류함으로 빠른 인식속도가 가능하며 이는 응급상황 발생시에 효과적인 대처가 가능하도록 한다는 점이다.
1-1. 노이즈 제거
본 발명은 Erkelens에 의해 데이터 기반의 재귀적 노이즈 추정법에 근거한 비정상적인 노이즈의 추정과 이를 이용한 음질향상 기법을 적용한다. 적용한 방법에 대하여 간략히 서술하면 다음과 같다.
잡음이 섞인 신호모델은 아래의 수학식 1과 같다고 고려하자.
Figure 112011038021448-pat00003
여기서,
Figure 112011038021448-pat00004
는 잡음이 섞인 신호,
Figure 112011038021448-pat00005
은 깨끗한 음성,
Figure 112011038021448-pat00006
은 잡음신호를 각각 나타낸다. 이러한 신호들은 잡음 음성으로부터 신호 프레임 m에서 주파수 인덱스 k번째에서 얻어진 단구간 DFT 계산을 표현한 복소수 값을 갖는 랜덤변수이다. 신호
Figure 112011038021448-pat00007
Figure 112011038021448-pat00008
은 두 신호에 대해서 뿐만 아니라 시간과 주파수에 대해서 통계적으로 독립적이라 가정한다. 노이즈 진폭
Figure 112011038021448-pat00009
, 음성 스펙트럴 진폭
Figure 112011038021448-pat00010
그리고 노이즈 진폭
Figure 112011038021448-pat00011
이라 하자. 노이즈 DFT 계수들 N은 분산
Figure 112011038021448-pat00012
를 갖는 복소수 가우시안 분포를 따른다고 가정한다.
Figure 112011038021448-pat00013
을 (순간) 노이즈 파워라고 부르고 그의 기대값은
Figure 112011038021448-pat00014
이다.
또한 음성 스펙트럴 분산
Figure 112011038021448-pat00015
은 음성 파워
Figure 112011038021448-pat00016
의 기댓값이다.
사전 신호대잡음비(prior SNR)
Figure 112011038021448-pat00017
와 사후 신호대잡음비(posterio SNR)
Figure 112011038021448-pat00018
은 아래의 수학식 2와 같이 각각 정의한다.
Figure 112011038021448-pat00019
음성 진폭 A를 추정하기 위하여 아래의 수학식 3에서 보는 바와 같이, 노이즈 진폭 R에 스펙트럴 이득함수를 곱하는 것이다. 일반적으로, 음성진폭인 A는 아래의 수학식 3에 의해 추정된다.
Figure 112011038021448-pat00020
상기 수학식 3에서 보는 바와 같이, 스펙트럴 이득함수
Figure 112011038021448-pat00021
Figure 112011038021448-pat00022
값을 구한 후 데이터 기반으로 최소평균 오차가 최소화되도록 데이터 기반으로 구한다.
상기 수학식 3에서 사전 신호대잡음비
Figure 112011038021448-pat00023
의 추정치
Figure 112011038021448-pat00024
를 아래의 수학식 4를 이용하여 구한다.
Figure 112011038021448-pat00025
1-2. 음성 검출
음성인식 시스템의 성능은 입력 신호 중에서 음성신호 구간을 얼마나 정확하게 검출하느냐에 크게 좌우된다. 본 발명에서는 음성의 시작점과 끝점을 검출하기 위하여 단구간 에너지와 영교차율을 이용하였다.
n번째 구간의 에너지 E(n)은 아래의 수학식 5와 같다.
Figure 112011038021448-pat00026
여기서,
Figure 112011038021448-pat00027
은 n번째 프레임의 첫번째 음성 샘플을 의미하고, P는 프레임의 샘플수, k는 음성 프레임의 수를 각각 나타낸다. 영교차율은 프레임내의 신호 파형이 영점축과 교차하는 횟수를 의미한다.
상기 수학식 5와 같이, 단구간 에너지는 음성신호를 계산하기 위해서는 프레임 단위의 연산을 수행하게 된다. 음성신호는 10~30ms 정도의 짧은 시간동안에는 그 특성이 비교적 균일하다고 볼 수 있으므로 단구간 에너지 및 영교차율을 구하는 구간을 20ms로 정하였다.
따라서, 음성신호를 16kHz로 샘플링하였을 경우 한 구간의 샘플수는 320개가 된다.
단구간 에너지와 영교차율을 이용한 음성신호 검출 방법 및 결과는 도 2와 같으며, 음성신호 검출과정을 간략히 설명한다.
1단계에서는 입력된 음성신호에 대해 정방향으로 단구간 에너지값을 계산한 후, 계산된 단구간 에너지값이 미리 설정된 ITU값을 처음으로 넘는 점을 잠정적인 시작점이라 간주한다.
2단계에서는 순방향으로 다음 프레임에서 미리 설정된 ITL 이하로 내려가기 전에 ITU를 넘어가게 되면 상기 제1 단계에서 선택한 프레임을 시작점으로 간주하고, ITU를 넘지 못하고 ITL 이하로 내려가면 상기 제 1 단계에서 구한 시작점을 무시하고 순방향으로 그 다음 프레임에 대해 동일한 방식에 의하여 시작점을 구한다.
3단계에서는 전술한 1단계 또는 2단계에 의해 선택된 프레임을 기준으로 역방향으로 영교차율을 구한다. 계산된 영교차율이 미리 설정된 IZCT 값을 초과하는 프레임이 연속적으로 5회 이상 존재할 경우 이 점을 시작점이라 간주하고 존재하지 않을 경우 1단계 또는 2단계에서 결정된 프레임을 시작점이라 결정한다.
상기 시작점과 끝점을 결정하기 위해서는 ITU, ITL과 IZCT값을 미리 설정해야 한다. ITL 값은 음성신호의 처음 5 프레임의 평균값을 설정하고 ITU값은 ITL값의 4배로 설정한다. IZCT값은 맨처음 5개의 묵음구간동안에 영교차율의 평균 IZC, 표준편차
Figure 112011038021448-pat00028
을 이용하여
Figure 112011038021448-pat00029
에 의해 결정한다. 그리고 음성의 끝점을 검출하기 위해서는 음성의 끝점을 기준으로 한다는 점을 제외하면 시작점 검출방법과 동일하다.
1-3. 특징추출
사람의 귀가 주파수 변화에 반응하게 되는 양상이 선형적이지 않고 로그스케일과 비슷한 멜(Mel) 스케일을 따르는 청각적 특성을 반영한 켑스트럼 계수 추출 방법이다.
멜 스케일에 따르면 낮은 주파수에서는 작은 변화에도 민감하게 반응하지만, 높은 주파수로 갈수록 민감도가 작아지므로 특징 추출시에 주파수 분석 빈도를 이와 같은 특성에 맞추는 방식으로, 처리 과정은 도 3과 같다.
즉, 분석구간의 음성 신호에 푸리에(Fourier) 변환을 취하여 스펙트럼을 구하고, Mel 스케일에 맞춘 삼각 필터뱅크를 대응시켜 각 밴드에서의 크기의 합을 취한 후, 필터뱅크 출력값에 로그를 취한다.
이후, 로그를 취한 필터 뱅크 값에 이산 코사인 변환(DCT, Discrete Cosine Transform)을 하여 최종 MFCC(Mel Frequency Cepstral Coefficient)를 구한다.
1-4. GMM 을 이용한 응급단어 모델 구축
가우시안 혼합모델(Gaussian mixture model)을 이용한 모델 구축과정을 도 4에 나타냈다. 도 4와 같이, 음성신호에 대한 특징벡터를 추출한 후 추출된 특징벡터들을 이용하여 GMM의 모델을 구축하게 된다.
가우시안혼합모델 수학식 6과 같이 음성신호를 개의 각 성분분포들의 선형결합으로 표현된다.
Figure 112011038021448-pat00030
여기서,
Figure 112011038021448-pat00031
는 음성의 특징벡터,
Figure 112011038021448-pat00032
는 혼합가중치 또는 사전확률
Figure 112011038021448-pat00033
이며,
Figure 112011038021448-pat00034
는 아래의 수학식 7과 같이 평균벡터들과 공분산행렬인
Figure 112011038021448-pat00035
에 의해 계산된다.
Figure 112011038021448-pat00036
따라서, 가우시안 분포를 표현하기 위해서는 평균벡터들과 공분산행렬, 그리고 사전행렬이 필요하다. 이들 세가지 파라미터의 집합이 응급단어의 가우시안 혼합분포를 표현할 수 있는 모델이 되며 이 집합을 GMM이라고 하며, 아래의 수학식 8과 같이 표현된다.
Figure 112011038021448-pat00037
GMM의 세가지 파라미터들은 임의로 초기값을 선택한 후 Expectation 단계와 Maximization 단계로 구성된 EM알고리즘에 의해 파라미터의 값들이 수렴할 때까지 반복 수행하면서 파라미터의 값을 ML(Maximum Likelihood) 함수가 최대화 될 때까지 추정한다.
본 발명에서는 응급단어와 비응급단어 검출을 위한 Global GMM과 응급단어 인식을 위한 Local GMM을 각각 나누어서 구축하였다.
Global GMM은 모델 구축에 사용될 모든 훈련용 응급단어에 대한 특징을 추출한 후 추출된 모든 특징벡터를 이용하여 GMM 모델의 파라미터를 추정하였다. 응급단어와 비응급단어의 검출은 입력음성에 대한 특징벡터를 추출한 후, 추출된 특징벡터에 대한 GMM 확률값을 각각 구한 후 구해진 확률값의 로그 평균값을 산출하고, 산출된 로그 평균값을 이용한 결정법칙에 의해 응급단어와 비응급단어의 검출을 수행한다. Local GMM은 모델 구축에 사용될 훈련용 음성데이터를 응급단어별로 분류하여 특징을 추출한다. 추출된 특징값을 이용하여 응급단어별로 독립적으로 GMM 모델 파라미터를 추정한다. 응급단어 인식은 입력음성에 대한 특징을 추출한 후 추출된 특징벡터를 응급단어별로 구축된 GMM 모델에 적용하여 로그 평균값을 산출한 후 가장 높은 확률값을 갖는 모델을 선정하여 응급단어 인식이 수행된다.
2. 실험결과 및 분석
제안된 알고리즘의 성능을 평가하기 위해 세 종류의 응급단어를 녹음하였다. 응급단어 중에서 "살려주세요"는 마으크 앞에서 작은 목소리로 애절한 감정상태에서 녹음하였으며, "도와주세요"와 "불이야"는 마이크에서 5[m] 떨어진 지점에서 큰 목소리로 긴급한 상황을 고려하여 녹음하였다. 녹음에 사용된 마이크는 Infranonic 사의 UFO를 이용하여 16kHz/16 bit로 녹음하였다.
실험에 사용된 응급단어 음성 데이터는 한 가정을 고려하여 40대 남자와 40대 여자, 20대 대학생과 중등 여학생 1명, 초등여학생 1명으로 총 5명으로부터 취득하였다. 녹음횟수는 각각의 응급단어당 크기와 감정을 달리하여 8회 녹음하였으며 따라서 총 120(응급단어 3 × 5명 × 8회)개의 응급단어를 구축하였다.
이 중에서 60개의 응급단어는 모델 구축을 위한 학습용으로 사용하였고 나머지 60개의 응급단어는 제안모델의 평가를 위한 검증용으로 사용하였다. 제안 모델의 성능평가를 위한 일반단어는 SiTEC DB 중에서 500명의 화자로 구성된 4,178 음성파일을 이용하였다.
또한, 주변 잡음에 의한 제안 알고리즘의 성능을 평가하기 위해서 차량소음, 오토바이 소음과 백색잡음을 고려하였다. 여기서 차량 소음과 오토바이 소음은 도로에서 5m 떨어진 지점에서 취득하였다. 백색잡음은 신호대잡음비를 25, 15, 5[dB]로 변경하면서 각각 성능을 분석하였다.
도 5에서는 응급단어 "살려주세요" 와 "불이야"에 대한 음성파형과 잡음이 추가된 파형, 그리고 음질향상 후의 파형을 각각 나타냈다.
도 5(a)에 도시된 바와 같이 "살려주세요"의 응급파형은 진폭이 매우 적기 때문에 차량소음을 첨가한 후 -1과 1사이로 신호를 증폭하였다.
도 5(b)에서는 응급단어 "불이야"에 대한 파형을 나타냈다. 입력된 음성파형은 -1과 1사이로 신호증폭을 한 후 백색잡음(SNR=5)을 추가하였다.
도 5와 같이, 노이즈 향상기법을 적용한 결과 차량소음뿐만 아니라 백색잡음에 대해서도 음질이 크게 개선되었음을 확인할 수 있다.
GMM 모델 구축을 위한 실험과정은 다음과 같다. 잡음이 없는 음급단어에 대하여 -1과 1 사이로 정규화한 후 preemphasis 계수 0.96으로 전처리한 후 20ms의 해밍 윈도우를 10ms 간격으로 오버랩하여 구간단위 분석하였으며, 각 구간에서 1차의 에너지와 12차의 멜 켑스트럼을 구하여 총 13차의 특징벡터를 이용하여 Global GMM과 Local GMM을 구축하였다.
검증데이터에 대한 제안된 모델의 평가는 모델구축과정과 동일한 과정을 거친다. 다만 노이즈에 대한 평가를 위해서 입력음성에 노이즈를 첨가한 음성에 대하여 특징벡터의 추출이 이루어진다.
도 6에서는 노이즈가 없는 상태에서 응급단어와 비응급단어의 Global GMM 출력값을 나타냈다.
도 6에 도시된 바와 같이, 응급단어의 98.3[%]는 -22보다 큰 출력값을 나타냈고, 비응급단어는 100[%] 모두 -30보다 작은 출력값을 나타냈다.
이러한 값들을 기준으로 하여 본 발명에서는 응급상태, 준응급상태, 비응급상태 등으로 세 구간으로 구분하였다. 여기서 비응급상태는 응급단어와 비응급단어가 존재할 확률이 높은 구간으로서, 입력음성값이 준응급상황에 존재한다면 관리자가 입력음성값을 직접 들음으로서 응급과 비응급을 판단하는 구간이라 가정한다. 노이즈가 없는 상태에서 이러한 준응급상태에 존재하는 응급단어는 1.3[%]로 나타났다.
Figure 112011038021448-pat00038
Figure 112011038021448-pat00039
표 1은 음질향상기법 적용 전의 응급단어와 비응급단어의 검출결과이고, 표 2는 음질향상기법 적용 후의 응급단어와 비응급단어의 검출결과를 나타낸다.
성능지표로서 오거율과 오인식률 사용하였다. 여기서 오거부율은 응급단이지만 응급단어로 판단하지 않은 경우를 의미하여, 오인식률은 비응급단어임에도 불구하고 응급단어로 판단한 것을 의미한다.
음질향상기법을 적용전에는 오인식률은 0.0[%]이지만 오거부율이 노이즈가 존재할 경우 증가한 것으로 나타났다. 특히, 오토바이 소음인 경우 오거부율이 6.7[%]로 나타났고 특히, 판정보류영역인 준응급상태에 속한 경우가 51.7[%]로 나탔다. 또한 SNR이 5인 백색잡음을 첨가한 경우 오거부율이 11.7[%], 판정보류 영역인 65.0[%]로 나타나 노이즈에 의해서 성능이 현저히 저하됨을 확인할 수 있다. 그러나 음질향상기법을 적용한 결과 본 발명에서 고려하는 모든 소음에 대해서 오거부율과 오인식률이 0.0[%]로 나타났으며 판정보류에 속하는 준응급상태에 속한 경우도 음질향상기법을 적용하기 전과 비교하면 성능이 현저히 향상됨을 확인할 수 있다.
표 3에서는 Global GMM에 의해 응급단어로 판단된 음성파일에 대하여 음성향상기법 적용 후 그 다음 단계인 Local GMM에 의해 응급단어를 인식한 결과를 나타냈다. 표 3에서 A단어는 "살려주세요", B단어는 "도와주세요", C단어는 "불이야"를 의미한다.
Figure 112011038021448-pat00040
표 3에서 Local GMM에 응급단어 인식에 사용된 단어는 총 음성입력의 수인 4238단어(비응급단어 4178, 응급단어 60) 중에 응급단어 60개만 해당됨으로 Global GMM에 의해 1.42[%]만이 선택됨으로 모든 입력음성에 대해 응급단어 인식을 수행하는 것과 비교하여 처리속도가 우수함을 알 수 있다.
응급단어 인식결과를 나타낸 표 3에서 보는 바와 같이 노이즈가 존재하지 않는 경우 인식률을 86.7[%]로 나타났다.
특히 B단어("도와주세요")의 인식률이 다른 단어에 비하여 인식률이 낮은 것으로 나타났다. 이는 A단어("살려주세요")와 B단어의 뒷부분 음성이 비슷하여 B단어의 일부가 A단어로 인식되었기 때문인 것으로 분석되었다. 차량소음과 오토바이 소음, 그리고 백색잡음이 SNR이 25일 때 까지 인식률의 큰 저하를 보이지 않았으나 SNR이 15로 백색잡음의 크기가 클수록 인식률이 성능이 크게 저하됨을 알 수 있다. 특히 SNR이 5일 때 인식률은 60.0[%]로 나타나 노이즈가 존재하지 않는 인식률과 비교하여 26.7[%] 낮아짐을 알 수 있다.
3. 결론
GMM을 이용한 응급상황에서 응급단어와 비응급단어의 검출 및 응급단어 인식 방법을 제안하였다. 제안된 방법은 Global GMM 모델에 의해 응급단어와 일반단어를 검출하고 이 모델에 의해 응급단어라 판정된 경우에는 Local GMM 모델에 응급단어 인식을 수행하게 된다. 제안된 방법은 외부환경에서 CCTV와 더불어 응급상황을 검출하는 방법을 제안한 것으로서 외부잡음에 의해 제안방법의 저하가 발생하게 된다.
이를 해결하기 위해 본 발명에서는 데이터 기반의 음질향상기법을 적용하여 제안방법의 성능을 평가하였다. 제안방법의 성능평가 결과 Global GMM 모델에서 응급단어와 비응급단어를 포함한 검증음성에서 1.42[%]만이 응급단어로 선택됨으로 모든 입력음성에 대해 응급단어 인식을 수행하는 것과 비교하여 처리속도가 우수함을 알 수 있다.
또한 응급단어에 대한 응급단어 인식결과 잡음의 매우 큰 경우를 제외하고는 80[%] 이상의 인식률을 나타내 제안방법의 적용 가능성을 검증하였다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims (6)

  1. 입력되는 음성신호로부터 노이즈를 제거하여 음성신호의 시작점과 끝점을 검출하는 단계;
    음성구간 검출 후, 검출된 음성신호에 대한 고역을 강조하고 멜 켑스트럼(MFCC)을 기반으로 특징 벡터를 추출하는 단계;
    음성신호에 대한 추출된 특징벡터를 이용하여 구축된 글로벌 가우시안 혼합모델(Global GMM)을 통해 응급단어와 비응급 단어를 검출하는 단계; 및
    검출된 응급 단어를 인식하기 위해 구축된 로컬 가우시안 혼합모델(Local GMM)을 통해 응급단어를 인식하는 단계를 포함하되,
    상기 특징 벡터를 추출하는 단계는,
    분석구간의 음성 신호에 푸리에 변환을 취하여 스펙트럼을 획득하는 단계;
    멜(Mel) 스케일에 맞춘 삼각 필터뱅크를 대응시켜 각 밴드에서의 크기의 합을 취하는 단계; 및
    필터뱅크 출력값에 로그를 취하고, 로그를 취한 필터 뱅크 값에 이산 코사인 변환을 하여 MFCC를 구하는 단계를 포함하는 것을 특징으로 하는 GMM을 이용한 응급단어 인식 방법.
  2. 제1 항에 있어서,
    ITL값은 음성신호의 처음 5 프레임의 평균값으로 설정하고, ITU값은 ITL값의 4배로 설정할 때,
    상기 음성신호의 시작점과 끝점을 검출하는 단계는,
    입력된 음성신호에 대해 정방향으로 단구간 에너지값을 계산한 후, 계산된 단구간 에너지값이 미리 설정된 ITU값을 처음으로 넘는 점을 잠정적인 시작점으로 간주하여 프레임을 선택하는 제1 단계;
    선택한 프레임을 기준으로 순방향으로 다음 프레임에서 미리 설정된 ITL 이하로 내려가기 전에 ITU를 넘어가게 되면 상기 제1 단계에서 선택한 프레임을 시작점으로 간주하고, ITU를 넘지 못하고 ITL 이하로 내려가면 상기 제1 단계에서 구한 시작점을 무시하고 순방향으로 그 다음 프레임에 대해 동일한 방식에 의하여 시작점을 구하는 제2 단계;
    상기 제1 단계 또는 제2 단계에 의해 선택된 프레임을 기준으로 역방향으로 영교차율을 획득하고, 획득된 영교차율이 미리 설정된 IZCT값을 초과하는 프레임이 연속적으로 특정개수 존재하면, 이 점을 시작점이라 간주하고, 존재하지 않을 경우 상기 제1 단계 또는 제2 단계에서 결정된 프레임을 시작점으로 결정하는 제3 단계; 및
    음성의 끝점을 기준으로 음성신호에 대해 역방향으로 상기 제1~제3 단계를 수행하여 음성신호의 끝점을 결정하는 제4 단계를 포함하는 것을 특징으로 하는 GMM을 이용한 응급단어 인식 방법.
  3. 제2 항에 있어서,
    상기 IZCT값은 맨처음 5개의 묵음구간동안에 영교차율의 평균(IZC), 표준편차(
    Figure 112011038021448-pat00041
    )를 이용하여 IZCT=IZC+2
    Figure 112011038021448-pat00042
    에 의해 결정되는 것을 특징으로 하는 GMM을 이용한 응급단어 인식 방법.
  4. 삭제
  5. 제1 항에 있어서, 상기 Global GMM은 모델 구축에 사용될 모든 훈련용 응급단어에 대한 특징을 추출한 후, 추출된 모든 특징벡터를 이용하여 GMM 모델의 파라미터를 추정할 수 있도록 구축된 것을 특징으로 하는 GMM을 이용한 응급단어 인식 방법.
  6. 제1 항에 있어서, 상기 Local GMM은 모델 구축에 사용될 훈련용 음성데이터를 응급단어별로 분류하여 특징을 추출할 수 있도록 구축된 것을 특징으로 하는 용한 응급단어 인식 방법.




KR1020110048251A 2011-05-23 2011-05-23 Gmm을 이용한 응급 단어 인식 방법 KR101250668B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110048251A KR101250668B1 (ko) 2011-05-23 2011-05-23 Gmm을 이용한 응급 단어 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110048251A KR101250668B1 (ko) 2011-05-23 2011-05-23 Gmm을 이용한 응급 단어 인식 방법

Publications (2)

Publication Number Publication Date
KR20120130371A KR20120130371A (ko) 2012-12-03
KR101250668B1 true KR101250668B1 (ko) 2013-04-03

Family

ID=47514446

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110048251A KR101250668B1 (ko) 2011-05-23 2011-05-23 Gmm을 이용한 응급 단어 인식 방법

Country Status (1)

Country Link
KR (1) KR101250668B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170018140A (ko) 2015-08-05 2017-02-16 한국전자통신연구원 비언어적 음성 인식을 포함하는 응급 상황 진단 방법 및 장치
KR101942521B1 (ko) * 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
KR101868404B1 (ko) * 2016-06-14 2018-07-19 가천대학교 산학협력단 한국어 음성인식기술을 이용한 응급상황관제 시스템 및 관제방법
CN107919115B (zh) * 2017-11-13 2021-07-27 河海大学 一种基于非线性谱变换的特征补偿方法
KR102339578B1 (ko) * 2020-06-12 2021-12-16 주식회사 자동기 음성 인식을 통한 제설 차량에 구비된 제설 장치의 구동 장치 및 이의 구동 방법
KR102418256B1 (ko) * 2021-12-28 2022-07-08 아이브스 주식회사 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법
KR102628542B1 (ko) * 2022-10-06 2024-01-23 대한민국 인공지능 기반 해양 구조신호 자동 식별 시스템 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070070000A (ko) * 2005-12-28 2007-07-03 고려대학교 산학협력단 2단계 탐색을 이용한 음성인식 장치 및 그 방법
KR100776730B1 (ko) 2006-08-29 2007-11-19 울산대학교 산학협력단 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그방법
KR20080052248A (ko) * 2006-12-06 2008-06-11 한국전자통신연구원 고속 음성 인식 방법 및 시스템
KR100861653B1 (ko) 2007-05-25 2008-10-02 주식회사 케이티 음성 특징을 이용한 네트워크 기반 분산형 음성 인식단말기, 서버, 및 그 시스템 및 그 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070070000A (ko) * 2005-12-28 2007-07-03 고려대학교 산학협력단 2단계 탐색을 이용한 음성인식 장치 및 그 방법
KR100776730B1 (ko) 2006-08-29 2007-11-19 울산대학교 산학협력단 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그방법
KR20080052248A (ko) * 2006-12-06 2008-06-11 한국전자통신연구원 고속 음성 인식 방법 및 시스템
KR100861653B1 (ko) 2007-05-25 2008-10-02 주식회사 케이티 음성 특징을 이용한 네트워크 기반 분산형 음성 인식단말기, 서버, 및 그 시스템 및 그 방법

Also Published As

Publication number Publication date
KR20120130371A (ko) 2012-12-03

Similar Documents

Publication Publication Date Title
KR101250668B1 (ko) Gmm을 이용한 응급 단어 인식 방법
Mak et al. A study of voice activity detection techniques for NIST speaker recognition evaluations
JP5810946B2 (ja) 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
US9959886B2 (en) Spectral comb voice activity detection
CN103137137B (zh) 一种会议音频中的精彩说话人发现方法
Lokhande et al. Voice activity detection algorithm for speech recognition applications
US9704495B2 (en) Modified mel filter bank structure using spectral characteristics for sound analysis
Chan et al. An abnormal sound detection and classification system for surveillance applications
US10229686B2 (en) Methods and apparatus for speech segmentation using multiple metadata
Choi et al. Selective background adaptation based abnormal acoustic event recognition for audio surveillance
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
CN109997186B (zh) 一种用于分类声环境的设备和方法
KR20130097490A (ko) 음향 정보 기반 상황 인식 장치 및 방법
Korkmaz et al. Unsupervised and supervised VAD systems using combination of time and frequency domain features
Sadjadi et al. Robust front-end processing for speaker identification over extremely degraded communication channels
KR101741418B1 (ko) 연속된 충격음에 대한 음향 특징 추출 및 확률 모델에 기반한 음향 인식 방법
Chen et al. InQSS: a speech intelligibility assessment model using a multi-task learning network
Indumathi et al. An efficient speaker recognition system by employing BWT and ELM
Tu et al. Computational auditory scene analysis based voice activity detection
Zhang et al. An advanced entropy-based feature with a frame-level vocal effort likelihood space modeling for distant whisper-island detection
Matsumoto et al. Noise robust speaker identification by dividing MFCC
JP5439221B2 (ja) 発声検出装置
Lin et al. Gunshot detection by STE and ZCR
Zaw et al. Overlapped speech detection in multi-party meetings

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151224

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee