KR101068122B1 - 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 - Google Patents

음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 Download PDF

Info

Publication number
KR101068122B1
KR101068122B1 KR1020080126924A KR20080126924A KR101068122B1 KR 101068122 B1 KR101068122 B1 KR 101068122B1 KR 1020080126924 A KR1020080126924 A KR 1020080126924A KR 20080126924 A KR20080126924 A KR 20080126924A KR 101068122 B1 KR101068122 B1 KR 101068122B1
Authority
KR
South Korea
Prior art keywords
word
rejection
model
garbage
score
Prior art date
Application number
KR1020080126924A
Other languages
English (en)
Other versions
KR20100068530A (ko
Inventor
박전규
정훈
이윤근
정호영
전형배
강점자
이성주
박기영
강병옥
김종진
정의석
왕지현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080126924A priority Critical patent/KR101068122B1/ko
Publication of KR20100068530A publication Critical patent/KR20100068530A/ko
Application granted granted Critical
Publication of KR101068122B1 publication Critical patent/KR101068122B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 음성인식기에서 가비지 및 반단어 모델 기반의 거절 기술에 관한 것으로, 특히 비음성을 거절하기 위한 가비지 모델(garbage model), 음소 유사도에 기반하는 반단어 모델(anti-word model) 구성법, 이들을 통합한 거절 네트워크, 거절 네트워크에 대한 고속 재평가를 위한 인접 프레임 간의 유사도에 근거한 프레임 제거법(frame dropping)을 동원하여 인식된 결과를 거절하는 것을 특징으로 한다. 본 발명에 의하면, 종래 음성인식을 위한 발성사전에 등록되어 있지 않은 미등록 어휘나 비문법적 어휘의 입력뿐만 아니라, 등록되지 않은 음향-음성학적 입력 신호의 입력에 대해 효과적인 거절 기능을 수행할 수 있으며 고속의 거절평가가 가능해짐으로써 인식성공률이나 반응시간에서 음성인식기의 성능 향상을 도모할 수 있다.
Figure R1020080126924
음성인식, 거절(rejection), 프레임 제거법, 가비지 모델, 반단어 모델

Description

음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법{APPARATUS AND METHOD FOR REJECTION BASED GARBAGE AND ANTI-WORD MODEL IN A SPEECH RECOGNITION}
본 발명은 음성인식 기술에 관한 것으로서, 특히 음성인식기 내에서 음성인식을 수행하는 마지막 단계로 인식된 단어가 유효한 인식 결과인지를 검증하는 거절(Rejection)을 통해 다양한 동적 잡음이나 미등록 단어를 효과적으로 거절하는데 적합한 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-03, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
일반적인 음성인식 기술은 통계적 패턴인식 기법의 하나인 은닉 마르코프 모델(Hidden Markov Model)에 기반하여 음향 모델과 언어 모델을 지식베이스로 삼아 음소, 단어, 및 문장을 인식한다. 음성인식을 위한 음향 모델의 기본 단위는 통상 음소(phoneme) 또는 유사 음소(pseudo-phoneme)이며 이러한 음소 모델들을 연결하여 단어 모델을 구성한다.
단어 간의 연결 가능성 또는 접속 확률을 정의한 언어 모델은 음성인식에서 사용하는 최상위의 지식베이스이다. 이러한 음성인식 기술의 중요한 한계는 바로 음성인식용 발성사전(pronunciation dictionary)이나 단어들의 발성 순서를 정의하고 있는 언어 모델에 등록되지 않은 단어는 인식이 불가하다는 사실이다. 이때 사용자가 발성한 등록된 문법이나 단어가 아닌 입력 데이터에 대해 적절한 방법론을 통해 등록된 단어가 아님을 발성자에게 알려주어야 하는 데 이를 거절(rejection) 또는 발화 검증(utterance verification) 기술이라 한다.
이러한 관점에서 일반적으로 음성인식에 있어서의 거절 대상은 크게 음성 및 비음성 잡음과 미등록 어휘를 대상으로 하는데 그 유형별로 다음과 같이 정리할 수 있다.
1. 비음성 잡음: 사람이 내는 음성을 제외한 모든 종류의 잡음으로 정의된다. 잡음은 그 유형에 따라 정적 잡음(stationary noise)과 동적 잡음(dynamic noise)으로 구분된다. 정적 잡음은 환경 잡음과 채널 잡음으로 구성되는 데 환경 잡음은 음성의 입력을 위해 사용하는 마이크로폰의 주변에서 발생 또는 존재하는 잡음을 말하며 채널 잡음은 소리가 마이크로폰을 통과하여 양자화(quantization)되어 저장매체에 기록될 때까지 추가되는 전기적 또는 기계적 잡음을 말한다.
2. 음성 잡음: 재채기, 웃음소리, 울음소리, 숨소리 등 언어적으로 의미 있 는 의사전달의 단위가 아닌 사람이 내는 소리를 말하며 대부분 동적 잡음으로 분류한다.
3. 미등록 어휘(out of vocabulary): 음성인식은 기술적 한계상 발성사전에 등록된 어휘만을 인식 대상으로 하게 되는 데 이때 등록된 어휘 이외에 발성되는 단어를 말한다. 또한 단어의 발성 순서를 정의한 언어 모델에 등록된 순서를 따르지 않고 발성되는 단어열도 미등록 어휘로 간주한다.
4. 동적 잡음: 시간적으로 언제 발생할지 모르는 임의의 크기와 강도의 돌발적으로 발생하는 잡음을 말한다. 따라서 정적 잡음의 크기와 강도는 어느 정도 예측이 가능하여 적절한 신호처리기법을 통해 잡음원을 해석하여 없애거나 약화시키는 등 처리가 가능하지만 동적 잡음의 경우에는 그 제거나 약화가 어려운 경우가 많다. 거절의 대상은 주로 동적 또는 돌발 잡음이 된다.
이와 같은 음성 및 비음성 잡음의 유형에 따라 거절 시에는 다양한 방법론을 적용하게 된다. 비음성이나 음성 잡음에 대해서는 통상 수집할 수 있는 가능한 모든 종류의 잡음을 녹음하고 이를 바탕으로 학습을 거쳐 잡음 모델을 만들게 된다. 이러한 잡음 모델을 통상 가비지 모델(garbage model) 또는 필러 모델(filler model)이라고 한다. 이때 다수의 단어 모델과 하나 이상의 가비지 모델들을 입력 음성에 대해 평가하여 가비지 모델이 단어 모델보다 높은 점수를 획득할 경우 거절된 것으로 결정하게 된다.
미등록 어휘에 대해서는 모든 음소 간에 자유로운 천이를 허용하는 전음소 모델(all-phone model), 모든 음절 간에 자유로운 천이를 허용하는 음절 네트 웍(syllable network)을 동원하여 미등록 어휘에 대한 필터링을 수행하도록 하는 방법이 일반적이다. 이러한 기법들은 가비지 모델의 경우와 같이 입력 음성에 대해서 등록된 다수의 단어 모델과 하나의 전음소(또는 음절) 모델을 통과시켜서 전음소(또는 음절) 모델이 단어 모델보다 높은 점수를 출력할 경우 거절된 것으로 결정하게 된다.
미등록 어휘에 대해서 적용하는 다른 일반적인 방법은 반단어 모델을 생성하여 이를 가비지 모델로서 이용하는 경우가 있다. 예를 들어 “아버지”에 대한 반대 단어가 “지버아”라고 설정하여 입력 음성에 대해 평가를 수행하여 “아버지”보다 “지버아”라는 반단어가 점수가 높을 경우 거절된 것으로 결정하게 된다.
이러한 반단어를 결정하는 기법들은 구현 방법이나 음성인식 기법에 따라 달라지게 되는데 단어를 음소의 열로 해석하여 각각의 음소 위치에 반음소(anti-phone)를 대치하여 반단어를 구성하는 방법, 단어 전체에 대해 반단어를 구성하는 방법이 있다. 또한 반 음소의 결정에 있어서는 각각의 음소에 대해 음향학적으로 음소모델간 거리가 가장 가까운 음소로 반음소를 설정하는 경우, 모델간 거리가 가장 먼 음소로써 반음소를 설정하는 경우, 자기 자신의 음소 모델을 제외한 나머지 음소 모델들을 모두 더하여 하나의 반음소를 설정하는 경우, 변별 학습을 통해 반음소를 적응적으로 학습하는 방법 등 다양하다.
상기한 바와 같이 동작하는 종래 기술에 의한 음성인식기에 있어서는, 음성인식을 수행하는 마지막 단계로 인식된 단어가 유효한 인식 결과인지를 검증하는 거절 절차에서 음성인식을 위한 발성사전에 등록되어 있지 않은 미등록 어휘나 비문법적 어휘의 입력되거나, 등록되지 않은 음향-음성학적 입력 신호로서 동적 잡음이 입력된 경우, 가비지 모델, 전음소 모델과, 반단어 모델 등을 통하여 거절 절차를 수행하고 있으나, 미등록 어휘 및 동적 잡음을 등록된 단어로 오 인식하는 경우가 자주 발생 한다는 문제점이 있었다.
이에 본 발명은, 음성인식기 내에서 인식된 단어에 대한 거절절차를 수행하여 다양한 동적 잡음이나 미등록 단어를 효과적으로 거절할 수 있는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법을 제공한다.
또한 본 발명은, 음성 인식된 단어가 유효한 인식 결과인지를 검증하는 거절절차로서, 비음성을 거절하기 위한 가비지 모델과, 음소 유사도에 기반하는 반단어 모델과, 이들을 통합한 거절 네트웍과, 거절 네트웍에 대한 고속 재평가를 위한 인접 프레임간의 유사도에 근거한 프레임 제거를 통하여 다양한 동적 잡음이나 미등록 단어를 효과적으로 거절할 수 있는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법을 제공한다.
또한 본 발명은, 다양한 동적 잡음이 존재하는 환경에서 가비지 모델, 반단어 모델, 프레임 제거 방식을 이용하여 동적 잡음이나 미등록 어휘를 등록된 단어로 오인식 하는 가능성을 최소화하고 거절함으로써 음성인식 기술의 사용성을 제고할 수 있는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법을 제 공한다.
본 발명의 일 실시예 장치는, 음성신호로부터 패턴 인식을 위한 특징 벡터를 추출하는 추출부와, 기 설정된 음향 모델과 언어모델을 참조하여 상기 추출된 특징 벡터에 대한 패턴 정합을 통하여 점수를 부여하고 점수 순위별 n개의 인식결과를 출력하는 탐색부와, 상기 n개의 인식결과를 통해 n번째 단어 인식 후보와, 상기 단어 인식 후보의 각 음소별로 구해진 가장 최근 음소 및 최원 음소의 반단어와, 잡음에 해당하는 가비지 단어를 통하여 거절 평가를 위한 거절네트웍을 생성하는 거절네트웍 생성부와, 음성 잡음과 비음성 잡음을 사용하여 학습된 가비지 음향 모델을 토대로 상기 거절네트웍을 구성하는 각 단어 모델별로 인식 점수를 출력하는 거절탐색부와, 상기 거절탐색부에서 생성된 각 단어 모델별 인식 점수를 비교하여 인식된 단어에 대한 거절 여부를 결정하는 결정 논리부를 포함한다.
본 발명의 일 실시예 방법은, 음성신호로부터 패턴 인식을 위한 특징 벡터를 추출하는 과정과, 기 설정된 음향 모델과 언어모델을 참조하여 상기 추출된 특징 벡터에 대한 패턴 정합을 통하여 점수를 부여하고 점수 순위별 n개의 인식결과를 출력하는 과정과, 상기 n개의 인식결과를 통해 n번째 단어 인식 후보와, 상기 단어 인식 후보의 각 음소별로 구해진 가장 최근 음소 및 최원 음소의 반단어와, 정정 잡음과 동적 잡음을 포함하는 가비지 단어를 통하여 거절 평가를 위한 거절네트웍을 생성하는 과정과, 정적 잡음과 동적 잡음을 사용하여 학습된 가비지 모델을 토 대로 상기 거절네트웍을 구성하는 각 단어 모델별로 인식 점수를 출력하는 거절 탐색 과정과, 상기 각 단어 모델별 인식 점수를 비교하여 인식된 단어에 대한 거절 여부를 결정하는 과정을 포함한다.
본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.
본 발명은, 종래 음성인식을 위한 발성사전에 등록되어 있지 않은 미등록 어휘나 비문법적 어휘의 입력뿐만 아니라, 등록되지 않은 음향-음성학적 입력 신호의 입력에 대해 효과적인 거절 기능을 수행할 수 있으며 고속의 거절평가가 가능해짐으로써 인식성공률이나 반응시간에서 음성인식기의 성능 향상을 도모할 수 있는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 음성인식기 내에서 인식된 단어에 대한 거절절차를 수행하여 다양한 동적 잡음이나 미등록 단어를 효과적으로 거절하는 것으로서, 비음성을 거절하기 위한 가비지 모델과, 음소 유사도에 기반하는 반단어 모델과, 이들을 통합한 거절 네트웍과, 거절 네트웍에 대한 고속 재평가를 위한 인접 프레임간의 유사도에 근거한 프레임 제거를 통하여 다양한 동적 잡음이나 미등록 단어를 거절하는 것이다.
이에 본 발명에서는 개별 특성의 잡음 또는 미등록 어휘의 유형에 따라 다음과 같은 논리에 기반하여 거절 기능을 수행한다.
1. 거절용 인식 네트웍의 구성: 거절용 인식 네트웍의 구성은 도 2와 같이 구성된다. N개의 단어 인식 후보(recognition hypothesis), 최근거리와 최원거리의 반단어 모델(anti-word model), 가비지 모델의 3가지를 하나의 독립된 탐색 네트웍(Finite State Network)인 거절 네트웍으로 구성한다. 이렇게 구성한 다음 입력 음성에 대해 음성인식을 수행하여 반단어 모델이나 가비지 모델의 점수가 단어 인식 후보보다 높으면 거절 가능성이 높은 것이다.
2. 반단어 모델에 의한 거절: 반단어 모델은 단어 인식 후보의 음소열에 대해 각 음소별로 가장 근사한 최근(nearest distance) 음소 그리고 가장 차이가 많은 최원(longest distance) 음소를 구하여 이를 혼동쌍(confusion pair)으로 삼아 반단어를 구성한다. 본 발명의 실시예에서는 <수학식 1>에 근거한 쿨백-라이블러 거리 척도(Kullback-Leibler divergence) KL(p,q)를 적용해서 음소 모델간의 거리 를 구한다. <수학식 1>은 음소별로 학습을 거친 가우시안 믹스처 모델(Gaussian mixture model)의 거리를 비교할 때 두 개의 확률 분포 p와 q에 대한 거리를 구하기 위해 적용된다. 반단어 모델의 입력 음성에 대해 음성인식을 수행하여 단어 인식 후보의 점수보다 높을 경우 거절될 가능성이 높다.
Figure 112008085865790-pat00001
3. 가비지 모델에 의한 거절: 가비지 모델은 수집된 다양한 정적 잡음과 동적 잡음을 사용하여 학습된 음향 모델이다. 입력 음성에 대해 가비지 모델의 점수가 단어 인식 후보의 점수보다 높을 경우 거절될 가능성이 높다.
(표 1)은 한국어의 음소 45개에 대해 음성인식기에서 사용하는 영어식 음소 기호로 재 정의하고 있다. 그리고 (표 2)는 반단어 모델의 구성을 위해 사용되는 혼동쌍을 정의하고 있다. 혼동쌍의 계산을 위해서는 상위에서 언급된 바에 따라 학습된 음소 모델에 대해서 쿨백-라이블러 거리 척도를 적용하여 기준 음소에 대해 전체 음소와의 거리를 구하게 된다. 최근 음소는 주어진 음소에 대해 음소 거리가 가장 가까운 음소로 혼동 가능성이 가장 높은 음소, 최원 음소는 주어진 음소에 대해 음소 거리가 가장 먼 음소로 혼동 가능성이 가장 낮은 음소로 정의된다. 
Figure 112008085865790-pat00002
Figure 112008085865790-pat00003
도 1은 본 발명의 실시 예에 따른 가비지 및 반단어 모델 기반의 거절 장치의 구조를 도시한 블록도이다.
도 1을 참조하면, 가비지 및 반단어 모델 기반의 거절 장치는 음성 특징 추출부(104), 탐색부(110), 거절네트웍 생성부(114), 가비지 모델 학습부(120), 거절 탐색부(124), 결정 논리부(128)을 포함한다.
음성특징 추출부(104)는 입력되는 음성신호(102)에 대해 패턴인식에 필요한 특징 벡터(106)를 추출한다. 탐색부(110)에서는 미리 작성된 지식 데이터베이스(108)인 음향 모델과 언어 모델을 참조하여 음성특징 추출부(104)로부터 추출된 특징 벡터에 대해 전체 등록 단어에 대한 패턴정합(pattern matching)을 수행하여 가장 패턴이 유사한 단어 순으로 점수를 부여하여 점수별로 정렬한 다음, 상위 N개의 인식 후보인 N-베스트 인식결과(112)를 출력한다. 거절네트웍 생성부(114)는 N-베스트 인식결과의 개별 인식결과에 대해 도 2와 도 3에서 제시하는 바와 같이 거절 평가에 필요한 거절네트웍(116)을 생성한다. 거절탐색부(124)에서는 생성된 거절네트웍(116)과 가비지 음향모델(122)을 사용하여 도 2의 거절네트웍에 포함된 4개의 단어 모델에 대해 평가를 수행하여 각 단어 모델에 대해 인식점수(126)를 출력한다. 결정논리부(128)에서는 거절탐색부(124)에서 생성된 4개의 각 단어별 인식 점수(126)에 기초하여 인식된 단어에 대한 거절 여부를 결정한다.
가비지모델 학습부(120)에서는 다양한 음성 및 비음성 잡음 데이터로 구성되는 가비지모델 학습용 데이터(118)에 대해 가비지 음향모델(122)을 생성하기 위한 학습을 수행한다.
가비지 음향모델(122)은 4개의 믹스처(mixture)로 구성된 가우시안 믹스처 모델이다. 음성 잡음의 수집 대상은 재채기, 트림, 숨소리, 코고는 소리, 웃음소리, 울음소리, 감탄사, 외국인에 의해 발성된 외국어 등 사람이 내는 다양한 형태의 소리 또는 음향 효과를 포함한다. 비음성 잡음은 일반적인 가정 및 사무실에서 발생하는 잡음, 채널 잡음, 배경 잡음 등을 포함하며 음악소리, 전화벨소리, 회의실에서 발생하는 인적, 물적 소음 등을 포함한다. 특히 자동차 내에서 발생하거나 자동차 내로 유입되는 각종 잡음, 박수소리, 경적 소리, 급발진 소음, 방향 지시등 소리 등도 포함하여 수집된다. 이렇게 수집된 음성 및 비 음성 데이터는 하나의 가비지 음향 모델로 통합되어 학습된다.
도 2는 본 발명의 실시 예에 따라 가비지 모델 및 반단어 모델이 포함된 거절 네트웍을 도시한 도면이다.
도 2를 참조하면, 거절 네트웍(116)의 구성은 N개의 인식후보 중에서 거절평가의 대상이 되는 탐색부(110)에서 생성된 제n번째 인식후보(200), 거절네트웍 생성부(114)에서 생성된 가비지 단어(202), 최근거리 반단어(204), 최원거리 반단어(206)의 4개의 단어들로 하나의 문법 네트웍을 구성한다.
이와 같이 구성된 거절 네트웍(116)는 거절탐색부(124)에서 가비지 음향모델(122)과 함께 사용하여 거절네트웍(116)에 포함된 4개의 단어 모델에 대한 평가를 수행하여 각 단어 모델에 대해 인식점수(126)를 출력하게 된다.
도 3은 본 발명의 실시 예에 따른 제n번째 인식후보의 단어모델을 구성하는 음소열에 대해 최근 및 최원 음소를 적용하여 반단어 모델을 구성하는 방식을 도시한 도면이다.
도 3을 참조하면, 제n번째 인식후보(200)가 “아버지”라는 단어라고 가정하면 이를 단어모델(300) ‘아버지’로 그 음소열을 ‘ㅏㅂㅓㅈㅣ/abvzi/’라고 정의한다. 이때 가비지 단어(306)는 5개의 각 음소 위치에 가비지 음향모델을 대입한 단어모델이 된다. 최근거리 반단어 모델(302)은 (표 2)에 기술된 각 음소의 위치에 음소별 패턴거리가 가장 가까운 음소인 최근음소들로 대치한 단어모델이 된다. 최원거리 반단어 모델(304)은 (표 2)에 기술된 각 음소의 위치에 음소별 패턴거리가 가장 먼 음소인 최원 음소들로 대치한 단어모델이 된다.
도 4는 본 발명의 실시 예에 따른 제n번째 인식후보의 단어모델을 구성하는 음소열에 대해 왜곡인자를 적용하여 최근 및 최원음소로 구성되는 반단어 모델을 구성하는 방식을 도시한 도면이다.
도 4를 참조하면, 실제 거절 네트웍(116)의 구성은 반단어 모델의 구성 시에 전체 음소들을 최근음소 및 최원음소로 대치한 것이 아니라 왜곡인자(distortion factor)를 통해 전체 왜곡인자 값의 배수에 해당하는 위치의 음소들만을 최근 또는 최원음소로 대치한 단어 모델을 사용한다. 왜곡인자가 1이면 전체 음소를 대치하고, 2이면 2의 배수 번째에 해당하는 모든 음소를 대치하며 3이면 3의 배수 번째에 위치한 모든 해당음소를 대치하는 것을 의미한다. 이에 따르면 도 3의 반단어 모델(302, 304)은 왜곡인자가 1, 도 4의 반단어 모델은 왜곡인자가 2인 최근 및 최원거리 반단어 모델들(400, 402)을 예시한 것이 된다.
거절네트웍(116) 구성에 따라 거절탐색부(124)에서는 입력음성으로부터 추출한 특징벡터에 대해 거절네트웍을 평가하게 되는데 일반적으로 거절은 탐색부(110)에서 인식결과를 생성한 이후에 처리하는 후처리(post-processing) 기능이므로 실시간 성능이 중요시된다. 또한 저속의 CPU를 사용하여 음성인식을 수행하는 경우에도 반응시간을 빠르기 하기 위해 후처리에 소요되는 시간을 최소화해야만 한다. 이때 사용되는 방법이 프레임 제거법이다.
음성인식을 위해 특징벡터를 계산하기 위해서는 일반적으로 녹음된 전체 음성 구간을 일정한 길이의 작은 구간 단위로 나누어서 특징 벡터를 계산하게 되는데 이 작은 구간을 하나의 단위 프레임으로 설정한다. 하나의 프레임은 사용하는 음성인식기마다 다르지만 일반적으로 10밀리초에서 30밀리초까지를 선택적으로 사용한다. 본 발명에서 사용하는 프레임 제거법에서는 현재의 프레임과 이전의 프레임간의 프레임 거리가 주어진 임계치(threshold)보다 낮으면 현재 프레임을 평가하지 않고 넘어가는 방법을 적용한다. 이때 프레임간 거리 측정은 가중 뉴클리드 거리 척도(weighted Euclidean distance measure)의 하나인 마할라노비스(Mahalanobis) 거리 척도를 적용한다. 마할라노비스 거리 척도는 두 개의 특징벡터
Figure 112008085865790-pat00004
Figure 112008085865790-pat00005
간의 거리 d를 <수학식 2>를 토대로 계산한다. 이때 특징 벡터 x와 y의 차원은 p=39이다.
Figure 112008085865790-pat00006
여기서, i는 벡터의 구성요소에 대한 색인값(index)이고, σ2는 39차로 구성되는 특징벡터의 통계치로써 각 색인값 i가 지정하는 표본(sample)들의 분산(variation)임.
도 5는 본 발명의 실시 예에 따라 결정 논리부에서의 동작절차를 도시한 흐름도이다.
도 5를 참조하면, S500단계에서 결정논리부(128)에서는 거절탐색부(124)로부터 생성된 단어별 인식점수(126)에 근거하여 거절 여부를 최종적으로 결정하게 된다. 즉, S(W)가 제n번째 인식후보 점수이고, S(G)가 가비지단어 점수이고, S(N)이 최근거리 반단어 점수이고, S(F)가 최원거리 반단어 점수인 경우, S502단계에서 가비지 단어의 점수 S(G)가 제n번째 인식후보의 점수 S(W)보다 크면 S504단계로 진행하여 거절로 결정한다. 그러나 제n번째 인식후보의 점수 S(W)가 가비지 단어의 점수 S(G) 보다 크다면, S506단계로 진행하여 최원거리 반단어의 점수 S(F)와 제n번째 인식후보의 점수 S(W)의 비교를 통해 최원거리 반단어의 점수 S(F)가 제n번째 인식후보의 점수 S(W)보다 크면 S508단계로 진행하여 거절로 결정한다.
그러나 제n번째 인식후보의 점수 S(W)가 최원거리 반단어의 점수 S(F) 보다 크다면, S510 단계로 진행한다. S510 단계에서는 S(N)최근거리 반단어의 점수와 제n번째 인식후보의 점수 S(W)의 차이값인 Diff를 구한 후, S512단계에서 차이값 Diff가 기 설정된 임계치(θ) 보다 작으면 S516단계로 진행하여 인식 수락으로 결정하고, 그렇지 않으면 S514단계로 진행하여 거절로 결정한다.
이상 설명한 바와 같이, 본 발명은 음성인식기 내에서 인식된 단어에 대한 거절절차를 수행하여 다양한 동적 잡음이나 미등록 단어를 효과적으로 거절하는 것으로서, 비음성을 거절하기 위한 가비지 모델과, 음소 유사도에 기반하는 반단어 모델과, 이들을 통합한 거절 네트웍과, 거절 네트웍에 대한 고속 재평가를 위한 인접 프레임간의 유사도에 근거한 프레임 제거를 통하여 다양한 동적 잡음이나 미등록 단어를 거절한다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 실시 예에 따른 가비지 및 반단어 모델 기반의 거절 장치의 구조를 도시한 블록도,
도 2는 본 발명의 실시 예에 따라 가비지 모델 및 반단어 모델이 포함된 거절 네트웍을 도시한 도면,
도 3은 본 발명의 실시 예에 따른 제n번째 인식후보의 단어모델을 구성하는 음소열에 대해 최근 및 최원음소를 적용하여 반단어 모델을 구성하는 방식을 도시한 도면,
도 4는 본 발명의 실시 예에 따른 제n번째 인식후보의 단어모델을 구성하는 음소열에 대해 왜곡인자를 적용하여 최근 및 최원음소로 구성되는 반단어 모델을 구성하는 방식을 도시한 도면,
도 5는 본 발명의 실시 예에 따라 결정 논리부에서의 동작절차를 도시한 흐름도.
< 도면의 주요 부분에 대한 부호 설명 >
104 : 음성 특징 추출부 110 : 탐색부
114 : 거절 네트웍 생성부 124 : 거절 탐색부
128 : 결정논리부

Claims (10)

  1. 음성신호로부터 패턴 인식을 위한 특징 벡터를 추출하는 추출부와,
    기 설정된 음향 모델과 언어모델을 참조하여 상기 추출된 특징 벡터에 대한 패턴 정합을 통하여 점수를 부여하고 점수 순위별 n개의 인식결과를 출력하는 탐색부와,
    상기 n개의 인식결과를 통해 n번째 단어 인식 후보와, 상기 단어 인식 후보의 각 음소별로 구해진 가장 최근 음소 및 최원 음소의 반단어와, 잡음에 해당하는 가비지 단어를 통하여 거절 평가를 위한 거절네트웍을 생성하는 거절네트웍 생성부와,
    음성 잡음과 비음성 잡음을 사용하여 학습된 가비지 음향 모델을 토대로 상기 거절네트웍을 구성하는 각 단어 모델별로 인식 점수를 출력하는 거절탐색부와,
    상기 거절탐색부에서 생성된 각 단어 모델별 인식 점수를 비교하여 인식된 단어에 대한 거절 여부를 결정하는 결정 논리부
    를 포함하는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치.
  2. 제 1항에 있어서,
    상기 거절네트웍 생성부는,
    상기 n번째 단어 인식후보의 음소열에 대해 개별 음소의 위치에 상기 가비지 음향 모델을 대치하여 가비지 단어 모델을 생성하는 것을 특징으로 하는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치.
  3. 제 1항에 있어서,
    상기 거절네트웍 생성부는,
    상기 n번째 단어 인식후보의 음소열에 대해 쿨백-라이블러 거리 척도 계산을 통해 개별 음소의 혼동 가능성이 높은 최근거리 및 혼동 가능성이 낮은 최원거리 음소들의 쌍으로 최근거리 반단어 및 최원거리 반단어 모델을 생성하며, 이때, 생성되는 반단어 모델은 왜곡인자 값의 배수에 해당하는 위치의 음소들에 해당하는 것을 특징으로 하는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치.
  4. 제 1항에 있어서,
    상기 결정 논리부는,
    상기 거절네트웍을 재평가하여 생성된 각 단어 모델별 인식 점수에 따라 가비지 단어의 점수가 n번째 단어 인식후보의 점수보다 클 경우 거절하고, 최원거리 반단어의 점수가 제n번째 단어 인식후보의 점수보다 클 경우 거절하며, 최근거리 반단어의 점수와 제 n번째 단어 인식후보의 점수가 기 설정된 임계치보다 클 경우 거절하는 것을 특징으로 하는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치.
  5. 제 1항에 있어서,
    상기 거절탐색부는,
    상기 거절 네트웍을 재평가함에 있어서 음성 구간을 일정한 길이의 작은 구간 단위로 나누어 특징 벡터 계산을 위해 사용되는 프레임의 현재 프레임과 이전 프레임간 거리를 측정하여 임의의 임계치보다 큰 경우에 상기 현재 프레임에 대한 평가를 수행하는 것을 특징으로 하는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치.
  6. 음성신호로부터 패턴 인식을 위한 특징 벡터를 추출하는 과정과,
    기 설정된 음향 모델과 언어모델을 참조하여 상기 추출된 특징 벡터에 대한 패턴 정합을 통하여 점수를 부여하고 점수 순위별 n개의 인식결과를 출력하는 과정과,
    상기 n개의 인식결과를 통해 n번째 단어 인식 후보와, 상기 단어 인식 후보의 각 음소별로 구해진 가장 최근 음소 및 최원 음소의 반단어와, 정적 잡음과 동적 잡음을 포함하는 가비지 단어를 통하여 거절 평가를 위한 거절네트웍을 생성하는 과정과,
    정적 잡음과 동적 잡음을 사용하여 학습된 가비지 음향 모델을 토대로 상기 거절네트웍을 구성하는 각 단어 모델별로 인식 점수를 출력하는 거절 탐색 과정과,
    상기 각 단어 모델별 인식 점수를 비교하여 인식된 단어에 대한 거절 여부를 결정하는 과정
    을 포함하는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 방법.
  7. 제 6항에 있어서,
    상기 거절네트웍을 생성하는 과정은,
    상기 n번째 단어 인식후보의 음소열에 대해 개별 음소의 위치에 상기 가비지 음향 모델을 대치하여 가비지 단어 모델을 생성하는 것을 특징으로 하는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 방법.
  8. 제 6항에 있어서,
    상기 거절네트웍을 생성하는 과정은,
    상기 n번째 단어 인식후보의 음소열에 대해 쿨백-라이블러 거리 척도 계산을 통해 개별 음소의 혼동 가능성이 높은 최근거리 및 혼동 가능성이 낮은 최원거리 음소들의 쌍으로 최근거리 반단어 및 최원거리 반단어 모델을 생성하며, 이때, 생성되는 반단어 모델은 왜곡인자 값의 배수에 해당하는 위치의 음소들에 해당하는 것을 특징으로 하는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 방법.
  9. 제 6항에 있어서,
    상기 거절 여부를 결정하는 과정은,
    상기 거절네트웍을 재평가하여 생성된 각 단어 모델별 인식 점수에 따라 가비지 단어의 점수가 n번째 단어 인식후보의 점수보다 클 경우 거절하는 과정과,
    최원거리 반단어의 점수가 제n번째 단어 인식후보의 점수보다 클 경우 거절하는 과정과,
    최근거리 반단어의 점수와 제 n번째 단어 인식후보의 점수가 기 설정된 임계치보다 클 경우 거절하는 과정
    을 더 포함하는 것을 특징으로 하는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 방법.
  10. 제 6항에 있어서,
    상기 거절 탐색 과정은,
    상기 거절 네트웍을 재평가함에 있어서 음성 구간을 일정한 길이의 작은 구간 단위로 나누어 특징 벡터 계산을 위해 사용되는 프레임의 현재 프레임과 이전 프레임간 거리를 측정하여 임의의 임계치보다 큰 경우에 상기 현재 프레임에 대한 평가를 수 행하는 것을 특징으로 하는 음성인식기에서 가비지 및 반단어 모델 기반의 거절 방법.
KR1020080126924A 2008-12-15 2008-12-15 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 KR101068122B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080126924A KR101068122B1 (ko) 2008-12-15 2008-12-15 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080126924A KR101068122B1 (ko) 2008-12-15 2008-12-15 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20100068530A KR20100068530A (ko) 2010-06-24
KR101068122B1 true KR101068122B1 (ko) 2011-09-28

Family

ID=42366761

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080126924A KR101068122B1 (ko) 2008-12-15 2008-12-15 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101068122B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
US11386304B2 (en) 2018-08-20 2022-07-12 Samsung Electronics Co., Ltd. Electronic device and method of controlling the same
US11417327B2 (en) 2018-11-28 2022-08-16 Samsung Electronics Co., Ltd. Electronic device and control method thereof

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
CN105632495B (zh) * 2015-12-30 2019-07-05 百度在线网络技术(北京)有限公司 语音识别方法和装置
KR102033218B1 (ko) * 2017-09-18 2019-10-16 주식회사 시그널비젼 음성 인식 방법 및 그 장치
CN111583907B (zh) * 2020-04-15 2023-08-15 北京小米松果电子有限公司 信息处理方法、装置及存储介质
KR102395399B1 (ko) * 2021-09-29 2022-05-10 주식회사 인피닉 음성 인식 학습을 위한 음성 데이터 분해 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060075533A (ko) * 2004-12-28 2006-07-04 엘지전자 주식회사 안티워드 모델을 이용한 음성인식 방법
JP2007017736A (ja) 2005-07-08 2007-01-25 Mitsubishi Electric Corp 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060075533A (ko) * 2004-12-28 2006-07-04 엘지전자 주식회사 안티워드 모델을 이용한 음성인식 방법
JP2007017736A (ja) 2005-07-08 2007-01-25 Mitsubishi Electric Corp 音声認識装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
CN107665708B (zh) * 2016-07-29 2021-06-08 科大讯飞股份有限公司 智能语音交互方法及系统
US11386304B2 (en) 2018-08-20 2022-07-12 Samsung Electronics Co., Ltd. Electronic device and method of controlling the same
US11417327B2 (en) 2018-11-28 2022-08-16 Samsung Electronics Co., Ltd. Electronic device and control method thereof

Also Published As

Publication number Publication date
KR20100068530A (ko) 2010-06-24

Similar Documents

Publication Publication Date Title
Rao et al. Speech recognition using articulatory and excitation source features
Arora et al. Automatic speech recognition: a review
Li et al. Spoken language recognition: from fundamentals to practice
KR101068122B1 (ko) 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
Angkititrakul et al. Advances in phone-based modeling for automatic accent classification
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Nanavare et al. Recognition of human emotions from speech processing
Chittaragi et al. Acoustic features based word level dialect classification using SVM and ensemble methods
Joshi et al. Speech emotion recognition: a review
Etman et al. American dialect identification using phonotactic and prosodic features
Ghai et al. Continuous speech recognition for Punjabi language
Pao et al. A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition
Obaid et al. Small vocabulary isolated-word automatic speech recognition for single-word commands in Arabic spoken
Manjunath et al. Development of phonetic engine for Indian languages: Bengali and Oriya
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
Grewal et al. Isolated word recognition system for English language
Sultana et al. A survey on Bengali speech-to-text recognition techniques
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
Rao et al. Language identification using excitation source features
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
Sawakare et al. Speech recognition techniques: a review
US20210225366A1 (en) Speech recognition system with fine-grained decoding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140827

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150827

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160826

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170828

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190826

Year of fee payment: 9