KR100930587B1 - 혼동 행렬 기반 발화 검증 방법 및 장치 - Google Patents
혼동 행렬 기반 발화 검증 방법 및 장치 Download PDFInfo
- Publication number
- KR100930587B1 KR100930587B1 KR1020070122185A KR20070122185A KR100930587B1 KR 100930587 B1 KR100930587 B1 KR 100930587B1 KR 1020070122185 A KR1020070122185 A KR 1020070122185A KR 20070122185 A KR20070122185 A KR 20070122185A KR 100930587 B1 KR100930587 B1 KR 100930587B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- phoneme
- reliability
- confusion matrix
- recognized
- Prior art date
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 53
- 238000012795 verification Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000001419 dependent effect Effects 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000000551 statistical hypothesis test Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
본 발명은 음성 인식 결과에 대한 오인식 가능성 여부를 검증하기 위한 발화 검증 방법 및 장치에 관한 것으로 혼동 행렬의 확률 값을 신뢰도 계산에 이용함으로써 변별력 높은 음소를 선택하여 발화 검증의 성능을 향상시키기 위한 방법 및 장치를 제공한다. 이를 위하여, 본 발명에 따른 혼동 행렬 기반 발화 검증 방법은, 문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 단계; 상기 음성 인식 결과인 음성 인식된 문자열에 포함된 각 음소와 미리 훈련된 문맥 독립 음소 모델에 포함된 각 음소의 우도 값을 계산하는 단계; 상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 단계; 및 상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 단계를 포함함으로써, 발화 검증의 성능을 향상시킬 수 있는 이점이 있다.
발화 검증, 혼동 행렬, 우도 값
Description
본 발명은 음성 인식 기술에 속하는 것으로, 특히 음성 인식 결과에 대한 오인식 가능성 여부를 검증하기 위한 발화 검증 방법 및 장치에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT원천기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-02, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
종래 음성 인식 시스템은 사용자로부터 소정의 음성이 입력되면 인식 대상 어휘들 중 그 음성 특성이 가장 유사한 데이터를 찾아 음성 인식 결과로 결정한다. 이로 인해 인식 대상 어휘로 등록되어 있더라도 사용자로부터 입력된 음성과 특성 차이가 매우 적어 구분이 어려운 경우 잘못 인식되기도 하고, 또한 등록이 되어 있지 않은 데이터에 해당하는 음성이 입력되더라도 가장 유사한 데이터를 선택하여 음성 인식 결과로 결정함으로써 오류를 범하는 경우가 많다. 따라서, 음성 인식된 결과를 받아들일 것인지 거절할 것인지를 결정하는 발화 검증 기능이 요구된다.
발화 검증이란 음성 인식된 어떤 결과에 대해 그 인식 결과를 수락할 것인지 또는 거절할 것인지를 어떤 신뢰도 값을 사용하여 결정하는 것을 말한다. 여기서, 신뢰도 측정은 일반적으로 통계적인 가설을 검증하는 관점에서 이루어진다.
통계적 가설 검증에서는 주어진 관측치 O가 잘못 인식되었다는 대립 가설(alternative hypothesis) H1에 대하여 관측치 O가 올바르게 인식되었다는 귀무 가설(또는 영가설, null hypothesis) H0을 검증한다. 즉, 발화 검증 과정은 영 가설에 대한 확률과 대립 가설에 대한 확률을 비교하여 영 가설에 대한 확률이 대립 가설에 대한 확률보다 크면 이를 수락하고 작으면 거절하는 것이다.
이를 수학식으로 표현하면 <수학식 1> 과 같다.
<수학식 1>을 베이즈의 정리(Bayes' theorem)를 이용하여 다시 정의하면 <수학식 2> 및 <수학식 3> 과 같다.
<수학식 2> 및 <수학식 3>에서 는 은닉 마르코프 모델(Hidden Markov Model : HMM) λ에서 O가 관측될 확률이고, 는 λ 이외의 모델 에서 O가 관측될 확률이다. 일반적으로, H1을 모델링하기 위해서는 필러 모델(filler model) 및 반 모델(anti model) 등을 사용할 수 있고, 이와 같은 필러 모델 또는 반 모델을 로 표현한다. 본 특허에서 H1을 모델링하기 위해 모든 문맥 독립 음소로 구성된 모노 폰 모델을 사용하며, 로 표현한다.
<수학식 2> 및 <수학식 3> 을 이용하여 λ에서 관측치 O에 대한 신뢰도를 구하기 위한 식을 정리하면 <수학식 4>와 같다.
<수학식 4>에서 볼 수 있듯이 음성 인식된 결과에 대하여 로그 유사도(Log Likelihood Ratio : LLR) 기반으로 구하여진 신뢰도를 발화 검증의 기준으로 사용하기 때문에 로 사용할 모델의 변별력에 따라 발화 검증의 성능이 좌우된다.
한편, 종래 발화 검증에 이용되는 로 사용하는 반 모델은 문맥 독립 음소 모델을 사용하여 자기 자신을 제외한 모든 모델의 집합으로 구성된 반 모델을 사용하거나, 음성 인식 실험을 통하여 유사 음소 집합을 정의하여 반 모델을 사용한다.
그러나, 상기와 같은 종래 기술을 이용하는 경우, 음성 인식된 음소가 다른 음소로 인식될 혼동 가능성을 지니고 있는지에 대한 정보가 없이 모두 일률적으로 적용되기 때문에 변별력이 떨어질 뿐만 아니라, 반 모델이 여러 음소로 구성되어 있기 때문에 실제로 어떤 음소와 유사도가 높은지 판단하기 어려워 발화 검증이 제대로 이루어지지 않는 단점이 있다. 또한, 상기와 같은 방법을 이용하여 반 모델을 구성하는 경우 발화 검증을 위한 메모리 요구량이 높아지는 단점이 있다.
따라서, 본 발명의 목적은, 혼동 행렬의 확률 값을 모노 폰 모델의 우도 값에 대한 가중치로 이용함으로써 변별력 높은 음소 모델을 선택하여 발화 검증의 성능을 향상시키기 위한 방법 및 장치를 제공하는 데 있다.
또한, 본 발명의 목적은, 혼동 행렬의 확률 값을 이용하여 현재 음소와 가장 유사한 음소를 모노 폰 모델로부터 선택함으로써 발화 검증에 필요한 메모리 요구량을 감소시키기 위한 방법 및 장치를 제공하는 데 있다.
또한, 본 발명의 다른 목적은, 하기의 설명 및 본 발명의 일실시 예에 의하여 파악될 수 있다.
이를 위하여, 본 발명에 따른 혼동 행렬 기반 발화 검증 방법은, 문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 단계; 상기 음성 인식 결과인 음성 인식된 문자열에 포함된 각 음소와 미리 훈련된 문맥 독립 음소 모델에 포함된 각 음소의 우도 값을 계산하는 단계; 상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 단계; 및 상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 단계를 포함한다.
또한, 이를 위하여 본 발명에 따른 혼동 행렬 기반 발화 검증 장치는, 문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 음성 인식부; 상기 음성 인식부로부터 출력되는 음성 인식된 문자열에 대한 음소열 정보 및 문맥 독립 음소 모델을 기반으로 각 음소의 우도 값을 계산하고, 상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 신뢰도 측정부; 및 상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 판단부를 포함한다.
상술한 바와 같이, 본 발명은, 혼동 행렬의 확률 값을 모노 폰 모델의 우도 값에 대한 가중치로 이용함으로써 변별력 높은 음소를 선택하여 발화 검증의 성능을 향상시킬 수 있는 이점이 있다.
또한, 본 발명은, 혼동 행렬의 확률 값을 이용하여 현재 음소와 가장 유사한 음소를 모노 폰 모델로부터 선택함으로써 발화 검증에 요구되는 메모리 요구량을 감소시킬 수 있는 이점이 있다.
도 1은 본 발명의 일실시 예에 따른 혼동 행렬 기반 발화 검증 장치의 블록 구성도이다. 이하, 도 1을 참조하여 본 발명의 일실시 예에 따른 혼동 행렬 기반 발화 검증 장치의 구성 및 동작에 대하여 설명하면 다음과 같다.
본 발명의 일실시 예에 따른 혼동 행렬 기반 발화 검증 장치는 전처리부(110), 음성 인식부(120), 신뢰도 측정부(130), 분류기(Support Vector Machine: SVM)(140), 판단부(150), 문맥 종속 음소 모델(160), 문맥 독립 음소 모델(170) 및 혼동 행렬(confusion matrix)(180)을 포함한다.
본 발명의 일실시 예에 따른 전처리부(110)는, 사용자로부터 음성 입력된 문자열에 포함된 잡음 구간을 제거하고, 음소의 끝점을 검출한 후, 음성이 존재하는 구간을 추출하는 끝점 검출 모듈(112) 및 상기 음성이 존재하는 구간으로부터 음성 특징 데이터를 추출하는 특징 추출 모듈(114)을 포함한다.
본 발명의 일실시 예에 따른 음성 인식부(120)는, 특징 추출 모듈(114)에서 추출된 음성 특징 데이터를 기반으로 미리 훈련된 문맥 종속 음소 모델(160)을 참조하여 비터비 탐색을 통해 음성을 인식한 후, 상기 음성 인식 결과를 신뢰도 측정부(130)로 출력한다. 상기 음성 인식 결과의 출력은 문자열 형태로 이루어질 수도 있고, 상기 문자열을 구성하는 각 음소 단위를 포함할 수 있다.
본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 문맥 독립 음소 모델(170) 및 혼동 행렬(180)의 확률 값을 기반으로 각 음소에 대한 우도 값을 계산하여 유사도가 가장 높은 음소를 선택한다.
즉, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 음성 인식부(120)로부터 출력되는 정보와 문맥 독립 음소 모델(170)과 혼동 행렬 값을 사용한다. 여기서 음성 인식부(120)로부터 출력되는 정보는 문자열 또는 음소, 우도 값 및 세그먼트 정보를 포함한다.
이 때, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 상기 각 음소에 대하여 계산된 모노 폰 모델의 우도 값과 상기 각 음소에 대하여 미리 계산된 혼동 행렬(180)의 확률 값을 더하고 상기 더한 값 중 가장 큰 값을 선택한 후, 트라이 폰 모델의 우도 값과 상기 선택된 값을 기반으로 음성 인식된 문자열의 신뢰도를 측정할 수 있다.
위와 같은 신뢰도 계산에 있어서, 상기 모노 폰 모델 또는 반 모델의 우도 값에 상기 혼동 행렬(180)의 확률 값을 더하지 않고 곱하거나 빼는 등의 다양한 변형이 있을 수 있다.
상기 신뢰도 측정에 대하여 이하에서 좀 더 상세히 설명한다.
먼저, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 음성 인식된 문자열에 포함된 음소와 미리 훈련된 문맥 독립 음소 모델(170)에 포함된 음소와의 우도 값을 계산한다. 상기 우도 값은 하기의 <수학식 5>와 같이 정의될 수 있다.
즉, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, <수학식 5>와 같이 현재 음소 i에 대하여 N개의 음소로 구성된 문맥 독립 음소 모델을 사용하여 현재 음소 i를 제외한 N-1개의 음소 모델에 대하여 프레임의 시간 길이()로 정규화하여 각각 우도 값을 계산한다.
이후, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 상기 계산된 우도 값과 혼동 행렬(180)의 확률 값을 더하는 계산을 수행한다. 상기 계산은 하기의 <수학식 6>과 같이 정의될 수 있다.
<수학식 6>은 <수학식 5>에서 계산된 우도 값과 N개의 음소에 대하여 미리 계산된 혼동 행렬의 확률 값 중 현재 음소 i를 제외한 N-1개의 혼동 행렬의 확률 값을 더한 것을 보여준다.
이후, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, <수학식 6>과 같이 현재 음소에 대하여 계산된 모노 폰 모델의 우도 값과 혼동 행렬(180)의 확률 값을 더한 값 중 가장 큰 값을 선택한다. 이는 하기의 <수학식 7>과 같이 정의될 수 있다.
이후, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 음성 인식부(120) 로부터 출력된 트라이 폰 모델의 우도 값과 <수학식 7>과 같이 계산된 값을 기반으로 현재 음소에 대한 신뢰도를 ()측정한다. 이 때, 비터비 탐색을 통하여 계산된 우도 값은 가우시안(Gaussian) 확률 분포를 취하기 때문에 로그 도메인(log domain)으로 처리한다. 이를 정리하면 하기의 <수학식 8>과 같다.
<수학식 8>은 현재 음소 i에 대한 신뢰도를 측정한 것을 보여준 예로써, 현재 음소 i에 대하여 프레임의 시간 길이()로 정규화한 트라이폰 모델 우도 값 및 모노폰 모델 우도 값을 사용하였다.
<수학식 8>에서 사용하는 모델은 트라이 폰 형식의 우도 값을 사용하였으나, 다이폰(diphone) 형식 또는 모노 폰 형식의 우도 값을 사용할 수도 있다.
이후, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, <수학식 8>과 같이 계산된 시간 길이로 정규화된 음소 레벨의 신뢰도를 단어 레벨로 통합한다. 이를 정리하면 하기의 <수학식 9>와 같다.
<수학식 9>는 n개의 음소로 구성된 음성 인식된 단어에 대하여 상기 단어가 구성하고 있는 음소의 신뢰도를 합하여 단어 레벨로 통합한 신뢰도를 보여준 예이다.
이후, 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, <수학식 9>와 같이 계산된 단어 레벨의 신뢰도를 음성 인식된 단어의 음소 수로 나누어 줌으로써 상기 신뢰도를 음소 수 n으로 정규화한다. 이를 정리하면 하기의 <수학식 10>과 같다.
본 발명의 일실시 예에 따른 분류기(140)는, 신뢰도 측정부(130)에서 계산된 신뢰도 측정 값을 산술 연산, 기하 연산 및 조화 연산 등과 같은 여러개의 특징 형태로 계산하여 입력으로 사용하여, 이미 만들어진 분류기 모델과 비교하여 계산된 최종 신뢰도는 판단부(150)의 입력으로 사용되고, 판단부(150)에서 입력된 최종 신뢰도 값에 의해 수락 또는 거절을 결정한다. 본 특허가 적용되는 기술에는 분류기(140)를 포함하지 않을 수도 있다.
본 발명의 일실시 예에 따른 판단부(150)는, 신뢰도 측정부(130) 또는 분류기(140)로부터 출력되는 신뢰도를 입력받고, 상기 입력된 신뢰도에 따라 음성 인식된 단어를 수락 또는 거절할 것인지의 여부를 결정한다. 이 때, 본 발명의 일실시 예에 따른 판단부(150)는, 상기 입력된 신뢰도가 미리 설정된 임계치 이상이면 음성 인식된 단어를 수락하고, 상기 입력된 신뢰도가 미리 설정된 임계치보다 작다면 음성 인식된 단어를 거절할 수 있다.
본 발명의 일실시 예에 따른 문맥 종속 음소 모델(160)은, 대량의 데이터를 이용하여 미리 훈련된 모델로써, 음성 인식부(120)에서 음성 인식을 수행하는 데 사용된다.
본 발명의 일실시 예에 따른 문맥 독립 음소 모델(170)은, 문맥 종속 음소 모델(160)의 훈련 과정 중에 생성되며, 음성 인식된 단어에 대한 신뢰도를 계산함에 있어 혼동 행렬(180)을 기반으로 반 모델을 선택하는 데 사용된다. 또한, 본 발명의 일실시 예에 따른 문맥 독립 음소 모델(170)은 훈련 과정 중에 생성되는 문맥 독립 음소 모델(170)을 대립 가설 모델로 사용하기 때문에 유사 음소 집합을 만들기 위하여 별도로 훈련할 필요가 없다. 한편, 문맥 독립 음소 모델은 모노폰 모델이라고도 하며 본 발명의 설명에서는 이를 혼용하여 사용한다.
본 발명의 일실시 예에 따른 혼동 행렬(180)은, 대립 가설 모델의 모노 폰 모델의 우도 값에 가중치로 사용한다. 혼동 행렬이란 대량의 훈련 데이터를 이용하여 음성 인식된 결과와 정답 음소열(전사 파일)을 기준으로 동적 시간 와핑(Dynamic Time Warpping : DTW)을 사용하여 혼동 가능한 음소들을 누적하여 확률 값으로 표시한 것을 말한다. 혼동 행렬의 확률 값을 도 2를 참조하여 이하에서 설명한다.
도 2는 혼동 행렬의 확률 값을 보여주는 예시도이다.
도 2는 음소 인식 결과 중 음소 'C'에 대하여 혼동 행렬(180)의 확률 값을 구한 예이다. 외부로부터 입력된 음소 'C'는 'C'로 인식될 수도 있고 'G' 또는 'K'로 인식될 수도 있다. 도 2를 참조하면, 음소 'C'가 'C'로 인식될 확률은 0.95, 'G'로 인식될 확률은 0.05이다.
위와 같이 계산된 혼동 행렬(180)의 확률 값은 음소마다 그 값이 다르기 때문에, 이와 같은 확률 값을 이용하는 본 발명은 신뢰도 계산 시에 변별력을 높일 수 있는 이점이 있다.
도 3은 본 발명의 일실시 예에 따른 발화 검증 방법을 나타내는 흐름도이다. 이하, 도 3을 참조하여 본 발명의 일실시 예에 따른 발화 검증 방법에 대하여 설명하되, 도 1 내지 도 2를 참조하여 설명한 본 발명의 일실시 예에 따른 발화 검증 장치의 설명과 중복되는 내용은 생략한다.
단계(303)에서 본 발명의 일실시 예에 따른 끝점 검출 모듈(112)은, 단계(301)에서 음성 입력된 문자열에 포함된 잡음 구간을 제거하고, 음소의 끝점을 검출하여 음성이 존재하는 구간을 추출한다.
단계(305)에서 본 발명의 일실시 예에 따른 특징 추출 모듈(114)은, 단 계(303)에서 추출된 음성이 존재하는 구간으로부터 음성 특징 데이터를 추출한 후, 상기 추출된 음성 특징 데이터를 음성 인식부(120)로 출력한다.
단계(307)에서 본 발명의 일실시 예에 따른 음성 인식부(120)는, 단계(305)에서 추출된 음성 특징 데이터를 기반으로 문맥 종속 음소 모델(160)에 속하는 음소와의 우도 값을 계산함으로써 음성 입력된 문자열을 음성 인식한 후, 상기 음성 인식된 결과를 신뢰도 측정부(130)로 출력한다.
단계(309)에서 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 음성 인식된 문자열에 포함된 각 음소와 문맥 독립 음소 모델(170)에 속하는 각 음소의 우도 값을 계산한 후, 단계(311)로 진행한다.
단계(311)에서 본 발명의 일실시 예에 따른 신뢰도 측정부(130)는, 단계(307)에서 계산된 트라이 폰 모델의 우도 값, 단계(309)에서 계산된 모노 폰 모델의 우도 값 및 혼동 행렬(180)의 확률 값을 기반으로 신뢰도를 계산하여 판단부(150)로 출력한다. 이 때, 신뢰도 측정부(130)는 음소 레벨의 신뢰도를 단어 레벨로 통합하여 출력할 수 있고, 각 음소가 갖는 시간 길이 및 음성 인식된 문자열에 포함된 전체 음소 수(프레임 수)로 신뢰도를 정규화한 후 출력할 수도 있다.
단계(313)에서 본 발명의 일실시 예에 따른 판단부(150)는, 단계(311)에서 계산된 신뢰도를 기반으로 음성 인식된 문자열의 수락(단계 315) 또는 거절(단계 317) 여부를 결정한다. 이 때, 판단부(150)는, 상기 계산된 신뢰도가 미리 설정된 임계치보다 크다면 상기 음성 인식된 문자열을 수락하고, 상기 계산된 신뢰도가 미리 설정된 임계치보다 작다면 상기 음성 인식된 문자열을 거절할 수 있다.
한편, 도 4에 도시하지는 않았지만, 단계(311)에서 신뢰도 측정부(130)는 산술 연산, 기하 연산 및 종합 연산 등으로 신뢰도를 계산할 수 있으며, 이러한 경우 분류기(140)에서 상기 계산된 신뢰도를 적절한 형태로 변환하여 판단부(150)로 출력할 수 있다.
상술한 본 발명의 설명에서는 구체적인 일실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서, 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해져야 한다.
도 1은 본 발명의 일실시 예에 따른 혼동 행렬 기반 발화 검증 장치의 블록 구성도,
도 2는 혼동 행렬의 확률 값을 보여주는 예시도,
도 3은 본 발명의 일실시 예에 따른 혼동 행렬 기반 발화 검증 방법을 나타내는 흐름도.
Claims (11)
- 문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 단계;상기 음성 인식 결과인 음성 인식된 문자열에 포함된 각 음소와 미리 훈련된 문맥 독립 음소 모델에 포함된 각 음소의 우도 값을 계산하는 단계;상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 단계; 및상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.
- 제 1항에 있어서, 상기 신뢰도를 측정하는 단계는,상기 음성 인식된 문자열에 포함된 각 음소에 대하여 계산된 우도 값과 상기 각 음소에 대하여 미리 계산된 혼동 행렬의 확률 값을 더하고 상기 더한 값 중 가장 큰 값을 선택하는 단계; 및상기 음성 인식 결과로 출력되는 트라이 폰 모델의 우도 값과 상기 선택된 값을 기반으로 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.
- 제 2항에 있어서, 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계는,상기 신뢰도를 하기의 수학식에 의하여 측정하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.<수학식>= 현재 음소 i 와 N개의 음소로 구성된 문맥 독립 음소 모델 중 현재 음소 i를 제외한 N-1개의 모노 폰 모델에 대해 프레임의 시간 길이()로 정규화한 모노 폰 모델 우도 값,
- 제 2항에 있어서, 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계는,상기 측정된 신뢰도를 음성 인식된 문자열의 음소 수로 정규화하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.
- 제 4항에 있어서, 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계는,상기 신뢰도를 하기의 수학식에 의하여 측정하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.<수학식>= 현재 음소 i 와 N개의 음소로 구성된 문맥 독립 음소 모델 중 현재 음소 i를 제외한 N-1개의 모노 폰 모델에 대해 프레임의 시간 길이()로 정규화한 모노 폰 모델 우도 값,
- 제 1항에 있어서, 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 단계는,상기 측정된 신뢰도가 미리 정해진 임계치보다 크다면 상기 음성 인식된 문 자열을 수락하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.
- 문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 음성 인식부;상기 음성 인식부로부터 출력되는 음성 인식된 문자열에 대한 음소열 정보 및 문맥 독립 음소 모델을 기반으로 각 음소의 우도 값을 계산하고, 상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 신뢰도 측정부; 및상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 판단부를 포함하는 혼동 행렬 기반 발화 검증 장치.
- 제 7항에 있어서, 상기 신뢰도 측정부는,상기 계산된 각 음소의 우도 값과 상기 각 음소에 대하여 미리 계산된 혼동 행렬의 확률 값을 더하고 상기 더한 값 중 가장 큰 값을 선택한 후, 상기 음성 인식부로부터 출력되는 트라이 폰 모델의 우도 값과 상기 선택된 값을 기반으로 상기 음성 인식된 문자열의 신뢰도를 측정하는혼동 행렬 기반 발화 검증 장치.
- 제 8항에 있어서, 상기 신뢰도 측정부는,상기 측정된 신뢰도를 시간으로 정규화하는혼동 행렬 기반 발화 검증 장치.
- 제 9항에 있어서, 상기 신뢰도 측정부는,상기 측정된 신뢰도를 음성 인식된 문자열의 전체 프레임 수로 정규화하는혼동 행렬 기반 발화 검증 장치.
- 제 7항에 있어서, 상기 판단부는,상기 측정된 신뢰도가 미리 정해진 임계치보다 크다면 상기 음성 인식된 문자열을 수락하는혼동 행렬 기반 발화 검증 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070122185A KR100930587B1 (ko) | 2007-11-28 | 2007-11-28 | 혼동 행렬 기반 발화 검증 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070122185A KR100930587B1 (ko) | 2007-11-28 | 2007-11-28 | 혼동 행렬 기반 발화 검증 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090055320A KR20090055320A (ko) | 2009-06-02 |
KR100930587B1 true KR100930587B1 (ko) | 2009-12-09 |
Family
ID=40987002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070122185A KR100930587B1 (ko) | 2007-11-28 | 2007-11-28 | 혼동 행렬 기반 발화 검증 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100930587B1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101317339B1 (ko) * | 2009-12-18 | 2013-10-11 | 한국전자통신연구원 | 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법 |
KR102245747B1 (ko) | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
KR20160090459A (ko) | 2015-01-21 | 2016-08-01 | 한경대학교 산학협력단 | 공기체류시간을 연장한 공기청정기 |
CN113721182B (zh) * | 2021-11-02 | 2022-02-01 | 武汉格蓝若智能技术有限公司 | 一种电力互感器性能在线监测结果可靠度评估方法及系统 |
WO2024177172A1 (ko) * | 2023-02-22 | 2024-08-29 | 주식회사 엔씨소프트 | 발화검증 방법 및 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050058598A (ko) * | 2003-12-12 | 2005-06-17 | 엘지전자 주식회사 | 음성 인식 시스템의 발화 검증 방법 |
KR20070061266A (ko) * | 2005-12-08 | 2007-06-13 | 한국전자통신연구원 | 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 |
-
2007
- 2007-11-28 KR KR1020070122185A patent/KR100930587B1/ko not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050058598A (ko) * | 2003-12-12 | 2005-06-17 | 엘지전자 주식회사 | 음성 인식 시스템의 발화 검증 방법 |
KR20070061266A (ko) * | 2005-12-08 | 2007-06-13 | 한국전자통신연구원 | 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20090055320A (ko) | 2009-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kamppari et al. | Word and phone level acoustic confidence scoring | |
US6535850B1 (en) | Smart training and smart scoring in SD speech recognition system with user defined vocabulary | |
US6138095A (en) | Speech recognition | |
EP2713367B1 (en) | Speaker recognition | |
US20060074664A1 (en) | System and method for utterance verification of chinese long and short keywords | |
US20050065793A1 (en) | Method and apparatus for discriminative estimation of parameters in maximum a posteriori (MAP) speaker adaptation condition and voice recognition method and apparatus including these | |
CN101452701B (zh) | 基于反模型的置信度估计方法及装置 | |
KR20070061266A (ko) | 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 | |
KR101317339B1 (ko) | 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법 | |
US6230129B1 (en) | Segment-based similarity method for low complexity speech recognizer | |
KR100930587B1 (ko) | 혼동 행렬 기반 발화 검증 방법 및 장치 | |
JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
KR100609521B1 (ko) | 음성 인식 시스템의 발화 검증 방법 | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
CN113016029A (zh) | 提供基于上下文的语音识别服务的方法及装置 | |
KR100940641B1 (ko) | 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법 | |
Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach | |
RU2530314C1 (ru) | Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке | |
KR20100073160A (ko) | 음성인식 시스템의 발화검증 방법 및 장치 | |
KR100673834B1 (ko) | 문맥 요구형 화자 독립 인증 시스템 및 방법 | |
Ertaş | Feature selection and classification techniques for speaker recognition | |
Nair et al. | A reliable speaker verification system based on LPCC and DTW | |
KR20020045960A (ko) | 음성인식에서 핵심어 검출 성능 개선 방법 | |
KR100669244B1 (ko) | 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법 | |
JP3456444B2 (ja) | 音声判定装置及び方法並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121129 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20131128 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |