KR101095864B1 - 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법 - Google Patents

연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법 Download PDF

Info

Publication number
KR101095864B1
KR101095864B1 KR1020090027532A KR20090027532A KR101095864B1 KR 101095864 B1 KR101095864 B1 KR 101095864B1 KR 1020090027532 A KR1020090027532 A KR 1020090027532A KR 20090027532 A KR20090027532 A KR 20090027532A KR 101095864 B1 KR101095864 B1 KR 101095864B1
Authority
KR
South Korea
Prior art keywords
recognition
confusion
speech
confusion matrix
generating
Prior art date
Application number
KR1020090027532A
Other languages
English (en)
Other versions
KR20100062831A (ko
Inventor
박전규
이윤근
정호영
강병옥
이성주
박기영
정훈
왕지현
김종진
전형배
정의석
강점자
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20100062831A publication Critical patent/KR20100062831A/ko
Application granted granted Critical
Publication of KR101095864B1 publication Critical patent/KR101095864B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 연속으로 발성되는 한국어 숫자음성에 대한 음성인식을 수행하여 그 인식 결과에 대해 혼동행렬과 신뢰도 치에 기반하여 다수의 음성인식 후보를 생성하는 기술에 관한 것으로, 혼동행렬은 숫자음성에 대해 오인식이 발생하는 숫자들로 구성되므로, 사전에 실험용 데이터베이스를 사용하여 인식을 수행한다. 또한 음성인식의 결과로 도출되는 숫자별 인식 점수인 통계적 우도를 그 단어의 지속시간 지수인 프레임 수로 나눈 로그 우도비를 신뢰도 치로써 사용하는 것을 특징으로 한다. 본 발명에 의하면, 음성인식 알고리즘에서 성능의 저하 없이 N-best를 생성하기 위해 사용하는 기억장치 사용량과 탐색시간을 절약함으로써 음성인식 엔진의 효율을 높일 수 있다.
음성인식, 숫자음성, N-best, 신뢰도치, 혼동행렬

Description

연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법{Apparatus and method for generating N-best hypothesis based on confusion matrix and confidence measure in speech recognition of connected Digits}
본 발명은 음성인식 기술에 관한 것으로서, 특히 연속으로 발성되는 한국어 숫자음성에 대한 음성인식을 수행하여 그 인식 결과에 대해 혼동행렬(confusion matrix)과 신뢰도치(confidence measure)에 기반하여 다수의 음성인식 후보(N-best)를 생성하는데 적합한 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-03, 과제명: 신성장동력산업용 대용량 대화형 분산 내장처리 음성 인터페이스 기술개발].
음성인식의 목표에 있어서 여러 단어 중 하나의 단어를 출력 및 인식 대상으 로 설정하는 고립단어 인식기법보다는 단어가 연결된 형태의 문장을 인식대상으로 설정하는 연결단어인식 기법의 경우가, 알고리즘의 복잡도가 높아지며 기억장치 사용량이 많아지고 자연히 반응속도도 느려지게 된다.
일반적으로 음성인식 엔진에서 결과를 제시함에 있어서 단위 발화에 대해 여러 인식후보를 생성하는 다중인식 후보열(N-best list)의 생성은, 탐색부에서 출력된 인식 점수인 우도(likelihood)에 따라 단어들을 정렬하여 가장 높은 점수를 나타내는 단어를 첫 번째 인식 후보, 나머지를 그 점수에 따라 정렬하여 차상위, 차차상위 등의 인식 후보로써 순위를 결정한다.
한편 연결 단어인식에 있어서의 N-best 인식후보 생성은, 단어 간의 연결을 그래프 형태로 정의한 문법 네트워크에 따라 탐색을 시도하여 단어 격자(word lattice) 등을 중간 인식 결과로써 출력한 다음 단어 간 연접(collocation) 정보, 바이그램(bigram) 및 트라이그램(trigram) 확률 등의 통계적 언어모델(statistical language model) 등의 정보나 A-STAR 알고리즘 등을 적용하여 단어 격자를 재평가하여 N-best 리스트를 생성하는 것이 일반적인 방법이다.
이를 예시하면, 도 1에서 하나 이상의 숫자음성 입력에 대응하는 한국어 연결 또는 연속 숫자 음성인식을 위한 문법 네트워크를 도시하고 있으며, 도 2에서는 도 1에 도시한 문법 네트워크를 통해 입력된 음성신호 "공오팔"에 대해 음성인식을 수행하여 그 결과를 단어 격자로써 제시한 예이다. 이러한 단어 격자는 시간대 별로 정렬된 인식 단어들과 이들 단어들 간의 연결 정보를 반영하게 되는데, 도 2의 격자에 따르면 "공오팔", "공오칠", "구육칠", "구공칠", "오공칠" 등과 같은 다중 인식 후보열을 생성할 수 있다.
상기한 바와 같이 동작하는 종래 기술에 의한 연속 숫자 음성인식 시스템에 있어서, 한국어 숫자 음성은 기본적으로 단음절로 구성되어 있고 음향-음성학적으로 서로 혼동 가능성이 많은 음절들로 구성되어 있음에 따라 음성인식 성능이 낮은 구조적 단점을 지니고 있으므로, 다른 인식 대상 단어들과 달리 그 동안 실용화에 많은 장애가 되어 왔다. 이는 한국어 숫자음이 단음절로 구성되어 음향-음성학적 변별 자질이 부족하기도 하거니와 ‘일-이’, ‘삼-사’, ‘오-구’, ‘공-구’, ‘일-칠’, ‘칠-팔’ 등 전형적으로 서로 혼동되어 인식되는 많은 혼동 쌍(confusion pair)이 존재하고 있다는 사실에 기인한다. 특히 음향학적 변별력 측면에서 종래의 신호처리나 패턴인식 방법론만으로는 해소할 수 없는 음향학적 자질을 보유하고 있어 인식 성능이 실용화하기에 충분치 않은 면이 많다는 문제점이 있었다.
이에 본 발명은, 제한된 자원과 상대적으로 저속의 중앙처리장치(CPU)를 채용하는 휴대용 단말기 등에서도 고속의 처리가 가능하도록 하는 한국어 연속 숫자 음성인식 특히, N-best 인식 후보열을 생성할 수 있는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법을 제공한다.
또한 본 발명은, 연속으로 발성되는 한국어 숫자음성에 대한 음성인식을 수 행하고, 그 인식 결과에 대해 혼동행렬과 신뢰도치에 기반하여 다수의 음성인식 후보를 생성할 수 있는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법을 제공한다.
본 발명의 일 실시예 장치는, 연속적으로 발성되는 숫자 음성에 대한 음성인식을 수행하여 상기 음성 인식된 데이터로부터 특징벡터를 생성하는 음성 특징 추출부와, 상기 특징 벡터를 기반으로 학습된 음향 모델과 숫자음 간의 연결형태가 정의된 언어 모델을 바탕으로 상기 특징벡터에 대한 패턴인식을 수행하여 단일 인식 후보열을 생성하고, 상기 단일 인식 후보열을 구성하는 개별 숫자음에 대한 우도 점수 및 상기 특징벡터의 수를 출력하는 탐색부와, 상기 탐색부로부터 전달받은 상기 특징벡터의 수로 상기 우도 점수를 나누어 인식 단위별 신뢰도치를 생성하고, 숫자음별 순위를 구성하는 신뢰도치 생성부와, 상기 신뢰도치 생성부를 통해 구해진 숫자음별 순위와, 기 설정된 혼동행렬을 참조하여 다중 인식 후보를 생성하는 다중인식 후보 생성부를 포함한다.
본 발명의 일 실시예 방법은, 연속적으로 발성되는 숫자 음성에 대한 음성인식을 수행하여 상기 음성 인식된 데이터로부터 특징벡터를 생성하는 과정과, 상기 특징 벡터를 기반으로 학습된 음향 모델과 숫자음 간의 연결형태가 정의된 언어 모델을 바탕으로 상기 특징벡터에 대한 패턴인식을 수행하여 단일 인식 후보열을 생성하고, 상기 단일 인식 후보열을 구성하는 개별 숫자음에 대한 우도 점수 및 상기 특징벡터의 수를 출력하는 과정과, 상기 특징벡터의 수로 상기 우도 점수를 나누어 인식 단위별 신뢰도치를 생성하고, 숫자음별 순위를 구성하는 과정과, 상기 숫자음 별 순위와, 기 설정된 혼동행렬을 참조하여 다중 인식 후보를 생성하는 과정을 포함한다.
본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.
본 발명은, 제한된 기억장치 용량이나 낮은 성능의 중앙처리 장치(CPU) 성능을 보이는 컴퓨터 기기에서 연결 또는 연속되는 문장 형태의 숫자 음을 인식할 때 특히 단음절로 구성되어 숫자음간의 변별 성능이 떨어지는 한국어 연결 숫자 음에 대해 성능 저하 없이 반응시간을 줄이는 다중 인식후보열의 생성을 가능하게 할 수 있는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러 므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 제한된 자원과 상대적으로 저속의 중앙처리장치(CPU)를 채용하는 휴대용 단말기 등에서 고속의 처리가 가능하도록 하는 한국어 연속 숫자 음성인식에 있어서, N-best 인식 후보열을 생성하기 위한 방식을 제시하는 것으로, 특히 학습 단계에서 작성된 숫자음성의 혼동행렬과 인식단어별 신뢰도 치를 활용하여 N-best 리스트를 생성함으로써 인식성능의 저하 없이 빠른 응답속도를 구현하는 것이다.
이에 본 발명의 실시예에서는 사전에 학습을 통해 얻어진 숫자 음 간의 혼동 쌍을 행렬로써 정의한 혼동 행렬이라는 선험적인 일차 지식과, 인식 단계에서 기본적으로 생성되는 단어별 우도값을 기반으로 생성된 신뢰도치라는 사후적인 이차 지식을 통합하여 적용함으로써, 별도의 계산량 증가 없이 다중 인식 후보열을 생성하도록 하는 것이다.
도 3은 본 발명의 실시 예에 따른 혼동 행렬 생성 장치의 구조를 도시한 블록도이다.
도 3을 참조하면, 혼동 행렬 생성 장치(300)는 음성 특징 추출부(302), 탐색부(304), 혼동 행렬 생성부(306) 등을 포함한다.
구체적으로 음성 특징 추출부(302)에서는 하나 이상의 연속된 숫자로 구성되는 문장 형태의 학습용 음성 DB(308)에 대한 음성 특징 벡터를 생성한다.
 탐색부(304)에서는 음성 특징 추출부(302)를 통해 사전에 학습된 특징 벡터와, 이러한 특징 벡터를 기반으로 학습된 음향모델과, 도 1과 같이 숫자음 간의 연결 형태를 정의한 언어모델, 즉 음향 모델 및 언어 모델(310) 정보를 바탕으로 특징벡터에 대한 패턴인식을 수행하여 N-best 인식 결과를 생성한다.
예를 들어, 입력된 음성 ‘일이삼사’에 대해 모두 5개의 인식 후보를 생성하도록 설정한 다음 정인식이 수행되어 다음과 같이 ‘일이삼사’가 첫번째 인식후보이고 두번째 인식후보는 ‘일이삼삼’, 세번째는 ‘이이삼사’, 네번째는 ‘일이사사’, 마지막이 ‘일일삼사’라는 순서로 출력되었다고 가정하자.
1. 일이삼사
2. 일이삼삼
3. 이이삼사
4. 일이사사
5. 일일삼사
이러한 N-best 인식 결과에 따르면 ‘일’은 ‘이’, ‘이’는 ‘일’, ‘삼’은 ‘사’, ‘사’는 ‘삼’으로 오인식된 것으로 나타난다.
혼동 행렬 생성부(306)에서는 이러한 단위 개체별 오류를 통계적으로 요약하는 것으로서, 그 오인식 형태에 대한 발생 빈도 및 경우를 요약하여 나타내는 혼동행렬을 생성한다. 이때 학습용 음성 DB(308)를 대상으로 인식을 수행하여 혼동 쌍을 구한 다음 표로 나타낸 결과가 혼동행렬인 것이다.
구체적으로, 하기 (표 1)은 특정 학습용 음성 DB에 대해 통계적으로 또는 실 증적으로 혼동되어 나타난 데이터를 통계적으로 요약한 것이며, 학습용 음성 DB(308)가 바뀌게 되면 다른 혼동행렬이 생성될 가능성이 있다. (표 1)에 따르면 다른 단어로 인식될 가능성이 가장 많은 단어는 ‘오’이다. ‘영’은 ‘육’으로 가장 많이 오인식되며, ‘오’, ‘공’의 순서로 오 인식 빈도가 줄어드는 것을 의미한다. 같은 해석에 따라 ‘공’은 ‘구’, ‘오’, ‘영’의 순서로, ‘팔’은 ‘사’, ‘구’, ‘일’의 순서로 많은 오인식이 발생하는 것이다. (표 2)의 공란의 의미는 1, 2, 3, … 순위에 제시한 숫자 외에 다른 숫자로 오인식될 가능성은 별로 없으며, 다른 숫자로 오인식되는 경우에는 혼동의 결과가 아닌 순수 오류 인식일 가능성이 높다.
다른 관점에서 (표 2)는 단순한 혼동행렬의 정의가 아닌 전체 오인식 결과에 대해 그 오인식의 빈도를 순위별로 정리한 결과이다. (표 2)에 따르면 주어진 학습용 음성 DB(308)를 평가한 결과 전체 오인식된 단어별로 볼 때 ‘이’가 ‘일’로 오인식되는 빈도가 가장 많았으며, 그 다음이 ‘오’가 ‘구’로 오인식되는 빈도가 많고, 그 다음이 ‘오’가 ‘공’으로 오인식되는 빈도가 많다는 것을 나타낸다. 마지막으로 ‘팔’이 ‘일’로 가는 빈도가 가장 적게 나타난 것을 알 수 있다.
Figure 112009019429086-pat00001
Figure 112009019429086-pat00002
도 4는 본 발명의 실시 예에 따른 혼동 행렬 생성 장치에서 혼동 행렬을 생성하기 위한 절차를 도시한 흐름도이다.
도 4를 참조하면, 혼동 행렬 생성 장치(300) 내의 음성 특징 추출부(302)는 400단계에서 하나 이상의 연속된 숫자로 구성된 학습용 음성 DB(308)를 통하여 음성에 대한 특징 벡터를 생성하고, 생성된 특징 벡터는 탐색부(304)로 전달된다.
이에 402단계에서 탐색부(304)는 전달된 특징 벡터를 기반으로 학습된 음향모델과, 숫자음간의 연결 형태를 정의한 언어모델을 토대로 패턴 인식을 수행하여 N-best 인식 결과를 생성한다.
이에 생성된 N-best 인식 결과는 혼동 행렬 생성부(306)로 전달되어, 혼동 행렬 생성부(306)는 404 단계에서 각각의 단위 개체별로 오인식된 발생 빈도 및 경우에 대한 통계를 수행하여 혼동 행렬을 생성하게 된다.
도 5는 본 발명의 실시 예에 따른 N-best 생성 장치의 구조를 도시한 블록도이다.
도 5를 참조하면, N-best 생성 장치(500)는 혼동행렬(514)에 기반하여 N-best 인식결과를 생성하는 것으로서, 음성 특징 추출부(502), 탐색부(504), 신뢰도치 생성부(506), N-best 생성부(508) 등을 포함한다.
구체적으로 음성 특징 추출부(502)는 단위 발화로서의 테스트용 음성 발화 데이터(510)로부터 특징벡터를 추출하고, 추출된 특징 벡터를 탐색부(504)에 전달한다. 이때, 테스트용 음성 발화 데이터(510)는 본 실시예를 구현하기 위한 것으로서, 본 발명의 구현시에는 연속적으로 발성되는 한국어 숫자 음성에 대한 음성 발화가 될 수 있다.
탐색부(504)는 특징 벡터를 기반으로 학습된 음향모델과 숫자음간의 연결 형태를 정의한 음향 모델 및 언어모델(512)을 바탕으로 특징벡터에 대한 패턴인식을 수행하여 단일 인식 후보(1-best 인식 결과)를 생성한다.
이때 단일한 인식 후보를 구성하는 개별 숫자음에 대해서는 통계적 수치로서의 우도(likelihood)라는 인식 점수가 부착된다. 예를 들면, 입력된 음성이 ‘일이삼사’이고 인식결과가 ‘일이삼사’일 경우에는, 다음 예와 같이 개별 숫자음에 대한 우도 점수가 부착되어 출력된다.
1.  일 -760.430176
2. 이 -784.245605
3. 삼 -538.963379
4. 사 -500.549316
이때 탐색부(504)에서는 이러한 우도 점수 외에 단어별 프레임 길이가 부가정보로 출력되며, 이때, 프레임 길이는 개별 숫자음성의 지속시간(duration)을 나타냄과 동시에 특징벡터의 수를 의미한다.
이후 신뢰도치 생성부(506)에서는 이러한 특징벡터의 수 또는 지속시간 지수로 우도 점수를 나누어 하기 (표 3)과 같은 평균 우도 점수 또는 로그 우도비(Log Likelihood Ratio, 이하 LLR이라 한다)를 산출한다. 이러한 LLR이 곧 인식단위별 신뢰도치가 된다. 결과적으로 이들 LLR을 내림차순으로 정렬하여 숫자별 순위(rank)를 구한다. (표 3)의 예에 따르면 ‘삼’, ‘사’, ‘일’, ‘이’의 순서로 신뢰도가 높아서 정인식의 가능성이 높음을 의미한다.
Figure 112009019429086-pat00003
N-best 생성부(508)에서는 신뢰도치 생성부(506)를 통해 구해진 숫자음 별 순위와, 혼동 행렬 생성 장치(300)로부터 구해진 혼동행렬(514)을 참조하여 N-best 인식결과를 생성하게 된다.
상기 (표 3)의 예에 대해서 N-best 인식결과를 생성하는 논리적 순서는 다음과 같다.
● 생성규칙 1 - 숫자음 대치에 의한 인식후보 생성]: 인식후보 열에서 순위가 가장 낮은 숫자음성의 순으로 (표 1)과 같은 혼동행렬(514)을 참조하여 해당 숫자를 최상위 순위의 혼동쌍으로 대치하여 다음 순서대로 인식후보 열을 생성한다.
  ① (표 3)에서 가장 순위가 낮은 숫자인 ‘이’에 대해 (표 1)의 혼동행렬(514)을 참조하여 ‘일’(‘이’의 가장 혼동 빈도가 높은 숫자음인 ‘일’)로 대치한다. "일일삼사"를 생성한다.
  ② 다음으로 순위가 낮은 숫자인 ‘일’에 대해 (표 1)의 혼동행렬(514)을 참조하여 ‘이’로 대치한다. "이이삼사"를 생성한다.
  ③ 다음으로 순위가 낮은 숫자인 ‘사’에 대해 (표 1)의 혼동행렬(514)을 참조하여 ‘삼’으로 대치한다. "일이삼삼"을 생성한다.
  ④ 마지막으로 가장 순위가 높은 숫자인 ‘삼’에 대해 (표 1)의 혼동행렬(514)을 참조하여 ‘사’로 대치하며 "일이사사"를 생성한다.
● 생성 규칙 2 - 동일 순위에 대한 숫자음 대치에 의한 인식후보 생성]: (표 3)에서 만일 평균 우도 점수가 동일하여 순위가 같게 나타날 경우 (표 2)를 참조하여 대치 순위를 결정한다.
  ① 만일 (표 3)에서 ‘일’과 ‘이’가 동일한 순위일 경우, (표 2)를 참조하여 순위가 높은 숫자를 먼저 대치하여 차상위 인식 후보를 생성한다.
● 생성 규칙 3 - 보다 많은 N-best 인식 결과를 생성할 경우에는, 위의 생성규칙 1에서 정한 순서에 따라 (표 1)의 혼동행렬을 참조하여 해당 숫자에 대해 다음으로 혼동 빈도가 높은 숫자음을 선택하여 대치한다.
  ① 예로서 (표 3)의 최저 순위 숫자 ‘이’에 대해 (표 1)에 구축된 ‘일’ 다음으로 많은 오인식이 발생한 숫자인 ‘육’을 적용하여 "일육삼사"를 생성한다.
이상의 생성 규칙에 따라 N-best 인식 결과를 예시하면 다음과 같다.
1. 일이삼사
2. 일일삼사
3. 이이삼사
4. 일이삼삼
5. 일이사사
6. 일육삼사
7. ......
도 6은 본 발명의 실시 예에 따른 혼동 행렬 및 인식단어별 신뢰도치에 기반한 N-best 생성 절차를 도시한 흐름도이다.
도 6을 참조하면, 600단계에서 음성 특징 추출부(502)는 테스트용 음성 발화 데이터(510)로부터 특징벡터를 추출하고, 추출된 특징 벡터를 탐색부(504)에 전달한다. 이에 탐색부(504)는 602단계에서 음향모델 및 언어모델(512)을 바탕으로 특징벡터에 대한 패턴인식을 수행하여 1-best 인식 결과를 생성한다.
그리고 604단계에서 신뢰도치 생성부(506)는 탐색부(504)로부터 전달받은 특징벡터의 수 또는 지속시간 지수로 우도 점수를 나누어 인식 단위별 신뢰도치를 생성하고, 606단계에서 N-best 생성부(508)는 학습된 혼동행렬(514)과 신뢰도치가 부가된 인식 결과를 바탕으로 다수의 인식 후보인 N-best 리스트를 생성하게 된다.
이상 설명한 바와 같이, 본 발명은 제한된 자원과 상대적으로 저속의 중앙처리장치(CPU)를 채용하는 휴대용 단말기 등에서 고속의 처리가 가능하도록 하는 한국어 연속 숫자 음성인식 특히, N-best 인식 후보열을 생성하기 위한 방식을 제기하는 것으로서, 특히 학습 단계에서 작성된 숫자음성의 혼동행렬과 인식단어별 신뢰도 치를 활용하여 N-best 리스트를 생성함으로써 인식성능의 저하 없이 빠른 응답속도를 구현할 수 있다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 일반적인 연결 또는 연속 숫자음성을 인식하기 위한 문법 네트워크를 도시한 도면,
도 2는 주어진 임의의 음성입력신호에 대해 문법 네트워크를 적용한 탐색을 수행하여 얻어진 단어 격자를 도시한 도면,
도 3은 본 발명의 실시 예에 따른 혼동 행렬 생성 장치의 구조를 도시한 블록도,
도 4는 본 발명의 실시 예에 따른 혼동 행렬 생성 장치에서 혼동 행렬을 생성하기 위한 절차를 도시한 흐름도,
도 5는 본 발명의 실시 예에 따른 N-best 생성 장치의 구조를 도시한 블록도,
도 6은 본 발명의 실시 예에 따른 혼동 행렬 및 인식단어별 신뢰도치에 기반한 N-best 생성 절차를 도시한 흐름도.
< 도면의 주요 부분에 대한 부호 설명 >
300 : 혼동 행렬 생성 장치 302 : 음성 특징 추출부
304 : 탐색부 306 : 혼동 행렬 생성부
308 : 학습용 음성 DB 310 : 음성 모델 및 언어 모델
500 : N-best 생성 장치 502 : 음성 특징 추출부
504 : 탐색부 506 : 신뢰도치 생성부
508 : N-best 생성부 510 : 테스트용 음성 발화 데이터
512 : 음향모델 및 언어모델 514 : 혼동행렬

Claims (10)

  1. 연속적으로 발성되는 숫자 음성에 대한 음성인식을 수행하여 상기 음성 인식된 데이터로부터 특징벡터를 생성하는 음성 특징 추출부와,
    상기 특징 벡터를 기반으로 학습된 음향 모델과 숫자음 간의 연결형태가 정의된 언어 모델을 바탕으로 상기 특징벡터에 대한 패턴인식을 수행하여 단일 인식 후보열을 생성하고, 상기 단일 인식 후보열을 구성하는 개별 숫자음에 대한 우도 점수 및 상기 특징벡터의 수를 출력하는 탐색부와,
    상기 탐색부로부터 전달받은 상기 특징벡터의 수로 상기 우도 점수를 나누어 인식 단위별 신뢰도치를 생성하고, 숫자음별 순위를 구성하는 신뢰도치 생성부와,
    상기 신뢰도치 생성부를 통해 구해진 숫자음별 순위와, 기 설정된 혼동행렬을 참조하여 다중 인식 후보를 생성하는 다중인식 후보 생성부
    를 포함하는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치.
  2. 제 1항에 있어서,
    상기 혼동행렬은,
    단위 개체별로 오인식되는 형태에 대한 발생 빈도 및 해당되는 경우를 통계적 산출하여, 숫자음별 혼동쌍을 혼동빈도에 따라 배치하거나, 전체 숫자음의 혼동 빈도에 따라 배치하여 구성하는 것을 특징으로 하는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치.
  3. 제 1항에 있어서,
    상기 다중인식 후보 생성부는,
    숫자음 대치 시에 상기 탐색부를 통해 얻어진 상기 단일 인식 후보열에 대해 그 평균 우도 점수의 순위에 따라 상기 혼동행렬의 해당 혼동쌍으로 대치하여 인식 후보열을 생성하는 것을 특징으로 하는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치.
  4. 제 1항에 있어서,
    상기 다중인식 후보 생성부는,
    숫자음별 동일 순위에 대한 숫자음 대치 시, 상기 혼동행렬을 참조하여 혼동 빈도가 높은 우선순위의 숫자를 먼저 대치하여 인식 후보를 생성하는 것을 특징으로 하는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치.
  5. 제 3항에 있어서,
    상기 다중인식 후보 생성부는,
    추가적으로 연속된 다음 인식후보 열을 생성할 시에 상기 혼동행렬을 참조하여 해당 숫자 다음으로 혼동 빈도가 높은 숫자음을 선택하여 대치하는 것을 특징으로 하는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치.
  6. 연속적으로 발성되는 숫자 음성에 대한 음성인식을 수행하여 상기 음성 인식된 데이터로부터 특징벡터를 생성하는 과정과,
    상기 특징 벡터를 기반으로 학습된 음향 모델과 숫자음 간의 연결형태가 정의된 언어 모델을 바탕으로 상기 특징벡터에 대한 패턴인식을 수행하여 단일 인식 후보열을 생성하고, 상기 단일 인식 후보열을 구성하는 개별 숫자음에 대한 우도 점수 및 상기 특징벡터의 수를 출력하는 과정과,
    상기 특징벡터의 수로 상기 우도 점수를 나누어 인식 단위별 신뢰도치를 생성하고, 숫자음별 순위를 구성하는 과정과,
    상기 숫자음 별 순위와, 기 설정된 혼동행렬을 참조하여 다중 인식 후보를 생성하는 과정
    을 포함하는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 방법.
  7. 제 6항에 있어서,
    상기 혼동행렬은,
    단위 개체별로 오인식되는 형태에 대한 발생 빈도 및 해당되는 경우를 통계적 산출하여, 숫자음별 혼동쌍을 혼동빈도에 따라 배치하거나, 전체 숫자음의 혼동 빈도에 따라 배치하여 구성하는 것을 특징으로 하는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 방법.
  8. 제 6항에 있어서,
    상기 다중 인식 후보를 생성하는 과정은,
    숫자음 대치 시에 상기 단일 인식 후보열에 대해 그 평균 우도 점수의 순위에 따라 상기 혼동행렬의 해당 혼동쌍으로 대치하여 인식 후보열을 생성하는 것을 특징으로 하는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 방법.
  9. 제 6항에 있어서,
    상기 다중 인식 후보를 생성하는 과정은,
    숫자음별 동일 순위에 대한 숫자음 대치 시, 상기 혼동행렬을 참조하여 혼동 빈도가 높은 우선순위의 숫자를 먼저 대치하여 인식 후보를 생성하는 것을 특징으로 하는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 방법.
  10. 제 6항에 있어서,
    상기 다중 인식 후보를 생성하는 과정은,
    추가적으로 연속된 다음 인식후보 열을 생성할 시에 상기 혼동행렬을 참조하여 해당 숫자 다음으로 혼동 빈도가 높은 숫자음을 선택하여 대치하는 것을 특징으로 하는 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 방법.
KR1020090027532A 2008-12-02 2009-03-31 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법 KR101095864B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020080120912 2008-12-02
KR20080120912 2008-12-02

Publications (2)

Publication Number Publication Date
KR20100062831A KR20100062831A (ko) 2010-06-10
KR101095864B1 true KR101095864B1 (ko) 2011-12-21

Family

ID=42363036

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090027532A KR101095864B1 (ko) 2008-12-02 2009-03-31 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101095864B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120066530A (ko) 2010-12-14 2012-06-22 한국전자통신연구원 언어 모델 가중치 추정 방법 및 이를 위한 장치
KR101411039B1 (ko) * 2012-02-07 2014-07-07 에스케이씨앤씨 주식회사 음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293195A (ja) 1999-04-09 2000-10-20 Hitachi Ltd 音声入力装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293195A (ja) 1999-04-09 2000-10-20 Hitachi Ltd 音声入力装置

Also Published As

Publication number Publication date
KR20100062831A (ko) 2010-06-10

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US8010361B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
Lee Voice dictation of mandarin chinese
US8738378B2 (en) Speech recognizer, speech recognition method, and speech recognition program
JP2005084681A (ja) 意味的言語モデル化および信頼性測定のための方法およびシステム
JP5141687B2 (ja) 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
KR100904049B1 (ko) 음성 인식에 대한 통계적 의미 분류 시스템 및 방법
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
KR101095864B1 (ko) 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법
JP3364631B2 (ja) 統計的言語モデル生成装置及び音声認識装置
Vancha et al. Word-level speech dataset creation for sourashtra and recognition system using kaldi
CN111429886B (zh) 一种语音识别方法及系统
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
KR20030010979A (ko) 의미어단위 모델을 이용한 연속음성인식방법 및 장치
Wang et al. An iterative approach to model merging for speech pattern discovery
JP2008083165A (ja) 音声認識処理プログラム及び音声認識処理方法
Niyozmatova et al. Language and acoustic modeling in Uzbek speech recognition
CN116189666A (zh) 语音识别方法、系统及终端

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150812

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160928

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171101

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee