KR101483947B1 - 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 - Google Patents

핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 Download PDF

Info

Publication number
KR101483947B1
KR101483947B1 KR20130127604A KR20130127604A KR101483947B1 KR 101483947 B1 KR101483947 B1 KR 101483947B1 KR 20130127604 A KR20130127604 A KR 20130127604A KR 20130127604 A KR20130127604 A KR 20130127604A KR 101483947 B1 KR101483947 B1 KR 101483947B1
Authority
KR
South Korea
Prior art keywords
phoneme
recognition result
keyword
model parameter
parameter distribution
Prior art date
Application number
KR20130127604A
Other languages
English (en)
Other versions
KR20130126570A (ko
Inventor
곽철
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR20130127604A priority Critical patent/KR101483947B1/ko
Publication of KR20130126570A publication Critical patent/KR20130126570A/ko
Application granted granted Critical
Publication of KR101483947B1 publication Critical patent/KR101483947B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

본 발명은 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체에 관한 것으로, 이러한 본 발명은 핵심어를 포함하는 단어열에 대한 음성 인식 결과인 N-best 인식 결과로부터 상기 핵심어에 대한 음성 인식 결과인 핵심어 인식 결과를 추출하는 핵심어 검출부와, 상기 핵심어 인식 결과에 따라 정답 음소 및 오류 음소의 음소 모델 파라미터 분포를 도출하는 핵심어 학습부와, 상기 핵심어 인식 결과에서 오류 음소의 로그우도를 가중치로 적용하고, 상기 오류 음소의 카운트 값에 비례하여, 상호 정보량이 최소화되도록 상기 오류 음소의 음소 모델 파라미터 분포를 업데이트하는 핵심어 변별 학습부를 포함한다.

Description

핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체{Apparatus for discriminative training acoustic model considering error of phonemes in keyword and computer recordable medium storing the method thereof}
본 발명은 음향 모델 변별 학습 방법에 관한 것으로, 더욱 상세하게는, 핵심어에서의 음소의 오류 결과를 고려하여 음향 모델에서 음소의 상호 정보량을 최소화할 수 있는 음향 모델 변별 학습을 위한 장치 및 이러한 변별 학습 방법이 기록된 컴퓨터 판독 가능한 기록매체에 관한 것이다.
음성 인식은 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하는 것. 구체적으로 음성파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이다. 이러한 음성 인식은 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류될 수 있다. 음성 인식은 좁은 의미로 음성 분석에서 단어 인식까지를 말하는 경우가 있다.
인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술의 연구 개발이 오랫동안 진행되어 왔다. 대형 장치를 필요로 하는 음성 인식 장치와 음성 합성 장치를 대규모 집적 회로(LSI, large scale integrated circuit)의 발달에 따라 가로세로 수 mm 크기의 집적 회로 위에 실현할 수 있게 됨으로써 음성 입출력 장치가 실용화되었다.
현재 전화에 의한 은행 잔액 조회, 증권 시세 조회, 통신 판매의 신청, 신용 카드 조회, 호텔이나 항공기 좌석 예약 등에 사용된다. 그러나 이들 서비스는 제한된 수의 단어를 하나하나 떼어서 발음하는 음성을 인식하는 단어 음성 인식 장치를 사용한다. 음성 인식의 궁극적인 목표는 자연스러운 발성에 의한 음성을 인식하여 실행 명령어로서 받아들이거나 자료로서 문서에 입력하는 완전한 음성 혹은 텍스트 변환의 실현이다. 이는 단지 단어를 인식할 뿐 아니라 구문 정보, 의미 정보, 작업에 관련된 정보와 지식 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출하는 음성 이해 시스템을 개발하는 것이다. 이러한 시스템의 연구 개발이 활발하게 진행되고 있다.
한국공개특허 제2013-0067854호, 2012.06.25 공개 (명칭: 코퍼스 기반 언어 모델 변별 학습 방법 및 그 장치)
본 발명의 목적은 음성 인식 시스템에서 핵심어를 이용하여 음소의 상호 정보량을 최소화할 수 있는 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체를 제공함에 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 음향 모델 변별 학습을 위한 장치는 핵심어를 포함하는 단어열에 대한 음성 인식 결과인 N-best 인식 결과로부터 상기 핵심어에 대한 음성 인식 결과인 핵심어 인식 결과를 추출하는 핵심어 검출부와, 상기 핵심어 인식 결과에 따라 정답 음소 및 오류 음소의 음소 모델 파라미터 분포를 도출하는 핵심어 학습부와, 상기 핵심어 인식 결과에서 오류 음소의 로그우도를 가중치로 적용하고, 상기 오류 음소의 카운트 값에 비례하여, 상호 정보량이 최소화되도록 상기 오류 음소의 음소 모델 파라미터 분포를 업데이트하는 핵심어 변별 학습부를 포함한다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 컴퓨터 판독 가능한 기록매체는, 핵심어를 포함하는 단어열에 대한 음성 인식 결과인 N-best 인식 결과로부터 상기 핵심어에 대한 음성 인식 결과인 핵심어 인식 결과를 추출하는 단계와, 상기 핵심어 인식 결과에 따라 정답 음소 및 오류 음소의 음소 모델 파라미터 분포를 도출하는 단계와, 상기 핵심어 인식 결과에서 오류 음소의 로그우도를 가중치로 적용하고, 상기 오류 음소의 카운트 값에 비례하여, 상호 정보량이 최소화되도록 상기 오류 음소의 음소 모델 파라미터 분포를 업데이트하는 단계;를 포함하는 음향 모델 변별 학습을 위한 방법이 기록된다.
본 발명의 실시예에 따르면, N-best 인식 결과를 통한 변별 학습과 함께, 핵심어 인식 결과에 따른 변별 학습을 수행하기 때문에, 특정 단어, 즉, 핵심어에 대한 변별 학습의 성능을 향상시킬 수 있다. 이러한 경우, 단순하게 N-best 인식 결과에 따라 변별 학습을 수행하는 것에 비해, 핵심어 인식 결과를 통해 모든 사용자 혹은 특정 사용자에 대해 보다 효율적인 음향 모델을 구축할 수 있다. 더욱이, 음향 모델의 음소 모델 파라미터 분포를 업데이트할 때, 오류 인식 결과로 구분된 음소의 로그우도를 가중치로 적용하여, 오류 인식 결과도 상호 정보량을 최소화하도록 반영함으로써, 변별 학습(discriminative training)에서 효율적으로 상호 정보량을 최소화시킬 수 있다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 실시예에 따른 학습 방법의 개념을 설명하기 위한 개념도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 음향 모델 학습부의 내부 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 음향 모델 학습 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따른 음향 모델 학습부의 음향 모델 학습 방법을 설명하기 위한 흐름도이다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 핵심을 흐리지 않고 더욱 명확히 전달하기 위한 것이다.
또한, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1a 내지 도 1d는 본 발명의 실시예에 따른 변별 학습의 개념을 설명하기 위한 개념도이다.
도 1a 내지 도 1d의 설명에 앞서 본 발명의 실시예에 따른 음성 인식 방법을 살펴보기로 한다. 음성 인식은 입력된 음성에 대한 음향이 분석되고, 그 음성의 특징량을 나타내는 소정 차원의 특징 벡터의 추출이 이루어진다. 그 후, 특징 벡터와 음향 모델과의 매칭 처리가 이루어진다. 본 발명의 실시예에 따르면, 그 매칭 처리는 음소 단위로 이루어진다. 그 매칭 처리 결과, 특징 벡터에 매칭되는 음향 모델의 음소가 음성 인식 결과(인식 결과)가 된다. 매칭 처리에서는 음향 모델을 구성하는 확률 분포(음소 모델 파라미터 분포)를 이용하여, 음성 인식 결과의 복수의 후보로, 해당 음향 모델에 대한 특징 벡터가 관측되는 로그우도가 계산된다. 예컨대, 입력된 단어("특")가 3개의 음소 A(ㅌ), B(으) 및 C(ㄱ)로 이루어진 경우, 다음의 <표 1>과 같은 결과가 출력될 수 있다.
음소 A 인식 결과
(로그우도)
음소 B 인식 결과
(로그우도)
음소 C 인식 결과
(로그우도)
후보 1 E(0.1) V(0.2) E(0.1)
후보 2 A(1.2) V(0.2) C(1.4)
후보 3 A(1.2) B(2.2) C(1.4)
<표 1>에서, 로그우도는 인식된 음소가 음향 모델에서 해당 음소일 확률이다. 다른 말로, 로그우도는 음향 모델의 음소 모델 파라미터 분포와 입력된 음성의 음소의 유사도(확률)이다. 각 후보의 인식 결과가 산출되면, 그 로그우도에 기초하여 복수의 후보 중에서, 최종적인 음성 인식 결과가 결정된다. <표 1>에서는 후보 3이 선택될 것이다. 즉, 복수의 후보 중 로그우도가 가장 높은 후보가 입력된 음성에 가장 가까운 것으로 선택되고, 그 후보를 구성하는 음향 모델에 대응하는 단어열이 음성 인식 결과로서 출력될 것이다.
본 발명의 실시예에 따른 변별 학습은 N-best 인식 결과와 핵심어 인식 결과를 모두 이용한다. 여기서, N-best 인식 결과는 특정 단어열에 대한 인식 결과라면, 핵심어 인식 결과는 특정 단어열에 포함된 단어 중 핵심어로 지정된 적어도 하나의 단어에 대한 인식 결과가 될 수 있다.
예컨대, "나는 이번 달 계좌를 신청했습니다."와 같은 음성 신호가 입력된 경우를 가정한다. 이때, N-best 인식 결과는 N=3 일 때, 그 N-best 인식 결과 값은 다음의 <표 2>과 같다고 가정한다.
N-best 인식 결과 정답/오류
나는 이번 달 계좌를 신청했습니다. 정답 인식 결과
나는 이월 달 계좌를 신청했습니다. 오류 인식 결과
나는 이월 달 계자를 신설했습니다. 오류 인식 결과
<표 2>에 보인 바와 같이, 음성 인식 결과, 정답 인식 결과는 "나는 이번 달 계좌를 신청했습니다."로 출력될 수 있다.
또한, 핵심어가 "계좌"인 경우, 핵심어 인식 결과는 다음의 <표 3>과 같이 될 수 있다.
핵심어 인식 결과 정답/오류
계좌를 정답 인식 결과
계좌를 정답 인식 결과
계자를 오류 인식 결과
<표 3>에 보인 바와 같이, 핵심어 음성 인식 결과 정답 인식 결과는 "계좌"가 될 수 있다.
전술한 바와 같이, N-best 인식 결과의 경우, 단어열 "나는 이번 달 계좌를 신청했습니다."에 대한 인식 결과가 되며, 핵심어 인식 결과의 경우, 핵심어 "계좌"에 대한 인식 결과가 되기 때문에, N-best 인식 결과와 핵심어 인식 결과는 상이할 수 있다. 즉, N-best 인식 결과에 따라 오류인 인식 결과에 포함된 핵심어는 그 핵심어 인식 결과가 정답일 수도 있다. 그리고 그 역도 마찬가지다. 따라서 본 발명의 실시예에 따르면, 핵심어를 포함하는 단어열에 대한 변별 학습과 그 핵심어에 대한 변별 학습을 같이 수행한다.
이제, 도 1a 내지 도 1d를 참조하여, 본 발명의 실시예에 따른 변별 학습 방법을 설명한다. 강조하면, 아래에서 설명되는 변별 학습은 N-best 인식 결과 및 핵심어 인식 결과 모두에 적용될 수 있다.
도 1a를 살펴보면, <표 1>과 같이 음향 모델에 음소 A, B, C가 존재한다고 가정한다. 도면 부호 10, 20 및 30은 음소 A, B 및 C의 음소 모델 파라미터 분포를 도식화한 것이다. 음소 모델 파라미터 분포는 해당 음소의 확률 분포가 될 수 있다. 여기서, 각 음소의 음소 모델 파라미터 분포가 중첩된 부분인 도면 부호 40은 상호 정보량을 나타낸다.
앞서 설명된 음성 인식 방법을 기반으로 하는 음성 인식 방법에서, 상호 정보량이 많은 경우, 입력된 음성의 음소들을 명확히 구분하는 인식정확도를 저하시키는 문제가 발생한다. 따라서 본 발명의 실시예는 이러한 "상호 정보량을 최소화"하도록 음소 모델 파라미터 분포를 업데이트한다.
본 발명의 실시예에 따른 "상호 정보량 최소화"의 의미에 대해 설명하면 다음과 같다. 도 1b를 참조하면, 2 개의 음소, 즉, 음소 M 및 N에 대한 음소 모델 파라미터 분포가 도시되었다. 예컨대, 음소 M은 "ㅘ"이고, 음소 N은 "ㅏ"가 될 수 있다.
도면 부호 50 및 60은 각각 현재 음향 모델의 음소 M 및 N에 대한 음소 모델 파라미터 분포이며, 도면 부호 70 및 80은 각각 음소 M 및 N에 대한 상호 정보량이 최소화된 이상적인 음소 모델 파라미터 분포라고 가정한다.
도면 부호 90은 현재 음향 모델의 음소 M 및 N에 대한 음소 모델 파라미터 분포(50, 60) 간의 상호 정보량이다. 이러한 상호 정보량(90)으로 인하여 음소 M이 입력되었음에도 불구하고, 음소 N으로 인식될 수 있다. 따라서 이러한 상호 정보량을 최소화시켜야 한다. 상호 정보량(90)을 최소화시키기 위해서는 현재 음향 모델의 음소 M의 음소 모델 파라미터 분포(50)가 음소 M의 이상적인 음소 모델 파라미터 분포(70)로 이동되어야 한다. 혹은, 현재 음향 모델의 음소 N의 음소 모델 파라미터 분포(60)가 음소 N의 이상적인 음소 모델 파라미터 분포(80)로 이동되어야 한다.
앞서 설명된 바와 같이, 음성 인식 결과는 입력된 음성 신호의 음소가 음향 모델에 저장된 음소와 동일한 음소일 확률(유사도)로 출력된다. 훈련 혹은 학습을 위한 음성은 알려져 있는 음성을 이용할 수 있다. 따라서 음성 인식 결과, 정답 인식 결과인 경우, 해당하는 음소를 정답 음소라고 하며, 음성 인식 결과, 오류 인식 결과인 경우, 해당하는 음소를 오류 음소라고 한다. 예컨대, 음소 M이 입력되었을 때, 음소 M으로 인식한 경우, 정답 인식 결과라고 하며, 음소 M을 정답 음소라고 칭한다. 또한, 음소 M이 입력되었을 때, 음소 N으로 인식한 경우, 오류 인식 결과라고 하며, 음소 N을 오류 음소라고 칭한다.
도 1c를 참조하면, 음소 M에 대한 음성 인식 결과는 정답 인식 결과가 출력되었다고 가정한다. 따라서 음성 인식 결과가 정답인 음소 M의 경우, 음성 인식 결과에 따라 최대 상호정보량(MMI, maximum mutual information) 추정 방법을 이용하여, 음향 모델의 음소 모델 파라미터 분포에 반영시켜 업데이트하면, 현재 음향 모델의 음소 M에 대한 음소 모델 파라미터 분포(50)는 음소 M에 대한 이상적인 음소 모델 파라미터 분포(70) 방향으로 이동할 것이다. 도 1c와 같은 경우에는 상호 정보량이 전혀 없는 이상적인 형태로 최소화되었다.
한편, 도 1d를 참조하면, 음소 M에 대한 음성 인식 결과가 오류 인식 결과가 출력되었다고 가정한다. 예컨대, 음소 M에 대한 음성 인식 결과가 N으로 출력되었다고 가정한다. 이는 도면 부호 90이 나타내는 상호 정보량에 의한 오류 인식 결과이다. 이러한 경우, 종래에는 오류 인식 결과는 무시되었기 때문에 음향 모델의 업데이트는 없었다.
하지만, 본 발명의 실시예에 따르면, 음성 인식 결과가 오류인 음소 N의 로그우도를 도출한다. 이때, 로그우도는 최대 로그우도(ML, maximum likelihood) 추정 방법을 이용하여 산출된다. 또한, 오류 인식 결과에 따른 오류 음소의 카운트 값, 즉, 오류 인식 결과에서 오류 음소로 판정된 횟수를 도출한다. 그런 다음, 로그우도를 가중치로 적용하고, 오류 음소의 카운트 값에 비례하여, 음향 모델의 음소 모델 파라미터 분포를 업데이트한다. 이에 따라, 현재 음향 모델의 음소 N에 대한 음소 모델 파라미터 분포(60)는 음소 N에 대한 이상적인 음소 모델 파라미터 분포(80)로 이동할 것이다. 이는 상호 정보량에 의해 오류가 나타나지 않도록 오류 인식 결과로 나타난 음소 N의 음소 모델 파라미터 분포(60)를 음소 M과의 상호 정보량이 줄어들도록 이동시키는 것이다. 이에 따라, 음소 N의 음소 M에 대한 상호 정보량(90)이 도면 부호 93에 의해 지시되는 바와 같이 줄어든다. 즉, 상호 정보량이 최소화된다. 이때, 음소 N의 음소 모델 파라미터 분포(60)는 로그우도의 크기 및 오류 음소의 카운트 값에 따라 그 이동의 정도를 달리한다. 다른 말로, 음소 N의 음소 모델 파라미터 분포(60)가 이동하는 정도는 로그우도의 값이 크고, 오류 음소의 카운트 값이 클수록 이동의 폭이 넓다.
전술한 바와 같이, 상호 정보량 최소화는 서로 다른 음소의 음소 모델 파라미터 분포에서 중첩되는 확률 분포 부분(90)을 줄이는 것을 의미한다. 이러한 방법에 따라, 음향 모델에서 음소 M과 음소 N의 상호 정보량(90)을 최소화시킬 수 있다. 특히, 본 발명에 따르면, 정답(correct) 인식 결과의 음소들에 대한 모델 파라미터 분포를 업데이트하고, 추가로, 오류(incorrect) 인식 결과의 음소들에 대한 모델 파라미터 분포를 업데이트함으로써, 변별 학습의 성능을 향상시킬 수 있다.
더욱이, 본 발명의 실시예에 따르면, N-best 인식 결과를 통한 변별 학습과 함께, 핵심어 인식 결과에 따른 변별 학습을 수행하기 때문에, 특정 단어, 즉, 핵심어에 대한 변별 학습의 성능을 향상시킬 수 있다. 예컨대, 핵심어는 핵심어는 특정 사용자가 사용 빈도가 기 설정된 수치 보다 높은 단어, 모든 사용자에게 있어 발음이 어려운 것으로 지정된 단어, 특정 사용자에게 있어 발음이 어려운 것으로 지정된 단어, 모든 사용자에게 있어 기 설정된 보다 많은 오류가 발생하는 단어, 및 특정 사용자에게 있어 기 설정된 기준치 보다 많은 오류가 발생하는 단어 중 적어도 하나에 해당하는 단어 등을 미리 지정할 수 있다. 이러한 경우, 단순하게 N-best 인식 결과에 따라 변별 학습을 수행하는 것에 비해, 모든 사용자 혹은 특정 사용자에 대해 보다 효율적인 음향 모델을 구축할 수 있다.
도 2는 본 발명의 실시예에 따른 음향 모델 변별 학습을 위한 장치를 포함하는 음성 인식 시스템을 설명하기 위한 도면이다.
도 2를 참조하면, 음성 인식 시스템은 특징 추출부(100), 탐색부(200), 음향 모델 데이터베이스(300), 발음 사전 데이터베이스(400), 언어 모델 데이터베이스(500), 텍스트 데이터베이스(600), 언어 모델 학습부(700), 음성 데이터베이스(800), 핵심어 검출부(910), 핵심어 데이터베이스(912), N-best 정렬부(920), 핵심어 학습부(930), N-best 학습부(940), 핵심어 변별 학습부(950) 및 N-best 변별 학습부(960)를 포함한다.
특징 추출부(100)는 입력된 음성 신호로부터 음성 신호의 특징을 추출하기 위한 것이다. 여기서, 음성 신호는 음성 입력 장치나 음성 파일을 통해 입력될 수 있다. 특징 추출부(100)는 입력된 음성 신호에서 잡음을 제거하거나 음성 인식 성능을 높이기 위한 신호 처리를 수행 한다. 그런 다음, 특징 추출부(100)는 신호 처리된 음성 구간의 음성 신호에서 특징 벡터를 추출하여, 탐색부(200)에 제공한다.
탐색부(200)는 음향 모델 데이터베이스(300)에 저장된 음향 모델, 언어 모델 데이터베이스(500)에 저장된 언어 모델과 발음 사전 데이터베이스(400)에 저장된 발음 사전을 통해 음성 인식에 필요한 탐색 공간을 형성하고, 형성된 탐색공간과 입력된 음성으로부터 특징 추출부(100)가 구한 특징 벡터를 사용하여 음성 인식을 수행한다.
본 발명의 실시예에서 탐색부(200)는 미리 학습된 모델에 대한 유사도 값을 인식 결과로 출력할 수 있다. 탐색부(200)는 음성 인식을 통해 격자(lattice) 형태의 인식결과를 얻을 수 있으며, 격자(lattice) 형태의 인식결과로부터 N-best의 인식 결과를 얻을 수 있다. 이를 위하여 탐색부(200)는 비터비(Viterbi) 알고리즘 또는 DTW(Dynamic Time Warping)와 같은 패턴 정합 알고리즘을 이용할 수 있다. 예컨대, 탐색 공간은 명령어 인식 및 숫자음 인식과 같은 적은 어휘의 인식을 위한 FSN(Finite state network) 형태의 탐색 공간과 대어휘 인식과 빠른 인식을 위한 트리(tree) 형태의 탐색 공간을 포함할 수 있다.
음향 모델 데이터베이스(300)는 음향 모델을 저장한다. 여기서, 음향 모델은 시간적으로 변화하는 음성 신호의 특징을 모델링한다. 음향 모델링 방법은 HMM, Continuous HMM, 신경회로망(NN) 등을 예시할 수 있다. 본 발명의 실시예에 따른 음향 모델 데이터베이스(300)는 각 음소 별로 음소 모델 파라미터 분포를 저장할 수 있다.
발음 사전 데이터베이스(400)는 발음 사전을 저장한다. 발음 사전은 음성에 대한 발음을 저장한다. 발음 사전은 음향 모델과 연결하여 특정 음성에 대한 다중의 발음들을 저장한다.
언어 모델 데이터베이스(500) 언어 모델은 단어간의 문법을 고려하여 인식 후보에 가중치를 줌으로써 문법에 맞는 문장이 더 높은 점수를 얻도록 함으로써 인식률을 향상시킨다. 최적의 인식 단어열을 찾기 위한 탐색에서는 비교하여야 할 후보의 개수를 줄이는 역할도 하게 된다. 인식되는 대상 어휘의 수와 인식 속도, 인식 성능을 고려하여 언어 모델을 선택할 수 있다.
텍스트 데이터베이스(600)는 언어 모델을 생성하기 위한 텍스트들을 저장한다. 언어 모델 학습부(700)는 텍스트 데이터베이스(600)에 저장된 텍스트들을 통해 언어 모델을 생성 혹은 업데이트한다.
음성 데이터베이스(800)는 학습을 위한 음성 및 그 음성에 대한 텍스트(전사 데이터)를 저장할 수 있다. 이때, 그 음성에 대한 텍스트는 생략될 수 있다.
상술한 음향 모델 데이터베이스(300)의 음향 모델, 발음 사전 데이터베이스(400)의 발음 사전, 및 언어 모델 데이터베이스(500)의 언어 모델을 이용하여 음성 인식에 필요한 탐색 공간이 형성되며, 학습을 위한 음성 신호가 입력되면, 특징 추출부(100)는 그 음성 신호로부터 특징 벡터를 추출하고, 탐색부(200)는 추출된 특징 벡터를 이용하여 음성을 인식하고, 그 인식 결과로 N-best 인식 결과를 출력한다.
핵심어 검출부(910)는 탐색부(200)가 출력한 단어열에 대한 인식 결과인 N-best 인식 결과에서 핵심어 데이터베이스(912)를 참조하여 단어열에 포함된 핵심어에 대한 인식 결과인 핵심어 인식 결과만을 추출한다.
핵심어 데이터베이스(912)에 저장되는 핵심어는 핵심어는 특정 사용자가 사용 빈도가 기 설정된 수치 보다 높은 단어, 모든 사용자에게 있어 발음이 어려운 것으로 지정된 단어, 특정 사용자에게 있어 발음이 어려운 것으로 지정된 단어, 모든 사용자에게 있어 기 설정된 보다 많은 오류가 발생하는 단어, 및 특정 사용자에게 있어 기 설정된 기준치 보다 많은 오류가 발생하는 단어 중 적어도 하나에 해당하는 단어 등이 저장된다. 핵심어 검출부(910)는 검출된 핵심어 인식 결과를 핵심어 학습부(930)에 제공한다.
핵심어 학습부(930)는 음성 데이터베이스(800)에 저장된 음성을 통해 핵심어 인식 결과에 따라, 핵심어에 포함된 복수의 음소들의 음소 모델 파라미터 분포를 도출한다. 예컨대, 음소 M이 입력되었을 때, M으로 인식한 경우, 그 음소 M을 정답 인식 결과로 판단하며, 정답 음소라고 한다. 그리고 음소 M이 입력되었을 때, N으로 인식한 경우, 그 음소 N을 오류 인식 결과로 판단하며, 오류 음소라고 한다.
따라서, 핵심어 학습부(930)는 정답 음소의 음소 모델 파라미터와, 오류 음소의 음소 모델 파라미터를 도출한다. 다음으로, 핵심어 학습부(930) 및 N-best 학습부(940) 각각은 이러한 정답 음소 및 오류 음소를 핵심어 학습부(930) 및 N-best 학습부(940)로 전달한다.
핵심어 변별 학습부(950)는 핵심어 학습부(930)로부터 수신된 음소 모델 파라미터 분포와 다른 음소 모델 파라미터의 상호 정보량이 최소화되도록, 수신된 음소 모델 파라미터 분포를 업데이트한다. 이때, 핵심어 변별 학습부(950)는 핵심어 인식 결과에서 정답 음소의 음소 모델 파라미터 분포 및 오류 음소의 음소 모델 파라미터 분포를 업데이트한다.
한편, N-best 정렬부(920)는 탐색부(200)가 출력한 N-best 인식 결과를 정렬하여, N-best 학습부(940)에 제공한다.
N-best 학습부(940)는 음성 데이터베이스(800)에 저장된 음성을 통해 N-best 인식 결과에 따른 음소들의 음소 모델 파라미터 분포를 도출한다. 이때, N-best 학습부(940)는 정답 음소의 음소 모델 파라미터 및 오류 음소의 음소 모델 파라미터를 도출한다. 다음으로, N-best 학습부(940) 각각은 이러한 정답 음소 및 오류 음소의 음소 모델 파라미터를 N-best 변별 학습부(960)로 전달한다.
N-best 변별 학습부(960)는 N-best 학습부(940)로부터 수신된 음소 모델 파라미터 분포와 다른 음소 모델 파라미터의 상호 정보량이 최소화되도록, 수신된 음소 모델 파라미터 분포를 업데이트한다. 이때, N-best 변별 학습부(960)는 N-best 인식 결과에서 정답 음소의 음소 모델 파라미터 분포 및 오류 음소의 음소 모델 파라미터 분포 각각을 업데이트한다.
상술한 바와 같이, 본 발명의 실시예에 따르면, N-best 인식 결과뿐만 아니라, N-best 인식 결과로부터 추출된 핵심어 인식 결과를 이용하여, 변별 학습을 수행한다. 따라서, 핵심어에 대해서는 보다 정확하고 집중적인 변별 학습을 수행할 수 있다. 더욱이, N-best 인식 결과 핵심어 인식 결과 각각에서, 정답 음소뿐만 아니라, 오류 음소를 이용하여, 변별 학습을 수행한다. 따라서 변별 학습에서 보다 효과적으로 상호 정보량을 최소화할 수 있다.
그러면, 보다 상세히, N-best 인식 결과를 이용하는 변별 학습 수행을 위한 장치 및 핵심어 인식 결과를 이용하는 변별 학습 수행을 위한 장치 각각에 대해 살펴보기로 한다.
도 3은 도 2의 음성 인식 시스템에서 핵심어 인식 결과에 대한 변별 학습을 수행하기 위한 장치를 설명하기 위한 블록도이다.
도 3을 참조하면, 핵심어 인식 결과에 대한 변별 학습을 수행하기 위해 필요한 장치는 음향 모델 데이터베이스(300), 음성 데이터베이스(800), 핵심어 검출부(910), 핵심어 데이터베이스(912), 핵심어 학습부(930) 및 핵심어 변별 학습부(950)를 포함한다.
먼저, 핵심어 검출부(910)는 탐색부(200)로부터 출력된 N-best 인식 결과 각각에서, 핵심어 데이터베이스(912)에 저장된 핵심어를 참조하여 핵심어 인식 결과를 추출한다. 예컨대, <표 2>와 같이, N=3일 때, N-best 인식 결과로부터 예컨대, <표 3>와 같은 핵심어 인식 결과를 추출한다. 이러한 핵심어는 핵심어는 특정 사용자가 사용 빈도가 기 설정된 수치 보다 높은 단어, 모든 사용자에게 있어 발음이 어려운 것으로 지정된 단어, 특정 사용자에게 있어 발음이 어려운 것으로 지정된 단어, 모든 사용자에게 있어 기 설정된 보다 많은 오류가 발생하는 단어, 및 특정 사용자에게 있어 기 설정된 기준치 보다 많은 오류가 발생하는 단어 중 적어도 하나에 해당하는 단어 등이 될 수 있다. 여기서, 핵심어 인식 결과는 정답 및 오류 인식 결과를 포함한다. 그리고 핵심어 검출부(910)는 핵심어 인식 결과를 핵심어 학습부(930)에 제공한다.
핵심어 학습부(930)는 핵심어의 각 음소 별 음소 모델 파라미터 분포를 도출한다. 이때, 핵심어 학습부(930)는 음성 데이터베이스(800)를 참조하여, 각 핵심어에 포함된 복수의 음소에 대한 음소 모델 파라미터 분포를 도출한다. 특히, 핵심어 학습부(930)는 정답 음소 및 오류 음소 각각을 구분하여 음소 모델 파라미터 분포를 도출한다. 그런 다음, 핵심어 학습부(930)는 정답 음소 및 오류 음소로 구분된 음소 음소 모델 파라미터 분포를 핵심어 변별 학습부(950)에 제공한다.
핵심어 변별 학습부(950)는 오류 음소 처리 모듈(951) 및 정답 음소 처리 모듈(953)을 포함한다. 이에 따라, 오류 인식 결과를 가지는 오류 음소에 대한 음소 모델 파라미터 분포는 오류 음소 처리 모듈(951)에 입력된다. 정답 인식 결과를 가지는 정답 음소에 대한 음소 모델 파라미터 분포는 정답 음소 처리 모듈(953)에 입력된다.
오류 음소 처리 모듈(951)은 음향 모델 데이터베이스(300)에 저장된 음향 모델에서 오류 음소에 해당하는 음소 모델 파라미터 분포를 업데이트한다. 이때, 오류 음소 처리 모듈(951)은 핵심어 인식 결과에서 오류 음소의 로그우도를 가중치로 적용하고, 오류 음소의 카운트 값에 비례하여, 음향 모델에서 해당하는 음소 모델 파라미터 분포를 업데이트한다. 이때, 로그우도는 최대 로그우도(ML) 추정 방법을 이용하여 산출된다. 또한, 오류 음소의 카운트 값은 해당 음소에 대해 오류 음소로 판정된 횟수를 의미한다. 예컨대, 도 1d에서 설명된 바와 같이, 오류 음소에 해당하는 음소 모델 파라미터 분포를 업데이트하는 것은, 입력된 음소 M이 아니라, 오류 음소인 음소 N의 음소 모델 파라미터 분포(60)를 음소 M의 음소 모델 파라미터 분포(50)와의 상호 정보량이 줄어드는 방향으로 이동시키는 것이다. 이에 따라, 음소 N에 대한 음소 모델 파라미터 분포(60)는 음소 N에 대한 이상적인 음소 모델 파라미터 분포(80)로 이동할 것이다. 또한, 음소 N에 대한 음소 모델 파라미터 분포(60)는 로그우도의 크기에 비례하여 이동되는 정도가 결정된다. 또한, 음소 모델 파라미터 분포(60)는 오류 음소의 카운트 값에 비례하여 이동되는 정도가 결정된다.
정답 음소 처리 모듈(953)은 음향 모델 데이터베이스(300)에 저장된 음향 모델에서 정답 음소에 해당하는 음소 모델 파라미터 분포를 업데이트한다. 이때, 정답 음소 처리 모듈(953)은 핵심어 인식 결과에서 정답 음소에 대한 음향 모델의 음소 모델 파라미터 분포를 업데이트하기 위해 최대 상호정보량(MMI) 추정 방법을 통해 수행할 수 있으며, 이러한 업데이트는 정답 음소의 카운트 값을 이용한다. 여기서, 정답 음소의 카운트 값은 해당 음소에 대해 정답 음소로 판정된 횟수를 의미한다. 예컨대, 도 1c에서 설명된 바와 같이, 정답 음소에 해당하는 정답 음소 모델 파라미터 분포를 업데이트하는 것은, 현재 음향 모델의 음소 M에 대한 음소 모델 파라미터 분포(50)를 음소 M에 대한 이상적인 음소 모델 파라미터 분포(70)를 향하여 이동시키는 것이다. 추가로, 음향 모델의 음소 M에 대한 음소 모델 파라미터 분포(50)는 정답 음소의 수에 따라 이동되는 정도가 결정된다.
도 4는 도 2의 음성 인식 시스템에서 N-best 인식 결과에 대한 변별 학습을 수행하기 위한 장치를 설명하기 위한 블록도이다.
도 4를 참조하면, 핵심어 인식 결과에 대한 변별 학습을 수행하기 위해 필요한 장치는 음향 모델 데이터베이스(300), 음성 데이터베이스(800), N-best 정렬부(920), N-best 학습부(940) 및 N-best 변별 학습부(960)를 포함한다.
먼저, N-best 정렬부(920)는 탐색부(200)로부터 출력된 N-best 인식 결과 각각을 정렬한다. 예컨대, <표 2>와 같이, N=3일 때, N-best 인식 결과를 정렬한다. 여기서, N-best 인식 결과는 정답 및 오류 인식 결과를 포함한다. 그리고 N-best 정렬부(920)는 N-best 인식 결과를 N-best 학습부(940)에 제공한다.
N-best 학습부(940)는 단어열의 각 음소 별 음소 모델 파라미터 분포를 도출한다. 이때, N-best 학습부(940)는 음성 데이터베이스(800)를 참조하여, 각 핵심어에 포함된 복수의 음소에 대한 음소 모델 파라미터 분포를 도출한다. 특히, N-best 학습부(940)는 정답 음소 및 오류 음소 각각을 구분하여 음소 모델 파라미터 분포를 도출한다. 그런 다음, N-best 학습부(940)는 정답 음소 및 오류 음소로 구분된 음소 음소 모델 파라미터 분포를 N-best 변별 학습부(960)에 제공한다.
N-best 변별 학습부(960)는 오류 음소 처리 모듈(961) 및 정답 음소 처리 모듈(963)을 포함한다. 이에 따라, 오류 인식 결과를 가지는 오류 음소에 대한 음소 모델 파라미터 분포는 오류 음소 처리 모듈(961)에 입력된다. 정답 인식 결과를 가지는 정답 음소에 대한 음소 모델 파라미터 분포는 정답 음소 처리 모듈(963)에 입력된다.
오류 음소 처리 모듈(951)은 음향 모델 데이터베이스(300)에 저장된 음향 모델에서 오류 음소에 해당하는 음소 모델 파라미터 분포를 업데이트한다. 이때, 오류 음소 처리 모듈(951)은 핵심어 인식 결과에서 오류 음소의 로그우도를 가중치로 적용하고, 오류 음소의 카운트 값에 비례하여, 음향 모델에서 해당하는 음소 모델 파라미터 분포를 업데이트한다. 이때, 로그우도는 최대 로그우도(ML) 추정 방법을 이용하여 산출된다. 또한, 오류 음소의 카운트 값은 해당 음소에 대해 오류 음소로 판정된 횟수를 의미한다. 예컨대, 도 1d에서 설명된 바와 같이, 오류 음소에 해당하는 음소 모델 파라미터 분포를 업데이트하는 것은, 입력된 음소 M이 아니라, 오류 음소인 음소 N의 음소 모델 파라미터 분포(60)를 음소 M의 음소 모델 파라미터 분포(50)와의 상호 정보량이 줄어드는 방향으로 이동시키는 것이다. 이에 따라, 음소 N에 대한 음소 모델 파라미터 분포(60)는 음소 N에 대한 이상적인 음소 모델 파라미터 분포(80)로 이동할 것이다. 또한, 음소 N에 대한 음소 모델 파라미터 분포(60)는 로그우도의 크기에 비례하여 이동되는 정도가 결정된다. 또한, 음소 모델 파라미터 분포(60)는 오류 음소의 카운트 값에 비례하여 이동되는 정도가 결정된다.
정답 음소 처리 모듈(963)은 음향 모델 데이터베이스(300)에 저장된 음향 모델에서 정답 음소에 해당하는 음소 모델 파라미터 분포를 업데이트한다. 이때, 정답 음소 처리 모듈(963)은 핵심어 인식 결과에서 정답 음소에 대한 음향 모델의 음소 모델 파라미터 분포를 업데이트하기 위해 최대 상호정보량(MMI) 추정 방법을 통해 수행할 수 있으며, 이러한 업데이트는 정답 음소의 카운트 값을 이용한다. 여기서, 정답 음소의 카운트 값은 해당 음소에 대해 정답 음소로 판정된 횟수를 의미한다. 예컨대, 도 1c에서 설명된 바와 같이, 정답 음소에 해당하는 정답 음소 모델 파라미터 분포를 업데이트하는 것은, 현재 음향 모델의 음소 M에 대한 음소 모델 파라미터 분포(50)를 음소 M에 대한 이상적인 음소 모델 파라미터 분포(70)를 향하여 이동시키는 것이다. 추가로, 음향 모델의 음소 M에 대한 음소 모델 파라미터 분포(50)는 정답 음소의 수에 따라 이동되는 정도가 결정된다.
도 5는 본 발명의 실시예에 따른 음향 모델 변별 학습을 위한 방법을 설명하기 위한 흐름도이다.
도 5를 참조하면, 특징 추출부(100)는 S110 단계에서 음성 신호가 입력되면 음성 신호의 특징 벡터를 추출하고, S115 단계에서 추출된 음성의 특징 벡터를 탐색부(200)에 제공한다.
탐색부(200)는 S120 단계에서 입력된 음성 벡터에 대해 음향 모델, 발음 사전 및 언어 모델을 기초로 형성된 탐색 공간에서 음성 인식을 수행한다. 이러한 음성 인식은 음소 단위로 이루어진다. 또한, 음성 인식의 결과는 N-best의 인식 결과이다. 이러한 N-best의 인식 결과는 정답 인식 결과 및 오류 인식 결과를 포함한다. 음성 인식을 수행한 후, 탐색부(200)는 S125 단계에서 N-best의 인식 결과를 핵심어 검출부(910)에 제공한다.
핵심어 검출부(910)는 N-best의 인식 결과를 수신하여, S130 단계에서 N-best의 인식 결과에서 핵심어 데이터베이스(912)에 저장된 핵심어에 기초하여, 핵심어 인식 결과를 추출한다. 여기서, 핵심어 데이터베이스(912)에 저장된 핵심어는 특정 사용자가 사용 빈도가 기 설정된 수치 보다 높은 단어, 모든 사용자에게 있어 발음이 어려운 것으로 지정된 단어, 특정 사용자에게 있어 발음이 어려운 것으로 지정된 단어, 모든 사용자에게 있어 기 설정된 보다 많은 오류가 발생하는 단어, 및 특정 사용자에게 있어 기 설정된 기준치 보다 많은 오류가 발생하는 단어 중 적어도 하나에 해당하는 단어가 될 수 있다. N-best의 인식 결과와 마찬가지로, 핵심어 인식 결과 또한 정답 인식 결과 및 오류 인식 결과를 포함한다. 그런 다음, 핵심어 검출부(910)는 S135 단계에서 핵심어 인식 결과를 핵심어 학습부(930)에 제공한다.
핵심어 학습부(930)는 핵심어 인식 결과에 따라 음성 데이터베이스(800)의 음성을 참조하여, 핵심어 인식 결과에 포함된 복수의 음소에 대한 음소 모델 파라미터 분포를 도출한다. 도출된 복수의 음소에 대한 음소 모델 파라미터 분포는 정답 음소 및 오류 음소에 대한 음소 모델 파라미터 분포를 포함한다. 그런 다음, 핵심어 학습부(930)는 S140 단계에서 정답 음소 및 오류 음소에 대한 음소 모델 파라미터 분포를 핵심어 변별 학습부(950)에 제공한다.
그러면, 핵심어 변별 학습부(950)는 S145 단계에서 음향 모델 데이터베이스(300)에 저장된 음향 모델에서 정답 음소 및 오류 음소에 상응하는 음소의 음소 모델 파라미터 분포 각각을 업데이트한다.
이때, 도 1d를 참조하면, 핵심어 변별 학습부(950)는 오류 음소의 로그우도(likelihood)를 가중치로 적용하고, 오류 음소의 카운트 값에 비례하여, 오류 음소의 음소 모델 파라미터 분포를 업데이트한다. 이때, 로그우도는 최대 로그우도(ML) 추정 방법을 이용하여 산출될 수 있다. 또한, 오류 음소의 카운트 값은 해당 음소에 대해 오류 음소로 판정된 횟수를 의미한다.
이와 동시에, 도 1c를 참조하면, 핵심어 변별 학습부(950)는 정답 음소의 음소 모델 파라미터 분포를 업데이트한다. 이때, 정답 음소에 대한 음향 모델의 음소 모델 파라미터 분포를 업데이트하는 것은 최대 상호정보량(MMI) 추정 방법을 통해 수행한다. 특히, 이러한 업데이트는 해당 음소가 정답 음소로 판정된 횟수를 의미하는 정답 음소의 카운트 값에 비례한다.
한편, 핵심어 검출부(910)는 S150 단계에서 앞서 탐색부(200)로부터 수신된 N-best 인식 결과를 N-best 정렬부(920)에 제공한다. 그러면, N-best 정렬부(920)는 N-best 인식 결과를 정렬하고, S155 단계에서 정렬된 N-best 인식 결과를 N-best 학습부(940)에 제공한다.
N-best 학습부(940)는 N-best 인식 결과에 따라 음성 데이터베이스(800)에의 저장된 음성을 참조하여, N-best 인식 결과에 포함된 복수의 음소에 대한 음소 모델 파라미터 분포를 도출한다. 도출된 복수의 음소에 대한 음소 모델 파라미터 분포는 정답 음소 및 오류 음소에 대한 음소 모델 파라미터 분포를 포함한다. 이에 따라, N-best 학습부(940)는 S160 단계에서 정답 음소 및 오류 음소에 대한 음소 모델 파라미터 분포를 N-best 변별 학습부(960)에 제공한다.
그러면, N-best 변별 학습부(960)는 S165 단계에서 음향 모델 데이터베이스(300)에 저장된 음향 모델에서 정답 음소 및 오류 음소에 상응하는 음소의 음소 모델 파라미터 분포 각각을 업데이트한다.
이때, 도 1d를 참조하면, N-best 변별 학습부(960)는 오류 음소의 로그우도(likelihood)를 가중치로 적용하고, 오류 음소의 카운트 값에 비례하여, 오류 음소의 음소 모델 파라미터 분포를 업데이트한다. 이때, 로그우도는 최대 로그우도(ML) 추정 방법을 이용하여 산출될 수 있다. 또한, 오류 음소의 카운트 값은 해당 음소에 대해 오류 음소로 판정된 횟수를 의미한다. 이와 동시에, 도 1c를 참조하면, N-best 변별 학습부(960)는 정답 음소의 음소 모델 파라미터 분포를 업데이트한다. 이때, 정답 음소에 대한 음향 모델의 음소 모델 파라미터 분포를 업데이트하는 것은 최대 상호정보량(MMI) 추정 방법을 통해 수행한다. 특히, 이러한 업데이트는 해당 음소가 정답 음소로 판정된 횟수를 의미하는 정답 음소의 카운트 값에 비례한다.
상술한 바와 같은, 본 발명의 실시 예에 따른 음향 모델 변별 학습 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media) 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다.
또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으나, 여기에 개시된 실시예외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 선정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
본 발명은 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체에 관한 것이다. 이러한 본 발명은 N-best 인식 결과를 통한 변별 학습과 함께, 핵심어 인식 결과에 따른 변별 학습을 수행하기 때문에, 특정 단어, 즉, 핵심어에 대한 변별 학습의 성능을 향상시킬 수 있다. 예컨대, 핵심어는 특정 사용자가 자주 사용하는 단어, 모든 사용자에게 있어 발음이 어려운 단어, 특정 사용자에게 있어 발음이 어려운 단어, 모든 사용자에게 있어 기 설정된 보다 많은 오류가 발생하는 단어, 특정 사용자에게 있어 기 설정된 기준치 보다 많은 오류가 발생하는 단어 등을 미리 지정할 수 있다. 이러한 경우, 단순하게 N-best 인식 결과에 따라 변별 학습을 수행하는 것에 비해, 모든 사용자 혹은 특정 사용자에 대해 보다 효율적인 음향 모델을 구축할 수 있다. 더욱이, 본 발명은 음향 모델의 음소 모델 파라미터 분포를 업데이트할 때, 오류 인식 결과로 구분된 음소의 로그우도를 가중치로 적용하여, 오류 인식 결과도 상호 정보량을 최소화하도록 반영함으로써, 변별 학습에서 효율적으로 상호 정보량을 최소화시킬 수 있다. 이러한 본 발명은 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 반복 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.
100: 특징 추출부 200: 탐색부
300: 음향 모델 데이터베이스 400: 발음 사전 데이터베이스
500: 언어 모델 데이터베이스 600: 텍스트 데이터베이스
700: 언어 모델 학습부 800: 음성 데이터베이스
910: 핵심어 추출부 912: 핵심어 데이터베이스
920: N-best 정렬부 930: 핵심어 학습부
940: N-best 학습부 950: 핵심어 변별 학습부
960: N-best 변별 학습부

Claims (8)

  1. 핵심어를 포함하는 단어열에 대한 음성 인식 결과로부터 상기 핵심어에 대한 음성 인식 결과인 핵심어 인식 결과를 추출하는 핵심어 검출부;
    상기 핵심어 인식 결과에 따라 정답 음소 및 오류 음소의 음소 모델 파라미터 분포를 도출하는 핵심어 학습부; 및
    상기 핵심어 인식 결과에서 오류 음소의 로그우도를 가중치로 적용하고, 해당 음소가 오류 음소로 판정된 횟수인 상기 오류 음소의 카운트 값에 비례하여, 상호 정보량이 최소화되도록 상기 오류 음소의 음소 모델 파라미터 분포를 업데이트하는 핵심어 변별 학습부;를 포함하는 것을 특징으로 하는 음향 모델 변별 학습을 위한 장치.
  2. 제1항에 있어서,
    상기 핵심어를 저장하는 핵심어 데이터베이스를 더 포함하며,
    상기 핵심어는 특정 사용자가 사용 빈도가 기 설정된 수치 보다 높은 단어, 모든 사용자에게 있어 발음이 어려운 것으로 지정된 단어, 특정 사용자에게 있어 발음이 어려운 것으로 지정된 단어, 모든 사용자에게 있어 기 설정된 보다 많은 오류가 발생하는 단어, 및 특정 사용자에게 있어 기 설정된 기준치 보다 많은 오류가 발생하는 단어 중 적어도 하나에 해당하는 단어를 포함하는 것을 특징으로 하는 음향 모델 변별 학습을 위한 장치.
  3. 제1항에 있어서,
    상기 핵심어를 포함하는 단어열에 대한 음성 인식 결과는 N-best 인식 결과를 의미하며,
    상기 N-best 인식 결과에 따라 음소 모델 파라미터 분포를 도출하는 N-best 학습부; 및
    상호 정보량이 최소화되도록 상기 음소 모델 파라미터 분포를 업데이트하는 N-best 변별 학습부;를 더 포함하는 것을 특징으로 하는 음향 모델 변별 학습을 위한 장치.
  4. 제1항에 있어서,
    상기 핵심어 변별 학습부는
    최대 로그우도(ML, maximum likelihood) 추정 방법을 이용하여 상기 로그우도를 산출하는 것을 특징으로 하는 음향 모델 변별 학습을 위한 장치.
  5. 제1항에 있어서,
    상기 핵심어 변별 학습부는
    상기 정답 음소의 로그우도를 가중치로 적용하여, 상기 정답 음소의 카운트 값에 비례하여, 상호 정보량이 최소화되도록 상기 정답 음소에 대한 음소 모델 파라미터 분포를 업데이트하는 것을 특징으로 하는 음향 모델 변별 학습을 위한 장치.
  6. 제5항에 있어서,
    상기 핵심어 변별 학습부는
    최대 상호정보량(MMI, maximum mutual information) 추정 방법을 이용하여 상기 정답 음소에 대한 음소 모델 파라미터 분포를 업데이트하는 것을 특징으로 하는 음향 모델 변별 학습을 위한 장치.
  7. 핵심어를 포함하는 단어열에 대한 음성 인식 결과로부터 상기 핵심어에 대한 음성 인식 결과인 핵심어 인식 결과를 추출하는 단계;
    상기 핵심어 인식 결과에 따라 정답 음소 및 오류 음소의 음소 모델 파라미터 분포를 도출하는 단계; 및
    상기 핵심어 인식 결과에서 오류 음소의 로그우도를 가중치로 적용하고, 해당 음소가 오류 음소로 판정된 횟수인 상기 오류 음소의 카운트 값에 비례하여, 상호 정보량이 최소화되도록 상기 오류 음소의 음소 모델 파라미터 분포를 업데이트하는 단계;를 포함하는 음향 모델 변별 학습을 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체.
  8. 제7항에 있어서,
    상기 핵심어를 포함하는 단어열에 대한 음성 인식 결과는 N-best 인식 결과를 의미하며,
    상기 N-best 인식 결과에 따라 음소 모델 파라미터 분포를 도출하는 단계; 및
    상호 정보량이 최소화되도록 상기 N-best 인식 결과에 따라 음소 모델 파라미터 분포를 업데이트하는 단계;를 더 포함하는 음향 모델 변별 학습을 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체.
KR20130127604A 2013-10-25 2013-10-25 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 KR101483947B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130127604A KR101483947B1 (ko) 2013-10-25 2013-10-25 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130127604A KR101483947B1 (ko) 2013-10-25 2013-10-25 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체

Publications (2)

Publication Number Publication Date
KR20130126570A KR20130126570A (ko) 2013-11-20
KR101483947B1 true KR101483947B1 (ko) 2015-01-19

Family

ID=49854584

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130127604A KR101483947B1 (ko) 2013-10-25 2013-10-25 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체

Country Status (1)

Country Link
KR (1) KR101483947B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881615B2 (en) 2015-08-20 2018-01-30 Samsung Electronics Co., Ltd. Speech recognition apparatus and method

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102199445B1 (ko) * 2014-07-30 2021-01-06 에스케이텔레콤 주식회사 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치
KR102199246B1 (ko) * 2014-11-18 2021-01-07 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN116340489B (zh) * 2023-03-27 2023-08-22 齐齐哈尔大学 一种基于大数据的日语教学交互方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130050132A (ko) * 2011-11-07 2013-05-15 에스케이텔레콤 주식회사 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130050132A (ko) * 2011-11-07 2013-05-15 에스케이텔레콤 주식회사 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김정현 외 2인, ‘핵심어 인식기에서 단어의 음소레벨 로그우드 비율의 패턴을 이용한 발화검증 방법’, 말소리와 음성과학 제1권 제1호, pp.55~62, 2009년 3월.*
김정현 외 2인, '핵심어 인식기에서 단어의 음소레벨 로그우드 비율의 패턴을 이용한 발화검증 방법', 말소리와 음성과학 제1권 제1호, pp.55~62, 2009년 3월. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881615B2 (en) 2015-08-20 2018-01-30 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
US10388284B2 (en) 2015-08-20 2019-08-20 Samsung Electronics Co., Ltd. Speech recognition apparatus and method

Also Published As

Publication number Publication date
KR20130126570A (ko) 2013-11-20

Similar Documents

Publication Publication Date Title
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
JP6066354B2 (ja) 信頼度計算の方法及び装置
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
JP5240457B2 (ja) 拡張認識辞書学習装置と音声認識システム
US20080221890A1 (en) Unsupervised lexicon acquisition from speech and text
WO2003010754A1 (fr) Systeme de recherche a entree vocale
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Moyal et al. Phonetic search methods for large speech databases
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
KR20090063546A (ko) 음성인식 장치 및 방법
KR102199445B1 (ko) 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치
JP2010277036A (ja) 音声データ検索装置
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2008242059A (ja) 音声認識辞書作成装置および音声認識装置
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
Sakamoto et al. Combination of syllable based N-gram search and word search for spoken term detection through spoken queries and IV/OOV classification
Arısoy et al. Discriminative n-gram language modeling for Turkish

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191216

Year of fee payment: 6