KR102199445B1 - 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치 - Google Patents

클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치 Download PDF

Info

Publication number
KR102199445B1
KR102199445B1 KR1020140097350A KR20140097350A KR102199445B1 KR 102199445 B1 KR102199445 B1 KR 102199445B1 KR 1020140097350 A KR1020140097350 A KR 1020140097350A KR 20140097350 A KR20140097350 A KR 20140097350A KR 102199445 B1 KR102199445 B1 KR 102199445B1
Authority
KR
South Korea
Prior art keywords
class
phoneme
model
phonemes
acoustic model
Prior art date
Application number
KR1020140097350A
Other languages
English (en)
Other versions
KR20160015005A (ko
Inventor
곽철
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020140097350A priority Critical patent/KR102199445B1/ko
Publication of KR20160015005A publication Critical patent/KR20160015005A/ko
Application granted granted Critical
Publication of KR102199445B1 publication Critical patent/KR102199445B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 이를 이용한 음성 인식 장치에 관한 것으로서, 음향 모델에 정의된 음소들을 기 설정된 수의 클래스로 구분하여, 학습 데이터의 인식 결과를 기반으로 음향 모델의 변별 학습을 수행할 때, 학습 데이터에 포함된 음소와 동일 클래스에 속하는 음소의 모델 파라미터를 상기 학습 데이터의 인식 결과를 이용하여 함께 업데이트함으로써, 충분하지 못한 학습 데이터를 이용하여 음향 모델에 대한 변별 학습을 효율적으로 학습시킬 수 있도록 구현된다.

Description

클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치{Method and apparatus for discriminative training acoustic model based on class, and speech recognition apparatus using the same}
본 발명은 음성 인식에 이용되는 음향 모델의 변별 학습에 관한 것으로, 더욱 상세하게는, 음향 모델에 정의된 복수의 음소를 기 설정된 수의 클래스로 분류하여, 클래스 단위로 변별 학습을 수행하는 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고, 이를 이용한 음성 인식 장치에 관한 것이다.
음성 인식(Speech recognition) 기술은, 음성 파형을 입력하여, 단어나 단어열을 식별하고 의미를 추출하여 음성에 내재된 언어 정보를 자동으로 추출하는 기술로서, 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5 가지 과정으로 이루어진다.
이러한 음성 인식 기술은, HMI(Human-machine interface) 수단의 하나로서 오랫동안 연구 개발이 진행되어 왔으며, 최근 스마트폰이 널리 확산되고, 클라우드 인프라가 구축되면서, 급속히 발전되고 있다.
구체적으로, 음성 인식 기술은, 로봇, 텔레매틱스 등 음성으로 기기를 제어하거나, 정보 검색이 필요한 경우 응용되는 것으로서, 스마트폰뿐만 아니라 스마트 TV, 자동차 산업, 보안, 교육 분야 등으로 그 응용 분야가 더욱 확대되고 있다.
이외에도, 교육 분야에서 음성 인식 기술은, 외국어 학습시의 억양 및 발음 교정에 활용되고 있다.
최근의 음성 인식 기술은 HMM(Hidden Markov Model)을 기반으로 구현되고 있으며, HMM 기반의 음성 인식 기술은, 각 HMM 상태의 가우시안 성분(Gaussian mixture component) 중 확률적 분포가 가장 유사한 두 개의 가우시안 성분들을 점진적으로 통합하여 이진 트리를 구성한 뒤, 구성된 이진 트리를 적정 수준에서 가지치기하여 최적의 음향 모델을 생성하고, 생성된 음향 모델을 기반으로 음성 인식을 수행한다.
그런데 최근 음성 인식 기술의 응용 분야가 점차 확대되면서, 음성 인식시스템이 적용되는 환경이 다양해지고 있다. 이렇게 주변 환경이 변경될 경우, 주변 잡음의 크기 및 종류, 그리고 음성 파형이 달라질 수 있기 때문에, 적용되는 환경에 맞추어 음향 모델을 재 학습하는 과정이 필요하다.
음향 모델의 학습은, 새롭게 적용될 환경에서 수집된 학습 데이터를 기반으로 기 구축된 음향 모델의 모델 파라미터를 최적화하는 방식으로 이루어지며, 이를 변별 학습(Discriminative training)이라 한다.
그런데, 음성 인식이 처음 적용되는 환경의 경우, 학습 데이터를 충분히 수집할 수 없는 상황이 나타날 수 있으며, 학습 데이터가 충분하지 못하면 학습 데이터에 나타나지 않는 음소들의 학습이 정상적으로 이루어지지 못하게 된다.
한국공개특허 제2013-0067854호, 2012.06.25 공개 (명칭: 코퍼스 기반 언어 모델 변별 학습 방법 및 그 장치)
본 발명은 충분하지 못한 학습 데이터를 이용하여 음향 모델을 변별 학습하기 위하여 제안된 것으로서, 음향 모델에 정의된 복수의 음소를 기 설정된 수의 클래스로 분류하여, 클래스 단위로 학습 데이터의 인식 결과를 적용하여 변별 학습을 수행하는 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치를 제공하고자 한다.
본 발명은 상술한 과제의 해결 수단으로서, 음향 모델에 포함된 복수의 음소를 기 설정된 수의 클래스로 구분하는 단계; 학습 데이터에 포함된 음소의 클래스를 확인하는 단계; 상기 음향 모델 중 상기 음소 및 상기 확인한 클래스에 속하는 다른 음소들의 모델 파라미터들을 추출하는 단계; 및 상기 학습 데이터의 인식 결과를 이용하여, 상기 추출된 모델 파라미터들을 업데이트하는 단계를 포함하는 클래스 기반 음향 모델의 변별 학습 방법을 제공한다.
본 발명에 따른 클래스 기반 음향 모델의 변별 학습 방법은, 최하위 노드 값이 해당 음소가 속하는 클래스 값으로 정의되는 클래스 기반 음소 트리를 생성하는 단계를 더 포함하고, 상기 클래스를 확인하는 단계는, 상기 클래스 기반 음소 트리를 이용하여, 학습 데이터에 포함된 음소의 클래스를 확인할 수 있다.
또한, 본 발명에 따른 클래스 기반 음향 모델의 변별 학습 방법에 있어서, 상기 구분하는 단계는, 복수 음소의 모델 파라미터 분포 간 거리를 기준으로, 상기 복수의 음소를 기 설정된 수의 클래스로 구분할 수 있다.
또한, 본 발명에 따른 클래스 기반 음향 모델의 변별 학습 방법에 있어서, 상기 모델 파라미터를 업데이트하는 단계는, MCE(Minimum Classification Error), MMI(Maximum mutual information), MPE(Minimum Phone Error) 중 어느 하나의 변별 학습 기법을 이용하여, 상기 모델 파라미터를 업데이트하는 할 수 있다.
또한, 본 발명은 상술한 과제의 다른 해결 수단으로서, 클래스 기반 음향 모델의 변별 학습 장치를 제공한다. 상기 클래스 기반 음향 모델의 변별 학습 장치는, 음향 모델에 포함되고 기 설정된 수의 클래스로 구분된 복수의 음소 중, 학습 데이터에 포함된 음소의 클래스를 확인하여, 상기 음소 및 상기 확인된 클래스에 속하는 다른 음소들의 모델 파라미터를 추출하는 모델 파라미터 추출부; 및 상기 학습 데이터의 인식 결과를 이용하여, 상기 추출된 모델 파라미터들을 업데이트하는 변별 학습부를 포함하여 이루어질 수 있다.
더하여, 본 발명은 상술한 과제의 또 다른 해결 수단으로서, 본 발명에 따른 클래스 기반 음향 모델의 변별 학습이 적용된 음성 인식 장치를 제공한다. 본 발명에 따른 음성 인식 장치는, 음성 신호의 특징 벡터를 추출하는 특징 추출부; 음향 모델을 이용하여 상기 특징 추출부로부터 추출된 특징 벡터에 대하여 가장 유사도가 높은 단어열을 검색하여 출력하는 인식부; 상기 특징 추출부 및 인식부의 출력을 피드백받아 학습 데이터로 저장하는 저장부; 상기 음향 모델에 포함되고, 기 설정된 수의 클래스로 구분된 복수의 음소 중, 학습 데이터에 포함된 음소의 클래스를 확인하여, 상기 음소 및 상기 확인된 클래스에 속하는 다른 음소들의 모델 파라미터들을 추출하는 모델 파라미터 추출부; 상기 학습 데이터의 인식 결과를 이용하여, 상기 추출된 모델 파라미터들을 업데이트하는 변별 학습부를 포함할 수 있다.
본 발명은 음성 파형에 대응하는 단어나 단어열을 식별하고 의미를 추출하여 음성에 내재된 언어 정보를 자동으로 추출하는 음성 인식 분야에 있어서, 음성 인식의 기준이 되는 음향 모델의 학습에 관련된 것으로서, 음향 모델에 포함된 복수의 음소를 기 설정된 수의 클래스로 분류하여, 학습 데이터의 인식 결과를 기반으로 클래스 단위로 변별 학습을 수행함으로써, 충분하지 못한 학습 데이터를 이용하여 효율적으로 학습을 수행할 수 있는 것이다.
특히, 본 발명은 학습 데이터의 인식 결과를 가지고, 학습 데이터로 인식된 음소의 모델 파라미터뿐만 아니라, 해당 음소와 동일 클래스에 속하는 다른 음소의 모델 파라미터까지 함께 업데이트 함으로써, 학습 데이터에 포함되지 않은 음소까지 고려하여 음향 모델을 효율적으로 학습시킬 수 있다.
또한, 본 발명은 학습 데이터에서 인식된 음소뿐만 아니라, 유사한 주변 음소의 모델 파라미터까지 업데이트 함으로써, 학습 데이터가 충분하지 못한 새로운 환경에 대해서 최적화된 음향 모델을 제공할 수 있다.
도 1은 음성 인식 장치의 기본 구조를 나타낸 블럭도이다.
도 2는 본 발명에 따른 클래스 기반 음향 모델의 변별 학습 장치를 도시한 블럭도이다.
도 3은 본 발명에 따른 클래스 기반 음향 모델의 변별 학습 방법을 도시한 순서도이다.
도 4는 본 발명에 따른 클래스 기반 음향 모델의 변별 학습에서 생성되는 클래스 기반 음소 트리의 구조를 개략적으로 설명하기 위한 모식도이다.
도 5는 본 발명에 따른 클래스 기반 음향 모델의 변별 학습에 있어서, 군집화 과정을 설명하기 위한 모식도이다.
도 6은 본 발명에 따른 클래스 기반 음향 모델의 변별 학습에 있어서, 변별 학습 과정을 설명하기 위한 모식도이다.
도 7은 본 발명에 따른 클래스 기반 음향 모델의 변별 학습이 적용된 음성 인식 장치를 나타낸 블럭도이다.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.
더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1은 음성 인식 장치의 기본적인 구성을 나타낸 블럭도로서, 본 발명에 따른 음향 모델의 변별 학습에 대해 설명하기에 앞서, 도 1을 참조하여, 음성 인식 장치의 구성 및 그 동작에 대해서 개략적으로 설명한다.
음성 인식 장치(100)는, 기본적으로 저장부(110)와, 특징 추출부(120)와, 인식부(130)를 포함하여 구성될 수 있다.
상기 저장부(110)는 음성 인식 처리에 사용되는 데이터 혹은 음성 인식 처리 후의 데이터를 저장하기 위한 구성이다. 특히, 상기 저장부(111)는 음성 인식에 사용되는 언어 모델(111), 발음 사전(112), 음향 모델(113)을 저장할 수 있다.
이중, 언어 모델(111)은 상기 인식부(130)에서 입력된 음성 신호에 대응하는 단어열의 검색 시에 이용되는 것으로서, 주어진 문장 내에서 각 단어들 사이의 관계를 모델링한 것이다. 통상, 언어 모델은, 단어 간의 문법을 고려하여 문법에 맞는 문장이 더 높은 점수를 얻도록 정의되는 것으로서, 다양한 언어모델 중에서, 인식되는 대상 어휘의 수와 인식 속도, 인식 성능을 고려하여 적절한 언어 모델을 채택할 수 있다. 예를 들어, 상기 언어 모델(111)는 N-gram 차수를 이용한 통계적 모델일 수 있으며, 어휘 수를 제한하지 않는 분산 언어모델일 수 도 있다.
발음 사전(112)은 특정 음소에 대해서 발성될 수 있는 다중 발음들을 정의한 것으로서, 상기 인식부(130)에서 음소 단위로 음성 신호를 인식할 때, 참조될 수 있다.
음향 모델(113)은 시간적으로 변화하는 음성 신호의 특징을 음소 단위로 인식하여 모델링한 것으로, 상기 인식부(130)에서 입력된 음성 신호에 대응하는 단어열의 검색 시에 이용된다.
통상, 음성 인식을 수행하는데 있어서, 언어 모델(111), 발음 사전(112) 및 음향 모델(113) 중 적어도 하나가 이용될 수 있으며, 이들을 이용한 음성 인식 처리는, 특징 추출부(120) 및 인식부(130)에 의해 수행된다.
상기 특징 추출부(120)는 입력된 음성 신호에 대한 음향을 분석하여, 그 음성의 음향학적인 특성을 나타내는 소정 차원의 특징 벡터를 추출한다. 여기서, 상기 특징 벡터는 시간적으로 연속되어 입력되는 음성 신호에 대해서, 일정 샘플링 시간 구간 단위로 추출된다. 이러한 특징 벡터의 추출을 위하여, 상기 특징 추출부(120)는 FFT(Fast Fourier Transform), 필터링, 로그 변환 및 DCT(Discrete Cosine Transform) 등의 처리를 수행할 수 있다.
그리고, 인식부(130)는, 상기 특징 추출부(120)로부터 연속적으로 출력되는 특징 벡터를 기준으로 저장부(110)에 저장된 언어 모델(111), 발음 사전(112), 음향 모델(113) 중 하나 이상을 검색하여, 입력된 음성 신호에 대응하는 단어열을 추출하여 출력한다. 더 구체적으로, 인식부(130)는, 언어 모델(111), 발음 사전(112), 음향 모델(113)을 기반으로 탐색 공간을 형성하고, 형성된 탐색 공간으로부터 특징 추출부(120)에서 추출된 특징 벡터와 가장 유사한 단어열을 검색한다. 여기서, 탐색 공간은 명령어 인식 및 숫자음 인식과 같은 적은 어휘의 인식을 위한 FSN(Finite state network) 형태의 탐색 공간과 대어휘 인식과 빠른 인식을 위한 트리(tree) 형태의 탐색 공간을 포함할 수 있다.
이때, 상기 인식부(130)는 미리 학습된 모델에 대한 유사도 값을 인식 결과로 출력할 수 있으며, 예를 들어, 1-best 인식 결과와 격자(lattice) 형태의 인식 결과를 얻은 후, 다시 격자 형태의 인식 결과로부터 N-best의 인식 결과를 얻을 수 있다. 이를 위하여, 상기 인식부(130)는 비터비(Viterbi) 알고리즘 또는 DTW(Dynamic Time Warping)과 같은 패턴 정합 알고리즘을 이용할 수 있다.
특히, 상기 인식부(130)는 상기 추출된 특징 벡터와 음향 모델(113)과의 매칭 처리를 통해, 음소 단위로 복수의 인식 후보를 검색하고, 언어 모델(111) 및 발음 사전(112)과의 매칭을 통해서 복수의 인식 후보중 언어학적으로 가장 유사도가 높은 단어열을 추출한다. 이때, 언어 모델(111)을 참조하여 단어간의 문법을 고려하여 인식 후보에 가중치를 줌으로서 문법에 맞는 최적의 단어열을 검색할 수 있다.
상술한 바와 같이 동작하는 음성 인식 장치(100)에서의 음성 인식 결과는 다음의 수학식 1과 같이, 음성 신호의 음소가 음향 모델(113)에 저장된 음소와 동일한 음소일 확률(유사도)로 나타날 수 있다.
Figure 112014072324568-pat00001
수학식 1에서,
Figure 112014072324568-pat00002
는 음성 신호 O가 단어열(문장) s일 확률이고,
Figure 112014072324568-pat00003
는 단어열 s로부터 생성된 음성 신호 O에 대한 우도(Likelihood)이고, P(s)는 이전 확률을 나타낸다. 즉, 음성 인식 장치(100)는 가장 높은 확률
Figure 112014072324568-pat00004
을 갖는 단어열을 출력하게 된다.
여기서, P(s)를 언어모델이라 하고,
Figure 112014072324568-pat00005
를 음향 모델이라 한다.
이러한 음성 인식 처리에 있어서, 보다 신뢰성 있는 결과를 얻기 위하여, 기 수집된 학습 데이터를 기반으로 상기 음향 모델(113)에 대한 변별 학습(Discriminative training)이 수행되어야 한다.
참고로, 음향 모델(113)은 가우시안 혼합 모델(Gaussian Mixture Model) 및 은닉 마르코프 모델(Hidden Markov Model)과 같은 통계적 모델이 이용되는데, 이때, 음향 모델(113)의 변별 학습은, 기 수집된 학습 데이터를 이용하여 발성자의 특성이나 환경 잡음 등에 둔감한 음향 모델을 설정하기 위하여 적용된다. 대표적인 변별 학습 기법으로 MCE(Minimum Classification Error), MMI(Maximum mutual information), MPE(Minimum Phone Error) 등이 있다. 여기서, 상기 MMI 기반의 변별 학습은 N개의 인식 결과 중 정답 인식 결과와 오류 인식 결과를 이용하여 음소에 대한 모델 파라미터의 상호 정보량이 최소화하도록 모델 파라미터 분포(예를 들어, GMM 기반의 경우, 가우시안 확률 분포를 의미함)의 모델 파라미터를 수정하는 것이며, MCE 기반 변별학습은 HMM classifier와 GPD(Generalized Probabilistic Descent)를 사용하여 분류 오류율이 최소화되도록 해당 음소의 모델 파라미터를 수정하는 것이다.
이때, 학습 데이터는 알려져 있는 음성을 이용하므로, 학습 데이터에 대한 음성 인식 결과 중, 각 음소에 대한 인식 결과가 정답인지 오류인지 여부를 판단할 수 있다. 이렇게 학습 데이터에 대한 인식 결과로 출력된 음소가 정답인 경우를 정답 인식 결과라 하고, 음성 인식 결과로 출력된 음소가 오류인 경우 오류 인식 결과라고 한다.
예를 들어 MMI 기반의 변별 학습은, 다음의 수학식 2와 같은 객체 함수를 이용하여, 정답 인식에 대한 사후 확률(posterior probability)의 최대화를 추구한다.
Figure 112014072324568-pat00006
여기서,
Figure 112014072324568-pat00007
은 모델 파라미터를 나타내고,
Figure 112014072324568-pat00008
은 학습 데이터(학습용 음성 신호의 특징 벡터 집합)를 나타내고,
Figure 112014072324568-pat00009
은 학습 데이터
Figure 112014072324568-pat00010
의 정답 인식 결과(실제 단어열)을 나타내고,
Figure 112014072324568-pat00011
은 모델 파라미터를 나타내고, P(s)는 단어열 s를 위한 언어 모델 확률값으로서,
Figure 112014072324568-pat00012
은 학습 데이터 중 단어열 S의 정답 인식 확률을 나타내고, K는 확률 스케일을 나타낸다.
이러한 MMI 객체 함수의 최적화를 위해서는 Baum-Welch update equations과, 객체 함수의 분자 및 분모에 각각 대응하는 두 개의 통계 집합, 즉, 정답 인식 결과와 가능한 모든 단어를 포함하는 인식 모델이 요구된다.
참고로, GMM(Gaussian Mixture Mode)을 이용한 음향 모델의 경우, 모델 파라미터로, 평균
Figure 112014072324568-pat00013
, 분산
Figure 112014072324568-pat00014
, 및 가중치
Figure 112014072324568-pat00015
가 존재한다.
따라서, 상기 수학식 2와 같은 MMI 객체 함수가 최적화되도록, 상기 모델 파라미터,
Figure 112014072324568-pat00016
, 분산
Figure 112014072324568-pat00017
, 및 가중치
Figure 112014072324568-pat00018
가 업데이트된다. 상기 MMI 기반의 모델 파라미터,
Figure 112014072324568-pat00019
, 분산
Figure 112014072324568-pat00020
, 및 가중치
Figure 112014072324568-pat00021
에 대한 업데이트 수식은 널리 알려져 있으므로, 그에 대한 표기 및 설명은 생략한다.
본 발명은 상술한 바와 같은 음향 모델(113)의 변별 학습을 수행하는데 있어서, 각 음소의 모델 파라미터 분포간 거리를 기준으로 음향 모델(113)에 포함된 복수의 음소를 군집화하여 기 설정된 수의 클래스로 구분한 후, 클래스 단위로 변별학습을 수행하는 것을 특징으로 한다. 이에, 본 발명에 따른 변별 학습 기법을, 클래스 기반 변별 학습으로 칭한다.
본 발명에 따른 클래스 기반 변별 학습은, MCE, MMI, MPE 등 다양한 변별 학습 기법에 적용할 수 있으나, 이하에서, 편의상 MMI 추정 기법을 예로 들어 설명하기로 한다.
도 2에 본 발명에 따른 클래스 기반 음향 모델의 변별 학습 장치를 도시한 블럭도를 나타낸다.
도 2를 참조하면, 본 발명에 따른 클래스 기반 음향 모델의 변별 학습 장치(200)는, 군집화부(210)와, 모델 파라미터 추출부(220)와, 변별 학습부(230)를 포함하여 이루어진다. 참고로, 도 2에 도시된 부호, 113은 본 발명에 따른 변별 학습 장치(200)의 학습 대상인 음향 모델을 나타내고, 114는 음향 모델(113)의 변별 학습에 이용되는 학습 데이터를 나타낸다. 상기 학습 데이터(114)는, 학습 대상으로 수집된 음성 신호의 특징 벡터, 상기 음성 신호에 대응하는 실제 단어열, 상기 음성 신호에 대한 상기 음향 모델(113)을 기반으로 한 음성 인식 결과를 포함할 수 있다.
본 발명에 따른 음향 모델의 변별 학습은, 음향 모델(113)에 포함된 복수의 음소는 기 설정된 수의 클래스 중 어느 하나로 분류하는 것을 특징으로 한다.
이를 위하여, 상기 군집화부(210)는, 상기 음향 모델(113)에 정의된 복수의 음소를 각 모델 파라미터 분포 간의 거리를 기준으로 군집화하여 기 설정된 수의 클래스로 분류한다. 상기 군집화부(210)의 클러스터링에 의하여 음향 모델(113)에 포함된 각 음소는 상기 기 설정된 수의 클래스 중 어느 하나로 분류될 수 있다. 상기 군집화부(210)에 의해 설정된 각 음소의 클래스값은 모델 파라미터 추출부(220)로 제공된다.
이때, 상기 음향 모델(113)에 포함된 복수 음소의 클래스값은, 클래스 값을 인덱스로 하여, 각 클래스 값에 해당하는 음소 정보를 표시하는 테이블 형태로 제공될 수 있다.
이어, 상기 모델 파라미터 추출부(220)는 음향 모델(113)에 정의된 복수의 음소 중, 학습 데이터(210)의 인식 결과를 적용하여 변별 학습을 수행할 음소들의 모델 파라미터를 추출하기 위한 구성이다. 이를 위해, 상기 모델 파라미터 추출부(220)에는 상기 음향 모델(113)에 포함된 복수의 음소 별로, 해당 음소가 분류된 클래스 정보가 설정되어 있으며, 이를 기반으로, 학습 데이터로부터 인식된 음소의 클래스를 확인하고, 상기 음향 모델(113)에 정의된 복수의 음소 중, 상기 학습 데이터에 대응하는 음소 및 상기 확인된 클래스에 속하는 다른 음소들의 모델 파라미터를 추출한다.
특히, 상기 모델 파라미터 추출부(220)는, 상기 음소별 클래스 정보가 정의되는 클래스 기반 음소 트리를 구비한다. 상기 클래스 기반 음소 트리는, 도 4에 도시된 바와 같이, 기존의 음소 트리에서, 최하위 노드 값이 음소 값이 아닌 해당 음소가 속하는 클래스 값으로 정의되는 점에서 차이가 있다. 그리고, 상기 모델 파라미터 추출부(220)는 상기 클래스 기반 음소 트리를 이용하여 상기 학습 데이터로부터 인식된 음소의 클래스를 확인할 수 있다. 상기 클래스 기반 음소 트리는 군집화부(210)의 군집화 결과를 기반으로 생성되어 모델 파라미터 추출부(220)에 저장될 수 있다.
그리고, 변별 학습부(230)는 상기 모델 파라미터 추출부(220)에서 추출된 특정 클래스의 음소들의 모델 파라미터에 대한 변별 학습을 수행한다. 구체적으로 MMI 기반으로 변별 학습이 수행되는 경우, 상기 변별 학습부(230)는 상기 학습 데이터의 정답 인식 결과와 오류 인식 결과의 카운트 값과 특징 벡터를 상기 특정 클래스에 속하는 음소들의 모델 파라미터 함수에 적용하여, 동시에 업데이트한다.
이어, 도 3의 순서도를 참조하여 본 발명에 따른 클래스 기반 음향 모델의 변별 학습 과정을 더 구체적으로 설명한다.
도 2 및 도 3을 참조하면, 본 발명에 따른 변별 학습 장치(200)는 군집화부(210)를 통해서, 변별 학습 대상인 음향 모델(113)에서 정의된 복수의 음소들을 기 설정된 수의 클래스로 군집화한다(S110). 더 구체적으로 설명하면, GMM(Gaussian mixture model)로 모델링할 경우, 상기 음향 모델(113)은 복수의 음소를 각각 평균값, 분산 및 가중치를 갖는 복수의 모델 파라미터 분포(즉, 가우시안 확률 분포)로 정의할 수 있다. 도 5는 이렇게 음향 모델(113)에 정의되는 복수 음소의 모델 파라미터 분포(가우시안 확률 분포)를 모식화하여 나타낸 도면으로서, 부호 51 ~ 54는 각각 소정 음소에 대한 가우시안 확률 분포를 나타낸다. 각 가우시안 확률 분포(51~54)는 평균값, 분산 및 가중치와 같은 모델 파라미터로 정의될 수 있다. 상기 단계 S110에서는, 도 5와 같이 나타나는 모델 파라미터 분포간 거리를 기준으로, 음향 모델(113)의 정의된 복수의 음소들을 기 설정된 수의 클래스로 분류한다. 예를 들어, 도 5의 경우, 인접해 있는 51번과 52번의 가우시안 확률 분포에 대응하는 음소들이 동일한 클래스로 분류되고, 53번과 54번의 가우시안 확률 분포에 대응하는 음소들이 동일한 클래스로 분류될 수 있다. 여기서, 분류할 클래스의 수는 임의로 정의될 수 있다.
이어서, 본 발명에 따른 변별 학습 장치(200)는, 상기 군집화 결과를 기반으로, 최하위 노드값이 해당 음소가 속하는 클래스 값으로 정의되는 클래스 기반 음소 트리를 생성한다(S120). 통계적 모델링 방법에 기반한 음성 인식에서 모델의 기본 단위로 음소를 사용할 때, 음성 인식의 성능 향상을 위하여 음소의 좌우 문맥에 의한 변이를 모델링하는 삼음소 모델이 일반적으로 사용한다. 그러나 출현 가능한 모든 삼음소를 모델링하는 것을 불가능하기 때문에 음소 트리를 사용하여 삼음소를 군집화하게 된다. 이러한 음소 트리는, 로그우도값의 거리 척도에 기반하여 HMM(Hidden Markov model) 상태별로 복수개의 가우시안 성분들끼리 서로 통합하는 과정을 통해 생성될 수 있으며, 최하위 노드는 특정 음소 값(모델 파라미터 분포)으로 정의된다. 본 발명에서는 이러한 음소 트리에 있어서, 최하위 노드의 값이 음소값이 아닌 해당 음소가 속하는 클래스 값이 되도록 함으로써, 최종 결과값으로 인식된 음소가 속하는 클래스 값이 획득될 수 있다.
이렇게 생성된 클래스 기반 음소 트리는 모델 파라미터 추출부(220)에 구비된다.
이어서, 본 발명에 따른 변별 학습 장치(200)는 학습 데이터(114)가 입력되면(S130), 상기 학습 데이터(114)에서 인식된 음소의 클래스를 확인한다(S140). 이는 상기 모델 파라미터 추출부(220)가 상기 클래스 기반 음소 트리를 이용하여 학습 데이터에 대응하는 클래스를 확인함에 의해 이루어질 수 있다.
그리고, 본 발명에 따른 변별 학습 장치(200)는 모델 파라미터 추출부(220)를 통해서, 음향 모델(113)에 정의된 복수의 음소 중, 상기 학습 데이터에 대응하는 음소 및 상기 확인된 클래스에 속하는 다른 음소들의 모델 파라미터를 추출한다(S150).
이어서, 본 발명에 따른 변별 학습 장치(200)는, 변별 학습부(230)를 통해서 상기 학습 데이터(114)의 인식 결과 및 특징 벡터를 이용하여 상기 추출된 모델 파라미터들을 업데이트한다(S160). 여기서, 모델 파라미터의 업데이트는, MMI 추정 방법으로 이루어질 수 있다. 더 구체적으로, 학습 데이터(114)의 인식 결과 중, 정답 인식 결과와 오류 인식 결과의 카운트 값과 특징 벡터를 이용하여, 상호 정보량이 최소화되도록 가우시안 모델의 평균, 분산 및 가중치를 수정하는 형태로 이루어질 수 있다.
도 6은 본 발명에 따른 클래스 기반 음향 모델의 변별 학습에 있어서, 변별 학습 과정을 설명하기 위한 모식도이다.
도 6을 참조하면, 학습 데이터(114)가 음소 A로 인식되고, 상기 음소 A의 모델 파라미터 분포(가우시안 확률 분포)가 부호 51에 해당된다고 할 때, 상기 음소 A의 클래스 1에 속하는 복수의 모델 파라미터 분포(51, 52)의 모델 파라미터가 추출되고, 상기 추출된 모델 파라미터가 상기 학습 데이터(114)의 인식 결과 및 특징 벡터를 이용하여 변경된다. 이때, 상기 모델 파라미터의 변경은, 다른 클래스(예를 들어, 클래스 2)와의 상호 정보량이 최소화되는 방향(화살표 방향)으로 이동하게 된다. 도 6에서 부호 51', 52'는 변별 학습에 의하여 변경된 클래스 1의 모델 파라미터 분포를 나타낸다.
이에 따르면, 모델 파라미터 분포가 인접한 복수의 음소를 학습 데이터를 이용하여 함께 업데이트할 수 있게 되며, 그 결과, 적은 량의 학습 데이터로도 음향 모델(113)에 정의된 전체 모델 파라미터 분포를 효율적으로 추정할 수 있게 된다.
아울러, 이상에서는 본 발명에 따른 클래스 기반 음향 모델의 변별 학습 장치(200)가 음성 인식 장치와는 분리되어, 주어진 학습 데이터를 가지고, 주어진 음향 모델을 학습시키도록 구현된 경우로 가정하여 설명되었으나, 이와 달리, 음성 인식 장치와 결합되어, 음성 인식 장치에서 인식된 결과를 기반으로 해당 음성 인식 장치에 적용된 음향 모델을 재 학습시키도록 구현될 수 도 있다.
도 7은 본 발명에 따른 클래스 기반 음향 모델의 변별 학습 기능이 부가된 음성 인식 장치를 나타낸 블럭도이다.
도 7을 참조하면, 본 발명에 따른 음성 인식 장치(300)는 저장부(110)와, 특징 추출부(120) 및 인식부(130)에 더하여, 본 발명에 따른 변별 학습을 처리하기 위한 구성으로서, 군집화부(140)와, 모델 파라미터 추출부(150)와, 변별 학습부(160)를 더 포함할 수 있다. 그리고, 상기 저장부(110)는, 언어 모델((111), 발음 사전((112), 및 음향 모델 DB(113)과 함께, 음성 인식을 수행한 음성 신호의 특징 벡터 및 음성 인식 결과를 학습 데이터(114)로 더 저장할 수 있다.
상기에서 언어 모델((111)와, 발음 사전((112)와, 음향 모델 DB(113), 특징 추출부(120) 및 인식부(130)의 동작은 앞서 도 1의 음성 인식 장치(100)에서와 동일하므로, 그 설명을 생략한다.
다만, 상기 특징 추출부(120) 및 인식부(130)에서 처리된 특징 벡터 및 음성 인식 결과는 음향 모델의 변별학습을 위한 학습 데이터(114)로서 저장부(110)에 저장된다.
또한, 상기 저장부(110)의 학습 데이터(114)에는 상기 음성 신호의 실제 단어열에 대한 정보가 더 저장된다.
이때, 상기 저장부(110)는 상기 특징 추출부(120) 및 인식부(130)로부터 피드백되는 인식 결과, 특징 벡터 및 실제 단어열을 학습 데이터(114)에 누적하여 저장한다.
그리고, 군집화부(140)는 음성 인식 장치(300)에 구비된 음향 모델 DB(113)에 모델링된 복수의 음소를 각 모델 파라미터 분포간 거리를 기준으로 인접한 것끼리 군집화하여 기 설정된 수의 클래스로 분류한다. 아울러, 상기 군집화부(140)는 상기 군집화 결과를 기반으로, 최하위 노드값이 해당 음소가 분류된 클래스 값으로 정의되는 클래스 기반 음소 트리를 생성하여 모델 파라미터 추출부(150)에 제공할 수 있다.
이때, 상기 모델 파라미터 추출부(150)는 상기 학습 데이터(114)를 이용하여 음향 모델(113)의 변별 학습을 수행할 수 있도록, 상기 학습 데이터(114)에 대응하는 음소의 클래스를 확인한다. 더 구체적으로, 상기 모델 파라미터 추출부(170)는 최하위 노드 값으로 해당 음소가 속하는 클래스가 정의되는 클래스 기반 음소 트리를 이용하여, 상기 학습 데이터의 인식 결과 및 특징 벡터를 이용하여 인식된 음소가 속하는 클래스를 확인할 수 있다.
더하여, 상기 모델 파라미터 추출부(150)는, 음향 모델(113)에 정의된 복수의 음소 중, 상기 학습 데이터에 대응하는 음소뿐만아니라 상기 확인된 클래스에 속하는 다른 음소들의 모델 파라미터를 추출하여, 변별 학습부(160)에 제공한다.
이에, 변별 학습부(160)는, 상기 학습 데이터(114)의 인식 결과, 특징 벡터, 및 실제 단어열을 이용하여, 상기 모델 파라미터 추출부(150)에서 추출된 모델 파라미터들(평균, 분산, 및 가중치)을 업데이트한다.
구체적으로, 상기 변별 학습부(160)는, 실제 단어열과 상기 인식부(130)에서 인식된 단어열을 비교하여, 음소 단위로 오류 인식 결과 및 정답 인식 결과를 카운트하고, 이러한 오류 인식 결과 및 정답 인식 결과의 카운트 값과 상기 특징 추출부(120)로부터 피드백된 특징 벡터를 각 모델 파라미터의 함수에 적용하여, 모델 간의 상호 정보량이 최소화되도록 추출된 모델 파라미터 분포의 평균, 분산 및 가중치를 수정한다.
상술한 군집화부(140)와 모델 파라미터 추출부(150)와 변별 학습부(160)는 앞서 도 2에서 설명한 군집화부(210)와, 모델 파라미터 추출부(220)와, 변별 학습부(230)에 대응되는 것으로서, 위에서 설명되지 않은 구체적인 동작은 상기 도 2에 대한 설명을 참조하여 이해될 수 있을 것이다.
이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시 예에 대하여 개시하였으나, 여기에 개시된 실시 예외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다.
특히, 본 발명에 따른 장치는, 하나 이상의 프로세서로 하여금 앞서 설명한 기능들과 프로세스를 수행하도록 하는 명령에 의하여 구동될 수 있다. 예를 들어 그러한 명령으로는, 예컨대 JavaScript나 ECMAScript 명령 등의 스크립트 명령과 같은 해석되는 명령이나 실행 가능한 코드 혹은 컴퓨터로 판독 가능한 매체에 저장되는 기타의 명령이 포함될 수 있다. 나아가 본 발명에 따른 장치는 서버 팜(Server Farm)과 같이 네트워크에 걸쳐서 분산형으로 구현될 수 있으며, 혹은 단일의 컴퓨터 장치에서 구현될 수도 있다.
비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 본 발명에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.
본 발명에 따른 클래스 기반 음향 모델의 변별 학습 방법은 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)으로 구현되어, 본 발명에 따른 장치에 탑재될 수 있다. 여기서, 상기 컴퓨터 프로그램은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.
컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 EPROM, EEPROM 및 플래시메모리 장치와 같은 반도체 메모리 장치, 예컨대 내부 하드디스크나 외장형 디스크와 같은 자기 디스크, 자기광학 디스크 및 CD-ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함한다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다.
본 명세서에서 설명한 주제의 특정한 실시형태를 설명하였다. 기타의 실시형태들은 이하의 청구항의 범위 내에 속한다. 예컨대, 청구항에서 인용된 동작들은 상이한 순서로 수행되면서도 여전히 바람직한 결과를 성취할 수 있다. 일 예로서, 첨부도면에 도시한 프로세스는 바람직한 결과를 얻기 위하여 반드시 그 특정한 도시된 순서나 순차적인 순서를 요구하지 않는다. 특정한 구현 예에서, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다.
본 기술한 설명은 본 발명의 최상의 모드를 제시하고 있으며, 본 발명을 설명하기 위하여, 그리고 당업자가 본 발명을 제작 및 이용할 수 있도록 하기 위한 예를 제공하고 있다. 이렇게 작성된 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하는 것이 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다.
따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.
본 발명은 음성 파형을 입력받아 단어나 단어열을 식별하고 의미를 추출하여 음성에 내재된 언어 정보를 자동으로 추출하는 음성 인식 분야에서, 음성 인식의 기준이 되는 음향 모델의 학습에 관련된 것으로서, 음향 모델에 정의된 음소 단위의 모델 파라미터 분포를 기 설정된 수의 클래스로 분류하여, 학습 데이터의 인식 결과를 기반으로 클래스 단위로 변별 학습을 수행하는 것이다.
이러한 본 발명은 학습 데이터의 인식 결과를 가지고, 학습 데이터로 인식된 음소의 모델 파라미터뿐만 아니라, 해당 음소와 동일 클래스에 속하는 음소의 모델 파라미터까지 함께 업데이트 함으로써, 학습 데이터에 포함되지 않은 음소까지 고려하여 음향 모델을 효율적으로 학습시킬 수 있다.
특히, 본 발명은 학습 데이터에서 인식된 음소뿐만 아니라, 유사한 주변 음소의 모델 파라미터까지 업데이트 함으로써, 소량의 학습 데이터를 가지고도 기존의 음향 모델을 새로운 환경에 맞추어 학습시킬 수 있게 된다.
100, 300: 음성 인식 장치 200: 변별 학습 장치
110: 언어 모델 DB 120: 발음 사전 DB
130: 음향 모델 DB 140: 특징 추출부
150: 인식부 160, 210: 군집화부
170, 220: 모델 파라미터 추출부
180, 230: 변별 학습부

Claims (8)

  1. 변별 학습 장치가 음향 모델에 포함된 복수의 음소를 각 모델 파라미터 분포 간의 거리를 기준으로 군집화하여 상기 복수의 음소를 기 설정된 수의 클래스로 구분하는 단계;
    상기 변별 학습 장치가 학습 데이터에 포함된 음소의 클래스를 확인하는 단계;
    상기 변별 학습 장치가 상기 음향 모델 중 상기 음소 및 상기 확인한 클래스에 속하는 다른 음소들의 모델 파라미터를 추출하는 단계; 및
    상기 변별 학습 장치가 상기 학습 데이터의 인식 결과를 이용하여, 상기 추출된 모델 파라미터를 업데이트하는 단계;
    를 포함하는 클래스 기반 음향 모델의 변별 학습 방법.
  2. 제1항에 있어서,
    상기 변별 학습 장치가 최하위 노드 값이 해당 음소가 속하는 클래스 값으로 정의되는 클래스 기반 음소 트리를 생성하는 단계를 더 포함하고,
    상기 클래스를 확인하는 단계는, 상기 클래스 기반 음소 트리를 이용하여, 학습 데이터에 포함된 음소의 클래스를 확인하는 것을 특징으로 하는 클래스 기반 음향 모델의 변별 학습 방법.
  3. 삭제
  4. 제1항에 있어서, 상기 모델 파라미터를 업데이트하는 단계는
    MCE(Minimum Classification Error), MMI(Maximum mutual information), MPE(Minimum Phone Error) 중 어느 하나의 변별 학습 기법을 이용하여, 상기 추출된 모델 파라미터들을 업데이트하는 단계인 것을 특징으로 하는 클래스 기반 음향 모델의 변별 학습 방법.
  5. 음향 모델에 포함된 복수의 음소를 각 모델 파라미터 분포 간의 거리를 기준으로 군집화하여 상기 복수의 음소를 기 설정된 수의 클래스로 구분하는 군집화부;
    상기 기 설정된 수의 클래스로 구분된 복수의 음소 중, 학습 데이터에 포함된 음소의 클래스를 확인하여, 상기 음소 및 상기 확인된 클래스에 속하는 다른 음소들의 모델 파라미터를 추출하는 모델 파라미터 추출부;
    상기 학습 데이터의 인식 결과를 이용하여, 상기 추출된 모델 파라미터들을 업데이트하는 변별 학습부;
    를 포함하는 것을 특징으로 하는 클래스 기반 음향 모델의 변별 학습 장치.
  6. 삭제
  7. 제5항에 있어서,
    상기 모델 파라미터 추출부는 최하위 노드 값이 해당 음소가 속하는 클래스 값으로 정의되는 클래스 기반 음소 트리를 이용하여, 상기 학습 데이터에 포함된 음소의 클래스를 확인하는 것을 특징으로 하는 클래스 기반 음향 모델의 변별 학습 장치.
  8. 음성 신호의 특징 벡터를 추출하는 특징 추출부;
    음향 모델을 이용하여 상기 특징 추출부로부터 추출된 특징 벡터에 대하여 가장 유사도가 높은 단어열을 검색하여 출력하는 인식부;
    상기 특징 추출부와 인식부의 출력을 피드백받아 학습 데이터로 저장하는 저장부;
    상기 음향 모델에 포함된 복수의 음소를 각 모델 파라미터 분포 간의 거리를 기준으로 군집화하여 상기 복수의 음소를 기 설정된 수의 클래스로 구분하는 군집화부;
    상기 기 설정된 수의 클래스로 구분된 복수의 음소 중, 상기 학습 데이터에 포함된 음소의 클래스를 확인하여, 상기 음소 및 상기 확인된 클래스에 속하는 다른 음소들의 모델 파라미터를 추출하는 모델 파라미터 추출부;
    상기 학습 데이터의 인식 결과를 이용하여, 상기 추출된 모델 파라미터들을 업데이트하는 변별 학습부;
    를 포함하는 것을 특징으로 하는 클래스 기반 음향 모델의 변별학습을 지원하는 음성 인식 장치.
KR1020140097350A 2014-07-30 2014-07-30 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치 KR102199445B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140097350A KR102199445B1 (ko) 2014-07-30 2014-07-30 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140097350A KR102199445B1 (ko) 2014-07-30 2014-07-30 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치

Publications (2)

Publication Number Publication Date
KR20160015005A KR20160015005A (ko) 2016-02-12
KR102199445B1 true KR102199445B1 (ko) 2021-01-06

Family

ID=55354983

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140097350A KR102199445B1 (ko) 2014-07-30 2014-07-30 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치

Country Status (1)

Country Link
KR (1) KR102199445B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101871604B1 (ko) 2016-12-15 2018-06-27 한양대학교 산학협력단 심화 신경망을 이용한 다채널 마이크 기반의 잔향시간 추정 방법 및 장치
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
CN113408564A (zh) * 2020-10-21 2021-09-17 腾讯科技(深圳)有限公司 图处理方法、网络训练方法、装置、设备以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101424496B1 (ko) 2013-07-03 2014-08-01 에스케이텔레콤 주식회사 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100911429B1 (ko) * 2007-08-22 2009-08-11 한국전자통신연구원 환경 이동을 위한 잡음 적응형 음향 모델 생성 방법 및 장치
KR20130067854A (ko) 2011-12-14 2013-06-25 한국전자통신연구원 코퍼스 기반 언어모델 변별학습 방법 및 그 장치
KR101483947B1 (ko) * 2013-10-25 2015-01-19 에스케이텔레콤 주식회사 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101424496B1 (ko) 2013-07-03 2014-08-01 에스케이텔레콤 주식회사 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체

Also Published As

Publication number Publication date
KR20160015005A (ko) 2016-02-12

Similar Documents

Publication Publication Date Title
KR102371188B1 (ko) 음성 인식 장치 및 방법과 전자 장치
Saon et al. Speaker adaptation of neural network acoustic models using i-vectors
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
KR102313028B1 (ko) 음성 인식 시스템 및 방법
US9378742B2 (en) Apparatus for speech recognition using multiple acoustic model and method thereof
US9406299B2 (en) Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
Huijbregts et al. Unsupervised acoustic sub-word unit detection for query-by-example spoken term detection
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
CN102280106A (zh) 用于移动通信终端的语音网络搜索方法及其装置
JPWO2008087934A1 (ja) 拡張認識辞書学習装置と音声認識システム
Gulzar et al. A systematic analysis of automatic speech recognition: an overview
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
Saurav et al. Bangla speech recognition for voice search
KR102199445B1 (ko) 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치
CN112542170A (zh) 对话系统、对话处理方法和电子装置
Liu Deep convolutional and LSTM neural networks for acoustic modelling in automatic speech recognition
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Yılmaz et al. Noise robust exemplar matching using sparse representations of speech
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
CN108806691B (zh) 语音识别方法及系统
EP2867890B1 (en) Meta-data inputs to front end processing for automatic speech recognition
Walter et al. An evaluation of unsupervised acoustic model training for a dysarthric speech interface
CN102237082A (zh) 语音识别系统的自适应方法
Yu et al. Unsupervised adaptation with discriminative mapping transforms

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant