KR20120045582A - 음향 모델 생성 장치 및 방법 - Google Patents

음향 모델 생성 장치 및 방법 Download PDF

Info

Publication number
KR20120045582A
KR20120045582A KR1020100107205A KR20100107205A KR20120045582A KR 20120045582 A KR20120045582 A KR 20120045582A KR 1020100107205 A KR1020100107205 A KR 1020100107205A KR 20100107205 A KR20100107205 A KR 20100107205A KR 20120045582 A KR20120045582 A KR 20120045582A
Authority
KR
South Korea
Prior art keywords
binary tree
acoustic model
gaussian components
model
platform
Prior art date
Application number
KR1020100107205A
Other languages
English (en)
Inventor
조훈영
김영익
이일빈
김승희
박준
김동현
김상훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100107205A priority Critical patent/KR20120045582A/ko
Priority to US13/284,095 priority patent/US20120109650A1/en
Publication of KR20120045582A publication Critical patent/KR20120045582A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

음향 모델 생성 장치 및 방법이 개시된다. 본 발명에 따른 음향 모델 생성 장치는, 우도(likelihood)값의 변화를 반영한 거리 척도에 기반하여 음향 모델의 은닉 마르코프 모델(Hidden Markov Model; HMM) 상태별로 복수 개의 가우시안 성분들끼리 서로 통합하는 과정을 반복하여 이진 트리를 생성하는 이진 트리 생성부; 음성 인식기를 포함하는 플랫폼에 대응하여 상기 음향 모델의 최대 규모 정보를 생성하는 정보 생성부; 및 상기 음향 모델의 최대 규모 정보에 대응하여 상기 이진 트리를 축소하는 이진 트리 축소부를 포함한다.

Description

음향 모델 생성 장치 및 방법{Apparatus and method for creating acoustic model}
본 발명은 음향 모델 생성 장치 및 방법에 관한 것으로서, 우도(likelihood)값의 변화량을 직접 근사화하고, 최소 서술 길이 척도(Minimum Description Length; MDL)의 음향 모델의 복잡화에 대한 패널티값을 자동으로 찾음으로써, 플랫폼의 사양에 따라 별다른 성능 저하 없이 음향 모델의 규모를 자유롭게 변경시킬 수 있는 음향 모델 생성 장치 및 방법에 관한 것이다.
근래의 음성 인식 기술(Automatic Speech Recognition: ASR)은 프로세서의 고속화, 메모리 양의 증가, 병렬처리 기법, 음성언어 자원의 증가 등으로 인해 인식 성능이 지속적으로 향상되고 있다. 또, 음성 인식 시스템은 서버급 컴퓨터로부터 소형 휴대 단말기 또는 가전기기 등과 같이 다양한 하드웨어 플랫폼 상에 탑재가 되고 있다. 이에 따라 음성 인식 시스템을 설계시에 각 플랫폼의 계산 능력에 따라 음성인식 시스템의 규모가 적절히 변경되면서 최대한의 인식 성능을 낼 수 있도록 설계할 필요가 있다.
음성인식 시스템의 규모가 가변적(rescalable)이도록 하기 위해서 주로 음향모델 또는 언어 모델의 크기를 변경시키는 방법을 고려해 볼 수 있으며, 인식 성능이 일정 수준 이상 저하되지 않는 범위 내에서 모델의 크기를 줄이거나, 성능이 향상되도록 모델의 크기를 증가시켜야 한다.
은닉 마르코프 모델(Hidden Markov Model; HMM) 기반의 음성 인식 방법에서 음향 모델의 규모를 변경하는 것은 음향 모델을 구성하는 모든 HMM들의 모든 평균벡터 및 공분산 행렬 요소들(이하 모델 파라미터라 함)의 총 개수를 늘리거나 줄이는 것을 의미한다. 음성 인식 과정의 전체 연산량 중에서 음향적 우도값(acoustic likelihood score) 계산은 절반 이상을 차지하기도 하므로, 음향 모델의 규모를 변경시키는 것은 모델을 저장하는 저장공간의 크기뿐만 아니라, 음성인식 속도와도 밀접한 연관성을 갖게 된다.
HMM 기반의 음성 인식에서 음향 모델의 모델 파라미터 수를 조절하기 위한 방법으로 주어진 음향모델 학습용 데이터에 대해 우선 충분히 많은 수의 모델 파라미터를 이용하여 음향 모델을 학습한 뒤, 각 HMM 상태의 가우시안 성분(Gaussian mixture component)들을 점차적으로 줄여나가는 방법에 대한 연구들이 수행되었다. 이 방법들은 확률적 분포가 가장 유사한 두 개의 가우시안 성분들을 점진적으로 통합하여 이진 트리를 구성한 뒤, 트리를 적정 수준에서 가지치기(pruning)하여 최적의 음향 모델을 생성해 낸다. 이 때, 두 가우시안 성분 간의 거리 척도로서 K-L 거리(Kullback-Leibler divergence), 바타차리야(Bhattacharyya) 거리, 가우시안 성분들의 가중치(mixture weight)의 합 등이 연구되어 왔다. 또한, 가우시안 성분들 간의 K-L 거리를 계산하는 과정에서 가우시안 성분의 가중치를 반영한 가중(weighted) K-L 거리도 제시되었다. 이 중 K-L 거리 방식이 상대적으로 좋은 성능을 나타낸다고 보고되었다.
그러나 종래의 K-L 거리 방식은 유사도 측정 및 확률 분포 통합의 본래 목적인 우도(likelihood)값 변화량의 최소화를 달성하기에는 한계가 있었다. 또한, 종래의 방식에서는 최소 서술 길이(Minimum Description Length; MDL) 척도에서 미리 정해진 음향 모델의 복잡화에 대한 패널티값에 따라 음향 모델의 가우시안 성분들의 총 개수가 정해지는데, 시스템에서 사용하고자 하는 음향 모델의 규모 정보를 제공받았을 경우, 이에 맞는 패널티값을 찾기 위해서는 여러 가지 값들을 일일이 시도해볼 수 밖에 없었다.
상기한 과제를 해결하기 위한 본 발명의 목적은, 우도(likelihood)값의 변화량을 직접 근사화하고, 최소 서술 길이(Minimum Description Length; MDL) 척도의 음향 모델의 복잡화에 대한 패널티값을 자동으로 찾음으로써, 플랫폼의 사양에 따라 별다른 성능 저하 없이 음향 모델의 규모를 자유롭게 변경시킬 수 있는 음향 모델 생성 장치 및 방법을 제공하는 것이다.
본 발명의 일 실시예에 따른 음향 모델 생성 장치는, 우도(likelihood)값의 변화를 반영한 거리 척도에 기반하여 음향 모델의 은닉 마르코프 모델(Hidden Markov Model; HMM) 상태별로 복수 개의 가우시안 성분들끼리 서로 통합하는 과정을 반복하여 이진 트리를 생성하는 이진 트리 생성부; 음성 인식기를 포함하는 플랫폼에 대응하여 상기 음향 모델의 최대 규모 정보를 생성하는 정보 생성부; 및 상기 음향 모델의 최대 규모 정보에 대응하여 상기 이진 트리를 축소하는 이진 트리 축소부를 포함한다.
이 때, 상기 음향 모델 생성 장치는, 축소된 상기 이진 트리를 저장하는 이진 트리 저장부를 더 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 음향 모델 생성 방법은, 우도값(likelihood)의 변화를 반영한 거리 척도에 기반하여 음향 모델의 은닉 마르코프 모델(Hidden Markov Model; HMM) 상태별로 복수 개의 가우시안 성분들끼리의 거리를 측정하는 단계; 상기 거리가 가장 가까운 두 가우시안 성분끼리 통합하는 과정을 반복하여 이진 트리를 생성하는 단계; 및 음성 인식기를 포함하는 플랫폼에 대응하는 상기 음향 모델의 최대 규모 정보에 대응하여 상기 이진 트리를 축소하는 단계를 포함한다.
이 때, 상기 음향 모델 생성 방법은, 축소된 상기 이진 트리를 저장하는 단계를 더 포함할 수 있다.
본 발명의 일 측면에 따르면, 우도(likelihood)값의 변화량을 직접 근사화하고, 최소 서술 길이(Minimum Description Length; MDL) 척도의 음향 모델의 복잡화에 대한 패널티값을 자동으로 찾음으로써, 플랫폼의 사양에 따라 별다른 성능 저하 없이 음향 모델의 규모를 자유롭게 변경시킬 수 있는 음향 모델 생성 장치 및 방법을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음향 모델 생성 장치를 개략적으로 도시한 도면이다.
도 2는 학습이 완료된 트라이폰 은닉 마르코프 모델(Hidden Markov Model; HMM)을 나타낸다.
도 3은 본 발명의 일 실시예에 따른 음향 모델 생성 장치에서 이진 트리 생성부의 이진 트리를 생성하는 알고리즘을 설명하기 위한 도이다.
도 4는 본 발명의 일 실시예에 따른 음향 모델 생성 장치에서 이진 트리 축소부의 이진 트리를 축소하는 과정을 설명하기 위한 도이다.
도 5는 본 발명의 일 실시예에 따른 음향 모델 생성 장치에서 이진 트리 축소부에서 모델의 복잡화에 대한 패널티값 조절 변수를 구하는 과정을 설명하기 위한 도이다.
도 6은 본 발명의 일 실시예에 따른 음향 모델 생성 방법을 설명하기 위한 순서도이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 음향 모델 생성 장치를 개략적으로 도시한 도면이다.
본 발명의 일 실시예에 따른 음향 모델 생성 장치는 은닉 마르코프 모델(Hidden Markov Model; HMM) 상태별로 복수 개의 가우시안 성분들을 포함하는 음향 모델을 플랫폼(111)에 대응하여 규모 변경하여 플랫폼(111)에 포함된 음성 인식기(112)로 전송할 수 있다.
플랫폼(111)은 음성 인식기(112)를 포함하며, 메모리나 CPU 같은 컴퓨팅 자원이 한정된 소형 단말기부터 컴퓨팅 자원의 제한이 크지 않은 서버급 컴퓨터까지 다양한 플랫폼을 포함할 수 있다. 본 발명의 일 실시예에 따른 음향 모델 생성 장치는 이와 같은 다양한 플랫폼에서 음성 인식을 하기 위해 음향 모델의 규모를 변경할 수 있다.
본 발명의 일 실시예에 따른 음향 모델 생성 장치가 적용되기 위한 전제로서, 음성 인식을 위한 음향 모델의 학습 과정을 기술하도록 한다. 우선, 음성 인식을 위한 음향 모델의 학습을 위해서는 다수의 화자가 발성한 음성 데이터베이스, 음성 데이터베이스에 포함된 각 발화 파일(utterance file)에 해당되는 전사문, 그리고 단어별 발음을 발음기호로 표현한 발음사전이 필요하다. 이들을 이용하여 HMM 기반의 통계적 음향모델을 통상적으로 알려진 방법에 따라 학습시킨다. 본 발명에서는 좌우 음향 문맥(left-right acoustic context)을 갖는 L개의 트라이폰(triphone) HMM 모델이 학습 결과로써 획득되었다고 가정한다.
도 2는 학습이 완료된 트라이폰 HMM을 나타낸다. s1 , s2 , s3(200) 각각은 트라이폰 HMM 상태(state)들을 나타낸다. 그리고 각 상태들을 연결하는 화살표는 연결된 상태로 천이할 확률을 나타내는 것이며, 되돌아오는 화살표는 자신의 상태로 되돌아올 확률을 나타내는 것이다. 각 상태에서 다른 상태로 천이할 확률 및 자신의 상태로 되돌아 오는 확률은 공지된 방식에 의하여 구할 수 있으므로 상세한 설명은 생략하도록 한다. 도 2에서 각각의 HMM 상태는 R개의 가우시안 성분(Gaussian component)(201)을 포함한다고 가정한다. 입력 음성으로부터 추출된 특징 벡터를
Figure pat00001
라고 할 때, 임의의 HMM 상태
Figure pat00002
에서 출력 확률 값은 다음의 수학식과 같이 계산된다.
Figure pat00003
수학식 1에서
Figure pat00004
은 r 번째 가우시안 성분의 가중치를 의미하며,
Figure pat00005
Figure pat00006
는 각각 r 번째 가우시안 성분의 평균 벡터 및 공분산 행렬을 뜻한다. 이 때,
Figure pat00007
는 r 번째 가우시안 성분의 정규 분포를 나타내고,
Figure pat00008
는 r 번째 가우시안 성분의 가중치가 반영된 정규 분포를 나타낸다. 음성인식 과정에서는 입력 음성의 매 프레임에서 추출된 특징 벡터에 대해 음향 모델에 포함된 모든 트라이폰 HMM들의 상태들에서 상기 수학식 1의 확률 값을 계산하도록 되어 있으므로, 음성 인식 속도를 향상시키기 위해서는 인식 성능의 별다른 저하가 없이 음향 모델에 포함된 전체 HMM 상태들의 개수를 줄이는 것이 매우 중요하다.
다시 도 1로 돌아와서, 본 발명의 일 실시예에 따른 음향 모델 생성 장치는 이진 트리 생성부(101), 정보 생성부(102), 이진 트리 축소부(103) 및 이진 트리 저장부(104)를 포함하여 구성될 수 있다. 도 1에 도시된 음향 모델 생성 장치는 예시적으로 도시된 것이며, 필요에 따라 일부 구성 요소가 추가, 삭제 또는 변경되어 구성될 수 있다. 예를 들면, 다른 실시예에서, 음향 모델 생성 장치는 이진 트리 저장부(104) 없이 이진 트리 생성부(101), 정보 생성부(102) 및 이진 트리 축소부(103)만을 포함하여 구성될 수 있다.
이진 트리 생성부(101)는 우도값의 변화를 반영한 거리 척도에 기반하여 HMM 상태별로 상기 복수 개의 가우시안 성분들끼리 서로 통합하는 과정을 반복하여 이진 트리를 생성하는 부이다. 즉, 이진 트리 생성부(101)는 먼저 우도값의 변화를 반영한 거리 척도에 기반하여 HMM 상태별로 상기 복수 개의 가우시안 성분들끼리의 거리를 측정하고, 상기 거리가 가장 가까운 두 가우시안 성분끼리 통합하는 과정을 반복하여 이진 트리를 생성한다. 이 때, 이진 트리 생성부(101)는, 상기 복수의 가우시안 성분들의 통합 이전의 우도값 근사치에서 통합 이후의 우도값 근사치를 차감하여 상기 우도값의 변화를 반영한 거리 척도를 구할 수 있다. 이진 트리 생성부(101)에서 이진 트리를 생성하는 알고리즘 및 상기 우도값의 변화를 반영한 거리 척도를 구하는 과정은 이후 도면을 참조하여 상세히 후술하도록 한다.
정보 생성부(102)는 플랫폼(111)에 대응하는 음향 모델의 최대 규모 정보를 생성하는 부이다. 음향 모델의 최대 규모 정보는 플랫폼(111)의 사양에 대응할 수 있다. 즉, 음향 모델은 내장 메모리, 외장 메모리 및 처리 속도 등의 플랫폼 사양에 따라 상이한 규모를 가질 수 있다. 따라서, 정보 생성부(102)는 플랫폼(111)의 내장 메모리, 외장 메모리 및 처리 속도를 포함하는 플랫폼 관련 정보를 받아 이에 기반하여 플랫폼(111)에 대응하는 상기 음향 모델의 최대 규모 정보를 생성할 수 있다.
이진 트리 축소부(103)는 정보 생성부(102)에서 생성된 상기 음향 모델의 최대 규모 정보에 대응하여 이진 트리 생성부(101)에서 생성된 이진 트리를 축소한다. 즉, 내장 메모리, 외장 메모리 및 처리 속도 등의 플랫폼(111)의 제약에 따른 음향 모델의 최대 규모 정보를 제공받아, 이진 트리 생성부(101)에서 생성된 이진 트리를 가지치기(pruning)하고 인식 성능에 영향을 덜 미치는 가우시안 성분을 제거하여 이진 트리를 축소하는 것이다. 이진 트리 축소부(103)는 정보 생성부(102)에서 생성된 음향 모델의 최대 규모 정보를 상기 음향 모델에 포함될 가우시안 성분의 총 개수로 변환하여 이진 트리를 축소하는데 이용할 수 있다. 또한, 이진 트리 축소부(103)는 상기 이진 트리의 루트 노드로부터 하향으로 탐색하고 가우시안 성분의 가중치, 평균 벡터 및 공분산 행렬과 같은 모델 파라미터의 개수에 대응하는 최소 서술 길이 척도에 따라 상기 이진 트리의 노드들의 최적 부분 집합을 구할 수 있다. 또한, 이진 트리 축소부(103)는 플랫폼(111)의 음성 인식기(112)가 축소된 상기 음향 모델을 이용하여 음성 인식을 하도록 상기 이진 트리의 노드들의 최적 부분 집합을 음성 인식기(112)로 전달할 수 있다. 이진 트리 축소부(103)에서 이진 트리를 축소하는 과정은 이후 도면을 참조하여 상세히 후술하도록 한다.
이진 트리 저장부(104)는 이진 트리 축소부(103)에서 축소된 이진 트리를 저장할 수 있다. 이진 트리 저장부(104)에 저장된 이진 트리는 이후의 음성 인식에 이용될 수 있다. 이진 트리 저장부(104)는 이진 트리 외에도 가우시안 성분의 가중치, 평균 벡터 및 공분산 행렬과 같은 모델 파라미터, 음향 모델에 포함될 가우시안 성분의 총 개수 등을 저장할 수 있다.
상기 기술된 바와 같이, 본 발명의 일 실시예에 따른 음향 모델 생성 장치는 이러한 구성을 통해, HMM 상태별로 복수 개의 가우시안 성분들을 포함하는 음향 모델을 플랫폼(111)에 대응하여 규모 변경하여 플랫폼(111)에 포함된 음성 인식기(112)로 전송할 수 있다.
도 3은 본 발명의 일 실시예에 따른 음향 모델 생성 장치에서 이진 트리 생성부의 이진 트리를 생성하는 알고리즘을 설명하기 위한 도이다.
이진 트리 생성부(101)에서 이진 트리를 생성하는 알고리즘을 설명하면 다음과 같다. 먼저, 알고리즘은 임의의 HMM 상태 s에 포함된 R개의 가우시안 성분을 각각의 리프(leaf) 노드로 구성하는 것으로 시작한다. 그 다음, R개의 가우시안 성분들 중 가능한 모든 두 가우시안 성분들 간의 거리를 측정하여 거리가 가장 가까운 두 가우시안 성분들을 찾고, 이들을 하나로 통합한다. 도 3에서는 gp와 gq가 통합되어 gr이 된 상태를 나타낸다. 그리고 R-1개의 노드들(g1, g2, g3, ..., gp -1, gr, gq+1, ..., gR)에 대해서 상기 통합 과정을 반복하여 최종적으로 1개의 노드가 남을 때 종료한다. 도 3을 참조하면, 트리 생성 방향(301)은 리프 노드로부터 루트(root)노드로의 상향 방향임을 알 수 있다.
상기 알고리즘에서 두 가우시안 성분들 간의 거리를 측정하는 방법으로 종래상기 기술된 바와 같은 K-L(Kullback-Leibler) 거리 및 가중(weighted) K-L 거리, 바타차리야(Bhattacharyya) 거리, 가우시안 성분들의 가중치(mixture weight)의 합을 거리 척도로 사용하는 방법 등이 제시되었다. 이러한 거리척도들은 도면 3에 나타낸 이진 트리의 형태를 각각 다르게 구성하며, 이는 최종적으로 생성되는 음향모델의 성능에 영향을 미친다.
상기 열거한 기존의 거리 척도 방식들은 두 가우시안 성분의 통합 이전과 통합 이후의 우도 값의 변화가 가장 작아야 한다는 것을 지향하고 있다. 그러나, 이러한 거리 척도들은 우도 값의 변화를 직접적으로 이용하지는 않는다.
본 발명의 일 실시예에 따른 음향 모델 생성 장치는 우도 값의 변화를 직접 반영하는 새로운 거리 척도인 델타-우도(Delta-Likelihood; DL) 거리 척도를 이용한다. 도 3에서 가우시안 성분 gp의 파라미터 값들을 추정할 때 사용된 특징 벡터 집합을
Figure pat00009
라고 하고,
Figure pat00010
를 가우시안 성분 gp에 대한 특징 벡터
Figure pat00011
의 점유 횟수(occupancy count)라고 할 때, 가우시안 성분 gp에 대한 특징 벡터 집합
Figure pat00012
의 대수 우도(log likelihood) 값은 다음의 수학식과 같이 계산될 수 있다.
Figure pat00013
상기 수식 2에서 D는 특징 벡터의 차원을 뜻하고,
Figure pat00014
는 가우시안 성분의 공분산 행렬을 의미하며,
Figure pat00015
Figure pat00016
와 같이 계산된다. 도 3에서와 같이 임의의 두 가우시안 성분 gp와 gq가 통합되어 gr이 되었다고 할 때, 통합 이전과 이후의 대수 우도 값의 차이는 다음의 수학식 3과 같이 계산될 수 있다.
Figure pat00017
상기 수학식 3의 값이 작으면 두 가우시안 성분 gp와 gq사이의 거리는 근접하다고 볼 수 있고, 따라서 두 성분들은 통합될 수 있다. 수학식 3에서 실제로 음성 인식 시스템에서 학습 데이터가 항상 제공될 수 있지 않으므로,
Figure pat00018
Figure pat00019
의 값을 구하기는 어렵다. 따라서, 본 발명에서는 이 값들을 대신하여 가우시안 성분들의 가중치(mixture weight)에 해당하는
Figure pat00020
Figure pat00021
를 사용하는 새로운 거리척도를 제시한다. 고안된 거리 척도 DL은 수학식 4와 같이 정의한다.
Figure pat00022
통합 이전의 모델 파라미터들은 통합 이후의 모델 파라미터보다 2배 더 많다. 특정 데이터를 더 많은 파라미터로 표현할 경우 더 높은 우도값을 얻게 되므로 고안된 상기 수학식 4는 항상 0 또는 양의 값을 갖는다.
이와 같은 방식으로 얻어진 거리 척도에 의해 도 3에서 상향 방향(bottom-up)의 이진 트리를 구축하게 되며, 이 때 두 가우시안 성분 gp와 gq를 통합하여 gr을 생성한다는 것은 두 가우시안 성분의 D차원 평균 벡터인
Figure pat00023
Figure pat00024
가 통합되어 새로운 D차원 평균 벡터
Figure pat00025
를 생성하며, 가우시안 성분의 가중치 및 공분산 행렬도 이와 마찬가지로 통합된다는 것을 뜻한다. 이를 위한 구체적 방법은 기존에 알려진 통상적인 방법을 따를 수 있다.
도 4는 본 발명의 일 실시예에 따른 음향 모델 생성 장치에서 이진 트리 축소부의 이진 트리를 축소하는 과정을 설명하기 위한 도이다.
도 4에 나타낸 바와 같이, 이진 트리를 축소하는 과정은 트리의 루트 노드(root node)로부터 시작하여 하향 방향으로 전체 노드들을 순차적으로 평가해 나간다. 하향 방향으로 트리를 탐색하는 중간 시점에서 현재까지 지나 온 트리 노드들의 집합을 Z라고 하고, Z에 포함된 모든 모델 파라미터들을
Figure pat00026
라고 할 때, 주어진 특징 벡터 집합
Figure pat00027
에 대한 모델의 서술 길이(description length)를 계산한다. 모든 가능한 부분 집합들 중에서 최소 서술 길이(minimum description length; MDL)를 갖는 부분 집합 노드들(subset nodes) 즉 최적 부분 집합(400)이 최종적으로 축소된 음향 모델을 구성하게 된다. 이 때, 최소 서술 길이(MDL) 척도는 다음의 수학식과 같다.
Figure pat00028
상기 수학식 5에서 주어진 데이터에서 모델링 능력이 커질수록 확률값이 커지므로 첫째 항은 모델 파라미터의 개수가 증가할수록 값이 감소한다. 두 번째 항에서 k는 모델 파라미터의 전체 개수를 의미한다. 두 번째 항은 모델 파라미터의 개수가 증가할수록 값이 증가하므로 모델이 점차적으로 복잡해지는 것에 대한 패널티값으로 작용한다.
Figure pat00029
값은 패널티 수준을 조절하는 변수로서, 이 값에 따라 최종적으로 선택되는 전체 이진 트리 노드들의 부분 집합이 달라진다. 세 번째 항의 C는 상수값으로서 전체 처리 과정에서 영향을 미치지 않으므로 무시할 수 있다.
도 5는 본 발명의 일 실시예에 따른 음향 모델 생성 장치에서 이진 트리 축소부에서 모델의 복잡화에 대한 패널티값 조절 변수를 구하는 과정을 설명하기 위한 도이다.
패널티값 조절 변수인
Figure pat00030
에 있어서, 종래의 방식에서는 상기 수학식 5에서 미리 정해진
Figure pat00031
값에 따라 음향 모델의 가우시안 성분들의 총 개수가 정해진다. 반면에 시스템에서 사용하고자 하는 음향 모델의 규모 정보를 제공받았을 경우, 여기에 맞는
Figure pat00032
값을 찾기 위해서는 여러 가지의
Figure pat00033
값을 일일이 시도해 보는 수 밖에 없었다.
본 발명의 일 실시예에 따른 음향 모델 생성 장치는 이 과정을 자동화하여, 최종적으로 원하는 가우시안 성분의 총 개수가 주어졌을 때, 이를 달성하기 위한 최적의
Figure pat00034
값(수식 5)을 자동으로 찾는 알고리즘을 포함한다. 도 5의 그래프는 x축 상의 상이한
Figure pat00035
값에 따라 생성된 음향 모델에서 가우시안 성분들의 총 개수(도 5에서 gmmN으로 표기)들을 y축 상에 나타낸다. 도 5에서 목표로 하는 가우시안의 총 개수, 즉 TargetGmmN이라는 값이 목표 음향 모델 크기 정보로서(도 1의 107) 주어졌다고 할 때, 이에 해당하는 값을 찾기 위해 우선 적절한 초기
Figure pat00036
값인
Figure pat00037
에 대해 수학식 5를 적용하여 생성되는 음향 모델의 전체 가우시안 성분 개수 즉, 도 5에서 gmmN(0)를 구한다. t번 째 반복에서
Figure pat00038
일 때 출력되는 가우시안 성분의 총 개수가 gmmN(t-1)이었다고 가정하고,
Figure pat00039
일 때 목표로 하는 가우시안의 총 개수 TargetGmmN을 만족하는 음향 모델이 생성되었다고 하면, 다음과 같은 식이 성립한다.
Figure pat00040
상기 수학식 6에서
Figure pat00041
로 표현된 기울기가 천천히 변한다고 가정할 때,
Figure pat00042
로 볼 수 있다. 따라서, 수학식 6에서 t 대신에 t+1를 삽입하고,
Figure pat00043
값을 대신하여
Figure pat00044
값을 그대로 적용할 경우, 다음의 수학식 7을 얻게 된다.
Figure pat00045
반복 횟수 t를 0에서부터 점진적으로 증가시켜 감에 따라 점차적으로 gmmN(t)는 TargetGmmN에 가까운 값을 갖게 된다. 이 때,
Figure pat00046
을 적용하여 이진 트리의 노드들의 최적 부분 집합을 구하고, 이 때의 gmmN(t+1)을 계산한다. 그리고, gmmN(t+1) = TargetGmmM 일 경우에 이 때의 모든 가우시안 성분을 출력하고 음향 모델을 축소하는 과정을 종료할 수 있다. gmmN(t+1) = TargetGmmM이 아닌 경우에는 t를 하나 더 증가시키고 수학식 6의 계산부터 다시 시작한다.
또는, gmmN(t+1) = TargetGmmM 일 경우 대신에 gmmN(t+1)과 TargetGmmM의 차가 일정값 이하일 경우에 음향 모델을 축소하는 과정이 종료되도록 할 수도 있다. 이 때 역시, gmmN(t+1)과 TargetGmmM의 차가 일정값 이하가 아닌 경우에는 t를 하나 더 증가시키고 수학식 6의 계산부터 다시 시작한다.
마지막으로, 음성 인식기가 탑재되는 플랫폼의 하드웨어 사양으로부터 판단한 허용 가능 음향 모델의 크기가 Q 바이트(byte)라고 하고, 단일한 HMM 상태의 전체 개수가 N이라고 할 때, 이로부터 전체 음향 모델에서 사용 가능한 단일한 가우시안 성분들의 개수(total number of unique GMMs) K는 다음의 수학식과 같이 획득할 수 있다.
Figure pat00047
여기서 MeanSize는 평균 벡터의 메모리 크기, CovSize는 공분산 행렬의 메모리 크기, WeightSize는 가우시안 성분 가중치 값의 메모리 크기를 의미한다.
상기 기술된 것 이 외의 본 발명의 상세한 기술에서 기술되지 않은 HMM 기반의 음성인식의 구체적인 방법에 대해서는 널리 알려진 통상의 방법을 따르기로 한다.
도 6은 본 발명의 일 실시예에 따른 음향 모델 생성 방법을 설명하기 위한 순서도이다.
본 발명의 일 실시예에 따른 음향 모델 생성 방법은 은닉 마르코프 모델 상태별로 복수 개의 가우시안 성분들을 포함하는 음향 모델을 플랫폼에 대응하여 규모 변경하여 상기 플랫폼에 포함된 음성 인식기로 전송할 수 있다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 음향 모델 생성 방법이 시작되면, 먼저 우도값의 변화를 반영한 거리 척도에 기반하여 은닉 마르코프 모델 상태별로 상기 복수 개의 가우시안 성분들끼리의 거리를 측정한다(S601).
그리고 상기 거리가 가장 가까운 두 가우시안 성분끼리 통합하는 과정을 반복하여 이진 트리를 생성한다(S602). 이진 트리를 생성할 때는 먼저 초기의 가우시안 성분들에 대응하는 노드들에 대해 1부터 R까지의 숫자로 식별자를 부여하고, 통합 이후에 생성된 새로운 노드들에 대해 R+1부터 1씩 순차적으로 증가해 가면서 식별자를 부여함으로써 이진 트리를 생성할 수 있다.
상기 이진 트리가 생성되고 나면(S602), 상기 플랫폼에 대응하는 상기 음향 모델의 최대 규모 정보에 대응하여 상기 이진 트리를 축소한다(S603).
상기 이진 트리가 축소되고 나면(S603), 축소된 상기 이진 트리가 저장될 수 있다(S604).
본 발명의 일 실시예에 따른 음향 모델 생성 방법은 도 1에 도시된 본 발명의 일 실시예에 따른 음향 모델 생성 장치와 유사하게 음향 모델 생성 과정이 진행되므로 특별한 언급이 없는 한 도 1에의 설명이 그대로 적용되므로 상세한 설명은 생략하도록 한다. 도 6에서도 도 1에서와 마찬가지로 도 6에 도시된 순서도의 각 단계들은 모든 단계가 필수 단계는 아니며, 다른 실시예에서 일부 단계가 추가, 변경 또는 삭제될 수 있다. 예를 들면, 다른 실시예에서, 음향 모델 생성 방법은 저장하는 단계(S604)를 제외하고 단계(S601, S602, S603)를 포함하여 구성될 수 있다.
이상 본 발명의 특정 실시예를 도시하고 설명하였으나, 본 발명의 기술사상은 첨부된 도면과 상기한 설명내용에 한정하지 않으며 본 발명의 사상을 벗어나지 않는 범위 내에서 다양한 형태의 변형이 가능함은 이 분야의 통상의 지식을 가진 자에게는 자명한 사실이며, 이러한 형태의 변형은, 본 발명의 정신에 위배되지 않는 범위 내에서 본 발명의 특허청구범위에 속한다고 볼 것이다.

Claims (18)

  1. 우도(likelihood)값의 변화를 반영한 거리 척도에 기반하여 음향 모델의 은닉 마르코프 모델(Hidden Markov Model; HMM) 상태별로 복수 개의 가우시안 성분들끼리 서로 통합하는 과정을 반복하여 이진 트리를 생성하는 이진 트리 생성부;
    음성 인식기를 포함하는 플랫폼에 대응하여 상기 음향 모델의 최대 규모 정보를 생성하는 정보 생성부; 및
    상기 음향 모델의 최대 규모 정보에 대응하여 상기 이진 트리를 축소하는 이진 트리 축소부를 포함하는 것을 특징으로 하는 음향 모델 생성 장치.
  2. 제1항에 있어서,
    상기 이진 트리 생성부는,
    상기 복수의 가우시안 성분들의 통합 이전의 우도값 근사치에서 통합 이후의 우도값 근사치를 차감하여 상기 우도값의 변화를 반영한 거리 척도를 구하는 것을 특징으로 하는 음향 모델 생성 장치.
  3. 제1항에 있어서,
    상기 정보 생성부는,
    상기 플랫폼의 내장 메모리, 외장 메모리 및 처리 속도를 포함하는 플랫폼 관련 정보에 기반하여 상기 플랫폼에 대응하는 상기 음향 모델의 최대 규모 정보를 생성하는 것을 특징으로 하는 음향 모델 생성 장치.
  4. 제1항에 있어서,
    상기 이진 트리 축소부는,
    상기 음향 모델의 최대 규모 정보를 상기 음향 모델에 포함될 가우시안 성분의 총 개수로 변환하는 것을 특징으로 하는 음향 모델 생성 장치.
  5. 제1항에 있어서,
    상기 이진 트리 축소부는,
    상기 이진 트리의 루트 노드로부터 하향으로 탐색하고 최소 서술 길이 척도에 따라 상기 이진 트리의 노드들의 최적 부분 집합을 구하여 상기 이진 트리를 축소하는 것을 특징으로 하는 음향 모델 생성 장치.
  6. 제5항에 있어서,
    상기 이진 트리 축소부는,
    상기 플랫폼의 음성 인식기가 축소된 상기 음향 모델을 이용하여 음성 인식을 하도록 상기 이진 트리의 노드들의 최적 부분 집합을 상기 음성 인식기로 전달하는 것을 특징으로 하는 음향 모델 생성 장치.
  7. 제5항에 있어서,
    상기 이진 트리 축소부는,
    상기 모델 파라미터의 개수에 대응하는 상기 음향 모델의 복잡화에 대한 패널티값 조절 변수를 적용하여 상기 최소 서술 길이 척도를 구하는 것을 특징으로 하는 음향 모델 생성 장치.
  8. 제7항에 있어서,
    상기 이진 트리 축소부는,
    상기 음향 모델의 최대 규모 정보에 기반하여 상기 음향 모델의 복잡화에 대한 패널티값 조절 변수를 구하는 것을 특징으로 하는 음향 모델 생성 장치.
  9. 제1항에 있어서,
    축소된 상기 이진 트리를 저장하는 이진 트리 저장부를 더 포함하는 것을 특징으로 하는 음향 모델 생성 장치.
  10. 우도값(likelihood)의 변화를 반영한 거리 척도에 기반하여 음향 모델의 은닉 마르코프 모델(Hidden Markov Model; HMM) 상태별로 복수 개의 가우시안 성분들끼리의 거리를 측정하는 단계;
    상기 거리가 가장 가까운 두 가우시안 성분끼리 통합하는 과정을 반복하여 이진 트리를 생성하는 단계; 및
    음성 인식기를 포함하는 플랫폼에 대응하는 상기 음향 모델의 최대 규모 정보에 대응하여 상기 이진 트리를 축소하는 단계를 포함하는 것을 특징으로 하는 음향 모델 생성 방법.
  11. 제10항에 있어서,
    상기 이진 트리를 생성하는 단계는,
    상기 복수의 가우시안 성분들의 통합 이전의 우도값 근사치에서 통합 이후의 우도값 근사치를 차감하여 상기 우도값의 변화를 반영한 거리 척도를 구하는 단계를 포함하는 것을 특징으로 하는 음향 모델 생성 방법.
  12. 제10항에 있어서,
    상기 이진 트리를 생성하는 단계는,
    초기의 가우시안 성분들에 대응하는 노드들에 대해 1부터 R까지의 숫자로 식별자를 부여하는 단계; 및
    통합 이후에 생성된 새로운 노드들에 대해 R+1부터 1씩 순차적으로 증가해 가면서 식별자를 부여하는 단계를 포함하는 것을 특징으로 하는 음향 모델 생성 방법.
  13. 제10항에 있어서,
    상기 이진 트리를 축소하는 단계는,
    상기 음향 모델의 최대 규모 정보를 상기 음향 모델에 포함될 가우시안 성분의 총 개수로 변환하는 단계를 포함하는 것을 특징으로 하는 음향 모델 생성 방법.
  14. 제10항에 있어서,
    상기 이진 트리를 축소하는 단계는,
    상기 이진 트리의 루트 노드로부터 하향으로 탐색하는 단계; 및
    최소 서술 길이 척도에 따라 상기 이진 트리의 노드들의 최적 부분 집합을 구하여 상기 이진 트리를 축소하는 단계를 포함하는 것을 특징으로 하는 음향 모델 생성 방법.
  15. 제14항에 있어서,
    상기 이진 트리를 축소하는 단계 후에,
    상기 이진 트리의 노드들의 최적 부분 집합을 상기 플랫폼의 음성 인식기로 전달하는 단계; 및
    상기 음성 인식기가 축소된 상기 음향 모델을 이용하여 음성 인식을 하는 단계를 포함하는 것을 특징으로 하는 음향 모델 생성 방법.
  16. 제14항에 있어서,
    상기 이진 트리를 축소하는 단계는,
    상기 모델 파라미터의 개수에 대응하는 상기 음향 모델의 복잡화에 대한 패널티값 조절 변수를 적용하여 상기 최소 서술 길이 척도를 구하는 단계를 포함하는 것을 특징으로 하는 음향 모델 생성 방법.
  17. 제16항에 있어서,
    상기 이진 트리를 축소하는 단계는,
    상기 음향 모델의 최대 규모 정보에 기반하여 상기 음향 모델의 복잡화에 대한 패널티값 조절 변수를 구하는 단계를 포함하는 것을 특징으로 하는 음향 모델 생성 방법.
  18. 제10항에 있어서,
    축소된 상기 이진 트리를 저장하는 단계를 더 포함하는 것을 특징으로 하는 음향 모델 생성 방법.
KR1020100107205A 2010-10-29 2010-10-29 음향 모델 생성 장치 및 방법 KR20120045582A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100107205A KR20120045582A (ko) 2010-10-29 2010-10-29 음향 모델 생성 장치 및 방법
US13/284,095 US20120109650A1 (en) 2010-10-29 2011-10-28 Apparatus and method for creating acoustic model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100107205A KR20120045582A (ko) 2010-10-29 2010-10-29 음향 모델 생성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20120045582A true KR20120045582A (ko) 2012-05-09

Family

ID=45997648

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100107205A KR20120045582A (ko) 2010-10-29 2010-10-29 음향 모델 생성 장치 및 방법

Country Status (2)

Country Link
US (1) US20120109650A1 (ko)
KR (1) KR20120045582A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102031928B1 (ko) * 2019-03-25 2019-10-14 엘아이지넥스원 주식회사 이진 트리를 이용한 고속 펄스열 추출 장치 및 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL399698A1 (pl) * 2012-06-27 2014-01-07 Voice Lab Spólka Z Ograniczona Odpowiedzialnoscia Sposób doboru zlozonosci dyskretnego modelu akustycznego w systemie automatycznego rozpoznawania mowy
GB2523353B (en) * 2014-02-21 2017-03-01 Jaguar Land Rover Ltd System for use in a vehicle
KR102434604B1 (ko) * 2016-01-05 2022-08-23 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
KR102069699B1 (ko) 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법
CN107910008B (zh) * 2017-11-13 2021-06-11 河海大学 一种用于个人设备的基于多声学模型的语音识别方法
US10991365B2 (en) * 2019-04-08 2021-04-27 Microsoft Technology Licensing, Llc Automated speech recognition confidence classifier

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6151574A (en) * 1997-12-05 2000-11-21 Lucent Technologies Inc. Technique for adaptation of hidden markov models for speech recognition
JP2965537B2 (ja) * 1997-12-10 1999-10-18 株式会社エイ・ティ・アール音声翻訳通信研究所 話者クラスタリング処理装置及び音声認識装置
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6324510B1 (en) * 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US6493667B1 (en) * 1999-08-05 2002-12-10 International Business Machines Corporation Enhanced likelihood computation using regression in a speech recognition system
WO2002091357A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
MXPA04012865A (es) * 2002-06-24 2005-03-31 Matsushita Electric Ind Co Ltd Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion.
JP4069715B2 (ja) * 2002-09-19 2008-04-02 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置
JP3667332B2 (ja) * 2002-11-21 2005-07-06 松下電器産業株式会社 標準モデル作成装置及び標準モデル作成方法
GB0420464D0 (en) * 2004-09-14 2004-10-20 Zentian Ltd A speech recognition circuit and method
JP4757936B2 (ja) * 2009-07-23 2011-08-24 Kddi株式会社 パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102031928B1 (ko) * 2019-03-25 2019-10-14 엘아이지넥스원 주식회사 이진 트리를 이용한 고속 펄스열 추출 장치 및 방법

Also Published As

Publication number Publication date
US20120109650A1 (en) 2012-05-03

Similar Documents

Publication Publication Date Title
KR102167719B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
US5937384A (en) Method and system for speech recognition using continuous density hidden Markov models
KR20120045582A (ko) 음향 모델 생성 장치 및 방법
US8494850B2 (en) Speech recognition using variable-length context
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
KR20140082157A (ko) 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
Gales et al. State-based Gaussian selection in large vocabulary continuous speech recognition using HMMs
US8996373B2 (en) State detection device and state detecting method
US8386254B2 (en) Multi-class constrained maximum likelihood linear regression
US20120278081A1 (en) Text to speech method and system
KR20030018073A (ko) 음성 인식 장치 및 음성 인식 방법
US20210350791A1 (en) Accent detection method and accent detection device, and non-transitory storage medium
CN112017694A (zh) 语音数据的评测方法和装置、存储介质和电子装置
KR20160098910A (ko) 음성 인식 데이터 베이스 확장 방법 및 장치
US20060235686A1 (en) Speech recognition device
Kaiser et al. Overall risk criterion estimation of hidden Markov model parameters
KR100764247B1 (ko) 2단계 탐색을 이용한 음성인식 장치 및 그 방법
CN111797220A (zh) 对话生成方法、装置、计算机设备和存储介质
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
da Silva et al. Speaker-independent embedded speech recognition using Hidden Markov Models
KR20200120595A (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
Yang et al. Automatic grammar augmentation for robust voice command recognition
Aşlyan Syllable Based Speech Recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right