KR101329281B1 - 음성 인식 장치 및 방법 - Google Patents

음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR101329281B1
KR101329281B1 KR1020100104894A KR20100104894A KR101329281B1 KR 101329281 B1 KR101329281 B1 KR 101329281B1 KR 1020100104894 A KR1020100104894 A KR 1020100104894A KR 20100104894 A KR20100104894 A KR 20100104894A KR 101329281 B1 KR101329281 B1 KR 101329281B1
Authority
KR
South Korea
Prior art keywords
global
individual
recognition
model
gaussians
Prior art date
Application number
KR1020100104894A
Other languages
English (en)
Other versions
KR20120043552A (ko
Inventor
박전규
정훈
전형배
정의석
김종진
정호영
강병옥
강점자
박기영
이성주
이윤근
송화전
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100104894A priority Critical patent/KR101329281B1/ko
Publication of KR20120043552A publication Critical patent/KR20120043552A/ko
Application granted granted Critical
Publication of KR101329281B1 publication Critical patent/KR101329281B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 따른 음성 인식 장치는, 전역 특징 벡터, 전역 어휘 모델, 및 전역 음향 모델로 구성된 전역 데이터베이스부; 복수의 개별 인식부로 구성된 인식부; 상기 각 개별 인식부들에 각기 대응하는 복수의 개별 언어 모델로 구성된 개별 데이터베이스부; 및 상기 각 개별 인식부들의 인식결과를 수집하고 평가하는 수집평가부를 포함하고, 상기 개별 인식부 각각은, 상기 전역 특징 벡터, 상기 전역 어휘 모델, 상기 전역 음향 모델, 및 상기 대응하는 개별 언어 모델만을 이용하여 입력신호를 인식할 수 있다. 본 발명은 음성 인식의 인식 속도를 향상시키고, 언어 모델 적용범위를 제고하는 효과가 있다.

Description

음성 인식 장치 및 방법{speech recognition device and method thereof}
본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 더욱 상세하게는 인식속도를 향상시킬 수 있는 음성 인식 장치 및 방법에 관한 것이다.
음성 인식이란, 입력된 음성신호를 컴퓨터가 분석해 이를 텍스트로 인식 또는 이해하는 기술을 말하는데, 일반적인 음성 인식 장치는, 입력된 음성신호의 특징을 추출하여 특징 벡터로 변환시키고, 미리 구축된 음향 모델 데이터베이스, 어휘 모델 데이터베이스, 및 언어 모델 데이터베이스를 참조하여 비터비 알고리즘을 이용하여 상기 추출된 특징 벡터와 가장 유사한 인식 결과인 텍스트를 제공하도록 구현되어 있다.
특히, 언어 모델 데이터베이스는 이전의 단어들로부터 다음 단어가 나타날 확률을 예측하기 위한 것으로서, 일반적으로 수억 어절 이상으로 구성된 대규모 원시 텍스트 코퍼스에 구축된 단어와 단어 사이의 출현 빈도 등을 통계적으로 분석하여, 이를 이용하여 유니그램, 바이그램 또는 트라이그램을 추정할 수 있도록 구성되어 있다. 여기서, 유니그램은 단독으로 나타나는 단어와 그 출현 확률, 바이그램은 연속해서 나타나는 단어 쌍과 그 출현 확률, 트라이그램은 연속해서 나타내는 세 개의 단어들과 그 출현 확률로 정의된다.
종래 언어 모델 데이터베이스 구축에 있어서, 우선 유니그램의 수를 고정하고, CPU의 처리 속도 및 메모리 등의 하드웨어적 한계를 고려하여, 바이그램과 트라이그램의 갯수를 적절히 조절하여 언어 모델 데이터베이스에 반영시킨다. 여기서, 반영될 바이그램과 트라이그램은, 우선적으로 대규모 원시 텍스트 코퍼스에서 출현 빈도가 높은 것들을 선택하거나 또는 주어진 문턱치 이상의 빈도를 나타내는 것을 선택하고, 그 후 다양한 기준에 의하여 필수적으로 반영되어야만 하는 데 누락된 바이그램 및 트라이그램을 추가하는 과정을 거쳐 선택되게 된다.
이 때 반영되지 않은 바이그램은 인접해서 나타나는 두 개의 유니그램의 출현 확률을 차용하여 바이그램 확률을 계산하고, 반영되지 않은 트라이그램은 반영된 바이그램의 확률을 차용하여 트라이그램의 출현 확률을 계산하게 된다.
물론 바이그램과 트라이그램이 언어 모델에 많이 반영될수록 음성 인식 성능이 개선되는 반면, 계산 및 평가해야 하는 정보가 많아져서 메모리 사용이 증가하고, 결과적으로 인식 속도가 저하되게 된다.
따라서, 종래에는 인식 속도의 저하를 방지하기 위해 하나의 언어 모델을 구축하고 이를 어휘 트리에 기반하여 분할하여 접근하도록 하는 방식을 채용하거나, 언어 모델을 분할하여 음성 인식 시에 선택적으로 적용하도록 하는 방법을 채용하는 등, 언어 모델을 부분적으로만 적용해야 하는 한계가 있었다.
이에 더하여, 최근에는 웹검색이나 이메일 작성 등과 같이 텍스트의 범주에 제한이 없는 무제한 영역을 대상으로 하는 음성 인식의 필요성이 강하게 대두되고 있다.
본 발명은 상기한 바와 같은 일반적인 기술의 문제점을 해결하기 위하여 안출된 것으로서, 입력신호의 인식 속도를 향상시킬 수 있는 음성 인식 장치 및 방법을 제공하는 데에 그 목적이 있다.
본 발명의 다른 목적은 언어 모델의 적용범위를 제고시킬 수 있는 음성 인식 장치 및 방법을 제공하는 데에 그 목적이 있다.
상기의 기술적 과제를 해결하기 위한 본 발명의 일 양태로서, 음성 인식 장치는, 전역 특징 벡터, 전역 어휘 모델, 및 전역 음향 모델로 구성된 전역 데이터베이스부; 복수의 개별 인식부로 구성된 인식부; 상기 각 개별 인식부들에 각기 대응하는 복수의 개별 언어 모델로 구성된 개별 데이터베이스부; 및 상기 각 개별 인식부들의 인식결과를 수집하고 평가하는 수집평가부를 포함하고, 상기 개별 인식부 각각은, 상기 전역 특징 벡터, 상기 전역 어휘 모델, 상기 전역 음향 모델, 및 상기 대응하는 개별 언어 모델만을 이용하여 입력신호를 인식할 수 있다.
여기서, 상기 전역 음향 모델은 복수의 가우시안들로 구성되어 있고, 상기 복수의 가우시안들은 상기 개별 인식부에 대응하는 수만큼 클러스터되어, 적어도 그 중 하나의 클러스터는 대응하는 개별 인식부에 물리적으로 연결되어 있고 나머지 클러스터들은 논리적으로 연결되어 있을 수 있다.
이에 더하여, 상기 복수의 가우시안들 중 유사한 가우시안들은 서로 다른 클러스터에 할당될 수 있다.
한편, 상기 개별 언어 모델은, 전역 코퍼스로부터 영역별 구분에 기초하여 다수 생성되고, 상기 전역 어휘 모델은, 상기 전역 코퍼스로부터 유일하게 생성될 수 있다.
또한, 상기 수집평가부는, 상기 개별 인식부들의 인식결과인 복수의 인식후보 및 점수를 수집하고, 사용자가 원하는 방식에 따라 평가하여 최종결과를 출력할 수 있다.
본 발명의 다른 양태로서, 음성 인식 방법은, 입력신호로부터 특징 벡터를 검출하는 단계; 상기 특징 벡터를 포함하는 전역 특징 벡터, 전역 어휘 모델, 및 전역 음향 모델로 구성된 전역 데이터베이스부 및 복수의 개별 인식부에 각기 대응하는 복수의 개별 언어 모델로 구성된 개별 데이터베이스부를 이용하여 상기 복수의 개별 인식부 각각에서 입력신호를 인식하는 단계; 및 상기 각 개별 인식부들의 인식결과를 수집하고 평가하는 단계를 포함할 수 있다.
여기서, 상기 전역 음향 모델은 복수의 가우시안들로 구성되어 있고, 상기 복수의 가우시안들은 상기 개별 인식부에 대응하는 수만큼 클러스터되어, 적어도 그 중 하나의 클러스터는 대응하는 개별 인식부에 물리적으로 연결되어 있고 나머지 클러스터들은 논리적으로 연결되어 있을 수 있다.
이에 더하여, 상기 복수의 가우시안들 중 유사한 가우시안들은 서로 다른 클러스터에 할당될 수 있다.
한편, 상기 개별 언어 모델은, 전역 코퍼스로부터 영역별 구분에 기초하여 다수 생성되고, 상기 전역 어휘 모델은, 상기 전역 코퍼스로부터 유일하게 생성될 수 있다.
또한, 상기 수집평가부는, 상기 개별 인식부들의 인식결과인 복수의 인식후보 및 점수를 수집하고, 사용자가 원하는 방식에 따라 평가하여 최종결과를 출력할 수 있다.
본 발명은 다음과 같은 효과가 있다.
첫째, 입력신호의 인식이 병렬로 수행되므로 종래 음성 인식 장치의 메모리 및 속도 제약이 해소되어, 입력신호의 인식 속도를 향상시킬 수 있게 된다.
둘째, 전역 코퍼스로부터 생성된 개별 언어 모델 및 전역 음향 모델을 이용하여 개별 인식부가 병렬로 인식을 수행함으로써, 언어 모델의 적용범위를 제고시킬 수 있게 된다.
도 1은, 본 발명에 따른 음성 인식 장치의 대략적인 구조를 보여주는 블록도이다.
도 2는, 본 발명에 따른 개별 언어 모델의 생성과 관련된 블록도이다.
도 3은, 본 발명에 따른 전역 어휘 모델의 생성과 관련된 블록도이다.
도 4는, 본 발명에 따른 전역 음향 모델의 생성 및 구조와 관련된 블록도이다.
도 5는, 본 발명에 따른 전역 음향 모델의 생성 구조와 관련된 도면이다.
도 6은, 본 발명에 따른 음성 인식 방법을 보여주는 흐름도이다.
이하의 실시예들은 본 발명의 구성요소들과 특징들을 소정 형태로 결합한 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려될 수 있다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성할 수도 있다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다.
본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.
이하의 설명에서 사용되는 특정(特定) 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.
이하, 첨부된 도면들을 참조하여, 본 발명에 따른 실시예들에 대하여 상세하게 설명하기로 한다.
도 1은, 본 발명에 따른 음성 인식 장치의 대략적인 구조를 보여주는 블록도이다. 도 1을 참조하면, 본 발명에 따른 음성 인식 장치(100)는, 전역 데이터베이스부(10), 인식부(20), 개별 데이터베이스부(30), 및 수집평가부(40)를 포함한다.
전역 데이터베이스부(10)는, 후술할 개별 인식부에서 공통으로 사용할 데이터베이스들로서, 전역 특징 벡터(12), 전역 어휘 모델(14), 및 전역 음향 모델(16)로 구성되어 있다.
여기서, 전역 특징 벡터(12)는, 입력된 음성신호에서 추출된 특징벡터로서, 후술할 개별 인식부(22a ~ 22n)의 공통된 입력신호로서 전달된다. 전역 특징 벡터(12)로는 예를 들면, 프레임당 12차 멜주파수 캡스트럼계수, 12차 델타 멜주파수 캡스트림계수, 에너지 및 델타 에너지로 이루어지는 26차 특징벡터를 사용할 수 있으나, 이에 한정되지 않는다.
전역 어휘 모델(14)은, 도 3에 도시된 바와 같이, 발성사전 생성기(70)가 웹문서와 같은 임의의 크기의 대규모 원시 텍스트 문서로 구성된 전역 코퍼스(50)에서 중복성을 배제하고 유일하게 나타나는 모든 단어에 대하여 음소의 나열로 모델링하여 전역 어휘 모델(14)을 구축하게 된다. 여기서, 상기 전역 어휘 모델(14)은 개별 인식부(22a ~ 22n)에서 공통으로 사용하는 데이터베이스이다.
전역 음향 모델(16)은, 음성의 신호적인 특성을 모델링한 것으로서, 입력신호가 변환된 전역 특징 벡터와 비교하는 데 사용된다. 여기서, 전역 음향 모델(16)은, 사용 목적에 따라 사용자에 적응된 화자적응형 음향모델이거나 화자독립형 음향모델 중에서 선택될 수 있다.
도 4는, 본 발명에 따른 전역 음향 모델의 생성 및 구조와 관련된 블록도이다. 일반적인 은닉 마르코프모델(Hidden Markov Model, HMM) 기반의 음향 모델에 있어서 개별 음소는 다변량 가우시안 확률밀도함수(multivariate Gaussian probability density function)로 모델링되는데, 상기 모델은 개별음소들이 이들 밀도함수들을 포괄하는 하나의 가우시안 집합을 상호 참조하는 방식으로 구성되어 있다.
도 4를 참조하면, 이들 가우시안 집합들을 n개로 균등분할한 클러스터들(16a ~ 16n)이 도시되어 있다. 모든 가우시안들은 1부터 시작되는 일련 번호로서의 고유번호를 가지게 되고, 개별 클러스터는 이에 속하는 가우시안들의 색인 테이블로 정의된다. 예를 들어, 전체 가우시안의 수가 10,000개, 개별 인식부의 수(n)가 4라고 가정하면, 각각의 개별 인식부에는 2,500개의 가우시안들이 할당되고, 클러스터1(예를 들어, 16a)은 1부터 2500까지, 클러스터2(예를 들어, 16b)는 2501부터 5000까지의 가우시안이 할당될 수 있다. 최종적으로 n개의 클러스터는 n개의 개별 인식부와 1대1 매핑된다. 여기서, 클러스터 수와 개별 인식부의 수는 동일한 것으로 가정하였으나, 이는 효율을 극대화할 수 있는 실시예일 뿐이고, 클러스터 수가 개별 인식부의 수보다 적거나 많을 때에도 본 발명이 적용가능한 것은 물론이다.
다시 도 4를 참조하면, 상기 전역 음향 모델(16)은 개별 인식부들(22a ~ 22n) 각각이 물리적으로 존재하는 장소에 전역 음향 모델 복사본(16`)으로 존재할 수 있는데, 이 때 상기 각 클러스터들(16a ~ 16n)은, 대응하는 상기 개별 인식부들(22a ~ 22n)에 물리적 복사본(16`a ~ 16`n)으로 존재하고, 대응되지 않는 나머지 클러스터들은, 논리적 복사본인 논리적 링크 정보로 존재할 수 있다. 이에 따라 개별 인식부는 입력신호인 전역 특징 벡터(12)에 대해 개별 인식부에 매핑 또는 할당된 클러스터에 속하는 가우시안들만을 평가하고, 해당 개별 인식부에 할당되지 않은 클러스터에 속하는 가우시안들에 대해서는 그 계산된 값을 논리적인 링크를 참조하여 접근하게 된다.
도 4에서 가우시안들의 클러스터링은 개별음소별로 소속된 가우시안 들간의 거리에 따라 결정될 수 있다. 예를 들어, 한국어 자음 초성'ㄱ'에 해당하는 가우시안이 있고 그 수가 4라고 가정하면, 본 발명에 따른 전역 음향 모델의 생성 구조와 관련된 도면인 도 5에서와 같이, 잘 알려진 알고리즘인 이진 트리 방식의 결정 논리 및 규칙에 따라 클러스터에 할당한다. 즉, 도 5에서 노드 81과 노드 82는 가장 가까운 거리에 있는 노드들, 즉 음향학적으로 유사한 가우시안 쌍이며, 같은 방식으로 노드 83과 노드 84도 가장 가까운 거리에 있는 가우시안 쌍이 된다. 전체 개별 인식부의 수(n)가 4보다 클 경우, 이들 4개의 가우시안들은 서로 독립된 클러스터에 할당되고, 2일 경우에는 81과 83이 하나의 클러스터에 82와 84가 다른 하나의 클러스터에 할당된다.
이와 같이, 이진 트리 형태의 결정 논리를 통해 가까운 거리에 있는 가우시안들은 분산시켜 클러스터에 할당한다. 즉, 일반적으로 비유사한 것들을 제거하는 전략을 적용하는 음성 인식에 있어서, 입력된 음성신호에 대응하는 특징 벡터에 대해 유사한 가우시안들은 동시에 경쟁적으로 활성화되거나 참조되는 경향이 있기 때문에, 이러한 유사한 가우시안들을 서로 다른 개별 인식부에서 평가될 수 있도록 분산시킴으로써, 가우시안에 대한 평가를 묵시적으로 병렬화하는 효과를 가져오게 된다.
인식부(20)는, 복수의 개별 인식부(22a ~ 22n)로 구성되어 있다. 상기 개별 인식부 각각은, 상기 전역 특징 벡터, 상기 전역 어휘 모델, 상기 전역 음향 모델, 및 상기 대응하는 개별 언어 모델만을 이용하여 입력신호를 인식한다. 다시 말하면, 각각의 개별 인식부(22a ~ 22n)는 상기 전역 어휘 모델, 상기 전역 음향 모델, 및 상기 대응하는 개별 언어 모델을 이용하여, 입력된 음성신호에 대응하는 특징 벡터에 대해 음성 인식을 수행하여 개별적으로 하나 이상의 인식후보와 그 점수를 생성한다. 여기서, 각 개별 언어 모델은, 동일한 갯수의 인식후보를 인식결과로 내놓도록 설정될 수도 있고, 서로 다른 갯수의 인식후보를 인식결과로 내놓도록 설정될 수도 있다. 예를 들어, 각 개별 언어 모델별로 k 개의 인식 결과를 생성하도록 설정되어 있다면, 이에 따라 최대 n * k 개의 인식 결과가 생성될 수 있는 것이다.
한편, 상기 개별 인식부(22a ~ 22n)는 각각의 컴퓨터 또는 컴퓨터 클러스터 내에 포함되어 있는 CPU 내에 존재할 수 있다. 최근 하드웨어의 비약적 발전으로 인해 일반적인 개인용 컴퓨터에도 2개 이상의 CPU가 장착된 다중코어 CPU를 채용하는 일이 일반화되었고, 실제 웹 검색과 같은 응용 분야에서는 수십 대의 컴퓨터가 동일한 사용자의 질의어에 대해 공동작업하여 나온 결과를 취합하여 최종 결과를 도출하는 클라우드 컴퓨팅과 같은 기술이 보편화되어 있다. 따라서, 서로 다른 CPU 내에 존재하는 개별 인식부들이 병렬적으로 음성 인식을 수행하게 되면, 인식 속도를 향상시킬 수 있을 것이다.
개별 데이터베이스부(30)는, 상기 각 개별 인식부들(22a ~ 22n)가 전용하는 데이터베이스들로서, 상기 각 개별 인식부들(22a ~ 22n)에 각기 대응하는 복수의 개별 언어 모델(32a ~ 32n)로 구성되어 있다.
도 2는, 본 발명에 따른 개별 언어 모델의 생성과 관련된 블록도이다. 도 2를 참조하면, 상기 개별 언어 모델(32a ~ 32n)은, 언어 모델 생성기(6-)를 통해 전역 코퍼스(50)로부터 영역별 구분에 기초하여 생성된다.
전역 코퍼스(50)는, 웹문서와 같은 임의의 크기의 대규모 원시 텍스트 문서로 구성되어 있는데, 불특정 다수에 의해 작성되는 웹문서는 인터넷/방송/신문 등의 뉴스, 각종 영화/연극/드라마 등의 대본, 시, 소설, 이메일, 블로그, 논문 등과 같이 그 장르와 영역이 다양하여 한 영역의 일반적인 언어 현상이 다른 영역에서는 희소하거나 전혀 나타나지 않는 경우도 있을 수 있다. 즉, 같은 뉴스 영역의 문서라고 하더라도 정치, 경제 문화, 스포츠, 연예 등의 분야마다 사용되는 단어 및 2개 이상의 단어가 연속하여 출현할 확률, 문맥의 구성, 문법적 구성 등이 상이하게 나타날 수 있다. 본 발명에서의 영역은 이러한 장르별 또는 분야별 언어 현상을 소정의 수인 n으로 범주화한 것을 의미하고, 이들 영역에 기초하여 개별 언어 모델(32a ~32n)이 독립적이고 개별적으로 생성되고 사용된다.
이러한 방식으로 영역별로 구분되어 생성되는 개별 언어 모델(32a ~ 32n)에 포함되어 있는 유니그램, 바이그램, 트라이그램은, 비록 동일한 단어라 할지라도, 각 개별 언어 모델(32a ~ 32n) 내에서 영역별로 서로 다른 출현 확률을 가지게 된다. 그러므로, 동일한 입력신호에 대응하는 특징 벡터에 대해서 n개의 영역별 개별 언어 모델을 적용하게 되면 서로 다른 해석이 가능하게 되는 것이다. 예를 들어, 영역 1 언어모델(예를 들어, 32a)이 정치 관련 문서, 영역 2 언어모델(예를 들어, 32b)이 스포츠 관련 문서를 통해 모델링된 것이라면, 임의의 입력신호에 대해 서로 다른 해석에 따라 서로 다른 인식결과로서 텍스트를 출력하게 됨을 의미한다.
수집평가부(40)는, 상기 각 개별 인식부들(22a ~ 22n)의 인식결과를 수집하고 평가한다. 다시 말하면, 수집평가부(40)는, 상기 개별 인식부들(22a ~ 22n)의 인식결과인 복수의 인식후보 및 점수를 수집하고, 사용자가 원하는 방식에 따라 평가하여 최종결과를 출력한다. 예를 들어, 상기 수집된 복수의 인식후보들의 점수를 내림차순으로 정렬하여, 최종 생성된 결과에 대해 사용자 또는 시스템이 원하는 상위 m 개의 인식 결과를 최종 출력하게 할 수 있다.
도 6은, 본 발명에 따른 음성 인식 방법을 보여주는 흐름도이다. 도 6을 참조하면, 먼저, 음성 신호인 입력신호로부터 특징 벡터를 검출한다(S600). 그 후 상기 특징 벡터를 포함하는 전역 특징 벡터, 미리 구축된 전역 어휘 모델, 및 전역 음향 모델, 및 복수의 개별 인식부에 각기 대응하는 복수의 개별 언어 모델을 이용하여, 상기 복수의 개별 인식부 각각에서 입력신호를 인식한다(S620). 상기 각 개별 인식부들의 인식결과를 수집하고 평가하여(S640), 최종 결과를 출력한다(S660). 여기서, 본 발명에 따른 음성 인식 장치의 구성요소들의 기능 및 구조에 대한 설명 또한 본 발명에 따른 음성 인식 방법에 그대로 채용될 수 있다.
본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있다.
본 발명의 음성 인식 장치 및 방법은, 예를 들어, 전화 다이얼링, 가전 기기 제어, 어학 학습, 또는 웹 검색 등과 같이, 음성 인식을 기초로 특정 기능들이 수행될 것을 요하는 기술 분야에는 어디든 적용가능하다.
100 : 음성 인식 장치 10 : 전역 DB부
12 : 전역 특징 벡터 14 : 전역 어휘 모델
16 : 전역 음향 모델 20 : 인식부
22a~22n : 개별 인식부 30 : 개별 DB부
32a~32n : 개별 언어 모델 40 : 수집평가부
50 : 전역 코퍼스 60 : 언어 모델 생성기
70 : 발성사전 생성기 16`: 전역 음향 모델 복사본

Claims (10)

  1. 전역 특징 벡터, 전역 어휘 모델, 및 전역 음향 모델로 구성된 전역 데이터베이스부;
    음성 인식을 병렬적으로 수행하는 복수의 개별 인식부로 구성된 인식부;
    상기 각 개별 인식부들에 각기 대응하는 복수의 개별 언어 모델로 구성된 개별 데이터베이스부; 및
    상기 각 개별 인식부들의 인식결과를 수집하고 평가하는 수집평가부를 포함하고,
    상기 개별 인식부 각각은, 상기 전역 특징 벡터, 상기 전역 어휘 모델, 상기 전역 음향 모델, 및 상기 대응하는 개별 언어 모델만을 이용하여 입력신호를 인식하며,
    상기 개별 언어 모델은, 전역 코퍼스로부터 영역별 구분에 기초하여 다수 생성되고, 상기 전역 어휘 모델은, 상기 전역 코퍼스로부터 유일하게 생성되는 것을 특징으로 하는 음성 인식 장치.
  2. 제 1 항에 있어서,
    상기 전역 음향 모델은 복수의 가우시안들로 구성되어 있고, 상기 복수의 가우시안들은 상기 개별 인식부에 대응하는 수만큼 클러스터되어, 적어도 그 중 하나의 클러스터는 대응하는 개별 인식부에 물리적으로 연결되어 있고 나머지 클러스터들은 논리적으로 연결되어 있는 것을 특징으로 하는 음성 인식 장치.
  3. 제 2 항에 있어서,
    상기 복수의 가우시안들 중 유사한 가우시안들은 서로 다른 클러스터에 할당되는 것을 특징으로 하는 음성 인식 장치.
  4. 삭제
  5. 제 1 항에 있어서,
    상기 수집평가부는, 상기 개별 인식부들의 인식결과인 복수의 인식후보 및 점수를 수집하고, 사용자가 원하는 방식에 따라 평가하여 최종결과를 출력하는 것을 특징으로 하는 음성 인식 장치.
  6. 입력신호로부터 특징 벡터를 검출하는 단계;
    상기 특징 벡터를 포함하는 전역 특징 벡터, 전역 어휘 모델, 및 전역 음향 모델로 구성된 전역 데이터베이스부 및 복수의 개별 인식부에 각기 대응하는 복수의 개별 언어 모델로 구성된 개별 데이터베이스부를 이용하여 상기 복수의 개별 인식부 각각에서 입력신호를 인식하는 단계; 및
    상기 각 개별 인식부들의 인식결과를 수집하고 평가하는 단계;
    를 포함하고,
    상기 개별 언어 모델은, 전역 코퍼스로부터 영역별 구분에 기초하여 다수 생성되고, 상기 전역 어휘 모델은, 상기 전역 코퍼스로부터 유일하게 생성되는 것을 특징으로 하는 음성 인식 방법.
  7. 제 6 항에 있어서,
    상기 전역 음향 모델은 복수의 가우시안들로 구성되어 있고, 상기 복수의 가우시안들은 상기 개별 인식부에 대응하는 수만큼 클러스터되어, 적어도 그 중 하나의 클러스터는 대응하는 개별 인식부에 물리적으로 연결되어 있고 나머지 클러스터들은 논리적으로 연결되어 있는 것을 특징으로 하는 음성 인식 방법.
  8. 제 7 항에 있어서,
    상기 복수의 가우시안들 중 유사한 가우시안들은 서로 다른 클러스터에 할당되는 것을 특징으로 하는 음성 인식 방법.
  9. 삭제
  10. 제 6 항에 있어서,
    상기 수집하고 평가하는 단계는, 상기 개별 인식부들의 인식결과인 복수의 인식후보 및 점수를 수집하고, 사용자가 원하는 방식에 따라 평가하여 최종결과를 출력하는 것을 특징으로 하는 음성 인식 방법.
KR1020100104894A 2010-10-26 2010-10-26 음성 인식 장치 및 방법 KR101329281B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100104894A KR101329281B1 (ko) 2010-10-26 2010-10-26 음성 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100104894A KR101329281B1 (ko) 2010-10-26 2010-10-26 음성 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20120043552A KR20120043552A (ko) 2012-05-04
KR101329281B1 true KR101329281B1 (ko) 2013-11-13

Family

ID=46263709

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100104894A KR101329281B1 (ko) 2010-10-26 2010-10-26 음성 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101329281B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132182B (zh) * 2022-05-24 2024-02-23 腾讯科技(深圳)有限公司 一种数据识别方法、装置、设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010091675A (ja) * 2008-10-06 2010-04-22 Mitsubishi Electric Corp 音声認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010091675A (ja) * 2008-10-06 2010-04-22 Mitsubishi Electric Corp 音声認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ahmad Emami et al., ‘Large-scale distributed language modeling’, Proc. ICASSP 2007, Vol. IV, pp.37~40, 2007*
Ahmad Emami et al., 'Large-scale distributed language modeling', Proc. ICASSP 2007, Vol. IV, pp.37~40, 2007 *

Also Published As

Publication number Publication date
KR20120043552A (ko) 2012-05-04

Similar Documents

Publication Publication Date Title
US10134388B1 (en) Word generation for speech recognition
Kim et al. Two-stage multi-intent detection for spoken language understanding
Metze et al. The spoken web search task at MediaEval 2012
CN101510222B (zh) 一种多层索引语音文档检索方法
JP2021033255A (ja) 音声認識方法、装置、機器及びコンピュータ可読記憶媒体
WO2009081861A1 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
WO2003010754A1 (fr) Systeme de recherche a entree vocale
Metze et al. Language independent search in MediaEval's Spoken Web Search task
Gupta et al. A language independent approach to audio search
Ismail et al. Bangla word clustering based on n-gram language model
CN103854643A (zh) 用于合成语音的方法和装置
Bazzi et al. A multi-class approach for modelling out-of-vocabulary words
Çakır et al. Multi-task regularization based on infrequent classes for audio captioning
Chaudhuri et al. Unsupervised hierarchical structure induction for deeper semantic analysis of audio
Nguyen et al. Improving vietnamese named entity recognition from speech using word capitalization and punctuation recovery models
Dikici et al. Classification and ranking approaches to discriminative language modeling for ASR
JP5360414B2 (ja) キーワード抽出モデル学習システム、方法およびプログラム
He et al. Zero-shot end-to-end spoken language understanding via cross-modal selective self-training
Zitouni Backoff hierarchical class n-gram language models: effectiveness to model unseen events in speech recognition
Chen et al. A discriminative HMM/N-gram-based retrieval approach for Mandarin spoken documents
Chien Association pattern language modeling
Gao et al. Improving language model size reduction using better pruning criteria
Wang et al. Improving handwritten Chinese text recognition by unsupervised language model adaptation
KR101329281B1 (ko) 음성 인식 장치 및 방법
CN101576876B (zh) 一种自动拆分英文复合词组的系统和方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161027

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee