KR20050101694A - 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 - Google Patents

문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 Download PDF

Info

Publication number
KR20050101694A
KR20050101694A KR1020040026780A KR20040026780A KR20050101694A KR 20050101694 A KR20050101694 A KR 20050101694A KR 1020040026780 A KR1020040026780 A KR 1020040026780A KR 20040026780 A KR20040026780 A KR 20040026780A KR 20050101694 A KR20050101694 A KR 20050101694A
Authority
KR
South Korea
Prior art keywords
speech
morpheme
extracting
unit
gram
Prior art date
Application number
KR1020040026780A
Other languages
English (en)
Inventor
신종철
김진영
정경석
Original Assignee
대한민국(전남대학교총장)
송우아이엔티 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국(전남대학교총장), 송우아이엔티 주식회사 filed Critical 대한민국(전남대학교총장)
Priority to KR1020040026780A priority Critical patent/KR20050101694A/ko
Publication of KR20050101694A publication Critical patent/KR20050101694A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Abstract

본 발명은 실시간 환경에서 화자가 발화한 음성 신호에 포함된 언어적인 정보를 추출하여 문자열로 바꾸는 음성 인식 시스템 및 그 방법에 관한 것으로, 기존의 통계적인 언어 모델에 또 다른 문법을 적용하여 통계적인 수치를 조정함으로써, 언어 모델의 성능을 향상시킨 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법을 제공하는데 그 목적이 있다.
이를 위해, 본 발명에 의한 문법적 제약을 갖는 통계적인 음성 인식 시스템은 텍스트 말뭉치로부터 수신된 대상 텍스트의 형태소를 분석하는 형태소 분석기; 상기 형태소 분석기에서 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 의사 형태소 추출부; 상기 형태소나 의사 형태소의 관계를 나타내는 품사 엔 그램(n-gram)을 추출하는 품사 엔 그램(n-gram) 추출부; 및 상기 품사 엔 그램(n-gram)을 기반으로 관계가 없는 품사들을 정의하여 언어 모델부에 적용하는 품사 비 관계 정의부를 포함하여 구성함으로써, 기존의 언어 모델만을 고려하여 탐색하는 알고리즘의 성능을 향상시킬 수 있고, 탐색공간에 동적으로 연계하여 실시간 환경을 최적화할 수 있는 효과가 있다.

Description

문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법{A SYSTEM FOR STATISTICAL SPEECH RECOGNITION WITH GRAMMATICAL CONSTRAINTS, AND METHOD THEREOF}
본 발명은 음성 인식 시스템 및 그 방법에 관한 것으로, 특히 실시간 환경에서 화자가 발화한 음성 신호에 포함된 언어적인 정보를 추출하여 문자열로 바꾸는 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법에 관한 것이다.
현재 상용화 되고 있는 음성 인식기술은 고립 단어 인식이나 짧은 대화체와 특정 도메인에서 한정되어 이루어졌다. 하지만, 최근에는 자연언어처리가 가능한 고성능 시스템들이 선보이고 있다.
예를 들면, 미국에서는 전화사용과 관련한 모든 문제에 대해 자유롭게 말한 내용을 인식하여 처리하는 "How may I help you?"와 같은 서비스가 진행되고 있고, 국내에서도 음성인식에 의한 증권거래 및 음성 다이얼링 서비스, 그리고 음성에 의한 문서작성(dictation) 프로그램 등이 상품화되어 사용되고 있다.
도 1은 일반적인 데스크 탑 환경 하에서의 음성 인식 시스템의 개략도로서, 화자가 특정 단말기(1)를 통해 발화를 하면, 발화된 음성 신호가 음성 인식 시스템(2)으로 전달되어 정보를 추출 및 연산하게 된다. 그리고 최종적으로 화자가 발화한 음성 신호는 텍스트(3)로 변환하게 된다.
종래의 음성 인식 시스템(2)을 구성하는 모듈은 보통 크게 다섯 가지로 학습 및 연산을 수행하게 된다. 이는 도 2에 도시된 바와 같이, 특징 추출부(10), 음향 모델부(12), 발음 모델부(14), 언어 모델부(16), 후처리부(18)를 포함한다.
상기 특징 추출부(10)는 음성 신호로부터 유용한 특징들을 추출하는 과정으로써, 인간의 청각특성을 반영하는(perceptually meaningful) 특징 표현, 다양한 잡음환경/화자/채널 변이에 강인한(robust) 특징, 시간적인 변화를 잘 표현하는 특징 등을 추출한다.
상기 음향 모델부(12)는 음성 데이터베이스(20)로부터 음성 신호가 어떻게 표현할 수 있는지를 나타낸다. 최근 음성인식기에서 가장 널리 사용되는 음향모델은 HMM(hidden Markov model)에 기반 한 것이다. 음향모델의 기본 단위는 음소 또는 유사음소 단위이다. 각 모델은 하나의 음향모델 단위를 나타내며 보통 3개의 상태(state)로 구성된다. 주로 좌에서 우로의 상태 간 천이만 허용된다. 각 상태에서의 음성특징 벡터의 관측 확률은 이산 확률분포 또는 연속 확률밀도함수(pdf)로 표현된다.
상기 발음 모델부(14)는 실제 학습 될 음소는 표기음소가 아니라 발음음소이므로 표기음소를 발음음소로 바꾸어주는 모델이다. 이 모델은 보통 표준발음법에 의거하여 간단한 규칙을 정하거나 특정 환경과 화자 및 사투리까지의 특색을 고려하여 정의하는 방법으로 발음 사전 DB(데이터베이스)(30)를 구축하여 수행한다.
상기 언어 모델부(16)는 음성 인식기의 문법이라고 할 수 있다. 이는 텍스트 말뭉치 DB(40)로부터 문법을 추출하여, 학습 및 탐색 시 임의적인 문장 보다는 문법에 맞는 문장을 선별하는 과정이다. 상기 언어 모델부(16)는 음성 인식기의 탐색 공간을 감소할 수 있으며 문법에 맞는 문장에 대한 확률을 높여 주는 역할을 하기 때문에 인식률 향상에도 기여하게 된다.
상기 후처리부(18)는 경우에 따라서는 고려하지 않은 경우도 있지만, 보통 인식기를 통해 인식률이 높은 후보 문장을 선별한 후, 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적절한 문장을 찾는 과정이다.
기존의 언어 모델은 97%이상의 성공을 보이는 형태소 분석을 통해, 각 음소의 품사를 밝혀내고 이를 통해 각 음소들 간의 관계를 밝히는 지식으로 이용한다. 한국어의 품사는 일정한 규칙이 있어, 어떤 품사 뒤에는 특정 품사가 등장할 수 없고, 또한 어떤 품사 뒤에는 빈번히 나타나는 품사가 있다. 이러한 특징을 대량의 말뭉치를 이용해 각 품사와 품사간의 발생 확률을 구함으로써, 음향 모델의 확률과 함께 쓰여 더욱 효과적인 탐색을 수행할 수 있게 되는 것이다. 또한, 이런 방법론은 기존의 음향 모델의 탐색 과정에서 언어 모델을 참조하여 동적으로 작동하게 된다. 이는 실시간 환경에서 빠른 처리 능력은 물론, 탐색의 비용과 성능을 높이기 위한 방법이다.
대 어휘 연속 음성인식의 결과는 단어의 경우 90~95%의 성능을 보이나 연속되는 문장의 경우는 50%정도에 미치지 못하고 있다고 한다. 이는 기존의 탐색 기법은 많은 언어적 지식을 수반하지 못하고 있다는 것을 말한다. 이를 해결하기 위해, 특정 분야에서 의미적 분석을 이용하는 연구도 등장하고 있으나, 실제 모든 분야를 고려하기에는 불가능하다고 할 수 있다.
문법의 종류에는 FSN이나 CFG와 같은 형식 언어를 위한 문법 또는 엔 그램(n-gram)과 같은 통계적인 문법이 있다. 하지만 대 어휘 연속 음성을 인식하고자 하는 경우에는 형식 문법으로는 언어현상을 모두 고려할 수 없다. 그래서 일반적으로 통계적인 문법을 적용한다.
통계적 문법은 단어간의 연결 관계가 확률로서 표현되는 문법이다. 일반적으로 많이 사용되는 엔 그램(n-gram)은 과거의 n-1개의 단어로부터 다음에 나타날 단어의 확률을 정의하는 문법으로, 흔히 사용되는 엔 그램(n-gram)은 바이그램, 트라이그램이다. 통계적 언어모델의 장점은 모든 것을 확률로서 정의하기 때문에 사람의 지식이 별로 필요하지 않고 대량의 말뭉치만 있으면 쉽게 구현할 수 있다는 장점이 있다. 하지만 통계적 문법이란, 말뭉치에 있는 문장만으로 구성하기에, 말뭉치에 없는 입력 문장이 들어올 경우는 적절하게 적용될 수 없게 된다. 보통 이러한 경우를 해결하기 위해 기존의 시스템은 스무딩(smoothing)이라는 기법을 사용하게 된다. 그래서 말뭉치가 적을 경우에는 확률 값을 구하지 못하는 경우가 자주 발생하므로 스무딩(smoothing)을 적절히 할 필요가 있다. 하지만 이러한 통계적인 방법을 보완하기 위한 스무딩(smoothing)의 가장 큰 문제점은 기존의 음향, 언어 모델의 확률을 평준화시킴으로써 사용하고자 하는 언어적 지식을 충분히 활용하지 못한다는 것이다.
따라서, 본 발명은 상기 문제점을 해결하기 위하여 이루어진 것으로, 본 발명의 목적은 한국어 대 어휘 연속 음성인식을 하기 위한 통계적인 방법론에서 가공된 언어적 정보를 이용하여 스무딩(smoothing)의 문제점을 최소화 한 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법을 제공하는데 있다.
또한, 본 발명의 다른 목적은 기존의 통계적인 언어 모델에 또 다른 문법을 적용하여 통계적인 수치를 조정함으로써, 언어 모델의 성능을 향상시킨 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명에 의한 문법적 제약을 갖는 통계적인 음성 인식 시스템은,
텍스트 말뭉치로부터 수신된 대상 텍스트의 형태소를 분석하는 형태소 분석기;
상기 형태소 분석기에서 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 의사 형태소 추출부;
상기 형태소나 의사 형태소의 관계를 나타내는 품사 엔 그램(n-gram)을 추출하는 품사 엔 그램(n-gram) 추출부; 및
상기 품사 엔 그램(n-gram)을 기반으로 관계가 없는 품사들을 정의하여 언어 모델부에 적용하는 품사 비 관계 정의부를 포함하여 구성된 것을 특징으로 한다.
상기 형태소 분석기는 상기 텍스트 말뭉치를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 한다.
상기 형태소 분석기는 상기 텍스트 말뭉치에서 띄어쓰기와 같은 빈번한 오류데이타를 처리하는 전처리 모듈; 상기 전처리 모듈에서 처리된 형태소를 분석하는 형태소 분석모듈; 상기 형태소 분석모듈에 품사간의 정의와 해석 규칙을 표현하는 FST 변환 모듈; 상기 형태소의 코드정보와 음절길이를 변수로 하는 해쉬(Hash)함수를 이용하여 사전을 구성한 품사사전; 상기 형태소 분석모듈에서 상기 품사사전을 검색할 수 있도록 인 메모리 트리(In-memory tree)구조로 설계된 트라이(Trie) 구조 변환 모듈; 상기 형태소 분석모듈로부터 어절 구조를 반영한 HMM(Hidden Markov Model)을 통해, 하나의 단에 대해 여러 개의 품사가 존재하는 품사의 모호성을 해결하고 문맥 확률과 어휘 확률를 구하여 어절 간의 의존성과 형태소 간의 의존성을 바이그램으로 구성한 품사 추정 모듈; 상기 형태소 분석모듈로부터 상기 HMM모델에 대한 재학습식을 유도하여 미등록어에 대한 정보를 원형 코퍼스(Raw Corpus)로부터 추출하는 재학습모듈; 및 상기 품사사전 및 초기 학습 모델의 정확도를 수동 분석된 코퍼스를 통해 향상시키는 초기데이터 학습모델을 포함하여 구성된 것을 특징으로 한다.
상기 형태소 분석모듈은 상기 형태소의 분석 규칙 및 프로그램을 생성하는 분석 규칙 및 프로그램 생성모듈; 상기 품사사전을 관리하는 사전관리모듈; 및 상기 형태소를 분석하는 분석엔진을 포함하여 구성된 것을 특징으로 한다.
상기 음성 인식 시스템은 수신된 음성 신호로부터 여러가지 유용한 특징들을 추출하는 특징 추출부; 상기 특징 추출부를 통해 수신된 음성 신호를 음성 데이터베이스를 이용하여 어떻게 표현할 수 있는지를 나타내는 음향 모델부; 및 상기 특징 추출부를 통해 수신된 음성 신호의 표기음소를 발음 사전 데이터베이스를 이용하여 발음음소로 바꾸어주는 발음 모델부를 더 포함하여 구성된 것을 특징으로 한다.
상기 음성 인식 시스템은 인식률이 높은 후보 문장을 선별한 후 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적절한 문장을 찾는 후처리부를 더 포함하여 구성된 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명에 의한 문법적 제약을 갖는 통계적인 음성 인식 방법은,
텍스트 말뭉치로부터 수신된 대상 텍스트의 형태소를 분석하는 단계;
상기 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 단계;
상기 형태소나 의사 형태소의 관계를 나타내는 품사 엔 그램(n-gram)을 추출하는 단계;
상기 품사 엔 그램(n-gram)을 기반으로 관계가 없는 품사들을 정의하여 언어 모델에 적용하는 단계를 포함하여 이루어진 것을 특징으로 한다.
상기 음성 인식 방법은 상기 텍스트 말뭉치를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 한다.
본 발명은 종래의 위와 같은 방법론에 언어모델을 보완하는 방법으로, 바람직한 실시 예를 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 3은 본 발명에 의한 음성 인식 시스템의 블록 구성도로서, 특징 추출부(10), 음향 모델부(12), 발음 모델부(14), 언어 모델부(500), 후처리부(18)를 포함하여 구성한다.
상기 특징 추출부(10)는 종래(도 1)와 마찬가지로, 음성 신호로부터 유용한 특징들을 추출하는 과정으로써, 인간의 청각특성을 반영하는(perceptually meaningful) 특징 표현, 다양한 잡음환경/화자/채널 변이에 강인한(robust) 특징, 시간적인 변화를 잘 표현하는 특징 등을 추출한다.
상기 음향 모델부(12)도 종래와 마찬가지로, 음성 데이터베이스(20)로부터 음성 신호가 어떻게 표현할 수 있는지를 나타낸다. 최근 음성인식기에서 가장 널리 사용되는 음향모델은 HMM(hidden Markov model)에 기반 한 것이다. 음향모델의 기본 단위는 음소 또는 유사음소 단위이다. 각 모델은 하나의 음향모델 단위를 나타내며 보통 3개의 상태(state)로 구성된다. 주로 좌에서 우로의 상태 간 천이만 허용된다. 각 상태에서의 음성특징 벡터의 관측 확률은 이산 확률분포 또는 연속 확률밀도함수(pdf)로 표현된다.
상기 발음 모델부(14)도 종래와 마찬가지로, 실제 학습 될 음소는 표기음소가 아니라 발음음소이므로 표기음소를 발음음소로 바꾸어주는 모델이다. 이 모델은 보통 표준발음법에 의거하여 간단한 규칙을 정하거나 특정 환경과 화자 및 사투리까지의 특색을 고려하여 정의하는 방법으로 발음 사전 DB(데이터베이스)(30)를 구축하여 수행한다.
상기 후처리부(18)도 종래와 마찬가지로, 경우에 따라서는 고려하지 않은 경우도 있지만, 보통 인식기를 통해 인식률이 높은 후보 문장을 선별한 후, 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적절한 문장을 찾는 과정이다.
상기 언어 모델부(500)는 음성 인식기의 문법이라고 할 수 있다. 이는 텍스트 말뭉치 DB(40)로부터 문법을 추출하여, 학습 및 탐색 시 임의적인 문장 보다는 문법에 맞는 문장을 선별하는 과정이다.
상기 언어 모델부(500)는 텍스트 말뭉치 데이터베이스(40)를 통해 대상 텍스트의 형태소를 분석하는 형태소 분석기(100)와, 상기 형태소 분석기(100)를 통해 의사형태소를 추출하는 의사형태소 추출부(200)와, 상기 의사형태소 추출부(200)를 통해 품사 엔 그램(n-gram)을 추출하는 품사 엔 그램(n-gram) 추출부(300)와, 상기 품사 엔 그램(n-gram) 추출부(300)를 통해 품사 비 관계를 정의하는 품사 비 관계 정의부(400)와, 상기 품사 비 관계 정의부(400)를 통해 언어 모델을 적용하는 언어 모델부(500)를 포함하여 구성한다.
상기 형태소 분석기(100)는 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석해 내는 것으로, 실제의 문장에 사용되는 단어의 원래의 구조를 파악한다. 상기 형태소 분석기(100)는 도 4에 도시된 바와 같이, 대상 텍스트(110), 전처리 모듈(120), 형태소 분석모듈(130), FST 변환모듈(140), 품사정의 해석규칙(141), 트라이(Trie)구조 변환모듈(150), 품사사전(160), 품사추정모듈(170), 재학습모듈(180), 문맥확률어휘확률(181), 초기데이터학습모듈(190), 수동 분석된 코퍼스(191)를 포함하여 구성된다.
상기 전처리 모듈(120)은 상기 텍스트 말뭉치 DB(40)로부터 수신된 대상 텍스트(110)에서 띄어쓰기와 같은 빈번한 오류데이타를 처리하기 위한 것으로, 많은 노력과 시간을 필요로 하는 사전에 기반하지 않고 원형 말뭉치로부터 필요한 음절 정보 및 어휘 정보를 추출하여 오류가 포함된 문장에 대하여 견고한 분석이 가능하게 한다.
상기 형태소 분석 모듈(130)은 지식 확장이 용이한 규칙기반 방법으로 설계한다. 이는 크게 분석 규칙 및 프로그램 생성모듈, 사전관리모듈, 분석엔진으로 구성된다.
상기 FST 변환 모듈(140)은 언어적 분석을 수행하기 위한 형식적인 모듈로서, 품사간의 정의와 해석 규칙(141)을 표현한다.
상기 트라이(Trie) 구조 변환 모듈(150)은 품사사전(160)을 참조하기 위하여 속도 문제를 해결하기 위한 인 메모리 트라이(In-memory trie)구조로 설계한다. 이는 초기화할 때 메모리로 사전정보를 올리는 시간을 단축시키는 방법으로, 사전 구성 시 형태소의 코드정보와 음절길이를 변수로 하는 해쉬(Hash)함수를 이용하여 사전참조 속도를 빠르게 한다.
상기 품사 추정 모듈(170)은 어절 구조를 반영한 HMM(Hidden Markov Model)을 통해, 하나의 단에 대해 여러 개의 품사가 존재하는 품사의 모호성을 해결하고 문맥 확률과 어휘 확률(181)을 구하여 어절 간의 의존성과 형태소 간의 의존성을 바이그램으로 구성한다.
상기 재학습 모듈(180)은 HMM모델에 대한 재학습식을 유도하여 미등록어에 대한 정보를 원형 코퍼스(Raw Corpus)로부터 추출한다.
상기 초기 데이터 학습 모듈(190)은 수동 분석된 코퍼스(191)를 통하여 품사 사전 및 초기 학습 모델을 정확도를 높이기 위한 방법이다.
위와 같은 형태소 분석기(100)를 통해 나온 품사가 정의된 형태소는 최소의미단위로써, 주어진 문장에 대하여 최소 의미 단위인 형태소로 나뉘게 된다. 하지만 근래에 보통 음성 인식기의 단위는 형태소 보다는 의사 형태소로 구분된다.
다시 도 3을 참조하면, 상기 의사 형태소 추출부(200)는 기존의 형태소 단위가 너무 짧을 경우 음향 모델의 성능이 저하되고, 너무 긴 경우 탐색 공간이 너무 커짐으로써 비용이 많이 드는 문제를 해결하고, 성능 또한 향상시키기 위한 방법이다. 이를 위해, 상기 의사 형태소 추출부(200)는 보통 종래의 의사 형태소중에서 자주 결합하고 길이가 짧은 보조용언이나 어미 등의 기능어를 중심으로 결합하거나 긴 복합어를 분리함으로써 이러한 문제를 해결하였다.
상기 품사 n-gram 추출부(300)은 형태소나 의사형태소의 관계를 나타나기 위해 바이그램이나 트라이그램의 사용으로 표현한다. 이는 특정 품사 뒤에 다른 품사들이 나올 확률을 알 수 있음으로써, 문법적인 제약을 주기위한 정보가 된다.
상기 품사 비 관계 정의부(400)는 품사 n-gram을 기반으로, 어떤 품사가 나올 빈도에서 특정 품사가 나올 수 없음을 발견함으로써, 이를 기존의 언어 모델에 임의적으로 연산하여 최종적으로 가공된 문법적 제약을 부여한다.
이상에서 설명한 본 발명은 특정한 환경에 한정하는 것이 아니고, 특정 환경에도 변형 적용 가능한 모델임을 밝힌다. 또한 2차적으로 가공된 언어적 정보를 기존의 탐색과정에 동적으로 참조함으로써, 실시간 환경에서 빠르고 올바른 결과를 얻는 것을 유도한다.
이상의 본 발명은 상기에 기술된 실시예들에 의해 한정되지 않고, 당업자들에 의해 다양한 변형 및 변경을 가져올 수 있으며, 이는 첨부된 특허청구범위에서 정의되는 본 발명의 취지와 범위에 포함되는 것으로 보아야 할 것이다.
이상에서 설명한 바와 같이, 본 발명에 의한 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법에 의하면, 한국어 대 어휘 연속 음성인식을 하기 위한 통계적인 방법론에서 가공된 언어적 정보를 이용하여 스무딩(smoothing)의 문제점을 최소화할 수 있는 효과가 있다. 다시 말해, 특정 품사가 다른 품사로 천이 될 수 있는 경우의 수와 빈도를 추출한 후 절대적으로 관계할 수 없는 그러한 품사들 간의 관계에 대한 확률을 임의적으로 최소함으로써, 추가적인 언어적 정보를 부여할 수 있다. 또한, 이는 기존의 음향, 발음, 언어 모델로 구성된 탐색 공간에 동적으로 연계하여 효과적인 연산을 수행함은 물론, 실시간 환경에서 고 성능과 속도를 이끌 수 있는 효과가 있다.
도 1은 일반적인 데스크 탑 환경 하에서의 음성 인식 시스템의 개략도
도 2는 종래 기술에 따른 음성 인식 시스템의 개략적인 블록 구성도
도 3은 본 발명에 의한 음성 인식 시스템의 블록 구성도
도 4는 도 3에 도시된 형태소 분석기의 블록 구성도
<도면의 주요 부분에 대한 부호의 설명>
10 : 특징 추출부 12 : 음향 모델부
14 : 발음 모델부 16 : 언어 모델부
18 : 후처리부 20 : 음성 데이터베이스
30 : 발음 사전 데이터베이스
40 : 텍스트 말뭉치 데이터베이스
100 : 형태소 분석기 110 : 대상 텍스트
120 : 전처리 모듈 130 : 형태소 분석모듈
140 : FST 변환모듈 141 : 품사정의 해석 규칙
150 : Trie 구조 변환모듈 160 : 품사사전
170 : 품사 추정모듈 180 : 재학습 모듈
181 : 문맥확률 어휘확률 190 : 초기데이터 학습모듈
191 : 수동 분석된 코퍼스 200 : 의사 형태소 추출부
300 : 품사 n-gram 추출부 400 : 품사 비관계 정의부
500 : 언어 모델부

Claims (8)

  1. 음성 인식 시스템에 있어서,
    텍스트 말뭉치로부터 수신된 대상 텍스트의 형태소를 분석하는 형태소 분석기;
    상기 형태소 분석기에서 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 의사 형태소 추출부;
    상기 형태소나 의사 형태소의 관계를 나타내는 품사 엔 그램(n-gram)을 추출하는 품사 엔 그램(n-gram) 추출부; 및
    상기 품사 엔 그램(n-gram)을 기반으로 관계가 없는 품사들을 정의하여 언어 모델부에 적용하는 품사 비 관계 정의부를 포함하여 구성된 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
  2. 제 1 항에 있어서, 상기 형태소 분석기는,
    상기 텍스트 말뭉치를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 형태소 분석기는,
    상기 텍스트 말뭉치에서 띄어쓰기와 같은 빈번한 오류데이타를 처리하는 전처리 모듈;
    상기 전처리 모듈에서 처리된 형태소를 분석하는 형태소 분석모듈;
    상기 형태소 분석모듈에 품사간의 정의와 해석 규칙을 표현하는 FST 변환 모듈;
    상기 형태소의 코드정보와 음절길이를 변수로 하는 해쉬(Hash)함수를 이용하여 사전을 구성한 품사사전;
    상기 형태소 분석모듈에서 상기 품사사전을 검색할 수 있도록 인 메모리 트리(In-memory tree)구조로 설계된 트라이(Trie) 구조 변환 모듈;
    상기 형태소 분석모듈로부터 어절 구조를 반영한 HMM(Hidden Markov Model)을 통해, 하나의 단에 대해 여러 개의 품사가 존재하는 품사의 모호성을 해결하고 문맥 확률과 어휘 확률를 구하여 어절 간의 의존성과 형태소 간의 의존성을 바이그램으로 구성한 품사 추정 모듈;
    상기 형태소 분석모듈로부터 상기 HMM모델에 대한 재학습식을 유도하여 미등록어에 대한 정보를 원형 코퍼스(Raw Corpus)로부터 추출하는 재학습모듈; 및
    상기 품사사전 및 초기 학습 모델의 정확도를 수동 분석된 코퍼스를 통해 향상시키는 초기데이터 학습모델을 포함하여 구성된 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
  4. 제 3 항에 있어서, 상기 형태소 분석모듈은,
    상기 형태소의 분석 규칙 및 프로그램을 생성하는 분석 규칙 및 프로그램 생성모듈;
    상기 품사사전을 관리하는 사전관리모듈; 및
    상기 형태소를 분석하는 분석엔진을 포함하여 구성된 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
  5. 제 1 항에 있어서, 상기 음성 인식 시스템은,
    수신된 음성 신호로부터 여러가지 유용한 특징들을 추출하는 특징 추출부;
    상기 특징 추출부를 통해 수신된 음성 신호를 음성 데이터베이스를 이용하여 어떻게 표현할 수 있는지를 나타내는 음향 모델부; 및
    상기 특징 추출부를 통해 수신된 음성 신호의 표기음소를 발음 사전 데이터베이스를 이용하여 발음음소로 바꾸어주는 발음 모델부를 더 포함하여 구성된 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
  6. 제 1 항에 있어서, 상기 음성 인식 시스템은,
    인식률이 높은 후보 문장을 선별한 후 또 다른 가공된 언어적 정보나 에러 패턴을 학습하고 적용하여 가장 적절한 문장을 찾는 후처리부를 더 포함하여 구성된 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 시스템.
  7. 텍스트 말뭉치로부터 수신된 대상 텍스트의 형태소를 분석하는 단계;
    상기 분석된 형태소 단위 중 길이가 짧은 기능어는 결합하고 길이가 긴 복합어는 분리하여 의사 형태소를 추출하는 단계;
    상기 형태소나 의사 형태소의 관계를 나타내는 품사 엔 그램(n-gram)을 추출하는 단계;
    상기 품사 엔 그램(n-gram)을 기반으로 관계가 없는 품사들을 정의하여 언어 모델에 적용하는 단계를 포함하여 이루어진 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 방법.
  8. 제 7 항에 있어서, 상기 음성 인식 방법은,
    상기 텍스트 말뭉치를 통해 여러 형태소들의 묶음이 표층 형태로 나타나는 하나의 어절로부터 의미를 갖는 최소 단위인 각 형태소를 분석하여 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것을 특징으로 하는 문법적 제약을 갖는 통계적인 음성 인식 방법.
KR1020040026780A 2004-04-19 2004-04-19 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 KR20050101694A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040026780A KR20050101694A (ko) 2004-04-19 2004-04-19 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040026780A KR20050101694A (ko) 2004-04-19 2004-04-19 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20050101694A true KR20050101694A (ko) 2005-10-25

Family

ID=37280074

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040026780A KR20050101694A (ko) 2004-04-19 2004-04-19 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20050101694A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735559B1 (ko) * 2005-11-18 2007-07-04 삼성전자주식회사 언어 모델 구축 장치 및 방법
KR100784730B1 (ko) * 2005-12-08 2007-12-12 한국전자통신연구원 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 hmm 품사 태깅 장치 및 방법
KR100930715B1 (ko) * 2007-10-25 2009-12-09 한국전자통신연구원 음성 인식 방법
US8356032B2 (en) 2006-02-23 2013-01-15 Samsung Electronics Co., Ltd. Method, medium, and system retrieving a media file based on extracted partial keyword
CN103903619A (zh) * 2012-12-28 2014-07-02 安徽科大讯飞信息科技股份有限公司 一种提高语音识别准确率的方法及系统
CN112270923A (zh) * 2020-10-22 2021-01-26 江苏峰鑫网络科技有限公司 一种基于神经网络的语义识别系统
KR20210067201A (ko) * 2019-11-29 2021-06-08 광운대학교 산학협력단 발달 장애인 음성 인식 점수 산출 장치 및 그 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735559B1 (ko) * 2005-11-18 2007-07-04 삼성전자주식회사 언어 모델 구축 장치 및 방법
US8255220B2 (en) 2005-11-18 2012-08-28 Samsung Electronics Co., Ltd. Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database
KR100784730B1 (ko) * 2005-12-08 2007-12-12 한국전자통신연구원 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 hmm 품사 태깅 장치 및 방법
US8356032B2 (en) 2006-02-23 2013-01-15 Samsung Electronics Co., Ltd. Method, medium, and system retrieving a media file based on extracted partial keyword
KR100930715B1 (ko) * 2007-10-25 2009-12-09 한국전자통신연구원 음성 인식 방법
CN103903619A (zh) * 2012-12-28 2014-07-02 安徽科大讯飞信息科技股份有限公司 一种提高语音识别准确率的方法及系统
CN103903619B (zh) * 2012-12-28 2016-12-28 科大讯飞股份有限公司 一种提高语音识别准确率的方法及系统
KR20210067201A (ko) * 2019-11-29 2021-06-08 광운대학교 산학협력단 발달 장애인 음성 인식 점수 산출 장치 및 그 방법
CN112270923A (zh) * 2020-10-22 2021-01-26 江苏峰鑫网络科技有限公司 一种基于神经网络的语义识别系统

Similar Documents

Publication Publication Date Title
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
Kwon et al. Korean large vocabulary continuous speech recognition with morpheme-based recognition units
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
CN107705787A (zh) 一种语音识别方法及装置
US20040039570A1 (en) Method and system for multilingual voice recognition
Hacioglu et al. On lexicon creation for turkish LVCSR.
Kirchhoff et al. Novel speech recognition models for Arabic
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
JP2004170765A (ja) 音声処理装置および方法、記録媒体並びにプログラム
KR100726875B1 (ko) 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스
CN112346696A (zh) 虚拟助理的语音比较
CN107123419A (zh) Sphinx语速识别中背景降噪的优化方法
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
Manasa et al. Comparison of acoustical models of GMM-HMM based for speech recognition in Hindi using PocketSphinx
Li et al. Cantonese automatic speech recognition using transfer learning from mandarin
Kipyatkova et al. Recurrent neural network-based language modeling for an automatic Russian speech recognition system
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
AbuZeina et al. Cross-word modeling for Arabic speech recognition
Al-Anzi et al. Performance evaluation of sphinx and HTK speech recognizers for spoken Arabic language
Maskey et al. A phrase-level machine translation approach for disfluency detection using weighted finite state transducers
Ma et al. Recognize foreign low-frequency words with similar pairs
Ma et al. Low-frequency word enhancement with similar pairs in speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E601 Decision to refuse application