KR100822670B1 - 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치 - Google Patents

말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치 Download PDF

Info

Publication number
KR100822670B1
KR100822670B1 KR1020060094231A KR20060094231A KR100822670B1 KR 100822670 B1 KR100822670 B1 KR 100822670B1 KR 1020060094231 A KR1020060094231 A KR 1020060094231A KR 20060094231 A KR20060094231 A KR 20060094231A KR 100822670 B1 KR100822670 B1 KR 100822670B1
Authority
KR
South Korea
Prior art keywords
speech recognition
cfg
word
recognition grammar
corpus
Prior art date
Application number
KR1020060094231A
Other languages
English (en)
Other versions
KR20080028659A (ko
Inventor
윤승
김상훈
박전규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060094231A priority Critical patent/KR100822670B1/ko
Publication of KR20080028659A publication Critical patent/KR20080028659A/ko
Application granted granted Critical
Publication of KR100822670B1 publication Critical patent/KR100822670B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 방법 및 장치에 관한 것으로, 말뭉치(Corpus)를 기반으로 CFG(Context-Free Grammar) 형태의 음성 인식 문법을 생성하고 다양한 어순 및 표현이 포함될 수 있도록 상기 생성된 CFG 형태의 음성 인식 문법을 확장함으로써 음성 인식 시스템의 성능을 높일 수 있는 것을 특징으로 한다.
본 발명에 따르면, 말뭉치가 소규모인 경우에도 CFG 형태로 음성 인식 문법을 기술하고 이를 확장함으로써 특정 영역 대상의 연속 음성 인식이 가능하게 되며, 이에 따라 음성 인식의 정확도 및 효율성을 높일 수 있는 효과가 있다.
음성 인식 시스템, 음성 인식 문법

Description

말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 방법 및 장치{The method and apparatus for generating extendable CFG type voice recognition grammar based on corpus}
도 1은 본 발명에 따른 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 방법을 나타낸 흐름도이다.
도 2는 도 1에 있어서 말뭉치를 CFG 형태의 음성 인식 문법 패턴으로 변환하는 단계의 상세 흐름도이다.
도 3은 도 1에 있어서 CFG 형태의 음성 인식 문법 패턴을 확장하는 단계의 상세 흐름도이다.
도 4는 본 발명에 따른 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 장치가 음성 인식 시스템에 적용된 일예를 나타낸 도면이다.
*도면의 주요 부분에 대한 부호의 설명*
101 : 말뭉치
102 : 시소러스
103 : 변환 규칙 DB
104 : 영역 정보 DB
110 : CFG 변환부
120 : CFG 확장부
130 : CFG 형태의 음성 인식 문법
140 : 음성 인식 사전
150 : 특징추출부
160 : 음향모델
170 : 음성인식부
본 발명은 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 방법 및 장치에 관한 것으로, 더 자세하게는 말뭉치(Corpus)를 기반으로 CFG(Context-Free Grammar) 형태의 음성 인식 문법을 생성하고 이를 확장함으로써 음성 인식 시스템의 성능을 높일 수 있는 음성 인식 문법 생성 방법 및 장치에 관한 것이다.
현재 고립단어 수준의 음성인식 기술은 비교적 보편화되어 여러 응용분야에서 활용되고 있으며, 이러한 고립단어 수준의 음성인식 기술이 상용화됨에 따라 사용자 입장에서 보다 높은 수준의 음성 인식 기능에 대한 요구가 늘고 있다.
즉, 인식대상 단어 전후에 다른 말을 포함시켜도 인식이 가능한 키워드 스포팅(key word spotting) 기술이나 자연스러운 문장 형태의 인식이 가능한 연속 음성 인식 기술이 요구되고 있다.
그러나, 연속 음성 인식의 경우 그 인식 성능이 아직 사용자의 기대수준에 도달하지 못하고 있으며, 이를 위해 n-gram 방식의 언어 모델을 적용하는 방법과, FSN(Finite State Network, 유한 상태 네트워크) 또는 CFG(Context-Free Grammar, 문맥 자유 문법) 등과 같은 규칙 기반의 문법을 이용하여 짜여진 틀에서 음성을 인식하는 방법 등이 제시되었다.
이 중 n-gram 방식의 언어 모델 적용 방법은 대용량의 말뭉치가 있어야만 활용이 가능한데, 인식 대상 영역이 일반적인 영역이라면 신문 기사, 방송 뉴스, 소설 등의 범용 말뭉치를 활용할 수 있으나, 특정 영역이라면 해당 분야의 말뭉치를 구축하기가 쉽지 않으므로, 언어 모델 자체를 음성 인식 문법으로는 이용할 수 없는 실정이다.
또한, 이와 같은 n-gram 방식의 언어 모델 적용 방법은 대화체(Conversational)가 아닌 낭독체(Dictation)의 연속 음성 인식기에는 적합할 수 있으나, 대화체 음성 인식을 목표로 한다면 말뭉치 구축이 한층 더 어려워질 뿐만 아니라 실시간 대화 흐름 정보가 발화 예측으로 활용되지 않는 단점으로 인해 대화체 음성 인식에는 부적합하다는 문제점이 있다.
한편, FSN 또는 CFG 등과 같은 규칙 기반의 문법을 이용하는 경우, 사람이 직접 문법을 작성하게 되므로 예약 시스템과 같은 소규모의 한정된 음성 인식 시스템에는 적용이 가능하나, 음성 인식 문법 확장의 어려움, 관리와 유지 보수의 어려움 등으로 인해 다양한 발화를 수용해야 하는 대화체 음성 인식 시스템에는 적용하기 어려우며, 사용자의 발화내용이 미리 정의된 표준적인 문법 구조를 벗어나는 경우에는 음성 인식이 어려워 다양한 표현의 대화체 음성 인식에는 부적합하다는 한 계점을 갖고 있다.
따라서, 본 발명은 이와 같은 문제점을 해결하기 위한 것으로, 본 발명의 목적은 말뭉치(Corpus)를 기반으로 CFG(Context-Free Grammar) 형태의 음성 인식 문법을 생성하고 다양한 어순 및 표현이 포함될 수 있도록 상기 생성된 CFG 형태의 음성 인식 문법을 확장함으로써 음성 인식 시스템의 성능을 높일 수 있는 음성 인식 문법 생성 방법 및 장치를 제공하는 것이다.
상기 목적을 달성하기 위하여 본 발명에 따른 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 방법은, (a) 시소러스 또는 변환 규칙을 이용하여 말뭉치를 CFG(Context-Free Grammar) 형태의 음성 인식 문법 패턴으로 변환하는 단계; (b) 상기 CFG 형태의 음성 인식 문법 패턴에, 대화체에서 사용되는 단어, 시소러스에 포함된 하위어 단어, 해당 음성 인식 영역에서 사용되는 단어, 용언류 단어에 대한 동의어 중 적어도 어느 하나를 추가하여 상기 CFG 형태의 음성 인식 문법 패턴을 확장하는 단계; 및 (c) 상기 확장된 CFG 형태의 음성 인식 문법 패턴에서 의미상 불가능한 표현을 제거하는 단계를 포함하며, 상기 (a) 단계는, 상기 말뭉치에서 형제 관계에 해당하는 단어가 상기 시소러스에 존재하는 경우 해당 단어를 상위어로 치환하고 비종단 기호를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환하는 단계; 상기 말뭉치에서 날짜/시간 표현 또는 그 조합에 해당하는 단어가 존재하는 경우 해당 단어를 상기 변환 규칙에 따라 변환하고 비종단 기호를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환하는 단계; 및 상기 말뭉치 내에 종단 기호에 해당하는 단어가 존재하는 경우 해당 단어에 비종단 기호를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환하는 단계를 더 포함하는 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위하여 본 발명에 따른 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 장치는, 시소러스 또는 변환 규칙을 이용하여 말뭉치를 CFG 형태의 음성 인식 문법 패턴으로 변환하는 CFG 변환부; 및 상기 CFG 형태의 음성 인식 문법 패턴에, 대화체에서 사용되는 단어, 시소러스에 포함된 하위어 단어, 해당 음성 인식 영역에서 사용되는 단어, 용언류 단어에 대한 동의어 중 적어도 어느 하나를 추가하여 상기 CFG 형태의 음성 인식 문법 패턴을 확장하는 CFG 확장부를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명에 따른 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 방법을 나타낸 흐름도이다.
도 1을 참조하면, 먼저 말뭉치를 구축하는데(S100), 이 때, 말뭉치는 인식하고자 하는 대상 영역에서 화자가 의도할 수 있는 목표(Goal)가 모두 포함되도록 구축하되, 사용가능한 기 구축된 말뭉치가 있을 경우 이를 이용하도록 하고, 사용가능한 말뭉치가 없을 경우에는 모의 대화 방식이나 WOZ(Wizard of Oz)법 등을 이용하여 말뭉치를 구축하도록 한다.
여기에서, 말뭉치의 규모는 해당 영역에서 화자가 의도할 수 있는 목표가 모두 포함된다면 소규모여도 무방하다.
다음으로, 시소러스 또는 변환 규칙을 이용하여 상기 S100 단계를 통해 구축된 말뭉치를 CFG 형태의 음성 인식 문법 패턴으로 변환하는데(S200), 도 2를 참조하여 이에 대하여 더 자세히 설명하면 다음과 같다.
도 2는 도 1에 있어서 말뭉치를 CFG 형태의 음성 인식 문법 패턴으로 변환하는 단계(S200)의 상세 흐름도이다.
먼저, 시소러스(102)를 이용하여 상기 말뭉치에서 형제 관계에 해당하는 단어들이 존재하는지를 확인하여(S210), 형제 관계에 해당하는 단어들이 시소러스(102)에 존재하는 경우 이들을 상위어로 치환한 다음 비종단 기호(non-terminal symbol)를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환한다(S220).
예를 들어, "MBC에서 5시에 방송하는 영화 알려줘"와 "MBC에서 5시에 방송하는 만화 알려줘" 라는 문장의 경우, 상기 두 문장에서 '영화''만화'에 대한 단어를 다르게 인식하면 그 검색결과가 전혀 달라지게 되며, 또한, 상기 '영화''만화'라는 단어 전후에는 '액션 영화', '코믹 만화'와 같이 다른 단어가 포함되는 경우가 많기 때문에, 이를 위해 '만화'를 그 상위어인 '영화'로 치환한 후 비종단 기호를 할당하여 확장이 가능하도록 하는 것이다.
이 때, 상기 시소러스(102)가 해당 분야의 특성을 반영하여 구현된 시소러스인 경우 CFG로의 변환 성능을 더욱 높일 수 있다.
다음으로, 변환 규칙 DB(103)에 저장된 변환 규칙을 이용하여 상기 말뭉치에서 날짜/시간 표현 또는 그 조합에 해당하는 단어들이 존재하는지를 확인하여(S230), 날짜/시간 표현 또는 그 조합에 해당하는 단어들이 존재하는 경우 해당 단어를 변환 규칙에 따라 변환하고 비종단 기호를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환한다(S240).
예를 들어, '09월', '11일', '어제', '오늘', '내일', '월요일', '이번주', '오전', '오후', '5시 30분' 등과 같은 날짜/시간 표현 또는 그 조합에 해당하는 단어들은 '내일 6시', '11일 오전', '이번주 월요일' 등과 같이 그 전후에 다른 단 어가 포함되는 경우가 많기 때문에, 이와 같이 단어 전후에 다른 단어가 포함되어도 음성 인식이 가능하도록 하기 위해 비종단 기호를 할당하여 확장이 가능하도록 하는 것이다.
상기와 같은 시소러스 또는 변환 규칙을 이용한 CFG 변환이 완료된 후, 상기 말뭉치 내에 예를 들어, '에', '에서', '까지' 등과 같은 종단 기호(terminal symbol)에 해당하는 단어들이 존재하는지를 확인하여(S250), 종단 기호에 해당하는 단어들이 존재하는 경우 해당 단어에 비종단 기호(non-terminal symbol)를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환한다(S260).
본 발명의 이해를 돕기 위해 "MBC에서 저녁에 방송하는 영화 알려줘"와 "MBC에서 5시에 방송하는 만화 알려줘" 라는 문장이 TV 가이드 영역의 음성 인식기로 입력된 경우, 상기와 같은 과정을 거쳐 CFG로 변환된 결과는 다음의 표 1과 같다.
Figure 112006070422634-pat00001
상기 표 1에서 알 수 있는 바와 같이, 시소러스를 이용한 CFG 변환에 따라 '만화'가 그 상위어인 '영화'로 치환되어 비종단기호가 할당되어 있고, 변환 규칙을 이용한 CFG 변환에 따라 '저녁', '5시'에 비종단기호가 할당되어 있으며, '에서'와 같이 종단기호에 해당하는 단어에도 역시 비종단기호가 할당되어 있는 것을 알 수 있다.
다시 도 1을 참조하면, 상기와 같이 말뭉치가 CFG 형태의 음성 인식 문법 패턴으로 변환되면, 다양한 어순 및 표현이 포함될 수 있도록 상기 생성된 CFG 형태의 음성 인식 문법 패턴을 확장하는데(S300), 이와 같이 음성 인식 문법 패턴을 확장하는 이유는 한국어의 경우 어순이 다양하고 부사어의 위치가 자유로우며 그 외에도 특정 단어를 삭제, 추가하여도 동일한 의미를 갖는 문장이 될 수 있으므로, 이러한 요소를 음성 인식 문법에 반영하여 음성 인식 성능을 높이기 위해서이며, 이에 대하여 도 3을 참조하여 더 자세히 설명하면 다음과 같다.
도 3은 도 1에 있어서 CFG 형태의 음성 인식 문법 패턴을 확장하는 단계(S300)의 상세 흐름도이다.
먼저 CFG 형태의 음성 인식 문법 패턴을 화행 및 세부 의도에 따라 같은 의미를 갖는 것끼리 그룹화한 다음(S311), 각 의미 그룹별로 자연스러운 대화체에서 빈번하게 사용되는 단어(예를 들어 '거', '좀' 등)를 추가하여 CFG 형태의 음성 인식 문법 패턴을 확장하는데(S312), 이와 같은 과정을 통해 음성 인식 문법 패턴이 확장된 결과는 다음의 표 2와 같다.
Figure 112006070422634-pat00002
상기 표 2에서 알 수 있는 바와 같이, 'MBC에서 만화 5시에 방송하는 거 좀 알려줘', 'MBC에서 영화 저녁에 방송하는 알려줘' 등의 문장에서, '거 좀'과 ''와 같이 대화체에서 빈번하게 사용되는 단어가 CFG 형태의 음성 인식 문법 패턴에 추가된 것을 알 수 있으며 이에 따라 대화체에서 자주 사용되는 단어가 빠르고 쉽게 인식될 수 있다.
여기에서, [<please>]와 같은 표현은 수의적으로 나타날 수도 있고 그렇지 않을 수도 있다는 것을 의미한다.
그 다음, 상기와 같이 각 의미 그룹별로 CFG 형태의 음성 인식 문법 패턴을 확장한 다음, 상기 CFG 형태의 음성 인식 문법 패턴에 있어서 비종단 기호로 표현된 단어 클래스에 종단 기호로 표현되는 단어 멤버들을 추가하여 CFG 형태의 음성 인식 문법 패턴을 확장하는데(S320~S340), 이에 대하여 더 자세히 설명하면 다음과 같다.
먼저, 상기 비종단 기호로 표현된 단어 클래스의 하위어 단어들이 시소러스(102)에 존재하는지를 확인하여(S321), 하위어 단어가 시소러스(102)에 존재하면 이를 추가하여 CFG 형태의 음성 인식 문법 패턴을 확장한다(S322).
그 다음, 영역 정보 DB(104)에 해당 음성 인식 영역에서 사용되는 단어가 존재하는지를 확인하여(S331), 해당 음성 인식 영역에서 사용되는 단어가 영역 정보 DB(104)에 존재하면 이를 추가하여 CFG 형태의 음성 인식 문법 패턴을 확장한다(S332).
그 다음, 상기 비종단 기호로 표현된 단어 클래스에 용언류 단어가 포함되어 있는지를 확인하여(S341), 용언류 단어가 포함되어 있는 경우 상기 용언류 단어를 원형으로 변환한 다음(S342), 시소러스(102)를 이용하여 상기 원형으로 변환된 용언류 단어에 대한 동의어를 추가한 후(S343), 상기 원형으로 변환된 용언류 단어와 그 동의어를 다시 원래의 형태로 복원하여(S344), 어미 활용 정보 및 보조 용언 부착 가능성에 따라 큰 의미 손실이 없는 범위 내에서 단어를 추가함으로써(S345), 즉, 상기 용언류 단어와 그 동의어에 대하여 어미가 변환된 단어 또는 보조 용언이 변환된 단어를 상기 CFG 형태의 음성 인식 문법 패턴에 추가함으로써, CFG 형태의 음성 인식 문법 패턴을 확장한다.
예를 들어, 비종단 기호로 표현된 단어 클래스에 '알려줘'와 같은 용언류 단어가 포함되어 있는 경우, '알려줘'를 원형인 '알리다'로 변환한 다음, 시소러스(102)에 의해 동의어 '가르치다'를 추가한 후, 다시 원래의 형태인 '알려줘', '가르쳐줘'로 복원하여, 의미 손실이 없는 범위 내에서 '알려줄래', '가르쳐줄래', '알려줘봐', '가르쳐줘봐' 등을 추가함으로써, 사용자가 동일한 의미의 문장을 다양한 표현으로 발화하더라도 이에 대한 음성 인식이 가능하게 된다.
즉, CFG 형태의 음성 인식 문법 패턴에, 대화체에서 사용되는 단어를 추가하고, 시소러스(102)를 이용하여 하위어 단어들을 추가하고, 영역 정보 DB(104)를 이용하여 해당 음성 인식 영역에서 사용되는 단어를 추가하고, 용언류 단어에 대한 동의어를 추가함으로써, CFG 형태의 음성 인식 문법 패턴을 확장시키는 것이다.
이와 같이 비종단 기호로 표현된 단어 클래스에 종단 기호로 표현되는 단어 멤버들을 추가하여 CFG 형태의 음성 인식 문법 패턴을 확장한 결과는 다음의 표 3과 같다.
Figure 112006070422634-pat00003
상기 표 3에서 알 수 있는 바와 같이, 시소러스(102)에 의한 명사류 단어 추가에 따라 영화 외에 만화, 드라마, 코미디, 뉴스 등과 같은 장르 정보를 인식할 수 있도록 CFG 형태의 음성 인식 문법 패턴이 확장되었고, 영역 정보 DB(104)에 의한 단어 추가에 의해 MBC 외에 KBS1, KBS2, SBS, EBS 등의 방송 채널 정보를 인식할 수 있도록 CFG 형태의 음성 인식 문법 패턴이 확장되었으며, 용언류 단어에 대한 동의어 추가에 의해 '알려줘' 외에 '가르쳐줘', '알려줄래', '가르쳐줄래', '알려줘봐', '가르쳐줘봐' 등을 인식할 수 있도록 CFG 형태의 음성 인식 문법 패턴이 확장된 것을 알 수 있다.
다시 도 1을 참조하면, 상기와 같은 과정을 거쳐 CFG 형태의 음성 인식 문법 패턴이 확장되면, 상기 확장된 CFG 형태의 음성 인식 문법 패턴에서 의미상 불가능한 표현을 제거하며, 이에 따라 본 발명에 따른 확장 가능한 CFG 형태의 음성 인식 문법 생성이 완료된다(S400).
한편, 상기와 같은 과정을 통해 확장 가능한 CFG 형태의 음성 인식 문법이 생성되면, 그 중 단어 기술 부분은 발음열 변환 과정을 거쳐 음성 인식 사전으로 구현되며, 이에 따라 상기 확장 가능한 CFG 형태의 음성 인식 문법과 음성 인식 사전은 음성 인식에 활용되는데, 이에 대한 자세한 설명은 도 4와 관련된 설명에서 자세히 설명하기로 한다.
이와 같이, 인식하고자 하는 특정 영역의 말뭉치가 언어 모델을 구축하기에는 부족한 소규모라 하여도, 시소러스 또는 변환 규칙을 이용하여 말뭉치를 CFG 형태의 음성 인식 문법 패턴으로 변환한 후 다양한 어순 및 표현이 포함될 수 있도록 상기 CFG 형태의 음성 인식 문법 패턴을 확장함으로써, 효율적으로 특정 영역의 음성 인식 문법을 기술할 수 있으며 이를 통해 음성 인식 시스템의 성능을 높일 수 있게 된다.
이하, 본 발명에 따른 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 장치가 음성 인식 시스템에 적용된 일예에 대하여 설명한다.
도 4는 본 발명에 따른 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 장치가 음성 인식 시스템에 적용된 일예를 나타낸 도면이다.
도 4를 참조하면, 본 발명에 따른 음성 인식 문법 생성 장치는 CFG 변환부(110)와 CFG 확장부(120)를 포함하며, 여기에서, 말뭉치(101), 시소러스(102), 변환 규칙 DB(103), 영역 정보 DB(104) 등은 음성 인식 시스템에 미리 저장되어 있는 것이 바람직하다.
먼저 CFG 변환부(110)는 시소러스(102)를 이용하여 말뭉치(101)에서 형제 관계에 해당하는 단어들을 상위어로 치환한 다음 비종단 기호를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환한다.
그 다음, CFG 변환부(110)는 변환 규칙 DB(103)에 저장된 변환 규칙을 이용하여 상기 말뭉치(101)에서 날짜/시간 표현 또는 그 조합에 해당하는 단어들을 검색하여 검색된 날짜/시간 표현 또는 그 조합에 해당하는 단어를 변환 규칙에 따라 변환하고 비종단 기호를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환한다.
그 다음, CFG 변환부(110)는 상기 말뭉치(101) 내에 예를 들어, '에', '에서', '까지' 등과 같은 종단 기호에 해당하는 단어들이 존재하는 경우, 해당 단어에 비종단 기호를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환한다.
이와 같이 상기 CFG 변환부(110)를 통해 말뭉치(101)가 CFG 형태의 음성 인식 문법 패턴으로 변환되면, CFG 확장부(120)는 다양한 어순 및 표현이 포함될 수 있도록 상기 생성된 CFG 형태의 음성 인식 문법 패턴을 확장하는데, 이에 대하여 간략하게 설명하면 다음과 같다.
우선, 상기 CFG 확장부(120)는 상기 CFG 형태의 음성 인식 문법 패턴을 화행 및 세부 의도에 따라 같은 의미를 갖는 것끼리 그룹화한 다음, 각 의미 그룹별로 자연스러운 대화체에서 빈번하게 사용되는 단어(예를 들어 '거', '좀' 등)를 추가하여 CFG 형태의 음성 인식 문법 패턴을 확장한다.
그 다음, 상기 CFG 확장부(120)는 비종단 기호로 표현된 단어 클래스에 종단 기호로 표현되는 단어 멤버들을 추가하여 CFG 형태의 음성 인식 문법 패턴을 확장하는데, 먼저 시소러스(102)를 이용하여 하위어 단어들을 추가하고, 영역 정보 DB(104)를 이용하여 해당 음성 인식 영역에서 사용되는 단어를 추가하며, 용언류 단어에 대해서는 시소러스(102)를 이용하여 동의어를 추가한 후 상기 용언류 단어와 그 동의어에 대하여 어미가 변환된 단어 또는 보조 용언이 변환된 단어를 추가함으로써, CFG 형태의 음성 인식 문법 패턴을 확장시킨다.
상기 음성 인식 문법 패턴 확장 방법에 대하여는 상기 도 3과 관련된 설명에서 자세히 설명하였으므로 이에 대한 자세한 설명은 생략한다.
이와 같이 상기 CFG 확장부(120)를 통해 확장 가능한 CFG 형태의 음성 인식 문법(130)이 생성되면, 상기 CFG 형태의 음성 인식 문법(130)의 단어 기술 부분은 발음열 변환 과정을 통해 음성 인식 사전(140)으로 구현되며, 이에 따라 음성 인식 시스템에서는 상기 CFG 형태의 음성 인식 문법(130)과 상기 음성 인식 사전(140)을 이용하여 음성 인식을 수행하는데, 이에 대하여 더 자세히 설명하면 다음과 같다.
도 4에 도시된 바와 같이, 음성 인식 시스템은 외부로부터 음성 신호가 입력되면, 특징추출부(150)를 통해 입력된 음성 신호의 특징벡터를 추출하며, 음성인식부(170)는 추출된 특징벡터를 기반으로 음향모델(160), 상기 확장된 CFG 형태의 음성 인식 문법(130) 및 상기 음성 인식 사전(140)을 이용하여 음성 인식을 수행하며, 특히 상기 확장 가능한 CFG 형태의 음성 인식 문법(130)과 음성 인식 사전(140)은 다양한 어순 및 표현을 포함할 수 있도록 확장되어 있으므로, 인식하고자 하는 특정 영역의 말뭉치가 언어 모델을 구축하기에는 부족한 소규모인 경우에도 높은 음성 인식률을 갖게 된다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
상기한 바와 같이, 본 발명에 따르면, 말뭉치가 소규모인 경우에도 CFG 형태로 음성 인식 문법을 기술하고 이를 확장함으로써 특정 영역 대상의 연속 음성 인식이 가능하게 되며, 이에 따라 음성 인식의 정확도 및 효율성을 높일 수 있는 효과가 있다.
또한, 본 발명에 따르면, 종래의 CFG 또는 FSN을 이용하는 음성 인식 시스템 에 비하여 훨씬 넓은 음성 인식 범위를 갖게 될 뿐만 아니라, 음성 인식 문법 패턴의 확장이 용이하므로 특정 영역의 연속 음성 인식 시스템을 손쉽게 개발할 수 있는 효과가 있다.

Claims (9)

  1. (a) 시소러스 또는 변환 규칙을 이용하여 말뭉치를 CFG(Context-Free Grammar) 형태의 음성 인식 문법 패턴으로 변환하는 단계;
    (b) 상기 CFG 형태의 음성 인식 문법 패턴에, 대화체에서 사용되는 단어, 시소러스에 포함된 하위어 단어, 해당 음성 인식 영역에서 사용되는 단어, 용언류 단어에 대한 동의어 중 적어도 어느 하나를 추가하여 상기 CFG 형태의 음성 인식 문법 패턴을 확장하는 단계; 및
    (c) 상기 확장된 CFG 형태의 음성 인식 문법 패턴에서 의미상 불가능한 표현을 제거하는 단계를 포함하며,
    상기 (a) 단계는,
    상기 말뭉치에서 형제 관계에 해당하는 단어가 상기 시소러스에 존재하는 경우 해당 단어를 상위어로 치환하고 비종단 기호를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환하는 단계;
    상기 말뭉치에서 날짜/시간 표현 또는 그 조합에 해당하는 단어가 존재하는 경우 해당 단어를 상기 변환 규칙에 따라 변환하고 비종단 기호를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환하는 단계; 및
    상기 말뭉치 내에 종단 기호에 해당하는 단어가 존재하는 경우 해당 단어에 비종단 기호를 할당하여 CFG 형태의 음성 인식 문법 패턴으로 변환하는 단계를 더 포함하는 것을 특징으로 하는 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 방법.
  2. 삭제
  3. 제 1항에 있어서, 상기 (b) 단계는,
    상기 CFG 형태의 음성 인식 문법 패턴을 의미별로 그룹화하는 단계; 및
    각 의미 그룹별로 상기 CFG 형태의 음성 인식 문법 패턴에 상기 대화체에서 사용되는 단어를 추가하는 단계를 더 포함하는 것을 특징으로 하는 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 방법.
  4. 제 1항에 있어서, 상기 (b) 단계는,
    상기 CFG 형태의 음성 인식 문법 패턴에 포함된 단어의 하위어 단어가 상기 시소러스에 존재하는 경우,
    상기 시소러스에 포함된 하위어 단어를 상기 CFG 형태의 음성 인식 문법 패턴에 추가하는 단계를 더 포함하는 것을 특징으로 하는 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 방법.
  5. 제 1항에 있어서, 상기 (b) 단계는,
    영역 정보 DB에 해당 음성 인식 영역에서 사용되는 단어가 존재하는 경우,
    상기 CFG 형태의 음성 인식 문법 패턴에 상기 해당 음성 인식 영역에서 사용 되는 단어를 추가하는 단계를 더 포함하는 것을 특징으로 하는 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 방법.
  6. 제 1항에 있어서, 상기 (b) 단계는,
    상기 CFG 형태의 음성 인식 문법 패턴에 용언류 단어가 포함되어 있는 경우,
    상기 용언류 단어를 원형으로 변환하는 단계;
    상기 시소러스를 이용하여 상기 원형으로 변환된 용언류 단어에 대한 동의어를 상기 CFG 형태의 음성 인식 문법 패턴에 추가하는 단계;
    상기 원형으로 변환된 용언류 단어와 그 동의어를 원래의 형태로 복원하는 단계; 및
    상기 용언류 단어와 그 동의어에 대하여 어미가 변환된 단어 또는 보조 용언이 변환된 단어를 상기 CFG 형태의 음성 인식 문법 패턴에 추가하는 단계를 더 포함하는 것을 특징으로 하는 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 방법.
  7. 시소러스 또는 변환 규칙을 이용하여 말뭉치를 CFG 형태의 음성 인식 문법 패턴으로 변환하는 CFG 변환부; 및
    상기 CFG 형태의 음성 인식 문법 패턴에, 대화체에서 사용되는 단어, 시소러스에 포함된 하위어 단어, 해당 음성 인식 영역에서 사용되는 단어, 용언류 단어에 대한 동의어 중 적어도 어느 하나를 추가하여 상기 CFG 형태의 음성 인식 문법 패 턴을 확장하는 CFG 확장부를 포함하는 것을 특징으로 하는 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 장치.
  8. 제 7항에 있어서, 상기 CFG 확장부는,
    상기 확장된 CFG 형태의 음성 인식 문법 패턴에서 의미상 불가능한 표현을 제거하는 것을 특징으로 하는 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 장치.
  9. 제 7항에 있어서, 상기 CFG 확장부는,
    상기 확장된 CFG 형태의 음성 인식 문법 패턴을 발음열 변환 과정을 통해 음성 인식 사전으로 구현하는 것을 특징으로 하는 말뭉치 기반의 확장 가능한 CFG 형태의 음성 인식 문법 생성 장치.
KR1020060094231A 2006-09-27 2006-09-27 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치 KR100822670B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060094231A KR100822670B1 (ko) 2006-09-27 2006-09-27 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060094231A KR100822670B1 (ko) 2006-09-27 2006-09-27 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20080028659A KR20080028659A (ko) 2008-04-01
KR100822670B1 true KR100822670B1 (ko) 2008-04-17

Family

ID=39531555

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060094231A KR100822670B1 (ko) 2006-09-27 2006-09-27 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100822670B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101149521B1 (ko) 2008-12-10 2012-05-25 한국전자통신연구원 도메인 온톨로지를 이용한 음성 인식 방법 및 그 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004271764A (ja) * 2003-03-06 2004-09-30 Nagoya Industrial Science Research Inst 有限状態変換器作成装置、プログラム、記録媒体、作成方法、及び漸進的構文解析装置
KR20050101695A (ko) * 2004-04-19 2005-10-25 대한민국(전남대학교총장) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
US20060184354A1 (en) 2000-06-01 2006-08-17 Microsoft Corporation Creating a language model for a language processing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184354A1 (en) 2000-06-01 2006-08-17 Microsoft Corporation Creating a language model for a language processing system
JP2004271764A (ja) * 2003-03-06 2004-09-30 Nagoya Industrial Science Research Inst 有限状態変換器作成装置、プログラム、記録媒体、作成方法、及び漸進的構文解析装置
KR20050101695A (ko) * 2004-04-19 2005-10-25 대한민국(전남대학교총장) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
10-2005-101695

Also Published As

Publication number Publication date
KR20080028659A (ko) 2008-04-01

Similar Documents

Publication Publication Date Title
US7860719B2 (en) Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers
Kwon et al. Korean large vocabulary continuous speech recognition with morpheme-based recognition units
Jelinek et al. Design of a linguistic statistical decoder for the recognition of continuous speech
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US7974844B2 (en) Apparatus, method and computer program product for recognizing speech
CN107705787A (zh) 一种语音识别方法及装置
Sak et al. Morphology-based and sub-word language modeling for Turkish speech recognition
US20040172247A1 (en) Continuous speech recognition method and system using inter-word phonetic information
US8255220B2 (en) Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database
Păiş et al. Capitalization and punctuation restoration: a survey
Rotovnik et al. Large vocabulary continuous speech recognition of an inflected language using stems and endings
KR100726875B1 (ko) 구두 대화에서의 전형적인 실수에 대한 보완적인 언어모델을 갖는 음성 인식 디바이스
US6980954B1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
Juhár et al. Recent progress in development of language model for Slovak large vocabulary continuous speech recognition
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
KR100822670B1 (ko) 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치
JP3009636B2 (ja) 音声言語解析装置
JPH10247194A (ja) 自動通訳装置
KR20050101694A (ko) 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법
US6772116B2 (en) Method of decoding telegraphic speech
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
Donaj et al. Context-dependent factored language models
WO2002027535A1 (en) Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
Smaïli et al. An hybrid language model for a continuous dictation prototype.
KR101709188B1 (ko) 비문형적 어휘 모델 기반 음성 인식 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110411

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee