KR20040055417A - 대화체 연속음성인식 장치 및 방법 - Google Patents

대화체 연속음성인식 장치 및 방법 Download PDF

Info

Publication number
KR20040055417A
KR20040055417A KR1020020082084A KR20020082084A KR20040055417A KR 20040055417 A KR20040055417 A KR 20040055417A KR 1020020082084 A KR1020020082084 A KR 1020020082084A KR 20020082084 A KR20020082084 A KR 20020082084A KR 20040055417 A KR20040055417 A KR 20040055417A
Authority
KR
South Korea
Prior art keywords
language model
language
xyz
local
speech recognition
Prior art date
Application number
KR1020020082084A
Other languages
English (en)
Inventor
정의정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020020082084A priority Critical patent/KR20040055417A/ko
Publication of KR20040055417A publication Critical patent/KR20040055417A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Algebra (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

대화체 연속음성인식 장치 및 방법이 개시된다. 학습에 의해 구축된 음향모델 데이터베이스 및 발음사전 데이터베이스를 포함하는 본 발명에 따른 대화체 음성인식 장치는 입력된 음성으로부터 인식에 유용한 정보만을 추출하여 특징벡터로 변환하는 특징 추출부, 인식하고자 하는 영역의 대화를 특정 영역별로 세분화하여 다수의 로컬 언어모델 데이터베이스들로 구축하고, 세분화된 특정 영역에 포함되지 않는 일반 대화를 광범위 언어모델 데이터베이스로 각각 구축하고, 특징벡터에 따라 다수의 로컬 언어모델 데이터베이스들에서 추출된 언어모델과 광범위한 언어모델 데이터베이스에서 추출된 언어모델을 인터폴레이션하는 다중영역 언어모델링부, 음향모델 데이터베이스, 발음사전 데이터베이스 및 다중영역 언어모델링부를 참조하여 특징벡터와 유사할 확률이 가장 높은 단어열을 탐색하는 탐색부 및 탐색부에서 탐색된 단어열을 인식된 텍스트로서 출력하는 인식 결과 출력부를 포함하는 것을 특징으로 하며, 대화체 연속음성인식시 영역에 특화된 언어모델을 일반적인 언어모델과 인터폴레이션함으로써 언어인식 확률을 높일 수 있으며, 특정 영역에서의 말뭉치 부족으로 인한 언어모델 성능 저하를 최소화할 수 있다.

Description

대화체 연속음성인식 장치 및 방법{Apparatus and method for spontaneous continuous speech recognition}
본 발명은 대어휘 연속 음성 인식(Large Vocabulary Continuous Speech Recognition; LVCSR)에 관한 것으로, 특히, 대화체 연속음성인식 장치 및 그 방법에 관한 것이다.
도 1은 종래의 연속음성인식 시스템을 개략적으로 나타내는 블록도이다.
도 1을 참조하여, 특징추출부(101)는 입력된 음성으로부터 인식에 유용한 정보만을 추출하여 특징벡터로 변환한다.
탐색부(102)는 특징추출부(101)에서 출력되는 특징벡터로부터 학습과정에서 미리 구해진 음향모델 데이터베이스(104)와 발음사전 데이터베이스(105), 언어모델 데이터베이스(106)를 이용하여 확률이 가장 높은 단어열을 비터비 알고리듬을 이용하여 찾는다. 여기서 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(102)는 이러한 트리를 탐색한다.
마지막으로, 인식 결과 출력부(103)는 탐색부(102)의 출력을 이용하여 인식된 텍스트를 출력한다.
도 1에 도시된 시스템과 같이, 다양한 영역의 대화 인식을 목적으로 하는 대화체 연속음성인식 시스템에서의 통계적 언어모델은 훈련 코퍼스가 충분히 확보된 경우에 아주 신뢰성이 높고 강건한 모델이 구축될 수 있다. 여기서, 언어모델이란 음성 인식 시스템의 문법이라 할 수 있다. 연속음성인식 시스템이라고 해서 임의의 아무 문장을 다 인식할 수 있는 것은 아니고 어떤 정해진 문법에 맞는 문장만을 인식하게 된다. 언어모델을 음성인식 시스템의 탐색 과정에 사용함으로써 음성인식 시스템의 탐색 공간을 감소시킬 수 있으며, 문법에 맞는 문장에 대한 확률을 높여주는 역할을 하기 때문에 인식률 향상에도 기여하게 된다.
일반적으로, 여러 언어모델링 기법 가운데 통계적 언어모델링이 대어휘 연속 음성인식시 가장 성능이 뛰어나다. 통계적 언어모델은 단어간의 연결 관계가 확률로서 표현되는 문법이다. 통계적 언어모델에 많이 사용되는 n-gram은 과거의 n-1개의 단어로부터 다음에 나타날 단어의 확률을 정의하는 문법으로서, 흔히 사용되는n-gram은 바이그램(n=2), 트라이그램(n=3)이다. 통계적 언어모델의 장점은 모든 것을 확률로서 정의하기 때문에 사람의 지식이 별로 필요하지 않고 대량의 말뭉치(텍스트 데이터)만 있으면 쉽게 구현할 수 있다는 장점이 있다. 그러나 말뭉치가 적을 경우에는 믿을만한 수치의 확률값을 구하지 못하고, 오히려 성능 악화를 유발시킬 경우가 자주 발생하므로 스무딩(smoothing)을 적절히 할 필요가 있다.
또한, 영역이 바뀔 경우에 기존의 언어모델은 제대로 된 성능을 발휘하지 못하기 때문에 영역이 바뀔 경우 바뀌어진 영역에 적합한 언어모델이 새로이 구축되어 사용되어야 할 필요가 있다. 예컨대, 방송뉴스영역과 여행상담영역에서 사용하는 말은 상당히 다른 규칙과 특성을 가진다. 즉, 방송뉴스의 인식을 목적으로 대량의 방송뉴스 전사문으로부터 구축된 낭독체 방송뉴스 인식용 언어모델을 대화체 여행상담 대화 음성을 인식하고자 할 때 사용한다면 전혀 도움이 되지 않고 오히려 성능을 떨어뜨릴 수도 있다. 이와 같이 어떤 특정 영역에 한정되어 구축된 언어모델은 그 영역이 바뀌게 될 경우에 성능이 떨어지는 단점이 있다.
결국, 통계적 언어 모델의 확률값들이 믿을만한 수치를 지니기 위해서는 엄청난 양의 텍스트의 말뭉치가 필요로 하며 이를 수집하는 것은 굉장한 노력과 시간 돈이 드는 일이다. 특히, 여행 상담이나 일상 생활속에서 발생하는 대화체 유형의 문장을 충분히 확보하는 일은 결코 쉬운 일이 아니며, 따라서 불충분한 텍스트 데이터로부터 강건한(robust) 언어모델을 구축하기 위한 새로운 기법들이 요구된다.
본 발명이 이루고자 하는 제1기술적 과제는 각 영역을 포괄할 수 있는 광범위한 언어모델과 각 영역에 특화 된 언어모델을 보간(interpolation)하여 사용함으로써 언어 인식 능력을 향상시킬 수 있는 대화체 음성인식 장치 및 그 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 제2기술적 과제는 상기 대화체 음성인식 방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록된 기록매체를 제공하는 데 있다.
본 발명이 이루고자 하는 제3기술적 과제는 상기 대화체 음성인식 장치에서 수행되는 다중영역 언어모델링 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 제4기술적 과제는 상기 다중영역 언어모델링 방법을 컴퓨터에서 실행 가능한 프로그램 코드를 제공하는 데 있다.
도 1은 종래의 연속음성인식 시스템을 개략적으로 나타내는 블록도이다.
도 2는 본 발명에 따른 대화체 연속음성인식 장치의 일실시예를 개략적으로 나타내는 블록도이다.
도 3은 도 2에 도시된 장치에서 수행되는 대화체 연속음성인식 방법을 나타내는 흐름도이다.
도 4는 도 2에 되시된 다중영역 언어모델링부(220)에서 수행되는 언어모델링 방법의 일실시예를 나타내는 흐름도이다.
상기 제1과제를 이루기 위해, 학습에 의해 구축된 음향모델 데이터베이스 및 발음사전 데이터베이스를 포함하는 본 발명에 따른 대화체 음성인식 장치는 입력된 음성으로부터 인식에 유용한 정보만을 추출하여 특징벡터로 변환하는 특징 추출부, 인식하고자 하는 영역의 대화를 특정 영역별로 세분화하여 다수의 로컬 언어모델 데이터베이스들로 구축하고, 세분화된 특정 영역에 포함되지 않는 일반 대화를 광범위 언어모델 데이터베이스로 각각 구축하고, 특징벡터에 따라 다수의 로컬 언어모델 데이터베이스들에서 추출된 언어모델과 광범위한 언어모델 데이터베이스에서 추출된 언어모델을 인터폴레이션하는 다중영역 언어모델링부, 음향모델 데이터베이스, 발음사전 데이터베이스 및 다중영역 언어모델링부를 참조하여 특징벡터와 유사할 확률이 가장 높은 단어열을 탐색하는 탐색부 및 탐색부에서 탐색된 단어열을 인식된 텍스트로서 출력하는 인식 결과 출력부를 포함하는 것이 바람직하다.
상기 1과제를 이루기 위해, 입력된 음성으로부터 음성인식에 유용한 정보만을 추출하여 특징벡터로 변환하는 (a)단계, 학습과정에서 미리 구축된 음향모델 데이터베이스 및 발음사전 데이터베이스를 참조 및 다중영역 언어모델링을 통해 특징 벡터와 유사할 확률이 가장 높은 단어열을 탐색하는 (b)단계 및 (b)단계에서 탐색된 단어열을 인식된 텍스트로서 생성하는 (c)단계를 포함하는 것이 바람직하다.
상기 제3과제를 이루기 위해, 언어모델링을 하고자하는 영역을 세분화하여 세분화된 다수의 로컬 언어모델 데이터베이스들을 구축하는 (a)단계, (a)단계에서 세부적 언어영역으로 구분되지 않은 영역의 대화들을 수집하여 광범위 언어모델 데이터베이스로서 구축하는 (b)단계, 입력된 음성으로부터 추출된 특징 벡터와 유사할 확률이 높은 언어모델을 다수의 로컬 언어모델 데이터베이스들에서 추출하는 (c)단계, 특징 벡터와 유사할 확률이 높은 언어모델을 광범위 언어모델 데이터베이스로부터 추출하는 (d)단계 및 (c) 및 (d)단계에서 추출된 언어모델 각각에 소정의 가중치를 부여하여 인터폴레이션하는 (e)단계를 포함하는 것이 바람직하다.
도 2는 본 발명에 따른 대화체 연속음성인식 장치의 일실시예를 개략적으로 나타내는 블록도이다. 도 2를 참조하여, 본 발명에 따른 대화체 연속음성인식 장치는 특징 추출부(201), 탐색부(202), 인식결과 출력부(203), 음향모델 데이터베이스(204), 발음사전 데이터베이스(205) 및 다중영역 언어모델링부(220)를 포함하여 구성된다.
도 2를 참조하여, 특징 추출부(201)는 입력된 음성으로부터 인식에 유용한정보만을 추출하여 특징벡터로 변환한다.
다중영역 언어모델링부(220)는 언어모델링을 하고자하는 영역을 세분화하고, 세분화된 다수의 로컬 언어모델 데이터베이스들(207~209)을 구축하고, 세부적 언어영역으로 구분되지 않은 일반 언어영역에 관련된 대화들을 수집하여 광범위 언어모델 데이터베이스(206)로서 각각 구축한다. 또한, 다중영역 언어모델링부(220)는 로컬 언어모델 데이터베이스들(207~209)에서 추출된 언어모델과 광범위한 언어모델 데이터베이스에서 추출된 언어모델 각각에 소정의 가중치를 부여하여 인터폴레이션한다. 구체적으로, 다중영역 언어모델링부(220)는 인터폴레이터(210), 광범위 언어모델 데이터베이스(206) 및 다수의 로컬 언어모델 데이터베이스들(207~209)을 포함하여 구성된다.
다수의 로컬 언어모델 데이터베이스들(207~209)은 언어모델링을 하고자하는 언어영역을 세분화하고, 세분화된 영역별로 언어모델링을 한다. 예컨대, 언어모델링을 하고자 하는 언어영역이 여행영역이라면, 장소별로 즉, 공항, 호텔, 역, 길, 레스토랑 등으로 세분화할 수 있다. 이처럼, 각 세부 영역별 대화들을 수집하여 그 세부 영역별로 로컬 언어모델 데이터베이스는 구축된다.
광범위 언어모델 데이터베이스(206)는 세부적으로 나뉘어진 각 영역에 해당되지 않는 일반 대화들을 수집하여 구축되는 데이터베이스이다. 예컨대, 언어모델링을 하고자 하는 언어영역이 여행영역이라면, 공항, 호텔, 역, 길, 레스토랑 등으로 세분화되지 않은 언어영역에서 발생될 수 있는 여행중의 대화를 광범위한 언어모델로 한다.
인터폴레이터(210)는 다수의 로컬 언어모델 데이터베이스들(207~209)로부터 추출된 언어모델 및 광범위 언어모델 데이터베이스(206)로부터 추출된 언어모델을 인터폴레이션하되, 다수의 로컬 언어모델 데이터베이스들(207~209)로부터 추출된 언어모델에 더 큰 가중치를 주어 광범위 언어모델보다 로컬 언어모델을 강조한다. 구체적으로, 영역별 n-gram의 카운트를 일정 비율로 높여줌으로써 디스카운팅 직전에 다음 수학식 1과 같은 재분배(redistribution)를 수행한다.
C(xyz) = r_G C_G (xyz)+r_L C_L (xyz)
수학식 1을 구체적으로 설명하면, xyz라는 어떤 임의의 어휘 배열이 있을때 그 어휘 배열 xyz가 전체 말뭉치 가운데 총 몇 번 나왔는지를 나타내는 수치가 바로 C(xyz)이다.
즉, 예를 들어, "내일 아침 비행기로 LA에 가는데요."라는 문장에서 x="내일", y="아침", z="비행기로" 가 하나의 어휘 배열이라고 볼 수 있으며 전체 말뭉치 가운데 xyz="내일 아침 비행기로"가 총 몇 번 나오는지 나타낸 수가 바로 C(xyz)이며, 총 10회 나왔다면 그 C(xyz)=10 이 된다. 또한, CG(xyz)는 로컬 영역들(호텔, 공항, 레스토랑 등등..)을 포괄할수있는 광범위한 영역에서 xyz라는 어휘 배열이 나타내는 횟수를 나타내고, CL(xyz)은 특정 로컬 영역(호텔, 공항, 레스토랑 등등..)에 한정해서 xyz라는 어휘 배열이 나타내는 횟수를 나타낸다. 또한, rG는 로컬 영역들(호텔, 공항, 레스토랑 등등..)을 포괄할 수 있는 광범위한 영역을강조하기 위한 가중치(weight) 변수를 나타내고, rL은 특정 로컬영역을 강조하기 위한 가중치 변수를 나타내며, rL에 대해 가중치를 크게 줌으로서 그 로컬 영역에서 출현하는 대화나 문장들을 강조해줄 수 있다.
예를 들어, 여행분야 언어모델 구축시 공항분야의 특화된 언어모델을 구축하고자 한다면 광범위한 영역 CG(xyz), 공항 영역 CL(xyz)에 rG=1 및 rL=5 라는 식으로 가중치를 부여함으로서, 공항분야에서 발생하는 어휘 배열을 강조한다. 따라서, 그 어휘 배열이 말뭉치에서 실제로 발생하는 총 횟수보다 더 많이 카운트 해줌으로써 그 어휘 열의 확률값을 더욱 높게 부각시켜줄 수 있다.
이는 여러 영역을 포괄할 수 있는 광범위한 해당 분야의 일반적인 대화들 가운데 특화된 각 영역에서 자주 발생하거나, 발생이 유력한 대화 패턴, 어휘들에 대해서 그들의 n-gram에 가중치를 부여해주는 것이다. 이러한 다중영역 언어모델 구현을 통하여 영역별 데이터 부족으로 인한 통계적 언어모델의 성능 저하에 대처할 수 있다. 예컨대, 적용하고자 하는 언어영역이 여행영역인 경우, 공항에서 적용될 언어모델을 위해, 공항분야의 세부 언어모델을 광범위한 여행 언어모델과 인터폴레이션할 때 공항분야의 세부 언어모델의 확률값에 광범위한 여행 언어모델보다 더 가중치를 두어 공항분야의 대화를 부각시킬 수 있다. 즉, 공항에서 주로 사용되는 대화가 다른 일반 여행분야의 대화보다 나올 확률을 높임으로써, 이후, 탐색부(202)에서 공항분야의 대화가 선택될 확률을 높게 한다.
계속해서, 탐색부(202)는 특징추출부(201)에서 출력되는 특징벡터로부터 학습과정에서 미리 구해진 음향모델 데이터베이스(204) 및 발음사전 데이터베이스(205)와, 다중영역 언어모델링부(220)에서 인터폴레이션된 결과를 참조하여 확률이 가장 높은 단어열을 비터비 알고리듬을 이용하여 찾는다. 여기서 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(202)는 이러한 트리를 탐색한다.
인식 결과 출력부(203)는 탐색부(102)의 출력을 이용하여 인식된 텍스트를 출력한다.
도 3은 도 2에 도시된 장치에서 수행되는 대화체 연속음성인식 방법을 나타내는 흐름도이다.
도 2 및 도 3을 참조하여, 음성이 입력되면 특징 추출부(201)에서는 입력된 음성으로부터 인식에 유용한 정보만을 추출하여 특징벡터로 변환한다(제200단계).
제300단계 후에, 탐색부(202)는 학습과정에서 미리 구축된 음향모델 데이터베이스(204), 발음사전 데이터베이스(205) 및 다중영역 언어모델링부(220)를 참조하여 특징 추출부(201)에서 추출된 특징 벡터와 유사할 확률이 가장 높은 단어열을 찾는다(제310단계). 이 때, 탐색부(202)는 비터비 알고리듬을 이용하여 확률이 가장 높은 단어열을 찾을 수 있다.
제310단계 후에, 인식 결과 출력부(203)는 탐색부(202)로부터 단어열이 제공되면 이를 인식된 텍스트로서 출력한다(제320단계).
도 4는 도 2에 되시된 다중영역 언어모델링부(220)에서 수행되는 언어모델링 방법의 일실시예를 나타내는 흐름도이다.
도 2 및 도 4를 참조하여, 먼저, 언어모델링을 하고자하는 영역을 세분화하여 세분화된 다수의 로컬 언어모델 데이터베이스들(207~209)을 구축한다(제400단계). 전술된 바와 같이, 적용하고자 하는 언어영역이 여행영역이라면, 여행에 관련된 대화가 이루어질 수 있는 장소별로 즉, 공항, 호텔, 역, 길, 레스토랑 등으로 언어영역을 세분화하고, 이들 세분화된 언어영역 각각에서 이루어지는 대화를 수집하여 로컬 언어모델 데이터베이스들을 구축할 수 있다. 즉, 도 2에서 제1로컬 언어모델 데이터베이스(207)는 공항에서 이루어지는 여행관련 대화에 대한 언어모델 데이터베이스로, 제2로컬 언어모델 데이터베이스(208)는 호텔에서 이루어지는 여행관련 대화에 대한 언어모델 데이터베이스로, 제n로컬 언어모델 데이터베이스(209)는 레스토랑에서 이루어지는 여행관련 대화에 대한 언어모델 데이터베이스로 각각 구축할 수 있다.
제400단계 후에, 제400단계에서 세부적 언어영역으로 구분되지 않은 일반 언어영역에 관련된 대화들을 수집하여 광범위 언어모델 데이터베이스(206)로서 구축한다(제410단계). 예를 들어, 적용하고자 하는 언어영역이 여행영역이라면, 제400단계에서 공항, 호텔, 역, 길, 레스토랑 등으로 세분화되지 않은 언어영역에서 발생될 수 있는 여행중의 대화를 수집하여 광범위 언어모델 데이터베이스로 구축한다.
제410단계 후에, 입력된 음성으로부터 추출된 특징 벡터와 유사할 확률이 높은 언어모델을 다수의 로컬 언어모델 데이터베이스들(207~209) 및 광범위 언어모델 데이터베이스(206)로부터 각각 추출하고, 각각에서 추출된 언어모델에 소정의 가중치를 부여하여 인터폴레이션한다(제420단계). 이 때, 인터폴레이터(210)는 로컬 언어모델 데이터베이스들(207~209)에서 추출된 언어모델에 광범위 언어모델 데이터베이스(206)에서 추출된 언어모델보다 높은 가중치를 부여하여 로컬 언어모델 데이터베이스(207~209)에서 추출된 언어모델을 강조한다. 예를 들어, 적용하고자 하는 언어영역이 여행영역인 경우, 이러한 인터폴레이션 과정을 통해, 일반적인 여행 관련 대화보다 공항, 호텔, 레스토랑 등 특정 장소에서 이루어지는 대화를 부각시킬 수 있다. 따라서, 여러 영역을 포괄할 수 있는 광범위한 해당 분야의 일반적인 대화들 가운데 특화된 각 영역에서 자주 발생하거나, 발생이 유력한 대화 패턴, 어휘들에 대해서 가중치를 부여해줌으로써, 영역별 데이터 부족으로 인한 통계적 언어모델의 성능 저하를 최소화할 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
상술한 바와 같이, 본 발명에 의한 대화체 연속음성인식 장치 및 방법에 따르면, 대화체 연속음성인식시 영역에 특화된 언어모델을 일반적인 언어모델과 인터폴레이션함으로써 언어인식 확률을 높일 수 있으며, 특정 영역에서의 말뭉치 부족으로 인한 언어모델 성능 저하를 최소화할 수 있다.

Claims (14)

  1. 학습에 의해 구축된 음향모델 데이터베이스 및 발음사전 데이터베이스를 포함하는 대화체 연속음성인식 장치에 있어서,
    입력된 음성으로부터 인식에 유용한 정보만을 추출하여 특징벡터로 변환하는 특징 추출부;
    인식하고자 하는 영역의 대화를 특정 영역별로 세분화하여 다수의 로컬 언어모델 데이터베이스들로 구축하고, 상기 세분화된 특정 영역에 포함되지 않는 일반 대화를 광범위 언어모델 데이터베이스로 각각 구축하고, 상기 특징벡터에 따라 상기 다수의 로컬 언어모델 데이터베이스들에서 추출된 언어모델과 광범위한 언어모델 데이터베이스에서 추출된 언어모델을 인터폴레이션하는 다중영역 언어모델링부;
    상기 음향모델 데이터베이스, 상기 발음사전 데이터베이스 및 상기 다중영역 언어모델링부를 참조하여 상기 특징벡터와 유사할 확률이 가장 높은 단어열을 탐색하는 탐색부; 및
    상기 탐색부에서 탐색된 단어열을 인식된 텍스트로서 출력하는 인식 결과 출력부를 포함하는 것을 특징으로 하는 대화체 연속음성인식 장치.
  2. 제1항에 있어서, 상기 다중영역 언어모델링부는
    상기 로컬 언어모델 데이터베이스들에서 추출된 언어모델에 광범위 언어모델 데이터베이스에서 추출된 언어모델보다 높은 가중치를 부여하여 인터폴레이션하는 것을 특징으로 하는 대화체 연속음성인식 장치.
  3. 제2항에 있어서, 상기 인터폴레이션은
    영역별 n-gram의 카운트를 일정 비율로 높여주어, 디스카운팅 직전에 다음 수학식에 따라 재분배하는 것을 특징으로 하는 대화체 연속음성인식 장치.
    C(xyz) = rGCG(xyz)+rLCL(xyz)
    여기서, x,y,z는 임의의 어휘 배열, C(xyz)는 전체 말뭉치에서 상기 임의의 어휘 배열 xyz의 등장 횟수, CG(xyz)는 로컬 영역들을 포괄하는 광범위한 영역에서 상기 임의의 어휘 배열 xyz의 등장 횟수, CL(xyz)은 특정 로컬 영역에서 상기 임의의 어휘 배열 xyz의 등장 횟수, rG는 광범위한 영역을 강조하기 위한 가중치 변수 및 rL은 특정 로컬 영역을 강조하기 위한 가중치 변수를 각각 나타낸다.
  4. 제1항에 있어서, 상기 탐색부는
    비터비 알고리듬을 이용하여 단어열을 탐색하는 것을 특징으로 하는 대화체 연속음성인식 장치.
  5. (a)입력된 음성으로부터 음성인식에 유용한 정보만을 추출하여 특징벡터로 변환하는 단계;
    (b)학습과정에서 미리 구축된 음향모델 데이터베이스 및 발음사전 데이터베이스와 다중영역 언어모델링을 이용하여 상기 특징 벡터와 유사할 확률이 가장 높은 단어열을 탐색하는 단계; 및
    (c)상기 (b)단계에서 탐색된 단어열을 인식된 텍스트로서 생성하는 단계를 포함하는 것을 특징으로 하는 대화체 연속음성인식 방법.
  6. 제5항에 있어서, 상기 다중영역 언어모델링은
    인식하고자 하는 영역의 대화를 특정 영역별로 세분화하여 구축된 다수의 로컬 언어모델 데이터베이스들과 상기 세분화된 특정 영역에 포함되지 않는 일반 대화를 수집한 광범위 언어모델 데이터베이스를 참조하여, 상기 특징벡터에 따라 상기 다수의 로컬 언어모델 데이터베이스들에서 추출된 언어모델과 광범위한 언어모델 데이터베이스에서 추출된 언어모델을 인터폴레이션하는 것을 특징으로 하는 대화체 연속음성인식 방법.
  7. 제6항에 있어서, 상기 인터폴레이션은
    상기 로컬 언어모델 데이터베이스들에서 추출된 언어모델에 광범위 언어모델 데이터베이스에서 추출된 언어모델보다 높은 가중치를 부여하는 것을 특징으로 하는 대화체 연속음성인식 방법.
  8. 제6항에 있어서, 상기 인터폴레이션은
    영역별 n-gram의 카운트를 일정 비율로 높여주어, 디스카운팅 직전에 다음 수학식에 따라 재분배하는 것을 특징으로 하는 대화체 연속음성인식 방법.
    C(xyz) = rGCG(xyz)+rLCL(xyz)
    여기서, x,y,z는 임의의 어휘 배열, C(xyz)는 전체 말뭉치에서 상기 임의의 어휘 배열 xyz의 등장 횟수, CG(xyz)는 로컬 영역들을 포괄하는 광범위한 영역에서 상기 임의의 어휘 배열 xyz의 등장 횟수, CL(xyz)은 특정 로컬 영역에서 상기 임의의 어휘 배열 xyz의 등장 횟수, rG는 광범위한 영역을 강조하기 위한 가중치 변수 및 rL은 특정 로컬 영역을 강조하기 위한 가중치 변수를 각각 나타낸다.
  9. 제5항에 있어서, 상기 (b)단계는
    비터비 알고리듬을 이용하여 단어열을 탐색하는 것을 특징으로 하는 대화체 연속음성인식 방법.
  10. 제5항의 대화체 연속음성인식 방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록된 기록 매체.
  11. (a)언어모델링을 하고자하는 영역을 세분화하여 세분화된 다수의 로컬 언어모델 데이터베이스들을 구축하는 단계;
    (b)상기 (a)단계에서 세부적 언어영역으로 구분되지 않은 영역의 대화들을 수집하여 광범위 언어모델 데이터베이스로서 구축하는 단계;
    (c)입력된 음성으로부터 추출된 특징 벡터와 유사할 확률이 높은 언어모델을 상기 다수의 로컬 언어모델 데이터베이스들에서 추출하는 단계;
    (d)상기 특징 벡터와 유사할 확률이 높은 언어모델을 상기 광범위 언어모델 데이터베이스로부터 추출하는 단계; 및
    (e)상기 (c) 및 (d)단계에서 추출된 언어모델 각각에 소정의 가중치를 부여하여 인터폴레이션하는 단계를 포함하는 것을 특징으로 하는 대화체 연속음성인식 장치에서 수행되는 다중영역 언어모델링 방법.
  12. 제11항에 있어서, 상기 (e)단계의 인터폴레이션은
    상기 (d)단계에서 추출된 언어모델보다 상기 (c)단계에서 추출된 언어모델에 높은 가중치를 부여하여 상기 로컬 언어모델 데이터베이스에서 추출된 언어모델을 강조하는 것을 특징으로 하는 대화체 연속음성인식 장치에서 수행되는 다중영역 언어모델링 방법.
  13. 제11항에 있어서, 상기 (e)단계의 인터폴레이션은
    영역별 n-gram의 카운트를 일정 비율로 높여주어, 디스카운팅 직전에 다음 수학식에 따라 재분배하는 것을 특징으로 하는 대화체 연속음성인식 장치에서 수행되는 다중영역 언어모델링 방법.
    C(xyz) = rGCG(xyz)+rLCL(xyz)
    여기서, x,y,z는 임의의 어휘 배열, C(xyz)는 전체 말뭉치에서 상기 임의의 어휘 배열 xyz의 등장 횟수, CG(xyz)는 로컬 영역들을 포괄하는 광범위한 영역에서 상기 임의의 어휘 배열 xyz의 등장 횟수, CL(xyz)은 특정 로컬 영역에서 상기 임의의 어휘 배열 xyz의 등장 횟수, rG는 광범위한 영역을 강조하기 위한 가중치 변수 및 rL은 특정 로컬 영역을 강조하기 위한 가중치 변수를 각각 나타낸다.
  14. 제11항의 다중영역 언어모델링 방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록된 기록 매체.
KR1020020082084A 2002-12-21 2002-12-21 대화체 연속음성인식 장치 및 방법 KR20040055417A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020082084A KR20040055417A (ko) 2002-12-21 2002-12-21 대화체 연속음성인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020082084A KR20040055417A (ko) 2002-12-21 2002-12-21 대화체 연속음성인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20040055417A true KR20040055417A (ko) 2004-06-26

Family

ID=37348092

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020082084A KR20040055417A (ko) 2002-12-21 2002-12-21 대화체 연속음성인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20040055417A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100704508B1 (ko) * 2004-12-14 2007-04-09 한국전자통신연구원 N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
KR100732611B1 (ko) * 2006-04-25 2007-06-28 학교법인 포항공과대학교 음성대화 오류검증을 통한 확인대화 방법 및 장치
KR100772660B1 (ko) * 2006-04-14 2007-11-01 학교법인 포항공과대학교 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법
KR101134455B1 (ko) * 2009-06-25 2012-04-13 한국전자통신연구원 음성 인식 장치 및 그 방법
KR20160059640A (ko) 2014-11-19 2016-05-27 에스케이텔레콤 주식회사 다중 음성인식모듈을 적용한 음성 인식 방법 및 이를 위한 음성인식장치
KR20190085883A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
JP2020042313A (ja) * 2016-01-06 2020-03-19 グーグル エルエルシー 音声認識システム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100704508B1 (ko) * 2004-12-14 2007-04-09 한국전자통신연구원 N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
KR100772660B1 (ko) * 2006-04-14 2007-11-01 학교법인 포항공과대학교 대화 관리 장치 및 그를 위한 대화 예제 기반의 대화모델링기법을 통한 대화 관리 방법
KR100732611B1 (ko) * 2006-04-25 2007-06-28 학교법인 포항공과대학교 음성대화 오류검증을 통한 확인대화 방법 및 장치
KR101134455B1 (ko) * 2009-06-25 2012-04-13 한국전자통신연구원 음성 인식 장치 및 그 방법
KR20160059640A (ko) 2014-11-19 2016-05-27 에스케이텔레콤 주식회사 다중 음성인식모듈을 적용한 음성 인식 방법 및 이를 위한 음성인식장치
JP2020042313A (ja) * 2016-01-06 2020-03-19 グーグル エルエルシー 音声認識システム
KR20190085883A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
KR20200144521A (ko) * 2018-01-11 2020-12-29 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Similar Documents

Publication Publication Date Title
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
JP5541035B2 (ja) 音声検索装置及び音声検索方法
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP3716870B2 (ja) 音声認識装置および音声認識方法
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP3696231B2 (ja) 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
Sainath et al. No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models
CN106803422B (zh) 一种基于长短时记忆网络的语言模型重估方法
EP4018437B1 (en) Optimizing a keyword spotting system
KR100748720B1 (ko) 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
JPH05289692A (ja) ワードを予測する会話認識装置用言語生成装置及び方法
JPH06318096A (ja) 言語モデリング・システム及び言語モデルを形成する方法
CN103021408B (zh) 一种发音稳定段辅助的语音识别优化解码方法及装置
US10872601B1 (en) Natural language processing
CN112349289A (zh) 一种语音识别方法、装置、设备以及存储介质
Bazzi et al. A multi-class approach for modelling out-of-vocabulary words
Moyal et al. Phonetic search methods for large speech databases
KR20040055417A (ko) 대화체 연속음성인식 장치 및 방법
JP2013182260A (ja) 言語モデル作成装置、音声認識装置、およびそのプログラム
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
Moschitti et al. Spoken language understanding with kernels for syntactic/semantic structures
KR20160000218A (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
JP2002091484A (ja) 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
KR100487718B1 (ko) 영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강시스템 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application