KR20070047579A - 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 - Google Patents

주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR20070047579A
KR20070047579A KR1020050104462A KR20050104462A KR20070047579A KR 20070047579 A KR20070047579 A KR 20070047579A KR 1020050104462 A KR1020050104462 A KR 1020050104462A KR 20050104462 A KR20050104462 A KR 20050104462A KR 20070047579 A KR20070047579 A KR 20070047579A
Authority
KR
South Korea
Prior art keywords
subject area
subject
word
language model
speech recognition
Prior art date
Application number
KR1020050104462A
Other languages
English (en)
Other versions
KR100755677B1 (ko
Inventor
이재원
최인정
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050104462A priority Critical patent/KR100755677B1/ko
Priority to US11/589,165 priority patent/US8301450B2/en
Publication of KR20070047579A publication Critical patent/KR20070047579A/ko
Application granted granted Critical
Publication of KR100755677B1 publication Critical patent/KR100755677B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 장치는, 사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 전방향 탐색부; 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 주제 영역 검출부; 및 상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 역방향 디코딩부를 포함한다.
본 발명의 실시예에 따르면, 대화체 문장의 인식률(Accuracy)과 효율성(Efficiency)을 향상시킬 수 있는 효과가 있다.
전방향 탐색, 역방향 디코딩, 훈련 코퍼스, 언어 모델

Description

주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법{APPARATUS AND METHOD FOR DIALOGUE SPEECH RECOGNITION USING TOPIC DETECTION}
도 1은 종래 기술에 따른 일반적인 연속 음성 인식 장치의 구성을 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 장치의 전체 블럭 구성을 나타내는 도면이다.
도 3은 상기 도 2에 나타난 대화체 음성 인식 장치의 전체 블럭 구성 중 주제 영역 검출부의 구성을 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 대화체 음성 인식의 과정에서 전방향 탐색의 결과 생성되는 단어열의 구조를 예시한 도면이다.
도 5는 본 발명의 실시예에 따른 대화체 음성 인식 장치가 주제 영역을 검출하여 음성 인식을 하는 과정을 예시한 도면이다.
도 6은 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 방법의 전체 흐름도를 나타내는 도면이다.
도 7은 상기 도 6에 나타난 대화체 음성 인식 방법의 전체 흐름 중 주제 영역 검출의 흐름을 나타내는 도면이다.
*도면의 주요 부분에 대한 설명*
10: 특징 추출부 20: 탐색부
30: 후처리부 40: 음향 모델 데이터베이스
50: 발음 사전 데이터베이스 60: 언어모델 데이터베이스
110: 특징 추출부 120: 전방향 탐색부
130: 주제영역 검출부 132: 비핵심어 제거 모듈
134: 주제 영역 거리 산출 모듈 136: 최소거리 주제 영역 검출 모듈
140: 역방향 디코딩부 150: 텍스트 정보 관리부
200: 훈련 코퍼스 210: 글로벌 언어 모델 데이터베이스
220: 확률 인자 데이터베이스
230: 특정 주제영역 언어모델 데이터베이스
본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 더욱 상세하게는, 대화체 음성 인식에서 발화자의 대화 주제를 검출함으로써 선택된 주제 기반 언어 모델을 이용하여 대화체 음성 인식의 성능을 향상시키는, 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법에 관한 것이다.
음성 인식(Speech Recognition) 기술이란, 인간의 음성을 컴퓨터가 분석해 이를 인식 또는 이해하는 기술을 말하는데, 발음에 따라 입 모양과 혀의 위치 변화로 특정한 주파수를 갖는 인간의 음성을 이용하여 발성된 음성을 전기 신호로 변환 한 후 음성 신호의 주파수 특성을 추출해 발음을 인식하는 기술이다. 최근에는 이와 같은 음성 인식 기술이 전화 다이얼링, 장난감 제어, 어학 학습 또는 가전 기기 제어 등과 같은 다양한 분야에 응용되고 있다.
일반적으로 연속 음성 인식 장치는 도 1에 도시된 바와 같은 구성으로 이루어진다. 도 1은 일반적인 연속 음성 인식 장치의 구성을 나타내는 도면이다. 상기 도 1을 참조하면, 특징 추출부(10)에서 음성 인식 장치에 입력된 음성을 인식에 유용한 정보만을 추출한 특징 벡터로 변환시키고, 탐색부(20)에서는 학습 과정에서 미리 구해진 음향 모델 데이터베이스(40), 발음 사전 데이터베이스(50) 및 언어 모델 데이터베이스(60)를 참조하여 비터비 알고리즘을 이용하여 특징 벡터로부터 가장 확률이 높은 단어열을 찾게 된다. 여기서, 대어휘 인식을 위하여 인식 대상 어휘들은 트리(tree)를 구성하고 있으며, 탐색부(20)에서는 이러한 트리를 탐색한다. 후처리부(30)는 탐색부(20)의 탐색 결과로부터 발음 기호와 태그 등을 제거하고, 음절 단위로 모아 쓰기를 하여 최종 인식 결과인 텍스트를 제공한다.
상기와 같은 음성 인식 장치는 음성 인식을 위해서 음향 모델 데이터베이스(40), 발음 사전 데이터베이스(50) 및 언어 모델 데이터베이스(60)를 이용하고 있는데, 이 중 언어 모델 데이터베이스(60)는 학습용 텍스트 데이터베이스에 구축된 단어와 단어 간의 발생 빈도 데이터 및 그를 이용하여 연산된 바이그램(Bigram) 또는 트라이그램(Trigram)의 확률인 발생 확률 데이터로 이루어진다. 바이그램은 두 개의 단어쌍으로 이루어지는 단어열을 표현하고 트라이그램은 3 개의 단어들로 이루어진 단어열을 나타낸다.
한편, 발화자의 대화 주제의 영역이 바뀔 경우에 기존의 언어 모델은 제대로 된 성능을 발휘하지 못하기 때문에 영역이 바뀔 경우 바뀌어진 영역에 적합한 언어 모델이 새로이 구축되어 사용될 필요가 있다. 예컨대, 일기 예보 주제 영역과 여행 상담 주제 영역에서 사용하는 말은 다른 규칙과 특성을 가지는데, 일기 예보 주제 영역의 음성 인식이 목적인 낭독체 일기 예보 인식용 언어 모델을 구어체 여행 상담 대화 음성 인식을 위해 사용한다면, 전혀 도움이 되지 않고 오히려 인식 성능을 저하시킬 수 있다. 이와 같이, 어떤 특정 주제 영역(Topic Domain)에 한정되어 구축된 언어 모델은 그 주제 영역이 바뀌게 될 경우에 음성 인식 성능이 저하되는 단점이 있다.
이러한 단점을 극복하기 위해서, 한 가지 주제 영역에 한정되지 않는 다양한 주제 영역을 포괄하는 언어 모델을 구축하여 이용하게 되는데, 이러한 방식으로는 글로벌(Global)한 언어 모델 방식, 병렬적(Parallel) 언어 모델 방식 및 주제 의존(Topic Dependency) 언어 모델 방식이 있다. 글로벌 언어 모델 방식은 언어 모델을 한 가지로 구축함으로써 리소스가 적게 소요되나, 언어 모델의 혼잡성이 증가되어 인식의 정확도가 떨어진다는 문제가 있다. 병렬적 언어 모델 방식은 혼잡성이 감소하고 탐색 시간이 줄어드나, 리소스가 많이 소요되며 최적의 결과를 선택해야 하는 문제가 생기게 된다.
따라서, 언어 모델의 혼잡도를 감소시키고 탐색 시간 소요의 측면과 리소스 소요의 측면에서 유리한 주제 의존 언어모델 방식을 이용할 필요가 있는데, 주제 영역의 검출 성능과 언어 모델의 전환 성능을 향상시킴으로써 효율적인 음성 인식 이 가능한 음성 인식 장치 및 방법이 요구된다.
본 발명은 상기와 같은 문제점을 해결하기 위해 고안된 것으로서, 본 발명이 이루고자 하는 제 1 기술적 과제는, 글로벌 언어 모델을 이용한 전방향 탐색으로부터 주제 영역을 검출한 다음에 상기 주제 영역에 해당되는 특정 주제 언어 모델을 이용하여 역방향 디코딩을 수행함으로써 대화체 음성의 인식률(Accuracy)과 효율성(Efficiency)을 향상시킬 수 있는, 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법을 제공하는데 있다.
본 발명이 이루고자 하는 제 2 기술적 과제는, 상기 주제 영역 검출을 이용한 대화체 음성 인식 방법을 컴퓨터에서 실행하기 위한 프로그램 코드를 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 있다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상술한 목적을 달성하기 위한 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 장치는, 사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 전방향 탐색부; 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정 보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 주제 영역 검출부; 및 상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 역방향 디코딩부를 포함한다.
또한, 상술한 목적을 달성하기 위한 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 방법은, (a) 사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 단계; (b) 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 단계; 및 (c) 상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여, 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 단계를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 본 발명의 바람직한 실시예들에 의하여 미리 정의된, 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법을 설명하기 위한 블럭도 또는 흐름도들을 참조하여 보다 상세히 설명한다.
도 2는 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 장치의 전체 블럭 구성을 나타내는 도면이다.
상기 도 2를 참조하면, 본 발명의 실시예에 따른 대화체 음성 인식 장치는, 특징 추출부(110), 전방향 탐색부(120), 주제영역 검출부(130), 역방향 디코딩부(140) 및 텍스트 정보 관리부(150)를 포함한다. 그리고, 전방향 탐색부(120), 주제영역 검출부(130) 및 역방향 디코딩부(140)에게 각각 정보를 제공하는 데이터베이스로서 글로벌 언어 모델 데이터베이스(210), 확률 인자 데이터베이스(220) 및 특정 주제영역 언어모델 데이터베이스(230)가 존재하며, 이러한 데이터베이스는 훈련 코퍼스(200)로부터 생성된다.
특징 추출부(110)는 본 발명의 실시예에 따른 대화체 음성 인식 장치로 입력된 음성 신호로부터 음성 인식에 유용한 정보만을 가지고 있는 특징 벡터를 추출하는 역할을 한다. 이러한 음성 신호로부터의 특징 벡터 추출은 불필요하게 중복되는 음성 정보를 없애고 동일 음성 신호들 간의 일관성을 높임과 동시에 다른 음성 신호와는 변별력을 높일 수 있는 정보를 추출하는 과정이라 할 수 있다. 이러한 음성 인식을 위해서 사용되는 음성 특징 추출 방법으로는 LPC Cepstrum, PLP Cepstrum, MFCC(Mel Frequency Cepstral Coefficient), 필터 뱅크 에너지 기법 등이 있으나, 본 발명의 실시예에서는 특정한 음성 특징 추출 방법에 한정되지 않음은 당업자에게 자명할 것이다.
전방향 탐색부(120)는 상기와 같이 추출된 특징 벡터을 입력받으며, 사전 구축된 글로벌 언어 모델 데이터베이스(210)와 발음 사전 데이터베이스(미도시) 및 음향 모델 데이터베이스(미도시)를 참조하여, 상기 특징 벡터와 유사한 단어열(Word Lattice)을 생성하는 전방향 탐색(Forward Search)을 수행하는 역할을 한다. 특징 추출부(110)로부터 검출된 특징 벡터는 전방향 탐색부(120)와 역방향 디코딩부(140) 등을 통하여 음성 인식 과정을 거치게 되는데, 이러한 인식을 위해서는 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model)과 인식되는 어휘에 대한 발음을 음소의 나열로 모델링하는 발음 사전 및 인식되는 어휘에 해당하는 단어나 음절 등의 언어적 순서 관계를 모델링하는 언어 모델(Language Model)의 정보를 축적해 놓는 공간이 필요하다. 전방향 탐색(Forward Search) 과정에서는 이러한 음향 모델과 발음 사전 및 언어 모델의 데이터베이스를 이용하여 입력 음성에 대해 가능한 모든 후보 어휘들로 구성된 단어열(Word Lattice)을 구성하게 된다. 이러한 단어열이 예시된 것이 도 4에 나타나 있는데, 도 4는 대화체 음성 인식의 과정에서 전방향 탐색의 결과 생성되는 단어열의 구조를 예시한 도면이다. 상기 도 4를 참조하면, 상기 단어열이라는 것은 가능한 후보 어휘들로 구성된 래티스를 의미하는데, 전방향 탐색의 결과, (Hello, Hi, Hell), (How, My, His, You), (Name, Number), (Was, Is, Will)이라는 후보 단어들이 구해짐을 알 수 있으며, 상기 래티스로 연결된 어휘는 문장 상에서 연결될 수 있음을 알 수 있다. 그리고, 상기와 같은 어휘들 중 회색이 칠해져 있는 어휘 부분(Hi, My, Number, Is)은 후술하게 될 역방향 디코딩의 과정을 수행함으로써 결정되는데, 이 과정은 역방향 디코딩 부분에서 상세히 설명한다.
주제 영역 검출부(130)는 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 추론될 수 있는 발화의 토픽인 주제가 속하는 영역(Topic Domain)을 검출하는 역할을 한다. 이러한 주제 영역 검출부(130)는 세 가지 모듈로 구성되어 있는데, 주제 영역 검출부(130)의 구성을 도 3을 참조하여 상세히 설명한다.
도 3은 상기 도 2에 나타난 대화체 음성 인식 장치의 전체 블럭 구성 중 주제 영역 검출부(130)의 구성을 나타내는 도면이다. 주제 영역 검출부(130)는, 비핵심어 제거 모듈(132), 주제 영역 거리 산출 모듈(134) 및 최소 거리 주제 영역 검출 모듈(136)을 포함하고 있다.
비핵심어 제거 모듈(132)은 전방향 탐색부(120)에 의한 전방향 탐색의 결과 생성된 상기 단어열을 구성하는 어휘들 중 주제 영역과 무관한 비핵심어(Stop Word)를 제거하는 역할을 한다. 즉, 전방향 탐색 결과인 단어열을 입력받아 단어열에 포함되어 있는 어휘들을 가지고 주제 영역을 결정하게 되는데, 이때 단어열에 있는 모든 어휘를 가지고 계산하는 것이 아니라, 상기 주제 영역과는 무관한 조사나 어미 등과 같은 비핵심어를 제거하고 남은 어휘들을 후술하게 될 주제 영역 거 리 산출 모듈(134)로 입력시킨다.
주제 영역 거리 산출 모듈(134)은 상기 비핵심어가 제거된 단어열을 비핵심어 제거 모듈(132)로부터 입력받아 상기 단어열 내의 핵심 어휘들로부터 도출될 수 있는 모든 가능한 주제 영역과의 거리를 산출하는 역할을 한다. 특히, 텍스트 정보 관리부(150)로부터 획득한 출력 텍스트에 대한 히스토리 정보 등을 피드백받고, 상기 각 주제 영역과의 거리 산출에 사용될 각종 확률 인자 데이터를 가지고 있는 확률 인자 데이터베이스(220)로부터 획득한 정보를 이용하여 상기 주제 영역 거리를 산출하게 되는데, 상기 거리를 산출하는 알고리즘은 크게 네 가지 인자로 구성되어 있는 다음의 <수학식>과 같다.
<수학식>
Figure 112005063150699-PAT00001
여기서, 좌변의 Pr(Di|w1 wn)은 n 개의 단어들로부터 i 번째 주제 영역이 선택되는 확률로서 i 번째 주제 영역과의 거리를 의미한다.
우변에서의 첫번째 인자인 Pr(wj|Di)는 i 번째 주제 영역 Di가 선택된 상태에서 j 번째 주제 단어 wj 가 선택되는 확률로서 상기 단어 wj 의 "대표성"을 의미한다. 두번째 인자인 1/DFwj 는 상기 j 번째 단어 wj 가 속할 수 있는 주제 영역의 개수인 주제 영역 빈도수(Domain Frequency)의 역수로서, 상기 wj 가 몇 개의 주제 영 역에서 나타나는 것인지를 의미하는 "변별성"을 내포하고 있다. 즉, 여러 주제 영역에서 나타나는 어휘라면 주제 영역 검출에 그다지 큰 영향을 줄 수 없는 어휘이므로 변별성이 낮으며, 한 가지 주제 영역에서만 사용될 수 있는 어휘라면 해당 주제 영역을 검출하는데 큰 영향을 주게 되므로 변별성이 아주 높을 것이다. 상기 "대표성"과 "변별성"을 상징하는 두 인자는 일반적으로 정보 검색이나 토픽 분류에서 일반적으로 사용되는 값이다. 또한, 세번째 요소인 wdomain 은 발화 문맥(Context)에 대한 확률값의 가중치로서 "문맥 가중치 인자"를 의미하는데, 즉, 현재 고려하고 있는 후보 주제 영역이 바로 직전의 발화에서의 주제 영역과 같은지 다른지에 따라 확률 가중치를 부여하는 역할을 한다. 일반적으로 발화자의 대화는 연결성이 강하기 때문에 직전의 발화 주제와 동일할 경우에는 주제가 바뀌는 경우보다 더 많은 가중치를 부여해야 하며, 직전의 발화 주제와 다를 경우에는 가중치를 낮게 부여해야 한다. 마지막으로 네번째 인자인 WFDi/n 는 상기 i 번째 주제 영역 Di 를 지지하는 주제 단어의 개수인 주제 단어 빈도수(Word Frequency)를 반영하기 위해 도입한 "단어 빈도수 인자"로서, 현재 입력된 단어열의 어휘 중에서 얼마나 많은 어휘가 현재 후보 주제 영역에 관련된 것인지를 반영하는 인자이다. 상기 "문맥 가중치 인자"와 "단어 빈도수 인자"는 음성 인식 과정의 런타임시에 얻어지는 값인데, 특히 "문맥 가중치 인자"는 후술하게 될 텍스트 정보 관리부(150)로부터 피드백받게 된다.
상기와 같은 인자로 구성된 <수학식> 알고리즘에 의해 후보가 될 수 있는 몇 개의 주제 영역과의 각 거리를 산출하였는 바, 이제 산출된 각 거리 중에서 주제 영역으로 선택될 주제 영역과의 거리인 최소 거리를 결정해야 하는데, 이러한 역할은 최소 거리 주제 영역 검출 모듈(136)이 담당한다. 최소 거리 주제 영역 검출 모듈(136)은 상기 <수학식> 알고리즘에 의해 산출된 각 주제 영역과의 거리 중 최소 거리를 가지는 주제 영역을 검출하는 역할을 한다. 이러한 최소 거리를 결정하기 위해서는 몇 개의 후보 주제 영역 중에서 직전의 주제 영역과 동일한 주제 영역이 무엇이었는지를 알 필요가 있는데, 이러한 대화 주제의 히스토리 정보는 후술하게 될 텍스트 정보 관리부(150)로부터 얻게 된다.
역방향 디코딩부(140)는 상기 검출된 주제 영역에 관하여 사전에 구축된 언어 모델인 특정 주제 영역 언어모델 데이터베이스(230)를 참조하여, 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 역할을 한다. 또한, 역방향 디코딩부(140)는 특정주제 영역 언어모델 데이터베이스(230)를 참조한 역방향 디코딩의 결과 상기 텍스트가 출력되지 못할 경우에는, 상기 글로벌 언어 모델 데이터베이스(210)를 참조하는 역방향 서브 디코딩(Sub-Decoding)을 더 수행하는 것이 바람직하다. 그러나, 상기 역방향 서브 디코딩을 항상 수행하는 것은 아니며, 특정 주제 영역 언어모델 데이터베이스(230)를 가지고 디코딩을 수행했는데도 텍스트 출력에 실패했을 경우를 대비하여 서브 디코딩을 수행하는 것이다. 단, 글로벌 언어 모델 데이터베이스(210)를 참조하는 역방향 서브 디코딩을 수행하기 위한 전제로서 상기 주제 영역과의 거리 산출 결과가 미리 설정된 소정 임계치의 범위 내에 있어야 할 것이다.
텍스트 정보 관리부(150)는 역방향 디코딩부(140)에 의해 출력된 텍스트의 주제 영역에 대한 정보와 상기 텍스트의 히스토리 정보를 포함하는 다양한 정보를 저장하고 관리하는 역할을 한다. 텍스트 정보 관리부(150)의 다양한 역할 중 음성 인식과 관련한 대표적 역할이 발화자의 대화에 대한 히스토리(History) 관리를 들 수 있는데, 상기 히스토리 관리란 발화자의 연속된 대화 또는 명령에 대한 관련 정보를 관리하는 것과, 이전의 사용자 발화에 대한 음성 인식 결과와 해당 주제 영역 등에 관한 정보를 관리하는 것을 의미한다. 그러므로, 주제 영역 검출부(130)가 주제 영역을 판정하는데 있어서, 현재 발화에 대한 전방향 탐색의 결과로 생성된 단어열 뿐만 아니라 텍스트 정보 관리부(150)로부터 이전 발화에 대한 히스토리 정보를 획득하여 주제 영역을 검출하는데 반영하게 된다.
한편, 본 발명의 실시예에 따른 음성 인식 장치에서는 전방향 탐색부(120), 주제 영역 검출부(130) 및 역방향 디코딩부(140)는 각종 데이터베이스를 참조하여 역할을 수행하게 되는데, 전방향 탐색부(210)는 글로벌 언어 모델 데이터베이스(210)를, 주제 영역 검출부(130)는 확률 인자 데이터베이스(220)를, 역방향 디코딩부(140)는 특정주제 영역 언어모델 데이터베이스(230)를 참조하게 된다. 여기서, 확률 인자 데이터베이스(220)를 제외한 나머지 두 데이터베이스(210, 230)는 언어 모델의 형태를 가지고 있는데, 언어 모델(Language Model)이란 음성 인식 시스템의 일종의 문법이라 할 수 있다. 대화체 연속 음성 인식 시스템이라고 해서 임의의 아무 문장을 다 인식할 수 있는 것은 아니고 어떤 정해진 문법에 맞는 문장만을 인식하므로, 언어 모델을 음성 인식 시스템의 탐색 과정에서 사용함으로써 음성 인식 시스템의 탐색 공간을 감소시킬 수 있으며, 문법에 맞는 문장에 대한 확률을 높여 주는 역할을 하므로 인식률 향상에도 기여하게 되는 것이다.
글로벌 언어 모델 데이터베이스(210)는 주제 영역과 무관하게 전체 언어에 대한 광범위한 정보를 가지고 있는 데이터베이스이며, 특정 주제 영역 언어모델 데이터베이스(230)는 주제 영역 별로 작성된 언어 모델을 의미하며, 전체에 대한 언어 모델이 아니라 특정 주제 영역에 대한 언어 모델이라는 점만 제외하면 글로벌 언어 모델 데이터베이스(210)와 동일한 구조를 갖는다. 한편, 확률 인자 데이터베이스(220)는 주제 영역 검출부(130)가 수행하는 주제 영역과의 거리 산출에 사용되는 확률값들에 대한 인자를 저장하고 있다. 상술하였듯이, 주제 영역의 검출 과정은 상기 <수학식> 알고리즘을 통해 이루어지는데, 4 가지 인자로 구성된 확률값 계산식에서 "대표성"과 "변별성"을 의미하는 첫번째 인자와 두번째 인자에 대한 값은 미리 해당 주제 영역과 관련된 코퍼스(Corpus)를 이용하여 구할 수 있는 값이다. 이때 사용되는 코퍼스가 훈련 코퍼스(Training Corpus)(200)인데, 이는 주제 영역 별로 사전에 미리 수집해 놓은 발성 가능한 대량의 텍스트에 대한 자료라고 볼 수 있다. 상기 훈련 코퍼스(200)를 이용하여 상기 "대표성"과 "변별성"에 관련된 확률값을 구하는 모델 훈련(Model Training) 과정을 거치게 되며, 상기 모델 훈련 과정을 거친 자료들은 확률 인자 데이터베이스(220)로 저장되어 관리된다. 즉, 확률 인자 데이터베이스(220)는 상기 주제 영역 별로 미리 구축된 훈련 코퍼스(Training Corpus)를 이용하여 생성되는 것이다. 한편, 다양한 주제 영역의 대화 인식을 목적으로 하는 대화체 연속 음성 인식 시스템에서, 훈련 코퍼스(200)가 충분히 확보 된 경우에는 신뢰성이 높고 강건한 언어 모델을 구축할 수 있다.
상기와 같은 본 발명의 실시예에서 사용되는 '~부'라는 용어, 즉 '~모듈' 또는 '~테이블' 등은 소프트웨어, FPGA(Field Programmable Gate Array) 또는 주문형 반도체(Application Specific Integrated Circuit, ASIC)와 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 기능들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 모듈은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 모듈들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 모듈들은 디바이스 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
한편, 도 5는 본 발명의 실시예에 따른 대화체 음성 인식 장치가 주제 영역을 검출함으로써 대화체 연속 음성 인식을 하는 과정을 예시한 도면이다. 먼저 발화자가 "지금 기온이 몇이지?"라는 문장을 발화하게 되면, 전방향 탐색의 결과, "지금", "기온", "시간", "이", "몇", "시", "이", "지"라는 각 어휘에 대해서 어코스틱(Accaustic) 스코어가 기록된다. 그리고, 상기에서 설명한 <수학식> 알고리즘 에 의해 주제 영역의 후보를 산출하게 되는데, 여기서는 [날씨]와 [날짜-시각]의 주제 영역이 후보 주제 영역으로 선정되었음을 알 수 있다. 검출된 후보 주제 영역에 대해서 역방향 디코딩을 수행하게 되면, [날씨] 영역에 대한 디코딩 결과는 "지금 기온이 몇이지"라는 텍스트가 출력되며, [날짜-시각] 영역에 대한 디코딩 결과는 "지금 기온이 몇 시지"라는 텍스트가 출력된다. 이때 텍스트 정보 관리부(150)의 이전 주제 영역의 히스토리 정보 등을 참조할 경우 [날씨] 영역에 대한 발화 내용을 의미하는 텍스트를 출력하게 될 것이다.
이제, 본 발명의 실시예에 따른 대화체 음성 인식 방법의 시간적 흐름을 도 6과 도 7을 참조하여 설명할 것이다. 도 6은 본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 방법의 전체 흐름도를 나타내는 도면이며, 도 7은 상기 도 6에 나타난 대화체 음성 인식 방법의 전체 흐름 중 주제 영역 검출의 흐름을 나타내는 도면이다.
상기 도 6 및 도 7을 참조하여 설명하면, 먼저 발화자가 "지금 기온이 몇이지?"와 같은 문장을 발화하게 되면, 특징 추출부(110)는 상기와 같은 음성 신호를 입력받아 특징 벡터를 검출하게 된다(S110). 전방향 탐색부(120)는 사전에 미리 구축된 글로벌 언어 모델 데이터베이스(210)와 발음 사전 데이터베이스(미도시) 및 음향 모델 데이터베이스(미도시)를 참조하여 상기 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하게 된다(S120).
그리고, 주제 영역 검출부(130)는 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주 제 영역(Topic Domain)을 검출하는 단계(S130)를 수행하는데, 이 단계에 대해서는 도 7을 참조하여 상세히 설명한다. 상기 단어열을 구성하는 단어들 중 주제 영역과 무관한 비핵심어(Stop Word)가 비핵심어 제거 모듈(132)에 의해 제거되며(S132), 주제 영역 거리 산출 모듈(134)은 상기 비핵심어가 제거된 단어열을 입력받아 상기 단어열 내의 어휘들로부터 각 주제 영역과의 거리를 산출하게 된다(S134). 여기서, 후술하게 될 역방향 디코딩의 결과 출력된 텍스트로부터 획득한 정보와 각 주제 영역과의 거리 산출에 사용되는 확률 인자를 가지고 있는 확률 인자 데이터베이스(220)로부터 획득한 정보를 참조하여 상기 거리를 산출하는 것이 바람직하다. 한편, 상기 확률 인자 데이터베이스(220)는 상기 주제 영역 별로 미리 구축된 발성 가능한 텍스트 정보를 포함하는 훈련 코퍼스(Training Corpus)를 이용하여 생성되며, 생성된 인자들을 이용하여 상기 거리를 산출하는 알고리즘을 만들 수 있다. 즉, 4 가지의 인자로 구성된 하기의 <수학식>에 의해 상기 알고리즘이 표현될 수 있다.
<수학식>
Figure 112005063150699-PAT00002
좌변의 Pr(Di|w1 wn)은 n 개의 단어들로부터 i 번째 주제 영역이 선택되는 확률로서 i 번째 주제 영역과의 거리를 의미한다. 우변에서의 첫번째 인자인 Pr(wj|Di)는 i 번째 주제 영역 Di가 선택된 상태에서 j 번째 주제 단어 wj 가 선택되 는 확률로서 상기 단어 wj 의 "대표성"을 의미한다. 두번째 인자인 1/DFwj 는 상기 j 번째 단어 wj 가 속할 수 있는 주제 영역의 개수인 주제 영역 빈도수(Domain Frequency)의 역수로서, 상기 wj 가 몇 개의 주제 영역에서 나타나는 것인지를 의미하는 "변별성"을 내포하고 있다. 또한, 세번째 요소인 wdomain 은 발화 문맥(Context)에 대한 확률값의 가중치로서 "문맥 가중치 인자"를 의미하는데, 즉, 현재 고려하고 있는 후보 주제 영역이 바로 직전의 발화에서의 주제 영역과 같은지 다른지에 따라 확률 가중치를 부여하는 역할을 한다. 마지막으로, 네번째 인자인 WFDi/n 는 상기 i 번째 주제 영역 Di 를 지지하는 주제 단어의 개수인 주제 단어 빈도수(Word Frequency)를 반영하는 "단어 빈도수 인자"로서, 현재 입력된 단어열의 어휘 중에서 얼마나 많은 어휘가 현재 후보 주제 영역에 관련된 것인지를 반영하는 인자이다.
상기 <수학식>에 의해 산출된 각 주제 영역들과의 거리 중 최소 거리를 가지는 주제 영역이 최소 거리 주제 영역 검출 모듈(136)에 의해 검출되게 된다(S136).
역방향 디코딩부(140)는 상기와 같은 과정을 거쳐 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스(230)를 참조하여 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하게 된다(S140). 상기 특정주제 영역 언어모델 데이터베이스(230)를 참조한 역방향 디코딩을 수행하였는데도 텍스트가 출력되지 못하는 경우에 는, 글로벌 언어 모델 데이터베이스(210)를 참조하는 역방향 서브 디코딩을 더 수행하게 된다(S150).
한편, 본 발명의 일 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 방법과 종래의 연속 음성 인식 장치의 성능을 비교하기 위한 <실험예>를 제시한다.
<실험예>
본 발명의 일 실시예에 따른 음성 인식 실험이 수행된 환경은 다음과 같다. 사용된 언어는 한국어이며, 대화 형식은 "커맨드 & 컨트롤(Command & Control)", "질문 & 응답", "채팅 방식"이며, Training set는 12 개 주제 영역으로 구성되어 있으며, 음성 인식 엔진은 연속 음성 인식기를 사용하였다. 그리고, 세 가지 모델을 사용하였는데, 모델 A는 글로벌 언어 모델을 이용하였으며, 모델 B는 주제 영역 검출에 의해 선정된 best-1 주제 영역의 언어 모델을 사용하였으며, 모델 C는 상기 주제 영역 검출의 결과 스코어 차이에 따라 n 개의 특정 주제 영역의 언어 모델을 사용하여 음성 인식 실험을 한 것이다.
- 실험 결과 -
Figure 112005063150699-PAT00003
Figure 112005063150699-PAT00004
상기 실험 결과의 도표를 살펴보면, 문장 인식률의 측면에서는 모델 A와 모델 B는 큰 차이가 없으나, 모델 C의 경우에는 73.12 % 의 인식률로서 타 모델보다 문장 인식률이 상당히 높아진 것을 알 수 있으며, 이러한 결과는 그래프를 통해서도 알 수 있다.
즉, 본 발명의 일실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 방법에서, 정확한 주제 영역을 검출할 경우 문장 인식률의 측면에서 상당한 개선을 거둘 수 있음을 알 수 있다.
한편, 본 발명의 실시예에 따른 음성 인식 장치의 권리 범위는 상기와 같은 방법을 컴퓨터에서 실행하기 위한 프로그램 코드를 기록한 컴퓨터로 읽을 수 있는 기록 매체에도 미침은 당업자에게 자명하다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 벗어나지 않는 범위 내에서 여러 가지로 치환, 변형 및 변경이 가능하므로 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명의 실시예에 따른 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법은, 글로벌 언어 모델을 이용한 전방향 탐색으로부터 주제 영역을 검출한 다음에 상기 주제 영역에 해당되는 특정 주제 언어 모델을 이용하여 역방향 디코딩을 수행함으로써 대화체 문장의 인식률(Accuracy)과 효율성(Efficiency)을 향상시킬 수 있는 효과가 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

Claims (14)

  1. 사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 전방향 탐색부;
    상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 주제 영역 검출부; 및
    상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 역방향 디코딩부를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
  2. 제 1 항에 있어서,
    상기 역방향 디코딩부에 의해 출력된 텍스트의 주제 영역에 대한 정보와 상기 텍스트의 히스토리 정보를 포함하는 정보를 저장하고 관리하는 텍스트 정보 관리부를 더 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
  3. 제 2 항에 있어서,
    상기 주제 영역 검출부는,
    상기 단어열을 구성하는 단어들 중 주제 영역과 무관한 비핵심어를 제거하는 비핵심어 제거 모듈;
    상기 비핵심어가 제거된 단어열을 입력받아 상기 단어열 내의 어휘들로부터 각 주제 영역과의 거리를 산출하는 주제 영역 거리산출 모듈; 및
    상기 산출된 각 주제 영역과의 거리 중 최소 거리를 가지는 주제 영역을 검출하는 최소 거리 주제 영역 검출 모듈을 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
  4. 제 3 항에 있어서,
    상기 주제 영역 거리산출 모듈은,
    상기 텍스트 정보 관리부로부터 획득한 정보와 상기 각 주제 영역과의 거리 산출에 사용되는 확률 인자를 가지고 있는 확률 인자 데이터베이스로부터 획득한 정보를 참조하여 상기 거리를 산출하는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
  5. 제 4 항에 있어서,
    상기 확률 인자 데이터베이스는,
    상기 주제 영역 별로 미리 구축된 발성 가능한 텍스트 정보를 포함하는 훈련 코퍼스(Training Corpus)를 이용하여 생성되는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
  6. 제 4 항에 있어서,
    상기 주제영역 거리산출 모듈은,
    상기 확률 인자로 이루어진 하기의 <수학식>
    Figure 112005063150699-PAT00005
    (여기서, 상기 Pr(Di|w1 wn)은 n 개의 단어들로부터 i 번째 주제 영역이 선택되는 확률, Pr(wj|Di)는 i 번째 주제 영역 Di가 선택된 상태에서 j 번째 주제 단어 wj 가 선택되는 확률, DFwj 는 상기 j 번째 주제 단어 wj 가 나타나는 주제 영역의 개수인 주제 영역 빈도수, wdomain 은 발화 문맥에 대한 가중치, 그리고, WFDi 는 상기 i 번째 주제 영역 Di 를 지지하는 주제 단어의 개수인 주제 단어 빈도수를 의미한다)에 의해 상기 거리를 산출하는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
  7. 제 2 항에 있어서,
    상기 역방향 디코딩부는,
    상기 특정주제 영역 언어모델 데이터베이스를 참조한 역방향 디코딩의 결과 상기 텍스트가 출력되지 못하는 경우에는, 상기 글로벌 언어 모델 데이터베이스를 참조하는 역방향 서브 디코딩을 더 수행하는, 주제 영역 검출을 이용한 대화체 음성 인식 장치.
  8. (a) 사전 구축된 글로벌 언어 모델 데이터베이스와 발음 사전 데이터베이스 및 음향 모델 데이터베이스를 참조하여, 입력 음성 신호로부터 검출된 특징 벡터와 유사한 단어열을 생성하는 전방향 탐색(Forward Search)을 수행하는 단계;
    (b) 상기 전방향 탐색의 결과 생성된 상기 단어열에 대한 정보를 이용하여 상기 단어열 내의 어휘들의 의미로부터 도출되는 주제 영역(Topic Domain)을 검출하는 단계; 및
    (c) 상기 검출된 주제 영역에 관하여 사전 구축된 특정 주제 영역 언어모델 데이터베이스를 참조하여, 상기 입력 음성 신호에 대한 음성 인식 결과를 텍스트로 출력하는 역방향 디코딩(Backward Decoding)을 수행하는 단계를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
  9. 제 2 항에 있어서,
    상기 (b) 단계는,
    (b1) 상기 단어열을 구성하는 단어들 중 주제 영역과 무관한 비핵심어를 제거하는 단계;
    (b2) 상기 비핵심어가 제거된 단어열을 입력받아 상기 단어열 내의 어휘들로부터 각 주제 영역과의 거리를 산출하는 단계; 및
    (b3) 상기 산출된 각 주제 영역과의 거리 중 최소 거리를 가지는 주제 영역을 검출하는 단계를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
  10. 제 9 항에 있어서,
    상기 (b2) 단계는,
    상기 역방향 디코딩 결과 출력된 텍스트로부터 획득한 정보와 상기 각 주제 영역과의 거리 산출에 사용되는 확률 인자를 가지고 있는 확률 인자 데이터베이스로부터 획득한 정보를 참조하여 상기 거리를 산출하는 단계를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
  11. 제 10 항에 있어서,
    상기 확률 인자 데이터베이스는,
    상기 주제 영역 별로 미리 구축된 발성 가능한 텍스트 정보를 포함하는 훈련 코퍼스(Training Corpus)를 이용하여 생성되는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
  12. 제 10 항에 있어서,
    상기 (b2) 단계는,
    상기 확률 인자로 이루어진 하기의 <수학식>
    Figure 112005063150699-PAT00006
    (여기서, 상기 Pr(Di|w1 wn)은 n 개의 단어들로부터 i 번째 주제 영역이 선택되는 확률, Pr(wj|Di)는 i 번째 주제 영역 Di가 선택된 상태에서 j 번째 주제 단어 wj 가 선택되는 확률, DFwj 는 상기 j 번째 주제 단어 wj 가 나타나는 주제 영역의 개수인 주제 영역 빈도수, wdomain 은 발화 문맥에 대한 가중치, 그리고, WFDi 는 상기 i 번째 주제 영역 Di 를 지지하는 주제 단어의 개수인 주제 단어 빈도수를 의미한다)에 의해 상기 거리를 산출하는 단계를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
  13. 제 10 항에 있어서,
    상기 (c) 단계는,
    상기 특정주제 영역 언어모델 데이터베이스를 참조한 역방향 디코딩의 결과 상기 텍스트가 출력되지 못하는 경우에는, 상기 글로벌 언어 모델 데이터베이스를 참조하는 역방향 서브 디코딩을 더 수행하는 단계를 포함하는, 주제 영역 검출을 이용한 대화체 음성 인식 방법.
  14. 제 8 항 내지 제 13 항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램 코드를 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020050104462A 2005-11-02 2005-11-02 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 KR100755677B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020050104462A KR100755677B1 (ko) 2005-11-02 2005-11-02 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US11/589,165 US8301450B2 (en) 2005-11-02 2006-10-30 Apparatus, method, and medium for dialogue speech recognition using topic domain detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050104462A KR100755677B1 (ko) 2005-11-02 2005-11-02 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20070047579A true KR20070047579A (ko) 2007-05-07
KR100755677B1 KR100755677B1 (ko) 2007-09-05

Family

ID=37997631

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050104462A KR100755677B1 (ko) 2005-11-02 2005-11-02 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법

Country Status (2)

Country Link
US (1) US8301450B2 (ko)
KR (1) KR100755677B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120088792A (ko) * 2009-10-30 2012-08-08 라쿠텐 인코포레이티드 특유 콘텐츠 판정 장치, 특유 콘텐츠 판정 방법, 기록 매체, 콘텐츠 생성 장치 및 관련 콘텐츠 삽입 장치
KR20150001191A (ko) * 2013-06-26 2015-01-06 한국전자통신연구원 연속어 음성 인식 장치 및 방법
KR102030551B1 (ko) * 2018-07-09 2019-10-10 주식회사 한글과컴퓨터 인스턴트 메신저 구동 장치 및 그 동작 방법
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007271876A (ja) * 2006-03-31 2007-10-18 Denso Corp 音声認識装置および音声認識用のプログラム
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US7788095B2 (en) * 2007-11-18 2010-08-31 Nice Systems, Ltd. Method and apparatus for fast search in call-center monitoring
JP5327054B2 (ja) * 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
WO2009081861A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
KR101149521B1 (ko) * 2008-12-10 2012-05-25 한국전자통신연구원 도메인 온톨로지를 이용한 음성 인식 방법 및 그 장치
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
US20110004473A1 (en) * 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition
KR101597289B1 (ko) * 2009-07-31 2016-03-08 삼성전자주식회사 동적 화면에 따라 음성을 인식하는 장치 및 방법
US8589163B2 (en) * 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
CN103038764A (zh) * 2010-04-14 2013-04-10 惠普发展公司,有限责任合伙企业 用于关键字提取的方法
KR101699720B1 (ko) * 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
DE102010040553A1 (de) * 2010-09-10 2012-03-15 Siemens Aktiengesellschaft Spracherkennungsverfahren
US8812321B2 (en) * 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US9679561B2 (en) * 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
WO2013056343A1 (en) * 2011-09-30 2013-04-25 Ming Li System, method and computer program for correcting speech recognition information
US9324323B1 (en) * 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8775177B1 (en) 2012-03-08 2014-07-08 Google Inc. Speech recognition process
US9053708B2 (en) * 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US9424233B2 (en) * 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US9697821B2 (en) * 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
US9727619B1 (en) 2013-05-02 2017-08-08 Intelligent Language, LLC Automated search
US10121493B2 (en) 2013-05-07 2018-11-06 Veveo, Inc. Method of and system for real time feedback in an incremental speech input interface
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
US9812130B1 (en) * 2014-03-11 2017-11-07 Nvoq Incorporated Apparatus and methods for dynamically changing a language model based on recognized text
US9286892B2 (en) 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
CN103942191B (zh) * 2014-04-25 2018-04-27 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
US9971765B2 (en) * 2014-05-13 2018-05-15 Nuance Communications, Inc. Revising language model scores based on semantic class hypotheses
US9721564B2 (en) * 2014-07-31 2017-08-01 Rovi Guides, Inc. Systems and methods for performing ASR in the presence of heterographs
US20160171122A1 (en) * 2014-12-10 2016-06-16 Ford Global Technologies, Llc Multimodal search response
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US10582046B2 (en) * 2014-12-30 2020-03-03 Harman International Industries, Incorporated Voice recognition-based dialing
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US20180190266A1 (en) * 2015-02-03 2018-07-05 Dolby Laboratories Licensing Corporation Conference word cloud
US9953648B2 (en) * 2015-05-11 2018-04-24 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
US9858923B2 (en) * 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
US10896681B2 (en) * 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
WO2017210613A1 (en) * 2016-06-03 2017-12-07 Maluuba Inc. Natural language generation in a spoken dialogue system
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
US10387888B2 (en) 2016-07-08 2019-08-20 Asapp, Inc. Assisting entities in responding to a request of a user
US10083451B2 (en) 2016-07-08 2018-09-25 Asapp, Inc. Using semantic processing for customer support
JP2018054850A (ja) * 2016-09-28 2018-04-05 株式会社東芝 情報処理システム、情報処理装置、情報処理方法、及びプログラム
US10650311B2 (en) 2016-12-19 2020-05-12 Asaap, Inc. Suggesting resources using context hashing
US10109275B2 (en) 2016-12-19 2018-10-23 Asapp, Inc. Word hash language model
US10268680B2 (en) * 2016-12-30 2019-04-23 Google Llc Context-aware human-to-computer dialog
CN107358143A (zh) * 2017-05-17 2017-11-17 广州视源电子科技股份有限公司 前向搜索模型集成方法、装置、存储设备和人脸识别系统
US10762423B2 (en) 2017-06-27 2020-09-01 Asapp, Inc. Using a neural network to optimize processing of user requests
CN107423398B (zh) * 2017-07-26 2023-04-18 腾讯科技(上海)有限公司 交互方法、装置、存储介质和计算机设备
US10497004B2 (en) 2017-12-08 2019-12-03 Asapp, Inc. Automating communications using an intent classifier
US10489792B2 (en) 2018-01-05 2019-11-26 Asapp, Inc. Maintaining quality of customer support messages
US10210244B1 (en) 2018-02-12 2019-02-19 Asapp, Inc. Updating natural language interfaces by processing usage data
US10169315B1 (en) 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
US11216510B2 (en) 2018-08-03 2022-01-04 Asapp, Inc. Processing an incomplete message with a neural network to generate suggested messages
CN109284397A (zh) * 2018-09-27 2019-01-29 深圳大学 一种领域词典的构建方法、装置、设备及存储介质
EP3640834A1 (en) 2018-10-17 2020-04-22 Verint Americas Inc. Automatic discovery of business-specific terminology
US11551004B2 (en) 2018-11-13 2023-01-10 Asapp, Inc. Intent discovery with a prototype classifier
US10747957B2 (en) 2018-11-13 2020-08-18 Asapp, Inc. Processing communications using a prototype classifier
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
US11935539B1 (en) * 2019-01-31 2024-03-19 Alan AI, Inc. Integrating voice controls into applications
US11955120B1 (en) 2019-01-31 2024-04-09 Alan AI, Inc. Systems and methods for integrating voice controls into applications
US11301629B2 (en) * 2019-08-21 2022-04-12 International Business Machines Corporation Interleaved conversation concept flow enhancement
US11425064B2 (en) 2019-10-25 2022-08-23 Asapp, Inc. Customized message suggestion with user embedding vectors
CN111159403B (zh) * 2019-12-27 2022-07-29 广东高乐教育科技有限公司 一种智能课堂感知的方法及系统
CN111785254B (zh) * 2020-07-24 2023-04-07 四川大学华西医院 基于模拟人的自助化bls培训与考核系统
CN111916089B (zh) * 2020-07-27 2022-11-04 南京信息工程大学 基于声信号特征分析的冰雹检测方法和装置
CN112951210A (zh) * 2021-02-02 2021-06-11 虫洞创新平台(深圳)有限公司 语音识别方法及装置、设备、计算机可读存储介质
CN112908339B (zh) * 2021-03-18 2022-11-04 龙马智芯(珠海横琴)科技有限公司 一种会议环节定位方法、装置、定位设备及可读存储介质
CN113539246B (zh) * 2021-08-20 2022-10-18 贝壳找房(北京)科技有限公司 语音识别方法和装置
CN114663042B (zh) * 2022-02-11 2023-04-21 北京斗米优聘科技发展有限公司 一种智能电话呼叫招聘方法、装置、电子设备及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69423838T2 (de) * 1993-09-23 2000-08-03 Xerox Corp Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
JP3647518B2 (ja) * 1994-10-06 2005-05-11 ゼロックス コーポレイション コード化したワードトークンを使用して文書画像をハイライトで強調する装置
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US5887120A (en) * 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
US6185531B1 (en) * 1997-01-09 2001-02-06 Gte Internetworking Incorporated Topic indexing method
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6104989A (en) * 1998-07-29 2000-08-15 International Business Machines Corporation Real time detection of topical changes and topic identification via likelihood based methods
US6324510B1 (en) * 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US6631351B1 (en) * 1999-09-14 2003-10-07 Aidentity Matrix Smart toys
US7401023B1 (en) * 2000-09-06 2008-07-15 Verizon Corporate Services Group Inc. Systems and methods for providing automated directory assistance using transcripts
ATE297588T1 (de) * 2000-11-14 2005-06-15 Ibm Anpassung des phonetischen kontextes zur verbesserung der spracherkennung
US6772120B1 (en) * 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US20030023437A1 (en) * 2001-01-27 2003-01-30 Pascale Fung System and method for context-based spontaneous speech recognition
US6925154B2 (en) * 2001-05-04 2005-08-02 International Business Machines Corproation Methods and apparatus for conversational name dialing systems
KR100423460B1 (ko) * 2001-07-19 2004-03-18 한국전자통신연구원 주제어 인식이 가능한 음성인식시스템 및 방법
JP2004021207A (ja) 2002-06-20 2004-01-22 Nippon Hoso Kyokai <Nhk> 音素認識方法、音素認識装置および音素認識プログラム
US20040176946A1 (en) * 2002-10-17 2004-09-09 Jayadev Billa Pronunciation symbols based on the orthographic lexicon of a language
KR100480790B1 (ko) * 2003-01-28 2005-04-06 삼성전자주식회사 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
DE602004011753T2 (de) * 2003-03-01 2009-02-05 Coifman, Robert E. Verfahren und Vorrichtung zum Verbessern der Transkriptionsgenauigkeit bei der Spracherkennung
WO2005050621A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Topic specific models for text formatting and speech recognition
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
JP2005284209A (ja) 2004-03-31 2005-10-13 Kddi Corp 音声認識方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120088792A (ko) * 2009-10-30 2012-08-08 라쿠텐 인코포레이티드 특유 콘텐츠 판정 장치, 특유 콘텐츠 판정 방법, 기록 매체, 콘텐츠 생성 장치 및 관련 콘텐츠 삽입 장치
US10614134B2 (en) 2009-10-30 2020-04-07 Rakuten, Inc. Characteristic content determination device, characteristic content determination method, and recording medium
KR20150001191A (ko) * 2013-06-26 2015-01-06 한국전자통신연구원 연속어 음성 인식 장치 및 방법
KR102030551B1 (ko) * 2018-07-09 2019-10-10 주식회사 한글과컴퓨터 인스턴트 메신저 구동 장치 및 그 동작 방법

Also Published As

Publication number Publication date
KR100755677B1 (ko) 2007-09-05
US8301450B2 (en) 2012-10-30
US20070100618A1 (en) 2007-05-03

Similar Documents

Publication Publication Date Title
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
Xiong Fundamentals of speech recognition
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US10176802B1 (en) Lattice encoding using recurrent neural networks
US9934777B1 (en) Customized speech processing language models
US10923111B1 (en) Speech detection and speech recognition
KR100612839B1 (ko) 도메인 기반 대화 음성인식방법 및 장치
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
Arora et al. Automatic speech recognition: a review
US11158307B1 (en) Alternate utterance generation
US11935525B1 (en) Speech processing optimizations based on microphone array
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
Nakagawa A survey on automatic speech recognition
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
Zhang et al. Improved mandarin keyword spotting using confusion garbage model
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP2009116075A (ja) 音声認識装置
KR101677530B1 (ko) 음성 인식 장치 및 음성 인식 방법
Rebai et al. LinTO Platform: A Smart Open Voice Assistant for Business Environments
Tabibian A survey on structured discriminative spoken keyword spotting
US11328713B1 (en) On-device contextual understanding
US11817090B1 (en) Entity resolution using acoustic data
Kurian et al. Automated Transcription System for MalayalamLanguage
Khalifa et al. Statistical modeling for speech recognition
CN112997247A (zh) 利用大数据的最佳语言模型生成方法及用于其的装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150730

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160728

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170728

Year of fee payment: 11