KR100660495B1 - 음성 인식에 있어서의 통계적 언어 모델링을 위한 방법 - Google Patents

음성 인식에 있어서의 통계적 언어 모델링을 위한 방법 Download PDF

Info

Publication number
KR100660495B1
KR100660495B1 KR1020057020518A KR20057020518A KR100660495B1 KR 100660495 B1 KR100660495 B1 KR 100660495B1 KR 1020057020518 A KR1020057020518 A KR 1020057020518A KR 20057020518 A KR20057020518 A KR 20057020518A KR 100660495 B1 KR100660495 B1 KR 100660495B1
Authority
KR
South Korea
Prior art keywords
domain
representation
expression
word
extracted
Prior art date
Application number
KR1020057020518A
Other languages
English (en)
Other versions
KR20060007407A (ko
Inventor
후리앙 웽
배드리 라그휴나탄
호크 슈미디트
Original Assignee
로베르트 보쉬 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 로베르트 보쉬 게엠베하 filed Critical 로베르트 보쉬 게엠베하
Publication of KR20060007407A publication Critical patent/KR20060007407A/ko
Application granted granted Critical
Publication of KR100660495B1 publication Critical patent/KR100660495B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

음성 인식 시스템을 위한 언어 모델링 데이터를 생성하기 위한 시스템은, 언어 지식의 베이스를 사용하여 현재 도메인의 도메인-특유 데이터로부터 표현을 추출하기 위한 표현 추출기, 새로운 도메인에 대한 어휘를 사용하여 상기 추출된 표현을 새로운 도메인에서의 표현으로 매핑시키기 위한 개념 구조 매퍼, 도메인-일반 데이터로 상기 추출된 표현을 연쇄시키기 위한 연쇄 모듈, 그리고 상기 매핑되거나 연쇄된 표현에서 비현실적 표현을 식별하고 필터링하기 위한 필터 장치를 포함한다.
음성 인식 시스템, 통계적 언어 모델링, 표현 추출

Description

음성 인식에 있어서의 통계적 언어 모델링을 위한 방법{METHOD FOR STATISTICAL LANGUAGE MODELING IN SPEECH RECOGNITION}
본 발명은 음성 인식에 있어서의 통계적 언어 모델링을 위한 방법에 관한 것이다.
음성 인식은 발성된 파형을, 예컨대 영어로 표현된 문장과 같은, 단어들의 텍스트 문자열로 변환하는 프로세스로 정의될 수 있다.
음성 인식 프로세스는 세 가지의 주요 단계들, 즉 프런트-엔드 단계(front-end phase), 음향 모델링 단계(acoustic modeling phase) 및 언어 모델링 단계(language modeling phase)로 분류될 수 있다. 프런트-엔드 단계에서는, 두드러진 특징을 알아내기 위해 "미가공(raw)" 음성 신호들은 스펙트럼적으로 분석하고, 이를 디지털적으로 인코딩된 특징 벡터들(feature vectors)의 시퀀스로 변환한다. 음향 모델링 단계에서는, 음향 환경, 성별과 방언의 차이 및 음운에 관한 지식을 이용하여 단음 시퀀스(예컨대, 단순 모음 또는 자음 음성들)를 추출하기 위해 특징 벡터들의 시퀀스가 검사된다. 언어 모델링 단계에서는, 무엇이 가능한 단어를 구성하는지, 어떠한 단어들이 발생할 수 있는지 및 어떠한 문장이 존재하는지에 관한 지식을 이용하여 단음 시퀀스가 대응하는 단어 시퀀스들로 변환된다.
최근의 진보에도 불구하고, 음성 인식 시스템은 인간이 지니는 정교한 수준에 이르지 못한 것으로 여겨지고 있다. 특히, 다양한 음향 환경과 결합된 언어의 복잡성 및 난해함으로 인해, 진정으로 인간과 유사한 음성 인식 시스템을 구현하는 데 있어 심각한 문제가 야기된다. 예를 들어, 음성 인식 시스템은 구어의 어휘적, 문법적 복잡성 및 다양성뿐만 아니라, 상이한 강세 및 발음 스타일에 대처하여야 한다. 그러므로, 복잡성을 줄이고 불확실성을 제한하기 위해, 음성 인식 시스템은, 예컨대 항공기 비행/여행 정보 시스템(ATIS) 또는 전화 디렉토리 정보 시스템과 같은 특정 도메인(domain)의 응용들을 위해 소규모로 설치될 수도 있다.
고품질의 음성 인식 시스템을 구성하기 위해서는, 시스템의 음성 번역을 지도하고 시스템으로 하여금 적절한 동작을 결정할 수 있도록 하기 위해, 다양한 언어 현상을 갖는 대량의 도메인 데이터를 필요로 할 수 있다. 예컨대, 대략 2,000 단어의 중간 크기 애플리케이션에 특유한 도메인을 지원하는 음성 인식 시스템에서는, 적절한 언어 훈련 모델(training model)을 구성하기 위해, 20,000 개의 "도메인 내(in-domain)" 문자들을 수집할 필요가 있을 수 있다. 이러한 시스템의 데이터 수집은 지루하고, 시간 낭비적이고 고비용일 수 있으며, 발음 스타일이나 관용어법의 사용과 같은 음성의 중요한 관점들을 무시할 수도 있다. 더욱이, 만약 수집된 도메인 내 문장들의 개수가 필수적인 양보다 적다면, 시스템이 그 특정 도메인에서 사용된 모든 다양한 가능한 표현들을 충분히 포함하기에 충분한 데이터를 가지고 있지 않아, "데이터 희박"이라는 문제가 발생할 수 있다. 따라서, 새로운 응용 도메인을 지원하기 위해 음성 인식 시스템을 훈련시키는 것은 수집될 필요가 있는 데이터량으로 인해 상당량의 시간과 노력을 필요로 할 수 있다.
음성 대화 시스템에 있어서는, 데이터 합성을 위한 다양한 기술이 존재할 수 있다. Hunt, A와 Black, A에 의해 저술된 논문 "Unit Selection in a concatenative speech synthesis system using a large speech database" (Proc of ICASSP-96 (1996), Atlanta, GA.)에 언급된 바와 같이, 음성 합성은, 먼저 운율적 특징과 함께 음성을 합성하기 위해 필요한 음운열을 정의하는 타겟 요구사양을 설정한 후, 연쇄(concatenation)를 위해 데이터베이스로부터 적합한 음운 유닛들을 선택함으로써 이루어진다. M. Rayner 등(편집자)의 Spoken Language Translator(Cambridge 대학 출판사 (2000) 281)에 실린, Weng, F.L, Stolcke, A. 및 Cohen, M에 의한 논문 "Language Modeling for Multilingual Speech Translation"에서 언급된 바와 같이, 사전에 존재하는 문법이 문구 덩어리들(phase chuncks)(즉, 완전한 또는 부분적인 발음)을 생성하는데 사용될 수 있으며, 그 후 이들 문구 덩어리들은 소량의 도메인 내 데이터(예컨대, 수천 문장들)와 보간될 수도 있다. Brown, P. F. 등에 의한 "Class-Based n-gram Models of Natural Language" (Association for Computational Linguistics" 18(4) (1992), pp. 467-479)에서 언급된 바와 같이, 텍스트 샘플에서 이전의 단어들로부터 단어를 예측하는 문제는 단어 클래스들에 기초한 n-그램 모델들을 통해 해결될 수 있다. n-그램 모델들은 다른 단어들과 동시 발생되는 빈도에 기초하여 클래스들에 단어들을 할당하기 위해 통계적 알고리즘을 이용한다. 단어 클래스들은 언어 모델링에서 사용되어, 음성 인식이나 문법 수정과 같은 광범위한 응용들을 제공할 수도 있다. 하위- 차수의 n-그램은 충분히 긴 거리 정보를 포함하지 않으며, 고위-차수의 n-그램 모델은 가용하거나/하고 실행가능하지 않을 수 있는 대량의 훈련 데이터를 필요로 할 수 있기 때문에, 이러한 접근법을 통해서는 새로운 도메인들을 위한 데이터를 생성하는 것이 용이하지 않다.
본 발명의 예시적인 실시예 및/또는 예시적인 방법은, 기존의 도메인 데이터, 언어학 지식 및 통계적 기법을 사용하여 새로운 도메인 데이터를 구성함으로써 음성 인식 시스템의 데이터 수집 요구사항들을 감소 내지 제거할 수 있다. 하나의 음성 응용 도메인을 위해 개발된 데이터가 최소의 또는 보다 적은 노력으로 또 다른 음성 응용 도메인을 위한 데이터에 적용될 수 있도록, 인간의 대화에 있어서의 상당량의 언어 현상은 하나의 음성 응용 도메인에서 다른 음성 응용 도메인으로 전달될 수 있다고 여겨지고 있다. 이러한 점에서, 본 발명은 다수의 일반적으로 이용가능한 소스(sources), 예컨대 펜실베이니아 대학교의 언어 데이터 컨소시엄(LDC)에 의한 Penn Treebank 내의 스위치보드 또는 예컨대, WordNet과 같은 온라인 어휘 참조 시스템과 같은 소스를 이용하여, 새로운 데이터를 생성할 수 있다.
다른 데이터 수집 기법들과는 달리, 본 발명의 예시적인 방법은 기존 도메인-특유(domain-specific) 문법에 새로운 도메인을 위한 데이터를 생성하도록 요구하지 않을 수 있는데, 이는 새로운 도메인과 연관된 다수의 문법 제한이 기존의 도메인에 내재하는 것으로 여겨지기 때문이다. 따라서, 새로운 도메인을 위한 어휘만을 필요로 할 수 있다. 이러한 점에서, 기존 도메인의 도메인-특유 데이터는, 예컨대 20,000개의 문장들과 같은 합리적인 크기일 수 있으며, 이로써 새로운 도메인을 위한 데이터를 생성하기 위한 시작 기초로서 사용될 수 있다.
본 발명의 예시적인 실시예 및/또는 예시적인 방법은, 예컨대 단어 수준에서 새로운 도메인을 위한 문장 세트를 생성하도록 동작하는 언어 및 통계적 계측을 포함하는 언어 및 통계적 계측을 이용하여 데이터를 합성할 수도 있다. 이러한 점에서, 새로운 도메인을 위한 어휘 및 개념 매핑 테이블(concept mapping table)을 제외하고는, 타겟 요구사양은 필요로 하지 않을 수 있다.
또한, 본 발명의 예시적인 실시예 및/또는 예시적인 방법은 인접하는 단어들 및 문구 사이의 통계적 관계에 의존할 수도 있는데, 이것은, 예컨대 합성된 데이터에 있어서의 국부적 및 전역적 자연스러움을 모두 제공하기 위해 국부적 및 전역적 연어관계(collocation) 통계와 함께 언어적 불변성을 이용하는 것을 포함한다.
본 발명의 예시적인 실시예 및/또는 예시적인 방법은, 예컨대 자동차 항법 시스템, 호텔 및 레스토랑 정보 시스템, 휴대용 디바이스 및 이동 전화기를 포함하는 다양한 응용 도메인을 위한 데이터를 생성할 수 있다. 또한, 본 발명의 예시적인 실시예 및/또는 예시적인 방법은, 새로운 사용자들이 운전을 하거나, 걷거나, 비행하고 있거나 하는 등에 상관없이 구어 대화 시스템으로부터 이익을 얻을 수 있도록, 새로운 응용들을 구어 대화 시스템에 추가하기 위한 시간량을 감소시킬 수도 있다.
본 발명의 예시적인 실시예는, 언어학 지식의 기초를 사용하여 기존 도메인의 도메인-특유 데이터로부터 표현을 추출하기 위한 표현 추출기, 추출된 표현을 새로운 도메인에 대한 어휘를 사용하여 새로운 도메인에서의 표현으로 매핑시키기 위한 개념 구조 매퍼(concept structure mapper), 추출된 표현을 도메인-일반 데이터(domain-general data)와 접합시키기 위한 연쇄 모듈(concatenation module) 및 매핑되고 연쇄된 표현 중 적어도 하나에서 비현실적인 표현을 식별하여 필터링하기 위한 필터 장치를 구비한 음성 인식 시스템을 위한 언어 모델링 데이터를 생성하는 시스템에 관한 것이다.
본 발명의 다른 예시적인 실시예는 미리 존재하는 도메인-특유 문법 없이도 언어 모델링 데이터를 생성하도록 구성된 시스템에 관한 것이다.
본 발명의 또 다른 예시적인 실시예는, 추출된 표현이 도메인-불변 표현(domain-invariant expression)을 포함하는 시스템에 관한 것이다.
본 발명의 또 다른 예시적인 실시예는, 추출된 표현이 관용 표현, 시제 표현, 공간 표현 및 화폐 표현을 포함하는 시스템에 관한 것이다.
본 발명의 또 다른 예시적인 실시예는, 추출된 표현이 결합된 시제 및 공간 표현을 포함하는 시스템에 관한 것이다.
본 발명의 또 다른 예시적인 실시예는, 언어학 지식의 기초가 어휘 참조 소스를 포함하는 시스템에 관한 것이다.
본 발명의 또 다른 예시적인 실시예는, 어휘 참조 소스가 사전을 포함하는 시스템에 관한 것이다.
본 발명의 또 다른 예시적인 실시예는, 사전이 전자 사전을 포함하는 시스템에 관한 것이다.
본 발명의 또 다른 예시적인 실시예는, 전자 사전이 데이터 네트워크를 통해 이용가능한 시스템에 관한 것이다.
본 발명의 또 다른 예시적인 실시예는, 데이터 네트워크가 인터넷을 포함하는 시스템에 관한 것이다.
본 발명의 또 다른 예시적인 실시예는, 개념 구조 매퍼가 기존 도메인 내의 적어도 하나의 단어를 새로운 도메인 내의 적어도 하나의 단어와 상관시키기 위한 도메인-특유 단어-쌍 매핑 테이블(domain-specific word-pair mapping table)을 포함하는 시스템에 관한 것이다.
본 발명의 예시적인 방법은 음성 인식 시스템을 위한 언어 모델링 데이터를 생성하는 것에 관한 것으로, 상기 방법은 언어학 지식의 기초를 이용하여 기존의 도메인에 대한 도메인-특유 데이터로부터 표현을 추출하는 단계, 새로운 도메인에 대한 어휘를 이용하여, 추출된 표현을 새로운 도메인에서의 표현으로 매핑하는 단계, 도메인-일반 데이터를 사용하여, 추출된 데이터를 연쇄시키는 단계 및 매핑되고 연쇄된 표현 중 적어도 하나를 필터링하는 단계를 포함한다.
본 발명의 다른 예시적인 방법은 언어 모델링 데이터의 생성에 관한 것으로, 추출된 표현을 매핑시키는 상기 단계는, 기존 도메인 내의 적어도 하나의 단어를 식별하고 이를 새로운 도메인 내의 적어도 하나의 단어와 상관시키기 위해 도메인-특유 단어-쌍 매핑 테이블을 설정하는 단계를 포함한다.
본 발명의 또 다른 예시적인 방법은 언어 모델링 데이터의 생성에 관한 것으로, 추출된 표현을 매핑시키는 상기 단계는 매핑된 표현의 자연성을 검증하기 위하여 매핑된 표현에 대해 인접 단어 연어관계 검증 테스트를 수행하는 단계를 포함한다.
본 발명의 또 다른 예시적인 방법은 언어 모델링 데이터의 생성에 관한 것으로, 상기 연쇄 단계는 인접 단어들 및 인접 문구들 중 적어도 하나의 매끄러움(smoothness)을 보장하기 위하여 연쇄된 표현의 통계적 연어관계 측정을 수행하는 단계 및 새로운 도메인에 대한 후보 문장들을 형성하기 위해 고도로 연어관계가 있는 쌍들(highly-collocated pairs)을 연결(chaining)시키는 단계를 포함한다.
본 발명의 또 다른 예시적인 방법은 언어 모델링 데이터의 생성에 관한 것으로, 상기 필터링 단계는 후보 문장들의 부가적인 통계적 연어관계 측정을 수행하는 단계 및 미리 정의된 값 이하의 연어관계 값을 갖는 후보 문장들을 제거하는 단계를 포함한다.
본 발명의 다른 예시적인 방법은, 새로운 도메인이 네비게이션 시스템, 호텔 정보 시스템 및 레스토랑 정보 시스템 중의 적어도 하나를 포함하는 언어 모델링 데이터를 생성하는 것에 관한 것이다.
본 발명의 또 다른 예시적인 방법은, 네비게이션 시스템이 자동차 네비게이션 시스템을 포함하는 언어 모델링 데이터를 생성하는 것에 관한 것이다.
본 발명의 또 다른 예시적인 방법은, 네비게이션 시스템이 휴대용 디바이스를 포함하는 언어 모델링 데이터를 생성하는 것에 관한 것이다.
본 발명의 또 다른 예시적인 방법은 휴대용 디바이스가 휴대폰을 포함하는 언어 모델링 데이터를 생성하는 것에 관한 것이다.
본 발명의 예시적인 실시예 및/또는 예시적인 방법은 명령어 세트를 갖는 저장 매체에 관한 것인데, 상기 명령어 세트는 프로세서에 의해 실행가능하며, 언어 지식의 베이스를 이용하여 기존 도메인에 대한 도메인-특유 데이터로부터 표현을 추출하는 단계, 새로운 도메인에 대한 어휘(vocabulary)를 이용하여 추출된 표현을 새로운 표현에 매핑하는 단계, 도메인-일반 데이터를 이용하여 추출된 표현을 연쇄하는 단계, 그리고 매핑 및 연쇄된 표현 중의 적어도 하나를 필터링하는 단계를 포함하는 시퀀스를 수행하는 방법을 구현한다.
도 1은 새로운 도메인에 대한 어휘 및 언어 지식의 베이스를 이용하여, 새로운 애플리케이션 도메인에서 사용하기 위하여 개발된 하나의 애플리케이션 도메인에 대한 데이터 세트를 위한 예시적인 시스템의 도면.
도 2는 새로운 애플리케이션 도메인에서 사용하기 위하여 개발된 하나의 애플리케이션 도메인에 대한 데이터 세트를 위한 예시적인 방법을 나타내는 도면.
도 3은 표현을 추출하기 위한 예시적인 방법을 나타내는 도면.
도 4는 wh-타입 표현을 추출하기 위한 예시적인 방법을 나타내는 도면.
도 5는 태그된 문장(tagged sentences)의 서브세트로부터 wh-타입 표현을 추출하기 위한 예시적인 방법을 나타내는 도면.
도 6은 시간, 날짜 및 위치에 대한 연속적인 표현을 추출하기 위한 예시적인 방법을 나타내는 도면.
도 7은 아웃-구문 정의된 태그 세트(out-phrase defined tag set)가 아닌, 인-구문 정의된 태그 세트(in-phrase defined tag set)로부터 태그로 라벨링된 단어를 갖는 구문들을 추출하기 위한 예시적인 방법을 나타내는 도면.
도 8은 구문들을 추출하기 위한 예시적인 방법을 나타내는 도면.
도 9는 기존 도메인으로부터의 표현을 새로운 도메인에서의 대응하는 표현으로 매핑시키기 위한 예시적인 방법을 나타내는 도면.
도 10은 대안적 표현, 수용가능한 표현 및 수용불가한 표현의 세트를 이용하여 기존 도메인으로부터의 표현을 새로운 도메인으로 매핑하기 위한 예시적인 방법을 나타내는 도면.
도 11은 항공 교통 정보 시스템(ATIS; Airline Traffic Information System)의 표현을 자동차 네비게이션 시스템에 매핑시키는데 도움을 주기 위한 대안적인 표현 쌍의 예시적인 테이블을 나타내는 도면.
도 12는 항공 교통 정보 시스템 및 자동차 네비게이션 시스템으로부터의 번역을 위한 수용 가능한 표현의 예시적인 테이블을 나타내는 도면.
도 13은 연어관계 통계(collocation statistics)를 생성하기 위한 예시적인 방법을 나타내는 도면.
도 14는 표현을 연쇄시키기 위한 예시적인 방법을 나타내는 도면.
도 15는 표현을 필터링하기 위한 예시적인 방법을 나타내는 도면.
본 발명의 예시적인 실시예는 컴퓨터, 마이크로프로세서 또는 본 명세서에 기술된 방법을 수행하거나 구현하는데 사용되는 다른 적절한 프로세싱 장치를 포함 할 수 있다.
도 1은 새로운 도메인에 대한 어휘 및 언어 지식의 베이스를 이용하는 새로운 애플리케이션 도메인에서 사용하기 위하여 개발된 하나의 애플리케이션 도메인에 대한 데이터 세트를 위한 예시적인 시스템(100)을 도시한다. 예시적인 시스템(100)은 관용 표현 추출기(101), 개념 구조 매퍼(102), 연쇄 모듈(103) 및 필터 장치(104)를 포함한다. 관용 표현 추출기(101)는 대화 스타일의 표현을 생성하기 위하여 일반적으로 이용 가능한 사전 또는 다른 소스로부터의 언어 지식(152) 및 기존 도메인으로부터의 도메인-특유 데이터(domain-specific data; 151)를 이용한다. 개념 구조 매퍼(102)는 기존 도메인과 새로운 도메인 사이의 도메인-특유 표현들의 매핑을 설정하기 위하여 새로운 도메인로부터의 어휘(154)를 이용한다. 연쇄 모듈(103)은 새로운 도메인에 대한 표현(155)을 생성하기 위하여 추출된 표현 및 도메인-일반 데이터를 이용한다. 필터링 장치(104)는 비현실적인 표현을 제거한다.
도 2는 새로운 애플리케이션 도메인에서 사용하기 위하여 개발된 하나의 애플리케이션 도메인에 대한 데이터 세트를 위한 예시적인 방법(100)을 도시한다. 예시적인 방법(100)은 추출 단계(S21), 개념 매핑 단계(S22) 및/또는 연쇄 단계(S23) 및 필터링 단계(S24)를 포함한다. 추출 단계(S21)에서, 도메인-특유 표현을 얻기 위하여 언어 지식 베이스를 사용하여 대화 스타일을 갖는 언어 표현이 추출된다. 개념 매핑 단계(S22)에서, 타겟 도메인의 새로운 구조가 획득된다. 연쇄 단계(S23)에서, 타겟 도메인의 새로운 문장 패턴이 이용 가능한 데이터 소스와 결합된다. 필터링 단계(S24)에서, 부적절하거나 바람직하지 않아 보이는 표현의 조합이 새로운 도메인으로부터 제거된다. 각각의 단계들(S21 내지 S24)은 이하에서 보다 자세히 설명된다.
추출 단계(S21)에 있어서, 롱맨 출판사에서 출판된 현대 영어 롱맨 사전이나 프린스턴 대학의 George Miller 교수 및 동료들에 의해 제공된 오픈 소스인 WordNet(인지 과학 그룹의 프린스터 대학 웹 사이트 참조)과 같은 언어 지식 베이스를 사용하여 기존 도메인-특유 데이터 세트로부터 대화 형식을 갖는 언어 표현이 추출된다. 특히, 관용 표현, 시제 표현 및/또는 공간 표현의 세 가지 타입의 표현을 추출할 수 있다. 관용 표현은 특정 언어의 특이하거나 특징적인 표현들로서, 예컨대 문장 시작 표현(예컨대, "I would like to" 또는 "Please tell me"), 문장 종결 표현(예컨대, "You got it right?" 또는 "Is it ok?") 및 접속어(예컨대, "Now" 또는 "But")를 포함할 수 있다. 시제 표현은 하루 중의 시간 또는 날짜(예컨대, "Monday, January 14, 2003" 또는 "till 3:00 o'clock in the afternoon")와 같은 시간의 측면을 전달하는 것이다. 공간 표현은 지리학적인 위치 또는 지점(예컨대, "in Palo Alto, California")에 대한 언급과 같은 공간적인 측면을 나타낸다. 추출 타겟을 두 타입의 조합으로 하여, 보다 자연스러운 추출 표현을 얻을 수 있다는 점에서, 시제 및 공간 표현은 함께 추출될 수 있다.
관용 표현, 시제 표현 및 공간 표현은 도메인-불변(domain-invariant) 경향이 있는데, 즉 특정한 애플리케이션 도메인에 특유하지 않고 임의의 도메인에서 발견될 수 있다. 따라서, 일단 추출되면, 관용 표현, 시제 표현 및 공간 표현은 문장 연결 또는 통합의 기초 유닛으로 기능할 수 있다. 관용, 시제 및 공간 외에, 예컨대 금융 표현 및 사람과 조직에 대한 적절한 이름과 같은 다른 도메인-특유 표현을 추출할 수 있다.
개념 매핑 단계(S22)에서, 기존 애플리케이션 도메인의 도메인-특유 표현들은 새로운 애플리케이션 도메인의 대응 단어들로 매핑된다. 특히, 새로운 도메인에서 하나 이상의 대응하는 단어와 유사한 개념을 전달하는 기존 도메인 내의 하나 이상의 단어를 식별하고 상관시키기 위하여 도메인-특유 단어-쌍 매핑 테이블(domain-specific word-pair mapping table)을 설정할 수 있다. 예컨대, 항공 여행 정보 시스템(ATIS; Air Travel Information System) 애플리케이션 도메인에 대한 "fly"라는 단어는 자동차 네비게이션 시스템 애플리케이션 도메인에 대한 "drive"라는 단어와 유사한 개념을 전달할 수 있고, 또는 텔레비전 프로그램 가이드 애플리케이션 도메인에 대한 "scan"라는 단어는 전화 디렉토리 보조 애플리케이션 도메인에 대한 "look up"이라는 단어와 유사한 개념을 전달할 수 있다.
도메인-특유 단어-쌍 매핑 테이블은 수많은 "표제" 단어 즉, 주요 명사, 동사 또는 다른 표현구에 대한 매핑을 포함할 수 있는데, 이들 표제 단어들은 현대 영어 롱맨 사전 또는 WordNet과 같은 일반적으로 이용 가능한 사전으로부터 이들의 대응 주제 구조(corresponding argument structure)와 함께 기존 도메인으로부터 추출된다.
개념 매핑 단계(S22)는, 예컨대 일상적인 대화에서 두 개의 단어가 어느 정도의 빈도로 함께 쌍으로 발생하는지를 측정하는 χ2-테스트 또는 가능 비율 테스트(likelihood rate test) 또는 상호 정보 테스트와 같은 인접 단어 연어관계 검증 테스트(neighboring word collocation verification test)를 더 포함할 수 있다. 이러한 테스트들은 생성된 데이터의 "자연스러움(naturalness)"을 확인하기 위하여 사용되는 단어 연어관계 통계적 측정(word collocation statistical measurement)을 생성한다. 특히, 높은 연어관계 통계적 측정치는 해당 쌍이 "실생활" 대화에서 자주 함께 사용되는 것을 나타내는 반면, 낮은 연어관계 통계적 측정치는 해당 쌍이 거의 함께 사용되지 않거나, 전혀 사용되지 않는다는 것을 나타낸다. 따라서, 검증에 대하여 일정한 통계 측정치가 얻어진 경우에만 매핑이 성공적인 것으로 간주된다.
특정 단어가 자연스러운지 여부를 결정함에 있어서, 인접 단어 연어관계 검증 테스트는, 두 단어 중의 어느 하나 또는 두 개 모두를 갖지 않는 다른 단어 쌍들에 비하여 두 단어가 얼마나 함께 자주 발생하는지를 판단할 수 있다. 예컨대, 특정 단어 쌍(w1, w2)이 특정 데이터 세트에서 자연스러운지를 알고 싶다면, (w1, w2), (w1, ~w2), (~w1, w2) 및 (~w1, ~w2)의 네 가지 가능한 경우에 대하여 통계 측정을 수행할 수 있는데, 여기서 (w1, w2)은 상기 단어들이 쌍으로서 발생하는 것을 나타내고, (w1, ~w2)는 w2가 아닌 임의의 단어와 w1이 발생하는 경우를 나타내며, (~w1, w2)는 w1이 아닌 임의의 단어와 w2가 발생하는 경우를 나타내고, (~w1, ~w2)는 w1이 아닌 임의의 단어와 w2가 아닌 임의의 단어가 함께 발생하는 경우를 나타낸다. 네 가지 가능한 발생 시나리오에 대한 통계가 생성되면, 결과값인 χ2 수치가 일정한 임계치와 비교된다. χ2 수치가 임계치보다 높으면, 단어 쌍 (w1, w2)은 자연스러운 것으로 간주되고, 그렇지 않으면 단어쌍 (w1, w2)은 부자연스러운 것으로 간주된다.
개념 매핑 단계(S22)의 대안으로서 또는 그에 부가하여, 추출된 표현의 적절한 "매끄러움(smoothness)"을 보장하도록 연쇄 단계(S23)가 발생한다. 연쇄 단계는 로컬 레벨 연쇄 및 글로벌 레벨 연쇄의 두 레벨로 구현될 수 있다. 로컬 레벨에서, 인접 단어/문구의 각각의 쌍의 매끄러움을 보장하기 위하여 통계적 연어관계 측정이 사용된다. 글로벌 레벨에서, 후보 문장들을 형성하기 위하여 유효한 쌍들이 연쇄된다.
두 문구의 매끄러움을 측정하는 경우, 대응하는 문구의 표제어가 연어관계에 사용된다. 문구 표제어를 인식하기 위하여, 키워드 스팟팅 기술(keyword spotting technique)이 사용될 수 있다. 키워드 스팟팅 기술은, 문구가 특정 의미 카테고리에 속하는지 여부 및 어떠한 단어가 해당 문구의 표제어인지를 식별하기 위하여 큐(cue)를 사용한다. 예컨대, "street"라는 단어는 거리 명칭 문구의 의미 카테고리에 대한 큐일 뿐만 아니라, 거리 명칭 문구(예컨대, Main Street)에 대한 표제 단어가 될 수 있으며, "city"라는 단어는 도시 명칭 문구의 의미 카테고리의 큐 및 도시 명칭 문구(예컨대, New York City)에 대한 표제어가 될 수 있고, "to"라는 단어는 목적지 문구의 의미 카테고리에 대한 큐가 될 수 있다.
인접 단어 쌍 통계는, 예컨대 Wall Street Journal in Penn Treebank 데이터 세트와 같은 비 도메인-특유 데이터로부터 얻어질 수도 있고, 도메인 독립적인 것으로 간주될 수도 있다. 이는 표제어 쌍 통계에 대해서도 마찬가지이다.
필터링 단계(S24)에서, 획득된 데이터가 지나치게 이상하지 않도록, 새로운 도메인에서 발생할 가능성이 적은 것으로 보이는 비현실적인 표현 또는 표현 조합은 필터링될 수 있다. 비현실적인 패턴은 원어민에 의해 또는 자동 과정을 통해 지정될 수 있다. 자동 과정에 있어서, 단어들의 문장은 상기 최초 두 단계의 부산 물인 의미 카테고리의 시퀀스로 변환된다. 메인 동작 또는 동사, 그리고 의미 카테고리의 시퀀스가 결정되면, 임의의 일반 자료에서 발생 빈도를 측정할 수 있다.
도 3은 표현 추출을 위한 예시적인 방법(300)을 도시한다. 단계(S31)에서는, 예컨대 "who", "what", "where", "when", "why", "which", "one of which" 및 "whatever"와 같은 표현들을 포함하는 wh-타입 표현들이 추출된다. 단계(S32)에서는 시간, 날짜 및 위치 표현들이 추출된다. 특히, "연속적"이거나 "순수한"(즉, 다른 타입의 표현을 포함하지 않음) 시간, 날짜 및 위치 표현만이 추출된다. 단계(S33)에서는 동사, 명사, 형용사, 부사, 한정사(determiner) 및 다른 공개 세트 요소들(open set elements)이, 예컨대 상용화된 태깅 애플리케이션(tagging application)을 통해 추출된다.
도 4는 wh-타입 표현을 추출하기 위한 예시적인 방법(400)을 도시한다. 단계(S41)에서는, 기존 도메인(A)의 문장들이 문구 태그들(phrase tags)로 라벨링되어, 기존 도메인의 태깅된 문장들(tagged sentences)의 세트(ST_A)를 형성한다. 단계(S42)에서는, 담화 표시자들(discourse markers)로 시작되며 wh-타입 단어들을 포함하는 문장들에 대해, 태깅된 문장들의 세트(ST_A)가 검색되어, 담화 표시자들 및 wh-타입 단어들을 갖는 기존 도메인의 태깅된 문장들의 서브세트(Sdw_A)를 형성한다. 단계(S43)에서는, 담화 표시자들 및 wh-타입 단어들을 갖는 기존 도메인의 태깅된 문장들의 서브세트(Sdw_A)의 각각의 문장으로부터 wh-타입 표현이 얻어져서, wh-타입 문구들(Swhp)을 형성한다.
도 5는 담화 표시자들 및 wh-타입 단어들을 갖는 기존 도메인의 태깅된 문장들의 서브세트(Sdw_A)의 각각의 문장으로부터 wh-타입 표현을 얻기 위한 예시적인 방법(500)을 도시한다. 단계(S51)에서, 현재의 태깅된 문장의 두 번째 위치에 있는 단어는, 그것이 태깅되었는지 여부를 확인하기 위해 검사되는데, 그러한 태깅은, 예컨대 전치사, 접속사 또는 한정사 등의 세트와 같은 태깅된 단어들의 특정 세트에 그 단어가 속함을 나타낸다. 현재 위치에 있는 단어가 태깅된 경우에는, 단계(S52)에서 첫 번째 위치로부터 현재 위치까지의 단어 시퀀스가 wh-타입 문구들의 세트(Swhp)에 추가되며, 그렇지 않은 경우에는, 단계(S53)에서 다음 위치가 검사된다. 예시적인 방법(500)은 담화 표시자들 및 wh-타입 단어들을 갖는 기존 도메인의 태깅된 문장들의 서브세트(Sdw_A) 내의 각각의 문장에 대하여 수행된다.
도 6은 시간, 날짜 및 위치에 대한 연속적 표현을 추출하기 위한 예시적인 방법을 도시한다. 단계(S61)에서는, 시간, 날짜 및/또는 위치 문구를 구성하는 것과 관련된 태그들 및 단어들의 세트가 결정되어, "문구-내(in-phrase)" 태그 세트로서 집합적으로 식별된다. 이러한 단어들은, 예컨대 국부화된 시간 표현(an expression of localized time), 낮 또는 밤의 기간, 달력의 날짜, 평일(weekday), 월(month), 음력 주기(lunar cycle), 지리적 위치 또는 장소, 또는 이들의 임의의 조합뿐만 아니라, 그러한 단어들을 연결하기 위한 전치사 및/또는 접속사를 포함할 수 있다. 단계(S62)에서는, 예컨대 애플리케이션 특유 명사, 대명사, 동사, 조동사, 기타 또는 이들의 임의의 조합을 통해, 애플리케이션 도메인-특유 어휘(application domain-specific vocabulary)가 생성된다. 단계(S63)에서는 시간, 날짜 및 장소를 표현하는 것과 일반적으로 관련이 없다고 간주될 수 있는 태그들 및 단어들의 세트가 결정되어, "문구-외(out-phrase)" 세트로서 집합적으로 식별된다. 단계(S64)에서는, 문구-외 태그 세트로부터가 아닌, 문구-내 태그 세트로부터의 태그들로 라벨링된 단어들을 갖는 문구들이 추출된다.
도 7은 문구-외 태그 세트가 아닌, 문구-내 태그 세트로부터의 태그들로 라벨링된 단어들을 갖는 문구들을 추출하기 위한 예시적인 방법(700)을 도시한다. 단계(S71 및 S72)에서, b-문구(b-phrase)는 오프로 설정되고, 문장의 단어들이 첫 번째 위치로부터 마지막 위치까지 순차적으로 검사된다. 현재 검사된 단어가 문구-외 태그 세트 내의 태그로 라벨링된 경우에는, 단계(S73)에서 종결 표현(terminating expression)이 제거되며, 그렇지 않고 현재 검사된 단어가 문구-내 태그 세트 내의 태그로 라벨링된 경우에는, 단계(S74)에서 b-문구 플래그가 온으로 설정되며, b-문구 플래그가 온인 경우에는, 단계(S75)에서 그 문구가 연쇄된다.
도 8은 문구 표현을 추출하기 위한 예시적인 방법(800)을 도시한다. 단계(S81 및 S83)에서, 입력된 표현은, 문구-내 표현의 세트 내에 포함된 단어 대하여, 순차적으로 마지막 위치에서 시작하여 첫 번째 위치까지 역순으로 검사된다. 단어가 문구-내 표현의 세트 내에 포함되는 것으로 발견된 경우에는, 단계(S82)에서, 첫 번째 단어에서 시작하여 현재 단어까지의 단어들의 시퀀스가 반환된다(returned).
도 9는 기존 도메인으로부터의 표현을 신규 도메인 내의 대응하는 표현으로 매핑하기 위한 예시적인 방법(900)을 도시한다. 단계(S91)에서는, 신규 도메인 내에 존재하는 대안적이거나 대체가능한 표현들에 대응하는, 기존 도메인 내에 존재하는 표현들의 세트가 생성된다. 단계(S92)에서는, 신규 도메인 내에 존재하는 수용가능한 표현들에 대응하는, 기존 도메인 내에 존재하는 표현들의 세트가 생성된다. 단계(S93)에서는, 신규 도메인 내에 존재하지 않는 표현들의 세트가 생성된다. 단계(S94)에서는, 상술된 대안적 표현, 수용가능한 표현 및 수용불가한 표현의 세 개의 새로 생성된 세트, 그리고 기존 도메인의 태깅된 문장들의 세트(ST_A)를 사용하여, 기존 도메인으로부터 신규 도메인으로의 표현의 매핑이 수행된다.
도 10은 상술된 대안적 표현, 수용가능한 표현 및 수용불가한 표현의 세 개의 새로 생성된 세트들, 및 기존 도메인의 태깅된 문장들의 세트(ST_A)를 사용하여, 기존 도메인으로부터 신규 도메인으로 표현을 매핑하기 위한 예시적인 방법(1000)을 도시한다. 단계(S1001)에서, 상술된 대안적 표현, 수용가능한 표현 및 수용불가한 표현의 새로 생성된 세 세트에 포함되는 표현에 대하여, 태깅된 문장이 검사된다. 표현이 대안적 표현들의 세트에 포함되는 것으로 발견된 경우에는, 단계(S1002)에서 그 표현이 대안적 표현으로 대체된다. 표현이 수용가능한 표현들의 세트에 포함되는 것으로 발견된 경우에는, 단계(S1003)에서 그 표현은 변경되지 않은 채로 있는다. 표현이 수용불가한 표현들의 세트에 포함되는 것으로 발견된 경우에는, 단계(S1004)에서 그 문장이 제거되며, 그렇지 않은 경우에는, 단계(S1005)에서 그 문장은 신규 도메인의 태깅된 문장들의 세트(ST_B) 내에 포함된다. 예시적인 방법(1000)은 기존 도메인의 태깅된 문장들의 세트(ST_A) 내의 각각의 문장에 대하여 수행된다.
도 11은 항공 교통 정보 시스템(airline traffic information system; ATIS) 애플리케이션 도메인의 표현들을 자동차 내비게이션 시스템 애플리케이션 도메인의 표현들로 매핑하는 것을 돕는, 대안적 표현 쌍들의 예시적인 테이블(1100)을 도시한다. 대문자 엔트리들(uppercase entries)은 문구 태그들을 나타내며 소문자 엔트리들은 표현의 실제 단어들을 나타낸다.
도 12는 항공 교통 정보 시스템(ATIS) 애플리케이션 도메인을 자동차 내비게이션 시스템 애플리케이션 도메인으로 직접 번역(translation)하기 위해 수용될 수 있는 표현들의 예시적인 테이블(1200)을 도시한다. 직접적인 번역을 위해 수용 가능한 타입의 표현들은, 예컨대 장소, 날짜, 시간, 돈, wh-타입, 전치사, 접속사, 조동사 및 한정사 표현들을 포함한다.
도 13은 연어관계 통계를 생성하기 위한 예시적인 방법(1300)을 도시한다. 단계(S1301)에서, 가능한 표현의 모든 서브세트들이 수집된다. 이러한 서브세트들은, 예컨대 문장-시작 태그(sentence-begin tag)로 시작하고 문장-끝 태그(sentence-end tag)로 종결되며, wh-타입의 모든 표현들(예를 들면, 모든 wh-명사, wh-동사 및 wh-문장들을 포함함)의 세트, 시간의 모든 표현들의 세트, 장소의 모든 표현들의 세트, 모든 조동사들의 세트, 모든 접속사들의 세트, 신규 도메인 내의 모든 동사들의 세트, 신규 도메인 내의 모든 명사들의 세트 및 신규 도메인 내의 모든 형용사들의 세트로부터의 요소들의 임의의 조합을 포함하는 표현들을 포함할 수 있다. 단계(S1302)에서, 가능한 표현의 서브세트의 각각의 인스턴스(instance)는 서브세트의 모든 다른 인스턴스와 짝지어져서 모든 가능한 표현 쌍들(pairs of expression)을 형성한다. 단계(S1303)에서는, 가능한 표현의 쌍들의 각각의 인스턴스에 대하여 연어관계 값(collocation value)이 계산되어 미리 정의된 임계치와 비교된다. 계산된 연어관계 값이 임계치를 초과하는 경우에는, 단계(S1304)에서, 그 특정 쌍의 경우가 고도로 연어관계가 있는 쌍들(highly-collocated pairs)의 세트 내에 저장된다.
도 14는 표현을 연쇄하기 위한, 특히 고도로 연어관계가 있는 쌍들의 세트를 신규 도메인을 위한 종합된 문장들(synthesized sentences)로 연쇄하기 위한, 예시적인 방법(1400)을 도시한다. 단계(S1401)에서, 쌍의 첫 번째 위치(즉, 쌍의 왼쪽 부분)에 문장-시작 태그를 포함하는, 고도로 연어관계가 있는 쌍들의 세트에 저장된 모든 표현 쌍들은, 신규 도메인을 위한 문장 스트링을 시작하게 된다. 단계(S1402)에서는, 문장-끝 태그(sentence-end tag)를 만나서 문장 스트링이 완성될 때까지, 각각의 문장 스트링은, 그 문장 스트링의 가장 왼쪽 부분과 매칭되는 오른쪽 부분을 갖는 쌍과 반복적으로 연쇄된다. 단계(S1403)에서는, 완성된 문장 스트링들이 신규 도메인의 태깅된 문장들의 세트(ST_B)에 할당된다. 고도로 연어관계가 있는 표현 쌍들로부터 종합된 문장들을 구축하기 위한 예시적인 방법(1400)은 반복적인 방식(recursive manner)으로 구현될 수 있다.
예시적인 연쇄 의사 코드(Concatenation pseudo code)는 다음과 같다.
Figure 112006001280427-pct00018
도 15는 표현을 필터링하기 위한 예시적인 방법(1500)을 도시한다. 단계(S1501)에서, 각각의 종합된 문장은 동사, 명사, 시간, 날짜 및 장소 요소들이 존재하는 경우에 그것들을 식별하도록 검사된다. 단계(S1502)에서, 그 요소들에 대한 연어관계 값들이 계산된다. 예컨대, 연어관계 값들은 문장의 연결된 동사/명사, 동사/시간, 동사/날짜, 동사/장소, 명사/시간, 명사/날짜 및 명사/장소 요소 쌍들에 대하여 계산된다. 단계(S1503)에서, 미리 정의된 값보다 낮은, 계산된 연어관계 값을 갖는 연결된 요소 쌍들이 제거된다.
예시적인 필터 의사 코드(Filter pseudo code)는 다음과 같다.
Figure 112006001280427-pct00019

Claims (29)

  1. 음성 인식 시스템을 위한 언어 모델링 데이터를 생성하기 위한 시스템으로서,
    언어 지식의 베이스(base)를 사용하여 현재 도메인의 도메인-특유 데이터(domain-specific data)로부터 표현(expression)을 추출하기 위한 표현 추출기;
    새로운 도메인에 대한 어휘(vocabulary)를 사용하여 상기 추출된 표현을 상기 새로운 도메인에서의 표현으로 매핑하기 위한 개념 구조 매퍼(concept structure mapper);
    상기 추출된 표현을 도메인-일반 데이터(domain-general data)와 연쇄시키기 위한 연쇄 모듈(concatenation module); 및
    상기 매핑되고 연쇄된 표현 중 적어도 하나에서 비현실적인 표현을 식별하고 필터링하기 위한 필터 장치(filter arrangement)
    를 포함하는 시스템.
  2. 제1항에 있어서,
    상기 시스템은 기존(pre-existing) 도메인-특유 문법 없이 상기 언어 모델링 데이터를 생성하도록 구성된 시스템.
  3. 제1항에 있어서,
    상기 추출된 표현은 도메인-불변 표현(domain-invariant expression)을 포함하는 시스템.
  4. 제1항에 있어서,
    상기 추출된 표현은 관용적 표현, 시간적 표현, 공간적 표현 및 금전적 표현 중 적어도 하나를 포함하는 시스템.
  5. 제1항에 있어서,
    상기 추출된 표현은 시간적 표현과 공간적 표현이 결합된 표현을 포함하는 시스템.
  6. 제1항에 있어서,
    상기 언어 지식의 베이스는 사전적 참조 소스(lexical reference source)를 포함하는 시스템.
  7. 제6항에 있어서,
    상기 사전적 참조 소스는 사전을 포함하는 시스템.
  8. 제7항에 있어서,
    상기 사전은 전자 사전을 포함하는 시스템.
  9. 제8항에 있어서,
    상기 전자 사전은 데이터 네트워크를 통해서 이용가능한 시스템.
  10. 제9항에 있어서,
    상기 데이터 네트워크는 인터넷을 포함하는 시스템.
  11. 제1항에 있어서,
    상기 개념 구조 매퍼는 상기 현재 도메인에 있어서의 적어도 하나의 단어(word)를 상기 새로운 도메인에 있어서의 적어도 하나의 단어와 상호연관시키기 위한 도메인-특유 단어-쌍 매핑 테이블(domain-specific word-pair mapping table)을 포함하는 시스템.
  12. 음성 인식 시스템을 위한 언어 모델링 데이터를 생성하기 위한 방법으로서,
    언어 지식의 베이스를 사용하여 현재 도메인에 대한 도메인-특유 데이터로부터 표현을 추출하는 단계;
    새로운 도메인에 대한 어휘를 사용하여, 상기 추출된 표현을 상기 새로운 도메인에서의 표현으로 매핑하는 단계;
    도메인-일반 데이터를 사용하여 상기 추출된 표현을 연쇄시키는 단계; 및
    상기 매핑되고 연쇄된 표현 중 적어도 하나를 필터링하는 단계
    를 포함하는 방법.
  13. 제12항에 있어서,
    상기 추출된 표현을 매핑하는 상기 단계는, 상기 현재 도메인에 있어서의 적어도 하나의 단어를 상기 새로운 도메인에 있어서의 적어도 하나의 단어와 식별하고 상호연관시키기 위한 도메인-특유 단어-쌍 매핑 테이블을 설정하는 단계를 포함하는 방법.
  14. 제12항에 있어서,
    상기 추출된 표현을 매핑하는 상기 단계는, 상기 매핑된 표현의 자연스러움(naturalness)을 검증하기 위하여, 상기 매핑된 표현에 대하여 인접 단어 연어관계 검증 테스트(neighboring word collocation verification test)를 수행하는 단계를 포함하는 방법.
  15. 제12항에 있어서,
    상기 연쇄시키는 단계는,
    인접 단어들 및 인접 문구들(phrases) 중 적어도 하나의 매끄러움(smoothness)을 보장하기 위하여, 상기 연쇄된 표현의 통계적 연어관계 측정(statistical collocation measurement)을 수행하는 단계; 및
    상기 새로운 도메인에 대한 후보 문장들을 형성하기 위하여 고도로 연어관계가 있는 쌍들을 연결하는 단계
    를 포함하는 방법.
  16. 제15항에 있어서,
    상기 필터링하는 단계는,
    상기 후보 문장들에 대하여 추가적인 통계적 연어관계 측정을 수행하는 단계; 및
    미리 정의된 값 이하의 연어관계 값(collocation value)을 갖는 후보 문장들을 제거하는 단계
    를 포함하는 방법.
  17. 제12항에 있어서,
    상기 새로운 도메인은 네비게이션 시스템, 호텔 정보 시스템 및 식당 정보 시스템 중 적어도 하나를 포함하는 방법.
  18. 제17항에 있어서,
    상기 네비게이션 시스템은 자동차 네비게이션 시스템을 포함하는 방법.
  19. 제17항에 있어서,
    상기 네비게이션 시스템은 휴대용 디바이스(hand-held device)를 포함하는 방법.
  20. 제19항에 있어서,
    상기 휴대용 디바이스는 이동 전화기를 포함하는 방법.
  21. 명령어들의 세트가 상주하는 저장 매체로서, 상기 명령어들의 세트는 프로세서에 의해 실행가능하여서,
    언어 지식의 베이스를 사용하여 현재 도메인에 대한 도메인-특유 데이터로부터 표현을 추출하는 단계;
    새로운 도메인에 대한 어휘를 사용하여 상기 추출된 표현을 상기 새로운 도메인에서의 표현으로 매핑하는 단계;
    도메인-일반 데이터를 사용하여 상기 추출된 표현을 연쇄시키는 단계; 및
    상기 매핑되고 연쇄된 표현 중 적어도 하나를 필터링하는 단계
    를 수행하기 위한 방법을 구현하는 저장 매체.
  22. 제21항에 있어서,
    상기 추출된 표현을 매핑하는 상기 단계는, 상기 현재 도메인에 있어서의 적어도 하나의 단어를 상기 새로운 도메인에 있어서의 적어도 하나의 단어와 식별하고 상호연관시키기 위한 도메인-특유 단어-쌍 매핑 테이블을 설정하는 단계를 포함하는 저장 매체.
  23. 제21항에 있어서,
    상기 추출된 표현을 매핑하는 상기 단계는, 상기 매핑된 표현의 자연스러움을 검증하기 위하여, 상기 매핑된 표현에 대하여 인접 단어 연어관계 검증 테스트를 수행하는 단계를 포함하는 저장 매체.
  24. 제21항에 있어서,
    상기 연쇄시키는 단계는,
    인접 단어들 및 인접 문구들 중 적어도 하나의 매끄러움을 보장하기 위하여 상기 연쇄된 표현의 통계적 연어관계 측정을 수행하는 단계; 및
    상기 새로운 도메인에 대한 후보 문장들을 형성하기 위하여 고도로 연어관계에 있는 쌍들을 연결하는 단계
    를 포함하는 저장 매체.
  25. 제24항에 있어서,
    상기 필터링하는 단계는, 상기 후보 문장들에 대하여 추가적인 통계적 연어관계 측정을 수행하는 단계; 및
    미리 정의된 값 이하의 연어관계 값을 갖는 후보 문장들을 제거하는 단계
    를 포함하는 저장 매체.
  26. 제21항에 있어서,
    상기 새로운 도메인은 네비게이션 시스템, 호텔 정보 시스템 및 식당 정보 시스템 중 적어도 하나를 포함하는 저장 매체.
  27. 제26항에 있어서,
    상기 네비게이션 시스템은 자동차 네비게이션 시스템을 포함하는 저장 매체.
  28. 제26항에 있어서,
    상기 네비게이션 시스템은 휴대용 디바이스를 포함하는 저장 매체.
  29. 제28항에 있어서,
    상기 휴대용 디바이스는 이동 전화기를 포함하는 저장 매체.
KR1020057020518A 2003-04-30 2004-04-08 음성 인식에 있어서의 통계적 언어 모델링을 위한 방법 KR100660495B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/427,601 2003-04-30
US10/427,601 US7197457B2 (en) 2003-04-30 2003-04-30 Method for statistical language modeling in speech recognition
PCT/US2004/010992 WO2004100126A2 (en) 2003-04-30 2004-04-08 Method for statistical language modeling in speech recognition

Publications (2)

Publication Number Publication Date
KR20060007407A KR20060007407A (ko) 2006-01-24
KR100660495B1 true KR100660495B1 (ko) 2006-12-22

Family

ID=33310197

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057020518A KR100660495B1 (ko) 2003-04-30 2004-04-08 음성 인식에 있어서의 통계적 언어 모델링을 위한 방법

Country Status (7)

Country Link
US (1) US7197457B2 (ko)
EP (1) EP1623412B1 (ko)
JP (1) JP4740837B2 (ko)
KR (1) KR100660495B1 (ko)
CN (1) CN100380370C (ko)
DE (1) DE602004028008D1 (ko)
WO (1) WO2004100126A2 (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
JP4267385B2 (ja) * 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
EP1851756B1 (en) * 2005-02-17 2008-07-02 Loquendo S.p.A. Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system
US20080130699A1 (en) * 2006-12-05 2008-06-05 Motorola, Inc. Content selection using speech recognition
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US20090132237A1 (en) * 2007-11-19 2009-05-21 L N T S - Linguistech Solution Ltd Orthogonal classification of words in multichannel speech recognizers
KR101005786B1 (ko) * 2008-12-10 2011-01-06 한국전자통신연구원 차량용 네비게이션 단말기의 음성인식 방법
WO2010125736A1 (ja) * 2009-04-30 2010-11-04 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体
US8359311B2 (en) 2010-06-01 2013-01-22 Microsoft Corporation Federated implicit search
US9679561B2 (en) 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US9064492B2 (en) * 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
CN104021186A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 基于语音识别的航班动态智能查询系统及方法
KR102386863B1 (ko) 2015-09-09 2022-04-13 삼성전자주식회사 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치
RU2618374C1 (ru) * 2015-11-05 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Выявление словосочетаний в текстах на естественном языке
CN107844473B (zh) * 2017-09-25 2020-12-18 沈阳航空航天大学 基于语境相似度计算的词义消歧方法
US11107475B2 (en) 2019-05-09 2021-08-31 Rovi Guides, Inc. Word correction using automatic speech recognition (ASR) incremental response
CN110473524B (zh) * 2019-08-30 2022-03-15 思必驰科技股份有限公司 语音识别系统的构建方法和装置
KR102306053B1 (ko) * 2020-03-16 2021-09-29 주식회사 이드웨어 음성 인식 모델을 이용한 노년층 대상의 언어 훈련 방법 및 그 장치

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04291399A (ja) * 1991-03-20 1992-10-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
US6311157B1 (en) * 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
JPH0713598A (ja) * 1993-06-24 1995-01-17 Osaka Gas Co Ltd 特定タスク音声データベース生成装置
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
JP4243017B2 (ja) * 1997-09-17 2009-03-25 シーメンス アクチエンゲゼルシヤフト コンピュータによる言語認識の際に少なくとも2つの単語から成るシーケンスの発生する確率を求める方法
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords
WO2000073936A1 (en) * 1999-05-28 2000-12-07 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
JP3961780B2 (ja) * 2001-05-15 2007-08-22 三菱電機株式会社 言語モデル学習装置およびそれを用いた音声認識装置
JP2003036093A (ja) * 2001-07-23 2003-02-07 Japan Science & Technology Corp 音声入力検索システム
EP1320086A1 (en) * 2001-12-13 2003-06-18 Sony International (Europe) GmbH Method for generating and/or adapting language models

Also Published As

Publication number Publication date
US7197457B2 (en) 2007-03-27
JP4740837B2 (ja) 2011-08-03
CN1836225A (zh) 2006-09-20
US20040220813A1 (en) 2004-11-04
CN100380370C (zh) 2008-04-09
DE602004028008D1 (de) 2010-08-19
JP2006525552A (ja) 2006-11-09
WO2004100126A2 (en) 2004-11-18
EP1623412B1 (en) 2010-07-07
EP1623412A2 (en) 2006-02-08
WO2004100126A3 (en) 2006-06-01
KR20060007407A (ko) 2006-01-24
EP1623412A4 (en) 2008-03-19

Similar Documents

Publication Publication Date Title
KR100660495B1 (ko) 음성 인식에 있어서의 통계적 언어 모델링을 위한 방법
Issar Estimation of language models for new spoken language applications
Schultz et al. Multilingual speech processing
US8346537B2 (en) Input apparatus, input method and input program
Batliner et al. The prosody module
JP2005520251A (ja) 名前付きエンティティの翻訳
JPWO2016067418A1 (ja) 対話制御装置および対話制御方法
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
JP2012037790A (ja) 音声対話装置
Lamel et al. Recent Developments in Spoken Language Sytems for Information Retrieval
Yang et al. Vocabulary expansion through automatic abbreviation generation for Chinese voice search
Ronzhin et al. Survey of russian speech recognition systems
JP2005257954A (ja) 音声検索装置、音声検索方法および音声検索プログラム
Zevallos Text-to-speech data augmentation for low resource speech recognition
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
Wang et al. YINHE: a Mandarin Chinese version of the GALAXY system.
Wang Porting the galaxy system to Mandarin Chinese
Safarik et al. Unified approach to development of ASR systems for East Slavic languages
Tucker et al. The local language speech technology initiative
KR101068120B1 (ko) 다중 탐색 기반의 음성 인식 장치 및 그 방법
Gibbon et al. Spoken Language Characterization
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
Wang Statistical analysis of mandarin acoustic units and automatic extraction of phonetically rich sentences based upon a very large chinese text corpus
Schaden CrossTowns: Automatically Generated Phonetic Lexicons of Cross-lingual Pronunciation Variants of European City Names.
Watanabe et al. Xinjian Li Carnegie Mellon University

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121206

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131206

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141209

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151207

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20161212

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20171205

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20181210

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20191209

Year of fee payment: 14