KR100735559B1 - 언어 모델 구축 장치 및 방법 - Google Patents
언어 모델 구축 장치 및 방법 Download PDFInfo
- Publication number
- KR100735559B1 KR100735559B1 KR1020050110934A KR20050110934A KR100735559B1 KR 100735559 B1 KR100735559 B1 KR 100735559B1 KR 1020050110934 A KR1020050110934 A KR 1020050110934A KR 20050110934 A KR20050110934 A KR 20050110934A KR 100735559 B1 KR100735559 B1 KR 100735559B1
- Authority
- KR
- South Korea
- Prior art keywords
- state
- grammar
- dependent
- head
- database
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (19)
- 유한 스테이트 문법(Finite State Grammar)에 의해 규정된 적어도 하나 이상의 스테이트로 구성된 스테이트 스키마를 트리 구조 데이터를 구성 요소로 가지는 일반 문법 데이터베이스를 이용하여 확장하는 스키마 확장부;상기 확장된 스테이트 스키마를 구성하는 각 스테이트가 표현할 수 있는 문법 구조를 상기 일반 문법 데이터베이스를 이용하여 확장하는 문법 구조 확장부; 및상기 확장된 문법 구조에 대해 상기 일반 문법 데이터베이스를 이용하여 잘못된 문법 구조를 필터링하여 걸러내는 문법 구조 필터부를 포함하며,상기 스테이트는 문장 내에서 중심적 의미를 가지는 헤드 스테이트와 상기 헤드 스테이트를 제외한 스테이트인 의존 스테이트로 분류되는, 언어 모델 구축 장치.
- 제 1 항에 있어서,상기 일반 문법 데이터베이스는,품사구 또는 품사절의 구조와 의미, 상기 구조를 구성하는 어휘 및 상기 어휘의 품사에 대한 데이터를 포함하는 트리 구조 데이터를 구성 요소로 가지는, 언어 모델 구축 장치.
- 제 2 항에 있어서,상기 스키마 확장부는,상기 적어도 하나 이상의 스테이트를 상기 헤드 스테이트와 상기 의존 스테이트로 분류하는 스테이트 분류부;상기 분류된 헤드 스테이트와 동일한 스테이트가 루트 노드에 존재하는 트리 구조 데이터를 상기 일반 문법 데이터베이스로부터 검색하는 문법 검색부; 및상기 검색된 트리 구조 데이터의 문장 성분의 수와 상기 헤드 스테이트에 부가된 의존 스테이트의 수를 비교하여 상기 비교 결과에 따라 상기 스테이트 스키마를 확장하는 비교 확장부를 포함하는, 언어 모델 구축 장치.
- 제 3 항에 있어서,상기 스테이트 분류부는,상기 적어도 하나 이상의 스테이트로부터 상기 스테이트에 대한 정보를 포함하는 태그 정보를 추출하는 태그 정보 추출부;상기 추출된 태그 정보로부터 상기 스테이트가 단독으로 표현할 수 있는 어구(phrase) 또는 상기 스테이트 간 연결에 의해 표현할 수 있는 어구에 대한 정보를 추출하는 어구 정보 추출부; 및상기 어구 정보 추출부에 의해 추출된 정보를 이용하여 상기 적어도 하나 이상의 스테이트를 상기 헤드 스테이트와 상기 의존 스테이트로 분류하는 분류부를 포함하는, 언어 모델 구축 장치.
- 제 3 항에 있어서,상기 비교 확장부는,상기 문장 성분의 수가 상기 의존 스테이트의 수보다 큰 경우에는, 상기 문장 성분에 상응하는 스테이트를 상기 의존 스테이트로 추가하고,상기 문장 성분의 수가 상기 의존 스테이트의 수보다 작은 경우에는, 상기 트리 구조 데이터에 표현되지 않고 있는 스테이트를 상기 의존 스테이트로부터 삭제하며,상기 문장 성분의 수와 상기 의존 스테이트의 수가 동일한 경우에는, 상기 트리 구조 데이터의 어순 배열을 참조하여 상기 의존 스테이트의 어순 배열을 조절하는, 언어 모델 구축 장치.
- 제 5 항에 있어서,상기 문법 구조 확장부는,상기 확장된 스테이트 스키마에 포함되어 있는 헤드 스테이트가 표현할 수 있는 문법 구조를 상기 일반 문법 데이터베이스를 이용하여 확장하는 헤드 스테이트 확장부; 및상기 확장된 헤드 스테이트를 수식하는 의존 스테이트가 표현할 수 있는 문법 구조를 상기 일반 문법 데이터베이스를 이용하여 확장하는 의존 스테이트 확장부를 포함하는, 언어 모델 구축 장치.
- 제 6 항에 있어서,상기 확장은,상기 헤드 또는 의존 스테이트를 동일한 품사구에 상응하는 트리 구조 데이터로 대체하는 대체 과정 및 상기 대체 과정을 수행한 스테이트와 스테이트 사이에 상기 트리 구조 데이터를 첨가하는 첨가 과정을 포함하는, 언어 모델 구축 장치.
- 제 7 항에 있어서,상기 문법 구조 필터부는,상기 대체 과정 및 상기 첨가 과정을 수행하여 생성되는 결합 스테이트의 결합 노드를 구성하는 제 1 결합 노드와 제 2 결합 노드의 특성값을 서로 비교하는 특성값 비교부; 및상기 비교된 두 특성값이 일치하는 경우에는 상기 일치된 특성값을 상기 결합 스테이트의 특성값으로 부여함으로써 상기 결합 스테이트를 상기 일반 문법 데이터베이스에 저장하고, 상기 비교된 두 특성값이 일치하지 않는 경우에는 상기 대체 과정 및 상기 첨가 과정이 실패한 것으로 보아 상기 결합 스테이트를 상기 일반 문법 데이터베이스에 저장하지 않는 필터부를 포함하는, 언어 모델 구축 장치.
- 제 8 항에 있어서,상기 필터부는,상기 제 1 결합 노드 또는 상기 제 2 결합 노드의 특성값이 복수로 존재하는 경우에는, 상기 제 1 결합 노드와 상기 제 2 결합 노드의 특성값의 교집합에 해당하는 특성값만을 상기 결합 스테이트의 특성값으로 부여함으로써 상기 결합 스테이트를 상기 일반 문법 데이터베이스에 저장하는, 언어 모델 구축 장치.
- (a) 유한 스테이트 문법(Finite State Grammar)에 의해 규정된 적어도 하나 이상의 스테이트로 구성된 스테이트 스키마를 트리 구조 데이터를 구성 요소로 가지는 일반 문법 데이터베이스를 이용하여 확장하는 단계;(b) 상기 확장된 스테이트 스키마를 구성하는 각 스테이트가 표현할 수 있는 문법 구조를 상기 일반 문법 데이터베이스를 이용하여 확장하는 단계; 및(c) 상기 확장된 문법 구조에 대해 상기 일반 문법 데이터베이스를 이용하여 잘못된 문법 구조를 필터링하여 걸러내는 단계를 포함하며,상기 스테이트는 문장 내에서 중심적 의미를 가지는 헤드 스테이트와 상기 헤드 스테이트를 제외한 스테이트인 의존 스테이트로 분류되는, 언어 모델 구축 방법.
- 제 10 항에 있어서,상기 일반 문법 데이터베이스는,품사구 또는 품사절의 구조와 의미, 상기 구조를 구성하는 어휘 및 상기 어휘의 품사에 대한 데이터를 포함하는 트리 구조 데이터를 구성 요소로 가지는, 언어 모델 구축 방법.
- 제 11 항에 있어서,상기 (a) 단계는,(a1) 상기 적어도 하나 이상의 스테이트를 상기 헤드 스테이트와 상기 의존 스테이트로 분류하는 단계;(a2) 상기 분류된 헤드 스테이트와 동일한 스테이트가 루트 노드에 존재하는 트리 구조 데이터를 상기 일반 문법 데이터베이스로부터 검색하는 단계; 및(a3) 상기 검색된 트리 구조 데이터의 문장 성분의 수와 상기 헤드 스테이트에 부가된 의존 스테이트의 수를 비교하여 상기 비교 결과에 따라 상기 스테이트 스키마를 확장하는 단계를 포함하는, 언어 모델 구축 방법.
- 제 12 항에 있어서,상기 (a1) 단계는,상기 적어도 하나 이상의 스테이트로부터 상기 스테이트에 대한 정보를 포함하는 태그 정보를 추출하는 단계;상기 추출된 태그 정보로부터 상기 스테이트가 단독으로 표현할 수 있는 어구(phrase) 또는 상기 스테이트 간 연결에 의해 표현할 수 있는 어구에 대한 정보를 추출하는 단계; 및상기 추출된 어구에 대한 정보를 이용하여 상기 적어도 하나 이상의 스테이트를 상기 헤드 스테이트와 상기 의존 스테이트로 분류하는 단계를 포함하는, 언어 모델 구축 방법.
- 제 12 항에 있어서,상기 (a3) 단계는,상기 문장 성분의 수가 상기 의존 스테이트의 수보다 큰 경우에는, 상기 문장 성분에 상응하는 스테이트를 상기 의존 스테이트로 추가하고,상기 문장 성분의 수가 상기 의존 스테이트의 수보다 작은 경우에는, 상기 트리 구조 데이터에 표현되지 않고 있는 스테이트를 상기 의존 스테이트로부터 삭제하며,상기 문장 성분의 수와 상기 의존 스테이트의 수가 동일한 경우에는, 상기 트리 구조 데이터의 어순 배열을 참조하여 상기 의존 스테이트의 어순 배열을 조절하는, 언어 모델 구축 방법.
- 제 14 항에 있어서,상기 (b) 단계는,(b1) 상기 확장된 스테이트 스키마에 포함되어 있는 헤드 스테이트가 표현할 수 있는 문법 구조를 상기 일반 문법 데이터베이스를 이용하여 확장하는 단계; 및(b2) 상기 확장된 헤드 스테이트를 수식하는 의존 스테이트가 표현할 수 있는 문법 구조를 상기 일반 문법 데이터베이스를 이용하여 확장하는 단계를 포함하는, 언어 모델 구축 방법.
- 제 15 항에 있어서,상기 확장은,상기 헤드 또는 의존 스테이트를 동일한 품사구에 상응하는 트리 구조 데이터로 대체하는 대체 과정 및 상기 대체 과정을 수행한 스테이트와 스테이트 사이에 상기 트리 구조 데이터를 첨가하는 첨가 과정을 포함하는, 언어 모델 구축 방법.
- 제 16 항에 있어서,상기 (c) 단계는,(c1) 상기 대체 과정 및 상기 첨가 과정을 수행하여 생성되는 결합 스테이트의 결합 노드를 구성하는 제 1 결합 노드와 제 2 결합 노드의 특성값을 서로 비교하는 단계; 및(c2) 상기 비교된 두 특성값이 일치하는 경우에는 상기 일치된 특성값을 상기 결합 스테이트의 특성값으로 부여함으로써 상기 결합 스테이트를 상기 일반 문법 데이터베이스에 저장하고, 상기 비교된 두 특성값이 일치하지 않는 경우에는 상기 대체 과정 및 상기 첨가 과정이 실패한 것으로 보아 상기 결합 스테이트를 상기 일반 문법 데이터베이스에 저장하지 않는 단계를 포함하는, 언어 모델 구축 방법.
- 제 17 항에 있어서,상기 (c2) 단계는,상기 제 1 결합 노드 또는 상기 제 2 결합 노드의 특성값이 복수로 존재하는 경우에는, 상기 제 1 결합 노드와 상기 제 2 결합 노드의 특성값의 교집합에 해당 하는 특성값만을 상기 결합 스테이트의 특성값으로 부여함으로써 상기 결합 스테이트를 상기 일반 문법 데이터베이스에 저장하는 단계를 포함하는, 언어 모델 구축 방법.
- 제 10 항 내지 제 18 항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램 코드를 기록한 컴퓨터로 읽을 수 있는 기록 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050110934A KR100735559B1 (ko) | 2005-11-18 | 2005-11-18 | 언어 모델 구축 장치 및 방법 |
US11/545,484 US8255220B2 (en) | 2005-11-18 | 2006-10-11 | Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050110934A KR100735559B1 (ko) | 2005-11-18 | 2005-11-18 | 언어 모델 구축 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070053015A KR20070053015A (ko) | 2007-05-23 |
KR100735559B1 true KR100735559B1 (ko) | 2007-07-04 |
Family
ID=38098642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050110934A KR100735559B1 (ko) | 2005-11-18 | 2005-11-18 | 언어 모델 구축 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8255220B2 (ko) |
KR (1) | KR100735559B1 (ko) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1331630A3 (en) * | 2002-01-07 | 2006-12-20 | AT&T Corp. | Systems and methods for generating weighted finite-state automata representing grammars |
KR101149521B1 (ko) * | 2008-12-10 | 2012-05-25 | 한국전자통신연구원 | 도메인 온톨로지를 이용한 음성 인식 방법 및 그 장치 |
US9576570B2 (en) * | 2010-07-30 | 2017-02-21 | Sri International | Method and apparatus for adding new vocabulary to interactive translation and dialogue systems |
US8527270B2 (en) | 2010-07-30 | 2013-09-03 | Sri International | Method and apparatus for conducting an interactive dialogue |
EP2758958A4 (en) * | 2011-09-21 | 2015-04-08 | Nuance Communications Inc | EFFICIENT STEP-BY-STEP MODIFICATION OF OPTIMIZED FSTS FOR USE IN LANGUAGE APPLICATIONS |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
US10083685B2 (en) * | 2015-10-13 | 2018-09-25 | GM Global Technology Operations LLC | Dynamically adding or removing functionality to speech recognition systems |
US9966066B1 (en) * | 2016-02-03 | 2018-05-08 | Nvoq Incorporated | System and methods for combining finite state transducer based speech recognizers |
CN111858645A (zh) * | 2020-07-09 | 2020-10-30 | 上海达梦数据库有限公司 | 一种数据库对象处理方法、装置、设备及存储介质 |
KR102476104B1 (ko) * | 2022-06-27 | 2022-12-09 | 한국과학기술정보연구원 | 사전학습 언어모델 구축장치 및 사전학습 언어모델의 어휘 확장 방법 |
CN114860942B (zh) * | 2022-07-05 | 2022-10-04 | 北京云迹科技股份有限公司 | 文本意图分类方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010087328A (ko) * | 2000-03-06 | 2001-09-15 | 포만 제프리 엘 | 문법적 제한사항을 갖는 라벨러를 이용한 구두 발언 거절 |
JP2004271764A (ja) | 2003-03-06 | 2004-09-30 | Nagoya Industrial Science Research Inst | 有限状態変換器作成装置、プログラム、記録媒体、作成方法、及び漸進的構文解析装置 |
KR20050101695A (ko) * | 2004-04-19 | 2005-10-25 | 대한민국(전남대학교총장) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 |
KR20050101694A (ko) * | 2004-04-19 | 2005-10-25 | 대한민국(전남대학교총장) | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5806032A (en) * | 1996-06-14 | 1998-09-08 | Lucent Technologies Inc. | Compilation of weighted finite-state transducers from decision trees |
US6424983B1 (en) * | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
US6836760B1 (en) * | 2000-09-29 | 2004-12-28 | Apple Computer, Inc. | Use of semantic inference and context-free grammar with speech recognition system |
US7181386B2 (en) * | 2001-11-15 | 2007-02-20 | At&T Corp. | Systems and methods for generating weighted finite-state automata representing grammars |
-
2005
- 2005-11-18 KR KR1020050110934A patent/KR100735559B1/ko active IP Right Grant
-
2006
- 2006-10-11 US US11/545,484 patent/US8255220B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010087328A (ko) * | 2000-03-06 | 2001-09-15 | 포만 제프리 엘 | 문법적 제한사항을 갖는 라벨러를 이용한 구두 발언 거절 |
JP2004271764A (ja) | 2003-03-06 | 2004-09-30 | Nagoya Industrial Science Research Inst | 有限状態変換器作成装置、プログラム、記録媒体、作成方法、及び漸進的構文解析装置 |
KR20050101695A (ko) * | 2004-04-19 | 2005-10-25 | 대한민국(전남대학교총장) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 |
KR20050101694A (ko) * | 2004-04-19 | 2005-10-25 | 대한민국(전남대학교총장) | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
US8255220B2 (en) | 2012-08-28 |
US20070118353A1 (en) | 2007-05-24 |
KR20070053015A (ko) | 2007-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100735559B1 (ko) | 언어 모델 구축 장치 및 방법 | |
US10134388B1 (en) | Word generation for speech recognition | |
US9934777B1 (en) | Customized speech processing language models | |
US7299178B2 (en) | Continuous speech recognition method and system using inter-word phonetic information | |
US6501833B2 (en) | Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system | |
US9361879B2 (en) | Word spotting false alarm phrases | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
US20200273449A1 (en) | Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus | |
US8849668B2 (en) | Speech recognition apparatus and method | |
JPH08278794A (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
US7949527B2 (en) | Multiresolution searching | |
US8504359B2 (en) | Method and apparatus for speech recognition using domain ontology | |
Sak et al. | Discriminative reranking of ASR hypotheses with morpholexical and n-best-list features | |
KR100930714B1 (ko) | 음성인식 장치 및 방법 | |
KR100573870B1 (ko) | 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법 | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
Norouzian et al. | An approach for efficient open vocabulary spoken term detection | |
KR100277690B1 (ko) | 화행 정보를 이용한 음성 인식 방법 | |
KR101095864B1 (ko) | 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법 | |
Choueiter | Linguistically-motivated sub-word modeling with applications to speech recognition. | |
KR100908444B1 (ko) | 음소 인식 기반의 탐색공간 제한을 이용한 연속음성인식장치 및 방법 | |
Chung | Towards multi-domain speech understanding with flexible and dynamic vocabulary | |
Soltau et al. | Automatic speech recognition | |
Wang et al. | An iterative approach to model merging for speech pattern discovery | |
MAUČEC et al. | Using data-driven subword units in language model of highly inflective Slovenian language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130530 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140529 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150528 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160530 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170529 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20180530 Year of fee payment: 12 |