KR100660495B1 - 음성 인식에 있어서의 통계적 언어 모델링을 위한 방법 - Google Patents
음성 인식에 있어서의 통계적 언어 모델링을 위한 방법 Download PDFInfo
- Publication number
- KR100660495B1 KR100660495B1 KR1020057020518A KR20057020518A KR100660495B1 KR 100660495 B1 KR100660495 B1 KR 100660495B1 KR 1020057020518 A KR1020057020518 A KR 1020057020518A KR 20057020518 A KR20057020518 A KR 20057020518A KR 100660495 B1 KR100660495 B1 KR 100660495B1
- Authority
- KR
- South Korea
- Prior art keywords
- domain
- representation
- expression
- word
- extracted
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 86
- 230000014509 gene expression Effects 0.000 claims abstract description 67
- 238000013507 mapping Methods 0.000 claims abstract description 36
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 241000972773 Aulopiformes Species 0.000 claims description 18
- 235000019515 salmon Nutrition 0.000 claims description 18
- 238000005259 measurement Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims 2
- 238000000605 extraction Methods 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000013519 translation Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (29)
- 음성 인식 시스템을 위한 언어 모델링 데이터를 생성하기 위한 시스템으로서,언어 지식의 베이스(base)를 사용하여 현재 도메인의 도메인-특유 데이터(domain-specific data)로부터 표현(expression)을 추출하기 위한 표현 추출기;새로운 도메인에 대한 어휘(vocabulary)를 사용하여 상기 추출된 표현을 상기 새로운 도메인에서의 표현으로 매핑하기 위한 개념 구조 매퍼(concept structure mapper);상기 추출된 표현을 도메인-일반 데이터(domain-general data)와 연쇄시키기 위한 연쇄 모듈(concatenation module); 및상기 매핑되고 연쇄된 표현 중 적어도 하나에서 비현실적인 표현을 식별하고 필터링하기 위한 필터 장치(filter arrangement)를 포함하는 시스템.
- 제1항에 있어서,상기 시스템은 기존(pre-existing) 도메인-특유 문법 없이 상기 언어 모델링 데이터를 생성하도록 구성된 시스템.
- 제1항에 있어서,상기 추출된 표현은 도메인-불변 표현(domain-invariant expression)을 포함하는 시스템.
- 제1항에 있어서,상기 추출된 표현은 관용적 표현, 시간적 표현, 공간적 표현 및 금전적 표현 중 적어도 하나를 포함하는 시스템.
- 제1항에 있어서,상기 추출된 표현은 시간적 표현과 공간적 표현이 결합된 표현을 포함하는 시스템.
- 제1항에 있어서,상기 언어 지식의 베이스는 사전적 참조 소스(lexical reference source)를 포함하는 시스템.
- 제6항에 있어서,상기 사전적 참조 소스는 사전을 포함하는 시스템.
- 제7항에 있어서,상기 사전은 전자 사전을 포함하는 시스템.
- 제8항에 있어서,상기 전자 사전은 데이터 네트워크를 통해서 이용가능한 시스템.
- 제9항에 있어서,상기 데이터 네트워크는 인터넷을 포함하는 시스템.
- 제1항에 있어서,상기 개념 구조 매퍼는 상기 현재 도메인에 있어서의 적어도 하나의 단어(word)를 상기 새로운 도메인에 있어서의 적어도 하나의 단어와 상호연관시키기 위한 도메인-특유 단어-쌍 매핑 테이블(domain-specific word-pair mapping table)을 포함하는 시스템.
- 음성 인식 시스템을 위한 언어 모델링 데이터를 생성하기 위한 방법으로서,언어 지식의 베이스를 사용하여 현재 도메인에 대한 도메인-특유 데이터로부터 표현을 추출하는 단계;새로운 도메인에 대한 어휘를 사용하여, 상기 추출된 표현을 상기 새로운 도메인에서의 표현으로 매핑하는 단계;도메인-일반 데이터를 사용하여 상기 추출된 표현을 연쇄시키는 단계; 및상기 매핑되고 연쇄된 표현 중 적어도 하나를 필터링하는 단계를 포함하는 방법.
- 제12항에 있어서,상기 추출된 표현을 매핑하는 상기 단계는, 상기 현재 도메인에 있어서의 적어도 하나의 단어를 상기 새로운 도메인에 있어서의 적어도 하나의 단어와 식별하고 상호연관시키기 위한 도메인-특유 단어-쌍 매핑 테이블을 설정하는 단계를 포함하는 방법.
- 제12항에 있어서,상기 추출된 표현을 매핑하는 상기 단계는, 상기 매핑된 표현의 자연스러움(naturalness)을 검증하기 위하여, 상기 매핑된 표현에 대하여 인접 단어 연어관계 검증 테스트(neighboring word collocation verification test)를 수행하는 단계를 포함하는 방법.
- 제12항에 있어서,상기 연쇄시키는 단계는,인접 단어들 및 인접 문구들(phrases) 중 적어도 하나의 매끄러움(smoothness)을 보장하기 위하여, 상기 연쇄된 표현의 통계적 연어관계 측정(statistical collocation measurement)을 수행하는 단계; 및상기 새로운 도메인에 대한 후보 문장들을 형성하기 위하여 고도로 연어관계가 있는 쌍들을 연결하는 단계를 포함하는 방법.
- 제15항에 있어서,상기 필터링하는 단계는,상기 후보 문장들에 대하여 추가적인 통계적 연어관계 측정을 수행하는 단계; 및미리 정의된 값 이하의 연어관계 값(collocation value)을 갖는 후보 문장들을 제거하는 단계를 포함하는 방법.
- 제12항에 있어서,상기 새로운 도메인은 네비게이션 시스템, 호텔 정보 시스템 및 식당 정보 시스템 중 적어도 하나를 포함하는 방법.
- 제17항에 있어서,상기 네비게이션 시스템은 자동차 네비게이션 시스템을 포함하는 방법.
- 제17항에 있어서,상기 네비게이션 시스템은 휴대용 디바이스(hand-held device)를 포함하는 방법.
- 제19항에 있어서,상기 휴대용 디바이스는 이동 전화기를 포함하는 방법.
- 명령어들의 세트가 상주하는 저장 매체로서, 상기 명령어들의 세트는 프로세서에 의해 실행가능하여서,언어 지식의 베이스를 사용하여 현재 도메인에 대한 도메인-특유 데이터로부터 표현을 추출하는 단계;새로운 도메인에 대한 어휘를 사용하여 상기 추출된 표현을 상기 새로운 도메인에서의 표현으로 매핑하는 단계;도메인-일반 데이터를 사용하여 상기 추출된 표현을 연쇄시키는 단계; 및상기 매핑되고 연쇄된 표현 중 적어도 하나를 필터링하는 단계를 수행하기 위한 방법을 구현하는 저장 매체.
- 제21항에 있어서,상기 추출된 표현을 매핑하는 상기 단계는, 상기 현재 도메인에 있어서의 적어도 하나의 단어를 상기 새로운 도메인에 있어서의 적어도 하나의 단어와 식별하고 상호연관시키기 위한 도메인-특유 단어-쌍 매핑 테이블을 설정하는 단계를 포함하는 저장 매체.
- 제21항에 있어서,상기 추출된 표현을 매핑하는 상기 단계는, 상기 매핑된 표현의 자연스러움을 검증하기 위하여, 상기 매핑된 표현에 대하여 인접 단어 연어관계 검증 테스트를 수행하는 단계를 포함하는 저장 매체.
- 제21항에 있어서,상기 연쇄시키는 단계는,인접 단어들 및 인접 문구들 중 적어도 하나의 매끄러움을 보장하기 위하여 상기 연쇄된 표현의 통계적 연어관계 측정을 수행하는 단계; 및상기 새로운 도메인에 대한 후보 문장들을 형성하기 위하여 고도로 연어관계에 있는 쌍들을 연결하는 단계를 포함하는 저장 매체.
- 제24항에 있어서,상기 필터링하는 단계는, 상기 후보 문장들에 대하여 추가적인 통계적 연어관계 측정을 수행하는 단계; 및미리 정의된 값 이하의 연어관계 값을 갖는 후보 문장들을 제거하는 단계를 포함하는 저장 매체.
- 제21항에 있어서,상기 새로운 도메인은 네비게이션 시스템, 호텔 정보 시스템 및 식당 정보 시스템 중 적어도 하나를 포함하는 저장 매체.
- 제26항에 있어서,상기 네비게이션 시스템은 자동차 네비게이션 시스템을 포함하는 저장 매체.
- 제26항에 있어서,상기 네비게이션 시스템은 휴대용 디바이스를 포함하는 저장 매체.
- 제28항에 있어서,상기 휴대용 디바이스는 이동 전화기를 포함하는 저장 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/427,601 | 2003-04-30 | ||
US10/427,601 US7197457B2 (en) | 2003-04-30 | 2003-04-30 | Method for statistical language modeling in speech recognition |
PCT/US2004/010992 WO2004100126A2 (en) | 2003-04-30 | 2004-04-08 | Method for statistical language modeling in speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060007407A KR20060007407A (ko) | 2006-01-24 |
KR100660495B1 true KR100660495B1 (ko) | 2006-12-22 |
Family
ID=33310197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020057020518A KR100660495B1 (ko) | 2003-04-30 | 2004-04-08 | 음성 인식에 있어서의 통계적 언어 모델링을 위한 방법 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7197457B2 (ko) |
EP (1) | EP1623412B1 (ko) |
JP (1) | JP4740837B2 (ko) |
KR (1) | KR100660495B1 (ko) |
CN (1) | CN100380370C (ko) |
DE (1) | DE602004028008D1 (ko) |
WO (1) | WO2004100126A2 (ko) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
JP4267385B2 (ja) * | 2003-06-30 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
EP1851756B1 (en) * | 2005-02-17 | 2008-07-02 | Loquendo S.p.A. | Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system |
US20080130699A1 (en) * | 2006-12-05 | 2008-06-05 | Motorola, Inc. | Content selection using speech recognition |
US8332207B2 (en) * | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
US20090132237A1 (en) * | 2007-11-19 | 2009-05-21 | L N T S - Linguistech Solution Ltd | Orthogonal classification of words in multichannel speech recognizers |
KR101005786B1 (ko) * | 2008-12-10 | 2011-01-06 | 한국전자통신연구원 | 차량용 네비게이션 단말기의 음성인식 방법 |
WO2010125736A1 (ja) * | 2009-04-30 | 2010-11-04 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体 |
US8359311B2 (en) | 2010-06-01 | 2013-01-22 | Microsoft Corporation | Federated implicit search |
US9679561B2 (en) | 2011-03-28 | 2017-06-13 | Nuance Communications, Inc. | System and method for rapid customization of speech recognition models |
US9064492B2 (en) * | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
CN104021186A (zh) * | 2014-06-13 | 2014-09-03 | 中国民航信息网络股份有限公司 | 基于语音识别的航班动态智能查询系统及方法 |
KR102386863B1 (ko) | 2015-09-09 | 2022-04-13 | 삼성전자주식회사 | 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치 |
RU2618374C1 (ru) * | 2015-11-05 | 2017-05-03 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Выявление словосочетаний в текстах на естественном языке |
CN107844473B (zh) * | 2017-09-25 | 2020-12-18 | 沈阳航空航天大学 | 基于语境相似度计算的词义消歧方法 |
US11107475B2 (en) | 2019-05-09 | 2021-08-31 | Rovi Guides, Inc. | Word correction using automatic speech recognition (ASR) incremental response |
CN110473524B (zh) * | 2019-08-30 | 2022-03-15 | 思必驰科技股份有限公司 | 语音识别系统的构建方法和装置 |
KR102306053B1 (ko) * | 2020-03-16 | 2021-09-29 | 주식회사 이드웨어 | 음성 인식 모델을 이용한 노년층 대상의 언어 훈련 방법 및 그 장치 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04291399A (ja) * | 1991-03-20 | 1992-10-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
US6311157B1 (en) * | 1992-12-31 | 2001-10-30 | Apple Computer, Inc. | Assigning meanings to utterances in a speech recognition system |
JPH0713598A (ja) * | 1993-06-24 | 1995-01-17 | Osaka Gas Co Ltd | 特定タスク音声データベース生成装置 |
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
JP4243017B2 (ja) * | 1997-09-17 | 2009-03-25 | シーメンス アクチエンゲゼルシヤフト | コンピュータによる言語認識の際に少なくとも2つの単語から成るシーケンスの発生する確率を求める方法 |
US6021384A (en) * | 1997-10-29 | 2000-02-01 | At&T Corp. | Automatic generation of superwords |
WO2000073936A1 (en) * | 1999-05-28 | 2000-12-07 | Sehda, Inc. | Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces |
US6904402B1 (en) * | 1999-11-05 | 2005-06-07 | Microsoft Corporation | System and iterative method for lexicon, segmentation and language model joint optimization |
US7031908B1 (en) * | 2000-06-01 | 2006-04-18 | Microsoft Corporation | Creating a language model for a language processing system |
US20020087311A1 (en) * | 2000-12-29 | 2002-07-04 | Leung Lee Victor Wai | Computer-implemented dynamic language model generation method and system |
JP3961780B2 (ja) * | 2001-05-15 | 2007-08-22 | 三菱電機株式会社 | 言語モデル学習装置およびそれを用いた音声認識装置 |
JP2003036093A (ja) * | 2001-07-23 | 2003-02-07 | Japan Science & Technology Corp | 音声入力検索システム |
EP1320086A1 (en) * | 2001-12-13 | 2003-06-18 | Sony International (Europe) GmbH | Method for generating and/or adapting language models |
-
2003
- 2003-04-30 US US10/427,601 patent/US7197457B2/en active Active
-
2004
- 2004-04-08 JP JP2006509862A patent/JP4740837B2/ja not_active Expired - Fee Related
- 2004-04-08 CN CNB2004800186876A patent/CN100380370C/zh not_active Expired - Fee Related
- 2004-04-08 DE DE602004028008T patent/DE602004028008D1/de not_active Expired - Lifetime
- 2004-04-08 WO PCT/US2004/010992 patent/WO2004100126A2/en active Application Filing
- 2004-04-08 KR KR1020057020518A patent/KR100660495B1/ko active IP Right Grant
- 2004-04-08 EP EP04760530A patent/EP1623412B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7197457B2 (en) | 2007-03-27 |
JP4740837B2 (ja) | 2011-08-03 |
CN1836225A (zh) | 2006-09-20 |
US20040220813A1 (en) | 2004-11-04 |
CN100380370C (zh) | 2008-04-09 |
DE602004028008D1 (de) | 2010-08-19 |
JP2006525552A (ja) | 2006-11-09 |
WO2004100126A2 (en) | 2004-11-18 |
EP1623412B1 (en) | 2010-07-07 |
EP1623412A2 (en) | 2006-02-08 |
WO2004100126A3 (en) | 2006-06-01 |
KR20060007407A (ko) | 2006-01-24 |
EP1623412A4 (en) | 2008-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100660495B1 (ko) | 음성 인식에 있어서의 통계적 언어 모델링을 위한 방법 | |
Issar | Estimation of language models for new spoken language applications | |
Schultz et al. | Multilingual speech processing | |
US8346537B2 (en) | Input apparatus, input method and input program | |
Batliner et al. | The prosody module | |
JP2005520251A (ja) | 名前付きエンティティの翻訳 | |
JPWO2016067418A1 (ja) | 対話制御装置および対話制御方法 | |
Arısoy et al. | A unified language model for large vocabulary continuous speech recognition of Turkish | |
JP2012037790A (ja) | 音声対話装置 | |
Lamel et al. | Recent Developments in Spoken Language Sytems for Information Retrieval | |
Yang et al. | Vocabulary expansion through automatic abbreviation generation for Chinese voice search | |
Ronzhin et al. | Survey of russian speech recognition systems | |
JP2005257954A (ja) | 音声検索装置、音声検索方法および音声検索プログラム | |
Zevallos | Text-to-speech data augmentation for low resource speech recognition | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
Wang et al. | YINHE: a Mandarin Chinese version of the GALAXY system. | |
Wang | Porting the galaxy system to Mandarin Chinese | |
Safarik et al. | Unified approach to development of ASR systems for East Slavic languages | |
Tucker et al. | The local language speech technology initiative | |
KR101068120B1 (ko) | 다중 탐색 기반의 음성 인식 장치 및 그 방법 | |
Gibbon et al. | Spoken Language Characterization | |
JP2001117583A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
Wang | Statistical analysis of mandarin acoustic units and automatic extraction of phonetically rich sentences based upon a very large chinese text corpus | |
Schaden | CrossTowns: Automatically Generated Phonetic Lexicons of Cross-lingual Pronunciation Variants of European City Names. | |
Watanabe et al. | Xinjian Li Carnegie Mellon University |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121206 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20131206 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20141209 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20151207 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20161212 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20171205 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20181210 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20191209 Year of fee payment: 14 |