KR20060050277A - 다중 언어의 이름들의 음성 인식을 위한 방법 및 시스템 - Google Patents
다중 언어의 이름들의 음성 인식을 위한 방법 및 시스템 Download PDFInfo
- Publication number
- KR20060050277A KR20060050277A KR1020050071867A KR20050071867A KR20060050277A KR 20060050277 A KR20060050277 A KR 20060050277A KR 1020050071867 A KR1020050071867 A KR 1020050071867A KR 20050071867 A KR20050071867 A KR 20050071867A KR 20060050277 A KR20060050277 A KR 20060050277A
- Authority
- KR
- South Korea
- Prior art keywords
- name
- speech
- speech recognition
- names
- language
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000002156 mixing Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 241001672694 Citrus reticulata Species 0.000 description 24
- 230000001419 dependent effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
Description
음절 | 어두 | 어미 |
Nei | n_e | Ei |
Tuo | t-u | Uo |
Fa | f_a | A |
Ya | 0_I | Ia |
정확도 | 단일언어 | 혼합언어 | 크로스 에러 |
북경어 | 98.55% | 96.77% | 1.78% |
영어 | 95.01% | 94.04% | 0.97% |
Claims (8)
- 다수의 언어들의 이름들을 음성 인식하는 방법에 있어서,문자들을 포함하는 복수의 이름들을 나타내는 텍스트를 전자 디바이스상에 저장하는 단계;상기 이름들의 각각을 위한 적어도 하나의 언어를 식별하는 단계;복수의 언어 특정 글자-대-소리 변환기들을 사용하여 각 이름을 음성 단위(phonetic unit)들의 순서화된 시퀀스로 변환하는 단계;발성된 발음을 상기 전자 디바이스와 연관된 마이크로폰에서 수신하는 단계;상기 발음을 특징 벡터들로 변환하는 단계; 및적어도 하나의 이름의 음성 단위들의 상기 순서화된 시퀀스와 상기 특징 벡터를 매칭시키는 단계를 포함하는 음성 인식 방법.
- 제 1 항에 있어서, 적어도 하나의 이름의 음성 단위들의 상기 순서화된 시퀀스와 상기 특징 벡터들을 매칭시키는 단계는 상기 특징 벡터들과, 음성 단위들의 상기 순서화된 시퀀스들과, 자동 스피치 인식 엔진(automatic speech recognition engine)의 가우시안 혼합 파라미터(Gaussian mixture parameter)들을 비교함으로써 상기 특징 벡터들을 디코딩하는 단계를 포함하는, 음성 인식 방법.
- 제 2 항에 있어서, 상기 자동 스피치 인식 엔진은 비임 검색(Beam search), 비터비 알고리즘(Viterbi algorithm)을 사용하는, 음성 인식 방법.
- 제 1 항에 있어서, 상기 이름들은 상기 전자 디바이스상에 저장된 접촉 리스트의 구성요소들을 포함하는, 음성 인식 방법.
- 다수의 언어들의 이름들을 음성 인식하는 방법에 있어서,발성된 발음을 상기 전자 디바이스와 연관된 마이크로폰에서 수신하는 단계;상기 발음을 특징 벡터들로 변환하는 단계; 및문자들의 표현들로서 상기 전자 디바이스상에 저장된 적어도 하나의 이름의 음성 단위들의 순서화된 시퀀스와 상기 특징 벡터를 매칭시키는 단계를 포함하고, 상기 이름의 적어도 하나의 언어는 문자들로부터 식별되고, 상기 이름은 그후 복수의 언어 특정 글자-대-소리 변환기들을 사용하여 음성 단위들의 상기 순서화된 시퀀스로 변환되는, 음성 인식 방법.
- 다수의 언어들의 이름들의 음성 인식을 위한 시스템에 있어서,마이크로프로세서;상기 마이크로프로세서에 동작가능하게 접속된 적어도 하나의 메모리; 및상기 마이크로프로세서에 동작가능하게 접속된 마이크로폰을 포함하고,상기 마이크로프로세서는 발성된 발음을 상기 마이크로폰에서 수신하고, 상기 발음을 특징 벡터들로 변환하며, 문자들의 표현들로서 상기 메모리내에 저장된 적어도 하나의 이름의 음성 단위들의 순서화된 시퀀스와 상기 특징 벡터들을 매칭시키도록 상기 메모리내에 저장된 코드를 실행하도록 동작할 수 있으며, 상기 이름의 적어도 하나의 언어는 상기 문자들로부터 식별되고, 상기 이름은 그후 상기 마이크로프로세서에 동작가능하게 접속된 복수의 언어 특정 글자-대-소리 변환기들을 사용하여 음성 단위들의 상기 순서화된 시퀀스로 변환되는, 음성 인식 시스템.
- 제 6 항에 있어서, 상기 특징 벡터들은, 상기 특징 벡터, 음성 단위들의 상기 순서화된 시퀀스들과 상기 마이크로프로세서에 동작가능하게 접속된 자동 스피치 인식 엔진의 가우시안 혼합 파라미터들을 비교함으로써, 적어도 하나의 이름의 음성 단위들의 상기 순서화된 시퀀스와 매칭되는, 음성 인식 시스템.
- 제 6 항에 있어서, 상기 이름들은 상기 시스템상에 저장된 접촉 리스트의 구성요소들을 포함하는, 음성 인식 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200410056515.X | 2004-08-06 | ||
CN200410056515A CN100592385C (zh) | 2004-08-06 | 2004-08-06 | 用于对多语言的姓名进行语音识别的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060050277A true KR20060050277A (ko) | 2006-05-19 |
KR100769029B1 KR100769029B1 (ko) | 2007-10-22 |
Family
ID=35963852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050071867A KR100769029B1 (ko) | 2004-08-06 | 2005-08-05 | 다언어의 이름들의 음성 인식을 위한 방법 및 시스템 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP4468264B2 (ko) |
KR (1) | KR100769029B1 (ko) |
CN (1) | CN100592385C (ko) |
SG (1) | SG119358A1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101579533B1 (ko) * | 2014-10-16 | 2015-12-22 | 현대자동차주식회사 | 차량 및 그 제어 방법 |
KR101664080B1 (ko) * | 2015-07-28 | 2016-10-10 | 현대자동차 주식회사 | 음성 다이얼링 시스템 및 방법 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5343744B2 (ja) * | 2009-07-24 | 2013-11-13 | 富士通株式会社 | 音声翻訳装置及び音声翻訳方法 |
JP2011033874A (ja) * | 2009-08-03 | 2011-02-17 | Alpine Electronics Inc | 多言語音声認識装置及び多言語音声認識辞書作成方法 |
KR101250897B1 (ko) * | 2009-08-14 | 2013-04-04 | 한국전자통신연구원 | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 |
CN101826325B (zh) * | 2010-03-10 | 2012-04-18 | 华为终端有限公司 | 对中英文语音信号进行识别的方法和装置 |
US10134385B2 (en) * | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
CN102780653B (zh) * | 2012-08-09 | 2016-03-09 | 上海量明科技发展有限公司 | 即时通信中快捷通信的方法、客户端及系统 |
CN103853779A (zh) * | 2012-12-04 | 2014-06-11 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN103928024B (zh) * | 2013-01-14 | 2017-11-28 | 联想(北京)有限公司 | 一种语音查询方法及电子设备 |
CN104900235B (zh) * | 2015-05-25 | 2019-05-28 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN105095509B (zh) * | 2015-09-06 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 语音搜索方法及装置 |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
CN106856091A (zh) * | 2016-12-21 | 2017-06-16 | 北京智能管家科技有限公司 | 一种多语言文本的自动播报方法及系统 |
DE102017200976B4 (de) * | 2017-01-23 | 2018-08-23 | Audi Ag | Verfahren zum Betreiben eines Kraftfahrzeugs mit einer Bedienvorrichtung |
CN109192202B (zh) * | 2018-09-21 | 2023-05-16 | 平安科技(深圳)有限公司 | 语音安全识别方法、装置、计算机设备及存储介质 |
CN112397051B (zh) * | 2019-08-16 | 2024-02-02 | 武汉Tcl集团工业研究院有限公司 | 语音识别方法、装置及终端设备 |
CN110808034A (zh) * | 2019-10-31 | 2020-02-18 | 北京大米科技有限公司 | 语音转换方法、装置、存储介质及电子设备 |
CN112153206B (zh) * | 2020-09-23 | 2022-08-09 | 阿波罗智联(北京)科技有限公司 | 一种联系人匹配方法、装置、电子设备及存储介质 |
CN112652311B (zh) * | 2020-12-01 | 2021-09-03 | 北京百度网讯科技有限公司 | 中英文混合语音识别方法、装置、电子设备和存储介质 |
CN112669841B (zh) * | 2020-12-18 | 2024-07-02 | 平安科技(深圳)有限公司 | 多语种语音的生成模型的训练方法、装置及计算机设备 |
CN113536776B (zh) * | 2021-06-22 | 2024-06-14 | 深圳价值在线信息科技股份有限公司 | 混淆语句的生成方法、终端设备及计算机可读存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR0136425B1 (ko) * | 1995-01-26 | 1998-05-15 | 조백제 | 의존문법을 후향 언어모델로 사용하는 한국어 연속음성 인식장치 및 방법과 그를 이용한 자동통역시스템 |
MY119374A (en) * | 1995-09-12 | 2005-05-31 | Texas Instruments Inc | Method and system for enrolling addresses in a speech recognition database |
JP3447521B2 (ja) * | 1997-08-25 | 2003-09-16 | Necエレクトロニクス株式会社 | 音声認識ダイアル装置 |
US6314165B1 (en) * | 1998-04-30 | 2001-11-06 | Matsushita Electric Industrial Co., Ltd. | Automated hotel attendant using speech recognition |
JP2000047684A (ja) * | 1998-07-28 | 2000-02-18 | Nec Corp | 音声認識方法および音声サービス装置 |
JP4053151B2 (ja) * | 1998-09-01 | 2008-02-27 | 富士通株式会社 | 放流警報システム |
US6502075B1 (en) * | 1999-03-26 | 2002-12-31 | Koninklijke Philips Electronics, N.V. | Auto attendant having natural names database library |
JP2000352990A (ja) * | 1999-06-14 | 2000-12-19 | Nippon Telegr & Teleph Corp <Ntt> | 外国語音声合成装置 |
JP2001085233A (ja) * | 1999-09-10 | 2001-03-30 | Concorde Denshi Kogyo:Kk | 半閉磁路インダクタおよびその製造法。 |
JP3539548B2 (ja) * | 1999-09-20 | 2004-07-07 | Jfeスチール株式会社 | 加工用高張力熱延鋼板の製造方法 |
KR100423460B1 (ko) * | 2001-07-19 | 2004-03-18 | 한국전자통신연구원 | 주제어 인식이 가능한 음성인식시스템 및 방법 |
US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
US7684988B2 (en) * | 2004-10-15 | 2010-03-23 | Microsoft Corporation | Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models |
-
2004
- 2004-08-06 CN CN200410056515A patent/CN100592385C/zh not_active Expired - Lifetime
-
2005
- 2005-08-01 SG SG200504797A patent/SG119358A1/en unknown
- 2005-08-05 KR KR1020050071867A patent/KR100769029B1/ko active IP Right Grant
- 2005-08-05 JP JP2005228583A patent/JP4468264B2/ja active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101579533B1 (ko) * | 2014-10-16 | 2015-12-22 | 현대자동차주식회사 | 차량 및 그 제어 방법 |
US9685157B2 (en) | 2014-10-16 | 2017-06-20 | Hyundai Motor Company | Vehicle and control method thereof |
KR101664080B1 (ko) * | 2015-07-28 | 2016-10-10 | 현대자동차 주식회사 | 음성 다이얼링 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN1731511A (zh) | 2006-02-08 |
KR100769029B1 (ko) | 2007-10-22 |
CN100592385C (zh) | 2010-02-24 |
SG119358A1 (en) | 2006-02-28 |
JP4468264B2 (ja) | 2010-05-26 |
JP2006048058A (ja) | 2006-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100769029B1 (ko) | 다언어의 이름들의 음성 인식을 위한 방법 및 시스템 | |
KR100679042B1 (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
EP1291848B1 (en) | Multilingual pronunciations for speech recognition | |
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
Wang et al. | Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data | |
US5787230A (en) | System and method of intelligent Mandarin speech input for Chinese computers | |
US8311829B2 (en) | Multimodal disambiguation of speech recognition | |
US7716050B2 (en) | Multilingual speech recognition | |
KR101109265B1 (ko) | 텍스트 입력 방법 | |
US20080133228A1 (en) | Multimodal speech recognition system | |
JP2007538278A (ja) | 音声認識システム | |
US20070016420A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 | |
Mittal et al. | Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi | |
JP2002268680A (ja) | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 | |
KR100910302B1 (ko) | 멀티모달 기반의 정보 검색 장치 및 방법 | |
EP1187431B1 (en) | Portable terminal with voice dialing minimizing memory usage | |
KR20030010979A (ko) | 의미어단위 모델을 이용한 연속음성인식방법 및 장치 | |
WO2014035437A1 (en) | Using character describer to efficiently input ambiguous characters for smart chinese speech dictation correction | |
Komatani et al. | Generating confirmation to distinguish phonologically confusing word pairs in spoken dialogue systems | |
Kitaoka et al. | Multimodal interface for organization name input based on combination of isolated word recognition and continuous base-word recognition. | |
Alhonen et al. | Mandarin short message dictation on symbian series 60 mobile phones | |
JP2000315095A (ja) | 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体 | |
Cai et al. | Development of a Chinese song name recognition system | |
Wang et al. | Browsing the Chinese Web pages using Mandarin speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120927 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20130927 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20141007 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20151006 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20161011 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20181010 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20191002 Year of fee payment: 13 |