KR100762588B1 - 화자적응과 오입력 거절을 결합한 음성인식 방법 - Google Patents
화자적응과 오입력 거절을 결합한 음성인식 방법 Download PDFInfo
- Publication number
- KR100762588B1 KR100762588B1 KR1020010036475A KR20010036475A KR100762588B1 KR 100762588 B1 KR100762588 B1 KR 100762588B1 KR 1020010036475 A KR1020010036475 A KR 1020010036475A KR 20010036475 A KR20010036475 A KR 20010036475A KR 100762588 B1 KR100762588 B1 KR 100762588B1
- Authority
- KR
- South Korea
- Prior art keywords
- recognition
- rejection
- voice
- speaker adaptation
- input
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000006978 adaptation Effects 0.000 title abstract description 19
- 238000010586 diagram Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 화자적응과 오입력 거절을 결합하여 음성인식기의 성능을 향상시키기 위한 방법에 관한 것으로 음성을 인식하는 방법에 있어서, 입력수단을 통하여 음성을 입력하는 단계와, 상기 입력음성을 미리 설정된 파라메타를 이용하여 인식하는 단계와, 상기 인식된 음성을 구간별로 분리하여 억셉트(accept)할 부분과 리젝트(reject)할 부분을 판별하는 단계와, 상기 판단 결과 엑셉트할 데이타 구간이면 음성인식을 위한 파라메터를 적응시키는 단계로 이루어진 것을 특징으로 하는 화자적응과 오입력 거절을 결합한 음성인식 방법을 제공함으로써 인식률과 오입력거절 성능을 향상시키는 효과가 있는 발명임.
음성인식, 화자적응
Description
도1은 전체 시스템의 개략적인 구성도
도2는 본 발명의 음성인식 동작 플로우챠트
도3은 억셉트 구간과 리젝트 구간을 표시한 도면임
********* 도면 주요 부분에 대한 부호의 설명 ********
10 : 마이크 20 : 음성인식 서버
30 : 음성인식부 40 : 화자적응부
50 : 오입력 거절부 60 : 사용자 등록 DB
본 발명은 화자적응과 오입력 거절을 결합하여 음성인식기의 성능을 향상시키기 위한 방법에 관한 것으로 특히 음성인식기의 화자 적응 기법과 오입력 거절기법을 동시에 사용하여 인식률을 향상과 실용성을 높이기 위한 것이다
오늘날 대부분의 대용량 음성 인식 시스템은 불특정 화자를 대상으로 하는 화자독립 시스템이다. 화자독립 시스템은 특정화자를 대상으로 하는 화자종속 시스템에 비해 성능이 떨어진다. 따라서 불특정 화자를 대상으로 하는 시스템을 특정 화자가 사용할 수 있도록 하는 화자적응 방법이 필요하다. 또한 실제 상황에서는 음성인식 시스템이 다룰 수 있도록 설계되어 있는 범위를 벗어나는 경우가 일반적이며 이를 위해 인식 대상어휘가 아닌 음성이 입력되었을 때 이를 거절하는 오입력 거절 기법의 개발이 필요하게 되었다. 음성인식 시스템의 성능향상과 실용화를 위해 필요한 화자적응과 오입력 거절기법은 서로의 성능을 더욱 높이는 방향으로 사용될 수 있다.
화자적응을 위해서 시스템은 어떤 정해진 문장을 사용자로 하여금 발음하게 한 후 수집된 데이터를 사용하여 시스템의 파라미터를 변화시킨다. 이때 수집된 데이터가 원래 의도한 데이터가 아니거나 상태가 좋지 않을 경우 화자적응은 적절하게 이루어 지지 않게 되므로 입력 데이터에서 오입력을 제거하고 신뢰도가 높은 데이터만을 이용하여 화자 적응 기법을 적용하는 방법이 필요하다. 그리고 위의 화자적응은 별도의 데이터 수집과 훈련과정을 거치게 되므로 사용하기에도 불편한 문제점이 있는 것이다. 그러나 사용자가 시스템을 사용할 때마다 인식결과에 대해 오입력 거절 기법으로 신뢰도가 높은 구간을 자동으로 선택하여 시스템의 성능이 사용횟수가 늘어남에 따라 점진적으로 높아지게 할 수 있으며 단어나 인식환경이 변화는 경우에도 쉽게 적용될 수 있는 것이다.
본 발명에서는 이러한 문제점들을 해결하기 위하여 사용자가 시스템을 사용할 때마다 인식결과에 대해 오입력 거절 기법으로 신뢰도가 높은 구간을 자동으로 선택하여 시스템의 성능이 사용 횟수가 늘어남에 따라 점진적으로 높아지게 할 수 있으며 단어나 인식환경이 변화하는 경우에도 쉽게 적용될 수 있는 음서인식 방법을 제공하기 위한 것이다.
이러한 본 발명의 목적을 이루기 위한 본 발명의 제1특징은 온라인 화자 적응시에 오입력 거절 기법을 적용하는 것이다. 본 발명의 제2 특징은 잘못된 입력데이터를 제거하여 화자적응의 성능을 높이는 것이며, 본 발명의 제3 특징은 화자적응으로 오입력 거절의 성능을 높이는 것이다. 본 발명의 제4 특징은 화자적응을 위한 별도의 데이터를 수집하지 않고 사용자가 시스템을 사용할 수록 인식률과 오입력 거절률이 높아지도록 하는 것이다.
이하 본 발명의 바람직한 실시예에 대하여 설명하면 다음과 같다.
도1은 본 발명의 전체 시스템의 개략적인 구성을 나타낸 도면으로 사용자가 음성을 입력하기 위한 마이크(10)와 상기 마이크(10)와, 입력된 음성의 특징을 추출하여 사용자 등록 DB(60)에 저장되어 있는 기존의 음성 특징 파라메터와 비교하여 상기 입력 음성을 인식하기 위한 음성인식부(30)와, 상기 음성인식부(30)의 인식 결과에 대해 억셉트(accept)할 부분과 리젝트(reject)할 부분을 정하고 억셉트(accept)된 구간의 데이터만을 이용하도록 하는 오입력 거절부(50)와, 상기 오입력 거절부(50)에서 억셉트된 데이터를 사용자 등록 DB(60)의 파라메터에 적응 시키고 상기 적응된 파라메터를 이용하여 음성인식을 하도록 하는 화자 적응부 (40)로 이루어진 음성인식 서버(20)와, 상기 인식된 결과를 출력하기 위한 출력부(70)로 이루어지진다.
이와같이 구성된 본 발명의 동작을 도2 및 도3을 참조하여 설명하면 다음과 같다. 먼저 마이크(10)등 입력수단을 통하여 음성을 입력하게 되면(S1) 음성인식 서버(20)의 음성인식부(30)에서 기존의 파라메타를 이용하여 음성을 인식하 게 된다(S2). 그 후 오인식거절부(40)에서 인식결과를 도3과 같이 구간별로 분리하여 억셉트(accept)할 부분과 리젝트(reject)할 부분을 정하고 억셉트(accept)된 구간의 데이터만을 화자적응부(50)로 보내어(S3) 인식기의 파라메터를 적응시키게 된다(S4). 이 경우 리젝트 할 구간의 데이타는 상기 화자적응부(50)로 보내지지 않으므로써 신뢰도가 높은 구간만으로 인식기의 파라메타를 업데이트 할 수 있는 것이다.
그리고 상기 인식 결과는 인식 수용여부를 판단한 후(S5) 인식결과를 출력하던가, 인식된 명령을 수행하도록 한다(S6). 물론 인식 수용여부 판단에서 적정한인식이 되지 않았을 경우에는 인식실패를 사용자에게 통지하게 된다.
이상에서 살펴본 바와 같이 본 발명을 적용할 경우 화자적응과 오입력 거절이 서로의 성능을 향상시키도록 하여 인식률과 오입력거절 성능을 향상시키는 효과가 있는 것이다.
특히 본 발명을 전자사전 시스템이나, 단어인식기 등에 적용할 경우 인식성능의 향상과 인식 오동작을 줄일 수 있는 유용한 발명인 것이다.
Claims (3)
- 음성을 인식하는 방법에 있어서, 입력수단을 통하여 음성을 입력하는 단계와, 상기 입력음성을 미리 설정된 파라메타를 이용하여 인식하는 단계와, 상기 인식된 음성을 구간별로 분리하여 억셉트(accept)할 부분과 리젝트(reject)할 부분을 판별하는 단계와, 상기 판단 결과 엑셉트할 데이타 구간이면 음성인식을 위한 파라메터를 적응시키는 단계로 이루어진 것을 특징으로 하는 화자적응과 오입력 거절을 결합한 음성인식 방법.
- 제1항에 있어서, 상기 억셉트(accept)할 부분과 리젝트(reject)할 부분을 판별하는 단계는, 인식된 음성의 인식 신뢰도가 높은 부분을 억셉트(accept)하는 것을 특징으로 하는 화자적응과 오입력 거절을 결합한 음성인식 방법.
- 제1항에 있어서, 상기 음성인식을 위한 파라메터를 적응시키는 단계는 억셉트된 인식구간의 데이타로 파라메터를 업데이트하는 것을 특징으로 하는 화자적응과 오입력 거절을 결합한 음성인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020010036475A KR100762588B1 (ko) | 2001-06-26 | 2001-06-26 | 화자적응과 오입력 거절을 결합한 음성인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020010036475A KR100762588B1 (ko) | 2001-06-26 | 2001-06-26 | 화자적응과 오입력 거절을 결합한 음성인식 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20030001667A KR20030001667A (ko) | 2003-01-08 |
KR100762588B1 true KR100762588B1 (ko) | 2007-10-01 |
Family
ID=27711095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020010036475A KR100762588B1 (ko) | 2001-06-26 | 2001-06-26 | 화자적응과 오입력 거절을 결합한 음성인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100762588B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100655491B1 (ko) | 2004-12-21 | 2006-12-11 | 한국전자통신연구원 | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 |
KR102476600B1 (ko) | 2015-10-21 | 2022-12-12 | 삼성전자주식회사 | 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5390280A (en) * | 1991-11-15 | 1995-02-14 | Sony Corporation | Speech recognition apparatus |
KR970002856A (ko) * | 1995-06-29 | 1997-01-28 | 김광호 | 선형예측분석합성을 이용한 음성인식방법 |
JPH102000A (ja) * | 1996-06-18 | 1998-01-06 | Yodogawa Steel Works Ltd | 開閉式溝蓋 |
JPH101997A (ja) * | 1991-08-21 | 1998-01-06 | Toto Ltd | トイレ装置 |
JPH101999A (ja) * | 1996-06-17 | 1998-01-06 | Kyowa Plast Sangyo Kk | 便器用接続フランジおよび同フランジと便器との連結構造 |
WO1998002223A1 (fr) * | 1996-07-11 | 1998-01-22 | Sega Enterprises, Ltd. | Systeme de reconnaissance vocale, procede de reconnaissance vocale et jeu les mettant en pratique |
KR19990052634A (ko) * | 1997-12-23 | 1999-07-15 | 구자홍 | 음성인식 방법 |
KR19990081664A (ko) * | 1998-04-30 | 1999-11-15 | 구자홍 | 음성 인식 전화기의 음성 인식 방법 |
JP2000181482A (ja) * | 1998-12-17 | 2000-06-30 | Sony Internatl Europ Gmbh | 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 |
KR20000042364A (ko) * | 1998-12-24 | 2000-07-15 | 이계철 | 인식기 자원을 효율적으로 사용하는 음성인식 방법 |
KR20000073936A (ko) * | 1999-05-17 | 2000-12-05 | 구자홍 | 화자독립 음성인식 기술을 이용한 음성등록 방법 및 장치 |
JP2012181482A (ja) * | 2011-03-03 | 2012-09-20 | Konica Minolta Business Technologies Inc | 画像形成装置 |
-
2001
- 2001-06-26 KR KR1020010036475A patent/KR100762588B1/ko not_active IP Right Cessation
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH101997A (ja) * | 1991-08-21 | 1998-01-06 | Toto Ltd | トイレ装置 |
US5390280A (en) * | 1991-11-15 | 1995-02-14 | Sony Corporation | Speech recognition apparatus |
KR970002856A (ko) * | 1995-06-29 | 1997-01-28 | 김광호 | 선형예측분석합성을 이용한 음성인식방법 |
JPH101999A (ja) * | 1996-06-17 | 1998-01-06 | Kyowa Plast Sangyo Kk | 便器用接続フランジおよび同フランジと便器との連結構造 |
JPH102000A (ja) * | 1996-06-18 | 1998-01-06 | Yodogawa Steel Works Ltd | 開閉式溝蓋 |
WO1998002223A1 (fr) * | 1996-07-11 | 1998-01-22 | Sega Enterprises, Ltd. | Systeme de reconnaissance vocale, procede de reconnaissance vocale et jeu les mettant en pratique |
KR19990052634A (ko) * | 1997-12-23 | 1999-07-15 | 구자홍 | 음성인식 방법 |
KR19990081664A (ko) * | 1998-04-30 | 1999-11-15 | 구자홍 | 음성 인식 전화기의 음성 인식 방법 |
JP2000181482A (ja) * | 1998-12-17 | 2000-06-30 | Sony Internatl Europ Gmbh | 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法 |
KR20000042364A (ko) * | 1998-12-24 | 2000-07-15 | 이계철 | 인식기 자원을 효율적으로 사용하는 음성인식 방법 |
KR20000073936A (ko) * | 1999-05-17 | 2000-12-05 | 구자홍 | 화자독립 음성인식 기술을 이용한 음성등록 방법 및 장치 |
JP2012181482A (ja) * | 2011-03-03 | 2012-09-20 | Konica Minolta Business Technologies Inc | 画像形成装置 |
Non-Patent Citations (6)
Title |
---|
10-1997-2856 |
10-1999-52634 |
10-1999-81664 |
10-2000-73936 |
특2000-0042364 |
특2000-0073936 |
Also Published As
Publication number | Publication date |
---|---|
KR20030001667A (ko) | 2003-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI466101B (zh) | 語音識別方法及系統 | |
US8050909B2 (en) | Apparatus and method for post-processing dialogue error in speech dialogue system using multilevel verification | |
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
KR100655491B1 (ko) | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 | |
US7203644B2 (en) | Automating tuning of speech recognition systems | |
JP2008009153A (ja) | 音声対話システム | |
CN104978963A (zh) | 语音识别装置、方法以及电子设备 | |
WO2016013503A1 (ja) | 音声認識装置及び音声認識方法 | |
EP1207517B1 (en) | Method for recognizing speech | |
JP4950024B2 (ja) | 会話システムおよび会話ソフトウェア | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
KR100762588B1 (ko) | 화자적응과 오입력 거절을 결합한 음성인식 방법 | |
KR101444411B1 (ko) | 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법 | |
KR100732611B1 (ko) | 음성대화 오류검증을 통한 확인대화 방법 및 장치 | |
JP2000250593A (ja) | 話者認識装置及び方法 | |
KR100998230B1 (ko) | 화자 독립 음성 인식 처리 방법 | |
KR100952974B1 (ko) | 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체 | |
JP4736423B2 (ja) | 音声認識装置および音声認識方法 | |
KR20160122564A (ko) | 음성 인식 장치 및 그 방법 | |
CN112420054A (zh) | 一种基于说话人向量复用的语音识别系统及方法 | |
JP2000214879A (ja) | 音声認識装置の適応化方法 | |
KR100669244B1 (ko) | 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법 | |
JPH11249688A (ja) | 音声認識装置およびその方法 | |
Macherey et al. | Multi-level error handling for tree based dialogue course management | |
KR100677224B1 (ko) | 안티워드 모델을 이용한 음성인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
N231 | Notification of change of applicant | ||
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |