KR100762588B1 - 화자적응과 오입력 거절을 결합한 음성인식 방법 - Google Patents

화자적응과 오입력 거절을 결합한 음성인식 방법 Download PDF

Info

Publication number
KR100762588B1
KR100762588B1 KR1020010036475A KR20010036475A KR100762588B1 KR 100762588 B1 KR100762588 B1 KR 100762588B1 KR 1020010036475 A KR1020010036475 A KR 1020010036475A KR 20010036475 A KR20010036475 A KR 20010036475A KR 100762588 B1 KR100762588 B1 KR 100762588B1
Authority
KR
South Korea
Prior art keywords
recognition
rejection
voice
speaker adaptation
input
Prior art date
Application number
KR1020010036475A
Other languages
English (en)
Other versions
KR20030001667A (ko
Inventor
김훈
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020010036475A priority Critical patent/KR100762588B1/ko
Publication of KR20030001667A publication Critical patent/KR20030001667A/ko
Application granted granted Critical
Publication of KR100762588B1 publication Critical patent/KR100762588B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 화자적응과 오입력 거절을 결합하여 음성인식기의 성능을 향상시키기 위한 방법에 관한 것으로 음성을 인식하는 방법에 있어서, 입력수단을 통하여 음성을 입력하는 단계와, 상기 입력음성을 미리 설정된 파라메타를 이용하여 인식하는 단계와, 상기 인식된 음성을 구간별로 분리하여 억셉트(accept)할 부분과 리젝트(reject)할 부분을 판별하는 단계와, 상기 판단 결과 엑셉트할 데이타 구간이면 음성인식을 위한 파라메터를 적응시키는 단계로 이루어진 것을 특징으로 하는 화자적응과 오입력 거절을 결합한 음성인식 방법을 제공함으로써 인식률과 오입력거절 성능을 향상시키는 효과가 있는 발명임.
음성인식, 화자적응

Description

화자적응과 오입력 거절을 결합한 음성인식 방법 {voice recognition method for joing the speaker adaptation and the rejection of error input}
도1은 전체 시스템의 개략적인 구성도
도2는 본 발명의 음성인식 동작 플로우챠트
도3은 억셉트 구간과 리젝트 구간을 표시한 도면임
********* 도면 주요 부분에 대한 부호의 설명 ********
10 : 마이크 20 : 음성인식 서버
30 : 음성인식부 40 : 화자적응부
50 : 오입력 거절부 60 : 사용자 등록 DB
본 발명은 화자적응과 오입력 거절을 결합하여 음성인식기의 성능을 향상시키기 위한 방법에 관한 것으로 특히 음성인식기의 화자 적응 기법과 오입력 거절기법을 동시에 사용하여 인식률을 향상과 실용성을 높이기 위한 것이다
오늘날 대부분의 대용량 음성 인식 시스템은 불특정 화자를 대상으로 하는 화자독립 시스템이다. 화자독립 시스템은 특정화자를 대상으로 하는 화자종속 시스템에 비해 성능이 떨어진다. 따라서 불특정 화자를 대상으로 하는 시스템을 특정 화자가 사용할 수 있도록 하는 화자적응 방법이 필요하다. 또한 실제 상황에서는 음성인식 시스템이 다룰 수 있도록 설계되어 있는 범위를 벗어나는 경우가 일반적이며 이를 위해 인식 대상어휘가 아닌 음성이 입력되었을 때 이를 거절하는 오입력 거절 기법의 개발이 필요하게 되었다. 음성인식 시스템의 성능향상과 실용화를 위해 필요한 화자적응과 오입력 거절기법은 서로의 성능을 더욱 높이는 방향으로 사용될 수 있다.
화자적응을 위해서 시스템은 어떤 정해진 문장을 사용자로 하여금 발음하게 한 후 수집된 데이터를 사용하여 시스템의 파라미터를 변화시킨다. 이때 수집된 데이터가 원래 의도한 데이터가 아니거나 상태가 좋지 않을 경우 화자적응은 적절하게 이루어 지지 않게 되므로 입력 데이터에서 오입력을 제거하고 신뢰도가 높은 데이터만을 이용하여 화자 적응 기법을 적용하는 방법이 필요하다. 그리고 위의 화자적응은 별도의 데이터 수집과 훈련과정을 거치게 되므로 사용하기에도 불편한 문제점이 있는 것이다. 그러나 사용자가 시스템을 사용할 때마다 인식결과에 대해 오입력 거절 기법으로 신뢰도가 높은 구간을 자동으로 선택하여 시스템의 성능이 사용횟수가 늘어남에 따라 점진적으로 높아지게 할 수 있으며 단어나 인식환경이 변화는 경우에도 쉽게 적용될 수 있는 것이다.
본 발명에서는 이러한 문제점들을 해결하기 위하여 사용자가 시스템을 사용할 때마다 인식결과에 대해 오입력 거절 기법으로 신뢰도가 높은 구간을 자동으로 선택하여 시스템의 성능이 사용 횟수가 늘어남에 따라 점진적으로 높아지게 할 수 있으며 단어나 인식환경이 변화하는 경우에도 쉽게 적용될 수 있는 음서인식 방법을 제공하기 위한 것이다.
이러한 본 발명의 목적을 이루기 위한 본 발명의 제1특징은 온라인 화자 적응시에 오입력 거절 기법을 적용하는 것이다. 본 발명의 제2 특징은 잘못된 입력데이터를 제거하여 화자적응의 성능을 높이는 것이며, 본 발명의 제3 특징은 화자적응으로 오입력 거절의 성능을 높이는 것이다. 본 발명의 제4 특징은 화자적응을 위한 별도의 데이터를 수집하지 않고 사용자가 시스템을 사용할 수록 인식률과 오입력 거절률이 높아지도록 하는 것이다.
이하 본 발명의 바람직한 실시예에 대하여 설명하면 다음과 같다.
도1은 본 발명의 전체 시스템의 개략적인 구성을 나타낸 도면으로 사용자가 음성을 입력하기 위한 마이크(10)와 상기 마이크(10)와, 입력된 음성의 특징을 추출하여 사용자 등록 DB(60)에 저장되어 있는 기존의 음성 특징 파라메터와 비교하여 상기 입력 음성을 인식하기 위한 음성인식부(30)와, 상기 음성인식부(30)의 인식 결과에 대해 억셉트(accept)할 부분과 리젝트(reject)할 부분을 정하고 억셉트(accept)된 구간의 데이터만을 이용하도록 하는 오입력 거절부(50)와, 상기 오입력 거절부(50)에서 억셉트된 데이터를 사용자 등록 DB(60)의 파라메터에 적응 시키고 상기 적응된 파라메터를 이용하여 음성인식을 하도록 하는 화자 적응부 (40)로 이루어진 음성인식 서버(20)와, 상기 인식된 결과를 출력하기 위한 출력부(70)로 이루어지진다.
이와같이 구성된 본 발명의 동작을 도2 및 도3을 참조하여 설명하면 다음과 같다. 먼저 마이크(10)등 입력수단을 통하여 음성을 입력하게 되면(S1) 음성인식 서버(20)의 음성인식부(30)에서 기존의 파라메타를 이용하여 음성을 인식하 게 된다(S2). 그 후 오인식거절부(40)에서 인식결과를 도3과 같이 구간별로 분리하여 억셉트(accept)할 부분과 리젝트(reject)할 부분을 정하고 억셉트(accept)된 구간의 데이터만을 화자적응부(50)로 보내어(S3) 인식기의 파라메터를 적응시키게 된다(S4). 이 경우 리젝트 할 구간의 데이타는 상기 화자적응부(50)로 보내지지 않으므로써 신뢰도가 높은 구간만으로 인식기의 파라메타를 업데이트 할 수 있는 것이다.
그리고 상기 인식 결과는 인식 수용여부를 판단한 후(S5) 인식결과를 출력하던가, 인식된 명령을 수행하도록 한다(S6). 물론 인식 수용여부 판단에서 적정한인식이 되지 않았을 경우에는 인식실패를 사용자에게 통지하게 된다.
이상에서 살펴본 바와 같이 본 발명을 적용할 경우 화자적응과 오입력 거절이 서로의 성능을 향상시키도록 하여 인식률과 오입력거절 성능을 향상시키는 효과가 있는 것이다.
특히 본 발명을 전자사전 시스템이나, 단어인식기 등에 적용할 경우 인식성능의 향상과 인식 오동작을 줄일 수 있는 유용한 발명인 것이다.

Claims (3)

  1. 음성을 인식하는 방법에 있어서, 입력수단을 통하여 음성을 입력하는 단계와, 상기 입력음성을 미리 설정된 파라메타를 이용하여 인식하는 단계와, 상기 인식된 음성을 구간별로 분리하여 억셉트(accept)할 부분과 리젝트(reject)할 부분을 판별하는 단계와, 상기 판단 결과 엑셉트할 데이타 구간이면 음성인식을 위한 파라메터를 적응시키는 단계로 이루어진 것을 특징으로 하는 화자적응과 오입력 거절을 결합한 음성인식 방법.
  2. 제1항에 있어서, 상기 억셉트(accept)할 부분과 리젝트(reject)할 부분을 판별하는 단계는, 인식된 음성의 인식 신뢰도가 높은 부분을 억셉트(accept)하는 것을 특징으로 하는 화자적응과 오입력 거절을 결합한 음성인식 방법.
  3. 제1항에 있어서, 상기 음성인식을 위한 파라메터를 적응시키는 단계는 억셉트된 인식구간의 데이타로 파라메터를 업데이트하는 것을 특징으로 하는 화자적응과 오입력 거절을 결합한 음성인식 방법.
KR1020010036475A 2001-06-26 2001-06-26 화자적응과 오입력 거절을 결합한 음성인식 방법 KR100762588B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020010036475A KR100762588B1 (ko) 2001-06-26 2001-06-26 화자적응과 오입력 거절을 결합한 음성인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020010036475A KR100762588B1 (ko) 2001-06-26 2001-06-26 화자적응과 오입력 거절을 결합한 음성인식 방법

Publications (2)

Publication Number Publication Date
KR20030001667A KR20030001667A (ko) 2003-01-08
KR100762588B1 true KR100762588B1 (ko) 2007-10-01

Family

ID=27711095

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010036475A KR100762588B1 (ko) 2001-06-26 2001-06-26 화자적응과 오입력 거절을 결합한 음성인식 방법

Country Status (1)

Country Link
KR (1) KR100762588B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100655491B1 (ko) 2004-12-21 2006-12-11 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
KR102476600B1 (ko) 2015-10-21 2022-12-12 삼성전자주식회사 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5390280A (en) * 1991-11-15 1995-02-14 Sony Corporation Speech recognition apparatus
KR970002856A (ko) * 1995-06-29 1997-01-28 김광호 선형예측분석합성을 이용한 음성인식방법
JPH102000A (ja) * 1996-06-18 1998-01-06 Yodogawa Steel Works Ltd 開閉式溝蓋
JPH101997A (ja) * 1991-08-21 1998-01-06 Toto Ltd トイレ装置
JPH101999A (ja) * 1996-06-17 1998-01-06 Kyowa Plast Sangyo Kk 便器用接続フランジおよび同フランジと便器との連結構造
WO1998002223A1 (fr) * 1996-07-11 1998-01-22 Sega Enterprises, Ltd. Systeme de reconnaissance vocale, procede de reconnaissance vocale et jeu les mettant en pratique
KR19990052634A (ko) * 1997-12-23 1999-07-15 구자홍 음성인식 방법
KR19990081664A (ko) * 1998-04-30 1999-11-15 구자홍 음성 인식 전화기의 음성 인식 방법
JP2000181482A (ja) * 1998-12-17 2000-06-30 Sony Internatl Europ Gmbh 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法
KR20000042364A (ko) * 1998-12-24 2000-07-15 이계철 인식기 자원을 효율적으로 사용하는 음성인식 방법
KR20000073936A (ko) * 1999-05-17 2000-12-05 구자홍 화자독립 음성인식 기술을 이용한 음성등록 방법 및 장치
JP2012181482A (ja) * 2011-03-03 2012-09-20 Konica Minolta Business Technologies Inc 画像形成装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH101997A (ja) * 1991-08-21 1998-01-06 Toto Ltd トイレ装置
US5390280A (en) * 1991-11-15 1995-02-14 Sony Corporation Speech recognition apparatus
KR970002856A (ko) * 1995-06-29 1997-01-28 김광호 선형예측분석합성을 이용한 음성인식방법
JPH101999A (ja) * 1996-06-17 1998-01-06 Kyowa Plast Sangyo Kk 便器用接続フランジおよび同フランジと便器との連結構造
JPH102000A (ja) * 1996-06-18 1998-01-06 Yodogawa Steel Works Ltd 開閉式溝蓋
WO1998002223A1 (fr) * 1996-07-11 1998-01-22 Sega Enterprises, Ltd. Systeme de reconnaissance vocale, procede de reconnaissance vocale et jeu les mettant en pratique
KR19990052634A (ko) * 1997-12-23 1999-07-15 구자홍 음성인식 방법
KR19990081664A (ko) * 1998-04-30 1999-11-15 구자홍 음성 인식 전화기의 음성 인식 방법
JP2000181482A (ja) * 1998-12-17 2000-06-30 Sony Internatl Europ Gmbh 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法
KR20000042364A (ko) * 1998-12-24 2000-07-15 이계철 인식기 자원을 효율적으로 사용하는 음성인식 방법
KR20000073936A (ko) * 1999-05-17 2000-12-05 구자홍 화자독립 음성인식 기술을 이용한 음성등록 방법 및 장치
JP2012181482A (ja) * 2011-03-03 2012-09-20 Konica Minolta Business Technologies Inc 画像形成装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
10-1997-2856
10-1999-52634
10-1999-81664
10-2000-73936
특2000-0042364
특2000-0073936

Also Published As

Publication number Publication date
KR20030001667A (ko) 2003-01-08

Similar Documents

Publication Publication Date Title
TWI466101B (zh) 語音識別方法及系統
US8050909B2 (en) Apparatus and method for post-processing dialogue error in speech dialogue system using multilevel verification
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
US7203644B2 (en) Automating tuning of speech recognition systems
JP2008009153A (ja) 音声対話システム
CN104978963A (zh) 语音识别装置、方法以及电子设备
WO2016013503A1 (ja) 音声認識装置及び音声認識方法
EP1207517B1 (en) Method for recognizing speech
JP4950024B2 (ja) 会話システムおよび会話ソフトウェア
US20170270923A1 (en) Voice processing device and voice processing method
KR100762588B1 (ko) 화자적응과 오입력 거절을 결합한 음성인식 방법
KR101444411B1 (ko) 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법
KR100732611B1 (ko) 음성대화 오류검증을 통한 확인대화 방법 및 장치
JP2000250593A (ja) 話者認識装置及び方法
KR100998230B1 (ko) 화자 독립 음성 인식 처리 방법
KR100952974B1 (ko) 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체
JP4736423B2 (ja) 音声認識装置および音声認識方法
KR20160122564A (ko) 음성 인식 장치 및 그 방법
CN112420054A (zh) 一种基于说话人向量复用的语音识别系统及方法
JP2000214879A (ja) 音声認識装置の適応化方法
KR100669244B1 (ko) 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법
JPH11249688A (ja) 音声認識装置およびその方法
Macherey et al. Multi-level error handling for tree based dialogue course management
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee