KR100677224B1 - 안티워드 모델을 이용한 음성인식 방법 - Google Patents

안티워드 모델을 이용한 음성인식 방법 Download PDF

Info

Publication number
KR100677224B1
KR100677224B1 KR1020040114336A KR20040114336A KR100677224B1 KR 100677224 B1 KR100677224 B1 KR 100677224B1 KR 1020040114336 A KR1020040114336 A KR 1020040114336A KR 20040114336 A KR20040114336 A KR 20040114336A KR 100677224 B1 KR100677224 B1 KR 100677224B1
Authority
KR
South Korea
Prior art keywords
word
recognition
speech recognition
speech
rejection
Prior art date
Application number
KR1020040114336A
Other languages
English (en)
Other versions
KR20060075533A (ko
Inventor
양태영
김준석
표현아
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020040114336A priority Critical patent/KR100677224B1/ko
Publication of KR20060075533A publication Critical patent/KR20060075533A/ko
Application granted granted Critical
Publication of KR100677224B1 publication Critical patent/KR100677224B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Abstract

본 발명은 안티워드 모델(anti-word model)을 이용하여 음성을 인식하는 기술에 관한 것이다. 이러한 본 발명은, 정상적인 인식 대상 어휘와 구분될 수 있는 모음 조합을 포함하는 안티워드 모델을 결정하는 제1단계와, 상기 정상적인 인식 대상 어휘와 상기 안티워드 모델을 전체 인식 대상 단어로 하여 음성인식기로 음성인식을 수행하는 제2단계와, 상기 음성인식 수행 결과에 대응하는 단어가 상기 안티워드 모델들 중 하나와 가장 유사한 단어로 선택되면 리젝션을 수행하는 제3단계에 의해 달성된다.

Description

안티워드 모델을 이용한 음성인식 방법{SPEECH RECOGNITION METHOD USING ANTI-WORD MODEL}
도 1은 본 발명에 의한 안티워드 모델을 이용한 음성인식 방법의 처리과정을 나타낸 신호 흐름도.
본 발명은 안티워드 모델(anti-word model)을 이용하여 음성을 인식하는 기술에 관한 것으로, 특히 안티워드 모델을 이용하여 리젝션(rejection) 기법의 성능을 향상시킬 수 있도록 한 안티워드 모델을 이용한 음성인식 방법에 관한 것이다.
음성인식이란 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하는 것을 의미하는 것으로, 구체적으로 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정을 의미하고, 이는 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류된다. 좁은 의미로는 음성 분석에서 단어 인식까지를 말하는 경우가 많다. 인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술의 연구 개발이 오랫동안 진행되어 왔다. 최근 들어, 음성인식 기술은 휴대폰 등의 IT 기술에 적용되어 사용자의 편리성을 증가시키는데 일익을 담당하고 있다.
종래 기술에 의한 음성인식 방식은 사용자의 입력 음성에 대해 미리 지정된 인식 가능 어휘들 중 가장 유사한 어휘를 인식 결과로 결정하는 방식이다. 그런데, 이와 같은 방식은 인식 대상이 아닌 어휘가 입력되었을 경우, 이를 구별하지 못하고 유사한 어휘로 오인식하게 된다.
한편, 리젝션 기술은 음성인식 대상이 아닌 어휘가 입력되었을 때와 같이 불문명한 입력 음성에 대해서는 인식 결과를 내지 않고 사용자에게 재발성을 요구하는 등 오인식을 방지하고자 하는 기술이다.
종래 기술에 의한 리젝션 방법은 주로 음성인식 계산 과정에서 구하는 확률값과 특징벡터의 거리차의 크고 작음을 기준으로 음성을 판단하게 되어 있다. 즉, 입력된 음성과 가장 유사한 인식 대상 어휘의 확률값이 일정한 임계값(threshold)보다 크면 인식결과로 채택하고, 작으면 리젝션하는 원리이다. 또는 가장 유사한 인식 대상의 어휘와 두 번째로 유사한 어휘와의 확률값의 차이가 일정한 임계값보다 크지 않으면 불분명한 인식 결과로 판단하여 리젝션하는 원리이다.
그러나, 이와 같은 종래 음성인식 기술에서 임계값을 이용하는 리젝션 방식은 사용자의 음색, 남녀 구분, 입력 음성의 차이, 주변 소음 등에 큰 영향을 받아 바람직한 리젝션 성능을 발휘하는데 어려움이 있었다. 그리고, 이와 같이 리젝션에 대한 정확한 판단을 내리기 힘든 기술적 한계로 인하여 현재 상용화된 음성인식 기술에 널리 적용하는데 어려움이 있었다.
따라서, 본 발명의 목적은 안티워드 모델을 생성하고, 이 안티워드 모델을 이용하여 임계값을 사용하는 리젝션 기법의 단점을 극복하는 음성인식 방법을 제공함에 있다.
본 발명의 제1특징에 따르면, 리젝션 기능을 구현하는데 임계값을 사용하지 않고 안티워드 모델을 사용한다.
본 발명의 제2특징에 따르면, 원래의 인식 대상 어휘와 안티워드 모델들이 음성인식의 인식 가능 모델이 된다.
본 발명의 제3특징에 따르면, 음성인식을 수행하여 원래의 인식 대상 어휘로 인식되면 정상적인 인식결과로 출력하고, 안티워드 모델들 중 하나로 인식되면 리젝션을 한다.
본 발명의 제4특징에 따르면, 안티워드 모델은 "아","오" 등의 대표모음의 조합으로 구성하며, 잡음 모델도 포함한다.
본 발명에 의한 안티워드 모델을 이용한 음성인식 방법은, 정상적인 인식 대상 어휘와 구분될 수 있는 모음 조합을 포함하는 안티워드 모델을 결정하는 제1단계와, 상기 정상적인 인식 대상 어휘와 상기 안티워드 모델을 전체 인식 대상 단어로 하여 음성인식기로 음성인식을 수행하는 제2단계와, 상기 음성인식 수행 결과에 대응하는 단어가 상기 안티워드 모델들 중 하나와 가장 유사한 단어로 선택되면 리젝션을 수행하는 제3단계로 이루어지는 것으로, 이와 같이 이루어지는 본 발명의 음성인식 처리과정을 첨부한 도 1을 참조하여 상세히 설명하면 다음과 같다.
먼저, 정상적인 인식 대상 어휘와 구분될 수 있는 모음 조합을 결정한다.(S1)
예를 들어, 정상적인 인식 대상의 어휘가 "통화"인 경우, 이와 구분될 수 있는 "아","어","아이", "우아" 등의 어휘와 잡음 모델을 안티워드 모델로 선정한다.
이때, 상기 정상적인 인식 대상의 어휘가 "통화"와 모음 배열이 유사한 "오와","오아" 등의 모음 조합은 안티워드 모델에 포함시키지 않는다.
이후, 정상적인 인식 대상 어휘와 안티워드 모델을 전체 인식 대상 단어로 하는 음성인식기로 음성인식을 수행한다.(S2)
상기 인식 결과 정상적인 인식 대상 어휘가 가장 유사한 단어로 나오면, 이를 인식 결과로 출력하게 되지만, 안티워드 모델들 중 하나가 가장 유사한 단어로 선택되면 리젝션을 수행한다.(S3-S6)
상기 음성인식의 리젝션은 여러 가지로 구현할 수 있다. 예를 들어, 사용자에게 "다시 말씀하세요"와 같은 안내 메시지 또는 음성을 출력하여 사용자가 재 발성하도록 하거나, 인식기가 반응을 하지 않고 계속 다음 음성입력을 기다리는 방식으로 구현할 수 있다.
이상에서 상세히 설명한 바와 같이 본 발명은 안티워드 모델을 구축하고, 이를 이용하여 리젝션 기능의 성능을 향상시킴으로써, 음성인식을 보다 다양한 분야에 적용할 수 있는 효과가 있고, 음성인식에 대한 신뢰도가 향상되는 효과가 있다.

Claims (4)

  1. 정상적인 인식 대상 어휘와 구분될 수 있는 모음 조합을 포함하는 안티워드 모델을 결정하는 제1단계와;
    상기 정상적인 인식 대상 어휘와 상기 안티워드 모델을 전체 인식 대상 단어로 하여 음성인식기로 음성인식을 수행하는 제2단계와;
    상기 음성인식 수행 결과에 대응하는 단어가 상기 안티워드 모델들 중 하나와 가장 유사한 단어로 선택되면 리젝션을 수행하는 제3단계를 포함하여 이루어지는 것을 특징으로 하는 안티워드 모델을 이용한 음성인식 방법.
  2. 제1항에 있어서, 제3단계는,
    상기 음성인식 수행 결과에 대응하는 단어가 상기 정상적인 인식 대상 어휘와 가장 유사한 단어로 선택되면 상기 정상적인 인식대상 어휘를 출력하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 안티워드 모델을 이용한 음성인식 방법.
  3. 제1항에 있어서, 제3단계는,
    상기 리젝션 수행시 상기 리젝션을 알리는 안내 메시지 또는 음성을 출력하는 것을 특징으로 하는 안티워드 모델을 이용한 음성인식 방법.
  4. 삭제
KR1020040114336A 2004-12-28 2004-12-28 안티워드 모델을 이용한 음성인식 방법 KR100677224B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040114336A KR100677224B1 (ko) 2004-12-28 2004-12-28 안티워드 모델을 이용한 음성인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040114336A KR100677224B1 (ko) 2004-12-28 2004-12-28 안티워드 모델을 이용한 음성인식 방법

Publications (2)

Publication Number Publication Date
KR20060075533A KR20060075533A (ko) 2006-07-04
KR100677224B1 true KR100677224B1 (ko) 2007-02-02

Family

ID=37168055

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040114336A KR100677224B1 (ko) 2004-12-28 2004-12-28 안티워드 모델을 이용한 음성인식 방법

Country Status (1)

Country Link
KR (1) KR100677224B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101068122B1 (ko) * 2008-12-15 2011-09-28 한국전자통신연구원 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
CN105632495B (zh) * 2015-12-30 2019-07-05 百度在线网络技术(北京)有限公司 语音识别方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020045960A (ko) * 2000-12-12 2002-06-20 이계철 음성인식에서 핵심어 검출 성능 개선 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020045960A (ko) * 2000-12-12 2002-06-20 이계철 음성인식에서 핵심어 검출 성능 개선 방법

Also Published As

Publication number Publication date
KR20060075533A (ko) 2006-07-04

Similar Documents

Publication Publication Date Title
US8275616B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
CN103971685B (zh) 语音命令识别方法和系统
US6618702B1 (en) Method of and device for phone-based speaker recognition
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
CN101346758B (zh) 感情识别装置
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
CN100587806C (zh) 语音识别方法和语音识别装置
Mouaz et al. Speech recognition of moroccan dialect using hidden Markov models
CN111402862A (zh) 语音识别方法、装置、存储介质及设备
Kurzekar et al. Continuous speech recognition system: A review
CN112017648A (zh) 加权有限状态转换器构建方法、语音识别方法及装置
Këpuska Wake-up-word speech recognition
CN110853669B (zh) 音频识别方法、装置及设备
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
KR20150035312A (ko) 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체
JP2000250593A (ja) 話者認識装置及び方法
KR20210000802A (ko) 인공지능 음성 인식 처리 방법 및 시스템
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
KR100940641B1 (ko) 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법
CN106920558A (zh) 关键词识别方法及装置
US20210398521A1 (en) Method and device for providing voice recognition service
KR101066472B1 (ko) 초성 기반 음성인식장치 및 음성인식방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee