KR20130017542A - 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법 - Google Patents
거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법 Download PDFInfo
- Publication number
- KR20130017542A KR20130017542A KR1020110080034A KR20110080034A KR20130017542A KR 20130017542 A KR20130017542 A KR 20130017542A KR 1020110080034 A KR1020110080034 A KR 1020110080034A KR 20110080034 A KR20110080034 A KR 20110080034A KR 20130017542 A KR20130017542 A KR 20130017542A
- Authority
- KR
- South Korea
- Prior art keywords
- recognition
- speaker
- command
- keyword
- dtw
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012795 verification Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000000903 blocking effect Effects 0.000 abstract 3
- 230000006978 adaptation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000945 filler Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법이 개시된다. 본 발명에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법은 (a) 음성인식을 통한 기기제어를 시작함을 결정하는 키워드 인식 단계와 (b) 키워드 인식을 성공하여 음성 인식을 사용한 기기 제어를 수행하는 명령어 인식 단계로 이루어지되, 상기 키워드 인식 단계인 (a) 단계는 (a-1) 거절 모드를 기반으로 키워드의 인식을 설정하는 단계와, (a-2) 소리를 검출하여 HMM 방식으로 키워드를 인식하고 해당 음성 부분을 저장하는 단계와, (a-3) 상기 (a-2) 단계에서 HMM 방식으로 키워드 인식을 성공하였는지 체크하는 단계, 및 (a-4) 상기 (a-3) 단계에서 키워드 인식을 성공한 것으로 체크되었으면 상기 (a-2) 단계에서 저장된 음성 부분을 사용하여 DTW 인식을 수행하고 화자 후보로 등록한 후 재발성하도록 하여 등록된 화자인 경우에 한하여 명령어 인식 단계인 (b) 단계로 이동시키는 단계를 포함하고, 상기 명령어 인식 단계인 (b) 단계는, (b-1) 소리를 검출하여 HMM 방식으로 명령어 인식을 시도하는 단계와, (b-2) 상기 (b-1) 단계에서 명령어 인식에 실패하였으면 초기 모드로 복귀하는 단계와, (b-3) 상기 (b-1) 단계에서 명령어 인식에 성공하였으면 인식된 명령어에 해당하는 기기 제어를 위한 프로토콜을 전송하는 단계, 및 (b-4) 소망하는 기기 제어가 이루어진 경우에 음성 저장하는 단계를 포함하는 것을 특징으로 한다.
Description
본 발명은 음성 인식 방법에 관한 것으로 더 상세하게는 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법에 관한 것이다.
음성인식을 사용하여 기기 제어를 시작하기 위해서는 음성 인식을 개시한다는 미리 설정된 버튼을 눌러 기기 제어를 시작하게 된다. 하지만 이러한 방식은 별도의 버튼을 눌러야 하므로 실시간 음성 인식이 되지 않는다 할 것이다. 따라서, 항상 음성 인식 대기 상태로 있으면서 예컨대 "우리집~"와 같이 음성 인식을 사용한 기기 제어를 시작한다는 미리 정해진 키워드를 발성하면 음성으로 기기를 제어하게 된다. 이러한 실시간 음성 인식 시스템은 홈네트워크와 같은 분야에서 사용되고 있다.
하지만, 이러한 실시간 음성 인식기는 거절률의 문제로 실시간 음성인식기의 활용이 제한적이었다. 특히 음성 인식에서 종종 사용되는 모델은 히든 마르코프 모델(Hidden Markov Model: 이하 HMM이라 칭함)과 다이내믹 타임워핑(Dynamic Time Warping: 이하 DTW이라 칭함) 모델 중에서 DTW 인식 알고리즘에서는 DTW 음성 인식을 위한 과정을 수행 시 훈련을 위하여 화자가 별도로 녹음을 수행하는 과정이 불편함이 있으며, 거절률의 문제를 해결하기 위해 필러 모델, 가비지 모델, 반음소 모델 등과 같은 거절 모델을 추가하여야 하기 때문에 그를 위한 데이터베이스의 가중을 초래한다는 문제점이 있다.
본 발명은 상기한 문제점을 해결하기 위하여 개발된 것으로 본 발명이 이루고자 하는 과제는 홈네트워크와 같은 실시간 음성 인식 분야에 적용할 수 있는 것으로 키워드 또는 명령어가 아닌 음성을 키워드 또는 명령어로 인식하지 않도록 하면서도 거절 모델 추가에 따른 데이터베이스의 가중이 없이 HMM 기반의 음성 인식에 DTW 음성인식을 결합하여 거절율을 확보하고 오인식을 줄이며 특히 DTW 방식은 고립단어 인식 시 높은 인식률을 나타내는데 반하여 HMM 방식은 고립단어 인식의 경우 DTW 인식에 비하여 인식률이 낮은데, '켜' 또는 '꺼'와 같은 명령어의 변별이 중요한 실시간 음성 인식 분야에서 DTW 인식을 결합하여 오인식을 줄이는 것이 그 목적이 있다.
상기 과제를 이루기 위한 본 발명에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법은,
히든 마르코프 모델(Hidden Markov Model: 이하 HMM이라 칭함)과 다이내믹 타임워핑(Dynamic Time Warping) 기반 음성 인식을 결합하여 실시간 음성 인식을 수행하는 방법으로서 (a) 음성인식을 통한 기기제어를 시작함을 결정하는 키워드 인식 단계와 (b) 키워드 인식을 성공하여 음성 인식을 사용한 기기 제어를 수행하는 명령어 인식 단계로 이루어지되,
상기 키워드 인식 단계인 (a) 단계는,
(a-1) 거절 모드를 기반으로 키워드의 인식을 설정하는 단계와;
(a-2) 소리를 검출하여 HMM 방식으로 키워드를 인식하고 해당 음성 부분을 저장하는 단계와;
(a-3) 상기 (a-2) 단계에서 HMM 방식으로 키워드 인식을 성공하였는지 체크하는 단계; 및
(a-4) 상기 (a-3) 단계에서 키워드 인식을 성공한 것으로 체크되었으면 상기 (a-2) 단계에서 저장된 음성 부분을 사용하여 DTW 인식을 수행하고 화자 후보로 등록한 후 재발성하도록 하여 등록된 화자인 경우에 한하여 명령어 인식 단계인 (b) 단계로 이동시키는 단계;를 포함하고,
상기 명령어 인식 단계인 (b) 단계는,
(b-1) 소리를 검출하여 HMM 방식으로 명령어 인식을 시도하는 단계와;
(b-2) 상기 (b-1) 단계에서 명령어 인식에 실패하였으면 초기 모드로 복귀하는 단계와;
(b-3) 상기 (b-1) 단계에서 명령어 인식에 성공하였으면 DTW 인식을 수행하여 명령어 셋 중에서 가장 스코어가 높은 명령어를 선택하여 기기 제어를 수행하는 단계와;
(b-4) 인식된 명령어에 해당하는 기기 제어를 위한 프로토콜을 전송하는 단계; 및
(b-5) 소망하는 기기 제어가 이루어진 경우에 음성 저장하는 단계;를 포함하는 것을 특징으로 한다.
또한, 상기 (a-4) 단계는,
(a-4-1) 상기 (a-3) 단계에서 키워드 인식을 성공한 것으로 체크되었으면 상기 (a-2) 단계에서 저장된 음성 부분을 사용하여 DTW 화자 후보로 등록되어 있는지 체크하는 단계;
(a-4-2) 상기 (a-4-1) 단계에서 DTW 화자 후보로 등록되어 있지 않은 것으로 체크되면 DTW 화자로 등록되어 있는지 체크하여 DTW 화자로도 등록되어 있지 않으면 DTW 화자 후보로 등록하고 화자 후보를 삭제하고 카운트를 초기화는 단계;
(a-4-3) 상기 (a-4-1) 단계에서 DTW 화자 후보로 등록되어 있는 것으로 체크되면 DTW 검색하여 일치되는 화자 후보가 있는지 체크하는 단계; 및
(a-4-4) 상기 (a-4-3) 단계에서 일치되는 화자 후보가 있는 것으로 체크되면 화자 등록 플래그를 셋하는 단계;를 포함하는 것이 바람직하다.
또한, 상기 (b-3) 단계는,
(b-3-1) 상기 (b-1) 단계에서 명령어 인식에 성공하였으면 키워드에 대한 DTW 인식을 수행하여 화자 음성 업데이트 또는 화자 등록하는 단계;
(b-3-2) 검증 명령어 셋을 보유하고 있는지 체크하는 단계; 및
(b-3-3) 상기 (b-3-2) 단계에서 검증 명령어 셋을 보유하고 있는 것으로 체크되면 DTW 검색하여 검증 명령어 셋 중에서 가장 스코어가 높은 명령어를 선택하여 기기 제어를 수행하는 단계;를 포함하는 것이 바람직하다.
또한, 상기 (b-3-1) 단계에서, 화자 등록은,
화자 등록하는 단계와; 화자 후보를 삭제하는 단계; 및 화자 후보 카운트를 초기화하는 단계;를 포함하는 것이 바람직하다.
또한, 상기 (a-4) 단계는,
(a-4)' 상기 (a-3) 단계에서 키워드 인식을 성공한 것으로 체크되었으면 상기 (a-2) 단계에서 저장된 음성 부분을 사용하여 DTW 인식을 수행하고 화자 후보로 등록한 후 재발성하도록 하여 등록된 화자인 경우에 한하여 명령어 인식 단계인 (b) 단계로 이동시키며 새로운 화자인 경우에는 미리 정의된 화자 등록 플래그를 셋하는 단계;이고,
상기 (b-3-1) 단계는,
(b-3-1)' 상기 (b-1) 단계에서 명령어 인식에 성공하였으면 키워드에 대한 DTW 인식을 수행하며 상기 화자 등록 플래그가 셋되어 있지 않으면 화자 음성 업데이트하고 상기 화자 등록 플래그가 셋되어 있으면 화자 등록하는 단계;인 것이 보다 바람직하다.
본 발명에 따르면 실시간 음성인식기에서 명령어가 아닌 소리를 명령어로 인식하지 않도록 적절히 거절하는 거절률을 확보하고 의도하는 명령어가 아닌 다른 명령어로 인식하는 오인식 발생률을 낮출 수 있다.
도 1은 본 발명의 실시예에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법의 주요 개념을 나타낸 블록 다이어 그램,
도 2는 본 발명의 실시예에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법의 키워드 인식 과정을 나타낸 흐름도, 및
도 3은 본 발명에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법의 명령어 인식 과정을 나타낸 흐름도.
도 2는 본 발명의 실시예에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법의 키워드 인식 과정을 나타낸 흐름도, 및
도 3은 본 발명에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법의 명령어 인식 과정을 나타낸 흐름도.
이하 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.
DTW 방식은 명령어 전체를 하나의 단어처럼 인식하는 고립단어 인식에서 인식률이 우수하지만 인식 전에 인식하고자 하는 화자의 목소리를 녹음하여 훈련하는 과정을 거쳐야 한다는 불편함이 있다는 점에 주목하여 본 발명에서는 실시간 음성 인식기에서 음성 인식을 통한 기기제어를 하겠다는 키워드의 발성이 자연스럽게 여러 차례 이루어진다는 점에 착안하여 별도의 훈련 과정이 없이 음성 인식기의 사용과정에서 DTW 기반의 화자 등록 및 검색으로 인식률을 향상시킨다. 또한, 이러한 DTW 기반의 음성 인식은 훈련한 화자에 대해서만 인식가능하며 여러 화자가 훈련할 경우 화자별 DB가 독립적으로 생성되어야 한다는 점에 주목한다.
도 1에는 본 발명의 실시예에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법의 주요 개념을 블록 다이어 그램으로 나타내었다. 도 1을 참조하면, 본 발명에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법에서는 히든 마르코프 모델(Hidden Markov Model: 이하 HMM이라 칭함)과 다이내믹 타임워핑(Dynamic Time Warping) 기반 음성 인식을 결합하여 실시간 음성 인식을 수행하며, (a) 음성인식을 통한 기기제어를 시작함을 결정하는 키워드 인식 단계와 (b) 키워드 인식을 성공하여 음성 인식을 사용한 기기 제어를 수행하는 명령어 인식 단계로 이루어진다.
도 2에는 본 발명의 실시예에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법의 키워드 인식 과정을 흐름도로서 나타내었으며, 도 2에는 본 발명에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법의 명령어 인식 과정을 흐름도로서 나타내었다.
키워드 인식 단계인 (a) 단계에서는,
거절 모드를 기반으로 키워드의 인식을 설정(S200)하고, 소리를 검출(S202)하여 HMM 방식으로 키워드를 인식(S204)하고 해당 음성 부분을 저장한다.
단계(S204)에서 HMM 방식으로 키워드 인식을 성공하였는지 체크(S206)하여, 단계(S206)에서 키워드 인식을 성공한 것으로 체크되었으면 저장된 음성 부분을 사용하여 DTW 인식을 수행하고 화자 후보로 등록한 후 재발성하도록 하여 등록된 화자인 경우에 한하여 명령어 인식 단계인 (b) 단계로 이동시키는 단계(S22)를 수행한다.
상기 단계(S22)는,
상기 단계(S206)에서 키워드 인식을 성공한 것으로 체크되었으면 저장된 음성 부분을 사용하여 DTW 화자 후보로 등록되어 있는지 체크(S220)하고, DTW 화자 후보로 등록되어 있지 않은 것으로 체크되면 DTW 화자로 등록되어 있는지 체크(S230)하여 DTW 화자로도 등록되어 있지 않으면 DTW 화자 후보로 등록(S232)하고 화자 후보 삭제 카운트를 초기화(S240)한다.
하지만, 단계(S220)에서 DTW 화자 후보로 등록되어 있는 것으로 체크되면 DTW 검색(S250)하여 일치되는 화자 후보가 있는지 체크(S260)하여 일치되는 화자 후보가 있는 것으로 체크되면 화자 등록 플래그를 셋(S262)한다.
또한, 단계(S230)에서 DTW 화자로 등록되어 있는 것으로 체크되면 DTW 검색(S270)하여 임계값을 만족시키는지 체크(S272)하여 임계값을 만족시키는 것으로 체크되면 키워드 인식을 위한 화자음성 업데이트 플래그(UPDATE FLAG)를 세트(S274)하고, 임계값을 만족시키지 못하는 것으로 체크되면 화자 후보로만 등록(S232)하고 화자후보삭제 카운트를 초기화(S240)한다.
도 3에는 본 발명에 따른 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법의 명령어 인식 과정을 흐름도로써 나타내었다. 도 3을 참조하면,
상기 명령어 인식 단계인 (b) 단계는,
정상모드에서 인식대기(S300)하면서 소리를 검출하여 HMM 방식으로 일정시간 동안 명령어 인식을 시도(S302)하며, 명령어 인식을 성공하였는지를 체크(S304)하여 명령어 인식에 실패하였으면 초기 모드로 복귀한다. 본 발명에 따르면 HMM 기반으로 키워드 인식으로 하여 키워드 인식에 성공하고 DTW 음성인식을 통한 화자 후보 등록 및 화자 등록한 경우라도 일정 시간 동안 HMM 기반 음성인식으로 명령어 인식을 시도하여 실패하는 경우에는 초기 모드로 복귀하도록 함으로써 오작동의 발생 확률을 낮춘다.
이제, 단계(S304)에서 HMM 기반 음성인식 기반으로 하는 명령어 인식에 성공한 것으로 체크되면 인식된 명령어에 해당하는 기기 제어를 위한 프로토콜을 전송(S310)함으로써 기기 제어를 할 수 있다. 보다 바람직하게는 명령어에 대한 인식 과정에서 얻어진 음성 특징들을 키워드의 DTW 인식을 위한 화자 음성 업데이트에 적용한다. 즉, 명령어 인식이 성공한 경우, 화자 등록 플래그를 체크(S320)하여, 화자 등록 플래그가 셋 되어 있는 것으로 체크되면 화자 등록(S330)하고, 화자 후보를 삭제(S332)하며, 화자 후보 삭제 카운트를 초기화(S334)한 후 기기제어를 위한 프로토콜을 전송(S310)한다. 반면에, 화자 등록 플래그가 셋되어 있지 않으면 키워드에 대한 화자 음성 업데이트(S340)한 후 기기제어를 위한 프로토콜을 전송(S310)한다.
또한, 비슷한 명령어 페어가 존재할 수 있으므로 기기제어를 위한 프로토콜을 전송(S310)하기 이전에 검증 명령어 셋을 보유하고 있는지를 체크(S350)하여 검증 명령어 셋을 보유하고 있지 않으면 기기제어를 위한 프로토콜을 전송(S310)하고, 검증 명령어 셋을 보유하고 있으면 DTW 검색(S352)하여 비슷한 명령어페어(pair) 중에서 가장 높은 스코어값을 가지는 명령어를 인식 결과로 처리(S354)하여, 기기제어를 위한 프로토콜을 전송(S310)한다. 즉, 본 실시예에서와 같이 HMM 인식 후 DTW 인식을 수행하여 비슷한 명령어 페어(pair) 중에서 가장 높은 스코어값을 가지는 명령어를 인식 결과로 처리할 수 있다.
한편, 음성 저장 여부를 결정하여 DTW 인식에 사용하도록 할 수 있다.
DTW를 위한 음성 저장이 적합한지를 결정(S360)하여 적합한 것으로 결정되면 이를 저장(S362)한다. 하지만, DTW를 위한 음성 저장이 부적합한 경우에는 저장하지 않는다. DTW를 위한 음성 저장이 적합한지의 여부는 소망하는 기기제어가 이루어졌는지로 판단할 수 있다. 소망하는 기기제어가 이루어지지 않은 경우에는 짧은 시간내에 재발성하거나 수동으로 기기제어하는 등의 시도가 있게 되며 이러한 시도가 있는 경우에는 음성을 저장하지 않는다.
또한, 본 발명에 따르면 HMM 방식은 고립단어 뿐만 아니라 자연어 인식까지 가능하다는 점, 인식하고자 하는 화자의 목소리가 데이터베이스에 반영되지 않아도 가능하다는 점, 여러 명의 목소리의 특징을 1개의 모델로 가설할 수 있다는 점을 고려한다.
본 발명에 따르면 키워드 + 명령어로 구성된 문장을 인식하는 HMM 음성인식시스템에서 키워드를 인식하는 과정에서 DTW방식의 인식을 병행하여 키워드 인식의 정확성을 향상시키며, DTW인식을 병행하여 이용하여 비슷한 명령어에 대한 변별력을 향상시킨다. DTW 방식은 고립단어 인식 시 높은 인식률을 나타내는데 반하여 HMM 방식은 고립단어 인식의 경우 DTW 인식에 비하여 인식률이 낮은데, '켜' 또는 '꺼'와 같은 명령어의 변별이 중요한 실시간 음성 인식 분야에서 DTW 인식을 통한 오인식을 줄일 수 있다. 즉, 본 발명에 따르면 첨부된 청구항에 의하여 정의되는 방법에 의하여 HMM과 DTW 방식을 결합함으로써 키워드 거절률을 향상시킬 뿐만 아니라 DTW를 추가 수행하여 오인식률을 향상시킨다. 또한, 향상된 키워드 거절률을 바탕으로 명령어 인식 시 거절 모델(필러, 가비지, 반음소)을 간소화할 수 있다.
상술한 바와 같이 본 발명에 따르면 인식기의 명령어는 키워드 + 명령어의 구성을 가지나 인식기는 키워드와 명령어가 모두 인식되어야 인식 성공 결정을 하며, 최초 인식기는 HMM 방식으로만 인식한다. DTW 인식을 위해서는 DTW 화자 후보에 상응하는 음성 임시저장 공간과 DTW 화자에 상응하는 영구 저장 공간을 별도로 구성한다. 키워드가 인식 후(HMM 인식성공) 임시 저장공간과 영구저장공간에 모두 음성이 저장되어 있지 않을 경우 키워드 인식실패를 처리하고 키워드에 해당하는 음성을 임시 저장하고 인식 실패 처리하게 된다. 또한, 키워드 인식 후(HMM 인식 성공) 임시 저장한 음성과 영구 저장한 음성을 모두 DTW인식하여 가장 높은 score(패턴이 가장 일치하는)를 가지는 음성이 임시 저장한 음성일 경우 영구 저장하고 영구 저장된 음성일 경우 해당 음성으로 대체 하고 명령어 인식을 수행한다. 또한, 키워드 인식 후(HMM 인식 성공) DTW 인식 결과 모두 기준치 이하의 점수를 가지는 경우 인식 실패 처리한다. 키워드 인식을 실패하였을 경우(HMM 인식 실패 또는 DTW score 기준치 이하 점수)에는 정해진 실패 횟수 도달 여부에 따라 임시 저장된 음성을 삭제한다.
명령어 인식에서는 키워드 음성에 따른 명령어 음성 저장공간을 키워드 음성 별로 각각 마련하고, HMM 인식을 수행하여 명령어 인식이 성공되면 해당 음성을 저장하고, 저장된 음성이 비슷한 명령어 페어를 만족하면 HMM인식 후 DTW인식을 수행하여 비슷한 명령어 중 가장 높은 score값을 가지는 명령어를 인식결과로 처리 (ex. 조명켜, 조명꺼 모두 녹음 되었을 경우 DTW 수행하여 높은 값을 가지는 명령어 인식 결정)하게 되는 것이다.
이는 메모리에 맞도록 명령어와 관련된 음소를 여러 개 복사하여 보유하고 있다가 화자 등록시, 명령어 음성 저장시 적응화를 수행하여 갱신함. 갱신된 적응화 DB는 키워드 인식 승인된 후 명령어 인식 대기 모드시 DTW에 의해서 가장 높은 점수를 얻은 화자의 데이터베이스로 전환(S290)되어 명령어 인식시 화자에 적응된 데이터베이스를 이용하여 인식을 수행한다. 이를 위해서는 화자 등록 단계(S330)과 명령어 검증 과정에서 얻어진 정보를 사용하여 화자 적응화 과정(S380)이 이루어질 것이다.
Claims (6)
- 히든 마르코프 모델(Hidden Markov Model: 이하 HMM이라 칭함)과 다이내믹 타임워핑(Dynamic Time Warping) 기반 음성 인식을 결합하여 실시간 음성 인식을 수행하는 방법에 있어서,
(a) 음성인식을 통한 기기제어를 시작함을 결정하는 키워드 인식 단계와 (b) 키워드 인식을 성공하여 음성 인식을 사용한 기기 제어를 수행하는 명령어 인식 단계로 이루어지되,
상기 키워드 인식 단계인 (a) 단계는,
(a-1) 거절 모드를 기반으로 키워드의 인식을 설정하는 단계;
(a-2) 소리를 검출하여 HMM 방식으로 키워드를 인식하고 해당 음성 부분을 저장하는 단계;
(a-3) 상기 (a-2) 단계에서 HMM 방식으로 키워드 인식을 성공하였는지 체크하는 단계; 및
(a-4) 상기 (a-3) 단계에서 키워드 인식을 성공한 것으로 체크되었으면 상기 (a-2) 단계에서 저장된 음성 부분을 사용하여 DTW 인식을 수행하고 화자 후보로 등록한 후 재발성하도록 하여 등록된 화자인 경우에 한하여 명령어 인식 단계인 (b) 단계로 이동시키는 단계;를 포함하고,
상기 명령어 인식 단계인 (b) 단계는,
(b-1) 소리를 검출하여 HMM 방식으로 명령어 인식을 시도하는 단계;
(b-2) 상기 (b-1) 단계에서 명령어 인식에 실패하였으면 초기 모드로 복귀하는 단계;
(b-3) 상기 (b-1) 단계에서 명령어 인식에 성공하였으면 인식된 명령어에 해당하는 기기 제어를 위한 프로토콜을 전송하는 단계; 및
(b-4) 소망하는 기기 제어가 이루어진 경우에 음성 저장하는 단계;를 포함하는 것을 특징으로 하는 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법. - 제1항에 있어서, 상기 (a-4) 단계는,
(a-4-1) 상기 (a-3) 단계에서 키워드 인식을 성공한 것으로 체크되었으면 상기 (a-2) 단계에서 저장된 음성 부분을 사용하여 DTW 화자 후보로 등록되어 있는지 체크하는 단계;
(a-4-2) 상기 (a-4-1) 단계에서 DTW 화자 후보로 등록되어 있지 않은 것으로 체크되면 DTW 화자로 등록되어 있는지 체크하여 DTW 화자로도 등록되어 있지 않으면 DTW 화자 후보로 등록하고 화자 후보를 삭제하고 카운트를 초기화는 단계;
(a-4-3) 상기 (a-4-1) 단계에서 DTW 화자 후보로 등록되어 있는 것으로 체크되면 DTW 검색하여 일치되는 화자 후보가 있는지 체크하는 단계; 및
(a-4-4) 상기 (a-4-3) 단계에서 일치되는 화자 후보가 있는 것으로 체크되면 화자 등록하는 단계;를 포함하는 것을 특징으로 하는 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법. - 제1항에 있어서, 상기 (b-3) 단계는,
(b-3)' 상기 (b-1) 단계에서 명령어 인식에 성공하였으면 키워드에 대한 DTW 인식을 수행하여 명령어 셋 중에서 가장 스코어가 높은 명령어를 선택하여 기기 제어를 수행하는 단계;인 것을 특징으로 하는 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법. - 제3항에 있어서, 상기 (b-3)' 단계는,
(b-3-1) 상기 (b-1) 단계에서 명령어 인식에 성공하였으면 키워드에 대한 DTW 인식을 수행하여 화자 음성 업데이트 또는 화자 등록하는 단계;
(b-3-2) 검증 명령어 셋을 보유하고 있는지 체크하는 단계; 및
(b-3-3) 상기 (b-3-2) 단계에서 검증 명령어 셋을 보유하고 있는 것으로 체크되면 DTW 검색하여 검증 명령어 셋 중에서 가장 스코어가 높은 명령어를 선택하는 단계; 및
(b-3-4) 상기 선택된 명령어에 해당하는 기기 제어를 위한 프로토콜을 전송하는 단계;를 포함하는 것을 특징으로 하는 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법. - 제3항에 있어서, 상기 (b-3-1) 단계에서, 화자 등록은,
화자 등록하는 단계;
화자 후보를 삭제하는 단계; 및
화자 후보 삭제 카운트를 초기화하는 단계;를 포함하는 것을 특징으로 하는 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법. - 제3항에 있어서,
상기 (a-4) 단계는,
(a-4)' 상기 (a-3) 단계에서 키워드 인식을 성공한 것으로 체크되었으면 상기 (a-2) 단계에서 저장된 음성 부분을 사용하여 DTW 인식을 수행하고 화자 후보로 등록한 후 재발성하도록 하여 등록된 화자인 경우에 한하여 명령어 인식 단계인 (b) 단계로 이동시키며 새로운 화자인 경우에는 미리 정의된 화자 등록 플래그를 셋시키는 단계;이고,
상기 (b-3-1) 단계는,
(b-3-1)' 상기 (b-1) 단계에서 명령어 인식에 성공하였으면 키워드에 대한 DTW 인식을 수행하며 상기 화자 등록 플래그가 셋되어 있지 않으면 화자 음성 업데이트하고 상기 화자 등록 플래그가 셋되어 있으면 화자 등록하는 단계;인 것을 특징으로 하는 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110080034A KR101255141B1 (ko) | 2011-08-11 | 2011-08-11 | 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110080034A KR101255141B1 (ko) | 2011-08-11 | 2011-08-11 | 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130017542A true KR20130017542A (ko) | 2013-02-20 |
KR101255141B1 KR101255141B1 (ko) | 2013-04-22 |
Family
ID=47896688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110080034A KR101255141B1 (ko) | 2011-08-11 | 2011-08-11 | 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101255141B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297776A (zh) * | 2015-05-22 | 2017-01-04 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
US10418027B2 (en) | 2016-10-12 | 2019-09-17 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the same |
CN112259077A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 语音识别方法、装置、终端和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000001476U (ko) * | 1998-06-20 | 2000-01-25 | 조병호 | 특정문장 화자인식에 의한 도어록 장치 고안 |
US6754629B1 (en) * | 2000-09-08 | 2004-06-22 | Qualcomm Incorporated | System and method for automatic voice recognition using mapping |
US20020091515A1 (en) * | 2001-01-05 | 2002-07-11 | Harinath Garudadri | System and method for voice recognition in a distributed voice recognition system |
KR100832556B1 (ko) * | 2006-09-22 | 2008-05-26 | (주)한국파워보이스 | 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법 |
-
2011
- 2011-08-11 KR KR1020110080034A patent/KR101255141B1/ko active IP Right Grant
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297776A (zh) * | 2015-05-22 | 2017-01-04 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
CN106297776B (zh) * | 2015-05-22 | 2019-07-09 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
US10418027B2 (en) | 2016-10-12 | 2019-09-17 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the same |
CN112259077A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 语音识别方法、装置、终端和存储介质 |
CN112259077B (zh) * | 2020-10-20 | 2024-04-09 | 网易(杭州)网络有限公司 | 语音识别方法、装置、终端和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR101255141B1 (ko) | 2013-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11720326B2 (en) | Audio output control | |
US9159319B1 (en) | Keyword spotting with competitor models | |
US10643609B1 (en) | Selecting speech inputs | |
US10453117B1 (en) | Determining domains for natural language understanding | |
US12021684B1 (en) | Device configuration by natural language processing system | |
US11295741B2 (en) | Dynamic wakewords for speech-enabled devices | |
US10506088B1 (en) | Phone number verification | |
KR101237799B1 (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
US20220343895A1 (en) | User-defined keyword spotting | |
US11158307B1 (en) | Alternate utterance generation | |
US7058575B2 (en) | Integrating keyword spotting with graph decoder to improve the robustness of speech recognition | |
JP2006058899A (ja) | 発話検索のためのラティス・ベースの検索システムおよび方法 | |
US11450320B2 (en) | Dialogue system, dialogue processing method and electronic apparatus | |
US20230110205A1 (en) | Alternate natural language input generation | |
US11195522B1 (en) | False invocation rejection for speech processing systems | |
JP2015520410A (ja) | 音声認識に対する負例(アンチワード)に基づく性能改善 | |
JP2000221990A (ja) | 音声認識装置 | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
US9449598B1 (en) | Speech recognition with combined grammar and statistical language models | |
CN104462912A (zh) | 改进的生物密码安全 | |
KR101255141B1 (ko) | 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법 | |
WO2013028518A1 (en) | Reducing false positives in speech recognition systems | |
KR20200129007A (ko) | 발화검증 장치 및 발화검증 방법 | |
US10929601B1 (en) | Question answering for a multi-modal system | |
KR20120046627A (ko) | 화자 적응 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160411 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20170410 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20180410 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20190410 Year of fee payment: 7 |