KR20060070603A - 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 - Google Patents

음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 Download PDF

Info

Publication number
KR20060070603A
KR20060070603A KR1020040109126A KR20040109126A KR20060070603A KR 20060070603 A KR20060070603 A KR 20060070603A KR 1020040109126 A KR1020040109126 A KR 1020040109126A KR 20040109126 A KR20040109126 A KR 20040109126A KR 20060070603 A KR20060070603 A KR 20060070603A
Authority
KR
South Korea
Prior art keywords
speech
score
verification
voice
word
Prior art date
Application number
KR1020040109126A
Other languages
English (en)
Other versions
KR100655491B1 (ko
Inventor
김상훈
이영직
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020040109126A priority Critical patent/KR100655491B1/ko
Priority to US11/095,555 priority patent/US7529665B2/en
Publication of KR20060070603A publication Critical patent/KR20060070603A/ko
Application granted granted Critical
Publication of KR100655491B1 publication Critical patent/KR100655491B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치에 관한 것으로, 특히 음성인식의 탐색 모듈(Search)에서 출력되는 값을 주로 이용하여 검증하는 발화검증 1단계와 인식엔진의 각 모듈(End-point detection, Speech verification, Noise reduction, Search, Utterance verification, 기타 metadata)로부터 출력되는 유효한 값을 최대한 활용하여 카트(CART)로 검증하는 발화검증 2단계로 나누어 이루어진 것을 특징으로 하며, 이러한 본 발명은 인식수행 단계별 출력되는 중간결과값 및 메타데이터를 최대한 많이 활용하고, 이러한 이질적인 특징을 수용할 수 있도록 카트(CART) 패턴분류 방법으로 재차 검증해 줌으로써, 발화검증의 신뢰도를 향상시켜 사용자에게 보다 더 질높은 음성인식 서비스를 제공해 준다는 뛰어난 효과가 있다.
음성인식 시스템, 음성 발화분석, SVM 패턴분류, CART 패턴분류,

Description

음성인식 시스템에서의 2단계 발화 검증 방법 및 장치{TWO STAGE UTTERANCE VERIFICATION METHOD AND DEVICE OF SPEECH RECOGNITION SYSTEM}
도 1은 본 발명의 일 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 장치의 구성을 나타낸 기능 블록도,
도 2는 본 발명의 일 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 방법을 나타낸 동작 플로우챠트,
도 3은 도 2에 따른 음성인식 시스템의 2단계 발화 검증 방법에서 카트(CART) 패턴분류 방식을 설명하기 위한 개념도이다.
<도면의 주요 부분에 대한 부호의 설명>
100 : 컴퓨터 시스템 110 : 음성입출력
120 : 전처리 모듈 130 : 음성인식기
140 : 발화검증부 200 : 시스템응답 모듈
본 발명은 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치에 관한 것으로, 더욱 상세하게는 음성인식 결과를 출력하기 전 화자의 발화 검증(Utterance verification)을 수행함에 있어, 음성인식의 탐색부(Search)에서 출력되는 값을 주로 이용하여 검증하는 발화검증 1단계와 인식엔진의 각 모듈로부터 출력되는 유효한 값을 최대한 활용하여 카트(CART : Classification and Regression Tree) 패턴분류 방식으로 검증하는 발화검증 2단계로 나누어 발화 검증을 수행해 줌으로써, 발화 검증의 신뢰도를 향상시켜 주는 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치에 관한 것이다.
주지하다시피, 음성인식은 음성으로 가전기기나 단말기를 제어하거나 원하는 정보를 음성으로 접근할 수 있는 매우 편리한 기능으로, 현재 최근 지능형로봇, 텔레매틱스, 홈네트워크 등에 응용하고자 하는 사례가 증가하고 있다. 이러한 음성인식은 사용자의 음성을 100% 인식하도록 기능을 제공하는 것이 최상이지만, 현 시점에서는 열악한 잡음 환경이나 사용자의 실수, 인식대상이 아닌 단어발성(OoV: Out of Vocabulary) 등의 오인식 발생 요인으로 인해 사용자의 음성을 100% 인식하지 못하고 있다.
이 때, 일반적으로 음성인식 시스템에서 오인식이 발생할 경우에는 오인식된 결과를 그대로 시스템 응답에 사용한다면 사용자의 만족도를 크게 저하시키기 때문에, 오히려 음성인식 기능을 사용함에 따른 편리함 보다는 불편함을 더욱 초래할 수 있는 문제점이 있다. 따라서, 이와 같은 음성인식 오류로 인한 사용자 불만을 해소하고자 음성인식 결과를 다시 한번 검증하여 확실히 정인식된 결과라고 신뢰할 경우에만 시스템 응답으로 전달하고 그 외는 사용자에게 다시 한번 발성하게 하는 거절기능이 개발되었다.
상술한 바와 같은 음성인식 시스템에서 수행하는 발화검증 방법은 음성인식을 수행함에 있어 음성인식 결과에 대해 오인식 가능성이 높은지, 정인식 가능성이 높은지에 대한 음성인식 결과의 신뢰도를 판단하여 현재 발화의 거절(Rejection) 여부를 결정하는 방법이다. 이러한 고신뢰도 발화검증 방법의 구현은 실제 가정이나 자동차 환경에서 음성인식 사용성(Usability)을 획기적으로 높여주기 때문에 음성인식시스템의 실용화시 필수적이다.
한편, 종래 음성인식 시스템에서의 발화검증 방법으로는 HMM(Hidden Markov Model) 음성인식기의 탐색부에서 출력되는 특징데이터(예를 들어, 안티모델(Anti-model) LLR(Log Likelihood Ratio) 스코어(score), N-베스트(N-best) LLR 스코어, LLR 스코어의 조합, 단어길이(word duration) 등)와 이들 특징으로부터 오인식인지 여부를 판단할 수 있도록 SVM(Support Vector Machine) 패턴분류 방법이 주로 사용되고 있다.
하지만, 기존의 음성인식 시스템에서의 발화검증 방법인 SVM 패턴분류 방법은 인식후보 탐색단계에서 출력되는 중간결과값을 특징으로 주로 사용하기 때문에 발화검증의 신뢰도가 떨어지고, 이로 인해 사용자에게 보다 더 향상된 음성인식 서 비스를 제공하지 못하는 문제점이 있었다.
따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위해 이루어진 것으로서, 본 발명의 목적은 인식수행 단계별 출력되는 중간결과값 및 메타데이터(예를 들어, SNR, 성별, 나이, 음절수, 음운구조, 피치, 발성속도, 사투리 등)를 최대한 많이 활용하고, 이러한 이질적인 특징을 수용할 수 있도록 카트(CART) 패턴분류 방법으로 재차 검증해 줌으로써, 발화검증의 신뢰도를 향상시켜 사용자에게 보다 더 질높은 음성인식 서비스를 제공해주기 위한 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치를 제공하는 데 있다.
상기와 같은 목적을 달성하기 위하여 본 발명 음성인식 시스템에서의 2단계 발화 검증 방법은, 음성인식기의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하는 제 1 단계;
제1차 발화검증 기능의 결과값인 신뢰도 스코어가 오인식 수준으로 거절인지의 여부를 판단하는 제 2 단계;
상기 제 2 단계에서 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 오인식으로 거절(Reject)되면 다시 리턴하는 한편, 정인식으로 승인(Accept)되면, 전처리 모듈을 통해 추출된 각종 메타 데이터, 음성인식기의 각 요소 블록별 중간 결과 값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하는 제 3 단계; 및
제2차 음성 오인식 판별 기능의 결과가 오인식으로 거절인지의 여부를 판단하여 거절이면 다시 리턴하는 한편, 승인이면 음성을 시스템응답 모듈로 전달하는 제 4 단계로 이루어진 것을 특징으로 한다.
또한, 본 발명 음성인식 시스템에서의 2단계 발화 검증 장치는, 음성을 입력/출력하기 위한 음성 입출력부;
상기 음성 입출력부로부터 음성을 입력받아 그 음성에서 각종 메타 데이터를 추출하는 전처리 모듈;
상기 전처리 모듈로부터 각종 메타 데이터를 입력받은 후 음성인식을 수행하는 음성인식기; 및
상기 음성인식기의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하고, 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 정인식으로 승인(Accept)되면 상기 전처리 모듈을 통해 추출된 각종 메타 데이터, 상기 음성인식기의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하며, 이후 제2차 음성 오인식 판별 기능의 결과가 승인이면 음성을 시스템응답 모듈로 전달하는 발화검증부를 구비한 컴퓨터 시스템으로 구성된 것을 특징으로 한다.
이하, 본 발명의 일 실시예에 의한 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 장치의 구성을 나타낸 기능블록도로서, 본 발명의 일 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 장치는 크게 음성을 입력/출력하기 위한 음성입출력(Speech I/O)부(110), CPU상에서 각종 특징데이타를 추출하는 전처리 모듈(Preprocessing module)(120), CPU상에서 음성인식을 수행하는 음성인식기(Speech recognizer)(130), 및 CPU상에서 오인식 여부를 판별하는 발화검증부(Utterance verification)(140)로 구성된 컴퓨터 시스템(100)으로 구성되어 있다.
이 때, 상기 컴퓨터 시스템(100)의 상기 발화검증부(140)는 상기 음성인식기(130)의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하고, 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 정인식으로 승인(Accept)되면 상기 전처리 모듈(120)을 통해 추출된 각종 메타 데이터, 상기 음성인식기(130)의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하며, 이후 제2차 음성 오인식 판별 기능의 결과가 승인이면 음성을 시스템응답 모듈(System response module)(200)로 전달하는(Accept) 역할을 한다.
그러면, 상기와 같은 구성을 가지는 음성인식 시스템에 적용된 본 발명의 일 실시예에 따른 2단계 발화 검증 방법에 대해 첨부된 도 2, 도 3을 참조하여 설명하기로 한다.
먼저, 도 2는 본 발명의 일 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 방법을 나타낸 동작 플로우챠트로서, 상기 발화검증부(140)는 상기 음성인식기(130)의 탐색 블록(135)으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행한다(S1). 이 때, 상기 제 1 단계(S1)에서 상기 음성인식기(130)의 탐색 블록(135)으로부터 입력받은 각종 특징 데이터는 안티모델(Anti-model) LLR(Log Likelihood Ratio) 스코어(score), N-베스트(N-best) LLR 스코어, LLR 스코어의 조합, 단어길이(word duration) 등과 같은 데이터이며, 상기 발화검증부(140)는 이들 특징으로부터 오인식인지 여부를 판단할 수 있도록 SVM(Support Vector Machine) 패턴분류 방법을 사용한다.
그런후, 상기 발화검증부(140)는 상술한 제1차 발화검증 기능의 결과값인 신뢰도 스코어(Confidence score)가 오인식 수준으로 거절(Reject)인지의 여부를 판단하여, 거절(Reject)되면 다시 리턴하여 사용자에게 재발음해줄 것을 요구한다(S2). 이 때, 상술한 제 1, 2 단계(S1, S2)의 제1차 발화검증 기능은 신뢰도가 보장되는 임계치를 설정하여 그 임계치를 상회하면 이 단계에서 발화를 거절하고, 임계치 이하로 떨어지면 다음 단계로 발화검증 판별을 보류하는 것이다.
한편, 상기 제 2 단계(S2)에서 제1차 발화검증 기능의 결과값인 신뢰도 스코 어가 정인식으로 승인(Accept)되면, 상기 발화검증부(140)는 상기 전처리 모듈(120)을 통해 추출된 각종 메타 데이터, 상기 음성인식기(130)의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터(Confidence score) 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행한다(S3). 이 때, 상기 음성인식기(130)의 각 요소 블록은 도 2에 도시된 바와 같이 음성구간 끝점 검출 블록(End-point Detection Block)(131), 음성 검증 블록(Speech Verification Block)(132), 특징 추출 블록(Feature Extraction Block)(133), 잡음제거 블록(Noise Reduction Block)(134) 및 탐색 블록(Search Block)(135)으로 이루어지며, 상술한 이종 특징데이터의 세트는 하기 [표 1]과 같다.
Figure 112004060136419-PAT00001
그런후, 상기 발화검증부(140)는 제2차 음성 오인식 판별 기능의 결과가 오인식으로 거절인지의 여부를 판단하여 거절이면 다시 리턴하여 사용자에게 재발음해줄 것을 요구하는 한편, 최종 승인이면 음성을 상기 시스템응답 모듈(200)로 전달한다(S4).
한편, 본 발명의 제2차 음성 오인식 판별 기능에 적용된 카트(CART)는 통계적 패턴분류기의 한 방법으로 상기 [표 1]과 같은 이종 데이터에 대해 패턴 분류를 강인하게 해주는 알고리즘이다. 이 때, 카트(CART)로 패턴 분류를 하기 위해서는 미리 교사훈련(Supervised training) 과정이 필요하고 이를 위해 상기 [표 1]과 같은 이종 특징데이타에 대한 정인식/오인식 결과 데이터베이스를 구축, 이로부터 교사훈련 과정을 통해 분류트리(Classification Tree)를 생성해야 한다. 또한, 카트(CART) 훈련과정에서는 여러가지 이종 특징데이타에 의해 패턴분류를 시도해 보고 패턴집합의 엔트로피(Entropy)를 최저로 만드는 분류기준을 찾음으로써 패턴분류를 수행한다.
이 때, 패턴분류는 분류기준에 따라 도 3과 같이 이진결정트리(Binary decision tree)를 형성하게 되며, 여기서 분류기준은 "안티-모델(Anti-model) LLR 스코어가 몇점 이상인가?", "SNR은 몇 dB 이상인가?", "남자인가 여자인가?", "신뢰도 스코어(Confidence score)가 얼마인가?" 등이 될 수 있다.
도 3의 이진트리의 경우, 각 노드에서 분류기준을 적용하여 거절인 경우 좌측 경로로 분류되며, 승인인 경우에는 우측 경로로 분류된다. 루트노드(root node)에서 분류기준 "안티-모델(Anti-model) LLR 스코어(score) > -21?"이 적용된 경우, 좌측 경로에는 최종노드(Leaf node)인 오인식이라고 판단하여 거절을 결정하고, 우측 경로에는 또 다른 분류기준이 적용되어 엔트로피가 계속 감소되도록 이진트리를 형성하면서 분류가 진행된다. 이렇게 엔트로피의 감소량이 가장 많은 분류기준부터 순차적으로 적용하여 각 이종 특징데이타의 분류기준을 정할 수 있고, 이러한 분류기준으로부터 오인식 여부를 자동으로 판별하는 규칙을 작성할 수 있다.
이 때, 상술한 본 발명의 실시예에 따른 음성인식 시스템에서의 2단계 발화 검증 방법은 컴퓨터 프로그램으로 제작되어서 하드 디스크, 플로피 디스크, 광자기 디스크, 씨디 롬, 플래쉬 메모리, 롬, 램 등의 기록매체에 저장될 수 있다.
이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다.
상술한 바와 같이 본 발명에 의한 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치에 의하면, 인식수행 단계별 출력되는 중간결과값 및 메타데이터(예를 들어, SNR, 성별, 나이, 음절수, 음운구조, 피치, 발성속도, 사투리 등)를 최대한 많이 활용하고, 이러한 이질적인 특징을 수용할 수 있도록 카트(CART) 패턴분류 방법으로 재차 검증해 줌으로써, 발화검증의 신뢰도를 향상시켜 사용자에게 보다 더 질높은 음성인식 서비스를 제공해 준다는 뛰어난 효과가 있다.

Claims (4)

  1. 음성인식기의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하는 제 1 단계;
    제1차 발화검증 기능의 결과값인 신뢰도 스코어가 오인식 수준으로 거절인지의 여부를 판단하는 제 2 단계;
    상기 제 2 단계에서 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 오인식으로 거절(Reject)되면 다시 리턴하는 한편, 정인식으로 승인(Accept)되면, 전처리 모듈을 통해 추출된 각종 메타 데이터, 음성인식기의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하는 제 3 단계; 및
    제2차 음성 오인식 판별 기능의 결과가 오인식으로 거절인지의 여부를 판단하여 거절이면 다시 리턴하는 한편, 승인이면 음성을 시스템응답 모듈로 전달하는 제 4 단계로 이루어진 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 방법.
  2. 제 1항에 있어서,
    상기 제 3단계에서 이종 특징데이터는, SNR, 에너지(Energy), 성별(Gender), 나이(Age), 인식단어의 음운구조(Phonetic structure), 화자의 방언사용 여부(Dialect), 단어내 음절수(Number of syllable in word), 단어내 음소수(Number of phoneme in word), 단어내 프래임 수(Number of frame in word), 발화속도(Speaking rate), 평균피치(Average pitch), 발화길이(Utterance duration), 음성이 부재일 확률(Speech absent probability), 음성/비음성일 확률(Speeech/Nonspeech likelihood), 칼만 업데이팅 함수(Kalman shrinking factor), 워너 업데이팅 함수(Wiener shrinking factor), N-베스트 LLR 스코어(N-best LLR score), 안티-모델 LLP 스코어(Anti-model LLR score), 필터 뱅크별 SNR(Filter bank SNR), LLR 값의 조합(LLR driven score), 제1차 발화검증 결과(SVM confidence score), 탐색시 빔 크기(Beam width), 탐색에 걸리는 시간(Search time), 끝점 검출에 걸리는 시간(EPD time), 시스템 사용 시간대(Time), 및 단어가 사용되는 영역(Domain)인 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 방법.
  3. 음성을 입력/출력하기 위한 음성 입출력부;
    상기 음성 입출력부로부터 음성을 입력받아 그 음성에서 각종 메타 데이터를 추출하는 전처리 모듈;
    상기 전처리 모듈로부터 각종 메타 데이터를 입력받은 후 음성인식을 수행하는 음성인식기; 및
    상기 음성인식기의 탐색 블록으로부터 입력받은 각종 특징 데이터를 토대로 SVM 패턴분류 방식을 이용하여 제1차 발화검증 기능을 수행하고, 제1차 발화검증 기능의 결과값인 신뢰도 스코어가 정인식으로 승인(Accept)되면 상기 전처리 모듈을 통해 추출된 각종 메타 데이터, 상기 음성인식기의 각 요소 블록별 중간 결과값 및 상기 제1차 발화검증 기능의 결과 데이터 등과 같은 이종 특징데이터를 토대로 카트(CART) 패턴분류 방식을 이용하여 제2차 발화검증 기능을 수행하며, 이후 제2차 음성 오인식 판별 기능의 결과가 승인이면 음성을 시스템응답 모듈로 전달하는 발화검증부를 구비한 컴퓨터 시스템으로 구성된 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 장치.
  4. 제 4항에 있어서,
    상기 이종 특징데이터는, SNR, 에너지(Energy), 성별(Gender), 나이(Age), 인식단어의 음운구조(Phonetic structure), 화자의 방언사용 여부(Dialect), 단어내 음절수(Number of syllable in word), 단어내 음소수(Number of phoneme in word), 단어내 프래임 수(Number of frame in word), 발화속도(Speaking rate), 평균피치(Average pitch), 발화길이(Utterance duration), 음성이 부재일 확률(Speech absent probability), 음성/비음성일 확률(Speeech/Nonspeech likelihood), 칼만 업데이팅 함수(Kalman shrinking factor), 워너 업데이팅 함수(Wiener shrinking factor), N-베스트 LLR 스코어(N-best LLR score), 안티-모델 LLP 스코어(Anti-model LLR score), 필터 뱅크별 SNR(Filter bank SNR), LLR 값의 조합(LLR driven score), 제1차 발화검증 결과(SVM confidence score), 탐색시 빔 크기(Beam width), 탐색에 걸리는 시간(Search time), 끝점 검출에 걸리는 시간(EPD time), 시스템 사용 시간대(Time), 및 단어가 사용되는 영역(Domain)인 것을 특징으로 하는 음성인식 시스템에서의 2단계 발화 검증 장치.
KR1020040109126A 2004-12-21 2004-12-21 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 KR100655491B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040109126A KR100655491B1 (ko) 2004-12-21 2004-12-21 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
US11/095,555 US7529665B2 (en) 2004-12-21 2005-04-01 Two stage utterance verification device and method thereof in speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040109126A KR100655491B1 (ko) 2004-12-21 2004-12-21 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20060070603A true KR20060070603A (ko) 2006-06-26
KR100655491B1 KR100655491B1 (ko) 2006-12-11

Family

ID=36597229

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040109126A KR100655491B1 (ko) 2004-12-21 2004-12-21 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치

Country Status (2)

Country Link
US (1) US7529665B2 (ko)
KR (1) KR100655491B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100869385B1 (ko) * 2007-02-21 2008-11-19 인하대학교 산학협력단 사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법
KR100901439B1 (ko) * 2007-05-10 2009-06-05 인하대학교 산학협력단 서포트 벡터 머신을 이용한 음성 검출 방법
KR100940641B1 (ko) * 2007-12-24 2010-02-05 한국과학기술원 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법
US10043520B2 (en) 2014-07-09 2018-08-07 Samsung Electronics Co., Ltd. Multilevel speech recognition for candidate application group using first and second speech commands
US10304443B2 (en) 2014-01-21 2019-05-28 Samsung Electronics Co., Ltd. Device and method for performing voice recognition using trigger voice
KR102075670B1 (ko) * 2018-10-10 2020-03-02 서울시립대학교 산학협력단 나이 정보를 활용한 화자인식 방법 및 시스템

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US20070132754A1 (en) * 2005-12-12 2007-06-14 Intel Corporation Method and apparatus for binary image classification and segmentation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8688451B2 (en) * 2006-05-11 2014-04-01 General Motors Llc Distinguishing out-of-vocabulary speech from in-vocabulary speech
US7756710B2 (en) * 2006-07-13 2010-07-13 Sri International Method and apparatus for error correction in speech recognition applications
US8515728B2 (en) * 2007-03-29 2013-08-20 Microsoft Corporation Language translation of visual and audio input
DE102007056221B4 (de) 2007-11-27 2009-07-09 Siemens Ag Österreich Verfahren zur Spracherkennung
JP5451982B2 (ja) * 2008-04-23 2014-03-26 ニュアンス コミュニケーションズ,インコーポレイテッド 支援装置、プログラムおよび支援方法
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US8190437B2 (en) * 2008-10-24 2012-05-29 Nuance Communications, Inc. Speaker verification methods and apparatus
US8442824B2 (en) 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
ES2600227T3 (es) * 2008-12-10 2017-02-07 Agnitio S.L. Procedimiento para verificar la identidad de un orador y medio legible por ordenador y ordenador relacionados
US8392189B2 (en) * 2009-09-28 2013-03-05 Broadcom Corporation Speech recognition using speech characteristic probabilities
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
CA2747153A1 (en) 2011-07-19 2013-01-19 Suleman Kaheer Natural language processing dialog system for obtaining goods, services or information
US8781825B2 (en) * 2011-08-24 2014-07-15 Sensory, Incorporated Reducing false positives in speech recognition systems
US8645138B1 (en) * 2012-12-20 2014-02-04 Google Inc. Two-pass decoding for speech recognition of search and action requests
US20150154002A1 (en) * 2013-12-04 2015-06-04 Google Inc. User interface customization based on speaker characteristics
US9418656B2 (en) 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection
KR102387567B1 (ko) 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10614108B2 (en) * 2015-11-10 2020-04-07 International Business Machines Corporation User interface for streaming spoken query
CN106940998B (zh) * 2015-12-31 2021-04-16 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
KR102018331B1 (ko) 2016-01-08 2019-09-04 한국전자통신연구원 음성 인식 시스템에서의 발화 검증 장치 및 그 방법
US10339918B2 (en) * 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector
US20180240466A1 (en) * 2017-02-17 2018-08-23 Intel Corporation Speech Decoder and Language Interpreter With Asynchronous Pre-Processing
CN107452379B (zh) * 2017-08-17 2021-01-05 广州腾猴科技有限公司 一种方言语言的识别方法及虚拟现实教学方法和系统
CN110827794B (zh) * 2019-12-06 2022-06-07 科大讯飞股份有限公司 语音识别中间结果的质量评测方法和装置
US11120786B2 (en) * 2020-03-27 2021-09-14 Intel Corporation Method and system of automatic speech recognition with highly efficient decoding
US11996087B2 (en) 2021-04-30 2024-05-28 Comcast Cable Communications, Llc Method and apparatus for intelligent voice recognition
CN115132197B (zh) * 2022-05-27 2024-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、程序产品及介质
CN116189668B (zh) * 2023-04-24 2023-07-25 科大讯飞股份有限公司 语音分类、认知障碍检测方法、装置、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100298177B1 (ko) 1998-10-14 2001-08-07 이계철 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법
US6292778B1 (en) 1998-10-30 2001-09-18 Lucent Technologies Inc. Task-independent utterance verification with subword-based minimum verification error training
US6219640B1 (en) 1999-08-06 2001-04-17 International Business Machines Corporation Methods and apparatus for audio-visual speaker recognition and utterance verification
KR100762588B1 (ko) 2001-06-26 2007-10-01 엘지전자 주식회사 화자적응과 오입력 거절을 결합한 음성인식 방법
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100869385B1 (ko) * 2007-02-21 2008-11-19 인하대학교 산학협력단 사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법
KR100901439B1 (ko) * 2007-05-10 2009-06-05 인하대학교 산학협력단 서포트 벡터 머신을 이용한 음성 검출 방법
KR100940641B1 (ko) * 2007-12-24 2010-02-05 한국과학기술원 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법
US10304443B2 (en) 2014-01-21 2019-05-28 Samsung Electronics Co., Ltd. Device and method for performing voice recognition using trigger voice
US11011172B2 (en) 2014-01-21 2021-05-18 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof
US11984119B2 (en) 2014-01-21 2024-05-14 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof
US10043520B2 (en) 2014-07-09 2018-08-07 Samsung Electronics Co., Ltd. Multilevel speech recognition for candidate application group using first and second speech commands
KR102075670B1 (ko) * 2018-10-10 2020-03-02 서울시립대학교 산학협력단 나이 정보를 활용한 화자인식 방법 및 시스템

Also Published As

Publication number Publication date
KR100655491B1 (ko) 2006-12-11
US7529665B2 (en) 2009-05-05
US20060136207A1 (en) 2006-06-22

Similar Documents

Publication Publication Date Title
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
US5839103A (en) Speaker verification system using decision fusion logic
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US6618702B1 (en) Method of and device for phone-based speaker recognition
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN104143326A (zh) 一种语音命令识别方法和装置
EP0892388B1 (en) Method and apparatus for providing speaker authentication by verbal information verification using forced decoding
Li et al. Verbal information verification
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
CN110390948B (zh) 一种快速语音识别的方法及系统
Dey et al. Exploiting sequence information for text-dependent speaker verification
CN110875044B (zh) 一种基于字相关得分计算的说话人识别方法
Kadhim et al. Enhancement and modification of automatic speaker verification by utilizing hidden Markov model
JPH1173196A (ja) 話者の申し出識別を認証する方法
KR100776729B1 (ko) 결정 트리 기반의 상태 군집화 방법을 사용하는 비핵심어모델링부를 포함하는 화자독립 가변어휘 핵심어 검출시스템 및 그 방법
KR20200129007A (ko) 발화검증 장치 및 발화검증 방법
Cai et al. Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
Fujita et al. Robust DNN-Based VAD Augmented with Phone Entropy Based Rejection of Background Speech.
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
KR100669244B1 (ko) 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법
Jiang et al. A data selection strategy for utterance verification in continuous speech recognition.
Yang et al. User verification based on customized sentence reading
JP3621922B2 (ja) 文認識装置、文認識方法、プログラム、および媒体
Mporas et al. Evaluation of classification algorithms for text dependent and text independent speaker identification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20151127

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20161121

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20181025

Year of fee payment: 13