KR20070061266A - 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 - Google Patents

발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 Download PDF

Info

Publication number
KR20070061266A
KR20070061266A KR1020060077948A KR20060077948A KR20070061266A KR 20070061266 A KR20070061266 A KR 20070061266A KR 1020060077948 A KR1020060077948 A KR 1020060077948A KR 20060077948 A KR20060077948 A KR 20060077948A KR 20070061266 A KR20070061266 A KR 20070061266A
Authority
KR
South Korea
Prior art keywords
calculated
speech
value
calculating
environmental factor
Prior art date
Application number
KR1020060077948A
Other languages
English (en)
Other versions
KR100819848B1 (ko
Inventor
강점자
전형배
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20070061266A publication Critical patent/KR20070061266A/ko
Application granted granted Critical
Publication of KR100819848B1 publication Critical patent/KR100819848B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성인식 시스템에 있어서 발화검증의 판단기준인 신뢰도 값이 환경요인(채널특성, 화자특성 등)과의 상관 관계가 존재하여 영향을 받기 때문에 상수값으로 설정된 임계치값을 자동으로 갱신함으로써 고신뢰도의 발화검증을 제공하기 위한 것으로, 입력되는 음성의 잡음 처리 및 음성구간 검출을 수행하여 음성데이터를 출력하는 전처리부와, 상기 음성데이터를 기 학습된 문맥종속 음소모델에 적용하여 음성인식을 수행하고 음성정보를 출력하는 음성인식부와, 상기 음성정보를 이용하여 환경요인 파라미터 및 스코어를 추출하는 환경요인 파라미터 계산부와, 학습된 문맥독립 반음소 모델, 음소 지속 모델(phone duration model), 기타 정보(우도, Nbest 정보 등)를 적용하여 단어별 신뢰도 측정을 위한 입력 파라미터를 추출하는 입력 파라미터 추출부와, 상기 입력 파라미터를 기반으로 신뢰도 측정값을 계산하는 신뢰도 측정부와, 상기 스코어의 평균값을 통해 산출된 환경요인 값을 적용하여 새로운 임계치값을 계산하고 갱신하는 임계치값 결정부와, 상기 갱신된 임계치값을 사용하여 인식결과의 수락 및 거절을 판단하는 판단부를 포함하는데 있다.
음성인식, 발화검증, 임계치

Description

발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 장치 및 방법{Apparatus and method for speech recognition using automatic update of threshold for utterance verification}
도 1 은 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 장치의 구성을 나타낸 도면
도 2 는 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법을 나타낸 흐름도
도 3 은 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법에서 환경요인 특성이 적용된 새로운 임계치 값을 계산하기 위해 필요한 사전 데이터 값을 계산하는 방법을 보다 상세히 나타낸 흐름도
도 4 는 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법에서 환경요인 특성이 적용된 새로운 임계치값을 계산하고 갱신하는 방법을 보다 상세히 나타낸 흐름도
*도면의 주요부분에 대한 부호의 설명
10 : 중앙 제어부 20 : 전처리부
30 : 음성 인식부 40 : 환경요인 파라미터 계산부
50 : 입력 파라미터 추출부 60 : 신뢰도 측정부
70 : 임계치값 결정부 80 : 판단부
90 : 문맥종속 음소모델 100: 문맥독립 음소모델
110 : 분류기 모델
본 발명은 음성인식 시스템에 관한 것으로, 특히 음성인식 결과의 수락 또는 거절을 결정하는 발화검증을 위한 임계치값 자동갱신을 이용한 음성인식 장치 및 방법에 관한 것이다.
종래의 음성인식 시스템은 사용자가 소정의 음성을 말하면 미리 등록된 데이터들 중 그 음성 특성이 가장 유사한 데이터를 찾아 인식 결과로 결정한다. 이로 인해 등록은 되어 있더라도 특성 차이가 매우 적어 구분이 어려운 경우 잘못 인식되기도 하고, 또한 등록이 되어 있지 않은 데이터에 해당하는 음성이 입력되더라도 가장 유사한 데이터를 골라서 인식 결과로 결정함으로써 오류를 범하는 경우가 많았다. 따라서 인식된 어떤 결과에 대해서 신뢰도 측정(Confidence Measure)값을 계산하여 인식 결과를 받아들일 것인지(Accept), 거절할 것인지(Reject)를 결정하는 발화검증 기능이 수행된다.
최근 음성인식 시스템이 정보통신 산업, 정보처리 산업, 가전산업, 자동차 산업등과 같은 다양한 산업 분야에 적용되고 있으며, 이에 따라 신뢰도 높은 음성 인식결과를 얻기 위하여 인식 대상 문장이라도 오인식 가능성이 높은 결과를 기각 시키는 발화검증 기술의 중요성이 높아지고 있다. 그리고 이를 위한 발화검증 방법으로는 구해진 신뢰도 값과 사전에 설정된 임계치 값을 서로 비교하여 임계치 값 보다 크면 인식 결과를 수락하고, 임계치 값 보다 작거나 같으면 인식 결과를 거절하는 방식이 이용되고 있다.
그러나, 종래의 음성인식 시스템에 있어서, 발화검증에 사용하는 신뢰도 값이 환경요인(채널특성, 화자특성 등)과의 상관 관계가 존재하여 영향을 받기 때문에 단지 상수로 설정되는 임계치값을 적용해서는 실제 발생하는 여러 가지 경우를 충실히 반영할 수 없다.
또한, 환경이나 타스크가 변경될 때마다 발화검증의 대립가설에 사용되는 반모델 생성도 매번 새롭게 생성해야할 뿐만 아니라, 실제 환경에서 수집된 데이터를 사용하여 실험을 통해 가장 적절한 임계치값을 미리 설정하거나 운용자가 실제 환경에서 샘플링된 데이터의 테스트를 통해서 임계치값을 새롭게 설정해야만 한다는 문제점을 갖고 있다.
게다가, 발화검증용 임계치값은 환경요인에 민감하게 동작하므로 한번 설정된 임계치값을 사용하여 계속 발화검증을 수행하는 것은 음성인식 신뢰도면에서 볼 때 바람직하지 못하다는 문제점도 갖고 있다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 음성인식 시스템에 있어서 발화검증의 신뢰도 값에 영향을 미치는 환경요인 특성을 분석하여 임계치값을 자동으로 갱신함으로써 고신뢰도의 발화검증을 제공하는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위해 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 장치의 특징은 입력되는 음성의 잡음 처리 및 음성구간 검출을 수행하여 음성데이터를 출력하는 전처리부와, 상기 음성데이터를 기 학습된 문맥종속 음소모델에 적용하여 음성인식을 수행하고 음성정보를 출력하는 음성인식부와, 상기 음성정보를 이용하여 환경요인 파라미터 및 소코어를 추출하는 환경요인 파라미터 계산부와 학습된 문맥독립 반음소 모델, 음소 지속 모델(phone duration model), 기타 정보(우도, Nbest 정보 등)에 적용하여 단어별 신뢰도 측정을 위한 다양한 입력 파라미터 추출부와 신뢰도 측정값을 계산하는 신뢰도 측정부와, 상기 스코어의 평균값을 통해 산출된 환경요인 값을 적용하여 새로운 임계치값을 계산하고 갱신하는 임계치값 결정부와, 상기 갱신된 임계치값을 사용하여 인식결과의 수락 및 거절을 판단하는 판단부를 포함하는데 있다.
바람직하게 상기 문맥독립 반음소 모델은 모든 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel) 중 적어도 하나 이상인 것을 특징으로 한다.
바람직하게 상기 환경요인 값은 채널특성인 신호대 잡음 비(SNR: Signal to Noise Ratio))와, 화자특성인 음성 에너지 및 F0 포만트 크기 중 적어도 하나 이상인 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법의 특징은 (a) 입력된 음성의 잡음 처리 및 음성구간을 검출하는 단계와, (b) 상기 검출된 음성데이터를 기 설정되어 학습된 문맥종속 음소모델에 적용하여 비터비 탐색을 통해 음성인식을 수행하는 단계와, (c) 상기 인식된 음성정보를 기 설정되어 학습된 다양한 문맥독립 반음소 모델 또는 내부 정보에 적용하여 입력 파라미터와 환경요인 파라미터를 산출하는 단계와, (d) 상기 산출된 입력 파라미터값을 기반으로 신뢰도 측정값을 계산하고, 정규화하는 단계와, (e) 상기 산출된 환경요인 파라미터에 기반하여 계산된 환경요인 값을 적용하여 새로운 임계치값을 계산하고 갱신하는 단계와, (f) 상기 갱신된 임계치값을 상기 산출된 신뢰도 측정값과 비교하여 음성 인식결과에 따른 수락 또는 거절을 결정하는 단계를 포함하는데 있다.
바람직하게 상기 (c)의 입력 파라미터 계산은 문맥독립 반음소 모델과 같이 외부에서 필요한 모델을 생성하여 사용하는 경우와 내부 정보만을 사용하여 구할 수 있다. 만약 문맥독립 반음소 모델을 기반으로 하는 경우, 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel)등 다양한 형태의 반음소 모델과 내부 정보(우도, Nbest 정보 등)를 혼합하여 사용하는 것을 특징으로 하며, 한 개의 입력 파라미터가 존재하는 경우에도 처리할 수 있다.
바람직하게 상기 (d) 단계는 여러개의 입력 파라미터를 기반하는 경우, 분류 기에 필요한 분류기 모델 생성을 위하여 훈련하는 단계와, 상기 훈련 단계에서 산출된 훈련모델을 이용하여 훈련 데이터에 대한 신뢰도 측정값, 평균 및 표준편차를 계산하는 단계와, 상기 계산된 신뢰도 측정값을 정규화하는 단계를 포함하는 것을 특징으로 한다. 만약 단일의 입력 파라미터를 기반으로 하는 경우, 훈련 과정 없이 훈련 데이터로부터 직접 신뢰도 측정값, 평균 및 표준편차를 계산하여 정규화하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (e) 단계는 (e1) 산출된 환경요인 파라미터를 기반하여 환경요인 특성의 초기값을 계산하고 설정하는 단계와, (e2) 실시간으로 현재 환경요인을 기반한 환경요인 파라미터에 대한 각각의 현재 스코어를 계산하고 정규화하는 단계와, (e3) 상기 환경요인 파라미터를 기반으로 계산된 환경요인 특성에 따른 각각의 상관계수를 상기 각각의 정규화된 현재 스코어와 서로 곱하여 새로운 스코어를 산출하는 단계와, (e4) 상기 산출된 새로운 스코어를 모두 합하고 전체 평균값을 계산하여 환경요인 값을 산출하는 단계와, (e5) 상기 산출된 환경요인 값에 특정 적응계수를 곱하고 기존의 임계치값에 더하거나 빼서 새로운 임계치값을 계산하는 단계와, (e6) 상기 계산된 새로운 임계치값으로 기존의 임계치값을 갱신하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (e1)의 환경요인 특성의 초기값은 신호대 잡음비와의 초기값, 음성 에너지와의 초기값 및 FO 포만트 크기에 대한 초기값 중 적어도 하나 이상인 것을 특징으로 한다.
바람직하게 상기 초기값은 훈련 데이터를 통한 신뢰도 측정값과 신호대 잡음 비와의 상관계수, 신호대 잡음비와의 평균, 표준편차, 신뢰도 측정값과 음성 에너지와의 상관계수, 음성에너지의 평균, 표준편차, 신뢰도 측정값과 F0 포만트 크기와의 상관계수, F0 포만트 크기의 평균, F0 포만트 크기의 표준편차 값 중 적어도 하나 이상인 것을 특징으로 한다.
바람직하게 상기 (e3) 단계는 상기 계산된 정규화된 신호대 잡음비의 현재 스코어와 상기 신호대 잡음비 상관계수를 곱하여 제 1 스코어를 산출하는 단계와, 상기 계산된 정규화된 음성 에너지의 현재 스코어와 상기 음성 에너지 상관계수를 곱하여 제 2 스코어를 산출하는 단계와, 상기 계산된 정규화된 FO 포만드 크기의 현재 스코어와 상기 FO 포만드 크기 상관계수를 곱하여 제 3 스코어를 산출하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 (f) 단계는 상기 비교결과 계산된 신뢰도 측정값보다 임계치값이 크면 인식결과를 수락하는 단계와, 상기 비교결과 계산된 신뢰도 측정값이 임계치값보다 작으면 인식 결과를 거절하는 단계와, 상기 인식 결과가 수락되면 음성인식 시스템을 동작시키고, 상기 인식 결과가 거절되면 사용자에게 메시지 또는 음성을 통해 음성인식을 위한 재발성을 유도하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다.
도 1 은 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 장치의 구성을 나타낸 도면이다.
도 1에 도시된 바와 같이, 사용자의 음성입력 및 메시지/음성출력을 통해 음성인식에 따른 전체시스템을 제어하는 중앙제어부(10)와, 상기 중앙제어부(10)에서 입력되는 음성의 잡음 처리 및 음성구간 검출을 위한 끝점검출과 특징추출을 수행하여 음성데이터를 출력하는 전처리부(20)와, 상기 음성데이터를 기 학습된 문맥종속 음소모델에 적용하여 비터비 탐색을 통해 음성인식을 수행하고 음성정보를 출력하는 음성인식부(30)와, 상기 음성정보를 이용하여 채널 특성, 화자 특성 정보인 환경요인 파라미터 및 임계치값 갱신을 위한 스코어를 추출하는 환경요인 파라미터 계산부(40)와, 상기 음성정보를 기 학습된 문맥독립 반음소 모델 또는 음소 지속 모델(phone duration model), 기타 정보(우도, Nbest 정보 등)를 적용하여 단어별 신뢰도 측정을 위한 다양한 입력 파라미터를 추출하는 입력 파라미터 추출부(50)와, 상기 입력 파라미터 추출부(50)의 데이터가 여러개여서 분류기 모델을 사용하는 경우는 모델을 이용하여 신뢰도 측정값을 구하거나 또는 분류기 모델 없이 단일의 입력 파라미터인 경우는 추출된 신뢰도 측정값을 그대로 사용하는 신뢰도 측정부(60)와, 임계치값 갱신을 위해 상기 스코어의 파라미터 값을 정규 분포로 정규화된 값에 훈련 데이터로부터 구해진 환경요인 파라미터별 상관계수 값을 적용하여 각각 새로운 값을 구하여 평균을 취해 구해진 환경 요인 값을 적용하여 새로운 임계치값을 계산하고, 갱신하는 임계치값 결정부(70)와, 상기 새로 갱신된 임계치 값 을 사용하여 인식결과의 수락 및 거절을 판단하는 판단부(80)로 구성된다.
이때, 상기 입력 파라미터 추출부(50)에서 추출되는 파라미터는 문맥독립 반음소 모델과 같이 외부에서 필요한 모델을 생성하여 사용하는 경우와 내부 정보만을 사용하여 구할 수 있다. 만약 문맥독립 반음소 모델을 기반으로 하는 경우, 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel)등 다양한 형태의 반음소 모델과 내부 정보(우도, Nbest 정보 등)를 혼합하여 사용하는 것을 특징으로 하며, 한 개의 입력 파라미터가 추출될 수 있다.
또한 상기 임계치값 결정부(70)에서 사용되는 환경요인 파라미터는 채널특성인 신호대 잡음 비(SNR: Signal to Noise Ratio))와, 화자특성인 음성 에너지 및 F0 포만트 크기 등인 것이 바람직하다.
이와 같이 구성된 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.
도 2 는 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 방법을 나타낸 흐름도이다.
도 2를 참조하여 설명하면, 먼저 사용자가 음성인식 기능이 탑재된 시스템을 사용하여 음성을 입력하면, 음성인식 시스템 내의 중앙제어부(10)는 이를 전처리부(20)에 전달한다(S100).
이어 상기 전처리부(20)에서는 전달된 음성의 잡음 처리 및 음성구간 검출을 위한 끝점검출과 특징추출을 수행하여 음성인식부(30)에 전달하고(S200), 상기 음성인식부(30)에서는 상기 전처리부(20)에서 출력되는 음성데이터를 기 설정되어 학습된 문맥종속 음소모델(90)에 적용하여 비터비 탐색을 통해 음성인식을 수행한다(S300). 이때 상기 음성인식 수행에 따라 단어 스코어, 단어의 경계 정보, 해당 단어에 대한 음소별 스코어 및 경계 정보가 출력된다.
이어, 상기 음성인식을 통해 출력되는 음성정보를 기 설정되어 학습된 다양한 문맥독립 반음소 모델(100)과 내부정보(우도, Nbest 정보 등)에 적용하여 단어별 신뢰도를 측정하기 위한 입력 파라미터와 임계치값 갱신을 위한 환경요인 파라미터를 산출한다(S400). 이때 상기 문맥독립 반음소 모델(100)로는 모든 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel) 등이 사용될 수 있다.
이어, 상기 산출된 입력 파라미터가 여러개인 경우, 입력 파라미터를 통합하기 위한 분류기와 분류기 모델(110)을 사용하여 신뢰도 측정값을 계산하고 정규화한다(S500). 만약 단일의 입력 파라미터를 사용하는 경우, 별도의 분류기와 분류기 모델을 사용하지 않아도 된다. 이때, 상기 신뢰도란 음성인식 결과인 음소나 단어에 대해서 그 이외의 다른 음소나 단어로부터 그 말이 발화되었을 때의 확률에 대한 상대적 확률값을 의미한다. 신뢰도 측정(S500)은 입력된 파라미터가 여러개인 경우, 입력 파라미터 값을 하나의 값으로 분류기에서 통합하여 구해진 값과 모델 계수값을 곱하여 신뢰도 값을 구한다. 만약 단일의 입력 파라미터 값을 사용하는 경우에는 해당하는 입력 파라미터 값이 신뢰도 값이 된다.
상기 새로운 임계치값 계산 갱신(S600)을 위해 필요한 사전 데이터 값을 계산하는 방법이 도 3에서 보다 상세히 나타내고 있다.
도 3을 참조하여 설명하면, 먼저 훈련 데이터가 결정(S510) 되면 훈련 데이터 셋에 대해 신호대 잡음비, 음성 에너지, F0 포만트 크기 스코아를 구해서 각각에 대해 평균, 표준편차를 계산한 후, 정규화하여 저장한다(S520). 그리고 입력 파라미터를 결정(S530)한다. 만약 여러 개의 입력 파라미터를 사용하는 경우, 모델 생성(S540)이 필요하므로, 모델을 훈련(S550)하고, 이중 최적의 모델을 선택(S560)한 후, 해당 모델로부터 구해진 신뢰도 값을 측정하여, 평균, 표준편차를 계산(S570)하여 신뢰도 값을 정규화(S580)한다. 그렇지 않고, 모델 생성이 필요 없는 경우, 입력 파라미터 결정(S530)에서 결정된 신뢰도 측정 값에 대해 평균, 표준편차를 계산(S570)하고, 신뢰도값을 정규화(S580)한다. 그런 다음, 정규화된 신뢰도 측정값과 신호대 잡음비와의 상관계수, 정규화된 신뢰도 측정값과 음성에너지와의 상관계수, 정규화된 F0포만트 크기와의 상관계수를 계산(S590)하여 저장된 값을 사용한다.
다음으로 상기 산출된 환경요인 파라미터(S400)와 상기 계산된 신뢰도 측정(S500)값에 적용하여 새로운 임계치값을 계산하고 갱신한다(S600).
이때, 상기 환경요인 특성은 발화검증의 임계치값에 영향을 미치는 요인으로서 채널특성인 신호대 잡음 비(SNR: Signal to Noise Ratio))와, 화자 특성인 음성 에너지 및 F0 포만트 크기 정보이다.
상기 환경요인 특성이 적용된 새로운 임계치값을 계산하고 갱신하는 방법(S600)이 도 4에서 보다 상세히 나타내고 있다.
도 4를 참조하여 설명하면, 먼저 산출된 환경요인 파라미터 각각에 대해 신호대 잡음비와의 초기값, 음성 에너지와의 초기값(상관계수, 평균, 표준편차), FO 포만트 크기에 대한 초기값을 계산하여 설정한다(S610). 이때, 상기 환경요인 특성에 따른 초기값은 신뢰도 측정값과의 상관계수와, 이에 따른 평균 및 표준편차 값들을 말한다.
이어, 실시간으로 현재 환경요인을 기반한 신호대 잡음비, 음성 에너지, F0 포만트 크기에 대한 각각의 현재 스코어를 계산하고, 이를 정규화한다(S620).
그리고 상기 환경요인 파라미터와 신뢰도 측정 값을 기반으로 계산된 환경요인 특성에 따른 각각의 상관계수를 상기 현재 스코어와 서로 곱하여 새로운 스코어를 산출한다(S630).
즉, 상기 정규화된 신호대 잡음비 현재 스코어와 상기 신호대 잡음비 상관계수를 곱하여 제 1 스코어를 산출하고, 상기 정규화된 음성 에너지 현재 스코어와 상기 음성 에너지 상관계수를 곱하여 제 2 스코어를 산출하고, 상기 정규화된 FO 포만트 크기 현재 스코어와 상기 FO 포만트 크기 상관계수를 곱하여 제 3 스코어를 산출한다.
이렇게 산출된 각각의 제 1, 2, 3 스코어를 모두 합하여 환경요인에 따른 전체 평균값을 계산한다. 이때, 계산된 평균값을 환경요인 값이라 정한다(S640).
이어 상기 계산된 환경요인 값에 특정 적응계수를 곱하여 기존의 임계치값에 더하거나 빼서 새로운 임계치값을 계산하여 갱신하게 된다(S650).
이렇게 새로 갱신된 임계치값을 상기 계산된 신뢰도 측정값과 비교하여 음성 인식결과에 따른 수락 또는 거절을 결정한다(S700).
즉, 상기 비교결과(S700), 계산된 신뢰도 측정값보다 임계치값이 크면, 인식된 결과가 맞는 것으로 인식결과를 수락하고(S1000), 상기 비교결과(S700) 상기 계산된 신뢰도 측정값이 임계치값보다 작으면 인식 결과를 거절한다(S800).
그리고 상기 인식 결과가 수락되면 음성인식 시스템을 동작시키고(S1100), 상기 인식 결과가 거절된 경우는 중앙제어부(10)가 사용자에게 메시지와 음성을 출력하여 사용자에게 음성인식을 위한 재발성을 유도한다(S900).
이와 같이, 발화검증을 위해 환경요인 특성을 실시간으로 임계치값에 반영해 줌으로써, 신뢰도 높은 음성인식 서비스를 제공할 수 있게 된다.
이상에서와 같이 상세한 설명과 도면을 통해 본 발명의 최적 실시예를 개시하였다. 용어들은 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
이상에서 설명한 바와 같은 본 발명에 따른 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식 장치 및 방법은 다음과 같은 효과가 있다.
첫째, 음성인식 시스템에서 발화검증을 위한 임계치값을 자동으로 갱신함으로써 새로운 환경이나 타스크가 변경되어도 환경요인 특성을 시스템에 즉시 반영이 가능한 효과가 있다.
둘째, 실제 환경에서 민감한 정보를 임계치값 계산에 반영해 줌으로써 신뢰도 높은 발화검증을 제공할 수 있는 효과가 있다.

Claims (13)

  1. 입력되는 음성의 잡음 처리 및 음성구간 검출을 수행하여 음성데이터를 출력하는 전처리부와,
    상기 음성데이터를 기 학습된 문맥종속 음소모델에 적용하여 음성인식을 수행하고 음성정보를 출력하는 음성인식부와,
    상기 음성정보를 이용하여 환경요인 파라미터 및 스코어를 추출하는 환경요인 파라미터 추출부와,
    상기 기 학습된 문맥독립 반음소 모델, 음소 지속 모델(phone duration model), 우도, Nbest 정보 중 적어도 하나 이상에 적용하여 단어별 신뢰도 측정을 위한 입력 파라미터를 추출하는 입력 파라미터 추출부와,
    상기 추출되는 입력 파라미터가 여러개인 경우는 기 정의된 분류기의 훈련 모델을 사용하여 신뢰도 측정값을 계산하고, 단일 입력 파라미터인 경우는 추출된 신뢰도 측정값을 그대로 사용하는 신뢰도 측정부와,
    상기 스코어의 평균값을 통해 산출된 환경요인 값을 적용하여 새로운 임계치값을 계산하고 갱신하는 임계치값 결정부와,
    상기 갱신된 임계치값을 사용하여 인식결과의 수락 및 거절을 판단하는 판단부를 포함하는 음성인식 장치.
  2. 제 1 항에 있어서,
    상기 문맥독립 반음소 모델은 모든 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel) 중 적어도 하나 이상인 것을 특징으로 하는 음성인식 장치.
  3. 제 1 항에 있어서,
    상기 환경요인 값은 채널특성인 신호대 잡음 비(SNR: Signal to Noise Ratio))와, 화자특성인 음성 에너지 및 F0 포만트 크기 중 적어도 하나 이상인 것을 특징으로 하는 음성인식 장치.
  4. (a) 입력된 음성의 잡음 처리 및 음성구간을 검출하는 단계와,
    (b) 상기 검출된 음성데이터를 기 설정되어 학습된 문맥종속 음소모델에 적용하여 비터비 탐색을 통해 음성인식을 수행하는 단계와,
    (c) 상기 인식된 음성정보를 기 설정되어 학습된 다양한 문맥독립 반음소 모델, duration 모델, 내부 정보(우도, Nbest 등)에 적용하여 입력 파라미터값과 환경 요인 파라미터를 산출하는 단계와,
    (d) 상기 산출된 입력 파라미터값을 기반으로 신뢰도 측정값을 계산하고, 정규화하는 단계와,
    (e) 상기 산출된 환경요인 파라미터에 기반하여 계산된 환경요인 값을 적용하여 새로운 임계치값을 계산하고 갱신하는 단계와,
    (f) 상기 갱신된 임계치값을 상기 산출된 신뢰도 측정값과 비교하여 음성 인식결과에 따른 수락 또는 거절을 결정하는 단계를 포함하는 음성인식 방법.
  5. 제 4 항에 있어서,
    상기 문맥독립 반음소 모델은 모든 믹스처를 사용한 반모델(Allmixture antimodel), 적응 반모델(adapted antimodel), 변별학습을 수행하는 반모델(discriminative antimodel), VQ(Vector Quantization)기반 반모델(VQ based antimodel) 중 적어도 하나 이상인 것을 특징으로 하는 음성인식 방법.
  6. 제 4 항에 있어서, 상기 (d) 단계는
    산출된 입력 파라미터가 여러개의 입력 파라미터를 기반하는 경우, 분류기에 필요한 분류기 모델 생성을 위하여 훈련하는 단계와,
    상기 훈련 단계에서 산출된 훈련모델을 이용하여 훈련 데이터에 대한 신뢰도 측정값, 평균 및 표준편차를 계산하는 단계와,
    상기 계산된 신뢰도 측정값을 정규화하는 단계를 포함하는 것을 특징으로 하는 음성인식 방법.
  7. 제 4 항에 있어서, 상기 (d) 단계는
    산출된 입력 파라미터가 단일의 입력 파라미터를 기반으로 하는 경우, 훈련 데이터로부터 직접 신뢰도 측정값, 평균 및 표준편차를 계산하여 정규화하는 단계 를 포함하는 것을 특징으로 하는 음성인식 방법.
  8. 제 4 항에 있어서, 상기 (e) 단계에서 사용할 사전 파라미터 데이터를 구하는 방법은
    산출된 입력 파라미터값을 기반으로 분류기 모델을 사용하여 훈련 데이터를 결정하는 단계와,
    상기 결정된 훈련 데이터를 사용하여 환경요인 파라미터 값과 입력 데이터로 사용할 파라미터를 산출하는 단계와,
    기 정의된 분류기 모델을 이용하여 상기 산출된 입력 파라미터의 신뢰도 측정값, 평균 및 표준편차를 계산하는 단계와,
    상기 계산된 신뢰도 측정값을 정규화하는 단계와,
    상기 계산된 정규화된 신뢰도 측정값과 신호대 잡음비와의 상관계수, 정규화된 신뢰도 측정값과 음성에너지와의 상관계수, 정규회된 F0포만트 크기와의 상관계수를 계산하는 단계를 포함하는 음성인식 방법
  9. 제 4 항에 있어서, 상기 (e) 단계는
    (e1) 훈련 데이터를 사용하여 산출된 환경요인 파라미터를 기반하여 환경요인 특성의 초기값을 계산하고 설정하는 단계와,
    (e2) 실시간으로 현재 환경요인을 기반한 환경요인 특성에 대한 각각의 현재 스코어를 계산하고 정규화하는 단계와,
    (e3) 상기 초기화된 환경요인 파라미터 각각의 상관계수를 상기 실시간으로 구해진 환경요인 파라미터 각각의 현재 스코어와 서로 곱하여 새로운 스코어를 산출하는 단계와,
    (e4) 상기 산출된 새로운 스코어를 모두 합하고 전체 평균값을 계산하여 환경요인 값을 산출하는 단계와,
    (e5) 상기 산출된 환경요인 값에 특정 적응계수를 곱하고 기존의 임계치값에 더하거나 빼서 새로운 임계치값을 계산하는 단계와,
    (e6) 상기 계산된 새로운 임계치값으로 기존의 임계치값을 갱신하는 단계를 포함하는 음성인식 방법.
  10. 제 9 항에 있어서,
    상기 (e1)의 환경요인 특성의 초기값은 신호대 잡음비와의 초기값, 음성 에너지와의 초기값 및 FO 포만트 크기에 대한 초기값 중 적어도 하나 이상인 것을 특징으로 하는 음성인식 방법.
  11. 제 10 항에 있어서,
    상기 초기값은 신뢰도 측정값과의 상관계수, 평균, 표준편차 값 중 적어도 하나 이상인 것을 특징으로 하는 음성인식 방법.
  12. 제 9 항에 있어서, 상기 (e3) 단계는
    상기 정규화하여 계산된 신호대 잡음비의 현재 스코어와 상기 신호대 잡음비 상관계수를 곱하여 제 1 스코어를 산출하는 단계와,
    상기 정규화하여 계산된 음성 에너지의 현재 스코어와 상기 음성 에너지 상관계수를 곱하여 제 2 스코어를 산출하는 단계와,
    상기 정규화하여 계산된 FO 포만트 크기의 현재 스코어와 상기 FO 포만트 크기 상관계수를 곱하여 제 3 스코어를 산출하는 단계를 포함하는 것을 특징으로 하는 음성인식 방법.
  13. 제 4 항에 있어서, 상기 (f) 단계는
    상기 비교결과 계산된 신뢰도 측정값보다 임계치값이 크면 인식결과를 수락하는 단계와,
    상기 비교결과 계산된 신뢰도 측정값이 임계치값보다 작으면 인식 결과를 거절하는 단계와,
    상기 인식 결과가 수락되면 음성인식 시스템을 동작시키고, 상기 인식 결과가 거절되면 사용자에게 메시지 또는 음성을 통해 음성인식을 위한 재발성을 유도하는 단계를 포함하는 음성인식 방법.
KR1020060077948A 2005-12-08 2006-08-18 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 KR100819848B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020050119940 2005-12-08
KR20050119940 2005-12-08

Publications (2)

Publication Number Publication Date
KR20070061266A true KR20070061266A (ko) 2007-06-13
KR100819848B1 KR100819848B1 (ko) 2008-04-08

Family

ID=38357202

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060077948A KR100819848B1 (ko) 2005-12-08 2006-08-18 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법

Country Status (1)

Country Link
KR (1) KR100819848B1 (ko)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755483B1 (ko) * 2005-12-08 2007-09-05 한국전자통신연구원 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법
KR100774800B1 (ko) * 2006-09-06 2007-11-07 한국정보통신대학교 산학협력단 포아송 폴링 기법을 이용한 세그먼트 단위의 음성/비음성분류 방법 및 장치
KR100930587B1 (ko) * 2007-11-28 2009-12-09 한국전자통신연구원 혼동 행렬 기반 발화 검증 방법 및 장치
KR101217524B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
KR101229108B1 (ko) * 2009-12-21 2013-02-01 한국전자통신연구원 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
KR20140040062A (ko) * 2010-07-02 2014-04-02 알데바란 로보틱스 게임을 플레이하기 위한 휴머노이드 로봇, 상기 로봇을 이용하기 위한 방법 및 시스템
KR101444410B1 (ko) * 2011-12-15 2014-10-01 한국전자통신연구원 발음 수준에 따른 발음 평가 장치 및 그 방법
KR20160109942A (ko) 2015-03-13 2016-09-21 한국전자통신연구원 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법
US10304443B2 (en) 2014-01-21 2019-05-28 Samsung Electronics Co., Ltd. Device and method for performing voice recognition using trigger voice
KR20200010455A (ko) * 2017-05-24 2020-01-30 로비 가이드스, 인크. 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템
US11488033B2 (en) 2017-03-23 2022-11-01 ROVl GUIDES, INC. Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset
US11507618B2 (en) 2016-10-31 2022-11-22 Rovi Guides, Inc. Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102420450B1 (ko) 2015-09-23 2022-07-14 삼성전자주식회사 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체
KR102495517B1 (ko) 2016-01-26 2023-02-03 삼성전자 주식회사 전자 장치, 전자 장치의 음성 인식 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2040025A1 (en) 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
JP3297156B2 (ja) * 1993-08-17 2002-07-02 三菱電機株式会社 音声判別装置
JP3092788B2 (ja) * 1996-01-16 2000-09-25 日本電信電話株式会社 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置
KR100277105B1 (ko) * 1998-02-27 2001-01-15 윤종용 음성 인식 데이터 결정 장치 및 방법
KR20010054622A (ko) * 1999-12-07 2001-07-02 서평원 음성 인식 시스템의 음성 인식률 향상 방법
JP3849841B2 (ja) 2000-03-15 2006-11-22 オムロン株式会社 話者認識装置
KR100609521B1 (ko) * 2003-12-12 2006-08-04 엘지전자 주식회사 음성 인식 시스템의 발화 검증 방법

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755483B1 (ko) * 2005-12-08 2007-09-05 한국전자통신연구원 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법
KR100774800B1 (ko) * 2006-09-06 2007-11-07 한국정보통신대학교 산학협력단 포아송 폴링 기법을 이용한 세그먼트 단위의 음성/비음성분류 방법 및 장치
KR100930587B1 (ko) * 2007-11-28 2009-12-09 한국전자통신연구원 혼동 행렬 기반 발화 검증 방법 및 장치
KR101217524B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
US8374869B2 (en) 2008-12-22 2013-02-12 Electronics And Telecommunications Research Institute Utterance verification method and apparatus for isolated word N-best recognition result
KR101229108B1 (ko) * 2009-12-21 2013-02-01 한국전자통신연구원 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
US9950421B2 (en) 2010-07-02 2018-04-24 Softbank Robotics Europe Humanoid game-playing robot, method and system for using said robot
KR20140040062A (ko) * 2010-07-02 2014-04-02 알데바란 로보틱스 게임을 플레이하기 위한 휴머노이드 로봇, 상기 로봇을 이용하기 위한 방법 및 시스템
KR101444410B1 (ko) * 2011-12-15 2014-10-01 한국전자통신연구원 발음 수준에 따른 발음 평가 장치 및 그 방법
US11011172B2 (en) 2014-01-21 2021-05-18 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof
US10304443B2 (en) 2014-01-21 2019-05-28 Samsung Electronics Co., Ltd. Device and method for performing voice recognition using trigger voice
US11984119B2 (en) 2014-01-21 2024-05-14 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof
KR20160109942A (ko) 2015-03-13 2016-09-21 한국전자통신연구원 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법
US11507618B2 (en) 2016-10-31 2022-11-22 Rovi Guides, Inc. Systems and methods for flexibly using trending topics as parameters for recommending media assets that are related to a viewed media asset
US11488033B2 (en) 2017-03-23 2022-11-01 ROVl GUIDES, INC. Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset
KR20200010455A (ko) * 2017-05-24 2020-01-30 로비 가이드스, 인크. 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템
US11521608B2 (en) 2017-05-24 2022-12-06 Rovi Guides, Inc. Methods and systems for correcting, based on speech, input generated using automatic speech recognition

Also Published As

Publication number Publication date
KR100819848B1 (ko) 2008-04-08

Similar Documents

Publication Publication Date Title
KR100819848B1 (ko) 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법
US9147400B2 (en) Method and apparatus for generating speaker-specific spoken passwords
US20190324719A1 (en) Combining results from first and second speaker recognition processes
US20090119103A1 (en) Speaker recognition system
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
Wu et al. Voice conversion versus speaker verification: an overview
US9564134B2 (en) Method and apparatus for speaker-calibrated speaker detection
EP2148325B1 (en) Method for determining the presence of a wanted signal component
JPH09127972A (ja) 連結数字の認識のための発声識別立証
JP2000181482A (ja) 音声認識装置及び自動音声認識装置の非教示及び/又はオンライン適応方法
US7050973B2 (en) Speaker recognition using dynamic time warp template spotting
US11468899B2 (en) Enrollment in speaker recognition system
KR100930587B1 (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
KR100609521B1 (ko) 음성 인식 시스템의 발화 검증 방법
KR100940641B1 (ko) 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법
KR20100073160A (ko) 음성인식 시스템의 발화검증 방법 및 장치
KR101892736B1 (ko) 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
KR100449912B1 (ko) 음성인식시스템의 핵심어 검출을 위한 후처리방법
JPH11249688A (ja) 音声認識装置およびその方法
Ganchev et al. Performance evaluation for voice conversion systems
Shah et al. Phone Aware Nearest Neighbor Technique Using Spectral Transition Measure for Non-Parallel Voice Conversion.
KR101752709B1 (ko) 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템
Cheung et al. Multi-sample fusion with constrained feature transformation for robust speaker verification.
KR20060070606A (ko) 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130304

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140303

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150226

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160321

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170323

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee