KR20140077422A - 음성인식 성능향상 방법 - Google Patents

음성인식 성능향상 방법 Download PDF

Info

Publication number
KR20140077422A
KR20140077422A KR1020120146227A KR20120146227A KR20140077422A KR 20140077422 A KR20140077422 A KR 20140077422A KR 1020120146227 A KR1020120146227 A KR 1020120146227A KR 20120146227 A KR20120146227 A KR 20120146227A KR 20140077422 A KR20140077422 A KR 20140077422A
Authority
KR
South Korea
Prior art keywords
phoneme
recognition performance
voice recognition
feature vectors
korean
Prior art date
Application number
KR1020120146227A
Other languages
English (en)
Inventor
이성주
강병옥
정훈
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120146227A priority Critical patent/KR20140077422A/ko
Publication of KR20140077422A publication Critical patent/KR20140077422A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

실시 예에 따른 음성인식 성능향상 방법은 적어도 하나의 음성인식 특징벡터를 기초로, 잡음환경 상에서 입력된 음성에 대한 음성인식 성능을 향상시키기 용이하도록, 실시 예는 입력된 한국어 음성에 대한 음소별로 설정된 적어도 2이상의 음향모델에 따라 적어도 2이상의 특징 벡터를 추출하는 단계, 비터비 디코더(viterbi decoder)에서 활성화되는 통합 음향모델에 대하여 기 설정된 상기 적어도 2이상의 음향모델 각각의 이전 특징 벡터 및 상기 적어도 2이상의 특징 벡터를 통하여 상기 음소별로 관측 확률값을 추출하는 단계 및 상기 음소별로 추출된 상기 관측 확률값을 기초로, 상기 통합 음향모델을 재설정하여 상기 한국어 음성을 음소별로 재인식하는 단계를 포함하는 음성인식 성능향상 방법을 제공한다.

Description

음성인식 성능향상 방법{Voice recognition performance improvement method}
실시 예는 음성인식 성능향상 방법에 관한 것으로서, 더욱 상세하게는 적어도 하나의 음성인식 특징벡터를 기초로, 잡음환경 상에서 입력된 음성에 대한 음성인식 성능을 향상시키기 용이한 음성인식 성능향상 방법에 관한 것이다.
최근 스마트폰 등 모바일 기기의 사용의 폭발적 증가로 인해 새로운 모바일 서비스 및 생태계가 구축되고 있으며, 이러한 서비스 변화에 많은 영향을 끼친 기술로 음성 인식 기술을 들 수 있다.
즉, 클라우드 컴퓨팅 환경 등으로의 모바일 생태계의 변이로 인해 실시간으로 거의 무제한 어휘 인식이 가능해 졌으며, 음성 검색의 경우 성공적으로 상용화된 사례이다. 또한 서비스 영역을 확장하여 SMS, SNS, 예약, 일정관리, 이메일 작성 등과 연계한 음성인식 응용 시스템이 거의 실용화 단계에 접어 들고 있다.
그러나, 이러한 다양한 모바일 기기의 출현 및 사용으로 인해 음성 인식의 경우 이전보다 훨씬 많은 다양한 잡음 환경에 노출된다. 먼저 사용자는 계속 이동 중에 사용하므로 부가잡음이 계속해서 변한다. 또한 수많은 종류의 기기로 인해 기기마다 채널잡음이 다르므로 음성 인식의 성능을 유지하기 위해서는 이러한 잡음들에 대해 강인성을 유지하도록 해야 한다.
최근 들어, 입력된 음성에 따른 음성인식 성능을 향상시키기 위한 연구가 진행 중에 있다.
실시 예의 목적은, 적어도 하나의 음성인식 특징벡터를 기초로, 잡음환경 상에서 입력된 음성에 대한 음성인식 성능을 향상시키기 용이한 음성인식 성능향상 방법을 제공함에 있다.
실시 예에 따른 음성인식 성능향상 방법은, 입력된 한국어 음성에 대한 음소별로 설정된 적어도 2이상의 음향모델에 따라 적어도 2이상의 특징 벡터를 추출하는 단계, 비터비 디코더(viterbi decoder)에서 활성화되는 통합 음향모델에 대하여 기 설정된 상기 적어도 2이상의 음향모델 각각의 이전 특징 벡터 및 상기 적어도 2이상의 특징 벡터를 통하여 상기 음소별로 관측 확률값을 추출하는 단계 및 상기 음소별로 추출된 상기 관측 확률값을 기초로, 상기 통합 음향모델을 재설정하여 상기 한국어 음성을 음소별로 재인식하는 단계를 포함한다.
실시 예에 따른 음성인식 성능향상 방법은, 입력된 한국어 음성에 대하여 음소인식성능이 우수한 음성인식 특징벡터를 선별적으로 적용하여 계산된 관측확률을 기초로 한국어 음성에 대한 음성인식 성능을 향상시킬 수 있는 이점이 있다.
도 1은 실시 예에 따른 음성인식 성능향상 방법을 나타낸 순서도이다.
실시 예의 구성 요소를 설명하는 데 있어서, 동일한 명칭의 구성 요소에 대하여 도면에 따라 다른 참조부호를 부여할 수도 있으며, 서로 다른 도면임에도 불구하고 동일한 참조부호를 부여할 수도 있다. 그러나, 이와 같은 경우라 하더라도 해당 구성 요소가 실시 예에 따라 서로 다른 기능을 갖는다는 것을 의미하거나, 서로 다른 실시 예에서 동일한 기능을 갖는다는 것을 의미하는 것은 아니며, 각각의 구성 요소의 기능은 해당 실시 예에서의 각각의 구성요소에 대한 설명에 기초하여 판단하여야 할 것이다.
또한, 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다.
또한, 실시 예의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
이하에서는, 실시 예에 따른 음성인식 성능향상 방법에 대한 동작 및 작용을 이해하는데 필요한 부분을 도면을 중심으로 상세히 설명한다.
도 1은 실시 예에 따른 음성인식 성능향상 방법을 나타낸 순서도이다.
도 1을 참조하면, 음성 인식 시스템에 한국어 음성이 입력되면(S100), 상기 한국어 음성에 대한 음소별로 설정된 적어도 2이상의 음향모델에 따라 적어도 2이상의 특징 벡터를 추출한다(S110).
즉, 음성 인식 시스템은 입력된 한국어 음성에 대한 음소별로 적어도 2이상의 특징 벡터를 추출하기 위하여 적어도 2이상의 음향모델이 설정된다.
실시 예에서, 음성 인식 시스템은 적어도 2이상의 음향모델이 설정된 것으로 나타내었으나, 음향모델의 개수에 대하여 한정을 두지 않는다.
상기 음향모델은 주파수 영역 에너지 추정방식으로 가장 대표적인 방법으로 Mel frequency cepstral coefficient (MFCC) 추출방법, 시간축 자기상관함수를 이용하는 방법으로 가장 대표적인 방법으로 Perceptual linear prediction (PLP) 방법 및 time-frequency analysis 방식으로 가장 대표적인 방법으로 Gammatone filter-bank를 이용한 cepstral coefficient (GTCC) 추출 방법 중 적어도 하나를 포함할 수 있으며, 이 외에 다른 음향모델일 수 있으며 이에 한정을 두지 않는다.
비터비 디코더(viterbi decoder)에서 활성화되는 통합 음향모델에 대하여 기 설정된 상기 적어도 2이상의 음향모델 각각의 이전 특징 벡터 및 상기 적어도 2이상의 특징 벡터를 통하여 상기 음소별로 관측 확률값을 추출하며(S120), 비터비 디코더(viterbi decoder)에서 추출된 상기 관측 확률값을 기초로 상기 통합 음향모델을 재구성하며(S130), 상기 한국어 음성을 재인식할 수 있다(S140).
즉, 음성 인식 시스템에 포함된 비터비 디코더는 이전 특징 벡터에 의해 이전 입력된 한국어 음성에 대한 이전 음소별로 음성인식 활률이 높은 상기 적어도 2이상의 음향모델 각각의 이전 특징 벡터에 의해 상기 적어도 2이상의 음향모델이 통합된 통합 음향 모델을 활용하여, 현재 추출된 상기 적어도 2이상의 특징 벡터를 비교하여, 상기 한국어 음성의 음소별로 관측 확률값을 추출한다.
Figure pat00001
[표 1]은 한국어 및 영어 음소별로 상술한 3개의 음향모델에서 인식한 특징 벡터이다.
[표 1]은 현재 전세계적으로 사용되는 음성인식을 위한 특징벡터 추출방법 [표 1]에 나타낸 PLP, MFCC 및 GTCC의 특징 벡터를 추출하여 음소인식 성능을 테스트한 결과이다.
즉, [표 1]은 한국어 음소인식 성능이 우수한 PLP, MFCC 및 GTCC의 특징들만 이용하여 한국어 음소의 인식율을 향상되도록 설정을 변경할 수 있다.
다시 말하면, 비터비 디코더(viterbi decoder)는 관측확율 계산시 [표 1]의 특징 중 테스트 결과가 높은 음소에 대한 특징을 이용하여 음향모델을 재구성한다.
상기 음향모델에는 각 음소별 모델을 더 구체적으로 가지고 있으며, [표 1]에는 모노폰의 경우로 나타내었으나, 이에 한정을 두지 않으며 트라이 폰에 대한 인식성능을 구할 수 있으며, 이런 경우, 방대한 양의 테스트 데이터 필요하므로, 트레이드 오프관계 및 어플리케이션에 맞게 구성할 필요하다.
예를 들어, [표 1]을 기준으로 ‘B’음소에 대해 MFCC 성능이 좋은 경우, 센터 폰은 ‘B’인 음향모델을 MFCC기반의 음향모델로 재구성한다.
인식 시에는 PLP, MFCC, GTCC 특징을 모두 추출하여 사용하나 센터 폰이 ‘B’인 음향모델의 관측확율 구할 때 MFCC를 사용하여 관측확율을 얻는 것이다. 예를 들어, [표 1]을 기준으로 센터 폰이 ‘D’인 음향모델의 경우, 높은 관측확률을 갖는 GTCC의 음향모델로 재구성하여야 한다.
즉, 통합모델이라는 것은 한국어 음소인식율이 최고가 되는 N개의 음향모델로 부터 재구성된 깃이며, 비터비 디코더(viterbi decoder)는 관측확율을 계산할 때 N개의 특징벡터를 선별적으로 사용할 수 있도록 정보를 미리 입력해야한다.
여기서, 비터비 디코더(viterbi decoder)는 이전입력된 이전 한국어 음소별로 음성 인식이 강한 상술한 3개의 음향모델을 통합한 통합 음향모델을 생성하여, 현재 입력된 한국어 음성에 대한 음소별로 음성인식 성능을 높일 수 있다.
비터비 디코더(viterbi decoder)는 현재 인식된 상기 적어도 2이상의 특징 벡터와 상술한 [표 1]의 이전 특징 벡터를 비교하여 음소별로 관측 확률값을 추출하여, 상기 관측 확률값이 높은 적어도 2이상의 음향 모델을 이용하여 상기 통합 음향모델을 재 설정한 후, 상기 한국어 음성을 재인식하여, 음성인식 성능을 향상시킬 수 있다.
이상 본 발명의 바람직한 실시 예에 대해 상세히 기술하였지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구범위에 정의된 본 발명의 정신 및 범위에 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음을 알 수 있을 것이다. 따라서, 본 발명의 앞으로의 실시 예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

Claims (1)

  1. 입력된 한국어 음성에 대한 음소별로 설정된 적어도 2이상의 음향모델에 따라 적어도 2이상의 특징 벡터를 추출하는 단계;
    비터비 디코더(viterbi decoder)에서 활성화되는 통합 음향모델에 대하여 기 설정된 상기 적어도 2이상의 음향모델 각각의 이전 특징 벡터 및 상기 적어도 2이상의 특징 벡터를 통하여 상기 음소별로 관측 확률값을 추출하는 단계; 및
    상기 음소별로 추출된 상기 관측 확률값을 기초로, 상기 통합 음향모델을 재설정하여 상기 한국어 음성을 음소별로 재인식하는 단계;를 포함하는 음성인식 성능향상 방법.
KR1020120146227A 2012-12-14 2012-12-14 음성인식 성능향상 방법 KR20140077422A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120146227A KR20140077422A (ko) 2012-12-14 2012-12-14 음성인식 성능향상 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120146227A KR20140077422A (ko) 2012-12-14 2012-12-14 음성인식 성능향상 방법

Publications (1)

Publication Number Publication Date
KR20140077422A true KR20140077422A (ko) 2014-06-24

Family

ID=51129362

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120146227A KR20140077422A (ko) 2012-12-14 2012-12-14 음성인식 성능향상 방법

Country Status (1)

Country Link
KR (1) KR20140077422A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10321227B2 (en) 2016-11-25 2019-06-11 Samsung Electronics Co., Ltd. Electronic device for controlling microphone parameter
CN110364162A (zh) * 2018-11-15 2019-10-22 腾讯科技(深圳)有限公司 一种人工智能的重置方法及装置、存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10321227B2 (en) 2016-11-25 2019-06-11 Samsung Electronics Co., Ltd. Electronic device for controlling microphone parameter
CN110364162A (zh) * 2018-11-15 2019-10-22 腾讯科技(深圳)有限公司 一种人工智能的重置方法及装置、存储介质
CN110517680A (zh) * 2018-11-15 2019-11-29 腾讯科技(深圳)有限公司 一种人工智能的数据检测方法及装置、存储介质
CN110517680B (zh) * 2018-11-15 2023-02-03 腾讯科技(深圳)有限公司 一种人工智能的数据检测方法及装置、存储介质

Similar Documents

Publication Publication Date Title
US11031002B2 (en) Recognizing speech in the presence of additional audio
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
CN109741732B (zh) 命名实体识别方法、命名实体识别装置、设备及介质
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
US9240183B2 (en) Reference signal suppression in speech recognition
CN103095911B (zh) 一种通过语音唤醒寻找手机的方法及系统
KR20190100334A (ko) 문맥상의 핫워드들
WO2014117547A1 (en) Method and device for keyword detection
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
Tachioka et al. Speech recognition performance estimation for clipped speech based on objective measures
Lee et al. Intra‐and Inter‐frame Features for Automatic Speech Recognition
Biswas et al. Hindi vowel classification using GFCC and formant analysis in sensor mismatch condition
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
KR20140077422A (ko) 음성인식 성능향상 방법
JP5988077B2 (ja) 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
JP2012053218A (ja) 音響処理装置および音響処理プログラム
Chougule et al. Speaker recognition in mismatch conditions: a feature level approach
US20210398521A1 (en) Method and device for providing voice recognition service
KR20140050951A (ko) 음성 인식 시스템
JP2003122395A (ja) 音声認識システム、端末およびプログラム、並びに音声認識方法
Mohammed et al. Real-time Arabic speech recognition
Seong et al. Reducing speech noise for patients with dysarthria in noisy environments
Moritz et al. Amplitude modulation filters as feature sets for robust ASR: constant absolute or relative bandwidth?
Gerazov et al. A speaker independent small vocabulary automatic speech recognition system in Macedonian
Bauer Artificial Bandwidth Extension of Telephone Speech Signals Using Phonetic A Priori Knowledge

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination