KR100738341B1 - 성대신호를 이용한 음성인식 장치 및 그 방법 - Google Patents

성대신호를 이용한 음성인식 장치 및 그 방법 Download PDF

Info

Publication number
KR100738341B1
KR100738341B1 KR1020060050045A KR20060050045A KR100738341B1 KR 100738341 B1 KR100738341 B1 KR 100738341B1 KR 1020060050045 A KR1020060050045 A KR 1020060050045A KR 20060050045 A KR20060050045 A KR 20060050045A KR 100738341 B1 KR100738341 B1 KR 100738341B1
Authority
KR
South Korea
Prior art keywords
signal
vocal
log spectrum
vocal cord
voice
Prior art date
Application number
KR1020060050045A
Other languages
English (en)
Other versions
KR20070061134A (ko
Inventor
조관현
한문성
박준석
정영규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to PCT/KR2006/005154 priority Critical patent/WO2007066933A1/en
Priority to CN2006800256079A priority patent/CN101223574B/zh
Publication of KR20070061134A publication Critical patent/KR20070061134A/ko
Application granted granted Critical
Publication of KR100738341B1 publication Critical patent/KR100738341B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 성대신호를 이용한 음성인식 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 성대신호와 잡음이 포함된 음성신호의 스펙트럼 차이값으로 계산한 인접 프레임 밴드별 평균값에 실험적으로 획득한 가중치를 부여하여 정규화한 후, 상기 정규값을 상기 성대신호에 보상하여 특징벡터를 추출하고 상기 특징벡터의 인식모델을 학습하여 음성인식을 수행하는, 성대신호를 이용한 음성인식 장치 및 그 방법을 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 외부채널에서 입력된 성대신호로부터 성대신호 로그 스펙트럼을 계산하고, 잡음이 포함된 음성신호로부터 음성신호 로그 스펙트럼을 계산하는 신호처리수단과; 상기 성대신호 로그 스펙트럼과 상기 음성신호 로그 스펙트럼을 이용해 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 가중치계산수단과; 상기 보상된 성대신호 로그 스펙트럼의 특징벡터를 추출하는 특징추출수단; 및 상기 특징벡터를 이용하여 인식모델을 학습한 후 음성인식을 수행하는 인식수단을 포함함.
4. 발명의 중요한 용도
본 발명은 성대신호를 이용한 음성인식 장치 및 방법 등에 이용됨.
음성인식, 신호처리수단, 가중치계산수단, 특징추출수단, 인식수단

Description

성대신호를 이용한 음성인식 장치 및 그 방법{Apparatus and method for voice recognition using vocal band signal}
도 1은 본 발명에 따른 성대신호를 이용한 음성인식 장치에 대한 일실시예 구성도,
도 2는 본 발명에 따른 가중치계산수단의 동작에 대한 일실시예 설명도,
도 3은 본 발명에 따른 성대신호를 이용한 음성인식 방법에 대한 일실시예 흐름도.
* 도면의 주요 부분에 대한 부호 설명
10; 신호처리수단
20; 가중치계산수단
30; 특징추출수단
40; 인식수단
본 발명은 성대신호를 이용한 음성인식 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 성대신호와 잡음이 포함된 음성신호의 스펙트럼 차이값으로 계산한 인접 프레임 밴드별 평균값에 실험적으로 획득한 가중치를 부여하여 정규화한 후, 상기 정규값을 상기 성대신호에 보상하여 특징벡터를 추출하고 상기 특징벡터의 인식모델을 학습하여 음성인식을 수행하는, 성대신호를 이용한 음성인식 장치 및 그 방법에 관한 것이다.
최근 음성인식 기술은 유무선 통신의 발달과 더불어 더욱 각광받는 기술로서, 사용자에게 좀 더 편리한 인터페이스를 제공할 수 있는 장점이 있다.
그런데, 음성인식 기술이 실생활에서 활용되기 위해서는 음성에 부가되는 간섭신호(interfering signal)의 영향을 줄이는 문제를 해결해야 한다.
상기 간섭신호는 실제로 인식의 대상이 되는 음성에 부가될 수 있는 모든 종류의 신호로서, 주변잡음에 의한 왜곡, 통신선로 왜곡, 음향반향(acoustic echo), 배경음악, 타인의 말소리 등이 있다. 그런데, 상기 간섭신호에서 음성인식 성능을 가장 치명적으로 저하시키는 요인은 주변잡음에 의한 왜곡이기 때문에, 주변잡음에 의한 왜곡을 보상하기 위한 연구가 주로 진행되고 있다.
상기와 같이 주변잡음에 의한 왜곡을 보상하기 위한 종래의 방식으로서, 대한민국 등록특허 0446626호에 기재된 음성신호에서 잡음을 제거하는 방식이 있다. 즉, 대한민국 등록특허 0446626호는 음성과 잡음이 혼합된 신호로부터 잡음이 감쇄된 음성신호를 얻기 위하여 독립성분 분석방법(Independent Component Analysis; ICA)과 스펙트럼 차감법을 직렬적으로 사용하여 음성신호에서 잡음을 제거하는 방식을 제안하고 있다.
또한, 종래의 방식으로서 대한민국 등록특허 0442825호에 기재된 음성인식을 위한 환경보상 방식이 있다. 즉, 대한민국 등록특허 0442825호는 환경 보상 방법을 이용하여 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 실제의 음성 스펙트럼에 가깝도록 보상하는 방식을 제안하고 있다.
그러나, 상기 등록특허 0446626호는 잡음신호를 제어함에 있어 독립성분 분석방법(ICA)을 사용함으로써 많은 계산량이 필요하고, 잡음의 종류가 음성과 유사한 경우에 신호를 분리하기 어렵다.
또한, 상기 등록특허 0442825호는 잡음 또는 선로에 의한 왜곡으로 나타나는 환경변수에 대한 추정으로 임의의 환경에 대해 최적화되지 않은 평균적인 보상방식을 사용함으로써, 특정환경에 대한 적응성이 떨어지는 단점이 있다.
또한, 상기 등록특허 0442825호는 오염된 음성신호에 대한 환경변수를 이용하여 왜곡된 음성신호를 보상하는 과정에서 비교적 많은 계산량이 필요하고, 이에 따라 소형 휴대단말과 같은 제한된 자원을 가지는 소형 디바이스의 실시간 작동이 어려운 단점이 있다.
본 발명은 상기와 같은 문제점을 해결하고 상기와 같은 요구에 부응하기 위하여 제안된 것으로, 성대신호와 잡음이 포함된 음성신호의 스펙트럼 차이값으로 계산한 인접 프레임 밴드별 평균값에 실험적으로 획득한 가중치를 부여하여 정규화한 후, 상기 정규값을 상기 성대신호에 보상하여 특징벡터를 추출하고 상기 특징벡터의 인식모델을 학습하여 음성인식을 수행하는, 성대신호를 이용한 음성인식 장치 및 그 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명은, 외부채널에서 입력된 성대신호로부터 성대신호 로그 스펙트럼을 계산하고, 잡음이 포함된 음성신호로부터 음성신호 로그 스펙트럼을 계산하는 신호처리수단과; 상기 성대신호 로그 스펙트럼과 상기 음성신호 로그 스펙트럼을 이용해 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 가중치계산수단과; 상기 보상된 성대신호 로그 스펙트럼의 특징벡터를 추출하는 특징추출수단; 및 상기 특징벡터를 이용하여 인식모델을 학습한 후 음성인식을 수행하는 인식수단을 포함한다.
또한, 본 발명은 외부 채널에서 입력받은 성대신호로부터 성대신호 로그 스펙트럼을 계산하고, 잡음이 포함된 음성신호로부터 음성신호 로그 스펙트럼을 계산하는 제1 단계와; 상기 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼을 이용 해 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 제2 단계와; 상기 보상된 성대신호 로그 스펙트럼의 특징벡터를 추출하는 제3 단계; 및 상기 추출한 특징벡터의 인식모델을 학습하고, 음성인식을 수행하는 제4 단계를 포함한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
도 1은 본 발명에 따른 성대신호를 이용한 음성인식 장치에 대한 일실시예 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 성대신호를 이용한 음성인식 장치는, 신호처리수단(10), 가중치계산수단(20), 특징추출수단(30), 인식수단(40)을 포함한다.
신호처리수단(10)은 성대신호와 잡음이 포함된 음성신호(이하, "음성신호"라 통칭함)를 각각 채널로부터 입력받으면, 입력된 신호의 로그 스펙트럼(log spectrum)을 계산한다. 즉, 상기 신호처리수단(10)은 입력된 신호를 일정구간에서 구성된 프레임(frame)별로 고속 푸리에 변환(Fast Fourier Transform; FFT)을 수행하여 주파수 영역으로 변환한 후 필터뱅크(filter bank)를 이용해 로그 스펙트럼을 계산한다. 이때, 상기 신호처리수단(10)에서 성대신호와 음성신호의 로그 스펙트럼 계산과정이 공지의 기술이므로, 상기 계산과정에 대한 자세한 설명은 생략한다.
또한, 신호처리수단(10)은 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼을 가중치계산수단(20)에 제공한다.
가중치계산수단(20)은 신호처리수단(10)에서 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼을 제공받아, 상기 성대신호 로그 스펙트럼를 강화시켜주는 값(후술할 "정규값")을 계산하여 보상한다.
이를 통해, 상기 가중치계산수단(20)은 음성신호에 비해 명료도가 떨어지는 성대신호의 특성(즉, 주변잡음에 의한 왜곡이 없지만 성대를 지난 후 공진을 반영하지 못해 음성신호에 비해 명료도가 떨어지는 특성)을 보완할 수 있다.
또한, 가중치계산수단(20)은 계산된 가중치를 성대신호 로그 스펙트럼에 적용하여 특징추출수단(30)으로 제공한다.
특징추출수단(30)은 인식기의 학습에 필요한 특징벡터를 추출한다. 이때, 상기 특징추출수단(30)은 음성의 특징을 추출하는 여러 가지 방법에서 공지의 멜 켑스트럼(Mel-Frequency Cepstrum Coefficient; MFCC), 선형예측계수 켑스트럼(Linear Prediction Coefficient Cepstrum; LPCC), 인지선형예측 켑스트럼(Perceptual Linear Prediction Cepstrum Coefficient; PLPCC) 등을 주로 사용한다.
인식수단(40)은 특징추출수단(30)에서 추출된 특징벡터들을 이용하여 인식 모델을 학습한다. 이때, 상기 인식수단(40)은 인식 모델로서 공지의 HMM(Hidden Markov Model), DTW(Dynamic Time Warping), 신경회로망(Neural Network) 등을 주로 사용한다.
또한, 인식수단(40)은 인식모델을 이용해 학습과정을 거친 특징벡터들을 모델 파라미터로 저장한다. 이때, 상기 인식수단(40)은 모델 파라미터를 이용하여 미리 학습된 모델과의 유사도를 측정하여 입력받는 신호의 음성인식을 수행한다.
도 2는 본 발명에 따른 가중치계산수단(20)의 동작에 대한 일실시예 설명도이다. 여기서, 도 2를 설명하기에 앞서, 신호처리수단(10)에서 제공받는 성대신호 로그 스펙트럼을
Figure 112006039340795-pat00001
라 하고, 음성신호 로그 스펙트럼을
Figure 112006039340795-pat00002
라 한다.
도 2에 도시된 바와 같이, 본 발명에 따른 가중치계산수단(20)은, 신호처리수단(10)에서 성대신호 로그 스펙트럼(
Figure 112006039340795-pat00003
)과 음성신호 로그 스펙트럼(
Figure 112006039340795-pat00004
)을 제공받아, 상기 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼의 로그 스펙트럼 크기(magnitude)의 차이값(이하, "스펙트럼 차이값"이라 함)을 계산한다(S21). 이때, 상기 스펙트럼 차이값이
Figure 112006039340795-pat00005
이면, 상기
Figure 112006039340795-pat00006
는 다음 수학식 1과 같다.
Figure 112006039340795-pat00007
한편, 가중치계산수단(20)은 상기 스펙트럼 차이값을 버퍼링(buffering)함으로써, 일시적으로 상기 스펙트럼 차이값을 저장하여 임의의 자연수 N개(예를 들어, N은 3∼5 개)의 인접 프레임의 밴드별 로컬 이동 평균값(local moving average)을 계산한다(S22). 즉, 상기 가중치계산수단(20)은 로컬 이동 평균값(
Figure 112006039340795-pat00008
)을 수학식 2와 같이 계산한다.
Figure 112006039340795-pat00009
여기서, "b"는 밴드 인덱스(band index)이고, "t"는 프레임 인덱스(frame index)인 시간을 의미하고, "N"은 로컬 이동 평균값을 계산하기 위한 버퍼링 프레임의 개수를 의미한다.
특히, 상기 가중치계산수단(20)은 로컬 이동 평균값을 이용함으로서, 성대신호 로그 스펙트럼의 급격한 변화를 방지한다.
이후, 가중치계산수단(20)은 상기 로컬 이동 평균값(
Figure 112006039340795-pat00010
)을 신호 대 잡음비(Signal to Noise Ratio; 이하, "SNR"라 함)에 비례하는 가중치를 부여하여 정규화(normalization)시킨 값을 계산한다(S23). 여기서, 상기 로컬 이동 평균값을 가중치를 부여하여 정규화시킨 값을 이하, "정규값"이라 한다.
여기서, 가중치계산수단(20)에서 SNR에 비례하는 가중치는 실험적으로 획득된 값이 적용되는데, 상기 가중치는 신호처리수단(10)에서 제공받는 원본 성대신호 로그 스펙트럼의 심각한 왜곡을 방지하기 위하여 최대 0.1(10%) 이하를 갖는 것이 바람직하다.
이하, 가중치계산수단(20)은 정규값(
Figure 112006039340795-pat00011
)을 수학식 3과 같이 계산한다.
Figure 112006039340795-pat00012
여기서, "b"는 밴드 인덱스이고, "
Figure 112006039340795-pat00013
"는 밴드 "b"에서 로컬 이동 평균값이고, "
Figure 112006039340795-pat00014
"는 밴드 "b"에서 가중치이다.
한편, 가중치계산수단(20)은 신호처리수단(10)에서 제공받은 원본 성대신호 로그 스펙트럼에 상기 정규값을 보상한 스펙트럼(이하, "보상 스펙트럼"이라 함)을 특징추출수단(30)으로 제공한다.
도 3은 본 발명에 따른 성대신호를 이용한 음성인식 방법에 대한 일실시예 흐름도이다.
도 3에 도시된 바와 같이, 음성인식 장치는 성대신호를 이용하여 다음과 같은 방법으로 주변잡음에 대한 왜곡을 보상한다.
음성인식 장치는 성대신호와 음성신호를 외부 채널로부터 입력받아 로그 스펙트럼을 계산한다(S100).
이후, 음성인식 장치는 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼의 차이값인 스펙트럼 차이값을 계산한다(S101). 이때, 상기 음성인식 장치는 계산한 스펙트럼 차이값을 버퍼링한다. 이를 통해, 상기 음성인식 장치는 버퍼링한 스펙트럼 차이값을 임의의 자연수 N개의 인접 프레임의 밴드별 로컬 이동 평균값을 계산한다(S102).
이후, 음성인식 장치는 상기 로컬 이동 평균값을 SNR에 따른 가중치를 부여한 후에 정규화시킨 정규값을 계산한다(S103). 이때, 상기 음성인식 장치는 S100 단계에서 계산된 원본 성대신호 로그 스펙트럼을 상기 정규값에 의해 보상한 스펙트럼인 보상 스펙트럼을 생성한다(S104).
이후, 음성인식 장치는 상기 보상 스펙트럼에서 특징벡터를 추출하고(S105), 상기 특징벡터를 이용하여 인식모델을 학습한 후에 음성인식을 수행한다(106).
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같은 본 발명은 심한 잡음환경에서도 성대신호를 이용하여 사용자의 명령을 정확히 인식할 수 있는 효과가 있다.
또한, 본 발명은 주변잡음을 제거하는데 적은 계산량을 필요로 하기 때문에 PDA같은 자원이 제한적인 소형 휴대단말기에 적합한 인식기를 제공할 수 있는 효과가 있다.
또한, 본 발명은 손의 사용이 자유롭지 못한 장애인에게 편리한 대체 인터페이스를 제공하는 효과가 있다.

Claims (8)

  1. 외부채널에서 입력된 성대신호로부터 성대신호 로그 스펙트럼을 계산하고, 잡음이 포함된 음성신호로부터 음성신호 로그 스펙트럼을 계산하는 신호처리수단;
    상기 성대신호 로그 스펙트럼과 상기 음성신호 로그 스펙트럼을 이용해 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 가중치계산수단;
    상기 보상된 성대신호 로그 스펙트럼의 특징벡터를 추출하는 특징추출수단; 및
    상기 특징벡터를 이용하여 인식모델을 학습한 후 음성인식을 수행하는 인식수단
    을 포함하는 성대신호를 이용한 음성인식 장치.
  2. 제1 항에 있어서,
    상기 신호처리수단은 입력된 신호를 프레임별 고속 푸리에 변환 수행하고 필터뱅크를 이용하여 상기 신호의 로그 스펙트럼을 계산하는 것을 특징으로 하는 성대신호를 이용한 음성인식 장치.
  3. 제1 항에 있어서,
    상기 가중치계산수단은 상기 신호처리수단에서 전달받은 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼의 차이값을 계산하여 버퍼링하고, 상기 차이값을 임의의 자연수 N개의 인접 프레임 밴드별 로컬 이동 평균값을 계산하여 신호 대 잡음비에 따른 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 것을 특징으로 하는 성대신호를 이용한 음성인식 장치.
  4. 제3 항에 있어서,
    상기 가중치계산수단은 상기 로컬 이동 평균값에 최대 10% 이하인 가중치를 부여하는 것을 특징으로 하는 성대신호를 이용한 음성인식 장치.
  5. 외부 채널에서 입력받은 성대신호로부터 성대신호 로그 스펙트럼을 계산하고, 잡음이 포함된 음성신호로부터 음성신호 로그 스펙트럼을 계산하는 제1 단계;
    상기 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼을 이용해 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 제2 단계;
    상기 보상된 성대신호 로그 스펙트럼의 특징벡터를 추출하는 제3 단계; 및
    상기 추출한 특징벡터의 인식모델을 학습하고, 음성인식을 수행하는 제4 단 계
    를 포함하는 성대신호를 이용한 음성인식 방법.
  6. 제5 항에 있어서,
    상기 제1 단계는 입력된 신호를 프레임별 고속 푸리에 변환 수행하고 필터뱅크를 이용하여 상기 신호의 로그 스펙트럼을 계산하는 것을 특징으로 하는 성대신호를 이용한 음성인식 방법.
  7. 제5 항에 있어서,
    상기 제2 단계는 상기 성대신호 로그 스펙트럼과 음성신호 로그 스펙트럼의 차이값을 계산하여 버퍼링하고, 상기 차이값을 임의의 자연수 N개의 인접 프레임 밴드별 로컬 이동 평균값을 계산하여 신호 대 잡음비에 따른 가중치를 부여한 정규값을 계산하고, 상기 성대신호 로그 스펙트럼을 상기 정규값으로 보상하는 것을 특징으로 하는 성대신호를 이용한 음성인식 방법.
  8. 제7 항에 있어서,
    상기 제2 단계에서 상기 가중치는 상기 로컬 이동 평균값에 최대 10% 이하로 부여되는 것을 특징으로 하는 성대신호를 이용한 음성인식 방법.
KR1020060050045A 2005-12-08 2006-06-02 성대신호를 이용한 음성인식 장치 및 그 방법 KR100738341B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2006/005154 WO2007066933A1 (en) 2005-12-08 2006-12-01 Voice recognition apparatus and method using vocal band signal
CN2006800256079A CN101223574B (zh) 2005-12-08 2006-12-01 使用话带信号的语音识别装置和方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20050119803 2005-12-08
KR1020050119803 2005-12-08

Publications (2)

Publication Number Publication Date
KR20070061134A KR20070061134A (ko) 2007-06-13
KR100738341B1 true KR100738341B1 (ko) 2007-07-12

Family

ID=38357069

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060050045A KR100738341B1 (ko) 2005-12-08 2006-06-02 성대신호를 이용한 음성인식 장치 및 그 방법

Country Status (2)

Country Link
KR (1) KR100738341B1 (ko)
CN (1) CN101223574B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
CN104392719B (zh) * 2014-11-26 2017-09-19 河海大学 一种用于语音识别系统的中心子带模型自适应方法
KR101610161B1 (ko) * 2014-11-26 2016-04-08 현대자동차 주식회사 음성인식 시스템 및 그 방법
CN106033669B (zh) * 2015-03-18 2019-06-07 展讯通信(上海)有限公司 语音识别方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10192854A (ja) * 1996-12-27 1998-07-28 Tokico Ltd 電解水生成装置
KR19990043759A (ko) * 1997-11-29 1999-06-15 정선종 골도 마이크를 이용한 음성 인식 방법
KR20000073638A (ko) * 1999-05-13 2000-12-05 김종찬 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법
KR20030010432A (ko) * 2001-07-28 2003-02-05 주식회사 엑스텔테크놀러지 잡음환경에서의 음성인식장치
KR20040010860A (ko) * 2002-07-25 2004-02-05 주식회사 원원테크 환경 적응형 다중 음성인식 장치 및 음성인식 방법
US6766292B1 (en) 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
KR20040073145A (ko) * 2003-02-13 2004-08-19 엘지전자 주식회사 음성인식기의 성능 향상 방법
KR20050051435A (ko) * 2003-11-27 2005-06-01 한국전자통신연구원 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
KR20060040002A (ko) * 2004-11-04 2006-05-10 한국전자통신연구원 음성 인식 장치 및 그 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
CN1162838C (zh) * 2002-07-12 2004-08-18 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10192854A (ja) * 1996-12-27 1998-07-28 Tokico Ltd 電解水生成装置
KR19990043759A (ko) * 1997-11-29 1999-06-15 정선종 골도 마이크를 이용한 음성 인식 방법
KR20000073638A (ko) * 1999-05-13 2000-12-05 김종찬 전자적성문그래프 검출장치 및 그 검출신호와 음성신호를 이용한음성분석방법
US6766292B1 (en) 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
KR20030010432A (ko) * 2001-07-28 2003-02-05 주식회사 엑스텔테크놀러지 잡음환경에서의 음성인식장치
KR20040010860A (ko) * 2002-07-25 2004-02-05 주식회사 원원테크 환경 적응형 다중 음성인식 장치 및 음성인식 방법
KR20040073145A (ko) * 2003-02-13 2004-08-19 엘지전자 주식회사 음성인식기의 성능 향상 방법
KR20050051435A (ko) * 2003-11-27 2005-06-01 한국전자통신연구원 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
KR20060040002A (ko) * 2004-11-04 2006-05-10 한국전자통신연구원 음성 인식 장치 및 그 방법

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
10-192854
10-1999-43759
10-2000-73638
10-2003-10432
10-2004-10860
10-2004-73145
10-2005-51435
10-2006-40002
20-399231
ELECTROGLOTTOGRAPH AS AN ADDITIONAL SOURCE OF INFORMATION IN ISOLATED WORD RECOGNITION, Proc. of IEEE int.conf biomedical engineering, 1995 pp.1-4
Use of Temporal Information: Detection of Periodicity, Aperiodicity, and Pitch in Speech, IEEE Trans. on Speech and Audio Processing, SEPTEMBER 2005, Vol.13,No.5,pp.776-786

Also Published As

Publication number Publication date
KR20070061134A (ko) 2007-06-13
CN101223574B (zh) 2011-06-29
CN101223574A (zh) 2008-07-16

Similar Documents

Publication Publication Date Title
KR100908121B1 (ko) 음성 특징 벡터 변환 방법 및 장치
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
US20080300875A1 (en) Efficient Speech Recognition with Cluster Methods
Chen et al. Cepstrum derived from differentiated power spectrum for robust speech recognition
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
KR100639968B1 (ko) 음성 인식 장치 및 그 방법
Garner Cepstral normalisation and the signal to noise ratio spectrum in automatic speech recognition
Alam et al. Robust feature extraction based on an asymmetric level-dependent auditory filterbank and a subband spectrum enhancement technique
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
KR100738341B1 (ko) 성대신호를 이용한 음성인식 장치 및 그 방법
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
Haton Automatic speech recognition: A Review
Thian et al. Spectral subband centroids as complementary features for speaker authentication
CN112233657A (zh) 一种基于低频音节识别的语音增强方法
Touazi et al. An experimental framework for Arabic digits speech recognition in noisy environments
Alam et al. Robust feature extractors for continuous speech recognition
Han et al. Reverberation and noise robust feature compensation based on IMM
Flynn et al. Combined speech enhancement and auditory modelling for robust distributed speech recognition
Alam et al. Regularized minimum variance distortionless response-based cepstral features for robust continuous speech recognition
Hirsch HMM adaptation for applications in telecommunication
Paliwal et al. Robust speech recognition under noisy ambient conditions
Abka et al. Speech recognition features: Comparison studies on robustness against environmental distortions
Chen et al. Robust MFCCs derived from differentiated power spectrum
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Zhu et al. Maximum likelihood sub-band adaptation for robust speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120629

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee