KR100737358B1 - 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치 - Google Patents

음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치 Download PDF

Info

Publication number
KR100737358B1
KR100737358B1 KR1020050069041A KR20050069041A KR100737358B1 KR 100737358 B1 KR100737358 B1 KR 100737358B1 KR 1020050069041 A KR1020050069041 A KR 1020050069041A KR 20050069041 A KR20050069041 A KR 20050069041A KR 100737358 B1 KR100737358 B1 KR 100737358B1
Authority
KR
South Korea
Prior art keywords
voice
speech
feature vector
frame
filter bank
Prior art date
Application number
KR1020050069041A
Other languages
English (en)
Other versions
KR20060064494A (ko
Inventor
김갑기
이성주
정호영
김상훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20060064494A publication Critical patent/KR20060064494A/ko
Application granted granted Critical
Publication of KR100737358B1 publication Critical patent/KR100737358B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명이 이루고자 하는 기술적 과제는 음성과 비음성을 보다 명확히 구분함으로써, 음성 인식부의 부하를 낮출 수 있고, 비음성 신호를 음성 신호로 판단하고 음성인식함으로써 발생하는 음성인식의 오류를 줄일 수 있는 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치를 제공하는 것이다.
본 발명은 입력되는 음성 데이터로부터 특징 벡터를 추출하고, 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분하는 음성/비음성 검증부; 및 상기 음성/비음성 검증부가 음성으로 판단한 구간에 대응하는 데이터로부터 음성을 인식하는 음성 인식부를 포함하되, 상기 음성/비음성 검증부는, 상기 입력되는 음성 데이터를 프레임 단위로 나누어 상기 프레임 단위의 음성 데이터로부터 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나의 특징 벡터를 추출하며, 상기 음성/비음성 모델을 이용하여 상기 프레임 단위의 음성 데이터에 대하여 음성/비음성 결정을 수행한 후, 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하여 창 단위로 음성/비음성 결정을 내리는 것을 특징으로 하는 음성 인식 장치를 제공한다.

Description

음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치{Method for verifying speech/non-speech and voice recognition apparatus using the same}
도 1은 종래기술에 의한 음성 인식 장치를 나타내는 도면이다.
도 2는 본 발명의 실시예에 의한 음성 인식 장치를 나타내는 도면이다.
도 3은 도 2의 음성 인식 장치가 네트워크적으로 연결된 경우의 일례를 설명하기 위한 도면이다.
도 4는 도 2의 음성/비음성 검증부(22)에서 수행되는 음성/비음성 검증 방법을 설명하기 위한 도면이다.
도 5는 도 4의 도면부호 S43에 해당하는 단계에서 사용되는 음성/비음성 모델의 초기 모델링 방법을 설명하기 위한 도면이다.
본 발명은 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치에 관한 발명으로서, 보다 상세하게는 많은 연산을 필요로 하는 음성 인식부의 부하를 줄일수 있는 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치에 관한 발명이다.
도 1은 종래기술에 의한 음성 인식 장치를 나타내는 도면이다. 도 1을 참조하면 종래기술에 의한 음성 인식 장치는 음성 끝점 검출부(11) 및 음성 인식부(12)를 포함한다. 음성 끝점 검출부(11)는 음성 신호 구간의 시작점 및 끝점을 검출하는 기능을 수행하며, 일례로 음성신호의 단시간 에너지(short-time energy) 및 영교차율(zero crossing rate)를 이용하여 음성 구간을 검출한다. 음성 인식부(12)는 음성 끝점 검출부(11)에서 출력되는 음성 구간 내에서 음성을 인식하는 기능을 수행한다.
이와 같은 구성을 가지는 종래기술에 의한 음성 인식 장치에 있어서, 음성 끝점 검출부(11)는 음성 신호와 비음성 신호를 구분하는데 한계가 있었다. 특히 기계음, 음악 등 주변에서 흔히 접할 수 있는 생활 잡음을 음성 신호화 잘 구분하지 못한다는 문제점이 있었다. 이와 같이, 음성 끝점 검출부(11)가 음성 신호와 비음성 신호를 잘 구분하지 못하고 대부분 음성 신호로 인식하여 출력하는 경우에, 음성 인식부(12)는 많은 양의 연산을 수행해야 한다는 문제점이 있다. 특히, 로봇에 응용되는 경우에는, 버튼을 누른 후에 말을 하는 방식 즉 푸쉬-버튼(push-button) 방식과 달리 항상 대기 상태에서 듣는 소리가 음성인지 비음성인지를 판단하여야 한다. 따라서, 음성과 비음성을 잘 구분하지 못하는 경우에, 음성 인식부(12)의 잦은 연산에 의하여 로봇의 충전지가 빨리 소모되는 문제점이 있다. 또한, 비음성인 신호를 입력받았음에도 불구하고, 음성으로 판단하여, 음성 인식을 수행함으로써 음성 인식의 오류가 발생하는 문제점이 있다.
따라서, 본 발명이 이루고자 하는 기술적 과제는 상기한 문제점들을 해결하기 위한 것으로서, 음성과 비음성을 보다 명확히 구분함으로써, 음성 인식부의 부하를 낮출 수 있고, 비음성인 신호를 입력받아 인식의 오류를 일으키는 것을 줄일 수 있는 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치를 제공하는 것이다.
상술한 목적을 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면은 입력되는 음성 데이터로부터 특징 벡터를 추출하고, 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분하는 음성/비음성 검증부; 및 상기 음성/비음성 검증부가 음성으로 판단한 구간에 대응하는 데이터로부터 음성을 인식하는 음성 인식부를 포함하되, 상기 음성/비음성 검증부는, 상기 입력되는 음성 데이터를 프레임 단위로 나누어 상기 프레임 단위의 음성 데이터로부터 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나의 특징 벡터를 추출하며, 상기 음성/비음성 모델을 이용하여 상기 프레임 단위의 음성 데이터에 대하여 음성/비음성 결정을 수행한 후, 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하여 창 단위로 음성/비음성 결정을 내리는 것을 특징으로 하는 음성 인식 장치를 제공한다.
또한, 본 발명의 제 2 측면은 (a) 프레임 단위의 음성 데이터로부터 특징 벡터를 추출하는 단계; (b) 음성/비음성 모델을 이용하여 프레임 단위로 음성/비음성 결정을 수행하는 단계; (c) 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하는 단계; 및 (d) 창 단위로 음성/비음성 결정을 내리는 단계를 포함하며, 상기 특징 벡터는 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나인 음성/비음성 검증 방법을 제공한다.
이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 그러나, 본 발명의 실시예들은 여러가지 형태로 변형될 수 있으며, 본 발명의 범위가 아래에서 상술하는 실시예들로 인하여 한정되는 식으로 해석되어 져서는 안된다. 본 발명의 실시예들은 당업계에서 평균적 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해 제공되는 것이다.
도 2는 본 발명의 실시예에 의한 음성 인식 장치를 나타내는 도면이다. 도 2를 참조하면, 음성 인식 장치는 음성 끝점 검출부(21), 음성/비음성 검증부(22) 및 음성 인식부(23)를 포함한다.
음성 끝점 검출부(21)는 음성 신호 구간의 시작점 및 끝점을 검출하는 기능을 수행하며, 일례로 음선신호의 단시간 에너지(short-time energy) 및 영교차율(zero crossing rate)을 이용하여 음성 구간을 검출한다. 음성 끝점 검출부(21)는 선택적 구성요소로서, 음성/비음성 검증부(22) 및 음성 인식부(23)만으로 구성된 음성 인식 장치만으로도 본 발명의 목적을 달성할 수 있다. 다만, 음성 끝점 검출부(21)를 추가적으로 포함하는 경우 음성/비음성 검증부(22)의 부하를 감소시킬 수 있다는 장점이 있다.
음성/비음성 검증부(22)는 음성 끝점 검출부에서 출력되는 음성 구간의 데이터에 대하여 특징 벡터를 이용하여 음성 구간과 비음성 구간을 검증하여 최종적으로 음성 구간을 검출하는 기능을 수행한다.
음성/비음성 검증부(22)에서 추출되는 특징 벡터의 예로서 필터 뱅크 에너 지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 등이 있다. 음성/비음성 검증부(22)는 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분한다. 음성/비음성 검증부(22)는 음성 구간을 검출하면, 음성 구간에 해당하는 음성 데이터, 및 음성 구간에 해당하는 특징 벡터 중 적어도 어느 하나를 음성 인식부(23)로 출력한다. 만일 음성/비음성 검증부(22)가 특징 벡터를 음성 인식부(23)로 출력하고, 음성 인식부(23)가 이를 이용하여 음성 인식을 수행하는 경우에는, 음성 인식부(23)는 특징 벡터를 추출하기 위한 별도의 구성 요소를 포함하지 않아도 된다는 장점이 있다.
음성 인식부(23)는 음성/비음성 검증부(22)에서 출력되는 음성 데이터 및 특징 벡터 중 적어도 어느 하나를 이용하여 음성 구간 내에서 음성을 인식하는 기능을 수행한다.
도 3은 도 2의 음성 인식 장치가 네트워크로 연결된 경우의 일례를 설명하기 위한 도면이다. 도 3을 참조하면, 음성 인식 장치는 음성 인식 서버(31) 및 적어도 하나의 클라이언트(32A, 32B, 32C)를 포함한다.
음성 인식 서버(31)는 통신을 통하여 적어도 하나의 클라이언트(32A, 32B, 32C)와 접속되며, 적어도 음성 인식부(23)를 포함한다.
각 클라이언트(32A, 32B, 32C)는 통신을 통하여 음성 인식 서버(31)와 접속되며, 마이크(33A, 33B, 33C), 음성 끝점 검출부(21A, 21B, 21C) 및 음성/비음성 검증부(22A, 22B, 22C)를 포함한다. 클라이언트(32A, 32B, 32C)는 바람직하게 로봇일 수 있다.
도면에 표현된 음성 인식 장치에 있어서, 마이크(33A, 33B, 33C)는 클라이언트(32A, 32B, 32C)에 위치하여야 하며, 음성 인식부(23)는 음성 인식 서버(31)에 위치하여야 하나, 음성 끝점 검출부(21A, 21B, 21C) 및 음성/비음성 검증부(22A, 22B, 22C)는 도면과 같이 클라이언트(32A, 32B, 32C)에 위치할 수도 있으며, 음성 끝점 검출부(21A, 21B, 21C)는 클라이언트(32A, 32B, 32C)에 위치하고 음성/비음성 검증부(22A, 22B, 22C)는 음성 인식 서버(31)에 위치할 수도 있으며, 음성 끝점 검출부(21A, 21B, 21C) 및 음성/비음성 검증부(22A, 22B, 22C) 모두 음성 인식 서버(31)에 위치할 수도 있다. 음성 끝점 검출부(21A, 21B, 21C)가 음성 인식 서버(31)에 위치하는 경우, 각 클라이언트(32A, 32B, 32C)별로 별도의 음성 끝점 검출부를 둘 수도 있고, 복수의 클라이언트(32A, 32B, 32C)에 대하여 하나의 음성 끝점 검출부를 둘 수도 있다. 또한, 음성/비음성 검증부(22A, 22B, 22C)가 음성 인식 서버(31)에 위치하는 경우, 각 클라이언트(32A, 32B, 32C)별로 별도의 음성/비음성 검증부를 둘 수도 있고, 복수의 클라이언트(32A, 32B, 32C)에 대하여 하나의 음성/비음성 검증부를 둘 수도 있다. 마이크(33A, 33B, 33C)만이 클라이언트(32A, 32B, 32C)에 위치하는 경우에는 클라이언트(32A, 32B, 32C)는 항상 또는 빈번하게 음성 인식 서버(31)과 통신을 수행하여야 하므로, 통신에 많은 부하를 준다는 문제점이 있다. 특히 푸쉬-버튼 방식으로 동작하지 아니하는 로봇 등의 응용에 있어서, 이 문제는 더욱 심각하다. 따라서, 음성 끝점 검출부(21A, 21B, 21C)가 클라이언트 (32A, 32B, 32C)에 위치하고 음성/비음성 검증부(22A, 22B, 22C)가 음성 인식 서버(31)에 위치하거나, 도면과 같이 음성 끝점 검출부(21A, 21B, 21C) 및 음성/비음성 검증부(22A, 22B, 22C) 모두가 클라이언트(32A, 32B, 32C)에 위치하는 것이 통신 부하를 줄일 수 있으므로 보다 바람직하다. 만일 음성 끝점 검출부(22A, 22B, 22C)가 사용되지 아니하는 경우에는 음성/비음성 검증부(22A, 22B, 22C)가 클라이언트(32A, 32B, 32C)에 위치하는 것이 통신 부하를 줄일 수 있으므로 보다 바람직하다.
도 4는 도 2의 음성/비음성 검증부(22)에서 수행되는 음성/비음성 검증 방법을 설명하기 위한 도면이다. 도 4를 참조하면, 음성/비음성 검증 방법은 제 1 버퍼링 단계(S41), 특징 벡터 추출 단계(S42), 모델 개선 단계(S43), 프레임 분류 단계(S44), 제 2 버퍼링 단계(S45) 및 창 분류 단계(S46)를 포함한다.
제 1 버퍼링 단계(S41)에서는 입력 음성 데이터를 버퍼링한 후에 한 프레임 단위로 출력하는 동작이 이루어진다. 프레임의 길이는 특징 벡터를 추출하기에 적합한 길이로써, 일례로 20ms일 수 있으며, 앞 프레임과 뒷 프레임은 10ms씩 겹쳐지는 방식으로 프레임이 구하여질 수 있다.
특징 벡터 추출 단계(S42)에서는 일례로 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 등의 특징 벡터 중 적어도 하나를 추출한다. 필터 뱅크 에너지는 음성 데이터의 주파수 대역에서 중에서 필요한 주파수 대역들의 에너지를 구한 값을 의미한다. 필요한 주파수 대역만을 추출할 때 사용하는 것이 필터이고, 필 터 뱅크는 필터들의 집합이다. 필터 뱅크 에너지는 필터별로 하나의 실수 값의 형태로 표현된다. 프레임내에 필터 뱅크간 에너지 값의 변화량은 한 프레임 내에서 필터 뱅크간의 에너지 차의 양을 의미하며 필터의 수보다 하나 작은 수의 개수로 표현된다. 프레임간의 필터 뱅크 에너지 값의 변화량은 시간의 흐름에 따른 프레임 열들 중에 인접한 프레임간의 같은 필터에서 나온 에너지 값의 차를 의미한다. 멜 필터 뱅크 계수는 MFCC(Mel Frequency Cepstrum Coefficient)로도 호칭되며, 주파수 대역에서 멜(Mel) 주파수 대역으로 바꾼 것의 필터를 이용하여 에너지 값을 얻고 그것을 다시 역 고속 프리에 변환(Inverse Fast Fourier Transform)을 취하여 얻은 값이다.
모델 개선 단계(S43)에서는 음성/비음성 모델의 재모델링이 이루어지며, 적응 기술을 사용하여 최적화된 모델로 재모델링이 이루어진다. 적응 기법으로 고유 음성(Eigen Voice), MLLR(Maximum Likelihood Linear Regression), MAP(Maximum A-Posterior) 등의 방법 중 적어도 하나가 사용될 수 있다. 또한, 음성/비음성 모델을 개선함에 있어서, 온-라인(on-line) 상에서 재모델링이 이루어질 수 있다. 이와 같이 음성/비음성 모델이 개선되면, 음성/비음성 결정이 더욱 정확해질 수 있다. 모델 개선 단계(S43)은 선택적인 단계로서, 필요에 따라 수행될 수 있다.
프레임 분류 단계(S44)에서 음성/비음성 모델을 이용하여 프레임 단위의 음성/비음성 결정을 내린다. 음성/비음성의 결정을 수행함에 있어서, 통계적 방법의 모델링을 사용한 경우에는 GMM(Gaussian Mixture Model), HMM(Hidden Markov Model), SVM(Support Vector Machine), NN(Neural Network) 등의 방법 중 적어도 하나의 방법을 이용하여 음성/비음성의 결정을 하고, 규칙 기반의 방법으로 모델링을 한 경우는 규칙을 이용하여 프레임에 대한 음성/비음성의 결정을 한다. 음성/비음성 결정 값을 출력함에 있어서, 하드(hard) 결정 방식 즉 단순히 음성에 해당하는 값 및 비음성에 해당하는 값 중 어느 하나를 출력하는 방식에 의하여 결정 값이 출력될 수 있으며, 소프트(soft) 결정 방식 즉 음성 또는 비음성에 가까운 정도를 실수로써 출력하는 방식에 의하여 결정 값이 출력될 수도 있다.
제 2 버퍼링 단계(S45)에서, 연속하는 프레임에 대하여 창(window)의 길이만큼 프레임 분류 단계(S44)에서 수행된 음성/비음성에 대한 결정 값을 버퍼링한다. 창은 연속하는 프레임의 집합으로 300ms ~ 1000ms 등 필요에 따른 적정한 크기를 사용한다. 제 2 버퍼링 단계(S45)에서 특징 벡터 추출 단계(S42)에서 추출된 특징 벡터도 추가적으로 버퍼링 할 수도 있다.
창 분류 단계(S46)에서, 최종적으로 창 단위의 음성/비음성 결정을 내린다. 음성/비음성 결정을 수행함에 있어서, 규칙에 기반한 방법 즉 임계치를 이용하여 결정할 수도 있고, 또는 통계적인 방법 즉 분류기인 GMM, HMM, SVM, NN등을 이용하여 결정할 수도 있다.
이와 같은 단계를 수행하면, 입력되는 데이터가 음성인지 비음성인지를 결정할 수 있으며, 이에 대응하여 음성 구간을 정하여 그에 대응하는 데이터(음성 신호 및/또는 특징 벡터)를 전달할 수 있다. 특히, 음성/비음성을 결정함에 있어서, 특징 벡터를 사용함으로써, 단시간 에너지(short-time energy) 및/또는 영교차율(zero crossing rate)을 사용하는 음성 끝점 검출부에 비하여 보다 정확히 음성/비 음성을 결정할 수 있다.
도 5는 도 4의 도면부호 S43에 해당하는 단계에서 사용되는 음성/비음성 모델의 초기 모델링 방법을 설명하기 위한 도면이다. 음성/비음성 모델의 초기 모델링 방법은 도 4에 표현된 음성/비음성 검증 방법 이전에 수행되며, 수행된 이후에 얻어지는 음성/비음성 모델이 음성/비음성 검증 방법에 사용된다. 모델링 과정은 바람직하게 오프-라인(Off-line)에서 음성/비음성에 대한 특징 벡터들을 이용하여 각각의 모델을 정교하게 만드는 것이다. 도 5를 참조하면, 음성/비음성 모델의 초기 모델링 방법은 버퍼링 단계(S51), 특징 벡터 추출 단계(S52) 및 음성/비음성 모델링 단계(S53)를 포함한다.
버퍼링 단계(S51)에서는 입력 음성 데이터를 버퍼링한 후에 한 프레임 단위로 출력하는 동작이 이루어진다. 프레임의 길이는 특징 벡터를 추출하기에 적합한 길이로써, 도 4의 제 1 버퍼링 단계에서 사용되는 프레임 길이와 같을 수 있다.
특징 벡터 추출 단계(S52)에서는 일례로 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 등의 특징 벡터를 추출한다.
음성/비음성 모델링 단계(S53)에서, 모델을 만드는 방법으로 통계적인 방법이 사용될 수 있고, 또는 규칙 기반의 모델을 위한 규칙을 정하는 방식이 사용될 수 있고, 두 가지 방법의 하이브리드 방식이 사용될 수 있다. 통계적인 방법으로 벡터 양자화 방법, 가우시안 모델링을 기반한 방법등이 있으며, 이들에 대한 변별 력을 향상하기 위해 변별 학습 기능이 사용될 수 있다.
아래에 표현된 표 1 및 2는 본 발명의 실시예에 의한 음성 인식 장치와 종래 기술에 의한 음성 인식 장치의 성능을 비교하기 위한 표이다.
발성 인식오류 입력거부 에러율
359 359 0 100%
발성 인식오류 입력거부 에러율
359 62 297 17%
표 1은 음성이 아닌 잡음을 입력하였을 때 종래기술에 의한 음성인식 장치가 이를 음성으로 인식하여 오류가 발생하는 정도를 나타내는 도면이다. 표 1에서 알 수 있듯이, 359 회의 잡음을 입력하는 경우, 비음성으로 인식하여 입력거부를 한 경우는 없으며, 모두 음성으로 인식하여 인식오류가 발생하였다. 따라서, 에러율은 100%에 해당한다.
표 2는 음성이 아닌 잡음을 입력하였을 때 본발명에 의한 음성인식 장치가 이를 음성으로 인식하여 오류가 발생하는 정도를 나타내는 도면이다. 표 2에서 알 수 있듯이, 359 회의 잡음을 입력하는 경우, 비음성으로 인식하여 입력거부를 한 경우가 297회이고, 음성으로 인식하여 인식오류가 발생하는 경우가 62회였다. 따라서, 에러율은 17%로, 본 발명에 의한 음성인식 장치가 비음성인 잡음을 제거함으로써, 음성 인식 오류를 감소시키는 개선된 효과가 있음을 명확히 알 수 있다.
본 발명에 의한 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치는 종래기술에 비하여 음성 구간과 비음성 구간을 명확히 구분함으로써, 많은 연산을 필요로 하는 음성 인식부의 부하와 음성 인식에 소요되는 시간을 줄이고, 비음성인 신호를 입력받아 인식의 오류를 일으키는 것을 줄인다는 장점이 있다.
또한, 본 발명에 의한 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치는 복수의 클라이언트(가정에 있는 로봇 등)에서 발생하는 음성 신호를 음성 인식 서버에서 음성 인식하는 경우에 음성 인식 서버의 부하 또는 수를 줄일 수 있고, 그 인식 성능을 향상 시킬 수 있다는 있다는 장점이 있다.

Claims (15)

  1. 입력되는 음성 데이터로부터 특징 벡터를 추출하고, 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분하는 음성/비음성 검증부; 및
    상기 음성/비음성 검증부가 음성으로 판단한 구간에 대응하는 데이터로부터 음성을 인식하는 음성 인식부를 포함하되,
    상기 음성/비음성 검증부는,
    상기 입력되는 음성 데이터를 프레임 단위로 나누어 상기 프레임 단위의 음성 데이터로부터 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나의 특징 벡터를 추출하며,
    상기 음성/비음성 모델을 이용하여 상기 프레임 단위의 음성 데이터에 대하여 음성/비음성 결정을 수행한 후, 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하여 창 단위로 음성/비음성 결정을 내리는 것을 특징으로 하는 음성 인식 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 음성으로 판단한 구간에 대응하는 데이터는 특징 벡터 및 음성 데이터 중 적어도 어느 하나인 음성 인식 장치.
  4. 삭제
  5. 제 1항 또는 제 3항에 있어서,
    단시간 에너지 및 영교차율 중 적어도 어느 하나를 이용하여 음성 구간을 검출하여 음성 구간에 대응하는 데이터를 상기 음성/비음성 검증부로 전달하는 음성 끝점 검출부를 더 포함하는 음성 인식 장치.
  6. 삭제
  7. (a) 프레임 단위의 음성 데이터로부터 특징 벡터를 추출하는 단계;
    (b) 음성/비음성 모델을 이용하여 프레임 단위로 음성/비음성 결정을 수행하는 단계;
    (c) 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하는 단계; 및
    (d) 창 단위로 음성/비음성 결정을 내리는 단계를 포함하며,
    상기 특징 벡터는 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나인 음성/비음성 검증 방법.
  8. 삭제
  9. 제 7 항에 있어서,
    상기 (b) 단계에서 음성/비음성을 결정함에 있어서, 통계적 방법 및 규칙 기반의 방법 중 적어도 어느 한 방법을 이용하여 결정하는 음성/비음성 검증 방법.
  10. 제 7 항에 있어서,
    상기 (c) 단계에서 상기 특징 벡터도 추가적으로 버퍼링을 수행하는 음성/비음성 검증 방법.
  11. 제 7 항에 있어서,
    상기 (d) 단계에서 음성/비음성을 결정함에 있어서, 통계적 방법 및 규칙 기반의 방법 중 적어도 어느 한 방법을 이용하여 결정하는 음성/비음성 검증 방법.
  12. 삭제
  13. 제 7항에 있어서,
    상기 (a) 단계 이후에 수행되는
    (f) 상기 특징 벡터를 이용하여 상기 음성/비음성 모델을 적응기법을 사용하여 재모델링 하는 단계를 더 포함하는 음성/비음성 검증 방법.
  14. 제 7항에 있어서,
    상기 (a) 단계 이전에 수행되는
    (g) 음성/비음성 모델 초기화 단계를 더 포함하는 음성/비음성 검증 방법.
  15. 제 14 항에 있어서,
    상기 (g) 단계는
    초기화를 위한 입력 음성 데이터를 프레임 단위로 버퍼링하는 단계;
    버퍼링된 상기 프레임 단위의 초기화를 위한 입력 음성 데이터로부터 초기화를 위한 특징 벡터를 추출하는 단계; 및
    상기 초기화를 위한 특징 벡터를 이용하여 음성/비음성 모델을 만드는 단계를 포함하며,
    상기 초기화를 위한 특징 벡터는 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나인 음성/비음성 검증 방법.
KR1020050069041A 2004-12-08 2005-07-28 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치 KR100737358B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040102920 2004-12-08
KR20040102920 2004-12-08

Publications (2)

Publication Number Publication Date
KR20060064494A KR20060064494A (ko) 2006-06-13
KR100737358B1 true KR100737358B1 (ko) 2007-07-09

Family

ID=37160045

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050069041A KR100737358B1 (ko) 2004-12-08 2005-07-28 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치

Country Status (1)

Country Link
KR (1) KR100737358B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304443B2 (en) 2014-01-21 2019-05-28 Samsung Electronics Co., Ltd. Device and method for performing voice recognition using trigger voice

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100774800B1 (ko) * 2006-09-06 2007-11-07 한국정보통신대학교 산학협력단 포아송 폴링 기법을 이용한 세그먼트 단위의 음성/비음성분류 방법 및 장치
KR100833096B1 (ko) * 2007-01-18 2008-05-29 한국과학기술연구원 사용자 인식 장치 및 그에 의한 사용자 인식 방법
CN107045870B (zh) * 2017-05-23 2020-06-26 南京理工大学 一种基于特征值编码的语音信号端点检测方法
CN108986844B (zh) * 2018-08-06 2020-08-28 东北大学 一种基于说话人语音特征的语音端点检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214097A (ja) 1996-11-29 1998-08-11 N T T Data Tsushin Kk 音声特徴量の適応化方法及び音声認識装置、記録媒体
KR19980085897A (ko) * 1997-05-30 1998-12-05 김호진 실음성구간 검출방법 및 이를 이용한 음성인식방법
KR20010091093A (ko) * 2000-03-13 2001-10-23 구자홍 음성 인식 및 끝점 검출방법
KR20010091903A (ko) * 2000-03-17 2001-10-23 가나이 쓰토무 플라즈마 처리 장치
KR20010108402A (ko) * 1999-03-26 2001-12-07 요트.게.아. 롤페즈 클라이언트 서버 음성 인식
KR20020037566A (ko) * 2000-11-14 2002-05-22 조정남 휴대용 이동 단말기에서의 음성 및 잡음 성분 판별 방법
KR20030033510A (ko) * 2001-10-23 2003-05-01 에스케이 텔레콤주식회사 무선 데이터 채널상에서의 음성파일 송수신 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214097A (ja) 1996-11-29 1998-08-11 N T T Data Tsushin Kk 音声特徴量の適応化方法及び音声認識装置、記録媒体
KR19980085897A (ko) * 1997-05-30 1998-12-05 김호진 실음성구간 검출방법 및 이를 이용한 음성인식방법
KR20010108402A (ko) * 1999-03-26 2001-12-07 요트.게.아. 롤페즈 클라이언트 서버 음성 인식
KR20010091093A (ko) * 2000-03-13 2001-10-23 구자홍 음성 인식 및 끝점 검출방법
KR20010091903A (ko) * 2000-03-17 2001-10-23 가나이 쓰토무 플라즈마 처리 장치
KR20020037566A (ko) * 2000-11-14 2002-05-22 조정남 휴대용 이동 단말기에서의 음성 및 잡음 성분 판별 방법
KR20030033510A (ko) * 2001-10-23 2003-05-01 에스케이 텔레콤주식회사 무선 데이터 채널상에서의 음성파일 송수신 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304443B2 (en) 2014-01-21 2019-05-28 Samsung Electronics Co., Ltd. Device and method for performing voice recognition using trigger voice
US11011172B2 (en) 2014-01-21 2021-05-18 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof
US11984119B2 (en) 2014-01-21 2024-05-14 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof

Also Published As

Publication number Publication date
KR20060064494A (ko) 2006-06-13

Similar Documents

Publication Publication Date Title
Meng et al. Adversarial speaker verification
US7529665B2 (en) Two stage utterance verification device and method thereof in speech recognition system
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
EP1417677B1 (en) Method and system for creating speaker recognition data, and method and system for speaker recognition
JPH02238495A (ja) 時系列信号認識装置
US20030033143A1 (en) Decreasing noise sensitivity in speech processing under adverse conditions
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
Alam et al. Supervised/unsupervised voice activity detectors for text-dependent speaker recognition on the RSR2015 corpus
US4937870A (en) Speech recognition arrangement
KR100737358B1 (ko) 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치
Soleymani et al. Prosodic-enhanced siamese convolutional neural networks for cross-device text-independent speaker verification
AU744678B2 (en) Pattern recognition using multiple reference models
Kinnunen et al. Speaker discriminative weighting method for VQ-based speaker identification
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
GB2576960A (en) Speaker recognition
Chowdhury et al. Text-independent distributed speaker identification and verification using GMM-UBM speaker models for mobile communications
KR100587260B1 (ko) 음향 기기의 음성인식장치
Montalvao Filho et al. Multimodal biometric fusion—joint typist (keystroke) and speaker verification
JP2001350494A (ja) 照合装置及び照合方法
Yousafzai et al. Tuning support vector machines for robust phoneme classification with acoustic waveforms
Kalaiarasi et al. Performance Analysis and Comparison of Speaker Independent Isolated Speech Recognition System
Paul et al. Presence of speech region detection using vowel-like regions and spectral slope information
Sandanalakshmi et al. Speaker independent continuous speech to text converter for mobile application
Singh et al. Effect of MFCC based features for speech signal alignments

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130624

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140630

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150629

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170627

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180627

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190625

Year of fee payment: 13