KR100930584B1 - 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 - Google Patents

인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 Download PDF

Info

Publication number
KR100930584B1
KR100930584B1 KR1020070095375A KR20070095375A KR100930584B1 KR 100930584 B1 KR100930584 B1 KR 100930584B1 KR 1020070095375 A KR1020070095375 A KR 1020070095375A KR 20070095375 A KR20070095375 A KR 20070095375A KR 100930584 B1 KR100930584 B1 KR 100930584B1
Authority
KR
South Korea
Prior art keywords
voiced sound
sound
signal
voiced
voice
Prior art date
Application number
KR1020070095375A
Other languages
English (en)
Other versions
KR20090030063A (ko
Inventor
이성주
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070095375A priority Critical patent/KR100930584B1/ko
Priority to US12/149,727 priority patent/US20090076814A1/en
Publication of KR20090030063A publication Critical patent/KR20090030063A/ko
Application granted granted Critical
Publication of KR100930584B1 publication Critical patent/KR100930584B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 외부로부터 수신된 음향 신호의 부가 잡음을 제거하는 입력 신호 음질 향상부, 입력 신호 음질 향상부로부터 음향 신호를 수신하여 음향 신호에 포함된 음성 신호의 끝점을 검출하는 제1 끝점 검출부, 제1 끝점 검출부로부터 수신된 음향 신호에 포함된 음성 신호의 유성음 특징을 추출하는 유성음 특징 추출부, 유성음 특징 추출부에서 추출된 유성음 특징의 판단 기준이 되는 유성음 모델 파라미터를 저장하는 유성음/비유성음 판단 모델부 및 유성음 특징 추출부에서 추출된 유성음 특징을 유성음/비유성음 판단 모델부의 유성음 모델 파라미터를 이용하여 유성음 부분을 판단하는 유성음/비유성음 판별부를 포함하는 음성 신호 판별장치를 제공할 수 있다.
음성 인식, 끝점 탐색, 유성음 검출

Description

인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치{Apparatus and Method for speech detection using voiced characteristics of human speech}
본 발명은 인간 음성의 유성음 특징을 이용한 음성/비음성 판별 방법 및 장치에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-02, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발]
실제 다양한 잡음 환경에서 자동음성인식시스템을 적용하기 위해서는 많은 진입 장벽들이 존재하는데 그 중 하나가 실제 잡음 문제이다. 일상 생활에서 흔히 발생하는 다양한 잡음환경 속에서 자동음성인식시스템이 잘 동작하기 위해서는 음성에 섞여 있는 잡음신호를 잘 추정하여 제거하는 기술도 중요하지만 사용자 음성만을 검출해낼 수 있는 끝점검출 기술 또한 매우 중요한 기술 중의 하나이다. 특히, 사용자가 발성의 시작을 알리지 않는 연속 음성(NON-PTT : non-push-to-talk) 방식에서는 사용자 음성이 아닌 다른 잡음신호들이 음성인식시스템으로 입력되어 그 성능을 저하시키는 요인으로 작용하는 문제가 있어 실제 상용화 시스템에서는 NON-PTT 방식을 적용하기 어려웠다.
NON-PTT 방식의 자동음성인식을 위해서는 입력된 음성신호가 사용자 음성인지 아닌지를 판별하는 음성 판별기술이 요구된다. 그러나 기존의 방식을 이용할 경우에는 배경 음악이나 배블(Babble) 잡음과 같은 화자의 음성 신호와 유사한 특성을 갖는 잡음 신호의 경우에는 이를 판별하기 힘들다는 단점이 존재하였다.
본 발명은 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치를 제공하는 것을 목적으로 한다.
또한 본 발명은 종래의 음성과 비음성의 판별 기술들이 실제 다양한 잡음 환경에서 그 성능이 저하되는 단점을 극복하고 잡음에 강인한 유성음 검출 기술 및 이를 바탕으로 한 음성 판별 기술을 제공하는 것을 목적으로 한다.
상술한 목적들을 달성하기 위하여, 본 발명의 일 측면에 따르면, 외부로부터 수신된 음향 신호의 부가 잡음을 제거하는 입력 신호 음질 향상부, 상기 입력 신호 음질 향상부로부터 음향 신호를 수신하여 상기 음향 신호에 포함된 음성 신호의 끝점을 검출하는 제1 끝점 검출부, 상기 제1 끝점 검출부로부터 수신된 음향 신호에 포함된 음성 신호의 유성음 특징을 추출하는 유성음 특징 추출부, 상기 유성음 특징 추출부에서 추출된 유성음 특징의 판단 기준이 되는 유성음 모델 파라미터를 저장하는 유성음/비유성음 판단 모델부 및 상기 유성음 특징 추출부에서 추출된 유성음 특징을 상기 유성음/비유성음 판단 모델부의 유성음 모델 파라미터를 이용하여 유성음 부분을 판단하는 유성음/비유성음 판별부를 포함하는 음성 신호 판별장치를 제공할 수 있다.
바람직한 실시예에 있어서, 상기 유성음/비유성음 판별부의 판단 결과 및 제 1 끝점 검출부의 검출 결과에 상응하여 수신된 상기 음향 신호에 포함된 음성 신호의 끝점을 검출하는 제2 끝점 검출부를 더 포함할 수 있다. 또한, 상기 입력 음성 음질 향상부는 위너 필터, 최소 평균 제곱 오류(MMSE : Minimum mean square error) 방식 및 칼만 방식 중 어느 하나의 방식을 사용하여 부가 잡음을 제거한 시간축 신호를 출력하는 것을 특징으로 할 수 있다.
또한, 상기 유성음 특징 추출부는 수신된 연속 음성 신호의 변형 시간-주파수 신호 파라미터(Modified TF parameter), HLFBER(high-to-Low Frequency Band Energy Ratio), 조성(Tonality), CMNDV(Cumulative Mean Normalized Difference Valley), ZCR(Zero-Crossing Rate), LCR(Level-Crossing Rate), PVR(Peak-to-Valley Ratio), ABPSE(Adaptive Band-Partitioning Spectral Entropy), NAP(Normalized Autocorrelation Peak),스펙트럼 엔트로피(Spectral entropy) 및 AMDV(Average Magnitude Difference Valley) 특징을 모두 추출하는 것을 특징으로 할 수 있다. 또한, 상기 유성음/비유성음 판단 모델부는 순수 음성 모델에서 추출된 각 유성음 특징의 임계치 및 경계치, GMM(Gaussian Mixture Model), MLP(Multi-Layer Perceptron) 및 SVM(Support Vector Machine) 방식의 모델 파라미터 값 중 어느 하나를 포함하는 것을 특징으로 할 수 있다.
또한, 상기 유성음/비유성음 판별부는 상기 유성음 특징의 임계치 및 경계치와 상기 추출된 음성 신호의 유성음 특징을 단순 비교하는 방식, 통계적 모델을 이용하는 GMM 방식, 인공 지능을 이용하는 MLP 방식, CART(Classification and Regression Tree) 방식, LRT(Likelihood Ratio Test) 방식 및 SVM 방식 중 어느 하 나를 이용하는 것을 특징으로 할 수 있다. 또한, 상기 제1 끝점 검출부는 상기 수신된 음향 신호의 시간-주파수 영역의 에너지 및 엔트로피 기반의 특징을 이용하여 상기 음향 신호에 포함된 음성 신호의 끝점을 검출하고 VSFR(Voiced Speech Frame Ratio)를 이용하여 음성인지 판단하고 음성 마킹 정보를 제공하는 것을 특징으로 할 수 있다. 또한, 상기 제2 끝점 검출부는 GSAP(Global Speech Absence Probability), ZCR, LCR 및 엔트로피 계열의 파라미터 중 어느 하나를 이용하여 상기 음향 신호에 포함된 음성 신호의 끝점을 검출하는 것을 특징으로 할 수 있다.
본 발명의 다른 일 측면을 참조하면, 외부로부터 음향 신호를 수신하는 단계, 상기 입력된 음향 신호의 부가 잡음을 제거하는 단계, 상기 부가 잡음이 제거된 음향 신호를 수신하여 상기 음향 신호에 포함된 음성 신호의 제1 끝점을 검출하는 단계, 상기 제1 끝점이 검출된 음성 신호의 유성음 특징들을 추출하는 단계 및 상기 추출된 유성음 특징들과 미리 설정된 유성음/비유성음 판단 모델을 비교하여 입력된 음향 신호 중 유성음 부분을 판단하는 단계를 포함하는 음성 신호 판별 방법을 제공할 수 있다.
바람직한 실시예에 있어서,상기 유성음 부분의 판단 결과에 상응하여 상기 음향 신호에 포함된 음성 신호의 제2 끝점을 검출하는 단계를 더 포함할 수 있다. 또한, 상기 음향 신호의 부가 잡음 제거는 위너 필터, 최소 평균 제곱 오류방식 및 칼만 방식 중 어느 하나의 방식을 사용하는 것을 특징으로 할 수 있다. 또한, 상기 유성음 특징은 수신된 연속 음성 신호의 변형 시간-주파수 신호 파라미터, HLFBER, 조성, CMNDV, ZCR, LCR, PVR, ABPSE, NAP, 스펙트럼 엔트로피 및 AMDV 특징인 것을 특징으로 할 수 있다. 또한, 상기 유성음/비유성음 판단 모델은 순수 음성 모델에서 추출된 각 유성음 특징의 임계치 및 경계치, GMM, MLP 및 SVM 방식의 모델 파라미터 값 중 어느 하나를 포함하는 것을 특징으로 할 수 있다. 또한, 상기 유성음 부분을 판단하는 방법은 상기 유성음 특징의 임계치 및 경계치와 상기 추출된 음성 신호의 유성음 특징을 단순 비교하는 방식, 통계적 모델을 이용하는 GMM 방식, 인공 지능을 이용하는 MLP 방식, CART 방식, LRT 방식 및 SVM 방식 중 어느 하나를 이용하는 것을 특징으로 할 수 있다. 또한, 상기 제1 끝점을 검출하는 단계는 끝점 찾기 방식(EPD : end-point detection)을 적용하여 상기 음향 신호에 포함된 음성 신호의 시작점 및 종료점을 검출하는 단계를 더 포함할 수 있다.
본 발명에 의하면 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치를 제공할 수 있다.
또한 본 발명에 의하면 종래의 음성과 비음성의 판별 기술들이 실제잡음 환경에서 그 성능이 저하되는 단점을 극복하고 잡음에 강인한 유성음 검출 기술 및 이를 바탕으로 한 음성 판별 기술을 제공할 수 있다.
이하 첨부된 도면을 참조하여 본 발명에 따른 잡음 적응형 변별 학습 방법을 포함하는 잡음 적응형 음향 모델 생성 방법 및 장치에 대하여 상세히 설명한다.
도 1은 본 발명이 적용되는 음성 인식 장치의 전체적인 도면이다.
도 1을 참조하면, 본 발명이 적용되는 음성 인식 장치는 크게 전처리부(101), 특징벡터 추출부(103) 및 음성 인식부(105)로 나눌 수 있다.
이러한 음성 인식 장치는 외부로부터 NON-PTT 방식으로 음성 및 잡음을 포함하는 음향 신호를 수신하면 전처리부(101)에서는 입력된 음향 중에서 부가 잡음 신호를 분리해낸 다음, 발화자가 발화하는 음성 구간을 정확히 구분해 내는 역할을 담당한다. 일반적으로 사용자가 발화 순간을 알려주는 PTT(Push-to-talk)방식에 비하여 연속 음성에 대한 음성 인식은 잡음과 음성 구간을 분리하여 음성구간을 정확하게 추출해 내는 것이 매우 중요하며, 본 발명이 중요하게 적용되는 부분이다.
상기 전처리부(101)에서 음성 구간을 분리해 내면 특징 벡터 추출부(103)에서 상기 분리된 음성 신호를 음성 인식에 필요한 여러 가지 형태로 변환하게 된다. 이러한 특징 벡터 추출부(103)에서 변환되는 특징 벡터는 일반적으로 음성 인식에 적합하도록 각 음소의 특징이 잘 나타나며, 환경에 따라서 크게 변화하지 않는 특성을 가지는 것이 된다.
상기 특징 벡터 추출부(103)에서 추출된 특징 벡터를 이용하여 음성 인식부(105)에서는 그에 상응하는 음성을 인식하게 된다. 이러한 음성 인식부(105)는 음향 모델이 및 음성 모델을 이용하여 통계적인 방법이나 의미론적인 방법 등을 이용하여 상기 특징 벡터가 나타내는 음소나 음가를 판단하여 입력된 음성 신호가 정 확하게 어떤 음성이었는지를 나타내게 된다.
이렇게 음성 인식이 완료되면 음성 인식 결과를 바탕으로 의미 모델을 이용하여 음성을 해석하거나, 음성에 따른 명령을 내릴 수 있다.
상기와 같은 음성 인식 방법에서 특히, 연속 음성을 수신하는 음성 인식 장치의 경우 음성 구간과 비음성 구간을 분리하는 것이 매우 중요하다.
도 2는 본 발명의 바람직한 일 실시예에 따른 전처리부를 개략적으로 나타낸 도면이다.
도 2를 참조하면 본 발명에 따른 전처리부(101)는 입력 음성 음질 향상부(201), 제1 끝점 검출 및 음성 판별부(203), 유성음 특징 추출부(205), 유성음/비유성음 판단 모델(207), 유성음/비유성음 판별부(209) 및 제2 끝점 검출부(211)를 포함한다.
상기와 같은 전처리부의 구성은 본 발명의 일 실시예일 뿐이며, 본 발명의 권리범위 이내에서 다양한 실시예가 가능할 것이다.
우선 입력 신호의 음질 향상부(201)는 음성 신호 및 잡음 신호를 모두 포함하는 음향 신호에서 부가 잡음을 제거하여 부가 잡음에 의한 입력 신호의 음질 저하를 최소화하는 역할을 담당한다. 이러한 부가 잡음은 일반적으로 화자가 발성하는 동안 연속적으로 들려오는 단일 채널의 배경 잡음이 될 수 있다. 이러한 잡음을 제거하는 방식으로는 위너 필터(Wiener Filter)나 최소 평균 제곱 오류(MMSE :Minimum mean-square error) 및 칼만(Kalman) 방식을 이용할 수 있다.
위너 필터는 입력을 원하는 출력과 가능한 한 매우 근사하게 변환시켜주는 필터로서, 필터 출력과 원하는 결과의 차의 제곱의 합이 최소가 되도록 하는 필터이다. 또한 최소 평균 제곱 오류는 상관함수를 이용한 것으로서 모두 가우시안 잡음이나 균일 잡음 제거에 적합한 방식이다.
최소 제곱 오류에 관한 사항은 Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator,"IEEE Trans. Acoust., Speech, Signal Process., vol. 32, no. 6, pp. 1109-1121, Dec. 1984에서 확인 할 수 있으며, 위너 필터는 ETSI standard document, "Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithm", ETSI ES 201 108 v1.1.2 (2000-04), April 2000에서 확인 이 가능하고, 칼만 방식은 Gannot, S., Burshtein, D., Weinstein, E., "Iterative and sequential Kalman filter-based speech enhancement algorithms," IEEE Trans. On Speech and Audio Processing, vol. 6, Issue 4. pp. 373-385, JULY 1998을 참조 할 수 있다.
유성음 특징 추출부(205)는 상기 입력 음성 음질 향상부(201)에서 수신된 음성 신호를 바탕으로 유성음 특징을 추출하는 역할을 담당한다. 입력되는 음성 신호에서 음악 잡음이나 배블(Babble) 잡음 등 음성신호와 유사한 음향특성을 갖는 잡음 신호가 혼합된 경우에는 기존의 방법으로는 화자의 음성 신호와 잡음을 구분하기가 까다로웠다. 본 발명에 있어서는 유성음 특징 추출부에서 음성과 비음성을 구 분하기 위해서 음성의 유성음 부분을 나타내는 음성 특징을 11종류를 검출하여 기존의 방식으로는 구분하기 까다로운 잡음까지 분리할 수 있도록 하였다. 이러한 유성음 특징 11 종류 및 음성 추출 방법은 도 4에서 다시 자세하게 설명하도록 한다.
유성음/비유성음 판단 모델부(207)는 잡음이 포함되지 않은 순수한 음성 모델로부터 추출된 유성음 특징의 임계치나 경계치를 저장하고 있는 부분이다. 즉, 상기 유성음 특징 추출부에서 추출된 특징이 실제로 유성음으로서 판단되는지의 기준값을 저장하고 있는 부분이다. 이러한 유성음/비유성음 판단 모델부(207)에서 저장하는 모델 파라미터 값은 다음에서 설명할 유성음/비유성음 판별부(209)에서 어떠한 판별 방식을 사용하느냐에 따라 달라질 수 있다.
예를 들어, 단순히 유성음 특징들을 임계값이나 경계치와 단순 비교할 경우에는 순수 음성 모델로부터 추출된 임계치나 경계치값을 저장하고 있으면 될 것이나, GMM(Gaussian Mixture Model), MLP(Multi-Layer Perceptron), SVM(Support Vector Machine) 방식, CART(Classification and Regression Tree) 방식, LRT(Likelihood Ratio Test) 방식 과 같은 방식이 사용될 경우 그에 따른 각각의 모델 파라미터 값을 저장하고 있어야 할 것이다.
여기서 GMM은 관측 데이터를 가우시안 분포의 확률 밀도 함수(pdf)로 표현하는 모델링 방법으로 통계적 기법이며, MLP는 신경망을 이용하여 데이터를 분석하는 방법 중 가장 널리 사용되는 모델로서, MLP는 입력층(input layer), 은닉마디로 구성된 은닉층(hidden layer), 그리고 출력층(output layer)으로 구성된 전방향(feed-forward) 신경망 모델을 의미한다.
또한, SVM은 통계적 학습이론으로서 학습데이터와 범주 정보의 학습 진단을 대상으로 학습과정에서 얻어진 확률분포를 이용하여 의사결정함수를 추정한 후 이 함수에 따라 새로운 데이터를 이원 분류하는 방식으로 비선형 최적화 기법이다. 또한, CART는 분류 회기 트리 구조로 패턴을 분류하는 방식으로 분지 트리를 기반으로 데이터를 분류하는 방식이다. LRT는 우도(尤度 -Likelihood)를 이용하여 데이터를 분류하는 방식이다.
유성음/비유성음 판별부(209)는 상기 유성음 특징 추출부(205)에서 추출된 유성음 특징 11 가지와 유성음/비유성음 판단 모델부(207)에 저장된 판단 기준을 비교하여 입력된 음성 신호가 유성음 인지 판단하는 역할을 담당한다.
이러한 유성음 판별부는 실시예 및 필요에 따라 단순히 유성음 특징들을 임계값이나 경계치와의 단순 비교, GMM, MLP 방식, SVM(Support Vector Machine) 방식, CART 방식, LRT 방식 등이 존재할 수 있다.
제1 끝점 검출 및 음성 판별부(203)는 음성 신호의 시간-주파수 영역의 에너지 및 엔트로피 기반의 특징등을 이용하여 음성의 시작점 혹은 끝점을 검출한다. 제1 끝점 검출 및 음성 판별부(203)에서 시작점이 검출된 음성신호 혹은 끝점이 검출되기 전까지 음성신호를 상기 유성음/비유성음 판별부(209) 유성음 특징추출부(205)에 전달하고 유성음/비유성음 판별부(209)의 결과를 바탕으로 VSFR(Voiced Speech Frame Ratio)를 이용하여 음성인지 판단하고 음성의 시작점 및 끝점을 표시하는 음성 마킹 정보를 제공하는 역할을 담당한다.
여기서 VSFR은 전체 음성 프레임과 유성음 음성 프레임의 비를 나타낸다. 인간의 발성에는 일정구간 이상의 유성음이 반드시 포함되므로, 이러한 특성을 이용하여 쉽게 입력된 음향 신호의 음성/비음성을 판별할 수 있다. 따라서 VSFR와 특정 임계값을 비교하는 방식으로 입력 음성구간이 음성인지 아닌지를 판별할 수 있게 된다.
상기 제1 끝점 검출부(203)에서 우선 결정된 끝점 구간에 상기 유성음/비유성음 판별부(209)의 결과를 이용하여 VSFR을 적용하면 판단된 끝점 구간이 실제로 음성 구간인지를 정확하게 확인 할 수 있다. 이렇게 음성 구간을 판단한 다음 후술할 제2 끝점 검출부(211)에서 좀더 정확한 구간을 판단할 수 있도록 음성 마킹 정보를 제공할 수 있다.
제2 끝점 검출부(211)는 상기 제1 끝점 검출부 및 음성판별부(203)에서 판단된 음성 구간에 대해서 좀더 정확한 음성의 시작점 및 끝점을 검출하는 역할을 담당한다. 이러한 끝점 판단을 위하여 GSAP(Global Speech Absence Probability), ZCR(Zero-Crossing Rate), LCR(Level-Crossing Rate) 및 엔트로피 계열의 파라미터 중 어느 하나를 이용할 수 있다.
여기서 GSAP는 전역 음성 부재 확률이며, 이는 매 프레임에서 하나의 값으로 표현되어지는 음성 부재 확률(SAP: Speech Absence Probability)값이다.
도 3은 본 발명의 바람직한 일 실시예에 따른 유성음, 비유성음 판단 방법을 개략적으로 나타낸 도면이다.
도 3은 상기 도 2에서 설명된 유성음/비유성음 판별부에서 유성음/비유성음을 판단하는 방법을 나타낸다. 도 3을 참조하면, 입력된 음향 신호 중 음성 구간으로 1차 판별된 부분의 부가 잡음이 제거된 음성 신호가 입력되면 유성음 판별을 위한 특징을 추출한다(301). 이때 추출되는 유성음 특징은 상기 도 2에서 설명한 바와 같이 11 종류의 특징이 추출된다. 이러한 11 종류의 특징에 의해서 기존의 방식으로는 구분하기 힘들었던 음악 잡음이나 배블(Babble)잡음도 모두 검출이 가능하다. 이러한 11 종류의 특징은 도 4에서 자세히 설명하겠지만, 변형 시간-주파수 신호 파라미터(Modified TF parameter), HLFBER(high-to-Low Frequency Band Energy Ratio), 조성(Tonality), CMNDV(Cumulative Mean Normalized Difference Valley), ZCR(Zero-Crossing Rate), LCR(Level-Crossing Rate), PVR(Peak-to-Valley Ratio), ABPSE(Adaptive Band-Partitioning Spectral Entropy), NAP(Normalized Autocorrelation Peak),스펙트럼 엔트로피(Spectral entropy) 및 AMDV(Average Magnitude Difference Valley) 특징이 될 수 있다.
이러한 특징들은 크게 정규화된 자기상관 함수와 같은 시간 영역의 특징과 엔트로피 계열의 주파수 영역의 특징으로 분로될 수 있다.
이렇게 특징이 추출되면 유성음/비유성음 판단 모델(303)과 추출된 특징을 이용하여 유성음과 비유성음을 결정할 수 있게 된다. 이러한 유성음/비유성음 판단은 실시예 및 필요에 따라 단순히 유성음 특징들을 임계값이나 경계치와의 단순 비교, GMM(Gaussian Mixture Model), MLP(Multi-Layer Perceptron) 방식, SVM(Support Vector Machine) 방식, CART(Classification and Regression Tree) 방식, LRT(Likelihood Ratio Test) 방식 등을 이용할 수 있다.
도 4는 본 발명의 바람직한 일 실시예에 따른 유성음 판단을 위한 특징 추출 방법을 나타낸 도면이다.
도 4를 참조하면, 우선 부가 잡음이 제거된 음성 신호가 입력되면 우선 유성음 특징 중 하나인 변형된 시간-주파수 신호 파라미터(Modified TF parameter)(401)를 구한다. 이러한 변형 시간-주파수 신호 파라미터(Modified TF parameter)를 구하는 방법은 도 5에서 자세히 설명하기로 한다. 그런 다음 변형 시간-주파수 신호 파라미터(Modified TF parameter)가 유성음 판단 모델부에 존재하는 임계치와 비교하여 임계치 이상인 경우에는 나머지 유성음 특징 파라미터를 구한다. 나머지 유성음 특징 파라미터는 HLFBER(high-to-Low Frequency Band Energy Ratio)(415), 조성(Tonality)(417), CMNDV(Cumulative Mean Normalized Difference Valley)(413), ZCR(Zero-Crossing Rate)(419), LCR(Level-Crossing Rate)(421), PVR(Peak-to-Valley Ratio)(423), ABPSE(Adaptive Band-Partitioning Spectral Entropy)(425), NAP(Normalized Autocorrelation Peak)(411),스펙트럼 엔트로피(Spectral entropy)(429) 및 AMDV(Average Magnitude Difference Valley)(427)가 된다.
이러한 특징 값의 의미 및 구하는 방법을 살펴보면, 우선 HLFBER(high-to-Low Frequency Band Energy Ratio)(415)는 저주파 주파수 영역에서 에너지가 높은 유성음의 특징을 나타내며, 다음과 같은 수식으로 구할 수 있다.
Figure 112007067961921-pat00001
삭제
조성(Tonality)(417)은 톤(tone)과 하모니 성분으로 구성된 유성음의 특징을 나타내며 다음과 같은 수식으로 구할 수 있다. 하기 수식에서 alpha는 조성이다.
Figure 112007067961921-pat00002
여기서,
Figure 112008025351019-pat00003

이러한 내용에 대한 자세한 사항은 James D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE Journal On Selected Areas In Communications, VOL. 6, NO. 2, FEBRUARY 1988을 통하여 확인 할 수 있다.
CMNDV(Cumulative Mean Normalized Difference Valley)(413)는 YIN 알고리듬을 기본으로 하여 구해지며, 유성음의 주기적인 특성을 나타내는 대표적인 특징으 로 정규화된 자기 상관함수의 최고치와 유사한 특성을 가진다.
이러한 특성에 대한 자세한 내용은 Alain de Cheveigne and Hideki Kawahara, "YIN, A Fundamental Frequency Estimator for Speech and Music", Journal of the Acoustical Society of America, 111(4), 2002.을 통하여 확인할 수 있다.
ZCR(Zero-Crossing Rate) 및 LCR(Level-Crossing Rate)은 유성음의 주파수 적인 특징을 나타내는 파라미터이다.
이 특징에 관한 내용은 Lawrence R. Rabiner, "On the Use of Autocorrelation Analysis for Pitch Detection", IEEE Trans. On Acoustics, Speech, And Signal Proc., VOL. ASSP-25, NO. 1, FEBRUARY 1977. 및 , Lawrence R. Rabiner, "On the Use of Autocorrelation Analysis for Pitch Detection", IEEE Trans. On Acoustics, Speech, And Signal Proc., VOL. ASSP-25, NO. 1, FEBRUARY 1977.을 통하여 확인할 수 있다.
PVR(Peak-to-Valley Ratio)(423)은 유성음 크기의 주기성을 나타내는 특징으로 반파 정류된 자기 상관함수를 구하고 신호의 최고값과 최저값을 구하여 그 비를 계산하여 구한다.
ABPSE(Adaptive Band-Partitioning Spectral Entropy)(425) 및 스펙트럼 엔트로피(Spectral entropy)(429)는 유성음의 스펙트럼 특성을 잘 표현하는 특징으로 유성음의 하모닉 특성을 나타내는 파라미터이다.
이 특성에 관한 참고는 Bing-Fei Wu and Kun-Ching Wang, "Robust Endpoint Detection Algorithm Based on the Adaptive Band-Partitioning Spectral Entropy in Adverse Environments", IEEE Trans. On Speech and Audio Processing, VOL. 13, NO. 5. SEPTEMBER 2005에서 확인할 수 있다.
NAP(Normalized Autocorrelation Peak)(411) 및 AMDV(Average Magnitude Difference Valley)(427)는 CMNDV와는 다른 유성음의 주기적인 특성을 나타내는 특징이다.여기서 AMDV는 Myron J. Ross, Harry L. Shaffer, Andrew Cohen, Richard Freudberg, and Harold J. Manley, "Average Magnitude Difference Function Pitch Extractor", IEEE Trans. On Acoustics, Speech And Signal Proc., VOL. ASSP-22, NO. 5, OCTOBER 1974에서 참조할 수 있다.
이러한 유성음 특징의 경우 기존의 전처리 방식에서 거의 사용하지 않았던 특성으로 이러한 특성을 모두 판별할 경우 기존의 유성음 판별방식에 비해 획기적으로 개선된 음성 구간의 판별이 가능하다.
이렇게 각각 다른 방식으로 구해진 유성음 특징들을 유성음/비유성음 분류 방법(407)을 이용하여 분류할 수 있다. 본 도면에서는 유성음/비유성음 분류 방법 중 가장 간단한 임계치와 경계치를 이용하여 단순히 비교하는 방법을 이용하였다.
이렇게 유성음/비유성음 분류 방법을 이용하여 분류한 결과가 모든 유성음 특징이 임계치와 경계치를 만족한다면(409) 이는 유성음 신호로서 판단할 수 있게 된다.
본 도면에서 간단한 임계치 및 경계치를 이용하는 방법을 사용한 것은 비교적 조용한 환경에서 수집된 음성 데이터들로부터 변형된 시간-주파수 신호 파라미 터를 이용하면 유성음 구간은 자동으로 검출되고 이러한 유성음 구간에 대해서 나머지 유성음 특징들을 추출한 후 특징들의 임계치를 추출하면 대량의 음성 데이터나 잡음 데이터를 수집하거나 훈련하는 과정 없이 비교적 간단하게 구현이 가능하기 때문이다.
도 5는 본 발명에 적용되는 변형된 시간-주파수 신호 파라미터를 구하는 순서를 나타내는 도면이다.
도 5를 참조하면, 본 발명에서 이용되는 유성음 특징 중 가장 먼저 구하는 변형된 시간-주파수 신호 파라미터(Modified TF parameter)는 우선 부가 잡음이 제거된 음성 신호가 입력되면(단계 501), 상기 신호는 각각 주파수 신호 구간과 시간 신호 구간으로 나눠져서 계산된다. 우선 주파수 신호 구간에서는 입력되는 음성 신호는 시간축 기준의 파형이므로 이른 주파수 신호로 변형하기 위하여 페스트 푸리에 변환(FFT : Fast Fourier Transform)을 이용하여 시간 신호를 주파수 신호로 변환한다(단계 503). 그 후 변환된 주파수 신호 중 주 사용 에너지인 500Hz ~ 3500Hz 구간의 에너지를 계산한다(단계 507). 한편으로 시간 신호는 특별한 변형이 필요하지 않으므로 바로 시간 신호의 에너지를 계산한다(단계 505).
그런 다음 상기 참조 번호 507 및 505 단계에서 계산된 결과 값을 합산하고(단계 509), 그 후 평탄화(smoothing) 작업을 수행한다(단계 511). 그럼 다음 결과 값을 로그(Log) 스케일로 변환한다(단계 513). 이러한 단계를 거쳐서 변형된 시간-주파수 신호 파라미터(Modified TF parameter)가 구해진다(단계 515).
이러한 방법에 대한 자세한 참고는 Jean-Claude Junqua, Brain Mak and Ben Reaves, "A Robust Algorithm for Word Boundary Detection in the Presence of Noise", IEEE Trans. Speech and Audio Proc., VOL. 2, NO. 3, pp. 406~412, JULY 1994를 통하여 확인할 수 있다.
본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.
도 1은 본 발명이 적용되는 음성 인식 장치의 전체적인 도면.
도 2는 본 발명의 바람직한 일 실시예에 따른 전처리부를 개략적으로 나타낸 도면.
도 3은 본 발명의 바람직한 일 실시예에 따른 유성음, 비유성음 판단 방법을 개략적으로 나타낸 도면.
도 4는 본 발명의 바람직한 일 실시예에 따른 유성음, 비유성음 판단을 위한 특징 추출 방법을 나타낸 도면.
도 5는 본 발명에 적용되는 변형된 시간-주파수 신호 파라미터를 구하는 순서를 나타내는 도면.
<도면의 주요 부분에 대한 부호의 설명>
201 : 입력 음성 음질 향상부
203 : 제1 끝점 검출 및 음성 판별부
205 : 유성음 특징 추출부
207 : 유성음 판단 모델
209 : 유성음 판별부
211 : 제2 끝점 검출부

Claims (15)

  1. 외부로부터 수신된 음향 신호의 부가 잡음을 제거하는 입력 신호 음질 향상부;
    상기 입력 신호 음질 향상부로부터 음향 신호를 수신하여 상기 음향 신호에 포함된 음성 신호의 끝점을 검출하는 제1 끝점 검출부;
    상기 제1 끝점 검출부로부터 수신된 음향 신호에 포함된 음성 신호의 유성음 특징을 추출하는 유성음 특징 추출부;
    상기 유성음 특징 추출부에서 추출된 유성음 특징의 판단 기준이 되는 유성음 모델 파라미터를 저장하는 유성음/비유성음 판단 모델부;
    상기 유성음 특징 추출부에서 추출된 유성음 특징을 상기 유성음/비유성음 판단 모델부의 유성음 모델 파라미터를 이용하여 유성음 부분을 판단하는 유성음/비유성음 판별부 및
    상기 유성음/비유성음 판별부의 판단 결과 및 제1 끝점 검출부의 검출 결과에 상응하여 수신된 상기 음향 신호에 포함된 음성 신호의 끝점을 검출하는 제2 끝점 검출부
    를 포함하는 음성 신호 판별장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 입력 음성 음질 향상부는 위너 필터, 최소 평균 제곱 오류(MMSE : Minimum mean square error) 방식 및 칼만 방식 중 어느 하나의 방식을 사용하여 부가 잡음을 제거한 시간축 신호를 출력하는 것
    을 특징으로 하는 음성 신호 판별장치.
  4. 제1항에 있어서,
    상기 유성음 특징 추출부는 수신된 연속 음성 신호의 변형 시간-주파수 신호 파라미터(Modified TF parameter), HLFBER(high-to-Low Frequency Band Energy Ratio), 조성(Tonality), CMNDV(Cumulative Mean Normalized Difference Valley), ZCR(Zero-Crossing Rate), LCR(Level-Crossing Rate), PVR(Peak-to-Valley Ratio), ABPSE(Adaptive Band-Partitioning Spectral Entropy), NAP(Normalized Autocorrelation Peak),스펙트럼 엔트로피(Spectral entropy) 및 AMDV(Average Magnitude Difference Valley) 특징을 모두 추출하는 것
    을 특징으로 하는 음성 신호 판별장치.
  5. 제1항에 있어서,
    상기 유성음/비유성음 판단 모델부는 순수 음성 모델에서 추출된 각 유성음 특징의 임계치 및 경계치, GMM(Gaussian Mixture Model), MLP(Multi-Layer Perceptron) 및 SVM(Support Vector Machine) 방식의 모델 파라미터 값 중 어느 하나를 포함하는 것
    을 특징으로 하는 음성 신호 판별장치.
  6. 제1항에 있어서,
    상기 유성음/비유성음 판별부는 상기 유성음 특징의 임계치 및 경계치와 상기 추출된 음성 신호의 유성음 특징을 단순 비교하는 방식, 통계적 모델을 이용하는 GMM 방식, 인공 지능을 이용하는 MLP 방식, CART(Classification and Regression Tree) 방식, LRT(Likelihood Ratio Test) 방식 및 SVM 방식 중 어느 하나를 이용하는 것
    을 특징으로 하는 음성 신호 판별장치.
  7. 제1항에 있어서,
    상기 제1 끝점 검출부는 상기 수신된 음향 신호의 시간-주파수 영역의 에너지 및 엔트로피 기반의 특징을 이용하여 상기 음향 신호에 포함된 음성 신호의 끝점을 검출하고 VSFR(Voiced Speech Frame Ratio)를 이용하여 음성인지 판단하고 음성 마킹 정보를 제공하는 것
    을 특징으로 하는 음성 신호 판별장치.
  8. 제1항에 있어서,
    상기 제2 끝점 검출부는 GSAP(Global Speech Absence Probability), ZCR, LCR 및 엔트로피 계열의 파라미터 중 어느 하나를 이용하여 상기 음향 신호에 포함된 음성 신호의 끝점을 검출하는 것
    을 특징으로 하는 음성 신호 판별장치.
  9. 외부로부터 음향 신호를 수신하는 단계;
    상기 입력된 음향 신호의 부가 잡음을 제거하는 단계;
    상기 부가 잡음이 제거된 음향 신호를 수신하여 상기 음향 신호에 포함된 음성 신호의 제1 끝점을 검출하는 단계
    상기 제1 끝점이 검출된 음성 신호의 유성음 특징들을 추출하는 단계;
    상기 추출된 유성음 특징들과 미리 설정된 유성음/비유성음 판단 모델을 비교하여 입력된 음향 신호 중 유성음 부분을 판단하는 단계 및
    상기 유성음 부분의 판단 결과에 상응하여 상기 음향 신호에 포함된 음성 신호의 제2 끝점을 검출하는 단계
    를 포함하는 음성 신호 판별 방법.
  10. 삭제
  11. 제9항에 있어서,
    상기 음향 신호의 부가 잡음 제거는 위너 필터, 최소 평균 제곱 오류방식 및 칼만 방식 중 어느 하나의 방식을 사용하는 것
    을 특징으로 하는 음성 신호 판별 방법.
  12. 제9항에 있어서,
    상기 유성음 특징은 수신된 연속 음성 신호의 변형 시간-주파수 신호 파라미터, HLFBER, 조성, CMNDV, ZCR, LCR, PVR, ABPSE, NAP, 스펙트럼 엔트로피 및 AMDV 특징인 것
    을 특징으로 하는 음성 신호 판별 방법.
  13. 제9항에 있어서,
    상기 유성음/비유성음 판단 모델은 순수 음성 모델에서 추출된 각 유성음 특징의 임계치 및 경계치, GMM, MLP 및 SVM 방식의 모델 파라미터 값 중 어느 하나를 포함하는 것
    을 특징으로 하는 음성 신호 판별 방법.
  14. 제9항에 있어서,
    상기 유성음 부분을 판단하는 방법은 상기 유성음 특징의 임계치 및 경계치와 상기 추출된 음성 신호의 유성음 특징을 단순 비교하는 방식, 통계적 모델을 이용하는 GMM 방식, 인공 지능을 이용하는 MLP 방식, CART 방식, LRT 방식 및 SVM 방 식 중 어느 하나를 이용하는 것
    을 특징으로 하는 음성 신호 판별 방법.
  15. 제9항에 있어서,
    상기 제1 끝점을 검출하는 단계는 끝점 찾기 방식(EPD : end-point detection)을 적용하여 상기 음향 신호에 포함된 음성 신호의 시작점 및 종료점을 검출하는 단계
    를 더 포함하는 음성 신호 판별 방법.
KR1020070095375A 2007-09-19 2007-09-19 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 KR100930584B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070095375A KR100930584B1 (ko) 2007-09-19 2007-09-19 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
US12/149,727 US20090076814A1 (en) 2007-09-19 2008-05-07 Apparatus and method for determining speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070095375A KR100930584B1 (ko) 2007-09-19 2007-09-19 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090030063A KR20090030063A (ko) 2009-03-24
KR100930584B1 true KR100930584B1 (ko) 2009-12-09

Family

ID=40455510

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070095375A KR100930584B1 (ko) 2007-09-19 2007-09-19 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치

Country Status (2)

Country Link
US (1) US20090076814A1 (ko)
KR (1) KR100930584B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11893982B2 (en) 2018-10-31 2024-02-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method therefor
US11972752B2 (en) 2022-09-02 2024-04-30 Actionpower Corp. Method for detecting speech segment from audio considering length of speech segment

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2663568C (en) 2006-11-16 2016-01-05 International Business Machines Corporation Voice activity detection system and method
US9037474B2 (en) 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
KR101239318B1 (ko) * 2008-12-22 2013-03-05 한국전자통신연구원 음질 향상 장치와 음성 인식 시스템 및 방법
US8244523B1 (en) * 2009-04-08 2012-08-14 Rockwell Collins, Inc. Systems and methods for noise reduction
US9196254B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for implementing quality control for one or more components of an audio signal received from a communication device
US9026440B1 (en) * 2009-07-02 2015-05-05 Alon Konchitsky Method for identifying speech and music components of a sound signal
US9196249B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for identifying speech and music components of an analyzed audio signal
EP2529370B1 (en) * 2010-01-29 2017-12-27 University of Maryland, College Park Systems and methods for speech extraction
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US8725506B2 (en) * 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US9293131B2 (en) * 2010-08-10 2016-03-22 Nec Corporation Voice activity segmentation device, voice activity segmentation method, and voice activity segmentation program
CN103366737B (zh) 2012-03-30 2016-08-10 株式会社东芝 在自动语音识别中应用声调特征的装置和方法
US9653070B2 (en) * 2012-12-31 2017-05-16 Intel Corporation Flexible architecture for acoustic signal processing engine
CN103489445B (zh) * 2013-09-18 2016-03-30 北京音之邦文化科技有限公司 一种识别音频中人声的方法及装置
US9449615B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
FR3014237B1 (fr) * 2013-12-02 2016-01-08 Adeunis R F Procede de detection de la voix
SG11201605362PA (en) * 2014-02-14 2016-07-28 Donald James Derrick System for audio analysis and perception enhancement
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
CN104409080B (zh) * 2014-12-15 2018-09-18 北京国双科技有限公司 语音端点检测方法和装置
EP3309785A1 (en) 2015-11-19 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for voiced speech detection
GB2548356B (en) * 2016-03-14 2020-01-15 Toshiba Res Europe Limited Multi-stream spectral representation for statistical parametric speech synthesis
CN107767880B (zh) * 2016-08-16 2021-04-16 杭州萤石网络有限公司 一种语音检测方法、摄像机和智能家居看护系统
CN108231069B (zh) * 2017-08-30 2021-05-11 深圳乐动机器人有限公司 清洁机器人的语音控制方法、云服务器、清洁机器人及其存储介质
KR101958664B1 (ko) * 2017-12-11 2019-03-18 (주)휴맥스 멀티미디어 콘텐츠 재생 시스템에서 다양한 오디오 환경을 제공하기 위한 장치 및 방법
CN108828599B (zh) * 2018-04-06 2021-11-16 东莞市华睿电子科技有限公司 一种基于救援无人机的受灾人员搜寻方法
CN108962227B (zh) * 2018-06-08 2020-06-30 百度在线网络技术(北京)有限公司 语音起点和终点检测方法、装置、计算机设备及存储介质
CN115956359A (zh) 2020-06-30 2023-04-11 吉尼赛斯云服务第二控股有限公司 用于音调和语音分类的累积平均频谱熵分析
CN112612008B (zh) * 2020-12-08 2022-05-17 中国人民解放军陆军工程大学 高速弹丸回波信号的起始参数提取方法及装置
CN113576412B (zh) * 2021-07-27 2022-03-04 上海交通大学医学院附属第九人民医院 一种基于机器学习语音技术的困难气道评估方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040079773A (ko) * 2003-03-10 2004-09-16 한국전자통신연구원 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법
KR100639968B1 (ko) * 2004-11-04 2006-11-01 한국전자통신연구원 음성 인식 장치 및 그 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
US6718302B1 (en) * 1997-10-20 2004-04-06 Sony Corporation Method for utilizing validity constraints in a speech endpoint detector
US6240381B1 (en) * 1998-02-17 2001-05-29 Fonix Corporation Apparatus and methods for detecting onset of a signal
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6983242B1 (en) * 2000-08-21 2006-01-03 Mindspeed Technologies, Inc. Method for robust classification in speech coding
GB2380644A (en) * 2001-06-07 2003-04-09 Canon Kk Speech detection
WO2004111996A1 (ja) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040079773A (ko) * 2003-03-10 2004-09-16 한국전자통신연구원 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법
KR100639968B1 (ko) * 2004-11-04 2006-11-01 한국전자통신연구원 음성 인식 장치 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11893982B2 (en) 2018-10-31 2024-02-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method therefor
US11972752B2 (en) 2022-09-02 2024-04-30 Actionpower Corp. Method for detecting speech segment from audio considering length of speech segment

Also Published As

Publication number Publication date
KR20090030063A (ko) 2009-03-24
US20090076814A1 (en) 2009-03-19

Similar Documents

Publication Publication Date Title
KR100930584B1 (ko) 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
Tan et al. rVAD: An unsupervised segment-based robust voice activity detection method
Dhananjaya et al. Voiced/nonvoiced detection based on robustness of voiced epochs
EP0625774B1 (en) A method and an apparatus for speech detection
Hoyt et al. Detection of human speech in structured noise
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
Evangelopoulos et al. Multiband modulation energy tracking for noisy speech detection
Ghaemmaghami et al. Noise robust voice activity detection using features extracted from the time-domain autocorrelation function
Khoa Noise robust voice activity detection
Archana et al. Gender identification and performance analysis of speech signals
Alonso-Martin et al. Multidomain voice activity detection during human-robot interaction
Costa et al. Speech and phoneme segmentation under noisy environment through spectrogram image analysis
JP4696418B2 (ja) 情報検出装置及び方法
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
Dumpala et al. Robust Vowel Landmark Detection Using Epoch-Based Features.
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
Tu et al. Computational auditory scene analysis based voice activity detection
Tu et al. Towards improving statistical model based voice activity detection
Siafarikas et al. Objective wavelet packet features for speaker verification
Kumari et al. An efficient un-supervised Voice Activity Detector for clean speech
Shrawankar et al. A hybrid method for automatic speech recognition performance improvement in real world noisy environment
Zhang et al. Noisy speech recognition based on robust end-point detection and model adaptation
Aye Speech recognition using Zero-crossing features
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
Ajgou et al. Robust speaker identification system over AWGN channel using improved features extraction and efficient SAD algorithm with prior SNR estimation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151127

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20161121

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20181121

Year of fee payment: 10