KR20120056661A - 음성 신호 전처리 장치 및 방법 - Google Patents

음성 신호 전처리 장치 및 방법 Download PDF

Info

Publication number
KR20120056661A
KR20120056661A KR1020100118310A KR20100118310A KR20120056661A KR 20120056661 A KR20120056661 A KR 20120056661A KR 1020100118310 A KR1020100118310 A KR 1020100118310A KR 20100118310 A KR20100118310 A KR 20100118310A KR 20120056661 A KR20120056661 A KR 20120056661A
Authority
KR
South Korea
Prior art keywords
signal
clipping
voiced sound
speech
section
Prior art date
Application number
KR1020100118310A
Other languages
English (en)
Inventor
강병옥
송화전
정호영
이성주
박전규
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100118310A priority Critical patent/KR20120056661A/ko
Priority to US13/302,480 priority patent/US20120136659A1/en
Publication of KR20120056661A publication Critical patent/KR20120056661A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

모바일 환경에서 비정상적인 크기로 입력되는 음성 신호를 보정 및 보간함으로써, 음성 인식의 성능을 높일 수 있는 음성 신호 전처리 기술이 개시된다. 이를 위해, 본 발명에 따른 음성 신호 전처리 장치는 음성 구간에서 유성음 신호를 포함하는 유성음 구간을 검출하는 유성음 구간 검출부; 유성음 구간 내에서 발생하는 클리핑 신호를 검출하는 전처리 방법 판단부; 및 전처리 방법 판단부가 클리핑 신호를 검출한 경우, 클리핑 신호에 인접한 인접 신호 샘플을 추출하고, 인접 신호 샘플을 이용하여 클리핑 신호를 보간하는 클리핑 신호 처리부를 포함한다.

Description

음성 신호 전처리 장치 및 방법{Apparatus and method for preprocessing of speech signal}
본 발명은 음성 신호 전처리 장치 및 방법에 관한 것이다. 보다 상세하게는, 모바일 환경에서 비정상적인 크기로 입력되는 음성 신호를 보정/보간함으로써, 음성 인식의 성능을 높일 수 있는 음성 신호 전처리 장치 및 방법에 관한 것이다.
모바일 환경에서의 음성 인식은 주변 환경, 음성 인식 기기의 성능의 편차, 사용자의 숙련 정도 등의 이유로, 그 정확도가 저하될 가능성이 크다.
특히, 음성 인식에 있어서, 주변 잡음이 많은 환경에서의 롬바르드 효과, 입력 게인이 크게 설정된 모바일 기기 등의 이유에 의하여, 음성 신호가 비정상적으로 크게 입력되면, 음성 신호에서 클리핑 현상이 일어날 수 있다. 그리고, 음성 신호에서의 클리핑 현상의 발생은 음성 신호의 왜곡을 일으켜, 음성 인식의 성능을 저하시키는 요인이 된다.
반대로 음성 인식에 있어서, 사용자와 음성 인식 기기의 거리가 멀거나, 사용자 개인 특성 등의 이유로 음성 신호가 비정상적으로 작게 입력되면, 음성 인식을 위해 사용되는 신호의 특성 정보가 드러나지 않게 된다. 따라서, 음성 인식 기기에 인식된 음성 신호의 변별력이 떨어지는 문제가 발생할 수 있다.
본 발명의 목적은, 모바일 환경에서 비정상적인 크기로 입력되는 음성 신호를 보간 및 복원하여, 음성 인식의 성능을 높이는 것이다.
그리고, 본 발명은 입력 신호를 유성음 구간과 무성음 구간, 성문 폐쇄 구간과 성문 개방 구간으로 나누고 각각에 대한 음성 전처리를 시행하여, 효율적이고 체계화된 음성 신호 전처리를 가능하게 하는 것을 목적으로 한다.
또한, 본 발명은 디지털 신호처리의 허용범위 내에서 비정상 크기의 음성 신호를 보정하여, 인식되는 음성 신호의 왜곡이 최소화되도록 하는 것을 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명에 따른 음성 인식 전처리 장치는 음성 구간에서 유성음 신호를 포함하는 유성음 구간을 검출하는 유성음 구간 검출부; 상기 유성음 구간 내에서 발생하는 클리핑 신호를 검출하는 전처리 방법 판단부; 및 상기 클리핑 신호에 인접한 인접 신호 샘플을 추출하고, 상기 인접 신호 샘플을 이용하여 상기 클리핑 신호를 보간하는 클리핑 신호 처리부를 포함한다.
이 때, 상기 인접 신호 추출부는 상기 주기 검출부에서 검출된 상기 주기성에 대한 정보를 바탕으로, 상기 클리핑 신호와 같은 주기 구간에 포함된 상기 인접 신호 샘플을 추출할 수 있다.
이 때, 상기 클리핑 신호 처리부는 상기 클리핑 신호에 인접한 상기 인접 신호 샘플을 추출하는 인접 신호 추출부; 상기 인접 신호 샘플 및 선형 추정법을 이용하여 상기 클리핑 신호를 보간하기 위한 추정 파라미터를 산정하는 추정 파라미터 계산부; 및 상기 추정 파라미터를 이용하여 상기 클리핑 신호를 보간하는 클리핑 신호 보간부를 포함할 수 있다.
이 때, 상기 유성음 구간 내에서 상기 음성 신호의 최고점 검출을 통해 상기 음성 신호의 주기성을 검출하는 주기 검출부를 더 포함할 수 있다.
이 때, 상기 전처리 방법 판단부는 상기 유성음 구간 내에서 발생하는, 신호 에너지 값이 기 설정된 임계 에너지 값보다 낮은 에너지 값을 갖는 저에너지 음성 신호를 검출하고, 상기 저에너지 음성 신호를 복원하여, 상기 저에너지 음성 신호의 신호대 잡음비를 개선하는 저에너지 발화 처리부를 더 포함할 수 있다.
이 때, 상기 저에너지 발화 처리부는 상기 주기 검출부에서 검출된 상기 주기성에 대한 정보를 이용하여, 상기 유성음 구간을 성문 폐쇄 구간과 성문 개방 구간으로 구별하여 처리하기 위한 윈도우 함수를 생성하는 윈도우 함수 생성부; 및 상기 윈도우 함수를 이용하여 상기 성문 폐쇄 구간의 음성 에너지는 증가시키고, 상기 성문 개방 구간의 음성 에너지는 감쇄시켜 상기 저에너지 음성 신호를 복원하는 주기 특성 개선부를 포함할 수 있다.
또한, 상기한 목적을 달성하기 위한 본 발명에 따른 음성 인식 전처리 방법은 음성 신호를 포함하고 있는 입력 신호를 입력받는 단계; 상기 입력 신호에서 유성음 신호를 포함하는 유성음 구간을 검출하는 단계; 상기 유성음 구간 내에서 발생하는 클리핑 신호를 검출하는 단계; 및 상기 클리핑 신호에 인접한 인접 신호 샘플을 이용하여 상기 클리핑 신호를 보간하는 단계를 포함한다.
이 때, 상기 유성음 구간 내에서 상기 음성 신호의 최고점 검출을 통해 상기 음성 신호의 주기성을 검출하는 단계를 더 포함할 수 있다.
이 때, 상기 클리핑 신호를 보간하는 단계는, 상기 클리핑 신호에 인접한 상기 인접 신호 샘플을 추출하는 단계; 상기 인접 신호 샘플 및 선형 추정법을 이용하여 상기 클리핑 신호를 보간하기 위한 추정 파라미터를 산정하는 단계; 및 상기 추정 파라미터를 이용하여 상기 클리핑 신호를 보간하는 단계를 포함할 수 있다.
이 때, 상기 인접 신호 샘플을 추출하는 단계는, 상기 주기성에 대한 정보를 바탕으로, 상기 클리핑 신호와 같은 주기 구간에 포함된 상기 인접 신호 샘플을 추출할 수 있다.
이 때, 상기 유성음 구간 내에서, 신호 에너지 값이 기 설정된 임계 에너지 값보다 낮은 에너지 값을 갖는 저에너지 음성 신호가 감지되는지를 판단하는 단계; 및 상기 저에너지 음성 신호를 복원하여, 상기 저에너지 음성 신호의 신호대 잡음비를 개선하는 단계를 더 포함할 수 있다.
이 때, 상기 유성음 구간 내에서 상기 음성 신호의 최고점 검출을 통해 상기 음성 신호의 주기성을 검출하는 단계를 더 포함할 수 있다.
이 때, 상기 저에너지 음성 신호를 복원하는 단계는, 상기 주기성에 대한 정보를 이용하여, 상기 유성음 구간을 성문 폐쇄 구간과 성문 개방 구간으로 구별하여 처리하기 위한 윈도우 함수를 생성하는 단계; 및 상기 윈도우 함수를 이용하여 상기 성문 폐쇄 구간의 음성 에너지는 증가시키고, 상기 성문 개방 구간의 음성 에너지는 감쇄시켜 상기 저에너지 음성 신호를 복원하는 단계를 포함할 수 있다.
본 발명에 따르면, 모바일 환경에서 비정상 크기로 입력되는 음성 신호를 보간 및 복원하여, 음성 인식의 성능을 높일 수 있다. 특히, 본 발명은 음성 신호의 에너지가 커서 클리핑 신호가 발생할 때뿐만이 아니라, 저에너지 발화 즉, 음성 신호의 에너지가 작을 때에도 음성 신호를 효과적으로 전처리 하여, 음성 인식의 성능을 높일 수 있다.
그리고, 본 발명은 입력 신호를 유성음 구간과 무성음 구간, 성문 폐쇄 구간과 성문 개방 구간으로 나누어, 음성 전처리를 시행하여, 효율적이고 체계화된 음성 신호 전처리를 가능하게 한다.
또한, 본 발명은 디지털 신호처리의 허용범위 내에서 비정상 크기의 음성 신호를 보정하여, 인식되는 음성 신호의 왜곡이 최소화 되도록 할 수 있다.
도 1은 본 발명에 따른 음성 인식 전처리 장치의 구성을 나타낸 블록도이다.
도 2는 본 발명에 따른 음성 인식 전처리 방법을 설명하기 위한 동작 흐름도이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
이하에서는 본 발명에 따른 음성 인식 전처리 장치의 구성 및 동작에 대하여 설명하도록 한다.
도 1은 본 발명에 따른 음성 인식 전처리 장치의 구성을 나타낸 블록도이다.
도 1을 참조하면, 본 발명에 따른 음성 인식 전처리 장치(1000)는 프레이밍부(110), 유성음 구간 검출부(120), 전처리 방법 판단부(140) 및 클리핑 신호 처리부(160)를 포함하여 구성된다. 또한, 본 발명에 따른 음성 인식 전처리 장치(1000)는 주기 검출부(130) 및 저에너지 발화 처리부(150)를 더 포함하여 구성될 수 있다.
프레이밍부(110)는 입력 신호를, 음성 신호 전처리를 위한 연속된 기본 시간 단위로 분리한다. 이러한, 프레이밍부(110)는 입력 신호에 대하여 수십 ms 단위 블록으로 쉬프팅하면서 음성 인식 전처리의 기본 단위가 되는 음성 구간을 추출한다.
유성음 구간 검출부(120)는 상기 음성 구간에서 유성음 신호를 포함하는 유성음 구간을 검출한다. 음성 신호는 유성음(Voiced) 구간, 무성음(Unvoiced) 구간 및 묵음/잡음 구간으로 나눌 수 있다. 이 중, 유성음 구간에서는 상대적으로 에너지 값이 큰 음성 신호가 발생된다. 따라서, 유성음 구간에서는 클리핑 신호가 발생할 가능성이 크다. 또한, 유성음 구간에서는 입력 음성 신호의 크기가 작을 경우, 주기성 등 음성 인식을 위한 신호 정보가 상실될 확률이 높다.
주기 검출부(130)는 유성음 구간 내에서 음성 신호의 최고점 검출을 통해 음성 신호의 주기성을 검출한다. 구체적으로, 유성음 구간은 성별 및 개인 성향에 따라 차이가 있는 기본 주파수(Fundamental frequency)를 갖는 몇 개의 주기성 구간을 포함하게 된다. 이러한, 기본 주파수가 갖는 주기성 구간을 주기 검출부(130)가 검출하게 된다. 주기 검출부(130)에 의하여 검출된 주기성의 정보는 이후의 클리핑 신호의 보간과 저에너지 음성 신호의 복원에 이용될 수 있다.
전처리 방법 판단부(140)는 유성음 구간 내에서 발생하는, 저에너지 음성 신호를 검출한다. 이 때, 저에너지 음성 신호는 신호 에너지 값이 기 설정된 임계 에너지 값보다 낮은 에너지 값을 갖는 음성 신호를 말한다. 전처리 방법 판단부(140)는 유성음 구간 내에서 저에너지 음성 신호를 검출한 경우, 이후의 저에너지 발화 처리부(150)가 동작하도록 할 수 있다. 또한, 전처리 방법 판단부(140)는 유성음 구간 내에서 발생하는 클리핑 신호를 검출한다. 이 때, 클리핑 신호는 음성 신호에 있어서, 몇 개의 연속된 신호의 샘플의 고유 값이 상실되어, 고정된 일정한 값을 갖는 부분에 해당한다. 전처리 방법 판단부(140)는 유성음 구간 내에서 클리핑 신호를 검출한 경우, 이후의 클리핑 신호 처리부(160)가 동작하도록 할 수 있다.
저에너지 발화 처리부(150)는 저에너지 음성 신호를 복원하여, 저에너지 음성 신호의 신호대 잡음비(SNR)를 개선한다. 이러한, 저에너지 발화 처리부(150)는 윈도우 함수 생성부(151) 및 주기 특성 개선부(152)를 포함하여 구성될 수 있다.
윈도우 함수 생성부(151)는 유성음 구간을 성문 폐쇄 구간과 성문 개방 구간으로 구별하여 처리하기 위한 윈도우 함수를 생성한다. 그리고, 윈도우 함수 생성부(151)는 주기 검출부(130)에서 검출된 음성 신호의 주기성에 대한 정보를 이용하여 윈도우 함수를 생성할 수 있다.
주기 특성 개선부(152)는 윈도우 함수를 이용하여 성문 폐쇄 구간의 음성 에너지는 증가시키고, 성문 개방 구간의 음성 에너지는 감쇄시켜 저에너지 음성 신호를 복원한다.
유성음 신호는 성문 폐쇄(Closed glottis) 구간에서 최고치의 에너지를 갖는다. 그리고, 유성음 신호는 성문 개방(Open glottis) 구간에서 에너지가 급격히 감쇄한다. 즉, 유성음 구간에서 음성 신호는 기본 주파수를 주기로 성문 폐쇄 구간 및 성문 개방 구간이 반복적으로 나타나게 된다. 저에너지 발화 즉, 저에너지 음성 신호가 발생하였을 때는, 음성 신호의 주기성 정보가 상당 부분 상실된다. 특히, 잡음 환경에서의 저에너지 음성 신호는 무성음 구간에서와 같은 평탄한 신호의 형태를 갖게 된다. 반면, 잡음 성분의 에너지는 짧은 구간에 대해서 거의 동일한 에너지를 갖는다. 따라서, 성문 폐쇄 구간의 음성 에너지는 증가시키고, 성문 개방 구간의 음성 에너지는 감쇄시켜 줌으로써, 유성음 구간의 음성 신호의 주기성을 명확히 할 수 있다. 또한, 음성 신호의 신호대 잡음비(SNR)를 개선할 수 있다.
클리핑 신호 처리부(160)는 클리핑 신호에 인접한 인접 신호 샘플을 추출하고, 인접 신호 샘플을 이용하여 상기 클리핑 신호를 보간한다. 유성음 음성 구간의 반주기성 신호 특성을 이용하여, 클리핑 신호 처리부(160)는 유성음 음성 구간에서 선형 추정법(Linear prediction)으로 클리핑 신호를 보간한다. 이러한, 클리핑 신호 처리부(160)는 인접 신호 추출부(161), 추정 파라미터 계산부(162) 및 클리핑 신호 보간부(163)를 포함하여 구성될 수 있다.
인접 신호 추출부(161)는 클리핑 신호에 인접한 인접 신호 샘플을 추출한다. 즉, 인접 신호 추출부(161)는 주기 검출부(130)에서 검출된 주기성에 대한 정보를 바탕으로, 클리핑 신호와 같은 주기 구간에 포함된 인접 신호 샘플을 추출한다.
추정 파라미터 계산부(162)는 인접 신호 샘플을 이용하여 클리핑 신호를 보간하기 위한 추정 파라미터를 산정한다. 즉, 추정 파라미터 계산부(162)는 인접 신호 샘플을 입력으로 선형 관계식을 구성하고, 최소 자승 계산법(Least square algorithm) 등을 통해 추정 파라미터(αi)를 산정한다.
클리핑 신호 보간부(163)는 추정 파라미터를 이용하여 클리핑 신호를 보간한다. 즉, 클리핑 신호 보간부(163)는 추정 파라미터 계산부(162)를 통해 산정된 추정 파라미터(αi)를 이용하여 클리핑 신호를 보간한다.
클리핑 신호 처리부(160)에 의한 클리핑 신호의 구체적인 보간 방법은 다음과 같다. 먼저, 인접 신호 추출부(161)는, 클리핑 신호와 같은 주기 구간에 포함되며 클리핑 신호에 인접한 N-p 개의 인접 신호 샘플을 추출한다. 그리고, 추정 파라미터 계산부(162)는 인접 신호 추출부(161)에서 얻어진 인접 신호 샘플을 입력으로 다음의 수학식 1과 같은 선형 관계식을 구한다. 그리고, 추정 파라미터 계산부(162)는 최소자승 계산법을 통해 추정 파라미터(αi)를 구한다.
Figure pat00001
그리고, 클리핑 신호 보간부(163)는 다음의 수학식 2를 통해 클리핑이 발생한 신호 샘플을 보간한다.
Figure pat00002
이하에서는 본 발명에 따른 음성 인식 전처리 방법에 대하여 설명하도록 한다.
도 2는 본 발명에 따른 음성 인식 전처리 방법을 설명하기 위한 동작 흐름도이다.
도 2를 참조하면, 본 발명에 따른 음성 인식 전처리 방법은 먼저, 음성 신호를 포함하고 있는 입력 신호를 입력 받는다(S201).
그리고, 단계 (S201)를 통해 입력 받은 입력 신호를 음성 신호 전처리를 위한 연속된 기본 시간 단위로 분리하고, 분리된 입력 신호에서 유성음 신호를 포함하는 유성음 구간을 검출한다(S202).
또한, 단계(S202)를 통해 추출된 유성음 구간 내에서, 음성 신호의 최고점 검출을 통해 음성 신호의 주기성을 검출한다(S203).
그리고, 유성음 구간 내에서, 저에너지 발화 즉, 저에너지 음성 신호가 발생하였는지 판단한다(S204). 이 때, 저에너지 음성 신호는 신호 에너지 값이 기 설정된 임계 에너지 값보다 낮은 에너지 값을 갖는 음성 신호를 말한다.
단계(S204)의 판단 결과, 저에너지 음성 신호가 발생한 것으로 판단되는 경우, 유성음 구간을 성문 폐쇄 구간과 성문 개방 구간으로 구별하여 처리하기 위한 윈도우 함수를 생성한다(S205). 이 때, 윈도우 함수는 음성 신호의 주기성에 대한 정보를 이용하여 생성될 수 있다. 그리고, 단계(S205)를 통해 생성된 윈도우 함수를 이용하여, 성문 폐쇄 구간의 음성 에너지는 증가시키고, 성문 개방 구간의 음성 에너지는 감쇄시켜 저에너지 음성 신호를 복원한다(S206). 단계(S205) 및 단계(S206)를 통해, 복원된 음성 신호 즉, 전처리된 음성 신호는 외부로 출력된다(S207).
단계(S204)의 판단 결과, 저에너지 음성 신호가 발생하지 않은 것으로 판단되는 경우, 유성음 구간 내에서, 클리핑 신호가 검출되는 지를 판단한다(S208).
단계(S208)의 판단 결과, 클리핑 신호가 검출된 것으로 판단되는 경우, 클리핑 신호에 인접한 인접 신호 샘플을 추출한다(S209). 이 때, 음성 신호의 주기성에 대한 정보를 바탕으로, 클리핑 신호와 같은 주기 구간에 포함된 인접 신호 샘플이 추출될 수 있다. 그리고, 인접 신호 샘플을 이용하여 클리핑 신호를 보간하기 위한 추정 파라미터를 산정한다(S210). 이러한, 추정 파라미터를 이용하여 클리핑 신호를 보간한다(S211). 단계(S209), 단계(S210) 및 단계(S211)를 통해, 보간된 음성 신호 즉, 전처리된 음성 신호는 외부로 출력된다(S207).
단계(S208)의 판단 결과, 클리핑 신호가 검출되지 않은 것으로 판단되는 경우, 음성 신호는 입력된 신호 그대로 출력된다(S207).
그리고, 전처리된 음성 신호를 출력한 후, 음성 신호의 입력이 계속되는지, 혹은 종료 되었는지를 판단한다(S212). 음성 신호의 입력이 계속된다면, 단계(S202)로 돌아가 음성 신호에 대한 전처리를 반복하게 된다. 그리고, 음성 신호의 입력이 종료되었다고 판단된다면, 전체적인 음성 신호 전처리 방법의 단계를 종료하게 된다.
이상에서와 같이 본 발명에 따른 음성 인식 전처리 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
1000; 음성 인식 전처리 장치
110; 프레이밍부
120; 유성음 구간 검출부
130; 주기 검출부
140; 전처리 방법 판단부
150; 저에너지 발화 처리부
160; 클리핑 신호 처리부

Claims (14)

  1. 음성 구간에서 유성음 신호를 포함하는 유성음 구간을 검출하는 유성음 구간 검출부;
    상기 유성음 구간 내에서 발생하는 클리핑 신호를 검출하는 전처리 방법 판단부; 및
    상기 클리핑 신호에 인접한 인접 신호 샘플을 추출하고, 상기 인접 신호 샘플을 이용하여 상기 클리핑 신호를 보간하는 클리핑 신호 처리부를 포함하는 것을 특징으로 하는 음성 인식 전처리 장치.
  2. 청구항 1에 있어서,
    상기 클리핑 신호 처리부는
    상기 클리핑 신호에 인접한 상기 인접 신호 샘플을 추출하는 인접 신호 추출부;
    상기 인접 신호 샘플 및 선형 추정법을 이용하여 상기 클리핑 신호를 보간하기 위한 추정 파라미터를 산정하는 추정 파라미터 계산부; 및
    상기 추정 파라미터를 이용하여 상기 클리핑 신호를 보간하는 클리핑 신호 보간부를 포함하는 것을 특징으로 하는 음성 인식 전처리 장치.
  3. 청구항 2에 있어서,
    상기 유성음 구간 내에서 상기 음성 신호의 최고점 검출을 통해 상기 음성 신호의 주기성을 검출하는 주기 검출부를 더 포함하는 것을 특징으로 하는 음성 인식 전처리 장치.
  4. 청구항 3에 있어서,
    상기 인접 신호 추출부는 상기 주기 검출부에서 검출된 상기 주기성에 대한 정보를 바탕으로, 상기 클리핑 신호와 같은 주기 구간에 포함된 상기 인접 신호 샘플을 추출하는 것을 특징으로 하는 음성 인식 전처리 장치.
  5. 청구항 1에 있어서,
    상기 전처리 방법 판단부는 상기 유성음 구간 내에서 발생하는, 신호 에너지 값이 기 설정된 임계 에너지 값보다 낮은 에너지 값을 갖는 저에너지 음성 신호를 검출하고,
    상기 저에너지 음성 신호를 복원하여, 상기 저에너지 음성 신호의 신호대 잡음비를 개선하는 저에너지 발화 처리부를 더 포함하는 것을 특징으로 하는 음성 인식 전처리 장치.
  6. 청구항 5에 있어서,
    상기 유성음 구간 내에서 상기 음성 신호의 최고점 검출을 통해 상기 음성 신호의 주기성을 검출하는 주기 검출부를 더 포함하는 것을 특징으로 하는 음성 인식 전처리 장치.
  7. 청구항 6에 있어서,
    상기 저에너지 발화 처리부는
    상기 주기 검출부에서 검출된 상기 주기성에 대한 정보를 이용하여, 상기 유성음 구간을 성문 폐쇄 구간과 성문 개방 구간으로 구별하여 처리하기 위한 윈도우 함수를 생성하는 윈도우 함수 생성부; 및
    상기 윈도우 함수를 이용하여 상기 성문 폐쇄 구간의 음성 에너지는 증가시키고, 상기 성문 개방 구간의 음성 에너지는 감쇄시켜 상기 저에너지 음성 신호를 복원하는 주기 특성 개선부를 포함하는 것을 특징으로 하는 음성 인식 전처리 장치.
  8. 음성 신호를 포함하고 있는 입력 신호를 입력받는 단계;
    상기 입력 신호에서 유성음 신호를 포함하는 유성음 구간을 검출하는 단계;
    상기 유성음 구간 내에서 발생하는 클리핑 신호를 검출하는 단계; 및
    상기 클리핑 신호에 인접한 인접 신호 샘플을 이용하여 상기 클리핑 신호를 보간하는 단계를 포함하는 것을 특징으로 하는 음성 인식 전처리 방법.
  9. 청구항 8에 있어서
    상기 클리핑 신호를 보간하는 단계는,
    상기 클리핑 신호에 인접한 상기 인접 신호 샘플을 추출하는 단계;
    상기 인접 신호 샘플 및 선형 추정법을 이용하여 상기 클리핑 신호를 보간하기 위한 추정 파라미터를 산정하는 단계; 및
    상기 추정 파라미터를 이용하여 상기 클리핑 신호를 보간하는 단계를 포함하는 것을 특징으로 하는 음성 인식 전처리 방법.
  10. 청구항 9에 있어서,
    상기 유성음 구간 내에서 상기 음성 신호의 최고점 검출을 통해 상기 음성 신호의 주기성을 검출하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 전처리 방법.
  11. 청구항 10에 있어서,
    상기 인접 신호 샘플을 추출하는 단계는,
    상기 주기성에 대한 정보를 바탕으로, 상기 클리핑 신호와 같은 주기 구간에 포함된 상기 인접 신호 샘플을 추출하는 것을 특징으로 하는 음성 인식 전처리 방법.
  12. 청구항 8에 있어서,
    상기 유성음 구간 내에서, 신호 에너지 값이 기 설정된 임계 에너지 값보다 낮은 에너지 값을 갖는 저에너지 음성 신호가 감지되는지를 판단하는 단계; 및
    상기 저에너지 음성 신호를 복원하여, 상기 저에너지 음성 신호의 신호대 잡음비를 개선하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 전처리 방법.
  13. 청구항 12에 있어서,
    상기 유성음 구간 내에서 상기 음성 신호의 최고점 검출을 통해 상기 음성 신호의 주기성을 검출하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 전처리 방법.
  14. 청구항 13에 있어서,
    상기 저에너지 음성 신호를 복원하는 단계는,
    상기 주기성에 대한 정보를 이용하여, 상기 유성음 구간을 성문 폐쇄 구간과 성문 개방 구간으로 구별하여 처리하기 위한 윈도우 함수를 생성하는 단계; 및
    상기 윈도우 함수를 이용하여 상기 성문 폐쇄 구간의 음성 에너지는 증가시키고, 상기 성문 개방 구간의 음성 에너지는 감쇄시켜 상기 저에너지 음성 신호를 복원하는 단계를 포함하는 것을 특징으로 하는 음성 인식 전처리 방법.
KR1020100118310A 2010-11-25 2010-11-25 음성 신호 전처리 장치 및 방법 KR20120056661A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100118310A KR20120056661A (ko) 2010-11-25 2010-11-25 음성 신호 전처리 장치 및 방법
US13/302,480 US20120136659A1 (en) 2010-11-25 2011-11-22 Apparatus and method for preprocessing speech signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100118310A KR20120056661A (ko) 2010-11-25 2010-11-25 음성 신호 전처리 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20120056661A true KR20120056661A (ko) 2012-06-04

Family

ID=46127221

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100118310A KR20120056661A (ko) 2010-11-25 2010-11-25 음성 신호 전처리 장치 및 방법

Country Status (2)

Country Link
US (1) US20120136659A1 (ko)
KR (1) KR20120056661A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626956B2 (en) 2014-09-26 2017-04-18 Samsung Electronics Co., Ltd. Method and device for preprocessing speech signal

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140147587A (ko) * 2013-06-20 2014-12-30 한국전자통신연구원 Wfst를 이용한 음성 끝점 검출 장치 및 방법
US10346125B2 (en) 2015-08-18 2019-07-09 International Business Machines Corporation Detection of clipping event in audio signals
US9679578B1 (en) * 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
CN112259121A (zh) * 2020-10-26 2021-01-22 西安讯飞超脑信息科技有限公司 削波语音信号处理方法、系统、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3420955A (en) * 1965-11-19 1969-01-07 Bell Telephone Labor Inc Automatic peak selector
EP0533257B1 (en) * 1991-09-20 1995-06-28 Koninklijke Philips Electronics N.V. Human speech processing apparatus for detecting instants of glottal closure
US6360203B1 (en) * 1999-05-24 2002-03-19 Db Systems, Inc. System and method for dynamic voice-discriminating noise filtering in aircraft
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US7457757B1 (en) * 2002-05-30 2008-11-25 Plantronics, Inc. Intelligibility control for speech communications systems
US8571853B2 (en) * 2007-02-11 2013-10-29 Nice Systems Ltd. Method and system for laughter detection
CN101542593B (zh) * 2007-03-12 2013-04-17 富士通株式会社 语音波形内插装置及方法
US8126578B2 (en) * 2007-09-26 2012-02-28 University Of Washington Clipped-waveform repair in acoustic signals using generalized linear prediction

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626956B2 (en) 2014-09-26 2017-04-18 Samsung Electronics Co., Ltd. Method and device for preprocessing speech signal

Also Published As

Publication number Publication date
US20120136659A1 (en) 2012-05-31

Similar Documents

Publication Publication Date Title
Sadjadi et al. Unsupervised speech activity detection using voicing measures and perceptual spectral flux
KR101729634B1 (ko) 키보드 타이핑 탐지 및 억제
KR100713366B1 (ko) 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
EP2643981B1 (en) A device comprising a plurality of audio sensors and a method of operating the same
Janicki Spoofing countermeasure based on analysis of linear prediction error.
JP2008534989A (ja) 音声アクティビティ検出装置および方法
KR100800873B1 (ko) 음성 신호 검출 시스템 및 방법
KR20070099372A (ko) 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
KR20120056661A (ko) 음성 신호 전처리 장치 및 방법
Khaldi et al. Voiced/unvoiced speech classification‐based adaptive filtering of decomposed empirical modes for speech enhancement
Upadhyay et al. An improved multi-band spectral subtraction algorithm for enhancing speech in various noise environments
Zhang et al. A novel fast nonstationary noise tracking approach based on MMSE spectral power estimator
KR20150032390A (ko) 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
Yegnanarayana et al. Study of robustness of zero frequency resonator method for extraction of fundamental frequency
Evans et al. Anti-spoofing, Voice Conversion.
US20060178881A1 (en) Method and apparatus for detecting voice region
US20220301582A1 (en) Method and apparatus for determining speech presence probability and electronic device
Jebara A perceptual approach to reduce musical noise phenomenon with wiener denoising technique
Górriz et al. Generalized LRT-based voice activity detector
Oukherfellah et al. FPGA implementation of voice activity detector for efficient speech enhancement
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Deng et al. Likelihood ratio sign test for voice activity detection
Zhang et al. An advanced entropy-based feature with a frame-level vocal effort likelihood space modeling for distant whisper-island detection
Cooper Speech detection using gammatone features and one-class support vector machine
Yong et al. Performance comparison of new endpoint detection method in noise environments

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid