KR20060091591A - 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치 - Google Patents

음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치 Download PDF

Info

Publication number
KR20060091591A
KR20060091591A KR1020050012821A KR20050012821A KR20060091591A KR 20060091591 A KR20060091591 A KR 20060091591A KR 1020050012821 A KR1020050012821 A KR 1020050012821A KR 20050012821 A KR20050012821 A KR 20050012821A KR 20060091591 A KR20060091591 A KR 20060091591A
Authority
KR
South Korea
Prior art keywords
signal
unit
voice signal
formant
emphasis
Prior art date
Application number
KR1020050012821A
Other languages
English (en)
Inventor
오광철
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050012821A priority Critical patent/KR20060091591A/ko
Publication of KR20060091591A publication Critical patent/KR20060091591A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치에 관한 것으로서, 더욱 상세하게는 입력된 음성 신호에서 잡음을 제거하고, 포만트 엠퍼시스(Formant Emphasis)를 수행하여 음성 신호의 진폭값을 증가시킴으로써, 음성 신호에 대한 정확한 특징 벡터를 얻을 수 있는 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치에 관한 것이다.
본 발명의 일 실시예에 따른 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법은, 입력되는 음성 신호에서 잡음을 제거하는 단계와, 상기 잡음이 제거된 음성 신호에 프리 엠퍼시스를 수행하고, 상기 프리 엠퍼시스된 신호를 프레임 단위로 분할하는 단계와, 상기 프레임 단위로 분할된 신호에 대하여 포만트 엠퍼시스를 수행하는 단계와, 상기 포만트 엠퍼시스를 수행한 신호를 주파수 영역의 신호로 변환하는 단계를 포함한다.
음성신호, 잡음 제거, 포만트 엠퍼시스, LPC 계수

Description

음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치{Method and apparatus for extracting feature of speech signal by emphasizing speech signal}
도 1은 본 발명의 일 실시예에 따른 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 장치의 블록도.
도 2는 본 발명의 다른 실시예에 따른 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법의 순서도.
도 3은 발명의 또 다른 실시예에 따른 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 장치에서 포만트 엠퍼시스부를 통해 진폭값이 크게 증가된 주파수 신호의 스펙트럼을 나타낸 도면.
도 4는 본 발명에 따른 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법을 통한 음성 인식률과 종래의 음성 인식률을 비교한 실험 결과를 나타낸 그래프.
<도면의 주요 부분에 관한 부호의 설명>
100 : 음성신호 특징 추출 장치
110 : 잡음 제거부 120 : 프리 엠퍼시스부
130 : 프레임 분할부 140 : 포만트 엠퍼시스부
150 : 윈도우 적용부 160 : 푸리에 변환부
170 : 멜-스케일 필터링부 180 : 역 푸리에 변환부
본 발명은 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치에 관한 것으로서, 더욱 상세하게는 입력된 음성 신호에서 잡음을 제거하고, 포만트 엠퍼시스(Formant Emphasis)를 수행하여 음성 신호의 진폭값을 증가시킴으로써, 음성 신호에 대한 정확한 특징 벡터를 얻을 수 있는 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치에 관한 것이다.
음성인식이란 '음성에 포함된 음향학적 정보로부터 음운, 언어적 정보를 추출하여 이를 기계가 인지하고 반응하게 만드는 일련의 과정'이라고 정의될 수 있다. 음성으로 대화하는 것은 수많은 인간과 기계의 정보 교환 매체 중 가장 자연스럽고 간편한 방법으로 인식되고 있다. 하지만 인간과 기계와의 관계에서 이용하려면 기계가 알아듣는 코드로 변환을 해줘야 하는 제약이 따르게 된다. 이런 코드로 변환해주는 과정이 바로 음성 인식이다.
이와 같은 음성 인식 기술이 적용된 음성 인식기를 내장한 기기들, 예를 들어, 컴퓨터, PDA, 가전 기기 등에 대해서는, 별도의 입력 장치를 사용할 필요 없이 인간의 음성에 의하여 명령을 전달할 수가 있다.
그러나, 아직까지 음성 인식률이 낮다는 문제점이 있으며, 이에 보다 정확한 음성 인식을 위한 기술의 개발이 필요하다.
일본공개특허 평8-272394(음성 부호화 장치)는 잡음이 많은 열악한 환경하에 있어도 양호한 음성을 얻기 위한 것으로, 음성프리필터, 포만트 강조수단, 및 게인제어수단을 구비하고, 입력된 신호는 음성과 잡음신호로 분할되고, 포만트 강조수단에 의해 역양자화된 LPC 계수를 사용하여 서브 프레임마다 포만트가 강조된 후, 음성/잡음 판정결과에 따라 청각가중필터에 공급되는 장치를 개시하고 있으나, 이는 음성 코덱에 관한 포먼트 강조법으로 재생 음질이 중요하기 때문에 재생 음을 처리하는 부가적인 처리수단을 필요로 한다는 문제점이 있다.
본 발명은 입력된 음성 신호에 잡음을 제거하고, 포만트 엠퍼시스를 수행하여 음성 신호의 진폭값을 증가시킴으로써, 음성 신호에 대한 정확한 특징 벡터를 얻어 음성 인식률 높이는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해되어질 수 있을 것이다.
상기 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법은, 입력되는 음성 신호에서 잡음을 제거하는 단계와, 상기 잡음이 제거된 음성 신호에 프리 엠퍼시스를 수행하고, 상기 프리 엠퍼시스된 신호를 프레임 단위로 분할하는 단계와, 상기 프레임 단위로 분할 된 신호에 대하여 포만트 엠퍼시스를 수행하는 단계와, 상기 포만트 엠퍼시스를 수행한 신호를 주파수 영역의 신호로 변환하는 단계를 포함한다.
또한, 본 발명의 다른 실시예에 따른 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 장치는, 입력되는 음성 신호에서 잡음을 제거하는 잡음 제거부와, 상기 잡음이 제거된 음성 신호에 프리 엠퍼시스를 수행하는 프리 엠퍼시스부와, 상기 프리 엠퍼시스를 수행한 신호를 소정의 프레임 단위로 분할하는 프레임 분할부와, 상기 프레임 단위로 분할된 신호에 대하여 포만트 엠퍼시스를 수행하는 포만트 엠퍼시스부와, 상기 포만트 엠퍼시스를 수행한 신호를 주파수 영역의 신호로 변환하는 푸리에 변환부와, 상기 주파수 영역의 신호로 변환된 신호를 대수압축을 한 후, 시간 영역 신호로 변환하는 역 푸리에 변환부를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하 기로 한다.
도 1은 본 발명의 일 실시예에 따른 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 장치의 블록도이다.
도시된 바와 같이, 음성 신호 특징 추출 장치(100)는 잡음 제거부(110), 프리 엠퍼시스부(Pre-Emphasis)(110), 프레임 분할부(130), 포만트 엠퍼시스부(Formant Emphasis)(140), 윈도우 적용부(Windowing)(150), 푸리에 변환부(160), 멜-스케일 필터링부(170), 및 역 푸리에 변환부(180)를 포함하여 구성된다.
잡음 제거부(110)는 입력되는 음성 신호에서 잡음 신호를 제거한다. 여기서, 잡음 신호를 제거하는 이유는 포만트 엠퍼시스 수행 시 잡음이 제거된 신호에서 포만트 정보를 보다 정확하게 찾을 수 있으므로 쉽게 포만트가 강조되기 때문이다. 그리고, 음성 신호에 포함된 잡음 신호를 제거하는 방법은 ETSI(European Telecommunication Standards Institute)) 표준에서 정의하는 잡음 제거 방법 등 잡음이 제거된 신호를 재생하는 방법이면 어떤 방법이든 상관없다.
프리 엠퍼시스부(120)는 잡음 제거부(110)를 통해 잡음이 제거된 음성 신호에 프리 엠퍼시스(Pre-Emphasis)를 수행한다. 여기서, 프리 엠퍼시스를 수행하는 이유는 잡음 신호가 제거된 신호에서 고주파 성분을 강화시켜 자음성분을 강화하기 위함이다.
예를 들어, 음성신호를 s(n)이라 하고, s(n)을 복수의 프레임으로 나눌 때 m번째 프레임의 신호를 d(m,n)이라 하면, d(m,n)과 프리 엠퍼시스 되어 이전 프레임의 뒷부분과 오버랩(overlap)되는 신호 d(m,D+n)는 각각 다음 식과 같이 나타낼 수 있다.
Figure 112005008182356-PAT00001
여기서, D는 이전 프레임과 오버랩되는 길이이고, L은 한 프레임의 길이이다. ζ는 프리 엠퍼시스에 사용되는 상수값이다.
프레임 분할부(130)는 프리 엠퍼시스부(120)에서 프리 엠퍼시스를 수행한 음성 신호를 소정의 프레임 단위로 분할한다. 여기서, 프레임은 임의의 시간 단위(예를 들어, 25밀리초(msec)) 동안의 음원을 소정 개수의 신호 샘플 블록(예를 들어, 256개)들로 표현한 것으로, 각종 변환, 압축 등의 데이터 처리의 단위가 된다.
포만트 엠퍼시스부(140)는 프레임 분할부(130)로부터 프레임 단위로 분할된 신호에 대하여 포만트 엠퍼시스(Formant Emphasis)를 수행한다. 여기서, 포만트는 스펙트럼 인자중 주변의 다른 주파수에 비하여 진폭값이 크게 증가되어 있는 주파수 성분으로서, 즉 스펙트럼의 피크 주파수를 말한다.
또한, 포만트 엠퍼시스부(140)는 LPC(Line Predictive Coding) 계수 계산모듈(도시되지 않음) 및 필터링 모듈(도시되지 않음)을 포함한다.
LPC 계수 계산 모듈은 잡음이 제거된 신호에 대한 LPC 계수를 구한다. 여기서, LPC 계수를 구하는 방법 중에서 적은 계산량으로 우수한 성능을 나타내는 Durbin's algorithm이 가장 널리 사용되고 있다. Durbin's algorithm은 자기상관함 수(autocorrelation)를 이용한다.
상기 자기상관함수는 어떤 시간에서의 신호값과 다른 시간에서의 신호값과의 상관성을 나타내는 것으로, 자기상관함수
Figure 112005008182356-PAT00002
는 시간 t에서의 신호값 x(t)와 만큼의 시간지연이 있을 때 즉, 시간
Figure 112005008182356-PAT00003
에서의 신호값
Figure 112005008182356-PAT00004
의 곱에 대한 평균(Average)으로 다음의 [수학식 2]와 같이 정의된다.
Figure 112005008182356-PAT00005
한편, 필터링 모듈은 LPC 계수 계산모듈로부터 구해진 LPC 계수를 이용하여 입력된 신호(프리 엠퍼시스가 수행된 잡음이 제거된 신호)에 대한 필터링을 수행한다. 여기서, 필터링을 수행하는 식은 다음의 [수학식3]과 같이 정의된다.
Figure 112005008182356-PAT00006
여기서,
Figure 112005008182356-PAT00007
은 LPC 계수이고,
Figure 112005008182356-PAT00008
는 과거의 output 값이며, n, m은 시간에 대한 계수를 나타낸다.
윈도우 적용부(150)는 포만트 엠퍼시스부(140)를 통해 포만트 엠퍼시스된 신호에 대하여 소정의 윈도우(예를 들어, Hamming window)를 적용한다.
푸리에 변환부(160)는 윈도우가 적용된 신호를 주파수 영역의 신호로 변환한다. 여기서 푸리에 변환부(160)는 푸리에 변환의 일종으로써 고속 푸리에 변환(Fast Fourier Transform; 이하, FFT라 함)을 이용한다.
즉, 입력신호 y(n)은 다음의 [수학식 4]과 같은 FFT 변환식에 의하여 주파수 영역의 신호 Yk(t)로 변환된다. 여기서, t는 프레임의 번호를 나타내고, k는 주파수 번호를 나타내는 인덱스를 의미한다.
Figure 112005008182356-PAT00009
여기서, Yk(t)는 입력 신호의 t번째 프레임의 k번째 주파수 스펙트럼을 의미한다. 그러나, 실제 연산은 채널 별로 이루어지므로 Yk(t)를 직접 사용하는 것이 아니라, t번째 프레임의 i번째 채널에 대한 신호의 스펙트럼 Gi(t)을 이용한다. 여기서, Gi(t)는 i번째 채널에 속하는 주파수 스펙트럼의 평균을 의미하며, 이에 하나의 프레임 내에서 채널당 하나의 채널 샘플이 생성되는 것이다.
따라서, 포만트 엠퍼시스부(140)는 포만트 엠퍼시스 과정을 통해 입력된 음성 신호에 대한 포만트를 강조함으로써, 보다 정확한 특징 벡터를 추출하며 이에 음성 인식율을 높일 수 있다.
멜-스케일 필터링부(170)는 푸리에 변환부(160)에서 변환한 주파수 영역의 신호를 인간의 청각특성에 따라 저주파 영역은 세분하게 고주파 영역은 넓게 스무 딩(Smoothing)하는 필터링을 수행한다. 즉, 하나의 프레임 내에서 특정 주파수에 대한 신호 스펙트럼 Yk(t)를 멜-스케일 필터링을 통하여 특징을 보다 잘 나타낼 수 있는 차원 공간으로 변환한다. 이러한 멜-스케일 필터링은 다음의 [수학식 5]를 통해 수행된다. 여기서, c(j, k)는 필터링 계수를 의미한다.
Figure 112005008182356-PAT00010
역 푸리에 변환부(180)는 푸리에 변환부(160)에서 변환한 주파수 영역의 신호를 대수압축(Logarithmic Compression)한 후 시간 영역의 신호로 변환시켜 특징벡터를 얻게 한다. 여기서, 역 푸리에 변환(Inverse Fast Fourier Transform; 이하, IFFT라 함)의 입력신호 y(n)은 다음의 [수학식 6]과 같은 IFFT 식에 의하여 시간 영역의 신호로 변환된다.
Figure 112005008182356-PAT00011
여기서,
Figure 112005008182356-PAT00012
는 멜-스케일 필터링부(170)에서 필터링된 신호에 대수압축한 값이다. 역 필터링은 계산량을 줄이기 위해IFFT 대신 DCT(Discrete Cosine Transform)로 구현할 수 있다.
따라서, 상기와 같은 과정(예를 들어, 음성 신호의 잡음 제거, 프리 엠퍼시 스 수행, 프레임 분할, 포만트 엠퍼시스 수행, 윈도우 적용, 푸리에 변환, 멜-스케일 필터링, 및 역 푸리에 변환)을 수행하여 얻어진 특징 벡터를 통해 보다 높은 음성 인식률을 얻을 수 있다.
도 2는 본 발명의 다른 실시예에 따른 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법의 순서도이다.
먼저, 잡음 제거부(110)에서 입력되는 음성 신호에서 잡음 신호를 제거한다(S100). 여기서, 잡음 신호를 제거하는 방법은 ETSI(European Telecommunication Standards Institute)) 표준에서 정의하는 잡음 제거 방법 등 잡음이 제거된 신호를 재생하는 방법이면 어떤 방법이든 상관없다.
그 다음, 프리 엠퍼시스부(120)에서 잡음이 제거된 신호에 프리 엠퍼시스(Pre-Emphasis)를 수행한다. 여기서, 프리 엠퍼시스를 수행하는 과정은 상기 [수학식1]에서 설명하였으므로 이에 자세한 설명은 생략한다.
그 다음, 프레임 분할부(130)에서 프리 엠퍼시스된 신호를 소정의 프레임 단위로 분할한다(S120). 여기서, 프레임은 임의의 시간 단위(예를 들어, 25밀리초(msec)) 동안의 음원을 소정 개수의 블록(block)으로 묶은 것으로 이해될 수 있다.
그 다음, 포만트 엠퍼시스부(140)는 프레임 단위로 분할된 신호에 대하여 포만트 엠퍼시스(Formant Emphasis)를 수행한다(S130). 여기서, 포만트 엠퍼시스 과정은 프레임 단위로 분할된 신호에 대한 LPC 계수를 구하고, 상기 구해진 LPC 계수를 이용하여 입력된 신호에 대한 필터링을 수행하는 과정을 포함한다. 여기서, LPC 계수 및 필터링을 수행하는 과정은 상기 [수학식2] 및 [수학식 3]에서 설명하였으 므로 이에 자세한 설명은 생략한다.
그 다음, 윈도우 적용부(150)는 포만트 엠퍼시스된 신호에 대하여 소정의 윈도우(예를 들어, Hamming window)를 적용하고, 이 후 푸리에 변환부(160)는 윈도우가 적용된 신호를 주파수 영역의 신호로 변환한다(S140). 여기서, 주파수 영역의 신호로 변환하는 방법은 푸리에 변환의 일종으로써 FFT를 이용하며, 상기 FFT를 수행하는 과정은 상기 [수학식4]에서 설명하였으므로 이에 자세한 설명은 생략한다.
그 다음, 멜-스케일 필터링부(170)는 푸리에 변환부(160)에서 변환한 주파수 영역의 신호에 인간의 청각특성에 따라 저주파 영역은 세분하게 고주파 영역은 넓게 스무딩(Smoothing)하는 필터링을 수행하여 하나의 프레임 내에서 특정 채널에 대한 신호 스펙트럼의 특징을 보다 잘 나타낼 수 있는 차원 공간으로 변환한다(S150). 여기서, 차원 공간을 변환하는 과정은 연산량을 감소시키기 위해서 수행된다.
그 다음, 역 푸리에 변환부(180)는 푸리에 변환부(160)에서 변환한 주파수 영역의 신호를 대수압축을 한 후 다시 시간 영역의 신호로 변환한다(160). 여기서, IFFT을 수행하는 과정은 상기 [수학식 6]에서 설명하였으므로 이에 자세한 설명은 생략한다.
따라서, 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 과정은 상기와 같은 과정(예를 들어, 음성 신호의 잡음 제거 내지 역 푸리에 변환)을 수행함으로써, 진폭값을 크게 증가시킨 주파수 값을 얻을 수 있어 입력된 음성 신호에 대한 정확한 특징 벡터 값을 얻을 수 있으며, 이에 정확하게 음성 인식을 수행할 수 있 다.
도 3은 발명의 또 다른 실시예에 따른 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 장치에서 포만트 엠퍼시스부를 통해 진폭값이 크게 증가된 주파수 신호의 스펙트럼을 나타낸 도면이다.
도 3a는 잡음 신호가 제거된 음성 신호의 스펙트럼을 도시하고 있고, 도3b는 진폭값이 크게 증가된 음성 신호의 스펙트럼을 도시하고 있다.
도시된 바와 같이, 음성 신호의 스펙트럼(spectrem)의 피크 주파수를 포만트라 하며, 포만트 엠퍼시스를 수행함으로써, 음성 신호에 대한 피크(peak) 부분을 강조시켜 진폭값을 크게 증가시키고, 밸리(vally) 부분은 감쇠시킨다.
따라서, 입력된 음성 신호에 대한 스펙트럼에서 진폭값을 크게 증가시킨 주파수 값을 얻을 수 있어, 입력된 음성 신호에 대한 정확한 특징 벡터 값을 얻을 수 있고, 이에 보다 높은 음성 인식률을 얻을 수 있다.
도 4는 본 발명에 따른 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법을 통한 음성 인식률과 종래의 음성 인식률을 비교한 실험 결과를 나타낸 그래프이다.
도시된 바와 같이, 조용한(clean) 환경에서의 음성 인식률과 잡음(noisy)이 있는 환경에서의 음성 인식률을 비교한 실험 결과이다. 여기서, MFCC(Mel frequency cepstral coefficient)는 입력된 음성 신호에서 잡음을 고려하지 않고 음성 인식을 수행한 경우이고, ETSI(European Telecommunication Standards Institute)는 입력된 음성 신호에서 잡음을 고려하여 음성 인식을 수행한 경우이 며, 본 발명은 입력된 음성 신호에서 잡음을 고려하고, 잡음이 제거된 음성 신호에 포만트 엠퍼시스를 적용하여 음성 인식을 수행한 경우이다.
실험 결과 조용한 환경에서의 음성 인식률을 비교한 경우, MFCC의 인식률은 91.36%, ETSI의 인식률은 92.89%, 본 발명의 인식률은 93.34%로써, 오류율이 다른 종래 기술들에 비해 6.33%가 감소됨을 알 수 있다.
또한, 잡음이 있는 환경의 음성 인식률을 비교한 결과, MFCC의 인식률은 8.60%, ETSI의 인식률은 71.77%, 본 발명의 인식률은 80.06%로써, 오류율이 다른 종래 기술들에 비해 29.37%가 감소됨을 알 수 있다.
따라서, 본 발명은 조용한 환경에서의 음성 인식의 오류율을 6%, 잡음이 있는 환경의 음성 인식의 오류율을 30% 감소시킴을 실험 결과를 통해 알 수 있다. 이에, 조용한 환경 및 잡음이 있는 환경 모두에서 음성 인식 오류율을 감소시킴으로써 보다 정확하게 음성 인식을 수행할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
상기한 바와 같은 본 발명의 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치에 따르면 다음과 같은 효과가 하나 혹은 그 이상 있다.
첫째, 입력된 음성 신호에 잡음을 제거하고, 포만트 엠퍼시스를 수행하여 음성 신호의 진폭값을 증가시킴으로써, 음성 신호에 대한 정확한 특징 벡터를 얻을 수 있으며, 보다 높은 음성 인식률 얻을 수 있다는 장점이 있다.
둘째, 음성 신호 특징 추출 장치를 이용하여 동일한 프로세스의 수행을 통해 조용한 환경 또는 잡음이 존재하는 환경 모두에서 음성 인식률을 높일 수 있어 다는 장점이 있다.

Claims (6)

  1. 입력되는 음성 신호에서 잡음을 제거하는 단계;
    상기 잡음이 제거된 음성 신호에 프리 엠퍼시스를 수행하고, 상기 프리 엠퍼시스된 신호를 프레임 단위로 분할하는 단계;
    상기 프레임 단위로 분할된 신호에 대하여 포만트 엠퍼시스를 수행하는 단계; 및
    상기 포만트 엠퍼시스를 수행한 신호를 주파수 영역의 신호로 변환하는 단계를 포함하는 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법.
  2. 제 1항에 있어서,
    상기 포만트 엠퍼시스를 수행하는 단계는,
    상기 프레임 단위로 분할된 신호에 대한 LPC 계수를 구하는 단계; 및
    상기 구해진 LPC 계수를 이용하여 입력된 신호에 대한 필터링을 수행하는 단계를 포함하는 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법.
  3. 제 1항에 있어서,
    상기 주파수 영역의 신호로 변환된 신호에 대수압축을 한 후, 역 푸리에 변환을 수행하여 시간 영역 신호로 변환하는 단계를 더 포함하는 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법.
  4. 입력되는 음성 신호에서 잡음을 제거하는 잡음 제거부;
    상기 잡음이 제거된 음성 신호에 프리 엠퍼시스를 수행하는 프리 엠퍼시스부;
    상기 프리 엠퍼시스를 수행한 신호를 소정의 프레임 단위로 분할하는 프레임 분할부;
    상기 프레임 단위로 분할된 신호에 대하여 포만트 엠퍼시스를 수행하는 포만트 엠퍼시스부;
    상기 포만트 엠퍼시스를 수행한 신호를 주파수 영역의 신호로 변환하는 푸리에 변환부; 및
    상기 주파수 영역의 신호로 변환된 신호를 대수압축을 한 후, 시간 영역 신호로 변환하는 역 푸리에 변환부를 포함하는 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 장치.
  5. 제 4항에 있어서,
    상기 포만트 엠퍼시스된 신호에 소정의 윈도우를 적용하는 윈도우 적용부; 및
    상기 주파수 영역의 신호에 인간의 청각특성을 이용하여 필터링을 수행하는 멜-스케일 필터링부를 더 포함하는 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 장치.
  6. 제 4항에 있어서,
    상기 포만트 엠퍼시스부는,
    상기 프레임 단위로 분할된 신호에 대한 LPC 계수를 구하는 LPC 계수 계산모듈; 및
    상기 구해진 LPC 계수를 이용하여 입력된 신호에 대한 필터링을 수행하는 필터링 모듈을 포함하는 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 장치.
KR1020050012821A 2005-02-16 2005-02-16 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치 KR20060091591A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050012821A KR20060091591A (ko) 2005-02-16 2005-02-16 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050012821A KR20060091591A (ko) 2005-02-16 2005-02-16 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR20060091591A true KR20060091591A (ko) 2006-08-21

Family

ID=37593314

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050012821A KR20060091591A (ko) 2005-02-16 2005-02-16 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR20060091591A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100897555B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
WO2012015569A1 (en) * 2010-07-28 2012-02-02 Motorola Solutions, Inc. Formant aided noise cancellation using multiple microphones
KR102506123B1 (ko) * 2022-10-31 2023-03-06 고려대학교 세종산학협력단 IoT 장비로부터 수집한 센싱 데이터를 이용한 딥 러닝 기반의 키 생성 매커니즘

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100897555B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
WO2012015569A1 (en) * 2010-07-28 2012-02-02 Motorola Solutions, Inc. Formant aided noise cancellation using multiple microphones
KR102506123B1 (ko) * 2022-10-31 2023-03-06 고려대학교 세종산학협력단 IoT 장비로부터 수집한 센싱 데이터를 이용한 딥 러닝 기반의 키 생성 매커니즘

Similar Documents

Publication Publication Date Title
Kumar et al. Delta-spectral cepstral coefficients for robust speech recognition
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
EP2431972B1 (en) Method and apparatus for multi-sensory speech enhancement
US7379866B2 (en) Simple noise suppression model
EP2643834B1 (en) Device and method for producing an audio signal
US8265940B2 (en) Method and device for the artificial extension of the bandwidth of speech signals
KR101213840B1 (ko) 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치
US7035797B2 (en) Data-driven filtering of cepstral time trajectories for robust speech recognition
KR20060044629A (ko) 신경 회로망을 이용한 음성 신호 분리 시스템 및 방법과음성 신호 강화 시스템
Milner et al. Speech reconstruction from mel-frequency cepstral coefficients using a source-filter model
JPH0612089A (ja) 音声認識方法
US5806022A (en) Method and system for performing speech recognition
Morales-Cordovilla et al. Feature extraction based on pitch-synchronous averaging for robust speech recognition
JP3907194B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2007293059A (ja) 信号処理装置およびその方法
CN113035216B (zh) 麦克风阵列语音的增强方法、及其相关设备
KR20060091591A (ko) 음성신호 성분을 강화하여 음성신호의 특징을 추출하는 방법 및 그 장치
KR100571427B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
Zhao et al. Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding.
JP2014232245A (ja) 音声明瞭化装置、方法及びプログラム
JP3270866B2 (ja) 雑音除去方法および雑音除去装置
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质
JP2001134286A (ja) 雑音抑圧装置、音声認識システム及び記録媒体
WO2022068440A1 (zh) 啸叫抑制方法、装置、计算机设备和存储介质
Nisa et al. A Mathematical Approach to Speech Enhancement for Speech Recognition and Speaker Identification Systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application