KR20140050951A

KR20140050951A - 음성 인식 시스템

Info

Publication number: KR20140050951A
Application number: KR1020120117400A
Authority: KR
Inventors: 송화전
Original assignee: 한국전자통신연구원
Priority date: 2012-10-22
Filing date: 2012-10-22
Publication date: 2014-04-30

Abstract

실시 예에 따른 음성 인식 시스템은 다양한 잡음에서도 상대적으로 강인한 음성 요소인 포먼트(formant)가 존재하는 포먼트 영역을 추출 보상하여 다양한 잡음 환경에서 음성 인식의 강인성을 유지하도록, 실시 예는, 입력된 음성 신호를 기초로 프레임 단위를 갖는 주파수 영역의 신호로 변환하는 전처리부, 상기 주파수 영역의 신호를 설정된 프로세서를 기초로 유, 무성음을 판별하고, 유성음 성분의 포먼트 위치를 포함하는 포먼트 영역을 추출하여 절대치 스펙트럼값을 적용 강조하는 포먼트 처리부 및 상기 포먼트 처리부에서 강조된 상기 포먼트 영역의 스펙트럼 정보를 멜 스케일 필터뱅크를 이용하여 대역통과 필터링을 수행하는 필터뱅크부를 포함하는 음성 인식 시스템을 제공한다.

Description

음성 인식 시스템{Speech recognition system}

실시 예는 음성 인식 시스템에 관한 것으로서, 더욱 상세하게는 다양한 잡음에서도 상대적으로 강인한 음성 요소인 포먼트(formant)가 존재하는 포먼트 영역을 추출 보상하여 다양한 잡음 환경에서 음성 인식의 강인성을 유지하기 용이한 음성 인식 시스템에 관한 것이다.

최근 스마트폰 등 모바일 기기의 사용의 폭발적 증가로 인해 새로운 모바일 서비스 및 생태계가 구축되고 있으며, 이러한 서비스 변화에 많은 영향을 끼친 기술로 음성 인식 기술을 들 수 있다.

즉, 클라우드 컴퓨팅 환경 등으로의 모바일 생태계의 변이로 인해 실시간으로 거의 무제한 어휘 인식이 가능해 졌으며, 음성 검색의 경우 성공적으로 상용화된 사례이다. 또한 서비스 영역을 확장하여 SMS, SNS, 예약, 일정관리, 이메일 작성 등과 연계한 음성인식 응용 시스템이 거의 실용화 단계에 접어 들고 있다.

그러나, 이러한 다양한 모바일 기기의 출현 및 사용으로 인해 음성 인식의 경우 이전보다 훨씬 많은 다양한 잡음 환경에 노출된다. 먼저 사용자는 계속 이동 중에 사용하므로 부가잡음이 계속해서 변한다. 또한 수많은 종류의 기기로 인해 기기마다 채널잡음이 다르므로 음성 인식의 성능을 유지하기 위해서는 이러한 잡음들에 대해 강인성을 유지하도록 해야 한다.

음성에 담긴 정보를 전달하는 중요한 요소 중의 하나가 포먼트(formant)이다. 포먼트는 음성의 유성음에 나타나는 특징이며 또한 주파수 영역에서 상대적으로 높은 에너지를 가지는 부분이므로 다른 음성 영역에 비해 잡음에 상대적으로 강인하다. 그러나, 이러한 포먼트들도 잡음에 의해 왜곡이 생기므로 이러한 왜곡을 보상하여 음성 인식 성능을 높일 수 있다. 그러나, 잡음 환경에서 정확한 포먼트를 추정하기는 쉽지 않다.

실시 예의 목적은, 더욱 상세하게는 다양한 잡음에서도 상대적으로 강인한 음성 요소인 포먼트(formant)가 존재하는 포먼트 영역을 추출 보상하여 다양한 잡음 환경에서 음성 인식기의 강인성을 유지하기 용이한 음성 인식 시스템을 제공함에 있다.

실시 예에 따른 음성 인식 시스템은, 입력된 음성 신호를 기초로 프레임 단위를 갖는 주파수 영역의 신호로 변환하는 전처리부, 상기 주파수 영역의 신호를 설정된 프로세서를 기초로 유, 무성음을 판별하고, 유성음 성분의 포먼트 위치를 포함하는 포먼트 영역을 추출하여 절대치 스펙트럼값을 적용 강조하는 포먼트 처리부 및 상기 포먼트 처리부에서 강조된 상기 포먼트 영역의 스펙트럼 정보를 멜 스케일 필터뱅크를 이용하여 대역통과 필터링을 수행하는 필터뱅크부를 포함한다.

또한, 상기 필터 뱅크부에서 제공된 각 필터뱅크 신호에 대하여 로그를 적용한 후 DCT를 적용하여 최종적으로 MFCC를 얻는 DCT 처리부를 포함한다.

실시 예에 따른 음성 인식 시스템은, 포먼트를 포함하는 포먼트 영역을 강조하는 필터를 포함하는 포먼트 처리부를 포함함으로써, 잡음에 강인한 음성 인식 시스템을 구현할 수 있다.

또한, 실시 예에 따른 음성 인식 시스템은, 저비용으로 기존의 음성 인식 시스템의 성능을 향상시킬 수 있으며, 음질 개선을 달성할 수도 있다.

도 1은 실시 예에 따른 음성 인식 시스템에 대한 제어 구성을 나타낸 제어 블록도이다.
도 2는 도 1에 나타낸 음성 인식 시스템에 나타낸 그래프이다.

실시 예의 구성 요소를 설명하는 데 있어서, 동일한 명칭의 구성 요소에 대하여 도면에 따라 다른 참조부호를 부여할 수도 있으며, 서로 다른 도면임에도 불구하고 동일한 참조부호를 부여할 수도 있다. 그러나, 이와 같은 경우라 하더라도 해당 구성 요소가 실시 예에 따라 서로 다른 기능을 갖는다는 것을 의미하거나, 서로 다른 실시 예에서 동일한 기능을 갖는다는 것을 의미하는 것은 아니며, 각각의 구성 요소의 기능은 해당 실시 예에서의 각각의 구성요소에 대한 설명에 기초하여 판단하여야 할 것이다.

또한, 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다.

또한, 실시 예의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

이하에서는, 실시 예에 따른 음성 인식 시스템 및 그 동작 방법에 대한 동작 및 작용을 이해하는데 필요한 부분을 도면을 중심으로 상세히 설명한다.

도 1은 실시 예에 따른 음성 인식 시스템에 대한 제어 구성을 나타낸 제어 블록도이고, 도 2는 도 1에 나타낸 음성 인식 시스템에 나타낸 그래프이다.

도 1은 일반적인 음성 인식 시스템에서 적용되는 음성 특징 파라미터인 MFCC(Mel-frequency cepstral coefficient) 를 추출하는 과정을 개략적으로 나타내었다. 물론 음성 인식에서 사용하는 특징 벡터는 MFCC이외에도 사용할 수 있으며, 실시 예에서는 일례로 MFCC를 사용하였다. 즉, 실시 예에서 개발한 알고리즘은 주파수 특성 분석으로 통해 사용할 수 있으므로 사용하는 음성 특징 벡터에 한정을 두지 않는다.

도 1을 참조하면, 음성 인식 시스템은 전처리부(110), 포먼트 보상부(120), 필터뱅크부(130) 및 DCT 처리부(140)를 포함할 수 있다.

여기서, 전처리부(110)는 입력된 음성 신호(vs)에 대하여 소정 시간으로 한 프레임을 구성하고, 프레임 단위로 프리앰파시스(pre-emphasis) 처리를 수행하여 고주파 성분을 강조함으로써 자음성분을 강화하는 프리앰파시스부(112), 프리앰파시스 처리된 상기 한 프레임들을 일정 구간마다 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 소정의 값을 출력하고, 비음성 구간에서 디지털 신호의 윤곽(Edge)에 대한 자기 상관 함수를 계산하면 극소값(이상적으로 0)을 출력하는 창(windowing) 함수부(114) 및 창 함수부(114)에서 처리된 신호를 N-포인트 FFT(Fast Fourier Transform) 처리하여 주파수 영역(스펙트럼)의 신호로 변환하는 FFT 처리부(116)를 포함한다.

여기서, 상기 주파수 영역의 신호 또는 스펙트럼의 신호는 보통 절대값이나 제곱값 등을 사용할 수 있지만, 실시 예에서는 상기 주파수 영역의 신호 또는 스펙트럼의 신호를 절대치 스펙트럼 정보(vsf)로 서술한다.

포먼트 처리부(120)는 전처리부(110)에서 출력된 스펙트럼 정보(vsf)를 입력받아 잡음에 상대적으로 강인한 특성인 포먼트를 강조시키기 위한 프로세스를 추가할 수 있다.

즉, 포먼트 처리부(120)는 유성음의 고유한 성질을 가지는 포먼트의 경우, 스펙트럼 정보(vst)에서 현재 처리하고 있는 한 프레임이 유성음인지 무성음인지 판단한다.

포먼트 처리부(120)는 스펙트럼 정보(vst) 중 현재 처리하고 있는 한 프레임이 무성음으로 판별된 경우 정상적인 MFCC 추출과정을 수행하며, 유성음으로 판별된 경우 포먼트 영역 강조 처리를 수행한 후 MFCC 추출과정을 수행할 수 있다.

즉, 스펙트럼 정보(vst) 중 현재 처리하고 있는 한 프레임이 유성음으로 판별된 경우, 포먼트 처리부(120)는 상기 한 프레임에 대해서 포먼트를 추정한다.

다시 말하면, 포먼트 처리부(120)는 상기 한 프레임에서 정확한 포먼트 위치보다는 포먼트가 존재하는 포먼트 영역을 추출하여 보상할 수 있다.

이때, 포먼트 처리부(120)는 상기 한 프레임에서 상기 포먼트의 위치를 추정하기 위하여 설정된 ratio spectrum(RS) 방법을 사용할 수 있다.

즉, 도 2의 (a) 및 (b)에 ratio spectrum(RS)의 적용 전, 후를 나타낸 그래프를 나타낸다.

도 2의 (a)는 상술한 유성음으로 판별된 한 프레임의 스펙트럼 포락선을 나타낸 일 예이고, 도 2의 (b)는 도 2의 (a)에 대한 ratio spectrum(RS)을 나타낸 그래프의 일 예이다.

여기서, 도 2의 (b)에 나타낸 바와 같이 포먼트 위치는 기울기가 급격히 상승하는 것을 알 수 있다.

도 2의 (a)에서 포먼트를 추출하기 위해서는 피크(peak)되는 부분을 계속해서 추출해야 하지만, 도 2의 (b)의 경우에는 ratio spectrum(RS)의 경우 RS 축에서 등 간격으로 샘플링하면 상대적으로 포먼트 존재 영역에서 상대적으로 많은 샘플을 얻을 수 있다.

여기서, [수학식 1]은 ratio spectrum(RS)를 나타낸다.

(R: 샘플, X(k)2; 피크값, [Hm(k)X(k)]2 ; RS 축 값)

즉, 포먼트 처리부(120)는 상술한 [수학식 1]을 적용하여 생성된 도 2의 (b)를 기초로, 추출된 N(<10)개의 샘플 중에서 포먼트가 존재하는 구간들에 있는 샘플들만 사용하고, 또한 이를 크기 순으로 정렬하고 차례로 포먼트 위치라고 가정하며, 이들 중 가장 큰 에너지를 갖는 샘플의 위치는 한 개의 포먼트가 되고 그 다음 큰 에너지를 갖는 것이 또 다른 포먼트가 되며, 이러한 과정을 반복하여 추출하여, 선택된 포먼트가 이웃하면 이는 버리고 그 다음 샘플을 이용한다.

그리고, 포먼트 처리부(120)는 추출된 샘플 중 임의로 선택된 샘플이 포먼트의 위치라고 가정하고 이웃하는 샘플보다 높은 에너지를 가지도록 하기 위해 임의의 값을 부여하며, 포먼트 후보로 선택되지 않은 샘플에 대한 필터 크기는 1로 고정할 수 있으며, 이에 한정을 두지 않는다.

이후, 포먼트 처리부(120)는 다항식 등을 사용하여 각각의 샘플 포인터가 지나도록 curve filtering 을 사용하여 구성할 수 있으며, 그냥 각각의 샘플들을 직선으로 이을 수도 있다. 이렇게 구성된 포먼트 강조 필터에 절대치 스펙트럼을 통과시켜 포먼트 영역을 강조 처리한다.

필터뱅크부(130)는 포먼트 처리부(120)에서 강조 처리된 포먼트가 강조된 스펙트럼 정보에 대하여 인간의 청각특성에 따라 저주파수 영역은 좁게, 고주파수 영역은 넓게 그 대역폭을 멜 스케일로 분할한 복수 개의 필터뱅크를 이용하여 대역통과 필터링을 수행한다. 즉, 하나의 프레임내에서 특정 주파수성분에 대한 스펙트럼을 멜-스케일 필터링을 통하여 특징을 보다 잘 나타낼 수 있는 차원공간으로 변환한다.

DCT 처리부(140)는 필터뱅크부(130)로부터 제공되는 각 필터뱅크 신호에 대하여 로그를 적용한 후 DCT를 적용하여 최종적으로 MFCC를 얻을 수 있다.

이상 본 발명의 바람직한 실시 예에 대해 상세히 기술하였지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구범위에 정의된 본 발명의 정신 및 범위에 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음을 알 수 있을 것이다. 따라서, 본 발명의 앞으로의 실시 예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

110: 전처리부 120: 포먼트 보상부
130: 필터뱅크부 140: DCT 처리부

Claims

입력된 음성 신호를 기초로 프레임 단위를 갖는 주파수 영역의 신호로 변환하는 전처리부;
상기 주파수 영역의 신호를 설정된 프로세서를 기초로 유, 무성음을 판별하고, 유성음 성분의 포먼트 위치를 포함하는 포먼트 영역을 추출하여 절대치 스펙트럼값을 적용 강조하는 포먼트 처리부; 및
상기 포먼트 처리부에서 강조된 상기 포먼트 영역의 스펙트럼 정보를 멜 스케일 필터뱅크를 이용하여 대역통과 필터링을 수행하는 필터뱅크부;를 포함하는 음성 인식 시스템.