KR100820141B1

KR100820141B1 - 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템

Info

Publication number: KR100820141B1
Application number: KR1020060064262A
Authority: KR
Inventors: 이수종; 김상훈; 이영직; 김응규
Original assignee: 한국전자통신연구원
Priority date: 2005-12-08
Filing date: 2006-07-10
Publication date: 2008-04-08
Also published as: KR20070061207A

Abstract

본 발명은 음향 수신부와 영상 수신부가 구비된 음성 구간 검출 장치에 있어서, 상기 영상 수신부로부터 출력되는 영상 프레임에서 움직임 영역을 검출하고, 상기 검출된 움직임 영역에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 신호를 검출하는 입술 움직임 신호 검출부, 상기 음향 수신부로부터 출력되는 음향 프레임과 상기 입술 움직임 신호 검출부에서 검출된 입술 움직임 신호를 이용하여 음성 구간을 검출하는 음성 구간 검출부를 포함하는 것으로서, 음성구간 검출과정에서 입술움직임 영상정보를 확인하기 때문에 dynamic 잡음이 음성으로 오인식 되는 것을 미리 방지할 수 있다.

음성구간, 음성인식, 입술움직임

Description

음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템{Apparatus and Method for detecting of speech block and system for speech recognition}

도 1은 종래의 음성 인식 시스템에서의 음성 인식 방법을 나타낸 흐름도.

도 2는 본 발명에 따른 음성 구간 검출을 위한 음성 인식 시스템의 구성을 개략적으로 나타낸 블럭도.

도 3은 본 발명에 따른 음성 인식 시스템에서 음성 구간 검출 방법을 나타낸 흐름도.

도 4는 본 발명에 따른 음성 인식 시스템에서 입술 움직임 신호 검출 방법을 나타낸 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

200 : 음향 수신부 210 : 영상 수신부

220 : 입술 움직임 신호 검출부 230 : 음성 구간 검출부

240 : 특징 벡터 추출부 250 : 음성 인식부

260 : 데이터베이스

본 발명은 영상 신호와 음향 신호를 결합하여 음성 구간을 검출하는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템에 관한 것이다.

음성인식(speech recognition)은 사람이 하는 말의 음향적인 신호의 특징을 컴퓨터로 분석하여 문자로 바꿔주는 일련의 과정이다. 음성인식이 수행되는 주요 절차는 전처리(preprocess), 탐색(search), 후처리(post-process)로 크게 나눠볼 수 있다.

먼저 음성 입력 장치를 통하여 음향 신호를 받아들이게 되는데, 전처리 단계에서는 입력되는 음향 신호를 대상으로 음성의 시작점과 끝점 (음성구간, 또는 EPD: End Point Detection)을 검출한 후 음향적 특징을 추출한다.

다음에는 미리 준비된 음향모델과 발음사전을 탐색하여 전처리 단계에서 추출된 특징과 유사한 음소들을 찾아내어 단어나 문장으로 결합하는 탐색과정이 있다. 그리고 탐색결과의 오류를 줄이기 위해 언어모델을 적용하는 후처리 과정을 거친다.

상기에 설명된 음성 인식 과정을 도 1을 참조하여 상세히 설명하기로 한다.

도 1은 종래의 음성 인식 시스템에서의 음성 인식 방법을 나타낸 흐름도이다.

도 1을 참조하면, 음성 인식 시스템은 음향 신호가 수신되면(S100), 상기 수 신된 음향 신호를 프레임화한다(S102).

그런 다음 상기 음성 인식 시스템은 상기 음향 신호에 대하여 프레임별로 정적 잡음을 제거한다(S104). 즉, 상기 음성 인식 장치는 프레임별 저역 통과 필터링을 수행하여 고역 성분을 제거한다.

단계 104의 수행 후, 상기 음성 인식 시스템은 상기 정적 잡음이 제거된 각 프레임별로 절대 에너지가 크고 영교차율이 작은지를 판단한다(S106). 즉, 상기 음성 인식 시스템은 절대 에너지가 작거나 영교차율이 크면, 잡음이라고 판단하고, 절대 에너지가 크고, 영교차율이 작으면, 음성 프레임이라고 판단한다.

단계 106의 판단결과 해당 프레임에 대해 절대 에너지가 크고 영교차율이 작으면, 상기 음성 인식 시스템은 해당 프레임을 음성 프레임이라고 판단한다(S108).

그런 다음 상기 음성 인식 시스템은 음성 프레임이 일정 수 이상 지속되는지를 판단한다(S110).

단계 110의 판단결과 음성 프레임이 일정 수 이상 지속되면, 상기 음성 인식 시스템은 해당 프레임 구간을 음성 구간이라고 판단한다(S112).

그런 다음 상기 음성 인식 시스템은 상기 판단된 음성 구간에서 특징 벡터를 추출하고(S114), 상기 추출된 특징 벡터를 이용하여 음성 인식을 수행한다(S116).

즉, 상기 음성 인식 시스템은 음향 모델과 발음 사전을 탐색하여 상기 추출된 특징 벡터와 유사한 음소들을 찾아내어 단어나 문장으로 결합한다. 그런 다음 상기 음성 인식 시스템은 상기 결합된 단어나 문장의 오류를 줄이기 위해 언어 모델을 적용하여 음성 인식을 수행한다.

만약, 단계 106의 판단결과 해당 프레임에 대해 절대 에너지가 크지 않거나 영교차율이 작지 않으면, 상기 음성 인식 시스템은 해당 프레임을 잡음으로 판단하여(S118), 단계 104를 수행한다.

만약, 단계 110의 판단결과 음성 프레임이 일정 수 이상 지속되지 않으면, 상기 음성 인식 시스템은 해당 프레임을 잡음으로 판단하여(S118), 단계 104를 수행한다.

상기와 같은 과정을 통해 음성 인식을 수행할 수 있는 우리의 일상 환경은 주변 소음과 컴퓨터 내부의 채널잡음 및 통신망 잡음 등 다양한 잡음으로 둘러 쌓여있다.

따라서, 음성인식의 전체 과정에서 음성구간 검출은 반드시 선결되어야 하는 과제로서 인식률 성능에 직접적인 영향을 주게 된다.

그러나 상기와 같은 종래의 음성 구간 검출 방법은 기본적으로 입력신호의 음향에너지의 크기와 영교차율 및 연속성을 주요 파라미터로 활용하므로, 음성과 잡음을 구별해 내기는 쉽지 않은 단점이 있다.

또한, 음성구간 검출은 음향에너지의 유무가 음성구간 검출의 출발점이 되는데, 음성과 잡음은 모두 음향 에너지를 갖고 있으므로 음성과 잡음을 구별해 내기는 쉽지 않은 단점이 있다.

또한, 일정한 크기의 음향에너지와 고주파수를 특징으로 하는 stationary잡음 제거기술은 많이 활용되고 있으나, dynamic잡음을 음성과 식별해 내는 기술이 없는 단점이 있다.

또한, dynamic잡음이 제거되지 않고 음성구간으로 분류되어 음성인식 과정에 보내짐으로써 불필요한 자원이 실행될 뿐만이 아니라 음성인식 오류가 발생하는 문제점이 있다.

따라서, 본 발명의 목적은 다양한 잡음이 있는 실제 환경에서 음성인식 오류의 주요 원인으로 제기되고 있는 dynamic 잡음을 효과적으로 제거할 수 있는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템을 제공하는데 있다.

본 발명의 다른 목적은 입술움직임이 없는 상태에서 입력되는 음향에너지를 잡음으로 간주하여 음성구간으로 검출되지 않도록 하여 음성 인식의 오류를 줄일 수 있는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템을 제공하는데 있다.

상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 음향 수신부와 영상 수신부가 구비된 음성 구간 검출 장치에 있어서, 상기 영상 수신부로부터 출력되는 영상 프레임에서 움직임 영역을 검출하고, 상기 검출된 움직임 영역에 입술 움직임 영역의 특징을 적용한 후 입술 움직임 신호를 검출하는 입술 움직임 신호 검출부, 상기 음향 수신부로부터 출력되는 음향 프레임과 상기 입술 움직임 신호 검출부에서 검출된 입술 움직임 신호를 이용하여 음성 구간을 검출하는 음성 구간 검출부를 포함하는 것을 특징으로 하는 음성 구간 검출 장치가 제공된다.

본 발명의 다른 측면에 따르면, 음향 수신부와 영상 수신부가 구비된 음성 인식 시스템에서 음성 구간을 검출하는 방법에 있어서, 상기 음향 수신부로부터 출력되는 음향 프레임을 대상으로 정적 잡음을 제거하고, 상기 잡음이 제거된 음향 프레임이 음성 가능 프레임인지를 판단하고, 상기 판단결과 상기 음향 프레임이 음성 가능 프레임이면, 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단하고, 상기 판단결과 상기 영상 프레임에서 입술 움직임 신호가 검출되면, 상기 음성 가능 프레임을 음성 프레임으로 판단하여 저장하고, 음성 프레임의 개수가 미리 정해진 일정 개수 이상인지를 판단하고, 상기 판단결과 음성 프레임의 개수가 미리 정해진 일정 개수 이상이면, 해당 음성 프레임들을 음성 구간으로 검출하는 것을 특징으로 하는 음성 구간 검출 방법이 제공된다.

상기 음성 가능 프레임이 검출되는 시점에, 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단하는 것은 연속으로 수신되는 영상 프레임에서 이전 프레임과 현재 프레임을 픽셀 단위로 픽셀값을 비교하여 움직임 영역을 검출하고, 상기 검출된 움직임 영역별로 그 크기, 폭, 길이, 위치 정보를 파악하고, 상기 파악된 움직임 영역의 특징에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 영역인지를 판단하고 그 판단결과에 따라 입술 움직임 신호를 생성하는 것을 포함한다.

여기서, 상기 파악된 움직임 영역의 특징에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 영역인지를 판단하고 그 판단결과에 따라 입술 움직임 신호 를 검출하는 것은 상기 파악된 움직임 영역의 특징과 상기 입술 움직임 영상 특징 정보를 비교하여 유사도를 구하고, 상기 구해진 유사도가 미리 정해진 일정 값 이상이면, 입술 움직임 영역으로 판단하여 입술 움직임 신호를 생성하는 것을 말한다.

본 발명의 또 다른 측면에 따르면, 사용자에 의해 입력된 음향 신호를 디지털 신호로 변환하여 프레임화하는 음향 수신부, 영상 촬영부를 통해 촬영된 영상 신호를 프레임화하는 영상 수신부, 상기 영상 수신부로부터 출력되는 영상 프레임에서 움직임 영역을 검출하고, 상기 검출된 움직임 영역에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 신호를 검출하는 입술 움직임 신호 검출부, 상기 음향 수신부로부터 출력되는 음향 프레임과 상기 입술 움직임 신호 검출부에서 검출된 입술 움직임 신호를 이용하여 음성 구간을 검출하는 음성 구간 검출부, 상기 음성 구간 검출부에서 검출된 음성 구간에 대하여 특징 벡터를 추출하는 특징 벡터 추출부, 상기 특징 벡터 추출부에서 추출된 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식부를 포함하는 것을 특징으로 하는 음성 인식 시스템이 제공된다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명하기로 한다.

도 2는 본 발명에 따른 음성 구간 검출을 위한 음성 인식 시스템의 구성을 개략적으로 나타낸 블럭도이다.

도 2를 참조하면, 음성 인식 시스템은 음향 수신부(200), 영상 수신부(210), 입술 움직임 신호 검출부(220), 음성 구간 검출부(230), 특징 벡터 추출부(240), 음성 인식부(250), 데이터베이스(260)를 포함한다.

상기 음향 수신부(200)는 마이크 등을 통해 사용자에 의해 입력된 음향 신호를 디지털 음향 신호로 변환한 후, 프레임화하여 상기 음성 구간 검출부(230)에 전송한다.

상기 영상 수신부(210)는 카메라 등의 영상 촬영장치를 통해 촬영된 영상 신호를 프레임화하여 상기 입술 움직임 신호 검출부(220)에 전송한다.

상기 입술 움직임 신호 검출부(220)는 상기 영상 수신부(210)로부터 프레임 단위로 입력되는 영상 정보를 프레임간에 서로 비교하여 움직임 영역을 검출하고, 미세한 영상 잡음을 제거한 후, 상기 잡음이 제거된 움직임 영역에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 신호를 실시간으로 생성한다. 여기서, 상기 입술 움직임 영상 특징 정보는 미리 저장된 정보로서, 입술에 대한 크기, 가로길이, 세로길이, 가로/세로 비율, 위치 등을 포함한다.

즉, 상기 입술 움직임 신호 검출부(220)는 이전 영상 프레임과 현재 영상 프레임을 픽셀 단위로 픽셀값을 비교하여 픽셀값이 차이가 나는 부분과 차이가 없는 부분으로 구분한다. 그런 다음 상기 입술 움직임 신호 검출부(220)는 픽셀값이 차이가 있는 부분을 대상으로 미세한 잡음영상을 제거하고, 임계값을 적용하여 움직임 영역을 검출한다. 여기서, 상기 차이가 있는 부분에는 미세한 잡음영상, 입술 이외의 움직임, 입술 움직임이 포함되어 있으므로, 상기 입술 움직임 신호 검출부(220)는 상기 차이가 있는 부분을 대상으로 미세한 잡음을 제거하고, 임계값을 적용하여 움직임 영역을 검출한다.

예를 들어, 픽셀값 차이가 10이상이면 흰색(픽셀값: 255), 10보다 작으면 검정(픽셀값: 0)으로 바꾸어 시각적으로도 쉽게 확인될 수 있도록 하는데, 흰색 영역은 움직임 영역이라고 판단한다. 따라서, 눈이 움직였으면 눈 위치 부분에 흰색, 입술이 움직였으면 입술 모양의 흰색, 턱이 움직였으면 턱 움직임 부분이 희게 나타난다.

그런 다음 상기 입술 움직임 신호 검출부(220)는 상기 흰색(움직임)영역에 대하여 크기, 가로길이, 세로 길이, 가로/세로 비율, 위치 등의 특징을 파악하고, 상기 파악된 특징을 미리 저장된 입술 움직임 영상 특징 정보와 비교한다.

상기 비교결과 유사도가 높으면 입술 움직임 영역으로 판단하고, 유사도가 높은 것이 없으면 입술 움직임 영역이 아닌 다른 움직임이거나 움직임이 없는 것으로 판단한다.

상기와 같이 구해진 유사도(예: 0.3, 0.4, ..0.9)는 공유 메모리 공간에 저장되어 음성여부의 판단 자료로 이용된다.

상기와 같이 상기 입술 움직임 신호 검출부(220)는 영상 프레임에서의 움직임 영역에 대해 그 모양 및 변화(즉, 입술 특징점의 폭, 넓이 및 이들의 시간적 변화 등)와 같은 입술 움직임 특징 정보와의 상관도를 비교하여 입술 움직임이 있는지를 판단한다.

그런 다음 상기 입술 움직임 신호 검출부(220)는 상기 판단결과에 따라 입술 움직임 신호를 생성하고, 상기 생성된 신호를 상기 음성 구간 검출부(230)에 전송 한다.

상기 음성 구간 검출부(230)는 상기 음향 수신부(200)를 통해 입력되는 음향 신호와 상기 입술 움직임 신호 검출부(220)에서 검출된 입술 움직임 신호를 이용하여 음성 구간을 검출한다.

즉, 상기 음성 구간 검출부(230)는 상기 음향 수신부(200)에서 출력되는 음향 프레임에서 일정한 크기와 고주파수를 특징으로 하는 정적 잡음을 제거하고, 잔여 에너지를 대상으로 음향 프레임별 절대 에너지의 크기와 영교차율을 분석하여 해당 음향 프레임이 음성 가능 프레임 또는 잡음인지를 판단한다. 여기서, 상기 영교차율은 음성 신호가 영점(Zero) 기준을 교차하는 수로서 주파수의 의미로 간주되며 대부분 유성음에서 낮은 값을 무성음에서 높은 값을 가진다.

따라서, 상기 음성 구간 검출부(230)는 음향 프레임에 대해 절대 에너지가 작거나 영교차율이 크면, 잡음이라고 판단하고, 절대 에너지가 크고, 영교차율이 작으면, 음성 가능 프레임이라고 판단한다.

그런 다음 상기 음성 구간 검출부(230)는 음성 가능 프레임으로 판단된 음향 프레임에 대하여 상기 입술 움직임 신호 검출부(220)에서 검출된 입술 움직임 신호를 이용하여 해당 구간이 음성 구간인지를 판단한다.

즉, 상기 음성 구간 검출부(230)는 상기 음성 가능 프레임이 검출되는 시점에 상기 입술 움직임 신호 검출부(220)에서 영상 프레임에 대해 입술 움직임 신호가 검출되는지를 판단한다.

상기 판단결과 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 없으면, 상기 음성 구간 검출부(230)는 상기 음성 가능 프레임을 동적(dynamic) 잡음으로 판단하고, 입술 움직임 신호가 존재하면, 상기 음성 가능 프레임을 음성 프레임으로 판단하여 저장한다.

그런 다음 상기 음성 구간 검출부(230)는 상기 저장된 음성 프레임의 개수가 미리 정해진 일정 수 이상이면, 해당 음성 프레임들을 처음 프레임부터 음성 구간 시작점으로 표시하고 이후 유입되는 음성 프레임들을 음성 인식 과정으로 계속 진행시킨다.

상기 과정에서 음성 프레임이 유입되지 않는 상태가 이어지면 상기 음성 구간 검출부(230)는 음성 구간의 끝점으로 표시하여 음성 구간을 검출하게 된다.

상기 특징 벡터 추출부(240)는 상기 음성 구간 검출부(230)에서 검출된 음성 구간에서 특징 벡터를 추출하여 상기 음성 인식부(250)에 전송한다.

상기 음성 인식부(250)는 상기 특징 벡터 추출부(240)에서 추출된 특징 벡터를 이용하여 상기 데이터베이스(260)에 등록된 단어들에 대하여 유사도와 가장 유사한 단어들을 선정하는 비터비 탐색을 수행한다. 이때, 은닉 마르코브 모델을 이용할 수 있는데, 이는 인식 대상 후보 단어들에 대하여 미리 훈련하여 구축한 HMM(Hidden Markov Model)과 현재 입력된 음성의 특징 데이터들과의 차이를 비교하여 가장 유사한 후보 단어를 결정하는 것을 말한다.

그런 다음 상기 음성 인식부(250)는 음향 모델(262)과 발음 사전(264)을 탐색하여 상기 추출된 음향적 특징과 유사한 음소들을 찾아내어 단어나 문장으로 결합한다.

그런 다음 상기 음성 인식부(250)는 상기 결합하여 생성된 단어나 문장의 오류를 줄이기 위하여 언어 모델(266)을 적용하여 음성 인식을 수행한다.

도 3은 본 발명에 따른 음성 인식 시스템에서 음성 구간 검출 방법을 나타낸 흐름도이다.

도 3을 참조하면, 음성 인식 시스템은 마이크를 통해 음향 신호가 수신되면(S300), 상기 음향 신호를 디지털 신호로 변환하여 프레임화한다(S302).

단계 302의 수행 후, 상기 음성 인식 시스템은 상기 프레임화된 음향 신호에 대하여 프레임별 정적 잡음을 제거하고(S304), 상기 잡음이 제거된 각 프레임에 대하여 절대 에너지가 크고 영교차율이 작은지를 판단한다(S306).

즉, 상기 음성 인식 장치는 상기 프레임화된 음향 신호에서 일정한 크기와 고주파수를 특징으로 하는 정적 잡음을 제거한 후, 잔여 에너지를 대상으로 음향 프레임별 절대 에너지의 크기와 영교차율을 분석하여 해당 음향 프레임이 음성 가능 프레임 또는 잡음인지를 판단한다.

상기 음성 인식 시스템은 절대 에너지가 기준치보다 작거나 영교차율이 기준치보다 크면, 해당 음향 프레임을 잡음으로 판단하고, 절대 에너지가 기준치보다 크고, 영교차율이 기준치보다 작으면, 해당 음향 프레임을 음성 가능 프레임으로 판단한다.

단계 306의 판단결과 상기 잡음이 제거된 음향 프레임에 대해 절대 에너지가 크고 영교차율이 작으면, 상기 음성 인식 시스템은 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단한다(S308).

음향 프레임과 영상 프레임은 서로 매칭되어 있어서, 상기 음성 인식 시스템은 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임을 추출할 수 있고, 상기 추출된 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단할 수 있다.

상기 음성 인식 시스템이 영상 프레임에서 입술 움직임 신호를 검출하는 방법에 대한 설명은 도 4를 참조하기로 한다.

단계 308의 판단결과 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되면, 상기 음성 인식 시스템은 해당 음향 프레임을 음성 프레임이라고 판단하고(S310), 음성 프레임의 개수가 미리 정해진 일정 개수 이상인지를 판단한다(S312).

단계 312 판단결과 상기 음성 프레임의 개수가 미리 정해진 일정 개수 이상이면, 상기 음성 인식 시스템은 해당 프레임의 처음 프레임을 음성구간 시작점으로 표시하여 음성 구간을 검출한다(S314).

즉, 상기 음성 인식 시스템은 음성 프레임의 개수가 일정 수준을 넘으면 해당 음성 프레임들은 처음 프레임부터 음성구간 시작점으로 표시되고, 이후 유입되는 음성 프레임들을 음성인식 과정으로 계속 진행한다. 음성 프레임이 유입되지 않은 상태가 이어지면, 상기 음성 인식 시스템은 음성 구간의 끝점으로 표시하여 음성 구간을 검출하게 된다.

단계 314의 수행 후, 상기 음성 인식 시스템은 상기 검출된 음성 구간에 대해 특징 벡터를 추출하여(S316), 음성 인식을 수행한다(S318).

만약, 단계 306의 판단결과 상기 잡음이 제거된 음향 프레임에 대하여 절대 에너지가 크지 않거나 영교차율이 작지 않으면, 상기 음성 인식 시스템은 해당 프레임을 잡음으로 판단하여(S320), 단계 304를 수행한다.

만약, 단계 308의 판단결과 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되지 않으면, 상기 음성 인식 시스템은 해당 프레임을 동적 잡음으로 판단하여 동적 잡음을 제거한 후(S322), 단계 306을 수행한다.

만약, 단계 312의 판단결과 상기 음성 프레임의 개수가 미리 정해진 일정 개수 이상이 아니면, 상기 음성 인식 시스템은 해당 프레임을 잡음으로 판단하여 단계 304를 수행한다.

도 4는 본 발명에 따른 음성 인식 시스템에서 입술 움직임 신호 검출 방법을 나타낸 흐름도이다.

도 4를 참조하면, 음성 인식 시스템은 카메라를 통해 영상 신호가 수신되면(S400), 상기 영상 신호를 디지털 신호를 변환하여 프레임화한다(S402).

단계 402의 수행 후, 상기 음성 인식 시스템은 상기 프레임화된 영상 신호에서 영상 잡음을 제거하고(S404), 상기 영상 잡음이 제거된 영상 프레임에서 움직임 영역을 검출한다(S406).

즉, 상기 음성 인식 시스템은 이전 프레임과 현재 프레임을 픽셀 단위로 픽셀값을 비교하여 움직임 영역을 검출한다.

단계 406의 수행 후, 상기 음성 인식 시스템은 상기 검출된 움직임 영역에 대해 크기, 가로길이, 세로 길이, 가로/세로 비율, 위치 등의 특징을 파악한 다(S408).

단계 408의 수행 후, 상기 음성 인식 시스템은 상기 파악된 움직임 영역의 특징을 미리 저장된 입술 움직임 영상 특징 정보와 비교하여(S410), 상기 움직임 영역이 입술 움직임 영역인지를 판단한다(S412).

즉, 상기 음성 인식 시스템은 상기 움직임 영역의 특징과 상기 입술 움직임 영상 특징 정보를 비교한 결과 유사도가 미리 정해진 일정 값 이상이면, 상기 움직임 영역을 입술 움직임 영역으로 판단하고, 유사도가 미리 정해진 일정 값 이상이 아니면, 상기 움직임 영역을 입술 움직임 영역이 아닌 다른 움직임이거나 움직임이 없는 것으로 판단한다. 여기서 상기 입술 움직임 영상 특징 정보는 입술의 모양 및 변화 즉, 입술 특징점의 폭, 넓이 및 이들의 시간적 변화 등을 포함한다.

단계 412의 판단결과 상기 움직임 영역이 입술 움직임 영역이면, 상기 음성 인식 시스템은 입술 움직임 신호를 생성한다(S414).

상기와 같이 생성된 입술 움직임 신호는 도 3에 설명된 바와 같이 음성 프레임을 판단하는데 이용된다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.

상술한 바와 같이 본 발명에 따르면, 음성구간 검출과정에서 입술움직임 영상정보를 확인하기 때문에 dynamic 잡음이 음성으로 오인식되는 것을 미리 방지할 수 있는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템을 제공할 수 있다.

또한, 본 발명에 따르면, 음성구간 검출 과정에서 dynamic 음향잡음이 제거되므로 음성인식률을 높일 수 있는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템을 제공할 수 있다.

또한, 본 발명에 따르면, 잡음에 의한 불필요한 음성인식 실행을 방지하여 자원을 절약할 수 있는 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템을 제공할 수 있다.

Claims

삭제
삭제
삭제
음향 수신부와 영상 수신부가 구비된 음성 인식 시스템에서 음성 구간을 검출하는 방법에 있어서,

상기 음향 수신부로부터 출력되는 음향 프레임을 대상으로 정적 잡음을 제거하고, 상기 잡음이 제거된 음향 프레임이 음성 가능 프레임인지를 판단하는 단계;

상기 판단결과 상기 음향 프레임이 음성 가능 프레임이면, 상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단하는 단계;

상기 판단결과 상기 영상 프레임에서 입술 움직임 신호가 검출되면, 상기 음성 가능 프레임을 음성 프레임으로 판단하여 저장하고, 음성 프레임의 개수가 미리 정해진 일정 개수 이상인지를 판단하는 단계;및

상기 판단결과 음성 프레임의 개수가 미리 정해진 일정 개수 이상이면, 해당 음성 프레임들을 음성 구간으로 검출하는 단계

를 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
제4항에 있어서,

상기 음향 수신부로부터 출력되는 음향 프레임의 정적 잡음을 제거하는 것은 상기 음향 프레임에 대해 저역 통과 필터링을 수행하여 고역 성분을 제거하는 것을 특징으로 하는 음성 구간 검출 방법.
제4항에 있어서,

상기 잡음이 제거된 음향 프레임이 음성 가능 프레임인지를 판단하는 단계는,

상기 잡음이 제거된 음향 프레임에 대해 절대 에너지 크기와 영교차율을 분석하여 음성 가능 프레임 또는 잡음 프레임인지를 판단하는 것을 특징으로 하는 음성 구간 검출 방법.
제4항에 있어서,

상기 음성 가능 프레임이 검출되는 시점에 영상 프레임에서 입술 움직임 신호가 검출되는지를 판단하는 단계는,

연속으로 수신되는 영상 프레임에서 이전 프레임과 현재 프레임을 픽셀 단위로 픽셀값을 비교하여 움직임 영역을 검출하는 단계;

상기 검출된 움직임 영역별로 그 크기, 폭, 길이, 위치 정보를 파악하는 단계;및

상기 파악된 움직임 영역의 특징에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 영역인지를 판단하고 그 판단결과에 따라 입술 움직임 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
제7항에 있어서,

상기 입술 움직임 영상 특징 정보는 입술의 모양과 입술의 변화를 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
제7항에 있어서,

상기 파악된 움직임 영역의 특징에 입술 움직임 영상 특징 정보를 적용하여 입술 움직임 영역인지를 판단하고 그 판단결과에 따라 입술 움직임 신호를 검출하는 단계는,

상기 파악된 움직임 영역의 특징과 상기 입술 움직임 영상 특징 정보를 비교하여 유사도를 구하는 단계;

상기 구해진 유사도가 미리 정해진 일정 값 이상이면, 입술 움직임 영역으로 판단하여 입술 움직임 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
제4항에 있어서,

상기 판단결과 상기 영상 프레임에서 입술 움직임 신호가 검출되지 않으면, 해당 음성 가능 프레임을 동적 잡음으로 판단하는 단계를 더 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
삭제
삭제