KR101144158B1

KR101144158B1 - 모바일 장치에서의 립리딩을 위한 입술영역 결정방법.

Info

Publication number: KR101144158B1
Application number: KR1020100130816A
Authority: KR
Inventors: 김진영; 송민규; 나승유
Original assignee: 전남대학교산학협력단
Priority date: 2010-12-20
Filing date: 2010-12-20
Publication date: 2012-05-10
Anticipated expiration: 2030-12-20

Abstract

본 발명은 모바일 장치에서의 립리딩을 위한 입술영역 결정방법에 관한 것으로, 보다 구체적으로는 화자의 입술 움직임을 분석하여 발성 단어를 인식하는 립리딩의 전처리 단계로, 상기 화자의 얼굴이 포함된 영상에서 상기 입술이 위치한 영역을 인식할 시 조명이 가변하는 환경에서 상기 화자의 입술이 위치한 영역을 명확하게 인식할 수 있고, 스마트폰과 같은 모바일 장치에서 효율적으로 작동할 수 있게 적은 계산량으로 구현되는 모바일 장치에서의 립리딩을 위한 입술영역 결정방법에 관한 것이다.

Description

모바일 장치에서의 립리딩을 위한 입술영역 결정방법.{Method of lip region for lip-reading in a mobile device}

일반적으로, 모바일 장치, 특히, 스마트 폰(smart phone)의 주요한 입력수단은 키패드 또는 터치 스크린을 이용한 가상 키보드 등이 구비되어 명령신호를 입력받도록 구성되어 있었으나, 최근에는, 더 편리하게 상기 명령신호를 입력할 수 있도록 화자의 발성 단어에서 상기 명령신호를 인식할 수 있는 음성 인식 기능이 탑재되게 되었다.

한편, 상기 모바일 장치에서의 음성 인식 기능은 외부의 잡음에 쉽게 노출되어 음성 인식률이 저하되므로 상기 화자의 발성 단어를 명확하게 인식하지 못하는 문제점이 발생되었고, 이러한 문제를 개선하기 위해 립리딩(Lip Reading)이 도입되게 되었다.

또한, 상기 립리딩은 상기 화자의 얼굴이 포함된 영상을 입력받아 상기 화자의 입술의 움직임을 분석하여 상기 화자가 발성하는 상기 발성 단어를 인식하는 것으로, 음성 인식과 함께 활용되어 음성 인식 시 외부의 소음에 의해 발생하는 음성 인식률의 저하 문제를 개선할 수 있었다.

또한, 상기 립리딩을 위한 전처리 과정으로, 상기 화자의 얼굴이 포함된 영상에서 상기 화자의 입술영역을 인식하는 것이 매우 중요하다. 또한, 종래에는 다양한 방법으로 상기 입술영역을 인식하였으며, 특히, 집단화 알고리즘(clustering algorithm)은 상기 입술영역을 신속하게 인식할 수 있는 방법으로, 일반적으로 FCM 집단화 알고리즘(Fuzzy C-Means clustering algorithm) 또는 K-평균 집단화 알고리즘(K-means clustering algorithm)이 사용된다.

한편, 상기 모바일 장치는 상기 화자가 장소를 이동하면서 사용하여 조명과 배경 등의 외부 환경이 매우 가변적으로 제공되며, 특히, 외부의 조명 변화에 의해 상기 화자의 입술영역의 색 분포 및 명암의 정도가 쉽게 변하므로, 상기 모바일 장치에서의 상기 립리딩 시 상기 입술영역을 인식하지 못하거나, 상기 화자의 입술의 움직임을 인식하지 못하는 등 인식능력이 저하되는 문제점이 발생되었다.

또한, 종래의 모바일 장치는 퍼스널 컴퓨터에 비해 비교적 제한된 자원(예를 들면, CPU의 처리속도, 메모리의 처리용량)으로 인해 상대적으로 낮은 처리능력(computing power)을 가지므로, 상기 립리딩 및 상기 립리딩을 위한 전처리 과정이 상기 모바일 장치에서 효율적으로 구동되지 못하는 문제점도 발생되었다.

본 발명자들은 상기 모바일 장치에서의 립리딩 시 조명이 가변하는 환경에서도 상기 화자의 얼굴이 포함된 영상에서 상기 입술영역을 명확하게 인식할 수 있으며, 상기 모바일 장치에서 상기 입술영역을 인식하기 위해 상기 집단화 알고리즘을 적용하여 계산 시 요구되는 계산량을 최소화할 수 있게 하기 위하여 연구 노력한 결과, 모바일 장치에서의 립리딩을 위한 입술영역 결정방법의 기술적 구성을 개발하게 되어 본 발명을 완성하게 되었다.

따라서, 본 발명의 목적은 상기 모바일 장치에서 립리딩 시 외부 조명이 가변하는 환경에서도 상기 화자의 입술영역 및 입술의 움직임을 명확하게 인식할 수 있는 모바일 장치에서의 립리딩을 위한 입술영역 결정방법을 제공한다.

또한, 본 발명의 다른 목적은 상기 집단화 알고리즘을 이용하여 상기 화자의 입술영역을 인식할 시 요구되는 계산량을 최소화하여, 상기 모바일 장치와 같이 제한된 자원 상에서 신속하게 구현될 수 있는 모바일 장치에서의 립리딩을 위한 입술영역 결정방법을 제공한다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기의 목적을 달성하기 위하여 본 발명은 입술영상을 분석하여 화자의 입술 움직임을 인식하는 립리딩(lipreading) 시 상기 입술영상 내에서 입술영역을 결정하기 위한 입술영역 결정방법에 있어서, 상기 입술영상 중, RGB 색상값이 유사한 픽셀들을 집단화(clustering)하여 분할함으로써, 제 1후보객체들을 생성하는 제 1단계; 상기 각 제 1후보객체의 픽셀들의 그레이 평균값이 임계값 이상인 제 2후보객체들을 추출하고, 기준이 되는 기준입술영상과의 유사도를 수치화한 신뢰도 함수를 이용하여 상기 제 2후보객체들 중 임계 신뢰도 이하의 제 3후보객체들을 제거하는 제 2단계; 상기 제 2후보객체들의 픽셀들 중 임계 Y축 좌표값 이외의 Y축 좌표값을 갖는 픽셀들을 제거하고, 상기 집단화를 재수행하여 제 4후보객체들을 추출하는 제 3단계; 상기 신뢰도 함수를 이용하여 상기 제 4후보객체들의 신뢰도를 계산하고, 상기 제 4후보객체들 중 가장 높은 신뢰도를 갖는 제 5후보객체를 상기 입술영역으로 결정하는 제 4단계;를 포함하는 것을 특징으로 하는 입술영역 결정방법을 제공한다.

바람직한 실시예에 있어서, 상기 제 1단계 이전에, 상기 입술영상을 좌측 입술영상과, 우측 입술영상으로 세로로 분리하는 제 A단계;를 더 포함하고, 상기 제 1단계의 집단화는 상기 좌측 입술영상 및 상기 우측 입술영상에 대해 각각 수행된다.

바람직한 실시예에 있어서, 상기 집단화는, K-평균 집단화 알고리즘(k-means clustering algorithm)을 이용한다.

바람직한 실시예에 있어서, 상기 임계 Y축 좌표값은, 평균적인 화자의 눈과 입술과의 거리를 기반으로 선택된다.

바람직한 실시예에 있어서, 상기 제 1단계:는

상기 좌, 우측 입술영상의 각 픽셀의 RGB 색상값으로 이루어지는 색상 벡터를 산출하는 1-1단계; 및 상기 색상 벡터를 이용하여, 집단화하여 상기 제 1후보객체들로 분할하는 제 1-2단계;를 더 포함한다.

바람직한 실시예에 있어서, 상기 제 2단계:는

상기 제 1후보객체들을 그레이 영상으로 변환하고, 상기 각 그레이 영상의 픽셀들의 상기 그레이 평균값을 계산하는 제 2-1단계; 상기 제 1후보객체들 중 상기 그레이 평균값이 상기 임계값 이상인 상기 제 2후보객체를 추출하는 제 2-2단계; 및 상기 신뢰도 함수를 이용하여, 상기 제 2후보객체들 중 임계 신뢰도 이하의 제 3후보객체들을 제거하는 제 2-3단계;를 더 포함한다.

바람직한 실시예에 있어서, 상기 제 3단계:는

평균적인 화자의 눈과 입술과의 거리를 기반으로 상기 임계 Y축 좌표값의 범위를 산출하는 제 3-1단계; 상기 제 2후보객체의 픽셀들 중 상기 임계 Y축 좌표값 이외의 상기 Y축 좌표값을 갖는 픽셀들을 제거하는 제 3-2단계; 및 상기 제 2후보객체들의 각 픽셀을 대상으로 상기 집단화를 재수행하여, 상기 제 4후보객체들을 추출하는 제 3-3단계;를 더 포함한다.

바람직한 실시예에 있어서, 상기 제 4단계:는

상기 신뢰도 함수를 상기 제 4후보객체들에 적용하여, 상기 제 5후보객체를 선정하는 제 4-1단계; 상기 제 5후보객체의 수평길이를 계산하고, 상기 수평길이의 중심점의 좌표값을 획득하는 제 4-2단계; 및 상기 중심점을 중심으로 하고 상기 수평길이를 상변 및 하변의 길이로 하며 일정한 높이를 갖는 사각형 영역을 설정하여, 상기 사각형 영역을 상기 입술영역으로 결정하는 제 4-3단계;를 더 포함한다.

바람직한 실시예에 있어서, 상기 신뢰도 함수는, 상기 입술영상의 폭 및 높이와, 상기 각 후보객체의 폭, 높이, 기울기, 상기 입술영상의 X축 상에서 상기 각 후보객체의 최소 및 최대 X축 좌표값들이 연결된 수평축 및 상기 입술영상의 Y축 상에서 상기 각 후보객체의 최소 및 최대 Y축 좌표값들이 연결된 선인 수직축을 변수로 하여, 상기 후보객체가 상기 화자의 입술과 유사한 정도를 상기 신뢰도로 수치화한다.

바람직한 실시예에 있어서, 상기 신뢰도 함수는,

상기 후보객체의 폭(LW)과, 상기 입술영상의 폭(W)이 이루는 비율을 계산하여 제 1신뢰도를 산출하는 제 1신뢰도 함수; 상기 후보객체의 높이(LH)와, 상기 후보객체의 폭(LW)이 이루는 비율을 계산하여 제 2신뢰도를 산출하는 제 2신뢰도 함수; 상기 후보객체가 갖는 기울기(LD)을 계산하여 제 3신뢰도를 산출하는 제 3신뢰도 함수; 상기 후보객체의 수평축(LX) 및 상기 입술영상의 폭(W)이 이루는 비율을 계산하여 제 4신뢰도를 산출하는 제 4신뢰도 함수; 및 상기 후보객체의 수직축(LY) 및 상기 입술영상의 높이(H)가 이루는 비율을 계산하여 제 5신뢰도를 산출하는 제 5신뢰도 함수;를 포함하며, 상기 제 1신뢰도, 제 2신뢰도, 제 3신뢰도, 제 4신뢰도 및 제 5신뢰도을 모두 곱한 값을 상기 신뢰도로 계산한다.

바람직한 실시예에 있어서, 상기 제 1신뢰도 함수는 아래의 수학식 1을 이용하여, 상기 후보객체의 폭의 제 1신뢰도를 계산한다.

[수학식 1]

여기서, LW는 상기 후보객체의 폭이고, 상기 W는 상기 입술영상의 폭이다.

바람직한 실시예에 있어서, 상기 제 2신뢰도 함수는 아래의 수학식 2를 이용하여, 상기 후보객체의 높이의 제 2신뢰도를 계산한다.

[수학식 2]

여기서, LH는 상기 후보객체의 높이이고, 상기 LW는 상기 후보객체의 폭이다.

바람직한 실시예에 있어서, 상기 제 3신뢰도 함수는 아래의 수학식 3을 이용하여, 상기 후보객체의 기울기의 제 3신뢰도를 계산한다.

[수학식 3]

여기서, LD는 상기 입술영상의 X축을 기준으로 상기 후보객체가 특정한 방향으로 기울어진 정도를 나타낸다.

바람직한 실시예에 있어서, 상기 제 4신뢰도 함수는 아래의 수학식 4를 이용하여, 상기 후보객체의 수평축의 제 4신뢰도를 계산한다.

[수학식 4]

여기서, LX는 상기 후보객체의 수평축이고, W는 상기 입술영상의 폭이다.

바람직한 실시예에 있어서, 상기 제 5신뢰도 함수는 아래의 수학식 5를 이용하여, 상기 후보객체의 수직축의 제 5신뢰도를 계산한다.

[수학식 5]

여기서, LY는 상기 후보객체의 수직축이고, H는 상기 입술영상의 폭이다.

본 발명은 다음과 같은 우수한 효과를 가진다.

먼저, 본 발명의 일실시예에 따른 모바일 장치에서의 립리딩을 위한 입술영역 결정방법은, 상기 좌,우측 입술영상으로 분리되어 상기 화자의 입술의 좌측 및 우측에서 각각 집단화를 수행하고, 상기 임계 Y축 좌표값이 상기 화자의 입술 아래의 그림자와 상기 입술을 서로 분리할 수 있게 하므로, 외부 조명이 가변하는 환경에서 상기 화자의 입술의 좌측과, 상기 입술의 우측에서 명암의 차이가 발생하는 경우에도 상기 화자의 입술 및 입술영역을 명확하게 인식할 수 있는 효과와, 상기 화자의 입술 아래의 그림자를 제거하고 상기 화자의 입술만을 인식할 수 있는 효과를 얻을 수 있다.

또한, 본 발명의 일실시예에 따른 모바일 장치에서의 립리딩을 위한 입술영역 결정방법은, K-평균 집단화 알고리즘을 이용하여 계산량을 최소화하고, 신뢰도 함수를 이용하여 상기 후보객체들이 상기 화자의 입술과 유사한 정도를 상기 신뢰도로 수치화하여 적은 계산량으로 신속하게 비교 및 추출할 수 있게 하므로, 모바일 장치와 같이 제한된 자원을 갖더라도 신속하게 계산이 이루어질 수 있는 효과를 얻을 수 있다.

도 1은 본 발명의 일실시예에 따른 입술영역 결정방법의 과정을 나타내는 블럭도.
도 2 내지 도 5는 본 발명의 일실시예에 따른 입술영역 결정방법의 제 2단계의 과정 내지 제 5단계의 과정을 나타내는 블럭도.
도 6 내지 도 10은 본 발명의 일실시예에 따른 제 1신뢰도 함수 내지 제 5신뢰도 함수를 그래프로 나타내는 도면.

본 발명에서 사용되는 용어는 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어도 있는데 이 경우에는 단순한 용어의 명칭이 아닌 발명의 상세한 설명 부분에 기재되거나 사용된 의미를 고려하여 그 의미가 파악되어야 할 것이다.

이하, 첨부된 도면에 도시된 바람직한 실시예를 참조하여 본 발명의 기술적 구성을 상세하게 설명한다.

그러나, 본 발명은 여기서 설명되는 실시예에 한정되지 않고 다른 형태로 구체화될 수도 있다. 명세서 전체에 걸쳐 동일한 참조번호는 동일한 구성요소를 나타낸다.

도 1은 본 발명의 일실시예에 따른 입술영역 결정방법의 과정을 나타내는 블럭도이고, 도 2 내지 도 5는 본 발명의 일실시예에 따른 입술영역 결정방법의 제 2단계의 과정 내지 제 5단계의 과정을 나타내는 블럭도이며, 도 6 내지 도 10은 본 발명의 일실시예에 따른 제 1신뢰도 함수 내지 제 5신뢰도 함수를 그래프로 나타내는 도면이다.

도 1 내지 도 10을 참조하면, 본 발명의 일실시예에 따른 모바일 장치에서의 립리딩을 위한 입술영역 결정방법은, 립리딩(lipreading) 시 상기 모바일 장치에서도 효율적으로 구현할 수 있고, 조명이 가변하는 환경에서도 상기 화자의 입술이 포함된 입술영상에서 상기 화자의 입술영역을 명확하게 인식할 수 있게 하기 위한 것으로, 집단화(clustering)을 사용하여 상기 입술영상을 후보객체들로 분할한 후 신뢰도 함수를 이용하여 상기 후보객체들 중 상기 화자의 입술과 유사도가 높은 후보객체를 결정하여 상기 입술영역을 인식한다.

한편, 상기 립리딩은 잡음이 있는 환경에서 음성 인식의 성능을 향상시킬 수 있게 하기 위한 것으로, 상기 음성 인식 시 화자의 입술이 포함된 영상을 입력받아 상기 화자의 입술의 움직임을 분석하여, 상기 음성 인식의 인식률을 향상시킬 수 있게 한 것이다.

또한, 상기 입술영상은 상기 화자의 얼굴이 포함된 전체영상의 일부분이고, 특히, 상기 화자의 입술이 포함된 영상이며, 상기 화자의 입술을 신속하고 명확하게 분석할 수 있게 위한 것으로, 상기 화자의 얼굴이 포함된 전체영상에서 상기 화자의 눈의 위치를 결정한 후, 상기 눈의 위치 및 간격을 기준으로 상기 입술영상의 위치 및 크기가 결정될 수 있으며, 이외에도, 종래 공지된 다양한 방식으로 상기 전체영상에서 상기 화자의 입술이 포함된 상기 입술영상을 결정할 수 있다.

즉, 본 발명의 일실시예에 따른 모바일 장치에서의 립리딩을 위한 입술영역 결정방법은, 상기 립리딩을 위해 종래의 어떠한 방식으로든 상기 입술영상이 결정된 이후에, 상기 입술영상 내에서 상기 화자의 입술이 위치한 상기 입술영역을 인식하기 위한 것이며, 특히, 외부의 조명에 의해 상기 화자의 입술 주변에 명암의 변화가 변화하더라도 상기 입술영역을 명확하고 신속하게 인식할 수 있게 하기 위한 것이다.

또한, 상기 집단화는 일반적으로 FCM 집단화 알고리즘(Fuzzy C-Means clustering algorithm) 또는 K-평균 집단화 알고리즘(K-means clustering algorithm)을 사용할 수 있으나, 본 발명의 일실시예에서는, 상기 FCM 집단화 알고리즘에 비해 계산량이 비교적 적어 상기 모바일 장치에서 효율적으로 구현될 수 있는 상기 K-평균 집단화 알고리즘을 사용한다.

또한, 상기 K-평균 집단화 알고리즘은 집단화하고자 하는 데이터들 간의 거리를 이용하여 집단화하는 알고리즘으로, 임의로 설정된 기준점에서 가까운 상기 데이터들을 하나의 집단으로 묶는 알고리즘이다.

또한, 상기 신뢰도 함수는 상기 후보객체들이 상기 화자의 입술과 유사한 정도를 신뢰도로 수치화한 것으로, 상기 입술영상의 폭(W) 및 높이(H)와, 상기 각 후보객체의 폭(LW), 높이(LH), 기울기(LD), 상기 입술영상의 X축 상에서 상기 각 후보객체의 최소 및 최대 X축 좌표값들이 연결된 수평축(LX) 및 상기 입술영상의 Y축 상에서 상기 각 후보객체의 최소 및 최대 Y축 좌표값들이 연결된 선인 수직축(LY)을 변수로 하며, 제 1신뢰도 함수, 제 2신뢰도 함수, 제 3신뢰도 함수, 제 4신뢰도 함수 및 제 5신뢰도 함수를 포함한다.

도 6을 참조하면, 상기 제 1신뢰도 함수는 상기 후보객체의 폭(LW)과, 상기 입술영상의 폭(W)이 이루는 비율을 계산하여 제 1신뢰도를 산출하며, 상기 제 1신뢰도는 상기 후보객체의 폭이 상기 화자의 입술의 폭과 유사한 정도를 수치화하여 나타낸다.

또한, 상기 제 1신뢰도 함수는 아래의 수학식 1을 이용하여, 상기 제 1신뢰도를 계산한다.

도 7을 참조하면, 상기 제 2신뢰도 함수는 상기 후보객체의 높이(LH)와, 상기 후보객체의 폭(LW)이 이루는 비율을 계산하여 제 2신뢰도를 산출하며, 상기 제 2신뢰도는 상기 후보객체의 높이가 상기 화자의 입술의 높이와 유사한 정도를 수치화하여 나타낸다.

또한, 상기 제 2신뢰도 함수는 아래의 수학식 2를 이용하여, 상기 제 2신뢰도를 계산한다.

도 8을 참조하면, 상기 제 3신뢰도 함수는 상기 후보객체가 갖는 기울기(LD)을 계산하여 제 3신뢰도를 산출하며, 상기 제 3신뢰도 함수는 상기 후보객체의 기울기가 상기 화자의 입술의 기울기와 유사한 정도를 수치화하여 나타낸다.

또한, 상기 제 3신뢰도 함수는 아래의 수학식 3을 이용하여, 상기 제 3신뢰도를 계산한다.

도 9를 참조하면, 상기 제 4신뢰도 함수는 상기 후보객체의 수평축(LX) 및 상기 입술영상의 폭(W)이 이루는 비율을 계산하여 제 4신뢰도를 산출하며, 상기 제 4신뢰도는 상기 입술영상에서 상기 화자의 입술이 위치하는 빈도수가 높은 기준 수평축을 대상으로, 상기 후보객체의 수평축이 유사한 정도를 수치화하여 나타낸다.

또한, 상기 제 4신뢰도 함수는 아래의 수학식 4를 이용하여, 상기 제 4신뢰도를 계산한다.

도 10을 참조하면, 상기 제 5신뢰도 함수는 상기 후보객체의 수직축(LY) 및 상기 입술영상의 높이(H)가 이루는 비율을 계산하여 제 5신뢰도를 산출하며, 상기 제 5신뢰도 함수는 상기 입술영상에서 상기 화자의 입술이 위치하는 빈도수가 높은 기준 수직축을 대상으로, 상기 후보객체의 수직축이 유사한 정도를 수치화하여 나타낸다.

또한, 상기 제 5신뢰도 함수는 아래의 수학식 5를 이용하여, 상기 제 5신뢰도를 계산한다.

또한, 상기 신뢰도 함수는, 상기 제 1신뢰도, 제 2신뢰도, 제 3신뢰도, 제 4신뢰도 및 제 5신뢰도을 모두 곱한 값을 상기 신뢰도로 계산하여 상기 후보객체가 상기 화자의 입술과 유사한 정도를 수치로 나타낼 수 있으며, 상기 신뢰도의 최대값은 1이고 최소값은 0이며, 상기 신뢰도가 1인 경우 상기 후보객체가 상기 화자의 입술에 최대한 유사한 것으로 판단하게 된다.

즉, 본 발명의 일실시예에 따른 상기 신뢰도 함수는 기준이 되는 기준입술영상과의 유사도를 수치화하는 것이며, 상기 각 후보객체들에 상기 신뢰도 함수를 적용하여 상기 화자의 입술과 얼마나 유사한지를 비교할 수 있는 것이다.

또한, 본 발명의 일실시예에 따른 모바일 장치에서의 립리딩을 위한 입술영역 결정방법은, 집단화를 이용하여 상기 입술영상을 제 1후보객체들로 분할하는 제 1단계, 제 1후보객체들의 그레이 평균값을 이용하여 제 2후보객체들을 추출한 후 신뢰도 함수를 이용하여 상기 제 2후보객체들 중 제 3후보객체들을 제거하는 제 2단계, 상기 집단화를 재수행하여 상기 제 2후보객체들 중 제 4후보객체들을 추출하는 제 3단계 및 상기 신뢰도 함수를 이용하여 제 4후보객체들 중 제 5후보객체를 선정한 후 상기 제 5후보객체를 상기 입술영역으로 결정하는 제 4단계를 포함한다.

한편, 상기 제 1단계 이전에, 상기 입술영상을 좌측 입술영상과, 우측 입술영상으로 세로로 분리하는 제 A단계가 수행되게 되는데, 이는, 상기 입술영상을 분리하지 않고 상기 집단화를 수행하는 경우에는 외부의 조명에 의해 상기 입술영상 내에서 화자의 입술 주변에 발생한 명암의 차이로 인하여, 상기 집단화 시 상기 화자의 입술을 인식하는 인식률이 저하되는 현상이 발생하기 때문이다.

또한, 상기 외부의 조명에 의해 상기 화자의 얼굴에 발생한 명암은, 특히, 상기 화자의 좌측 입술과, 우측 입술의 명암의 차이가 현저하게 나타나는 경우가 빈번히 발생하게 됨에 따라, 상기 제 A단계를 수행하여 상기 입술영상을 세로로 분리하는 것이다.

즉, 상기 제 A단계는, 상기 입술영상에서 상기 화자의 입술을 보다 명확하게 인식할 수 있게 하며, 상기 좌측 입술영상 및 상기 우측 입술영상은 서로 다양한 크기를 갖도록 분리할 수 있으나, 상기 좌측 입술영상 및 상기 우측 입술영상이 서로 동일한 크기로 분리하는 것이 바람직하다(S1000).

본 발명의 일실시예에 따른 모바일 장치에서의 립리딩을 위한 입술영역 결정방법은, 먼저, 상기 입술영상 중, 색상값이 유사한 픽셀들을 집단화(clustering)하여 분할함으로써, 제 1후보객체들을 생성하는 제 1단계가 수행된다.

또한, 상기 제 1단계의 집단화는 상기 A단계에서 각각 분리된 상기 좌측 입술영상 및 상기 우측 입술영상의 각 픽셀들에 대해 각각 수행되며, 상기 좌, 우측 입술영상에서 색상 벡터를 산출하는 제 1-1단계 및 상기 색상 벡터를 이용하여 집단화를 수행하는 제 1-2단계를 포함한다(S2000).

또한, 상기 제 1-1단계는 상기 좌, 우측 입술영상의 각 픽셀들을 집단화하기 위한 기준이 되는 상기 색상 벡터를 산출하기 위한 것으로, 본 발명의 일실시예에서는, 3차원으로 표현한 색공간인 RGB 색공간(RGB color space) 상에서의 상기 RGB 색상값의 좌표를 이용한다.

즉, 상기 색상 벡터는 상기 좌, 우측 입술영상의 각 픽셀들이 갖는 R(red), G(green), B(blue)의 각 색상값들에 의해 상기 RGB 색공간 상에서 (R, G, B)의 형태로 이루어지는 좌표로 산출된다(S2100).

또한, 상기 제 1-2단계는 상기 색상 벡터를 이용하여 상기 각 픽셀들을 하나의 객체로 묶어, 각 좌,우측 입술영상 내에서 서로 분할된 상기 제 1후보객체들을 생성하기 위한 것으로, 상기 K-평균 집단화 알고리즘을 이용하여 집단화하며, 상기 RGB 색공간 상에 임의의 기준점들이 형성되고, 상기 기준점들에서 가까운 상기 색상 벡터들이 상기 하나의 객체로 묶여 각 제 1후보객체들을 이루게 된다.

즉, 상기 제 1후보객체들은 서로 유사한 색상값을 갖는 상기 각 픽셀들로 이루어지는 것이다(S2200).

다음, 상기 제 2단계는 상기 제 1후보객체들의 그레이 평균값을 이용하여 제 2후보객체들을 추출한 후 신뢰도 함수를 이용하여 상기 제 2후보객체들 중 제 3후보객체들을 제거하기 위한 것으로, 상기 제 1후보객체들의 그레이 평균값을 계산하기 위한 제 2-1단계, 상기 그레이 평균값을 이용하여 상기 제 2후보객체를 추출하기 위한 제 2-2단계 및 상기 신뢰도 함수를 이용하여 상기 제 3후보객체들을 추출하기 위한 제 2-3단계를 포함한다.

또한, 상기 제 2후보객체는 상기 제 1후보객체들 중 상기 화자의 입술과의 유사도가 더 높은 후보객체들이며, 상기 제 3후보객체는 상기 제 2후보객체들 중 상기 화자의 입술과의 유사도가 낮은 후보객체들이다(S3000).

또한, 상기 제 2-1단계는, 상기 제 1후보객체들을 그레이 영상으로 변환한 후 상기 그레이 영상으로 변환된 상기 제 1후보객체들의 각 픽셀이 갖는 상기 그레이 평균값을 계산하는 단계이다.

또한, 상기 그레이 영상은 상기 제 1후보객체를 그레이 스케일(grayscale)로 변환하여 생성될 수 있으며, 예를 들면, 상기 제 1후보객체들의 각 픽셀이 갖는 RGB 색상값의 평균값을 상기 그레이 스케일로 변환하여 상기 그레이 영상으로 생성된다. 또한, 상기 그레이 평균값은 상기 그레이 영상으로 변환된 상기 제 1후보객체의 각 픽셀이 갖는 밝기의 정도를 뜻한다(S3100).

또한, 상기 제 2-2단계는, 상기 그레이 영상으로 변환된 제 1후보객체들 중 상기 그레이 평균값이 기설정된 임계값 이상인 후보객체를 상기 제 2후보객체를 추출하는 단계이다.

또한, 상기 제 2-2단계는, 제 2후보객체들 중 상기 제 1후보객체보다 밝은 후보객체가 추출되게 할 수도 있으나, 본 발명의 일실시예에서는 상기 제 2후보객체는 상기 제 1후보객체에 비해 어두운 후보객체들로 추출되며, 이는, 일반적으로 화자의 얼굴에서 코, 입술 등의 영역이 더 어둡고, 특히, 상기 입술은 주변의 피부와 구분되는 특유의 색상을 갖기 때문이다.

또한, 상기 임계값은 상기 제 2후보객체를 추출하기 위한 기준이 되는 것으로, 임의의 값이 기설정될 수도 있으며, 상기 입술영상의 전체 그레이 평균값을 상기 임계값으로 설정되게 할 수도 있다(S3200).

또한, 상기 제 2-3단계는, 상기 제 2후보객체들 중 임계 신뢰도 이하의 제 3후보객체들을 제거하기 위한 것으로, 상기 제 3후보객체들을 제거하기 위하여 상기 신뢰도 함수를 이용하는 단계이다.

또한, 상기 신뢰도 함수는 상기 제 2후보객체들의 폭(LW), 높이(LH), 기울기(LD), 수평축(LX) 및 수직축(LY)과 상기 입술영상의 폭(W) 및 높이(H)를 변수로 하여 상기 각 후보객체가 상기 화자의 입술과 유사한 정도를 수치화하여 비교하게 되며, 상기 임계 신뢰도는 상기 제 2후보객체들의 신뢰도 중 가장 낮은 신뢰도로 설정되게 하거나, 상기 제 2후보객체들의 각 신뢰도의 평균으로 설정될 수도 있다(S3300).

다음, 제 3단계는 상기 제 2후보객체들의 픽셀들 중 임계 Y축 좌표값 이외의 Y축 좌표값을 갖는 픽셀들을 제거하고, 상기 집단화를 재수행하여 제 4후보객체들을 추출하며, 임계 Y축 좌표값을 산출하는 제 3-1단계, 임계 Y축 좌표값 이외의 픽셀들을 제거하는 제 3-2단계 및 집단화를 이용하여 제 4후보객체를 추출하는 제 3-3단계를 포함한다.

또한, 상기 임계 Y축 좌표값은 평균적인 화자의 눈과 입술과의 거리를 기반으로 선택되는 것으로, 상기 화자의 얼굴이 포함된 전체영상에서 상기 화자의 눈의 위치를 결정한 후 상기 화자의 눈에서부터 일정한 거리를 갖는 Y축 상의 좌표값이 선택된다(S4000).

또한, 상기 제 3-1단계는, 평균적인 화자의 눈과 입술과의 거리를 기반으로 상기 임계 Y축 좌표값의 범위를 산출하기 위한 단계이며, 상기 임계 Y축 좌표값은 상기 입술영상의 Y축 상에서 일정한 범위를 가지며, 상기 화자의 얼굴이 포함된 전체영상에서 상기 임계 Y축 좌표값을 입력받아 수행된다(S4100).

또한, 상기 제 3-2단계는, 상기 임계 Y축 좌표값을 이용하여 상기 제 2후보객체의 픽셀들을 제거하기 위한 단계이며, 구체적으로는, 상기 제 2후보객체의 픽셀들 중 상기 임계 Y축 좌표값 이외의 상기 Y축 좌표값을 갖는 픽셀들을 제거하게 된다.

즉, 상기 제 3-1단계 및 상기 제 3-2단계는, 상기 전체영상에서 상기 화자의 눈과 입술이 이루는 거리의 평균적인 비율을 이용하여 상기 화자의 입술이 위치할 가능성이 높은 상기 Y축 좌표값을 이외의 Y축 좌표값을 제거하여, 상기 화자의 입술의 아래에 그림자가 발생하거나, 상기 입술 주변의 밝고 어두운 정도가 현저하게 상이한 경우에도, 상기 화자의 입술에 유사한 상기 제 2후보객체를 선별할 수 있게 한다(S4200).

또한, 상기 제 3-3단계는, 상기 제 2후보객체들의 각 픽셀을 대상으로 상기 집단화를 재수행하여, 상기 제 4후보객체들을 추출하는 단계이며, 상기 집단화는 K-평균 집단화 알고리즘이 사용된다.

또한, 상기 제 3-3단계는 상기 임계 Y축 좌표값에 의해 제거된 픽셀들에 의해, 상기 제 4후보객체가 상기 화자의 입술의 형태에 보다 유사한 후보객체들이 추출될 수 있게 한다(S4300).

다음, 제 4단계는 상기 신뢰도 함수를 이용하여 상기 제 4후보객체들의 신뢰도를 계산하고, 상기 제 4후보객체들 중 가장 높은 신뢰도를 갖는 제 5후보객체를 상기 입술영역으로 결정하는 단계이며, 상기 제 5후보객체는 상기 제 4후보객체들 중 상기 신뢰도가 가장 높은 하나의 후보객체이다.

또한, 상기 제 4단계는, 제 5후보객체를 선정하는 제 4-1단계, 상기 5후보객체의 중심점의 좌표를 획득하는 제 4-2단계 및상기 중심점을 중심으로 상기 입술영역을 결정하는 제 4-3단계를 포함한다(S5000).

또한, 상기 제 4-1단계는 상기 제 4후보객체들 중 상기 제 5후보객체를 선정하는 단계로, 상기 신뢰도 함수를 이용하여, 상기 제 4후보객체들 중 상기 화자의 입술과의 유사한 정도가 가장 높은 상기 제 5후보객체를 선정한다(S5100).

또한, 상기 제 4-2단계는 상기 제 5후보객체의 중심점을 획득하기 위한 단계로, 상기 제 5후보객체의 최소 X축 좌표값과, 최대 X축 좌표값을 선으로 연결하는 수평길이를 계산한 후 상기 수평길이의 선상에 위치하고 상기 최소 X축 좌표값 및 상기 최대 X축 좌표값의 중심에 위치하는 상기 중심점의 좌표를 획득한다.(S5200).

또한, 상기 제 4-3단계는 상기 중심점을 중심으로 하는 사각형 영역을 설정하여, 상기 사각형 영역을 상기 입술영역으로 결정하는 단계로, 상기 사각형 영역의 상변 및 하변의 길이는 상기 수평길이와 동일하며 일정한 높이를 갖으며, 상기 사각형 영역의 각 변의 길이가 상기 수평길이와 동일한 정사각형 형태로 구비될 수도 있다(S5300).

이상에서 살펴본 바와 같이 본 발명은 바람직한 실시예를 들어 도시하고 설명하였으나, 상기한 실시예에 한정되지 아니하며 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통산의 지식을 가진 자에 의해 다양한 변경과 수정이 가능할 것이다.

Claims

입술영상을 분석하여 화자의 입술 움직임을 인식하는 립리딩(lipreading) 시 상기 입술영상 내에서 입술영역을 결정하기 위한 입술영역 결정방법에 있어서,
상기 입술영상 중, RGB 색상값이 유사한 픽셀들을 집단화(clustering)하여 분할함으로써, 제 1후보객체들을 생성하는 제 1단계;
상기 각 제 1후보객체의 픽셀들의 그레이 평균값이 임계값 이상인 제 2후보객체들을 추출하고, 기준이 되는 기준입술영상과의 유사도를 수치화한 신뢰도 함수를 이용하여 상기 제 2후보객체들 중 임계 신뢰도 이하의 제 3후보객체들을 제거하는 제 2단계;
상기 제 2후보객체들의 픽셀들 중 임계 Y축 좌표값 이외의 Y축 좌표값을 갖는 픽셀들을 제거하고, 상기 집단화를 재수행하여 제 4후보객체들을 추출하는 제 3단계;
상기 신뢰도 함수를 이용하여 상기 제 4후보객체들의 신뢰도를 계산하고, 상기 제 4후보객체들 중 가장 높은 신뢰도를 갖는 제 5후보객체를 상기 입술영역으로 결정하는 제 4단계;를 포함하며,
상기 신뢰도 함수는, 상기 입술영상의 폭 및 높이와, 상기 각 후보객체의 폭, 높이, 기울기, 상기 입술영상의 X축 상에서 상기 각 후보객체의 최소 및 최대 X축 좌표값들이 연결된 수평축 및 상기 입술영상의 Y축 상에서 상기 각 후보객체의 최소 및 최대 Y축 좌표값들이 연결된 선인 수직축을 변수로 하여, 상기 후보객체가 상기 화자의 입술과 유사한 정도를 상기 신뢰도로 수치화한 것이며,
상기 후보객체의 폭(LW)과, 상기 입술영상의 폭(W)이 이루는 비율을 계산하여 제 1신뢰도를 산출하는 제 1신뢰도 함수;
상기 후보객체의 높이(LH)와, 상기 후보객체의 폭(LW)이 이루는 비율을 계산하여 제 2신뢰도를 산출하는 제 2신뢰도 함수;
상기 후보객체가 갖는 기울기(LD)을 계산하여 제 3신뢰도를 산출하는 제 3신뢰도 함수;
상기 후보객체의 수평축(LX) 및 상기 입술영상의 폭(W)이 이루는 비율을 계산하여 제 4신뢰도를 산출하는 제 4신뢰도 함수; 및
상기 후보객체의 수직축(LY) 및 상기 입술영상의 높이(H)가 이루는 비율을 계산하여 제 5신뢰도를 산출하는 제 5신뢰도 함수;를 포함하며,
상기 제 1신뢰도, 제 2신뢰도, 제 3신뢰도, 제 4신뢰도 및 제 5신뢰도을 모두 곱한 값을 상기 신뢰도로 계산하는 것을 특징으로 하는 입술영역 결정방법.
제 1항에 있어서,
상기 제 1단계 이전에, 상기 입술영상을 좌측 입술영상과, 우측 입술영상으로 세로로 분리하는 제 A단계;를 더 포함하고,
상기 제 1단계의 집단화는 상기 좌측 입술영상 및 상기 우측 입술영상에 대해 각각 수행되는 것을 특징으로 하는 입술영역 결정방법.
제 1항 또는 제 2항에 있어서,
상기 집단화는, K-평균 집단화 알고리즘(k-means clustering algorithm)을 이용한 것을 특징으로 하는 입술영역 결정방법.
제 1항에 있어서,
상기 임계 Y축 좌표값은, 평균적인 화자의 눈과 입술과의 거리를 기반으로 선택되는 것을 특징으로 하는 입술영역 결정방법.
제 2항에 있어서,
상기 제 1단계:는
상기 좌, 우측 입술영상의 각 픽셀의 RGB 색상값으로 이루어지는 색상 벡터를 산출하는 1-1단계; 및
상기 색상 벡터를 이용하여, 집단화하여 상기 제 1후보객체들로 분할하는 제 1-2단계;를 더 포함하는 것을 특징으로 하는 입술영역 결정방법.
제 1항에 있어서,
상기 제 2단계:는
상기 제 1후보객체들을 그레이 영상으로 변환하고, 상기 각 그레이 영상의 픽셀들의 상기 그레이 평균값을 계산하는 제 2-1단계;
상기 제 1후보객체들 중 상기 그레이 평균값이 상기 임계값 이상인 상기 제 2후보객체를 추출하는 제 2-2단계; 및
상기 신뢰도 함수를 이용하여, 상기 제 2후보객체들 중 임계 신뢰도 이하의 제 3후보객체들을 제거하는 제 2-3단계;를 더 포함하는 것을 특징으로 하는 입술영역 결정방법.
제 1항에 있어서,
상기 제 3단계:는
평균적인 화자의 눈과 입술과의 거리를 기반으로 상기 임계 Y축 좌표값의 범위를 산출하는 제 3-1단계;
상기 제 2후보객체의 픽셀들 중 상기 임계 Y축 좌표값 이외의 상기 Y축 좌표값을 갖는 픽셀들을 제거하는 제 3-2단계; 및
상기 제 2후보객체들의 각 픽셀을 대상으로 상기 집단화를 재수행하여, 상기 제 4후보객체들을 추출하는 제 3-3단계;를 더 포함하는 것을 특징으로 하는 입술영역 결정방법.
제 1항에 있어서,
상기 제 4단계:는
상기 신뢰도 함수를 상기 제 4후보객체들에 적용하여, 상기 제 5후보객체를 선정하는 제 4-1단계;
상기 제 5후보객체의 수평길이를 계산하고, 상기 수평길이의 중심점의 좌표값을 획득하는 제 4-2단계; 및
상기 중심점을 중심으로 하고 상기 수평길이를 상변 및 하변의 길이로 하며 일정한 높이를 갖는 사각형 영역을 설정하여, 상기 사각형 영역을 상기 입술영역으로 결정하는 제 4-3단계;를 더 포함하는 것을 특징으로 하는 입술영역 결정방법.
삭제
삭제
제 1항에 있어서,
상기 제 1신뢰도 함수는 아래의 수학식 1을 이용하여, 상기 후보객체의 폭의 제 1신뢰도를 계산하는 것을 특징으로 하는 입술영역 결정방법.
[수학식 1]

여기서, LW는 상기 후보객체의 폭이고, 상기 W는 상기 입술영상의 폭이다.
제 1항에 있어서,
상기 제 2신뢰도 함수는 아래의 수학식 2를 이용하여, 상기 후보객체의 높이의 제 2신뢰도를 계산하는 것을 특징으로 하는 입술영역 결정방법.
[수학식 2]

여기서, LH는 상기 후보객체의 높이이고, 상기 LW는 상기 후보객체의 폭이다.
제 1항에 있어서,
상기 제 3신뢰도 함수는 아래의 수학식 3을 이용하여, 상기 후보객체의 기울기의 제 3신뢰도를 계산하는 것을 특징으로 하는 입술영역 결정방법.
[수학식 3]

여기서, LD는 상기 입술영상의 X축을 기준으로 상기 후보객체가 특정한 방향으로 기울어진 정도를 나타낸다.
제 1항에 있어서,
상기 제 4신뢰도 함수는 아래의 수학식 4를 이용하여, 상기 후보객체의 수평축의 제 4신뢰도를 계산하는 것을 특징으로 하는 입술영역 결정방법.
[수학식 4]

여기서, LX는 상기 후보객체의 수평축이고, W는 상기 입술영상의 폭이다.
제 1항에 있어서,
상기 제 5신뢰도 함수는 아래의 수학식 5를 이용하여, 상기 후보객체의 수직축의 제 5신뢰도를 계산하는 것을 특징으로 하는 입술영역 결정방법.
[수학식 5]

여기서, LY는 상기 후보객체의 수직축이고, H는 상기 입술영상의 폭이다.