WO2014046401A1

WO2014046401A1 - 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법

Info

Publication number: WO2014046401A1
Application number: PCT/KR2013/008005
Authority: WO
Inventors: 김상철
Original assignee: Kim Sang Cheol
Priority date: 2012-09-18
Filing date: 2013-09-05
Publication date: 2014-03-27
Also published as: JP6333260B2; US9372852B2; EP2899718A4; JP2016502157A; CN104756188A; EP2899718A1; KR101378811B1; KR20140037410A; US20150242394A1

Abstract

단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법이 개시된다. 본 발명의 실시예들은 사용자가 카메라를 통해 자신의 얼굴을 촬영하면서, 마이크로폰을 통해 음성을 입력한 경우, 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 입술이 위치하는 영역을 구분하고, 상기 사용자의 음성을 인식하여 상기 구분된 입술이 위치하는 영역에 대해, 상기 인식된 음성에 대응되는 단어가 다른 언어로 번역될 경우에 대한 입술 모양을 표현하는 부분 영상을 삽입함으로써, 사용자가 음성으로 입력한 단어가 다른 언어로 번역될 때, 그에 해당되는 입술 모양도 자동으로 변경될 수 있도록 할 수 있다.

Description

단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법

본 발명의 실시예들은 사용자의 얼굴을 촬영하고, 사용자의 음성을 인식한 후 사용자의 얼굴 영상에 포함된 입술 모양을 사용자의 음성에 따른 단어가 다른 언어의 단어로 번역될 경우에 대한 입술 모양으로 변경할 수 있는 기술에 대한 것이다.

최근, 화상 통화나 화상 채팅 등과 같은 영상 기반의 커뮤니케이션과 관련된 기술이 등장하면서, 이에 대한 관심이 증가하고 있다.

영상 기반의 커뮤니케이션은 기존의 음성 기반의 커뮤니케이션과 달리, 수신자의 단말 장치에서 화자의 음성이 출력될 뿐만 아니라, 화자의 얼굴에 대한 영상이 디스플레이되기 때문에 화자와 수신자 사이에 좀 더 정확한 커뮤니케이션이 수행될 수 있도록 지원한다.

또한, 최근에는 인터넷 등의 발달로 인해, 국제적으로 커뮤니케이션을 수행하는 경우가 증가하고 있다. 이때, 커뮤니케이션 양 당사자 간의 언어가 서로 차이가 나는 경우, 양 당사자 간의 커뮤니케이션이 원활하게 이루어지지 않을 수 있다.

이로 인해, 화자의 음성을 인식하여 인식된 음성을 다른 언어로 자동으로 번역해 주는 기술도 등장하고 있다.

하지만, 영상 기반의 커뮤니케이션에서 단순히 화자의 음성을 다른 언어로 번역해 주기만 할 뿐, 화자의 입모양을 번역된 언어에 해당하는 입모양으로 변환하여 제공해 주지 않는다면, 수신자가 화자의 의도를 완벽하게 이해하기 어려울 수 있다.

따라서, 영상 기반의 커뮤니케이션과 관련하여 화자의 음성을 다른 언어로 번역함과 동시에 화자의 입모양도 번역된 언어에 대응되는 입모양으로 변환해 줄 수 있는 기술에 대한 연구가 필요하다.

본 발명의 실시예들은 사용자가 카메라를 통해 자신의 얼굴을 촬영하면서, 마이크로폰을 통해 음성을 입력한 경우, 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 입술이 위치하는 영역을 구분하고, 상기 사용자의 음성을 인식하여 상기 구분된 입술이 위치하는 영역에 대해, 상기 인식된 음성에 대응되는 단어가 다른 언어로 번역될 경우에 대한 입술 모양을 표현하는 부분 영상을 삽입함으로써, 사용자가 음성으로 입력한 단어가 다른 언어로 번역될 때, 그에 해당되는 입술 모양도 자동으로 변경될 수 있도록 한다.

본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치는 제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장된 단어 데이터베이스, 상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된(predetermined) 입술 모양 영상 데이터들이 저장된 영상 데이터베이스, 카메라를 통해 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하는 영역 검출부, 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분하는 영역 구분부, 마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 상기 단어 데이터베이스로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출하는 단어 검출부, 상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 상기 단어 데이터베이스로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출하는 번역 단어 추출부, 상기 영상 데이터베이스로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출하는 영상 데이터 추출부 및 상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입하는 영상 삽입부를 포함한다.

또한, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 방법은 제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장된 단어 데이터베이스를 유지하는 단계, 상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된 입술 모양 영상 데이터들이 저장된 영상 데이터베이스를 유지하는 단계, 카메라를 통해 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하는 단계, 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분하는 단계, 마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 상기 단어 데이터베이스로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출하는 단계, 상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 상기 단어 데이터베이스로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출하는 단계, 상기 영상 데이터베이스로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출하는 단계 및 상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입하는 단계를 포함한다.

본 발명의 실시예들은 사용자가 카메라를 통해 자신의 얼굴을 촬영하면서, 마이크로폰을 통해 음성을 입력한 경우, 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 입술이 위치하는 영역을 구분하고, 상기 사용자의 음성을 인식하여 상기 구분된 입술이 위치하는 영역에 대해, 상기 인식된 음성에 대응되는 단어가 다른 언어로 번역될 경우에 대한 입술 모양을 표현하는 부분 영상을 삽입함으로써, 사용자가 음성으로 입력한 단어가 다른 언어로 번역될 때, 그에 해당되는 입술 모양도 자동으로 변경될 수 있도록 할 수 있다.

도 1은 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치의 구조를 도시한 도면이다.

도 2는 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 방법을 도시한 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

도 1을 참조하면, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 단어 데이터베이스(111), 영상 데이터베이스(112), 영역 검출부(113), 영역 구분부(114), 단어 검출부(115), 영상 데이터 추출부(117) 및 영상 삽입부(118)를 포함한다.

여기서, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 데스크탑 PC, 모바일 단말, PDA, 노트북, 태블릿 PC 등 사용자를 촬영할 수 있는 카메라와 사용자의 음성을 입력받을 수 있는 마이크로폰이 탑재되어 있거나 상기 카메라와 마이크로폰을 탈착할 수 있는 형태로 구성된 마이크로프로세서 기반의 장치를 기반으로 구현될 수 있다.

단어 데이터베이스(111)에는 제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장되어 있다.

예컨대, 상기 제1 언어가 한국어이고, 상기 제2 언어가 영어일 경우, 단어 데이터베이스(111)에는 하기의 표 1과 같이 한국어로 구성된 복수의 단어들과, 상기 한국어로 구성된 복수의 단어들 각각에 대해 영어로 번역된 복수의 단어들이 서로 대응되도록 저장되어 있을 수 있다.

표 1

한국어(제1 언어)로 구성된 복수의 단어들	영어(제2 언어)로 구성된 복수의 단어들
안녕하세요	Hello
이름	Name
날씨	Weather
…	…

영상 데이터베이스(112)에는 상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된(predetermined) 입술 모양 영상 데이터들이 저장되어 있다.

예컨대, 상기 제2 언어가 영어인 경우, 영상 데이터베이스(112)에는 영어로 번역된 복수의 단어들 중 'Hello'라는 단어에 대해서 'Hello'라는 단어에 대한 발음에 대응되는 미리 제작해 놓은 입술 모양 영상 데이터가 저장되어 있을 수 있다.

이렇게, 단어 데이터베이스(111)와 영상 데이터베이스(112)에 정보가 저장되어 있는 상황 하에서 사용자가 화상 통화를 하거나 화상 채팅을 수행하기 위해 단어 자동 번역에 기초한 입술 모양 변경 장치(110)의 카메라를 통해 자신의 얼굴을 촬영하는 경우, 영역 검출부(113)는 상기 카메라를 통해 상기 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출한다.

이때, 본 발명의 일실시예에 따르면, 영역 검출부(113)는 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출할 수 있다.

이때, 영역 검출부(113)는 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들 중에서 색상 값이 얼굴의 피부색과 연관된 선정된 제1 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 얼굴 영역을 검출할 수 있다.

이와 관련하여, 영역 검출부(113)의 동작에 대해 보다 상세히 설명하면, 다음과 같다.

먼저, 영역 검출부(113)에는 얼굴의 피부색과 연관된 선정된 제1 색상 값 범위가 설정되어 있을 수 있다. 예컨대, 영역 검출부(113)에는 상기 선정된 제1 색상 값 범위로 노란색에 해당되는 색상 값부터 주황색에 해당되는 색상 값까지의 범위가 설정되어 있을 수 있다.

이때, 상기 카메라를 통해 상기 사용자의 얼굴이 촬영되면, 영역 검출부(113)는 상기 카메라를 통해 촬영된 영상으로부터 배경 등의 영상을 제외하고, 상기 사용자의 얼굴 영역을 검출하기 위해, 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들의 색상 값을 확인할 수 있다.

그리고 나서, 영역 검출부(113)는 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들 중에서 색상 값이 상기 선정된 제1 색상 값 범위인 노란색에서 주황색까지의 색상 값 범위에 해당하는 화소들을 구분한 후 상기 구분된 화소들로 구성되는 영역을 상기 사용자의 얼굴 영역으로 검출할 수 있다.

즉, 사람의 얼굴은 특유의 피부색을 가지고 있기 때문에 영역 검출부(113)는 상기 카메라를 통해 촬영된 영상으로부터 상기 피부색에 해당되는 색상 값을 갖는 화소들을 구분함으로써, 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출할 수 있다.

영역 검출부(113)에서 상기 사용자의 얼굴 영역에 대한 검출이 완료되면, 영역 구분부(114)는 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분한다.

이때, 본 발명의 일실시예에 따르면, 영역 구분부(114)는 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 사용자의 입술이 위치하는 영역을 구분할 수 있다.

이때, 영역 구분부(114)는 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들 중에서 색상 값이 입술의 색상과 연관된 선정된 제2 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 입술이 위치하는 영역을 구분할 수 있다.

이와 관련하여, 영역 구분부(114)의 동작에 대해 보다 상세히 설명하면, 다음과 같다.

먼저, 영역 구분부(114)에는 입술의 색상과 연관된 선정된 제2 색상 값 범위가 설정되어 있을 수 있다. 예컨대, 영역 구분부(114)에는 상기 선정된 제2 색상 값 범위로 분홍색에 해당되는 색상 값부터 빨간색에 해당되는 색상 값까지의 범위가 설정되어 있을 수 있다.

이때, 영역 검출부(113)에서 상기 사용자의 얼굴 영역에 대한 검출이 완료되면, 영역 구분부(114)는 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분하기 위해, 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들의 색상 값을 확인할 수 있다.

그리고 나서, 영역 구분부(114)는 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들 중에서 색상 값이 상기 선정된 제2 색상 값 범위인 분홍색에서 빨간색까지의 색상 값 범위에 해당하는 화소들을 구분한 후 상기 구분된 화소들로 구성되는 영역을 상기 사용자의 입술이 위치하는 영역으로 구분할 수 있다.

즉, 사람의 입술은 피부색과 구분될 수 있는 특유의 색상을 가지고 있기 때문에 영역 구분부(114)는 상기 검출된 얼굴 영역으로부터 입술의 색상에 해당되는 색상 값을 갖는 화소들을 구분함으로써, 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분할 수 있다.

사용자가 화상 통화나 화상 채팅을 수행하면서, 앞서 설명한 바와 같이 카메라를 통해 자신의 얼굴을 촬영함과 동시에 단어 자동 번역에 기초한 입술 모양 변경 장치(110)의 마이크로폰을 통해 음성을 입력하는 경우, 단어 검출부(115)는 상기 마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 단어 데이터베이스(111)로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출한다.

예컨대, 상기 사용자가 상기 마이크로폰을 통해 '안녕하세요'라는 단어를 입력한 경우, 단어 검출부(115)는 상기 사용자의 음성을 인식하여 단어 데이터베이스(111)로부터 상기 인식된 사용자의 음성에 대응되는 단어인 '안녕하세요'라는 단어를 검출할 수 있다.

만약, 상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 번역 단어 추출부(116)는 단어 데이터베이스(111)로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출할 수 있다.

예컨대, 단어 데이터베이스(111)에 상기 표 1과 같은 정보가 저장되어 있고, 단어 검출부(115)에서 '안녕하세요'라는 한국어 단어가 검출된 경우, 번역 단어 추출부(116)는 단어 데이터베이스(111)로부터 '안녕하세요'라는 한국어 단어에 대응되는 'Hello'라고 하는 영어로 번역된 단어를 추출할 수 있다.

번역 단어 추출부(116)에서 상기 제2 언어로 번역된 단어의 추출이 완료되면, 영상 데이터 추출부(117)는 영상 데이터베이스(112)로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출한다.

예컨대, 번역 단어 추출부(116)에서 'Hello'라고 하는 영어로 번역된 단어가 추출된 경우, 영상 데이터 추출부(117)는 영상 데이터베이스(112)로부터 'Hello'라고 하는 영어로 번역된 단어에 대응되어 저장되어 있는 입술 모양 영상 데이터를 추출할 수 있다.

영상 데이터 추출부(117)에서 상기 입술 모양 영상 데이터의 추출이 완료되면, 영상 삽입부(118)는 상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입한다.

결국, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 사용자가 카메라를 통해 자신의 얼굴을 촬영하면서, 마이크로폰을 통해 음성을 입력한 경우, 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 입술이 위치하는 영역을 구분하고, 상기 사용자의 음성을 인식하여 상기 구분된 입술이 위치하는 영역에 대해, 상기 인식된 음성에 대응되는 단어가 다른 언어로 번역될 경우에 대한 입술 모양을 표현하는 부분 영상을 삽입함으로써, 사용자가 음성으로 입력한 단어가 다른 언어로 번역될 때, 그에 해당되는 입술 모양도 자동으로 변경될 수 있도록 할 수 있다.

본 발명의 일실시예에 따르면, 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 타임스탬프 기록부(121)를 더 포함할 수 있다.

타임스탬프 기록부(121)는 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터와 상기 마이크로폰을 통해 입력된 음성을 구성하는 음성 데이터에 대해, 선정된 주기 간격으로 상기 카메라를 통해 상기 사용자의 얼굴이 촬영되는 시각과 상기 마이크로폰을 통해 상기 사용자의 음성이 입력되는 시각 사이의 시간 동기화와 연관된 적어도 하나의 타임스탬프를 기록한다.

예컨대, 0초부터 30초까지 상기 카메라를 통해 사용자의 얼굴이 촬영되었고, 동시에 상기 마이크로폰을 통해 상기 사용자의 음성이 입력된 경우, 타임스탬프 기록부(121)는 0초에서 30초까지에 해당되는 영상 데이터와 음성 데이터에 대해, 선정된 주기 간격으로 영상이 촬영되는 시각과 음성이 입력되는 시각 사이의 시간 동기화와 연관된 상기 적어도 하나의 타임스탬프를 기록할 수 있다.

만약, 상기 선정된 주기가 5초인 경우, 타임스탬프 기록부(121)는 0초에서 30초까지에 해당되는 영상 데이터와 음성 데이터 각각에 대해 5초 간격으로 상기 시간 동기화와 연관된 타임스탬프를 기록할 수 있다.

이때, 영상 삽입부(118)는 상기 적어도 하나의 타임스탬프를 참조하여 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터 중에서 상기 인식된 사용자의 음성이 입력된 시점에 대응되는 영상 데이터에 대해 상기 부분 영상을 삽입할 수 있다.

즉, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 타임스탬프 기록부(121)를 통해 상기 영상 데이터와 상기 음성 데이터 간의 시간 동기화와 연관된 상기 적어도 하나의 타임스탬프를 기록해 둠으로써, 영상 삽입부(118)가 상기 카메라를 통해 촬영된 영상에 대해서, 사용자가 음성으로 입력한 단어의 번역된 단어에 대응하는 입술 모양 영상을 적절한 시점에 삽입할 수 있도록 보조할 수 있다.

본 발명의 일실시예에 따르면, 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 영상 출력부(119)를 더 포함할 수 있다.

영상 출력부(119)는 상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상을 출력한다.

이를 통해, 사용자는 번역된 단어에 따라 자신의 입술 모양이 변경된 최종 영상을 볼 수 있다.

또한, 본 발명의 일실시예에 따르면, 단어 자동 번역에 기초한 입술 모양 변경 장치(110)는 데이터 전송부(120)를 더 포함할 수 있다.

데이터 전송부(120)는 상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상에 대한 영상 데이터를 수신자의 단말 장치(130)로 전송한다.

즉, 사용자가 단어 자동 번역에 기초한 입술 모양 변경 장치(110)를 이용하여 다른 사람과 화상 통화나 화상 채팅을 하는 경우, 데이터 전송부(120)는 입술 모양의 변경이 완료된 최종 영상을 수신자의 단말 장치(130)로 전송함으로써, 화상 통화나 화상 채팅이 가능하도록 보조할 수 있다.

단계(S210)에서는 제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장된 단어 데이터베이스를 유지한다.

단계(S220)에서는 상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된 입술 모양 영상 데이터들이 저장된 영상 데이터베이스를 유지한다.

단계(S230)에서는 카메라를 통해 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출한다.

단계(S240)에서는 상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분한다.

이때, 본 발명의 일실시예에 따르면, 단계(S230)에서는 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출할 수 있고, 단계(S240)에서는 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 사용자의 입술이 위치하는 영역을 구분할 수 있다.

이때, 본 발명의 일실시예에 따르면, 단계(S230)에서는 상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들 중에서 색상 값이 얼굴의 피부색과 연관된 선정된 제1 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 얼굴 영역을 검출할 수 있고, 단계(S240)에서는 상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들 중에서 색상 값이 입술의 색상과 연관된 선정된 제2 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 입술이 위치하는 영역을 구분할 수 있다.

단계(S250)에서는 마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 상기 단어 데이터베이스로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출한다.

단계(S260)에서는 상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 상기 단어 데이터베이스로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출한다.

단계(S270)에서는 상기 영상 데이터베이스로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출한다.

단계(S280)에서는 상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입한다.

이때, 본 발명의 일실시예에 따르면, 상기 단어 자동 번역에 기초한 입술 모양 변경 방법은 단계(S250)이후에 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터와 상기 마이크로폰을 통해 입력된 음성을 구성하는 음성 데이터에 대해, 선정된 주기 간격으로 상기 카메라를 통해 상기 사용자의 얼굴이 촬영되는 시각과 상기 마이크로폰을 통해 상기 사용자의 음성이 입력되는 시각 사이의 시간 동기화와 연관된 적어도 하나의 타임스탬프를 기록하는 단계를 더 포함할 수 있다.

이때, 단계(S280)에서는 상기 적어도 하나의 타임스탬프를 참조하여 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터 중에서 상기 인식된 사용자의 음성이 입력된 시점에 대응되는 영상 데이터에 대해 상기 부분 영상을 삽입할 수 있다.

또한, 본 발명의 일실시예에 따르면, 상기 단어 자동 번역에 기초한 입술 모양 변경 방법은 단계(S280)이후에 상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상을 출력하는 단계를 더 포함할 수 있다.

또한, 본 발명의 일실시예에 따르면, 상기 단어 자동 번역에 기초한 입술 모양 변경 방법은 단계(S280)이후에 상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상에 대한 영상 데이터를 수신자의 단말 장치로 전송하는 단계를 더 포함할 수 있다.

이상, 도 2를 참조하여 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 방법은 도 1을 이용하여 설명한 단어 자동 번역에 기초한 입술 모양 변경 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.

본 발명의 일실시예에 따른 단어 자동 번역에 기초한 입술 모양 변경 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장된 단어 데이터베이스;

상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된(predetermined) 입술 모양 영상 데이터들이 저장된 영상 데이터베이스;

카메라를 통해 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하는 영역 검출부;

상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분하는 영역 구분부;

마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 상기 단어 데이터베이스로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출하는 단어 검출부;

상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 상기 단어 데이터베이스로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출하는 번역 단어 추출부;

상기 영상 데이터베이스로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출하는 영상 데이터 추출부; 및

상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입하는 영상 삽입부

를 포함하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
제1항에 있어서,

상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상을 출력하는 영상 출력부

를 더 포함하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
제1항에 있어서,

상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상에 대한 영상 데이터를 수신자의 단말 장치로 전송하는 데이터 전송부

를 더 포함하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
제1항에 있어서,

상기 영역 검출부는

상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하고,

상기 영역 구분부는

상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 사용자의 입술이 위치하는 영역을 구분하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
제4항에 있어서,

상기 영역 검출부는

상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들 중에서 색상 값이 얼굴의 피부색과 연관된 선정된 제1 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 얼굴 영역을 검출하고,

상기 영역 구분부는

상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들 중에서 색상 값이 입술의 색상과 연관된 선정된 제2 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 입술이 위치하는 영역을 구분하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
제1항에 있어서,

상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터와 상기 마이크로폰을 통해 입력된 음성을 구성하는 음성 데이터에 대해, 선정된 주기 간격으로 상기 카메라를 통해 상기 사용자의 얼굴이 촬영되는 시각과 상기 마이크로폰을 통해 상기 사용자의 음성이 입력되는 시각 사이의 시간 동기화와 연관된 적어도 하나의 타임스탬프를 기록하는 타임스탬프 기록부

를 더 포함하고,

상기 영상 삽입부는

상기 적어도 하나의 타임스탬프를 참조하여 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터 중에서 상기 인식된 사용자의 음성이 입력된 시점에 대응되는 영상 데이터에 대해 상기 부분 영상을 삽입하는 단어 자동 번역에 기초한 입술 모양 변경 장치.
제1 언어로 구성된 복수의 단어들과, 상기 제1 언어로 구성된 복수의 단어들 각각에 대해 제2 언어로 번역된 복수의 단어들이 서로 대응되도록 저장된 단어 데이터베이스를 유지하는 단계;

상기 제2 언어로 번역된 복수의 단어들 각각에 대한 발음에 대응되는 복수의 선정된(predetermined) 입술 모양 영상 데이터들이 저장된 영상 데이터베이스를 유지하는 단계;

카메라를 통해 사용자의 얼굴을 촬영하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하는 단계;

상기 검출된 얼굴 영역으로부터 상기 사용자의 입술이 위치하는 영역을 구분하는 단계;

마이크로폰을 통해 상기 사용자의 음성을 입력받아, 상기 입력된 사용자의 음성을 인식하여 상기 단어 데이터베이스로부터 상기 인식된 사용자의 음성에 대응되는 단어를 검출하는 단계;

상기 검출된 단어가 상기 제1 언어로 구성된 단어인 경우, 상기 단어 데이터베이스로부터 상기 검출된 제1 언어로 구성된 단어에 대응되는 상기 제2 언어로 번역된 단어를 추출하는 단계;

상기 영상 데이터베이스로부터 상기 추출된 제2 언어로 번역된 단어에 대한 발음에 대응되는 입술 모양 영상 데이터를 추출하는 단계; 및

상기 카메라를 통해 촬영된 영상 중에서 상기 구분된 사용자의 입술이 위치하는 영역에 대해, 상기 추출된 입술 모양 영상 데이터에 대응되는 부분 영상을 삽입하는 단계

를 포함하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
제7항에 있어서,

상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상을 출력하는 단계

를 더 포함하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
제7항에 있어서,

상기 카메라를 통해 촬영된 영상에 대해 상기 부분 영상의 삽입이 완료되면, 상기 부분 영상의 삽입이 완료된 최종 영상에 대한 영상 데이터를 수신자의 단말 장치로 전송하는 단계

를 더 포함하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
제7항에 있어서,

상기 사용자의 얼굴 영역을 검출하는 단계는

상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 카메라를 통해 촬영된 영상으로부터 상기 사용자의 얼굴 영역을 검출하고,

상기 사용자의 입술이 위치하는 영역을 구분하는 단계는

상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들의 색상 값에 기초하여 상기 사용자의 입술이 위치하는 영역을 구분하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
제10항에 있어서,

상기 사용자의 얼굴 영역을 검출하는 단계는

상기 카메라를 통해 촬영된 영상을 구성하는 복수의 화소들 중에서 색상 값이 얼굴의 피부색과 연관된 선정된 제1 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 얼굴 영역을 검출하고,

상기 사용자의 입술이 위치하는 영역을 구분하는 단계는

상기 검출된 얼굴 영역에 대응되는 영상을 구성하는 복수의 화소들 중에서 색상 값이 입술의 색상과 연관된 선정된 제2 색상 값 범위에 해당하는 색상 값을 갖는 화소들을 구분하여 상기 사용자의 입술이 위치하는 영역을 구분하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
제7항에 있어서,

상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터와 상기 마이크로폰을 통해 입력된 음성을 구성하는 음성 데이터에 대해, 선정된 주기 간격으로 상기 카메라를 통해 상기 사용자의 얼굴이 촬영되는 시각과 상기 마이크로폰을 통해 상기 사용자의 음성이 입력되는 시각 사이의 시간 동기화와 연관된 적어도 하나의 타임스탬프를 기록하는 단계

를 더 포함하고,

상기 부분 영상을 삽입하는 단계는

상기 적어도 하나의 타임스탬프를 참조하여 상기 카메라를 통해 촬영된 영상을 구성하는 영상 데이터 중에서 상기 인식된 사용자의 음성이 입력된 시점에 대응되는 영상 데이터에 대해 상기 부분 영상을 삽입하는 단어 자동 번역에 기초한 입술 모양 변경 방법.
제7항 내지 제12항 중 어느 한 항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.