KR102180805B1

KR102180805B1 - 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템

Info

Publication number: KR102180805B1
Application number: KR1020190144369A
Authority: KR
Inventors: 김주원; 김민서; 송동민
Original assignee: 네오코믹스 주식회사
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-11-19

Abstract

본 발명은 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 관한 것으로서, 서로 다른 음색을 가진 다수의 텍스트 음성 전환(TTS)용 음성(이하 TTS 음성)을 성별 또는 나이에 따라 사전에 분류하여 저장하는 TTS음성 관리부; 다수의 컷으로 구성되는 웹툰을 입력받는 웹툰 입력부; 상기 웹툰의 등장인물의 특징을 추출하는 인물특징 추출부; 상기 웹툰의 각 컷에서 등장인물의 특징을 이용하여, 각 등장인물의 영역을 설정하는 인물영역 설정부; 상기 웹툰의 각 컷에서 말풍선을 검출하고, 검출된 말풍선 내의 문장을 인식하는 말풍선 인식부; 상기 말풍선의 화자를 추정하되, 상기 말풍선의 꼬리 방향을 검출하여, 검출된 꼬리 방향을 이용하여 말풍선의 화자를 추정하는 화자 추정부; 각 등장인물에 서로 다른 음색의 TTS 음성을 매핑하는 화자음성 매핑부; 및, 상기 말풍선의 화자로 추정된 등장인물의 TTS 음성으로, 상기 말풍선의 문장을 출력하는 출력부를 포함하는 구성을 마련한다.
상기와 같은 시스템에 의하여, 말풍선의 화자를 식별하여 해당 말풍선의 대사를 해당 화자의 고유 음색으로 출력함으로써, 음색으로 각 등장인물을 식별할 수 있고 보다 자연스런 애니메이션화 할 수 있다.

Description

말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템 { An automatic audio extraction system for webtoon by identifying speakers of a speech buble }

본 발명은 웹툰의 말풍선 내의 대사를 인식하여 음성으로 출력하되, 해당 말풍선의 화자를 식별하고 각 화자에 고유 음색을 매칭시켜서, 해당 말풍선의 대사를 해당 화자의 고유 음색으로 음성을 출력하는, 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 관한 것이다.

일반적으로, 웹툰(webtoon)은 포털 사이트 등 인터넷 플랫폼 매체에서 연재되는 만화를 지칭하는 것으로서, 대한민국에서 정착된 고유의 웹 상의 만화이다.

웹툰은 종 스크롤 방식으로 구현된다. 즉, 웹툰은 모니터나 스마트폰 등에서 브라우저의 스크롤바를 아래로 내리면서 볼 수 있도록, 세로로 긴 형태로 구성된다. 모양, 크기, 구성이 다양하게 존재하여 컷들의 조화를 중시하는 출판 만화와 달리 웹툰식 연출은 상하 스크롤 읽기로, 여러 컷 외에 한 컷씩 보여지는 경우가 다수이다. 이는 애니메이션 등의 영상 연출 시 스토리보드의 프레임 형태의 레이아웃에 가깝다. 그러나 이는 여러 컷을 한꺼번에 보는 출판만화보다 한 컷씩 보는 웹툰이 시각적으로 집중도를 높이는 효과를 가져온다.

따라서 출판 만화에 비하여, 웹툰을 보다 쉽게 애니메이션화 하여 제공할 수 있을 것이다. 예를 들어, 스크롤 방식의 각 컷을 하나의 화면으로 변환하여 제공하면, 용이하게 애니메이션화 하여 영상으로 그 내용을 전달할 수도 있다.

또한, 웹툰은 대사나 지문들이 문자로 제공되기 때문에, 사용자들은 웹툰의 말풍선에 기재된 글자를 일일이 읽어야 하는 불편함이 있다. 만약, 대사나 지문을 음성으로 제공한다면, 사용자들은 보다 편리하게 웹툰을 즐길 수 있을 것이다.

이러한 서비스를 자동으로 제공해주기 위해, 웹툰에서 표시되는 대사나 지문을 음성으로 변환하는 기술이 제시되고 있다[특허문헌 1]. 상기 선행기술은 웹툰의 한 컷을 입력받아, 인물, 배경, 말풍선, 효과음, 효과선 등 장면의 구성요소를 분석하여, 등장인물을 인식하고, 인식된 인물의 특성에 따라 인물의 음성을 선택하고, 말풍선 내의 텍스트를 인식하고, 인식된 구성요소로부터 컷 내의 분위기와 인물의 감정을 파악하여 인물의 말하는 어조, 톤, 빠르기를 선택하여 음성을 출력한다.

그러나 상기 선행기술은 장면의 구성요소를 분석하거나, 인물의 특성이나 컷 내의 분위기와 인물의 감정을 파악하는 구체적인 방법을 전혀 제시하지 못하고 있다.

한편, 종래의 출판 만화를 대상으로 음성을 출력하는 기술도 제시되고 있다[특허문헌 2]. 상기 선행기술은 만화의 영상에서 말풍선 안에 있는 문자를 추출하고, 추출된 문자를 음성으로 생성하여 출력한다. 그러나 상기 선행기술도 단순히 만화 내의 문자를 인식하여, 인식된 문자를 음성으로 출력하는 것만을 제시하고 있다.

따라서 웹툰 상의 각 컷에서 나타나는 말풍선의 내용을, 웹툰 상의 등장인물에 맞게 음성으로 출력하는 보다 구체적인 기술이 필요하다.

한국공개특허공보 제10-2019-0075765호(2019.07.01.공개) 한국공개특허공보 제10-2007-0095028호(2007.09.28.공개)

본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 웹툰의 말풍선 내의 대사를 인식하여 음성으로 출력하되, 해당 말풍선의 화자를 식별하고 각 화자에 고유 음색을 매칭시켜서, 해당 말풍선의 대사를 해당 화자의 고유 음색으로 음성을 출력하는, 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템을 제공하는 것이다.

또한, 본 발명의 목적은 웹툰 전체 또는 각 신(scene)의 모든 컷에서 등장인물의 특징을 추출하고, 추출된 특징으로 각 컷 내에서의 해당 등장인물의 영역을 찾아내고, 등장인물의 영역과, 말풍선의 꼬리의 방향이나 그 위치 간의 관계로부터 해당 말풍선의 화자를 식별하는, 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템을 제공하는 것이다.

상기 목적을 달성하기 위해 본 발명은 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 관한 것으로서, 서로 다른 음색을 가진 다수의 텍스트 음성 전환(TTS)용 음성(이하 TTS 음성)을 성별 또는 나이에 따라 사전에 분류하여 저장하는 TTS음성 관리부; 다수의 컷으로 구성되는 웹툰을 입력받는 웹툰 입력부; 상기 웹툰의 등장인물의 특징을 추출하는 인물특징 추출부; 상기 웹툰의 각 컷에서 등장인물의 특징을 이용하여, 각 등장인물의 영역을 설정하는 인물영역 설정부; 상기 웹툰의 각 컷에서 말풍선을 검출하고, 검출된 말풍선 내의 문장을 인식하는 말풍선 인식부; 상기 말풍선의 화자를 추정하되, 상기 말풍선의 꼬리 방향을 검출하여, 검출된 꼬리 방향을 이용하여 말풍선의 화자를 추정하는 화자 추정부; 각 등장인물에 서로 다른 음색의 TTS 음성을 매핑하는 화자음성 매핑부; 및, 상기 말풍선의 화자로 추정된 등장인물의 TTS 음성으로, 상기 말풍선의 문장을 출력하는 출력부를 포함하는 것을 특징으로 한다.

또한, 본 발명은 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 있어서, 상기 등장인물의 특징은 얼굴 특징과 머리 특징을 포함하는 고유 특징과, 상의 특징, 하의 특징, 및 신발 특징 중 어느 하나 이상의 가변적 특징으로 구분되는 것을 특징으로 한다.

또한, 본 발명은 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 있어서, 상기 인물특징 추출부는 컷 내에서 에지를 검출하고, 검출된 에지 중에서 에지 색상이 검정색인 에지만을 최종적인 에지로 검출하고, 에지에 의해 닫혀진 공간을 영역으로 구분하고, 해당 영역에서 사용된 색상을 특징으로 추출하는 것을 특징으로 한다.

또한, 본 발명은 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 있어서, 상기 인물특징 추출부는 눈을 검출하고, 눈에 대한 코와 입의 기하학적 위치, 및, 색상에 의한 영역에 의해 얼굴 영역을 검출하고, 얼굴 영역의 색상을 추출하는 것을 특징으로 한다.

또한, 본 발명은 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 있어서, 상기 인물특징 추출부는 얼굴의 영역과 그 색상이 검출되면, 얼굴을 중심으로 머리 영역 및 머리 색상을 검출하고, 얼굴을 중심으로 상의의 영역 및 그 색상을 검출하고, 상의 영역 및 그 색상이 검출되면, 상의 영역을 중심으로 하의 영역 및 그 색상을 검출하고, 하의 영역 및 그 색상이 검출되면, 신발 영역 및 그 색상을 검출하는 것을 특징으로 한다.

또한, 본 발명은 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 있어서, 상기 화자 추정부는 말풍선의 꼬리 방향을 검출하고 검출된 방향으로 가장 가까운 등장인물의 영역을 검출하고, 해당 말풍선의 화자를 검출 영역의 등장인물로 추정하는 것을 특징으로 한다.

또한, 본 발명은 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 있어서, 상기 화자 추정부는 꼬리의 2개의 시작점의 중앙에서 꼬리의 끝점으로 연결하는 방향을 꼬리 방향으로 검출하는 것을 특징으로 한다.

또한, 본 발명은 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 있어서, 상기 화자 추정부는 말풍선이 꼬리를 가지지 않는 경우, 사전에 정해진 규칙에 의하여 화자를 결정하되, 컷 내에 등장인물의 영역이 있는 경우 해당 말풍선의 영역이 등장인물의 영역과 겹치거나 근접하면 해당 영역의 등장인물을 화자로 결정하거나, 등장인물이 없는 경우 직전 컷에서 마지막으로 말한 화자를 해당 말풍선의 화자로 결정하 것을 특징으로 한다.

상술한 바와 같이, 본 발명에 따른 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 의하면, 말풍선의 화자를 식별하여 해당 말풍선의 대사를 해당 화자의 고유 음색으로 출력함으로써, 음색으로 각 등장인물을 식별할 수 있고 보다 자연스런 애니메이션화 할 수 있는 효과가 얻어진다.

특히, 본 발명에 따른 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 의하면, 각 컷 내에서 등장인물의 영역을 파악하여 말풍선의 꼬리 방향과의 연관성으로 화자를 식별함으로써, 자동으로 보다 정확하게 말풍선의 화자를 식별할 수 있는 효과가 얻어진다.

도 1은 본 발명을 실시하기 위한 전체 시스템의 구성에 대한 블록도.
도 2는 본 발명에 따른 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템의 구성에 대한 블록도.
도 3은 본 발명의 일실시예에 따른 웹툰의 하나의 회에 다수의 컷으로 구성된 것을 예시한 도면.
도 4는 본 발명의 일실시예에 따른 컷에서 얼굴을 검출하는 예시도.
도 5는 본 발명의 일실시예에 따른 상의 특징을 검출하는 예시도.
도 6은 본 발명의 일실시예에 따른 하의 특징, 신발 특징 등을 검출하는 예시도.
도 7은 본 발명의 일실시예에 따른 동일 등장인물의 다른 신(scene)의 예시도.
도 8은 본 발명의 일실시예에 따른 하의 및 신발 특징으로 등장인물의 영역을 설정하는 예시도.
도 9는 본 발명의 일실시예에 따른 말풍선의 꼬리 방향을 검출하는 예시도.
도 10은 본 발명의 일실시예에 따른 꼬리 없는 말풍선의 화자를 검출하는 예시도.

이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.

또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.

먼저, 본 발명을 실시하기 위한 전체 시스템의 구성의 예들에 대하여 도 2를 참조하여 설명한다.

도 1(a) 또는 도 1(b)에서 보는 바와 같이, 본 발명에 따른 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템은 네트워크 상의 서버 시스템으로 실시되거나, 컴퓨터 시스템 상의 프로그램 시스템으로 실시될 수 있다.

도 1(a)와 같이, 본 발명의 실시를 위한 전체 시스템의 일례는 사용자 단말(10)과 음성 자동 추출 시스템(30)으로 구성되고 서로 네트워크(20)로 연결된다. 또, 필요한 데이터를 저장하기 위한 데이터베이스(40)를 더 구비할 수 있다. 또한, 웹툰 서비스를 제공하는 웹툰 서버(60)를 더 포함할 수 있다.

먼저, 사용자 단말(10)은 사용자가 이용하는 PC, 노트북, 넷북, PDA, 모바일 등의 통상의 컴퓨팅 단말기이다. 사용자는 사용자 단말(10)을 통해 웹툰 서버(60)의 웹툰을 음성 자동 추출 시스템(30)에 입력하거나 그 주소를 알려주고, 그 웹툰에서 추출된 음성 또는 애니메이션을 음성 자동 추출 시스템(30)로부터 수신한다.

음성 자동 추출 시스템(30)은 통상의 서버로서 네트워크(20)에 연결되어 웹툰에서 음성을 추출하는 서비스 또는 웹툰의 애니메이션을 제공한다. 한편, 음성 자동 추출 시스템(30)은 상기 각 서비스를 인터넷 상의 웹페이지 또는 모바일 상의 어플(앱, 모바일 어플리케이션)로 제공하는 웹서버 또는 웹어플리케이션 서버 등으로 구현될 수 있다. 또한, 음성 자동 추출 시스템(30)은 클라우드 시스템으로 구현되어, 클라우드 기반으로 음성 추출 기능 또는 웹툰의 애니메이션을 수행하고 그 서비스를 제공할 수 있다.

웹툰 서버(60)는 웹툰 서비스를 온라인상(또는 인터넷 상, 모바일 상)으로 제공하는 서버로서, 포탈 서비스 서버이거나 웹툰 전용 서버이다.

데이터베이스(40)는 음성 자동 추출 시스템(30)에서 필요한 데이터를 저장하는 통상의 저장매체로서, 서로 다른 다수의 음색을 가지는 TTS(텍스트 음성 전환) 음성 데이터를 저장하는 TTS음성DB(41), 등장인물의 특징을 저장하는 인물특징DB(42), 웹툰을 저장하는 웹툰DB(43) 등으로 구성될 수 있다. 그러나 상기 데이터베이스(40)의 구성은 바람직한 일실시예일 뿐이며, 구체적인 시스템을 개발하는데 있어서, 접근 및 검색의 용이성 및 효율성 등을 감안하여 데이터베이스 구축이론에 의하여 다른 구조로 구성될 수 있다.

한편, 음성 자동 추출 시스템(30)은 서버와 클라이언트로 구성된 서버-클라이언트 시스템으로 구성될 수 있다. 즉, 음성 자동 추출 시스템(30)의 주요 분석 기능은 서버에 구축되고, 사용자 인터페이스 또는 분석을 위한 간단한 전처리 작업 등은 사용자 단말(10)에 클라이언트 모듈로 구축될 수 있다. 서버와 클라이언트 간의 작업 분담은 통상의 서버-클라이언트 구축 이론에 따라 다양한 형태로 구현될 수 있다.

또한, 도 2(b)와 같이, 본 발명의 실시를 위한 전체 시스템의 다른 예는 컴퓨터 단말(13)에 설치되는 프로그램 형태의 음성 자동 추출 시스템(30)으로 구성된다. 즉, 음성 자동 추출 시스템(30)의 각 기능들은 컴퓨터 프로그램으로 구현되어 컴퓨터 단말(10)에 설치되어, 컴퓨터 단말(10) 상의 프로그램 시스템으로 실시될 수 있다. 컴퓨터 단말(10)에 설치된 프로그램은 하나의 프로그램 시스템(30)과 같이 동작할 수 있다. 한편, 음성 자동 추출 시스템(30)에서 필요한 데이터들은 컴퓨터 단말(10)의 하드디스크 등 저장공간에 저장되어 이용된다.

다음으로, 본 발명의 일실시예에 따른 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템을 도 2를 참조하여 설명한다.

도 2에서 보는 바와 같이, 본 발명에 따른 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템(30)은 TTS음성 관리부(31), 웹툰 입력부(32), 인물특징 추출부(33), 인물영역 설정부(34), 말풍선 인식부(35), 화자 추정부(36), 및, 화자음성 매핑부(37)로 구성된다. 추가적으로, 출력부(38)를 더 포함하여 구성될 수 있다.

먼저, TTS음성 관리부(31)는 서로 다른 음색을 가진 다수의 텍스트 음성 전환(TTS)용 음성(또는 TTS 음성 데이터)을 사전에 분류하여 저장한다. 바람직하게는, TTS 음성 데이터는 TTS음성DB(41)에 저장된다.

TTS용 음성 또는 TTS 음성 데이터는 텍스트를 음성으로 전환하기 위한 텍스트 음성 전환(TTS)에 사용되는 음성이다. 각각의 TTS 음성 데이터는 고유한 음색을 가진다. 음색은 성별과 나이에 따라 분류된다. 성별은 남성과 여성으로 구분된다. 또한, 바람직하게는, 나이는 어린이, 젊은이, 어른(중년), 노인 등 나이 그룹으로 구분될 수 있다. 나이 그룹은 사용자 또는 관리자의 선택에 따라 다양하게 분류되거나 세분화될 수 있다. 나이 그룹은 특정되지 않는 경우 사용하는 디폴트 그룹을 정할 수 있다. 일례로서, ??은이 그룹을 디폴트 그룹으로 정한다.

다음으로, 웹툰 입력부(32)는 웹툰 내용을 입력받는다. 바람직하게는, 웹툰 입력부(32)는 웹툰 서버(60)에 접속하여 웹툰 내용을 가져올 수 있다.

웹툰은 다수의 화(회)로 구성된다. 하나의 회(화)는 하나의 웹 화면으로 제공되고, 웹 화면은 종 스크롤 방식으로 보여준다. 즉, 사용자는 모니터나 스마트폰 등에서 웹브라우저의 스크롤바를 아래로 내리면서, 하나의 회를 볼 수 있다.

또한, 도 3에서 보는 바와 같이, 웹툰의 하나의 회는 다수의 컷(cut)으로 구성된다. 각 컷은 하나의 장면으로 통상 네모 박스에 의해 구분된다. 또한, 하나의 컷의 말풍선은 네모 박스 내에 위치하나, 네모 박스(또는 컷 경계선)를 밖에 위치될 수도 있다.

도 3은 컷 1, 2, 3 등 다수의 컷이 종 방향으로 나열되어 있고, 종 스크롤에 의해 순차적으로 아래로 내리면서 볼 수 있는 것을 나타내고 있다.

또한, 웹툰은 전체 스토리 흐름에 따라, 신(scene)으로 구분될 수 있다. 신(scene)은 동일한 시간이나 장소에서 벌어지는 일련의 사건(상황)을 나타내는 것으로서, 연속된 다수의 컷으로 구성된다. 즉, 웹툰 전체를 다수의 컷으로 구성된 것으로 볼 때, 다수의 컷을 시간상으로 신(scene)으로 나눌 수 있다.

하나의 신(scene) 내에서의 등장인물의 옷차림은 일반적으로 동일하다.

웹툰 입력부(32)는 입력된 웹툰을 회 단위 및 컷 단위로 구분하여 저장한다.

회 단위는 하나의 웹 화면이므로, 웹페이지 단위에 의해 구분한다. 또한, 하나의 회 페이지에서 각 컷 단위로 구분하여, 컷 단위의 이미지를 저장한다.

또한, 도 3과 같이, 웹툰 입력부(32)는 화면 구분을 위한 네모 박스를 인식하여, 인식된 네모 박스를 기준으로 컷(cut)을 구분한다. 이때, 바람직하게는, 지문이나 말풍선 등이 네모 박스 밖에 위치하나 네모 박스에 걸쳐 있으면, 해당 네모 박스의 컷에 속하는 것으로 구분한다. 또한, 연속된 2개의 네모 박스의 사이에 위치한 지문이나 말풍선 등은 가장 가까운 네모 박스에 속하는 것으로 구분한다.

다음으로, 인물특징 추출부(33)는 등장인물의 얼굴 특징을 추출하고, 얼굴 특징이 인식된 컷에서 등장인물의 신체 특징을 추출하고, 신체 특징이 인식된 컷에서 등장인물의 다른 신체 특징을 추가로 추출한다.

먼저, 인물특징 추출부(33)는 컷 내에서 에지를 검출한다. 특히, 컷 영상에서 이미지 처리 기술의 에지 검출 방법을 적용하여 에지를 검출하고, 검출된 에지 중에서 원래 컷 영상에서 에지 색상이 검정색인 에지만을 최종적인 에지로 검출한다.

다음으로, 인물특징 추출부(33)는 에지와 색상에 의해 영역을 검출하고, 해당 영역의 색상 또는 투톤 색상을 검출한다. 즉, 에지에 의해 닫혀진 공간을 영역으로 구분한다. 그리고 해당 영역에서 사용된 색상을 검출한다. 이때, 색상의 범위를 소정의 범위(오차 범위) 설정하여 아주 유사한 색상도 하나의 색상으로 검출한다. 또한, 색상 히스토그램을 통해 색상을 검출할 수 있다.

특히, 웹툰에서는 그림자를 표현하기 위하여 적어도 2가지의 색상(투톤 색상)을 사용한다. 따라서 에지에 의한 영역 내에서 투톤 색상이 나타나면, 해당 적어도 2가지의 색상은 하나의 영역을 나타내는 색상으로 판단한다. 그래서 이들 색상의 영역이 인접하거나 상대를 포함하면, 해당 영역은 하나의 영역으로 합한다. 투톤 색상은 보통 2-3가지이며, 4가지를 넘지 않는다.

일반적으로, 웹툰은 작가가 직접 색상을 칠하고, 등장인물들을 나타내기 위하여, 의도적으로 모든 영역의 색상을 구분하여 칠한다. 따라서 상기와 같은 단순한 방법으로도 영역과 해당 영역의 색상을 검출할 수 있다.

다음으로, 인물특징 추정부(33)는 눈을 검출하고, 눈과 코, 입의 기하학적 위치, 및, 색상에 의한 영역에 의해 얼굴(또는 얼굴 영역)을 검출한다. 눈은 원형 영역과 눈동자의 특징에 의해 검출될 수 있다. 눈이 검출되면 눈 영역을 포함하는 영역 내에서 코 또는 입의 상대적 위치, 즉, 기하학적 위치에 의해 검출할 수 있다. 즉, 2개의 눈을 잇는 선의 중간에서 수직선을 긋고, 수직선 상에 코와, 입이 위치된 것으로 얼굴을 판단할 수 있다. 상기 방법은 통상의 이미지 처리 기술의 눈 또는 얼굴 검출 방법을 이용할 수 있다.

도 4와 같이, 두 눈을 검출하고 두 눈의 중간 부위에서 수직선을 그으면, 수직선 상 또는 그 부근에 코와 입의 형상이 존재한다. 눈, 코, 입을 포함하는 영역이 얼굴 영역으로 검출할 수 있다. 특히, 색상 또는 투톤 색상으로 해당 얼굴 영역을 특정할 수 있다.

한편, 얼굴 영역의 색상이 해당 등장인물의 피부 색상으로 설정한다. 즉, 손과 발, 다리 등은 얼굴 영역에서 검출된 피부 색상과 동일하다. 이때, 얼굴의 피부 색상은 통상의 피부색으로 한정되지 않는다. 눈, 코, 입이 위치한 영역에서 가장 많이 분포하는 색상으로 피부 색상으로 식별하고, 식별된 피부 색상의 영역을 검출하여 얼굴 영역을 검출한다. 웹툰은 작가가 직접 그림으로 그리고 색상을 입히므로, 피부 색상도 작가에 의해 각 등장인물 별로 서로 다르게 부여된다.

다음으로, 인물특징 추정부(33)는 얼굴의 영역과 그 색상이 검출되면, 얼굴을 중심으로 머리 영역 및 머리 색상을 검출한다. 즉, 얼굴 영역의 눈을 중심으로 입과 반대되는 위쪽이나, 눈을 중심으로 얼굴의 양 측면에 인접한 영역이 머리 영역에 해당한다. 영역과 해당 영역의 색상 검출 방법은 앞서 색상에 의한 얼굴 영역 검출 방법과 같다.

다음으로, 인물특징 추정부(33)는 얼굴을 중심으로 상체 영역 또는 상의의 영역 및 그 색상을 검출한다. 얼굴의 아래 부분, 즉, 얼굴에서 입 위치의 방향과 인접한 영역을 상의의 영역으로 판단한다. 이때, 목 영역이 있을 수 있으므로, 상대적인 위치와, 피부 색상과는 다른 영역을 반영하여 상의의 영역을 검출할 수 있다. 이때, 상체 영역은 상의 영역과 팔/다리/손 등 신체 영역을 포함한다.

한편, 상의의 영역과 그 색상을 먼저 검출하고, 피부 색상으로 손이나 팔 영역을 검출하여, 상의의 영역과 손/팔 영역을 합하여 상체 영역으로 검출할 수 있다. 또한, 상의 영역의 색상은 다수의 색상 또는 투톤 색상으로 구성된다. 특히, 웹툰에서는 복잡한 색을 사용하지 않고 대부분 단색 옷을 사용한다. 따라서 상의 영역의 색상은 상의로 입은 옷의 종류와 같다. 따라서 상의 색상은 투톤 색상을 포함하여 대부분 전체 5개를 넘지 않는다. 따라서 상의 색상을 주요 색상으로 사전에 정해진 수 N(바람직하게는, N은 3, 4, 5 중 하나)으로 정한다. 즉, 색상 히스토그램을 통해 가장 많은 분포의 색상 N개만을 특징으로 정한다.

도 5에서 아들의 상의의 색상은 옅은 회색, 회색의 투톤(그림자 색), 그리고 상의 내부의 검은색 등 3가지 색상으로 구성된다.

다음으로, 인물특징 추출부(33)는 상의의 영역이 검출되면, 상의 영역을 중심으로 하의 영역 및 하의 색상을 검출한다. 즉, 상의 영역을 중심으로 하의 영역을 검출한다.

다음으로, 인물특징 추출부(33)는 하의 영역이 검출되면, 하의 영역을 중심으로 신발 영역 및 그 색상을 검출할 수 있다. 또한, 하의 특징은 반바지나 짧은 치마를 입은 경우에는 다리나 종아리가 노출될 수 있다. 이 경우, 하의 특징은 반바지 색상과 다리 색상(또는 피부 색상)으로 구성된다.

즉, 인물특징 추출부(33)는 얼굴 색상, 머리 색상, 상의 색상, 하의 색상, 또는 신발 색상 등을 추출하여, 해당 등장인물의 특징으로 설정한다.

이때, 인물특징 추출부(33)는 얼굴 색상 및 머리 색상을 각 인물의 고유 특징으로 설정하고, 상의 색상, 하의 색상, 신발 색상을 각 인물의 가변 특징 또는 신(scene) 특징으로 설정한다. 즉, 각 등장인물의 상의, 하의, 신발은 각각 그 상황 또는 신(scene)에 따라 변경될 수 있다.

한편, 인물특징 추출부(33)는 웹툰의 전체 컷 중에서 얼굴이 나타나는 컷을 찾고, 해당 컷에서 등장인물의 얼굴 특징과 머리 특징을 추출한다. 얼굴 및 머리 특징 등 고유 특징으로 각 등장인물을 식별하여 생성한다.

처음 얼굴 특징과 머리 특징을 추출하면, 새로운 등장인물로 인식하여 하나의 인물을 생성하고, 해당 인물의 고유 특징을 추출된 얼굴 및 머리 특징으로 설정한다. 또한, 추출된 얼굴 및 머리 특징(또는 고유 특징)을 이미 생성된 인물의 고유 특징과 비교하여 유사하거나 동일하면, 이미 생성된 인물의 특징으로 판단한다. 만약 추출된 특징이 기존 인물의 고유 특징과 다르면, 새로운 등장인물로 인식하여 인물을 새로 생성한다.

또한, 인물특징 추출부(33)는 얼굴이 인식되는 컷에서, 상의 특징, 하의 특징, 또는 신발 특징을 추출하여, 해당 얼굴의 등장인물의 가변 특징 또는 신(scene) 특징으로 설정한다. 이때, 웹툰의 전체 컷을 시간 순으로 분석하고, 동일한 얼굴로 인식되나(동일한 고유 특징을 가지나) 상의 특징 등이 직전의 가변 특징과 다르면, 다른 신(scene)으로 인식한다.

따라서 해당 인물의 가변 특징은 신(scene) 단위로 구별되어 저장된다.

또한, 인물특징 추출부(33)는 등장인물의 가변 특징이 인식되는 컷에서, 해당 인물의 다른 가변 특징을 추출할 수 있다. 예를 들어, 상의 특징이 인식되는 컷에서, 하의 특징을 추출하여, 해당 인물의 하의 특징으로 설정할 수 있다.

도 6의 예에서, 아들의 얼굴이 옆 모습만 나오지만, 아들의 얼굴 색상, 머리 색상에 의하여 아들을 인식할 수 있다. 아들이 인식된 상태이므로, 아들의 상의의 영역과 색상(특징)이나, 하의 영역과 색상, 또는, 신발 영역과 색상(특징)을 추출할 수 있다. 또한, 얼굴이나 머리가 컷에 나오지 않더라도 상의의 특징으로 등장인물을 식별할 수 있다면, 하의 특징을 추출할 수 있다.

또한, 도 7은 앞서 도 6의 남자 아이와 동일한 인물이다. 이것은 얼굴 및 머리의 특징으로부터 식별된다. 그러나 상의 색상과 하의 색상은 앞서 색상과 다르다. 따라서 상의 및 하의 특징은 가변적이다. 또한, 신발 특징은 동일하게 흰색이다.

다음으로, 인물영역 설정부(34)는 웹툰의 각 컷에서 각 등장인물의 영역을 설정한다. 즉, 인물영역 설정부(34)는 웹툰의 각 컷에서 각 등장인물의 특징을 이용하여, 해당 인물의 영역을 설정한다. 이때, 얼굴, 머리, 상의, 하의, 신발 등의 각 특징을 이용하여, 해당 인물의 얼굴 영역, 머리 영역, 상의 영역, 하의 영역, 신발 영역 등을 모두 구하고, 해당 영역들을 합하여 해당 인물의 영역을 설정한다.

특히, 인물영역 설정부(34)는 각 등장인물의 얼굴 특징과 머리 특징을 함께 이용하여 얼굴 영역을 설정한다.

또한, 인물영역 설정부(34)는 각 등장인물의 상의 특징과 매칭되는 영역을 상의 영역으로 검출한다. 또한, 하의 특징과 매칭되는 하의 영역, 신발 특징과 매칭되는 하의 영역을 각각 검출한다.

특히, 인물영역 설정부(34)는 얼굴, 머리, 상의, 하의, 신발 등을 조합하여 해당 인물의 영역을 식별하고 설정할 수 있다.

도 8의 예에서, 웹툰의 컷에는 남자 아이의 다리와 여자 아이의 다리만 나타나지만, 하의 특징과 신발 특징의 조합으로 각 등장인물을 식별할 수 있고, 해당 등장인물의 영역을 구할 수 있다.

다음으로, 말풍선 인식부(35)는 각 컷에서의 말풍선 영역을 인식하고, 말풍선 영역 내의 문장을 인식한다.

말풍선 인식부(35)는 각 컷 내에서 또는 각 컷에 인접한 부분에서, 말풍선 영역을 검출하되, 흰색 바탕에 검은색 글자로 인식되는 부분을 말풍선 영역으로 인식한다.

또한, 말풍선 인식부(35)는 말풍선 내의 문장을 문자 인식 방법에 의하여 인식한다. 문자 인식 방법은 통상의 문자 인식 기술이 이용된다.

한편, 말풍선 인식부(35)는 말풍선이 없는 문장인 경우, 해당 문장 또는 지문을 설명 또는 내레이션으로 판단한다.

다음으로, 화자 추정부(36)는 말풍선의 꼬리 방향을 검출하고 검출된 방향으로 가장 가까운 등장인물의 영역을 검출하고, 해당 말풍선의 화자를 검출 영역의 등장인물로 추정한다.

먼저, 꼬리의 2개의 시작점의 중앙(2개의 시작점을 연결한 중앙점)에서 꼬리의 끝점으로 연결하는 방향을 꼬리 방향으로 검출한다.

도 9는 말풍선의 꼬리 방향을 검출한 것을 예시하고 있다. 도 9(a)는 일반적인 말풍선의 꼬리 방향이고, 도 9(b)는 내면의 말을 표시한 말풍선의 꼬리 방향을 나타내고 있다. 도 9에서 S가 시작점이고, E가 끝점을 나타낸다.

또한, 꼬리의 끝점에서 꼬리 방향으로의 거리가 가장 가까운 등장인물의 영역을 검출한다. 검출된 영역의 등장인물이 해당 말풍선의 화자이다. 이때, 꼬리의 끝점이 특정 등장인물의 영역 내에 속하면, 해당 등장인물이 화자이다.

앞서 도 4의 예에서는 말풍선의 꼬리 방향이 아들(남자 아이)을 향하고 있으므로, 해당 말풍선의 화자는 아들이다.

또한, 화자 추정부(36)는 말풍선이 꼬리를 가지지 않는 경우, 사전에 정해진 규칙에 의하여 화자를 결정한다.

사전에 정해진 규칙은 다음과 같다.

< 규칙 1 > 등장인물의 영역이 있는 경우, 해당 말풍선의 영역이 등장인물의 영역과 겹치거나 근접하면(소정의 거리 또는 거리 비율 내에 있으면), 해당 영역의 등장인물을 화자로 결정한다.

도 8의 예에서, 상단에 있는 말풍선은 여자 아이의 영역에 위치하기 때문에 그 화자는 여자 아이이고, 하단에 있는 말풍선은 남자 아이의 영역과 가깝기 때문에 그 화자는 남자 아이이다.

< 규칙 2 > 등장인물이 없는 경우, 직전 컷에서 마지막으로 말한 화자를 해당 말풍선의 화자로 결정한다.

도 10의 예에서, 아래 말풍선은 말풍선의 꼬리가 없으며, 직전 화자가 아들이므로, 아래 말풍선의 화자는 아들로 추정한다.

< 규칙 3 > 각 화자의 문장을 이용하여, 문장을 분석하여 화자를 결정한다. 이 경우, 통상의 문장 인식 방법을 사용한다. 예를 들어, 호칭이나, 화자의 말투(존댓말, 사투리 등)로 인식한다. 즉, 다른 컷에서 이미 화자가 확정된 문장들을 분석하여, 해당 화자의 말투를 추출할 수 있다.

호칭의 경우, 하나의 신(scene)에서 화자가 2명인 경우, 말풍선에 호칭이 포함되면 해당 호칭의 인물 외의 다른 인물이 해당 화자로 판단한다.

화자의 말투인 경우, 하나의 신(scene)에서 화자 A가 동일한 말투(사투리나 존댓말)를 사용하면, 해당 말풍선의 화자를 화자 A로 판단한다. 화자 A는 동일한 신(scene)에서 이미 결정된 상태이다.

다수의 규칙에 의해 화자가 적어도 2이상이 추정되면, 각 규칙에 가중치를 부여하여, 화자로 적용되는 규칙의 가중치를 합산하여, 가장 높은 가중치를 갖는 화자를 최종적으로 선정한다.

한편, 화자 추정부(36)는 내레이터의 화자를 사전에 정하여, 설명 또는 나레이션에 대하여 내레이터로 화자를 설정한다.

다음으로, 화자음성 매핑부(37)은 각 등장인물에 대하여 음색을 매핑한다. 등장인물 마다 고유한 음색을 매핑한다. 즉, 등장인물이 P1, P2, … Pn 이면, 각 등장인물 마다 서로 다른 음색을 부여한다.

특히, 각 등장인물의 성별이나 나이 그룹을 추정하여, 해당 성별과 나이 그룹에 속하는 음색을 선택하여 매핑시킨다. 바람직하게는, 화자음성 매핑부(37)는 사용자 또는 관리자에 입력에 의하여 등장인물과 음색을 매핑시킬 수 있다. 또 다른 실시예로서, 각 등장인물(또는 화자)이 말하는 말풍선의 문장을 해석하여, 성별 또는 나이 그룹을 추정한다.

특히, 말풍선의 문장이 대화인 경우, 상대방의 말풍선에서 호칭을 인식하여, 호칭에 따라 성별 또는 나이 그룹을 추정할 수 있다. 예를 들어, 아버지, 할머니, 선생님, 아가씨 등의 호칭에 의해 성별 또는 나이 그룹을 추정할 수 있다.

나이 그룹이 확정되지 않는 경우에는, 디폴트 그룹으로 설정한다. 예를 들어, 나이 그룹이 정해지지 않으면 젊은이 그룹으로 정한다.

다음으로, 출력부(38)는 각 컷에 대한 말풍선의 문장을 음성으로 변환하여 출력한다.

이때, 말풍선의 화자에 대응되는 음색의 음성으로 출력한다. 문장에서 음성으로 변환하는 기술은 통상의 텍스트 음성 전환(TTS) 기술을 이용한다.

또한, 출력부(38)는 각 출력 음성의 톤을 설정하여, 음성을 출력할 수 있다. 음성의 톤은 사전에 설정된다. 일례로서, 음성의 톤은 일반 톤, 큰소리 톤, 질문형 톤, 생각하는 톤으로 구분된다.

도 10의 아래 말풍선과 같이, 말풍선의 모양이 유선형이 아닌 톱니 형태인 경우, 큰소리 톤으로 출력한다.

또한, 도 5와 같이, 말풍선의 꼬리 모양이 점선 형태를 가지면 생각하는 톤으로 출력한다.

또한, 말풍선의 문장 끝에 물음표가 있는 경우, 질문형 톤으로 출력한다.

바람직하게는, 출력부(38)는 하나의 컷과, 컷에 속하는 말풍선의 문장을 모두 출력할 때까지 싱크 시키고, 다음 컷으로 넘어가 출력한다.

이상, 본 발명자에 의해서 이루어진 발명을 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.

10 : 사용자 단말 20 : 네트워크
30 : 음성 자동 추출 시스템 31 : TTS음성 관리부
32 : 웹툰 입력부 33 : 인물특징 추출부
34 : 인물영역 설정부 35 : 말풍선 인식부
36 : 화자 추정부 37 : 화자음성 매핑부
38 : 출력부
40 : 데이터베이스 41 : TTS음성DB
42 : 인물특징DB 43 : 웹툰DB
60 : 웹툰 서버

Claims

말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템에 있어서,
서로 다른 음색을 가진 다수의 텍스트 음성 전환(TTS)용 음성(이하 TTS 음성)을 성별 또는 나이에 따라 사전에 분류하여 저장하는 TTS음성 관리부;
다수의 컷으로 구성되는 웹툰을 입력받는 웹툰 입력부;
상기 웹툰의 등장인물의 특징을 추출하는 인물특징 추출부;
상기 웹툰의 각 컷에서 등장인물의 특징을 이용하여, 각 등장인물의 영역을 설정하는 인물영역 설정부;
상기 웹툰의 각 컷에서 말풍선을 검출하고, 검출된 말풍선 내의 문장을 인식하는 말풍선 인식부;
상기 말풍선의 화자를 추정하되, 상기 말풍선의 꼬리 방향을 검출하여, 검출된 꼬리 방향을 이용하여 말풍선의 화자를 추정하는 화자 추정부;
각 등장인물에 서로 다른 음색의 TTS 음성을 매핑하는 화자음성 매핑부; 및,
상기 말풍선의 화자로 추정된 등장인물의 TTS 음성으로, 상기 말풍선의 문장을 출력하는 출력부를 포함하고,
상기 화자 추정부는 말풍선이 꼬리를 가지지 않는 경우, 사전에 정해진 규칙에 의하여 화자를 결정하되, 컷 내에 등장인물의 영역이 있는 경우 해당 말풍선의 영역이 등장인물의 영역과 겹치거나 근접하면 해당 영역의 등장인물을 화자로 결정하거나, 등장인물이 없는 경우 직전 컷에서 마지막으로 말한 화자를 해당 말풍선의 화자로 결정하는 것을 특징으로 하는 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템.
제1항에 있어서,
상기 등장인물의 특징은 얼굴 특징과 머리 특징을 포함하는 고유 특징과, 상의 특징, 하의 특징, 및 신발 특징 중 어느 하나 이상의 가변적 특징으로 구분되는 것을 특징으로 하는 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템.
제1항에 있어서,
상기 인물특징 추출부는 컷 내에서 에지를 검출하고, 검출된 에지 중에서 에지 색상이 검정색인 에지만을 최종적인 에지로 검출하고, 에지에 의해 닫혀진 공간을 영역으로 구분하고, 해당 영역에서 사용된 색상을 특징으로 추출하는 것을 특징으로 하는 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템.
제2항에 있어서,
상기 인물특징 추출부는 눈을 검출하고, 눈에 대한 코와 입의 기하학적 위치, 및, 색상에 의한 영역에 의해 얼굴 영역을 검출하고, 얼굴 영역의 색상을 추출하는 것을 특징으로 하는 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템.
제2항에 있어서,
상기 인물특징 추출부는 얼굴의 영역과 그 색상이 검출되면, 얼굴을 중심으로 머리 영역 및 머리 색상을 검출하고, 얼굴을 중심으로 상의의 영역 및 그 색상을 검출하고, 상의 영역 및 그 색상이 검출되면, 상의 영역을 중심으로 하의 영역 및 그 색상을 검출하고, 하의 영역 및 그 색상이 검출되면, 신발 영역 및 그 색상을 검출하는 것을 특징으로 하는 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템.
제1항에 있어서,
상기 화자 추정부는 말풍선의 꼬리 방향을 검출하고 검출된 방향으로 가장 가까운 등장인물의 영역을 검출하고, 해당 말풍선의 화자를 검출 영역의 등장인물로 추정하는 것을 특징으로 하는 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템.
제6항에 있어서,
상기 화자 추정부는 꼬리의 2개의 시작점의 중앙에서 꼬리의 끝점으로 연결하는 방향을 꼬리 방향으로 검출하는 것을 특징으로 하는 말풍선의 화자 식별을 통한 웹툰의 음성 자동 추출 시스템.
삭제