KR20200113675A

KR20200113675A - 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법

Info

Publication number: KR20200113675A
Application number: KR1020190034209A
Authority: KR
Inventors: 권택준
Original assignee: 권택준
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2020-10-07
Also published as: KR102184053B1

Abstract

대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법이 제공된다. 상기 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법은 상기 서비스서버가 상기 각 말풍선에 화자 및 청자가 표시된 웹툰 이미지를 관리자 단말로 제공하는 단계, 상기 서비스서버가 상기 관리자 단말로부터 상기 관리자에 의하여 특정 말풍선에 대해 화자 또는 청자가 수정되어 표시된 웹툰 이미지를 수신하는 단계, 상기 서비스서버가 상기 특정 말풍선 이후의 말풍선 중에서, 상기 특정 말풍선의 수정 전 화자 및 청자와 동일하게 화자 및 청자가 표시된 말풍선을 추출하는 단계, 상기 서비스서버가 추출된 상기 말풍선의 화자 또는 청자를 상기 특정 말풍선의 수정 후 화자 또는 청자와 동일하게 수정하는 단계, 수정 완료 후, 상기 서비스서버가 각 말풍선의 대사 정보를 각 말풍선의 화자의 캐릭터에 해당하는 목소리로 텍스트-음성 변환하여 음성 데이터를 생성하는 단계, 및 상기 서비스서버가 복수의 장면 이미지 및 각 장면 이미지 이미지에 대해 하나 이상의 음성 데이터로 구성되는 웹툰 동영상을 생성하는 단계를 포함한다.

Description

대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법{METHOD FOR GENERATING WEBTOON VIDEO FOR DELIVERING LINES CONVERTED INTO DIFFERENT VOICE FOR EACH CHARACTER}

본 발명은 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법에 관한 것으로, 더욱 상세하게는 텍스트-음성 변환을 통하여 웹툰의 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상을 생성하여 제공하는 방법에 관한 것이다.

스마트폰은 휴대전화에 인터넷 통신과 정보검색 등 컴퓨터 지원 기능을 추가한 지능형 단말기로서, 인터넷 기술이 발전함에 따라 최근 그 보급률이 급속도로 증가하고 있다. 이러한 인터넷과 스마트폰의 보급으로 인하여, 만화 시장에서도 커다란 변화가 발생하였는데, 만화책 대여점에서 만화책 단행본을 대여하는 방식에서 스마트폰을 통해 디지털 형식인 웹툰을 다운로드하는 방식으로 변형되었다. 여기서, 웹툰(webtoon)이란 웹(web)과 카툰(cartoon)의 인터넷 만화를 의미한다.

기존의 웹툰은 일반적으로 정지된 이미지인 스틸컷의 형태로 사용자의 스마트폰에 제공된다. 따라서, 소형화된 스마트폰을 통하여 제공되는 기존의 웹툰은 사용자가 웹툰의 내용을 정확하게 인식하기 힘들다는 문제점이 있다.

공개특허공보 특2001-0105954호, 2001.11.29

본 발명이 해결하고자 하는 과제는 웹툰 속 각 대사에 대해 화자 캐릭터와 화자 캐릭터의 감정을 판단하고, 화자 캐릭터에 해당하는 감정이 반영된 목소리로 대사를 발화하여 사용자에게 생동감 있는 웹툰 동영상을 제공할 수 있게 하는 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법을 제공하는 것이다.

또한, 인공 지능을 이용하여 각 대사에 대한 화자 캐릭터와 청자 캐릭터를 일차적으로 판단하고, 이를 관리자가 이차적으로 확인하고 수정함으로써 각 대사에 대한 화자 캐릭터와 청자 캐릭터를 보다 정확하게 파악할 수 있는 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법은 서비스서버가 웹툰 이미지를 구성하는 복수의 장면 이미지 중 각 장면 이미지로부터 하나 이상의 캐릭터를 추출하여 캐릭터 정보를 생성하는 단계, 상기 서비스서버가 상기 각 장면 이미지에 포함된 하나 이상의 말풍선 내에 표시된 텍스트를 추출하여 대사 정보를 생성하는 단계, 상기 서비스서버가 생성된 상기 캐릭터 정보와 상기 대사 정보를 기반으로 각 말풍선에 대한 화자 및 청자를 파악하는 단계, 상기 서비스서버가 각 말풍선에 화자 및 청자를 표시하는 단계, 상기 서비스서버가 상기 각 말풍선에 화자 및 청자가 표시된 웹툰 이미지를 관리자 단말로 제공하는 단계, 상기 서비스서버가 상기 관리자 단말로부터 상기 관리자에 의하여 특정 말풍선에 대해 화자 또는 청자가 수정되어 표시된 웹툰 이미지를 수신하는 단계, 상기 서비스서버가 상기 특정 말풍선 이후의 말풍선 중에서, 상기 특정 말풍선의 수정 전 화자 및 청자와 동일하게 화자 및 청자가 표시된 말풍선을 추출하는 단계, 상기 서비스서버가 추출된 상기 말풍선의 화자 또는 청자를 상기 특정 말풍선의 수정 후 화자 또는 청자와 동일하게 수정하는 단계, 수정 완료 후, 상기 서비스서버가 각 말풍선의 대사 정보를 각 말풍선의 화자의 캐릭터에 해당하는 목소리로 텍스트-음성 변환하여 음성 데이터를 생성하는 단계, 및 상기 서비스서버가 복수의 장면 이미지 및 각 장면 이미지 이미지에 대해 하나 이상의 음성 데이터로 구성되는 웹툰 동영상을 생성하는 단계를 포함한다.

또한, 상기 웹툰 동영상을 생성하는 단계는 상기 서비스서버가 상기 웹툰 동영상의 각 장면 이미지에 포함된 하나 이상의 음성 데이터의 길이에 상응하도록 상기 웹툰 동영상의 각 장면 이미지의 전환 시점을 설정하는 단계를 포함할 수 있다.

또한, 상기 화자와 청자를 파악하는 단계는 상기 서비스서버가 상기 각 장면 이미지에 포함된 하나 이상의 말풍선의 꼬리에 인접한 캐릭터를 상기 말풍선에 상응하는 화자로 파악하는 단계를 포함할 수 있다.

또한, 상기 화자와 청자를 파악하는 단계는 상기 서비스서버가 상기 각 장면 이미지에 포함된 말풍선으로부터 생성된 대사 정보에 포함된 호칭을 기반으로 상기 호칭에 상응하지 않는 캐릭터 중에서 상기 말풍선에 상응하는 화자를 파악하는 단계를 포함할 수 있다.

또한, 상기 화자와 청자를 파악하는 단계는 상기 웹툰 이미지를 구성하는 복수의 장면 이미지 중에서 특정 장면 이미지에 캐릭터는 포함되지 않고 말풍선만 포함되어 있을 경우, 상기 서비스서버가 해당 장면 이미지의 말풍선으로부터 생성된 대사 정보와, 해당 장면 이미지의 전후 장면 이미지의 캐릭터 정보 및 대사 정보를 기반으로 해당 장면 이미지의 말풍선의 화자를 파악하는 단계를 포함할 수 있다.

또한, 상기 대사 정보를 생성하는 단계는 하나의 장면 이미지 내에 둘 이상의 말풍선이 포함되어 있는 경우, 상기 서비스서버가 미리 설정된 방향에 따라 대사의 순서를 파악하는 단계를 포함할 수 있다.

또한, 상기 서비스서버는 말풍선의 모양을 기반으로 화자의 감정상태를 파악할 수 있으며, 상기 음성 데이터를 생성하는 단계는 상기 화자의 감정상태를 기반으로 상기 대사 정보를 텍스트-음성 변환하여 음성 데이터를 생성할 수 있다.

또한, 상기 서비스서버가 장면 이미지의 배경 내에서 텍스트를 추출하는 경우, 추출된 텍스트를 효과음으로 파악하여 효과음에 해당하는 목소리로 텍스트-음성 변환하여 음성데이터를 생성하는 단계를 더 포함할 수 있다.

또한, 상기 특정 말풍선의 수정 전 화자 및 청자와 동일하게 화자 및 청자가 표시된 말풍선을 추출하는 단계는 상기 서비스서버가 상기 특정 말풍선 이후의 말풍선 중에서, 상기 특정 말풍선이 포함된 장면 이미지의 배경과 동일한 배경을 갖는 장면 이미지에 포함된 말풍선을 추출하는 단계; 및 상기 서비스서버가 상기 특정 말풍선 이후의 말풍선 중에서, 상기 특정 말풍선이 포함된 장면 이미지로부터 추출된 캐릭터와 동일한 캐릭터가 추출된 장면 이미지에 포함된 말풍선을 추출하는 단계를 포함할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 다른 일 면에 따른 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 프로그램은, 하드웨어인 컴퓨터와 결합되어 상기 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법을 실행하며, 매체에 저장된다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명에 따르면, 웹툰 속 각 대사에 대해 화자 캐릭터와 화자 캐릭터의 감정을 판단하고, 화자 캐릭터에 해당하는 감정이 반영된 목소리로 대사를 발화하여 사용자에게 생동감 있는 웹툰 동영상을 제공하는 효과가 있다.

또한, 웹툰의 캐릭터별로 사람이 직접 더빙하는 것이 아니라, 웹툰에 등장하는 캐릭터별로 상이하게 목소리를 매칭시켜 놓은 후, 각 대사에 대해 파악된 화자 캐릭터에 해당하는 목소리로 대사를 발화하는 것이기 때문에 저렴한 비용으로 웹툰 동영상을 제작할 수 있는 효과가 있다.

또한, 인공 지능을 이용하여 각 대사에 대한 화자 캐릭터와 청자 캐릭터를 일차적으로 판단하고, 이를 관리자가 이차적으로 확인하고 수정함으로써 각 대사에 대한 화자 캐릭터와 청자 캐릭터를 보다 정확하게 파악할 수 있고, 이로 인해 사용자에게 각 대사가 각 대사의 화자에 해당하는 목소리로 정확하게 변환된 웹툰 동영상을 제공하는 효과가 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법을 설명하기 위한 흐름도이다.
도 3 내지 도 6은 본 발명의 일 실시예에 따른 웹툰 이미지를 구성하는 장면 이미지의 예시도이다.
도 7은 본 발명의 일 실시예에 따른 웹툰 동영상을 나타내는 예시도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 시스템의 구성도이다.

도 1을 참조하면, 서비스서버(100) 및 관리자 단말(200)은 네트워크(300)를 통해 연결되어 있다.

서비스서버(100)는 관리자 단말(200)로 웹툰 동영상 생성 애플리케이션 또는 웹을 제공하여 관리자가 관리자 단말(200)을 통해 애플리케이션을 설치하거나 또는 웹에 접속함으로써 웹툰 동영상 생성 서비스를 이용할 수 있게 한다.

서비스서버(100)는 관리자 단말(200)로부터 특정 웹툰에 대한 웹툰 동영상 생성 요청을 수신한다. 이때, 웹툰은 단행본으로 발행된 만화책을 스캔한 이미지 파일 형식의 만화일 수 있고, 또는 웹사이트에 게재된 세로로 긴 이미지 파일 형식의 만화일 수도 있지만, 이에 한정되지는 않는다.

서비스서버(100)는 웹툰의 이미지 파일(웹툰 이미지)을 이용하여 캐릭터 정보 및 대사 정보 등을 추출하고, 추출된 캐릭터 정보 및 대사 정보 등을 기반으로 각 대사에 대한 화자 및 청자를 파악할 수 있다. 서비스서버(100)는 웹툰 이미지에 각 대사에 대해 파악된 화자 및 청자를 표시하여 관리자 단말(200)로 전송하고, 이후에 관리자 단말(200)로부터 화자 또는 청자가 수정된 웹툰 이미지를 수신하여 웹툰 동영상을 생성한다.

관리자 단말(200)은 관리자의 컴퓨터, 태블릿 PC, 스마트폰 등으로서, 서비스서버(100)가 제공하는 애플리케이션을 설치하거나 또는 웹에 접속하여 서비스서버(100)로부터 생성된 웹툰 동영상을 제공받는 기기를 의미한다.

관리자 단말(200)은 서비스서버(100)로 특정 웹툰에 대한 웹툰 동영상 생성을 요청하고, 서비스서버(100)로부터 전송된 웹툰 이미지에 잘못된 부분이 있는지 확인하고, 관리자가 관리자 단말(200)을 통해 잘못된 부분을 수정하면, 수정된 웹툰 이미지를 다시 서비스서버(100)로 전송한다. 이러한 관리자에 의한 수정 작업은 한번에 완료될 수도 있고, 또는 반복적으로 이루어질 수도 있다.

네트워크(300)는 유선과 무선을 가리지 않으며, 다양한 통신 방식이 적용될 수 있다.

도 2는 본 발명의 일 실시예에 따른 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법을 설명하기 위한 흐름도이고, 도 3 내지 도 6은 본 발명의 일 실시예에 따른 웹툰 이미지를 구성하는 장면 이미지의 예시도이고, 도 7은 본 발명의 일 실시예에 따른 웹툰 동영상을 나타내는 예시도이다.

먼저, 서비스서버(100)가 관리자 단말(200)로부터 특정 웹툰에 대한 웹툰 동영상 생성 요청을 받으면, 단계 S10에서, 서비스서버(100)는 특정 웹툰의 웹툰 이미지를 구성하는 복수의 장면 이미지 중 각 장면 이미지로부터 하나 이상의 캐릭터를 추출하여 캐릭터 정보를 생성한다. 여기서, 웹툰 이미지는 복수의 장면 이미지 즉, 제1 장면 이미지, 제2 장면 이미지, ···, 제n 장면 이미지(n은 자연수)로 이루어지는데, 각 장면 이미지는 하나 이상의 캐릭터와 하나 이상의 말풍선, 배경 등으로 구성된다.

즉, 서비스서버(100)는 각 장면 이미지에서 캐릭터를 인식하여 추출하고, 추출된 캐릭터로부터 캐릭터의 특징, 예를 들어, 캐릭터의 머리색, 피부색, 머리모양, 안경, 얼굴형, 이목구비의 모양, 표정 등을 인식하여 캐릭터 정보를 생성한다.

이후, 단계 S20에서, 서비스서버(100)는 각 장면 이미지에 포함된 하나 이상의 말풍선 내에 표시된 텍스트를 추출하여 대사 정보를 생성한다. 이때, 서비스서버(100)는 이미지 파일 등에 포함된 텍스트를 판독하는 기술, 예를 들어 OCR (optical character reader) 등을 이용하여 말풍선 내의 텍스트를 추출하여 대사 정보를 생성할 수 있다.

일 실시예에 따라, 서비스서버(100)는 대사 정보를 생성할 때, 하나의 장면 이미지 내에 둘 이상의 말풍선이 포함되어 있는 경우, 미리 설정된 방향에 따라 대사의 순서를 파악할 수 있다. 예를 들어, 장면의 좌측 상단부터 우측 하단 방향으로 설정되어 있는 경우, 서비스서버(100)는 좌측 상단부터 우측 하단 방향으로 말풍선 내의 텍스트를 추출하여 순서 정보가 포함된 대사 정보를 생성하게 된다. 이때, 대사의 순서 파악 방향은 서버 내의 기본 설정에 의해 미리 설정된 방향일 수도 있고, 또는 관리자 단말(200)에 의해 요청되어 설정된 방향일 수도 있다.

이후, 단계 S30에서, 서비스서버(100)가 생성된 캐릭터 정보와 대사 정보를 기반으로 각 말풍선에 대한 화자 및 청자를 파악한다. 즉, 서비스서버(100)는 인공 지능을 이용하여 캐릭터의 머리색, 피부색, 머리모양, 안경, 얼굴형, 이목구비의 모양 등 캐릭터의 특징을 포함하는 캐릭터 정보를 분석하여, 캐릭터가 누구인지를 파악하고, 또한 대사 정보를 분석하여, 웹툰의 전체적인 내용 및 흐름, 각 대사의 문맥 및 각 대사를 말하는 캐릭터의 감정, 각 캐릭터 간의 관계, 각 장면의 상황 등을 파악할 수 있다. 이를 통해 서비스서버(100)는 각 말풍선의 대사를 말하는 화자와, 대사를 듣는 청자를 특정할 수 있게 된다.

일 실시예에 따라, 서비스서버(100)가 화자와 청자를 파악할 때, 서비스서버(100)가 각 장면 이미지에 포함된 하나 이상의 말풍선의 꼬리에 인접한 캐릭터를 말풍선에 상응하는 화자로 파악할 수 있다. 도 3을 참조하면, 좌측 상단에 있는 말풍선의 꼬리는 좌측의 캐릭터로 향해 있고, 우측 상단에 있는 말풍선의 꼬리는 우측의 캐릭터로 향해 있다. 따라서, 좌측 상단의 말풍선의 화자는 좌측의 캐릭터이고, 우측 상단의 말풍선의 화자는 우측의 캐릭터인 것을 알 수 있다.

다른 일 실시예에 따라, 서비스서버(100)가 화자와 청자를 파악할 때, 서비스서버가(100) 각 장면 이미지에 포함된 말풍선으로부터 생성된 대사 정보에 포함된 호칭을 기반으로 호칭에 상응하지 않는 캐릭터 중에서 말풍선에 상응하는 화자를 파악할 수 있다. 도 3을 참조하면, 좌측 캐릭터의 대사 "A야, 오늘도 힘내자!"를 통해 좌측 캐릭터는 A를 제외한 캐릭터 중 하나인 것을 알 수 있고, 우측 캐릭터의 대사 "그래, 힘내자 B!!"를 통해 우측 캐릭터는 B를 제외한 캐릭터 중 하나인 것을 알 수 있다. 그리고, 각 대사의 앞뒤 문맥을 통해 좌측 캐릭터가 B이고, 우측 캐릭터가 A인 것을 파악할 수 있다.

또한, 다른 일 실시예에 따라, 서비스서버(100)가 화자와 청자를 파악할 때, 웹툰 이미지를 구성하는 복수의 장면 이미지 중에서 특정 장면 이미지에 캐릭터는 포함되지 않고 말풍선만 포함되어 있을 경우, 서비스서버(100)가 해당 장면 이미지의 말풍선으로부터 생성된 대사 정보와, 해당 장면 이미지의 전후 장면 이미지의 캐릭터 정보 및 대사 정보를 기반으로 해당 장면 이미지의 말풍선의 화자를 파악할 수 있다. 도 5를 참조하면, 우측 장면 이미지는 캐릭터가 포함되지 않고 말풍선만 포함되어 있다. 이때, 이전 상황을 나타내는 좌측 장면 이미지에서 생성된 캐릭터 정보와 우측 장면 이미지의 말풍선 속 대화 정보를 통해 우측 장면 이미지의 말풍선의 화자는 '아들' 캐릭터인 것을 알 수 있다.

이후, 단계 S40에서, 서비스서버(100)는 각 말풍선에 화자 및 청자를 표시하여, 각 말풍선에 대해 화자 및 청자가 표시된 웹툰 이미지를 관리자 단말(200)로 제공한다. 예를 들어, 도 3에 도시된 장면 이미지는 좌측 캐릭터가 B이고, 우측 캐릭터가 A이며, 서로에게 말을 하는 상황임을 알 수 있다. 따라서, 도 4에 도시된 바와 같이, 해당 장면 이미지의 좌측 말풍선에는 B→A의 형태로 화자와 청자가 표시되고, 우측 말풍선에는 A→B의 형태로 화자와 청자가 표시될 수 있지만, 화자와 청자가 말풍선에 표시되는 형태는 이에 한정되지 않는다.

이후, 단계 S50에서, 관리자는 관리자 단말(200)을 통해 각 말풍선에 대해 화자 및 청자가 표시된 웹툰 이미지를 확인하여 특정 말풍선에 대해 화자 또는 청자 중 잘못된 부분이 있으면 정확히 수정한다. 서비스서버(100)는 관리자 단말(200)로부터 특정 말풍선에 대해 화자 또는 청자가 수정되어 표시된 웹툰 이미지를 수신한다. 이때, 관리자에 의해 검수작업을 거치는 이유는 웹툰은 내용상의 재미 또는 캐릭터의 특징 강조를 위해 캐릭터를 동물이나 괴물 등 사람이 아닌 형태로 표현하는 경우도 있고, 또는 과감한 생략을 하는 경우도 있기 때문이다. 따라서, 이런 특수한 경우를 위해 관리자가 직접 검수를 함으로써 각 대사에 대해 캐릭터별 목소리가 제대로 반영된 웹툰 동영상을 생성할 수 있게 된다.

이후, 단계 S60에서, 서비스서버(100)가 특정 말풍선 이후의 말풍선 중에서, 특정 말풍선의 수정 전 화자 및 청자와 동일하게 화자 및 청자가 표시된 말풍선을 추출한다. 웹툰의 특성상, 동일한 캐릭터를 포함한 동일한 장면이 계속 이어지는 상황이 많기 때문에, 관리자에 의해 수정된 특정 말풍선의 수정되기 전 화자 및 청자와 동일하게 화자 및 청자가 표시되어 있는 말풍선 역시 잘못되어 있는 경우가 많다. 그렇기 때문에 서비스서버(100)는 관리자에 의해 수정된 말풍선 이후의 말풍선 중에서 동일한 상황인 말풍선을 추출해내야 한다.

일 실시예에 따라, 서비스서버(100)는 특정 말풍선의 수정 전 화자 및 청자와 동일하게 화자 및 청자가 표시된 말풍선을 추출할 때, 특정 말풍선 이후의 말풍선 중에서, 특정 말풍선이 포함된 장면 이미지의 배경과 동일한 배경을 갖는 장면 이미지에 포함된 말풍선을 추출할 수 있다. 즉, 서비스서버(100)는 특정 말풍선이 포함된 배경과 동일한 배경에 포함된 말풍선을 추출한다.

다른 일 실시예에 따라, 서비스서버(100)는 특정 말풍선의 수정 전 화자 및 청자와 동일하게 화자 및 청자가 표시된 말풍선을 추출할 때, 특정 말풍선 이후의 말풍선 중에서, 특정 말풍선이 포함된 장면 이미지로부터 추출된 캐릭터와 동일한 캐릭터가 추출된 장면 이미지에 포함된 말풍선을 추출할 수 있다. 즉, 서비스서버(100)는 특정 말풍선이 포함된 장면 이미지에 등장하는 캐릭터와 동일한 캐릭터가 등장하는 장면 이미지에 포함된 말풍선을 추출한다.

이후, 단계 S70에서, 서비스서버(100)는 추출된 말풍선의 화자 또는 청자를 특정 말풍선의 수정 후 화자 또는 청자와 동일하게 수정한다. 즉, 관리자에 의해 특정 말풍선의 화자 또는 청자가 A→B에서 A→C로 수정되었다면, 특정 말풍선의 수정 전 화자 및 청자와 동일하게 표시된, 즉, 화자 및 청자가 A→B로 표시된 말풍선의 화자 또는 청자를 A→C로 수정한다.

추출된 말풍선의 화자 또는 청자의 수정 완료 후, 단계 S80에서, 서비스서버(100)는 각 말풍선의 대사 정보를 각 말풍선의 화자의 캐릭터에 해당하는 목소리로 텍스트-음성 변환하여 음성 데이터를 생성한다. 즉, 각 캐릭터마다 해당하는 목소리가 상이하기 때문에, 서비스서버(100)는 말풍선에 표시된 화자를 확인하고 이에 해당하는 목소리로 해당 말풍선의 대사를 발화하도록 한다.

일 실시예에 따라, 서비스서버(100)는 말풍선의 모양을 기반으로 화자의 감정상태를 파악할 수 있다. 예를 들어, 말풍선의 모양이 번개 모양으로 되어 있는 경우는 화자는 화가 난 상태이고, 말풍선의 모양이 구름 모양으로 되어 이는 경우는 화자가 혼잣말을 하는 것으로 알 수 있다. 다른 일 실시예에 따라, 서비스서버(100)는 캐릭터 정보 예를 들어, 캐릭터의 표정을 분석하여 해당 캐릭터의 감정 상태가 어떤지를 파악할 수 있으며, 대사 정보를 분석하여 대사의 앞뒤 문맥을 파악하고 캐릭터의 감정을 파악할 수 있다. 따라서, 서비스서버(100)는 음성 데이터를 생성할 때, 말풍선의 모양, 캐릭터 정보 또는 대사 정보를 분석하여 파악한 화자의 감정을 대사에 적용함으로써, 화자의 감정을 생동감 있게 표현하는 음성 데이터를 생성할 수 있다.

또한, 일 실시예에 따라, 서비스서버(100)가 장면 이미지의 배경 내에서 텍스트를 추출하는 경우, 추출된 텍스트가 의성어, 의태어 등의 문장이 아닌 짧은 텍스트인 경우, 이를 효과음으로 파악하여 효과음에 해당하는 목소리로 텍스트-음성 변환하여 음성데이터를 생성할 수 있다. 도 5에 도시된 바와 같이, 우측 장면 이미지 내의 "쾅, 쾅"은 말풍선 내가 아니라 배경에 포함되어 있고, 의성어인 경우이므로, 서비스서버(100)는 이를 효과음으로 파악하여 음성데이터를 생성하게 된다.

또한, 일 실시예에 따라, 서비스서버(100)가 장면 이미지의 배경 내에서 텍스트를 추출하는 경우, 추출된 텍스트가 설명글 등의 긴 문장인 경우, 이를 내레이션으로 파악하여 내레이션에 해당하는 목소리로 텍스트-음성 변환하여 음성데이터를 생성할 수 있다. 도 6에 도시된 바와 같이, 배경 내에 캐릭터를 설명하는 텍스트는 내레이션으로 파악되어 서비스서버(100)에 의해 내레이션에 해당하는 목소리로 음성데이터가 생성되게 된다.

이후, 단계 S90에서, 서비스서버(100)는 복수의 장면 이미지 및 각 장면 이미지에 대해 하나 이상의 음성 데이터로 구성되는 웹툰 동영상을 생성한다. 각 장면 이미지는 대사, 효과음, 내레이션 등 하나 이상의 음성 데이터가 매칭되어 있으며, 웹툰 동영상은 복수의 장면 이미지로 구성되어 있어, 하나의 장면 이미지와 해당 장면 이미지에 매칭된 음성 데이터가 함께 재생되어 웹툰을 시각과 청각으로 동시에 시청할 수 있게 한다. 이때, 서비스서버(100)는 웹툰 동영상의 각 장면 이미지에 포함된 하나 이상의 음성 데이터의 길이에 상응하도록 웹툰 동영상의 각 장면 이미지의 전환 시점을 설정할 수 있다. 도 7을 참조하면, 웹툰 동영상의 총 길이는 10분이다. 즉, 제1 장면 이미지, 제2 장면 이미지, ···, 제n 장면 이미지의 재생 시간(즉, 각 장면 이미지에 매칭된 음성 데이터의 총 재생 시간)을 모두 합친 시간이 10분이다. 도 7(a)에 도시된 바와 같이, 제1 장면 이미지의 재생 시간, 즉 제1 장면 이미지에 매칭된 음성 데이터의 길이는 10초이고, 도 7(b)에 도시된 바와 같이, 11초부터는 장면이 전환되어 제2 장면 이미지가 재생되게 된다.

이상에서 전술한 본 발명의 일 실시예에 대사를 캐릭터별 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

100 : 서비스서버
200 : 관리자 단말
300 : 네트워크

Claims

서비스서버가 웹툰 이미지를 구성하는 복수의 장면 이미지 중 각 장면 이미지로부터 하나 이상의 캐릭터를 추출하여 캐릭터 정보를 생성하는 단계;
상기 서비스서버가 상기 각 장면 이미지에 포함된 하나 이상의 말풍선 내에 표시된 텍스트를 추출하여 대사 정보를 생성하는 단계;
상기 서비스서버가 생성된 상기 캐릭터 정보와 상기 대사 정보를 기반으로 각 말풍선에 대한 화자 및 청자를 파악하는 단계;
상기 서비스서버가 각 말풍선에 화자 및 청자를 표시하는 단계;
상기 서비스서버가 상기 각 말풍선에 화자 및 청자가 표시된 웹툰 이미지를 관리자 단말로 제공하는 단계;
상기 서비스서버가 상기 관리자 단말로부터 상기 관리자에 의하여 특정 말풍선에 대해 화자 또는 청자가 수정되어 표시된 웹툰 이미지를 수신하는 단계;
상기 서비스서버가 상기 특정 말풍선 이후의 말풍선 중에서, 상기 특정 말풍선의 수정 전 화자 및 청자와 동일하게 화자 및 청자가 표시된 말풍선을 추출하는 단계;
상기 서비스서버가 추출된 상기 말풍선의 화자 또는 청자를 상기 특정 말풍선의 수정 후 화자 또는 청자와 동일하게 수정하는 단계;
수정 완료 후, 상기 서비스서버가 각 말풍선의 대사 정보를 각 말풍선의 화자의 캐릭터에 해당하는 목소리로 텍스트-음성 변환하여 음성 데이터를 생성하는 단계; 및
상기 서비스서버가 복수의 장면 이미지 및 각 장면 이미지에 대해 하나 이상의 음성 데이터로 구성되는 웹툰 동영상을 생성하는 단계를 포함하는, 대사를 캐릭터별로 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법.
제1항에 있어서,
상기 웹툰 동영상을 생성하는 단계는,
상기 서비스서버가 상기 웹툰 동영상의 각 장면 이미지에 포함된 하나 이상의 음성 데이터의 길이에 상응하도록 상기 웹툰 동영상의 각 장면 이미지의 전환 시점을 설정하는 단계를 포함하는, 대사를 캐릭터별로 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법.
제1항에 있어서,
상기 화자와 청자를 파악하는 단계는,
상기 서비스서버가 상기 각 장면 이미지에 포함된 하나 이상의 말풍선의 꼬리에 인접한 캐릭터를 상기 말풍선에 상응하는 화자로 파악하는 단계를 포함하는, 대사를 캐릭터 별로 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법.
제1항에 있어서,
상기 화자와 청자를 파악하는 단계는,
상기 서비스서버가 상기 각 장면 이미지에 포함된 말풍선으로부터 생성된 대사 정보에 포함된 호칭을 기반으로 상기 호칭에 상응하지 않는 캐릭터 중에서 상기 말풍선에 상응하는 화자를 파악하는 단계를 포함하는, 대사를 캐릭터별로 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법.
제1항에 있어서,
상기 화자와 청자를 파악하는 단계는,
상기 웹툰 이미지를 구성하는 복수의 장면 이미지 중에서 특정 장면 이미지에 캐릭터는 포함되지 않고 말풍선만 포함되어 있을 경우, 상기 서비스서버가 해당 장면 이미지의 말풍선으로부터 생성된 대사 정보와, 해당 장면 이미지의 전후 장면 이미지의 캐릭터 정보 및 대사 정보를 기반으로 해당 장면 이미지의 말풍선의 화자를 파악하는 단계를 포함하는, 대사를 캐릭터별로 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법.
제1항에 있어서,
상기 대사 정보를 생성하는 단계는,
하나의 장면 이미지 내에 둘 이상의 말풍선이 포함되어 있는 경우, 상기 서비스서버가 미리 설정된 방향에 따라 대사의 순서를 파악하는 단계를 포함하는, 대사를 캐릭터 별로 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법.
제1항에 있어서,
상기 서비스서버는 말풍선의 모양을 기반으로 화자의 감정상태를 파악하는 것을 특징으로 하는, 대사를 캐릭터별로 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법.
제7항에 있어서,
상기 음성 데이터를 생성하는 단계는,
상기 화자의 감정상태를 기반으로 상기 대사 정보를 텍스트-음성 변환하여 음성 데이터를 생성하는, 대사를 캐릭터별로 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법.
제1항에 있어서,
상기 서비스서버가 장면 이미지의 배경 내에서 텍스트를 추출하는 경우, 추출된 텍스트를 효과음으로 파악하여 효과음에 해당하는 목소리로 텍스트-음성 변환하여 음성데이터를 생성하는 단계를 더 포함하는, 대사를 캐릭터별로 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법.
제1항에 있어서,
상기 특정 말풍선의 수정 전 화자 및 청자와 동일하게 화자 및 청자가 표시된 말풍선을 추출하는 단계는,
상기 서비스서버가 상기 특정 말풍선 이후의 말풍선 중에서, 상기 특정 말풍선이 포함된 장면 이미지의 배경과 동일한 배경을 갖는 장면 이미지에 포함된 말풍선을 추출하는 단계; 및
상기 서비스서버가 상기 특정 말풍선 이후의 말풍선 중에서, 상기 특정 말풍선이 포함된 장면 이미지로부터 추출된 캐릭터와 동일한 캐릭터가 추출된 장면 이미지에 포함된 말풍선을 추출하는 단계를 포함하는, 대사를 캐릭터별로 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 방법.
하드웨어인 컴퓨터와 결합되어, 제1항 내지 제10항 중 어느 한 항의 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된, 대사를 캐릭터별로 상이한 목소리로 변환하여 전달하는 웹툰 동영상 생성 프로그램.