KR20190109055A

KR20190109055A - 음성 특성 분류를 이용한 영상 내 그래픽 생성 방법 및 장치

Info

Publication number: KR20190109055A
Application number: KR1020180030928A
Authority: KR
Inventors: 박귀현
Original assignee: 박귀현
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2019-09-25
Also published as: KR102044541B1

Abstract

본 발명은 음성 특성 분류를 이용한 영상 내 그래픽 생성 방법 및 장치에 관한 것이다. 이를 위하여, 입력되는 음성 데이터의 음성 특성을 이용하여 음성 데이터를 복수개의 구간으로 분류하고, 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 모듈; 입력되는 음성 데이터에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 모듈; 효과 어구 및 효과 어구에 대응되는 그래픽 효과를 저장하는 효과 데이터베이스에 저장된 효과 어구 중 주체 대표 어구와 매칭되는 효과 어구의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 모듈; 주체 효과 정보와 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 모듈; 및 결합 효과 정보를 영상 데이터에 결합하여 출력 영상 정보를 생성하는 영상 출력 모듈;을 제공할 수 있다.

Description

음성 특성 분류를 이용한 영상 내 그래픽 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING GRAPHICS IN VIDEO USING SPEECH CHARACTERIZATION}

본 발명은 음성 특성 분류를 이용한 영상 내 그래픽 생성 방법 및 장치에 관한 것이다.

사용자들은 더이상 단순한 이미지나 글귀에 반응하지 않는다. 기업들이 사용자를 어퀴지션(Acquisition)하기 위해 자극적인 이미지나 텍스트를 오랜기간 사용한 결과이고, 사용자들과의 접점이 PC의 Web에서 모바일로 전이되면서 발생된 일이다. 사용자들은 이미 기존의 커뮤니케이션 및 미디어 방식에 적응하였으며, 사용자를 끌기 위해서는 패러다임이 다른 자극이 필요하게 되었다. 이는 최근의 배너 광고 및 검색 광고의 몰락과 관계가 있다.

사용자들에게 새로운 자극은 곧 동영상이다. 페이스북(Facebook) 및 유투브(Youtube)를 통한 동영상의 시청 시간이 어느때보다 큰 폭으로 증가하고 있고, 특히 나이 어린 사용자들에게서는 동영상의 시청이 지배적이다. 특히 기존에는 '동영상 플랫폼'이라고 하면 유투브만이 연상될 정도로 유투브가 독보적이었지만, 최근 페이스북의 성장이 매우 가파르다.

페이스북은 2015년 4분기에 15억 6천만 달러의 순익을 돌파하였고, 전체 매출 중 모바일 광고 매출 비중이 80%를 차지하였다. 특히, 2015년 4분기의 페이스북의 MAU(Monthly Active User)인 15억 9천만명 중 90.6%인 14억 4천만명이 모바일을 통해 페이스북을 이용하였다.

페이스북의 이러한 성장에는 페이스북의 동영상 전략이 뒤에 있다. 2013년 12월 페이스북은 사용자 또는 페이지 운영자가 직접 올린 동영상에 '자동재생(Auto Play)' 기능을 도입했다. 동영상 생산자 입장에서 보면 유튜브에 올린 동영상 주소(URL)를 페이스북 포스트에 입력하는 것보다, 페이스북에 동영상을 자체적으로 업로드하여 자동재생되도록 구성하는 것이 훨씬 바람직하다. 왜냐하면, 사용자가 자기도 모르는 사이에 영상의 초반을 감상하게 되면서 자연스럽게 영상에 트랙션(traction) 되기 때문이다. re/code에 따르면, 북미 프로아이스하키(NHL) 결승전 편집 동영상의 유튜브 조회수는 1,200에 그친 반면 동일 동영상이 페이스북에서 조회수는 24만을 기록했다. 자동재생 덕분이다.

페이스북은 링크에 기초한 유튜브 동영상보다 페이스북에 직접 올린 동영상의 뉴스피드 노출도를 높이기 위해 뉴스피드 알고리즘을 조정했다.

이러한 과정을 통해 페이스북은 '웹 동영상 = 유튜브'라는 사용자 인식을 바꾸는데 성공했다. 수치에서도 이는 쉽게 확인할 수 있다. 2015년 중순, 페이스북 동영상은 하루 총 40억 조회수를 기록하고 있다. 2014년 9월 총 조회수는 10억 수준이었다. 약 7개월만에 페이스북 동영상 조회수는 10억에서 40억으로 급상승했다.

반면 유튜브가 하루 40억 조회수를 기록한 시점은 2012년 초기다. 2009년 10억 조회수를 기록했으니 유튜브는 40억 조회수를 도달하는데 약 4년을 필요로 했다. 페이스북이 상대적으로 단기간에 동영상 조회수를 끌어 올리는 데에는 자동재생뿐 아니라 뉴스피드 알고리즘 조정이 한 몫한 것으로 추정할 수 있다. 2015년 3월 페이스북은 동영상의 임베드 기능을 제공하기 시작했다. 이로써 페이스북 동영상을 매개로하는 네트워크 확산이 가능하게 되었다. 모바일이 미디어 소비의 주요 공간으로 성장하는 상황에서 임베드 기능에 동영상 확산에 기여하는 바는 크지 않다. 그러나 페이스북이 올린 또는 올라온 동영상을 다양한 곳에서 만날 수 있다는 점이 생산자 입장에서 매력이다.

이와 같은 맥락으로, 커뮤니케이션 및 미디어 환경은 기존의 카카오톡(Kakaotalk), 라인(Line), 위챗(Wechat), 왓츠앱(WhatsApp), 페이스북 메신저(Facebook messanger) 등의 채팅 기반에서 인스타그램(Instagram), 스냅(Snap), 콰이(Kwai), 스노우(Snow) 등의 영상 기반으로 전이되고 있다.

공개특허 10-2004-0100658, 그래픽을 이용한 휴대 단말기 및 그의 가상 영상 통화 방법, 엘지전자 주식회사 등록특허 10-0759364, 사용자 반응형 실시간 그래픽스와 고품질 그래픽 영상 합성 방법, 한국과학기술원 등록특허 10-1029612, 그래픽 그래픽과 영상의 동시 재생 방법 및 시스템, 한국전자통신연구원 등록특허 10-1373020, 정적 영상에서 그래픽 아트 효과를 생성하기 위한 방법 및 시스템, 삼성전자 주식회사

인스타그램(Instagram), 스냅(Snap), 콰이(Kwai), 스노우(Snow) 등과 같은 최근의 커뮤니케이션 및 미디어 플랫폼들은 영상에서 Face recognition을 이용하여 사용자들의 얼굴에 자연스러운 그래픽 효과를 발생시키는 방법을 취하고 있다. 하지만, 이러한 그래픽 효과는 사용자들의 자발적인 선택에 의해 발생되는 것이라는 문제가 있다.

따라서, 본 발명의 목적은 사용자들이 입력하는 영상에서 음성 데이터를 추출하여 음성 특성으로 분류한 뒤, 분류된 음성 데이터에 대응되는 그래픽 효과를 발생시키는 음성 특성 분류를 이용한 영상 내 그래픽 생성 방법 및 장치를 제공하는 데에 있다.

이하 본 발명의 목적을 달성하기 위한 구체적 수단에 대하여 설명한다.

본 발명의 목적은, 입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 모듈; 상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 모듈; 효과 어구 및 상기 효과 어구에 대응되는 그래픽 효과를 저장하는 효과 데이터베이스에 저장된 상기 효과 어구 중 상기 주체 대표 어구와 매칭되는 효과 어구의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 모듈; 상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 모듈; 및 상기 결합 효과 정보를 상기 영상 데이터에 결합하여 출력 영상 정보를 생성하는 영상 출력 모듈;을 포함하고, 상기 효과 생성 모듈은, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 최적화되고, 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 최적화되는 것을 특징으로 하는, 음성 특성 분류를 이용한 영상 내 그래픽 생성 장치를 제공하여 달성될 수 있다.

본 발명의 다른 목적은, 효과 어구 및 상기 효과 어구에 대응되는 그래픽 효과를 저장하고, 영상 내 그래픽 생성을 위한 프로그램 코드가 저장된 메모리 모듈; 및 상기 메모리 모듈과 동작 가능하도록 결합되고, 상기 프로그램 코드를 실행하는 처리 모듈;을 포함하고, 상기 프로그램 코드는, 입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 단계; 상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 단계; 상기 효과 어구 중 상기 주체 대표 어구와 매칭되는 효과 어구의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 단계; 상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 단계; 및 상기 결합 효과 정보를 상기 영상 데이터에 결합하여 출력 영상 정보를 생성하는 영상 출력 단계;를 포함하며, 상기 효과 생성 단계는, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 하는 최적화 및 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 하는 최적화 이후 수행되는, 음성 특성 분류를 이용한 영상 내 그래픽 생성 장치를 제공하여 달성될 수 있다.

본 발명의 다른 목적은, 음성 특성 분류 모듈이, 입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 단계; 주체 대표 어구 선정 모듈이, 상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 단계; 매칭 모듈이, 효과 어구 및 상기 효과 어구에 대응되는 그래픽 효과를 저장하는 효과 데이터베이스에 저장된 상기 효과 어구 중 상기 주체 대표 어구와 매칭되는 효과 어구의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 단계; 효과 생성 모듈이, 상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 단계; 및 영상 출력 모듈이, 상기 결합 효과 정보를 상기 영상 데이터에 결합하여 출력 영상 정보를 생성하는 영상 출력 단계;를 포함하고, 상기 효과 생성 모듈은, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 최적화되고, 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 최적화되는 것을 특징으로 하는, 음성 특성 분류를 이용한 영상 내 그래픽 생성 방법을 제공하여 달성될 수 있다.

본 발명의 다른 목적은, 입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 모듈; 상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 모듈; 입력되는 구연동화 이미지 정보에서 특정 객체를 검출하여 특정 객체 이미지 정보를 생성하는 디텍션 모듈; 상기 특정 객체 이미지 정보를 분류하여 이미지 분류 정보를 생성하는 이미지 분류 모듈; 상기 주체 대표 어구와 매칭되는 상기 이미지 분류 정보의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 모듈; 상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 모듈; 및 상기 결합 효과 정보를 상기 음성 데이터 및 상기 구연동화 이미지 정보에 결합하여 출력 영상 정보를 생성하는 영상 출력 모듈;을 포함하고, 상기 효과 생성 모듈은, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 최적화되고, 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 최적화되며, 특정 구연동화 이미지 정보 및 특정 음성 데이터가 입력되면 상기 특정 음성 데이터에서 음성 특성 분류를 이용하여 특정 대표 구역을 선정하고, 상기 특정 음성 데이터에서 상기 특정 대표 구역의 문맥에 대응되는 특정 결합 효과 정보를 생성하고 상기 특정 결합 효과 정보를 상기 특정 구연동화 이미지 정보 및 상기 특정 음성 데이터와 결합하여 구연동화 영상인 특정 출력 영상 정보를 출력하는, 음성 특성 분류를 이용한 구연동화 영상 생성 장치를 제공하여 달성될 수 있다.

또한, 영상 출력 모듈은, 상기 구연동화 이미지 정보에서 검출된 상기 특정 객체의 이미지 위에 상기 결합 효과 정보를 오버랩하여 상기 출력 영상 정보를 생성할 수 있다.

또한, 주체 대표 어구 선정 모듈은, 상기 이미지 분류 정보에 대응되는 어구 중에서 상기 주체 대표 어구를 선정할 수 있다.

본 발명의 목적은, 효과 어구 및 상기 효과 어구에 대응되는 그래픽 효과를 저장하고, 구연동화 영상 생성을 위한 프로그램 코드가 저장된 메모리 모듈; 및 상기 메모리 모듈과 동작 가능하도록 결합되고, 상기 프로그램 코드를 실행하는 처리 모듈;을 포함하고, 상기 프로그램 코드는, 입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 단계; 상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 단계; 입력되는 구연동화 이미지 정보에서 특정 객체를 검출하여 특정 객체 이미지 정보를 생성하는 디텍션 단계; 상기 특정 객체 이미지 정보를 분류하여 이미지 분류 정보를 생성하는 이미지 분류 단계; 상기 주체 대표 어구와 매칭되는 상기 이미지 분류 정보의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 단계; 상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 단계; 및 상기 결합 효과 정보를 상기 음성 데이터 및 상기 구연동화 이미지 정보에 결합하여 출력 영상 정보를 생성하는 영상 출력 단계;를 포함하고, 상기 효과 생성 단계는, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 하는 최적화 및 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 하는 최적화 이후 수행되는, 음성 특성 분류를 이용한 구연동화 영상 생성 장치를 제공하여 달성될 수 있다.

본 발명의 다른 목적은, 음성 특성 분류 모듈이, 입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 단계; 주체 대표 어구 선정 모듈이, 상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 단계; 디텍션 모듈이, 입력되는 구연동화 이미지 정보에서 특정 객체를 검출하여 특정 객체 이미지 정보를 생성하는 디텍션 단계; 이미지 분류 모듈이, 상기 특정 객체 이미지 정보를 분류하여 이미지 분류 정보를 생성하는 이미지 분류 단계; 매칭 모듈이, 상기 주체 대표 어구와 매칭되는 상기 이미지 분류 정보의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 단계; 효과 생성 모듈이, 상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 단계; 및 영상 출력 모듈이, 상기 결합 효과 정보를 상기 음성 데이터 및 상기 구연동화 이미지 정보에 결합하여 출력 영상 정보를 생성하는 영상 출력 단계;를 포함하고, 상기 효과 생성 모듈은, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 최적화되고, 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 최적화되며, 특정 구연동화 이미지 정보 및 특정 음성 데이터가 입력되면 상기 특정 음성 데이터에서 음성 특성 분류를 이용하여 특정 대표 구역을 선정하고, 상기 특정 음성 데이터에서 상기 특정 대표 구역의 문맥에 대응되는 특정 결합 효과 정보를 생성하고 상기 특정 결합 효과 정보를 상기 특정 구연동화 이미지 정보 및 상기 특정 음성 데이터와 결합하여 구연동화 영상인 특정 출력 영상 정보를 출력하는, 음성 특성 분류를 이용한 구연동화 영상 생성 방법을 제공하여 달성될 수 있다.

상기한 바와 같이, 본 발명에 의하면 이하와 같은 효과가 있다.

첫째, 본 발명의 일실시예에 따르면, 사용자들이 업로드하는 영상에 자동으로 해당 영상의 Context와 관련이 깊은 그래픽 효과가 발생되는 효과가 발생된다.

둘째, 본 발명의 일실시예에 따른 음성 특성 분류를 이용한 구연동화 영상 생성 방법 및 장치에 따르면, 사용자가 구연하는 부분의 이미지에 그래픽 효과가 발생되는 효과가 발생된다.

셋째, 본 발명의 일실시예에 따르면, 사용자가 그래픽 효과를 원하는 부분에 대해 의도적으로 다른 음성 특성을 내는 것을 시그널로 하는 그래픽 효과를 제공할 수 있다.

본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1,2는 본 발명의 일실시예에 따른 영상 내 그래픽 생성 장치를 도시한 것,
도 3은 본 발명의 변형예에 따른 영상 내 그래픽 생성 장치를 도시한 모식도,
도 4는 본 발명의 일실시예에 따른 영상 내 그래픽 생성 방법을 도시한 흐름도,
도 5,6은 본 발명의 일실시예에 따른 구연동화 영상 생성 장치를 도시한 것,
도 7은 R-CNN의 특정 객체 검출 및 분류 방법을 도시한 흐름도,
도 8은 YOLO의 네트워크 형태를 도시한 모식도,
도 9는 본 발명의 변형예에 따른 구연동화 영상 생성 장치를 도시한 모식도,
도 10은 본 발명의 일실시예에 따른 구연동화 영상 생성 방법을 도시한 흐름도이다.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작원리를 상세하게 설명함에 있어서 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 특정 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고, 간접적으로 연결되어 있는 경우도 포함한다. 또한, 특정 구성요소를 포함한다는 것은 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

음성 특성 분류를 이용한 영상 내 그래픽 생성 방법 및 장치

도 1,2는 본 발명의 일실시예에 따른 음성 특성 분류를 이용한 영상 내 그래픽 생성 장치를 도시한 것이다. 도 1,2에 도시된 바와 같이, 본 발명의 일실시예에 따른 영상 내 그래픽 생성 장치(1)는, 음성 특성 분류 모듈(9), 대표 어구 선정 모듈(10), 매칭 모듈(11), 효과 데이터베이스(12), 효과 생성 모듈(13), 영상 출력 모듈(14)을 포함할 수 있다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 영상 내 그래픽 생성 장치는 기본적으로 사용자 또는 특정 알고리즘에 의해 제공되는 영상 데이터에서 음성 데이터 중 대표 어구를 선정하고(대표 어구 선정 모듈,10), 선정된 대표 어구에 가장 유사한 그래픽 효과 정보를 매칭하며(매칭 모듈,11), 매칭된 그래픽 효과 정보를 상기 영상 데이터에 맞게 최적화하여 생성하고(효과 생성 모듈,12), 최적화 생성된 그래픽 효과 정보를 토대로 출력 영상 정보를 사용자 클라이언트 또는 서버에 송신하게 된다(영상 출력 모듈,14).

음성 특성 분류 모듈(9)은 입력된 음성 데이터의 음성 특성을 이용하여 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 기준 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 모듈이다. 본 발명의 일실시예에 따라 이용될 수 있는 음성 특성은, 파형(Waveform), 스펙트로그램(Spectrogram), 피치(Pitch), 어쿠스틱 모델 스코어(Acoustic model score), 언어모델 스코어(Language model score), GMM 모델 스코어, 단어 오인식률(Word error rate), SNR, PESQ, MFCC distance, 음성 지속시간(Duration) 등이 이용될 수 있다.

스펙토그램과 관련하여, 시간축의 음성 신호를 주파수 축의 신호로 변환하여 2차원으로 표현한 그래프를 스펙트럼이라고 하는데, 스펙트럼의 가로 축은 주파수, 세로 축은 주파수 성분의 크기로 구성되며 분석 시 음성 신호가 어떠한 주파수 성분으로 구성되어 있는지를 알 수 있다. 본 발명의 일실시예에 따른 스펙트로그램은 스펙트럼을 시간 축으로 재 표현한 것으로 가로 축은 시간을 나타내며 세로 축은 주파수, 주파수 성분의 크기와 밀도를 색으로 나타낸다.

피치와 관련하여, 발화시 음성 신호는 유성음과 무성음으로 구성되며 시간 축에서 유성음은 일정한 주기적인 특성을 가지기 때문에 여러 개의 주기 신호의 합으로 표현할 수 있다. 이러한 유성음은 주기 신호에서 가장 큰 반복 패턴를 나타내는 최대 주파수를 갖는데, 이의 역수를 취한 값이 피치이다. 따라서 피치는 음성의 주기적 특성을 나타내는 지표이며 유성음과 무성음을 구분하기도 하는 등 음성의 많은 특징을 분석할 때 쓰이는 지표이다.

GMM 모델 스코어와 관련하여, 깨끗한 레퍼런스 데이터베이스로 생성한 음향 · 언어 가우시안 혼합 모델에 대한 우도에 로그를 취한 값으로, 입력된 특징이 훈련된 모델에서 발견될 확률 값이다. 확률인 0~1 사이 값에 로그를 취해서 음수 값으로 나타나게 된다. 입력된 음성 특징으로 구한 모델 확률 값은 훈련된 이상적인 모델과 유사할수록 큰 값을 갖기 때문에 음성 인식 성능 지표로 쓰일 수 있다.

단어 오인식률과 관련하여, 단어 오인식률은 깨끗한 파일의 Transcription과 오염된 음성 파일의 인식 결과를 비교하여 발화한 단어 중 정확히 인식한 단어의 비율을 나타내는 대표적인 음성 인식 성능 지표이다.

SNR과 관련하여, SNR(Signal-to-Noise Ratio, SNR)은 인식 성능을 판단할 때 대표적으로 쓰이는 음성 특성 지표로서 듣고자 하는 주변 잡음 크기에 대한 음성 신호 크기의 상대적인 비율을 표현한 값이다. SNR은 음성 신호의 크기를 잡음 신호의 크기로 나눈 것에 로그를 취해준 값으로 SNR이 양수일 경우 잡음 신호 보다 음성 신호의 크기가 크다. 따라서 SNR이 큰 음성일수록 음성의 인식 성능이 좋을 거라 표현할 수 있다.

PESQ와 관련하여, 사람이 주관적으로 음성을 듣고 1~5 등급 사이로 품질을 평가하는 방법인 MOS(Mean Opinion Score)기법은 주관적인 방법이기 때문에 평가자가 필요하다. PESQ는 음성 품질 평가를 위한 자동화된 테스트로써 MOS를 자동화 시킨 방법이다.

MFCC와 관련하여, MFCC 특징 추출 기법은 현재 음성 인식 시스템의 특징 추출 기법으로 가장 널리 사용되고 있는 방법이다. 우선 음성 데이터의 아날로그 신호를 푸리에 변환을 통해 주파수 스펙트럼으로 변환한다. 그 후 인간의 청각 시스템을 모방한 주파수 스케일인 Mel-filter Bank 분석을 통해 얻은 계수를 로그를 취한다. 마지막으로 이산 코사인 변환(Discrete Cosine Transform, DCT)을 적용함으로써 Cepstrum 계수로 변환한다. MFCC 계수 유사도는 MFCC 계수의 거리를 측정함으로써 얻을 수 있으며 깨끗한 신호와 잡음에 오염된 신호의 MFCC 특징 계수의 차이를 나타낸다.

음성 지속 시간과 관련하여, 음성 지속 시간은 음성 신호의 길이를 음절의 수로 나눈 값으로 데이터 당 발화 속도를 수치로 표현한 값이다.

대표 어구 선정 모듈(10)은 상기 음성 데이터의 분류된 구역들 중 기준 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역에서 문맥(Context)을 대표하는 대표 어구를 선정하는 구성이다. 본 발명의 일실시예에 따른 대표 어구 선정 모듈(10)은, 텍스트 변환 모듈(101), 구분 모듈(102), 주체 선정 모듈(103)을 포함할 수 있다. 본 발명의 일실시예에 따른 대표 어구 선정 모듈(10)에 따르면, 문맥의 주체에 관련된 주체 대표 어구와 문맥의 모션에 관련된 모션 대표 어구를 선정할 수 있다.

텍스트 변환 모듈(101)은 대표 구역의 음성 데이터를 입력 텍스트로 변환하는 모듈이다.

구분 모듈(102)은 텍스트 변환 모듈(101)에서 입력 텍스트를 일반 문자열 형태(Normal text)로 입력받게 되고, 이렇게 입력받은 일반 문자열 형태를 NLP 모듈에 의해 개체(entity)와 의미구(intent)와 같은 어구로 구분하여 어구 정보를 생성하는 모듈이다. NLP 모듈은 구체적으로 형태소 분석, 어간 추출, 불용어 추출, TF, TFIDF 등의 기능을 포함할 수 있다. 이후, 벡터화 모듈(Sentence2vec나 Word2vec, SyntexNet)에 의해 구분된 개체와 의미구를 벡터값으로 처리하게 될 수 있다. 이러한 벡터값 처리에는 Word2vec가 이용될 수 있고, 구체적으로는 n-gram, 문맥으로부터 단어를 예측하는 CBOW 모델, 또는 단어로부터 문맥을 예측하는 Skip-gram 모델 등이 이용될 수 있다. 즉, 구분 모듈(102)은 개체와 의미구를 포함하는 어구 정보를 생성할 수 있고, 벡터화 모듈에 의해 어구 정보는 벡터값(어구 정보의 embedding vector)으로 표현될 수 있다.

주체 선정 모듈(103)은 상기 구분 모듈(102)에서 구분된 어구 정보를 SyntaxNet으로 분석하여 주어나 목적어에 해당되는 명사구(Noun phase)와 같은 주체 대표 어구를 선정하는 모듈이다.

도 3은 본 발명의 변형예에 따른 영상 내 그래픽 생성 장치를 도시한 모식도이다. 도 3에 도시된 바와 같이, 주체 선정 모듈(103) 대신에 주체 및 모션 선정 모듈(104)이 적용될 수 있다. 주체 및 모션 선정 모듈(104)은 상기 구분 모듈(102)에서 구분된 어구 정보를 SyntaxNet으로 분석하여 주어나 목적어에 해당되는 명사구(Noun phase)와 같은 주체 대표 어구 및 동사구(Verb phase)나 수식어구와 같은 모션 대표 어구를 선정하는 모듈이다.

매칭 모듈(11)은 상기 구분 모듈(102)에서 구분되어 벡터화된 어구 정보(어구 정보의 embedding vector) 중 선정된 주체 대표 어구(변형예에 따르면 주체 대표 어구와 모션 대표 어구 각각)와 가장 가까운(가장 유사한) 효과 데이터베이스에 기저장된 효과 어구(효과 어구의 Embedding vector)를 매칭하는 모듈이다. 즉, 효과 데이터베이스에 저장된 상기 효과 어구 중 상기 주체 대표 어구와 매칭되는 효과 어구의 그래픽 효과인 주체 효과 정보를 생성하는 모듈이다. 또한, 변형예에 따르면 주체 효과 정보와 함께 상기 모션 대표 어구와 매칭되는 효과 어구의 그래픽 효과인 모션 효과 정보도 생성할 수 있다. 어구 정보와 효과 어구의 유사도를 계산하는 방법으로, 본 발명의 일실시예에 따른 코사인 유사도가 이용될 수 있다. 코사인 유사도는 두 벡터의 각도를 측정하는 것이다. 각도가 같은 경우, 즉 두 벡터가 이루는 각이 0도인 경우엔 유사도의 최대값인 1.0이 나오게 된다. 그리고 가장 유사도가 낮은 경우는 두 벡터의 각도가 90도가 되는 경우이다. 예를 들어 본 발명의 일실시예에 따른 코사인 유사도로‘스웨덴’과 ‘노르웨이’의 유사도를 구하면 0.760124 라는 높은 유사도가 나오게 된다. 이에 따라, 매칭 모듈(11)에서는 특정 주체 대표 어구 및 특정 모션 대표 어구 각각에 대해 효과 어구가 매칭되면서, 주체 대표 어구에 대응되는 주체 효과 정보 및 모션 대표 어구에 대응되는 모션 효과 정보가 생성된다. 특정 주체 대표 어구에 대응되는 주체 효과 정보는 특히 특정 주체 대표 어구에 대한 정적 그래픽 정보를 의미할 수 있고, 특정 모션 대표 어구에 대응되는 모션 효과 정보는 특히 특정 모션 대표 어구에 대한 동적 그래픽 정보를 의미할 수 있다.

효과 데이터베이스(12)는 효과 어구에 대응되는 그래픽 효과를 저장하는 구성이다. 상기 매칭 모듈(11) 및 효과 생성 모듈에서 특정 효과 어구에 대한 그래픽 효과를 요청(Call)하면, 특정 효과 어구에 대응되는 그래픽 효과를 출력하게 된다.

효과 생성 모듈(13)은 주체 효과 정보와 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 모듈이다. 본 발명의 일실시에에 따르면 모션 효과 정보는 기설정될 수 있고, 본 발명의 변형예에 따르면 모션 효과 정보는 모션 대표 어구에 의해 생성될 수 있다. 주체 효과 정보와 모션 효과 정보와 같은 복수개의 그래픽 효과를 기초로 결합 생성하는 결합 효과의 생성에는 VAE(Variable Auto-Encoder)나 GAN(Generative Adversaral Network) 등의 Generation 계열이 이용될 수 있다. 본 발명의 일실시예에 따른 효과 생성 모듈(13)의 최적화를 위한 학습(Training)은 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 최적화되고, 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 최적화되도록 구성될 수 있다.

본 발명의 일실시예에 따른 효과 생성 모듈(13)은 인코딩 모듈(130), 최적화 모듈(131), 제너레이션 모듈(132)를 포함할 수 있다.

인코딩 모듈(130)은 주체 효과 정보, 모션 효과 정보 및 학습(Training) 과정에서 이전 Epoch의 결합 효과 정보의 특성 정보를 입력 데이터로 하는 Neural Network으로 구성될 수 있고, 특성 정보를 인코딩하여 latent vector matrix를 생성하는 모듈이다. 본 발명의 일실시예에 따른 인코딩 모듈(130)은 latent vector 매트릭스 생성을 위해 Convolution Neural Network이 이용될 수 있다. 각 효과 정보의 특성 정보에 관하여, 주체 효과 정보는 정적 그래픽 정보를 의미할 수 있으므로 엣지 정보, 구도 정보, 색상 정보 등을 포함할 수 있고, 모션 효과 정보는 동적 그래픽 정보를 의미할 수 있으므로 이동 정보, 모션 정보, 포스쳐(Posture) 정보, 표정 정보 등을 포함할 수 있다.

최적화 모듈(131)은 정적 그래픽 최적화 모듈(1310)과 동적 그래픽 최적화 모듈(1311)을 포함할 수 있고, 인코딩 모듈(130)에서 생성된 주체 효과 정보, 모션 효과 정보 및 결합 효과 정보의 latent vector matrix 또는 feature map의 차이에 대한 손실함수를 계산하고, 손실함수 결과를 토대로 제너레이션 모듈(132)의 가중치를 최적화하는 모듈이다. 본 발명의 일실시예에 따른 최적화 모듈(131)의 손실함수(loss function or cost function)로는 Softmax, cross entropy 등이 이용될 수 있다. 본 발명의 일실시예의 최적화 모듈(131)에 따르면 주체 효과 정보의 그래픽 형태에 모션 효과 정보의 모션을 입혀서 결합 효과 정보를 생성하려는 것이 주목적이다.

정적 그래픽 최적화 모듈(1310)은 정적 그래픽 Loss function을 포함하여 주체 효과 정보의 정적 그래픽 효과와 결합 효과 정보의 정적 그래픽 효과의 차이를 최적화 하는 모듈이다. 정적 그래픽 최적화 모듈(1310)은, 주체 효과 정보의 인코딩 정보 중 Layer m까지의 feature map들을 auto-correlation한 gram matrix와 결합 효과 정보의 인코딩 정보 중 Layer m까지의 feature map들을 auto-correlation한 gram matrix와의 차이를 최소화하는 방향으로 제너레이션 모듈(132)의 가중치가 수렴되도록 정적 그래픽 Loss function이 구성될 수 있다.

동적 그래픽 최적화 모듈(1311)은 동적 그래픽 Loss function을 포함하여 모션 효과 정보의 동적 그래픽 효과와 결합 효과 정보의 동적 그래픽 효과의 차이를 최적화하는 모듈이다. 동적 그래픽 최적화 모듈(1311)은 모션 효과 정보의 인코딩 정보 중 Layer n에서의 feature map과 결합 효과 정보의 인코딩 정보 중 Layer n에서의 feature map과의 차이를 최소화하는 방향으로 제너레이션 모듈(132)의 가중치가 수렴되도록 동적 그래픽 Loss function이 구성될 수 있다.

상기 정적 그래픽 최적화 모듈(1310)과 동적 그래픽 최적화 모듈(1311)은 주체 효과 정보, 모션 효과 정보 및 결합 효과 정보의 페이셜 구역(Facial Region)과 바디 구역(Body Region)을 디텍션(detection)하여 각 구역별로 최적화 하도록 구성될 수 있다. 본 발명의 일실시에에 따라 페이셜 구역과 바디 구역이 각각 최적화 되는 경우, 제너레이션 모듈에서 페이셜 구역의 모션과 바디 구역의 모션이 더 정교하게 제너레이션 될 수 있는 효과가 발생된다.

제너레이션 모듈(132)은 결합 효과 정보를 생성하는 디코더로 구성된 모듈이다. 제너레이션 모듈(132)은 최적화 모듈(131)의 손실함수를 최소화하는 방향으로 가중치가 학습되어 점차적으로 주체 효과 정보 및 모션 효과 정보의 특성 정보와 유사한 방향으로 결합 효과 정보를 생성할 수 있다.

영상 출력 모듈(14)은 결합 효과 정보를 디코딩하고 입력된 영상 데이터에 결합하여 출력 영상 정보를 생성하는 모듈이다. 영상 출력 모듈(14)에 의해 상기 결합 효과 정보가 상기 사용자의 영상 데이터에 오버랩되어 사용자 클라이언트에 출력되게 된다.

본 발명의 일실시예에 따른 음성 특성 분류를 이용한 영상 내 그래픽 생성 장치에 따르면, 제너레이션 모듈(132)의 확률 분포를 이용한 샘플링에 의해 생성되는 그래픽의 예측 불가성이 향상되어 Over fitting 될 확률이 낮아지는 동시에 주체 효과 정보의 최적화에 의해 모션 효과 정보와 전체적인 특성과 구조는 유사한 그래픽이 생성되는 효과가 발생된다.

도 4는 본 발명의 일실시예에 따른 음성 특성 분류를 이용한 영상 내 그래픽 생성 방법을 도시한 흐름도이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 영상 내 그래픽 생성 방법은, 대표 구역 선정 단계(S10), 대표 어구 선정 단계(S11), 매칭 단계(S12), 결합 효과 생성 단계(S13), 영상 출력 단계(S14)를 포함할 수 있다.

대표 구역 선정 단계(S10)는, 사용자의 영상 데이터에서 음성 추출하고 음성 특성으로 구역 분류하고 대표 구역 선정하는 단계이다.

대표 어구 선정 단계(S11)는 선정된 대표 구역에서 주체에 해당되는 주체 대표 어구를 선정하는 단계이다.

매칭 단계(S12)는 매칭 모듈(11)이 주체 대표 어구와 유사도가 높은 효과 데이터베이스에 기저장된 그래픽 효과를 매칭하는 단계이다. 즉, 효과 데이터베이스에 저장된 상기 효과 어구 중 상기 주체 대표 어구와 매칭되는 효과 어구의 그래픽 효과인 주체 효과 정보를 생성할 수 있다.

결합 효과 생성 단계(S13)는 상기 주체 효과 정보와 기저장된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 단계이다.

영상 출력 단계(S14)는 결합 효과 정보를 토대로 출력 영상 정보를 생성하여 사용자의 영상 데이터에 결합 효과 정보를 오버랩한 뒤 사용자 클라이언트에 출력하는 단계이다.

본 발명의 일실시예에 따른 음성 특성 분류를 이용한 영상 내 그래픽 생성 방법에 따르면, 사용자가 "사자가 나타났어요"라는 음성을 기존의 음성과 다른 음성 특성으로 입력하는 경우, "사자"에 해당되는 그래픽 효과에 모션 그래픽 효과가 결합되어 "사자"가 특정 모션으로 화면에 나타나는 출력 그래픽 효과가 사용자 클라이언트에 사용자의 영상에 오버랩되어 출력되게 된다.

음성 특성 분류를 이용한 구연동화 영상 생성 방법 및 장치

도 5,6은 본 발명의 일실시예에 따른 음성 특성 분류를 이용한 구연동화 영상 생성 장치를 도시한 것이다. 도 5,6에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 특성 분류를 이용한 구연동화 영상 생성 장치(2)는, 음성 특성 분류 모듈(9), 디텍션 모듈(20), 이미지 분류 모듈(21), 대표 어구 선정 모듈(22), 매칭 모듈(23), 효과 데이터베이스(24), 효과 생성 모듈(25), 영상 출력 모듈(26)을 포함할 수 있다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 음성 특성 분류를 이용한 구연동화 영상 생성 장치(2)는, 사용자 또는 특정 알고리즘에 의해 제공되는 동화 이미지 정보에서 특정 객체로 분류되는 바운딩 박스를 설정하고(디텍션 모듈,20), 해당 바운딩 박스를 분류하여 이미지 태그 정보를 생성하며(이미지 분류 모듈,21), 사용자 또는 특정 알고리즘에 의해 제공되는 영상 데이터 또는 음성 데이터 중 대표 구역 및 대표 어구를 선정하고(음성 특성 분류 모듈, 대표 어구 선정 모듈), 선정된 대표 어구에 가장 유사한 이미지 태그 정보를 매칭하며(매칭 모듈,23), 매칭된 이미지 태그 정보를 기초로 출력될 출력 구연동화 영상 데이터에 맞게 최적화하여 해당 이미지의 바운딩 박스에 특정 효과를 적용 및 생성하고(효과 생성 모듈,25), 출력 구연동화 영상 데이터를 사용자 클라이언트 또는 서버에 송신하게 된다(영상 출력 모듈,26).

디텍션 모듈(20) 및 이미지 분류 모듈(21)은 동화 이미지 정보에서 특정 객체를 검출하여 특정 객체 이미지 정보를 생성하고, 상기 특정 객체 이미지 정보를 분류하여 이미지 분류 정보를 생성하는 모듈이다. 도 7은 R-CNN의 특정 객체 검출 및 분류 방법을 도시한 흐름도이다. 도 8은 YOLO의 네트워크 형태를 도시한 모식도이다. 도 7,8에 도시된 바와 같이, 본 발명의 일실시예에 따르면, 디텍션 모듈(20) 및 이미지 분류 모듈(21)에 R-CNN 계열(R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN 등)이 이용되거나, YOLO(You only look once) 알고리즘이 이용될 수 있다.

대표 어구 선정 모듈(22)은 입력된 음성 데이터에서 분류된 대표 구역의 음성 데이터에 대한 문맥(Context)를 대표하는 대표 어구를 선정하는 구성이다. 본 발명의 일실시예에 따른 대표 어구 선정 모듈(22)은, 텍스트 변환 모듈(220), 구분 모듈(221), 주체 선정 모듈(222)을 포함할 수 있다.

텍스트 변환 모듈(220)은 대표 구역의 음성 데이터를 입력 텍스트로 변환하는 모듈이다.

구분 모듈(221)은 텍스트 변환 모듈(220)에서 입력 텍스트를 일반 문자열 형태(Normal text)로 입력받게 되고, 이렇게 입력받은 일반 문자열 형태를 NLP 모듈에 의해 개체(entity)와 의미구(intent)와 같은 어구로 구분하여 어구 정보를 생성하는 모듈이다. NLP 모듈은 구체적으로 형태소 분석, 어간 추출, 불용어 추출, TF, TFIDF 등의 기능을 포함할 수 있다. 이후, 벡터화 모듈(Sentence2vec나 Word2vec, SyntexNet)에 의해 구분된 개체와 의미구를 벡터값으로 처리하게 될 수 있다. 이러한 벡터값 처리에는 Word2vec가 이용될 수 있고, 구체적으로는 n-gram, 문맥으로부터 단어를 예측하는 CBOW 모델, 또는 단어로부터 문맥을 예측하는 Skip-gram 모델 등이 이용될 수 있다. 즉, 구분 모듈(221)은 개체와 의미구를 포함하는 어구 정보를 생성할 수 있고, 벡터화 모듈에 의해 어구 정보는 벡터값(어구 정보의 embedding vector)으로 표현될 수 있다.

주체 선정 모듈(222)은 상기 구분 모듈(221)에서 구분된 어구 정보를 SyntaxNet으로 분석하여 주어나 목적어에 해당되는 명사구(Noun phase)와 같은 주체 대표 어구를 선정하는 모듈이다. 특히, 주체 대표 어구의 선정은, 디텍션 모듈에 의해 검출되고 이미지 분류 모듈에 의해 분류된 이미지 분류 정보에 대응되는 어구 중에서 선정되도록 구성될 수 있다. 이처럼 이미지 분류 정보 중에서 주체 대표 어구가 선정되는 경우, 구연동화 영상 생성에 있어서 구연동화 이미지에서 주체가 되는 특정 객체의 이미지에만 효과를 부여할 수 있게 되는 효과가 발생된다.

본 발명의 변형예에 따르면, 대표 구역의 음성 데이터에서 모션에 관련된 대표 어구까지 추출할 수 있는다. 도 9는 본 발명의 변형예에 따른 구연동화 영상 생성 장치를 도시한 모식도이다. 도 9에 도시된 바와 같이, 주체 선정 모듈(222)는 주체 및 모션 선정 모듈(223)로 대체될 수 있고, 주체 및 모션 선정 모듈(223)은 상기 구분 모듈(221)에서 구분된 어구 정보를 SyntaxNet으로 분석하여 대표 어구를 선정하는 모듈이다. 본 발명의 일실시예에 따르면 대표 어구는 주어나 목적어에 해당되는 명사구(Noun phase)와 같은 주체 대표 어구 및 동사구(Verb phase)나 부사구, 형용사구와 같은 모션 대표 어구로 선정될 수 있다.

매칭 모듈(23)은 상기 구분 모듈(221)에서 구분되어 벡터화된 어구 정보(어구 정보의 embedding vector) 중 선정된 주체 대표 어구와 가장 가까운(가장 유사한) 이미지 분류 정보(대응되는 특정 객체 이미지 정보 포함)를 이미지 분류 모듈(21)에서 수신하고, 효과 데이터베이스(24)에 기저장된 효과 어구(효과 어구의 Embedding vector)를 매칭하는 모듈이다. 즉, 효과 데이터베이스에 저장된 상기 효과 어구 중 상기 주체 대표 어구와 매칭되는 이미지 분류 정보의 그래픽 효과(특정 객체 이미지 정보)인 주체 효과 정보를 생성하고, 기설정된 모션 효과 정보를 이용하도록 구성될 수 있다. 또는, 본 발명의 변형예에 따르면, 상기 모션 대표 어구와 매칭되는 효과 어구의 그래픽 효과인 모션 효과 정보를 생성할 수 있다. 주체 대표 어구와 이미지 분류 정보(주로 정적 그래픽), 모션 대표 어구와 효과 데이터베이스의 효과 어구(주로 동적 그래픽)의 유사도를 계산하는 방법으로, 예를 들면, 본 발명의 일실시예에 따른 코사인 유사도가 이용될 수 있다. 코사인 유사도는 두 벡터의 각도를 측정하는 것이다. 각도가 같은 경우, 즉 두 벡터가 이루는 각이 0도인 경우엔 유사도의 최대값인 1.0이 나오게 된다. 그리고 가장 유사도가 낮은 경우는 두 벡터의 각도가 90도가 되는 경우이다. 이에 따라, 매칭 모듈(23)에서는 특정 주체 대표 어구에 대응되는 주체 효과 정보와 기설정된 모션 효과 정보가 생성될 수 있다. 변형예에 따르면, 주체 효과 정보와 함께 특정 모션 대표 어구에 대응되는 모션 효과 정보가 생성될 수 있다. 주체 효과 정보는 특정 주체 대표 어구와 가까운 이미지 분류 정보에 대응되는 특정 객체 이미지 정보(또는, 이미지 분류 정보와 가까운 효과 어구에 대응되는 그래픽 정보)의 정적 그래픽 정보를 의미할 수 있고, 모션 효과 정보는 특정 모션 대표 어구와 가까운 효과 어구에 대응되는 그래픽 정보인 모션 효과 정보에 대한 동적 그래픽 정보를 의미할 수 있다.

효과 데이터베이스(24)는 효과 어구에 대응되는 동적 그래픽 효과를 저장하는 구성이다. 상기 매칭 모듈(23) 및 효과 생성 모듈(25)에서 특정 효과 어구에 대한 동적 그래픽 효과를 요청(Call)하면, 특정 효과 어구에 대응되는 동적 그래픽 효과를 출력하게 된다.

효과 생성 모듈(25)은 상기 주체 효과 정보와 상기 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 모듈이다. 주체 효과 정보와 모션 효과 정보와 같은 복수개의 그래픽 효과를 기초로 결합 생성하는 결합 효과의 생성에는 VAE(Variable Auto-Encoder)나 GAN(Generative Adversaral Network) 등의 Generation 계열이 이용될 수 있다. 본 발명의 일실시예에 따른 효과 생성 모듈(13)의 최적화를 위한 학습(Training)은 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 최적화되고, 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 최적화되도록 구성될 수 있다.

본 발명의 일실시예에 따른 효과 생성 모듈(25)은 인코딩 모듈(250), 최적화 모듈(251), 제너레이션 모듈(252)를 포함할 수 있다.

인코딩 모듈(250)은 주체 효과 정보, 모션 효과 정보 및 학습(Training) 과정에서 이전 Epoch의 결합 효과 정보의 특성 정보를 입력 데이터로 하는 Neural Network으로 구성될 수 있고, 특성 정보를 인코딩하여 latent vector matrix를 생성하는 모듈이다. 본 발명의 일실시예에 따른 인코딩 모듈(250)은 latent vector 매트릭스 생성을 위해 Convolution Neural Network이 이용될 수 있다. 각 효과 정보의 특성 정보에 관하여, 주체 효과 정보는 정적 그래픽 정보를 의미할 수 있으므로 엣지 정보, 구도 정보, 색상 정보 등을 포함할 수 있고, 모션 효과 정보는 동적 그래픽 정보를 의미할 수 있으므로 이동 정보, 모션 정보, 포스쳐(Posture) 정보, 표정 정보 등을 포함할 수 있다.

최적화 모듈(251)은 정적 그래픽 최적화 모듈(2510)과 동적 그래픽 최적화 모듈(2511)을 포함할 수 있고, 인코딩 모듈(250)에서 생성된 주체 효과 정보, 모션 효과 정보 및 결합 효과 정보의 latent vector matrix 또는 feature map의 차이에 대한 손실함수를 계산하고, 손실함수 결과를 토대로 제너레이션 모듈(252)의 가중치를 최적화하는 모듈이다. 본 발명의 일실시예에 따른 최적화 모듈(251)의 손실함수(loss function or cost function)로는 Softmax, cross entropy 등이 이용될 수 있다. 본 발명의 일실시예의 최적화 모듈(251)에 따르면 주체 효과 정보의 그래픽 형태에 모션 효과 정보의 모션을 입혀서 결합 효과 정보를 생성하려는 것이 주목적이다.

정적 그래픽 최적화 모듈(2510)은 정적 그래픽 Loss function을 포함하여 주체 효과 정보의 정적 그래픽 효과와 결합 효과 정보의 정적 그래픽 효과의 차이를 최적화하는 모듈이다. 정적 그래픽 최적화 모듈(2510)은, 주체 효과 정보의 인코딩 정보 중 Layer m까지의 feature map들을 auto-correlation한 gram matrix와 결합 효과 정보의 인코딩 정보 중 Layer m까지의 feature map들을 auto-correlation한 gram matrix와의 차이를 최소화하는 방향으로 제너레이션 모듈(252)의 가중치가 수렴되도록 정적 그래픽 Loss function이 구성될 수 있다.

동적 그래픽 최적화 모듈(2511)은 동적 그래픽 Loss function을 포함하여 모션 효과 정보의 동적 그래픽 효과와 결합 효과 정보의 동적 그래픽 효과의 차이를 최적화 하는 모듈이다. 동적 그래픽 최적화 모듈(2511)은 모션 효과 정보의 인코딩 정보 중 Layer n에서의 feature map과 결합 효과 정보의 인코딩 정보 중 Layer n에서의 feature map과의 차이를 최소화하는 방향으로 제너레이션 모듈(252)의 가중치가 수렴되도록 동적 그래픽 Loss function이 구성될 수 있다.

제너레이션 모듈(252)은 결합 효과 정보를 생성하는 디코더로 구성된 모듈이다. 제너레이션 모듈(252)은 최적화 모듈(251)의 손실함수를 최소화하는 방향으로 가중치가 학습되어 점차적으로 주체 효과 정보 및 모션 효과 정보의 특성 정보와 유사한 방향으로 결합 효과 정보를 생성할 수 있다.

영상 출력 모듈(26)은 결합 효과 정보를 디코딩하여 구연동화 이미지 정보와 상기 결합 효과 정보를 결합한 출력 영상 정보를 생성하는 모듈이다. 상기 출력 영상 정보와 사용자 음성 정보가 상기 구연동화 이미지 정보에 오버랩되어 영상으로 인코딩 된 뒤, 사용자 클라이언트 또는 서버에 출력하게 된다. 본 발명의 일실시예에 따른 영상 출력 모듈(26)은, 상기 구연동화 이미지 정보에서 검출된 상기 특정 객체의 이미지 위에 상기 결합 효과 정보를 오버랩하여 상기 출력 영상 정보를 생성하도록 구성될 수 있다. 이처럼 기존 이미지 위에 결합 효과 정보를 오버랩하여 출력하는 경우, 기존의 구연동화 이미지 위에서 문맥상 주체가 되는 특정 객체만 동적 그래픽 효과를 가지게 되므로, 사용자의 주의 집중이 강화되는 효과가 발생될 수 있다.

본 발명의 일실시예에 따른 음성 특성 분류를 이용한 구연동화 영상 생성 장치에 따르면, 제너레이션 모듈(252)의 확률 분포를 이용한 샘플링에 의해 생성되는 그래픽의 예측 불가성이 향상되어 Over fitting 될 확률이 낮아지는 동시에 주체 효과 정보의 최적화에 의해 모션 효과 정보와 전체적인 특성과 구조는 유사한 그래픽이 생성되는 효과가 발생된다.

도 10은 본 발명의 일실시예에 따른 음성 특성 분류를 이용한 구연동화 영상 생성 방법을 도시한 흐름도이다. 도 10에 도시된 바와 같이, 본 발명의 일실시예에 따른 구연동화 영상 생성 방법은, 대표 어구 선정 단계(S21), 객체 검출 및 분류 단계(S22), 매칭 단계(S23), 결합 효과 생성 단계(S24), 영상 출력 단계(S25)를 포함할 수 있다.

대표 구역 선정 단계(S20)는, 사용자의 영상 데이터에서 음성 추출하고 음성 특성으로 구역 분류하고 대표 구역 선정하는 단계이다.

대표 어구 선정 단계(S21)는 대표 어구 선정 모듈(20)이 대표 구역의 음성 데이터에서 주체에 해당하는 대표 어구를 선정하는 단계이다.

객체 검출 및 분류 단계(S22)는 동화 이미지 정보에서 특정 객체가 검출되고 인공신경망에 의해 분류되어 이미지 분류 정보를 생성하는 단계이다.

매칭 단계(S23)는 주체 대표 어구와 유사도가 높은 이미지 분류 정보와 유사도가 높은 효과 데이터베이스에 기저장된 그래픽 효과를 매칭하여 주체 효과 정보 및 모션 효과 정보를 생성하는 단계이다.

결합 효과 생성 단계(S24)는 주체 효과 정보 및 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 단계이다.

영상 출력 단계(S25)는 결합 효과 정보를 토대로 출력 영상 정보를 생성하여, 동화 이미지 정보에 결합 효과 정보를 오버랩한 뒤 영상으로 인코딩하여 사용자 클라이언트 또는 서버에 출력하는 단계이다.

본 발명의 일실시예에 따른 음성 특성 분류를 이용한 구연동화 영상 생성 방법에 따르면, 사용자가 기존의 음성 특성과 다른 음성 특성으로 "사자가 나타났어요"라는 음성을 입력하고, '사자'가 포함된 동화 이미지 정보를 입력하는 경우, "사자"에 해당되는 동화 이미지가 검출되어 "나타났어요"에 해당되는 그래픽 효과와 결합되어 "사자"가 특정 그래픽 모션으로 화면에 나타나게 되고, 이러한 출력 그래픽 효과 및 음성 데이터를 포함한 동화 이미지 정보가 영상으로 인코딩되어 사용자 클라이언트 또는 서버에 제공되게 된다.

이상에서 설명한 바와 같이, 본 발명이 속하는 기술 분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 상술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함하는 것으로 해석되어야 한다.

본 명세서 내에 기술된 특징들 및 장점들은 모두를 포함하지 않으며, 특히 많은 추가적인 특징들 및 장점들이 도면들, 명세서, 및 청구항들을 고려하여 당업자에게 명백해질 것이다. 더욱이, 본 명세서에 사용된 언어는 주로 읽기 쉽도록 그리고 교시의 목적으로 선택되었고, 본 발명의 주제를 묘사하거나 제한하기 위해 선택되지 않을 수도 있다는 것을 주의해야 한다.

본 발명의 실시예들의 상기한 설명은 예시의 목적으로 제시되었다. 이는 개시된 정확한 형태로 본 발명을 제한하거나, 빠뜨리는 것 없이 만들려고 의도한 것이 아니다. 당업자는 상기한 개시에 비추어 많은 수정 및 변형이 가능하다는 것을 이해할 수 있다.

그러므로 본 발명의 범위는 상세한 설명에 의해 한정되지 않고, 이를 기반으로 하는 출원의 임의의 청구항들에 의해 한정된다. 따라서, 본 발명의 실시예들의 개시는 예시적인 것이며, 이하의 청구항에 기재된 본 발명의 범위를 제한하는 것은 아니다.

1: 영상 내 그래픽 생성 장치
2: 구연동화 영상 생성 장치
9: 음성 특성 분류 모듈
10: 대표 어구 선정 모듈
11: 매칭 모듈
12: 효과 데이터베이스
13: 효과 생성 모듈
14: 영상 출력 모듈
20: 디텍션 모듈
21: 이미지 분류 모듈
22: 대표 어구 선정 모듈
23: 매칭 모듈
24: 효과 데이터베이스
25: 효과 생성 모듈
26: 영상 출력 모듈
100: 음성 추출 모듈
101: 텍스트 변환 모듈
102: 구분 모듈
103: 주체 선정 모듈
104: 주체 및 모션 선정 모듈
130: 인코딩 모듈
131: 최적화 모듈
132: 제너레이션 모듈
220: 텍스트 변환 모듈
221: 구분 모듈
222: 주체 선정 모듈
223: 주체 및 모션 선정 모듈
250: 인코딩 모듈
251: 최적화 모듈
252: 제너레이션 모듈
1310: 정적 그래픽 최적화 모듈
1311: 동적 그래픽 최적화 모듈
2511: 정적 그래픽 최적화 모듈
2512: 동적 그래픽 최적화 모듈

Claims

입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 모듈;
상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 모듈;
효과 어구 및 상기 효과 어구에 대응되는 그래픽 효과를 저장하는 효과 데이터베이스에 저장된 상기 효과 어구 중 상기 주체 대표 어구와 매칭되는 효과 어구의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 모듈;
상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 모듈; 및
상기 결합 효과 정보를 상기 음성 데이터와 함께 입력되는 영상 데이터에 결합하여 출력 영상 정보를 생성하는 영상 출력 모듈;
을 포함하고,
상기 효과 생성 모듈은, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 최적화되고, 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 최적화되는 것을 특징으로 하는,
음성 특성 분류를 이용한 영상 내 그래픽 생성 장치.
효과 어구 및 상기 효과 어구에 대응되는 그래픽 효과를 저장하고, 영상 내 그래픽 생성을 위한 프로그램 코드가 저장된 메모리 모듈; 및
상기 메모리 모듈과 동작 가능하도록 결합되고, 상기 프로그램 코드를 실행하는 처리 모듈;
을 포함하고,
상기 프로그램 코드는,
입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 단계;
상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 단계;
상기 효과 어구 중 상기 주체 대표 어구와 매칭되는 효과 어구의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 단계;
상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 단계; 및
상기 결합 효과 정보를 상기 음성 데이터와 함께 입력되는 영상 데이터에 결합하여 출력 영상 정보를 생성하는 영상 출력 단계;
를 포함하며,
상기 효과 생성 단계는, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 하는 최적화 및 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 하는 최적화 이후 수행되는,
음성 특성 분류를 이용한 영상 내 그래픽 생성 장치.
음성 특성 분류 모듈이, 입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 단계;
주체 대표 어구 선정 모듈이, 상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 단계;
매칭 모듈이, 효과 어구 및 상기 효과 어구에 대응되는 그래픽 효과를 저장하는 효과 데이터베이스에 저장된 상기 효과 어구 중 상기 주체 대표 어구와 매칭되는 효과 어구의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 단계;
효과 생성 모듈이, 상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 단계; 및
영상 출력 모듈이, 상기 결합 효과 정보를 상기 음성 데이터와 함께 입력되는 영상 데이터에 결합하여 출력 영상 정보를 생성하는 영상 출력 단계;
를 포함하고,
상기 효과 생성 모듈은, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 최적화되고, 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 최적화되는 것을 특징으로 하는,
음성 특성 분류를 이용한 영상 내 그래픽 생성 방법.
입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 모듈;
상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 모듈;
입력되는 구연동화 이미지 정보에서 특정 객체를 검출하여 특정 객체 이미지 정보를 생성하는 디텍션 모듈;
상기 특정 객체 이미지 정보를 분류하여 이미지 분류 정보를 생성하는 이미지 분류 모듈;
상기 주체 대표 어구와 매칭되는 상기 이미지 분류 정보의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 모듈;
상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 모듈; 및
상기 결합 효과 정보를 상기 음성 데이터 및 상기 구연동화 이미지 정보에 결합하여 출력 영상 정보를 생성하는 영상 출력 모듈;
을 포함하고,
상기 효과 생성 모듈은, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 최적화되고, 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 최적화되며,
특정 구연동화 이미지 정보 및 특정 음성 데이터가 입력되면 상기 특정 음성 데이터에서 음성 특성 분류를 이용하여 특정 대표 구역을 선정하고, 상기 특정 음성 데이터에서 상기 특정 대표 구역의 문맥에 대응되는 특정 결합 효과 정보를 생성하고 상기 특정 결합 효과 정보를 상기 특정 구연동화 이미지 정보 및 상기 특정 음성 데이터와 결합하여 구연동화 영상인 특정 출력 영상 정보를 출력하는,
음성 특성 분류를 이용한 구연동화 영상 생성 장치.
제4항에 있어서,
상기 영상 출력 모듈은, 상기 구연동화 이미지 정보에서 검출된 상기 특정 객체의 이미지 위에 상기 결합 효과 정보를 오버랩하여 상기 출력 영상 정보를 생성하는,
음성 특성 분류를 이용한 구연동화 영상 생성 장치.
제4항에 있어서,
상기 주체 대표 어구 선정 모듈은, 상기 이미지 분류 정보에 대응되는 어구 중에서 상기 주체 대표 어구를 선정하는,
음성 특성 분류를 이용한 구연동화 영상 생성 장치.
효과 어구 및 상기 효과 어구에 대응되는 그래픽 효과를 저장하고, 구연동화 영상 생성을 위한 프로그램 코드가 저장된 메모리 모듈; 및
상기 메모리 모듈과 동작 가능하도록 결합되고, 상기 프로그램 코드를 실행하는 처리 모듈;
을 포함하고,
상기 프로그램 코드는,
입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 단계;
상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 단계;
입력되는 구연동화 이미지 정보에서 특정 객체를 검출하여 특정 객체 이미지 정보를 생성하는 디텍션 단계;
상기 특정 객체 이미지 정보를 분류하여 이미지 분류 정보를 생성하는 이미지 분류 단계;
상기 주체 대표 어구와 매칭되는 상기 이미지 분류 정보의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 단계;
상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 단계; 및
상기 결합 효과 정보를 상기 음성 데이터 및 상기 구연동화 이미지 정보에 결합하여 출력 영상 정보를 생성하는 영상 출력 단계;
를 포함하고,
상기 효과 생성 단계는, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 하는 최적화 및 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 하는 최적화 이후 수행되는,
음성 특성 분류를 이용한 구연동화 영상 생성 장치.
음성 특성 분류 모듈이, 입력되는 음성 데이터의 음성 특성을 이용하여 상기 음성 데이터를 복수개의 구간으로 분류하고, 상기 음성 데이터의 분류된 구역들 중 나머지 구역의 음성 특성에 비해 음성 특성이 특정 수준 이상으로 벗어난 구역인 대표 구역을 선정하는 음성 특성 분류 단계;
주체 대표 어구 선정 모듈이, 상기 음성 데이터의 상기 대표 구역에서 문맥(Context)의 주체를 대표하는 주체 대표 어구를 선정하는 주체 대표 어구 선정 단계;
디텍션 모듈이, 입력되는 구연동화 이미지 정보에서 특정 객체를 검출하여 특정 객체 이미지 정보를 생성하는 디텍션 단계;
이미지 분류 모듈이, 상기 특정 객체 이미지 정보를 분류하여 이미지 분류 정보를 생성하는 이미지 분류 단계;
매칭 모듈이, 상기 주체 대표 어구와 매칭되는 상기 이미지 분류 정보의 그래픽 효과인 주체 효과 정보를 생성하는 매칭 단계;
효과 생성 모듈이, 상기 주체 효과 정보와 기설정된 모션 효과 정보를 기초로 결합 효과 정보를 생성하는 효과 생성 단계; 및
영상 출력 모듈이, 상기 결합 효과 정보를 상기 음성 데이터 및 상기 구연동화 이미지 정보에 결합하여 출력 영상 정보를 생성하는 영상 출력 단계;
를 포함하고,
상기 효과 생성 모듈은, 상기 결합 효과 정보의 정적 그래픽이 상기 주체 효과 정보에 가깝게 출력되도록 최적화되고, 상기 결합 효과 정보의 동적 그래픽이 상기 모션 효과 정보에 가깝게 출력되도록 최적화되며,
특정 구연동화 이미지 정보 및 특정 음성 데이터가 입력되면 상기 특정 음성 데이터에서 음성 특성 분류를 이용하여 특정 대표 구역을 선정하고, 상기 특정 음성 데이터에서 상기 특정 대표 구역의 문맥에 대응되는 특정 결합 효과 정보를 생성하고 상기 특정 결합 효과 정보를 상기 특정 구연동화 이미지 정보 및 상기 특정 음성 데이터와 결합하여 구연동화 영상인 특정 출력 영상 정보를 출력하는,
음성 특성 분류를 이용한 구연동화 영상 생성 방법.