KR102435243B1

KR102435243B1 - 음성 정보로부터 변환된 텍스트의 영상 리소스 매칭을 이용한 멀티미디어 변환 콘텐츠 제작 서비스 제공 방법

Info

Publication number: KR102435243B1
Application number: KR1020210179465A
Authority: KR
Inventors: 이수민
Original assignee: 주식회사 웨인힐스브라이언트에이아이
Priority date: 2021-03-19
Filing date: 2021-12-15
Publication date: 2022-08-24
Also published as: KR102435242B9; WO2022196904A1; KR102435244B1; KR102435243B9; KR102435242B1; KR102347228B1; KR102347228B9; KR102435244B9

Abstract

본 발명의 실시 예에 따른 장치는, 서비스 제공 장치에 있어서, 제1 언어의 음성 데이터를 수집하는 음성 데이터 처리 모듈; 상기 음성 데이터 처리 모듈로부터 수신된 제1 언어의 음성 데이터를 텍스트 인식에 따라 상기 제1 언어의 텍스트 문장으로 변환하며, 상기 변환된 텍스트 문장을 변환 대상 데이터로 획득함과 아울러 변환 대상 데이터의 포맷 식별을 처리하는 입력부; 상기 변환 대상 데이터에 대응하는 타겟 언어를 설정하는 타겟 언어 설정부; 상기 변환 대상 데이터로부터 상기 타겟 언어에 대응되는 요소 정보를 추출하는 요소 정보 추출부; 상기 요소 정보에 대응하는 상기 타겟 언어 기반 영상 리소스 매칭을 기반으로 멀티미디어 콘텐츠 합성 및 변환 처리를 수행하여, 멀티미디어 변환 콘텐츠를 획득하는 콘텐츠 합성 변환부; 및 상기 멀티미디어 변환 콘텐츠를 출력하는 출력부를 포함한다.

Description

음성 정보로부터 변환된 텍스트의 영상 리소스 매칭을 이용한 멀티미디어 변환 콘텐츠 제작 서비스 제공 방법{A METHOD FOR PROVIDING A PRODUCING SERVICE OF TRANSFORMED MULTIMEDIA CONTENTS USING MATCHING OF VIDEO RESOURCES}

본 발명은 서비스 제공 방법에 관한 것이다. 보다 구체적으로, 본 발명은 음성 정보로부터 변환된 텍스트의 영상 리소스 매칭을 이용한 멀티미디어 변환 콘텐츠 제작 서비스 제공 방법에 관한 것이다.

최근 영상 및 콘텐츠 제작기술의 발달로, 개인화된 다양한 멀티미디어 콘텐츠들이 제작되고 있으며, 소셜 네트워킹 서비스 등을 통해 유통 및 소비되고 있다. 유튜브로 대표되는 멀티미디어 콘텐츠 공유 서비스는 그 제작자 및 사용자가 기하급수적으로 증가되고 있으며, 영상 콘텐츠 제작을 위한 다양한 전문화 툴 또한 사용자 편의성 측면에서 개발되고 있다.

그러나, 아직까지도 이러한 전문화 툴의 사용이 편리하지만은 못한 실정이다. 고품질의 멀티미디어 콘텐츠 제작을 위하여는, 전문화 툴을 잘 사용하는 전문가의 시간 및 기술 인력이 투입되어야 하며, 제작을 위한 자료 공수의 어려움 및 이에 따른 제작 비용이 소요되고 있는 실정이다.

특히, 이러한 문제점은 기존의 텍스트 포맷 문서들을 정보전달력을 높이기 위해 멀티미디어 콘텐츠로 전환하는 작업에서 더욱 크게 나타난다. 통상의 보고서와 같은 텍스트 문서를 영상 콘텐츠로 제작하려면, 관련 영상 자료의 수집, 전문화 툴의 사용, 전문가의 기술 인력 및 시간 비용이 과도하게 소요되게 된다.

또한, 텍스트 포맷 문서를 사전 제작하는 데에도 시간 및 비용이 들어갈 수 있으며, 전문화된 텍스트 작업 인력이 있어야 영상 콘텐츠를 만들 수 있다는 문제점이 있다.

본 발명은 상기한 바와 같은 문제점을 해결하고자 안출된 것으로, 멀티미디어 콘텐츠 포맷이 아닌 음성 정보로부터 자동 변환된 텍스트 정보를 포함하는 대상 데이터를 사전 설정 및 학습된 분석 프로세스에 따라 리소스 매칭, 변환 및 가공 처리하여, 별도의 전문적인 툴 또는 전문가 참여 없이도 쉽고 용이하면서 빠르게 대상 데이터 기반의 멀티미디어 변환 콘텐츠를 제작할 수 있는 변환 콘텐츠 제작 서비스 제공 방법 및 그 장치를 제공하는데 그 목적이 있다.

상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 서비스 제공 장치의 동작 방법에 있어서, 제1 언어의 음성 데이터를 수집하는 단계; 상기 제1 언어의 음성 데이터로부터 변환 대상 데이터를 획득하는 단계; 상기 변환 대상 데이터에 대응하는 타겟 언어가 설정되면, 상기 대상 데이터로부터 상기 타겟 언어에 대응되는 요소 정보를 추출하는 단계; 상기 요소 정보의 상기 타겟 언어 기반 영상 리소스 매칭에 기초한 멀티미디어 콘텐츠 합성 및 변환 처리를 수행하여, 멀티미디어 변환 콘텐츠를 획득하는 단계; 및 상기 멀티미디어 변환 콘텐츠를 출력하는 단계를 포함한다.

또한, 상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 장치는, 서비스 제공 장치에 있어서, 제1 언어의 음성 데이터를 수집하는 음성 데이터 처리 모듈; 상기 변환 대상 데이터에 대응하는 타겟 언어를 설정하는 타겟 언어 설정부; 상기 대상 데이터로부터 상기 타겟 언어에 대응되는 요소 정보를 추출하는 요소 정보 추출부; 상기 요소 정보에 대응하는 상기 타겟 언어 기반 영상 리소스 매칭을 기반으로 멀티미디어 콘텐츠 합성 및 변환 처리를 수행하여, 멀티미디어 변환 콘텐츠를 획득하는 콘텐츠 합성 변환부; 및 상기 멀티미디어 변환 콘텐츠를 출력하는 출력부를 포함한다.

한편, 상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램 및 상기 프로그램이 기록된 기록 매체로 구현될 수 있다.

본 발명의 실시 예에 따르면, 제1 언어의 음성 데이터가 수집되어 상기 변환 대상 데이터로 획득되고, 타겟 언어가 설정되면, 대상 데이터로부터 요소 정보를 추출하고, 요소 정보에 대응하는 타겟 언어 기반 영상 리소스 매칭을 기반으로 제작 인터페이스를 제공할 수 있으며, 제작 인터페이스에 대한 사용자 입력에 따라, 멀티미디어 콘텐츠 합성 및 변환 서비스를 수행함으로써, 대상 데이터로부터 변환되는 멀티미디어 영상 변환 콘텐츠 제작을 편리하게 한다.

이에 따라, 본 발명의 실시 예에 따른 서비스 제공 장치는, 멀티미디어 콘텐츠 포맷이 아닌 통상의 문서나 음성과 같은 대상 데이터를, 사전 설정 및 학습된 분석 프로세스에 따라 타겟 언어를 기반으로 리소스 매칭, 변환 및 가공 처리할 수 있으며, 별도의 전문적인 툴, 번역가 또는 전문가 참여 없이도 쉽고 용이하면서 빠르게 대상 데이터 기반의 글로벌한 멀티미디어 변환 콘텐츠를 제작할 수 있게 한다.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이다.
도 2는 본 발명의 실시 예에 따른 서비스 제공 장치를 보다 구체적으로 도시한 블록도이다.
도 3은 본 발명의 실시 예에 따른 서비스 제공 장치의 동작을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시 예에 따른 합성 변환된 영상 멀티미디어 콘텐츠 예시도이다.
도 5는 본 발명의 실시 예에 따른 입력 데이터로부터 멀티미디어 콘텐츠 데이터로 변환되는 과정을 예시적으로 설명하기 위한 도면이다.
도 6 내지 도 7은 본 발명의 실시 예에 따른 리소스 데이터베이스를 설명하기 위한 도면이다.
도 9은 본 발명의 실시 예에 따른 제작 인터페이스를 보다 구체적으로 설명하기 위한 도면이다.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.

따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 도면이다.

도 1을 참조하면 본 발명의 일 실시 예에 따른 시스템은, 서비스 제공 장치(100), 사용자 단말(200) 및 멀티미디어 콘텐츠 서버(300)를 포함할 수 있다.

본 발명의 실시 예에 따른 서비스 제공 장치(100)는, 사용자 단말(200)로부터의 변환 대상 데이터를 입력 데이터로 처리하고, 이에 대응하는 요소 정보의 리소스 매칭 기반 멀티미디어 콘텐츠 변환을 수행할 수 있으며, 변환된 멀티미디어 콘텐츠는 멀티미디어 콘텐츠 서버(300)로 출력되어 하나 이상의 서비스 이용자 단말로 배포될 수 있다.

나아가, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는, 음성 데이터 처리 모듈(210)을 더 포함할 수 있으며, 음성 데이터 처리 모듈(210)은 사용자 단말(200)로 입력되거나, 별도 외부 장치에서 입력된 제1 언어의 음성 데이터를 수집하여 서비스 제공 장치(100)로 전달하는 기능을 수행할 수 있다.

이에 따라, 변환 대상 데이터는 상기 제1 언어의 음성 데이터로부터 획득될 수 있는 바, 이 경우 서비스 제공 장치(100)는 상기 변환 대상 데이터에 대응하는 타겟 언어가 설정되면, 상기 대상 데이터로부터 상기 타겟 언어에 대응되는 요소 정보를 추출하고, 상기 요소 정보의 상기 타겟 언어 기반 영상 리소스 매칭에 기초한 멀티미디어 콘텐츠 합성 및 변환 처리를 수행하여, 멀티미디어 변환 콘텐츠를 획득하며, 상기 멀티미디어 변환 콘텐츠는 멀티미디어 콘텐츠 서버(300)로 출력되어, 하나 이상의 서비스 이용자 단말 또는 사용자 단말(200)로 배포될 수 있다.

이를 위해, 보다 구체적으로, 서비스 제공 장치(100)는, 사용자 단말(200)로부터 변환 대상 데이터가 입력되면, 상기 대상 데이터로부터 요소 정보를 추출하고, 상기 요소 정보에 대응하는 영상 리소스 매칭을 기반으로 사용자 단말(200)로의 제작 인터페이스를 제공하며, 상기 제작 인터페이스에 대한 사용자 입력에 따라, 멀티미디어 콘텐츠 합성 및 변환 처리를 수행하여, 멀티미디어 변환 콘텐츠를 획득하며, 상기 멀티미디어 변환 콘텐츠를 멀티미디어 콘텐츠 서버(300)로 출력한다.

또한, 서비스 제공 장치(100)는, 사용자 단말(200)로부터 음성 데이터 처리 모듈(210)을 통해 입력된 제1 언어의 음성 데이터가 획득되면, 상기 음성 데이터에 기초하여 변환 대상 데이터를 획득하고, 상기 변환 대상 데이터에 대응하는 타겟 언어가 설정되면, 상기 대상 데이터로부터 상기 타겟 언어에 대응되는 요소 정보를 추출하고, 상기 요소 정보에 대응하는 타겟 언어 기반 영상 리소스 매칭을 기반으로 사용자 단말(200)로의 제작 인터페이스를 제공하며, 상기 제작 인터페이스에 대한 사용자 입력에 따라, 멀티미디어 콘텐츠 합성 및 변환 처리를 수행하여, 멀티미디어 변환 콘텐츠를 획득하며, 상기 멀티미디어 변환 콘텐츠를 멀티미디어 콘텐츠 서버(300)로 출력한다.

이에 따라, 입력 대상 데이터로부터 변환 출력된 멀티미디어 변환 콘텐츠는 멀티미디어 콘텐츠 서버(300)를 통해 하나 이상의 다른 사용자 단말로 배포될 수 있으며, 멀티미디어 콘텐츠 서버(300)는 멀티미디어 변환 콘텐츠 기반의 다양한 정보 제공 서비스를 처리할 수 있다.

이러한 사용자 단말(200), 서비스 제공 장치(100) 및 멀티미디어 콘텐츠 서버(300)는 네트워크를 통해 유선 또는 무선으로 연결될 수 있으며, 네트워크간 상호간 통신을 위해 각 사용자 단말(200), 서비스 제공 장치(100) 및 멀티미디어 콘텐츠 서버(300)는 인터넷 네트워크, LAN, WAN, PSTN(Public Switched Telephone Network), PSDN(Public Switched Data Network), 케이블 TV 망, WIFI, 이동 통신망 및 기타 무선 통신망 등을 통하여 데이터를 송수신할 수 있다. 사용자 단말(200), 서비스 제공 장치(100) 및 멀티미디어 콘텐츠 서버(300)는 각 통신망에 상응하는 프로토콜로 통신하기 위한 각각의 통신 모듈을 포함할 수 있다.

그리고, 본 명세서에서 설명되는 사용자 단말(200)에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션 등이 포함될 수 있으나, 본 발명은 이에 한정되지 아니하며 그 이외에 사용자 입력 및 정보 표시 등이 가능한 다양한 장치일 수 있다.

이와 같은 시스템에 있어서, 사용자 단말(200)은 서비스 제공 장치(100)로부터 입력 데이터의 리소스 매칭 기반 멀티미디어 콘텐츠 변환 서비스를 제공받을 수 있으며, 변환된 멀티미디어 콘텐츠 데이터에 기반한 부가 정보 서비스를 제공받을 수 있다.

특히, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는, 요소 정보 추출에 있어서, 사전 설정된 자연어 처리 알고리즘에 따라, 변환 대상 입력 데이터의 패턴 및 통계적 유사성에 따른 핵심 요소 정보를 텍스트 기반으로 추출할 수 있으며, 추출된 텍스트 기반의 요소 정보를 이용한 영상, 이미지, 텍스트, 자막, 애니메이션, 글꼴(색상, 크기, 폰트) 및 오디오를 프레임 병합 레이어별로 최적화 매칭시키는 리소스 매칭 처리를 수행할 수 있으며, 매칭 처리된 요소 정보를 이용한 제작 인터페이스 제공 및 사용자 입력에 따른 상기 프레임 병합 레이어 기반의 최적화된 멀티미디어 변환 콘텐츠를 생성할 수 있다.

이에 따라, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는, 다양한 포맷의 시장 보고서, 통계 보고서, 기업 소개서, 상업 광고지, 이력서, 자기 소개서 등과 같은 일반적 문서나 이미지 데이터가 입력되더라도, 요소 분석을 통해 추출된 요소 정보와 영상 콘텐츠 리소스 매칭을 처리함으로써, 최적화된 프레임 병합에 의한 멀티미디어 영상 콘텐츠가 쉽고 빠르게 제작될 수 있는 바, 멀티미디어 영상 콘텐츠 제작에 소요되는 전문인력과 비용, 시간 등을 크게 절감할 수 있으며, 영상 편집에 대한 비전문가라 하더라도 서비스 제공 장치(100)의 매칭 제안에 따른 일반 문서 기반의 멀티미디어 영상 콘텐츠 제작을 가능하게 한다.

나아가, 제1 언어의 음성 데이터 인식을 기반으로 변환 대상 데이터가 획득된 경우, 다양한 타겟 언어로의 영상 콘텐츠 리소스 매칭을 처리할 수 있으므로, 하나의 언어로 입력받은 변환 대상 데이터에 대하여, 다양한 국가별 문화에 알맞는 멀티미디어 변환 콘텐츠가 생성될 수 있게 된다. 이는 영상 편집에 대한 비전문가일 뿐만 아니라, 특정 국가별 언어 및 문화에 대한 지식이 없는 사용자라 하더라도, 각 국가별 언어 또는 문화에 맞는 글로벌한 멀티미디어 변환 콘텐츠를 쉽고 용이하게 제작할 수 있게 하는 효과가 있다.

도 2는 본 발명의 실시 예에 따른 서비스 제공 장치를 보다 구체적으로 설명하기 위한 블록도이다.

도 2를 참조하면, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는, 대상 데이터 입력부(110), 타겟 언어 설정부(117), 요소 정보 추출부(120), 영상 리소스 매칭부(130), 제작 인터페이스 제공부(140), 콘텐츠 합성 변환부(150), 학습 데이터베이스(160), 리소스 데이터베이스(180) 및 출력부(170)를 포함한다.

먼저, 입력부(110)는, 멀티미디어 콘텐츠 변환을 위한 대상 데이터를 사용자 단말(200)로부터 입력받아 요소 정보 추출부(120)로 전달한다.

입력부(110)는, 사용자 단말(200)로부터 대상 데이터를 입력받기 위한 하나 이상의 입력 인터페이스를 포함할 수 있다. 예를 들어, 상기 대상 데이터는 사용자 단말(200)로부터 입력된 문서 데이터일 수 있으며, 보고서, 기업 소개서, 자기 소개서, 상업 광고문서 등 다양한 포맷의 데이터를 포함할 수 있다. 나아가 대상 데이터는 특정 사이트로부터 추출되는 뉴스 기사 문서이거나, 소셜 미디어(SNS) 문서 등도 포함될 수 있다.

또한, 입력부(110)는 음성 데이터 처리 모듈(210)로부터 수신된 제1 언어의 음성 데이터를 텍스트 인식에 따라 상기 제1 언어의 텍스트 문장으로 변환하며, 상기 변환된 텍스트 문장을 상기 변환 대상 데이터로 획득할 수도 있다.

예를 들어, 상기 대상 데이터는 음성 데이터 처리 모듈(210)를 통해 입력된 사용자의 제1 언어의 음성 데이터일 수 있으며, 기업 소개 음성 데이터, 자기 소개 음성 데이터, 상업 광고 음성 데이터, 보고 음성 데이터 등 다양한 포맷의 음성 데이터를 포함할 수 있다. 나아가, 제1 언어의 음성 데이터는 특정 사이트에서 추출되는 동영상의 음성 데이터이거나, 소셜 미디어(SNS)에서 획득되는 음성 데이터 등도 포함될 수 있다.

그리고, 입력부(110)는, 사용자 단말(200)로부터 입력된 대상 데이터의 포맷식별을 처리할 수 있으며, 포맷 식별 정보는 요소 정보 추출부(120)로 전달될 수있다.

포맷 식별 정보는 예를 들어, 문서 타입을 나타낼 수 있으며, 소설, 수필, 뉴스 기사, 기안서, 기획서, 계획서, 영업보고서, 결산보고서, 회의 보고서 등의 다양한 문서 타입이 예시될 수 있다.

또한, 포맷 식별 정보는 예를 들어, 음성 데이터 타입을 나타낼 수 있으며, 기업 소개 발표, 자기 소개, 상업 광고, 대면 보고, 노래, 뮤직비디오, 기자회견 등의 다양한 음성 데이터 타입이 예시될 수 있다.

또한, 입력부(110)는 대상 데이터에 대응하는 주요 요소 데이터를 더 입력받을 수도 있다. 주요 요소 데이터는 예를 들어, 사용자 단말(200)에서 입력된 핵심 키워드, 음성 데이터 종류, 보고서 종류, 기업 특성 정보, 주요 기업명, 주요 회사명, 주요 인물명 등이 예시될 수 있으며, 요소 정보 추출부(120)의 요소 정보 추출시 주요 요소 데이터에 대응하는 가중치가 할당될 수 있다.

요소 정보 추출부(120)는, 입력된 대상 데이터를 영상 리소스가 매칭 가능한 하나 이상의 요소 데이터로 구분하기 위한 요소 정보를 추출할 수 있다.

여기서, 요소 정보 추출은 사전 설정된 자연어 처리 알고리즘을 이용하여, 대상 데이터로부터 텍스트 포맷의 요소 데이터를 추출하고, 추출된 요소 정보를 영상 리소스 매칭부(130)로 전달한다.

특히, 요소 정보 추출부(120)는, 대상 데이터의 주요 요소 데이터와 포맷 식별 정보에 기초하여, 영상 리소스에 매칭하기 위한 상기 대상 데이터의 자연어 처리 프로세스를 결정할 수 있다. 여기서, 상기 자연어 처리 프로세스는 딥러닝 프로세스에 의해 사전 학습된 텍스트 요약 프로세스가 예시될 수 있다.

이에 따라, 요소 정보 추출부(120)는 텍스트 요약 프로세스를 수행하여, 대상 데이터로부터 중요한 문장 또는 단어를 추출하고, 하나 이상의 요약 문장을 합성하여 요소 정보로서 출력할 수 있다.

또한, 요소 정보 추출부(120)는, 텍스트 요약 프로세스를 결정함에 있어서, 대상 데이터의 포맷 식별 정보에 따라 서로 다른 하나 이상의 언어모델을 적용할 수 있다. 언어모델은 추출 모델 또는 합성 모델이 예시될 수 있으며, 기업 특성 및 문서의 종류에 따라 서로 다른 모델이 결정될 수 있다.

예를 들어, 요소 정보 추출부(120)는, 대상 데이터에 대응하여 입력된 주요 요소 정보에 대기업이나 중견기업 정보가 포함된 경우, 보고서 또는 약관과 같은 대량 문서의 포맷 식별 정보에 대응하여, 대상 데이터에 대한 추출 모델을 적용하여, 원문에서의 중요한 문장 정보를 요소 정보로서 그대로 추출할 수 있다.

또한, 요소 정보 추출부(120)는, 대상 데이터에 대응하여 입력된 주요 요소 정보에 소상공인, 스타트업 또는 크리에이터 정보 등이 포함된 경우, 뉴스칼럼, 강의자료, 라이프스타일 자료 등과 같은 소량 문서의 포맷 식별 정보에 대응하여, 대상 데이터에 대한 합성 모델을 적용하여, 원문에서의 중요한 키워드 정보가 선별되어 하나의 요약 문장으로서 합성된 문장 정보를 요소 정보로서 추출할 수도 있다.

이에 따라, 본 발명의 실시 예에 따른 요소 정보는 대상 데이터로부터 추출 또는 합성 언어 모델에 기초하여 획득되는 하나 이상의 중요 문장 정보를 포함할 수 있다. 이러한 문장 정보는 하나의 영상 리소스 매칭 프레임의 레이어 단위에 대응할 수 있으며, 각 문장 정보별로 적절한 리소스 매칭이 처리되어 하나의 영상 프레임 레이어 단위를 구성할 수 있다.

그리고, 영상 리소스 매칭부(130)는, 학습 데이터베이스(160) 및 리소스 데이터베이스(180)에 기초하여, 상기 요소 정보에 대응하여 최적화된 리소스 매칭 처리를 수행하며, 리소스 매칭 정보를 콘텐츠 합성 변환부(150) 및 제작 인터페이스 제공부(140)로 전달한다.

보다 구체적으로, 영상 리소스 매칭부(130)는, 요소 정보에 대응하는 콘텐츠 합성 변환을 위한 리소스 매칭 처리를 수행하는 바, 콘텐츠 합성 변환을 위한 리소스는 사전 설정된 프레임 레이어 단위 내에서 처리되는 배경 영상, 배경 이미지, 배경 음악, 레이아웃, 모션, 애니메이션 등의 다양한 콘텐츠를 포함할 수 있고, 리소스 데이터베이스(180)에서 사전 저장되어 있을 수 있다.

또한, 리소스 데이터베이스(180)는 외부 네트워크를 통해 연결된 다양한 콘텐츠 서버로부터 수신되는 리소스 콘텐츠 데이터를 저장 및 관리할 수도 있다. 여기서 리소스 콘텐츠 데이터는 콘텐츠 속성 정보, 콘텐츠 식별 정보, 콘텐츠 링크 정보 및 콘텐츠 데이터 정보 중 적어도 하나를 포함할 수 있으며, 매칭된 리소스 정보는 제작 인터페이스 제공부(140) 또는 콘텐츠 합성 변환부(150)로 전달될 수 있다.

나아가, 상기 리소스 데이터베이스(180)는 각 국가 및 언어별로 분류 구성되는 복수의 리소스 데이터베이스(180)를 포함할 수 있다. 이 경우, 콘텐츠 합성 변환시 설정된 타겟 언어에 대응하는 국가 및 언어에 적합한 리소스 콘텐츠 데이터들이 추출되어 영상 리소스 매칭부(130)에서 매칭 처리될 수 있다.

또한, 영상 리소스 매칭부(130)는 리소스 데이터베이스(180)로부터 요소 정보에 대응하는 보다 적절한 콘텐츠를 매칭시키기 위해, 학습 데이터베이스(160)를 구축 및 활용할 수 있다. 학습 데이터베이스(160)는 리소스 콘텐츠와 요소 정보간 관계 정보를 학습하는 관계 학습 모델을 구축할 수 있으며, 특히 대상 데이터의 종류 및 주요 요소 정보에 대응하여 보다 적합한 리소스 콘텐츠가 매칭될 수 있도록 하는 가중치 변수가 설정될 수 있다. 이에 따라, 영상 리소스 매칭부(130)는 학습 데이터베이스(160)를 활용하여, 요소 정보에 대응하는 최적의 리소스 콘텐츠가 매칭되는 매칭 정보를 산출할 수 있으며, 산출된 매칭 정보는 제작 인터페이스 제공부(140) 및 콘텐츠 합성 변환부(150)로 전달될 수 있다.

예를 들어, 영상 리소스 매칭부(130)는, 요소 정보의 문장 정보에 대응하여, 일정 시간 단위로 구분되는 영상 프레임 레이어 단위별 배경, 음향, 글자 유형, 타겟 언어 등을 학습 데이터베이스(160)에 기초하여 사전 구축된 리소스 데이터베이스(180)와 매칭할 수 있다.

학습 데이터베이스(160)는 각 문장 정보의 대분류 카테고리와 세부 분류 카테고리를 정의할 수 있으며, 대분류와 세부 분류의 딥러닝 학습 결과의 연관성을 분석하여, 상기 매칭된 배경, 음향 또는 글자 유형이 대상 문서의 포맷에 대응하는 비즈니스 목적 등과 확률적으로 얼마나 연관성을 가지고 있는지를 산술적으로 분석할 수 있다.

이에 따라, 영상 리소스 매칭부(130)는 가장 최적화된 연관성이 산출되는 배경, 음향, 글자 유형, 타겟 언어 등의 리소스 콘텐츠들을 상기 영상 프레임 레이어 단위에 매칭하는 매칭 정보로서 획득할 수 있게 된다.

또한, 예를 들어, 본 발명의 실시 예에 따른 영상 리소스 매칭부(130)는, 요소 정보의 문장을 묘사하는 이미지 또는 오디오 리소스 콘텐츠를 직접 생성하거나, 리소스 데이터베이스(180)에서 검색할 수 있으며, 생성 또는 검색된 리소스 콘텐츠는 제작 인터페이스 제공부(140) 및 콘텐츠 합성 변환부(150)로 전달될 수 있다.

그리고, 제작 인터페이스 제공부(140)는, 매칭 정보에 기초하여 영상 리소스 매칭부(130)에서 매칭된 콘텐츠를 합성 변환할 수 있는 제작 인터페이스를 구성하고, 사용자 단말(200)로 제공한다.

제작 인터페이스 제공부(140)는, 사용자 단말(200)에서 실행되는 인터페이스 어플리케이션으로 상기 리소스 콘텐츠 데이터 및 리소스 매칭 정보를 전달하거나, 별도의 API를 통해 상기 리소스 콘텐츠 데이터 및 리소스 매칭 정보를 사용자 단말(200)로 전달하거나, 상기 리소스 콘텐츠 데이터 및 리소스 매칭 정보에 기초한 실시간 웹 제작 인터페이스를 구성하여 사용자 단말(200)로 제공할 수도 있다.

이에 따라, 사용자 단말(200)에서는 자신이 입력한 대상 데이터에 대응하여, 요소 정보가 추출되어 영상 리소스가 매칭된 리소스 콘텐츠를 확인할 수 있으며, 적절한 편집 및 가공을 처리하고, 합성 변환 명령을 입력할 수 있다. 또한, 사용자 단말(200)의 설정에 따라서는 사용자 단말(200)에서의 별도의 편집이나 가공 없이 바로 콘텐츠 합성 변환부(150)로의 변환 요청이 입력될 수도 있다.

콘텐츠 합성 변환부(150)는, 리소스 콘텐츠 데이터 및 리소스 매칭 정보와, 사용자 단말(200)의 입력 정보에 기초하여 상기 대상 데이터를 멀티미디어 변환 콘텐츠로 합성 및 변환 처리한다.

이에 따라, 멀티미디어 변환 콘텐츠는, 대상 데이터에 대응하여 영상, 음향, 이미지, 애니메이션, 자막, 폰트 중 적어도 하나가 합성 및 변환 처리된 멀티미디어 데이터를 포함할 수 있다. 합성 및 변환 처리된 멀티미디어 변환 콘텐츠는 제작 인터페이스 제공부(140)로 제공될 수 있으며, 제작 인터페이스 제공부(140)의 확인 또는 업로드 입력에 따라 출력부(170)로 전달될 수 있다.

출력부(170)는, 최종적으로 결정된 멀티미디어 변환 콘텐츠를 대상 데이터의 변환 콘텐츠로서 출력할 수 있으며, 이는 멀티미디어 콘텐츠 서버(300)로 제공되어, 대상 데이터 기반의 다양한 정보 제공 서비스에 이용될 수 있고, 소셜 네트워크 서비스를 통해 하나 이상의 다른 사용자 단말들로 공유될 수도 있다.

예를 들어, 정보 제공 서비스는, 뉴스 기사, 보고서, 소설, 수필, 블로그 등의 다양한 문서 데이터를 활용한 멀티미디어 콘텐츠 변환 서비스를 포함할 수 있으며, 이에 기초한 멀티미디어 콘텐츠 스트리밍 서비스 등이 예시될 수 있다.

또한, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는 장문의 내용으로 구성된 보고서 데이터뿐만 아니라, 비교적 단문들로 구성된 각종의 소식지나 온라인 댓글, SNS 데이터 등도 요소 정보 추출에 따른 영상 리소스 매칭 처리를 통해 멀티미디어 콘텐츠로 합성 변환할 수도 있다.

나아가, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는, 제1 언어로 구성된 음성 데이터에 대응하여, 각 국가별 타겟 언어에 대응하는 리소스 매칭 처리를 통해 글로벌한 멀티미디어 콘텐츠로 합성 변환 처리를 수행할 수 있게 된다. 예를 들어, 한국어 음성 데이터가 변환되어 대상 데이터로 입력되더라도, 타겟 언어인 베트남어나 영어에 대응되는 각 국가별 이미지, 뮤직, 비디오 콘텐츠 리소스 데이터베이스가 활용되어 각 국가나 언어에 대응하는 영상 리소스 매칭 처리가 수행될 수 있게 된다.

나아가, 상기 콘텐츠 합성 변환부(150)는 상기 제1 언어의 음성 데이터를 텍스트로 변환한 대상 데이터를 상기 타겟 언어로 번역 처리하고, 번역 처리된 데이터를 다시 사용자 설정에 따른 음성 또는 자막 데이터로 변환하여, 상기 합성 변환된 멀티미디어 콘텐츠에 합성 처리할 수도 있으며, 이에 따라 멀티미디어 콘텐츠는 제1 언어가 아닌 타겟 언어로 구성된 음성 설명 정보 또는 자막 설명 정보가 합성된 상태로 출력될 수도 있다.

도 3은 본 발명의 실시 예에 따른 서비스 제공 장치의 동작을 설명하기 위한 흐름도이다.

도 3을 참조하면, 먼저 서비스 제공 장치(100)는 변환 대상 데이터를 사용자 단말(200)로부터 입력받거나, 음성 데이터 처리 모듈(210)의 음성 데이터 수신에 대응하는 인식 변환 처리에 따라 변환 대상 데이터를 획득한다(S101).

그리고, 서비스 제공 장치(100)는 대상 데이터로부터 요소 정보를 추출한다(S103).

이후, 서비스 제공 장치(100)는, 요소 정보에 대응하는 영상 리소스 매칭을 처리한다(S105).

그리고, 서비스 제공 장치(100)는, 매칭된 영상 리소스 콘텐츠에 기반한 제작 인터페이스를 사용자 단말(200)로 제공한다(S107).

이후, 서비스 제공 장치(100)는 제작 인터페이스에 대한 사용자 입력에 따라 미디어 콘텐츠 합성 및 변환 처리를 수행한다(S109).

그리고, 서비스 제공 장치(100)는 변환된 멀티미디어 콘텐츠를 출력 및 배포한다(S111).

도 4는 본 발명의 실시 예에 따른 합성 변환된 영상 멀티미디어 콘텐츠 예시도이며, 도 5는 본 발명의 실시 예에 따른 입력 데이터로부터 멀티미디어 콘텐츠 데이터로 변환되는 과정을 예시적으로 설명하기 위한 도면이다.

먼저, 도 4를 참조하면, 앞서 설명한 바와 같이, 요소 정보 추출부(120)는, 제1 언어로 입력된 대상 데이터로부터 주요 문장으로서 "멋진 바닷가에 가서 해변 모래 바위 위의 물개들과 멋진 배들을 보았다"와 같은 문장을 요소 정보로서 추출할 수 있다.

그리고, 영상 리소스 매칭부(130)는, 타겟 언어가 영어로 설정되면, 타겟 언어데 대응하여 각 요소 정보의 단어 키워드에 대응하는 가장 적합한 리소스 콘텐츠를 학습 데이터베이스(160)에 기초하여 각 국가 및 언어별로 분류된 리소스 데이터베이스(180)로부터 획득할 수 있다. 예를 들어, 바닷가 키워드에 대응하는 미국 해변 영상 리소스와, 해변 모래 바위 키워드에 대응하는 바위 영상 리소스와, 물개 키워드에 대응하는 물개 영상 리소스와, 배 키워드에 대응하는 미국 배 영상 리소스가 매칭될 수 있다.

또한, 영상 리소스 매칭부(130)는 요소 정보의 문장 정보에 대응하는 자막, 글꼴 및 폰트 리소스를 매칭할 수 있으며, 상기 문장 정보를 음성 변환한 오디오를 음향 리소스로서 매칭 처리할 수 있다. 또한, 영상 리소스 매칭부(130)는 문장 정보에 대응하는 애니메이션 정보를 매칭 처리할 수 있다.

이에 따라, 콘텐츠 합성 변환부(150)는, 사전 설정된 시간 구간의 영상 프레임 레이어 단위에 대응하여, 상기 영상 리소스, 자막, 글꼴 및 폰트 리소스, 음향 리소스가 레이아웃 및 애니메이션 정보에 따라 매칭 및 변환된 영상 멀티미디어 콘텐츠를 생성할 수 있게 되는 것이다.

예를 들어, 프레임 레이어 단위 구간의 영상에는 자막으로 출력되는 하나의 문장과 관련된 멀티미디어 콘텐츠가 재생될 수 있으며, 콘텐츠 합성 변환부(150)는, 프레임 레이어 단위 구간의 영상 내에 자막, 영상 및 이미지들을 함께 배열하며, 사전 설정된 타이밍에 음향이 출력되도록 합성 및 변환할 수 있다. 영상 리소스 매칭부(130)는, 머신 러닝 기술, 딥러닝 기술 등을 통해 콘텐츠 합성 변환부(150)의 적절한 콘텐츠 데이터 조합, 애니메이션 효과 및 배열을 매칭할 수 있다.

또한, 콘텐츠 합성 변환부(150)는, 텍스트 요소별 부분 이미지 콘텐츠들을 매칭하고, 매칭된 부분 이미지들간 경계 처리를 수행하여 하나의 이미지로 융합 처리할 수 있으며, 융합된 이미지를 이용한 이미지 프레임 세트를 구축할 수 있다.

나아가, 콘텐츠 합성 변환부(150)는, 텍스트 요소를 정제하고, 텍스트 요소별 출력 타이밍을 설정할 수 있으며, 출력 타이밍에 상기 이미지 프레임 세트를 매칭시킬 수 있다. 그리고, 콘텐츠 합성 변환부(150)는, 텍스트 요소별 출력 타이밍과 동기화된 합성 자막을 삽입하거나, 상기 합성 자막의 TTS 음성을 병합하거나, 상기 TTS 음성에 대한 사용자 설정에 따라 음성 특징을 부여하는 후처리를 더 수행할 수 있다. 이에 따라, 제1 언어의 음성 데이터에 대응한 멀티미디어 콘텐츠라 하더라도, 각 타겟 언어별로 적절한 멀티미디어 콘텐츠가 융합 및 변환 합성될 수 있다.

이러한 매칭 프로세스는 도 5를 참조하면 보다 구체적으로 이해될 수 있다. 도 5(A)에 도시된 바와 같이, 제1 언어의 음성 데이터 또는 텍스트로 구성된 대상 데이터는 입력부(110)로 입력되어 요소 정보 추출부(120)에 의한 타겟 언어 기반 요소 정보 추출 처리가 수행될 수 있다.

요소 정보 추출 처리에 따라, 도 5(B)에 도시된 바와 같이 하나 이상의 핵심 문장 데이터들이 요소 정보로서 추출될 수 있는 바, 영상 리소스 매칭부(130)는, 추출된 요소 정보에 대응하여 도 4에 도시된 바와 같은 매칭 프로세스를 바탕으로 도 5(C)와 같이 리소스 데이터베이스(180)에 저장 또는 링크된 하나 이상의 영상, 음향 또는 이미지와의 리소스 콘텐츠 매칭을 처리할 수 있다.

여기서, 리소스 데이터베이스(180)는 서비스 제공 장치(100) 내부 또는 외부 데이터베이스일 수 있으며, 도 5(C)와 같이 잘 알려진 서비스 업체들의 리소스 콘텐츠 서비스 제공 서버들을 이용할 수도 있다.

그리고, 도 5(D)에 도시된 바와 같이, 영상 리소스 매칭부(130)의 매칭 정보에 기초하여 콘텐츠 합성 변환부(150)에서 합성 변환된 멀티미디어 콘텐츠는 출력부(170)를 통해 멀티미디어 콘텐츠 서버(300)로 전달될 수 있으며, 다른 사용자들에게 배포 및 공유될 수 있다.

도 6 내지 도 7은 본 발명의 실시 예에 따른 리소스 데이터베이스를 설명하기 위한 도면이다.

도 6을 참조하면, 본 발명의 실시 예에 따른 리소스 데이터베이스(180)는, 인터페이스부(185), 논리 모델 관리부(181), 물리 환경 관리부(183), 메타스토어 데이터베이스(183) 및 데이터 저장부(184)를 포함한다.

본 발명의 실시 예에 따르면, 리소스 데이터베이스(180)는 메타 정보를 기반으로 하는 미디어 콘텐츠 데이터를 분류 및 라벨링 처리하여, 학습 데이터베이스(160)에서 분석할 수 있는 형태로 로드하게 할 수 있으며, 리소스 콘텐츠 데이터의 공유를 용이하게 한다.

이를 위해, 리소스 데이터베이스(180)는 리소스 콘텐츠 데이터의 전처리를 통해 중복데이터 제거, 누락데이터 보정 및 이상데이터 감지를 수행할 수 있으며, 전처리된 데이터의 스케일링 프로세스를 수행하고, 잘 알려진 Long Short-Term Memory models(LSTM) 등의 알고리즘을 이용한 학습 데이터베이스(160)를 구축할 수 있도록 하는 데이터 분류 처리를 수행할 수 있다.

보다 구체적으로, 인터페이스부(185)는 각 관리부(181, 182)에서 분류 및 저장된 리소스 콘텐츠 데이터의 분산 입출력 인터페이스 처리를 수행한다.

논리 모델 관리부(181)는 메타스토어 데이터베이스(183)를 통해 리소스 콘텐츠를 분류 저장 및 관리할 수 있다. 여기서, 메타스토어 데이터베이스(183)는 물리 환경 관리부(182)에서 물리적으로 저장된 데이터 저장부(184)의 빅데이터 기반 콘텐츠 데이터를 색인하기 위한 메타데이터를 저장 및 관리할 수 있다. 메타데이터는 예를 들어, 사용자별 분류 정보, 기능별 분류 정보 또는 저장 분류 정보 중 적어도 하나를 포함할 수 있으며, 각 분류 정보는 물리적으로 분산 저장된 데이터 저장부(184)의 저장구조에 대응될 수 있다.

예를 들어, 데이터 저장부(184)는 리소스 콘텐츠로서, 애니메이션, 배경이미지, 음향, 폰트(글꼴), 레이아웃 정보 등이 저장될 수 있다.

도 7은 본 발명의 실시 예에 따라 저장되는 리소스 콘텐츠 포맷의 예시로서, 비디오, 음향, 이미지 등의 데이터 종류 정보, 식별자 정보, 태그 정보, URL 정보, 가상 호스팅 URL 정보 등을 포함하는 것을 예시하고 있다.

메타스토어 데이터베이스(183)는 아래의 표 1과 같은 메타데이터를 분류 정보로서 저장 및 관리할 수 있다.

데이터 구분	메타 정보1	메타 정보2	메타 정보3	타입
애니메이션	/store	/data	/animaion
배경이미지			/image
음향			/sound
폰트(글꼴)		/log	/realtime
레이아웃 정보		/log	/batch

표 1에 도시된 바와 같이, 데이터 구분에 따라 메타 정보는 각 분류 정보들에 의해 구분될 수 있으며, 따라서 필요한 리소스는 메타 정보를 이용하여 색인될 수 있다.이에 따라, 본 발명의 실시 예에 따른 리소스 데이터베이스(180)는, 물리적으로 분산 저장되는 빅데이터 구조의 데이터 저장부(184)를 관리할 수 있으며, 필요한 리소스 콘텐츠를 메타스토어 데이터베이스(183)의 메타 정보를 이용하여 색인할 수 있다.

따라서, 본 발명의 실시 예에 따른 리소스 데이터베이스(180)는 저장만을 목적으로 하는 것이 아니라, 저장된 데이터를 분석할 수 있는 형태로 로드하고 다양한 분석환경에서 필요데이터를 공유하는 측면을 고려하여 구축될 수 있으며, 나아가 SQL 기반으로의 데이터 정보 조회를 가능하게 하여 그 데이터 접근의 편의성 및 신속성을 높일 수 있다.

도 9은 본 발명의 실시 예에 따른 제작 인터페이스를 보다 구체적으로 설명하기 위한 도면이다.

도 9를 참조하면 본 발명의 실시 예에 따른 제작 인터페이스는, 사용자 단말(200)을 통해 출력되는 그래픽 유저 인터페이스를 포함할 수 있으며, 대상 데이터 입력 인터페이스(201)와, 영상 편집 인터페이스(204)와, 자막 편집 인터페이스와(202), 음원 및 언어 편집 인터페이스(203)를 포함할 수 있다.

그리고, 본 발명의 실시 예에 따른 서비스 제공 장치(100)는, 대상 데이터 입력 인터페이스(201)를 통해 특정 문서의 텍스트 데이터를 입력받을 수 있으며, 입력된 텍스트 데이터는 요약하기 버튼 입력 등에 따라, 요소 정보 추출부(120)에서의 요소 정보 추출 처리에 이용될 수 있다.

그리고, 추출된 요소 정보에 기초한 영상 리소스 매칭부(130)의 매칭 처리에 따른 추천 리소스 콘텐츠가 각 영상 편집 인터페이스(204)와, 자막 편집 인터페이스와(102), 음원 및 언어 편집 인터페이스(203)에 추천 아이템으로서 제안될 수 있다. 사용자 단말(200)에서는 이에 따라, 추천받은 리소스 콘텐츠를 선택함으로써 멀티미디어 변환 콘텐츠를 생성하게 할 수 있다.

사용자 단말(200) 사용자는 각 편집 인터페이스들에서 리소스 콘텐츠를 선택하고, 출력 인터페이스(205)를 통해 영상 변환 및 SNS 업로드를 입력할 수 있으며, 이에 따라, 콘텐츠 합성 변환부(150)에서의 변환 처리가 수행되고, 그 결과가 사용자 단말(200)로 출력되거나, 멀티미디어 콘텐츠 서버(300)에 업로드되어, 사전 설정된 SNS 계정을 통해 공유될 수 있다.

한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법은 프로그램으로 구현되어 다양한 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장된 상태로 각 서버 또는 기기들에 제공될 수 있다. 이에 따라, 사용자 단말(100)은 서버 또는 기기에 접속하여, 상기 프로그램을 다운로드할 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

서비스 제공 장치의 동작 방법에 있어서,
제1 언어의 음성 데이터를 수집하는 단계; 상기 제1 언어의 음성 데이터로부터 변환 대상 데이터를 획득하고, 상기 변환 대상 데이터의 포맷 식별을 처리하는 단계; 상기 변환 대상 데이터에 대응하는 타겟 언어가 설정되면, 상기 대상 데이터로부터 상기 타겟 언어에 대응되는 요소 정보를 추출하는 단계; 상기 요소 정보의 상기 타겟 언어 기반 영상 리소스 매칭에 기초한 멀티미디어 콘텐츠 합성 및 변환 처리를 수행하여, 멀티미디어 변환 콘텐츠를 획득하는 단계; 및 상기 멀티미디어 변환 콘텐츠를 출력하는 단계를 포함하되,
상기 변환 대상 데이터를 획득하는 단계는,
상기 제1 언어의 음성 데이터를 텍스트 인식에 따라 상기 제1 언어의 텍스트 문장으로 변환하는 단계; 및 상기 변환된 텍스트 문장을 상기 변환 대상 데이터로 획득하고, 상기 변환 대상 데이터에 대응하는 상기 타겟 언어를 설정하는 단계를 포함하고,
상기 요소 정보를 추출하는 단계는,
상기 변환 대상 데이터로부터 영상 리소스를 매칭하기 위한 하나 이상의 문장 정보를 추출하는 단계를 포함하고,
상기 문장 정보를 추출하는 단계는, 상기 변환 대상 데이터의 텍스트 요약 프로세스를 수행하는 단계를 포함하고, 상기 텍스트 요약 프로세스는 상기 변환 대상 데이터의 포맷 식별 정보에 따라 결정된 서로 다른 언어모델을 이용하는 프로세스이며, 상기 언어모델은 추출 모델 또는 합성 모델을 포함하며,
상기 멀티미디어 변환 콘텐츠를 획득하는 단계는,
상기 요소 정보에 대응하는 영상 리소스 매칭을 기반으로 제작 인터페이스를 제공하는 단계; 및 상기 제작 인터페이스에 대한 사용자 입력에 따라, 상기 요소 정보에 기초한 멀티미디어 콘텐츠 합성 및 변환 처리를 수행하는 단계를 포함하는
서비스 제공 장치의 동작 방법.
제1항에 있어서,
상기 제1 언어 및 상기 타겟 언어는 서로 상이하고,
상기 타겟 언어는, 상기 영상 리소스 매칭을 위해, 영상 리소스 분류 정보에 따라 각각 설정 가능한
서비스 제공 장치의 동작 방법.
제1항에 있어서,
상기 타겟 언어는 복수의 언어 중 사용자에 의해 선택된 하나 이상의 언어를 포함하고, 상기 영상 리소스는, 상기 선택된 하나 이상의 언어에 대응하는 국가별 리소스 데이터베이스로부터 추출되는 것을 특징으로 하는
서비스 제공 장치의 동작 방법.
제1항에 있어서,
상기 영상 리소스 매칭은
상기 요소 정보에 대응하여, 일정 시간 단위로 구분되는 영상 프레임 레이어 단위별 리소스 콘텐츠를 사전 구축된 리소스 데이터베이스와 매칭하는 프로세스를 포함하고,
상기 리소스 콘텐츠는 상기 요소 정보에 매칭가능한 영상, 배경, 이미지, 음향, 글자 유형 또는 애니메이션 중 적어도 하나를 포함하는
서비스 제공 장치의 동작 방법.