KR102213618B1

KR102213618B1 - 인공지능을 이용하여 사용자의 음성 데이터에 적합한 멀티미디어를 자동으로 생성하는 멀티미디어 자동 생성 시스템

Info

Publication number: KR102213618B1
Application number: KR1020200112536A
Authority: KR
Inventors: 이수민
Original assignee: 주식회사 웨인힐스벤처스
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2021-02-09
Also published as: WO2022050632A1

Abstract

본 발명은 인공지능을 이용하여 사용자의 음성 데이터에 적합한 멀티미디어를 자동으로 생성 및 배포하는 멀티미디어 자동 생성 시스템에 관한 것으로서, 사용자 단말기로부터 사용자 음성 데이터를 전송받는 음성 입력부; 음성 데이터를 문자 데이터로 변환하는 문자 변환부; 문자 데이터에 대응되는 단위 동영상 데이터를 검색하는 동영상 검색부; 단위 동영상 데이터를 결합하여 맞춤형 동영상 데이터를 제작하는 동영상 생성부를 포함할 수 있다.

Description

인공지능을 이용하여 사용자의 음성 데이터에 적합한 멀티미디어를 자동으로 생성하는 멀티미디어 자동 생성 시스템{Multimedia automatic generation system for automatically generating multimedia suitable for user's voice data by using artificial intelligence}

본 발명은 인공지능을 이용하여 사용자의 음성 데이터에 적합한 멀티미디어를 자동으로 생성하는 멀티미디어 자동 생성 시스템에 관한 것으로서, 보다 상세하게는, 사용자가 제공하는 음성을 문자로 변환하고, 변환된 문자의 내용과 관련된 멀티미디어를 자동으로 생성하며, 생성된 멀티미디어를 미디어플랫폼을 통해 자동으로 배포하는 멀티미디어 자동 생성 시스템에 관한 것이다.

스마트폰 보급이 증가하고, 초고속 데이터 전송이 가능한 무선통신망이 확산됨에 따라, 많은 사람들이 스마트폰을 통해 동영상을 보면서 정보를 얻는 것이 일상화되었다.

이에 따라 문자로 이루어진 정보는 점점 관심 밖으로 벗어나고 있으며, 이러한 문자 정보를 동영상으로 만들어 제공을 하려는 시도가 이어지고 있다. 그러나, 동영상 편집과 관련하여 전문 지식을 가지고 있지 않은 일반인으로서는 문자 정보를 동영상 정보로 바꾸는 것이 매우 힘든 일이다.

본 발명의 기술적 사상에 따른 멀티미디어 자동 생성 시스템이 이루고자 하는 기술적 과제는, 인공지능을 이용하여 사용자의 음성을 문자로 변환하고, 변환된 문자의 내용과 관련된 멀티미디어를 자동으로 생성하며, 생성된 멀티미디어를 미디어플랫폼을 통해 자동으로 배포하는 멀티미디어 자동 생성 시스템을 제공하는 것이다.

본 발명의 기술적 사상에 따른 멀티미디어 자동 생성 시스템이 이루고자 하는 기술적 과제는 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제는 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 발명의 기술적 사상에 의한 일 실시예에 따른 멀티미디어 자동 생성 시스템은, 사용자 단말기와 네트워크를 통해 연결되며, 사용자 단말기로부터 사용자 음성 데이터를 전송받는 음성 입력부; 음성 데이터를 문자 데이터로 변환하는 문자 변환부; 문자 데이터에 대응되는 단위 동영상 데이터를 검색하는 동영상 검색부; 및 단위 동영상 데이터를 결합하여 맞춤형 동영상 데이터를 제작하는 동영상 생성부를 포함할 수 있다.

문자 변환부는 문자 데이터에 포함된 문장들로부터 키워드를 추출하여, 하나 이상의 키워드를 포함하는 요약 문장을 생성할 수 있다.

멀티미디어 자동 생성 시스템은 단위 동영상 데이터가 저장된 동영상 데이터베이스를 더 포함하고, 동영상 검색부는 하나의 요약 문장에 포함된 키워드들에 대응되는 복수개의 단위 동영상 데이터를 동영상 데이터베이스에서 검색할 수 있다.

멀티미디어 자동 생성 시스템은 상기 검색된 단위 동영상 데이터가 검색의 기초가 된 요약 문장의 키워드와 적합한지 여부를 사용자 단말기로부터 점수로 평가를 받는 피드백 수집부를 더 포함할 수 있다.

피드백 수집부는, 요약 문장과 그에 대응되는 맞춤형 동영상 데이터 사이의 적합성과 관련하여, 사용자 단말기들로부터 적합성 점수를 전송받고, 전송된 적합성 점수를, 상기 요약 문장에 포함된 키워드와, 상기 맞춤형 동영상 데이터에 포함되며 상기 키워드에 대응되는 단위 동영상 데이터 사이의 적합성 점수로 부여하고, 다른 사용자 단말기들로부터 전송된 점수들을 상기 적합성 점수에 누적시키고, 상기 누적된 적합성 점수의 역수를 상기 키워드와 상기 단위 동영상 데이터 사이의 적합성 거리로 설정하고, 각 단위 동영상 데이터를 중심으로 적합성 거리만큼 키워드들이 떨어지도록 가상으로 배열하여 동영상 데이터베이스에 저장할 수 있다.

동영상 검색부는 요약 문장에 포함된 키워드들이 모두 포함되는 검색 반경을 가지는 단위 동영상 데이터들을 검색하되, 검색 반경이 가장 작은 단위 동영상 데이터를 선택할 수 있다.

멀티미디어 자동 생성 시스템은 음악 데이터가 저장된 음악 데이터베이스; 및 맞춤형 동영상 데이터에 대응되는 음악 데이터를 검색하는 음악 검색부를 더 포함하되, 음악 검색부는 하나의 맞춤형 동영상 데이터에 대응되는 복수개의 음악 데이터를 음악 데이터베이스에서 검색할 수 있다.

피드백 수집부는 상기 맞춤형 동영상 데이터와 그에 대응되는 음악 데이터 사이의 적합성과 관련하여, 사용자 단말기들로부터 점수를 전송받고, 전송된 점수를, 상기 맞춤형 동영상 데이터에 포함된 단위 동영상 데이터와 상기 음악 데이터 사이의 적합성 점수로 부여하고, 다른 사용자 단말기들로부터 전송된 점수들을 상기 적합성 점수에 누적시키고, 상기 누적된 적합성 점수의 역수를 상기 단위 동영상 데이터와 상기 음악 데이터 사이의 적합성 거리로 설정하고, 각 음악 데이터를 중심으로 적합성 거리만큼 단위 동영상 데이터들이 떨어지도록 가상으로 배열하여 음악 데이터베이스에 저장할 수 있다.

음악 검색부는 맞춤형 동영상 데이터에 포함된 단위 동영상 데이터들이 모두 포함되는 검색 반경을 가지는 음악 데이터들을 검색하되, 검색 반경이 가장 작은 음악 데이터를 선택할 수 있다.

멀티미디어 자동 생성 시스템은 맞춤형 동영상 데이터에 대응되는 요약 문장들을 자막으로 추가하는 자막 생성부를 더 포함할 수 있다.

본 발명의 기술적 사상에 의한 실시예들에 따른 멀티미디어 자동 생성 시스템은, 인공지능을 이용하여 사용자의 음성을 문자로 변환하고, 변환된 문자의 내용과 관련된 멀티미디어를 자동으로 생성하며, 생성된 멀티미디어를 미디어플랫폼을 통해 자동으로 배포하는 멀티미디어 자동 생성 시스템을 제공한다.

다만, 본 발명의 일 실시예에 따른 멀티미디어 자동 생성 시스템이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 명세서에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 멀티미디어 자동 생성 시스템의 개략도이다.
도 2는 본 발명의 일 실시예에 따른 멀티미디어 자동 생성 시스템의 실시 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 멀티미디어 자동 생성 시스템이 맞춤 동영상 데이터를 생성하는 과정을 개략적으로 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 멀티미디어 자동 생성 시스템이 최적의 단위 동영상 데이터를 선택하는 일 예를 도시한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명은 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 명세서에서 '~부'로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.

이하, 본 발명의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 멀티미디어 자동 생성 시스템의 개략도이다. 도 2는 본 발명의 일 실시예에 따른 멀티미디어 자동 생성 시스템의 실시 흐름도이다. 도 3은 본 발명의 일 실시예에 따른 멀티미디어 자동 생성 시스템이 맞춤 동영상 데이터를 생성하는 과정을 개략적으로 도시한 도면이다. 도 4는 본 발명의 일 실시예에 따른 멀티미디어 자동 생성 시스템이 최적의 단위 동영상 데이터를 선택하는 일 예를 도시한 도면이다.

본 발명의 일 실시예에 따른 멀티미디어 자동 생성 시스템(100)은 사용자의 단말기(10)와 네트워크(50)를 통해 연결될 수 있으며, 음성 입력부(110), 문자 변환부(120), 동영상 검색부(130), 동영상 생성부(140), 동영상 데이터베이스(150), 피드백 수집부(160), 음악 데이터베이스(170), 음악 검색부(180) 및 자막 생성부(190)를 포함할 수 있다.

사용자는 사용자 단말기(10)를 이용하여 멀티미디어 자동 생성 시스템 (100)에 접속하여 멀티미디어 자동 생성 시스템(100)과 신호를 주고 받을 수 있다. 단말기(10)에는 멀티미디어 자동 생성 시스템(100)에 접속 가능한 어플리케이션이 설치되어 구동되는 것이 바람직하다.

단말기(10)는 네트워크(50)를 통하여 원격지의 서버나 단말기에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크탑(Desktop), 랩탑(Laptop) 등을 포함할 수 있다. 또한, 단말기는 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말 장치로 구현될 수 있다. 단말 장치는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기, 스마트폰(smartphone), 스마트 패드(smartpad), 태블릿 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

여기서, 네트워크(50)는, 복수의 단말기 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.

음성 입력부(110)는 사용자 단말기(10)로부터 사용자 음성 데이터를 전송받을 수 있다. 사용자 음성 데이터는 사용자가 직접 녹음한 것이거나, 제3자에 의해 녹음된 것일 수 있다. 영화나 음악의 일부분이나 전부가 될 수도 있고, 사용자의 실시간 연설일 수도 있다.

문자 변환부(120)는 음성 데이터를 문자 데이터로 변환할 수 있다. 문자 변환부의 변환 프로그램은 공지된 다양한 문자-음성 변환 프로그램이 사용될 수 있다. 즉, 문자 변환부(120)에 의해 음성 오디오 파일이 문자 파일로 변환되는 것이다.

문자 변환부(120)는 문자 데이터에 포함된 문장들로부터 키워드를 추출하여, 하나 이상의 키워드를 포함하는 요약 문장을 생성할 수 있다. 인공 지능을 이용하여 긴 문장들을 키워드가 포함된 짧은 문장으로 변환하고, 키워드가 없는 중요하지 않은 문장을 삭제를 할 수 있다.

문장 내에서 중요한 핵심 키워드들을 뽑아서 그 키워드들로 요약 문장을 만드는 추출적 요약 방법이 사용될 수 있다. 또한, 딥 러닝 기반의 자연언어처리 기술을 바탕으로 문장 전체 내용을 이해하고 그 내용을 잘 표현할 수 있는 간결한 요약 문장을 직접 작성하는 추상적 요약 방법이 사용될 수도 있다.

추출적 요약 방법에서 키워드를 찾아내는 방법으로서 통계적 방법인 빈도 조사가 사용될 수 있다. 이 외에 좀더 정교한 방법으로 TF-IDF(Term Frequency - Inverse Document Frequency), 정보 획득량(information gain), 상호 정보량(mutual information), 기타 IDF를 변형한 척도들이 사용될 수도 있다. 키워드를 선정함에 있어서, 단어의 중요도, 문장의 위치, 문장 내 긍정 키워드(중요문장에 자주 등장하는 키워드)의 빈도, 부정 키워드(비중요문장에 자주 등장하는 키워드)의 빈도, 문장의 중심성, 제목과의 유사도, 문장의 길이, 문장 내 수치 데이터의 유무, 개체명의 유무 등이 고려될 수 있다.

또한, 기계학습을 통해 중요한 문장인지 사소한 문장인지 라벨이 매겨진 수 많은 문장쌍을 입력으로 받아 새로 입력 받은 문장이 중요한지 사소한지 분류할 수 있는 분류기를 학습시킬 수 있다.

동영상 검색부(130)는 문자 데이터에 대응되는 단위 동영상 데이터를 검색할 수 있다. 보다 구체적으로는, 동영상 검색부(130)가 하나의 요약 문장마다 해당 요약 문장과 관련된 복수개의 단위 동영상 데이터를 검색할 수 있다. 단위 동영상 데이터는 짧은 동영상을 의미하며, 5초 내지 30초의 짧은 동영상이 바람직하다. 단위 동영상 데이터는 동영상 데이터베이스(150)에 미리 저장될 수 있다.

하나의 요약 문장에는 복수개의 키워드가 포함될 수 있는데, 이들 키워드들을 기초로 하여 단위 동영상 데이터들이 검색될 수 있다. 단위 동영상 데이터들은 키워드와 관련된 것으로 기계 학습되거나, 키워드와 관련된 것으로 미리 설정될 수 있다. 키워드와 관련된 동영상 데이터들은 키워드가 포함된 요약 문장의 관련 동영상 데이터들이 된다.

예를 들어, 도 3에 도시된 바와 같이 "우리는 꿈과 희망이 넘치는 푸른 바다로 달려갑니다"라는 요약 문장에서 키워드인 "꿈", "희망", "바다", "달려갑니다" 각각에 대하여 관련된 단위 동영상 데이터들을 검색할 수 있다. 키워드 A인 "꿈"에 대하여 동영상 A1, 동영상 A2, 동영상 A3 ?? 동영상 An이 검색되며, 키워드 B인 "희망"에 대하여 동영상 B1, 동영상 B2, 동영상 B3 ?? 동영상 Bn이 검색되고, 키워드 C인 "바다"에 대하여 동영상 C1, 동영상 C2, 동영상 C3 ?? 동영상 Cn이 검색되며, 키워드 D인 "달려갑니다"에 대하여 동영상 D1, 동영상 D2, 동영상 D3 ?? 동영상 Dn이 검색될 수 있다. 동영상 A1, 동영상 A2, 동영상 A3 ?? 동영상 An, 동영상 B1, 동영상 B2, 동영상 B3 ?? 동영상 Bn, 동영상 C1, 동영상 C2, 동영상 C3 ?? 동영상 Cn, 동영상 D1, 동영상 D2, 동영상 D3 ?? 동영상 Dn은 요약 문장의 관련 동영상 데이터가 된다.

동영상 검색부(130)는 이러한 단위 동영상 데이터를 동영상 데이터베이스(150)에서 검색할 수도 있고, 인터넷을 통해 검색하여 단위 동영상 데이터를 수집하거나, 외부 데이터베이스를 이용할 수도 있다.

동영상 생성부(140)는 단위 동영상 데이터를 결합하여 맞춤형 동영상 데이터를 제작할 수 있다. 동영상 생성부(140)는 키워드 순서대로 해당 키워드와 가장 관련된 것으로 선택된 단위 동영상들을 연결할 수 있다.

단위 동영상과 키워드의 관련도는 사용자들의 누적된 평가에 의해 결정될 수도 있으며, 키워드와 단위 동영상의 직접적인 관련도를 사용자들이 평가하는 것이 아니라, 키워드가 요약 문장에 들어갔을 때, 그 요약 문장을 표현하는 맞춤형 동영상 데이터와의 적합성 점수가 요약 문장에 포함된 키워드들과 맞춤형 동영상 데이터들에 포함된 단위 동영상 데이터들에 그대로 적용되며, 그 적합성 점수는 누적된다. 즉, 키워드 하나만을 보고 적합성을 평가하는 것이 아니라, 그 키워드와 다른 키워드들과의 관계를 고려하여 키워드와 단위 동영상 데이터 사이의 적합성을 평가하는 것이다.

이를 위해, 피드백 수집부(160)는 검색된 단위 동영상 데이터가 검색의 기초가 된 키워드와 적합한지 여부를 사용자 단말기(10)로부터 점수로 평가를 받을 수 있다. 이러한 평가는 사용자가 자신의 요약 문장에 대해서 할 수도 있고 타인의 요약 문장에 대해서도 할 수 있다. 시스템에서 모든 생성된 요약 문장들은 피드백 수집부(160)에 의해 모든 사용자에게 공개되어 평가될 수 있다.

피드백 수집부(160)는 요약 문장과 그에 대응되는 맞춤형 동영상 데이터 사이의 적합성과 관련하여 사용자 단말기(10)들로부터 적합성 점수를 전송받고, 전송된 적합성 점수를, 요약 문장에 포함된 키워드와, 맞춤형 동영상 데이터에 포함되며 상기 키워드에 대응되는 단위 동영상 데이터 사이의 적합성 점수로 부여할 수 있다. 다른 사용자 단말기들로부터 전송된 적합성 점수들도 키워드와 단위 동영상 데이터 사이의 적합성 점수에 누적된다.

피드백 수집부(160)는 누적된 적합성 점수의 역수를 키워드와 단위 동영상 데이터 사이의 적합성 거리로 설정할 수 있다.

예를 들어, 키워드 A, 키워드 B, 키워드 C, 키워드 D를 포함하는 요약 문장에 대해 생성된 맞춤형 동영상 데이터가 단위 동영상 데이터 A1, 단위 동영상 데이터 B3, 단위 동영상 데이터 C1, 단위 동영상 데이터 D4로 이루어진 경우에, 요약 문장과 맞춤형 동영상 데이터에 대한 사용자들의 평가 점수의 합이 524점이고, 키워드 A인 "꿈"과 단위 동영상 데이터 A1의 적합성에 대한 기존의 누적 적합성 점수의 합은 1234점, 키워드 B인 "희망"과 단위 동영상 데이터 B3의 적합성에 대한 기존의 누적 적합성 점수의 합은 43점, 키워드 C인 "바다"와 단위 동영상 데이터 C1의 적합성에 대한 기존의 누적 적합성 점수의 합은 153점, 키워드 D인 "달려갑니다"와 단위 동영상 데이터 D4의 적합성에 대한 기존의 누적 적합성 점수의 합은 732점이라면, 키워드 A인 "꿈"과 단위 동영상 데이터 A1의 누적 적합성 점수는 1758점이 되고, 키워드 B인 "희망"과 단위 동영상 데이터 B3의 누적 적합성 점수는 567점이 되고, 키워드 C인 "바다"와 단위 동영상 데이터 C1의 누적 적합성 점수는 677점이 되고, 키워드 D인 "달려갑니다"와 단위 동영상 데이터 D4의 누적 적합성 점수는 1256점이 된다.

따라서, 키워드 A인 "꿈"과 단위 동영상 데이터 A1의 적합성 거리는 0.0005688이 되고, 키워드 B인 "희망"과 단위 동영상 데이터 B3의 적합성 거리는 0.0017637이 되고, 키워드 C인 "바다"와 단위 동영상 데이터 C1의 적합성 거리는 0.0014771이 되고, 키워드 D인 "달려갑니다"와 단위 동영상 데이터 D4의 적합성 거리는 0.0007961이 된다.

이렇게, 피드백 수집부(160)는 요약 문장에 포함된 키워드들과 맞춤형 동영상 데이터에 포함된 단위 동영상 데이터들의 관계마다 동일한 적합성 거리를 부여하며, 이 거리는 사용자들의 평가에 의해 업데이트되며, 도 4에 도시된 바와 같이 각 단위 동영상 데이터를 중심으로 적합성 거리만큼 떨어진 키워드들이 배열된 단위 동영상 데이터의 가상 구조가 동영상 데이터베이스(150)에 저장할 수 있다.

동영상 검색부(130)는 요약 문장에 포함된 키워드들이 모두 포함되는 검색 반경을 가지는 단위 동영상 데이터들을 검색하되, 검색 반경이 가장 작은 단위 동영상 데이터를 선택할 수 있다. 즉, 키워드가 "꿈", "희망", "바다", "달려갑니다"인 "우리는 꿈과 희망이 넘치는 푸른 바다로 달려갑니다"라는 요약 문장에 적합한 단위 동영상을 검색하는 경우에, 키워드 "꿈", "희망", "바다", "달려갑니다"와 적합성 거리가 설정된 단위 동영상 데이터들을 먼저 찾을 수 있고, 도 4에 도시된 바와 같이 검색 반경(DST)이 가장 작은 A1을 최우선 단위 동영상 데이터로 선택하고 검색 반경(DST)의 크기 순서 대로 차례로 3개의 단위 동영상 데이터를 더 선택할 수 있다. 이렇게 선택된 4개의 단위 동영상 데이터 중에서, 키워드 "꿈" 부분에 나올 단위 동영상 데이터로는 4개의 선택된 단위 동영상 데이터들 중에서 키워드 "꿈"과 적합성 거리가 가장 짧은 단위 동영상 데이터를 선택하고, 키워드 "희망" 부분에 나올 단위 동영상 데이터로는 4개의 선택된 단위 동영상 데이터들 중에서 키워드 "희망"과 적합성 거리가 가장 짧은 단위 동영상 데이터를 선택하고, 키워드 "바다" 부분에 나올 단위 동영상 데이터로는 4개의 선택된 단위 동영상 데이터들 중에서 키워드 "바다"와 적합성 거리가 가장 짧은 단위 동영상 데이터를 선택하고, 키워드 "달려갑니다" 부분에 나올 단위 동영상 데이터로는 4개의 선택된 단위 동영상 데이터들 중에서 키워드 "달려갑니다"와 적합성 거리가 가장 짧은 단위 동영상 데이터를 선택하여 맞춤형 동영상 데이터를 생성할 수 있다.

이렇게 생성된 맞춤형 동영상 데이터에는 음악이 결합될 수 있다. 음악 검색부(180)는 맞춤형 동영상 데이터에 대응되는 음악 데이터를 검색할 수 있다. 음악 데이터는 음악 데이터베이스(170)에 미리 저장될 수 있다. 음악 검색부(180)는 이러한 음악 데이터를 음악 데이터베이스(170)에서 검색할 수도 있고, 인터넷을 통해 검색하여 음악 데이터를 수집하거나, 외부 음악 데이터베이스를 이용할 수도 있다.

구체적으로는, 음악 검색부(180)는 하나의 맞춤형 동영상 데이터에 포함된 키워드들에 대응되는 복수개의 음악 데이터를 음악 데이터베이스(170)에서 검색할 수 있다.

음악 데이터와 단위 동영상 데이터의 관련도는 사용자들의 누적된 평가에 의해 결정될 수 있으며, 음악 데이터와 단위 동영상 데이터의 직접적인 관련도를 사용자들이 평가하는 것이 아니라, 단위 동영상 데이터가 맞춤형 동영상 데이터에 들어갔을 때, 그 맞춤형 동영상 데이터와 음악 데이터와의 적합성 점수가 맞춤형 동영상 데이터에 포함된 단위 동영상 데이터들과 음악 데이터에 그대로 적용되며, 그 적합성 점수는 누적된다. 즉, 단위 동영상 데이터 하나만을 보고 적합성을 평가하는 것이 아니라, 그 단위 동영상 데이터와 다른 단위 동영상 데이터들과의 관계를 고려하여 단위 동영상 데이터와 음악 데이터 사이의 적합성을 평가하는 것이다.

이를 위해, 피드백 수집부(160)는 검색된 음악 데이터가 검색의 기초가 된 단위 동영상 데이터와 적합한지 여부를 사용자 단말기(10)로부터 점수로 평가를 받을 수 있다. 이러한 평가는 사용자가 자신의 맞춤형 동영상 데이터에 대해서 할 수도 있고 제 3 자의 맞춤형 동영상 데이터에 대해서도 할 수 있다. 시스템에서 모든 생성된 맞춤형 동영상 데이터들은 피드백 수집부(160)에 의해 모든 사용자에게 공개되어 평가될 수 있다.

피드백 수집부(160)는 맞춤형 동영상 데이터와 그에 대응되는 음악 데이터 사이의 적합성과 관련하여 사용자 단말기(10)들로부터 적합성 점수를 전송받고, 전송된 적합성 점수를, 맞춤형 동영상 데이터에 포함된 단위 동영상 데이터와, 음악 데이터 사이의 적합성 점수로 부여할 수 있다. 다른 사용자 단말기들로부터 전송된 적합성 점수들도 단위 동영상 데이터와 음악 데이터 사이의 적합성 점수에 누적된다.

피드백 수집부(160)는 누적된 적합성 점수의 역수를 단위 동영상 데이터와 음악 데이터 사이의 적합성 거리로 설정할 수 있다. 이렇게, 피드백 수집부(160)는 맞춤형 동영상 데이터에 포함된 단위 동영상 데이터들과 음악 데이터들의 관계마다 동일한 적합성 거리를 부여하며, 이 거리는 사용자들의 평가에 의해 업데이트되며, 각 음악 데이터를 중심으로 적합성 거리만큼 떨어진 단위 동영상 데이터들이 배열된 음악 데이터의 가상 구조가 동영상 데이터베이스(170)에 저장할 수 있다.

음악 검색부(180)는 맞춤형 동영상 데이터에 포함된 단위 동영상 데이터들이 모두 포함되는 검색 반경을 가지는 음악 데이터들을 검색하되, 검색 반경이 가장 작은 음악 동영상 데이터를 선택할 수 있다.

자막 생성부(190)는 맞춤형 동영상 데이터에 대응되는 요약 문장들을 화면 하단에 자막으로 추가할 수 있다.

이렇게 생성된 맞춤형 동영상 데이터는 유튜브와 같은 미디어플랫폼에 자동으로 업로드되어 공개될 수 있다(S160). 맞춤형 동영상 데이터가 업로드되기 전에 사용자의 확인을 거칠 수 있으며, 기계 학습이 된 확인 모듈이 자동으로 확인을 할 수도 있다. 맞춤형 동영상 데이터는 미디어플랫폼에 기설정된 계정을 통해 업로드가 될 수 있으며, 사용자들은 미디어플랫폼에 공개된 맞춤형 동영상 데이터에 대한 평가 점수를 피드백 수집부(160)로 전송할 수도 있다.

한편, 음성 입력부(110)는 정보 백업부를 포함하며, 정보 백업부는 음성 데이터를 음성 데이터베이스에 백업할 수 있다. 음성 데이터베이스는 복수 개의 서브 데이터베이스들의 집합체로 이루어지며, 이러한 서브 데이터베이스들은 물리적으로 분할된 상태로 이루어지는 것이 바람직할 수 있다.

삭제

이상 본 명세서에서 설명한 기능적 동작과 본 주제에 관한 실시형태들은 본 명세서에서 개시한 구조들 및 그들의 구조적인 등가물을 포함하여 디지털 전자 회로나 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어에서 혹은 이들 중 하나 이상의 조합에서 구현 가능하다.

삭제

본 명세서에서 기술하는 주제의 실시형태는 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 데이터 처리 장치에 의한 실행을 위하여 또는 그 동작을 제어하기 위하여 유형의 프로그램 매체 상에 인코딩되는 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 유형의 프로그램 매체는 전파형 신호이거나 컴퓨터로 판독 가능한 매체일 수 있다. 전파형 신호는 컴퓨터에 의한 실행을 위하여 적절한 수신기 장치로 전송하기 위한 정보를 인코딩하기 위하여 생성되는 예컨대 기계가 생성한 전기적, 광학적 혹은 전자기 신호와 같은 인공적으로 생성된 신호이다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조합 혹은 이들 중 하나 이상의 조합일 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다.

컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다.

컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터 또는 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.

부가적으로, 본 명세서에서 기술하는 논리 흐름과 구조적인 블록도는 개시된 구조적인 수단의 지원을 받는 대응하는 기능과 단계의 지원을 받는 대응하는 행위 및/또는 특정한 방법을 기술하는 것으로, 대응하는 소프트웨어 구조와 알고리즘과 그 등가물을 구축하는 데에도 사용 가능하다.

본 명세서에서 기술하는 프로세스와 논리 흐름은 입력 데이터 상에서 동작하고 출력을 생성함으로써 기능을 수행하기 위하여 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그래머블 프로세서에 의하여 수행 가능하다.

컴퓨터 프로그램의 실행에 적합한 프로세서는, 예컨대 범용 및 특수 목적의 마이크로프로세서 양자 및 어떤 종류의 디지털 컴퓨터의 어떠한 하나 이상의 프로세서라도 포함한다. 일반적으로, 프로세서는 읽기 전용 메모리나 랜덤 액세스 메모리 혹은 양자로부터 명령어와 데이터를 수신할 것이다.

컴퓨터의 핵심적인 요소는 명령어와 데이터를 저장하기 위한 하나 이상의 메모리 장치 및 명령을 수행하기 위한 프로세서이다. 또한, 컴퓨터는 일반적으로 예컨대 자기, 자기광학 디스크나 광학 디스크와 같은 데이터를 저장하기 위한 하나 이상의 대량 저장 장치로부터 데이터를 수신하거나 그것으로 데이터를 전송하거나 혹은 그러한 동작 둘 다를 수행하기 위하여 동작가능 하도록 결합되거나 이를 포함할 것이다. 그러나, 컴퓨터는 그러한 장치를 가질 필요가 없다.

본 기술한 설명은 본 발명의 최상의 모드를 제시하고 있으며, 본 발명을 설명하기 위하여, 그리고 당업자가 본 발명을 제작 및 이용할 수 있도록 하기 위한 예를 제공하고 있다. 이렇게 작성된 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하는 것이 아니다.

따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 요컨대 본 발명이 의도하는 효과를 달성하기 위해 도면에 도시된 모든 기능 블록을 별도로 포함하거나 도면에 도시된 모든 순서를 도시된 순서 그대로 따라야만 하는 것은 아니며, 그렇지 않더라도 얼마든지 청구항에 기재된 본 발명의 기술적 범위에 속할 수 있다는 점을 밝힌다.

100: 멀티미디어 자동 생성 시스템
110: 음성 입력부
120: 문자 변환부
130: 동영상 검색부
140: 동영상 생성부
150: 동영상 데이터베이스
160: 피드백 수집부
170: 음악 데이터베이스
180: 음악 검색부
190: 자막 생성부

Claims

멀티미디어 자동 생성 시스템에 있어서,
사용자 단말기와 네트워크를 통해 연결되는 멀티미디어 자동 생성 시스템에 있어서,
사용자 단말기로부터 사용자 음성 데이터를 전송받는 음성 입력부;
음성 데이터를 문자 데이터로 변환하는 문자 변환부;
단위 동영상 데이터가 저장된 동영상 데이터베이스;
문자 데이터에 대응되는 단위 동영상 데이터를 검색하는 동영상 검색부; 및
단위 동영상 데이터를 결합하여 맞춤형 동영상 데이터를 제작하는 동영상 생성부를 포함하되,
문자 변환부는 문자 데이터에 포함된 문장들로부터 키워드를 추출하여, 하나 이상의 키워드를 포함하는 요약 문장을 생성하며,
동영상 검색부는 하나의 요약 문장에 포함된 키워드들에 대응되는 복수개의 단위 동영상 데이터를 동영상 데이터베이스에서 검색하고,
멀티미디어 자동 생성 시스템은
상기 검색된 단위 동영상 데이터가 검색의 기초가 된 요약 문장의 키워드와 적합한지 여부를 사용자 단말기로부터 점수로 평가를 받는 피드백 수집부를 더 포함하되,
피드백 수집부는, 요약 문장과 그에 대응되는 맞춤형 동영상 데이터 사이의 적합성과 관련하여, 사용자 단말기들로부터 적합성 점수를 전송받고,
전송된 적합성 점수를, 상기 요약 문장에 포함된 키워드와, 상기 맞춤형 동영상 데이터에 포함되며 상기 키워드에 대응되는 단위 동영상 데이터 사이의 적합성 점수로 부여하고,
다른 사용자 단말기들로부터 전송된 점수들을 상기 적합성 점수에 누적시키고,
상기 누적된 적합성 점수의 역수를 상기 키워드와 상기 단위 동영상 데이터 사이의 적합성 거리로 설정하고, 각 단위 동영상 데이터를 중심으로 적합성 거리만큼 키워드들이 떨어지도록 가상으로 배열하여 동영상 데이터베이스에 저장하는 것을 특징으로 멀티미디어 자동 생성 시스템.
삭제
삭제
삭제
삭제
제 1 항에 있어서,
동영상 검색부는 요약 문장에 포함된 키워드들이 모두 포함되는 검색 반경을 가지는 단위 동영상 데이터들을 검색하되, 검색 반경이 가장 작은 단위 동영상 데이터를 선택하는 것을 특징으로 하는 멀티미디어 자동 생성 시스템.
제 6 항에 있어서, 멀티미디어 자동 생성 시스템은
음악 데이터가 저장된 음악 데이터베이스; 및
맞춤형 동영상 데이터에 대응되는 음악 데이터를 검색하는 음악 검색부를 더 포함하되,
음악 검색부는 하나의 맞춤형 동영상 데이터에 대응되는 복수개의 음악 데이터를 음악 데이터베이스에서 검색하는 것을 특징으로 하는 멀티미디어 자동 생성 시스템.
제 7 항에 있어서,
피드백 수집부는 상기 맞춤형 동영상 데이터와 그에 대응되는 음악 데이터 사이의 적합성과 관련하여, 사용자 단말기들로부터 점수를 전송받고,
전송된 점수를, 상기 맞춤형 동영상 데이터에 포함된 단위 동영상 데이터와 상기 음악 데이터 사이의 적합성 점수로 부여하고,
다른 사용자 단말기들로부터 전송된 점수들을 상기 적합성 점수에 누적시키고,
상기 누적된 적합성 점수의 역수를 상기 단위 동영상 데이터와 상기 음악 데이터 사이의 적합성 거리로 설정하고, 각 음악 데이터를 중심으로 적합성 거리만큼 단위 동영상 데이터들이 떨어지도록 가상으로 배열하여 음악 데이터베이스에 저장하는 것을 특징으로 하는 멀티미디어 자동 생성 시스템.
제 8 항에 있어서,
음악 검색부는 맞춤형 동영상 데이터에 포함된 단위 동영상 데이터들이 모두 포함되는 검색 반경을 가지는 음악 데이터들을 검색하되, 검색 반경이 가장 작은 음악 데이터를 선택하는 것을 특징으로 하는 멀티미디어 자동 생성 시스템.
제 1 항에 있어서, 멀티미디어 자동 생성 시스템은
맞춤형 동영상 데이터에 대응되는 요약 문장들을 자막으로 추가하는 자막 생성부를 더 포함하는 것을 특징으로 하는 멀티미디어 자동 생성 시스템.