KR102523704B1

KR102523704B1 - 영상메일 플랫폼 시스템

Info

Publication number: KR102523704B1
Application number: KR1020220097243A
Authority: KR
Inventors: 김운
Original assignee: 주식회사 디엠티랩스
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2023-04-20

Abstract

본 발명은 영상메일 플랫폼 시스템에 관한 것으로서, 사용자단말로부터 입력받는 촬영영상과 메일정보에 따라, 웹서버를 통해 콘텐츠영상이 스트리밍되는 URL정보를 이메일로 서비스할 수 있는 영상메일 플랫폼 시스템에 관한 것이다. 이를 위해, 영상메일 플랫폼 시스템은 사용자단말로부터 영상메일 플랫폼 서비스를 통해 입력받는 촬영영상과 메일정보를 통합하여 저장 DB에 등록하는 등록부, 상기 영상메일 플랫폼 서비스에 기설정된 포맷정보에 따라, 상기 촬영영상을 콘텐츠영상으로 변환하는 변환부, 상기 콘텐츠영상을 웹서버를 통해 등록함에 따라 상기 콘텐츠영상이 스트리밍되는 URL정보를 획득하는 URL정보 획득부 및 상기 사용자단말에 상기 URL정보를 제공함에 따라 응답받는 피드백 신호에 기초하여, 상기 콘텐츠영상에 대한 번역서비스 모드와 컷편집서비스 모드 중 어느 하나를 선택적으로 서비스하는 편집서비스부를 포함한다.

Description

영상메일 플랫폼 시스템{VIDEO MAIL PLATFORM SYSTEM}

본 발명은 영상메일 플랫폼 시스템에 관한 것으로서, 사용자단말로부터 입력받는 촬영영상과 메일정보에 따라, 웹서버를 통해 콘텐츠영상이 스트리밍되는 URL정보를 이메일로 서비스할 수 있는 영상메일 플랫폼 시스템에 관한 것이다.

인터넷이 대중화되면서, 인터넷상의 대표적인 커뮤니케이션 수단인 전자 메일(이메일) 또한 그 사용량이 꾸준히 증가하고 있다. 초기에는 이메일을 통하여 단순한 텍스트 메시지만을 주고받았다면, 최근에는 각종 청구서, 금융 기관의 거래 내역 등의 중요한 정보 또한 이메일을 통하여 송수신되고 있다.

특히, 동영상을 메일로 전달하기 위해서는 이메일에 첨부가능한 용량으로 압축해야 하므로, 영상품질이 저하되는 문제가 있었다.

본 발명에서는 메일로 전달되는 영상의 품질을 개선시키고, 간편하게 영상메일을 전달할 수 있는 플랫폼을 제공하고자 한다.

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 콘텐츠영상이 스트리밍되는 URL정보를 이메일로 서비스할 수 있는 영상메일 플랫폼 시스템을 제공하기 위한 것이다.

또한, 콘텐츠영상의 해당 언어 음성을 인식하여 다국어 자막을 서비스할 수 있는 영상메일 플랫폼 시스템을 제공하기 위한 것이다.

또한, 콘텐츠영상으로부터 분류된 음소거구간을 식별하고, 음소서구간을 자동으로 편집할 수 있는 영상메일 플랫폼 시스템을 제공하기 위한 것이다.

본 발명의 상기 및 다른 목적과 이점은 바람직한 실시예를 설명한 하기의 설명으로부터 분명해질 것이다.

상기와 같은 목적을 달성하기 위한 본 발명의 일실시예에 따른 영상메일 플랫폼 시스템은 사용자단말로부터 영상메일 플랫폼 서비스를 통해 입력받는 촬영영상과 메일정보를 통합하여 저장 DB에 등록하는 등록부, 상기 영상메일 플랫폼 서비스에 기설정된 포맷정보에 따라, 상기 촬영영상을 콘텐츠영상으로 변환하는 변환부, 상기 콘텐츠영상을 웹서버를 통해 등록함에 따라 상기 콘텐츠영상이 스트리밍되는 URL정보를 획득하는 URL정보 획득부 및 상기 사용자단말에 상기 URL정보를 제공함에 따라 응답받는 피드백 신호에 기초하여, 상기 콘텐츠영상에 대한 번역서비스 모드와 컷편집서비스 모드 중 어느 하나를 선택적으로 서비스하는 편집서비스부를 포함한다.

실시예에 있어서, 상기 편집서비스부는 상기 피드백 신호가 긍정 피드백 신호인 경우, 상기 메일정보로부터 검출되는 수신자정보의 국가정보에 따라 다국어 언어들 중 하나의 언어를 선택하고, 해당 하나의 언어에 따라 생성되는 콘텐츠영상에 대한 번역 자막을 콘텐츠영상에 적용하는 상기 번역서비스 모드를 자동으로 서비스한다.

실시예에 있어서, 상기 편집서비스부는 상기 피드백 신호가 부정 피드백 신호인 경우, 상기 영상메일 플랫폼 서비스를 통해 프레임 구간을 편집할 수 있는 컷편집 소프트웨어를 상기 사용자단말에 제공하는 상기 컷편집서비스 모드를 서비스한다.

실시예에 있어서, 상기 편집서비스부는 상기 번역서비스 모드에서 콘텐츠영상으로부터 인식된 음성데이터를 텍스트데이터로 변환할 때, 상기 텍스트데이터에서 추출되는 복수의 단어들을 기설정된 카테고리별로 분류하여 영상요약문서를 생성하고, 상기 영상요약문서는 카테고리정보가 그룹화된 목차이고, 상기 편집서비스부는 상기 영상요약문서에 기초하여, 상기 메일정보에서 누락된 카테고리정보를 추천키워드로 추천한다.

실시예에 있어서, 상기 편집서비스부는 상기 번역서비스 모드에서 콘텐츠영상으로부터 인식된 음성데이터를 텍스트데이터로 변환할 때, 상기 텍스트데이터로부터 기설정된 횟수 이상 검출되는 최대빈도 키워드를 기설정된 어순으로 조합하여 적어도 둘 이상의 섬네일 화면을 제작하고, 이를 상기 사용자단말에 제공하여 하나의 섬네일 화면을 선택받는다.

실시예에 있어서, 상기 편집서비스부는 상기 번역서비스 모드에서 콘텐츠영상으로부터 인식된 음성데이터를 텍스트데이터로 변환할 때, 상기 텍스트데이터로부터 추출되는 각 단어에 대한 감정상태를 종류별로 등급화함에 따라 선정되는 최대개수의 감정상태에 대응되는 배경음원과 배경색을 탐색하여 상기 콘텐츠영상에 적용시킨다.

실시예에 있어서, 상기 편집서비스부는 상기 콘텐츠영상으로부터 제1 언어의 음성데이터를 추출하는 음성추출부, 상기 제1 언어의 음성데이터를 재생함에 따라 출력되는 음성을 인식하여 제1 언어의 재생시간별 텍스트데이터를 생성하는 텍스트생성부, 상기 메일정보로부터 확인된 수신자 국가정보에 기초하여, 상기 제1 언어의 재생시간별 텍스트데이터를 제2 언어의 재생시간별 텍스트데이터로 번역하는 번역처리부 및 상기 제2 언어의 재생시간별 텍스트데이터를 이용하여 자막데이터를 생성하여 상기 콘텐츠영상에 합성처리하는 영상편집 관리부를 포함한다.

실시예에 있어서, 상기 영상편집 관리부는 상기 제1 언어의 음성데이터가 재생됨에 따라 감지된 음성주파수에 기초하여, 상기 콘텐츠영상의 복수의 프레임들을 음소거 구간과 음성 구간으로 분류하는 구간 분류부, 상기 음소거 구간에서 검출되는 상기 콘텐츠영상의 메인객체 움직임 정보에 기초하여, 상기 음소거 구간의 각 프레임을 삭제 프레임과 편집 프레임 중 어느 하나로 식별하는 프레임 식별부 및 상기 콘텐츠영상에서 삭제 프레임을 자동으로 제거하고, 편집 프레임을 기설정된 재생배속으로 재생시키도록 재생속도를 상기 음성 구간보다 빠르게 조절하는 자동편집부를 포함하고, 상기 프레임 식별부는 상기 음성 구간의 프레임 구간별 주제정보와 프레임 구간별 대표 메인 객체를 머신러닝을 통해 학습하여, 인공지능 기반의 중복구간 식별모델을 생성하고, 상기 중복구간 식별모델을 통해 출력되는 상기 음소거 구간의 출력확률값에 기초하여, 상기 음소거 구간을 선택적으로 삭제하며, 상기 중복구간 식별모델은 상기 음소거 구간의 프레임별 메인객체를 입력받아 해당 구간의 주제정보를 나타내는 출력확률값을 출력하는 인공 신경망이다.

본 발명의 실시예에 따르면, 콘텐츠영상이 스트리밍되는 URL정보를 생성하여 이메일로 용이하게 영상을 서비스할 수 있다.

또한, 콘텐츠영상의 해당 음성을 인식하여 다국어 자막을 수신자정보에 따라 선택적으로 변경하여 서비스할 수 있다.

도 1은 본 발명의 실시예에 따른 영상메일 플랫폼 시스템(1000)을 개략적으로 나타내는 도이다.
도 2는 도 1의 편집서비스부(400)의 실시예에 따른 블록도이다.
도 3은 도 1의 영상편집 관리부(440)의 실시예에 따른 블록도이다.

이하, 본 발명의 실시예와 도면을 참조하여 본 발명을 상세히 설명한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위해 예시적으로 제시한 것일 뿐, 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 당업계에서 통상의 지식을 가지는 자에 있어서 자명할 것이다.

또한, 달리 정의하지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어는 본 발명이 속하는 기술 분야의 숙련자에 의해 통상적으로 이해되는 바와 동일한 의미를 가지며, 상충되는 경우에는, 정의를 포함하는 본 명세서의 기재가 우선할 것이다.

도면에서 제안된 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 그리고, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에서 기술한 "부"란, 특정 기능을 수행하는 하나의 단위 또는 블록을 의미한다.

각 단계들에 있어 식별부호(제1, 제2, 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 실시될 수도 있고 실질적으로 동시에 실시될 수도 있으며 반대의 순서대로 실시될 수도 있다.

도 1은 본 발명의 실시예에 따른 영상메일 플랫폼 시스템(1000)을 개략적으로 나타내는 도이다.

도 1을 참조하여 설명하면, 영상메일 플랫폼 시스템(1000)은 등록부(100), 변환부(200), URL정보 획득부(300) 및 편집서비스부(400)를 포함할 수 있다.

먼저, 등록부(100)는 사용자단말(10)로부터 영상메일 플랫폼 서비스를 통해 입력받는 촬영영상과 메일정보를 통합하여 저장 DB(500)에 등록할 수 있다.

여기서, 영상메일 플랫폼 서비스는 웹서버(510)를 통해 사용자단말(10)에 제공되어 설치된 앱 또는 프로그램으로서, 사용자단말(10)을 통해 촬영된 촬영영상을 업로드 받거나 메일정보를 입력받아 수신자메일로 영상메일을 송신하는 웹서비스를 제공할 수 있다.

이러한 영상메일 플랫폼 서비스는 웹페이지를 통해 촬영영상과 메일정보를 텍스트, 음성녹음, 이미지촬영, 이미지 기반의 터치 입력 및 이미지 업로드 중 적어도 어느 하나의 방법을 통해 입력 및 선택받는 그래픽 유저 인터페이스로 구현될 수 있다.

이때, 메일정보는 발신자정보, 수신자정보, 메일텍스트정보를 포함할 수 있다.

다음으로, 변환부(200)는 영상메일 플랫폼 서비스에 기설정된 포맷정보에 따라, 촬영영상을 콘텐츠영상으로 변환할 수 있다.

여기서, 촬영영상은 모바일단말기를 통해 촬영되는 MP4, M4V, 3GP, 3G2, ASF, AVI, FLV, MKV, WEBM 중 어느 하나의 코덱 파일이고, 콘텐츠영상은 웹에서 스트리밍 서비스가 가능한 WMV, WMA, H.264/MPEG-4 AVC, Divx, MPEG-2-TS 중 어느 하나의 코덱 파일일 수 있다.

다음으로, URL정보 획득부(300)는 콘텐츠영상을 웹서버(510)를 통해 등록함에 따라 콘텐츠영상이 스트리밍되는 URL정보를 획득할 수 있다.

여기서, URL정보는 콘텐츠영상이 스트리밍되는 웹사이트 주소를 의미할 수 있다.

다음으로, 편집서비스부(400)는 사용자단말(10)에 URL정보를 제공함에 따라 응답받는 피드백 신호에 기초하여, 콘텐츠영상에 대한 번역서비스 모드와 컷편집서비스 모드 중 어느 하나를 선택적으로 서비스할 수 있다.

여기서, 번역서비스 모드는 콘텐츠영상에 다국어 언어들 중 어느 하나의 언어의 번역 자막을 콘텐츠영상에 자동으로 적용시키는 서비스일 수 있다.

이때, 컷편집서비스 모드는 콘텐츠영상에 대해 컷 편집을 수행하기 위하여, 영상메일 플랫폼 서비스를 통해 사용자단말(10)에 제공되는 컷편집 소프트웨어를 의미할 수 있다.

예를 들면, 컷편집 소프트웨어는 EaseUS 이지어스, VSDC, iMovie, Hitfilm Express 히트필름익스프레스, OpenShot 오픈샷, Shotcut 샷컷, DaVinci Resolve 다빈치 리졸브, Video Grabber 비디오 그래버, Blender 브랜더, Clipchamp 클립챔프 및 Kapwing 카핑 중 어느 하나일 수 있다.

일 실시예에 따라, 피드백 신호가 긍정 피드백 신호인 경우, 편집서비스부(400)는 메일정보로부터 검출되는 수신자정보의 국가정보에 따라 다국어 언어들 중 하나의 언어를 선택하고, 해당 하나의 언어에 따라 생성되는 콘텐츠영상에 대한 번역 자막을 콘텐츠영상에 적용하는 번역서비스 모드를 수행할 수 있다.

다른 실시예에 따라, 피드백 신호가 부정 피드백 신호인 경우, 편집서비스부(400)는 영상메일 플랫폼 서비스를 통해 프레임 구간을 컷편집할 수 있는 컷편집 소프트웨어를 사용자단말(10)에 제공할 수 있다.

또 다른 실시예에 따라, 편집서비스부(400)는 번역서비스 모드에서 콘텐츠영상으로부터 인식된 음성데이터를 텍스트데이터로 변환할 때, 텍스트데이터에서 추출되는 복수의 단어들을 기설정된 카테고리별로 분류하여 영상요약문서를 생성할 수 있다.

여기서, 영상요약문서는 카테고리정보가 그룹화된 목차일 수 있다.

이때, 편집서비스부(400)는 영상요약문서에 기초하여, 메일정보에서 누락된 카테고리정보를 추천키워드로 영상메일 플랫폼 서비스를 통해 사용자단말(10)에 추천할 수 있다.

또 다른 실시예에 따라, 편집서비스부(400)는 번역서비스 모드에서 콘텐츠영상으로부터 인식된 음성데이터를 텍스트데이터로 변환할 때, 텍스트데이터로부터 기설정된 횟수 이상 검출되는 최대빈도 키워드를 기설정된 어순으로 조합하여 적어도 둘 이상의 섬네일 화면을 제작할 수 있다.

이때, 편집서비스부(400)는 적어도 둘 이상의 섬네일 화면을 사용자단말(10)에 제공함에 따라 선택받는 하나의 섬네일 화면을 콘텐츠영상에 적용할 수 있다.

또 다른 실시예에 따라, 편집서비스부(400)는 번역서비스 모드에서 콘텐츠영상으로부터 인식된 음성데이터를 텍스트데이터로 변환할 때, 텍스트데이터로부터 추출되는 각 단어에 대한 감정상태를 종류별로 등급화함에 따라 최대개수의 감정상태를 선정할 수 있다.

여기서, 감정상태는 기쁨, 분노, 슬픔, 즐거움, 사랑, 증오, 두려움 등을 포함할 수 있다.

이때, 편집서비스부(400)는 최대개수의 감정상태에 대응되는 배경음원과 배경색을 웹검색 또는 저장DB(500)를 통해 탐색하고, 이를 콘텐츠영상에 적용시킬 수 있다.

이때, 편집서비스부(400)는 음원데이터에 대한 이용허락을 받기 위한 가이드 정보와 저작권이 없는 대체음원을 제안할 수 있다.

이하, 구체적인 실시예와 비교예를 통하여 본 발명의 구성 및 그에 따른 효과를 보다 상세히 설명하고자 한다. 그러나, 본 실시예는 본 발명을 보다 구체적으로 설명하기 위한 것이며, 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.

도 2는 도 1의 편집서비스부(400)의 실시예에 따른 블록도이다.

도 1과 도 2를 참조하면, 편집서비스부(400)는 음성추출부(410), 텍스트생성부(420), 번역처리부(430) 및 영상편집부(440)를 포함할 수 있다.

먼저, 음성추출부(410)는 웹서버(510)에서 스트리밍되는 콘텐츠영상으로부터 제1 언어의 음성데이터를 추출할 수 있다.

다음으로, 텍스트생성부(420)는 음성추출부(410)를 통해 추출된 제1 언어의 음성데이터를 재생함에 따라 출력되는 음성을 인식하여 제1 언어의 재생시간별 텍스트데이터를 생성할 수 있다.

다음으로, 번역처리부(430)는 메일정보로부터 확인된 수신자 국가정보에 기초하여, 텍스트생성부(420)를 통해 생성된 제1 언어의 재생시간별 텍스트데이터를 제2 언어의 재생시간별 텍스트데이터로 번역할 수 있다.

다음으로, 영상편집 관리부(440)는 제2 언어의 재생시간별 텍스트데이터를 이용하여 자막데이터를 생성하여 콘텐츠영상에 합성처리할 수 있다.

실시예에 따라, 영상편집 관리부(440)는 웹서버(510)에서 스트리밍되는 콘텐츠영상을 편집할 수 있게 하는 영상편집 프로그램 예컨대, 어도비 프리미어, 다빈치리졸, 애프터이펙트 및 파워디텍터 등을 영상메일 플랫폼 서비스를 통해 연동시켜 사용자단말(10)에 제공할 수도 있다.

도 3은 도 1의 영상편집 관리부(440)의 실시예에 따른 블록도이다.

도 1 내지 도 3을 참조하여 설명하면, 영상편집 관리부(440)는 구간 분류부(441), 프레임구간 식별부(442) 및 자동편집부(443)를 포함할 수 있다.

먼저, 구간 분류부(441)는 음성추출부(410)를 통해 추출된 제1 언어의 음성데이터가 재생됨에 따라 감지된 기설정된 음성주파수에 기초하여, 콘텐츠영상의 복수의 프레임들을 음소거 구간과 음성 구간으로 분류할 수 있다.

여기서, 기설정된 음성주파수는 100~250Hz 대역의 목소리 대역의 주파수일 수 있다.

다음으로, 프레임구간 식별부(442)는 음소거 구간에서 검출되는 콘텐츠영상의 메인객체 움직임 정보에 기초하여, 음소거 구간의 각 프레임을 삭제 프레임과 편집 프레임 중 어느 하나로 식별할 수 있다.

실시예에 따라, 프레임구간 식별부(442)는 사용자단말(10)로부터 영상편집 프로그램을 통해 요청함에 따라 입력받는 음성 구간의 프레임 구간별 주제정보와 프레임 구간별 대표 메인 객체를 머신러닝을 통해 학습하여, 인공지능 기반의 중복구간 식별모델을 생성할 수 있다.

여기서, 프레임 구간은 복수의 프레임들이 일정시간 구간마다 그룹화된 프레임 길이를 의미할 수 있다.

이때, 인공지능 기반의 중복구간 식별모델은 음소거 구간의 프레임별 메인객체를 입력받아 해당 구간의 주제정보를 나타내는 출력확률값을 출력하는 인공 신경망(artificial neural network; ANN)일 수 있다.

즉, 이러한 인공지능 기반의 중복구간 식별모델은 인공 신경 회로망(Artificial Neural Network), SVM(Support Vector Machine), 의사 결정 트리(Decision Tree) 및 랜덤 포레스트(Random Forest) 중 어느 하나의 알고리즘일 수 있다.

예를 들면, 인공 신경 회로망은 주로 딥러닝에서 사용되어 지고, 기계학습과 생물학의 신경망에서 영감을 얻은 통계학적 학습 알고리즘으로서, 특징 추출 신경망과 분류 신경망을 포함하는 컨볼루션 신경망일 수 있다. 이때, 컨볼루션 신경망은 시각적 이미지를 분석하는데 사용되는 깊고 피드포워드적인 인공 신경 회로망의 한종류로, 이미지의 특징을 추출하고 클래스를 분류하는 과정으로 나누어질 수 있고, 특정 이미지의 특징을 추출하고 추출된 특징을 기반으로 이미지를 인식할 수 있다.

구체적으로, 특징 추출 신경망은 입력 신호를 컨볼루션 계층과 풀링 계층을 차례로 쌓아 진행한다. 컨볼루션 계층은 컨볼루션 연산, 컨볼루션 필터 및 활성 함수를 포함하고 있다. 컨볼루션 필터의 계산은 대상 입력의 행렬 크기에 따라 조절되나 일반적으로 9X9 행렬을 사용한다. 활성 함수는 일반적으로 ReLU 함수, 시그모이드 함수 및 tanh 함수 등을 사용할 수 있으나 이에 한정되지는 않는다. 풀링 계층은 입력의 행렬 크기를 줄이는 역할을 하는 계층으로, 특정 영역의 픽셀을 묶어 대표값을 추출하는 방식을 사용한다. 풀링 계층의 연산에는 일반적으로 평균값이나 최대값을 많이 사용하나 이에 한정되지는 않는다. 해당 연산은 정방 행렬을 사용하여 진행되는데 일반적으로 9X9 행렬을 사용한다. 컨볼루션 계층과 풀링 계층은 해당 입력이 차이를 유지한 상태에서 충분히 작아질 때까지 번갈아 반복 진행된다.

또한, 분류 신경망은 은닉층과 출력층을 가지고 있다. 이러한 분류 신경망은 일반적으로 5개 이상의 은닉층을 포함하며, 각 은닉층의 노드는 80개로 지정할 수 있으나, 경우에 따라 그 이상으로 정하는 것도 가능하다. 은닉층의 활성 함수는 ReLU 함수, 시그모이드 함수 및 tanh 함수 등을 사용하나 이에 한정되는 것은 아니다.

또한, 프레임구간 식별부(442)는 인공지능 기반의 중복구간 식별모델을 통해 출력되는 음소거 구간의 프레임별 출력확률값에 기초하여, 음소거 구간에 대한 중복주제여부를 판단할 수 있다.

예를 들면, 음소거 구간의 프레임별 출력확률값이 기설정된 출력확률값에 대응되는 횟수가 과반수 이상인 경우, 프레임구간 식별부(442)는 음소거 구간에 대해 중복주제로 판단하여 음소거 구간을 삭제시킬 수 있다. 또한, 음소거 구간의 프레임별 출력확률값이 기설정된 출력확률값에 대응되는 횟수가 과반수 미만인 경우, 프레임구간 식별부(442)는 음소거 구간에 대해 신규주제로 판단하여 음소거 구간을 유지시킬 수 있다.

다른 실시예에 따라, 프레임구간 식별부(442)는 음소거 구간의 삭제 프레임이 일정길이 이상 연속적인 경우, 해당 삭제 프레임 구간의 기설정된 간격마다 위치한 삭제 프레임을 추출하여 GIF 파일 형태로 생성하고, 사용자단말(10)에 삭제 확인 여부를 요청할 수 있다.

다음으로, 자동편집부(443)는 콘텐츠영상에서 삭제 프레임을 자동으로 제거하고, 편집 프레임을 기설정된 재생배속으로 재생시키도록 재생속도를 음성 구간보다보다 빠르게 조절할 수 있다.

일 실시예에 따라, 자동편집부(443)는 나머지 프레임구간으로부터 검출되는 메인객체의 움직임 정보에 기초하여, 줌인 편집모드 및 줌아웃 편집모드 중 어느 하나를 통해 콘텐츠영상을 편집할 수 있다.

다른 실시예에 따라, 자동편집부(443)는 웹서버(510)에 접속되는 단말의 접속시간정보에 기초하여, 자막데이터의 스타일 종류를 자동으로 조절하여 웹서버(510)를 통해 스트리밍되도록 관리할 수 있다.

여기서, 스타일 종류는 글꼴, 크기, 메인 색상, 보조 색상, 그림자 색상, 굵기 중 어느 하나를 포함할 수 있다.

또 다른 실시예에 따라, 자동편집부(443)는 프레임 구간별 자막데이터의 글자수에 반비례하여, 영상콘텐츠에 표시된 자막의 글자크기를 조절할 수 있다.

또 다른 실시예에 따라, 자동편집부(443)는 사용자단말(10)로부터 영상메일 플랫폼 서비스를 통해 측정되는 사용자의 호흡 및 심박신호에 기초하여, 색채심리학 기반의 기설정된 치료색상을 기준으로 콘텐츠영상의 화이트밸런스를 편집할 수 있다.

본 명세서에서는 본 발명자들이 수행한 다양한 실시예 가운데 몇 개의 예만을 들어 설명하는 것이나 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고, 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

100: 등록부
200: 변환부
300: URL정보 획득부
400: 편집서비스부
1000: 영상메일 플랫폼 시스템

Claims

사용자단말로부터 영상메일 플랫폼 서비스를 통해 입력받는 촬영영상과 메일정보를 통합하여 저장 DB에 등록하는 등록부;
상기 영상메일 플랫폼 서비스에 기설정된 포맷정보에 따라, 상기 촬영영상을 콘텐츠영상으로 변환하는 변환부;
상기 콘텐츠영상을 웹서버를 통해 등록함에 따라 상기 콘텐츠영상이 스트리밍되는 URL정보를 획득하는 URL정보 획득부; 및
상기 사용자단말에 상기 URL정보를 제공함에 따라 응답받는 피드백 신호에 기초하여, 상기 콘텐츠영상에 대한 번역서비스 모드와 컷편집서비스 모드 중 어느 하나를 선택적으로 서비스하는 편집서비스부를 포함하고,
상기 편집서비스부는 상기 콘텐츠영상으로부터 제1 언어의 음성데이터를 추출하는 음성추출부;
상기 제1 언어의 음성데이터를 재생함에 따라 출력되는 음성을 인식하여 제1 언어의 재생시간별 텍스트데이터를 생성하는 텍스트생성부;
상기 메일정보로부터 확인된 수신자 국가정보에 기초하여, 상기 제1 언어의 재생시간별 텍스트데이터를 제2 언어의 재생시간별 텍스트데이터로 번역하는 번역처리부; 및
상기 제2 언어의 재생시간별 텍스트데이터를 이용하여 자막데이터를 생성하여 상기 콘텐츠영상에 합성처리하는 영상편집 관리부를 포함하고,
상기 영상편집 관리부는 상기 제1 언어의 음성데이터가 재생됨에 따라 감지된 음성주파수에 기초하여, 상기 콘텐츠영상의 복수의 프레임들을 음소거 구간과 음성 구간으로 분류하는 구간 분류부;
상기 음소거 구간에서 검출되는 상기 콘텐츠영상의 메인객체 움직임 정보에 기초하여, 상기 음소거 구간의 각 프레임을 삭제 프레임과 편집 프레임 중 어느 하나로 식별하는 프레임 식별부; 및
상기 콘텐츠영상에서 삭제 프레임을 자동으로 제거하고, 편집 프레임을 기설정된 재생배속으로 재생시키도록 재생속도를 상기 음성 구간보다 빠르게 조절하는 자동편집부를 포함하고,
상기 프레임 식별부는
상기 음성 구간의 프레임 구간별 주제정보와 프레임 구간별 대표 메인 객체를 머신러닝을 통해 학습하여, 인공지능 기반의 중복구간 식별모델을 생성하고,
상기 중복구간 식별모델을 통해 출력되는 상기 음소거 구간의 출력확률값에 기초하여, 상기 음소거 구간을 선택적으로 삭제하며,
상기 중복구간 식별모델은 상기 음소거 구간의 프레임별 메인객체를 입력받아 해당 구간의 주제정보를 나타내는 출력확률값을 출력하는 인공 신경망인, 영상메일 플랫폼 시스템.
제1항에 있어서,
상기 편집서비스부는 상기 피드백 신호가 긍정 피드백 신호인 경우,
상기 메일정보로부터 검출되는 수신자정보의 국가정보에 따라 다국어 언어들 중 하나의 언어를 선택하고, 해당 하나의 언어에 따라 생성되는 콘텐츠영상에 대한 번역 자막을 콘텐츠영상에 적용하는 상기 번역서비스 모드를 자동으로 서비스하는, 영상메일 플랫폼 시스템.
제1항에 있어서,
상기 편집서비스부는 상기 피드백 신호가 부정 피드백 신호인 경우,
상기 영상메일 플랫폼 서비스를 통해 프레임 구간을 편집할 수 있는 컷편집 소프트웨어를 상기 사용자단말에 제공하는 상기 컷편집서비스 모드를 서비스하는, 영상메일 플랫폼 시스템.
제2항에 있어서,
상기 편집서비스부는 상기 번역서비스 모드에서 콘텐츠영상으로부터 인식된 음성데이터를 텍스트데이터로 변환할 때, 상기 텍스트데이터에서 추출되는 복수의 단어들을 기설정된 카테고리별로 분류하여 영상요약문서를 생성하고,
상기 영상요약문서는 카테고리정보가 그룹화된 목차이고,
상기 편집서비스부는 상기 영상요약문서에 기초하여, 상기 메일정보에서 누락된 카테고리정보를 추천키워드로 추천하는, 영상메일 플랫폼 시스템.
제2항에 있어서,
상기 편집서비스부는 상기 번역서비스 모드에서 콘텐츠영상으로부터 인식된 음성데이터를 텍스트데이터로 변환할 때,
상기 텍스트데이터로부터 기설정된 횟수 이상 검출되는 최대빈도 키워드를 기설정된 어순으로 조합하여 적어도 둘 이상의 섬네일 화면을 제작하고, 이를 상기 사용자단말에 제공하여 하나의 섬네일 화면을 선택받는, 영상메일 플랫폼 시스템.
제2항에 있어서,
상기 편집서비스부는 상기 번역서비스 모드에서 콘텐츠영상으로부터 인식된 음성데이터를 텍스트데이터로 변환할 때,
상기 텍스트데이터로부터 추출되는 각 단어에 대한 감정상태를 종류별로 등급화함에 따라 선정되는 최대개수의 감정상태에 대응되는 배경음원과 배경색을 탐색하여 상기 콘텐츠영상에 적용시키는, 영상메일 플랫폼 시스템.
삭제
삭제