KR20230065780A

KR20230065780A - 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법, 장치 및 컴퓨터프로그램

Info

Publication number: KR20230065780A
Application number: KR1020210151703A
Authority: KR
Inventors: 이재혁
Original assignee: 주식회사 팀아이브
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2023-05-12

Abstract

인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법, 장치 및 컴퓨터프로그램이 제공된다. 본 발명의 다양한 실시예에 따른 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법은 컴퓨팅 장치에 의해 수행되는 방법에 있어서, 영상 데이터를 획득하는 단계, 기 학습된 인공지능 모델을 통해, 상기 획득된 영상 데이터를 분석하여 이벤트에 따라 복수의 샷(Shot)을 생성하고, 상기 생성된 복수의 샷을 상황별로 그룹화하여 복수의 씬(Scene)을 생성함에 따라 샷-씬의 계층적 구조로 상기 획득된 영상 데이터를 구조화하는 단계 및 상기 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 생성하는 단계를 포함한다.

Description

인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법, 장치 및 컴퓨터프로그램{METHOD, APPARATUS AND COMPUTER PROGRAM FOR STRUCTURING VIDEO USING ARTIFICIAL INTELLIGENCE MODEL AND GENERATING VIDEO CONTENTS USING VIDEO STRUCTURE}

본 발명의 다양한 실시예는 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법, 장치 및 컴퓨터프로그램에 관한 것이다.

최근 1인 미디어가 트렌드로 자리 잡으면서 ‘나만의 콘텐츠 만들기’가 단순한 취미를 넘어 ‘돈이 되는 시대’로 바뀌고 있다. 대표적인 콘텐츠 유통 채널이자 플랫폼인 유튜브를 중심으로 한 1인 방송 동영상 콘텐츠의 인기는 1인 크리에이터의 성장과 함께 기존 미디어 시장과 콘텐츠 산업을 재편하고 있다.

시장이 커지자 1인 콘텐츠 창작자들은 ‘크리에이터’로 불리며 성취감과 개인의 브랜드 가치를 얻는 데서 한 단계 더 나아가 수익을 내기에 이르렀다. 여기에 다양한 1인 미디어 지원 사업이 더해져 신입 크리에이터들도 1인 미디어 시장에 보다 쉽게 진입하고, 양질의 콘텐츠를 제작할 수 있는 환경이 됐다. 또 이렇게 제작된 콘텐츠들은 지리적, 문화적, 언어적 한계를 뛰어넘어 전 세계의 시청자들에게 사랑받고 있다.

다양한 연령대를 대상으로 설문을 수행한 결과를 보면, 20대~30대 응답자 중 46.6%의 응답자가 주 1회 이상 영상을 촬영한다고 응답하였고, 10대~60대 응답자 중 약 40%의 응답자가 영상 크리에이터로 활동할 의향이 있다고 응답한 바, 실제로 다수의 사람들이 크리에이터에 대한 관심이 높은 것을 알 수 있으나, 영상 크리에이터로 수익 창출 요건을 달성한 사용자의 수는 우리나라 인구의 0.2%에 못 미치는 등 실제로 꾸준한 영상 제작을 실천에 옮기는 사람들은 극소수에 불과한 것을 알 수 있다.

이와 같이 취미로 영상 콘텐츠를 제작하고자 하는 사람들이 실천에 옮기지 못하도록 하는 요소들은 다양하게 존재하나, 그중 가장 큰 진입 장벽이 되는 요소는 영상 편집에 오랜 시간이 소요된다는 점, 영상 편집에 대한 역량이 부족하다는 점 및 영상을 새로 촬영하는 것이 귀찮다는 점이다.

종래의 영상 편집 프로그램들의 경우, 공통적으로 1차원 타임라인 기반의 편집 UI/UX를 제공하는데, 이러한 방식의 경우, 하나의 프리뷰 화면에 의지해 1차원 타임라인을 왔다 갔다 이동하며 편집해야 한다는 문제가 있고, 별도로 스토리보드를 작성하지 않으면 프로젝트의 흐름을 파악하기 어려울 뿐만 아니라 스토리보드를 작성하는 것 자체도 부담이 된다는 문제가 있으며, 영상물의 이벤트를 일일이 탐색하며 편집점을 찾는 컷 편집 과정의 단순 노동 작업 부담이 크다는 문제가 있다.

한국등록특허 제10-1557117호 (2015.09.24)

본 발명이 해결하고자 하는 과제는 상술된 종래의 영상 편집 프로그램들이 가지는 문제점을 해소하기 위한 목적으로, 기 학습된 인공지능 모델을 이용하여 원본의 영상 데이터를 샷(Shot)-씬(Scene)의 계층적 구조로 구조화하고, 구조화된 영상 데이터를 스토리보드 형태로 사용자에게 제공함으로써, 사용자가 구조화된 영상 데이터를 이용하여 보다 수월하게 영상 콘텐츠 편집 및 생성을 할 수 있도록 하는 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법, 장치 및 컴퓨터프로그램을 제공하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법은 컴퓨팅 장치에 의해 수행되는 방법에 있어서, 영상 데이터를 획득하는 단계, 기 학습된 인공지능 모델을 통해, 상기 획득된 영상 데이터를 분석하여 이벤트에 따라 복수의 샷(Shot)을 생성하고, 상기 생성된 복수의 샷을 상황별로 그룹화하여 복수의 씬(Scene)을 생성함에 따라 샷-씬의 계층적 구조로 상기 획득된 영상 데이터를 구조화하는 단계 및 상기 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 생성하는 단계를 포함할 수 있다.

다양한 실시예에서, 상기 획득된 영상 데이터를 구조화하는 단계는, 상기 획득된 영상 데이터를 이용하여 복수의 단위 샷을 생성하는 단계, 상기 생성된 복수의 단위 샷 각각에 대하여 상호 인접한 두개의 단위 샷 과의 유사도를 산출하는 단계, 상기 산출된 유사도 중 가장 큰 값을 가지는 유사도를 추출하고, 상기 추출된 유사도가 제1 기준 값 이상인지 여부를 판단하는 단계 및 상기 추출된 유사도가 상기 제1 기준 값 이상인 것으로 판단되는 경우, 상기 추출된 유사도에 대응되는 두개의 단위 샷을 하나의 샷으로 병합하는 단계를 포함할 수 있다.

다양한 실시예에서, 상기 복수의 단위 샷을 생성하는 단계는, 상기 획득된 영상 데이터의 시작 시점을 기준으로 기 설정된 시간 간격마다 상기 획득된 영상 데이터의 잠재 벡터를 추출하고, 상기 잠재 벡터가 추출된 시점을 중심으로 소정의 길이의 영상 데이터를 추출하여 단위 샷을 생성하는 단계를 포함하며, 상기 유사도를 산출하는 단계는, 상기 상호 인접한 두개의 단위 샷 각각에 속하는 하나 이상의 잠재 벡터 간의 유사도를 이용하여, 상기 상호 인접한 두개의 단위 샷 간의 유사도를 산출하는 단계를 포함할 수 있다.

다양한 실시예에서, 상기 복수의 단위 샷을 생성하는 단계는, 상기 생성된 복수의 단위 샷 중 적어도 하나의 단위 샷에 포함된 영상 데이터의 길이가 기 설정된 길이 미만인 경우, 상기 적어도 하나의 단위 샷에 인접한 제1 단위 샷 및 제2 단위 샷과 상기 적어도 하나의 단위 샷 간의 유사도를 산출하고, 상기 산출된 유사도에 기초하여 상기 제1 단위 샷 또는 상기 제2 단위 샷과 상기 적어도 하나의 단위 샷을 하나의 단위 샷으로 병합하는 단계를 포함할 수 있다.

다양한 실시예에서, 상기 추출된 유사도에 대응되는 두개의 단위 샷을 하나의 샷으로 병합하는 단계는, 상기 추출된 유사도에 대응되는 두개의 단위 샷을 상기 하나의 샷으로 병합하되, 상기 추출된 유사도에 대응되는 두개의 단위 샷을 병합함에 따라 생성되는 상기 하나의 샷에 포함된 영상 데이터의 길이가 기준 길이 이하인 경우에만 상기 추출된 유사도에 대응되는 두개의 단위 샷을 병합하는 단계를 포함할 수 있다.

다양한 실시예에서, 상기 획득된 영상 데이터를 구조화하는 단계는, 상기 생성된 복수의 샷 각각에 대하여 상호 인접한 두개의 샷과의 유사도를 산출하는 단계, 상기 산출된 유사도 중 가장 큰 값을 가지는 유사도를 추출하고, 상기 추출된 유사도가 제2 기준 값 이상인지 여부를 판단하는 단계 및 상기 추출된 유사도가 상기 제2 기준 값 이상인 것으로 판단되는 경우, 상기 추출된 유사도에 대응되는 두개의 샷을 하나의 씬으로 병합하는 단계를 포함할 수 있다.

다양한 실시예에서, 상기 영상 콘텐츠를 생성하는 단계는, 상기 생성된 복수의 샷 및 상기 생성된 복수의 씬을 포함하는 상기 구조화된 영상 데이터를 스토리보드 형태로 출력하는 사용자 인터페이스(User Interface, UI)를 제공하는 단계, 상기 제공된 사용자 인터페이스를 통해 상기 생성된 복수의 샷 중 하나 이상의 샷을 선택하거나 상기 생성된 복수의 씬 중 하나 이상의 씬을 선택하는 사용자 입력을 획득하는 단계 및 상기 획득된 사용자 입력에 기초하여, 상기 선택된 하나 이상의 샷 및 상기 선택된 하나 이상의 씬을 결합함에 따라 상기 영상 콘텐츠를 생성하는 단계를 포함할 수 있다.

다양한 실시예에서, 상기 사용자 인터페이스를 제공하는 단계는, 상기 복수의 샷 각각에 포함된 영상 데이터를 분석하여, 상기 복수의 샷 각각에 대한 중요도를 산출하는 단계, 상기 복수의 샷 중 상기 산출된 중요도가 기준 중요도 값 이상인 적어도 하나의 샷 및 상기 적어도 하나의 샷을 포함하는 적어도 하나의 씬을 하이라이트 구간으로 설정하는 단계 및 상기 제공된 사용자 인터페이스를 통해 상기 하이라이트 구간으로 설정된 적어도 하나의 샷 및 적어도 하나의 씬을 추천하는 단계를 포함할 수 있다.

다양한 실시예에서, 상기 획득된 영상 데이터를 구조화하는 단계는, 상기 생성된 복수의 샷 및 상기 생성된 복수의 씬을 분석하여 상기 생성된 복수의 샷 및 상기 생성된 복수의 씬 각각에 대한 하나 이상의 키워드를 추출하고, 상기 추출된 하나 이상의 키워드를 상기 생성된 복수의 샷 및 상기 생성된 복수의 씬 각각에 매칭하는 단계를 포함하며, 상기 사용자 인터페이스를 제공하는 단계는, 사용자로부터 검색어를 입력받는 경우, 상기 입력된 검색어에 대응되는 키워드가 매칭된 적어도 하나의 샷 및 적어도 하나의 씬을 선택하고, 상기 선택된 적어도 하나의 샷 및 상기 선택된 적어도 하나의 씬만을 취합하여 스토리보드 형태로 상기 제공된 사용자 인터페이스 상에 출력하는 단계를 포함할 수 있다.

다양한 실시예에서, 상기 사용자 인터페이스를 제공하는 단계는, 사용자로부터 검색어를 입력받는 경우, 기 저장된 복수의 샷 및 복수의 씬 - 상기 기 저장된 복수의 샷 및 복수의 씬은 기 획득된 복수의 영상 데이터를 각각 구조화함에 따라 생성된 복수의 샷 및 복수의 씬 각각에 하나 이상의 키워드를 매칭하여 저장된 것임 - 중 상기 입력된 검색어에 대응되는 키워드가 매칭된 적어도 하나의 샷 및 적어도 하나의 씬을 선택하고, 상기 선택된 적어도 하나의 샷 및 상기 선택된 적어도 하나의 씬을 검색 결과로서 상기 제공된 사용자 인터페이스 상에 출력하는 단계를 포함하며, 상기 영상 콘텐츠를 생성하는 단계는, 상기 사용자로부터, 상기 검색 결과로서 상기 제공된 사용자 인터페이스 상에 출력된 적어도 하나의 샷 및 적어도 하나의 씬을 선택받는 경우, 상기 선택된 적어도 하나의 샷 또는 상기 선택된 적어도 하나의 씬을 상기 생성된 영상 콘텐츠 상에 추가하는 단계를 포함할 수 있다.

다양한 실시예에서, 상기 영상 콘텐츠를 생성하는 단계는, 기 학습된 개인화 모델을 이용하여 사용자에게 영상 콘텐츠 생성 가이드를 제공하되, 상기 기 학습된 가이드 모델은 복수의 사용자 각각에 대한 정보 및 상기 복수의 사용자 각각이 영상 콘텐츠를 생성하는 과정에서 수집되는 복수의 로그 데이터를 학습 데이터로 하여 기 학습된 모델인, 단계 및 상기 사용자가 상기 제공된 영상 콘텐츠 생성 가이드에 따라 상기 영상 콘텐츠를 생성함에 따라 수집되는 로그 데이터와 상기 사용자에 대한 정보를 학습 데이터로 하여 상기 기 학습된 가이드 모델을 재학습시키는 단계를 포함할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성장치는 프로세서, 네트워크 인터페이스, 메모리 및 상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되, 상기 컴퓨터 프로그램은, 영상 데이터를 획득하는 인스트럭션(instruction), 기 학습된 인공지능 모델을 통해 상기 획득된 영상 데이터를 분석하여 이벤트에 따라 복수의 샷(Shot)을 생성하고, 상기 생성된 복수의 샷을 상황별로 그룹화하여 복수의 씬(Scene)을 생성함에 따라 샷-씬의 계층적 구조로 상기 획득된 영상 데이터를 구조화하는 인스트럭션 및 상기 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 생성하는 인스트럭션을 포함할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터프로그램은 컴퓨팅 장치와 결합되어, 영상 데이터를 획득하는 단계, 기 학습된 인공지능 모델을 통해 상기 획득된 영상 데이터를 분석하여 이벤트에 따라 복수의 샷(Shot)을 생성하고, 상기 생성된 복수의 샷을 상황별로 그룹화하여 복수의 씬(Scene)을 생성함에 따라 샷-씬의 계층적 구조로 상기 획득된 영상 데이터를 구조화하는 단계 및 상기 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 생성하는 단계를 포함하는 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법을 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장될 수 있다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 다양한 실시예에 따르면, 기 학습된 인공지능 모델을 이용하여 원본의 영상 데이터를 샷(Shot)-씬(Scene)의 계층적 구조로 구조화하고, 구조화된 영상 데이터를 스토리보드 형태로 사용자에게 제공하며, 사용자가 구조화된 영상 데이터를 이용하여 영상 콘텐츠 편집 및 생성하도록 함으로써, 반복되는 단순 노동 작업을 간소화해 영상 편집에 소요되는 시간을 크게 절감할 수 있고, 시각화된 편집 UI와 간단한 조작 몇 번으로 영상을 완성할 수 있다는 점에서 초보자들도 쉽게 이용할 수 있으며, 이벤트를 탐색하고 편집점을 도출하는 작업의 부담이 거의 없어 평소에 기획 없이 촬영한 영상물을 활용하기 용이하다는 이점이 있다.

또한, 스토리보드 형태로 구조화된 영상 데이터를 출력하는 UI를 통해 단순한 동작(예: 스토리보드에서 재생되는 샷/씬의 썸네일을 보고 원하는 샷/씬을 선택하는 동작 또는 영상을 재생하며 선택/선택 해제 버튼을 탭하는 동작)을 입력하는 것 만으로 영상 콘텐츠를 편집함으로써, 이벤트 시작점, 끝점을 찾지 않아도 자동으로 해당 장면들이 포함된 샷/씬을 포함하는 영상 콘텐츠를 생성할 수 있다는 이점이 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 시스템을 도시한 도면이다.
도 2는 본 발명의 다른 실시예에 따른 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 장치의 하드웨어 구성도이다.
도 3은 본 발명의 또 다른 실시예에 따른 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법의 순서도이다.
도 4는 다양한 실시예에서, 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 시스템의 온디맨드(on-demand) 프로세스를 도시한 도면이다.
도 5는 다양한 실시예에서, 영상 데이터를 분석하여 복수의 샷을 생성하는 방법의 순서도이다.
도 6은 다양한 실시예에서, 복수의 샷을 그룹화하여 복수의 씬을 생성하는 방법의 순서도이다.
도 7은 다양한 실시예에서, 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 생성하는 방법의 순서도이다.
도 8은 다양한 실시예에서, 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 시스템의 백그라운드(Background) 프로세스를 도시한 도면이다.
도 9 내지 14는 다양한 실시예에서, 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 장치가 제공하는 사용자 인터페이스(User Interface, UI)를 도시한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다.

공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.

본 명세서에서, 컴퓨터는 적어도 하나의 프로세서를 포함하는 모든 종류의 하드웨어 장치를 의미하는 것이고, 실시 예에 따라 해당 하드웨어 장치에서 동작하는 소프트웨어적 구성도 포괄하는 의미로서 이해될 수 있다. 예를 들어, 컴퓨터는 스마트폰, 태블릿 PC, 데스크톱, 노트북 및 각 장치에서 구동되는 사용자 클라이언트 및 애플리케이션을 모두 포함하는 의미로서 이해될 수 있으며, 또한 이에 제한되는 것은 아니다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

본 명세서에서 설명되는 각 단계들은 컴퓨터에 의하여 수행되는 것으로 설명되나, 각 단계의 주체는 이에 제한되는 것은 아니며, 실시 예에 따라 각 단계들의 적어도 일부가 서로 다른 장치에서 수행될 수도 있다.

도 1은 본 발명의 일 실시예에 따른 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 시스템을 도시한 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 시스템은 영상 콘텐츠 생성 장치(100), 사용자 단말(200), 외부 서버(300) 및 네트워크(400)를 포함할 수 있다.

여기서, 도 1에 도시된 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 시스템은 일 실시예에 따른 것이고, 그 구성 요소가 도 1에 도시된 실시예에 한정되는 것은 아니며, 필요에 따라 부가, 변경 또는 삭제될 수 있다.

일 실시예에서, 영상 콘텐츠 생성 장치(100)(이하, "컴퓨팅 장치(100)")는 사용자로부터 업로드된 영상 데이터에 대하여, 자동으로 영상 데이터의 흐름을 파악해 스토리보드를 생성하고, 생성된 스토리보드를 사용자에게 제공함으로써, 사용자가 보다 쉽고 편리하게 영상 편집 및 제작할 수 있는 맥락기반 스토리보드형 편집 플랫폼을 제공할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 네트워크(400)를 통해 사용자 단말(200)과 연결될 수 있고, 사용자 단말(200)로부터 원본의 영상 데이터를 업로드 받을 수 있으며, 기 학습된 인공지능 모델을 통해 업로드된 영상 데이터를 분석 및 구조화할 수 있고, 구조화된 영상 데이터를 스토리보드 형태로 출력하는 사용자 인터페이스(User Interface, UI)(예: 도 9 내지 14)를 제공함으로써, 사용자가 UI를 통해 보다 쉽고 편리하게 영상을 편집 및 제작할 수 있도록 보조할 수 있다.

여기서, 인공지능 모델(또는 연산 모델, 신경망, 네트워크 함수, 뉴럴 네트워크(neural network))은 하나 이상의 네트워크 함수로 구성되며, 하나 이상의 네트워크 함수는 일반적으로 ‘노드’라 지칭될 수 있는 상호 연결된 계산 단위들의 집합으로 구성될 수 있다. 이러한 ‘노드’들은 ‘뉴런(neuron)’들로 지칭될 수도 있다. 하나 이상의 네트워크 함수는 적어도 하나 이상의 노드들을 포함하여 구성된다. 하나 이상의 네트워크 함수를 구성하는 노드(또는 뉴런)들은 하나 이상의 ‘링크’에 의해 상호 연결될 수 있다.

인공지능 모델 내에서, 링크를 통해 연결된 하나 이상의 노드들은 상대적으로 입력 노드 및 출력 노드의 관계를 형성할 수 있다. 입력 노드 및 출력 노드의 개념은 상대적인 것으로서, 하나의 노드에 대하여 출력 노드 관계에 있는 임의의 노드는 다른 노드와의 관계에서 입력 노드 관계에 있을 수 있으며, 그 역도 성립할 수 있다. 전술한 바와 같이, 입력 노드 대 출력 노드 관계는 링크를 중심으로 생성될 수 있다. 하나의 입력 노드에 하나 이상의 출력 노드가 링크를 통해 연결될 수 있으며, 그 역도 성립할 수 있다.

하나의 링크를 통해 연결된 입력 노드 및 출력 노드 관계에서, 출력 노드는 입력 노드에 입력된 데이터에 기초하여 그 값이 결정될 수 있다. 여기서 입력 노드와 출력 노드를 상호 연결하는 노드는 가중치(weight)를 가질 수 있다. 가중치는 가변적일 수 있으며, 인공지능 모델이 원하는 기능을 수행하기 위해, 사용자 또는 알고리즘에 의해 가변될 수 있다. 예를 들어, 하나의 출력 노드에 하나 이상의 입력 노드가 각각의 링크에 의해 상호 연결된 경우, 출력 노드는 상기 출력 노드와 연결된 입력 노드들에 입력된 값들 및 각각의 입력 노드들에 대응하는 링크에 설정된 가중치에 기초하여 출력 노드 값을 결정할 수 있다.

전술한 바와 같이, 인공지능 모델은 하나 이상의 노드들이 하나 이상의 링크를 통해 상호연결 되어 인공지능 모델 내에서 입력 노드 및 출력 노드 관계를 형성한다. 인공지능 모델 내에서 노드들과 링크들의 개수 및 노드들과 링크들 사이의 연관관계, 링크들 각각에 부여된 가중치의 값에 따라, 인공지능 모델의 특성이 결정될 수 있다. 예를 들어, 동일한 개수의 노드 및 링크들이 존재하고, 링크들 사이의 가중치 값이 상이한 두 인공지능 모델이 존재하는 경우, 두 개의 인공지능 모델들은 서로 상이한 것으로 인식될 수 있다.

인공지능 모델을 구성하는 노드들 중 일부는, 최초 입력 노드로부터의 거리들에 기초하여, 하나의 레이어(layer)를 구성할 수 있다. 예를 들어, 최초 입력 노드로부터 거리가 n인 노드들의 집합은, n 레이어를 구성할 수 있다. 최초 입력 노드로부터 거리는, 최초 입력 노드로부터 해당 노드까지 도달하기 위해 거쳐야 하는 링크들의 최소 개수에 의해 정의될 수 있다. 그러나, 이러한 레이어의 정의는 설명을 위한 임의적인 것으로서, 인공지능 모델 내에서 레이어의 차수는 전술한 것과 상이한 방법으로 정의될 수 있다. 예를 들어, 노드들의 레이어는 최종 출력 노드로부터 거리에 의해 정의될 수도 있다.

최초 입력 노드는 인공지능 모델 내의 노드들 중 다른 노드들과의 관계에서 링크를 거치지 않고 데이터가 직접 입력되는 하나 이상의 노드들을 의미할 수 있다. 또는, 인공지능 모델 네트워크 내에서, 링크를 기준으로 한 노드 간의 관계에 있어서, 링크로 연결된 다른 입력 노드들 가지지 않는 노드들을 의미할 수 있다. 이와 유사하게, 최종 출력 노드는 인공지능 모델 내의 노드들 중 다른 노드들과의 관계에서, 출력 노드를 가지지 않는 하나 이상의 노드들을 의미할 수 있다. 또한, 히든 노드는 최초 입력 노드 및 최후 출력 노드가 아닌 인공지능 모델을 구성하는 노드들을 의미할 수 있다. 본 개시의 일 실시예에 따른 인공지능 모델은 입력 레이어의 노드가 출력 레이어에 가까운 히든 레이어의 노드보다 많을 수 있으며, 입력 레이어에서 히든 레이어로 진행됨에 따라 노드의 수가 감소하는 형태의 인공지능 모델일 수 있다.

인공지능 모델은 하나 이상의 히든 레이어를 포함할 수 있다. 히든 레이어의 히든 노드는 이전의 레이어의 출력과 주변 히든 노드의 출력을 입력으로 할 수 있다. 각 히든 레이어 별 히든 노드의 수는 동일할 수도 있고 상이할 수도 있다. 입력 레이어의 노드의 수는 입력 데이터의 데이터 필드의 수에 기초하여 결정될 수 있으며 히든 노드의 수와 동일할 수도 있고 상이할 수도 있다. 입력 레이어에 입력된 입력 데이터는 히든 레이어의 히든 노드에 의하여 연산될 수 있고 출력 레이어인 완전 연결 레이어(FCL: fully connected layer)에 의해 출력될 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 인공지능 모델을 학습시키기 위한 학습 데이터를 구축할 수 있고, 구축된 학습 데이터를 이용하여 교사 학습(supervised learning), 비교사 학습(unsupervised learning), 및 반교사학습(semi supervised learning) 중 적어도 하나의 방식으로 인공지능 모델을 학습시킬 수 있다.

인공지능 모델의 학습은 출력의 오류를 최소화하기 위한 것이다. 인공지능 모델의 학습에서 반복적으로 학습 데이터를 인공지능 모델에 입력시키고 학습 데이터에 대한 인공지능 모델의 출력과 타겟의 에러를 계산하고, 에러를 줄이기 위한 방향으로 인공지능 모델의 에러를 인공지능 모델의 출력 레이어에서부터 입력 레이어 방향으로 역전파(backpropagation)하여 인공지능 모델의 각 노드의 가중치를 업데이트 하는 과정이다.

교사 학습의 경우 각각의 학습 데이터에 정답이 레이블링 되어있는 학습 데이터를 사용하며(즉, 레이블링된 학습 데이터), 비교사 학습의 경우는 각각의 학습 데이터에 정답이 레이블링 되어 있지 않을 수 있다. 즉, 예를 들어 데이터 분류에 관한 교사 학습의 경우의 학습 데이터는 학습 데이터 각각에 카테고리가 레이블링 된 데이터 일 수 있다. 레이블링된 학습 데이터가 인공지능 모델에 입력되고, 인공지능 모델의 출력(카테고리)과 학습 데이터의 레이블을 비교함으로써 오류(error)가 계산될 수 있다.

다른 예로, 데이터 분류에 관한 비교사 학습의 경우 입력인 학습 데이터가 인공지능 모델 출력과 비교됨으로써 오류가 계산될 수 있다. 계산된 오류는 인공지능 모델에서 역방향(즉, 출력 레이어에서 입력 레이어 방향)으로 역전파 되며, 역전파에 따라 인공지능 모델의 각 레이어의 각 노드들의 연결 가중치가 업데이트 될 수 있다. 업데이트 되는 각 노드의 연결 가중치는 학습률(learning rate)에 따라 변화량이 결정될 수 있다.

입력 데이터에 대한 인공지능 모델의 계산과 에러의 역전파는 학습 사이클(epoch)을 구성할 수 있다. 학습률은 인공지능 모델의 학습 사이클의 반복 횟수에 따라 상이하게 적용될 수 있다. 예를 들어, 인공지능 모델의 학습 초기에는 높은 학습률을 사용하여 인공지능 모델이 빠르게 일정 수준의 성능을 확보하도록 하여 효율성을 높이고, 학습 후기에는 낮은 학습률을 사용하여 정확도를 높일 수 있다.

인공지능 모델의 학습에서 일반적으로 학습 데이터는 실제 데이터(즉, 학습된 인공지능 모델을 이용하여 처리하고자 하는 데이터)의 부분집합일 수 있으며, 따라서, 학습 데이터에 대한 오류는 감소하나 실제 데이터에 대해서는 오류가 증가하는 학습 사이클이 존재할 수 있다. 과적합(overfitting)은 이와 같이 학습 데이터에 과하게 학습하여 실제 데이터에 대한 오류가 증가하는 현상이다. 예를 들어, 노란색 고양이를 보여 고양이를 학습한 인공지능 모델이 노란색 이외의 고양이를 보고는 고양이임을 인식하지 못하는 현상이 과적합의 일종일 수 있다.

과적합은 머신러닝 알고리즘의 오류를 증가시키는 원인으로 작용할 수 있다. 이러한 과적합을 막기 위하여 다양한 최적화 방법이 사용될 수 있다. 과적합을 막기 위해서는 학습 데이터를 증가시키거나, 레귤라이제이션(regularization), 학습의 과정에서 네트워크의 노드 일부를 생략하는 드롭아웃(dropout) 등의 방법이 적용될 수 있다.

일 실시예에서, 사용자 단말(200)은 네트워크(400)를 통해 컴퓨팅 장치(100)와 연결될 수 있으며, 컴퓨팅 장치(100)로 제공된 UI를 통해 영상 데이터를 업로드한 것에 대응하여, 스토리보드 형태의 구조화된 영상 데이터를 제공받을 수 있다.

다양한 실시예에서, 사용자 단말(200)은 컴퓨팅 장치(100)로부터 제공된 UI를 출력하기 위해 적어도 일부분에 디스플레이를 포함하며, 애플리케이션 형태로 구현된 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 프로세스를 구동하기 위한 운영 체제를 포함하는 스마트폰(Smart-phone)일 수 있으나, 이에 한정되지 않고, 사용자 단말(200)은 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트 패드(Smartpad), 타블렛PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.

여기서, 네트워크(400)는 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷(WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등이 포함될 수 있다.

또한, 무선 데이터 통신망은 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), 5GPP(5th Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), RF(Radio Frequency), 블루투스(Bluetooth) 네트워크, NFC(Near-Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으나, 이에 한정되지는 않는다.

일 실시예에서, 외부 서버(300)는 네트워크(400)를 통해 컴퓨팅 장치(100)와 연결될 수 있으며, 컴퓨팅 장치(100)가 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 프로세스를 제공하기 위해 필요한 각종 정보/데이터 또는 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 프로세스를 제공함에 따라 생성되는 각종 정보/데이터를 저장 및 관리할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 프로세스를 구동하는 클라우드 컴퓨팅 서버일 수 있으며, 외부 서버(300)는 클라우드 컴퓨팅 서버 외부에 별도로 구비되는 클라우드 스토리지 서버일 수 있다. 그러나, 이에 한정되지 않는다. 이하, 도 2를 참조하여, 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 프로세스를 제공하는 컴퓨팅 장치(100)의 하드웨어 구성에 대해 설명하도록 한다.

도 2는 본 발명의 다른 실시예에 따른 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 장치의 하드웨어 구성도이다.

도 2를 참조하면, 다양한 실시예에서, 컴퓨팅 장치(100)는 하나 이상의 프로세서(110), 프로세서(110)에 의하여 수행되는 컴퓨터 프로그램(151)을 로드(Load)하는 메모리(120), 버스(130), 통신 인터페이스(140) 및 컴퓨터 프로그램(151)을 저장하는 스토리지(150)를 포함할 수 있다. 여기서, 도 2에는 본 발명의 실시예와 관련 있는 구성요소들만 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 2에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.

프로세서(110)는 컴퓨팅 장치(100)의 각 구성의 전반적인 동작을 제어한다. 프로세서(110)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다.

또한, 프로세서(110)는 본 발명의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있으며, 컴퓨팅 장치(100)는 하나 이상의 프로세서를 구비할 수 있다.

다양한 실시예에서, 프로세서(110)는 프로세서(110) 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서(110)는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.

메모리(120)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(120)는 본 발명의 다양한 실시예에 따른 방법/동작을 실행하기 위하여 스토리지(150)로부터 컴퓨터 프로그램(151)을 로드할 수 있다. 메모리(120)에 컴퓨터 프로그램(151)이 로드되면, 프로세서(110)는 컴퓨터 프로그램(151)을 구성하는 하나 이상의 인스트럭션들을 실행함으로써 상기 방법/동작을 수행할 수 있다. 메모리(120)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.

버스(130)는 컴퓨팅 장치(100)의 구성 요소 간 통신 기능을 제공한다. 버스(130)는 주소 버스(address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.

통신 인터페이스(140)는 컴퓨팅 장치(100)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(140)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(140)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다. 몇몇 실시예에서, 통신 인터페이스(140)는 생략될 수도 있다.

스토리지(150)는 컴퓨터 프로그램(151)을 비 임시적으로 저장할 수 있다. 컴퓨팅 장치(100)를 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 프로세스를 수행하는 경우, 스토리지(150)는 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 프로세스를 제공하기 위하여 필요한 각종 정보를 저장할 수 있다.

스토리지(150)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

컴퓨터 프로그램(151)은 메모리(120)에 로드될 때 프로세서(110)로 하여금 본 발명의 다양한 실시예에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(110)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 발명의 다양한 실시예에 따른 상기 방법/동작을 수행할 수 있다.

일 실시예에서, 컴퓨터 프로그램(151)은 영상 데이터를 획득하는 단계, 기 학습된 인공지능 모델을 통해, 획득된 영상 데이터를 분석하여 이벤트에 따라 복수의 샷(Shot)을 생성하고, 생성된 복수의 샷을 상황별로 그룹화하여 복수의 씬(Scene)을 생성함에 따라 샷-씬의 계층적 구조로 획득된 영상 데이터를 구조화하는 단계 및 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 생성하는 단계를 포함하는 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법을 수행하도록 하는 하나 이상의 인스트럭션을 포함할 수 있다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

본 발명의 구성 요소들은 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 애플리케이션)으로 구현되어 매체에 저장될 수 있다. 본 발명의 구성 요소들은 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있으며, 이와 유사하게, 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 이하, 도 3 내지 14를 참조하여, 컴퓨팅 장치(100)가 수행하는 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 프로세스에 대해 설명하도록 한다.

도 3은 본 발명의 또 다른 실시예에 따른 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법의 순서도이며, 도 4는 다양한 실시예에서, 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 시스템의 온디맨드(on-demand) 프로세스를 도시한 도면이다.

도 3 및 4를 참조하면, S110 단계에서, 컴퓨팅 장치(100)는 사용자로부터 영상 데이터를 획득할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 네트워크(400)를 통해 사용자 단말(200)과 연결될 수 있으며, 사용자 단말(200)로 UI를 제공할 수 있고, UI를 통해 영상 데이터를 업로드 받을 수 있다. 그러나, 이에 한정되지 않는다.

S120 단계에서, 컴퓨팅 장치(100)는 S110 단계를 거쳐 획득한 영상 데이터를 구조화할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 기 학습된 인공지능 모델을 통해 사용자로부터 획득한 영상 데이터를 분석함으로써, 이벤트에 따라 복수의 샷(Shot)을 생성할 수 있고, 복수의 샷을 상황별로 그룹화하여 복수의 씬(Scene)을 생성할 수 있으며, 이를 통해 사용자로부터 획득한 영상 데이터가 샷-씬의 계층적 구조를 가지도록 구조화할 수 있다.

여기서, 기 학습된 인공지능 모델은 딥러닝 모델로서, 분석하고자 하는 영상 데이터의 각 구간에 무슨 액션이 포함되어 있는지를 분류하기 위하여 Action Classification 모델 학습을 수행한 모델일 수 있다. 이하, 도 5 및 6을 참조하여, 영상 데이터를 구조화하는 방법에 대해 설명하도록 한다.

도 5는 다양한 실시예에서, 영상 데이터를 분석하여 복수의 샷을 생성하는 방법의 순서도이다.

도 5를 참조하면, S210 단계에서, 컴퓨팅 장치(100)는 사용자로부터 획득한 영상 데이터를 이용하여 복수의 단위 샷을 생성할 수 있다.

먼저, 컴퓨팅 장치(100)는 복수의 샷을 생성하기에 앞서, 영상 데이터의 구간별로 콘텐츠의 유사도가 높은 지점들끼리 잠재 벡터의 거리가 가까운 잠재 공간으로 맵핑을 수행함으로써, 후술되는 잠재 벡터 간의 유사도가 곧 콘텐츠의 유사도를 의미하도록 사전에 구축할 수 있다.

이후, 컴퓨팅 장치(100)는 기 학습된 인공지능 모델의 인코더를 이용하여 영상 데이터의 시작 시점을 기준으로 기 설정된 시간 간격마다 영상 데이터의 잠재 벡터를 추출할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 사용자로부터 획득된 영상 데이터의 길이가 30초인 경우, 0초부터 30초까지의 영상 데이터를 0.25초 간격마다 잠재 벡터를 추출 즉, 총 120개의 잠재 벡터를 추출할 수 있다.

이후, 컴퓨팅 장치(100)는 잠재 벡터가 추출된 시점을 중심으로 소정의 길이의 영상 데이터를 추출하여 단위 샷을 생성할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 잠재 벡터가 추출된 시점(t)을 중심으로 약 2초 길이의 영상 데이터(예: t-1~t+1의 영상 데이터)를 추출할 수 있고, 2초 길이의 영상 데이터를 하나의 단위 샷으로 정의할 수 있다.

즉, 복수의 단위 샷 각각을 2초 길이의 영상 데이터로 구성되며, 복수의 단위 샷 각각은 (0.25*n -1)초~(0.25*n + 1)초 구간의 영상 데이터를 포함할 수 있다(여기서, n은 잠재 벡터의 추출 순서). 예를 들어, 10번째 단위 샷(n=10)의 경우, 30초 길이의 전체 영상 데이터 중 1.5초~3.5초 구간의 영상 데이터를 포함하는 것이고, 11번째 단위 샷(n=11)의 경우, 30초 길이의 전체 영상 데이터 중 1.75초~3.75초 구간의 영상 데이터를 포함하는 것을 의미할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 상기의 방법에 따라 생성된 복수의 단위 샷 중 적어도 하나의 단위 샷에 포함된 영상 데이터의 길이가 기 설정된 길이 미만인 경우, 적어도 하나의 단위 샷에 인접한 제1 단위 샷 및 제2 단위 샷과 적어도 하나의 단위 샷 간의 유사도를 산출하고, 산출된 유사도에 기초하여 제1 단위 샷 또는 제2 단위 샷과 적어도 하나의 단위 샷을 하나의 단위 샷으로 병합할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 2번째 단위 샷에 포함된 영상 데이터의 길이가 기 설정된 길이인 1초 미만인 경우, 2번째 단위 샷과 1번째 단위 샷과 2번째 단위 샷 간의 유사도 및 2번째 단위 샷과 3번째 단위 샷 간의 유사도를 산출할 수 있고, 산출된 결과에 따라 높은 유사도를 가지는 단위 샷과 병합할 수 있다.

S220 단계에서, 컴퓨팅 장치(100)는 S210 단계를 거쳐 생성된 복수의 단위 샷 각각에 대하여 상호 인접한 두개의 단위 샷 간과의 유사도를 산출할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 상호 인접한 두개의 단위 샷 각각에 속하는 하나 이상의 잠재 벡터 간의 유사도를 이용하여, 상호 인접한 두개의 단위 샷 간의 유사도를 산출할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 상호 인접한 제1 단위 샷 및 제2 단위 샷에 대하여, 제1 단위 샷에 속하는 복수의 제1 잠재 벡터와 제2 단위 샷에 속하는 복수의 제2 잠재 벡터 간의 유사도를 산출할 수 있고, 복수의 제1 잠재 벡터와 복수의 제1 잠재 벡터 간의 유사도 평균값을 산출함으로써, 제1 단위 샷 및 제2 단위 샷 간의 유사도로서 산출할 수 있다.

여기서, 서로 다른 잠재 벡터 간의 유사도 산출 방법은 Cosine similarity, Laplacian kernel 등과 같은 커널 함수를 이용하는 산출할 수 있고, 서로 다른 단위 샷 간의 유사도 산출 방법은 상기와 같이 잠재 벡터들의 pairwise 유사도 평균을 통해 산출할 수 있으나, 이에 한정되지 않고, 다른 범용적인 방법들이 적용될 수 있다.

S230 단계에서, 컴퓨팅 장치(100)는 S220 단계를 거쳐 산출된 복수의 유사도 중 가장 큰 값을 가지는 유사도를 추출할 수 있고, 추출된 유사도가 제1 기준 값 이상인지 여부를 판단할 수 있다.

여기서, 제1 기준 값은 동일한 이벤트를 포함하는 영상 데이터끼리 하나의 샷으로 병합하기 위한 기준이 되는 값으로, 사용자 또는 컴퓨팅 장치(100)가 제공하는 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 프로세스의 관리자로부터 사전에 설정된 값일 수 있다.

S240 단계에서, 컴퓨팅 장치(100)는 S230 단계를 거쳐 판단한 결과, 가장 큰 값을 가지는 유사도가 제1 기준 값 이상인 것으로 판단되는 경우, 가장 큰 값을 가지는 유사도에 대응되는 두개의 단위 샷을 하나의 샷으로 병합할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 가장 높은 유사도 값이 제1 기준 값 이상이고, 가장 높은 유사도 값에 대응되는 두개의 단위 샷이 10번째 단위 샷(30초 길이의 전체 영상 데이터 중 1.5초~3.5초 구간의 영상 데이터를 포함하는 단위 샷)과 11번째 단위 샷(30초 길이의 전체 영상 데이터 중 1.75초~3.75초 구간의 영상 데이터를 포함하는 단위 샷)인 경우, 10번째 단위 샷과 11번째 단위 샷을 병합함으로써, 30초 길이의 전체 영상 데이터 중 1.5초~3.75초 구간의 영상 데이터를 포함하는 단위 샷을 생성할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 가장 큰 값을 가지는 유사도가 제1 기준 값 이상인 것으로 판단되는 경우, 가장 큰 값을 가지는 유사도에 대응되는 두개의 단위 샷을 하나의 샷으로 병합하되, 두개의 단위 샷을 병합함에 따라 생성되는 하나의 샷에 포함된 영상 데이터의 길이가 기준 길이 이하인 경우에만 두개의 단위 샷을 병합할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 두개의 단위 샷을 병합함에 따라 생성된 영상 데이터의 길이가 5초 미만인 경우에만 두개의 단위 샷을 병합할 수 있고, 5초 이상이 될 경우 두개의 단위 샷을 병합하지 않을 수 있다.

이후, 컴퓨팅 장치(100)는 가장 큰 값의 유사도가 제1 기준 값 미만인 상황이 발생할 때까지 S220 단계 내지 S240 단계를 반복 수행할 수 있다. 이를 통해, 컴퓨팅 장치(100)는 피사체의 행동, 카메라 움직임 변화 등의 이벤트 구간을 기준으로 1~5초 길이의 영상 데이터를 포함하는 복수의 샷을 생성할 수 있다.

한편, 컴퓨팅 장치(100)는 S230 단계를 거쳐 판단한 결과, 가장 큰 값을 가지는 유사도가 제1 기준 값 미만인 것으로 판단되는 경우, 복수의 샷 생성 동작을 종료하고 복수의 씬 생성 동작(예; 도 6의 S310 내지 S330 단계)을 수행할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 후술되는 S130 단계를 거쳐 사용자가 영상 콘텐츠를 편집 및 제작하는 과정에서, 상기의 방법을 거쳐 생성된 복수의 샷을 분할하거나 병합하는 로그 데이터가 수집되는 경우, 수집되는 로그 데이터를 이용하여 인공지능 모델을 재학습시킬 수 있다. 예를 들어, 컴퓨팅 장치(100)는 상기의 방법을 거쳐 생성된 제1 샷에 대하여 사용자로부터 제1 샷을 제1-1 샷 및 제1-2 샷으로 분할하는 로그 데이터를 수집하는 경우, 제1-1 샷에 대응되는 잠재 벡터와 제1-2 샷에 대응되는 잠재 벡터의 거리가 멀어지도록 매핑된 잠재 공간을 보정하는 형태로 학습(예: 영상의 잠재 벡터를 받아 각 시점별로 샷의 전환지점인지 분류하는 binary cross-entropy loss를 최소화하도록 학습)시킴으로써, 인공지능 모델의 샷 생성 기능의 성능을 향상시킬 수 있다.

도 6은 다양한 실시예에서, 복수의 샷을 그룹화하여 복수의 씬을 생성하는 방법의 순서도이다.

도 6을 참조하면, S310 단계에서, 컴퓨팅 장치(100)는 영상 데이터를 분석함으로써 생성된 복수의 샷 각각에 대하여, 상호 인접한 두개의 샷 간의 유사도를 산출할 수 있다.

여기서, 두개의 샷 간의 유사도를 산출하는 방식은, 도 5의 S220 단계에서 컴퓨팅 장치(100)에 의해 수행되는 유사도 산출 방식(두개의 단위 샷 간의 유사도 산출 방식)과 동일 또는 유사한 형태로 구현될 수 있다. 예를 들어, 컴퓨팅 장치(100)는 상호 인접한 두개의 샷에 대하여, 두개의 샷 각각에 속하는 잠재 벡터들 간의 유사도를 산출하고, 산출된 유사도의 평균값을 산출함으로써, 두개의 샷 간의 유사도를 산출할 수 있으나, 이에 한정되지 않는다.

S320 단계에서, 컴퓨팅 장치(100)는 S310 단계를 거쳐 산출된 복수의 유사도 중 가장 큰 값을 가지는 유사도를 추출할 수 있고, 추출된 유사도가 제2 기준 값 이상인지 여부를 판단할 수 있다.

여기서, 제2 기준 값은 동일한 상황을 포함하는 영상 데이터끼리 하나의 씬으로 병합하기 위한 기준이 되는 값으로, 사용자 또는 컴퓨팅 장치(100)가 제공하는 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 프로세스의 관리자로부터 사전에 설정된 값일 수 있다. 또한, 여기서, 제2 기준 값은 제1 기준 값보다 작은 크기로 설정될 수 있으나, 이에 한정되지 않는다.

S330 단계에서, 컴퓨팅 장치(100)는 S320 단계를 거쳐 판단한 결과, 가장 큰 값을 가지는 유사도가 제2 기준 값 이상인 것으로 판단되는 경우, 가장 큰 값을 가지는 유사도에 대응되는 두개의 샷을 하나의 씬으로 병합할 수 있다.

여기서, 두개의 샷을 병합하여 하나의 씬을 생성하는 것은, 두개의 샷을 하나의 씬으로 그룹화함으로써 두개의 샷을 하나의 씬에 포함시키되, 두개의 샷 각각에 포함된 영상 데이터를 독립적으로 유지하는 것을 의미할 수 있으나, 이에 한정되지 않고, 두개의 샷에 포함된 영상 데이터를 타임 시퀀스에 따라 연결함으로써 하나의 영상 데이터를 생성하는 것일 수 있다.

또한, 본 발명의 다양한 실시예에 따른 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법에서, 컴퓨팅 장치(100)는 두개의 단위 샷을 병합하는 과정에서는 병합에 따라 생성된 영상 데이터의 길이가 제1 기준 길이(예: 5초) 이하가 되도록 하는 조건을 설정해둠으로써, 이벤트별로 샷을 보다 정밀하게 세분화하는 것에 반해, 두개의 샷을 병합하는 과정에서는 제1 기준 길이보다 긴 제2 기준 길이 이하가 되도록 조건을 설정하거나, 길이에 대한 조건을 설정하지 않음으로써, 미세한 차이로 인해 너무 많은 씬이 생성되어 영상 편집 및 제작에 불편함을 야기하는 것을 방지할 수 있다.

이후, 컴퓨팅 장치(100)는 가장 큰 값의 유사도가 제2 기준 값 미만인 상황이 발생할 때까지 S310 단계 내지 S330 단계를 반복 수행할 수 있다. 이를 통해, 컴퓨팅 장치(100)는 같은 상황에 속하는 여러 개의 샷들을 묶어 씬으로 구성할 수 있다.

한편, 컴퓨팅 장치(100)는 S320 단계를 거쳐 판단한 결과, 가장 큰 값을 가지는 유사도가 제2 기준 값 미만인 것으로 판단되는 경우, 복수의 씬 생성 동작을 종료 즉, 영상 데이터를 구조화하는 동작(예: 도 3의 S120 단계)을 종료하고, 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 편집 및 제작할 수 있도록 사용자에게 구조화된 영상 데이터를 제공할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 후술되는 S130 단계를 거쳐 사용자가 영상 콘텐츠를 편집 및 제작하는 과정에서, 상기의 방법을 거쳐 생성된 복수의 씬을 분할하거나 병합하는 로그 데이터(예: 특정 씬에 포함된 특정 샷을 다른 씬으로 내보내거나, 다른 씬에 포함된 특정 샷을 가져오는 로그 데이터)가 수집되는 경우, 수집되는 로그 데이터를 이용하여 인공지능 모델을 재학습시킬 수 있다.

다시, 도 3을 참조하면, 다양한 실시예에서, 컴퓨팅 장치(100)는 상기의 방법에 따라 생성된 복수의 샷 및 복수의 씬 각각에 포함된 영상 데이터를 분석하여, 복수의 샷 및 복수의 씬 각각에 대한 하나 이상의 키워드를 추출할 수 있고, 추출된 하나 이상의 키워드를 복수의 샷 및 복수의 씬 각각에 매칭할 수 있다. 여기서, 하나 이상의 키워드는 영상 데이터의 맥락에 관한 정보를 포함하는 것일 수 있다. 예를 들어, 컴퓨팅 장치(100)는 복수의 샷 및 복수의 씬 각각에 포함된 영상 데이터를 분석함으로써, 복수의 샷 및 복수의 씬 각각에 포함된 영상 데이터에 포함된 등장인물, 피사체, 동작, 상황 등과 같이 맥락에 관한 하나 이상의 키워드를 추출할 수 있고, 추출된 키워드를 각각의 샷 및 씬에 매칭함으로써, 추후, 키워드나 문장의 쿼리,필터링을 통해 원하는 맥락의 샷이나 씬을 검색할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 복수의 샷 각각에 포함된 영상 데이터를 분석하여, 복수의 샷 각각에 대한 키워드를 추출하여 복수의 샷 각각에 매칭할 수 있다. 또한, 컴퓨팅 장치(100)는 복수의 씬 각각에 포함된 적어도 하나의 샷에 매칭된 키워드를 이용하여 복수의 씬 각각에 대한 키워드를 설정할 수 있고, 설정된 키워드를 복수의 씬 각각에 매칭할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 복수의 샷 및 복수의 씬 각각에 포함된 영상 데이터를 분석하여 키워드를 추출하되, 복수의 샷 각각에 포함된 영상 데이터를 분석하여 이벤트와 관련된 제1 키워드를 추출할 수 있고, 복수의 씬 각각에 포함된 영상 데이터를 분석하여 상황과 관련된 제2 키워드를 추출할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 상기와 같이 하나 이상의 키워드가 매칭된 복수의 샷 및 복수의 씬을 별도의 저장 공간 상에 저장함으로써, 필요에 따라 쿼리, 필터링을 통해 기 저장된 샷 또는 씬을 검색하여 활용할 수 있도록 할 수 있다.

S130 단계에서, 컴퓨팅 장치(100)는 S120 단계를 거쳐 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 생성할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 구조화된 영상 데이터를 출력하는 UI(예: 도 9 내지 14의 10)을 제공할 수 있고, UI(10)를 통해 사용자로부터 획득한 사용자 입력을 이용하여 영상 콘텐츠를 생성할 수 있다. 이하, 도 7 내지 14를 참조하여 설명하도록 한다.

도 7은 다양한 실시예에서, 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 생성하는 방법의 순서도이고, 도 8은 다양한 실시예에서, 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 시스템의 백그라운드(Background) 프로세스를 도시한 도면이며, 도 9 내지 14는 다양한 실시예에서, 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 장치가 제공하는 사용자 인터페이스(User Interface, UI)를 도시한 도면이다.

도 7 내지 14를 참조하면, S410 단계에서, 컴퓨팅 장치(100)는 사용자 단말(200)로 구조화된 영상 데이터를 출력하는 UI(10)을 제공할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 도 9 내지 11에 도시된 바와 같이 샷-씬의 계층적 구조로 구조화됨으로써 복수의 샷(11) 및 복수의 씬(12)을 포함하는 구조화된 영상 데이터를 스토리보드 형태로 출력하는 UI(10)을 제공할 수 있다.

이때, 컴퓨팅 장치(100)는 UI(10) 상에 출력된 복수의 샷(11) 및 복수의 씬(12) 각각에 포함된 영상 데이터가 어떤 이벤트를 담고 있는지, 어떤 상황을 담고 있는지를 직관적으로 알 수 있도록 영상 데이터의 특정 프레임을 썸네일로서 추출하고, 추출된 썸네일을 UI(10) 상에 표시할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 복수의 샷 각각에 포함된 영상 데이터를 분석하여, 복수의 샷 각각에 대한 중요도를 산출할 수 있고, 산출된 중요도에 기초하여, UI(10)를 통해 사용자에게 적어도 하나의 샷 및 적어도 하나의 씬을 추천할 수 있다.

먼저, 컴퓨팅 장치(100)는 복수의 샷 각각에 포함된 영상 데이터를 분석함으로써, 복수의 샷 각각에 대한 중요도를 산출할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 기 학습된 중요도 산출 모델을 이용하여, 특정 샷에 포함된 영상 데이터에 대응되는 잠재 벡터들(예: 기 설정된 시간 간격인 0.25초마다 추출된 잠재 벡터들)의 중요도를 0 내지 1 범위의 값으로 산출할 수 있고, 산출된 잠재 벡터들의 중요도 값의 평균을 산출하여 특정 샷에 대한 중요도를 산출할 수 있다.

여기서, 기 학습된 중요도 산출 모델은 Ranking loss의 학습 방법에 따라 학습된 모델을 의미할 수 있다.

보다 구체적으로, 기 학습된 중요도 산출 모델은 영상의 주요 장르에 대하여 positive 샘플(조회수가 높고 짧은 길이를 가지는 영상 샘플, 중요한 구간만을 포함하는 영상 샘플)과 Unlabeled 샘플(조회수가 낮고 긴 길이를 가지는 영상 샘플, 중요한 구간과 안중요한 구간을 모두 포함하는 영상 샘플)을 학습 데이터로 하여 학습된 모델일 수 있다.

또한, 기 학습된 중요도 산출 모델은 Positive 샘플의 예측 점수가 Unlabeled 샘플의 예측 점수보다 높도록 Ranking loss를 부여하고, Unlabeled 샘플 영상 안에서도 중요한 구간을 추출하도록 regularization loss 부여하는 형태의 손실 함수(Loss function)을 적용할 수 있다.

또한, 기 학습된 중요도 산출 모델은 학습 데이터의 양이 제한적일 때에는 영상 각각의 장르를 반영하여 중요도를 산출할 수 있도록 주요 장르별로 각각 독립적인 모델에 학습시킬 수 있고, 학습 데이터의 양이 많아지고 장르의 수가 많아지게 될 경우, 독립적인 모델들을 통합할 수 있다.

이후, 컴퓨팅 장치(100)는 복수의 샷 중 중요도가 기준 중요도 값 이상인 적어도 하나의 샷 또는 중요도가 기준 중요도 이상인 적어도 하나의 샷을 포함하는 적어도 하나의 씬을 하이라이트 구간으로 설정할 수 있다.

이후, 컴퓨팅 장치(100)는 UI(10)를 통해 하이라이트 구간으로 설정된 적어도 하나의 샷 및 적어도 하나의 씬을 사용자에게 추천할 수 있다. 여기서, 적어도 하나의 샷 및 적어도 하나의 씬을 추천하는 방식은, UI(10) 상에서 적어도 하나의 샷 및 적어도 하나의 씬에 대응되는 영역에 별도의 이펙트(effect)를 부여하거나, 적어도 하나의 샷 및 적어도 하나의 씬만을 출력하는 별도의 팝업창을 띄우거나 또는 후술되는 S420 단계에서 획득하는 사용자 입력과 관계없이 영상 콘텐츠에 포함시키기 위하여 적어도 하나의 샷 및 적어도 하나의 씬을 자동적으로 선택하는 방식 등 다양한 방식이 적용될 수 있다.

S420 단계에서, 컴퓨팅 장치(100)는 UI(10)를 통해 복수의 샷(11) 중 하나 이상의 샷(11)을 선택하거나 복수의 씬(12) 중 하나 이상의 씬을 선택하는 사용자 입력을 획득할 수 있다.

여기서, 사용자 입력은 UI(10)가 출력되어 있는 디스플레이 상에 특정 샷 또는 특정 씬에 대응되는 위치를 터치함으로써, 특정 샷 또는 특정 씬을 선택하거나, 기 선택된 특정 샷 또는 특정 씬의 선택을 해제하는 터치 입력일 수 있으나, 이에 한정되지 않는다.

다양한 실시예에서, 컴퓨팅 장치(100)는 사용자로부터 획득한 사용자 입력에 따른 복수의 샷 및 복수의 씬 선택 이력에 기초하여, 선택되지 않은 복수의 샷 및 복수의 씬 중 어느 하나의 샷 및 어느 하나의 씬을 추천할 수 있다. 예를 들어, 다소 긴 길이의 영상 데이터를 편집할 경우, 사용자가 실수로 중요한 이벤트가 있는 샷이나 중요한 상황의 씬을 놓쳐 선택하지 못하는 경우가 발생되는 바, 사용자로부터 선택된 샷들과 씬들에 대응하는 키워드를 이용하여, 선택되지 못한 샷, 씬들 중 해당 키워드가 매칭된 샷, 씬들을 추천 제공할 수 있고, 이를 통해 중요한 영상 데이터가 누락되는 것을 방지할 수 있다.

S430 단계에서, 컴퓨팅 장치(100)는 S420 단계를 거쳐 획득한 사용자 입력에 기초하여, 영상 콘텐츠를 생성할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 도 12에 도시된 바와 같이, 복수의 샷 및 복수의 씬 중 사용자 입력에 기초하여 사용자로부터 선택된 하나 이상의 샷 및 하나 이상의 씬만을 결합함으로써, 영상 콘텐츠를 생성할 수 있다.

여기서, 하나 이상의 샷과 하나 이상의 씬은 사용자로부터 선택된 순서에 따라 결합하거나 또는 하나 이상의 샷 및 하나 이상의 씬 각각에 포함된 영상 데이터의 타임 시퀀스에 기초하여 결합할 수 있으나, 이에 한정되지 않는다.

다양한 실시예에서, 컴퓨팅 장치(100)는 영상 콘텐츠를 생성한 이후에 사용자로부터 기 선택된 복수의 샷 및 복수의 씬 중 특정 샷 또는 특정 씬에 대하여 선택을 해제하는 사용자 입력을 획득하는 경우, 영상 데이터에 포함된 복수의 샷 및 복수의 씬 중 선택이 해제된 특정 샷 또는 특정 씬에 대응하는 영상 데이터를 제거할 수 있다. 또한, 컴퓨팅 장치(100)는 영상 콘텐츠를 생성한 이후에 사용자로부터 선택되지 않았던 특정 샷 또는 특정 씬에 대한 선택하는 사용자 입력을 획득하는 경우, 특정 샷 또는 특정 씬에 대응하는 영상 데이터를 기 생성된 영상 콘텐츠에 추가할 수 있다.

종래의 영상 편집 프로그램들의 경우, 영상 데이터 내에서 필요없는 구간을 제거한 후에 제거된 구간을 다시 추가하기 위해서는 영상 데이터를 재편집하는 등 다소 번거로운 과정을 거쳐야 하는 반면, 컴퓨팅 장치(100)는 비교적 단순한 동작(선택/선택 해제)만으로 영상 콘텐츠를 생성할 수 있을 뿐만 아니라 영상 데이터가 생성된 이후에도 보다 간편하고 자유롭게 샷 또는 씬을 추가, 제거할 수 있다는 이점이 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 사용자로부터 검색어를 입력받는 경우, 입력된 검색어에 대응되는 키워드가 매칭된 적어도 하나의 샷 및 적어도 하나의 씬을 선택하고, 선택된 적어도 하나의 샷 적어도 하나의 씬만을 취합하여 스토리보드 형태로 UI(10) 상에 출력할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 도 13에 도시된 바와 같이, 사용자로부터 UI(10)의 검색바(13)를 통해 "고양이"를 입력받는 경우, 사용자로부터 획득된 영상 데이터를 구조화함에 따라 생성된 복수의 샷 및 복수의 씬 중 "고양이"의 키워드가 매칭된 적어도 하나의 샷과 적어도 하나의 씬을 선택함으로써, 고양이가 포함된 영상 데이터만을 선택할 수 있고, 이를 취합하여 하나의 화면 상에 출력함으로써, 사용자가 고양이가 포함된 영상 데이터만을 모아서 볼 수 있도록 한다.

이때, 컴퓨팅 장치(100)는 사용자로부터 고양이가 포함된 영상 데이터를 포함하는 특정 샷 또는 특정 씬에 대한 편집 로그 데이터와 함께 일괄 적용 요청을 입력받는 경우, 편집 로그 데이터를 이용하여 사용자의 요청에 따라 고양이가 포함된 영상 데이터를 포함하는 모든 샷 및 씬("고양이"의 키워드가 매칭된 적어도 하나의 샷과 적어도 하나의 씬)에 동일한 편집 효과를 적용시킬 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 사용자로부터 검색어를 입력받는 경우, 기 저장된 복수의 샷 및 복수의 씬(예: 특정 사용자로부터 기 획득된 복수의 영상 데이터를 각각 구조화함에 따라 생성된 복수의 샷 및 복수의 씬 각각에 하나 이상의 키워드를 매칭하여 저장된 것) 중 입력된 검색어에 대응되는 키워드가 매칭된 적어도 하나의 샷 및 적어도 하나의 씬을 선택하고, 선택된 적어도 하나의 샷 및 적어도 하나의 씬을 검색 결과로서 UI(10) 상에 출력할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 도 14에 도시된 바와 같이, 사용자로부터 UI(10)의 검색바(13)를 통해 "고양이"를 입력받는 경우, 현재 UI(10) 상에 출력된 복수의 샷 및 복수의 씬이 아닌, 별도의 저장 공간에 기 저장된 복수의 샷 및 복수의 씬 중 "고양이"의 키워드가 매칭된 적어도 하나의 샷과 적어도 하나의 씬을 선택할 수 있고, 이를 검색 결과로서 화면 상에 출력할 수 있다.

또한, 컴퓨팅 장치(100)는 사용자로부터, 검색 결과로 제공된 적어도 하나의 샷 및 적어도 하나의 씬을 선택받는 경우, 적어도 하나의 샷 또는 적어도 하나의 씬을 사용자가 생성한 영상 콘텐츠 상에 추가할 수 있다. 이를 통해, 사용자는 자신이 현재 업로드한 영상 데이터를 이용하여 영상 콘텐츠를 편집 및 생성할 뿐만 아니라, 과거에 이용했었던 샷 및 씬을 보다 편리하게 활용할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 사용자로부터 획득한 영상 데이터를 구조화함에 따라 생성된 복수의 샷 및 복수의 씬을 분석함으로써 추출된 복수의 키워드를 이용하여 사용자에게 하나 이상의 키워드를 추천 검색어로서 제공할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 복수의 샷 및 복수의 씬을 분석함에 따라 추출된 복수의 키워드를 추출된 횟수에 따라 내림차순 정렬할 수 있고, 정렬된 복수의 키워드 중 상위 n개의 키워드를 추천 검색어로서 사용자에게 제공할 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 기 학습된 개인화 모델을 이용하여 사용자에게 영상 콘텐츠 생성 가이드를 제공할 수 있다.

여기서, 영상 콘텐츠 생성 가이드는 영상 콘텐츠를 편집 및 생성하는 과정을 가이드하는 정보로서, 편집 및 생성의 방향성 안내, 영상 데이터 각각에 대하여 적용하면 좋을 자막이나 효과, 추가하면 좋을 것으로 판단되는 샷 또는 씬 등을 안내하는 정보일 수 있으나, 이에 한정되지 않는다.

또한, 여기서, 기 학습된 개인화 모델은 특정 사용자에 대한 정보, 특정 사용자가 영상 콘텐츠를 생성하는 과정에서 수집되는 로그 데이터들을 학습 데이터로 하여 기 학습된 모델이며, 복수의 사용자 각각에 대해 개인화된 정보를 제공하기 위하여, 복수의 사용자 각각에 대한 학습 데이터를 개별적으로 학습한 모델일 수 있다.

또한, 컴퓨팅 장치(100)는 사용자가 영상 콘텐츠 생성 가이드에 따라 영상 콘텐츠를 생성함에 따라 수집되는 로그 데이터와 사용자에 대한 정보를 학습 데이터로 하여 기 학습된 가이드 모델을 재학습시킴으로써, 개인화 모델의 성능을 지속적으로 향상시킬 수 있다.

다양한 실시예에서, 컴퓨팅 장치(100)는 사용자로부터 획득한 영상 데이터를 구조화함에 따라 생성된 복수의 샷 및 복수의 씬을 분석함으로써 추출된 복수의 키워드를 이용하여, 사용자에게 영상 콘텐츠 생성 가이드를 제공할 수 있다. 예를 들어, 컴퓨팅 장치(100)는 복수의 샷 및 복수의 씬을 분석함에 따라 추출된 복수의 키워드의 과반수 이상이 동물과 관련된 키워드 많은 경우, 사용자가 동물과 관련된 영상 콘텐츠를 생성함에 있어서 빈번하게 사용한 영상 편집 효과(예: 자막, 배경음악, 필터 등) 및 편집 방식을 영상 콘텐츠 생성 가이드로서 제공하거나, 복수의 사용자들이 동물과 관련된 영상 콘텐츠를 생성함에 있어서 빈번하게 사용한 영상 편집 효과나 편집 방식을 영상 콘텐츠 생성 가이드로서 제공할 수 있다.

전술한 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법은 도면에 도시된 순서도를 참조하여 설명하였다. 간단한 설명을 위해 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법은 일련의 블록들로 도시하여 설명하였으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 본 명세서에 도시되고 시술된 것과 상이한 순서로 수행되거나 또는 동시에 수행될 수 있다. 또한, 본 명세서 및 도면에 기재되지 않은 새로운 블록이 추가되거나, 일부 블록이 삭제 또는 변경된 상태로 수행될 수 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

100 : 영상 콘텐츠 생성 장치(컴퓨팅 장치)
200 : 사용자 단말
300 : 외부 서버
400 : 네트워크

Claims

컴퓨팅 장치에 의해 수행되는 방법에 있어서,
영상 데이터를 획득하는 단계;
기 학습된 인공지능 모델을 통해, 상기 획득된 영상 데이터를 분석하여 이벤트에 따라 복수의 샷(Shot)을 생성하고, 상기 생성된 복수의 샷을 상황별로 그룹화하여 복수의 씬(Scene)을 생성함에 따라 샷-씬의 계층적 구조로 상기 획득된 영상 데이터를 구조화하는 단계; 및
상기 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 생성하는 단계를 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법.
제1항에 있어서,
상기 획득된 영상 데이터를 구조화하는 단계는,
상기 획득된 영상 데이터를 이용하여 복수의 단위 샷을 생성하는 단계;
상기 생성된 복수의 단위 샷 각각에 대하여 상호 인접한 두개의 단위 샷 과의 유사도를 산출하는 단계;
상기 산출된 유사도 중 가장 큰 값을 가지는 유사도를 추출하고, 상기 추출된 유사도가 제1 기준 값 이상인지 여부를 판단하는 단계; 및
상기 추출된 유사도가 상기 제1 기준 값 이상인 것으로 판단되는 경우, 상기 추출된 유사도에 대응되는 두개의 단위 샷을 하나의 샷으로 병합하는 단계를 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법.
제2항에 있어서,
상기 복수의 단위 샷을 생성하는 단계는,
상기 획득된 영상 데이터의 시작 시점을 기준으로 기 설정된 시간 간격마다 상기 획득된 영상 데이터의 잠재 벡터를 추출하고, 상기 잠재 벡터가 추출된 시점을 중심으로 소정의 길이의 영상 데이터를 추출하여 단위 샷을 생성하는 단계를 포함하며,
상기 유사도를 산출하는 단계는,
상기 상호 인접한 두개의 단위 샷 각각에 속하는 하나 이상의 잠재 벡터 간의 유사도를 이용하여, 상기 상호 인접한 두개의 단위 샷 간의 유사도를 산출하는 단계를 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법.
제2항에 있어서,
상기 복수의 단위 샷을 생성하는 단계는,
상기 생성된 복수의 단위 샷 중 적어도 하나의 단위 샷에 포함된 영상 데이터의 길이가 기 설정된 길이 미만인 경우, 상기 적어도 하나의 단위 샷에 인접한 제1 단위 샷 및 제2 단위 샷과 상기 적어도 하나의 단위 샷 간의 유사도를 산출하고, 상기 산출된 유사도에 기초하여 상기 제1 단위 샷 또는 상기 제2 단위 샷과 상기 적어도 하나의 단위 샷을 하나의 단위 샷으로 병합하는 단계를 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법.
제2항에 있어서,
상기 추출된 유사도에 대응되는 두개의 단위 샷을 하나의 샷으로 병합하는 단계는,
상기 추출된 유사도에 대응되는 두개의 단위 샷을 상기 하나의 샷으로 병합하되, 상기 추출된 유사도에 대응되는 두개의 단위 샷을 병합함에 따라 생성되는 상기 하나의 샷에 포함된 영상 데이터의 길이가 기준 길이 이하인 경우에만 상기 추출된 유사도에 대응되는 두개의 단위 샷을 병합하는 단계를 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법.
제1항에 있어서,
상기 획득된 영상 데이터를 구조화하는 단계는,
상기 생성된 복수의 샷 각각에 대하여 상호 인접한 두개의 샷과의 유사도를 산출하는 단계;
상기 산출된 유사도 중 가장 큰 값을 가지는 유사도를 추출하고, 상기 추출된 유사도가 제2 기준 값 이상인지 여부를 판단하는 단계; 및
상기 추출된 유사도가 상기 제2 기준 값 이상인 것으로 판단되는 경우, 상기 추출된 유사도에 대응되는 두개의 샷을 하나의 씬으로 병합하는 단계를 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법.
제1항에 있어서,
상기 영상 콘텐츠를 생성하는 단계는,
상기 생성된 복수의 샷 및 상기 생성된 복수의 씬을 포함하는 상기 구조화된 영상 데이터를 스토리보드 형태로 출력하는 사용자 인터페이스(User Interface, UI)를 제공하는 단계;
상기 제공된 사용자 인터페이스를 통해 상기 생성된 복수의 샷 중 하나 이상의 샷을 선택하거나 상기 생성된 복수의 씬 중 하나 이상의 씬을 선택하는 사용자 입력을 획득하는 단계; 및
상기 획득된 사용자 입력에 기초하여, 상기 선택된 하나 이상의 샷 및 상기 선택된 하나 이상의 씬을 결합함에 따라 상기 영상 콘텐츠를 생성하는 단계를 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법.
제7항에 있어서,
상기 사용자 인터페이스를 제공하는 단계는,
상기 복수의 샷 각각에 포함된 영상 데이터를 분석하여, 상기 복수의 샷 각각에 대한 중요도를 산출하는 단계;
상기 복수의 샷 중 상기 산출된 중요도가 기준 중요도 값 이상인 적어도 하나의 샷 및 상기 적어도 하나의 샷을 포함하는 적어도 하나의 씬을 하이라이트 구간으로 설정하는 단계; 및
상기 제공된 사용자 인터페이스를 통해 상기 하이라이트 구간으로 설정된 적어도 하나의 샷 및 적어도 하나의 씬을 추천하는 단계를 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법.
제7항에 있어서,
상기 획득된 영상 데이터를 구조화하는 단계는,
상기 생성된 복수의 샷 및 상기 생성된 복수의 씬을 분석하여 상기 생성된 복수의 샷 및 상기 생성된 복수의 씬 각각에 대한 하나 이상의 키워드를 추출하고, 상기 추출된 하나 이상의 키워드를 상기 생성된 복수의 샷 및 상기 생성된 복수의 씬 각각에 매칭하는 단계를 포함하며,
상기 사용자 인터페이스를 제공하는 단계는,
사용자로부터 검색어를 입력받는 경우, 상기 입력된 검색어에 대응되는 키워드가 매칭된 적어도 하나의 샷 및 적어도 하나의 씬을 선택하고, 상기 선택된 적어도 하나의 샷 및 상기 선택된 적어도 하나의 씬만을 취합하여 스토리보드 형태로 상기 제공된 사용자 인터페이스 상에 출력하는 단계를 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법.
제7항에 있어서,
상기 사용자 인터페이스를 제공하는 단계는,
사용자로부터 검색어를 입력받는 경우, 기 저장된 복수의 샷 및 복수의 씬 - 상기 기 저장된 복수의 샷 및 복수의 씬은 기 획득된 복수의 영상 데이터를 각각 구조화함에 따라 생성된 복수의 샷 및 복수의 씬 각각에 하나 이상의 키워드를 매칭하여 저장된 것임 - 중 상기 입력된 검색어에 대응되는 키워드가 매칭된 적어도 하나의 샷 및 적어도 하나의 씬을 선택하고, 상기 선택된 적어도 하나의 샷 및 상기 선택된 적어도 하나의 씬을 검색 결과로서 상기 제공된 사용자 인터페이스 상에 출력하는 단계를 포함하며,
상기 영상 콘텐츠를 생성하는 단계는,
상기 사용자로부터, 상기 검색 결과로서 상기 제공된 사용자 인터페이스 상에 출력된 적어도 하나의 샷 및 적어도 하나의 씬을 선택받는 경우, 상기 선택된 적어도 하나의 샷 또는 상기 선택된 적어도 하나의 씬을 상기 생성된 영상 콘텐츠 상에 추가하는 단계를 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법.
제1항에 있어서,
상기 영상 콘텐츠를 생성하는 단계는,
기 학습된 개인화 모델을 이용하여 사용자에게 영상 콘텐츠 생성 가이드를 제공하되, 상기 기 학습된 가이드 모델은 복수의 사용자 각각에 대한 정보 및 상기 복수의 사용자 각각이 영상 콘텐츠를 생성하는 과정에서 수집되는 복수의 로그 데이터를 학습 데이터로 하여 기 학습된 모델인, 단계; 및
상기 사용자가 상기 제공된 영상 콘텐츠 생성 가이드에 따라 상기 영상 콘텐츠를 생성함에 따라 수집되는 로그 데이터와 상기 사용자에 대한 정보를 학습 데이터로 하여 상기 기 학습된 가이드 모델을 재학습시키는 단계를 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법.
프로세서;
네트워크 인터페이스;
메모리; 및
상기 메모리에 로드(load)되고, 상기 프로세서에 의해 실행되는 컴퓨터 프로그램을 포함하되,
상기 컴퓨터 프로그램은,
영상 데이터를 획득하는 인스트럭션(instruction);
기 학습된 인공지능 모델을 통해 상기 획득된 영상 데이터를 분석하여 이벤트에 따라 복수의 샷(Shot)을 생성하고, 상기 생성된 복수의 샷을 상황별로 그룹화하여 복수의 씬(Scene)을 생성함에 따라 샷-씬의 계층적 구조로 상기 획득된 영상 데이터를 구조화하는 인스트럭션; 및
상기 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 생성하는 인스트럭션을 포함하는,
인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성장치.
컴퓨팅 장치와 결합되어,
영상 데이터를 획득하는 단계;
기 학습된 인공지능 모델을 통해 상기 획득된 영상 데이터를 분석하여 이벤트에 따라 복수의 샷(Shot)을 생성하고, 상기 생성된 복수의 샷을 상황별로 그룹화하여 복수의 씬(Scene)을 생성함에 따라 샷-씬의 계층적 구조로 상기 획득된 영상 데이터를 구조화하는 단계; 및
상기 구조화된 영상 데이터를 이용하여 영상 콘텐츠를 생성하는 단계를 포함하는 인공지능 모델을 이용한 영상물 구조화 및 이를 이용한 영상 콘텐츠 생성 방법을 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장된,
컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터프로그램.