WO2024091085A1

WO2024091085A1 - 영상에 기초한 참조 장면 생성 방법 및 참조 장면 생성 장치

Info

Publication number: WO2024091085A1
Application number: PCT/KR2023/016941
Authority: WO
Inventors: 권석면; 김유석
Original assignee: 주식회사 일만백만
Priority date: 2022-10-27
Filing date: 2023-10-27
Publication date: 2024-05-02
Also published as: KR102633528B1; KR20240059602A

Abstract

본 개시의 일 실시예에 따른 영상에 기초한 참조 장면 생성 방법은, 영상을 디코딩하여 상기 영상을 구성하는 프레임들을 획득하고, 재생 시간 간격을 기준으로 상기 프레임들을 샘플링하는 단계; 상기 샘플링된 프레임에서 특징 정보를 추출하고 상기 추출된 특징 정보를 이용하여 장면이 전환되었는지를 판단하는 단계; 및 상기 판단 결과, 장면이 전환된 것으로 판단된 경우, 장면이 변환된 시점을 기준으로 참조 장면을 생성하는 단계를 포함할 수 있다.

Description

영상에 기초한 참조 장면 생성 방법 및 참조 장면 생성 장치

본 개시는 영상에 기초한 참조 장면 생성 방법 및 참조 장면 생성 장치에 관한 것이다. 보다 구체적으로 영상에서 장면 전환 시점을 검출하고, 검출된 시점을 기준으로 영상을 분할함으로써, 참조 장면을 생성할 수 있는 참조 장면 생성 방법 및 참조 장면 생성 장치에 관한 것이다.

광고주가 인터넷에서 광고를 하려면 동영상 광고, 배너 광고및 플래시 광고 등을 별도로 제작해야만 한다.

그런데 광고를 제작하는데에는 시간과 비용이 많이 들기 때문에 다양한 상품을 보유한 광고주(예: 대기업, TV 홈쇼핑, 온라인 쇼핑몰 등)의 경우, 전체 상품들 중 일부 대표 상품에 한정하여 광고를 제작하거나 특정 상품에 국한되지 않는 회원 가입 광고, 브랜드 홍보 광고, 및/또는 할인 광고 등을 제작한다.

그러나, 온라인 광고의 경우 시청 대상이 되는 인터넷 사용자들이 다양하고, 각종 프로모션의 조건이 시시각각으로 변하기 때문에 개별 상품의 온라인 광고를 제작하는데 어려움이 있다.

예를 들면, 오늘의 신상품, 오늘 마감 상품, 타임 특가 상품 등의 경우 프로모션의 조건이 시간의 제약을 받고 있으므로 해당 상품의 광고를 제작하는데 어려움이 있다.

본 개시가 해결하고자 하는 과제는 영상에서 장면 전환 시점을 검출하고, 검출된 시점을 기준으로 영상을 분할함으로써, 참조 장면을 생성할 수 있는 참조 장면 생성 방법 및 참조 장면 생성 장치를 제공하는 것이다.

본 개시가 해결하고자 하는 과제가 상술한 과제로 제한되는 것은 아니며, 언급되지 아니한 과제들은 본 명세서 및 첨부된 도면으로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 개시의 일 실시예에 따른 영상에 기초한 참조 장면 생성 장치는, 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서로 하여금 동작들(Operations)을 실행하도록 구성된 명령어들(instructions)을 포함하는 메모리;를 포함하되, 상기 동작들은, 영상을 디코딩하여 상기 영상을 구성하는 프레임들을 획득하고, 재생 시간 간격을 기준으로 상기 프레임들을 샘플링하는 것; 상기 샘플링된 프레임에서 특징 정보를 추출하고 상기 추출된 특징 정보를 이용하여 장면이 전환되었는지를 판단하는 것; 및 상기 판단 결과, 장면이 전환된 것으로 판단된 경우, 장면이 변환된 시점을 기준으로 참조 장면을 생성하는 것;을 포함할 수 있다.

본 개시의 기술적 해결방법이 상술한 기술적 해결방법들로 제한되는 것은 아니며, 언급되지 아니한 기술적 해결방법들은 본 명세서 및 첨부된 도면으로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 개시의 실시예에 따른 참조 장면 생성 방법 및 참조 장면 생성 장치에 의하면, 영상을 장면 단위로 분할하여 복수의 참조 장면을 생성하고, 각 참조 장면에 태그를 할당함으로써, 동영상 자동 생성 장치로부터 키워드가 수신되는 경우, 키워드에 해당하는 태그가 할당된 참조 장면을 동영상 자동 생성 장치로 제공할 수 있다.

도 1은 본 개시의 일 실시예에 따른 동영상 자동 생성 시스템을 도시한 도면이다.

도 2는 본 개시의 일 실시예에 따른 동영상 자동 생성 장치를 도시한 도면이다.

도 3은 본 개시의 일 실시예에 따른 참조 장면 생성 장치를 도시한 도면이다.

도 4 내지 7은 본 개시의 일 실시예에 따른 참조 장면 생성 장치의 동작을 설명하기 위한 도면들이다.

도 8은 본 개시의 일 실시예에 따른 참조 장면 생성 방법을 도시한 순서도이다.

본 개시의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통해 보다 분명해질 것이다. 다만, 본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예들을 가질 수 있는 바, 이하에서는 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.

명세서 전체에 걸쳐서 동일한 참조번호들은 원칙적으로 동일한 구성요소들을 나타낸다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명하며, 이에 대한 중복되는 설명은 생략하기로 한다.

본 개시와 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 이하의 실시예에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.

도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타낸 것으로, 본 개시가 반드시 도시된 바에 한정되지 않는다.

어떤 실시예가 달리 구현 가능한 경우에 특정한 프로세스의 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 프로세스가 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.

이하의 실시예에서, 구성 요소 등이 연결되었다고 할 때, 구성 요소들이 직접적으로 연결된 경우뿐만 아니라 구성요소들 중간에 구성 요소들이 개재되어 간접적으로 연결된 경우도 포함한다.

예컨대, 본 명세서에서 구성 요소 등이 전기적으로 연결되었다고 할 때, 구성 요소 등이 직접 전기적으로 연결된 경우뿐만 아니라, 그 중간에 구성 요소 등이 개재되어 간접적으로 전기적 연결된 경우도 포함한다.

이하에서는 도 1 내지 도 8을 참조하여 본 개시의 예시적인 실시예에 따른, 영상에 기초한 참조 장면 생성 방법 및 참조 장면 생성 장치에 관하여 설명한다.

도 1을 참조하면, 동영상 자동 생성 시스템은 동영상 자동 생성 장치(200),참조 장면 생성 장치(300), 하나 이상의 고객 단말(400) 및 하나 이상의 사용자 단말(500_1)을 포함할 수 있다.

고객 단말(400)은 광고주와 같은 고객이 사용하는 전자 장치를 의미할 수 있다. 사용자 단말(500)는 광고주 외 일반적인 사용자가 사용하는 전자 장치를 의미할 수 있다. 고객은 동영상을 자동으로 생성하는데 필요한 영상 생성 참조 정보를 고객 단말(400)로 입력할 수 있으며, 고객 단말(400)은 고객이 입력한 영상 생성 참조 정보를 동영상 자동 생성 장치(200)로 전송할 수 있다. 실시예에 따르면, 영상 생성 참조 정보는 단어 단위의 키워드일 수 있다.

동영상 자동 생성 장치(200)는 고객의 요청에 따라 광고 영상 등의 영상을 자동으로 생성할 수 있다. 구체적으로, 고객 단말(400)로부터 영상 생성 참조 정보가 수신되면, 동영상 자동 생성 장치(200)는 수신된 영상 생성 참조 정보와 미리 생성된 스크립트 데이터베이스를 이용하여 스크립트를 생성할 수 있다.

실시예에 따르면, 스크립트 데이터베이스는 키워드와 관련된 하나 이상의 속성 및 각 속성에 매칭되는 텍스트를 저장할 수 있다. 구체적으로, 키워드와 관련된 하나 이상의 속성으로는 키워드에 해당하는 오브젝트의 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성, 오브젝트와 매칭되는 장면의 상황 속성 및 오브젝트와 매칭되는 장면의 하이라이트 속성을 예로 들 수 있다. 따라서, 동영상 자동 생성 장치(200)는 키워드와 관련된 하나 이상의 속성 중에서 고객과 관련된 컨텐츠를 이용한 사용자의 행동 정보를 기초로 결정된 속성과 매칭되는 텍스트를 이용하여 기준 장면의 스크립트를 생성할 수 있다.

일 실시예에서, 장면 데이터 생성 장치(200)는 고객 단말(400_1~400_N)로부터 수신된 영상 생성 참조 정보가 단어 단위의 키워드인 경우 미리 생성된 스크립트 데이터베이스에서 키워드에 해당하는 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성 및 오브젝트와 매칭되는 장면의 상황 속성을 이용하여 스크립트를 생성할 수 있다.

그 후, 동영상 자동 생성 장치(200)는 스크립트를 기초로 기준 장면으로 구성된 시나리오를 생성할 수 있다.

나아가 동영상 자동 생성 장치(200)는 스크립트에서 키워드를 추출할 수 있다. 보다 구체적으로, 동영상 자동 생성 장치(200)는 공백을 기준으로 스크립트의 텍스트로부터 단어들을 추출할 수 있다. 그리고, 미리 생성된 단어 별 빈도 값 데이터베이스를 기초로, 추출된 단어들의 빈도 값을 측정할 수 있다.

그런 다음, 동영상 자동 생성 장치(200)는 추출된 단어들 각각을 대상으로 형태소 분석을 실행하여 토큰들을 생성할 수 있다. 실시예에 따르면, 토큰은 단어와 형태소 값의 쌍을 포함할 수 있으며, 빈도 값을 지시하는 레이블이 할당될 수 있다. 예를 들어, 동영상 자동 생성 장치(200)는 (빈도 값: 1000, (단어, 형태소 값)), (빈도 값: 234, (단어, 형태소)), (빈도 값: 2541, (단어, 형태소)), 및 (빈도 값: 2516, (단어, 형태소))와 같은 토큰들을 생성할 수 있다.

이후, 동영상 자동 생성 장치(200)는 각 토큰의 단어 및/또는 각 토큰의 레이블에 따라, 각 토큰에 서로 다른 가중치를 부여할 수 있다. 일 실시예에 따르면, 동영상 자동 생성 장치(200)는 토큰의 단어를 구현하는 언어의 종류(예: 영어, 중국어, 한국어 등), 스크립트의 텍스트 내에서의 단어의 위치 및/또는 토큰에 할당된 레이블이 지시하는 빈도 값에 따라, 각 토큰마다 서로 다른 가중치를 부여할 수 있다. 각 토큰마다 서로 다른 가중치를 부여하는 것에 대해서 좀 더 구체적으로 설명하면 다음과 같다.

먼저, 동영상 자동 생성 장치(200)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수 및 각 토큰의 순서를 이용하여 제1 가중치를 산출할 수 있다.

구체적으로, 동영상 자동 생성 장치(200)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수를 기준으로 현재 토큰의 순서를 수치화한 값 및 언어의 종류에 따라 미리 결정된 중요 값에 근거하여, 현재 토큰에 대한 제1 가중치를 산출할 수 있다. 예를 들어, 전체 토큰의 개수가 12개이고 현재 토큰의 순서가 4번째인 경우, 12를 '1'로 가정하고, 1을 4로 나누어 '0.25'를 산출할 수 있다. 그리고 이렇게 산출된 값에, 언어의 종류에 따라 미리 결정된 중요 값을 반영하여 제1 가중치를 산출할 수 있다. 실시예에 따르면, 상기 중요 값은 현재 토큰의 순서에 따라 변경될 수 있다. 구체적으로, 중요한 단어가 문장의 말미에 나타나는 언어라면, 현재 토큰의 순서가 높아질수록 반영되는 중요 값 역시 증가할 수 있다. 만약, 중요한 단어가 문장의 초반부에 나타나는 언어라면, 현재 토큰의 순서가 높아질수록 반영되는 중요 값은 감소할 것이다.

그 다음, 동영상 자동 생성 장치(200)는 현재 토큰의 레이블이 지시하는 빈도 값, 이전 토큰의 레이블이 지시하는 빈도 값 및 다음 토큰의 레이블이 지시하는 빈도 값을 이용하여 현재 토큰에 대한 제2 가중치를 산출할 수 있다.

마지막으로, 동영상 자동 생성 장치(200)는 제1 가중치 및 제2 가중치를 이용하여 현재 토큰에 최종 가중치를 부여할 수 있다. 그리고 최종 가중치에 근거하여 키워드를 추출할 수 있다. 예를 들어, 최종 가중치가 기준치 이상인 토큰의 단어를 키워드로 추출할 수 있다.

동영상 자동 생성 장치(200)는 서로 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 장면 추천 요청 메시지를 참조 장면 생성 장치(300)에 제공할 수 있다. 그리고, 참조 장면 생성 장치(300)로부터 참조 장면을 수신할 수 있다.

그 후, 동영상 자동 생성 장치(200)는 추출된 참조 장면과 미리생성된 환경 데이터를 합성하여 영상을 생성할 수 있다. 이를 위해, 동영상 자동 생성 장치(200)는 시나리오에 따라 음향 데이터를 선택하고, 상기 시나리오에 해당하는 텍스트 데이터를 음성 데이터로 변환할 수 있다. 그리고, 동영상 자동 생성 장치(200)는 상기 시나리오에 따라 AI 배우를 생성할 수 있다.

한편, 참조 장면 생성 장치(300)는 수집된 영상을 기초로 참조 장면 데이터베이스를 구축할 수 있다. 또한 참조 장면 생성 장치(300)는 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하는 경우, 참조 장면 추천 요청 메시지에 포함되어 있는 키워드와 동일하거나 유사한 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다.

구체적으로, 참조 장면 생성 장치(300)는 영상(예: 동영상)을 수집할 수 있다. 그리고 수집된 영상을 디코딩하여 영상을 구성하는 프레임들을 획득한 다음, 재생 시간 간격으로 프레임을 샘플링할 수 있다.

이후, 참조 장면 생성 장치(300)는 샘플링된 프레임들을 재생되는 시간 순서대로 나열하고, 서로 인접합 프레임들 간의 유사도를 산출할 수 있다. 나열된 모든 프레임들을 대상으로 유사도가 산출되면, 참조 장면 추천 장치(300)는 유사도에 근거하여 프레임들을 그룹핑함으로써, 장면 단위로 분할된 복수의 참조 장면을 생성할 수 있다.

일 실시예에 따르면, 참조 장면 생성 장치(300)는 서로 인접한 프레임들을 대상으로 피쳐 매칭(Feature Matching)을 수행하여, 인접한 프레임들 간의 유사도를 연산할 수 있다. 구체적으로, 참조 장면 생성 장치(300)는 서로 인접한 프레임들 간의 특징점(Keypoints)을 비교한 결과, 유사도가 기준치 이상인 경우, 해당 프레임들을 하나의 장면으로 그룹핑함으로써, 하나의 참조 장면을 생성할 수 있다. 만약, 서로 인접한 프레임들 간의 특징점을 비교한 결과, 유사도가 기준치 미만이라면, 장면이 전환된 것으로 판단할 수 있으며, 해당 프레임들을 각각 서로 다른 장면으로 그룹핑함으로써, 서로 다른 참조 영상을 생성할 수 있다.

다른 실시예에 따르면, 참조 장면 생성 장치(300)는 나열된 프레임별로 오브젝트를 추출한 다음, 추출된 오브젝트의 개수의 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 그리고 추출된 오브젝트의 개수가 변화된 시점 또는 추출된 오브젝트의 개수가 기준치 이상으로 변화된 시점을 기준으로 참조 장면을 생성할 수 있다.

또 다른 실시예에 따르면, 참조 장면 생성 장치(300)는 서로 인접한 프레임들의 픽셀들 중 위치가 동일한 픽셀들 간의 픽셀 값 변화에 근거하여 배경 변화 여부를 판단하고, 판단 결과에 근거하여 장면 전환 여부를 판단할 수 있다. 그 다음, 배경이 변화된 시점을 기준으로 참조 장면을 생성할 수 있다.

또 다른 실시예에 따르면, 참조 장면 생성 장치(300)는 영상을 구성하는 음성 데이터 및/또는 자막 데이터의 내용 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 그리고 음성 데이터 및/또는 자막 데이터에서 새로운 내용이 나타나는 시점을 기준으로 참조 장면을 생성할 수 있다.

또 다른 실시예에 따르면, 참조 장면 생성 장치(300)는 나열된 프레임별로 오브젝트를 추출한 다음, 추출된 오브젝트의 종류의 변화에 근거하여 장면 전환 연부를 판단할 수 있다. 그리고 이전에 추출되었던 오브젝트가 사라지는 시점 및/또는 새로운 오브젝트가 나타나는 시점을 기준으로 참조 장면을 생성할 수 있다.

상술한 과정을 거쳐 장면 단위로 분할된 복수의 참조 장면이 생성되면, 참조 장면 생성 장치(300)는 복수의 참조 장면을 분석하여, 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보에 따라 서로 다른 종류의 태그를 각 참조 장면에 할당할 수 있다. 예를 들면, 추출된 특징 정보에 따라, 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그 중 하나를 할당할 수 있다. 이하, 오브젝트 속성 태그를 할당하는 과정, 화면 속성 태그를 할당하는 과정 및 상황 속성 태그를 할당하는 과정을 차례로 설명한다.

오브젝트 속성 태그를 할당하기 위하여, 참조 장면 생성 장치(300)는 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 특징 영역은, 오브젝트의 특징을 기술하는 특징 기술자(Feature Descriptor)를 추출하는 주요 영역을 말한다. 특징 기술자는 기술자(Descriptor), 특징 벡터(Feature vectors) 또는 벡터 값 등으로 지칭될 수도 있으며, 오브젝트들 간의 동일 또는 유사 여부를 판단하는데 사용될 수 있다.

예를 들면, 특징 영역은 오브젝트가 포함하고 있는 윤곽선, 윤곽선 중에서도 코너 등의 모퉁이, 주변 영역과 구분되는 블롭(blob), 참조 장면 데이터의 변형에 따라 불변하거나 공변하는 영역, 또는 주변 밝기보다 어둡거나 밝은 특징이 있는 극점을 포함할 수 있다. 특징 영역은 참조 장면의 패치(조각) 또는 참조 장면 전체를 대상으로 할 수 있다.

참조 장면에서 오브젝트의 특징 영역을 탐지한 후, 참조 장면 추천 장치(300)는 탐지된 특징 영역에서 오브젝트의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 오브젝트 속성 태그를 할당할 수 있다.

화면 속성 태그를 할당하기 위하여, 참조 장면 생성 장치(300)는 참조 장면의 특징 영역을 탐지할 수 있다. 그리고 탐지된 참조 장면의 특징 영역에서 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 화면 속성 태그를 할당할 수 있다.

상술한 특징 기술자는 참조 장면에서 특징 영역의 위치, 특징 영역의 밝기, 색상, 선명도, 그라디언트, 스케일 및/또는 패턴 정보를 이용하여 계산할 수 있다. 예를 들어 특징 기술자는 특징 영역의 밝기 값, 밝기의 변화 값 및/또는 분포 값을 벡터로 변환하여 계산할 수 있다.

나아가, 특징 기술자는 상술한 바와 같은 특징 영역에 기반한 지역 기술자(Local Descriptor) 뿐 아니라, 전역 기술자(Global descriptor), 빈도 기술자(Frequency Descriptor), 바이너리 기술자(Binary Descriptor) 또는 신경망 기술자(Neural Network descriptor)로 표현될 수도 있다.

전역 기술자(Global descriptor)는 참조 장면의 전체, 참조 장면을 임의의 기준으로 분할한 구역 각각, 또는 특징 영역 각각의 밝기, 색상, 선명도, 그라디언트, 스케일 및/또는 패턴 정보를 벡터값으로 변환할 수 있다. 빈도 기술자 (Frequency Descriptor)는 미리 구분한 특징 기술자들이 참조 장면에 포함되는 횟수 및/또는 종래 정의된 색상표와 같은 전역적 특징을 포함하는 횟수를 벡터값으로 변환할 수 있다. 바이너리 기술자(Binary descriptor)는 각 기술자들의 포함 여부 및/또는 기술자를 구성하는 각 요소 값들의 크기가 특정값 보다 크거나 작은지 여부를 비트 단위로 추출한 뒤 이를 정수형으로 변환하여 사용할 수 있다. 신경망 기술자(Neural Network descriptor)는 신경망(Neural Network)의 레이어에서 학습 또는 분류를 위해 사용되는 영상 정보를 추출할 수 있다.

상황 속성 태그를 할당하기 위하여, 참조 장면 생성 장치(300)는 참조 장면을 장면 종류 분석 모델에 적용시킬 수 있다. 장면 종류 분석 모델은 장면을 입력받아, 장면 종류를 출력하도록 학습된 모델을 의미할 수 있다. 또한 장면 종류는 장면에서 표현되고 있는 상황의 종류를 의미할 수 있다. 장면 종류 분석 모델을 통해, 참조 장면에서 표현되고 있는 상황의 종류가 추출되면, 참조 장면 추천 장치(300)는 추출된 상황의 종류에 따라 참조 장면에 상황 속성 태그를 할당할 수 있다.

실시예에 따르면, 참조 장면 생성 장치(300)는 장면 종류 분석 모델을 딥 러닝 모델(Deep Learning Model) 중 하나인 CNN(Convolution Neural Network) 모델로 구축하고, 상술한 데이터 셋을 학습할 수 있다. 이때, CNN 모델은 두 개의 컨볼루션 레이어, 렐루 레이어, 맥스 풀링 레이어 및 하나의 풀리 커넥티드 레이어를 포함하도록 설계될 수 있다. 나아가, 참조 장명 생성 장치(300)는 RCNN 기법을 활용하여 CNN 모델에서 산출된 컨볼루션 피쳐 맵(Convolution Feature Maps)의 맵 순서대로 피쳐 시퀀스(Feature Sequence)를 구성한 후, 각 피쳐 시퀀스를 롱 숏 텀 메모리 네트워크(LSTM; Long Short Term Memory networks)에 대입하여 학습할 수 있다.

하이라이트 속성 태그를 할당하기 위하여, 참조 장명 생성 장치(300)는 영상에서 하이라이트 부분을 추출할 수 있다. 하이라이트 부분은 영상에서 가장 중요한 정보를 포함하고 있는 구간을 의미할 수 있다. 예를 들어, 영상의 내용이 기-승-전-결의 네 개의 구간으로 구성되는 경우, '전'에 해당하는 구간이 하이라이트 부분인 것으로 간주될 수 있다. 하이라이트 부분은 수동으로 추출될 수도 있고, 자동으로 추출될 수도 있다. 영상의 하이라이트 부분이 추출되면, 참조 장면 생성 장치(300)는 하이라이트 부분에 해당하는 참조 장면에 하이라이트 속성 태그를 할당할 수 있다.

상술한 방법에 따라 복수의 참조 장면 각각에 태그를 할당한 후, 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하면, 참조 장면 생성 장치(300)는 참조 장면 추천 요청 메시지에 포함되어 있는 키워드와 동일하거나 유사한 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)에 제공한다.

구체적으로, 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하면, 참조 장면 생성 장치(300)는 참조 장면 추천 요청 메시지로부터 키워드를 추출하고, 키워드를 구성하고 있는 토큰들을 추출할 수 있다. 그 다음, 참조 장면에 할당되어 있는 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그를 선택할 수 있다. 그리고 선택된 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출할 수 있다.

일 예로, 토큰의 형태소 값이 명사인 경우, 참조 장면 생성 장치는 참조 장면에 할당되어 있는 복수의 태그 중 오브젝트 속성 태그를 선택할 수 있다. 그리고 오브젝트 속성 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다.

다른 예로, 토큰의 형태소 값이 형용사인 경우, 참조 장면 생성 장치(300)는 참조 장면에 할당되어 있는 복수의 태그 중 화면 속성 태그 및 상황 속성 태그를 선택할 수 있다. 그리고 화면 속성 태그와 토큰의 단어가 일치하고, 상황 속성 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다.

한편, 참조 장면 생성 장치(300)는 토큰의 형태소 값과 매칭되지 않은 태그가 할당되어 있는 참조 영상을 대상으로, 상기 참조 영상에 할당되어 있는 복수의 태그 각각과 토큰의 단어 간의 유사도 비율을 산출할 수 있다. 그리고 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 장면을 참조 장면 데이터베이스에서 추출하여 동영상 자동 생성 장치(200)로 제공할 수 있다.

구체적으로, 참조 장면 생성 장치(300)는 참조 장면에 할당된 태그를 구성하는 문자 및 상기 토큰의 단어를 구성하는 문자를 비교하여, 일치하는 문자의 개수를 산출할 수 있다. 그리고, 태그에 해당하는 스트링 수 및 상기 토큰의 단어에 해당하는 스트링 수를 비교하여, 더 긴 스트링 수를 선택할 수 있다. 그리고 선택된 스트링 수 대비 상기 일치하는 문자의 개수의 비율을 나타내는 유사도 비율을 산출할 수 있다. 그리고, 상기 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 영상을 참조 영상 데이터베이스에서 추출하여 동영상 자동 생성 장치(200)로 제공할 수 있다.

상술한 바와 같은 동영상 자동 생성 장치(200) 및/또는 참조 장면 생성 장치(300)는 예를 들어, 웹 서비스 제공 서버에 포함되는 형태로 구현될 수 있다. 웹 서비스 제공 서버는 사용자 단말(500)로 다양한 컨텐츠를 제공할 수 있다. 사용자 단말(500)로 제공되는 컨텐츠의 종류는 사용자 단말(500)이 웹 서비스 제공 서버에 접속하기 위해 사용한 어플리케이션의 종류에 따라 달라질 수 있다. 이러한 웹 서비스 제공 서버는 온라인 쇼핑몰 서버 또는 검색 엔진 서버로 구현될 수 있다.

고객 단말(400)은 웹 서비스 제공 서버에 접속하기 위한 어플리케이션을 포함할 수 있다. 따라서, 고객에 의해 어플리케이션이 선택되어 실행되면, 고객 단말(400)은 어플리케이션을 통해 동영상 자동 생성 장치(200)에 접속할 수 있다. 이후, 고객이 영상 생성 참조 정보를 고객 단말(400)로 입력하면, 고객 단말(400)은 입력된 영상 생성 참조 정보를 동영상 자동 생성 장치(200)에 제공하여 영상 자동 생성을 요청할 수 있다.

고객 단말(400)과 마찬가지로, 사용자 단말(500)은 웹 서비스 제공 서버에 접속하기 위한 어플리케이션을 포함할 수 있다. 따라서, 사용자에 의해 어플리케이션이 선택되어 실행되면, 사용자 단말(500)은 어플리케이션을 통해 웹 서비스 제공 서버에 접속할 수 있다.

사용자 단말(500_1)은 어플리케이션을 통해 웹 서비스 제공 서버에서 제공되는 웹 페이지를 표시할 수 있다. 웹 페이지는 사용자의 스크롤 입력에 따라 화면에 즉시 표시될 수 있도록 전자장치에 로딩된 화면 및/또는 상기 화면 내부의 컨텐츠를 포함할 수 있다.

예를 들어, 사용자 단말(500)의 어플리케이션 상에서 웹 페이지가 표시된 상태에서 수평 또는 수직 방향으로 길게 연장되어 사용자의 스크롤에 따라 표시되는 어플리케이션의 실행 화면 전체가 웹 페이지의 개념에 포함될 수 있다. 또한, 카메라 롤 중인 화면 역시 웹 페이지의 개념에 포함될 수 있다.

한편, 사용자 단말(500)은 사용자 관심사 분석을 위한 어플리케이션(예를 들어, 소프트웨어, 신경망 모델 등)을 포함할 수 있다. 따라서, 사용자 단말(500)은 로그 기록 및/또는 인게이지먼트 기록을 수집하여 저장하고, 사용자 관심사 분석을 위한 어플리케이션를 통해 로그 기록 및/또는 인게이지먼트 기록을 분석하여 사용자의 관심사를 결정할 수 있다.

일 실시예에 따르면, 사용자 단말(500)은 사용자 단말(500)에 저장되어 있는 로그 기록 및/또는 인게이지먼트 기록을 분석하여 컨텐츠를 추출할 수 있으며, 추출된 컨텐츠의 종류를 지시하는 레이블을 추출할 수 있다. 로그 기록은 사용자 단말(500)의 운영체제 또는 소프트웨어가 실행되고 있는 중에 발생되는 이벤트를 기록함으로써 생성될 수 있다. 인게이지먼트 기록은 사용자가 관심을 가지고, 참여하고, 관계를 맺는 일련의 약속된 행동을 하는 경우, 이러한 행동을 기록함으로써 생성될 수 있다. 사용자의 행동 정보는 사용자가 웹 브라우저를 통해 컨텐츠를 열람하는 것, 사용자가 소셜 네트워크를 통해 컨텐츠에 '좋아요' 태그를 생성하는 것, 사용자가 홈페이지의 이미지나 텍스트를 열람하는 것 등의 행위뿐만 아니라, 이러한 행위의 대상, 이러한 행위가 발생한 시각, 이러한 행위가 유지된 시간도 포함할 수 있다. 추출된 컨텐츠의 종류를 지시하는 레이블은 예를 들어, 추출된 컨텐츠가 사용자의 관심사에 해당하는지 그렇지 않은지를 지시할 수 있다. 추출된 컨텐츠의 종류를 지시하는 레이블은 로그 기록 및/또는 인게이지먼트 기록을 분석하여 추출될 수도 있고, 사전에 저장된 레이블들 중에서 추출될 수도 있다.

다른 실시예에 따르면, 사용자 단말(500)은 크롤러, 파서, 인덱서를 구비할 수 있으며, 이를 통해 사용자가 열람하는 웹 페이지를 수집할 수 있다 그리고, 수집된 웹 페이지에 포함된 아이템 정보(예: 이미지, 아이템명, 및 아이템 가격)에 접근하여 컨텐츠 및 컨텐츠의 종류를 지시하는 레이블을 추출할 수 있다. 구체적으로, 크롤러는 사용자가 열람하는 웹 주소 목록을 수집하고, 웹사이트를 확인하여 링크를 추적하는 방식으로 아이템 정보와 관련된 데이터를 수집할 수 있다. 파서는 크롤링 과정 중에 수집된 웹 페이지를 해석하여 페이지에 포함된 이미지, 아이템 가격, 및 아이템명 등의 아이템 정보를 추출할 수 있다. 인덱서는 추출된 아이템 정보에 위치와 의미를 색인할 수 있다.

도 2를 참조하면, 장면 데이터 생성 장치(200)는 스크립트 생성부(210), 시나리오 생성부(220), 키워드 추출부(230), 참조 장면 송수신부(240), 환경 데이터 생성부(250) 및 영상 합성부(260)를 포함할 수 있다.

스크립트 생성부(210)는 고객 단말(400)로부터 단어 단위의 키워드를 포함하는 영상 생성 참조 정보가 수신되면, 수신된 영상 생성 참조 정보와 미리 생성된 스크립트 데이터베이스를 이용하여 스크립트를 생성할 수 있다.

구체적으로, 스크립트 생성부(210)는 영상 생성 참조 정보에 포함된 키워드를 스크립트 데이터베이스에서 검색한 다음, 검색된 키워드에 해당하는 오브젝트의 오브젝트 속성, 오브젝트와 매칭되는 장면의 화면 속성, 오브젝트와 매칭되는 장면의 상황 속성 및 오브젝트와 매칭되는 장면의 하이라이트 속성 중 고객과 관련된 컨텐츠를 이용한 사용자의 행동 정보를 기초로 결정된 속성과 매칭되는 텍스트를 이용하여 스크립트를 생성할 수 있다.

시나리오 생성부(220)는 스크립트 생성부(210)에 의해 생성된 스크립트를 기초로 기준 장면으로 구성된 시나리오를 생성할 수 있다. 실시예에 따르면, 시나리오는 기준 장면 외에도 음향 효과 및/또는 분위기를 더 포함할 수 있다.

키워드 추출부(230)는 스크립트 생성부(210)에 의해 생성된 스크립트에서 키워드를 추출할 수 있다. 보다 구체적으로, 키워드 추출부(230)는 공백을 기준으로 스크립트의 텍스트로부터 단어들을 추출할 수 있다. 그리고, 미리 생성된 단어 별 빈도 값 데이터베이스를 기초로, 추출된 단어들의 빈도 값을 측정할 수 있다.

그 후, 키워드 추출부(230)는 추출된 단어들 각각을 대상으로 형태소 분석을 실행하여 토큰을 생성할 수 있다. 실시예에 따르면, 토큰은 단어와 형태소 값의 쌍을 포함할 수 있으며, 빈도 값을 지시하는 레이블이 할당될 수 있다. 예를 들어, 키워드 추출부(230)는 스크립트의 텍스트를 분석하여 (빈도 값: 1000, (단어, 형태소 값)), (빈도 값: 234, (단어, 형태소)), (빈도 값: 2541, (단어, 형태소)), 및 (빈도 값: 2516번, (단어, 형태소))와 같은 토큰들을 생성할 수 있다.

이후, 키워드 추출부(230)는 각 토큰의 단어 및/또는 레이블에 따라, 각 토큰에 서로 다른 가중치를 부여할 수 있다. 일 실시예에 따르면, 키워드 추출부(230)는 토큰의 단어를 구현하는 언어의 종류(예: 영어, 중국어, 한국어 등), 스크립트의 텍스트 내에서의 단어의 위치 및/또는 토큰에 할당된 레이블이 지시하는 빈도 값에 따라, 각 토큰마다 서로 다른 가중치를 부여할 수 있다. 각 토큰마다 서로 다른 가중치를 부여하는 것에 대해서 좀 더 구체적으로 설명하면 다음과 같다.

먼저, 키워드 추출부(230)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수 및 각 토큰의 순서를 이용하여 제1 가중치를 산출할 수 있다.

구체적으로, 키워드 추출부(230)는 스크립트의 텍스트에서 생성된 전체 토큰의 개수를 기준으로 현재 토큰의 순서를 수치화한 값 및 언어의 종류에 따라 미리 결정된 중요 값에 근거하여, 현재 토큰에 대한 제1 가중치를 산출할 수 있다.

예를 들어, 키워드 추출부(230)는 전체 토큰의 개수가 12개 이고 토큰의 순서가 4번째인 경우, 12를 '1'로 가정하고, 1을 4로 나누어 '0.25'를 산출할 수 있다. 그리고 이렇게 산출된 값에, 실시예에 따르면, 상기 중요 값은 현재 토큰의 순서에 따라 변경될 수 있다. 구체적으로, 중요한 단어가 문장의 말미에 나타나는 언어라면, 현재 토큰의 순서가 높아질수록 반영되는 중요 값 역시 증가할 수 있다. 만약, 중요한 단어가 문장의 초반부에 나타나는 언어라면, 현재 토큰의 순서가 높아질수록 반영되는 중요 값은 감소할 것이다.

그 다음, 키워드 추출부(230)는 현재 토큰의 레이블이 지시하는 빈도 값, 이전 토큰의 레이블이 지시하는 빈도 값 및 다음 토큰의 레이블이 지시하는 빈도 값을 이용하여 제2 가중치를 산출할 수 있다.

마지막으로, 키워드 추출부(230)는 제1 가중치 및 제2 가중치를 이용하여 현재 토큰에 최종 가중치를 부여할 수 있다. 그리고 최종 가중치가 부여된 토큰들로 구성되는 키워드를 추출할 수 있다.

참조 장면 송수신부(240)는 서로 다른 다른 가중치가 부여된 토큰으로 구성된 키워드를 포함하는 참조 장면추천 요청 메시지를 참조 장면 생성 장치(300)에 제공하고, 참조 장면 생성 장치(300)로부터 참조 장면을 수신할 수 있다.

환경 데이터 생성부(250)는 시나리오에 따라 음향 데이터를 선택할 수 있다. 그리고, 상기 시나리오에 해당하는 텍스트 데이터를 음성 데이터로 변환할 수 있다. 나아가 상기 시나리오에 따라 AI 배우를 생성할 수 있다.

영상 합성부(260)는 참조 장면 송수신부(240)로 수신된 참조 장면 및 환경 데이터 생성부(250)에서 생성된 환경 데이터를 합성하여 영상을 생성할 수 있다.

도 3은 본 개시의 일 실시예에 따른참조 장면 생성 장치를 도시한 도면이다.

도 3을 참조하면, 참조 장면 생성 장치(300)는 수집된 영상을 기초로 참조 장면 데이터베이스를 구축할 수 있다. 또한 참조 장면 추천 장치(300)는 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하는 경우, 참조 장면 추천 용청 메시지에 포함되어 있는 키워드와 동일하거나 유사한 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다. 이를 위해, 참조 장면 생성 장치(300)는 샘플링부(303), 장면 전환 판단부(305), 참조 장면 생성부(310), 태그 할당부(320), 참조 장면 데이터베이스(330) 및 참조 장면 추천부(340)를 포함한다.

샘플링부(303)는 입력된 영상을 디코딩하여 영상을 구성하는 프레임들을 획득한 다음, 재생 시간 간격으로 프레임을 샘플링할 수 있다. 샘플링된 프레임은 장면 전환 판단부(305)로 제공될 수 있다.

장면 전환 판단부(305)는 샘플링된 프레임으로부터 특징 정보를 추출하고, 특징 정보를 이용하여 장면 전환 여부를 판단할 수 있다.

일 예로, 장면 전환 판단부(305)는 인접한 프레임들을 대상으로 피쳐 매칭(Feature Matching)을 수행하여 인접한 프레임들 간의 유사도를 연산할 수 있다. 그리고, 연산 결과에 따라 장면 전환 여부를 판단할 수 있다. 즉, 장면 전환 판단부(305)는 인접한 프레임들 간의 특징점(Keypoints)을 비교한 결과, 유사도가 기준치 이상인 경우, 해당 프레임들 간에는 장면 전환이 발생하지 않은 것으로 판단할 수 있다. 만약 유사도가 기준치 미만이라면, 해당 프레임들 간에는 장면 전환이 발생한 것으로 판단할 수 있다.

다른 예로, 장면 전환 판단부(305)는 샘플링된 프레임별로 오브젝트를 추출한 다음, 추출된 오브젝트의 개수의 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 예를 들어, 추출된 오브젝트의 개수의 변화가 기준치 미만이라면, 해당 프레임들 간에는 장면 전환이 발생하지 않은 것으로 판단할 수 있다. 만약 추출된 오브젝트의 개수의 변화가 기준치 이상이라면, 해당 프레임들 간에는 장면 전환이 발생한 것으로 판단할 수 있다.

또 다른 예로, 장면 전환 판단부(305)는 영상을 구성하는 음성 데이터 및/또는 자막 데이터의 내용 변화에 근거하여 장면 전환 여부를 판단할 수 있다. 예를 들어, 음성 데이터 및/또는 자막 데이터에서 새로운 내용이 나타나는 경우, 새로운 장면으로 전환된 것이라 판단할 수 있다.

또 다른 예로, 장면 전환 판단부(305)는 샘플링된 프레임별로 오브젝트를 추출하고, 기존의 오브젝트가 사라지거나, 새로운 오브젝트가 나타나는 경우, 새로운 장면으로 전환된 것으로 판단할 수 있다.

참조 장면 생성부(310)는 장면 전환 판단부(305)에 의해 장면이 전환되었다고 판단되는 경우, 장면이 전환된 시점을 기준으로 참조 장면을 생성할 수 있다. 구체적으로, 장면 전환 판단부(305)에 의해 장면이 전환되었다고 판단된 경우, 참조 장면 생성부(310)는 장면이 전환된 시점을 기준으로 샘플링된 프레임들을 그룹핑할 수 있다. 그 결과, 샘플링된 프레임들이 장면 단위로 그룹핑된 복수의 참조 장면을 생성할 수 있다.

태그 할당부(320)는 복수의 참조 장면을 분석하여, 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보에 따라 서로 다른 종류의 태그를 각 참조 장면에 할당할 수 있다. 예를 들면, 추출된 특징 정보에 따라, 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그 중 하나를 할당할 수 있다.

오브젝트 속성 태그를 할당하기 위하여, 참조 장면 추천 장치(300)는 참조 장면에서 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 특징 영역은, 오브젝트의 특징을 기술하는 특징 기술자(Feature Descriptor)를 추출하는 주요 영역을 말한다. 특징 기술자는 기술자(Descriptor), 특징 벡터(Feature vectors) 또는 벡터 값 등으로 지칭될 수도 있으며, 오브젝트들 간의 동일 또는 유사 여부를 판단하는데 사용될 수 있다.

예를 들면, 특징 영역은 오브젝트가 포함하고 있는 윤곽선, 윤곽선 중에서도 코너 등의 모퉁이, 주변 영역과 구분되는 블롭(blob), 참조 장면의 변형에 따라 불변하거나 공변하는 영역, 및/또는 주변 밝기보다 어둡거나 밝은 특징이 있는 극점을 포함할 수 있다. 특징 영역은 참조 장면의 패치(조각) 또는 참조 장면의 전체를 대상으로 할 수 있다.

참조 장면에서 오브젝트의 특징 영역을 탐지한 후, 태그 할당부(320)는 탐지된 특징 영역에서 오브젝트의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 오브젝트 속성 태그를 할당할 수 있다.

화면 속성 태그를 할당하기 위하여, 태그 할당부(320)는 참조 장면의 특징 영역을 탐지할 수 있다. 그리고 탐지된 참조 장면의 특징 영역에서 참조 장면의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 화면 속성 태그를 할당할 수 있다.

상술한 특징 기술자는 참조 장면에서 특징 영역의 위치, 특징 영역의 밝기, 색상, 선명도, 그라디언트, 스케일 및/또는 패턴 정보를 이용하여 계산할 수 있다. 예를 들어 특징 기술자는 특징 영역의 밝기 값, 밝기의 변화 값 및/또는 분포 값을 벡터로 변환하여 계산할 수도 있다.

상황 속성 태그를 할당하기 위하여, 태그, 태그 할당부(320)는 참조 장면을 장면 종류 분석 모델에 적용시킬 수 있다. 장면 종류 분석 모델은 장면을 입력받아, 장면 종류를 출력하도록 학습된 모델을 의미할 수 있다. 또한 장면 종류는 장면에서 표현되고 있는 상황의 종류를 의미할 수 있다. 장면 종류 분석 모델을 통해, 참조 장면에서 표현되고 있는 상황의 종류가 추출되면, 태그 할당부(320)는 추출된 상황의 종류에 따라 참조 장면에 상황 속성 태그를 할당할 수 있다.

실시예에 따르면, 태그 할당부(320)는 장면 종류 분석 모델을 딥 러닝 모델(Deep Learning Model) 중 하나인 CNN(Convolution Neural Network) 모델로 구축하고, 상술한 데이터 셋을 학습할 수 있다. 이때, CNN 모델은 두 개의 컨볼루션 레이어, 렐루 레이어, 맥스 풀링 레이어 및 하나의 풀리 커넥티드 레이어를 포함하도록 설계될 수 있다. 나아가, 태그 할당부(320)는 RCNN 기법을 활용하여 CNN에서 산출된 컨볼루션 피쳐 맵(Convolution Feature Maps)의 맵 순서대로 피쳐 시퀀스(Feature Sequence)를 구성한 후, 각 피쳐 시퀀스를 롱 숏 텀 메모리 네트워크(LSTM; Long Short Term Memory networks)에 대입하여 학습할 수 있다.

하이라이트 속성 태그를 할당하기 위하여, 태그 할당부(320)는 영상에서 하이라이트 부분을 추출할 수 있다. 하이라이트 부분은 영상에서 가장 중요한 정보를 포함하고 있는 구간을 의미할 수 있다. 예를 들어, 영상의 내용이 기-승-전-결의 네 개의 구간으로 구성되는 경우, '전'에 해당하는 구간이 하이라이트 부분인 것으로 간주될 수 있다. 하이라이트 부분은 수동으로 추출될 수도 있고, 자동으로 추출될 수도 있다. 영상의 하이라이트 부분이 추출되면, 태그 할당부(320)는 하이라이트 부분에 해당하는 참조 장면에 하이라이트 속성 태그를 할당할 수 있다.

태그 할당부(320)에 의해 태그가 할당된 참조 장면은 참조 장면 데이터베이스(330)에 저장될 수 있다. 실시예에 따르면, 참조 장면 데이터베이스(330)에는 참조 장면의 시작 시간, 참조 장면의 종료 시간 및 참조 장면에 할당된 하나 이상의 태그들이 테이블 형식으로 저장될 수 있다.

참조 장면 추천부(340)는 동영상 자동 생성 장치(200)로부터 참조 장면 추천 요청 메시지를 수신하는 경우, 참조 장면 추천 요청 메시지로부터 키워드를 추출할 수 있다. 그리고 키워드를 구성하고 있는 토큰들을 추출할 수 있다. 그 다음, 참조 장면에 할당되어 있는 복수의 태그 중 상기 토큰의 형태소 값과 매칭되는 태그를 선택할 수 있다. 그리고 선택된 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출할 수 있다.

일 예로, 토큰의 형태소 값이 명사인 경우, 참조 장면 추천 장치(300)는 참조 장면에 할당되어 있는 복수의 태그 중 오브젝트 속성 태그를 선택할 수 있다. 그리고 오브젝트 속성 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다.

다른 예로, 토큰의 형태소 값이 형용사인 경우, 참조 장면 추천 장치(300)는 참조 장면에 할당되어 있는 복수의 태그 중 화면 속성 태그 및 상황 속성 태그를 선택할 수 있다. 그리고 화면 속성 태그와 토큰의 단어가 일치하고, 상황 속성 태그와 토큰의 단어가 일치하는 경우, 해당 태그가 할당되어 있는 참조 장면을 참조 장면 데이터베이스에서 추출하여, 동영상 자동 생성 장치(200)로 제공할 수 있다.

한편, 참조 장면 추천부(340)는 토큰의 형태소 값과 매칭되지 않은 태그가 할당되어 있는 참조 영상을 대상으로, 상기 참조 영상에 할당되어 있는 복수의 태그 각각과 토큰의 단어 간의 유사도 비율을 산출할 수 있다. 그리고 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 장면을 참조 장면 데이터베이스에서 추출하여 동영상 자동 생성 장치(200)로 제공할 수 있다.

구체적으로, 참조 장면 추천부(340)는 참조 장면에 할당된 태그를 구성하는 문자 및 상기 토큰의 단어를 구성하는 문자를 비교하여, 일치하는 문자의 개수를 산출할 수 있다. 그리고, 태그에 해당하는 스트링 수 및 상기 토큰의 단어에 해당하는 스트링 수를 비교하여, 더 긴 스트링 수를 선택할 수 있다. 그리고 선택된 스트링 수 대비 상기 일치하는 문자의 개수의 비율을 나타내는 유사도 비율을 산출할 수 있다. 그리고, 상기 유사도 비율이 특정 비율 이상인 태그가 할당된 참조 영상을 참조 영상 데이터베이스에서 추출하여 동영상 자동 생성 장치(200)로 제공할 수 있다.

도 4 내지 도 7을 참조하면, 참조 장면 생성 장치(300)는 영상 (410)을 수집할 수 있다. 수집된 영상(410)은 영상 분할부로 제공될 수 있다. 영상 분할부는 입력된 영상을 장면 단위로 분할하여 복수의 참조 장면(420_1~420_N)을 생성할 수 있다. 도 4의 영상 분할부는 도 3에 도시된 샘플링부(303), 장면 전환 판단부(305) 및 참조 장면 생성부(310)가 통합된 구성요소인 것으로 볼 수 있다.

실시예에 따르면, 영상 분할부의 샘플링부는 입력된 영상(410)을 디코딩하여 영상을 구성하는 프레임들을 획득한 다음, 재생 시간 간격으로 프레임을 샘플링할 수 있다.

이후, 영상 분할부의 장면 전환 판단부는 샘플링부는 샘플링된 프레임들로부터 특징 정보를 추출하고, 서로 인접한 프레임들 간의 특정 징보를 비교하여, 장면 전환이 발생하였는지를 판단할 수 있다. 예를 들어, 장면 전환 판단부는, 인접한 프레임들 간의 특징점을 비교한 결과, 프레임별로 추출된 오브젝트의 개수의 변화, 영상을 구성하는 음성 데이터 및/또는 자막 데이터의 내용 변화, 프레임별로 추출된 오브젝트의 종류의 변화 중 하나 이상에 근거하여, 장면 전환이 발생하였는지를 판단할 수 있다. 이러한 판단 결과는 영상 분할부의 참조 장면 생성부로 제공될 수 있다.

영상 분할부의 참조 장면 생성부는 장면 전환 판단부로부터 장면이 전환되었다는 판단 결과를 수신한 경우, 장면이 전환된 시점을 기준으로 참조 장면을 생성할 수 있다. 그 결과, 샘플링된 프레임들이 장면 단위로 분할된 복수의 참조 장면을 얻을 수 있다.

이러한 방식으로 생성된 참조 장면은 태그 할당부로 제공될 수 있다. 태그 할당부는 복수의 참조 장면 데이터(420_1~420_4)을 분석하여 각 참조 장면의 특징 정보를 추출하고 추출된 특정 정보에 따라 서로 다른 종류의 태그를 각 참조 장면(420_1~420_1)에 할당할 수 있다. 예를 들면, 태그 할당부는 추출된 특징 정보에 따라, 오브젝트 속성 태그, 화면 속성 태그, 상황 속성 태그 및 하이라이트 속성 태그 중 하나를 할당할 수 있다.

오브젝트 속성 태그를 할당하기 위하여, 태그 할당부는 참조 장면에서 오브젝트의 특징 영역을 탐지하고, 탐지된 특징 영역에서 오브젝트의 특징 정보를 추출할 수 있다. 그리고 추출된 특징 정보를 벡터값으로 표현한 특징 기술자를 추출할 수 있다. 그리고 특징 기술자에 따라 참조 장면에 오브젝트 속성 태그를 할당할 수 있다.

예를 들어, 태그 할당부는 도 6(a)에 도시된 바와 같이, 참조 장면(420_3)을 분석하여 오브젝트의 특징 영역을 탐지(Interest Point Detection)할 수 있다. 그리고 도 6(b)에 도시된 바와 같이, 탐지된 특징 영역에소 오브젝트 및 오브젝트의 특징 정보를 추출할 수 있다. 이후, 태그 할당부는 오브젝트의 특징 정보를 벡터값으로 표현하여 오브젝트의 특징 정보를 추출할 수 있다. 그 다음, 태그 할당부는 도 6(c)와 같이 오브젝트의 특징 정보에 따라 오브젝트 속성 태그를 참조 장면(420_3)에 할당할 수 있다.

도 8을 참조하면, 참조 장면 생성 장치(300)는 수집된 영상을 디코딩하여 영상을 구성하는 프레임들을 획득하고, 재생 시간 간격으로 프레임들을 샘플링할 수 있다(S810).

이후, 참조 장면 생성 장치(300)는 샘플링된 프레임에서 특징 정보를 추출하고, 추출된 특징 정보를 이용하여 장면 전환 여부를 판단할 수 있다(S820).

일 실시예에 따르면, 상기 S820 단계는, 참조 장면 생성 장치(300)가 샘플링된 프레임들 중 서로 인접한 프레임들 간의 특징점을 비교한 결과, 인접한 프레임들 간의 유사도가 기준치 미만인 경우, 장면이 전환된 것으로 판단하는 단계를 포함할 수 있다.

다른 실시예에 따르면, 상기 S820 단계는, 참조 장면 생성 장치(300)가 샘플링된 프레임들 중 서로 인접한 프레임들로부터 추출된 오브젝트의 개수의 변화가 기준치 이상인 경우, 장면이 전환된 것으로 판단하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 상기 S820 단계는, 참조 장면 생성 장치(300)가 영상을 구성하는 음성 데이터 및/또는 자막 데이터에서 새로운 내용이 나타나는 경우, 장면이 전환된 것으로 판단하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 상기 S820 단계는, 참조 장면 생성 장치(300)가 샘플링된 프레임들 중 서로 인접한 프레임들로부터 추출된 오브젝트의 종류가 변하는 경우, 장면이 전환된 것으로 판단하는 단계를 포함할 수 있다.

한편, 참조 장면 생성 장치(300)는 장면이 전환된 것으로 판단된 경우, 장면이 전환된 시점을 기준으로 참조 장면을 생성할 수 있다(S830).

이상, 도 1 내지 도 8을 참조하여 본 개시의 일 실시예에 따른, 참조 장면 생성 방법 및 참조 장면 생성 장치에 대해서 설명하였다.

본 개시의 일 실시예에 따르면, 참조 장면 생성 장치(300)의 다양한 동작들을 위한 프로그램은 참조 장면 생성 장치(300)의 메모리에 저장될 수 있다. 참조 장면 생성 장치(300)의 프로세서는 메모리에 저장된 프로그램을 로딩하여 실행할 수 있다. 프로세서는 하드웨어나 소프트웨어 또는 이들의 조합에 따라 AP(Application Processor), CPU(Central Processing Unit), MCU(Microcontroller Unit)나 이와 유사한 장치로 구현될 수 있다. 이때, 하드웨어적으로는 전기적 신호를 처리하여 제어 기능을 수행하는 전자 회로 형태로 제공될 수 있으며, 소프트웨어적으로는 하드웨어적 회로를 구동시키는 프로그램이나 코드 형태로 제공될 수 있다.

한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록매체를 포함한다. 예를 들어, ROM(read only memory), RAM(random access memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.

일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 기록 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트폰들) 간에 직접 배포되거나, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 기록 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

이상에서 실시 형태들에 설명된 특징, 구조, 효과 등은 본 개시의 적어도 하나의 실시 형태에 포함되며, 반드시 하나의 실시 형태에만 한정되는 것은 아니다. 나아가, 각 실시 형태에서 예시된 특징, 구조, 효과 등은 실시 형태들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시 형태들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 개시의 범위에 포함되는 것으로 해석되어야 할 것이다.

또한, 이상에서 실시 형태를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 개시를 한정하는 것이 아니며, 본 개시가 속하는 분야의 통상의 지식을 가진 자라면 본 실시 형태의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 즉, 실시 형태에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 개시의 범위에 포함되는 것으로 해석되어야 할 것이다.

상술한 바와 같은 참조 장면 생성 방법 및 참조 장면 생성 장치는 영상 제작 분야에 적용될 수 있다.

Claims

참조 장면 생성 장치에서 실행되는 영상에 기초한 참조 장면 생성 방법에 있어서,

영상을 디코딩하여 상기 영상을 구성하는 프레임들을 획득하고, 재생 시간 간격을 기준으로 상기 프레임들을 샘플링하는 단계;

상기 샘플링된 프레임에서 특징 정보를 추출하고 상기 추출된 특징 정보를 이용하여 장면이 전환되었는지를 판단하는 단계; 및

상기 판단 결과, 장면이 전환된 것으로 판단된 경우, 장면이 변환된 시점을 기준으로 참조 장면을 생성하는 단계를 포함하는,

참조 장면 생성 방법.
제1항에 있어서,

상기 판단하는 단계는,

상기 샘플링된 프레임 중 서로 인접한 프레임들 간의 특징 정보를 비교하여 상기 특징 정보 간의 유사도 비율을 산출하는 단계; 및

상기 유사도 비율이 특정 비율 이상인 경우, 상기 서로 인접한 프레임들을 하나의 장면으로 그룹핑하여 참조 장면을 생성하는 단계를 포함하는,

참조 장면 영상 생성 방법.
제1항에 있어서,

상기 판단하는 단계는,

상기 샘플링된 프레임 중 서로 인접한 프레임들로부터 추출된 오브젝트의 개수의 변화가 기준치이 이상인 경우, 장면이 전화되었다고 판단하는 단계; 및

장면이 전환된 시점을 기준으로 참조 장면을 생성하는 단계를 포함하는,

참조 장면 생성 방법.
제1항에 있어서,

상기 판단하는 단계는,

상기 영상을 구성하는 음성 데이터 및 자막 데이터 중 적어도 하나를 기준으로 새로운 내용이 나타나는 경우, 장면이 전환된 것으로 판단하는 단계; 및

장면이 전환된 시점을 기준으로 참조 장면을 생성하는 단계를 포함하는,

참조 장면 생성 방법.
영상을 기초로 참조 장면을 생성하는 참조 장면 생성 장치에 있어서,

하나 이상의 프로세서; 및

상기 하나 이상의 프로세서로 하여금 동작들(Operations)을 실행하도록 구성된 명령어들(instructions)을 포함하는 메모리;를 포함하되,

상기 동작들은,

영상을 디코딩하여 상기 영상을 구성하는 프레임들을 획득하고, 재생 시간 간격을 기준으로 상기 프레임들을 샘플링하는 것;

상기 샘플링된 프레임에서 특징 정보를 추출하고 상기 추출된 특징 정보를 이용하여 장면이 전환되었는지를 판단하는 것; 및

상기 판단 결과, 장면이 전환된 것으로 판단된 경우, 장면이 변환된 시점을 기준으로 참조 장면을 생성하는 것;을 포함하는,

참조 장면 생성 장치.
제5항에 있어서,

상기 판단하는 것은,

상기 샘플링된 프레임 중 서로 인접한 프레임들 간의 특징 정보를 비교하여 상기 특징 정보 간의 유사도 비율을 산출하는 것; 및

상기 유사도 비율이 특정 비율 이상인 경우, 상기 서로 인접한 프레임들을 하나의 장면으로 그룹핑하여 참조 장면을 생성하는 것 포함하는,

참조 장면 생성 장치.
제5항에 있어서,

상기 판단하는 것은,

상기 샘플링된 프레임 중 서로 인접한 프레임들로부터 추출된 오브젝트의 개수의 변화가 기준치이 이상인 경우, 장면이 전화되었다고 판단하는 것; 및

장면이 전환된 시점을 기준으로 참조 장면을 생성하는 것을 포함하는,

참조 장면 생성 장치.
제5항에 있어서,

상기 판단하는 것은,

상기 영상을 구성하는 음성 데이터 및 자막 데이터 중 적어도 하나를 기준으로 새로운 내용이 나타나는 경우, 장면이 전환된 것으로 판단하는 것; 및

장면이 전환된 시점을 기준으로 참조 장면을 생성하는 것을 포함하는,

참조 장면 생성 장치.