WO2019135523A1

WO2019135523A1 - 전자장치, 그 제어방법 및 컴퓨터프로그램제품

Info

Publication number: WO2019135523A1
Application number: PCT/KR2018/016373
Authority: WO
Inventors: 아가르왈비벡; 구자윤; 산체스어니스토; 가르그자틴
Original assignee: 삼성전자(주)
Priority date: 2018-01-08
Filing date: 2018-12-20
Publication date: 2019-07-11
Also published as: US11386665B2; KR20190093722A; US20200334468A1; KR102542788B1

Abstract

본 발명은 전자장치, 그 제어방법 및 컴퓨터프로그램제품에 관한 것으로서, 전자장치는, 인스트럭션이 저장되는 메모리와; 인스트럭션을 실행하여, 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하고, 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하여, 비디오특징 및 텍스트특징을 이용한 뉴럴 네트워크에 의한 학습에 따라 각 프레임의 중요도를 결정하고, 결정된 중요도에 기초하여 복수의 프레임 중에서 비디오컨텐츠의 키프레임을 선택하는 프로세서를 포함한다 이에 의하여, 비디오특징뿐 아니라 텍스트특징까지 고려한 비디오서머리를 통해 사용자에게 컨텐츠에 대한 충실한 정보를 제공할 수 있다.

Description

전자장치, 그 제어방법 및 컴퓨터프로그램제품

본 발명은 전자장치, 그 제어방법 및 컴퓨터프로그램제품에 관한 것으로서, 보다 상세하게는 비디오컨텐츠를 처리하는 전자장치, 그 제어방법 및 컴퓨터프로그램제품에 관한 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

본 발명은, 비디오컨텐츠에 대하여 인공지능 알고리즘을 이용하여 학습된 학습모델을 적용하여 비디오특징뿐 아니라 텍스트특징도 고려한 비디오서머리를 생성하는 전자장치, 그 제어방법 및 컴퓨터프로그램제품을 제공한다.

본 발명 일 실시예에 따른 전자장치는, 인스트럭션이 저장되는 메모리와; 인스트럭션을 실행하여, 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하고, 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하여, 비디오특징 및 텍스트특징에 기초하여 각 프레임의 중요도를 결정하고, 결정된 중요도에 기초하여 복수의 프레임 중에서 비디오컨텐츠의 키프레임을 선택하는 프로세서를 포함한다. 이에 의하여, 비디오특징뿐 아니라 텍스트특징까지 고려한 비디오서머리를 통해 사용자에게 컨텐츠에 대한 충실한 정보를 제공할 수 있다.

프로세서는, 비디오특징 및 텍스트특징에 기초하여 기계학습을 수행하여 학습된 모델을 생성하고, 생성된 학습된 모델을 이용하여 각 프레임의 중요도를 예측할 수 있다. 프로세서는, 시계열분석을 위한 회기통신망을 이용하여 기계학습을 수행할 수 있다. 이에, 반복적 학습과정을 통해 점차 향상된 품질의 비디오서머리를 제공할 수 있다.

프로세서는, HOG(Histogram of Oriented Gradient), SIFT(Scale Invariant Feature Transform), 컬러 히스토그램, 텍스처 추출, 또는 기계학습 중 적어도 하나를 이용하여 비디오특징을 추출할 수 있다. 이에, 비디오컨텐츠의 특징, 사용자의 선호도 등을 고려한 다양한 알고리즘이 활용 가능하다.

프로세서는, Bow(Bag of words), TF-IDF, 워드 임베딩 또는 신경망 모델에 기초한 기계학습 중 적어도 하나를 이용하여 텍스트특징을 추출할 수 있다. 프로세서는, 비디오컨텐츠의 설명정보를 구성하는 텍스트로부터 스톱워드를 제거 또는 스태밍하는 클리닝을 수행하고, 클리닝된 텍스트로부터 텍스트특징을 추출할 수 있다. 이에, 불필요한 텍스트는 제외하고, 컨텐츠특징을 나타내는 텍스트로 구성된 비디오서머리를 제공할 수 있다.

프로세서는, 선택된 키프레임으로 구성된 비디오서머리를 생성할 수 있다. 생성된 비디오서머리를 표시하는 디스플레이부를 더 포함할 수 있다. 이에, 비디오컨텐츠에 대한 비디오서머리를 자동으로 생성하여 다양한 방식으로 사용자에게 제공할 수 있다.

한편, 본 발명 일 실시예에 따른 전자장치의 제어방법은, 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하는 단계; 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하는 단계; 비디오특징 및 텍스트특징에 기초하여 각 프레임의 중요도를 결정하는 단계; 및 결정된 중요도에 기초하여 복수의 프레임 중에서 비디오컨텐츠의 키프레임을 선택하는 단계를 포함한다.

중요도를 결정하는 단계는, 비디오특징 및 텍스트특징에 기초하여 기계학습을 수행하여 학습된 모델을 생성하는 단계; 및 생성된 학습된 모델을 이용하여 각 프레임의 중요도를 예측하는 단계를 포함한다. 모델을 생성하는 단계는, 시계열분석을 위한 회기통신망을 이용하여 기계학습을 수행하는 단계를 포함한다. 이에, 반복적 학습과정을 통해 점차 향상된 품질의 비디오서머리를 제공할 수 있다.

비디오특징을 추출하는 단계는, HOG(Histogram of Oriented Gradient), SIFT(Scale Invariant Feature Transform), 컬러 히스토그램, 텍스처 추출, 또는 기계학습 중 적어도 하나를 이용하여 비디오특징을 추출할 수 있다. 이에, 비디오컨텐츠의 특징, 사용자의 선호도 등을 고려한 다양한 알고리즘이 활용 가능하다.

텍스트특징을 추출하는 단계는, Bow(Bag of words), TF-IDF, 워드 임베딩 또는 신경망 모델에 기초한 기계학습 중 적어도 하나를 이용하여 텍스트특징을 추출할 수 있다. 텍스트특징을 추출하는 단계는, 비디오컨텐츠의 설명정보를 구성하는 텍스트로부터 스톱워드를 제거 또는 스태밍하는 클리닝을 수행하는 단계; 및 클리닝된 텍스트로부터 텍스트특징을 추출하는 단계를 더 포함할 수 있다. 이에, 불필요한 텍스트는 제외하고, 컨텐츠특징을 나타내는 텍스트로 구성된 비디오서머리를 제공할 수 있다.

선택된 키프레임으로 구성된 비디오서머리를 생성하는 단계를 더 포함할 수 있다. 생성된 비디오서머리를 표시하는 단계를 더 포함할 수 있다. 이에, 비디오컨텐츠에 대한 비디오서머리를 자동으로 생성하여 다양한 방식으로 사용자에게 제공할 수 있다.

한편, 본 발명 일 실시예에 따른 컴퓨터프로그램제품은, 인스트럭션을 저장하는 메모리와; 프로세서를 포함하며, 인스트럭션은, 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하고, 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하여, 비디오특징 및 텍스트특징에 기초하여 각 프레임의 중요도를 결정하고, 결정된 중요도에 기초하여 복수의 프레임 중에서 비디오컨텐츠의 키프레임을 선택하도록 한다. 이에 의하여, 비디오특징뿐 아니라 텍스트특징까지 고려한 비디오서머리를 통해 사용자에게 컨텐츠에 대한 충실한 정보를 제공할 수 있다.

상기한 바와 같은 본 발명의 전자장치, 그 제어방법 및 컴퓨터프로그램제품에 따르면, 비디오컨텐츠에 대하여 인공지능 알고리즘을 이용하여 학습된 학습모델을 적용하여 비디오특징과 텍스트특징을 추출하고, 그 추출결과에 따른 키프레임으로 구성된 비디오 요약을 생성함으로써, 비디오컨텐츠에 대한 직관적인 정보를 사용자에게 효율적으로 제공할 수 있다.

도 1은 본 발명 일 실시예에 의한 전자장치에서 비디오서머리를 제공하는 예를 도시한 도면이다.

도 2는 본 발명 일 실시예에 의한 비디오 서머라이제이션을 간략하게 도시한 도면이다.

도 3은 본 발명 일 실시예에 의한 전자장치(100)의 구성을 도시한 블록도이다.

도 4와 도 5는 본 발명 일 실시예에 따른 비디오 서머라이제이션을 설명하기 위한 도면이다.

도 6은 본 발명 일 실시예에 따른 전자장치의 제어방법을 도시한 흐름도이다.

도 7은 본 발명 일 실시예에 따른 전자장치에서 비디오특징을 추출하는 구성의 동작을 설명하는 도면이다.

도 8은 본 발명 일 실시예에 따른 전자장치에서 텍스트특징을 추출하는 구성의 동작을 설명하는 도면이다.

도 9는 본 발명 일 실시예에 따른 전자장치에서 복수의 프레임에 대해 프레임 중요도를 결정하는 구성의 동작을 설명하는 도면이다.

도 10은 프레임 중요도를 결정하는 신경망 구조의 일례를 도시한 것이다.

도 11은 본 발명 일 실시예에 따른 전자장치에서 키프레임을 선택하는 구성의 동작을 설명하는 도면이다.

이하에서는 첨부 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 도면에서 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 구성요소를 지칭하며, 도면에서 각 구성요소의 크기는 설명의 명료성과 편의를 위해 과장되어 있을 수 있다. 다만, 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 이하의 실시예에 설명된 구성 또는 작용으로만 한정되지는 않는다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

본 발명의 실시예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 발명의 실시예에서, '구성되다', '포함하다', '가지다' 등의 용어는 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 또한, 본 발명의 실시예에서, '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있으며, 적어도 하나의 모듈로 일체화되어 구현될 수 있다. 또한, 본 발명의 실시예에서, 복수의 요소 중 적어도 하나(at least one)는, 복수의 요소 전부뿐만 아니라, 복수의 요소 중 나머지를 배제한 각 하나 혹은 이들의 조합 모두를 지칭한다.

본 발명 일 실시예에 따른 전자장치(100)는 비디오컨텐츠(video content, 이하 비디오 라고도 한다)로부터 비디오 서머리(video summary, 이하, 비디오 요약 이라고도 한다)를 생성하기 위한 비디오 서머라이제이션(video summarization)을 수행한다.

본 발명 실시예에 따른 전자장치(100)는, 도 1에 도시된 바와 같이, 비디오컨텐츠로부터 비디오특징과 텍스트특징을 추출하고, 추출된 비디오특징 및 텍스트특징에 기초하여 비디오컨텐츠의 복수의 프레임으로부터 키프레임을 선택하여, 선택된 키프레임으로 구성된 비디오 서머리를 생성한다.

도 2에 도시된 바와 같이, 비디오 서머라이제이션(202)은 소정 비디오의 시각적 서머리(visual summary)에 기초하여 전체(entire) 비디오(201)를 대표하는 컨텐츠(203)를 생성(producing)하는 프로세스로서 정의된다. 비디오 서머리(203)의 길이는 전체 비디오(201)와 비교하여 짧으며, 이상적인(ideal) 비디오 서머리는 비디오의 모든 중요 이벤트(important events) 또는 키 프레임(key frames)을 요약(encapsulate)하는 것이다.

본 발명 실시예에 따른 전자장치(100)는 그 명칭이나 형태에 관계없이, 비디오 서머라이제이션이 수행 가능한 다양한 장치로 구현된다.

일 실시예에서 전자장치(100)는, 도 1에 도시된 바와 같이, 비디오 컨텐츠를 처리하여 생성된 비디오 서머리를 제공하는 서버를 포함한다. 서버로부터 비디오 서머리를 제공받는 장치(이하, 클라이언트 라고도 한다)는 그 구현형태가 제한되지 않으며, 비디오 서머리를 표시 가능한 장치로서 구현될 수 있다. 클라이언트는, 예를 들면 도 1과 같이, 스마트 TV와 같은 텔레비전, 블루레이 또는 DVD 등의 광학디스크 재생장치, AV 리시버(audio/video receiver), 셋탑박스(set-top box, STB), 스트리밍 장치 등 컨텐츠를 재생하거나 중계하기 위한 제반 장치로서 마련되는 컨텐츠 재생장치(player), 휴대폰, 스마트폰(smart phone), 태블릿(table)과 같은 스마트패드(smart pad) 등의 모바일 디바이스, 랩탑(laptop) 또는 데스크탑(desktop)을 포함하는 컴퓨터(PC) 중 적어도 하나를 포함한다. 서버와 클라이언트의 접속 방식은 한정되지 않으며, 다양한 유무선 규격의 인터페이스가 적용될 수 있다.

다른 실시예에서 전자장치(100)는 비디오컨텐츠로부터 비디오 서머리를 생성 및 표시하는 장치 그 자체로서 구현될 수 있다. 예를 들면, 전자장치(100)는 비디오컨텐츠를 표시하는 스마트 TV와 같은 디스플레이장치, 비디오컨텐츠를 VOD(video-on-demand) 서비스로서 제공받는 셋탑박스와 같은 영상처리장치, 또는 스마트폰과 같은 단말장치를 포함한다.

상기와 같은 본 발명 실시예에 따른 디스플레이장치는 외부의 컨텐츠공급원으로부터 비디오컨텐츠를 제공받아 기 설정된 비디오처리 프로세스에 따라서 처리하여 영상으로 표시한다. 일례로 디스플레이장치는, 방송국의 송출장비로부터 수신되는 방송신호/방송정보/방송데이터에 기초한 방송컨텐츠를 처리하는 텔레비전(TV)으로 구현될 수 있다. 디스플레이장치에서 수신되는 방송신호는 지상파, 케이블, 위성 등을 통해서도 수신 가능하며, 본 발명에서의 컨텐츠공급원은 방송국에 한정되지 않는다. 즉, 정보의 송수신이 가능한 장치 또는 스테이션이라면 본 발명의 컨텐츠공급원에 포함될 수 있다.

디스플레이장치에서 수신되는 신호의 규격은 디스플레이장치의 구현 형태에 대응하여 다양한 방식으로 구성될 수 있다. 예를 들면, 디스플레이장치는 방송국으로부터 송출되는 RF(radio frequency) 신호를 무선으로 수신하거나, 컴포지트(composite) 비디오, 컴포넌트(component) 비디오, 슈퍼 비디오(super video), SCART, HDMI(high definition multimedia interface) 규격 등에 의한 영상신호를 유선으로 수신할 수 있다.

또한, 디스플레이장치는 다양한 형식의 외부장치로부터 비디오/오디오컨텐츠를 수신할 수 있다. 또한, 디스플레이장치는 내부/외부의 저장매체에 저장되거나, 스트림 형태로 수신되는 신호/데이터에 기초한 동영상, 정지영상, 어플리케이션(application), OSD(on-screen display), 사용자에 의해 선택 가능한 UI(user interface, 이하, GUI(graphic user interface) 라고도 함) 등을 화면에 표시하도록 신호를 처리할 수 있다.

또한, 비디오컨텐츠는 플래시메모리, 하드디스크 등과 같은 비휘발성의 저장부(도 3의 150)에 저장된 데이터로부터 기인한 것일 수 있다. 저장부(150)는 디스플레이장치의 내부 또는 외부에 마련될 수 있으며, 외부에 마련되는 경우 저장부(150)가 연결되는 연결부를 더 포함할 수 있다.

또한, 비디오컨텐츠는 인터넷 등과 같은 네트워크를 통해 수신되는 데이터로부터 기인한 것일 수 있으며, 이 경우 디스플레이장치는, 후술하는 통신부(도 3의 110)를 통해 영상신호를 수신할 수 있다.

일 실시예에서, 디스플레이장치는 스마트 TV 또는 IP TV(Internet Protocol TV)로 구현될 수 있다. 스마트 TV는 실시간으로 방송신호를 수신하여 표시할 수 있고, 웹 브라우징 기능을 가지고 있어 실시간 방송신호의 표시와 동시에 인터넷을 통하여 다양한 컨텐츠 검색 및 소비가 가능하고 이를 위하여 편리한 사용자 환경을 제공할 수 있는 TV이다. 또한, 스마트 TV는 개방형 소프트웨어 플랫폼을 포함하고 있어 사용자에게 양방향 서비스를 제공할 수 있다. 따라서, 스마트 TV는 개방형 소프트웨어 플랫폼을 통하여 다양한 컨텐츠, 예를 들어 소정의 서비스를 제공하는 어플리케이션을 사용자에게 제공할 수 있다. 이러한 어플리케이션은 다양한 종류의 서비스를 제공할 수 있는 응용 프로그램으로서, 예를 들어 SNS, 금융, 뉴스, 날씨, 지도, 음악, 영화, 게임, 전자 책 등의 서비스를 제공하는 어플리케이션을 포함한다.

상기와 같은 본 발명 실시예에 따른 영상처리장치는 디스플레이장치와 접속되어, 디스플레이장치에서 표시되는 영상에 대응하는 신호를 전달한다. 구체적으로, 영상처리장치는 외부의 컨텐츠공급원으로부터 제공되는 비디오컨텐츠를 기 설정된 영상처리 프로세스에 따라서 처리하여 디스플레이장치로 출력한다. 처리된 비디오컨텐츠는 디스플레이장치에서 대응되는 영상으로 표시된다.

영상처리장치에서 수신되는 비디오/오디오컨텐츠는 지상파, 케이블, 위성 등을 통해서도 수신 가능하다. 또한, 영상처리장치는 내부/외부의 저장매체에 저장되거나, 스트림 형태로 수신되는 신호/데이터에 기초한 동영상, 정지영상, 어플리케이션, OSD, 사용자에 의해 선택 가능한 UI 등을 디스플레이장치의 화면에 표시하도록 신호를 처리할 수 있다. 또한, 영상처리장치는 SNS, 금융, 뉴스, 날씨, 지도, 음악, 영화, 게임, 전자 책 등 소정의 서비스를 제공하는 어플리케이션을 디스플레이장치를 통해 사용자에게 제공할 수 있다.

디스플레이장치 또는 영상처리장치로 구현된 전자장치(100)는 영상신호를 디스플레이장치의 영상 포맷에 대응하도록 디코드하는 디코더(decoder), 영상신호를 디스플레이부(도 3의 130)의 출력규격에 맞도록 조절하는 스케일러(scaler)를 포함하는 영상처리부를 포함한다. 일 실시예에서, 영상처리부는 방송신호를 채널 별로 튜닝하기 위한 튜너를 포함할 수 있다.

본 실시예의 디코더는 예를 들어, MPEG (Moving Picture Experts Group) 디코더로 구현될 수 있다. 여기서, 영상처리부가 수행하는 영상처리 프로세스의 종류는 한정되지 않는바, 예를 들면 인터레이스(interlace) 방식의 방송신호를 프로그레시브(progressive) 방식으로 변환하는 디인터레이싱(de-interlacing), 영상 화질 개선을 위한 노이즈 감소(noise reduction), 디테일 강화(detail enhancement), 프레임 리프레시 레이트(frame refresh rate) 변환, 라인 스캐닝(line scanning) 다양한 프로세스 중 적어도 하나를 수행할 수 있다.

영상처리부는 이러한 각 프로세스를 독자적으로 수행할 수 있는 개별적 구성의 그룹으로 구현되거나, 또는 여러 기능을 통합시킨 메인 SoC(System-on-Chip)에 포함되는 형태로서 구현 가능하다. 메인 SoC는 후술하는 프로세서(도 3의 170)를 구현하는 일례인 적어도 하나의 마이크로프로세서 또는 CPU를 포함할 수 있다.

이하, 본 발명 일 실시예에 따른 전자장치의 구체적인 구성을 도면을 참조하여 설명한다.

도 3에 도시된 바와 같이, 전자장치(100)는 통신부(110), 디스플레이부(130), 저장부(150) 및 프로세서(170)를 포함한다. 다만, 도 3에 도시된 전자장치(100)의 구성은 하나의 예시일 뿐, 본 발명의 실시예에 의한 전자장치(100)는 다른 구성으로도 구현될 수 있다. 즉, 본 발명의 실시예에 의한 전자장치(100)는, 도 3에 도시된 구성 외에 다른 구성, 예를 들면 리모컨(remote control)과 같이 사용자입력을 수신하는 사용자입력부, 영상신호를 처리하는 영상처리부 등이 추가되거나, 혹은 도 3에 도시된 구성 중 일부, 예를 들면 영상을 표시하는 디스플레이부(130)가 배제된 형태로 구현될 수도 있다.

통신부(110)는 외부장치와 유선 혹은 무선 통신방식을 사용하여 통신 가능하게 마련된다. 통신부(110)는 유선 및/또는 무선 통신모듈을 포함한다.

일 실시예에서 통신부(110) 는 블루투스(bluetooth), 블루투스 저에너지(bluetooth low energy), 적외선통신(IrDA, infrared data association), 와이파이 다이렉트(Wi-Fi Direct), 지그비(Zigbee), UWB(Ultra Wideband), NFC(Near Field Communication) 등의 근거리 통신모듈 중 적어도 하나를 포함한다. 근거리 통신모듈은 AP(access point)없이 무선으로 전자장치(100)와 외부장치 사이에 다이렉트로 통신을 지원하도록 마련된다.

일 실시예에서 통신부(110)는 무선랜유닛을 더 포함한다. 무선랜유닛은 프로세서(170)의 제어에 따라 AP를 통해 무선으로 외부기기와 연결될 수 있다. 무선랜유닛은 와이파이(Wi-Fi) 통신모듈을 포함할 수 있다.

일 실시예에서 통신부(110)는 이더넷(Ethernet) 등과 같은 유선 통신모듈을 포함할 수 있다.

본 발명 실시예에 따른 전자장치(100)의 통신부(110)는 성능에 따라 근거리 통신모듈, 무선랜유닛 및 이더넷 중 하나 또는 2 이상의 조합으로 이루어질 수 있다. 통신부(110)는 device, S/W module, circuit, chip 등의 형태로 구현될 수 있다.

본 발명 일 실시예에서 통신부(110)는 외부로부터 비디오컨텐츠를 수신한다. 다른 실시예에서 통신부(110)는 비디오컨텐츠에 대하여 생성된 비디오 서머리를 외부의 디스플레이장치로 제공할 수 있다.

디스플레이부(130)는 비디오컨텐츠 및/또는 그 비디오 서머리를 표시한다.

디스플레이부(130)의 구현 방식은 한정되지 않으며, 예를 들면 액정(liquid crystal), 플라즈마(plasma), 발광 다이오드(light-emitting diode), 유기발광 다이오드(organic light-emitting diode), 면전도 전자총(surface-conduction electron-emitter), 탄소 나노 튜브(carbon nano-tube), 나노 크리스탈(nano-crystal) 등의 다양한 디스플레이 방식으로 구현될 수 있다. 디스플레이부(130)는 그 구현 방식에 따라서 부가적인 구성, 예를 들면 구동부(driver)를 추가적으로 포함할 수 있다.

저장부(150)는 전자장치(100)의 다양한 데이터를 저장하도록 구성된다. 저장부(150)는 전자장치(100)에 공급되는 전원이 차단되더라도 데이터들이 남아있어야 하며, 변동사항을 반영할 수 있도록 쓰기 가능한 비휘발성 메모리(writable ROM)로 구비될 수 있다. 즉, 저장부(150)는 플래쉬 메모리(flash memory), EPROM 또는 EEPROM 중 어느 하나로 구비될 수 있다. 저장부(150)는 전자장치(100)의 읽기 또는 쓰기 속도가 비휘발성 메모리에 비해 빠른 DRAM 또는 SRAM과 같은 휘발성 메모리(volatile memory)를 더 구비할 수 있다.

저장부(150)에 저장되는 데이터는, 예를 들면 전자장치(100)의 구동을 위한 운영체제를 비롯하여, 이 운영체제 상에서 실행 가능한 다양한 어플리케이션, 영상데이터, 부가데이터 등을 포함한다.

구체적으로, 저장부(150)는 프로세서(170)의 제어에 따라 각 구성요소들의 동작에 대응되게 입/출력되는 신호 또는 데이터를 저장할 수 있다. 저장부(150)는 전자장치(100)의 제어를 위한 제어 프로그램, 제조사에서 제공되거나 외부로부터 다운로드 받은 어플리케이션과 관련된 UI, UI를 제공하기 위한 이미지들, 사용자 정보, 문서, 데이터베이스들 또는 관련 데이터들을 저장할 수 있다.

본 발명의 실시예에서 저장부 라는 용어는 저장부(150), 프로세서(170)에 의해 실행되는 프로그램이 저장 또는 로드되는 메모리로서 마련되는 롬(ROM)과 램(RAM) 또는 전자장치(100)에 장착 가능한 메모리 카드(도시되지 아니함)(예를 들어, micro SD 카드, 메모리 스틱)를 포함하는 것으로서 정의된다.

프로세서(170)는 전자장치(100)의 제반 구성들이 동작하기 위한 제어를 수행한다. 프로세서(170)는 이러한 제어 동작을 수행할 수 있도록 하는 제어프로그램(혹은 인스트럭션)과, 로드된 제어프로그램을 실행하는 적어도 하나의 프로세서로서, CPU(Central Processing Unit), 마이크로프로세서(microprocessor) 또는 AP(application processor) 중 적어도 하나를 포함할 수 있다. 제어프로그램은 비휘발성의 메모리인 롬에 설치되고, 설치된 제어프로그램의 적어도 일부는 실행을 위해 휘발성의 메모리인 램에 로드된다. 프로세서, 롬 및 램은 내부 버스(bus)를 통해 상호 연결된다.

프로세서는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다. 일 실시예에서 프로세서는 복수의 프로세서, 예를 들어, 메인 프로세서(main processor) 및 슬립 모드(sleep mode, 예를 들어, 대기 전원만 공급되고 디스플레이장치로서 동작하지 않는)에서 동작하는 서브 프로세서(sub processor)로서 마련될 수 있다.

본 발명 일 실시예에서 전자장치(100)가 컴퓨터인 경우, 프로세서(170)는 그래픽 처리를 위한 GPU(Graphic Processing Unit)를 더 포함할 수 있다.

또한, 다른 실시예에서 전자장치(100)가 디지털 TV로 구현되는 경우, 단일 프로세서가 마련될 수 있으며, 예를 들어 프로세서는 코어(core)와 GPU가 결합된 SoC(System On Chip) 형태로 구현될 수 있다.

본 발명에서 프로세서(170)는 전자장치(100)에 내장되는 PCB 상에 실장되는 메인 SoC(Main SoC)에 포함되는 형태로서 구현 가능하다.

제어프로그램은, BIOS, 디바이스드라이버, 운영체계, 펌웨어, 플랫폼 및 응용프로그램(어플리케이션) 중 적어도 하나의 형태로 구현되는 프로그램(들)을 포함할 수 있다. 일 실시예로서, 응용프로그램은, 전자장치(100)의 제조 시에 전자장치(100)에 미리 설치 또는 저장되거나, 혹은 추후 사용 시에 외부로부터 응용프로그램의 데이터를 수신하여 수신된 데이터에 기초하여 전자장치(100)에 설치될 수 있다. 응용 프로그램의 데이터는, 예컨대, 어플리케이션 마켓과 같은 외부 서버로부터 전자장치(100)로 다운로드될 수도 있다.

이와 같은 외부 서버는, 본 발명의 컴퓨터프로그램제품의 일례이나, 이에 한정되는 것은 아니다.

즉, 다른 실시예로서, 상기와 같은 프로세서(170)의 동작은 전자장치(100)와 별도로 마련되는 컴퓨터프로그램제품(미도시)에 저장된 컴퓨터프로그램으로 구현될 수도 있다. 이 경우, 컴퓨터프로그램제품은 컴퓨터프로그램에 해당하는 인스트럭션이 저장된 메모리와, 프로세서를 포함한다. 인스트럭션은, 프로세서에 의해 실행되면, 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하고, 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하여, 비디오특징 및 텍스트특징에 기초하여 각 프레임의 중요도를 결정하고, 결정된 중요도에 기초하여 복수의 프레임 중에서 비디오컨텐츠의 키프레임을 선택되도록 하는 것을 포함한다.

이에 따라, 전자장치(100)는 별도의 컴퓨터프로그램제품에 저장된 컴퓨터프로그램을 전자장치(100)로 다운로드 및 실행하여, 프로세서(170)의 동작을 수행할 수 있다.

후술하는 비디오컨텐츠의 처리 및 그에 따른 비디오 서머리의 생성과 관련된 동작들은 전자장치(100)의 프로세서(170) 에 의해 수행되는 것으로 이해될 것이다.

이하, 도면을 참조하여 본 발명 실시예에 따라 비디오컨텐츠로부터 비디오 서머리를 생성하기 위해 수행되는 제어동작에 대해서 설명하도록 한다.

도 4에 도시된 바와 같이, 본 발명 실시예에 따른 전자장치(100)는 비디오컨텐츠의 비디오(401)로부터 비디오특징(video features)을 추출하고, 비디오컨텐츠의 설명정보(transcript)(402)로부터 텍스트특징(text features)를 추출하며, 추출된 비디오특징 및 텍스트특징에 기초하여 비디오 서머라이징(403)을 수행하도록 제어된다. 상기와 같은, 비디오 서머라이징(403)에 의해 생성된 비디오 서머리(404)는 비디오특징뿐 아니라, 텍스트특징까지 고려하여 선택된 키 프레임으로 구성되며, 비디오 설명정보(402)와 의미론적으로 일관성을 갖는다(semantically coherent).

구체적으로, 도 5를 참조하면, 전자장치(100)에는 비디오 서머라이징을 위한 구성으로서, 비디오특징 추출부(Video Feature Extractor)(503), 텍스트특징 추출부(Text Feature Extractor)(504), 프레임 중요도 결정부(Frame importance model)(505), 및 키프레임 선택부(Key-frame selection model)(506)가 마련될 수 있다.

일 실시예에서, 비디오특징 추출부(503), 텍스트특징 추출부(504), 프레임 중요도 결정부(505) 및 키프레임 선택부(506)는 하드웨어인 프로세서(170)에 의해 실행되는 제어프로그램에 의한 소프트웨어적인 구성으로서, 프로세서(170)에 포함될 수 있다.

비디오특징 추출부(503)는 복수의 프레임으로 구성된 비디오컨텐츠(501)를 처리하고, 각 프레임으로부터 주요특징(essential features)을 추출한다. 일 실시예에서, 비디오특징 추출부(503)는, 도 5에 도시된 바와 같이, 컬러(color), 텍스처(texture)와 같은 로 레벨 특징(low level features)과 오브젝트(object), 장면(scene), 스토리라인(story line)과 같은 하이 레벨 특징(high level features)을 함께 사용하여 비디오특징을 추출한다.

텍스트특징 추출부(504)는 입력으로서 제공되는 비디오설명(video transcript)(502)를 처리하고, 그 비디오설명으로부터 의미론적인 특징(semantic features)으로서 텍스트특징을 추출한다.

프레임 중요도 결정부(505)는 비디오특징 및 텍스트특징에 기초하여 비디오컨텐츠의 복수의 프레임 각각에 대해 중요도(important score)를 할당(assign)하기 위해 사용되는 모델을 생성한다. 여기서, 중요도에 따라 소정 프레임이 서머리에 포함될지 여부가 결정될 수 있다.

키프레임 선택부(506)는 프레임 중요도 결정부(505)에서 각 프레임에 대해 부여된 중요도에 기초하여, 복수의 프레임 중 비디오 서머리를 생성하기 위한 키프레임을 선택한다. 일 실시예에서, 키프레임 선택부(506)는 선택된 복수의 키프레임의 리스트(list of key-frames)로 이루어진 비디오서머리를 생성할 수 있다.

본 발명 실시예에 따른 전자장치(100)는, 도 5에 도시된 바와 같이, 프레임 중요도 결정부(505)가, 비디오특징과 같은 시각적 컨텐츠(visual content)와 텍스트특징과 같은 의미론적인 특징(semantic features)을 함께 사용하여 프레임 중요도를 결정함으로써, 비디오컨텐츠의 설명정보와 의미론적으로 일관성을 갖는 서머리를 생성하는 비디오 서머라이제이션이 가능하므로, 보다 로버스트(more robust)하고 높은 품질(high-quality)을 갖는 비디오 서머리를 생성할 수 있게 된다.

이하, 본 발명 실시예에 따른 전자장치에서, 비디오특징과 텍스트특징을 추출하고, 프레임중요도를 결정하여 비디오서머리를 생성하는 구체적인 과정을 설명한다.

도 6에 도시된 바와 같이, 전자장치(100)의 프로세서(170)는 비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출한다(S601).

도 7에 도시된 바와 같이, 비디오특징 추출부(503)는 비디오소스로부터 수신된 비디오컨텐츠가 복수의 프레임(fame 1, frame 2, ... , frame n)으로 분리되도록 하는 비디오프로세스(701)를 수행하고, 복수의 프레임 각각에 대하여 영상특징 추출 프로세스(702)를 수행하여 비디오 특징(f1, f2, ... , fn)을 추출한다.

일 실시예에서, 비디오특징 추출부(503)는 복수의 프레임에 대한 영상추출 프로세스(702)를 통해 복수의 프레임 각각에 대하여 특징 벡터(feature vector)를 생성한다.

상기한 특징 벡터를 생성하도록 하는 영상특징 추출 프로세스(702)는, HOG(Histogram of Oriented Gradient), SIFT(Scale Invariant Feature Transform), 컬러 히스토그램(color histogram), 텍스처 추출(texture extraction), 또는 기계학습(machine learning or deep learning) 중 적어도 하나를 포함할 수 있다.

HOG는 각 프레임의 대상 영역을 일정 크기의 셀로 분할하고, 각 셀마다 기울기등급(gradient magnitude)이 일정값 이상인 에지(edge) 픽셀들의 방향에 대한 히스토그램을 구한 후 이들 히스토그램 bin 값들을 일렬로 연결한 특징 벡터를 생성한다. HOG는 템플릿 매칭과 히스토그램 매칭의 중간 단계에 있느 매칭 방법으로 볼 수 있으며, 블록 단위로는 기하학적 정보를 유지하되, 각 블록 내부에서는 히스토그램을 사용한다. HOG는 물체의 실루엣(윤곽선) 정보를 이용하므로, 프레임 내에서 사람, 자동차 등과 같이 내부 패턴이 복잡하지 않으면서 고유의 독특한 윤곽선 정보를 갖는 물체를 식별하는데 적합할 수 있다.

SITF는 각 프레임의 영상에서 코너점 등 식별이 용이한 특징점들을 선택한 후에 각 특징점들을 중심으로 한 로컬 패치(local patch)에 대하여 특징 벡터를 추출한다. SIFT는 특징점 주변의 영상패치를 소정 개수, 예를 들면 4x4 블록으로 나누고, 각 블록에 속한 픽셀들의 기울기(gradient) 방향과 크기에 대한 히스토램을 구한 후 이 히스토드램 bin 값들을 일렬로 연결하여 특징 벡터를 생성할 수 있다. SIFT는 특징점 주변의 로컬한 기울기 분포 특성 즉, 밝기 변화의 방향 및 밝기 변화의 급격한 정도를 표현하며, 대상의 크기변화, 형태변화, 방향(회전)변화에 강인하면서도 구분력이 뛰어난 특징을 갖는다.

컬러 히스토그램은 각 프레임의 영상 안에서 필셀들에 대한 명암 값의 분포를 나타내도록 하는 특징 벡터를 생성할 수 있으며, 텍스처 추출은 각 프레임의 영상에서 소정 텍츠처, 예를 들면 밝기를 나타내도록 하는 특징 벡터를 생성할 수 있다.

기계학습은 인공지능(AI)의 한 분야로서, 다층구조 형태의 신경망 즉, 뉴럴 네트워크(neural network)를 기반으로 다량의 데이터로부터 모델(model)을 구축하기 위해 사용된다. 본 발명 실시예에 따른 전자장치(100)에서는, 비디오특징 추출부(503)가 반복적인 트레이닝(training)을 통해 구성된 모델을 통해 각 프레임의 영상으로부터 특징 벡터를 생성하도록 구현될 수 있다.

일 실시예에서, 비디오특징 추출부(503)는 ImageNet dataset에 기반하여 프리-트레인된(pre-trained) 특징들로 구성된 모델에 기초하여 기계학습을 수행한다.

프로세서(170)는 비디오컨텐츠의 설명(transcript)으로부터 텍스트특징을 추출한다(S603).

도 8에 도시된 바와 같이, 텍스트특징 추출부(504)는 입력된 비디오 설명정보(video transcript)가 클리닝(clean)되도록 하는 텍스트 프로세스(801)를 수행하고, 클리닝처리된 텍스트에 대하여 텍스트추출 프로세스(802)를 수행하여 텍스트특징을 나타내는 특징 벡터(t)를 생성한다.

클리닝처리는 설명정보를 구성하는 텍스트에 대해 일반적인 단어인 스톱워드(stop word)를 제거(removal)하거나, 또는 단어에 스태밍(stemming, 어간추출)을 적용하는 것을 포함한다.

상기한 특징 벡터를 생성하도록 하는 텍스트추출 프로세스(702)는 Bow(Bag of words), TF-IDF(Term frequency-inverse document frequency) 특징 추출(feature extraction), 워드 임베딩 모델(word-embedding models) 또는 신경망 모델에 기초한 기계학습(machine learning based models like neural network) 중 적어도 하나를 포함할 수 있다. 일 실시예에서 워드 임베딩 모델은 신경망 언어 모델링 접근법 중 하나인 word2vec에 따른 모델을 활용하여 구축될 수 있다.

프로세서(170)는 단계 S601과 S603에서 추출된 비디오특징 및 텍스트특징에 기초하여 각 프레임의 중요도를 결정한다(S605).

도 9는 본 발명 일 실시예에 따른 전자장치에서 복수의 프레임에 대해 프레임 중요도를 결정하는 구성의 동작을 설명하는 도면이고, 도 10은 프레임 중요도를 결정하는 신경망 구조의 일례를 도시한 것이다.

도 9에 도시된 바와 같이, 프레임 중요도 결정부(505)는 비디오특징 추출부(503)로부터 비디오특징을 입력받고, 텍스트특징 추출부(504)로부터 텍스트특징을 입력받는다. 프레임 중요도 결정부(505)는 입력된 비디오특징 및 텍스트특징에 대한 기계학습(901)을 수행하여 학습된 모델(learned model)로부터 프레임 중요도 예측 프로세스(902)를 수행함으로써, 각 프레임에 대한 중요도(importance score)(S1, S2, ... , Sn)를 결정한다.

일 실시예에서, 프레임 중요도 결정부(505)는 비디오특징 및 텍스트특징으로부터 각 프레임에 중요도를 할당(assign)하기 위해 사용되는 모델을 생성(create)하며, 중요도는 각 프레임을 서머리에 포함시킬지 여부(whether to keep a frame in summary or not)를 나타낸다. 여기서, 프레임 중요도 결정부(505)는 입력으로서의 비디오특징과 텍스트특징 및 실측정보(ground-truth)로서의 프레임중요도에 기초하여 프레임 중요도 예측 모델을 트레이닝하기 위한 기계학습 시스템을 포함할 수 있다.

프레임 중요도 결정부(505)에서는, 비디오 및 텍스트특징의 처리방법, 파라미터의 수 및 유형(number and type of parameters), 내부 접속(internal connections), 출력데이터의 생성방법 등에 따라, 프레임 중요도 예측(predicting frame importance score)을 위한 모델 구성(model configuration)이 선택된다(chosen). 모델 구성은 텍스트특징에 더하여 비디오의 연속성(sequential nature)을 분석 가능하도록 선택된다.

도 10을 참조하면, 일 실시예에서 프레임 중요도 예측을 위한 모델은 완전 연결된 복수의 레이어(fully connected layers)를 포함하는 시계열분석(time-series analysis)을 위한 회기 신경망(Recurrent Neural Networks)으로 구성될 수 있다. 여기서, 시계열분석은 비디오시퀀스(video sequence)에 따른다.

회기 신경망은, 도 10에 도시된 바와 같이, 입력 레이어(1001, 1002), 중간 레이어(903) 및 출력 레이어(1004)를 포함한다. 여기서, 중간 레이어는 입력받은 벡터를 변형(transform)시키는 일련의 히든 레이어(hidden layer)로 구성될 수 있다. 각 히든 레이어는 뉴런들로 이루어진다.

본 발명 일 실시예의 전자장치(100)에서, 프레임 중요도 결정부(505)를 구성하는 회기신경망 구조는, 히든 레이어로서, 도 10과 같이, 포워드(forward) 장단기 메모리(LSTM, Long-Short term Memory) 레이어와, 백워드(backward) 장단기 메모리 레이어와, 공유된(shared) 다층 퍼셉트론(MLP, Multilayer Perceptron) 레이어를 포함하는 것을 일례로 한다.

일 실시예에서, 프레임 중요도 결정부(505)는 모델 구성을 위해, 모델링 시스템 평가 결과(modelling system evaluation results)에 기초한 모델 구성 선택 및 조정(model configuration selection and adjustment) 과정을 수행할 수 있다.

모델 파라미터(model parameter)는 랜덤(random) 또는 비랜덤(non-random) 데이터로 초기화된다. 모델 에러(model error)는 프레임의 예측 중요도(frame importance prediction scores)와 실측된 중요도(ground-truth importance score)를 비교하여(comparing) 연산된다(calculated).

스톱 조건(stop condition)은 모델 에러 및 다른 평가지표(other evolution metrics)에 기초하여 체크된다(checked). 스톱 조건에 부합되지 않으면, 트레이닝은 계속되고, 그렇지 않으면 최종 모델(final model)이 추가 사용(further use)을 위해 저장된다(saved).

프로세서(170)는 단계 S605에서 결정된 중요도에 기초하여, 비디오컨텐츠의 복수의 프레임 중에서 키프레임을 선택한다(S607).

도 11에 도시된 바와 같이, 키프레임 선택부(506)는 추출된 각 프레임의 비디오특징(f1, f2, ... , fn)과, 텍스트특징(t)과, 각 프레임에 대한 중요도(s1, s2, ..., sn)를 입력으로서 수신한다. 여기서, 키프레임 선택부(506)에 수신되는 입력 중 각 프레임의 비디오특징(frame-level video features)과 텍스트특징은 옵션이 된다(optional). 즉, 키프레임 선택부(506)는 프레임 중요도 결정부(505)로부터 각 프레임의 중요도를 수신하도록 구현될 수 있다.

키프레임 선택부(506)는 키프레임 선택 모델링(key-frame selection modeling)(1001)을 수행하여, 선택된 프레임의 리스트로 이루어진 비디오 서머리가 생성(producing)되도록 제어한다. 여기서, 키프레임 선택부(506)는 프레임 중요도와, 옵션으로서 입력 가능한 비디오 및 텍스트 특징에 기초하여 비디오 서머리를 생성하기 위한 베스트 키프레임들(best key-frames)을 선택할 수 있다.

일 실시예에서, 키프레임 선택부(506)는 예를 들면, 높은 프레임 중요도를 갖는 소정 개수의 프레임을 선택(selecting n-frames with highest frame importance scores)하는 방식에 기초한 간단한 휴리스틱(simple heuristic) 시스템으로 구현될 수 있다.

다른 실시예에서, 키프레임 선택부(506)는 DPP(Determinantal Point process)와 같은 확률적(stochastic) 방식에 기초한 시스템으로 구현될 수 있다. DPP는 불필요한 프레임을 제거(eliminating redundant frames)하고 다양한 프레임을 포함(including diverse frames)시킴으로써, 정확도(precision)와 재현율(recall) 간의 적절한 균형을 보장할 수 있다(ensures a fine balance).

또 다른 실시예에서, 키프레임 선택부(506)는 획득된 키프레임 선택의 결과를 최적화하기 위해, DPP와 같은 방식 외에(on top of) 기계학습을 더 채용(employ)할 수 있다. 여기서, 키프레임 선택을 위한 기계학습 모델은 프레임 중요도 결정부(505)에서 설명한 프레임 중요도 결정을 위한 모델 구성과 유사한 방식에 의해 구성될 수 있다.

프로세서(170)는 단계 S607에서 선택된 키프레임으로 이루어진 비디오서머리를 생성한다(S609). 여기서, 생성된 비디오 서머리는 비디오컨텐츠의 비디오특징뿐 아니라, 텍스트특징까지 고려하여 선택된 키 프레임으로 구성되므로, 비디오 설명과 의미론적으로 일관성을 갖는다(semantically coherent).

그리고, 단계 S609에서 생성된 비디오서머리가 사용자에게 제공된다(S611). 전자장치(100)가 TV나 스마트폰와 같이 디스플레이부(130)를 포함하는 경우, 비디오서머리는 전자장치(100)에 의해 사용자에게 제공될 수 있다. 전자장치(100)가 셋탑박스나 서버와 같이 디스플레이장치와 유선 또는 무선으로 연결된 장치인 경우, 비디오서머리는 디스플레이장치로 전달되어 사용자에게 제공될 수 있다.

상기와 같은 본 발명의 다양한 실시예에 따르면, 본 발명 전자장치(100)에서는, 프로세서(170)가 비디오컨텐츠의 복수의 프레임 각각으로부터 비디오특징을 추출하고, 비디오컨텐츠의 설명으로부터 텍스트특징을 추출하며, 각 프레임별 비디오특징 및 텍스트특징에 기초하여 각 프레임에 대한 중요도를 결정하고, 결정된 중요도에 따라 선택된 키프레임으로 구성된 비디오서머리를 생성하도록 제어된다.

이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며 특허청구범위 내에서 다양하게 실시될 수 있다.

Claims

전자장치에 있어서,

인스트럭션이 저장되는 메모리와;

상기 인스트럭션을 실행하여,

비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하고,

상기 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하여,

상기 비디오특징 및 상기 텍스트특징에 기초하여 상기 각 프레임의 중요도를 결정하고,

상기 결정된 중요도에 기초하여 상기 복수의 프레임 중에서 상기 비디오컨텐츠의 키프레임을 선택하는 프로세서를 포함하는 전자장치.
제1항에 있어서,

상기 프로세서는,

상기 비디오특징 및 상기 텍스트특징에 기초하여 기계학습을 수행하여 학습된 모델을 생성하고, 상기 생성된 학습된 모델을 이용하여 상기 각 프레임의 중요도를 예측하는 전자장치.
제2항에 있어서,

상기 프로세서는,

시계열분석을 위한 회기통신망을 이용하여 상기 기계학습을 수행하는 전자장치.
제1항에 있어서,

상기 프로세서는,

HOG(Histogram of Oriented Gradient), SIFT(Scale Invariant Feature Transform), 컬러 히스토그램, 텍스처 추출, 또는 기계학습 중 적어도 하나를 이용하여 상기 비디오특징을 추출하는 전자장치.
제1항에 있어서,

상기 프로세서는,

Bow(Bag of words), TF-IDF, 워드 임베딩 또는 신경망 모델에 기초한 기계학습 중 적어도 하나를 이용하여 상기 텍스트특징을 추출하는 전자장치.
제1항에 있어서,

상기 프로세서는,

상기 비디오컨텐츠의 설명정보를 구성하는 텍스트로부터 스톱워드를 제거 또는 스태밍하는 클리닝을 수행하고,

상기 클리닝된 텍스트로부터 상기 텍스트특징을 추출하는 전자장치.
제1항에 있어서,

상기 프로세서는,

상기 선택된 키프레임으로 구성된 비디오서머리를 생성하는 전자장치.
제7항에 있어서,

상기 생성된 비디오서머리를 표시하는 디스플레이부를 더 포함하는 전자장치.
전자장치의 제어방법에 있어서,

비디오컨텐츠의 복수의 프레임으로부터 각 프레임의 비디오특징을 추출하는 단계;

상기 비디오컨텐츠의 설명정보로부터 텍스트특징을 추출하는 단계;

상기 비디오특징 및 상기 텍스트특징에 기초하여 상기 각 프레임의 중요도를 결정하는 단계; 및

상기 결정된 중요도에 기초하여 상기 복수의 프레임 중에서 상기 비디오컨텐츠의 키프레임을 선택하는 단계를 포함하는 전자장치의 제어방법.
제9항에 있어서,

상기 중요도를 결정하는 단계는,

상기 비디오특징 및 상기 텍스트특징에 기초하여 기계학습을 수행하여 학습된 모델을 생성하는 단계; 및

상기 생성된 학습된 모델을 이용하여 상기 각 프레임의 중요도를 예측하는 단계를 포함하는 전자장치의 제어방법.
제10항에 있어서,

상기 모델을 생성하는 단계는,

시계열분석을 위한 회기통신망을 이용하여 상기 기계학습을 수행하는 단계를 포함하는 전자장치의 제어방법.
제9항에 있어서,

상기 비디오특징을 추출하는 단계는,

HOG(Histogram of Oriented Gradient), SIFT(Scale Invariant Feature Transform), 컬러 히스토그램, 텍스처 추출, 또는 기계학습 중 적어도 하나를 이용하여 상기 비디오특징을 추출하는 전자장치의 제어방법.
제9항에 있어서,

상기 텍스트특징을 추출하는 단계는,

Bow(Bag of words), TF-IDF, 워드 임베딩 또는 신경망 모델에 기초한 기계학습 중 적어도 하나를 이용하여 상기 텍스트특징을 추출하는 전자장치의 제어방법.
제13항에 있어서,

상기 텍스트특징을 추출하는 단계는,

상기 비디오컨텐츠의 설명정보를 구성하는 텍스트로부터 스톱워드를 제거 또는 스태밍하는 클리닝을 수행하는 단계; 및

상기 클리닝된 텍스트로부터 상기 텍스트특징을 추출하는 단계를 더 포함하는 전자장치의 제어방법.
제9항에 있어서,

상기 선택된 키프레임으로 구성된 비디오서머리를 생성하는 단계; 및

상기 생성된 비디오서머리를 표시하는 단계를 더 포함하는 전자장치의 제어방법.