KR102228213B1

KR102228213B1 - 영상 추천 방법 및 이를 수행하는 장치들

Info

Publication number: KR102228213B1
Application number: KR1020190086360A
Authority: KR
Inventors: 윤경로; 나성원
Original assignee: 건국대학교 산학협력단
Priority date: 2018-12-05
Filing date: 2019-07-17
Publication date: 2021-03-16
Also published as: KR20200068558A

Abstract

영상 추천 방법 및 이를 수행하는 장치들이 개시된다. 일 실시예에 따른 영상 추천 방법은 영상을 대표하는 키 프레임의 전체 이미지에 포함된 객체에 기초하여 상기 전체 이미지로부터 복수의 크롭 이미지들을 생성하는 단계와, 상기 복수의 크롭 이미지들 간의 우선 순위에 기초하여 상기 영상과 유사한 유사 컨텐츠를 제공하기 위한 쿼리를 생성하는 단계를 포함한다.

Description

영상 추천 방법 및 이를 수행하는 장치들{METHOD OF RECOMMENDATING IMAGE AND APPARATUSES PERFORMING THE SAME}

아래 실시예들은 영상 추천 방법 및 이를 수행하는 장치들에 관한 것이다.

최근에는 스마트 폰 또는 스마트 패드와 같은 휴대용 스마트 기기의 보급이 급속도로 확대되고 있다.

또한, 최근에는 휴대용 스마트 기기를 사용하는 사용자를 위한 다양한 종류의 콘텐츠가 제공되고 있다. 예를 들어, 최근에는 IPTV와 스마트 TV, 휴대용 스마트 기기 등에서 검색 및 시청가능한 다양한 영상 콘텐츠가 사용자에게 제공되고 있다.

특히, 휴대용 스마트 기기를 사용하는 사용자는 유투브 등을 통해 영상 콘텐츠를 많이 검색 및 시청하고 있다. 예를 들어, 유투브는 현재 사용자가 시청하고 있는 영상 콘텐츠와 유사한 콘텐츠를 계속적으로 사용자에게 추천할 수 있다.

하지만, 사용자는 검색 서비스되는 콘텐츠의 양이 방대하여 사용자가 원하는 콘텐츠를 검색하는 시간과 노력이 증가하게 되었다.

이에, 최근에는 사용자가 원하는 영상 콘텐츠를 쉽고 정확하게 검색하고 추천해 주는 다양한 방법들이 연구되고 있다.

실시예들은 영상을 대표하는 키 프레임을 선택한 후, 키 프레임의 이미지를 크롭핑(cropping)하여 영상과 유사한 유사 컨텐츠를 제공하기 위한(또는 검색하기 위한) 쿼리를 생성하는 기술을 제공할 수 있다.

일 실시예에 따른 영상 추천 방법은 영상을 대표하는 키 프레임의 전체 이미지에 포함된 객체에 기초하여 상기 전체 이미지로부터 복수의 크롭 이미지들을 생성하는 단계와, 상기 복수의 크롭 이미지들 간의 우선 순위에 기초하여 상기 영상과 유사한 유사 컨텐츠를 제공하기 위한 쿼리를 생성하는 단계를 포함한다.

상기 복수의 크롭 이미지들을 생성하는 단계는 상기 전체 이미지에 포함된 객체에 기초하여 상기 전체 이미지로부터 제1 복수의 크롭 이미지들을 생성하는 단계와, 상기 제1 복수의 크롭 이미지들 중에서 적어도 하나의 제1 크롭 이미지에 포함된 객체에 기초하여 상기 적어도 하나의 제1 크롭 이미지로부터 제2 복수의 크롭 이미지들을 생성하는 단계를 포함할 수 있다.

상기 제1 복수의 크롭 이미지들을 생성하는 단계는 상기 제1 복수의 크롭 이미지들의 순위 및 이미지 크기와 상기 제1 복수의 크롭 이미지들에 포함된 객체의 라벨을 결정하는 단계를 포함할 수 있다.

상기 제2 복수의 크롭 이미지들을 생성하는 단계는 상기 제2 복수의 크롭 이미지들의 순위 및 이미지 크기와 상기 제2 복수의 크롭 이미지들에 포함된 객체의 라벨을 결정하는 단계를 포함할 수 있다.

상기 결정하는 단계는 상기 제2 복수의 크롭 이미지들 중에서 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하는지 여부에 기초하여 상기 적어도 하나의 제2 크롭 이미지들의 순위를 변경하는 단계를 포함할 수 있다.

상기 변경하는 단계는 상기 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하지 않는 경우, 상기 적어도 하나의 제2 크롭 이미지의 순위를 유지하는 단계와, 상기 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하는 경우, 상기 적어도 하나의 제2 크롭 이미지의 순위를 상기 제2 복수의 크롭 이미지들의 순위보다 높게 변경하는 단계를 포함할 수 있다.

상기 제2 복수의 크롭 이미지들의 순위는 상기 제1 복수의 크롭 이미지들의 순위보다 높게 결정될 수 있다.

상기 쿼리를 생성하는 단계는 상기 키 프레임으로부터 상기 키 프레임의 메타 데이터를 추출하는 단계와, 상기 우선 순위에 기초하여 상기 복수의 크롭 이미지들에 포함된 객체의 라벨이 정렬된 상기 영상에 대한 이미지 디스크립션을 생성하는 단계와, 상기 메타 데이터 및 상기 이미지 디스크립션을 포함하는 상기 쿼리를 생성하는 단계를 포함할 수 있다.

상기 이미지 디스크립션을 생성하는 단계는 상기 복수의 크롭 이미지들 각각의 순위 및 이미지 크기에 기초하여 상기 복수의 크롭 이미지들 간의 우선 순위를 결정하는 단계와, 상기 복수의 크롭 이미지들에 포함된 객체의 라벨을 상기 우선 선위 순으로 정렬하여 상기 이미지 디스크립션을 생성하는 단계를 포함할 수 있다.

상기 방법은 상기 쿼리를 통해 상기 영상과 유사한 복수의 유사 컨텐츠들을 검색하는 단계와, 상기 복수의 유사 컨텐츠들을 상기 영상과 유사한 추천 영상으로 제공하는 단계를 더 포함할 수 있다.

상기 복수의 유사 컨텐츠들은 상기 복수의 유사 컨텐츠들에 대한 영상 및 영상 리스트를 포함할 수 있다.

일 실시예에 따른 영상 추천 장치는 통신 모듈과, 영상을 대표하는 키 프레임의 전체 이미지에 포함된 객체에 기초하여 상기 전체 이미지로부터 복수의 크롭 이미지들을 생성하고, 상기 복수의 크롭 이미지들 간의 우선 순위에 기초하여 상기 영상과 유사한 유사 컨텐츠를 제공하기 위한 쿼리를 생성하는 컨트롤러를 포함한다.

상기 컨트롤러는 상기 전체 이미지에 포함된 객체에 기초하여 상기 전체 이미지로부터 제1 복수의 크롭 이미지들을 생성하고, 상기 제1 복수의 크롭 이미지들 중에서 적어도 하나의 제1 크롭 이미지에 포함된 객체에 기초하여 상기 적어도 하나의 제1 크롭 이미지로부터 제2 복수의 크롭 이미지들을 생성할 수 있다.

상기 컨트롤러는 상기 제1 복수의 크롭 이미지들의 순위 및 이미지 크기와 상기 제1 복수의 크롭 이미지들에 포함된 객체의 라벨을 결정할 수 있다.

상기 컨트롤러는 상기 제2 복수의 크롭 이미지들의 순위 및 이미지 크기와 상기 제2 복수의 크롭 이미지들에 포함된 객체의 라벨을 결정할 수 있다.

상기 컨트롤러는 상기 제2 복수의 크롭 이미지들 중에서 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하는지 여부에 기초하여 상기 적어도 하나의 제2 크롭 이미지들의 순위를 변경할 수 있다.

상기 컨트롤러는 상기 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하지 않는 경우, 상기 적어도 하나의 제2 크롭 이미지의 순위를 유지하고, 상기 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하는 경우, 상기 적어도 하나의 제2 크롭 이미지의 순위를 상기 제2 복수의 크롭 이미지들의 순위보다 높게 변경할 수 있다.

상기 컨트롤러는 상기 키 프레임으로부터 상기 키 프레임의 메타 데이터를 추출하고, 상기 우선 순위에 기초하여 상기 복수의 크롭 이미지들에 포함된 객체의 라벨이 정렬된 상기 영상에 대한 이미지 디스크립션을 생성하고, 상기 메타 데이터 및 상기 이미지 디스크립션을 포함하는 상기 쿼리를 생성할 수 있다.

상기 컨트롤러는 상기 복수의 크롭 이미지들 각각의 순위 및 이미지 크기에 기초하여 상기 복수의 크롭 이미지들 간의 우선 순위를 결정하고, 상기 복수의 크롭 이미지들에 포함된 객체의 라벨을 상기 우선 선위 순으로 정렬하여 상기 이미지 디스크립션을 생성할 수 있다.

상기 컨트롤러는 상기 쿼리를 통해 상기 영상과 유사한 복수의 유사 컨텐츠들을 검색하고, 상기 복수의 유사 컨텐츠들을 상기 영상과 유사한 추천 영상으로 제공하고, 상기 복수의 유사 컨텐츠들은 상기 복수의 유사 컨텐츠들에 대한 영상 및 영상 리스트를 포함할 수 있다.

도 1은 일 실시예에 따른 영상 추천 시스템의 개략적인 블록도를 나타낸다.
도 2는 도 1에 도시된 영상 추천 장치의 개략적인 블록도를 나타낸다.
도 3은 도 2에 도시된 키 프레임 선택기의 개략적인 블록도를 나타낸다.
도 4는 도 2에 도시된 영상 추천기의 개략적인 블록도를 나타낸다.
도 5는 도 4에 도시된 크롭 이미지 생성기의 동작을 설명하기 위한 일 예를 나타낸다.
도 6은 도 4에 도시된 쿼리 생성기의 동작을 설명하기 위한 일 예를 나타낸다.
도 7은 도 4에 도시된 추천 영상 제공기의 동작을 설명하기 위한 일 예를 나타낸다.
도 8은 도 1에 도시된 영상 추천 장치의 동작을 설명하기 위한 일 예를 나타낸다.
도 9는 도 1에 도시된 영상 추천 장치의 키 프레임 선택 동작을 설명하기 위한 순서도를 나타낸다.
도 10은 도 1에 도시된 영상 추천 장치의 추천 영상 제공 동작을 설명하기 위한 순서도를 나타낸다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

제1 또는 제2등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해서 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 실시예의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 명세서에서의 모듈(module)은 본 명세서에서 설명되는 각 명칭에 따른 기능과 동작을 수행할 수 있는 하드웨어를 의미할 수도 있고, 특정 기능과 동작을 수행할 수 있는 컴퓨터 프로그램 코드를 의미할 수도 있고, 또는 특정 기능과 동작을 수행시킬 수 있는 컴퓨터 프로그램 코드가 탑재된 전자적 기록 매체, 예를 들어 프로세서 또는 마이크로 프로세서를 의미할 수 있다.

다시 말해, 모듈이란 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및/또는 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적 및/또는 구조적 결합을 의미할 수 있다.

도 1은 일 실시예에 따른 영상 추천 시스템의 개략적인 블록도를 나타낸다.

영상 추천 시스템(10)은 영상 제공 장치(100) 및 영상 추천 장치(300)를 포함한다.

영상 제공 장치(100)는 영상을 영상 추천 장치(300)에 제공할 수 있다. 영상은 객체가 포함된 다양한 영상일 수 있다. 객체는 인물, 동물 및 사물 등 다양한 객체일 수 있다.

예를 들어, 영상 제공 장치(100)는 객체를 촬영하여 객체에 대한 영상을 생성하는 촬영 장치일 수 있다. 영상 제공 장치(100)는 다양한 객체에 대한 영상을 보유한 전자 장치일 수 있다. 전자 장치는 영상을 저장한 데이터 베이스를 포함할 수 있다.

예를 들어, 전자 장치는 PC(personal computer), 데이터 서버, 또는 휴대용 전자 장치 등 다양한 장치일 수 있다. 휴대용 전자 장치는 랩탑(laptop) 컴퓨터, 이동 전화기, 스마트 폰(smart phone), 태블릿(tablet) PC, 모바일 인터넷 디바이스(mobile internet device(MID)), PDA(personal digital assistant), EDA(enterprise digital assistant), 디지털 스틸 카메라(digital still camera), 디지털 비디오 카메라(digital video camera), PMP(portable multimedia player), PND(personal navigation device 또는 portable navigation device), 휴대용 게임 콘솔(handheld game console), e-북(e-book), 스마트 디바이스(smart device)으로 구현될 수 있다. 이때, 스마트 디바이스는 스마트 워치(smart watch) 또는 스마트 밴드(smart band)로 구현될 수 있다.

영상 추천 장치(300)는 영상을 대표하는 키 프레임을 선택한 후, 키 프레임의 이미지를 크롭핑(cropping)하여 영상과 유사한 유사 컨텐츠를 제공하기 위한(또는 검색하기 위한) 쿼리를 생성할 수 있다.

이에, 영상 추천 장치(300)는 쿼리를 통해 영상과 유사한 유사 컨텐츠를 검색하고, 검색된 유사 컨텐츠를 추천 영상으로 제공하여 사용자가 시청하는 영상과 유사한 유사 컨텐츠를 추천할 수 있다.

또한, 영상 추천 장치(300)는 영상에 포함된 얼굴을 인식하여 더 세분화된 semantic 분류가 가능하고, 키 프레임의 이미지가 크롭핑된 이미지들 간의 우선 순위에 기초하여 쿼리를 생성하기에, 영상과 유사한 유사 컨텐츠를 검색하는 검색 정확도가 높아질 수 있다.

영상 추천 장치(300)는 Text 기반이 아닌 영상 정보를 구체적으로 인식 및 세분화(또는 분류)가 가능하기에 잘못된 Text 정보로 인한 오류가 보다 적을 수 있다.

도 1에서 영상 추천 장치(300)가 영상 제공 장치(100)의 외부에 구현된 별도 장치로 도시되었지만, 반드시 이에 한정되는 것은 아니며, 실시예에 따라 영상 추천 장치(300)는 영상 제공 장치(100) 내에 구현될 수 있다.

도 2는 도 1에 도시된 영상 추천 장치의 개략적인 블록도를 나타낸다.

영상 추천 장치(300)는 통신 모듈(310), 컨트롤러(350) 및 메모리(330)를 포함한다.

통신 모듈(310)은 영상 제공 장치(100)로부터 전송된 영상을 컨트롤러(350)에 전송할 수 있다.

통신 모듈(310)은 컨트롤러(350)로부터 전송된 영상을 다양한 장치에 제공할 수 있다.

메모리(330)는 컨트롤러(350)에 의해 실행가능한 인스트럭션들(또는 프로그램)을 저장할 수 있다. 예를 들어, 인스트럭션들은 컨트롤러(350)의 동작 및/또는 컨트롤러(350)의 각 구성의 동작을 실행하기 위한 인스트럭션들을 포함할 수 있다.

컨트롤러(350)는 메모리(330)에 저장된 데이터를 처리할 수 있다. 컨트롤러(350)는 메모리(330)에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 컨트롤러(350)에 의해 유발된 인스트럭션(instruction)들을 실행할 수 있다.

컨트롤러(350)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다.

예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.

컨트롤러(350)는 영상 추천 장치(300)의 전반적인 동작을 제어할 수 있다. 예를 들어, 컨트롤러(350)는 영상 추천 장치(300)의 각 구성(310 및 330)의 동작을 제어할 수 있다.

컨트롤러(350)는 키 프레임 선택기(370) 및 영상 추천기(390)를 포함할 수 있다.

키 프레임 선택기(370)는 영상에 포함된 복수의 프레임들 간의 코사인 유사도에 기초하여 복수의 프레임들 중에서 영상을 대표하는 키 프레임을 선택할 수 있다. 키 프레임은 영상 및 영상을 구성하는 신(scene)을 대표하는 프레임일 수 있다. 영상이 하나 이상의 신으로 구성된 경우, 키 프레임은 하나 이상의 키 프레임일 수 있다.

영상 추천기(390)는 키 프레임의 전체 이미지가 크롭핑된 복수의 크롭 이미지들 간의 우선 순위에 기초하여 영상과 유사한 유사 컨텐츠를 제공하기 위한 쿼리를 생성하고, 쿼리를 통해 영상과 유사한 추천 영상을 제공할 수 있다.

도 3은 도 2에 도시된 키 프레임 선택기의 개략적인 블록도를 나타낸다.

키 프레임 선택기(370)는 분류기(371), 추출기(373), 계산기(375) 및 선택기(357)을 포함할 수 있다. 분류기(371), 추출기(373), 계산기(375) 및 선택기(357)는 모두 모듈화될 수 있다.

분류기(371)는 영상에 포함된 복수의 프레임들을 분류할 수 있다. 예를 들어, 분류기(371)는 jpeg 형식으로 영상에 포함된 복수의 프레임들을 분류(또는 이산화)할 수 있다. 이때, 영상은 각기 다른 포맷일 수 있다. 프레임 레이트(frame rate)는 동적으로 변경될 수 있다. 분류기(371)는 video discretization 모듈일 수 있다.

추출기(373)는 CNN(convolutional neural network)을 이용하여 프레임 순서에 따라 복수의 프레임들의 특징 벡터들을 순차적으로 추출할 수 있다. 예를 들어, 추출기(373)는 프레임 순서에 따라 순차적으로 복수의 프레임들 각각의 특징 벡터를 추출할 수 있다. 특징 벡터는 CNN의 fully connected layer 전의 pooling layer를 통해 추출될 수 있다. 특징 벡터는 512 크기의 벡터일 수 있다.

상술한 바와 같이 추출기(373)가 CNN을 이용하지만, 이에 한정하는 것은 아니다. 예를 들어, 추출기(373)는 DNN(deep neural network) 등 다양한 신경망을 이용하여 특징 벡터를 추출할 수 있다.

계산기(375)는 복수의 프레임들의 특징 벡터들 간의 코사인 값을 계산할 수 있다. 예를 들어, 계산기(375)는 임의의 두 특징 벡터들 간의 코사인 값을 계산할 수 있다. 임의의 두 특징 벡터들은 프레임 순서에 따라 순차적인 프레임들의 특징 벡터일 수 있다. 코사인 값은 임의의 두 특징 벡터들 간의 코사인 각도일 수 있다. 코사인 각도는 0 도 내지 180 도 중에서 어느 하나일 수 있다.

계산기(375)는 복수의 프레임들의 특징 벡터들 간의 코사인 값에 기초하여 복수의 프레임들 간의 코사인 유사도(CSM(cosine similarity measure) value)를 계산할 수 있다. 코사인 유사도는 복수의 프레임들이 유사한지 여부를 나타내는 지표일 수 있다.

예를 들어, 코사인 유사도는 -1 내지 1 중에서 어느 하나일 수 있다. 코사인 유사도는 코사인 각도가 0 도인 경우, 1일 수 있다. 코사인 유사도는 코사인 각도가 90 도인 경우, 0일 수 있다. 코사인 유사도는 코사인 각도가 180 도 인 경우, -1일 수 있다. 임의의 두 특징 벡터들은 임의의 두 특징 벡터들 간의 코사인 유사도가 1에 가까울수록 유사할 수 있다.

즉, 코사인 유사도는 임의의 두 특징 벡터들 간의 코사인 각도에 기초하여 임의의 두 특징 벡터들 간의 유사도를 나타내는 지표일 수 있다.

선택기(377)는 계산기(375)로부터 전송된 복수의 프레임들 간의 코사인 유사도에 기초하여 복수의 프레임들 간의 유사 여부를 결정할 수 있다.

복수의 프레임들 중에서 프레임 순서에 따라 순차적인 임의의 두 프레임들 간의 코사인 유사도가 임계값 이상인 경우, 선택기(377)는 임의의 두 프레임들이 유사하다고 결정할 수 있다. 임계값은 프레임들이 유사한지 여부를 결정하기 위한 기준값으로 기 설정될 수 있다. 임계값은 약 0.9일 수 있다.

복수의 프레임들 중에서 프레임 순서에 따라 순차적인 임의의 두 프레임들 간의 코사인 유사도가 임계값 미만인 경우, 선택기(377)는 임의의 두 프레임들이 유사하지 않다고 결정할 수 있다.

선택기(377)는 복수의 프레임들 간의 유사 여부에 기초하여 복수의 프레임들 중에서 복수의 후보 키 프레임들을 선택할 수 있다. 복수의 후보 키 프레임들은 영상을 구성하는 하나 이상의 신을 대표하는 키 프레임이 될 수 있는 후보일 수 있다.

예를 들어, 선택기(377)는 카운팅 알고리즘(counting algorithm 또는 랭킹 알고리즘(ranking algorithm))을 이용하여 복수의 프레임들 간의 유사 여부에 따라 복수의 프레임들의 유사 프레임 수를 카운팅할 수 있다. 유사 프레임 수는 하나의 프레임에 유사하다고 결정된 프레임에 대한 총수(또는 총 프레임 수)일 수 있다. 이때, 선택기(377)는 복수의 프레임들 간의 유사 여부에 기초하여 영상을 구성하는 하나 이상의 신을 구분할 수 있다.

선택기(377)는 복수의 프레임들 간의 유사 여부에 기초하여 영상을 구성하는 하나 이상의 신을 구분할 수 있다.

예를 들어, 선택기(377)는 복수의 프레임들 중에서 서로 유사하지 않는 프레임들이 발생하는 경우, 서로 유사하지 않는 프레임들을 기준으로 신을 구분할 수 있다.

선택기(377)는 페널티 함수를 이용하여 복수의 프레임들 중에서 유사 프레임 수가 높은(또는 많은) 프레임들을 복수의 후보 키 프레임들로 선택할 수 있다.

단일 신인 경우(또는 서로 유사하지 않는 프레임들이 없는 경우), 선택기(377)는 복수의 프레임들 중에서 유사 프레임 수가 높은 프레임을 후보 키 프레임으로 선택할 수 있다.

복수개의 신인 경우, 선택기(377)는 페널티 함수에 따라 영상의 전체 프레임 수와 신별 유사 프레임 수가 높은 프레임(이하 ‘신 프레임’이라 함)의 유사 프레임 수에 기초하여 신별 신 프레임 중에서 하나 이상을 후보 키 프레임으로 선택할 수 있다.

예를 들어, 선택기(377)는 순차적인 임의의 두 신들 중에서 순서가 빠른 신의 신 프레임의 유사 프레임 수와 전체 프레임 수 간의 비율을 보다 순서가 느린 신의 신 프레임의 유사 프레임 수가 높은 경우, 순서가 느린 신의 신 프레임을 후보 키 프레임으로 선택할 수 있다.

단일의 후보 키 프레임이 선택된 경우, 선택기(377)는 단일의 후보 키 프레임을 영상 및 신을 대표하는 키 프레임으로 선택할 수 있다.

복수의 후보 키 프레임들이 선택된 경우, 선택기(377)는 복수의 후보 키 프레임들 중에서 하나 이상의 신을 대표하는 키 프레임을 선택할 수 있다.

예를 들어, 선택기(377)는 복수의 후보 키 프레임들 간의 코사인 값에 기초하여 복수의 후보 키 프레임들 간의 코사인 유사도를 계산할 수 있다.

먼저, 선택기(377)는 복수의 후보 키 프레임들의 특징 벡터들 간의 코사인 값을 계산할 수 있다. 예를 들어, 선택기(377)는 계산기(375)를 통해 임의의 두 후보 키 프레임들의 특징 벡터들 간의 코사인 값을 계산할 수 있다. 임의의 두 후보 키 프레임들은 프레임 순서에 따라 순차적인 후보 키 프레임일 수 있다.

이후에, 선택기(377)는 복수의 후보 키 프레임들의 특징 벡터들 간의 코사인 값에 기초하여 복수의 후보 키 프레임들 간의 코사인 유사도를 계산할 수 있다.

선택기(377)는 복수의 후보 키 프레임들 간의 코사인 유사도에 기초하여 복수의 후보 키 프레임들 중에서 키 프레임을 선택할 수 있다.

먼저, 선택기(377)는 복수의 후보 키 프레임들 간의 코사인 유사도에 기초하여 복수의 후보 키 프레임들 간의 유사 여부를 결정할 수 있다.

복수의 후보 키 프레임들 중에서 프레임 순서에 따라 순차적인 임의의 두 후보 키 프레임들 간의 코사인 유사도가 임계값 이상인 경우, 선택기(377)는 임의의 두 후보 키 프레임들이 유사하다고 결정할 수 있다.

복수의 후보 키 프레임들 중에서 프레임 순서에 따라 순차적인 임의의 두 후보 키 프레임들 간의 코사인 유사도가 임계값 미만인 경우, 선택기(377)는 임의의 두 후보 키 프레임들이 유사하지 않다고 결정할 수 있다.

이후에, 선택기(377)는 복수의 후보 키 프레임들 간의 유사 여부에 기초하여 복수의 후보 키 프레임들 중에서 하나 이상의 후보 키 프레임을 키 프레임으로 선택할 수 있다.

복수의 후보 키 프레임들이 모두 유사하지 않는 경우, 선택기(377)는 복수의 후보 키 프레임들 모두를 키 프레임으로 선택할 수 있다. 이때, 복수의 후보 키 프레임들은 복수의 신들 각각을 대표하는 키 프레임일 수 있다.

복수의 후보 키 프레임들이 모두 유사한 경우, 선택기(377)는 복수의 후보 키 프레임들 중에서 어느 하나의 후보 키 프레임을 키 프레임으로 선택할 수 있다. 이때, 선택기(377)는 복수의 후보 키 프레임들에 대응하는 신이 동일한 신이라고 판단할 수 있다. 어느 하나의 후보 키 프레임은 영상 및 단일 신을 대표하는 프레임일 수 있다. 영상은 단일 신으로 구성될 수 있다.

복수의 후보 키 프레임들 중에서 서로 유사한 후보 키 프레임들이 있는 경우, 선택기(377)는 복수의 후보 키 프레임들 중에서 서로 유사한 후보 키 프레임들을 그룹화하여 추출할 수 있다. 이때, 선택기(357)는 그룹화된 복수의 후보 키 프레임들에 대응하는 신이 동일한 신이라고 판단할 수 있다. 그룹화된 복수의 후보 키 프레임들은 하나의 신을 대표하는 프레임일 수 있다.

선택기(377)는 그룹화된 후보 키 프레임들 중에서 프레임 순서가 빠른(또는 프레임 순서가 느린) 어느 하나의 후보 키 프레임을 선택할 수 있다.

그룹이 복수개인 경우, 선택기(377)는 복수의 그룹들 각각에서 프레임 순서가 빠른 어느 하나의 후보 키 프레임을 선택할 수 있다. 선택된 후보 키 프레임의 수는 복수의 그룹들의 수와 동일할 수 있다.

선택기(377)는 복수의 후보 키 프레임들 중에서 그룹화된 후보 키 프레임들을 제외한 나머지 후보 키 프레임들과 어느 하나의 후보 키 프레임을 키 프레임으로 선택할 수 있다. 복수의 후보 키 프레임들이 모두 그룹화되는 경우, 나머지 후보 키 프레임들은 없을 수 있다.

도 4는 도 2에 도시된 영상 추천기의 개략적인 블록도를 나타낸다.

영상 추천기(390)는 크롭 이미지 생성기(391) 및 쿼리 생성기(393)를 포함할 수 있다. 또한, 영상 추천기(390)는 추천 영상 제공기(395)를 더 포함할 수 있다. 크롭 이미지 생성기(391), 쿼리 생성기(393) 및 추천 영상 제공기(395)는 모두 모듈화될 수 있다.

크롭 이미지 생성기(391)는 Deep CNN을 통해 영상을 대표하는 키 프레임의 전체 이미지에 포함된 객체에 기초하여 키 프레임의 전체 이미지로부터 복수의 크롭 이미지들을 생성할 수 있다.

상술한 바와 같이 크롭 이미지 생성기(391)가 Deep CNN을 이용하지만, 이에 한정하는 것은 아니다. 예를 들어, 추출기(373)는 CNN 및 DNN(deep neural network) 등 다양한 신경망을 이용하여 크롭 이미지를 생성할 수 있다.

예를 들어, 크롭 이미지 생성기(391)는 키 프레임의 전체 이미지에 포함된 객체에 기초하여 키 프레임의 전체 이미지로부터 제1 복수의 크롭 이미지들을 생성할 수 있다.

크롭 이미지 생성기(391)는 제1 복수의 크롭 이미지들의 순위(또는 이미지 순위, 중요도) 및 이미지 크기와 제1 복수의 크롭 이미지들에 포함된 객체의 라벨을 결정할 수 있다. 객체의 라벨은 객체의 명칭, 이름 등 객체를 의미 및 정의하는 단어, 문자일 수 있다.

크롭 이미지 생성기(391)는 제1 복수의 크롭 이미지들 중에서 적어도 하나의 제1 크롭 이미지에 포함된 객체에 기초하여 제1 복수의 크롭 이미지들 중에서 적어도 하나의 제1 크롭 이미지로부터 제2 복수의 크롭 이미지들을 생성할 수 있다.

크롭 이미지 생성기(391)는 제2 복수의 크롭 이미지들의 순위 및 이미지 크기와 제2 복수의 크롭 이미지들에 포함된 객체의 라벨을 결정할 수 있다.

크롭 이미지 생성기(391)는 제2 복수의 크롭 이미지들 중에서 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하는지 여부에 기초하여 적어도 하나의 제2 크롭 이미지들의 순위를 변경할 수 있다.

쿼리 생성기(393)는 복수의 크롭 이미지들 간의 우선 순위에 기초하여 영상과 유사한 유사 컨텐츠를 제공하기 위한 쿼리를 생성할 수 있다.

추천 영상 제공기(395)는 쿼리를 통해 영상과 유사한 유사 컨텐츠를 검색하여 유사 컨텐츠를 추천 영상으로 제공할 수 있다.

도 4에 도시된 바와 같이 추천 영상 제공기(395)가 영상 추천기(390)에 포함되지만, 이에 한정하는 것은 아니다. 예를 들어, 추천 영상 제공기(395)는 외부 서버에 포함되어 영상 추천기(390)로부터 전송된 쿼리를 통해 영상과 유사한 유사 컨텐츠를 검색하여 제공할 수 있다.

이하에서는 설명의 편의를 위해, 영상을 대표하는 키 프레임이 테니스 경기 중인 테니스 선수가 포함된 프레임으로 가정하도록 한다.

도 5는 도 4에 도시된 크롭 이미지 생성기의 동작을 설명하기 위한 일 예를 나타낸다.

크롭 이미지 생성기(391)는 제1 크롭 이미지 생성기(391-1), 제2 크롭 이미지 생성기(391-3) 및 변경기(391-5)를 포함할 수 있다.

제1 크롭 이미지 생성기(391-1)는 키 프레임의 전체 이미지(original image 또는, image 1)로부터 제1 복수의 크롭 이미지들(cropped image 또는, image 2 및 3)을 생성하고, 제1 복수의 크롭 이미지들(image 2 및 3) 각각의 순위 및 이미지 크기와 제1 복수의 크롭 이미지들(image 2 및 3) 각각에 포함된 객체의 라벨을 결정할 수 있다.

예를 들어, 제1 크롭 이미지 생성기(391-1)는 키 프레임을 수신하여 키 프레임의 전체 이미지(image 1)에 포함된 객체를 인식(또는 획득, 구분)할 수 있다. 이때, 객체는 인물 및 테이스 라켓일 수 있다.

제1 크롭 이미지 생성기(391-1)는 키 프레임의 전체 이미지(image 1)에 포함된 객체에 기초하여 키 프레임의 전체 이미지를 크롭핑함으로써, 제1 복수의 크롭 이미지들(image 2 및 3)을 생성할 수 있다. 제1 복수의 크롭 이미지들(image 2 및 3)은 키 프레임의 전체 이미지가 크롭핑된 이미지들일 수 있다.

제1 크롭 이미지 생성기(391-1)는 제1 복수의 크롭 이미지들(image 2 및 3)이 생성되자 마자 제1 복수의 크롭 이미지들(image 2 및 3)의 순위를 동일하게 low로 결정할 수 있다.

제1 크롭 이미지 생성기(391-1)는 제1 복수의 크롭 이미지들(image 2 및 3) 각각의 크기(또는 사이즈, 이미지의 세로 크기 및 가로 크기)에 따라 제1 복수의 크롭 이미지들(image 2 및 3) 각각의 이미지 크기를 결정할 수 있다.

제1 크롭 이미지 생성기(391-1)는 제1 복수의 크롭 이미지들(image 2 및 3) 각각에 포함된 객체를 인식하여 객체의 라벨을 결정할 수 있다. image 2에 포함된 객체는 인물이고, image 3에 포함된 객체는 테니스 라켓일 수 있다. Image 2에 포함된 객체의 라벨은 인물의 직업일 수 있다. Image 3에 포함된 객체의 라벨은 테니스 라켓의 브렌드, 테니스 라켓의 명칭일 수 있다.

제2 크롭 이미지 생성기(391-3)는 제1 복수의 크롭 이미지들(image 2 및 3) 중에서 적어도 하나의 제1 크롭 이미지(image 2)로부터 제2 복수의 크롭 이미지들(image 4 및 5)을 생성하고, 제2 복수의 크롭 이미지들(image 4 및 5) 각각의 순위 및 이미지 크기와 제2 복수의 크롭 이미지들(image 4 및 5) 각각에 포함된 객체의 라벨을 결정할 수 있다.

예를 들어, 제2 크롭 이미지 생성기(391-3)는 제1 복수의 크롭 이미지들(image 2 및 3) 중에서 객체가 인물인 제1 크롭 이미지(image 2)를 추출할 수 있다.

제2 크롭 이미지 생성기(391-3)는 객체가 인물인 제1 크롭 이미지(image 2)에 포함된 객체에 기초하여 객체가 인물인 제1 크롭 이미지(image 2)를 크롭핑함으로써, 제2 복수의 크롭 이미지들(image 4 및 5)을 생성할 수 있다. 제2 복수의 크롭 이미지들(image 4 및 5)은 객체가 인물인 제1 크롭 이미지(image 2)가 크롭핑된 이미지들일 수 있다.

제2 크롭 이미지 생성기(391-3)는 제2 복수의 크롭 이미지들(image 4 및 5)이 생성되자 마자 제2 복수의 크롭 이미지들(image 4 및 5)의 순위를 동일하게 middle로 결정할 수 있다. 제2 복수의 크롭 이미지들(image 4 및 5)의 순위(middle)는 제1 복수의 크롭 이미지들(image 2 및 3)의 순위(low)보다 높을 수 있다.

제2 크롭 이미지 생성기(391-3)는 제2 복수의 크롭 이미지들(image 4 및 5) 각각의 크기(또는 사이즈, 이미지의 세로 크기 및 가로 크기)에 따라 제2 복수의 크롭 이미지들(image 4 및 5) 각각의 이미지 크기를 결정할 수 있다.

제2 크롭 이미지 생성기(391-3)는 제2 복수의 크롭 이미지들(image 4 및 5) 각각에 포함된 객체를 인식하여 객체의 라벨을 결정할 수 있다. image 4에 포함된 객체는 인물의 상체이고, image 3에 포함된 객체는 인물의 얼굴일 수 있다. Image 4에 포함된 객체의 라벨은 인물의 소속팀, 인물이 입고 있는 상의의 명칭 및 브렌드일 수 있다. Image 5에 포함된 객체의 라벨은 인물의 이름일 수 있다.

변경기(391-5)는 제2 크롭 이미지들(image 4 및 5) 중에서 얼굴을 포함하는 이미지(image 5)의 순위를 변경할 수 있다.

제2 복수의 크롭 이미지들(image 4 및 5) 중에서 적어도 하나의 제2 크롭 이미지(image 4)가 얼굴을 포함하지 않는 경우, 변경기(391-5)는 적어도 하나의 제2 크롭 이미지(image 4)의 순위를 변경하지 않고 유지할 수 있다.

제2 복수의 크롭 이미지들(image 4 및 5) 중에서 적어도 하나의 제2 크롭 이미지(image 5)가 얼굴을 포함하는 경우, 변경기(391-5)는 적어도 하나의 제2 크롭 이미지(image 5)의 순위를 high로 변경할 수 있다. 적어도 하나의 제2 크롭 이미지(image 5)의 순위(high)는 제2 복수의 크롭 이미지들(image 4 및 5) 중에서 적어도 하나의 제2 크롭 이미지(image 5)를 제외한 나머지 제2 크롭 이미지(image 4)의 순위(middle) 및 제1 복수의 크롭 이미지들(image 2 및 3)의 순위(low) 보다 높을 수 있다.

도 6은 도 4에 도시된 쿼리 생성기의 동작을 설명하기 위한 일 예를 나타낸다.

쿼리 생성기(393)는 메타 데이터 추출기(393-1), 이미지 디스크립터(393-3) 및 최종 쿼리 생성기(393-5)를 포함할 수 있다.

메타 데이터 추출기(393-1)은 키 프레임의 메타 데이터에 기초하여 영상에 대한 날짜 정보를 추출할 수 있다.

예를 들어, 메타 데이터 추출기(393-1)는 키 프레임의 전체 이미지(image 1)로부터 키 프레임의 메타 데이터를 추출할 수 있다.

메타 데이터 추출기(393-1)은 메타 데이터에서 영상(또는 키 프레임)에 대한 날짜 정보를 추출할 수 있다. 날짜 정보는 영상(도는 키 프레임)이 생성된 날짜 및 영상(키 프레임)이 촬영된 날짜 등 다양한 정보일 수 있다.

이미지 디스크립터(393-3)는 복수의 크롭 이미지들(image 2 내지 5) 간의 우선 순위에 기초하여 복수의 크롭 이미지들(image 2 내지 5)에 포함된 객체의 라벨이 정렬된 이미지 디스크립션을 생성할 수 있다. 이미지 디스크립션은 영상을 나타내는 디스크립션일 수 있다.

예를 들어, 이미지 디스크립터(393-3)는 제1 복수의 크롭 이미지들(image 2 및 3) 및 제2 복수의 크롭 이미지들(image 4 및 5)을 수신할 수 있다. 이때, 이미지 디스크립터(393-3)는 제1 복수의 크롭 이미지들(image 2 및 3)의 순위 및 이미지 크기, 제1 복수의 크롭 이미지들(image 2 및 3) 각각에 포함된 객체의 라벨을 수신할 수 있다. 이미지 디스크립터(393-3)는 제2 복수의 크롭 이미지들(image 4 및 5)의 순위 및 이미지 크기, 제2 복수의 크롭 이미지들(image 4 및 5) 각각에 포함된 객체의 라벨을 수신할 수 있다.

이미지 디스크립터(393-3)는 복수의 크롭 이미지들(image 2 내지 5) 각각의 순위 및 이미지 크기에 기초하여 복수의 크롭 이미지들(image 2 내지 5) 간의 우선 순위를 결정할 수 있다.

예를 들어, 이미지 디스크립터(393-3)는 제1 복수의 크롭 이미지들(image 2 및 3)의 순위 및 이미지 크기, 제2 복수의 크롭 이미지들(image 4 및 5)의 순위 및 이미지 크기에 기초하여 순위가 높고, 이미지 크기가 작은(또는 큰) 순으로 우선 순위를 결정할 수 있다.

이미지 디스크립터(393-3)는 복수의 크롭 이미지들(image 2 내지 5) 간의 우선 순위 순으로 복수의 크롭 이미지들(image 2 내지 5)에 포함된 객체의 라벨을 정렬하여 이미지 디스크립션을 생성할 수 있다. 우선 순위는 이미지 디스크립션을 구성하는 객체의 라벨의 정렬 순서를 결정하기 위한 기준값일 수 있다. 이미지 디스크립션은 우선 순위가 높은 순으로 정렬된 객체의 라벨을 포함할 수 있다.

최종 쿼리 생성기(393-5)는 메타 데이터(예를 들어, 날짜 정보) 및 이미지 디스크립션을 포함하는 쿼리를 생성할 수 있다.

예를 들어, 최종 쿼리 생성기(393-5)는 메타 데이터와 이미지 디스크립션 순으로 정렬된 쿼리 또는 이미지 디스크립션과 메타 데이터 순으로 정렬된 쿼리를 생성할 수 있다.

도 7은 도 4에 도시된 추천 영상 제공기의 동작을 설명하기 위한 일 예를 나타낸다.

추천 영상 제공기(395)는 쿼리를 통해 검색된 복수의 유사 컨텐츠들에 대한 정보를 추천 영상으로 제공할 수 있다.

먼저, 추천 영상 제공기(395)는 쿼리를 통해 영상과 유사한 복수의 유사 컨텐츠들을 검색할 수 있다. 예를 들어, 추천 영상 제공기(395)는 영상 추천 장치(300)의 데이터 베이스 또는 외부 서버(예를 들어, 유투브 등 다양한 영상 제공 서버)에 쿼리를 전송하여 복수의 유사 컨텐츠들을 검색할 수 있다.

이후에, 추천 영상 제공기(395)는 복수의 유사 컨텐츠들에 대한 정보를 생성하여 생성된 정보를 추천 영상으로 제공할 수 있다.

예를 들어, 추천 영상 제공기(395)는 복수의 유사 컨텐츠들 각각의 영상 및 복수의 유사 컨텐츠들에 대한 컨텐츠 리스트 중에서 적어도 하나를 추천 영상으로 제공할 수 있다.

이하에서는 설명의 편의를 위해 영상이 2개의 신들로 구성된 테니스 경기 영상이라고 가정하도록 한다. 또한, 이하에서는 제1 신(또는 첫번째 신)이 프레임 순서에 따라 제1 프레임 내지 제10 프레임(또는 첫번째 프레임 내지 열번째 프레임)을 포함하고, 제2 신(또는 두번째 신)이 제11 프레임 내지 제17 프레임(열 한번째 프레임 내지 열 일곱번째 프레임)을 포함한다고 가정하도록 한다.

이에, 제1 프레임 내지 제10 프레임은 서로 유사할 수 있다. 제1 프레임 내지 제10 프레임과 제11 프레임 내지 제17 프레임은 서로 유사하지 않을 수 있다. 제11 프레임 내지 제17 프레임은 서로 유사할 수 있다.

도 8은 도 1에 도시된 영상 추천 장치의 동작을 설명하기 위한 일 예를 나타내고, 도 9는 도 1에 도시된 영상 추천 장치의 키 프레임 선택 동작을 설명하기 위한 순서도를 나타내고, 도 10은 도 1에 도시된 영상 추천 장치의 추천 영상 제공 동작을 설명하기 위한 순서도를 나타낸다.

분류기(371)는 통신 모듈(310)을 통해 수신된 영상을 수신하여 영상에 포함된 17개의 프레임들을 분류할 수 있다(910).

추출기(373)는 프레임 순서에 따라 17개의 프레임들 각각의 특징 벡터를 순차적으로 추출할 수 있다(920). 예를 들어, 추출기(353)는 순차적으로 제1 프레임의 특징 벡터를 제일 먼저 추출하고, 제17 프레임의 특징 벡터를 제일 마지막에 추출할 수 있다.

계산기(375)와 선택기(377)는 서로 연동하여 동작할 수 있다.

계산기(375)는 선택기(757)로부터 전송된 17개의 프레임들 간 유사 여부에 기초하여 프레임 순서에 따라 17개의 프레임들 간 코사인 유사도를 계산할 수 있다(930).

먼저, 계산기(375)는 프레임 순서에 따라 제1 프레임과 제2 프레임 간의 코사인 값 및 코사인 유사도를 계산할 수 있다.

이후에, 계산기(375)는 선택기(377)로부터 전송된 17개의 프레임들 간 유사 여부에 기초하여 제1 프레임, 제3 프레임 내지 제17 프레임 간의 코사인 값 및 코사인 유사도를 계산할 수 있다.

예를 들어, 계산기(375)는 선택기(377)로부터 제1 프레임과 제2 프레임 내지 제10 프레임이 유사함을 수신하고, 제1 프레임과 제11 프레임이 유사하지 않음을 수신하기 전까지, 순차적으로 제1 프레임과 제3 프레임 내지 제11 프레임 간의 코사인 값 및 코사인 유사도를 계산할 수 있다.

또한, 계산기(375)는 선택기(377)로부터 제1 프레임과 제11 프레임이 유사하지 않음을 수신한 후, 순차적으로 제11 프레임과 제12 프레임 내지 제17 프레임 간의 코사인 값 및 코사인 유사도를 계산할 수 있다.

상술한 바와 같이 계산기(375)가 17개의 프레임들 간의 유사 여부에 기초하여 17개의 프레임들 간의 코사인 유사도를 계산하지만, 이에 한정하는 것은 아니다. 예를 들어, 계산기(375)는 17개의 프레임들 간의 유사 여부에 무관하게 모든 17개의 프레임들 간의 코사인 유사도를 계산할 수 있다.

선택기(377)는 계산기(375)로부터 전송된 코사인 유사도에 기초하여 17개의 프레임들 간의 유사 여부를 결정할 수 있다.

예를 들어, 선택기(377)는 제1 프레임과 제2 프레임 내지 제10 프레임 간의 코사인 유사도가 임계값 이상임을 확인한 후, 제1 프레임과 제2 프레임 내지 제10 프레임이 서로 유사하다고 결정할 수 있다.

선택기(377)는 제1 프레임과 제11 프레임 간의 코사인 유사도가 임계값 미만임을 확인한 후, 제1 프레임과 제11 프레임이 서로 유사하지 않다고 결정할 수 있다.

선택기(377)는 제11 프레임과 제12 프레임 내지 제17 프레임 간의 코사인 유사도가 임계값 이상임을 확인한 후, 제11 프레임과 제12 프레임 내지 제17 프레임이 서로 유사하다고 결정할 수 있다.

선택기(377)는 17개의 프레임들 간의 유사 여부에 기초하여 제1 신 및 제2 신을 대표하는 후보 키 프레임들을 선택할 수 있다(940).

예를 들어, 선택기(377)는 카운팅 알고리즘(counting algorithm 또는 랭킹 알고리즘(ranking algorithm))을 이용하여 17개의 프레임들 간의 유사 여부에 따라 17개의 프레임들의 유사 프레임 수를 카운팅할 수 있다.

선택기(377)는 제1 프레임과 제2 프레임 내지 제10 프레임이 유사하다고 결정될 때 마다, 제1 프레임의 유사 프레임 수를 카운팅할 수 있다. 이때, 선택기(377)은 제2 프레임 내지 제10 프레임의 유사 프레임 수를 카운팅하거나 카운팅하지 않을 수 있다.

선택기(377)는 제11 프레임과 제17 프레임이 유사하다고 결정될 때 마다, 제11 프레임의 유사 프레임 수를 카운팅할 수 있다. 이때, 선택기(377)는 제12 프레임과 제17 프레임의 유사 프레임 수를 카운팅하거나 카운팅하지 않을 수 있다.

선택기(377)는 제1 프레임과 제11 프레임이 유사하지 않다고 결정될 때, 제1 프레임과 제11 프레임의 유사 프레임 수를 카운팅하거나 카운팅하지 않을 수 있다.

제2 프레임 내지 제10 프레임과 제12 프레임 내지 제17 프레임의 유사 프레임 수가 카운팅된 경우, 선택기(377)는 제1 프레임과 제11 프레임의 유사 프레임 수를 카운팅할 수 있다.

제2 프레임 내지 제10 프레임과 제12 프레임 내지 제17 프레임의 유사 프레임 수가 카운팅되지 않은 경우, 선택기(377)는 제1 프레임과 제11 프레임의 유사 프레임 수를 카운팅하지 않을 수 있다.

제1 프레임 및 제11 프레임의 유사 프레임 수 만이 카운팅 된 경우, 제1 프레임의 유사 프레임 수는 9이고, 제11 프레임의 유사 프레임 수는 6일 수 있다. 제2 내지 제10 프레임과 제12 내지 제15 프레임의 유사 프레임 수는 0일 수 있다.

제1 프레임 내지 제17 프레임의 유사 프레임 수가 모두 카운팅 된 경우, 제1 프레임의 유사 프레임 수는 10이고, 제2 프레임 내지 제10 프레임의 유사 프레임 수는 9이고, 제11 프레임의 유사 프레임 수는 7이고, 제12 프레임 내지 제15 프레임의 유사 프레임 수는 6일 수 있다.

선택기(377)는 제1 프레임과 제11 프레임이 유사하지 않음을 확인한 후, 제1 프레임 내지 제10 프레임을 제1 신으로 구분하고, 제11 프레임과 제17 프레임을 제2 신으로 구분할 수 있다.

선택기(377)는 페널티 함수를 이용하여 제1 프레임과 제11 프레임의 유사 프레임 수를 비교하여 제1 프레임 및 제11 프레임 중에서 하나 이상을 후보 키 프레임으로 선택할 수 있다.

선택기(377)는 제11 프레임의 유사 프레임 수가 전체 프레임 수(17개)와 제1 프레임의 유사 프레임 수 간의 비율보다 높기에, 제1 프레임 및 제11 프레임을 모두 후보 키 프레임으로 선택할 수 있다.

이에, 선택기(377)는 제1 신에 포함된 제1 프레임을 제1 신을 대표하는 후보 키 프레임으로 선택하고, 제2 신에 포함된 제11 프레임을 제2 신을 대표하는 후보 키 프레임으로 선택할 수 있다.

선택기(377)는 후보 키 프레임인 제1 프레임 및 제11 프레임 간의 코사인 유사도를 계산할 수 있다(950).

선택기(377)는 제1 프레임 및 제11 프레임 간의 코사인 유사도가 임계값 미만임을 확인한 후, 제1 프레임 및 제11 프레임이 유사하지 않다고 결정할 수 있다.

제1 프레임 및 제11 프레임이 유사하지 않기에, 선택기(377)는 제1 신과 제2 신이 동일한 신이 아니라고 판단한 후, 제1 프레임을 제1 신을 대표하는 키 프레임으로 선택하고, 제11 프레임을 제2 신을 대표하는 키 프레임으로 선택할 수 있다(960).

이하에서는 제1 프레임만이 영상을 대표하는 키 프레임으로 선택되었다고 가정하고, 제1 프레임이 도 5에 도시된 original image라고 가정하도록 한다.

제1 크롭 이미지 생성기(391-1)는 영상을 대표하는 키 프레임으로 선택된 제1 프레임에 포함된 객체(인물 및 테니스 라켓)에 기초하여 제1 프레임의 전체 이미지(image 1)을 크롭핑함으로써, 제1 크롭 이미지인 image 2 및 3을 생성할 수 있다(1010).

또한, 제1 크롭 이미지 생성기(391-1)는 image 2 및 3의 순위를 low로 결정하고, image 2 및 3의 사이즈를 결정할 수 있다. 제1 크롭 이미지 생성기(391-1)는 image 2에 포함된 객체의 라벨을 ‘테니스 선수’로 결정하고, image 3에 포함된 객체의 라벨을 ‘테니스 라켓’으로 결정할 수 있다.

제2 크롭 이미지 생성기(391-3)는 객체가 인물인 image 2에 포함된 객체(테니스 선수)에 기초하여 image 2를 크롭핑함으로써, 제2 크롭 이미지인 image 4 및 5를 생성할 수 있다(1020).

또한, 제2 크롭 이미지 생성기(391-3)는 image 4 및 5의 순위를 middle로 결정하고, image 4 및 5의 사이즈를 결정할 수 있다. 제2 크롭 이미지 생성기(391-3)는 image 4에 포함된 객체의 라벨을 ‘테니스 국가대표’로 결정하고, image 5에 포함된 객체의 라벨을 ‘조코비치(인물 이름)’로 결정할 수 있다.

변경기(391-5)는 얼굴을 포함하는 image 5의 순위를 middle에서 high로 변경할 수 있다.

메타 데이터 추출기(393-1)는 제1 프레임(또는 image 1)으로부터 제1 프레임의 메타 데이터를 추출한 뒤, 제1 프레임(또는 image 1)의 날짜 정보를 추출할 수 있다(1030). 제1 프레임의 날짜 정보는 2018-12-04일 수 있다.

이미지 디스크립터(393-3)는 image 2 내지 5 간의 우선 순위에 기초하여 조코비치, 테니스 국가대표, 테니스 선수, 테니스 라켓 순으로 정렬된 이미지 디스트립션을 생성할 수 있다(1040).

최종 쿼리 생성기(393-5)는 제1 프레임의 날짜 정보 및 이미지 디스크립션 순으로 정렬된 쿼리={2018-12-04, 조코비치, 테니스 국가대표, 테니스 선수, 테니스 라켓}를 생성할 수 있다(1050).

추천 영상 제공기(395)는 내부 저장소 또는 외부 서버에 쿼리를 전송하여 테니스 경기 영상과 유사한 복수의 유사 컨텐츠들(result)을 검색할 수 있다.

추천 영상 제공기(395)는 검색된 복수의 유사 컨텐츠들(result) 각각의 영상 및 컨텐츠 리스트(또는 영상 리스트)를 추천 영상으로 제공할 수 있다(1060).

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims

영상 추천 장치가 영상을 대표하는 키 프레임의 전체 이미지에 포함된 객체에 기초하여 상기 전체 이미지로부터 복수의 크롭 이미지들을 생성하는 단계;
상기 영상 추천 장치가 상기 복수의 크롭 이미지들 간의 우선 순위에 기초하여 상기 영상과 유사한 유사 컨텐츠를 제공하기 위한 쿼리를 생성하는 단계;
상기 영상 추천 장치가 상기 쿼리를 통해 상기 영상과 유사한 복수의 유사 컨텐츠들을 검색하는 단계; 및
상기 영상 추천 장치가 상기 복수의 유사 컨텐츠들을 상기 영상과 유사한 추천 영상으로 제공하는 단계
를 포함하고,
상기 복수의 유사 컨텐츠들은 상기 복수의 유사 컨텐츠들에 대한 영상 및 영상 리스트를 포함하는 영상 추천 방법.
제1항에 있어서,
상기 복수의 크롭 이미지들을 생성하는 단계는,
상기 전체 이미지에 포함된 객체에 기초하여 상기 전체 이미지로부터 제1 복수의 크롭 이미지들을 생성하는 단계; 및
상기 제1 복수의 크롭 이미지들 중에서 적어도 하나의 제1 크롭 이미지에 포함된 객체에 기초하여 상기 적어도 하나의 제1 크롭 이미지로부터 제2 복수의 크롭 이미지들을 생성하는 단계
를 포함하는 영상 추천 방법.
제2항에 있어서,
상기 제1 복수의 크롭 이미지들을 생성하는 단계는,
상기 제1 복수의 크롭 이미지들의 순위 및 이미지 크기와 상기 제1 복수의 크롭 이미지들에 포함된 객체의 라벨을 결정하는 단계
를 포함하는 영상 추천 방법.
제2항에 있어서,
상기 제2 복수의 크롭 이미지들을 생성하는 단계는,
상기 제2 복수의 크롭 이미지들의 순위 및 이미지 크기와 상기 제2 복수의 크롭 이미지들에 포함된 객체의 라벨을 결정하는 단계
를 포함하는 영상 추천 방법.
제4항에 있어서,
상기 결정하는 단계는,
상기 제2 복수의 크롭 이미지들 중에서 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하는지 여부에 기초하여 상기 적어도 하나의 제2 크롭 이미지들의 순위를 변경하는 단계
를 포함하는 영상 추천 방법.
제5항에 있어서,
상기 변경하는 단계는,
상기 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하지 않는 경우, 상기 적어도 하나의 제2 크롭 이미지의 순위를 유지하는 단계; 및
상기 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하는 경우, 상기 적어도 하나의 제2 크롭 이미지의 순위를 상기 제2 복수의 크롭 이미지들의 순위보다 높게 변경하는 단계
를 포함하는 영상 추천 방법.
제6항에 있어서,
상기 제2 복수의 크롭 이미지들의 순위는 상기 제1 복수의 크롭 이미지들의 순위보다 높게 결정되는 영상 추천 방법.
제2항에 있어서,
상기 쿼리를 생성하는 단계는,
상기 키 프레임으로부터 상기 키 프레임의 메타 데이터를 추출하는 단계;
상기 우선 순위에 기초하여 상기 복수의 크롭 이미지들에 포함된 객체의 라벨이 정렬된 상기 영상에 대한 이미지 디스크립션을 생성하는 단계; 및
상기 메타 데이터 및 상기 이미지 디스크립션을 포함하는 상기 쿼리를 생성하는 단계
를 포함하는 영상 추천 방법.
제8항에 있어서,
상기 이미지 디스크립션을 생성하는 단계는,
상기 복수의 크롭 이미지들 각각의 순위 및 이미지 크기에 기초하여 상기 복수의 크롭 이미지들 간의 우선 순위를 결정하는 단계; 및
상기 복수의 크롭 이미지들에 포함된 객체의 라벨을 상기 우선 순위 순으로 정렬하여 상기 이미지 디스크립션을 생성하는 단계
를 포함하는 영상 추천 방법.
삭제
통신 모듈; 및
영상을 대표하는 키 프레임의 전체 이미지에 포함된 객체에 기초하여 상기 전체 이미지로부터 복수의 크롭 이미지들을 생성하고, 상기 복수의 크롭 이미지들 간의 우선 순위에 기초하여 상기 영상과 유사한 유사 컨텐츠를 제공하기 위한 쿼리를 생성하는 컨트롤러
를 포함하고,
상기 컨트롤러는,
상기 쿼리를 통해 상기 영상과 유사한 복수의 유사 컨텐츠들을 검색하고, 상기 복수의 유사 컨텐츠들을 상기 영상과 유사한 추천 영상으로 제공하고,
상기 복수의 유사 컨텐츠들은 상기 복수의 유사 컨텐츠들에 대한 영상 및 영상 리스트를 포함하는 영상 추천 장치.
제11항에 있어서,
상기 컨트롤러는,
상기 전체 이미지에 포함된 객체에 기초하여 상기 전체 이미지로부터 제1 복수의 크롭 이미지들을 생성하고, 상기 제1 복수의 크롭 이미지들 중에서 적어도 하나의 제1 크롭 이미지에 포함된 객체에 기초하여 상기 적어도 하나의 제1 크롭 이미지로부터 제2 복수의 크롭 이미지들을 생성하는 영상 추천 장치.
제12항에 있어서,
상기 컨트롤러는,
상기 제1 복수의 크롭 이미지들의 순위 및 이미지 크기와 상기 제1 복수의 크롭 이미지들에 포함된 객체의 라벨을 결정하는 영상 추천 장치.
제12항에 있어서,
상기 컨트롤러는,
상기 제2 복수의 크롭 이미지들의 순위 및 이미지 크기와 상기 제2 복수의 크롭 이미지들에 포함된 객체의 라벨을 결정하는 영상 추천 장치.
제14항에 있어서,
상기 컨트롤러는,
상기 제2 복수의 크롭 이미지들 중에서 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하는지 여부에 기초하여 상기 적어도 하나의 제2 크롭 이미지들의 순위를 변경하는 영상 추천 장치.
제15항에 있어서,
상기 컨트롤러는,
상기 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하지 않는 경우, 상기 적어도 하나의 제2 크롭 이미지의 순위를 유지하고,
상기 적어도 하나의 제2 크롭 이미지가 얼굴을 포함하는 경우, 상기 적어도 하나의 제2 크롭 이미지의 순위를 상기 제2 복수의 크롭 이미지들의 순위보다 높게 변경하는 영상 추천 장치.
제16항에 있어서,
상기 제2 복수의 크롭 이미지들의 순위는 상기 제1 복수의 크롭 이미지들의 순위보다 높게 결정되는 영상 추천 장치.
제12항에 있어서,
상기 컨트롤러는,
상기 키 프레임으로부터 상기 키 프레임의 메타 데이터를 추출하고, 상기 우선 순위에 기초하여 상기 복수의 크롭 이미지들에 포함된 객체의 라벨이 정렬된 상기 영상에 대한 이미지 디스크립션을 생성하고, 상기 메타 데이터 및 상기 이미지 디스크립션을 포함하는 상기 쿼리를 생성하는 영상 추천 장치.
제18항에 있어서,
상기 컨트롤러는,
상기 복수의 크롭 이미지들 각각의 순위 및 이미지 크기에 기초하여 상기 복수의 크롭 이미지들 간의 우선 순위를 결정하고, 상기 복수의 크롭 이미지들에 포함된 객체의 라벨을 상기 우선 순위 순으로 정렬하여 상기 이미지 디스크립션을 생성하는 영상 추천 장치.
삭제