KR102590388B1

KR102590388B1 - 영상 컨텐츠 추천 장치 및 방법

Info

Publication number: KR102590388B1
Application number: KR1020220039612A
Authority: KR
Inventors: 최종원; 박수현; 윤종수
Original assignee: 중앙대학교 산학협력단
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-10-16
Also published as: KR20230140849A

Abstract

영상 컨텐츠에 포함된 영상 데이터 및 음성 데이터의 유사도를 이용하여 사용자에게 적합한 영상 컨텐츠를 검색 및 추천하는 영상 컨텐츠 추천 장치 및 방법이 개시된다. 일 실시예에 따른 영상 컨텐츠 추천 장치는 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 1 주요 프레임을 추출하며, 추출된 제 1 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 1 유사도를 계산하는 영상 기반 네트워크부; 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 2 주요 프레임을 추출하며, 추출된 제 2 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 2 유사도를 계산하는 음성 기반 네트워크부; 및 제 1 유사도 및 제 2 유사도 중 적어도 하나를 기초로 하나 이상의 저장 영상 컨텐츠 중 입력 영상 컨텐츠와 유사도가 소정 기준 이상인 하나 이상의 저장 영상 컨텐츠를 결정하는 추천 컨텐츠 결정부를 포함할 수 있다.

Description

영상 컨텐츠 추천 장치 및 방법{Apparatus and method for video content recommendation}

영상 컨텐츠에 포함된 영상 데이터 및 음성 데이터의 유사도를 이용하여 사용자에게 적합한 영상 컨텐츠를 검색 및 추천하는 영상 컨텐츠 추천 장치 및 방법에 관한 것이다.

비디오 및 오디오 데이터를 활용하여 유사한 비디오를 검색하는 방법은 비디오에서 중요한 프레임들을 추출하고 데이터베이스 내 비디오와의 기하학적 유사도를 계산하는 과정을 사용자가 만족할 때까지 반복한다는 점에서 비효율적인 문제가 있다.

사용자에 의해 입력된 텍스트 쿼리를 이용하는 방법은 입력된 주석들의 질이 균일하지 않으며, 대부분의 정보는 비디오를 검색 및 추천하기에 무의미한 비디오 문서의 간략한 설명들로 구성되어 있다. 이에 따라, 텍스트 쿼리를 이용하는 방법은 텍스트가 없는 비디오는 사용 할 수 없다. 다만, 음성 데이터를 텍스트로 변환하여 자연어 처리 기법을 활용하여 비디오를 검색 및 추천하는 기술이 존재하지만 음성 데이터가 제공되어 있지 않은 영상 콘텐츠나, 음성과 관련 없는 비디오 데이터를 포함한 영상 컨텐츠에는 적용할 수 없다.

다른 방법으로, 비디오를 추천하는 기술로 OTT 서버로부터 동영상 컨텐츠를 수신해서 복수의 동영상 컨텐츠들의 총 누적 조회수, 최근 n 개월 내의 누적 조회수를 기반으로 순위를 결정하고 순위가 높은 순서로 단말 장치에 복수의 동영상 컨텐츠를 제공하는 기술이 있다. 그러나, 이러한 조회수를 기반으로 추천하는 시스템은 개개인의 관심사와 특징을 반영하지 못하는 문제점이 있다.

한국등록특허공보 제10-1563625호(2015.10.28)

영상 컨텐츠에 포함된 영상 데이터 및 음성 데이터의 유사도를 이용하여 사용자에게 적합한 영상 컨텐츠를 검색 및 추천하는 영상 컨텐츠 추천 장치 및 방법을 제공하는데 목적이 있다.

일 양상에 따르면, 영상 컨텐츠 추천 장치는 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 1 주요 프레임을 추출하며, 추출된 제 1 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 1 유사도를 계산하는 영상 기반 네트워크부; 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 2 주요 프레임을 추출하며, 추출된 제 2 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 2 유사도를 계산하는 음성 기반 네트워크부; 및 제 1 유사도 및 제 2 유사도 중 적어도 하나를 기초로 하나 이상의 저장 영상 컨텐츠 중 입력 영상 컨텐츠와 유사도가 소정 기준 이상인 하나 이상의 저장 영상 컨텐츠를 결정하는 추천 컨텐츠 결정부를 포함할 수 있다.

영상 기반 네트워크부는 트리플렛(triplet) 기반으로 영상 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 학습된 영상 기반 교사 네트워크를 이용하여 계산된 영상 기반 유사도와 제 1 유사도의 차이인 제 1 유사도 손실에 기초하여 학습될 수 있다.

음성 기반 네트워크부는 트리플렛 기반으로 음성 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 학습된 음성 기반 교사 네트워크를 이용하여 계산된 음성 기반 유사도와 제 2 유사도의 차이인 제 2 유사도 손실에 기초하여 학습될 수 있다.

영상 기반 네트워크부는 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하는 제 1 주요 프레임 추출부; 제 1 주요 프레임 추출부에서 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하는 제 1 영상 특징 추출부; 및 제 1 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 1 유사도를 계산하는 제 1 유사도 추출부를 포함할 수 있다.

음성 기반 네트워크부는 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하는 제 2 주요 프레임 추출부; 제 2 주요 프레임 추출부에서 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하는 제 2 영상 특징 추출부; 및 제 2 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 2 유사도를 계산하는 제 2 유사도 추출부를 포함할 수 있다.

영상 기반 네트워크부 및 음성 기반 네트워크부는 제 1 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징 및 제 2 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징의 차이인 제 3 유사도 손실에 더 기초하여 각각 학습될 수 있다.

영상 기반 네트워크부 및 음성 기반 네트워크부는 제 1 유사도 손실, 제 2 유사도 손실 및 제 3 유사도 손실에 기초하여 계산된 전체 손실에 기초하여 각각 학습될 수 있다.

일 양상에 따르면, 영상 컨텐츠 추천 방법은 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 1 주요 프레임을 추출하며, 추출된 제 1 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 1 유사도를 계산하는 단계; 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 2 주요 프레임을 추출하며, 추출된 제 2 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 2 유사도를 계산하는 단계; 및 제 1 유사도 및 제 2 유사도 중 적어도 하나를 기초로 하나 이상의 저장 영상 컨텐츠 중 입력 영상 컨텐츠와 유사도가 소정 기준 이상인 하나 이상의 저장 영상 컨텐츠를 결정하는 단계를 포함할 수 있다.

상기 영상 기반 네트워크부는, 트리플렛(triplet) 기반으로 영상 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 학습된 영상 기반 교사 네트워크를 이용하여 계산된 영상 기반 유사도와 상기 제 1 유사도의 차이인 제 1 유사도 손실에 기초하여 학습될 수 있다.

상기 음성 기반 네트워크부는, 트리플렛 기반으로 음성 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 학습된 음성 기반 교사 네트워크를 이용하여 계산된 음성 기반 유사도와 상기 제 2 유사도의 차이인 제 2 유사도 손실에 기초하여 학습될 수 있다.

상기 제 1 유사도를 계산하는 단계는, 제 1 주요 프레임 추출부에서, 상기 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하는 단계; 제 1 영상 특징 추출부에서, 상기 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하는 단계; 및 제 1 유사도 추출부에서, 상기 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 1 유사도를 계산하는 단계를 포함할 수 있다.

상기 제 2 유사도를 계산하는 단계는, 제 2 주요 프레임 추출부에서, 상기 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하는 단계; 제 2 영상 특징 추출부에서, 상기 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하는 단계; 및 제 2 유사도 추출부에서, 상기 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 2 유사도를 계산하는 단계를 포함할 수 있다. 여기서, 제2 영상 특징은 음성 데이터를 기반으로 한 영상 특징이다.

상기 영상 기반 네트워크부 및 상기 음성 기반 네트워크부는, 상기 제 1 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징 및 상기 제 2 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징의 차이인 제 3 유사도 손실에 더 기초하여 각각 학습될 수 있다.

상기 영상 기반 네트워크부 및 상기 음성 기반 네트워크부는 제 1 유사도 손실, 제 2 유사도 손실 및 제 3 유사도 손실에 기초하여 계산된 전체 손실에 기초하여 각각 학습될 수 있다.

영상 컨텐츠에 포함된 영상 데이터 및 음성 데이터의 유사도를 이용하여 사용자에게 적합한 영상 컨텐츠를 검색 및 추천할 수 있다.

도 1은 일 실시예에 따른 영상 컨텐츠 추천 장치의 구성도이다.
도 2는 일 실시예에 따른 교사 네트워크의 구성도이다.
도 3은 일 실시예에 따른 영상 컨텐츠 추천 방법을 도시한 흐름도이다.
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하, 영상 컨텐츠 추천 장치 및 방법의 실시예들을 도면들을 참고하여 자세히 설명한다.

영상 컨텐츠 데이터의 정보에 대한 사용자의 다양한 요구가 증가하고 있고 이러한 요구를 충족시키기 위해서는 방대한 영상 컨텐츠의 효율적인 관리가 필요하다. 이를 위해 영상 컨텐츠 데이터의 정보를 체계적으로 분류하고 통합하는 기술 및 영상 컨텐츠 데이터에 대한 사용자의 다양한 요구에 따라 원하는 영상 컨텐츠 데이터를 효율적으로 검색하고 저장할 수 있는 기술이 필요하다.

컨텐츠 기반 비디오 검색(CBVR, Content-Based Video Retrieval)은 인터넷 상에 존재하는 방대한 양의 영상 컨텐츠 데이터들을 검색하는 영상 검색 접근법이다. 컨텐츠 기반 비디오 검색은 영상 프레임으로부터 추출한 저수준의 시각적 특성들을 활용하여 비디오에 대한 분석을 수행한다. 따라서, 효율적인 비디오 검색 시스템을 설계하기 위해서는 시각적 인지 능력에 대한 향상도 고려해야만 한다.

일 예로, 컨텐츠라는 용어는 색상, 형태, 질감과 같이 이미지 자체에서 추출될 수 있는 모든 정보와 오디오 텍스트와 같은 다른 형태의 데이터를 포함한다. 컨텐츠 대신 자막이나 키워드와 같은 메타데이터를 활용하여 컨텐츠 기반 비디오 검색을 수행할 수는 있으나, 관련 정보를 모두 확보하기 위해서는 많은 비용이 소비된다. 이에 따라 컨텐츠 기반의 비디오 검색에 대한 연구가 필요하다. 컨텐츠 기반 비디오 검색을 통한 비디오 검색 시스템은 사용자로 하여금 거대한 영상 컨텐츠 데이터베이스에서 원하는 비디오를 찾을 수 있게 해준다.

일 예로, 비디오 검색 시스템은 크게 두 가지 모듈로 구성될 수 있다. 예를 들어, 비디오 검색 시스템은 비디오 프레임들에 대한 대표 특징을 추출하는 모듈 및 주어진 비디오에 대해서 데이터 베이스의 비디오들과의 유사도 계산을 위한 모듈을 포함할 수 있다.

일 예에 따르면, 비디오 저장(인덱싱) 및 검색 시스템은 방대한 양의 영상 컨텐츠를 저장 및 관리하며, 이는 사용자가 데이터베이스에서 원하는 비디오를 효율적으로 검색할 수 있다. 일 예로, 데이터베이스는 정적인 비디오 프레임 뿐만 아니라 오디오와 비디오를 포함할 수 있으며, 검색은 비디오 객체에 대한 내용을 기반으로 수행할 수 있다.

도 1은 일 실시예에 따른 영상 컨텐츠 추천 장치의 구성도이다.

일 실시예에 따르면, 영상 컨텐츠 추천 장치(100)는 영상 데이터 기반으로 영상 컨텐츠 분석하여 영상 컨텐츠 간 유사도를 추출하는 영상 기반 네트워크부(110), 음성 데이터 기반으로 영상 컨텐츠 분석하여 영상 컨텐츠 간 유사도를 추출하는 음성 기반 네트워크부(120) 및 영상 기반 네트워크부(110)와 음성 기반 네트워크부(120)에서 각각 추출한 유사도를 기반으로 추천 컨텐츠를 결정하는 추천 컨텐츠 결정부(130)를 포함할 수 있다.

일 예에 따르면, 영상 컨텐츠 추천 장치(100)는 영상 콘텐츠의 영상(video) 데이터와 음성(audio) 데이터를 입력 받으며, 지식 증류와 멀티태스크 러닝 기법(MTL)과 같은 최신 딥러닝 기법을 적용하여 입력 데이터와 데이터 베이스의 영상 콘텐츠 사이의 유사도 계산으로 쿼리와 유사한 비디오를 검색할 수 있다.

일 예로, 영상 컨텐츠 추천 장치(100)는 행동 인지 모듈을 이용하여 비디오의 중요한 프레임(Frame)을 추출할 수 있으며, 이를 통해 중요한 정보는 유지하면서, 무의미한 정보는 배제하여 광범위한 비디오 데이터로부터 발생하는 계산 비용을 줄일 수 있고 모델의 정확도를 올릴 수 있다.

일 예에 따르면, 영상 컨텐츠 추천 장치(100)는 사전 학습된 교사 네트워크(teacher network)의 정보를 지식 증류기법으로 전달 받은 학생 네트워크(student network)들이 멀티태스크 러닝 기법의 멀티태스크로 구성되어, 서로 유사한 각 세부 비디오 검색 태스크(video retrieval task)들의 일반적인 비디오 특징 및 유사도 학습을 유도한다.

일 예에 따르면, 멀티태스크 러닝 기법은 서로 관련이 있는 여러 문제들을 학습하면서 얻은 유용한 정보들을 활용하여 해당 문제들이 공유하는 일반화 성능 향상을 목표로 하는 기계학습 기법이다. 준지도학습, 능동적학습(Active learning), 비지도학습, 강화학습, 멀티 뷰(Multi-View) 학습, 그래픽 모델(Graphical Model)과 같은 다양한 기계학습 기법들이 MTL의 성능향상을 위해 활용될 수 있다.

일 예로, 멀티태스크 러닝 기법 중 하드 쉐어링(Hard Sharing) 방법을 이용할 수 있다. 하드 쉐어링은 작업 특정 레이어(Task-Specific Layer)를 제외한 모든 태스크 간의 은닉층(Hidden layer)를 공유하여 같은 뿌리 모델에서 시작 되어 나중에 각각의 특징을 학습하는 방식으로 하나의 모델 파라미터로 여러 개의 태스크를 수행할 수 있다.

일 실시예에 따르면, 영상 기반 네트워크부(110)는 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 1 주요 프레임을 추출하며, 추출된 제 1 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 1 유사도를 계산할 수 있다.

일 실시예에 따르면, 영상 기반 네트워크부(110)는 트리플렛(triplet) 기반으로 영상 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 학습된 영상 기반 교사 네트워크를 이용하여 계산된 영상 기반 유사도와 제 1 유사도의 차이인 제 1 유사도 손실에 기초하여 학습될 수 있다. 다시 말해, 영상 기반 네트워크(110) 학생 네트워크로 동작할 수 있다.

일 예에 따르면, 영상 기반 네트워크부(110)는 영상 콘텐츠의 영상(video) 데이터를 입력 받으며, 지식 증류와 멀티태스크 러닝 기법(MTL) 을 적용하여 입력 데이터와 데이터 베이스의 영상 콘텐츠 사이의 유사도를 계산할 수 있다.

일 예에 따르면, 지식 증류(Knowledge Distillation)는 미리 잘 학습된 큰 네트워크(Teacher Network)의 지식을 실제로 사용하고자 하는 작은 네트워크(Student Network) 에게 전달하는 것이다.

일 예로, 교사 네트워크는 유사도 계산의 정확도를 높이기 위해 쿼리와 데이터베이스 사이의 관계가 레이블링 되어 있는 여러 데이터셋들을 학습에 활용할 수 있으며, 학생 네트워크는 교사 네트워크 사이의 유사도의 차이를 줄이는 방향으로 학습될 수 있다. 예를 들어, 교사 네트워크는 트리플렛 기반으로 학습된 후 작업 특정한 교사 네트워크의 정보를 각 학생 네트워크에 전달하여 학생 네트워크의 학습 효율을 높일 수 있다.

일 예에 따르면, 교사 네트워크와 학생 네트워크 사이의 손실 함수의 적용 시점에 따라, 학생 네트워크를 학습하는 교사 네트워크 정보 타입(지식 타입(Knowledge Types)이 달라질 수 있다.

일 예를 들어, 응답 기반(Response-Based)은 교사 네트워크의 마지막 출력과 유사해지는 방향으로 학생 네트워크를 학습시키는 방법이다. 응답 기반은 교사 네트워크와 학생 네트워크의 마지막 출력들 사이의 거리를 계산하는 함수나, 분포의 차이를 계산하는 발산함수를 손실함수로 활용할 수 있다.

일 예를 들어, 특징 기반(Feature-Based)은 교사 네트워크에서 학습된 특징 표현과 유사해지는 방향으로 학생 네트워크를 학습하는 방법이다. 특징 기반은 중간층의 추출된 특징맵 사이의 유사도 함수를 활용할 수 있으며, 특징맵의 모양이 다를 경우 변환 함수를 적용할 수 있다.

일 예를 들어, 관계 기반(Relation-Based)은 교사 네트워크의 층 사이의 관계를 학습시키는 방법이며, 같은 위치의 층들 사이의 상관관계를 유사해지는 방향으로 최적화한다. 관계 기반에서 네트워크 내 층 사이의 상관관계는 그람 행렬이나 그래프 표현 등을 활용할 수 있다.

일 예에 따르면, 영상 기반 네트워크부에서 교사 네트워크는 트리플렛(triplet)으로 생성된 데이터셋을 활용하여 사전 학습될 수 있다.

도 2를 참조하면, 트리플렛은 앵커(anchor) 영상 데이터로 분류된 영상 데이터들과 해당 앵커 영상 데이터와 유관한 포지티브(positive) 영상 데이터, 무관한 네거티브(negative) 영상 데이터로 구성된다. 예를 들어, 교사 네트워크의 주요 프레임 추출부(211)의 입력으로 앵커 영상 데이터, 포지티브 영상 데이터 및 네거티브 영상 데이터가 주어지며, 교사 네트워크는 앵커 영상 데이터와 포지티브 영상 데이터의 임베딩 차이는 작게, 앵커 영상 데이터와 네거티브 영상 데이터의 크게 되는 방향으로 최적화 및 학습이 이뤄진다.

일 예를 들어, 트리플렛에 기초한 손실 함수는 아래 수학식과 같이 표현될 수 있다.

[수학식 1]

일 예로, 영상 컨텐츠 검색 태스크 별로 포지티브 영상 데이터와 네거티브 영상 데이터의 목록이 다를 수 있으며, 도 2에서와 같이 각 태스크 당 하나씩 총 세 개(DSVR, CSVR, ISVR)의 교사 네트워크가 학습될 수 있다.

일 예에 따르면, 컨텐츠 기반의 영상 컨텐츠 검색 태스크는 Duplicate Scene Video Retrieval(DSVR), Near Duplicate Video Retrieval(NDVR), Complementary Scene Videos Retrieval (CSVR), Incident Scene Videos Retrieval (ISVR), Duplicate Audio Video Retrieval (DAVR) 등으로 구성될 수 있다.

일 예에 따르면, 영상 컨텐츠 검색을 위한 데이터셋은 FIVR-200K Dataset, SVD Dataset, EVVE Dataset, VCDB Dataset, CC_WEB_VIDEO Dataset 등을 포함할 수 있다.

일 예에 따르면, 교사 네트워크(200)는 주요 프레임 추출부(211)를 포함할 수 있다. 주요 프레임 추출부(211)에서 MTL은 여러 태스크를 동시에 학습시키므로 상당한 계산 비용이 필요하다. 또한, 영상 컨텐츠는 광범위한 데이터이며 일부는 매우 일시적으로 중복된 데이터가 포함되어 있다. 이에 따라, 영상 컨텐츠에서 적절한 프레임을 추출하는 경우, 영상 컨텐츠 검색 과정에서 계산 비용을 감소시키며, 정확도를 향상시킬 수 있다.

일 예로, 행동인지 모델을 이용한 프레임 추출 방법은 2-스트림(Two-Stream) 방식을 사용한다. 첫번째 스트림은 강화 학습과 비슷한 방법으로 각각의 프레임에 대한 점수(Score)를 산정한다. 두번째 스트림은 전체 프레임을 한번에 고려하는 방식으로 주의 및 관계 네트워크(Attention And Relational Network) 사용한다

일 예에 따르면, 교사 네트워크(200)는 비디오 특징 추출부(213)을 포함할 수 있다. 비디오 특징 추출부(213)에 주요 프레임 추출부(211)에서 추출된 프레임들이 입력되면, (R-MAC)Regional Maximum Activation of Convolution을 이용해 컨볼루션 레이어(Convolutional Layer) 개수 만큼 특징맵(Feature Map)을 만든다. 이때, 비디오 특징 추출부(213)는 PCA 화이트닝(PCA Whitening), L2 정규화(L2 normalization)을 이용해 추출된 프레임 특징이 다른 세분화된 프레임의 공간적인(Spatial) 정보를 유지할 수 있다.

일 예에 따르면, 교사 네트워크(200)는 유사도 추출부(215)를 포함할 수 있다. 유사도 추출부(215)는 영상 컨텐츠 프레임과 해당 프레임의 지역 특징맵(Region Feature Map)에 챔퍼 유사도(Chamfer Similarity)를 적용해 유사도를 계산할 수 있다. 예를 들어, 유사도 추출부(215)는 지역 특징맵을 지역 벡터(Region Vectors)로 분해(Decomposed) 한 후 해당 벡터들의 모든 쌍을 내적(Dot Product) 함으로써 두 프레임의 유사도 행렬(Similarity Matrix)을 구한 뒤 이를 챔퍼 유사도를 적용하여 프레임 간 유사도(Frame-to-Frame Similarity)를 구할 수 있다. 이후, 이를 합성곱 신경망(CNN)으로 전달하여 영상 컨텐츠 사이의 임시적인(Temporal) 관계를 포착하고 챔퍼 유사도 를 적용하여 최종적으로 영상 컨텐츠 간 유사도(Video-to-Video Similarity)를 계산할 수 있다.

일 예로, 챔퍼 유사도는 아래와 같이 정의될 수 있다.

[수학식 2]

일 실시예에 따르면, 영상 기반 네트워크부(110)는 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하는 제 1 주요 프레임 추출부(111), 제 1 주요 프레임 추출부(111)에서 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하는 제 1 영상 특징 추출부(113) 및 제 1 영상 특징 추출부(113)에서 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 1 유사도를 계산하는 제 1 유사도 추출부(115)를 포함할 수 있다.

일 예에 따르면, 영상 기반 네트워크(110)는 입력으로 입력 영상 컨텐츠와 저장 영상 컨텐츠를 수신할 수 있다. 이때, 입력 영상 컨텐츠는 쿼리 영상 콘텐츠, 저장 영상 컨텐츠는 후보 영상 콘텐츠로 표현할 수 있다. 일 예로, 영상 기반 네트워크(110)는 학생 네트워크로 교사 네트워크와 동일한 과정을 통해 유사도 계산을 할 수 있다.

일 예로, 영상 기반 네트워크(110)는 DAVR, ISVR, CSVR 로 학습된 교사 네트워크에 대응하는 학생 네트워크를 각 하나씩 포함할 수 있으며, 각각의 학생 네트워크는 공유 절단(shared-trunc) 방식의 MTL를 구성할 수 있다. 이에 따라서, 유사도 계산 과정에서 학습되는 파라미터는 하나의 모델을 사용할 수 있다. 영상 기반 네트워크(110)는 응답 기반 증류(Response-based knowledge distillation) 방식으로 각각의 교사 네트워크와 손실함수를 계산하고, 이를 줄이는 방향으로 최적화 및 학습이 이루어진다.

일 실시예에 따르면, 음성 기반 네트워크부(120)는 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 2 주요 프레임을 추출하며, 추출된 제 2 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 2 유사도를 계산할 수 있다.

일 실시예에 따르면, 음성 기반 네트워크부(120)는 트리플렛 기반으로 음성 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 학습된 음성 기반 교사 네트워크를 이용하여 계산된 음성 기반 유사도와 제 2 유사도의 차이인 제 2 유사도 손실에 기초하여 학습될 수 있다.

일 예에 따르면, 교사 네트워크는 DAVR 교사 네트워크일 수 있다. 음성 기반 네트워크를 학습시키기 위한 교사 네트워크는 입력된 음성 데이터를 멜 스펙트로그램(Mel-spectrogram)으로 변환하는 과정을 포함하며, 이후의 과정은 영상 기반 네트워크를 학습시키는 교사 네트워크와 유사하다. 다만, 행동 인식(action recognition)을 활용한 프레임 추출 부분은 CNN을 활용한 특징 추출(feature extraction)로 대체될 수 있다. 음성 기반 네트워크를 학습시키기 위한 교사 네트워크는 얻은 두 특징 (video descriptor) 사이의 내적을 통해 유사도 행렬을 얻으며, 합성곱 신경망을 통해 유사도 행렬의 시공간적 패턴을 학습할 수 있다. 이후, 음성 기반 네트워크를 학습시키기 위한 교사 네트워크는 챔퍼 유사도를 적용하여 유사도를 계산하며, 포지티브 음성 데이터와 앵커 음성 데이터와의 유사도는 줄이고, 네거티브 음성 데이터와 앵커 데이터 유사도는 늘이는 방향으로 최적화가 진행될 수 있도록 트리플렛 손실을 활용할 수 있다.

음성 기반 네트워크부(120)는 DAVR 학생 네트워크일 수 있으며, 쿼리 영상 콘텐츠의 음성 데이터와 후보 영상 콘텐츠의 음성 데이터의 멜 스펙트로그램이 입력으로 주어질 수 있다. 음성 기반 네트워크부(120)는 교사 네트워크와 동일한 과정을 통해 유사도를 계산하며, 사전 학습된 교사 네트워크에 동일 영상 컨텐츠를 입력을 넣고 얻은 유사도와의 차이를 줄이는 방향으로 학습된다.

일 예로, 비디오에서 인간의 행동을 인식하는 작업을 비디오 행동 인식(Video Action Recognition)이라고 하며, 비디오 행동 인식은 인간의 행동을 포함하는 비디오를 사전 정의된 행동(동작) 범주 중 하나로 분류하는 것을 목표로 한다. 예를 들어, 비디오 동작 인식은 비디오의 전체 프레임에서 서로 다른 동작을 구별해내는 태스크일 수 있다. 행동은 전체 프레임 동안 수행되거나 일부 프레임에서 수행될 수 있다.

일 예로, 행동 인식을 위한 데이터셋은 UCF101 Dataset, HMDB51 Dataset 등일 수 있다.

일 실시예에 따르면, 음성 기반 네트워크부(120)는 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하는 제 2 주요 프레임 추출부(121), 제 2 주요 프레임 추출부(121)에서 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하는 제 2 영상 특징 추출부(123) 및 제 2 영상 특징 추출부(123)에서 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 2 유사도를 계산하는 제 2 유사도 추출부(125)를 포함할 수 있다.

일 실시예에 따르면, 영상 기반 네트워크부(110) 및 음성 기반 네트워크부(120)는 제 1 영상 특징 추출부(113)에서 추출된 입력 영상 컨텐츠의 영상 특징 및 제 2 영상 특징 추출부(213)에서 추출된 입력 영상 컨텐츠의 영상 특징의 차이인 제 3 유사도 손실에 더 기초하여 각각 학습될 수 있다.

일 실시예에 따르면, 영상 기반 네트워크부(110) 및 음성 기반 네트워크부(120)는 제 1 유사도 손실, 제 2 유사도 손실 및 제 3 유사도 손실에 기초하여 계산된 전체 손실에 기초하여 각각 학습될 수 있다.

일 예에 따르면, 전체 손실은 특징 기반 지식 증류와 응답 기반 지식 증류를 종합하여 계산될 수 있다. 예를 들어, 전체 손실은 영상 기반 네트워크부와 음성 기반 네트워크부의 중간 레벨 특징(mid-level feature) 사이의 유사도(거리) 손실과 영상 기반 교사 네트워크와 영상 기반 학생 네트워크 사이의 유사도 손실의 가중합으로 계산될 수 있다. 예를 들어, 전체 손실은 아래와 같이 계산될 수 있다.

[수학식 3]

여기서, WS는 가중합을 나타내며, WM은 가중평균을 나타낸다.

일 실시예에 따르면, 추천 컨텐츠 결정부(130)는 제 1 유사도 및 제 2 유사도 중 적어도 하나를 기초로 하나 이상의 저장 영상 컨텐츠 중 입력 영상 컨텐츠와 유사도가 소정 기준 이상인 하나 이상의 저장 영상 컨텐츠를 결정하는 추천 컨텐츠 결정부(130)를 포함할 수 있다.

예를 들어, 추천 컨텐츠 결정부(130)는 저장 컨텐츠 각각에 대한 제 1 유사도 및 제 2 유사도의 합 또는 평균을 이용하여 소정 기준 이상의 유사도를 가지는 하나 이상의 저장 영상 컨텐츠를 추천 컨텐츠로 결정할 수 있다.

도 3은 일 실시예에 따른 영상 컨텐츠 추천 방법을 도시한 흐름도이다.

일 실시예에 따르면, 영상 컨텐츠 추천 장치는 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 1 주요 프레임을 추출하며, 추출된 제 1 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 1 유사도를 계산할 수 있다(310).

일 예를 들어, 영상 컨텐츠 추천 장치는 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하며, 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하며, 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 1 유사도를 계산할 수 있다.

일 실시예에 따르면, 영상 컨텐츠 추천 장치는 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 2 주요 프레임을 추출하며, 추출된 제 2 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 2 유사도를 계산할 수 있다(320).

일 예를 들어, 영상 컨텐츠 추천 장치는 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하며, 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하며, 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 2 유사도를 계산할 수 있다.

일 실시예에 따르면, 영상 컨텐츠 추천 장치는 제 1 유사도 및 제 2 유사도 중 적어도 하나를 기초로 하나 이상의 저장 영상 컨텐츠 중 입력 영상 컨텐츠와 유사도가 소정 기준 이상인 하나 이상의 저장 영상 컨텐츠를 결정할 수 있다.

도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 영상 컨텐츠 추천 장치(100)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

100: 영상 컨텐츠 추천 장치
110: 영상 기반 네트워크부
111: 제 1 주요 프레임 추출부
113: 제 1 영상 특징 추출부
115: 제 1 유사도 추출부
120: 영상 기반 네트워크부
121: 제 2 주요 프레임 추출부
123: 제 2 영상 특징 추출부
125: 제 2 유사도 추출부
200: 교사 네트워크
211: 주요 프레임 추출부
213: 영상 특징 추출부
215: 유사도 추출부

Claims

사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 1 주요 프레임을 추출하며, 추출된 제 1 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 1 유사도를 계산하는 영상 기반 네트워크부;
사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 2 주요 프레임을 추출하며, 추출된 제 2 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 2 유사도를 계산하는 음성 기반 네트워크부; 및
상기 제 1 유사도 및 상기 제 2 유사도 중 적어도 하나를 기초로 상기 하나 이상의 저장 영상 컨텐츠 중 상기 입력 영상 컨텐츠와 유사도가 소정 기준 이상인 하나 이상의 저장 영상 컨텐츠를 결정하는 추천 컨텐츠 결정부를 포함하며,
상기 영상 기반 네트워크부는, 학생 네트워크(student network)로서,
트리플렛(triplet) 기반으로 영상 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 사전 학습된 영상 기반 교사 네트워크(teacher network)를 이용하여 계산된 영상 기반 유사도와 상기 제 1 유사도의 차이인 제 1 유사도 손실에 기초하여 학습되고,
상기 음성 기반 네트워크부는, 학생 네트워크(student network)로서,
트리플렛 기반으로 음성 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 사전 학습된 음성 기반 교사 네트워크(teacher network)를 이용하여 계산된 음성 기반 유사도와 상기 제 2 유사도의 차이인 제 2 유사도 손실에 기초하여 학습되는, 영상 컨텐츠 추천 장치.
삭제
삭제
제 1 항에 있어서,
상기 영상 기반 네트워크부는
상기 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하는 제 1 주요 프레임 추출부;
상기 제 1 주요 프레임 추출부에서 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하는 제 1 영상 특징 추출부; 및
상기 제 1 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 1 유사도를 계산하는 제 1 유사도 추출부를 포함하는, 영상 컨텐츠 추천 장치.
제 4 항에 있어서,
상기 음성 기반 네트워크부는
상기 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하는 제 2 주요 프레임 추출부;
상기 제 2 주요 프레임 추출부에서 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하는 제 2 영상 특징 추출부; 및
상기 제 2 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 2 유사도를 계산하는 제 2 유사도 추출부를 포함하는, 영상 컨텐츠 추천 장치.
제 5 항에 있어서,
상기 영상 기반 네트워크부 및 상기 음성 기반 네트워크부는
상기 제 1 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징 및
상기 제 2 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징의 차이인 제 3 유사도 손실에 더 기초하여 각각 학습되는, 영상 컨텐츠 추천 장치.
제 6 항에 있어서,
상기 영상 기반 네트워크부 및 상기 음성 기반 네트워크부는
제 1 유사도 손실, 제 2 유사도 손실 및 제 3 유사도 손실에 기초하여 계산된 전체 손실에 기초하여 각각 학습되는, 영상 컨텐츠 추천 장치.
영상 기반 네트워크부에서, 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 1 주요 프레임을 추출하며, 추출된 제 1 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 1 유사도를 계산하는 단계;
음성 기반 네트워크부에서, 사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 2 주요 프레임을 추출하며, 추출된 제 2 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 2 유사도를 계산하는 단계; 및
추천 컨텐츠 결정부에서, 상기 제 1 유사도 및 상기 제 2 유사도 중 적어도 하나를 기초로 상기 하나 이상의 저장 영상 컨텐츠 중 상기 입력 영상 컨텐츠와 유사도가 소정 기준 이상인 하나 이상의 저장 영상 컨텐츠를 결정하는 단계를 포함하고,
상기 영상 기반 네트워크부는, 학생 네트워크(student network)로서,
트리플렛(triplet) 기반으로 영상 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 사전 학습된 영상 기반 교사 네트워크(teacher network)를 이용하여 계산된 영상 기반 유사도와 상기 제 1 유사도의 차이인 제 1 유사도 손실에 기초하여 학습되고,
상기 음성 기반 네트워크부는, 학생 네트워크(student network)로서,
트리플렛 기반으로 음성 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 사전 학습된 음성 기반 교사 네트워크(teacher network)를 이용하여 계산된 음성 기반 유사도와 상기 제 2 유사도의 차이인 제 2 유사도 손실에 기초하여 학습되는, 영상 컨텐츠 추천 방법.
삭제
삭제
제 8 항에 있어서,
상기 제 1 유사도를 계산하는 단계는,
제 1 주요 프레임 추출부에서, 상기 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하는 단계;
제 1 영상 특징 추출부에서, 상기 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하는 단계; 및
제 1 유사도 추출부에서, 상기 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 1 유사도를 계산하는 단계를 포함하는, 영상 컨텐츠 추천 방법.
제 11 항에 있어서,
상기 제 2 유사도를 계산하는 단계는,
제 2 주요 프레임 추출부에서, 상기 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임을 추출하는 단계;
제 2 영상 특징 추출부에서, 상기 추출된 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 주요 프레임으로부터 영상 특징을 추출하는 단계; 및
제 2 유사도 추출부에서, 상기 추출된 입력 영상 컨텐츠의 영상 특징 및 하나 이상의 저장 영상 컨텐츠 각각의 영상 특징의 제 2 유사도를 계산하는 단계를 포함하는, 영상 컨텐츠 추천 방법.
제 12 항에 있어서,
상기 영상 기반 네트워크부 및 상기 음성 기반 네트워크부는,
상기 제 1 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징 및
상기 제 2 영상 특징 추출부에서 추출된 입력 영상 컨텐츠의 영상 특징의 차이인 제 3 유사도 손실에 더 기초하여 각각 학습되는, 영상 컨텐츠 추천 방법.
제 13 항에 있어서,
상기 영상 기반 네트워크부 및 상기 음성 기반 네트워크부는
제 1 유사도 손실, 제 2 유사도 손실 및 제 3 유사도 손실에 기초하여 계산된 전체 손실에 기초하여 각각 학습되는, 영상 컨텐츠 추천 방법.
비일시적 컴퓨터 판독 가능한 저장 매체(non-transitory computer readable storage medium)에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 하나 이상의 명령어들을 포함하고, 상기 명령어들은 하나 이상의 프로세서들을 갖는 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치로 하여금,
사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 영상 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 1 주요 프레임을 추출하며, 추출된 제 1 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 1 유사도를 계산하는 단계;
사용자로부터 입력된 입력 영상 컨텐츠 데이터 및 데이터 베이스에 저장되어 있는 하나 이상의 저장 영상 컨텐츠 데이터에 포함된 음성 데이터에 기초하여 입력 영상 컨텐츠 및 하나 이상의 저장 영상 컨텐츠 각각의 제 2 주요 프레임을 추출하며, 추출된 제 2 주요 프레임으로부터 영상 특징을 추출하여 각각의 영상 특징의 제 2 유사도를 계산하는 단계; 및
상기 제 1 유사도 및 상기 제 2 유사도 중 적어도 하나를 기초로 상기 하나 이상의 저장 영상 컨텐츠 중 상기 입력 영상 컨텐츠와 유사도가 소정 기준 이상인 하나 이상의 저장 영상 컨텐츠를 결정하는 단계를 수행하도록 하고,
상기 제1 유사도를 계산하는 단계는, 학생 네트워크(student network)인 영상 기반 네트워크부에서 수행되는 것으로, 상기 영상 기반 네트워크부는, 트리플렛(triplet) 기반으로 영상 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 사전 학습된 영상 기반 교사 네트워크(teacher network)를 이용하여 계산된 영상 기반 유사도와 상기 제 1 유사도의 차이인 제 1 유사도 손실에 기초하여 학습되고,
상기 제2 유사도를 계산하는 단계는, 학생 네트워크(student network)인 음성 기반 네트워크부에서 수행되는 것으로, 상기 음성 기반 네트워크부는, 트리플렛 기반으로 음성 데이터를 이용하여 영상 컨텐츠의 유사도를 계산하도록 사전 학습된 음성 기반 교사 네트워크(teacher network)를 이용하여 계산된 음성 기반 유사도와 상기 제 2 유사도의 차이인 제 2 유사도 손실에 기초하여 학습되는, 비일시적 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.