KR20180011221A

KR20180011221A - 비디오들에 대해 대표 비디오 프레임들 선택

Info

Publication number: KR20180011221A
Application number: KR1020177036846A
Authority: KR
Inventors: 조나슨 시엔스; 조지 댄 토더리치; 사미 아부-엘-하이자
Original assignee: 구글 엘엘씨
Priority date: 2015-06-24
Filing date: 2016-06-24
Publication date: 2018-01-31
Also published as: JP2018517959A; WO2016210268A1; EP3314466A1; JP6892389B2; CN107960125A; US20160378863A1

Abstract

비디오들에 대한 대표 프레임들을 선택하기 위한, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치. 방법들 중 하나는 검색 쿼리를 수신하는 단계; 상기 검색 쿼리에 대한 쿼리 표현을 결정하는 단계; 상기 검색 쿼리에 대한 복수의 응답 비디오들을 식별하는 데이터를 획득하는 단계, 각 응답 비디오는 복수의 프레임들을 포함하며, 각 프레임은 각각의 프레임 표현을 가지며; 각 응답 비디오에 대해, 상기 쿼리 표현 및 상기 응답 비디오에서 상기 프레임들에 대한 상기 프레임 표현들을 사용하여 상기 응답 비디오로부터 대표 프레임을 선택하는 단계; 및 상기 검색 쿼리에 대한 응답을 생성하는 단계를 포함하며, 상기 검색 쿼리에 대한 상기 응답은 상기 응답 비디오들 각각에 대한 각각의 비디오 검색 결과를 포함하며, 그리고 상기 응답 비디오들 각각에 대한 상기 각각의 비디오 검색 결과는 상기 응답 비디오의 상기 대표 비디오 프레임의 표현을 포함한다.

Description

비디오들에 대해 대표 비디오 프레임들 선택

본 명세서는 인터넷 비디오 검색 엔진과 관련된다.

인터넷 검색 엔진들은 인터넷 리소스들 특히, 사용자의 정보 요구와 관련된 비디오들을 식별하고, 사용자에게 가장 유용한 방식으로 비디오들에 관한 정보를 제시하는 것을 목표로 한다. 인터넷 비디오 검색 엔진들은 일반적으로 사용자 제출 쿼리에 응답하여 각각의 비디오를 각각 식별하는 비디오 검색 결과들의 세트를 리턴한다.

일반적으로, 본 명세서에 기술된 발명의 일 혁신적 양태는 검색 쿼리를 수신하는 단계, 상기 검색 쿼리는 하나 이상의 쿼리 용어들을 포함하며; 상기 검색 쿼리에 대한 쿼리 표현을 결정하는 단계, 상기 쿼리 표현은 고차원 공간에서의 숫자들의 벡터이며; 상기 검색 쿼리에 대한 복수의 응답 비디오들을 식별하는 데이터를 획득하는 단계, 각 응답 비디오는 복수의 프레임들을 포함하며, 각 프레임은 각각의 프레임 표현을 가지며, 그리고 각 프레임 표현은 고차원 공간에서의 숫자들의 벡터이며; 각 응답 비디오에 대해, 상기 쿼리 표현 및 상기 응답 비디오에서 상기 프레임들에 대한 상기 프레임 표현들을 사용하여 상기 응답 비디오로부터 대표 프레임을 선택하는 단계; 및 상기 검색 쿼리에 대한 응답을 생성하는 단계의 액션들을 포함하며, 상기 검색 쿼리에 대한 상기 응답은 상기 응답 비디오들 각각에 대한 각각의 비디오 검색 결과를 포함하며, 그리고 상기 응답 비디오들 각각에 대한 상기 각각의 비디오 검색 결과는 상기 응답 비디오의 상기 대표 비디오 프레임의 표현을 포함하는 방법들에 이용될 수 있다.

상기 응답 비디오들 각각에 대한 상기 각각의 비디오 검색 결과는 상기 응답 비디오의 상기 대표 프레임부터 시작하는 상기 응답 비디오의 재생에 대한 링크를 포함할 수 있다. 각 응답 비디오에 대해, 상기 쿼리 표현 및 상기 응답 비디오에서 상기 프레임들에 대한 상기 프레임 표현들을 사용하여 상기 응답 비디오로부터 대표 프레임을 선택하는 단계는 상기 쿼리 표현과 상기 응답 비디오 프레임에서 상기 프레임들에 대한 상기 프레임 표현들 각각과의 사이에 각각의 거리 측정치를 계산하는 것을 포함할 수 있다.

각 응답 비디오에 대해, 상기 쿼리 표현 및 상기 응답 비디오에서 상기 프레임들에 대한 상기 프레임 표현들을 사용하여 상기 응답 비디오로부터 대표 프레임을 선택하는 단계는 상기 거리 측정치에 따라 상기 쿼리 표현에 가장 가까운 프레임 표현을 갖는 프레임을 상기 대표 프레임으로서 선택하는 것을 더 포함할 수 있다.

각 응답 비디오에 대해, 상기 쿼리 표현 및 상기 응답 비디오에서 상기 프레임들에 대한 상기 프레임 표현들을 사용하여 상기 응답 비디오로부터 대표 프레임을 선택하는 단계는 상기 거리 측정치로부터 상기 프레임들 각각에 대해 각각의 확률을 생성하는 것; 상기 프레임들 중 임의의 프레임에 대한 가장 높은 확률이 임계값을 초과하는지 여부를 결정하는 것; 상기 가장 높은 확률이 상기 임계값을 초과하는 경우, 상기 가장 높은 확률을 갖는 상기 프레임을 상기 대표 프레임으로서 선택하는 것을 더 포함할 수 있다.

각 응답 비디오에 대해, 상기 쿼리 표현 및 상기 응답 비디오에서 상기 프레임들에 대한 상기 프레임 표현들을 사용하여 상기 응답 비디오로부터 대표 프레임을 선택하는 단계는 상기 가장 높은 확률이 상기 임계값을 초과하지 않는 경우, 디폴트 프레임을 상기 대표 프레임으로서 선택하는 것을 더 포함할 수 있다.

상기 검색 쿼리에 대한 상기 쿼리 표현을 결정하는 단계는 상기 검색 쿼리에서 상기 하나 이상의 용어들 각각에 대한 각각의 용어 표현을 결정하는 것, 상기 용어 표현은 상기 고차원 공간에서 상기 용어의 표현이며; 상기 하나 이상의 용어 표현들로부터 상기 쿼리 표현을 결정하는 것을 더 포함할 수 있다.

상기 방법은 상기 응답 비디오들 각각에 대해, 상기 응답 비디오로부터 상기 복수의 프레임들 각각에 대한 상기 각각의 프레임 표현을 결정하는 단계를 더 포함할 수 있다. 상기 응답 비디오로부터 상기 복수의 프레임들 각각에 대한 상기 각각의 프레임 표현을 결정하는 단계는 라벨들의 미리 결정된 세트에서 각 라벨을 각각의 라벨 표현에 맵핑하는 데이터를 유지하는 것을 포함할 수 있다. 각 라벨 표현은 상기 고차원 공간에서의 숫자들의 벡터이다. 상기 프레임에 대한 라벨 스코어들의 세트를 생성하기 위해 딥 컨벌루션 신경 네트워크를 사용하여 상기 프레임을 프로세싱될 수 있고, 상기 라벨 스코어들의 세트는 상기 라벨들의 미리 결정된 세트에서 각 라벨에 대한 각각의 스코어를 포함하며, 그리고 상기 라벨들 각각에 대한 상기 각각의 스코어는 상기 프레임이 상기 라벨에 의해 라벨링된 오브젝트 카테고리로부터 오브젝트의 이미지를 포함하는 가능성을 표현한다. 상기 프레임에 대한 상기 프레임 표현은 상기 프레임에 대한 상기 라벨 스코어들의 세트와 상기 라벨 표현들로부터 계산될 수 있다.

상기 프레임에 대한 상기 라벨 스코어들의 세트와 상기 라벨 표현들로부터 상기 프레임에 대한 상기 프레임 표현을 계산하는 것은 상기 레이블들 각각에 대해, 상기 라벨에 대한 상리 라벨 스코어에 상기 라벨에 대한 상기 라벨 표현을 곱함으로써 상기 라벨에 대한 가중 표현(weighted representation)을 계산하는 것; 및 상기 가중 표현들의 합을 계산함으로써 상기 프레임에 대한 상기 프레임 표현을 계산하는 것을 포함할 수 있다.

상기 응답 비디오로부터 상기 복수의 프레임들 각각에 대한 상기 각각의 프레임 표현을 결정하는 단계는 상기 프레임에 대한 상기 프레임 표현을 생성하기 위해 수정된 이미지 분류 신경 네트워크를 사용하여 상기 프레임을 프로세싱하는 것을 포함한다. 상기 수정된 이미지 분류 신경 네트워크는 라벨들의 미리 결정된 세트의 각 라벨에 대해 각각의 라벨 스코어를 생성하기 위해 상기 프레임을 프로세싱하도록 구성된 초기 이미지 분류 신경 네트워크 및 상기 라벨 스코어들을 수신하고 상기 프레임에 대한 상기 프레임 표현을 생성하도록 구성된 임베딩 레이어를 포함한다.

상기 수정된 이미지 분류 컨벌루션 신경 네트워크는 트레이닝 트리플렛들의 세트에서 트레이닝되었으며, 각 트레이닝 트리플렛은 각각의 트레이닝 비디오로부터의 각각의 트레이닝 프레임, 긍정(positive) 쿼리 표현, 부정(negative) 쿼리 표현을 포함한다.

상기 긍정 쿼리 표현은 상기 트레이닝 비디오와 연관된 검색 쿼리에 대한 쿼리 표현이며, 상기 부정 쿼리 표현은 상기 트레이닝 비디오와 연관되지 않은 검색 쿼리에 대한 쿼리 표현일 수 있다.

본 양태의 다른 실시예들은 상기 방법들의 액션들을 수행하도록 각각 구성된 대응하는 컴퓨터 시스템들, 장치 및 하나 이상의 컴퓨터 저장 디바이스들에 기록된 컴퓨터 프로그램들을 포함한다. 하나 이상의 컴퓨터들의 시스템은 동작하는 시스템으로 하여금 액션들을 수행하게 하는 시스템에 설치된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 가짐으로써 특정 동작들 또는 액션들을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램들은 데이터 프로세싱 장치에 의해 실행될 때, 장치로 하여금 액션들을 수행하게 하는 명령어들을 포함함으로써 특정 동작들 또는 액션들을 수행하도록 구성될 수 있다.

본 명세서에 기술된 발명의 특정 실시예들은 하나 이상의 후술하는 이점들을 실현하도록 구현될 수 있다. 비디오 검색 엔진에 의해 수신된 검색 쿼리에 대한 응답으로 분류된 비디오들로부터 대표 프레임들을 선택함으로써, 더 효율적인 비디오 검색 엔진이 제공된다. 특히, 대표 비디오 프레임들은 수신된 검색 쿼리에 종속되는 방식으로 선택되기 때문에, 응답 비디오를 식별하는 검색 결과의 대표 프레임을 포함함으로써 주어진 응답 비디오의 관련성이 사용자에게 효과적으로 표시될 수 있고, 그에 의해 사용자가 더 빠르게 가장 관련 있는 검색 결과를 찾을 수 있게 한다. 추가적으로, 검색 결과에 선택시 대표 프레임부터 시작되는 응답 비디오의 재생을 개시하는 링크를 포함함으로써, 사용자는 응답 비디오의 가장 관련있는 부분으로 쉽게 탐색할 수 있다.

본 명세서의 발명의 하나 이상의 실시예들의 세부 내용은 첨부 도면들과 이하의 설명에서 기술된다. 본 발명의 다른 구성들, 양태들 및 이점들은 설명, 도면 및 청구항들로부터 분명해질 것이다.

도 1은 예시적 비디오 검색 시스템이다.
도 2는 수신된 검색 쿼리에 대한 응답을 생성하는 예시적 프로세스의 흐름도이다.
도 3은 비디오 프레임에 대한 프레임 표현을 결정하는 예시적 프로세서의 흐름도이다.
도 4는 수정된 이미지 분류 시스템을 사용하는 비디오 프레임에 대한 프레임 표현을 결정하는 예시적 프로세스의 흐름도이다.
도 5는 수정된 이미지 분류 시스템을 트레이닝하는 예시적 프로세스의 흐름도이다.
다양한 도면들에서 동일한 참조 번호 및 기호는 동일한 구성요소를 표시한다.

본 명세서는 일반적으로 비디오 검색 결과들을 포함하는 검색 쿼리들에 대한 응답들을 생성하는 비디오 검색 시스템을 기술한다. 특히, 검색 쿼리에 응답하여, 시스템은 응답 비디오들의 세트 각각으로부터 대표 비디오 프레임을 선택하고, 각각의 응답 비디오를 각각 식별하고 상기 응답 비디오로부터 대표 비디오 프레임의 표현을 포함하는 비디오 검색 결과를 포함하는 검색 쿼리에 대한 응답을 생성한다.

도 1은 예시적 비디오 검색 시스템(114)을 도시한다. 비디오 검색 시스템(114)은 이하에 기술된 시스템들, 컴포넌트들 및 기법들이 구현되는 하나 이상의 위치들의 하나 이상의 컴퓨터들 상에서 컴퓨터 프로그램들로 구현되는 정보 검색 시스템의 예시이다.

사용자(102)는 비디오 검색 시스템(114)과 사용자 디바이스(104)를 통해 인터렉션할 수 있다. 사용자 디바이스(104)는 일반적으로 명령어들 및 데이터를 저장하기 위한 메모리, 예를 들어, 랜덤 액세스 메모리(RAM)(106) 및 저장된 명령어들 및 데이터를 실행하기 위한 프로세서(108)를 포함할 것이다. 메모리는 읽기 전용 메모리와 쓰기가능 메모리가 모두 포함할 수 있다. 예를 들어, 사용자 디바이스(104)는 근거리 통신망(LAN) 또는 광역 통신망(WAN), 예를 들어, 인터넷 또는 무선 링크를 포함 할 수 있는 네트워크의 조합과 같은 데이터 통신 네트워크(112)를 통해 비디오 검색 시스템(114)에 연결 된 컴퓨터, 예를 들어 스마트폰 또는 다른 모바일 디바이스일 수 있다.

일부 구현예들에서, 비디오 검색 시스템(114)은 사용자(102)가 비디오 검색 시스템(114)과 인터렉션할 수 있는 사용자 디바이스(104)에 사용자 인터페이스를 제공한다. 예를 들어, 비디오 검색 시스템(114)은 사용자 디바이스(104)에서 실행되는 웹 브라우저에 의해 렌더링되는 웹 페이지들의 형태로, 예를 들어, 모바일 디바이스와 같은 사용자 디바이스(104)에 설치된 앱 등에서 사용자 인터페이스를 제공할 수 있다.

사용자(102)는 사용자 디바이스(104)를 사용하여 쿼리(110)를 비디오 검색 시스템(1140)에 제출할 수 있다. 비디오 검색 시스템(114) 내의 비디오 검색 엔진(130)은 검색을 수행하여 쿼리(110)에 대한 응답 비디오들 즉, 비디오 검색 엔진(130)이 쿼리(110)에 일치하는 것으로서 식별한 비디오들을 식별한다.

사용자(102) 쿼리(110)를 제출하면, 쿼리(110)는 네트워크(112)를 통해 비디오 검색 시스템(124)에 전송될 수 있다. 비디오 검색 시스템(114)은 비디오들을 인덱싱하는 인덱스(122)와 비디오 검색 엔진(140)을 포함한다. 비디오 검색 시스템(114)은 예를 들어, 사용자 디바이스(104)에서 실행되는 웹 브라우저에 의해 디스플레이될 검색 결과 웹 페이지로서, 사용자(102)에게 제시하기 위해 네트워크(112)를 통해 사용자 디바이스(104)에 전송되는 비디오 검색 결과(128)를 생성함으로써 검색 쿼리(110)에 대해 응답한다.

쿼리(110)가 비디오 검색 엔진(130)에 의해 수신되면, 비디오 검색 엔진(130)은 인덱스(122)에서 인덱싱된 비디오들로부터 쿼리(110)에 대한 응답 비디오들을 식별한다. 검색 엔진(130)은 쿼리(110)를 만족하는 비디오들에 대한 스코어들을 생성하고, 그들의 각각의 스코어들에 따라 비디오들을 랭킹하는 랭킹 엔진(152) 또는 다른 소프트웨어를 일반적으로 포함할 수 있다.

비디오 검색 시스템(114)은 대표 프레임 시스템(150)을 포함하거나 그와 통신할 수 있다. 비디오 검색 엔진(130)이 쿼리(110)에 대한 응답 비디오들을 선택한 후에, 대표 프레임 시스템(150)은 응답 비디오들 각각으로부터 대표 비디오 프레임을 선택한다. 그 후, 비디오 검색 시스템(114)은 비디오 검색 결과를 포함하는 쿼리(110)에 대한 응답을 생성한다.

비디오 검색 결과들 각각은 응답 비디오들 중 각각의 비디오를 식별하고 대표 프레임 시스템(150)에 의해 응답 비디오에 대해 선택된 대표 프레임의 표현을 포함한다. 대표 프레임의 제시는 예를 들어, 대표 프레임의 썸네일 또는 대표 프레임으로부터의 컨텐츠를 포함하는 다른 이미지일 수 있다. 또한 각 비디오 검색 결과는 사용자에 의해 선택될 때, 비디오 검색 결과에 의해 식별된 비디오의 재생을 개시하는 링크를 일반적으로 포함할 수 있다. 일부 구현예에서, 링크는 응답 비디오의 대표 프레임부터 시작하는 재생을 개시한다. 즉, 대표 프레임은 비디오에서 제1 프레임이 아닌 비디오의 재생에 대한 시작 포인트이다.

대표 프레임 시스템(150)은 용어 표현 저장소(152)에 저장된 용어 표현들과 프레임 표현 저장소(154)에 저장된 프레임 표현들을 사용하여 주어진 응답 비디오로부터 대표 프레임을 선택한다.

용어 표현 저장소(152)는 용어들의 미리 결정된 어휘의 각 용어를 상기 용어에 대한 용어 표현과 연관시키는 데이터를 저장한다. 용어 표현들은 고차원 공간에서 숫자적 값들의 벡터들이다. 즉, 주어진 용어에 대한 용어 표현은 용어에 고차원 공간에서의 위치를 부여한다. 예를 들어, 숫자적 값들은 부동소수점 값들 또는 부동소수점 값들의 양자화된 표현이다.

일반적으로 연관들은 용어들의 상대적 위치들이 용어들 사이의 의미 론적 그리고 구문론적 유사성을 반영하도록 생성된다. 즉, 고차원 공간에서 용어들의 상대적 위치들은 용어들 사이에서, 예를 들어, 공간에서 그들의 상대 위치에 의해, 단어 "he"와 유사한 단어들은 단어들 "그들", "나", "너"등을 포함할 수 있음을 보여주는 구문론적 유사성과 예를 들어, 공간에서 그들의 상대 위치에 의해, 단어 “queen”은 단어들 “king” 및 “prince”와 유사함을 보여주는 의미론 유사성을 반영한다. 또한, 공간에서 상대적 위치들은 단어 “prince”가 단어 “princess”와 유사한 것과 동일한 센스로 단어 “king”이 단어 “queen”과 유사하며, 그리고, 또한, 단어 “queen”이 단어 “princess”와 유사한 것과 같이 단어 “king”은 단어 “prince”와 유사함을 보여줄 수 있다.

추가적으로, 동작들은 다른 용어들에 대해 원하는 관계를 가지는 용어들을 식별하기 위해 위치들에서 수행될 수 있다. 특히, 위치들에서 수행된 벡터 뺄셈 및 벡터 덧셈 연산들을 사용하여 용어들 간의 관계들을 결정할 수 있다. 예를 들어, 용어 B가 용어 C에 대해 가지는 관계처럼, 용어 A와 유사한 관계를 갖는 용어 X를 식별하기 위해, 용어 A, B 및 C를 표현하는 벡터들에 대해 다음 연산이 수행될 수 있다: 벡터(B) - 벡터(C) + 벡터 (A). 예를 들어 연산 벡터("Man") - 벡터("Woman") + 벡터("Queen")는 단어 "King"의 벡터 표현에 가까운 벡터를 결과할 수 있다.

이러한 특성들을 갖는 고차원 벡터 표현들에 대한 용어의 연관은 용어들의 어휘에서 각 용어를 프로세싱하도록 구성된 기계 학습 시스템을 트레이닝함으로써 생성되어, 고차원 공간에서 어휘의 각 용어의 각각의 숫자적 표현을 얻고, 어휘의 각 용어를 고차원 공간에서 용어의 각각의 숫자적 표현과 연관시킨다. 이러한 시스템을 트레이닝하고 연관들을 생성하는 예시적 기법들은 Tomas Mikolov, Kai Chen, Greg S. Corrado 및 Jeffrey Dean, 벡터 공간에서의 단어 표현의 효율적인 평가, ICLR (International Conference for Learning Representations), 미국 애리조나 주, 스코츠데일(2013)에서 설명된다.

프레임 표현 저장소(154)는 인덱스(122)에서 인덱싱된 비디오들로부터의 비디오 프레임들을 프레임에 대한 프레임 표현과 연관시키는 데이터를 저장한다. 용어 표현들처럼, 프레임 표현들은 고차원 공간에서 숫자적 값들의 벡터들이다. 비디오 프레임에 대한 프레임 표현을 생성하는 것은 도 3과 4를 참조하여 아래에서 기술된다. 용어 표현들과 프레임 표현들을 사용하여 수신된 쿼리에 대한 응답에서 비디오에 대한 대표 프레임을 선택하는 것은 도 2를 참조하여 아래에서 기술된다.

도 2는 수신된 검색 쿼리에 대한 응답을 생성하는 예시적 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들어, 적절하게 프로그래밍된 비디오 검색 시스템 예를 들어, 도 1의 비디오 검색 시스템(100)은 프로세스(200)를 수행할 수 있다.

시스템은 검색 쿼리를 수신한다(단계(202)). 검색 쿼리는 하나 이상의 쿼리 용어들을 포함한다.

시스템은 검색 쿼리에 대한 쿼리 표현을 생성한다(단계(204)). 쿼리 표현은 고차원 공간에서 숫자적 값들의 벡터이다. 특히, 쿼리 표현을 생성하기 위해, 시스템은 용어 표현 저장소 예를 들어, 도 1의 용어 표현 저장소(152)에 저장된 데이터로부터 수신된 검색 쿼리에서의 각 쿼리 용어에 대한 각각의 용어 표현을 결정한다. 상기 기술된 바와 같이, 용어 표현 저장소는 용어들의 어휘에서 각 용어에 대해 상기 용어를 상기 용어에 대한 용어 표현과 연관시키는 데이터를 저장한다. 그 후, 시스템은 쿼리 용어들에 대한 용어 표현들을 결합하여 쿼리 표현을 생성한다. 예를 들어, 쿼리 표현은 검색 쿼리에서 용어들에 대한 용어 표현들의 중심 경향(central tendency)의 평균 또는 다른 측정치일 수 있다.

시스템은 검색 쿼리에 대한 응답 비디오들을 식별하는 데이터를 획득한다(단계(206)). 응답 비디오들은 비디오 검색 엔진 예를 들어, 도 1의 비디오 검색 엔진(130)에 의해 검색 쿼리에 대한 응답인 것으로 즉, 검색 쿼리와 일치하거나 만족하는 것으로 분류된 비디오들이다.

시스템은 응답 비디오들의 각각으로부터 대표 프레임을 선택한다(단계(208)). 시스템은 프레임 표현 저장소 예를 들어, 도 1의 프레임 표현 저장소(154)에 저장된 응답 비디오에서 프레임들에 대한 프레임 표현들을 사용하여 주어진 응답 비디오로부터 대표 프레임을 선택한다.

특히, 응답 비디오로부터 대표 프레임을 선택하기 위해, 시스템은 쿼리 표현과 응답 비디오에서 프레임들에 대한 프레임 표현들 각각과의 사이에 각각의 거리 측정치를 계산한다. 거리 측정치는 코사인 유사성 값, 유클리드(Euclidian) 거리, 해밍(Hamming) 거리 등일 수 있다. 유사하게, 또한 시스템은 표현들을 정규화한 후 정규화된 표현들 사이의 거리 측정치를 계산할 수 있다.

일부 구현예에서, 시스템은 거리 측정치에 따라 쿼리 표현과 가장 가까운 프레임 표현을 가지는 응답 비디오로부터의 프레임을 대표 프레임으로서 선택한다.

선택적으로, 이들 구현예에서, 시스템은 가장 가까운 프레임 표현이 쿼리 표현에 충분히 가까운지 여부를 검증할 수 있다. 즉, 만약 거리 측정치에 따라 더 큰 거리 값이 더 가까운 표현들을 나타내면, 가장 큰 거리 측정치가 임계값을 초과하는 경우 시스템은 가장 가까운 프레임 표현이 충분히 가깝다고 결정한다. 만약 거리 측정치에 따라 더 작은 거리 값이 더 가까운 표현들을 나타내면, 가장 작은 거리 측정치가 임계값 미만인 경우 시스템은 가장 가까운 프레임 표현이 충분히 가깝다고 결정한다.

만약 가장 가까운 프레임 표현이 쿼리 표현에 대해 충분히 가깝다면, 시스템은 가장 가까운 프레임 표현을 갖는 프레임을 대표 프레임으로 선택한다. 만약 가장 가까운 프레임 표현이 충분히 가깝지 않다면, 시스템은 미리 결정된 디폴트 프레임을 대표 프레임으로서 선택한다. 예를 들어, 디폴트 프레임은 응답 비디오에서 미리 결정된 포지션에서의 프레임 예를 들어, 응답 비디오에서 제1 프레임이거나 다른 기법을 사용하여 응답 비디오에 대해 대표 프레임으로 분류된 프레임일 수 있다.

만약 가장 가까운 프레임 표현이 쿼리 표현에 충분히 가까우면, 시스템은 가장 가까운 프레임 표현을 갖는 프레임을 대표 프레임으로서 선택한다. 만약 가장 가까운 프레임 표현이 충분히 가깝지 않으면, 시스템은 미리 결정된 디폴트 프레임을 대표 프레임으로서 선택한다. 예를 들어, 디폴트 프레임은 응답 비디오에서 미리 결정된 포지션에서의 프레임 예를 들어, 응답 비디오에서 제1 프레임이거나 다른 기법을 사용하여 응답 비디오에 대해 대표 프레임으로서 분류된 프레임일 수 있다.

일부 다른 구현예에서, 가장 가까운 프레임 표현이 쿼리 표현에 충분히 가까운지 여부를 결정하기 위해, 시스템은 스코어 보정 모델을 사용하여 거리 측정치들을 확률들에 맵핑한다. 스코어 보정 모델은 예를 들어, 거리 측정치들의 분포 및 선택적으로, 거리 측정치들에 대응하는 프레임들의 구성들을 수신하고 각 거리 측정치를 각각의 확률과 맵핑하도록 트레이닝된 등전점 회귀 모델(isotonic regression model), 로지스틱 회귀 모델 또는 다른 스코어 보정 모델일 수 있다. 주어진 프레임에 대한 확률은 프레임이 수신된 쿼리와 관련하여 비디오를 정확하게 표현하는 가능성을 나타낸다. 예를 들어, 스코어 보정 모델은 비디오 프레임들에 대한 거리 측정치 분포들 및 각 거리 측정치 분포에 대해, 평가자가 평가자의 검색 쿼리에 응답하여 선택된 때, 가장 가까운 거리 측정치를 갖는 프레임이 비디오를 정확하게 나타냈다고 표시했는지 여부를 표시하는 라벨을 포함하는 트레이닝 데이터에 대해 트레이닝될 수 있다.

이들 구현예에서, 시스템은 가장 높은 확률 즉, 가장 가까운 프레임 표현을 갖는 프레임에 대한 확률이 임계 확률을 초과하는지 여부를 결정한다. 가장 높은 확률이 임계 확률을 초과하는 경우, 시스템은 가장 높은 확률을 갖는 프레임을 대표 프레임으로서 선택한다. 확률이 임계값을 초과하지 않는 경우, 시스템은 미리 결정된 디폴트 프레임을 대표 프레임으로서 선택한다.

시스템은 검색 쿼리(단계(210))에 대한 응답을 생성한다. 응답은 각각의 응답 비디오를 각각 식별하는 비디오 검색 결과이다. 일부 구현예에서, 각 비디오 검색 결과는 비디오 검색 결과에 의해 식별된 비디오로부터 대표 프레임의 제시를 포함한다. 일부 구현예에서, 각 비디오 검색 결과는 사용자에 의해 선택될 때, 대표 프레임부터 시작하는 비디오의 재생을 개시하는 링크를 포함한다. 즉, 주어진 비디오에 대한 대표 프레임은 비디오 재생에 대한 대안적 시작 포인트로서 제공된다.

도 3은 비디오 프레임에 대해 프레임 표현을 생성하는 예시적 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들어, 적절하게 프로그래밍된 비디오 검색 시스템 예를 들어, 도 1의 비디오 검색 시스템(100)은 프로세스(300)를 수행할 수 있다.

시스템은 라벨들의 미리 결정된 세트에서 각 라벨을 상기 라벨에 대한 각각의 라벨 표현에 맵핑하는 데이터를 유지한다(단계(302)). 각 라벨은 각각의 오브젝트 카테고리를 표현하는 용어이다. 예를 들어, 용어 “horses”는 말 카테고리에 대한 라벨일 수 있고 또는 용어 “nine”은 숫자 9의 이미지들을 포함하는 카테고리에 대한 라벨일 수 있다.

주어진 라벨에 대한 라벨 표현은 고차원 공간에서의 숫자적 값들의 벡터이다. 예를 들어, 라벨에 대한 라벨 표현은 용어 표현 저장소에 저장된 라벨에 대한 용어 표현일 수 있다.

시스템은 프레임에 대한 라벨 스코어들의 세트를 생성하기 위해 이미지 분류 신경 네트워크를 사용하여 프레임을 프로세싱한다(단계(304)). 프레임에 대한 라벨 스코어들의 세트는 라벨들의 세트에서 라벨들 각각에 대한 각각의 스코어를 포함하며, 주어진 라벨에 대한 스코어는 프레임이 라벨에 의해 표현된 오브젝트 카테고리에 속하는 오브젝트의 이미지를 포함할 가능성을 나타낸다. 예를 들어, 라벨들의 세트가 라벨 오브젝트 카테고리 말들을 표현하는 “horses”를 포함하면, “horses” 라벨에 대한 스코어는 프레임이 말의 이미지를 포함할 가능성을 나타낸다.

일부 구현예에서, 이미지 분류 신경 네트워크는 이미지에 대한 라벨 스코어들의 세트를 생성하기 위해 입력 이미지를 프로세싱함으로써 입력 이미지들을 분류하도록 트레이닝된 딥 컨벌루션 신경 네트워크이다. 딥 컨벌루션 신경 네트워크인 예시적 초기 이미지 분류 신경 네트워크는 Imagenet classification with deep convolutional neural networks, Alex Krizhevsky, Ilya Sutskever, 및 Geoffrey E. Hinton, NIPS, 페이지1106-1114, 2012에서 설명된다.

시스템은 라벨 스코어들와 라벨들에 대한 라벨 표현들로부터 프레임에 대한 프레임 표현을 결정한다(단계(306)). 특히, 시스템은 라벨들 각각에 대해, 라벨에 대한 라벨 스코어에 라벨에 대한 라벨 표현을 곱함으로써 라벨에 대한 가중 표현을 계산한다. 그 후, 시스템은 가중 표현들의 합을 계산함으로써 프레임 표현을 계산한다.

일단 시스템이 프레임에 대한 프레임 표현을 결정하면, 시스템은 수신된 검색 쿼리들에 응답하여 대표 프레임들을 선택하는데 사용하기 위해 프레임 표현 저장소에 프레임 표현을 저장할 수 있다.

일부 구현예에서, 시스템은 초기 이미지 분류 신경 네트워크와 임베딩 레이어를 포함하는 수정된 이미지 분류 신경 네트워크를 사용하여 프레임을 프로세싱함으로써 프레임 표현들을 생성한다. 초기 이미지 분류 신경 네트워크는 입력 비디오 프레임에 대한 라벨 스코어들을 생성하기 위해 입력 비디오 프레임을 프로세싱함으로써 입력 비디오 프레임을 분류하는 상기 기술된 이미지 분류 신경 네트워크일 수 있다. 임베딩 레이어는 입력 비디오 프레임에 대한 라벨 스코어들을 수신하고 입력 비디오 프레임에 대한 프레임 표현을 생성하기 위해 라벨 스코어들을 프로세싱하도록 구성된 신경 네트워크 레이어이다.

도 4는 수정된 이미지 분류 신경 네트워크를 사용하여 비디오 프레임에 대한 프레임 표현을 생성하는 예시적 프로세스(400)의 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들어, 적절하게 프로그래밍된 비디오 검색 시스템 예를 들어, 도 1의 비디오 검색 시스템(100)은 프로세스(400)를 수행할 수 있다.

시스템은 프레임에 대한 라벨 스코어들의 세트를 생성하기 위해 초기 이미지 분류 신경 네트워크를 사용하여 프레임을 프로세싱한다(단계(402)).

시스템은 프레임에 대한 프레임 표현을 생성하기 위해 임베딩 레이어를 사용하여 프레임에 대한 라벨 스코어들을 프로세싱한다(단계(404)). 특히, 일부 구현예에서, 임베딩 레이어는 프레임에 대한 라벨 스코어들을 수신하고, 라벨들 각각에 대해, 라벨에 대한 라벨 스코어에 라벨에 대한 라벨 표현을 곱함으로써 라벨에 대한 가중 표현(weighted representation)을 계산하고 그리고 가중 표현들의 합을 계산함으로써 프레임에 대한 프레임 표현을 계산하도록 구성된다. 일부 다른 구현예에서, 임베딩 레이어는 임베딩 레이어의 파라미터들의 세트의 현재 값들에 따라 라벨 스코어들을 전환함으로써 프레임 표현을 생성하기 위해 프레임에 대한 라벨 스코어들을 프로세싱하도록 구성된다.

프로세스(400)는 원하는 프레임 표현이 알려지지 않은 즉, 시스템에 의해 생성되어야 하는 프레임 표현이 알려지지 않은 프레임에 대한 프레임 표현을 예측하도록 수행될 수 있다. 프로세스(400)는 또한, 수정된 이미지 분류 신경 네트워크를 트레이닝하기 위해 즉, 초기 이미지 분류 신경 네트워크의 파라미터들에 대한 트레이닝된 값들 그리고 만약 임베딩 레이어가 파마미터들을 갖는 경우, 임베딩 레이어의 파라미터들의 트레이닝된 값들을 파라미터들의 초기 값들로부터 또는 파라미터들의 미리 트레이닝된 값들로부터 결정하기 위해 트레이닝 데이터의 세트 즉, 시스템에 의해 예측되어야 하는 출력이 알려진 입력 프레임들의 세트로부터 입력 프레임에 대한 프레임 표현을 생성하도록 수행될 수 있다.

예를 들어, 프로세스(400)는 컨벌루션 역전파 트레이닝 기법을 사용하여 손실 함수(loss function)을 최소화함으로써 초기 이미지 분류 신경 네트워크의 파라미터들의 트레이닝된 값들을 결정하는 트레이닝 기법의 일부로서, 트레이닝 데이터의 세트로부터 선택된 입력 프레임들에서 반복적으로 수행될 수 있다.

도 5는 수정된 이미지 분류 신경 네트워크를 트레이닝하는 예시적 프로세스(500)의 흐름도이다. 편의상, 프로세스(500)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들어, 적절하게 프로그래밍된 비디오 검색 시스템 예를 들어, 도 1의 비디오 검색 시스템(100)은 프로세스(500)를 수행할 수 있다.

시스템은 트레이닝 비디오들의 세트를 획득한다(단계(502)).

시스템은 각 트레이닝 비디오에 대해, 트레이닝 비디오와 연관된 검색 쿼리들을 획득한다(단계(504)). 주어진 트레이닝 비디오와 연관된 검색 쿼리들은 비디오 검색 엔진에 제출된 그리고 사용자가 트레이닝 비디오를 식별하는 검색 결과를 선택하는 검색 쿼리들이다.

시스템은 예를 들어, 도 2를 참조하여 상기 기술된 바와 같이, 각 트레이닝 비디오에 대해, 트레이닝 비디오와 연관된 쿼리들에 대한 쿼리 표현들을 계산한다(단계(506)).

시스템은 수정된 이미지 분류 신경 네트워크를 트레이닝하기 위해 트레이닝 트리플렛들(training triplets)을 생성한다(단계(508)). 각 트레이닝 트리플렛은 트레이닝 비디오로부터의 비디오 프레임, 긍정 쿼리 표현 및 부정 쿼리 표현을 포함한다.

긍정 쿼리 표현은 트레이닝 비디오와 연관된 쿼리에 대한 쿼리 표현이며, 부정 쿼리 표현은 트레이닝 비디오와 연관되지 않았으나 다른 트레이닝 비디오와 연관된 쿼리에 대한 쿼리 표현이다.

일부 구현예에서, 시스템은 트레이닝 비디오와 연관된 쿼리들에 대한 표현들로부터 랜덤하게 트레이닝 트리플렛에 대한 긍정 쿼리 표현을 선택하거나 트레이닝 비디오와 연관된 각 쿼리에 대한 주어진 프레임에 대한 각각의 트레이닝 트리플렛들을 생성한다.

일부 다른 구현예에서, 주어진 프레임에 대해, 시스템은 프레임을 포함하는 트레이닝 트리플렛에 대한 긍정 쿼리 표현으로서 트레이닝 비디오와 연관된 쿼리들에 대한 표현들 중에서 프레임에 대한 프레임 표현과 가장 가까운 쿼리 표현을 선택한다. 즉, 시스템은 프레임 표현을 생성하기 위해 네트워크의 파라미터들의 현재 값들에 따라 수정된 이미지 분류 신경 네트워크를 사용하여 프레임을 프로세싱하고, 그 후 생성된 프레임 표현을 사용하여 트레이닝 트리플렛에 대한 긍정 쿼리 표현을 선택함으로써 네트워크의 트레이닝 동안에 트레이닝 트리플렛들을 생성할 수 있다.

시스템은 트레이닝 트리플렛들에 수정된 이미지 분류 신경 네트워크를 트레이닝한다(단계(510)). 특히, 각 트레이닝 트리플렛에 대해, 시스템은 프레임에 대한 프레임 표현을 생성하기 위해 네트워크의 파라미터들의 현재 값들에 따라 수정된 이미지 분류 신경 네트워크를 사용하여 트레이닝 트리플렛에서 프레임을 프로세싱한다. 그 후 시스템은 양의 거리 즉, 프레임 표현과 긍정 쿼리 표현 사이의 거리와 음의 거리 즉, 프레임 표현과 부정 쿼리 표현 사이의 거리에 의존하는 손실 함수의 변화도(gradient)를 계산한다. 그 후, 시스템은 계산된 변화도를 신경 네트워크의 레이어들을 통해 역전파하여 컨벌루션 기계 학습 트레이닝 기법들 사용하는 신경 네트워크의 파라미터들의 현재 값들을 조정한다.

본 명세서에서 기술된 발명 및 기능적 동작들의 실시예는 디지털 전자 회로, 유형적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어로 구현될 수 있으며, 또는 그들 중 하나 이상의 조합들에서 구현될 수 있으며, 이 명세서에 개시된 구조들 및 그 구조적 균등물을 포함한다. 본 명세서에서 기술된 발명의 실시예는 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의해 실행되거나 또는 데이터 처리의 동작을 제어하기 위한 유형적 비일시적인 프로그램 캐리어 상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈로서 구현될 수 있다. 선택적으로 또는 부가적으로, 프로그램 명령어들은 인공적으로 생성된 전파된 신호, 예를 들어 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 전송을 위해 정보를 인코딩하기 위해 생성된 기계 생성 전기, 광학 또는 전자기 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독가능 저장 디바이스, 기계 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다.

"데이터 처리 장치"라는 용어는 데이터 처리 하드웨어를 지칭하며, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 복수의 프로세서들 또는 컴퓨터들을 포함하는 데이터를 프로세싱하기 위한 모든 종류의 장치들, 디바이스들 및 기계들을 포함한다. 이 장치는 또한 특수 목적 논리 회로, 예를 들어 FPGA(현장 프로그램 가능 게이트 어레이) 또는 ASIC(주문형 집적 회로)일 수 있다. 상기 장치는 하드웨어 이외에, 컴퓨터 프로그램들, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 하나 이상의 이들의 조합을 구성하는 코드와 같은 컴퓨터 프로그램들에 대해 실행 환경을 생성하는 코드를 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 기술될 수 있음)은 컴파일된 또는 인터프리트된 언어들 또는 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 단독형 프로그램으로서 또는 모듈, 컴포넌트 서브루틴 또는 컴퓨팅 환경에서 사용하기 다른 적절한 유닛으로서를 포함하는 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 대응할 수 있지만 반드시 그런 것은 아니다. 프로그램은 예를 들면, 마크업 언어 문서에 저장된 하나 이상의 스크립트와 같이 다른 프로그램들 또는 데이터를 보유하는 파일의 부분에, 문제되는 프로그램 전용 단일 파일에, 또는 예를 들어, 하나 이상의 모듈들, 서브 프로그램들 또는 코드의 부분들을 저장하는 파일들과 같은 다수의 조화된 파일들에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 하나의 사이트에 있거나 여러 사이트에 분산되어 있고 통신 네트워크로 상호 연결된 여러 대의 컴퓨터에서 실행되도록 배포될 수 있다.

본 명세서에서 기술된 프로세스 및 논리 흐름은 입력 데이터를 조작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램가능 컴퓨터들에 의해 수행될 수 있다. 프로세스 및 논리 흐름은 또한 FPGA (현장 프로그램 가능 게이트 어레이) 또는 ASI (주문형 집적 회로)과 같은 특수 목적 논리 회로에 의해 수행될 수 있고, 장치는 또한 특수 목적 논리 회로로 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터들은 예를 들면, 범용 또는 특수 목적 마이크로 프로세서 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치에 기초할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성 요소는 명령을 수행하거나 실행하기 위한 중앙 처리 장치 및, 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스들(예를 들어, 자기, 광자기 디스크 또는 광디스크)을 포함하거나 그로부터 데이터를 수신하거나 전송하기 위해 동작 가능하게 결합될 것이다. 그러나 컴퓨터에는 그러한 디바이스들을 가져야만 할 필요는 없다. 또한, 컴퓨터는 다른 디바이스, 예를 들어, 몇 가지 예를 들자면, 이동 전화기, 개인 휴대 정보 단말기(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 휴대용 저장 디바이스 예를 들어 범용 직렬 버스 (USB) 플래시 드라이브에 내장될 수 있다.

컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 디바이스들과 같은 반도체 메모리 디바이스들을 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들, 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크; 광 자기 디스크; 및 CD ROM 및 DVD-ROM 디스크를 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 그 안에 포함될 수 있다.

사용자와의 인터렉션을 제공하기 위해, 본 명세서에서 기술된 본 발명의 실시예들은 사용자에게 정보를 디스플레이하기 위한 CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터와 같은 디스플레이 디바이스, 사용자가 컴퓨터에 입력을 제공 할 수 있는 키보드, 마우스 또는 트랙볼과 같은 포인팅 디바이스를 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들이 사용자와의 인터렉션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한 컴퓨터는 사용자에 의해 사용되는 디바이스로부터 문서를 주고 받음으로써 사용자와 인터렉션할 수 있다. 예를 들어, 웹 브라우저로부터 수신된 요청들에 응답하여 사용자의 클라이언트 디바이스상의 웹 브라우저에 웹 페이지를 전송함으로써 수행될 수 있다.

본 명세서에서 기술된 발명의 실시예는 데이터 서버와 같은 백엔드 컴포넌트 또는 예를 들어, 애플리케이션 서버와 같은 미들웨어 컴포넌트를 포함하거나 프론트엔드 컴포넌트 예를 들어 관계 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에서 기술된 발명의 구현과 인터렉션할 수 있는 웹 브라우저를 포함하는 컴퓨팅 시스템에서 또는 하나 이상의 백엔드, 미들웨어 또는 프론트엔드의 임의의 조합에서 구현될 수 있다. 시스템의 컴포넌트는 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 연결될 수 있다. 통신 네트워크의 예는 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어 인터넷을 포함한다.

컴퓨팅 시스템에는 클라이언트들과 서버들이 포함될 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크를 통해 인터렉션한다. 클라이언트와 서버의 관계는 각각의 컴퓨터들에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다.

본 명세서는 다수의 특정 구현 세부 사항들을 포함하지만, 이들은 임의의 발명 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 발명의 특정 실시예에 특정될 수 있는 구성에 대한 설명으로 해석되어야 한다. 별도의 실시예와 관련하여 본 명세서에서 기술되는 특정 구성은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 문맥에서 기술된 다양한 구성들은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 하위 조합으로 구현될 수 있다. 더욱이, 구성들은 특정 조합으로 동작하고 심지어 초기에는 그러한 것으로서 주장되는 경우조차도 상기에서 설명될 수 있지만, 청구된 조합으로부터의 하나 이상의 구성들은 일부 경우 조합으로부터 제거될 수 있고, 청구된 조합은 서브 조합 또는 서브조합의 변형으로 유도될 수 있다.

유사하게, 동작들이 특정 순서로 도면들에 도시되어 있지만, 이는 바람직한 결과들을 달성하기 위해, 그러한 동작들이 도시된 순서 또는 순차적 인 순서로 수행되거나, 도시된 모든 동작들이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서 멀티 태스킹 및 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시예에서 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시예에서 그러한 분리를 요구하는 것으로 이해되어서는 안되며, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품 또는 다수의 소프트웨어 제품에 패키지로 통합될 수 있다.

본 발명의 특정 실시예가 기술되었다. 다른 실시예들은 다음의 청구범위 내에 있다. 예를 들어, 청구 범위에 기재된 액션들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과를 달성한다. 하나의 예로서, 첨부된 도면에 도시된 프로세스는 바람직한 결과를 얻기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 필요로 하지 않는다. 특정 구현예에서, 멀티 태스킹 및 병렬 프로세싱이 유리할 수 있다.

Claims

방법으로서,
검색 쿼리를 수신하는 단계, 상기 검색 쿼리는 하나 이상의 쿼리 용어들을 포함하며;
상기 검색 쿼리에 대한 쿼리 표현을 결정하는 단계, 상기 쿼리 표현은 고차원 공간에서의 숫자들의 벡터이며;
상기 검색 쿼리에 대한 복수의 응답 비디오들을 식별하는 데이터를 획득하는 단계, 각 응답 비디오는 복수의 프레임들을 포함하며, 각 프레임은 각각의 프레임 표현을 가지며, 그리고 각 프레임 표현은 고차원 공간에서의 숫자들의 벡터이며;
각 응답 비디오에 대해, 상기 쿼리 표현 및 상기 응답 비디오에서 상기 프레임들에 대한 상기 프레임 표현들을 사용하여 상기 응답 비디오로부터 대표 프레임을 선택하는 단계; 및
상기 검색 쿼리에 대한 응답을 생성하는 단계를 포함하며, 상기 검색 쿼리에 대한 상기 응답은 상기 응답 비디오들 각각에 대한 각각의 비디오 검색 결과를 포함하며, 그리고 상기 응답 비디오들 각각에 대한 상기 각각의 비디오 검색 결과는 상기 응답 비디오의 상기 대표 비디오 프레임의 표현을 포함하는 것을 특징으로 하는 방법.
청구항 1에 있어서,
상기 응답 비디오들 각각에 대한 상기 각각의 비디오 검색 결과는 상기 응답 비디오의 상기 대표 프레임부터 시작하는 상기 응답 비디오의 재생에 대한 링크를 포함하는 것을 특징으로 하는 방법.
청구항 1에 있어서,
각 응답 비디오에 대해, 상기 쿼리 표현 및 상기 응답 비디오에서 상기 프레임들에 대한 상기 프레임 표현들을 사용하여 상기 응답 비디오로부터 대표 프레임을 선택하는 단계는:
상기 쿼리 표현과 상기 응답 비디오 프레임에서 상기 프레임들에 대한 상기 프레임 표현들 각각과의 사이에 각각의 거리 측정치를 계산하는 것을 포함하는 것을 특징으로 하는 방법.
청구항 3에 있어서,
각 응답 비디오에 대해, 상기 쿼리 표현 및 상기 응답 비디오에서 상기 프레임들에 대한 상기 프레임 표현들을 사용하여 상기 응답 비디오로부터 대표 프레임을 선택하는 단계는:
상기 거리 측정치에 따라 상기 쿼리 표현에 가장 가까운 프레임 표현을 갖는 프레임을 상기 대표 프레임으로서 선택하는 것을 더 포함하는 것을 특징으로 하는 방법.
청구항 3에 있어서,
각 응답 비디오에 대해, 상기 쿼리 표현 및 상기 응답 비디오에서 상기 프레임들에 대한 상기 프레임 표현들을 사용하여 상기 응답 비디오로부터 대표 프레임을 선택하는 단계는:
상기 거리 측정치로부터 상기 프레임들 각각에 대해 각각의 확률을 생성하는 것;
상기 프레임들 중 임의의 프레임에 대한 가장 높은 확률이 임계값을 초과하는지 여부를 결정하는 것; 및
상기 가장 높은 확률이 상기 임계값을 초과하는 경우, 상기 가장 높은 확률을 갖는 상기 프레임을 상기 대표 프레임으로서 선택하는 것을 더 포함하는 것을 특징으로 하는 방법.
청구항 5에 있어서,
각 응답 비디오에 대해, 상기 쿼리 표현 및 상기 응답 비디오에서 상기 프레임들에 대한 상기 프레임 표현들을 사용하여 상기 응답 비디오로부터 대표 프레임을 선택하는 단계는:
상기 가장 높은 확률이 상기 임계값을 초과하지 않는 경우, 디폴트 프레임을 상기 대표 프레임으로서 선택하는 것을 더 포함하는 것을 특징으로 하는 방법.
청구항 1에 있어서,
상기 검색 쿼리에 대한 상기 쿼리 표현을 결정하는 단계는:
상기 검색 쿼리에서 상기 하나 이상의 용어들 각각에 대한 각각의 용어 표현을 결정하는 것, 상기 용어 표현은 상기 고차원 공간에서 상기 용어의 표현이며;
상기 하나 이상의 용어 표현들로부터 상기 쿼리 표현을 결정하는 것을 더 포함하는 것을 특징으로 하는 방법.
청구항 1에 있어서,
상기 응답 비디오들 각각에 대해, 상기 응답 비디오로부터 상기 복수의 프레임들 각각에 대한 상기 각각의 프레임 표현을 결정하는 단계를 더 포함하는 것을 특징으로 하는 방법.
청구항 8에 있어서,
상기 응답 비디오로부터 상기 복수의 프레임들 각각에 대한 상기 각각의 프레임 표현을 결정하는 단계는:
라벨들의 미리 결정된 세트에서 각 라벨을 각각의 라벨 표현에 맵핑하는 데이터를 유지하는 것, 각 라벨 표현은 상기 고차원 공간에서의 숫자들의 벡터이며;
상기 프레임에 대한 라벨 스코어들의 세트를 생성하기 위해 딥 컨벌루션 신경 네트워크를 사용하여 상기 프레임을 프로세싱하는 단계, 상기 라벨 스코어들의 세트는 상기 라벨들의 미리 결정된 세트에서 각 라벨에 대한 각각의 스코어를 포함하며, 그리고 상기 라벨들 각각에 대한 상기 각각의 스코어는 상기 프레임이 상기 라벨에 의해 라벨링된 오브젝트 카테고리로부터 오브젝트의 이미지를 포함하는 가능성을 표현하며; 및
상기 프레임에 대한 상기 라벨 스코어들의 세트와 상기 라벨 표현들로부터 상기 프레임에 대한 상기 프레임 표현을 계산하는 것을 포함하는 것을 특징으로 하는 방법.
청구항 8에 있어서,
상기 프레임에 대한 상기 라벨 스코어들의 세트와 상기 라벨 표현들로부터 상기 프레임에 대한 상기 프레임 표현을 계산하는 것은:
상기 레이블들 각각에 대해, 상기 라벨에 대한 상리 라벨 스코어에 상기 라벨에 대한 상기 라벨 표현을 곱함으로써 상기 라벨에 대한 가중 표현(weighted representation)을 계산하는 것; 및
상기 가중 표현들의 합을 계산함으로써 상기 프레임에 대한 상기 프레임 표현을 계산하는 것을 포함하는 것을 특징으로 하는 방법.
청구항 8에 있어서,
상기 응답 비디오로부터 상기 복수의 프레임들 각각에 대한 상기 각각의 프레임 표현을 결정하는 단계는:
상기 프레임에 대한 상기 프레임 표현을 생성하기 위해 수정된 이미지 분류 신경 네트워크를 사용하여 상기 프레임을 프로세싱하는 것을 포함하며, 상기 수정된 이미지 분류 신경 네트워크는:
라벨들의 미리 결정된 세트의 각 라벨에 대해 각각의 라벨 스코어를 생성하기 위해 상기 프레임을 프로세싱하도록 구성된 초기 이미지 분류 신경 네트워크, 및
상기 라벨 스코어들을 수신하고 상기 프레임에 대한 상기 프레임 표현을 생성하도록 구성된 임베딩 레이어를 포함하는 것을 특징으로 하는 방법.
청구항 11에 있어서,
상기 수정된 이미지 분류 컨벌루션 신경 네트워크는 트레이닝 트리플렛들의 세트에서 트레이닝되었으며, 각 트레이닝 트리플렛은 각각의 트레이닝 비디오로부터의 각각의 트레이닝 프레임, 긍정(positive) 쿼리 표현, 부정(negative) 쿼리 표현을 포함하는 것을 특징으로 하는 방법.
청구항 12에 있어서,
상기 긍정 쿼리 표현은 상기 트레이닝 비디오와 연관된 검색 쿼리에 대한 쿼리 표현이며, 상기 부정 쿼리 표현은 상기 트레이닝 비디오와 연관되지 않은 검색 쿼리에 대한 쿼리 표현인 것을 특징으로 하는 방법.
하나 이상의 컴퓨터들과 상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 임의의 선행하는 청구항의 방법을 수행하게 하는 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하는 시스템.
하나 이상의 비일시적 컴퓨터 판독가능 매체에 인코딩된 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 제품은 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 청구항 1 내지 13 중 임의의 청구항의 방법을 수행하게 하는 명령어들을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.