KR20210089597A

KR20210089597A - 비디오 검색 방법, 장치, 기기 및 매체

Info

Publication number: KR20210089597A
Application number: KR1020210002756A
Authority: KR
Inventors: 이 양; 이 리; 슈징 왕; 지예 리우; 탄 위; 샤오동 천; 린 리우; 옌펑 쭈; 핑 리
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2020-01-08
Filing date: 2021-01-08
Publication date: 2021-07-16
Also published as: CN113094550B; JP2021114287A; EP3848819A1; CN113094550A; JP7304370B2; US20210209155A1; KR102510640B1

Abstract

본 출원의 실시예는 데이터 처리 기술 분야에 관한 것으로, 특히 지능형 검색 기술 분야에 관한 것으로, 비디오 검색 방법, 장치, 기기 및 매체를 개시한다. 구체적인 실시형태에 따르면, 텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 조회 텍스트 및 후보 비디오에 따라, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징을 결정하는 단계; 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정하며; 상기 유사도에 따라 상기 후보 비디오로부터 타겟 비디오를 선택하고, 상기 타겟 비디오를 조회 결과로 사용한다. 본 출원의 실시예는 비디오 검색 방법, 장치, 기기 및 매체를 제공하여, 조회 텍스트에 기반하여 비디오를 정확하게 검색한다.

Description

비디오 검색 방법, 장치, 기기 및 매체{METHOD, APPARATUS, DEVICE AND MEDIUM FOR RETRIEVING VIDEO}

본 출원의 실시예는 데이터 처리 기술 분야에 관한 것으로, 특히 지능형 검색 기술 분야에 관한 것이다. 구체적으로, 본 출원의 실시예는 비디오 검색 방법, 장치, 기기 및 매체를 제공한다.

네트워크에 비디오의 대량으로 증가됨에 따라, 비디오 사용자는 흔히 비디오 검색 방식을 통해 관심있는 비디오 콘텐츠를 획득한다.

현재, 검색 엔진은 주로 조회 텍스트와 비디오 제목을 매칭시키는 방식으로 타겟 비디오를 결정한다.

그러나, 비디오 제목의 품질이 저하되고, 기존 기술로 비디오 중 키 포인트 정보에 대한 검색을 구현할 수 없으므로 인해, 비디오 검색의 정확도가 저하되는 문제가 발생된다.

본 출원의 실시예는 조회 텍스트에 기반하여 비디오를 정확하게 검색하기 위한 비디오 검색 방법, 장치, 기기 및 매체를 제공한다.

본 출원의 실시예는,

텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 조회 텍스트 및 후보 비디오에 따라, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징을 결정하는 단계;

상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정하는 단계; 및

상기 유사도에 따라 상기 후보 비디오로부터 타겟 비디오를 선택하고, 상기 타겟 비디오를 조회 결과로 사용하는 단계를 포함하는 비디오 검색 방법을 제공한다.

본 출원의 실시예는 텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 조회 텍스트 및 후보 비디오에 따라, 조회 텍스트의 통일 공간 특징 및 후보 비디오의 통일 공간 특징을 결정한다. 텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 조회 텍스트 및 후보 비디오에 대해 상이한 시맨틱 공간의 정확한 전환을 수행할 수 있으므로, 본 출원의 실시예는 통일 공간 특징을 정확하게 결정할 수 있다. 정확하게 결정된 통일 공간 특징에 기반하여 조회 텍스트와 후보 비디오 사이의 유사도를 정확하게 결정할 수 있음으로써, 타겟 비디오의 검색 정확도를 향상시킨다.

또한, 상기 텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 조회 텍스트 및 후보 비디오에 따라, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징을 결정하는 단계는,

상기 텍스트 시맨틱 공간에 기반하여, 상기 조회 텍스트의 텍스트 공간 특징을 결정하는 단계;

상기 비디오 시맨틱 공간에 기반하여, 상기 후보 비디오의 비디오 공간 특징을 결정하는 단계; 및

상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 대해 공간 통일을 수행하여 통일 공간 특징을 획득하는 단계를 포함한다.

상기 기술 특징에 기반하여, 본 출원의 실시예는 비디오 시맨틱 공간에 기반하여, 후보 비디오의 비디오 공간 특징을 결정하고, 조회 텍스트의 텍스트 공간 특징 및 후보 비디오의 비디오 공간 특징에 대해 공간 통일을 수행하며, 통일 공간 특징에 기반하여 조회 텍스트와 후보 비디오의 유사도를 산출하고, 계산된 유사도에 따라 후보 비디오로부터 타겟 비디오를 결정함으로써, 비디오 공간 특징에 기반하여 비디오를 검색한다. 비디오 공간 특징은 비디오 콘텐츠를 정확하게 반영할 수 있으므로, 본 출원의 실시예는 비디오를 정확하게 검색할 수 있다.

또한, 상기 비디오 시맨틱 공간에 기반하여, 상기 후보 비디오의 비디오 공간 특징을 결정하는 단계는,

후보 비디오 프레임 중 타겟 엔티티의 타겟 특징을 결정하는 단계;

상기 타겟 엔티티의 출현 정보 및 상기 타겟 특징에 따라, 상기 후보 비디오의 조밀 특징을 결정하는 단계; 및

상기 후보 비디오 프레임에서의 상기 타겟 엔티티의 위치 정보, 상기 타겟 엔티티의 면적 및 상기 후보 비디오 프레임의 발생 순서 중 적어도 하나를 상기 조밀 특징과 조합하여 상기 후보 비디오의 비디오 공간 특징을 획득하는 단계를 포함한다.

상기 기술 특징에 기반하여, 본 출원의 실시예는 후보 비디오 프레임 중 타겟 엔티티의 출현 정보, 및 타겟 엔티티의 타겟 특징에 따라, 후보 비디오의 조밀 특징을 결정하고, 후보 비디오 프레임에서의 타겟 엔티티의 위치 정보, 타겟 엔티티의 면적 및 후보 비디오 프레임의 발생 순서 중 적어도 하나를 조밀 특징과 조합하여 후보 비디오의 비디오 공간 특징을 획득함으로써, 비디오 공간 특징을 추출한다.

비디오 공간 특징은 후보 비디오 프레임 중 타겟 엔티티의 출현 정보, 및 타겟 엔티티의 타겟 특징에 따라 결정되므로, 비디오 공간 특징에는 비디오의 부분 키 정보가 반영되어 있다. 나아가 부분 키 정보에 기반하여 비디오를 정확하게 검색할 수 있다.

또한, 상기 후보 비디오 프레임 중 타겟 엔티티의 타겟 특징을 결정하는 단계는,

상기 후보 비디오 프레임 중 타겟 엔티티의 후보 특징을 결정하는 단계;

결정된 후보 특징을 클러스터링하여, 결정된 후보 특징을 상기 타겟 엔티티와 연관시키는 단계; 및

상기 후보 특징의 신뢰도에 기반하여, 상기 타겟 엔티티와 연관된 후보 특징으로부터 상기 타겟 엔티티의 타겟 특징을 결정하는 단계를 포함한다.

상기 기술 특징에 기반하여, 본 출원의 실시예는 후보 특징의 신뢰도에 기반하여, 타겟 엔티티와 연관된 후보 특징으로부터 타겟 엔티티의 타겟 특징을 결정함으로써, 타겟 엔티티 특징을 정확하게 추출하고, 나아가 비디오 공간 특징의 결정 정확도를 향상시킨다.

또한, 상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 대해 공간 통일을 수행하여 통일 공간 특징을 획득하는 단계는,

상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징을 상기 비디오 시맨틱 공간에 투사하는 단계; 및/또는

상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 비디오 공간 특징을 상기 텍스트 시맨틱 공간에 투사하는 단계를 포함한다.

상기 기술 특징에 기반하여, 본 출원의 실시예는 텍스트 공간 특징을 비디오 시맨틱 공간에 투사시키거나, 및/또는, 비디오 공간 특징을 텍스트 시맨틱 공간에 투사시킴으로써, 조회 텍스트 및 후보 비디오에 대한 시맨틱 공간 통일을 구현한다.

또한, 상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징을 상기 비디오 시맨틱 공간에 투사하는 단계는,

상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 따라, 상기 비디오 시맨틱 공간에서의 상기 조회 텍스트 중 조회 단어의 시맨틱 분포를 산출하는 단계를 포함한다.

상기 기술 특징에 기반하여, 본 출원의 실시예는 비디오 시맨틱 공간에서의 조회 텍스트 중 조회 단어의 시맨틱 분포를 산출함으로써, 조회 텍스트의 통일 공간 특징을 결정한다.

또한, 상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 따라, 상기 비디오 시맨틱 공간에서의 상기 조회 텍스트 중 조회 단어의 시맨틱 분포를 산출하는 단계는,

상기 텍스트 공간 특징을 입력 특징으로 사용하고, 상기 비디오 공간 특징을 출력 특징으로 사용하여, 상기 입력 특징 및 상기 출력 특징을 미리 트레이닝된 컨버터 모델에 입력함으로써, 상기 비디오 시맨틱 공간에서의 상기 조회 텍스트 중 조회 단어의 시맨틱 분포를 출력하는 단계를 포함한다.

상기 기술 특징에 기반하여, 본 출원의 실시예는 컨버터의 코딩 및 디코딩 메커니즘을 통해 조회 텍스트 중 조회 단어로부터 비디오 시맨틱 공간까지의 매핑을 구현한다.

또한, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정하는 단계는,

통일 공간 특징에 기반하여, 상기 조회 텍스트 중 조회 단어와 상기 후보 비디오의 단어 유사도를 산출하는 단계;

상기 조회 텍스트에서의 조회 단어의 중요도에 따라, 상기 조회 단어의 가중치를 결정하는 단계; 및

결정된 가중치에 따라, 상기 단어 유사도에 가중합을 구하여 상기 조회 텍스트와 상기 후보 비디오의 유사도를 획득하는 단계를 포함한다.

상기 기술 특징에 기반하여, 본 출원의 실시예는 조회 텍스트에서의 조회 단어의 중요도에 따라, 조회 단어의 가중치를 결정하고; 결정된 가중치에 따라, 단어 유사도에 가중합을 구하여 조회 텍스트와 후보 비디오의 유사도를 획득함으로써, 유사도의 결정 정확도를 향상시킨다.

본 출원의 실시예는,

텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 조회 텍스트 및 후보 비디오에 따라, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징을 결정하는 특징 결정 모듈;

상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정하는 유사도 결정 모듈; 및

상기 유사도에 따라 상기 후보 비디오로부터 타겟 비디오를 선택하고, 상기 타겟 비디오를 조회 결과로 사용하는 타겟 비디오 선택 모듈을 포함하는 비디오 검색 장치를 더 제공한다.

또한, 상기 특징 결정 모듈은,

상기 텍스트 시맨틱 공간에 기반하여, 상기 조회 텍스트의 텍스트 공간 특징을 결정하는 텍스트 특징 결정 유닛;

상기 비디오 시맨틱 공간에 기반하여, 상기 후보 비디오의 비디오 공간 특징을 결정하는 비디오 특징 결정 유닛; 및

상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 대해 공간 통일을 수행하여 통일 공간 특징을 획득하는 공간 통일 유닛을 포함한다.

또한, 상기 비디오 특징 결정 유닛은,

후보 비디오 프레임 중 타겟 엔티티의 타겟 특징을 결정하는 타겟 특징 결정 서브 유닛;

상기 타겟 엔티티의 출현 정보 및 상기 타겟 특징에 따라, 상기 후보 비디오의 조밀 특징을 결정하는 조밀 특징 결정 서브 유닛; 및

상기 후보 비디오 프레임에서의 상기 타겟 엔티티의 위치 정보, 상기 타겟 엔티티의 면적 및 상기 후보 비디오 프레임의 발생 순서 중 적어도 하나를 상기 조밀 특징과 조합하여 상기 후보 비디오의 비디오 공간 특징을 획득하는 비디오 특징 결정 서브 유닛을 포함한다.

또한, 상기 타겟 특징 결정 서브 유닛은 구체적으로,

상기 후보 비디오 프레임 중 타겟 엔티티의 후보 특징을 결정하고;

결정된 후보 특징을 클러스터링하여, 결정된 후보 특징을 상기 타겟 엔티티와 연관시키며;

상기 후보 특징의 신뢰도에 기반하여, 상기 타겟 엔티티와 연관된 후보 특징으로부터 상기 타겟 엔티티의 타겟 특징을 결정한다.

또한, 상기 공간 통일 유닛은,

상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징을 상기 비디오 시맨틱 공간에 투사하는 비디오 공간 통일 서브 유닛; 및/또는

상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 비디오 공간 특징을 상기 텍스트 시맨틱 공간에 투사하는 텍스트 공간 통일 서브 유닛을 포함한다.

또한, 상기 비디오 공간 통일 서브 유닛은 구체적으로,

상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 따라, 상기 비디오 시맨틱 공간에서의 상기 조회 텍스트 중 조회 단어의 시맨틱 분포를 산출한다.

또한, 상기 유사도 결정 모듈은,

통일 공간 특징에 기반하여, 상기 조회 텍스트 중 조회 단어와 상기 후보 비디오의 단어 유사도를 산출하는 단어 유사도 유닛;

상기 조회 텍스트에서의 조회 단어의 중요도에 따라, 상기 조회 단어의 가중치를 결정하는 가중치 결정 유닛; 및

결정된 가중치에 따라, 상기 단어 유사도에 가중합을 구하여 상기 조회 텍스트와 상기 후보 비디오의 유사도를 획득하는 텍스트 유사도 유닛을 포함한다.

본 출원의 실시예는,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고,

상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되며, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 본 출원의 실시예 중 어느 하나에 따른 비디오 검색 방법을 수행할 수 있도록 하는, 전자 기기를 더 제공한다.

본 출원의 실시예는 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을을 더 제공하며, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 본 출원의 실시예 중 어느 하나에 따른 비디오 검색 방법을 구현할 수 있다.

본 출원의 실시예는 컴퓨터 명령어가 저장된 비일시적 컴퓨터 판독 가능한 저장 매체를 더 제공하되, 상기 컴퓨터 명령어는 상기 컴퓨터가 본 출원의 실시예 중 어느 하나에 따른 비디오 검색 방법을 수행할 수 있도록 한다.

도면은 본 출원을 더 명확하게 이해하기 위한 것으로, 본 출원을 한정하지 않는다.
도 1은 본 출원의 제1 실시예에 의해 제공되는 비디오 검색 방법의 흐름도이다.
도 2는 본 출원의 제2 실시예에 의해 제공되는 비디오 검색 방법의 흐름도이다.
도 3은 본 출원의 제3 실시예에 의해 제공되는 비디오 검색 방법의 흐름도이다.
도 4는 본 출원의 제4 실시예에 의해 제공되는 비디오 공간 특징 결정의 흐름도이다.
도 5는 본 출원의 제4 실시예에 의해 제공되는 특징 다중 레벨 교차 통일의 모식도이다.
도 6은 본 출원의 제4 실시예에 의해 제공되는 시맨틱 연관성 산출의 모식도이다.
도 7은 본 출원의 제5 실시예에 의해 제공되는 비디오 검색 장치의 구성 모식도이다.
도 8은 본 출원의 실시예에 따른 비디오 검색 방법의 전자 기기 블록도이다.

아래 도면과 결부시켜 본 출원의 예시적 실시예를 설명하되, 여기에 이해를 돕기 위한 본 출원의 실시예의 다양한 세부사항들이 포함되지만, 이들은 단지 예시적인 것으로 이해해야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 출원의 범위 및 정신을 벗어나지 않는 전제 하에 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 진행할 수 있음을 이해해야 한다. 마찬가지로, 명확 및 간략을 위해, 아래의 설명에서 공지 기능 및 구조에 대한 설명을 생략한다.

제1 실시예

도 1은 본 출원의 제1 실시예에 의해 제공되는 비디오 검색 방법의 흐름도이다. 본 실시예는 조회 텍스트에 기반하여 비디오 검색을 수행하는 상황에 적용될 수 있다. 상기 방법은 비디오 검색 장치에 의해 수행될 수 있고, 상기 장치는 소프트웨어 및/또는 하드웨어 방식으로 구현될 수 있다. 도 1을 참조하면, 본 출원의 실시예에 의해 제공되는 비디오 검색 방법은 하기와 같은 단계를 포함한다.

단계 S110에서, 텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 조회 텍스트 및 후보 비디오에 따라, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징을 결정한다.

여기서, 텍스트 시맨틱 공간은 텍스트가 속하는 시맨틱 공간을 의미한다.

비디오 시맨틱 공간은 비디오가 속하는 시맨틱 공간을 의미한다.

조회 텍스트는 사용자에 의해 입력된, 비디오를 검색하기 위한 텍스트를 의미한다.

후보 비디오는 검색할 비디오를 의미한다.

조회 텍스트의 통일 공간 특징은 통일 시맨틱 공간에서 조회 텍스트의 시맨틱 특징을 의미한다.

후보 비디오의 통일 공간 특징은 통일 시맨틱 공간에서 후보 비디오의 시맨틱 특징을 의미한다.

선택 가능하게, 통일 시맨틱 공간은 비디오 시맨틱 공간일 수 있고, 텍스트 시맨틱 공간일 수도 있다.

구체적으로, 텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계는 텍스트 및 텍스트의 비디오 시맨틱 공간 표현, 및/또는, 비디오 및 비디오의 텍스트 공간 표현을 통해 통계하여 획득할 수 있다.

선택 가능하게, 텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계는 모델 학습을 통해 획득할 수도 있다.

단계 S120에서, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정한다.

구체적으로, 하나의 시맨틱 공간(비디오 시맨틱 공간 또는 텍스트 시맨틱 공간)에서의 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정할 수 있다.

유사도의 결정 정확도를 향상시키기 위하여, 2개의 시맨틱 공간(비디오 시맨틱 공간 및 텍스트 시맨틱 공간)에서의 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정할 수도 있다.

구체적으로, 2개의 시맨틱 공간에서의 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정하는 단계는,

비디오 시맨틱 공간을 통일 공간으로 사용하여, 상기 조회 텍스트의 통일 공간 특징과 상기 비디오 공간 특징의 제1 유사도를 산출하는 단계 - 상기 비디오 공간 특징은 비디오 시맨틱 공간에서의 상기 후보 비디오의 통일 공간 특징임 - ; 및

텍스트 시맨틱 공간을 통일 공간으로 사용하여, 상기 후보 비디오의 통일 공간 특징과 상기 텍스트 공간 특징의 제2 유사도를 산출하고, 상기 제1 유사도 및 상기 제2 유사도에 따라 상기 후보 비디오로부터 타겟 비디오를 선택하는 단계 - 상기 텍스트 공간 특징은 텍스트 시맨틱 공간에서의 상기 조회 텍스트의 통일 공간 특징임 - ;를 포함한다.

단계 S130에서, 상기 유사도에 따라 상기 후보 비디오로부터 타겟 비디오를 선택하고, 상기 타겟 비디오를 조회 결과로 사용한다.

유사도의 결정 정확도를 더 향상시기키 위하여, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정하는 단계는,

제2 실시예

도 2는 본 출원의 제2 실시예에 의해 제공되는 비디오 검색 방법의 흐름도이다. 본 실시예는 상기 실시예의 기초상에서 제출된 선택 가능한 해결수단이다. 도 2를 참조하면, 본 출원의 실시예에 의해 제공되는 비디오 검색 방법은 하기와 같은 단계를 포함한다.

단계 S210에서, 사용자에 의해 입력된 조회 텍스트를 획득하고, 텍스트 시맨틱 공간에 기반하여 상기 조회 텍스트의 텍스트 공간 특징을 결정한다.

여기서, 조회 텍스트의 텍스트 공간 특징은 텍스트 시맨틱 공간에서의 조회 텍스트의 특징을 의미한다.

선택 가능하게, 선행기술에서의 임의의 텍스트 특징 추출 방식에 기반하여 조회 텍스트의 텍스트 공간 특징을 추출할 수 있으나, 본 실시예는 이에 대해 한정하지 않는다.

구체적으로, 텍스트 시맨틱 공간에 기반하여 상기 조회 텍스트의 텍스트 공간 특징을 결정하는 단계는,

조회 텍스트를 분사(조회 텍스트)하여 조회 단어를 획득하는 단계; 및

조회 단어의 단어 벡터를 결정하고, 미리 트레이닝된 특징 추출 모델에 기반하여 상기 단어 벡터에 대해 특징 추출을 수행하며, 텍스트 공간 특징을 생성하는 단계를 포함한다.

단계 S220에서, 비디오 시맨틱 공간에 기반하여, 후보 비디오의 비디오 공간 특징을 결정한다.

여기서, 후보 비디오의 비디오 공간 특징은 비디오 시맨틱 공간에서의 후보 비디오의 특징을 의미한다.

구체적으로, 비디오 시맨틱 공간에 기반하여, 후보 비디오의 비디오 공간 특징을 결정하는 단계는,

후보 비디오 중의 비디오 이미지에 대해 엔티티 인식을 수행하는 단계; 및

인식된 엔티티 특징 벡터를 후보 비디오의 비디오 공간 특징으로 사용하는 단계를 포함한다.

단계 S230에서, 상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 대해 공간 통일을 수행하여 통일 공간 특징을 획득한다.

선택 가능하게, 상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 대해 공간 통일을 수행하여 통일 공간 특징을 획득하는 단계는,

상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징을 상기 비디오 시맨틱 공간에 투사시켜, 상기 조회 텍스트의 통일 공간 특징을 생성하는 단계; 및/또는

상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 비디오 공간 특징을 상기 텍스트 시맨틱 공간에 투사시켜, 상기 후보 비디오의 통일 공간 특징을 생성하는 단계를 포함한다.

구체적으로, 상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징을 상기 비디오 시맨틱 공간에 투사시켜, 상기 조회 텍스트의 통일 공간 특징을 생성하는 단계는,

상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 따라, 상기 비디오 시맨틱 공간에서의 상기 조회 텍스트 중 조회 단어의 시맨틱 분포를 산출하고, 상기 시맨틱 분포를 상기 조회 텍스트의 통일 공간 특징으로 사용하는 단계를 포함한다.

구체적으로, 상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 따라, 상기 비디오 시맨틱 공간에서의 상기 조회 텍스트 중 조회 단어의 시맨틱 분포를 산출하는 단계는,

단계 S240에서, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정한다.

단계 S250에서, 상기 유사도에 따라 상기 후보 비디오로부터 타겟 비디오를 선택하고, 상기 타겟 비디오를 조회 결과로 사용한다.

본 출원의 실시예는 비디오 시맨틱 공간에 기반하여, 후보 비디오의 비디오 공간 특징을 결정하고, 조회 텍스트의 텍스트 공간 특징 및 후보 비디오의 비디오 공간 특징에 대해 공간 통일을 수행하며, 통일 공간 특징에 기반하여 조회 텍스트와 후보 비디오의 유사도를 산출하고, 계산된 유사도에 따라 후보 비디오로부터 타겟 비디오를 결정함으로써, 비디오 공간 특징에 기반하여 비디오를 검색한다. 비디오 공간 특징은 비디오 콘텐츠를 정확하게 반영할 수 있으므로, 본 출원의 실시예는 비디오를 정확하게 검색할 수 있다.

제3 실시예

도 3은 본 출원의 제3 실시예에 의해 제공되는 비디오 검색 방법의 흐름도이다. 본 실시예는 상기 실시예의 기초상에서 제출된 선택 가능한 해결수단이다. 도 3을 참조하면, 본 출원의 실시예에 의해 제공되는 비디오 검색 방법은 하기와 같은 단계를 포함한다.

단계 S310에서, 사용자에 의해 입력된 조회 텍스트를 획득하고, 텍스트 시맨틱 공간에 기반하여 상기 조회 텍스트의 텍스트 공간 특징을 결정한다.

단계 S320에서, 후보 비디오 프레임 중 타겟 엔티티의 타겟 특징을 결정한다.

여기서, 후보 비디오 프레임은 후보 비디오 중의 비디오 이미지를 의미한다.

타겟 엔티티는 후보 비디오 중의 키 엔티티를 의미하고, 구체적으로 실제 필요에 따라 설정할 수 있다.

타겟 특징은 타겟 엔티티을 표징하는 특징이다.

구체적으로, 상기 후보 비디오 프레임 중 타겟 엔티티의 타겟 특징을 결정하는 단계는,

예시적으로, 결정된 타겟 엔티티는 사람, 말 및 자동차이다. 후보 비디오 프레임 중 타겟 엔티티의 타겟 특징을 결정하는 과정은 하기와 같이 설명될 수 있다.

후보 비디오 중의 이미지에 대해 타겟 엔티티 검출을 수행하고, 검출된 타겟 엔티티가 속하는 이미지 영역에 따라, 타겟 엔티티의 후보 특징를 결정하고;

검출된 모든 후보 특징을 클러스터링하여 타겟 엔티티가 사람인 후보 특징 집합, 타겟 엔티티가 말인 후보 특징 집합 및 타겟 엔티티가 자동차인 후보 특징 집합을 획득하며;

후보 특징의 신뢰도에 따라, 사람의 후보 특징 집합으로부터 사람의 타겟 특징을 결정하고, 말의 후보 특징 집합으로부터 말의 타겟 특징을 결정하며, 자동차의 후보 특징 집합으로부터 자동차의 타겟 특징을 결정한다.

단계 S330에서, 상기 타겟 엔티티의 출현 정보 및 상기 타겟 특징에 따라, 상기 후보 비디오의 조밀 특징을 결정한다.

구체적으로, 상기 타겟 엔티티의 출현 정보 및 상기 타겟 특징에 따라, 상기 후보 비디오의 조밀 특징을 결정하는 단계는,

후보 비디오 중 단일 프레임 이미지에서의 상기 타겟 엔티티의 출현 정보 및 상기 타겟 특징에 따라, 단일 프레임 이미지에 대한 서브 특징을 결정하는 단계; 및

이미지의 발생 순서에 따라, 결정된 서브 특징을 조합하여 상기 후보 비디오의 조밀 특징을 획득하는 단계를 포함한다.

전형적으로, 후보 비디오 중 단일 프레임 이미지에서의 상기 타겟 엔티티의 출현 정보 및 상기 타겟 특징에 따라, 단일 프레임 이미지에 대한 서브 특징을 결정하는 단계는,

단일 프레임 이미지에서 출현된 타겟 엔티티에 대해, 상기 단일 프레임 이미지서브 특징 중의 대응 위치에 타겟 엔티티의 타겟 특징을 기입하고, 서브 특징 중의 다른 위치에 설정 특징을 기입하는 단계를 포함한다.

선택 가능하게, 후보 비디오 중 단일 프레임 이미지에서의 상기 타겟 엔티티의 출현 정보 및 상기 타겟 특징에 따라, 단일 프레임 이미지에 대한 서브 특징을 결정하는 단계는,

단일 프레임 이미지에서 출현된 타겟 엔티티의 타겟 특징을 상기 단일 프레임 이미지의 서브 특징으로 사용하는 단계를 포함한다.

단계 S340에서, 상기 후보 비디오 프레임에서의 상기 타겟 엔티티의 위치 정보, 상기 타겟 엔티티의 면적 및 상기 후보 비디오 프레임의 발생 순서 중 적어도 하나를 상기 조밀 특징과 조합하여 상기 후보 비디오의 비디오 공간 특징을 획득한다.

단계 S350에서, 상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 대해 공간 통일을 수행하여 통일 공간 특징을 획득한다.

단계 S360에서, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정한다.

단계 S370에서, 상기 유사도에 따라 상기 후보 비디오로부터 타겟 비디오를 선택하고, 상기 타겟 비디오를 조회 결과로 사용한다.

본 출원의 실시예는 후보 비디오 프레임 중 타겟 엔티티의 출현 정보, 및 타겟 엔티티의 타겟 특징에 따라, 후보 비디오의 조밀 특징을 결정하고, 후보 비디오 프레임에서의 타겟 엔티티의 위치 정보, 타겟 엔티티의 면적 및 후보 비디오 프레임의 발생 순서 중 적어도 하나를 조밀 특징과 조합하여 후보 비디오의 비디오 공간 특징을 획득함으로써, 비디오 공간 특징을 추출한다.

비디오 공간 특징의 결정 정확도를 더 향상시키기 위하여, 상기 후보 비디오 프레임은 상기 후보 비디오 중의 키 프레임이다.

제4 실시예

본 실시예는 상기 실시예의 기초상에서 제출된 선택 가능한 해결수단이다. 본 실시예에 의해 제공되는 비디오 검색 방법은 하기와 같은 단계를 포함한다.

1. 후보 비디오에 대해 비디오 공간 특징을 결정한다.

도 4를 참조하면, 후보 비디오 중의 비디오 키 프레임를 추출하고;

타겟 위치결정 네트워크(faster rcnn)에 기반하여 상기 키 프레임에 대해 타겟 엔티티 추출을 수행하며;

추출 결과에 따라 타겟 엔티티 후보 특징의 신뢰도, 타겟 엔티티의 위치 정보, 타겟 엔티티의 면적 및 타겟 엔티티가 속하는 프레임을 결정하고;

타겟 엔티티 후보 특징의 신뢰도에 따라, 타겟 엔티티의 타겟 특징을 결정하며;

타겟 엔티티의 타겟 특징 및 타겟 엔티티가 속하는 프레임에 따라, 후보 비디오의 조밀 특징을 결정하고;

조밀 특징, 타겟 엔티티의 위치 정보, 타겟 엔티티의 면적 및 타겟 엔티티가 속하는 프레임을 조합하여 후보 비디오의 비디오 공간 특징을 생성한다.

2. 조회 텍스트의 텍스트 공간 특징을 결정한다.

3. 도 5를 참조하면, 주의력 메커니즘에 기반하여, 텍스트 공간 특징과 시각 공간 특징에 대해 반복 교차를 수행하여, 다른 시맨틱 공간에서의 특징의 관련 시맨틱 특징을 각각 추출한다.

4. 단어 입도로 조회 텍스트와 후보 비디오 사이의 시맨틱 연관성, 후보 비디오와 조회 텍스트 사이의 시맨틱 연관성을 산출하고, 최후에 연관성 융합을 수행하며, 융합 결과에 기반하여 타겟 비디오를 결정한다.

도 6을 참조하면, 예시적으로, 조회 텍스트를 "파인애플로 어떻게 밥을 만드나요"로 하여, 조회 텍스트와 후보 비디오 사이의 시맨틱 연관성을 산출하는 단계는,

비디오 시맨틱 공간(v1…vk)에서의 조회 텍스트 중 각 조회 단어(w1,w2,w3,w14)의 시맨틱 분포를 산출하는 단계;

산출된 시맨틱 분포에 따라, 조회 단어와 후보 비디오의 유사도 sim(w, v)를 결정하는 단계; 및

조회 텍스트에서의 조회 단어의 중요도에 따라, 조회 단어와 후보 비디오의 유사도에 대해 가중평균을 구하여 조회 텍스트와 후보 비디오 사이의 유사도 sim(Q, v)를 획득하는 단계를 포함한다.

본 출원의 실시예는 검색에 사용되는 새로운 비디오 특징 추출 기술을 제공하였고, 동시에, 텍스트 특징과 비디오 시맨틱 특징의 산출에서 특징 다중 레벨 교차 정렬 구상을 도입하였음으로써, 실제 문제에서 짧은 비디오 검색 문제를 해결하였다. 아울러, 상기 기술은 이미지 검색에서도 마찬가지로 우수한 효과를 일으킬 수 있고, 상기 방법은 아주 우수한 이동성을 가진다.

제5 실시예

도 7은 본 출원의 제5 실시예에 의해 제공되는 비디오 검색 장치의 구성 모식도이다. 도 7을 참조하면, 본 출원의 실시예에 의해 제공되는 비디오 검색 장치(700)는 특징 결정 모듈(701), 유사도 결정 모듈(702) 및 타겟 비디오 선택 모듈(703)을 포함한다.

여기서, 특징 결정 모듈(701)은, 텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 조회 텍스트 및 후보 비디오에 따라, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징을 결정하고;

유사도 결정 모듈(702)은, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정하며;

타겟 비디오 선택 모듈(703)은, 상기 유사도에 따라 상기 후보 비디오로부터 타겟 비디오를 선택하고, 상기 타겟 비디오를 조회 결과로 사용한다.

또한, 상기 특징 결정 모듈은,

또한, 상기 비디오 특징 결정 유닛은,

또한, 상기 타겟 특징 결정 서브 유닛은 구체적으로,

또한, 상기 공간 통일 유닛은,

또한, 상기 비디오 공간 통일 서브 유닛은 구체적으로,

또한, 상기 유사도 결정 모듈은,

제6 실시예

본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능한 저장 매체를 더 제공한다.

도 8에 도시된 바와 같이, 본 출원의 실시예에 따른 비디오 검색 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 출원의 구현을 한정하지 않는다.

도 8에 도시된 바와 같이, 상기 전자 기기는 하나 또는 다수의 프로세서(801), 메모리(802), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되고, 공통 메인보드에 장착될 수 있거나 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는, 메모리에 저장되거나 메모리에서 외부 입력/출력 장치(예를 들어, 인터페이스에 커플링된 표시 기기)에 GUI의 그래픽 정보를 표시하는 명령어를 포함하는 전자 기기 내에서 실행되는 명령어를 처리할 수 있다. 다른 실시형태에서, 필요에 따라 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중프로세서 시스템)을 제공한다. 도 8에서 하나의 프로세서(801)를 예로 든다.

메모리(802)는 본 출원에 의해 제공되는 비일시적 컴퓨터 판독 가능한 저장 매체이다. 여기서, 상기 메모리에 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어, 상기 적어도 하나의 프로세서가 본 출원에 의해 제공되는 비디오 검색 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능한 저장 매체에 컴퓨터 명령어가 저장되고, 상기 컴퓨터 명령어는 컴퓨터가 본 출원에 의해 제공되는 비디오 검색 방법을 수행하도록 한다.

메모리(802)는 비일시적 컴퓨터 판독 가능한 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능한 프로그램, 및 본 출원의 실시예의 비디오 검색 방법에 대응되는 프로그램 명령어/모듈(예를 들어, 도 7에 도시된 특징 결정 모듈(701), 유사도 결정 모듈(702) 및 타겟 비디오 선택 모듈(703))과 같은 모듈을 저장할 수 있다. 프로세서(801)는 메모리(802)에 저장된 비일시적 소프트웨어 프로그램, 명령어 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하는데, 즉 상기 방법 실시예의 비디오 검색 방법을 구현한다.

메모리(802)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있고, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있으며; 데이터 저장 영역은 비디오 검색 전자 기기의 사용에 따라 구축된 데이터 등을 저장할 수 있다. 이 밖에, 메모리(802)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 메모리, 플래시 메모리, 또는 다른 비일시적 고체 상태 메모리와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(802)는 프로세서(801)에 대해 원격으로 설치된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 비디오 검색 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예로 인터넷, 인트라넷, 블록체인 네트워크, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함그러나 이에 한정되지 않는다.

비디오 검색 방법의 전자 기기는 입력 장치(803) 및 출력 장치(804)를 더 포함할 수 있다. 프로세서(801), 메모리(802), 입력 장치(803) 및 출력 장치(804)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 8에서 버스를 통해 연결되는 것을 예로 든다.

입력 장치(803)는 입력된 디지털 또는 문자 정보를 수신할 수 있고, 비디오 검색 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 발생할 수 있으며, 상기 입력 장치는 예를 들어 터치스크린, 키패드, 마우스, 트랙 패널, 터치 패널, 지시 바, 하나 또는 다수의 마우스 버튼, 트랙 볼, 조이스틱 등 입력 장치이다. 출력 장치(804)는 표시 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 표시 기기는 액정 표시 장치(LCD), 발광 다이오드(LED) 표시 장치 및 플라스마 표시 장치를 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 표시 기기는 터치스크린일 수 있다.

여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신할 수 있으며, 데이터 및 명령어를 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령어를 포함하고, 하이레벨 프로세스 및/또는 객체에 대한 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에서 사용된 바와 같이, 용어 "기계 판독 가능한 매체" 및 "컴퓨터 판독 가능한 매체"는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 로직 장치(PLD))를 의미하고, 기계 판독 가능한 신호인 기계 명령어를 수신하는 기계 판독 가능한 매체를 포함한다. 용어 "기계 판독 가능한 신호"는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술을 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백그라운드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로 근거리 통신망(LAN), 광역 통신망(WAN), 인터넷, 블록체인 네트워크를 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.

위에서 설명한 다양한 형태의 프로세스, 재배열, 추가 또는 삭제 단계를 사용할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에 수행될 수 있거나 순차적으로 수행될 수 있거나 상이한 순서로 수행될 수 있고, 본 출원에서 공개된 기술적 해결수단이 이루고자 하는 결과를 구현할 수만 있으면, 본문은 여기서 한정하지 않는다.

상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진해할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 진행한 임의의 수정, 등가적 대체 및 개선 등은 모두 본 출원의 보호 범위 내에 속해야 한다.

Claims

비디오 검색 방법으로서,
텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 조회 텍스트 및 후보 비디오에 따라, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징을 결정하는 단계;
상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정하는 단계; 및
상기 유사도에 따라 상기 후보 비디오로부터 타겟 비디오를 선택하고, 상기 타겟 비디오를 조회 결과로 사용하는 단계를 포함하는 것을 특징으로 하는 비디오 검색 방법.
제1항에 있어서,
상기 텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 조회 텍스트 및 후보 비디오에 따라, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징을 결정하는 단계는,
상기 텍스트 시맨틱 공간에 기반하여, 상기 조회 텍스트의 텍스트 공간 특징을 결정하는 단계;
상기 비디오 시맨틱 공간에 기반하여, 상기 후보 비디오의 비디오 공간 특징을 결정하는 단계; 및
상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 대해 공간 통일을 수행하여 통일 공간 특징을 획득하는 단계를 포함하는 것을 특징으로 하는 비디오 검색 방법.
제2항에 있어서,
상기 비디오 시맨틱 공간에 기반하여, 상기 후보 비디오의 비디오 공간 특징을 결정하는 단계는,
후보 비디오 프레임 중 타겟 엔티티의 타겟 특징을 결정하는 단계;
상기 타겟 엔티티의 출현 정보 및 상기 타겟 특징에 따라, 상기 후보 비디오의 조밀 특징을 결정하는 단계; 및
상기 후보 비디오 프레임에서의 상기 타겟 엔티티의 위치 정보, 상기 타겟 엔티티의 면적 및 상기 후보 비디오 프레임의 발생 순서 중 적어도 하나를 상기 조밀 특징과 조합하여 상기 후보 비디오의 비디오 공간 특징을 획득하는 단계를 포함하는 것을 특징으로 하는 비디오 검색 방법.
제3항에 있어서,
상기 후보 비디오 프레임 중 타겟 엔티티의 타겟 특징을 결정하는 단계는,
상기 후보 비디오 프레임 중 타겟 엔티티의 후보 특징을 결정하는 단계;
결정된 후보 특징을 클러스터링하여, 결정된 후보 특징을 상기 타겟 엔티티와 연관시키는 단계; 및
상기 후보 특징의 신뢰도에 기반하여, 상기 타겟 엔티티와 연관된 후보 특징으로부터 상기 타겟 엔티티의 타겟 특징을 결정하는 단계를 포함하는 것을 특징으로 하는 비디오 검색 방법.
제2항에 있어서,
상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 대해 공간 통일을 수행하여 통일 공간 특징을 획득하는 단계는,
상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징을 상기 비디오 시맨틱 공간에 투사하는 단계; 및/또는
상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 비디오 공간 특징을 상기 텍스트 시맨틱 공간에 투사하는 단계를 포함하는 것을 특징으로 하는 비디오 검색 방법.
제5항에 있어서,
상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징을 상기 비디오 시맨틱 공간에 투사하는 단계는,
상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 따라, 상기 비디오 시맨틱 공간에서의 상기 조회 텍스트 중 조회 단어의 시맨틱 분포를 산출하는 단계를 포함하는 것을 특징으로 하는 비디오 검색 방법.
제6항에 있어서,
상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 따라, 상기 비디오 시맨틱 공간에서의 상기 조회 텍스트 중 조회 단어의 시맨틱 분포를 산출하는 단계는,
상기 텍스트 공간 특징을 입력 특징으로 사용하고, 상기 비디오 공간 특징을 출력 특징으로 사용하여, 상기 입력 특징 및 상기 출력 특징을 미리 트레이닝된 컨버터 모델에 입력함으로써, 상기 비디오 시맨틱 공간에서의 상기 조회 텍스트 중 조회 단어의 시맨틱 분포를 출력하는 단계를 포함하는 것을 특징으로 하는 비디오 검색 방법.
제1항에 있어서,
상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정하는 단계는,
통일 공간 특징에 기반하여, 상기 조회 텍스트 중 조회 단어와 상기 후보 비디오의 단어 유사도를 산출하는 단계;
상기 조회 텍스트에서의 조회 단어의 중요도에 따라, 상기 조회 단어의 가중치를 결정하는 단계; 및
결정된 가중치에 따라, 상기 단어 유사도에 가중합을 구하여 상기 조회 텍스트와 상기 후보 비디오의 유사도를 획득하는 단계를 포함하는 것을 특징으로 하는 비디오 검색 방법.
비디오 검색 장치로서,
텍스트 시맨틱 공간과 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 조회 텍스트 및 후보 비디오에 따라, 상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징을 결정하는 특징 결정 모듈;
상기 조회 텍스트의 통일 공간 특징 및 상기 후보 비디오의 통일 공간 특징에 따라, 상기 조회 텍스트 및 상기 후보 비디오의 유사도를 결정하는 유사도 결정 모듈; 및
상기 유사도에 따라 상기 후보 비디오로부터 타겟 비디오를 선택하고, 상기 타겟 비디오를 조회 결과로 사용하는 타겟 비디오 선택 모듈을 포함하는 것을 특징으로 하는 비디오 검색 장치.
제9항에 있어서,
상기 특징 결정 모듈은,
상기 텍스트 시맨틱 공간에 기반하여, 상기 조회 텍스트의 텍스트 공간 특징을 결정하는 텍스트 특징 결정 유닛;
상기 비디오 시맨틱 공간에 기반하여, 상기 후보 비디오의 비디오 공간 특징을 결정하는 비디오 특징 결정 유닛; 및
상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 대해 공간 통일을 수행하여 통일 공간 특징을 획득하는 공간 통일 유닛을 포함하는 것을 특징으로 하는 비디오 검색 장치.
제10항에 있어서,
상기 비디오 특징 결정 유닛은,
후보 비디오 프레임 중 타겟 엔티티의 타겟 특징을 결정하는 타겟 특징 결정 서브 유닛;
상기 타겟 엔티티의 출현 정보 및 상기 타겟 특징에 따라, 상기 후보 비디오의 조밀 특징을 결정하는 조밀 특징 결정 서브 유닛; 및
상기 후보 비디오 프레임에서의 상기 타겟 엔티티의 위치 정보, 상기 타겟 엔티티의 면적 및 상기 후보 비디오 프레임의 발생 순서 중 적어도 하나를 상기 조밀 특징과 조합하여 상기 후보 비디오의 비디오 공간 특징을 획득하는 비디오 특징 결정 서브 유닛을 포함하는 것을 특징으로 하는 비디오 검색 장치.
제11항에 있어서,
상기 타겟 특징 결정 서브 유닛은 구체적으로,
상기 후보 비디오 프레임 중 타겟 엔티티의 후보 특징을 결정하고;
결정된 후보 특징을 클러스터링하여, 결정된 후보 특징을 상기 타겟 엔티티와 연관시키며;
상기 후보 특징의 신뢰도에 기반하여, 상기 타겟 엔티티와 연관된 후보 특징으로부터 상기 타겟 엔티티의 타겟 특징을 결정하는 것을 특징으로 하는 비디오 검색 장치.
제10항에 있어서,
상기 공간 통일 유닛은,
상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징을 상기 비디오 시맨틱 공간에 투사하는 비디오 공간 통일 서브 유닛; 및/또는
상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 비디오 공간 특징을 상기 텍스트 시맨틱 공간에 투사하는 텍스트 공간 통일 서브 유닛을 포함하는 것을 특징으로 하는 비디오 검색 장치.
제13항에 있어서,
상기 비디오 공간 통일 서브 유닛은 구체적으로,
상기 텍스트 시맨틱 공간과 상기 비디오 시맨틱 공간 사이의 전환 관계에 기반하여, 상기 텍스트 공간 특징 및 상기 비디오 공간 특징에 따라, 상기 비디오 시맨틱 공간에서의 상기 조회 텍스트 중 조회 단어의 시맨틱 분포를 산출하고, 상기 시맨틱 분포를 상기 조회 텍스트의 통일 공간 특징으로 사용하는 것을 특징으로 하는 비디오 검색 장치.
제9항에 있어서,
상기 유사도 결정 모듈은,
통일 공간 특징에 기반하여, 상기 조회 텍스트 중 조회 단어와 상기 후보 비디오의 단어 유사도를 산출하는 단어 유사도 유닛;
상기 조회 텍스트에서의 조회 단어의 중요도에 따라, 상기 조회 단어의 가중치를 결정하는 가중치 결정 유닛; 및
결정된 가중치에 따라, 상기 단어 유사도에 가중합을 구하여 상기 조회 텍스트와 상기 후보 비디오의 유사도를 획득하는 텍스트 유사도 유닛을 포함하는 것을 특징으로 하는 비디오 검색 장치.
전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고,
상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되며, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 제1항 내지 제8항 중 어느 한 항에 따른 비디오 검색 방법을 수행할 수 있도록 하는 것을 특징으로 하는 전자 기기.
컴퓨터 명령어가 저장된 비일시적 컴퓨터 판독 가능한 저장 매체로서,
상기 컴퓨터 명령어는 상기 컴퓨터가 제1항 내지 제8항 중 어느 한 항에 따른 비디오 검색 방법을 수행할 수 있도록 하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능한 저장 매체.
컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 제1항 내지 제8항 중 어느 한 항에 따른 비디오 검색 방법을 수행하는 것을 특징으로 하는 컴퓨터 프로그램.