KR20200125682A - 비디오 시간 세그먼트를 검색하는 방법과 시스템 - Google Patents

비디오 시간 세그먼트를 검색하는 방법과 시스템 Download PDF

Info

Publication number
KR20200125682A
KR20200125682A KR1020207027945A KR20207027945A KR20200125682A KR 20200125682 A KR20200125682 A KR 20200125682A KR 1020207027945 A KR1020207027945 A KR 1020207027945A KR 20207027945 A KR20207027945 A KR 20207027945A KR 20200125682 A KR20200125682 A KR 20200125682A
Authority
KR
South Korea
Prior art keywords
video
attention
data
temporal
information
Prior art date
Application number
KR1020207027945A
Other languages
English (en)
Other versions
KR102480323B1 (ko
Inventor
젠하오 시아오
치우만 호
Original Assignee
광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드 filed Critical 광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드
Publication of KR20200125682A publication Critical patent/KR20200125682A/ko
Application granted granted Critical
Publication of KR102480323B1 publication Critical patent/KR102480323B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • G06K9/00765
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7343Query language or query format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0445
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 비디오 시간 세그먼트 검색하는 데에 사용되는 방법과 시스템을 제공한다. 상기 방법은 비디오의 프레임 특징 정보를 획득하기 위해 비디오를 분석하는 단계와; 비디오의 시간 정보와 관련된 제 1 데이터를 출력하기 위해 프레임 특징 정보를 인코더에 입력하는 단계와; 제 2 데이터를 출력하기 위해 제 1 데이터와 비디오의 비디오 시간 세그먼트를 검색하는 데에 사용되는 검색 설명을 디코더에 입력하는 단계와; 제 1 데이터 및 제 2 데이터에 따라 주의력 계산 훈련을 수행하는 단계와; 주의력 계산 훈련에 따라 검색 설명에 대응하는 비디오의 비디오 시간 세그먼트를 확정하는 단계를 포함한다.

Description

비디오 시간 세그먼트를 검색하는 방법과 시스템
본 발명의 실시예는 기계 학습 분야에 관한 것으로, 보다 구체적으로 비디오 시간 세그먼트를 검색하는 방법과 시스템에 관한 것이다.
비디오의 순간 또는 시각(moment)을 찾기 위해 자연어를 사용하는 것은 큰 상업적 잠재력과 응용 전망을 갖는 중요한 연구 주제이며, 예를 들면, 비디오 검색, 비디오 요약, 비디오 설명 및 질문 응답 등이다. 그러나 대부분의 기존 시스템은 자연어로 전체 비디오 클립을 검색하므로 자연어로 비디오에 무엇이 발생하였는지를 결정할 수 있지만, 언제 발생하였는지를 결정할 수 없다. 일부 이전 연구는 '순간' 검색 시스템을 제안하려고 시도했지만, 비디오 데이터 세트에는 많은 쌍을 이루는 로컬 비디오 클립 및 인용 표현이 포함되어야 하거나, 또는 대응하는 순간을 고유하게 식별하는 텍스트 설명 정보가 포함되어야 하므로, 희귀성 및 불가용성으로 인해 '순간' 검색 시스템은 매우 제한된 정확도만 달성할 수 있다.
대부분의 기존 시스템은 자연어 검색을 통해(비디오의 어느 순간이나 시각이 아니라) 특정 비디오를 검색하는 것을 목표로 한다. 자연어 비디오 검색 방법은 자연어 검색을 통해 특정 비디오를 검색하는 것을 목표로 한다. 현재의 방법은 전통적인 이미지 언어 임베딩과 유사한 심층 비디오 언어 임베딩을 채택한다. 이러한 전체 비디오 검색은 ‘ [1] M. Otani, Y. Nakashima, E. Rahtu, J. Heikkila, and N. Yokoya. "Learning joint representations of videos and sentences with web image search," In ECCV Workshops, 2016; [2] A. Torabi, N. Tandon, and L. Sigal. "Learning language visual embedding for movie understanding with natural language," arXiv preprint arXiv:1609.08124, 2016; [3] R. Xu, C. Xiong, W. Chen, and J. J. Corso. "Jointly modeling deep video and compositional text to bridge vision and language in a unified framework," in AAAI, 2015’를 참조할 수 있다. 그러나 이러한 방법은 세그먼트 레벨 비디오 검색을 달성할 수 없다.
이전의 일부 연구는 효과적인 행동 탐지를 위해 일시적 행동 제안(temporal action proposals)을 활용하였다. 일시적 행동 제안은 두번째 단계에서 액션 분류기(action classifier)로 독립적으로 분류되는 관련 시간창을 식별한다. 그러나 이러한 방법은 비디오의 잠재적인 이벤트 제안을 예측할 수 있지만 검색 작업을 도울 수 없다. 이러한 일시적 행동 제안에 대하여, ‘[4] Buch et al., SST: "Single-Stream Temporal Action Proposals," CVPR 2017, [5] Escorcia et al., DAPs: "Deep Action Proposals for Action Understanding, " ECCV 2016。’를 참조할 수 있다.
소량의 사전 작업(예를 들어, [6] Hendricks et al., "Localizing Moments in Video with Natural Language," arXiv preprint 2017 참조)은 쌍을 이루는 시간-설명 데이터 세트를 기반으로 비디오의 시간 세그먼트를 검색하는 것을 연구하였지만, 이러한 쌍을 이루는 데이터 세트는 많은 인력이 필요하며, 실제로 획득하기 어렵다.
본 개시에서 설명된 주제의 하나의 혁신적인 양태에 따르면, 비디오 시간 세그먼트를 검색하는 방법이 제공된다. 상기 방법은, 비디오의 프레임 특징 정보를 획득하기 위해 비디오를 분석하는 단계와; 비디오의 시간 정보와 관련된 제 1 데이터를 출력하기 위해 프레임 특징 정보를 인코더에 입력하는 단계와; 제 2 데이터를 출력하기 위해 제 1 데이터와 비디오의 비디오 시간 세그먼트를 검색하는 데에 사용되는 검색 설명을 디코더에 입력하는 단계와; 제 1 데이터 및 제 2 데이터에 따라 주의력 계산 훈련을 수행하는 단계와; 주의력 계산 훈련에 따라 검색 설명에 대응하는 비디오의 비디오 시간 세그먼트를 확정하는 단계를 포함한다.
본 개시에서 설명된 주제의 다른 혁신적인 양태에 따르면, 비디오 시간 세그먼트를 검색하는 방법이 제공된다. 상기 방법은, 비디오의 프레임 특징 정보를 얻기 위해 비디오를 분석하는 단계와; 제 1 데이터 및 제 2 데이터에 따라 주의력 계산 훈련을 수행하는 단계- 제 1 데이터는 비디오의 시간 정보에 관련되고, 프레임 특징 정보를 인코더에 입력함으로써 획득되며, 제 2 데이터는 적어도 제 1 데이터와 검색 설명을 디코더에 입력함으로써 획득됨 -과; 주의력 계산 훈련에 따라 검색 설명에 대응하는 비디오의 비디오 시간 세그먼트를 확정하는 단계를 포함한다.
본 개시에서 설명된 주제의 다른 혁신적인 양태에 따르면, 비디오 시간 세그먼트를 검색하는 시스템이 제공된다. 상기 시스템은, 입력된 비디오의 프레임 특징 정보를 추출하도록 구성된 추출기와; 추출기와 결합되고, 프레임 특징 정보에 따라 비디오의 시간 정보를 획득하도록 구성된 인코더와; 인코더와 결합되고, 인코더로부터 시간 정보를 수신하고, 외부로부터 검색 설명을 수신하고, 시간 정보 및 검색 설명에 따라 디코더의 상태 정보를 획득하도록 구성된 디코더와; 인코더 및 디코더와 결합되고, 인코더로부터 시간 정보를 수신하고, 디코더로부터 상태 정보를 수신하며, 시간 정보 및 상태 정보에 따라 주의력 계산을 수행하도록 구성된 계층 생성기와; 계층 생성기와 결합되고, 계층 생성기에서 수행된 주의력 계산에 따라 검색 설명에 대응하는 비디오의 비디오 시간 세그먼트를 확정하도록 구성된 프로세서를 포함한다.
하나의 실시예로서, 시스템의 계층 생성기는 주의력 계층 생성기 및 FC 계층 생성기를 포함할 수 있다. 주의력 계층 생성기는 인코더 및 디코더와 결합되고, 각 비디오 시간 세그먼트와 검색 설명의 각 설명 항목 사이의 관련성에 따라 비디오의 각 비디오 시간 세그먼트의 시간 주의력 가중치를 획득하고, 시간 주의력 가중치에 따라 시간 정보의 가중 평균 정보를 획득하는 데에 사용된다. FC 계층 생성기는 디코더 및 주의력 계층 생성기와 결합되고, 가중 평균 정보 및 상태 정보에 따라 최종 주의력 정보를 획득하고, 최종 주의력 정보를 디코더에 출력하는 데에 사용된다.
본 개시에서 설명된 주제의 또 다른 혁신적인 양태에 따르면, 컴퓨터 시스템이 제공된다. 상기 컴퓨터 시스템은, 데이터를 저장하고, 또한 데이터에 대한 액세스를 제공하는 적어도 하나의 비 일시적 컴퓨터 메모리와; 데이터를 액세스하기 위해 비 일시적 컴퓨터 메모리에 결합된 적어도 하나의 프로세서와; 적어도 하나의 비 일시적 컴퓨터 메모리에 저장 가능하고, 적어도 하나의 프로세서에 의해 실행 가능한 컨볼 루션 뉴럴 네트워크(convolutional neural network, CNN)- CNN은 비디오의 프레임 특징 정보를 추출하도록 구성됨 -와; 적어도 하나의 비 일시적 컴퓨터 메모리에 저장 가능하고, 적어도 하나의 프로세서에 의해 실행 가능한 비디오-설명 기반의 모델러를 포함한다. 모델러는, CNN에 결합되고, 비디오의 프레임 특징 정보에 따라 비디오의 시간 정보를 획득하는 제 1 스택 반복 신경망(first stacked recurrent neural network. RNN)과; 제 1 스택 RNN과 결합되고, 시간 정보 및 검색 설명에 따라 숨겨진 표현을 기반으로 하는 출력을 생성하는 제 2 스택 RNN과; 제 1 스택 RNN 및 제 2 스택 RNN과 결합되고, 시간 정보 및 숨겨진 표현을 기반으로 하는 출력에 따라 비디오의 각 비디오 시간 세그먼트의 시간 주의력 가중치를 획득하는 주의력 계층 계층별 시간 메모리(HTM)를 포함한다. 모델러는 주의력 계층 HTM 및 제 2 스택 RNN과 결합되고, 제 2 스택 RNN의 입력을 제공하는 FC 계층 HTM를 더 포함할 수 있다.
본 개시에서 설명된 주제의 또 다른 혁신적인 양태에 따르면, 컴퓨터 시스템이 제공된다. 컴퓨터 시스템은 적어도 하나의 프로세서 및 명령이 저장된 적어도 하나의 비 일시적 메모리를 포함한다. 명령이 적어도 하나의 프로세서에 의해 실행될 때, 컴퓨터 시스템으로 하여금 아래 조작을 실행하도록 한다. 비디오를 분석하여 비디오의 프레임 특징 정보를 획득하고, 프레임 특징 정보를 인코더에 입력하여 비디오의 시간 정보와 관련된 제 1 데이터를 출력하며, 제 1 데이터와 비디오의 비디오 시간 세그먼트를 검색하는 데에 사용되는 검색 설명을 디코더에 입력하여 제 2 데이터를 출력하고, 제 1 데이터 및 제 2 데이터에 따라 주의력 계산 훈련을 수행하고, 주의력 계산 훈련에 따라 검색 설명에 대응하는 비디오의 비디오 시간 세그먼트를 확정한다.
도 1은 비디오 시간 세그먼트 검색 동작을 위한 예시적인 시스템의 블록도이다.
도 2는 예시적인 컴퓨팅 시스템의 블록도이다.
도 3은 예시적인 비디오 시간 세그먼트 검색 엔진의 블록도이다.
도 4는 비디오 시간 세그먼트를 검색하는 방법의 흐름도이다.
도 5는 비디오 시간 세그먼트를 검색하는 데에 사용되는 시스템의 블록도이다.
도 6은 제안된 비디오 시간 세그먼트 검색 프레임 워크를 도시한 개략도이다.
도 7은 제안된 비디오 시간 세그먼트 검색 프레임 워크를 도시한 다른 개략도이다.
도 8은 검색 설명에 포함된 각 설명 항목의 시간 주의력 가중치를 도시 한 개략도이다.
도 9는 총 주의력 가중치에 기초한 시간 행동 위치 결정을 도시하는 개략도이다.
도 10(도 10a 및 도 10b를 포함)은 시간적 세그먼트 검색의 결과를 도시한다.
본 발명은 자연어를 사용한 비디오 검색(비디오 획득이라고도 함)과 관련된 기술을 제공하며, 특히 약하게 감독된 학습을 기반으로 자연어를 사용하여 비디오 시간 세그먼트를 검색하는 기술을 제공하며, 자연어 조회를 기반으로 비디어에서 특정 비디어 또는 시간 간격을 검색하늘 것을 목적으로 한다. 약하게 감독된 학습은 약한 감독하에서 작동하는 기계 학습 기술을 말한다. 구체적으로, 약하게 감독된 학습은 포괄적인 용어로서, 약하게 감독된 학습을 통해 예측 모델을 구축하려는 다양한 연구를 포괄한다. 본 명세서에서, 우리는 약하게 감독된 학습에 대하여 자세히 설명하지 않고, 비디오 검색을 중점으로 설명할 것이다.
비디오 시간 세그먼트 검색과 관련하여, 상술한 헨드릭스(Hendricks)에서 제공된 전통적인 방법은 대량의 쌍을 이루는 지역화된 비디오 클립과 인용된 표현 또는 해당 순간을 고유하게 식별하는 텍스트 설명을 유지하여야 한다. 헨드릭스 아키텍처를 달성하려면 많은 인력과 저장 공간이 필요하다.
이것을 염두에 두고, 본 명세서에서 비디오 시간 세그먼트 검색 기술이 제공되는데, 이는 상술한 헨드릭스에서 언급된 쌍을 이루는 모멘트-설명 데이터를 필요하지 않고, 자연어 텍스트 설명에 따라 비디오로부터 특정 시간 세그먼트 또는 모멘트를 효과적으로 검색할 수 있다. 일부 실시예에 있어서, 본 발명의 기술은 아래에서 설명될 비디오 및 텍스트 설명과 같은 검색 설명에 기초할 수 있다. 비디오 프레임(비디오 세그멘트에 대응하는 정보가 없음)과 텍스트 설명에 따라, 아래에서 설명될 주의력 메커니즘(attention mechanism)을 기반으로, 본 발명의 기술은 비디오에서 텍스트 설명에 대응하는 시간 간격(시간 세그먼트, 시간 프레임, 비디오 프레임, 비디오 클립 등이라고도 하며, 충돌이 없는 한 이러한 용어는 서로 교환될 수 있다)을 자동으로 배울 수 있다. 따라서, 본 개시는 실제 제품에서 비디오 순간 검색을 가능하게 하고, 텍스트로 비디오 세그멘트의 위치를 결정함으로써 많은 인력 비용이 생기는 것을 피한다.
본 명세서에 기재된 실시예는 일반적으로 텍스트 설명을 기반으로 하는 비디오 시간 세그멘트 검색에 관련되지만, 본 명세서에 기재된 기술은 음성 입력과 같은 다른 적합한 영역에 적용될 수 있으며, 음성 입력인 경우, 음성을 텍스트로 변환시켜 그 후의 비디오 시간 세그멘트 검색에 사용될 수 있다.
이하, 예를 들어 본 발명을 설명하지만, 이것에 제한되는 것은 아니다. 첨부 도면에 있어서, 동일한 도면 부호는 유사한 구성 요소를 지칭하는 데에 사용된다.
도 1은 비디오 시간 세그먼트 검색 동작을 위한 예시적인 시스템의 블록도이다. 도 1에 도시된 바와 같이, 시스템(100)은 플랫폼 또는 다수의 플랫폼(101), 클라이언트 장치(103) 및 서버(105)를 포함한다. 시스템(100)의 이들 실체는 네트워크(111)를 통해 통신 가능하게 연결된다. 도 1에 도시된 시스템(100)은 하나의 예시일 뿐이며, 시스템(100)은 더 많거나 적은 구성 요소를 포함하거나, 일부 구성 요소를 조합하거나, 하나 이상의 구성 요소를 추가 구성 요소로 분할할 수 있다. 예를 들어, 플랫폼(101)은 서버(105)에 통합될 수 있다.
네트워크(111)는 종래의 유선 네트워크 및/또는 무선 네트워크일 수 있으며, 여러가지 상이한 구성을 가질 수 있다. 예를 들어, 네트워크(111)는 하나 이상의 근거리 통신망(LAN), 광역 통신망(WLAN), 공용 네트워크, 개인 네트워크, 가상 네트워크, 피어 투 피어 네트워크 등을 포함할 수 있다.
플랫폼(101)은 비디오, 오디오, 기사 등과 같은 다양한 네트워크 리소스의 통합일 수 있다. 플랫폼(101)은 다양한 데이터 정보를 저장하는 데에 사용되는 데이터 저장소(107)를 포함하는 네트워크 서버일 수 있다. 선택적으로, 플랫폼(101)은 데이터 저장 장치일 수 있다.
클라이언트 장치(103)는 메모리, 프로세서 및/또는 통신 유닛을 포함할 수 있다. 클라이언트 장치(103)는 네트워크(111)에 연결되고, 서버(105)에 데이터를 송신하고, 서버(105)로부터 데이터를 수신할 수 있다. 클라이언트 장치(103)의 비 제한적인 예는 휴대폰, 노트북 컴퓨터, 데스크탑 컴퓨터, 태블릿 컴퓨터, 개인용 정보 단말기(PDA) 또는 정보를 처리할 수 있고 네트워크(111)에 액세스할 수 있는 임의의 다른 전자 장치를 포함한다.
서버(105)는 엔진(109)을 포함할 수 있다. 엔진(109)은 클라이언트 장치(103) 및/또는 플랫폼(101)으로부터 데이터를 수신하고 처리하는 데에 사용되는 컴퓨터 로직을 포함한다. 일부 실시예에 있어서, 엔진(109)은 비디오 시간 세그먼트 검색 엔진이고, 클라이언트 장치(103)로부터의 텍스트 설명 및 플랫폼(101)으로부터의 비디오를 기반으로 비디오 시간 세그먼트 검색을 수행하도록 구성된다. 일부 실시예에 있어서, 엔진(109)은 클라이언트 장치(103)로부터의 텍스트 설명 및 클라이언트 장치(103)에 저장된 비디오를 기반으로 비디오 시간 세그먼트 검색을 수행하도록 구성된다. 일부 실시예에 있어서, 엔진(109)은 하나 이상의 컴퓨터 장치의 하나 이상의 프로세서에 의해 실행 가능한 소프트웨어를 사용하여 구현될 수 있다. 일부 실시예에 있어서, 엔진(109)은 FPGA(field-programmable gate array), ASIC(application-specific integrated circuit) 등과 같은 하드웨어를 사용하여 구현될 수 있다. 일부 실시예에 있어서, 엔진(109)은 하드웨어와 소프트웨어의 조합을 사용하여 구현될 수 있다.
도 2는 예시적인 컴퓨팅 시스템(200)의 블록도이고, 이는 클라이언트 장치(103) 또는 서버(105)의 아키텍처를 나타낼 수 있다. 클라이언트 장치(103)의 구성 요소 또는 서버(105)의 구성 요소는 버스(210)를 통해 결합되고 통신될 수 있다.
상술한 바와 같이, 컴퓨팅 시스템(200)은 클라이언트 장치(103)의 아키텍처를 나타낼 수 있다. 이런 경우에 도시된 바와 같이, 클라이언트 장치(103)는 프로세서, 메모리 및 통신 유닛을 포함할 수 있다. 클라이언트 장치(103)는 입력 장치(201) 및 출력 장치(203)를 더 포함한다. 입력 장치(201)는 사용자로부터 다양한 제어 입력(예를 들면, 텍스트, 음성 등)을 수신하도록 구성된 임의의 표준 장치를 포함할 수 있다. 입력 장치(201)의 비 제한적인 예는 키보드, 마우스, 터치 스크린, 마이크, 스피커 또는 다른 오디오 입력 장치 등을 포함한다. 출력 장치(203)는 정보를 사용자 또는 외부 장치에 출력 또는 표시하도록 구성된 임의의 표준 장치일 수 있다. 출력 장치의 비 제한적인 예는 사용자에게 정보를 표시하기 위한 디스플레이/모니터를 포함한다. 이와 관련하여, 하나의 실시예에 있어서, 출력 정보는 비디오 시간 세그먼트(즉, 비디오 클립)이다.
클라이언트 장치(103)는 비디오 재생을 위한 응용 프로그램(APP)을 설치할 수 있다. 상술한 APP와 관련하여, 본 개시는 특별히 제한하지 않는다.
선택적으로, 컴퓨팅 시스템(200)은 서버(105)의 아키텍처를 나타낼 수 있고, 프로세서, 메모리, 통신 유닛 및 엔진(109)을 포함하며, 아래 도 3을 참조하여 구체적으로 설명한다.
도 3은 예시적인 비디오 시간 세그먼트 검색 엔진의 블록도이다. 도시된 바와 같이, 비디오 시간 세그먼트 검색 엔진(109)은 모델러(300) 및 컨볼 루션 뉴럴 네트워크(CNN)(301)와 같은 다양한 서브 컴포넌트를 포함할 수 있다. 모델러(300)는 입력 데이터를 사용하여 비디오 시간 세그먼트 검색을 모델링하거나 훈련시키도록 구성되며, CNN(301), 인코더(303), 디코더(305), 주의력 계층 생성기(307) 및 FC 계층 생성기(309)를 포함할 수 있다. 일부 실시예에 있어서, 컴포넌트들(301, 303, 305, 307 및 309) 중 하나 이상은 도 2에 도시된 프로세서와 같은 프로세서에 의해 실행될 수있는 명령어 세트이다. 다른 실시예에 있어서, 컴포넌트들(301, 303, 305, 307 및 309) 중 하나 이상은 도 2에 도시된 메모리와 같은 메모리에 저장 가능하다.
비디오 시간 세그먼트 검색 엔진(109)은 비디오 시간 세그먼트를 검색하는 데에 사용될 수 있는 컴퓨터 로직을 포함한다. 일부 실시예에 있어서, 본 명세서에서 더 상세하게 논의되는 바와 같이, CNN(301)의 입력 정보는 비디오를 포함할 수 있다. 비디오에는 여러개의 비디오 클립이 포함된다. '비디오 클립'은 짧은 비디오 클립이며, 일반적으로 비교적 긴 기록의 일부이다. 본 명세서에서 언급된 '비디오 클립'은 일반적으로 그 길이가 전통적인 텔레비전 프로그램의 길이보다 짧은 비디오를 말한다. 디코더(305)의 입력 정보는 텍스트 또는 음성을 포함할 수 있다. 음성 입력인 경우, 디코더에는 음성-텍스트 변환기가 장착될 수 있다. 예를 들어, 디코더의 입력은 비디오에서 설명에 적합하거나 일치하는 일부 비디오 클립 또는 비디오 세그먼트를 검색하는 데에 사용되는 검색 설명일 수 있다.
훈련 단계에서, CNN(301)은 비디오 입력의 프레임 특징 정보(즉, 프레임 특징)를 추출하도록 구성된다. 추출된 프레임 특징의 벡터 표현은 인코더(303)로 송신된다. 인코더(303)는 시간 정보를 기록하고 인코더(303)의 현재 상태 정보를 디코더(305) 및 주의력 계층 생성기(307)에 출력하도록 구성된다. 디코더(305)는 인코더(303)의 출력 및 검색 설명과 같은 훈련 입력을 수신하고, 그것의 현재 숨겨진 표현을 주의력 계층 생성기(307)에 출력하도록 구성된다. 따라서, 주의력 계층 생성기(307)는 시간 주의력 가중치 및 컨텍스트 벡터와 같은 파라미터를 얻기 위하여, 인코더(303) 및 디코더(305)의 출력을 수신하고, 주의력 계산을 수행할 수 있다. 시간 주의력 가중치는 각 비디오 클립과 목표 단어(즉, 검색 설명의 설명 항목) 사이의 상관 관계를 나타내는 데에 사용된다. 컨텍스트 벡터는 전체 소스 비디오의 간결한 표현에 사용된다. 최종 주의력 벡터를 획득하기 위하여, 주의력 계층 생성기(307)의 출력(예를 들어, 컨텍스트 벡터)은 FC 계층 생성기(309)에 송신되며, 최종 주의력 벡터는 입력으로서 디코더(305)에 제공되며, 디코더(305)의 후속 훈련 및 출력에 사용된다.
이러한 훈련 동안, 주의력 계층은 주의력 계층 생성기(307)에서 얻어질 수 있고, FC 계층은 FC 계층 생성기(309)에서 얻어질 수 있다. 이하, 주의력 계층 및 FC 계층을 상세하게 설명한다.
엔진(109)에 의해 훈련된 모델의 도움으로 추론 단계에서 서버(105)는 특정 시간의 비디오 세그먼트(사용자가 클라이언트 장치(103)를 통해 입력한 검색 설명을 기반으로)를 검색할 수 있으며, 모델링 동안 많은 쌍을 이루는 모멘트-설명 데이터를 필요하지 않으므로 기존 방법의 문제를 해결하였다.
아래, 첨부 도면을 참조하여 훈련 단계 및 추론 단계를 설명한다.
도 4는 비디오 시간 세그먼트를 검색하는 방법의 흐름도이다. 도 4에 도시된 바와 같이, 비디오 시간 세그먼트를 검색하는 방법은 훈련 단계 및 추론 단계를 포함할 수 있다. 훈련 단계에서, 비디오의 프레임 특징 정보를 얻기 위해, 예를 들어, CNN을 통해 수신된 비디오를 분석한다. 그 다음에, 제 1 데이터를 출력하기 위해 프레임 특징 정보를 인코더(예를 들어, LSTM/RNN)에 입력한다. 제 1 데이터는 비디오의 시간 정보와 관련된 제 1 벡터(hs)이다. 제 2 벡터(ht)와 같은 제 2 데이터를 출력하기 위해 제 1 벡터 및 비디오의 비디오 시간 세그먼트를 검색하는 데에 사용되는 검색 설명을 디코더(예를 들어, LSTM/RNN)에 입력한다. 그 다음에, 제 1 벡터(hs) 및 제 2 벡터(ht)에 따라 예를 들어, 주의력 계층에서 주의력 계산 훈련을 수행한다.
주의력 계산 훈련은 다음과 같이 달성될 수 있다. 제 1 벡터 및 제 2 벡터는 인코더 및 디코더와 결합된 주의력 계층에 입력된다. 주의력 계층에서, 각 비디오 시간 세그먼트과 검색 설명에 포함된 각 설명 항목 사이의 상관 관계에 따라, 비디오의 각 비디오 시간 세그먼트의 시간 주의력 가중치(αt)가 획득된다. 주의력 계층에서, 시간 주의력 가중치(αt) 및 제 2 벡터(ht)를 기반으로 제 1 벡터의 가중 평균 벡터(ct)와 같은 가중 평균 데이터가 획득되고, 가중 평균 데이터는 주의력 계층과 디코더에 결합된 FC 계층에 출력된다. 마지막으로, FC 계층에서, 가중 평균 벡터 및 제 2 벡터를 기반으로 최종 주의력 벡터(at)가 얻어지고, 또한 디코더로 출력된다.
도 4에 도시된 방법을 실시하기 위하여, 또한 비디오 시간 세그먼트를 검색하는 데에 사용되는 시스템이 제공된다. 도 5는 비디오 시간 세그먼트를 검색하는 데에 사용되는 시스템을 도시한 개략적인 블록도이다. 도시된 바와 같이, 시스템(50)은 추출기(52)(예를 들어 2D/3D CNN), 인코더(54)(예를 들어, LSTM/RNN), 디코더(56)(예를 들어, LSTM/RNN) 및 학습 계층을 위한 계층 생성기(58)를 포함한다. 하나의 실시예에 있어서, 인코더(54) 및 디코더(56)는 개별 LSTM으로 구현될 수 있다. 일부 실시예에 있어서, 시스템(50)은 프로세서(53)를 더 포함할 수 있다. 하나의 실시예에 있어서, 프로세서(53)는 상기 컴포넌트들(52, 54, 56 및 58)과 결합된다. 선택적으로, 프로세서(53)는 계층 생성기(58)와 결합될 수 있다. 일부 실시예에 있어서, 프로세서(53)는 시스템(50)의 검색 결과와 같은 정보를 사용자에게 표시하는 데에 사용되는 디스플레이와 더 결합될 수 있다. 일부 실시예에 있어서, 디코더(56)는 데이터를 입력하는 데에 사용되는 입력 장치(57)와 결합될 수 있다. 상술한 바와 같이, 입력 장치는 키보드, 터치 스크린 등과 같은 텍스트 입력을 위한 입력 장치, 또는 마이크로폰과 같은 음성 입력을 위한 입력 장치일 수 있다. 이하, 시스템(50)의 구성 요소를 상세하게 설명한다.
추출기(52)는 추출기(50)에 입력된 비디오의 프레임 특징 정보를 추출하도록 구성된다. 인코더(54)는 추출기(52)와 결합되고, 프레임 특징 정보에 따라 비디오의 시간 정보(제 1 벡터 hs에 대응됨)를 획득하도록 구성된다. 디코더(56)는 인코더(54)와 결합되고, 인코더(54)로부터 시간 정보를 수신하고, 외부로부터(예를 들어, 입력 장치(57)로부터) 검색 설명을 수신하고, 시간 정보 및 검색 설명에 따라 디코더(56)의 상태 정보(제 2 벡터 ht에 대응됨)를 획득하도록 구성된다. 계층 생성기(58)는 인코더(54) 및 디코더(56)와 결합되고, 인코더(54)로부터 시간 정보를 수신하고, 디코더(56)로부터 상태 정보를 수신하며, 시간 정보 및 상태 정보에 따라 주의력 계산을 수행하도록 구성된다.
일부 실시예에 있어서, 계층 생성기(58)는 주의력 계층을 생성하는 데에 사용되는 주의력 계층 생성기(581) 및 FC 계층을 생성하는 데에 사용되는 FC 계층 생성기(582)를 포함할 수 있다. 주의력 계층 생성기(581) 및 FC 계층 생성기(582)는 계층 생성기(58)에 통합된 것으로 도시되어 있지만, 다른 아키텍처를 사용할 수도 있다. 예를 들어, 주의력 계층 생성기(581)와 FC 계층 생성기(582)는 서로 독립될 수 있다.
주의력 계층 생성기(581)는 인코더(54) 및 디코더(56)와 결합되고, 각 비디오 시간 세그먼트와 검색 설명의 각 설명 항목 사이의 상관 관계를 기반으로 비디오의 각 비디오 시간 세그먼트의 시간 주의력 가중치(αt)를 획득하도록 구성된다. 주의력 계층 생성기(581)는 또한 시간 주의력 가중치(αt)에 따라 제 1 벡터의 가중 평균 벡터(ct)를 획득하도록 구성된다. 이하, 본 명세서에서 언급되는 파라미터를 상세하게 설명한다.
FC 계층 생성기(582)는 디코더(56) 및 주의력 계층 생성기(581)와 결합되고, 가중 평균 벡터(ct) 및 상태 정보(ht)에 따라 최종 주의력 벡터(at)를 획득하도록 구성된다. FC 계층 생성기(582)는 또한 최종 주의력 벡터를 디코더(56)로 출력하도록 구성된다.
프로세서(53)는 계층 생성기(58)와 결합되고, 계층 생성기에서의 주의력 계산에 따라 비디오의 비디오 시간 세그먼트를 확정하도록 구성된다. 프로세서(53)는 또한 디스플레이(55)와 결합될 수 있고, 시스템(50)의 검색 결과를 디스플레이(55)에 제공하여 표시할 수 있다.
하나의 실시예에 있어서, 프로세서(53)는 가산 회로(531) 및 검색 회로(532)를 포함한다. 가산 회로(531) 및 검색 회로(532)는 추론 단계에서 기용된다. 비디오의 각 비디오 시간 세그먼트에 대하여, 가산 회로(531)는 추론 단계에서 검색 설명의 모든 설명 항목과 관련된 모든 시간 주의력 가중치를 합산하는 데에 사용된다. 검색 회로(532)는 가산 회로(531)와 연결되고, 가산 회로(531)의 합산 결과에 따라 비디오 시간 세그먼트를 검색하거나 또는 추출하도록 구성된다. 하나의 실시예에 있어서, 검색 회로(532)는 총 시간 주의력 가중치가 임계값보다 큰 비디오 시간 세그먼트를 검색하도록 구성되고, 검색된 비디오 시간 세그먼트를 디스플레이에 제공하여 표시한다. 총 시간 주의력 가중치가 임계값보다 큰 비디오 시간 세그먼트가 없으면, 검색 회로(532)는 NULL 결과 또는 조건을 만족하는 비디오 시간 세그먼트가 검색되지 않았음을 나타내는 임의의 정보를 피드백할 것이다.
프로세서(53)는 또한 정렬 기능을 가질 수 있다. 정렬 기능은 총 시간 주의력 가중치를 기반으로 비디오 시간 세그먼트를 정렬하는 것을 가리킨다. 이해할 수 있듯이, 정렬 기능은 가산 회로(531)에 통합될 수 있거나, 검색 회로(532)에 통합될 수 있다. 선택적으로, 정렬 기능은 가산 회로(531) 및 검색 회로(532)에 독립적으로 결합된 구성 요소를 통해 달성될 수 있다. 본 개시는 이것을 특별히 제한하지 않는다.
도 6 및 도 7을 참조하면, 도 4의 훈련 단계 및 추론 단계의 동작 및 도 5에 도시된 시스템의 동작을 보다 잘 이해할 수 있다. 도 6 및 도 7에 각각 본문에서 제안된 자연어로 비디오 시간 세그먼트 검색(즉, 시간 행동 로컬라이제이션)을 수행하는 시퀀스-시퀀스 모델(sequence-to-sequence model)이 도시되어 있다.
훈련 단계
도시된 바와 같이, 주의력 모듈을 갖는 표준 인코더-디코더 LSTM 프레임 워크를 채택한다. 본문에서 제안된 기술 목적은 주의력 계층을 학습하는 것이다. 주의력 계층은 상이한 비디오 프레임과 검색 설명의 각 설명 항목 사이의 상관 관계에 따라 상이한 비디오 프레임에 가중치를 부여할 수 있다. 디코더를 주로 다음 단어 생성기로 사용하는 기존의 자막 넣기(captioning) 방법과 달리, 본문에서 제안된 기술에 있어서, 검색 설명(y1, ..., ym)과 비디오 프레임(x1, ..., xn)으로 구성된 비디오는 모두 학습된 인코더-디코더에 입력된다. 한편, 비디오에서의 대응하는 시간 세그먼트를 나타내도록, 검색 설명에 포함된 각 항목의 시간 주의력 가중치(αt)는 보류된다.
훈련 단계에서 비디오 세그먼트에 대한 정렬된 설명이 필요하지 않음에 유의하기 바란다. 쌍을 이루는 시간-설명 데이터 세트가 필요한 기존 기술과 비교하면, 시스템 메모리가 절약될 수 있으므로, 프로세서의 효율을 향상시킨다.
I. CNN 및 인코더
비디오 세그멘트를 설명하기 위해, 프레임 특징 추출기가 사용되며, 프레임 특징 추출기는 CNN 또는 3D CNN(예를 들어, C3D, 이는 대규모 비디오 데이터 세트로 훈련된 3D CNN을 사용하여 비디오 클립에 대한 공간-시간 특징을 학습하는 것을 목표로 한다)일 수 있다. 도 6 및 도 7에 도시된 바와 같이, 비디오는 CNN에 입력된다. 'He Kaiming, Zhang Xiangyu, Ren Shaoqing 및 Sun Jian'의 ‘Deep Residual Learning for Image Recognition’ CVPR 2016 기사에서 본문에 사용될 수 있는 CNN의 예를 제공하였다. ‘D. Tran, L. Bourdev, R. Fergus, L. Torresani 및 M. Paluri’의 ‘Learning Spatiotemporal Features with 3D Convolutional Networks’ ICCV 2015 기사에서 본문에 사용될 수 있는 3D CNN의 예를 제공하며, 그 전체 내용은 본원에 참조로 포함된다. 하나의 실시예에 있어서, 비디오는 16 프레임 클립으로 분할되고, 그 크기는 C3D 모델의 입력에 맞게 예를 들어, 224x224로 조정된다. 각 비디오 클립에 대하여, 프레임 특징 정보는 CNN 또는 3D CNN, 예를 들어, 신경망의 마지막 완전히 연결 계층(즉, softmax 출력 계층 이전의 마지막 FC 계층)으로부터 추출된다.
도 6은 시간에 따라 전개된 LSTM 스택을 도시한다. 도시된 바와 같이, 추출된 FC-계층 특징은 인코더에 입력된다. 시간 정보를 기록하기 위해, 인코더는 스택된 RNN(제 1 스택 RNN이라고 할 수 있으며, 예를 들어, LSTM이다)으로 구현될 수 있다. 여기서, 각 LSTM 유닛의 출력은 모두 그의 현재 상태 벡터 hs이다. 알 수 있듯이, 인코더의 각 LSTM 유닛의 출력은 모두 디코더 및 주의력 계층에 제공된다. LSTM이 인코딩될 때, 이 단계에 교차 엔트로피 손실(cross-entropy loss)이 없다.
II. 디코더 및 주의력 계층
비디오 내의 모든 비디오 프레임이 인코더에 의해 소진된 후에, 문장 첫머리 (<SOS>) 태그가 디코더, 예를 들어, 스택 RNN(제 2 스택 RNN이라고 할 수 있으며, 예를 들어, LSTM이다)에 제공되고, 디코더가 현재 숨겨진 표현을 단어 시퀀스로 디코딩하기 시작하도록 프롬프팅한다. 디코더는 인코더의 마지막 숨겨진 상태(hs)로 초기화되므로, 소스 정보를 액세스할 수 있다. 도 6에서 알 수 있듯이, 인코더의 현재 상태 벡터(hs)는 디코더에 공급된다. 구체적으로, 도 7에 도시된 바와 같이, 현재 상태 벡터(hs1, hs2, hs3 및 hs4)는 디코더에 공급된다. '단어 시퀀스'는 검색 설명에 포함된 설명 항목을 지칭하며, 예를 들어, 검색 설명에 포함된 'dribbling',‘a’ 및 'basketball'는 각각 설명 항목이다.
현재 숨겨진 표현은 도면에서 ht로 표시된다. 예를 들어, 사용자가 검색 설명 ‘dribbling a basketball’를 입력한 경우에,
timestep 00: 입력=‘<SOS>’, 디코더 숨김 표현=h0;
timestep 01: 입력=‘dribbling’, 디코더 숨김 표현=h1;
timestep 02: 입력=‘a’, 디코더 숨김 표현=h2;
timestep 02: 입력=‘basketball’, 디코더 숨김 표현=h3;
이것에 의해 유추할 수 있다
벡터 ht 및 hs는 타임 스텝을 기반으로 계산된다. 인코더 측에서, '하나의 타임 스텝'은 하나의 비디오 프레임/클립/세그먼트를 입력 또는 판독하는 것을 지칭한다. 디코더 측에서, '하나의 타임 스텝'은 하나의 단어 또는'dribbling',‘a’ 및 'basketball'와 같은 단어 시퀀스를 입력 또는 판독하는 것을 지칭한다.
이하, 주의력 계층 및 FC 계층에서의 주의력 계산을 상세하게 설명한다. 도 6에 도시된 바와 같이, 주의력 계산을 위해, hs로 표현된 인코더의 출력 및 ht로 표현된 디코더의 출력이 주의력 계층에 제공된다. 구체적으로, 도 7에 도시된 바와 같이, 인코더로부터 출력된 벡터 hs1, hs2, hs3, hs4 및 인코더로부터 출력된 벡터 ht1, ht2, ht3, ht4는 주의력 계층에 입력된다. 디코더와 관련하여, 그 출력 벡터는 또한 FC 계층에 제공된다. 도 6에 도시된 바와 같이, 출력 벡터 ht는 FC 계층에 제공된다.
디코더의 각 타임 스텝에서 모두 주의력 계산이 수행된다. 주의력 계산은 아래 단계를 포함한다. 우선, 도 6에 도시된 바와 같이, 주의력 계층에서 디코더로부터의 현재 목표 숨겨진 상태 ht와 인코더로부터의 모든 소스 상태 hs를 비교함으로써, 시간 주의력 가중치(Temporal Attention Weight) αt=[αt1, αt1, ..., αtS]를 획득하고, 여기서 W는 표준화되지 않은 시간 점수를 생성하기 위한 가중치 행렬이고, 다음에 나타나는 행렬 Wc와 구별되도록 Ws로 표현될 수 있다.
Figure pct00001
Figure pct00002
주의력 가중치에 기초하여, 컨텍스트 벡터 ct는 소스 상태의 가중치 평균으로서 획득될 수 있다.
Figure pct00003
FC 계층에서, 주의력 계층으로부터 획득된 컨텍스트 벡터 ct와 디코더로부터 획득된 현재 목표 숨겨진 상태 ht를 합병하여 최종 주의력 벡터 at를 획득하며, 여기서 Wc는 at를 생성하기 위한 가중치 행렬이다.
Figure pct00004
도 6에 도시된 바와 같이, 최종 주의력 벡터 at는 디코더의 입력으로서 디코더에 제공되며, 상기 입력에 따라 디코더는 후속 출력을 얻을 것이다. 최종 주의력 벡터의 수량은 검색 설명에 포함된 설명 항목의 수량과 일치하다. 여전히 ‘<SOS> dribbling a basketball’을 예로 사용하면, FC 계층에서 4개의 최종 주의력 벡터가 얻어지고, 상기 4개의 최종 주의력 벡터는 디코더에 입력된다.
디코딩 단계에서 훈련할 때, 비주얼 프레임 시퀀스(visual frame sequence)의 숨겨진 표현(ht), 최종 주의력 벡터(at) 및 그 전에 본 이전 단어(previous words it has seen)가 주어진 경우, 도 6 또는 도 7의 모델은 예측된 출력 시퀀스의 로그 우도를 최대화할 수 있다. 매개 변수 θ 및 출력 시퀀스 Y=(y1, ..., ym)를 갖는 모델에 대하여, 아래와 같은 공식으로 표시할 수 있다.
Figure pct00005
확률적 구배 하강을 사용하여 전체 훈련 데이터 세트에서 상기 로그 우도를 최적화한다. 손실은 LSTM이 디코딩을 배우는 경우에만 계산된다. 이 동작의 목적은 각 구성 요소(예를 들어, 주의력 계층)의 파라미터를 얻기 위해 도 6 또는 도 7의 전체 신경망의 방향을 훈련시키는 것이다.
추론 단계
비디오 프레임 시퀀스(x1, ..., Xn) 및 검색 설명(y1, ..., Ym)이 제공되고, 도 6 또는 도 7에 도시된 구조의 도움으로, 추론 단계에서, 비디오 내의 검색 설명에 대응하는 비디오 시간 세그먼트를 검출할 수 있다. 도 8의 검색 설명 예시 'dribbling a basketball'에 대하여, 본문에서 제안된 시스템은 각 설명 항목에 대한 각 비디오 세그먼트의 주의력 가중치를 점차적으로 수집한다. 예를 들어, 도 8의 제 2 행에 도시된 바와 같이, 검색어'dribbling'의 가장 가능한 시간 세그먼트는 비디오 시간 세그먼트 3 및 비디오 시간 세그먼트 4에 있을 수 있으며, 비디오 시간 세그먼트 3에서 주의력 가중치는 0.45이고, 비디오 시간 세그먼트 4에서 주의력 가중치는 0.4이다.
전체 검색 설명에 대한 시간 세그먼트를 찾기 위해, 각 시간 세그먼트 또는 시간 간격의 모든 시간 주의력 가중치가 합산되고(즉, ∑ αt), 미리 설정된 임계값을 사용하여 가장 가능한 시간 세그먼트를 식별한다. 예를 들어, 주의력 합이 임계값보다 큰 비디오 세그먼트는 검색에 대응하는 검출 이벤트로서 확정된다. 어떤 경우에는 주의력 합이 임계값보다 큰 비디오 세그먼트가 없으며, 이런 경우에 시스템은 이번 검색에 대하여 Null 또는 빈 결과를 리턴할 수 있다.
예를 들어,도 8에 도시된 바와 같이, 시간 세그먼트 1(가장 왼쪽에 있는 세그먼트)의 시간 주의력 가중치의 합은 다음과 같다:
Figure pct00006
유사하게, 시간 세그먼트 4(왼쪽으로부터 네번째의 세그먼트)의 시간 주의력 가중치의 합은 다음과 같다:
Figure pct00007
다른 세그먼트의 가중치의 합은 유사하게 얻을 수 있다. 구체적으로,
Figure pct00008
이다. 도 9에 도시된 바와 같이, 검색 항목 'dribbling a basketball'의 시간 간격은 어두운 영역으로 확정될 수 있다. 즉 비디오 세그먼트 x3~x5는 검색하려는(즉 획득하려는) 비디오 세그먼트로 확정될 것이다.
따라서, 비디오(세그먼트 x1~x7을 포함한다) 및 검색 설명이 제공될 경우, 본문에서 제안된 기술은 비디오에서 대응하는 시간 세그먼트를 찾는 데에 도움이 될 수 있다. 도 10(A)에 도시된 바와 같이, 본문에서 제안된 시스템은 'dribbling a basketball'의 시간 이벤트를 가장 잘 설명하는 비디오 클립 x3~x5를 리턴할 것이다.
다른 예시로서, 비디오 및 검색 객체 설명이 제공될 경우, 본문에서 제안된 기술은 비디오에서 지정된 객체의 대응하는 시간 세그먼트를 찾는 데에 도움이 될 수 있다. 도 10(B)에 도시된 바와 같이, 본문에서 제안된 시스템은 시간 세그먼트에서 'hoop'객체를 포함하는 비디오 클립 x6~x7를 리턴할 것이다.
중복성을 피하기 위해, 동일하거나 유사한 부분은 반복 설명하지 않음을 이해하여야 한다. 예를 들어, 충돌되지 않는 한, 벡터 ht, hs, αts, at 등과 같은 데이터 또는 정보의 계산은 본 개시의 각 실시예들에 적용될 수 있다.
본 발명 또는 본 발명의 임의의 부분 또는 그 기능은 하드웨어, 소프트웨어 또는 이들의 조합을 사용하여 실시될 수 있으며, 하나 이상의 컴퓨터 시스템 또는 다른 처리 시스템에서 실시될 수 있다. 본 발명의 실시예의 동작을 수행하고 또한 본 명세서에 기재된 기능을 수행할 수 있는 컴퓨터 시스템은 통신 인프라(예를 들어, 통신 버스, 교차 라인 또는 네트워크)에 연결된 하나 이상의 프로세서를 포함할 수 있다. 이러한 예시적인 컴퓨터 시스템과 관련하여, 다양한 소프트웨어 실시예들이 위에서 설명되었다. 본 명세서를 읽은 후, 당업자라면 다른 컴퓨터 시스템 및/또는 아키텍처를 사용하여 본 발명을 구현하는 방법을 알 수 있다.
컴퓨터 시스템은 통신 인프라(또는 프레임 버퍼)로부터의 그래픽, 텍스트 및 다른 데이터를 전달하여 디스플레이 유닛에 표시하는 디스플레이 인터페이스를 포함할 수 있다. 디스플레이 인터페이스는 브라우저와 통신할 수 있다. 컴퓨터 시스템은 또한 메인 메모리를 포함하고, 바람직하게는 랜덤 액세스 메모리를 포함하고, 또한 보조 메모리 및 데이터 베이스를 포함할 수 있다. 보조 메모리는, 예를 들어, 하드 디스크 드라이브 및/또는 착탈식 메모리 드라이브, 플로피 디스크 드라이브, 테이프 드라이브, 광 디스크 드라이브 등을 포함할 수 있다. 착탈식 메모리 드라이브는 잘 알려진 방식으로 착탈식 메모리 유닛을 판독하거나 착탈식 메모리 유닛에 기록할 수 있다. 착탈식 메모리 유닛은 착탈식 메모리 드라이브에 의해 판독 및 기록될 수 있는 플로피 디스크, 자기 테이프, 광 디스크 등을 나타낼 수 있다. 착탈식 메모리 유닛은 컴퓨터 소프트웨어 및/또는 데이터가 저장된 컴퓨터 사용 가능 저장 매체 또는 컴퓨터 판독 가능 매체를 포함할 수 있는 것으로 이해된다.
컴퓨터 시스템은 또한 소프트웨어 및 데이터가 컴퓨터 시스템과 외부 장치 사이에서 전송될 수 있게 하는 통신 인터페이스를 포함할 수 있다. 컴퓨터 프로그램 매체 및 컴퓨터 사용 가능한 매체는 일반적으로 착탈식 메모리 드라이브의 매체, 하드 디스크 드라이브에 설치된 하드 디스크 및 신호 등을 지칭한다. 이러한 컴퓨터 프로그램 제품은 컴퓨터 시스템에 소프트웨어를 제공한다.
컴퓨터 프로그램 또는 제어 로직은 메인 메모리 및/또는 보조 메모리에 저장된다. 컴퓨터 프로그램은 또한 통신 인터페이스를 통해 수신될 수 있다. 이러한 컴퓨터 프로그램 또는 제어 로직(소프트웨어)이 실행될 때, 컴퓨터 시스템 또는 그 프로세서는 본 명세서에 기술된 본 발명의 실시예의 특징 및 기능을 수행하게 된다.
상술한 설명은 예시 및 설명의 목적으로 제공되고, 상기 설명은 상세하고 빠짐없는 것은 아니며, 개시된 특정 실시예에만 한정되는 것은 아니다. 상기 설명의 교시하에 많은 수정 및 변경이 있을 수 있다. 본 개시의 범위는 명세서가 아니라 청구 범위에 의해 한정된다.

Claims (21)

  1. 비디오 시간 세그먼트를 검색하는 방법으로서,
    비디오의 프레임 특징 정보를 획득하기 위해 비디오를 분석하는 단계와;
    상기 비디오의 시간 정보와 관련된 제 1 데이터를 출력하기 위해 상기 프레임 특징 정보를 인코더에 입력하는 단계와;
    제 2 데이터를 출력하기 위해 상기 제 1 데이터와 상기 비디오의 비디오 시간 세그먼트를 검색하는 데에 사용되는 검색 설명을 디코더에 입력하는 단계와;
    상기 제 1 데이터 및 상기 제 2 데이터에 따라 주의력 계산 훈련을 수행하는 단계와;
    상기 주의력 계산 훈련에 따라 상기 검색 설명에 대응하는 상기 비디오의 비디오 시간 세그먼트를 확정하는 단계를 포함하는 것을 특징으로 하는 비디오 시간 세그먼트를 검색하는 방법.
  2. 제 1 항에 있어서,
    상기 제 1 데이터 및 상기 제 2 데이터에 따라 주의력 계산 훈련을 수행하는 단계는,
    상기 제 1 데이터 및 상기 제 2 데이터를 상기 인코더 및 상기 디코더와 결합된 주의력 계층에 입력하는 단계와;
    상기 주의력 계층에서, 각 비디오 시간 세그먼트과 상기 검색 설명에 포함된 각 설명 항목 사이의 상관 관계에 따라, 상기 비디오의 각 비디오 시간 세그먼트의 시간 주의력 가중치를 획득하는 단계와;
    상기 주의력 계층에서, 상기 제 1 정보 및 상기 시간 주의력 가중치를 기반으로 가중 평균 데이터를 획득하고, 상기 가중 평균 벡터 정보를 상기 주의력 계층 및 상기 디코더에 결합된 FC 계층에 출력하는 단계와;
    상기 FC 계층에서, 상기 가중 평균 데이터 및 상기 제 2 데이터를 기반으로 최종 주의력 데이터를 획득하고, 상기 최종 주의력 데이터를 디코더에 출력하는 단계를 포함하는 것을 특징으로 하는 방법.
  3. 제 2 항에 있어서,
    상기 시간 주의력 가중치는 아래 방식으로 획득되며,
    Figure pct00009

    Figure pct00010

    여기서, hs는 제 1 데이터를 나타내고, ht는 제 2 데이터를 나타내고, W는 정규화되지 않은 시간 점수를 생성하기 위한 가중치 행렬을 나타내고, αts는 시간 주의력 가중를 나타내고, ct, hs, ht는 타임 스텝을 기반으로 계산되는 것을 특징으로 하는 방법.
  4. 제 3 항에 있어서,
    상기 가중 평균 데이터는 아래 방식으로 획득되며,
    Figure pct00011

    여기서, ct는 가중 평균 데이터를 나타내는 것을 특징으로 하는 방법.
  5. 제 4 항에 있어서,
    상기 최종 주의력 데이터는 아래 방식으로 획득되며,
    Figure pct00012

    여기서, at는 최종 주의력 데이터를 나타내고, Wc는 at를 생성하기 위한 가중치 행렬을 나타내는 것을 특징으로 하는 방법.
  6. 제 3 항에 있어서,
    상기 주의력 계산 훈련에 따라 상기 비디오의 비디오 시간 세그먼트를 확정하는 단계는,
    상기 비디오의 각 비디오 시간 세그먼트에 대하여, 상기 검색 설명에 포함된 모든 설명 항목과 관련된 모든 시간 주의력 가중치를 합산하는 단계와;
    총 시간 주의력 가중치가 임계값보다 큰 비디오 시간 세그먼트를 검색된 비디오 시간 세그먼트로서 확정되는 단계를 포함하는 것을 특징으로 하는 방법.
  7. 제 2 항에 있어서,
    상기 제 1 데이터는 상기 인코더의 현재 상태 벡터 표현을 나타내고, 상기 제 2 데이터는 상기 디코더의 현재 목표 숨겨진 상태 벡터 표현을 나타내는 것을 특징으로 하는 방법.
  8. 제 1 항에 있어서,
    상기 비디오의 프레임 특징 정보를 획득하기 위해 상기 비디오를 분석하는 단계는,
    상기 비디오를 비디오 시간 세그먼트로 분할하는 단계와;
    상기 비디오 시간 세그먼트를 다중 계층을 포함하는 컨볼 루션 뉴럴 네트워크(CNN)로 입력하는 단계와;
    상기 비디오의 프레임 특징 정보로서 상기 CNN으로부터 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 제 1 항에 있어서,
    상기 검색 설명은 텍스트 입력 또는 텍스트로 변환 가능한 음성 입력인 것을 특징으로 하는 방법.
  10. 제 1 항에 있어서,
    상기 인코더는 스택된 반복 신경망(RNN)으로 구현되고, 상기 디코더는 다른 스택된 RNN으로 구현되는 것을 특징으로 하는 방법.
  11. 비디오 시간 세그먼트를 검색하는 시스템으로서,
    입력된 비디오의 프레임 특징 정보를 추출하도록 구성된 추출기와;
    상기 추출기와 결합되고, 상기 프레임 특징 정보에 따라 상기 비디오의 시간 정보를 획득하도록 구성된 인코더와;
    상기 인코더와 결합되고, 상기 인코더로부터 시간 정보를 수신하고, 외부로부터 검색 설명을 수신하고, 상기 시간 정보 및 상기 검색 설명에 따라 상기 디코더의 상태 정보를 획득하도록 구성된 디코더와;
    상기 인코더 및 상기 디코더와 결합되고, 상기 인코더로부터 상기 시간 정보를 수신하고, 상기 디코더로부터 상기 상태 정보를 수신하며, 상기 시간 정보 및 상기 상태 정보에 따라 주의력 계산을 수행하도록 구성된 계층 생성기와;
    상기 계층 생성기와 결합되고, 상기 계층 생성기에서 수행된 주의력 계산에 따라 상기 검색 설명에 대응하는 상기 비디오의 비디오 시간 세그먼트를 확정하도록 구성된 프로세서를 포함하는 것을 특징으로 하는 비디오 시간 세그먼트를 검색하는 시스템.
  12. 제 11 항에 있어서,
    상기 계층 생성기는,
    상기 인코더 및 상기 디코더와 결합되고, 상기 비디오의 각 비디오 시간 세그먼트와 상기 검색 설명의 각 설명 항목 사이의 관련성에 따라 각 비디오 시간 세그먼트의 시간 주의력 가중치를 획득하고, 상기 시간 주의력 가중치에 따라 상기 시간 정보의 가중 평균 정보를 획득하는 데에 사용되는 주의력 계층 생성기와,
    상기 디코더 및 상기 주의력 계층 생성기와 결합되고, 상기 가중 평균 정보 및 상기 상태 정보에 따라 최종 주의력 정보를 획득하고, 상기 최종 주의력 정보를 상기 디코더에 출력하는 데에 사용되는 FC 계층 생성기를 포함하는 것을 특징으로 하는 시스템.
  13. 제 12 항에 있어서,
    상기 시간 주의력 가중치는 아래 방식으로 획득되며,
    Figure pct00013

    Figure pct00014

    여기서, hs는 시간 정보를 나타내고, ht는 디코더의 상태 정보를 나타내고, W는 정규화되지 않은 시간 점수를 생성하기 위한 가중치 행렬을 나타내고, αts는 시간 주의력 가중치를 나타내고, ct, hs, ht는 타임 스텝을 기반으로 계산되는 것을 특징으로 하는 시스템.
  14. 제 13 항에 있어서,
    상기 가중 평균 데이터는 아래 방식으로 획득되며,
    Figure pct00015

    여기서, ct는 가중 평균 데이터를 나타내는 것을 특징으로 하는 시스템.
  15. 제 14 항에 있어서,
    상기 최종 주의력 데이터는 아래 방식으로 획득되며,
    Figure pct00016

    여기서, at는 최종 주의력 데이터를 나타내고, Wc는 at를 생성하기 위한 가중치 행렬을 나타내는 것을 특징으로 하는 시스템.
  16. 제 11 항에 있어서,
    상기 프로세서는,
    상기 비디오의 각 비디오 시간 세그먼트에 대하여, 상기 검색 설명에 포함된 모든 설명 항목과 관련된 모든 시간 주의력 가중치를 합산하는 데에 사용되는 가산 회로와,
    총 시간 주의력 가중치가 임계값보다 큰 비디오 시간 세그먼트를 검색하여 검색된 상기 비디오 시간 세그먼트로 하고, 검색된 상기 비디오 시간 세그먼트를 디스플레이에 제공하여 표시하는 데에 사용되는 검색 회로를 포함하는 것을 특징으로 하는 시스템.
  17. 컴퓨터 시스템으로서,
    데이터를 저장하고, 또한 상기 데이터에 대한 액세스를 제공하는 적어도 하나의 비 일시적 컴퓨터 메모리와;
    데이터를 액세스하기 위해 상기 비 일시적 컴퓨터 메모리에 결합된 적어도 하나의 프로세서와;
    상기 적어도 하나의 비 일시적 컴퓨터 메모리에 저장 가능하고, 상기 적어도 하나의 프로세서에 의해 실행 가능한 컨볼 루션 뉴럴 네트워크(CNN)- 상기 CNN은 비디오의 프레임 특징 정보를 추출하도록 구성됨 -와;
    상기 적어도 하나의 비 일시적 컴퓨터 메모리에 저장 가능하고, 상기 적어도 하나의 프로세서에 의해 실행 가능한 비디오-설명 기반의 모델러를 포함하고,
    상기 모델러는,
    상기 CNN에 결합되고, 상기 비디오의 프레임 특징 정보에 따라 상기 비디오의 시간 정보를 획득하는 제 1 스택 반복 신경망(RNN)과;
    상기 제 1 스택 RNN과 결합되고, 상기 시간 정보 및 상기 검색 설명에 따라 숨겨진 표현을 기반으로 하는 출력을 생성하는 제 2 스택 RNN과;
    상기 제 1 스택 RNN 및 상기 제 2 스택 RNN과 결합되고, 상기 시간 정보 및 상기 숨겨진 표현을 기반으로 하는 출력에 따라 상기 비디오의 각 비디오 시간 세그먼트의 시간 주의력 가중치를 획득하는 주의력 계층 계층별 시간 메모리(HTM)를 포함하는 것을 특징으로 하는 컴퓨터 시스템.
  18. 제 17 항에 있어서,
    상기 주의력 계층 HTM은 다음과 같이 시간 주의력 가중치를 획득하며,
    Figure pct00017
    Figure pct00018

    여기서, hs는 제 1 스택 RNN으로부터 출력된 시간 정보를 나타내고, ht는 제 2 스택 RNN으로부터 출력된 숨겨진 표현을 나타내고; W는 정규화되지 않은 시간 점수를 생성하기 위한 가중치 행렬을 나타내는 것을 특징으로 하는 시스템.
  19. 제 18 항에 있어서,
    상기 모델러는 상기 주의력 계층 HTM 및 상기 제 2 스택 RNN과 결합되고, 상기 제 2 스택 RNN의 입력을 제공하는 FC 계층 HTM를 더 포함하는 것을 특징으로 하는 시스템.
  20. 제 19 항에 있어서,
    상기 주의력 계층 HTM은 또한 다음과 같이 컨텍스트 벡터 ct를 획득하고, 상기 컨텍스트 벡터를 상기 FC 계층 HTM에 출력하는 것을 특징으로 하는 시스템.
    Figure pct00019
  21. 제 20 항에 있어서,
    상기 FC 계층 HTM은 다음과 같이 최종 주의력 벡터 at를 획득하고, 상기 최종 주의력 벡터를 상기 제 2 스택 RNN에 입력하며,
    Figure pct00020

    여기서, Wc는 at를 생성하기 위한 가중치 행렬을 나타내는 것을 특징으로 하는 시스템.
KR1020207027945A 2018-03-22 2019-03-21 비디오 시간 세그먼트를 검색하는 방법과 시스템 KR102480323B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862646834P 2018-03-22 2018-03-22
US62/646,834 2018-03-22
PCT/CN2019/079054 WO2019179496A1 (en) 2018-03-22 2019-03-21 Method and system for retrieving video temporal segments

Publications (2)

Publication Number Publication Date
KR20200125682A true KR20200125682A (ko) 2020-11-04
KR102480323B1 KR102480323B1 (ko) 2022-12-23

Family

ID=67986756

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207027945A KR102480323B1 (ko) 2018-03-22 2019-03-21 비디오 시간 세그먼트를 검색하는 방법과 시스템

Country Status (7)

Country Link
US (1) US11663268B2 (ko)
EP (1) EP3766002A4 (ko)
JP (1) JP7091468B2 (ko)
KR (1) KR102480323B1 (ko)
CN (1) CN111433784B (ko)
AU (1) AU2019239454B2 (ko)
WO (1) WO2019179496A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776581B2 (en) * 2018-02-09 2020-09-15 Salesforce.Com, Inc. Multitask learning as question answering
US11093560B2 (en) * 2018-09-21 2021-08-17 Microsoft Technology Licensing, Llc Stacked cross-modal matching
CN111046966B (zh) * 2019-12-18 2022-04-05 江南大学 基于度量注意力机制的图像字幕生成方法
WO2021197298A1 (en) * 2020-04-01 2021-10-07 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method for action recognition in video and electronic device
KR102591314B1 (ko) * 2021-02-15 2023-10-20 한국전자통신연구원 비디오 의미 구간 검출 장치 및 이를 이용한 방법
CN115086709A (zh) * 2021-03-10 2022-09-20 上海哔哩哔哩科技有限公司 动态封面设置方法和系统
CN112906640B (zh) * 2021-03-19 2022-10-14 电子科技大学 基于深度学习的空时态势预测方法、设备及可读存储介质
US11893792B2 (en) * 2021-03-25 2024-02-06 Adobe Inc. Integrating video content into online product listings to demonstrate product features
CN113971208B (zh) * 2021-12-22 2022-05-06 山东建筑大学 基于混合注意力机制的视频对象定位方法及系统
CN114579803B (zh) * 2022-03-09 2024-04-12 北方工业大学 基于动态卷积和捷径的视频检索方法、设备和存储介质
CN114627556B (zh) * 2022-03-15 2023-04-07 北京百度网讯科技有限公司 动作检测方法、动作检测装置、电子设备以及存储介质
CN117093749A (zh) * 2023-10-19 2023-11-21 中国科学技术大学 生成式的视频片段检索方法、系统、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5895464A (en) * 1997-04-30 1999-04-20 Eastman Kodak Company Computer program product and a method for using natural language for the description, search and retrieval of multi-media objects
US9177209B2 (en) * 2007-12-17 2015-11-03 Sinoeast Concept Limited Temporal segment based extraction and robust matching of video fingerprints
JP2013235491A (ja) * 2012-05-10 2013-11-21 Nippon Telegr & Teleph Corp <Ntt> 映像キーワード割り当て装置、映像キーワード割り当て方法及び映像キーワード割り当てプログラム
JP6344849B2 (ja) * 2014-06-26 2018-06-20 日本放送協会 映像識別器学習装置、及びプログラム
US9521357B2 (en) * 2014-10-08 2016-12-13 Joseph Robert Marchese System and method for streaming and recording video
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
GB2558582A (en) 2017-01-06 2018-07-18 Nokia Technologies Oy Method and apparatus for automatic video summarisation
CN107515895B (zh) * 2017-07-14 2020-06-05 中国科学院计算技术研究所 一种基于目标检测的视觉目标检索方法与系统
US10650245B2 (en) * 2018-06-08 2020-05-12 Adobe Inc. Generating digital video summaries utilizing aesthetics, relevancy, and generative neural networks

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jingkuan Song외 5명, Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning, Cornell University Library (2017.06.05.)* *
Ryan Kiros외 2명, Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models, NIPS 2014 (2014.11.10.)* *

Also Published As

Publication number Publication date
AU2019239454B2 (en) 2021-12-16
CN111433784B (zh) 2022-10-21
EP3766002A4 (en) 2021-05-26
KR102480323B1 (ko) 2022-12-23
AU2019239454A1 (en) 2020-10-15
CN111433784A (zh) 2020-07-17
US11663268B2 (en) 2023-05-30
JP2021516407A (ja) 2021-07-01
JP7091468B2 (ja) 2022-06-27
WO2019179496A1 (en) 2019-09-26
EP3766002A1 (en) 2021-01-20
US20210004605A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
KR102480323B1 (ko) 비디오 시간 세그먼트를 검색하는 방법과 시스템
US20220067438A1 (en) Image captioning with weakly-supervised attention penalty
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
CN109508642B (zh) 基于双向gru和注意力机制的船舶监控视频关键帧提取方法
US11556302B2 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
US10796098B2 (en) Instruction understanding system and instruction understanding method
US20220245347A1 (en) Entity recognition method, apparatus, electronic device and computer readable storage medium
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN112329438A (zh) 基于域对抗训练的自动谎言检测方法及系统
CN116955699A (zh) 一种视频跨模态搜索模型训练方法、搜索方法及装置
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
Attia et al. Efficient deep learning models based on tension techniques for sign language recognition
CN116522212B (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质
CN113326868A (zh) 一种用于多模态情感分类的决策层融合方法
CN113297387A (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
Li A deep learning-based text detection and recognition approach for natural scenes
CN116452688A (zh) 一种基于共同注意力机制的图像描述生成方法
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
KR20230020116A (ko) 상표 관련 서비스를 제공하는 컴퓨팅 장치 및 그 방법
CN114898339B (zh) 驾驶行为预测模型的训练方法、装置、设备、存储介质
US20240155197A1 (en) Device and method for question answering
US20220207366A1 (en) Action-Actor Detection with Graph Neural Networks from Spatiotemporal Tracking Data
CN113821681A (zh) 视频标签生成方法、装置及设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant