KR20190133040A - 비디오 분류 방법, 정보 처리 방법 및 서버 - Google Patents

비디오 분류 방법, 정보 처리 방법 및 서버 Download PDF

Info

Publication number
KR20190133040A
KR20190133040A KR1020197032023A KR20197032023A KR20190133040A KR 20190133040 A KR20190133040 A KR 20190133040A KR 1020197032023 A KR1020197032023 A KR 1020197032023A KR 20197032023 A KR20197032023 A KR 20197032023A KR 20190133040 A KR20190133040 A KR 20190133040A
Authority
KR
South Korea
Prior art keywords
video frame
video
feature sequence
feature
neural network
Prior art date
Application number
KR1020197032023A
Other languages
English (en)
Other versions
KR102392943B1 (ko
Inventor
용위 탕
린 마
웨이 류
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20190133040A publication Critical patent/KR20190133040A/ko
Application granted granted Critical
Publication of KR102392943B1 publication Critical patent/KR102392943B1/ko

Links

Images

Classifications

    • G06K9/00718
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06K9/00744
    • G06K9/00758
    • G06K9/62
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Library & Information Science (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

처리 대상 비디오를 획득하는 단계; 상기 처리 대상 비디오를 시간 특징 샘플링 규칙에 따라 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는 단계 - 상기 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계임 -; 상기 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델을 이용하여 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하는 단계 - 상기 제1 신경망 모델은 순환 신경망 모델임 -; 및 제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 특징 표현 결과를 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 단계 - 상기 예측 결과는 상기 처리 대상 비디오의 카테고리를 결정하는 데 사용됨 -를 포함하는 정보 처리 방법이 개시된다. 본 출원에서, 비디오를 분류하는 처리 동안, 시간 차원에서 비디오의 특징 변경이 또한 고려되고, 이로써 비디오의 컨텐츠를 더 잘 표현하고, 비디오 분류의 정확도를 향상시킬 수 있으며, 비디오 분류 효과를 향상시킬 수 있다.

Description

비디오 분류 방법, 정보 처리 방법 및 서버
본 출원은 중국 특허청에 2017년 9월 15일에 출원된 중국특허출원 제2017108336688호(명칭: 비디오 분류 방법, 정보 처리 방법, 및 서버)의 우선권을 주장하며 이것은 전체가 참조로서 본 명세서에 통합된다.
본 개시는 컴퓨터 기술 분야에 관한 것으로서, 특히 비디오 분류 기술에 관한 것이다.
네트워크 멀티미디어 기술의 빠른 발전과 함께, 여러 형태의 멀티미디어 정보가 계속적으로 출현하고 있다. 더 많은 사용자들이 네트워크로 비디오를 시청하는 것에 익숙해 지고 있다. 수 많은 비디오 중에 사용자가 시청하고 싶은 컨텐츠를 사용자가 선택할 수 있도록 하기 위해, 통상 서버는 비디오를 분류한다. 그러므로, 비디오 분류는 관심에 따라 비디오 관리 및 추천을 하기 위해 매우 중요하다.
현재 사용되는 비디오 분류 방법은: 먼저 마크할 비디오에서 각 비디오 프레임에 대해 특징 추출을 수행하고, 그런 다음 평균 특징 방법(average feature method)을 이용하여 프레임 레벨 특징(frame level feature)을 비디오 레벨 특징(video level feature)으로 변환하며, 마지막으로 비디오 레벨의 특징을 분류를 위해 분류 네트워크에 입력하는 것을 포함한다.
그러나 현재의 비디오 분류 방법에서, 평균 특징 방법만을 이용하여 프레임 레벨의 특징을 변환하는 것은 상대적으로 단조롭다. 비디오 분류 과정에서, 비디오 프레임 특징 변환에 대한 다른 차원(dimensions)에서의 변화의 효과가 무시되는데, 이것은 비디오 분류의 정확도에 역효과를 가져온다.
비디오 분류 방법, 정보 처리 방법 및 서버가 본 개시의 실시예에 따라 제공된다. 비디오를 분류하는 프로세스에서, 시간 차원에서 비디오의 특징 변화가 추가로 고려되고, 이로써 비디오 컨텐츠가 더 잘 나타내어지고, 비디오 분류의 정확도가 향상되며, 비디오 분류의 효과가 향상된다.
이상의 관점에서, 본 개시의 제1 측면에서, 비디오 분류 방법이 제공된다. 이 방법은 컴퓨터 기기에 의해 실행되며,
처리 대상 비디오를 획득하는 단계 - 상기 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각각의 비디오 프레임은 하나의 시간 특징에 대응함 -;
상기 처리 대상 비디오를 시간 특징 샘플링 규칙에 따라 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는 단계 - 상기 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계임 -;
상기 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델(neural network model)을 이용하여 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하는 단계 - 상기 제1 신경망 모델은 순환 신경망(recurrent neural network) 모델임 -;
제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 특징 표현 결과를 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 단계; 및
상기 예측 결과에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 처리 대상 비디오의 카테고리를 결정하는 단계
를 포함한다.
본 개시의 제2 측면에서는, 정보 처리 방법이 제공되고, 이 방법은 컴퓨터 기기에 의해 실행되며,
처리 대상 비디오를 획득하는 단계 - 상기 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각각의 비디오 프레임은 하나의 시간 특징에 대응함 -;
상기 처리 대상 비디오를 시간 특징 샘플링 규칙에 따라 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는 단계 - 상기 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계임 -;
상기 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델(neural network model)을 이용하여 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하는 단계 - 상기 제1 신경망 모델은 순환 신경망(recurrent neural network) 모델임 -; 및
제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 특징 표현 결과를 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 단계 - 상기 예측 결과는 상기 처리 대상 비디오의 카테고리를 결정하는 데 사용됨 -;
를 포함한다.
본 개시의 제3 측면에서, 서버가 제공된다. 이 서버는,
처리 대상 비디오를 획득하도록 구성된 제1 획득 모듈 - 상기 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각 비디오 프레임은 하나의 시간 특징에 대응함 -;
상기 제1 획득 모듈에 의해 획득된 상기 처리 대상 비디오를 시간 특징 샘플링 규칙에 따라 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하도록 구성된 제2 획득 모듈 - 상기 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계임 -;
상기 제2 획득 모듈에 의해 획득된 상기 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델(neural network model)을 이용하여 처리하여, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하도록 구성된 제1 입력 모듈 - 상기 제1 신경망 모델은 순환 신경망(recurrent neural network) 모델임 -; 및
제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하고 또한 상기 제1 입력 모듈에 입력된 후에 획득된 상기 특징 표현 결과를 처리하여, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하도록 구성된 제2 입력 모듈 - 상기 예측 결과는 상기 처리 대상 비디오의 카테고리를 결정하기 위해 사용됨 -
을 포함한다.
본 개시의 제4 측면에서, 서버가 제공되낟. 이 서버는, 메모리, 프로세서 및 버스 시스템을 포함한다.
상기 메모리는 프로그램을 저장하도록 구성된다.
상기 프로세서는, 상기 메모리 내의 프로그램을 실행하여 다음의 단계:
처리 대상 비디오를 획득하는 단계 - 상기 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각각의 비디오 프레임은 하나의 시간 특징에 대응함 -;
상기 처리 대상 비디오를 시간 특징 샘플링 규칙에 따라 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는 단계 - 상기 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계임 -;
상기 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델(neural network model)을 이용하여 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하는 단계 - 상기 제1 신경망 모델은 순환 신경망(recurrent neural network) 모델임 -; 및
제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 특징 표현 결과를 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 단계 - 상기 예측 결과는 상기 처리 대상 비디오의 카테고리를 결정하는 데 사용됨 -;
를 수행하도록 구성된다.
상기 버스 시스템은 상기 메모리 및 상기 프로세서를 연결하여, 상기 메모리 및 상기 프로세서가 서로 통신할 수 있게 하도록 구성된다.
본 개시의 제5 측면에서, 프로그램 코드를 저장한 컴퓨터 판독 가능한 저장 매체가 제공된다. 이 프로그램 코드는 상술한 측면의 방법을 실행하도록 구성된다.
본 개시의 제6 측면에서, 명령을 포함하는 컴퓨터 프로그램 제품이 제공된다. 컴퓨터 상에서 실행되는 때, 그 명령은 컴퓨터로 하여금 상술한 측면의 방법을 수행하게 한다.
상술한 기술적 해결 수단으로부터, 본 개시의 실시예들이 다음과 같은 장점을 가지고 있다는 것을 이해할 수 있다.
본 개시의 실시예에 따라, 정보 처리 방법이 제공된다. 먼저, 컴퓨터 기기는 처리 대상 비디오를 획득하는데, 처리 대상 비디오는 다수의 비디오 프레임을 포함하고, 각 비디오 프레임은 하나의 시간 특징에 대응하며, 그런 다음에 시간 특징 샘플링 규칙에 다라 처리 대상 비디오를 샘플링하여 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하며, 여기서 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계이다. 컴퓨터 기기는 제1 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스를 처리하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하는데, 제1 신경망 모델은 순환 신경망 모델이다. 마지막으로, 컴퓨터 기기는 제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 처리하여, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는데, 이 예측 결과는 처리 대상 비디오의 카테고리를 결정하는 데 사용된다. 이상의 방법에 따르면, 비디오를 분류하는 처리에서, 시간 차원에서 비디오의 특징 변화가 고려되고, 이로써 비디오 컨텐츠가 더 잘 표현될 수 있고, 비디오 분류의 정확도가 향상되며, 비디오 분류의 효과가 향상된다.
도 1은 본 개시의 실시예에 따른 정보 처리를 위한 아키텍처를 보여주는 개략도이다.
도 2는 본 개시의 실시예에 따른 정보 처리 방법의 실시예에 관한 개략도이다.
도 3은 본 개시의 일실시예에 따른 처리 대상 비디오의 개략도이다.
도 4는 본 개시의 일실시예에 따른 인셉션 구조(inception structure)를 가진 컨볼루션 신경망(convolutional neural network)의 대략도이다.
도 5는 본 개시의 일실시예에 따른 제1 신경망 모델의 개략 구조도이다.
도 6은 본 개시의 일실시예에 따른 제2 신경망 모델의 개략 구조도이다.
도 7은 본 개시의 일실시예에 따른 서버의 실시예의 개략도이다.
도 8은 본 개시의 일실시예에 따른 서버의 다른 실시예의 개략도이다.
도 9는 본 개시의 일실시예에 따른 서버의 또 다른 실시예의 개략도이다.
도 10은 본 개시의 일실시예에 따른 서버의 또 다른 실시예의 개략도이다.
도 11은 본 개시의 일실시예에 따른 서버의 또 다른 실시예의 개략도이다.
도 12는 본 개시의 일실시예에 따른 서버의 또 다른 실시예의 개략도이다.
도 13은 본 개시의 일실시예에 따른 서버의 또 다른 실시예의 개략도이다.
도 14는 본 개시의 일실시예에 따른 서버의 또 다른 실시예의 개략도이다.
도 15는 본 개시의 일실시예에 따른 서버의 또 다른 실시예의 개략도이다.
비디오 분류 방법, 정보 처리 방법, 및 서버가 본 개시의 실시예에 따라 제공된다. 비디오를 분류하는 처리에서, 시간 차원에서 비디오의 특징 변화가 고려되고, 이로써 비디오 컨텐츠가 더 잘 표현되며, 비디오 분류의 정확도가 향상되고, 비디오 분류의 효과가 향상된다.
본 개시의 명세서, 청구범위, 및 첨부 도면에서, "제1", "제2", "제3", "제4" 등(만약 있다면)은 유사한 대상을 구별하기 위한 것이며, 반드시 특정 순서를 나타내는 것은 아니다. 적절한 경우에 여기에서 사용된 데이터는 교환 가능하기 때문에, 여기 설명된 본 개시의 실시예들은, 예컨대, 여기에 개시된 것을 제외하고 다른 순서로 실현될 수도 있다. 또한, "포함하다" 및 이의 변형된 용어는 비배타적 포함을 커버하는 것을 의미한다. 예컨대, 일련의 단계 또는 유닛을 포함하는 프로세스, 방법, 시스템, 제품 또는 기기는 명시적으로 열거된 단계 또는 유닛에 반드시 한정되는 것은 아니며, 열거되지 않거나 또는 그러한 프로세스, 방법, 제품 또는 기기에 내재적인 다른 단계 또는 유닛을 포함할 수 있다.
본 해결 수단은 비디오 컨텐츠 분류 서비스에 이용될 수 있다. 백엔드(backend) 컴퓨터 기기는 비디오에 대해 특징 추출, 시간 시퀀스 모델링, 및 특징 압축을 수행하고, 혼합 전문가 모델(mixed expert model)을 이용하여 비디오 특징을 분류하여, 컴퓨터 기기에 의해 비디오에 대한 자동 분류 및 라벨링을 구션되도록 한다. 그러한 해결 수단은 비디오 웹사이트에 전개되어 비디오 유형 웹사이트의 비디오에 대해 키워드를 부가할 수 있고, 이로써 빠른 탐색 및 컨텐츠 매칭을 용이하게 하고 또한 개인 성향에 부합하는 비디오 추천이 가능하게 된다.
설명의 편의를 위해, 도 1을 참조한다. 도 1은 본 개시의 실시예에 따른 정보 처리를 위한 아키텍처를 보여주는 개략도이다. 도 1에 도시된 바와 같이, 먼저, 컴퓨터 기기가 처리 대상 비디오를 획득한다. 도 1에서 알 수 있듯이, 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각 비디오 프레임은 하나의 시간 특징에 대응한다. 상이한 시간 특징들이 t로 표현되어질 수 있다. 다음으로, 컴퓨터 기기가 처리 대상 비디오 내의 각 비디오 프레임을 컨볼루션 신경망을 이용하여 처리하여, 각 비디오 프레임에 대응하는 시간 특징을 획득한다. 그런 다음, 컴퓨터 기기는 각 비디오 프레임에 대응하는 시간 특징에 기초하여 처리 대상 비디오의 시간 특징 시퀀스를 결정한다. 시간 특징 시퀀스는 프레임 레벨에서의 딥러닝 표현(deep learning representation)이다.
다음으로, 도 1을 참조하면, 컴퓨터 기기가 시간 특징 샘플링 규칙에 따라 처리 대상 비디오를 샘플링한다. 시간 특징 샘플링 규칙은 시간 차원에서 상이한 프레임 레이트로 비디오 특징을 샘플링하여 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는 것을 말한다. 비디오 프레임 특징 시퀀스는 상이한 시간 스케일에 대응한다. 컴퓨터 기기는 상이한 시간 스케일에 대응하는 비디오 프레임 특징 시퀀스를 양방향 순환 신경망에 입력하여, 적어도 하나의 비디오 특징 시퀀스에 대응하는 특징 표현 결과를 획득한다. 특징 표현 결과는 시간 스케일에서의 비디오 프레임 특징 표현이다. 마지막으로, 컴퓨터 기기는 모든 특징 표현 결과를 제2 신경망, 즉, 혼합 전문가 모델(mixed expert model)에 입력하고, 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득한다. 처리 대상 비디오를 분류하기 위해, 처리 대상 비디오의 카테고리는 예측 결과에 기초하여 결정될 수 있다.
일반적인 비디오 데이터에서, 사용자는 통상 비디오 정보를 기술하고 코멘트하여 개인화된 라벨 데이터를 제공함으로써, 온라인 비디오에 관련된 풍부한 텍스트 정보를 형성한다. 텍스트 정보는 또한 비디오 분류를 위한 기초로서 사용될 수도 있다.
이하에서는 본 개시에서 실행자로서 서버를 이용하는 정보 처리 방법을 설명한다. 본 개시에서의 정보 처리 방법은 서버에 적용될 수 있을 뿐 아니라 다른 컴퓨터 기기에도 적용될 수 있음을 이해하여야 한다. 도 2를 참조하면, 본 개시의 실시예에 따른 정보 처리 방법의 실시예는 다음 단계 101 내지 104를 포함한다.
단계 101에서, 처리 대상 비디오가 획득된다. 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각각의 비디오 프레임은 시간 특징에 대응한다.
본 실시예에서, 서버는 먼저 처리 대상 비디오를 획득하다. 구체적으로, 도 3을 참조하면, 도 3은 본 개시의 실시예에 따른 처리 대상 비디오의 개략도이다. 처리 대상 비디오는 복수의 비디오 프레임을 포함한다. 예컨대, 도 3에서 각 픽처는 비디오 프레임을 포함하고, 각 비디오 프레임은 시간 특징에 대응한다.
처리 대상 비디오는 재생 시구간에 대응한다. 그러므로, 각 비디오 프레임은 상이한 재생 시간 인스턴트에 대응한다. 처리 대상 비디오 내의 제1 비디오 프레임의 시간 특징이 "1"이고, 제2 비디오 프레임의 시간 특징이 "2"라고 가정하면, 유사하게 T번째 비디오 프레임의 시간 특징은 "T"이다.
단계 102에서, 처리 대상 비디오는 시간 특징 샘플링 규칙에 따라 샘플링된다. 적어도 하나의 비디오 프레임 특징 시퀀스가 획득된다. 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계이다.
본 실시예에서, 다음으로, 서버가 시간 특징 샘플링 규칙에 따라 처리 대상 비디오를 샘플링한다. 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 미리 설정된 관계를 포함한다. 실제 적용에서, 하나의 비디오 프레임 특징 시퀀스가 획득되거나, 상이한 시간 스케일의 적어도 2개의 비디오 프레임 특징 시퀀스가 획득도리 수 있다. 상이한 시간 스케일에 대응하는 비디오 프레임 특징 시퀀스에 대해, 비디오 프레임 특징 시퀀스 내에 포함된 각 비디오 프레임 특징에 대응하는 시간 특징의 수는 상이하고, 이에 대응하여, 상이한 시간 스케일에 대응하는 비디오 프레임 특징 시퀀스는 상이한 길이를 가진다. 예컨대, 하나의 처리대상 비디오가 1000개의 비디오 프레임을 가지고, 1000개의 비디오 프레임이 각각 1-1000 시간 특징에 대응한다. 만일 시간 특징 샘플링 규칙이, 각 시간 특징이 하나의 비디오 프레임 특징에 대응한다는 것이면, 처리 대상 비디오의 1000개 시간 특징이 1000개 비디오 프레임 특징에 대응한다. 이에 대응하여, 1000개 비디오 프레임에 의해 형성된 비디오 프레임 특징 시퀀스의 길이는 1000이다. 시간 특징 샘플링 규칙이 매 100개의 시간 특징마다 하나의 비디오 프레임 특징에 대응한다는 것이면, 처리 대상 비디오의 1000개 시간 특징이 10개 비디오 프레임 특징에 대응한다. 이에 대응하여, 10개 비디오 프레임에 의해 형성된 비디오 프레임 특징 시퀀스의 길이는 10이 되는 식이고, 다른 경우에 대해서는 설명을 생략한다.
단계 103에서, 적어도 하나의 비디오 프레임 특징 시퀀스는 제1 신경망 모델을 이용하여 처리되어, 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득한다. 적어도 하나의 비디오 프레임 특징 시퀀스 각각은 특징 표현 결과에 대응한다.
본 실시예에서, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득한 후, 서버는 상이한 시간 스케일에 대응하는 비디오 프레임 특징 시퀀스를 개별로 제1 신경망 모델에 입력한다. 제1 신경망 모델은 순환 신경망 모델이다. 그러면, 제1 신경망 모델을 통해 순환 프로세스가 입력된 적어도 하나의 비디오 프레임 특징 시퀀스에 수행되고, 각 비디오 프레임 특징 시퀀스의 특징 표현 결과가 이에 대응하여 출력된다.
상이한 시간 스케일은 상이한 길이의 비디오 프레임 특징 시퀀스를 지시한다. 단계 102에 설명되어 있듯이, 비디오의 총 길이가 T라고 가정할 때, 만일 각 시간 특징이 하나의 비디오 프레임 특징에 대응하면, 비디오 프레임 특징 시퀀스의 길이는 T/1이다. 만일 매 10개의 시간 특징마다가 하나의 비디오 프레임 특징에 대응하는 경우라면, 비디오 프레임 특징 시퀀스의 길이는 T/10이다.
단계 104에서, 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과가 제2 신경망 모델을 이용하여 처리되고, 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득한다. 예측 결과는 처리 대상 비디오의 카테고리를 결정하는 데 사용된다. 각각의 비디오 프레임 특징 시퀀스는 예측 결과에 대응한다. 본 실시예에서, 서버는 각 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 제2 신경망 모델에 개별로 입력한다. 그러면, 각 입력된 특징 표현 결과를 제2 신경망 모델을 이용하여 처리한 후, 서버는 각 특징 표현 결과에 대응하는 예측 결과를 출력한다. 마지막으로, 서버는 처리 대상 비디오의 카테고리를 예측 결과에 기초하여 결정할 수 있다.
처리 대상 비디오의 카테고리는 "스포츠", "뉴스", "음악", "애니메이션", "게임" 등일 수 있지만, 이들에 한정되는 것은 아니다.
본 개시의 본 실시예에서, 정보 처리 방법이 제공된다. 먼저, 서버는 처리 대상 비디오를 획득한다. 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각 비디오 프레임은 시간 특징에 대응한다. 그런 다음, 시간 특징 샘플링 규칙에 따라 처리 대상 비디오를 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는데, 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계이다. 그 다음, 서버는 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델에 입력하여 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하는데, 제1 신경망 모델은 순환 신경망 모델이다. 마지막으로, 서버는 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 제2 신경망 모델에 입력하여 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는데, 예측 결과는 처리 대상 비디오의 카테고리를 결정하는 데 사용된다. 이상의 방식으로, 비디오를 분류하는 처리에서, 시간 차원에서 비디오의 특징 변화가 고려되고, 이로써 비디오 컨텐츠가 더 잘 표현되며, 비디오 분류의 정확도가 향상되고, 비디오 분류의 효과가 향상된다.
선택적으로, 도 2에 대응하는 실시예에 기초하여, 본 개시의 실시예에 따라 제공되는 정보 처리 방법의 제1 선택적인 실시예에서, 처리 대상 비디오를 획득한 후에, 본 방법은,
컨볼루션 신경망(CNN: Convolutional Neural Network)을 이용하여 처리 대상 비디오 내의 복수의 비디오 프레임 각각을 처리하여 각 비디오 프레임에 대응하는 시간 특징을 획득하는 단계; 및
각 비디오 프레임에 대응하는 시간 특징에 기초하여 처리 대상 비디오의 시간 특징 시퀀스를 결정하는 단계
를 더 포함하고, 시간 특징 시퀀스는 샘플링을 위해 사용된다.
본 실시예에서는, 처리 대상 비디오를 획득한 후에, 서버가 인셉션 구조를 가진 컨볼루션 신경망을 이용하여 처리 대상 비디오 내의 각 비디오 프레임을 처리하고, 그런 다음 각 비디오 프레임에 대응하는 시간 특징을 추출한다. 마지막으로, 서버는 각 비디오 프레임의 시간 특징에 기초하여 처리 대상 비디오의 시간 특징 시퀀스를 결정한다. 처리 대상 비디오의 제1 비디오 프레임이 1이고, 처리 대상 비디오의 제2 비디오 프레임이 2라고 가정하면, 유사하게, 처리 대상 비디오의 마지막 비디오 프레임은 T이고, 처리 대상 비디오의 시간 특징 시퀀스가 T(초)임을 결정할 수 있다.
인셉션 구조를 가진 CNN은 이하에서 설명된다. 도 4를 참조하면, 도 4는 본 개시의 실시예에 따른 인셉션 구조를 가진 컨볼루션 신경망의 개략도이다. 도 4에 도시된 바와 같이, 인셉션 구조는 3개의 상이한 크기의 컨볼루션, 즉, 1X1 컨볼루션 층, 3X3 컨볼루션 층, 및 5X5 컨볼루션 층을 포함하고, 3X3 최대 풀링 층(maximum pooling layer)에서, 최종적으로 완전하게 연결된 층(final fully-connected layer)가 제거되고, 글로벌 평균 풀링 층(global avergage pooling layer)(이 픽처의 크기는 1X1로 변경된다)이 완전하게 연결된 층 대신 사용된다.
망 능력을 향상시키기 위해, 망 깊이 및 망 폭이 증가될 수 있다. 그러나, 과적합(overfitting)을 줄이기 위해, 자유 파라미터(free parameters) 또한 줄일 필요가 있다. 그러므로 인셉션 구조의 동일 층 내에는, 1X1 컨볼루션 층, 3X3 컨볼루션 층 및 5X5 컨볼루션 층을 컨볼브(convolve)하기 위한 3개의 상이한 컨볼루션 템플릿이 있다. 특징 추출은 상이한 크기의 이 3개의 컨볼루션 템플릿에서 수행되고, 이 3개의 컨볼루션 템플릿은 또한 혼합 모델이다. 최대 풀링 층 또한 특징 추출의 기능을 가지있으므로, 컨볼루션과는 다르게, 과적합(overfitting)이 되는 파라미터가 없고, 최대 풀링 층은 브랜치(branch)로서 사용된다. 그러나 이것을 직접 하면 전체 망에 상대적으로 큰 계산량을 야기하고, 층들의 깊이가 증가하지 않는다. 그러므로, 3X3 컨볼루션 및 5X5 컨볼루션에 앞서 1X1 컨볼루션이 먼저 수행되어, 입력 채널의 수를 줄이고, 이로써 망이 깊어지고 계산량이 감소한다.
다음으로, 본 개시의 일실시예에서, 처리 대상 비디오를 획득한 후, 서버는 추가로 처리 대상 비디오 내의 각 비디오 프레임을 컨볼루션 신경망을 이용하여 처리하여, 각 비디오 프레임에 대응하는 시간 특징을 획득할 수 있다. 시간 특징은 전체 처리 대상 비디오의 시간 특징 시퀀스를 형성하기 위해 사용된다. 상술한 방식에서, 각 비디오 프레임은 컨볼루션 신경망을 이용하여 훈련되고 처리되어 시간 특징 추출의 정확도 및 효과의 향상을 용이하게 한다.
선택적으로, 도 2에 대응하는 제1 실시예에 기초하여, 본 개시의 실시예에 따라 제공되는 정보 처리 방법의 제2 선택적 실시예에서, 시간 특징 샘플링 규칙에 따라 처리 대상 비디오를 샘플링하고 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는 단계는:
시간 특징 샘플링 규칙에 따라 적어도 하나의 시간 윈도를 결정하는 단계 - 각각의 시간 윈도는 처리 대상 비디오의 적어도 하나의 비디오 프레임을 포함함 -; 및
시간 특징 시퀀스로부터, 각 시간 윈도에 대응하는 비디오 프레임 특징 시퀀스를 추출하는 단계
를 포함한다.
본 실시예에서는, 서버가 어떻게 적어도 하나의 비디오 프레임 특징 시퀀스가 이하에서 설명된다.
구체적으로, 적어도 하나의 시간 윈도가 시간 특징 샘플링 규칙에 따라 wjdd의되어, 다수의 스케일에서 비디오 프레임 특징 시퀀스를 샘플링한다. 3개의 상이한 스케줄에서 비디오 프레임 특징 시퀀스를 획득하기 위해, 처리 대상 비디오가 총 T초를 가지고, 하나의 비디오 프레임, 5개의 비디오 프레임, 및 10개의 비디오 프레임이 각각 시간 윈도에서 사용되며, 시간 윈도 내 비디오 프레임이 평균화되는 것으로 가정할 수 있다. T초가 100개의 프레임에 대응하는 경우, 하나의 프레임이 시간 윈도로서 사용되고, 비디오 프레임 특징 시퀀스의 길이는 T/1=T이다. 10개 프레임이 시간 윈도로서 사용되는 경우, 최종적으로 획득되는 비디오 프레임 특징 시퀀스의 길이는 T/10이다. 그러므로, 비디오 프레임 특징 시퀀스의 길이는 시간 윈도의 크기에 관련된다.
시간 윈도의 크기는 수동으로 미리 정의될 수 있다. 하나의 시간 윈도 내 비디오 프레임의 수가 더 많을수록 더 큰 그래뉼래리티(granularity)를 나타낸다. 평균화 동작이 각 시간 윈도 내 컨텐츠에 대해 수행되고, 이로써 그 컨텐츠는 "하나의 프레임"의 컨텐츠가 된다.
또한, 본 개시의 본 실시예에서, 상이한 시간 스케일에서 비디오 프레임 특징 시퀀스를 추출하는 방법을 설명한다. 즉, 적어도 하나의 시간 윈도는 먼저 시간 특징 샘플링 규칙에 따라 결정되고, 각각의 시간 위도는 처리 대상 비디오 내의 다수의 비디오 프레임 중 적어도 하나를 포함하며, 다음으로, 각 시간 위도에 대응하는 비디오 프레임 특징 시퀀스가 시간 특징 시퀀스로부터 추출된다. 상술한 방식으로, 상이한 스케일에서 비디오 프레임 특징 시퀀스이 획득될 수 있고, 특징 훈련을 위한 다수의 상이한 샘플이 획득된다. 이러한 방식으로, 비디오 분류 결과의 정확도가 향상된다.
선택적으로, 도 2에 대응하는 실시예에 기초하여, 본 개시의 본 실시예에 따라 제공되는 정보 처리 방법의 제3 선택적 실시예에서, 제1 신경망 모델을 이용하여 적어도 하나의 비디오 프레임 특징 시퀀스를 처리하여 적어도 하나의 비디오 프레임 특징 시퀀스의 각각에 대응하는 특징 표현 결과를 획득하는 단계는:
상기 적어도 하나의 비디오 프레임 특징 시퀀스를 상기 제1 신경망 모델 내의 전방 순환 신경망(forward recurrent neural network)에 입력하여, 제1 표현 결과를 획득하는 단계;
상기 적어도 하나의 비디오 프레임 특징 시퀀스를 상기 제1 신경망 모델 내의 후방 순환 신경망(backward recurrent neural network)에 입력하여, 제2 표현 결과를 획득하는 단계; 및
상기 제1 표현 결과 및 상기 제2 표현 결과에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하는 단계
를 포함할 수 있다.
구체적으로, 도 5를 참조하면, 도 5는 본 개시의 실시예에 다른 제1 신경망 모델의 개략 구조도이다. 도 5에 도시된 바와 같이, 제1 신경망 모델 전체는 2개 부분을 포함하는데, 즉, 전방 순환 신경망 및 후방 순환 신경망이고, 각 비디오 프레임 특징 시퀀스는 전방 순환 신경망에 입력되고, 그런 다음 대응하는 제1 표현 결과가 출력된다. 한편, 각 비디오 프레임 특징 시퀀스는 후방 순환 신경망에 입력되고, 대응하는 제2 표현 결과가 출력된다.
마지막으로, 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과가 제1 표현 결과 및 제2 표현 결과를 직접 결합함으로써 획득될 수 있다.
다음으로, 본 개시의 일실시예에서, 비디오 프레임 특징 시퀀스의 추출에 기초하여, 시간 시퀀스 모델링이 순환 신경망에 기초한 순환 게이트 유닛을 이용하여 비디오 프레임 특징 시퀀스에 대해 수행될 수 있다. 또한, 본 해결 수단에서, 상이한 시간 스케일의 정보에 특징 표현을 더 잘 수행하기 위해, 제1 신경망 모델이 또한 비디오 특징 압축을 수행하는 데 사용될 수 있다. 상기 방식에서, 순환 신경망에서는, 대부부느이 비디오의 메인 컨텐츠가 비디오 시간의 중간에 일어나기 때문에, 양방향 순환 신경망이 처리 대상 비디오의 중한 시간 인스턴트를 향해 전방 및 후방으로부터 각각 특징 압축 및 표현을 수행하는 데 사용된다. 이러한 방식으로, 본 해결 수단의 작동성이 향상된다.
선택적으로, 도 2에 대응하는 제3 실시예에 기초하여, 본 개시의 본 실시예에 따라 제공된 정보 처리 방법의 제4 선택적 실시예에서, 제1 표현 결과 및 제2 표현 결과에 기초하여 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하는 단계는:
이하의 수식:
Figure pct00001
,
Figure pct00002
에 대해
Figure pct00003
, 및
Figure pct00004
에 대해
Figure pct00005
를 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하는 단계를 포함하고,
여기서,
Figure pct00006
는 비디오 프레임 특징 시퀀스의 특징 표현 결과을 나타내고,
Figure pct00007
는 제1 표현 결과이며,
Figure pct00008
는 제2 표현 결과를 나타내고,
Figure pct00009
Figure pct00010
번째 시간 인스턴트(time instant)에서 비디오 프레임 특징 시퀀스를 나타내고,
Figure pct00011
는 GRU(Gated Recurrent Unit)을 이용하여 신경망 처리를 수행하는 것을 나타내며,
Figure pct00012
는 처리 대상 비디오의 총 시간을 나타내며,
Figure pct00013
는 1에서
Figure pct00014
까지의 범위 내에 있는 정수를 나타낸다.
본 실시예에서, 양방향 순환 신경망은 처리 대상 비디오의 중한 시간 인스턴트를 향해 전방 및 후방으로부터 각각 특징 압축 및 표현을 수행하는 데 사용된다. 구체적으로, 어떤 스케일
Figure pct00015
의 비디오 프레임 특징 시퀀스
Figure pct00016
에 대해,
전방 순환 신경망은,
Figure pct00017
에 대해
Figure pct00018
이고,
후방 순환 신경망은,
Figure pct00019
에 대해
Figure pct00020
이다.
여기서,
Figure pct00021
는 전방 순환 신경망에서의 중간 층 특징 표현(intermediate layer feature representation)으로서 제1 표현 결과 로서 표현된다.
Figure pct00023
는 후방 순환 신경망의 중간 층 특징 표현으로서 제2 표현 결과
Figure pct00024
로서 표현된다.
Figure pct00025
는 순환 게이트 유닛 함수이고,
Figure pct00026
,
Figure pct00027
, 및
Figure pct00028
중 하나의 형태를 가진다.
여기서,
Figure pct00029
는 시그모이드 함수(sigmoid function)를 나타내고,
Figure pct00030
는 아크-탄젠트(arc-tangent) 함수를 나타낸다. 또,
Figure pct00031
,
Figure pct00032
,
Figure pct00033
,
Figure pct00034
,
Figure pct00035
, 및
Figure pct00036
는 모두 선형 변환 파라미터 행렬이고, 여기서 상이한 아래첨자는 각각 상이한 "게이트"를 나타내며,
Figure pct00037
,
Figure pct00038
, 및
Figure pct00039
는 오프셋 파라미터 벡터이다.
Figure pct00040
는 컴파운드 함수(compound function)의 계산을 나타낸다.
이상에 기초하여, 제1 표현 결과 및 제2 표현 결과가 결합되어, 스케일에 대응하는 특징 표현 결과를 획득할 수 있다. 즉,
Figure pct00041
이다.
본 개시의 본 실시예에서, 제1 표현 결과 및 제2 표현 결과에 기초하여 각 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하는 방법이 기술된다. 상술한 방식에서, 예측 결과가 관련 수식을 이용하여 계산에 의해 획득될 수 있고, 이것은 해결 수단의 구현을 위한 실현 가능한 방법을 제공한다. 이로써 해결 수단의 실현가능성 및 동작가능성을 향상시킬 수 있다.
선택적으로, 도 2에 대응하는 실시예에 기초하여, 본 개시의 본 실시예에 따라 제공된 정보 처리 방법의 제5 가능한 실시예에서, 제2 신경망을 이용하여 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 처리하여 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 단계는,
상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 상기 제2 신경망 모델의 제1 서브모델에 입력하여 제3 표현 결과를 획득하는 단계;
상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 상기 제2 신경망 모델의 제2 서브모델에 입력하여 제4 표현 결과를 획득하는 단계; 및
상기 제3 표현 결과 및 상기 제4 표현 결과에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 단계
를 포함한다.
본 실시예에서, 제2 신경망 모델을 이용하여 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 어떻게 획득하는지에 대해 이하에서 설명한다.
구체적으로, 도 6을 참조하면, 도 6은 본 개시의 실시예에 따른 제2 신경망 모델의 개략 구조도이다. 도 6에 도시된 바와 같이, 제2 신경망 모델 전체는 두 개의 부분을 포함하는데, 제1 서브모델 및 제2 서브모델이다. 제1 서브모델은 "게이트 표현(gate representation)"이라고 칭하기도 하고, 제2 서브모델은 "활성화 표현(activation representation)"이라고 칭하기도 한다. 각 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과가 "게이트 표현"에 입력되고, 대응하는 제3 표현 결과가 출력된다. 한편, 각 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과가 "활성화 표현"에 입력되고, 대응하는 제4 표현 결과가 출력된다.
각 제3 표현 결과에 각 제4 표현 결과를 곱한 다음, 덧셈이 수행되어, 비디오 프레임 특징 시퀀스의 예측 결과를 획득한다.
다음으로, 본 개시의 본 실시예에서, 제1 신경망 모델을 이용하여 특징 표현 결과가 획득된 후, 제2 신경망 모델을 또한 사용하여 특징 표현 결과를 분류한다. 상술한 방식으로, 비선형 변환이 특징 표현 결과에 대해 수행되고, 이로써 게이트 표현과 활성화 표현을 획득한다. 그러면, 곱셈 연산을 이 2개의 표현 경로에 대해 수행하고 또 덧셈을 행하여, 최종적으로 분류를 위한 특징 표현을 획득한다. 이로써, 분류의 정확도를 향상시킬 수 있다.
선택적으로, 도 2에 대응하는 제5 실시예에 기초하여, 본 개시의 실시예에 따라 제공되는 정보 처리 방법의 제6 선택적인 실시예에서, 제3 표현 결과 및 제4 표현 결과에 기초하여 적어도 하나으ㅢ 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 단계는,
다음의 수식:
Figure pct00042
,
Figure pct00043
, 및
Figure pct00044
를 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 단계를 포함하고,
여기서,
Figure pct00045
은 비디오 프레임 특징 시퀀스이 예측 결과를 나타내고,
Figure pct00046
는 제3 표현 결과를 나타내며,
Figure pct00047
는 제4 예측 결과를 나타내고,
Figure pct00048
는 소프트맥스 함수(softmax function)을 나태나고,
Figure pct00049
는 시그모이드 함수(sigmoid function)을 나타내며,
Figure pct00050
는 비디오 프레임 특징 시퀀스의 특징 표현 결과를 나타내며,
Figure pct00051
Figure pct00052
는 제1 서브모델의 파라미터를 나타내고,
Figure pct00053
Figure pct00054
는 제2 서브모델의 파라미터를 나타내고,
Figure pct00055
은 특징 표현 결과에 대해 비선형 변환을 수행하여 획득된 계산 총 수를 나타내고,
Figure pct00056
은 1부터
Figure pct00057
까지의 범위 내의 정수를 나타낸다.
본 실시예에서, 대응하는 수식을 이용하여 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 방법을 이하에서 설명한다.
먼저, 게이트 표현 및 활성화 표현의 N개의 경로가, 특징 표현 결과에 대해 비선형 변환을 수행하는 것에 의해 획득된다. 그러면, 게이트 표현에 대응하는 제3 표현 결과
Figure pct00058
가 계산되고, 활성화 표현에 대응하는 제4 표현 결과
Figure pct00059
이 계산된다. 제3 표현 결과
Figure pct00060
및 제4 표현 결과
Figure pct00061
가 계산되는 순서는 한정되지 않는다.
2개 경로의 표현이 획득된 후, 곱셈 연산이 수행되고, 그런 다음 덧셈 연산이 수행되어, 비디오 프레임 특징 시퀀스의 예측 결과를 획득한다.
또한, 본 개시의 본 실시예에서, 제3 표현 결과 및 제4 표현 결과에 기초하여 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 방법이 이하에서 설명된다. 상술한 방식으로, 관련 수식을 이용한 계산에 의해 예측 결과가 획득될 수 있고, 해결 수단의 구현을 위한 실현 가능한 방법을 제공한다. 이로써, 해결 수단의 실현 가능성과 동작 가능성이 향상될 수 있다.
선택적으로, 도 2 및 도 2에 대응하는 제1 실시예 내지 제6 실시예 중 어느 하나에 기초하여, 본 개시의 실시예에 따라 제공되는 정보 처리 방법의 제7 선택적 실시예에서, 제2 신경망 모델을 이용하여 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 처리하여 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 단계 후에, 본 방법은 추가로,
상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 가중치 및 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과에 기초하여 상기 처리 대상 비디오의 카테고리를 계산하는 단계; 및
상기 처리 대상 비디오의 카테고리에 따라 상기 처리 대상 비디오를 분류하는 단계
를 포함한다.
본 실시예에서, 서버는 또한 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과 및 각 비디오 프레임 특징 시퀀스에 대응하는 가중치에 따라 처리 대상 비디오의 카테고리를 계산하고, 분류 결과에 따라 처리 대상 비디오를 분류할 수 있다.
구체적으로, 예측 결과의 최대수는 5이고, 에측 결과는 5의 길이를 가진 "0"과 "1"로 형성되는 코드에 의해 나타내어진다. 예컨대, 예측 결과 1의 코드가 00001이면, 예측 결과 3의 코드는 00100이고, 이런 식으로, 처리 대상 비디오가 예측 결과 1 및 예측 결과 3을 모두 포함하면, 처리 대상 비디오는 00101로 나타내어진다.
그러나, 처리 대상 비디오 전체에 대해, 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과가 획득되고, 그러므로 각 예측 결과가 1보다 크지 않으며, 예측 결과가, 처리 대상 비디오가 그 카테고리에 속할 가능성을 나타낼 수 있다. 예컨대, {0.01, 0.02, 0.9, 0.005, 1.0}은 합리적인 예측 결과이고, 이것은 처리 대상 비디오가 제1 카테고리에 속할 확률이 1.0, 즉 100%이고, 처리 대상 비디오가 제2 카테고리에 속할 확률은 0.005, 즉 0.5%이며, 처리 대상 비디오가 제3 카테고리에 속할 확률은 0.9, 즉 90%이고, 처리 대상 비디오가 제4 카테고리에 속할 확률은 0.02, 즉 2%이며, 처리 대상 바디오가 제5 카테고리에 속할 확률은 0.01, 즉 1%라는 의미이다.
이 경우, 예측 결과는 미리 설정된 가중치를 이용하여 계산되고, 계산은 가중화 알고리즘을 이용하여 수행될 수 있다. 각 가중치는 선형 회귀(linear regression)를 이용하여 학습에 의해 획득되고, 그것은 숫자값이며, 각 비디오 프레임 특징 시퀀스의 중요도를 나타내고, 가중치의 합은 1, 예컨대 {0.1, 0.4, 0.5}이다. 처리 대상 비디오의 카테고리는 이하에서 설명한다.
가중치가 {0.2, 0.3, 0.5}인 경우, 비디오 프레임 특징 시퀀스 1의 예측 결과는 {0.01, 0.02, 0.9, 0.005, 1.0}이고, 비디오 프레임 특징 시퀀스 2의 예측 결과는 {0.02, 0.01, 0.9, 0.000, 0.9}이고, 비디오 프레임 특징 시퀀스 2의 예측 결과는 {0.2, 0.3, 0.8, 0.01 0.7}이며, 처리 대상 비디오의 카테고리는 다음과 같다.
0.2*0.01+0.3*0.02+0.5*0.2, 0.2*0.02+0.3*0.01+0.5*0.3, 0.2*0.9+0.3*0.9+0.5*0.8, 0.2*0.005+0.3*0.000+0.5*0.01, 0.2*1.0+0.3*0.9+0.5*0.7 ={0.108, 0.157, 0.85, 0.0075, 0.82}
이상의 수식의 결과로부터, 처리 대상 비디오가 제3 카테고리에 속할 확률이 가장 크고, 처리 대상 비디오가 제1 카테고리에 속할 확률이 다음으로 크다는 것을 알 수 있다. 그러므로, 처리 대상 비디오는 제3 카테고리의 비디오 리스트에 우선적으로 표시된다.
또한, 본 개시의 일실시예에서, 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득한 후, 서버는 또한 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과와 각 비디오 프레임 특징 시퀀스에 대응하는 가중치에 기초하여 처리 대상 비디오의 카테고리를 계산하고, 최종적으로 처리 대상 비디오의 카테고리에 따라 처리 대상 비디오를 분류한다. 이상의 방식으로, 예측 결과가 시간 특징에 기초하여 결정되기 때문에, 처리 대상 비디오가 분석될 때, 비이오 분류 능령이 향상되고, 개인화된 추천이 향상되며 실용성이 향상될 수 있다.
이하에서는 본 개시에서의 서버를 상세하게 설명한다. 도 7은 본 개시의 일실시예에 따른 서버의 일실시예의 개략도이다. 서버(20)는, 제1 획득 모듈(201), 제2 획득 모듈(202), 제1 입력 모듈(203) 및 제2 입력 모듈(204)를 포함한다.
제1 획득 모듈(201)은 처리 대상 비디오를 획득하도록 구성된다. 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각 비디오 프레임은 시간 특징에 대응한다.
제2 획득 모듈(202)은, 시간 특징 샘플링 규칙에 따라, 제1 획득 모듈(201)에 의해 획득된 처리 대상 비디오를 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득한다. 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계이다.
제1 입력 모듈(203)은, 제1 신경망 모델을 이용하여, 제2 획득 모듈(202)에 의해 획득된 적어도 하나의 비디오 프레임 특징 시퀀스를 처리하여, 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득한다. 제1 신경망 모델은 순환 신경망 모델이다.
제2 입력 모듈(204)은, 제2 신경망 모델을 이용하여, 제1 입력 모듈(203)에 의해 획득되고 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 처리하여, 적어도 하나의 비디오 프레임 특징 시퀀스에 데응하는 예측 결과를 획득한다. 예측 결과는 처리 대상 비디오의 카테고리를 결정하는 데 사용된다.
본 실시예에서, 제1 획득 모듈(201)은 처리 대상 비디오를 획득하고, 이 처리 대상 비디오는 복수의 비디오 프레임을 포함하며, 각 비디오 프레임은 시간 특징에 대응한다. 제2 획득 모듈(202)는, 시간 특징 샘플링 규칙에 따라, 제1 획득 모듈(201)에 의해 획득된 처리 대상 비디오를 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득한다. 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계이다. 제1 입력 모듈(203)은, 제1 신경망 모델을 이용하여, 제2 획득 모듈(202)에 의해 획득된 적어도 하나의 비디오 프레임 특징 시퀀스를 처리하여, 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득한다. 제1 신경망 모델은 순환 신경망 모델이다. 제2 입력 모듈(204)은, 제2 신경망 모델을 이용하여, 제1 입력 모듈(203)에 의해 획득되고 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 처리하여, 적어도 하나의 비디오 프레임 특징 시퀀스에 데응하는 예측 결과를 획득한다. 예측 결과는 처리 대상 비디오의 카테고리를 결정하는 데 사용된다.
본 개시의 일실시예에서, 서버가 제공된다. 머너, 서버는 처리 대상 비디오를 획득하고, 이 처리 대상 비디오는 복수의 비디오 프레임을 포함하며, 각 비디오 프레임은 시간 특징에 대응하며, 그런 다음 시간 특징 샘플링 규칙에 따라, 처리 대상 비디오를 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는데, 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계이다. 그 다음, 서버는 적어도 하나의 비이도 프레임 특징 시퀀스를 제1 신경망 모델에 입력하여 적어도 하나의 비디오 프레임 특징 시퀀스 각각에 대응하는 특징 표현 결과를 획득한다. 마지막으로, 서버는 각 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 제2 신경망 모델에 입력하여 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득한다. 예측 결과는 처리 대상 비디오의 카테고리를 결정하는 데 사용된다. 이상의 방식으로, 비디오를 분류하는 프로세스에서, 시간 차원에서 비디오의 특징 변화가 고려되고, 이로써 비디오 컨텐츠가 더 잘 표현되며, 비디오 분류의 정확도가 향상되고, 비디오 분류의 효과가 향상된다.
선택적으로, 도 7에 대응하는 실시예에 기초하여, 도 8을 참조한, 본 개시의 실시예에 따라 제공된 서버(20)의 또 다른 실시예에서는, 서버(20)가 추가로 처리 모듈(205) 및 결정 모듈(206)을 포함한다.
처리 모듈(205)은, 제1 획득 모듈(201)이 처리 대상 비디오를 획득한 후, 컨볼루션 신경망(CNN: Convolutional Neural Network)을 이용하여 처리 대상 비디오 내의 다수의 비디오 프레임 각각을 처리하여, 각 비디오 프레임에 대응하는 시간 특징을 획득하도록 구성된다.
결정 모듈(206)은, 처리 모듈(205)에 의해 처리된 각 비디오 프레임에 대응하는 시간 특징에 따라 처리 대상 비디오의 시간 특징 시퀀스를 결정하도록 구성된다. 시간 특징 시퀀스는 샘플링에 사용된다.
다음으로, 본 개시의 실시예에서, 처리 대상 비디오를 획득한 후, 서버는 또한 컨볼루션 신경망을 이용하여 처리 대상 비디오 내의 각 비디오 프레임을 처리하여, 각 비디오 프레임에 대응하는 시간 특징을 획득한다. 시간 특징은 처리 대상 비디오 jscp의 시간 특징 시퀀스를 형성하기 위해 사용된다. 이상의 방식으로, 각 비디오 프레임은 컨볼루션 신경망을 이용하여 훈련되고 처리되어, 정확도와 시간 특징 추출의 효과를 향상시킨다.
선택적으로, 도 8에 대응하는 실시예에 기초하여, 도 9를 참조한, 본 개시의 실시예에 따라 제공된 서버(20)의 또 다른 실시예에서는, 제2 획득 모듈(202)이 결정 유닛(2021) 및 추출 유닛(2022)을 포함한다.
결정 유닛(2021)은 시간 특징 샘플링 규칙에 따라 적어도 하나의 시간 윈도를 결정하도록 구성되고, 각 시간 윈도는 처리 대상 비디오의 다수의 비디오 프레임 중 적어도 하나를 포함한다.
추출 유닛(2022)은, 시간 특징 시퀀스로부터, 결정 유닛(2021)에 의해 결정된 적어도 하나의 시간 위도 각가에 대응하는 비디오 프레임 특징 시퀀스를 추출하도록 구성된다.
또한, 본 개시의 본 실시예에서, 상이한 스케일에서 비디오 프레임 특징 시퀀스를 추출하는 방법이 설명된다. 즉, 시간 특징 샘플링 규칙에 따라 적어도 하나의 시간 윈도가 먼저 결정되고, 각각의 시간 윈도는 처리 대상 비디오 내의 다수의 비디오 프레임 각각을 포함하고, 그런 다음, 각 시간 윈도에 대응하는 비디오 프레임 특징 시퀀스가 시간 특징 시퀀스로부터 추출된다. 이상의 방식으로, 상이한 스케일에서의 비디오 프레임 특징 시퀀스가 획득될 수 있고, 이로써 특징 훈령을 위한 다수의 상이한 샘플을 획득할 수 있다. 이러한 방식으로, 비디오 분류 결과의 정확도가 향상된다.
선택적으로, 도 9에 대응하는 실시예에 기초하여, 도 10을 참조한, 본 개시의 실시예에 따라 제공된 서버(20)의 또 다른 실시예에서는, 제1 입력 모듈(203)이 제1 획득 유닛(2031), 제2 획득 유닛(2032), 및 제1 계산 유닛(2033)을 포함한다.
제1 획득 유닛(2031)은 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델 내의 전방 순환 신경망에 입력하여 제1 표현 결과를 획득하도록 구성된다.
제2 획득 유닛(2032)은 각 비디오 프레임 특징 시퀀스를 제1 신경망 모델 내의 후방 순환 신경망에 입력하여, 제2 표현 결과를 획득하도록 구성된다.
제1 계산 유닛(2033)은 제1 획득 유닛(2031)에 의해 획득된 제1 표현 결과 및 제2 획득 유닛(2032)에 의해 획득된 제2 획득 유닛(2032)에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하도록 구성된다.
다음으로, 본 개시의 실시예에서, 비디오 프레임 특징 시퀀스에 추출에 기초하여, 순환 게이트 유닛 기반의 순환 신경망을 이용하여 비디오 프레임 특징 시퀀스에 시간 시퀀스 모델링을 수행할 수 있다. 또한, 상이한 시간 스케일의 정보에 대해 더 잘 특징 표현을 수행하기 위해, 본 해결 수단에서는, 비디오 특징 압축을 수행하기 위해 제1 신경망 모델을 사용할 수도 있다. 이상의 방식으로, 순환 신경망에 대해, 대부분의 비디오의 주요 컨텐츠가 비디오 시간의 중간에서 일어나기 때문에, 처리 대상 비디오의 중앙 시간 인스턴트를 향해 전방과 후방으로부터 각각 특징 압축 및 표현을 수행하기 위해 양방향 순환 신경망을 사용한다. 이러한 방식으로, 본 해결 수단의 동작성이 향상된다.
선택적으로, 도 10에 대응하는 실시예에 기초하여, 도 11을 참조한, 본 개시의 실시예에 따라 제공된 서버(20)의 또 다른 실시예에서는, 제1 계산 유닛(2033)이 제1 계산 서브유닛(20331)을 포함한다.
제1 계산 서브유닛(20331)은 다음의 수식:
Figure pct00062
,
Figure pct00063
에 대해
Figure pct00064
, 및
Figure pct00065
에 대해
Figure pct00066
를 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하도록 구성되고,
여기서,
Figure pct00067
는 비디오 프레임 특징 시퀀스의 특징 표현 결과을 나타내고,
Figure pct00068
는 제1 표현 결과이며,
Figure pct00069
는 제2 표현 결과를 나타내고,
Figure pct00070
Figure pct00071
번째 시간 인스턴트(time instant)에서 비디오 프레임 특징 시퀀스를 나타내고,
Figure pct00072
는 GRU(Gated Recurrent Unit)을 이용하여 신경망 처리를 수행하는 것을 나타내며,
Figure pct00073
는 처리 대상 비디오의 총 시간을 나타내며,
Figure pct00074
는 1에서
Figure pct00075
까지의 범위 내에 있는 정수를 나타낸다.
또한, 본 개시의 본 실시예에서는, 제1 표현 결과 및 제2 표현 결과에 기초하여 각 비디오 프레임 특징 시퀀스에 대응하는 특징표현 결과를 계산하는 방법이 구체적으로 기술된다. 이상의 방식으로, 예측 결과가 관련 수식을 이용하여 계산에 의해 획득되고, 해결 수단의 구현을 위한 실현 가능한 방법을 제시할 수 있으며, 본 해결 수단의 실현 가능성 및 동작 가능성을 향상시킨다.
선택적으로, 도 7에 대응하는 실시예에 기초하여, 도 12을 참조한, 본 개시의 실시예에서 제공된 서버(20)의 또 다른 실시예에서는, 제2 입력 모듈(204)이 제3 획득 유닛(2041), 제4 획득 유닛(2042) 및 제2 계산 유닛(2043)을 포함한다.
제3 획득 유닛(2041)은 각 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 제2 신경망 모델 내의 제1 서브모델에 입력하여, 제3 표현 결과를 획득하도록 구성된다.
제4 획득 유닛(2042)은 각 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 제2 신경망 모델의 제2 서브모델에 입력하여, 제4 표현 결과를 획득한다.
제2 계산 유닛(2043)은 제3 획득 유닛(2041)에 의해 획득된 제3 표현 결과 및 제4 획득 유닛(2042)에 의해 획득된 제4 표현 결과에 기초하여 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하도록 구성된다.
다음으로, 본 개시의 본 실시예에서, 제1 신경망 모델을 이용하여 특징 표현 결과를 획득한 후, 제2 신경망 모델을 추가로 사용하여 특징 표현 결과를 분류한다. 이상의 방식으로, 특징 표현 결과에 대해 비선형 변환을 수행하여 게이트 표현 및 활성화 표현을 각각 획득할 수 있다. 그런 다음, 곱셈 연산을 이 두 경로의 표현에 대해 수행하고 또 덧셈을 수행하여, 최정적으로 분류를 위한 특징 표현을 획득한다. 이로써 분류의 정확도가 향상된다.
선택적으로, 도 12에 대응하는 실시예에 기초하여, 도 13을 참조한, 본 개시의 실시예에 따라 제공된 서버(20)의 또 다른 실시예에서, 제2 계산 유닛(2043)은 제2 계산 서브유닛(20431)을 포함한다.
제2 계산 서브유닛(20431)은 이하의 수신:
Figure pct00076
,
Figure pct00077
, 및
Figure pct00078
를 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하도록 구성된다.
여기서,
Figure pct00079
은 비디오 프레임 특징 시퀀스이 예측 결과를 나타내고,
Figure pct00080
는 제3 표현 결과를 나타내며,
Figure pct00081
는 제4 예측 결과를 나타내고,
Figure pct00082
는 소프트맥스 함수(softmax function)을 나태나고,
Figure pct00083
는 시그모이드 함수(sigmoid function)을 나타내며,
Figure pct00084
는 비디오 프레임 특징 시퀀스의 특징 표현 결과를 나타내며,
Figure pct00085
Figure pct00086
는 제1 서브모델의 파라미터를 나타내고,
Figure pct00087
Figure pct00088
는 제2 서브모델의 파라미터를 나타내고,
Figure pct00089
은 특징 표현 결과에 대해 비선형 변환을 수행하여 획득된 계산 총 수를 나타내고,
Figure pct00090
은 1부터
Figure pct00091
까지의 범위 내의 정수를 나타낸다.
또한, 본 개시의 본 실시예에서는, 제3 표현 결과 및 제4 표현 결과에 기초하여 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 방법이 구체적으로 설명된다. 이상의 방식으로, 예측 결과는 관련 수식을 이용하여 계산에 의해 획득될 수 있고, 이로써 본 해결 수단의 구현을 위한 실현 가능한 방법을 제공하며, 본 해결 수단의 실현 가능성 및 동작성이 향상된다.
선택적으로, 도 7 내지 도 13 중 어느 하나에 대응하는 실시예에 기초하여, 도 14를 참조한, 본 개시의 실시예에 따라 제공된 서버(20)의 또 다른 실시예에서는, 서버(20)가 계산 모듈(207) 및 분류 모듈(208)을 더 포함한다.
계산 모듈(207)은, 제2 신경망 모델을 이용하여 제2 입력 모듈(204)이 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 처리하여 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득한 후에, 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과 및 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 가중치에 기초하여 처리 대상 비디오의 카테고리를 계산하도록 구성된다.
분류 모듈(208)은 계산 모듈(207)에 의해 계산되는 처리 대상 비디오의 카테고리에 따라 처리 대상 비디오를 분류하도록 구성된다.
또한, 본 개시의 본 실시예에서는, 각 비디오 프레임 특징 시퀀스의 예측 결과를 획득한 후, 서버가 추가로 각 비디오 프레임 특징 시퀀스에 대응하는 예측 결과 및 각 비디오 프레임 특징 시퀀스에 대응하는 가중치에 기초하여 처리 대상 비디오의 카테고리를 계산하고, 최종적으로 처리 대상 비디오의 카테고리에 따라 처리 대상 비디오를 분류한다. 이상의 방식으로, 예측 결과가 시간 특징에 기초하여 결정되기 때문에, 처리 대상 비디오가 분석될 때, 비디오 분류 능령이 향상될 수 있고, 개인 맞춤형 추천 및 실용성을 향상시킬 수 있다.
도 15는 본 개시의 실시예에 따른 서버의 개략 구조도이다. 서버(300)는 상이한 구성 또는 성능 때문에 크게 달라질 수 있고, 하나 이상의 중앙 처리 유닛(CPU)(322)(예컨대, 하나 이상의 프로세서) 및 메모리(332), 그리고 응용 프로그램(342) 또는 데이터(344)를 저장하는 하나 이상의 저장 매체(330)(예컨대, 하나 이상의 대량 저장 기기)를 포함할 수 있다. 메모리(332) 및 저장 매체(330)는 일시적인 저장기 또는 영구적 저장기일 수 있다. 저장 매체(330)에 저장된 프로그램은 하나 이상의 모듈(도면에는 도시되지 않음)을 포함할 수 있고, 각 모듈은 서버에 대한 일련의 명령 및 동작을 포함할 수 있다. 또한, 중앙 처리 유닛(322)은 저장 매체(330)와 통신하도록 구성되어 서버(300) 상에서 저장 매체(330) 내의 일련의 명령 및 동작을 수행할 수 있다.
서버(300)는 또한 하나 이상의 전력원(326), 하나 이상의 유선 또는 무선 네트워크 인터페이스(350), 하나 이상의 입력/출력 인터페이스(358), 및/또는 하나 이상의 오퍼레이팅 시스템(341)을 포함할 수 있다. 오퍼레이팅 시스템의 예로서는, 윈도(Windows), ServerTM, MacOS XTM, UnixTM, LinuxTM, 및 FreeBSDTM이 있다.
이상의 실시예에서, 서버에 의해 수행되는 단계들은 도 15에 도시된 서버 구조에 기초할 수 있다.
본 개시의 일실시예에서, 서버 내에 포함된 CPU(322)는 다음 기능:
처리 대상 비디오를 획득하는 기능 - 상기 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각각의 비디오 프레임은 하나의 시간 특징에 대응함 -;
상기 처리 대상 비디오를 시간 특징 샘플링 규칙에 따라 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는 기능 - 상기 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계임 -;
상기 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델(neural network model)을 이용하여 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하는 기능 - 상기 제1 신경망 모델은 순환 신경망(recurrent neural network) 모델임 -; 및
제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 특징 표현 결과를 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 기능 - 상기 예측 결과는 상기 처리 대상 비디오의 카테고리를 결정하는 데 사용됨 -
을 포함한다.
선택적으로, CPU(322)는 또한, 다음 기능:
컨볼루션 신경망(CNN)을 이용하여 처리 대상 비디오의 각 비디오 프레임을 처리하여 각 비디오 프레임에 대응하는 시간 특징을 획득하는 기능; 및
각 비디오 프레임에 대응하는 시간 특징에 기초하여 처리 대상 비디오의 시간 특징 시퀀스를 결정하는 기능 - 상기 기능 특징 시퀀스는 샘플링에 사용됨 -
을 포함할 수 있다.
선택적으로, CPU(322)는 구체적으로 다음 기능:
시간 특징 샘플링 규칙에 따라 적어도 하나의 시간 윈도를 결정하는 기능 - 각 시간 윈도는 처리 대상 비디오의 적어도 하나의 비디오 프레임을 포함함 -; 및
시간 특징 시퀀스로부터, 각 시간 윈도에 대응하는 비디오 프레임 특징 시퀀스를 추출하는 기능
을 실행하도록 구성된다.
선택적으로, CPU(322)는 다음 기능:
적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델 내의 전방 순환 신경망에 입력하여 제1 표현 결과를 획득하는 기능;
적어도 하나의 비디오 프레임 특징 시퀀스를 제2 신경망 모델 내의 후방 순환 신경망에 입력하여 제2 표현 결과를 획득하는 기능; 및
제1 표현 결과 및 제2 표현 결과에 기초하여 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하는 기능
을 실행하도록 구성된다.
선택적으로, CPU(322)는 구체적으로, 다음 수식:
Figure pct00092
,
Figure pct00093
에 대해
Figure pct00094
, 및
Figure pct00095
에 대해
Figure pct00096
를 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하는 기능을 수행하도록 구성된다.
여기서,
Figure pct00097
는 비디오 프레임 특징 시퀀스의 특징 표현 결과을 나타내고,
Figure pct00098
는 제1 표현 결과이며,
Figure pct00099
는 제2 표현 결과를 나타내고,
Figure pct00100
Figure pct00101
번째 시간 인스턴트(time instant)에서 비디오 프레임 특징 시퀀스를 나타내고,
Figure pct00102
는 GRU(Gated Recurrent Unit)을 이용하여 신경망 처리를 수행하는 것을 나타내며,
Figure pct00103
는 처리 대상 비디오의 총 시간을 나타내며,
Figure pct00104
는 1에서
Figure pct00105
까지의 범위 내에 있는 정수를 나타낸다.
선택적으로, CPU(322)는 구체적으로 다음의 기능:
상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 상기 제2 신경망 모델의 제1 서브모델에 입력하여 제3 표현 결과를 획득하는 기능;
상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 상기 제2 신경망 모델의 제2 서브모델에 입력하여 제4 표현 결과를 획득하는 기능; 및
상기 제3 표현 결과 및 상기 제4 표현 결과에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 기능
을 수행하도록 구성된다.
선택적으로, CPU(322)는 구체적으로, 다음의 수식:
Figure pct00106
,
Figure pct00107
, 및
Figure pct00108
를 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 기능을 수행하도록 구성된다.
여기서,
Figure pct00109
은 비디오 프레임 특징 시퀀스이 예측 결과를 나타내고,
Figure pct00110
는 제3 표현 결과를 나타내며,
Figure pct00111
는 제4 예측 결과를 나타내고,
Figure pct00112
는 소프트맥스 함수(softmax function)을 나태나고,
Figure pct00113
는 시그모이드 함수(sigmoid function)을 나타내며,
Figure pct00114
는 비디오 프레임 특징 시퀀스의 특징 표현 결과를 나타내며,
Figure pct00115
Figure pct00116
는 제1 서브모델의 파라미터를 나타내고,
Figure pct00117
Figure pct00118
는 제2 서브모델의 파라미터를 나타내고,
Figure pct00119
은 특징 표현 결과에 대해 비선형 변환을 수행하여 획득된 계산 총 수를 나타내고,
Figure pct00120
은 1부터
Figure pct00121
까지의 범위 내의 정수를 나타낸다.
선택적으로, CPU(322)는 또한 다음의 기능:
상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 가중치 및 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과에 기초하여 상기 처리 대상 비디오의 카테고리를 계산하는 기능; 및
상기 처리 대상 비디오의 카테고리에 따라 상기 처리 대상 비디오를 분류하는 기능
을 수행하도록 구성된다.
본 개시의 실시예는 또한 프로그램 코드를 저장하는 저장 매체를 제공하고, 프로그램 코드는 이상의 실시예들에 따른 정보 처리 방법 중 임의의 하나를 실행하도록 구성된다.
이상의 실시예에서, 구현은 전체적으로 또는 부분적으로 소프트웨어, 하드웨어, 펌웨어 또는 그 조합에 의해 이루어질 수 있다. 소프트웨어가 구현을 위해 사용되는 경우, 컴퓨터 프로그램 제품의 형태로 전체 또는 일부가 구현될 수 있다.
컴퓨터 프로그램 제품은 하나 이상의 컴퓨터 명령을 포함한다. 컴퓨터 프로그램 명령이 컴퓨터에 로딩되고 실행되는 때, 본 개시의 실시예에 따른 처리 또는 기능 전부 또는 일부가 만들어진다. 컴퓨터는 범용 컴퓨터, 특수 목적 컴퓨터, 컴퓨터 네트워크, 또는 다른 프로그래머블 장치일 수 있다. 컴퓨터 명령은 컴퓨터 판독 가능한 저장 매체에 저장되거나 또는 하나의 컴퓨터 판독 가능한 저장 매체에서 다른 컴퓨터 판독 가능한 저장 매체로 전송되어질 수 있다. 예컨대, 컴퓨터 명령은 하나의 웹사이트, 컴퓨터, 서버 또는 데이터 센터로부터 다른 웹사이트, 컴퓨터, 서버 또는 데이터 센터로 유선(예컨대, 동축 케이블, 광섬유 또는 디지털 가입자 회선(DSL:Disginal Subscriber Line)) 또는 무선(예컨대, 적외선, 무선 또는 마이크로파) 방식으로 전송될 수 있다. 컴퓨터 판독 가능한 저아 매체는 컴퓨터에 의해 액세스될 수 있다면 어떤 매체라도 될 수 있고, 다르게는 서버 및 데이터 센터와 같이 사용 가능한 매체에 의해 일체로 되는 하나 이상의 데이터 저장 기기를 포함할 수 있다. 가용한 매체로서는 자기 매체(예컨대, 플로피 디스크, 하드 디스크, 또는 자기 테이프), 광학 매체(예컨대, DVD), 반도체 매체(예컨대, 고체 상태 디스크(SDD)) 등이 있다.
통상의 기술자라면, 설명의 편의와 간소화를 위해, 상술한 시스템, 장치, 및 유닛의 상세한 동작 프로세스에 대해, 상술한 방법 실시예에서의 대응하는 프로세스를 참조할 수 있으므로, 상세한 설명을 여기서 다시 하지 않는다는 것을 이해할 것이다.
본 개시에서 제공된 여러 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있다는 것도 이해해야 한다. 예컨대, 상술한 장치 실시예는 단지 예시이다. 예컨대, 유닛 분할은 단지 논리 기능 분할이며, 실제 구현에서는 다르게 분할할 수도 있다. 예컨대, 다수의 유닛 및 컴포넌트는 결합되거나 다른 시스템에 일체화될 수 있거나, 또는 일부 특징이 무시되거나 수행되지 않을 수도 있다. 또한, 표시되거나 설명된 상호 연결 또는 직접 연결 또는 통신 연결은 어떤 인터페이스를 이용하여 구현될 수도 있다. 장치 간의 간접 결합 또는 통신 연결은 전기, 기계 또는 다른 형태로 구현될 수 있다.
별개의 부분으로 기술된 유닛도 물리적으로 분리될 수도 있지만 아닐 수도 있고, 유닛으로 개시된 부분들도 물리적인 유닛일 수도 있고 아닐 수도 있으며, 한 위치에 있을 수도 있고 다수의 네트워크 유닛으로 분산되어 있을 수도 있다. 통합된 유닛이 하드웨어 형태로 구현될 수도 있고 소프트웨어 기능 유닛의 형태로 구현될 수도 있다.
통합된 유닛이 소프트웨어 기능 유닛으로 구현되고 독립 제품으로 팔리거나 사용되는 경우, 그 통합된 유닛은 컴퓨터 판독 가능한 저장 매체에 저장될 수 있다. 그와 같은 이해에 기초할 때, 본 개시의 기술적 해결 수단이 필수적으로, 또는 종래 기술에 기여하는 부분, 또는 기술적 해결 수단의 일부 또는 전부가 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, 이것은 여러 명령을 포함하며, 이 명령은 컴퓨토 기기(개인 컴퓨터, 서버, 네트워크 기기 등일 수 있다)로 하여금 본 개시의 실시예에서 설명한 방법의 모든 단계 또는 일부 단계를 실행하도록 지시하기 위한 것이다. 상술한 저장 매체는, 프로그램 코드를 저장할 수 있는 매체라면 어떠한 매체도 포함하며, 예컨대, USB 플래시 메모리 드라이브, 탈착 가능한 하드 디스크, ROM, RAM, 자기 디스크 또는 광학 디스크 등이다.
결론적으로, 이상의 실시예들은 단지 본 개시의 기술적 해결 수단을 설명하기 위한 것이며, 본 개시를 제한하려는 것이 아니다. 본 개시가 상술한 실시예를 참조하여 상세하게 설명되었지만, 통상의 기술자라면, 본 개시의 실시예의 기술적 해결 수단의 기술적 사상 및 보호 범위를 벗어나지 않고, 상술한 실시예에 기술된 기술적 해결 수단에 변경을 가하거나 일부 기술적 특징을 균등물로 치환할 수 있다.

Claims (16)

  1. 컴퓨터 기기에 의해 실행되는 비디오 분류 방법으로서,
    처리 대상 비디오를 획득하는 단계 - 상기 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각각의 비디오 프레임은 하나의 시간 특징에 대응함 -;
    상기 처리 대상 비디오를 시간 특징 샘플링 규칙에 따라 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는 단계 - 상기 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계임 -;
    상기 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델(neural network model)을 이용하여 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하는 단계 - 상기 제1 신경망 모델은 순환 신경망(recurrent neural network) 모델임 -;
    제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 특징 표현 결과를 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 단계; 및
    상기 예측 결과에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 처리 대상 비디오의 카테고리를 결정하는 단계
    를 포함하는 비디오 분류 방법.
  2. 컴퓨터 기기에 의해 실행되는 정보 처리 방법으로서,
    처리 대상 비디오를 획득하는 단계 - 상기 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각각의 비디오 프레임은 하나의 시간 특징에 대응함 -;
    상기 처리 대상 비디오를 시간 특징 샘플링 규칙에 따라 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는 단계 - 상기 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계임 -;
    상기 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델(neural network model)을 이용하여 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하는 단계 - 상기 제1 신경망 모델은 순환 신경망(recurrent neural network) 모델임 -; 및
    제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 특징 표현 결과를 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 단계 - 상기 예측 결과는 상기 처리 대상 비디오의 카테고리를 결정하는 데 사용됨 -;
    를 포함하는 정보 처리 방법.
  3. 제2항에 있어서,
    상기 처리 대상 비디오를 획득하는 단계 후에,
    컨볼루션 신경망(CNN: convolutional neural network)을 이용하여 상기 처리 대상 비디오 내의 복수의 비디오 프레임 각각을 처리함으로써, 각각의 비디오 프레임에 대응하는 시간 특징을 획득하는 단계; 및
    상기 각각의 비디오 프레임에 대응하는 시간 특징에 기초하여 상기 처리 대상 비디오의 시간 특징 시퀀스를 결정하는 단계 - 상기 시간 특징 시퀀스는 샘플링에 사용됨 -
    를 더 포함하는 정보 처리 방법.
  4. 제3항에 있어서,
    상기 처리 대상 비디오를 시간 특징 샘플링 규칙에 따라 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는 단계가,
    상기 시간 특징 샘플링 규칙에 따라 적어도 하나의 시간 윈도를 결정하는 단계 - 상기 적어도 하나의 시간 윈도 각각은 상기 처리 대상 비디오의 적어도 하나의 비디오 프레임을 포함함 -; 및
    상기 시간 특징 시퀀스로부터, 각각의 시간 윈도에 대응하는 비디오 프레임 특징 시퀀스를 추출하는 단계
    를 포함하는, 정보 처리 방법.
  5. 제2항에 있어서,
    상기 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델을 이용하여 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하는 단계가,
    상기 적어도 하나의 비디오 프레임 특징 시퀀스를 상기 제1 신경망 모델 내의 전방 순환 신경망(forward recurrent neural network)에 입력하여, 제1 표현 결과를 획득하는 단계;
    상기 적어도 하나의 비디오 프레임 특징 시퀀스를 상기 제1 신경망 모델 내의 후방 순환 신경망(backward recurrent neural network)에 입력하여, 제2 표현 결과를 획득하는 단계; 및
    상기 제1 표현 결과 및 상기 제2 표현 결과에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하는 단계
    를 포함하는, 정보 처리 방법.
  6. 제5항에 있어서,
    상기 제1 표현 결과 및 상기 제2 표현 결과에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하는 단계가,
    다음의 수식:
    Figure pct00122
    ,
    Figure pct00123
    에 대해
    Figure pct00124
    , 및
    Figure pct00125
    에 대해
    Figure pct00126

    를 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하는 단계를 포함하고,
    여기서,
    Figure pct00127
    는 비디오 프레임 특징 시퀀스의 특징 표현 결과을 나타내고,
    Figure pct00128
    는 제1 표현 결과이며,
    Figure pct00129
    는 제2 표현 결과를 나타내고,
    Figure pct00130
    Figure pct00131
    번째 시간 인스턴트(time instant)에서 비디오 프레임 특징 시퀀스를 나타내고,
    Figure pct00132
    는 GRU(Gated Recurrent Unit)을 이용하여 신경망 처리를 수행하는 것을 나타내며,
    Figure pct00133
    는 처리 대상 비디오의 총 시간을 나타내며,
    Figure pct00134
    는 1에서
    Figure pct00135
    까지의 범위 내에 있는 정수를 나타내는,
    정보 처리 방법.
  7. 제2항에 있어서,
    상기 제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 특징 표현 결과를 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 단계가,
    상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 상기 제2 신경망 모델의 제1 서브모델에 입력하여 제3 표현 결과를 획득하는 단계;
    상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 상기 제2 신경망 모델의 제2 서브모델에 입력하여 제4 표현 결과를 획득하는 단계; 및
    상기 제3 표현 결과 및 상기 제4 표현 결과에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 단계
    를 포함하는, 정보 처리 방법.
  8. 제7항에 있어서,
    상기 제3 표현 결과 및 상기 제4 표현 결과에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 단계가,
    다음의 수식:
    Figure pct00136
    ,
    Figure pct00137
    , 및
    Figure pct00138

    를 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 단계를 포함하고,
    여기서,
    Figure pct00139
    은 비디오 프레임 특징 시퀀스이 예측 결과를 나타내고,
    Figure pct00140
    는 제3 표현 결과를 나타내며,
    Figure pct00141
    는 제4 예측 결과를 나타내고,
    Figure pct00142
    는 소프트맥스 함수(softmax function)을 나태나고,
    Figure pct00143
    는 시그모이드 함수(sigmoid function)을 나타내며,
    Figure pct00144
    는 비디오 프레임 특징 시퀀스의 특징 표현 결과를 나타내며,
    Figure pct00145
    Figure pct00146
    는 제1 서브모델의 파라미터를 나타내고,
    Figure pct00147
    Figure pct00148
    는 제2 서브모델의 파라미터를 나타내고,
    Figure pct00149
    은 특징 표현 결과에 대해 비선형 변환을 수행하여 획득된 계산 총 수를 나타내고,
    Figure pct00150
    은 1부터
    Figure pct00151
    까지의 범위 내의 정수를 나타내는,
    정보 처리 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 특징 표현 결과를 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 단계 후에,
    상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 가중치 및 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과에 기초하여 상기 처리 대상 비디오의 카테고리를 계산하는 단계; 및
    상기 처리 대상 비디오의 카테고리에 따라 상기 처리 대상 비디오를 분류하는 단계
    를 더 포함하는 정보 처리 방법.
  10. 서버로서,
    처리 대상 비디오를 획득하도록 구성된 제1 획득 모듈 - 상기 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각 비디오 프레임은 하나의 시간 특징에 대응함 -;
    상기 제1 획득 모듈에 의해 획득된 상기 처리 대상 비디오를 시간 특징 샘플링 규칙에 따라 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하도록 구성된 제2 획득 모듈 - 상기 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계임 -;
    상기 제2 획득 모듈에 의해 획득된 상기 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델(neural network model)을 이용하여 처리하여, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하도록 구성된 제1 입력 모듈 - 상기 제1 신경망 모델은 순환 신경망(recurrent neural network) 모델임 -; 및
    제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하고 또한 상기 제1 입력 모듈에 입력된 후에 획득된 상기 특징 표현 결과를 처리하여, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하도록 구성된 제2 입력 모듈 - 상기 예측 결과는 상기 처리 대상 비디오의 카테고리를 결정하기 위해 사용됨 -
    을 포함하는 서버.
  11. 제10항에 있어서,
    상기 제2 입력 모듈이, 제2 신경망 모델을 이용하여, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 처리한 후에, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 가중치 및 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과에 기초하여 상기 처리 대상 비디오의 카테고리를 계산하고, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하도록 구성된 계산 모듈; 및
    상기 계산 모듈에 의해 계산된, 상기 처리 대상 비디오의 카테고리에 기초하여, 상기 처리 대상 비디오를 분류하도록 구성된 분류 모듈
    을 더 포함하는 서버.
  12. 서버로서,
    메모리, 프로세서, 및 버스 시스템을 포함하고,
    상기 메모리는 프로그램을 저장하도록 구성되고,
    상기 프로세서는, 상기 메모리 내의 프로그램을 실행하여 다음의 단계:
    처리 대상 비디오를 획득하는 단계 - 상기 처리 대상 비디오는 복수의 비디오 프레임을 포함하고, 각각의 비디오 프레임은 하나의 시간 특징에 대응함 -;
    상기 처리 대상 비디오를 시간 특징 샘플링 규칙에 따라 샘플링하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 획득하는 단계 - 상기 시간 특징 샘플링 규칙은 시간 특징과 비디오 프레임 특징 시퀀스 간의 대응 관계임 -;
    상기 적어도 하나의 비디오 프레임 특징 시퀀스를 제1 신경망 모델(neural network model)을 이용하여 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 획득하는 단계 - 상기 제1 신경망 모델은 순환 신경망(recurrent neural network) 모델임 -; 및
    제2 신경망 모델을 이용하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 상기 특징 표현 결과를 처리함으로써, 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 획득하는 단계 - 상기 예측 결과는 상기 처리 대상 비디오의 카테고리를 결정하는 데 사용됨 -;
    를 수행하도록 구성되고,
    상기 버스 시스템은 상기 메모리 및 상기 프로세서를 연결하여, 상기 메모리 및 상기 프로세서가 서로 통신할 수 있게 하도록 구성된,
    서버.
  13. 제12항에 있어서,
    상기 프로세서는, 다음의 단계:
    상기 적어도 하나의 비디오 프레임 특징 시퀀스를 상기 제1 신경망 모델 내의 전방 순환 신경망(forward recurrent neural network)에 입력하여, 제1 표현 결과를 획득하는 단계;
    상기 적어도 하나의 비디오 프레임 특징 시퀀스를 상기 제1 신경망 모델 내의 후방 순환 신경망(backward recurrent neural network)에 입력하여, 제2 표현 결과를 획득하는 단계; 및
    상기 제1 표현 결과 및 상기 제2 표현 결과에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 계산하는 단계
    를 실행하도록 구성된,
    서버.
  14. 제12항에 있어서,
    상기 프로세서는 다음의 단계;
    상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 상기 제2 신경망 모델의 제1 서브모델에 입력하여 제3 표현 결과를 획득하는 단계;
    상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 특징 표현 결과를 상기 제2 신경망 모델의 제2 서브모델에 입력하여 제4 표현 결과를 획득하는 단계; 및
    상기 제3 표현 결과 및 상기 제4 표현 결과에 기초하여 상기 적어도 하나의 비디오 프레임 특징 시퀀스에 대응하는 예측 결과를 계산하는 단계
    를 수행하도록 구성된,
    서버.
  15. 청구항 2 내지 9 중 어느 한 항에 따른 방법을 수행하도록 구성된 프로그램 코드를 저장하도록 구성된 컴퓨터 판독 가능한 저장 매체.
  16. 컴퓨터에서 실행되는 때, 컴퓨터로 하여금, 청구항 2 내지 9 중 어느 한 항에 따른 방법을 수행하게 하는 명령을 포함하는 컴퓨터 프로그램 제품.
KR1020197032023A 2017-09-15 2018-08-16 비디오 분류 방법, 정보 처리 방법 및 서버 KR102392943B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710833668.8 2017-09-15
CN201710833668.8A CN109508584B (zh) 2017-09-15 2017-09-15 视频分类的方法、信息处理的方法以及服务器
PCT/CN2018/100733 WO2019052301A1 (zh) 2017-09-15 2018-08-16 视频分类的方法、信息处理的方法以及服务器

Publications (2)

Publication Number Publication Date
KR20190133040A true KR20190133040A (ko) 2019-11-29
KR102392943B1 KR102392943B1 (ko) 2022-04-29

Family

ID=65723493

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197032023A KR102392943B1 (ko) 2017-09-15 2018-08-16 비디오 분류 방법, 정보 처리 방법 및 서버

Country Status (7)

Country Link
US (1) US10956748B2 (ko)
EP (1) EP3683723A4 (ko)
JP (1) JP7127120B2 (ko)
KR (1) KR102392943B1 (ko)
CN (2) CN109508584B (ko)
MA (1) MA50252A (ko)
WO (1) WO2019052301A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200140589A (ko) * 2019-06-07 2020-12-16 국방과학연구소 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법
KR102430989B1 (ko) 2021-10-19 2022-08-11 주식회사 노티플러스 인공지능 기반 콘텐츠 카테고리 예측 방법, 장치 및 시스템

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636681B2 (en) * 2018-11-21 2023-04-25 Meta Platforms, Inc. Anticipating future video based on present video
JP7352369B2 (ja) * 2019-03-29 2023-09-28 株式会社日立システムズ 予測モデル評価システム、予測モデル評価方法
CN111782734B (zh) * 2019-04-04 2024-04-12 华为技术服务有限公司 数据压缩、解压方法和装置
CN110162669B (zh) * 2019-04-04 2021-07-02 腾讯科技(深圳)有限公司 视频分类处理方法、装置、计算机设备及存储介质
CN110263216B (zh) * 2019-06-13 2022-01-28 腾讯科技(深圳)有限公司 一种视频分类的方法、视频分类模型训练的方法及装置
CN113010735B (zh) * 2019-12-20 2024-03-08 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN111144508A (zh) * 2019-12-30 2020-05-12 中国矿业大学(北京) 煤矿副井轨道运输自动控制系统与控制方法
CN111190600B (zh) * 2019-12-31 2023-09-19 中国银行股份有限公司 基于gru注意力模型的前端代码自动生成的方法及系统
CN111104930B (zh) * 2019-12-31 2023-07-11 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN111209439B (zh) * 2020-01-10 2023-11-21 北京百度网讯科技有限公司 视频片段检索方法、装置、电子设备及存储介质
CN111259779B (zh) * 2020-01-13 2023-08-01 南京大学 一种基于中心点轨迹预测的视频动作检测方法
CN111209883B (zh) * 2020-01-13 2023-08-04 南京大学 一种基于多源运动特征融合的时序自适应视频分类方法
CN111428660B (zh) * 2020-03-27 2023-04-07 腾讯科技(深圳)有限公司 视频剪辑方法和装置、存储介质及电子装置
US11354906B2 (en) * 2020-04-13 2022-06-07 Adobe Inc. Temporally distributed neural networks for video semantic segmentation
CN111489378B (zh) * 2020-06-28 2020-10-16 腾讯科技(深圳)有限公司 视频帧特征提取方法、装置、计算机设备及存储介质
CN111737521B (zh) * 2020-08-04 2020-11-24 北京微播易科技股份有限公司 一种视频分类方法和装置
DE102020212515A1 (de) * 2020-10-02 2022-04-07 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Trainieren eines maschinellen Lernsystems
CN113204992B (zh) * 2021-03-26 2023-10-27 北京达佳互联信息技术有限公司 视频质量确定方法、装置、存储介质及电子设备
CN113349791B (zh) * 2021-05-31 2024-07-16 平安科技(深圳)有限公司 异常心电信号的检测方法、装置、设备及介质
CN113204655B (zh) * 2021-07-02 2021-11-23 北京搜狐新媒体信息技术有限公司 多媒体信息的推荐方法、相关装置及计算机存储介质
CN113779472B (zh) * 2021-07-30 2024-10-01 淘宝(中国)软件有限公司 内容审核方法、装置及电子设备
CN114443896B (zh) * 2022-01-25 2023-09-15 百度在线网络技术(北京)有限公司 数据处理方法和用于训练预测模型的方法
CN114611584B (zh) * 2022-02-21 2024-07-02 上海市胸科医院 Cp-ebus弹性模式视频的处理方法、装置、设备与介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100656373B1 (ko) * 2005-12-09 2006-12-11 한국전자통신연구원 시간구간별 우선순위와 판별정책을 적용하는 유해 동영상판별 방법 및 그 장치
JP2017000660A (ja) * 2015-06-16 2017-01-05 プレキシオン株式会社 光音響画像化装置および光源ユニット

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990132B2 (en) * 2010-01-19 2015-03-24 James Ting-Ho Lo Artificial neural networks based on a low-order model of biological neural networks
CN103544498B (zh) * 2013-09-25 2017-02-08 华中科技大学 基于自适应抽样的视频内容检测方法与系统
CN104331442A (zh) * 2014-10-24 2015-02-04 华为技术有限公司 视频分类方法和装置
US10762894B2 (en) * 2015-03-27 2020-09-01 Google Llc Convolutional neural networks
CN104951965B (zh) * 2015-06-26 2017-04-19 深圳市腾讯计算机系统有限公司 广告投放方法及装置
CN104966104B (zh) * 2015-06-30 2018-05-11 山东管理学院 一种基于三维卷积神经网络的视频分类方法
US9697833B2 (en) * 2015-08-25 2017-07-04 Nuance Communications, Inc. Audio-visual speech recognition with scattering operators
CN106503723A (zh) * 2015-09-06 2017-03-15 华为技术有限公司 一种视频分类方法及装置
CN105550699B (zh) * 2015-12-08 2019-02-12 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
JP6517681B2 (ja) 2015-12-17 2019-05-22 日本電信電話株式会社 映像パターン学習装置、方法、及びプログラム
US11055537B2 (en) * 2016-04-26 2021-07-06 Disney Enterprises, Inc. Systems and methods for determining actions depicted in media contents based on attention weights of media content frames
CN106131627B (zh) * 2016-07-07 2019-03-26 腾讯科技(深圳)有限公司 一种视频处理方法、装置及系统
US10402697B2 (en) * 2016-08-01 2019-09-03 Nvidia Corporation Fusing multilayer and multimodal deep neural networks for video classification
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类系统
US11263525B2 (en) * 2017-10-26 2022-03-01 Nvidia Corporation Progressive modification of neural networks
US10334202B1 (en) * 2018-02-28 2019-06-25 Adobe Inc. Ambient audio generation based on visual information
US20190286990A1 (en) * 2018-03-19 2019-09-19 AI Certain, Inc. Deep Learning Apparatus and Method for Predictive Analysis, Classification, and Feature Detection
US10860858B2 (en) * 2018-06-15 2020-12-08 Adobe Inc. Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices
US10418957B1 (en) * 2018-06-29 2019-09-17 Amazon Technologies, Inc. Audio event detection
US10699129B1 (en) * 2019-11-15 2020-06-30 Fudan University System and method for video captioning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100656373B1 (ko) * 2005-12-09 2006-12-11 한국전자통신연구원 시간구간별 우선순위와 판별정책을 적용하는 유해 동영상판별 방법 및 그 장치
JP2017000660A (ja) * 2015-06-16 2017-01-05 プレキシオン株式会社 光音響画像化装置および光源ユニット

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
S. Chen et al., ‘Aggregating Frame-level Features for Large-Scale Video classification,’CoRR, arXiv:1707.00803v1 [cs.CV] (2017.07.01.) 1부.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200140589A (ko) * 2019-06-07 2020-12-16 국방과학연구소 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법
KR102430989B1 (ko) 2021-10-19 2022-08-11 주식회사 노티플러스 인공지능 기반 콘텐츠 카테고리 예측 방법, 장치 및 시스템

Also Published As

Publication number Publication date
US20190384985A1 (en) 2019-12-19
JP2020533709A (ja) 2020-11-19
US10956748B2 (en) 2021-03-23
CN109508584B (zh) 2022-12-02
CN109508584A (zh) 2019-03-22
EP3683723A4 (en) 2021-06-23
CN110532996A (zh) 2019-12-03
KR102392943B1 (ko) 2022-04-29
JP7127120B2 (ja) 2022-08-29
CN110532996B (zh) 2021-01-22
MA50252A (fr) 2020-07-22
WO2019052301A1 (zh) 2019-03-21
EP3683723A1 (en) 2020-07-22

Similar Documents

Publication Publication Date Title
KR102392943B1 (ko) 비디오 분류 방법, 정보 처리 방법 및 서버
CN108229667B (zh) 基于人工神经网络类别的修剪
WO2021164326A1 (zh) 一种视频处理方法、装置、设备及计算机可读存储介质
CN109522450B (zh) 一种视频分类的方法以及服务器
JP2021516398A (ja) 音楽推薦方法、装置、コンピューティング機器及び媒体
CN109145828B (zh) 用于生成视频类别检测模型的方法和装置
CN109376267B (zh) 用于生成模型的方法和装置
CN108197592B (zh) 信息获取方法和装置
US9846808B2 (en) Image integration search based on human visual pathway model
CN109816039A (zh) 一种跨模态信息检索方法、装置和存储介质
CN109635918A (zh) 基于云平台和预设模型的神经网络自动训练方法和装置
CN113094552A (zh) 视频模板的搜索方法、装置、服务器及可读存储介质
US9330171B1 (en) Video annotation using deep network architectures
CN106776673A (zh) 多媒体文档概括
CN110083729B (zh) 一种图像搜索的方法及系统
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN107291845A (zh) 一种基于预告片的电影推荐方法及系统
CN111866610A (zh) 用于生成信息的方法和装置
CN111144575A (zh) 舆情预警模型的训练方法、预警方法、装置、设备及介质
CN116091174A (zh) 推荐策略优化系统、方法、装置及相关设备
JP6015504B2 (ja) ビデオ処理装置、ビデオ処理方法及び設備
CN111626398B (zh) 运算方法、装置及相关产品
WO2021008026A1 (zh) 视频分类方法、装置、计算机设备和存储介质
US11430219B2 (en) Explainable video performance prediction
US11941885B2 (en) Generating a highlight video from an input video

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant