KR102321039B1 - 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램 - Google Patents

머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102321039B1
KR102321039B1 KR1020190089131A KR20190089131A KR102321039B1 KR 102321039 B1 KR102321039 B1 KR 102321039B1 KR 1020190089131 A KR1020190089131 A KR 1020190089131A KR 20190089131 A KR20190089131 A KR 20190089131A KR 102321039 B1 KR102321039 B1 KR 102321039B1
Authority
KR
South Korea
Prior art keywords
dataset
test
subspace
training
video
Prior art date
Application number
KR1020190089131A
Other languages
English (en)
Other versions
KR20210011797A (ko
Inventor
김상백
Original Assignee
주식회사 카이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 카이 filed Critical 주식회사 카이
Priority to KR1020190089131A priority Critical patent/KR102321039B1/ko
Publication of KR20210011797A publication Critical patent/KR20210011797A/ko
Application granted granted Critical
Publication of KR102321039B1 publication Critical patent/KR102321039B1/ko

Links

Images

Classifications

    • G06K9/00718
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • G06K9/481
    • G06K9/627
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

비디오를 분류하는 장치는 비디오 데이터에 대한 트레이닝 도메인의 트레이닝 데이터세트 및 테스트 도메인의 테스트 데이터세트를 입력받는 입력부, 상기 테스트 도메인에 대해 기설정된 커널을 적용하여 상기 테스트 데이터세트의 성분값을 추출하는 성분 추출부, 상기 추출된 테스트 데이터세트의 성분값에 기초하여 상기 테스트 도메인에 대한 부분 공간을 생성하는 부분 공간 생성부, 상기 부분 공간에 상기 트레이닝 데이터세트를 투영하는 투영부, 상기 부분 공간에 투영된 트레이닝 데이터세트로부터 상기 테스트 도메인에 적응된 특성 벡터를 추출하는 특성 벡터 추출부 및 상기 추출된 특성 벡터에 기초하여 복수의 비디오를 분류하는 분류부를 포함한다.

Description

머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램{APPARATUS, METHOD AND COMPUTER PROGRAM FOR CATEGORIZING VIDEOS BASED ON MACHINE LEARNING}
본 발명은 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.
최근에는 인터넷의 대중화와 컴퓨터 통신 기술의 급격한 발전에 따라 새로운 멀티미디어 정보 서비스에 대한 요구가 증가하고 있으며, 이로 인해, 멀티미디어 정보 처리를 요구하는 다양한 응용 분야의 출현으로 대량의 멀티미디어 정보를 효율적으로 가공하여 저장하고, 검색하고 재생할 수 있는 기술 개발의 필요성이 증대되고 있다.
멀티미디어 정보 중 비디오 정보는 방송, 교육, 출판, 도서관 등의 다양한 분야에서 중요한 요소로 부각되고 있으며, 비디오 검색은 대용량 데이터베이스에 저장된 비디오 데이터들 중 원하는 정보를 효율적으로 찾아내는 방법을 연구하는 기술로 그 필요성으로 인해 비디오 정보 처리 연구의 핵심이 되고 있다.
이와 관련하여, 선행기술인 한국공개특허 제2019-0133040호는 비디오 분류 방법, 정보 처리 방법 및 서버를 개시하고 있다.
최근에는 인공지능을 통해 이미지가 나타내는 상황을 파악하여 비디오의 카테고리를 자동으로 분류할 수 있게 되었다. 그러나 비디오 카테고리의 자동 분류는 비디오가 나타내는 상황의 모호성 및 불충분한 정보로 인해 매우 어렵다는 단점을 가지고 있다. 또한, 비디오 카테고리의 자동 분류를 머신러닝을 이용하여 학습하고자 하는 경우, 트레이닝 도메인과 테스트 도메인 간의 분포 차이로 인해 정확도가 떨어진다는 단점을 가지고 있다.
학습된 모델이 새로운 입력에 대하여 에러율이 높아지는 현상을 방지하도록 하는 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
테스트 도메인에 대해 부분 공간을 생성하고, 생성된 부분 공간에 트레이닝 데이터세트를 투영하여 트레이닝 데이터세트가 테스트 데이터세트와 유사한 분포를 가지도록 함으로써, 트레이닝 도메인과 테스트 도메인 간의 분포 차이를 감소시키는 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
추출된 비디오의 특성을 이용하여 비디오의 카테고리를 결정하도록 하는 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 비디오 데이터에 대한 트레이닝 도메인의 트레이닝 데이터세트 및 테스트 도메인의 테스트 데이터세트를 입력받는 입력부, 상기 테스트 도메인에 대해 기설정된 커널을 적용하여 상기 테스트 데이터세트의 성분값을 추출하는 성분 추출부, 상기 추출된 테스트 데이터세트의 성분값에 기초하여 상기 테스트 도메인에 대한 부분 공간을 생성하는 부분 공간 생성부, 상기 부분 공간에 상기 트레이닝 데이터세트를 투영하는 투영부, 상기 부분 공간에 투영된 트레이닝 데이터세트로부터 상기 테스트 도메인에 적응된 특성 벡터를 추출하는 특성 벡터 추출부 및 상기 추출된 특성 벡터에 기초하여 복수의 비디오를 분류하는 분류부를 포함하는 비디오 특성 추출 장치를 제공할 수 있다.
본 발명의 다른 실시예는, 비디오 데이터에 대한 트레이닝 도메인의 트레이닝 데이터세트 및 테스트 도메인의 테스트 데이터세트를 입력받는 단계, 상기 테스트 도메인에 대해 기설정된 커널을 적용하여 상기 테스트 데이터세트의 성분값을 추출하는 단계, 상기 추출된 테스트 데이터세트의 성분값에 기초하여 상기 테스트 도메인에 대한 부분 공간을 생성하는 단계, 상기 부분 공간에 상기 트레이닝 데이터세트를 투영하는 단계, 상기 부분 공간에 투영된 트레이닝 데이터세트로부터 상기 테스트 도메인에 적응된 특성 벡터를 추출하는 단계 및 상기 추출된 특성 벡터에 기초하여 복수의 비디오를 분류하는 단계를 포함하는 비디오 분류 방법을 제공할 수 있다.
본 발명의 또 다른 실시예는, 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 비디오 데이터에 대한 트레이닝 도메인의 트레이닝 데이터세트 및 테스트 도메인의 테스트 데이터세트를 입력받고, 상기 테스트 도메인에 대해 기설정된 커널을 적용하여 상기 테스트 데이터세트의 성분값을 추출하고, 상기 추출된 테스트 데이터세트의 성분값에 기초하여 상기 테스트 도메인에 대한 부분 공간을 생성하고, 상기 부분 공간에 상기 트레이닝 데이터세트를 투영하고, 상기 부분 공간에 투영된 트레이닝 데이터세트로부터 상기 테스트 도메인에 적응된 특성 벡터를 추출하고, 상기 추출된 특성 벡터에 기초하여 복수의 비디오를 분류하도록 하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램을 제공할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 학습된 모델이 새로운 입력에 대하여 에러율이 높아지는 현상을 방지하도록 하는 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
테스트 도메인에 대해 부분 공간을 생성하고, 생성된 부분 공간에 트레이닝 데이터세트를 투영하여 트레이닝 데이터세트가 테스트 데이터세트와 유사한 분포를 가지도록 함으로써, 트레이닝 도메인과 테스트 도메인 간의 분포 차이를 감소시키는 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
추출된 비디오의 특성을 이용하여 비디오의 카테고리를 결정하도록 하는 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 머신러닝 기반의 비디오 분류 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 머신러닝 기반의 비디오 분류 장치에서 비디오를 분류하는 과정을 설명하기 위한 예시적인 도면이다.
도 3은 본 발명의 일 실시예에 따른 머신러닝 기반의 비디오 분류 장치에서 비디오를 분류하는 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
종래의 프레임 기반으로 비디오를 분류하는 경우, 인접 프레임 간의 유사 정보로 인해 특성들의 중복이 많이 발생되었다. 이 경우, 추출된 특성들을 정렬하여 중복을 제거함으로써, 해당 비디오와 관련된 이벤트를 인식하고, 핵심 프레임을 찾을 수 있게 되었다.
그러나 본 발명에서는 적당한 간격의 샘플링을 이용함으로써, 프레임의 수도 줄이면서, 프레임 간의 중복 정보를 줄여 특성을 정렬하는 단계를 생략할 수 있다. 또한, 이러한 과정을 통해 종래에 비디오와 관련된 이벤트를 인식하고, 핵심 프레임을 찾기까지 걸리는 시간을 단축시킬 수 있다는 장점을 갖는다.
또한, 본 발명에서는 축약 프레임 네트워크(RFN, Reduced Frame Network)를 이용하여 샘플링된 프레임 입력을 생성하고, 도메인 적응(DA, Domain Adaptation)을 적용한 특징 추출 모델을 이용하여 프레임 간의 독립성을 확보하고, 도메인 적응을 통해 트레이닝 데이터세트의 분포와 테스트 데이터세트의 분포 차이를 극복하여 테스트 데이터세트에 대한 분류 정확도를 향상시켜 테스트 에러를 최소화시킬 수 있다는 장점을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 머신러닝 기반의 비디오 분류 장치의 구성도이다. 도 1을 참조하면, 비디오 분류 장치(100)는 입력부(110), 성분 추출부(120), 부분 공간 생성부(130), 투영부(140), 특성 벡터 추출부(150) 및 분류부(160)를 포함할 수 있다.
입력부(110)는 비디오 데이터에 대한 트레이닝 도메인의 트레이닝 데이터세트(
Figure 112019075726113-pat00001
) 및 레이블(lable)이 존재하지 않는 테스트 도메인의 테스트 데이터세트(
Figure 112019075726113-pat00002
)를 입력받을 수 있다.
트레이닝 데이터세트(
Figure 112020091464730-pat00003
)는 비디오 데이터로부터 소정의 시간 간격으로 샘플링되어 기설정된 레이블이 존재하는 프레임의 트레이닝 데이터(xi), 샘플링된 프레임의 클래스(L), 트레이닝 데이터의 프레임 수(N) 등을 포함할 수 있다.
샘플링된 프레임은 객체의 얼굴이 포함되어 이벤트의 인지가 가능한 프레임일 수 있다. 객체의 얼굴은 이벤트를 특징 짓는 중요한 역할을 하며, 객체의 얼굴을 이용하는 경우, 긴 영상의 필요 없이 사진 한장으로 비디오의 이벤트를 인지할 수 있다는 장점을 갖는다. 따라서, 객체가 없는 프레임을 제외시킨 후, 특정 시간 간격(예를 들어, 3초)으로 샘플링하여 입력 데이터를 줄이면서, 프레임 간의 상관계수를 줄여 특성들 간에 중복되지 않도록 할 수 있다.
트레이닝 데이터세트(
Figure 112019075726113-pat00004
)에서
Figure 112019075726113-pat00005
는 i번째의 프레임 또는 사진의 특성 벡터로, 프레임의 크기는 가로가 W, 세로가 H일 때, D=3
Figure 112019075726113-pat00006
W
Figure 112019075726113-pat00007
H 차원으로 주어지며 각 성분은 0~255의 정수 값의 픽셀로 구성된다. D는 특성의 수를 나타낸다.
Figure 112019075726113-pat00008
Figure 112019075726113-pat00009
의 클래스로, i번째 프레임의 라벨로서 어떤 클래스에 포함된 이미지인지를 나타낸다. L은 클래스 수를 나타내고, N은 트레이닝 데이터세트의 프레임 수를 나타낸다.
테스트 데이터세트(
Figure 112020091464730-pat00010
)는 비디오 데이터로부터 소정의 시간 간격으로 샘플링되어 레이블이 존재하지 않는 프레임의 테스트 데이터(zi), 테스트 데이터의 프레임 수(N') 등을 포함할 수 있다. 여기서, 테스트 데이터세트의 N'는 테스트 데이터세트의 프레임 수를 나타내며, 테스트 데이터세트의 성분값의 수(d)는 테스트 데이터의 프레임 수(N')보다 작을 수 있다. 예를 들어, 트레이닝 데이터(
Figure 112020091464730-pat00011
)는 테스트 데이터세트의 성분값의 수(d)로,
Figure 112020091464730-pat00012
의 직교정규된 고유 벡터로 구성된 주성분의 합으로 나타내어 질 수 있다.
성분 추출부(120)는 테스트 도메인에 대해 기설정된 커널을 적용하여 테스트 데이터세트로부터 고유 벡터로 구성된 성분값을 추출할 수 있다. 기설정된 커널(kernel function)은, 예를 들어, 다음의 수학식 1을 이용하여 도출될 수 있다.
Figure 112019075726113-pat00013
수학식 1을 참조하면, 커널(K)은 가우시안 커널 또는 RBF(Radial Basis Function) 커널이라 하며,
Figure 112019075726113-pat00014
인 특성 공간 X를 임의의 차원의 힐버트(Hilbert) 공간 H로 매핑시켜 최대마진을 가지는 선형(H 상에서) 분리가 가능하도록 해주는 함수로,
Figure 112019075726113-pat00015
와 같이 주어질 수 있다. 이에 해당하는 힐버트 공간 H와 매핑
Figure 112019075726113-pat00016
가 존재함에 따라
Figure 112019075726113-pat00017
를 만족함으로써,
Figure 112019075726113-pat00018
가 성립될 수 있다.
성분 추출부(120)는, 예를 들어, 다음의 수학식 2를 통해 테스트 도메인에 적용할 커널 함수를 결정할 수 있다.
Figure 112019075726113-pat00019
여기서,
Figure 112019075726113-pat00020
은 RBF 커널의 파라미터로 여러 번의 시행을 통해 도출된 최적의 값일 수 있다.
성분 추출부(120)는 결정된 커널 함수를 이용하여, 예를 들어, 다음의 수학식 3 및 4를 통해 커널 행렬을 정규화할 수 있다.
Figure 112019075726113-pat00021
Figure 112019075726113-pat00022
성분 추출부(120)는 수학식 3을 이용하여 커널 행렬을 정규화하고, 수학식 4를 이용하여 정규화된 커널을 행렬 형태로 나타낼 수 있다. 여기서, '
Figure 112019075726113-pat00023
Figure 112019075726113-pat00024
'는 성분이 모두 '1'인 N'
Figure 112019075726113-pat00025
N' 행렬일 수 있다.
성분 추출부(120)는, 예를 들어, 다음의 수학식 5를 통해 정규화된 커널 행렬에 대해 고유 벡터 및 고유값을 포함하는 고유쌍(eigenpair)을 산출할 수 있다.
Figure 112019075726113-pat00026
수학식 5를 참조하면, 성분 추출부(120)는 커널 행렬(
Figure 112019075726113-pat00027
)의 고유 벡터(
Figure 112019075726113-pat00028
)와 해당 고유값(
Figure 112019075726113-pat00029
)을 포함하는 고유쌍을 산출할 수 있다. 이 때, 산출된 커널 행렬의 고유쌍은 고유값의 크기 순으로 배열하여,
Figure 112019075726113-pat00030
가 만족되도록 할 수 있다.
부분 공간 생성부(130)는 추출된 테스트 데이터세트의 성분값에 기초하여 테스트 도메인에 대해 트레이닝 데이터세트가 테스트 데이터세트의 분포를 가지도록 하는 부분 공간(
Figure 112020091464730-pat00031
)을 생성할 수 있다.
투영부(140)는 부분 공간(
Figure 112019075726113-pat00032
)에 트레이닝 데이터세트(
Figure 112019075726113-pat00033
)를 투영할 수 있다. 예를 들어, 투영부(140)는 트레이닝 데이터세트(
Figure 112019075726113-pat00034
)가 테스트 데이터세트(
Figure 112019075726113-pat00035
)와 유사한 분포를 가지도록 생성된 테스트 도메인의 부분 공간(
Figure 112019075726113-pat00036
)에 트레이닝 데이터세트(
Figure 112019075726113-pat00037
)를 투영할 수 있다.
종래에는 트레이닝 데이터와 테스트 데이터를 모두 여러 중간 단계의 부분 공간으로 매핑시킴으로써 비디오 카테고리 분류에 있어서 복잡도가 매우 높았으나, 본 발명은 테스트 도메인의 부분 공간으로의 매핑만을 고려하여 복잡도를 감소시킨다는 장점을 갖는다. 또한, 종래에는 트레이닝 도메인과 테스트 도메인 양쪽에 PCA(Principal Component Analysis)를 적용하는 반면, 본 발명에서는 테스트 도메인에서만 커널 PCA(Kernel Principal Component Analysis)를 적용함으로써 특정 테스트 데이터세트에 국한되지 않는 총체적인 적응성을 확보하는 동시에 높은 정확도를 제공한다는 장점을 갖는다.
특성 벡터 추출부(150)는 부분 공간(
Figure 112019075726113-pat00038
)에 투영된 트레이닝 데이터세트(
Figure 112019075726113-pat00039
)로부터 테스트 도메인에 적응된 특성 벡터(
Figure 112019075726113-pat00040
)를 추출할 수 있다. 예를 들어, 특성 벡터 추출부(150)는, 예를 들어, 다음의 수학식 6 통해 부분 공간(
Figure 112019075726113-pat00041
)에 투영된 트레이닝 데이터(
Figure 112019075726113-pat00042
)로부터 테스트 도메인에 적응된 특성 벡터(
Figure 112019075726113-pat00043
)를 추출할 수 있다. 여기서, 특성 벡터 추출부(150)는 예를 들어,
Figure 112019075726113-pat00044
중 크기 순으로 d개의 성분을 선택할 수 있다.
Figure 112019075726113-pat00045
특성 벡터 추출부(150)는 산출된 커널 행렬의 고유쌍에 기초하여 부분 공간(
Figure 112019075726113-pat00046
)에 투영됨으로써 테스트 도메인에 적응된 트레이닝 데이터(
Figure 112019075726113-pat00047
)를 특성 벡터(
Figure 112019075726113-pat00048
)로 추출할 수 있다. 구체적으로, 특성 벡터 추출부(150)는 부분 공간(
Figure 112019075726113-pat00049
)에 투영됨으로써 테스트 도메인에 적응된 트레이닝 데이터(
Figure 112019075726113-pat00050
)를 테스트 데이터세트에서 추출된 주성분 각각의 고유 벡터와 선형 결합을 통해 변형되어 특성 벡터를 추출할 수 있다. 예를 들어, 특성 벡터 추출부(150)는 트레이닝 데이터(
Figure 112019075726113-pat00051
)를 d개의 주성분 고유벡터(
Figure 112019075726113-pat00052
, j = 1, ..., d)의 선형결합으로 변형시켜 특성 벡터를 추출할 수 있다.
특성 벡터 추출부(150)는 추출된 특성 벡터를, 예를 들어, 수학식 7과 같이 매핑시킬 수 있다.
Figure 112019075726113-pat00053
분류부(160)는 추출된 특성 벡터에 기초하여 복수의 비디오를 분류할 수 있다. 분류부(160)는 추출된 특성 벡터에 기초하여 안면 인식에 적합한 RBF(Radial Basis Function) 커널 함수를 적용한 다중 클래스 RBF-SVM(Radial Basis Function-Support Vector Machine)을 이용하여 복수의 비디오를 분류할 수 있다. 여기서, 다중 클래스 RBF-SVM은 One-Against-One 모형 및 One-Against-All 모형을 포함할 수 있다.
분류부(160)는 트레이닝 데이터세트에 따라 비디오 분류 기법을 One-Against-One 모형 및 One-Against-All 모형 중 어느 하나를 선택하여 비디오를 분류할 수 있다.
예를 들어, 분류부(160)는 트레이닝 데이터세트로 프레임과 각 프레임의 클래스(레이블)가 주어지는 경우, 프레임 기반의 비디오 분류 기법인 프레임 레벨 Supervised Learning(FLSL) 기법의 One-Against-One 모형을 적용하여 비디오를 분류할 수 있다. 이는, L(L-1)/2개의 분류기를 계산한 후, 다수결(Majority Voting)에 기초하여 새로운 프레임에 대한 클래스를 결정하고, 주어진 비디오의 모든(또는 일부) 프레임을 각 클래스 별로 분류할 수 있다. 이 방법은 이미지에 포함된 객체의 안면 특성에 민감한 RBF-SVM을 이용함으로써, 기존의 다양한 이미지 전처리를 동반한 단순 SVM 방법 또는 CNN(Convolutional Neural Network) 앙상블을 이용하여 이미지 특성을 통해 소프트맥스(SoftMax)를 적용한 기법 보다 간단하고, 더 향상된 정확도를 제공한다는 장점을 갖는다.
다른 예를 들어, 분류부(160)는 트레이닝 데이터세트가 비디오와 해당 클래스로만 주어지는 경우, 해당 프레임의 클래스는 알 수 없으므로, 다중 인스턴스 러닝(MIL, Multiple Insatance Learning) 기법의 One-Against-All 모형을 적용하여 비디오를 분류할 수 있다. 분류부(160)는 mi-SVM을 통해 각 프레임의 클래스를 함께 추정함으로써, 주어진 비디오의 프레임을 각 클래스 별로 분류할 수 있다.
이러한 과정을 거쳐, 분류부(160)는 가장 많이 분류된 클래스를 해당 비디오의 이벤트 클래스로 추정함으로써, 추출된 특성 벡터에 기초하여 비디오의 이벤트(예를 들어, 운동회, 회의, 소풍, 수영, 테니스, 교통 등)에 따라 각 비디오를 분류할 수 있다.
이러한 비디오 분류 장치(100)는 비디오를 분류하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 의해 실행될 수 있다. 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 비디오 데이터에 대한 트레이닝 도메인의 트레이닝 데이터세트 및 테스트 도메인의 테스트 데이터세트를 입력받고, 테스트 도메인에 대해 기설정된 커널을 적용하여 테스트 데이터세트의 성분값을 추출하고, 추출된 테스트 데이터세트의 성분값에 기초하여 테스트 도메인에 대한 부분 공간을 생성하고, 부분 공간에 트레이닝 데이터세트를 투영하고, 부분 공간에 투영된 트레이닝 데이터세트로부터 테스트 도메인에 적응된 특성 벡터를 추출하고, 추출된 특성 벡터에 기초하여 복수의 비디오를 분류하도록 하는 명령어들의 시퀀스를 포함할 수 있다.
도 2는 본 발명의 일 실시예에 따른 머신러닝 기반의 비디오 분류 장치에서 비디오를 분류하는 과정을 설명하기 위한 예시적인 도면이다. 도 2를 참조하면, 비디오 분류 장치(100)는 입력되는 비디오 데이터(200)에 대해 약 3초 간격으로 샘플링(210)을 수행할 수 있다.
이후, 비디오 분류 장치(100)는 샘플링된 각 프레임(230)에 대해 커널 PCA(240)를 적용하여 특성 벡터(250)를 추출할 수 있다. 이 때, 비디오 분류 장치(100)는 도메인 적응(220, DA: Domain Adaption)을 위해 트레이닝 도메인의 트레이닝 데이터를 커널 PCA가 적용되어 도메인의 특성이 잘 나타내어 지도록 부분 공간으로 표현된 테스트 도메인를 매핑하여 특성 벡터(250)를 추출할 수 있다.
트레이닝 도메인의 프레임
Figure 112019075726113-pat00054
는 테스트 도메인에 적응되어 특성 벡터(250,
Figure 112019075726113-pat00055
)가 추출될 수 있다. 여기서, 추출된 특성 벡터는 비디오의 이벤트를 인식하기 위한 최종 입력으로 이용될 수 있다.
도 3은 본 발명의 일 실시예에 따른 머신러닝 기반의 비디오 분류 장치에서 비디오를 분류하는 방법의 순서도이다. 도 3에 도시된 비디오 분류 장치(100)에서 비디오를 분류하는 방법은 도 1 및 도 2에 도시된 실시예에 따라 비디오 분류 장치(100)에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 및 도 2에 도시된 실시예에 따른 비디오 분류 장치(100)에서 수행되는 비디오를 분류하는 방법에도 적용된다.
단계 S310에서 비디오 분류 장치(100)는 비디오 데이터에 대한 트레이닝 도메인의 트레이닝 데이터세트 및 테스트 도메인의 테스트 데이터세트를 입력받을 수 있다.
단계 S320에서 비디오 분류 장치(100)는 테스트 도메인에 대해 기설정된 커널을 적용하여 테스트 데이터세트의 성분값을 추출할 수 있다.
단계 S330에서 비디오 분류 장치(100)는 추출된 테스트 데이터세트의 성분값에 기초하여 테스트 도메인에 대한 부분 공간을 생성할 수 있다.
단계 S340에서 비디오 분류 장치(100)는 부분 공간에 트레이닝 데이터세트를 투영할 수 있다.
단계 S350에서 비디오 분류 장치(100)는 부분 공간에 투영된 트레이닝 데이터세트로부터 테스트 도메인에 적응된 특성 벡터를 추출할 수 있다.
단계 S360에서 비디오 분류 장치(100)는 추출된 특성 벡터에 기초하여 복수의 비디오를 분류할 수 있다.
상술한 설명에서, 단계 S310 내지 S360은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.
도 1 내지 도 3을 통해 설명된 비디오 분류 장치에서 비디오를 분류하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 3을 통해 설명된 비디오 분류 장치에서 비디오를 분류하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 비디오 분류 장치
110: 입력부
120: 성분 추출부
130: 부분 공간 생성부
140: 투영부
150: 특성 벡터 추출부
160: 분류부

Claims (20)

  1. 비디오를 분류하는 장치에 있어서,
    복수의 비디오에 대한 비디오 데이터로부터 소정의 시간 간격으로 샘플링되어 기설정된 레이블이 존재하는 트레이닝 데이터세트 및 상기 비디오 데이터로부터 소정의 시간 간격으로 샘플링되어 상기 레이블이 존재하지 않는 테스트 데이터세트를 입력받는 입력부;
    기설정된 커널을 적용하여 상기 테스트 데이터세트로부터 고유 벡터로 구성된 성분값을 추출하는 성분 추출부;
    상기 추출된 성분값에 기초하여 상기 트레이닝 데이터세트가 상기 테스트 데이터세트의 분포를 가지도록 하는 부분 공간을 생성하는 부분 공간 생성부;
    상기 부분 공간에 상기 트레이닝 데이터세트를 투영하는 투영부;
    상기 부분 공간에 투영된 트레이닝 데이터세트로부터 특성 벡터를 추출하는 특성 벡터 추출부; 및
    상기 추출된 특성 벡터에 기초하여 상기 복수의 비디오의 각 프레임 별로 클래스를 분류하고, 가장 많이 분류된 클래스에 따라 상기 복수의 비디오에 해당하는 이벤트를 추정하고, 상기 추정된 이벤트에 따라 상기 복수의 비디오를 분류하는 분류부
    를 포함하는, 비디오 분류 장치.
  2. 제 1 항에 있어서,
    상기 투영부는 상기 트레이닝 데이터세트가 상기 테스트 데이터세트와 유사한 분포를 가지도록 상기 생성된 부분 공간에 상기 트레이닝 데이터세트를 투영하는 것인, 비디오 분류 장치.
  3. 제 1 항에 있어서,
    상기 성분 추출부는 커널 함수를 결정하고, 상기 결정된 커널 함수를 이용하여 커널 행렬을 정규화하는 것인, 비디오 분류 장치.
  4. 제 3 항에 있어서,
    상기 성분 추출부는 상기 정규화된 커널 행렬에 대해 상기 고유 벡터 및 고유값을 포함하는 고유쌍(eigenpair)을 산출하는 것인, 비디오 분류 장치.
  5. 제 4 항에 있어서,
    상기 산출된 커널 행렬의 고유쌍은 상기 고유값의 크기 순으로 배열되는 것인, 비디오 분류 장치.
  6. 제 5 항에 있어서,
    상기 특성 벡터 추출부는 상기 산출된 커널 행렬의 고유쌍에 기초하여 상기 부분 공간에 투영됨으로써 상기 트레이닝 데이터를 상기 특성 벡터로 추출하는 것인, 비디오 분류 장치.
  7. 제 6 항에 있어서,
    상기 특성 벡터 추출부는 상기 부분 공간에 투영됨으로써 상기 트레이닝 데이터를 상기 테스트 데이터세트에서 추출된 주성분 각각의 고유 벡터와 선형 결합을 통해 변형시켜 매핑하는 것인, 비디오 분류 장치.
  8. 제 1 항에 있어서,
    상기 트레이닝 데이터세트는 상기 비디오 데이터로부터 소정의 시간 간격으로 샘플링된 프레임의 트레이닝 데이터, 상기 샘플링된 프레임의 클래스, 상기 트레이닝 데이터의 프레임 수 중 적어도 하나를 포함하고,
    상기 테스트 데이터세트는 상기 비디오 데이터로부터 소정의 시간 간격으로 샘플링된 프레임의 테스트 데이터, 상기 테스트 데이터의 프레임 수 중 적어도 하나를 포함하는 것인, 비디오 분류 장치.
  9. 제 8 항에 있어서,
    상기 샘플링된 프레임은 객체의 얼굴이 포함되어 이벤트의 인지가 가능한 프레임인 것인, 비디오 분류 장치.
  10. 제 8 항에 있어서,
    상기 테스트 데이터세트의 성분값의 수는 상기 테스트 데이터의 프레임 수보다 작은 것인, 비디오 분류 장치.
  11. 비디오 분류 장치에서 비디오를 분류하는 방법에 있어서,
    복수의 비디오에 대한 비디오 데이터로부터 소정의 시간 간격으로 샘플링되어 기설정된 레이블이 존재하는 트레이닝 데이터세트 및 상기 비디오 데이터로부터 소정의 시간 간격으로 샘플링되어 상기 레이블이 존재하지 않는 테스트 데이터세트를 입력받는 단계;
    기설정된 커널을 적용하여 상기 테스트 데이터세트로부터 고유 벡터로 구성된 성분값을 추출하는 단계;
    상기 추출된 성분값에 기초하여 상기 트레이닝 데이터세트가 상기 테스트 데이터세트의 분포를 가지도록 하는 부분 공간을 생성하는 단계;
    상기 부분 공간에 상기 트레이닝 데이터세트를 투영하는 단계;
    상기 부분 공간에 투영된 트레이닝 데이터세트로부터 특성 벡터를 추출하는 단계; 및
    상기 추출된 특성 벡터에 기초하여 상기 복수의 비디오의 각 프레임 별로 클래스를 분류하고, 가장 많이 분류된 클래스에 따라 상기 복수의 비디오에 해당하는 이벤트를 추정하고, 상기 추정된 이벤트에 따라 상기 복수의 비디오를 분류하는 단계
    를 포함하는, 비디오 분류 방법.
  12. 제 11 항에 있어서,
    상기 트레이닝 데이터세트를 투영하는 단계는,
    상기 트레이닝 데이터세트가 상기 테스트 데이터세트와 유사한 분포를 가지도록 상기 생성된 부분 공간에 상기 트레이닝 데이터세트를 투영하는 단계를 포함하는 것인, 비디오 분류 방법.
  13. 제 11 항에 있어서,
    상기 테스트 데이터세트의 성분값을 추출하는 단계는,
    커널 함수를 결정하고, 상기 결정된 커널 함수를 이용하여 커널 행렬을 정규화하는 단계를 포함하는 것인, 비디오 분류 방법.
  14. 제 13 항에 있어서,
    상기 테스트 데이터세트의 성분값을 추출하는 단계는,
    상기 정규화된 커널 행렬에 대해 상기 고유 벡터 및 고유값을 포함하는 고유쌍(eigenpair)을 산출하는 단계를 포함하는 것인, 비디오 분류 방법.
  15. 제 14 항에 있어서,
    상기 산출된 커널 행렬의 고유쌍은 상기 고유값의 크기 순으로 배열되는 것인, 비디오 분류 방법.
  16. 제 15 항에 있어서,
    상기 특성 벡터를 추출하는 단계는,
    상기 산출된 커널 행렬의 고유쌍에 기초하여 상기 부분 공간에 투영됨으로써 상기 트레이닝 데이터를 상기 특성 벡터로 추출하는 단계를 포함하는 것인, 비디오 분류 방법.
  17. 제 16 항에 있어서,
    상기 특성 벡터를 추출하는 단계는,
    상기 부분 공간에 투영됨으로써 상기 트레이닝 데이터를 상기 테스트 데이터세트에서 추출된 주성분 각각의 고유 벡터와 선형 결합을 통해 변형시켜 매핑하는 단계를 포함하는 것인, 비디오 분류 방법.
  18. 제 11 항에 있어서,
    상기 트레이닝 데이터세트는 상기 비디오 데이터로부터 소정의 시간 간격으로 샘플링된 프레임의 트레이닝 데이터, 상기 샘플링된 프레임의 클래스, 상기 트레이닝 데이터의 프레임 수 중 적어도 하나를 포함하고,
    상기 테스트 데이터세트는 상기 비디오 데이터로부터 소정의 시간 간격으로 샘플링된 프레임의 테스트 데이터, 상기 테스트 데이터의 프레임 수 중 적어도 하나를 포함하고,
    상기 테스트 데이터세트의 성분값의 수는 상기 테스트 데이터의 프레임 수보다 작은 것인, 비디오 분류 방법.
  19. 제 8 항에 있어서,
    상기 샘플링된 프레임은 객체의 얼굴이 포함되어 이벤트의 인지가 가능한 프레임인 것인, 비디오 분류 장치.
  20. 비디오를 분류하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
    복수의 비디오에 대한 비디오 데이터로부터 소정의 시간 간격으로 샘플링되어 기설정된 레이블이 존재하는 트레이닝 데이터세트 및 상기 비디오 데이터로부터 소정의 시간 간격으로 샘플링되어 상기 레이블이 존재하지 않는 테스트 데이터세트를 입력받고,
    기설정된 커널을 적용하여 상기 테스트 데이터세트로부터 고유 벡터로 구성된 성분값을 추출하고,
    상기 추출된 성분값에 기초하여 상기 트레이닝 데이터세트가 상기 테스트 데이터세트의 분포를 가지도록 하는 부분 공간을 생성하고,
    상기 부분 공간에 상기 트레이닝 데이터세트를 투영하고,
    상기 부분 공간에 투영된 트레이닝 데이터세트로부터 특성 벡터를 추출하고,
    상기 추출된 특성 벡터에 기초하여 상기 복수의 비디오의 각 프레임 별로 클래스를 분류하고, 가장 많이 분류된 클래스에 따라 상기 복수의 비디오에 해당하는 이벤트를 추정하고, 상기 추정된 이벤트에 따라 상기 복수의 비디오를 분류하도록 하는 명령어들의 시퀀스를 포함하는, 매체에 저장된 컴퓨터 프로그램.
KR1020190089131A 2019-07-23 2019-07-23 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램 KR102321039B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190089131A KR102321039B1 (ko) 2019-07-23 2019-07-23 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190089131A KR102321039B1 (ko) 2019-07-23 2019-07-23 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20210011797A KR20210011797A (ko) 2021-02-02
KR102321039B1 true KR102321039B1 (ko) 2021-11-04

Family

ID=74559806

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190089131A KR102321039B1 (ko) 2019-07-23 2019-07-23 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR102321039B1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100543707B1 (ko) * 2003-12-04 2006-01-20 삼성전자주식회사 서브그룹별 pca 학습을 이용한 얼굴인식방법 및 장치
US9953271B2 (en) * 2013-11-22 2018-04-24 California Institute Of Technology Generation of weights in machine learning
US10535014B2 (en) * 2014-03-10 2020-01-14 California Institute Of Technology Alternative training distribution data in machine learning

Also Published As

Publication number Publication date
KR20210011797A (ko) 2021-02-02

Similar Documents

Publication Publication Date Title
Baktashmotlagh et al. Distribution-matching embedding for visual domain adaptation
US7447338B2 (en) Method and system for face detection using pattern classifier
US9336433B1 (en) Video face recognition
US9633044B2 (en) Apparatus and method for recognizing image, and method for generating morphable face images from original image
US8170280B2 (en) Integrated systems and methods for video-based object modeling, recognition, and tracking
Ding et al. Audio and face video emotion recognition in the wild using deep neural networks and small datasets
US20140355835A1 (en) System and method for ocr output verification
JP2016134175A (ja) ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム
US11055538B2 (en) Object re-identification with temporal context
Sung et al. Learning human face detection in cluttered scenes
Motiian et al. Online human interaction detection and recognition with multiple cameras
WO2020164278A1 (zh) 一种图像处理方法、装置、电子设备和可读存储介质
Haque et al. Two-handed bangla sign language recognition using principal component analysis (PCA) and KNN algorithm
Demirkus et al. Hierarchical temporal graphical model for head pose estimation and subsequent attribute classification in real-world videos
KR102508067B1 (ko) 약지도 학습 기반 시멘틱 영상 분할 학습 데이터 생성 장치 및 방법
JP5214679B2 (ja) 学習装置、方法及びプログラム
US11380133B2 (en) Domain adaptation-based object recognition apparatus and method
US11423262B2 (en) Automatically filtering out objects based on user preferences
Roth et al. On the exploration of joint attribute learning for person re-identification
Hoxha et al. Remote sensing image captioning with SVM-based decoding
Niaz et al. Fusion methods for multi-modal indexing of web data
WO2022228325A1 (zh) 行为检测方法、电子设备以及计算机可读存储介质
KR102321039B1 (ko) 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램
CN112101479B (zh) 一种发型识别方法及装置
Saha et al. Spatio-temporal human action localisation and instance segmentation in temporally untrimmed videos

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right