KR102314990B1 - 머신러닝 기반으로 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램 - Google Patents

머신러닝 기반으로 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102314990B1
KR102314990B1 KR1020190173363A KR20190173363A KR102314990B1 KR 102314990 B1 KR102314990 B1 KR 102314990B1 KR 1020190173363 A KR1020190173363 A KR 1020190173363A KR 20190173363 A KR20190173363 A KR 20190173363A KR 102314990 B1 KR102314990 B1 KR 102314990B1
Authority
KR
South Korea
Prior art keywords
video
frame
video data
classifying
margin
Prior art date
Application number
KR1020190173363A
Other languages
English (en)
Other versions
KR20210027006A (ko
Inventor
김상백
Original Assignee
주식회사 카이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 카이 filed Critical 주식회사 카이
Publication of KR20210027006A publication Critical patent/KR20210027006A/ko
Application granted granted Critical
Publication of KR102314990B1 publication Critical patent/KR102314990B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

비디오의 프레임을 분류하는 장치는 비디오 데이터에 대한 트레이닝 데이터세트를 입력받는 입력부, 상기 입력된 트레이닝 데이터세트로부터 상기 비디오 데이터의 특성 프레임을 추출하는 추출부 및 상기 추출된 특성 프레임 및 상기 트레이닝 데이터세트에 대해 균등 최대 마진 증거율 문제를 고려하여 상기 비디오의 프레임을 분류하고, 분류된 프레임에 기초하여 비디오를 분류하는 분류부를 포함한다.

Description

머신러닝 기반으로 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램{APPARATUS, METHOD AND COMPUTER PROGRAM FOR CATEGORIZING VIDEO BASED ON MACHINE LEARNING}
본 발명은 머신러닝 기반으로 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.
최근에는 인터넷의 대중화와 컴퓨터 통신 기술의 급격한 발전에 따라 새로운 멀티미디어 정보 서비스에 대한 요구가 증가하고 있으며, 이로 인해, 멀티미디어 정보 처리를 요구하는 다양한 응용 분야의 출현으로 대량의 멀티미디어 정보를 효율적으로 가공하여 저장하고, 검색하고 재생할 수 있는 기술 개발의 필요성이 증대되고 있다.
멀티미디어 정보 중 비디오 정보는 방송, 교육, 출판, 도서관 등의 다양한 분야에서 중요한 요소로 부각되고 있으며, 비디오 검색은 대용량 데이터베이스에 저장된 비디오 데이터들 중 원하는 정보를 효율적으로 찾아내는 방법을 연구하는 기술로 그 필요성으로 인해 비디오 정보 처리 연구의 핵심이 되고 있다.
이와 관련하여, 선행기술인 한국등록특허 제 10-1826669호는 동영상 검색 시스템 및 그 방법을 개시하고 있다.
최근에는 인공지능을 통해 이미지가 나타내는 상황을 파악하여 비디오의 카테고리를 자동으로 분류할 수 있게 되었다. 그러나 비디오 카테고리의 자동 분류는 비디오가 나타내는 상황의 모호성 및 불충분한 정보로 인해 매우 어렵다는 단점을 가지고 있다.
비디오 데이터에 대한 트레이닝 데이터세트를 입력받으면, 입력된 트레이닝 데이터세트로부터 비디오 데이터의 특성 프레임을 추출하는 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
비디오 데이터의 특성 프레임 및 트레이닝 데이터세트에 대해 균등 최대 마진 증거율(Balanced Maximal Margin Evidence Rate) 문제를 고려하여 비디오의 프레임을 분류하고, 분류된 프레임에 기초하여 비디오를 분류하는 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 비디오 데이터에 대한 트레이닝 데이터세트를 입력받는 입력부, 상기 입력된 트레이닝 데이터세트로부터 상기 비디오 데이터의 특성 프레임을 추출하는 추출부 및 상기 추출된 특성 프레임 및 상기 트레이닝 데이터세트에 대해 균등 최대 마진 증거율(Balanced Maximal Margin Evidence Rate) 문제를 고려하여 상기 비디오의 프레임을 분류하고, 상기 분류된 프레임에 기초하여 상기 비디오를 분류하는 분류부를 포함하는 비디오 분류 장치를 제공할 수 있다.
본 발명의 다른 실시예는, 비디오 데이터에 대한 트레이닝 데이터세트를 입력받는 단계, 상기 입력된 트레이닝 데이터세트로부터 상기 비디오 데이터의 특성 프레임을 추출하는 단계 및 상기 추출된 특성 프레임 및 상기 트레이닝 데이터세트에 대해 균등 최대 마진 증거율 문제를 고려하여 상기 비디오의 프레임을 분류하고, 상기 분류된 프레임에 기초하여 상기 비디오를 분류하는 단계를 포함하는 비디오 분류 방법을 제공할 수 있다.
본 발명의 또 다른 실시예는, 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 비디오 데이터에 대한 트레이닝 데이터세트를 입력받고, 상기 입력된 트레이닝 데이터세트로부터 상기 비디오 데이터의 특성 프레임을 추출하고, 상기 추출된 특성 프레임 및 상기 트레이닝 데이터세트에 대해 균등 최대 마진 증거율 문제를 고려하여 상기 비디오의 프레임을 분류하고, 상기 분류된 프레임에 기초하여 상기 비디오를 분류하도록 하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램을 제공할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 트레이닝 데이터세트가 분류된 비디오의 형태로 주어질 경우, 비디오의 프레임 분류 정보가 존재하지 않아 프레임 분류 및 비디오 분류를 수행할 수 없었으나, 이를 균등 최대 마진 증거율 문제를 고려하여 프레임 및 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
비디오 데이터에 대해 포지티브 비디오가 되도록 포지티브 프레임을 할당하고, 각 포지티브 비디오에 균등하게 포지티브 프레임이 분포하도록 균등 최대 증거율 문제를 고려하여 시뮬레이티드 어닐링을 수행하여 비디오의 프레임을 분류하고, 분류된 프레임에 기초하여 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
비디오 데이터에 대해 가장 많이 분류된 프레임의 클래스에 기초하여 비디오의 클래스를 분류하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 머신 러닝 기반의 비디오 분류 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 비디오 분류 장치에서 특성 프레임을 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 3은 본 발명의 일 실시예에 따른 머신러닝 기반의 비디오 분류 장치에서 비디오를 분류하는 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 머신러닝 기반의 비디오 분류 장치의 구성도이다. 도 1을 참조하면, 비디오 분류 장치(100)는 입력부(110), 추출부(120) 및 분류부(130)를 포함할 수 있다.
입력부(110)는 비디오 데이터에 대한 트레이닝 데이터세트(
Figure 112019133127450-pat00001
)를 입력받을 수 있다.
트레이닝 데이터세트(
Figure 112019133127450-pat00002
)는 비디오 데이터로부터 소정의 시간 간격으로 샘플링된 프레임의 트레이닝 데이터(
Figure 112019133127450-pat00003
), 비디오 데이터(
Figure 112019133127450-pat00004
)의 클래스(
Figure 112019133127450-pat00005
), 프레임의 클래스의 수(L), 트레이닝 데이터의 샘플 수(N) 등을 포함할 수 있다.
샘플링된 프레임은 객체의 얼굴이 포함되어 이벤트의 인지가 가능한 프레임일 수 있다. 객체의 얼굴은 이벤트를 특징 짓는 중요한 역할을 하며, 객체의 얼굴을 이용하는 경우, 긴 영상의 필요 없이 사진 한장으로 비디오의 이벤트를 인지할 수 있다는 장점을 갖는다. 따라서, 객체가 없는 프레임을 제외시킨 후, 특정 시간 간격(예를 들어, 3초)으로 샘플링하여 입력 데이터를 줄이면서, 프레임 간의 상관계수를 줄여 특성들 간에 중복되지 않도록 할 수 있다.
추출부(120)는 입력된 트레이닝 데이터세트로부터 비디오 데이터의 특성 프레임을 추출할 수 있다. 여기서, 비디오 데이터의 특성 프레임은 레벨이 존재하지 않는 프레임일 수 있다. 비디오 데이터의 특성 프레임을 추출하는 과정에 대해서는 도 2를 통해 상세히 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 비디오 분류 장치에서 특성 프레임을 추출하는 과정을 설명하기 위한 예시적인 도면이다.
추출부(120)는 축약 프레임 네트워크(RFN, Reduced Frame Network)를 이용하여 특성 프레임을 추출할 수 있다. 축약 프레임 네트워크는 샘플링된 프레임 입력을 생성하고, 도메인 적응(DA, Domain Adaptation)을 적용한 특징 추출 모델을 이용하여 프레임 간의 독립성을 확보하고, 도메인 적응을 통해 트레이닝 데이터세트의 분포와 테스트 데이터세트의 분포 차이를 극복하여 테스트 데이터세트에 대한 분류 정확도를 향상시켜 테스트 에러를 최소화시킬 수 있다.
추출부(120)는 테스트 도메인에 대해 기설정된 커널을 적용하여 테스트 데이터세트의 성분값을 추출하고, 추출된 테스트 데이터세트의 성분값에 기초하여 테스트 도메인에 대한 부분 공간을 생성할 수 있다. 여기서, 테스트 데이터세트는 비디오 데이터로부터 소정의 시간 간격으로 샘플링된 프레임의 테스트 데이터, 테스트 데이터의 프레임 수 등을 포함할 수 있다.
추출부(120)는 부분 공간에 트레이닝 데이터세트를 투영시킴으로써, 부분 공간에 투영된 트레이닝 데이터세트로부터 테스트 도메인에 적응된 특성 프레임(
Figure 112019133127450-pat00006
)을 추출할 수 있다.
도 2를 참조하면, 추출부(120)는 비디오 데이터(200)에 대해 약 3초 간격으로 샘플링(210)을 수행하고, 샘플링된 각 프레임(230)에 대해 커널 PCA(240)를 적용하여 특성 프레임(250)을 추출할 수 있다. 이 때, 추출부(120)는 도메인 적응(220, DA: Domain Adaption)을 위해 트레이닝 도메인의 트레이닝 데이터를 커널 PCA가 적용되어 도메인의 특성이 잘 나타내어 지도록 부분 공간으로 표현된 테스트 도메인을 매핑하여 특성 프레임(250)을 추출할 수 있다.
다시 도 1로 돌아와서, 분류부(130)는 추출된 특성 프레임 및 트레이닝 데이터세트에 대해 균등 최대 마진 증거율(Balanced Maximal Margin Evidence Rate) 문제를 고려하여 비디오의 프레임을 분류하고, 분류된 프레임에 기초하여 비디오를 분류할 수 있다. 이 때, 균등 최대 마진 증거율 문제를 고려하여 비디오의 프레임을 분류하기 위해, 비디오 데이터(
Figure 112019133127450-pat00007
)의 클래스(
Figure 112019133127450-pat00008
), 트레이닝 데이터의 샘플 수(N), 비디오 데이터(
Figure 112019133127450-pat00009
)의 프레임 수를 이용할 수 있다.
분류부(130)는 추출된 특성 프레임의 각 클래스(
Figure 112019133127450-pat00010
)에 대하여 초기화를 수행할 수 있다. 예를 들어, 분류부(130)는 다음의 수학식 1을 이용하여 각 클래스(
Figure 112019133127450-pat00011
)에 대하여 초기화를 수행할 수 있다.
Figure 112019133127450-pat00012
Figure 112019133127450-pat00013
이후, 분류부(130)는 특성 프레임의 각 클래스(
Figure 112019133127450-pat00014
)에 기초하여 균등 최대 마진 증거율 문제를 고려하여 비디오의 프레임을 분류할 수 있다. 비디오의 프레임을 분류하는 과정에 대해서는 다음의 수학식 2 및 3을 통해 설명하도록 한다.
Figure 112019133127450-pat00015
Figure 112019133127450-pat00016
수학식 2 및 3을 참조하면, 분류부(130)는 수학식 2의 균등 최대 마진 증거율 문제를 수학식 3과 같이 단순 마진 문제로 변환할 수 있다. 이 때, 분류부(130)는
Figure 112019133127450-pat00017
Figure 112019133127450-pat00018
로 초기화할 수 있다.
분류부(130)는 변환된 단순 마진 문제에 기초하여 비디오 데이터 중 네거티브 비디오 데이터(negative video data)의 프레임에 대해 네거티브 프레임(-1)으로 초기화하고, 포지티브 비디오 데이터(positive video data)의 프레임에 대해 포지티브 프레임(+1)으로 초기화할 수 있다. 이 때, 시뮬레이티드 어닐링(simulated annealing)이 진행됨에 따라 포지티브 비디오 데이터의 프레임은 레이블은 변해가면서, 최적해로 수렴하지만, 네거티브 비디오 데이터의 프레임은 '-1'로 변하지 않을 수 있다.
분류부(130)는 포지티브 비디오 데이터 중 포지티브 프레임이 가장 적게 할당된 수 및 단순 마진 문제에 대한 최적 목적함수 값에 기초하여 균등 최대 마진 증거율 문제에 대한 목적함수 값을 도출할 수 있다. 균등 최대 마진 증거율 문제에 대한 목적함수 값을 도출하는 과정에 대해서는 수학식 4 및 5를 통해 설명하도록 한다.
Figure 112019133127450-pat00019
Figure 112019133127450-pat00020
수학식 4를 참조하면, 수학식 4의
Figure 112019133127450-pat00021
Figure 112019133127450-pat00022
가 '+1'로 할당된
Figure 112019133127450-pat00023
의 집합을 나타내며,
Figure 112019133127450-pat00024
가 주어지면,
Figure 112019133127450-pat00025
의 모든 값이 정해질 수 있어 균등 최대 마진 증거율 문제가 RBF 커널의 단순 마진 문제로 줄어들게 될 수 있다. 이 때, 단순 마진 문제의 최적 목적함수 값을
Figure 112019133127450-pat00026
로 두게 되면, 균등 최대 마진 증거율에 대한 목적함수 값은 수학식 5와 같이 도출될 수 있다. 여기서,
Figure 112019133127450-pat00027
는 포지티브 비디오 데이터에 할당된 포지티브 프레임의 수를 나타내고,
Figure 112019133127450-pat00028
는 포지티브 비디오 데이터 중 포지티브 프레임이 가장 적게 할당된 수를 나타낸다.
분류부(130)는 초기화가 완료되면, 마진 에러에 대한 규제 상수(C), 최대 증거율에 대한 규제 상수(C'), 커널 파라미터(
Figure 112019133127450-pat00029
), 초기 온도(T), 온도 감소율(
Figure 112019133127450-pat00030
), 내부 최대 반복 수(
Figure 112019133127450-pat00031
) 등을 포함하는 파라미터를 이용하여 시뮬레이티드 어닐링(Simulated Annealing)을 수행할 수 있다. 여기서, 마진 에러에 대한 규제 상수(C) 및 커널 파라미터(
Figure 112019133127450-pat00032
)는 커널 SVM(Support Vector Machine)에 관한 규제 상수이며, 최대 증거율에 대한 규제 상수(C')는 포지티브 인스턴스 밸런스를 위한 규제 상수로, 여러 번의 시행을 통해 최적값이 도출될 수 있다.
시뮬레이티드 어닐링을 위한 파라미터는 예를 들어, 초기 온도(T): T=100, 온도 감소율(
Figure 112019133127450-pat00033
):
Figure 112019133127450-pat00034
=0.95, 내부 최대 반복 수(
Figure 112019133127450-pat00035
):
Figure 112019133127450-pat00036
=100으로 설정될 수 있다. 여기서, 내부 최대 반복 수는 주어진 온도에서 최대 반복 가능한 수로 온도 길이라고도 하며, 경우에 따라 더 크게 조정될 수도 있다.
분류부(130)는 다음의 표 1의 시뮬레이티드 어닐링을 통해 균등 최대 마진 증거율 문제에 대한 적어도 하나의 최적해를 도출하고, 도출된 적어도 하나의 최적해에 기초하여 비디오의 프레임을 분류할 수 있다.
Figure 112019133127450-pat00037
repeat
-
Figure 112019133127450-pat00038
인 임의의
Figure 112019133127450-pat00039
를 선택해서
Figure 112019133127450-pat00040
의 부호를 바꾼다;
Figure 112019133127450-pat00041
-
Figure 112019133127450-pat00042
if
Figure 112019133127450-pat00043
then
Figure 112019133127450-pat00044
else
Figure 112019133127450-pat00045
사이에서 random number
Figure 112019133127450-pat00046
를 선택한다.
if
Figure 112019133127450-pat00047
then
Figure 112019133127450-pat00048
endif
endif
Figure 112019133127450-pat00049
until
Figure 112019133127450-pat00050
Figure 112019133127450-pat00051
until
Figure 112019133127450-pat00052
분류부(130)는 적어도 하나의 최적해로
Figure 112019133127450-pat00053
,
Figure 112019133127450-pat00054
를 도출할 수 있다. 여기서,
Figure 112019133127450-pat00055
는 최종
Figure 112019133127450-pat00056
에 의한
Figure 112019133127450-pat00057
의 레이블로,
Figure 112019133127450-pat00058
로 구성되고,
Figure 112019133127450-pat00059
는 각 클래스(k)에 대한 균등 최대 증거율 문제에 대한 듀얼 최적해를 나타낼 수 있다.
분류부(130)는 균등 최대 마진 증거율 문제에 대한 최종 출력을 도출할 수 있다. 최종 출력에 대해서는 수학식 6을 통해 설명하도록 한다.
Figure 112019133127450-pat00060
수학식 6을 참조하면, 분류부(130)는 도출된 적어도 하나의 최적해를 이용하여 절편
Figure 112019133127450-pat00061
를 도출하고, 균등 최대 마진 증거율 문제에 대한 최종 출력(
Figure 112019133127450-pat00062
)을 도출할 수 있다.
분류부(130)는 표 1에 기초하여 포지티브 비디오 데이터 중 적어도 하나의 프레임을 임의로 선택하여 레이블을 변경할 수 있다. 예를 들어, 분류부(130)는
Figure 112019133127450-pat00063
이면,
Figure 112019133127450-pat00064
Figure 112019133127450-pat00065
에 더하고(즉,
Figure 112019133127450-pat00066
로 변경함), 반대로
Figure 112019133127450-pat00067
이면,
Figure 112019133127450-pat00068
Figure 112019133127450-pat00069
에 뺄 수 있다(즉,
Figure 112019133127450-pat00070
로 변경함).
분류부(130)는 포지티브 비디오 데이터에 대해 변경된 레이블에 따른 개선된 효과 값을 산출하고, 산출된 효과 값에 기초하여 비디오의 프레임을 분류할 수 있다. 예를 들어, 분류부(130)는
Figure 112019133127450-pat00071
를 풀어,
Figure 112019133127450-pat00072
를 계산함으로써,
Figure 112019133127450-pat00073
의 레이블이 변경된 효과 값을 산출할 수 있다. 이 때, 해가 개선된 경우,
Figure 112019133127450-pat00074
로 옮겨지고, 그렇지 않은 경우,
Figure 112019133127450-pat00075
의 확률로 옮겨질 수 있다.
분류부(130)는 균등 최대 마진 증거율 문제의 최종 출력에 기초하여 비디오의 프레임을 분류하고, 분류된 프레임에 기초하여 비디오를 분류할 수 있다. 예를 들어, 분류부(130)는 비디오 데이터에 대해 가장 많이 분류된 프레임의 클래스에 기초하여 비디오의 클래스를 분류할 수 있다. 비디오의 프레임 및 비디오의 클래스를 분류하는 과정에 대해서는 수학식 7 및 8을 통해 설명하도록 한다.
Figure 112019133127450-pat00076
수학식 7을 참조하면, 분류부(130)는 수학식 6의 균등 최대 마진의 증거율 문제에 대한 최종 출력에 기초하여 생성된 수학식 7의 프레임 분류기를 통해 비디오의 프레임을 분류할 수 있다.
분류부(130)는 비디오의 클래스를 분류하는 과정에 대해서는 수학식 8을 통해 설명하도록 한다.
Figure 112019133127450-pat00077
수학식 8을 참조하면, 분류부(130)는 수학식 8을 통해 생성된 비디오 분류기를 통해 새로운 비디오 데이터(
Figure 112019133127450-pat00078
)에 대해 다수결(Majority Voting)에 의해 해당 비디오에 가장 많이 포함된 프레임의 클래스에 기초하여 비디오의 클래스 및 카테고리를 분류할 수 있다.
이러한 비디오 분류 장치(100)는 비디오의 프레임을 분류하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 의해 실행될 수 있다. 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 비디오 데이터에 대한 트레이닝 데이터세트를 입력받고, 입력된 트레이닝 데이터세트로부터 비디오 데이터의 특성 프레임을 추출하고, 추출된 특성 프레임 및 트레이닝 데이터세트에 대해 균등 최대 마진 증거율 문제를 고려하여 비디오의 프레임을 분류하고, 분류된 프레임에 기초하여 비디오를 분류하도록 하는 명령어들의 시퀀스를 포함할 수 있다.
이러한 과정을 통해, 비디오 분류 장치(100)는 트레이닝 데이터가 분류된 비디오의 형태로 주어질 경우, 해당 비디오의 프레임 분류 정보가 존재하지 않아, 프레임 분류를 이용한 비디오 분류 기법을 적용할 수 없으므로, 이를 기존의 단순 mi-MIL 기법이 개선된 균등 최대마진 증거율(Balanced Maximal Margin Evidence Rate)을 고려한 VCMIL 기법을 이용하여 비디오의 카테고리를 분류할 수 있다.
또한, 비디오 분류 장치(100)는 포지티브 비디오에 되도록 많은 포지티브 프레임이 할당되도록 하는 동시에 각 포지티브 비디오에 균등하게 포지티브 프레임이 분포되도록 균형 최대 증거율 마진(BER, Balanced Evidence Rate) SVM을 이용하여 하여 비디오의 카테고리를 분류할 수 있다.
도 3은 본 발명의 일 실시예에 따른 머신러닝 기반의 비디오 분류 장치에서 비디오의 프레임을 분류하는 방법의 순서도이다. 도 3에 도시된 비디오 분류 장치(100)에서 비디오의 프레임을 분류하는 방법은 도 1 및 도 2에 도시된 실시예에 따라 비디오 분류 장치(100)에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 및 도 2에 도시된 실시예에 따른 비디오 분류 장치(100)에서 수행되는 비디오의 프레임을 분류하는 방법에도 적용된다.
단계 S310에서 비디오 분류 장치(100)는 비디오 데이터에 대한 트레이닝 데이터세트를 입력받을 수 있다.
단계 S320에서 비디오 분류 장치(100)는 입력된 트레이닝 데이터세트로부터 비디오 데이터의 특성 프레임을 추출할 수 있다.
단계 S330에서 비디오 분류 장치(100)는 추출된 특성 프레임 및 트레이닝 데이터세트에 대해 균등 최대 마진 증거율 문제를 고려하여 비디오의 프레임을 분류할 수 있다.
단계 S340에서 비디오 분류 장치(100)는 분류된 프레임에 기초하여 비디오를 분류할 수 있다.
상술한 설명에서, 단계 S310 내지 S340은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.
도 1 내지 도 3을 통해 설명된 비디오 분류 장치에서 비디오의 프레임을 분류하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 3을 통해 설명된 비디오 분류 장치에서 비디오의 프레임을 분류하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 비디오 분류 장치
110: 입력부
120: 추출부
130: 분류부

Claims (20)

  1. 비디오를 분류하는 장치에 있어서,
    비디오 데이터에 대한 트레이닝 데이터세트를 입력받는 입력부;
    상기 입력된 트레이닝 데이터세트로부터 상기 비디오 데이터의 특성 프레임을 추출하는 추출부; 및
    상기 추출된 특성 프레임 및 상기 트레이닝 데이터세트에 대해 균등 최대 마진 증거율(Balanced Maximal Margin Evidence Rate) 문제를 고려하여 상기 비디오의 프레임을 분류하고, 상기 분류된 프레임에 기초하여 상기 비디오를 분류하는 분류부
    를 포함하되,
    상기 분류부는 상기 특성 프레임의 각 클래스에 기초하여 상기 균등 최대 마진 증거율 문제를 단순 마진 문제로 변환하고, 상기 변환된 단순 마진 문제에 기초하여 상기 비디오 데이터 중 네거티브 비디오 데이터(negative video data)의 프레임을 네거티브 프레임으로 할당하고, 상기 비디오 데이터 중 포지티브 비디오 데이터(positive video data)의 프레임을 포지티브 프레임으로 할당하는 것인, 비디오 분류 장치.
  2. 제 1 항에 있어서,
    상기 추출부는 상기 트레이닝 데이터세트를 테스트 데이터세트의 성분값에 기초하여 생성된 테스트 도메인의 부분 공간에 투영시킴으로써, 상기 부분 공간에 투영된 트레이닝 데이터세트로부터 상기 테스트 도메인에 적응된 상기 특성 프레임을 추출하는 것인, 비디오 분류 장치.
  3. 제 2 항에 있어서,
    상기 트레이닝 데이터세트는 상기 비디오 데이터로부터 소정의 시간 간격으로 샘플링된 프레임의 트레이닝 데이터, 상기 트레이닝 데이터의 클래스 및 클래스, 상기 프레임의 클래스의 수 중 적어도 하나를 포함하고,
    상기 테스트 데이터세트는 상기 비디오 데이터로부터 소정의 시간 간격으로 샘플링된 프레임의 테스트 데이터, 상기 테스트 데이터의 프레임 수 중 적어도 하나를 포함하는 것인, 비디오 분류 장치.
  4. 제 2 항에 있어서,
    상기 비디오 데이터의 특성 프레임은 레벨이 존재하지 않는 프레임인 것인, 비디오 분류 장치.
  5. 삭제
  6. 삭제
  7. 제 1 항에 있어서,
    상기 분류부는 상기 포지티브 비디오 데이터 중 상기 포지티브 프레임이 가장 적게 할당된 수 및 상기 단순 마진 문제에 대한 최적 목적함수 값에 기초하여 상기 균등 최대 마진 증거율 문제에 대한 목적함수 값을 도출하는 것인, 비디오 분류 장치.
  8. 제 1 항에 있어서,
    상기 분류부는 상기 할당이 완료되면, 마진 에러에 대한 규제 상수, 최대 증거율에 대한 규제 상수, 커널 파라미터, 초기 온도, 온도 감소율, 내부 최대 반복 수 중 적어도 하나를 포함하는 파라미터를 이용하여 시뮬레이티드 어닐링(Simulated Anealing)을 수행하는 것인, 비디오 분류 장치.
  9. 제 8 항에 있어서,
    상기 분류부는 상기 시뮬레이티드 어닐링을 통해 상기 균등 최대 마진 증거율 문제에 대한 적어도 하나의 최적해를 도출하고, 상기 도출된 적어도 하나의 최적해에 기초하여 상기 비디오의 프레임을 분류하는 것인, 비디오 분류 장치.
  10. 제 9 항에 있어서,
    상기 분류부는 상기 포지티브 비디오 데이터 중 적어도 하나의 프레임을 임의로 선택하여 레이블을 변경하고, 상기 포지티브 비디오 데이터에 대해 상기 변경된 레이블에 따른 개선된 효과 값을 산출하고, 상기 산출된 효과 값에 기초하여 상기 비디오의 프레임을 분류하는 것인, 비디오 분류 장치.
  11. 제 1 항에 있어서,
    상기 분류부는 상기 비디오 데이터에 대해 가장 많이 분류된 프레임의 클래스에 기초하여 상기 비디오의 클래스를 분류하는 것인, 비디오 분류 장치.
  12. 비디오 분류 장치에서 비디오를 분류하는 방법에 있어서,
    비디오 데이터에 대한 트레이닝 데이터세트를 입력받는 단계;
    상기 입력된 트레이닝 데이터세트로부터 상기 비디오 데이터의 특성 프레임을 추출하는 단계;
    상기 추출된 특성 프레임 및 상기 트레이닝 데이터세트에 대해 균등 최대 마진 증거율 문제를 고려하여 상기 비디오의 프레임을 분류하는 단계; 및
    상기 분류된 프레임에 기초하여 상기 비디오를 분류하는 단계
    를 포함하되,
    상기 비디오의 프레임을 분류하는 단계는,
    상기 특성 프레임의 각 클래스에 기초하여 상기 균등 최대 마진 증거율 문제를 단순 마진 문제로 변환하는 단계;
    상기 변환된 단순 마진 문제에 기초하여 상기 비디오 데이터 중 네거티브 비디오 데이터(negative video data)의 프레임을 네거티브 프레임으로 할당하고, 상기 비디오 데이터 중 포지티브 비디오 데이터(positive video data)의 프레임을 포지티브 프레임으로 할당하는 단계를 포함하는 것인, 비디오 분류 방법.
  13. 제 12 항에 있어서,
    상기 비디오 데이터의 특성 프레임을 추출하는 단계는,
    상기 트레이닝 데이터세트를 테스트 데이터세트의 성분값에 기초하여 생성된 테스트 도메인의 부분 공간에 투영시키는 단계; 및
    상기 부분 공간에 투영된 트레이닝 데이터세트로부터 상기 테스트 도메인에 적응된 상기 특성 프레임을 추출하는 단계를 포함하는 것인, 비디오 분류 방법.
  14. 삭제
  15. 삭제
  16. 제 12 항에 있어서,
    상기 비디오의 프레임을 분류하는 단계는,
    상기 포지티브 비디오 데이터 중 상기 포지티브 프레임이 가장 적게 할당된 수 및 상기 단순 마진 문제에 대한 최적 목적함수 값에 기초하여 상기 균등 최대 마진 증거율 문제에 대한 목적함수 값을 도출하는 단계를 포함하는 것인, 비디오 분류 방법.
  17. 제 12 항에 있어서,
    상기 비디오의 프레임을 분류하는 단계는,
    상기 할당이 완료되면, 마진 에러에 대한 규제 상수, 최대 증거율에 대한 규제 상수, 커널 파라미터, 초기 온도, 온도 감소율, 내부 최대 반복 수 중 적어도 하나를 포함하는 파라미터를 이용하여 시뮬레이티드 어닐링(Simulated Anealing)을 수행하는 단계를 포함하는 것인, 비디오 분류 방법.
  18. 제 17 항에 있어서,
    상기 비디오의 프레임을 분류하는 단계는,
    상기 시뮬레이티드 어닐링을 통해 상기 균등 최대 마진 증거율 문제에 대한 적어도 하나의 최적해를 도출하는 단계; 및
    상기 도출된 적어도 하나의 최적해에 기초하여 상기 비디오의 프레임을 분류하는 단계를 포함하는 것인, 비디오 분류 방법.
  19. 제 12 항에 있어서,
    상기 비디오를 분류하는 단계는,
    상기 비디오 데이터에 대해 가장 많이 분류된 프레임의 클래스에 기초하여 상기 비디오의 클래스를 분류하는 것인, 비디오 분류 방법.
  20. 비디오를 분류하는 명령어들의 시퀀스를 포함하는 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
    비디오 데이터에 대한 트레이닝 데이터세트를 입력받고,
    상기 입력된 트레이닝 데이터세트로부터 상기 비디오 데이터의 특성 프레임을 추출하고,
    상기 추출된 특성 프레임 및 상기 트레이닝 데이터세트에 대해 균등 최대 마진 증거율 문제를 고려하여 상기 비디오의 프레임을 분류하고,
    상기 분류된 프레임에 기초하여 상기 비디오를 분류하고,
    상기 특성 프레임의 각 클래스에 기초하여 상기 균등 최대 마진 증거율 문제를 단순 마진 문제로 변환하고, 상기 변환된 단순 마진 문제에 기초하여 상기 비디오 데이터 중 네거티브 비디오 데이터(negative video data)의 프레임을 네거티브 프레임으로 할당하고, 상기 비디오 데이터 중 포지티브 비디오 데이터(positive video data)의 프레임을 포지티브 프레임으로 할당하도록 하는 명령어들의 시퀀스를 포함하는, 매체에 저장된 컴퓨터 프로그램.
KR1020190173363A 2019-08-29 2019-12-23 머신러닝 기반으로 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램 KR102314990B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190106793 2019-08-29
KR20190106793 2019-08-29

Publications (2)

Publication Number Publication Date
KR20210027006A KR20210027006A (ko) 2021-03-10
KR102314990B1 true KR102314990B1 (ko) 2021-10-21

Family

ID=75148919

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190173363A KR102314990B1 (ko) 2019-08-29 2019-12-23 머신러닝 기반으로 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR102314990B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11887367B1 (en) 2023-04-19 2024-01-30 OpenAI Opco, LLC Using machine learning to train and use a model to perform automatic interface actions based on video and input datasets

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100924795B1 (ko) * 2007-12-18 2009-11-03 한국전자통신연구원 입술움직임 영상 판별 방법 및 그 장치

Also Published As

Publication number Publication date
KR20210027006A (ko) 2021-03-10

Similar Documents

Publication Publication Date Title
CN109740670B (zh) 视频分类的方法及装置
CN108304435B (zh) 信息推荐方法、装置、计算机设备及存储介质
US9918006B2 (en) Device, system and method for cognitive image capture
US20210157872A1 (en) Method and system to filter out unwanted content from incoming social media data
US11587356B2 (en) Method and device for age estimation
US20200285683A1 (en) Method and system to filter out harassment from incoming social media data
CN110853033B (zh) 基于帧间相似度的视频检测方法和装置
US11748401B2 (en) Generating congruous metadata for multimedia
CN110728294A (zh) 一种基于迁移学习的跨领域图像分类模型构建方法和装置
Villalba et al. Smartphone image clustering
CN109919244B (zh) 用于生成场景识别模型的方法和装置
US20190138852A1 (en) Information processing apparatus, information processing method, and storage medium for generating teacher information
US11531839B2 (en) Label assigning device, label assigning method, and computer program product
JP5214679B2 (ja) 学習装置、方法及びプログラム
KR102314990B1 (ko) 머신러닝 기반으로 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램
US11423262B2 (en) Automatically filtering out objects based on user preferences
KR20210047467A (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
CN113052165A (zh) 目标检测方法、装置、电子设备及存储介质
CN112949456A (zh) 视频特征提取模型训练、视频特征提取方法和装置
CN113010736A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN112241752A (zh) 模型训练方法、数据处理方法、分类方法、装置、设备
JP2018045517A (ja) 付与装置、付与方法および付与プログラム
KR102321039B1 (ko) 머신러닝 기반의 비디오 분류 장치, 방법 및 컴퓨터 프로그램
CN113128278A (zh) 一种图像识别方法及装置
WO2022141092A1 (zh) 模型生成方法、图像处理方法、装置及可读存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right