KR20190007816A - 동영상 분류를 위한 전자 장치 및 그의 동작 방법 - Google Patents

동영상 분류를 위한 전자 장치 및 그의 동작 방법 Download PDF

Info

Publication number
KR20190007816A
KR20190007816A KR1020170089296A KR20170089296A KR20190007816A KR 20190007816 A KR20190007816 A KR 20190007816A KR 1020170089296 A KR1020170089296 A KR 1020170089296A KR 20170089296 A KR20170089296 A KR 20170089296A KR 20190007816 A KR20190007816 A KR 20190007816A
Authority
KR
South Korea
Prior art keywords
data
lstm
moving image
classification model
model
Prior art date
Application number
KR1020170089296A
Other languages
English (en)
Inventor
유재헌
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020170089296A priority Critical patent/KR20190007816A/ko
Priority to US16/033,747 priority patent/US10803319B2/en
Publication of KR20190007816A publication Critical patent/KR20190007816A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06K9/627
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 다양한 실시예들은, 신경망(neural network)에 기반한 동영상 분류 모델을 학습하고, 학습된 동영상 분류 모델에 기반하여 동영상 분류를 수행하는 전자 장치 및 그의 동작 방법에 관한 것이다.
본 발명의 다양한 실시예에 따른 전자 장치는, 메모리, 상기 메모리와 기능적으로 연결된 프로세서를 포함하고, 상기 프로세서는 동영상에 대응하는 하나 이상의 라벨 정보를 획득하고, 상기 동영상에 포함되는 복수의 프레임에 기반하여 상기 동영상을 대표하는 대표 프레임을 생성하고, 상기 대표 프레임을 반복적으로 동영상 분류 모델에 입력함으로써 상기 동영상에 대응하는 특징을 추출하고, 상기 추출된 특징에 기반하여 상기 동영상 분류 모델을 학습시키도록 설정된 전자 장치일 수 있다.
그 외에 다양한 실시예들이 가능하다.

Description

동영상 분류를 위한 전자 장치 및 그의 동작 방법{ELECTRONIC DEVICE FOR CLASSIFYING VIDEO AND OPERATING METHOD THEREOF}
본 발명의 다양한 실시예들은, 신경망(neural network)에 기반한 동영상 분류 모델을 학습하고, 학습된 동영상 분류 모델에 기반하여 동영상 분류를 수행하는 전자 장치 및 그의 동작 방법에 관한 것이다.
스마트 폰과 같은 휴대용 전자 장치의 고성능화 및 무선 인터넷 서비스의 발달에 따라, 다양한 사용자들에 의해 생산 및 소비되는 동영상 콘텐트가 폭발적으로 증가하고 있다.
또한, 동영상 서비스 제공자(service provider)들은, 사용자들이 동영상 콘텐트를 손쉽게 검색할 수 있도록, 미리 결정된 카테고리로 분류된 동영상 콘텐트를 사용자들에 제공하고 있다.
이때, 동영상 콘텐트를 분류하는 방법으로서, 머신 러닝(machine learning)에 기반한 다양한 알고리즘이 활용되고 있다. 예를 들어, 인간의 생물학적 신경 세포의 특성을 수학적으로 표현 및 모델링한 신경망(neural network)에 대한 연구가 있다. 신경망은 입력 패턴과 출력 패턴들 사이의 사상(mapping)을 생성해낼 수 있으며, 이것을 신경망이 학습 능력이 있다고 표현한다. 신경망은 학습된 결과에 기초하여, 학습에 이용되지 않았던 입력 패턴에 대하여 비교적 올바른 출력을 생성할 수 있는 일반화 능력(generalization performance)을 가지고 있다.
머신 러닝에 기반하여 동영상 콘텐트를 분류하는 기존의 방법은 동영상 콘텐트를 구성하는 각 프레임을 학습 모델에 입력하는 방법으로, 동영상의 용량이 큰 경우 학습 과정의 속도가 저해될 수 있다. 따라서 제한된 시간 내에 충분한 양의 데이터 학습이 이루어지지 못한다.
본 발명의 다양한 실시예들은, 동영상 콘텐트의 대표 프레임을 결정하고, 상기 대표 프레임을 반복적으로 서로 다른 시간 단계에 대응하는 학습 모델에 입력하되, 이전 시간 단계에 대응하는 학습 모델의 출력 라벨과 정답 라벨을 일정한 확률로 입력함으로써, 동영상의 라벨 수만큼 학습 알고리즘을 반복하여 동영상 분류 모델을 학습하는 전자 장치 및 그의 동작 방법을 제공할 수 있다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 다양한 실시예에 따른 전자 장치는, 메모리, 상기 메모리와 기능적으로 연결된 프로세서를 포함하고, 상기 프로세서는 동영상에 대응하는 하나 이상의 라벨 정보를 획득하고, 상기 동영상에 포함되는 복수의 프레임에 기반하여 상기 동영상을 대표하는 대표 프레임을 생성하고, 상기 대표 프레임을 반복적으로 동영상 분류 모델에 입력함으로써 상기 동영상에 대응하는 특징을 추출하고, 상기 추출된 특징에 기반하여 상기 동영상 분류 모델을 학습시키도록 설정된 전자 장치일 수 있다.
다양한 실시예에 따른 동영상 분류를 위한 전자 장치 및 그의 동작 방법은, 보다 작은 알고리즘 반복 횟수로도 동영상을 학습시킬 수 있어 머신 러닝을 위한 학습 시간을 줄일 수 있다. 따라서, 제한된 시간 내에 충분한 양의 데이터를 학습시킬 수 있으므로, 동영상 분류의 오차율을 줄일 수 있다.
도 1은 본 발명의 다양한 실시예들에 따른 네트워크에 대한 환경을 도시한다.
도 2는 본 발명의 다양한 실시예들에 따른 프로세서의 블록도를 도시한다.
도 3은, 본 발명의 다양한 실시예들에 따른 특징 추출부의 동작 과정을 도시한다.
도 4는, 본 발명의 동영상 분류 모델의 학습 과정을 도시한다.
도 5는 본 발명의 다양한 실시예에 따른 동영상 분류 모델의 학습 과정을 도시한다.
도 6는 본 발명의 다양한 실시예에 따른 동영상 분류 모델의 분류 과정을 도시한다.
이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 기재된다. 실시예 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B" 또는 "A 및/또는 B 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.
본 문서에서, "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다. 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서의 다양한 실시예들에 따른 전자 장치는, 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 의료기기, 카메라, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드 또는 문신), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다. 어떤 실시예들에서, 전자 장치는, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.
다른 실시예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션 장치, 위성 항법 시스템(GNSS(global navigation satellite system)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 드론(drone), 금융 기관의 ATM, 상점의 POS(point of sales), 또는 사물 인터넷 장치 (예: 전구, 각종 센서, 스프링클러 장치, 화재 경보기, 온도조절기, 가로등, 토스터, 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다. 어떤 실시예에 따르면, 전자 장치는 가구, 건물/구조물 또는 자동차의 일부, 전자 보드(electronic board), 전자 사인 수신 장치(electronic signature receiving device), 프로젝터, 또는 각종 계측 기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 다양한 실시예들에서, 전자 장치는 플렉서블하거나, 또는 전술한 다양한 장치들 중 둘 이상의 조합일 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다. 본 문서에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다.
도 1을 참조하여, 다양한 실시예들에서의, 네트워크 환경(100) 내의 전자 장치(101)가 기재된다. 전자 장치(101)는 버스(110), 프로세서(120), 메모리(130), 입출력 인터페이스(150) 및 통신 인터페이스(170)를 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)는, 구성요소들 중 적어도 하나를 생략하거나 다른 구성요소를 추가적으로 구비할 수 있다. 버스(110)는 구성요소들(110-170)을 서로 연결하고, 구성요소들 간의 통신(예: 제어 메시지 또는 데이터)을 전달하는 회로를 포함할 수 있다. 프로세서(120)는, 중앙처리장치, 어플리케이션 프로세서, 또는 커뮤니케이션 프로세서(communication processor(CP)) 중 하나 또는 그 이상을 포함할 수 있다. 프로세서(120)는, 예를 들면, 전자 장치(101)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.
메모리(130)는, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(130)는, 예를 들면, 전자 장치(101)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 미들웨어(143)는, 예를 들면, API(145) 또는 어플리케이션 프로그램(147)이 커널(141)과 통신하여 데이터를 주고받을 수 있도록 중개 역할을 수행할 수 있다.
입출력 인터페이스(150)는, 예를 들면, 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 전자 장치(101)의 다른 구성요소(들)에 전달하거나, 또는 전자 장치(101)의 다른 구성요소(들)로부터 수신된 명령 또는 데이터를 사용자 또는 다른 외부 기기로 출력할 수 있다.
무선 통신은, 예를 들면, LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신을 포함할 수 있다. 한 실시예에 따르면, 무선 통신은, 예를 들면, 도 1의 element 164로 예시된 바와 같이, WiFi(wireless fidelity), LiFi(light fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication), 자력 시큐어 트랜스미션(Magnetic Secure Transmission), 라디오 프리퀀시(RF), 또는 보디 에어리어 네트워크(BAN) 중 적어도 하나를 포함할 수 있다. 유선 통신은, 예를 들면, USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 중 적어도 하나를 포함할 수 있다. 네트워크(162)는 텔레커뮤니케이션 네트워크, 예를 들면, 컴퓨터 네트워크(예: LAN 또는 WAN), 인터넷, 또는 텔레폰 네트워크 중 적어도 하나를 포함할 수 있다.
도 2는 본 발명의 다양한 실시예들에 따른 프로세서의 블록도를 도시한다.
프로세서(200)는, 예를 들면, 도 1에 도시된 프로세서(120)의 전체 또는 일부를 포함할 수 있다. 일 실시예에서, 프로세서(200)는 동영상 분류 모델을 학습시킬 학습 데이터를 수신하고, 수신한 학습 데이터의 라벨 정보에 기반하여 학습 데이터의 특징을 추출하며, 추출된 특징에 기반하여 동영상 분류 모델을 학습시키도록 설정될 수 있다. 일 실시예에서 학습 데이터는 동영상 데이터일 수 있다. 일 실시예에서 학습 데이터는 분류가 완료된 동영상 데이터일 수 있다. 일 실시예에서 분류가 완료된 동영상 데이터는 라벨링이 수행된 동영상 데이터일 수 있다. 일 실시예에서, 라벨은 동영상 데이터의 내용(주제, 장르) 또는 형식 중 적어도 어느 하나에 따라 결정된 하나 이상의 카테고리 또는 속성일 수 있다. 일 실시예에서, 라벨은 하나의 동영상에 대응하는 하나 이상의 카테고리 혹은 속성일 수 있다. 예를 들어, 라벨은 게임, 스포츠, 여행, 과학 등과 같은 동영상의 주제에 관련된 하나 이상의 카테고리 혹은 속성일 수 있으며, 다큐, 예능, 중계 등과 같은 동영상의 형식에 관련된 하나 이상의 카테고리 혹은 속성일 수 있다. 일 실시예에서, 하나 이상의 라벨은, 각 라벨이 동영상에서 차지하는 비중, 의미에 기반하여 순서가 부여될 수 있다.
프로세서(200)는 영상 데이터 처리부(210) 및 분류 모델 학습부(220)를 포함할 수 있다.
영상 데이터 처리부(210)는 동영상 분류 모델을 학습시킬 영상 데이터를 수신하고, 수신한 영상 데이터를 동영상 분류 모델의 학습에 적합한 데이터로 변환(transform) 혹은 처리(process)할 수 있다.
영상 데이터 처리부(210)는 라벨 정보 획득부(230), 입력 데이터 생성부(240), 특징 추출부(250)를 포함할 수 있다.
라벨 정보 획득부(230)는 수신한 동영상 데이터에 대응하는 라벨 정보를 획득할 수 있다. 일 실시예에서, 라벨 정보는 수신한 동영상 데이터에 대응하며 상기 수신한 동영상 데이터의 내용 또는 형식 중 적어도 어느 하나에 따라 결정된 하나 이상의 카테고리 또는 속성에 대한 정보일 수 있다. 일 실시예에서 라벨 정보는 라벨 정보에 대응하는 동영상에 대한 정보와 함께 저장될 수 있다. 라벨 정보는 메모리(130) 또는 외부 장치의 데이터베이스 중 적어도 어느 하나에 저장될 수 있다.
입력 데이터 생성부(240)는 신경망에 포함되는 동영상 분류 모델에 입력될 입력 데이터를 생성할 수 있다. 일 실시예에서, 신경망에 포함되는 동영상 분류 모델은 재귀적 신경망(Recurrent Neural Network) 또는 LSTM(Long Short Term Memory)에 기초한 동영상 분류 모델일 수 있다. 이하 명세서에서는 신경망에 포함된 동영상 분류 모델을 LSTM 모델로 지칭한다. 일 실시예에서, LSTM모델에 입력될 입력 데이터는, 동영상 분류 모델이 상기 수신한 동영상을 분류하는데 사용될 수 있다. 즉, 동영상 분류 모델이 수신한 동영상의 속성 또는 카테고리를 결정하는데 사용될 수 있다.
입력 데이터 생성부(240)는 신경망에 포함되는 LSTM 모델에 입력될 입력 데이터를, 수신한 동영상 데이터 및 라벨 정보에 기반하여 생성할 수 있다. 일 실시예에서, 입력 데이터 생성부(240)는 수신한 동영상 데이터에 포함된 복수의 프레임 데이터에 기반하여, LSTM 모델에 입력될 입력 데이터를 생성할 수 있다. 여기서, 프레임 데이터는 동영상을 구성하는 각각의 프레임(Frame)을 의미할 수도 있고, 동영상을 구성하는 각각의 프레임의 RGB데이터를 의미할 수 있으며, 각각의 프레임(Frame)에 대한 특징(예: 각각의 프레임에 대한 특징점)을 추출한 데이터, 혹은 각각의 프레임에 대한 특징을 벡터로 표현한 데이터를 의미할 수 있다.
일 실시예에서, 입력 데이터 생성부(240)는 수신한 동영상 데이터에 포함된 복수의 프레임 데이터 중에서 선택된 하나 이상의 프레임 데이터에 기반하여 LSTM 모델에 입력될 입력 데이터를 생성할 수 있다. 선택된 하나 이상의 프레임 데이터의 개수는, 수신한 동영상 데이터의 라벨의 개수와 관련될 수 있다. 예를 들어, 선택된 하나 이상의 프레임 데이터의 개수는, 수신한 동영상 데이터의 라벨의 개수일 수 있다. 즉, 수신한 동영상 데이터의 라벨이 3개(예: 스포츠, 중계, 다큐)인 경우, 입력 데이터 생성부(240)는 복수의 프레임 데이터 중에서 3개의 프레임 데이터에 기반하여 LSTM 모델에 입력될 입력 데이터를 생성할 수 있다.
입력 데이터 생성부(240)는 수신한 동영상 데이터에 포함된 복수의 프레임 데이터를 일정한 간격으로 샘플링하여 하나 이상의 프레임 데이터를 선택하고, 선택된 하나 이상의 프레임 데이터에 기반하여 LSTM 모델에 입력될 입력 데이터를 생성할 수 있다. 또한, 입력 데이터 생성부(240)는 복수의 프레임 데이터 중에서 랜덤하게 하나 이상의 프레임 데이터를 선택할 수 있다. 또한, 입력 데이터 생성부(240)는 복수의 프레임 데이터 중에서 특징 정보를 가장 많이 포함하고 있는 하나 이상의 프레임 데이터를 선택할 수 있다.
또 다른 예를 들어, 입력 데이터 생성부(240)는 수신한 동영상 데이터에 포함된 복수의 프레임 데이터를 평균한 평균 프레임을 LSTM 모델에 입력될 입력 데이터로 결정할 수 있다.
또 다른 예를 들어, 입력 데이터 생성부(240)는 선택 및 평균을 함께 적용하여 LSTM 모델에 입력될 입력 데이터로 결정할 수 있다. 즉, 입력 데이터 생성부(240)는 복수의 프레임 데이터 중에서 선택된 하나 이상의 프레임 데이터를 평균한 평균 프레임을 LSTM 모델에 입력될 입력 데이터로 결정할 수 있다.
특징 추출부(250)는 입력 데이터를 LSTM모델에 입력하여, 수신한 동영상 데이터에 대응하는 특징 벡터를 추출할 수 있다. 수신한 동영상 데이터에 대응하는 특징 벡터는, 동영상 분류 모델이 판단한 상기 수신한 동영상 데이터의 라벨(혹은 속성, 카테고리)에 대한 정보를 벡터로 표현한 것일 수 있다. 예를 들어, 수신한 동영상 데이터의 실제 라벨(정답 라벨)이 스포츠, 다큐이고, 동영상 분류 모델이 판단한 동영상 데이터의 라벨이 과학, 다큐인 경우, 특징 벡터는 과학, 다큐에 대한 정보를 벡터로 표현한 것일 수 있다. 일 실시예에서, 특징 벡터는 각각의 라벨에 대한 정보에 대응한 벡터를 통합한 것일 수 있다. 예를 들어, 과학에 대응한 특징 벡터가 (1, 0, 0) 이고, 다큐에 대응한 특징 벡터가 (0, 1, 0) 인 경우, 특징 추출부가 추출한 특징 벡터는 (1, 0, 0, 0, 1, 0)일 수 있다.
일 실시예에서 특징 추출부(250)는 LSTM모델을 반복적으로 사용 혹은 수행함으로써, 수신한 동영상 데이터에 대응하는 특징 벡터를 추출할 수 있다. LSTM모델을 사용한다는 것은, LSTM모델에 데이터를 입력하고, 그에 따른 데이터를 출력하는 일련의 과정을 의미할 수 있다. 또한, LSTM모델을 반복적으로 사용한다는 것은, 서로 다른 시간에 대해(혹은 서로 다른 시간에 대응하여, 혹은 시계열적 구성으로) LSTM모델을 사용하는 것을 의미할 수 있다. 예를 들어, LSTM모델을 3번 반복적으로 사용하는 것은, t=1에 대응하여 LSTM모델을 사용하고, t=2에 대응하여 LSTM모델을 사용하고, t=3에 대응하여 LSTM모델을 사용하는 것임을 의미할 수 있다.
일 실시예에서, 특징 추출부(250)가 LSTM모델을 반복적으로 사용 혹은 수행하는 횟수는, 수신한 동영상 데이터에 대응하는 라벨의 개수일 수 있다. 예를 들어, 수신한 동영상 데이터에 대응하는 라벨의 개수가 3개인 경우, 특징 추출부(250)는 LSTM모델을 3번 반복 사용하여 특징 벡터를 추출할 수 있다.
분류 모델 학습부(220)는 특징 추출부(250)에서 추출한 특징 벡터 및 사용된 동영상 데이터의 라벨 정보를 비교하여, 동영상 분류 모델의 오차를 결정할 수 있다. 예를 들어, 특징 추출부(250)에서 추출한 특징 벡터에 대응하는 라벨이 과학, 다큐이고, 동영상 데이터의 실제 라벨 정보가 스포츠, 다큐인 경우, 분류 모델 학습부(220)는 발생 오차를 줄어들도록, LSTM모델에 사용된 계수, 혹은 연결 가중치 값 등을 업데이트할 수 있다.
도 3은, 본 발명의 다양한 실시예들에 따른 특징 추출부의 동작 과정을 도시한다.
도 3을 참고할 때, 특징 추출부(250)는 LSTM모델을 포함할 수 있다. LSTM모델은 특정한 시간(예: t=2)에 대해서, 입력 데이터 및/또는 이전 시간의 출력 데이터를 입력 받고, 특정한 시간에 대한 데이터를 출력하는 모델일 수 있다. 이 때, 특정한 시간에 대한 출력 데이터는 입력 데이터에 대응하는 라벨에 관한 데이터일 수 있다. 또한, 특정한 시간에 대한 출력 데이터(즉, 라벨)은 순서와 연관될 수 있다. 예를 들어, t=1에 대한 출력 라벨은 입력 데이터와 연관성이 가장 높은 라벨일 수 있다. 또한, t=2에 대한 출력 라벨은 입력 데이터와 연관성이 두 번째로 높은 라벨일 수 있다.
특징 추출부(250)에 입력되는 입력 데이터는 수신한 동영상 데이터(즉, 동영상 분류 모델을 학습시킬 데이터)의 내용을 대표적으로 나타내는 데이터일 수 있다. 즉, 수신한 동영상 데이터의 모든 프레임의 특징 정보를 포함하는 데이터일 수 있으며, 혹은 수신한 동영상 데이터 중 선택된 프레임들의 특징 정보를 포함하는 데이터일 수 있다.
특징 추출부(250)의 LSTM구조에 BN(Batch Normalization)가 적용될 수 있다. BN은 각 LSTM모델에 입력되는 입력 데이터의 분포(distribution)를 정규화(normalize)하는 것을 의미할 수 있다. 예를 들어, 프로세서(120)는 각 LSTM모델에 입력되는 입력 데이터의 분포를, 평균 0, 표준편차 1인 입력데이터로 정규화(normalize)할 수 있다. 도 3을 참고할 때, LSTM모델에 입력되기 전, 입력 데이터에 BN이 적용되는 것을 확인할 수 있다. 또한, 이전 시간 단계(예: t=1)에 대응하는 LSTM모델에서 다음 시간 단계에 대응하는 LSTM모델(예: t=2)으로 진행할 때에도 BN이 적용될 수 있다. 이는, 이전 시간 단계(예: t=1)에 대응하는 LSTM모델에 사용되었던 하나 이상의 파라미터값들을 정규화하는 과정을 의미할 수 있다.
다만, 특징 추출부(250)에서 추출된 특징 벡터는 BN이 적용되지 않는다. 특징 추출부에서 추출된 특징 벡터는, BN이 적용되지 않고 분류 모델 학습부(220)에 제공될 수 있다. 특징 추출부에 추출된 특징 벡터에 BN을 적용할 경우, 동영상 분류 모델의 오차율이 늘어나기 때문에, 특징 추출부에서 추출된 특징 벡터는 BN을 적용하지 않고 분류 모델 학습부(220)로 제공될 수 있다.
특징 추출부(250)의 LSTM구조는 SGM(Stochastic Gating Mechanism)이 적용될 수 있다. BN이 적용된 LSTM구조로 학습할 경우, overfitting현상이 발생할 수 있고, overfitting현상을 방지하기 위하여 SGM이 특징 추출부(250)의 LSTM구조에 적용될 수 있다. 구체적으로, LSTM은 재귀적 신경망의 일종으로서, 이전 시간에 대응하는 출력이 다음 시간에 대응하는 입력으로 사용된다(LSTM feedback loop). 이 때, 수신한 동영상의 실제 라벨(정답 라벨, ground truth label)을 넣어서 학습하는 경우, 학습 자체는 100% 정확도가 되지만, 실제 성능은 좋아지지 않는 현상이 발생할 수 있다. 즉, 아직 정확하게 분류되지 않은 동영상을 수신한 경우, 동영상 분류 모델이 결정하는 라벨은 실제 라벨과 종종 어긋나는 경우가 발생한다.
SGM은 LSTM feedback loop를 LSTM 모델이 출력하는 값으로 할지, 정답(ground truth label)으로 할지를 확률적으로 결정하는 메커니즘을 의미한다. BN이 적용된 LSTM구조에서 SGM이 적용되는 경우, 실제 라벨을 넣어서 학습하는 경우보다 성능이 높아진다. 즉, 미분류 동영상에 대한 분류의 오차율 감소한다.
도 4는, 본 발명의 다양한 실시예에 따른 동영상 분류 모델의 학습 과정을 나타낸다.
401동작에서, 프로세서(120)는 학습 동영상 데이터를 수신할 수 있다. 일 실시예에서 학습 동영상 데이터는 분류가 완료된 동영상 데이터일 수 있다.
403동작에서 프로세서(120)는 수신한 학습 동영상 데이터의 라벨 정보를 획득할 수 있다. 일 실시예에서 라벨 정보는 수신한 학습 동영상 데이터에 대응하는 하나 이상의 카테고리 혹은 속성일 수 있다.
405동작에서 프로세서(120)는 수신한 학습 동영상 데이터의 대표 프레임(혹은 입력 데이터)를 생성할 수 있다. 입력 데이터는 신경망에 포함되는 동영상 분류 모델(혹은 LSTM모델)에 입력될 데이터를 의미할 수 있다. 대표 프레임(입력 데이터)는 수신한 학습 동영상 데이터에 포함되는 복수의 프레임들에서 선택된 프레임 혹은 평균 프레임에 기반하여 생성될 수 있다. 미도시되었지만, 405 동작에서 대표 프레임을 생성하지 않고, 수신한 학습 동영상 데이터의 전체 프레임을 각각 LSTM모델에 입력할 입력 데이터로 활용할 수도 있다.
407동작에서 프로세서(120)는 수신한 학습 동영상 데이터의 특징을 추출할 수 있다. 수신한 학습 동영상 데이터의 특징은, 수신한 학습 동영상 데이터에 대응하는 특징 벡터일 수 있으며, 상기 특징 벡터는 동영상 분류 모델이 판단한 상기 동영상 데이터의 라벨(혹은 속성, 카테고리)에 대한 정보를 벡터로 표현한 것일 수 있다.
409동작에서, 프로세서(120)는 추출된 특징 기반으로 분류 모델을 학습할 수 있다. 일 실시예에서, 특징 추출부(250)에서 추출한 특징 벡터 및 사용된 동영상 데이터의 라벨 정보를 비교하여 동영상 분류 모델의 오차를 결정하고, 결정된 오차가 줄어들도록, LSTM모델에 사용된 계수 혹은 연결 가중치 값 등을 업데이트할 수 있다.
도 5는 본 발명의 다양한 실시예에 따른 동영상 분류 모델의 학습 과정을 나타낸다.
도 5는 도 4의 407동작의 상세 과정을 나타낸다.
501동작에서, 프로세서(120)는 대표 프레임에 BN을 적용하고, BN이 적용된 대표 프레임을 t=1 데이터로 LSTM모델에 입력할 수 있다. 일 실시예에서 대표 프레임은 t=1 에 대응하는 LSTM모델에 입력될 입력 데이터일 수 있다. 미도시되었지만, 대표 프레임은 모든 시간(t=1 ~ t=N)에 대응하는 LSTM모델들에 동일하게 입력될 입력 데이터일 수 있다.
503동작에서, 프로세서(120)는 t=1에 대응하는 LSTM모델의 라벨을 출력할 수 있다. 도 3을 참고할 때, 프로세서(120)는 t=1에 대응하는 LSTM모델의 라벨을 "여행"으로 출력할 수 있다.
505동작에서, 프로세서(120)는 BN이 적용된 대표 프레임을 t=N(N>=2) 데이터로 LSTM모델에 입력할 수 있다. 예를 들어, BN이 적용된 대표 프레임을 t=2에 대응하는 LSTM모델에 입력할 수 있다. 이 때, t=2에 대응하는 LSTM모델에 입력되는 대표 프레임은, t=1에 대응하는 LSTM모델에 입력되는 대표 프레임과 동일할 수 있으며, 이는 t=1부터 t=S까지도 동일하게 적용될 수 있다. 여기서 S은 학습 동영상 데이터의 라벨 개수 일 수 있다.
507동작에서, 프로세서(120)는 t=N-1(N>=2)의 출력 라벨 또는 t=N-1의 정답 라벨 값을 미리 결정된 확률p로 t=N에 대응하는 LSTM 모델에 입력할 수 있다. 예를 들어, N=2인 경우, 프로세서(120)는 t=1의 출력 라벨("여행") 또는 t=1의 정답 라벨("스포츠")를 미리 결정된 확률p로 t=2에 대응하는 LSTM 모델에 입력할 수 있다. 구체적으로, p의 확률에 따라 "여행"을 입력하거나, 1-p의 확률로 "스포츠"를 입력할 수 있다.
509동작에서, 프로세서(120)는 t=N에 대응하는 LSTM모델의 라벨을 출력할 수 있다. 예를 들어, N=2인 경우, 프로세서(120)는 t=2에 대응하는 LSTM모델의 라벨("뉴스")를 출력할 수 있다.
511동작에서, 프로세서(120)는 N값과 수신한 학습 동영상 데이터의 라벨 개수를 비교할 수 있다. 즉, 본 발명의 실시예는 학습 동영상 데이터의 라벨 개수만큼 LSTM모델을 반복적으로 사용하므로, 현재 LSTM모델의 반복 횟수(N)과 수신한 학습 동영상 데이터의 라벨 개수를 비교할 수 있다.
N값이 학습 동영상 데이터의 라벨 개수와 같지 않은 경우, 513동작에서, N값을 1증가 시켜 505동작 및 509동작을 반복적으로 수행할 수 있다.
515동작에서, N값이 학습 동영상 데이터의 라벨 개수와 같은 경우, 프로세서(120)는 수신한 학습 동영상 데이터의 라벨 개수만큼 LSTM모델을 반복했다고 판단하고, 각 시간에 대응한 LSTM모델들에서 출력한 데이터에 기반하여 특징 벡터를 생성할 수 있다.
517동작에서, 프로세서(120)는 BN을 적용하지 않은 특징 벡터를 분류기(또는 분류 모델 학습부(220))에 제공할 수 있다. 또한, 미도시되었지만 분류 모델 학습부(220)는 생성된 특징 벡터 및 수신한 학습 동영상 데이터의 정답 라벨을 비교하고, 양자 간 오차를 줄이도록 LSTM모델에 사용된 계수 혹은 연결 가중치 값 등을 업데이트 할 수 있다.
도 6는 본 발명의 다양한 실시예에 따른 동영상 분류 모델의 분류 과정을 나타낸다.
601동작에서, 프로세서(120)는 미분류 동영상을 획득할 수 있다. 일 실시예에서 미분류 동영상은 동영상에 대응하는 라벨이 결정되지 않은 동영상을 나타낼 수 있다.
603동작에서, 프로세서(120)는 학습된 분류 모델에 기반하여 획득 동영상을 분류할 수 있다. 일 실시예에서 획득 동영상을 분류하는 동작은 획득 동영상에 하나 이상의 라벨을 라벨링하는 동작을 포함할 수 있다. 일 실시예에서 학습된 분류 모델은, 도 2 및 도 5에서 개시된 바와 같이, BN 및 SGM이 적용된 LSTM모델을 동영상의 라벨 개수만큼 반복하여 사용함으로써, 오차를 줄이도록 학습된, 동영상 분류 모델일 수 있다.
그리고 본 명세서와 도면에 개시된 실시 예들은 본 발명의 내용을 쉽게 설명하고, 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 범위는 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
101: 전자 장치 120: 프로세서
210: 영상 데이터 처리부 220: 분류 모델 학습부

Claims (4)

  1. 동영상을 분류하기 위한 전자 장치에 있어서
    메모리(memory);
    상기 메모리와 기능적으로 연결된 프로세서(processor)를 포함하고,
    상기 프로세서는
    동영상에 대응하는 하나 이상의 라벨 정보를 획득하고,
    상기 동영상에 포함되는 복수의 프레임에 기반하여 상기 동영상을 대표하는 대표 프레임을 생성하고,
    상기 대표 프레임을 반복적으로 동영상 분류 모델에 입력함으로써 상기 동영상에 대응하는 특징을 추출하고,
    상기 추출된 특징에 기반하여 상기 동영상 분류 모델을 학습시키도록 설정된 전자 장치.
  2. 제 1항에 있어서,
    상기 동영상 분류 모델은 LSTM(Long Short Term Memory)모델인 것을 특징으로 하는 전자 장치.
  3. 제 2항에 있어서,
    상기 대표 프레임에 BN을 적용한 데이터를 상기 LSTM모델에 입력하는 것을 특징으로 하는 전자 장치.
  4. 제 3항에 있어서,
    LSTM모델은 서로 다른 시간에 대응하여 서로 구별되는 LSTM모델을 포함하고,
    현재 시간에 대응하는 LSTM모델의 출력 라벨 및 현재 시간에 대응하는 LSTM 모델의 정답 라벨이 미리 결정된 확률로 다음 시간에 대응하는 LSTM모델에 입력되는 것을 특징으로 하는 전자 장치.
KR1020170089296A 2017-07-13 2017-07-13 동영상 분류를 위한 전자 장치 및 그의 동작 방법 KR20190007816A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170089296A KR20190007816A (ko) 2017-07-13 2017-07-13 동영상 분류를 위한 전자 장치 및 그의 동작 방법
US16/033,747 US10803319B2 (en) 2017-07-13 2018-07-12 Electronic device for classifying video and operating method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170089296A KR20190007816A (ko) 2017-07-13 2017-07-13 동영상 분류를 위한 전자 장치 및 그의 동작 방법

Publications (1)

Publication Number Publication Date
KR20190007816A true KR20190007816A (ko) 2019-01-23

Family

ID=64999702

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170089296A KR20190007816A (ko) 2017-07-13 2017-07-13 동영상 분류를 위한 전자 장치 및 그의 동작 방법

Country Status (2)

Country Link
US (1) US10803319B2 (ko)
KR (1) KR20190007816A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704679A (zh) * 2019-09-27 2020-01-17 北京字节跳动网络技术有限公司 视频分类方法、装置及电子设备
KR20210099445A (ko) * 2020-02-04 2021-08-12 상명대학교산학협력단 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016077797A1 (en) 2014-11-14 2016-05-19 Google Inc. Generating natural language descriptions of images
US11185786B2 (en) 2018-08-21 2021-11-30 Steelseries Aps Methods and apparatus for monitoring actions during gameplay
US11568233B2 (en) * 2018-10-02 2023-01-31 Axon Enterprise Inc. Techniques for processing recorded data using docked recording devices
US11071914B2 (en) 2018-11-09 2021-07-27 Steelseries Aps Methods, systems, and devices of providing portions of recorded game content in response to a trigger
CN111583097A (zh) * 2019-02-18 2020-08-25 北京三星通信技术研究有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN110046278B (zh) * 2019-03-11 2021-10-15 北京奇艺世纪科技有限公司 视频分类方法、装置、终端设备及存储介质
CN109947989B (zh) * 2019-03-18 2023-08-29 北京字节跳动网络技术有限公司 用于处理视频的方法和装置
JP7211196B2 (ja) * 2019-03-26 2023-01-24 日本電信電話株式会社 誤り判定装置、誤り判定方法、及びプログラム
CN111209961B (zh) * 2020-01-03 2020-10-09 广州海洋地质调查局 一种冷泉区海底生物识别方法及处理终端
US11206365B2 (en) * 2020-01-13 2021-12-21 Charter Communications Operating, Llc Method and apparatus for overlaying themed imagery onto real-world objects in a head-mounted display device
CN111400551B (zh) * 2020-03-13 2022-11-15 咪咕文化科技有限公司 一种视频分类方法、电子设备和存储介质
CN112188295B (zh) * 2020-09-29 2022-07-05 有半岛(北京)信息科技有限公司 一种视频推荐方法及装置
CN112464831B (zh) * 2020-12-01 2021-07-30 马上消费金融股份有限公司 视频分类方法、视频分类模型的训练方法及相关设备
CN114697761B (zh) * 2022-04-07 2024-02-13 脸萌有限公司 一种处理方法、装置、终端设备及介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421380B2 (en) 2004-12-14 2008-09-02 Microsoft Corporation Gradient learning for probabilistic ARMA time-series models
US9940099B2 (en) 2014-01-03 2018-04-10 Oath Inc. Systems and methods for content processing
US9508340B2 (en) 2014-12-22 2016-11-29 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
EP3238015A4 (en) 2014-12-22 2019-01-23 Robert Bosch GmbH VISUAL CONTEXT SENSITIVE SYSTEM BASED ON A FIRST PERSON CAMERA
US10628735B2 (en) 2015-06-05 2020-04-21 Deepmind Technologies Limited Reading comprehension neural networks
US9965705B2 (en) 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
CN105426515B (zh) 2015-12-01 2018-12-18 小米科技有限责任公司 视频归类方法及装置
CN105469065B (zh) 2015-12-07 2019-04-23 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
US10019629B2 (en) * 2016-05-31 2018-07-10 Microsoft Technology Licensing, Llc Skeleton-based action detection using recurrent neural network
CN106096568B (zh) 2016-06-21 2019-06-11 同济大学 一种基于cnn和卷积lstm网络的行人再识别方法
CN106250829A (zh) 2016-07-22 2016-12-21 中国科学院自动化研究所 基于唇部纹理结构的数字识别方法
CN106202054B (zh) 2016-07-25 2018-12-14 哈尔滨工业大学 一种面向医疗领域基于深度学习的命名实体识别方法
US9946933B2 (en) * 2016-08-18 2018-04-17 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704679A (zh) * 2019-09-27 2020-01-17 北京字节跳动网络技术有限公司 视频分类方法、装置及电子设备
KR20210099445A (ko) * 2020-02-04 2021-08-12 상명대학교산학협력단 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법

Also Published As

Publication number Publication date
US10803319B2 (en) 2020-10-13
US20190019036A1 (en) 2019-01-17

Similar Documents

Publication Publication Date Title
KR20190007816A (ko) 동영상 분류를 위한 전자 장치 및 그의 동작 방법
CN108898186B (zh) 用于提取图像的方法和装置
US11978245B2 (en) Method and apparatus for generating image
CN109800732B (zh) 用于生成漫画头像生成模型的方法和装置
Yger et al. Riemannian approaches in brain-computer interfaces: a review
CN108830235B (zh) 用于生成信息的方法和装置
CN109360028B (zh) 用于推送信息的方法和装置
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
CN111566646B (zh) 用于对数据进行混淆和解码的电子装置以及用于控制该电子装置的方法
CN108460365B (zh) 身份认证方法和装置
KR20160083900A (ko) 얼굴 표현을 위한 시스템 및 방법
CN112132847A (zh) 模型训练方法、图像分割方法、装置、电子设备和介质
US11880754B2 (en) Electronic apparatus and control method thereof
CN108509994B (zh) 人物图像聚类方法和装置
CN109977905B (zh) 用于处理眼底图像的方法和装置
CN110046571B (zh) 用于识别年龄的方法和装置
CN112200173B (zh) 多网络模型训练方法、图像标注方法和人脸图像识别方法
Huu et al. Proposing a Recognition System of Gestures Using MobilenetV2 Combining Single Shot Detector Network for Smart‐Home Applications
CN111539287B (zh) 训练人脸图像生成模型的方法和装置
US11989939B2 (en) System and method for enhancing machine learning model for audio/video understanding using gated multi-level attention and temporal adversarial training
CN109165572B (zh) 用于生成信息的方法和装置
CN110503181B (zh) 用于生成多层神经网络的方法和装置
CN116935083B (zh) 一种图像聚类方法和装置
CN112348615A (zh) 用于审核信息的方法和装置
CN108446737B (zh) 用于识别对象的方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application