KR20190115514A - 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법 - Google Patents

인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법

Info

Publication number
KR20190115514A
KR20190115514A KR1020180030610A KR20180030610A KR20190115514A KR 20190115514 A KR20190115514 A KR 20190115514A KR 1020180030610 A KR1020180030610 A KR 1020180030610A KR 20180030610 A KR20180030610 A KR 20180030610A KR 20190115514 A KR20190115514 A KR 20190115514A
Authority
KR
South Korea
Prior art keywords
neural network
video
artificial neural
present
vector
Prior art date
Application number
KR1020180030610A
Other languages
English (en)
Inventor
박재휘
김진서
박지영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180030610A priority Critical patent/KR20190115514A/ko
Publication of KR20190115514A publication Critical patent/KR20190115514A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06K9/00744
    • G06K9/481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 동영상의 특징 추출에 관한 것으로, 보다 상세하게는 인공 신경망 기반의 복수 인코더를 이용하여 동영상 특징 집합을 추출하는 방법에 관한 것이다.
본 발명에 따른 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법은 복수의 인공 신경망 분류기를 이용하여, 입력되는 동영상으로부터 벡터를 추출하는 단계와, 벡터를 조합하여 차원을 축소시키는 단계 및 차원이 축소된 벡터가 해당 응용에서 기설정된 목적에 부합하는 형태인지 검증하는 단계를 포함하는 것을 특징으로 한다.

Description

인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법{METHOD FOR EXTRACTING FEATURES OF VIDEO USING ENCODERS BASED ON CONVOLUTIONAL NEURAL NETWORK}
본 발명은 동영상의 특징 추출에 관한 것으로, 보다 상세하게는 인공 신경망 기반의 복수 인코더를 이용하여 동영상 특징 집합을 추출하는 방법에 관한 것이다.
미디어에 대한 분석/요약을 위한 특징 추출 기술로서, 인공 신경망을 활용하는 다양한 기법이 제안되었다.
그런데, 인공 신경망을 활용하는 특징 추출 기법이 매우 다양하게 제안되었음에도 불구하고, 그 조합 방법에 대해서는 아직 효과적인 방법을 결정하기에 어려움이 있으며, 특정한 목적에 부합하는지 여부에 대한 검증을 수행하지 못하는 문제점이 있다.
본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 벡터 기반의 코드 생성 과정, 코드에 대한 조합 과정, 해당 조합이 동영상을 표현하는 특징 집합으로써 효율적으로 사용되기 위한 차원 축소 과정 및 해당 특징 집합이 특정 목적에 부합하며 효과적인지 여부를 검증하는 과정을 통해, 특징 추출의 효율이 증대되는 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법을 제공하는 데 목적이 있다.
본 발명에 따른 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법은 복수의 인공 신경망 분류기를 이용하여, 입력되는 동영상으로부터 벡터를 추출하는 단계와, 벡터를 조합하여 차원을 축소시키는 단계 및 차원이 축소된 벡터가 해당 응용에서 기설정된 목적에 부합하는 형태인지 검증하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 고효율의 인공 신경망 특징 추출기를 복수 개 활용함으로써, 입력되는 동영상에 대하여 보다 효과적인 특징 추출이 가능한 효과가 있다.
또한, 해당 응용에서 주어진 목적에 부합하도록, 특징 추출기들을 선택적으로 활용할 것인지 여부에 대해 판단함으로써, 데이터와 시스템 기반의 효율 및 효과성을 확보하는 것이 가능한 효과가 있다.
본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법을 나타내는 순서도이다.
도 2는 본 발명의 실시예에 따른 복수 인코더의 선택적 활용을 도시하는 도면이다.
도 3은 본 발명의 실시예에 따른 인코딩 결과에 대한 조합 과정을 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 코드 및 학습 파라메터와의 관계를 나타내는 예시도이다.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.
한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.
이하에서는, 당업자의 이해를 돕기 위하여 본 발명이 제안된 배경에 대하여 먼저 서술하고, 본 발명의 실시예에 대하여 서술하기로 한다.
인터넷을 통한 정보 공유 및 전달이 증가하면서, 동영상과 같이 용량이 크고 복잡합 정보를 포함하는 미디어에 대한 유통이 일상화되었다.
이러한 미디어의 급증은 해당 미디어를 활용하는 응용이 다양해지는 것을 의미하기도 한다.
따라서, 이런 미디어에 대한 분석 및 요약이 중요한데, 최근 알려진 인공 신경망(예: Convolutional Neural Network) 기반의 특징 추출 방법이 많이 사용되고 있다.
종래 기술에 따르면, 해당 표현을 기반으로 하여 실세계의 정보(예: 분류체계)에 대한 차원으로 투영하였을 때 그 효과성이 뛰어남을 입증하여 영상 인식 및 분류 등에 대한 응용으로 활용되고 있으나, 인공 신경망을 활용하는 기법을 조합하여 효과적으로 특징을 추출하는 기술에 대하여는 제안되지 못한 한계가 있다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위하여 제안된 것으로, 고효율의 인공 신경망 특징 추출기를 복수 개 활용함으로써, 주어진 동영상에 대한 보다 효과적인 특징 추출을 가능하게 하고, 해당 응용에서 주어진 목적에 맞게 어떠한 특징 추출기를 선택적으로 활용할 것인지 판단하고, 특징 추출의 효율성을 증대시키기 위하여 제안된 것이다.
이하, 도 1 내지 도 4를 참조하여 본 발명의 바람직한 실시예에 대하여 서술한다.
도 1은 본 발명의 실시예에 따른 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법을 나타내는 순서도이다.
도 1을 참조하면, 본 발명에 따른 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법은 복수의 인공 신경망 분류기를 이용하여, 입력되는 동영상으로부터 벡터를 추출하는 단계(S100)와, 벡터를 조합하여 차원을 축소시키는 단계(S200) 및 차원이 축소된 벡터가 해당 응용에서 기설정된 목적에 부합하는 형태인지 검증하는 단계(S300)를 포함한다.
도 2는 본 발명의 실시예에 따른 복수 인코더의 선택적 활용을 도시하는 도면이다.
본 발명의 실시예에 따른 인공 신경망 기반의 인코더는 주로 Convolutional Neural Network(CNN) 로 표현되는 인공신경망 분류기 또는 특징 추출 모듈로 정의된다.
입력되는 동영상으로부터 추출된 특징의 형태는 각각의 인공신경망 분류기가 설계된 방식에 따라 상이하지만, 인공신경망의 입력으로 영상이 주어졌을 때, 출력되는 코드는 벡터 또는 다수의 벡터 형태가 된다.
일례로, 도 2에 도시한 제1 인코더(100a)는 C3D로서, 사람 행동 인식을 위한 응용에 사용되는 인공신경망이며, 제2 인코더(100b)는 Inception V3로서, ImageNet 데이터베이스를 학습한 가중치 값을 저장하고 있는 인공신경망이다.
도 2에 도시한 바와 같이, 2 개 이상의 복수의 인공 신경망 인코더를 적용하는 경우, 각각의 인공신경망 기반의 인코더가 설계된 방식에 따라서 코드가 표현하고 있는 값들은 상호 의미적인 연관성이 없으나, 각각의 인공 신경망 인코더가 목표로 하는 작업을 위한 알맞은 값들이 코딩된다.
따라서, 해당 코드, 즉 벡터의 조합하는 방식에 따라, 각각의 인공 신경망 인코더가 내재하고 있는 응용을 위한 특징 추출을 적절히 조합하는 것이 가능하다.
도 3은 본 발명의 실시예에 따른 인코딩 결과에 대한 조합 과정을 나타내는 도면이다.
도 3을 참조하면, 각각의 인공 신경망에서 추출된 코드들의 나열을 입력으로 수신하고, 이들에 대한 조합을 수행하는 과정에 대한 예시를 도시한다.
Vector 로 표현된 부분은 도 2에 도시한 인공 신경망 인코더의 결과이고, 이들은 도 2에 십자 동그라미로 도시한 부분의 조합에 대한 입력이 된다.
도 3에 도시된 FloatList 는 그 Vector로부터 추출한 실제 값의 나열을 의미한다.
조합 결과의 벡터 크기는 복수의 인공신경망의 개수, 결과 벡터의 사이즈 등에 따라 달라지게 된다.
조합 결과의 벡터 크기가 적당한 수준을 넘으면 현존하는 처리 시스템으로 효율적인 연산을 하기 어려우므로, 내재하는 정보량을 최대한 보유하면서 정보의 사이즈를 줄일 수 있도록 벡터의 차원을 축소하고 결과값으로 사용한다.
도3에 도시한 바에 따르면, 3개의 인코더를 사용하고 각각의 인코더로부터 같은 사이즈의 벡터를 받은 것임을 가정한다.
조합의 기법으로는 다양한 기법이 적용될 수 있는데, 제1 모듈(200a)는 concatenation으로서, 벡터 구조 자체에 대한 단순 결합을 수행한다.
제2 모듈(200b)은 각각의 벡터 값 자체를 조합하기 위한 평균을 하는 average 가 된다.
제3 모듈(200c)에는 벡터의 구조는 물론, 값 또한 변환할 수 있는 PCA 기법이 적용된다.
제4 모듈(200d)로는 인공 신경망 기반의 variational autoencoder와 같은 학습 가능한 모듈이 사용된다.
전술한 모듈의 예시는 가능한 모든 조합 기법에 대한 완결한 나열을 의미하는 것이 아니며, 특징 값의 데이터 구조와 값을 변환할 수 있는 기법을 사용하여 벡터의 형태로 인코딩을 한번 더 수행하는 것을 의미한다.
해당 인코딩에 필요한 조합식은 도 3에 도시한 바와 같이, w1, w2, w3, w4 에 해당하는 값의 선형 조합으로 구성할 수 있다.
최종적으로는 전술한 방법에 따라, 동영상이 주어졌을 때, 하나의 vector 로 표현되는 특징(집합)을 코딩 가능하다.
도 4는 본 발명의 실시예에 따른 코드 및 학습 파라메터와의 관계를 나타내는 예시도이다.
도 4는 주어진 특징 집합인 코드(Code)로부터, 동영상을 활용하고자 하는 목적에 맞는 조합 방법, 즉 가중치를 학습하는 구조를 도시한다.
가중치는 전술한 바와 같이, wn 의 형태로 실수값 형태의 파라메터가 모델에 배정된다.
모델의 형태는 SVM, Random Forest, 인공신경망 등 다양한 형태의 학습기가 될 수 있다.
해당 데이터가 활용되는 응용에서 필요한 prediction 값이 지도학습의 방법으로 활용할 수 있도록 데이터에 annotation이 되었다는 가정하에 사용할 수 있다.
예컨대, 동영상 내에 존재하는 객체의 이름을 식별하고자 하는 응용을 가정하여 설명한다.
Code 형태로 추상화된 동영상의 추출 특징에 대응되는 객체 이름(Label) 에 대한 예측 값이 학습 모델의 실행 결과가 된다.
실행 결과에 대한 Loss 를 갱신하면서 예측 값의 정확도를 높이는 기계학습 방법을 기반으로 wn 값을 학습하며, 이는 도 2에서 도시한 복수의 인공신경망 인코더에 대한 가중치를 학습하는 방법이 된다.
이는 도 1의 S300 단계, 즉 주어진 응용 목적에 맞는 형태의 코드인지를 검증하는 단계에 해당하는 것으로, 특징적인 응용에 활용하기에 적합한지 여부를 확인하는 것이다.
예컨대, 동영상의 분류를 위한 목적인지, 동영상 내 객체의 인식에 대한 목적인지를 판단할 수 있는 실세계의 정보와 대응을 시키고자 할 때, 추출된 코드(Code)가 효과적인지 여부를 기계학습 기반의 Loss 또는 재정의된 정확도 함수 (Precision 혹은 MSE 등)를 통해 검증하는 것이 가능하다.
이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100: 인코더 200: 모듈

Claims (1)

  1. (a) 복수의 인공 신경망 분류기를 이용하여, 입력되는 동영상으로부터 벡터를 추출하는 단계;
    (b) 상기 벡터를 조합하여 차원을 축소시키는 단계; 및
    (c) 상기 차원이 축소된 벡터가 해당 응용에서 기설정된 목적에 부합하는 형태인지 검증하는 단계
    를 포함하는 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법.
KR1020180030610A 2018-03-16 2018-03-16 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법 KR20190115514A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180030610A KR20190115514A (ko) 2018-03-16 2018-03-16 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180030610A KR20190115514A (ko) 2018-03-16 2018-03-16 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법

Publications (1)

Publication Number Publication Date
KR20190115514A true KR20190115514A (ko) 2019-10-14

Family

ID=68171553

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180030610A KR20190115514A (ko) 2018-03-16 2018-03-16 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법

Country Status (1)

Country Link
KR (1) KR20190115514A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023225808A1 (en) * 2022-05-23 2023-11-30 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Learned image compress ion and decompression using long and short attention module

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023225808A1 (en) * 2022-05-23 2023-11-30 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Learned image compress ion and decompression using long and short attention module

Similar Documents

Publication Publication Date Title
Ghosal et al. Contextual inter-modal attention for multi-modal sentiment analysis
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN111222305A (zh) 一种信息结构化方法和装置
CN111695415A (zh) 图像识别模型的构建方法、识别方法及相关设备
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN1866206A (zh) 利用马尔可夫链根据uml规范生成性能测试
CN110825363B (zh) 智能合约获取方法、装置、电子设备及存储介质
US20230029759A1 (en) Method of classifying utterance emotion in dialogue using word-level emotion embedding based on semi-supervised learning and long short-term memory model
CN107291775B (zh) 错误样本的修复语料生成方法和装置
CN113516480A (zh) 一种支付风险识别方法、装置及设备
Tao et al. Skipping rnn state updates without retraining the original model
CN114387567A (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
Kathuria et al. Real time sentiment analysis on twitter data using deep learning (Keras)
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN116403253A (zh) 基于卷积神经网络的人脸识别监控管理系统及其方法
CN114299304A (zh) 一种图像处理方法及相关设备
KR20190115514A (ko) 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법
US11373657B2 (en) System and method for speaker identification in audio data
Kriman et al. Joint detection and coreference resolution of entities and events with document-level context aggregation
CN115146653B (zh) 对话剧本构建方法、装置、设备及存储介质
KR102574434B1 (ko) 사용자가 요청하는 전문화된 경량 신경망 모델을 실시간으로 생성하는 방법 및 장치
CN114266240A (zh) 一种基于机器人的多意图识别方法及装置
CN112464637A (zh) 基于标签的优化模型训练方法、装置、设备及存储介质
CN116502140B (zh) 一种基于控制流图相似性的加密算法识别方法及装置
CN113705244B (zh) 对抗文本样本生成方法、装置与存储介质