KR20190115514A

KR20190115514A - 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법

Info

Publication number: KR20190115514A
Application number: KR1020180030610A
Authority: KR
Inventors: 박재휘; 김진서; 박지영
Original assignee: 한국전자통신연구원
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2019-10-14

Abstract

본 발명은 동영상의 특징 추출에 관한 것으로, 보다 상세하게는 인공 신경망 기반의 복수 인코더를 이용하여 동영상 특징 집합을 추출하는 방법에 관한 것이다.
본 발명에 따른 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법은 복수의 인공 신경망 분류기를 이용하여, 입력되는 동영상으로부터 벡터를 추출하는 단계와, 벡터를 조합하여 차원을 축소시키는 단계 및 차원이 축소된 벡터가 해당 응용에서 기설정된 목적에 부합하는 형태인지 검증하는 단계를 포함하는 것을 특징으로 한다.

Description

인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법{METHOD FOR EXTRACTING FEATURES OF VIDEO USING ENCODERS BASED ON CONVOLUTIONAL NEURAL NETWORK}

본 발명은 동영상의 특징 추출에 관한 것으로, 보다 상세하게는 인공 신경망 기반의 복수 인코더를 이용하여 동영상 특징 집합을 추출하는 방법에 관한 것이다.

미디어에 대한 분석/요약을 위한 특징 추출 기술로서, 인공 신경망을 활용하는 다양한 기법이 제안되었다.

그런데, 인공 신경망을 활용하는 특징 추출 기법이 매우 다양하게 제안되었음에도 불구하고, 그 조합 방법에 대해서는 아직 효과적인 방법을 결정하기에 어려움이 있으며, 특정한 목적에 부합하는지 여부에 대한 검증을 수행하지 못하는 문제점이 있다.

본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 벡터 기반의 코드 생성 과정, 코드에 대한 조합 과정, 해당 조합이 동영상을 표현하는 특징 집합으로써 효율적으로 사용되기 위한 차원 축소 과정 및 해당 특징 집합이 특정 목적에 부합하며 효과적인지 여부를 검증하는 과정을 통해, 특징 추출의 효율이 증대되는 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법을 제공하는 데 목적이 있다.

본 발명에 따른 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법은 복수의 인공 신경망 분류기를 이용하여, 입력되는 동영상으로부터 벡터를 추출하는 단계와, 벡터를 조합하여 차원을 축소시키는 단계 및 차원이 축소된 벡터가 해당 응용에서 기설정된 목적에 부합하는 형태인지 검증하는 단계를 포함하는 것을 특징으로 한다.

본 발명에 따르면, 고효율의 인공 신경망 특징 추출기를 복수 개 활용함으로써, 입력되는 동영상에 대하여 보다 효과적인 특징 추출이 가능한 효과가 있다.

또한, 해당 응용에서 주어진 목적에 부합하도록, 특징 추출기들을 선택적으로 활용할 것인지 여부에 대해 판단함으로써, 데이터와 시스템 기반의 효율 및 효과성을 확보하는 것이 가능한 효과가 있다.

본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 실시예에 따른 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법을 나타내는 순서도이다.
도 2는 본 발명의 실시예에 따른 복수 인코더의 선택적 활용을 도시하는 도면이다.
도 3은 본 발명의 실시예에 따른 인코딩 결과에 대한 조합 과정을 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 코드 및 학습 파라메터와의 관계를 나타내는 예시도이다.

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.

한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.

이하에서는, 당업자의 이해를 돕기 위하여 본 발명이 제안된 배경에 대하여 먼저 서술하고, 본 발명의 실시예에 대하여 서술하기로 한다.

인터넷을 통한 정보 공유 및 전달이 증가하면서, 동영상과 같이 용량이 크고 복잡합 정보를 포함하는 미디어에 대한 유통이 일상화되었다.

이러한 미디어의 급증은 해당 미디어를 활용하는 응용이 다양해지는 것을 의미하기도 한다.

따라서, 이런 미디어에 대한 분석 및 요약이 중요한데, 최근 알려진 인공 신경망(예: Convolutional Neural Network) 기반의 특징 추출 방법이 많이 사용되고 있다.

종래 기술에 따르면, 해당 표현을 기반으로 하여 실세계의 정보(예: 분류체계)에 대한 차원으로 투영하였을 때 그 효과성이 뛰어남을 입증하여 영상 인식 및 분류 등에 대한 응용으로 활용되고 있으나, 인공 신경망을 활용하는 기법을 조합하여 효과적으로 특징을 추출하는 기술에 대하여는 제안되지 못한 한계가 있다.

본 발명은 전술한 종래 기술의 문제점을 해결하기 위하여 제안된 것으로, 고효율의 인공 신경망 특징 추출기를 복수 개 활용함으로써, 주어진 동영상에 대한 보다 효과적인 특징 추출을 가능하게 하고, 해당 응용에서 주어진 목적에 맞게 어떠한 특징 추출기를 선택적으로 활용할 것인지 판단하고, 특징 추출의 효율성을 증대시키기 위하여 제안된 것이다.

이하, 도 1 내지 도 4를 참조하여 본 발명의 바람직한 실시예에 대하여 서술한다.

도 1은 본 발명의 실시예에 따른 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법을 나타내는 순서도이다.

도 1을 참조하면, 본 발명에 따른 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법은 복수의 인공 신경망 분류기를 이용하여, 입력되는 동영상으로부터 벡터를 추출하는 단계(S100)와, 벡터를 조합하여 차원을 축소시키는 단계(S200) 및 차원이 축소된 벡터가 해당 응용에서 기설정된 목적에 부합하는 형태인지 검증하는 단계(S300)를 포함한다.

도 2는 본 발명의 실시예에 따른 복수 인코더의 선택적 활용을 도시하는 도면이다.

본 발명의 실시예에 따른 인공 신경망 기반의 인코더는 주로 Convolutional Neural Network(CNN) 로 표현되는 인공신경망 분류기 또는 특징 추출 모듈로 정의된다.

입력되는 동영상으로부터 추출된 특징의 형태는 각각의 인공신경망 분류기가 설계된 방식에 따라 상이하지만, 인공신경망의 입력으로 영상이 주어졌을 때, 출력되는 코드는 벡터 또는 다수의 벡터 형태가 된다.

일례로, 도 2에 도시한 제1 인코더(100a)는 C3D로서, 사람 행동 인식을 위한 응용에 사용되는 인공신경망이며, 제2 인코더(100b)는 Inception V3로서, ImageNet 데이터베이스를 학습한 가중치 값을 저장하고 있는 인공신경망이다.

도 2에 도시한 바와 같이, 2 개 이상의 복수의 인공 신경망 인코더를 적용하는 경우, 각각의 인공신경망 기반의 인코더가 설계된 방식에 따라서 코드가 표현하고 있는 값들은 상호 의미적인 연관성이 없으나, 각각의 인공 신경망 인코더가 목표로 하는 작업을 위한 알맞은 값들이 코딩된다.

따라서, 해당 코드, 즉 벡터의 조합하는 방식에 따라, 각각의 인공 신경망 인코더가 내재하고 있는 응용을 위한 특징 추출을 적절히 조합하는 것이 가능하다.

도 3은 본 발명의 실시예에 따른 인코딩 결과에 대한 조합 과정을 나타내는 도면이다.

도 3을 참조하면, 각각의 인공 신경망에서 추출된 코드들의 나열을 입력으로 수신하고, 이들에 대한 조합을 수행하는 과정에 대한 예시를 도시한다.

Vector 로 표현된 부분은 도 2에 도시한 인공 신경망 인코더의 결과이고, 이들은 도 2에 십자 동그라미로 도시한 부분의 조합에 대한 입력이 된다.

도 3에 도시된 FloatList 는 그 Vector로부터 추출한 실제 값의 나열을 의미한다.

조합 결과의 벡터 크기는 복수의 인공신경망의 개수, 결과 벡터의 사이즈 등에 따라 달라지게 된다.

조합 결과의 벡터 크기가 적당한 수준을 넘으면 현존하는 처리 시스템으로 효율적인 연산을 하기 어려우므로, 내재하는 정보량을 최대한 보유하면서 정보의 사이즈를 줄일 수 있도록 벡터의 차원을 축소하고 결과값으로 사용한다.

도3에 도시한 바에 따르면, 3개의 인코더를 사용하고 각각의 인코더로부터 같은 사이즈의 벡터를 받은 것임을 가정한다.

조합의 기법으로는 다양한 기법이 적용될 수 있는데, 제1 모듈(200a)는 concatenation으로서, 벡터 구조 자체에 대한 단순 결합을 수행한다.

제2 모듈(200b)은 각각의 벡터 값 자체를 조합하기 위한 평균을 하는 average 가 된다.

제3 모듈(200c)에는 벡터의 구조는 물론, 값 또한 변환할 수 있는 PCA 기법이 적용된다.

제4 모듈(200d)로는 인공 신경망 기반의 variational autoencoder와 같은 학습 가능한 모듈이 사용된다.

전술한 모듈의 예시는 가능한 모든 조합 기법에 대한 완결한 나열을 의미하는 것이 아니며, 특징 값의 데이터 구조와 값을 변환할 수 있는 기법을 사용하여 벡터의 형태로 인코딩을 한번 더 수행하는 것을 의미한다.

해당 인코딩에 필요한 조합식은 도 3에 도시한 바와 같이, w1, w2, w3, w4 에 해당하는 값의 선형 조합으로 구성할 수 있다.

최종적으로는 전술한 방법에 따라, 동영상이 주어졌을 때, 하나의 vector 로 표현되는 특징(집합)을 코딩 가능하다.

도 4는 본 발명의 실시예에 따른 코드 및 학습 파라메터와의 관계를 나타내는 예시도이다.

도 4는 주어진 특징 집합인 코드(Code)로부터, 동영상을 활용하고자 하는 목적에 맞는 조합 방법, 즉 가중치를 학습하는 구조를 도시한다.

가중치는 전술한 바와 같이, wn 의 형태로 실수값 형태의 파라메터가 모델에 배정된다.

모델의 형태는 SVM, Random Forest, 인공신경망 등 다양한 형태의 학습기가 될 수 있다.

해당 데이터가 활용되는 응용에서 필요한 prediction 값이 지도학습의 방법으로 활용할 수 있도록 데이터에 annotation이 되었다는 가정하에 사용할 수 있다.

예컨대, 동영상 내에 존재하는 객체의 이름을 식별하고자 하는 응용을 가정하여 설명한다.

Code 형태로 추상화된 동영상의 추출 특징에 대응되는 객체 이름(Label) 에 대한 예측 값이 학습 모델의 실행 결과가 된다.

실행 결과에 대한 Loss 를 갱신하면서 예측 값의 정확도를 높이는 기계학습 방법을 기반으로 wn 값을 학습하며, 이는 도 2에서 도시한 복수의 인공신경망 인코더에 대한 가중치를 학습하는 방법이 된다.

이는 도 1의 S300 단계, 즉 주어진 응용 목적에 맞는 형태의 코드인지를 검증하는 단계에 해당하는 것으로, 특징적인 응용에 활용하기에 적합한지 여부를 확인하는 것이다.

예컨대, 동영상의 분류를 위한 목적인지, 동영상 내 객체의 인식에 대한 목적인지를 판단할 수 있는 실세계의 정보와 대응을 시키고자 할 때, 추출된 코드(Code)가 효과적인지 여부를 기계학습 기반의 Loss 또는 재정의된 정확도 함수 (Precision 혹은 MSE 등)를 통해 검증하는 것이 가능하다.

이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

100: 인코더 200: 모듈

Claims

(a) 복수의 인공 신경망 분류기를 이용하여, 입력되는 동영상으로부터 벡터를 추출하는 단계;
(b) 상기 벡터를 조합하여 차원을 축소시키는 단계; 및
(c) 상기 차원이 축소된 벡터가 해당 응용에서 기설정된 목적에 부합하는 형태인지 검증하는 단계
를 포함하는 인공 신경망 기반의 복수 인코더를 이용하는 동영상 특징 집합 추출 방법.