KR102315427B1 - 딥러닝 학습을 위한 데이터 처리 방법 및 그 장치 - Google Patents

딥러닝 학습을 위한 데이터 처리 방법 및 그 장치 Download PDF

Info

Publication number
KR102315427B1
KR102315427B1 KR1020200057999A KR20200057999A KR102315427B1 KR 102315427 B1 KR102315427 B1 KR 102315427B1 KR 1020200057999 A KR1020200057999 A KR 1020200057999A KR 20200057999 A KR20200057999 A KR 20200057999A KR 102315427 B1 KR102315427 B1 KR 102315427B1
Authority
KR
South Korea
Prior art keywords
deep learning
learning algorithm
original video
video
data processing
Prior art date
Application number
KR1020200057999A
Other languages
English (en)
Inventor
황원준
조현
김태훈
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020200057999A priority Critical patent/KR102315427B1/ko
Application granted granted Critical
Publication of KR102315427B1 publication Critical patent/KR102315427B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 딥러닝(Deep Learning) 알고리즘의 자기 지도 학습(Self-Supervised Learning)을 위한 데이터 처리 방법 및 그 장치에 대한 것이다. 본 발명의 일 실시예에 따른 데이터 처리 장치는, 프로세서 및 프로세서에 연결되고, 딥러닝 알고리즘, 원본 비디오가 저장되는 메모리를 포함하며, 메모리는 프로세서에 의해 실행 가능한, 원본 비디오의 재생 속도 및 재생 방향 중 하나 이상을 미리 설정된 방법에 따라 변경시켜 복수의 변경 비디오들을 생성하고, 변경 비디오들을 이용하여 딥러닝 알고리즘을 학습시키는 프로그램 명령어들을 저장할 수 있다. 본 발명은 자기 지도 학습의 효과를 극대화할 수 있는 딥러닝 학습을 위한 데이터 처리 방법 및 그 장치를 제공할 수 있다.

Description

딥러닝 학습을 위한 데이터 처리 방법 및 그 장치{DATA PROCESSING METHOD AND APPARATUS FOR DEEP LEARNING}
본 발명은 딥러닝(Deep Learning) 알고리즘의 자기 지도 학습(Self-Supervised Learning)을 위한 데이터 처리 방법 및 그 장치에 대한 것이다.
딥러닝(Deep Learning)이란 “데이터를 이용해서 컴퓨터를 학습시키는 방법론”중 하나이다. 딥러닝 알고리즘을 학습시키는 방법은 크게 네 가지로 분류될 수 있다. 바로, 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) 및 자기 지도 학습(self-supervised learning)이다.
지도 학습(Supervised Learning)은 데이터에 대한 레이블(Label, 명시적인 정답)이 주어진 상태에서 딥러닝 알고리즘을 학습시키는 방법이다. 즉, 지도 학습은 [데이터(data), 레이블(label)] 형태로 학습이 진행되는 방법이다.
비지도 학습(Unsupervised Learning)은 데이터에 대한 레이블(Label, 명시적인 정답)이 주어지지 상태에서 딥러닝 알고리즘을 학습시키는 방법이다. 즉, 비지도 학습은 [데이터(data)] 형태로 학습이 진행되는 방법이다. 예를 들어, 데이터가 무작위로 분포되어 있을 때, 이 데이터를 비슷한 특성을 가진 여러 가지로 묶는 클러스터링(Clustering) 알고리즘이 있다. 비지도 학습은 데이터의 숨겨진(Hidden) 특징(Feature)이나 구조를 발견하는데 사용된다.
강화 학습(Reinforcement Learning)은 지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning)과는 달리 에이전트가 주어진 환경(state)에 대해 어떤 행동(action)을 취하고 이로부터 최대한의 보상(reward)을 추구하면서 학습을 진행한다.
자기 지도 학습(self-supervised learning)은 지도 학습이지만 인간이 부여한 레이블을 사용하지 않는다는 특징이 있다. 즉, 자기 지도 학습은 학습 과정에 사람이 개입하지 않는 지도 학습이라고 할 수 있다.
본 발명은 자기 지도 학습의 효과를 극대화할 수 있는 딥러닝 학습을 위한 데이터 처리 방법 및 그 장치를 제공하고자 한다.
본 발명의 일 실시예에 따르면, 프로세서; 및 상기 프로세서에 연결되고, 딥러닝 알고리즘, 원본 비디오가 저장되는 메모리;를 포함하며, 상기 메모리는 상기 프로세서에 의해 실행 가능한, 상기 원본 비디오의 재생 속도 및 재생 방향 중 하나 이상을 미리 설정된 방법에 따라 변경시켜 복수의 변경 비디오들을 생성하고, 상기 변경 비디오들을 이용하여 상기 딥러닝 알고리즘을 학습시키는 프로그램 명령어들을 저장하는, 데이터 처리 장치가 개시된다.
실시예에 따라, 상기 메모리는, 상기 딥러닝 알고리즘이 상기 변경 데이터들을 재생 속도 순서대로 구분하도록 학습시키는 프로그램 명령어들을 저장할 수 있다.
실시예에 따라, 상기 메모리는, 상기 딥러닝 알고리즘이 상기 변경 데이터들을 재생 방향에 따라 구분하도록 학습시키는 프로그램 명령어들을 저장할 수 있다.
실시예에 따라, 상기 메모리는, 상기 변경 비디오들을 미리 설정된 방법에 따라 구분하여 배치 정규화(Batch Normalization)한 데이터들을 이용하여 상기 딥러닝 알고리즘을 학습시키는 프로그램 명령어들을 저장할 수 있다.
실시예에 따라, 상기 메모리는, 상기 변경 비디오들 각각을 미리 설정된 개수의 프레임을 포함하는 그룹들로 구분하고, 상기 그룹들 각각을 상기 배치 정규화하여 상기 딥러닝 알고리즘을 학습시키는 프로그램 명령어들을 저장할 수 있다.
본 발명의 다른 실시예에 따르면, 딥러닝 알고리즘, 원본 비디오가 저장된 데이터 처리 장치에서 수행되는 데이터 처리 방법에 있어서, 상기 원본 비디오의 재생 속도 및 재생 방향 중 하나 이상을 미리 설정된 방법에 따라 변경시켜 복수의 변경 비디오들을 생성하는 단계; 및 상기 변경 비디오들을 이용하여 상기 딥러닝 알고리즘을 학습시키는 단계;를 포함하는 데이터 처리 방법이 개시된다.
실시예에 따라, 상기 딥러닝 알고리즘을 학습시키는 단계는, 상기 딥러닝 알고리즘이 상기 변경 데이터들을 재생 속도에 따라 구분하도록 학습시키는 단계;를 포함할 수 있다.
실시예에 따라, 상기 딥러닝 알고리즘을 학습시키는 단계는, 상기 딥러닝 알고리즘이 상기 변경 데이터들을 재생 방향에 따라 구분하도록 학습시키는 단계;를 포함할 수 있다.
실시예에 따라, 상기 딥러닝 알고리즘을 학습시키는 단계는, 상기 변경 비디오들을 미리 설정된 방법에 따라 구분하여 배치 정규화(Batch Normalization)하는 단계; 및 상기 배치 정규화한 데이터들을 이용하여 상기 딥러닝 알고리즘을 학습시키는 단계;를 포함할 수 있다.
실시예에 따라, 상기 배치 정규화하는 단계는, 상기 변경 비디오들 각각을 미리 설정된 개수의 프레임을 포함하는 그룹들로 구분하는 단계; 및 상기 그룹들 각각을 상기 배치 정규화하는 단계;를 포함할 수 있다.
본 발명은 자기 지도 학습의 효과를 극대화할 수 있는 딥러닝 학습을 위한 데이터 처리 방법 및 그 장치를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 데이터 처리 장치에 대한 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 데이터 처리 장치의 동작을 설명하기 위한 동작 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 데이터 처리 장치에서 원본 비디오를 변경하는 동작을 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 변경 비디오를 정규화하는 동작을 설명하기 위한 예시도이다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 데이터 처리 장치의 예측 정확도를 설명하기 위한 시뮬레이션 그래프이다.
도 7은 본 발명의 다른 실시예에 따른 데이터 처리 방법을 설명하기 위한 순서도이다.
본 명세서에서 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.
본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 “~사이에”와 “바로~사이에” 또는 “~에 이웃하는”과 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서 “포함하다” 또는 “가지다” 등의 용어를 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 따른 장애물 회피 무인기 및 그 회피 방법에 대해 살펴보기로 한다.
도 1은 본 발명의 일 실시예에 따른 데이터 처리 장치에 대한 블록 구성도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 데이터 처리 장치(100)는 프로세서(PROCESSOR, 110) 및 메모리(MEMORY, 120)를 포함할 수 있다.
먼저, 메모리(120)는 데이터 처리 장치(100)의 동작을 위한 각종 정보 및 프로그램 명령어들이 저장되는 구성으로서, 하드 디스크(Hard Disk), SSD(Solid State Drive) 등과 같은 기억장치일 수 있다. 특히 메모리(120)는 프로세서(110)의 제어에 의해 입력되는 하나 이상의 멀티미디어 데이터(Multimedia Data)를 저장할 수 있다. 여기서 멀티미디어 데이터는 비디오 데이터(Video data)일 수 있다. 즉, 메모리(120)에는 사용자의 조작에 의해 생성 또는 입력되는 비디오 데이터가 저장될 수 있다.
또한, 메모리(120)는 프로세서(110)에 의해 실행 가능한 딥러닝(Deep-Learning) 알고리즘, 기타 실행 명령어 등과 같은 프로그램 명령어들을 저장할 수 있다.
프로세서(110)는 메모리(120)에 저장된 데이터 및 프로그램 명령어들을 이용하여 딥러닝 알고리즘을 학습시킬 수 있다. 이하, 도 2 내지 도 4를 참조하여 프로세서(110)의 딥러닝 알고리즘 학습 동작에 대해 구체적으로 설명한다.
도 2는 본 발명의 일 실시예에 따른 데이터 처리 장치의 동작을 설명하기 위한 동작 흐름도이고, 도 3은 본 발명의 일 실시예에 따른 데이터 처리 장치에서 원본 비디오를 변경하는 동작을 설명하기 위한 예시도이며, 도 4는 본 발명의 일 실시예에 따른 변경 비디오를 정규화하는 동작을 설명하기 위한 예시도이다.
도 2에는, 본 발명의 일 실시예에 따른 데이터 처리 장치(100)의 프로세서(110)가 딥러닝 알고리즘을 학습시키고, 비디오 데이터를 분석하는 동작을 설명하기 위한 동작 흐름이 예시된다.
먼저, 프로세서(110)는 비디오 데이터를 수집 및 정리할 수 있다(Video Data Gathering, 210). 예를 들어, 프로세서(120)는 구비된 모뎀(미도시)을 통해 외부 장치들로부터 수신된 비디오 데이터(예를 들어, 확장자 avi, mp4 등과 같은 동영상 데이터)를 메모리(120)에 저장할 수 있다.
또한 프로세서(110)는 수집 및 정리된 비디오 데이터를 미리 설정된 방법에 따라 처리할 수 있다(Video Data Processing, 220). 이하, 처리 전 비디오 데이터를 '제1 원본 비디오'라 칭한다.
예를 들어, 프로세서(110)는 원본 비디오를 미리 설정된 방법에 따라 분할할 수 있다. 즉, 프로세서(110)는 제1 원본 비디오 1개를 미리 설정된 러닝 타임(Running time)에 상응하도록 분할할 수 있다. 미리 설정된 시간이 5분이고, 원본 비디오의 전체 러닝 타임이 1시간인 경우, 프로세서(110)는 겹치는 구간이 없고, 러닝 타임이 5분인 비디오 데이터 12개를 생성할 수 있을 것이다. 이렇게 생성된 비디오 데이터를 '제2 원본 비디오'라 칭한다.
다른 예를 들어, 프로세서(110)는 원본 비디오(제1 원본 비디오 및 제2 원본 비디오를 구분할 필요가 없을 경우에는 '원본 비디오'로 통칭하여 설명한다)의 재생 속도를 미리 설정된 방법에 따라 변경시킬 수 있다. 즉, 프로세서(110)는 원본 비디오의 재생 속도가 1배, 1.1배, 1.2배 내지 n배인 비디오 데이터를 생성할 수 있다(단, n은 실수임). 따라서 프로세서(110)는 1개의 원본 비디오에 상응하는 n개의 변경된 비디오 데이터를 생성할 수 있는 것이다.
또 다른 예를 들어, 프로세서(110)는 원본 비디오의 재생 방향을 변경시킬 수도 있다. 즉, 프로세서(110)는 원본 비디오가 역(逆)으로 재생되도록 변경시킬 수 있다. 이렇게 변경된 비디오는 원본 비디오의 종료 시점에서 재생되기 시작하여 원본 비디오의 시작 시점에서 종료될 것이다.
상술한 방법에 따르면, 프로세서(110)는 1개의 원본 비디오를 이용하여 재생 속도 및/또는 재생 방향이 상이한 2n개 이하의 변경된 비디오 데이터(이하, '변경 비디오'라 칭함)를 생성할 수 있을 것이다.
도 3을 참조하면, 좌측에 나열된 이미지들(Shuffle)이 원본 비디오 및 변경 비디오의 예시이다. 즉, 좌측 상단에 나열된 이미지들이 원본 비디오에 포함된 프레임들의 예시이고, 좌측 중단에 나열된 이미지들이 원본 비디오의 재생 속도보다 4배 빠른 재생 속도인 제1 변경 비디오에 포함된 프레임들의 예시이며, 좌측 하단에 나열된 이미지들이 원본 비디오와 재생 속도는 동일하나 재생 방향이 역방향인 제2 변경 비디오에 포함된 프레임들의 예시이다.
다시 도 2를 참조하면, 프로세서(110)는 원본 비디오 및 변경 비디오를 이용하여 메모리(120)에 저장된 딥러닝 알고리즘을 학습시킬 수 있다(Deep Learning Modelling, 230).
예를 들어, 프로세서(110)는 딥러닝 알고리즘이 원본 비디오 및 변경 비디오를 재생 속도 순서대로 구분하도록 학습시킬 수 있다. 즉, 프로세서(110)는 딥러닝 알고리즘이 입력된 비디오 데이터들(원본 비디오 및 변경 비디오)을 재생 속도 순서대로 정확히 나열할 수 있도록 학습시킬 수 있다.
다른 예를 들어, 프로세서(110)는 딥러닝 알고리즘이 원본 비디오 및 변경 비디오를 재생 방향에 따라 구분하도록 학습시킬 수 있다. 즉, 프로세서(110)는 딥러닝 알고리즘이 입력된 비디오 데이터들을 재생 방향에 따라 구분할 수 있도록 학습시킬 수 있다.
따라서 딥러닝 알고리즘은 원본 비디오 및 변경 비디오를 재생 속도 순서대로 나열하도록 학습할 수 있고, 재생 방향에 따라 구분하도록 학습할 수 있다.
변경 비디오들은 라벨링(labelling)되지 않은 데이터들이지만 미리 설정된 방법에 따라 자동으로 원본 비디오의 재생 속도 및/또는 재생 방향이 변경되어 생성된 것이다. 결국 본 발명의 일 실시예에 따른 변경 비디오들을 이용하여 학습하는 딥러닝 알고리즘은 라벨링(labelling)된 비디오를 이용하여 학습하는 것과 다름없을 것이다.
한편, 메모리(120)에 저장된 딥러닝 알고리즘은 입력된 비디오들을 미리 설정된 방법에 따라 구분하여 배치 정규화(Batch Normalization)하는 알고리즘을 포함할 수 있다.
도 4에 예시된 바와 같이, 본 발명의 일 실시예에 따른 딥러닝 알고리즘은 컨볼루션 계층(예를 들어, 3x3x3 conv)과 비선형 계층(예를 들어, Rectified Linear Unit, ReLU) 사이에 배치 정규화 계층을 포함할 수 있다. 이때, 배치 정규화 계층은 미리 설정된 그룹들 각각을 배치 정규화하여 출력하는 계층일 수 있다. 이하 배치 정규화 계층의 동작에 대해 구체적으로 설명한다.
먼저, 딥러닝 알고리즘에 변경 비디오가 입력되면 컨볼루션 계층을 통해 변경 비디오의 피쳐(feature)들이 검출될 수 있는데, 피쳐들의 검출은 미리 설정된 개수의 프레임에 상응하는 그룹별로 검출될 수 있다. 예를 들어, 임의의 변경 비디오 1개에 100개의 프레임(Frame)이 포함되고, 미리 설정된 개수가 10개인 경우를 가정한다. 이때, 당해 변경 비디오는 10개의 프레임으로 구성된 10개의 그룹들로 구분될 수 있고, 각각의 그룹에 상응하는 피쳐들은 컨볼루션 계층을 통해 검출될 수 있다.
또한, 각각의 그룹에 상응하는 피쳐들은 개별적으로 배치 정규화되어 출력될 수 있다. 상기 예시에서, 변경 비디오를 구성하는 10개의 그룹들은 각각 개별적으로 배치 정규화될 수 있는 것이다. 따라서, 개별 변경 비디오는 미리 설정된 방법에 따라 그룹화되어 분할될 수 있고, 분할된 각 그룹은 개별적으로 배치 정규화될 수 있는 것이다.
변경 비디오 전체에 대한 배치 정규화가 이뤄질 경우 변경 비디오의 개별 프레임에 대한 피쳐들이 제대로 반영되지 못할 수도 있고, 개별 프레임에 대한 배치 정규화가 이뤄질 경우 정규화를 위해 과도한 리소스(resource)가 동원되는 문제점이 있다. 따라서 본원발명은 변경 비디오를 미리 설정된 방법에 따라 그룹들로 구분하고, 그룹들 각각을 배치 정규화하여 이러한 문제점을 해결할 수 있다.
이후, 그룹별로 배치 정규화된 값들은 비선형 계층(예를 들어, ReLU)으로 입력되어 딥러닝 알고리즘 학습에 활용될 수 있다.
다시 도 2를 참조하면, 프로세서(110)는 상술한 방법에 따라 학습된 딥러닝 알고리즘을 이용하여 비디오 데이터 분석을 수행할 수 있다(Video Data Analysis, 240).
상술한 동작에 의하여 딥러닝 알고리즘은 자동으로 생성된 풍부한 양의 학습용 비디오 데이터를 통해 학습될 수 있다. 상술한 방법에 따른 딥러닝 알고리즘의 학습 결과를 검증하기 위한 시뮬레이션 결과를 도 5 및 도 6에 예시하였다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 데이터 처리 장치의 예측 정확도를 설명하기 위한 시뮬레이션 그래프이다.
도 5를 참조하면, HMDB-51 데이터셋(Dataset) 및 UCF-101 데이터셋(Dataset)에 기반한 동작 인식 정확도(Accuracy) 판단을 수행한 결과가 예시된다. HMDB-51 데이터셋(Dataset) 및 UCF-101 데이터셋(Dataset)에서 평균 정확도는 C3D, R3D 및 R(2+1)D 모델에 걸쳐 측정되었다. 도 5를 참조하면, 본 발명의 일 실시예에 따른 경우의 정확도가 HMDB-51 데이터셋(Dataset) 및 UCF-101 데이터셋(Dataset) 모두에서 VCOP(Video Clip Order Prediction), VCP(Video Cloze Procedure)에 비해 높았음을 알 수 있다.
도 6을 참조하면, 아래의 방법에 따른 딥러닝 알고리즘 학습 방법에 비해서 본 발명의 일 실시예에 따른 경우의 인식 정확도가 더욱 높았음을 알 수 있다.
- Jigsaw (Noroozi, M., Favaro, P.: Unsupervised learning of visual representations by solving jigsaw puzzles. In: European Conference on Computer Vision. pp. 69-84. Springer (2016))
- OPN (Lee, H.Y., Huang, J.B., Singh, M., Yang, M.H.: Unsupervised representation learning by sorting sequences. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 667-676 (2017))
- Buchler (Buchler, U., Brattoli, B., Ommer, B.: Improving spatiotemporal self-supervision by deep reinforcement learning. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 770-786 (2018))
- Mas (Wang, J., Jiao, J., Bao, L., He, S., Liu, Y., Liu, W.: Self-supervised spatio-temporal representation learning for videos by predicting motion and appearance statistics. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 4006-4015 (2019))
- 3DPuz (Kim, D., Cho, D., Kweon, I.S.: Self-supervised video representation learning with space-time cubic puzzles. In: Proceedings of the AAAI Conference on Artificial Intelligence. vol. 33, pp. 8545-8552 (2019))
- ImageNet Pretrained Model
- VCOP (Xu, D., Xiao, J., Zhao, Z., Shao, J., Xie, D., Zhuang, Y.: Self-supervised spatiotemporal learning via video clip order prediction. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 10334-10343 (2019))
- VCP (Luo, D., Liu, C., Zhou, Y., Yang, D., Ma, C., Ye, Q., Wang, W.: Video cloze procedure for self-supervised spatio-temporal learning. Proceedings of the AAAI Conference on Artificial Intelligence (2020))
도 7은 본 발명의 다른 실시예에 따른 데이터 처리 방법을 설명하기 위한 순서도이다.
이하, 도 7을 참조하여, 본 발명의 다른 실시예에 따른 딥러닝 학습을 위한 데이터 처리 방법을 설명한다. 이하에서 설명할 각 단계들은, 도 1을 참조하여 설명한 데이터 처리 장치(100)의 각 구성 요소에 의해 수행되는 것일 수 있으나, 이해와 설명의 편의를 위하여 데이터 처리 장치(100)가 수행하는 것으로 통칭하여 설명한다. 또한, 데이터 처리 장치(100)에는 메모리(120)가 포함되어 딥러닝 학습을 위한 데이터 처리 방법을 실행하기 위한 각종 데이터 및/또는 프로그램이 기저장되어 있을 수 있다.
단계 S710에서, 데이터 처리 장치(100)는 원본 비디오를 수신하여 구비된 메모리(120)에 저장할 수 있다.
단계 S720에서, 데이터 처리 장치(100)는 미리 설정된 방법에 따라 원본 비디오의 재생 속도 및/또는 재생 방향을 변경하여 복수의 변경 비디오를 생성할 수 있다. 예를 들어, 데이터 처리 장치(100)는 메모리(120)에 저장된 단일의 원본 비디오의 재생 속도 및/또는 재생 방향을 변경한 2n개 이하의 변경 비디오를 생성할 수 있다.
단계 S730에서, 데이터 처리 장치(100)는 변경 비디오들을 이용하여 메모리(120)에 저장된 딥러닝 알고리즘을 학습시킬 수 있다. 이때, 당해 딥러닝 알고리즘을 통해 개별 변경 비디오들은 미리 설정된 그룹으로 분할되어 배치 정규화(Batch Normalization)될 수 있다. 예를 들어, 딥러닝 알고리즘에 변경 비디오가 입력되면 컨볼루션 계층을 통해 변경 비디오의 피쳐(feature)들이 검출될 수 있는데, 피쳐들의 검출은 미리 설정된 개수의 프레임에 상응하는 그룹별로 검출될 수 있다. 또한, 각각의 그룹에 상응하는 피쳐들은 개별적으로 배치 정규화되어 출력될 수 있다. 따라서, 개별 변경 비디오는 미리 설정된 방법에 따라 그룹화되어 분할될 수 있고, 분할된 각 그룹은 개별적으로 배치 정규화될 수 있는 것이다.
단계 S740에서, 데이터 처리 장치(100)는 학습된 딥러닝 알고리즘을 이용하여 비디오를 분석할 수 있다.
전술된 실시예는 모든 면에서 예시적인 것이며, 한정적인 것이 아닌 것으로 이해되어야 하며, 본 발명의 범위는 전술된 상세한 설명보다는 후술 될 특허청구범위에 의하여 나타내어질 것이다. 그리고 이 특허청구범위의 의미 및 범위는 물론, 그 등가 개념으로부터 도출되는 모든 변경 및 변경 가능한 형태가 본 발명의 범주에 포함되는 것으로 해석되어야 한다.
100 : 데이터 처리 장치
110 : 프로세서
120 : 메모리

Claims (10)

  1. 프로세서; 및
    상기 프로세서에 연결되고, 딥러닝 알고리즘, 원본 비디오가 저장되는 메모리;
    를 포함하며,
    상기 메모리는 상기 프로세서에 의해 실행 가능한,
    상기 원본 비디오로부터 재생 속도가 서로 다른 복수의 제1 변경 비디오들을 생성하고, 상기 딥러닝 알고리즘이 상기 원본 비디오 및 상기 복수의 제1 변경 비디오들을 재생 속도 순서대로 구분하도록 학습시키는 프로그램 명령어들을 저장하고,
    상기 메모리에 저장된 상기 딥러닝 알고리즘은,
    상기 원본 비디오 및 상기 복수의 제1 변경 비디오들 각각을 미리 설정된 프레임 구간 단위의 그룹들로 구분하고, 상기 그룹들 각각을 개별적으로 배치 정규화(Batch Normalization) 계층에 의해 배치 정규화하는 프로그램 명령어들과, 배치 정규화된 데이터를 이용하여 상기 딥러닝 알고리즘을 학습시키는 프로그램 명령어들을 포함하는, 데이터 처리 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 메모리는,
    상기 원본 비디오로부터 재생 방향이 다른 제2 변경 비디오를 생성하고,
    상기 딥러닝 알고리즘이 상기 원본 비디오와 상기 제2 변경 비디오를 재생 방향에 따라 구분하도록 학습시키는 프로그램 명령어들을 저장하는, 데이터 처리 장치.
  4. 삭제
  5. 삭제
  6. 딥러닝 알고리즘, 원본 비디오가 저장된 데이터 처리 장치에서 수행되는 데이터 처리 방법에 있어서,
    상기 원본 비디오로부터 재생 속도가 서로 다른 복수의 제1 변경 비디오들을 생성하는 단계; 및
    상기 원본 비디오 및 상기 복수의 제1 변경 비디오들을 재생 속도 순서대로 구분하도록 상기 딥러닝 알고리즘을 학습시키는 단계;
    를 포함하고,
    상기 딥러닝 알고리즘을 학습시키는 단계는,
    상기 딥러닝 알고리즘을 통해, 상기 원본 비디오 및 상기 복수의 제1 변경 비디오들 각각을 미리 설정된 프레임 구간 단위의 그룹들로 구분하는 단계;
    상기 딥러닝 알고리즘을 통해, 상기 그룹들 각각을 개별적으로 배치 정규화(Batch Normalization) 계층에 의해 배치 정규화한 데이터를 획득하는 단계; 및
    상기 배치 정규화한 데이터를 이용하여, 상기 원본 비디오 및 상기 복수의 제1 변경 비디오들을 재생 속도 순서대로 구분하도록 상기 딥러닝 알고리즘을 학습시키는 단계를 포함하는 데이터 처리 방법.
  7. 삭제
  8. 제6항에 있어서,
    상기 원본 비디오로부터 재생 방향이 다른 제2 변경 비디오를 생성하는 단계; 및
    상기 원본 비디오 및 상기 제2 변경 비디오를 재생 방향에 따라 구분하도록 상기 딥러닝 알고리즘을 학습시키는 단계를 더 포함하는 데이터 처리 방법.
  9. 삭제
  10. 삭제
KR1020200057999A 2020-05-14 2020-05-14 딥러닝 학습을 위한 데이터 처리 방법 및 그 장치 KR102315427B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200057999A KR102315427B1 (ko) 2020-05-14 2020-05-14 딥러닝 학습을 위한 데이터 처리 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200057999A KR102315427B1 (ko) 2020-05-14 2020-05-14 딥러닝 학습을 위한 데이터 처리 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR102315427B1 true KR102315427B1 (ko) 2021-10-20

Family

ID=78267993

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200057999A KR102315427B1 (ko) 2020-05-14 2020-05-14 딥러닝 학습을 위한 데이터 처리 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102315427B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130091543A (ko) * 2012-02-08 2013-08-19 삼성테크윈 주식회사 영상 재생 및 백업 장치
KR20190099914A (ko) * 2018-02-20 2019-08-28 삼성전자주식회사 전자 장치, 이의 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
KR20200015095A (ko) * 2018-08-02 2020-02-12 삼성전자주식회사 영상 처리 장치 및 그 동작방법
KR20200026409A (ko) * 2018-08-31 2020-03-11 한국항공대학교산학협력단 영상분류 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130091543A (ko) * 2012-02-08 2013-08-19 삼성테크윈 주식회사 영상 재생 및 백업 장치
KR20190099914A (ko) * 2018-02-20 2019-08-28 삼성전자주식회사 전자 장치, 이의 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
KR20200015095A (ko) * 2018-08-02 2020-02-12 삼성전자주식회사 영상 처리 장치 및 그 동작방법
KR20200026409A (ko) * 2018-08-31 2020-03-11 한국항공대학교산학협력단 영상분류 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Donglai Wei et al., "Learning and Using the Arrow of Time," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018.06.18.)* *
Vahid Kiani et al., "An Effective Slow-Motion Detection Approach for Compressed Soccer Videos," ISRN Machine Vision, (2012.03.31.)* *
Yuxin Wu et al., "Group Normalization," arXiv:1803.08494v3 [cs.CV] 11 Jun 2018 (2018.06.11.)* *

Similar Documents

Publication Publication Date Title
Wang et al. Semi-supervised video object segmentation with super-trajectories
Xu et al. Segregated temporal assembly recurrent networks for weakly supervised multiple action detection
Hou et al. An end-to-end 3d convolutional neural network for action detection and segmentation in videos
Bertasius et al. Semantic segmentation with boundary neural fields
CN109508671B (zh) 一种基于弱监督学习的视频异常事件检测系统及其方法
CN111079646A (zh) 基于深度学习的弱监督视频时序动作定位的方法及系统
US20150325046A1 (en) Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations
Dvornik et al. Drop-dtw: Aligning common signal between sequences while dropping outliers
US9275483B2 (en) Method and system for analyzing sequential data based on sparsity and sequential adjacency
CN109858407B (zh) 一种基于多种信息流特征和异步融合的视频行为识别方法
US20220383639A1 (en) System and Method for Group Activity Recognition in Images and Videos with Self-Attention Mechanisms
CN112990222B (zh) 一种基于图像边界知识迁移的引导语义分割方法
CN111259779A (zh) 一种基于中心点轨迹预测的视频动作检测方法
US20210097692A1 (en) Data filtering of image stacks and video streams
CN111985333A (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
KR102315427B1 (ko) 딥러닝 학습을 위한 데이터 처리 방법 및 그 장치
KR20220160974A (ko) 지도 학습 모델 및 비지도 학습 모델의 앙상블 구조를 이용한 대기질 데이터의 이상 판정 방법 및 시스템
JP2022104178A (ja) 画像フレーム抽出装置、画像フレーム抽出方法およびプログラム
Pahuja et al. Enhancing Salient Object Segmentation Through Attention.
Gammulle et al. Hierarchical attention network for action segmentation
KR102580131B1 (ko) 순환 생성 적대 네트워크 조건부 생성 적대 네트워크
CN114821767A (zh) 基于动态时间扭曲的图卷积神经网络动作识别方法、电子设备及储存介质
EP4158440A1 (en) Semi-supervised action-actor detection from tracking data in sport
CN112434614A (zh) 一种基于Caffe框架的滑窗动作检测方法
Abdulhadi et al. Human Action Behavior Recognition in Still Images with Proposed Frames Selection Using Transfer Learning.

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant