KR20210076659A - Method and Apparatus for Action Recognition Using Sequential Feature Data - Google Patents
Method and Apparatus for Action Recognition Using Sequential Feature Data Download PDFInfo
- Publication number
- KR20210076659A KR20210076659A KR1020190168077A KR20190168077A KR20210076659A KR 20210076659 A KR20210076659 A KR 20210076659A KR 1020190168077 A KR1020190168077 A KR 1020190168077A KR 20190168077 A KR20190168077 A KR 20190168077A KR 20210076659 A KR20210076659 A KR 20210076659A
- Authority
- KR
- South Korea
- Prior art keywords
- feature data
- natural language
- data
- behavior recognition
- target
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000009471 action Effects 0.000 title abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 62
- 230000015654 memory Effects 0.000 claims abstract description 14
- 238000003058 natural language processing Methods 0.000 claims abstract description 8
- 230000006399 behavior Effects 0.000 claims description 187
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000004069 differentiation Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 230000033001 locomotion Effects 0.000 description 9
- 238000007781 pre-processing Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000003542 behavioural effect Effects 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003750 conditioning effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 230000035582 behavioral recognition Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G06K9/00711—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G06K9/00335—
-
- G06K9/46—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
Description
본 발명은 순차적 시퀀스 데이터를 이용하여 영상 내 행동을 인식하는 방법 및 그를 위한 장치에 관한 것이다. The present invention relates to a method for recognizing an action in an image using sequential sequence data and an apparatus therefor.
이 부분에 기술된 내용은 단순히 본 발명의 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.The content described in this section merely provides background information on the embodiments of the present invention and does not constitute the prior art.
종래의 관련 연구는 동영상 데이터의 경우 동영상 하나에서 여러 개의 특징 벡터가 추출되더라도, 이미지와 유사한 방식으로 처리하기 위하여 추출된 여러 벡터에 대한 평균 벡터를 사용하여 행동을 인식한다. In the case of moving picture data, in the case of moving image data, even if multiple feature vectors are extracted from one moving image, behavior is recognized by using an average vector for multiple extracted vectors in order to process it in a manner similar to an image.
다시 말해, 종래의 제로샷 행동인식(Zero-shot Action Recognition)기술은 시계열 정보가 담겨져 있는 순차적 데이터를 사용함에도 불구하고, 제로샷 이미지 분류 연구와 유사한 방법을 적용하기 위해 심층 신경망을 통해 추출된 순차적 특징 벡터를 평균 낸 특징 벡터로 변환하여 행동 인식에 사용하였다. 하지만, 이러한 방식은 순차적 특징 벡터에 포함된 시계열을 무시함으로써 중간 과정이 비슷한 행동이 존재하는 경우 잘못된 판단 결과를 도출하게 된다. 예를 들어, 도 1에 도시된 바와 같이, 달리기 행동과 점프 행동에 대한 동영상에 대한 행동 인식을 수행하는 경우, 달리기 행동과 점프 행동 각각에 대한 영상에서 추출된 특징 벡터(10)의 시계열을 무시하는 하는 경우, 달리기 행동과 점프 행동을 동일한 행동으로 오인하게 되는 문제가 발생한다. 즉, 도 1에 도시된 바와 같이, 시계열의 흐름을 잃어버림에 따라 특징 데이터(10)를 정확하게 구분하여 생성하지 못하고, 중간 단계가 비슷한 행동으로 잘못 구분하게 될 수 있다.In other words, in spite of the fact that the conventional zero-shot action recognition technology uses sequential data containing time series information, in order to apply a method similar to the zero-shot image classification study, the sequential extracted through a deep neural network Feature vectors were converted into averaged feature vectors and used for behavior recognition. However, by ignoring the time series included in the sequential feature vector, this method leads to an erroneous judgment result when there is a similar behavior in the intermediate process. For example, as shown in FIG. 1 , when behavior recognition is performed on a video for running behavior and jumping behavior, the time series of the
본 발명은 자연어 벡터를 기반으로 하는 처음 보는 영상에 대한 행동 특징 데이터를 생성하여 학습을 수행함으로써, 실제 영상을 통해 학습하지 않은 행동을 인식할 수 있는 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치를 제공하는 데 주된 목적이 있다.The present invention provides a behavior recognition method using sequential feature data capable of recognizing unlearned behavior through an actual image by generating behavioral characteristic data for an image viewed for the first time based on a natural language vector and performing learning, and an apparatus therefor. Its main purpose is to provide
본 발명의 일 측면에 의하면, 상기 목적을 달성하기 위한 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 행동 인식 학습 방법은, 자연어 벡터를 획득하는 자연어 획득 단계; 자연어 벡터를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 자연어 처리 단계; 상기 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 생성 처리 단계; 및 상기 소스 특징 데이터와 상기 자연어 특징 데이터 및 상기 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 하는 감별 처리 단계를 수행할 수 있다. According to one aspect of the present invention, a behavior recognition learning method performed by a computing device comprising one or more processors and a memory for storing one or more programs executed by the processor for achieving the above object, obtaining a natural language vector natural language acquisition step; a natural language processing step of generating natural language feature data including at least one feature value by inputting a natural language vector; a generation processing step of generating source feature data of a source image and target feature data for classification based on the natural language feature data; and a discrimination processing step of processing classification for each of a sequence and a segment based on at least one of the source feature data, the natural language feature data, and the target feature data so that the behavior recognition of the object is performed. can do.
또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 행동 인식 장치는, 하나 이상의 프로세서; 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서, 자연어 벡터를 획득하는 자연어 획득 단계; 자연어 벡터를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 자연어 처리 단계; 상기 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 생성 처리 단계; 및 상기 소스 특징 데이터와 상기 자연어 특징 데이터 및 상기 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 하는 감별 처리 단계를 포함하는 동작들을 수행할 수 있다. In addition, according to another aspect of the present invention, a behavior recognition apparatus for achieving the above object, one or more processors; and a memory storing one or more programs executed by the processor, wherein when the programs are executed by the one or more processors, a natural language acquisition step of acquiring, in the one or more processors, a natural language vector; a natural language processing step of generating natural language feature data including at least one feature value by inputting a natural language vector; a generation processing step of generating source feature data of a source image and target feature data for classification based on the natural language feature data; and a discrimination processing step of processing classification for each of a sequence and a segment based on at least one of the source feature data, the natural language feature data, and the target feature data so that the behavior recognition of the object is performed. actions can be performed.
또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 행동 인식 방법은, 본적 없는 소스 영상을 입력 받고, 상기 소스 영상 데이터의 소스 특징 데이터에 시퀀스 특징 데이터를 학습한 제1 학습 결과와 세그먼트 특징 데이터를 학습한 제2 학습 결과를 적용하여 행동을 판단하고, 판단된 행동 인식 결과를 출력할 수 있다. In addition, according to another aspect of the present invention, a behavior recognition method performed by a computing device comprising one or more processors for achieving the above object and a memory for storing one or more programs executed by the processor is a source that has never been seen It receives an image, determines a behavior by applying a first learning result of learning sequence feature data and a second learning result of learning segment feature data to the source feature data of the source image data, and outputs the determined behavior recognition result can do.
이상에서 설명한 바와 같이, 본 발명은 자연어 벡터를 기반으로 행동에 대한 순차적 데이터를 생성하여 행동 인식을 수행할 수 있는 효과가 있다. As described above, the present invention has the effect of performing behavior recognition by generating sequential data on behavior based on a natural language vector.
또한, 본 발명은 자연어 벡터를 기반으로 행동 특징 데이터를 생성함으로써, 학습 시 볼 수 없었던 처음 보는 행동(새로운 행동)을 인식할 수 있어 행동 인식 성능을 향상 시킬 수 있는 효과가 있다. In addition, the present invention has the effect of improving behavior recognition performance by generating behavioral feature data based on a natural language vector to recognize a behavior (new behavior) that has not been seen during learning.
도 1은 종래 기술의 문제점 및 본 발명의 개략적인 동작 특성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 행동 인식 장치를 개략적으로 나타낸 블록 구성도이다.
도 3은 본 발명의 실시예에 따른 프로세서의 학습을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.
도 4는 본 발명의 실시예에 따른 행동 인식을 위한 학습 방법을 설명하기 위한 순서도이다.
도 5는 본 발명의 실시예에 따른 프로세서의 행동 인식을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.
도 6은 본 발명의 실시예에 따른 행동 인식 방법을 설명하기 위한 순서도이다.
도 7은 본 발명의 실시예에 따른 행동 인식 장치의 학습 동작을 설명하기 위한 예시도이다.
도 8은 본 발명의 실시예에 따른 입력 영상을 처리하여 특징 데이터를 생성하는 동작을 설명하기 위한 예시도이다.
도 9는 본 발명의 실시예에 따른 자연어 벡터를 처리하여 특징 데이터를 생성하는 동작을 설명하기 위한 예시도이다.
도 10은 본 발명의 실시예에 따른 인코더의 동작 구성을 나타낸 도면이다.
도 11은 본 발명의 실시예에 따른 감별자의 동작 구성을 나타낸 도면이다.1 is a view for explaining the problems of the prior art and the schematic operation characteristics of the present invention.
2 is a block diagram schematically illustrating a behavior recognition apparatus according to an embodiment of the present invention.
3 is a block diagram schematically illustrating an operation configuration for learning of a processor according to an embodiment of the present invention.
4 is a flowchart illustrating a learning method for behavior recognition according to an embodiment of the present invention.
5 is a block diagram schematically illustrating an operation configuration for behavior recognition of a processor according to an embodiment of the present invention.
6 is a flowchart illustrating a behavior recognition method according to an embodiment of the present invention.
7 is an exemplary diagram for explaining a learning operation of the behavior recognition apparatus according to an embodiment of the present invention.
8 is an exemplary diagram for explaining an operation of generating feature data by processing an input image according to an embodiment of the present invention.
9 is an exemplary diagram for explaining an operation of generating feature data by processing a natural language vector according to an embodiment of the present invention.
10 is a diagram illustrating an operation configuration of an encoder according to an embodiment of the present invention.
11 is a diagram illustrating an operation configuration of a discriminator according to an embodiment of the present invention.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다. 이하에서는 도면들을 참조하여 본 발명에서 제안하는 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치에 대해 자세하게 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In describing the present invention, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, preferred embodiments of the present invention will be described below, but the technical spirit of the present invention is not limited thereto and may be variously implemented by those skilled in the art without being limited thereto. Hereinafter, a method for recognizing a behavior using sequential feature data proposed by the present invention and an apparatus therefor will be described in detail with reference to the drawings.
도 1에 도시된 바와 같이, 본 발명은 원본 동영상의 시계열 정보를 잃지 않기 위해 특징 벡터의 평균이 아닌 순차적 특징 데이터(20)를 생성하고, 이를 통해 처음 보는 행동을 인식하는 성능을 개선하기 위한 장치 및 방법을 제안한다. As shown in FIG. 1 , the present invention generates
도 2는 본 발명의 실시예에 따른 행동 인식 장치를 개략적으로 나타낸 블록 구성도이다. 2 is a block diagram schematically illustrating a behavior recognition apparatus according to an embodiment of the present invention.
본 실시예에 따른 행동 인식 장치(100)는 입력부(110), 출력부(120), 프로세서(130), 메모리(140) 및 데이터 베이스(150)를 포함한다. 도 2의 행동 인식 장치(100)는 일 실시예에 따른 것으로서, 도 2에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 행동 인식 장치(100)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 행동 인식 장치(100)는 컴퓨팅 디바이스로 구현될 수 있고, 행동 인식 장치(100)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.The
행동 인식 장치(100)는 자연어 벡터를 입력 받고, 자연어 벡터에 순차적 정보를 부여하여 생성된 자연어 특징 데이터를 입력으로 생성자를 통해 대상 특징 데이터를 생성하고, 생성자와 연동하는 적어도 2 개의 감별자를 통해 소스 영상(원본 동영상)의 소스 특징 데이터, 자연어 특징 데이터, 대상 특징 데이터 등을 분류 처리하여 처음 보는 영상에서 행동을 인식하는 동작을 수행한다. The
입력부(110)는 행동 인식 장치(100)에서의 행동 인식 동작을 수행하기 위한 신호 또는 데이터를 입력하거나 획득하는 수단을 의미한다. 입력부(110)는 프로세서(130)와 연동하여 다양한 형태의 신호 또는 데이터를 입력하거나, 외부 장치와의 연동을 통해 신호 또는 데이터를 획득하여 프로세서(130)로 전달할 수도 있다. 여기서, 입력부(110)는 소스 영상(원본 동영상), 자연어 벡터, 랜덤 변수 등을 입력하기 위한 모듈로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다. The
출력부(120)는 프로세서(130)와 연동하여 특징 데이터 기반의 시퀀스(Sequence) 학습 결과, 특징 데이터 기반의 세그먼트(Segment) 학습 결과, 행동 인식 결과 등 다양한 정보를 출력할 수 있다. 출력부(120)는 행동 인식 장치(100)에 구비된 디스플레이(미도시)를 통해 다양한 정보를 출력할 수 있으나 반드시 이에 한정되는 것은 아니며, 다양한 형태의 방식으로 출력을 수행할 수 있다. The
프로세서(130)는 메모리(140)에 포함된 적어도 하나의 명령어 또는 프로그램을 실행시키는 기능을 수행한다.The
본 실시예에 따른 프로세서(130)는 입력부(110) 또는 데이터 베이스(150)로부터 획득한 자연어 벡터 및 소스 영상을 기반으로 기계학습을 수행하고, 기계학습 결과를 기반으로 기 학습되지 않은 처음 보는 영상에 대한 행동을 인식하는 동작을 수행한다. The
프로세서(130)는 소스 영상을 입력 받고, 소스 영상을 기반으로 전처리를 수행하여 소스 특징 데이터를 생성한다. 또한, 프로세서(130)는 자연어 벡터를 입력 받고, 자연어 벡터에 순차적 정보를 부여하여 자연어 특징 데이터를 생성하고, 자연어 특징 데이터를 입력으로 대상 특징 데이터를 생성한다. The
또한, 프로세서(130)는 소스 특징 데이터와 자연어 특징 데이터 및 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 한다. 여기서, 프로세서(130)는 영상의 순차적 특징을 고려하여 행동 인식을 수행하기 위하여, 소스 특징 데이터와 대상 특징 데이터를 이용하여 시퀀스에 대한 분류를 처리하여 제1 학습 결과를 생성한다. 또한, 프로세서(130)는 영상의 기 설정된 단위의 특징을 고려하여 행동 인식을 수행하기 위하여, 소스 특징 데이터와 자연어 특징 데이터 및 대상 특징 데이터를 결합한 대상 결합 데이터를 이용하여 세그먼트에 대한 분류를 처리하여 제2 학습 결과를 생성한다. 프로세서(130)는 시퀀스 및 세그먼트 각각에 대한 분류를 처리하여 생성된 제1 학습 결과 및 제2 학습 결과를 기반으로 학습 시 입력된 적이 없는 처음 보는 영상의 행동 인식을 수행한다. In addition, the
본 실시예에 따른 프로세서(130)의 자세한 동작은 도 3 내지 6에서 설명하도록 한다. Detailed operations of the
메모리(140)는 프로세서(130)에 의해 실행 가능한 적어도 하나의 명령어 또는 프로그램을 포함한다. 메모리(140)는 소스 특징 데이터를 생성하는 동작, 자연어 특징 데이터를 생성하는 동작, 대상 특징 데이터를 생성하는 동작, 대상 결합 데이터를 생성하는 동작, 시퀀스에 대한 분류를 처리하는 동작, 세그먼트에 대한 분류를 처리하는 동작 등을 위한 명령어 또는 프로그램을 포함할 수 있다. 또한, 메모리(140)는 학습 결과를 적용하는 동작, 행동 인식을 수행하는 동작 등을 위한 명령어 또는 프로그램을 포함할 수 있다. The
데이터베이스(150)는 데이터베이스 관리 프로그램(DBMS)을 이용하여 컴퓨터 시스템의 저장공간(하드디스크 또는 메모리)에 구현된 일반적인 데이터구조를 의미하는 것으로, 데이터의 검색(추출), 삭제, 편집, 추가 등을 자유롭게 행할 수 있는 데이터 저장형태를 뜻하는 것으로, 오라클(Oracle), 인포믹스(Infomix), 사이베이스(Sybase), DB2와 같은 관계형 데이타베이스 관리 시스템(RDBMS)이나, 겜스톤(Gemston), 오리온(Orion), O2 등과 같은 객체 지향 데이타베이스 관리 시스템(OODBMS) 및 엑셀론(Excelon), 타미노(Tamino), 세카이주(Sekaiju) 등의 XML 전용 데이터베이스(XML Native Database)를 이용하여 본 발명의 일 실시예의 목적에 맞게 구현될 수 있고, 자신의 기능을 달성하기 위하여 적당한 필드(Field) 또는 엘리먼트들을 가지고 있다.The
본 실시예에 따른 데이터베이스(150)는 행동 인식과 관련된 데이터를 저장하고, 기 저장된 행동 인식과 관련된 데이터를 제공할 수 있다. The
데이터베이스(150)에 저장된 데이터는 소스 영상, 특징 데이터(예: 소스 특징 데이터, 자연어 특징 데이터, 대상 특징 데이터, 대상 결합 데이터 등), 학습 결과(예: 제1 학습 결과, 제2 학습 결과, 행동 인식 학습 결과 등), 행동 인식 결과 등에 대한 데이터일 수 있다. 데이터베이스(140)는 행동 인식 장치(100) 내에 구현되는 것으로 기재하고 있으나 반드시 이에 한정되는 것은 아니며, 별도의 데이터 저장장치로 구현될 수도 있다.The data stored in the
도 3은 본 발명의 실시예에 따른 프로세서의 학습을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.3 is a block diagram schematically illustrating an operation configuration for learning of a processor according to an embodiment of the present invention.
본 실시예에 따른 행동 인식 장치(100)에 포함된 프로세서(130)는 기계 학습을 기반으로 처음보는 영상 내에서 행동을 인식하는 동작을 수행한다. 여기서, 기계 학습은 생성적 적대 신경망(GAN: Generative Adversarial Network)을 이용한 학습인 것이 바람직하나 반드시 이에 한정되는 것은 아니다. The
행동 인식 장치(100)에 포함된 프로세서(130)는 소스 영상을 입력 받고, 소스 영상을 기반으로 전처리를 수행하여 소스 특징 데이터를 생성하는 모델, 자연어 벡터를 입력 받고, 자연어 벡터에 순차적 정보를 부여하여 자연어 특징 데이터를 생성하고, 자연어 특징 데이터를 입력으로 대상 특징 데이터를 생성하는 모델, 소스 특징 데이터와 자연어 특징 데이터 및 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하는 모델 등을 기반으로 본적 없는 행동을 인식하는 동작이 수행되도록 하며, 행동 인식을 수행하는 모든 기기에 탑재되거나, 행동 인식을 수행하는 소프트웨어와 연동할 수 있다. The
본 실시예에 따른 프로세서(130)는 영상 획득부(310), 전처리부(320), 영상 특징값 처리부(322), 자연어 벡터 획득부(330), 인코더(340), 제1 특징값 처리부(342), 생성자(350), 제2 특징값 처리부(352) 및 감별자(360)를 포함할 수 있다. 도 3의 프로세서(130)는 일 실시예에 따른 것으로서, 도 3에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 프로세서(130)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 프로세서(130)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.The
영상 획득부(310)는 소스 영상을 획득하는 동작을 수행한다. 여기서, 소스 영상은 소스 비디오의 비디오 클립을 의미하며, 비디오 클립은 복수의 영상 세그먼트로 구성될 수 있다. 여기서, 영상 세그먼트는 복수의 움직임 벡터 영상 프레임을 포함한다. 움직임 벡터 영상 프레임 사이에는 차분 영상이 추가로 포함될 수 있으며, 차분 영상은 인접한 두 개의 움직임 벡터 영상 프레임의 차이를 통해 생성된 영상을 의미한다. The
전처리부(320)는 소스 영상을 입력으로 소스 영상에 대한 소스 특징 데이터를 생성한다. 전처리부(320)에서 생성된 소스 특징 데이터는 복수의 세그먼트 단위 별 특징값를 포함한다. The
전처리부(320)는 소스 영상에 대해 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 위한 전처리(Pre-traning)를 수행하여 소스 특징 데이터를 생성할 수 있다. 여기서, 전처리(Pre-traning)에 대한 기술은 일반적으로 알려진 기술이므로 자세한 설명은 생략하도록 한다. The
영상 특징값 처리부(322)는 전처리부(320)에서 출력된 소스 특징 데이터를 감별자(360)로 전달하는 동작을 수행한다. 영상 특징값 처리부(322)는 소스 특징 데이터를 제1 감별자(372) 및 제2 감별자(374) 각각으로 전달한다. The image
한편, 영상 특징값 처리부(322)는 전처리부(320)에서 소스 특징 데이터를 감별자(360)로 직접 전달하는 경우 생략되거나, 전처리부(320)에 포함된 형태로 구현될 수 있다. Meanwhile, the image
자연어 벡터 획득부(330)는 기 설정된 조건에 대응되는 자연어 벡터를 획득한다. 여기서, 자연어 벡터는 시계열적인 정보를 포함하지 않고, 소정의 행동에 대하여 자연어 기반으로 생성된 벡터를 의미한다. The natural language
인코더(340)는 자연어 벡터를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 동작을 수행한다. The
인코더(340)는 자연어 벡터에 순차적 정보를 부여하여 복수 개의 벡터로 확장하고, 복수 개의 벡터 각각에 대응되는 적어도 하나의 특징값 각각을 생성한다. The
인코더(340)는 자연어 벡터의 평균, 표준 편차 및 노이즈 등 중 적어도 하나를 이용하여 자연어 벡터를 정규 분포 상에서 분포를 갖는 적어도 하나의 특징값 각각을 생성한다. The
인코더(340)는 재귀 신경망(RNN: Recurrent Neural Network)을 기반으로 자연어 벡터를 복수 개의 벡터로 확장하며, 순차적 정보를 포함하는 복수 개의 벡터 각각은 이전 시점에 생성된 벡터에 근거하여 생성될 수 있다. The
제1 특징값 처리부(342)는 인코더(340)에서 출력된 자연어 특징 데이터를 생성자(350)로 전달하는 동작을 수행한다. 제1 특징값 처리부(342)는 자연어 특징 데이터에 랜덤 변수(잠재 잡음에 대한 랜덤 변수)를 추가로 결합시켜 생성자(350)로 전달할 수 있다. The first feature
한편, 제1 특징값 처리부(342)는 인코더(340)에서 자연어 특징 데이터를 생성자(350)로 직접 전달하는 경우 생략되거나, 인코더(340)에 포함된 형태로 구현될 수 있다.Meanwhile, the first feature
생성자(350)는 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 동작을 수행한다. The
생성자(350)는 자연어 특징 데이터와 기 생성된 랜덤 변수를 기반으로 페이크(Fake) 영상에 대한 대상 특징 데이터를 생성한다. 여기서, 생성자(350)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 통해 상기 대상 특성 데이터를 생성하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다. The
생성자(350)는 적어도 하나의 특징값을 포함하는 대상 특징 데이터를 생성한다. 여기서, 생성자(350)는 자연어 특징 데이터와 동일한 개수의 세그먼트 단위로 대상 특징 데이터를 생성한다. 여기서, 세그먼트 단위는 대상 특징 데이터에 포함된 각각의 특징값으로 구분될 수 있다. The
제2 특징값 처리부(352)는 생성자(350)에서 출력된 대상 특징 데이터를 감별자(360)로 전달하는 동작을 수행한다. 제2 특징값 처리부(352)는 대상 특징 데이터를 제1 감별자(372) 및 제2 감별자(374) 각각으로 전달한다. The second feature
한편, 제2 특징값 처리부(352)는 생성자(350)에서 대상 특징 데이터를 감별자(360)로 직접 전달하는 경우 생략되거나, 생성자(350)에 포함된 형태로 구현될 수 있다.Meanwhile, when the target feature data is directly transmitted from the
감별자(360)는 소스 특징 데이터와 자연어 특징 데이터, 대상 특징 데이터 등 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 한다. 본 실시예에 따른 감별자(360)는 제1 감별자(372) 및 제2 감별자(374)를 포함한다.The
제1 감별자(372)는 대상 특징 데이터와 소스 특징 데이터를 이용하여 시퀀스(Sequence)에 대한 분류를 처리하는 동작을 수행한다. 제1 감별자(372)는 대상 특징 데이터와 소스 특징 데이터를 입력 받고, 대상 특징 데이터의 진위 여부를 판별할 수 있다. The
구체적으로, 제1 감별자(372)는 순차적 정보가 포함된 복수의 소스 특징값을 결합한 소스 특징 데이터와 순차적 정보가 포함된 복수의 대상 특징값을 결합한 대상 특징 데이터를 비교하여 대상 특징 데이터의 진위 여부를 학습한 제1 학습 결과를 출력한다. Specifically, the
제1 감별자(372)는 제1 학습 결과에 근거하여 대상 특징 데이터를 생성하는 생성자(350)로 피드백 정보를 전달하며, 소스 특징 데이터와 대상 특징 데이터를 비교하여 대상 특징 데이터가 참 신호에 해당할 때까지 반복하여 대상 특징 데이터의 진위 여부를 학습할 수 있다. 여기서, 제1 감별자(372)는 생성자(350)와 연동하여 대상 특징 데이터가 참 신호에 해당하도록 분류하기 위하여 생성적 적대 신경망(GAN: Generative Adversarial Network)을 기반으로 학습을 수행하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다. The
제2 감별자(374)는 자연어 특징 데이터 및 대상 특징 데이터를 결합한 대상 결합 데이터와 소스 특징 데이터를 이용하여 세그먼트(Segment)에 대한 분류를 처리하는 동작을 수행한다. 제2 감별자(374)는 대상 결합 데이터와 소스 특징 데이터를 입력 받고, 대상 결합 데이터의 진위 여부를 판별할 수 있다. The
구체적으로, 제2 감별자(374)는 소스 특징 데이터의 세그먼트 단위와 대상 결합 데이터의 세그먼트 단위를 비교하여 대상 결합 데이터의 진위 여부를 학습한 제2 학습 결과를 출력한다. 여기서, 제2 감별자(374)는 소스 특징 데이터의 세그먼트 단위의 데이터와 자연어 특징 데이터의 특징값과 대상 특징 데이터의 특징값을 결합한 세그먼트 단위의 대상 결합 데이터를 비교하여 세그먼트에 대한 분류를 처리할 수 있다. Specifically, the
제2 감별자(374)는 제2 학습 결과에 근거하여 대상 특징 데이터를 생성하는 생성자(350)로 피드백 정보를 전달하며, 소스 특징 데이터와 대상 결합 데이터를 비교하여 대상 결합 데이터가 참 신호에 해당할 때까지 반복하여 대상 결합 데이터의 진위 여부를 학습할 수 있다. 여기서, 제2 감별자(374)는 생성자(350)와 연동하여 대상 결합 데이터가 참 신호에 해당하도록 분류하기 위하여 생성적 적대 신경망(GAN: Generative Adversarial Network)을 기반으로 학습을 수행하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.The
도 4는 본 발명의 실시예에 따른 행동 인식을 위한 학습 방법을 설명하기 위한 순서도이다. 4 is a flowchart illustrating a learning method for behavior recognition according to an embodiment of the present invention.
행동 인식 장치(100)는 소스 영상의 입력 여부를 확인한다(S410).The
단계 S410에서 소스 영상이 입력된 경우, 행동 인식 장치(100)는 소스 영상을 획득한다(S420). 행동 인식 장치(100)는 소스 영상을 전처리하여 복수의 영상 특징값을 생성하고, 복수의 영상 특징값을 포함하는 소스 특징 데이터를 생성한다(S430).When the source image is input in step S410, the
한편, 단계 S410에서 소스 영상이 입력되지 않고 자연어 벡터가 입력된 경우, 행동 인식 장치(100)는 자연어 벡터를 획득한다(S440).Meanwhile, when a natural language vector is input instead of a source image in step S410, the
행동 인식 장치(100)는 자연어 벡터를 입력으로 적어도 하나의 특징값(제1 특징값)을 포함하는 자연어 특징 데이터를 생성한다(S450).The
또한, 행동 인식 장치(100)는 자연어 특징 데이터에 포함된 특징값(제1 특징값)을 입력으로 소스 영상의 소스 특징 데이터와 분류를 위한 적어도 하나의 특징값(제2 특징값)을 포함하는 대상 특징 데이터를 생성한다(S460).In addition, the
행동 인식 장치(100)는 대상 특징 데이터와 소스 특징 데이터를 이용하여 시퀀스(Sequence)에 대한 분류를 처리(제1 감별 처리)를 통해 제1 학습 결과를 생성한다(S470). 구체적으로, 행동 인식 장치(100)는 순차적 정보가 포함된 복수의 소스 특징값을 결합한 소스 특징 데이터와 순차적 정보가 포함된 복수의 대상 특징값을 결합한 대상 특징 데이터를 비교하여 대상 특징 데이터의 진위 여부를 학습한 제1 학습 결과를 출력한다.The
또한, 행동 인식 장치(100)는 자연어 특징 데이터 및 대상 특징 데이터를 결합한 대상 결합 데이터와 소스 특징 데이터를 이용하여 세그먼트(Segment)에 대한 분류를 처리(제2 감별 처리)를 통해 제2 학습 결과를 생성한다(S480). 구체적으로, 행동 인식 장치(100)는 In addition, the
소스 특징 데이터의 세그먼트 단위의 데이터와 자연어 특징 데이터의 특징값과 대상 특징 데이터의 특징값을 결합한 세그먼트 단위의 대상 결합 데이터를 비교하여 대상 결합 데이터의 진위 여부를 학습한 제2 학습 결과를 출력한다. By comparing the segment-unit data of the source feature data and the segment-unit object-combined data in which the feature values of the natural language feature data and the feature values of the target feature data are combined, the second learning result of learning whether the object-combined data is authentic or not is output.
도 4에서는 각 단계를 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 4에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 4는 시계열적인 순서로 한정되는 것은 아니다.Although it is described that each step is sequentially executed in FIG. 4 , the present invention is not limited thereto. In other words, since it may be applicable to changing and executing the steps described in FIG. 4 or executing one or more steps in parallel, FIG. 4 is not limited to a time-series order.
도 4에 기재된 본 실시예에 따른 행동 인식 학습 방법은 애플리케이션(또는 프로그램)으로 구현되고 단말장치(또는 컴퓨터)로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 행동 인식 학습 방법을 구현하기 위한 애플리케이션(또는 프로그램)이 기록되고 단말장치(또는 컴퓨터)가 읽을 수 있는 기록매체는 컴퓨팅 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치 또는 매체를 포함한다.The behavior recognition learning method according to the present embodiment described in FIG. 4 may be implemented as an application (or program) and recorded in a recording medium readable by a terminal device (or computer). The recording medium in which the application (or program) for implementing the behavior recognition learning method according to the present embodiment is recorded and the terminal device (or computer) can read is any type of recording device in which data that can be read by the computing system is stored. or media.
도 5는 본 발명의 실시예에 따른 프로세서의 행동 인식을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.5 is a block diagram schematically illustrating an operation configuration for behavior recognition of a processor according to an embodiment of the present invention.
본 실시예에 따른 행동 인식 장치(100)에 포함된 프로세서(130)는 입력 영상 획득부(510), 신경망 처리부(520), 학습 결과 적용부(530), 영상 판단부(540) 및 결과 출력부(550)를 포함한다. 도 5의 프로세서(130)는 일 실시예에 따른 것으로서, 도 5에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 프로세서(130)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 프로세서(130)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.The
입력 영상 획득부(510)는 행동 인식을 위한 본적 없는 소스 영상을 획득한다. 여기서, 본적 없는 소스 영상은 행동 인식을 위한 학습 시 입력되지 않은 영상을 의미한다. The input
신경망 처리부(520)는 획득된 소스 영상을 입력으로 소스 특징 데이터를 생성한다. 신경망 처리부(520)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 기반으로 전처리를 수행하여 소스 특징 데이터를 생성할 수 있다. 여기서, 소스 특징 데이터는 복수의 영상 특징값을 포함할 수 있다. The neural
학습 결과 적용부(530)는 소스 영상 데이터의 소스 특징 데이터에 시퀀스 특징 데이터를 학습한 제1 학습 결과와 세그먼트 특징 데이터를 학습한 제2 학습 결과를 적용하며, 영상 판단부(540)는 적용된 학습 결과를 기반으로 소스 영상의 행동을 인식한다. The learning
결과 출력부(550)는 인식된 행동을 기반으로 행동 인식 결과를 출력한다.The
도 6은 본 발명의 실시예에 따른 행동 인식 방법을 설명하기 위한 순서도이다.6 is a flowchart illustrating a behavior recognition method according to an embodiment of the present invention.
행동 인식 장치(100)는 행동 인식을 위한 본적 없는 소스 영상을 획득한다(S610). 여기서, 본적 없는 소스 영상은 행동 인식을 위한 학습 시 입력되지 않은 영상을 의미한다. The
행동 인식 장치(100)는 획득된 소스 영상을 입력으로 신경망 학습 기반의 전처리를 수행하여 영상 특징값을 추출하여 소스 특징 데이터를 생성한다(S620). 행동 인식 장치(100)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 기반으로 전처리를 수행하여 소스 특징 데이터를 생성할 수 있다.The
행동 인식 장치(100)는 기 학습된 학습 결과를 적용하여 특징값 비교한다(S630). 구체적으로, 행동 인식 장치(100)는 소스 영상 데이터의 소스 특징 데이터에 시퀀스 특징 데이터를 학습한 제1 학습 결과와 세그먼트 특징 데이터를 학습한 제2 학습 결과를 적용하며 특징값을 비교한다.The
행동 인식 장치(100)는 적용된 학습 결과를 기반으로 소스 영상(입력 영상)의 행동을 판단하고(S640), 인식된 행동을 기반으로 행동 인식 결과를 출력한다(S650).The
도 6에서는 각 단계를 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 6에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 6은 시계열적인 순서로 한정되는 것은 아니다.Although it is described that each step is sequentially executed in FIG. 6 , the present invention is not limited thereto. In other words, since it may be applicable to changing and executing the steps described in FIG. 6 or executing one or more steps in parallel, FIG. 6 is not limited to a time-series order.
도 6에 기재된 본 실시예에 따른 행동 인식 방법은 애플리케이션(또는 프로그램)으로 구현되고 단말장치(또는 컴퓨터)로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 행동 인식 방법을 구현하기 위한 애플리케이션(또는 프로그램)이 기록되고 단말장치(또는 컴퓨터)가 읽을 수 있는 기록매체는 컴퓨팅 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치 또는 매체를 포함한다.The behavior recognition method according to the present embodiment described in FIG. 6 may be implemented as an application (or program) and recorded in a terminal device (or computer) readable recording medium. A recording medium in which an application (or program) for implementing the behavior recognition method according to the present embodiment is recorded and a terminal device (or computer) readable recording medium is any type of recording device in which data that can be read by a computing system is stored or includes media.
도 7은 본 발명의 실시예에 따른 행동 인식 장치의 학습 동작을 설명하기 위한 예시도이다. 7 is an exemplary diagram for explaining a learning operation of the behavior recognition apparatus according to an embodiment of the present invention.
비디오 데이터를 학습 과정에 사용할 수 없거나 학습을 위한 비디오 데이터가 없는 경우, 종래의 행동 인식 장치는 비디오에서 추출된 특징들을 평균화하여 처음 보는 이미지의 분류(ZSIC: Zero-shot Image Classification)를 통해 상속된 방법을 통해 행동을 인식하는 동작을 수행한다. 그러나, 이러한 종래의 행동 인식 방법은 비디오의 시계열적인 순차적 정보를 무시하여 행동을 인식하게 됨에 따라 비디오에 포함된 전체의 행동에 대한 인식 오류가 발생할 수 있다. When the video data cannot be used for the learning process or there is no video data for learning, the conventional behavior recognition device averages the features extracted from the video, and the image is inherited through ZSIC (Zero-shot Image Classification). It performs an action that recognizes the action through the method. However, since the conventional behavior recognition method recognizes the behavior by ignoring time-series sequential information of the video, a recognition error may occur for the entire behavior included in the video.
이러한 종래의 문제점을 해결하기 위해, 본 실시예에 따른 행동 인식 장치(100)는 순차적 정보를 고려한 시퀀스 생성적 모델을 통해 단일 샘플이 아니라 본 적 없는 클래스에 대한 일련의 동작을 합성할 수 있도록 하고, 처음 보는 행동에 대한 인식을 완전한 지도 학습 방식으로 전환한다. In order to solve this conventional problem, the
본 실시예에 따른 행동 인식 장치(100)는 처음 보는 행동을 인식하기 위한 시퀀스를 생성하기 위해 속성 인코더(340), 생성자(350), 감별자(360) 등으로 구성될 수 있다. 구체적으로, 속성 인코더(340)는 시퀀스 생성을 위하여 자연어 벡터를 복수의 벡터로 변환하여 순차적 정보를 부여할 수 있다. 또한, 행동 인식 장치(100)의 시퀀스 생성적 모델은 생성된 시퀀스를 합성시, 행동의 세그먼트 뿐만 아니라, 시퀀스 감별자를 통해 실제 분포로 전체 행동의 시퀀스를 함께 샘플링한다. 여기서, 행동 인식 장치(100)는 순차적 특징 데이터 기반의 생성적 적대 신경망(SFGAN: Sequence Feature Generative Adversarial Network)으로 구현될수 있다. The
행동 인식 장치(100)는 행동의 특징 시퀀스를 생성하는 생성적 모델을 포함하며, 이러한 모델은 단일 조건에서 시퀀스를 생성하고, 생성된 시퀀스는 현실적이어야 한다. The
행동 인식 장치(100)는 우리는 시간적인 정보를 포함하는 시맨틱 임베딩 공간을 탐색하고 시퀀스 큐를 조건에서 전개하기 위해 재귀 신경망에 기반한 속성 엔코더(340)를 포함한다. 또한, 행동 인식 장치(100)는 행동의 순서를 무시하는 생성자에 대한 패널티를 적용하기 위한 시퀀스 감별자를 포함한다. 또한, 행동 인식 장치(100)는 제로샷 학습(ZSL: Zero-Shot Learning)의 시간 조건에 상응하는 처음 보는 행동의 특징을 생성할 수 있다. The
본 발명에 따른 행동 인식 장치(100)는 기존의 준 지도 학습(Semi-Supervised Learning)을 완전한 지도 학습(Fully-Supervised Learning)으로 전환하기 위해 본적 없는 행동을 생성한다. The
행동 인식 장치(100)는 평균화된 특징을 생성하는 종래의 제로샷 행동 인식 방식과는 달리, 행동 특징에 대한 시퀀스를 생성하는 시퀀스 기반의 생성적 적대 신경망(GAN: Generative Adversarial Network) 모델을 적용하며, 순차적 데이터를 처리하기 위한 속성 인코더(340), 생성자(350), 감별자(360) 등을 포함한다. The
본 실시예에서 본적 있는 클레스(Class)에 대한 데이터 세트는 Ds로 정의될 수 있고, 본적 있는 데이터 세트 Ds는 와 같이 표현될 수 있다. 여기서, xv는 의 RGB 시각적 특징이고, xf는 의 광학 흐름 특징이고, y는 Ys의 클레스 라벨(Class label)을 나타내며, c(y)는 클레스의 의미를 의미론적으로 나타낸 클레스 y의 자연어 임베딩을 의미한다. The data set for the class seen in this embodiment can be defined as Ds, and the data set Ds seen is can be expressed as where x v is is the RGB visual feature of , and x f is is the optical flow characteristic of , y denotes the class label of Y s , and c(y) denotes the natural language embedding of class y semantically indicating the meaning of the class.
이와 유사하게, 본 실시예에서 본적 없는 클레스에 대한 데이터 세트는 Du로 정의될 수 있고, Du는 Ys와 분리되어 있다. 본 실시예에서 본적 없는 데이터 세트 Du는 와 같이 표현될 수 있다.Similarly, a data set for a class not seen in this embodiment may be defined as Du, and Du is separated from Y s . The data set Du, which is not seen in this example, is can be expressed as
본 실시예에 따른 행동 인식 장치(100)에서는 처음 보는 행동을 인식(ZSAR: Zero-shot Action Recognition)을 위한 제약을 기반으로, 본적 있는 데이터 세트(Ds)와 본적 없는 데이터 세트(Du) 두 개의 데이터 세트 사이의 포함 관계는 및 를 만족하도록 설정된다. In the
행동의 시퀀스는 N의 특징 벡터 길이로 표현될 수 있고, 여기서 N은 시퀀스의 시간적 길이를 의미한다. 본적 있는 데이터는 행동 인식을 위한 학습 단계에서 접근할 수 있으나, 본적 없는 데이터의 RGB 특징 및 흐름 특징은 테스트 단계에서만 접근할 수 있다. A sequence of actions can be expressed as a feature vector length of N, where N means the temporal length of the sequence. The seen data can be accessed at the learning stage for behavior recognition, but the RGB characteristics and flow characteristics of the unseen data can only be accessed at the test stage.
이하, 본 실시예에 따른 행동 인식 장치(100)에서 사용되는 처음 보는 행동의 인식을 위한 생성적 적대 학습 동작(GAN for Zero-shot Action Recognition)을 설명하도록 한다. Hereinafter, a generative hostile learning operation (GAN for Zero-shot Action Recognition) for recognizing a first-time behavior used in the
행동 인식 장치(100)에 적용되는 생성적 적대 신경망(GAN: Generative Adversarial Network)은 생성자(Generator, 350)와 감별자(discriminator, 360) 사이의 최소 극대화 알고리즘(Minimax Algorithm)을 통해 실제 분포에서 샘플을 생성하는 것을 목표로 한다. 여기서, 생성자(350)는 가짜 샘플을 생성하여 감별자(360)을 속이려 하는 동작을 수행하고, 반면 감별자(360)는 실제 샘플을 가짜 샘플과 구별하려 하는 동작을 수행한다. A generative adversarial network (GAN) applied to the
또한, 본 실시예에 따른 행동 인식 장치(100)는 생성적 적대 신경망의 학습 안정성을 위해 그라디언트 패널티(gradient penalty)가 있는 목적 함수로 Wasserstein 거리를 조정한다. 행동 인식 장치(100)에서 본적 없는 클래스에서 샘플을 생성하기 위하여 생성 모델은 조건부 WGAN(Wasserstein GAN)을 기반으로 생성한다. In addition, the
행동 인식 장치(100)에서 사용되는 목적 함수는 수학식 1과 같이 정의될 수 있다. The objective function used in the
여기서 Pr과 Pg는 실제 분포와 생성된 분포를 의미하고, 는 생성자(350)의 출력을 의미하고, 는 x와 의 보간을 의미하며, 마지막 항은 페널티를 주어 그라디언트의 폭발(Gradient Exploding)하는 것을 방지하는 정규화항이며, γ는 항의 매개 변수를 의미한다. where P r and P g mean the actual distribution and the generated distribution, means the output of the
이하, 본 실시예에 따른 행동 인식 장치(100)에서 본적 없는 행동 시퀀스를 생성하는 동작(Generating Unseen Action Sequence)을 설명하도록 한다. Hereinafter, an operation of generating an action sequence that has not been seen in the
행동 인식을 위한 비디오를 생성하는 것은 단일 프레임을 생성하는 것보다 어려운 동작이다. 비디오는 시간 축과 함께 더 복잡하므로, 동작 시퀀스를 완료하기 위하여 생성된 세그먼트가 조립될 때 각 세그먼트 사이의 간격은 자연스럽게 연결되어야 한다.Generating a video for behavioral recognition is a more difficult operation than generating a single frame. Since video is more complex with the time axis, the gaps between each segment must be connected naturally when the generated segments are assembled to complete a sequence of motions.
따라서, 본 실시예에 따른 행동 인식 장치(100)에서는 2 개의 조건을 기반으로 본적 없는 클레스의 비디오 특징 시퀀스를 생성한다. 첫 번째 조건은 단일 조건에서 시퀀스를 생성하는 것이고, 두 번째 조건은 시퀀스의 충실도를 보장하기 위하여 복수의 특징을 결합하여 시퀀스를 생성하는 것이다. 여기서, 단일 조건은 하나의 자연어 벡터를 의미하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다. Accordingly, the
행동 인식 장치(100)는 본적 없는 비디오의 특징 시퀀스의 생성을 위해 단일 조건만 제공되는 경우, 생성자(350)에서는 두 가지 방법을 이용하여 시퀀스를 합성할 수 있다. 여기서, 두 가지 방법은 단일 조건에서 전체 기능을 간단히 생성하는 일대다 매핑과 주어진 조건을 생성하기 전에 예상 길이의 복수의 조건으로 확장하는 일대일 매핑일 수 있다. 여기서, 실제 비디오 생성하는 동작을 참고하면, 일대다 매핑을 수행할 경우, 부족한 조건과 네트워크 용량으로 인해 본적 없는 비디오의 특징 시퀀스를 생성하기는 어렵다. 따라서, 본 발명의 행동 인식 장치(100)에서는 재귀 신경망(RNN: Recurrent Neural Network)을 통해 시간 정보를 단일 조건에서 전개할 수 있는 속성 엔코더(340)를 포함한다. 즉, 속성 인코더(340)를 통해 시간 정보가 포함된 시맨틱 임베드 공간을 탐색한다.When only a single condition is provided for generating a feature sequence of a video that the
다음으로, 행동 인식 장치(100)는 생성된 본적 없는 비디오의 특징 시퀀스의 충실도를 보장해야 한다. 행동 인식 장치(100)에서 단일 조건은 복수 개로 확장되고, 확장된 조건에서 세그먼트가 생성되고, 생성된 세크먼트를 수집하여 행동 시퀀스가 생성된다. 생성된 행동 시퀀스 전체의 흐름은 실제 행동 시퀀스만큼 자연스럽게 연결되어야만 한다. Next, the
따라서, 생성 모델은 시각적 공간에서 세그먼트와 시퀀스의 분포를 동시에 탐색해야만 한다. 이를 위해, 본 발명의 행동 인식 장치(100)의 감별자(360)는 실제 행동 시퀀스를 가짜 시퀀스와 구별하기 위한 시퀀스 감별자(372)를 포함한다. Therefore, generative models must simultaneously explore the distribution of segments and sequences in visual space. To this end, the
이하, 본 실시예에 따른 행동 인식 장치(100)에서 적용된 행동 특징 기반의 생성적 적대 신경망(Action Feature Generative Adversarial Networks)의 동작을 설명하도록 한다. Hereinafter, the operation of the action feature-based generative adversarial networks applied in the
도 7에서는 본 발명에 따른 행동 인식 장치(100)에 적용된 행동 시퀀스 특징 기반의 생성적 적대 신경망(SFGAN: Sequence Feature Generative Adversarial Networks)의 세부 구조를 나타낸다. 도 7을 참조하면, 행동 인식 장치(100)는 인코더(340), 생성자(350), 감별자(372, 374) 등으로 구성된 행동 시퀀스 특징 기반의 생성적 적대 신경망을 통해 본 적 없는 행동을 인식하기 위한 학습을 수행한다.7 shows a detailed structure of a sequence feature generative adversarial network (SFGAN) based on a behavior sequence feature applied to the
이하, 본 실시예에 따른 행동 인식 장치(100)에 포함된 속성 인코더(340)에 대해 설명하도록 한다. Hereinafter, the
인코더(340)는 입력된 단일 조건을 인코딩하여 출력값 c(y)을 출력한다. 여기서, 인코더(340)는 입력된 단일 조건의 시간 스트림을 풀기 위하여 재귀 신경망을 사용한다. 예를 들어, 인코더(340)는 자연어 벡터를 단일 조건으로 입력 받고, 자연어 벡터를 인코딩하여 자연어 특징 데이터를 출력할 수 있다. The
또한, 인코더(340)는 GRU(Gated Recurrent Unit) 셀로 구성될 수 있으며, 인코더(340)의 GRU 동작은 수학식 2와 같이 정의될 수 있다.In addition, the
여기서 = c(y)이고 k 는 0 < k < N, k ∈ N을 만족시킵니다.here = c(y) and k satisfies 0 < k < N, k ∈ N.
인코더(340)는 단일 조건에서 다수의 조건으로 푸는 동작에 의해 잠재 공간에서 불연속이 발생한다. 따라서, 인코더(340)는 컨디셔닝 증강 기술(Conditioning Augmentation)을 추가로 사용한다. The
다수의 조건으로 확장된 각각의 조건은 가우스 분포 에서 표본으로 다시 매개 변수화되며, 여기서 μ는 평균을 의미하고, Σ는 공분산 행렬을 의미한다. Each condition extended to a number of conditions is a Gaussian distribution is parameterized back to the sample in , where μ stands for the mean and Σ stands for the covariance matrix.
인코더(340)는 시맨틱 공간을 과도하게 조정하고 매끄러움을 강화하는 것을 방지하기 위하여 KL-divergence(Kullback-Leibler divergence)를 정규화 용어로 사용한다. The
따라서, 도 10에 도시된 바와 같이, 인코더(340)는 에서 매개 변수화된 조건 는 생성자(350)으로 전달되어 생성자(350)의 입력 조건의 역할을 한다. Accordingly, as shown in FIG. 10 , the
또한, 생성자(350)에서 본적 없는 특징을 생성하기 위해서 조건 는 행동 사이의 관계정보를 포함해야 한다. 이에, 본 발명의 인코더(340)는 삼중항 손실함수를 사용하며, 삼중항 손실 함수는 GRU에 의해 처리된 조건을 원래 조건과 유사하게 처리하고 다른 행동의 조건과는 다르게 처리한다. 인코더(340)에 삼중항 손실함수에서 사용되는 목적 함수 및 정규화 용어는 수학식 3 및 4와 같이 정의될 수 있다. Also, in order to create a feature never seen in the
여기서, d+는 파지티브(positive) 쌍의 거리를 의미하고, d-는 네거티브(negative) 쌍의 거리를 의미하며, c(y), , 각각은 앵커(anchor), 파지티브 샘플 및 네거티브 샘플이다. m 은 삼중항 손실의 마진이며, 코사인 유사성을 삼중항 손실 거리 측정법으로 사용한다. 는 동일한 클립의 피처에서 샘플링되고 네거티브는 다른 동작의 클립에서 샘플링된다.Here, d + means the distance of the positive pair, d - means the distance of the negative pair, c(y), , Each is an anchor, a positive sample and a negative sample. m is the margin of triplet loss, using cosine similarity as a measure of triplet loss distance. is sampled from features in the same clip and negatives are sampled from clips in different motions.
이하, 본 실시예에 따른 행동 인식 장치(100)에 포함된 생성자(350)에 대해 설명하도록 한다. Hereinafter, the
본 실시예에 따른 행동 인식 장치(100)는 완전한 지도 학습 방식을 통해 행동을 인식하며, 이러한 방식은 광학적 흐름의 특징을 사용하는 것이 바람직하다. The
행동 인식 장치(100)는 본적 없는 행동인식을 위하여 생성자(350)를 포함하며, 생성자(350)는 RGB 특징과 흐름 특징이 결합된 결합 특징을 생성한다. The
생성자(350)는 매개 변수화된 조건 at와 잠재 잡음 벡터 z를 입력으로 RGB 특징과 흐름 특징이 결합된 결합 특징을 생성한다.The
흐름 특징은 원래의 RGB 비전에서 추출됨에 따라, 생성자(350)는 RGB 특징과 흐름 특징 간의 관계를 모델링하기 위해 풀리 커넥티드 레이어(fully connected layer)로 구성된다. 생성자(350)의 동작은 수학식 5와 같이 정의될 수 있다. As the flow features are extracted from the original RGB vision, the
여기서 z는 잠재 잡음에 대한 랜덤 변수이고, n은 n 번째 임베디드 매개 변수화된 조건을 의미한다. where z is a random variable for latent noise, and n is the nth embedded parameterized condition.
이하, 본 실시예에 따른 행동 인식 장치(100)에 포함된 감별자(360)에 대해 설명하도록 한다. Hereinafter, the
행동 인식 장치(100)에 포함된 감별자(360)는 생성자(350)에서 생성된 특징의 분포와 실제 분포의 차이를 판별하여 생성자(350)에 피드백을 제공한다. The
본 실시예에 따른 감별자(360)는 도 11에 도시된 바와 같이, 세그먼트에 대한 판별을 위한 세그먼트 감별자(372)와 시퀀스에 대한 판별을 위한 시퀀스 감별자(374)로 구성될 수 있다. As shown in FIG. 11 , the
세그먼트 감별자(372) 및 시퀀스 감별자(374) 각각은 실제 특징과 실제 시퀀스를 가짜와 구별하기 위한 복수의 풀리 커넥티드 레이어(fully connected layer)로 구성될 수 있다. Each of the
세그먼트 감별자(372)는 특징과 조건을 동시에 처리하고, 시퀀스 감별자(374)는 특징만을 처리한다. The
본 실시예에 따른 행동 인식 장치(100)는 본적 없는 행동 시퀀스를 생성하는 것이기 때문에 훈련 중 과도한 컨디셔닝으로 인해 클래스에 편견이 생길 수 있다. 따라서, 행동 인식 장치(100)는 시퀀스 감별자(374)가 포함된 감별자(360)로 구성되어야 한다. Since the
이하, 본 실시예에 따른 행동 인식 장치(100)에서 사용되는 목적 함수(Objective function)에 대해 설명하도록 한다. Hereinafter, an objective function used in the
본 실시예에 따른 행동 인식 장치(100)의 모델 학습을 위한 목적 함수는 조건부 Wasserstain GAN을 기반으로 한다. 그러한, 행동 인식 장치(100)에 포함된 시퀀스 감별자(374)는 본적 없는 행동 시퀀스를 생성하기 위해 무조건적으로 설계되었으며, 시퀀스 감별자(374)에서는 일반적인 Wasserstain 거리를 사용한다. 또한, 시퀀스 감별자(374)에 대한 기울기 패널티(gradient penalty)는 수학식 6과 같이 정의된다. The objective function for model learning of the
여기서 Runcond은 시퀀스 감별자(374)에 대한 무조건부 정규화를 의미하고, Rcond은 세그먼트 감별자(372)에 대한 조건부 정규화를 의미한다. 따라서, 생성 모델에 대한 손실 함수는 수학식 7과 같이 정의될 수 있다. Here, R uncond denotes unconditional normalization for the
여기서, 0 ≤ n <N 이며, an은 인코딩된 조건(특징 데이터)를 나타내고, x는 실제 특징 데이터의 샘플이다. 또한, 은 생성자(350)에서 생성된 대상 특징 데이터를 나타내며, 이고, 이다. Runcond 및 Rcond는 각각 Dseq 및 Dseg에 대한 정규화 용어를 의미한다. Here, 0 ≤ n < N, a n represents an encoded condition (feature data), and x is a sample of the actual feature data. Also, represents the target feature data generated by the
결과적으로, 행동 인식 장치(100)에서 사용되는 매개 변수가 있는 엔드-투-엔드 모델의 전체 목적 함수는 수학 식 8로 정의될 수 있다. As a result, the overall objective function of the parameterized end-to-end model used in the
이하, 본 실시예에 따른 행동 인식 장치(100)에서 본적 없는 행동을 인식하는 동작에 대해 설명하도록 한다. Hereinafter, an operation for recognizing a behavior that has not been seen in the
행동 인식 장치(100)는 본적 있는 데이터 세트(Ds)를 생성적 적대 신경망을 통해 학습한 후, 본적 없는 클레스의 조건으로부터 본적 없는 행동 특징 을 생성한다. The
행동 인식 장치(100)는 처음보는 행동을 인식하기 위한 문제를 행동 인식을 위한 완전한 지도 학습 방식으로 처리하고, 평가시에는 다중 계층 퍼셉트론 분류기(Multi-Layer Perceptron classier)를 사용한다. 여기서, 분류기는 음의 로그 우도 손실을 최소화하여 최적화되며, 수학식 9와 같이 정의될 수 있다. The
여기서, θ는 분류기에서 풀리 커넥티드 레이어(fully connected layer)의 가중치이고, F는 GZSL 또는 ZSL일 때 또는 Du를 의미한다. 또한, 분류를 위한 예측 함수는 수학 식 10과 같이 정의될 수 있다. Here, θ is the weight of the fully connected layer in the classifier, and F is GZSL or ZSL when or Du. Also, the prediction function for classification may be defined as in
여기서 softmax 함수는 이며, GZSL에서 y ∈ Ys ∪ Yu, ZSL에서 y ∈ Yu를 의미한다. where the softmax function is And, means for y ∈ Y s ∪ Y u, y ∈ Y u in ZSL in GZSL.
도 8은 본 발명의 실시예에 따른 입력 영상을 처리하여 특징 데이터를 생성하는 동작을 설명하기 위한 예시도이다. 8 is an exemplary diagram for explaining an operation of generating feature data by processing an input image according to an embodiment of the present invention.
도 8을 참조하면, 행동 인식 장치(100)는 소스 영상을 획득한다. 여기서, 소스 영상은 비디오 클립(810)을 의미하며, 비디오 클립(810)은 5 개의 영상 세그먼트(811, 812, 813, 814, 815)로 구성될 수 있다. 여기서, 비디오 클립(810)은 농구, 야구, 출구 등에 대한 행동을 포함하는 클립일 수 있다. 영상 세그먼트(811, 812, 813, 814, 815) 각각은 32 개의 움직임 벡터 영상 프레임을 포함할 수 있다. 움직임 벡터 영상 프레임(820) 사이에는 차분 영상(821)이 추가로 포함될 수 있으며, 차분 영상(821)은 인접한 두 개의 움직임 벡터 영상 프레임(820)의 차이를 통해 생성된 영상을 의미한다.Referring to FIG. 8 , the
도 8을 참조하면, 행동 인식 장치(100)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 위한 전처리(Pre-traning)를 수행하여 소스 특징 데이터(X)를 생성할 수 있다. 여기서, 소스 특징 데이터는 복수의 세그먼트 단위 별 특징값(831, 832, 833, 834, 835)를 포함하며, 각각의 특징값은 1×1024의 크기를 갖는 행렬 특징값일 수 있다. Referring to FIG. 8 , the
도 9는 본 발명의 실시예에 따른 자연어 벡터를 처리하여 특징 데이터를 생성하는 동작을 설명하기 위한 예시도이다.9 is an exemplary diagram for explaining an operation of generating feature data by processing a natural language vector according to an embodiment of the present invention.
인코더(340)는 자연어 벡터(910)를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 동작을 수행한다. 여기서, 자연어 벡터는 시계열적인 정보를 포함하지 않고, 소정의 행동에 대하여 자연어 기반으로 생성된 벡터를 의미한다. The
인코더(340)는 자연어 벡터(910)에 순차적 정보를 부여하여 복수 개의 벡터로 확장하고, 복수 개의 벡터 각각에 대응되는 적어도 하나의 특징값(921, 922, 923, 924, 925) 각각을 생성한다. The
인코더(340)는 자연어 벡터의 평균, 표준 편차 및 노이즈 등 중 적어도 하나를 이용하여 자연어 벡터를 정규 분포 상에서 분포를 갖는 적어도 하나의 특징값(921, 922, 923, 924, 925) 각각을 생성한다. The
제1 특징값 처리부(342)는 인코더(340)에서 출력된 적어도 하나의 특징값(921, 922, 923, 924, 925)을 포함하는 자연어 특징 데이터를 생성자(350)로 전달하는 동작을 수행한다. 제1 특징값 처리부(342)는 자연어 특징 데이터에 랜덤 변수(잠재 잡음에 대한 랜덤 변수)를 추가로 결합시켜 생성자(350)로 전달할 수 있다. The first feature
또한, 제1 특징값 처리부(342)는 인코더(340)에서 출력된 적어도 하나의 특징값(921, 922, 923, 924, 925)을 포함하는 자연어 특징 데이터를 제2 감별자(374)로 전송한다. Also, the first feature
한편, 제1 특징값 처리부(342)는 인코더(340)에서 자연어 특징 데이터를 생성자(350)로 직접 전달하는 경우 생략되거나, 인코더(340)에 포함된 형태로 구현될 수 있다.Meanwhile, the first feature
생성자(350)는 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 동작을 수행한다. The
생성자(350)는 자연어 특징 데이터와 기 생성된 랜덤 변수를 기반으로 페이크(Fake) 영상에 대한 대상 특징 데이터를 생성한다. 여기서, 생성자(350)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 통해 상기 대상 특성 데이터를 생성하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다. The
생성자(350)는 적어도 하나의 특징값(931, 932, 933, 934, 935)을 포함하는 대상 특징 데이터를 생성한다. 여기서, 생성자(350)는 자연어 특징 데이터와 동일한 개수의 세그먼트 단위로 대상 특징 데이터를 생성한다. 여기서, 세그먼트 단위는 대상 특징 데이터에 포함된 각각의 특징값으로 구분될 수 있다. The
제2 특징값 처리부(352)는 생성자(350)에서 출력된 대상 특징 데이터를 감별자(360)로 전달하는 동작을 수행한다. 제2 특징값 처리부(352)는 대상 특징 데이터를 제1 감별자(372) 및 제2 감별자(374) 각각으로 전달한다. 한편, 제2 특징값 처리부(352)는 생성자(350)에서 대상 특징 데이터를 감별자(360)로 직접 전달하는 경우 생략되거나, 생성자(350)에 포함된 형태로 구현될 수 있다.The second feature
도 10은 본 발명의 실시예에 따른 인코더의 동작 구성을 나타낸 도면이다. 10 is a diagram illustrating an operation configuration of an encoder according to an embodiment of the present invention.
인코더(340)는 자연어 벡터에 순차적 정보를 부여하여 복수 개의 벡터로 확장을 수행한다. 여기서, 단일 조건의 자연어 벡터는 LSTM(Long short-term memory), GRU(Gated recurrent unit) 등의 방식을 이용하여 확장될 수 있다. The
또한, 인코더(340)는 복수 개의 벡터 각각에 대응되는 적어도 하나의 특징값 각각을 생성한다. 인코더(340)는 자연어 벡터의 평균(μ), 표준 편차(σ) 및 노이즈(ε) 등 중 적어도 하나를 이용하여 자연어 벡터를 정규 분포 상에서 분포를 갖는 적어도 하나의 특징값(ai) 각각을 생성한다. Also, the
도 11은 본 발명의 실시예에 따른 감별자의 동작 구성을 나타낸 도면이다.11 is a diagram illustrating an operation configuration of a discriminator according to an embodiment of the present invention.
감별자(360)는 소스 특징 데이터와 자연어 특징 데이터, 대상 특징 데이터 등 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 한다. 본 실시예에 따른 감별자(360)는 제1 감별자(372) 및 제2 감별자(374)를 포함한다.The
제1 감별자(372)는 대상 특징 데이터와 소스 특징 데이터를 이용하여 시퀀스(Sequence)에 대한 분류를 처리하는 동작을 수행한다. 제1 감별자(372)는 대상 특징 데이터와 소스 특징 데이터를 입력 받고, 대상 특징 데이터의 진위 여부를 판별할 수 있다. 구체적으로, 제1 감별자(372)는 순차적 정보가 포함된 복수의 소스 특징값을 결합(Concatenation)한 소스 특징 데이터와 순차적 정보가 포함된 복수의 대상 특징값을 결합한 대상 특징 데이터를 비교하여 대상 특징 데이터의 진위 여부를 학습한 제1 학습 결과를 출력한다. 여기서, 제1 학습 결과는 [0, 1] 사이의 값으로 표현될 수 있다. 제1 감별자(372)에서 대상 특징 데이터의 진위 여부의 판단 결과, 0 값에 가까울수록 거짓(Fake) 신호로 분류된 것이고 1 값에 가까울수록 참(Real) 신호로 분류된 것이다. The
제2 감별자(374)는 자연어 특징 데이터 및 대상 특징 데이터를 결합한 대상 결합 데이터와 소스 특징 데이터를 이용하여 세그먼트(Segment)에 대한 분류를 처리하는 동작을 수행한다. 제2 감별자(374)는 대상 결합 데이터와 소스 특징 데이터를 입력 받고, 대상 결합 데이터의 진위 여부를 판별할 수 있다. The
구체적으로, 제2 감별자(374)는 소스 특징 데이터의 세그먼트 단위와 대상 결합 데이터의 세그먼트 단위를 비교하여 대상 결합 데이터의 진위 여부를 학습한 제2 학습 결과를 출력한다. 여기서, 제2 학습 결과는 [0, 1] 사이의 값으로 표현될 수 있다. 제2 감별자(374)에서 대상 결합 데이터의 진위 여부의 판단 결과, 0 값에 가까울수록 거짓(Fake) 신호로 분류된 것이고 1 값에 가까울수록 참(Real) 신호로 분류된 것이다. Specifically, the
제2 감별자(374)는 소스 특징 데이터의 세그먼트 단위의 데이터와 자연어 특징 데이터의 특징값과 대상 특징 데이터의 특징값을 결합((Concatenation))한 세그먼트 단위의 대상 결합 데이터를 비교하여 세그먼트에 대한 분류를 처리할 수 있다. The
이상의 설명은 본 발명의 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명의 실시예들은 본 발명의 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the embodiment of the present invention, and those of ordinary skill in the art to which the embodiment of the present invention pertains may make various modifications and changes within the scope not departing from the essential characteristics of the embodiment of the present invention. transformation will be possible. Accordingly, the embodiments of the present invention are not intended to limit the technical spirit of the embodiment of the present invention, but to explain, and the scope of the technical spirit of the embodiment of the present invention is not limited by these embodiments. The protection scope of the embodiment of the present invention should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the embodiment of the present invention.
100: 행동 인식 장치
110: 입력부
120: 출력부
130: 프로세서
140: 메모리
150: 데이터 베이스
310: 영상 획득부
320: 전처리부
322: 영상 특징값 처리부
330: 자연어 벡터 획득부
340: 인코더
342: 제1 특징값 처리부
350: 생성자
352: 제2 특징값 처리부
360: 감별자100: behavior recognition device
110: input unit 120: output unit
130: processor 140: memory
150: database
310: image acquisition unit 320: pre-processing unit
322: image feature value processing unit 330: natural language vector acquisition unit
340: encoder 342: first feature value processing unit
350: constructor 352: second feature value processing unit
360: Discriminant
Claims (15)
자연어 벡터를 획득하는 자연어 획득 단계;
자연어 벡터를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 자연어 처리 단계;
상기 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 생성 처리 단계; 및
상기 소스 특징 데이터와 상기 자연어 특징 데이터 및 상기 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 하는 감별 처리 단계
를 수행하는 것을 특징으로 하는 행동 인식 학습 방법.A behavior recognition learning method performed by a computing device comprising one or more processors and a memory storing one or more programs to be executed by the processor, the computing device comprising:
a natural language acquisition step of acquiring a natural language vector;
a natural language processing step of generating natural language feature data including at least one feature value by inputting a natural language vector;
a generation processing step of generating source feature data of a source image and target feature data for classification based on the natural language feature data; and
A discrimination processing step of processing classification for each of a sequence and a segment based on at least one of the source feature data, the natural language feature data, and the target feature data so that the behavior recognition of the object is performed
Behavior recognition learning method, characterized in that performing.
상기 자연어 처리 단계는,
상기 자연어 벡터에 순차적 정보를 부여하여 복수 개의 벡터로 확장하고, 상기 복수 개의 벡터 각각에 대응되는 상기 적어도 하나의 특징값 각각을 생성하는 것을 특징으로 하는 행동 인식 학습 방법.According to claim 1,
The natural language processing step is
Behavior recognition learning method, characterized in that by giving sequential information to the natural language vector, expanding it into a plurality of vectors, and generating each of the at least one feature value corresponding to each of the plurality of vectors.
상기 자연어 처리 단계는,
상기 자연어 벡터의 평균, 표준 편차 및 노이즈 중 적어도 하나를 이용하여 상기 자연어 벡터를 정규 분포 상에서 분포를 갖는 상기 적어도 하나의 특징값 각각을 생성하는 것을 특징으로 하는 행동 인식 학습 방법.3. The method of claim 2,
The natural language processing step is
Behavior recognition learning method, characterized in that by using at least one of the mean, standard deviation, and noise of the natural language vector to generate each of the at least one feature value having a distribution on a normal distribution of the natural language vector.
상기 자연어 처리 단계는,
재귀 신경망을 기반으로 상기 자연어 벡터를 상기 복수 개의 벡터로 확장하며, 상기 순차적 정보를 포함하는 상기 복수 개의 벡터 각각은 이전 시점에 생성된 벡터에 근거하여 생성되는 것을 특징으로 하는 행동 인식 학습 방법.3. The method of claim 2,
The natural language processing step is
Behavior recognition learning method, characterized in that the natural language vector is expanded to the plurality of vectors based on a recursive neural network, and each of the plurality of vectors including the sequential information is generated based on a vector generated at a previous time.
상기 생성 처리 단계는,
상기 자연어 특징 데이터와 기 생성된 랜덤 변수를 기반으로 페이크(Fake) 영상에 대한 상기 대상 특징 데이터를 생성하는 것을 특징으로 하는 행동 인식 학습 방법.According to claim 1,
The generating process step is
Behavior recognition learning method, characterized in that the target feature data for a fake image is generated based on the natural language feature data and a pre-generated random variable.
상기 생성 처리 단계는,
컨볼루션 뉴럴 네트워크(CNN) 학습을 통해 상기 대상 특성 데이터를 생성하는 것을 특징으로 하는 행동 인식 학습 방법.6. The method of claim 5,
The generating process step is
Behavior recognition learning method, characterized in that generating the target characteristic data through convolutional neural network (CNN) learning.
상기 생성 처리 단계는,
상기 자연어 특징 데이터와 동일한 개수의 세그먼트 단위로 상기 대상 특징 데이터를 생성하는 것을 특징으로 하는 행동 인식 학습 방법.6. The method of claim 5,
The generating process step is
Behavior recognition learning method, characterized in that generating the target feature data in the same number of segments as the natural language feature data.
상기 감별 처리 단계는,
상기 대상 특징 데이터와 상기 소스 특징 데이터를 이용하여 시퀀스(Sequence)에 대한 분류를 처리하는 제1 감별 처리 단계; 및
상기 자연어 특징 데이터 및 상기 대상 특징 데이터를 결합한 대상 결합 데이터와 상기 소스 특징 데이터를 이용하여 세그먼트(Segment)에 대한 분류를 처리하는 제2 감별 처리 단계
를 포함하는 것을 특징으로 하는 행동 인식 학습 방법.According to claim 1,
The discrimination processing step is
a first discrimination processing step of processing classification for a sequence using the target feature data and the source feature data; and
A second differentiation processing step of processing classification of a segment using the target combination data obtained by combining the natural language characteristic data and the target characteristic data and the source characteristic data
Behavior recognition learning method comprising a.
상기 제1 감별 처리 단계는,
순차적 정보가 포함된 복수의 소스 특징값을 결합한 상기 소스 특징 데이터와 순차적 정보가 포함된 복수의 대상 특징값을 결합한 상기 대상 특징 데이터를 비교하여 상기 대상 특징 데이터의 진위 여부를 학습한 제1 학습 결과를 출력하는 것을 특징으로 하는 행동 인식 학습 방법.9. The method of claim 8,
The first discrimination processing step is
A first learning result obtained by learning whether the target feature data is authentic by comparing the source feature data in which a plurality of source feature values including sequential information are combined with the target feature data in which a plurality of target feature values including sequential information are combined Behavior recognition learning method, characterized in that outputting.
상기 제1 감별 처리 단계는,
상기 제1 학습 결과에 근거하여 상기 대상 특징 데이터를 생성하는 단계로 피드백 정보를 전달하며, 상기 소스 특징 데이터와 상기 대상 특징 데이터를 비교하여 상기 대상 특징 데이터가 참 신호에 해당할 때까지 반복하여 상기 대상 특징 데이터의 진위 여부를 학습하는 것을 특징으로 하는 행동 인식 학습 방법.10. The method of claim 9,
The first discrimination processing step is
Feedback information is transmitted to the step of generating the target characteristic data based on the first learning result, and the source characteristic data is compared with the target characteristic data and repeated until the target characteristic data corresponds to a true signal. A behavior recognition learning method, characterized in that it learns whether the target feature data is authentic or not.
상기 제2 감별 처리 단계는,
상기 소스 특징 데이터의 세그먼트 단위와 상기 대상 결합 데이터의 세그먼트 단위를 비교하여 상기 대상 결합 데이터의 진위 여부를 학습한 제2 학습 결과를 출력하는 것을 특징으로 하는 행동 인식 학습 방법.9. The method of claim 8,
The second discrimination processing step is
Behavior recognition learning method, characterized in that by comparing the segment unit of the source feature data and the segment unit of the target combined data, and outputting a second learning result of learning whether the object combined data is authentic.
상기 제2 감별 처리 단계는,
상기 제2 학습 결과에 근거하여 상기 대상 특징 데이터를 생성하는 단계로 피드백 정보를 전달하며, 상기 소스 특징 데이터와 상기 대상 결합 데이터를 비교하여 상기 대상 결합 데이터가 참 신호에 해당할 때까지 반복하여 상기 대상 결합 데이터의 진위 여부를 학습하는 것을 특징으로 하는 행동 인식 학습 방법.12. The method of claim 11,
The second discrimination processing step is
Feedback information is transmitted to the step of generating the target characteristic data based on the second learning result, and the source characteristic data is compared with the target combination data and repeated until the target combination data corresponds to a true signal. A behavior recognition learning method, characterized in that it learns whether the object binding data is authentic or not.
상기 제2 감별 처리 단계는,
상기 소스 특징 데이터의 세그먼트 단위의 데이터와 상기 자연어 특징 데이터의 특징값과 상기 대상 특징 데이터의 특징값을 결합한 세그먼트 단위의 상기 대상 결합 데이터를 이용하여 세그먼트에 대한 분류를 처리하는 것을 특징으로 하는 행동 인식 학습 방법.9. The method of claim 8,
The second discrimination processing step is
Behavior recognition, characterized in that the classification of the segment is processed using the segment-unit data of the source feature data, the segment-by-segment combination data obtained by combining a feature value of the natural language feature data and a feature value of the target feature data How to learn.
하나 이상의 프로세서; 및
상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서,
자연어 벡터를 획득하는 자연어 획득 단계;
자연어 벡터를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 자연어 처리 단계;
상기 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 생성 처리 단계; 및
상기 소스 특징 데이터와 상기 자연어 특징 데이터 및 상기 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 하는 감별 처리 단계
를 포함하는 동작들을 수행하게 하는 것을 특징으로 하는 행동 인식 장치.As a device for recognizing unseen behavior,
one or more processors; and
a memory storing one or more programs executed by the processor, wherein the programs, when executed by the one or more processors, in the one or more processors;
a natural language acquisition step of acquiring a natural language vector;
a natural language processing step of generating natural language feature data including at least one feature value by inputting a natural language vector;
a generation processing step of generating source feature data of a source image and target feature data for classification based on the natural language feature data; and
A discrimination processing step of processing classification for each of a sequence and a segment based on at least one of the source feature data, the natural language feature data, and the target feature data so that the behavior recognition of the object is performed
Behavior recognition device, characterized in that it performs operations comprising a.
상기 컴퓨팅 디바이스는,
본적 없는 소스 영상을 입력 받고, 상기 소스 영상 데이터의 소스 특징 데이터에 시퀀스 특징 데이터를 학습한 제1 학습 결과와 세그먼트 특징 데이터를 학습한 제2 학습 결과를 적용하여 행동을 판단하고, 판단된 행동 인식 결과를 출력하는 것을 특징으로 행동 인식 방법.
A behavior recognition method performed by a computing device comprising one or more processors and a memory storing one or more programs executed by the processors, the method comprising:
The computing device is
Receives a source image that has never been seen as an input, determines a behavior by applying a first learning result of learning sequence feature data and a second learning result of learning segment feature data to the source feature data of the source image data, and recognizes the determined behavior A behavior recognition method comprising outputting a result.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190168077A KR102334388B1 (en) | 2019-12-16 | 2019-12-16 | Method and Apparatus for Action Recognition Using Sequential Feature Data |
PCT/KR2020/013782 WO2021125521A1 (en) | 2019-12-16 | 2020-10-08 | Action recognition method using sequential feature data and apparatus therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190168077A KR102334388B1 (en) | 2019-12-16 | 2019-12-16 | Method and Apparatus for Action Recognition Using Sequential Feature Data |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210076659A true KR20210076659A (en) | 2021-06-24 |
KR102334388B1 KR102334388B1 (en) | 2021-12-01 |
Family
ID=76477688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190168077A KR102334388B1 (en) | 2019-12-16 | 2019-12-16 | Method and Apparatus for Action Recognition Using Sequential Feature Data |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102334388B1 (en) |
WO (1) | WO2021125521A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707990A (en) * | 2022-03-23 | 2022-07-05 | 支付宝(杭州)信息技术有限公司 | User behavior pattern recognition method and device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118777A (en) * | 2009-12-04 | 2011-06-16 | Sony Corp | Learning device, learning method, prediction device, prediction method, and program |
WO2017150211A1 (en) * | 2016-03-03 | 2017-09-08 | コニカミノルタ株式会社 | Action recognition apparatus, action learning apparatus, action recognition program, and action learning program |
KR20180125885A (en) * | 2017-05-16 | 2018-11-26 | 삼성전자주식회사 | Electronic device and method for detecting a driving event of vehicle |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102106135B1 (en) * | 2013-10-01 | 2020-05-04 | 한국전자통신연구원 | Apparatus and method for providing application service by using action recognition |
KR101563297B1 (en) * | 2014-04-23 | 2015-10-26 | 한양대학교 산학협력단 | Method and apparatus for recognizing action in video |
KR20160096460A (en) * | 2015-02-05 | 2016-08-16 | 삼성전자주식회사 | Recognition system based on deep learning including a plurality of classfier and control method thereof |
KR102008290B1 (en) * | 2017-11-14 | 2019-08-07 | 고려대학교 산학협력단 | Method and apparatus for detecting action of object in viedio stream |
-
2019
- 2019-12-16 KR KR1020190168077A patent/KR102334388B1/en active IP Right Grant
-
2020
- 2020-10-08 WO PCT/KR2020/013782 patent/WO2021125521A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118777A (en) * | 2009-12-04 | 2011-06-16 | Sony Corp | Learning device, learning method, prediction device, prediction method, and program |
WO2017150211A1 (en) * | 2016-03-03 | 2017-09-08 | コニカミノルタ株式会社 | Action recognition apparatus, action learning apparatus, action recognition program, and action learning program |
KR20180125885A (en) * | 2017-05-16 | 2018-11-26 | 삼성전자주식회사 | Electronic device and method for detecting a driving event of vehicle |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707990A (en) * | 2022-03-23 | 2022-07-05 | 支付宝(杭州)信息技术有限公司 | User behavior pattern recognition method and device |
Also Published As
Publication number | Publication date |
---|---|
KR102334388B1 (en) | 2021-12-01 |
WO2021125521A1 (en) | 2021-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kukleva et al. | Unsupervised learning of action classes with continuous temporal embedding | |
Marvasti-Zadeh et al. | Deep learning for visual tracking: A comprehensive survey | |
Xu et al. | Segregated temporal assembly recurrent networks for weakly supervised multiple action detection | |
Zhang et al. | Loop closure detection for visual SLAM systems using convolutional neural network | |
US9336433B1 (en) | Video face recognition | |
Parida et al. | Coordinated joint multimodal embeddings for generalized audio-visual zero-shot classification and retrieval of videos | |
KR102042168B1 (en) | Methods and apparatuses for generating text to video based on time series adversarial neural network | |
CN112183468A (en) | Pedestrian re-identification method based on multi-attention combined multi-level features | |
JP2023537705A (en) | AUDIO-VISUAL EVENT IDENTIFICATION SYSTEM, METHOD AND PROGRAM | |
Deng et al. | Similarity-preserving image-image domain adaptation for person re-identification | |
Zhang et al. | Robust facial landmark detection via heatmap-offset regression | |
CN112084887A (en) | Attention mechanism-based self-adaptive video classification method and system | |
Xu et al. | Prediction-cgan: Human action prediction with conditional generative adversarial networks | |
KR102437962B1 (en) | Device for Regression Scale-aware Cross-domain Object Detection and Driving Method Thereof | |
Wanyan et al. | Active exploration of multimodal complementarity for few-shot action recognition | |
Zhang et al. | Realistic human action recognition: When cnns meet lds | |
KR102334388B1 (en) | Method and Apparatus for Action Recognition Using Sequential Feature Data | |
Lin et al. | Region-based context enhanced network for robust multiple face alignment | |
Knafo | Fakeout: Leveraging out-of-domain self-supervision for multi-modal video deepfake detection | |
Huang et al. | Bidirectional tracking scheme for visual object tracking based on recursive orthogonal least squares | |
Ben-Ahmed et al. | Eurecom@ mediaeval 2017: Media genre inference for predicting media interestingnes | |
Geng et al. | Object-aware feature aggregation for video object detection | |
CN111259701B (en) | Pedestrian re-identification method and device and electronic equipment | |
Cheng et al. | Latent semantic learning with time-series cross correlation analysis for video scene detection and classification | |
Hui-bin et al. | Recognition of individual object in focus people group based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |