KR101512048B1 - Action recognition method and apparatus based on sparse representation - Google Patents

Action recognition method and apparatus based on sparse representation Download PDF

Info

Publication number
KR101512048B1
KR101512048B1 KR20140044202A KR20140044202A KR101512048B1 KR 101512048 B1 KR101512048 B1 KR 101512048B1 KR 20140044202 A KR20140044202 A KR 20140044202A KR 20140044202 A KR20140044202 A KR 20140044202A KR 101512048 B1 KR101512048 B1 KR 101512048B1
Authority
KR
South Korea
Prior art keywords
behavior
background
feature
dictionary
area
Prior art date
Application number
KR20140044202A
Other languages
Korean (ko)
Inventor
노용만
민현석
황진현
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR20140044202A priority Critical patent/KR101512048B1/en
Application granted granted Critical
Publication of KR101512048B1 publication Critical patent/KR101512048B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

Action recognition method and apparatus based on sparse representation according to the present invention includes the following steps: building up an action feature of a learning video to an action area library and building up a background feature of the learning video into a background area library; extracting features from inputted videos; extracting background usefulness by adjusting the extracted features with the background features of the background area library; when the extracted background usefulness meets the standard threshold values, recognizing the action of the inputted videos on the basis of learning video′s background and action features; and when the extracted background usefulness does not meet the standard threshold values, recognizing the action of the inputted video on the basis of learning video′s action features.

Description

희소 표현 기반의 행동 인식 방법 및 그 장치{ACTION RECOGNITION METHOD AND APPARATUS BASED ON SPARSE REPRESENTATION}[0001] ACTION RECOGNITION METHOD AND APPARATUS BASED ON SPARSE REPRESENTATION [0002]

본 발명은 희소 표현을 기반으로 하여 인간의 행동을 인식하는 기법에 관한 것으로, 더욱 상세하게는 학습 영상으로부터 획득한 행동-배경 특징 분리형 사전(dictionary)을 이용하여 희소 표현 기반으로 행동을 인식하는데 적합한 희소 표현 기반의 행동 인식 방법 및 그 장치에 관한 것이다.
The present invention relates to a technique for recognizing human behavior based on a rare expression, and more particularly, to a technique for recognizing a behavior based on a rare expression using a dictionary of behavior-background features acquired from a learning image To a method and apparatus for recognizing a behavior based on a rare expression.

최근 들어, 영상(비디오)에서 인간의 행동을 자동으로 이해하는 인간 행동 인식 모델은 지능형 영상 감시, 인간-사물 간 상호작용 등의 활용성에 대한 관심이 고조되면서 영상물 분석 분야에서 많은 관심과 연구가 이루어지고 있다.In recent years, the human behavior recognition model, which automatically understands human behavior in video (video), has attracted much attention and research in the field of video analysis due to the interest in the utilization of intelligent video surveillance and human-object interaction. ought.

잘 알려진 바와 같이, 인간의 행동을 인식하는 종래 방법으로는 특징벡터를 이용하는 방법이 있는데, 이러한 종래 방법에서는 학습 영상으로부터 학습 특징벡터를 추출하여 학습용 사전을 미리 구축해 두고, 입력 영상이 들어올 때 입력 영상으로부터 입력 특징벡터를 추출한다.As is well known, there is a conventional method of recognizing human behavior using a feature vector. In this conventional method, a learning dictionary is extracted from a learning image and a learning dictionary is constructed in advance. When an input image is input, And extracts the input feature vector from the input feature vector.

이후, 입력 특징벡터와 학습 특징벡터 간을 정합(적응)시킴으로써 인간의 행동을 인식(분류)하고 있다.Then, human behavior is recognized (classified) by matching (adapting) between input feature vectors and learning feature vectors.

즉, 종래 방법은 학습 및 입력의 전체 영상에 대해 각각 추출한 특징벡터(학습 특징벡터와 입력 특징벡터)의 전역적인 정합을 통해 인간의 행동을 인식하는데, 이와 같이 특징벡터의 전역적인 정합을 통해 인간의 행동을 인식하는 종래 방법은 영상 내 모든 특징벡터들에 대해 정합을 해야만 하기 때문에 실시간성이 떨어지는 근본적인 문제를 가지며, 또한 모든 특징벡터에 대한 전역적인 정합으로 인해 분류 성능(인식 성능)이 저하되는 문제를 갖는다.
That is, the conventional method recognizes human behavior through global matching of feature vectors (learning feature vectors and input feature vectors) extracted from the entire image of learning and input, The conventional method for recognizing the behavior of the image has a fundamental problem in that the real-time property is degraded because all the feature vectors in the image must be matched and the classification performance (recognition performance) is degraded due to the global matching of all the feature vectors I have a problem.

T. Guha and R. K. Ward, “Learning Sparse Representations for Human Action Recognition,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 34, no. 8, August 2012.T. Guha and R. K. Ward, " Learning Sparse Representations for Human Action Recognition, " IEEE Trans. Pattern Anal. Mach. Intell., Vol. 34, no. 8, August 2012.

본 발명은, 희소계수의 집중도 측정 결과에 의거하여 배경 정보가 유용할 경우에는 학습 영상의 배경 특징과 행동 특징 모두를 이용하여 인간의 행동을 인식하고, 배경 정보가 유용하지 않을 경우에는 학습 영상의 행동 특징만을 이용하여 인간의 행동을 인식할 수 있는 새로운 행동 인식 기법을 제안하고자 한다.The present invention recognizes human behavior by using both the background feature and the behavior feature of the learning image when the background information is useful based on the result of the concentration measurement of the sparse coefficient, and when the background information is not useful, We propose a new behavior recognition method that can recognize human behavior using only behavioral features.

본 발명이 해결하고자 하는 과제는 상기에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재들로부터 본 발명이 속하는 통상의 지식을 가진 자에 의해 명확하게 이해될 수 있을 것이다.
The problems to be solved by the present invention are not limited to those mentioned above, and another problem to be solved by the present invention can be clearly understood by those skilled in the art from the following description will be.

본 발명은, 일 관점에 따라, 학습 영상의 행동 특징을 행동 영역 사전으로 구축하고, 상기 학습 영상의 배경 특징을 배경 영역 사전으로 구축하는 과정과, 입력 영상으로부터 특징을 추출하는 과정과, 추출된 상기 특징을 상기 배경 영역 사전의 배경 특징에 적응시켜 배경 유용도를 검출하는 과정과, 검출된 상기 배경 유용도가 기준 임계값을 충족시킬 때, 상기 학습 영상의 배경 특징과 행동 특징에 기반하여 상기 입력 영상의 행동을 인식하는 과정과, 산출된 상기 배경 유용도가 상기 기준 임계값을 충족시키지 못할 때, 상기 학습 영상의 행동 특징에 기반하여 상기 입력 영상의 행동을 인식하는 과정을 포함하는 희소 표현 기반의 행동 인식 방법을 제공한다.According to one aspect of the present invention, there is provided a method for generating a learning image, the method comprising: constructing a behavioral feature of a learning image as a behavioral region dictionary and constructing a background feature of the learning image as a background region dictionary; Detecting a background availability degree by adapting the feature to a background feature of the background region dictionary; and determining, based on the background feature and the behavior feature of the learning image, Recognizing a behavior of an input image, and recognizing a behavior of the input image based on a behavior feature of the learning image when the calculated background usability does not satisfy the reference threshold value, Based behavior recognition method.

본 발명의 상기 학습 영상은, 배경 빼기 또는 움직임 기반의 물체 분리 기법을 통해 상기 행동 영역과 배경 영역으로 분리될 수 있다.The learning image of the present invention can be separated into the action area and the background area through background subtraction or motion-based object separation techniques.

본 발명의 상기 구축하는 과정은, 상기 학습 영상을 행동 영역과 배경 영역으로 분리하는 과정과, 분리된 상기 행동 영역과 배경 영역으로부터 행동 특징과 배경 특징을 각각 추출하는 과정과, 추출된 상기 행동 특징을 상기 행동 영역 사전으로 구축하고, 추출된 상기 배경 특징을 상기 배경 영역 사전으로 구축하는 과정을 포함할 수 있다.According to another aspect of the present invention, there is provided a method for constructing a learning image, the method comprising: dividing the learning image into a behavior region and a background region; extracting a behavior feature and a background feature from the separated behavior region and background region; And constructing the extracted background feature as the background area dictionary.

본 발명의 상기 행동 특징은, 전역 특징과 지역 특징을 포함할 수 있다.The behavioral features of the present invention may include global features and local features.

본 발명의 상기 전역 특징은, MHI(motion history image)를 이용하여 추출될 수 있다.The global characteristic of the present invention can be extracted using a motion history image (MHI).

본 발명의 상기 배경 유용도는, 행동 분류의 배경 영역 및 행동 영역과 관계된 희소계수의 최대 집중도에 기반하여 검출될 수 있다.The background utility of the present invention can be detected based on the background area of behavior classification and the maximum concentration of sparse coefficients associated with the behavioral area.

본 발명은, 다른 관점에 따라, 학습 영상으로부터 추출한 행동 특징으로 된 행동 영역 사전과 상기 학습 영상으로부터 추출한 배경 특징으로 된 배경 영역 사전을 구축하는 사전 구축 수단과, 입력 영상으로부터 특징을 추출하는 입력 특징 추출부와, 추출된 상기 특징을 상기 배경 영역 사전의 배경 특징에 적응시켜 배경 유용도를 검출하는 특징 적응부와, 검출된 상기 배경 유용도가 기준 임계값을 충족시킬 때, 상기 행동 영역 사전의 행동 특징과 상기 배경 영역 사전의 배경 특징에 기반하여 상기 입력 영상의 행동을 인식하고, 검출된 상기 배경 유용도가 상기 기준 임계값을 충족시키지 못할 때, 상기 행동 영역 사전의 행동 특징에 기반하여 상기 입력 영상의 행동을 인식하는 행동 인식부를 포함하는 희소 표현 기반의 행동 인식 장치를 제공한다.According to another aspect of the present invention, there is provided an information processing apparatus comprising dictionary construction means for constructing a background region dictionary composed of a behavior region dictionary having behavior characteristics extracted from a learning image and background features extracted from the learning image, A feature adaptation unit adapted to adaptively adapt the feature extracted to the background feature of the background region dictionary to detect a background usefulness; and a feature adaptation unit that, when the detected background usability satisfies a reference threshold value, Recognizing a behavior of the input image based on a behavior feature and a background feature of the background area dictionary, and when the detected background usefulness does not satisfy the reference threshold value, There is provided a behavior recognition apparatus based on a rare expression that includes a behavior recognition unit that recognizes a behavior of an input image.

본 발명의 상기 사전 구축 수단은, 상기 학습 영상을 행동 영역과 배경 영역으로 분리하는 영역 분리부와, 분리된 상기 행동 영역으로부터 상기 행동 특징을 추출하는 행동 특징 추출부와, 분리된 상기 배경 영역으로부터 상기 배경 특징을 추출하는 배경 특징 추출부와, 추출된 상기 행동 특징으로 구축되는 상기 행동 영역 사전과, 추출된 상기 배경 특징으로 구축되는 상기 배경 영역 사전을 포함할 수 있다.The dictionary construction means of the present invention may further comprise a region separation unit that separates the learning image into a behavior region and a background region, a behavior feature extraction unit that extracts the behavior feature from the separated behavior region, A background feature extracting unit for extracting the background feature, the behavior area dictionary constructed by the extracted behavior feature, and the background area dictionary constructed with the extracted background feature.

본 발명의 상기 영역 분리부는, 배경 빼기 또는 움직임 기반의 물체 분리 기법을 통해 상기 행동 영역과 배경 영역을 분리할 수 있다.The region dividing unit of the present invention can separate the action region and the background region through background subtraction or motion-based object separation.

본 발명의 상기 행동 특징 추출부는, MHI(motion history image)를 이용하여 상기 전역 특징을 추출할 수 있다.The behavior feature extraction unit of the present invention can extract the global feature using a motion history image (MHI).

본 발명의 상기 특징 적응부는, 행동 분류의 배경 영역 및 행동 영역과 관계된 희소계수의 최대 집중도에 기반하여 상기 배경 유용도를 검출할 수 있다.
The feature adaptation unit of the present invention can detect the background usefulness based on the background region of the behavior classification and the maximum concentration of the sparse coefficients associated with the behavioral region.

본 발명은 학습 영상의 행동 특징과 배경 특징을 분리하여 각 사전으로 구축해 두고, 희소계수의 집중도 측정 결과에 의거하여 배경 정보가 유용할 경우 학습 영상의 배경 특징과 행동 특징 모두를 이용하여 인간의 행동을 인식하며, 배경 정보가 유용하지 않을 경우 학습 영상의 행동 특징만을 이용하여 인간의 행동을 인식하도록 함으로써, 실시간적인 인간의 행동 인식을 실현할 수 있으며, 배경 특징과 행동 특징의 정합 또는 행동 특징만의 정합을 선택적으로 적용함으로써 행동 인식의 분류 성능을 더욱 증진시킬 수 있다.
The present invention separates behavioral features and background features of a learning image into respective dictionaries, and when background information is useful based on the result of measurement of concentration of sparse coefficients, human behavior If the background information is not useful, it is possible to realize real-time human behavior recognition by recognizing human behavior using only the behavior characteristic of the learning image. By applying the matching selectively, it is possible to further enhance the classification performance of the behavior recognition.

도 1은 본 발명의 실시 예에 따른 희소 표현 기반의 행동 인식 장치에 대한 블록구성도이다.
도 2는 본 발명의 실시 예에 따라 학습 영상을 행동 영역과 배경 영역으로 분리하여 행동 영역 사전과 배경 영역 사전을 구축하는 주요 과정을 도시한 순서도이다.
도 3은 본 발명의 실시 예에 따라 학습 영상의 배경 특징과 행동 특징에 기반하여 인간의 행동을 인식하거나 혹은 학습 영상의 행동 특징에 기반하여 인간의 행동을 인식하는 주요 과정을 도시한 순서도이다.
도 4a는 학습 영상의 일례를, 도 4b는 학습 영상으로부터 분리한 배경 영역의 일례를, 도 4c는 학습 영상으로부터 분리한 행동 영역의 일례를 각각 보여준다.
도 5a는 학습용 영상들의 예시를, 도 5b는 학습용 영상들로부터 분리한 배경 영역들과 행동 영역들의 예시를, 도 5c는 행동 역역 분리형 사전을 각각 나타낸다.
도 6a는 다이빙의 시험용 비디오로부터 구한 희소계수 분포 그래프를, 도 6b는 골프 스윙의 예시 영상으로부터 구한 희소계수 분포 그래프를 각각 나타낸다.
FIG. 1 is a block diagram of a rare-expression-based behavior recognition apparatus according to an embodiment of the present invention.
FIG. 2 is a flowchart illustrating a main process of constructing a behavior area dictionary and a background area dictionary by dividing a learning image into a behavior area and a background area according to an embodiment of the present invention.
3 is a flowchart illustrating a main process of recognizing human behavior based on background features and behavior characteristics of a learning image or recognition of human behavior based on behavior characteristics of a learning image according to an embodiment of the present invention.
4A shows an example of a learning image, FIG. 4B shows an example of a background area separated from a learning image, and FIG. 4C shows an example of a behavior area separated from a learning image.
FIG. 5A shows an example of learning images, FIG. 5B shows an example of background areas and action areas separated from learning images, and FIG. 5C shows a behavioral deconvolution dictionary.
FIG. 6A shows a sparse coefficient distribution graph obtained from a test video of a dive, and FIG. 6B shows a sparse coefficient distribution graph obtained from an example image of a golf swing.

먼저, 본 발명의 장점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되는 실시 예들을 참조하면 명확해질 것이다. 여기에서, 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 발명의 범주를 명확하게 이해할 수 있도록 하기 위해 예시적으로 제공되는 것이므로, 본 발명의 기술적 범위는 청구항들에 의해 정의되어야 할 것이다.First, the advantages and features of the present invention, and how to accomplish them, will be clarified with reference to the embodiments to be described in detail with reference to the accompanying drawings. While the present invention has been described with reference to exemplary embodiments, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, It will be understood by those of ordinary skill in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims.

아울러, 아래의 본 발명을 설명함에 있어서 공지 기능 또는 구성 등에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들인 것으로, 이는 사용자, 운용자 등의 의도 또는 관례 등에 따라 달라질 수 있음은 물론이다. 그러므로, 그 정의는 본 명세서의 전반에 걸쳐 기술되는 기술사상을 토대로 이루어져야 할 것이다.In the following description of the present invention, detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. It is to be understood that the following terms are defined in consideration of the functions of the present invention, and may be changed according to intentions or customs of a user, an operator, and the like. Therefore, the definition should be based on the technical idea described throughout this specification.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시 예에 따른 희소 표현 기반의 행동 인식 장치에 대한 블록구성도로서, 학습 영상 처리 모듈(110)과 행동 인식 모듈(120) 등을 포함할 수 있다.FIG. 1 is a block diagram of a rare-expression-based behavior recognition apparatus according to an embodiment of the present invention, and may include a learning image processing module 110, a behavior recognition module 120, and the like.

도 1을 참조하면, 학습 영상 처리 모듈(110)은 영역 분리부(111), 행동 특징 추출부(112), 배경 특징 추출부(113), 행동 영역 사전(114) 및 배경 영역 사전(115) 등을 포함할 수 있으며, 행동 인식 모듈(120)은 입력 특징 추출부(122), 특징 적응부(124) 및 행동 인식부(126) 등을 포함할 수 있다.1, the learning image processing module 110 includes an area separation unit 111, a behavior feature extraction unit 112, a background feature extraction unit 113, a behavior area dictionary 114, and a background area dictionary 115, And the behavior recognition module 120 may include an input feature extraction unit 122, a feature adaptation unit 124, a behavior recognition unit 126, and the like.

먼저, 행동 영상(행동 비디오)은 행동이 포함된 행동 영역(또는 전경 영역)과 행동이 이루어지는 배경 영역으로 분리될 수 있는데, 영역 분리부(111)는, 일례로서 도 4a에 도시된 바와 같은 학습 영상을 일례로서 도 4b 및 4c에 각각 도시된 배경 영역과 행동 영역으로 분리하는 등의 기능을 제공할 수 있다. 여기에서, 영역을 분리하는 것은 행동 영역과 배경 영역의 특징들을 보다 명확하게 구분하기 위해서이다.First, a behavior image (action video) can be divided into a behavior area (or a foreground area) in which the behavior is included and a background area in which the behavior is performed. The area separation unit 111, as an example, It is possible to provide functions such as dividing the image into a background area and a behavior area shown in Figs. 4B and 4C as an example. Here, separating the regions is to more clearly distinguish the characteristics of the behavior region and the background region.

즉, 본 발명은, 고성능 영역 자동 분리기술의 부재를 극복하기 위해 새로운 행동인식 기술을 제안, 즉 신호의 정보를 다량의 기초신호들의 집합(사전, dictionary)으로부터 추출된 매우 적은 기초신호들(원소, atom)의 선형조합으로 표현하는 희소표현(sparse representation)의 특징을 이용한다. 여기에서, 배경 영역과 행동 영역의 분리기술은 배경 빼기, 움직임 기반 물체 분리 등과 같은 기법을 통해 이루어질 수 있다.That is, the present invention proposes a new behavior recognition technique to overcome the absence of a high-performance area automatic separation technique, that is, to provide information of a signal to very small base signals (elements) extracted from a large set of basic signals , atom) as a linear combination of sparse representation is used. Here, the technique of separating the background region and the action region can be achieved by techniques such as background subtraction, motion-based object separation, and the like.

그리고, 행동 특징 추출부(112)는 영역 분리부(111)로부터 전달되는 분리된 행동 영역으로부터 행동 특징을 추출하는 등의 기능을 제공할 수 있으며, 이를 통해 추출되는 행동 특징으로 학습 영상의 행동 영역 사전(114)을 구축하는 등의 기능을 제공할 수 있다.The behavior feature extraction unit 112 may provide a function of extracting a behavior feature from a separated behavior area transmitted from the region separation unit 111. The behavior feature extracted by the feature feature extraction unit 112 may include, It is possible to provide a function of constructing the dictionary 114 and the like.

또한, 배경 특징 추출부(113)는 영역 분리부(111)로부터 전달되는 분리된 배경 영역으로부터 배경 특징을 추출하는 등의 기능을 제공할 수 있으며, 이를 통해 추출되는 배경 특징으로 학습 영상의 배경 영역 사전(115)을 구축하는 등의 기능을 제공할 수 있다.The background feature extraction unit 113 may provide a function of extracting a background feature from a separated background area transmitted from the region separation unit 111. The background feature extracted by the feature extraction unit 113 may include a background area It is possible to provide a function of constructing the dictionary 115 and the like.

즉, 본 발명은 분류 단계에서 입력 영상(시험용 비디오)의 행동 영역 크기 및 위치를 알지 못하더라도 학습 단계에서는 학습 영상들의 행동 영역 크기 및 위치를 이용하여 사전(dictionary)을 구성할 수 있다는 장점을 활용한다.That is, even if the size and position of the action area of the input image (test video) are not known in the classification step, the present invention utilizes the advantage that a dictionary can be constructed using the size and position of the action area of the learning images in the learning step do.

예컨대, 시험 단계에서 적절한 영역 분리 기술의 부재를 극복할 수 있도록 행동 영역 사전과 배경 영역 사전으로 분할 구성된 희소표현 기반의 행동 인식용 사전 구성 방법을 제시한다. 여기에서, 행동 영역 사전은 입력 영상(시험용 비디오)의 분할되지 않은 행동 영역의 특징을 표현하고, 배경 영역 사전은 입력 영상(시험용 비디오)의 배경 영역의 특징을 표현하는 데 사용된다. 이런 방법으로 시험용 비디오의 행동 및 배경 정보의 직관전 분리가 가능하기 때문에 배경 정보 적응형 분류법을 적용하여 분류 성능을 보다 향상시킬 수 있다.For example, we propose a preconfiguration method for behavior recognition based on rare expressions that is divided into a behavioral domain dictionary and a background domain dictionary to overcome the absence of an appropriate domain separation technique in the testing phase. Here, the behavior area dictionary expresses the characteristic of the non-divided behavioral area of the input image (test video), and the background area dictionary is used to express the characteristic of the background area of the input image (test video). In this way, it is possible to separate the behavioral and background information of the test video before intuition, so that the classification performance can be improved by applying the background information adaptive classification method.

그리고, 배경 분리 이후에 인간의 행동 특성을 묘사하는 특징들이 추출되는데, 이러한 특징들은 추출된 지역적 특성에 따라 전역 특징과 지역특징으로 나눌 수 있다.Then, after the background separation, the features describing human behavior characteristics are extracted. These features can be divided into global features and regional features according to the extracted regional characteristics.

여기에서, 전역 특징은 2차원 프레임을 시간 축에 따라 연결한 시공간 볼륨 전체의 특성을 이용, 예컨대 MHI(Motion History Image)를 생성하여 전역 특징을 추출할 수 있다. 그리고, MHI에서의 픽셀값(intensity)은 그 지점의 움직임 시간적 변화(history)의 함수로 얻거나 혹은 배경이 정적이거나 또는 그 객체의 움직임이 카메라에 의한 동작이나 산만한 움직임으로부터 분리 가능하다. 전역 특징에 기반한 인간 행동 인식 방법들은 배경의 모션 노이즈, 시점의 변화와 겹침 등에 민감하다. 반면에, 지역 특징들은 배경의 변화, 겹침, 회전 그리고 비율의 변화에도 매우 강인하지만, 특징들간 공간적 관계를 표현하지 못하기 때문에 행동 전체를 모두 포착하지는 못한다.Here, the global feature can extract a global feature using, for example, a motion history image (MHI) using the characteristics of the entire space-time volume in which the two-dimensional frame is connected along the time axis. And the pixel intensity at MHI can be obtained as a function of the temporal movement of the point, or the background is static, or the motion of the object can be separated from motion or distracting motion by the camera. Human behavior recognition methods based on global features are sensitive to motion noise, background changes and overlaps in the background. On the other hand, regional features are very robust to background changes, overlapping, rotation, and ratio changes, but they do not capture all of the behavior because they can not express spatial relationships between features.

희소표현(Sparse Representation)은 입력신호를 사전(dictionary)에 있는 베이스 신호들(atoms)의 선형조합으로 표현하는 것을 목적으로 하는데, 이 선형조합은 일반적으로 대부분의 원소가 0으로 구성된 희소 계수 벡터(sparse coefficient vector)의 형태를 갖는다. 이러한 희소표현은 신호 획득과 압축 분야 뿐만 아니라 신호 분류, 문자 분류 및 얼굴 인식 등과 같은 컴퓨터비전 분야에도 유용하게 사용된다. 다음은 보다 정형화된 SR 기반의 신호 분류에 대한 설명이다.The Sparse Representation aims to represent the input signal as a linear combination of the base signals (atoms) in a dictionary, which is typically a sparse coefficient vector with most elements consisting of zeros sparse coefficient vector). These rare expressions are useful not only for signal acquisition and compression but also for computer vision such as signal classification, character classification, and face recognition. The following is a description of a more formal SR-based signal classification.

Figure 112014035306321-pat00001
i 번째 행동에 속하는 j 번째 학습용 영상의 특징 벡터를 뜻한다. 일반적인 SR을 사용함에 있어서, 시험용 비디오를 표현할 때 사용되는 사전 D는 다음의 수학식 1과 같이 정의될 수 있다.
Figure 112014035306321-pat00001
Is the feature vector of the jth training image belonging to the i- th action. In using a general SR, a dictionary D used for expressing a test video can be defined as the following Equation 1: " (1) "

[수학식 1][Equation 1]

Figure 112014035306321-pat00002
Figure 112014035306321-pat00002

위의 수학식 1에서 N i K 는 i번째 행동 분류에 속하는 학습용 영상(비디오) 수와 총 행동 분류의 수를 각각 의미하며, d는 영상의 행동을 표현하는 특징 벡터의 차원을, N은 총 학습용 비디오 수를 뜻한다(즉, 모든 행동 분류 별 학습용 비디오 수의 합). 주어진 사전 D를 이용하여 시험용 비디오(입력 비디오) V의 특징벡터 y를 다음의 수학식 2와 같이 표현할 수 있다.In the above equation (1), N i and K denote the number of learning images (video) and the total number of behavior classifications belonging to the i-th behavior classification, d denotes the dimension of the feature vector representing the behavior of the image, (Ie, the sum of the number of videos for learning by all behavior categories). The feature vector y of the test video (input video) V can be expressed by the following equation (2) using the given dictionary D.

[수학식 2]&Quot; (2) "

Figure 112014035306321-pat00003
Figure 112014035306321-pat00003

위의 수학식 2에서

Figure 112014035306321-pat00004
는 V의 희소 선형 표현을 나타낸다. 또한
Figure 112014035306321-pat00005
는 i번째 행동 분류의 j번째 학습용 비디오와 관련된 희소계수 값을 의미한다. 희소계수 X를 이용하여 다음의 수학식 3에서와 같이 각 행동 분류의 잔류 오차(residual error)를 연산할 수 있다.In Equation (2)
Figure 112014035306321-pat00004
Represents a sparse linear representation of V. Also
Figure 112014035306321-pat00005
Is the sparse coefficient value associated with the jth learning video of the i-th behavior classification. The residual error of each behavior classification can be calculated by using the scarcity factor X as shown in the following Equation 3. " (3) "

[수학식 3]&Quot; (3) "

Figure 112014035306321-pat00006
Figure 112014035306321-pat00006

위의 수학식 3에서,

Figure 112014035306321-pat00007
는 i번째 행동의 잔류오차를 의미하고
Figure 112014035306321-pat00008
는 X에서 i번째 행동 분류에 해당하는 원소들만 0이 아닌 값을 갖는 신규벡터를 나타낸다. 위 과정을 통해 최소 잔류 오차를 갖는 행동으로 시험용 비디오 V를 분류할 수 있다.In the above equation (3)
Figure 112014035306321-pat00007
Denotes the residual error of the i-th action
Figure 112014035306321-pat00008
Represents a new vector having a non-zero value only in the elements corresponding to the i-th behavior classification in X. Through the above procedure, we can classify the test video V into behavior with minimum residual error.

즉, 본 발명에 따르면, 학습 단계에서는 학습용 비디오들을 행동 영역 분리형(Action region-aware) 사전의 구성에 사용하고 시험 단계에서는 시험용 비디오에 표현된 행동을 구성된 사전을 활용하여 분류한다.That is, according to the present invention, learning videos are used for constructing an action region-aware dictionary (action region-separated), and in the test stage, behaviors expressed in the test video are classified using a dictionary configured.

예컨대, 분류 과정에서 시험용 비디오의 행동 영역 크기 및 위치를 모르지만 학습용 비디오들의 정확한 행동 영역 크기 및 위치는 알 수 있다. 이런 관찰에 기반하여 일례로서 도 5a 및 5b에 도시된 바와 같이 행동 영역 사전과 배경 영역 사전으로 분리된 사전 구성 방법을 제시하는데, 이러한 두 사전(배경 영역 사전 및 행동 영역 사전)은 다음의 수학식 4 및 5와 같이 표현될 수 있다.For example, in the classification process, the size and position of the action area of the test video is unknown, but the exact action area size and position of the learning videos are known. Based on such an observation, a pre-construction method separated by a behavior area dictionary and a background area dictionary as shown in FIGS. 5A and 5B is presented. These two dictionaries (background area dictionary and action area dictionary) 4 and 5, respectively.

즉, 도 5a는 학습용 영상들의 예시를, 도 5b는 학습용 영상들로부터 분리한 배경 영역들과 행동 영역들의 예시를, 도 5c는 행동 역역 분리형 사전을 각각 나타낸다.That is, FIG. 5A shows an example of learning images, FIG. 5B shows an example of background areas and action areas separated from learning images, and FIG. 5C shows a behavioral deconvolution dictionary.

[수학식 4]&Quot; (4) "

Figure 112014035306321-pat00009
Figure 112014035306321-pat00009

[수학식 5]&Quot; (5) "

Figure 112014035306321-pat00010
Figure 112014035306321-pat00010

위의 수학식에서

Figure 112014035306321-pat00011
Figure 112014035306321-pat00012
는 i번째 행동 분류의 j번째 학습용 비디오의 배경 특징 벡터와 행동 특징 벡터를 각각 의미한다. 또한
Figure 112014035306321-pat00013
Figure 112014035306321-pat00014
는 배경 영역과 행동 영역을 표현하는 사전을 각각 뜻한다.In the above equation
Figure 112014035306321-pat00011
Wow
Figure 112014035306321-pat00012
Is a background feature vector and a behavior feature vector of the jth learning video of the i-th behavior classification, respectively. Also
Figure 112014035306321-pat00013
Wow
Figure 112014035306321-pat00014
Refers to a dictionary representing a background region and a behavior region, respectively.

이를 이용하여 행동 영역 분리형 사전을 다음의 수학식 6과 같이 정의할 수 있다.Using this, the behavioral domain separation type dictionary can be defined as the following Equation (6).

[수학식 6]&Quot; (6) "

Figure 112014035306321-pat00015
Figure 112014035306321-pat00015

즉, 상기한 수학식 6의 사전 시험용 비디오의 배경 영역과 행동 영역의 정보를 두 개의 분리된 사전으로 표현함으로써, 시험 단계에서 시험용 비디오의 배경 영역에서 추출한 정보와 행동 영역에서 추출한 정보를 자동으로 분리해낼 수 있다.That is, by expressing the background region and the behavior region information of the preliminary test video of Equation (6) as two separate dictionaries, the information extracted from the background region of the test video and the information extracted from the action region are automatically separated I can do it.

다시 도 1을 참조하면, 행동 인식 모듈(120) 내 입력 특징 추출부(122)는 입력 영상(시험용 비디오)으로부터 특징을 추출하여 특징 적응부(124)로 전달하는 등의 기능을 제공할 수 있다.Referring again to FIG. 1, the input feature extraction unit 122 in the behavior recognition module 120 may provide a function of extracting a feature from an input image (test video) and transmitting it to the feature adaptation unit 124 .

그리고, 특징 적응부(124)는 입력 특징 추출부(122)로부터 전달되는 시험용 비디오(입력 영상)의 특징을 배경 영역 사전(115)으로 구축된 학습용 비디오(학습 영상)의 배경 특징에 적응시킴으로써 배경 유용도를 검출, 즉 행동 분류의 배경 영역 및 행동 영역과 관계된 희소계수의 최대 집중도의 측정 결과에 의거하여 배경 정보가 유용한지의 여부를 검출하고, 검출된 배경 유용도가 기 설정된 기준 임계값을 충족시키는 지의 여부를 판단하며, 그 판단 결과를 행동 인식부(126)로 전달하는 등의 기능을 제공할 수 있다.The characteristic adaptation unit 124 adapts the characteristic of the test video (input image) transmitted from the input feature extraction unit 122 to the background feature of the learning video (learning image) constructed in the background area dictionary 115, Detection of usefulness, that is, whether or not background information is useful based on the measurement result of the maximum concentration of sparse coefficients related to the background area and the behavior area of the behavior classification, and if the detected background usefulness meets a preset reference threshold value And transmits a result of the determination to the behavior recognition unit 126. [0051]

다음에, 행동 인식부(126)는 특징 적응부(124)로부터 배경 유용도가 기준 임계값을 충족시키는 것으로 통지될 때, 행동 영역 사전(114)의 행동 특징과 배경 영역 사전(115)의 배경 특징에 기반하여 입력 영상(시험용 비디오)의 행동을 인식하고, 그 행동 인식의 결과로서 생성되는 행동 인식 레벨 값(즉, 가상 코드를 이용하여 표현되는 행동 분류명(lable))을 출력하는 등의 기능을 제공할 수 있다.Next, the behavior recognition unit 126 acquires the behavior characteristics of the behavior area dictionary 114 and the background of the background area dictionary 115 when the background usefulness is notified from the feature adaptation unit 124 that the reference threshold satisfies the reference threshold value A function of recognizing a behavior of an input image (test video) based on a feature and outputting a behavior recognition level value (that is, a behavior classification name expressed using a virtual code) generated as a result of the behavior recognition Can be provided.

또한, 행동 인식부(126)는 특징 적응부(124)로부터 배경 유용도가 기준 임계값을 충족시키지 못하는 것으로 통지될 때, 행동 영역 사전(114)의 행동 특징에 기반하여 입력 영상(시험용 비디오)의 행동을 인식하고, 그 행동 인식의 결과로서 생성되는 행동 인식 레벨 값(즉, 가상 코드를 이용하여 표현되는 행동 분류명(lable))을 출력하는 등의 기능을 제공할 수 있다.In addition, when the behavior recognition unit 126 is notified from the feature adaptation unit 124 that the background availability degree does not satisfy the reference threshold value, the behavior recognition unit 126 acquires the input image (test video) based on the behavior characteristics of the behavior area dictionary 114, And outputting a behavior recognition level value (that is, a behavior classification name expressed using a virtual code) generated as a result of the behavior recognition.

보다 상세하게, 행동영역 분리형 사전 D와 시험용 비디오 V의 특징 벡터 y가 주어지면, y의 희소표현은 다음과 같다.More specifically, given the behavior vector separating type dictionary D and the feature vector y of the test video V, the rare expression of y is as follows.

[수학식 7]&Quot; (7) "

Figure 112014035306321-pat00016
Figure 112014035306321-pat00016

여기에서,

Figure 112014035306321-pat00017
Figure 112014035306321-pat00018
는 각각 V의 배경과 행동영역을 표현하는 희소선형 표현을 의미한다. 또한
Figure 112014035306321-pat00019
Figure 112014035306321-pat00020
는 i번째 행동 분류의 j번째 학습용 비디오의 배경 영역 및 행동 영역과 관련된 희소계수를 뜻한다.From here,
Figure 112014035306321-pat00017
Wow
Figure 112014035306321-pat00018
Represents a sparse linear representation representing the background and behavioral region of V, respectively. Also
Figure 112014035306321-pat00019
Wow
Figure 112014035306321-pat00020
Is the sparse coefficient associated with the background area and the action area of the jth learning video of the i-th behavior classification.

도 6a는 다이빙의 시험용 비디오로부터 구한 희소계수 분포 그래프를, 도 6b는 골프 스윙의 예시 영상으로부터 구한 희소계수 분포 그래프를 각각 보여준다.FIG. 6A shows a sparse coefficient distribution graph obtained from a test video for a dive, and FIG. 6B shows a sparse coefficient distribution graph obtained from an example image of a golf swing.

도 6a를 참조하면 다이빙의 시험용 비디오의 배경에 해당하는 희소계수들은 정분류(ture class-class 1) 구간에 집중되어 있는데, 이는 다이빙(diving)의 배경 영역이 다른 행동들의 배경 영역과 구분된다는 것을 의미한다.Referring to FIG. 6A, the sparse coefficients corresponding to the background of the test video for the dive are concentrated in a ture class-class 1 interval, which indicates that the background area of the diving is different from the background area of other behaviors it means.

반면에, 골프 스윙의 시험용 비디오의 배경에 해당하는 희소계수들은, 도 6b에 도시된 바와 같이, 여러 분류에 걸쳐 퍼져 있음을 알 수 있는데, 이는 골프 스윙(golf swing)의 배경이 킥킹(kicking), 라이딩(riding), 워킹(walking) 등의 배경과 유사함에 기인한다는 것을 의미한다.On the other hand, it can be seen that the sparse coefficients corresponding to the background of the test video of the golf swing are spread over several categories, as shown in Figure 6b, because the background of the golf swing is kicking, Riding, walking, and so on.

이러한 관찰을 통해 배경 영역의 희소계수가 정분류 구간에 집중되어 있을 경우 배경 영역 정보가 행동 분류에 효과적일 수 있다는 것을 알 수 있으며, 이러한 근거에 기반하여 배경 적응형 분류(context adaptive classification) 기법을 제시한다.This observation suggests that the background region information may be effective for behavior classification when the sparse coefficients of the background region are concentrated in the normal classification region. Based on this evidence, the context adaptive classification technique present.

그리고, 분류 과정에서 배경 정보를 고려하기 위해, 희소계수의 집중도를 측정해야 하는데, 이를 위해 다음의 수학식 8과 같이 정의되는 최대 희소계소 집중도(MSCC)를 이용할 수 있다.In order to consider the background information in the classification process, it is necessary to measure the concentration of the sparse coefficients. For this, the maximum sparse matrix concentration (MSCC) defined by the following equation (8) can be used.

[수학식 8]&Quot; (8) "

Figure 112014035306321-pat00021
Figure 112014035306321-pat00021

즉, 상기한 수학식 8이 주어지면, 다음의 수학식 9의 기준에 따라 배경 정보가 행동 분류에 사용 가능한지의 여부(배경 정보의 유용 여부)를 결정할 수 있다.That is, given Equation (8), it can be determined whether background information can be used for behavioral classification (availability of background information) according to the criterion of Equation (9).

[수학식 9]&Quot; (9) "

Figure 112014035306321-pat00022
Figure 112014035306321-pat00022

상기한 수학식 9에서,

Figure 112014035306321-pat00023
는 임계값이며, 본 발명에서는 수학식 9의 값이 참일 경우에만 배경 정보가 유용한 것으로 판단하는데, 이것은 배경 정보가 유용하지 않을 경우, 시험용 비디오의 배경 영역에 해당하는 희소계수들은 시험용 비디오의 행동 영역과 관계된 희소계수들보다 집중도가 낮다는 근거에 기반한다.In the above Equation 9,
Figure 112014035306321-pat00023
In the present invention, it is determined that the background information is useful only when the value of Equation (9) is true. If the background information is not useful, the sparse coefficients corresponding to the background region of the test video are divided into the action region Based on the fact that the concentration is lower than the scarcity coefficients associated with.

통상적인 희소표현에 기반한 분류 기법은 잔류 오차를 이용하는데, 배경 영역과 행동 영역의 잔류 오차를 균형적으로 이용하는 것이 어렵다는 점을 고려하여, 본 발명은 구해진 희소계수의 집중도를 이용하여 행동을 분류하는 새로운 기법을 제시한다.In view of the fact that it is difficult to use the residual error of the background region and the behavior region in a balanced manner, the classification scheme based on the conventional rare expression classifies the behavior using the obtained degree of concentration of the sparse coefficients Present a new technique.

즉, 전술한 수학식 7의 희소해를 구하면, 각 행동 분류 i의 희소계수의 집중도를 다음의 수학식 10 및 11과 같이 구할 수 있다.That is, when the rare solution of the above-described formula (7) is obtained, the concentration degree of the sparse coefficient of each behavioral classification i can be obtained by the following equations (10) and (11).

[수학식 10]&Quot; (10) "

Figure 112014035306321-pat00024
Figure 112014035306321-pat00024

[수학식 11]&Quot; (11) "

Figure 112014035306321-pat00025
Figure 112014035306321-pat00025

위의 수학식 10과 11에서,

Figure 112014035306321-pat00026
Figure 112014035306321-pat00027
는 각각 i번째 행동 분류의 배경 영역과 행동 영역과 관계된 희소계수의 집중도를 뜻한다. 따라서, 수학식 10과 11의 결과를 이용하여 시험용 비디오 V를, 아래의 수학식 12에서와 같이, 희소계수의 최대 집중도가 나타나는 행동으로 분류할 수 있다.In the above Equations 10 and 11,
Figure 112014035306321-pat00026
Wow
Figure 112014035306321-pat00027
Is the concentration of the sparse coefficients associated with the background and behavioral regions of the i-th behavioral classification, respectively. Therefore, by using the results of Equations 10 and 11, the test video V can be classified as a behavior in which the maximum concentration of the sparse coefficients appears, as shown in Equation 12 below.

[수학식 12]&Quot; (12) "

Figure 112014035306321-pat00028
Figure 112014035306321-pat00028

위의 수학식 12에서, w 는 가중치로서, 전술한 수학식 9의 결과가 거짓일 때(즉, 배경 정보가 유용하지 않을 경우) 0의 값을, 식(9)의 결과가 참일 때(즉, 배경 정보가 유용할 경우) 0.5의 값을 갖는다.In Equation (12), w denotes a weight, and a value of 0 when the result of Equation (9) is false (that is, when background information is not useful) , And when the background information is useful).

다음에, 상술한 바와 같은 구성을 갖는 본 발명의 행동 인식 장치를 이용하여 희소 표현 기반으로 인간의 행동을 인식하는 일련의 과정들에 대하여 상세하게 설명한다.Next, a series of processes for recognizing human behavior based on the rare expression using the behavior recognition apparatus of the present invention having the above-described configuration will be described in detail.

도 2는 본 발명의 실시 예에 따라 학습 영상을 행동 영역과 배경 영역으로 분리하여 행동 영역 사전과 배경 영역 사전을 구축하는 주요 과정을 도시한 순서도이다.FIG. 2 is a flowchart illustrating a main process of constructing a behavior area dictionary and a background area dictionary by dividing a learning image into a behavior area and a background area according to an embodiment of the present invention.

도 2를 참조하면, 영역 분리부(111)에서는, 일례로서 도 4a에 도시된 바와 같은 학습 영상(학습용 비디오)이 입력되면(단계 202), 예컨대 배경 빼기, 움직임 기반 물체 분리 등과 같은 기법을 적용함으로써, 도 4b 및 4c에 각각 도시된 바와 같이, 배경 영역과 행동 영역으로 분리하며(단계 204), 행동 영역을 행동 특징 추출부(112)로, 배경 영역을 배경 특징 추출부(113)로 각각 전달한다.Referring to FIG. 2, when a learning image (learning video) as shown in FIG. 4A is input as an example (step 202), a technique such as background subtraction, motion-based object separation, 4B and 4C, the background region and the behavior region are separated (Step 204), and the behavior region is transferred to the behavior feature extraction section 112 and the background region to the background feature extraction section 113, respectively .

다음에, 행동 특징 추출부(112)에서는 분리된 행동 영역으로부터 인간의 행동 특성을 묘사하는 행동 특징들을 추출하고, 배경 특징 추출부(113)에서는 분리된 배경 영역으로부터 배경 특징을 추출한다(단계 206).Next, the behavior feature extraction unit 112 extracts behavior characteristics describing a behavior characteristic of a person from the separated behavior area, and the background feature extraction unit 113 extracts background features from the separated background area (step 206 ).

이후, 추출된 행동 특징들로 학습 영상(학습용 비디오)의 행동 영역 사전(114)을 구축하고, 추출된 배경 특징들로 학습 영상(학습용 비디오)의 배경 영역 사전(115)을 구축한다(단계 208).Then, the action area dictionary 114 of the learning image (learning video) is constructed with the extracted behavior characteristics, and the background area dictionary 115 of the learning image (learning video) is constructed with the extracted background features (step 208 ).

상술한 바와 같이 학습 영상을 배경 영역과 행동 영역으로 분리하여 구축한 행동 영역 분리형 사전을 이용하여 행동 비디오(시험 비디오)로부터 인간의 행동을 인식하는 일련의 과정들에 대하여 설명한다.As described above, a series of processes for recognizing human behavior from a behavioral video (test video) using a behavioral domain separation dictionary constructed by dividing a learning image into a background region and a behavioral region will be described.

도 3은 본 발명의 실시 예에 따라 학습 영상의 배경 특징과 행동 특징에 기반하여 인간의 행동을 인식하거나 혹은 학습 영상의 행동 특징에 기반하여 인간의 행동을 인식하는 주요 과정을 도시한 순서도이다.3 is a flowchart illustrating a main process of recognizing human behavior based on background features and behavior characteristics of a learning image or recognition of human behavior based on behavior characteristics of a learning image according to an embodiment of the present invention.

도 3을 참조하면, 행동 인식 모듈(120) 내 입력 특징 추출부(122)에서는 입력 영상(시험용 비디오)이 입력되면(단계 302), 입력 영상으로부터 특징을 추출하여 특징 적응부(124)로 전달한다(단계 304).3, the input feature extracting unit 122 in the behavior recognizing module 120 extracts features from the input image (test video) (step 302) and transmits the extracted features to the feature adapting unit 124 (Step 304).

다음에, 특징 적응부(124)에서는 전달되는 시험용 비디오(입력 영상)의 특징을 배경 영역 사전(115)으로 구축된 학습용 비디오(학습 영상)의 배경 특징에 적응시킴으로써 배경 유용도를 검출한다(단계 306). 즉, 배경 정보가 유용한지의 여부를 검출하며, 이후 검출된 배경 유용도가 기 설정된 기준 임계값을 충족시키는 지의 여부를 판단한다(단계 308). 여기에서, 배경 유용도는, 예컨대 행동 분류의 배경 영역 및 행동 영역과 관계된 희소계수의 최대 집중도에 기반하여 검출될 수 있다.Next, the feature adaptation unit 124 detects the background availability degree by adapting the characteristics of the test video (input image) transmitted to the background feature of the learning video (learning image) constructed in the background area dictionary 115 306). That is, it is detected whether background information is useful, and then it is determined whether or not the detected background availability satisfies a preset reference threshold value (step 308). Here, the background usefulness can be detected based on, for example, the background region of the behavior classification and the maximum concentration of the sparse coefficients associated with the behavioral region.

상기 단계(308)에서의 판단 결과, 검출된 배경 유용도가 기 설정된 기준 임계값을 충족시키는 것으로 판단되면, 행동 인식부(126)에서는 행동 영역 사전(114)의 행동 특징과 배경 영역 사전(115)의 배경 특징에 기반하여 입력 영상(시험용 비디오)의 행동을 인식하고(단계 310), 그 행동 인식의 결과로서 생성되는 행동 인식 레벨 값을 출력한다(단계 314).If it is determined in step 308 that the detected background usability satisfies the preset reference threshold value, the behavior recognizing unit 126 recognizes the behavior characteristics of the behavior area dictionary 114 and the background area dictionary 115 (Step 310), and outputs a behavior recognition level value (step 314) that is generated as a result of the behavior recognition based on the background feature of the input image (test video).

상기 단계(308)에서의 판단 결과, 검출된 배경 유용도가 기 설정된 기준 임계값을 충족시키지 못하는 것으로 판단되면, 행동 인식부(126)에서는 행동 영역 사전(114)의 행동 특징에 기반하여 입력 영상(시험용 비디오)의 행동을 인식하고(단계 312), 그 행동 인식의 결과로서 생성되는 행동 인식 레벨 값을 출력한다(단계 314).If it is determined in step 308 that the detected background usability does not satisfy the preset reference threshold value, the behavior recognizing unit 126 recognizes that the input usability of the input image (Test video) (step 312), and outputs a behavior recognition level value that is generated as a result of the behavior recognition (step 314).

이상의 설명은 본 발명의 기술사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경 등이 가능함을 쉽게 알 수 있을 것이다. 즉, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것으로서, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다.It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the present invention as defined by the following claims. It is easy to see that this is possible. That is, the embodiments disclosed in the present invention are not intended to limit the scope of the present invention but to limit the scope of the present invention.

따라서, 본 발명의 보호 범위는 후술되는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Therefore, the scope of protection of the present invention should be construed in accordance with the following claims, and all technical ideas within the scope of equivalents should be interpreted as being included in the scope of the present invention.

Claims (12)

학습 영상의 행동 특징을 행동 영역 사전으로 구축하고, 상기 학습 영상의 배경 특징을 배경 영역 사전으로 구축하는 과정과,
입력 영상으로부터 특징을 추출하는 과정과,
추출된 상기 특징을 상기 배경 영역 사전의 배경 특징에 적응시켜 배경 유용도를 검출하는 과정과,
검출된 상기 배경 유용도가 기준 임계값을 충족시킬 때, 상기 학습 영상의 배경 특징과 행동 특징에 기반하여 상기 입력 영상의 행동을 인식하는 과정과,
산출된 상기 배경 유용도가 상기 기준 임계값을 충족시키지 못할 때, 상기 학습 영상의 행동 특징에 기반하여 상기 입력 영상의 행동을 인식하는 과정
을 포함하는 희소 표현 기반의 행동 인식 방법.
Constructing a behavior feature of the learning image as a behavior area dictionary and constructing a background feature of the learning image as a background area dictionary,
Extracting features from an input image,
Detecting a background availability degree by adapting the extracted feature to a background feature of the background region dictionary;
Recognizing a behavior of the input image based on a background feature and a behavior feature of the learning image when the detected background usefulness satisfies a reference threshold value;
Recognizing a behavior of the input image based on a behavior characteristic of the learning image when the calculated background usefulness does not satisfy the reference threshold value
Based on the behavior of the user.
제 1 항에 있어서,
상기 학습 영상은,
배경 빼기 또는 움직임 기반의 물체 분리 기법을 통해 상기 행동 영역과 배경 영역으로 분리되는
희소 표현 기반의 행동 인식 방법.
The method according to claim 1,
The learning image includes:
Background subtraction, or motion-based object separation techniques.
A Rare Representation Based Behavior Recognition Method.
제 1 항에 있어서,
상기 구축하는 과정은,
상기 학습 영상을 행동 영역과 배경 영역으로 분리하는 과정과,
분리된 상기 행동 영역과 배경 영역으로부터 행동 특징과 배경 특징을 각각 추출하는 과정과,
추출된 상기 행동 특징을 상기 행동 영역 사전으로 구축하고, 추출된 상기 배경 특징을 상기 배경 영역 사전으로 구축하는 과정
을 포함하는 희소 표현 기반의 행동 인식 방법.
The method according to claim 1,
In the building process,
Dividing the learning image into a behavior area and a background area;
Extracting a behavior feature and a background feature from the separated behavioral region and background region,
Constructing the extracted behavior feature into the behavior area dictionary, and constructing the extracted background feature as the background area dictionary
Based on the behavior of the user.
제 1 항에 있어서,
상기 행동 특징은,
전역 특징과 지역 특징을 포함하는
희소 표현 기반의 행동 인식 방법.
The method according to claim 1,
The action feature may include:
Contains global and local features.
A Rare Representation Based Behavior Recognition Method.
제 4 항에 있어서,
상기 전역 특징은,
MHI(motion history image)를 이용하여 추출되는
희소 표현 기반의 행동 인식 방법.
5. The method of claim 4,
The global feature may include:
Extracted using a motion history image (MHI)
A Rare Representation Based Behavior Recognition Method.
제 1 항에 있어서,
상기 배경 유용도는,
행동 분류의 배경 영역 및 행동 영역과 관계된 희소계수의 최대 집중도에 기반하여 검출되는
희소 표현 기반의 행동 인식 방법.
The method according to claim 1,
The above-
Based on the maximum concentration of sparse coefficients associated with the background and behavioral areas of the behavioral classification
A Rare Representation Based Behavior Recognition Method.
학습 영상으로부터 추출한 행동 특징으로 된 행동 영역 사전과 상기 학습 영상으로부터 추출한 배경 특징으로 된 배경 영역 사전을 구축하는 사전 구축 수단과,
입력 영상으로부터 특징을 추출하는 입력 특징 추출부와,
추출된 상기 특징을 상기 배경 영역 사전의 배경 특징에 적응시켜 배경 유용도를 검출하는 특징 적응부와,
검출된 상기 배경 유용도가 기준 임계값을 충족시킬 때, 상기 행동 영역 사전의 행동 특징과 상기 배경 영역 사전의 배경 특징에 기반하여 상기 입력 영상의 행동을 인식하고, 검출된 상기 배경 유용도가 상기 기준 임계값을 충족시키지 못할 때, 상기 행동 영역 사전의 행동 특징에 기반하여 상기 입력 영상의 행동을 인식하는 행동 인식부
를 포함하는 희소 표현 기반의 행동 인식 장치.
Dictionary building means for building a behavior region dictionary having behavior characteristics extracted from the learning image and a background region dictionary having a background feature extracted from the learning image,
An input feature extraction unit for extracting a feature from an input image;
A feature adaptation unit adapted to adapt the feature extracted to the background feature of the background region dictionary to detect the background usability,
Recognizing a behavior of the input image based on a behavior feature of the behavior area dictionary and a background feature of the background area dictionary when the detected background usefulness satisfies a reference threshold value, A behavior recognition unit that recognizes a behavior of the input image based on a behavior characteristic of the behavior area dictionary when the reference threshold value is not satisfied,
Based on the behavior of the user.
제 7 항에 있어서,
상기 사전 구축 수단은,
상기 학습 영상을 행동 영역과 배경 영역으로 분리하는 영역 분리부와,
분리된 상기 행동 영역으로부터 상기 행동 특징을 추출하는 행동 특징 추출부와,
분리된 상기 배경 영역으로부터 상기 배경 특징을 추출하는 배경 특징 추출부와,
추출된 상기 행동 특징으로 구축되는 상기 행동 영역 사전과,
추출된 상기 배경 특징으로 구축되는 상기 배경 영역 사전
을 포함하는 희소 표현 기반의 행동 인식 장치.
8. The method of claim 7,
Wherein the pre-
An area separator for separating the learning image into a behavior area and a background area,
A behavior feature extraction unit for extracting the behavior feature from the separated behavioral region,
A background feature extraction unit for extracting the background feature from the separated background area;
The behavior area dictionary constructed with the extracted behavior feature,
The background region dictionary constructed with the extracted background feature
Based on the recognition result.
제 8 항에 있어서,
상기 영역 분리부는,
배경 빼기 또는 움직임 기반의 물체 분리 기법을 통해 상기 행동 영역과 배경 영역을 분리하는
희소 표현 기반의 행동 인식 장치.
9. The method of claim 8,
Wherein the region separator comprises:
A background subtraction or motion-based object separation technique separates the behavior area from the background area
A behavior recognition device based on rare expressions.
제 8 항에 있어서,
상기 행동 특징은,
전역 특징과 지역 특징을 포함하는
희소 표현 기반의 행동 인식 장치.
9. The method of claim 8,
The action feature may include:
Contains global and local features.
A behavior recognition device based on rare expressions.
제 10 항에 있어서,
상기 행동 특징 추출부는,
MHI(motion history image)를 이용하여 상기 전역 특징을 추출하는
희소 표현 기반의 행동 인식 장치.
11. The method of claim 10,
Wherein the behavior feature extraction unit comprises:
Extracting the global feature using a motion history image (MHI)
A behavior recognition device based on rare expressions.
제 7 항에 있어서,
상기 특징 적응부는,
행동 분류의 배경 영역 및 행동 영역과 관계된 희소계수의 최대 집중도에 기반하여 상기 배경 유용도를 검출하는
희소 표현 기반의 행동 인식 장치.
8. The method of claim 7,
The feature adaptation unit,
Detecting the background usefulness based on the background region of the behavior classification and the maximum concentration of the sparse coefficients associated with the behavioral region
A behavior recognition device based on rare expressions.
KR20140044202A 2014-04-14 2014-04-14 Action recognition method and apparatus based on sparse representation KR101512048B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20140044202A KR101512048B1 (en) 2014-04-14 2014-04-14 Action recognition method and apparatus based on sparse representation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20140044202A KR101512048B1 (en) 2014-04-14 2014-04-14 Action recognition method and apparatus based on sparse representation

Publications (1)

Publication Number Publication Date
KR101512048B1 true KR101512048B1 (en) 2015-04-15

Family

ID=53034644

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20140044202A KR101512048B1 (en) 2014-04-14 2014-04-14 Action recognition method and apparatus based on sparse representation

Country Status (1)

Country Link
KR (1) KR101512048B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017099292A1 (en) * 2015-12-11 2017-06-15 연세대학교 산학협력단 Object-activity relationship model-based activity recognition method and apparatus therefor
KR20190082593A (en) 2018-01-02 2019-07-10 중앙대학교 산학협력단 System and Method for Reidentificating Object in Image Processing
KR20190107401A (en) * 2018-03-12 2019-09-20 광주과학기술원 a Real-time Visual Anomaly Detection device and a method thereof
KR102319706B1 (en) * 2021-04-07 2021-11-16 비케이엠주식회사 Anomaly diagnosis apparatus for fuel cell system using fuel cell stack as sensor and anomaly diagnosis method thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016633A1 (en) 2010-07-16 2012-01-19 Andreas Wittenstein System and method for automatic detection of anomalous recurrent behavior

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016633A1 (en) 2010-07-16 2012-01-19 Andreas Wittenstein System and method for automatic detection of anomalous recurrent behavior

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Guha, Tanaya, and Rabab K. Ward. "Learning sparse representations for human action recognition." Pattern Analysis and Machine Intelligence, IEEE Transactions on 34.8 (2012): 1576-1588. *
Liu, Changhong, Yang Yang, and Yong Chen. "Human action recognition using sparse representation." ICIS 2009.Vol. 4. IEEE, 2009. *
Qiu, Qiang, Zhuolin Jiang, and Rama Chellappa. "Sparse dictionary-based representation and recognition of action attributes." Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011. *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017099292A1 (en) * 2015-12-11 2017-06-15 연세대학교 산학협력단 Object-activity relationship model-based activity recognition method and apparatus therefor
KR101758693B1 (en) * 2015-12-11 2017-07-19 연세대학교 산학협력단 Apparatus and Method of Behavior Recognition based on Object-Behavior Relation Model
KR20190082593A (en) 2018-01-02 2019-07-10 중앙대학교 산학협력단 System and Method for Reidentificating Object in Image Processing
US10825194B2 (en) 2018-01-02 2020-11-03 Chung Ang University Industry Academic Cooperation Foundation Apparatus and method for re-identifying object in image processing
KR20190107401A (en) * 2018-03-12 2019-09-20 광주과학기술원 a Real-time Visual Anomaly Detection device and a method thereof
KR102052649B1 (en) * 2018-03-12 2019-12-06 광주과학기술원 a Real-time Visual Anomaly Detection device and a method thereof
KR102319706B1 (en) * 2021-04-07 2021-11-16 비케이엠주식회사 Anomaly diagnosis apparatus for fuel cell system using fuel cell stack as sensor and anomaly diagnosis method thereof

Similar Documents

Publication Publication Date Title
Chung Naver at ActivityNet Challenge 2019--Task B Active Speaker Detection (AVA)
EP3092619B1 (en) Information processing apparatus and information processing method
Akmeliawati et al. Real-time Malaysian sign language translation using colour segmentation and neural network
US20200012923A1 (en) Computer device for training a deep neural network
CN111291190B (en) Training method of encoder, information detection method and related device
CN107909027B (en) Rapid human body target detection method with shielding treatment
CN110070029B (en) Gait recognition method and device
CN112673381B (en) Method and related device for identifying confrontation sample
EP3001354A1 (en) Object detection method and device for online training
KR101512048B1 (en) Action recognition method and apparatus based on sparse representation
CN107301376B (en) Pedestrian detection method based on deep learning multi-layer stimulation
JP2011248879A5 (en)
CN110796051A (en) Real-time access behavior detection method and system based on container scene
JP2016015045A (en) Image recognition device, image recognition method, and program
CN110827265B (en) Image anomaly detection method based on deep learning
Kalsh et al. Sign language recognition system
CN103902989A (en) Human body motion video recognition method based on non-negative matrix factorization
CN112487844A (en) Gesture recognition method, electronic device, computer-readable storage medium, and chip
Nanivadekar et al. Indian sign language recognition: database creation, hand tracking and segmentation
Algamdi et al. Learning temporal information from spatial information using CapsNets for human action recognition
CN111914676A (en) Human body tumbling detection method and device, electronic equipment and storage medium
Wang et al. A flame detection synthesis algorithm
WO2021259336A1 (en) Modal information complementation method, apparatus and device
CN110717407A (en) Human face recognition method, device and storage medium based on lip language password
CN115798055B (en) Violent behavior detection method based on cornersort tracking algorithm

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
LAPS Lapse due to unpaid annual fee