WO2021125521A1 - 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치 - Google Patents

순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치 Download PDF

Info

Publication number
WO2021125521A1
WO2021125521A1 PCT/KR2020/013782 KR2020013782W WO2021125521A1 WO 2021125521 A1 WO2021125521 A1 WO 2021125521A1 KR 2020013782 W KR2020013782 W KR 2020013782W WO 2021125521 A1 WO2021125521 A1 WO 2021125521A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature data
natural language
data
behavior recognition
target
Prior art date
Application number
PCT/KR2020/013782
Other languages
English (en)
French (fr)
Inventor
변혜란
이제욱
김호성
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of WO2021125521A1 publication Critical patent/WO2021125521A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Definitions

  • the present invention relates to a method for recognizing an action in an image using sequential sequence data and an apparatus therefor.
  • the research of the present invention is a deep learning-based semantic situation understanding source technology research (No. 2019-11-1088 / No. 1711116308) of the source technology development project, which was carried out with the support of the National Research Foundation with the funding of the Ministry of Science and ICT. related
  • the present invention provides a behavior recognition method using sequential feature data capable of recognizing unlearned behavior through an actual image by generating behavioral characteristic data for an image viewed for the first time based on a natural language vector and performing learning, and an apparatus therefor. Its main purpose is to provide
  • a behavior recognition learning method performed by a computing device comprising one or more processors and a memory for storing one or more programs executed by the processor for achieving the above object, obtaining a natural language vector natural language acquisition step; a natural language processing step of generating natural language feature data including at least one feature value by inputting a natural language vector; a generation processing step of generating source feature data of a source image and target feature data for classification based on the natural language feature data; and a discrimination processing step of processing classification for each of a sequence and a segment based on at least one of the source feature data, the natural language feature data, and the target feature data so that the behavior recognition of the object is performed.
  • a computing device comprising one or more processors and a memory for storing one or more programs executed by the processor for achieving the above object, obtaining a natural language vector natural language acquisition step; a natural language processing step of generating natural language feature data including at least one feature value by inputting a natural language vector; a generation processing step of generating source feature data of
  • a behavior recognition apparatus for achieving the above object, one or more processors; and a memory storing one or more programs executed by the processor, wherein when the programs are executed by the one or more processors, a natural language acquisition step of acquiring, in the one or more processors, a natural language vector; a natural language processing step of generating natural language feature data including at least one feature value by inputting a natural language vector; a generation processing step of generating source feature data of a source image and target feature data for classification based on the natural language feature data; and a discrimination processing step of processing classification for each of a sequence and a segment based on at least one of the source feature data, the natural language feature data, and the target feature data so that the behavior recognition of the object is performed. actions can be performed.
  • a behavior recognition method performed by a computing device comprising one or more processors for achieving the above object and a memory for storing one or more programs executed by the processor is a source that has never been seen It receives an image, determines a behavior by applying a first learning result of learning sequence feature data and a second learning result of learning segment feature data to the source feature data of the source image data, and outputs the determined behavior recognition result can do.
  • the present invention has the effect of performing behavior recognition by generating sequential data on behavior based on a natural language vector.
  • the present invention has the effect of improving behavior recognition performance by generating behavioral feature data based on a natural language vector to recognize a behavior (new behavior) that has not been seen during learning.
  • FIG. 1 is a view for explaining the problems of the prior art and the schematic operation characteristics of the present invention.
  • FIG. 2 is a block diagram schematically illustrating a behavior recognition apparatus according to an embodiment of the present invention.
  • FIG. 3 is a block diagram schematically illustrating an operation configuration for learning of a processor according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating a learning method for behavior recognition according to an embodiment of the present invention.
  • FIG. 5 is a block diagram schematically illustrating an operation configuration for behavior recognition of a processor according to an embodiment of the present invention.
  • FIG. 6 is a flowchart illustrating a behavior recognition method according to an embodiment of the present invention.
  • FIG. 7 is an exemplary diagram for explaining a learning operation of the behavior recognition apparatus according to an embodiment of the present invention.
  • FIG. 8 is an exemplary diagram for explaining an operation of generating feature data by processing an input image according to an embodiment of the present invention.
  • FIG. 9 is an exemplary diagram for explaining an operation of generating feature data by processing a natural language vector according to an embodiment of the present invention.
  • FIG. 10 is a diagram illustrating an operation configuration of an encoder according to an embodiment of the present invention.
  • FIG. 11 is a diagram illustrating an operation configuration of a discriminator according to an embodiment of the present invention.
  • the present invention generates sequential feature data 20 rather than the average of feature vectors in order not to lose time series information of the original video, and through this, an apparatus for improving the performance of recognizing an action seen for the first time and methods are proposed.
  • FIG. 2 is a block diagram schematically illustrating a behavior recognition apparatus according to an embodiment of the present invention.
  • the behavior recognition apparatus 100 includes an input unit 110 , an output unit 120 , a processor 130 , a memory 140 , and a database 150 .
  • the behavior recognition apparatus 100 of FIG. 2 is according to an embodiment, and not all blocks shown in FIG. 2 are essential components, and in another embodiment, some blocks included in the behavior recognition apparatus 100 are added or changed. Or it can be deleted. Meanwhile, the behavior recognition apparatus 100 may be implemented as a computing device, and each component included in the behavior recognition apparatus 100 may be implemented as a separate software device, or as a separate hardware device combined with software. can
  • the behavior recognition apparatus 100 receives a natural language vector as an input, and generates target characteristic data through a generator by inputting natural language characteristic data generated by giving sequential information to the natural language vector as an input, and a source through at least two discriminators interworking with the generator Source feature data, natural language feature data, target feature data, etc. of an image (original video) are classified and processed to recognize a behavior in an image viewed for the first time.
  • the input unit 110 means a means for inputting or obtaining a signal or data for performing a behavior recognition operation in the behavior recognition apparatus 100 .
  • the input unit 110 may interwork with the processor 130 to input various types of signals or data, or may obtain signals or data through interworking with an external device and transmit the signals or data to the processor 130 .
  • the input unit 110 may be implemented as a module for inputting a source image (original video), a natural language vector, a random variable, and the like, but is not limited thereto.
  • the output unit 120 may output various information such as a sequence learning result based on the feature data, a segment learning result based on the feature data, and a behavior recognition result in conjunction with the processor 130 .
  • the output unit 120 may output various information through a display (not shown) provided in the behavior recognition apparatus 100 , but is not limited thereto, and may perform output in various forms.
  • the processor 130 performs a function of executing at least one instruction or program included in the memory 140 .
  • the processor 130 performs machine learning based on the natural language vector and the source image obtained from the input unit 110 or the database 150, and the first image that is not previously learned based on the machine learning result Perform actions to recognize actions for
  • the processor 130 receives a source image and performs pre-processing based on the source image to generate source feature data.
  • the processor 130 receives a natural language vector as an input, provides sequential information to the natural language vector to generate natural language feature data, and generates target feature data by receiving the natural language feature data as an input.
  • the processor 130 processes classification for each of a sequence and a segment based on at least one of source feature data, natural language feature data, and target feature data to perform behavior recognition of an object.
  • the processor 130 processes the classification of the sequence using the source feature data and the target feature data to generate a first learning result.
  • the processor 130 processes the classification of the segment using the object combination data combining the source characteristic data, the natural language characteristic data, and the target characteristic data. generate a second learning result.
  • the processor 130 performs behavior recognition of an image that has not been input for the first time during learning based on the first learning result and the second learning result generated by processing the classification for each sequence and segment.
  • the memory 140 includes at least one instruction or program executable by the processor 130 .
  • the memory 140 is configured to generate source feature data, generate natural language feature data, generate target feature data, generate target combined data, process classification for sequences, and classify segments It may include an instruction or a program for an operation of processing and the like.
  • the memory 140 may include a command or program for an operation to apply a learning result, an operation to perform behavior recognition, and the like.
  • the database 150 refers to a general data structure implemented in the storage space (hard disk or memory) of a computer system using a database management program (DBMS), and performs data search (extraction), deletion, editing, addition, etc.
  • DBMS database management program
  • Relational database management system such as Oracle, Infomix, Sybase, DB2, Gemston, Orion
  • OODBMS object-oriented database management system
  • XML Native Database such as Excelon, Tamino, Sekaiju, etc. It can be implemented according to the requirements, and has appropriate fields or elements to achieve its function.
  • the database 150 may store data related to behavior recognition and provide pre-stored data related to behavior recognition.
  • the data stored in the database 150 include source images, feature data (eg, source feature data, natural language feature data, target feature data, target combination data, etc.), learning results (eg, first learning results, second learning results, behaviors, etc.) recognition learning results, etc.), behavior recognition results, and the like.
  • the database 140 is described as being implemented in the behavior recognition apparatus 100, but is not necessarily limited thereto, and may be implemented as a separate data storage device.
  • FIG. 3 is a block diagram schematically illustrating an operation configuration for learning of a processor according to an embodiment of the present invention.
  • the processor 130 included in the behavior recognition apparatus 100 performs an operation of recognizing a behavior in an image viewed for the first time based on machine learning.
  • the machine learning is preferably learning using a generative adversarial network (GAN), but is not necessarily limited thereto.
  • GAN generative adversarial network
  • the processor 130 included in the behavior recognition apparatus 100 receives a source image, performs pre-processing based on the source image to generate source feature data, receives input, a natural language vector, and sequential information is provided to the natural language vector. to generate natural language feature data, and a model that generates target feature data by inputting natural language feature data as an input, based on at least one of source feature data, natural language feature data, and target feature data. It enables an action to recognize a behavior that has never been seen based on a model that processes classification, etc., and can be mounted on any device that performs behavior recognition or can be linked with software that performs behavior recognition.
  • the processor 130 includes an image acquiring unit 310, a preprocessing unit 320, an image feature value processing unit 322, a natural language vector acquiring unit 330, an encoder 340, a first feature value processing unit ( 342 , a generator 350 , a second feature value processing unit 352 , and a discriminator 360 may be included.
  • the processor 130 of FIG. 3 is according to an embodiment, and not all blocks shown in FIG. 3 are essential components, and in other embodiments, some blocks included in the processor 130 may be added, changed, or deleted. have.
  • each component included in the processor 130 may be implemented as a separate software device, or may be implemented as a separate hardware device combined with software.
  • the image acquisition unit 310 performs an operation of acquiring a source image.
  • the source image refers to a video clip of a source video
  • the video clip may be composed of a plurality of image segments.
  • the image segment includes a plurality of motion vector image frames.
  • a difference image may be additionally included between motion vector image frames, and the difference image refers to an image generated through a difference between two adjacent motion vector image frames.
  • the preprocessor 320 generates source feature data for the source image by receiving the source image as an input.
  • the source feature data generated by the preprocessor 320 includes feature values for each of a plurality of segment units.
  • the preprocessor 320 may generate source feature data by performing pre-training for learning a convolutional neural network (CNN) on the source image.
  • CNN convolutional neural network
  • the image feature value processor 322 transmits the source feature data output from the preprocessor 320 to the discriminator 360 .
  • the image feature value processing unit 322 transmits the source feature data to the first discriminator 372 and the second discriminator 374 , respectively.
  • the image feature value processor 322 may be omitted when the preprocessor 320 directly transmits the source feature data to the discriminator 360 , or may be implemented in a form included in the preprocessor 320 .
  • the natural language vector acquisition unit 330 acquires a natural language vector corresponding to a preset condition.
  • the natural language vector refers to a vector generated based on natural language for a predetermined action without including time-series information.
  • the encoder 340 receives a natural language vector as an input and generates natural language feature data including at least one feature value.
  • the encoder 340 adds sequential information to a natural language vector, expands it into a plurality of vectors, and generates each of at least one feature value corresponding to each of the plurality of vectors.
  • the encoder 340 generates each of at least one feature value having a distribution on a normal distribution of the natural language vector by using at least one of the mean, standard deviation, and noise of the natural language vector.
  • the encoder 340 expands a natural language vector into a plurality of vectors based on a recurrent neural network (RNN), and each of the plurality of vectors including sequential information may be generated based on a vector generated at a previous time.
  • RNN recurrent neural network
  • the first feature value processing unit 342 transmits the natural language feature data output from the encoder 340 to the generator 350 .
  • the first feature value processing unit 342 may additionally combine a random variable (a random variable with respect to latent noise) to the natural language feature data and transmit it to the generator 350 .
  • the first feature value processing unit 342 may be omitted when the natural language feature data is directly transmitted from the encoder 340 to the generator 350 , or may be implemented in a form included in the encoder 340 .
  • the generator 350 generates source feature data of a source image and target feature data for classification based on the natural language feature data.
  • the generator 350 generates target feature data for a fake image based on the natural language feature data and a pre-generated random variable.
  • the generator 350 generates the target characteristic data through convolutional neural network (CNN) learning, but is not limited thereto.
  • CNN convolutional neural network
  • the generator 350 generates target feature data including at least one feature value.
  • the generator 350 generates the target feature data in the same number of segments as the natural language feature data.
  • the segment unit may be divided into respective feature values included in the target feature data.
  • the second feature value processing unit 352 transmits the target feature data output from the generator 350 to the discriminator 360 .
  • the second feature value processing unit 352 transmits the target feature data to the first discriminator 372 and the second discriminator 374 , respectively.
  • the second feature value processing unit 352 may be omitted or implemented in a form included in the generator 350 .
  • the discriminator 360 processes classification for each of a sequence and a segment based on at least one of source feature data, natural language feature data, target feature data, and the like, so that behavior recognition of an object is performed.
  • the discriminator 360 according to the present embodiment includes a first discriminator 372 and a second discriminator 374 .
  • the first discriminator 372 performs an operation of processing classification for a sequence using the target feature data and the source feature data.
  • the first discriminator 372 may receive the target characteristic data and the source characteristic data, and determine whether the target characteristic data is authentic or not.
  • the first discriminator 372 compares source feature data combining a plurality of source feature values including sequential information with target feature data combining a plurality of target feature values including sequential information to determine the authenticity of the target feature data. Outputs the first learning result of learning whether or not.
  • the first discriminator 372 transmits feedback information to the generator 350 that generates target feature data based on the first learning result, and compares the source feature data with the target feature data so that the target feature data corresponds to a true signal. It is possible to learn whether the target feature data is authentic or not.
  • the first discriminator 372 performs learning based on a generative adversarial network (GAN) in order to classify the target feature data to correspond to the true signal in conjunction with the generator 350. It is not necessarily limited to this.
  • GAN generative adversarial network
  • the second discriminator 374 performs an operation of processing classification for a segment using the target combination data and source feature data that are combined with the natural language feature data and the target feature data.
  • the second discriminator 374 may receive the target combination data and the source feature data, and determine whether the target combination data is authentic or not.
  • the second discriminator 374 outputs a second learning result obtained by comparing the segment unit of the source feature data and the segment unit of the target combined data to learn whether the object combined data is authentic.
  • the second discriminator 374 compares the segment unit data of the source feature data and the segment unit target combined data in which the feature value of the natural language feature data and the feature value of the target feature data are combined to process the classification of the segment.
  • the second discriminator 374 transmits feedback information to the generator 350 that generates the target feature data based on the second learning result, and compares the source feature data with the target combined data so that the target combined data corresponds to a true signal. It is possible to learn the authenticity of the target binding data by iterating until Here, it is preferable that the second discriminator 374 performs learning based on a generative adversarial network (GAN) in order to classify the target binding data to correspond to the true signal in conjunction with the generator 350. It is not necessarily limited to this.
  • GAN generative adversarial network
  • FIG. 4 is a flowchart illustrating a learning method for behavior recognition according to an embodiment of the present invention.
  • the behavior recognition apparatus 100 checks whether a source image is input (S410).
  • the behavior recognition apparatus 100 acquires the source image (S420).
  • the behavior recognition apparatus 100 preprocesses the source image to generate a plurality of image feature values, and generates source feature data including the plurality of image feature values ( S430 ).
  • the behavior recognition apparatus 100 acquires a natural language vector (S440).
  • the behavior recognition apparatus 100 generates natural language feature data including at least one feature value (a first feature value) by inputting a natural language vector ( S450 ).
  • the behavior recognition apparatus 100 includes, as an input, a feature value (a first feature value) included in the natural language feature data, and at least one feature value (second feature value) for classification with the source feature data of the source image.
  • Target feature data is generated (S460).
  • the behavior recognition apparatus 100 generates a first learning result through classification of a sequence (a first discrimination process) using the target feature data and the source feature data (S470). Specifically, the behavior recognition apparatus 100 compares source feature data combining a plurality of source feature values including sequential information with target feature data combining a plurality of target feature values including sequential information to determine whether the target feature data is authentic or not. Outputs the first learning result learned.
  • the behavior recognition apparatus 100 performs a second learning result through processing (second discrimination processing) classification for a segment using the target combination data and the source characteristic data in which the natural language characteristic data and the target characteristic data are combined. generated (S480). Specifically, the behavior recognition device 100
  • the second learning result of learning whether the object-combined data is authentic or not is output.
  • FIG. 4 Although it is described that each step is sequentially executed in FIG. 4 , the present invention is not limited thereto. In other words, since it may be applicable to changing and executing the steps described in FIG. 4 or executing one or more steps in parallel, FIG. 4 is not limited to a time-series order.
  • the behavior recognition learning method according to the present embodiment described in FIG. 4 may be implemented as an application (or program) and recorded in a recording medium readable by a terminal device (or computer).
  • the recording medium in which the application (or program) for implementing the behavior recognition learning method according to the present embodiment is recorded and the terminal device (or computer) can read is any type of recording device in which data that can be read by the computing system is stored. or media.
  • FIG. 5 is a block diagram schematically illustrating an operation configuration for behavior recognition of a processor according to an embodiment of the present invention.
  • the processor 130 included in the behavior recognition apparatus 100 includes an input image acquisition unit 510 , a neural network processing unit 520 , a learning result application unit 530 , an image determination unit 540 , and a result output. part 550 .
  • the processor 130 of FIG. 5 is according to an embodiment, and not all blocks shown in FIG. 5 are essential components, and in other embodiments, some blocks included in the processor 130 may be added, changed, or deleted. have.
  • each component included in the processor 130 may be implemented as a separate software device, or may be implemented as a separate hardware device combined with software.
  • the input image acquisition unit 510 acquires an unseen source image for behavior recognition.
  • the unseen source image means an image that is not input during learning for behavior recognition.
  • the neural network processing unit 520 generates source feature data by inputting the acquired source image.
  • the neural network processing unit 520 may generate source feature data by performing preprocessing based on convolutional neural network (CNN) learning.
  • CNN convolutional neural network
  • the source feature data may include a plurality of image feature values.
  • the learning result application unit 530 applies the first learning result of learning the sequence characteristic data and the second learning result of learning the segment characteristic data to the source characteristic data of the source image data, and the image determining unit 540 applies the applied learning It recognizes the behavior of the source video based on the result.
  • the result output unit 550 outputs a behavior recognition result based on the recognized behavior.
  • FIG. 6 is a flowchart illustrating a behavior recognition method according to an embodiment of the present invention.
  • the behavior recognition apparatus 100 acquires an unseen source image for behavior recognition ( S610 ).
  • the unseen source image means an image that is not input during learning for behavior recognition.
  • the behavior recognition apparatus 100 receives the acquired source image as an input and performs neural network learning-based preprocessing to extract image feature values to generate source feature data (S620).
  • the behavior recognition apparatus 100 may generate source feature data by performing preprocessing based on convolutional neural network (CNN) learning.
  • CNN convolutional neural network
  • the behavior recognition apparatus 100 compares the feature values by applying the pre-learned learning result ( S630 ). Specifically, the behavior recognition apparatus 100 applies the first learning result of learning the sequence feature data and the second learning result of learning the segment feature data to the source feature data of the source image data, and compares the feature values.
  • the behavior recognition apparatus 100 determines the behavior of the source image (input image) based on the applied learning result (S640), and outputs the behavior recognition result based on the recognized behavior (S650).
  • FIG. 6 is not limited to a time-series order.
  • the behavior recognition method according to the present embodiment described in FIG. 6 may be implemented as an application (or program) and recorded in a terminal device (or computer) readable recording medium.
  • a recording medium in which an application (or program) for implementing the behavior recognition method according to the present embodiment is recorded and a terminal device (or computer) readable recording medium is any type of recording device in which data that can be read by a computing system is stored or includes media.
  • FIG. 7 is an exemplary diagram for explaining a learning operation of the behavior recognition apparatus according to an embodiment of the present invention.
  • the conventional behavior recognition device averages the features extracted from the video, and the image is inherited through ZSIC (Zero-shot Image Classification). It performs an action that recognizes the action through the method.
  • ZSIC Zero-shot Image Classification
  • the conventional behavior recognition method recognizes the behavior by ignoring time-series sequential information of the video, a recognition error may occur for the entire behavior included in the video.
  • the behavior recognition apparatus 100 is capable of synthesizing a series of motions for a class that has not been seen, not a single sample, through a sequence generative model in consideration of sequential information, and , transforms the perception of first-time behavior into a fully supervised learning method.
  • the behavior recognition apparatus 100 may include an attribute encoder 340 , a generator 350 , a discriminator 360 , and the like to generate a sequence for recognizing a first-time behavior.
  • the attribute encoder 340 may convert a natural language vector into a plurality of vectors to provide sequential information to generate a sequence.
  • the sequence generative model of the behavior recognition apparatus 100 samples not only the segment of the behavior but also the entire sequence of behavior as an actual distribution through the sequence discriminator.
  • the behavior recognition apparatus 100 may be implemented as a Sequence Feature Generative Adversarial Network (SFGAN) based on sequential feature data.
  • SFGAN Sequence Feature Generative Adversarial Network
  • the behavior recognition apparatus 100 includes a generative model for generating a feature sequence of a behavior, and this model generates a sequence under a single condition, and the generated sequence must be realistic.
  • the behavior recognition apparatus 100 includes an attribute encoder 340 based on a recursive neural network to search a semantic embedding space containing temporal information and develop a sequence cue in a condition.
  • the behavior recognition apparatus 100 includes a sequence discriminator for applying a penalty to a generator ignoring the sequence of behavior.
  • the behavior recognition apparatus 100 may generate a characteristic of the first seen behavior corresponding to a time condition of zero-shot learning (ZSL).
  • ZSL zero-shot learning
  • the behavior recognition apparatus 100 generates an unseen behavior in order to convert the existing semi-supervised learning into a fully-supervised learning.
  • the behavior recognition apparatus 100 applies a sequence-based generative adversarial network (GAN) model that generates sequences for behavioral features, unlike the conventional zero-shot behavior recognition method that generates averaged features, , including an attribute encoder 340 , a generator 350 , a discriminator 360 , and the like for processing sequential data.
  • GAN generative adversarial network
  • the data set for the class seen in this embodiment can be defined as D s , and the data set D s seen is can be expressed as where x v is is the RGB visual feature of , and x f is is the optical flow characteristic of , y represents the class label of Ys, and c(y) means the natural language embedding of class y semantically representing the meaning of the class.
  • a data set for a class not seen in this embodiment may be defined as Du, and D u is separated from Y s .
  • the data set D u not seen in this example is can be expressed as
  • the behavior recognition apparatus 100 based on a constraint for recognizing an action seen for the first time (ZSAR: Zero-shot Action Recognition), the seen data set (D s ) and the unseen data set (D u ) The containment relationship between the two data sets is and is set to satisfy
  • a sequence of actions can be expressed as a feature vector length of N, where N means the temporal length of the sequence.
  • N means the temporal length of the sequence.
  • the seen data can be accessed at the learning stage for behavior recognition, but the RGB characteristics and flow characteristics of the unseen data can only be accessed at the test stage.
  • GAN Zero-shot Action Recognition
  • a generative adversarial network (GAN) applied to the behavior recognition device 100 is a sample from an actual distribution through a minimum maximization algorithm between a generator 350 and a discriminator 360. aims to create Here, the generator 350 generates a fake sample to deceive the discriminator 360 , while the discriminator 360 tries to distinguish the real sample from the fake sample.
  • GAN generative adversarial network
  • the behavior recognition apparatus 100 adjusts the Wasserstein distance as an objective function with a gradient penalty for learning stability of the generative adversarial neural network.
  • a generative model is generated based on a conditional Wasserstein GAN (WGAN).
  • the objective function used in the behavior recognition apparatus 100 may be defined as in Equation (1).
  • P r and P g mean the actual distribution and the generated distribution, means the output of the constructor 350, is x and means the interpolation of , and the last term is a normalization term that prevents gradient exploding by giving a penalty, and ⁇ refers to the parameter of the term.
  • Generating a video for behavioral recognition is a more difficult operation than generating a single frame. Since video is more complex with the time axis, the gaps between each segment must be connected naturally when the generated segments are assembled to complete a sequence of motions.
  • the behavior recognition apparatus 100 generates a video feature sequence of an unseen class based on two conditions.
  • the first condition is to generate a sequence from a single condition
  • the second condition is to create a sequence by combining a plurality of features to ensure the fidelity of the sequence.
  • the single condition preferably means one natural language vector, but is not limited thereto.
  • the generator 350 may synthesize the sequence using two methods.
  • the two methods may be a one-to-many mapping that simply creates an entire function from a single condition, and a one-to-one mapping that expands to a plurality of conditions of an expected length before generating a given condition.
  • the behavior recognition apparatus 100 of the present invention includes an attribute encoder 340 capable of developing time information under a single condition through a recurrent neural network (RNN). That is, the semantic embedding space including time information is searched through the attribute encoder 340 .
  • RNN recurrent neural network
  • the behavior recognition apparatus 100 must ensure the fidelity of the feature sequence of the generated unseen video.
  • a single condition is expanded to a plurality of conditions, a segment is generated in the expanded condition, and a behavior sequence is generated by collecting the generated segments.
  • the flow of the entire generated action sequence must be connected as naturally as the actual action sequence.
  • the discriminator 360 of the behavior recognition apparatus 100 of the present invention includes a sequence discriminator 372 for discriminating an actual behavior sequence from a fake sequence.
  • FIG. 7 shows a detailed structure of a sequence feature generative adversarial network (SFGAN) based on a behavior sequence feature applied to the behavior recognition apparatus 100 according to the present invention.
  • the behavior recognition apparatus 100 recognizes an unseen behavior through a generative adversarial neural network based on a behavior sequence feature composed of an encoder 340 , a generator 350 , and a discriminator 372 , 374 , and the like. learn to do
  • the encoder 340 encodes the input single condition and outputs an output value c(y).
  • the encoder 340 uses a recursive neural network to solve a time stream of a single input condition.
  • the encoder 340 may receive a natural language vector as a single condition, encode the natural language vector, and output natural language feature data.
  • the encoder 340 may be configured as a Gated Recurrent Unit (GRU) cell, and the GRU operation of the encoder 340 may be defined as in Equation (2).
  • GRU Gated Recurrent Unit
  • the encoder 340 generates a discontinuity in the latent space by the operation of solving from a single condition to a plurality of conditions. Accordingly, the encoder 340 further uses Conditioning Augmentation.
  • Each condition extended to a number of conditions is a Gaussian distribution is parameterized back to the sample in , where ⁇ stands for the mean and ⁇ stands for the covariance matrix.
  • the encoder 340 uses KL-divergence (Kullback-Leibler divergence) as a normalization term to prevent excessively adjusting the semantic space and enhancing smoothness.
  • KL-divergence Kullback-Leibler divergence
  • the encoder 340 is parameterized condition in is passed to the constructor 350 and serves as an input condition of the constructor 350 .
  • the encoder 340 of the present invention uses a triplet loss function, and the triplet loss function treats the condition processed by the GRU similarly to the original condition and differently from the conditions of other actions.
  • the objective function and normalization term used in the triplet loss function in the encoder 340 may be defined as in Equations 3 and 4.
  • d + means the distance of the positive pair
  • d - means the distance of the negative pair
  • c(y) Each is an anchor, a positive sample and a negative sample.
  • m is the margin of triplet loss, using cosine similarity as a measure of triplet loss distance. is sampled from features in the same clip and negatives are sampled from clips in different motions.
  • the behavior recognition apparatus 100 recognizes a behavior through a complete supervised learning method, and it is preferable to use an optical flow characteristic in this method.
  • the behavior recognition apparatus 100 includes a generator 350 for behavior recognition that has not been seen before, and the generator 350 generates a combined feature in which an RGB feature and a flow feature are combined.
  • the generator 350 generates a combined feature in which the RGB feature and the flow feature are combined with the parameterized condition a t and the latent noise vector z as inputs.
  • the generator 350 is constructed with fully connected layers to model the relationship between the RGB features and the flow features.
  • the operation of the generator 350 may be defined as in Equation 5.
  • z is a random variable for latent noise
  • n is the nth embedded parameterized condition
  • the discriminator 360 included in the behavior recognition apparatus 100 according to the present embodiment will be described.
  • the discriminator 360 included in the behavior recognition apparatus 100 determines a difference between the distribution of the feature generated by the generator 350 and the actual distribution, and provides feedback to the generator 350 .
  • the discriminator 360 may include a segment discriminator 372 for determining a segment and a sequence discriminator 374 for discriminating a sequence.
  • Each of the segment discriminator 372 and the sequence discriminator 374 may consist of a plurality of fully connected layers for distinguishing real features and real sequences from fakes.
  • the segment discriminator 372 simultaneously processes the feature and the condition, and the sequence discriminator 374 processes only the feature.
  • the behavior recognition apparatus 100 Since the behavior recognition apparatus 100 according to the present embodiment generates an unseen behavior sequence, a class bias may occur due to excessive conditioning during training. Accordingly, the behavior recognition apparatus 100 should be configured as a discriminator 360 including a sequence discriminator 374 .
  • the objective function for model learning of the behavior recognition apparatus 100 is based on a conditional Wasserstain GAN.
  • the sequence discriminator 374 included in the behavior recognition device 100 is unconditionally designed to generate an unseen behavior sequence, and the sequence discriminator 374 uses a general Wasserstain distance. Also, a gradient penalty for the sequence discriminator 374 is defined as in Equation 6.
  • Equation (7) the loss function for the generative model can be defined as Equation (7).
  • a n represents an encoded condition (feature data)
  • x is a sample of the actual feature data.
  • R uncond and R cond refer to normalization terms for D seq and D seg , respectively.
  • Equation (8) the overall objective function of the parameterized end-to-end model used in the behavior recognition apparatus 100 may be defined by Equation (8).
  • the behavior recognition apparatus 100 learns the seen data set (D s ) through the generative adversarial neural network, and then learns the unseen behavioral characteristics from the condition of the unseen class. create
  • the behavior recognition apparatus 100 processes a problem for recognizing a behavior seen for the first time in a fully supervised learning method for behavior recognition, and uses a multi-layer perceptron classier for evaluation.
  • the classifier is optimized by minimizing the negative log-likelihood loss, and may be defined as Equation (9).
  • is the weight of the fully connected layer in the classifier
  • F means D u ⁇ D s or D u in GZSL (Generalized Zero-Shot Learning) or ZSL (Zero-Shot Learning).
  • the prediction function for classification may be defined as in Equation 10.
  • FIG. 8 is an exemplary diagram for explaining an operation of generating feature data by processing an input image according to an embodiment of the present invention.
  • the behavior recognition apparatus 100 acquires a source image.
  • the source image means a video clip 810
  • the video clip 810 may include five image segments 811 , 812 , 813 , 814 , and 815 .
  • the video clip 810 may be a clip including an action for basketball, baseball, exit, and the like.
  • Each of the image segments 811 , 812 , 813 , 814 , and 815 may include 32 motion vector image frames.
  • a difference image 821 may be additionally included between the motion vector image frames 820 , and the difference image 821 means an image generated through a difference between two adjacent motion vector image frames 820 .
  • the behavior recognition apparatus 100 may generate source feature data X by performing pre-training for learning a convolutional neural network (CNN).
  • the source feature data includes feature values 831, 832, 833, 834, and 835 for each segment unit, and each feature value may be a matrix feature value having a size of 1 ⁇ 1024.
  • FIG. 9 is an exemplary diagram for explaining an operation of generating feature data by processing a natural language vector according to an embodiment of the present invention.
  • the encoder 340 receives the natural language vector 910 as an input and generates natural language feature data including at least one feature value.
  • the natural language vector refers to a vector generated based on natural language for a predetermined action without including time-series information.
  • the encoder 340 adds sequential information to the natural language vector 910 to expand it into a plurality of vectors, and generates at least one feature value 921 , 922 , 923 , 924 , 925 corresponding to each of the plurality of vectors, respectively. .
  • the encoder 340 generates at least one feature value 921 , 922 , 923 , 924 , 925 having a distribution on a normal distribution of the natural language vector using at least one of the mean, standard deviation, and noise of the natural language vector, respectively. .
  • the first feature value processing unit 342 transmits the natural language feature data including at least one feature value 921 , 922 , 923 , 924 , and 925 output from the encoder 340 to the generator 350 .
  • the first feature value processing unit 342 may additionally combine a random variable (a random variable with respect to latent noise) to the natural language feature data and transmit it to the generator 350 .
  • the first feature value processing unit 342 transmits natural language feature data including at least one feature value 921 , 922 , 923 , 924 , and 925 output from the encoder 340 to the second discriminator 374 . do.
  • the first feature value processing unit 342 may be omitted when the natural language feature data is directly transmitted from the encoder 340 to the generator 350 , or may be implemented in a form included in the encoder 340 .
  • the generator 350 generates source feature data of a source image and target feature data for classification based on the natural language feature data.
  • the generator 350 generates target feature data for a fake image based on the natural language feature data and a pre-generated random variable.
  • the generator 350 generates the target characteristic data through convolutional neural network (CNN) learning, but is not limited thereto.
  • CNN convolutional neural network
  • the generator 350 generates target feature data including at least one feature value 931 , 932 , 933 , 934 , and 935 .
  • the generator 350 generates the target feature data in the same number of segments as the natural language feature data.
  • the segment unit may be divided into respective feature values included in the target feature data.
  • the second feature value processing unit 352 transmits the target feature data output from the generator 350 to the discriminator 360 .
  • the second feature value processing unit 352 transmits the target feature data to the first discriminator 372 and the second discriminator 374 , respectively. Meanwhile, when the target feature data is directly transmitted from the generator 350 to the discriminator 360 , the second feature value processing unit 352 may be omitted or implemented in a form included in the generator 350 .
  • FIG. 10 is a diagram illustrating an operation configuration of an encoder according to an embodiment of the present invention.
  • the encoder 340 provides sequential information to the natural language vector to perform expansion into a plurality of vectors.
  • the natural language vector of a single condition may be extended using a method such as a long short-term memory (LSTM), a gated recurrent unit (GRU), or the like.
  • LSTM long short-term memory
  • GRU gated recurrent unit
  • the encoder 340 generates each of at least one feature value corresponding to each of the plurality of vectors.
  • the encoder 340 uses at least one of the mean ( ⁇ ), standard deviation ( ⁇ ), and noise ( ⁇ ) of the natural language vector to convert the natural language vector to at least one feature value (a i ) having a distribution on a normal distribution, respectively. create
  • FIG. 11 is a diagram illustrating an operation configuration of a discriminator according to an embodiment of the present invention.
  • the discriminator 360 processes classification for each of a sequence and a segment based on at least one of source feature data, natural language feature data, target feature data, and the like, so that behavior recognition of an object is performed.
  • the discriminator 360 according to the present embodiment includes a first discriminator 372 and a second discriminator 374 .
  • the first discriminator 372 performs an operation of processing classification for a sequence using the target feature data and the source feature data.
  • the first discriminator 372 may receive the target characteristic data and the source characteristic data, and determine whether the target characteristic data is authentic or not. Specifically, the first discriminator 372 compares source feature data obtained by concatenating a plurality of source feature values including sequential information with target feature data obtained by combining a plurality of target feature values including sequential information to obtain a target A first learning result obtained by learning whether the feature data is authentic or not is output.
  • the first learning result may be expressed as a value between [0, 1].
  • the second discriminator 374 performs an operation of processing classification for a segment using the target combination data and source feature data that are combined with the natural language feature data and the target feature data.
  • the second discriminator 374 may receive the target combination data and the source feature data, and determine whether the target combination data is authentic or not.
  • the second discriminator 374 outputs a second learning result obtained by comparing the segment unit of the source feature data and the segment unit of the target combined data to learn whether the object combined data is authentic.
  • the second learning result may be expressed as a value between [0, 1].
  • the second discriminator 374 compares the segment-unit data of the source feature data and the segment-unit target-combined data in which the feature value of the natural language feature data and the feature value of the target feature data are combined (Concatenation) for the segment. classification can be handled.
  • processor 140 memory
  • image feature value processing unit 330 natural language vector acquisition unit
  • encoder 342 first feature value processing unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치를 개시한다. 본 발명의 실시예에 따른 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 행동 인식 학습 방법은 자연어 벡터를 획득하는 자연어 획득 단계; 자연어 벡터를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 자연어 처리 단계; 상기 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 생성 처리 단계; 및 상기 소스 특징 데이터와 상기 자연어 특징 데이터 및 상기 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 하는 감별 처리 단계를 수행할 수 있다.

Description

순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치
본 발명은 순차적 시퀀스 데이터를 이용하여 영상 내 행동을 인식하는 방법 및 그를 위한 장치에 관한 것이다. 본 발명의 연구는 과학기술정보통신부의 재원으로 한국연구재단의 지원을 받아 수행된 원천기술개발사업의 딥러닝 기반 의미론적 상황 이해 원천기술 연구(No. 2019-11-1088 / No. 1711116308)와 관련된다.
이 부분에 기술된 내용은 단순히 본 발명의 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
종래의 관련 연구는 동영상 데이터의 경우 동영상 하나에서 여러 개의 특징 벡터가 추출되더라도, 이미지와 유사한 방식으로 처리하기 위하여 추출된 여러 벡터에 대한 평균 벡터를 사용하여 행동을 인식한다.
다시 말해, 종래의 제로샷 행동인식(Zero-shot Action Recognition)기술은 시계열 정보가 담겨져 있는 순차적 데이터를 사용함에도 불구하고, 제로샷 이미지 분류 연구와 유사한 방법을 적용하기 위해 심층 신경망을 통해 추출된 순차적 특징 벡터를 평균 낸 특징 벡터로 변환하여 행동 인식에 사용하였다. 하지만, 이러한 방식은 순차적 특징 벡터에 포함된 시계열을 무시함으로써 중간 과정이 비슷한 행동이 존재하는 경우 잘못된 판단 결과를 도출하게 된다. 예를 들어, 도 1에 도시된 바와 같이, 달리기 행동과 점프 행동에 대한 동영상에 대한 행동 인식을 수행하는 경우, 달리기 행동과 점프 행동 각각에 대한 영상에서 추출된 특징 벡터(10)의 시계열을 무시하는 하는 경우, 달리기 행동과 점프 행동을 동일한 행동으로 오인하게 되는 문제가 발생한다. 즉, 도 1에 도시된 바와 같이, 시계열의 흐름을 잃어버림에 따라 특징 데이터(10)를 정확하게 구분하여 생성하지 못하고, 중간 단계가 비슷한 행동으로 잘못 구분하게 될 수 있다.
본 발명은 자연어 벡터를 기반으로 하는 처음 보는 영상에 대한 행동 특징 데이터를 생성하여 학습을 수행함으로써, 실제 영상을 통해 학습하지 않은 행동을 인식할 수 있는 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치를 제공하는 데 주된 목적이 있다.
본 발명의 일 측면에 의하면, 상기 목적을 달성하기 위한 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 행동 인식 학습 방법은, 자연어 벡터를 획득하는 자연어 획득 단계; 자연어 벡터를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 자연어 처리 단계; 상기 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 생성 처리 단계; 및 상기 소스 특징 데이터와 상기 자연어 특징 데이터 및 상기 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 하는 감별 처리 단계를 수행할 수 있다.
또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 행동 인식 장치는, 하나 이상의 프로세서; 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서, 자연어 벡터를 획득하는 자연어 획득 단계; 자연어 벡터를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 자연어 처리 단계; 상기 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 생성 처리 단계; 및 상기 소스 특징 데이터와 상기 자연어 특징 데이터 및 상기 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 하는 감별 처리 단계를 포함하는 동작들을 수행할 수 있다.
또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 행동 인식 방법은, 본적 없는 소스 영상을 입력 받고, 상기 소스 영상 데이터의 소스 특징 데이터에 시퀀스 특징 데이터를 학습한 제1 학습 결과와 세그먼트 특징 데이터를 학습한 제2 학습 결과를 적용하여 행동을 판단하고, 판단된 행동 인식 결과를 출력할 수 있다.
이상에서 설명한 바와 같이, 본 발명은 자연어 벡터를 기반으로 행동에 대한 순차적 데이터를 생성하여 행동 인식을 수행할 수 있는 효과가 있다.
또한, 본 발명은 자연어 벡터를 기반으로 행동 특징 데이터를 생성함으로써, 학습 시 볼 수 없었던 처음 보는 행동(새로운 행동)을 인식할 수 있어 행동 인식 성능을 향상 시킬 수 있는 효과가 있다.
도 1은 종래 기술의 문제점 및 본 발명의 개략적인 동작 특성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 행동 인식 장치를 개략적으로 나타낸 블록 구성도이다.
도 3은 본 발명의 실시예에 따른 프로세서의 학습을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.
도 4는 본 발명의 실시예에 따른 행동 인식을 위한 학습 방법을 설명하기 위한 순서도이다.
도 5는 본 발명의 실시예에 따른 프로세서의 행동 인식을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.
도 6은 본 발명의 실시예에 따른 행동 인식 방법을 설명하기 위한 순서도이다.
도 7은 본 발명의 실시예에 따른 행동 인식 장치의 학습 동작을 설명하기 위한 예시도이다.
도 8은 본 발명의 실시예에 따른 입력 영상을 처리하여 특징 데이터를 생성하는 동작을 설명하기 위한 예시도이다.
도 9는 본 발명의 실시예에 따른 자연어 벡터를 처리하여 특징 데이터를 생성하는 동작을 설명하기 위한 예시도이다.
도 10은 본 발명의 실시예에 따른 인코더의 동작 구성을 나타낸 도면이다.
도 11은 본 발명의 실시예에 따른 감별자의 동작 구성을 나타낸 도면이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다. 이하에서는 도면들을 참조하여 본 발명에서 제안하는 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치에 대해 자세하게 설명하기로 한다.
도 1에 도시된 바와 같이, 본 발명은 원본 동영상의 시계열 정보를 잃지 않기 위해 특징 벡터의 평균이 아닌 순차적 특징 데이터(20)를 생성하고, 이를 통해 처음 보는 행동을 인식하는 성능을 개선하기 위한 장치 및 방법을 제안한다.
도 2는 본 발명의 실시예에 따른 행동 인식 장치를 개략적으로 나타낸 블록 구성도이다.
본 실시예에 따른 행동 인식 장치(100)는 입력부(110), 출력부(120), 프로세서(130), 메모리(140) 및 데이터 베이스(150)를 포함한다. 도 2의 행동 인식 장치(100)는 일 실시예에 따른 것으로서, 도 2에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 행동 인식 장치(100)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 행동 인식 장치(100)는 컴퓨팅 디바이스로 구현될 수 있고, 행동 인식 장치(100)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.
행동 인식 장치(100)는 자연어 벡터를 입력 받고, 자연어 벡터에 순차적 정보를 부여하여 생성된 자연어 특징 데이터를 입력으로 생성자를 통해 대상 특징 데이터를 생성하고, 생성자와 연동하는 적어도 2 개의 감별자를 통해 소스 영상(원본 동영상)의 소스 특징 데이터, 자연어 특징 데이터, 대상 특징 데이터 등을 분류 처리하여 처음 보는 영상에서 행동을 인식하는 동작을 수행한다.
입력부(110)는 행동 인식 장치(100)에서의 행동 인식 동작을 수행하기 위한 신호 또는 데이터를 입력하거나 획득하는 수단을 의미한다. 입력부(110)는 프로세서(130)와 연동하여 다양한 형태의 신호 또는 데이터를 입력하거나, 외부 장치와의 연동을 통해 신호 또는 데이터를 획득하여 프로세서(130)로 전달할 수도 있다. 여기서, 입력부(110)는 소스 영상(원본 동영상), 자연어 벡터, 랜덤 변수 등을 입력하기 위한 모듈로 구현될 수 있으나 반드시 이에 한정되는 것은 아니다.
출력부(120)는 프로세서(130)와 연동하여 특징 데이터 기반의 시퀀스(Sequence) 학습 결과, 특징 데이터 기반의 세그먼트(Segment) 학습 결과, 행동 인식 결과 등 다양한 정보를 출력할 수 있다. 출력부(120)는 행동 인식 장치(100)에 구비된 디스플레이(미도시)를 통해 다양한 정보를 출력할 수 있으나 반드시 이에 한정되는 것은 아니며, 다양한 형태의 방식으로 출력을 수행할 수 있다.
프로세서(130)는 메모리(140)에 포함된 적어도 하나의 명령어 또는 프로그램을 실행시키는 기능을 수행한다.
본 실시예에 따른 프로세서(130)는 입력부(110) 또는 데이터 베이스(150)로부터 획득한 자연어 벡터 및 소스 영상을 기반으로 기계학습을 수행하고, 기계학습 결과를 기반으로 기 학습되지 않은 처음 보는 영상에 대한 행동을 인식하는 동작을 수행한다.
프로세서(130)는 소스 영상을 입력 받고, 소스 영상을 기반으로 전처리를 수행하여 소스 특징 데이터를 생성한다. 또한, 프로세서(130)는 자연어 벡터를 입력 받고, 자연어 벡터에 순차적 정보를 부여하여 자연어 특징 데이터를 생성하고, 자연어 특징 데이터를 입력으로 대상 특징 데이터를 생성한다.
또한, 프로세서(130)는 소스 특징 데이터와 자연어 특징 데이터 및 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 한다. 여기서, 프로세서(130)는 영상의 순차적 특징을 고려하여 행동 인식을 수행하기 위하여, 소스 특징 데이터와 대상 특징 데이터를 이용하여 시퀀스에 대한 분류를 처리하여 제1 학습 결과를 생성한다. 또한, 프로세서(130)는 영상의 기 설정된 단위의 특징을 고려하여 행동 인식을 수행하기 위하여, 소스 특징 데이터와 자연어 특징 데이터 및 대상 특징 데이터를 결합한 대상 결합 데이터를 이용하여 세그먼트에 대한 분류를 처리하여 제2 학습 결과를 생성한다. 프로세서(130)는 시퀀스 및 세그먼트 각각에 대한 분류를 처리하여 생성된 제1 학습 결과 및 제2 학습 결과를 기반으로 학습 시 입력된 적이 없는 처음 보는 영상의 행동 인식을 수행한다.
본 실시예에 따른 프로세서(130)의 자세한 동작은 도 3 내지 6에서 설명하도록 한다.
메모리(140)는 프로세서(130)에 의해 실행 가능한 적어도 하나의 명령어 또는 프로그램을 포함한다. 메모리(140)는 소스 특징 데이터를 생성하는 동작, 자연어 특징 데이터를 생성하는 동작, 대상 특징 데이터를 생성하는 동작, 대상 결합 데이터를 생성하는 동작, 시퀀스에 대한 분류를 처리하는 동작, 세그먼트에 대한 분류를 처리하는 동작 등을 위한 명령어 또는 프로그램을 포함할 수 있다. 또한, 메모리(140)는 학습 결과를 적용하는 동작, 행동 인식을 수행하는 동작 등을 위한 명령어 또는 프로그램을 포함할 수 있다.
데이터베이스(150)는 데이터베이스 관리 프로그램(DBMS)을 이용하여 컴퓨터 시스템의 저장공간(하드디스크 또는 메모리)에 구현된 일반적인 데이터구조를 의미하는 것으로, 데이터의 검색(추출), 삭제, 편집, 추가 등을 자유롭게 행할 수 있는 데이터 저장형태를 뜻하는 것으로, 오라클(Oracle), 인포믹스(Infomix), 사이베이스(Sybase), DB2와 같은 관계형 데이타베이스 관리 시스템(RDBMS)이나, 겜스톤(Gemston), 오리온(Orion), O2 등과 같은 객체 지향 데이타베이스 관리 시스템(OODBMS) 및 엑셀론(Excelon), 타미노(Tamino), 세카이주(Sekaiju) 등의 XML 전용 데이터베이스(XML Native Database)를 이용하여 본 발명의 일 실시예의 목적에 맞게 구현될 수 있고, 자신의 기능을 달성하기 위하여 적당한 필드(Field) 또는 엘리먼트들을 가지고 있다.
본 실시예에 따른 데이터베이스(150)는 행동 인식과 관련된 데이터를 저장하고, 기 저장된 행동 인식과 관련된 데이터를 제공할 수 있다.
데이터베이스(150)에 저장된 데이터는 소스 영상, 특징 데이터(예: 소스 특징 데이터, 자연어 특징 데이터, 대상 특징 데이터, 대상 결합 데이터 등), 학습 결과(예: 제1 학습 결과, 제2 학습 결과, 행동 인식 학습 결과 등), 행동 인식 결과 등에 대한 데이터일 수 있다. 데이터베이스(140)는 행동 인식 장치(100) 내에 구현되는 것으로 기재하고 있으나 반드시 이에 한정되는 것은 아니며, 별도의 데이터 저장장치로 구현될 수도 있다.
도 3은 본 발명의 실시예에 따른 프로세서의 학습을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.
본 실시예에 따른 행동 인식 장치(100)에 포함된 프로세서(130)는 기계 학습을 기반으로 처음보는 영상 내에서 행동을 인식하는 동작을 수행한다. 여기서, 기계 학습은 생성적 적대 신경망(GAN: Generative Adversarial Network)을 이용한 학습인 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
행동 인식 장치(100)에 포함된 프로세서(130)는 소스 영상을 입력 받고, 소스 영상을 기반으로 전처리를 수행하여 소스 특징 데이터를 생성하는 모델, 자연어 벡터를 입력 받고, 자연어 벡터에 순차적 정보를 부여하여 자연어 특징 데이터를 생성하고, 자연어 특징 데이터를 입력으로 대상 특징 데이터를 생성하는 모델, 소스 특징 데이터와 자연어 특징 데이터 및 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하는 모델 등을 기반으로 본적 없는 행동을 인식하는 동작이 수행되도록 하며, 행동 인식을 수행하는 모든 기기에 탑재되거나, 행동 인식을 수행하는 소프트웨어와 연동할 수 있다.
본 실시예에 따른 프로세서(130)는 영상 획득부(310), 전처리부(320), 영상 특징값 처리부(322), 자연어 벡터 획득부(330), 인코더(340), 제1 특징값 처리부(342), 생성자(350), 제2 특징값 처리부(352) 및 감별자(360)를 포함할 수 있다. 도 3의 프로세서(130)는 일 실시예에 따른 것으로서, 도 3에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 프로세서(130)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 프로세서(130)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.
영상 획득부(310)는 소스 영상을 획득하는 동작을 수행한다. 여기서, 소스 영상은 소스 비디오의 비디오 클립을 의미하며, 비디오 클립은 복수의 영상 세그먼트로 구성될 수 있다. 여기서, 영상 세그먼트는 복수의 움직임 벡터 영상 프레임을 포함한다. 움직임 벡터 영상 프레임 사이에는 차분 영상이 추가로 포함될 수 있으며, 차분 영상은 인접한 두 개의 움직임 벡터 영상 프레임의 차이를 통해 생성된 영상을 의미한다.
전처리부(320)는 소스 영상을 입력으로 소스 영상에 대한 소스 특징 데이터를 생성한다. 전처리부(320)에서 생성된 소스 특징 데이터는 복수의 세그먼트 단위 별 특징값를 포함한다.
전처리부(320)는 소스 영상에 대해 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 위한 전처리(Pre-traning)를 수행하여 소스 특징 데이터를 생성할 수 있다. 여기서, 전처리(Pre-traning)에 대한 기술은 일반적으로 알려진 기술이므로 자세한 설명은 생략하도록 한다.
영상 특징값 처리부(322)는 전처리부(320)에서 출력된 소스 특징 데이터를 감별자(360)로 전달하는 동작을 수행한다. 영상 특징값 처리부(322)는 소스 특징 데이터를 제1 감별자(372) 및 제2 감별자(374) 각각으로 전달한다.
한편, 영상 특징값 처리부(322)는 전처리부(320)에서 소스 특징 데이터를 감별자(360)로 직접 전달하는 경우 생략되거나, 전처리부(320)에 포함된 형태로 구현될 수 있다.
자연어 벡터 획득부(330)는 기 설정된 조건에 대응되는 자연어 벡터를 획득한다. 여기서, 자연어 벡터는 시계열적인 정보를 포함하지 않고, 소정의 행동에 대하여 자연어 기반으로 생성된 벡터를 의미한다.
인코더(340)는 자연어 벡터를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 동작을 수행한다.
인코더(340)는 자연어 벡터에 순차적 정보를 부여하여 복수 개의 벡터로 확장하고, 복수 개의 벡터 각각에 대응되는 적어도 하나의 특징값 각각을 생성한다.
인코더(340)는 자연어 벡터의 평균, 표준 편차 및 노이즈 등 중 적어도 하나를 이용하여 자연어 벡터를 정규 분포 상에서 분포를 갖는 적어도 하나의 특징값 각각을 생성한다.
인코더(340)는 재귀 신경망(RNN: Recurrent Neural Network)을 기반으로 자연어 벡터를 복수 개의 벡터로 확장하며, 순차적 정보를 포함하는 복수 개의 벡터 각각은 이전 시점에 생성된 벡터에 근거하여 생성될 수 있다.
제1 특징값 처리부(342)는 인코더(340)에서 출력된 자연어 특징 데이터를 생성자(350)로 전달하는 동작을 수행한다. 제1 특징값 처리부(342)는 자연어 특징 데이터에 랜덤 변수(잠재 잡음에 대한 랜덤 변수)를 추가로 결합시켜 생성자(350)로 전달할 수 있다.
한편, 제1 특징값 처리부(342)는 인코더(340)에서 자연어 특징 데이터를 생성자(350)로 직접 전달하는 경우 생략되거나, 인코더(340)에 포함된 형태로 구현될 수 있다.
생성자(350)는 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 동작을 수행한다.
생성자(350)는 자연어 특징 데이터와 기 생성된 랜덤 변수를 기반으로 페이크(Fake) 영상에 대한 대상 특징 데이터를 생성한다. 여기서, 생성자(350)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 통해 상기 대상 특성 데이터를 생성하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
생성자(350)는 적어도 하나의 특징값을 포함하는 대상 특징 데이터를 생성한다. 여기서, 생성자(350)는 자연어 특징 데이터와 동일한 개수의 세그먼트 단위로 대상 특징 데이터를 생성한다. 여기서, 세그먼트 단위는 대상 특징 데이터에 포함된 각각의 특징값으로 구분될 수 있다.
제2 특징값 처리부(352)는 생성자(350)에서 출력된 대상 특징 데이터를 감별자(360)로 전달하는 동작을 수행한다. 제2 특징값 처리부(352)는 대상 특징 데이터를 제1 감별자(372) 및 제2 감별자(374) 각각으로 전달한다.
한편, 제2 특징값 처리부(352)는 생성자(350)에서 대상 특징 데이터를 감별자(360)로 직접 전달하는 경우 생략되거나, 생성자(350)에 포함된 형태로 구현될 수 있다.
감별자(360)는 소스 특징 데이터와 자연어 특징 데이터, 대상 특징 데이터 등 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 한다. 본 실시예에 따른 감별자(360)는 제1 감별자(372) 및 제2 감별자(374)를 포함한다.
제1 감별자(372)는 대상 특징 데이터와 소스 특징 데이터를 이용하여 시퀀스(Sequence)에 대한 분류를 처리하는 동작을 수행한다. 제1 감별자(372)는 대상 특징 데이터와 소스 특징 데이터를 입력 받고, 대상 특징 데이터의 진위 여부를 판별할 수 있다.
구체적으로, 제1 감별자(372)는 순차적 정보가 포함된 복수의 소스 특징값을 결합한 소스 특징 데이터와 순차적 정보가 포함된 복수의 대상 특징값을 결합한 대상 특징 데이터를 비교하여 대상 특징 데이터의 진위 여부를 학습한 제1 학습 결과를 출력한다.
제1 감별자(372)는 제1 학습 결과에 근거하여 대상 특징 데이터를 생성하는 생성자(350)로 피드백 정보를 전달하며, 소스 특징 데이터와 대상 특징 데이터를 비교하여 대상 특징 데이터가 참 신호에 해당할 때까지 반복하여 대상 특징 데이터의 진위 여부를 학습할 수 있다. 여기서, 제1 감별자(372)는 생성자(350)와 연동하여 대상 특징 데이터가 참 신호에 해당하도록 분류하기 위하여 생성적 적대 신경망(GAN: Generative Adversarial Network)을 기반으로 학습을 수행하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
제2 감별자(374)는 자연어 특징 데이터 및 대상 특징 데이터를 결합한 대상 결합 데이터와 소스 특징 데이터를 이용하여 세그먼트(Segment)에 대한 분류를 처리하는 동작을 수행한다. 제2 감별자(374)는 대상 결합 데이터와 소스 특징 데이터를 입력 받고, 대상 결합 데이터의 진위 여부를 판별할 수 있다.
구체적으로, 제2 감별자(374)는 소스 특징 데이터의 세그먼트 단위와 대상 결합 데이터의 세그먼트 단위를 비교하여 대상 결합 데이터의 진위 여부를 학습한 제2 학습 결과를 출력한다. 여기서, 제2 감별자(374)는 소스 특징 데이터의 세그먼트 단위의 데이터와 자연어 특징 데이터의 특징값과 대상 특징 데이터의 특징값을 결합한 세그먼트 단위의 대상 결합 데이터를 비교하여 세그먼트에 대한 분류를 처리할 수 있다.
제2 감별자(374)는 제2 학습 결과에 근거하여 대상 특징 데이터를 생성하는 생성자(350)로 피드백 정보를 전달하며, 소스 특징 데이터와 대상 결합 데이터를 비교하여 대상 결합 데이터가 참 신호에 해당할 때까지 반복하여 대상 결합 데이터의 진위 여부를 학습할 수 있다. 여기서, 제2 감별자(374)는 생성자(350)와 연동하여 대상 결합 데이터가 참 신호에 해당하도록 분류하기 위하여 생성적 적대 신경망(GAN: Generative Adversarial Network)을 기반으로 학습을 수행하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
도 4는 본 발명의 실시예에 따른 행동 인식을 위한 학습 방법을 설명하기 위한 순서도이다.
행동 인식 장치(100)는 소스 영상의 입력 여부를 확인한다(S410).
단계 S410에서 소스 영상이 입력된 경우, 행동 인식 장치(100)는 소스 영상을 획득한다(S420). 행동 인식 장치(100)는 소스 영상을 전처리하여 복수의 영상 특징값을 생성하고, 복수의 영상 특징값을 포함하는 소스 특징 데이터를 생성한다(S430).
한편, 단계 S410에서 소스 영상이 입력되지 않고 자연어 벡터가 입력된 경우, 행동 인식 장치(100)는 자연어 벡터를 획득한다(S440).
행동 인식 장치(100)는 자연어 벡터를 입력으로 적어도 하나의 특징값(제1 특징값)을 포함하는 자연어 특징 데이터를 생성한다(S450).
또한, 행동 인식 장치(100)는 자연어 특징 데이터에 포함된 특징값(제1 특징값)을 입력으로 소스 영상의 소스 특징 데이터와 분류를 위한 적어도 하나의 특징값(제2 특징값)을 포함하는 대상 특징 데이터를 생성한다(S460).
행동 인식 장치(100)는 대상 특징 데이터와 소스 특징 데이터를 이용하여 시퀀스(Sequence)에 대한 분류를 처리(제1 감별 처리)를 통해 제1 학습 결과를 생성한다(S470). 구체적으로, 행동 인식 장치(100)는 순차적 정보가 포함된 복수의 소스 특징값을 결합한 소스 특징 데이터와 순차적 정보가 포함된 복수의 대상 특징값을 결합한 대상 특징 데이터를 비교하여 대상 특징 데이터의 진위 여부를 학습한 제1 학습 결과를 출력한다.
또한, 행동 인식 장치(100)는 자연어 특징 데이터 및 대상 특징 데이터를 결합한 대상 결합 데이터와 소스 특징 데이터를 이용하여 세그먼트(Segment)에 대한 분류를 처리(제2 감별 처리)를 통해 제2 학습 결과를 생성한다(S480). 구체적으로, 행동 인식 장치(100)는
소스 특징 데이터의 세그먼트 단위의 데이터와 자연어 특징 데이터의 특징값과 대상 특징 데이터의 특징값을 결합한 세그먼트 단위의 대상 결합 데이터를 비교하여 대상 결합 데이터의 진위 여부를 학습한 제2 학습 결과를 출력한다.
도 4에서는 각 단계를 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 4에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 4는 시계열적인 순서로 한정되는 것은 아니다.
도 4에 기재된 본 실시예에 따른 행동 인식 학습 방법은 애플리케이션(또는 프로그램)으로 구현되고 단말장치(또는 컴퓨터)로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 행동 인식 학습 방법을 구현하기 위한 애플리케이션(또는 프로그램)이 기록되고 단말장치(또는 컴퓨터)가 읽을 수 있는 기록매체는 컴퓨팅 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치 또는 매체를 포함한다.
도 5는 본 발명의 실시예에 따른 프로세서의 행동 인식을 위한 동작 구성을 개략적으로 나타낸 블록 구성도이다.
본 실시예에 따른 행동 인식 장치(100)에 포함된 프로세서(130)는 입력 영상 획득부(510), 신경망 처리부(520), 학습 결과 적용부(530), 영상 판단부(540) 및 결과 출력부(550)를 포함한다. 도 5의 프로세서(130)는 일 실시예에 따른 것으로서, 도 5에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 프로세서(130)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 프로세서(130)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.
입력 영상 획득부(510)는 행동 인식을 위한 본적 없는 소스 영상을 획득한다. 여기서, 본적 없는 소스 영상은 행동 인식을 위한 학습 시 입력되지 않은 영상을 의미한다.
신경망 처리부(520)는 획득된 소스 영상을 입력으로 소스 특징 데이터를 생성한다. 신경망 처리부(520)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 기반으로 전처리를 수행하여 소스 특징 데이터를 생성할 수 있다. 여기서, 소스 특징 데이터는 복수의 영상 특징값을 포함할 수 있다.
학습 결과 적용부(530)는 소스 영상 데이터의 소스 특징 데이터에 시퀀스 특징 데이터를 학습한 제1 학습 결과와 세그먼트 특징 데이터를 학습한 제2 학습 결과를 적용하며, 영상 판단부(540)는 적용된 학습 결과를 기반으로 소스 영상의 행동을 인식한다.
결과 출력부(550)는 인식된 행동을 기반으로 행동 인식 결과를 출력한다.
도 6은 본 발명의 실시예에 따른 행동 인식 방법을 설명하기 위한 순서도이다.
행동 인식 장치(100)는 행동 인식을 위한 본적 없는 소스 영상을 획득한다(S610). 여기서, 본적 없는 소스 영상은 행동 인식을 위한 학습 시 입력되지 않은 영상을 의미한다.
행동 인식 장치(100)는 획득된 소스 영상을 입력으로 신경망 학습 기반의 전처리를 수행하여 영상 특징값을 추출하여 소스 특징 데이터를 생성한다(S620). 행동 인식 장치(100)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 기반으로 전처리를 수행하여 소스 특징 데이터를 생성할 수 있다.
행동 인식 장치(100)는 기 학습된 학습 결과를 적용하여 특징값 비교한다(S630). 구체적으로, 행동 인식 장치(100)는 소스 영상 데이터의 소스 특징 데이터에 시퀀스 특징 데이터를 학습한 제1 학습 결과와 세그먼트 특징 데이터를 학습한 제2 학습 결과를 적용하며 특징값을 비교한다.
행동 인식 장치(100)는 적용된 학습 결과를 기반으로 소스 영상(입력 영상)의 행동을 판단하고(S640), 인식된 행동을 기반으로 행동 인식 결과를 출력한다(S650).
도 6에서는 각 단계를 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 6에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 6은 시계열적인 순서로 한정되는 것은 아니다.
도 6에 기재된 본 실시예에 따른 행동 인식 방법은 애플리케이션(또는 프로그램)으로 구현되고 단말장치(또는 컴퓨터)로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 행동 인식 방법을 구현하기 위한 애플리케이션(또는 프로그램)이 기록되고 단말장치(또는 컴퓨터)가 읽을 수 있는 기록매체는 컴퓨팅 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치 또는 매체를 포함한다.
도 7은 본 발명의 실시예에 따른 행동 인식 장치의 학습 동작을 설명하기 위한 예시도이다.
비디오 데이터를 학습 과정에 사용할 수 없거나 학습을 위한 비디오 데이터가 없는 경우, 종래의 행동 인식 장치는 비디오에서 추출된 특징들을 평균화하여 처음 보는 이미지의 분류(ZSIC: Zero-shot Image Classification)를 통해 상속된 방법을 통해 행동을 인식하는 동작을 수행한다. 그러나, 이러한 종래의 행동 인식 방법은 비디오의 시계열적인 순차적 정보를 무시하여 행동을 인식하게 됨에 따라 비디오에 포함된 전체의 행동에 대한 인식 오류가 발생할 수 있다.
이러한 종래의 문제점을 해결하기 위해, 본 실시예에 따른 행동 인식 장치(100)는 순차적 정보를 고려한 시퀀스 생성적 모델을 통해 단일 샘플이 아니라 본 적 없는 클래스에 대한 일련의 동작을 합성할 수 있도록 하고, 처음 보는 행동에 대한 인식을 완전한 지도 학습 방식으로 전환한다.
본 실시예에 따른 행동 인식 장치(100)는 처음 보는 행동을 인식하기 위한 시퀀스를 생성하기 위해 속성 인코더(340), 생성자(350), 감별자(360) 등으로 구성될 수 있다. 구체적으로, 속성 인코더(340)는 시퀀스 생성을 위하여 자연어 벡터를 복수의 벡터로 변환하여 순차적 정보를 부여할 수 있다. 또한, 행동 인식 장치(100)의 시퀀스 생성적 모델은 생성된 시퀀스를 합성시, 행동의 세그먼트 뿐만 아니라, 시퀀스 감별자를 통해 실제 분포로 전체 행동의 시퀀스를 함께 샘플링한다. 여기서, 행동 인식 장치(100)는 순차적 특징 데이터 기반의 생성적 적대 신경망(SFGAN: Sequence Feature Generative Adversarial Network)으로 구현될수 있다.
행동 인식 장치(100)는 행동의 특징 시퀀스를 생성하는 생성적 모델을 포함하며, 이러한 모델은 단일 조건에서 시퀀스를 생성하고, 생성된 시퀀스는 현실적이어야 한다.
행동 인식 장치(100)는 우리는 시간적인 정보를 포함하는 시맨틱 임베딩 공간을 탐색하고 시퀀스 큐를 조건에서 전개하기 위해 재귀 신경망에 기반한 속성 엔코더(340)를 포함한다. 또한, 행동 인식 장치(100)는 행동의 순서를 무시하는 생성자에 대한 패널티를 적용하기 위한 시퀀스 감별자를 포함한다. 또한, 행동 인식 장치(100)는 제로샷 학습(ZSL: Zero-Shot Learning)의 시간 조건에 상응하는 처음 보는 행동의 특징을 생성할 수 있다.
본 발명에 따른 행동 인식 장치(100)는 기존의 준 지도 학습(Semi-Supervised Learning)을 완전한 지도 학습(Fully-Supervised Learning)으로 전환하기 위해 본적 없는 행동을 생성한다.
행동 인식 장치(100)는 평균화된 특징을 생성하는 종래의 제로샷 행동 인식 방식과는 달리, 행동 특징에 대한 시퀀스를 생성하는 시퀀스 기반의 생성적 적대 신경망(GAN: Generative Adversarial Network) 모델을 적용하며, 순차적 데이터를 처리하기 위한 속성 인코더(340), 생성자(350), 감별자(360) 등을 포함한다.
본 실시예에서 본적 있는 클레스(Class)에 대한 데이터 세트는 Ds로 정의될 수 있고, 본적 있는 데이터 세트 Ds
Figure PCTKR2020013782-appb-I000001
와 같이 표현될 수 있다. 여기서, xv
Figure PCTKR2020013782-appb-I000002
의 RGB 시각적 특징이고, xf
Figure PCTKR2020013782-appb-I000003
의 광학 흐름 특징이고, y는 Ys의 클레스 라벨(Class label)을 나타내며, c(y)는 클레스의 의미를 의미론적으로 나타낸 클레스 y의 자연어 임베딩을 의미한다.
이와 유사하게, 본 실시예에서 본적 없는 클레스에 대한 데이터 세트는 Du로 정의될 수 있고, Du는 Ys와 분리되어 있다. 본 실시예에서 본적 없는 데이터 세트 Du
Figure PCTKR2020013782-appb-I000004
와 같이 표현될 수 있다.
본 실시예에 따른 행동 인식 장치(100)에서는 처음 보는 행동을 인식(ZSAR: Zero-shot Action Recognition)을 위한 제약을 기반으로, 본적 있는 데이터 세트(Ds)와 본적 없는 데이터 세트(Du) 두 개의 데이터 세트 사이의 포함 관계는
Figure PCTKR2020013782-appb-I000005
Figure PCTKR2020013782-appb-I000006
를 만족하도록 설정된다.
행동의 시퀀스는 N의 특징 벡터 길이로 표현될 수 있고, 여기서 N은 시퀀스의 시간적 길이를 의미한다. 본적 있는 데이터는 행동 인식을 위한 학습 단계에서 접근할 수 있으나, 본적 없는 데이터의 RGB 특징 및 흐름 특징은 테스트 단계에서만 접근할 수 있다.
이하, 본 실시예에 따른 행동 인식 장치(100)에서 사용되는 처음 보는 행동의 인식을 위한 생성적 적대 학습 동작(GAN for Zero-shot Action Recognition)을 설명하도록 한다.
행동 인식 장치(100)에 적용되는 생성적 적대 신경망(GAN: Generative Adversarial Network)은 생성자(Generator, 350)와 감별자(discriminator, 360) 사이의 최소 극대화 알고리즘(Minimax Algorithm)을 통해 실제 분포에서 샘플을 생성하는 것을 목표로 한다. 여기서, 생성자(350)는 가짜 샘플을 생성하여 감별자(360)을 속이려 하는 동작을 수행하고, 반면 감별자(360)는 실제 샘플을 가짜 샘플과 구별하려 하는 동작을 수행한다.
또한, 본 실시예에 따른 행동 인식 장치(100)는 생성적 적대 신경망의 학습 안정성을 위해 그라디언트 패널티(gradient penalty)가 있는 목적 함수로 Wasserstein 거리를 조정한다. 행동 인식 장치(100)에서 본적 없는 클래스에서 샘플을 생성하기 위하여 생성 모델은 조건부 WGAN(Wasserstein GAN)을 기반으로 생성한다.
행동 인식 장치(100)에서 사용되는 목적 함수는 수학식 1과 같이 정의될 수 있다.
Figure PCTKR2020013782-appb-M000001
여기서 Pr과 Pg는 실제 분포와 생성된 분포를 의미하고,
Figure PCTKR2020013782-appb-I000007
는 생성자(350)의 출력을 의미하고,
Figure PCTKR2020013782-appb-I000008
는 x와
Figure PCTKR2020013782-appb-I000009
의 보간을 의미하며, 마지막 항은 페널티를 주어 그라디언트의 폭발(Gradient Exploding)하는 것을 방지하는 정규화항이며, γ는 항의 매개 변수를 의미한다.
이하, 본 실시예에 따른 행동 인식 장치(100)에서 본적 없는 행동 시퀀스를 생성하는 동작(Generating Unseen Action Sequence)을 설명하도록 한다.
행동 인식을 위한 비디오를 생성하는 것은 단일 프레임을 생성하는 것보다 어려운 동작이다. 비디오는 시간 축과 함께 더 복잡하므로, 동작 시퀀스를 완료하기 위하여 생성된 세그먼트가 조립될 때 각 세그먼트 사이의 간격은 자연스럽게 연결되어야 한다.
따라서, 본 실시예에 따른 행동 인식 장치(100)에서는 2 개의 조건을 기반으로 본적 없는 클레스의 비디오 특징 시퀀스를 생성한다. 첫 번째 조건은 단일 조건에서 시퀀스를 생성하는 것이고, 두 번째 조건은 시퀀스의 충실도를 보장하기 위하여 복수의 특징을 결합하여 시퀀스를 생성하는 것이다. 여기서, 단일 조건은 하나의 자연어 벡터를 의미하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
행동 인식 장치(100)는 본적 없는 비디오의 특징 시퀀스의 생성을 위해 단일 조건만 제공되는 경우, 생성자(350)에서는 두 가지 방법을 이용하여 시퀀스를 합성할 수 있다. 여기서, 두 가지 방법은 단일 조건에서 전체 기능을 간단히 생성하는 일대다 매핑과 주어진 조건을 생성하기 전에 예상 길이의 복수의 조건으로 확장하는 일대일 매핑일 수 있다. 여기서, 실제 비디오 생성하는 동작을 참고하면, 일대다 매핑을 수행할 경우, 부족한 조건과 네트워크 용량으로 인해 본적 없는 비디오의 특징 시퀀스를 생성하기는 어렵다. 따라서, 본 발명의 행동 인식 장치(100)에서는 재귀 신경망(RNN: Recurrent Neural Network)을 통해 시간 정보를 단일 조건에서 전개할 수 있는 속성 엔코더(340)를 포함한다. 즉, 속성 인코더(340)를 통해 시간 정보가 포함된 시맨틱 임베드 공간을 탐색한다.
다음으로, 행동 인식 장치(100)는 생성된 본적 없는 비디오의 특징 시퀀스의 충실도를 보장해야 한다. 행동 인식 장치(100)에서 단일 조건은 복수 개로 확장되고, 확장된 조건에서 세그먼트가 생성되고, 생성된 세크먼트를 수집하여 행동 시퀀스가 생성된다. 생성된 행동 시퀀스 전체의 흐름은 실제 행동 시퀀스만큼 자연스럽게 연결되어야만 한다.
따라서, 생성 모델은 시각적 공간에서 세그먼트와 시퀀스의 분포를 동시에 탐색해야만 한다. 이를 위해, 본 발명의 행동 인식 장치(100)의 감별자(360)는 실제 행동 시퀀스를 가짜 시퀀스와 구별하기 위한 시퀀스 감별자(372)를 포함한다.
이하, 본 실시예에 따른 행동 인식 장치(100)에서 적용된 행동 특징 기반의 생성적 적대 신경망(Action Feature Generative Adversarial Networks)의 동작을 설명하도록 한다.
도 7에서는 본 발명에 따른 행동 인식 장치(100)에 적용된 행동 시퀀스 특징 기반의 생성적 적대 신경망(SFGAN: Sequence Feature Generative Adversarial Networks)의 세부 구조를 나타낸다. 도 7을 참조하면, 행동 인식 장치(100)는 인코더(340), 생성자(350), 감별자(372, 374) 등으로 구성된 행동 시퀀스 특징 기반의 생성적 적대 신경망을 통해 본 적 없는 행동을 인식하기 위한 학습을 수행한다.
이하, 본 실시예에 따른 행동 인식 장치(100)에 포함된 속성 인코더(340)에 대해 설명하도록 한다.
인코더(340)는 입력된 단일 조건을 인코딩하여 출력값 c(y)을 출력한다. 여기서, 인코더(340)는 입력된 단일 조건의 시간 스트림을 풀기 위하여 재귀 신경망을 사용한다. 예를 들어, 인코더(340)는 자연어 벡터를 단일 조건으로 입력 받고, 자연어 벡터를 인코딩하여 자연어 특징 데이터를 출력할 수 있다.
또한, 인코더(340)는 GRU(Gated Recurrent Unit) 셀로 구성될 수 있으며, 인코더(340)의 GRU 동작은 수학식 2와 같이 정의될 수 있다.
Figure PCTKR2020013782-appb-M000002
여기서
Figure PCTKR2020013782-appb-I000010
= c(y)이고 k 는 0 < k < N, k ∈ N을 만족시킵니다.
인코더(340)는 단일 조건에서 다수의 조건으로 푸는 동작에 의해 잠재 공간에서 불연속이 발생한다. 따라서, 인코더(340)는 컨디셔닝 증강 기술(Conditioning Augmentation)을 추가로 사용한다.
다수의 조건으로 확장된 각각의 조건은 가우스 분포
Figure PCTKR2020013782-appb-I000011
에서 표본으로 다시 매개 변수화되며, 여기서 μ는 평균을 의미하고, Σ는 공분산 행렬을 의미한다.
인코더(340)는 시맨틱 공간을 과도하게 조정하고 매끄러움을 강화하는 것을 방지하기 위하여 KL-divergence(Kullback-Leibler divergence)를 정규화 용어로 사용한다.
따라서, 도 10에 도시된 바와 같이, 인코더(340)는
Figure PCTKR2020013782-appb-I000012
에서 매개 변수화된 조건
Figure PCTKR2020013782-appb-I000013
는 생성자(350)으로 전달되어 생성자(350)의 입력 조건의 역할을 한다.
또한, 생성자(350)에서 본적 없는 특징을 생성하기 위해서 조건
Figure PCTKR2020013782-appb-I000014
는 행동 사이의 관계정보를 포함해야 한다. 이에, 본 발명의 인코더(340)는 삼중항 손실함수를 사용하며, 삼중항 손실 함수는 GRU에 의해 처리된 조건을 원래 조건과 유사하게 처리하고 다른 행동의 조건과는 다르게 처리한다. 인코더(340)에 삼중항 손실함수에서 사용되는 목적 함수 및 정규화 용어는 수학식 3 및 4와 같이 정의될 수 있다.
Figure PCTKR2020013782-appb-M000003
Figure PCTKR2020013782-appb-M000004
여기서, d+는 파지티브(positive) 쌍의 거리를 의미하고, d-는 네거티브(negative) 쌍의 거리를 의미하며, c(y),
Figure PCTKR2020013782-appb-I000015
,
Figure PCTKR2020013782-appb-I000016
각각은 앵커(anchor), 파지티브 샘플 및 네거티브 샘플이다. m 은 삼중항 손실의 마진이며, 코사인 유사성을 삼중항 손실 거리 측정법으로 사용한다.
Figure PCTKR2020013782-appb-I000017
는 동일한 클립의 피처에서 샘플링되고 네거티브는 다른 동작의 클립에서 샘플링된다.
이하, 본 실시예에 따른 행동 인식 장치(100)에 포함된 생성자(350)에 대해 설명하도록 한다.
본 실시예에 따른 행동 인식 장치(100)는 완전한 지도 학습 방식을 통해 행동을 인식하며, 이러한 방식은 광학적 흐름의 특징을 사용하는 것이 바람직하다.
행동 인식 장치(100)는 본적 없는 행동인식을 위하여 생성자(350)를 포함하며, 생성자(350)는 RGB 특징과 흐름 특징이 결합된 결합 특징을 생성한다.
생성자(350)는 매개 변수화된 조건 at와 잠재 잡음 벡터 z를 입력으로 RGB 특징과 흐름 특징이 결합된 결합 특징을 생성한다.
흐름 특징은 원래의 RGB 비전에서 추출됨에 따라, 생성자(350)는 RGB 특징과 흐름 특징 간의 관계를 모델링하기 위해 풀리 커넥티드 레이어(fully connected layer)로 구성된다. 생성자(350)의 동작은 수학식 5와 같이 정의될 수 있다.
Figure PCTKR2020013782-appb-M000005
여기서 z는 잠재 잡음에 대한 랜덤 변수이고, n은 n 번째 임베디드 매개 변수화된 조건을 의미한다.
이하, 본 실시예에 따른 행동 인식 장치(100)에 포함된 감별자(360)에 대해 설명하도록 한다.
행동 인식 장치(100)에 포함된 감별자(360)는 생성자(350)에서 생성된 특징의 분포와 실제 분포의 차이를 판별하여 생성자(350)에 피드백을 제공한다.
본 실시예에 따른 감별자(360)는 도 11에 도시된 바와 같이, 세그먼트에 대한 판별을 위한 세그먼트 감별자(372)와 시퀀스에 대한 판별을 위한 시퀀스 감별자(374)로 구성될 수 있다.
세그먼트 감별자(372) 및 시퀀스 감별자(374) 각각은 실제 특징과 실제 시퀀스를 가짜와 구별하기 위한 복수의 풀리 커넥티드 레이어(fully connected layer)로 구성될 수 있다.
세그먼트 감별자(372)는 특징과 조건을 동시에 처리하고, 시퀀스 감별자(374)는 특징만을 처리한다.
본 실시예에 따른 행동 인식 장치(100)는 본적 없는 행동 시퀀스를 생성하는 것이기 때문에 훈련 중 과도한 컨디셔닝으로 인해 클래스에 편견이 생길 수 있다. 따라서, 행동 인식 장치(100)는 시퀀스 감별자(374)가 포함된 감별자(360)로 구성되어야 한다.
이하, 본 실시예에 따른 행동 인식 장치(100)에서 사용되는 목적 함수(Objective function)에 대해 설명하도록 한다.
본 실시예에 따른 행동 인식 장치(100)의 모델 학습을 위한 목적 함수는 조건부 Wasserstain GAN을 기반으로 한다. 그러한, 행동 인식 장치(100)에 포함된 시퀀스 감별자(374)는 본적 없는 행동 시퀀스를 생성하기 위해 무조건적으로 설계되었으며, 시퀀스 감별자(374)에서는 일반적인 Wasserstain 거리를 사용한다. 또한, 시퀀스 감별자(374)에 대한 기울기 패널티(gradient penalty)는 수학식 6과 같이 정의된다.
Figure PCTKR2020013782-appb-M000006
여기서 Runcond은 시퀀스 감별자(374)에 대한 무조건부 정규화를 의미하고, Rcond은 세그먼트 감별자(372)에 대한 조건부 정규화를 의미한다. 따라서, 생성 모델에 대한 손실 함수는 수학식 7과 같이 정의될 수 있다.
Figure PCTKR2020013782-appb-M000007
여기서, 0 ≤ n <N 이며, an은 인코딩된 조건(특징 데이터)를 나타내고, x는 실제 특징 데이터의 샘플이다. 또한,
Figure PCTKR2020013782-appb-I000018
은 생성자(350)에서 생성된 대상 특징 데이터를 나타내며,
Figure PCTKR2020013782-appb-I000019
이고,
Figure PCTKR2020013782-appb-I000020
이다. Runcond 및 Rcond는 각각 Dseq 및 Dseg에 대한 정규화 용어를 의미한다.
결과적으로, 행동 인식 장치(100)에서 사용되는 매개 변수가 있는 엔드-투-엔드 모델의 전체 목적 함수는 수학 식 8로 정의될 수 있다.
Figure PCTKR2020013782-appb-M000008
이하, 본 실시예에 따른 행동 인식 장치(100)에서 본적 없는 행동을 인식하는 동작에 대해 설명하도록 한다.
행동 인식 장치(100)는 본적 있는 데이터 세트(Ds)를 생성적 적대 신경망을 통해 학습한 후, 본적 없는 클레스의 조건으로부터 본적 없는 행동 특징
Figure PCTKR2020013782-appb-I000021
을 생성한다.
행동 인식 장치(100)는 처음보는 행동을 인식하기 위한 문제를 행동 인식을 위한 완전한 지도 학습 방식으로 처리하고, 평가시에는 다중 계층 퍼셉트론 분류기(Multi-Layer Perceptron classier)를 사용한다. 여기서, 분류기는 음의 로그 우도 손실을 최소화하여 최적화되며, 수학식 9와 같이 정의될 수 있다.
Figure PCTKR2020013782-appb-M000009
여기서, θ는 분류기에서 풀리 커넥티드 레이어(fully connected layer)의 가중치이고, F는 GZSL(Generalized Zero-Shot Learning) 또는 ZSL(Zero-Shot Learning)일 때 Du ∪ Ds 또는 Du를 의미한다. 또한, 분류를 위한 예측 함수는 수학 식 10과 같이 정의될 수 있다.
Figure PCTKR2020013782-appb-M000010
여기서 softmax 함수는
Figure PCTKR2020013782-appb-I000022
이며, GZSL에서 y ∈ Ys ∪ Yu, ZSL에서 y ∈ Yu를 의미한다.
도 8은 본 발명의 실시예에 따른 입력 영상을 처리하여 특징 데이터를 생성하는 동작을 설명하기 위한 예시도이다.
도 8을 참조하면, 행동 인식 장치(100)는 소스 영상을 획득한다. 여기서, 소스 영상은 비디오 클립(810)을 의미하며, 비디오 클립(810)은 5 개의 영상 세그먼트(811, 812, 813, 814, 815)로 구성될 수 있다. 여기서, 비디오 클립(810)은 농구, 야구, 출구 등에 대한 행동을 포함하는 클립일 수 있다. 영상 세그먼트(811, 812, 813, 814, 815) 각각은 32 개의 움직임 벡터 영상 프레임을 포함할 수 있다. 움직임 벡터 영상 프레임(820) 사이에는 차분 영상(821)이 추가로 포함될 수 있으며, 차분 영상(821)은 인접한 두 개의 움직임 벡터 영상 프레임(820)의 차이를 통해 생성된 영상을 의미한다.
도 8을 참조하면, 행동 인식 장치(100)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 위한 전처리(Pre-traning)를 수행하여 소스 특징 데이터(X)를 생성할 수 있다. 여기서, 소스 특징 데이터는 복수의 세그먼트 단위 별 특징값(831, 832, 833, 834, 835)를 포함하며, 각각의 특징값은 1×1024의 크기를 갖는 행렬 특징값일 수 있다.
도 9는 본 발명의 실시예에 따른 자연어 벡터를 처리하여 특징 데이터를 생성하는 동작을 설명하기 위한 예시도이다.
인코더(340)는 자연어 벡터(910)를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 동작을 수행한다. 여기서, 자연어 벡터는 시계열적인 정보를 포함하지 않고, 소정의 행동에 대하여 자연어 기반으로 생성된 벡터를 의미한다.
인코더(340)는 자연어 벡터(910)에 순차적 정보를 부여하여 복수 개의 벡터로 확장하고, 복수 개의 벡터 각각에 대응되는 적어도 하나의 특징값(921, 922, 923, 924, 925) 각각을 생성한다.
인코더(340)는 자연어 벡터의 평균, 표준 편차 및 노이즈 등 중 적어도 하나를 이용하여 자연어 벡터를 정규 분포 상에서 분포를 갖는 적어도 하나의 특징값(921, 922, 923, 924, 925) 각각을 생성한다.
제1 특징값 처리부(342)는 인코더(340)에서 출력된 적어도 하나의 특징값(921, 922, 923, 924, 925)을 포함하는 자연어 특징 데이터를 생성자(350)로 전달하는 동작을 수행한다. 제1 특징값 처리부(342)는 자연어 특징 데이터에 랜덤 변수(잠재 잡음에 대한 랜덤 변수)를 추가로 결합시켜 생성자(350)로 전달할 수 있다.
또한, 제1 특징값 처리부(342)는 인코더(340)에서 출력된 적어도 하나의 특징값(921, 922, 923, 924, 925)을 포함하는 자연어 특징 데이터를 제2 감별자(374)로 전송한다.
한편, 제1 특징값 처리부(342)는 인코더(340)에서 자연어 특징 데이터를 생성자(350)로 직접 전달하는 경우 생략되거나, 인코더(340)에 포함된 형태로 구현될 수 있다.
생성자(350)는 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 동작을 수행한다.
생성자(350)는 자연어 특징 데이터와 기 생성된 랜덤 변수를 기반으로 페이크(Fake) 영상에 대한 대상 특징 데이터를 생성한다. 여기서, 생성자(350)는 컨볼루션 뉴럴 네트워크(CNN: Convolutional Neural Networks) 학습을 통해 상기 대상 특성 데이터를 생성하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
생성자(350)는 적어도 하나의 특징값(931, 932, 933, 934, 935)을 포함하는 대상 특징 데이터를 생성한다. 여기서, 생성자(350)는 자연어 특징 데이터와 동일한 개수의 세그먼트 단위로 대상 특징 데이터를 생성한다. 여기서, 세그먼트 단위는 대상 특징 데이터에 포함된 각각의 특징값으로 구분될 수 있다.
제2 특징값 처리부(352)는 생성자(350)에서 출력된 대상 특징 데이터를 감별자(360)로 전달하는 동작을 수행한다. 제2 특징값 처리부(352)는 대상 특징 데이터를 제1 감별자(372) 및 제2 감별자(374) 각각으로 전달한다. 한편, 제2 특징값 처리부(352)는 생성자(350)에서 대상 특징 데이터를 감별자(360)로 직접 전달하는 경우 생략되거나, 생성자(350)에 포함된 형태로 구현될 수 있다.
도 10은 본 발명의 실시예에 따른 인코더의 동작 구성을 나타낸 도면이다.
인코더(340)는 자연어 벡터에 순차적 정보를 부여하여 복수 개의 벡터로 확장을 수행한다. 여기서, 단일 조건의 자연어 벡터는 LSTM(Long short-term memory), GRU(Gated recurrent unit) 등의 방식을 이용하여 확장될 수 있다.
또한, 인코더(340)는 복수 개의 벡터 각각에 대응되는 적어도 하나의 특징값 각각을 생성한다. 인코더(340)는 자연어 벡터의 평균(μ), 표준 편차(σ) 및 노이즈(ε) 등 중 적어도 하나를 이용하여 자연어 벡터를 정규 분포 상에서 분포를 갖는 적어도 하나의 특징값(ai) 각각을 생성한다.
도 11은 본 발명의 실시예에 따른 감별자의 동작 구성을 나타낸 도면이다.
감별자(360)는 소스 특징 데이터와 자연어 특징 데이터, 대상 특징 데이터 등 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 한다. 본 실시예에 따른 감별자(360)는 제1 감별자(372) 및 제2 감별자(374)를 포함한다.
제1 감별자(372)는 대상 특징 데이터와 소스 특징 데이터를 이용하여 시퀀스(Sequence)에 대한 분류를 처리하는 동작을 수행한다. 제1 감별자(372)는 대상 특징 데이터와 소스 특징 데이터를 입력 받고, 대상 특징 데이터의 진위 여부를 판별할 수 있다. 구체적으로, 제1 감별자(372)는 순차적 정보가 포함된 복수의 소스 특징값을 결합(Concatenation)한 소스 특징 데이터와 순차적 정보가 포함된 복수의 대상 특징값을 결합한 대상 특징 데이터를 비교하여 대상 특징 데이터의 진위 여부를 학습한 제1 학습 결과를 출력한다. 여기서, 제1 학습 결과는 [0, 1] 사이의 값으로 표현될 수 있다. 제1 감별자(372)에서 대상 특징 데이터의 진위 여부의 판단 결과, 0 값에 가까울수록 거짓(Fake) 신호로 분류된 것이고 1 값에 가까울수록 참(Real) 신호로 분류된 것이다.
제2 감별자(374)는 자연어 특징 데이터 및 대상 특징 데이터를 결합한 대상 결합 데이터와 소스 특징 데이터를 이용하여 세그먼트(Segment)에 대한 분류를 처리하는 동작을 수행한다. 제2 감별자(374)는 대상 결합 데이터와 소스 특징 데이터를 입력 받고, 대상 결합 데이터의 진위 여부를 판별할 수 있다.
구체적으로, 제2 감별자(374)는 소스 특징 데이터의 세그먼트 단위와 대상 결합 데이터의 세그먼트 단위를 비교하여 대상 결합 데이터의 진위 여부를 학습한 제2 학습 결과를 출력한다. 여기서, 제2 학습 결과는 [0, 1] 사이의 값으로 표현될 수 있다. 제2 감별자(374)에서 대상 결합 데이터의 진위 여부의 판단 결과, 0 값에 가까울수록 거짓(Fake) 신호로 분류된 것이고 1 값에 가까울수록 참(Real) 신호로 분류된 것이다.
제2 감별자(374)는 소스 특징 데이터의 세그먼트 단위의 데이터와 자연어 특징 데이터의 특징값과 대상 특징 데이터의 특징값을 결합((Concatenation))한 세그먼트 단위의 대상 결합 데이터를 비교하여 세그먼트에 대한 분류를 처리할 수 있다.
이상의 설명은 본 발명의 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명의 실시예들은 본 발명의 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
<부호의 설명>
100: 행동 인식 장치
110: 입력부 120: 출력부
130: 프로세서 140: 메모리
150: 데이터 베이스
310: 영상 획득부 320: 전처리부
322: 영상 특징값 처리부 330: 자연어 벡터 획득부
340: 인코더 342: 제1 특징값 처리부
350: 생성자 352: 제2 특징값 처리부
360: 감별자

Claims (15)

  1. 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 행동 인식 학습 방법에 있어서, 상기 컴퓨팅 디바이스는,
    자연어 벡터를 획득하는 자연어 획득 단계;
    자연어 벡터를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 자연어 처리 단계;
    상기 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 생성 처리 단계; 및
    상기 소스 특징 데이터와 상기 자연어 특징 데이터 및 상기 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 하는 감별 처리 단계
    를 수행하는 것을 특징으로 하는 행동 인식 학습 방법.
  2. 제1항에 있어서,
    상기 자연어 처리 단계는,
    상기 자연어 벡터에 순차적 정보를 부여하여 복수 개의 벡터로 확장하고, 상기 복수 개의 벡터 각각에 대응되는 상기 적어도 하나의 특징값 각각을 생성하는 것을 특징으로 하는 행동 인식 학습 방법.
  3. 제2항에 있어서,
    상기 자연어 처리 단계는,
    상기 자연어 벡터의 평균, 표준 편차 및 노이즈 중 적어도 하나를 이용하여 상기 자연어 벡터를 정규 분포 상에서 분포를 갖는 상기 적어도 하나의 특징값 각각을 생성하는 것을 특징으로 하는 행동 인식 학습 방법.
  4. 제2항에 있어서,
    상기 자연어 처리 단계는,
    재귀 신경망을 기반으로 상기 자연어 벡터를 상기 복수 개의 벡터로 확장하며, 상기 순차적 정보를 포함하는 상기 복수 개의 벡터 각각은 이전 시점에 생성된 벡터에 근거하여 생성되는 것을 특징으로 하는 행동 인식 학습 방법.
  5. 제1항에 있어서,
    상기 생성 처리 단계는,
    상기 자연어 특징 데이터와 기 생성된 랜덤 변수를 기반으로 페이크(Fake) 영상에 대한 상기 대상 특징 데이터를 생성하는 것을 특징으로 하는 행동 인식 학습 방법.
  6. 제5항에 있어서,
    상기 생성 처리 단계는,
    컨볼루션 뉴럴 네트워크(CNN) 학습을 통해 상기 대상 특성 데이터를 생성하는 것을 특징으로 하는 행동 인식 학습 방법.
  7. 제5항에 있어서,
    상기 생성 처리 단계는,
    상기 자연어 특징 데이터와 동일한 개수의 세그먼트 단위로 상기 대상 특징 데이터를 생성하는 것을 특징으로 하는 행동 인식 학습 방법.
  8. 제1항에 있어서,
    상기 감별 처리 단계는,
    상기 대상 특징 데이터와 상기 소스 특징 데이터를 이용하여 시퀀스(Sequence)에 대한 분류를 처리하는 제1 감별 처리 단계; 및
    상기 자연어 특징 데이터 및 상기 대상 특징 데이터를 결합한 대상 결합 데이터와 상기 소스 특징 데이터를 이용하여 세그먼트(Segment)에 대한 분류를 처리하는 제2 감별 처리 단계
    를 포함하는 것을 특징으로 하는 행동 인식 학습 방법.
  9. 제8항에 있어서,
    상기 제1 감별 처리 단계는,
    순차적 정보가 포함된 복수의 소스 특징값을 결합한 상기 소스 특징 데이터와 순차적 정보가 포함된 복수의 대상 특징값을 결합한 상기 대상 특징 데이터를 비교하여 상기 대상 특징 데이터의 진위 여부를 학습한 제1 학습 결과를 출력하는 것을 특징으로 하는 행동 인식 학습 방법.
  10. 제9항에 있어서,
    상기 제1 감별 처리 단계는,
    상기 제1 학습 결과에 근거하여 상기 대상 특징 데이터를 생성하는 단계로 피드백 정보를 전달하며, 상기 소스 특징 데이터와 상기 대상 특징 데이터를 비교하여 상기 대상 특징 데이터가 참 신호에 해당할 때까지 반복하여 상기 대상 특징 데이터의 진위 여부를 학습하는 것을 특징으로 하는 행동 인식 학습 방법.
  11. 제8항에 있어서,
    상기 제2 감별 처리 단계는,
    상기 소스 특징 데이터의 세그먼트 단위와 상기 대상 결합 데이터의 세그먼트 단위를 비교하여 상기 대상 결합 데이터의 진위 여부를 학습한 제2 학습 결과를 출력하는 것을 특징으로 하는 행동 인식 학습 방법.
  12. 제11항에 있어서,
    상기 제2 감별 처리 단계는,
    상기 제2 학습 결과에 근거하여 상기 대상 특징 데이터를 생성하는 단계로 피드백 정보를 전달하며, 상기 소스 특징 데이터와 상기 대상 결합 데이터를 비교하여 상기 대상 결합 데이터가 참 신호에 해당할 때까지 반복하여 상기 대상 결합 데이터의 진위 여부를 학습하는 것을 특징으로 하는 행동 인식 학습 방법.
  13. 제8항에 있어서,
    상기 제2 감별 처리 단계는,
    상기 소스 특징 데이터의 세그먼트 단위의 데이터와 상기 자연어 특징 데이터의 특징값과 상기 대상 특징 데이터의 특징값을 결합한 세그먼트 단위의 상기 대상 결합 데이터를 이용하여 세그먼트에 대한 분류를 처리하는 것을 특징으로 하는 행동 인식 학습 방법.
  14. 본적 없는 행동을 인식하는 장치로서,
    하나 이상의 프로세서; 및
    상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서,
    자연어 벡터를 획득하는 자연어 획득 단계;
    자연어 벡터를 입력으로 적어도 하나의 특징값을 포함하는 자연어 특징 데이터를 생성하는 자연어 처리 단계;
    상기 자연어 특징 데이터를 기반으로 소스 영상의 소스 특징 데이터와 분류를 위한 대상 특징 데이터를 생성하는 생성 처리 단계; 및
    상기 소스 특징 데이터와 상기 자연어 특징 데이터 및 상기 대상 특징 데이터 중 적어도 하나를 기반으로 시퀀스(Sequence) 및 세그먼트(Segment) 각각에 대한 분류를 처리하여 객체의 행동 인식이 수행되도록 하는 감별 처리 단계
    를 포함하는 동작들을 수행하게 하는 것을 특징으로 하는 행동 인식 장치.
  15. 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 행동 인식 방법에 있어서,
    상기 컴퓨팅 디바이스는,
    본적 없는 소스 영상을 입력 받고, 상기 소스 영상 데이터의 소스 특징 데이터에 시퀀스 특징 데이터를 학습한 제1 학습 결과와 세그먼트 특징 데이터를 학습한 제2 학습 결과를 적용하여 행동을 판단하고, 판단된 행동 인식 결과를 출력하는 것을 특징으로 행동 인식 방법.
PCT/KR2020/013782 2019-12-16 2020-10-08 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치 WO2021125521A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190168077A KR102334388B1 (ko) 2019-12-16 2019-12-16 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치
KR10-2019-0168077 2019-12-16

Publications (1)

Publication Number Publication Date
WO2021125521A1 true WO2021125521A1 (ko) 2021-06-24

Family

ID=76477688

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/013782 WO2021125521A1 (ko) 2019-12-16 2020-10-08 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치

Country Status (2)

Country Link
KR (1) KR102334388B1 (ko)
WO (1) WO2021125521A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707990B (zh) * 2022-03-23 2023-04-07 支付宝(杭州)信息技术有限公司 一种用户行为模式的识别方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150039252A (ko) * 2013-10-01 2015-04-10 한국전자통신연구원 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법
KR101563297B1 (ko) * 2014-04-23 2015-10-26 한양대학교 산학협력단 영상에서 행동을 인식하는 방법 및 장치
KR20160096460A (ko) * 2015-02-05 2016-08-16 삼성전자주식회사 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
WO2017150211A1 (ja) * 2016-03-03 2017-09-08 コニカミノルタ株式会社 行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム
KR20190054702A (ko) * 2017-11-14 2019-05-22 고려대학교 산학협력단 영상에서 객체의 행동을 인식하는 방법 및 그 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011118777A (ja) 2009-12-04 2011-06-16 Sony Corp 学習装置および学習方法、予測装置および予測方法、並びにプログラム
KR102060662B1 (ko) * 2017-05-16 2019-12-30 삼성전자주식회사 차량의 주행 이벤트를 검출하는 전자 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150039252A (ko) * 2013-10-01 2015-04-10 한국전자통신연구원 행동 인식 기반의 응용 서비스 제공 장치 및 그 방법
KR101563297B1 (ko) * 2014-04-23 2015-10-26 한양대학교 산학협력단 영상에서 행동을 인식하는 방법 및 장치
KR20160096460A (ko) * 2015-02-05 2016-08-16 삼성전자주식회사 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
WO2017150211A1 (ja) * 2016-03-03 2017-09-08 コニカミノルタ株式会社 行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム
KR20190054702A (ko) * 2017-11-14 2019-05-22 고려대학교 산학협력단 영상에서 객체의 행동을 인식하는 방법 및 그 장치

Also Published As

Publication number Publication date
KR102334388B1 (ko) 2021-12-01
KR20210076659A (ko) 2021-06-24

Similar Documents

Publication Publication Date Title
WO2019164251A1 (en) Method of performing learning of deep neural network and apparatus thereof
WO2021080103A1 (en) Method for learning and testing user learning network to be used for recognizing obfuscated data created by concealing original data to protect personal information and learning device and testing device using the same
WO2021091022A1 (ko) 머신 러닝 시스템 및 머신 러닝 시스템의 동작 방법
WO2022255529A1 (ko) 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
WO2020242090A1 (en) Apparatus for deep representation learning and method thereof
WO2022203167A1 (en) Speech recognition method, apparatus, electronic device and computer readable storage medium
WO2023167532A1 (en) Method and apparatus for video action classification
WO2022004971A1 (ko) 영상 생성을 위한 학습 장치 및 방법
WO2020130260A1 (en) Mobile terminal and method of operating the same
WO2018097439A1 (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
WO2021125521A1 (ko) 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치
WO2022240029A1 (ko) 반려동물 식별 시스템 및 그 방법
WO2019190142A1 (en) Method and device for processing image
WO2021112517A1 (en) Method and electronic device for description parameter based modification of images
EP3707678A1 (en) Method and device for processing image
WO2023224430A1 (en) Method and apparatus for on-device personalised analysis using a machine learning model
WO2011068315A4 (ko) 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
WO2023167530A1 (en) Method for classifying images using novel classes
WO2020080812A1 (en) Electronic device and controlling method of electronic device
WO2019198900A1 (en) Electronic apparatus and control method thereof
WO2022145918A1 (en) System for determining feature of acrylonitrile butadiene styrene using artificial intellectual and operation thereof
WO2019107624A1 (ko) 시퀀스-대-시퀀스 번역 방법 및 이를 위한 장치
WO2021194105A1 (ko) 전문가 모사 모델 학습 방법 및 그 학습을 위한 장치
EP4352690A1 (en) Method and system for automatically capturing and processing an image of a user
WO2020141643A1 (ko) 음성 합성 서버 및 단말기

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20902271

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20902271

Country of ref document: EP

Kind code of ref document: A1