WO2017099292A1 - 물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치 - Google Patents

물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치 Download PDF

Info

Publication number
WO2017099292A1
WO2017099292A1 PCT/KR2016/000730 KR2016000730W WO2017099292A1 WO 2017099292 A1 WO2017099292 A1 WO 2017099292A1 KR 2016000730 W KR2016000730 W KR 2016000730W WO 2017099292 A1 WO2017099292 A1 WO 2017099292A1
Authority
WO
WIPO (PCT)
Prior art keywords
behavior
user
input image
main
list
Prior art date
Application number
PCT/KR2016/000730
Other languages
English (en)
French (fr)
Inventor
변혜란
임광용
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of WO2017099292A1 publication Critical patent/WO2017099292A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Definitions

  • the present invention relates to a method and apparatus for recognizing a user's behavior in an image.
  • Patent Document 0001 Korean Unexamined Patent Publication No. 2013-0005548 (2013.01.16).
  • An object of the present invention is to provide a method and apparatus for improving user performance recognition performance in an image using a predefined object-behavioral relationship model.
  • the present invention focuses on the fact that even when a user's behavior is the same or similar behavior, the meaning of the object is different according to the type of the object related to the space, place, or behavior in which the behavior occurs, so as to pre-establish a relationship model between object-action
  • An apparatus for recognizing a behavior and a method thereof for recognizing a meaning of a user's behavior detected in an image by using the same is provided.
  • the main surface extraction unit for extracting at least one main surface from the input image;
  • An action list setting unit for recognizing the meaning of the extracted main plane and setting a list of possible behaviors for each of the extracted main planes according to the meaning of the recognized main plane;
  • a behavior recognition unit that selects the main surface corresponding to the position where the user's action occurs in the input image, and recognizes the user's behavior based on the action list of the selected main surface.
  • the main surface extractor may extract at least one main normal vector from the input image, and extract each region corresponding to the extracted main normal vector from the input image as the main surface.
  • the main plane extractor may include a main normal vector extractor that calculates a local normal vector from the input image and determines the main normal vector among the calculated local normal vectors.
  • the main normal vector extracting unit calculates a normal vector in a local plane of the input image as the local normal vector, clusters the calculated local normal vectors, and among the clustered vectors, the main normal vector. Can be determined.
  • the main plane extractor may include a plane extractor that collects pixels having the main normal vector from the input image, and extracts the main plane corresponding to the main normal vector by clustering the collected pixels. can do.
  • the action list setting unit receives object recognition information including position information of the object existing in the input image and semantic information of the object, and inputs the semantic information of the object corresponding to the position of the main surface. Accordingly, it may include a main surface recognition unit for recognizing the meaning of the main surface.
  • the action list setting unit searches for the object corresponding to the meaning of the main plane in an object-behavioral relationship model that predefines a relationship between an object and an action, and uses the object-behavior related to the searched object. Extracting from a relationship model, and may include a list setting unit for setting the list of the behavior of the main surface according to the extracted behavior.
  • the object-behavior relationship model may be a model in which at least one or more of the behaviors related to the object are predefined for each of the at least one object.
  • the object recognizing apparatus may further include an object recognizing unit configured to detect and recognize an object in the input image or a separate input image.
  • the object recognizer may set location information in the input image of the detected object and set semantic information of the recognized object.
  • the behavior recognition unit may include: a behavior location detector configured to detect a location where the user's behavior occurs in the input image; A main plane selection unit for selecting the main plane corresponding to the position where the user's action occurs; And a user behavior recognition unit recognizing the user's behavior based on the behavior list of the selected main surface.
  • the main plane selection unit may select the main plane located within a predetermined distance from a location where the user's action occurs among the main planes extracted by the main plane extraction unit.
  • the user behavior recognizing unit recognizes at least one candidate behavior by recognizing the motion or posture of the user in the input image, and among the determined candidate behaviors, the candidate behavior corresponding to the behavior included in the behavior list. By selecting it can be recognized as the user's behavior.
  • a behavior recognition apparatus including: an object recognition unit configured to detect and recognize at least one object from an input image; An action list setting unit for setting a list of actions that may occur with respect to the recognized object; And a behavior recognizing unit that selects the object corresponding to a location where the user's action occurs in the input image and recognizes the user's behavior based on the list of actions of the selected object.
  • the action list setting unit searches for the object corresponding to the recognized object in a pre-defined object-behavior relationship model, and defines an action related to the retrieved object in the object-behavior relationship. Extracted from the model, the behavior list of the object may be set according to the extracted behavior.
  • the behavior recognition unit may include: a behavior location detector configured to detect a location where the user's behavior occurs in the input image; An object selecting unit which selects the object corresponding to a position where the user's action occurs; And a user behavior recognition unit recognizing the user's behavior based on the behavior list of the selected object.
  • the object selector may select the object located within a predetermined distance from a location where the user's action occurs among the objects of the input image.
  • the user behavior recognizing unit recognizes at least one candidate behavior by recognizing the motion or posture of the user in the input image, and among the determined candidate behaviors, the candidate behavior corresponding to the behavior included in the behavior list. By selecting it can be recognized as the user's behavior.
  • a behavior recognition method including: extracting at least one main plane from an input image; A behavior list setting step of recognizing the meaning of the extracted main surface and setting a list of possible behaviors for each of the extracted main surfaces according to the meaning of the recognized main surface; And a behavior recognition step of selecting the main surface corresponding to the position where the user's action occurs in the input image, and recognizing the user's behavior based on the action list of the selected main surface.
  • a behavior recognition method comprising: an object recognition step of detecting and recognizing at least one object from an input image; A behavior list setting step of setting a behavior list that may occur with respect to the recognized object; And a behavior recognizing step of selecting the object corresponding to the location where the user's action occurs in the input image and recognizing the user's behavior based on the list of actions of the selected object.
  • the behavior recognition apparatus and the method according to the present invention it is possible to more accurately recognize the meaning of the user's behavior in the image.
  • FIG. 1 is a block diagram of a behavior recognition apparatus according to an embodiment of the present invention.
  • FIG. 2 is a detailed block diagram of the main surface extractor 200.
  • 3A and 3B are reference diagrams for describing an operation of the main surface extractor 200.
  • FIG. 4 is a detailed block diagram of the action list setting unit 300.
  • FIG. 5 is a reference diagram illustrating an object-behavior relationship graph model.
  • FIG. 6 is a detailed block diagram of the behavior recognition unit 400.
  • FIG. 7 is a block diagram of a behavior recognition apparatus according to an embodiment of the present invention.
  • FIG. 9 is a flowchart illustrating a behavior recognition method according to an embodiment of the present invention.
  • 11 is a detailed flowchart of the action list setting step S300.
  • FIG. 13 is a flowchart of a behavior recognition method according to an embodiment of the present invention.
  • the behavior recognition apparatus may include a main surface extractor 200, a behavior list setting unit 300, and a behavior recognition unit 400. If necessary, the behavior recognition apparatus according to an embodiment of the present invention may further include an object recognition unit 100.
  • the behavior recognition apparatus may be implemented as a computer program having a program module in which some or all of the respective elements are selectively combined to perform some or all of the functions combined in one or a plurality of hardware.
  • each component may be implemented as one independent hardware or included in each hardware, if necessary.
  • the behavior recognition apparatus according to the present invention may be implemented as a software program to operate on a processor or a signal processing module, or may be implemented in the form of hardware to be included in various processors, chips, semiconductors, devices, and the like.
  • the behavior recognition apparatus according to the present invention may be included and operate in the form of hardware or software modules on various embedded systems or devices.
  • the behavior recognition apparatus according to the present invention may be implemented by being included in a TV device, a notebook, a mobile phone, or in a server device connected to the devices by a network.
  • FIG. 1 is a block diagram of a behavior recognition apparatus according to an embodiment of the present invention.
  • the main plane extractor 200 extracts at least one main plane from the input image.
  • the action list setting unit 300 recognizes the meaning of the extracted main plane and sets a list of possible actions for each of the extracted main planes according to the meaning of the recognized main plane.
  • the behavior recognition unit 400 selects the main surface corresponding to the position where the user's action occurs in the input image, and recognizes the user's behavior based on the action list of the selected main surface.
  • the object recognition unit 100 detects and recognizes an object from the input image or a separate input image.
  • the object recognizer 100 detects and recognizes an object from the input image or a separate input image.
  • the object recognizer 100 may detect and recognize an object in the same input image as the input image used by the main surface extractor 200 and the behavior recognizer 400.
  • the object recognition unit 100 may receive an input image different from the input image used by the main surface extractor 200 and the behavior recognition unit 400, and detect and recognize an object in the separate input image.
  • the main surface extractor 200 and the behavior recognizer 400 may receive an input image including depth information, and the object recognizer 100 may receive a two-dimensional simple input image. have.
  • the object recognizing unit 100 may set position information in the input image of the detected object and set semantic information of the recognized object.
  • the object recognizing unit 100 may set the location information by setting the location of the detected object to a specific coordinate in the input image, and provide semantic information corresponding to the location information according to the meaning of the recognized object. Can be set.
  • the semantic information of the object is information on which object or object the detected object corresponds to, for example, may be a 'door', a 'chair', a 'table', or the like.
  • the object recognition may be performed in a manner of recognizing an object as one of a plurality of predefined classes using a classifier.
  • the object recognition unit 100 may detect an object as an image and recognize the detected object by using a preset object recognition algorithm.
  • the preset object recognition algorithm may be selected as one of various object recognition methods.
  • the object recognizing unit 100 may analyze the image and detect and recognize a target object to be detected using predetermined feature information.
  • various types of existing features may be extracted from the image, and object detection and recognition may be performed using the same. For example, for detecting and recognizing an object, various features such as edge characteristics, corner characteristics, Laglacian of Gaussian (LoG), and Difference of Gaussian (DoG) may be extracted and used.
  • various features such as edge characteristics, corner characteristics, Laglacian of Gaussian (LoG), and Difference of Gaussian (DoG) may be extracted and used.
  • various feature description methods such as scale-invariant feature transform (SIFT), speeded up robust features (SURF), and histogram of oriented gradients (HOG) may be used for object detection and recognition.
  • SIFT scale-invariant feature transform
  • SURF speeded up robust features
  • HOG histogram of oriented gradients
  • the object may be detected and recognized by comparing a predetermined area in the template image and the target image to detect and recognize the object.
  • the object in the image may be detected and recognized using a classifier previously learned based on the extracted feature or template for object detection and recognition.
  • the classifier used here may be an SVM machine or a classifier using various other existing classification functions.
  • the object recognition unit 100 may use various object recognition methods to recognize an object in an image. See, eg, "Lowe, David G.” Object recognition from local scale-invariant features.
  • the main plane extractor 200 extracts at least one main plane from the input image.
  • the input image may be a two-dimensional image or an image including depth information.
  • the main surface may be a surface determined to be important among the surfaces included in the input image.
  • the surface may be a set of pixels divided into the same segments in the input image.
  • the main surface extractor 200 may divide the input image by using various image segmentation algorithms to set planes for each of the segmented segments, and set a segment determined as important among the segmented segments as the main plane.
  • a segment having an area greater than or equal to a predetermined ratio between the segments may be selected as an important segment and set as the main plane.
  • the image segmentation algorithm may use various known segment algorithms.
  • the main surface extractor 200 may extract a normal vector from the input image and extract a main surface based on the same as described below.
  • the main surface extractor 200 may extract at least one main normal vector from the input image, and extract each region corresponding to the extracted main normal vector from the input image as the main surface.
  • the main surface extractor 200 may include a main normal vector extractor 210 and a surface extractor 220.
  • FIG. 2 is a detailed block diagram of the main surface extractor 200.
  • the main normal vector extractor 210 calculates a local normal vector from the input image, and determines the main normal vector from the calculated local normal vector.
  • the main normal vector extractor 210 calculates a normal vector on the local plane of the input image as the local normal vector, clusters the calculated local normal vectors, and selects the main normal vector from the clustered vectors. You can decide.
  • 3A and 3B are reference diagrams for describing an operation of the main surface extractor 200.
  • the main normal vector extracting unit 210 may set a local plane by setting adjacent points as a set for each point included in the input image, and calculate a normal vector in the local plane.
  • the main normal vector extractor 210 may calculate a normal vector of a local plane by using a principal component analysis method.
  • the component vectors constituting the coordinates of the adjacent points may be decomposed using a principal component analysis method to obtain two axes as principal components, and the normal vector of the local plane may be calculated externally of the acquired two axes.
  • the normal vector of the local plane may be calculated from the input image as shown in FIG. 3A.
  • the main normal vector extracting unit 210 may extract the main normal vector using a local normal vector which is a normal vector of the extracted local plane. At this time, one or more normal vectors may be extracted. In an embodiment, a vector having a predetermined ratio or more among the local normal vectors may be extracted as a main normal vector. In another embodiment, the local normal vector may be clustered and the main normal vector may be determined from the clustered vectors. In this case, a vector occupying a predetermined ratio or more among the clustered vectors may be determined as the main normal vector. For example, the main normal vector may be a normal vector in a direction perpendicular to the bottom surface in the image and a normal vector in a direction perpendicular to the wall surface. According to an embodiment, the main normal vector extractor 210 may perform the clustering using a Mean-Shift algorithm.
  • a local normal vector extracted from an input image as shown in FIG. 3A may be clustered.
  • the surface extractor 220 collects pixels having the main normal vector from the input image, and extracts the main surface corresponding to the main normal vector by clustering the collected pixels. Even pixels having the same main normal vector may be pixels included in the surfaces of different objects in the input image. Therefore, the surface extractor 220 may cluster pixels having the main normal vector and extract the clustered set of pixels as the main plane.
  • the pixels corresponding to the main normal vector in the direction perpendicular to the floor in the input image may be pixels corresponding to the floor, pixels corresponding to the table top, or pixels corresponding to a seating surface of the chair. It may be. Therefore, in order to extract these pixels into different main planes, the main planes are extracted from the input image by clustering the pixels having the main normal vectors as described above, and setting the main planes for each set of pixels classified according to the result. can do.
  • a main plane may be extracted by clustering pixels having a main normal vector in the input image as shown in FIG. 3A.
  • the surface extractor 220 may extract a set of pixels corresponding to a main cluster among the clustered sets of pixels as a main surface. For example, the surface extractor 220 may select this as the main surface only when the clustered sets of pixels have a predetermined size or more or a predetermined ratio or more in the input image.
  • the surface extractor 220 may select a portion of the extracted main surfaces according to the angle of the main normal vector and set only the selected main surfaces as the main surface.
  • the face extractor 220 resets only the main face having the main normal vector within the preset angle range as the main face, and removes the main faces having the main normal vector not included in the range from the main face. can do.
  • the plane extractor 220 may compare the main normal vector with a preset angle range, and finally determine the main plane according to the result.
  • the range of the preset angle can be set as needed, such as -20 degrees to 20 degrees.
  • FIG. 3B is a reference diagram illustrating a result of selecting only main surfaces corresponding to a horizontal plane according to an angle range as a result of performing the above processes on the input image as shown in FIG. 3A.
  • main surfaces such as a bottom surface P1, a table upper surface P2, and a chair upper surface P3 may be set.
  • the action list setting unit 300 recognizes the meaning of the extracted main plane and sets a list of possible actions for each of the extracted main planes according to the meaning of the recognized main plane.
  • the main plane extracted by the main plane extractor 200 only holds information corresponding to a specific region in the input image.
  • the action list setting unit 300 receives recognition information about an object in the input image and uses the same to recognize the meaning of the extracted main surface. Can be.
  • the action list setting unit 300 may recognize a specific main surface as a door or a floor surface, and the meaning of the main surface is a door and a floor surface.
  • the action list setting unit 300 determines possible actions for each main surface according to the meaning of the recognized main surface and sets this as the action list. For example, if you recognize a particular key aspect as a door, you can set up a list of actions that includes 'opening door' and 'closing door'.
  • the action list setting unit 300 may include a main surface recognition unit 310 and a list setting unit 320.
  • FIG. 4 is a detailed block diagram of the action list setting unit 300.
  • the main plane recognition unit 310 receives object recognition information including position information of the object existing in the input image and semantic information of the object, and receives the object recognition information according to the semantic information of the object corresponding to the position of the main plane. Recognize the meaning of the main aspects.
  • the main plane recognition unit 310 is an object corresponding to the location of the main plane, and may select an object located within a predetermined distance from the main plane or an object overlapping with the main plane. To this end, the main plane recognition unit 310 may compare the location of the main plane with the location information of the object and determine whether the main plane corresponds to the object.
  • the main plane recognition unit 310 may recognize the meaning of the main plane according to the semantic information of the object corresponding to the main plane. For example, if the meaning of the object corresponding to the position of the main surface is the 'door', the meaning of the main surface may be the 'door'.
  • the main surface recognition unit 310 may receive object recognition information generated by the object recognition unit 100.
  • the list setting unit 320 searches for the object corresponding to the meaning of the main plane in an object-behavioral relationship model that pre-defines the relationship between an object and an action, and displays an action related to the searched object in the object-behavioral model. Extract and set the action list of the main plane according to the extracted action.
  • the action list is a list of possible actions, and the action list can be set for each major aspect.
  • the object-behavior relationship model may be a model in which at least one or more of the behaviors related to the object for each of the objects is predefined for at least one or more of the objects. Since there are possible actions of the user related to the object for each object, the object-behavior relationship model may be set by defining the action for each object in advance. In addition, the object-behavior relationship model may set the probability that a specific action will occur when the object is assumed in defining the related actions for each object. Here, different probability values may be set for the related behaviors for each object.
  • the list setting unit 320 may search for an object corresponding to the meaning of the main plane in the object-behavior relationship model, extract the behavior associated with the searched object, and a probability value of the corresponding behavior to include in the behavior list.
  • an action list can store actions and probability values for each action.
  • the object-behavior relationship model may be a graph model representing a relationship between the object and the behavior as a connection graph between nodes and edges.
  • related behaviors for each object may be represented as behavior nodes connected to object nodes.
  • the probability that an action related to an object occurs is set at an edge or set at an action node.
  • FIG. 5 is a reference diagram illustrating a graph model showing an edge connection between an object node and a behavior node related to each object.
  • the list setting unit 320 searches for the object corresponding to the meaning of the main surface in the graph model, selects the actions connected to the searched object and the edge, and includes the selected actions in the action list. You can. Referring to FIG.
  • a graph node may search for an object node corresponding to the 'sofa', select behavior nodes connected to the 'sofa' object node, and select 'eating' , 'Lie down', 'sitting', 'stretching' and 'wake up' can be included in the list of actions.
  • the object-behavior relationship model may of course define the relationship between the object and the behavior using various data structures in addition to the graph model.
  • the behavior recognition unit 400 selects the main surface corresponding to the position where the user's action occurs in the input image, and recognizes the user's behavior based on the action list of the selected main surface.
  • FIG. 6 is a detailed block diagram of the behavior recognition unit 400.
  • the behavior recognizer 400 may include a behavior position detector 410, a main plane selection unit 420, and a user behavior recognizer 430.
  • the behavior location detector 410 detects a location where the user's behavior occurs in the input image. Such behavior location detection may be performed by the user behavior recognition unit 430, and in this case, the behavior location detection unit 410 may be included in the user behavior recognition unit 430.
  • the main plane selecting unit 420 selects the main plane corresponding to the position where the user's action occurs.
  • the main plane selecting unit 420 may select the main plane located within a predetermined distance from the location where the user's action occurs among the main planes extracted by the main plane extracting unit.
  • the predetermined distance here is a value that can be set as needed.
  • the user behavior recognizing unit 430 recognizes the user's behavior based on the behavior list of the selected main surface.
  • the user behavior recognition unit 430 recognizes the user's behavior by referring to the behavior list regarding the possible behavior set in advance with respect to the main surface corresponding to the location where the behavior occurs, and simply analyzes the user's motion or posture to perform the behavior It has the effect of recognizing behavior more accurately than recognizing it. For example, if the meaning of the main surface corresponding to the position where the user's action is issued is the 'chair', the user may be able to recognize the lowering of the body while bending the knee as the 'sitting action'.
  • the user's behavior recognition unit 430 when analyzing only the user's motion or posture, the user may be mistaken for lowering the body while bending the knee as a 'squat', but the user's behavior recognition unit 430 according to the present invention is located at the position where the behavior occurs as described above.
  • the user's behavior can be recognized among the behaviors that may occur in the main aspect, and thus the behavior recognition accuracy can be improved.
  • the user behavior recognizing unit 430 recognizes at least one candidate behavior by recognizing the motion or posture of the user in the input image, and selects the candidate behavior corresponding to the behavior included in the behavior list among the determined candidate behaviors. It can be selected and recognized as the user's behavior.
  • the user behavior recognition unit 430 may analyze the motion or posture of a specific user and recognize it as one or more candidate behaviors.
  • the candidate behavior corresponding to the behavior included in the behavior list from among a plurality of candidate behaviors may be selected and recognized as a user behavior.
  • the candidate behavior if the candidate behavior is identical to the behavior included in the behavior list, it can be recognized as a user behavior, or if the candidate behavior can be judged as a related behavior even though it does not exactly match the behavior included in the behavior list, it is recognized as a user behavior. can do.
  • a predefined model may be used.
  • the object-behavioral relationship model may be used.
  • the main plane selection unit 420 may select a plurality of main planes corresponding to the position where the user's action occurs.
  • the user behavior recognizing unit 430 may discover a plurality of actions corresponding to the candidate action in the list of actions corresponding to the plurality of main aspects.
  • the user behavior recognizing unit 430 may select a behavior having the highest probability value by referring to a probability value stored with the behavior in the behavior list, and recognize the user behavior as the user behavior.
  • the action may be selected from the action list and recognized as the user's action.
  • the weight may be set in inverse proportion to the distance between the main plane and the location where the user's action occurred.
  • the highest priority action may be selected from the action list based on the probability value and recognized as the user action.
  • the user behavior recognition unit 430 may use various known user posture recognition or posture recognition or motion recognition or gesture recognition algorithms to recognize the user's motion or posture in the input image.
  • the user's motion or posture may be recognized as at least one candidate behavior. That is, even though the user's posture or motion may be similar to the appearance of the behavior even though the actual user may have acted with different intentions in some cases, the user's behavior recognition unit 430 may have a user's motion or posture. Recognizing may determine a plurality of candidate actions that the user can intention.
  • the candidate behavior may be determined as 'sitting' or 'squat'.
  • the candidate behavior may be determined as the "hand gesture" or the "door opening behavior”.
  • the user behavior recognition unit 430 may recognize the user's shape or the skeleton information according to the input image from the input image and analyze the same to recognize the user's motion or posture. For example, “Generating skeletons and centerlines from the distance transform, C.Wayne Niblack. Et al., CVGIP: Graphical Models and Image Processing, Volume 54, Issue 5, September 1992, Pages 420-437”, “Human-Robot Interactions” Hybrid Skeleton Feature Point Extraction for Computer, Journal of Control and Robotics System Society, 14.14 (2008): 178-183. ",” Human action recognition using star skeleton, Hsuan-Sheng Chen.
  • the user behavior recognition unit 430 may recognize a user's shape, a skeleton, and a skeleton thereof according to various user shape recognition technologies.
  • the posture of the user recognized by the user behavior recognizing unit 430 may be a form, a posture, or a pose of a part of the user's body at a specific time point, and the user's motion may be a part of the user's body for a predetermined time. It may be a shape, a posture, or a movement or change of pose.
  • a part of the user's body that the user behavior recognition unit 430 analyzes to recognize the user's posture or motion may be the user's hand, and may be the user's arm, upper body, lower body, or the whole body as needed. Can be.
  • the user behavior recognition unit 430 may recognize a posture or a motion of the user's skeleton (skeleton) according to the shape of the user according to the shape of the user or a change over time, as a predefined candidate behavior.
  • the candidate behavior may be predefined according to the posture of the skeleton or the change behavior over time.
  • the user behavior recognizing unit 430 compares the recognition information of the user's skeleton recognized in the input image with the information about the predefined candidate behavior and recognizes which candidate behavior the user's motion or posture corresponds to according to the result. Can be. In this case, a plurality of possible candidate actions may be determined according to the recognized result as described above.
  • the user behavior recognition unit 430 may use various known gesture recognition techniques in order to recognize the shape or skeleton of the user to recognize candidate behaviors according to the user's motion or posture.
  • the user input information identification unit may include "Dynamic hand gesture recognition using the skeleton of the hand, Ionescu, Bogdan, et al. EURASIP Journal on Applied Signal Processing 2005 (2005): 2101-2109.”, “Robust part-based hand gesture recognition using kinect sensor, Ren, Zhou, et al., Multimedia, IEEE Transactions on 15.5 (2013): 1110-1120. "," Human action recognition using star skeleton, Hsuan-Sheng Chen. et al, Proceeding VSSN '06 Each gesture recognition method described in Proceedings of the 4th ACM international workshop on Video surveillance and sensor networks Pages 171-178 "can be used, and various other gesture recognition methods can be used.
  • the behavior recognition apparatus may include an object detector 1000, a behavior list setting unit 2000, and a behavior recognition unit 3000.
  • FIG. 7 is a block diagram of a behavior recognition apparatus according to another embodiment.
  • the object recognizer 1000 detects and recognizes at least one object from the input image.
  • the object recognizer 1000 may detect and recognize an object in the same manner as the object recognizer 100 described above.
  • the behavior list setting unit 2000 sets a behavior list that may occur with respect to the recognized object.
  • the action list setting unit 2000 searches for the object corresponding to the recognized object in an object-behavioral relationship model that pre-defines the relationship between an object and an action, and calculates an action related to the detected object in the object-behavioral relationship model.
  • the behavior list of the object may be set according to the extracted behavior.
  • the operation of setting the action list according to the searched object using the object-behavior relationship model may be performed in the same manner as the above-described action list setting unit 300.
  • the behavior recognition unit 3000 selects the object corresponding to the location where the user's behavior occurs in the input image, and recognizes the user's behavior based on the behavior list of the selected object.
  • the behavior recognition unit 3000 may recognize the behavior of the user by referring to the behavior list by using the object detected instead of the main plane in the above-described portion of the behavior recognition unit 400, and the detailed operation may be described above. It may be performed in the same manner as the behavior recognition unit 400.
  • the behavior recognizer 3000 may include a behavior location detector 3100, an object selector 3200, and a user behavior recognizer 3300.
  • the behavior location detector 3100 detects a location where the user's behavior occurs in the input image.
  • the object selector 3200 selects the object corresponding to the position where the user's action occurs.
  • the object selecting unit 3200 may select the object located within a predetermined distance from the position where the user's action occurs among the objects of the input image.
  • the user behavior recognizing unit 3300 recognizes the behavior of the user based on the behavior list of the selected object.
  • the user behavior recognizing unit 3300 may recognize at least one candidate behavior by recognizing the motion or posture of the user from the input image, and among the determined candidate behaviors, the candidate behavior corresponding to the behavior included in the behavior list. It can be selected and recognized as the user's behavior.
  • the behavior recognition method according to another embodiment of the present invention may include a main surface extraction step S200, a behavior list setting step S300, and a behavior recognition step S400.
  • the behavior recognition method according to another embodiment may further include an object recognition step S100.
  • the behavior recognition method according to the embodiment may operate in the same manner as the behavior recognition apparatus according to the embodiment of the present invention described in detail with reference to FIGS. 1 to 6.
  • FIG. 9 is a flowchart illustrating a behavior recognition method according to an embodiment of the present invention.
  • the main surface extraction step S200 extracts at least one main surface from the input image.
  • the action list setting step (S300) recognizes the meaning of the extracted main surface, and sets a list of actions that can occur for each of the extracted main surfaces according to the meaning of the recognized main surface.
  • the behavior recognition step S400 selects the main plane corresponding to the position where the user's action occurs in the input image, and recognizes the user's action based on the action list of the selected main plane.
  • Object recognition step (S100) detects and recognizes an object in the input image or a separate input image.
  • position information in the input image of the detected object may be set, and semantic information of the recognized object may be set.
  • the main plane extracting step S200 may extract at least one main normal vector from the input image, and extract each region corresponding to the extracted main normal vector from the input image as the main plane.
  • the main surface extraction step S200 may include a main normal vector extraction step S210 and a surface extraction step S220.
  • the main surface extraction step S200 may include a main normal vector extraction step S210 and a surface extraction step S220.
  • the main normal vector extraction step (S210) calculates a local normal vector from the input image, and determines the main normal vector from the calculated local normal vector.
  • the main normal vector extracting step (S210) may be performed by calculating a normal vector on a local plane of the input image as the local normal vector, clustering the calculated local normal vectors, and determining the main normal vector from the clustered vectors. Can be.
  • the surface extracting step S220 collects pixels having the main normal vector from the input image, and clusters the collected pixels to extract the main surface corresponding to the main normal vector.
  • the action list setting step S300 may include a main surface recognition step S310 and a list setting step S320.
  • 11 is a detailed flowchart of the action list setting step S300.
  • the main plane recognition step S310 may receive object recognition information including position information of an object existing in the input image and semantic information of the object, and according to semantic information of the object corresponding to the position of the main plane. Recognize the meaning of the main aspects.
  • the object corresponding to the meaning of the main plane is searched for in the object-behavioral relationship model that pre-defines the relationship between the object and the behavior, and the behavior related to the searched object is determined in the object-behavioral relationship model. Extract and set the action list of the main plane according to the extracted action.
  • the object-behavior relationship model may be a model in which at least one or more of the behaviors related to the object are predefined for each of the at least one object.
  • the object-behavior relationship model may be a graph model representing a relationship between the object and the behavior as a connection graph between nodes and edges.
  • the behavior recognition step S400 may include a behavior location detection step S410, a main plane selection step S420, and a user behavior recognition step S430.
  • Behavior location detection step (S410) detects the location where the user's behavior occurred in the input image.
  • the main plane selection step S420 the main plane corresponding to the position where the user's action occurs is selected.
  • the user behavior recognition step S430 recognizes the user's behavior based on the behavior list of the selected main surface.
  • the main plane selection step S420 may select the main plane located within a predetermined distance from the location where the user's action occurs among the main planes extracted in the main plane extraction step.
  • the user behavior recognition step (S430) determines at least one or more candidate behaviors by recognizing the motion or posture of the user in the input image, and among the determined candidate behaviors, the candidate behavior corresponding to the behavior included in the behavior list. It can be selected and recognized as the user's behavior.
  • the behavior recognition method according to another embodiment of the present invention may include an object recognition step S1000, a behavior list setting step S2000, and a behavior recognition step S3000.
  • the behavior recognition method according to the embodiment may operate in the same manner as the behavior recognition apparatus according to the embodiment of the present invention described with reference to FIGS. 7 to 8.
  • FIG. 13 is a flowchart of a behavior recognition method according to another embodiment.
  • the object detecting step S1000 detects and recognizes at least one object from the input image.
  • a behavior list that may occur with respect to the recognized object is set.
  • the behavior recognizing step S3000 the object corresponding to the location where the user's behavior occurs in the input image is selected, and the user's behavior is recognized based on the behavior list of the selected object.
  • the action list setting step (S2000) searches for the object corresponding to the recognized object in the object-behavioral relationship model which pre-defines the relationship between the object and the behavior, and the action related to the retrieved object is the object-behavioral relationship model. By extracting from, the behavior list of the object may be set according to the extracted behavior.
  • the behavior recognition step S3000 may include a behavior location detection step S3100, an object selection step S3200, and a user behavior recognition step S3300. 14 is a detailed flowchart of the behavior recognition step S3000.
  • Behavior position detection step (S3100) detects the position where the user's behavior occurred in the input image.
  • the object selecting step (S3200) selects the object corresponding to the location where the user's action occurs.
  • the object selecting step (S3200) may select the object located within a predetermined distance from the position where the user's action occurs among the objects of the input image.
  • the user behavior recognition step (S3300) recognizes the behavior of the user based on the behavior list of the selected object.
  • the user behavior recognizing step (S3300) determines at least one or more candidate behaviors by recognizing the motion or posture of the user in the input image, and among the determined candidate behaviors, the candidate behavior corresponding to the behavior included in the behavior list. It can be selected and recognized as the user's behavior.
  • each or some of the components of the components are selectively combined to perform some or all of the functions combined in one or a plurality of hardware It may be implemented as a computer program having a.
  • a computer program is stored in a computer readable medium such as a USB memory, a CD disk, a flash memory, and the like, and is read and executed by a computer, thereby implementing embodiments of the present invention.
  • the recording medium of the computer program may include a magnetic recording medium, an optical recording medium, a carrier wave medium, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 영상에서 사용자의 행동을 인식하는 방법 및 그 장치에 관한 것이다. 본 발명에 따른 행동 인식 장치는 입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출부; 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함할 수 있다.

Description

물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치
본 발명은 영상에서 사용자의 행동을 인식하는 방법 및 그 장치에 관한 것이다.
전통적으로 장치가 사용자의 입력을 수신하기 위하여 키보드나 마우스 또는 터치 패드와 같은 인터페이스를 사용하여 왔으나, 보다 직관적이고 편리한 사용자 입력 수신을 위하여 음성이나 영상을 인식하는 기술들이 개발되어 사용되고 있다.
특히 촬영된 영상에서 사용자의 동작과 자세를 인식하여 사용자의 행동의 의미를 인식하는 기술이 널리 연구되고 있다. 예를 들면 센서 또는 카메라를 이용하여 사람의 신체 골격(Skeleton)을 검출하고, 관절의 이동 궤적을 분석하여 사용자의 행동 및 제스처를 인식하는 기술이 개발되어 사용되고 있다. 그리고 이와 같은 기존의 사용자 행동 인식 방법들은 주로 사용자의 동작을 보다 정확하게 분석하여 행동을 인식하려는 노력을 기울여 왔다.
그러나 단순히 영상 내에 포함된 정보만을 이용하여 사용자의 행동을 인식하는 방식은 인식 정확도에 있어서 한계가 있고, 잘못된 인식 결과가 출력될 가능성이 높다. 관련된 선행기술문헌으로는 (특허문헌 0001) 대한민국 공개특허공보 제2013-0005548호 (2013.01.16)이 있다.
본 발명은 미리 정의된 물체-행동 간의 관계 모델을 이용하여 영상에서의 사용자 행동 인식 성능을 향상시키는 방법과 그에 관한 장치를 제공하고자 한다. 본 발명은 사용자의 행동이 동일 또는 유사한 행동인 경우에도, 해당 행동이 발생하는 공간이나 장소 또는 행동에 관련된 물체의 종류에 따라, 그 의미가 다르다는 사실에 착안하여, 물체-행동 간의 관계 모델을 사전에 정의하고, 이를 이용하여 영상에서 검출된 사용자의 행동의 의미를 인식하는 행동 인식 장치 및 그에 관한 방법을 제공하고자 한다.
상기 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 행동 인식 장치는, 입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출부; 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함할 수 있다.
일 실시예에 있어서 상기 주요 면 추출부는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출할 수 있다.
일 실시예에 있어서 상기 주요 면 추출부는, 상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정하는 주요 노멀 벡터 추출부를 포함할 수 있다.
일 실시예에 있어서 상기 주요 노멀 벡터 추출부는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다.
일 실시예에 있어서 상기 주요 면 추출부는, 상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출하는 면 추출부를 포함할 수 있다.
일 실시예에 있어서 상기 행동 목록 설정부는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식하는 주요 면 인식부를 포함할 수 있다.
일 실시예에 있어서 상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정하는 목록 설정부를 포함할 수 있다.
일 실시예에 있어서 상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델인 것을 특징으로 할 수 있다.
일 실시예에 있어서 상기 물체 인식 장치는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식하는 객체 인식부를 더 포함할 수 있다.
일 실시예에 있어서 상기 객체 인식부는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정할 수 있다.
일 실시예에 있어서 상기 행동 인식부는, 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부; 상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하는 주요 면 선택부; 및 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함할 수 있다.
일 실시예에 있어서 상기 주요 면 선택부는 상기 주요 면 추출부에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택할 수 있다.
일 실시예에 있어서 상기 사용자 행동 인식부는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.
상기 과제를 해결하기 위하여 본 발명의 또 다른 실시예에 따른 행동 인식 장치는 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식부; 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함할 수 있다.
일 실시예에 있어서 상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정할 수 있다.
일 실시예에 있어서 상기 행동 인식부는, 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부; 상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하는 객체 선택부; 및 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함할 수 있다.
일 실시예에 있어서 상기 객체 선택부는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택할 수 있다.
일 실시예에 있어서 상기 사용자 행동 인식부는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.
상기 과제를 해결하기 위하여 본 발명의 또 다른 실시예에 따른 행동 인식 방법은 입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출 단계; 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함할 수 있다.
상기 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 행동 인식 방법에 있어서, 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식 단계; 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함할 수 있다.
본 발명에 따른 행동 인식 장치 및 그 방법에 의하면 영상에서 사용자의 행동의 의미를 보다 정확하게 인식할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 행동 인식 장치의 블록도이다.
도 2는 주요 면 추출부(200)의 세부 블록도이다.
도 3 a, 도 3 b는 주요 면 추출부(200)의 동작을 설명하기 위한 참고도이다.
도 4는 행동 목록 설정부(300)의 세부 블록도이다.
도 5는 물체-행동 관계 그래프 모델을 나타내는 참고도이다.
도 6은 행동 인식부(400)의 세부 블록도이다.
도 7은 본 발명의 일 실시예에 따른 행동 인식 장치의 블록도이다.
도 8은 행동 인식부(3000)의 세부 블록도이다.
도 9는 본 발명의 일 실시예에 따른 행동 인식 방법의 흐름도이다.
도 10은 주요 면 추출 단계(S200)의 세부 흐름도이다.
도 11은 행동 목록 설정 단계(S300)의 세부 흐름도이다.
도 12는 행동 인식 단계(S400)의 세부 흐름도이다.
도 13은 본 발명의 일 실시예에 따른 행동 인식 방법의 흐름도이다.
도 14는 행동 인식 단계(S3000)의 세부 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
본 발명의 일 실시예에 따른 행동 인식 장치는 주요 면 추출부(200), 행동 목록 설정부(300), 행동 인식부(400)를 포함할 수 있다. 여기서 필요에 따라 본 발명의 일 실시예에 따른 행동 인식 장치는 객체 인식부(100)를 더 포함할 수도 있다.
여기서 본 발명에 따른 행동 인식 장치는 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한 필요에 따라 각 구성요소들은 각각 하나의 독립적인 하드웨어로 구현되거나 각 하드웨어에 포함될 수도 있다. 또한 본 발명에 따른 행동 인식 장치는 소프트웨어 프로그램으로 구현되어 프로세서 또는 신호 처리 모듈 위에서 동작할 수 있고, 또는 하드웨어의 형태로 구현되어 각종 프로세서, 칩(Chip), 반도체, 소자 등에 포함될 수 도 있다. 또한 본 발명에 따른 행동 인식 장치는 각종 임베디드 시스템 또는 디바이스 상에서 하드웨어 또는 소프트웨어 모듈의 형태로 포함되어 동작할 수 있다. 바람직하게는 본 발명에 따른 행동 인식 장치는 TV 디바이스, 노트북, 핸드폰에 포함되어 구현되거나, 또는 상기 장치들과 네트워크로 연결된 서버 장치에 포함되어 구현될 수 있다.
도 1은 본 발명의 일 실시예에 따른 행동 인식 장치의 블록도이다.
주요 면 추출부(200)는 입력 영상에서 적어도 하나 이상의 주요 면을 추출한다.
행동 목록 설정부(300)는 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정한다.
행동 인식부(400)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다.
그리고 객체 인식부(100)는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식한다.
먼저 객체 인식부(100)의 동작에 대하여 설명한다.
객체 인식부(100)는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식한다. 일 실시예에 있어서 객체 인식부(100)는 주요 면 추출부(200) 및 행동 인식부(400)가 이용하는 입력 영상과 동일한 입력 영상에서 객체를 검출하고 인식할 수 있다. 또는 객체 인식부(100)는 주요 면 추출부(200) 및 행동 인식부(400)가 이용하는 입력 영상과 다른 별도의 입력 영상을 입력받고 위 별도의 입력 영상에서 객체를 검출하고 인식할 수 있다. 일 실시예에 따르면 주요 면 추출부(200) 및 행동 인식부(400)는 깊이 정보가 포함된 입력 영상을 입력받을 수 있고, 객체 인식부(100)는 2 차원의 단순 입력 영상을 입력받을 수 있다.
여기서 객체 인식부(100)는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정할 수 있다. 일 실시예에 따르면 객체 인식부(100)는 검출한 객체의 위치를 입력 영상 내의 특정 좌표로 설정하여 상기 위치 정보를 설정할 수 있고, 인식한 객체의 의미에 따라 해당 위치 정보에 대응하는 의미 정보를 설정할 수 있다. 여기서 객체의 의미 정보란 검출한 객체가 어떠한 사물 또는 물체에 해당하는지에 관한 정보로, 예를 들면 '문', '의자', '테이블' 등이 될 수 있다.
여기서 객체 인식은 분류기(Classifier)를 이용하여 객체를 미리 정의된 복수개의 부류(Class) 중 어느 하나의 부류로 인식하는 방식으로 수행될 수 있다. 여기서 객체 인식부(100)는 영상이서 객체를 검출하고, 상기 검출한 객체를 미리 설정된 객체 인식 알고리즘을 이용하여 인식할 수 있다. 여기서 미리 설정된 객체 인식 알고리즘은 다양한 객체 인식 방법 중 하나로 선택될 수 있다. 여기서 객체 인식부(100)는 영상을 분석하여 미리 정해진 특징(Feature) 정보를 이용하여 검출하고자 하는 대상 객체를 검출하고 인식할 수 있다. 여기서 객체를 검출 및 인식하기 위하여, 기존의 다양한 종류의 특징을 상기 영상에서 추출하고, 이를 이용하여 객체 검출 및 인식을 수행할 수 있다. 예를 들면 객체의 검출 및 인식을 위하여 에지 특성이나 코너 특성, 또는 LoG(Laplacian of Gaussian), DoG(Difference of Gaussian) 등의 다양한 특징을 추출하여 이용할 수 있다. 또한 여기서 객체의 검출 및 인식을 위하여 SIFT(Scale-invariant feature transform), SURF(Speeded Up Robust Features), HOG(Histogram of Oriented Gradients)를 비롯한 기존의 다양한 특징 서술(Feature Description) 방식을 이용할 수 있다. 또는 객체의 검출 및 인식을 위하여 템플릿 이미지와 대상 이미지 내의 일정 영역을 비교하여 객체를 검출하고 인식할 수도 있다. 또한 객체의 검출 및 인식을 위하여 위와 같이 추출한 특징이나 템플릿 등을 기반으로 미리 학습한 분류기를 이용하여 상기 영상 내 객체들을 검출하고 인식할 수 있다. 여기서 이용하는 분류기는 SVM 머신이 될 수도 있고, 기타 기존의 다양한 분류 함수를 이용한 분류기를 이용할 수 있다. 또한 객체 인식부(100)는 영상에서 객체를 인식하기 위하여 다양한 객체 인식 방법을 이용할 수 있다. 예를 들면 'Lowe, David G. "Object recognition from local scale-invariant features." Computer vision, 1999. The proceedings of the seventh IEEE international conference on. Vol. 2. Ieee, 1999.' 또는 'Belongie, Serge, Jitendra Malik, and Jan Puzicha. "Shape matching and object recognition using shape contexts." Pattern Analysis and Machine Intelligence, IEEE Transactions on 24.4 (2002): 509-522.'에 기재된 기술을 이용하여 영상에서 객체를 인식할 수 있고, 기타 다양한 객체 인식 방법을 이용할 수 있다.
이하에서는 먼저 주요 면 추출부(200)의 동작에 대하여 보다 상세히 설명한다.
주요 면 추출부(200)는 입력 영상에서 적어도 하나 이상의 주요 면을 추출한다.
여기서 입력 영상은 2차원 영상이 될 수 있고, 또는 깊이 정보를 포함하는 영상이 될 수도 있다. 또한 여기서 주요 면은 상기 입력 영상에 포함된 면들 중에서 중요한 것으로 판단한 면이 될 수 있다. 그리고 상기 면은 입력 영상에서 동일한 세그먼트로 분할된 화소들의 집합이 될 수 있다.
일 실시예에 있어서 주요 면 추출부(200)는 다양한 영상 세그먼테이션 알고리즘을 이용하여 입력 영상을 분할하여 분할된 세그먼트 별로 면을 설정하고, 분할된 세그먼트 중에서 중요한 것으로 판단한 세그먼트를 주요 면으로 설정할 수 있다. 여기서 세그먼트들 간에서 면적이 소정의 비율 이상이 되는 세그먼트를 중요한 세그먼트로 선택하여 상기 주요 면으로 설정할 수 있다. 여기서 영상 세그먼테이션 알고리즘을 공지된 다양한 세그먼트 알고리즘을 사용할 수 있다.
여기서 상기 입력 영상이 깊이 정보를 포함하는 3차원 영상인 경우, 주요면 추출부(200)는 이하 설명하는 바와 같이 입력 영상에서 노멀 벡터를 추출하고 이를 기준으로 주요 면을 추출할 수 있다. 이때 주요 면 추출부(200)는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출할 수 있다.
이를 위하여 주요 면 추출부(200)는 주요 노멀 벡터 추출부(210), 면 추출부(220)를 포함할 수 있다.
도 2는 주요 면 추출부(200)의 세부 블록도이다.
주요 노멀 벡터 추출부(210)는 상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정한다. 여기서 주요 노멀 벡터 추출부(210)는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다.
도 3 a, 도 3 b는 주요 면 추출부(200)의 동작을 설명하기 위한 참고도이다.
여기서 주요 노멀 벡터 추출부(210)는 입력 영상에 포함된 각 점들에 대하여 인접하는 점들을 하나의 집합으로 하여 지역적 면을 설정하고, 지역적 면에서의 노멀 벡터를 산출할 수 있다. 일 실시예에 있어서 주요 노멀 벡터 추출부(210)는 주 성분 분석 방법(Principle Component Analysis)을 이용하여 지역적 면의 노멀 벡터를 산출할 수 있다. 이때 인접하는 점들의 좌표를 구성하는 성분 벡터를 주 성분 분석 방법을 이용하여 분해하여, 주성분인 두 축을 획득할 수 있고, 획득한 두 축의 외적으로 상기 지역적 면의 노멀 벡터를 산출할 수 있다.
예를 들면 도 3 a와 같은 입력 영상에서 지역적 면의 노멀 벡터를 산출할 수 있다.
다음으로 주요 노멀 벡터 추출부(210)는 위와 같이 추출한 지역적 면에서의 노멀 벡터인 지역적 노멀 벡터를 이용하여 주요 노멀 벡터를 추출할 수 있다. 그리고 이때 하나 이상의 노멀 벡터가 추출될 수 있다. 일 실시예에서 상기 지역적 노멀 벡터 중에서 소정의 비율 이상을 가지는 벡터를 주요 노멀 벡터로 추출할 수 있다. 또 다른 실시예에서는 상기 지역적 노멀 벡터를 클러스터링하고 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다. 이때 클러스터링된 벡터들 중에서 소정의 비율 이상을 차지하는 벡터를 주요 노멀 벡터로 결정할 수 있다. 예를 들면 주요 노멀 벡터는 영상 내의 바닥 면에 수직인 방향의 노멀 벡터와 벽면에 수직인 방향의 노멀 벡터가 될 수 있다. 일 실시예에 따르면 주요 노멀 벡터 추출부(210)는 Mean-Shift 알고리즘을 이용하여 상기 클러스터링을 수행할 수 있다.
예를 들면 도 3 a와 같은 입력 영상에서 추출한 지역적 노멀 벡터를 클러스터링할 수 있다.
면 추출부(220)는 상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출한다. 동일한 주요 노멀 벡터를 가지는 화소들이라고 할지라도 입력 영상에서 서로 다른 객체의 면에 포함된 화소들이 될 수 있다. 따라서 면 추출부(220)는 주요 노멀 벡터를 가지는 화소들을 클러스터링하고, 클러스터링된 화소들의 집합을 각각 주요 면으로 추출할 수 있다. 여기서 입력 영상에서 바닥 면에 수직인 방향의 주요 노멀 벡터에 해당하는 화소들은 바닥에 해당하는 화소들이 될 수 있고, 또는 테이블 상면에 해당하는 화소들이 될 수 있고, 또는 의자의 앉는 면에 해당하는 화소들이 될 수도 있다. 따라서 이들 화소들을 서로 다른 주요 면으로 추출하기 위하여, 상술한 바와 같이 주요 노멀 벡터를 가지는 화소들을 클러스터링하고, 그 결과에 따라 분류된 화소들의 집합 별로 주요 면을 설정함으로써, 입력 영상에서 주요 면을 추출할 수 있다.
예를 들면 도 3 a와 같은 입력 영상에서 주요 노멀 벡터를 가지는 화소들을 클러스터링하여 주요 면을 추출할 수 있다.
일 실시예에서 면 추출부(220)는 클러스터링된 화소들의 집합들 중 주된 클러스터에 해당하는 화소들의 집합을 주요 면으로 추출할 수 있다. 예를 들면 면 추출부(220)는 클러스터링된 화소들의 집합들이 소정의 크기 이상을 가지거나 입력 영상에서 소정의 비율 이상을 가지는 경우에만 이를 주요 면으로 선택할 수 있다.
이때 일 실시예에서 면 추출부(220)는 상기 추출된 주요 면들 중에서 주요 노멀 벡터의 각도에 따라 일부를 선별하여, 선별된 주요 면들만을 주요 면으로 다시 설정할 수 있다. 여기서 면 추출부(220)는 미리 설정한 각도의 범위 내에 해당하는 주요 노멀 벡터를 가지는 주요 면 만을 주요 면으로 다시 설정하고, 그 범위에 해당하지 않는 주요 노멀 벡터를 가지는 주요 면들은 주요 면에서 제거할 수 있다. 예를 들면 면 추출부(220)는 수평면과 수직면에 해당하는 면들만을 주요 면으로 추출하기 위하여, 주요 노멀 벡터를 미리 설정한 각도 범위와 비교하고, 그 결과에 따라 주요 면을 최종 결정할 수 있다. 여기서 미리 설정한 각도의 범위는 -20도 내지 20도 등 필요에 따라 설정할 수 있다.
예를 들면 도 3 b는 도 3 a와 같은 입력 영상에 대하여 상기 과정들을 수행한 결과, 각도 범위에 따라 수평면에 해당하는 주요 면만을 선별한 결과를 나타내는 참고도이다. 도 3 b를 참조하면 바닥 면(P1), 테이블 상면(P2), 의자 상면(P3)과 같이 주요 면이 설정될 수 있다.
다음으로는 행동 목록 설정부(300)의 동작에 대하여 보다 상세히 설명한다.
행동 목록 설정부(300)는 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정한다. 주요 면 추출부(200)에서 추출된 주요 면은 입력 영상에서 특정 구역에 해당하는 정보만을 보유하고 있다. 이에 추출된 주요 면의 의미를 파악하기 위하여, 이하 상세히 설명할 바와 같이 행동 목록 설정부(300)는 입력 영상 내의 객체에 관한 인식 정보를 입력받고, 이를 이용하여 상기 추출한 주요 면의 의미를 인식할 수 있다. 예를 들면 행동 목록 설정부(300)는 특정 주요 면을 문 또는 바닥 면으로 인식할 수 있고, 이때 주요 면의 의미는 문, 바닥 면이 된다. 이때 행동 목록 설정부(300)는 인식한 주요 면의 의미에 따라 주요 면 별로 발생 가능한 행동을 결정하고 이를 행동 목록으로 설정한다. 예를 들면 특정 주요 면을 문으로 인식한 경우, '문을 여는 행동', '문을 닫는 행동' 등을 포함하는 행동 목록을 설정할 수 있다.
여기서 행동 목록 설정부(300)는 주요 면 인식부(310), 목록 설정부(320)를 포함할 수 있다.
도 4는 행동 목록 설정부(300)의 세부 블록도이다.
주요 면 인식부(310)는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식한다. 여기서 주요 면 인식부(310)는 주요 면의 위치에 대응하는 객체로, 주요 면으로부터 소정의 거리 이내에 위치하는 객체 또는 주요 면과 겹쳐서 존재하는 객체를 선택할 수 있다. 이를 위하여 주요 면 인식부(310)는 주요 면의 위치와 객체의 위치 정보를 상호 비교하여 주요 면과 객체의 대응 여부를 결정할 수 있다. 이와 같이 주요 면에 대응하는 객체를 결정한 다음 주요 면 인식부(310)는 주요 면에 대응하는 객체의 의미 정보에 따라 주요 면의 의미를 인식할 수 있다. 예를 들면 주요 면의 위치에 대응하는 객체의 의미가 '문'인 경우, 상기 주요 면의 의미는 '문'이 될 수 있다.
일 실시예에 있어서 행동 인식 장치에 객체 인식부(100)가 포함되고, 객체 인식부(100)가 검출한 객체의 상기 입력 영상 내에서의 위치 정보와 인식한 객체의 의미 정보를 설정하는 경우, 주요 면 인식부(310)는 객체 인식부(100)에서 생성한 객체 인식 정보를 입력받을 수 있다.
목록 설정부(320)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정한다. 여기서 행동 목록은 가능한 행동들을 목록으로 저장한 것이며, 각 주요 면 별로 행동 목록이 설정될 수 있다.
여기서 상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델이 될 수 있다. 각 물체 별로 물체와 관련된 사용자의 가능한 행동들이 존재하므로, 각 물체 별로 행동을 미리 정의하여 상기 물체-행동 관계 모델을 설정할 수 있다. 또한 여기서 상기 물체-행동 관계 모델은 물체 별로 관련된 행동들을 정의함에 있어서 물체를 전제하였을 때 특정 행동이 발생할 확률을 설정할 수 있다. 여기서 물체 별로 연관된 행동들에 대하여 서로 다른 확률 값들이 설정될 수 있다.
이때 목록 설정부(320)는 물체-행동 관계 모델에서 주요 면의 의미에 대응하는 물체를 검색하고, 상기 검색한 물체와 관계된 행동 및 해당 행동의 확률 값을 추출하여 행동 목록에 포함시킬 수 있다. 따라서 행동 목록은 행동과 행동 별 확률 값을 저장할 수 있다.
일 실시예에서 상기 물체-행동 관계 모델은 상기 물체와 상기 행동 간의 관계를 노드와 에지 간의 연결 그래프로 나타낸 그래프 모델이 될 수 있다. 여기서 물체 별로 관련된 행동들이 물체 노드에 연결된 행동 노드로 표현될 수 있다. 이때 물체와 관련된 행동이 발생할 확률을 에지에 설정하거나 또는 행동 노드에 설정하여 정의할 수 있다. 도 5는 각 물체와 관계있는 행동을 물체 노드와 행동 노드 간의 에지 연결로 나타낸 그래프 모델을 나타내는 참고도이다. 이와 같은 그래프 모델을 이용하는 경우 목록 설정부(320)는 주요 면의 의미에 대응하는 물체를 상기 그래프 모델에서 검색하고, 검색한 물체와 에지로 연결된 행동들을 선별하여, 선별한 행동들을 행동 목록에 포함시킬 수 있다. 도 5를 참조하면 만일 주요 면이 '소파'로 인식된 경우, 그래프 모델에서 '소파'에 해당하는 물체 노드를 검색할 수 있고, '소파' 물체 노드와 연결된 행동 노드들을 선별하여, '식사', '눕는 행동', '앉는 행동', '스트레칭', '일어나는 행동'을 행동 목록에 포함시킬 수 있다. 여기서 상기 물체-행동 관계 모델은 그래프 모델 이외에도 다양한 자료 구조를 이용하여 물체와 행동 간의 관계를 정의할 수 있음은 물론이다.
다음으로는 행동 인식부(400)의 동작에 대하여 보다 상세히 설명한다.
행동 인식부(400)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다.
도 6은 행동 인식부(400)의 세부 블록도이다.
행동 인식부(400)는 행동 위치 검출부(410), 주요 면 선택부(420), 사용자 행동 인식부(430)를 포함할 수 있다.
행동 위치 검출부(410)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다. 이와 같은 행동 위치 검출은 사용자 행동 인식부(430)에서 수행될 수도 있고, 이 경우 행동 위치 검출부(410)는 사용자 행동 인식부(430)에 포함될 수도 있다.
주요 면 선택부(420)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택한다. 여기서 주요 면 선택부(420)는 상기 주요 면 추출부에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택할 수 있다. 여기서 소정의 거리는 필요에 따라 설정될 수 있는 값이다.
사용자 행동 인식부(430)는 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 사용자 행동 인식부(430)는 행동이 발생한 위치에 대응하는 주요 면에 대하여 미리 설정된 발생 가능한 행동에 관한 행동 목록을 참조하여 사용자의 행동을 인식함으로써, 단순히 사용자의 동작 또는 자세를 분석하여 행동을 인식하는 것 보다 정확하게 행동을 인식할 수 있는 효과가 있다. 예를 들면 사용자의 행동이 발행한 위치에 대응하는 주요 면의 의미가 '의자'인 경우, 사용자가 무릎을 구부리면서 몸을 낮추는 동작을 '앉는 행동'으로 인식할 수 있다. 여기서 사용자의 동작 또는 자세만을 분석할 경우 사용자가 무릎을 구부리면서 몸을 낮추는 동작을 '스쿼트 행동'으로 오인식할 수도 있지만, 본 발명에 따른 사용자 행동 인식부(430)는 위와 같이 행동이 발생한 위치에 대응하는 주요 면의 의미에 따라 미리 설정된 행동 목록을 참조함으로써, 해당 주요 면에서 발생할 가능성이 있는 행동들 중에서 사용자의 행동을 인식할 수 있고, 그에 따라 행동 인식 정확도를 향상시킬 수 있는 효과가 있다.
여기서 사용자 행동 인식부(430)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다. 사용자 행동 인식부(430)는 특정한 사용자의 동작 또는 자세를 분석하여 하나 이상의 후보 행동으로 이를 인식할 수 있다. 그리고 복수개의 후보 행동들 중에서 상기 행동 목록에 포함된 행동과 대응하는 후보 행동을 선정하여, 이를 사용자 행동으로 인식할 수 있다. 여기서 후보 행동이 행동 목록에 포함된 행동과 동일하면 이를 사용자 행동으로 인식할 수 있고, 또는 후보 행동이 행동 목록에 포함된 행동과 정확하게 일치하지는 않더라도 관련된 행동으로 판단될 수 있는 경우 이를 사용자 행동으로 인식할 수 있다. 후보 행동과 행동 목록에 포함된 행동 간의 대응 관계를 판단하기 위하여는, 행동 간의 관계를 미리 정의한 모델을 이용할 수 있다. 일 실시예에 따르면 상기 물체-행동 관계 모델을 이용할 수도 있다.
여기서 주요 면 선택부(420)는 사용자의 행동이 발생한 위치에 대응하는 주요 면을 복수개 선택할 수도 있다. 사용자 행동 인식부(430)는 복수개의 주요 면에 대응하는 행동 목록들에서 후보 행동에 대응하는 행동들을 복수개 발견할 수 있다. 이때 사용자 행동 인식부(430)는 발견한 행동들 중에서, 행동 목록에 행동과 함께 저장된 확률 값을 참조하여 확률 값이 가장 높은 행동을 선택하여, 사용자 행동으로 인식할 수 있다. 또한 이때 주요 면과 사용자의 행동이 발생한 위치 간의 거리에 따라 산출되는 가중치를 각 행동 별 확률 값에 곱한 값을 기준으로, 행동 목록에서 행동을 선택하여 사용자의 행동으로 인식할 수도 있다. 위와 같은 구성을 통하여 사용자의 행동이 발생한 위치에 보다 가까이 존재하는 주요 면의 행동 목록에 포함된 행동들을 보다 우선시할 수 있는 효과가 있다. 이를 위하여 상기 가중치는 주요 면과 사용자의 행동이 발생한 위치 간의 거리와 반비례하도록 설정될 수 있다.
또한 상기 후보 행동들 중에서 행동 목록에 포함된 행동들과 대응하는 후보 행동이 복수개 존재하는 경우에도 위에서 설명한 바와 같이 확률 값을 기준으로 행동 목록에서 최우선의 행동을 선택하여 사용자의 행동으로 인식할 수 있다.
여기서 사용자 행동 인식부(430)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하기 위하여 다양한 공지된 사용자 자세 인식 또는 포스쳐 인식 또는 동작 인식 또는 제스쳐 인식 알고리즘을 사용할 수 있다. 그리고 상기 인식 알고리즘의 수행 결과 사용자의 동작 또는 자세를 적어도 하나 이상의 후보 행동으로 인식할 수 있다. 즉 사용자의 자세나 동작은 경우에 따라 실제 사용자가 서로 다른 의도를 가지고 행동한 것임에도 불구하고, 그 외관상의 행동은 유사하게 나타날 수 있기 때문에, 사용자 행동 인식부(430)는 사용자의 동작 또는 자세를 인식하여 사용자가 의도할 수 있는 복수개의 후보 행동을 결정할 수 있다. 상술한 예와 같이 사용자의 동작이 무릎을 구부려 몸을 낮추는 동작인 경우, 이에 대하여 '앉는 행동' 또는 '스쿼트 행동'으로 후보 행동을 결정할 수 있다. 또는 사용자의 동작이 서있는 상태로 한 손을 전방으로 이동시키는 동작인 경우, 이에 대하여 '악수 행동' 또는 '문을 여는 행동'으로 후보 행동을 결정할 수 있다.
여기서 사용자 행동 인식부(430)는 상기 입력 영상에서 사용자의 형체 또는 그에 따른 스켈레톤 정보를 인식하고, 이를 분석하여 사용자의 동작 또는 자세를 인식할 수 있다. 예를 들면 "Generating skeletons and centerlines from the distance transform, C.Wayne Niblack. et al., CVGIP: Graphical Models and Image Processing, Volume 54, Issue 5, September 1992, Pages 420-437", "휴먼-로봇 인터액션을 위한 하이브리드 스켈레톤 특징점 추출, 주영훈, 소제윤, 제어로봇시스템학회 논문지 14.2 (2008): 178-183.", "Human action recognition using star skeleton, Hsuan-Sheng Chen. et al, Proceeding VSSN '06 Proceedings of the 4th ACM international workshop on Video surveillance and sensor networks Pages 171-178", "Binary shape recognition using the morphological skeleton transform, P.E. Trahanias, Pattern Recognition, Volume 25, Issue 11, November 1992, Pages 1277-1288"에서 각 개시하고 있는 사용자 형체 또는 스켈레톤 인식 방법을 이용할 수 있다. 여기서 사용자 행동 인식부(430)는 상술한 예 이외에도 다양한 사용자 형체 인식 기술을 이용하여 사용자의 형체 또는 그에 따른 스켈레톤, 골격을 인식할 수 있음은 물론이다.
여기서 사용자 행동 인식부(430)가 인식하는 사용자의 자세는 특정한 시점에서의 상기 사용자의 신체의 일부분의 형태나 자세 또는 포즈가 될 수 있고, 사용자의 동작은 일정한 시간 동안의 상기 사용자의 신체의 일부분의 형태나 자세 또는 포즈의 움직임이나 변화가 될 수 있다. 그리고 여기서 사용자 행동 인식부(430)가 사용자의 자세 또는 동작을 인식하기 위하여 분석하는 사용자의 신체의 일부분은 사용자의 손이 될 수 있고, 필요에 따라 사용자의 팔, 상반신, 하반신, 전신 등이 될 수 있다. 여기서 사용자 행동 인식부(430)는 상기 사용자의 형체에 따른 사용자의 골격(스켈레톤)의 자세 또는 시간의 흐름에 따른 변화를 인식하여 사용자의 자세 또는 동작을 사전에 정의된 후보 행동으로 인식할 수 있다. 여기서 후보 행동은 골격의 자세 또는 시간의 흐름에 따른 변화 동작에 따라 미리 정의될 수 있다. 사용자 행동 인식부(430)는 입력 영상에서 인식한 사용자의 골격에 대한 인식 정보와 미리 정의된 후보 행동에 관한 정보를 비교하여 그 결과에 따라 사용자의 동작 또는 자세가 어느 후보 행동에 해당하는지를 인식할 수 있다. 그리고 이때 상술한 바와 같이 인식한 결과에 따라 가능성이 있는 복수개의 후보 행동을 결정할 수 있다.
여기서 사용자 행동 인식부(430)는 사용자의 형체 또는 골격을 인식하여 사용자의 동작 또는 자세에 따른 후보 행동을 인식하기 위하여 다양한 공지된 제스쳐 인식 기술을 사용할 수 있다. 예를 들면 사용자 입력 정보 식별부는 "Dynamic hand gesture recognition using the skeleton of the hand, Ionescu, Bogdan, et al. EURASIP Journal on Applied Signal Processing 2005 (2005): 2101-2109.", "Robust part-based hand gesture recognition using kinect sensor, Ren, Zhou, et al., Multimedia, IEEE Transactions on 15.5 (2013): 1110-1120.", "Human action recognition using star skeleton, Hsuan-Sheng Chen. et al, Proceeding VSSN '06 Proceedings of the 4th ACM international workshop on Video surveillance and sensor networks Pages 171-178"에서 개시하고 있는 각 제스쳐 인식 방법을 이용할 수 있고, 기타 다양한 제스쳐 인식 방법을 이용할 수 있다.
본 발명의 또 다른 실시예에 따른 행동 인식 장치는 객체 검출부(1000), 행동 목록 설정부(2000), 행동 인식부(3000)를 포함할 수 있다.
도 7은 상기 또 다른 실시예에 따른 행동 인식 장치의 블록도이다.
객체 인식부(1000)는 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식한다. 여기서 객체 인식부(1000)는 상술한 객체 인식부(100)와 동일한 방식으로 객체를 검출하고 인식할 수 있다.
행동 목록 설정부(2000)는 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정한다.
여기서 행동 목록 설정부(2000)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정할 수 있다. 여기서 물체-행동 관계 모델을 이용하여 검색한 물체에 따라 행동 목록을 설정하는 동작은 상술한 행동 목록 설정부(300)와 동일한 방식으로 수행될 수 있다.
행동 인식부(3000)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 행동 인식부(3000)는 상술한 행동 인식부(400)에 대하여 상세히 설명한 부분에서 주요 면 대신 검출한 객체를 이용하여 행동 목록을 참조하여 상용자의 행동을 인식할 수 있고, 세부 동작은 상술한 행동 인식부(400)와 동일하게 수행될 수 있다.
도 8은 행동 인식부(3000)의 세부 블록도이다.
행동 인식부(3000)는 행동 위치 검출부(3100), 객체 선택부(3200), 사용자 행동 인식부(3300)를 포함할 수 있다.
행동 위치 검출부(3100)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다.
객체 선택부(3200)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택한다. 여기서 객체 선택부(3200)는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택할 수 있다.
사용자 행동 인식부(3300)는 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 사용자 행동 인식부(3300)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.
본 발명의 또 다른 실시예에 따른 행동 인식 방법은 주요 면 추출 단계(S200), 행동 목록 설정 단계(S300), 행동 인식 단계(S400)를 포함할 수 있다. 여기서 또 다른 실시예에 따른 행동 인식 방법은 객체 인식 단계(S100)를 더 포함할 수도 있다. 여기서 상기 실시예에 따른 행동 인식 방법은 도 1 내지 도 6을 참조하면서 상세히 설명한 본 발명의 일 실시예에 따른 행동 인식 장치가 동작하는 방식과 동일하게 동작할 수 있다.
도 9는 본 발명의 일 실시예에 따른 행동 인식 방법의 흐름도이다.
주요 면 추출 단계(S200)는 입력 영상에서 적어도 하나 이상의 주요 면을 추출한다.
행동 목록 설정 단계(S300)는 상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주오 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정한다.
행동 인식 단계(S400)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다.
객체 인식 단계(S100)는 상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식한다. 여기서 객체 인식 단계(S100)는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정할 수 있다.
주요 면 추출 단계(S200)는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출할 수 있다. 여기서 주요 면 추출 단계(S200)는 주요 노멀 벡터 추출 단계(S210), 면 추출 단계(S220)를 포함할 수 있다.
도 10은 주요 면 추출 단계(S200)의 세부 흐름도이다.
주요 면 추출 단계(S200)는 주요 노멀 벡터 추출 단계(S210), 면 추출 단계(S220)를 포함할 수 있다.
주요 노멀 벡터 추출 단계(S210)는 상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정한다. 주요 노멀 벡터 추출 단계(S210)는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정할 수 있다.
면 추출 단계(S220)는 상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출한다.
행동 목록 설정 단계(S300)는 주요 면 인식 단계(S310), 목록 설정 단계(S320)를 포함할 수 있다.
도 11은 행동 목록 설정 단계(S300)의 세부 흐름도이다.
주요 면 인식 단계(S310)는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식한다.
목록 설정 단계(S320)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정한다.
여기서 상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델이 될 수 있다. 여기서 상기 물체-행동 관계 모델은 상기 물체와 상기 행동 간의 관계를 노드와 에지 간의 연결 그래프로 나타낸 그래프 모델이 될 수 있다.
행동 인식 단계(S400)는 행동 위치 검출 단계(S410), 주요 면 선택 단계(S420), 사용자 행동 인식 단계(S430)를 포함할 수 있다.
도 12는 행동 인식 단계(S400)의 세부 흐름도이다.
행동 위치 검출 단계(S410)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다.
주요 면 선택 단계(S420)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택한다.
사용자 행동 인식 단계(S430)는 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다.
여기서 주요 면 선택 단계(S420)는 상기 주요 면 추출 단계에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택할 수 있다.
여기서 사용자 행동 인식 단계(S430)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.
본 발명의 또 다른 실시예에 따른 행동 인식 방법은 객체 인식 단계(S1000), 행동 목록 설정 단계(S2000), 행동 인식 단계(S3000)를 포함할 수 있다. 여기서 상기 실시예에 따른 행동 인식 방법은 도 7 내지 도 8을 참조하면서 설명한 본 발명의 일 실시예에 따른 행동 인식 장치가 동작하는 방식과 동일하게 동작할 수 있다.
도 13은 상기 또 다른 실시예에 따른 행동 인식 방법의 흐름도이다.
객체 검출 단계(S1000)는 입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식한다. 행동 목록 설정 단계(S2000)는 상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정한다. 행동 인식 단계(S3000)는 상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 행동 목록 설정 단계(S2000)는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정할 수 있다.
여기서 행동 인식 단계(S3000)는 행동 위치 검출 단계(S3100), 객체 선택 단계(S3200), 사용자 행동 인식 단계(S3300)를 포함할 수 있다. 도 14는 행동 인식 단계(S3000)의 세부 흐름도이다.
행동 위치 검출 단계(S3100)는 상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출한다. 객체 선택 단계(S3200)는 상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택한다. 여기서 객체 선택 단계(S3200)는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택할 수 있다. 사용자 행동 인식 단계(S3300)는 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식한다. 여기서 사용자 행동 인식 단계(S3300)는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식할 수 있다.
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.
또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (20)

  1. 행동 인식 장치에 있어서,
    입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출부;
    상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및
    상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함하는 것을 특징으로 하는 행동 인식 장치.
  2. 제1항에 있어서,
    상기 주요 면 추출부는 상기 입력 영상에서 적어도 하나 이상의 주요 노멀 벡터를 추출하고, 상기 입력 영상에서 상기 추출한 주요 노멀 벡터에 대응하는 각 영역을 상기 주요 면으로 추출하는 것을 특징으로 하는 행동 인식 장치.
  3. 제2항에 있어서, 상기 주요 면 추출부는,
    상기 입력 영상에서 지역적 노멀 벡터를 산출하고, 상기 산출한 지역적 노멀 벡터 중에서 상기 주요 노멀 벡터를 결정하는 주요 노멀 벡터 추출부를 포함하는 것을 특징으로 하는 행동 인식 장치.
  4. 제3항에 있어서,
    상기 주요 노멀 벡터 추출부는 상기 입력 영상의 지역적 면에서의 노멀 벡터를 상기 지역적 노멀 벡터로 산출하고, 상기 산출한 지역적 노멀 벡터들을 클러스터링하고, 상기 클러스터링한 벡터들 중에서 상기 주요 노멀 벡터를 결정하는 것을 특징으로 하는 행동 인식 장치.
  5. 제2항에 있어서, 상기 주요 면 추출부는,
    상기 입력 영상에서 상기 주요 노멀 벡터를 가지는 화소들을 수집하고, 상기 수집한 화소들을 클러스터링하여 상기 주요 노멀 벡터에 대응하는 상기 주요 면을 추출하는 면 추출부를 포함하는 것을 특징으로 하는 행동 인식 장치.
  6. 제1항에 있어서,
    상기 행동 목록 설정부는 상기 입력 영상 내에 존재하는 객체의 위치 정보와 상기 객체의 의미 정보를 포함하는 객체 인식 정보를 입력받고, 상기 주요 면의 위치에 대응하는 상기 객체의 의미 정보에 따라 상기 주요 면의 의미를 인식하는 주요 면 인식부를 포함하는 것을 특징으로 하는 행동 인식 장치.
  7. 제1항에 있어서,
    상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 주요 면의 의미에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 주요 면의 상기 행동 목록을 설정하는 목록 설정부를 포함하는 것을 특징으로 하는 행동 인식 장치.
  8. 제7항에 있어서,
    상기 물체-행동 관계 모델은 적어도 하나 이상의 상기 물체에 대하여, 각 상기 물체 별로 상기 물체와 관계된 적어도 하나 이상의 상기 행동을 미리 정의한 모델인 것을 특징으로 하는 행동 인식 장치.
  9. 제1항에 있어서,
    상기 입력 영상 또는 별도의 입력 영상에서 객체를 검출하고 인식하는 객체 인식부를 더 포함하는 것을 특징으로 하는 행동 인식 장치.
  10. 제9항에 있어서,
    상기 객체 인식부는 상기 검출한 객체의 상기 입력 영상 내에서의 위치 정보를 설정하고, 상기 인식한 객체의 의미 정보를 설정하는 것을 특징으로 하는 행동 인식 장치.
  11. 제1항에 있어서, 상기 행동 인식부는,
    상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부;
    상기 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하는 주요 면 선택부; 및
    상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함하는 것을 특징으로 하는 행동 인식 장치.
  12. 제11항에 있어서,
    상기 주요 면 선택부는 상기 주요 면 추출부에서 추출된 상기 주요 면들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 주요 면을 선택하는 것을 특징으로 하는 행동 인식 장치.
  13. 제11항에 있어서,
    상기 사용자 행동 인식부는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식하는 것을 특징으로 하는 행동 인식 장치.
  14. 행동 인식 장치에 있어서,
    입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식부;
    상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정부; 및
    상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식부;를 포함하는 것을 특징으로 하는 행동 인식 장치.
  15. 제14항에 있어서,
    상기 행동 목록 설정부는 물체와 행동 간의 관계를 미리 정의한 물체-행동 관계 모델에서 상기 인식한 객체에 대응하는 상기 물체를 검색하고, 상기 검색한 물체와 관계된 행동을 상기 물체-행동 관계 모델에서 추출하여, 상기 추출한 행동에 따라 상기 객체의 상기 행동 목록을 설정하는 것을 특징으로 하는 행동 인식 장치.
  16. 제14항에 있어서, 상기 행동 인식부는,
    상기 입력 영상에서 상기 사용자의 행동이 발생한 위치를 검출하는 행동 위치 검출부;
    상기 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하는 객체 선택부; 및
    상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 사용자 행동 인식부를 포함하는 것을 특징으로 하는 행동 인식 장치.
  17. 제16항에 있어서,
    상기 객체 선택부는 상기 입력 영상의 상기 객체들 중에서, 상기 사용자의 행동이 발생한 위치와 소정의 거리 이내에 위치하는 상기 객체를 선택하는 것을 특징으로 하는 행동 인식 장치.
  18. 제16항에 있어서,
    상기 사용자 행동 인식부는 상기 입력 영상에서 상기 사용자의 동작 또는 자세를 인식하여 적어도 하나 이상의 후보 행동을 결정하고, 상기 결정한 후보 행동 중에서 상기 행동 목록에 포함된 행동과 대응하는 상기 후보 행동을 선정하여, 상기 사용자의 행동으로 인식하는 것을 특징으로 하는 행동 인식 장치.
  19. 행동 인식 방법에 있어서,
    입력 영상에서 적어도 하나 이상의 주요 면을 추출하는 주요 면 추출 단계;
    상기 추출한 주요 면의 의미를 인식하고, 상기 인식한 주요 면의 의미에 따라 상기 추출한 주요 면 별로 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및
    상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 주요 면을 선택하고, 상기 선택한 주요 면의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함하는 것을 특징으로 하는 행동 인식 방법.
  20. 행동 인식 방법에 있어서,
    입력 영상에서 적어도 하나 이상의 객체를 검출하고 인식하는 객체 인식 단계;
    상기 인식한 객체에 관하여 발생 가능한 행동 목록을 설정하는 행동 목록 설정 단계; 및
    상기 입력 영상에서 사용자의 행동이 발생한 위치에 대응하는 상기 객체를 선택하고, 상기 선택한 객체의 상기 행동 목록에 기초하여 상기 사용자의 행동을 인식하는 행동 인식 단계;를 포함하는 것을 특징으로 하는 행동 인식 방법.
PCT/KR2016/000730 2015-12-11 2016-01-22 물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치 WO2017099292A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150176637A KR101758693B1 (ko) 2015-12-11 2015-12-11 물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치
KR10-2015-0176637 2015-12-11

Publications (1)

Publication Number Publication Date
WO2017099292A1 true WO2017099292A1 (ko) 2017-06-15

Family

ID=59013311

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/000730 WO2017099292A1 (ko) 2015-12-11 2016-01-22 물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치

Country Status (2)

Country Link
KR (1) KR101758693B1 (ko)
WO (1) WO2017099292A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102174656B1 (ko) * 2019-03-26 2020-11-05 연세대학교 산학협력단 비디오 액션 인식 및 액션 영역 탐지 장치 및 방법
KR102174658B1 (ko) * 2019-03-27 2020-11-05 연세대학교 산학협력단 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법
KR20230093857A (ko) 2021-12-20 2023-06-27 한양대학교 산학협력단 도구 정보를 활용하는 행동 인식 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101023951B1 (ko) * 2009-03-17 2011-03-28 한국과학기술원 행동인식 시스템 및 방법
US20120163670A1 (en) * 2007-02-08 2012-06-28 Behavioral Recognition Systems, Inc. Behavioral recognition system
WO2014004901A1 (en) * 2012-06-29 2014-01-03 Behavioral Recognition Systems, Inc. Unsupervised learning of feature anomalies for a video surveillance system
KR101512048B1 (ko) * 2014-04-14 2015-04-15 한국과학기술원 희소 표현 기반의 행동 인식 방법 및 그 장치
KR20150100141A (ko) * 2014-02-24 2015-09-02 주식회사 케이티 행동패턴 분석 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120163670A1 (en) * 2007-02-08 2012-06-28 Behavioral Recognition Systems, Inc. Behavioral recognition system
KR101023951B1 (ko) * 2009-03-17 2011-03-28 한국과학기술원 행동인식 시스템 및 방법
WO2014004901A1 (en) * 2012-06-29 2014-01-03 Behavioral Recognition Systems, Inc. Unsupervised learning of feature anomalies for a video surveillance system
KR20150100141A (ko) * 2014-02-24 2015-09-02 주식회사 케이티 행동패턴 분석 장치 및 방법
KR101512048B1 (ko) * 2014-04-14 2015-04-15 한국과학기술원 희소 표현 기반의 행동 인식 방법 및 그 장치

Also Published As

Publication number Publication date
KR20170070298A (ko) 2017-06-22
KR101758693B1 (ko) 2017-07-19

Similar Documents

Publication Publication Date Title
US8144932B2 (en) Image processing apparatus, image processing method, and interface apparatus
EP2701094A2 (en) Object detection apparatus and control method thereof, program, and storage medium
WO2019031714A1 (ko) 객체를 인식하는 방법 및 장치
WO2017090830A1 (ko) 공간-물체 관계 그래프에 기반한 객체 인식 방법 및 그 장치
WO2015069087A1 (ko) 인식기 학습 방법 및 장치, 데이터 인식 방법 및 장치
WO2020196985A1 (ko) 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법
US9633264B2 (en) Object retrieval using background image and query image
WO2011096651A2 (ko) 얼굴 식별 방법 및 그 장치
EP3142040A1 (en) Information processing apparatus, method of controlling the same, and program
Terrillon et al. Detection of human faces in complex scene images by use of a skin color model and of invariant Fourier-Mellin moments
JP2000132688A (ja) 顔パーツ検出方法及びその装置
WO2019132566A1 (ko) 멀티 심도 이미지의 자동 생성 방법
WO2017099292A1 (ko) 물체-행동 관계 모델에 기반한 행동 인식 방법 및 그 장치
CN111382637B (zh) 行人检测跟踪方法、装置、终端设备及介质
JP5887264B2 (ja) 物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体
Buckley et al. A CNN sign language recognition system with single & double-handed gestures
WO2020080734A1 (ko) 얼굴 인식 방법 및 얼굴 인식 장치
EP3441938B1 (en) Image recognition device and image recognition program
JP2018036901A (ja) 画像処理装置、画像処理方法および画像処理プログラム
WO2017164554A1 (ko) 기계 학습 알고리즘을 이용한 도어 이미지 검출 방법 및 장치
WO2020256517A2 (ko) 전방위 화상정보 기반의 자동위상 매핑 처리 방법 및 그 시스템
JP4449483B2 (ja) 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム
WO2017175980A1 (ko) 윈도우 이미지 검출 방법 및 장치
WO2023063596A1 (ko) 사물 기반의 이미지 분석 서비스를 제공하기 위한 장치 및 방법
KR102650594B1 (ko) 낮은 공간 지터, 낮은 레이턴시 및 저전력 사용을 갖는 객체 및 키포인트 검출 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16873158

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16873158

Country of ref document: EP

Kind code of ref document: A1