WO2020235804A1 - 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치 - Google Patents

포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치 Download PDF

Info

Publication number
WO2020235804A1
WO2020235804A1 PCT/KR2020/004390 KR2020004390W WO2020235804A1 WO 2020235804 A1 WO2020235804 A1 WO 2020235804A1 KR 2020004390 W KR2020004390 W KR 2020004390W WO 2020235804 A1 WO2020235804 A1 WO 2020235804A1
Authority
WO
WIPO (PCT)
Prior art keywords
pose
image
images
generating
similarity
Prior art date
Application number
PCT/KR2020/004390
Other languages
English (en)
French (fr)
Inventor
위동윤
강명구
오광진
박진영
배순민
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to JP2021568548A priority Critical patent/JP7373589B2/ja
Publication of WO2020235804A1 publication Critical patent/WO2020235804A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Definitions

  • the present application relates to a method and a generating apparatus for generating a pose similarity determination model capable of calculating a similarity to a pose of a user included in different images.
  • a technology for detecting a target portion using a signal component such as a feature or a template or color has been developed and used in various ways in the image recognition field.
  • a technology that detects target parts of various bodies such as detecting faces using a detector using features based on SIFT (Scale Invariant Feature Transform) or classifiers such as Adaboost, or detecting faces using mask templates.
  • SIFT Scale Invariant Feature Transform
  • Adaboost Adaboost
  • the recent deep learning model shows remarkable performance improvement in various fields of computer vision and is changing the research paradigm.
  • existing computer vision studies have focused on designing useful features based on human knowledge, such as SIFT and HOG (Histogram of Oriented Gradient)
  • deep learning uses a multilayer artificial neural network to learn useful features directly from data. Take it.
  • This learning-based method has a greater feature in improving performance because useful features that humans do not know can be found directly through data. Accordingly, in order to recognize a user's pose in an image, a method of utilizing machine learning such as deep learning has been proposed.
  • the present application is intended to provide a pose similarity determination model generation method and a pose similarity determination model generation apparatus capable of generating a pose similarity determination model that is robust to changes in a user's body shape or camera angle.
  • the present application is to provide a pose similarity determination model generation method and a pose similarity determination model generation apparatus capable of efficiently forming a learning data set using a small number of sample images.
  • a method for generating a pose similarity determination model includes the steps of synchronizing a plurality of collected sample images; Extracting each frame image from the sample image and generating a pose image corresponding to a pose of an object appearing in the frame image; Generating a training dataset of triplets by setting similarity or dissimilarity of the pose images, respectively; And generating a pose similarity determination model for determining a similarity of a pose taken by an object in the image by performing machine learning on the learning dataset.
  • An apparatus for generating a pose similarity determination model includes: a preprocessor for preprocessing a plurality of collected sample images and synchronizing the sample images; A pose image generator configured to extract each frame image from the sample image and generate a pose image corresponding to a pose of an object appearing in the frame image; A training dataset generator configured to set the similarity or dissimilarity of the pose images, respectively, and generate a training dataset of a triplet; And a model training unit for generating a pose similarity determination model for determining a similarity of a pose taken by an object in the image by performing machine learning on the learning dataset.
  • a method for determining pose similarity includes: upon receiving a target image photographed by a user's motion, pre-processing the target image and synchronizing it with a reference image; Extracting each frame image from the target image, and generating a user pose image corresponding to the user's pose displayed in the frame image; And applying the user pose image to a pose similarity determination model, comparing the user pose image and a reference pose image corresponding to the reference image, and calculating a similarity between each user pose image and the reference pose image. can do.
  • a pose image is generated and utilized instead of a frame image of a sample image, so it is robust against changes in the user's body shape or camera angle. It is possible to create a pose similarity discrimination model.
  • the pose similarity determination model generation method and the pose similarity determination model generation apparatus it is possible to efficiently form a training data set using a small number of sample images.
  • FIG. 1 is a block diagram showing an apparatus for generating a pose similarity determination model according to an embodiment of the present invention.
  • FIG. 2 is a schematic diagram showing generation of a pose image according to an embodiment of the present invention.
  • 3 and 4 are schematic diagrams showing generation of a training data set according to an embodiment of the present invention.
  • FIG. 5 is a schematic diagram showing metric learning according to an embodiment of the present invention.
  • 6 and 7 are flowcharts illustrating a method of generating a pose similarity determination model according to an embodiment of the present invention.
  • FIG. 8 is a schematic diagram showing a pose similarity determination apparatus according to an embodiment of the present invention.
  • FIG. 9 is a flowchart showing a method of determining a pose similarity according to an embodiment of the present invention.
  • module and “unit” for components used in the following description are given or used interchangeably in consideration of only the ease of preparation of the specification, and do not have meanings or roles that are distinguished from each other by themselves. That is, the term'unit' used in the present invention means a hardware component such as software, FPGA or ASIC, and the'unit' performs certain roles. However,'part' is not limited to software or hardware.
  • The'unit' may be configured to be in an addressable storage medium, or may be configured to reproduce one or more processors.
  • 'unit' refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, procedures, Includes subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, database, data structures, tables, arrays and variables.
  • the functions provided in the components and'units' may be combined into a smaller number of components and'units', or may be further divided into additional components and'units'.
  • FIG. 1 is a block diagram showing an apparatus for generating a pose similarity determination model according to an embodiment of the present invention.
  • a pose similarity determination model generation apparatus includes a preprocessor 110, a pose image generation unit 120, a training dataset generation unit 130, and a model training unit 140. It may include.
  • the preprocessor 110 may perform preprocessing on the sample images video_1, video_2,..., video_n. A plurality of sample images may be collected in advance, and the preprocessor 110 may perform pre-processing to utilize the sample images.
  • the preprocessor 110 may include various methods for increasing the performance of the pose similarity determination model generating apparatus according to an embodiment of the present invention. According to an embodiment of the present invention, the preprocessor 110 may perform a task of synchronizing sample images to represent the same or similar poses at the same time point.
  • the preprocessor 110 may synchronize the sample images by adjusting the frame per second (FPS) of the sample images or calculating an offset time with respect to the reference image.
  • the preset reference image or Synchronization of each sample image may be performed based on a preset rule.
  • synchronization can be performed to represent the same pose at the same viewpoint between the images.
  • an offset having the smallest difference between the audio waveforms between the reference image and the target image may be set as the synchronization offset by analyzing the audio waveform.
  • the object detection and tracking algorithm may be used to divide the object into a plurality of objects, and then the motion similarity of each may be calculated.
  • the pose similarity determination model is for finding a pose similar to a pose taken by the user, or calculating how similar a pose taken by the user is to a specific pose, and can be generated by learning a plurality of sample images. have. Accordingly, a different sample image may be selected according to the type of the user's pose to be determined using the pose similarity determination model.
  • a dance image or the like in which people dance a specific dance may be selected as a sample image, and at this time, the angle of a camera that photographed each sample image or a body shape of the dancing people may be different. That is, since various sample images photographed with different body types or camera angles are used, it is possible to create a pose similarity determination model that is robust to changes in body shape or camera angle.
  • sample image may be an image of a specific posture used in an exercise event such as a golf swing posture in addition to a dance image, and any sample image including a pose of a human body may be used as a sample image.
  • any sample image including a pose of a human body may be used as a sample image.
  • the pose image generator 120 may extract each frame image from the sample image and generate a pose image corresponding to a pose of an object displayed in the frame image.
  • the sample image may include a plurality of frame images, and as shown in FIG. 2, poses of the object may be shown in each frame image f1 and f2.
  • the pose image generator 120 may recognize the pose of the object from the frame image, and may represent the recognized pose of the object as a pose image. That is, as shown in Fig. 2, pose images (pose1, pose2) are generated by displaying the pose of the object shown in the frame image (f1, f2) as a feature point such as a joint and a connection relationship between each feature point. can do.
  • Pose images simplify and display the pose of an object as a feature point and a connection relationship between each feature point, so whether objects with different body types correspond to the same pose by using the location and connection relationship of the feature points. It is possible to easily determine whether or not.
  • the conversion from the frame image to the pose image may utilize a known pose estimation model or the like.
  • the training dataset generation unit 130 may generate a training dataset of triplets by setting similarity or dissimilarity between pose images, respectively.
  • a pose image similar to an anchor is set as a positive example, and a dissimilar pose image is set as a negative example.
  • the training data set generation unit 130 may implement the training data set in the form of a triple pair.
  • each anchor image and its similarity and dissimilarity are set, it is possible to perform supervised learning during machine learning.
  • the learning data set generation unit 130 may generate a learning data set in various ways according to embodiments.
  • the training data set generation unit 130 may generate a training data set using viewpoints of a plurality of sample images.
  • a plurality of preprocessed sample images may exist, and each of the sample images may be synchronized.
  • the sample images may be dance images performed by different users for the same music, and since each sample image is synchronized, objects included in the sample image may be viewed as taking the same or similar poses at the same viewpoint. That is, even if the body shape or camera angle of the objects are different for each sample image, it can be determined that all of them correspond to the same or similar pose.
  • the dance movement is different at different viewpoints in the same sample image, it can be determined that different poses are taken at different viewpoints (T+1, T+2, T+3) even within the same sample image.
  • n1, n2, n3 can be set as a non-similar sample (n1, n2, n3) for.
  • similar samples to the anchor may be generated as many as n number of sample images, and dissimilar samples may be generated as many as the number of frame images included in the selected image.
  • a pose similar to the anchor (a) is not selected for the dissimilar sample.
  • a pose image far from the viewpoint T of the anchor a may be selected, or additional elements such as background music may be additionally considered and selected. For example, it is possible to select a portion in which the atmosphere or tempo of the background music in the sample image is different.
  • the learning data set generation unit 130 can set the anchor (a) by sequentially or arbitrarily changing the viewpoint from the start point to the end point of the selected video (video_1), and select using the set anchor (a). Training datasets corresponding to all or part of the pose images included in the image video_1 may be generated.
  • the training data sets may be generated by changing the selected image and applying the same method to the changed selected image.
  • a training dataset may be generated by sequentially selecting all of the plurality of sample images as selected images, or according to an exemplary embodiment, a training dataset may be generated by selecting a set number of sample images as selected images.
  • the learning data set generation unit 130 may generate a learning data set using 3D pose coordinates for a pose of an object. Specifically, as shown in Fig. 4(a), for each frame image (f1, f2, f3, f4) of one selected image (video_1), 3D pose coordinates for the object in the frame image are generated. can do. That is, as shown in Fig. 4(b), a 3D pose can be generated from a 2D pose image. At this time, the transformation from 2D to 3D pose coordinates can be easily performed using a known transformation model.
  • a two-dimensional image can be generated by projecting the three-dimensional pose coordinates corresponding to the point T of the selected image video_1 at a set angle, and the generated 2 You can set the dimensional image as an anchor (a).
  • 2D images can be further generated by projecting the 3D pose coordinates corresponding to the viewpoint T at a plurality of angles other than the set angle, and the generated 2D images are Each of the similar samples (p1, p2, p3) can be set. That is, since only the angle projected to the same three-dimensional pose coordinates is changed, each two-dimensional image corresponds to substantially representing the same pose. Accordingly, 2D images obtained by projecting the 3D pose coordinates at a plurality of different angles may be set as similar samples p1, p2, and p3.
  • the learning data set generation unit 130 may set the 2D images generated by projecting the 3D pose coordinates for each frame image at a set angle as dissimilar samples.
  • the learning data set generation unit 130 may generate a learning data set while changing a viewpoint from a start point to an end point of the selected image.
  • a plurality of sample images may be sequentially selected as the selected image, so that training data corresponding to each selected image may be generated.
  • the learning data set generation unit 130 may generate a learning data set by simultaneously using viewpoints of a plurality of sample images and 3D pose coordinates.
  • the learning data set generation unit 130 may set any one of the sample images as a selection image, and set a pose image corresponding to a specific viewpoint T of the selection image as an anchor.
  • pose images corresponding to view T of sample images other than the selected image may be firstly set as similar samples to the anchor.
  • 3D pose coordinates for pose images corresponding to the viewpoint T may be generated, and similar samples may be further added by projecting the 3D pose coordinates at a plurality of angles.
  • pose images corresponding to a viewpoint other than the T viewpoint among the selected images can be set as dissimilar samples for the anchor, and after generating 3D pose coordinates of each pose image, this By projecting at multiple angles, dissimilar samples can be added.
  • the model training unit 140 may generate a pose similarity determination model for determining a similarity of a pose taken by an object between images by performing machine learning on the training data set. Specifically, the model training unit 140 may machine-learn the training dataset as a metric learning model, and determine the similarity of each pose image included in the training dataset as a distance on a feature map. It can be represented using
  • the model training unit 140 may utilize a triplet loss function.
  • the triple pair loss function is
  • f(*) is a feature map function
  • is a margin
  • x a i is an anchor
  • x + i is a similar sample
  • x - i is a dissimilar sample.
  • the triple-pair loss function it is possible to learn so that the distance between the similar sample and the anchor becomes close and the distance between the dissimilar sample and the anchor increases on the feature map. That is, as shown in Fig. 5(a), the anchor (a), similar samples (p), and dissimilar samples (n) located on the initial feature map are shown in 5(b) afterwards. As one, the similar sample (p) can be learned to move closer to the anchor (a) and the dissimilar sample (n) to move away from the anchor. Through this, it is possible to determine the similarity of the images through the distance between each pose image.
  • the model training unit 140 may receive a pose image using a learned convolutional neural network (CNN) and extract a feature, and an anchor, a similar sample, and a dissimilar sample corresponding to each pose image are placed on the feature map. Can be located.
  • CNN convolutional neural network
  • 6 and 7 are flowcharts illustrating a method of generating a pose similarity determination model according to an embodiment of the present invention.
  • the pose similarity determination model generation method includes a preprocessing step (S110), a pose image generation step (S120), a training dataset generation step (S130), and a pose similarity. It may include a discrimination model generation step (S140). Here, each step may be performed by the pose similarity determination model generating device.
  • the pose similarity determination model is to find a pose similar to a pose taken by a user or to determine how similar a pose taken by a user is to a specific pose, and the sample image includes scenes in which a specific object takes a certain pose.
  • the sample image may be a dance image in which people perform a specific dance, or an image of a specific posture used in an athletic event such as a swing posture of golf.
  • a plurality of collected sample images may be pre-processed.
  • various methods may be performed to increase the efficiency of generating the similarity determination model.
  • it may include synchronizing sample images to represent the same or similar poses at the same time point.
  • the sample images may be synchronized by adjusting the frame per second (FPS) of the sample images compared with the reference image, or calculating an offset time with respect to the reference image.
  • FPS frame per second
  • music or scenes commonly included in the sample image may be used.
  • each frame image may be extracted from the sample image, and a pose image corresponding to a pose of an object displayed in the frame image may be generated.
  • the pose image may be generated by simplifying the pose of the object shown in the frame image into a connection relationship between the feature points included in the object and the feature points.
  • portions representing a human joint may be a feature point
  • a pose image may be in the form of a binary image in which the connection between the feature points and the feature points is 1, and the other parts are 0.
  • it may be an image using a value labeled according to each connection part to confirm the feature point or the connection part thereof.
  • a known pose estimation model or the like may be used.
  • a training dataset of a triplet may be generated by setting similarity or dissimilarity of pose images, respectively. That is, after setting a random pose image as an anchor, a training dataset is created by setting a pose image similar to an anchor as a positive example, and a dissimilar pose image as a negative example. can do.
  • the training data set is divided into similar and dissimilar samples by determining the similarity and dissimilarity to the anchor for each pose image, it is possible to perform supervised learning using the training data set. Do.
  • the learning data set can be generated in various ways according to embodiments.
  • any one of a plurality of sample images may be set as a selection image, and a pose image corresponding to a viewpoint T of the selection image may be set as an anchor (S131a). Thereafter, pose images corresponding to the viewpoint T of sample images other than the selected image may be set as similar samples to the anchor (S132a). On the other hand, since the pose images corresponding to the viewpoint other than the T viewpoint among the selected images include poses different from the anchor, each pose image may be set as a dissimilar sample (S133a).
  • the T viewpoint is sequentially changed from the start point to the end point of the selected image, and training datasets corresponding to all pose images included in the selected image are generated, or training datasets for a predetermined number of times are randomly selected. Can be generated.
  • the training data sets may be generated by changing the selected image and applying the same method to the changed selected image.
  • a training dataset may be generated by sequentially selecting all of the plurality of sample images as selected images, or according to an exemplary embodiment, a training dataset may be generated by selecting a set number of sample images as selected images.
  • any one of a plurality of sample images may be set as a selection image, and 3D pose coordinates may be generated for each of the pose images of the selection image (S131b). That is, it is possible to generate three-dimensional pose coordinates from a two-dimensional pose image, and at this time, conversion into three-dimensional pose coordinates can be easily performed using a known transformation model.
  • a 2D image may be generated by projecting a 3D pose coordinate corresponding to the point T of the selected image at a set angle, and the generated 2D image may be set as an anchor (S132b).
  • 2D images may be further generated by projecting the 3D pose coordinates corresponding to the viewpoint T at a plurality of angles other than the set angle, and each of the generated 2D images may be set as similar samples (S133b).
  • 3D pose coordinates corresponding to a viewpoint other than the T viewpoint it can be determined that each represents a different pose. Accordingly, 2D images generated by projecting each of the 3D pose coordinates at a set angle may be set as dissimilar samples (S134b).
  • a training data set while changing the point T from the start point to the end point of the selected image.
  • a plurality of sample images may be sequentially selected as the selected image, so that training data corresponding to each selected image may be generated.
  • one of the sample images may be set as a selection image, and a pose image corresponding to the T view point of the selected image may be set as an anchor.
  • pose images corresponding to the viewpoint T of sample images other than the selected image may be set as similar samples for the anchor.
  • similar samples may be further added by generating 3D pose coordinates for pose images corresponding to the viewpoint T, and projecting the 3D pose coordinates at a plurality of angles.
  • pose images corresponding to a viewpoint other than the T viewpoint among the selected images can be set as dissimilar samples for the anchor, and then 3D pose coordinates of each pose image are generated, and a plurality of angles Dissimilar samples can be added by projecting to.
  • a pose similarity determination model for determining the similarity of a pose taken by an object in the image may be generated by performing machine learning with the training data set. That is, the training dataset can be machine-learned using a metric learning model, and the similarity of each pose image included in the training dataset can be represented by using a distance on a feature map.
  • machine learning may be performed using a triplet loss function.
  • the triple pair loss function is
  • f(*) is a feature map function
  • is a margin
  • x a i is an anchor
  • x + i is a similar sample
  • x - i is a dissimilar sample.
  • the triple pair loss function it is possible to learn so that the distance between the similar sample and the anchor becomes close and the distance between the dissimilar sample and the anchor increases on the feature map. Through this, the similarity of the images can be determined through the distance in the feature map between each pose image.
  • FIG. 8 is a block diagram showing a pose similarity determination apparatus according to an embodiment of the present invention.
  • the apparatus 200 for determining a pose similarity may include a preprocessor 210, a pose image generator 220, and an operation unit 230.
  • the preprocessor 210 may receive a target image photographed by the user u's motion, and may pre-process the received target image and synchronize it with the reference image.
  • a photographing device (c) such as a camera may be further included in the pose similarity determination device 200, and a target image photographing the motion of the user (u) is generated using the photographing device (c). can do.
  • the target image may be an image of a golf swing posture of the user u, but is not limited thereto, and may include various poses of the user according to embodiments.
  • the preprocessor 210 may synchronize based on the start point of music included in the dance image, and when the target image is a golf swing posture, the initial preparation posture, etc. Can be synchronized.
  • the present invention is not limited thereto, and the target image and the reference image may be synchronized using various methods.
  • the pose image generator 220 may extract each frame image from the target image and generate a user pose image corresponding to the user's pose displayed in the frame image.
  • the target image may include a plurality of frame images, and a pose of the user u may be displayed in each frame image.
  • the pose image generator 220 may generate a user pose image by recognizing a pose of the user u from the frame image. That is, a user pose image that displays the user's pose shown in the frame image as a feature point such as a joint and a connection relationship between each feature point may be generated.
  • the pose image generator 220 may distinguish each user and may individually generate a user pose image corresponding to each user. Thereafter, it is also possible to provide a result of determining a pose similarity for any one of a plurality of users according to an external input.
  • a user pose image by distinguishing each body part of the user included in the frame image of the target image. For example, the user's head, arms, legs, and torso may be separated and a user pose image may be generated for each.
  • the operation unit 230 may calculate the similarity by applying the user pose image to the pose similarity determination model. That is, the user pose image and the reference pose image corresponding to the reference image may be compared using the pose similarity determination model, and the similarity between each user pose image and the reference pose images may be calculated.
  • the reference image may be selected by the user for comparison.
  • the target image is a photograph of a golf swing posture
  • it may be a golf swing posture of a famous golfer that the user wants to learn.
  • the user may select the golf swing posture of the golfer he desires among a plurality of famous golfers as the reference image. Thereafter, his posture may be corrected by checking the similarity between his golf swing posture and the golf swing posture of a famous golfer.
  • a separate pose image may be generated by distinguishing each body part when the user pose image is generated.
  • FIG. 9 is a flowchart showing a method of determining a pose similarity according to an embodiment of the present invention.
  • a method of determining a pose similarity may include a pre-processing step (S210), a pose image generation step (S220), and a calculation step (S230).
  • a target image in which a user's motion is photographed may be received, and the received target image may be synchronized with the reference image.
  • the target image may be an image of a user's dance or golf swing posture.
  • each frame image may be extracted from the target image, and a user pose image corresponding to the user's pose displayed in the frame image may be generated.
  • the target image may include a plurality of frame images, and a user's pose may be displayed in each frame image. Accordingly, it is possible to generate a user pose image by recognizing the user's pose from the frame image. Specifically, a user pose image may be generated by displaying the user's pose shown in the frame image as a feature point such as a joint and a connection relationship between each feature point.
  • a user pose image for each user may be generated by distinguishing each user. Thereafter, a result of determining a pose similarity for any one of a plurality of users may be provided according to an external input.
  • the similarity may be calculated by applying the user pose image to the pose similarity determination model. That is, the user pose image and the reference pose image corresponding to the reference image may be compared using the pose similarity determination model, and the similarity between each user pose image and the reference pose images may be calculated.
  • the reference image is selected by the user to compare with his or her target image, and when the target image is a photograph of a golf swing posture, the reference image may be the golf swing posture of a famous golfer that the user wants to learn.
  • the user can select the golf swing posture of the golfer he wants among famous golfers as a reference image, and can correct his posture by checking the similarity between his golf swing posture and the golf swing posture of famous golfers.
  • a user interface for guiding and suggesting a movement of a pose in a direction that becomes more similar to the posture of the reference image in the current posture may be additionally provided.
  • the similarity to the reference image may be provided for each frame image of the target image, and the similarity may be provided for each body part of the user included in the target image.
  • the present invention described above can be implemented as a computer-readable code in a medium on which a program is recorded.
  • the computer-readable medium may be one that continuously stores a program executable by a computer, or temporarily stores a program for execution or download.
  • the medium may be a variety of recording means or storage means in a form in which a single piece of hardware or several pieces of hardware are combined.
  • the medium is not limited to a medium directly connected to a computer system, but may be distributed on a network.
  • Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs and DVDs, magnetic-optical media such as floptical disks, and And a ROM, RAM, flash memory, and the like, and may be configured to store program instructions.
  • examples of other media include an app store that distributes applications, a site that supplies or distributes various software, and a recording medium or storage medium managed by a server. Therefore, the detailed description above should not be construed as restrictive in all respects and should be considered as illustrative. The scope of the present invention should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the present invention are included in the scope of the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 출원은 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치에 관한 것으로서, 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법은, 수집한 복수의 샘플 영상들을 동기화시키는 단계; 상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 단계; 상기 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 단계; 및 상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 단계를 포함할 수 있다.

Description

포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치
본 출원은, 서로 다른 영상 내에 포함된 사용자의 포즈(pose)에 대한 유사도를 연산할 수 있는 포즈 유사도 판별 모델의 생성방법 및 생성장치에 관한 것이다.
얼굴이나 손 등 신체의 일부를 검출하기 위하여 특징 또는 탬플릿이나 색상 등의 신호 성분을 이용하여 타겟 부위를 검출하는 기술이 영상 인식 분야에서 다양하게 개발되어 사용되고 있다. 예를 들면 SIFT(Scale Invariant Feature Transform) 기반의 특징을 이용한 검출기나 아다부스트 등의 분류기를 이용하여 얼굴을 검출하거나 마스크 탬플릿 등을 이용하여 얼굴을 검출하는 등, 여러 신체의 타겟 부위를 검출하는 기술들이 개발되어 사용되고 있다.
한편, 최근 딥러닝 모델(Deep Learning Model)은 컴퓨터 비젼(Vision)의 여러 분야에서 눈부신 성능 향상을 보이며, 연구 패러다임을 바꾸고 있다. 기존의 컴퓨터 비젼 연구가 SIFT, HOG(Histogram of Oriented Gradient)와 같이 사람의 지식에 기반을 두어 유용한 특징을 설계하는데 집중했다면, 딥러닝은 다층 인공 신경망을 이용해 유용한 특징들을 데이터로부터 직접 학습하는 방식을 취한다.
이러한 학습 기반의 방법은 사람이 미처 알지 못하는 유용한 특징들을 데이터를 통해 직접 찾아낼 수 있기 때문에 성능 향상에 보다 큰 특징을 가진다. 이에, 영상 내에서 사용자의 포즈 등을 인식하기 위하여, 딥러닝 등 기계 학습을 활용하는 방안 등이 제시되고 있다.
본 출원은, 사용자의 체형이나 카메라의 각도의 변화에 강인한 포즈 유사도 판별 모델을 생성할 수 있는, 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치를 제공하고자 한다.
본 출원은, 적은 수의 샘플 영상을 이용하여 효율적으로 학습데이터세트를 형성할 수 있는 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치를 제공하고자 한다.
본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법은, 수집한 복수의 샘플 영상들을 동기화시키는 단계; 상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 단계; 상기 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 단계; 및 상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성장치는, 수집한 복수의 샘플 영상들을 전처리하여, 상기 샘플영상들을 동기화시키는 전처리부; 상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 포즈 이미지 생성부; 상기 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 학습 데이터세트 생성부; 및 상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 모델 트레이닝부를 포함할 수 있다.
본 발명의 일 실시예에 의한 포즈 유사도 판별방법은, 사용자의 동작을 촬영한 대상영상을 수신하면, 상기 대상영상을 전처리하여 기준영상과 동기화시키는 단계; 상기 대상영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 사용자의 포즈에 대응하는 사용자 포즈 이미지를 생성하는 단계; 및 상기 사용자 포즈 이미지를 포즈 유사도 판별 모델에 적용하여, 상기 사용자 포즈 이미지와 기준 영상에 대응하는 기준 포즈 이미지를 비교하고, 각각의 사용자 포즈 이미지와 기준 포즈 이미지들 사이의 유사도를 연산하는 단계를 포함할 수 있다.
덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치에 의하면, 샘플 영상의 프레임 이미지 대신에 포즈 이미지를 생성하여 활용하므로, 사용자의 체형이나 카메라의 각도의 변화에 강인한 포즈 유사도 판별 모델을 생성하는 것이 가능하다.
본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치에 의하면, 적은 수의 샘플 영상을 이용하여 효율적으로 학습데이터세트를 형성하는 것이 가능하다.
다만, 본 발명의 실시예들에 따른 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치가 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도1은 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성장치를 나타내는 블록도이다.
도2는 본 발명의 일 실시예에 의한 포즈 이미지 생성을 나타내는 개략도이다.
도3 및 도4는 본 발명의 일 실시예에 의한 학습 데이터세트 생성을 나타내는 개략도이다.
도5는 본 발명의 일 실시예에 의한 메트릭 러닝을 나타내는 개략도이다.
도6 및 도7은 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법을 나타내는 순서도이다.
도8은 본 발명의 일 실시예에 의한 포즈 유사도 판별 장치를 나타내는 개략도이다.
도9는 본 발명의 일 실시예에 의한 포즈 유사도 판별 방법을 나타내는 순서도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 즉, 본 발명에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.
또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
도1은 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성장치를 나타내는 블록도이다.
도1을 참조하면 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성장치는, 전처리부(110), 포즈 이미지 생성부(120), 학습 데이터세트 생성부(130) 및 모델 트레이닝부(140)를 포함할 수 있다.
이하 도1을 참조하여 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성장치를 설명한다.
전처리부(110)는 샘플 영상(video_1, video_2,..., video_n)들에 대한 전처리(preprocessing)를 수행할 수 있다. 복수의 샘플 영상들은 미리 수집되어 있을 수 있으며, 전처리부(110)는 샘플 영상들을 활용하기 위한 전처리를 수행할 수 있다. 전처리부(110)는 본 발명의 실시예에 따른 포즈 유사도 판별 모델 생성 장치의 성능을 높이기 위한 여러가지 방법들을 포함할 수 있다. 본 발명의 실시예에 따르면, 전처리부(110)는 샘플 영상들이 동일한 시점에 동일 또는 유사한 포즈들을 나타내도록 동기화 시키는 작업을 수행할 수 있다.
구체적으로, 전처리부(110)는 샘플영상들의 FPS(frame per second)를 조절하거나 기준 영상과의 오프셋 타임(offset time) 등을 계산하여 샘플영상들을 동기화시킬 수 있으며, 이때, 미리 설정된 기준 영상이나 기 설정된 규칙을 기준으로 각각의 샘플영상들에 대한 동기화를 수행할 수 있다.
예를들어, 각기 다른 사람들이 동일한 음악에 대하여 동일한 안무의 춤을 추는 복수개의 영상에 대하여, 해당 영상들은 동일한 음악 부분에서 동일한 포즈를 취하고 있다고 가정할 수 있다. 따라서, 해당 영상들의 음원을 분석하여 기준 영상과의 오프셋을 계산함으로써, 영상들 간의 동일한 시점에서 동일 포즈를 나타내도록 동기화를 시킬 수 있다. 구체적으로, 오디오의 파형을 분석하여 기준 영상과 대상 영상 간의 오디오 파형간의 차이가 가장 작은 오프셋을 동기화 오프셋으로 설정할 수 있다.
추가적으로, 사람들 간의 동작의 박자 차이에 따른 오차가 발생할 수도 있으므로, 설정 구간 내에서 영상들 사이의 동작 유사성을 비교하여 추가 보정 오프셋을 계산하는 것도 가능하다. 이 경우 동기화의 정확도를 보다 높일 수 있다.
또한, 영상 내에 하나 이상의 객체가 포함된 경우, 객체 검출 및 트래킹 알고리즘을 이용하여, 복수개의 객체로 분리한 후, 각각에 대한 동작 유사도를 계산하도록 할 수 있다.
여기서, 포즈 유사도 판별 모델은, 사용자가 취하는 포즈(pose)와 유사한 포즈를 찾거나, 사용자가 취한 포즈가 특정 포즈와 얼마나 유사한지를 연산하기 위한 것으로, 복수의 샘플영상들을 학습시키는 방식으로 생성할 수 있다. 따라서, 포즈 유사도 판별 모델을 이용하여 판별하고자 하는 사용자의 포즈의 종류에 따라, 상이한 샘플 영상을 선택할 수 있다.
실시예에 따라서는, 인물들이 특정한 춤을 추는 댄스 영상 등을 샘플영상으로 선택할 수 있으며, 이때 각각의 샘플영상들을 촬영한 카메라의 각도나 춤을 추는 인물들의 체형 등은 상이할 수 있다. 즉, 상이한 체형이나 카메라 각도로 촬영한 다양한 샘플영상들을 이용하므로, 체형이나 카메라 각도의 변화에 강인한 포즈 유사도 판별 모델을 생성하는 것이 가능하다.
또한, 샘플 영상은 댄스 영상 이외에도, 골프 스윙 자세 등 운동종목에서 사용되는 특정 자세를 촬영한 영상 등일 수 있으며, 인체의 포즈를 포함하는 것이면 어떠한 것도 샘플 영상으로 활용할 수 있다. 추가적으로, 인체의 포즈 이외에 동물이나 차량, 로봇 등의 동작이나 포즈를 샘플 영상으로 활용하는 것도 가능하다.
포즈 이미지 생성부(120)는, 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성할 수 있다. 샘플 영상은 복수의 프레임 이미지들을 포함할 수 있으며, 도2에 나타난 바와 같이, 각각의 프레임 이미지(f1, f2)에는 객체의 포즈(pose)들이 나타나 있을 수 있다.
여기서, 포즈 이미지 생성부(120)는 프레임 이미지로부터 객체의 포즈를 인식할 수 있으며, 인식한 객체의 포즈를 포즈 이미지로 나타낼 수 있다. 즉, 도2에 도시한 바와 같이, 프레임 이미지(f1, f2)에 나타난 객체의 포즈를, 관절 등의 특징점과, 각각의 특징점들 사이의 연결관계로 표시하여 포즈 이미지(pose1, pose2)를 생성할 수 있다.
포즈 이미지(pose1, pose2)는 객체의 포즈를 특징점과, 각 특징점들 사이의 연결관계로 단순화하여 표시하므로, 체형이 서로 다른 객체들이라도 특징점들의 위치와 연결관계 등을 이용하여 동일한 포즈에 해당하는지 여부를 용이하게 판별하는 것이 가능하다. 여기서, 프레임 이미지로부터 포즈 이미지로 변환하는 것은 공지의 포즈 추정 모델 등을 활용할 수 있다.
학습데이터세트 생성부(130)는, 포즈 이미지들 사이의 유사 또는 비유사를 각각 설정하여, 삼중쌍(triplet)의 학습 데이터세트(training dataset)를 생성할 수 있다.
일 예로, 앵커(anchor)로 설정한 임의의 포즈 이미지에 대하여, 앵커와 유사한 포즈 이미지는 유사 샘플(positive example), 비유사한 포즈 이미지는 비유사 샘플(negative example)로 각각 설정하여 학습 데이터세트를 생성할 수 있다. 여기서, 하나의 앵커에 대해 유사 샘플과 비유사 샘플이 각각 연계되므로, 학습데이터세트 생성부(130)는 삼중쌍의 형태로 학습 데이터세트를 구현할 수 있다. 또한, 삼중쌍 형태의 학습데이터세트의 경우, 각각의 앵커 이미지와 그에 대한 유사, 비유사가 설정되어 있으므로, 이후 기계학습시 지도 학습(supervised learning)을 수행하는 것이 가능하다.
한편, 학습데이터세트 생성부(130)는 실시예에 따라 다양한 방식으로 학습 데이터세트를 생성할 수 있다.
먼저, 제1 실시예에 의하면, 학습데이터세트 생성부(130)는 복수의 샘플 영상들의 시점을 이용하여 학습 데이터세트를 생성할 수 있다.
구체적으로, 도3에 도시한 바와 같이, 전처리된 복수의 샘플 영상(video_1, video_2, ... , video_n)들이 존재할 수 있으며, 각각의 샘플 영상들은 동기화되어 있을 수 있다. 여기서, 샘플 영상들은 동일한 음악에 대해 각기 다른 사용자들이 추는 댄스 영상일 수 있으며, 각각의 샘플 영상들은 동기화 되어 있으므로, 동일한 시점에서는 샘플영상 내에 포함된 객체들은 동일 또는 유사한 포즈를 취하는 것으로 볼 수 있다. 즉, 각각의 샘플영상마다 객체들의 체형이나 카메라 각도 등은 상이하더라도, 모두 동일 또는 유사한 포즈에 해당하는 것으로 판별할 수 있다. 반면에, 동일한 샘플 영상 내 상이한 시점에서는 춤 동작이 상이하므로, 동일한 샘플 영상 내에서라도 상이한 시점(T+1, T+2, T+3)에서는 서로 상이한 포즈를 취하는 것으로 판별할 수 있다.
따라서, 도3에 도시한 바와 같이, 학습데이터세트 생성부(130)는 먼저 복수의 샘플 영상 중에서 video_1을 선택영상으로 설정할 수 있으며, 선택영상의 T 시점에 대응하는 포즈 이미지를 앵커(a)로 설정할 수 있다. 이후, 선택영상 이외의 다른 샘플 영상(video_2, video_3, ... , video_n)들의 동일 시점(t=T) 에 대응하는 포즈 이미지들을, 앵커(a)에 대한 유사 샘플(p1, p2, ... , pn)로 설정할 수 있다. 반면에, 선택 영상 중에서 T 시점 이외의 다른 시점(T+1, T+2, T+3)에 대응하는 포즈 이미지들은 앵커와 상이한 포즈들을 포함하는 것이므로, 각각의 포즈 이미지들을 앵커(a)에 대한 비유사 샘플(n1, n2, n3)로 설정할 수 있다. 이 경우, 앵커에 대한 유사 샘플은 샘플 영상의 개수인 n개 만큼 생성할 수 있으며, 비유사 샘플은 선택 영상 내에 포함된 프레임 이미지들의 개수만큼 생성할 수 있다. 추가적으로, 학습의 효율성을 위하여 비유사 샘플은 가급적 앵커(a)와 유사한 포즈가 선택되지 않도록 하는 것이 바람직하다. 이를 위하여 앵커(a)의 시점(T)으로부터 멀리 떨어진 포즈 이미지를 선택하거나, 배경 음악 등 부수적인 요소들을 추가로 고려하여 선택할 수 있다. 예를들어, 샘플 영상 내 배경 음악의 분위기나 템포가 다른 부분을 선택하도록 할 수 있다. 또한, 비유사 샘플(n1, n2, n3)들 사이에 다양성을 유지하기 위하여, 각각의 비유사 샘플들을 선택하는 시점들 사이의 시간간격을 일정 기간 이상 설정하는 것이 바람직하다.
이후, 학습데이터세트 생성부(130)는, 시점을 선택영상(video_1)의 시작시점부터 종료시점까지 순차적으로 또는 임의로 변경하여 앵커(a)를 설정할 수 있으며, 설정된 앵커(a)를 이용하여 선택 영상(video_1)에 포함된 전체 또는 일부 포즈 이미지에 대응하는 학습 데이터세트들을 생성할 수 있다.
또한, 하나의 선택영상에 대한 학습 데이터세트를 생성을 완료한 이후에는, 선택영상을 변경하고 변경된 선택영상에 동일한 방식을 적용하여 학습 데이터 세트들을 생성할 수 있다. 이때, 복수의 샘플 영상 전체를 순차적으로 선택영상으로 선택하여 학습 데이터세트를 생성하거나, 실시예에 따라서는, 설정개수만큼의 샘플 영상을 선택영상으로 선택하여 학습 데이터세트를 생성하도록 할 수 있다.
한편, 제2 실시예에서는, 학습데이터세트 생성부(130)가 객체의 포즈에 대한 3차원 포즈 좌표를 이용하여 학습 데이터세트를 생성할 수 있다. 구체적으로, 도4(a)에 도시한 바와 같이, 하나의 선택영상(video_1)의 각 프레임 이미지(f1, f2, f3, f4)에 대하여, 해당 프레임 이미지 내의 객체에 대한 3차원 포즈 좌표를 생성할 수 있다. 즉, 도4(b)에 도시한 바와 같이, 2차원의 포즈 이미지로부터 3차원 포즈를 생성할 수 있다. 이때 2차원에서 3차원 포즈 좌표로의 변환은 공지의 변환 모델 등을 이용하여 용이하게 수행가능하다.
이후, 도4(c)에 도시한 바와 같이, 선택영상(video_1)의 T 시점에 대응하는 3차원 포즈 좌표를 설정각도로 투영(projection)하여 2차원 이미지를 생성할 수 있으며, 이때 생성한 2차원 이미지를 앵커(a)로 설정할 수 있다. 또한, 도4(c)에 도시한 바와 같이, T 시점에 대응하는 3차원 포즈 좌표를 설정각도 이외의 복수의 각도로 투영하여 2차원 이미지들을 더 생성할 수 있으며, 이때 생성된 2차원 이미지들을 각각 유사 샘플(p1, p2, p3)로 설정할 수 있다. 즉, 동일한 3차원 포즈 좌표에 대하여 투영하는 각도만을 변경시키는 것이므로, 각각의 2차원 이미지들은 실질적으로 동일한 포즈를 나타내는 것에 해당한다. 따라서, 3차원 포즈 좌표를 서로 다른 복수의 각도로 투영한 2차원 이미지들을 유사 샘플(p1, p2, p3)로 설정할 수 있다.
반면에, T 시점 이외의 다른 시점(T+1, T+2, T+3)에 대응하는 프레임 이미지들의 경우, 앵커와는 상이한 포즈를 나타내는 것으로 판별할 수 있다. 따라서, 학습데이터세트 생성부(130)는 각각의 프레임 이미지에 대한 3차원 포즈좌표들을 설정각도로 투영하여 생성한 2차원 이미지들에 대하여는 비유사 샘플로 설정할 수 있다.
여기서, 학습데이터세트 생성부(130)는 시점을 선택영상의 시작시점부터 종료시점까지 변경하면서 학습 데이터세트를 생성할 수 있다. 또한, 하나의 선택영상에 대한 학습 데이터세트의 생성이 완료되면, 복수의 샘플 영상들을 순차적으로 선택영상으로 선택하여, 각각의 선택영상에 대응하는 학습 데이터들을 생성하도록 할 수 있다.
제3 실시예에 의하면, 학습데이터세트 생성부(130)는 복수의 샘플 영상들의 시점과, 3차원 포즈 좌표를 동시에 이용하여 학습데이터 세트를 생성할 수 있다.
구체적으로, 학습데이터세트 생성부(130)는 샘플 영상 중 어느 하나를 선택영상으로 설정하고, 선택영상의 특정 시점(T)에 대응하는 포즈 이미지를 앵커로 설정할 수 있다.
이후, 선택영상 이외의 다른 샘플 영상들의 T 시점에 대응하는 포즈 이미지들을, 먼저 앵커에 대한 유사 샘플로 설정할 수 있다. 또한, T 시점에 대응하는 포즈 이미지들에 대한 3차원 포즈 좌표를 생성할 수 있으며, 3차원 포즈 좌표들을 복수의 각도로 투영하는 방식으로, 유사 샘플들을 더 추가할 수 있다.
한편, 비유사 샘플의 경우, 선택 영상 중에서 T 시점 이외의 다른 시점에 대응하는 포즈 이미지들을 앵커에 대한 비유사 샘플로 설정할 수 있으며, 이후 각각의 포즈 이미지들의 3차원 포즈 좌표들을 생성한 후, 이를 복수의 각도로 투영하는 방식으로, 비유사 샘플들을 추가할 수 있다.
모델 트레이닝부(140)는, 학습 데이터세트로 기계학습(Machine learning)을 수행하여, 영상 간 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성할 수 있다. 구체적으로, 모델 트레이닝부(140)는 학습 데이터세트를 메트릭 러닝 모델(metric learning model)로 기계학습할 수 있으며, 학습 데이터세트에 포함된 각각의 포즈 이미지들의 유사도를 특징맵(feature map) 상의 거리를 이용하여 나타낼 수 있다.
이때, 모델 트레이닝부(140)는 삼중쌍 손실 함수(triplet loss function)을 활용할 수 있다. 구체적으로 삼중쌍 손실함수는
Figure PCTKR2020004390-appb-I000001
이고, 여기서 f(*)는 특징맵 함수, δ는 마진(margin), xa i는 앵커, x+ i는 유사 샘플, x- i는 비유사 샘플에 해당한다.
삼중쌍 손실함수를 이용하여, 특징맵 상에서 유사 샘플과 앵커 사이의 거리는 가까워지고, 비유사 샘플과 앵커 사이의 거리는 멀어지도록 학습시킬 수 있다. 즉, 도5(a)에 도시한 바와 같이, 초기 특징맵(feature map) 상에 위치하는 앵커(a)와 유사 샘플(p), 비유사 샘플(n)들은, 이후 5(b)에 도시한 바와 같이, 유사 샘플(p)은 앵커(a)와 가깝게 이동하고 비유사 샘플(n)은 앵커로부터 멀어지도록 학습될 수 있다. 이를 통하여, 각각의 포즈 이미지들 사이의 거리를 통하여 이미지들의 유사도를 판별하는 것이 가능하다.
모델 트레이닝부(140)에서는 학습된 CNN(Convolutional Neural Network)을 이용하여 포즈 이미지를 입력받아 특징을 추출할 수 있으며, 각각의 포즈 이미지에 대응하는 앵커, 유사 샘플, 비유사 샘플을 특징맵 상에 위치시킬 수 있다.
도6 및 도7은 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법을 나타내는 순서도이다.
도6 및 도7을 참조하면, 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성 방법은, 전처리단계(S110), 포즈 이미지 생성단계(S120), 학습 데이터세트 생성단계(S130) 및 포즈 유사도 판별 모델 생성단계(S140)를 포함할 수 있다. 여기서, 각 단계는 포즈 유사도 판별 모델 생성장치에 의하여 수행될 수 있다.
이하, 도6 및 도7을 참조하여 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법을 설명한다.
포즈 유사도 판별 모델은 사용자가 취하는 포즈(pose)와 유사한 포즈를 찾거나, 사용자가 취하는 포즈가 특정 포즈와 얼마나 유사한지를 판별하기 위한 것으로, 샘플영상에는 특정 객체가 일정한 포즈를 취하는 장면들이 포함되어 있을 수 있다. 예를들어, 샘플영상은 인물들이 특정한 춤을 추는 댄스 영상이거나, 골프의 스윙 자세 등 운동종목에서 사용되는 특정 자세를 촬영한 영상 등일 수 있다.
전처리단계(S110)에서는, 수집한 복수의 샘플 영상들을 전처리할 수 있다. 전처리단계(S110)에서는 유사도 판별 모델 생성의 효율을 높이기 위한 여러가지 방법들을 수행할 수 있다. 본 발명의 실시예에 따르면, 전처리 단계(S110)에서 샘플 영상들이 동일한 시점에 동일 또는 유사한 포즈들을 나타내도록 동기화시키는 작업을 포함할 수 있다. 구체적으로, 기준 영상과 비교하여 샘플영상들의 FPS(frame per second)를 조절하거나, 기준 영상과의 오프셋 타임(offset time) 등을 계산하는 방식으로 샘플영상들을 동기화시킬 수 있다. 실시예에 따라서는 샘플영상에 공통으로 포함되는 음악이나 장면 등을 이용할 수 있다.
포즈 이미지 생성단계(S120)에서는, 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성할 수 있다. 여기서, 포즈 이미지는 프레임 이미지에 나타난 객체의 포즈를, 객체에 포함된 특징점과 특징점들 사이의 연결관계로 단순화하여 생성한 것일 수 있다. 예를 들면, 사람의 관절을 나타내는 부분들이 특징점이 될 수 있고, 포즈 이미지는 이러한 특징점 및 특징점 사이의 연결을 1로, 그 이외 부분을 0으로 나타낸 바이너리 이미지 형태가 될 수 있다. 또는, 특징점이나 그 연결부분이 어디인지를 확인하기 위하여 각 연결 부분에 따라 라벨링된 값을 사용하는 이미지일 수도 있다.
여기서, 프레임 이미지 그대로가 아니라 포즈만을 나타내는 포즈 이미지를 사용함으로써, 영상에서의 조명이나 노이즈 등의 왜곡으로부터 강인해질 수 있는 효과가 있으며, 이미지 형태의 데이터로 학습을 진행하기 때문에 체형이 서로 다른 객체나 각도 등에 대하여 강인한 학습이 가능하다.
한편, 프레임 이미지를 이용하여 포즈 이미지로 변환하는 것은 공지의 포즈 추정 모델 등을 활용할 수 있다.
학습데이터세트 생성단계(S130)에서는, 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성할 수 있다. 즉, 임의의 포즈 이미지를 앵커(anchor)로 설정한 후, 앵커와 유사한 포즈 이미지는 유사 샘플(positive example), 비유사한 포즈 이미지는 비유사 샘플(negative example)로 각각 설정하여 학습 데이터세트를 생성할 수 있다. 또한, 학습데이터세트는 각각의 포즈 이미지에 대해 앵커와의 유사, 비유사를 결정하여 유사 샘플과 비유사 샘플로 구분되어 있으므로, 학습 데이터세트를 이용하여 지도 학습(supervised learning)을 수행하는 것이 가능하다.
한편, 학습데이터세트은 실시예에 따라 다양한 방법으로 생성가능하다.
도7(a)를 참조하면, 복수의 샘플 영상 중 어느 하나를 선택영상으로 설정할 수 있으며, 선택영상의 T 시점에 대응하는 포즈 이미지를 앵커로 설정할 수 있다(S131a). 이후, 선택영상 이외의 다른 샘플 영상들의 T 시점에 대응하는 포즈 이미지들을, 앵커에 대한 유사 샘플로 설정할 수 있다(S132a). 반면에, 선택 영상 중에서 T 시점 이외의 다른 시점에 대응하는 포즈 이미지들은, 앵커와 상이한 포즈들을 포함하는 것이므로, 각각의 포즈 이미지들을 비유사 샘플로 설정할 수 있다(S133a).
이후, T 시점을 선택영상의 시작시점부터 종료시점까지 순차적으로 변경하여, 선택 영상에 포함된 전체 포즈 이미지에 대응하는 학습 데이터세트들을 생성하거나, 기 정해진 수만큼 임의로 선택한 시점에 대한 학습데이터세트들을 생성할 수 있다.
또한, 하나의 선택영상에 대한 학습 데이터세트를 생성을 완료한 이후에는, 선택영상을 변경하고 변경된 선택영상에 동일한 방식을 적용하여 학습 데이터 세트들을 생성할 수 있다. 이때, 복수의 샘플 영상 전체를 순차적으로 선택영상으로 선택하여 학습 데이터세트를 생성하거나, 실시예에 따라서는, 설정개수만큼의 샘플 영상을 선택영상으로 선택하여 학습 데이터세트를 생성하도록 할 수 있다. 또한, 선택영상 1개씩 학습 데이터세트를 생성하는 것이 아니라, 복수의 선택영상들로부터 병렬적으로 학습 데이터세트를 생성하는 것도 가능하다.
도7(b)를 참조하면, 복수의 샘플 영상 중 어느 하나를 선택영상으로 설정할 수 있으며, 선택영상의 포즈 이미지들에 대해 각각의 3차원 포즈 좌표를 생성할 수 있다(S131b). 즉, 2차원의 포즈 이미지로부터 3차원 포즈 좌표를 생성하는 것이 가능하며, 이때 3차원 포즈 좌표로의 변환은 공지의 변환 모델을 이용하여 용이하게 수행가능하다.
이후, 선택영상의 T 시점에 대응하는 3차원 포즈 좌표를 설정각도로 투영(projection)하여 2차원 이미지를 생성할 수 있으며, 이때 생성한 2차원 이미지를 앵커로 설정할 수 있다(S132b). 또한, T 시점에 대응하는 3차원 포즈 좌표를 설정각도 이외의 복수의 각도로 투영하여 2차원 이미지들을 더 생성할 수 있으며, 이때 생성된 2차원 이미지들을 각각 유사 샘플로 설정할 수 있다(S133b).
반면에, T 시점 이외의 다른 시점에 대응하는 3차원 포즈 좌표들의 경우, 각각 상이한 포즈를 나타내는 것으로 판별할 수 있다. 따라서, 각각의 3차원 포즈 좌표들을 설정각도로 투영하여 생성한 2차원 이미지들에 대하여는 비유사 샘플로 설정할 수 있다(S134b).
여기서, T 시점을 선택영상의 시작시점부터 종료시점까지 변경하면서 학습 데이터세트를 생성할 수 있다. 또한, 하나의 선택영상에 대한 학습 데이터세트의 생성이 완료되면, 복수의 샘플 영상들을 순차적으로 선택영상으로 선택하여, 각각의 선택영상에 대응하는 학습 데이터들을 생성하도록 할 수 있다.
도시하지는 않았으나, 복수의 샘플 영상들의 포즈 이미지 출력 시점과 3차원 포즈 좌표를 동시에 이용하여 학습데이터 세트를 생성하는 것도 가능하다.
이 경우, 먼저 샘플 영상 중 어느 하나를 선택영상으로 설정하고, 선택영상의 T 시점에 대응하는 포즈 이미지를 앵커로 설정할 수 있다.
이후, 선택영상 이외의 다른 샘플 영상들의 T 시점에 대응하는 포즈 이미지들을 앵커에 대한 유사 샘플로 설정할 수 있다. 또한, T 시점에 대응하는 포즈 이미지들에 대한 3차원 포즈 좌표를 생성하고, 3차원 포즈 좌표들을 복수의 각도로 투영하는 방식으로 유사 샘플들을 더 추가할 수 있다.
비유사 샘플의 경우, 선택 영상 중에서 T 시점 이외의 다른 시점에 대응하는 포즈 이미지들을 앵커에 대한 비유사 샘플로 설정할 수 있으며, 이후 각각의 포즈 이미지들의 3차원 포즈 좌표들을 생성하고, 이를 복수의 각도로 투영하는 방식으로 비유사 샘플들을 추가할 수 있다.
포즈 유사도 판별 모델 생성단계(S140)에서는, 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성할 수 있다. 즉, 학습 데이터세트를 메트릭 러닝 모델(metric learning model)로 기계학습할 수 있으며, 학습 데이터세트에 포함된 각각의 포즈 이미지들의 유사도를, 특징맵(feature map) 상의 거리를 이용하여 나타낼 수 있다.
이때, 삼중쌍 손실 함수(triplet loss function)을 활용하여 기계학습을 수행할 수 있다. 구체적으로 삼중쌍 손실함수는
Figure PCTKR2020004390-appb-I000002
이고, 여기서 f(*)는 특징맵 함수, δ는 마진(margin), xa i는 앵커, x+ i는 유사 샘플, x- i는 비유사 샘플이다.
즉, 삼중쌍 손실함수를 이용하여, 특징맵 상에서 유사 샘플과 앵커 사이의 거리는 가까워지고, 비유사 샘플과 앵커 사이의 거리는 멀어지도록 학습시킬 수 있다. 이를 통하여, 각각의 포즈 이미지들 사이의 특징맵에서의 거리를 통하여 이미지들의 유사도를 판별할 수 있다.
도8은 본 발명의 일 실시예에 의한 포즈 유사도 판별 장치를 나타내는 블록도이다.
도8을 참조하면, 본 발명의 일 실시예에 의한 포즈 유사도 판별 장치(200)는, 전처리부(210), 포즈 이미지 생성부(220) 및 연산부(230)를 포함할 수 있다.
이하 도8을 참조하여 본 발명의 일 실시예에 의한 포즈 유사도 판별 장치를 설명한다.
전처리부(210)는 사용자(u)의 동작을 촬영한 대상영상을 수신할 수 있으며, 수신한 대상영상을 전처리하여 기준영상과 동기화시킬 수 있다. 실시예에 따라서는, 포즈 유사도 판별장치(200)에 카메라 등의 촬영장치(c)가 더 포함할 수 있으며, 촬영장치(c)를 이용하여 사용자(u)의 동작을 촬영한 대상 영상을 생성할 수 있다. 여기서, 대상영상은 사용자(u)의 골프 스윙 자세를 촬영한 영상일 수 있으나, 이에 한정되는 것은 아니며 실시예에 따라 사용자의 다양한 포즈를 포함할 수 있다.
한편, 대상영상이 댄스 영상인 경우에는, 전처리부(210)가 댄스 영상 내 포함된 음악의 시작시점을 기준으로 동기화할 수 있으며, 대상영상이 골프 스윙 자세인 경우에는 최초 준비자세 등을 기준으로 동기화시킬 수 있다. 다만 이에 한정되는 것은 아니고, 다양한 방식을 활용하여 대상영상과 기준영상을 동기화시킬 수 있다.
포즈 이미지 생성부(220)는 대상영상으로부터 각각의 프레임 이미지들을 추출하고, 프레임 이미지 내에 나타난 사용자의 포즈에 대응하는 사용자 포즈 이미지를 생성할 수 있다. 대상 영상은 복수의 프레임 이미지들을 포함할 수 있으며, 각각의 프레임 이미지에는 사용자(u)의 포즈(pose)가 나타나 있을 수 있다.
여기서, 포즈 이미지 생성부(220)는 프레임 이미지로부터 사용자(u)의 포즈를 인식하여 사용자 포즈 이미지를 생성할 수 있다. 즉, 프레임 이미지에 나타난 사용자의 포즈를, 관절 등의 특징점과, 각각의 특징점들 사이의 연결관계로 표시하는 사용자 포즈 이미지를 생성할 수 있다.
추가적으로, 실시예에 따라서는 대상영상의 프레임 이미지 내에 복수의 사용자가 존재하는 경우가 있을 수 있다. 이 경우, 포즈 이미지 생성부(220)는 각각의 사용자들을 구별할 수 있으며, 각각의 사용자들에 대응하는 사용자 포즈 이미지를 개별적으로 생성할 수 있다. 이후, 외부의 입력에 따라 복수의 사용자 중 어느 하나에 대한 포즈 유사도 판별 결과를 제공하는 것도 가능하다.
또한, 실시예에 따라서는 대상영상의 프레임 이미지 내에 포함된 사용자의 신체부위별로 구별하여 사용자 포즈 이미지를 생성하는 것도 가능하다. 예를들어, 사용자의 머리, 팔, 다리, 몸통 등을 각각 분리하여 각각에 대한 사용자 포즈 이미지를 생성할 수 있다.
연산부(230)는 사용자 포즈 이미지를 포즈 유사도 판별 모델에 적용하여, 유사도를 연산할 수 있다. 즉, 포즈 유사도 판별 모델을 이용하여 사용자 포즈 이미지와 기준 영상에 대응하는 기준 포즈 이미지를 비교할 수 있으며, 각각의 사용자 포즈 이미지와 기준 포즈 이미지들 사이의 유사도를 연산할 수 있다.
여기서, 기준 영상은 사용자가 비교하고자 선택한 것일 수 있다. 예를들어, 대상영상이 골프 스윙 자세를 촬영한 것이면, 사용자가 배우고자 하는 유명 골퍼의 골프 스윙 자세 등일 수 있다. 여기서, 사용자는 복수의 유명 골퍼들 중에서 자신이 원하는 골퍼의 골프 스윙 자세를 기준영상으로 선택할 수 있다. 이후, 자신의 골프 스윙 자세와 유명 골퍼의 골프 스윙 자세 사이의 유사도를 확인하는 방식으로 자신의 자세를 교정할 수 있다. 실시예에 따라서는, 각각의 프레임 이미지별로 유사도를 제공하거나, 사용자의 신체 부위별로 유사도를 제공하는 것도 가능하다. 여기서, 사용자의 신체 부위별 유사도를 제공하는 경우에는, 사용자 포즈 이미지 생성시 각각의 신체 부위별로 구별하여 별도의 포즈 이미지를 생성할 수 있다.
도9는 본 발명의 일 실시예에 의한 포즈 유사도 판별 방법을 나타내는 순서도이다.
도9를 참조하면, 본 발명의 일 실시예에 의한 포즈 유사도 판별 방법은, 전처리단계(S210), 포즈 이미지 생성단계(S220) 및 연산단계(S230)를 포함할 수 있다.
이하 도9를 참조하여 본 발명의 일 실시예에 의한 포즈 유사도 판별 방법을 설명한다.
전처리단계(S210)에서는 사용자의 동작을 촬영한 대상영상을 수신할 수 있으며, 수신한 대상영상을 기준영상과 동기화시킬 수 있다. 예를 들면, 대상영상은 사용자의 댄스나 골프 스윙 자세 등을 촬영한 영상일 수 있다.
포즈 이미지 생성단계(S220)에서는 대상영상으로부터 각각의 프레임 이미지들을 추출하고, 프레임 이미지 내에 나타난 사용자의 포즈에 대응하는 사용자 포즈 이미지를 생성할 수 있다. 대상 영상은 복수의 프레임 이미지들을 포함할 수 있으며, 각각의 프레임 이미지에는 사용자의 포즈가 나타나 있을 수 있다. 따라서, 프레임 이미지로부터 사용자의 포즈를 인식하여 사용자 포즈 이미지를 생성하는 것이 가능하다. 구체적으로, 프레임 이미지에 나타난 사용자의 포즈를, 관절 등의 특징점과, 각각의 특징점들 사이의 연결관계로 표시하여 사용자 포즈 이미지를 생성할 수 있다.
추가적으로, 실시예에 따라서는 대상영상의 프레임 이미지 내에 복수의 사용자가 존재하는 경우가 있을 수 있다. 이 경우, 각각의 사용자들을 구별하여 사용자별 사용자 포즈 이미지를 생성할 수 있다. 이후, 외부의 입력에 따라 복수의 사용자 중 어느 하나에 대한 포즈 유사도 판별 결과를 제공하도록 할 수 있다.
연산단계(S230)에서는 사용자 포즈 이미지를 포즈 유사도 판별 모델에 적용하여 유사도를 연산할 수 있다. 즉, 포즈 유사도 판별 모델을 이용하여 사용자 포즈 이미지와 기준 영상에 대응하는 기준 포즈 이미지를 비교할 수 있으며, 각각의 사용자 포즈 이미지와 기준 포즈 이미지들 사이의 유사도를 연산할 수 있다.
여기서, 기준 영상은 사용자가 자신의 대상영상과 비교하고자 선택한 것으로, 대상영상이 골프 스윙 자세를 촬영한 것인 경우, 기준영상은 사용자가 배우고자 하는 유명 골퍼의 골프 스윙 자세일 수 있다. 사용자는 유명 골퍼들 중에서 자신이 원하는 골퍼의 골프 스윙 자세를 기준영상으로 선택할 수 있으며, 자신의 골프 스윙 자세와 유명 골퍼의 골프 스윙 자세 사이의 유사도를 확인하는 방식으로 자신의 자세를 교정할 수 있다. 또한, 본 발명의 일 실시예에 의하면, 현재의 자세에서 기준 영상의 자세와 더 유사해지는 방향으로 포즈의 움직임을 제안하여 가이드하는 UI(User Interface)를 추가로 제공할 수 있다.
실시예에 따라서는, 대상영상의 프레임 이미지별로 기준영상과의 유사도를 제공할 수 있으며, 대상영상에 포함된 사용자의 신체 부위별로 유사도를 제공하는 것도 가능하다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.

Claims (14)

  1. 수집한 복수의 샘플 영상들을 동기화시키는 단계;
    상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 단계;
    상기 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 단계; 및
    상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 단계를 포함하는, 포즈 유사도 판별 모델 생성방법.
  2. 제1항에 있어서, 상기 동기화시키는 단계는
    기준 영상과 비교하여, 상기 샘플 영상들의 FPS(Frame per Second)를 조절하거나 상기 기준 영상과의 오프셋 타임(offset time)을 계산하는 것을 특징으로 하는, 포즈 유사도 판별 모델 생성방법.
  3. 제1항에 있어서, 상기 포즈 이미지를 생성하는 단계는
    상기 프레임 이미지에 나타난 상기 객체의 포즈를, 상기 객체에 포함된 특징점과 상기 특징점들 사이의 연결관계로 단순화하여 상기 포즈 이미지를 생성하는 것을 특징으로 하는, 포즈 유사도 판별 모델 생성방법.
  4. 제1항에 있어서, 상기 학습 데이터세트를 생성하는 단계는
    상기 샘플 영상 중 어느 하나를 선택영상으로 설정하고, 상기 선택영상의 T 시점에 대응하는 포즈 이미지를 앵커(anchor)로 설정하는 단계;
    상기 선택영상 이외의 다른 샘플 영상들의 T 시점에 대응하는 포즈 이미지들을, 상기 앵커에 대한 유사 샘플(positive example)로 설정하는 단계; 및
    상기 선택영상 중에서 상기 T 시점 이외의 다른 시점에 대응하는 포즈 이미지들을, 상기 앵커에 대한 비유사 샘플(negative example)로 설정하는 단계를 더 포함하는 것을 특징으로 하는, 포즈 유사도 판별 모델 생성방법.
  5. 제4항에 있어서, 상기 학습 데이터세트를 생성하는 단계는
    상기 T 시점을 상기 선택영상의 시작시점부터 종료시점까지 순차적으로 변경하여, 상기 선택 영상에 포함된 전체 포즈 이미지에 대응하는 학습 데이터세트를 생성하는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
  6. 제4항에 있어서, 상기 학습 데이터세트를 생성하는 단계는
    상기 복수의 샘플 영상 중에서 적어도 설정개수 이상의 샘플 영상을 상기 선택영상으로 선택하여 상기 학습 데이터세트를 생성하는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
  7. 제1항에 있어서, 상기 학습 데이터세트를 생성하는 단계는
    상기 복수의 샘플 영상 중 어느 하나를 선택영상으로 설정하고, 상기 선택영상의 포즈 이미지들에 대응하는 각각의 3차원 포즈 좌표를 생성하는 단계;
    상기 선택영상의 T 시점에 대응하는 3차원 포즈 좌표를 설정각도로 투영(projection)하여 2차원 이미지를 생성하고, 생성한 2차원 이미지를 앵커(anchor)로 설정하는 단계;
    상기 T 시점에서의 3차원 포즈 좌표를 상기 설정각도 이외의 복수의 각도로 투영하여 2차원 이미지들을 생성하고, 생성한 2차원 이미지들을 상기 앵커에 대한 유사 샘플(positive example)로 설정하는 단계; 및
    상기 T 시점 이외의 다른 시점에 대응하는 3차원 포즈 좌표를 상기 설정각도로 투영하여 2차원 이미지들을 생성하고, 생성한 2차원 이미지들을 상기 앵커에 대한 비유사 샘플(negative example)로 설정하는 단계를 더 포함하는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
  8. 제4항에 있어서, 상기 유사 샘플로 설정하는 단계는
    상기 선택 영상 이외의 다른 샘플 영상들의 T 시점에 대응하는 포즈 이미지들을 추출하고, 상기 추출한 포즈 이미지들에 대한 3차원 포즈 좌표를 생성하는 단계; 및
    상기 3차원 포즈 좌표들을 복수의 각도로 투영하여 2차원 이미지들을 생성하고, 상기 생성한 2차원 이미지들을 상기 유사 샘플로 추가하는 단계를 더 포함하는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
  9. 제4항에 있어서, 상기 비유사 샘플로 설정하는 단계는
    상기 선택 영상 중에서 상기 T 시점 이외의 시점에 대응하는 포즈 이미지들을 추출하고, 상기 포즈 이미지들에 대한 3차원 포즈 좌표들을 생성하는 단계; 및
    상기 3차원 이미지들을 복수의 각도로 투영하여 2차원 이미지들을 생성하고, 상기 생성한 2차원 이미지들을 상기 비유사 샘플로 추가하는 단계를 더 포함하는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
  10. 제1항에 있어서, 상기 포즈 유사도 판별 모델을 생성하는 단계는
    상기 학습 데이터세트를 메트릭 러닝 모델(metric learning model)로 기계학습하여 상기 포즈 유사도 판별 모델을 생성하며, 상기 포즈 유사도 판별 모델은 상기 포즈 이미지들 사이의 유사도를 특징맵(feature map) 상의 거리를 이용하여 나타내는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
  11. 하드웨어와 결합되어, 제1항 내지 제10항 중 어느 한 항의 포즈 유사도 측정 모델 생성방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  12. 수집한 복수의 샘플 영상들을 전처리하여, 상기 샘플영상들을 동기화시키는 전처리부;
    상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 포즈 이미지 생성부;
    상기 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 학습 데이터세트 생성부; 및
    상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 모델 트레이닝부를 포함하는, 포즈 유사도 판별 모델 생성장치.
  13. 사용자의 동작을 촬영한 대상영상을 수신하면, 상기 대상영상을 기준영상과 동기화시키는 단계;
    상기 대상영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 사용자의 포즈에 대응하는 사용자 포즈 이미지를 생성하는 단계; 및
    상기 사용자 포즈 이미지를 포즈 유사도 판별 모델에 적용하여, 상기 사용자 포즈 이미지와 기준 영상에 대응하는 기준 포즈 이미지를 비교하고, 각각의 사용자 포즈 이미지와 기준 포즈 이미지들 사이의 유사도를 연산하는 단계를 포함하는 포즈 유사도 판별방법.
  14. 제11항에 있어서, 상기 사용자 포즈 이미지를 생성하는 단계는
    상기 대상영상의 프레임 이미지 내에 복수의 사용자가 존재하는 경우, 각각의 사용자별로 상기 사용자 포즈 이미지를 생성하는 것을 특징으로 하는 포즈 유사도 판별방법.
PCT/KR2020/004390 2019-05-17 2020-03-31 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치 WO2020235804A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021568548A JP7373589B2 (ja) 2019-05-17 2020-03-31 ポーズ類似度判別モデル生成方法及びポーズ類似度判別モデル生成装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190058052A KR102194282B1 (ko) 2019-05-17 2019-05-17 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치
KR10-2019-0058052 2019-05-17

Publications (1)

Publication Number Publication Date
WO2020235804A1 true WO2020235804A1 (ko) 2020-11-26

Family

ID=73458126

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/004390 WO2020235804A1 (ko) 2019-05-17 2020-03-31 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치

Country Status (3)

Country Link
JP (1) JP7373589B2 (ko)
KR (1) KR102194282B1 (ko)
WO (1) WO2020235804A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907663A (zh) * 2021-02-03 2021-06-04 阿里巴巴集团控股有限公司 定位方法、计算机程序产品、装置及系统
JP7249444B1 (ja) 2022-02-14 2023-03-30 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法、プログラム、及び情報処理システム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102306319B1 (ko) * 2020-12-01 2021-09-30 주식회사 진원온원 포즈 추정 매핑 데이터를 생성하는 방법, 프로그램 및 컴퓨팅 장치
KR102501300B1 (ko) * 2021-05-03 2023-02-21 (주)릴리어스 동작 평가 방법
CN113989405B (zh) * 2021-12-27 2022-04-08 浙江大学 一种基于小样本持续学习的图像生成方法
KR20230108409A (ko) 2022-01-11 2023-07-18 울산과학기술원 가시성 지표를 활용한 3차원 포즈 추정 시스템 및 방법
KR20240141993A (ko) 2023-03-21 2024-09-30 주식회사 케이티 포즈 추출 서버, 방법, 시스템 및 컴퓨터 프로그램

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009514110A (ja) * 2005-10-28 2009-04-02 本田技研工業株式会社 ポーズによるヒト検出
KR20110076746A (ko) * 2009-12-28 2011-07-06 주식회사 더블유코퍼레이션 오디오 신호 및 비디오 신호의 동기화 오차 보정 방법 및 장치
KR20150089370A (ko) * 2014-01-27 2015-08-05 주식회사 에스원 얼굴 포즈 변화에 강한 연령 인식방법 및 시스템
KR20170053069A (ko) * 2015-11-05 2017-05-15 수원대학교산학협력단 포즈 추정 기반 포즈변화에 강인한 얼굴 인식 방법
KR101848019B1 (ko) * 2016-12-27 2018-04-11 아주대학교산학협력단 차량 영역 검출을 통한 차량 번호판 검출 방법 및 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8320621B2 (en) * 2009-12-21 2012-11-27 Microsoft Corporation Depth projector system with integrated VCSEL array
EP2395478A1 (en) * 2010-06-12 2011-12-14 Toyota Motor Europe NV/SA Monocular 3D pose estimation and tracking by detection
WO2012156141A1 (en) * 2011-05-16 2012-11-22 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Fast articulated motion tracking
JP5795250B2 (ja) * 2011-12-08 2015-10-14 Kddi株式会社 被写体姿勢推定装置および映像描画装置
EP2608546A1 (en) * 2011-12-21 2013-06-26 Thomson Licensing Video processing apparatus and method for detecting a temporal synchronization mismatch
JP5931646B2 (ja) * 2012-08-20 2016-06-08 Kddi株式会社 画像処理装置
US20150294143A1 (en) * 2014-04-10 2015-10-15 GM Global Technology Operations LLC Vision based monitoring system for activity sequency validation
US10755082B2 (en) * 2016-10-25 2020-08-25 Deep North, Inc. Point to set similarity comparison and deep feature learning for visual recognition
EP3616129A1 (en) * 2017-09-20 2020-03-04 Google LLC Optimizing policy controllers for robotic agents using image embeddings
CN109522850B (zh) * 2018-11-22 2023-03-10 中山大学 一种基于小样本学习的动作相似度评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009514110A (ja) * 2005-10-28 2009-04-02 本田技研工業株式会社 ポーズによるヒト検出
KR20110076746A (ko) * 2009-12-28 2011-07-06 주식회사 더블유코퍼레이션 오디오 신호 및 비디오 신호의 동기화 오차 보정 방법 및 장치
KR20150089370A (ko) * 2014-01-27 2015-08-05 주식회사 에스원 얼굴 포즈 변화에 강한 연령 인식방법 및 시스템
KR20170053069A (ko) * 2015-11-05 2017-05-15 수원대학교산학협력단 포즈 추정 기반 포즈변화에 강인한 얼굴 인식 방법
KR101848019B1 (ko) * 2016-12-27 2018-04-11 아주대학교산학협력단 차량 영역 검출을 통한 차량 번호판 검출 방법 및 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907663A (zh) * 2021-02-03 2021-06-04 阿里巴巴集团控股有限公司 定位方法、计算机程序产品、装置及系统
JP7249444B1 (ja) 2022-02-14 2023-03-30 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法、プログラム、及び情報処理システム
WO2023153036A1 (ja) * 2022-02-14 2023-08-17 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法、プログラム、及び情報処理システム
JP2023117614A (ja) * 2022-02-14 2023-08-24 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法、プログラム、及び情報処理システム

Also Published As

Publication number Publication date
KR20200132469A (ko) 2020-11-25
JP2022532772A (ja) 2022-07-19
KR102194282B1 (ko) 2020-12-23
JP7373589B2 (ja) 2023-11-02

Similar Documents

Publication Publication Date Title
WO2020235804A1 (ko) 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치
Kondori et al. 3D head pose estimation using the Kinect
Reyes et al. Featureweighting in dynamic timewarping for gesture recognition in depth data
JP2004094491A (ja) 顔向き推定装置および顔向き推定方法ならびに顔向き推定プログラム
JP2006350578A (ja) 画像分析装置
JP5247569B2 (ja) 人物追跡装置、人物追跡方法及びプログラム
JP2016119059A (ja) 画像処理装置および画像処理方法
JP2015219879A (ja) 画像認識システム、画像認識方法およびプログラム
Gondal et al. On dynamic scene geometry for view-invariant action matching
JPH08287216A (ja) 顔面内部位認識方法
WO2019098421A1 (ko) 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법
WO2021107734A1 (ko) 골프에 관한 콘텐츠를 추천하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2015093827A1 (ko) 뎁스 영상 분석을 통한 사용자 동작 인식 방법, 이를 이용한 사용자 동작 분석 장치 및 이를 기록한 컴퓨팅 장치에 의해 판독 가능한 기록매체
WO2018169110A1 (ko) 3차원 객체 표현을 위한 마커리스 증강현실장치 및 방법
WO2022131793A1 (en) Method and apparatus for recognizing handwriting inputs in multiple-user environment
WO2015167081A1 (ko) 신체 부분 검출 방법 및 장치
WO2021075753A2 (ko) 골프 스윙에 관한 정보를 추정하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체
JP6467994B2 (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
WO2024029880A1 (ko) 시선 방향을 검출하는 딥러닝 기반의 시선 방향 검출 모델을 학습하는 학습방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
WO2022045645A1 (ko) 골프 스윙에 관한 정보를 추정하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체
JP2016152467A (ja) 追尾装置、追尾方法及び追尾プログラム
WO2024071516A1 (ko) 객체 고정이 가능한 객체 트래킹 제공 방법 및 그를 위한 휴대 단말
WO2012128572A2 (ko) 가상 골프 시뮬레이션 장치와, 이에 이용되는 센싱장치 및 센싱방법
Harari et al. Discovery and usage of joint attention in images
JP2019103029A (ja) 情報処理装置、色補正方法、及びコンピュータプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20810607

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021568548

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20810607

Country of ref document: EP

Kind code of ref document: A1