KR20220084642A - Method and Apparatus of human pose data 2D/3D conversion using deep learning for display and summarization - Google Patents

Method and Apparatus of human pose data 2D/3D conversion using deep learning for display and summarization Download PDF

Info

Publication number
KR20220084642A
KR20220084642A KR1020200174317A KR20200174317A KR20220084642A KR 20220084642 A KR20220084642 A KR 20220084642A KR 1020200174317 A KR1020200174317 A KR 1020200174317A KR 20200174317 A KR20200174317 A KR 20200174317A KR 20220084642 A KR20220084642 A KR 20220084642A
Authority
KR
South Korea
Prior art keywords
display
user
image
data
deep learning
Prior art date
Application number
KR1020200174317A
Other languages
Korean (ko)
Inventor
김영범
이상국
박진우
Original Assignee
김영범
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김영범 filed Critical 김영범
Priority to KR1020200174317A priority Critical patent/KR20220084642A/en
Publication of KR20220084642A publication Critical patent/KR20220084642A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06T3/0093
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4888Data services, e.g. news ticker for displaying teletext characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 고안은 단일 카메라 출력인 2D 이미지에서 딥러닝기술을 이용해 사용자의 연령,성별,신체비율등을 판단해내고, 사용자의 관절부위를 keypoint 로 설정해 이를 검출한후, 이들을 연결해 사람의 pose를 인식하는 방법에 관한 것으로써, 각 관절(이하 keypoint)의 분석에 있어 heatmap, Graph theory 등을 이용해 각 pixel간의 관계를 보존하기때문에 불확실한 정도도 모델링이 가능하다.
또한 2D Display 상에서 3D의 입체적인 영상을 좌표, mesh등의 형태로 표현할 수 있기때문에 3D Display를 위한 별도의 장치가 필요치 않다.
This design uses deep learning technology from a single camera output, a 2D image, to determine the user's age, gender, body proportion, etc. As for the method, in the analysis of each joint (hereafter keypoint), it is possible to model the degree of uncertainty because the relationship between each pixel is preserved using heatmap, graph theory, etc.
In addition, since 3D stereoscopic images can be expressed in the form of coordinates and mesh on the 2D display, a separate device for the 3D display is not required.

Figure pat00001
Figure pat00001

Description

딥러닝기술을 이용해 신체의 pose 를 2D 영상에서 3D 화면 으로 변환 방법 및 Display 상에 표시 하고 요약하는 방법 {Method and Apparatus of human pose data 2D/3D conversion using deep learning for display and summarization }Method and method to display and summarize body pose from 2D image to 3D screen using deep learning technology {Method and Apparatus of human pose data 2D/3D conversion using deep learning for display and summarization }

본 발명은 인체의 2D 영상에서 움직임데이터를 3D로 변환해 추출하고 행동을 요약해서 표현하는 것으로서, 상세히는 입력단계에서 딥러닝 기술을 이용해 사용자의 정보를 판단할 수 있고, 2D image 의 신체 keypoint를 추출해낸 후 신체의 keypoint를 연결하여 신체의 pose 를 추정하고 이를 2D display 상에서 3D로 표현하는 방법 과 신체의 pose 움직임을 요약해 표현하는 수행하는 장치에 관한 것이다.The present invention converts and extracts motion data from a 2D image of the human body into 3D and summarizes the behavior. In detail, the user's information can be determined using deep learning technology in the input stage, It relates to a method of estimating body pose by connecting keypoints of the body after extraction and expressing it in 3D on a 2D display, and a device that summarizes and expresses body pose movements.

최근에는 다양한 방법으로 2D를 3D로 변환해 화면상의 움직을 3D로 나타내고 있다. 단일 카메라, RGB -depth 카메라, 3D 카메라등을 통해서 입력된 영상을 3D로 표현하고 있다. 이중 제일 난이도가 높은 변환 기술은 단일 카메라로부터 입력된 영상을 3D로 표현하는 방법이다. 기존에는 입력장치에 있어서 마커(Marker)기반의 입력 창치를 부착해 신체의 움직임을 표현하거나, 다수의 카메라로부터 입력된 영상을 통합하여 3D 영상을 나타낼 수 있었다. 당연히 시스템을 구성하기위한 비용이 증가했음을 알 수 있다.또한 3D 영상을 위해 디스플레이 장치가 별도로 요구되었으며, RGB-depth 카메라, 3D 카메라로부터의 입력되는 신체움직임은 2D/3D 변환(conversion)을 위해 당연히 비용, 시간, 장소등의 추가적 장치가 필요하였으며, 이는 소비자의 부담으로 되돌아왔다. 그리고 신체의 가림현상(occlusion )이 발생하면 오차가 커지거나 다른 3D영상으로 나타냈었다. 딥러닝 기술을 이용하여도 신체 관절을 인식하고 이를 3D로 표현할경우 rendering 시, back propagation 할 때 오류가 커지는 단점이 있었다. heatmap, graph 이용한 2D/3D 변환 방법은 상기단점을 개선하기 위해, 딥러닝 기술을 사용하였다. Recently, various methods have been used to convert 2D to 3D and display movement on the screen in 3D. Images input through a single camera, RGB-depth camera, and 3D camera are expressed in 3D. Among them, the conversion technology with the highest level of difficulty is a method of expressing an image input from a single camera in 3D. In the past, it was possible to express body movements by attaching marker-based input devices to input devices, or to display 3D images by integrating images input from multiple cameras. Of course, it can be seen that the cost for configuring the system has increased. Also, a separate display device is required for 3D images, and body movements input from RGB-depth camera and 3D camera are of course for 2D/3D conversion. Additional devices such as cost, time, and place were required, which returned to the burden of consumers. And when occlusion of the body occurred, the error increased or it was displayed in another 3D image. Even using deep learning technology, when recognizing body joints and expressing them in 3D, there was a disadvantage in that errors increased during rendering and back propagation. The 2D/3D conversion method using heatmap and graph used deep learning technology to improve the above shortcomings.

운동이나 재활치료의 경우 2D의 신체 pose의 교정이 필요한 부분을 확인할 수 있으며, 신체의 pose 를 2D 영상에서 3D 화면 으로 변환 방법 및 Display 상에 표시 하고 요약 할 수 있다.In the case of exercise or rehabilitation treatment, it is possible to check the parts that require correction of the 2D body pose, and the method of converting the body pose from a 2D image to a 3D screen and displaying and summarizing it on the display.

본 발명은 인체의 움직임을 인식하기 위한 영상의 촬영단계에서 있어, 비용이 많이 소요되는 RGB-depth 카메라나, 3D 영상을 위한 다수의 카메라를 구비한 시스템등이 필요치않고, 단일카메라로 부터 입력되는 2D 영상을 기본으로한다. 또한, 2D 데이터나, 3D 데이터로 변환한후 2D Display 상에 나타내는 방법에 있어서 딥러닝 기술을 활용해 저장장치에 저장된 전문프로선수의 자세데이터와 사용자의 움직임 데이터를 비교한다.재활치료에 적용하는 경우 일반인의 자세데이터와 비교한다. The present invention does not require an expensive RGB-depth camera or a system having multiple cameras for 3D images in the image capturing step for recognizing the movement of the human body, and is input from a single camera. It is based on 2D image. In addition, in the method of converting to 2D data or 3D data and displaying it on the 2D display, deep learning technology is used to compare the posture data of a professional athlete and the user's movement data stored in the storage device. Applied to rehabilitation treatment In this case, it is compared with the posture data of the general public.

이후 차이가 많이 발생한 부분을 표를 보고 직접 확인하는 과정(자동화 인식포함)을 통해 자세의 움직임을 교정을 할 수 있도록하는 방법이며, 2D display 상에서 3D 형태로 표현되기 때문에 비용을 절약하면서 동시에 자세의 어떤 부위를 어떻게 교정해야하는지 알 수 있는 방법에 관한것이다. Afterwards, it is a method that allows you to correct the movement of your posture through the process (including automatic recognition) to directly check the part where there is a lot of difference by looking at the table. It's about knowing which areas need to be corrected and how.

본 고안은 단일 카메라 출력인 2D 이미지에서 딥러닝기술을 이용해 사용자의 연령,성별,신체비율등을 판단해내고, 사용자의 관절부위를 keypoint 로 설정해 이를 검출하고, 이들을 연결해 사람의 pose를 인식하는 방법에 관한것으로써, 각 관절(이하 keypoint)의 분석에 있어 heatmap, Graph theory 등을 이용해 각 pixel간의 관계를 보존하기때문에 불확실한 정도도 모델링이 가능하다.This design uses deep learning technology from a single camera output 2D image to determine the user's age, gender, body proportion, etc., set the user's joint area as a keypoint to detect it, and connect them to recognize a human pose. Regarding to, in the analysis of each joint (hereafter keypoint), it is possible to model the degree of uncertainty because the relationship between each pixel is preserved using heatmap, graph theory, etc.

또한 2D Display 상에서 3D의 입체적인 영상을 좌표, mesh등의 형태로 표현할 수 있기때문에 3D Display를 위한 별도의 장치가 필요치 않다.In addition, since 3D stereoscopic images can be expressed in the form of coordinates and mesh on the 2D display, there is no need for a separate device for the 3D display.

또한 지도학습과 강화학습을 결합한 생성요약 모델을 적용한 자연어 처리 딥러닝 기법을 이용해 요약 정리한 설명이 나오므로 전체적인 움직임의 자세를 이해할 수 있다.In addition, it is possible to understand the overall posture of movement because the explanation is summarized using a natural language processing deep learning technique that applies a generative summary model that combines supervised learning and reinforcement learning.

자세추정(pose estimation)모델을 이용해 운동하는 사람의 잘못된 동작을 발견하고 교정해주어 잘못된 동작으로 인한 부상을 방지하고 운동의 효과와 건강증진에 기여할 수 있다. 또한 이용자가 운동을 할 때 전문 트레이너의 부재로 인해 발생할 수 있는 부상의 위험이나, 온동효과의 감소등의 문제를 해결할 수 있다. (재활치료에도 적용가능) 원하는 운동을 처음 시각하는 경우에는 올바른 자세를 모를 수 있는경우, 본 발명을 통해 올바른 자세를 확인할 수 있다. 그리고 집에서 홈트레이닝 하는 경우에도 스마트폰을 이용해 자신의 동작이 올바른지 확인할 수 있도록하여, 잘못된 동작으로 인한 부상을 방지하고 운동의 효과를 가져온다.By using a pose estimation model to detect and correct the wrong movement of a person exercising, it is possible to prevent injuries due to the wrong movement and to contribute to the effect of exercise and health promotion. In addition, it is possible to solve problems such as the risk of injury or reduction of the warming effect that may occur due to the absence of a professional trainer when the user is exercising. (Applicable to rehabilitation treatment) If you do not know the correct posture when viewing the desired exercise for the first time, you can check the correct posture through the present invention. And even when training at home, you can use your smartphone to check if your movements are correct, preventing injuries due to incorrect movements and bringing the effect of exercise.

휴먼포즈 인식 추정 기술은 최근 5~6년간 딥러닝 기술에 힘입어 획기적인 발전을 이루며, 기술의 성숙도에 따라 다양한 응용분야에서의 새로운 비즈니스가 창출될 것으로 예상된다. Human pose recognition estimation technology has made a breakthrough in the past 5-6 years thanks to deep learning technology, and it is expected that new businesses in various application fields will be created according to the maturity of the technology.

특히 AR/VR, 로봇, 의료분야에서의 폭발적 성장이 이뤄질 것이며, 모니터가 필요한 산업 전분야에 적용가능하며 2D Display가 사용되는 모든 영상에 적용가능하다.In particular, explosive growth in AR/VR, robotics, and medical fields will occur, and it can be applied to all industries that require a monitor and can be applied to all images using 2D display.

도면 1은 본 발명에 따른 신체의 keypoint를 2D/3D 변환후 2D Display 상에 2D 혹은 3D 형태로 표현하는 방법에 대한 전체적인 개념도이다.
도면 2는 프로선수의 움직임 데이터 저장 서버의 구성을 나타내는 개념도이다. 도면 3은 움직임데이터를 자연어처리를 적용해 간략히 요약해서 표시되는 내용이다.
1 is an overall conceptual diagram of a method of expressing a keypoint of a body in a 2D or 3D form on a 2D display after 2D/3D conversion according to the present invention.
2 is a conceptual diagram showing the configuration of a server for storing motion data of a professional player. 3 is a brief summary of motion data by applying natural language processing.

본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시 예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다. 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 을 미리 배제하지 않는 것으로 이해되어야 한다 .With respect to the embodiments of the present invention disclosed in the text, specific structural or functional descriptions are only exemplified for the purpose of describing the embodiments of the present invention, and the embodiments of the present invention may be implemented in various forms and the text It should not be construed as being limited to the embodiments described in . Since the present invention can have various changes and can have various forms, specific embodiments are illustrated in the drawings and described in detail in the text. However, this is not intended to limit the present invention to the specific disclosed form, it should be understood to include all modifications, equivalents and substitutes included in the spirit and scope of the present invention. Terms such as first, second, etc. may be used to describe various elements, but the elements should not be limited by the terms. The above terms may be used for the purpose of distinguishing one component from another component. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component. When a component is referred to as being “connected” or “connected” to another component, it may be directly connected or connected to the other component, but it is understood that other components may exist in between. it should be On the other hand, when it is said that a certain element is "directly connected" or "directly connected" to another element, it should be understood that the other element does not exist in the middle. Other expressions describing the relationship between elements, such as "between" and "immediately between" or "neighboring to" and "directly adjacent to", etc., should be interpreted similarly. The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. The singular expression includes the plural expression unless the context clearly dictates otherwise. In the present application, terms such as "comprise" or "have" are intended to designate that the described feature, number, step, operation, component, part, or a combination thereof exists, but one or more other features or numbers , it should be understood that it does not preclude the presence or addition of steps, operations, components, parts, or combinations thereof.

도 1은 본 발명에 따른 신체의 keypoint를 2D/3D 변환후 2D Display 상에 2D 혹은 3D 형태로 표현하는 방법에 대한 전체적인 개념도이다. 전체적인 동작과정은 다음과 같다. 초기자세설정(100,250) 이후 딥러닝 기술을 이용해 사용자의 움직임을 따라서 keypoint를 추출(110)한다. 이후 사용자가 3D 영상을 보기 희망(120)하면, 추출된 keypoint를 2D Display상에 표시한다.(300) (3D Display에도 표시가능). 만일 사용자가 원하는 프로선수가 있다면(200,210), 초기자세설정부터 그 선수의 자세로 시작하게된다(100). 이후 사용자의 움직임과 차이가 나는 부분을 3D 형태로 2D Dispaly에 표시한다.(310) 초기자세 설정(100)은 사용자에 따라서 신체키, 성별, 연령, 팔길이등을 별도로 입력받지않아도 얼굴인식 및 pose estimation 기능의 AI기술을 이용해 입력이 가능하다. 하지만 초기 어드레스 자세는 신체 각 keypoint의 시작점을 의미하므로, 사용자가 원하는 프로선수와의 비교한 동작의 pose 추적을 위해서는 시작 동기를 맞춰야할 필요성이 있다. 또한 사람마다 움직임 동작시간이 다르기 때문에 선수의 움직임과 사용자의 움직임의 속도를 동기화할 필요성이 있다. 사용자의 움직임 늦다면(시간이 많이 걸린다면) 영상처리기법을 이용해 주요 frame 만 선택해 시간을 축소하고, 사용자의 움직임이 빠르다면(시간이 짧게 걸린다면) 중간 frame을 추가해 시작과 끝을 동기화한다. 사용자의 시작지점이 틀리면 이후 동작인식이 안되므로, 시작지점에서는 사용자의 자세를 인식해 오차범위안에 들어오면 자세인식이 시작되도록한다.딥러닝 기술을 이용해 사용자의 pose estimation을 수행하고 사용자의 관절포인트(keypoint)추출해낸다(110). pose estimation 기술에는 수학적 기법을 이용해 2d를 3d로 변환한다 이때 사용되는방법은 1)가우시안분포특성을 이용한 heatmap이 적용된 2d predicted map 생성, 2)2D -> 3D pose projection 통한 map생성, 3)predicted map과 projected map을 fusion 해서 fused map 생성등이 있으며 1)2)3)을 cascade 로 구성해 변환할 수 있다. 또한 graph theory 등이 활용될수도있다. 일반 컨벌류션은 각 keypoint 끼리의 연관(hierachical) 정보를 활용하지 못하지만, 그래프컨벌루션은 이를 쉽게활용할 수 있는 장점이있다.사용자가 자신의 움직임을 3D 영상으로 보고싶은지 아닌지 선택할 수 있다.(120) 만일 2D 형태로 keypoint의 연결만 보기를 희망한다면, keypoint 끼리의 relation을 고려하고 이를 연결해 전체신체의 pose를 추정하게된다(130). 나아가 사용자가 희망하는 프로선수와의 움직임을 비교하고 확인하고싶다면 프로선수와의 움직임을 비교희망하는 질의의 답을 선택하게됩니다(210). 이후 움직임 데이터 서장서버(200)내의 움직임 데이터 비교부(240)에서 선수별 움직임 데이터 2D/3D저장(220,230)와 사용자의 움직임데이터(110)의 차이분포를 계산해내고 이를 3D 데이터 형식으로 나타내고 2D Dispaly Monitoe 에 표시하거나, 좌표를 직접 확인해 움직임을 이해한다(310). 1 is an overall conceptual diagram of a method of expressing a body keypoint in 2D or 3D form on a 2D display after 2D/3D conversion according to the present invention. The overall operation process is as follows. After the initial posture setting (100,250), the keypoint is extracted (110) by following the user's movement using deep learning technology. Afterwards, when the user wishes to view the 3D image (120), the extracted keypoint is displayed on the 2D display (300) (can also be displayed on the 3D display). If there is a professional player desired by the user (200, 210), the player's posture is started from the initial posture setting (100). After that, the part that is different from the user's movement is displayed on the 2D Dispaly in 3D form. (310) The initial posture setting 100 can perform face recognition and Input is possible using AI technology of pose estimation function. However, since the initial address posture means the starting point of each keypoint of the body, there is a need to match the start synchronization for the pose tracking of the movement compared to the professional athlete desired by the user. In addition, since each person's movement time is different, it is necessary to synchronize the movement of the player and the speed of the user's movement. If the user's movement is slow (it takes a lot of time), it reduces the time by selecting only the main frame using image processing techniques. If the user's starting point is wrong, subsequent motion recognition is not possible. Therefore, the user's posture is recognized at the starting point and posture recognition is started when the user's posture is within the error range. keypoint) is extracted (110). The pose estimation technique uses a mathematical technique to convert 2d to 3d. The methods used in this case are 1) generating a 2d predicted map to which a heatmap using Gaussian distribution is applied, 2) creating a map through 2D -> 3D pose projection, 3) predicting map There is a fused map generation by fusion of a projected map and 1)2)3) can be converted into a cascade. Also, graph theory can be used. Although general convolution does not utilize hierarchical information between keypoints, graph convolution has the advantage of being able to easily utilize it. The user can choose whether or not he wants to see his/her movement as a 3D image. (120) If If you want to see only the connection of keypoints in 2D form, the pose of the whole body is estimated by considering the relation between keypoints and connecting them (130). Furthermore, if the user wants to compare and confirm the movement with the desired professional player, he/she selects the answer to the question for which the user wishes to compare the movement with the professional player (210). After that, the motion data comparison unit 240 in the motion data preamble server 200 calculates the difference distribution between the 2D/3D storage 220 and 230 of each player's motion data and the user's motion data 110, and displays it in 3D data format. Display on the monitor or check the coordinates directly to understand the movement (310).

자연어 처리 딥러닝 기술을 적용해 차이움직임 데이터를 요약하고 표시한다. (400)It summarizes and displays difference motion data by applying natural language processing deep learning technology. (400)

신체의 움직임 인식이 필요한 스포츠, 요가, 재활등에 2d 이미지 내지는 2d영상내의 사용자의 골프스윙 움직임을 딥러닝 기법을 이용해 분석한후 이를 데이터화하고, 프로선수의 움직임을 모델링한 데이터와 비교해서, 그 차이가 크게나는 시점을 선택해 3d 로 표현해 사용자 신체의 어디가 잘못된 자세인지 3d로 확인할수있기때문에 교정효과가 뛰어나다. After analyzing the user's golf swing movement in 2d images or 2d images in sports, yoga, and rehabilitation that require body movement recognition, using deep learning techniques, we make data and compare it with data modeling the movements of professional players, the difference The corrective effect is excellent because it is possible to select a point in time when the s is large and express it in 3D so that it is possible to check where the user's body is in the wrong posture in 3D.

100: 초기자세설정(기본자세의 관절위치에서 허용하는 범위내의 오차에 있을 때 자세인식 시작)
110: 단일카메라를 통한 영상에서 관절부위를 추출(딥러닝 pose estimation 기술을 활용)
120: 3D 영상의 희망여부를 사용자로부터 입력받는 단계
130: 인체의 keypoint 및 연결부분을 2D 형태로 표시하는 단계
200: 프로선수의 움직임 데이터 저장서버
210: 프로선수의 움지임과 비교여부를 사용자로부터 입력받는 단계
220: 선수별 움직임 2D/3D 데이터 저장
230: 선수와 사용자의 움직임 데이터 비교부
240: 초기설정 조정부/프레임 속도 동기화 의 설명
250: 사용자 움직임 데이터 요약표시(NLP Based)
300: 3D 데이터를 2D Dispaly Monitor 에 표시
310: 움직임이 차이가 나는 부분을 3D 데이터 형식으로 2D Dispaly
Monitor에 표시
400: 움직임의 요약표시
100: Initial posture setting (posture recognition starts when there is an error within the allowable range of the joint position of the basic posture)
110: Extracting joint parts from an image through a single camera (using deep learning pose estimation technology)
120: Step of receiving input from the user whether the 3D image is desired
130: Step of displaying the keypoint and connection part of the human body in 2D form
200: Pro player movement data storage server
210: Step of receiving input from the user on whether to compare the movement of the professional player
220: Each player movement 2D/3D data storage
230: player and user movement data comparison unit
240: Description of Default Adjustment/Frame Rate Synchronization
250: user movement data summary display (NLP Based)
300: 3D data displayed on 2D Dispaly Monitor
310: 2D Dispaly the part with a difference in movement in 3D data format
display on monitor
400: summary display of movement

Claims (7)

영상내의 2D 데이터를 3D 데이터로 변환하여 2D Display 상에 표현하는 표시방법 및 장치에 있어서,
사용자의 초기 자세에 관한 사용자의 정보를 딥러닝기법을 이용해 추정하는 단계;
사용자의 초기 자세에 관한 데이터를 기본데이터 및 프로선수의 데이터를 비교해 오차범위내에서만 동작인식이 되도록 설정하는 단계;
상기 2D 영상내의 주요 포인트(골격, 특징점)의 특징값을 추출하는 단계;
사용자가 3D 형태를 확인하고 싶다는 표시를 입력하는 단계;
상기 추출된 2D 특징값을 3D 형태로 변환하는 단계;
상기 2D/3D 의 특징값을 프로선수의 움직임데이터 저장서버의 프로선수의 2D/3D 데이터와 비교하는 단계 ;
상기 2D 및 3D 형태로 사용자가 교정되야하는 정도에따라 색으로 표시하는 단계;
사용자의 움직임데이터를 자연어 처리기술을 이용해 요약정리 표현하는 단계 를 포함하는 것을 특징으로 하는, 딥러닝기술을 이용해 신체의 pose 를 2D 영상에서 3D 화면 으로 변환 방법 및 Display 상에 표시 하고 요약하는 방법
A display method and apparatus for converting 2D data in an image into 3D data and expressing it on a 2D display, comprising:
estimating user information about the user's initial posture using a deep learning technique;
Comparing the data on the user's initial posture with the basic data and the data of professional players, setting the motion recognition to be performed only within an error range;
extracting feature values of main points (skeleton, feature points) in the 2D image;
inputting an indication that the user wants to confirm the 3D shape;
converting the extracted 2D feature value into a 3D form;
Comparing the 2D/3D feature value with 2D/3D data of a professional player of a motion data storage server of the professional player;
displaying a color according to the degree to which the user needs to be corrected in the 2D and 3D form;
A method of converting the pose of a body from a 2D image to a 3D screen using deep learning technology, which comprises the step of summarizing and expressing the user's movement data using natural language processing technology, and a method of displaying and summarizing the body on a display
제 1항에 있어서,
사용자의 초기 자세에 관한 사용자의 정보를 딥러닝기법을 이용해 추정하는 단계는 사용자의 성별, 나이, 신체사이즈등 움직임에 변화가 수반되는 사항들을 자동으로 인식하는 것을 특징으로 하는, 딥러닝기술을 이용해 신체의 pose 를 2D 영상에서 3D 화면 으로 변환 방법 및 Display 상에 표시 하고 요약하는 방법
The method of claim 1,
The step of estimating the user's information about the user's initial posture using the deep learning technique uses deep learning technology, which is characterized by automatically recognizing the matters that accompany changes in movement, such as the user's gender, age, and body size. How to convert body pose from 2D image to 3D screen and how to display and summarize on the display
제 1항에 있어서,
사용자의 초기자세의 인식은 기본데이터와의 비교시 오차범위내에 있거나 프로선수의 초기자세와 비교시 오차범위내에 존재하는경우에는 초기자세인식이 시작되는것을 특징으로하는, 딥러닝기술을 이용해 신체의 pose 를 2D 영상에서 3D 화면 으로 변환 방법 및 Display 상에 표시 하고 요약하는 방법
The method of claim 1,
When the recognition of the user's initial posture is within the error range when compared with the basic data or within the error range when compared with the initial posture of a professional athlete, the initial posture recognition is started. How to convert pose from 2D image to 3D screen and how to display and summarize on the display
제 1항에 있어서,
상기 영상은 2D 및 3D 영상을 기본으로 하며 2D형태 및 3D형태의 신체 keypoint를 2D Display에 표시하는 것을 특징으로 하는, 딥러닝기술을 이용해 신체의 pose 를 2D 영상에서 3D 화면 으로 변환 방법 및 Display 상에 표시 하고 요약하는 방법
The method of claim 1,
The image is based on 2D and 3D images, and a method of converting body pose from a 2D image to a 3D screen using deep learning technology, characterized in that the body keypoints of the 2D and 3D forms are displayed on the 2D display and the display image How to mark and summarize in
제 1항에 있어서,
2D 영상내의 keypoint 특징값 추출은 CPM(Convolutional Pose Machine) 및 Heatmap, Graph 등의 방식을 이용하는 것을 특징으로 하는, 딥러닝기술을 이용해 신체의 pose 를 2D 영상에서 3D 화면 으로 변환 방법 및 Display 상에 표시 하고 요약하는 방법
The method of claim 1,
Extracting keypoint feature values in 2D images is characterized by using CPM (Convolutional Pose Machine), Heatmap, Graph, etc., using deep learning technology to convert body poses from 2D images to 3D screens and display them on the display and how to summarize
제 1항에 있어서,
프로선수의 움직임 데이터 저장서버는 프로선수에 대한 2D 및 3D 움직임데이터를 저장한 상태에서 사용자의 2D 및 3D 움직임데이터와 비교하는것을 특징으로하는, 딥러닝기술을 이용해 신체의 pose 를 2D 영상에서 3D 화면 으로 변환 방법 및 Display 상에 표시 하고 요약하는 방법
The method of claim 1,
The professional athlete's movement data storage server stores the 2D and 3D movement data for the professional athlete and compares the user's 2D and 3D movement data with the user's 2D and 3D movement data. How to convert to screen and how to display and summarize on display
사용자의 움직임은 자연어 처리기술을 적용해 요약정리한 상태로 나타낼수 있는것을 특징으로하는, 딥러닝기술을 이용해 신체의 pose 를 2D 영상에서 3D 화면 으로 변환 방법 및 Display 상에 표시 하고 요약하는 방법


A method of converting a body pose from a 2D image to a 3D screen using deep learning technology, which is characterized in that the user's movements can be expressed in a summarized state by applying natural language processing technology, and a method to display and summarize on the display


KR1020200174317A 2020-12-14 2020-12-14 Method and Apparatus of human pose data 2D/3D conversion using deep learning for display and summarization KR20220084642A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200174317A KR20220084642A (en) 2020-12-14 2020-12-14 Method and Apparatus of human pose data 2D/3D conversion using deep learning for display and summarization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200174317A KR20220084642A (en) 2020-12-14 2020-12-14 Method and Apparatus of human pose data 2D/3D conversion using deep learning for display and summarization

Publications (1)

Publication Number Publication Date
KR20220084642A true KR20220084642A (en) 2022-06-21

Family

ID=82221248

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200174317A KR20220084642A (en) 2020-12-14 2020-12-14 Method and Apparatus of human pose data 2D/3D conversion using deep learning for display and summarization

Country Status (1)

Country Link
KR (1) KR20220084642A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173382A (en) * 2023-10-27 2023-12-05 南京维赛客网络科技有限公司 Virtual digital human state correction method, system and storage medium in VR interaction
WO2024101535A1 (en) * 2022-11-09 2024-05-16 주식회사 스파이더코어 Dangerous position detecting method and system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024101535A1 (en) * 2022-11-09 2024-05-16 주식회사 스파이더코어 Dangerous position detecting method and system
CN117173382A (en) * 2023-10-27 2023-12-05 南京维赛客网络科技有限公司 Virtual digital human state correction method, system and storage medium in VR interaction
CN117173382B (en) * 2023-10-27 2024-01-26 南京维赛客网络科技有限公司 Virtual digital human state correction method, system and storage medium in VR interaction

Similar Documents

Publication Publication Date Title
US20230338778A1 (en) Method and system for monitoring and feed-backing on execution of physical exercise routines
US11069144B2 (en) Systems and methods for augmented reality body movement guidance and measurement
CN110544301A (en) Three-dimensional human body action reconstruction system, method and action training system
KR102106135B1 (en) Apparatus and method for providing application service by using action recognition
CN112237730A (en) Body-building action correcting method and electronic equipment
KR20220084642A (en) Method and Apparatus of human pose data 2D/3D conversion using deep learning for display and summarization
CN110544302A (en) Human body action reconstruction system and method based on multi-view vision and action training system
KR102320960B1 (en) Personalized home training behavior guidance and correction system
US11660500B2 (en) System and method for a sports-coaching platform
US20160232698A1 (en) Apparatus and method for generating animation
CN113255522B (en) Personalized motion attitude estimation and analysis method and system based on time consistency
KR20200022788A (en) Device and method for analyzing motion
CN114022512A (en) Exercise assisting method, apparatus and medium
US20230249031A1 (en) Systems and methods for personalized exercise protocols and tracking thereof
Tharatipyakul et al. Pose estimation for facilitating movement learning from online videos
JP2017064095A (en) Learning system, learning method, program and record medium
CN110070036B (en) Method and device for assisting exercise motion training and electronic equipment
KR20230086874A (en) Rehabilitation training system using 3D body precision tracking technology
WO2019183733A1 (en) Method and system for motion capture to enhance performance in an activity
CN109407826A (en) Ball game analogy method, device, storage medium and electronic equipment
JP6283231B2 (en) Proficiency assessment method and program
CN113837130A (en) Human hand skeleton detection method and system
JP2001236505A (en) Method, device and system for estimating coordinate
JP2021077218A (en) Information processing device, information processing method, and information processing program
CN114356100B (en) Body-building action guiding method, body-building action guiding device, electronic equipment and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application