KR20210135033A - 신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템 - Google Patents

신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템 Download PDF

Info

Publication number
KR20210135033A
KR20210135033A KR1020200053165A KR20200053165A KR20210135033A KR 20210135033 A KR20210135033 A KR 20210135033A KR 1020200053165 A KR1020200053165 A KR 1020200053165A KR 20200053165 A KR20200053165 A KR 20200053165A KR 20210135033 A KR20210135033 A KR 20210135033A
Authority
KR
South Korea
Prior art keywords
body part
image
part segmentation
network
segmentation
Prior art date
Application number
KR1020200053165A
Other languages
English (en)
Inventor
이호경
문영식
조용채
한정훈
Original Assignee
한양대학교 에리카산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 에리카산학협력단 filed Critical 한양대학교 에리카산학협력단
Priority to KR1020200053165A priority Critical patent/KR20210135033A/ko
Publication of KR20210135033A publication Critical patent/KR20210135033A/ko

Links

Images

Classifications

    • G06K9/00362
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • G06K2209/055
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/033Recognition of patterns in medical or anatomical images of skeletal patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템에 대한 것으로 신체부위 세그먼테이션 및 관절좌표 탐지 방법은 제1 네트워크를 통해 이미지 영상에 포함되어 있는 주요 신체부위의 특징정보를 추출하는 단계, 제1 네트워크를 통해 특징정보에 기초하는 신체부위 세그먼테이션을 예측하는 단계 및 특징정보 및 신체부위 세그먼테이션을 기초로 제2 네트워크를 통해 관절좌표를 예측하는 단계를 포함한다.

Description

신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템{System And Method For Detecting Body Part Segmentation And Joint Coordinates}
콘볼루션 신경망(Convolution Neural Network, CNN)을 이용한 인체의 신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템에 관한 것이다.
인체의 관절좌표 예측은 영상이나 이미지로부터 사람의 2D 또는 3D 좌표를 예측하는 기술로, 최근 인공지능(Artificial Intelligence, AI)과 딥러닝(Deep Learning)이 발전함에 따라 HCI(Human Computer Interaction)와 스마트 애플리케이션 등의 분야에서 상업적으로 상용화하고자 하고 있다. 특히, 특별한 장비나 조건없이 단일 영상으로부터 인체의 관절좌표를 검출하는 기술은 인도어(Indoor) 애플리케이션이나 PC, 예능, 게임 등 다양한 분야에서 활용되고 있다. 이로써, 기계한테 사람의 위치나 동작을 이해시켜 위험한 상황에 처해있는 사람에게 경고를 보내거나, 운동 선수의 동작을 분석하는 등의 사람과의 상호작용이 가능해지고 있다.
초기의 인체의 관절좌표를 추정하는 방법은 전통적인 컴퓨터 비전 분야의 기법을 사용하여 추정하였지만, 최근에는 딥러닝을 사용한 방법이 제안되고 있다. 이의 대표적인 기술로는 하나의 영상 내의 여러 사람의 관절좌표를 효과적이고 빠르게 인식하기 위해 'Bottom-Up'구조를 제안하는 OpenPose가 있다. 먼저 영상 내의 관절들을 모두 찾은 후, 연관이 있는 관절끼리 연결하는 이 방식은 기존의 방법에 비해 빠른 속도가 장점으로 알려져 있다. 또한, 또 다른 대표적인 방법으로는 반복적으로 입력 영상을 인코딩-디코딩하여 다양한 스케일의 특징 정보를 추출하는 Stacked Hourglass 구조로, 현재 대부분의 연구에 기본적으로 사용되는 개념이다.
다만, 인체의 관절좌표를 추정하는 연구의 특징으로는 통상의 2D 이미지 데이터와는 달리 정밀한 관측기구로 생성되거나 매 프레임 별 라벨링을 직접 해야 되므로 데이터셋(Data Set)이 제한적이고 양이 충분하지 않다는 점이 있다. 또한, 일반적으로 관절좌표와 신체부위 영역을 하나의 CNN 네트워크 내에서 예측하면 두 도메인 간의 차이로 인해 충돌이 발생하곤 한다. 더 구체적으로, 관절좌표는 하나의 점인데 반해 신체부위 영역은 넓은 영역임에서 발생하는 충돌로, 그로 인해 신체부위 영역은 검출하지만 관절좌표는 검출되지 않는 경우가 발생한다. 따라서 데이터셋이 제한적이고 양이 충분하지 않다는 점과 충돌이 발생하는 것을 방지하기 위해, 관절좌표 정보 이외의 추가적인 정보를 활용하고 두 도메인 간의 손실 함수에 하이퍼 파라미터(Hyper Parameter)를 설정하는 관련 연구가 현재 활발하게 진행 중에 있다.
대한민국공개특허공보 제10-2018-0097949호(순차적 다중 합성곱 신경망을 이용한 영상 내 관절 자세 예측 방법, 오치민, 2018.09.03) 대한민국등록특허공보 제10-1969050호(자세 추정, 주식회사 컨티넘, 2019.04.09) 대한민국등록특허공보 제10-1307984호(자세인식을 위해 방향성 기술자와 기계학습을 이용하는 주요 신체부위 추정 방법, 전남대학교산학협력단, 2013.09.06)
방송공학회논문지 제23권 제6호 780-789쪽(딥러닝 기반의 무기 소지자 탐지, 김건욱, 이민훈, 허유진, 황기수, 오승준, 2018.11)
CNN 네트워크를 직렬화하고, 손실 함수의 비율을 스스로 학습하는 방법을 제시하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템을 제공한다.
신체부위 세그먼테이션 및 관절좌표 탐지 방법의 일 실시예는 제1 네트워크를 통해 이미지 영상에 포함되어 있는 주요 신체부위의 특징정보를 추출하는 단계, 제1 네트워크를 통해 특징정보에 기초하는 신체부위 세그먼테이션(Segmentation)을 예측하는 단계 및 특징정보 및 신체부위 세그먼테이션을 기초로 제2 네트워크를 통해 관절좌표를 예측하는 단계를 포함할 수 있다.
또한, 이미지 영상에는 한 명의 사람(One Person) 및 일정 수준 이상의 신체 영역이 포함되어 있을 수 있다.
또한, 제1 네트워크 및 제2 네트워크는 콘볼루션 신경망(Convolution Neural Network, CNN)을 기초하여 동일한 구조로 구축된 직렬적인 학습 모델인 것을 특징으로 할 수 있다.
또한, 이미지 영상을 입력한 후, 이미지 영상의 해상도를 절반으로 줄이는 다운 샘플링(Down Sampling)을 2회 수행하는 단계를 더 포함할 수 있다.
또한, 다운 샘플링을 수행하는 단계는 맥스 풀링(Max-Pooling)을 적용하는 것을 특징으로 할 수 있다.
또한, 제1 네트워크는 주요 신체부위의 특징정보를 추출하는 인코더(Encoder) 및 주요 신체부위의 특징정보에 기초하여 신체부위 세그먼테이션을 예측하는 디코더(Decoder)를 포함할 수 있다.
또한, 인코더는 제1 네트워크에 입력된 이미지 영상을 1회 다운 샘플링하고, 3개의 제1 리지듀얼 블록(Residual Block)을 사용하여 제1 특징정보를 추출하는 제1 인코딩 계층, 제1 인코딩 계층에서 다운 샘플링 된 이미지 영상을 1회 다운 샘플링하고, 제1 리지듀얼 블록을 사용하여 제2 특징정보를 추출하는 제2 인코딩 계층, 제2 인코딩 계층에서 다운 샘플링 된 이미지 영상을 1회 다운 샘플링하고, 제1 리지듀얼 블록을 사용하여 제3 특징정보를 추출하는 제3 인코딩 계층 및 제3 인코딩 계층에서 다운 샘플링 된 이미지 영상을 1회 다운 샘플링하고, 제1 리지듀얼 블록을 사용하여 제4 특징정보를 추출하는 제4 인코딩 계층을 포함할 수 있다.
또한, 디코더는 제4 인코딩 계층에서 다운 샘플링된 이미지 영상을 1회 업 샘플링(Up Sampling)하고, 1개의 제2 리지듀얼 블록을 사용하여 신체부위 세그먼테이션을 예측하는 제1 디코딩 계층, 제1 디코딩 계층에서 업 샘플링된 이미지 영상을 1회 업 샘플링하고, 제2 리지듀얼 블록을 사용하여 신체부위 세그먼테이션을 예측하는 제2 디코딩 계층, 제2 디코딩 계층에서 업 샘플링된 이미지 영상을 1회 업 샘플링하고, 제2 리지듀얼 블록을 사용하여 신체부위 세그먼테이션을 예측하는 제3 디코딩 계층 및 제3 디코딩 계층에서 업 샘플링된 이미지 영상을 1회 업 샘플링하고, 제2 리지듀얼 블록을 사용하여 신체부위 세그먼테이션을 예측하는 제4 디코딩 계층을 포함할 수 있다.
또한, 제1 디코딩 계층 내지 상기 제4 디코딩 계층은 상기 제1 인코딩 계층 내지 제4 인코딩 계층에서 추출된 특징정보를 포함하여 디코딩하는 것을 특징으로 할 수 있다.
또한, 이미지 영상에 포함되어 있는 신체부위영역의 개수만큼 복수의 제1 채널(Channel) 수를 조절하는 단계를 더 포함할 수 있고, 제1 채널은 신체부위영역 중 하나의 부분을 담당할 수 있다.
또한, 제1 네트워크에서 출력되는 신체부위 세그먼테이션 및 제1 채널과의 비교를 통해 손실 함수를 계산 및 오차를 역전파하는 단계를 더 포함할 수 있다.
또한, 제2 네트워크는 특징정보 및 신체부위 세그먼테이션을 포함하는 데이터셋을 정제하여 관절좌표를 예측할 수 있다.
또한, 신체부위 세그먼테이션에 포함되어 있는 관절좌표영역의 개수만큼 복수의 제2 채널 수를 조절하는 단계를 더 포함할 수 있고, 제2 채널은 관절좌표영역 중 하나의 부분을 담당할 수 있다.
또한, 제2 네트워크에서 출력되는 관절좌표영역 및 제2 채널과의 비교를 통해 손실 함수를 계산 및 오차를 역전파하는 단계를 더 포함할 수 있다.
신체부위 세그먼테이션 및 관절좌표 탐지 시스템의 일 실시예는 이미지 영상을 입력하는 영상입력부, 이미지 영상에 포함되어 있는 주요 신체부위의 특징정보를 추출하고, 주요 신체부위의 특징정보에 기초하는 신체부위 세그먼테이션을 예측하는 제1 네트워크 및 특징정보 및 신체부위 세그먼테이션을 기초로 관절좌표를 예측하는 제2 네트워크를 포함할 수 있다.
단일 영상으로부터 신체부위 영역을 먼저 검출한 뒤, 반복적인 CNN 네트워크를 통해 신체부위 영역을 정제하여 관절좌표를 예측함으로써, 두 도메인을 함께 예측하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템을 제공할 수 있다.
도 1은 일 실시예에 따른 신체부위 세그먼테이션 및 관절좌표 탐지 방법을 나타내는 순서도이다.
도 2는 일 실시예에 따른 콘볼루션 신경망(Convolution Neural Network, CNN)을 도시화한 도면이다.
도 3은 일 실시예에 따른 신체부위 세그먼테이션(Segmentation)을 예측하는 과정을 설명하기 위한 순서도이다.
도 4는 일 실시예에 따른 제1 네트워크를 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 제1 네트워크를 통해 예측된 신체부위 세그먼테이션을 나타내는 도면이다.
도 6은 일 실시예에 따른 관절좌표를 예측하는 과정을 설명하기 위한 순서도이다.
도 7은 일 실시예에 따른 제2 네트워크를 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 제2 네트워크를 통해 예측된 관절좌표를 나타내는 도면이다.
도 9는 일 실시예에 따른 신체부위 세그먼테이션 및 관절좌표 탐지 시스템을 나타내는 블록도이다.
이하, 첨부된 도면을 참조하여 기술되는 실시예를 통하여 발명을 통상의 기술자가 용이하게 이해하고 재현할 수 있도록 상세히 기술하기로 한다. 다만, 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 발명 실시예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
이하에서 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로써, 그 용어의 의미는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 후술하는 실시예에서 사용된 용어의 의미는 이하에서 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 통상의 기술자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다. 또한, 각 도면에서 제시된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다.
이하, 첨부된 도면 및 이에 기재된 내용들을 참조하여 본 발명의 실시예에 따른 신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템을 상세히 설명하도록 한다.
도 1은 본 발명의 실시예에 따른 신체부위 세그먼테이션 및 관절좌표 탐지 방법을 나타내는 순서도이다.
도 1을 참조하면, 신체부위 세그먼테이션 및 관절좌표 탐지 방법은 이미지 영상(50)에 포함되어 있는 주요 신체부위의 특징정보를 추출하는 단계(S110), 신체부위 세그먼테이션(300)을 예측하는 단계(S120) 및 관절좌표(500)를 예측하는 단계(S130)을 포함할 수 있다.
또한, 이미지 영상(50)은 RGB(Red-Green-Blue) 영상, HSB(Hue-Saturation-Brightness) 영상 또는 CMYK(Cyan-Magenta-Yellow-Black) 영상 중 적어도 하나를 포함할 수 있다.
또한, 이미지 영상(50)에는 한 명의 사람(One Person) 및 일정 수준 이상의 신체 영역이 포함되어 있을 수 있다. 더 구체적으로 기술하자면, 개인의 신체영역 세그먼테이션(300) 및 관절좌표(500)를 예측하는 것이 본 발명의 요지이므로, 개인의 이미지 영상(50)에 한정하여 실시해야 할 것이다. 아울러, 상기 기술된 일정 수준 이상의 신체 영역을 포함하는 이미지 영상(50)이란 적어도 상반신 이상을 포함하는 이미지 영상(50)을 의미할 수 있다. 예를 들어, 본 발명의 실시자가 사람의 허리를 기준으로 위를 상반신, 아래를 하반신으로 구분한다면 적어도 상반신은 포함되어야 한다는 것을 의미할 수 있다. 이에 따라, 본 발명에서 의미하는 이미지 영상(50)은 상반신부터 골반까지 포함되어 있는 이미지 영상(50), 상반신부터 무릎까지 포함되어 있는 이미지 영상(50) 또는 상반신부터 발목까지 포함되어 있는 이미지 영상(50)이 될 수 있다. 다만, 이에 한정되는 것은 아니며 일정 수준 이상의 신체 영역은 실시자에 따라 상이하게 설정할 수 있다.
또한, 도 1을 참조하여 설명한 신체부위 세그먼테이션 및 관절좌표 탐지 방법은 도 2 내지 도 8을 참조하여 좀 더 구체적으로 후술하도록 한다.
도 2는 본 발명의 실시예에 따른 콘볼루션 신경망(Convolution Neural Network, CNN)을 도시화한 도면이다.
도 2를 참조하면, 제1 네트워크(200)를 통해 이미지 영상(50)에 포함되어 있는 주요 신체부위의 특징정보를 추출하여 신체부위 세그먼테이션(300)을 예측하고, 신체부위 세그먼테이션(300)이 제2 네트워크(400)에 입력되면 주요 신체부위의 특징정보 및 신체부위 세그먼테이션(300)을 기초로 관절좌표(500)을 예측할 수 있다.
이상에서 설명한 것을 더 구체화한다면, 본 발명의 프로세스는 크게 두 파트로 나뉘게 되는데, 첫 번째는 이미지 영상(50)에 포함되어 있는 주요 신체부위의 특징정보를 추출하여 신체부위 세그먼테이션(300)을 예측하도록 학습되어 있는 제1 네트워크(200)이고, 두 번째는 제1 네트워크(200)에서 추출한 주요 신체부위의 특징정보와 예측한 신체부위 세그먼테이션(300)을 기초로 관절좌표(500)을 예측하도록 학습되어 있는 제2 네트워크(400)이다.
또한, 제1 네트워크(200) 및 제2 네트워크(400)는 콘볼루션 신경망(Convolution Neural Network, CNN)을 기초하여 동일한 구조로 구축된 직렬적인 학습 모델인 것을 특징으로 할 수 있다. 여기서 직렬적이라는 표현은 신체부위 세그먼테이션(300) 및 관절좌표(500)을 각각 예측하는 것이 아닌 신체부위 세그먼테이션(300)에 기초하여 관절좌표(500)를 예측하는 것이기 때문에 사용된 것으로 이해해야 할 것이다.
이하에서 설명할 도 3 내지 도 5를 참조하여 제1 네트워크(200)를 구체적으로 후술할 것이고, 도 6 내지 도 8을 참조하여 제2 네트워크(400)를 구체적으로 후술하도록 한다.
도 3은 본 발명의 실시예에 따른 신체부위 세그먼테이션(Segmentation)을 예측하는 과정을 설명하기 위한 순서도이다.
도 3을 참조하면, 신체부위 세그먼테이션(300)을 예측하는 단계(S120)까지의 과정은 이미지 영상(50)의 해상도를 절반으로 줄이는 다운 샘플링을 2회 수행하는 단계(S100), 주요 신체부위의 특징정보를 추출하는 단계(S110), 이미지 영상(50)에 포함되어 있는 신체부위영역의 개수만큼 복수의 제1 채널 수를 조절하는 단계(S111), 제1 네트워크(200)에서 출력되는 신체부위 세그먼테이션(300) 및 제1 정답과의 비교를 통해 손실 함수를 계산 및 오차를 역전파하는 단계(S113) 및 특징정보에 기초하는 신체부위 세그먼테이션(300)을 예측하는 단계(S120)를 포함할 수 있다.
또한, 이미지 영상(50)에 대해 다운 샘플링 2회를 수행하기 전, 정규화 및 데이터 증강을 포함하는 전처리하는 단계를 더 포함할 수 있다.
또한, 다운 샘플링을 수행하는 단계(S100)는 맥스 풀링(Max-Pooling)을 적용하는 것을 특징으로 할 수 있다. 아울러, 이하에서 기재되어 있는 다운 샘플링 또한 동일하게 맥스 풀링을 적용하는 것을 특징으로 할 수 있다.
또한, 주요 신체부위는 머리, 어깨, 팔, 골반 및 다리가 될 수 있다.
또한, 주요 신체부위의 설정에 따른 특징정보는 예를 들어 머리는 목에 맞닿은 윗부분일 수 있고, 어깨는 목을 기준으로 목에 맞닿은 신체부위 중 가장 길이가 긴 양 끝점을 연결한 선일 수 있다.
다만, 이상에서 설명한 주요 신체부위 및 특징정보는 본 발명의 실시예를 이해하기 용이하게 설명한 일 실시예일 뿐 실시자에 따라 상이하게 설정할 수 있다.
또한, 제1 네트워크(200)를 통해 신체부위 세그먼테이션(300)을 예측하게 되는데, 이 전에 신체부위영역의 개수만큼 제1 채널의 수를 조절할 수 있다. 예를 들어, 이미지 영상(50)에 얼굴, 어깨, 팔 및 골반을 포함되어 있다면, 적어도 4개의 제1 채널 수를 조절해야 할 것이다.
또한, 각각의 제1 채널은 신체부위영역 중 하나의 부분을 담당할 수 있다.
또한, 제1 채널 수를 조절하는 단계(S111) 이후 제1 정답의 기준값과 예측한 오차값을 비교하게 되는데, 이 때 제1 정답의 기준값이란 미리 구축된 학습 모델의 데이터 셋의 평균값 또는 사용자가 미리 설정한 표본값을 통해 설정된 최대 허용 오차값일 수 있다. 주요 신체부위의 특징정보를 추출한 후, 해당 특징정보와 제1 정답을 비교하였는데 0.5의 오차가 발생하였고, 제1 정답의 기준값이 0.3으로 설정되어 있다면, 최대 허용 오차값보다 추출된 특징정보의 오차값이 크므로 다시 주요 신체부위의 특징정보를 추출하는 단계(S110)를 거치게 될 수 있다. 이후, 최대 허용 오차값보다 작게 된다면 특징정보를 기초하여 신체부위 세그먼테이션(300)을 예측할 수 있다.
도 4는 본 발명의 실시예에 따른 제1 네트워크를 설명하기 위한 도면이다.
도 4를 참조하면, 제1 네트워크(200)는 주요 신체부위의 특징정보를 추출하는 인코더(210) 및 주요 신체부위의 특징정보에 기초하여 신체부위 세그먼테이션을 예측하는 디코더(250)를 포함할 수 있다.
또한, 인코더(210)는 이미지 영상(50)을 1회 다운 샘플링하고, 3개의 제1 리지듀얼 블록(230)을 사용하여 제1 특징정보를 추출하는 제1 인코딩 계층(211), 제1 인코딩 계층(211)에서 다운 샘플링된 이미지 영상(50)을 1회 다운 샘플링하고, 제1 리지듀얼 블록(230)을 사용하여 제2 특징정보를 추출하는 제2 인코딩 계층(213), 제2 인코딩 계층(213)에서 다운 샘플링된 이미지 영상(50)을 1회 다운 샘플링하고, 제1 리지듀얼 블록(230)을 사용하여 제3 특징정보를 추출하는 제3 인코딩 계층(215) 및 제3 인코딩 계층(215)에서 다운 샘플링된 이미지 영상(50)을 1회 다운 샘플링하고, 제1 리지듀얼 블록(230)을 사용하여 제4 특징정보를 추출하는 제4 인코딩 계층(217)을 포함할 수 있다.
또한, 디코더(250)는 제4 인코딩 계층(217)에서 다운 샘플링된 이미지 영상(50)을 1회 업 샘플링(Up Sampling)하고, 1개의 제2 리지듀얼 블록을 사용하여 신체부위 세그먼테이션(300)을 예측하는 제1 디코딩 계층(251), 제1 디코딩 계층(251)에서 업 샘플링된 이미지 영상(50)을 1회 업 샘플링하고, 제2 리지듀얼 블록을 사용하여 신체부위 세그먼테이션(300)을 예측하는 제2 디코딩 계층(253), 제2 디코딩 계층(253)에서 업 샘플링된 이미지 영상(50)을 1회 업 샘플링하고, 제2 리지듀얼 블록을 사용하여 신체부위 세그먼테이션(300)을 예측하는 제3 디코딩 계층(255) 및 제3 디코딩 계층(255)에서 업 샘플링된 이미지 영상(50)을 1회 업 샘플링하고, 제2 리지듀얼 블록을 사용하여 신체부위 세그먼테이션(300)을 예측하는 제4 디코딩 계층(257)을 포함할 수 있다.
또한, 제1 디코딩 계층(251) 내지 제4 디코딩 계층(257)은 제1 인코딩 계층(211) 내지 제4 인코딩 계층(217)에서 추출된 특징정보를 포함하여 디코딩하는 것을 특징으로 할 수 있다.
그러므로, 제1 네트워크(200)는 제1 리지듀얼 블록(230)을 기준으로 제1 인코딩 계층(211)과 제4 디코딩 계층(257)이 연결되어 있고, 제2 인코딩 계층(213)과 제3 디코딩 계층(255)이 연결되어 있으며, 제3 인코딩 계층(215)과 제2 디코딩 계층(253)이 연결되어 있고, 제4 인코딩 계층(217)과 제1 디코딩 계층(251)이 연결되어 있는 구조를 갖을 수 있다.
도 5는 본 발명의 실시예에 따른 제1 네트워크를 통해 예측된 신체부위 세그먼테이션을 나타내는 도면이다.
도 5를 참조하면, 한 명의 사람 및 일정 수준 이상의 신체 영역이 포함되어 있는 이미지 영상(50)이 입력되면, 제1 네트워크(200)를 통해 신체부위 세그먼테이션(300)을 예측할 수 있다.
또한, 신체부위 세그먼테이션(300)은 도 5에서 도시화한 바와 같이 머리(Head), 상반신(Upper Body), 상완(Upper Arm), 전완(Lower Arm), 손(Hand) 및 윗다리(Upper leg)가 각각 구분되어질 수 있다. 그러나 도 5에서는 각각 다른 패턴으로 신체부위 세그먼테이션(300)을 구분하였지만, 구분되어질 수 있는 형태 또는 구조(예를 들어, 색상을 달리하여 구분)라면 대체할 수 있다.
도 6은 본 발명의 실시예에 따른 관절좌표를 예측하는 과정을 설명하기 위한 순서도이다.
도 6을 참조하면, 관절좌표(500)을 예측하는 단계(S130)까지의 과정은 예측된 신체부위 세그먼테이션(300)에 포함되어 있는 주요 관절좌표(500)의 특징정보를 추출하는 단계(S121), 신체부위 세그먼테이션(300)에 포함되어 있는 관절좌표영역의 개수만큼 복수의 제2 채널 수를 조절하는 단계(S123), 제2 네트워크(400)에서 출력되는 관절좌표(500) 및 제2 정답과의 비교를 통해 손실 함수를 계산 및 오차를 역전파하는 단계(S125) 및 특징정보 및 신체부위 세그먼테이션(300)에 기초하는 관절좌표(500)을 예측하는 단계(S130)을 포함할 수 있다.
또한, 관절좌표(500)는 이미지 영상(50) 또는 신체부위 세그먼테이션(300) 내의 x좌표 및 y좌표를 포함할 수 있다.
또한, 관절좌표(500)는 머리의 중앙부, 목, 좌측 어깨, 우측 어깨, 좌측 팔꿈치, 우측 팔꿈치, 좌측 손목, 우측 손목, 좌측 골반, 우측 골반, 좌측 무릎, 우측 무릎, 좌측 발목 및 우측 발목의 좌표일 수 있다.
그러나, 관절좌표(500)의 위치 또는 개수는 실시자 및 설계자에 따라 변경이 가능할 수 있다.
또한, 제2 채널은 관절좌표영역 중 하나의 부분을 담당할 수 있다.
또한, 제2 정답의 기준값과 예측한 오차값을 비교하게 되는데, 이 때 제2 정답의 기준값이란 미리 구축된 학습 모델의 데이터 셋의 평균값 또는 사용자가 미리 설정한 표본값을 통해 설정된 최대 허용 오차값일 수 있다. 주요 관절좌표(500)의 특징정보를 추출한 후, 해당 특징정보와 제2 정답을 비교하였는데 0.5의 오차가 발생하였고, 제2 정답의 기준값이 0.3으로 설정되어 있다면, 최대 허용 오차값보다 추출된 특징정보의 오차값이 크므로 다시 주요 관절좌표의 특징정보를 추출하는 단계(S121)를 거치게 될 수 있다. 이후, 최대 허용 오차값보다 작게 된다면 특징정보를 기초하여 관절좌표(500)을 예측할 수 있다.
도 7은 본 발명의 실시예에 따른 제2 네트워크를 설명하기 위한 도면이다.
도 7을 참조하면, 제2 네트워크(400)는 특징정보 및 신체부위 세그먼테이션(300)을 포함하는 데이터셋을 정제하여 관절좌표(500)를 예측할 수 있다.
또한, 제2 네트워크(400)는 제1 네트워크(200)와 동일한 구조 또는 기능을 수행할 수 있다. 예를 들어, 제1 네트워크(200)는 크게 인코더(210) 및 디코더(250)를 포함하고 있는데, 제2 네트워크(400) 또한 인코더(210) 및 디코더(250)을 포함할 수 있다. 아울러, 제1 네트워크(200) 및 제2 네트워크(400)는 각각 신체부위 세그먼테이션(300) 및 관절좌표(500)를 예측하기 위해 미리 구축된 합성곱 신경망을 기초로 한 학습 모델로서, 두 네트워크의 구조 또는 기능을 동일할 수 있다는 것을 의미할 수 있다. 따라서 제2 네트워크(400)의 구조 및 기능은 이상에서 제1 네트워크(200)을 통해 상세하게 설명하였으므로, 제2 네트워크(400)에 대한 상세한 설명은 생략하도록 한다.
도 8은 본 발명의 실시예에 따른 제2 네트워크를 통해 예측된 관절좌표를 나타내는 도면이다.
도 8을 참조하면, 제1 네트워크(200)를 통해 예측된 신체부위 세그먼테이션(300)이 제2 네트워크(400)를 통해 관절좌표(500)를 예측할 수 있다.
또한, 도 8의 관절좌표(500)가 표시된 이미지를 살펴보면, 제2 네트워크(400)를 통해 특징정보 및 신체부위 세그먼테이션(300)을 기초하여 머리의 중앙부, 목, 좌측 어깨, 우측 어깨, 좌측 팔꿈치, 우측 팔꿈치, 좌측 손목, 우측 손목, 좌측 골반, 우측 골반, 좌측 무릎 및 우측 무릎의 관절좌표(500)가 예측된 것을 확인할 수 있다.
또한, 선의 머리 및 꼬리가 원형으로 표시된 관절좌표(500)는 제2 정답일 수 있고, 선의 머리 및 꼬리가 삼각형으로 표시된 관절좌표(500)는 제2 네트워크(400)을 통해 예측된 관절좌표(500)일 수 있으며, 제2 네트워크(400)를 반복적으로 수행하여 제2 정답과 가장 유사한 관절좌표(500)를 예측할 수 있다.
도 9는 본 발명의 실시예에 따른 신체부위 세그먼테이션 및 관절좌표 탐지 시스템을 나타내는 블록도이다.
도 9를 참조하면, 신체부위 세그먼테이션 및 관절좌표 탐지 시스템은 이미지 영상(50)에 포함되어 있는 주요 신체부위의 특징정보를 추출하고, 주요 신체부위의 특징정보에 기초하는 신체부위 세그먼테이션(300)을 예측하는 제1 네트워크(200) 및 특징정보 및 신체부위 세그먼테이션(300)을 기초로 관절좌표(500)를 예측하는 제2 네트워크(400)를 포함할 수 있다.
50: 이미지 영상
200: 제1 네트워크
210: 인코더
211: 제1 인코딩 계층
213: 제2 인코딩 계층
215: 제3 인코딩 계층
217: 제4 인코딩 계층
230: 제1 리지듀얼 블록
250: 디코더
251: 제1 디코딩 계층
253: 제2 디코딩 계층
255: 제3 디코딩 계층
257: 제4 디코딩 계층
300: 신체부위 세그먼테이션
400: 제2 네트워크
500: 관절좌표

Claims (15)

  1. 제1 네트워크를 통해 이미지 영상에 포함되어 있는 주요 신체부위의 특징정보를 추출하는 단계;
    상기 제1 네트워크를 통해 상기 특징정보에 기초하는 신체부위 세그먼테이션(Segmentation)을 예측하는 단계; 및
    상기 특징정보 및 상기 신체부위 세그먼테이션을 기초로 제2 네트워크를 통해 관절좌표를 예측하는 단계;
    를 포함하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  2. 제1항에 있어서,
    상기 이미지 영상에는 한 명의 사람(One Person) 및 일정 수준 이상의 신체 영역이 포함되어 있는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  3. 제1항에 있어서,
    상기 제1 네트워크 및 상기 제2 네트워크는 콘볼루션 신경망(Convolution Neural Network, CNN)을 기초하여 동일한 구조로 구축된 직렬적인 학습 모델인 것을 특징으로 하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  4. 제1항에 있어서,
    상기 주요 신체부위의 특징정보를 추출하기 전에,
    상기 이미지 영상의 해상도를 절반으로 줄이는 다운 샘플링(Down Sampling)을 2회 수행하는 단계를 더 포함하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  5. 제4항에 있어서,
    상기 다운 샘플링을 수행하는 단계는 맥스 풀링(Max-Pooling)을 적용하는 것을 특징으로 하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  6. 제1항에 있어서,
    상기 제1 네트워크는,
    상기 주요 신체부위의 특징정보를 추출하는 인코더(Encoder) 및
    상기 주요 신체부위의 특징정보에 기초하여 신체부위 세그먼테이션을 예측하는 디코더(Decoder)
    를 포함하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  7. 제6항에 있어서,
    상기 인코더는,
    상기 이미지 영상을 1회 다운 샘플링하고, 3개의 제1 리지듀얼 블록(Residual Block)을 사용하여 제1 특징정보를 추출하는 제1 인코딩 계층,
    상기 제1 인코딩 계층에서 다운 샘플링된 이미지 영상을 1회 다운 샘플링하고, 상기 제1 리지듀얼 블록을 사용하여 제2 특징정보를 추출하는 제2 인코딩 계층,
    상기 제2 인코딩 계층에서 다운 샘플링된 이미지 영상을 1회 다운 샘플링하고, 상기 제1 리지듀얼 블록을 사용하여 제3 특징정보를 추출하는 제3 인코딩 계층 및
    상기 제3 인코딩 계층에서 다운 샘플링된 이미지 영상을 1회 다운 샘플링하고, 상기 제1 리지듀얼 블록을 사용하여 제4 특징정보를 추출하는 제4 인코딩 계층
    을 포함하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  8. 제6항에 있어서,
    상기 디코더는,
    상기 제4 인코딩 계층에서 다운 샘플링된 이미지 영상을 1회 업 샘플링(Up Sampling)하고, 1개의 제2 리지듀얼 블록을 사용하여 상기 신체부위 세그먼테이션을 예측하는 제1 디코딩 계층,
    상기 제1 디코딩 계층에서 업 샘플링된 이미지 영상을 1회 업 샘플링하고, 상기 제2 리지듀얼 블록을 사용하여 상기 신체부위 세그먼테이션을 예측하는 제2 디코딩 계층,
    상기 제2 디코딩 계층에서 업 샘플링된 이미지 영상을 1회 업 샘플링하고, 상기 제2 리지듀얼 블록을 사용하여 상기 신체부위 세그먼테이션을 예측하는 제3 디코딩 계층 및
    상기 제3 디코딩 계층에서 업 샘플링된 이미지 영상을 1회 업 샘플링하고, 상기 제2 리지듀얼 블록을 사용하여 상기 신체부위 세그먼테이션을 예측하는 제4 디코딩 계층
    을 포함하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  9. 제8항에 있어서,
    상기 제1 디코딩 계층 내지 상기 제4 디코딩 계층은 제1 인코딩 계층 내지 상기 제4 인코딩 계층에서 추출된 특징정보를 포함하여 디코딩하는 것을 특징으로 하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  10. 제1항에 있어서,
    상기 이미지 영상에 포함되어 있는 신체부위영역의 개수만큼 복수의 제1 채널(Channel) 수를 조절하는 단계를 더 포함하고,
    상기 제1 채널은 상기 신체부위영역 중 하나의 부분을 담당하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  11. 제1항에 있어서,
    상기 제1 네트워크에서 출력되는 상기 신체부위 세그먼테이션 및 제1 정답과의 비교를 통해 손실 함수를 계산 및 오차를 역전파하는 단계를 더 포함하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  12. 제1항에 있어서,
    상기 제2 네트워크는,
    상기 특징정보 및 상기 신체부위 세그먼테이션을 포함하는 데이터셋을 정제하여 상기 관절좌표를 예측하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  13. 제1항에 있어서,
    상기 신체부위 세그먼테이션에 포함되어 있는 관절좌표영역의 개수만큼 복수의 제2 채널 수를 조절하는 단계를 더 포함하고,
    상기 제2 채널은 상기 관절좌표영역 중 하나의 부분을 담당하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  14. 제1항에 있어서,
    상기 제2 네트워크에서 출력되는 관절좌표영역 및 제2 정답과의 비교를 통해 손실 함수를 계산 및 오차를 역전파하는 단계를 더 포함하는 신체부위 세그먼테이션 및 관절좌표 탐지 방법.
  15. 이미지 영상에 포함되어 있는 주요 신체부위의 특징정보를 추출하고, 상기 주요 신체부위의 특징정보에 기초하는 신체부위 세그먼테이션을 예측하는 제1 네트워크; 및
    상기 특징정보 및 상기 신체부위 세그먼테이션을 기초로 관절좌표를 예측하는 제2 네트워크;
    를 포함하는 신체부위 세그먼테이션 및 관절좌표 탐지 시스템.
KR1020200053165A 2020-05-04 2020-05-04 신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템 KR20210135033A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200053165A KR20210135033A (ko) 2020-05-04 2020-05-04 신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200053165A KR20210135033A (ko) 2020-05-04 2020-05-04 신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20210135033A true KR20210135033A (ko) 2021-11-12

Family

ID=78487349

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200053165A KR20210135033A (ko) 2020-05-04 2020-05-04 신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR20210135033A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024063343A1 (ko) * 2022-09-21 2024-03-28 주식회사 날비컴퍼니 3d 모션 캡처 방법 및 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101307984B1 (ko) 2012-09-04 2013-09-26 전남대학교산학협력단 자세인식을 위해 방향성 기술자와 기계학습을 이용하는 주요 신체부위 추정 방법
KR20180097949A (ko) 2017-02-24 2018-09-03 오치민 순차적 다중 합성곱 신경망을 이용한 영상 내 관절 자세 예측 방법
KR101969050B1 (ko) 2019-01-16 2019-04-15 주식회사 컨티넘 자세 추정

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101307984B1 (ko) 2012-09-04 2013-09-26 전남대학교산학협력단 자세인식을 위해 방향성 기술자와 기계학습을 이용하는 주요 신체부위 추정 방법
KR20180097949A (ko) 2017-02-24 2018-09-03 오치민 순차적 다중 합성곱 신경망을 이용한 영상 내 관절 자세 예측 방법
KR101969050B1 (ko) 2019-01-16 2019-04-15 주식회사 컨티넘 자세 추정

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
방송공학회논문지 제23권 제6호 780-789쪽(딥러닝 기반의 무기 소지자 탐지, 김건욱, 이민훈, 허유진, 황기수, 오승준, 2018.11)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024063343A1 (ko) * 2022-09-21 2024-03-28 주식회사 날비컴퍼니 3d 모션 캡처 방법 및 시스템

Similar Documents

Publication Publication Date Title
KR102081854B1 (ko) 3d edm을 이용한 수어 또는 제스처 인식 방법 및 장치
CN110008915B (zh) 基于掩码-rcnn进行稠密人体姿态估计的系统及方法
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
CN111292330A (zh) 基于编解码器的图像语义分割方法及装置
KR101711736B1 (ko) 영상에서 동작 인식을 위한 특징점 추출 방법 및 골격 정보를 이용한 사용자 동작 인식 방법
EP4307233A1 (en) Data processing method and apparatus, and electronic device and computer-readable storage medium
CN111062865B (zh) 图像处理方法、装置、计算机设备和存储介质
KR102689515B1 (ko) 얼굴 정보를 처리하기 위한 방법 및 장치, 전자 디바이스 및 저장 매체
CN115083015B (zh) 一种3d人体姿态估计数据标注方式和对应的模型构建方法
Bautista Garcia et al. Hand Alphabet Recognition for Dactylology Conversion to English Print Using Streaming Video Segmentation
KR20210135033A (ko) 신체부위 세그먼테이션 및 관절좌표 탐지 방법 및 시스템
CN117218246A (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN114783017A (zh) 基于逆映射的生成对抗网络优化方法及装置
KR102229056B1 (ko) 표정 인식 모델 생성 장치, 방법 및 이러한 방법을 수행하도록 프로그램된 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체
CN115775024A (zh) 虚拟形象模型训练方法及装置
CN115731344A (zh) 图像处理模型训练方法以及三维对象模型构建方法
CN113255514B (zh) 基于局部场景感知图卷积网络的行为识别方法
CN115439309A (zh) 训练衣服变形模型的方法、虚拟试衣方法及相关装置
CN115880766A (zh) 姿态迁移、姿态迁移模型训练方法、装置和存储介质
Shen et al. Depth assisted portrait video background blurring
KR20030076904A (ko) 중간 시점 영상 합성 방법
KR100281965B1 (ko) 모델 기반 코딩 시스템의 얼굴 텍스쳐 맵핑 방법
US11636796B2 (en) Subject segmentation for motion control and textured display
KR102584484B1 (ko) 발화 합성 영상 생성 장치 및 방법
KR102540756B1 (ko) 발화 합성 영상 생성 장치 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application