KR20230111010A - 관절 예측을 위한 학습 데이터 생성 방법 및 장치 - Google Patents

관절 예측을 위한 학습 데이터 생성 방법 및 장치 Download PDF

Info

Publication number
KR20230111010A
KR20230111010A KR1020220006685A KR20220006685A KR20230111010A KR 20230111010 A KR20230111010 A KR 20230111010A KR 1020220006685 A KR1020220006685 A KR 1020220006685A KR 20220006685 A KR20220006685 A KR 20220006685A KR 20230111010 A KR20230111010 A KR 20230111010A
Authority
KR
South Korea
Prior art keywords
boundary
keypoint
joint
information
gaussian distribution
Prior art date
Application number
KR1020220006685A
Other languages
English (en)
Inventor
이재영
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020220006685A priority Critical patent/KR20230111010A/ko
Publication of KR20230111010A publication Critical patent/KR20230111010A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

관절 예측을 위한 학습 데이터 생성 방법이 개시된다. 본 발명에 따른 관절 예측을 위한 학습 데이터 생성 방법은, 입력 영상 내 복수의 관절의 위치를 나타내는 복수의 키포인트 정보를 이용하여, 제1 키포인트에 대응하는 제1 관절 방향 정보를 획득하는 단계, 상기 입력 영상 내 경계 정보를 이용하여, 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하는 단계, 상기 제1 관절 방향 정보 및 상기 복수의 경계 방향 정보의 유사도를 이용하여 제1 기준 경계 지점을 획득하는 단계, 상기 제1 기준 경계 지점 및 상기 제1 키포인트 간의 거리에 기초하여 가우시안 분포의 크기 정보를 획득하는 단계, 및, 상기 제1 키포인트에서 상기 크기 정보를 가지는 가우시안 분포를 적용하여 제1 히트맵을 생성하는 단계를 포함한다.

Description

관절 예측을 위한 학습 데이터 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING TRAINING DATA FOR JOINT PREDICTION}
본 발명은, 관절 예측을 위한 학습 데이터를 생성하는 경우, 관절에 맞는 가우시안 분포의 크기를 설정하여 히트맵을 생성함으로써 최적의 학습 데이터를 생성할 수 있는, 관절 예측을 위한 학습 데이터 생성 방법 및 장치에 관한 것이다.
최근 스마트폰, 태블릿 PC, 웹캠 등과 같은 모바일 카메라 이용이 대중화되고 비전 기반 딥러닝 기술이 활용되면서, 기존의 전통적인 비전 기반의 접근방법보다 월등한 성능을 보여준다. 이에 따라 많은 영상처리 기술들이 딥러닝 방법을 적용하여 상용화되고 있다.
현재 대부분의 딥러닝 기반 키포인트 추정 방법들은, 사람의 관절에 대한 히트맵을 예측하는 방법을 사용한다. 히트맵(Heat-map)(도 1b의 2010)이란, 도 1a과 같은 이차원 영상 내 사람의 각 관절의 2차원 위치를 확률값으로 나타낸 정보일 수 있다. 이 경우 딥러닝 네트워크 등의 인공지능 모델은 각 관절의 수만큼의 히트맵을 예측하며, 관절의 위치를 추정하는 장치는 예측된 히트맵을 후처리 함으로써 키포인트(관절의 위치)를 산출할 수 있다.
한편 종래의 히트맵 생성 방법에서는, 가우시안 분포의 크기를 고정시켜 각 관절에 대한 히트맵을 생성하였다. 따라서 도 1b에서 도시된 바와 같이, 실제 관절 영역에 맞지 않는 히트맵이 생성되는 문제가 있었다.
본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 관절 예측을 위한 학습 데이터 생성하는 경우, 관절에 맞는 가우시안 분포의 크기를 설정하여 히트맵을 생성함으로써 최적의 학습 데이터를 생성할 수 있는, 관절 예측을 위한 학습 데이터 생성 방법 및 장치에 관한 것이다.
본 발명에 따른 관절 예측을 위한 학습 데이터 생성 방법은, 입력 영상 내 복수의 관절의 위치를 나타내는 복수의 키포인트 정보를 이용하여, 제1 키포인트에 대응하는 제1 관절 방향 정보를 획득하는 단계, 상기 입력 영상 내 경계 정보를 이용하여, 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하는 단계, 상기 제1 관절 방향 정보 및 상기 복수의 경계 방향 정보의 유사도를 이용하여 제1 기준 경계 지점을 획득하는 단계, 상기 제1 기준 경계 지점 및 상기 제1 키포인트 간의 거리에 기초하여 가우시안 분포의 크기 정보를 획득하는 단계, 및, 상기 제1 키포인트에서 상기 크기 정보를 가지는 가우시안 분포를 적용하여 제1 히트맵을 생성하는 단계를 포함한다.
이 경우 인공지능 모델이 상기 입력 영상에 기반하여 예측 히트맵을 출력하면, 상기 예측 히트맵 및 상기 제1 히트맵 간의 차이를 이용하여 상기 인공지능 모델을 트레이닝 하는 단계를 더 포함할 수 있다.
한편 상기 제1 관절 방향 정보는, 상기 제1 키포인트 및 상기 제1 키포인트와 인접한 제2 키포인트를 연결하는 관절 벡터일 수 있다.
이 경우 상기 복수의 경계 방향 정보는, 상기 경계 상의 각 지점의 경계 방향을 나타내는 경계 벡터일 수 있다.
이 경우 상기 제1 기준 경계 지점을 획득하는 단계는, 복수의 경계 벡터와 상기 관절 벡터 간의 복수의 내적 값을 산출하는 단계, 및, 상기 복수의 내적 값 중 가장 큰 내적 값을 획득하고, 상기 가장 큰 내적 값을 가지는 상기 경계 상의 지점을 상기 기준 경계 지점으로 선정하는 단계를 포함할 수 있다.
이 경우 상기 복수의 경계 벡터는, 경계 검출기에서 출력된 이미지 그래디언트 벡터와 직교하는 벡터일 수 있다.
이 경우 상기 이미지 그래디언트 벡터는, 상기 경계 상의 지점에서의 픽셀 값의 변화 강도를 나타내는 크기 정보 및 상기 경계 상의 지점에서의 픽셀 값의 변화 방향을 나타내는 방향 정보를 포함할 수 있다.
한편 상기 복수의 경계 방향 정보를 획득하는 단계는, 상기 제1 키포인트를 중심으로 하는 탐색 구역을 설정하는 단계, 및, 상기 탐색 구역 내의 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하는 단계를 포함할 수 있다.
이 경우 상기 복수의 경계 방향 정보를 획득하는 단계는, 소정의 폭을 가지며 상기 제1 관절 방향 정보의 방향으로 연장되는 영역을 스킵 영역으로 설정하는 단계, 및, 상기 탐색 구역 내의 경계 상의 복수의 지점 중 상기 스킵 영역 내의 지점들을 필터링 하는 단계를 포함할 수 있다.
한편 상기 제1 키포인트 및 상기 제1 키포인트와 인접한 제3 키포인트를 연결하는 관절 벡터인 제2 관절 방향 정보를 획득하는 단계, 상기 제2 관절 방향 정보를 이용하여 제2 기준 경계 지점을 획득하는 단계를 더 포함할 수 있다.
이 경우 상기 가우시안 분포의 크기 정보를 획득하는 단계는, 상기 제1 키포인트 및 상기 제1 기준 경계 지점 간의 제1 거리를 산출하는 단계, 상기 제1 키포인트 및 상기 제2 기준 경계 지점 간의 제2 거리를 산출하는 단계, 상기 제1 거리 및 상기 제2 거리 중 더 작은 거리를 이용하여 상기 가우시안 분포의 크기 정보를 획득하는 단계를 포함할 수 있다.
한편 상기 복수의 키 포인트 정보를 이용하여 제2 키포인트에 대응하는 가우시안 분포의 크기 정보를 획득하고, 상기 제2 키포인트에 대응하는 제2 히트맵을 생성하는 단계를 더 포함하고, 상기 제2 히트맵에서의 가우시안 분포의 크기 정보는, 상기 제1 히트맵에서의 가우시안 분포의 크기 정보와 상이할 수 있다.
한편 상기 복수의 경계 방향 정보를 획득하는 단계는, 상기 제1 키포인트를 중심으로 가지고, 세로 길이보다 가로 길이가 더 큰 제1 탐색 구역을 설정하는 단계, 상기 제1 탐색 구역 내의 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하는 단계, 상기 제1 키포인트를 중심으로 가지고, 가로 길이보다 세로 길이가 더 큰 제2 탐색 구역을 설정하는 단계, 상기 제2 탐색 구역 내의 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하는 단계를 포함하고, 상기 제1 기준 경계 지점을 획득하는 단계는, 상기 제1 관절 방향 정보 및 상기 제1 탐색 구역에서 획득된 복수의 경계 방향 정보의 유사도에 기초하여 제1-1 기준 경계 지점을 획득하는 단계, 및, 상기 제1 관절 방향 정보 및 상기 제2 탐색 구역에서 획득된 복수의 경계 방향 정보의 유사도에 기초하여 제1-2 기준 경계 지점을 획득하는 단계;를 포함하고, 상기 가우시안 분포의 크기 정보를 획득하는 단계는, 상기 제1-1 기준 경계 지점 및 상기 제1 키포인트 간의 거리에 기초하여 가우시안 분포의 X축 크기 정보를 획득하는 단계, 및, 상기 제1-2 기준 경계 지점 및 상기 제1 키포인트 간의 거리에 기초하여 가우시안 분포의 Y축 크기 정보를 획득하는 단계를 포함하고, 상기 제1 히트맵을 생성하는 단계는, 상기 제1 키포인트에서 상기 X축 크기 정보 및 상기 Y축 크기 정보를 가지는 가우시안 분포를 적용하여 제1 히트맵을 생성하는 단계를 포함할 수 있다.
한편 본 발명에 따른 관절 예측을 위한 학습 데이터 생성 장치는, 입력 영상 내 경계 정보를 추출하는 경계 검출부, 상기 입력 영상 내 복수의 관절의 위치를 나타내는 복수의 키포인트 정보를 이용하여 제1 키포인트에 대응하는 제1 관절 방향 정보를 획득하고, 상기 입력 영상 내 경계 정보를 이용하여 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하고, 상기 제1 관절 방향 정보 및 상기 복수의 경계 방향 정보의 유사도를 이용하여 제1 기준 경계 지점을 획득하고, 상기 제1 기준 경계 지점 및 상기 제1 키포인트 간의 거리에 기초하여 가우시안 분포의 크기 정보를 획득하는 가우시안 분포 산출부, 및, 상기 제1 키포인트에서 상기 크기 정보를 가지는 가우시안 분포를 적용하여 제1 히트맵을 생성하는 히트맵 생성부를 포함한다.
이 경우 인공지능 모델이 상기 입력 영상에 기반하여 예측 히트맵을 출력하면, 상기 예측 히트맵 및 상기 제1 히트맵 간의 차이를 이용하여 상기 인공지능 모델을 트레이닝 하는 모델 학습부를 더 포함할 수 있다.
한편 상기 제1 관절 방향 정보는, 상기 제1 키포인트 및 상기 제1 키포인트와 인접한 제2 키포인트를 연결하는 관절 벡터일 수 있다.
이 경우 상기 복수의 경계 방향 정보는, 상기 경계 상의 각 지점의 경계 방향을 나타내는 경계 벡터일 수 있다.
이 경우 상기 가우시안 분포 산출부는, 복수의 경계 벡터와 상기 관절 벡터 간의 복수의 내적 값을 산출하고, 상기 복수의 내적 값 중 가장 큰 내적 값을 획득하고, 상기 가장 큰 내적 값을 가지는 상기 경계 상의 지점을 상기 기준 경계 지점으로 선정할 수 있다.
이 경우 상기 복수의 경계 벡터는, 경계 검출기에서 출력된 이미지 그래디언트 벡터와 직교하는 벡터일 수 있다.
이 경우 상기 이미지 그래디언트 벡터는, 상기 경계 상의 지점에서의 픽셀 값의 변화 강도를 나타내는 크기 정보 및 상기 경계 상의 지점에서의 픽셀 값의 변화 방향을 나타내는 방향 정보를 포함할 수 있다.
이와 같이 본 발명에 따르면, 입력 영상 내 관절의 특성에 따라 2D 가우시안 분포의 크기를 조절하여 최적의 히트맵을 생성한다. 즉 최적의 정답이 이 인공지능 모델에 제공되기 때문에, 인공지능 모델의 정확도가 향상되는 장점이 있다.
도 1은 종래 기술의 문제점을 설명하기 위한 도면이다.
도 2는 본 발명에 따른, 관절 예측을 위한 학습 데이터 생성 장치를 설명하기 위한 블록도이다.
도 3은 경계 검출부의 동작을 설명하기 위한 도면이다.
도 4는 본 발명에 따른, 관절 예측을 위한 학습 데이터 생성 방법을 설명하기 위한 도면이다.
도 5는 키포인트, 관절 방향 정보 및 키포인트와 경계 간의 거리를 설명하기 위한 도면이다.
도 6은 경계 정보 및 키포인트를 이용하여 가우시안 분포의 크기 정보를 획득하는 방법을 설명하기 위한 도면이다.
도 7은 복수의 키포인트에 각각 대응하는 복수의 히트맵을 도시한 도면이다.
도 8은 하나의 키포인트에 대하여 산출된 두개의 기준 경계 지점을 이용하여 가우시안 분포의 크기 정보를 획득하는 방법을 설명하기 위한 도면이다.
도 9는 가로 길이와 세로 길이가 상이한 히트맵을 생성하는 방법을 설명하기 위한 도면이다.
도 10은 가우시안 분포의 x축 크기 정보 및 y축 크기 정보를 이용하여 생성된 히트맵을 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명을 구현함에 있어서 설명의 편의를 위하여 구성요소를 세분화하여 설명할 수 있으나, 이들 구성요소가 하나의 장치 또는 모듈 내에 구현될 수도 있고, 혹은 하나의 구성요소가 다수의 장치 또는 모듈들에 나뉘어져서 구현될 수도 있다.
딥러닝 네트워크 등의 인공지능 모델은, 각 관절의 수만큼의 히트맵을 예측할 수 있다. 그리고 예측된 히트맵을 후처리 함으로써 키포인트(관절의 위치)가 산출될 수 있다.
한편 관절 예측을 수행하는 인공지능 모델을 트레이닝 하기 위하여 학습 데이터가 구성되어야 한다. 여기서 학습 데이터는 입력 영상 및 상기 입력 영상에 라벨링 되는 정답 영상을 포함할 수 있다. 여기서 정답 영상은 정답 히트맵을 포함할 수 있으며, 인공지능 모델은, 자신이 입력 영상에 기반하여 출력한 예측 히트맵 및 정답 히트맵 간의 차이에 기초하여 트레이닝 된다.
한편 정답 히트맵은, 정답 키포인트(관절 위치의 정답 값)의 위치에서 아래의 수학식과 같은 2D 가우시안 분포를 적용함으로써 생성될 수 있다.
(g: 가우시안 분포, x: x 좌표, y: y 좌표)
수학식 1을 참고하면, 가우시안 분포의 크기는 수학식 1의 에 기초하여 결정될 수 있다. 여기서 는 히트맵을 생성하기 위한 하이퍼 파라미터로써, 인공지능 모델의 트레이닝 전에 미리 결정될 수 있다. 또한 가 커짐에 따라 히트맵 역시 커지고, 가 작아짐에 따라 히트맵 역시 작아질 수 있다.
본 명세서에서 설명하는 가우시안 분포의 크기 정보는, 수학식 1의 하이퍼 파라미터인 를 포함할 수 있다. 이하에서는, 가우시안 분포의 크기 정보가 수학식 1의 인 것으로 설명한다.
한편 기존의 정답 히트맵 생성 방법에서는, 가우시안 분포의 크기 정보()를 고정시켜 각 관절에 대한 정답 히트맵을 생성하였다. 이 경우 실제 관절 영역에 맞지 않는 정답 히트맵이 생성되는 문제가 발생한다. 또한 정답 히트맵이 정확하지 않은 경우에는, 정답 히트맵을 사용하여 트레이닝 되는 인공지능 모델의 정확도 역시 떨어지게 된다. 따라서 본 발명에서는 입력 영상의 관절에 맞는 가우시안 분포의 크기를 설정하여 히트맵을 생성함으로써 최적의 학습 데이터를 생성하는 것을 목적으로 한다.
도 2는 본 발명에 따른, 관절 예측을 위한 학습 데이터 생성 장치를 설명하기 위한 블록도이다.
관절 예측을 위한 학습 데이터 생성 장치(이하, 학습 데이터 생성 장치 라 함)는, 영상 입력부(110), 경계 검출부(120), 가우시안 분포 산출부(130), 히트맵 생성부(140) 및 모델 학습부(150)를 포함할 수 있다.
영상 입력부(110)는 입력 영상을 획득할 수 있다. 여기서 입력 영상은 인공지능 모델(151)의 트레이닝에 사용되는 데이터로써, 인공지능 모델(151)에 입력 데이터로 제공될 수 있다.
경계 검출부(120)는 입력 영상으로부터 경계 정보를 추출할 수 있다. 구체적으로 경계 검출부(120)는 소벨, 프리윗, 로버츠 및 캐니 등의 이미 공지된 다양한 경계 검출 방법을 통하여, 입력 영상으로부터 경계 정보를 추출할 수 있다.
여기서 경계 정보는 오브젝트의 경계(더욱 구체적으로는, 오브젝트의 경계를 구성하는 각 포인트의 좌표 정보)를 포함할 수 있다. 또한 경계 정보는 경계를 구성하는 복수의 지점에 각각 대응하는 복수의 이미지 그래디언트 벡터(Image Gradient Vector)를 포함할 수 있다. 여기서 이미지 그래디언트 벡터(Image Gradient Vector)는 경계 상의 지점에서의 픽셀 값의 변화 강도와 변화 방향을 나타내는 벡터로써, 이와 관련해서는 추후에 자세히 설명하도록 한다.
또한 경계 검출부(120)는 입력 영상에 대한 컬러 포맷 변환, 해상도 변환, 블러링 필터 적용 등의 전처리를 수행할 수 있다.
가우시안 분포 산출부(130)는 경계 정보 및 추가 정보를 이용하여 가우시안 분포의 크기 정보()를 산출할 수 있다.
여기서 추가 정보란 어노테이션 정보(annotation)라고 명칭될 수도 있으며, 추가 정보는 입력 영상 내 관절의 위치를 나타내는 키포인트 정보를 포함할 수 있다. 또한 입력 영상 내에는 복수의 관절이 존재할 수 있으며, 이 경우 추가 정보는 입력 영상 내 복수의 관절의 위치를 나타내는 복수의 키포인트 정보를 포함할 수 있다.
이 경우 가우시안 분포 산출부(130)는 둘 이상의 키포인트(히트맵 생성 대상이 되는 키포인트 및 이와 인접한 키포인트) 및 히트맵 생성 대상이 되는 키포인트 주변의 경계 정보를 이용하여 가우시안 분포의 크기 정보()를 산출할 수 있다.
히트맵 생성부(140)는 가우시안 분포의 크기 정보()를 이용하여 히트맵을 생성할 수 있다. 구체적으로 히트맵 생성부(140)는 가우시안 분포의 크기 정보()를 앞서 설명한 수학식 1에 적용하여, 특정 키포인트에서 상기 크기 정보()를 가지는 가우시안 분포를 생성할 수 있다. 또한 히트맵 생성부(140)는 생성된 가우시안 분포를 적용하여 특정 키포인트에 대응하는 히트맵을 생성할 수 있다.
또한 히트맵 생성부(140)는 하나 이상의 키포인트에 각각 대응하는 하나의 이상의 히트맵을 생성하고, 하나 이상의 히트맵을 포함하는 정답 영상을 생성할 수 있다.
모델 학습부(150)는 인공지능 모델(151)를 포함할 수 있다. 인공지능 모델(151)은 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있으며, 인공지능 모델(151)을 구성하는 하나 이상의 명령어는 메모리에 저장될 수 있다.
한편 인공지능 모델(151)은 인공 신경망을 포함할 수 있다. 여기서 인공신경망은 생물학적 뉴런의 동작원리와 뉴런간의 연결 관계를 모델링한 것으로 노드(node) 또는 처리 요소(processing element)라고 하는 다수의 뉴런들이 레이어(layer) 구조의 형태로 연결된 정보처리 시스템이다. 그리고 인공 신경망은 일반적으로 다음의 세가지 인자, 즉 (1) 다른 레이어의 뉴런들 사이의 연결 패턴 (2) 연결의 가중치를 갱신하는 학습 과정 (3) 이전 레이어로부터 수신되는 입력에 대한 가중 합으로부터 출력값을 생성하는 활성화 함수에 의해 정의될 수 있다.
한편 인공지능 모델은 학습 데이터를 이용하여 트레이닝 될 수 있다. 여기서 트레이닝이란 입력 데이터를 분류(classification)하거나 회귀분석(regression)하거나 군집화(clustering)하는 등의 목적을 달성하기 위하여, 학습 데이터를 이용하여 인공 신경망의 파라미터(parameter)를 결정하는 과정을 의미할 수 있다. 인공 신경망의 파라미터의 대표적인 예시로써, 시냅스에 부여되는 가중치(weight)나 뉴런에 적용되는 편향(bias)을 들 수 있다.
한편 모델 학습부(150)는 입력 영상 및 정답 영상을 이용하여 인공지능 모델(151)을 트레이닝 할 수 있다. 인공지능 모델(151)를 트레이닝 하는 방법의 일 예로, 모델 학습부(150)는 지도 학습 알고리즘을 이용하여 인공지능 모델(151)을 트레이닝 할 수 있다.
한편 학습 데이터 생성 장치는, 본 명세서에서 설명하는 동작을 처리하기 위한 프로세서, 데이터를 저장하기 위한 메모리, 입력 영상을 획득하기 위한 입력부 또는 통신부, 프로세서의 처리 결과를 출력하기 위한 출력부를 포함할 수 있다.
도 3은 경계 검출부의 동작을 설명하기 위한 도면이다.
경계 검출부(120)는 입력 영상을 전처리 할 수 있다. 구체적으로 경계 검출부(120)는 입력 영상을 정답 영상의 크기로 변환할 수 있다. 예를 들어 입력 영상의 해상도가 192*256이고 정답 영상의 해상도가 48*64이 경우, 경계 검출부(120)는 192*256의 해상도를 가지는 입력 영상을 48x64 해상도를 가지는 영상으로 변환할 수 있다.
또한 경계 검출부(120)는 해상도가 변환된 영상의 컬러 포맷을 변환할 수 있다. 예를 들어, 경계 검출부(120)는 RGB 컬러 포맷을 GRAY 컬러 포맷으로 변환하는 것을 포함할 수 있다. 이는 경계 검출을 용이하게 하기 위한 것으로, 컬러 포맷 변환의 방식은 경계 검출 방법에 따라 달라질 수 있다.
또한 경계 검출부(120)는 입력 영상으로부터 경계 정보를 추출할 수 있다. 구체적으로 경계 검출부(120)는 소벨, 프리윗, 로버츠 및 캐니 등의 이미 공지된 다양한 경계 검출 방법을 통하여, 입력 영상으로부터 경계 정보를 추출할 수 있다.
한편 도 3b를 참고하면, 추가 정보는 입력 영상 내 관심 오브젝트(예를 들어 사람)과 다른 오브젝트를 분리하는 세그멘테이션 정보를 포함할 수 있다. 이 경우 경계 검출부(120)는 세그멘테이션 정보를 이용하여 관심 오브젝트(예를 들어 사람)을 추출하고(도 3c 참고), 관심 오브젝트로부터 경계 정보를 추출할 수 있다.
도 4는 본 발명에 따른, 관절 예측을 위한 학습 데이터 생성 방법을 설명하기 위한 도면이다.
관절 예측을 위한 학습 데이터 생성 방법(이하 학습 데이터 생성 방법이라 함)은, 입력 영상 내 복수의 관절의 위치를 나타내는 복수의 키포인트 정보를 이용하여, 제1 키포인트에 대응하는 제1 관절 방향 정보를 획득하는 단계(S410), 상기 입력 영상 내 경계 정보를 이용하여, 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하는 단계(S420), 상기 제1 관절 방향 정보 및 상기 복수의 경계 방향 정보의 유사도를 이용하여 제1 기준 경계 지점을 획득하는 단계(S430), 상기 제1 기준 경계 지점 및 상기 제1 키포인트 간의 거리에 기초하여 가우시안 분포의 크기 정보를 획득하는 단계(S440), 및, 상기 제1 키포인트에서 상기 크기 정보를 가지는 가우시안 분포를 적용하여 제1 히트맵을 생성하는 단계(S450)를 포함할 수 있다.
도 5는 키포인트, 관절 방향 정보 및 키포인트와 경계 간의 거리를 설명하기 위한 도면이다.
도 5에는 경계 정보에 포함되는 오브젝트의 경계(510)가 도시되어 있다. 즉, 도 5의 경계(510)는 사람의 무릎 주변의 경계를 경계 검출부(120)가 검출한 것이다.
다만 경계 검출부(120)의 동작은 완벽하지 않으며, 따라서 경계 정보에는 노이즈 경계(511)도 포함될 수 있다. 예를 들어 사람의 옷에는 줄무늬가 포함될 수도 있으며, 경계 검출부(120)는 옷의 줄무늬를 사람의 경계로 잘못 판단한 상태이다.
한편 복수의 키포인트(521, 522, 523)는 입력 영상 내 복수의 관절의 위치를 나타낼 수 있다. 예를 들어 제1 키포인트(521)는 사람의 무릎의 위치를 나타낼 수 있다.
본 발명에서 제1 키포인트(521)는 히트맵 생성의 대상이 되는 관절의 위치를 의미할 수 있다. 그리고 가우시안 분포 산출부(130)는 제1 키포인트(521)와 경계(510) 사이의 거리(ri)를 산출하고, 산출된 거리(ri)를 이용하여 가우시안 분포의 크기 정보()를 산출할 수 있다. 이는 다음과 같은 수학식으로 표현될 수 있다.
(: 제1 키포인트에 대응하는 가우시안 분포의 크기 정보, : 제1 키포인트와 경계 까지의 거리)
한편 앞서 설명한 바와 같이 경계 정보에는 노이즈 경계(511)도 포함될 수 있으며, 제1 키포인트(521)(무릎) 주변의 경계가 아닌 다른 경계도 포함될 수 있다. 따라서 가우시안 분포 산출부(130)는 제1 키포인트(521)(무릎) 주변의 관절 영역에서, 노이즈 경계가 아닌 오브젝트의 정확한 경계를 찾아야 한다.
이를 위해 가우시안 분포 산출부(130)는 관절 방향 정보를 산출할 수 있다.
구체적으로 입력 영상 내 복수의 관절의 위치를 나타내는 복수의 키포인트 정보는, 복수의 키포인트(521, 522, 523)의 좌표를 포함할 수 있다.
이 경우 가우시안 분포 산출부(130)는 입력 영상 내 복수의 관절의 위치를 나타내는 복수의 키포인트 정보를 이용하여, 제1 키포인트(521)에 대응하는 제1 관절 방향 정보(531)를 획득할 수 있다(S410).
구체적으로 가우시안 분포 산출부(130)는 제1 키포인트(521) 및 제1 키포인트(521)와 인접한 제2 키포인트(522)를 연결하여 관절 방향 정보(531)를 생성할 수 있다. 여기서 제1 키포인트(521)와 인접한 제2 키포인트(522)란, 제1 키포인트(521)에 대응하는 관절과 제2 키포인트(522)에 대응하는 관절이 서로 인접해 있으며, 그 사이에 키포인트가 생성된 다른 관절이 없는 것을 의미할 수 있다. 예를 들어 제1 키포인트는 무릎 관절을 나타내고, 제2 키포인트는 발목 관절을 나타내며, 무릎 관절과 발목 관절 사이의 종아리에는 관심 대상 관절이 존재하지 않아 키 포인트 역시 생성되지 않은 경우, 제1 키포인트와 제2 키포인트는 서로 인접한다.
한편 관절 방향 정보(531)는 제1 키포인트(531) 및 제1 키포인트와 인접한 제2 키포인트(532)를 연결하는 관절 벡터일 수 있다. 따라서 관절 방향 정보(531)는 제1 키포인트(531)로부터 제2 키포인트(532)로의 방향 정보 또는 제2 키포인트(532)로부터 제1 키포인트(531)로의 방향 정보를 포함할 수 있다.
도 6은 경계 정보 및 키포인트를 이용하여 가우시안 분포의 크기 정보를 획득하는 방법을 설명하기 위한 도면이다.
가우시안 분포 산출부(130)는 입력 영상 내 경계 정보를 이용하여, 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득할 수 있다(S420).
여기서 복수의 경계 방향 정보는, 경계 상의 각 지점의 경계 방향을 나타내는 벡터일 수 있다. 예를 들어 제1 경계 방향 정보는, 경계 상의 제1 지점(630)에서의 경계의 방향을 나타내는 경계 벡터(632)일 수 있다. 이하에서는 이러한 벡터를 경계 벡터라고 명칭한다.
한편 경계 검출부(120)에서 출력하는 경계 정보는 경계를 구성하는 복수의 지점에 각각 대응하는 복수의 이미지 그래디언트 벡터(Image Gradient Vector)를 포함할 수 있다.
여기서 이미지 그래디언트 벡터(Image Gradient Vector)는, 경계 상의 지점에서의 픽셀 값의 변화 강도를 나타내는 크기 정보 및 경계 상의 지점에서의 픽셀 값의 변화 방향을 나타내는 방향 정보를 포함할 수 있다. 예를 들어 경계가 샤프(sharp)할 수록 경계와 비 경계의 색상차가 뚜렷할수록, 이미지 그래디언트 벡터(Image Gradient Vector)의 크기는 커질 수 있다. 또한 이미지 그래디언트 벡터(Image Gradient Vector)는 픽셀 값이 급격히 변화하는 방향에 대한 정보를 포함할 수 있다.
한편 경계 검출부(120)는 입력 영상 내 모든 픽셀에 대하여 이미지 그래디언트 벡터(Image Gradient Vector)를 출력할 수 있지만 이에 한정되지 않으며, 벡터의 크기가 큰 일부 픽셀에 대하여 이미지 그래디언트 벡터(Image Gradient Vector)를 출력할 수도 있다.
이 경우 가우시안 분포 산출부(130)는 이미지 그래디언트 벡터(Image Gradient Vector)를 이용하여 복수의 경계 벡터를 획득할 수 있다. 이 경우 경계 벡터는, 이미지 그래디언트 벡터(Image Gradient Vector)의 직교 벡터일 수 있다. 예를 들어 경계 상의 제1 지점(630)에서의 경계의 방향을 나타내는 경계 벡터(632)는, 제1 지점(630)에서의 이미지 그래디언트 벡터(Image Gradient Vector)(631)와 직교할 수 있다. 또한 제1 지점(630)에서의 경계 벡터(632)의 크기는 제1 지점(630)에서의 이미지 그래디언트 벡터(Image Gradient Vector)(631)의 크기와 동일할 수 있다.
다음으로, 가우시안 분포 산출부(130)는 제1 관절 방향 정보(531) 및 복수의 경계 방향 정보의 유사도를 이용하여 제1 기준 경계 지점을 획득할 수 있다(S430).
구체적으로 가우시안 분포 산출부(130)는 복수의 경계 벡터와 관절 벡터 간의 복수의 내적 값을 산출할 수 있다. 예를 들어 가우시안 분포 산출부(130)는 제1 경계 벡터(632)와 관절 벡터(531) 간의 내적 값을 산출하고, 제2 경계 벡터와 관절 벡터(531) 간의 내적 값을 산출할 수 있다. 이는 아래의 수학식으로 표현될 수 있다.
(: 제1 키포인트(521)에 대응하는 관절 벡터(531), : 경계 벡터, : 내적 값, : 경계 상의 지점의 위치 인덱스)
여기서 내적 값()은 관절 방향 정보와 경계 방향 정보 간의 유사도를 나타낼 수 있다. 즉 관절 벡터의 방향과 경계 벡터의 방향이 유사할수록 내적 값()이 커진다. 따라서 관절 벡터와 경계 벡터의 내적 값()이, 제1 관절 방향 정보 및 경계 방향 정보의 유사도로 사용될 수 있다.
또한 경계 벡터의 크기가 클수록 픽셀 값의 변화 강도가 크기 때문에, 해당 지점은 오브젝트의 진짜 경계일 가능성이 높아진다. 그리고 경계 벡터의 크기가 클수록 내적 값()이 커지게 된다.
따라서 가우시안 분포 산출부(130)는, 복수의 경계 방향 정보 중 제1 관절 방향 정보와의 유사도()가 가장 큰 경계 방향 정보를 선정하고, 선정된 경계 방향 정보에 대응하는 지점을 기준 경계 지점으로 선정할 수 있다.
구체적으로 가우시안 분포 산출부(130)는, 복수의 경계 벡터와 관절 벡터(531) 간의 복수의 내적 값 중 가장 큰 내적 값을 획득하고, 가장 큰 내적 값을 가지는 경계 상의 지점을 기준 경계 지점으로 선정할 수 있다.
예를 들어 제1 경계 벡터(632)와 관절 벡터(531) 간의 내적 값이 가장 큰 경우, 가우시안 분포 산출부(130)는 제1 경계 벡터(632)에 대응하는 지점(630)을 제1 기준 경계 지점으로 선정할 수 있다. 이는 다음과 같은 수학식으로 표현될 수 있다.
(: 내적 값, : 기준 경계 지점의 x 좌표, : 기준 경계 지점의 y 좌표)
그리고 기준 경계 지점(p1)의 좌표는 으로 표현될 수 있다.
다음으로, 가우시안 분포 산출부(130)는 제1 기준 경계 지점 및 제1 키포인트 간의 거리에 기초하여 가우시안 분포의 크기 정보를 획득할 수 있다 (S440). 다만 S440의 설명에 앞서, 경계를 구성하는 지점들 중 일부 지점들을 필터링 한 후 기준 경계 지점을 선정하는 방법에 대하여 설명한다.
현재 관심이 있는 경계는 제1 키포인트(521) 주변의 경계, 즉 무릎 주변의 경계이며, 따라서 가우시안 분포 산출부(130)는 다른 경계 들을 필터링할 수 있다.
구체적으로 가우시안 분포 산출부(130)는 제1 키포인트(521)를 중심으로 하는 탐색 구역(610)을 설정할 수 있다. 구체적으로 가우시안 분포 산출부(130)는 M*M 크기의 탐색 구역을 설정할 수 있다. 예를 들어 M이 19인 경우, 탐색 구역은 제1 키포인트(521)를 중심으로 하는 19*19의 영역일 수 있다.
그리고 가우시안 분포 산출부(130)는 탐색 구역(610) 내의 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득할 수 있다. 또한 가우시안 분포 산출부(130)는 제1 관절 방향 정보 및 탐색 구역(610) 내의 복수의 경계 방향 정보의 유사도를 이용하여 제1 기준 경계 지점을 획득할 수 있다.
한편 앞서 설명한 바와 같이, 경계 정보에는 노이즈 경계(511)에 대한 이미지 그래디언트 벡터(Image Gradient Vector)도 포함될 수 있으며, 따라서 가우시안 분포 산출부(130)는 노이즈 경계를 필터링 할 수 있다.
구체적으로 가우시안 분포 산출부(130)는 소정의 폭(2*Wi)을 가지며 제1 관절 방향 정보(531)의 방향으로 연장되는 영역을 스킵 영역(620)으로 설정할 수 있다. 여기서 스킵 영역(620)의 폭(2*Wi)은 사용자가 임의로 설정할 수 있다.
그리고 나서 가우시안 분포 산출부(130)는 탐색 구역(610) 내의 경계 상의 복수의 지점 중 스킵 영역(620) 내의 지점들을 필터링할 수 있다. 이 경우 가우시안 분포 산출부(130)는 스킵 영역(620) 내의 지점들에 대하여 제1 관절 방향 정보와의 유사도()를 산출하지 않거나, 유사도()를 0으로 설정할 수 있다. 이에 따라 노이즈 경계(511) 상의 지점은 기준 경계 지점으로 선정되지 않는다.
이에 따라 스킵 영역(620)은 일정 크기 이상의 히트맵이 생성되는 것을 보장할 수 있다. 즉 스킵 영역(620)은, 해당 영역 내에서 기준 경계 지점을 선정하지 않겠다는 것을 의미하기 때문에, 히트맵의 최소 크기가 보장되게 된다.
한편, 가우시안 분포 산출부(130)는 일정 크기보다 작은 유사도를 가지는 지점 들을 제거하고, 나머지 지점들에 대하여 제1 관절 방향 정보(531)과 경계 방향 정보의 유사도를 산출할 수도 있다. 이는 다음과 같은 수학식으로 표현될 수 있다.
예를 들어 가 1인 경우, 상기 일정 크기는 모든 유사도의 평균 값일 수 있다. 이 경우 가우시안 분포 산출부(130)는 평균 값보다 작은 유사도를 0으로 설정할 수 있다. 이에 따라 경계 방향이 제1 관절 방향 정보(531)와 다르거나 픽셀 값의 변화 강도가 작은 지점들은 필터링 되어, 기준 경계 지점으로 선정되지 않게 된다.
다음으로, 가우시안 분포 산출부(130)는 제1 기준 경계 지점(631) 및 제1 키포인트(521) 간의 거리에 기초하여 가우시안 분포의 크기 정보를 획득할 수 있다 (S440).
구체적으로 기준 경계 지점(p1)의 좌표는 는, 제1 기준 경계 지점(631)을 중심으로 하는 탐색 구역(610) 상의 좌표이다. 따라서 제1 기준 경계 지점(631)의 좌표는 (0,0)으로 설정된다. 그리고 가우시안 분포 산출부(130)는 다음의 수식에 기초하여 제1 기준 경계 지점(631) 및 제1 키포인트(521) 간의 거리(d1)를 산출할 수 있다.
한편 제1 기준 경계 지점(631) 및 제1 키포인트(521) 간의 거리(d1)가 제1 키포인트(521)와 경계(510) 사이의 거리로 설정될 수 있다. 따라서 가우시안 분포 산출부(130)는 수학식 2를 다시 이용하여 가우시안 분포의 크기 정보()를 산출할 수 있다. 즉 제1 기준 경계 지점(631) 및 제1 키포인트(521) 간의 거리(d1)의 제곱근이 가우시안 분포의 크기 정보()가 될 수 있다.
이 경우 히트맵 생성부(140)는 제1 키포인트(521)에서, 가우시안 분포의 크기 정보()를 가지는 가우시안 분포를 적용하여 제1 히트맵을 생성할 수 있다(S450).
구체적으로 가우시안 분포 산출부(130)는 가우시안 분포의 크기 정보()를 수학식 1에 대입하여 가우시안 분포를 생성하고, 생성된 가우시안 분포를 적용하여 제1 키포인트(521)에 대응하는 제1 히트맵을 생성할 수 있다.
한편 S410 내지 S450의 과정을 반복하여, 가우시안 분포 산출부(130) 및 히트맵 생성부(140)는 다른 키포인트에 대응하는 히트맵을 생성할 수 있다. 예를 들어 가우시안 분포 산출부(130) 및 히트맵 생성부(140)는 복수의 키포인트 정보를 이용하여 제2 키포인트(522)에 대응하는 가우시안 분포의 크기 정보를 획득하고, 제2 키포인트(522)에 대응하는 제2 히트맵을 생성할 수 있다. 또 다른 예를 들어 가우시안 분포 산출부(130) 및 히트맵 생성부(140)는 복수의 키포인트 정보를 이용하여 제3 키포인트(523)에 대응하는 가우시안 분포의 크기 정보를 획득하고, 제3 키포인트(523)에 대응하는 제3 히트맵을 생성할 수 있다.
도 7은 복수의 키포인트(521, 522, 523)에 각각 대응하는 복수의 히트맵(721, 722, 723)을 도시한 도면이다.
도 7을 참고하면, 제2 히트맵(722)과 제1 히트맵(721)의 크기가 상이한 것을 알 수 있다. 즉, 제2 히트맵(722)에서의 가우시안 분포의 크기 정보가 제1 히트맵(721)에서의 가우시안 분포의 크기 정보와 상이하다는 것을 의미한다.
즉 제1 키포인트(521)에 대응하는 가우시안 분포의 크기 정보와 제2 키포인트(522)에 대응하는 가우시안 분포의 크기 정보는 서로 독립적으로 산출되었기 때문에, 두 히트맵의 크기 역시 상이하다는 것을 알 수 있다.
한편 히트맵 생성부(140)는 제1 히트맵(721)을 포함하는 정답 영상을 생성할 수 있다.
한편 모델 학습부(150)는 입력 영상을 인공지능 모델(151)에 제공할 수 있다.
그리고 인공지능 모델(151)이 상기 입력 영상에 기반하여 예측 히트맵을 출력하면, 모델 학습부(150)는 예측 히트맵 및 제1 히트맵 간의 차이를 이용하여 인공지능 모델(151)을 트레이닝할 수 있다.
구체적으로 입력 영상을 제공받은 인공지능 모델(151)은, 자신의 파라미터에 기반하여 예측 히트맵을 포함하는 예측 영상을 출력할 수 있다.
이 경우 모델 학습부(150)는 예측 영상 내 무릎의 위치를 예측한 예측 히트맵 및 정답 영상 내 무릎의 위치를 나타내는 제1 히트맵(721) 간의 차이(Loss)를 산출할 수 있다. 그리고 모델 학습부(150)는 예측 히트맵 및 제1 히트맵(721) 간의 차이(Loss)에 기초하여 인공지능 모델(151)의 파라미터를 업데이트 할 수 있다. 그리고 트레이닝의 반복에 의해, 인공지능 모델(151)의 파라미터가 최적화 될 수 있다.
한편 히트맵 생성부(140)는 복수의 관절의 위치를 나타내는 복수의 히트맵을 포함하는 정답 영상을 생성할 수 있다. 또한 인공지능 모델(151)은 입력 영상 내 복수의 관절의 위치를 예측한 복수의 예측 히트맵을 출력할 수 있다. 이 경우 모델 학습부(150)는 정답 영상 내 복수의 히트맵 및 복수의 예측 히트맵 간의 차이에 기초하여 인공지능 모델(151)을 트레이닝 할 수 있다.
이와 같이 본 발명에 따르면, 입력 영상 내 관절의 특성에 따라 2D 가우시안 분포의 크기를 조절하여 최적의 히트맵을 생성한다. 즉 최적의 정답이 인공지능 모델에 제공되기 때문에, 인공지능 모델의 정확도가 향상되는 장점이 있다. 예를 들어 무릎 관절을 나타내는 키포인트와 무릎 관절 주변의 경계 사이의 거리는, 팔꿈치 관절을 나타내는 키포인트와 팔꿈치 관절 주변의 경계 사이의 거리보다 훨씬 크다. 이러한 경우 본 발명에서는 무릎 관절에 대해서는 큰 크기의 히트맵을, 팔꿈치 관절에 대해서는 작은 크기의 히트맵을 생성하여 정답으로 제공하기 때문에, 인공지능 모델의 추론 성능을 현격히 향상시킬 수 있는 장점이 있다.
도 8은 하나의 키포인트에 대하여 산출된 두개의 기준 경계 지점을 이용하여 가우시안 분포의 크기 정보를 획득하는 방법을 설명하기 위한 도면이다.
도 6을 함께 참고하여 설명한다. 또한 도 6에서 설명한 동작에 의해, 이미 제1 기준 경계 지점(630)이 선정되었고, 제1 기준 경계 지점(630)과 제1 키포인트(521) 간의 거리에 기초하여 가우시안 분포의 제1 크기 정보가 이미 산출되었다고 가정한다.
가우시안 분포 산출부(130)는 제1 키포인트(521) 및 제1 키포인트와 인접한 제3 키포인트(523)를 연결하는 관절 벡터인 제2 관절 방향 정보(532)를 획득할 수 있다.
또한 가우시안 분포 산출부(130)는 제2 관절 방향 정보(532)를 이용하여 제2 기준 경계 지점(830)을 획득할 수 있다.
구체적으로 가우시안 분포 산출부(130)는 입력 영상 내 경계 정보를 이용하여, 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득할 수 있다. 또한 제2 관절 방향 정보(532) 및 복수의 경계 방향 정보의 유사도를 이용하여 제2 기준 경계 지점(830)을 획득할 수 있다. 이 경우에도 제1 키포인트(521)를 중심으로 하는 탐색 구역이 설정될 수 있으며, 소정의 폭을 가지며 제2 관절 방향 정보(532)의 방향으로 연장되는 스킵 영역이 설정될 수 있다.
한편 도 6에서는 제1 키포인트(521) 및 제1 기준 경계 지점(630) 간의 제1 거리가 산출된 상태이다. 그리고 가우시안 분포 산출부(130)는 제1 키포인트(521) 및 상기 제2 기준 경계 지점(830) 간의 제2 거리를 산출할 수 있다.
현재 제1 키포인트(521)에 대응하는 기준 경계 지점이 두 개 존재하며, 따라서 두 개의 거리가 존재하는 상태이다.
그리고 가우시안 분포 산출부(130)는 제1 거리 및 제2 거리 중 더 작은 거리를 이용하여 가우시안 분포의 크기 정보를 획득할 수 있다. 이는 다음과 같은 수학식으로 표현될 수 있다.
(ri: 제1 키포인트와 경계 사이의 거리, d1: 제1 거리, d2: 제2 거리)
한편 더 작은 거리가 제1 거리인 경우, 가우시안 분포 산출부(130)는 제1 거리를 이용하여 가우시안 분포의 크기 정보를 산출할 수 있다. 즉 가우시안 분포 산출부(130)는 제1 거리의 제곱근을 가우시안 분포의 크기 정보()로써 산출할 수 있다.
이와 같이 본 발명에 따르면, 키포인트부터 두 기준 경계 지점까지의 거리들 중 더 작은 거리를 선택하여 가우시안 분포의 크기 정보를 산출함으로써, 인공지능 모델의 정확도를 향상시킬 수 있는 장점이 있다. 즉 더 작은 거리를 이용하여 히트맵을 생성하는 경우, 정답 데이터가 인공지능 모델에 컴팩트하게 제공되며 히트맵이 경계 밖으로 벗어날 가능성이 낮아지기 때문에, 인공지능 모델의 추론 능력이 향상되게 된다.
한편 제1 키포인트(521)에 대응하는 관절 방향 정보가 하나만 존재하는 경우가 발생할 수 있다. 예를 들어 제1 키포인트(521)가 발목 관절을 나타내는 경우, 무릎 방향의 관절 방향 정보 만이 존재할 수 있다. 이와 같은 경우에는 도 6에서 설명한 바와 같이, 하나의 기준 경계 지점을 이용하여 가우시안 분포의 크기 정보가 산출될 수 있다.
도 9는 가로 길이와 세로 길이가 상이한 히트맵을 생성하는 방법을 설명하기 위한 도면이다.
도 6에서는 S420 내지 S450을 설명한 바 있다. 그리고 도 9의 실시 예에서는, 두 개의 탐색 구역을 사용하여 S420 내지 S450을 두 번 반복한다.
구체적으로 도 9a를 참고하면, 가우시안 분포 산출부(130)는 제1 키포인트(521)를 중심으로 가지고 세로 길이(N)보다 가로 길이(M)가 더 큰 제1 탐색 구역(910)을 설정할 수 있다. 그리고 가우시안 분포 산출부(130)는 제1 탐색 구역(910) 내의 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득할 수 있다.
그리고 제1 탐색 구역(910)은 가우시안 분포의 X축 크기 정보를 산출하기 위해 설정될 수 있다. 즉 가우시안 분포의 X축 크기 정보는 제1 키포인트(521)와 x축 경계 사이의 거리를 반영해야 하기 때문에, 제1 탐색 구역(910)은 x축 방향의 경계를 최대한 많이 탐색할 수 있도록 좌우로 길게 늘어질 수 있다.
또한 도 9b를 참고하면, 가우시안 분포 산출부(130)는 제1 키포인트(521)를 중심으로 가지고 가로 길이(N)보다 세로 길이(M)가 더 큰 제2 탐색 구역(950)을 설정할 수 있다. 그리고 가우시안 분포 산출부(130)는 제2 탐색 구역(950) 내의 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득할 수 있다.
그리고 제2 탐색 구역(950)은 가우시안 분포의 y축 크기 정보를 산출하기 위해 설정될 수 있다. 즉 가우시안 분포의 y축 크기 정보는 제1 키포인트(521)와 y축 경계 사이의 거리를 반영해야 하기 때문에, 제2 탐색 구역(950)은 y축 방향의 경계를 최대한 많이 탐색할 수 있도록 상하로 길게 늘어질 수 있다.
한편 제1 탐색 구역(910)의 가로 길이는 제2 탐색 구역(950)의 세로 길이와 동일할 수 있다. 또한 제1 탐색 구역(910)의 세로 길이는 제2 탐색 구역(950)의 가로 길이와 동일할 수 있다.
한편 도 9a를 참고하면, 가우시안 분포 산출부(130)는 제1 관절 방향 정보(531) 및 제1 탐색 구역(910)에서 획득된 복수의 경계 방향 정보의 유사도에 기초하여 제1-1 기준 경계 지점(930)을 획득할 수 있다.
또한 도 9b를 참고하면, 가우시안 분포 산출부(130)는 제1 관절 방향 정보(531) 및 제2 탐색 구역(950)에서 획득된 복수의 경계 방향 정보의 유사도에 기초하여 제1-2 기준 경계 지점(970)을 획득할 수 있다.
한편 도 9a를 참고하면, 가우시안 분포 산출부(130)는 제1-1 기준 경계 지점(930) 및 제1 키포인트(521) 간의 거리에 기초하여 가우시안 분포의 크기 정보를 획득할 수 있다. 여기서 획득되는 가우시안 분포의 크기 정보는, 가우시안 분포의 X축 크기 정보일 수 있다.
또한 도 9b를 참고하면, 가우시안 분포 산출부(130)는 제1-2 기준 경계 지점(970) 및 제1 키포인트(521) 간의 거리에 기초하여 가우시안 분포의 크기 정보를 획득할 수 있다. 여기서 획득되는 가우시안 분포의 크기 정보는, 가우시안 분포의 Y축 크기 정보일 수 있다.
이 경우 히트맵 생성부(140)는 제1 키포인트에서, X축 크기 정보 및 Y축 크기 정보를 가지는 가우시안 분포를 적용하여 제1 히트맵을 생성할 수 있다. 이는 다음과 같은 수학식으로 나타낼 수 있다.
(g: 가우시안 분포, x: x 좌표, y: y 좌표, : X축 크기 정보, : y축 크기 정보)
도 10은 가우시안 분포의 x축 크기 정보 및 y축 크기 정보를 이용하여 생성된 히트맵을 도시한 도면이다.
제1 키포인트(521)에 대응하는 제1 히트맵(1021)을 참고하면, 제1 키포인트(521)의 x축 반경()은 제1 키포인트(521)의 y축 반경()보다 작다는 것을 알 수 있다. 이것은 도 9에서, 제1 키포인트(521)와 제1-1 기준 경계 지점(930) 간의 거리가, 제1 키포인트(521)와 제1-2 기준 경계 지점(970) 간의 거리보다 작은 것에서 기인한 것이다.
이와 같이 본 발명에 따르면, x축 크기 정보 및 y축 크기 정보를 이용함으로써, 키포인트와 상하좌우 경계 간의 거리를 최대한 반영한 히트맵을 생성하며, 이에 따라 인공지능 모델의 추론 성능을 현격히 향상시킬 수 있는 장점이 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 서버의 프로세서(180)를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (20)

  1. 입력 영상 내 복수의 관절의 위치를 나타내는 복수의 키포인트 정보를 이용하여, 제1 키포인트에 대응하는 제1 관절 방향 정보를 획득하는 단계;
    상기 입력 영상 내 경계 정보를 이용하여, 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하는 단계;
    상기 제1 관절 방향 정보 및 상기 복수의 경계 방향 정보의 유사도를 이용하여 제1 기준 경계 지점을 획득하는 단계;
    상기 제1 기준 경계 지점 및 상기 제1 키포인트 간의 거리에 기초하여 가우시안 분포의 크기 정보를 획득하는 단계; 및
    상기 제1 키포인트에서 상기 크기 정보를 가지는 가우시안 분포를 적용하여 제1 히트맵을 생성하는 단계;를 포함하는
    관절 예측을 위한 학습 데이터 생성 방법.
  2. 제 1항에 있어서,
    인공지능 모델이 상기 입력 영상에 기반하여 예측 히트맵을 출력하면, 상기 예측 히트맵 및 상기 제1 히트맵 간의 차이를 이용하여 상기 인공지능 모델을 트레이닝 하는 단계;를 더 포함하는
    관절 예측을 위한 학습 데이터 생성 방법.
  3. 제 1항에 있어서,
    상기 제1 관절 방향 정보는,
    상기 제1 키포인트 및 상기 제1 키포인트와 인접한 제2 키포인트를 연결하는 관절 벡터인
    관절 예측을 위한 학습 데이터 생성 방법.
  4. 제 3항에 있어서,
    상기 복수의 경계 방향 정보는,
    상기 경계 상의 각 지점의 경계 방향을 나타내는 경계 벡터인
    관절 예측을 위한 학습 데이터 생성 방법.
  5. 제 4항에 있어서,
    상기 제1 기준 경계 지점을 획득하는 단계는,
    복수의 경계 벡터와 상기 관절 벡터 간의 복수의 내적 값을 산출하는 단계; 및
    상기 복수의 내적 값 중 가장 큰 내적 값을 획득하고, 상기 가장 큰 내적 값을 가지는 상기 경계 상의 지점을 상기 기준 경계 지점으로 선정하는 단계;를 포함하는
    관절 예측을 위한 학습 데이터 생성 방법.
  6. 제 5항에 있어서,
    상기 복수의 경계 벡터는,
    경계 검출기에서 출력된 이미지 그래디언트 벡터와 직교하는 벡터인
    관절 예측을 위한 학습 데이터 생성 방법.
  7. 제 6항에 있어서,
    상기 이미지 그래디언트 벡터는,
    상기 경계 상의 지점에서의 픽셀 값의 변화 강도를 나타내는 크기 정보 및 상기 경계 상의 지점에서의 픽셀 값의 변화 방향을 나타내는 방향 정보를 포함하는
    관절 예측을 위한 학습 데이터 생성 방법.
  8. 제 1항에 있어서,
    상기 복수의 경계 방향 정보를 획득하는 단계는,
    상기 제1 키포인트를 중심으로 하는 탐색 구역을 설정하는 단계; 및
    상기 탐색 구역 내의 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하는 단계;를 포함하는
    관절 예측을 위한 학습 데이터 생성 방법.
  9. 제 8항에 있어서,
    상기 복수의 경계 방향 정보를 획득하는 단계는,
    소정의 폭을 가지며 상기 제1 관절 방향 정보의 방향으로 연장되는 영역을 스킵 영역으로 설정하는 단계; 및
    상기 탐색 구역 내의 경계 상의 복수의 지점 중 상기 스킵 영역 내의 지점들을 필터링 하는 단계;를 포함하는
    관절 예측을 위한 학습 데이터 생성 방법.
  10. 제 3항에 있어서,
    상기 제1 키포인트 및 상기 제1 키포인트와 인접한 제3 키포인트를 연결하는 관절 벡터인 제2 관절 방향 정보를 획득하는 단계; 및
    상기 제2 관절 방향 정보를 이용하여 제2 기준 경계 지점을 획득하는 단계;를 더 포함하는
    관절 예측을 위한 학습 데이터 생성 방법.
  11. 제 10항에 있어서,
    상기 가우시안 분포의 크기 정보를 획득하는 단계는,
    상기 제1 키포인트 및 상기 제1 기준 경계 지점 간의 제1 거리를 산출하는 단계;
    상기 제1 키포인트 및 상기 제2 기준 경계 지점 간의 제2 거리를 산출하는 단계; 및
    상기 제1 거리 및 상기 제2 거리 중 더 작은 거리를 이용하여 상기 가우시안 분포의 크기 정보를 획득하는 단계;를 포함하는
    관절 예측을 위한 학습 데이터 생성 방법.
  12. 제 1항에 있어서,
    상기 복수의 키 포인트 정보를 이용하여 제2 키포인트에 대응하는 가우시안 분포의 크기 정보를 획득하고, 상기 제2 키포인트에 대응하는 제2 히트맵을 생성하는 단계;를 더 포함하고,
    상기 제2 히트맵에서의 가우시안 분포의 크기 정보는, 상기 제1 히트맵에서의 가우시안 분포의 크기 정보와 상이한
    관절 예측을 위한 학습 데이터 생성 방법.
  13. 제 1항에 있어서,
    상기 복수의 경계 방향 정보를 획득하는 단계는,
    상기 제1 키포인트를 중심으로 가지고, 세로 길이보다 가로 길이가 더 큰 제1 탐색 구역을 설정하는 단계;
    상기 제1 탐색 구역 내의 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하는 단계;
    상기 제1 키포인트를 중심으로 가지고, 가로 길이보다 세로 길이가 더 큰 제2 탐색 구역을 설정하는 단계;
    상기 제2 탐색 구역 내의 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하는 단계;를 포함하고,
    상기 제1 기준 경계 지점을 획득하는 단계는,
    상기 제1 관절 방향 정보 및 상기 제1 탐색 구역에서 획득된 복수의 경계 방향 정보의 유사도에 기초하여 제1-1 기준 경계 지점을 획득하는 단계; 및
    상기 제1 관절 방향 정보 및 상기 제2 탐색 구역에서 획득된 복수의 경계 방향 정보의 유사도에 기초하여 제1-2 기준 경계 지점을 획득하는 단계;를 포함하고,
    상기 가우시안 분포의 크기 정보를 획득하는 단계는,
    상기 제1-1 기준 경계 지점 및 상기 제1 키포인트 간의 거리에 기초하여 가우시안 분포의 X축 크기 정보를 획득하는 단계; 및
    상기 제1-2 기준 경계 지점 및 상기 제1 키포인트 간의 거리에 기초하여 가우시안 분포의 Y축 크기 정보를 획득하는 단계;를 포함하고,
    상기 제1 히트맵을 생성하는 단계는,
    상기 제1 키포인트에서 상기 X축 크기 정보 및 상기 Y축 크기 정보를 가지는 가우시안 분포를 적용하여 제1 히트맵을 생성하는 단계;를 포함하는
    관절 예측을 위한 학습 데이터 생성 방법.
  14. 입력 영상 내 경계 정보를 추출하는 경계 검출부;
    상기 입력 영상 내 복수의 관절의 위치를 나타내는 복수의 키포인트 정보를 이용하여 제1 키포인트에 대응하는 제1 관절 방향 정보를 획득하고, 상기 입력 영상 내 경계 정보를 이용하여 경계 상의 복수의 지점에 각각 대응하는 복수의 경계 방향 정보를 획득하고, 상기 제1 관절 방향 정보 및 상기 복수의 경계 방향 정보의 유사도를 이용하여 제1 기준 경계 지점을 획득하고, 상기 제1 기준 경계 지점 및 상기 제1 키포인트 간의 거리에 기초하여 가우시안 분포의 크기 정보를 획득하는 가우시안 분포 산출부; 및
    상기 제1 키포인트에서 상기 크기 정보를 가지는 가우시안 분포를 적용하여 제1 히트맵을 생성하는 히트맵 생성부;를 포함하는
    관절 예측을 위한 학습 데이터 생성 장치.
  15. 제 14항에 있어서,
    인공지능 모델이 상기 입력 영상에 기반하여 예측 히트맵을 출력하면, 상기 예측 히트맵 및 상기 제1 히트맵 간의 차이를 이용하여 상기 인공지능 모델을 트레이닝 하는 모델 학습부;를 더 포함하는
    관절 예측을 위한 학습 데이터 생성 장치.
  16. 제 14항에 있어서,
    상기 제1 관절 방향 정보는,
    상기 제1 키포인트 및 상기 제1 키포인트와 인접한 제2 키포인트를 연결하는 관절 벡터인
    관절 예측을 위한 학습 데이터 생성 장치.
  17. 제 16항에 있어서,
    상기 복수의 경계 방향 정보는,
    상기 경계 상의 각 지점의 경계 방향을 나타내는 경계 벡터인
    관절 예측을 위한 학습 데이터 생성 장치.
  18. 제 17항에 있어서,
    상기 가우시안 분포 산출부는,
    복수의 경계 벡터와 상기 관절 벡터 간의 복수의 내적 값을 산출하고,
    상기 복수의 내적 값 중 가장 큰 내적 값을 획득하고, 상기 가장 큰 내적 값을 가지는 상기 경계 상의 지점을 상기 기준 경계 지점으로 선정하는
    관절 예측을 위한 학습 데이터 생성 장치.
  19. 제 18항에 있어서,
    상기 복수의 경계 벡터는,
    경계 검출기에서 출력된 이미지 그래디언트 벡터와 직교하는 벡터인
    관절 예측을 위한 학습 데이터 생성 장치.
  20. 제 19항에 있어서,
    상기 이미지 그래디언트 벡터는,
    상기 경계 상의 지점에서의 픽셀 값의 변화 강도를 나타내는 크기 정보 및 상기 경계 상의 지점에서의 픽셀 값의 변화 방향을 나타내는 방향 정보를 포함하는
    관절 예측을 위한 학습 데이터 생성 장치.
KR1020220006685A 2022-01-17 2022-01-17 관절 예측을 위한 학습 데이터 생성 방법 및 장치 KR20230111010A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220006685A KR20230111010A (ko) 2022-01-17 2022-01-17 관절 예측을 위한 학습 데이터 생성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220006685A KR20230111010A (ko) 2022-01-17 2022-01-17 관절 예측을 위한 학습 데이터 생성 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20230111010A true KR20230111010A (ko) 2023-07-25

Family

ID=87428765

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220006685A KR20230111010A (ko) 2022-01-17 2022-01-17 관절 예측을 위한 학습 데이터 생성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20230111010A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115595A (zh) * 2023-10-23 2023-11-24 腾讯科技(深圳)有限公司 姿态估计模型的训练方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115595A (zh) * 2023-10-23 2023-11-24 腾讯科技(深圳)有限公司 姿态估计模型的训练方法、装置、电子设备及存储介质
CN117115595B (zh) * 2023-10-23 2024-02-02 腾讯科技(深圳)有限公司 姿态估计模型的训练方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Liu et al. Overview and methods of correlation filter algorithms in object tracking
WO2023138300A1 (zh) 目标检测方法及应用其的移动目标跟踪方法
CN109426782B (zh) 对象检测方法和用于对象检测的神经网络系统
JP6455113B2 (ja) 物体追跡方法と装置
JP2019036009A (ja) 制御プログラム、制御方法、及び情報処理装置
CN113963445B (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
JP2019036008A (ja) 制御プログラム、制御方法、及び情報処理装置
JP2017062781A (ja) 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
JP5227629B2 (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
CN110069129B (zh) 确定系统和确定方法
JP6892606B2 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN112329645B (zh) 图像检测方法、装置、电子设备及存储介质
Zhang et al. Image object detection and semantic segmentation based on convolutional neural network
JP7086878B2 (ja) 学習装置、学習方法、プログラムおよび認識装置
JP2021093117A (ja) 連帯的な検出と記述システムおよび方法
JPWO2017154655A1 (ja) 群衆種類識別システム、群衆種類識別方法および群衆種類識別プログラム
Zahid et al. Pedestrian identification using motion-controlled deep neural network in real-time visual surveillance
Alsanad et al. Real-time fuel truck detection algorithm based on deep convolutional neural network
JP7225731B2 (ja) 多変数データシーケンスの画像化
KR20230111010A (ko) 관절 예측을 위한 학습 데이터 생성 방법 및 장치
JP7459949B2 (ja) 学習装置、学習方法、追跡装置及びプログラム
JP6713422B2 (ja) 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム
Wozniak et al. Deep embeddings-based place recognition robust to motion blur
US20130100252A1 (en) Object region extraction system, method and program
CN115527083A (zh) 图像标注方法、装置和电子设备