KR102194282B1

KR102194282B1 - 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치

Info

Publication number: KR102194282B1
Application number: KR1020190058052A
Authority: KR
Inventors: 위동윤; 강명구; 오광진; 박진영; 배순민
Original assignee: 네이버 주식회사
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2020-12-23
Also published as: WO2020235804A1; JP2022532772A; JP7373589B2; KR20200132469A

Abstract

본 출원은 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치에 관한 것으로서, 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법은, 수집한 복수의 샘플 영상들을 동기화시키는 단계; 상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 단계; 상기 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 단계; 및 상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 단계를 포함할 수 있다.

Description

포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치 {Method for generating pose similarity measurement model and apparatus for the same}

본 출원은, 서로 다른 영상 내에 포함된 사용자의 포즈(pose)에 대한 유사도를 연산할 수 있는 포즈 유사도 판별 모델의 생성방법 및 생성장치에 관한 것이다.

얼굴이나 손 등 신체의 일부를 검출하기 위하여 특징 또는 탬플릿이나 색상 등의 신호 성분을 이용하여 타겟 부위를 검출하는 기술이 영상 인식 분야에서 다양하게 개발되어 사용되고 있다. 예를 들면 SIFT(Scale Invariant Feature Transform) 기반의 특징을 이용한 검출기나 아다부스트 등의 분류기를 이용하여 얼굴을 검출하거나 마스크 탬플릿 등을 이용하여 얼굴을 검출하는 등, 여러 신체의 타겟 부위를 검출하는 기술들이 개발되어 사용되고 있다.

한편, 최근 딥러닝 모델(Deep Learning Model)은 컴퓨터 비젼(Vision)의 여러 분야에서 눈부신 성능 향상을 보이며, 연구 패러다임을 바꾸고 있다. 기존의 컴퓨터 비젼 연구가 SIFT, HOG(Histogram of Oriented Gradient)와 같이 사람의 지식에 기반을 두어 유용한 특징을 설계하는데 집중했다면, 딥러닝은 다층 인공 신경망을 이용해 유용한 특징들을 데이터로부터 직접 학습하는 방식을 취한다.

이러한 학습 기반의 방법은 사람이 미처 알지 못하는 유용한 특징들을 데이터를 통해 직접 찾아낼 수 있기 때문에 성능 향상에 보다 큰 특징을 가진다. 이에, 영상 내에서 사용자의 포즈 등을 인식하기 위하여, 딥러닝 등 기계 학습을 활용하는 방안 등이 제시되고 있다.

본 출원은, 사용자의 체형이나 카메라의 각도의 변화에 강인한 포즈 유사도 판별 모델을 생성할 수 있는, 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치를 제공하고자 한다.

본 출원은, 적은 수의 샘플 영상을 이용하여 효율적으로 학습데이터세트를 형성할 수 있는 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치를 제공하고자 한다.

본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법은, 수집한 복수의 샘플 영상들을 동기화시키는 단계; 상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 단계; 상기 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 단계; 및 상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성장치는, 수집한 복수의 샘플 영상들을 전처리하여, 상기 샘플영상들을 동기화시키는 전처리부; 상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 포즈 이미지 생성부; 상기 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 학습 데이터세트 생성부; 및 상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 모델 트레이닝부를 포함할 수 있다.

본 발명의 일 실시예에 의한 포즈 유사도 판별방법은, 사용자의 동작을 촬영한 대상영상을 수신하면, 상기 대상영상을 전처리하여 기준영상과 동기화시키는 단계; 상기 대상영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 사용자의 포즈에 대응하는 사용자 포즈 이미지를 생성하는 단계; 및 상기 사용자 포즈 이미지를 포즈 유사도 판별 모델에 적용하여, 상기 사용자 포즈 이미지와 기준 영상에 대응하는 기준 포즈 이미지를 비교하고, 각각의 사용자 포즈 이미지와 기준 포즈 이미지들 사이의 유사도를 연산하는 단계를 포함할 수 있다.

덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치에 의하면, 샘플 영상의 프레임 이미지 대신에 포즈 이미지를 생성하여 활용하므로, 사용자의 체형이나 카메라의 각도의 변화에 강인한 포즈 유사도 판별 모델을 생성하는 것이 가능하다.

본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치에 의하면, 적은 수의 샘플 영상을 이용하여 효율적으로 학습데이터세트를 형성하는 것이 가능하다.

다만, 본 발명의 실시예들에 따른 포즈 유사도 판별 모델 생성방법 및 포즈 유사도 판별 모델 생성장치가 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도1은 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성장치를 나타내는 블록도이다.
도2는 본 발명의 일 실시예에 의한 포즈 이미지 생성을 나타내는 개략도이다.
도3 및 도4는 본 발명의 일 실시예에 의한 학습 데이터세트 생성을 나타내는 개략도이다.
도5는 본 발명의 일 실시예에 의한 메트릭 러닝을 나타내는 개략도이다.
도6 및 도7은 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법을 나타내는 순서도이다.
도8은 본 발명의 일 실시예에 의한 포즈 유사도 판별 장치를 나타내는 개략도이다.
도9는 본 발명의 일 실시예에 의한 포즈 유사도 판별 방법을 나타내는 순서도이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 즉, 본 발명에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.

또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

도1은 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성장치를 나타내는 블록도이다.

도1을 참조하면 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성장치는, 전처리부(110), 포즈 이미지 생성부(120), 학습 데이터세트 생성부(130) 및 모델 트레이닝부(140)를 포함할 수 있다.

이하 도1을 참조하여 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성장치를 설명한다.

전처리부(110)는 샘플 영상(video_1, video_2,..., video_n)들에 대한 전처리(preprocessing)를 수행할 수 있다. 복수의 샘플 영상들은 미리 수집되어 있을 수 있으며, 전처리부(110)는 샘플 영상들을 활용하기 위한 전처리를 수행할 수 있다. 전처리부(110)는 본 발명의 실시예에 따른 포즈 유사도 판별 모델 생성 장치의 성능을 높이기 위한 여러가지 방법들을 포함할 수 있다. 본 발명의 실시예에 따르면, 전처리부(110)는 샘플 영상들이 동일한 시점에 동일 또는 유사한 포즈들을 나타내도록 동기화 시키는 작업을 수행할 수 있다.

구체적으로, 전처리부(110)는 샘플영상들의 FPS(frame per second)를 조절하거나 기준 영상과의 오프셋 타임(offset time) 등을 계산하여 샘플영상들을 동기화시킬 수 있으며, 이때, 미리 설정된 기준 영상이나 기 설정된 규칙을 기준으로 각각의 샘플영상들에 대한 동기화를 수행할 수 있다.

예를들어, 각기 다른 사람들이 동일한 음악에 대하여 동일한 안무의 춤을 추는 복수개의 영상에 대하여, 해당 영상들은 동일한 음악 부분에서 동일한 포즈를 취하고 있다고 가정할 수 있다. 따라서, 해당 영상들의 음원을 분석하여 기준 영상과의 오프셋을 계산함으로써, 영상들 간의 동일한 시점에서 동일 포즈를 나타내도록 동기화를 시킬 수 있다. 구체적으로, 오디오의 파형을 분석하여 기준 영상과 대상 영상 간의 오디오 파형간의 차이가 가장 작은 오프셋을 동기화 오프셋으로 설정할 수 있다.

추가적으로, 사람들 간의 동작의 박자 차이에 따른 오차가 발생할 수도 있으므로, 설정 구간 내에서 영상들 사이의 동작 유사성을 비교하여 추가 보정 오프셋을 계산하는 것도 가능하다. 이 경우 동기화의 정확도를 보다 높일 수 있다.

또한, 영상 내에 하나 이상의 객체가 포함된 경우, 객체 검출 및 트래킹 알고리즘을 이용하여, 복수개의 객체로 분리한 후, 각각에 대한 동작 유사도를 계산하도록 할 수 있다.

여기서, 포즈 유사도 판별 모델은, 사용자가 취하는 포즈(pose)와 유사한 포즈를 찾거나, 사용자가 취한 포즈가 특정 포즈와 얼마나 유사한지를 연산하기 위한 것으로, 복수의 샘플영상들을 학습시키는 방식으로 생성할 수 있다. 따라서, 포즈 유사도 판별 모델을 이용하여 판별하고자 하는 사용자의 포즈의 종류에 따라, 상이한 샘플 영상을 선택할 수 있다.

실시예에 따라서는, 인물들이 특정한 춤을 추는 댄스 영상 등을 샘플영상으로 선택할 수 있으며, 이때 각각의 샘플영상들을 촬영한 카메라의 각도나 춤을 추는 인물들의 체형 등은 상이할 수 있다. 즉, 상이한 체형이나 카메라 각도로 촬영한 다양한 샘플영상들을 이용하므로, 체형이나 카메라 각도의 변화에 강인한 포즈 유사도 판별 모델을 생성하는 것이 가능하다.

또한, 샘플 영상은 댄스 영상 이외에도, 골프 스윙 자세 등 운동종목에서 사용되는 특정 자세를 촬영한 영상 등일 수 있으며, 인체의 포즈를 포함하는 것이면 어떠한 것도 샘플 영상으로 활용할 수 있다. 추가적으로, 인체의 포즈 이외에 동물이나 차량, 로봇 등의 동작이나 포즈를 샘플 영상으로 활용하는 것도 가능하다.

포즈 이미지 생성부(120)는, 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성할 수 있다. 샘플 영상은 복수의 프레임 이미지들을 포함할 수 있으며, 도2에 나타난 바와 같이, 각각의 프레임 이미지(f1, f2)에는 객체의 포즈(pose)들이 나타나 있을 수 있다.

여기서, 포즈 이미지 생성부(120)는 프레임 이미지로부터 객체의 포즈를 인식할 수 있으며, 인식한 객체의 포즈를 포즈 이미지로 나타낼 수 있다. 즉, 도2에 도시한 바와 같이, 프레임 이미지(f1, f2)에 나타난 객체의 포즈를, 관절 등의 특징점과, 각각의 특징점들 사이의 연결관계로 표시하여 포즈 이미지(pose1, pose2)를 생성할 수 있다.

포즈 이미지(pose1, pose2)는 객체의 포즈를 특징점과, 각 특징점들 사이의 연결관계로 단순화하여 표시하므로, 체형이 서로 다른 객체들이라도 특징점들의 위치와 연결관계 등을 이용하여 동일한 포즈에 해당하는지 여부를 용이하게 판별하는 것이 가능하다. 여기서, 프레임 이미지로부터 포즈 이미지로 변환하는 것은 공지의 포즈 추정 모델 등을 활용할 수 있다.

학습데이터세트 생성부(130)는, 포즈 이미지들 사이의 유사 또는 비유사를 각각 설정하여, 삼중쌍(triplet)의 학습 데이터세트(training dataset)를 생성할 수 있다.

일 예로, 앵커(anchor)로 설정한 임의의 포즈 이미지에 대하여, 앵커와 유사한 포즈 이미지는 유사 샘플(positive example), 비유사한 포즈 이미지는 비유사 샘플(negative example)로 각각 설정하여 학습 데이터세트를 생성할 수 있다. 여기서, 하나의 앵커에 대해 유사 샘플과 비유사 샘플이 각각 연계되므로, 학습데이터세트 생성부(130)는 삼중쌍의 형태로 학습 데이터세트를 구현할 수 있다. 또한, 삼중쌍 형태의 학습데이터세트의 경우, 각각의 앵커 이미지와 그에 대한 유사, 비유사가 설정되어 있으므로, 이후 기계학습시 지도 학습(supervised learning)을 수행하는 것이 가능하다.

한편, 학습데이터세트 생성부(130)는 실시예에 따라 다양한 방식으로 학습 데이터세트를 생성할 수 있다.

먼저, 제1 실시예에 의하면, 학습데이터세트 생성부(130)는 복수의 샘플 영상들의 시점을 이용하여 학습 데이터세트를 생성할 수 있다.

구체적으로, 도3에 도시한 바와 같이, 전처리된 복수의 샘플 영상(video_1, video_2_, ... , video_n)들이 존재할 수 있으며, 각각의 샘플 영상들은 동기화되어 있을 수 있다. 여기서, 샘플 영상들은 동일한 음악에 대해 각기 다른 사용자들이 추는 댄스 영상일 수 있으며, 각각의 샘플 영상들은 동기화 되어 있으므로, 동일한 시점에서는 샘플영상 내에 포함된 객체들은 동일 또는 유사한 포즈를 취하는 것으로 볼 수 있다. 즉, 각각의 샘플영상마다 객체들의 체형이나 카메라 각도 등은 상이하더라도, 모두 동일 또는 유사한 포즈에 해당하는 것으로 판별할 수 있다. 반면에, 동일한 샘플 영상 내 상이한 시점에서는 춤 동작이 상이하므로, 동일한 샘플 영상 내에서라도 상이한 시점(T+1, T+2, T+3)에서는 서로 상이한 포즈를 취하는 것으로 판별할 수 있다.

따라서, 도3에 도시한 바와 같이, 학습데이터세트 생성부(130)는 먼저 복수의 샘플 영상 중에서 video_1을 선택영상으로 설정할 수 있으며, 선택영상의 T 시점에 대응하는 포즈 이미지를 앵커(a)로 설정할 수 있다. 이후, 선택영상 이외의 다른 샘플 영상(video_2, video_3, ... , video_n)들의 동일 시점(t=T) 에 대응하는 포즈 이미지들을, 앵커(a)에 대한 유사 샘플(p1, p2, ... , pn)로 설정할 수 있다. 반면에, 선택 영상 중에서 T 시점 이외의 다른 시점(T+1, T+2, T+3)에 대응하는 포즈 이미지들은 앵커와 상이한 포즈들을 포함하는 것이므로, 각각의 포즈 이미지들을 앵커(a)에 대한 비유사 샘플(n1, n2, n3)로 설정할 수 있다. 이 경우, 앵커에 대한 유사 샘플은 샘플 영상의 개수인 n개 만큼 생성할 수 있으며, 비유사 샘플은 선택 영상 내에 포함된 프레임 이미지들의 개수만큼 생성할 수 있다. 추가적으로, 학습의 효율성을 위하여 비유사 샘플은 가급적 앵커(a)와 유사한 포즈가 선택되지 않도록 하는 것이 바람직하다. 이를 위하여 앵커(a)의 시점(T)으로부터 멀리 떨어진 포즈 이미지를 선택하거나, 배경 음악 등 부수적인 요소들을 추가로 고려하여 선택할 수 있다. 예를들어, 샘플 영상 내 배경 음악의 분위기나 템포가 다른 부분을 선택하도록 할 수 있다. 또한, 비유사 샘플(n1, n2, n3)들 사이에 다양성을 유지하기 위하여, 각각의 비유사 샘플들을 선택하는 시점들 사이의 시간간격을 일정 기간 이상 설정하는 것이 바람직하다.

이후, 학습데이터세트 생성부(130)는, 시점을 선택영상(video_1)의 시작시점부터 종료시점까지 순차적으로 또는 임의로 변경하여 앵커(a)를 설정할 수 있으며, 설정된 앵커(a)를 이용하여 선택 영상(video_1)에 포함된 전체 또는 일부 포즈 이미지에 대응하는 학습 데이터세트들을 생성할 수 있다.

또한, 하나의 선택영상에 대한 학습 데이터세트를 생성을 완료한 이후에는, 선택영상을 변경하고 변경된 선택영상에 동일한 방식을 적용하여 학습 데이터 세트들을 생성할 수 있다. 이때, 복수의 샘플 영상 전체를 순차적으로 선택영상으로 선택하여 학습 데이터세트를 생성하거나, 실시예에 따라서는, 설정개수만큼의 샘플 영상을 선택영상으로 선택하여 학습 데이터세트를 생성하도록 할 수 있다.

한편, 제2 실시예에서는, 학습데이터세트 생성부(130)가 객체의 포즈에 대한 3차원 포즈 좌표를 이용하여 학습 데이터세트를 생성할 수 있다. 구체적으로, 도4(a)에 도시한 바와 같이, 하나의 선택영상(video_1)의 각 프레임 이미지(f1, f2, f3, f4)에 대하여, 해당 프레임 이미지 내의 객체에 대한 3차원 포즈 좌표를 생성할 수 있다. 즉, 도4(b)에 도시한 바와 같이, 2차원의 포즈 이미지로부터 3차원 포즈를 생성할 수 있다. 이때 2차원에서 3차원 포즈 좌표로의 변환은 공지의 변환 모델 등을 이용하여 용이하게 수행가능하다.

이후, 도4(c)에 도시한 바와 같이, 선택영상(video_1)의 T 시점에 대응하는 3차원 포즈 좌표를 설정각도로 투영(projection)하여 2차원 이미지를 생성할 수 있으며, 이때 생성한 2차원 이미지를 앵커(a)로 설정할 수 있다. 또한, 도4(c)에 도시한 바와 같이, T 시점에 대응하는 3차원 포즈 좌표를 설정각도 이외의 복수의 각도로 투영하여 2차원 이미지들을 더 생성할 수 있으며, 이때 생성된 2차원 이미지들을 각각 유사 샘플(p1, p2, p3)로 설정할 수 있다. 즉, 동일한 3차원 포즈 좌표에 대하여 투영하는 각도만을 변경시키는 것이므로, 각각의 2차원 이미지들은 실질적으로 동일한 포즈를 나타내는 것에 해당한다. 따라서, 3차원 포즈 좌표를 서로 다른 복수의 각도로 투영한 2차원 이미지들을 유사 샘플(p1, p2, p3)로 설정할 수 있다.

반면에, T 시점 이외의 다른 시점(T+1, T+2, T+3)에 대응하는 프레임 이미지들의 경우, 앵커와는 상이한 포즈를 나타내는 것으로 판별할 수 있다. 따라서, 학습데이터세트 생성부(130)는 각각의 프레임 이미지에 대한 3차원 포즈좌표들을 설정각도로 투영하여 생성한 2차원 이미지들에 대하여는 비유사 샘플로 설정할 수 있다.

여기서, 학습데이터세트 생성부(130)는 시점을 선택영상의 시작시점부터 종료시점까지 변경하면서 학습 데이터세트를 생성할 수 있다. 또한, 하나의 선택영상에 대한 학습 데이터세트의 생성이 완료되면, 복수의 샘플 영상들을 순차적으로 선택영상으로 선택하여, 각각의 선택영상에 대응하는 학습 데이터들을 생성하도록 할 수 있다.

제3 실시예에 의하면, 학습데이터세트 생성부(130)는 복수의 샘플 영상들의 시점과, 3차원 포즈 좌표를 동시에 이용하여 학습데이터 세트를 생성할 수 있다.

구체적으로, 학습데이터세트 생성부(130)는 샘플 영상 중 어느 하나를 선택영상으로 설정하고, 선택영상의 특정 시점(T)에 대응하는 포즈 이미지를 앵커로 설정할 수 있다.

이후, 선택영상 이외의 다른 샘플 영상들의 T 시점에 대응하는 포즈 이미지들을, 먼저 앵커에 대한 유사 샘플로 설정할 수 있다. 또한, T 시점에 대응하는 포즈 이미지들에 대한 3차원 포즈 좌표를 생성할 수 있으며, 3차원 포즈 좌표들을 복수의 각도로 투영하는 방식으로, 유사 샘플들을 더 추가할 수 있다.

한편, 비유사 샘플의 경우, 선택 영상 중에서 T 시점 이외의 다른 시점에 대응하는 포즈 이미지들을 앵커에 대한 비유사 샘플로 설정할 수 있으며, 이후 각각의 포즈 이미지들의 3차원 포즈 좌표들을 생성한 후, 이를 복수의 각도로 투영하는 방식으로, 비유사 샘플들을 추가할 수 있다.

모델 트레이닝부(140)는, 학습 데이터세트로 기계학습(Machine learning)을 수행하여, 영상 간 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성할 수 있다. 구체적으로, 모델 트레이닝부(140)는 학습 데이터세트를 메트릭 러닝 모델(metric learning model)로 기계학습할 수 있으며, 학습 데이터세트에 포함된 각각의 포즈 이미지들의 유사도를 특징맵(feature map) 상의 거리를 이용하여 나타낼 수 있다.

이때, 모델 트레이닝부(140)는 삼중쌍 손실 함수(triplet loss function)을 활용할 수 있다. 구체적으로 삼중쌍 손실함수는

이고, 여기서 f(*)는 특징맵 함수, δ는 마진(margin), x^a _i는 앵커, x⁺ _i는 유사 샘플, x^- _i는 비유사 샘플에 해당한다.

삼중쌍 손실함수를 이용하여, 특징맵 상에서 유사 샘플과 앵커 사이의 거리는 가까워지고, 비유사 샘플과 앵커 사이의 거리는 멀어지도록 학습시킬 수 있다. 즉, 도5(a)에 도시한 바와 같이, 초기 특징맵(feature map) 상에 위치하는 앵커(a)와 유사 샘플(p), 비유사 샘플(n)들은, 이후 5(b)에 도시한 바와 같이, 유사 샘플(p)은 앵커(a)와 가깝게 이동하고 비유사 샘플(n)은 앵커로부터 멀어지도록 학습될 수 있다. 이를 통하여, 각각의 포즈 이미지들 사이의 거리를 통하여 이미지들의 유사도를 판별하는 것이 가능하다.

모델 트레이닝부(140)에서는 학습된 CNN(Convolutional Neural Network)을 이용하여 포즈 이미지를 입력받아 특징을 추출할 수 있으며, 각각의 포즈 이미지에 대응하는 앵커, 유사 샘플, 비유사 샘플을 특징맵 상에 위치시킬 수 있다.

도6 및 도7은 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법을 나타내는 순서도이다.

도6 및 도7을 참조하면, 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성 방법은, 전처리단계(S110), 포즈 이미지 생성단계(S120), 학습 데이터세트 생성단계(S130) 및 포즈 유사도 판별 모델 생성단계(S140)를 포함할 수 있다. 여기서, 각 단계는 포즈 유사도 판별 모델 생성장치에 의하여 수행될 수 있다.

이하, 도6 및 도7을 참조하여 본 발명의 일 실시예에 의한 포즈 유사도 판별 모델 생성방법을 설명한다.

포즈 유사도 판별 모델은 사용자가 취하는 포즈(pose)와 유사한 포즈를 찾거나, 사용자가 취하는 포즈가 특정 포즈와 얼마나 유사한지를 판별하기 위한 것으로, 샘플영상에는 특정 객체가 일정한 포즈를 취하는 장면들이 포함되어 있을 수 있다. 예를들어, 샘플영상은 인물들이 특정한 춤을 추는 댄스 영상이거나, 골프의 스윙 자세 등 운동종목에서 사용되는 특정 자세를 촬영한 영상 등일 수 있다.

전처리단계(S110)에서는, 수집한 복수의 샘플 영상들을 전처리할 수 있다. 전처리단계(S110)에서는 유사도 판별 모델 생성의 효율을 높이기 위한 여러가지 방법들을 수행할 수 있다. 본 발명의 실시예에 따르면, 전처리 단계(S110)에서 샘플 영상들이 동일한 시점에 동일 또는 유사한 포즈들을 나타내도록 동기화시키는 작업을 포함할 수 있다. 구체적으로, 기준 영상과 비교하여 샘플영상들의 FPS(frame per second)를 조절하거나, 기준 영상과의 오프셋 타임(offset time) 등을 계산하는 방식으로 샘플영상들을 동기화시킬 수 있다. 실시예에 따라서는 샘플영상에 공통으로 포함되는 음악이나 장면 등을 이용할 수 있다.

포즈 이미지 생성단계(S120)에서는, 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성할 수 있다. 여기서, 포즈 이미지는 프레임 이미지에 나타난 객체의 포즈를, 객체에 포함된 특징점과 특징점들 사이의 연결관계로 단순화하여 생성한 것일 수 있다. 예를 들면, 사람의 관절을 나타내는 부분들이 특징점이 될 수 있고, 포즈 이미지는 이러한 특징점 및 특징점 사이의 연결을 1로, 그 이외 부분을 0으로 나타낸 바이너리 이미지 형태가 될 수 있다. 또는, 특징점이나 그 연결부분이 어디인지를 확인하기 위하여 각 연결 부분에 따라 라벨링된 값을 사용하는 이미지일 수도 있다.

여기서, 프레임 이미지 그대로가 아니라 포즈만을 나타내는 포즈 이미지를 사용함으로써, 영상에서의 조명이나 노이즈 등의 왜곡으로부터 강인해질 수 있는 효과가 있으며, 이미지 형태의 데이터로 학습을 진행하기 때문에 체형이 서로 다른 객체나 각도 등에 대하여 강인한 학습이 가능하다.

한편, 프레임 이미지를 이용하여 포즈 이미지로 변환하는 것은 공지의 포즈 추정 모델 등을 활용할 수 있다.

학습데이터세트 생성단계(S130)에서는, 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성할 수 있다. 즉, 임의의 포즈 이미지를 앵커(anchor)로 설정한 후, 앵커와 유사한 포즈 이미지는 유사 샘플(positive example), 비유사한 포즈 이미지는 비유사 샘플(negative example)로 각각 설정하여 학습 데이터세트를 생성할 수 있다. 또한, 학습데이터세트는 각각의 포즈 이미지에 대해 앵커와의 유사, 비유사를 결정하여 유사 샘플과 비유사 샘플로 구분되어 있으므로, 학습 데이터세트를 이용하여 지도 학습(supervised learning)을 수행하는 것이 가능하다.

한편, 학습데이터세트은 실시예에 따라 다양한 방법으로 생성가능하다.

도7(a)를 참조하면, 복수의 샘플 영상 중 어느 하나를 선택영상으로 설정할 수 있으며, 선택영상의 T 시점에 대응하는 포즈 이미지를 앵커로 설정할 수 있다(S131a). 이후, 선택영상 이외의 다른 샘플 영상들의 T 시점에 대응하는 포즈 이미지들을, 앵커에 대한 유사 샘플로 설정할 수 있다(S132a). 반면에, 선택 영상 중에서 T 시점 이외의 다른 시점에 대응하는 포즈 이미지들은, 앵커와 상이한 포즈들을 포함하는 것이므로, 각각의 포즈 이미지들을 비유사 샘플로 설정할 수 있다(S133a).

이후, T 시점을 선택영상의 시작시점부터 종료시점까지 순차적으로 변경하여, 선택 영상에 포함된 전체 포즈 이미지에 대응하는 학습 데이터세트들을 생성하거나, 기 정해진 수만큼 임의로 선택한 시점에 대한 학습데이터세트들을 생성할 수 있다.

또한, 하나의 선택영상에 대한 학습 데이터세트를 생성을 완료한 이후에는, 선택영상을 변경하고 변경된 선택영상에 동일한 방식을 적용하여 학습 데이터 세트들을 생성할 수 있다. 이때, 복수의 샘플 영상 전체를 순차적으로 선택영상으로 선택하여 학습 데이터세트를 생성하거나, 실시예에 따라서는, 설정개수만큼의 샘플 영상을 선택영상으로 선택하여 학습 데이터세트를 생성하도록 할 수 있다. 또한, 선택영상 1개씩 학습 데이터세트를 생성하는 것이 아니라, 복수의 선택영상들로부터 병렬적으로 학습 데이터세트를 생성하는 것도 가능하다.

도7(b)를 참조하면, 복수의 샘플 영상 중 어느 하나를 선택영상으로 설정할 수 있으며, 선택영상의 포즈 이미지들에 대해 각각의 3차원 포즈 좌표를 생성할 수 있다(S131b). 즉, 2차원의 포즈 이미지로부터 3차원 포즈 좌표를 생성하는 것이 가능하며, 이때 3차원 포즈 좌표로의 변환은 공지의 변환 모델을 이용하여 용이하게 수행가능하다.

이후, 선택영상의 T 시점에 대응하는 3차원 포즈 좌표를 설정각도로 투영(projection)하여 2차원 이미지를 생성할 수 있으며, 이때 생성한 2차원 이미지를 앵커로 설정할 수 있다(S132b). 또한, T 시점에 대응하는 3차원 포즈 좌표를 설정각도 이외의 복수의 각도로 투영하여 2차원 이미지들을 더 생성할 수 있으며, 이때 생성된 2차원 이미지들을 각각 유사 샘플로 설정할 수 있다(S133b).

반면에, T 시점 이외의 다른 시점에 대응하는 3차원 포즈 좌표들의 경우, 각각 상이한 포즈를 나타내는 것으로 판별할 수 있다. 따라서, 각각의 3차원 포즈 좌표들을 설정각도로 투영하여 생성한 2차원 이미지들에 대하여는 비유사 샘플로 설정할 수 있다(S134b).

여기서, T 시점을 선택영상의 시작시점부터 종료시점까지 변경하면서 학습 데이터세트를 생성할 수 있다. 또한, 하나의 선택영상에 대한 학습 데이터세트의 생성이 완료되면, 복수의 샘플 영상들을 순차적으로 선택영상으로 선택하여, 각각의 선택영상에 대응하는 학습 데이터들을 생성하도록 할 수 있다.

도시하지는 않았으나, 복수의 샘플 영상들의 포즈 이미지 출력 시점과 3차원 포즈 좌표를 동시에 이용하여 학습데이터 세트를 생성하는 것도 가능하다.

이 경우, 먼저 샘플 영상 중 어느 하나를 선택영상으로 설정하고, 선택영상의 T 시점에 대응하는 포즈 이미지를 앵커로 설정할 수 있다.

이후, 선택영상 이외의 다른 샘플 영상들의 T 시점에 대응하는 포즈 이미지들을 앵커에 대한 유사 샘플로 설정할 수 있다. 또한, T 시점에 대응하는 포즈 이미지들에 대한 3차원 포즈 좌표를 생성하고, 3차원 포즈 좌표들을 복수의 각도로 투영하는 방식으로 유사 샘플들을 더 추가할 수 있다.

비유사 샘플의 경우, 선택 영상 중에서 T 시점 이외의 다른 시점에 대응하는 포즈 이미지들을 앵커에 대한 비유사 샘플로 설정할 수 있으며, 이후 각각의 포즈 이미지들의 3차원 포즈 좌표들을 생성하고, 이를 복수의 각도로 투영하는 방식으로 비유사 샘플들을 추가할 수 있다.

포즈 유사도 판별 모델 생성단계(S140)에서는, 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성할 수 있다. 즉, 학습 데이터세트를 메트릭 러닝 모델(metric learning model)로 기계학습할 수 있으며, 학습 데이터세트에 포함된 각각의 포즈 이미지들의 유사도를, 특징맵(feature map) 상의 거리를 이용하여 나타낼 수 있다.

이때, 삼중쌍 손실 함수(triplet loss function)을 활용하여 기계학습을 수행할 수 있다. 구체적으로 삼중쌍 손실함수는

이고, 여기서 f(*)는 특징맵 함수, δ는 마진(margin), x^a _i는 앵커, x⁺ _i는 유사 샘플, x^- _i는 비유사 샘플이다.

즉, 삼중쌍 손실함수를 이용하여, 특징맵 상에서 유사 샘플과 앵커 사이의 거리는 가까워지고, 비유사 샘플과 앵커 사이의 거리는 멀어지도록 학습시킬 수 있다. 이를 통하여, 각각의 포즈 이미지들 사이의 특징맵에서의 거리를 통하여 이미지들의 유사도를 판별할 수 있다.

도8은 본 발명의 일 실시예에 의한 포즈 유사도 판별 장치를 나타내는 블록도이다.

도8을 참조하면, 본 발명의 일 실시예에 의한 포즈 유사도 판별 장치(200)는, 전처리부(210), 포즈 이미지 생성부(220) 및 연산부(230)를 포함할 수 있다.

이하 도8을 참조하여 본 발명의 일 실시예에 의한 포즈 유사도 판별 장치를 설명한다.

전처리부(210)는 사용자(u)의 동작을 촬영한 대상영상을 수신할 수 있으며, 수신한 대상영상을 전처리하여 기준영상과 동기화시킬 수 있다. 실시예에 따라서는, 포즈 유사도 판별장치(200)에 카메라 등의 촬영장치(c)가 더 포함할 수 있으며, 촬영장치(c)를 이용하여 사용자(u)의 동작을 촬영한 대상 영상을 생성할 수 있다. 여기서, 대상영상은 사용자(u)의 골프 스윙 자세를 촬영한 영상일 수 있으나, 이에 한정되는 것은 아니며 실시예에 따라 사용자의 다양한 포즈를 포함할 수 있다.

한편, 대상영상이 댄스 영상인 경우에는, 전처리부(210)가 댄스 영상 내 포함된 음악의 시작시점을 기준으로 동기화할 수 있으며, 대상영상이 골프 스윙 자세인 경우에는 최초 준비자세 등을 기준으로 동기화시킬 수 있다. 다만 이에 한정되는 것은 아니고, 다양한 방식을 활용하여 대상영상과 기준영상을 동기화시킬 수 있다.

포즈 이미지 생성부(220)는 대상영상으로부터 각각의 프레임 이미지들을 추출하고, 프레임 이미지 내에 나타난 사용자의 포즈에 대응하는 사용자 포즈 이미지를 생성할 수 있다. 대상 영상은 복수의 프레임 이미지들을 포함할 수 있으며, 각각의 프레임 이미지에는 사용자(u)의 포즈(pose)가 나타나 있을 수 있다.

여기서, 포즈 이미지 생성부(220)는 프레임 이미지로부터 사용자(u)의 포즈를 인식하여 사용자 포즈 이미지를 생성할 수 있다. 즉, 프레임 이미지에 나타난 사용자의 포즈를, 관절 등의 특징점과, 각각의 특징점들 사이의 연결관계로 표시하는 사용자 포즈 이미지를 생성할 수 있다.

추가적으로, 실시예에 따라서는 대상영상의 프레임 이미지 내에 복수의 사용자가 존재하는 경우가 있을 수 있다. 이 경우, 포즈 이미지 생성부(220)는 각각의 사용자들을 구별할 수 있으며, 각각의 사용자들에 대응하는 사용자 포즈 이미지를 개별적으로 생성할 수 있다. 이후, 외부의 입력에 따라 복수의 사용자 중 어느 하나에 대한 포즈 유사도 판별 결과를 제공하는 것도 가능하다.

또한, 실시예에 따라서는 대상영상의 프레임 이미지 내에 포함된 사용자의 신체부위별로 구별하여 사용자 포즈 이미지를 생성하는 것도 가능하다. 예를들어, 사용자의 머리, 팔, 다리, 몸통 등을 각각 분리하여 각각에 대한 사용자 포즈 이미지를 생성할 수 있다.

연산부(230)는 사용자 포즈 이미지를 포즈 유사도 판별 모델에 적용하여, 유사도를 연산할 수 있다. 즉, 포즈 유사도 판별 모델을 이용하여 사용자 포즈 이미지와 기준 영상에 대응하는 기준 포즈 이미지를 비교할 수 있으며, 각각의 사용자 포즈 이미지와 기준 포즈 이미지들 사이의 유사도를 연산할 수 있다.

여기서, 기준 영상은 사용자가 비교하고자 선택한 것일 수 있다. 예를들어, 대상영상이 골프 스윙 자세를 촬영한 것이면, 사용자가 배우고자 하는 유명 골퍼의 골프 스윙 자세 등일 수 있다. 여기서, 사용자는 복수의 유명 골퍼들 중에서 자신이 원하는 골퍼의 골프 스윙 자세를 기준영상으로 선택할 수 있다. 이후, 자신의 골프 스윙 자세와 유명 골퍼의 골프 스윙 자세 사이의 유사도를 확인하는 방식으로 자신의 자세를 교정할 수 있다. 실시예에 따라서는, 각각의 프레임 이미지별로 유사도를 제공하거나, 사용자의 신체 부위별로 유사도를 제공하는 것도 가능하다. 여기서, 사용자의 신체 부위별 유사도를 제공하는 경우에는, 사용자 포즈 이미지 생성시 각각의 신체 부위별로 구별하여 별도의 포즈 이미지를 생성할 수 있다.

도9는 본 발명의 일 실시예에 의한 포즈 유사도 판별 방법을 나타내는 순서도이다.

도9를 참조하면, 본 발명의 일 실시예에 의한 포즈 유사도 판별 방법은, 전처리단계(S210), 포즈 이미지 생성단계(S220) 및 연산단계(S230)를 포함할 수 있다.

이하 도9를 참조하여 본 발명의 일 실시예에 의한 포즈 유사도 판별 방법을 설명한다.

전처리단계(S210)에서는 사용자의 동작을 촬영한 대상영상을 수신할 수 있으며, 수신한 대상영상을 기준영상과 동기화시킬 수 있다. 예를 들면, 대상영상은 사용자의 댄스나 골프 스윙 자세 등을 촬영한 영상일 수 있다.

포즈 이미지 생성단계(S220)에서는 대상영상으로부터 각각의 프레임 이미지들을 추출하고, 프레임 이미지 내에 나타난 사용자의 포즈에 대응하는 사용자 포즈 이미지를 생성할 수 있다. 대상 영상은 복수의 프레임 이미지들을 포함할 수 있으며, 각각의 프레임 이미지에는 사용자의 포즈가 나타나 있을 수 있다. 따라서, 프레임 이미지로부터 사용자의 포즈를 인식하여 사용자 포즈 이미지를 생성하는 것이 가능하다. 구체적으로, 프레임 이미지에 나타난 사용자의 포즈를, 관절 등의 특징점과, 각각의 특징점들 사이의 연결관계로 표시하여 사용자 포즈 이미지를 생성할 수 있다.

추가적으로, 실시예에 따라서는 대상영상의 프레임 이미지 내에 복수의 사용자가 존재하는 경우가 있을 수 있다. 이 경우, 각각의 사용자들을 구별하여 사용자별 사용자 포즈 이미지를 생성할 수 있다. 이후, 외부의 입력에 따라 복수의 사용자 중 어느 하나에 대한 포즈 유사도 판별 결과를 제공하도록 할 수 있다.

연산단계(S230)에서는 사용자 포즈 이미지를 포즈 유사도 판별 모델에 적용하여 유사도를 연산할 수 있다. 즉, 포즈 유사도 판별 모델을 이용하여 사용자 포즈 이미지와 기준 영상에 대응하는 기준 포즈 이미지를 비교할 수 있으며, 각각의 사용자 포즈 이미지와 기준 포즈 이미지들 사이의 유사도를 연산할 수 있다.

여기서, 기준 영상은 사용자가 자신의 대상영상과 비교하고자 선택한 것으로, 대상영상이 골프 스윙 자세를 촬영한 것인 경우, 기준영상은 사용자가 배우고자 하는 유명 골퍼의 골프 스윙 자세일 수 있다. 사용자는 유명 골퍼들 중에서 자신이 원하는 골퍼의 골프 스윙 자세를 기준영상으로 선택할 수 있으며, 자신의 골프 스윙 자세와 유명 골퍼의 골프 스윙 자세 사이의 유사도를 확인하는 방식으로 자신의 자세를 교정할 수 있다. 또한, 본 발명의 일 실시예에 의하면, 현재의 자세에서 기준 영상의 자세와 더 유사해지는 방향으로 포즈의 움직임을 제안하여 가이드하는 UI(User Interface)를 추가로 제공할 수 있다.

실시예에 따라서는, 대상영상의 프레임 이미지별로 기준영상과의 유사도를 제공할 수 있으며, 대상영상에 포함된 사용자의 신체 부위별로 유사도를 제공하는 것도 가능하다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.

100: 포즈 유사도 판별 모델 생성장치 110: 전처리부
120: 포즈 이미지 생성부 130: 학습 데이터세트 생성부
140: 모델 트레이닝부
200: 포즈 유사도 판별장치 210: 전처리부
220: 포즈 이미지 생성부 230: 연산부

Claims

수집한 복수의 샘플 영상들을 동기화시키는 단계;
상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 단계;
상기 포즈 이미지들 사이의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 단계; 및
상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 단계를 포함하는 것으로,
상기 포즈 이미지를 생성하는 단계는
상기 프레임 이미지에 나타난 상기 객체의 포즈를, 상기 객체에 포함된 특징점과 상기 특징점들 사이의 연결관계로 단순화하여 표시한 상기 포즈 이미지를 생성하는, 포즈 유사도 판별 모델 생성방법.
제1항에 있어서, 상기 동기화시키는 단계는
기준 영상과 비교하여, 상기 샘플 영상들의 FPS(Frame per Second)를 조절하거나 상기 기준 영상과의 오프셋 타임(offset time)을 계산하는 것을 특징으로 하는, 포즈 유사도 판별 모델 생성방법.
삭제
수집한 복수의 샘플 영상들을 동기화시키는 단계;
상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 단계;
상기 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 단계; 및
상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 단계를 포함하는 것으로,
상기 학습 데이터세트를 생성하는 단계는
상기 샘플 영상 중 어느 하나를 선택영상으로 설정하고, 상기 선택영상의 T 시점에 대응하는 포즈 이미지를 앵커(anchor)로 설정하는 단계;
상기 선택영상 이외의 다른 샘플 영상들의 T 시점에 대응하는 포즈 이미지들을, 상기 앵커에 대한 유사 샘플(positive example)로 설정하는 단계; 및
상기 선택영상 중에서 상기 T 시점 이외의 다른 시점에 대응하는 포즈 이미지들을, 상기 앵커에 대한 비유사 샘플(negative example)로 설정하는 단계를 더 포함하는 것을 특징으로 하는, 포즈 유사도 판별 모델 생성방법.
제4항에 있어서, 상기 학습 데이터세트를 생성하는 단계는
상기 T 시점을 상기 선택영상의 시작시점부터 종료시점까지 순차적으로 변경하여, 상기 선택 영상에 포함된 전체 포즈 이미지에 대응하는 학습 데이터세트를 생성하는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
제4항에 있어서, 상기 학습 데이터세트를 생성하는 단계는
상기 복수의 샘플 영상 중에서 적어도 설정개수 이상의 샘플 영상을 상기 선택영상으로 선택하여 상기 학습 데이터세트를 생성하는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
수집한 복수의 샘플 영상들을 동기화시키는 단계;
상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 단계;
상기 포즈 이미지들의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 단계; 및
상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 단계를 포함하는 것으로,
상기 학습 데이터세트를 생성하는 단계는
상기 복수의 샘플 영상 중 어느 하나를 선택영상으로 설정하고, 상기 선택영상의 포즈 이미지들에 대응하는 각각의 3차원 포즈 좌표를 생성하는 단계;
상기 선택영상의 T 시점에 대응하는 3차원 포즈 좌표를 설정각도로 투영(projection)하여 2차원 이미지를 생성하고, 생성한 2차원 이미지를 앵커(anchor)로 설정하는 단계;
상기 T 시점에서의 3차원 포즈 좌표를 상기 설정각도 이외의 복수의 각도로 투영하여 2차원 이미지들을 생성하고, 생성한 2차원 이미지들을 상기 앵커에 대한 유사 샘플(positive example)로 설정하는 단계; 및
상기 T 시점 이외의 다른 시점에 대응하는 3차원 포즈 좌표를 상기 설정각도로 투영하여 2차원 이미지들을 생성하고, 생성한 2차원 이미지들을 상기 앵커에 대한 비유사 샘플(negative example)로 설정하는 단계를 더 포함하는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
제4항에 있어서, 상기 유사 샘플로 설정하는 단계는
상기 선택 영상 이외의 다른 샘플 영상들의 T 시점에 대응하는 포즈 이미지들을 추출하고, 상기 추출한 포즈 이미지들에 대한 3차원 포즈 좌표를 생성하는 단계; 및
상기 3차원 포즈 좌표들을 복수의 각도로 투영하여 2차원 이미지들을 생성하고, 상기 생성한 2차원 이미지들을 상기 유사 샘플로 추가하는 단계를 더 포함하는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
제4항에 있어서, 상기 비유사 샘플로 설정하는 단계는
상기 선택 영상 중에서 상기 T 시점 이외의 시점에 대응하는 포즈 이미지들을 추출하고, 상기 포즈 이미지들에 대한 3차원 포즈 좌표들을 생성하는 단계; 및
상기 3차원 포즈 좌표들을 복수의 각도로 투영하여 2차원 이미지들을 생성하고, 상기 생성한 2차원 이미지들을 상기 비유사 샘플로 추가하는 단계를 더 포함하는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
제1항에 있어서, 상기 포즈 유사도 판별 모델을 생성하는 단계는
상기 학습 데이터세트를 메트릭 러닝 모델(metric learning model)로 기계학습하여 상기 포즈 유사도 판별 모델을 생성하며, 상기 포즈 유사도 판별 모델은 상기 포즈 이미지들 사이의 유사도를 특징맵(feature map) 상의 거리를 이용하여 나타내는 것을 특징으로 하는 포즈 유사도 판별 모델 생성방법.
하드웨어와 결합되어, 제1항, 제2항, 제4항 내지 제10항 중 어느 한 항의 포즈 유사도 측정 모델 생성방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
수집한 복수의 샘플 영상들을 전처리하여, 상기 샘플영상들을 동기화시키는 전처리부;
상기 샘플 영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 객체의 포즈(pose)에 대응하는 포즈 이미지를 생성하는 포즈 이미지 생성부;
상기 포즈 이미지들 사이의 유사 또는 비유사를 각각 설정하여, 삼중쌍 (triplet)의 학습 데이터세트(training dataset)를 생성하는 학습 데이터세트 생성부; 및
상기 학습 데이터세트로 기계학습(machine learning)을 수행하여, 영상 내 객체가 취하는 포즈의 유사도를 판별하는 포즈 유사도 판별 모델을 생성하는 모델 트레이닝부를 포함하는 것으로,
상기 포즈 이미지 생성부는
상기 프레임 이미지에 나타난 상기 객체의 포즈를, 상기 객체에 포함된 특징점과 상기 특징점들 사이의 연결관계로 단순화하여 표시한 상기 포즈 이미지를 생성하는, 포즈 유사도 판별 모델 생성장치.
사용자의 동작을 촬영한 대상영상을 수신하면, 상기 대상영상을 기준영상과 동기화시키는 단계;
상기 대상영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 사용자의 포즈에 대응하는 사용자 포즈 이미지를 생성하는 단계; 및
상기 사용자 포즈 이미지를 포즈 유사도 판별 모델에 적용하여, 상기 사용자 포즈 이미지와 기준 영상에 대응하는 기준 포즈 이미지를 비교하고, 각각의 사용자 포즈 이미지와 기준 포즈 이미지들 사이의 유사도를 연산하는 단계를 포함하는 것으로,
상기 사용자 포즈 이미지를 생성하는 단계는
상기 프레임 이미지에 나타난 상기 사용자의 포즈를, 특징점과 상기 특징점들 사이의 연결관계로 단순화하여 표시한 상기 사용자 포즈 이미지를 생성하는, 포즈 유사도 판별방법.
사용자의 동작을 촬영한 대상영상을 수신하면, 상기 대상영상을 기준영상과 동기화시키는 단계;
상기 대상영상으로부터 각각의 프레임 이미지들을 추출하고, 상기 프레임 이미지 내에 나타난 사용자의 포즈에 대응하는 사용자 포즈 이미지를 생성하는 단계; 및
상기 사용자 포즈 이미지를 포즈 유사도 판별 모델에 적용하여, 상기 사용자 포즈 이미지와 기준 영상에 대응하는 기준 포즈 이미지를 비교하고, 각각의 사용자 포즈 이미지와 기준 포즈 이미지들 사이의 유사도를 연산하는 단계를 포함하는 것으로,
상기 사용자 포즈 이미지를 생성하는 단계는
상기 대상영상의 프레임 이미지 내에 복수의 사용자가 존재하는 경우, 각각의 사용자별로 상기 사용자 포즈 이미지를 생성하는 것을 특징으로 하는 포즈 유사도 판별방법.