KR20230053261A

KR20230053261A - 2d 데이터를 기초로 한 3d 행동 인식 및 추적 방법과 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Info

Publication number: KR20230053261A
Application number: KR1020210136607A
Authority: KR
Inventors: 노성운; 오승진
Original assignee: 주식회사 인피닉
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2023-04-21

Abstract

본 발명은 2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법을 제안한다. 상기 방법은 미리 학습된 패턴 추정 방식에 따라 2차원 영상에 포함된 다수의 사람 각각의 관절 위치에 대응하는 2차원 관절 벡터를 추정하고, 추정된 2차원 관절 벡터를 기지정된 방식으로 정규화하여 2차원 자세 특징을 획득하는 단계; 상기 2차원 영상에 포함된 다수의 사람 각각에 대한 상기 2차원 자세 특징을 인가받고, 미리 학습된 패턴 추정 방식에 따라 상기 2차원 자세 특징에 대응하는 체형 및 자세의 인간 모델을 복원하기 위해 인간 모델 템플릿에 의해 지정되는 체형 벡터와 자세 벡터를 추정하고, 복원되는 인간 모델을 3차원 공간 상의 상기 2차원 자세 특징에 대응하는 위치에 배치하기 위한 위치 벡터를 추정하여 상태 벡터를 획득하는 단계; 및 상기 체형 벡터와 상기 자세 벡터 및 상기 위치 벡터로 구성되는 상태 벡터와 상기 2차원 자세 특징을 인가받아, 상기 체형 벡터와 상기 자세 벡터에 대응하는 인간 모델을 복원하고, 상기 위치 벡터에 따라 복원된 인간 모델을 3차원 공간 상에 배치하는 단계;를 포함할 수 있다.

Description

2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법과 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램{A 3D behavior recognition and tracking method based on 2D data and a computer program recorded on a recording medium to execute the method}

본 발명은 3D 행동 인식 및 추적 방법에 관한 것이다. 보다 상세하게는, 2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법과 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램에 관한 것이다.

기존 3차원 사람의 자세 및 형상 정보 복원 기술은 주로 센서를 사람에게 부착하여 각 관절의 3차원 위치를 복원하는 방식을 주로 사용하였으나, 여러 개의 센서를 사람에게 직접 부착하여 사용해야 된다는 단점으로 인해 실생활에 사용하기에는 부적합하다.

근래에는 컴퓨터 성능 향상과 데이터 수의 증가에 따라 딥 러닝의 성능이 폭발적으로 향상 되었고, 3차원 사람 자세 및 형상 정보 복원에도 딥 러닝 기술이 도입되어 특정 데이터 환경에서 준수한 결과를 보여주었다.

이러한 딥 러닝 기술들은 입력 데이터와 정답(레이블) 데이터를 쌍으로 비교하여 그 손실 차이를 구해 모델의 성능을 향상 시키지만 현실적 사용에는 몇 가지 문제점이 존재한다.

첫 째, 지도학습 모델 학습 시 레이블 데이터가 없는 경우 모델을 학습 시킬 수 가 없다.

둘 째, 3차원 사람 자세 및 형상 정보에 사용되는 3차원 데이터 같은 경우 레이블 데이터를 만드는데 있어 많은 시간과 자원이 소요된다.

셋 째, 전세계적으로 공개된 데이터의 수 자체가 적고, 딥 러닝 모델을 훈련시키는데 한정적인 데이터만 존재한다.

지도학습 딥 러닝 기술의 경우, 데이터에 매우 의존적이기 때문에 레이블 데이터가 없는 경우 그 성능을 발휘 할 수가 없기 때문이다.

이와 더불어, 영상에 기반하여 사람의 움직임을 추적하는 연구가 근래에 많이 이루어지고 있다. 영상 기반 감시, 모션 캡쳐, 사람 행동 분석, 휴먼 컴퓨터 인터페이스(Human Computer Interface, HCI)와 휴먼 로봇 인터페이스(Human Robot Interface, HRI)와 같은 휴먼 인터페이스 등의 다양한 응용 분야에서 사람의 움직임에 대한 분석이 필요하기 때문이다.

사람의 움직임을 추적하기 위한 기술로서, 종래에 인체에 움직임을 감지할 수 있는 마커를 부착하고, 이 마커 자체를 트랙킹함으로써 사람의 움직임을 추적하는 방법이 있었다. 그러나 마커를 인체에 직접 부착해야 하는 번거로움과 마커를 부착할 수 있는 특수한 상황에서만 사람의 움직임을 추적할 수 밖에 없는 문제점이 있었다.

따라서 입력 영상으로부터 사람의 형상에 근사화된 3차원 인체 모델을 이용하여 사람의 움직임을 추적하는 기술이 근래에 각광받고 있다. 이를 위하여는 우선 3차원 인체 모델을 입력 영상에 존재하는 사람에 초기화할 필요가 있는데, 임의의 포즈에 대하여 3차원 인체 모델을 초기화하는 것은 쉽지 않다. 따라서 종래에 수동으로 특정한 위치에 특정한 자세를 취하고 3차원 인체 모델을 초기화하였다.

대한민국 공개특허공보 제10-2020-0000106호, ‘객체의 3차원 모델을 복원하는 방법 및 장치’, (2020.01.02. 공개)

본 발명의 일 목적은 2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법과 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제공하는 것이다.

본 발명의 다른 목적은 2D 이미지에서 키포인트를 추출하고, 해당 2D 이미지의 키포인트 위치를 기준으로 smplx dataset(3차원 인체 자세 모형 데이터셋)에서 유사한 관절 위치의 인체 모형을 히트맵으로 추정하여 유사한 자세를 취한 인체모형을 출력할 수 있는 3D 행동 인식 및 추적 방법과 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제공하는 것이다.

본 발명의 또 다른 목적은 력 영상으로부터 3차원 인체 모델을 이용하여 사람의 움직임을 추적하고자 하는 경우에 3차원 인체 모델을 다양한 자세에 대하여 정확하게 초기화할 수 있는 2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법과 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상술한 바와 같은 기술적 과제를 달성하기 위하여, 2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법과을 제안한다. 상기 방법은 미리 학습된 패턴 추정 방식에 따라 2차원 영상에 포함된 다수의 사람 각각의 관절 위치에 대응하는 2차원 관절 벡터를 추정하고, 추정된 2차원 관절 벡터를 기지정된 방식으로 정규화하여 2차원 자세 특징을 획득하는 단계; 상기 2차원 영상에 포함된 다수의 사람 각각에 대한 상기 2차원 자세 특징을 인가받고, 미리 학습된 패턴 추정 방식에 따라 상기 2차원 자세 특징에 대응하는 체형 및 자세의 인간 모델을 복원하기 위해 인간 모델 템플릿에 의해 지정되는 체형 벡터와 자세 벡터를 추정하고, 복원되는 인간 모델을 3차원 공간 상의 상기 2차원 자세 특징에 대응하는 위치에 배치하기 위한 위치 벡터를 추정하여 상태 벡터를 획득하는 단계; 및 상기 체형 벡터와 상기 자세 벡터 및 상기 위치 벡터로 구성되는 상태 벡터와 상기 2차원 자세 특징을 인가받아, 상기 체형 벡터와 상기 자세 벡터에 대응하는 인간 모델을 복원하고, 상기 위치 벡터에 따라 복원된 인간 모델을 3차원 공간 상에 배치하는 단계;를 포함할 수 있다.

또한, 상기 상태 벡터를 획득하는 단계는, 다단 구조로 순차 연결된 다수의 모델 추정부를 이용하여 상태 벡터를 획득할 수 있다.

그리고 상기 상태 벡터를 획득하는 단계는 이전단의 모델 추정부에서 추정된 상태 벡터를 인가받아 상기 2차원 자세 특징과 결합하여 결합 상태 벡터를 생성하는 단계; 생성된 결합 상태 벡터로부터 미리 학습된 패턴 추정 방식에 따라 상기 2차원 자세 특징에 대응하는 체형 및 자세의 인간 모델을 복원하기 위해 인간 모델 템플릿에 의해 지정되는 체형 벡터와 자세 벡터를 추정하는 단계; 복원되는 인간 모델을 3차원 공간 상의 상기 2차원 자세 특징에 대응하는 위치에 배치하기 위한 위치 벡터를 추정하는 단계; 및 체형 벡터와 자세 벡터 및 위치 벡터를 포함하는 새로운 상태 벡터를 생성하여 다음단의 모델 추정부로 전달하는 단계를 포함할 수 있다.

상기 2차원 자세 특징을 획득하는 단계는 상기 2차원 관절 벡터가 기지정된 스케일과 해상도의 정규화 이미지 평면에 대응하는 크기 및 위치를 갖도록 변환하는 단계; 및 변환된 2차원 관절 벡터에서 루트 관절에 대응하는 관절 벡터의 위치가 정규화 이미지 평면의 원점에 배치되도록 이동시키는 단계;를 포함할 수 있다.

상술한 바와 같은 기술적 과제를 달성하기 위하여, 본 발명은 상술한 바와 같은 방법을 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제안한다. 상기 컴퓨터 프로그램은 메모리(memory); 송수신기(transceiver); 및 상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합되어, 상기 프로세서가, 미리 학습된 패턴 추정 방식에 따라 2차원 영상에 포함된 다수의 사람 각각의 관절 위치에 대응하는 2차원 관절 벡터를 추정하고, 추정된 2차원 관절 벡터를 기지정된 방식으로 정규화하여 2차원 자세 특징을 획득하는 단계;

상기 2차원 영상에 포함된 다수의 사람 각각에 대한 상기 2차원 자세 특징을 인가받고, 미리 학습된 패턴 추정 방식에 따라 상기 2차원 자세 특징에 대응하는 체형 및 자세의 인간 모델을 복원하기 위해 인간 모델 템플릿에 의해 지정되는 체형 벡터와 자세 벡터를 추정하고, 복원되는 인간 모델을 3차원 공간 상의 상기 2차원 자세 특징에 대응하는 위치에 배치하기 위한 위치 벡터를 추정하여 상태 벡터를 획득하는 단계; 및

상기 체형 벡터와 상기 자세 벡터 및 상기 위치 벡터로 구성되는 상태 벡터와 상기 2차원 자세 특징을 인가받아, 상기 체형 벡터와 상기 자세 벡터에 대응하는 인간 모델을 복원하고, 상기 위치 벡터에 따라 복원된 인간 모델을 3차원 공간 상에 배치하는 단계를 실행시키기 위하여, 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.

기타 실시 예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 실시 예들에 따르면, 비지도 학습 방식의 알고리즘을 이용하여, 레이블 데이터에 의존적이었던 3차원 사람 자세 및 형상 추정을 입력 데이터만 가지고 수행할 수 있게 된다.

또한, 본 발명은, 입력 영상으로부터 3차원 인체 모델을 이용하여 사람의 움직임을 추적하고자 하는 경우에 3차원 인체 모델을 다양한 자세에 대하여 정확하게 초기화할 수 있는 장점이 있다.

특히, 본 발명은 적어도 하나의 사람이 포함된 2차원 영상으로부터 각 사람의 3차원 위치와 자세 및 체형을 추정하여 인간 모델을 획득하고, 획득된 인간 모델을 다양한 3차원의 가상 공간 상의 정확한 위치에 배치할 수 있도록 하여, 증강 현실 또는 가상 현실 등의 각종 응용에서 매우 사실적인 인간 모델을 복원할 수 있다.

본 발명의 효과들은 이상에서 언급한 효과로 제한되지 아니하며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 본 발명이 속한 기술분야의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.

또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다. 본 발명의 사상은 첨부된 도면 외에 모든 변경, 균등물 내지 대체물에 까지도 확장되는 것으로 해석되어야 한다.

인공지능 학습을 위해 수집한 데이터는 단순히 몇 개에 불과한 수준이 아닌, 실시간으로 촬영된 매우 많은 수로 구성된다. 이와 같이 수집된 데이터를 학습 데이터 수집 장치가 데이터 수집 서버에 수많은 raw data들을 전송하는데 많은 부담이 존재한다. 또한, 일반적으로 수집 장치는 실시간 촬영을 통해 raw data들을 수집하므로, 수집된 raw data 중에는 서로 유사하여 인공지능 학습 효율이 낮은 데이터들이 포함될 수 있어 데이터 관리의 효율성이 부각된다.

지도학습은 네트워크의 결과와 레이블 데이터 사이의 손실 함수를 추정하여 최적의 결과를 도출한다. 따라서 입력과 레이블이 쌍으로 존재해야만 네트워크를 학습시킬 수 있다.

비지도 학습 오토인코더 네트워크의 경우, 입력을 네트워크를 통해 복원한 후 입력과 복원 결과 사이의 손실 함수를 최적화하기 때문에, 레이블 데이터 없이 입력 데이터만 가지고 네트워크 최적화를 할 수 있다.

본 발명의 실시예에 따른 2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법은 오토인코더를 활용한 비지도 학습과 잠재 영역 특성을 활용하여, 한 장의 영상으로부터 3차원 사람 자세 및 형상 모델을 복원한다.

이와 같은 기능을 수행하는 본 발명의 실시예에 따른 2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법은, 도시된 바와 같이, 오토인코더와 3차원 추정기를 포함하여 구성된다.

오토인코더는 영상으로부터 추출한 잠재 영역(Latent space)을 회전시켜 기하학적 정보를 내포한 잠재 영역을 생성하는 인공지능 모델로, 인코딩부, 변환부 및 복원부를 포함하여 구성된다.

인코딩부는 영상으로부터 잠재 영역을 추출하고, 변환부는 인코딩부에서 추출된 잠재 영역을 새로운 시점의 잠재 영역으로 변환하며, 복원부는 변환부에서 변환된 새로운 시점의 잠재 영역으로부터 새로운 시점의 영상을 복원한다.

3차원 추정기는 SMPL(Skinned Multi-Person Linear Model) 추정부 및 분별기를 포함하여 구성된다.

SMPL 추정부는 오토인코더에 의해 생성된 잠재 영역을 이용하여 3차원 사람 자세 및 형상을 추정하는 인공지능 모델이고, 분별기는 SMPL 파라미터가 정확하게 추정되었는지 분별하는 인공지능 모델이다.

인코딩부는 인코딩 네트워크를 이용하여, 입력되는 영상 A를 영상 정보(영상 특성)가 함축된 잠재 영역 A로 인코딩한다. 인코딩 네트워크는 영상 특성 추출 성능이 좋은 Resnet과 Unet을 기본 모델로 사용할 수 있다.

변환부는 인코딩부에 의해 추출된 잠재 영역 A에 카메라 회전 행렬을 적용하여 새로운 시점의 잠재 영역 B로 변환한다.

구체적으로, 변환부는 영상 A에 대한 잠재 영역 A를 영상 A와 다른 시점인 영상 B에 대한 잠재 영역 B로 회전시켜 준다. 이를 위해, 변환부는 카메라 회전 행렬과 잠재 영역 A를 행렬 곱한다.

카메라 회전 행렬은 특정 카메라 시점을 다른 카메라 시점으로 변환하기 위한 행렬이다.

변환부에 의해 회전된 잠재 영역인 잠재 영역 B는 회전으로 인해 기하학적 정보를 포함하게 된다. 즉, 변환부는 카메라 회전 행렬을 이용하여 잠재 영역에 기하학적 정보를 인코딩하게 된다.

기존 방법들은 여러 시점에서 촬영된 영상들을 사용하여 많은 3차원 정보를 추가하였다. 하지만, 본 발명의 실시예에서는, 잠재 영역을 임의의 카메라 회전 행렬로 회전 시켜 새로운 방향의 3차원 정보를 추가하도록 하였다. 회전된 잠재 영역 특성은 기하학적 정보를 포함하고 있는 200개의 점군(Point Cloud)으로 표현 가능하다. 따라서 3차원 사람 자세 및 형상을 추정할 때 보다 정확한 정보를 제공할 수 있다.

복원부는 디코딩 네트워크를 이용하여, 변환부에 의해 생성된 잠재 영역 B로부터 영상 B를 복원한다.

오토인코더에 입력된 영상 A는 A 시점이었지만, 복원부에 의해 B 시점의 영상 B(복원B)가 획득되는 것이다. 복원부에 의해 획득된 영상 B(복원B)는 비지도 학습에 이용된다.

구체적으로, 복원부에 의해 복원된 영상 B는 오토인코딩 과정[인코딩부 → 변환부 → 복원부]을 거처 원래 시점과 같은 시점인 A 시점을 갖도록 복원된 영상 A로 복원된다. 이 과정에서, 변환부는 인코딩부에 의해 추출된 잠재 영역을 카메라 회전 행렬의 역행렬로 변환하여, B 시점에서 A 시점으로 변환한다.

인코딩부는 이렇게 복원된 영상 A(복원A)와 원래 영상 사이의 손실 함수를 계산함으로서 레이블 데이터 없이 인코딩 네트워크를 최적화할 수 있다.

인코딩 네트워크 최적화가 끝나면, 오토인코더는 기하학적 정보를 내포한 잠재 영역을 추출할 수 있는 능력이 생기게 되며, 이는 궁극적 목표인 3차원 사람 자세 및 형상 파라미터 추정을 가능하게 하여 준다.

한편, 복원부는 인코딩부의 인코딩 네트워크를 학습시키기 위해 필요한 구성으로, 추론 과정에서는 불필요하다.

SMPL 추정부는 추정 네트워크를 이용하여, 오토인코더의 변환부에서 변환된 잠재 영역으로부터 SMPL 파라미터를 추정한다.

다음, SMPL 추정부는 추정된 SMPL 파라미터를 SMPL 추정 레이어에 통과시켜 3차원 사람 자세 및 형상을 추정한다.

기존의 지도 학습 방법들은 영상에서 중간단계 표현특성을 추정하여 사용한다. 즉, Heatmaps, Silhouette 등을 사용하여 3차원 사람 자세 및 형상을 추정하는 방식을 주로 사용했지만, 높은 차원의 크기 때문에 더 많은 양의 메모리를 필요로 하고 레이블 데이터가 존재해야만 중간단계 표현 특성을 생성할 수가 있다.

하지만, 본 발명의 실시예의 경우, 오토인코더의 변환부에서 변환된 잠재 영역은 기하학적 정보가 인코딩되어 있다. 본 발명의 실시예에서는 기존 중간단계 표현 특성을 대체할 수단으로 오토인코더의 잠재 영역 특성을 사용하여 SMPL 파라미터를 추정하고 이에 따른 3차원 사람 자세 및 형상을 생성하도록 한 것이다.

이는 보다 낮은 차원의 크기와 함축된 기하학적 정보를 통해 기존 지도학습 방식 보다 정확한 파라미터 추정을 가능하게 한다.

분별기는 잠재 영역으부터 SMPL 파라미터를 보다 정확하게 만들어 주기 위한 수단이다.

분별기는 오토인코더의 변환부에서 변환된 잠재 영역과 SMPL 추정부에 의해 추정된 SMPL 파라미터를 입력받아, 잠재 영역으로부터 추정된 SMPL 파라미터가 정확한지 분별하여 주는 인공지능 모델로, GAN(Generative Adversarial Network)으로 구현가능하다.

분별기의 분별 결과는 SMPL 추정부의 추정 네트워크를 학습시키기 위해 필요한 구성으로, 추론 과정에서는 불필요하다. 분별기의 분별 결과가 '참'이 될 때까지 추정 네트워크가 학습된다.

기존의 방법들은 중간단계 표현 특성을 사용하여 3차원 사람 자세 및 형상 정보를 추정한다고 전술한 바 있다. 이러한 추정 방법의 문제점은 예측한 3차원 자세나 형상이 사람의 관절 가동 범위까지 완벽하게 추정 하진 않기 때문에, 사람이 할 수 없는 자세를 예측 할 수도 있다.

하지만, 본 발명의 실시예에서는, 딥 러닝 모델 중 데이터의 분포를 학습하여 그와 유사한 결과값을 만들어 주는 GAN을 사용하여 예측된 3차원 사람 자세 및 형상 정보가 보다 사람과 같은 관절 가동 범위를 유지 할 수 있도록 하였다.

지금까지, 영상 기반 사람의 3차원 자세 및 형상 모델 복원 장치 및 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.

본 발명의 실시예에서는, 비지도 학습을 이용하여 한 장의 영상으로부터 3차원 사람 자세 및 형상 정보를 복원하는 방법 및 장치를 제시하였는데, 영상으로부터 기하학 정보를 포함한 잠재 영역을 만들고, 잠재 영역을 SMPL 파라미터로 변환 후 사람의 3차원 자세 및 형상을 복원하였다.

입력, 레이블 데이터에 의존적이던 기존 지도학습 3차원 사람 자세 추정 방식에서 벗어나, 본 발명의 실시예에서는 레이블 데이터로부터 비교적 자유로운 비지도학습 방식을 사용하여 한 장의 영상으로부터 3차원 정보가 포함된 잠재 영역을 만들었다.

또한, 본 발명의 실시예에서는, 잠재 영역에서 3차원 사람 자세 및 형상을 추정하기 위한 SMPL 파라미터를 예측하고, GAN을 이용하여 추정된 SMPL과 기존 데이터 분포를 학습시켜 사람과 같은 관절 가동 범위를 유지할 수 있도록 하였다.

본 발명의 일 실시예에 따르면, 본 발명은 2D 이미지에서 키포인트를 추출하고, 해당 2D 이미지의 키포인트 위치를 기준으로 smplx dataset(3차원 인체 자세 모형 데이터셋)에서 유사한 관절 위치의 인체 모형을 히트맵으로 추정하여 유사한 자세를 취한 인체모형을 출력할 수 있다.

또한, 본 발명은 3d mesh를 coarse heatmap 출력을 생성하는 sliding window detector를 구현하고, 이 coarse heatmap는 initial model의 pooling으로 인해 손실된 공간 정확도를 recovering을 개선하는 더 나은 localization을 얻기 위해 ‘pose refinement’ ConvNet에 의해 정제된다.

이는 모델에 coarse localization을 위한 module(a convolutional network), 지정된 location(x, y)에서 각 joint에 대한 ConvNet의 features를 sampling하고 cropping을 위한 module, fine-tuning을 위한 module이 포함되어 있다는 것을 의미한다.

또한, 본 발명은 특정 행동으로 지정한 프레임의 범위에서 추출된 키포인트들을 하나의 text파일로 통합할 수 있다.

(1) 골격을 tracking 하기 위한 전처리 과정, (2) 크기가 다른 image를 처리하기 위해 (x,y) 좌표 조정, (3) action recognition에 거의 도움되지 않는 head 관절 5개 (머리1, 눈2, 귀2) 제거, (4) 감지된 skeleton에서 목 or 허벅지 부분이 없으면 그 프레임의 skeleton data는 버림, (5) 관절 위치를 놓친 경우 (ex 화면을 바라보지 않고 옆모습으로 서있는 경우 등), 이전 프레임의 목을 기준으로 놓친 관절 위치를 채움.

이하, 상술한 바와 같은 본 발명의 논리적 구성요소를 구현하기 위한 하드웨어에 대하여 보다 구체적으로 설명한다.

본 발명은 프로세서(Processor), 메모리(Memory), 송수신기(Transceiver), 입출력장치(Input/output device), 데이터 버스(Bus) 및 스토리지(Storage)를 포함하여 구성될 수 있다.

프로세서는 메모리에 상주된 3D 객체 인식 및 변환 방법이 구현된 소프트웨어에 따른 명령어를 기초로, 본 발명의 동작 및 기능을 구현할 수 있다. 메모리에는 3D 객체 인식 및 변환 방법이 구현된 소프트웨어가 상주(loading)될 수 있다. 송수신기는 학습 데이터 설계 장치 및 인공지능 학습 장치와 데이터를 송수신할 수 있다. 입출력장치는 본 발명의 동작에 필요한 데이터를 입력 받고, 이미지, 바운딩 박스 및 추천 정보의 목록을 출력할 수 있다. 데이터 버스는 프로세서, 메모리, 송수신기, 입출력장치 및 스토리지와 연결되어, 각각의 구성 요소 사이가 서로 데이터를 전달하기 위한 이동 통로의 역할을 수행할 수 있다.

스토리지는 3D 객체 인식 및 변환 방법이 구현된 소프트웨어의 실행을 위해 필요한 애플리케이션 프로그래밍 인터페이스(Application Programming Interface, API), 라이브러리(library) 파일, 리소스(resource) 파일 등을 저장할 수 있다. 스토리지는 3D 객체 인식 및 변환 방법이 구현된 소프트웨어를 저장할 수 있다. 또한, 스토리지는 3D 객체 인식 및 변환 방법의 수행에 필요한 정보들을 저장할 수 있다.

보다 구체적으로, 프로세서는 ASIC(Application-Specific Integrated Circuit), 다른 칩셋(chipset), 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리는 ROM(Read-Only Memory), RAM(Random Access Memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다. 송수신기는 유무선 신호를 처리하기 위한 베이스밴드 회로를 포함할 수 있다. 입출력장치는 키보드(keyboard), 마우스(mouse), 및/또는 조이스틱(joystick) 등과 같은 입력 장치 및 액정표시장치(Liquid Crystal Display, LCD), 유기 발광 다이오드(Organic LED, OLED) 및/또는 능동형 유기 발광 다이오드(Active Matrix OLED, AMOLED) 등과 같은 영상 출력 장치 프린터(printer), 플로터(plotter) 등과 같은 인쇄 장치를 포함할 수 있다.

본 명세서에 포함된 실시 예가 소프트웨어로 구현될 경우, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리에 상주되고, 프로세서에 의해 실행될 수 있다. 메모리는 프로세서의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다.

각 구성요소는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한, 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으나, 여기에 개시된 실시예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 선정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims

미리 학습된 패턴 추정 방식에 따라 2차원 영상에 포함된 다수의 사람 각각의 관절 위치에 대응하는 2차원 관절 벡터를 추정하고, 추정된 2차원 관절 벡터를 기지정된 방식으로 정규화하여 2차원 자세 특징을 획득하는 단계;
상기 2차원 영상에 포함된 다수의 사람 각각에 대한 상기 2차원 자세 특징을 인가받고, 미리 학습된 패턴 추정 방식에 따라 상기 2차원 자세 특징에 대응하는 체형 및 자세의 인간 모델을 복원하기 위해 인간 모델 템플릿에 의해 지정되는 체형 벡터와 자세 벡터를 추정하고, 복원되는 인간 모델을 3차원 공간 상의 상기 2차원 자세 특징에 대응하는 위치에 배치하기 위한 위치 벡터를 추정하여 상태 벡터를 획득하는 단계; 및
상기 체형 벡터와 상기 자세 벡터 및 상기 위치 벡터로 구성되는 상태 벡터와 상기 2차원 자세 특징을 인가받아, 상기 체형 벡터와 상기 자세 벡터에 대응하는 인간 모델을 복원하고, 상기 위치 벡터에 따라 복원된 인간 모델을 3차원 공간 상에 배치하는 단계;를 포함하는, 2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법.
제1항에 있어서,
상기 상태 벡터를 획득하는 단계는,
다단 구조로 순차 연결된 다수의 모델 추정부를 이용하여 상태 벡터를 획득하는 것을 특징으로 하는, 2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법.
제2항에 있어서,
상기 상태 벡터를 획득하는 단계는
이전단의 모델 추정부에서 추정된 상태 벡터를 인가받아 상기 2차원 자세 특징과 결합하여 결합 상태 벡터를 생성하는 단계;
생성된 결합 상태 벡터로부터 미리 학습된 패턴 추정 방식에 따라 상기 2차원 자세 특징에 대응하는 체형 및 자세의 인간 모델을 복원하기 위해 인간 모델 템플릿에 의해 지정되는 체형 벡터와 자세 벡터를 추정하는 단계;
복원되는 인간 모델을 3차원 공간 상의 상기 2차원 자세 특징에 대응하는 위치에 배치하기 위한 위치 벡터를 추정하는 단계; 및
체형 벡터와 자세 벡터 및 위치 벡터를 포함하는 새로운 상태 벡터를 생성하여 다음단의 모델 추정부로 전달하는 단계를 포함하는 것을 특징으로 하는, 2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법.
제1항에 있어서,
상기 2차원 자세 특징을 획득하는 단계는
상기 2차원 관절 벡터가 기지정된 스케일과 해상도의 정규화 이미지 평면에 대응하는 크기 및 위치를 갖도록 변환하는 단계; 및
변환된 2차원 관절 벡터에서 루트 관절에 대응하는 관절 벡터의 위치가 정규화 이미지 평면의 원점에 배치되도록 이동시키는 단계;를 포함하는 것을 특징으로 하는, 2D 데이터를 기초로 한 3D 행동 인식 및 추적 방법.
메모리(memory);
송수신기(transceiver); 및
상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합되어,
상기 프로세서가, 미리 학습된 패턴 추정 방식에 따라 2차원 영상에 포함된 다수의 사람 각각의 관절 위치에 대응하는 2차원 관절 벡터를 추정하고, 추정된 2차원 관절 벡터를 기지정된 방식으로 정규화하여 2차원 자세 특징을 획득하는 단계;
상기 2차원 영상에 포함된 다수의 사람 각각에 대한 상기 2차원 자세 특징을 인가받고, 미리 학습된 패턴 추정 방식에 따라 상기 2차원 자세 특징에 대응하는 체형 및 자세의 인간 모델을 복원하기 위해 인간 모델 템플릿에 의해 지정되는 체형 벡터와 자세 벡터를 추정하고, 복원되는 인간 모델을 3차원 공간 상의 상기 2차원 자세 특징에 대응하는 위치에 배치하기 위한 위치 벡터를 추정하여 상태 벡터를 획득하는 단계; 및
상기 체형 벡터와 상기 자세 벡터 및 상기 위치 벡터로 구성되는 상태 벡터와 상기 2차원 자세 특징을 인가받아, 상기 체형 벡터와 상기 자세 벡터에 대응하는 인간 모델을 복원하고, 상기 위치 벡터에 따라 복원된 인간 모델을 3차원 공간 상에 배치하는 단계;를 실행시키기 위하여, 기록매체에 기록된 컴퓨터 프로그램.