KR101812379B1 - 포즈를 추정하기 위한 방법 및 장치 - Google Patents

포즈를 추정하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR101812379B1
KR101812379B1 KR1020147019900A KR20147019900A KR101812379B1 KR 101812379 B1 KR101812379 B1 KR 101812379B1 KR 1020147019900 A KR1020147019900 A KR 1020147019900A KR 20147019900 A KR20147019900 A KR 20147019900A KR 101812379 B1 KR101812379 B1 KR 101812379B1
Authority
KR
South Korea
Prior art keywords
node
topology
topology element
nodes
pose
Prior art date
Application number
KR1020147019900A
Other languages
English (en)
Other versions
KR20140101439A (ko
Inventor
토마스 마티네츠
크리스티안 엘러스
파비안 팀
에르하르트 바스
사스카 클레멘트
Original Assignee
게스티곤 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 게스티곤 게엠베하 filed Critical 게스티곤 게엠베하
Publication of KR20140101439A publication Critical patent/KR20140101439A/ko
Application granted granted Critical
Publication of KR101812379B1 publication Critical patent/KR101812379B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 이미지에 의해 캡처된 이동 가능한 물체의 포즈를 추정하기 위한 전자 이미지의 시퀀스의 실시간 가능한 분석에 관한 것이다. 본 발명은 추가로 본 발명을 소프트웨어로 구현하는 것과, 이와 관련하여 본 발명에 따른 방법이 실행되도록 하는 명령어를 저장하는 컴퓨터 판독 가능한 매체에 관한 것이다. 본 발명은 3D 공간 내의 소수의 노드에 의해 나타내는 스켈레톤 모델로부터 진행하고, 노드의 좌표가 항상 움직이는 물체의 미리 정해진 부분의 위치를 나타낼 때 이미지 정보의 양호한 데이터 압축을 허용한다. 스켈레톤 모델은 동시에, 측정된 2½의 D 이미지 정보에 포함되는, 즉 카메라에 가시적인 결합한 물체의 부분 또는 선택적으로 물체면을 나타내는 스켈레톤 모델에 예를 들어 노드 쌍 및 선택적으로 또한 노드 트리플릿을 정의함으로써 물체에 대한 사전 지식을 나타낸다. 스켈레톤 모델은 이미지 정보로 빠르고 정확하게 피팅되어야 한다. 노드를 연속적으로 변위시키고, 스켈레톤 모델을 연속적으로 업데이트함으로써 이미지 시퀀스의 두 이미지 사이에서 피팅은 실현된다.

Description

포즈를 추정하기 위한 방법 및 장치{METHOD AND APPARATUS FOR ESTIMATING A POSE}
본 발명은 이미지 시퀀스에서 캡처된 이동 가능한 물체의 위치 및 방향, 즉 이동 가능한 물체의 포즈를 추정하기 위한 전자 이미지의 시퀀스의 실시간 가능한 분석을 위한 방법 및 장치에 관한 것이다. 더욱이, 본 발명은 또한 본 발명을 소프트웨어로 구현하는 것과, 이와 관련하여 본 발명에 따른 방법을 실행할 수 있는 명령어를 저장하는 컴퓨터 판독 가능한 매체에 관한 것이다.
컴퓨터에 의해 인간의 포즈를 추정하는 것은 제스처 제어형 인간-기계 상호 작용의 기초이다. 신체 또는 손 제스처는 카메라에 의해 캡처되고, 캡처된 디지털 이미지는 컴퓨터에서 처리되고, 궁극적으로 컴퓨터 또는 그것에 의해 제어되는 장비에 의해 수행되는 명령어로 해석된다. 인간의 사용자는 명령 제스처를 마스터할 경우에 더 이상 별도의 입력 장비를 필요로 하지 않는다.
제스처 제어의 적용의 특히 흥미로운 지역은 한편으로 수술 의사가 보조 장비(예를 들어 초음파 또는 MRT와 같은 이미지 장치)를 직접 제어하고 싶지만, 불임증에 대해 보호하기 위하여 어떤 제어 장치를 손으로 터치할 수 없는 의료 수술의 분야, 및 다른 한편으로는 현재 여전히 오히려 비위생적인 터치 패드가 장착되어 있는 공공 정보 단말기 또는 티켓 기계의 분야이다. 이미 상업적으로 개방된 적용의 추가의 분야는 컴퓨터 게임 섹터이다.
제스처 제어 방법의 목적은 기계 해석 가능한 의미를 사람의 광학 이미지에 제공하는 것이다. 이것은 전자적으로 평가될 수 있도록 사람을 이미지화하고, 정보 내용의 관점에서 이러한 이미지를 압축하며, 최종적으로 사람의 압축된 이미지를 기계 해석 가능한 출력으로 변환하는 장치를 필요로 한다. 장치의 출력은 다운스트림 장치가 제어되도록 하기 위한 제어 명령어로 구성될 수 있다. 그러나, 그것은 이러한 정보를 해석하기 위한 다운스트림 유닛에 공급되는 압축된 이미지 정보만을 포함하는 것도 가능하다.
압축된 이미지 정보에 대한 일례로서 예를 들어 3D 좌표계에서 사람의 오른손의 위치 좌표의 연속 출력이 있다. 프로세스에서, 그것은 종종 예를 들어 사람의 신체 전체가 이미지화될 경우에 손 위치에 대한 하나의 포인트의 좌표만을 출력하기에 충분하다. 사람의 움직임이 이미지 시퀀스에 의해 이미지화될 경우, 상술한 장치는 예를 들어 움직임 동안 시간이 지남에 따라 변화하는 미리 정해진 신체 부분의 3D 좌표를 제공한다. 좌표는 예를 들어 이에 따라 스크린상의 커서 위치를 제어하는 프로그램으로의 가변 입력으로서 역할을 할 수 있다.
이미지 분할(segmentation) 동안, 이미지화된 사람에 할당될 수 없는 모든 기록된 이미지 데이터(측정 값)는 즉 배경에 관한 특정 이미지 요소에서 제거된다. 이러한 이미지 요소는 추가의 평가로부터 제외되어야 한다.
사용자가 복잡한 배경 앞에서 이미지화될 경우, 예를 들어, 추가의 사람이 배경에서 이동할 경우, 또는 사용자가 자신의 몸통의 일부를 은폐하도록 카메라를 향해 사지(extremities)를 이동하는 제스처를 할 경우에 2차원 데이터를 이용하는 이미지 분할은 무엇보다 어렵다. 제스처 제어가 실시간으로 일어나고, 포즈 추정이 보통 25 Hz 이상의 비디오 프레임 레이트로 가능하므로, 이미지 분할은 몇 밀리초 내에 일어날 수 있는 것이 필요하다. 이를 위해, 종래의 카메라처럼 휘도 이미지를 측정할 수 없을 뿐만 아니라, 물체로부터의 카메라의 거리를 측정할 수 없는 깊이 센서 카메라가 이용될 수 있다.
알려진 깊이 센서 카메라는 TOF(비행 시간(time-of-flight)) 카메라로 불리워진다. 그것은 강도가 정현파 변조되는 적외선을 방출한다. 방출된 광과 물체에 의해 반사된 광 사이의 위상 변위는 각 픽셀로 측정된다. 이러한 위상 변위로부터, 광의 전파 시간("비행 시간") 및 따라서 물체 포인트로부터의 카메라의 거리는 계산될 수 있다. TOF 카메라는 (종종 진폭 이미지라고 하는 TOF 명명에서) 밝기 이미지로 등록해 있는 깊이 맵을 제공한다.
이미지 및 거리 측정 값을 동시에 획득하기 위한 추가의 방법은 측정될 물체로 조사되고, 이러한 물체에 의해 반사되는 구조화된 광에 기초한다. 카메라는 일반적으로 도착 각도와 다른 각도에서 반사된 광을 검출하고, 반사된 물체 표면의 위치 또는 규모로 인해 투영된 패턴의 구조의 변화를 등록한다. 예를 들면, 그것은 직선, 반사된 표면의 돔형(doming), 즉 프로젝터 및/또는 카메라에 대해 가변적인 거리로서 물체 상에 원래 투영된 카메라에 의해 캡처되는 반사된 라인의 곡률로부터 계산할 수 있다. 유사한 방식으로, 포인트 반사를 검출하고, 이들 사이의 거리를 결정함으로써 3차원 장면에서 포인트를 투영하는 공간적 발산 빔 번들(bundle)이 적절하다. 프로젝터에 더 가까이 위치된 얼굴 상에서, 포인트 거리는 이미지 배경에서의 얼굴 상에서보다 적다. 이것은 프로젝터로부터 얼굴 또는 얼굴 영역의 거리를 측정하는 데 사용된다.
이것에 따르면, 깊이 센서 카메라는 부가적으로 카메라의 광축과 보통 일치하는 깊이 축을 따라 모든 이미지화된 물체 포인트의 위치가 측정되도록 2차원 밝기 이미지에 더하여 각 이미지화된 물체 포인트에 대한 거리 정보를 또한 제공하는 장치이다. 깊이 센서 카메라를 사용하여 기록되는 거리 정보를 가진 전자 이미지는 또한 장면의 2와 2분의 1차원 이미지(2½ D)라고 한다. 상술한 장치는 어떻게 2½ D 이미지가 생성될 수 있고, 최종 리스트를 반드시 나타내지는 않을 수 있는 예일 뿐이다.
특히, 인쇄된 공보 WO 2010/130245 A1으로부터 2½ D 이미지의 이미지 분할(image segmentation)이 정확히 일어날 수 있는 방법이 이해될 수 있다. 이미지 분할은 동시에 측정된 거리 값에 따라 카메라 픽셀에 의해 검출되고, 픽셀에 의해 등록된 밝기 값을 순서대로 열거한다. 전경(foreground)의 밝기 값만이 추가의 평가 시에 남으며, 가시성의 향상을 위해, 관찰되는 사람은 카메라에 가장 가까운 것으로 추정된다. 따라서, 전경의 밝기 값은 사람의 신체 표면의 이미징으로부터 생성된다. 공지된 카메라 프로젝션 파라미터에 의해, 이미지화된 물체 포인트에는 각각 3D 좌표의 세트가 할당될 수 있다. 그 후, 카메라를 직접 볼 수 있는 사람의 모든 포인트를 포함하는 3D 좌표의 리스트는 획득된다. 3D 공간에서 포인트의 이러한 "클라우드" 내부에는 실제 사람이 있고, 3D 포인트 클라우드의 내부에는 또한 제스처 제어를 위해 결정되기를 원하는 미리 정해진 신체 부분의 관련 좌표가 있다.
따라서, 정보 압축의 제 2 부분의 단계는 이미지 분할에 의해 결정되고 사람ㅇ을 나타내는 3D 포인트 클라우드로부터, 사람의 전체 포즈를 가능한 최상으로 나타내고, 기계 해석을 위해 적절한 포인트 좌표의 감소된 세트를 결정할 시에 보여질 수 있다. 이러한 단계는 또한 포즈 추정이라고 한다. 포즈 추정의 하나의 목표는 여기서 감소된 데이터 세트의 견고성(robustness)이며, 즉 인간 포즈의 작은 변화는 또한 포즈를 나타내는 데이터 세트의 작은 변화로만 이어진다. 특히, 인간 신체 부분을 나타내는 좌표는 이러한 신체 부분과 좌표의 명확한 상관 관계가 언제든지 주어지도록 가능한 한 시간적으로 연속 궤적으로 이동한다.
알려지고 일반적으로 인정된 접근 방식은 3D 포인트 클라우드로 가능한 한 빨리 피팅(fitting)되어야 하는 사람의 스켈레톤 모델(skeleton model)의 정의이다.
WO 2010/130245 A1은 노드 및 에지의 토폴로지로서 설명되는 스켈레톤 모델이 제안되는 2½ D 이미지의 시퀀스로부터 실시간 가능한 포즈 추정을 위한 방법을 개시한다. 노드의 쌍으로서 나타낼 수 있는 에지는 노드 사이의 이웃한 구조를 코딩한다. 노드는 자기 조직화 맵(self-organizing map)("SOM")을 트레이닝시키기 위한 학습 규칙을 적용함으로써 이전에 결정된 포인트 클라우드에 피팅된다.
WO 2010/130245 A1의 예시적인 실시예에서, 인체의 상부 부분은 44 노드 및 61 에지로부터 토폴로지를 사용하여 모델링된다. 사람을 나타내는 3D 포인트 클라우드는 약 10%가 SOM을 트레이닝시키기 위해 사용되는 (관찰된 사람이 카메라로부터 자신의 거리와는 독립적으로 정의된 크기를 나타내는 실제 3D 공간에 묘사된) 약 6500 데이터 포인트를 포함한다. 토폴로지의 모든 노드는 직접적으로 SOM으로 간주될 수 있지만, 에지를 특정하는 것은 학습 규칙에 대한 특정한 요구 조건 또는 제한으로 간주 될 수 있다.
토폴로지는 비디오 시퀀스의 각 프레임에 대해 별도로 트레이닝되며, 프레임의 트레이닝 결과는 동시에 시퀀스의 다음 프레임의 트레이닝을 초기화하는 역할을 한다. 시퀀스의 제 1 프레임의 초기화 동안, 토폴로지의 크기는 바람직하게는 일회성 스케일링(one-off scaling)에 의해 카메라 앞에서 사람의 크기에 부합되고, 중력의 중심은 3D 포인트 클라우드의 중력의 중심으로 변위된다. 토폴로지의 크기가 한 번 정확히 선택되었다면, 그것은 진행중인 방법 동안 추가로 적응시키는 것을 필요로 하지 않는데, 그 이유는 이러한 방법이 스케일 불변으로(scale-invariantly) 기능하기 때문이다. 프레임을 트레이닝하는 것은 다음의 단계를 갖는 패턴별 학습 규칙을 적용함으로써 일어난다:
a. 3D 포인트 클라우드의 데이터 포인트 X를 무작위로 선택하는 단계;
b. X로부터 최소 거리를 나타내는 토폴로지의 노드를 결정하는 단계;
c. 토폴로지의 에지 사양에 따라 b 하에 결정된 노드의 모든 이웃한 노드를 결정하는 단계;
d. X의 방향에서 b 및 c 하에 결정된 노드를 변위시키는 단계(이 점에서는 WO 2010/130245 A1의 식 (2) 및 (3) 참조);
e. 변위 벡터는 b 하에 결정된 노드에 관해서 c 하에 결정된 노드에 대한 크기의 정확히 절반을 나타내는 학습율과 곱해지는 단계(이 점에서는 WO 2010/130245 A1, 페이지 13, 절 4 참조);
f. 학습율을 점진적으로 감소시키면서 미리 정해진 수의 학습 단계에 대해 단계 a 내지 e를 반복하는 단계.
미리 정해진 시간 간격 동안 포즈 추정을 수행하기 위해, 즉 이 경우에는 스켈레톤 모델을 3D 포인트 클라우드에 피팅하여 모든 관련된 모든 노드의 위치를 판독하기 위해 각각의 프레임에 대한 최대 수의 학습 단계를 특정하는 것이 편리하다. 이러한 방식으로, 이미지 시퀀스는 또한 비디오 프레임 속도 이상으로 빠르게 분석될 수 있다.
WO 2010/130245 A1의 알고리즘이 실시간 포즈 추정의 목적을 잘 충족하지만, 인쇄된 공보에서 부분적으로 언급되는 몇몇 약점을 여전히 나타낸다. 특히, 사람이 자신의 팔을 합치거나 이를 신체의 앞에 교차하는 장면을 분석할 때, 학습 규칙은 잘못된 해석으로 이어질 수 있으며, 이는 개개의 노드가 토폴로지에서의 이들의 실제 이웃에서 멀리 떨어질 경우에 추가의 반복의 과정에서 정정될 수 있다. 이러한 효과는 모델의 몸통에서의 고정점(anchoring point), 및 미리 정해진 임계값 이상으로 고정점에서 노드의 변위를 억제하는 학습 규칙의 2차 조건으로 WO 2010/130245 A1에 반대된다.
WO 2010/130245 A1의 가르침은 또한 각 경우에 다수의 서로 다른 노드에 의해 나타낼 수 있는 인간의 관절, 어깨 및 엉덩이의 정확한 위치 결정에 따른 어려움을 보여준다. WO 2010/130245 A1에서 설명된 스켈레톤 모델은 포즈 추정 시에 상당한 에러를 수용하지 않고 수가 20 이하로 쉽게 감소될 수 없는 비교적 많은 노드를 나타낸다. 깊이 센서 카메라에 의해 제스처 제어를 위해 시장에서 구할 수 있는 시스템은 오히려 인간 해부학(human anatomy)에 따라 설계된 15 내지 20 노드를 갖는 스켈레톤 모델을 사용하여 이미 동작한다. 노드 수를 감소시킴으로써, 카메라 이미지의 높은 처리 속도가 또한 획득될 수 있다.
해부학적으로 동기 부여된 스켈레톤 모델은 추가적으로 (예를 들어 골프 클럽을 스윙하는) 빠르고 복잡한 움직임을 감지하기 위해 저장된 움직임 패턴(템플릿(template))에 따르는데 적합하다. 이러한 경우에, 제스처 제어 소프트웨어는 이전에 저장된 움직임 시퀀스에 대한 감지된 포즈 변경의 가능성이 가장 높은 매치(match)를 찾고, 실제 제어를 위해 이러한 알려진 템플릿을 사용한다. 이러한 기술은 이미 컴퓨터 게임에서 사용되지만, 그것은 자원 집약적(resource intensive)이다. 마지막으로, 저장된 움직임 데이터를 생성하는 것은 이미 상당한 비용을 발생시킨다.
다른 한편으로는 SOM 트레이닝에 의한 제스처 제어는 템플릿을 완전히 없애고, 오히려 움직임 연속성의 실시간 가능한 검출 능력에 오로지 기초한다. 효율적으로 구현될 수 있는 학습 규칙으로 인해, 그것은 심지어 빠른 인간의 움직임을 확실히 감지할 수 있는 잠재력을 가지고 있으며, 동시에 측정 태스크에 대한 소프트웨어의 아마 복잡한 매칭이 생략되도록 일반적인 적용 가능성을 유지한다.
그래서, 본 발명의 목적은 물체의 포즈, 특히 인간의 포즈의 결정이 적은 계산 노력 및 따라서 더욱 빠르고/빠르거나 더욱 정확하게 실시간으로 수행될 수 있도록 특히 포즈 추정을 위해 물체의 카메라 이미지의 디지털 이미지 정보를 압축하기 위한 것이다.
이러한 목적은 특허 독립 청구항의 발명 대상(subject matter)에 의해 달성된다. 본 발명의 유리한 실시예는 특허 종속 청구항의 발명 대상이다.
따라서, 본 발명의 양태는 일반적으로 두 부분의 단계: 이미지 분할 및 포즈 추정 시에 일어나는 정보 압축이다. 이러한 맥락에서, 본 발명은 특히 포즈 추정을 개선하는 것에 관한 것이다. 본 발명에 따르면, 관찰된 물체의 해부학에 따라 모델링되는 스켈레톤 모델로 작업할 수 있고, 감소된 노드의 수를 나타내고, 각 모델 노드를 미리 정해진 신체 부분에 확실하고 일관성 있게 할당할 수 있는 SOM 트레이닝에 의한 포즈 추정이 제안된다. 여기서 포즈가 감지될 수 있는 물체의 해부학은 스켈레톤 모델로서 모델링된다.
3D 공간 내의 소수의 포인트(이하, "노드")에 의해서만 나타내는 스켈레톤 모델은 항상 노드의 좌표가 움직이는 물체의 미리 정해진 부분의 위치를 나타낼 경우에 이미지 정보의 양호한 정보 압축을 나타낸다. 동시에, 예를 들어 노드 쌍 및 선택적으로 또한 노드 트리플릿(triplet)이 측정된 2½의 D 이미지 정보에 포함되는, 즉 카메라에 가시적인 인접한 물체의 부분 또는 선택적으로 물체면을 나타내는 스켈레톤 모델에 정의되어 있다는 점에서 스켈레톤 모델은 물체에 대한 사전 지식을 나타낸다. 스켈레톤 모델은 물체에 대응하는 이미지 정보로 빠르고 정확하게 피팅되어야 한다. 노드를 연속적으로 변위시키고, 이미지 시퀀스에 따른 단계에서 스켈레톤 모델을 업데이트함으로써 이미지 시퀀스의 두 이미지 사이에서 피팅은 이루어진다. 이미 언급된 인접한 물체의 부분 또는 가능한 물체면의 경우에, 이들은 전체적으로 이동하는 것으로 추정된다. 본 발명에 따르면, 따라서, 노드 쌍 또는 선택적으로 노드 트리플릿은 특정 전제 조건 하에 동시에 변위된다. 여기서, 아래에 더 설명되는 변위 규칙은 반드시 노드 쌍 또는 선택적으로 노드 트리플릿의 노드의 거리를 유지하는 것은 아니지만, 변위는 또한 노드 쌍 또는 선택적으로 노드 트리플릿의 노드의 거리의 증가로 이어질 수 있다는 것이 강조되어야 한다.
본 발명의 실시예는 3D 포인트 클라우드의 시퀀스로 연속하여 피팅되는 스켈레톤 모델의 노드의 3D 위치 좌표의 변위의 컴퓨터 계산에 의해 이동하는 물체(예를 들어 사람 또는 로봇)의 포즈 추정을 위한 방법을 나타낸다. 노드 좌표는 전자 메모리에서 테이블 형태로 존재하고, 3D 포인트 클라우드는 이동하는 사람을 나타내는 깊이 센서 카메라의 전자적으로 기록된 이미지로부터 결정된다. 스켈레톤 모델은 토폴로지 요소 N1 노드, N2 에지, 및 N3 트라이앵글로 나타내는 토폴로지이며, 이는 N1, N2 > 0 및 N3 ≥ 0을 가지며, 각 토폴로지 요소는 노드, 노드 쌍, 또는 노드 트리플릿으로 나타내고 물체의 부분(예를 들어 인간의 신체 부분 또는 로봇의 부분)에 확고히 할당된다. 방법은 연산 유닛에 의해 수행되고 다음의 단계를 포함한다:
a. 3D 포인트 클라우드의 데이터 포인트 X를 무작위로 선택하는 단계;
b. 각 토폴로지 요소에 관련하여 X에 대한 교차점 P를 계산하고, P가 각각의 경우에서 토폴로지 요소 내부에 놓여 있는지를 식별하는 단계;
c. 차분 벡터 X - P의 놈(norm)으로서 X에서 각 토폴로지 요소까지의 거리를 계산하는 단계;
d. 교차점 P가 토폴로지 요소 내에 놓여 있는 모든 토폴로지 요소들 중에서 X로부터 최소 거리를 나타내는 토폴로지 요소를 결정하는 단계;
e. 벡터 X - P의 방향에 토폴로지 요소를 확립하는 모든 노드를 변위시킴으로써 단계 d에서 결정된 토폴로지 요소를 변위시키는 단계로서, 노드에 대한 변위 벡터는 학습율, 및 단계 d에서 결정된 토폴로지 요소에 관련하여 X에 대한 교차점 P로부터 생성되는 가중치와 곱해지는 단계;
f. 학습율을 점진적으로 감소시키면서 미리 정해진 수의 학습 단계에 대해 단계 a 내지 e를 반복하는 단계;
g. 미리 정해진 수의 학습 단계의 K 패스(pass)들(K ≥ 1) 후에 전자 메모리의 테이블에서 노드 좌표들을 업데이트하는 단계;
h. 추가의 처리를 위해 테이블에서 업데이트된 적어도 노드 좌표를 제공하는 단계.
단계 b에서의 본 발명의 추가의 실시예에서, 토폴로지 요소에 관한 교차점 P는 토폴로지 요소를 확립하는 노드 좌표 벡터의 선형 조합으로 나타내고, P가 토폴로지 요소 내부에 놓여 있는지가 표현 계수로부터 결정된다.
단계 e에서의 본 발명의 추가의 실시예에서, 가중치는 P의 표현 계수로부터 계산된다.
본 발명의 추가의 실시예에서, 단계 a 내지 e의 반복 횟수는 1000와 5000 사이, 특히 2000와 3000 사이이다.
이점으로 학습율은 시작 값 0.5와 종료 값 0.01 사이에 놓일 수 있다.
본 발명의 추가의 실시예는 이동하는 물체의 포즈 추정을 위한 장치를 제안한다. 이러한 장치는 깊이 센서 카메라, 전자 메모리, 및 프로그램 가능한 연산 유닛을 포함하며, 메모리는 깊이 센서 카메라의 전자 이미지를 저장하고, 연산 유닛은 카메라에 의한 이미지 레코딩과 함께 시간적으로 보조를 맞추어(temporally in step), 물체를 나타내는 3D 포인트 클라우드를 전자 이미지로부터 결정하도록 설계된다. 메모리는 추가로 스켈레톤 모델의 노드에 대한 3D 좌표의 리스트를 저장한다. 연산 유닛은 개개의 노드, 미리 정해진 노드 쌍, 및 미리 정해진 노드 트리플릿에 대한 이러한 좌표를 스켈레톤 모델의 토폴로지 요소의 표현으로 판독하고 변경할 수 있다. 연산 유닛은 추가로, 물체를 나타내는 3D 포인트 클라우드를 결정한 후에, 다음의 단계를 수행하기 위해 설계된다:
a. 3D 포인트 클라우드의 데이터 포인트 X를 무작위로 선택하는 단계;
b. 각 토폴로지 요소에 관련하여 X에 대한 교차점 P를 계산하고, P가 각각의 경우에서 토폴로지 요소 내부에 놓여 있는지를 식별하는 단계;
c. 차분 벡터 X - P의 놈으로서 X에서 각 토폴로지 요소까지의 거리를 계산하는 단계;
d. 교차점 P가 토폴로지 요소 내에 놓여 있는 모든 토폴로지 요소들 중에서 X로부터 최소 거리를 나타내는 토폴로지 요소를 결정하는 단계;
e. 벡터 X - P의 방향에 토폴로지 요소를 확립하는 모든 노드를 변위시킴으로써 단계 d에서 결정된 토폴로지 요소를 변위시키는 단계로서, 노드에 대한 변위 벡터는 학습율, 및 단계 d에서 결정된 토폴로지 요소에 관련하여 X에 대한 교차점 P로부터 생성되는 가중치와 곱해지는 단계;
f. 학습율을 점진적으로 감소시키면서 미리 정해진 수의 학습 단계에 대해 단계 a 내지 e를 반복하는 단계;
g. 미리 정해진 수의 학습 단계들의 K 패스들(K ≥ 1) 후에 전자 메모리의 테이블에서 노드 좌표들을 업데이트하는 단계
h. 추가의 처리를 위해 테이블에서 업데이트된 적어도 노드 좌표를 제공하는 단계.
본 발명의 추가의 실시예는 추가로 명령어가 본 발명의 설명된 실시예 중 하나에 따라 포즈 추정을 위한 방법을 수행하도록 하는 마이크로 프로세서에 의해 실행될 수 있는 명령어를 저장하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체에 관한 것이다.
본 발명은 아래에서 도면을 참조하여 예시적인 실시예를 이용하여 더욱 상세히 설명된다. 도면에서 서로 대응하는 요소 및 상세 사항은 동일한 참조 문자로 제공되었다.
도 1은 사용 가능한 스켈레톤 모델: a) WO 2010/130245 A1에 따른 모델, b) 노드 및 에지로부터의 모델, c) 노드, 에지 및 트라이앵글로부터의 모델의 스케치를 도시한다.
도 2는 a) WO 2010/130245 A1로부터의 학습 규칙의 예시, b) 학습 규칙의 가중치의 기하학적 해석, 및 c) 에지 변위의 경우에 대한 학습 규칙의 효과의 예시를 도시한다.
도 3은 a) 학습 규칙의 가중치의 기하학적 해석, 및 b) 트라이앵글 변위의 경우에 대한 학습 규칙의 효과의 표현을 도시한다.
도 4는 본 발명에 따라 이러한 포인트 클라우드에 피팅되는 3D 포인트 클라우드 및 스켈레톤 모델을 가진 예시적인 이미지를 도시한다.
낮은 노드 수만을 가진 스켈레톤 모델은 언제라도 노드의 좌표가 이동하는 물체의 미리 정해진 부분의 위치를 나타낼 때 이미지 정보를 효율적으로 압축하는 역할을 한다. 스켈레톤 모델은 물체에 대한 사전 지식을 사용하여 정의된다. 예를 들면, 연속적인 물체의 부분 및 선택적으로 물체면이 카메라를 볼 수 있는 사전 지식이 있다. 스켈레톤 모델의 미리 정해진 요소, 특히 노드 쌍 또는 노드 트리플릿은 이미 언급된 이러한 물체 부분 또는 물체면을 나타낼 수 있고, 전체적으로 물체의 이미지로 피팅될 수 있다. 이러한 피팅은 노드를 지속적으로 변위시키고, 이미지 시퀀스에 따른 단계에서 스켈레톤 모델을 업데이트함으로써 이미지 시퀀스의 두 이미지 사이에서 일어난다. 인접한 물체의 부분 또는 물체면은 기본적으로 전체적으로 이동하고, 따라서, 본 발명에 따르면, 노드 쌍 또는 선택적으로 노드 트리플릿은 어떤 전제 조건 하에 동시에 변위된다. 프로세스에서, 변위 규칙은 반드시 서로에 대한 노드 쌍 또는 선택적으로 노드 트리플릿의 노드의 거리를 유지하는 것은 아니다. 변위는 오히려 또한 노드 쌍 또는 선택적으로 노드 트리플릿의 노드의 거리의 증가로 이어질 수 있다. 거리를 유지하는 것에 따른 발명의 포기(inventive relinquishment)는 양호한 포즈 추정에 대한 변위 벡터 및 모든 동일한 리드의 필요한 계산을 단순화하고 가속화한다. 스켈레톤 모델을 물체의 이미지로 피팅하는 정확도는 반복 횟수(학습 단계)에 따라 증가한다.
본 발명은 실질적으로 WO 2010/130245 A1의 개시물의 스타일로 아래에 설명된다. 그것은 WO 2010/130245 A1에 설명된 포즈 추정이 시작점으로 간주될 수 있고, 본 발명의 적어도 하나의 실시예가 이러한 공보로부터 알려진 포즈 추정을 위한 방법의 추가의 발전으로 간주될 수 있다는 것이 원칙적으로 주목되어야 한다.
이러한 맥락에서, (개별적으로 또는 연속적으로) 2½의 D-이미지를 기록하고, 사람을 나타내는 3D 포인트 클라우드를 추출하는 것은 WO 2010/130245 A1에 설명되어 있는 바와 같이 수행될 수 있다는 것이 본 발명의 실시예에 대한 다음의 설명에서 추정된다. 본 발명은 특히 이동된 포즈를 추정하기 위한 이미지 및 포인트 클라우드가 25 Hz 이상의 주파수에서 제공될 수 있다는 것을 추정한다.
본 발명에 따르면, 해부학적으로 동기 부여된 스켈레톤 모델은 이제 도 1의 a)에서 비교되는 것으로 보여지는 WO 2010/130245 A1에서의 토폴로지 대신에 사용된다. 인간의 해부의 독특한 포인트(예를 들어 머리, 어깨, 팔꿈치, 손, 엉덩이, 골반, 무릎, 발)와 각 노드를 명확하게 관련시키는 도 1의 b)에서의 모델이 특히 적합하다. 도 1의 c)는 몸통이 (각 경우에 모서리를 형성하는 3개의 노드에 의해 정의된) 트라이앵글로 나타내는 도 1의 b)로부터의 모델의 변형을 나타낸다.
노드를 인간의 신체 부분으로 식별함으로써, 또한 모델의 에지에는 해부학적 해석이 제공된다. 따라서 예를 들어 도 1의 b)에서, 노드 1(오른손) 및 노드 2(오른쪽 팔꿈치)를 연결하는 에지는 반드시 오른쪽 아래 팔을 나타낸다. 그래서, 토폴로지의 에지는 노드의 바로 이웃한 관계 이상을 나타낸다. WO 2010/130245 A1로부터 SOM에 대한 학습 규칙을 적용하는 것은 해부학적으로 동기 부여된 스켈레톤 모델의 발명의 용도에 적합한 포즈 추정을 위한 방법이 아래에 설명되도록 노드 변(node side)의 수에서 현저하게 감소되는 이러한 스켈레톤 모델에 대한 3D 포인트 클라우드로의 모델의 양호한 피팅을 더 이상 달성할 수 없다.
도 2의 a)에서, 2개의 노드 W1 및 W2는 에지에 의해 연결되는 좌측에서 볼 수 있다. 포인트 X는 토폴로지가 피팅되어야 하는 3D 포인트 클라우드로부터 무작위로 선택된 포인트를 명시한다. WO 2010/130245 A1의 가르침에 따르면, 우선 포인트 X에 가장 가까운 모델의 노드(이 경우에는 W1)가 결정되고, ε(X - W1)만큼 X 방향으로 변위된다. 여기서 ε는 양의 실수이다. 토폴로지의 의미에서 다음 이웃한 노드는 에지에 의해 W1에 연결된 노드 W2이다. 그것은 역시
Figure 112014066949081-pct00001
만큼 X 방향으로 변위된다. 변위된 노드는 우측에 표시된다. 이러한 학습 규칙은 항상 노드 사이의 에지를 단축시킨다.
스켈레톤 모델이 WO 2010/130245 A1에서와 같이 많은 노드를 포함하는 경우, 단축한 프로세스는 추가의 반복 및 노드 변위의 일부로서 시간의 과정 중에 주로 다시 보상된다. 그러나, 어떤 신체 부분과의 어떤 노드의 명확한 관련은 지속적으로 항상 가능한 것은 아니다.
그래서, 도 1의 b) 또는 c)의 해부학적 토폴로지를 사용하기 위해, 본 발명에 따르면, 새로운 학습 규칙은 항상 사람의 신체 부분과의 토폴로지의 노드, 에지 및 선택적으로 트라이앵글의 관련을 허용하는 것으로 공식화된다.
해부학적 토폴로지 - 또는 또한: 본 발명의 의미에서 해부학 스켈레톤 모델은 인체 포인트와 관련된 노드의 제 1 수 N1, 및 해부학적 사실을 만족하는 이전에 언급된 노드의 쌍의 선택으로 설명되는 에지의 제 2 수 N2로 적어도 구성되어 있다.
명확히 하기 위해: 도 1의 b)에서, 모델은 j = 1, ..., 17인 노드 Wj, 및 노드 쌍의 선택으로 나타내는 추가의 17개의 에지를 포함한다. 예를 들어 쌍(W1, W2), (W2, W3) 또는 (W4, W8)은 모델의 에지의 일부인 반면에, 쌍(W2, W6) 또는 (W10, W11)은 에지를 나타내지 않는다.
본 발명의 유리한 설계에서, 트라이앵글의 제 3 수 N3는 해부학적 모델의 일부일 수 있다. 트라이앵글은 노드의 트리플릿으로 나타내며, 노드는 트라이앵글의 에지를 명시한다.
도 1의 c)에서, 모델은 특히 노드의 트리플릿(W3, W4, W9), (W9, W4, W12) 및 (W4, W5, W12)으로 나타내는 3개의 트라이앵글으로 구성되어 있다.
트라이앵글을 해부학적 모델로 삽입하는 것은 적은 내부 이동성을 나타내고, 트라이앵글의 에지를 형성하는 노드의 상대 위치가 서로에 대해 조금만 변경되도록 일반적으로 이미지로 이동하는 (예를 들어 신체 영역에 대응하는) 물체를 모델링하는데 특히 유리하다. 이것은 예를 들어 전체 이미지에서의 사람의 몸통에 적용할 수 있지만, 또한 예를 들어 손의 클로즈업의 경우에 손바닥 또는 손등에 영향을 미칠 수 있다. 포즈 추정 방법의 사용자는 궁극적으로 항상 어떤 물체가 관찰되거나, 어떤 토폴로지가 자신의 특정 목적에 적합한 및/또는 특히 유리한 것처럼 보이는지를 스스로 결정해야 한다.
실시예에 따르면, 본 발명은 3D 포인트 클라우드로 피팅하기 위한 N1 노드, N2 에지 및 N3 트라이앵글로부터 해부학적 토폴로지에 SOM 학습 규칙을 제공하며, N1, N2 > 0 및 N3 ≥ 0. 노드, 에지 및 트라이앵글은 용어 토폴로지 요소 하에 아래에 요약된다.
SOM은 토폴로지의 노드로 식별된다. 학습 규칙은 토폴로지가 3D 포인트 클라우드에 피팅되도록 노드의 위치를 변위시키도록 지시되어 있다. 이것의 상부의 에지 및 선택적으로 트라이앵글의 사양은 각 경우에 노드의 일부 쌍 및 가능한 일부 트리플릿이 상호 연관된 학습 규칙을 준수해야 함을 의미한다.
본 발명의 실시예에 따르면, 학습 규칙은 다음과 같은 개념에 따라 형성된다. 연속적인 포즈 추정이 수행되어야 하는 이미지 시퀀스의 존재에서 시작하면, (3D 좌표계에 설명된) 노드 위치, 노드 쌍, 및 선택적으로 노드 트리플릿의 리스트인 스켈레톤 모델은 각 경우에 시퀀스의 새로운 이미지가 존재할 때 업데이트된다. 새로운 이미지가 깊이 센서 카메라에 의해 기록되고, 이미지 분할 및 투영에 의해 관찰된 물체, 예를 들어 전체 사람, 자신의 몸통, 자신의 손 등의 표면의 포인트에 대한 3D 좌표(3D 포인트 클라우드)의 리스트로 변환되자마자, 포인트 클라우드의 개별적인 포인트가 무작위로 선택되고, 이러한 포인트에 가장 가까운 토폴로지 요소가 선택된 포인트의 방향으로 변위되는 SOM 트레이닝이 일어난다. 변위는 3D 공간에서 벡터 추가에 의해 일어나며, 결과적으로 상술한 노드 위치의 리스트 내의 개개의 노드의 위치는 변경되거나 업데이트된다.
이러한 변위 후에, 3D 포인트 클라우드의 다음 포인트는 무작위로 선택되고, 지금 선택된 포인트에 가장 가까운 토폴로지 요소, 아마도 서로 다른 요소는 이러한 포인트로 변위된다. 포인트 선택 및 변위는 미리 정해진 수의 단계 동안 반복되고, 일반적인 변위 거리는 각 단계로 감소된다. 스켈레톤 모델은 궁극적으로 충분히 높은 미리 정해진 수의 단계 후에 새로운 이미지를 위해 업데이트된다.
바람직하게는, 토폴로지 요소의 적어도 1000 및 많아야 5000 변위는 스켈레톤 모델을 3D 포인트 클라우드에 피팅하기 위해 수행된다. 특히 바람직하게는 변위의 수는 2000과 3000 사이이다. 노드 위치의 다수의 1000 변위는 오늘날의 컴퓨터로 몇 밀리 초 내에 달성할 수 있다.
이것에 따르면, 선택된 포인트에 가장 가까운 토폴로지 요소에는 노드가 없다고 할 수 있다. 에지 또는 트라이앵글을 상호 관련된 방식으로 결정하는 모든 노드를 변위시킴으로써 에지 또는 트라이앵글은 변위된다. 변위는 또한 동시에 변위될 토폴로지 요소에 따라 1, 2 또는 3개의 노드에 관계할 수 있다.
가장 가까운 토폴로지 요소의 결정은 아래에서 더 상세히 설명되며, 토폴로지 요소에 대한 특정 변위 규칙이 명명된다.
먼저, 모든 토폴로지 요소의 변(side)에서의 X의 교차점은 처음에는 3D 포인트 클라우드의 포인트 X, 즉, 깊이 센서 카메라 및 후속 이미지 분할 및 투영을 이용하여 관찰되는 물체의 이미징 후에 사람의 신체 표면의 포인트를 나타내고, 이러한 모든 포인트로부터 무작위로 선택되는 3D 공간 내의 좌표 포인트에 대해 결정된다. 토폴로지 요소에 관한 X의 교차점 P는 토폴로지 요소에 의해 형성되고, 포인트 X에 가장 가까운 3D 공간의 서브 공간의 포인트이다. 프로세스에서, 노드는 노드 자체만을 포함하는 영차원(zero-dimensional) 서브 공간을 형성한다. 에지는 에지를 정의하는 노드를 통해 실행하는 3D 공간에서 직선을 형성한다. 트라이앵글은 트라이앵글을 정의하는 노드를 포함하는 3D 공간에서 평면을 형성한다.
토폴로지 요소에 의해 형성되는 서브 공간의 포인트 X에 가장 가까운 포인트는 거리 측정을 이용하여 계산된다. 3D 공간에서의 거리는 또한 임의의 놈을 사용하여 결정될 수 있다. 바람직하게는, 유클리드 놈(Euclidean norm)(또한 L2 놈 또는 피타고라스 거리)이 사용되지만, 다른 거리 측정이 또한 사용될 수 있다.
교차점 P는 토폴로지 요소가 노드인 경우에 노드에 위치되고, 그것은 여기서 바로 이러한 노드와 일치한다.
토폴로지 요소가 에지인 경우에 교차점 P는 3D 공간에서 직선 상에 위치된다.
(1) P = W + αΔW
여기서 W는 에지의 임의의 제 1 노드를 명시하고, ΔW는 에지의 제 2 노드와 제 1 노드 사이의 차분 벡터를 명시하며, α는 실수를 명시한다. 명확히 하기 위해: 에지는 노드 쌍(W, W + ΔW)에 의해 나타낸다.
토폴로지 요소가 트라이앵글인 경우에 교차점 P는 3D 공간에서의 평면 상에 위치된다. 포인트 P는 다음과 같이 나타낼 수 있다:
(2) P = W + σ1ΔW1 + σ2ΔW2
여기서 W는 트라이앵글의 임의의 제 1 노드를 명시하고, ΔW1, ΔW2는 트라이앵글의 제 2 노드 및/또는 제 3 노드와 제 1 노드 사이의 차분 벡터를 명시하며, σ1, σ2는 실수를 명시한다. 명확히 하기 위해: 트라이앵글은 노드 트리플릿(W, W + ΔW1, W + ΔW2)에 의해 나타낸다.
식 (1) 및 (2)으로부터의 계수 α, σ1, σ2는 교차점의 "토폴로지 부합 표현 계수(topology-conforming representation coefficients)"로서 아래에 명시된다. 공식적으로, 이들은 P가 결정된 토폴로지 요소에 의해 형성되는 3D 공간의 서브 공간의 비표준화 및 선택적으로 비스듬한 각의(oblique-angled) 기초에 대한 벡터 P의 성분이다. 또한, 토폴로지 요소에 관한 교차점 P는 토폴로지 요소를 결정하는 노드 좌표 벡터의 선형 조합으로 나타낸다고 말할 수 있다.
그 다음, 토폴로지 요소에 관한 포인트 X의 교차점이 이러한 토폴로지 요소 내부에 놓여 있는지가 검사된다.
정의에 의해 노드에 관한 모든 교차점은 노드 내에 놓여 있다. 마찬가지로 정의에 의해, 노드에 관한 교차점의 토폴로지 부합 표현 계수는 항상 유니티(unity)이다.
에지에 관한 교차점은 그것이 에지를 정의하는 노드 사이에 위치되는 경우에 정확히 에지 내부에 있다. 이것은 교차점이 이의 표현 계수 α가 0과 1 사이의 경우 및 경우에만 에지 내부에 놓여 있다는 것을 의미한다.
트라이앵글에 관한 교차점은 그것이 노드에 의해 정의되는 트라이앵글의 표면 내에 있을 경우에 정확히 트라이앵글 내부에 있다. 트라이앵글에 관한 교차점의 경우, 이것은 이의 표현 계수 σ1, σ2 및 이의 합 σ1 + σ2이 0과 1 사이에 있을 경우 및 경우에만 그 케이스이다.
토폴로지 요소로부터 3D 포인트 클라우드의 포인트 X의 거리는 X와 교차점 P 사이의 차분 벡터 D의 놈, 즉 다음의 D: = X - P로서 계산될 수 있다. 바람직하게는 유클리드 놈이 이용된다. 이러한 방식으로, 거리
Figure 112014066949081-pct00002
가 토폴로지 요소의 각각에 대해 계산된다 - 여기서,
Figure 112014066949081-pct00003
은 3D 포인트 클라우드 및 또한 스켈레톤 모델 모두가 설명되는 종래의 3D 좌표계에 관한 벡터 X 및 P의 실수 성분들임 -
토폴로지 요소로부터의 포인트 X의 거리는 토폴로지 요소에 관한 교차점 P가 토폴로지 요소 내에 있는 경우에만 추가로 사용된다. 이러한 경우가 아니라면, 교차점은 폐기되고, 거리가 계산되지 않거나 계산된 거리는 결과적으로 무시된다.
이러한 선택은 추가 처리하는 동안 실제로 스켈레톤 모델을 피팅하기 위해 제공하는 이러한 거리만이 고려된다. 포인트 X는 예를 들어 사람의 몸통을 나타내는 트라이앵글에 의해 형성되는 3D 공간에서의 평면에 정확히 있을 수 있다. 그 후, 교차점 P는 X와 일치하고, 거리 d는 제로이다. 그러나, 동시에 포인트가 오른손을 나타내는 노드의 위치의 근처에 위치되고, 오른팔이 신체에서 떨어져 연장되는 경우, X로부터의 평면의 숫자 거리가 X로부터의 노드의 숫자 거리보다 작을지라라도 변위 규칙은 노드에 적용되고 몸통의 트라이앵글에는 적용되지 않아야 한다.
최소를 찾음으로써, 모든 계산된 거리들 - 그리고 평가에서 남아있는 거리들 - 로부터, 포인트 X에 가장 가깝고, 즉 X로부터 가장 작은 거리를 나타내는 토폴로지 요소가 식별된다.
본 발명에 따르면, 식별된 토폴로지 요소는 이제 변위되고, 토폴로지 요소를 정의하는 노드는 아마도 공동으로 변위된다.
포인트 X에 가장 가까운 토폴로지 요소가 노드이면, 변위는 다음에 따라 일어난다:
Figure 112014066949081-pct00004
이는 이미 종래 기술에서 알려져 있다. WO 2010/130245 A1의 식 (4)에서는 또한 반복 단계의 함수인 학습율
(5)
Figure 112014066949081-pct00005
이 설명된다. 여기서 εi 및 εf는 학습율의 미리 정해진 시작 및 종료 값이고, tmax는 학습 단계의 미리 정해진 최대 수이다. 실행 지수 t는 학습 단계(반복)를 tmax까지 카운트한다. 3D 포인트 클라우드의 각각의 새롭게 선택된 포인트 X의 경우, 분자 t는 tmax에 도달할 때까지 1씩 증가된다. 학습율에 대한 바람직한 조건은 εi = 0.5 및 εf = 0.01이다.
포인트 X에 가장 가까운 토폴로지 요소가 에지이면, 변위는 다음 식에 따라 일어난다:
Figure 112014066949081-pct00006
도 2의 b)에서, 에지(W, W + ΔW), 3D 포인트 클라우드의 포인트 X, 및 에지에 관한 관련된 교차점 P 및 차분 벡터 D = X - P가 그려져 있다. 토폴로지 부합 표현 계수 α는 노드 W에서 시작하고, 포인트 P에 도달하는 방향 ΔW로 걸어야 하는 에지 길이
Figure 112014066949081-pct00007
의 부분으로 간주되어야 한다. 분명하게는 그것은 도 2의 b)에서 0 <α <1이며, 따라서 교차점이 에지의 내에 있는 경우이다.
도 2의 c)는 두 노드의 변위를 설명한다. 둘 다는 벡터 D = X - P의 방향으로 이동되고, 즉 종래 기술에서와 같이 X로 직접 이동되지 않는다. 포인트 X가 노드 W + ΔW보다 노드 W에 더 가까운 경우, 이것은 또한 교차점 P에 대해 적용하여 결과적으로 α < 0.5이다. 그 다음, 노드 W는 노드 W + ΔW보다 더 변위된다. 이러한 방식으로, 전체 에지는 노드로부터의 X 및/또는 P의 거리에 따라 가중된 포인트 X에 접근한다.
포인트 X에 가장 가까운 토폴로지 요소가 트라이앵글인 경우, 변위는 다음의 식에 따라 일어난다:
Figure 112014066949081-pct00008
도 3은 트라이앵글에 대한 변위 규칙을 도시한다.
도 3의 a)는 스켈레톤 모델의 시작 트라이앵글 및 무작위로 선택된 포인트 X를 도시한다. X와 관련된 교차점 P는 트라이앵글 평면에 위치하고, 식 (2)에 따라 노드 좌표 벡터의 선형 조합으로 나타낼 수 있다. 예시를 위해, 표현 계수 σ1, σ2는 트라이앵글의 변에 표시되어 있다. 이들은 트라이앵글의 변의 길이의 부분으로서 도 2의 b)에서의 계수 α와 유사하게 해석되어야 한다. 트라이앵글로부터의 X의 거리가 벡터 D = X - P의 놈으로 계산되고, 추가의 계산 동안에 이용되도록 교차점은 트라이앵글 내에 있다. 이러한 거리가 스켈레톤 모델의 모든 토폴로지 요소로부터의 X의 최소 거리인 것으로 나타내면, 트라이앵글은 변위된다.
변위된 트라이앵글은 도 3의 b)에 설명되어 있다. 여기서도 모든 노드, 및 이들과 함께 또한 트라이앵글의 변 및 트라이앵글의 표면에서의 모든 포인트는 변위되며, 이에 따라 포인트 X 및 P로부터 노드의 원래의 거리로 가중된다. 거리에 의한 가중은 불필요한 에러가 방지되므로 포즈 추정의 효율성에 중요하다. 이러한 이점은 특히 도 3의 b)를 볼 때 쉽게 이해될 수 있다: 포인트 P가 트라이앵글을 확립하는 3개의 노드 중 하나에 매우 가까운 경우, 다른 2개의 노드가 기본적으로 자신의 위치를 유지하는 동안 거의 이러한 가장 가까운 노드만이 이동되도록 트라이앵글은 변위된다. 따라서, 여기에 설명된 방법에서 노드, 에지 및 트라이앵글 변위 사이에는 "순조로운 이행(smooth transition)"이 있다.
도 2의 c)로부터, 에지(W, W + ΔW)는 결코 학습 규칙 (6) 및 (7)을 적용함으로써 짧아지지 않고, 상당히 가능하게 확장될 수 있다는 것이 쉽게 인식될 수 있다. 식 (8) 내지 (10)의 학습 규칙을 적용할 때 트라이앵글(W, W + ΔW1, W + ΔW2)의 변에 대해서도 동일한 사실이 유지된다.
그래서, 과도해지는 에지 길이 및 트라이앵글 변의 길이가 트레이닝 중에는 획득되지 않도록, 본 발명의 추가의 실시예에서 "단축 파라미터(shrinking parameter)" δ가 도입된다. 그것은 예를 들어 δ = 0.05로 설정될 수 있다. 동시에, 학습 규칙은 변위 중에 노드가 서로를 향해 약간 이동되도록 수정된다.
바람직하게는 규칙 (6) 및 (7) 대신에
Figure 112014066949081-pct00009
이 이용되고, 규칙 (8) 내지 (10)의 식 대신에
Figure 112014066949081-pct00010
이 이용된다.
설명된 방법은 도 1에서와 같이 인체 해부학에 따라 모델링되는 스켈레톤 모델의 노드의 변위를 계산함으로써 인간 포즈를 추정하기 위해 이용될 수 있다. 그러나, 또한, 동일한 방법이 동물의 움직임 또는 이동하는 로봇의 움직임에 유사하게 적용될 수 있다는 것이 자명하다. 본 발명은 상호 연결되고, 서로에 대해 이동할 수 있으며, 노드, 에지 및 선택적으로 트라이앵글로부터의 스켈레톤 모델이 편리하게 정의될 수 있는 부분으로 구성되는 모든 물체의 포즈 추정을 포함할 수 있다.
스켈레톤 모델은 토폴로지의 노드에 대한 3D 좌표와, 에지 및 트라이앵글을 확립하기 위해 미리 정해진 노드 쌍 및 선택적으로 노드 트리플릿를 가진 리스트를 갖는 테이블이다. 노드 쌍 및 노드 트리플릿의 리스트는 변경될 수 없으며, 노드 좌표만이 포즈 추정을 실행하는 동안 변경할 수 있다. 노드 좌표를 갖는 테이블은 전자 메모리에서 이용 가능하며, 연산 유닛에 의해 판독될 수 있다. 연산 유닛은 깊이 센서 카메라 및 이로부터 결정된 3D 포인트 클라우드로부터 유사하게 저장된 이미지을 이용하여 포인트 클라우드로의 스켈레톤 모델의 연속적인 피팅에 대한 노드 위치의 변위를 결정한다.
포인트 클라우드로의 해부학적 모델의 피팅, 결과적으로 SOM의 트레이닝은 본 발명의 실시예에 따라 일어나고, 다음에 의해 요약된다:
a. 3D 포인트 클라우드의 데이터 포인트 X를 무작위로 선택하는 단계;
b. 토폴로지 요소에 관련하여 X에 대한 교차점 P를 계산하고, 적어도 하나의 토폴로지 부합 표현 계수를 결정하는 단계;
c. 교차점이 토폴로지 요소 내에 놓여 있지 않을 경우에 교차점을 폐기하는 단계:
d. 차분 벡터 X - P의 놈으로서 X에서 토폴로지 요소까지의 거리를 계산하는 단계;
e. 해부학적 모델의 모든 토폴로지 요소에 대해 단계 b 내지 d를 반복하는 단계;
f. X로부터의 최소 거리를 나타내는 토폴로지 요소를 결정하는 단계;
g. 벡터 X - P의 방향에 토폴로지 요소를 확립하는 모든 노드를 변위시킴으로써 단계 f 하에 결정된 토폴로지 요소를 변위시키는 단계로서, 변위 벡터는 학습율과, 단계 e 하에 결정된 토폴로지 요소에 관련하여 X에 대한 교차점 P의 토폴로지 부합 표현 계수로부터 생성되는 가중치와 곱해지는 단계; 및
h. 학습율을 점진적으로 감소시키면서 미리 정해진 수의 학습 단계에 대해 단계 a 내지 g를 반복하는 단계.
단계 g에서 언급된 가중치가 어떻게 토폴로지 부합 표현 계수로부터 생성되는지의 정확한 방식은 식 (6) 내지 (10)에서 알 수 있거나, 대안적인 식 (11) 내지 (15)으로서, 후자의 식은 추가적인 미리 정해진 파라미터 δ를 포함한다. 정의에 의해, 노드인 토폴로지 요소의 변위에 대한 가중치는 식 (4)에 따른 유니티이다.
미리 정해진 수의 학습 단계가 도달되었다면, 연산 유닛은 스켈레톤 모델의 모든 노드에 대해 변위된 좌표를 계산하였다. 변위된 좌표는 대체로 모든 노드에 대해 원래 표로 된 노드 좌표로부터 벗어나지만, 예외적인 경우에는 또한 개개의 노드에 대해 동일할 수 있다.
변위된 노드 좌표는 연산 유닛에 의해 전자 메모리에 기록되며, 원래의 좌표 엔트리는 i) 오버라이트(overwrite)되거나, ii) 구식이고 더 이상 추가의 학습 단계에 이용되지 않는다. 이러한 방식으로, 노드 좌표는 전자 메모리의 테이블에서 업데이트된다. 바람직하게는, 미리 정해진 수의 학습 단계를 한번만 통과한 후에 전자 메모리의 테이블에서 노드 좌표를 업데이트하는 단계를 수행하여, 깊이 센서 카메라로부터의 이미지 시퀀스의 연속적인 이미지와 이로부터 결정된 포인트 클라우드를 이용하여 단계 a 내지 h의 다음 통과를 시작할 수 있다.
마찬가지로, 또한, 동일한 포인트 클라우드가 번갈아 노드 좌표의 복수의 변위를 계산하도록 학습 단계를 순환할 수 있다. 그 다음, 복수의 변위는 예를 들어 산술적으로 평균화될 수 있고, 노드 좌표는 단지 평균화된 변위와 함께 전자 메모리의 테이블에서 업데이트된다. 이러한 절차는 계산의 측면에서 더욱 복잡해져 더 느리지만, 또한 (예를 들어 포인트 클라우드가 또한 무작위로 선택되는 아웃사이더(outsider) 위치를 가진 포인트를 포함할 경우에) 우연히 발생하는 어떤 불리한 변위를 효과적으로 억제할 수 있다.
그래서, 대체적으로, 노드 좌표를 업데이트하는 것은 미리 정해진 수의 학습 단계의 K 패스 후에 발생하며, K ≥ 1이다.
도 1의 b)로부터의 스켈레톤 모델에 의한 본 발명의 포즈 추정 방법에 대한 예시적인 실시예는 비디오 시퀀스로부터의 예시적인 이미지를 이용하는 도 4에서 제시되어 있다. 깊이 센서 카메라의 비디오 이미지는 그 자체가 알려져 있는 이미지 분할을 이용하여 이동하는 사람을 나타내는 3D 포인트 클라우드를 지속적으로 제공한다. 해부학 스켈레톤 모델은 위에서 설명한 학습 규칙을 이용하여 실시간으로 피팅되고, 사람의 서로 다른 신체 부분과 모델 노드의 관련은 도 4로부터 명백히 알 수 있는 바와 같이 내내 정확하게 유지된다.
강력한 연관 노드, 이제 달성되는 신체 부분은 예를 들어 단순히 오른손의 움직임을 추적함으로써 제스처 제어에 의해 현저히 더 안정적인 명령어 입력을 허용한다. 스켈레톤 노드의 위치를 해석하는 기계는 필요 시 나머지 모델 노드를 무시할 수 있거나, 또한 이들을 추가적인 입력으로 분류할 수 있다. 따라서, 예를 들면, 오른손과 왼손의 움직임을 동시에 및 별도로 추적하고 해석함으로써 보다 복잡한 입력을 수행하는 것이 가능하다. 왼손을 머리의 수준으로 들어 올리는 것은 예를 들어 키보드 상에 어떤 키(예를 들어, 시프트 키)를 누르거나 오른손의 입력을 위한 명령어 해석의 다른 세트를 검색하는 것과 같을 수 있다.
깊이 센서 카메라에 의한 2½의 D 이미지의 고속 검출 및 제공에 더하여, 상술한 방법은 또한 적어도 일시적으로 측정 데이터를 저장하고, 해부학 스켈레톤 모델의 토폴로지 요소의 위치 좌표를 저장하기 위한 전자 메모리를 필요로 하며, 또한 상술한 계산을 수행하고 특히 메모리 내에서 토폴로지 요소의 위치 좌표의 지속적인 업데이트를 유발시키는 메모리와 통신하는 전자 연산 유닛을 필요로 한다. 더욱이, 동일한 연산 유닛은 그 자체로 일시적으로 보조를 맞추는 각각의 현재의 스켈레톤 모델을 해석하고 예를 들어 그것을 하위 장치를 위한 제어 명령어로 변환하거나, 아마도 추가의 해석을 위해 선택된 노드 위치만을 출력할 수 있다.
처음에 설명된 바와 같이, 포즈 추정을 위해 설명된 방법은 장치, 특히 연산 유닛에 의해 수행될 수 있다. 연산 유닛은 상업적으로 이용 가능한 프로그램 가능 마이크로 프로세서일 수 있지만, 또한 FPGA 또는 ASIC를 사용하는 것이 가능하다. 본 발명의 추가의 실시예는 연산 유닛에 의해 수행될 수 있고, 연산 유닛이 포즈 추정을 위해 여기에 설명된 계산을 수행하도록 할 수 있는 명령어를 저장하는 저장 매체에 관한 것이다.
거리 좌표를 결정하기 위한 연산 유닛을 포함하는 깊이 센서 카메라는 특히 또한 본 발명의 방법을 수행하도록 직접 설계될 수 있다. 본 발명에 따라 설계된 적어도 하나의 연산 유닛을 가진 구조적 유닛으로서의 그런 카메라는 이에 따라 이동하는 사람의 이미지를 자신의 필수적인 신체 부분의 3D 좌표로 직접 변환하는데 적합하다. 그러나, 이것은 지금까지 일반적이었던 사람의 신체 상의 마커가 생략 될 수 있는 모션 캡쳐 장치에 필적한다.

Claims (9)

  1. 3D 포인트 클라우드들의 시퀀스로 연속하여 피팅(fit)되는 스켈레톤 모델의 노드들의 3D 위치 좌표들의 변위들의 컴퓨터 계산에 의해 이동하는 물체(moving object)의 포즈 추정을 위한 방법으로서,
    노드 좌표들은 전자 메모리에서 테이블 형태로 존재하고, 상기 3D 포인트 클라우드들은 상기 이동하는 물체를 나타내는 깊이 센서 카메라의 전자적으로 기록된 이미지들로부터 결정되며,
    상기 스켈레톤 모델은 토폴로지 요소들로서 N1 노드들, N2 에지들, 및 N3 트라이앵글들을 제시하는 토폴로지이며, N1, N2 > 0이고 N3 ≥ 0이며, 각 토폴로지 요소는 노드들, 노드 쌍들, 또는 노드 트리플릿들에 의해 기술되고 상기 이동하는 물체의 부분에 확고히(firmly) 할당되며, 연산 유닛은 다음의 단계들:
    a. 3D 포인트 클라우드의 데이터 포인트 X를 무작위로 선택하는 단계;
    b. 각 토폴로지 요소에 관련하여 X에 대한 교차점 P를 계산하고, P가 각각의 경우에서 토폴로지 요소 내부에 놓여 있는지를 식별하는 단계;
    c. 차분 벡터 X - P의 놈(norm)으로서 X에서 각 토폴로지 요소까지의 거리를 계산하는 단계;
    d. 교차점 P가 토폴로지 요소 내에 놓여 있는 모든 토폴로지 요소들 중에서 X로부터 최소 거리를 나타내는 토폴로지 요소를 결정하는 단계;
    e. 벡터 X - P의 방향에 토폴로지 요소를 확립하는 모든 노드들을 변위시킴으로써 단계 d에서 결정된 토폴로지 요소를 변위시키는 단계 - 노드에 대한 변위 벡터는 학습율(learning rate), 및 단계 d에서 결정된 토폴로지 요소에 관련하여 X에 대한 교차점 P로부터 생성되는 가중치와 곱해짐 -;
    f. 학습율을 점진적으로 감소시키면서 미리 정해진 수의 학습 단계들에 대해 단계 a 내지 e를 반복하는 단계;
    g. 미리 정해진 수의 학습 단계들의 K 패스(pass)들(K ≥ 1) 후에 전자 메모리의 테이블에서 노드 좌표들을 업데이트하는 단계;
    h. 추가의 처리를 위해 테이블에서 업데이트된 적어도 노드 좌표들을 제공하는 단계
    를 수행하는,
    이동하는 물체의 포즈 추정을 위한 방법.
  2. 제 1 항에 있어서,
    단계 b에서, 토폴로지 요소에 관한 상기 교차점 P는 상기 토폴로지 요소를 확립하는 노드 좌표 벡터들의 선형 조합으로 표현되며, P가 상기 토폴로지 요소 내부에 놓여 있는지 여부가 표현 계수들로부터 결정되는,
    이동하는 물체의 포즈 추정을 위한 방법.
  3. 제 2 항에 있어서,
    단계 e에서의 가중치는 P의 상기 표현 계수들로부터 계산되는,
    이동하는 물체의 포즈 추정을 위한 방법.
  4. 제 1 항에 있어서,
    상기 단계 a 내지 e의 반복 횟수는 1000 내지 5000 사이인,
    이동하는 물체의 포즈 추정을 위한 방법.
  5. 제 1 항에 있어서,
    상기 학습율은 시작 값 0.5와 종료 값 0.01 사이에 있는,
    이동하는 물체의 포즈 추정을 위한 방법.
  6. 제 1 항에 있어서,
    장치가 업데이트된 노드 좌표들의 상기 테이블로부터의 정보에 기초하여 제어되도록 하는 제어 명령들을 생성하는 단계, 및 상기 제어 명령들에 의해 제어되도록 상기 장치를 제어하는 단계를 더 포함하는,
    이동하는 물체의 포즈 추정을 위한 방법.
  7. 제 1 항에 있어서,
    상기 단계 a 내지 e의 반복 횟수는 2000 내지 3000 사이인,
    이동하는 물체의 포즈 추정을 위한 방법.
  8. 이동하는 물체의 포즈 추정을 위한 장치에 있어서,
    상기 이동하는 물체의 전자 이미지들을 검출하기 위한 깊이 센서 카메라,
    상기 깊이 센서 카메라의 상기 전자 이미지들을 저장하기 위한 전자 메모리, 및
    상기 카메라에 의한 이미지 레코딩와 함께 시간적으로 보조를 맞추어(temporally in step) 상기 전자 이미지들로부터 물체를 나타내는 3D 포인트 클라우드를 결정하도록 설계되는 연산 유닛을 포함하는데,
    상기 메모리는 추가로 스켈레톤 모델의 노드들에 대한 3D 좌표들의 리스트를 저장하고, 상기 연산 유닛은 개개의 노드들, 미리 결정된 노드 쌍들, 및 미리 결정된 노드 트리플릿들에 대한 이러한 좌표들을 상기 스켈레톤 모델의 토폴로지 요소들의 표현으로서 판독하고 변경할 수 있으며,
    상기 연산 유닛은 추가로, 상기 물체를 나타내는 상기 3D 포인트 클라우드를 결정한 후에, 다음의 단계:
    a. 상기 3D 포인트 클라우드의 데이터 포인트 X를 무작위로 선택하는 단계;
    b. 각 토폴로지 요소에 관련하여 X에 대한 교차점 P를 계산하고, P가 각각의 경우에서 토폴로지 요소 내부에 놓여 있는지를 식별하는 단계;
    c. 차분 벡터 X - P의 놈으로서 X에서 각 토폴로지 요소까지의 거리를 계산하는 단계;
    d. 교차점 P가 토폴로지 요소 내에 놓여 있는 모든 토폴로지 요소들 중에서 X로부터 최소 거리를 나타내는 토폴로지 요소를 결정하는 단계;
    e. 벡터 X - P의 방향에 토폴로지 요소를 확립하는 모든 노드들을 변위시킴으로써 단계 d에서 결정된 토폴로지 요소를 변위시키는 단계 - 노드에 대한 변위 벡터는 학습율, 및 단계 d에서 결정된 토폴로지 요소에 관련하여 X에 대한 교차점 P로부터 생성되는 가중치와 곱해짐 -;
    f. 상기 학습율을 점진적으로 감소시키면서 미리 정해진 수의 학습 단계들에 대해 상기 단계 a 내지 e를 반복하는 단계;
    g. 미리 정해진 수의 학습 단계들의 K 패스들(K ≥ 1) 후에 전자 메모리의 테이블에서 노드 좌표들을 업데이트하는 단계;
    h. 추가의 처리를 위해 상기 테이블에서 업데이트된 적어도 상기 노드 좌표들을 제공하는 단계
    를 실행하도록 설계되는.
    이동하는 물체의 포즈 추정을 위한 장치.
  9. 연산 유닛에 의해 실행되면, 상기 연산 유닛이 제 1 항 내지 제 7 항 중 어느 한 항에 따른 방법을 실행하도록 하는 명령들을 저장하는 컴퓨터 판독가능 저장 매체.
KR1020147019900A 2011-12-16 2011-12-16 포즈를 추정하기 위한 방법 및 장치 KR101812379B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2011/006388 WO2013087084A1 (de) 2011-12-16 2011-12-16 Verfahren und vorrichtung zur schätzung einer pose

Publications (2)

Publication Number Publication Date
KR20140101439A KR20140101439A (ko) 2014-08-19
KR101812379B1 true KR101812379B1 (ko) 2017-12-27

Family

ID=45464487

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147019900A KR101812379B1 (ko) 2011-12-16 2011-12-16 포즈를 추정하기 위한 방법 및 장치

Country Status (8)

Country Link
US (1) US9159134B2 (ko)
EP (1) EP2791903B8 (ko)
JP (1) JP5931215B2 (ko)
KR (1) KR101812379B1 (ko)
CN (1) CN103999126B (ko)
CA (1) CA2858398C (ko)
ES (1) ES2558558T3 (ko)
WO (1) WO2013087084A1 (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159134B2 (en) * 2011-12-16 2015-10-13 Universitat Zu Lubek Method and apparatus for estimating a pose
KR101514731B1 (ko) * 2014-09-05 2015-04-28 동국대학교 산학협력단 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법
US9978176B2 (en) * 2015-06-26 2018-05-22 Electronic Arts Inc. Simplifying small mesh components with redundant backs
JP2017107503A (ja) * 2015-12-11 2017-06-15 株式会社リコー 情報処理装置、情報処理方法、プログラムおよびシステム
CN106918336A (zh) * 2015-12-25 2017-07-04 积晟电子股份有限公司 惯性测量模块及其惯性测量方法
US10922894B2 (en) * 2016-06-06 2021-02-16 Biodigital, Inc. Methodology and system for mapping a virtual human body
KR101851303B1 (ko) 2016-10-27 2018-04-23 주식회사 맥스트 3차원 공간 재구성 장치 및 방법
KR102647351B1 (ko) * 2017-01-26 2024-03-13 삼성전자주식회사 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치
CN107169453B (zh) * 2017-05-16 2020-07-17 湖南巨汇科技发展有限公司 一种基于深度传感器的坐姿检测方法
CN107481280B (zh) * 2017-08-16 2020-05-15 北京优时尚科技有限责任公司 一种骨骼点的矫正方法及计算设备
CN107832736B (zh) * 2017-11-24 2020-10-27 南京华捷艾米软件科技有限公司 实时人体动作的识别方法和实时人体动作的识别装置
US10621788B1 (en) * 2018-09-25 2020-04-14 Sony Corporation Reconstructing three-dimensional (3D) human body model based on depth points-to-3D human body model surface distance
US10902638B2 (en) 2018-09-28 2021-01-26 Wipro Limited Method and system for detecting pose of a subject in real-time
CN110246181B (zh) * 2019-05-24 2021-02-26 华中科技大学 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
JP7102618B2 (ja) * 2019-07-09 2022-07-19 株式会社ソニー・インタラクティブエンタテインメント スケルトンモデル更新装置、スケルトンモデル更新方法及びプログラム
CN110458177B (zh) * 2019-07-12 2023-04-07 中国科学院深圳先进技术研究院 图像深度信息的获取方法、图像处理装置以及存储介质
US11288841B2 (en) * 2019-10-17 2022-03-29 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for patient positioning
CN110664438B (zh) * 2019-10-22 2021-09-10 深圳瀚维智能医疗科技有限公司 超声扫查轨迹规划方法、装置、存储介质及计算机设备
CN110795491B (zh) * 2019-11-05 2023-06-06 上海波客实业有限公司 一种结构参数信息可视化方法
CN111062105B (zh) * 2019-11-07 2023-07-21 郑州大学 一种基于强化学习的区域规划设计方法
US11645756B2 (en) * 2019-11-14 2023-05-09 Samsung Electronics Co., Ltd. Image processing apparatus and method
US11393101B2 (en) 2020-02-24 2022-07-19 Harman International Industries, Incorporated Position node tracking
CN113301493A (zh) * 2020-02-24 2021-08-24 哈曼国际工业有限公司 位置节点跟踪
CN111368733B (zh) * 2020-03-04 2022-12-06 电子科技大学 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端
CN112688991B (zh) * 2020-12-15 2022-11-04 北京百度网讯科技有限公司 用于执行点云扫描操作的方法、相关装置及存储介质
DE102021111917A1 (de) 2021-05-07 2022-11-10 Christian Stolz Vorrichtung und Verfahren zur Ermittlung mindestens eines Mobilitätsparameters eines Lebewesens, sowie Verwendung einer Bilderfassungs- und einer Ermittlungseinrichtung
CN113190720B (zh) * 2021-05-17 2023-01-17 深圳计算科学研究院 一种基于图压缩的图数据库构建方法、装置及相关组件
KR102640496B1 (ko) * 2022-04-27 2024-02-23 한국로봇융합연구원 사용자의 모션정보를 기반으로 상호 작용을 지원하는 키네틱 제어 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010130245A1 (de) 2009-05-11 2010-11-18 Universität Zu Lübeck Verfahren zur echtzeitfähigen, rechnergestützten analyse einer eine veränderliche pose enthaltenden bildsequenz

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715166A (en) * 1992-03-02 1998-02-03 General Motors Corporation Apparatus for the registration of three-dimensional shapes
US9208558B2 (en) * 1999-08-11 2015-12-08 Osteoplastics Llc Methods and systems for producing an implant
US6440067B1 (en) * 2000-02-28 2002-08-27 Altec, Inc. System and method for remotely monitoring functional activities
DE10237310B4 (de) * 2002-08-14 2006-11-30 Wismüller, Axel, Dipl.-Phys. Dr.med. Verfahren, Datenverarbeitungseinrichtung und Computerprogrammprodukt zur Datenverarbeitung
WO2008014826A1 (en) * 2006-08-03 2008-02-07 Alterface S.A. Method and device for identifying and extracting images of multiple users, and for recognizing user gestures
US8351646B2 (en) * 2006-12-21 2013-01-08 Honda Motor Co., Ltd. Human pose estimation and tracking using label assignment
US8374388B2 (en) * 2007-12-28 2013-02-12 Rustam Stolkin Real-time tracking of non-rigid objects in image sequences for which the background may be changing
CN101246602B (zh) * 2008-02-04 2010-09-08 东华大学 基于几何骨架的人体姿态重建方法
US8401342B2 (en) * 2009-01-16 2013-03-19 A9.Com, Inc. System and method to match images using topologically equivalent correspondences
CN102136139B (zh) * 2010-01-22 2016-01-27 三星电子株式会社 目标姿态分析装置及其目标姿态分析方法
CN101789125B (zh) * 2010-01-26 2013-10-30 北京航空航天大学 一种无标记单目视频人体骨架运动跟踪方法
EP2385483B1 (en) * 2010-05-07 2012-11-21 MVTec Software GmbH Recognition and pose determination of 3D objects in 3D scenes using geometric point pair descriptors and the generalized Hough Transform
US8620050B2 (en) * 2010-09-23 2013-12-31 Siemens Aktiengesellschaft System and method for 2-D/3-D registration between 3-D volume and 2-D angiography
EP2543960A1 (de) * 2011-07-05 2013-01-09 Hexagon Technology Center GmbH Verfahren zum Bereitstellen von Zielpunktkandidaten zur Auswahl eines Zielpunkts
US9159134B2 (en) * 2011-12-16 2015-10-13 Universitat Zu Lubek Method and apparatus for estimating a pose

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010130245A1 (de) 2009-05-11 2010-11-18 Universität Zu Lübeck Verfahren zur echtzeitfähigen, rechnergestützten analyse einer eine veränderliche pose enthaltenden bildsequenz

Also Published As

Publication number Publication date
KR20140101439A (ko) 2014-08-19
JP5931215B2 (ja) 2016-06-08
US20140328519A1 (en) 2014-11-06
WO2013087084A1 (de) 2013-06-20
US9159134B2 (en) 2015-10-13
EP2791903B8 (de) 2016-03-02
JP2015505089A (ja) 2015-02-16
EP2791903A1 (de) 2014-10-22
CA2858398A1 (en) 2013-06-20
ES2558558T3 (es) 2016-02-05
CA2858398C (en) 2018-08-14
CN103999126B (zh) 2017-02-15
CN103999126A (zh) 2014-08-20
EP2791903B1 (de) 2015-11-04

Similar Documents

Publication Publication Date Title
KR101812379B1 (ko) 포즈를 추정하기 위한 방법 및 장치
Zheng et al. Hybridfusion: Real-time performance capture using a single depth sensor and sparse imus
JP5167248B2 (ja) 深度マップによるヒューマノイド形状のモデル化
JP4148281B2 (ja) モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム
US11721114B2 (en) Method, system, and device of generating a reduced-size volumetric dataset
KR101650799B1 (ko) 가변 자세를 포함하는 이미지를 컴퓨터를 사용하여 실시간으로 분석하는 방법
CN108475439B (zh) 三维模型生成系统、三维模型生成方法和记录介质
KR101616926B1 (ko) 영상 처리 장치 및 방법
JP2009536731A5 (ko)
JP7367764B2 (ja) 骨格認識方法、骨格認識プログラムおよび情報処理装置
US20150206003A1 (en) Method for the Real-Time-Capable, Computer-Assisted Analysis of an Image Sequence Containing a Variable Pose
KR20130088507A (ko) 인체의 관절구조를 추정하기 위한 장치 및 방법
KR20160121379A (ko) 골프 동작 분석 장치 및 방법
US20130069939A1 (en) Character image processing apparatus and method for footskate cleanup in real time animation
CN109407824B (zh) 人体模型的同步运动方法与装置
Jatesiktat et al. Personalized markerless upper-body tracking with a depth camera and wrist-worn inertial measurement units
WO2020026677A1 (ja) 検出装置、処理装置、検出方法、及び処理プログラム
Cordea et al. 3D head pose recovery for interactive virtual reality avatars
KR102623494B1 (ko) 포즈인식 패키지를 이용한 보행 분석 장치, 방법 및 프로그램 기록 매체
JP7147848B2 (ja) 処理装置、姿勢解析システム、処理方法、及び処理プログラム
JP2023003929A (ja) 骨格認識方法、骨格認識プログラム、および体操採点支援システム
KR101845246B1 (ko) 하이브리드 센서를 이용한 실감 동작 생성 방법 및 장치
CN113724363A (zh) 数据的迁移方法及装置、电子设备、可读存储介质
JP2022037506A (ja) 検出装置、処理装置、検出方法、及び処理プログラム
JPH07225858A (ja) 画像処理装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant