KR20220161340A

KR20220161340A - 이미지 처리 시스템 및 방법

Info

Publication number: KR20220161340A
Application number: KR1020227034363A
Authority: KR
Inventors: 켄타로 와다; 에스카밀라 에드가 안토니오 수카르; 스티븐 로이드 제임스; 다니엘 제임스 렌튼; 앤드류 데이비슨
Original assignee: 임피리얼 컬리지 이노베이션스 리미티드
Priority date: 2020-03-31
Filing date: 2021-03-29
Publication date: 2022-12-06
Also published as: GB202004673D0; US20230020713A1; GB2593718B; GB2593718A; JP2023519725A; CN115668282A; WO2021198665A1; US12260582B2

Abstract

3차원 장면 내의 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법은: 3차원 장면의 뷰를 나타내는 이미지 데이터 및 연관된 깊이 정보를 획득하는 단계; 이미지 데이터 및 연관된 깊이 정보를 처리하여 타겟 객체를 포함하는 3차원 장면 내의 복수의 객체들 각각에 대한 볼류메트릭 재구성을 생성하는 단계; 타겟 객체를 포함하는 볼류메트릭 그리드를 결정하는 단계; 생성된 볼류메트릭 재구성을 사용하여, 자유 공간에 의해 점유되는 볼류메트릭 그리드의 부분들 및 타겟 객체 이외의 객체들에 의해 점유된 볼류메트릭 그리드의 부분들을 나타내는 점유 데이터를 생성하는 단계; 및 생성된 점유 데이터, 및 타겟 객체의 표면 상의 복수의 지점들에 대한 점별 특징 데이터를 사용하여 타겟 객체의 포즈를 추정하는 단계를 포함한다.

Description

이미지 처리 시스템 및 방법

본 발명은 3차원 장면 내의 객체들의 포즈들을 결정하기 위해 이미지 데이터 및 연관된 깊이 정보를 처리하는 것에 관한 것이다.

로봇이 환경 내의 물리적 객체들을 조작하거나 그 외 이들과 상호작용하기 위해 사용되는 상황들에서, 로봇이 소정의 좌표계에 대한 물리적 객체들의 위치들 및 배향들을 정확하게 결정하는 것이 중요하다. 이 작업은 포즈 예측으로서 지칭된다. 포즈 예측은 다수의 다른 분야들, 예를 들어, 자율 차량을 위한 자율 주행 시스템(ADS) 또는 진보된 운전자 보조 시스템(ADAS)과 관련되며, 여기서 차량 또는 보행자와 같은 개체의 기지의 포즈는 개체가 어떻게 거동할 것인지를 예측하는 데 유용하다.

포즈 예측을 위한 방법들의 가장 초기의 예들 중 일부는 템플릿 기반 방법들이며, 여기서 객체의 템플릿들이 오프라인 훈련 스테이지 동안 상이한 뷰포인트들로부터 취해진 이미지들로부터 유도된 후, 미리 결정된 거리 메트릭에 따라 최상의 매치를 찾기 위해 테스트 시간에 객체를 포함하는 이미지에 걸쳐 스캐닝된다. 추가의 예들은 희소(sparse) 특징 기반 방법들을 포함하며, 여기서 스케일 불변 관심 지점들이 훈련 시간에 객체의 이미지들로부터 추출되고, SIFT 또는 SURF와 같은 로컬 디스크립터들과 연관된다. 로컬 디스크립터들은 RANSAC와 같은 방법을 사용하여 테스트 시간에 객체를 포함하는 이미지에 매칭된다.

예를 들어 입체 카메라들, 적외선 카메라들, 소나(sound navigation ranging), 및 LIDAR(light detection and ranging) 시스템들을 포함하는 센서 기술에서의 최근의 진보들은 정확한 깊이 정보가 종래의 2차원 이미지들과 함께 캡처되게 하여, 예를 들어, RGB-D 이미지 포맷을 생성한다. 이러한 깊이 정보는 정확도 개선을 위해 특정 포즈 예측 방법들에 의해 활용된다. 예들은 객체에 대한 3차원 지점 클라우드가 테스트 시간에 구성된 후, ICP(Iterative Closest Point)와 같은 알고리즘을 사용하여 객체의 저장된 모델에 매칭되는 밀집(dense) 방법들을 포함한다. 추가의 예들은 신경망을 사용하여 지점 클라우드 정보를 그리고 컨볼루션 신경망(CNN)을 사용하여 RGB 이미지 데이터를 동시에 처리한 후, 포즈 추정을 위해 사용될 수 있는 픽셀별 밀집 특징 임베딩을 도출하기 위해 네트워크들의 출력들을 융합하는 하이브리드 방법들을 포함한다.

환경 내의 다수의 객체들이 서로 접촉하는 경우, 또는 객체들 중 일부가 부분적으로 폐색되는 경우, 상기한 방법들 중 임의의 방법을 사용한 포즈 예측의 정확도는 전형적으로 감소된다. 로봇 적용의 경우에, 이러한 정확도 감소는 특히 혼잡하거나 그 외 밀집한 환경들에서 로봇의 성능을 저해시킬 수 있다.

제1 양태에 따르면, 3차원 장면 내의 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법이 제공된다. 본 방법은: 3차원 장면의 뷰를 나타내는 이미지 데이터 및 연관된 깊이 정보를 획득하는 단계; 이미지 데이터 및 연관된 깊이 정보를 처리하여 타겟 객체를 포함하는 3차원 장면 내의 복수의 객체들 각각에 대한 볼류메트릭 재구성을 생성하는 단계; 타겟 객체를 포함하는 볼류메트릭 그리드를 결정하는 단계; 생성된 볼류메트릭 재구성을 사용하여, 자유 공간에 의해 점유되는 볼류메트릭 그리드의 부분들 및 타겟 객체 이외의 객체들에 의해 점유된 볼류메트릭 그리드의 부분들을 나타내는 점유 데이터를 생성하는 단계; 및 생성된 점유 데이터, 및 타겟 객체의 표면 상의 복수의 지점들에 대한 점별 특징 데이터를 사용하여 타겟 객체의 포즈를 추정하는 단계를 포함한다.

타겟 객체의 표면 상의 지점들에 대한 점별 특징 데이터와, 점유된 자유 공간 및 다른 객체들을 둘러싸는 영역들을 나타내는 점유 데이터의 조합을 사용함으로써, 추정된 포즈는 타겟 객체 자체에 관한 상세한 시각적 정보에 의존하면서, 또한 타겟 객체의 주변에 관한 정보를 고려하여 이루어진다. 그 결과, 포즈 예측의 정확도는 특히 혼잡하거나 밀집한 장면들에서, 기존의 방법들에 비해 개선된다.

예들에서, 본 방법은 2차원 특징 추출기를 사용하여 획득된 이미지 및 연관된 깊이 정보를 처리하여 타겟 객체의 표면 상의 복수의 지점들에 대한 점별 특징 데이터를 생성하는 단계를 포함한다.

획득된 이미지 데이터 및 연관된 깊이 정보가 2차원 특징 추출기를 사용하여 처리되는 일부 예들에서, 본 방법은 이미지 세그먼트화를 사용하여 획득된 이미지 데이터를 처리하여 타겟 객체에 대한 2차원 마스크를 결정하는 단계, 및 2차원 특징 추출기를 사용하여 타겟 객체에 대한 2차원 마스크에 대응하는 이미지 데이터의 부분을 처리하는 단계를 포함한다.

마스킹된 이미지 데이터의 사용은 점별 특징 데이터가 타겟 객체의 주변에 의존하지 않고, 타겟 객체 자체에만 의존한다는 것을 의미한다. 이러한 방식으로, 추정된 포즈의 주변에 대한 의존성은 타겟 객체를 둘러싸는 볼류메트릭 그리드에 대한 점유 데이터에 배타적으로 의존하게 된다. 이러한 방식으로, 포즈 예측 작업과 관련 없는 정보를 포함하는 추가적인 이미지 데이터를 처리할 필요 없이, 주변으로부터의 정보가 효율적인 방식으로 처리된다.

예들에서, 생성된 점유 데이터 및 점별 특징 데이터를 사용하여 타겟 객체의 포즈를 추정하는 단계는: 점별 특징 데이터를 복셀화하여 제1 볼류메트릭 특징 데이터를 획득하는 단계; 3차원 특징 추출기를 사용하여 점유 데이터 및 제1 볼류메트릭 특징 데이터를 함께 처리하여 제2 볼류메트릭 특징 데이터를 생성하는 단계; 및 제2 볼류메트릭 특징 데이터를 사용하여 타겟 객체의 포즈를 추정하는 단계를 포함한다.

2차원 특징 추출을 수행하고 결과적인 점별 특징 데이터를 복셀화함으로써, 이미지 데이터의 모든 관련 픽셀이 제1 볼류메트릭 특징 데이터에 기여한다. 이미지 데이터를 점유 데이터와 함께 처리하는 대신에, 제1 볼류메트릭 특징 데이터를 점유 데이터와 함께 처리하는 것은 3차원 특징 추출을 수행하는 계산 비용이 과중하게 되지 않고 정보가 풍부한 이미지 데이터를 효과적으로 사용하게 한다.

예들에서, 3차원 특징 추출은 3차원 CNN을 사용하여 수행되고, 제2 볼류메트릭 특징 데이터는 3차원 CNN의 상이한 계층들 각각에서 생성된 볼류메트릭 특징들의 계층구조를 포함한다. 3차원 CNN이 적절히 훈련될 때, 상이한 스테이지들에서 생성된 계층적 특징들은 예를 들어, 초기 스테이지들이 하위 특징들을 캡처하고 후기 스테이지들이 상위 특징들을 캡처하면서, 타겟 객체의 추정된 포즈와 관련된 상이한 잠재 정보를 캡처한다.

제2 볼류메트릭 특징 데이터가 생성되는 일부 예들에서, 점별 특징 데이터는 제1 점별 특징 데이터이고, 제2 볼류메트릭 특징 데이터를 사용하여 타겟 객체의 포즈를 추정하는 단계는: 제2 볼류메트릭 특징 데이터로부터, 타겟 객체의 표면 상의 복수의 지점들에 대한 제2 점별 특징 데이터를 추출하는 단계; 제2 점별 특징 데이터를 사용하여, 타겟 객체의 표면 상의 복수의 지점들 각각에 대한 후보 포즈 및 대응하는 신뢰도 점수를 결정하는 단계; 및 대응하는 신뢰도 점수들에 기초하여 결정된 후보 포즈들로부터 타겟 객체의 포즈를 추정하는 단계를 포함한다.

예들에서, 후보 포즈들로부터 타겟 객체의 포즈를 추정하는 단계는 가장 높은 대응하는 신뢰도 점수를 갖는 후보 포즈를 결정하는 단계를 포함한다.

예들에서, 타겟 객체의 표면 상의 복수의 지점들 각각에 대한 후보 포즈 및 대응하는 신뢰도 점수를 결정하는 단계는 회귀 모델을 사용하여 제1 점별 특징 데이터 및 제2 점별 특징 데이터를 함께 처리하는 단계를 포함한다.

예들에서, 복수의 객체들 중 제1 객체에 대한 볼류메트릭 재구성을 생성하는 단계는 이미지 세그먼트화를 사용하여 이미지 데이터를 처리하여 제1 객체에 대한 2차원 마스크를 결정하는 단계, 및 2차원 마스크에 대응하는 연관된 깊이 정보의 일부를 처리하여 제1 객체에 대한 볼류메트릭 재구성을 생성하는 단계를 포함한다.

예들에서, 방법은 상술된 방법들 중 임의의 방법을 사용하여 3차원 장면 내의 복수의 타겟 객체들의 각 소정의 타겟 객체의 포즈를 추정하는 단계를 포함한다.

복수의 타겟 객체들에 대해 포즈들이 추정되는 일부 예들에서, 복수의 타겟 객체들의 각 소정의 타겟 객체에 대해 생성된 점유 데이터는 제1 점유 데이터이고, 본 방법은 복수의 타겟 객체들의 각 소정의 타겟 객체에 대해: 소정의 타겟 객체의 추정된 포즈에 따라 변환된 소정의 타겟 객체의 미리 결정된 모델로부터 복수의 지점들을 샘플링하는 단계; 소정의 타겟 객체를 포함하는 볼류메트릭 그리드에 대해, 소정의 타겟 객체의 미리 결정된 모델로부터 샘플링된 지점들의 위치들에 따른 각 제2 점유 데이터를 결정하는 단계; 및 소정의 타겟 객체를 포함하는 볼류메트릭 그리드에 대해, 복수의 타겟 객체들 중 다른 타겟 객체들의 미리 결정된 모델들로부터 샘플링된 지점들의 위치들에 따른 각 제3 점유 데이터를 결정하는 단계를 포함한다. 본 방법은 반복적으로: 복수의 타겟 객체들 각각에 대한 각 제2 점유 데이터 및 각 제3 점유 데이터에 따라 점유 페널티를 결정하는 단계; 및 반복적으로 결정된 점유 페널티를 사용하여 복수의 타겟 객체들의 추정된 포즈들을 수정하는 단계를 더 포함한다.

타겟 객체들의 미리 결정된 모델들로부터 샘플링된 지점들의 위치들에 의존하는 제2 및 제3 점유 데이터를 사용하여 점유 페널티를 정의하는 것은 타겟 객체들 중 둘 이상이 서로 교차하는 물리적으로 비현실적인 예측을 회피하기 위한 타겟 객체들의 추정된 포즈들의 증분적 업데이트를 가능하게 한다.

예들에서, 3차원 3차원 장면의 뷰는 3차원 장면의 제1 뷰이고, 또는 각 타겟 객체의 추정된 포즈는 소정의 객체의 제1 포즈이며, 및 방법은 3차원 장면의 제1 뷰와 상이한 3차원 장면의 제2 뷰를 나타내는 추가의 이미지 데이터 및 추가의 연관된 깊이 정보를 획득하는 단계를 포함한다. 본 방법은 상기의 또는 각 타겟 객체에 대해: 추가의 이미지 데이터 및 추가의 연관된 깊이 정보를 처리하여 타겟 객체에 대한 제2 포즈를 추정하는 단계; 타겟 객체의 제1 포즈 및 제2 포즈 중 적어도 하나를 변환하여 포즈 비교 데이터를 결정하는 단계; 포즈 비교 데이터를 처리하여 일관성 조건이 충족되는지 여부를 결정하는 단계; 및 일관성 조건이 충족되는 것으로 결정될 때, 타겟 객체의 제1 포즈 및 제2 포즈와 일관되게 변환된 타겟 객체에 대한 미리 결정된 객체 모델을 생성하는 단계를 포함한다.

장면의 상이한 뷰들을 캡처하고 상이한 뷰들로부터 기인하는 포즈 예측들을 비교함으로써, 예를 들어, 폐색으로부터 기인하는 잘못된 포즈 예측들이 식별되고 폐기될 수 있다. 상이한 뷰들로부터의 다수의 포즈 추정들이 일관성 조건을 만족시키는 것으로 발견되면, 예를 들어, 장면과 상호작용하는 로봇에 의해 사용될 수 있거나 인간 사용자를 위해 디스플레이될 수 있는 객체 모델이 생성된다. 또한, 다수의 뷰들을 캡처함으로써, 장면의 볼류메트릭 맵은 상이한 뷰들로부터의 정보를 사용하여 반복적으로 구축될 수 있으며, 볼류메트릭 맵은 더 많은 뷰들이 캡처됨에 따라 "미지의" 상태에 있는 점점 더 적은 복셀들을 포함한다. 그 결과, (다수의 뷰들로부터의 정보를 사용할 수 있는) 후기 포즈 예측들은 (단일 뷰로부터의 정보만을 사용하는) 초기 포즈 예측들보다 더 정확할 수 있다.

제2 양태에 따르면, 이미지 데이터 및 연관된 깊이 정보를 캡처하도록 동작가능한 하나 이상의 센서를 포함하는 이미지 처리 시스템이 제공된다. 본 시스템은: 하나 이상의 센서를 사용하여, 3차원 장면의 뷰를 나타내는 이미지 데이터 및 연관된 깊이 정보를 획득하고; 이미지 데이터 및 연관된 깊이 정보를 처리하여 타겟 객체를 포함하는 3차원 장면 내의 복수의 객체들 각각에 대한 볼류메트릭 재구성을 생성하고; 타겟 객체를 포함하는 볼류메트릭 그리드를 결정하고; 생성된 볼류메트릭 재구성을 사용하여, 자유 공간에 의해 점유되는 볼류메트릭 그리드의 부분들 및 타겟 객체 이외의 객체들에 의해 점유된 볼류메트릭 그리드의 부분들을 나타내는 점유 데이터를 생성하며; 생성된 점유 데이터, 및 타겟 객체의 표면 상의 복수의 지점들에 대한 점별 특징 데이터를 사용하여 타겟 객체의 포즈를 추정하도록 구성된다.

예들에서, 본 시스템은 타겟 객체의 추정된 포즈에 따라 타겟 객체를 인게이지하기 위한 인게이지 수단을 포함한다. 인게이지 수단은 타겟 객체를 파지하거나, 가압하거나, 또는 그 외 물리적으로 접촉시키기 위한 하나 이상의 로봇 손 또는 다른 구성요소들을 포함할 수 있다. 상술된 바와 같이 추정된 포즈에 의존하여 타겟 객체를 인게이지함으로써, 본 시스템은 포즈 추정 방법에 의해 도입되는 최소의 래그를 갖는 정밀한 방식으로 복잡하거나 민감한 작업들을 수행할 수 있다. 추가의 예들에서, 시스템은 타겟 객체와 직접 접촉하지 않고 타겟 객체와 상호작용할 수 있다.

제3 양태에 따르면, 컴퓨팅 시스템에 의해 실행될 때, 컴퓨팅 시스템으로 하여금 전술한 방법들 중 임의의 방법을 수행하게 하는 기계 판독가능 명령어들을 포함하는 컴퓨터 프로그램 제품이 제공된다.

본 발명의 다른 특징들 및 이점들은 첨부된 도면들을 참조하여 이루어진, 단지 예로서 소정의, 본 발명의 바람직한 실시예들에 대한 이하의 설명으로부터 명백해질 것이다.

도 1은 예들에 따른 방법들을 수행하도록 구성된 시스템을 도시하는 개략적인 블록도이다.
도 2 는 예들에 따라 타겟 객체의 포즈를 추정하는 방법을 나타내는 흐름도이다.
도 3은 세 개의 기지의 객체들을 포함하는 3차원 장면의 예를 도시한다.
도 4는 예들에 따른 장면의 볼류메트릭 맵을 생성하기 위한 데이터 처리 루틴을 개략적으로 도시한다.
도 5는 도 3의 3차원 장면 내의 기지의 객체들 중 하나를 포함하는 복셀 그리드의 예를 도시한다.
도 6a 및 도 6b는 예들에 따라 타겟 객체들의 포즈를 추정하기 위한 데이터 처리 루틴을 개략적으로 도시한다.
도 7은 예에 따라 다수의 객체들에 대한 포즈 추정들을 정제하는 방법을 나타내는 흐름도이다.
도 8은 도 3의 3차원 장면 내의 기지의 객체들에 대한 포즈 추정들의 개선의 예를 도시한다.

도 1은 본 개시에 따른 방법들을 수행하도록 구성된 시스템(100)의 예를 도시한다. 시스템(100)은 메모리(102) 및 처리 회로부(104)를 포함하며, 여기서 메모리(102)는 본원에서 설명된 방법을 수행하기 위한 데이터 및 루틴들을 저장하도록 구성된다. 처리 회로부(104)는 메모리 회로부(102)에 저장된 루틴들을 실행하도록 구성된다. 처리 회로부(104)는 또한, 이미지 데이터 및 연관된 깊이 정보를 캡처하기 위한 센서들(106), 및 센서들(106)을 이동시키도록 구성된 하나 이상의 액추에이터(108)를 제어하도록 구성된다.

이 예에서, 메모리(102)는 마스터 루틴, 포즈 추정 루틴 및 포즈 개선 루틴을 기계 판독가능 명령어 형태의 다양한 다른 루틴들(도시되지 않음)과 함께 유지한다. 특정 구성에서, 마스터 루틴의 실행은 이하에서 더 상세히 설명될 바와 같이, 포즈 추정 루틴이 실행된 후에 포즈 정제 루틴이 수행되게 한다. 메모리(102)는 포즈 추정 루틴의 실행 동안 사용되는 다양한 훈련가능 모델들에 대한 훈련가능 모델 파라미터들을 더 포함한다.

메모리(102)는 센서들(106)에 의해 캡처된 이미지 데이터 및 연관된 깊이 정보를 유지하도록 구성된다. 이 예에서, 메모리(102)는 이미지 데이터 및 연관된 깊이 정보를 RGB-D(red green blue-depth) 포맷으로 저장하도록 구성되지만, 시스템(100)은 예를 들어 CMYK(cyan, magenta, yellow, key) 또는 YUV 컬러 포맷들에 기초한 다른 적합한 포맷들과 함께 사용하도록 구성될 수 있다.

메모리(102)는 다양한 기지의 객체들의 3차원 모델들의 데이터베이스를 보유한다. 이 예에서, 기지의 객체들은 강성 객체들로서 취급되고, 각 기지의 객체에 대해 저장된 3차원 모델은 메시 표현으로서 저장된 CAD(computer aided design) 모델이다. 본 예에서, 각 객체의 볼류메트릭 솔리드 표현은 CAD 모델로부터 생성되고, CAD 모델과 함께 저장된다. 각 객체의 솔리드 표현은 메시 모델에 대해 포함된 표면 구조에 더하여 객체의 내부 구조를 포함한다. 복합 내부 구조들을 갖는 객체들에 대해, 저장된 솔리드 표현의 내부 구조는 객체의 실제 내부 구조에 반드시 대응하지는 않고, 예를 들어 간략화될 수 있다는 것에 유의한다. 각 기지의 객체의 솔리드 모델을 저장하는 것은 단지 표면과는 대조적으로, 객체의 볼륨 전체에 걸쳐 지점들이 샘플링될 수 있게 하여, 본 개시의 양태들에 따른 포즈 정제 방법들의 특히 효과적인 구현을 가능하게 한다. 그럼에도 불구하고, 본원에서 설명된 방법들은 본 발명의 범위를 벗어나지 않고, 메시 모델들만을 사용하여 구현되도록 적응될 수 있다.

본 예에서의 센서들(106)은 장면의 2차원 이미지들을 캡처하기 위한 카메라 및 장면 내의 객체들까지의 거리들(즉, 연관된 깊이 정보)을 결정하기 위한 적외선 센서를 포함한다.

도 2는 3차원 장면 내의 타겟 객체의 포즈를 추정하기 위해 시스템(100)에 의해 수행되는 컴퓨터 구현 방법(200)의 예를 도시한다. 시스템(100)은 202에서, 이미지와 연관된 깊이 정보를 획득한다. 이미지는 3차원 장면의 뷰를 나타내고, 연관된 깊이 정보는 장면 내의 상이한 객체들까지의 거리들을 특정한다. 이 예에서, 이미지 및 연관된 깊이 정보는 센서들(106)을 사용하여 캡처된다.

3차원 장면은 다수의 3차원 객체들을 포함하며, 이들 중 적어도 하나는 시스템(100)이 인식하도록 훈련된 기지의 객체이다. 이 예에서, 상기의 또는 각 기지의 객체는 메모리(102) 내의 객체 모델 데이터베이스에 저장된 객체 모델에 대응한다. 장면은 또한 시스템(100)이 인식하도록 훈련되지 않았고 메모리(102)에 저장된 대응하는 객체 모델들을 갖지 않는 미지의 객체들을 포함할 수 있다. 미지의 객체들의 전형적인 예들은 기지의 객체들이 위치되는 표면들을, 시스템(100)이 수행하는 데 사용되고 있는 특정 작업에 관련되지 않은 객체들과 함께 포함한다.

도 3 은 3차원 장면(300) 의 뷰를 도시한다. 장면(300)은 세 개의 기지의 객체들, 즉 직육면체 상자(302); 원통(304); 및 부등변 삼각형 단면을 갖는 각기둥(306)을 포함한다. 각 기지의 객체는 색상 및 텍스처(도시되지 않음)를 포함하는 3차원 형상 및 표면 세부 사항들을 갖고, 일부 경우들에서 상자(302) 상의 화살표(310) 및 원통(304) 상의 심볼(312)과 같은 추가의 표면 장식을 포함한다. 장면(300)은 또한 기지의 객체들이 위치되는 수평 표면(308)을 포함한다. 수평 표면(308)은 미지의 객체의 예이다.

장면(300) 내의 각 기지의 객체의 실제 포즈(위치 및 배향)는 도 3에서 각 3차원 축 세트로 표현된다. 포즈는 6차원 양이며, 치수들 중 세 개는 소정의 좌표계에 대해 객체에 관해 고정된 미리 결정된 지점의 위치를 정의하고, 다른 세 개의 치수들은 소정의 좌표계에 관한 배향을 정의한다. 본 예에서, 위치는 데카르트 좌표를 사용하여 정의되고, 배향은 외인성 오일러 각도를 사용하여 정의된다. 당업자들은 예를 들어, 위치에 대해 원통형 또는 구형 극 좌표를 사용하고/하거나, 배향에 대해 내인성 오일러 각도를 사용하여, 다른 정의가 가능하다는 것을 이해할 것이다. 이하에서 더 상세히 설명될 바와 같이, 방법(200)은 장면(300) 내의 기지의 객체들 중 임의의 객체의 포즈를 추정하기 위해 사용된다.

도 3의 예에서, 기지의 객체들 중 어느 것도 임의의 평면에서 반사 대칭을 나타내지 않고, 이에 따라 각 기지의 객체의 포즈는 소정의 좌표계에 대해 고유하게 정의될 수 있다(객체의 대칭성을 포즈의 정의에 모호성을 도입하며, 이 문제는 이후에 설명되는 바와 같은 특정 실시예에서 다루어진다). 본 예에서, 원통(304) 및 각기둥(306)은 직립 배향으로 있으며, 각각은 수직 상방으로 향하는 하나의 축 및 수평 평면에 놓이는 두 개의 축들을 갖는다. 상자(302)는 원통(304) 상에 기대어 있고, 이에 따라 직립 배향으로 있지 않다.

도 2로 돌아가서, 시스템(100)은 204에서, 이미지 및 연관된 깊이 정보를 처리하여 볼류메트릭 맵을 생성한다. 생성된 볼류메트릭 맵은 3차원 장면 내의 객체들의 볼류메트릭 재구성들로 형성된다. 소정의 객체의 볼류메트릭 재구성은 이미지 내의 객체의 가시적 부분들에 대응하는 볼류메트릭 맵의 복셀들을 포함한다. 장면의 단일 뷰로부터, 각 객체의 특정 부분들만이 가시적이고, 이에 따라 이들 부분들에 대응하는 복셀들만이 객체의 볼류메트릭 재구성 내에 포함될 것이다.

도 4는 3차원 장면의 뷰를 나타내는 이미지(402) 및 연관된 깊이 정보(404)를 처리하여 장면의 볼류메트릭 맵을 생성하는 방법(400)의 예를 도시한다. 이미지(402)는 406에서, 이미지 세그먼트화를 사용하여 처리되어, 장면 내의 기지의 객체들 각각에 대한 객체 마스크(408)를 생성한다. 소정의 객체에 대한 객체 마스크(408)는 객체의 일부가 가시적인 이미지(402)의 픽셀들의 서브세트를 특정한다. 이미지 세그먼트화 동안, 이미지는 이미지 내의 미지의 객체들을 나타내는 추가 영역들과 함께, 이미지 내의 기지의 객체들에 대한 각 상이한 객체 마스크들에 대응하는 영역들로 파티셔닝된다. 본 예에서, 이미지 세그먼트화는 Kaiming He 외, arXiv: 1703.06870에 의한 논문 Mask R-CNN에서 설명된 바와 같은 딥 CNN 아키텍처를 사용하여 수행된다. 이미지 세그먼트화를 위한 다른 방법들이 공지되어 있고, 본 발명과 호환가능하다.

깊이 정보(404) 및 객체 마스크들(408)은 410에서, 볼류메트릭 융합을 사용하여 함께 처리되어, 볼류메트릭 맵(412)을 생성한다. 볼류메트릭 맵(412)은 장면 내의 각 기지의 객체의 볼류메트릭 재구성(414)을 포함하고, 장면 내의 미지의 객체들의 볼류메트릭 재구성들(416)을 더 포함할 수 있다. 깊이 정보(404)는 전형적으로 이미지(402)보다 더 낮은 해상도를 갖고, 볼류메트릭 맵(412)도 또한 전형적으로 이미지(402)보다 더 낮은 해상도를 갖는다.

도 2로 돌아가서, 시스템(100)은 206에서, 볼류메트릭 맵의 복셀들의 서브세트로 형성되고 포즈가 추정될 타겟 객체를 포함하는 볼류메트릭 그리드를 결정한다. 도 5 는 볼류메트릭 그리드(502)가 3차원 장면(300) 내의 원통(304)을 포함하는 예를 도시한다. 이 예에서, 볼류메트릭 그리드(502)는 모든 방향으로 원통(304)을 넘어 연장되는 직육면체이다. 볼류메트릭 그리드의 치수들은 일반적으로 타겟 객체의 치수들에 의존한다. 예를 들어, 각기둥(306)을 포함하는 볼류메트릭 그리드는 원통(304)을 함유하는 볼류메트릭 그리드(502)와 비교하여 감소된 높이를 가질 것이다. 그러나, 다양한 후속 처리 단계들을 간략화하기 위해, 타겟에 대한 복셀 그리드 내의 복셀의 수는 고정되고, 타겟 객체의 치수들(예를 들어, 32x32x32 복셀들)과 독립적이며, 복셀들 자체의 치수들은 복셀 그리드의 상이한 크기들 및 형상들을 달성하도록 변경된다. 이를 위해, 볼류메트릭 맵의 복셀은 두 개 이상의 더 작은 복셀들로 분할될 수 있거나, 또는 볼류메트릭 맵의 둘 이상의 복셀들이 조합되어 단일의 더 큰 복셀을 형성할 수 있다.

시스템(100)은 208에서, 자유 공간에 의해 또는 타겟 객체 이외의 객체들에 의해 점유되는 볼류메트릭 그리드의 부분들을 나타내는 점유 데이터를 생성한다. 볼류메트릭 그리드의 복셀들 각각은 복셀의 점유에 따라, 네 가지 상태들 중 임의의 상태에 있을 수 있다:

1. 타겟 객체(예를 들어, 원통(304))의 볼류메트릭 재구성에 의해 점유되는 상태;

2. 기지의 객체들(예를 들어, 상자(302) 및 각기둥(306)) 및 미지의 객체들(예를 들어, 표면(308))를 포함하는 다른 객체들 중 하나의 객체의 볼류메트릭 재구성에 의해 점유되는 상태;

3. 깊이 측정에 의해 식별되는 바와 같이, 자유 공간에 의해 점유되는 상태; 또는

4. 폐색 및/또는 센서 범위 한계로 인한 미지의 상태.

상태 2 및 상태 3의 복셀들은 타겟 객체의 포즈를 추정하기 위해 특히 관심 대상인데, 이는 이들 복셀들이 타겟 객체의 임의의 부분에 의해 점유될 수 없는 불가입 영역을 정의하기 때문이다. 점유 데이터는 자유 공간에 의해 또는 타겟 객체 이외의 객체들에 의해 점유되는 볼류메트릭 그리드의 부분들을 표시함으로써, 이에 따라 타겟 객체의 포즈를 추정하는 것에 관련된 정보를 포함한다.

시스템(100)은 210에서, 208에서 생성된 점유 데이터 및 타겟 객체의 가시적 부분 상의 지점들에 대한 점별 특징 데이터를 사용하여 타겟 객체의 포즈를 추정한다. 점별 특징 데이터는 이미지의 픽셀들로부터 유도되고, 형상, 표면 세부 사항들 및 타겟 객체를 포함하는 이미지의 부분 내에 포함된 임의의 다른 정보를 포함하는 타겟 객체의 모든 시각적 양태들에 의존할 수 있다.

타겟 객체에 대한 점별 특징 데이터를, 타겟 객체를 포함하는 복셀 그리드에 대한 점유 데이터와 조합함으로써, 추정된 포즈는 타겟 객체 자체에 관한 상세한 시각적 정보에 의존하면서, 또한 타겟 객체의 주변에 관한 정보를 고려하면서 이루어질 수 있다. 이 결과, 공지된 포즈 추정 방법들에 비해 포즈 추정의 정확도가 개선된다.

도 6a 및 6b는 점유 데이터 및 점별 특징 데이터를 사용하여 타겟 객체의 포즈를 추정하기 위한 방법(600)의 예를 도시한다. 마스킹된 이미지 데이터(602)는 604에서, 2차원 특징 추출을 사용하여 처리되어, 2차원 특징 데이터(606)를 생성한다. 마스킹된 이미지 데이터(602)는 타겟 객체에 대한 객체 마스크 내에 포함된 이미지(402)의 픽셀들의 서브세트를 포함한다. 이 예에서, 2차원 특징 추출은 CNN을 사용하여 수행된다. 마스킹된 이미지 데이터(602)가 CNN에 대한 입력으로서 사용되기 위해, 마스킹된 이미지 데이터는 고정된 크기 및 형상을 가져야 한다. 이를 달성하기 위해, 객체 마스크 밖의 픽셀들에 대한 픽셀 값들은 일정한 값(예를 들어, 0)으로 설정된다. 마스킹된 이미지 데이터의 사용은 2차원 특징 데이터(606)가 타겟 객체의 주변에 의존하지 않고, 타겟 객체 자체에만 의존한다는 것을 의미한다. 이러한 방식으로, 추정된 포즈의 주변에 대한 의존성은 이하에서 더 상세히 설명될 바와 같이, 타겟 객체를 둘러싸는 볼류메트릭 그리드에 대한 점유 데이터에 배타적으로 의존하게 된다.

2차원 특징 데이터(606)는 610에서, 점별 인코딩을 사용하여 마스킹된 깊이 정보(608)와 함께 처리되어, 점별 특징 데이터(612)를 생성한다. 점별 특징 데이터(612)는 마스킹된 깊이 정보(608)로부터 도출된 3차원 지점들의 세트의 각각에 대한 다수의 특징 채널들을 포함한다. 지점들은 이미지에서 가시적인 객체의 부분들을 나타내는 점군을 형성한다. 본 예에서, 2차원 특징 데이터(606) 및 마스킹된 깊이 정보(608)는 각각 완전 연결된 신경망 계층들을 사용하여 개별적으로 처리되고, 결과적인 점별 특징들이 연결되어 점별 특징 데이터(612)를 생성한다.

점별 특징 데이터(612)는 614에서, 복셀화를 사용하여 처리되어, 특징 그리드(616)를 생성한다. 복셀화(또한 복셀레이션으로도 알려짐)는 점별 특징 데이터(612)에서 특정된 지점들을, 타겟 객체를 포함하는 복셀 그리드(예를 들어, 도 5 의 복셀 그리드(502))의 복셀들과 연관시킨다. 복셀 그리드는 전형적으로 이미지 및 연관된 깊이 데이터와 비교하여 상대적으로 낮은 해상도(예를 들어, 32x32x32 복셀)를 갖는다. 이에 따라, 소정의 복셀에 대한 특징 데이터는 이 예에서 평균화에 의해 점별 특징 데이터(612)의 다수의 지점들로부터 도출되지만, 다른 예들에서 소정의 복셀의 특징 데이터는 다른 방법들을 사용하여, 예를 들어, 최대값들을 취함으로써 도출된다. 특징 그리드의 각 복셀은 복셀 그리드에서의 자신의 위치를 특정하는 연관된 볼류메트릭 인덱스를 갖고, 이들 인덱스들(618)은 후속 처리를 위해 저장된다.

특징 그리드(616)는 다른 객체들 또는 자유 공간에 의해 점유되기 때문에 타겟 객체에 의해 점유될 수 없는 복셀 그리드의 영역들을 나타내는 점유 데이터(620)와 결부된다. 점유 데이터(620)는 이진수를 타겟 객체를 포함하는 복셀 그리드의 각 복셀에 연관시키며, 여기서 이진수는 그 복셀이 타겟 객체에 불가입한지 여부(즉, 복셀이 위에서 언급된 상태 2 또는 상태 3 중 어느 하나에 있는지 여부)를 나타낸다. 이에 따라, 결부된 특징 그리드(616)와 점유 데이터(620)는 복셀 그리드의 각 복셀에 대해, 점유 데이터(620)로부터의 이진 채널 및 특징 그리드(616)로부터의 다수의 채널들을 포함한다. 이에 따라, 결부된 특징 그리드(616)와 점유 데이터(620)는 마스킹된 이미지 데이터(602) 및 마스킹된 점군(610)으로부터 도출된 정보를 포함하고, 객체들 및 타겟 객체를 둘러싸는 공간에 의존하는 정보를 더 포함한다.

결부된 특징 그리드(616)와 점유 그리드(620)는 622에서, 3차원 특징 추출을 사용하여 처리되어, 3차원 특징 데이터(624)를 생성한다. 이 예에서, 3차원 특징 추출은 여러 컨볼루션 계층들을 각각 포함하는 다수의 스테이지들을 갖는 3차원 CNN을 사용하여 수행된다. 3차원 CNN의 각 스테이지는 볼류메트릭 특징 맵을 생성하고, 각 스테이지 후에 풀링 또는 압축 동작이 수행되어, 3차원 CNN의 다음 스테이지에 의한 처리 전에 볼류메트릭 특징 맵의 차원을 감소시킨다. 결과적으로, 3차원 CNN은 순차적으로 감소하는 해상도로 볼류메트릭 특징 맵들의 계층구조를 생성한다. 3차원 CNN이 (이하에서 설명되는 바와 같이) 적절히 훈련될 때, 상이한 스테이지들에서 생성되는 계층적 특징들은 타겟 객체의 추정된 포즈와 관련된 상이한 잠재 정보를 캡처한다. 3차원 특징 데이터(624)는 3차원 CNN의 상이한 스테이지들에서 생성된 볼류메트릭 특징 맵들을 포함한다. 본 예에서, 결부된 특징 그리드와 점유 그리드는 32x32x32 복셀들을 포함하며, 3차원 CNN은 세 개의 스테이지들을 포함하고, 계층적 볼류메트릭 특징 맵들은 각각, 특징들의 32x32x32, 16x16x16 및 8x8x8 복셀들을 포함한다.

본 예에서, 마스킹된 이미지 데이터(602)로부터의 2차원 특징 추출은 622에서의 3차원 특징 추출과 독립적으로 수행된다는 것에 유의한다. 먼저 2차원 특징 추출을 수행함으로써, 마스킹된 이미지 데이터(602)의 모든 픽셀은 점별 특징 데이터(612)에 기여하여, 계산 비용이 과중하게 되지 않으면서 정보가 풍부한 마스킹된 이미지 데이터를 효과적으로 사용하게 한다. 다른 예들에서, 이미지 데이터는 3차원 특징 추출기를 사용하여 점유 데이터와 함께 직접 처리된다. 그러나, 이러한 접근법은 통상적으로 요구되는 계산 자원들(처리 전력 및 메모리)을 적정한 레벨로 유지하기 위해 이미지 데이터의 해상도의 감소를 요구한다. 이에 따라, 이미지 데이터 내에 포함된 정보가 손실된다.

614에서 복셀화 동안 저장된 인덱스들(618)에 대응하는 지점들에 대해, 3차원 특징 데이터(624)로부터 점별 특징 데이터(628)를 추출하기 위해 지점 추출이 626에서 수행된다. 인덱스들(618) 중 하나에 대응하는 각 지점에 대해, 3차원 특징 데이터(624) 내의 대응하는 특징들이 추출되고 저장된다. 이에 따라, 점별 특징 데이터(628)는 마스킹된 이미지 데이터 (602)및 마스킹된 깊이 정보(608)로부터 도출된 점별 특징 데이터(612)와 동일한 지점들의 세트에 대한 특징들을 포함한다. 점별 특징 데이터(612)와 점별 특징 데이터(628)는 점별 포즈 추정을 위해 결부된다.

점별 특징 데이터(612)는 타겟 객체의 시각적 외관 및 깊이 프로파일에 강하게 의존한다는 것에 유의한다. 점별 특징 데이터(628)는 또한 타겟 객체의 외관 및 깊이 프로파일에 일부 의존성을 갖지만, 주변 공간 및 객체들에 또한 의존한다. 본 발명자는 타겟 객체의 시각적 외관 및 깊이 프로파일에 강하게 의존하는 점별 특징 데이터(612)를 주변 점유 데이터와 조합하여 사용하는 것이, 공지의 방법들에 비해 포즈 검출의 정확도의 상당한 개선을 초래한다는 것을 발견하였다.

점별 포즈 추정은 630에서, 결부된 점별 특징 데이터(612 및 628)를 사용하여 수행된다. 본 예에서, 점별 포즈 추정은 점별 특징 데이터(612 및 628) 내의 지점들 각각에 대한 후보 포즈(632) 및 후보 신뢰도 점수(634)를 결정한다. 각 후보 포즈(632)는 6차원 벡터이고, 후보 신뢰도 점수(634)는 대응하는 후보 포즈가 정확하다는 확실성을 나타내는 수치 값이다. 이 예에서, 점별 포즈 추정은 완전 연결된 신경망을 사용하여 수행된다.

추정된 포즈(638)는 636에서, 신뢰도 점수들(634)에 기초하여 후보 포즈들(632) 중 최상의 포즈로서 결정된다. 다시 말해서, 추정된 포즈(638)는 가장 높은 신뢰도 점수(634)를 갖는 후보 포즈(632)로서 결정된다.

상술된 예에서, 지점들의 세트 각각에 대한 각 후보 포즈를 결정하기 위해 점별 포즈 추정이 사용되지만, 다른 예들에서 점별 특징 데이터는 처리되어 단일의 전역적 포즈 추정을 생성하며, 이 경우 신뢰도 점수들은 결정될 필요가 없다.

도 6a 및 도 6b의 방법(600)은 일련의 훈련가능한 모델 구성요소들, 즉 604에서 사용되는 2차원 특징 추출기, 610에서 사용되는 점별 인코더들, 622에서 사용되는 3차원 특징 추출기, 및 630에서 사용된 점별 포즈 추정기를 사용한다. 본 예에서, 이들 구성요소들 각각은 훈련가능한 파라미터들의 각 세트를 갖는 신경망 모델이다. 방법(600)이 수행되기 전에, 모델들은 기지의 실측 포즈들을 갖는 기지의 객체들의 라벨링된 데이터세트를 이용한 지도 학습을 사용하여 훈련된다. 본 예에서, 포즈 추정 방법(600)에서 사용되는 훈련가능 모델들은 마스킹된 이미지 데이터(602)를 생성하기 위해 사용되는 이미지 세그먼트화 모델과 독립적으로 훈련된다. 이를 고려하여, 포즈 예측 모델들을 훈련하기 위해, 라벨링된 훈련 데이터는 예를 들어, 충돌 검출을 갖는 물리학 모델을 사용하여, 인공 장면을 생성하기 위해 기지의 객체들(이 예에서, 기지의 객체들의 CAD 모델들)의 볼류메트릭 모델들을 위치시키고 배향함으로써 생성된다. 이러한 방식으로, 물리적 객체들을 모델의 훈련을 위한 위치로 이동시키고 객체들의 실측 포즈들을 수동으로 결정하는 시간 소모적인 작업들 없이, 완벽하게 세그먼트화된 객체들 및 기지의 실측 포즈들로 다수의 인공 장면들이 생성될 수 있다. 또한, 볼류메트릭 모델들을 사용하는 본 접근법은 포즈 추정 모델들이 센서들(106) 및 액추에이터들(108)을 포함하는 시스템(100)의 특정 고가의 물리적 구성요소들과 별개로 신속하게 훈련될 수 있게 한다. 포즈 추정 모델들을 훈련하기 위해, 지점들의 세트

가 타겟 객체의 볼류메트릭 모델로부터 (예를 들어, 균일하게) 샘플링된다. 장면 내의 타겟 객체의 실측 포즈에 의해 변환될 때의

에서의 지점들의 위치들은 각 점별 후보 포즈 추정을 사용하여 변환될 때

에서의 지점들의 위치들과 비교된다.

포즈 추정 방법(600)에서 사용되는 모델들은 단일 포즈 추정 손실

을 사용하여 훈련된다. 훈련 반복들의 세트 각각에서, 포즈 예측 손실의 기울기

가 역전파를 사용하여 포즈 예측 모델들의 훈련가능한 파라미터들

에 대해 결정되고, 훈련가능한 파라미터들

의 값들은 포즈 추정 손실

의 값을 감소시키기 위해 기울기 하강 또는 이의 변형을 사용하여 업데이트된다. 이러한 업데이트는 미리 결정된 수렴 기준이 만족되거나 미리 결정된 훈련 반복 횟수가 수행되는 것에 대응할 수 있는 미리 결정된 중지 조건들이 충족될 때까지 반복적으로 수행된다.

본 예에서, 포즈 추정 손실

은 다음 식 (1)에 의해 주어진다.

(1)

여기서:

·

은 후보 포즈들이 추정되는 지점들의 수이고;

·

는 제i 지점의 후보 포즈와 연관된 신뢰도 점수이고;

·

는 일반화 항

에 대한 스케일링 팩터이며;

·

는 제i 지점에 대해 결정된 후보 포즈와 연관된 점별 포즈 추정 손실이다.

에 적절한 값들은 범위

, 그리고 특히 범위

내, 예를 들어,

인 것으로 밝혀졌다. 스케일링 팩터는 소정의 훈련 인스턴스에 대해 수동으로 조정될 수 있거나, 훈련 동안 학습될 파라미터로서 포함될 수 있다. 이 예에서 점별 포즈 추정 손실은 다음 식 (2)에 의해 주어진다:

(2)

여기서:

·

는 3x3 회전 행렬

및 병진 벡터

로 구성되는 타겟 객체의 실측 포즈이고;

·

는 제i 지점에 대한 후보 포즈 추정치를 나타내며;

·

는 타겟 객체의 볼류메트릭 모델로부터 샘플링된 지점들의 세트

의 제q 지점의

위치이다.

식 (2)의 점별 포즈 추정 손실은 임의의 평면에서 반사 대칭을 나타내지 않는 객체들에 적절하다. 대칭 객들에에 대해, 실측 포즈에 의해 변환된 지점이 소정의 후보 포즈 추정에 의해 변환되는 지점과 비교되어야 하는지에 관한 모호성이 발생한다. 이러한 객체들에 대해, 다음 식 (3)에 의해 주어진 바와 같이, 수정된 점별 포즈 추정 손실이 사용된다:

(3)

이는 후보 포즈 추정치에 의한 변환 후의 가장 가까운 지점이 실측 포즈에 의해 변환된 소정의 지점과 효과적으로 비교되게 한다. 특정 구성에서, 제1 훈련 스테이지가 식 (2)의 수정되지 않은 점별 훈련 손실을 사용하여 수행된 다음, 제2 훈련 스테이지가 식 (3)의 수정된 점별 훈련 손실을 사용하여 뒤따른다. 이는 본 발명자에 의해, 대칭 객체들에 대한 수정되지 않은 점별 훈련 손실의 사용을 형성하는 잘못된 포즈 추정들을 회피하면서, 때때로 수정된 점별 포즈 손실의 사용으로부터 기인할 수 있는 로컬 최소값들을 회피하는 것으로 발견되었다. 이는 복잡한 형상들을 갖는 대칭 객체들에 대한 포즈 추정 방법의 특히 양호한 성능을 초래한다.

도 2의 방법(200)은 소정의 장면 내의 다수의 객체들의 포즈들을 추정하기 위해 사용될 수 있으며, 각 소정의 객체에 대한 추정된 포즈는 소정의 객체를 둘러싸는 공간의 영역의 점유를 고려한다. 일부 예들에서, 추정된 포즈들은 소정의 목적을 위해 사용되기에 충분히 정확하다. 다른 예들에서, 방법(200) 또는 임의의 다른 포즈 추정 루틴을 사용하여 결정된 포즈 추정치들이 소정의 목적을 위해 충분히 정확하다는 것이 보장될 수 없다. 이러한 경우들에서, 일부 추가적인 컴퓨팅 비용 및 시간을 희생하여, 포즈 추정들을 개선하는 방법이 필요하다.

도 7는 3차원 장면 내의 복수의 기지의 객체들 각각의 포즈를 추정하기 위해 시스템(100)에 의해 수행되는 컴퓨터 구현 방법(700)의 예를 도시한다. 복수의 기지의 객체들의 각 소정의 객체에 대해, 시스템(100)은 702에서, 소정의 객체의 적어도 일부가 가시적인(소정의 객체는 부분적으로 가려지거나 이미지의 경계를 넘어서 연장될 수 있음) 3차원 장면의 뷰를 나타내는 이미지 데이터 및 연관된 깊이 정보를 획득하고, 704에서, 그 소정의 객체에 대한 포즈를 추정한다. 본 예에서, 이미지 및 연관된 깊이 정보는 센서들(106)을 사용하여 캡처되고, 각 객체의 포즈는 도 2의 방법(200)을 사용하여 추정된다. 대안적으로, 임의의 다른 적합한 포즈 예측 방법들이 사용될 수 있다. 일부 예들에서, 장면 내의 여러 객체들의 포즈들이 단일 이미지 및 연관된 깊이 정보를 사용하여 추정된다. 다른 예들에서는, 두 개 이상의 상이한 객체들의 포즈들이 3차원 장면의 상이한 뷰들을 나타내는 상이한 이미지들을 사용하여 추정된다. 후자의 경우에, 각 소정의 객체의 추정된 포즈는(예를 들어, 이미지 및 연관된 깊이 정보를 캡처할 때 센서들(106)의 위치 및 배향을 나타내는 정보를 사용하여) 공통 기준 프레임으로 변환된다.

시스템(100)은 복수의 객체들 각각의 포즈에 대한 추정을 결정하고, 필요하다면 추정된 포즈들을 공통 기준 프레임으로 변환하면, 후술되는 바와 같이 추정된 포즈들을 공동으로 최적화하기 위한 반복적인 포즈 개선 루틴을 수행한다. 포즈 개선 루틴은 706에서 시작하며, 여기서 시스템(100)은 객체의 대응하는 추정된 포즈에 따라 변환되는, 각 소정의 객체의 저장된 모델로부터의 지점들의 세트를 샘플링한다. 이 예에서, 저장된 모델은 볼류메트릭 솔리드 모델이고, 시스템(100)은 볼류메트릭 솔리드 모델의 볼륨 전체에 걸쳐 지점들의 세트를 균일하게 샘플링한다. 각 소정의 객체에 대한 샘플링된 지점들의 세트는 점군을 형성한다.

시스템(100)은 708에서, 소정의 객체를 포함하는 복셀 그리드에 관환, 소정의 객체의 저장된 모델로부터 샘플링된 지점들의 위치들에 의존하는 각 소정의 객체에 대한 각 제1 점유 데이터를 결정한다. 시스템(100)이 초기 포즈 추정들을 결정하는 데 방법(200)을 사용하는 본 예에서, 시스템(100)은 각 소정의 객체를 포함하는 복셀 그리드를 이미 결정하였다. 이에 따라, 동일한 복셀 그리드가 제1 점유 데이터를 정의하기 위해 재사용된다. 방법(200)이 초기 포즈 추정들을 결정하는 데 사용되지 않을 때와 같은 다른 예들에서, 708에서 각 소정의 객체에 대해 새로운 복셀 그리드가 결정된다.

소정의 객체에 대한 제1 점유 데이터는 소정의 객체를 포함하는 복셀 그리드에 관한, 소정의 객체의 추정된 포즈에 의존하는 위치들을 갖는 지점들에 의존한다. 이에 따라, 지점들의 위치들은 소정의 객체의 포즈에 대해 구별가능하다. 즉, 소정의 객체의 추정된 포즈의 작은 변화는 각 샘플링된 지점의 위치의 예측가능한 작은 변화를 초래한다. 제1 점유 데이터가 매끄럽고 구별가능한 방식으로 지점들의 위치들에 의존한다면, 제1 점유 데이터는 이에 따라 또한 소정의 객체의 추정된 포즈에 대해 구별 가능하다.

시스템(100)은 710에서, 소정의 객체를 포함하는 복셀 그리드에 관환, 복수의 객체들 중 다른 객체들의 저장된 모델들로부터 샘플링된 지점들의 위치들에 의존하는 각 소정의 객체에 대한 각 제2 점유 데이터를 결정한다. 소정의 객체에 대한 제2 점유 데이터는 제1 점유 데이터가 소정의 객체의 추정된 포즈에 대해 구별가능한 것과 동일한 방식으로 다른 객체들의 추정된 포즈들에 대해 구별가능하다.

시스템(100)은 712에서, 복수의 객체들 각각에 대한 각 제1 점유 데이터 및 각 제2 점유 데이터에 따라 점유 페널티를 감소시키기 위해 복수의 객체들의 추정된 포즈들을 업데이트한다. 점유 페널티는 구별가능한 방식으로 제1 점유 데이터 및 제2 점유 데이터에 의존하고, 이에 따라 복수의 객체들의 추정된 포즈에 대해 구별가능하다. 이는 점유 페널티의 기울기가 복수의 객체들의 추정된 포즈들에 대해 결정될 수 있게 하며, 이는 이에 따라 이의 변형의 기울기 하강을 사용하여 추정된 포즈들의 증분식 업데이트를 가능하게 한다.

단계 706 내지 단계 712는 중지 조건이 만족될 때까지 반복적으로 수행된다. 중지 조건은 미리 결정된 수렴 기준이 만족되는 것을 포함할 수 있거나, 미리 결정된 반복 횟수가 수행된 것을 포함할 수 있다.

특정 예에서, 제1 점유 데이터는 복수의 객체들의 각 소정의 객체에 대한 제1 구별가능한 점유 그리드를 포함한다. 제m 객체에 대한 제1 구별가능한 점유 그리드

는 제m 객체를 포함하는 복셀 그리드의 각 복셀에 대한 제1 구별가능한 점유 값으로 구성된다. 제k 복셀에 대한 제1 구별가능한 점유 값

은 다음 식 (4)에 의해 나타나는 바와 같이, 제k 복셀과 소정의 객체의 볼류메트릭 모델로부터 샘플링된 지점들 사이의 최소 거리에 의존한다:

(4)

여기서

는 제m 객체를 포함하는 복셀 그리드의 제k 복셀과 제m 객체의 볼류메트릭 모델로부터 샘플링된 제q 지점 사이의 거리이고,

는 미리 결정된 거리 임계값이다. 본 예에서, 최소 거리

에 대한 의존성은 거리 임계치에서 포화되므로, 어떤 지점도 거리 임계치보다 복셀에 더 가깝지 않다면, 그 복셀에 대한 점유는 0으로 설정되고, 그 복셀은 점유 페널티에 기여하지 않는다. 임의의 지점이 미리 결정된 거리 임계치보다 복셀에 더 가까워지면, 구별가능한 점유는 연속적으로 증가하여, 지점이 복셀과 일치한다면 최대값 1에 도달한다. 거리

를 계산하기 위해, 제m 객체의 모델로부터 샘플링된 제q 지점의 위치

는 식

을 사용하여 복셀 그리드의 좌표계로 변환되며, 여기서

은 복셀 그리드 좌표계의 원점이고,

는 복셀 그리드 내의 각 복셀의 크기이다. 그 후, 거리들은

에 의해 주어지며, 여기서

은 제k 복셀과 연관된 위치(예를 들어, 복셀의 미리 결정된 코너 또는 복셀의 중심)이고,

는 복셀 좌표계에서의 지점의 위치이다.

이 예에서, 제2 점유 데이터는 복수의 소정의 객체들의 각 소정의 객체에 대한 제2 구별가능한 점유 그리드를 포함한다. 제m 객체에 대한 제2 구별가능한 점유 그리드

는 제m 객체를 포함하는 복셀 그리드의 각 복셀에 대한 제2 구별가능한 점유 값으로 구성된다. 제k 복셀에 대한 제2 구별가능한 점유 값

은 다음 식 (5)에 의해 나타나는 바와 같이, 제k 복셀과 다른 소정의 객체의들 볼류메트릭 모델들로부터 샘플링된 지점들 사이의 최소 거리에 의존한다:

(5)

여기서

는 제m 객체를 포함하는 복셀 그리드의 제k 복셀과 제n 객체의 볼류메트릭 모델로부터 샘플링된 제q 지점 사이의 거리이다(여기서,

). 거리

를 결정하기 위해, 다른 객체들의 모델들로부터 샘플링된 지점들이 제m 객체를 포함하는 복셀 그리드의 좌표계로 변환된다.

본 예에서, 점유 페널티

는 복수의 기지의 객체들의 각 소정의 객체에 대해, 소정의 객체의 미리 결정된 모델로부터 샘플링된 지점 및 복수의 기지의 객체들 중 상이한 객체의 미리결정된 모델로부터 샘플링된 지점이 소정의 객체를 포함하는 복셀 그리드의 복셀에 동시에 더 가까워질 때 증가하는 충돌 성분

을 포함한다. 이 예에서 충돌 성분

은 다음 식 (6)에 의해 나타나는 바와 같이, 제1 구별가능 점유 그리드

과 제2 구별가능 점유 그리드

로부터 도출된다:

(6)

여기서

는 요소별 곱을 나타낸다. 충돌 성분

는 제m 객체를 포함하는 복셀 그리드의 복셀이 제m 객체로부터 샘플링된 지점 및 복수의 기지의 객체들 중 다른 객체들 중 하나로부터 샘플링된 지점에 동시에 가까운 상황들에 페널티를 준다. 그 후, 전체 점유 페널티의 가능한 정의는

에 의해 주어지며, 여기서 합은

개의 기지의 객체들에 대한 것이다. 전체 점유 페널티는 모든 기지의 객체들의 추정된 포즈들에 대해 공동으로 최적화된다. 그러나, 이하에서 설명될 바와 같이, 점유 페널티의 보다 정교한 정의가 가능하다.

도 2의 방법(200)이 초기 포즈 추정들을 결정하기 위해 사용되는 것들과 같은 일부 예들에서, 볼류메트릭 재구성들은 복수의 기지의 객체들의 각 소정의 객체에 대해 생성되고, 추가적인 점유 데이터사 볼류메트릭 융합으로부터 생성된다. 이러한 추가적인 점유 데이터는 자유 공간에 의해 점유된 소정의 객체를 포함하는 복셀 그리드의 부분들 및 소정의 객체 이외의 객체들에 의해 점유되는 소정의 객체를 포함하는 복셀 그리드들의 부분들을 표시한다. 제1 점유 데이터 및 제2 점유 데이터와 달리, 이러한 추가적인 점유 데이터는 객체들의 추정된 포즈들에 대해 구별가능하지 않다. 그러나, 추가적인 점유 데이터는 포즈 정제에 관련된 정보를 포함하는데, 이는 추가적인 점유 데이터가 소정의 객체를 포함하는 복셀 그리드의 불가입 영역을 정의하기 때문이다. 이러한 정보가 주어지면, 소정의 객체의 미리 결정된 모델로부터 샘플링된 지점이 자유 공간에 의해 또는 소정의 객체 이외의 객체들에 의해 점유되는 소정의 객체를 포함하는 복셀 그리드의 복셀에 더 가까워질 때, 소정의 객체에 대한 충돌 성분이 증가하도록 수정될 수 있다.

일례에서, 추가적인 점유 데이터는 이진수를 소정의 객체를 포함하는 복셀 그리드의 각 복셀에 연관시키는 이진 불가입 그리드

를 포함하며, 여기서 이진수는 그 복셀이 소정의 객체에 불가입한지 여부(즉, 복셀이 위에서 언급된 상태 2 또는 상태 3 중 어느 하나에 있는지 여부)를 표시한다. 제1 구별가능 점유 그리드

및 제2 구별가능 점유 그리드

의 정의들과의 호환을 위해, 불가입 그리드

에는 불가입 복셀들에 대해 1의 값이 주어지고, 그렇지 않으면 0이 주어진다.그러나, 다른 정의가 가능하다는 것이 이해될 것이다.

불가입 그리드

가 주어지면, 소정의 제m 객체에 대한 충돌 성분의 대안적인 정의는 다음 식 (7)에 의해 주어진다:

(7)

여기서 최대 연산자는 요소별로 취해진다. 이러한 대안적인 정의는 제m 객체를 포함하는 복셀 그리드의 복셀이 제m 객체로부터 샘플링된 지점에 가깝고, 동시에 다른 기지의 객체들 중 하나로부터 샘플링된 지점, 및/또는 불가입 그리드의 일부인 지점에 가까운 상황들에 페널티를 준다. 충돌 성분의 대안적인 정의는 포즈 개선 방법의 성능을 개설시킬 수 있는데, 이는 결과적인 포즈들의 세트가 장면의 볼류메트릭 맵의 불가입 영역들에 의해 제약되기 때문이다.

예를 들어, 식 (6) 또는 식 (7)에 의해 정의된 충돌 성분 외에, 점유 페널티는 복수의 기지의 객체들 각각에 대한 표면 정렬 성분을 포함하도록 증강될 수 있다. 이웃하는 객체들의 중첩에 페널티를 주는 충돌 성분과 달리, 표면 정렬 성분은 소정의 객체로부터 샘플링된 지점들이 그 객체에 대한 볼류메트릭 재구성의 복셀들과 중첩하는 상황들을 보상한다. 이에 따라, 표면 정렬 성분은 소정의 객체의 추정된 포즈와 이미지 내의 소정의 객체의 외관 및 연관된 깊이 정보 사이의 일관성을 촉진한다.

일례에서, 제m 소정의 객체에 대 표면 정렬 성분은 다음 식(8)에 의해 주어진다:

(8)

여기서

는

에 의해 주어진 요소들을 갖는 이진 자기 점유 그리드이며, 이 예에서

는 제m 객체의 볼류메트릭 재구성에 의해 점유되는 복셀들에 대해 1의 값을 갖고, 그렇지 않으면 0을 갖는다. 소정의 객체의 미리 결정된 모델로부터 샘플링된 지점이 소정의 객체에 대한 볼류메트릭 재구성에 의해 점유되는 소정의 객체를 포함하는 복셀 그리드의 복셀에 더 가까워질 때, 소정의 객체에 대한 표면 정렬 성분은 감소한다.

표면 정렬 성분이 포함될 때, 점유 페널티는 다음 식 (9)에 의해 정의된다:

(9)

점유 페널티는 모든 기지의 객체들의 추정된 포즈들에 대해 공동으로 최적화된다. 일례에서, 최적화는 그래픽 처리 유닛(GPU) 상에서 배치 기울기 하강을 사용하여 수행된다.

도 8은 점유 페널티에서 표면 정렬 성분을 포함하는 효과를 도시한다. 상부 프레임은 이 예에서 도 2의 방법(200)을 사용하여 결정된, 도 3의 장면(300) 내의 기지의 객체들(302, 304, 306)에 대한 추정된 포즈들의 초기 세트를 도시한다. 추정된 포즈들은 부정확하여, 상자(302)가 원통(304)과 교차하는 것으로 관찰된다. 그 결과, (복셀 그리드(502)를 사용하여 정의되는) 원통(304)에 대한 충돌 성분은 높은 값을 갖는다. 좌측의 하부 프레임은 표면 정렬 성분의 사용 없이 포즈 정제가 수행된 후의 객체들(302, 304, 306)의 추정된 포즈들을 도시한다. 원통(304)에 대한 충돌 성분을 감소시키기 위해, 상자(302)와의 중첩이 더 이상 존재하지 않도록 원통(304)이 좌측으로 이동한 것이 관찰된다. 그러나, 결과적인 장면은 도 3에 도시된 실제 장면(300)과 밀접하게 대응하지 않는다. 우측의 하부 프레임은 표면 정렬 성분을 사용하여 정제가 수행된 후의 객체들(302, 305, 306)의 추정된 포즈들을 도시한다. 점유 페널티의 충돌 성분을 감소시키기 위해, 원통(304)과의 중첩이 더 이상 존재하지 않도록 상자(302)의 각도가 수정된 것이 관찰된다. 그러나, 하부 좌측 프레임 내의 잘못된 장면과 대조적으로, 하부 우측 프레임 내의 결과적인 장면은 도 3의 장면(300)과 밀접하게 대응하는데, 이는 원통(304)에 대한 표면 정렬 성분이 원통(304)이 이의 볼류메트릭 재구성과 불일치하는 방식으로 이의 원래 위치로부터 멀리 이동하는 것을 방지하기 때문이다. 이에 의해, 표면 정렬 성분은 포즈 예측을 더 정확하게 한다.

방법들(200 및/또는 700)을 사용하여, 시스템(100)은 센서들(106)에 의해 캡처된 장면의 제1 뷰를 나타내는 이미지 및 연관된 깊이 정보를 사용하여 장면 내의 객체에 대한 제1 포즈를 예측할 수 있다. 그러나, 객체의 전체는 장면의 임의의 단일 뷰로부터 가시적이지 않을 것이다. 훨씬 더 정확한 포즈 예측을 달성하기 위해, 본 예에서, 시스템(100)은 또한, 장면의 제2 뷰를 나타내는 추가의 이미지 및 연관된 깊이 정보를 캡처하기 위해 액추에이터들(108)을 사용하여 센서들(106)을 이동시키도록 구성된다. 제2 뷰는 센서들(106)이 이동된 후에 장면에 관해 상이한 배향 및/또는 위치를 갖기 때문에 제1 뷰와 상이하다.

추가의 이미지 및 연관된 깊이 정보를 사용하여, 시스템(100)은 객체에 대한 제2 포즈를 예측한다. 본 예에서, 제2 포즈는 제1 포즈와 동일한 방법, 즉 포즈 추정 방법(200) 다음에 포즈 정제 방법(700)을 사용하여 예측된다. 제1 포즈 및 제2 포즈 중 적어도 하나는 제1 포즈 및 제2 포즈가 공통 좌표계에 대해 표현되도록 변환된다. 본 예에서, 제1 포즈와 제2 포즈 양자는 센서들(106)의 위치 및 배향에 독립적인 임의의 "세계" 좌표계로 변환된다.

제1 포즈 및/또는 제2 포즈를 공통 좌표계으로 변환하는 것은 제1 포즈와 제2 포즈가 비교될 수 있게 한다. 이 비교에 기초하여, 일관성 조건이 충족되는 것으로 결정된다면, 제1 포즈 및 제2 포즈는 정확한 것으로 결정된다. 일관성 조건이 충족되지 않는다면, 장면의 제3 뷰를 나타내는 추가의 이미지 및 연관된 깊이 정보가 캡처되며, 이는 그 후 제1 포즈 및 제2 포즈 각각과 비교된다. 제3 포즈가 제1 포즈 또는 제2 포즈 중 어느 하나와 일치한다면, 그 포즈는 정확한 것으로 결정된다. 일관성 조건이 만족될 때까지, 추가의 이미지들 및 연관된 깊이 정보가 캡처되고, 객체에 대해 추가의 포즈들이 예측된다. 본 예에서, 포즈들은 식 (2)의 점별 포즈 추정 손실을 사용하여 비교되고, 일관성 조건은 임의의 두 개의 예측된 포즈들이 임계값 미만인 점별 포즈 추정 손실을 가질 때 만족된다. 다른 예들에서, 일관성 조건은 예측된 포즈들의 임계 수

이 임계값

미만의 점별 포즈 추정 손실

를 가질 때, 즉

일 때 만족된다.

포즈 예측이 상술한 바와 같이 포즈 비교들에 기초하여 정확한 것으로 결정된다면, 시스템(100)은 예측된 포즈와 일관되게 변환된 객체의 메시 모델을 생성한다. 다수의 기지의 객체들의 메시 모델들을 생성함으로써, 장면의 메시 모델이 생성된다. 장면의 메시 모델은 (이하에서 더 상세히 설명되는 바와 같이) 장면과 상호작용하는 데 사용될 수 있거나, 인간 사용자를 위해 디스플레이될 수 있다.

장면의 상이한 뷰들을 캡처하고 추가의 포즈 예측들을 행하는 프로세스 동안, 장면의 볼류메트릭 맵은 상이한 뷰들로부터의 정보를 사용하여 반복적으로 구축될 수 있으며, 볼류메트릭 맵은 더 많은 뷰들이 캡처됨에 따라 "미지의" 상태에 있는 점점 더 적은 복셀들을 포함한다는 것에 유의한다. 그 결과, (다수의 뷰들로부터의 정보를 사용하는) 후기 포즈 예측들은 (단일 뷰로부터의 정보만을 사용하는) 초기 포즈 예측들보다 더 정확할 수 있다. 그러나, 장면의 다수의 뷰들을 캡처하는 것은 추가적인 시간이 걸린다. 이에 따라, 정확도와 시간 사이에 트레이드-오프가 발생한다. 일부 경우들에서, 포즈 예측이 빠르게 수행되는 것이 필수적이며, 이 경우 장면의 단일 뷰로부터 소정의 객체의 포즈들을 예측하는 것이 필요할 수 있다. 예들은 차량에서 ADS 또는 ADAS에 의해 수행되는 포즈 예측을 포함한다. 다른 경우들에서는, 정확도가 가장 중요하다. 이러한 경우들의 예들은 매우 복잡한 로봇 작업들을 포함한다.

본원에서 설명된 방법들은 로봇이 객체들을 픽업하거나 그 외 인게이지하는 데 사용되는 로봇 작업들에 특히 유용하다. 이러한 로봇은 소정의 객체를 파지하거나, 가압하거나, 또는 그 외 물리적으로 접촉시키기 위한 하나 이상의 인게이지 수단, 이를테면 로봇 손 또는 다른 구성요소들을 포함한다. 소정의 객체와 정확하게 인게이지하기 위해, 로봇은 먼저 소정의 객체의 포즈를 예측하고, 그 후 예측된 포즈에 의존하여 소정의 객체와 인게이지한다. 일부 예들에서, 로봇은 먼저 소정의 객체의 예측된 포즈에 따라 변환된 소정의 객체의 메시 모델(예를 들어, CAD 모델)을 생성하고, 생성된 메시 모델에 기초하여 소정의 객체를 인게이지한다.

추가의 예들에서, 로봇은 예를 들어, 흡입 수단 또는 송풍 수단, 레이저들 또는 다른 방사선원들, 또는 로봇에 의해 수행되는 작업에 적절한 임의의 다른 구성요소들을 사용하여, 소정의 객체와 직접 접촉하지 않고 소정의 객체와 상호작용할 수 있다.

도 1의 시스템(100)은 독립형 디바이스 또는 분산 컴퓨팅 시스템으로서 구현될 수 있다. 시스템(100)은 이미지들 및 연관된 깊이 정보를 캡처하기 위한 센서들(106)를 포함하지만, 다른 예들에서 데이터 처리 시스템은 원격 소스로부터 수신된 이미지들 및 연관된 깊이 정보를 본원에서 설명된 방법들을 수행하도록 구성될 수 있으며, 이 경우 센서들은 필요하지 않다. 다른 예들에서, 하나 이상의 다른 유형들의 센서가 센서들(106)에 더하여, 또는 이들 대신에 포함될 수 있다. 적합한 센서들의 예들은 입체 카메라들, 이벤트 카메라들, 적외선 카메라들, 및/또는 sonar(sound navigation ranging)를 위한 트랜시버들이다.

시스템(100)의 처리 회로부(104)는 중앙 처리 유닛(CPU) 및 그래픽 처리 유닛(GPU)을 포함하는 다양한 처리 유닛들을 포함한다. 다른 예들에서, 주문형 집적 회로들(ASIC들) 또는 디지털 신호 프로세서들(DSP들)과 같은 전문가 처리 유닛들이 특정 처리 동작들을 수행하기 위해 제공된다. 일부 예들에서, 신경망 동작들을 효율적으로 수행하기 위해 전문가 신경망 가속기(NNA) 또는 신경 처리 유닛(NPU)이 제공된다. 일부 예들에서, 반도체 디바이스에는 본원에서 설명된 방법들의 구현에 요구되는 특정 동작들을 수행하도록 구성된 하나 이상의 게이트 어레이가 제공된다.

시스템(100)의 메모리 회로부(102)는 휘발성 랜덤 액세스 메모리(RAM), 특히 정적 랜덤 액세스 메모리(SRAM) 및 동적 랜덤-접속 메모리(DRAM)와 함께, 고체 상태 드라이브(SSD) 형태의 비휘발성 스토리지를 포함한다. 다른 예들에서, 탈착식 스토리지, 플래시 메모리, 동기식 DRAM 등과 같은 대안적인 유형들의 메모리가 포함될 수 있다.

도 2의 포즈 추정 방법(200) 또는 도 7 의 포즈 정제 방법(700)은 서로 독립적으로 수행될 수 있다. 이에 따라, 일부 예들에서, 시스템은 추가의 정제 없이 방법(200)을 수행하도록 구성된다. 이러한 예들에서, 각 기지의 객체의 볼류메트릭 모델들을 저장할 필요는 없지만, 이미지 세그먼트화를 위한 기지의 객체들을 인식하기 위해 훈련된 신경망 또는 다른 구성요소를 제공하는 것이 여전히 필요하다. 다른 예들에서, 대안적인 포즈 추정 방법이 포즈 정제 방법(700)과 함께 수행될 수 있다.

상기한 실시예들은 본 발명의 예시적인 예들로서 이해되어야 한다. 본 발명의 추가의 실시예들이 구상된다. 예를 들어, 본원에서 설명된 포즈 예측 방법들은 결과적인 포즈 예측들이 물리적으로 가능한/실현적인 것을 보장하기 위해 물리학과 조합될 수 있다. 이러한 추론은 비디오 게임과 관련하여 주지된 것과 같은 물리 엔진을 사용하여 통합될 수 있다. 일부 예들에서, 포즈 정제를 위한 충돌 기반 방법들에 추가하여, 또는 그 대안으로서 물리 추론이 사용된다.

임의의 일 실시 예와 관련하여 설명된 임의의 특징은 단독으로, 또는 설명된 다른 특징들과 조합하여 사용될 수 있고, 또한 임의의 다른 실시 예들, 또는 임의의 다른 실시 예들의 임의의 조합의 하나 이상의 특징과 조합되어 사용될 수 있다고 이해될 것이다. 뿐만 아니라, 위에서 설명되지 않은 균등물들 및 변형물들 또한 첨부한 청구항들에 정의된 본 발명의 범위로부터 벗어나지 않고 채용될 수 있다.

Claims

3차원 장면 내 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법으로서,
컴퓨터 구현 방법은,
상기 3차원 장면의 뷰를 나타내는 이미지 데이터 및 연관된 깊이 정보를 획득하는 단계;
상기 이미지 데이터 및 상기 연관된 깊이 정보를 처리하여 상기 타겟 객체를 포함하는 상기 3차원 장면 내 복수의 객체들 각각에 대한 볼류메트릭 재구성을 생성하는 단계;
상기 타겟 객체를 포함하는 볼류메트릭 그리드를 결정하는 단계;
상기 생성된 볼류메트릭 재구성을 사용하여, 자유 공간에 의해 점유되는 상기 볼류메트릭 그리드의 부분들 및 상기 타겟 객체 이외의 객체들에 의해 점유된 상기 볼류메트릭 그리드의 부분들을 나타내는 점유 데이터를 생성하는 단계; 및
상기 생성된 점유 데이터, 및 상기 타겟 객체의 표면 상의 복수의 점들에 대한 점별 특징 데이터를 사용하여 상기 타겟 객체의 포즈를 추정하는 단계
를 포함하는, 3차원 장면 내 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 컴퓨터 구현 방법은,
2차원 특징 추출기를 사용해 상기 획득된 이미지 데이터를 처리하여 상기 타겟 객체의 상기 표면 상의 상기 복수의 점들에 대한 상기 점별 특징 데이터를 생성하는 단계
를 포함하는, 3차원 장면 내 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법.
제2항에 있어서,
상기 컴퓨터 구현 방법은,
이미지 세그먼트화를 사용해 상기 획득된 이미지 데이터를 처리하여 상기 타겟 객체에 대한 2차원 마스크를 결정하는 단계
를 포함하며,
상기 2차원 특징 추출기를 사용해 상기 획득된 이미지 데이터를 처리하는 것은 상기 타겟 객체에 대한 상기 2 차원 마스크에 상응하는 상기 이미지 데이터의 부분을 처리하는 것을 포함하는 것인, 3차원 장면 내 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 생성된 점유 데이터 및 상기 점별 특징 데이터를 사용하여 상기 타겟 객체의 상기 포즈를 추정하는 단계는:
상기 점별 특징 데이터를 복셀화하여 제1 볼류메트릭 특징 데이터를 획득하는 단계;
3차원 특징 추출기를 사용해 상기 점유 데이터 및 상기 제1 볼류메트릭 특징 데이터를 함께 처리하여 제2 볼류메트릭 특징 데이터를 생성하는 단계; 및
상기 제2 볼류메트릭 특징 데이터를 사용하여 상기 타겟 객체의 상기 포즈를 추정하는 단계
를 포함하는 것인, 3차원 장면 내 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법.
제4항에 있어서,
상기 3차원 특징 추출기는 3차원 컨볼루션 신경망이고,
상기 제2 볼류메트릭 특징 데이터는 상기 3차원 컨볼루션 신경망의 대응하는 상이한 계층들에서 생성된 볼류메트릭 특징들의 계층구조를 포함하는 것인, 3차원 장면 내 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법.
제4항 또는 제5항에 있어서,
상기 점별 특징 데이터는 제1 점별 특징 데이터이고,
상기 제2 볼류메트릭 특징 데이터를 사용하여 상기 타겟 객체의 상기 포즈를 추정하는 단계는,
상기 제2 볼류메트릭 특징 데이터로부터, 상기 타겟 객체의 표면 상의 상기 복수의 점들에 대한 제2 점별 특징 데이터를 추출하는 단계;
상기 제2 점별 특징 데이터를 사용하여, 상기 타겟 객체의 상기 표면 상의 상기 복수의 점들 각각에 대한 후보 포즈 및 해당 신뢰도 점수를 결정하는 단계; 및
상기 해당 신뢰도 점수들에 기초하여 상기 결정된 후보 포즈들로부터 상기 타겟 객체의 상기 포즈를 추정하는 단계
를 포함하는 것인, 3차원 장면 내 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법.
제6항에 있어서,
상기 후보 포즈들로부터 상기 타겟 객체의 상기 포즈를 추정하는 단계는 가장 높은 해당 신뢰도 점수를 갖는 후보 포즈를 결정하는 단계를 포함하는 것인, 3차원 장면 내 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법.
제6항 또는 제7항에 있어서,
상기 타겟 객체의 상기 표면 상의 상기 복수의 점들 각각에 대한 상기 후보 포즈 및 상기 해당 신뢰도 점수를 결정하는 단계는 회귀 모델을 사용해 상기 제1 점별 특징 데이터 및 상기 제2 점별 특징 데이터를 함께 처리하는 단계를 포함하는 것인, 3차원 장면 내 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 복수의 객체들 중 제1 객체에 대한 볼류메트릭 재구성을 생성하는 단계는,
이미지 세그먼트화를 사용해 상기 이미지 데이터를 처리하여 상기 제1 객체에 대한 2차원 마스크를 결정하는 단계; 및
상기 제1 객체에 대한 상기 2차원 마스크에 상응하는 상기 연관된 깊이 정보의 일부를 처리하여 상기 제1 객체에 대한 볼류메트릭 재구성을 생성하는 단계
를 포함하는 것인, 3차원 장면 내 타겟 객체의 포즈를 추정하는 컴퓨터 구현 방법.
제1항 내지 제9항 중 어느 한 항의 방법을 사용하여 3차원 장면 내 복수의 타겟 객체들 각각의 포즈를 추정하는 방법.
제10항에 있어서,
상기 복수의 타겟 객체들의 각 소정의 타겟 객체에 대해 생성된 점유 데이터는 제1 점유 데이터이며, 상기 포즈의 추정 방법은,
상기 복수의 타겟 객체들의 각 소정의 타겟 객체에 대해:
상기 소정의 타겟 객체의 상기 추정된 포즈에 따라 변환된 상기 소정의 타겟 객체의 미리 결정된 모델로부터 복수의 점들을 샘플링하는 단계;
상기 소정의 타겟 객체를 포함하는 상기 볼류메트릭 그리드에 대해, 상기 소정의 타겟 객체의 상기 미리 결정된 모델로부터 샘플링된 상기 점들의 위치들에 따른 대응하는 제2 점유 데이터를 결정하는 단계; 및
상기 소정의 타겟 객체를 포함하는 상기 볼류메트릭 그리드에 대해, 상기 복수의 타겟 객체들 중 다른 타겟 객체들의 상기 미리 결정된 모델들로부터 샘플링된 상기 점들의 위치들에 따른 대응하는 제3 점유 데이터를 결정하는 단계
를 포함하며,
상기 포즈의 추정 방법은 반복적으로,
상기 복수의 타겟 객체들 각각에 대한 상기 대응하는 제2 점유 데이터 및 상기 대응하는 제3 점유 데이터에 따라 점유 페널티를 결정하는 단계; 및
상기 결정된 점유 페널티를 사용하여 상기 복수의 타겟 객체들의 상기 추정된 포즈들을 수정하는 단계
를 더 포함하는, 포즈의 추정 방법.
제10항 또는 제11항에 있어서,
상기 3차원 장면의 뷰는 상기 3차원 장면의 제1 뷰이고,
상기 또는 각 타겟 객체의 상기 추정된 포즈는 상기 소정의 객체의 제1 포즈이며,
상기 포즈의 추정 방법은,
상기 3차원 장면의 상기 제1 뷰와는 상이한 상기 3차원 장면의 제2 뷰를 나타내는 추가의 이미지 데이터 및 추가의 연관된 깊이 정보를 획득하는 단계
를 포함하며,
상기 포즈의 추정 방법은,
상기 또는 각 타겟 객체에 대해:
상기 추가의 이미지 데이터 및 상기 추가의 연관된 깊이 정보를 처리하여 상기 타겟 객체에 대한 제2 포즈를 추정하는 단계;
상기 타겟 객체의 상기 제1 포즈 및 상기 제2 포즈 중 적어도 하나를 변환하여 포즈 비교 데이터를 결정하는 단계;
상기 포즈 비교 데이터를 처리하여 일관성 조건이 충족되는지 여부를 결정하는 단계; 및
상기 일관성 조건이 충족되는 것으로 결정될 때, 상기 타겟 객체의 상기 제1 포즈 및 상기 제2 포즈와 일관되게 변환된 상기 타겟 객체에 대한 미리 결정된 객체 모델을 생성하는 단계
를 포함하는, 포즈의 추정 방법.
이미지 데이터 및 연관된 깊이 정보를 캡처하도록 동작 가능한 하나 이상의 센서를 포함하는 이미지 처리 시스템으로서,
상기 이미지 처리 시스템은,
상기 하나 이상의 센서를 사용하여, 상기 3차원 장면의 뷰를 나타내는 이미지 데이터 및 연관된 깊이 정보를 캡처하도록 구성되고,
상기 이미지 데이터 및 상기 연관된 깊이 정보를 처리하여 타겟 객체를 포함하는 상기 3차원 장면 내 복수의 객체들 각각에 대한 볼류메트릭 재구성을 생성하도록 구성되며,
상기 타겟 객체를 포함하는 볼류메트릭 그리드를 결정하도록 구성되고,
상기 생성된 볼류메트릭 재구성을 사용하여, 자유 공간에 의해 점유되는 상기 볼류메트릭 그리드의 부분들 및 상기 타겟 객체 이외의 객체들에 의해 점유된 상기 볼류메트릭 그리드의 부분들을 나타내는 점유 데이터를 생성하도록 구성되며,
상기 생성된 점유 데이터, 및 상기 타겟 객체의 표면 상의 복수의 점들에 대한 점별 특징 데이터를 사용하여 상기 타겟 객체의 포즈를 추정하도록 구성되는, 이미지 처리 시스템.
제13항에 있어서,
상기 이미지 처리 시스템은,
2차원 특징 추출기
를 포함하며,
상기 이미지 처리 시스템은 상기 2차원 특징 추출기를 사용해 상기 획득된 이미지 데이터를 처리하여 상기 타겟 객체의 상기 표면 상의 상기 복수의 점들에 대한 상기 점별 특징 데이터를 생성하도록 구성되는, 이미지 처리 시스템.
제14항에 있어서,
상기 이미지 처리 시스템은 이미지 세그먼트화를 사용해 상기 획득된 이미지 데이터를 처리하여 상기 타겟 객체에 대한 2차원 마스크를 결정하도록 구성되며,
상기 2차원 특징 추출기를 사용해 상기 획득된 이미지 데이터를 처리하는 것은 상기 타겟 객체에 대한 상기 2 차원 마스크에 상응하는 상기 이미지 데이터의 부분을 처리하는 것을 포함하는 것인, 이미지 처리 시스템.
제13항 내지 제15항 중 어느 한 항에 있어서,
상기 이미지 처리 시스템은,
3차원 특징 추출기
를 포함하며,
상기 이미지 처리 시스템은,
상기 점별 특징 데이터를 복셀화하여 제1 볼류메트릭 특징 데이터를 획득하는 것;
상기 3차원 특징 추출기를 사용해 상기 점유 데이터 및 상기 제1 볼류메트릭 특징 데이터를 함께 처리하여 제2 볼류메트릭 특징 데이터를 생성하는 것; 및
상기 제2 볼류메트릭 특징 데이터를 사용하여 상기 타겟 객체의 상기 포즈를 추정하는 것에 의해 상기 생성된 점유 데이터 및 상기 점별 특징 데이터를 사용하여 상기 타겟 객체의 상기 포즈를 추정하도록 구성되는, 이미지 처리 시스템.
제16항에 있어서,
상기 3차원 특징 추출기는 상기 제2 볼류메트릭 특징 데이터를 생성하도록 구성된 3차원 컨볼루션 신경망이고,
상기 제2 볼류메트릭 특징 데이터는 상기 3차원 컨볼루션 신경망의 대응하는 상이한 계층들에서 생성된 볼류메트릭 특징들을 포함하는 것인, 이미지 처리 시스템.
제16항 또는 제17항에 있어서,
상기 점별 특징 데이터는 제1 점별 특징 데이터이고,
상기 이미지 처리 시스템은,
상기 제2 볼류메트릭 특징 데이터로부터, 상기 타겟 객체의 표면 상의 상기 복수의 점들에 대한 제2 점별 특징 데이터를 추출하는 것;
상기 제2 점별 특징 데이터를 사용하여, 상기 타겟 객체의 상기 표면 상의 상기 복수의 점들 각각에 대한 후보 포즈 및 해당 신뢰 점수를 결정하는 것; 및
상기 해당 신뢰도 점수들에 기초하여 상기 결정된 후보 포즈들로부터 상기 타겟 객체의 상기 포즈를 추정하는 것에 의해 상기 제2 볼류메트릭 특징 데이터를 사용하여 상기 타겟 객체의 상기 포즈를 추정하도록 구성되는, 이미지 처리 시스템.
제18항에 있어서,
상기 이미지 처리 시스템은,
가장 높은 해당 신뢰도 점수를 갖는 후보 포즈를 결정하는 것에 의해, 상기 후보 포즈들로부터 상기 타겟 객체의 상기 포즈를 추정하도록 구성되는, 이미지 처리 시스템.
제18항 또는 제19항에 있어서,
상기 이미지 처리 시스템은,
회귀 모델을 사용하여 상기 제1 점별 특징 데이터 및 상기 제2 점별 특징 데이터를 함께 처리하는 것에 의해, 상기 타겟 객체의 상기 표면 상의 상기 복수의 점들 각각에 대한 상기 후보 포즈 및 상기 해당 신뢰도 점수를 결정하도록 구성되는, 이미지 처리 시스템.
제13항 내지 제20항 중 어느 한 항에 있어서,
상기 이미지 처리 시스템은,
이미지 세그먼트화를 사용해 상기 이미지 데이터를 처리하여 상기 제1 객체에 대한 2차원 마스크를 결정하는 것; 및
상기 제1 객체에 대한 상기 2차원 마스크에 상응하는 상기 연관된 깊이 정보의 일부를 처리하여 상기 제1 객체에 대한 볼류메트릭 재구성을 생성하는 것에 의해 상기 복수의 객체들 중 제1 객체에 대한 볼류메트릭 재구성을 생성하도록 구성되는, 이미지 처리 시스템.
제13항 내지 제21항 중 어느 한 항에 있어서,
상기 이미지 처리 시스템은,
상기 타겟 객체의 상기 추정된 포즈에 따라 상기 타겟 객체를 인게이지하기 위한 인게이지 수단
을 포함하는, 이미지 처리 시스템.
제13항 내지 제22항 중 어느 한 항에 있어서,
상기 이미지 처리 시스템은,
상기 하나 이상의 센서를 이동시키도록 구성된 하나 이상의 액추에이터
를 포함하며,
상기 3차원 장면의 뷰는 상기 3차원 장면의 제1 뷰이고,
상기 타겟 객체의 상기 결정된 포즈는 제1 포즈이며,
상기 이미지 처리 시스템은,
상기 하나 이상의 액추에이터를 사용하여 상기 하나 이상의 센서를 이동시키도록 구성되고,
상기 하나 이상의 센서의 이동으로부터 기인하는 상기 3차원 장면의 제2 뷰를 나타내는 추가의 이미지 데이터 및 추가의 연관된 깊이 정보를 캡처하도록 구성되며,
상기 추가의 이미지 데이터 및 상기 추가의 연관된 깊이 정보를 처리하여 상기 타겟 객체에 대한 제2 포즈를 추정하도록 구성되고,
상기 소정의 객체에 대한 상기 제1 포즈 및 상기 제2 포즈 중 적어도 하나를 변환하여 포즈 비교 데이터를 생성하도록 구성되며,
상기 포즈 비교 데이터를 처리하여 일관성 조건이 충족되는지 여부를 결정하도록 구성되고,
상기 일관성 조건이 충족되는 것으로 결정될 때, 상기 결정된 제1 포즈 및 상기 결정된 제2 포즈에 따라 변환된 상기 타겟 객체에 대한 미리 결정된 객체 모델을 생성하도록 구성되는, 이미지 처리 시스템.
컴퓨팅 시스템에 의해 실행될 때, 상기 컴퓨팅 시스템으로 하여금 제1항 내지 제12항 중 어느 한 항의 방법을 수행하게 하는 기계 판독가능 명령어들을 포함하는 컴퓨터 프로그램 제품.