KR102419011B1

KR102419011B1 - 종래의 cad 모델들을 사용한 이미지들로부터 객체 인식

Info

Publication number: KR102419011B1
Application number: KR1020207031768A
Authority: KR
Inventors: 벤자민 플란체; 세르게이 자카로프; 안드레아스 허터; 슬로보단 일리치; 지얀 우
Original assignee: 지멘스 악티엔게젤샤프트
Priority date: 2018-04-06
Filing date: 2018-10-29
Publication date: 2022-07-07
Also published as: WO2019192744A1; US11403491B2; US20210150274A1; CN112236778B; KR20200140334A; CN112236778A; EP3759649A1; EP3759649B1

Abstract

본 발명은, 클러터 이미지(cluttered image)로부터 객체를 어떻게 복구하는지에 대한 방법에 관한 것이다. 본 발명은 또한, 프로그램(program)이 컴퓨터(computer)에 의해 실행될 때 컴퓨터로 하여금 언급된 방법의 단계들을 수행하게 하는 명령들을 포함하는, 컴퓨터 프로그램 제품 및 컴퓨터-판독가능 저장 매체에 관한 것이다. 추가로, 본 발명은, 그러한 클러터 이미지로부터 객체를 복구하기 위한 인식 시스템(system)의 구성요소들을 어떻게 트레이닝(train)하는지에 대한 방법들에 관한 것이다. 부가하여, 본 발명은 그러한 인식 시스템에 관한 것이다.

Description

종래의 CAD 모델들을 사용한 이미지들로부터 객체 인식

예컨대, 포토(photo) 또는 비디오 카메라(video camera)로부터 획득된 이미지로부터 객체의 신뢰성 있는 기계-기반 인식은 어려운 과제이다. 알려진 인식 시스템들은 통상적으로, 검출 수단, 이를테면, 카메라, 및 객체의 특질(다시 말해서, 클래스(class) 또는 카테고리(category)) 또는 객체의 포즈(pose)가 인식될 수 있게 하는 컴퓨터-구현 방법을 포함한다. 예컨대, 인식 시스템은, 예컨대 이미지 상에 고양이, 자동차 또는 선인장이 묘사되는지 여부 및/또는 카메라에 대해 객체의 포즈가 어떻게 있는지를 인식할 수 있어야 한다.

구체적인 예로서, 인식 시스템은 입력으로서 컬러(color) 이미지를 수신한다. 미리 결정된 세트(set)의 객체들(예컨대, 고양이, 자동차 및 선인장) 중 하나의 객체(예컨대, 고양이)가 입력 이미지에서 묘사된다. 객체는 클러터 방식으로 묘사되는데, 즉, 특정 배경 앞에서, 특정 조명 조건들에서, 부분적으로 가려진 상태로, 잡음성 등으로 객체가 묘사된다. 인식 시스템에 대한 과제는, 미리 결정된 객체들 중 어느 객체가 입력 이미지에서 실제로 묘사되는지를 알려주는 것이다(여기서, 고양이).

인식 시스템에 대한 다른 예시적인 과제는 고양이가 정면에서부터 보여지는지, 후면에서부터 보여지는지 또는 측면에서부터 보여지는지를 평가하는 것일 것이다. 또 다른 예시적인 과제는, 고양이들이 부분적으로 감추어지더라도, 즉, 서로를 가리더라도, 얼마나 많은 고양이들이 이미지에서 실제로 묘사되는지를 결정하는 것일 것이다.

인식 시스템이 실생활에서 보이지 않는 클러터 이미지로부터 객체를 자율적으로 복구할 수 있어야 하기 때문에, 이 인식 시스템은 사전에 트레이닝될(trained) 필요가 있다.

인식 시스템을 트레이닝하는 통상적인 접근법은, 예컨대 상이한 외관들을 가지며 상이한 배경들 앞에 있는 고양이들을 묘사하는 많은 양(amount)의 현실(real) 클러터 이미지들을 이용하여 이 인식 시스템을 트레이닝하는 것이다. 이는, 인식 시스템을 트레이닝하기 위하여 고양이들(그리고 자동차들 및 선인장)의 많은 양의 라벨링된(labelled) 이미지들이 제공될 필요가 있다는 것을 의미한다.

많은 양들의 라벨링된 현실 트레이닝 이미지들의 제공이 시간-소모적이며 지루한 과제라는 사실 외에도, 이는 특정 상황들에서는 심지어 불가능할 수 있다. 예컨대, 기계의 구성요소들이 인식 시스템에 의해 식별될 필요가 있는 산업 응용들에서, 특히 맞춤형 본(exemplar) 때문에 기계가 고유하면, 기계의 구성요소의 상당한 양의 트레이닝(training) 이미지들을 구축하는 것은 수용가능하지 않을 것이다.

현실 트레이닝 데이터(data)가 부족한 문제를 해결하기 위해, 순수하게 합성 이미지들에 대해 인식 시스템을 트레이닝하는 것이 제안되었다. 현실 이미지들과는 대조적으로, 합성 이미지는 특정 입력 데이터에 기반한 시뮬레이션(simulation)에 의해 획득된다. 적어도 산업 응용들에서 폭넓게 이용가능한 입력 데이터는, 인식되어야 하는 기계의 구성요소들의 컴퓨터-보조 설계(CAD; computer-aided design) 모델(model)들이다.

CAD 모델들은 대개, 순수하게 의미론적 및 기하학적 정보만을 갖는데, 즉, 이 CAD 모델들은 어떤 시각 정보도 포함하지 않는다. 다시 말해서, CAD 모델들은 텍스처가 없는(texture-less) 것으로 가정된다. 텍스처(texture) 정보 뿐만 아니라 조명 및 셰이딩(shading) 정보는 렌더링 프로세스(rendering process) 후에만 이미지에 포함될 것이며, 이 렌더링 프로세스는 2D 또는 3D 모델에 기반하여 기하학적 구조, 시점(viewpoint), 텍스처, 조명 및 셰이딩 정보를 포함하는 이미지(또는 "장면")를 생성하는 프로세스로서 이해된다.

본 발명은, 트레이닝 데이터의 생성을 위한 입력 데이터로서 텍스처가 없는 CAD 모델들(즉, 이전들과 같음)에 초점을 맞춘다. 텍스처가 없는 CAD 모델들로부터 컬러 이미지들을 생성하는 것이 알려져 있다. 이들 컬러 이미지들은 인식 시스템을 위한 트레이닝 이미지들로서 사용될 수 있다. 조명, 셰이딩, 텍스처들, 잡음, 가림(occlusion)들 등을 포함하며 그리고 배경 앞에서 인식될 객체를 포함하는 클러터 컬러 이미지들인 트레이닝 이미지들은, 그래픽 프로세싱 유닛(GPU; graphics processing unit)을 사용한 종래의 기법들에 의해 획득될 수 있다. 인식 시스템은 후속하여, 이 인식 시스템의 트레이닝 페이즈(phase) 동안, 입력 이미지들로서, 합성적으로 생성된 클러터 컬러 이미지들을 사용한다. 따라서, 인식 시스템은 합성 클러터 컬러 이미지로부터 객체의 원하는 특징(예컨대, 클래스 또는 포즈)을 식별하는 과제를 갖는다. 이 트레이닝은, 인식 시스템의 결과들(예컨대, 자동차가 아닌 선인장이 클러터 이미지에서 묘사되어 있다는 진술)이 참된(true) 결과와 비교되기 때문에 지도식 트레이닝인 것으로 간주되며, 이 참된 결과는, 클러터 이미지를 생성하기 위해 사용되었던 입력 CAD 모델을 표현하므로, 알려져 있다. 트레이닝 페이즈 동안 수행되는 많은 반복 단계들 후에, 인식 시스템은 합성 클러터 이미지에서 묘사되는 객체의 필수 특징들을 결정하는 데 점점 더 정확해진다.

인식 시스템이 트레이닝된 후에, 이 인식 시스템은, 보이지 않는 현실 클러터 이미지들에서 특질 및/또는 특징들을 식별하기 위해 사용될 수 있다. 일반적으로, 이미지에서 인식될 객체는, 이전의 트레이닝 페이즈 동안 인식 시스템이 트레이닝되었던 객체일 필요가 있다. 따라서, 인식 시스템의 트레이닝 수준에 따라, 인식 시스템은, 보이지 않는 현실 클러터 컬러 이미지들 상의 원하는 특징들을 더욱 정확하게 또는 덜 정확하게 결정하기 위해 사용될 수 있다.

합성 데이터에 의존하는 컴퓨터 비전(vision) 방법들에 대한 심각하고 잘 알려진 문제는 소위 사실성 격차(realism gap)인데, 그 이유는 이들 양식(modality)들에 대해 획득된 지식은 대개, 더욱 복잡한 현실 도메인(domain)에서 형편없게 바뀌어서, 극적으로 정확도가 떨어지게 되기 때문이다. 지금까지 이 쟁점을 다루는 여러 방식들이 조사되었다.

첫 번째 분명한 해결책은 합성 모델들의 품질 및 사실성을 개선시키는 것이다. 여러 작업들은 디바이스(device)들 및 환경 현상들을 감지하기 위한 전방향 시뮬레이션 툴(forward simulation tool)들을 추진하려고 노력한다. 예컨대, 최첨단 깊이 센서 시뮬레이터(sensor simulator)들이 꽤 잘 작동하는데, 그 이유는 깊이 스캔(scan)들을 손상시키는 메커니즘(mechanism)들이 잘 연구되었고 상당히 잘 재생될 수 있기 때문이다. 그러나, 컬러 데이터의 경우, 문제는 센서 시뮬레이션에 있는 것이 아니라, 컬러 도메인의 실제(actual) 복잡성 및 가변성(예컨대, 조명 조건들에 대한 민감성, 마모(wear-and-tear)에 따른 텍스처 변화들 등)에 있다. 이는, (예컨대, 현실적인 텍스처들을 캡처(capturing)함으로써) 정밀하고 철저한 합성 모델들이 제공되지 않는 한, 만족스러운 매핑(mapping)을 제안하는 것을 극도로 힘들게 만든다. 그러나, 타겟(target) 클래스들의 적절한 모델링(modeling)은 종종 충분하지 않은데, 그 이유는 인식 방법들이 또한, 실생활 시나리오(real-life scenario)들에 적용될, 이 타겟 클래스들의 환경(배경, 가림들 등)에 대한 정보를 필요로 할 것이기 때문이다.

이러한 이유로 그리고 시뮬레이션 툴들의 보완 시에, 콘볼루션 신경망(CNN; convolutional neural network)들에 기반한 최신 방법들은, 이미지 도메인에서 직접적으로, 렌더링된(rendered) 데이터로부터 현실 데이터로의 매핑을 학습함으로써, 사실성 격차를 추가로 극복하려고 노력하고 있다. 주로, 비지도식 조건적 생성적 적대 신경망(GAN; generative adversarial network)들(이를테면, Bousmalis 등: “Unsupervised Pixel―Level Domain Adaption with Generative Adversarial Networks"(arXiv:1612.05424)) 또는 스타일-전송(style-transfer) 해결책들에 기반하여, 이들 방법들은 여전히, 한 세트의 현실 샘플(sample)들의 매핑을 학습하기 위해 이러한 한 세트의 현실 샘플들을 필요로 한다.

그러나, 현실 샘플들의 제공이 불가능하거나 또는 상당한 노력들로만 가능한 상황들이 있다.

따라서, 본 발명의 목적은, 이용가능한 유일한 입력이 텍스처가 없는 CAD 모델들이라는 제약이 제공된 인식 시스템을 제공하는 것이다.

이 목적은, 독립 청구항들에서 개시된 개념에 의해 달성된다. 유리한 실시예들 및 변형들은 설명을 동반한 도면들 및 종속 청구항들에서 설명된다.

본 발명의 일 양상에 따르면, 인공 신경망들을 이용하여 클러터 이미지로부터 객체를 복구하기 위한 방법이 제공된다. 방법은 다음의 단계들:

- 트레이닝된(trained) 이미지 생성기를 이용하여 클러터 이미지로부터 법선 맵(normal map)을 생성하는 단계,

- 트레이닝된 과제-특정 인식 유닛을 이용하여 법선 맵으로부터 객체를 복구하는 단계, 및

- 결과들을 출력 유닛에 출력하는 단계를 포함한다.

여기서, 이미지 생성기는 인공 신경망에 의해 트레이닝되었고, 인식 유닛은 인공 신경망에 의해 트레이닝된다.

본 특허 출원의 맥락에서, 객체를 "복구"하는 것은 객체의 클래스 인스턴스(instance), 카메라에 대한 객체의 포즈, 또는 객체의 다른 특성들을 인식(즉, 결정)하는 것을 포함한다.

"인공 신경망(ANN; artificial neural network)들"은 동물의 뇌들을 구성하는 생물학적 신경망들에 의해 희미하게 영감을 받은 컴퓨팅(computing) 시스템들이다. 인공 신경망들은, 일반적으로 어떤 과제-특정 규칙들로도 프로그램되지(programmed) 않고, 예들을 고려함으로써 과제들을 수행하기를 "학습"한다.

ANN은 생물학적 뇌의 뉴런(neuron)들을 느슨하게 모델링(model)하는 인공 뉴런들로 불리는 연결된 유닛들 또는 노드(node)들의 모음(collection)에 기반한다. 생물학적 뇌의 시냅스(synapse)들처럼 각각의 연결은 하나의 인공 뉴런으로부터 다른 인공 뉴런으로 신호를 송신할 수 있다. 신호를 수신하는 인공 뉴런은 이 신호를 프로세싱(process)하고, 그런 다음, 자신에 연결된 부가적인 인공 뉴런들에 시그널링(signal)할 수 있다.

흔한 ANN 구현들에서, 인공 뉴런들 사이의 연결에서의 신호는 실수(real number)이며, 각각의 인공 뉴런의 출력은 이 인공 뉴런의 입력들의 합계의 어떤 비-선형 함수에 의해 컴퓨팅된다(computed). 인공 뉴런들 사이의 연결들은 '에지(edge)들'로 불린다. 인공 뉴런들 및 에지들은 통상적으로, 학습이 진행됨에 따라 조정되는 가중치를 갖는다. 가중치는, 연결에서의 신호의 강도를 증가시키거나 또는 감소시킨다. 통상적으로, 인공 뉴런들은 층(layer)들로 애그리게이팅된다(aggregated). 상이한 층들은 자신들의 입력들에 대해 상이한 종류들의 변환(transformation)들을 수행할 수 있다. 신호들은 첫 번째 층(입력 층)으로부터 마지막 층(출력 층)으로 이동하는데, 종종, 그 사이에 있는 다수의 숨겨진 층(hidden layer)들을 통과한다.

본 발명의 다른 양상에 따르면, 합성 법선 맵으로부터 객체를 복구하도록 설계되는 과제-특정 인식 유닛은 인공 신경망을 포함하고, 방법에 따라 트레이닝되며, 이 방법은 다음의 단계들:

- 입력으로서 합성 법선 맵들을 수신하는 단계 ― 합성 법선 맵들은 텍스처가 없는 CAD 모델로부터 획득됨 ―,

- 출력으로서 객체를 복구하는 단계,

- 인식 유닛의 출력을 법선 맵에서 표현된 객체의 대응하는 특성과 비교하는 단계, 및

- 인식 유닛의 출력과 입력의 대응하는 특성 간의 편차가 최소가 되도록, 인식 유닛의 신경망을 최적화하는 단계를 갖는다.

본 발명의 또 다른 양상은, 클러터 이미지들을 법선 맵들로 전환(converting)하도록 설계되는 이미지 생성기의 트레이닝에 관한 것이다. 트레이닝은 역시 ANN-기반인데, 그 이유는 이미지 생성기도 또한 인공 신경망을 포함하기 때문이다. 트레이닝 방법은 다음의 단계들:

- 입력으로서 합성 클러터 이미지들을 수신하는 단계 ― 클러터 이미지들은, 합성 법선 맵들을 합성 클러터 이미지들로 증강(augment)시키는 증강 파이프라인(augmentation pipeline)의 출력임 ―,

- 출력으로서 법선 맵을 제공하는 단계,

- 이미지 생성기의 출력을 증강 파이프라인에 대한 입력으로서 제공된 대응하는 법선 맵과 비교하는 단계, 및

- 이미지 생성기의 출력과 증강 파이프라인에 대한 입력으로서 제공된 법선 맵 간의 편차가 최소가 되도록, 이미지 생성기의 신경망을 최적화하는 단계를 포함한다.

클러터 이미지로부터 객체를 복구하기 위한 일반적인 방법은 유리하게는, 위에서 설명된 트레이닝 방법에 따라 트레이닝되었던 이미지 생성기를 사용하고, 위에서 설명된 트레이닝 방법에 따라 트레이닝되었던 과제-특정 인식 유닛을 사용한다.

그 결과, 이전들과 같이 CAD 모델들만이 존재하는, 미리 결정된 세트의 객체들로부터 객체를 정확하게 식별할 수 있는 인식 시스템이 제공된다. 결과적으로, 예컨대, 인식 시스템을 트레이닝하기 위해 라벨링된 실생활 컬러 이미지도 라벨링되지 않은(un-labelled) 실생활 컬러 이미지도 필요하지 않다.

본 발명의 하나의 중요한 양상은, 청구된 방법이 과제-특정 인식 유닛의 트레이닝을 위한 텍스처가 없는 CAD 모델들로부터 사실적인(realistic) 이미지들을 구축하는 것을 목표로 하지 않는다는 것이다. 대신에, 인식 유닛은 순수하게, CAD 모델들로부터 직접적으로 획득되는 합성 데이터, 즉, 합성 법선 맵들에 대해 트레이닝된다. 또한, 실생활 사용 페이즈 동안 현실 클러터 이미지들을 현실 법선 맵들로 전환하는 데 필요한 이미지 생성기는 순수하게 합성 데이터에 대해 트레이닝된다.

다른 양상은, 인식 유닛의 트레이닝 동안 텍스처가 없는 입력 CAD 모델로부터 법선 맵이 생성된다는 것이다. 이미지들, 예컨대, 컬러 이미지들 대신에, 법선 맵들의 생성은, 이 법선 맵들의 생성이 GPU 대신에 인식 시스템의 중앙 프로세서 유닛(CPU; central processor unit)에 의해 수행될 수 있다는 엄청난 장점을 갖는다. 그 결과는, 생성된 법선 맵들이 별개로 저장될 필요가 없지만, 인식 유닛에 의해 직접적으로 사용될 수 있다는 것이다. 그러므로, 본 발명에 따른, CAD 모델들로부터의 법선 맵들의 생성 및 프로세싱(processing)은 "온라인(online)" 프로세스(process)로 지칭될 수 있는 한편, CAD 모델들로부터 이미지들을 생성 및 프로세싱하는 종래의 프로세스는 "오프라인(offline)" 프로세스로 지칭될 수 있다.

법선 맵은 RGB(즉, 적색/녹색/청색) 이미지로 또한 지칭되는 2-차원 컬러(colored) 이미지로 저장된, 특정 시점으로부터의 3D 모델의 표면 법선들의 표현이다. 여기서, 각각의 컬러는 표면 법선의 배향에 대응한다. 인식 유닛을 트레이닝하기 위해 사용되는 합성 법선 맵들은 무잡음이라는 것, 즉, 이 합성 법선 맵들은, 일부 선행 기술 개념들에서 인식 유닛을 트레이닝하기 위해 사용되는 입력 트레이닝 이미지들과는 대조적으로 어떤 클러터(clutter)도 포함하지 않는다는 것에 주목하라.

3D 엔진(engine)들은 3D 모델들로부터 사실적인 이미지들을 자동으로 렌더링(render)할 수 있다(영화/비디오-게임(video-game) 산업 참조). 그러나, 이를 위해, 이 3D 엔진들은 사실적인 텍스처/컬러 정보와 함께 상세한 3D 모델들을 필요로 한다. 대부분의 산업 CAD 모델들은 그러한 세부사항들을 갖지 않는데, 그 이유는 이들 모델들은 시각화를 위해서가 아닌 엔지니어링(engineering)/생산 과제들에 주로 사용되기 때문이다. 이 정보를 CAD 모델들에 부가하기 위한 방법은, 예컨대, 사실적인 텍스처들의 라이브러리(library)를 구축하거나, 또는 생성된 객체들의 사진(picture)들을 찍어 정보를 추출하는 것일 것이다. 그러나, 운영자들이 모든 각각의 새로운 클라이언트(client), 객체, 부품 등에 대해 그렇게 하게 하는 것은 값비싸고 그리고/또는 스케일러블(scalable)하지 않을 것이다.

이미지 생성기의 출력으로서 제공된 법선 맵들은 증강 파이프라인에 대한 입력으로서 제공된 법선 맵들에 대하여 비교된다. 다시 말해서, 이미지 생성기의 입력 법선 맵(타겟 법선 맵)과 출력 법선 맵 사이의 편차를 최소화하는 것을 목표로 하여, 인공 뉴런들 및 에지들의 가중치들이 인공 신경망에 의해 자율적으로 조정된다. ANN의 수많은 가중치들 중 어느 가중치가 조정되는지는, ANN에 의해 자율적으로 결정되며, 종종, 사용자에게 공개되지 않는다(즉, 숨겨진다).

본 발명의 유리한 실시예에서, 이미지 생성기는 2개의 유닛들:

- 클러터 이미지들로부터 전경(foreground)들을 추출하여서, 분할된 이미지들을 획득하기 위한 분할 유닛(segmentation unit)(G_seg), 및

- 분할된 이미지들을 법선 맵들로 전환하기 위한 컬러-법선 유닛(color-to-normal unit)(G_rgb2n)으로 구성된다.

설명적으로 말하면, 분할 유닛은 클러터 이미지 내의 관심 객체의 윤곽을 결정하고 객체의 바이너리 마스크(binary mask)를 생성하는 한편, 컬러-법선 유닛은 클러터 이미지와 이 클러터 이미지의 바이너리 마스크의 중첩을 법선 맵으로 전환환다.

분할 유닛은 클러터 이미지로부터 전경을 최적으로 추출하기 위해 단독으로 트레이닝될 수 있거나, 또는 이 분할 유닛은 컬러-법선 유닛과 함께 최적화될 수 있다.

이미지 생성기의 2개의 언급된 구성요소들(이러한 2개의 언급된 구성요소들 각각은 자신의 인공 신경망을 포함함)에 부가하여, 이미지 생성기는 이미지 생성기에 의해 획득된 법선 맵을 정제하는 정제 유닛을 더 포함할 수 있다. 정제 유닛은 유리하게는, 인공 신경망, 특히, 생성적 적대 신경망을 또한 포함한다.

본 발명의 실시예들이 이제, 단지 예로서, 첨부된 도면들의 도움으로 설명될 것이며, 이 도면들 중에서:
도 1은 선행 기술에 따른 인식 시스템을 도시하며; 그리고
도 2는 본 발명의 실시예에 따른 인식 시스템을 도시한다.

도 1은 선행 기술에 따른, 이미지로부터 객체를 인식하기 위한 방법을 예시한다. 제1 페이즈에서, 인식 시스템(T')이 트레이닝된다. 그러므로, 이 페이즈는 트레이닝 페이즈(110)로 지칭된다. 트레이닝이 완료된 후에, 제2 페이즈에서, 트레이닝된 인식 시스템(T')은 클러터 이미지(121)로부터 객체를 인식하기 위해 사용되고, 이 클러터 이미지(121)는 인식 시스템에 알려지지 않았으며 현실 클러터 이미지이다. 그러므로, 제2 페이즈는 사용 페이즈(120)로 지칭된다.

트레이닝 페이즈(110) 동안, 합성 클러터 이미지들(112)이 인식 시스템(T')에 공급된다. 클러터 이미지들(112)은 텍스처가 없는 CAD 모델들(111)로부터 획득된다. CAD 모델(111)에 기반한 클러터 이미지들(112)의 생성은, 순수하게 CAD 모델 데이터로부터 그래픽(graphic)들, 즉, 이미지들을 생성하도록 설계되는 프로세서인 그래픽 프로세서 유닛(GPU; graphics processor unit)에 의해 수행된다. 이미지들은 인식 시스템의 메모리(memory) 공간에 저장된다.

클러터 이미지(112)가 CAD 모델(111)의 객체를 단지 있는 그대로 디스플레이(display)하지는 않는다는 것에 주목하라. 일반적으로, 객체에는 텍스처 및 컬러가 제공되고; 객체의 시뮬레이팅된(simulated) 조명에 기인한 셰이딩이 고려되고; 객체가 부분적으로 가려질 수 있고; 동일한 이미지에서 디스플레이된(displayed) 다른 객체들이 있을 수 있고; 전체 이미지는 잡음을 포함하며; 그리고 이미지는 일반적으로, 배경을 포함한다. 그러므로, 이미지는 클러터 이미지(112)로 지칭된다. 클러터링(cluttering)은 완전히 무작위로 선정될 수 있지만; 예컨대, 가림들 또는 잡음에 대한 특정 제약들이 가능하다.

사용 페이즈에서 인식 유닛에 의해 정확하게 인식되어야 하는 모든 각각의 객체에 대해, GPU에 의해 상당한 양의 클러터 이미지들이 시뮬레이팅된다. 객체를 보는 관점(perspective)은 먼저, 각각의 시뮬레이팅된 이미지에 대해 동일하지만, "클러터", 즉, 배경, 조명, 잡음 등은 모든 각각의 이미지에 대해 상이하다.

부가하여, 객체를 보는 관점은 변화된다. 객체의 CAD 모델 위의 그리고 이 CAD 모델 주위의 반구가 가상으로(virtually) 생성되고, 원하는 수의 시점들이 정의된다. 각각의 시점에 대해, 즉, 각각의 관점에 대해, 위에서 설명된 바와 같이, GPU에 의해 상당한 양의 클러터 이미지들이 시뮬레이팅된다. 이 절차에 의해, 상이한 "클러터"를 갖는 상이한 시점들로부터 동일한 객체를 묘사하는 많은 양의 이미지들이 획득된다.

인식 유닛(T')은 합성 클러터 이미지들(112)을 분석하고, 여기서, 인식 유닛에 특정 과제가 설정된다. 예컨대, 과제는 객체의 특질, 즉, 클래스 또는 카테고리, 예컨대, 클러터 이미지에서 묘사되고 있는 객체가 소인지, 고양이인지 또는 선인장인지를 인식하는 것일 수 있다. 이 경우, 인식 유닛은 언급된 모든 객체들(여기서, 소, 고양이 및 선인장)의 CAD 모델들을 이용하여 트레이닝될 필요가 있다. 인식 유닛에 대한 다른 과제는 객체의 포즈, 즉, (객체가 잘 정의된 정면 측, 후면 측, 상단 측 및 바닥 측을 갖는 경우) 객체가 상단에서 보는 것으로 묘사되는지, 정면에서부터 묘사되는지, 후면에서부터 묘사되는지 또는 측면 중 하나에서부터 묘사되는지를 식별하는 것일 수 있다. 인식 유닛이 사용 페이즈 동안 풀 것으로 예상되는 과제에 따라 인식 유닛의 알고리즘(algorithm)이 좌우되기 때문에, 인식 유닛은 또한, 과제-특정 인식 유닛(T')으로 지칭된다.

설명된 선행 기술 개념의 단점은 생성된 모든 각각의 이미지가 인식 시스템의 메모리 공간에 저장될 필요가 있다는 것임에 주목하라. 시스템에 저장된 후에, 이 모든 각각의 이미지는 인식 유닛에 즉시 공급될 수 있다. 대안적으로, 이는, 모든 이미지들이 생성된 후에 수행될 수 있다.

인식 시스템을 트레이닝하기 위해 합성 데이터에 주로 의존하는 알려진 방법들의 다른 더욱 중요한 단점은 사실성 격차이다. 타겟 객체들의 실제 텍스처들이 알려지지 않았기 때문에, 사실적인 합성 이미지들은, 자신들의 시각 외관의 핵심 요소들이 분실되므로 렌더링될(rendered) 수 없다. 따라서, 모델이 합성 도메인에 대해 학습한 특징들은 대개, 현실 이미지들의 도메인에 대해 형편없이 작동한다. 앞선 작업들이 모델을 구성(adapting)하는 것에 초점을 맞추어서 모델이 합성 도메인으로부터 학습하는 특징들이 현실 도메인에 적용될 수 있지만, 본 특허 출원에서 개시된 방법은 상이하게 수행한다. 모델이 순수하게 합성 데이터를 처리(deal)하도록 하여, 이 모델은 현실 이미지들을 깨끗한(clean) 합성 도메인에 투사하기 위해 다른 기능에 의해, 즉, 한 세트의 생성적 신경망들에 의해 병렬로 트레이닝된다.

선행 기술로 되돌아 가면, 인식 유닛(T')은 지도되는 방식으로 트레이닝된다. 이 인식 유닛(T')은, 자신에게 제공된 과제에 관한 자신의 결정을 내리고 자신의 출력(113), 예컨대, 객체의 클래스 또는 포즈를 송신하거나 또는 디스플레이해야 한다. 인식 시스템이 본질적으로 과제에 대한 해결책을 알고 있기 때문에, 출력(113)은 자동으로 평가될 수 있다. 따라서, 인식 시스템의 정확도의 평가는 인식 시스템 자체에 의해 수행될 수 있다.

인식 유닛(T')이 충분한 정도로 트레이닝된 후에, 사용 페이즈(120)가 시작될 수 있다. 여기서, 인식 시스템(T')에 알려지지 않은 이미지들(121)이 인식 유닛(T')에 대한 입력으로서 제공된다. 분명히, 이미지들은 클러터링되고(cluttered), 이미지들은 합성 대신에 현실이다. 그러나, 인식 유닛(T')의 트레이닝 페이즈(110)에 기인하여, 인식 유닛(T')의 합리적인 정확도가 달성될 수 있다.

여전히, 이미 언급된 단점들, 즉, 저장 장소에 별개로 저장될 필요가 있는 제한된 수의 트레이닝 데이터; 및 최적이 아닌 정확도가 지속된다.

도 2는 본 발명의 개념의 예시적인 실시예를 예시한다. 제1 페이즈인 트레이닝 페이즈(210)에서, 특정 과제를 풀도록, 예컨대, 객체의 클래스 또는 포즈를 인식하도록 과제-특정 인식 유닛(T)이 트레이닝된다. 제2 페이즈인 트레이닝 페이즈(220)에서, 제공된 CAD 모델(221)의 법선 맵(222)을 가능하게는 가장 잘 표현하는 법선 맵들(224)을 생성하도록 이미지 생성기(G)가 트레이닝된다. 제3 페이즈인 사용 페이즈(230)에서, 트레이닝된 이미지 생성기(G)의 도움으로, 트레이닝된 인식 유닛(T)에 의해, 보이지 않는 현실 클러터 이미지(231)가 평가된다. 그 결과, 예컨대, 현실 클러터 입력 이미지(231)에서 디스플레이된 객체의 특질 및/또는 특정 특징을 인식 및 식별하도록, 인식 유닛(T)에 제공된 과제의 해결책을 표현하는 출력(233)이 발행된다.

도 1에서 예시된 선행 기술과 비교하여 본 발명의 핵심 차이들 중 하나는, 각각, 인식 유닛(T, T')의 트레이닝 페이즈(210) 동안, 클러터 이미지(112)와는 대조적으로, 텍스처가 없는 입력 CAD 모델(211)로부터의 법선 맵(212)의 생성이다. 이미지들(112) 대신에, 법선 맵들(212)의 생성은, 이 법선 맵들(212)의 생성이 GPU 대신에 인식 시스템의 중앙 프로세서 유닛(CPU; central processor unit)에 의해 수행될 수 있다는 엄청난 장점을 갖는다. 그 결과는, 생성된 법선 맵들(212)이 별개로 저장될 필요가 없지만, 인식 유닛(T)에 의해 직접적으로 사용될 수 있다는 것이다. 그러므로, 본 발명에 따른, CAD 모델들(211)로부터의 법선 맵들(212)의 생성 및 프로세싱은 "온라인" 프로세스로 지칭될 수 있는 한편, CAD 모델들(111)로부터 이미지들(112)을 생성 및 프로세싱하는 종래의 프로세스는 "오프라인" 프로세스로 지칭될 수 있다.

다시, 인식 유닛(T)은 특정 과제에 대해 트레이닝된다. 예시적인 과제들은 법선 맵(212)에서 묘사되고 있는 객체의 클래스 또는 포즈의 식별이다. 인식 유닛(T)은 제공된 과제에 대한 대응하는 해결책을 출력(213)으로서 제공한다.

인식 유닛(T)의 트레이닝은 지도되는 방식으로 수행된다. 인식 시스템이 과제의 해결책을 "알기" 때문에, 즉, 이 인식 시스템이, 법선 맵(212)으로 변환되고 후속하여 인식 유닛(T)에 공급되는 객체의 클래스 또는 포즈를 알기 때문에, 이 인식 시스템은 인식 유닛(T)의 출력(213)을 정정하거나 또는 확인(confirm)할 수 있다. 따라서, 인식 유닛(T)은 인간의 상호작용 없이 스스로 학습한다.

인식 유닛(T)이 원칙적으로, 제한되지 않은 수의 트레이닝 데이터에 의해 트레이닝될 수 있다는 것을 언급할 가치가 있다. 트레이닝이 "즉석에서(on the fly)", 다시 말해서, "온라인(online)"으로 일어나기 때문에, 위에서 설명된 선행 기술 방법과는 대조적으로, 트레이닝 이미지들의 어떤 라이브러리도 구축될 필요(이는 선행 기술 방법에서는 의무적임)가 없다. 그러므로, 인식 유닛(T)의 트레이닝은 때때로, "무한" 수의 트레이닝 데이터에 대해 수행되는 것으로 지칭된다.

직관적으로 상상될 수 있는 것과는 대조적으로, 텍스처가 없는 입력 CAD 모델로부터 가능한 한 사실적인 이미지를 생성하는 것이 목표가 아님에 주목하라. 게다가, 인식 유닛은, 비유적으로 말하면, "텍스처-블라인드(texture-blind)"가 되어야 하는데, 이는, 배경, 셰이딩, 최종 가림 등에 관계없이 클러터 이미지에서 객체가 인식되어야 한다는 것을 의미한다.

추가로, 부가하여, 객체를 보는 관점은 변화된다는 것에 주목하라. 객체의 CAD 모델 위의 그리고 이 CAD 모델 주위의 반구가 가상으로 생성되고, 원하는 수의 시점들이 정의된다. 각각의 시점에 대해, 즉, 각각의 관점에 대해, CPU에 의해 상당한 양의 클러터 이미지들이 시뮬레이팅된다. 이 절차에 의해, 상이한 "클러터"를 갖는 상이한 시점들로부터 동일한 객체를 묘사하는 많은 양의 이미지들이 획득된다.

인식 유닛의 트레이닝(제1 트레이닝 페이즈(210))에 부가하여, 본 발명의 개념에서는 제2 트레이닝 페이즈(220)도 또한 요구된다. 제2 트레이닝 페이즈(220) 동안, 생성적 적대 신경망(GAN; generative adversarial network)들에 의해 이미지 생성기(G)가 트레이닝된다. 이미지 생성기(G)는 클러터 이미지들(223)로부터 고-품질 법선 맵들(224)을 생성하기 위하여 트레이닝을 필요로 한다.

제1 단계에서, 인식 유닛에 대한 트레이닝 페이즈(210) 동안과 같이, 텍스처가 없는 CAD 모델(221)이 합성 무잡음 법선 맵(222)으로 변환된다. 법선 맵들(222)의 생성은 CPU에 의해 온라인으로 수행된다.

후속하여, 합성 법선 맵들(222)은 증강 파이프라인(A)을 통해 합성 클러터 이미지들(223)로 전환된다. 증강 파이프라인은, 텍스처, 잡음, 부분 가림들 등을 부가하고 동시에 법선 맵들을 컬러 이미지들로 전환함으로써, 수신된 법선 맵을 증강시킨다. 증강 파이프라인의 예는 Marcus D. Bloice, Christof Stocker and Andreas Holzinger: "Augmentor: An Image Augmentation Library for Machine Learning(arXiv:1708.04680v1)"에서 제공된다.

법선 맵(222)을 클러터 이미지(223)로 변환한 후에, 클러터 이미지(223)는 후속하여, 다시 법선 맵(224)으로 변환된다. 여기서, 난제는 이 변환을 실행할 뿐만 아니라, 무엇보다도, 클러터 이미지, 즉, 잡음성 이미지로부터 깨끗한 법선 맵, 즉, 이상적으로는 무잡음 법선 맵을 생성하는 것이다. 이 과제는 이미지 생성기(G)에 의해 달성된다.

이미지 생성기(G)는 분할 유닛(G_seg) 및 컬러-법선 유닛(G_rgb2n)으로 구성된다. 분할 유닛(G_seg)은 클러터 이미지들(223)로부터 전경들을 추출하는 과제를 갖는다. 전경은 때때로, "타겟 객체"로 또한 지칭된다. 다시 말해서, 분할 유닛(G_seg)의 과제는, 분석될 객체의 윤곽을 인식 및 식별하고 배경으로부터 이 분석될 객체의 윤곽을 "절단"하는 것이다. 실제로, 이 과제를 달성하기 위해 제1 콘볼루션 신경망(CNN; convolutional neural network)이 유리하게 사용된다.

후속하여, 분할된 컬러 이미지들(타겟 객체들)을 법선 맵들(224)로 전환하기 위한 컬러-법선 유닛(G_rgb2n)에 생성적 적대 신경망(GAN; generative adversarial networks)이 사용된다.

G_seg는, 생성적 손실(generative loss)을 사용하여, 클러터 이미지들(223)을 이 클러터 이미지들(223)의 전경의 바이너리 마스크로 전환하도록 트레이닝된다.

G_rgb2n은, 입력을 위해, G_seg로부터 클러터 이미지들 및 이 클러터 이미지들의 대응하는 마스크들을 취하여, 이 둘을 사용하여 무잡음 기하학적 맵들을 출력한다. GAN으로서, 이 G_rgb2n은, 이 복잡한 과제에 대한 자신의 트레이닝을 안내하는 데 여러 손실들을 갖는다:

- 이 G_rgb2n의 출력들과 예상되는 기하학적 맵들 사이의 법선 생성적 손실 및 전경 생성적 손실. 법선 생성적 손실은 2개의 이미지들의 픽셀(pixel) 값들을 비교하여 이러한 2개의 이미지들 사이(여기서, 원본 법선 맵과 생성된 법선 맵 사이)의 거리를 컴퓨팅(compute)한다. 전경 생성 손실은 유사한 거리를 컴퓨팅하지만, (바이너리 마스크를 사용하여) 전경 객체에 속하지 않은 픽셀들을 무시한다.

- 보조망/적대 신경망에 의해 컴퓨팅된(computed) 판별자 손실(discriminator loss). 이 망은, 원본 맵들로부터, 이미지 생성기(G)로부터의 "가짜(fake)" 맵들을 인식하도록 이 G를 따라 트레이닝된다. 판별적 손실(discriminative loss)은 보조망/적대 신경망을 속이는 G의 능력을 표현한다.

- 선택적 과제-특정 손실. 타겟 인식 방법이 이미 이용가능하고, 이 GAN을 트레이닝할 때 사용할 준비가 되어 있는 경우, 이 타겟 인식 방법은, 생성된 법선 맵들 뿐만 아니라 원본 법선 맵들에 대해 사용될 수 있다. 그러면, 과제-특정 손실은 원본 데이터에 대한 인식 방법의 추정(복구된 정보)과 생성된 데이터에 대한 인식 방법의 추정(복구된 정보) 사이의 거리이다. 다시 말해서, 이 과제-특정 손실은, 원본의 깨끗한 법선 맵들과 동일한 응답들을 인식 방법들로부터 유도하는 법선 맵들을 생성하도록 GAN을 안내한다. 이 공식은 2개의 장점들을 갖는다: 복구된 정보의 특질에 관하여 어떤 가정들도 이루어지지 않으며, 그리고 이 손실은 인식 방법에 의해 이루어진 2개의 추정들 사이의 차이에 따라서만 좌우되기 때문에, 어떤 정답 값(ground-truth)도 필요하지 않다.

각각의 단계는 먼저, 연속적으로 트레이닝되고(즉, 첫째로, G_seg의 트레이닝, 그런 다음, G_seg을 수정(fixing)하면서 G_rgb2n의 트레이닝), 그런 다음, 공동으로 트레이닝될 수 있다(종단간을 트레이닝하는 것).

(도 2에서 예시되지 않은) 옵션(option)으로서, 제1 CNN(G_seg)의 출력을 정제하기 위해 다른 CNN, 즉, G_ref가 사용될 수 있다. G_ref는, 입력을 위해, G_rgb2n으로부터 합성 클러터 이미지들 및 이 합성 클러터 이미지들의 대응하는 출력들을 취하여, 이러한 두 양식들을 사용하여 기하학적 추정을 정제한다. 이 G_ref는, 자신의 출력들을 예상되는 맵들과 비교하는 생성적 손실을 사용하여 트레이닝된다.

G_ref의 트레이닝은 유리하게는, G_seg 및 G_rgb2n을 수정하면서 수행될 것이다.

인식 유닛(T) 및 이미지 생성기(G) 둘 모두가 트레이닝된 후에, 인식 시스템(T)은 "실생활"에서 사용될 수 있다. 사용 페이즈(230) 동안, 객체의 보이지 않는 현실 클러터 이미지(231)가 먼저, 이미지 생성기(G)에 제공된다. 이미지 생성기(G)는, 먼저 전경을 추출하고 다음으로 분할된 이미지를 법선 맵(232)으로 전환함으로써, 클러터 이미지(231)로부터 깨끗한 법선 맵(232)을 추출한다. 분할은 분할 유닛(G_seg)에 의해 수행되고; 법선 맵으로의 전환은 컬러-법선 유닛(G_rgb2n)에 의해 수행된다.

그런 다음, 결과적인 깨끗한 법선 맵(232)은 입력으로서 과제-특정 인식 시스템(T)에 공급되고, 이 과제-특정 인식 시스템(T)은 필수 출력(233), 예컨대, 객체의 클래스 및/또는 포즈를 제공한다.

Claims

인공 신경망들을 이용하여 클러터 이미지(cluttered image)(231)로부터 객체를 인식하기 위한 방법으로서,
트레이닝된 이미지 생성기(G)를 이용하여 상기 클러터 이미지(231)로부터 법선 맵(normal map)을 생성하는 단계,
트레이닝된 과제-특정 인식 유닛(T)을 이용하여 상기 법선 맵으로부터 객체를 인식하는 단계, 및
결과(233)를 출력 유닛에 출력하는 단계
를 포함하고,
상기 이미지 생성기(G)와 상기 인식 유닛(T)은 모두 인공 신경망에 의해 트레이닝되었고,
상기 이미지 생성기(G)의 트레이닝은,
입력으로서 합성 클러터 이미지들(223)을 수신하는 단계 ― 상기 클러터 이미지들(223)은, 합성 법선 맵들을 상기 합성 클러터 이미지들(223)로 증강(augment)시키는 증강 파이프라인(augmentation pipeline)(A)의 출력임 ―,
출력(224)으로서 법선 맵을 제공하는 단계,
상기 이미지 생성기(G)의 상기 출력(224)을 상기 증강 파이프라인(A)에 대한 입력으로서 제공된 대응하는 법선 맵과 비교하는 단계, 및
상기 이미지 생성기(G)의 상기 출력(224)과 상기 증강 파이프라인(A)에 대한 입력으로서 제공된 상기 법선 맵 간의 편차가 최소가 되도록, 상기 이미지 생성기(G)의 신경망을 최적화하는 단계
를 포함하고,
상기 인식 유닛(T)의 트레이닝은,
입력으로서 합성 법선 맵들을 수신하는 단계 ― 상기 합성 법선 맵들은 텍스처가 없는 CAD 모델(211)로부터 획득됨 ―,
출력(213)으로서 객체를 인식하는 단계,
상기 인식 유닛(T)의 상기 출력(213)을 상기 법선 맵에서 표현된 상기 객체의 대응하는 특성과 비교하는 단계, 및
상기 인식 유닛(T)의 상기 출력(213)과 상기 입력의 상기 대응하는 특성 간의 편차가 최소가 되도록, 상기 인식 유닛(T)의 신경망을 최적화하는 단계
를 포함하는,
방법.
제1항에 있어서,
상기 객체를 인식하는 단계는 상기 객체의 클래스(class)를 식별하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 객체를 인식하는 단계는 상기 객체의 포즈(pose)를 평가하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 객체를 인식하는 단계는 상기 클러터 이미지(231)의 점유 맵(occupancy map)을 평가하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 방법에 대한 입력으로서 사용되는 상기 클러터 이미지(231)는 컬러(color) 이미지인,
방법.
제1항에 있어서,
상기 이미지 생성기(G)는,
상기 클러터 이미지들(223)로부터 전경(foreground)들을 추출하여서, 분할된 이미지들을 획득하기 위한 분할 유닛(G_seg), 및
상기 분할된 이미지들을 법선 맵들로 전환하기 위한 컬러-법선 유닛(color-to-normal unit)(G_rgb2n)
을 포함하는,
방법.
제6항에 있어서,
상기 분할 유닛(G_seg)은 콘볼루션 신경망(convolutional neural network)을 포함하는,
방법.
제6항에 있어서,
상기 컬러-법선 유닛(G_rgb2n)은 생성적 적대 신경망(generative adversarial network)을 포함하는,
방법.
제1항에 있어서,
상기 이미지 생성기(G)는, 상기 이미지 생성기(G)에 의해 획득된 상기 법선 맵을 정제(refine)하고 신경망을 포함하는 정제 유닛을 더 포함하는,
방법.
인공 신경망들을 이용하여 클러터 이미지(231)로부터 객체를 인식하기 위한 인식 시스템으로서,
상기 클러터 이미지(231)로부터 법선 맵을 생성하기 위한 트레이닝된 이미지 생성기(G),
상기 법선 맵으로부터 객체를 인식하기 위한 트레이닝된 과제-특정 인식 유닛(T), 및
결과(233)를 출력하기 위한 출력 유닛
을 포함하고,
상기 이미지 생성기(G)와 상기 인식 유닛(T)은 모두 인공 신경망을 포함하며, 제1항에 따라 트레이닝된,
인식 시스템.
컴퓨터에 의해 실행될 때 상기 컴퓨터로 하여금 제1항 내지 제9항 중 어느 한 항에 따른 방법의 단계들을 수행하게 하는 명령들을 포함하는 컴퓨터-판독가능 저장 매체.
삭제
삭제
삭제