KR20240063147A

KR20240063147A - 로봇 디바이스를 제어하기 위한 디바이스 및 방법

Info

Publication number: KR20240063147A
Application number: KR1020247012443A
Authority: KR
Inventors: 젠 링 차이; 지아 이 총; 크리틴 카와키리; 셜리
Original assignee: 디컨스트럭트 테크놀로지스 피티이 리미티드
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2024-05-09
Also published as: WO2023043365A1; TW202314602A; CA3231900A1; CN118201743A

Abstract

인코더 네트워크, 디코더 네트워크 및 폴리시 네트워크를 포함하는 신경망을 학습시키는 것을 포함하고, 복수의 디지털 학습 입력 이미지 각각에 대해, 인코더 네트워크는 디지털 학습 입력 이미지를 잠재 공간의 특징으로 인코딩하고, 디코더 네트워크는 특징으로부터, 디지털 학습 입력 이미지에 보여지는 복수의 영역 각각에 대해, 해당 영역의 통과 가능 여부와 디지털 학습 입력 이미지의 시점과 해당 영역 사이의 거리에 대한 정보를 결정하고, 폴리시 모델은 특징으로부터 로봇 디바이스의 움직임 제어를 위한 제어 정보를 결정하며, 적어도 폴리시 모델은 디지털 학습 입력 이미지의 제어 정보 실측 자료 데이터를 사용하여 지도 방식으로 학습되는, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법이 설명된다.

Description

로봇 디바이스를 제어하기 위한 디바이스 및 방법

본 개시의 다양한 양태는 로봇 디바이스를 제어하기 위한 디바이스 및 방법과 로봇 디바이스 컨트롤러를 학습시키기 위한 디바이스 및 방법에 관한 것이다.

모바일 로봇과 같은 로봇 디바이스는 인간 사용자에 의해 원격 제어를 사용하여 제어될 수 있다. 이를 위해, 인간 사용자는 예를 들어 로봇의 시점으로부터의 이미지를 공급받아 그에 따라 반응, 예를 들어 장애물 주변에서 로봇을 이동시킬 수 있다. 그러나 이는 정확한 시각에 사용자에 의한 정밀한 입력을 필요로 하므로, 인간 사용자로부터의 지속적인 주의를 필요로 한다.

따라서 로봇이 예를 들어, (복도와 같은 경로를 따라) "앞으로 이동", "우회전" 또는 "좌회전"과 같은 인간 사용자의 하이-레벨 명령을 따라서, 보다 자율적으로 이동할 수 있게 하는 것이 바람직하다.

다양한 실시예에 따르면, 인코더 네트워크, 디코더 네트워크 및 폴리시 네트워크를 포함하는 신경망을 학습시키는 것을 포함하고, 복수의 디지털 학습 입력 이미지 각각에 대해, 인코더 네트워크는 디지털 학습 입력 이미지를 잠재 공간의 특징으로 인코딩하고, 디코더 네트워크는 특징으로부터, 디지털 학습 입력 이미지에 보여지는 복수의 영역 각각에 대해, 해당 영역의 통과 가능 여부와 디지털 학습 입력 이미지의 시점(viewpoint)과 해당 영역 사이의 거리에 대한 정보를 결정하고, 그리고 폴리시 모델은 특징으로부터 로봇 디바이스의 움직임을 제어하기 위한 제어 정보를 결정하며, 적어도 폴리시 모델은 디지털 학습 입력 이미지의 제어 정보 실측 자료(ground truth) 데이터를 사용하여 지도(surpervised) 방식으로 학습되는, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법이 제공된다.

일 실시예에 따르면, 인코더 네트워크와 디코더 네트워크를 학습시키는 것은 인코더 네트워크와 디코더 네트워크를 포함하는 오토인코더를 학습시키는 것을 포함한다.

일 실시예에 따르면, 이 방법은 인코더 네트워크를 디코더 네트워크와 공동으로 학습시키는 것을 포함한다.

일 실시예에 따르면, 이 방법은 인코더 네트워크를 디코더 네트워크 및 폴리시 네트워크와 공동으로 학습시키는 것을 포함한다.

일 실시예에 따르면, 디코더 네트워크는 시맨틱(semantic) 디코더와 깊이(depth) 디코더를 포함하고, 각 디지털 학습 입력 이미지에 대해, 시맨틱 디코더가 특징으로부터, 디지털 학습 입력 이미지에 보여지는 복수의 영역 각각에 대해, 해당 영역의 통과 가능 여부를 결정하고, 그리고 깊이 디코더가 하나 이상의 특징으로부터, 디지털 학습 입력 이미지에 보여지는 복수의 영역 각각에 대해, 디지털 학습 입력 이미지의 시점과 해당 영역 사이의 거리에 대한 정보를 결정하도록 신경망이 학습된다.

일 실시예에 따르면, 시맨틱 디코더는 지도 방식으로 학습된다.

일 실시예에 따르면, 깊이 디코더는 지도 방식으로 학습되거나 또는 깊이 디코더는 비지도(unsurpervised) 방식으로 학습된다.

일 실시예에 따르면, 인코더 네트워크, 디코더 네트워크 및 폴리시 네트워크 중 하나 이상은 컨볼루션 신경망이다.

일 실시예에 따르면, 제어 정보는 복수의 로봇 디바이스 움직임 명령 각각에 대한 제어 정보를 포함한다.

일 실시예에 따르면, 폴리시 모델이 인코더가 복수의 학습 입력 이미지를 인코딩한 특징들로부터 제어 정보를 결정하도록 신경망이 학습된다.

일 실시예에 따르면, 상술된 실시예 중 어느 하나에 따른 방법에 따라서 로봇 디바이스 컨트롤러를 학습시키고, 로봇 디바이스의 주변을 보여주는 하나 이상의 디지털 이미지를 획득하고, 인코더 네트워크를 사용하여 하나 이상의 디지털 이미지를 하나 이상의 특징으로 인코딩하고, 하나 이상의 특징을 폴리시 네트워크에 공급하고, 그리고 하나 이상의 특징에 응답하여 폴리시 모델의 제어 정보 출력에 따라 로봇을 제어하는 것을 포함하는, 로봇 디바이스를 제어하기 위한 방법이 제공된다.

일 실시예에 따르면, 이 방법은 로봇 디바이스의 하나 이상의 카메라로부터 하나 이상의 디지털 이미지를 수신하는 것을 포함한다.

일 실시예에 따르면, 제어 정보는 복수의 로봇 디바이스 움직임 명령 각각에 대한 제어 정보를 포함하고, 이 방법은 로봇 디바이스 움직임 명령의 표시를 수신하고, 그 표시된 로봇 디바이스 움직임 명령에 대한 제어 정보에 따라 로봇을 제어하는 것을 포함한다.

일 실시예에 따르면, 폴리시 모델이 인코더가 복수의 학습 입력 이미지를 인코딩한 특징으로부터 제어 정보를 결정하도록 신경망은 학습되고, 이 방법은 로봇 디바이스의 주변을 보여주는 복수의 디지털 이미지를 획득하고, 인코더 네트워크를 사용하여 복수의 디지털 이미지를 복수의 특징으로 인코딩하고, 그 복수의 특징을 폴리시 네트워크에 공급하고, 그리고 복수의 특징에 응답하여 폴리시 모델의 제어 정보 출력에 따라 로봇을 제어하는 것을 포함한다.

일 실시예에 따르면, 복수의 디지털 이미지는 상이한 카메라로부터 수신된 이미지를 포함한다.

일 실시예에 따르면, 복수의 디지털 이미지는 상이한 시점으로부터 촬영된 이미지들을 포함한다.

일 실시예에 따르면, 복수의 디지털 이미지는 상이한 시각에 촬영된 이미지들을 포함한다.

일 실시예에 따르면, 상술된 실시예 중 어느 하나의 방법을 수행하도록 구성된 로봇 디바이스 제어 시스템이 제공된다.

일 실시예에 따르면, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 상술된 실시예 중 어느 하나의 방법을 수행하게 하는 프로그램 명령을 포함하는 컴퓨터 프로그램 요소가 제공된다.

일 실시예에 따르면, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 상술된 실시예 중 어느 하나의 방법을 수행하게 하는 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체가 제공된다.

본 발명은 비제한적인 예시 및 첨부 도면과 함께 고려될 때 상세한 설명을 참조하여 더 잘 이해될 것이다:
- 도 1은 로봇을 나타낸다.
- 도 2는 실시예에 따른 제어 시스템을 나타낸다.
- 도 3은 실시예에 따른 머신 러닝 모델을 나타낸다.
- 도 4는 실시예에 따른 다수의 입력 이미지를 처리하기 위한 머신 러닝 모델을 나타낸다.
- 도 5는 실시예에 따른 로봇 디바이스 컨트롤러의 학습을 위한 방법을 예시한다.

다음의 상세한 설명은 본 개시가 실시될 수 있는 구체적인 세부 사항 및 실시예를 예시를 통해 나타내는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 개시를 실시할 수 있도록 충분히 상세하게 설명되어 있다. 다른 실시예가 활용될 수 있고, 본 개시의 범위를 벗어나지 않으면서 구조적 그리고 논리적 변경이 이루어질 수 있다. 일부 실시예는 하나 이상의 다른 실시예와 결합되어 새로운 실시예를 형성할 수 있기 때문에, 다양한 실시예가 반드시 상호 배타적이지는 않다.

디바이스 또는 방법 중 하나의 맥락에서 설명된 실시예는 다른 디바이스 또는 방법에 대해 유사하게 유효하다. 마찬가지로, 디바이스의 맥락에서 설명된 실시예는 차량 또는 방법에 대해 유사하게 유효하며, 그 반대도 마찬가지이다.

실시예의 맥락에서 설명된 특징은 다른 실시예에서 동일하거나 또는 유사한 특징에 대응적으로 적용될 수 있다. 실시예의 맥락에서 설명된 특징은 다른 실시예에 명시적으로 설명되지 않더라도, 다른 실시예에 대응적으로 적용될 수 있다. 또한, 실시예의 맥락에서 특징에 대해 설명된 바와 같이 추가 및/또는 조합 및/또는 대안이 다른 실시예에서 동일하거나 또는 유사한 특징에 대응적으로 적용될 수 있다.

다양한 실시예의 맥락에서, 특징 또는 요소와 관련하여 사용되는 "a", "an" 및 "the"는 특징 또는 요소 중 하나 이상에 대한 참조를 포함한다.

여기에서 사용된 바와 같이, 용어 "및/또는"은 연관된 나열된 아이템 중 하나 이상의 임의의 및 모든 조합을 포함한다.

이하에서는, 실시예가 상세하게 설명될 것이다.

도 1은 로봇(100)을 나타낸다.

로봇(100)은 모바일 디바이스이다. 도 1의 예에서는, 지면(102)을 걷기 위한 4개의 다리(101)를 가지고 있으며, 자신의 환경(즉, 자신의 주변), 특히 지면(102)과 물체 또는 사람과 같은 장애물(104)을 관찰하기 위한 카메라(103)(또는 다수의 카메라)를 가지는 4족 보행 로봇이다.

카메라(103)는 예를 들어 로봇의 환경의 RGB 이미지(105)(적색 녹색 청색, 즉 컬러 이미지)를 획득한다.

이미지(105)는 로봇(100)이 가는 경로를 제어하기 위해 사용될 수 있다. 이는 예를 들어 원격 제어에 의해 이루어질 수 있다. 이는 인간 사용자(107)에 의해 동작되는 원격 제어 디바이스(106)가 제공된다는 것을 의미한다. 인간 사용자(107)는 로봇(100) 특히 로봇의 컨트롤러(108)로 다시 전송되어, 이에 따라 로봇(100)의 움직임을 제어하는, 로봇(100)에 대한 제어 명령을 생성한다. 예를 들어, 다리는 컨트롤러(108)가 전송된 명령에 따라 제어하도록 구성되는 액추에이터(109)를 포함한다.

제어 명령을 생성하기 위해, 로봇(100)은 이미지(105)를 제어 디바이스(106)로 전송할 수 있고, 제어 디바이스(106)는 (스크린 상에) 이미지(107)를 인간 사용자(107)에게 제시한다. 인간 사용자(107)는 이어 (예를 들어, 조이스틱 및/또는 콘솔을 포함하는 제어 디바이스에 의해) 로봇에 대한 제어 명령을 생성할 수 있다

그러나, 이러한 제어 접근법은 인간 사용자가 지속적으로 로봇(100)에 의해 전달되는 RBG 이미지를 관찰하고, 예를 들어, 장애물(104)을 피하고 지면(102)에서 적절한 경로를 따르도록 대응하는 제어 명령을 선택해야 하므로, 인간 사용자로부터의 지속적인 참여를 필요로 한다.

상술한 바를 감안하여, 다양한 실시예에 따르면, 인간 사용자로부터의 지속적인 참여가 필요한 제어 디바이스로 로봇을 조작하는 대신에, 인간 사용자(107)가 간단한 (하이-레벨) 명령(예를 들어, "왼쪽으로", "오른쪽으로", "앞으로" 등)으로 로봇을 조작할 수 있다.

따라서, 다양한 실시예에 따른 제어 시스템은 인간 사용자(즉, 조작자, 예를 들어, 운전자)가 전진, 좌회전 또는 우회전과 같은 간단한 명령을 사용하여 모바일 디바이스를 지시할 수 있다. 이는 디바이스 조작에 대한 부담을 경감시키고, 조작자가 다른 작업들을 병렬적으로 수행할 수 있게 한다.

다양한 실시예에 따르면, 제어 시스템은 QR 코드가 배치되는 것과 같이 로봇이 움직이는 환경의 증강을 필요로 하지 않고, 그리고 동작 전에 준비되어 동작 시에 소비될 필요가 있는 포인트 클라우드 맵과 같은, 로봇이 통과할 경로에 대한 사전 지식을 요구하지 않고, 조작자에게 보다 편리한 제어(특히, 예를 들어 핸즈프리 제어 경험)를 제공한다. 특히, 다양한 실시예에 따르면, 제어 시스템은 나중에 제어를 재생하기 위해 경로의 코스를 따라 로봇의 제어를 기록할 필요가 없다.

나아가, 실시예는 장애물(104), 예를 들어 보행자가 너무 가까이 있을 때 로봇(100)을 정지시키는 것과 같이 조작자(인간 사용자(107))가 실수를 할 때 개입을 넘어선다. 이는 충돌을 피하는 데 도움이 될 뿐이지만, 다양한 실시예는 인간 사용자(107)가 몇 가지 간단한 제어 명령으로 로봇(100)을 시작 지점에서 목적 지점까지 도착하도록 로봇(100)을 기동시킬 수 있게 한다. 예를 들어, 다양한 실시예에 따르면, 머신 러닝 모델은 (아래에서 설명된 바와 같이 폴리시 모델에 대한 적절한 학습 데이터의 라벨에 의해) 충돌이 발생하기 전에 멈추고 우회하도록 학습될 수 있다.

따라서, 다양한 실시예에 따라 제공되는 제어 시스템은 로봇이 취할 경로 또는 환경에 대한 어떠한 사전 지식 없이도, 임의의 환경에서 즉시 작동하고, 시스템을 안내하기 위해 환경 내 기준 마커를 배치할 필요가 없고, 경로의 사전 기록이 필요하지 않다.

도 2는 실시예에 따른 제어 시스템(200)을 나타낸다.

제어 시스템(200)은 예를 들어 로봇(100)에 대응하는 로봇(201)을 제어하는 역할을 한다.

제어 시스템(200)은 제1 프로세싱 유닛(또는 컴퓨팅 유닛)(202) 및 제2 프로세싱 유닛(또는 컴퓨팅 유닛)(203)뿐만 아니라 카메라(204)(또는 다수의 카메라)를 포함한다.

카메라(204) 및 제1 프로세싱 유닛(202)은 로봇(201)에 장착된 로봇(201)의 페이로드(205)의 일부이다. 따라서, 이들은 또한 로봇(201)의 일부로 간주될 수 있으며, 예를 들어 각각이 카메라(또는 카메라들)(103) 및 컨트롤러(108)에 대응할 수 있다.

제2 프로세싱 유닛(203)은 예를 들어, 원격 제어 디바이스(106)에 대응한다.

전술한 바와 같이, 제어 시스템(200)은 인간 조작자(206)가 전진, 좌회전 또는 우회전과 같은 간단한 명령(즉, 하이-레벨 제어 명령)을 사용하여 로봇(201)(일반적으로 모바일 및/또는 이동 가능한 (로봇) 디바이스)의 이동을 지시할 수 있게 한다.

사용자(206)에 의해 입력된 이러한 하이-레벨 제어 명령으로부터, 제어 시스템(200)은 (예를 들어, 액추에이터(109)에 대한) 속도 및 각속도 제어 신호(207)를 자동으로 추론하여 그에 따라 로봇(201)을 기동시킨다.

이를 위해, 제1 프로세싱 유닛(202)은 머신 러닝 모델(208)을 구현한다. 머신 러닝 모델(208)을 사용하여, 제1 프로세싱 유닛(202)은 사용자(206)에 의해 입력된 하이-레벨 제어 명령(210)에 따라 제어 신호(207)를 결정한다. 예를 들어, (예를 들어, 복도 또는 통로의) 경로에 곡선이 있는 경우, 인간 사용자(206)가 간단하게 전진 명령을 입력하면, 제1 프로세싱 유닛(202)은 머신 러닝 모델(208)을 사용하여 (일련의 제어 시간 단계들, 즉 제어 시간들 각각에 대해) 로봇(201)을 경로 상에 유지시키기 위해 적절한 속도 및 각속도 그리고 대응하는 제어 신호(207)를 결정한다.

마찬가지로, 사용자(206)가 "좌회전" 또는 "우회전" 명령을 입력하면, 제1 프로세싱 유닛(202)은 예를 들어, 로봇(201)이 장애물(예를 들어, 특히 복도 또는 건물 벽)에 부딪히거나 통로에서의 추락하는 것을 피하기 위해 정확한 시간에 회전하도록 하기 위해 사용 가능한 경로에 적합하도록 제어 신호(207)를 생성한다.

카메라(204)(또는 카메라들)는 예를 들어 환경의 양호한 시야를 갖도록 조정된다.

제1 프로세싱 유닛(202)은 제2 프로세싱 유닛(203)과 통신하여 카메라(209)에 의해 생성된 이미지(209)를 제2 프로세싱 유닛(203)으로 전송하고, 제2 프로세싱 유닛(203)으로의 사용자(206)에 의해 입력된 하이-레벨 명령(210)을 수신한다.

이러한 통신을 위해, 제1 프로세싱 유닛(202) 및 제2 프로세싱 유닛(203)은 (예를 들어, 5G 네트워크와 같은 셀룰러 모바일 무선 네트워크, 와이파이, 이더넷, 블루투스 등을 사용하여) 프로세싱 유닛(202, 203) 간에 대응하는 무선 또는 유선 통신 인터페이스를 구현하는 통신 디바이스를 포함한다.

카메라(204)는 예를 들어 메시지 스트림의 형태로 이미지(209)를 생성하여 제1 프로세싱 유닛(202)에 제공한다.

제1 프로세싱 유닛(202)은 이미지(209)를 제2 프로세싱 유닛(203)으로 전달하고, 제2 프로세싱 유닛은 로봇이 현재 처한 환경을 볼 수 있도록 인간 조작자(205)에게 해당 이미지(209)를 디스플레이한다. 인간 조작자(206)는 제2 프로세싱 유닛(203)을 사용하여 하이-레벨 명령(210)을 발행한다. 제2 프로세싱 유닛(202)은 하이-레벨 명령(210)을 제1 프로세싱 유닛(202)으로 전송한다.

제1 프로세싱 유닛(202)은 머신 러닝 모델(208)을 호스팅(구현)하고, 카메라(204) 및 제어할 로봇(201)의 구성 요소(예를 들어, 액추에이터(109))에 연결되며, 제2 프로세싱 유닛(203)으로부터 하이-레벨 명령(210)을 수신한다. 제1 프로세싱 유닛(202)은 이미지(209)와 하이-레벨 명령(210)을 처리함으로써 제어 신호(207)를 생성한다. 여기에는 머신 러닝 모델(208)을 사용하여 이미지(209)를 처리하는 것을 포함한다. 제1 프로세싱 유닛(202)은 제어 신호(207)를 제어할 로봇(201)의 구성 요소에 공급한다.

카메라(204)는 예를 들어, 머신 러닝 모델(208)이 처리하기 위한 1인칭 시점의 이미지를 제공하도록 하는 방식으로 로봇(201)에 배치된다. 카메라(204)는 예를 들어, 컬러 이미지를 제공한다. 충분한 시야를 확보하기 위해, 다수의 카메라가 이미지(205)를 제공할 수 있다.

로봇(201)은 제어 신호에 따라 동작하는 기계적 수단을 제공한다. 제1 프로세싱 유닛(202)은 머신 러닝 모델(208)을 (하이-레벨 명령 및 이미지(204)로부터의 제어 신호(207)의) 실시간 추론을 위해 충분히 빠르게 실행하도록 연산 리소스를 제공한다. 임의 개수 및 임의 타입의 카메라가 로봇(201)의 폼 팩터에 따라 사용될 수 있다. 제1 프로세싱 유닛(202)은 (예를 들어, 카메라와 카메라 각도 및 위치 간의 불일치를 보정하기 위해) 이미지(205)의 스티칭 및 캘리브레이션을 수행할 수 있다.

RGB 카메라 이외의 다른 타입의 센서, 특히 열화상 카메라, 움직임 센서, 음파 변환기 등이 더 나은 제어 성능을 달성하기 위해 추가될 수 있다.

제1 프로세싱 유닛(202)은 머신 러닝 모델(208)에 의한 처리를 포함하는 제어 알고리즘을 사용하여 제어 신호(207)를 결정한다.

일 실시예에서는, 머신 러닝 모델(208)이 또한 제1 프로세싱 유닛(202) 대신에 제2 프로세싱 유닛(203)에서 호스팅될 수 있다는 점에 유의해야 한다. 이 경우, 제어 신호(207)의 결정은 제2 프로세싱 유닛(203)에서 수행된다. 이어 (하이-레벨 명령(210) 대신에) 제어 신호(207)가 제2 프로세싱 유닛(203)에 의해 제1 프로세싱 유닛(202)으로 전송되고, 제1 프로세싱 유닛은 제어 신호(207)를 로봇(201)에 전달한다.

머신 러닝 모델(208)은 제1 프로세싱 유닛(202)과 제2 프로세싱 유닛(203) 사이에 배치된 제3 프로세싱 유닛에서 호스팅될 수도 있다. 이 경우, 제3 프로세싱 유닛에서 제어 신호(207)의 결정이 수행되며, 이는 제1 프로세싱 유닛(202) 및 제2 프로세싱 유닛(203)과 데이터를 교환하는 원격 위치에 있을 수 있다. 제2 프로세싱 유닛(203)이 이미지를 수신하고 하이-레벨 사용자 명령을 실시간으로 전송하는 한, 제어 시스템은 이러한 구성을 그대로 유지한다. 마찬가지로, 제1 프로세싱 유닛(202)은 이미지를 전송하고 (로우-레벨) 제어 신호(207)를 실시간으로 수신할 수 있다.

다양한 실시예에 따르면, 머신 러닝 모델(208)은 각 제어 시간 단계에 대해 카메라(204)(또는 다수의 카메라)에 의해 제공되는 이미지(즉, 프레임)(209)를 로봇(201)을 위한 제어 정보로 처리하는 딥 러닝 모델이다. 이하에서 설명되는 실시예에 따르면, 머신 러닝 모델(208)은 각 제어 시간 단계에 대해 가능한 모든 의도(즉, 가능한 모든 하이-레벨 명령)에 대한 제어 정보에 대한 예측을 수행한다. 제1 프로세싱 유닛(202)은 이어 제2 프로세싱 유닛(203)에 의해 제공되는 하이-레벨 명령에 따라 예측된 제어 정보로부터 제어 신호(207)를 결정한다.

본 실시예에서 로봇(201)은 각 시간 단계에서 제어 신호(207)의 변화에 반응하도록 관성이 낮은 것으로 가정된다.

도 3은 머신 러닝 모델(300)을 나타낸다.

도 3의 예에서, 머신 러닝 모델(300)은 하나의 제어 시간 단계 동안 단일 카메라(204)로부터 단일 RGB(즉, 컬러) 입력 이미지(301), 예를 들어 이미지(301)를 수신한다고 가정된다.

머신 러닝 모델은 입력 이미지(301)를 특징 공간(즉, 잠재 공간)에서 특징(303)(즉, 특징값 또는 다수의 특징값을 포함하는 특징 벡터)으로 변환하기 위한 (이미지) 인코더(302)를 포함한다. 폴리시 모델(304)은 머신 러닝 모델(300)의 출력(305)으로서 제어 정보 예측을 생성한다.

인코더(302)와 폴리시 모델(304)은 학습 시간에 학습(즉, 최적화)되고 동작 중(즉, 추론 시간)에 이미지를 처리하기 위해 배치된다.

학습을 위해, 머신 러닝 모델(300)은 깊이 디코더(306)와 시맨틱 디코더(307)를 포함한다(둘 다 추론을 위해 배치되거나 사용되지 않음).

깊이 디코더(306)는 (학습 시간에 학습 입력 이미지(301)인) 입력 이미지(301) 상의 위치에 대한 깊이 예측을 제공하도록 학습된다. 이것은 입력 이미지(301)에 보여지는 로봇의 환경의 일부(특히 물체)와 로봇과의 거리를 예측한다는 것을 의미이다. 출력은 조밀한 깊이 예측일 수 있으며 상대적인 깊이값 또는 절대적인(축적-일관적인) 깊이값의 형태일 수 있다.

깊이 디코더(306)는 (학습 시간에 학습 입력 이미지(301)인) 입력 이미지(301) 상의 위치에 대한 시맨틱 예측을 제공하도록 학습된다. 이것은 입력 이미지(301)에 보여지는 로봇의 환경의 일부가 통과 가능한지 여부를 예측한다는 것을 의미한다.

인코더(302)를 위해, 임의의 표준 컨볼루션 신경망(CNN)이 사용될 수 있다. 깊이 디코더(306) 및 시맨틱 디코더(307)에 대해, 임의의 표준 CNN이 (각 사용 사례에 대해 최적화될 수 있을 경우에) 사용될 수 있다.

폴리시 모델(304)은 특징(303)으로부터 제어 정보(예를 들어, 속도 및 (하나 이상의 각도를 포함할 수 있는) 방향)를 추론한다. 특징(303)의 품질은 폴리시 모델(304)에 중요하므로 인코더(302)는 폴리시 모델(304)과 공동으로 학습될 수 있다. 마찬가지로, 인코더(302)는 특징(303)이 깊이 및 시맨틱 정보를 나타내는 것을 보장하기 위해 디코더(306, 307)와 공동으로 학습될 수 있다.

폴리시 모델(304)은 (예를 들어, 학습 입력 이미지의 라벨에 포함되는) 제어 정보 실측 자료를 사용하여 지도 방식으로 학습된다. 예를 들어, 폴리시 모델(304)은 장애물이 로봇에 가까울 때 속도를 줄이도록(로봇(201)이 느려지도록) 학습된다. (즉, 전진하라는 하이-레벨 명령에 대한) 전진 의도의 경우, 인간 조작자(206)가 명시적인 명령을 입력해야 할 때, 즉 조작자(206)가 앞으로 나아갈 위치를 특정해야 하는 대칭형 Y-교차로의 경우 속도를 줄이도록 학습될 수도 있다.

각도와 관련하여, 전진 의도는 경로 추종(path following)으로 정의된다. 따라서 곡선 경로 상에서, 폴리시 모델(304)은 로봇이 방향을 전환하여 로봇이 경로 상에 머물러 있도록 제어 정보를 예측하도록 학습된다.

왼쪽 또는 오른쪽 의도(즉, 하이-레벨 명령 "좌회전" 및 "우회전")에 대해, 폴리시 모델(304)은 예를 들어 로봇이 가능한 곳에서 방향 전환하도록 하는 제어 정보만을 예측하도록 학습된다(즉, 로봇이 장애물로 방향 전환하도록 하지 않고, 방향 전환을 위해 경로가 클리어 될 때까지, 계속 전진시킨다).

전술한 바와 같이, 폴리시 모델(304)은 지도 방식으로, 즉 학습 입력 이미지를 포함하는 학습 데이터 세트를 제공함으로써 학습되며, 각 학습 입력 이미지에 대해, 각 하이-레벨 명령에 대한 타겟 제어 정보(즉, 실측 자료 제어 정보)를 특정하는 라벨이 제공된다. 평균 제곱 오차(MSE)가 폴리시 모델(306)의 학습에 대한 손실로 사용될 수 있다.

깊이 디코더(306)는 깊이 예측이 기하학적으로 정확하도록, 예를 들어 삼각형 모양 공간을 돔 모양 공간으로 예측하지 않도록 학습된다. 깊이 디코더는 지도 또는 비지도 방식으로 학습될 수 있다.

지도 학습의 경우, 각 학습 입력 이미지의 라벨은 깊이 디코더(306)가 출력해야 하는 타겟(실측 자료) 깊이 정보를 더 특정한다. 평균 제곱 오차(MSE)가 깊이 디코더(306)의 학습에 대한 손실로 사용될 수 있다.

비지도 학습의 경우, 예를 들어, 두 대의 카메라(204)가 동시에 이미지를 생성하기 위해 사용될 수 있다. 깊이 디코더(306)는 이어 카메라 중 첫 번째 카메라에 의해 생성된 이미지와 카메라 중 두 번째 카메라의 시점에 대한 깊이 예측으로부터 재구성된 이미지 사이의 손실을 최소화하도록 학습될 수 있다. 첫 번째 카메라에 의해 촬영한 이미지와 깊이 정보로부터 두 번째 카메라의 시점으로부터의 이미지를 생성하도록 학습되는 네트워크에 의해, 재구성이 수행된다. 깊이 디코더는 비디오에서 샘플링된 시퀀스로도 학습될 수 있다.

(시맨틱 세그먼테이션을 위한 표준 공식인) 장면의 각 픽셀의 클래스를 식별하는 대신, 일 실시예에 따르면, 시맨틱 디코더(307)는 통과 가능한 경로 세그먼테이션을 수행한다. 이것은 사람이나 의자와 같은 볼록하지 않은 물체의 형상을 이해하도록 학습된다는 것을 의미한다. 사람이 서 있는 이미지에서, 표준 시맨틱 세그먼테이션 모델은 사람의 발 사이의 공간을 "바닥" 또는 "지면"으로 예측한다. 대신에, 시맨틱 디코더(307)는 로봇(201)이 그 사람과 부딪히는 것을 원하지 않기 때문에 그것을 통과할 수 없는 것으로 예측하도록 학습된다. 이는 의자와 같은 많은 가구의 경우에도 마찬가지이다.

시맨틱 디코더(307)는 지도 방식으로 학습된다. 이를 위해, 각 학습 입력 이미지의 라벨은 학습 이미지에 보여지는 부분들이 통과 가능한지 여부를 더 특정한다. 크로스 엔트로피 손실이 시맨틱 디코더(307)의 학습에 대한 손실로 사용될 수 있다(예를 들어, 클래스 "통과 가능" 및 "통과 불가능"으로).

인코더(302)는 하나 이상의 다른 모델과 함께 학습된다. 인코더(302), 폴리시 모델(304), 깊이 디코더(306) 및 시맨틱 디코더(307)는 폴리시 모델(304), 깊이 디코더(306) 및 시맨틱 디코더(307)의 출력에 대한 손실을 합산함으로써 모두 함께 학습될 수 있다.

도 4는 다수의 입력 이미지(401)를 처리하기 위한 머신 러닝 모델(400)을 나타낸다.

머신 러닝 모델(400)은 예를 들어, 페이로드(205)가 각 제어 시간 단계 동안 이미지(205)를 각각 제공하는 다수의 카메라(204)를 포함하는 경우에 적용될 수 있다. 머신 러닝 모델(400)은 제어 정보를 예측하기 위해 다수의 후속 이미지(205)를 고려하기 위해 사용될 수도 있음에 유의해야 한다.

모든 입력 이미지는 (인코더(302)와 유사한) 동일 인코더(402)에 공급된다. 그 결과 각 입력 이미지에 대한 특징(403)이 생성된다.

인코더(402)에 의해 생성된 특징(403)은 제어 정보 출력(405)을 생성하기 위해 폴리시 모델(404)에 의해 소비되기 전에 함께 연관지어진다. 학습을 위해, 동일한 디코더 세트(깊이 인코더(406) 및 시맨틱 인코더(407))가 각 특징(403) 상에서 동작한다.

학습 데이터는 사용 사례에 따라 선택될 수 있다. 예를 들어, 자동차류 내비게이션이 아닌 보행자류 내비게이션인 경우, 자동차를 위한 교통 규칙을 준수하는 것이 목표가 아니며 차선이 명확하게 표시될 필요는 없다.

요약하면, 다양한 실시예에 따르면, 방법은 도 5에 도시된 바와 같이 제공된다.

도 5는 로봇 디바이스 컨트롤러를 학습시키기 위한 방법을 나타낸다.

복수의 디지털 학습 입력 이미지(504) 각각에 대해, 인코더 네트워크(501)가 디지털 학습 입력 이미지를 잠재 공간 내 특징으로 인코딩하고, 디코더 네트워크(502)가 특징으로부터, 디지털 학습 입력 이미지에 보여지는 복수의 영역 각각에 대해, 해당 영역의 통과 가능 여부 및 디지털 학습 입력 이미지의 시점과 해당 영역 사이의 거리에 대한 정보를 결정하고, 폴리시 모델(503)이 특징으로부터, 로봇 디바이스의 움직임을 제어하기 위한 제어 정보를 결정하도록, 인코더 네트워크(501), 디코더 네트워크(502) 및 폴리시 네트워크(503)를 포함하는 신경망(500)이 학습된다.

적어도 폴리시 모델(503)은 디지털 학습 입력 이미지(504)의 제어 정보 실측 자료 데이터(505)를 사용하여 지도 방식으로 학습된다.

다양한 실시예에 따르면, 다시 말해, 로봇 디바이스는 하나 이상의 영역 각각에 대해, 로봇으로부터의 영역의 거리 및 해당 영역을 로봇 디바이스가 통과 가능한지 여부에 대한 정보를 나타내는 특징에 기초하여 제어된다. 이는 인코더/디코더 아키텍처를 학습시키고(여기서 디코더 부분은 인코더에 의해 생성된 특징으로부터 거리(즉, 깊이) 정보와 시맨틱 정보(즉, 해당 영역의 통과 가능 여부)를 재구성함), 특징으로부터 로봇 디바이스를 제어하기 위한 제어 정보를 생성하도록 지도 방식으로 폴리시 모델을 학습시킴으로써 달성된다.

다양한 실시예에 따르면, 다시 말해, 하나 이상의 디지털 학습 입력 이미지를 잠재 공간 내 하나 이상의 특징으로 인코딩하는 신경 인코더 네트워크를 학습시키고, 하나 이상의 특징으로부터, 하나 이상의 디지털 학습 입력 이미지에 보여지는 복수의 영역 각각에 대해, 로봇의 해당 영역의 통과 가능 여부 및 하나 이상의 디지털 학습 입력 이미지가 촬영된 시점과 해당 영역 사이의 거리에 대한 정보를 결정하도록 신경망 디코더 네트워크를 학습시키고; 그리고 하나 이상의 특징으로부터, 로봇 디바이스의 움직임을 제어하기 위한 제어 정보를 결정하도록 폴리시 모델을 학습시키는 것을 포함하는, 로봇 디바이스 컨트롤러를 학습하는 방법이 제공되며, 여기서 적어도 폴리시 모델은 디지털 학습 입력 이미지의 제어 정보 실측 자료 데이터를 사용하여 지도 방식으로 학습된다.

도 5의 방법은 예를 들어 통신 인터페이스, 하나 이상의 프로세싱 유닛, 메모리(예컨대, 학습된 신경망을 저장하기 위한) 등과 같은 구성 요소를 포함하는 로봇 디바이스 제어 시스템에 의해 수행된다.

위에서 설명된 접근 방식은 움직일 수 있거나 및/또는 움직이는 것이 가능한 부품을 갖는 임의의 디바이스의 제어에 적용될 수 있다. 이것은 (도 1에 도시된 것 같은) 보행 로봇, 비행 드론, 및 (예를 들어, 물류용) 자율 주행 차량과 같은 모바일 디바이스의 움직임을 제어하기 위해 사용될 수 있을 뿐만 아니라 로봇 팔(예를 들어, 지나가는 작업자와 같은 장애물에 부딪히지 않도록 해야 하는 움직이는 로봇과 같은 산업용 로봇) 또는 출입 통제 시스템(따라서 감시)과 같은 디바이스의 움직일 수 있는 팔다리의 움직임을 제어하기 위해 사용될 수 있다는 것을 의미한다.

따라서 위에서 설명된 접근 방식은 로봇, 차량, 가전제품, 공구 또는 제조 기계와 같은 컴퓨터-제어 기계와 같은, 임의의 물리적 시스템의 움직임을 제어하기 위해 사용될 수 있다. 용어 "로봇 디바이스"는 이러한 모든 타입의 모바일 디바이스 및/또는 움직일 수 있는 디바이스(즉, 특히 움직일 수 있는 구성 요소가 있는 고정식 디바이스)인 것으로 이해된다.

여기에 설명된 방법이 수행될 수 있으며, 여기에 설명된 다양한 프로세싱 또는 연산 유닛과 디바이스 및 컴퓨팅 엔티티는 하나 이상의 회로에 의해 구현될 수 있다. 실시예에서, "회로"는 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합일 수 있는 임의의 종류의 로직 구현 엔티티로 이해될 수 있다. 따라서, 실시예에서, "회로"는 내장된 로직 회로 또는 프로그래머블 프로세서와 같은 프로그래머블 로직 회로(예를 들어, 마이크로프로세서)일 수 있다. "회로"는 또한 프로세서에 의해 구현되거나 또는 실행되는 소프트웨어(예를 들어, 가상 머신 코드를 사용하는 컴퓨터 프로그램 등 모든 종류의 컴퓨터 프로그램)일 수도 있다. 여기에서 설명된 각 기능의 임의의 다른 종류의 구현이 또한 대안적 실시예에 따른 "회로"로서 이해될 수 있다.

본 개시가 특정 실시예를 참조하여 구체적으로 나타내지고 설명되었지만, 당업자에 의해 첨부된 청구범위에 의해 정의된 본 발명의 정신과 범위를 벗어나지 않고 형태 및 세부 사항에 대한 다양한 변경이 이루어질 수 있음이 이해되어야 한다. 따라서 본 발명의 범위는 첨부된 청구범위에 의해 나타내지며, 청구항의 의미와 균등성의 범위 내에 있는 모든 변경이 따라서 포괄되도록 의도된다.

Claims

로봇 디바이스 컨트롤러를 학습시키기 위한 방법으로서,
인코더 네트워크, 디코더 네트워크 및 폴리시 네트워크를 포함하는 신경망을, 복수의 디지털 학습 입력 이미지 각각에 대해,
상기 인코더 네트워크는 상기 디지털 학습 입력 이미지를 잠재 공간의 특징으로 인코딩하고;
상기 디코더 네트워크는 상기 특징으로부터, 상기 디지털 학습 입력 이미지에 보여지는 복수의 영역 각각에 대해, 상기 영역의 통과 가능 여부와 상기 디지털 학습 입력 이미지의 시점(viewpoint)과 상기 영역 사이의 거리에 대한 정보를 결정하고; 그리고
상기 폴리시 모델은 상기 특징으로부터, 로봇 디바이스의 움직임을 제어하기 위한 제어 정보를 결정하며;
적어도 상기 폴리시 모델은 상기 디지털 학습 입력 이미지의 제어 정보 실측 자료 데이터(control information ground truth data)를 사용하여 지도(supervised) 방식으로 학습되도록;
학습시키는 것을 포함하는, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법.
청구항 1에 있어서,
상기 인코더 네트워크와 상기 디코더 네트워크를 학습시키는 것은 상기 인코더 네트워크와 상기 디코더 네트워크를 포함하는 오토인코더를 학습시키는 것을 포함하는, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법.
청구항 1 또는 청구항 2에 있어서,
상기 인코더 네트워크를 상기 디코더 네트워크와 공동으로 학습시키는 것을 포함하는, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법.
청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
상기 인코더 네트워크를 상기 디코더 네트워크 및 상기 폴리시 네트워크와 공동으로 학습시키는 것을 포함하는, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법.
청구항 1 내지 청구항 4 중 어느 한 항에 있어서,
상기 디코더 네트워크는 시맨틱(semantic) 디코더와 깊이(depth) 디코더를 포함하고, 상기 신경망은, 각 디지털 학습 입력 이미지에 대해,
상기 시맨틱 디코더는 상기 특징으로부터, 상기 디지털 학습 입력 이미지에 보여지는 복수의 영역 각각에 대해, 상기 영역의 통과 가능 여부를 결정하고; 그리고
깊이 디코더는 상기 하나 이상의 특징으로부터, 상기 디지털 학습 입력 이미지에 보여지는 복수의 영역 각각에 대해, 상기 디지털 학습 입력 이미지의 상기 시점과 상기 영역 사이의 상기 거리에 대한 정보를 결정하도록;
학습되는, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법.
청구항 5에 있어서,
상기 시맨틱 디코더는 지도 방식으로 학습되는, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법.
청구항 5에 있어서,
상기 깊이 디코더는 지도 방식으로 학습되거나 또는 상기 깊이 디코더는 비지도 방식으로 학습되는, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법.
청구항 1 내지 청구항 7 중 어느 한 항에 있어서,
상기 인코더 네트워크, 상기 디코더 네트워크 및 상기 폴리시 네트워크 중 하나 이상은 컨볼루션(convolutional) 신경망인, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법.
청구항 1 내지 청구항 8 중 어느 한 항에 있어서,
상기 제어 정보는 복수의 로봇 디바이스 움직임 명령 각각에 대한 제어 정보를 포함하는, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법.
청구항 1 내지 청구항 9 중 어느 한 항에 있어서,
상기 폴리시 모델이 상기 인코더가 복수의 학습 입력 이미지를 인코딩한 특징들로부터 상기 제어 정보를 결정하도록 상기 신경망이 학습되는, 로봇 디바이스 컨트롤러를 학습시키기 위한 방법.
로봇 디바이스를 제어하기 위한 방법으로서,
청구항 1 내지 청구항 10 중 어느 한 항에 따른 로봇 디바이스 컨트롤러를 학습시키고;
상기 로봇 디바이스의 주변을 보여주는 하나 이상의 디지털 이미지를 획득하고;
상기 인코더 네트워크를 사용하여 하나 이상의 디지털 이미지를 하나 이상의 특징으로 인코딩하고;
상기 하나 이상의 특징을 상기 폴리시 네트워크에 공급하고; 그리고
상기 하나 이상의 특징에 응답하여 상기 폴리시 모델의 제어 정보 출력에 따라 상기 로봇을 제어하는 것을 포함하는, 로봇 디바이스를 제어하기 위한 방법.
청구항 11에 있어서,
상기 로봇 디바이스의 하나 이상의 카메라로부터 상기 하나 이상의 디지털 이미지를 수신하는 것을 포함하는, 로봇 디바이스를 제어하기 위한 방법.
청구항 11 또는 청구항 12에 있어서,
상기 제어 정보는 복수의 로봇 디바이스 움직임 명령 각각에 대한 제어 정보를 포함하고, 상기 방법은 로봇 디바이스 움직임 명령의 표시를 수신하고, 상기 표시된 로봇 디바이스 움직임 명령에 대한 상기 제어 정보에 따라 상기 로봇을 제어하는 것을 포함하는, 로봇 디바이스를 제어하기 위한 방법.
청구항 11 내지 청구항 13 중 어느 한 항에 있어서,
상기 폴리시 모델이 상기 인코더가 복수의 학습 입력 이미지를 인코딩한 특징으로부터 상기 제어 정보를 결정하도록 상기 신경망이 학습되고,
상기 방법은
상기 로봇 디바이스의 주변을 보여주는 복수의 디지털 이미지를 획득하고;
상기 인코더 네트워크를 사용하여 상기 복수의 디지털 이미지를 복수의 특징으로 인코딩하고;
상기 복수의 특징을 상기 폴리시 네트워크에 공급하고; 그리고
상기 복수의 특징에 응답하여 상기 폴리시 모델의 제어 정보 출력에 따라 상기 로봇을 제어하는 것을 포함하는, 로봇 디바이스를 제어하기 위한 방법.
청구항 14에 있어서,
상기 복수의 디지털 이미지는 상이한 카메라로부터 수신된 이미지를 포함하는, 로봇 디바이스를 제어하기 위한 방법.
청구항 14 또는 청구항 15에 있어서,
상기 복수의 디지털 이미지는 상이한 시점으로부터 촬영된 이미지들을 포함하는, 로봇 디바이스를 제어하기 위한 방법.
청구항 14 내지 청구항 16 중 어느 한 항에 있어서,
상기 복수의 디지털 이미지는 상이한 시각에 촬영된 이미지들을 포함하는, 로봇 디바이스를 제어하기 위한 방법.
청구항 1 내지 청구항 17 중 어느 한 항에 기재된 상기 방법을 수행하도록 구성된 로봇 디바이스 제어 시스템.
하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 청구항 1 내지 청구항 17 중 어느 한 항에 기재된 상기 방법을 수행하게 하는 프로그램 명령을 포함하는 컴퓨터 프로그램 요소.
하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 청구항 1 내지 청구항 17 중 어느 한 항에 기재된 상기 방법을 수행하게 하는 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체.