KR20230005583A

KR20230005583A - 주행 제어 데이터 생성 방법, 장치, 컴퓨터 판독 가능한 기록매체 및 컴퓨터 프로그램

Info

Publication number: KR20230005583A
Application number: KR1020210086471A
Authority: KR
Inventors: 유광표; 유민종; 우홍욱; 염익준
Original assignee: 성균관대학교산학협력단
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2023-01-10
Also published as: KR102600515B1

Abstract

일 실시예에 따른 엣지 노드와 통신하며, 주행 제어 데이터를 생성하는 장치에 있어서, 상기 장치 주변의 주행 데이터를 획득하는 데이터 획득부; 및 상기 엣지 노드로부터 획득된 엣지 데이터에 기초하여 생성된 제어 신호에 따라, 상기 주행 데이터를 이용하거나 상기 주행 데이터 및 상기 엣지 데이터를 이용하여 주행 제어 데이터를 생성하는 주행 제어 데이터 생성부를 포함할 수 있다.

Description

주행 제어 데이터 생성 방법, 장치, 컴퓨터 판독 가능한 기록매체 및 컴퓨터 프로그램{METHOD, APPARATUS, COMPUTER-READABLE STORAGE MEDIUM AND COMPUTER PROGRAM FOR GENERATING DRIVING CONTROL DATA}

본 발명은 주행 제어 데이터 생성 방법, 장치, 컴퓨터 판독 가능한 기록매체 및 컴퓨터 프로그램에 관한 것이다.

기계학습 기반 자율 주행 기술은 센서로부터 획득한 데이터를 실시간으로 처리하여 제어를 수행하고 있다.

구체적으로, 엣지 컴퓨팅 환경에서 디바이스(예를 들어, 자율주행 장치)는 엣지 노드에 포함된 센서에서 획득되는 엣지 데이터(또는 연산 자원 데이터)를 수신하여 주행 제어 데이터를 생성할 수 있다.

그러나, 엣지 컴퓨팅 환경에서 엣지 노드와 디바이스간의 데이터 동기화는 제한된다. 따라서, 엣지와 디바이스간의 통신이 불안정하거나 네트워크를 포함한 연산 자원의 제약으로 인해, 엣지 노드에 포함된 센서에서 획득되는 엣지 데이터(또는 연산 자원 데이터)는 실시간으로 디바이스(또는 제어 주체)에 전달되지 못하는 경우가 발생될 수 있으며, 이러한 경우에 디바이스(또는 제어 주체)는 업데이트되지 않은 이전 데이터를 기반으로 제어 결정을 내려야만 하였다.

하지만, 디바이스(제어 주체)에서 엣지 노드로부터 엣지 데이터(또는 연산 자원 데이터)를 전달받지 못하여, 업데이트되지 않은 이전 데이터를 기반으로 제어 결정을 수행하는 경우, 디바이스의 제어 성능이 하향되는 문제점이 존재하였다.

한국공개특허공보, 10-2016-0049962호(2016.05.10. 공개)

본 발명의 해결하고자 하는 과제는, 주행 제어 데이터 생성 방법, 장치, 컴퓨터 판독 가능한 기록매체 및 컴퓨터 프로그램을 제공하는 것이다.

또한, 이러한 주행 제어 데이터 생성 방법, 장치, 컴퓨터 판독 가능한 기록매체 및 컴퓨터 프로그램을 통해, 엣지 노드와 디바이스(장치)간의 통신환경이 불안정한 상황에서도 강화학습으로 기 학습된 오케스트레이터를 통해 생성된 제어 신호에 따라 주행 제어 데이터를 생성할 수 있는 것 등이 본 발명의 해결하고자 하는 과제에 포함될 수 있다.

다만, 본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 장치는, 엣지 노드와 통신하며, 주행 제어 데이터를 생성하는 장치에 있어서, 상기 장치 주변의 주행 데이터를 획득하는 데이터 획득부; 및 상기 엣지 노드로부터 획득된 엣지 데이터에 기초하여 생성된 제어 신호에 따라, 상기 주행 데이터를 이용하거나 상기 주행 데이터 및 상기 엣지 데이터를 이용하여 주행 제어 데이터를 생성하는 주행 제어 데이터 생성부를 포함할 수 있다.

또한, 상기 제어 신호는 상기 엣지 노드에 의해 생성될 수 있다.

또한, 상기 주행 데이터를 이용하여 제 1 주행 제어 데이터를 생성하는 제 1 오토 인코더; 및 상기 주행 데이터 및 상기 엣지 데이터를 이용하여 제 2 주행 제어 데이터를 생성하는 제 2 오토 인코더를 더 포함하고, 상기 주행 제어 데이터 생성부는, 상기 제어 신호에 따라, 상기 제 1 오토 인코더 및 상기 제 2 오토 인코더 중에서 어느 하나를 이용하여 상기 주행 제어 데이터를 생성할 수 있다.

또한, 상기 주행 제어 데이터 생성부는, 상기 제어 신호가 상기 제 1 오토 인코더를 이용하여 상기 주행 제어 데이터를 생성한 것을 지시하는 경우, 상기 제 1 오토 인코더를 이용하여 상기 제 1 주행 제어 데이터를 생성하고, 상기 제어 신호가 상기 제 2 오토 인코더를 이용하여 상기 주행 제어 데이터를 생성한 것을 지시하는 경우, 상기 제 2 오토 인코더를 이용하여 상기 제 2 주행 제어 데이터를 생성할 수 있다.

또한, 상기 제 1 오토 인코더는, 학습용 주행 데이터와, 상기 학습용 주행 데이터에 대한 레이블 데이터로서, 제 1 정답 주행 제어 데이터를 입력 받으면, 상기 학습용 주행 데이터를 인코딩하여 상기 제 1 정답 주행 제어 데이터를 출력하도록 기 학습되어 있고, 상기 제 2 오토 인코더는, 학습용 엣지 데이터 및 학습용 주행 데이터와, 상기 학습용 엣지 데이터 및 상기 학습용 주행 데이터에 대한 레이블 데이터로서, 제 2 정답 주행 제어 데이터를 입력 받으면, 상기 학습용 엣지 데이터 및 상기 학습용 주행 데이터를 인코딩하여 상기 제 2 정답 주행 제어 데이터를 출력하도록 기 학습되어 있을 수 있다.

또한, 상기 엣지 노드로부터 상기 엣지 데이터를 수신하여 상기 제어 신호를 생성하는 오케스트레이터를 더 포함할 수 있다.

또한, 상기 오케스트레이터는, 학습용 엣지 데이터를 입력 받으면, 상기 제 1 오토 인코더 및 상기 제 2 오토 인코더 중 어느 하나를 선택하는 학습용 제어신호가 출력되도록 기 학습되고, 상기 학습용 제어신호와 정답 제어신호와의 차이에 대한 손실함수를 이용하여, 상기 학습용 엣지 데이터를 입력 받으면, 상기 학습용 제어신호가 출력되도록 더 학습될 수 있다.

또한, 상기 데이터 획득부는, 카메라 및 라이다 센서 중 적어도 하나를 이용하여 상기 주행 데이터를 획득할 수 있다.

본 발명의 일 실시예에 따른 주행 제어 데이터 생성 방법은, 엣지 노드와 통신하며, 주행 제어 데이터를 생성하는 장치에 의해 수행되는 주행 제어 데이터 생성 방법에 있어서, 상기 장치 주변의 주행 데이터를 획득하는 단계와, 상기 엣지 노드로부터 획득된 엣지 데이터에 기초하여 생성된 제어 신호에 따라, 상기 주행 데이터를 이용하거나, 상기 주행 데이터 및 상기 엣지 데이터를 이용하여 주행 제어 데이터를 생성하는 단계를 포함할 수 있다.

또한, 상기 주행 제어 데이터를 생성하는 단계는, 상기 제어 신호에 따라, 상기 주행 데이터를 이용하여 제 1 주행 제어 데이터를 생성하는 제 1 오토 인코더 및 상기 주행 데이터 및 상기 엣지 데이터를 이용하여 제 2 주행 제어 데이터를 생성하는 제 2 오토 인코더 중에서 어느 하나를 이용하여 상기 주행 제어 데이터를 생성할 수 있다.

또한, 상기 제어 신호가 상기 제 1 오토 인코더를 이용하여 상기 주행 제어 데이터를 생성한 것을 지시하는 경우, 상기 제 1 오토 인코더를 이용하여 상기 제 1 주행 제어 데이터를 생성하고, 상기 제어 신호가 상기 제 2 오토 인코더를 이용하여 상기 주행 제어 데이터를 생성한 것을 지시하는 경우, 상기 제 2 오토 인코더를 이용하여 상기 제 2 주행 제어 데이터를 생성할 수 있다.

또한, 상기 상기 엣지 노드로부터 엣지 데이터를 수신하여 상기 제어 신호를 생성하는 단계를 더 포함할 수 있다.

또한, 상기 제어 신호를 생성하는 단계는, 학습용 엣지 데이터를 입력 받으면, 상기 제 1 오토 인코더 및 상기 제 2 오토 인코더 중 어느 하나를 선택하는 학습용 제어신호가 출력되도록 기 학습되고, 상기 학습용 제어신호와 정답 제어신호와의 차이에 대한 손실함수를 이용하여, 상기 학습용 엣지 데이터를 입력 받으면, 상기 학습용 제어신호가 출력되도록 더 학습되는 오케스트레이터를 이용하여 상기 제어 신호를 생성할 수 있다.

또한, 상기 주행 데이터를 획득하는 단계는, 카메라 및 라이다 센서 중 적어도 하나를 이용하여 상기 주행 데이터를 획득할 수 있다.

본 발명의 실시예에 따른 장치에 의하면, 엣지 노드와 장치간의 통신이 원활하지 않거나 제한된 환경에서도 적합한 제어 신호가 생성되어, 생성된 제어 신호에 따라 장치에서 획득한 주행 데이터를 이용하거나, 주행 데이터 및 엣지 노드로부터 획득된 엣지 데이터를 이용하여 주행 제어 데이터를 생성할 수 있다.

또한, 본 발명의 실시예에 따른 장치는, 엣지 컴퓨팅을 기반으로 작동하는 로봇, 자율 주행 드론 및 스마트 팩토리 등에 사용될 수 있다.

다만, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 엣지 노드와 장치간의 통신환경을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 장치의 구성도이다.
도 3은 본 발명의 다른 실시에에 따른 장치를 나타낸 구성도이다.
도 4는 본 발명의 실시예에 따른 오케스트레이터를 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 오케스트레이터의 강화학습을 설명하기 위한 도면이다
도 6a 및 도 6b는 본 발명의 실시예에 따른 장치에 의해 주행 제어 데이터가 생성되는 것을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 주행 제어 데이터 생성 방법의 절차에 대한 예시적인 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 엣지 노드와 장치간의 통신환경을 설명하기 위한 도면이다.

도 1을 참조하면, 엣지 노드(10)는 센서(미도시)를 포함하며, 센서를 통해 엣지 데이터를 획득하고, 획득된 엣지 데이터를 장치(또는 디바이스)(100)에 전송할 수 있다.

예를 들어, 엣지 노드(10)는 레이더를 포함하고, 레이더를 이용하여 엣지 데이터를 획득하고, 레이더를 이용하여 획득된 엣지 데이터를 장치(100)에 전송할 수 있다.

장치(또는 디바이스)(100)는 센서(미도시)를 포함하며, 센서를 통해 장치(100) 주변의(또는 장치와 소정거리 이내의) 주행 데이터를 획득할 수 있다. 예를 들어, 장치(100)는 카메라 또는 라이다 센서를 포함하고, 카메라 또는 라이다를 이용하여 장치와 소정거리 이내의 주행 데이터를 획득할 수 있다. 예를 들어, 장치(100)는 자율 주행 장치로서, 예컨대, 자율 주행 드론 또는 자율 주행 자동차를 포함할 수 있다.

여기서, 주행 데이터는 장치(100)와 소정 거리 이내의 장애물에 관한 라이다 데이터 및 영상 데이터 중 적어도 하나일 수 있다.

장치(100)는 엣지 노드(10)에서 획득된 엣지 데이터를 전달받을 수 있다. 여기서, 장치(100)가 엣지 노드(10)로부터 전달받는 엣지 데이터는 장치의 주행 제어 데이터 생성에 사용되는 연산 자원 데이터일 수 있으며, 장치(100)는 엣지 노드(10)로부터 전달받는 엣지 데이터를 이용하여 주행 제어 데이터를 생성할 수 있다. 여기서, 주행 제어 데이터는 장치(100)를 자율 주행하기 위한 제어 데이터일 수 있다.

하지만, 엣지 노드(10)와 장치(100)간의 통신이 불안정한 경우(또는 통신 네트워크가 불안정한 경우), 장치(100)는 엣지 노드(10)에서 획득된 엣지 데이터를 전달받지 못하고, 이에 따라 주행 제어 데이터를 생성하는데 문제가 발생할 수 있다.

이에 따라, 본 발명의 일 실시예에 따른 장치(100)는 엣지 노드(10)와 장치(100)간의 통신이 원활하지 않거나 제한된 환경에서도 적합한 제어 신호가 생성되어, 생성된 제어 신호에 따라 장치(100)에서 획득한 주행 데이터를 이용하거나, 주행 데이터 및 엣지 노드(10)로부터 획득된 엣지 데이터를 이용하여 주행 제어 데이터를 생성할 수 있다. 이하, 본 발명의 일 실시에에 따른 장치(100)을 도 2를 통해 상세히 설명하도록 한다.

도 2는 본 발명의 일 실시예에 따른 장치의 구성도이다.

도 2를 참조하면, 일 실시예에 따른 장치(100)는 데이터 획득부(110), 제 1 오토 인코더(120), 제 2 오토 인코더(130), 주행 제어 데이터 생성부(140) 및 오케스트레이터(150)를 포함할 수 있다.

데이터 획득부(110)는, 장치(100) 주변의 주행 데이터를 획득할 수 있다. 예를 들어, 데이터 획득부(110)는 카메라 및 라이다 센서 중 적어도 하나를 이용하여 주행 데이터를 획득할 수 있다.

제 1 오토 인코더(120)는 주행 데이터를 이용하여 제 1 주행 제어 데이터를 생성할 수 있다. 보다 상세히, 제 1 오토 인코더(120)는 학습용 주행 데이터와, 학습용 주행 데이터에 대한 레이블 데이터로서, 제 1 정답 주행 제어 데이터를 입력 받으면, 학습용 주행 데이터를 인코딩하여 제 1 정답 주행 제어 데이터를 출력하도록 기 학습되어 있을 수 있다.

제 2 오토 인코더(130)는 주행 데이터 및 엣지 데이터를 이용하여 제 2 주행 데이터를 생성할 수 있다. 보다 상세히, 제 2 오토 인코더(130)는 학습용 엣지 데이터 및 학습용 주행 데이터와, 학습용 엣지 데이터 및 학습용 주행 데이터에 대한 레이블 데이터로서, 학습용 엣지 데이터 및 학습용 주행 데이터를 인코딩하여 제 2 정답 주행 제어 데이터를 출력하도록 기 학습되어 있을 수 있다.

주행 제어 데이터 생성부(140)는 엣지 노드로부터 획득된 엣지 데이터에 기초하여 생성된 제어 신호에 따라, 주행 데이터를 이용하거나 주행 데이터 및 엣지 데이터를 이용하여 주행 제어 데이터를 생성할 수 있다.

보다 상세히, 주행 제어 데이터 생성부(140)는 생성된 제어 신호에 따라 제 1 오토 인코더(120) 및 제 2 오토 인코더(130) 중에서 어느 하나를 이용하여 주행 제어 데이터를 생성할 수 있다.

예를 들어, 주행 제어 데이터 생성부(140)는 생성된 제어 신호가 제 1 오토 인코더(120)를 이용하여 주행 제어 데이터를 생성한 것을 지시하는 경우, 제 1 오토 인코더(120)를 이용하여 제 1 주행 제어 데이터를 생성하고, 생성된 제어 신호가 제 2 오토 인코더(130)를 이용하여 주행 제어 데이터를 생성한 것을 지시하는 경우, 제 2 오토 인코더(130)를 이용하여 제 2 주행 제어 데이터를 생성할 수 있다.

오케스트레이터(150)는 엣지 노드(10)로부터 엣지 데이터를 수신하여 제어 신호를 생성할 수 있다.

일 실시예로서, 오케스트레이터(150)는 학습용 엣지를 입력 받으면, 제 1 오토 인코더 및 제 2 오토 인코더 중 어느 하나를 선택하는 학습용 제어신호가 출력되도록 기 학습되고, 학습용 제어신호와 정답 제어신호와의 차이에 대한 손실함수를 이용하여, 학습용 엣지 데이터를 입력 받으면, 학습용 제어신호가 출력되도록 더 학습되어 있을 수 있다.

도 3은 본 발명의 다른 실시에에 따른 장치(100)를 나타낸 구성도이다.

도 3을 참조하면, 본 발명의 다른 실시예에 따른 장치(100)는 오케스트레이터(150)를 포함하지 않을 수도 있으며, 이 경우, 다른 실시예에 따른 장치(100)는 통신부(미도시)에서 엣지 노드(10)에 포함된 오케스트레이터(30)에서 생성된 제어 신호를 수신할 수 있다.

이하, 오케스트레이터에 대하여 도 4 및 도 5를 참조하여 보다 상세히 설명하도록 한다. 여기서, 도 4 및 도 5를 참조한 설명에 기재되는 오케스트레이터는 장치(100)에 포함되는 오케스트레이터(150) 및 엣지 노드(10)에 포함되는 오케스트레이터(30) 중 어느 하나일 수 있다.

도 4는 본 발명의 실시예에 따른 오케스트레이터를 설명하기 위한 도면이다.

도 4를 참조하면, 오케스트레이터는 엣지 노드(10)로부터 획득된 엣지 데이터에 기초하여 제어 신호를 생성할 수 있다. 여기서, 제어 신호는 장치(100)에서 주행 제어 데이터를 생성하는 방법을 칭한다.

이러한, 오케스트레이터는 엣지 노드(10)로부터 수신한 엣지 데이터의 활용여부가 다수의 제어 신호 중 가장 최적화된 제어 신호를 선택하도록 강화학습 기반으로 기 학습될 수 있다.

보다 상세히, 일 실시예에 따른 오케스트레이터에서 제어 신호를 생성하도록 강화학습 하는 방법에 대하여 설명하도록 한다.

먼저, (1) 오케스트레이터(Orchestrator)는 MDP(Markov Decision Process)를 수행하는 하위 제어신호(control policy)

를 생성한다.

(2) 하위 제어신호

를 통해, 최적 상태 분포를 따르는 상태 s의 샘플

를 수집한다.

(3) 샘플

로 오토 인코더(제 1 오토 인코더 또는 제 2 오토 인코더)

를 학습하여, 잠재 변수 z와 s의 사상(map)

를 획득한다.

(4) 각 업데이트 주기에 대응하는 사영함수(projection map)

를 통해 t시간 상태

에 대응하는 임의의 관측 값

를 생성하고, 신경망

를

에 대응하도록 오토 인코더(제 1 오토 인코더 또는 제 2 오토 인코더)를 지도 학습(supervised learning)한다.

(5) 잠재 변수 z를 관측하여, 액션 a를 취하는 제어 신호

를 생성한다.

(6) 최종적으로 제어 신호

를 획득 수 있다.

다른 실시예에 따른 오케스트레이터에서 제어 신호를 생성하도록 강화학습 하는 방법에 대하여 설명하도록 한다.

먼저, (1) 오케스트레이터(Orchestrator)는 엣지 데이터와 장치(100)에서 획득된 주행 데이터를 이용하여 생성된 제어 신호를 학습한다.

(2) 이후, 학습된 제어 신호를 통해 관측된 데이터(엣지 데이터 및 주행 데이터)의 샘플(

)을 획득한다.

(3) 관측된 샘플(

)을 통해 오토 인코더(제 1 오토 인코더 또는 제 2 오토 인코더)를 학습한다.

(4) (3) 단계에서 학습된 오토 인코더를 이용하여 엣지 데이터의 일부(혹은 전부)를 제거한 데이터(

)와, 관측의 인코딩 결과(관측된 샘플을 오토 인코더에 입력하여 인코딩된 출력값,

)을 레이블로 하여 오토 인코더를 지도 학습(supervised learning)한다.

(5) (4)지도 학습 결과로서, 오토 인코더 학습 모델(

)을 획득한다.

(6) 엣지 데이터를 수신하는데 지연되지 않는 환경에서 학습모델

을 이용하여 인코딩한 결과인

를 관찰 결과 정책

를 강화학습으로 학습한다. 즉,

는 인코딩 결과

를 입력 받아, 행동

를 추론할 수 있다.(

)

마지막으로, (7) (5)단계에서 획득한 지도 학습 결과

와,

를 학습하여 제어 정책을 획득하는 방식으로 학습할 수 있다. 이때, 오토 인코더의 인코딩 결과를

에 전달하여 행동을 추론할 수 있다. 또한, 주행 데이터만을 이용하여 인코딩을 수행하여 행동

를 추론할 수 있다.

도 5는 본 발명의 실시예에 따른 오케스트레이터의 강화학습을 설명하기 위한 도면이다

도 5를 참조하면, 오케스트레이터(Orchestrator)는 엣지 노드와 연결될 때만, 제어 정책을 선택할 수 있기 때문에 샘플 효율성이 떨어지므로 모델 환경과 시뮬레이터 환경에서 각각 학습을 수행할 수 있다.

이때, 오케스트레이터의 학습은 엣지 노드(10)로부터 엣지 데이터를 수신하는데 지연(delay)이 없는 환경에서 학습을 수행해야 하는데, 이러한 이유는 엣지 데이터를 수신하는데 지연이 있는 상태로 학습을 수행하게 되면, 강화학습 환경의 수학적 모델인 MDP(Markov Decision Process) 혹은 POMDP(Partial Observability MDP)를 만족하지 않으므로 학습이 제대로 수행되지 못하기 때문이다.

또한, 엣지 노드(10)로부터 엣지 데이터를 수신하는데 지연(delay)이 없는 환경에서 오케스트레이터의 학습이 수행될 경우, SAC(Soft Actor Critic)와 PPO(Proximal Policy Optimization) 등 여러 강화학습 알고리즘을 효과적으로 사용할 수 있다.

한편, 오케스트레이터의 시간이 업데이트에만 이루어지므로, 오케스트레이터의 학습은 평균 지연시간만큼 늦어지는 문제가 있다. 이를 위해 데이터 효율성을 위한 모델 기반 학습을 도입한다. 일반적인 모델기반 학습은 모델 편향 문제가 있으므로, 연합학습(Federated Learning)의 기법을 차용한 집계 정책(Aggregated policy) 기술을 도입한다. 이러한 집계 정책은, 모델기반 학습으로부터 얻어진 정책의 파라미터와 모델 자유(model free) 학습으로 붙어 얻어진 파라미터의 가중 평균으로 획득될 수 있다.

보다 상세히, 오케스트레이터는 시뮬레이터에서 학습을 수행한 후(파라미터

), 모델 환경에서 학습을 수행한 후(파라미터

), 연합 학습의 기법으로 기 설정된 가중치(

)를 통해 각각의 학습과정에서의 파라미터(

,

)를 하기 수학식 1과 같이 가중 평균화하여 사용할 수 있다.

한편, 오케스트레이터는 시뮬레이터 학습 및 모델 환경에서의 학습과정 각각의 파라미터(

,

)는 하기 수학식 2와 같이 업데이트될 수 있다.

이때, 오케스트레이터에 의해 선택된 제어 정책은, 이후 제어 정책이 선택될 때까지 유지될 수 있다.

도 6a 및 도 6b는 본 발명의 실시예에 따른 장치에 의해 주행 제어 데이터가 생성되는 것을 설명하기 위한 도면이다. 보다 상세히, 도 6a는 엣지 노드(10)에 오케스트레이터(30)가 포함된 도면이고, 도 6b는 본 발명의 실시예에 따른 장치(100)에 오케스트레이터(150)가 포함된 도면이다.

도 6a 및 도 6b를 참조하면, 먼저 (1) 엣지 노드(10)는 센서(예를 들어, 레이더)를 이용하여 엣지 데이터를 획득할 수 있다.

이후, (2) 오케스트레이터(Orchestrator)는 엣지 데이터를 수신하고, 수신된 엣지 데이터에 기초하여 복수의 제어 신호 중, 장치(100)에서 사용할 제어 신호를 선택할 수 있다. 여기서, 제어 신호는 장치(100)에서 수행될 제어 방법으로, 주행 제어 데이터를 생성하도록 제어하는 신호일 수 있다. 예를 들어, 제어 신호는 제 1 오토 인코더(120)를 이용하여 주행 제어 데이터를 생성하는 것을 지시하는 신호 또는 제 2 오코 인코더(130)를 이용하여 주행 제어 데이터를 생성하는 것을 지시하는 신호일 수 있다.

한편, 오케스트레이터가 엣지 데이터를 수신하지 못할 경우에도, 오케스트레이터는 복수의 제어 신호 중, 장치(100)에서 사용할 제어 신호를 선택할 수도 있다.

이후, (3) 장치(100)는 오케스트레이터에서 생성한 제어 신호를 이용할 수 있다. 이때, 도 6a에 도시된 바와 같이, 엣지 노드(10)에 오케스트레이터(30)가 포함될 경우, 장치(100)는 엣지 노드(10)에 포함된 오케스트레이터(30)로부터 생성된 제어 신호를 전달받을 수 있다.

이후, (4) 장치(100)는 오케스트레이터에서 생성한 제어 신호에 따라 주행 제어 데이터를 생성하는데 사용될 데이터(주행 데이터 또는 주행 데이터 및 엣지 데이터)와 제 1 오토 인코더(120) 또는 제 2 오토 인코더(130)를 설정할 수 있다.

이후, (5) 장치(100)는 오케스트레이터에서 전달받은 제어 신호에 따라 주행 제어 데이터를 생성하는데 사용할 데이터(주행 데이터 또는 주행 데이터 및 엣지 데이터)를 최종 결정할 수 있다.

이후, (6) 장치(100)에 포함된 오토 인코더(제 1 오토 인코더(120) 또는 제 2 오토 인코더(130))는 결정된 데이터를 제어 정책에 따라 변환할 수 있다.

마지막으로, (7) 오케스트레이터에서 생성된 제어 신호에 따라 선택된 오토 인코더(제 1 오토 인코더 또는 제 2 오토 인코더)의 출력값에 기초하여 장치(100)의 주행 제어 데이터가 생성될 수 있다.

보다 상세히, 장치(100)는 오케스트레이터에서 생성된 제어 신호가 제 1 오토 인코더(120)를 이용하여 주행 제어 데이터를 생성한 것을 지시하는 경우, 제 1 오토 인코더(120)를 이용하여 제 1 주행 제어 데이터를 생성하고, 생성된 제어 신호가 제 2 오토 인코더(130)를 이용하여 주행 제어 데이터를 생성한 것을 지시하는 경우, 제 2 오토 인코더(130)를 이용하여 제 2 주행 제어 데이터를 생성할 수 있다.

도 7은 본 발명의 일 실시예에 따른 주행 제어 데이터 생성 방법의 절차에 대한 예시적인 순서도이다. 도 7의 주행 제어 데이터 생성 방법은 도 2에 도시된 장치(100) 또는 도 3에 도시된 장치(100)에 의해 수행 가능하다. 아울러, 도 7에 도시된 주행 제어 데이터 생성 방법은 예시적인 것에 불과하다.

도 7을 참조하면, 데이터 획득부(110)는 장치(100) 주변의 주행 데이터를 획득할 수 있다(단계 S10).

예를 들어, 데이터 획득부(110)는 카메라 및 라이다 센서 중 적어도 하나를 이용하여 장치(100)와 소정 거리 이내의 장애물에 관한 라이다 데이터 및 영상 데이터 중 적어도 하나를 획득할 수 있다.

이후, 주행 제어 데이터 생성부(140)는 엣지 노드로부터 획득된 엣지 데이터에 기초하여 생성된 제어 신호에 따라, 주행 데이터를 이용하거나 주행 데이터 및 엣지 데이터를 이용하여 주행 제어 데이터를 생성할 수 있다(단계 S20).

이상에서 살펴본 바와 같이, 본 발명의 실시예에 따른 장치에 의하면, 엣지 노드와 장치간의 통신이 원활하지 않거나 제한된 환경에서도 적합한 제어 신호가 생성되어, 생성된 제어 신호에 따라 장치에서 획득한 주행 데이터를 이용하거나, 주행 데이터 및 엣지 노드로부터 획득된 엣지 데이터를 이용하여 주행 제어 데이터를 생성할 수 있다.

본 발명에 첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방법으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

10: 엣지 노드
100: 장치
110: 데이터 획득부
120: 제 1 오토 인코더
130: 제 2 오토 인코더
140: 주행 제어 데이터 생성부

Claims

엣지 노드와 통신하며, 주행 제어 데이터를 생성하는 장치에 있어서,
상기 장치 주변의 주행 데이터를 획득하는 데이터 획득부; 및
상기 엣지 노드로부터 획득된 엣지 데이터에 기초하여 생성된 제어 신호에 따라, 상기 주행 데이터를 이용하거나 상기 주행 데이터 및 상기 엣지 데이터를 이용하여 주행 제어 데이터를 생성하는 주행 제어 데이터 생성부를 포함하는
장치.
제 1 항에 있어서,
상기 제어 신호는 상기 엣지 노드에 의해 생성되는
장치.
제 1 항에 있어서,
상기 주행 데이터를 이용하여 제 1 주행 제어 데이터를 생성하는 제 1 오토 인코더; 및
상기 주행 데이터 및 상기 엣지 데이터를 이용하여 제 2 주행 제어 데이터를 생성하는 제 2 오토 인코더를 더 포함하고,
상기 주행 제어 데이터 생성부는,
상기 제어 신호에 따라, 상기 제 1 오토 인코더 및 상기 제 2 오토 인코더 중에서 어느 하나를 이용하여 상기 주행 제어 데이터를 생성하는
장치.
제 3 항에 있어서,
상기 주행 제어 데이터 생성부는,
상기 제어 신호가 상기 제 1 오토 인코더를 이용하여 상기 주행 제어 데이터를 생성한 것을 지시하는 경우, 상기 제 1 오토 인코더를 이용하여 상기 제 1 주행 제어 데이터를 생성하고,
상기 제어 신호가 상기 제 2 오토 인코더를 이용하여 상기 주행 제어 데이터를 생성한 것을 지시하는 경우, 상기 제 2 오토 인코더를 이용하여 상기 제 2 주행 제어 데이터를 생성하는
장치.
제 3 항에 있어서,
상기 제 1 오토 인코더는,
학습용 주행 데이터와, 상기 학습용 주행 데이터에 대한 레이블 데이터로서, 제 1 정답 주행 제어 데이터를 입력 받으면, 상기 학습용 주행 데이터를 인코딩하여 상기 제 1 정답 주행 제어 데이터를 출력하도록 기 학습되어 있고,
상기 제 2 오토 인코더는,
학습용 엣지 데이터 및 학습용 주행 데이터와, 상기 학습용 엣지 데이터 및 상기 학습용 주행 데이터에 대한 레이블 데이터로서, 제 2 정답 주행 제어 데이터를 입력 받으면, 상기 학습용 엣지 데이터 및 상기 학습용 주행 데이터를 인코딩하여 상기 제 2 정답 주행 제어 데이터를 출력하도록 기 학습되어 있는
장치.
제 3 항에 있어서,
상기 엣지 노드로부터 상기 엣지 데이터를 수신하여 상기 제어 신호를 생성하는 오케스트레이터를 더 포함하는
장치.
제 6 항에 있어서,
상기 오케스트레이터는,
학습용 엣지 데이터를 입력 받으면, 상기 제 1 오토 인코더 및 상기 제 2 오토 인코더 중 어느 하나를 선택하는 학습용 제어신호가 출력되도록 기 학습되고,
상기 학습용 제어신호와 정답 제어신호와의 차이에 대한 손실함수를 이용하여, 상기 학습용 엣지 데이터를 입력 받으면, 상기 학습용 제어신호가 출력되도록 더 학습되는
장치.
제 1 항에 있어서,
상기 데이터 획득부는,
카메라 및 라이다 센서 중 적어도 하나를 이용하여 상기 주행 데이터를 획득하는
장치.
엣지 노드와 통신하며, 주행 제어 데이터를 생성하는 장치에 의해 수행되는 주행 제어 데이터 생성 방법에 있어서,
상기 장치 주변의 주행 데이터를 획득하는 단계와,
상기 엣지 노드로부터 획득된 엣지 데이터에 기초하여 생성된 제어 신호에 따라, 상기 주행 데이터를 이용하거나 상기 주행 데이터 및 상기 엣지 데이터를 이용하여 주행 제어 데이터를 생성하는 단계를 포함하는
주행 제어 데이터 생성 방법.
제 9 항에 있어서,
상기 제어 신호는 상기 엣지 노드에 의해 생성되는
주행 제어 데이터 생성 방법.
제 9 항에 있어서,
상기 주행 제어 데이터를 생성하는 단계는,
상기 제어 신호에 따라, 상기 주행 데이터를 이용하여 제 1 주행 제어 데이터를 생성하는 제 1 오토 인코더 및 상기 주행 데이터 및 상기 엣지 데이터를 이용하여 제 2 주행 제어 데이터를 생성하는 제 2 오토 인코더 중에서 어느 하나를 이용하여 상기 주행 제어 데이터를 생성하는
주행 제어 데이터 생성 방법.
제 11 항에 있어서,
상기 제어 신호가 상기 제 1 오토 인코더를 이용하여 상기 주행 제어 데이터를 생성한 것을 지시하는 경우, 상기 제 1 오토 인코더를 이용하여 상기 제 1 주행 제어 데이터를 생성하고,
상기 제어 신호가 상기 제 2 오토 인코더를 이용하여 상기 주행 제어 데이터를 생성한 것을 지시하는 경우, 상기 제 2 오토 인코더를 이용하여 상기 제 2 주행 제어 데이터를 생성하는
주행 제어 데이터 생성 방법.
제 11 항에 있어서,
상기 제 1 오토 인코더는,
학습용 주행 데이터와, 상기 학습용 주행 데이터에 대한 레이블 데이터로서, 제 1 정답 주행 제어 데이터를 입력 받으면, 상기 학습용 주행 데이터를 인코딩하여 상기 제 1 정답 주행 제어 데이터를 출력하도록 기 학습되어 있고,
상기 제 2 오토 인코더는,
학습용 엣지 데이터 및 학습용 주행 데이터와, 상기 학습용 엣지 데이터 및 상기 학습용 주행 데이터에 대한 레이블 데이터로서, 제 2 정답 주행 제어 데이터를 입력 받으면, 상기 학습용 엣지 데이터 및 상기 학습용 주행 데이터를 인코딩하여 상기 제 2 정답 주행 제어 데이터를 출력하도록 기 학습되어 있는
주행 제어 데이터 생성 방법.
제 11 항에 있어서,
상기 상기 엣지 노드로부터 엣지 데이터를 수신하여 상기 제어 신호를 생성하는 단계를 더 포함하는
주행 제어 데이터 생성 방법.
제 9 항에 있어서,
상기 제어 신호를 생성하는 단계는,
학습용 엣지 데이터를 입력 받으면, 상기 제 1 오토 인코더 및 상기 제 2 오토 인코더 중 어느 하나를 선택하는 학습용 제어신호가 출력되도록 기 학습되고,
상기 학습용 제어신호와 정답 제어신호와의 차이에 대한 손실함수를 이용하여, 상기 학습용 엣지 데이터를 입력 받으면, 상기 학습용 제어신호가 출력되도록 더 학습되는 오케스트레이터를 이용하여 상기 제어 신호를 생성하는
주행 제어 데이터 생성 방법.
제 9 항에 있어서,
상기 주행 데이터를 획득하는 단계는,
카메라 및 라이다 센서 중 적어도 하나를 이용하여 상기 주행 데이터를 획득하는
주행 제어 데이터 생성 방법.
컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
엣지 노드와 통신하며, 주행 제어 데이터를 생성하는 장치 주변의 주행 데이터를 획득하는 단계와,
상기 엣지 노드로부터 획득된 엣지 데이터에 기초하여 생성된 제어 신호에 따라, 상기 주행 데이터를 이용하거나, 상기 주행 데이터 및 상기 엣지 데이터를 이용하여 주행 제어 데이터를 생성하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는
컴퓨터 판독 가능한 기록매체.
컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
엣지 노드와 통신하며, 주행 제어 데이터를 생성하는 장치 주변의 주행 데이터를 획득하는 단계와,
상기 엣지 노드로부터 획득된 엣지 데이터에 기초하여 생성된 제어 신호에 따라, 상기 주행 데이터를 이용하거나, 상기 주행 데이터 및 상기 엣지 데이터를 이용하여 주행 제어 데이터를 생성하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는
컴퓨터 프로그램.