KR102565438B1

KR102565438B1 - 자연어에 기반하는 실내 자율 내비게이팅

Info

Publication number: KR102565438B1
Application number: KR1020210081469A
Authority: KR
Inventors: 진신 자오; 리앙준 장
Original assignee: 바이두 유에스에이 엘엘씨
Priority date: 2020-12-22
Filing date: 2021-06-23
Publication date: 2023-08-08
Also published as: JP2022023794A; KR20210087903A; EP3879371A2; JP7324248B2; EP3879371B1; US20220197288A1; CN114721366A; US11720108B2; EP3879371A3

Abstract

자연어 명령을 따르는 로봇 거동 내비게이팅에 대한 확장가능한 솔루션을 제공한다. 당해 솔루션의 예시는, 사전훈련된 시퀀스 예측 모델을 통해 태스크 환경의 내비게이션 그래프, 자연어 명령 및 로봇의, 내비게이션 그래프에서의 초기 위치를 수신하는 단계 - 내비게이션 그래프는 태스크 환경에서의 위치를 지시하는 노드, 노드의 좌표 및 위치 간의 연결성을 지시하는 엣지를 포함함 - ; 사전훈련된 시퀀스 예측 모델을 통해, 로봇에 의해 수행가능한 일련의 단일 스텝 거동을 차례로 예측하여 로봇을 초기 위치에서 목적지로 내비게이팅하는 단계를 포함한다.

Description

자연어에 기반하는 실내 자율 내비게이팅{NATURAL LANGUAGE BASED INDOOR AUTONOMOUS NAVIGATION}

본 개시는 컴퓨터 기술분야에 관한 것으로, 특히 실내 자율 내비게이팅에 관한 것이고, 더 구체적으로, 태스크 환경에서 로봇을 내비게이팅하는 방법에 관한 것이다.

현재 대부분의 모바일 로봇에 사용되는 자율 내비게이팅 시스템은 스캔을 통해 사전 구축된 태스크 환경의 미세입도 지도에 의존한다. 내비게이팅 중에, 좌표를 수신한 것에 응답하여, 로봇은 탐색 알고리즘을 통해 전역 경로를 탐색한 다음, 국소 관찰값을 기반으로 전역 경로를 최적화하여 최종 계획 경로를 얻는다. 그러나, 새로운 환경에 있을 경우 목적지 좌표를 알 수 없거나 또는 미세 입자 지도가 이용불가능하여 기존 모바일 로봇이 자율 내비게이팅을 바로 수행할 수 없다.

본 개시의 실시방식은 태스크 환경에서 로봇을 내비게이팅하는 방법, 기기, 및 비일시적 매체를 제공한다.

제1 측면으로, 본 개시의 일부 실시방식은 태스크 환경에서 로봇을 내비게이팅하는 방법을 제공한다. 당해 방법은 사전훈련된 시퀀스 예측 모델을 통해 태스크 환경의 내비게이션 그래프, 자연어 명령 및 로봇의, 내비게이션 그래프에서의 초기 위치를 수신하는 단계 - 내비게이션 그래프는 태스크 환경에서의 위치를 지시하는 노드, 노드의 좌표 및 위치 간의 연결성을 지시하는 엣지를 포함함 - ; 사전훈련된 시퀀스 예측 모델을 통해 로봇에 의해 수행가능한 일련의 단일 스텝 거동을 차례로 예측하여 로봇을 초기 위치에서 목적지로 내비게이팅하는 단계를 포함한다.

제2 측면으로, 본 개시의 일부 실시방식은 전자 장치를 제공하는바, 당해 전자 장치는 적어도 하나의 프로세서 및 메모리를 포함하고, 당해 메모리에는 실행가능한 명령이 저장되어 있고, 당해 명령은 적어도 하나의 프로세서가 제1 측면의 실시방식 중의 어느 하나에 따른 태스크 환경에서 로봇을 내비게이팅하는 방법을 수행하도록 한다.

제3 측면으로, 본 개시의 일부 실시방식은 컴퓨터 프로그램을 저장하고 있는 비일시적 컴퓨터 판독가능 저장매체를 제공하는바, 상기 컴퓨터 프로그램은 프로세서에 의해 실행되어 제1 측면의 실시방식 중의 어느 하나에 따른 태스크 환경에서 로봇을 내비게이팅하는 방법을 수행한다.

제4 측면으로, 본 개시의 일부 실시방식은 매체에 저장된 컴퓨터 프로그램을 제공하는바, 상술한 프로그램이 프로세서에 의해 실행되는 경우, 제1 측면의 실시방식 중의 어느 하나에 따른 태스크 환경에서 로봇을 내비게이팅하는 방법이 구현된다.

아래 첨부도면을 참조하여 비한정적인 실시방식에 대한 상세 서술을 읽어본다면, 본 개시의 다른 특징, 목적 및 이점은 더욱 분명해질 것이다.
도1은 본 개시의 실시방식에 따른 태스크 환경에서 로봇을 내비게이팅하는 방법의 흐름도이고;
도2a는 실시방식에 따른 예시적인 태스크 환경의 개략도이고;
도2b는 도2a에 도시한 태스크 환경의 예시적인 내비게이션 그래프의 개략도이고;
도3은 본 개시의 실시방식에 따른 일련의 단일 스텝 거동을 예측하는 방법의 개략도이고;
도4는 3 스텝 액션 전파의 개략도이고;
도5는 본 개시의 실시방식에 따른 내비게이션 에이전트(Navigation Agent)의 개략도이고;
도6은 본 개시의 실시방식에 따른 일련의 단일 스텝 거동을 예측하는 기기의 개략적인 구조도이고;
도7은 본 개시의 실시방식에 따른 전자 장치의 블록도이다.

아래, 첨부도면을 참조하여 본 개시의 실시방식에 대해 상세히 서술하고자 한다. 여기서 서술하는 구체적인 실시방식은 단지 관련된 개시 내용을 해석하기 위한 것일 뿐, 본 개시 내용을 한정하고자 하는 것이 아님을 이해하여야 한다 . 또한, 서술의 편의를 위해, 첨부도면은 관련 개시에 연관되는 부품만을 도시하였음을 유의하여야 한다.

본 개시의 일부 실시방식과 본 개시 주의 일부 특징들은 상충되지 않은 한 상호 결합될 수 있음을 유의하여야 한다. 아래, 첨부도면을 참조하고 실시방식을 결부하여 본 개시의 특징을 상세히 서술하고자 한다.

도1은 본 개시의 실시방식에 따른 태스크 환경에서 로봇을 내비게이팅하는 방법의 흐름도이다. 본 개시의 실시방식에서 개시한 방법은 태스크 환경에서 로봇을 내비게이팅하는 기기에 의해 실행될 수 있고, 당해 기기는 소프트웨어 및/또는 하드웨어로 구현할 수 있으며, 연산 성능을 가지는 임의 전자 장치(예컨대, 서버 또는 단말)에 집적될 수 있다.

도1에 도시한 바와 같이, 본 개시의 실시방식에서 개시한 태스크 환경에서 로봇을 내비게이팅하는 방법은 단계(S101) 및 단계(S102)를 포함할 수 있다. 단계(S101)에서, 사전훈련된 시퀀스 예측 모델을 통해 태스크 환경의 내비게이션 그래프, 자연어 명령 및 로봇의, 내비게이션 그래프에서의 초기 위치를 수신하고; 단계(S102)에서, 사전훈련된 시퀀스 예측 모델을 통해 로봇에 의해 수행가능한 일련의 단일 스텝 거동을 차례로 예측하여 로봇을 초기 위치에서 목적지로 내비게이팅한다. 아래, 이러한 두 단계를 참조하여 상세히 서술하고자 한다.

단계(S101)에서,

로봇은 환경에 배치되어 전체 환경에서 내비게이팅되어야 한다. 로봇이 내비게이팅되어야 하는 환경은 태스크 환경으로 지칭된다. 태스크 환경은 GPS위치결정이 불가능한 환경, 실내 공간 등일 수 있다. 예시적인 태스크 환경은 도2a에 도시한다.

로봇이 복도를 따라 주행할 시, 로봇은 정확한 시맨틱 의미를 가지는 공간을 따라 이동 중이라는 것만 알면 되며, 당해 공간은 어떠한 기하학적 사양(예컨대 경로 너비 및 곡률)을 필요로 하지 않는다. 따라서, 로봇의, 전체 태스크 환경에서의 내비게이팅은 태스크 환경을 토폴로지 그래프(topological map)로 표시하는 것을 통해 구현할 수 있다. 토폴로지 그래프에서의 노드는 시맨틱 의미를 가지는 위치(예컨대 방 및 복도)를 지칭할 수 있고 엣지는 연결성을 나타낼 수 있다. 토폴로지 그래프는 전체 태스크 환경에서 로봇을 내비게이팅하는 내비게이션 그래프로 사용될 수 있다. 도2a의 태스크 환경에 대응되는 예시적인 내비게이션 그래프는 도2b에 도시한다.

일부 실시방식에서, 무방향 엣지와 함께 노드 좌표를 사용하여 내비게이션 그래프를 인코딩한다. 무방향(undirected) 엣지는 내비게이션 그래프에서 비방향성(non-directional) 또는 양방향성(bi-directional) 엣지로 도시될 수 있다. 예시로, 도2b에서는 무방향 엣지를 양방향성 엣지로 도시한다.

내비게이션 그래프에서 진실한 기하학적 정보를 제시함으로써 실제의 온라인의 내비게이팅 진행상황에 기반하여 환경 지식을 적응적으로 해석할 수 있도록 한다. 특정 내비게이팅 진행상황에서 불필요한 정보를 필터링해버림으로써 더 콤팩트(compact)하고 더 유방향(directed)적인 라우팅 표현(routing representations)을 생성할 수 있다.

예시적인 시나리오에서, 도2a에 도시한 바와 같이, 로봇이 사무실-3에 있고 사무실-0에로 내비게이팅되어야 하는 경우, 자연어의 다양한 명령 시퀀스를 사용하여 예상경로(expected route)를 따라 사무실-0으로 이동하도록 로봇한테 지시할 수 있다. 예시로, 도2a에 예상경로를 도시한다. 다양한 명령 시퀀스는 "방을 탈출(exit)한 후 좌회전한다. 앞으로 이동하고, 다시 좌회전하여 복도를 따라 주행한다. 끝에서 좌회전하여 좌측의 두 번째 방으로 진입한다"이거나 또는 "방을 탈출한다. 좌회전하여 복도의 끝까지 간다. 좌회전하여 끝까지 앞으로 주행한다. 좌회전한다. 앞으로 이동하여 좌측의 두 번째 방에 도착한다"를 포함할 수 있다. 비록 동일한 내비게이팅 시멘틱(즉, "탈출", "좌회전", "이동", "좌회전" 등)을 포함하나, 이 2개 명령 시퀀스는 노선에 대한 서로 다른 분할(different segmentation of the route ) 및 중요 거동의 배열(ordering of critical behaviors)에 의존한다. 사무실-3에서 사무실-0으로 로봇을 내비게이팅하는 예상경로도 도2b에 도시한다. 도2b에 도시한 노드 시퀀스4-3-5-... 는 도2a에 도시한 예상경로에 등가된다.

일부 실시방식에서, 노드, 노드의 좌표 및 노드 간의 엣지를 포함하는 내비게이션 그래프, 자연어 명령 및 로봇의 초기 위치 또는 초기 노드를 사전훈련된 시퀀스 예측 모델에 입력함으로써 시퀀스 예측 모델이 이에 기반하여 일련의 단일 스텝 거동을 생성하도록 하는바, 로봇은 일련의 단일 스텝 거동을 수행하여 로봇을 초기 위치(예를 들어 사무실-3)에서 목적지(예를 들어 사무실-0)로 내비게이팅할 수 있다.

단계(S102)에서,

시퀀스 예측 모델은, 주석이 달린(annotated) 샘플 내비게이션 그래프 및 대응되는 자연어 샘플 명령을 이용하여 사전훈련된 신경망 모델일 수 있다.

일부 실시방식에서, 시퀀스 예측 모델은 로봇에 의해 수행가능한 일련의 단일 스텝 거동을 차례로 예측한다.

도3은 본 개시의 실시방식에 따른 일련의 단일 스텝 거동을 예측하는 방법의 개략도를 도시한다. 도3에 도시한 바와 같이, 일련의 단일 스텝 거동을 예측하는 방법은 하기 (1) 무방향 엣지(E), 노드(n) 및 노드 좌표(X)를 가지는 내비게이션 그래프(G); (2) 자연 내비게이팅 명령(I); 및 (3) 초기 위치S∈N과 같이 3개 입력을 사용한다. 시퀀스 예측 모델은, 실행되는 경우에 로봇이 명령(I)에 서술된 바와 같이 상기 s에서 목표상태g에로 내비게이팅되로록 하는 거동 시퀀스 u_0:T-1: =(u₀, ..., u_T-1)를 생성할 수 있다.

모델의 훈련기간에, 훈련샘플 이 주어지는바, 그 목표는

하기 식을 풀어서, 새로운 내비게이팅 질의(new navigation queries)를 감안한 명령이 반영되는 거동 시퀀스를 추론하는 것이다.

(1)

목표가 하이레벨 거동 계획이므로, 명령에 의해 서술되는 목표 상태는 단지 목표 위치만을 지정하며 원하는 주행방향을 지정하지 않는다. 따라서, 내비게이팅 능력이 상실되지 않으면서, 본 개시의 실시방식은 간결한 거동 집합 B:={b_e(즉, "탈출"), b_r(즉, "우회전과 이동"), b_l(즉, "좌회전과 이동") 및 b_f(즉, "앞으로 이동")}을 유지한다. 제안된 솔루션은 각각의 서로 다른 상황("T자형 교차로에서 직행" 및 "복도를 따라 직행")에서 동일한 이동에 대해 별도의 동작을 할당하는 것과는 다르다. 당해 콤팩트한 거동 집합은, 특정 환경 대신에 이동 내비게이팅에 명령을 매칭시키는 데 학습이 집중되도록 돕는바, 범용성을 효과적으로 향상시킨다.

주어진 액션 시퀀스가 u_0:T-1 :=(u₀, ..., u_T-1)인 경우, 로봇은 시간t에 액션u_t을 취하고 노드(n_t)에서 노드(n_t+1)에로 변위한다. 예상하는 전체 내비게이팅은 n₀=s에서 시작하여 목표상태 n_T=g에서 종료된다. 일부 실시방식에서, 로봇이 시종일관 이동 방향으로 주행한다는 가정 하에, 이동 전후의 로봇의 주행방향을 비교함으로써, 각 액션u_t을 u_t=b∈B로 분류할 수 있다. 가령 시간t에서, 로봇이 노드(n_t)에 위치한다면, 주행방향ø_t=x(n_t)-x(n_t-1) 및 ø_t+1=x(n_t+1)-x(n_t)의 외적을 계산함으로써, 액션(u_t)을 하기와 같이 분류할 수 있다.

(2)

여기서, n_t+1는 시종일관 n_t-1과 다른 수 있다. 특히, t=0인 경우, 로봇이 방(Room) 노드s에 있고 하나의 유효 거동 "탈출(exit)"만 가진다고 가정하면, 이에 따라, n_t에서n_t+1까지의 유효 천이는 튜플 <n_t, u_t, n_t+1>로 표시할 수 있는바, 여기서 u_t는 상기 등식(2)에 따라 추론된 것이다. 또한, 특수 거동b_s(즉, "정지")을 인코딩할 수 있는 바, 이는 로봇에 의해 임의 시간t≥T에 수행되어 내비게이팅의 종료를 지시할 수 있다.

도3에서 제안한 시퀀스 예측 모델은 하기 두 부분: 게이트 순환 유닛(GRU) 셀 - 은닉 상태(h_t)의 형식으로 내비게이팅 진행상황을 추적함 - ; 및 내비게이션 에이전트 - 다음 액션(u_t)을 선택함 - 로 구성된다. 각 단계에서, GRU셀은 이전 액션u_t-1을 입력으로 하여 은닉 상태(h_t)를 업데이트한다. 내비게이션 에이전트는 내비게이팅 진행상황(h_t), 내비게이션 그래프(G) 및 명령(I)를 결합하여 다음 액션(u_t)을 선택한다. 그 다음, 로봇은 u_t 및 그래프(G)에 의해 정의되는 천이모델에 따라 n_t에서 n_t+1로 이동한다. 내비게이션 에이전트에 의해 액션(b_s)(즉, "정지") - 목표에 도달됨을 지시함 - 이 선택될 때까지 이와 같은 과정을 반복한다. 다시말해, 제안한 모델에 의해 일련의 단일 스텝 액션 예측 문제가 해결된다(각 단일 스텝 액션 예측 문제는 그 이전 단계의 솔루션에 따라 결정됨).

일부 실시방식에서, 예측기간의 각 단일 스텝에 대하여, 내비게이션 그래프가 단일 스텝에 대응되는 현재 예측과정에 적응하도록 함으로써 적응성 콘텍스트(adaptive context)를 생성하고, 적어도 발생된 적응성 콘텍스트 및 자연어 명령에 기반하여 현재 단일 스텝을 위한 단일 스텝 거동을 예측한다. 내비게이션 그래프를 현재 단일 스텝에 대응되는 실제 예측과정에 적응시킴으로써 내비게이팅 명령을 따를 시 하기와 같은 관찰을 따른다. 인간은 통상적으로 국소적인 시야(local horizon)로 관련 정보를 탐색하는 것이지, 전체 지도에 대하여 지속적이게 일관적인 어텐션을 주는 것이 아니다. 내비게이션 그래프를 현재 단일 스텝에 대응되는 실제 예측과정에 적응시키고 적응된 콘텍스트에 기반하여 현재 단일 스텝을 위한 단일 스텝 거동을 예측하는바, 명령 시맨틱과 내비게이팅 계획 사이의 유연한 상관관계(flexible correspondence)에 대한 챌린지를 신규 대형 지도에 대한 한정적인 확장성(limited scalability)을 이용하여 해결하였다.

일부 실시방식에서, 지식베이스 적응(knowledge base adaptation)은 이른바 d-스텝 액션 전파(d-step action propagation)에 의해 구현된다. 지식베이스 적응에 있어서 다른 방법을 적용할 수도 있다.

예시로, 도4는 적응성 콘텍스트( _t)를 생성하는 3-스텝 액션 전파를 도시한다. _t는 온전한 내비게이션 그래프(G)의 부분집합이고, 이는 단지 실제 내비게이팅 진행상황n_0:t에 의해 결정되는, 유계(有界)의 전방 주시 시야(bounded look-ahead horizon) 중의 유효 내비게이팅 이동 만을 포함한다.

그래프(G)의 연결성(connectivity) 정보G: =<E, N, X>는 한 세트의 튜플{<n, b, n'>_i}로 작성될 수 있는바, 각각은 유형b의 유효 내비게이팅 거동이 노드(n)에서 노드(n’)에로 이동하는 것을 나타낸다. 상술한 바와 같이, 유방향 엣지<n, n'>를 위한 유효 거동 유형b는n에 도달하기 전의 로봇의 가능한 이전 위치(n_prev)이다. 따라서, 천이<n, b, n'>는 대안적으로 "이전-현재-다음"의 포맷 <n_prev, n, n'>로 작성될 수 있는바, 이로써 상술한 등식(2)에 따라 b를 추론할 수 있다. 지식베이스G를 적응시키고자, 다음 d개 단계 중에서 취할 수 있는 유효 액션을 탐색한다. 다시말해, 즉각 이력(immediate history)<n_t-1, n_t>으로부터 지속되는 로봇 이동을 시뮬레이트하고 모든 유효한 노드 천이 및 그 거동 유형을 기록한다. 아래, 이러한 과정을 d-스텝 액션 전파로 지칭한다. 이러한 과정은 다음과 같이 구현된다. <nt-1, nt>을 초기 요소로 적용하고, G중의 유방향 엣지에 대해 유계(有界)의 너비 우선 탐색(Breadth-first search)을 수행한다. 큐에서 유방향 엣지<nprev, n>가 팝(pop)될 때마다, nprev이 아닌, n의 모든 이웃n'을 수집한다. 각 n'에 대하여, <n, n'>을 큐에 추가하고 튜플<nprev, n, n'>를 구성한다. 다음, 당해 튜플을 그래프 포맷<n, b, n'>으로 변환하는바, 여기서, 거동 유형b는 상술한 등식(2)에 따라 좌표x(nprev), x(n) 및 x(n')로부터 추론된다. n'과 현재 노드nt사이의 거리가 d이내인 모든 유효 천이를 수집한다. 이는 시간 스텝t에서 적응성 콘텍스트(t)를 발생한다. d-스텝 액션 전파 알고리즘에 대한 요약은 알고리즘1을 참조할 수 있다.

도5는 본 개시의 실시방식에 따른 내비게이션 에이전트의 개략도이다. 내비게이션 에이전트의 구축은 주로 다음을 포함한다.

콘텍스트 및 명령의 임베딩(Context and Instruction Embedding): 내비게이팅 콘텍스트 _t(또는 정적 콘텍스트 중의G) 및 명령(I)를 인코딩한다. _t에서의 천이 튜플<n, b, n'> 중의 각각은 전부 길이가 2|N|+|B|인 벡터로 인코딩되고 여기서 |N| 및 |B|는 각각 그래프(G) 중의 노드 수량 및 유효 거동 수량을 지칭한다. 콘텍스트( _t)는 최종적으로 사이즈가 인 행렬에 인코딩되고, 여기서 L_t는 _t에 포함되는 천이 수량을 나타낸다. 명령(I)은 BERT 사전훈련 모델로부터의 토큰 임베딩을 통해 사이즈가 인 행렬로 인코딩되고, 여기서 M는 명령 중의 최대 토큰 수를 나타낸다.

특징추출(Feature Extraction): 특징추출은 콘텍스트 및 명령 임베딩에 대하여 수행된다. 일부 실시방식에서, 멀티층 양방향 게이트 순환 유닛(GRU)을 사용하여 사이즈가 인 콘텍스트 특징()을 생성하고, 여기서 H는 GRU의 은닉 사이즈를 나타낸다. 일부 실시방식에서, 동일한 GRU는 사이즈가 인 명령 특징()을 생성하는 데 사용된다.

콘텍스트-명령 어텐션(Context-Instruction Attention): 현재, 어텐션 메커니즘에 의해 내비게이팅 콘텍스트와 명령 간의 상관관계를 찾는다. 일부 실시방식에서, 단지 콘텍스트 특징이 명령 특징에 관련되는 일방향 어텐션을 사용한다. 적응성 콘텍스트가 설정된 상황에서, 어텐션 메커니즘은 지도에서 노선을 탐색하는 방식뿐만아니라, 다음 이동을 결정할 시 사람들은 주요한 어텐션을 근처 환경에 둔다는 사실과도 유사하다는 점을 유의하여야 한다. 명령이 전체적인 랜드마크가 아닌 국소 환경에 기반하는 것인 경우에는 특히 그러하다.

각 행()의 에 대하여, 에 대한 어텐션 분포(w_ti)를 계산한다.

(3)

여기서 는 훈련가능한 파라미터를 나타낸다. 다음, 하기 등식으로 각 천이 특징()의 어텐션 벡터()를 계산한다.

(4)

모든 을 취합(aggregate)하여 사이즈가 인 어텐션 행렬()을 획득한다.

진행상황-지각 콘텍스트(Progress-Aware Context): 여기서는 내비게이팅 콘텍스트(), 명령 어텐션 특징(instruction-attended features)(), 및 시간t에서 GRU셀로부터 획득된 현재 은닉 상태(h_t)를 결합한다.

우선, 와 를 결합하여 블렌드된(blended) 콘텍스트와 명령 특징을 계산한다.

(5)

여기서 는 특징의 차원수를 H로 낮추는 훈련가능한 파라미터를 가리킨다. 다음, 현재 내비게이팅 진행상황에 관련되는 콘텍스트 특징을 캡처하고자 은닉 상태(h_t)를 에 어텐드(attend)한다. 어텐션 가중(α_t)은 다음과 같이 계산한다.

(6)

(7)

여기서, W₁, W₂∈, v∈는 훈련가능 파라미터이다. 다음, 진행상황-지각 콘텍스트를 에 따라 계산한다.

거동 예측(Behavior Prediction): 최종적으로, 진행상황-지각 콘텍스트S_t와 은닉 상태h를 결합하여 시간t에서의 방침(Policy)을 생성한다. S_t와 h_t를 캐스케이드하고 완전연결층에 투입하여 오리지널 액션 확률 특징()을 계산한다:

(8)

여기서 는 훈련가능한 파라미터를 나타낸다. 결과는 각각의 내비게이팅 거동에 대한 선호 벡터 및 태스크 종료를 지시하는 특정 정지 액션(b_s)이다.

액션(u_t)을 생성하고자, 마스킹된 softmax함수를 적용한다:

(9)

일부 실시방식에서, 마스크 함수에 대한 입력은 전체 내비게이션 그래프(G) 및 현재 스텝t까지의 내비게이팅 궤적(n_0:t)을 포함한다. 당해 함수는 사이즈가 와 같은 영벡터(zeros-vector)를 생성하고, 여기서 무효 거동은 에 의해 교체된다. 어느 한 거동(b)이 유효한지 여부를 결정하고자, 하기 조건을 충족시키는 n_t의 이웃 노드(n’)가 존재하는지 여부를 확인한다.

(10)

일부 실시방식에서, n_t=n_t-1(또는 u_t-=b_s)인 경우, 내비게이팅이 이미 종료되었으므로 시간t에서 정지 액션을 강제 집행한다. 각 단계t에서의 유효 액션 공간은 위치(n_t)에 의해 결정될 뿐만 아니라 과거 위치(n_t-1)에 의해서도 결정된다는 점에 유의하여야 한다. 이러한 설정은 거동 시맨틱을 위치에 바인딩시키는 요건을 해소하는바, 콤팩트한 지식 표현 및 거동 시맨틱에 대한 유연한 추론을 가능케 한다.

나아가 도6을 참조하면, 일련의 단일 스텝 거동을 예측하는 방법의 구현방식으로, 본 개시의 실시방식은 일련의 단일 스텝 거동을 예측하는 기기를 제공하는바, 당해 기기의 실시방식은 상술한 방법의 다양한 실시방식에 대응되며, 당해 기기는 다양한 전자 장치에 구체적으로 적용될 수 있다.

도6에 도시한 바와 같이, 본 실시방식의 일련의 단일 스텝 거동을 예측하는 기기(600)는 수신 유닛(601)과 예측 유닛(602)을 포함한다. 수신 유닛(601)은 태스크 환경의 내비게이션 그래프, 로봇의 자연어 명령 및 내비게이션 그래프에서의 초기 위치를 수신하고, 여기서, 내비게이션 그래프는 태스크 환경에서의 위치를 지시하는 노드, 노드의 좌표 및 위치 간의 연결성을 지시하는 엣지를 포함한다. 예측 유닛(602)은 로봇에 의해 수행가능한 일련의 단일 스텝 거동을 차례로 예측하여 로봇을 초기 위치에서 목적지로 내비게이팅한다.

일부 실시방식에서, 예측 유닛은 적응성 콘텍스트 생성 서브유닛과 예측 서브유닛을 더 포함한다. 적응성 콘텍스트 생성 서브유닛은 예측기간의 각 단일 스텝에 대하여, 내비게이션 그래프가 단일 스텝에 대응되는 현재 예측과정에 적응하도록 함으로써 적응성 콘텍스트를 생성한다. 예측 서브유닛은 적어도 생성된 적응성 콘텍스트와 자연어 명령에 기반하여 단일 스텝을 위한 단일 스텝 거동을 예측한다.

일부 실시방식에서, 적응성 콘텍스트 생성 서브유닛은 또한, 내비게이션 그래프에서 단일 스텝에 대응되는 현재 노드와 현재 노드의 이전 노드 외의 이웃 노드 간의 유효 노드 천이를 탐색하고; 현재 노드의 좌표, 현재 노드의 이전 노드의 좌표 및 현재 노드의 이전 노드 외의 이웃 노드의 좌표에 기반하여 유효 노드 천이의 거동을 예측하고; 이웃 노드를 새로운 현재 노드로 하고, 새로운 현재 노드인 노드와 현재 단일 스텝의 현재 노드 간의 거리가 사전설정값 내에 있을 때까지, 탐색 및 예측을 반복하고; 및 탐색된 유효 노드 천이 및 그 예측 거동을 전부 그래픽 포맷으로 변환시켜 각 단일 스텝을 위한 적응성 콘텍스트를 생성한다.

일부 실시방식에서, 유효 노드 천이의 거동은 탈출, 우회전과 이동, 좌회전과 이동 및 앞으로 이동으로 구성되는 거동 집합으로부터 예측한다.

일부 실시방식에서, 적응성 콘텍스트 생성 서브유닛은 또한, 현재 노드의 좌표에서 이전 노드의 좌표를 빼어, 로봇의, 현재 노드에서의 주행방향을 결정하고; 이웃 노드의 좌표에서 현재 노드의 좌표를 빼어 로봇의, 이웃 노드에서의 주행방향을 결정하고; 로봇의, 현재 노드에서의 주행방향과 로봇의, 이웃 노드에서의 주행방향의 외적을 계산하고; 계산된 외적에 기반하여 유효 노드 천이의 단일 스텝 거동을 예측한다.

일부 실시방식에서, 예측 서브유닛은 또한, 생성된 적응성 콘텍스트, 자연어 명령 및 게이트 순환 유닛(GRU)에 의해 업데이트된 현재 은닉 상태에 기반하여, 단일 스텝을 위한 단일 스텝 거동을 예측하는바, 여기서, GRU는 이전 단일 스텝의 이전 단일 스텝 거동을 입력으로 사용하여 업데이트를 수행하여 현재 은닉 상태를 획득한다.

일부 실시방식에서, 일련의 단일 스텝 거동을 예측하는 기기는, 내비게이션 그래프 구축 유닛을 더 포함하는바, 당해 내비게이션 그래프 구축 유닛은 태스크 환경의 토폴로지 그래프를 구축하고, 여기서, 태스크 환경에서의 위치는 토폴로지 그래프의 노드이고, 위치 간의 연결성은 토폴로지 그래프의 엣지임 - ; 구축된 토폴로지 그래프를 태스크 환경의 내비게이션 그래프로 결정한다.

기기(600)는 전술한 방법 실시방식 중의 단계에 대응된다. 따라서, 상술한 일련의 단일 스텝 거동을 예측하는 방법에서 구현가능한 조작, 특징 및 기술 효과는 기기(600) 및 그에 포함되는 유닛에도 적용될 수 있는바, 상세한 설명은 생략하기로 한다.

본 개시의 실시방식에 따르면, 전자 장치 및 판독가능 저장매체를 제공한다.

도7에 도시한 바로는, 본 개시의 실시방식에 따른 일련의 단일 스텝 거동을 예측하는 방법을 구현하는 전자 장치의 블록도이다. 전자 장치는 다양한 형식의 디지털 컴퓨터, 예컨대 휴대용 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인용 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 다른 적합한 컴퓨터를 가리킨다. 전자 장치는 다양한 형식의 이동 기기, 예컨대 개인용 디지털 프로세서, 셀룰러 폰, 스마트폰, 웨어러블 장치 및 다른 유사한 컴퓨팅 기기를 가리킬 수 있다. 본 명세서에서 제시하는 부품, 이들의 연결과 관계 및 이들의 기능은 단지 예시일 뿐, 본 명세서에서 서술한 및/또는 요구하는 본 개시의 실시방식을 한정하고자 하는 하는 것이 아니다.

도7에 도시한 바와 같이, 전자 장치는, 하나 또는 복수의 프로세서701, 메모리702 및 각 부품을 연결하는 인터페이스를 포함하는바, 고속 인터페이스와 저속 인터페이스가 포함된다. 각 부품은 부동한 버스를 이용하여 서로 연결되고 공용 메인기판에 장착되거나 또는 필요에 따라 기타의 방식으로 장착될 수 있다. 프로세서는 전자 장치 내에서 실행되는 명령을 처리할 수 있는바, 메모리 내에 또는 메모리 위에 저장되어 외부 입력/출력 장치(예를 들어 인터페이스에 커플링되는 표시 장치)에 그래픽 유저 인터페이스(Graphical User Interface, GUI)의 그래픽 정보를 표시하는 명령이 포함된다. 다른 실시 방식에서, 필요하다면 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 장치를 연결할 수 있는바, 이러한 장치는 일부 필요한 동작을 제공한다 - 예를 들어 서버 어레이, 한 그룹의 블레이드 서버 또는 멀티프로세서 시스템으로서 - . 도7은 하나의 프로세서(701)를 사용하는 경우를 예시한다.

메모리(702)는 본 개시의 실시방식에 의해 제공되는 비일시적 컴퓨터 판독 가능 저장 매체이다. 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있는바, 이는 상기 적어도 하나의 프로세서에 의해 본 개시의 실시방식에 의해 제공되는 명령을 사전 인출하는 방법이 실행되도록 한다. 본 개시의 실시방식의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하고, 당해 컴퓨터 명령은 컴퓨터에 의해 본 개시의 실시방식에 의해 제공되는 명령을 사전 인출하는 방법이 실행되도록 한다.

메모리(702)가 바로 본 출원의 실시예에 의해 제공되는 비일시적 컴퓨터 판독 가능 저장 매체이다. 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있는바, 이는 상기 적어도 하나의 프로세서에 의해 본 출원의 실시예에 의해 제공되는 명령을 사전 인출하는 방법이 실행되도록 한다. 본 출원의 실시예의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하고, 당해 컴퓨터 명령은 컴퓨터에 의해 본 출원의 실시예에 의해 제공되는 명령을 사전 인출하는 방법이 실행되도록 한다.

메모리(702)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예를 들면 본 출원의 실시예의 명령을 사전 인출하는 방법에 대응되는 프로그램 명령/모듈을 저장할 수 있는바, 예를 들면 도6에 도시한 수신 유닛(601)과 예측 유닛(602)이 있다. 프로세서(701)는 메모리(702)에 저장되는 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 서버의 다양한 기능 응용 및 데이터 처리를 실행하는바, 즉 상술한 방법 실시예의 명령을 사전 인출하는 방법을 구현한다.

메모리(702)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있는바, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 있어서 필요한 응용 프로그램을 저장할 수 있고, 데이터 저장 영역은 명령을 사전 인출하는 방법에 따른 전자 기기의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 이 외에도 메모리(702)는 고속 랜덤 액세스 메모리를 포함할 수도 있고, 비일시적 메모리, 예를 들어 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 장치 또는 다른 비일시적 고체 상태 저장 장치를 더 포함할 수도 있다. 일부 실시예에서, 메모리(702)는 선택적으로 프로세서(701) 대비 원격 설치되는 메모리를 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 본 실시예의 명령을 사전 인출하는 방법을 구현하는 전자 기기에 연결될 수 있다. 상술한 네트워크의 실시예는 인터넷, 기업 내부 네트워크, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.

본 실시예의 명령을 사전 인출하는 방법을 구현하는 전자 기기는 입력 장치(703)와 출력 장치(704)를 더 포함할 수 있다. 프로세서(701), 메모리(702), 입력 장치(703) 및 출력 장치(704)는 버스 또는 다른 방식으로 연결될 수 있는바, 도6에서는 버스에 의한 연결을 예시한다.

입력 장치(703)는 입력되는 숫자 또는 캐릭터 정보를 수신하고, 본 실시예의 명령을 사전 인출하는 방법을 구현하는 전자 기기의 사용자 설정 및 기능 제어(Function Control)에 관련되는 키 신호 입력을 발생시킬 수 있는바, 예를 들면 터치 스크린, 숫자 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조종 스틱 등 입력 장치가 있다. 출력 장치(704)는 디스플레이 기기, 보조 조명장치, 예를 들어 발광 다이오드(Light Emitting Diode, LED; 및 촉각 피드백 장치, 예를 들어 진동 모터; 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이(Liquid Crystal Display, LCD), LED 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나, 이에 한정되지 않는다. 일부 실시 방식에서 디스플레이 기기는 터치 스크린일 수 있다.

여기서 설명하는 시스템과 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 집적회로(Application Specific Integrated Circuit, ASIC), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시 방식은 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행되거나 및/또는 해석될 수 있고, 당해 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신하고, 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치로 전송할 수 있다.

이러한 컴퓨팅 프로그램 - 프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함 - 은 프로그램 가능 프로세서의 기계 명령을 포함하며, 고급 절차 및/또는 객체지향 프로그래밍 언어, 및/또는 어셈블리어/기계어를 이용하여, 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용한 바와 같이, 용어 '기계 판독 가능 매체'와 '컴퓨터 판독 가능 매체'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치 - 예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(Programmable Logic Device, PLD) - 를 가리키는바, 이는 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 '기계 판독 가능 신호'는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 가리킨다.

사용자와의 인터랙션을 제공하기 위해, 여기서 설명하는 시스템과 기술을 컴퓨터에서 실시할 수 있는바, 당해 컴퓨터는 사용자한테 정보를 표시하기 위한 표시 장치, 예를 들어, 음극선관(Cathode Ray Tube, CRT) 또는 LCD 모니터; 및 키보드와 포인팅 장치, 예를 들어, 마우스 또는 트랙볼;을 포함하고, 사용자는 당해 키보드와 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 종류의 장치도 사용자와의 인터랙션을 제공하는 데 사용될 수 있는바, 예를 들어, 사용자한테 제공되는 피드백은 임의 형식의 감각 피드백 - 예를 들어 시각 피드백, 청각 피드백 또는 촉각 피드백 - 일 수 있고, 임의 형식 - 소리 입력, 음성 입력 또는 촉각 입력을 포함함 - 으로 사용자로부터의 입력이 수신될 수 있다.

여기서 설명하는 시스템과 기술을 백그라운드 부품을 포함하는 컴퓨팅 시스템 - 예를 들면 데이터 서버로서 - , 미들웨어를 포함하는 컴퓨팅 시스템 - 예를 들면 애플리케이션 서버 - , 프런트 엔드 부품을 포함하는 컴퓨팅 시스템 - 예를 들면 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터일 수 있는바, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통하여, 여기서 설명하는 시스템 및 기술의 실시 방식과 인터랙션할 수 있음 - 또는 이러한 백그라운드 부품, 미들웨어 또는 프런트 엔드 부품의 임의 조합을 포함하는 컴퓨팅 시스템에서 구현할 수 있다. 임의 형식 또는 매체의 디지털 데이터 통신 - 예를 들면 통신 네트워크 - 으로 시스템의 부품을 서로 연결시킬 수 있다. 통신 네트워크의 예시는 근거리 통신망(Local Area Network, LAN), 광대역 통신망(Wide Area Network, WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로는 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 인터랙션한다. 상응한 컴퓨터에서 실행되고 서로 클라이언트 - 서버 관계를 이루는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계가 발생된다.

상술한 서술은 본 개시에 대한 바람직한 실시방식 및 본 명세서에서 사용하는 기술 원리에 대한 해석을 제공할 뿐이다. . 당업자라면, 본 개시의 발명 범위가 상술한 기술 특징의 특정 조합으로 구성되는 기술 방안에만 한정되지 않음을 이해하여야 한다. 본 개시의 컨셈을 이탈하지 않느면서, 본 출원의 범위는 또한 상술한 기술 특징 또는 그 균등 특징의 임의 조합으로 구성되는 다른 방안도 포함하는바, 예를 들면, 상술한 특징을 본 개시의 실시방식에 의해 개시된 유사 기능을 가지는 기술 특징으로 치환하여 구성되는 기술 방안이 있으나, 이에 한정되지 않는다.

Claims

태스크 환경에서 로봇을 내비게이팅하는 방법으로서,
사전훈련된 시퀀스 예측 모델을 통해 상기 태스크 환경의 내비게이션 그래프, 자연어 명령 및 상기 로봇의, 상기 내비게이션 그래프에서의 초기 위치를 수신하는 단계 - 상기 내비게이션 그래프는 상기 태스크 환경에서의 위치를 지시하는 노드, 상기 노드의 좌표 및 상기 위치 간의 연결성을 지시하는 엣지를 포함함 - ; 및
상기 사전훈련된 시퀀스 예측 모델을 통해 상기 로봇에 의해 수행가능한 일련의 단일 스텝 거동을 차례로 예측하여 상기 로봇을 상기 초기 위치에서 목적지로 내비게이팅하는 단계를 포함하고,
상기 차례로 예측하는 단계는
예측기간의 각 단일 스텝에 대하여,
상기 내비게이션 그래프가 상기 단일 스텝에 대응되는 현재 예측과정에 적응하도록 함으로써 적응성 콘텍스트를 생성하는 단계; 및
적어도 생성된 적응성 콘텍스트와 상기 자연어 명령에 기반하여 상기 단일 스텝을 위한 단일 스텝 거동을 예측하는 단계를 포함하고,
상기 예측기간의 각 단일 스텝에 대하여, 상기 적응성 콘텍스트를 생성하는 단계는
상기 내비게이션 그래프에서, 상기 단일 스텝에 대응되는 현재 노드와 상기 현재 노드의 이전 노드 외의 이웃 노드 간의 유효 노드 천이를 탐색하는 단계;
상기 현재 노드의 좌표, 상기 현재 노드의 이전 노드의 좌표 및 상기 현재 노드의 이전 노드 외의 상기 이웃 노드의 좌표에 기반하여 유효 노드 천이의 거동을 예측하는 단계;
상기 이웃 노드를 새로운 현재 노드로 사용하고, 상기 새로운 현재 노드인 노드와 상기 현재 단일 스텝의 상기 현재 노드 간의 거리가 사전설정값 내에 있을 때까지, 탐색 및 예측의 단계를 반복하는 단계; 및
탐색된 유효 노드 천이 및 예측된 유효 노드 천이의 거동을 전부 그래픽 포맷으로 변환시켜 상기 각 단일 스텝을 위한 상기 적응성 콘텍스트를 생성하는 단계를 포함하는,
태스크 환경에서 로봇을 내비게이팅하는 방법.
삭제
삭제
제1항에 있어서,
상기 유효 노드 천이의 거동은 탈출, 우회전과 이동, 좌회전과 이동 및 앞으로 이동으로 구성되는 거동 집합에 기초하여 예측되는,
태스크 환경에서 로봇을 내비게이팅하는 방법.
제1항에 있어서,
상기 현재 노드의 좌표, 상기 현재 노드의 이전 노드의 좌표 및 상기 이전 노드 외의 상기 이웃 노드의 좌표에 기반하여 상기 유효 노드 천이의 거동을 예측하는 단계는
상기 현재 노드의 좌표에서 상기 이전 노드의 좌표를 빼어 상기 로봇의, 상기 현재 노드에서의 주행방향을 결정하는 단계;
상기 이웃 노드의 좌표에서 상기 현재 노드의 좌표를 빼어 상기 로봇의, 상기 이웃 노드에서의 주행방향을 결정하는 단계;
상기 로봇의, 상기 현재 노드에서의 주행방향과 상기 로봇의, 상기 이웃 노드에서의 주행방향의 외적을 계산하는 단계; 및
계산된 외적에 기반하여 상기 유효 노드 천이의 상기 단일 스텝 거동을 예측하는 단계를 포함하는,
태스크 환경에서 로봇을 내비게이팅하는 방법.
제1항에 있어서,
적어도 생성된 적응성 콘텍스트와 상기 자연어 명령에 기반하여 상기 단일 스텝을 위한 단일 스텝 거동을 예측하는 단계는
생성된 적응성 콘텍스트, 상기 자연어 명령 및 게이트 순환 유닛에 의해 업데이트된 현재 은닉 상태에 기반하여 상기 단일 스텝을 위한 단일 스텝 거동을 예측하는 단계 - 상기 게이트 순환 유닛은 이전 단일 스텝의 이전 단일 스텝 거동을 입력으로 사용하여 업데이트하여 상기 현재 은닉 상태를 획득함 - 를 포함하는,
태스크 환경에서 로봇을 내비게이팅하는 방법.
제1항에 있어서,
상기 방법은
상기 태스크 환경의 토폴로지 그래프를 구축하는 단계 - 상기 태스크 환경에서의 위치는 상기 토폴로지 그래프의 노드이고, 상기 위치 간의 연결성은 상기 토폴로지 그래프의 엣지임 - ; 및
구축된 토폴로지 그래프를 상기 태스크 환경의 상기 내비게이션 그래프로 결정하는 단계를 더 포함하는,
태스크 환경에서 로봇을 내비게이팅하는 방법.
전자 장치로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서가 조작을 수행하도록 하는 실행가능한 명령이 저장되어 있는 메모리를 포함하고,
상기 조작은,
사전훈련된 시퀀스 예측 모델을 통해 태스크 환경의 내비게이션 그래프, 자연어 명령 및 로봇의, 상기 내비게이션 그래프에서의 초기 위치를 수신하는 것 - 상기 내비게이션 그래프는 상기 태스크 환경에서의 위치를 지시하는 노드, 상기 노드의 좌표 및 상기 위치 간의 연결성을 지시하는 엣지를 포함함 - ; 및
상기 사전훈련된 시퀀스 예측 모델을 통해 상기 로봇에 의해 수행가능한 일련의 단일 스텝 거동을 차례로 예측하여 상기 로봇을 상기 초기 위치에서 목적지로 내비게이팅하는 것을 포함하고,
상기 차례로 예측하는 것은
예측기간의 각 단일 스텝에 대하여,
상기 내비게이션 그래프가 상기 단일 스텝에 대응되는 현재 예측과정에 적응하도록 함으로써 적응성 콘텍스트를 생성하는 것; 및
적어도 생성된 적응성 콘텍스트와 상기 자연어 명령에 기반하여 상기 단일 스텝을 위한 단일 스텝 거동을 예측하는 것을 포함하고,
상기 예측기간의 각 단일 스텝에 대하여, 상기 적응성 콘텍스트를 생성하는 것은
상기 내비게이션 그래프에서, 상기 단일 스텝에 대응되는 현재 노드와 상기 현재 노드의 이전 노드 외의 이웃 노드 간의 유효 노드 천이를 탐색하는 것;
상기 현재 노드의 좌표, 상기 현재 노드의 이전 노드의 좌표 및 상기 현재 노드의 이전 노드 외의 상기 이웃 노드의 좌표에 기반하여 유효 노드 천이의 거동을 예측하는 것;
상기 이웃 노드를 새로운 현재 노드로 사용하고, 상기 새로운 현재 노드인 노드와 상기 현재 단일 스텝의 상기 현재 노드 간의 거리가 사전설정값 내에 있을 때까지, 탐색 및 예측을 반복하는 것; 및
탐색된 유효 노드 천이 및 예측된 유효 노드 천이의 거동을 전부 그래픽 포맷으로 변환시켜 상기 각 단일 스텝을 위한 상기 적응성 콘텍스트를 생성하는 것을 포함하는,
전자 장치.
삭제
삭제
제8항에 있어서,
상기 유효 노드 천이의 거동은 탈출, 우회전과 이동, 좌회전과 이동 및 앞으로 이동으로 구성되는 거동 집합에 기초하여 예측되는,
전자 장치.
제8항에 있어서,
상기 현재 노드의 좌표, 상기 현재 노드의 이전 노드의 좌표 및 상기 이전 노드 외의 상기 이웃 노드의 좌표에 기반하여 상기 유효 노드 천이의 거동을 예측하는 것은
상기 현재 노드의 좌표에서 상기 이전 노드의 좌표를 빼어 상기 로봇의, 상기 현재 노드에서의 주행방향을 결정하는 것;
상기 이웃 노드의 좌표에서 상기 현재 노드의 좌표를 빼어 상기 로봇의, 상기 이웃 노드에서의 주행방향을 결정하는 것;
상기 로봇의, 상기 현재 노드에서의 주행방향과 상기 로봇의, 상기 이웃 노드에서의 주행방향의 외적을 계산하는 것; 및
계산된 외적에 기반하여 상기 유효 노드 천이의 상기 단일 스텝 거동을 예측하는 것을 포함하는,
전자 장치.
제8항에 있어서,
적어도 생성된 적응성 콘텍스트와 상기 자연어 명령에 기반하여 상기 단일 스텝을 위한 단일 스텝 거동을 예측하는 것은
생성된 적응성 콘텍스트, 상기 자연어 명령 및 게이트 순환 유닛에 의해 업데이트된 현재 은닉 상태에 기반하여 상기 단일 스텝을 위한 단일 스텝 거동을 예측하는 것 - 상기 게이트 순환 유닛은 이전 단일 스텝의 이전 단일 스텝 거동을 입력으로 사용하여 업데이트하여 상기 현재 은닉 상태를 획득함 - 을 포함하는,
전자 장치.
제8항에 있어서,
상기 조작은
상기 태스크 환경의 토폴로지 그래프를 구축하는 것 - 상기 태스크 환경에서의 위치는 상기 토폴로지 그래프의 노드이고, 상기 위치 간의 연결성은 상기 토폴로지 그래프의 엣지임 - ; 및
구축된 토폴로지 그래프를 상기 태스크 환경의 상기 내비게이션 그래프로 결정하는 것을 더 포함하는,
전자 장치.
프로세서가 조작을 수행하도록 하는 실행가능한 컴퓨터 프로그램이 저장되어 있는, 비일시적 컴퓨터 판독가능 저장매체로서,
상기 조작은,
사전훈련된 시퀀스 예측 모델을 통해 태스크 환경의 내비게이션 그래프, 자연어 명령 및 로봇의, 상기 내비게이션 그래프에서의 초기 위치를 수신하는 것 - 상기 내비게이션 그래프는 상기 태스크 환경에서의 위치를 지시하는 노드, 상기 노드의 좌표 및 상기 위치 간의 연결성을 지시하는 엣지를 포함함 - ; 및
상기 사전훈련된 시퀀스 예측 모델을 통해 상기 로봇에 의해 수행가능한 일련의 단일 스텝 거동을 차례로 예측하여 상기 로봇을 상기 초기 위치에서 목적지로 내비게이팅하는 것을 포함하고,
상기 차례로 예측하는 것은
예측기간의 각 단일 스텝에 대하여,
상기 내비게이션 그래프가 상기 단일 스텝에 대응되는 현재 예측과정에 적응하도록 함으로써 적응성 콘텍스트를 생성하는 것; 및
적어도 생성된 적응성 콘텍스트와 상기 자연어 명령에 기반하여 상기 단일 스텝을 위한 단일 스텝 거동을 예측하는 것을 포함하고,
상기 예측기간의 각 단일 스텝에 대하여, 상기 적응성 콘텍스트를 생성하는 것은
상기 내비게이션 그래프에서, 상기 단일 스텝에 대응되는 현재 노드와 상기 현재 노드의 이전 노드 외의 이웃 노드 간의 유효 노드 천이를 탐색하는 것;
상기 현재 노드의 좌표, 상기 현재 노드의 이전 노드의 좌표 및 상기 현재 노드의 이전 노드 외의 상기 이웃 노드의 좌표에 기반하여 유효 노드 천이의 거동을 예측하는 것;
상기 이웃 노드를 새로운 현재 노드로 사용하고, 상기 새로운 현재 노드인 노드와 상기 현재 단일 스텝의 상기 현재 노드 간의 거리가 사전설정값 내에 있을 때까지, 탐색 및 예측을 반복하는 것; 및
탐색된 유효 노드 천이 및 예측된 유효 노드 천이의 거동을 전부 그래픽 포맷으로 변환시켜 상기 각 단일 스텝을 위한 상기 적응성 콘텍스트를 생성하는 것을 포함하는,
비일시적 컴퓨터 판독가능 저장매체.
삭제
삭제
제15항에 있어서,
상기 유효 노드 천이의 거동은 탈출, 우회전과 이동, 좌회전과 이동 및 앞으로 이동으로 구성되는 거동 집합에 기초하여 예측하는,
비일시적 컴퓨터 판독가능 저장매체.
제15항에 있어서,
상기 현재 노드의 좌표, 상기 현재 노드의 이전 노드의 좌표 및 상기 이전 노드 외의 상기 이웃 노드의 좌표에 기반하여 상기 유효 노드 천이의 거동을 예측하는 것은
상기 현재 노드의 좌표에서 상기 이전 노드의 좌표를 빼어 상기 로봇의, 상기 현재 노드에서의 주행방향을 결정하는 것;
상기 이웃 노드의 좌표에서 상기 현재 노드의 좌표를 빼어 상기 로봇의, 상기 이웃 노드에서의 주행방향을 결정하는 것;
상기 로봇의, 상기 현재 노드에서의 주행방향과 상기 로봇의, 상기 이웃 노드에서의 주행방향의 외적을 계산하는 것; 및
계산된 외적에 기반하여 상기 유효 노드 천이의 상기 단일 스텝 거동을 예측하는 것을 포함하는,
비일시적 컴퓨터 판독가능 저장매체.
제15항에 있어서,
적어도 생성된 적응성 콘텍스트와 상기 자연어 명령에 기반하여 상기 단일 스텝을 위한 단일 스텝 거동을 예측하는 것은
생성된 적응성 콘텍스트, 상기 자연어 명령 및 게이트 순환 유닛에 의해 업데이트된 현재 은닉 상태에 기반하여 상기 단일 스텝을 위한 단일 스텝 거동을 예측하는 것 - 상기 게이트 순환 유닛은 이전 단일 스텝의 이전 단일 스텝 거동을 입력으로 사용하여 업데이트하여 상기 현재 은닉 상태를 획득함 - 을 포함하는,
비일시적 컴퓨터 판독가능 저장매체.
매체에 저장된 컴퓨터 프로그램으로서,
상기 프로그램이 프로세서에 의해 실행되는 경우, 제1항, 제4항 내지 제7항 중 어느 한 항의 방법이 구현되는,
매체에 저장된 컴퓨터 프로그램.