KR20100065809A

KR20100065809A - 학습에 의한 로봇의 보행 방법 및 학습에 의한 보행 메커니즘을 구비한 로봇

Info

Publication number: KR20100065809A
Application number: KR1020080124358A
Authority: KR
Inventors: 김병수
Original assignee: (주)로보티즈
Priority date: 2008-12-09
Filing date: 2008-12-09
Publication date: 2010-06-17
Also published as: KR101105346B1

Abstract

본 발명은 학습에 의한 로봇의 보행 방법 및 학습에 의한 보행 메커니즘을 구비한 로봇에 관한 것으로서, 로봇의 보행 시에 유발하는 오차와 외부 환경의 변화에 대한 적응력이 우수하며 매우 작은 계산력으로도 구현가능한 특징을 가진다.

본 발명에 따른 학습에 의한 로봇의 보행 방법은 특징으로 한다.

로봇, 보행, 학습, 관성

Description

학습에 의한 로봇의 보행 방법 및 학습에 의한 보행 메커니즘을 구비한 로봇 {Robot having a gait mechanism using learning and method for improving gait mechanism of robot using learing}

본 발명의 로봇의 보행 방법에 관한 것으로서, 특히 학습에 의해 보행 상태를 개선하는 로봇의 보행 방법 및 학습에 의한 보행 메커니즘을 구비한 로봇에 관한 것이다.

휴머노이드와 같은 이족 보행 로봇에 있어서 로봇의 보행(gait)은 아직까지 가장 기본적이면서도 가장 어려운 연구 분야로 남아 있다. 종래의 로봇 공학에 있어서 보행을 구현하는 방법으로는 주로 동역학(dynamics)을 해석하는 방식이 일반적인데 아직 휴머노이드의 보행에 보행에 만족스러운 결과를 내지 못하고 있다.

이족 보행 로봇에 대해 기존의 동역학을 이용한 보행 메커니즘 구현이 곤란한 이유는, 첫째 휴머노이드의 관절 기능을 동역학적으로 정확하게 모델링하기가 어렵고, 둘째는 관절에 입력되는 값이 토크(torque)가 아닌 각도(angle)인 경우가 많아서 양자를 변환하는데 심한 오차가 발생하며, 셋째 휴머노이드가 물건을 집거나 악수를 하는 경우 등과 같이 로봇 외부 환경 요인(즉, 외력)의 질량과 관성 정 보를 알 수 없는 상황에서는 이에 대처하기 어려울 뿐만 아니라, 네째 실시간으로 동역학 연산을 수행하기 위한 계산력(computing power)이 모자란 경우가 많기 때문이다.

따라서, 동역학을 이용한 종래의 로봇 보행 메커니즘은, 보행을 시도할 때 관성에 의해 변화되는 파라미터들을 미리 설정해 놓은 동역학 모델에 의해 예측하고 실제 보행시 이를 보상하는 형태였으나, 자동 제어 방식으로 보행에 관련된 파라미터들을 보상하는 경우에도 설정된 기준치에 근거하여 제한된 범위 이내에서만 파라미터의 보상이 가능하므로 설정된 기준치가 적절하지 않은 실제 환경에서는 보행 상태가 불량하였을 뿐 아니라, 설정된 동역학 모델이 실제 환경과 일치하지 않거나 외부에서 주어지는 관성 변화가 있을 때는 로봇 스스로 이러한 차이를 극복할 수 없는 한계가 있었다.

따라서, 이족 보행 로봇의 보행과 관련하여 동역학을 이용한 보행 메커니즘 모델링보다 개선된 형태의 보행 메커니즘을 구현할 필요성이 요청되고 있다.

본 발명은 학습에 의해 로봇의 보행 성능을 개선하는 학습에 의한 로봇 보행 방법 및 학습에 의한 보행 메커니즘을 구비한 로봇을 제공하는 것을 목적으로 한다.

본 발명은 보행 사례에 대한 학습 데이터를 누적하고 누적된 학습 데이터에 포함된 제어 파라미터들을 조합하여 주어진 보행 환경을 위한 보행 제어 파라미터를 생성하여 보행에 적용하는 로봇의 보행 제어 방법 및 그러한 보행 메커니즘을 구비한 로봇을 제공하는 것을 목적으로 한다.

본 발명은 외부에서 임의로 변화시킨 관성 환경에 대한 적응력이 개선된 로봇 및 로봇 보행 방법을 제공하는 것을 목적으로 한다.

본 발명은 기존의 동역학적 모델링에 비해 매우 적은 양의 계산력만으로도 구현가능한 로봇 보행 방법 및 그러한 보행 메커니즘을 구비한 로봇을 제공하는 것을 목적으로 한다.

본 발명은 로봇의 일부가 고장나거나 파손되는 등 질량의 변화가 있거나 좌우 대칭형이 아닌 로봇의 경우에도 적용가능한 로봇의 보행 방법 및 그러한 보행 메커니즘을 구비한 로봇을 제공하는 것을 목적으로 한다.

본 발명은 로봇의 보행 연습 기간 동안 사용자가 리모콘 등을 이용하여 보행을 안정화 시키며 학습 데이터를 축적하면, 그러한 제한된 상황에서의 학습 데이터만을 가지고 향후 로봇이 독자적으로 보행하는 다양한 상황에서 보행을 안정적으로 수행하는 로봇 및 로봇 보행 방법을 제공하는 것을 목적으로 한다.

본 발명은 상기한 목적을 달성하기 위해, 학습을 이용하여 로봇의 보행 메커니즘을 개선하는 방식을 적용한다. 기존의 로봇 공학에서 학습을 이용하여 로봇의 지능을 향상시키고 로봇의 행동 패턴을 제어하는 다양한 시도가 있었으나, 본 발명 에서와 같이 이족 보행 로봇의 보행 메커니즘에 학습 방법을 적용시킨 예는 없었다. 학습에 의한 보행 방법 개선은 인간이 보행 방법을 배울 때 적용하는 방식이기도 하다.

종래의 로봇 보행 방법은 보행 속도나 보폭과 같은 구속 조건을 고정하여 계산량을 최소화 한 상태에서 시도되는 것이 일반적이었으나, 본 발명은 보행 속도나 보폭과 같은 조건을 태스크 파라미터로 설정하여 임의로 변경가능하게 하고 외부 관성 요인의 변화에 의해 영향을 받는 제어 파라미터들을 학습에 의해 처리하게 함으로써 계산량을 최소화화 한다.

본 발명에 따른 학습에 의한 보행 메커니즘을 구비한 로봇은, 로봇의 각 구성 요소를 상호 연결하여 동작을 제어하기 위한 제어부와, 로봇의 제어에 필요한 각종 데이터와 프로그램을 저장하기 위한 저장부와, 상기 제어부의 지시에 따라 로봇을 구동하기 위한 구동부를 포함하여 구성되는 로봇에 있어서, 상기 저장부는 로봇의 보행을 제어하기 위한 보행 제어 파라미터 및 로봇의 보행을 평가하기 위한 보행 평가 파라미터를 포함하는 학습 데이터를 기록하는 것을 특징으로 한다.

또한, 상기 로봇의 상기 학습 데이터에는 로봇에게 주어진 태스크를 정의하는 태스크 파라미터와, 상기 보행 제어 파라미터 및 상기 보행 평가 파라미터가 태스크 결과 테이블로 저장되며, 상기 태스크 결과 테이블의 파라미터들 중 보행 상태를 현저하게 개선한 경우의 파라미터 값들은 별도의 룩업 테이블로 저장되는 것을 특징으로 한다.

또한, 상기 로봇은 로봇 외부의 원격제어수단과의 통신을 위한 통신부를 더 포함하며, 상기 태스크 파라미터와, 상기 보행 제어 파라미터와, 상기 보행 평가 파라미터의 설정은 상기 통신부를 통해 수행되는 것을 특징으로 한다.

또한, 상기 로봇은 2족 보행 로봇이며, 상기 태스크 파라미터는 보행시 걸음의 주기, 보폭, 회전 방향, 회전 반경, 보행 속도, 가속도, 보행로의 길이, 면적, 요철, 경사, 방향, 바람의 세기와 방향으로 구성되는 그룹으로부터 하나 이상 선택되며, 상기 보행 제어 파라미터는 상기 구동부를 구성하는 각 액츄에이터의 피치, 롤, 요와, 상기 구동부의 일부인 로봇의 고관절, 무릎관절, 족부관절의 x, y, z축 방향에서의 관성 스와핑 양과 시간, 상기 고관절, 무릎관절, 족부관절의 이동량과 방향 및 각도, 및 이들의 변화량으로 구성되는 그룹으로부터 하나 이상 선택되며, 상기 보행 평가 파라미터는 로봇의 흔들림 정도, 방향, 최대 및 최소 각도, 로봇의 전도 횟수, 최적 보행 자세와의 x, y, z축 방향에서의 오차, 로봇의 좌측발과 우측발의 오차량 차이, 및 이들의 변화량으로 구성되는 그룹으로 하나 이상 선택되는 것을 특징으로 한다.

본 발명의 다른 특징에 따른 학습에 의한 보행 메커니즘을 구비한 로봇은, 시행착오를 거치며 획득한 학습 데이터로부터 새로운 보행 환경에 적합한 보행 제어 파라미터를 결정하여 보행을 수행하고 보행 상태를 자체적으로 평가한 후, 안정적인 보행 상태로 신속히 진입하도록 최적의 보행 제어 파라미터를 선택하여 보행을 수행하고 다시 보행 상태를 평가하는 과정을 반복하는 것을 특징으로 한다.

본 발명의 다른 특징에 의한 학습에 의한 보행 메커니즘을 구비한 로봇은, 로봇의 각 구성 요소를 상호 연결하여 동작을 제어하기 위한 제어부와, 상기 제어 부의 지시에 따라 로봇을 구동하기 위한 구동부를 포함하여 구성되는 로봇에 있어서, 상기 제어부는 로봇이 실제로 시도한 보행 경험에서 습득한 데이터를 활용하여 다음번 보행에서 보행 성능을 개선하는 알고리즘을 구비하는 것을 특징으로 한다.

한편, 본 발명에 따른 학습에 의한 로봇 보행 방법은, 제한적인 상황에서 보행시에 발생하는 데이터를 학습 데이터로 저장하는 단계; 및 상기 학습 데이터를 이용하여 다양한 상황에서 보행을 수행하는 단계를 포함하는 것을 특징으로 한다.

상기 방법은, 외력에 의해 로봇의 보행에 영향을 미치는 관성 요인이 변화하는 경우에, 변화된 환경과 가장 유사한 환경에 대응하는 학습 데이터를 이용하여 보행을 수행하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 본 발명의 다른 특징에 따른 학습에 의한 로봇의 보행 방법은, (A) 로봇의 보행에 관련된 태스크 파라미터, 보행 제어 파라미터 및 보행 평가 파라미터를 설정하는 단계; (B) 주어진 태스크 파라미터와 가장 유사한 태스크 파라미터를 학습 데이터에서 검색하는 단계; (C) 학습 데이터에서 검색된 태스크 파라미터에 대응되는 보행 제어 파라미터를 적용하여 로봇의 보행을 수행하는 단계; (D) 보행 평가 파라미터와 적용 중인 보행 제어 파라미터를 학습 데이터에 기록하는 단계; (E) 상기 학습 데이터로부터 상기 보행 평가 파라미터 값을 최적화할 수 있는 최적의 보행 제어 파라미터를 검색하는 단계; 및 (F) 검색된 최적의 보행 제어 파라미터 값을 적용하여 상기 (C) 보행 수행 단계 및 상기 (D) 상기 학습 데이터 기록 단계를 반복하는 것을 특징으로 한다.

또한, 상기 방법에서, 상기 (D) 학습 데이터 기록 단계는, 보행 중인 상태에 서의 보행 평가 파라미터 값과 적용 중인 보행 제어 파라미터 값을 학습 데이터의 태스크 결과 테이블에 기록하는 단계; 및 보행 평가 파라미터 값을 현저하게 개선한 보행 제어 파라미터 값을 학습 데이터의 룩업 테이블에 기록하는 단계를 포함하며, 상기 (F) 최적의 보행 제어 파라미터 적용 단계는, 상기 룩업 테이블에 기록된 보행 제어 파라미터 값 중 현재 보행 중인 상태의 보행 평가 파라미터 값과 동일 또는 가장 유사한 보행 평가 파라미터 값에 대응되는 보행 제어 파라미터 값을 적용하는 단계인 것을 특징으로 한다.

또한, 본 발명의 다른 특징에 따른 로봇 보행 방법은, (G) 로봇의 보행에 관련된 태스크 파라미터, 보행 제어 파라미터 및 보행 평가 파라미터를 설정하는 단계; (H) 상기 파라미터들에 대한 미리 설정된 초기 값을 이용하여 로봇의 보행을 수행하는 단계; (I) 원격 제어 수단을 이용하여 로봇의 보행을 제어하는 단계; 및 (J) 보행 평가 파라미터와 상기 원격 제어 수단을 통해 적용 중인 보행 제어 파라미터를 학습 데이터에 기록하는 단계를 포함하는 것을 특징으로 한다.

또한, 상기 방법은, (K) 동일한 태스크 파라미터를 갖는 로봇 보행시에, 상기 학습 데이터에 저장된 최적값을 상기 파라미터들에 대한 초기 값으로 하여 상기 (H) 보행 수행 단계, 상기 (I) 보행 제어 단계 및 상기 (J) 상기 학습 데이터 기록 단계를 반복하는 것을 특징으로 한다.

또한, 상기 방법에서, 상기 (I) 원격 제어 수단을 이용한 로봇 보행 제어 단계는, (L) 상기 학습 데이터로부터 상기 보행 평가 파라미터 값을 최적화할 수 있는 최적의 보행 제어 파라미터를 검색하고, 검색된 보행 제어 파라미터 값과 상기 원격 제어 수단에 의해 입력된 보행 제어 파라미터 값을 비교하여, 상기 보행 평가 파라미터 값을 최적화할 수 있는 보행 제어 파라미터를 선택하여 상기 로봇의 보행을 제어하는 단계인 것을 특징으로 한다.

본 발명에 따르면, 학습에 의해 로봇의 보행 성능을 개선하는 학습에 의한 로봇 보행 방법 및 학습에 의한 보행 메커니즘을 구비한 로봇이 제공된다.

본 발명에 따르면, 보행 사례에 대한 학습 데이터를 누적하고 누적된 학습 데이터에 포함된 제어 파라미터들을 조합하여 주어진 보행 환경을 위한 보행 제어 파라미터를 생성하여 보행에 적용하는 로봇의 보행 제어 방법 및 그러한 보행 메커니즘을 구비한 로봇이 제공된다.

본 발명에 따르면, 외부에서 임의로 변화시킨 관성 환경에 대한 적응력이 개선된 로봇 및 로봇 보행 방법이 제공된다.

본 발명에 따르면, 기존의 동역학적 모델링에 비해 매우 적은 양의 계산력만으로도 구현가능한 로봇 보행 방법 및 그러한 보행 메커니즘을 구비한 로봇이 제공된다.

본 발명에 따르면, 로봇의 일부가 고장나거나 파손되는 등 질량의 변화가 있거나 좌우 대칭형이 아닌 로봇의 경우에도 적용가능한 로봇의 보행 방법 및 그러한 보행 메커니즘을 구비한 로봇이 제공된다.

본 발명에 따르면, 로봇의 보행 연습 기간 동안 사용자가 리모콘 등을 이용 하여 보행을 안정화 시키며 학습 데이터를 축적하면, 그러한 제한된 상황에서의 학습 데이터만을 가지고 향후 로봇이 독자적으로 보행하는 다양한 상황에서 보행을 안정적으로 수행하는 로봇 및 로봇 보행 방법이 제공된다.

이하에서는 첨부 도면에 도시된 본 발명의 바람직한 실시예를 통해 본 발명을 더 상세하게 설명하기로 한다.

도 1은 본 발명에 따른 학습에 의한 보행 메커니즘을 구비한 로봇의 구성도이다.

도 1의 로봇(100)은 로봇의 각 구성부분을 상호 연결하여 동작을 제어하기 위한 제어부(110), 로봇의 동작과 학습에 필요한 각종 데이터와 프로그램을 저장하기 위하나 저장부(120), 로봇을 구동하기 위한 구동부(170), 로봇 내부의 동작 상태 및 로봇의 보행 환경을 검출하기 위한 센서부(180), 로봇과 외부 통신기기와의 통신을 위한 통신부(190)를 포함한다.

로봇의 구동부(170)는 다수의 액츄에이터 모듈로 구성될 수 있으며, 로봇 내부의 동작 상태를 검출하기 위한 기능 또는 외부 통신기기과의 통신기능이 각 액츄에이터 모듈 또는 중앙 제어부에 구비된 경우 물리적인 의미에서의 센서부(180)나 통신부(190)는 생략될 수 있다.

로봇(100)의 저장부(120)는 로봇의 동작에 필요한 통상의 데이터와 프로그램 외에 로봇의 학습에 필요한 데이터를 저장하기 위한 학습 데이터(130)를 포함하는데 특징이 있으며, 학습 데이터(130)는 적어도 태스크 결과 테이블(140)을 구비하 도록 구성된다. 로봇(100)의 제어부(110)가 데이터 및 프로그램 저장기능을 포함하는 경우에, 저장부(120)는 제어부(110)의 일부로 제공될 수 있다.

태스크 결과 테이블(140)은 로봇의 보행 시에 주어진 명령(즉, 태스크)에 따른 보행 동작을 수행하는데 적용된 보행 제어 파라미터와 보행 동작의 평가 파라미터를 포함하도록 구성되며, 필요에 따라 룩업 테이블(150)은 현저하게 개선된 보행 상태를 나타내는 태스크 결과를 저장하도록 구비된다. 룩업 테이블(150)은 태스크 결과 테이블(140)의 일부로 존재할 수도 있고 별도의 테이블로 존재할 수도 있다.

도 2는 본 발명에 따른 이족 보행 로봇의 기하학적 구조도이다.

본 발명의 로봇이 이족 보행 로봇에 한정되는 것은 아니며, 삼족 이상의 다족 보행 로봇에도 적용가능함은 물론이다. 다만, 현재 로봇 공학에서 이족 보행 로봇의 보행 제어가 가장 난제이며 또한 가장 연구가 집중되는 분야이므로 본 명세서에서는 이하 이족 보행 로봇의 예를 들어 설명하기로 한다.

이족 보행 로봇은 도 2에 도시된 바와 같이 각 관절부를 기하학적으로 표현하는 구조도를 토대로 모델링되며, 이때 로봇의 보행에 관련된 각종 파라미터의 정의 및 적용이 용이한 방식으로 모델링하는 것이 바람직하다.

도 3은 본 발명에 따른 이족 보행 로봇의 역기구학적 모델링 개념도이다.

본 발명의 실시예에서는 기존의 동역학 대신에 역기구학(inverse-kinetics)을 이용한 모델링을 적용하였다. 이는 동역학에 비해 필요한 계산량을 감소시킬 뿐 아니라 학습에 의해 도출된 파라미터에 부합하도록 로봇 구동부를 제어하는데 보다 적절한 모델이기도 하다.

도 4는 본 발명에 따른 이족 보행 로봇의 간소화된 역기구학적 모델링 개념도이다.

본 발명에 따른 학습에 의한 보행 방법의 경우, 로봇의 역기구학적 모델링을 최대한 간단하게 할 수 있는 장점이 있다. 예컨대, 로봇의 다리를 구성하는 두 축의 길이를 동일하게 하고 발을 구성하는 구동부가 항상 지면에 수직이라는 조건을 줄 경우, 역기구학적 모델링이 훨씬 용이해 질 수 있으며, 이러한 간소화에 따른 정확도의 감소는 본 발명에서의 학습에 따른 최적 파라미터 도출 과정을 통해 충분히 보상될 수 있게 된다.

도 5는 본 발명에 따른 이족 보행 로봇의 보행 궤도 설명도이다.

이하에서는 도 5에 도시된 바와 같이, 로봇의 보행 방향을 y, 로봇의 좌우 움직임 방향을 x, 로봇의 상하 움직임 방향을 z로 정의하여 설명하기로 한다. 한편, 이족 보행 로봇의 보행 궤도는 일반적인 보행 분석(gait analysis)에 근거한 것으로서 사람의 보행 궤도와 유사하도록 모델링되는 것이 바람직하다.

이하에서는, 도 6 내지 도 9를 참조하여 본 발명에 따른 이족 보행 로봇의 보행 방법을 설명하기로 한다.

본 발명에 따른 학습에 의한 로봇 보행 제어 방법은 사람이 어린 시절에 최초로 보행 방법을 터득해 나갈 때의 보행 제어 알고리즘에 기반한 것으로서, 시행착오를 거치며 획득한 학습 데이터로부터 새로운 보행 환경에 적합한 보행 제어 파라미터를 결정하여 보행을 수행하고 보행 상태를 자체적으로 평가한 후, 안정적인 보행 상태로 신속히 진입하도록 최적의 보행 제어 파라미터를 선택하여 보행을 수행하고 다시 보행 상태를 평가하는 과정을 수행하는 것을 핵심적 사항으로 한다.

학습에 의한 로봇의 보행 제어 방법은 기본적으로, 로봇을 구동하여 보행을 수행하는 단계; 보행 중인 로봇의 보행 상태를 평가하는 단계; 보행 상태의 평가치를 학습 데이터에 기록하는 단계; 최근에 기록된 보행 상태의 평가치에 응답하여 학습 데이터로부터 보행 제어 파라미터를 생성하는 단계; 및 생성된 보행 제어 파라미터를 이용하여 상기 로봇을 구동하여 보행을 수행하는 단계를 반복하는 단계를 포함하도록 구성된다.

로봇은 보행 중 내부에 장착된 센서를 통해 또는 외부로부터의 통신 정보를 통해 보행 환경을 인식하고 이에 관한 정보를 획득하여 자체적으로 기록할 수 있다. 예컨대, 로봇은 보행로의 길이, 면적, 요철, 경사, 방향, 바람의 세기와 방향 등 외부 환경을 검출하고 이를 현재 적용 중인 보행 제어 파라미터 및/또는 태스크 파라미터와 결합하여 기록할 수 있다.

로봇은 보행 중에 보행 평가 파라미터들을 상시 또는 주기적으로 검출하고 이를 현재 적용 중인 보행 제어 파라미터 및/또는 태스크 파라미터와 결합하여 기록한다.

이상의 과정을 통해 기록된 태스크 파라미터, 보행 제어 파라미터, 보행 평가 파라미터 등 각종 정보는 학습 데이터로 로봇 내부에 기록된다. 이러한 학습 데이터의 기록은 적어도 하나의 보행 사이클(gait cycle)마다 기록되고 누적되며, 또 주어진 태스크 파라미터에 따라 그룹화되어 관리되는 것이 바람직하다.

하나의 보행 사이클을 마친 로봇은 다음 보행 사이클을 반복하면서 보행을 수행하게 되는데, 이어지는 보행 사이클에서는 로봇의 보행을 제어하기 위한 제어 파라미터들이 미리 기록된 학습 데이터를 참조하거나 누적된 학습 데이터를 조합하여 결정되어야 한다.

동일 태스크 파라미터에 따른 다수의 보행 사이클은 하나의 보행 사례(gait case)를 형성하며, 이러한 보행 사례에 관련된 학습 데이터는 향후 동일한 태스크 파라미터 또는 유사한 태스크 파라미터를 갖는 다른 보행 사례가 주어질 때 로봇이 우선적으로 참조하는 학습 데이터로 이용된다.

한편, 동일한 태스크 파라미터로 구성된 선례가 없는 경우, 로봇은 기존에 기록된 각 보행 사례를 조합하여 제어 파라미터에 각기 가중치를 부여하는 방법으로 주어진 보행 사례에 대응할 수 있다. 이와 달리, 로봇이 기존이 기록된 보행 사례 중 가장 유사한 보행 사례를 기준으로 제어 파라미터를 설정하고 보행을 수행하면서 학습 데이터를 참조하여 보행 제어 파라미터를 조절할 수도 있다.

이와 같이 학습 데이터를 이용하는 구체적인 방법은 다양하게 변화될 수 있으며, 학습 데이터로부터 최적의 제어 파라미터를 선택하여 적용하는 과정은 기존의 로봇 공학, 수학 등의 분야에 공지된 다양한 알고리즘을 적용할 수 있을 것이다.

이와 같은 학습에 의한 로봇 보행 제어 방법의 경우, 동일한 선례가 없는 경우에도 누적된 학습 데이터로부터 로봇이 능동적으로 제어 파라미터를 선택하여 보행에 적용하기 때문에, 외력이 작용하는 상황이나 태스크 파라미터가 변화하여 임 의적으로 보행 관성이 변화하는 상황에서도 학습이 가능하게 된다.

또한, 로봇의 일부 구성요소가 분실되거나 파손되어 로봇의 좌우대칭이 무너지거나 정상적인 보행이 불가능한 경우에도 어느 정도 수준의 보행을 기대할 수 있다.

특히, 학습에 의한 로봇 보행 제어의 경우, 시행착오를 통해 최소한의 그리고 최적의 태스크 파라미터와 제어 파라미터 및 보행 평가 파라미터를 선택하고 이를 학습 데이터로 적용하는 과정이, 기존의 동역학에 의거하여 로봇 구동부의 개별 동작을 계산하는 것에 비해 훨씬 적은 양의 계산력을 필요로 하므로, 완구용, 아동용, 교육용 로봇과 같이 저가의 로봇이나 고도의 사양을 필요로 하지 않는 엔터테인먼트 로봇 등에까지 적용할 수 있다.

이하에서는, 본 발명에 따른 로봇의 보행 모드를 연습 보행 모드와 실제 보행 모드로 구분하여 설명한다. 연습 보행 모드는 사용자가 보행 환경을 설정하고 설정된 보행 환경 하에서 로봇이 효과적으로 보행을 수행할 때까지 최적의 보행 제어 파라미터를 도출해 나가는 과정을 의미하며, 실제 보행 모드는 실제 보행시에 주어지는 임의의 보행 환경 하에서 로봇이 보행을 수행할 때 기존의 연습 보행 모드를 통해 또는 다른 실제 보행 모드를 통해 학습한 데이터를 적용해가며 최적의 보행 제어 파라미터를 도출해 나가는 과정을 의미한다.

도 6은 본 발명에 따른 이족 보행 로봇의 연습 보행 모드 순서도이다.

먼저, 사용자가 로봇의 보행에 적용할 각종 파라미터를 결정하고(단계 S510), 결정된 파라미터의 초기값을 설정한다(단계 S520).

여기서는, 보행 메커니즘을 결정하기 위한 변수로서, 적어도 태스크 파라미터, 보행 제어 파라미터 및 보행 평가 파라미터를 정의한다.

태스크 파라미터는 로봇에게 주어지는 보행 상태의 목표치 또는 구속 조건을 의미하는 것으로서, 사용자에 의해 로봇에게 입력되거나 로봇 내에 미리 저장된 프로그램에 의해 주어지는 변수이며, 로봇의 보행 중에 로봇에 스스로 변경시킬 수 없는 변수이다. 예컨대, 로봇의 보행시 걸음의 주기, 보폭, 회전 방향, 회전 반경, 보행 속도, 가속도 등의 파라미터를 태스크 파라미터로 사용할 수 있다. 즉, 로봇은 상기한 명령 파라미터 중 선택되어 입력된 임의의 명령 파라미터 조합 범위 내에서 안정적이고 반복적인 보행을 수행하도록 제어된다.

최초의 보행 연습시(또는 동일한 보행 환경 하에서의 최초의 보행 연습시)에는 가능한 성공 가능성이 높은(즉, 에러 발생 가능성이 "0")으로 되는 태스크 파라미터 초기 값을 설정하고, 보행이 반복될 수록 점차적으로 난이도를 증가시키는 방향으로 태스크 파라미터 값을 변화시키는 것이 바람직하다.

로봇에게 태스크 파라미터 값이 주어지면, 로봇에게 주어진 태스크 파라미터 값 또는 범위를 만족시키는 범위 내에서 보행 제어 파라미터를 설정해야 한다.

보행 제어 파라미터는 로봇의 안정적이고 반복적인 보행을 위해 로봇 구동부나 그에 기반한 상위 개념(예컨대, 고관절, 무릎관절, 족부관절과 같이 복수의 구동부로 구성된 구동 그룹)을 제어할 때 제어해야 할 변수를 의미하는 것으로서, 로봇 구동부 설계시에 미리 결정되거나 또는 로봇의 조립 및 구동시에 사용자나 프로그램에 의해 결정된 종류의 변수가 주어질 수 있다.

예컨대, 로봇의 진행 방향이 주어지면, 안정적인 보행을 위해 로봇 구동부 또는 상위 개념의 파라미터의 동작을 제어가기 위한 변수로서 각 구동부의 피치(pitch), 롤(roll), 요(yaw) 외에, 로봇의 고관절, 무릎관절, 족부관절 등 구동 그룹의 x, y, z축 방향에서의 관성 스와핑 양과 시간, 고관절, 무릎관절, 족부관절 등 구동 그룹의 이동량과 이동 방향 및 각도, 또는 이상의 변수들의 변화량 등의 다양한 변수 그룹 중에서 하나 이상의 변수로 구성되는 보행 제어 파라미터 조합을 선택할 수 있다.

보행 제어 파라미터의 조합은 본 발명의 기술 분야에서 통상의 지식을 가진 자에 의해 다양하게 선택되어 시도될 수 있으며, 시행착오에 의해 주어진 외부 환경에 적합한 최적의 제어 파라미터 조합을 도출할 수 있다.

만약, 보행 경험이 있는 로봇의 경우라면, 학습 데이터에 포함된 태스크 결과 테이블에서 주어진 태스크에 가장 유사한 태스크 파라미터 및 그에 관련된 보행 제어 파라미터를 검색하여 이를 보행 제어 파라미터 초기값으로 적용할 수 있고, 이에 따라 로봇의 보행 학습 시간이 감소된다.

만약, 검색 결과 보행 경험이 없는 로봇이거나 학습 데이터에 참조할 만한 저장값이 없다면, 보행 제어 파라미터의 초기값은 사용자가 입력한 초기값 또는 미리 프로그램에 의해 설정된 초기값을 적용하게 된다.

이어서, 보행 평가 파라미터를 설정하게 되는데, 보행 평가 파라미터는 로봇의 보행 상태를 평가하기 위한 파라미터로서, 보행시 로봇의 흔들림 정도, 방향, 최대 및 최소 각도, 로봇의 전도(즉, 넘어진) 회수, 최적 보행 자세와의 x, y 또는 z 방향에서의 오차, 좌측발과 우측발의 오차량의 차이, 또는 이상의 변수들의 변화량 등 다양한 변수 그룹 중에서 선택될 수 있으며, 경우에 따라 복수의 변수가 동시에 보행을 평가하는데 이용될 수 있다. 이때, 보행 평가 파라미터는 에러 값이 "0"으로 되었을 때 최적의 보행 상태가 유지되는 값을 설정하는 것이 바람직하다.

이상의 변수 설정 과정에서, 태스크 파라미터, 보행 제어 파라미터, 보행 평가 파라미터의 종류와 초기값 등은 사용자가 로봇에 구비된 버튼, LCD 모니터 등의 입출력 수단을 이용하여 설정하거나, 리모콘과 같은 원격제어수단을 통해 로봇에 설정할 수 있으며, 특히 태스크 파라미터나 보행 평가 파라미터는 로봇의 보행시에 사용자가 육안으로 판단할 수 있는 종류의 변수를 설정하는 것이 바람직하다.

한편, 상기한 바와 같이, 태스크 파라미터, 보행 제어 파라미터, 보행 평가 파라미터의 설정 순서와 초기값 결정 순서는 사용자의 선택에 따라, 또는 기존의 보행 사례가 있는가에 따라 달라질 수 있다.

이어서, 태스크 파라미터, 보행 제어 파라미터, 보행 평가 파라미터의 설정이 완료되고(단계 S510), 그 초기값들이 결정되면(단계 S520), 결정된 보행 제어 파라미터를 이용하여 로봇의 보행이 수행된다(단계 530).

로봇의 보행은 주어진 태스크 파라미터의 제한을 만족시키는 범위 내에서 수행되며, 보행을 위해 로봇은 주어진 보행 제어 파라미터에 따라 각 구동부 및/또는 구동 그룹을 구동시키고, 각 구동부에 포함된 센서 및/또는 로봇에 장착된 별도의 센서부를 통해 반응을 체크한다. 이때, 보행 제어 파라미터들에 따라 각각의 구동부와 센서부를 구동하기 위해 역기구학적 모델링을 이용하는 것이 바람직하다.

로봇은 보행을 수행하면서, 적용 중인 보행 제어 파라미터 값과 그에 대응하는 보행 평가 파라미터 값을 상호 연결시켜 학습 데이터의 태스크 결과 테이블로 기록한다(단계 S540). 이때, 보행 제어 파라미터 값과, 보행 평가 파라미터 값 및 그 때의 태스크 파라미터 값이 함께 기록될 수도 있다.

한편, 로봇을 리모콘과 같은 원격제어수단을 이용하여 제어하는 경우에는, 사용자가 로봇의 보행 상태를 육안으로 확인하고 보행 상태를 개선하는 방향으로 원격제어수단을 조작하게 되며, 원격제어수단의 조작에 의거하여 보행 제어 파라미터 값이 변동되고 그에 따른 보행 평가 파라미터 값이 생성되어 연속적으로 기록된다.

보행 평가 파라미터의 에러 값이 "0"이 되거나 또는 소정의 범위 내로 유지될 때까지 보행 제어 파라미터 값을 변화시키며 보행이 수행되고, 로봇의 보행 중에 보행 평가 파라미터를 현저하게 개선한 보행 제어 파라미터 값은 태스크 결과 테이블에 기록됨과 동시에 별도의 룩업 테이블에 기록되어 학습 데이터로 관리될 수 있다.

이어서, 로봇은 동일 또는 유사한 보행 평가 파라미터와 이를 현저하게 개선한 보행 제어 파라미터가 기존에 기록되어 있는지를 학습 데이터의 룩업 테이블에서 검색하여 검색된 최적의 보행 제어 파라미터 값을 보행에 적용한다(S 550).

이어서, 로봇은 결정된 최적의 보행 제어 파라미터를 이용하여 보행을 하는 단계(단계 S530)와 이후의 단계들(단계 S540, S550)을 반복하며 보행을 수행한다.

이때, 룩업 테이블의 색인(index)은 사용자가 육안으로 확인할 수 있는 보행 평가 파라미터를 기준으로 설정되는 것이 바람직하며, 이에 따라 사용자는 동일한 보행 환경에 대한 로봇의 보행 상태가 점차적으로 개선되는 것을 육안으로 확인할 수 있게 된다.

도 7은 본 발명에 따른 이족 보행 로봇의 실제 보행 모드 순서도이다.

로봇의 실제 보행 모드와 연습 보행 모드의 기본적인 차이점은, 실제 보행 모드의 경우 로봇의 보행 중에 리모콘과 같은 원격제어수단을 통한 사용자의 개입이 없다는 것이며, 둘째로 학습 데이터에 주어진 실제 보행 환경과 동일한 보행 사례가 없을 수 있다는 것이다. 즉, 사용자는 보행 환경에 맞추어 태스크 파라미터를 설정하는 정도로만 로봇의 보행에 개입할 수 있으며, 실제 보행이 이루어지는 중에는 사용자가 임의로 보행 제어 파라미터를 변경할 수 없는 것이다.

따라서, 실제 보행 모드에서, 로봇은 먼저 학습 데이터로부터 최적의(또는 최근의) 보행 제어 파라미터를 검색하고 이를 보행에 적용한다(단계 S610).

학습 데이터의 검색에 의해 결정된 보행 제어 파라미터를 이용하여 보행을 수행하면서(S620), 보행 평가 파라미터와 보행 제어 파라미터를 학습 데이터로 기록한다(S630).

최초의 보행 제어 파라미터가 실제 주어진 보행 환경에 부적절한 경우, 보행 평가 파라미터의 에러 값이 상당한 값을 가질 것이며, 이에 따라 로봇은 그 에러 값과 동일 또는 가장 유사한 에러 값(즉, 보행 평가 파라미터 값)을 학습 데이터의 태스크 결과 테이블에서 인덱싱하고, 이에 대응하는 보행 제어 파라미터를 최적의 보행 제어 파라미터로 결정하여 다시 보행을 수행한다. 이때, 보행 평가 파라미터 를 현저하게 개선한 보행 제어 파라미터를 기록한 룩업 테이블에서 최적의 보행 제어 파라미터를 먼저 검색하는 것이 바람직하다.

이상에서는 본 발명의 바람직한 실시예를 참조하여 본 발명을 설명하였지만, 본 발명에 의한 권리 범위는 상기 실시예에 의해 한정되지 아니하면 다만 첨부된 특허청구범위에 기재된 사항에 의해서만 결정되어야 한다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 특허청구범위에 기재된 본 발명의 범위를 벗어나지 않고도 본 발명의 상기 실시예에 대한 다양한 수정이나 변경을 수행할 수 있을 것이다.

예컨대, 상기한 태스크 파라미터, 보행 제어 파라미터, 보행 평가 파라미터는 예시된 것들에 한정되지 아니하며, 로봇의 보행에 필요한 어떠한 종류의 구속 조건 내지 전제 조건도 태스크 파라미터의 범주에 속하며, 로봇의 보행을 제어하는데 이용되는 어떠한 종류의 데이터나 정보도 보행 제어 파라미터의 범주로 보아야 하고, 또 로봇의 보행 상태의 양부를 판단하는데 이용가능한 어떠한 종류의 데이터나 정보 내지 로봇의 보행 중에 측정가능한 어떠한 종류의 데이터나 정보도 보행 평가 파라미터의 범주에 포함된다. 또한, 이족 이상의 다족 보행 로봇인 이상 로봇의 적용분야(예컨대, 오락, 교육, 전투, 산업 등)에 의한 제한도 없다.

도 1은 본 발명에 따른 학습에 따른 보행 메커니즘을 구비한 로봇의 구성도.

도 2는 본 발명에 따른 이족 보행 로봇의 기하학적 구조도.

도 3은 본 발명에 따른 이족 보행 로봇의 역기구학적 모델링 개념도.

도 4는 본 발명에 따른 이족 보행 로봇의 간소화된 역기구학적 모델링 개념도.

도 5는 본 발명에 따른 이족 보행 로봇의 보행 궤도 설명도.

도 6은 본 발명에 따른 이족 보행 로봇의 연습 보행 모드 순서도.

도 7은 본 발명에 따른 이족 보행 로봇의 실제 보행 모드 순서도.

Claims

로봇의 각 구성 요소를 상호 연결하여 동작을 제어하기 위한 제어부와, 로봇의 제어에 필요한 각종 데이터와 프로그램을 저장하기 위한 저장부와, 상기 제어부의 지시에 따라 로봇을 구동하기 위한 구동부를 포함하여 구성되는 로봇에 있어서,

상기 저장부는 로봇의 보행을 제어하기 위한 보행 제어 파라미터 및 로봇의 보행을 평가하기 위한 보행 평가 파라미터를 포함하는 학습 데이터를 기록하는 것을 특징으로 하는, 학습에 의한 보행 메커니즘을 구비한 로봇.
제 1 항에 있어서,

상기 학습 데이터에는 로봇에게 주어진 태스크를 정의하는 태스크 파라미터와, 상기 보행 제어 파라미터 및 상기 보행 평가 파라미터가 태스크 결과 테이블로 저장되며, 상기 태스크 결과 테이블의 파라미터들 중 보행 상태를 현저하게 개선한 경우의 파라미터 값들은 별도의 룩업 테이블로 저장되는 것을 특징으로 하는, 학습에 의한 보행 메커니즘을 구비한 로봇.
제 1 항에 있어서,

로봇 외부의 원격제어수단과의 통신을 위한 통신부를 더 포함하며, 상기 태스크 파라미터와, 상기 보행 제어 파라미터와, 상기 보행 평가 파라미터의 설정은 상기 통신부를 통해 수행되는 것을 특징으로 하는, 학습에 의한 보행 메커니즘을 구비한 로봇.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 로봇은 2족 보행 로봇이며,

상기 태스크 파라미터는 보행시 걸음의 주기, 보폭, 회전 방향, 회전 반경, 보행 속도, 가속도, 보행로의 길이, 면적, 요철, 경사, 방향, 바람의 세기와 방향으로 구성되는 그룹으로부터 하나 이상 선택되며,

상기 보행 제어 파라미터는 상기 구동부를 구성하는 각 액츄에이터의 피치, 롤, 요와, 상기 구동부의 일부인 로봇의 고관절, 무릎관절, 족부관절의 x, y, z축 방향에서의 관성 스와핑 양과 시간, 상기 고관절, 무릎관절, 족부관절의 이동량과 방향 및 각도, 및 이들의 변화량으로 구성되는 그룹으로부터 하나 이상 선택되며,

상기 보행 평가 파라미터는 로봇의 흔들림 정도, 방향, 최대 및 최소 각도, 로봇의 전도 횟수, 최적 보행 자세와의 x, y, z축 방향에서의 오차, 로봇의 좌측발과 우측발의 오차량 차이, 및 이들의 변화량으로 구성되는 그룹으로 하나 이상 선택되는 것을 특징으로 하는, 학습에 의한 보행 메커니즘을 구비한 로봇.
로봇의 각 구성 요소를 상호 연결하여 동작을 제어하기 위한 제어부와, 상기 제어부의 지시에 따라 로봇을 구동하기 위한 구동부를 포함하여 구성되는 로봇에 있어서,

상기 제어부는 로봇이 실제로 시도한 보행 경험에서 습득한 데이터를 활용하 여 다음번 보행에서 보행 성능을 개선하는 알고리즘을 구비하는 것을 특징으로 하는, 학습에 의한 보행 메커니즘을 구비한 로봇.
시행착오를 거치며 획득한 학습 데이터로부터 새로운 보행 환경에 적합한 보행 제어 파라미터를 결정하여 보행을 수행하고 보행 상태를 자체적으로 평가한 후, 안정적인 보행 상태로 신속히 진입하도록 최적의 보행 제어 파라미터를 선택하여 보행을 수행하고 다시 보행 상태를 평가하는 과정을 반복하는 것을 특징으로 하는, 학습에 의한 보행 메커니즘을 구비한 로봇.
제한적인 상황에서 보행시에 발생하는 데이터를 학습 데이터로 저장하는 단계; 및

상기 학습 데이터를 이용하여 다양한 상황에서 보행을 수행하는 단계를 포함하는 것을 특징으로 하는, 학습에 의한 로봇의 보행 방법.
제 7 항에 있어서,

외력에 의해 로봇의 보행에 영향을 미치는 관성 요인이 변화하는 경우에, 변화된 환경과 가장 유사한 환경에 대응하는 학습 데이터를 이용하여 보행을 수행하는 단계를 더 포함하는 것을 특징으로 하는, 학습에 의한 로봇의 보행 방법.
(A) 로봇의 보행에 관련된 태스크 파라미터, 보행 제어 파라미터 및 보행 평 가 파라미터를 설정하는 단계;

(B) 주어진 태스크 파라미터와 가장 유사한 태스크 파라미터를 학습 데이터에서 검색하는 단계;

(C) 학습 데이터에서 검색된 태스크 파라미터에 대응되는 보행 제어 파라미터를 적용하여 로봇의 보행을 수행하는 단계;

(D) 보행 평가 파라미터와 적용 중인 보행 제어 파라미터를 학습 데이터에 기록하는 단계;

(E) 상기 학습 데이터로부터 상기 보행 평가 파라미터 값을 최적화할 수 있는 최적의 보행 제어 파라미터를 검색하는 단계;

(F) 검색된 최적의 보행 제어 파라미터 값을 적용하여 상기 (C) 보행 수행 단계, 상기 (D) 상기 학습 데이터 기록 단계, 및 상기 (E) 최적 보행 제어 파라미터 검색 단계를 반복하는 것을 특징으로 하는, 학습에 의한 로봇 보행 방법.
(G) 로봇의 보행에 관련된 태스크 파라미터, 보행 제어 파라미터 및 보행 평가 파라미터를 설정하는 단계;

(H) 상기 파라미터들에 대한 미리 설정된 초기 값을 이용하여 로봇의 보행을 수행하는 단계;

(I) 원격 제어 수단을 이용하여 로봇의 보행을 제어하는 단계; 및

(J) 보행 평가 파라미터와 상기 원격 제어 수단을 통해 적용 중인 보행 제어 파라미터를 학습 데이터에 기록하는 단계를 포함하는 것을 특징으로 하는, 학습에 의한 로봇 보행 방법.
제 10 항에 있어서,

상기 (I) 원격 제어 수단을 이용한 로봇 보행 제어 단계는,

(K) 상기 학습 데이터로부터 상기 보행 평가 파라미터 값을 최적화할 수 있는 최적의 보행 제어 파라미터를 검색하고, 검색된 보행 제어 파라미터 값과 상기 원격 제어 수단에 의해 입력된 보행 제어 파라미터 값을 비교하여, 상기 보행 평가 파라미터 값을 최적화할 수 있는 보행 제어 파라미터를 선택하여 상기 로봇의 보행을 제어하는 단계인 것을 특징으로 하는, 학습에 의한 로봇 보행 방법.