KR102421676B1

KR102421676B1 - 다관절 로봇의 액추에이터들을 제어하기 위한 시스템 및 방법

Info

Publication number: KR102421676B1
Application number: KR1020197037844A
Authority: KR
Inventors: 사미 하다딘; 라르스 요한스마이어
Original assignee: 프랜카 에미카 게엠바하
Priority date: 2017-05-29
Filing date: 2018-05-29
Publication date: 2022-07-14
Also published as: KR20200033805A; EP3634694A1; CN110662634B; JP7244087B2; JP2020522394A; US20200086480A1; CN110662634A; WO2018219943A1

Abstract

본 발명은 다관절 로봇(80)의 액추에이터들을 제어하고 로봇(80)이 주어진 작업을 실행할 수 있게 하는 시스템에 관한 것이고, 시스템은 작업에 의존하여 스킬 공간으로부터 선택가능한 로봇 스킬들(s)의 사양을 제공하는 제1 유닛(101), 제2 유닛(102)을 포함하고, 제2 유닛(102)은 제1 유닛(101) 및 추가로 학습 유닛(103) 및 적응성 제어기(104)에 연결되고, 적응성 제어기(104)는 스킬 커맨드들(χ_cmd)을 수신하고, 스킬 커맨드들(χ_cmd)은 스킬 파라미터들(P_l)을 포함하고, 스킬 커맨드들(χ_cmd)에 기반하여, 제어기(104)는 로봇(80)의 액추에이터들을 제어하고, 로봇(80)의 실제 현황은 개별 센서들에 의해 감지되고 그리고/또는 개별 추정기들에 의해 추정되고 제어기(104) 및 제2 유닛(102)에 피드백되고, 실제 현황에 기반하여, 제2 유닛(102)은 로봇(80)에 의해 수행되는 스킬의 성능(Q(t))을 결정하고, 그리고 학습 유닛(103)은 제2 유닛(102)으로부터 P_D 및 Q(t)를 수신하고, 업데이트된 스킬 파라미터들(P_l(t))을 결정하고 P_l(t)를 제2 유닛(102)에 제공하여 지금까지의 기존 스킬 파라미터들(P_l)을 대체한다.

Description

다관절 로봇의 액추에이터들을 제어하기 위한 시스템 및 방법

본 발명은 다관절 로봇의 액추에이터(actuator)들을 제어하기 위한 시스템 및 방법에 관한 것이다.

복잡한 로봇들을 프로그래밍하는 종래의 방식은, 전문가들뿐 아니라 작업 현장 노동자들, 다른 말로 비전문가들이 그들 작업을 위해 로봇들을 활용할 수 있도록 때때로 더 직관적이 되게 한다. "스킬(skill)" 및 "작업-기반 프로그래밍"이라는 용어들은 이런 맥락에서 매우 중요하다. "스킬들"은 특히 로봇의 미리 정의된 동작들 또는 움직임들의 일부 공식적인 표현이다. 스킬들을 이용한 프로그래밍에 대한 몇몇 접근법들이 존재하고(예컨대 [1], [2], [3]), 이들 접근법들은 특히 대부분 제어기와 무관하게 보여지고, 즉 특히 제어기는 스킬 구현에 의해 계산된 커맨드들만을 실행한다. 이로부터, 기본적인 제어기가 조작 스킬들에 대해 공통 요소이고, 따라서 조작 스킬들에 의해 공유된 파라미터들의 세트를 제공한다는 것을 알 수 있다. 그러나, 일반적인 지식에 따라, 모든 조작 스킬들에 대해 동일한 파라미터 값들을 사용하는 것은 효율적이지 않고 종종 심지어 실현가능하지 않다. 통상적으로, 상이한 환경들에서 동일한 스킬을 고려하는 것조차도 가능하지 않다. 특정 상황에 의존하여, 상이한 환경 특성들, 이를테면 관여된 물체들의 더 거친 표면들 또는 상이한 질량들을 설명하기 위해 파라미터들이 적응되어야 한다. 주어진 확실성의 경계들 내에서, 파라미터들은, 스킬이 특정 비용 함수에 관하여 최적으로, 또는 적어도 최적에 가깝게 수행되도록 선정될 수 있다. 특히, 이 비용 함수 및 제약들은 일반적으로 인간 사용자에 의해 몇몇 의도, 예컨대 로봇의 낮은 접촉력들, 짧은 실행 시간 또는 낮은 전력 소비로 정의된다. 이런 맥락에서 중요한 문제는 그런 비용 함수를 최소화하거나 작업 사양 및 로봇 능력들 이외의 작업에 관한 임의의 사전-지식을 반드시 필요로 하지 않고 첫째로 실현가능한 파라미터 공간의 구역들을 발견하기 위해 제어기 파라미터들을 튜닝하는 것이다. 증명(demonstration)에 의해 모터 스킬들을 학습하는 것을 설명한 [4]와 같은 상이한 방식들로 이 문제에 대처하는 몇몇 접근법이 제안되었다. [5]에서, 증명으로부터 새로운 모터 스킬들을 취득하는 것에 대한 강화 학습 기반 접근법이 도입된다. [6], [7]의 저자들은 스킬을 나타내는 모터 프리미티브(primitive)들을 학습하기 위해 강화 학습 방법들을 이용한다. [8]에서, 증명 접근법에 의한 감독 학습은 시뮬레이션에서 2 족 보행을 학습하기 위해 동적 움직임 프리미티브들과 함께 사용된다. 로봇 스킬들을 학습하기 위해 비선형 다층 인공 신경망과 결합하여 확률론적인 실제-가치 강화 학습 알고리즘을 활용하는 초기 접근법은 [9]에서 발견될 수 있다. 소프트 로봇공학은 [10]에 도시되고, 복잡한 조작 문제들에 아이디어를 적용하기 위한 임피던스 제어는 [11]에 도시된다. 적응성 임피던스 제어기는 [12]에서 도입된다. 둘 모두는 모션 에러에 따라 그리고 4 개의 물리적으로 의미있는 메타 파라미터들에 기반하여 실행 동안 적응된다. 이로부터, 환경 및 당면한 문제에 관하여 이들 메타 파라미터들이 어떻게 선정될 수 있는지에 대한 질문이 발생한다.

본 발명의 목적은 로봇 조작 스킬들의 개선된 학습을 위한 시스템 및 방법을 제공하는 것이다.

본 발명의 제1 양상은 다관절 로봇의 액추에이터들을 제어하고 로봇이 주어진 작업을 실행할 수 있게 하는 시스템에 관한 것이고, 시스템은:

- 작업에 의존하여 스킬 공간으로부터 선택가능한 로봇 스킬들(s)의 사양을 제공하는 제1 유닛 ― 로봇 스킬(s)은 튜플(tuple)(S, O, C_pre, C_err, C_suc, Rm, X_cmd, X, P, Q)로서 정의되고,

S: I 서브공간들(

)의 데카르트 곱이고(

),

및

,

O: 물리적 객체들의 세트,

C_pre: 전제 조건,

C_err: 에러 조건,

C_suc: 성공 조건,

R: 이상적인 스킬 실행의 공칭 결과,

χ_cmd: 스킬 커맨드들,

X: 물리적 좌표들,

P: 스킬 파라미터들이고, 이때 P는 3 개의 서브세트들(P_t, P_l, P_D)로 이루어지고, P_t는 작업의 선험적 지식으로부터 발생하는 파라미터들이고, P_l은 작업의 실행 동안 학습 및/또는 추정될 필요가 있는 처음에 알려지지 않은 파라미터들이고, 그리고 P_D는 파라미터들(P_l)의 제약들이고,

Q: 성능 메트릭이지만, Q(t)는 로봇에 의해 수행되는 스킬의 실제 성능을 나타냄 ―,

- 제2 유닛을 포함하고, 제2 유닛은 제1 유닛 및 추가로 학습 유닛 및 적응성 제어기에 연결되고, 적응성 제어기는 스킬 커맨드들(χ_cmd)을 수신하고, 스킬 커맨드들(χ_cmd)은 스킬 파라미터들(P_l)을 포함하고, 여기서 스킬 커맨드들(χ_cmd)에 기반하여, 제어기는 로봇의 액추에이터들을 제어하고, 로봇의 실제 현황은 개별 센서들에 의해 감지되고 그리고/또는 개별 추정기들에 의해 추정되고 제어기 및 제2 유닛에 피드백되고, 실제 현황에 기반하여, 제2 유닛은 로봇에 의해 수행되는 스킬의 성능(Q(t))을 결정하고, 그리고 학습 유닛은 제2 유닛으로부터 P_D 및 Q(t)를 수신하고, 업데이트된 스킬 파라미터들(P_l(t))을 결정하고 P_l(t)를 제2 유닛에 제공하여 지금까지의 기존 스킬 파라미터들(P_l)을 대체한다.

바람직하게, 서브공간들(

)은 제어 변수, 특히 원하는 변수, 또는 로봇 또는 측정된 상태, 특히 외부 힘 및 외부 모멘트를 포함하는 특히 외부 렌치(wrench)에 대한 외부 영향을 포함한다.

바람직한 적응성 제어기는 다음과 같이 도출된다:

로봇 역학들을 고려하자:

(1)

여기서 M(q)는 대칭, 양의 정해진 질량 매트릭스를 나타내고,

는 코리올리(Coriolis) 및 원심 토크들을 나타내고 그리고 g(q)는 중력 벡터를 나타낸다. 제어 법칙은 다음과 같이 정의된다:

(2)

여기서

는 피드-포워드 렌치를 나타내고, K(t)는 강성 매트릭스를 나타내고, D는 댐핑 매트릭스를 나타내고 그리고 J(q)는 자코비안(Jacobian)을 나타낸다. 포지션 및 속도 에러는 각각

및

에 의해 나타내진다.

는 병진 포지션 에러이고 그리고

는 회전 각도 축 에러이다. 역학 보상기(

)는 다음과 같이 정의된다:

(3).

피드 포워드 렌치(

)는 다음과 같이 정의된다:

(4)

여기서 Fd(t)는 선택적인 초기 시간 종속 궤적이고 그리고

는 적분기의 초기 값이다. 제어기는 하기 식들을 통해 피드 포워드 렌치 및 강성을 적응시킨다.

(5)

(6)

및

(7)

(8)

적응성 추적 에러는 다음과 같이 정의된다.

(9)

이때 K>0. 양의 정해진 매트릭스들(

및

)은 각각 피드 포워드 및 강성에 대한 학습률들 및 망각 요소(forgetting factor)들을 나타낸다. 댐핑(D)은 [21]에 따라 설계되고 그리고 T는 제어기의 샘플 시간이다.

위의 설명들과 함께, 바람직한 적응성 제어기가 기본적으로 제공된다.

바람직한

및

는 다음과 같은 제약들을 통해 도출된다:

적응성 임피던스 제어기의 제1 제약은 강성 적응 속도에 대한 상한(

)이다.

및

를 (8)에 삽입하는 것은 경계 강성 변화율과 함께, 하기 관계를 유도한다:

(10)

K(t-0) 및

라는 것이 가정되면, e_max는 바람직하게

가 유지되는 에러 양으로서 정의된다. 또한, K_max는 임의의 실세계 임피던스 제어 로봇에 대한 다른 제약인 절대 최대 강성을 나타낸다. 이어서, β에 대한 최대 값은 아래와 같이 쓰여질 수 있다:

(11)

K_max에 도달될 때

및

이기 때문에, (10)은 아래와 같이 다시 쓰여질 수 있다.

(12)

마지막으로, 적응성 파라미터들은

및

이 된다.

피드 포워드 렌치의 적응성을 찾는 것은 바람직하게 유사하게 행해진다. 이런 방식으로, α 및 β에 대한 상한들은 특히 고유 시스템 능력들(K_max 및 F_max)에 관련되고, 이는 가능한 가장 빠른 적응을 유도한다.

위의 설명들로, 바람직한

및

가 도출된다.

도입된 스킬 형식론은 특히 추상적 스킬, (학습 유닛에 의한) 메타 학습 및 적응성 제어 사이의 상호 작용에 중점을 둔다. 스킬은 특히 메타 파라미터들 및 작업을 실행하기 위한 관련 수량들과 함께 원하는 커맨드들 및 궤적들을 적응성 제어기에 제공한다. 게다가, 스킬은, 특히 실행에 사용되는 학습된 파라미터들의 세트를 수신하면서, 특히 학습 유닛에 대한 품질 메트릭 및 파라미터 도메인을 포함한다. 적응성 제어기는 특히 원하는 조인트(joint) 토크들을 통해 로봇 하드웨어에게 명령하고 감각 피드백을 수신한다. 마지막으로, 스킬 형식론은 특히 고급 작업 계획 모듈에 쉽게 연결하는 것을 가능하게 한다. 로봇 스킬들(s)의 사양은 바람직하게 제1 유닛으로부터 다음과 같이 제공된다:

다음 바람직한 스킬 형식론은, 조작된 객체들의 개념이 주요 관심사라는 점에서 객체-중심이다. 이런 접근법의 장점은 이의 간단한 표기법 및 직관적 해석능력이다. 더 큰 직관성의 양상은 자연 언어와의 유사성에 기반한다:

정의 1(스킬): 스킬(s)은 스킬-공간의 엘리먼트이다. 이는 튜플(S, O, C_pre, C_err, C_suc, R, X_cmd, X, P, Q)로서 정의된다.

정의 2(공간): S가 스킬(s)에 관련된/서브공간들(

)의 데카르트 곱이라 하자, 즉:

이고

및

이다.

바람직하게, 서브공간들(

)은 제어 변수, 특히 원하는 변수, 또는 로봇 또는 측정된 상태, 특히 외부 힘 및 외부 모멘트를 포함하는 특히 외부 렌치에 대한 외부 영향을 포함한다.

정의 3(객체): o는 물리적 객체와 연관된 좌표들(

)로 물리적 객체를 나타낸다고 하자. O는 스킬(s)에 관련된 물리적 객체들의 세트(o ∈ O)를 나타내고,

및

이다. 게다가, X(t)는

로서 정의된다. 이들 고려들에서, 세트(O)가 스킬 실행 동안 변화되지 않는다, 즉

=상수인 것을 주목하라.

정의 4(작업 프레임): 작업 프레임(

)은 프레임(TF)로부터 베이스 프레임(O)까지 회전을 나타낸다.

=상수를 가정하는 것을 주목하라.

정의 5(파라미터들): P는 3 개의 서브세트들(P_t, P_l 및 P_D)로 이루어진 모든 스킬 파라미터들의 세트를 나타낸다. 세트(P_t ⊂ P)는, 스킬이 실행되는 사전 작업 지식, 경험 및 의도로부터 발생하는 모든 파라미터들을 포함한다. 이런 맥락에서, P_t가 또한 작업 사양으로 지칭된다. 세트(P_l ⊂ P)는 반드시 사전에 알려지지 않고 학습되거나 추정될 필요가 있는 모든 다른 파라미터들을 포함한다. 특히, 세트(P_l ⊂ P)는 적응성 제어기에 대한 메타 파라미터들

을 포함한다. 제3 서브세트(P_D ⊂ P)는 P_l에 대한 유효 도메인을 정의하고, 즉 이는 연속 파라미터들에 대한 값들의 간격들 또는 이산 파라미터들에 대한 값들의 세트들로 이루어진다. 따라서, P_D는 P_l을 학습할 때 경계들을 결정한다.

조건들: 바람직하게 스킬의 실행에 관련된 3 개의 조건 타입들(전제 조건들, 실패 조건들 및 성공 조건들)이 있다. 이들 조건들 모두는 동일한 기본 정의를 공유하지만, 이들의 애플리케이션은 실질적으로 상이하다. 이들 목적은 처음부터 끝까지 스킬의 경계들 및 한계들을 정의하는 것이다:

정의 6(조건): C ⊂ S가 폐집합이고 그리고 c(X(t))가 함수(

)이고, 여기서 B = {0, 1}이라고 하자. 조건은 iff c(X(t)) = 1을 유지한다. 매핑 자체가 특정 타입의 조건에 의존하는 것을 주목하라.

정의 7(전제 조건): C_pre는, C_pre(X(t))에 의해 정의된 전제 조건이 유지되는 선정된 세트를 나타낸다. 조건은 유지된다, 즉 C_pre(X(t₀)) = 1, iff ∀ x ∈ X : x(t₀) ∈ C_pre이다. t₀는 스킬 실행의 시작시의 시간을 나타낸다. 이것은, 스킬 실행의 시작시, 모든 관여된 객체의 좌표들이 C_pre에 놓여야 하는 것을 의미한다.

정의 8(에러 조건): C_err은, 에러 조건(C_err(X(t)))이 유지되는, 즉 C_err(X(t)) = 1인 선정된 세트를 나타낸다. 이것은 ∃ x ∈ X : x(t) ∈ C_err이다. 에러 조건이 시간(t)에서 충족되면, 스킬 실행은 중단된다. 여기서, 이런 에러 상태가 어떻게 해결되는지에 관한 가정들은 본원에서 이루어지지 않는 데, 그 이유는 이것이 특히 실제 스킬 구현 및 고급 제어 및 계획 기관의 능력들에 의존하기 때문이다.

정의 9(성공 조건): C_suc은, C_suc(X(t))에 의해 정의된 성공 조건이 유지되는, 즉 C_suc(X(t)) = 1 iff ∀ x ∈ X : x(t) ∈ C_suc인 선정된 세트를 나타낸다. 모든 관여된 객체들의 좌표들이 C_suc 내에 있다면, 스킬 실행은 성공적으로 종료될 수 있다. 이것에 의해, 스킬이 종료되어야 하는 것이 언급되지 않는다.

정의 10(공칭 결과): 공칭 결과(R ∈ S)는 스킬 실행의 이상적인 종점, 즉 수렴 점이다. 비록 공칭 결과(R)가 스킬의 이상적인 목표이지만, 그렇더라도 성공 조건들(C_suc)이 유지되면 이의 실행은 성공적인 것으로 고려된다. 그럼에도 불구하고, X(t)는 이 지점으로 수렴한다. 그러나, 2 개 이상의 스킬이 큐잉되면 하나의 스킬로부터 다음 스킬로 혼합하는 것이 가능하다.

정의 11(스킬 역학): X : [t₀,∞] → P가 일반적인 역학 프로세스라 하고, 여기서 t₀는 스킬 실행의 시작을 나타낸다. 프로세스는, ( ∀ C_suc ∈ C_suc : C_suc(X(t)) = 1) ∨ ( ∃ C_err ∈ C_err : C_err(X(t)) = 1)이면 종료될 수 있다.

이는 공칭 결과(R)로 수렴한다. 이런 역학 프로세스는, 입력, 즉 구체적 구현에 의존하여 스킬이 실제로 수행하는 바를 인코딩한다. 이것은 바람직하게 궤적 생성기, DMP 또는 센서 기반 속도 또는 힘 커맨드들을 계산하는 일부 다른 알고리즘 중 하나이다. 종료 시간(t_e)은 반드시 사전에 알려지지는 않는다. 예컨대, 검색 스킬에 대해, 검색 문제의 성질로 인해 종료되는 시점이 결정될 수 없다.

정의 12(커맨드들):

가 스킬 커맨드들, 즉 제어기에 전송된 TF에서 정의된 속도들 및 힘들로 이루어진 원하는 궤적이라고 하자.

정의 13(품질 메트릭): Q는 0 < w < 1에서 모두 2 개의-튜플들(w,f_q(X(t)) 및 제약들(f_c,i(X(t)))의 세트를 나타낸다. 또한 (

)라고 하자. 품질 메트릭은 스킬의 성능을 평가하고 이에 대해 품질 제약들을 부과하는 수단이다. 이런 평가는 동일한 스킬의 2 개의 상이한 구현들 또는 2 개의 상이한 파라미터들의 세트들(P)을 비교하는 것을 목표로 한다. 제약들은 예컨대 특정 작업에 대한 품질 한계들(예컨대, 특정 시간 한계)의 측정을 제공하는 데 사용될 수 있다. 스킬이 인간 감독자에 의해 실행 또는 제공되는 전체 프로세스로부터 도출되는 일부 기준을 품질 메트릭이 반영하는 것을 주목하라. 또한, 스킬이 상이한 최적성 요구들을 처리하기 위해 몇몇 상이한 메트릭들을 갖는 것은 바람직한 실시예이다.

위로부터로 인해, 로봇 스킬들(s)의 사양은 제1 유닛으로부터 바람직한 방식으로 제공된다.

학습 유닛은 바람직하게 다음과 같이 도출된다:

학습 유닛은 특히 주어진 작업을 해결하기 위해 올바른(최적의) 파라미터들(p^* ∈ P_l)을 찾는 것을 의미하는 메타 학습을 적용한다. 요건들: 다른 파라미터들, 이를테면 실행 속도와 함께 제어기 메타 파라미터들을 학습하기 위해, 몇몇 잠재적으로 적합한 학습 방법들이 평가될 것이다. 방법은 다음 문제들에 직면한다:

- 문제들은 실현가능한 분석 솔루션을 갖지 않음,

-기울기들이 일반적으로 이용가능하지 않음,

-실세계 문제들이 본질적으로 확률론적임,

-최소 또는 비용 함수 볼록성을 가정하지 않음,

-안전, 작업 또는 품질 제약들의 위반,

-중요한 프로세스 노이즈 및 많은 반복들,

그러므로, 적합한 학습 알고리즘은 후속 요건들을 충족하여야 함:

● 수치적 블랙-박스 최적화,

● 기울기들이 요구되지 않음,

● 확률이 고려되어야 함,

● 글로벌 최적화기,

● 알려지지 않고 노이즈 제약들을 처리,

● 빠른 수렴 속도들.

바람직하게, 메타 학습을 위한 다음 알고리즘들 또는 이의 조합 중 하나가 학습 유닛에 적용된다: 그리드 검색, 순수 랜덤 검색, 기울기-하강 패밀리, 진화 알고리즘들, 파티클 스웜(Particle Swarm), 베이지안 최적화.

일반적으로, 기울기-하강 기반 알고리즘들은 기울기가 이용가능할 것을 요구한다. 그리드 검색 및 순수 랜덤 검색뿐 아니라 진화 알고리즘들은 통상적으로 확률을 가정하지 않으며 그리고 그들이 최적한 문제에 관한 광범위한 지식 없이 알려지지 않은 제약들을 처리할 수 없고, 즉, 잘-알려진 장벽 함수들을 이용한다. 후자는 또한 파티클 스웜 알고리즘들에 적용된다. [25]에 따른 베이지안 최적화만이 최적화 동안 알려지지 않은 노이즈 제약들을 명확하게 처리할 수 있다. 주 요건들 중 다른 요건 및 명확한 요건은 거의 없고, 가능하다면, 어떠한 수동 튜닝도 필요하지 않다. 예컨대 학습률들을 선정하거나 노이즈에 관한 명시적 가정들을 만드는 것은 이런 의도와 어긋날 것이다. 명백히, 이런 요건은 구체적인 구현뿐 아니라 최적화기 등급 및 이의 개별 요건들에 대해 상당히 의존한다.

모든 언급된 요건들을 고려하면, [26], [27], [28], [25]로부터 알려진 스피어민트 알고리즘이 바람직하게 적용된다. 이런 특정 구현은 수동 튜닝을 요구하지 않고, 사전 및 취득 기능을 사전에 1회만 지정하도록 요구된다.

더 바람직하게, 베이지안 최적화가 적용된다. 바람직하게, 베이지안 최적화는 다음과 같이 실현 및 구현된다:

일반적으로, 베이지안 최적화(BO)는 f(p)의 통계 모델을 개발함으로써 일부 경계 세트(X)에서 알려지지 않은 목적 함수(f(p))의 최소치를 찾는다. 비용 함수 외에, 베이지안 최적화(BO)는 사전 및 취득 함수인 2 개의 주요 컴포넌트들을 갖는다. 사전: 특히 가우시안 프로세스는 최적화되는 함수에 관한 가정들을 도출하기 전에 사용된다. 가우시안 프로세스는 평균 함수(x→IR) 및 공분산 함수(

)를 갖는다. 커널(kernel)로서, 바람직하게 ARD(automatic relevance determination) Matern 5/2 커널이 사용되고, 이는 아래에 의해 제공된다:

이때

.

이 커널은 d 차원들의 d+3 하이퍼파라미터들, 즉 차원당 하나의 특징 길이 스케일, 공분산 진폭(θ0), 관측 노이즈(v) 및 상수 평균(m)을 갖는다. 이들 커널 하이퍼파라미터들은 슬라이스 샘플링을 통해 MCMC(Markov chain Monte Carlo)를 적용함으로써 통합된다[29]. 취득 함수: 바람직하게, [30]에 설명된 바와 같이, 제약들을 갖는 예측 엔트로피 검색(PESC)은 탐사할 다음 파라미터들(x)을 선택하기 위한 수단으로서 사용된다. 비용 함수: 바람직하게, 위에서 정의된 비용 메트릭(Q)은 파라미터들(P_l)의 특정 세트를 평가하기 위해 직접 사용된다. 또한, 조건들(C_suc 및 C_err)을 사용함으로써 스킬의 성공 또는 실패가 평가될 수 있다. 베이지안 최적화는 [25]에서 설명된 바와 같이 성공 및 실패 조건들뿐 아니라 Q의 제약들을 직접 사용할 수 있다.

본 발명은 다음 장점들을 제시한다: [12]로부터의 적응성 제어기는 직교 공간 및 전체 피드 포워드 추적으로 확대된다. 임피던스 제어의 실세계 제약들에 기반한 적응성 제어기에 대한 새로운 메타 파라미터 설계가 제공된다. 로봇 조작을 설명하고 고급 사양과 저급 적응성 상호작용 제어 사이의 간극을 메우기 위한 새로운 형식론은 도입된다. 로봇공학 [16], [17], [18]에 자주 적용되는 베이지안 최적화[14]를 통한 메타 학습은 적응성 임피던스 제어와 고급 스킬 사양 사이의 누락된 계산 링크이다. 모든 적응성 임피던스 제어, 메타 학습 및 스킬 사양을 폐루프 시스템으로 구성하는 통합된 프레임워크가 도입된다.

본 발명의 실시예에 따라, 적응성 제어기는

를 통해 피드 포워드 렌치 및 강성을 적응시킨다.

본 발명의 다른 실시예에 따라, 학습 유닛은 베이지안 및/또는 HiREPS 최적화/학습을 수행한다.

HiREPS는 "Hierarchical Relative Entropy Policy Search"의 약어이다.

본 발명의 다른 실시예에 따라, 시스템은 데이터 네트워크와의 데이터 인터페이스를 포함하고, 그리고 시스템은 데이터 네트워크로부터 시스템을 셋업 및 제어하기 위한 시스템-프로그램들을 다운로드하도록 설계 및 셋업된다.

본 발명의 다른 실시예에 따라, 시스템은 데이터 네트워크로부터 시스템-프로그램들에 대한 파라미터들을 다운로드하도록 설계 및 셋업된다.

본 발명의 다른 실시예에 따라, 시스템은 로컬 입력-인터페이스 및/또는 티치-인-프로세스(teach-in-process)를 통해 시스템-프로그램들에 대한 파라미터들을 입력하도록 설계 및 셋업되고, 로봇은 수동으로 안내된다.

본 발명의 다른 실시예에 따라, 시스템은, 데이터 네트워크로부터 시스템-프로그램들 및/또는 개별 파라미터들을 다운로드하는 것이 원격 스테이션에 의해 제어되도록 설계 및 셋업되고, 그리고 원격 스테이션은 데이터 네트워크의 일부이다.

본 발명의 다른 실시예에 따라, 시스템은, 시스템에서 로컬적으로 이용가능한 시스템-프로그램들 및/또는 개별 파라미터들이 데이터 네트워크로부터 수신된 개별 요청에 기반하여 데이터 네트워크의 하나 이상의 참여자들에게 전송되도록 설계 및 셋업된다.

본 발명의 다른 실시예에 따라, 시스템은, 시스템에서 로컬적으로 이용가능한 개별 파라미터들을 갖는 시스템-프로그램들이 원격 스테이션으로부터 시작될 수 있도록 설계 및 셋업되고, 그리고 원격 스테이션은 데이터 네트워크의 일부이다.

본 발명의 다른 실시예에 따라, 시스템은, 원격 스테이션 및/또는 로컬 입력-인터페이스가 시스템-프로그램들 및 개별 파라미터들의 입력을 위해 설계 및 셋업되고 그리고/또는 다수의 시스템-프로그램들 및 개별 파라미터들로부터 시스템-프로그램들 및 개별 파라미터들을 선택하기 위한 인간-기계-인터페이스(HMI)를 포함하도록 설계 및 셋업된다.

본 발명의 다른 실시예에서, 인간-기계-인터페이스(HMI)는, 입력들이 터치스크린 상의 "드래그-앤드-드롭(drag-and-drop)", 안내 대화, 키보드, 컴퓨터-마우스, 촉각 인터페이스, 가상-현실-인터페이스, 증강 현실 인터페이스, 음향 인터페이스를 통해, 신체 추적 인터페이스를 통해, 근전도 검사 데이터에 기반하여, 전기 뇌조영술(elektroenzephalographic) 데이터에 기반하여, 신경 인터페이스를 통해, 또는 이의 조합을 통해 가능하도록 설계 및 셋업된다.

본 발명의 다른 실시예에 따라, 인간-기계-인터페이스(HMI)는 청각적, 시각적, 촉각적, 후각적, 촉감적, 또는 전기 피드백 또는 이의 조합을 전달하도록 설계 및 셋업된다.

본 발명의 다른 양상은 위 및 아래에 도시된 시스템을 갖는 로봇에 관한 것이다.

본 발명의 다른 양상은 다관절 로봇의 액추에이터들을 제어하고 로봇이 주어진 작업을 실행하게 할 수 있는 방법에 관한 것이고, 로봇은 제1 유닛, 제2 유닛, 학습 유닛 및 적응성 제어기를 포함하고, 제2 유닛은 제1 유닛 및 추가로 학습 유닛 및 적응성 제어기에 연결되고, 다음 단계들을 포함한다:

- 제1 유닛(101)에 의한 작업에 의존하여 스킬 공간으로부터 선택가능한 로봇 스킬들(s)의 사양을 제공하는 단계 ― 로봇 스킬(s)은 튜플(S, O, C_pre, C_err, C_suc, R, X_cmd, X, P, Q)로서 정의되고,

S: I 서브공간들(

)의 데카르트 곱이고(

),

및

,

O: 객체들의 세트,

C_pre: 전제 조건,

C_err: 에러 조건,

C_suc: 성공 조건,

R: 이상적인 스킬 실행의 공칭 결과,

χ_cmd: 스킬 커맨드들,

X: 물리적 좌표들,

- 적응성 제어기가 제2 유닛으로부터 스킬 커맨드들(χ_cmd)을 수신하는 단계 ― 여기서 제2 유닛은 제1 유닛 및 추가로 학습 유닛 및 적응성 제어기에 연결되고 그리고 스킬 커맨드들(χ_cmd)은 스킬 파라미터들(P_l)을 포함함 ―,

- 제어기에 의해 그리고 스킬 커맨드들(χ_cmd)에 기반하여 로봇의 액추에이터들을 제어하는 단계 ― 로봇의 실제 현황은 개별 센서들에 의해 감지되고 그리고/또는 개별 추정기들에 의해 추정되고 제어기 및 제2 유닛에 피드백됨 ―,

- 제2 유닛에 의해 그리고 실제 현황에 기반하여, 로봇에 의해 수행되는 스킬의 성능(Q(t))을 결정하는 단계,

- 학습 유닛이 제2 유닛으로부터 P_D 및 Q(t)를 수신하는 단계, 및

- 업데이트된 스킬 파라미터들(P_l(t))을 결정하고 P_l(t)를 제2 유닛에 제공하고 그리고 지금까지의 기존 스킬 파라미터들(P_l)을 대체하는 단계.

바람직하게, 서브공간들(

본 발명의 다른 양상은 데이터 프로세싱 유닛을 갖는 컴퓨터 시스템에 관한 것이고, 데이터 프로세싱 유닛은 전술한 청구항들 중 하나에 따른 방법을 수행하도록 설계 및 셋업된다.

본 발명의 다른 양상은 전자적으로 판독가능한 제어 신호들을 갖는 디지털 데이터 저장소에 관한 것이고, 제어 신호들은 프로그램가능 컴퓨터 시스템과 협력할 수 있어서, 전술한 청구항들 중 하나에 따른 방법이 수행된다.

본 발명의 다른 양상은, 프로그램 코드가 컴퓨터 시스템 상에서 실행되면, 전술한 청구항들 중 하나에 따른 방법을 실행하기 위한 기계-판독가능 매체에 저장된 프로그램 코드를 포함하는 컴퓨터 프로그램 제품에 관한 것이다.

본 발명의 다른 양상은, 컴퓨터 프로그램이 컴퓨터 시스템 상에서 실행되면, 전술한 청구항들 중 하나에 따른 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램에 관한 것이다.

위에서 언급된 종래 기술의 소스들 및 추가적인 소스들은 다음과 같다:

도 1은 본 발명의 제1 실시예에 따른 페그-인-홀(peg-in-hole) 스킬을 도시한다.
도 2는 본 발명의 다른 실시예에 따른 스킬 역학들의 개념 스케치를 도시한다.
도 3은 본 발명의 제3 실시예에 따른 다관절 로봇의 액추에이터들을 제어하기 위한 방법을 도시한다.
도 4는 본 발명의 다른 실시예에 따른 다관절 로봇의 액추에이터들을 제어하고 로봇이 주어진 작업을 실행할 수 있게 하는 시스템을 도시한다.
도 5는 상이한 레벨의 세부항목으로 도 4의 시스템을 도시한다.
도 6은 본 발명의 다른 실시예에 따른 다관절 로봇의 액추에이터들을 제어하고 로봇이 주어진 작업을 실행할 수 있게 하는 시스템을 도시한다.

도 1에서, 표준 조작 문제에 대한 스킬 프레임워크, 즉 스킬 "페그-인-홀"의 애플리케이션이 도시된다. 도면의 좌측 절반에서, 로봇(80)은 적합한 관심 구역(ROI)(1)에 위치되고, 파지된 페그(3)는 홀(5)을 갖는 객체의 표면과 접촉한다. 스킬은 속도 기반 검색 알고리즘으로부터 발생하는 속도들을 명령하여, 정렬에 따라 홀(5)을 찾고, 그리고 후속하여 페그(3)를 홀(5)에 삽입하는 것을 목표로 한다. 정렬 단계에서, 피드 포워드 힘은 수직-아래(도 1의 아래) 및 좌측에 적용된다. 동시에, 정렬 움직임은 2 개의 수평 축들을 중심으로 기본 회전들로 이루어진다(도 1의 좌측에서 우측으로 그리고 종이 평면 내로). 삽입 단계 동안, 스킬은, xd가 원하는 깊이에 도달할 때까지

를 명령한다. 동시에, 수직 리사주(Lissajous) 속도들(

)이 오버레이된다. 페그(3)가 원하는 깊이에 도달하면, 스킬은 성공적이다. 스킬은 다음과 같이 정의된다:

S = {x, R, F_ext, τ_ext}이고, 여기서

는 직교 공간에서의 포지션이고,

는 배향이고,

는 외부 힘들 및 토크들의 렌치이고 그리고

는 외부 토크들의 벡터이고, 여기서 n은 조인트들의 수를 나타낸다. 객체들은 O = {r, p, h}이고, 여기서 r은 로봇(80)이고, p는 로봇(80)을 사용하여 파지된 객체 또는 페그(3)이고 그리고 h는 홀(5)이다. C_pre = {X ∈ S | F_ext,z > f_contact, x ∈ U(x), g(r, p) = 1}는, 로봇(80)이 특정 접촉력(f_contact)을 감지할 것이고 그리고 페그(3)가 U(.)에 의해 정의된 관심 구역(ROI)(1) 내에 있어야 하는 것을 명시한다. 함수(g(r,p))는 이진 매핑에 페그(p)(3)를 파지하는 로봇(r)(80)의 조건을 단순화시킨다. C_suc = {X ∈ S | x_z > x_z,0 + d}는 스킬을 성공적으로 종료하기 위해 홀(5)에 적어도 d만큼 페그(3)가 부분적으로 삽입되어야 하는 것을 명시한다. 이상적으로 d는 홀(5)의 깊이이다.

는, 로봇(80)이 ROI(1)를 떠나거나 외부 토크들이 컴포넌트별 일부 지정된 안전 한계를 초과하면 스킬이 실패한다는 것을 명시한다.

이고,

및

에서, a는 리사주 곡선들의 진폭이고, d는 원하는 깊이고,

는 홀(5)의 포즈 추정이고 그리고 r은 관심 구역(ROI)(1)의 반경이다. 제어기 파라미터들(

및

)은 위에 도시된 일반적인 설명에서와 같이 적용된다. v는 속도이고 그리고 인덱스들은 t이고, r은 각각 병진 및 회전 방향들을 지칭한다. Q_time = {t_e - t_s, f_z,max = max_t f_ext,z}이고, 여기서 t_e 및 t_s는 스킬 실행의 시작 및 종료 시간이고 그리고 F_ext,z는 z-방향으로의 외부 힘이다. 이 메트릭은 실행 시간을 최소화하고 그리고 동시에 삽입 방향으로 최대 레벨의 접촉 힘들을 따르는 것을 목표로 한다.

도 2는 스킬 역학의 개념 스케치를 도시한다. 실행 시작 시, 모든 좌표들, 즉 모든 물리적 객체들(O)은, 전제 조건들이 유지되는 S의 C_pre에 상주한다. 이어서, 스킬 역학은 시스템을 스킬 공간을 통해 성공 조건(C_suc)으로 그리고 궁극적으로 공칭 결과(R)로 구동한다. 유효 스킬 공간은 C_err에 의해 둘러싸인다. 약어 "D.<Number>"는 아래 정의들을 지칭하여, 예컨대 "D.4"는 다음 설명으로부터의 정의 4를 지칭한다. 스킬은 메타 파라미터들 및 작업을 실행하기 위한 관련 수량들과 함께 원하는 커맨드들 및 궤적들을 적응성 제어기(104)에 제공한다. 게다가, 스킬은, 실행에 사용되는 학습된 파라미터들의 세트를 수신하면서, 학습 유닛(103)의 학습 알고리즘에 대한 품질 메트릭 및 파라미터 도메인을 포함한다. 적응성 제어기(104)는 원하는 조인트 토크들을 통해 로봇 하드웨어에게 명령하고 센서 피드백을 수신한다. 마지막으로, 스킬 형식론은 고급 작업 계획 모듈에 쉽게 연결하는 것을 가능하게 한다. 다음 바람직한 스킬 형식론이 적용된다:

정의 2(공간): S가 스킬(s)에 관련된/서브공간들(

)의 데카르트 곱이라 하자, 즉:

이고, 이때

및

이고, 여기서 서브공간들(

)은 외부 힘 및 외부 모멘트를 포함하는 외부 렌치 및 제어 변수를 포함한다.

정의 3(객체): o는 이와 연관된 좌표들(

)로 물리적 객체를 나타낸다고 하자. O는 스킬(s)에 관련된 모든 객체들의 세트(o ∈ O)를 나타내고,

및

이다. 게다가, X(t)는

=상수이다.

정의 4(작업 프레임): 작업 프레임(

=상수라는 것이 가정된다.

정의 5(파라미터들): P는 3 개의 서브세트들(P_t, P_l 및 P_D)로 이루어진 모든 스킬 파라미터들의 세트를 나타낸다. 세트(P_t ⊂ P)는, 스킬이 실행되는 사전 작업 지식, 경험 및 의도로부터 발생하는 모든 파라미터들을 포함한다. P_t가 또한 작업 사양으로 지칭된다. 세트(P_l ⊂ P)는 반드시 사전에 알려지지 않고 학습되거나 추정될 필요가 있는 모든 다른 파라미터들을 포함한다. 특히, 세트(P_l ⊂ P)는 적응성 제어기에 대한 메타 파라미터들

조건들: 스킬의 실행에 관련된 3 개의 조건 타입들(전제 조건들, 실패 조건들 및 성공 조건들)이 있다. 이들 조건들 모두는 동일한 기본 정의를 공유하지만, 이들의 애플리케이션은 실질적으로 상이하다. 이들 목적은 처음부터 끝까지 스킬의 경계들 및 한계들을 정의하는 것이다:

정의 6(조건): C ⊂ S가 폐집합이고 그리고 c(X(t))가 함수(

)이고, 여기서 B = {0, 1}이라고 하자. 조건은 iff c(X(t)) = 1을 유지한다. 매핑 자체가 특정 타입의 조건에 의존한다.

정의 8(에러 조건): C_err은, 에러 조건(C_err(X(t)))이 유지되는, 즉 C_err(X(t)) = 1인 선정된 세트를 나타낸다. 이것은 ∃ x ∈ X : x(t) ∈ C_err이다. 에러 조건이 시간(t)에서 충족되면, 스킬 실행은 중단된다. 이런 에러 상태가 어떻게 해결되는지에 관한 가정들은 이루어지지 않는 데, 그 이유는 이것이 실제 스킬 구현 및 고급 제어 및 계획 기관의 능력들에 의존하기 때문이다.

정의 9(성공 조건): C_suc은, C_suc(X(t))에 의해 정의된 성공 조건이 유지되는, 즉 C_suc(X(t)) = 1 iff ∀ x ∈ X : x(t) ∈ C_suc인 선정된 세트를 나타낸다. 모든 관여된 객체들의 좌표들이 C_suc 내에 있다면, 스킬 실행은 성공적으로 종료될 수 있다.

정의 10(공칭 결과): 공칭 결과(R ∈ S)는 스킬 실행의 이상적인 종점, 즉 수렴 점이다.

비록 공칭 결과(R)가 스킬의 이상적인 목표이지만, 그렇더라도 성공 조건들(C_suc)이 유지되면 이의 실행은 성공적인 것으로 고려된다. 그럼에도 불구하고, X(t)는 이 지점으로 수렴한다.

정의 11(스킬 역학): X : [t₀,∞] → P가 일반적인 역학 프로세스라 하고, 여기서 t₀는 스킬 실행의 시작을 나타낸다. 프로세스는, (∀ c_suc ∈ C_suc : C_suc(X(t)) = 1) ∨ (∃ c_err ∈ C_err : C_err(X(t)) = 1)이면 종료된다.

이는 공칭 결과(R)로 수렴한다. 이런 역학 프로세스는, 입력, 즉 구체적 구현에 의존하여 스킬이 실제로 수행하는 바를 인코딩한다. 이것은 궤적 생성기, DMP 또는 센서 기반 속도 또는 힘 커맨드들을 계산하는 일부 다른 알고리즘이다. 종료 시간(t_e)은 반드시 사전에 알려지지는 않는다. 검색 스킬에 대해, 검색 문제의 성질로 인해 종료되는 시점이 결정될 수 없다.

정의 12(커맨드들):

정의 13(품질 메트릭): Q는 0 < w < 1에서 모두 2 개의-튜플들(w,f_q(X(t)) 및 제약들(f_c,i(X(t)))의 세트를 나타낸다. 또한

라고 하자. 품질 메트릭은 스킬의 성능을 평가하고 이에 대해 품질 제약들을 부과하는 수단이다. 이런 평가는 동일한 스킬의 2 개의 상이한 구현들 또는 2 개의 상이한 파라미터들의 세트들(P)을 비교하는 것을 목표로 한다. 제약들은 특정 작업에 대한 품질 한계들(예컨대, 특정 시간 한계)의 측정을 제공하는 데 사용될 수 있다. 스킬이 인간 감독자에 의해 실행 또는 제공되는 전체 프로세스로부터 도출되는 일부 기준을 품질 메트릭이 반영한다.

도 3은 다관절 로봇(80)의 액추에이터들을 제어하고 로봇(80)이 주어진 작업을 실행하게 할 수 있는 방법을 도시하고, 로봇(80)은 제1 유닛(101), 제2 유닛(102), 학습 유닛(103) 및 적응성 제어기(104)를 포함하고, 제2 유닛(102)은 제1 유닛(101) 및 추가로 학습 유닛(103) 및 적응성 제어기(104)에 연결되고, 다음 단계들을 포함한다:

- 제1 유닛(101)에 의한 작업에 의존하여 스킬 공간으로부터 선택가능한 로봇 스킬들의 사양을 제공하는 단계(S1) ― 로봇 스킬(s)은 (S, O, C_pre, C_err, C_suc, R, X_cmd, X, P, Q) 중 2 개의-튜플로서 정의되고,

S: I 서브공간들(

)의 데카르트 곱이고(

),

및

,

O: 물리적 객체들의 세트,

C_pre: 전제 조건,

C_err: 에러 조건,

C_suc: 성공 조건,

R: 이상적인 스킬 실행의 공칭 결과,

χ_cmd: 스킬 커맨드들,

X: 물리적 좌표들,

P: 스킬 파라미터들이고, 이때 P는 3 개의 서브세트들(P_t, P_l, P_D)로 이루어지고, P_t는 작업의 선험적 지식으로부터 발생하는 파라미터들이고, P_l은 처음에 알려지지 않고 그리고 작업의 실행 동안 학습 및/또는 추정될 필요가 있는 파라미터들이고, 그리고 P_D는 파라미터들(P_l)의 제약들이고,

Q: 성능 메트릭이지만, Q(t)는 로봇(80)에 의해 수행되는 스킬의 실제 성능을 나타냄 ―,

- 적응성 제어기(104)가 제2 유닛(102)으로부터 스킬 커맨드들(χ_cmd)을 수신하는 단계(S2) ― 여기서 제2 유닛(102)은 제1 유닛(101) 및 추가로 학습 유닛(103) 및 적응성 제어기(104)에 연결되고 그리고 스킬 커맨드들(χ_cmd)은 스킬 파라미터들(P_l)을 포함함 ―,

- 적응성 제어기(104)에 의해 그리고 스킬 커맨드들(χ_cmd)에 기반하여 로봇(80)의 액추에이터들을 제어하는 단계(S3) ― 로봇(80)의 실제 현황은 개별 센서들에 의해 감지되고 그리고/또는 개별 추정기들에 의해 추정되고 제어기(104) 및 제2 유닛(102)에 피드백됨 ―,

- 제2 유닛(102)에 의해 그리고 실제 현황에 기반하여, 로봇(80)에 의해 수행되는 스킬의 성능(Q(t))을 결정하는 단계(S4),

- 학습 유닛(103)이 제2 유닛(102)으로부터 P_D 및 Q(t)를 수신하는 단계(S5), 및

- 업데이트된 스킬 파라미터들(P_l(t))을 결정하고 P_l(t)를 제2 유닛(102)에 제공하고 그리고 지금까지의 기존 스킬 파라미터들(P_l)을 대체하는 단계(S6) ― 서브공간들(

)은 특히 외부 힘 및 외부 모멘트를 포함하는 외부 렌치 및 제어 변수를 포함함 ―.

도 4 및 도 5는 상이한 레벨들의 세부사항으로 다관절 로봇(80)의 액추에이터들을 제어하고 로봇(80)이 주어진 작업을 실행할 수 있게 하는 각각의 시스템을 도시한다. 시스템 각각은:

- 작업에 의존하여 스킬 공간으로부터 선택가능한 로봇 스킬들(s)의 사양을 제공하는 제1 유닛(101) ― 로봇 스킬(s)은 (S, O, C_pre, C_err, C_suc, R, X_cmd, X, P, Q) 중 튜플로서 정의되고,

S: I 서브공간들(

)의 데카르트 곱이고(

),

및

,

O: 모든 물리적 객체들의 세트,

C_pre: 전제 조건,

C_err: 에러 조건,

C_suc: 성공 조건,

R: 이상적인 스킬 실행의 공칭 결과,

χ_cmd: 스킬 커맨드들,

X: 물리적 좌표들,

- 제2 유닛(102)을 포함하고, 제2 유닛(102)은 제1 유닛(101) 및 추가로 학습 유닛(103) 및 적응성 제어기(104)에 연결되고, 적응성 제어기(104)는 스킬 커맨드들(χ_cmd)을 수신하고, 스킬 커맨드들(χ_cmd)은 스킬 파라미터들(P_l)을 포함하고, 여기서 스킬 커맨드들(χ_cmd)에 기반하여, 제어기(104)는 로봇(80)의 액추에이터들을 제어하고, 로봇(80)의 실제 현황(X(t))은 개별 센서들에 의해 감지되고 그리고/또는 개별 추정기들에 의해 추정되고 제어기(104) 및 제2 유닛(102)에 피드백되고, 실제 현황(X(t))에 기반하여, 제2 유닛(102)은 로봇(80)에 의해 수행되는 스킬의 성능(Q(t))을 결정하고, 그리고 학습 유닛(103)은 제2 유닛(102)으로부터 P_D 및 Q(t)를 수신하고, 업데이트된 스킬 파라미터들(P_l(t))을 결정하고 그리고 P_l(t)를 제2 유닛(102)에 제공하여 지금까지의 기존 스킬 파라미터들(P_l)을 대체하고, 서브공간들(

)은 외부 힘 및 외부 모멘트를 포함하는 외부 렌치 및 제어 변수를 포함한다. 스킬 커맨드들(χ_cmd)은 원하는 힘(

) 내의 스킬 파라미터들(P), 및

을 통해 P에 의존하는

를 포함하고, 여기서 P_l는 P의 3 개의 서브세트들 중 하나이다. 마찬가지로 원하는 속도(

)는 P에 의존하고 그러므로 P_l에 또한 의존하고 이때

이다. 파라미터(P_t)는 본원에서 적층된 실린더에 의해 상징되는 계획 및 스킬 감시 유닛의 데이터베이스로부터 수신된다.

도 6은 다관절 로봇(80)의 액추에이터들을 제어하고 로봇(80)이 주어진 작업을 실행할 수 있게 하는 시스템을 도시하고, 시스템은:

- 작업에 의존하여 스킬 공간으로부터 선택가능한 로봇 스킬들(s)의 사양을 제공하는 제1 유닛(101) ― 로봇 스킬(s)은 (S, O, C_pre, C_err, C_suc, R, X_cmd, X, P, Q)로부터 튜플로서 정의되고,

이 튜플의 표현들은 다음과 같이 정의되고:

S: I 서브공간들(

)의 데카르트 곱이고(

),

및

,

O: 모든 물리적 객체들의 세트,

C_pre: 전제 조건,

C_err: 에러 조건,

C_suc: 성공 조건,

R: 이상적인 스킬 실행의 공칭 결과,

χ_cmd: 스킬 커맨드들,

X: 물리적 좌표들,

Q: 성능 메트릭이고, Q(t)는 로봇(80)에 의해 수행되는 스킬의 실제 성능을 나타냄 ―,

- 제2 유닛(102)을 포함하고, 제2 유닛(102)은 제1 유닛(101) 및 추가로 학습 유닛(103) 및 적응성 제어기(104)에 연결되고,

적응성 제어기(104)는 스킬 커맨드들(χ_cmd)을 수신하고,

스킬 커맨드들(χ_cmd)은 스킬 파라미터들(P_l)을 포함하고,

스킬 커맨드들(χ_cmd)에 기반하여, 제어기(104)는 제어 신호(

)를 통해 로봇(80)의 액추에이터들을 제어하고, 로봇(80)의 실제 현황(X(t))은 개별 센서들에 의해 감지되고 그리고/또는 개별 추정기들에 의해 추정되고 제어기(104) 및 제2 유닛(102)에 피드백되고, 실제 현황(X(t))에 기반하여, 제2 유닛(102)은 로봇(80)에 의해 수행되는 스킬의 성능(Q(t))을 결정하고, 그리고 학습 유닛(103)은 제2 유닛(102)으로부터 P_D 및 Q(t)를 수신하고, 업데이트된 스킬 파라미터들(P_l(t))을 결정하고 그리고 P_l(t)를 제2 유닛(102)에 제공하여 지금까지의 기존 스킬 파라미터들(P_l)을 대체한다.

1 관심 구역(ROI)
3 페그
5 홀
80 로봇
101 제1 유닛
102 제2 유닛
103 학습 유닛
104 적응성 제어기
S1 제공하는 단계
S2 수신하는 단계
S3 제어하는 단계
S4 결정하는 단계
S5 수신하는 단계
S6 결정하는 단계

Claims

다관절 로봇(articulated robot)(80)의 액추에이터들을 제어하고 상기 로봇(80)이 주어진 작업을 실행할 수 있게 하는 시스템으로서,
- 상기 작업에 의존하여 스킬(skill) 공간으로부터 선택가능한 로봇 스킬들(s)의 사양을 제공하는 제1 유닛(101) ― 로봇 스킬(s)은 튜플(tuple)(S, O, C_pre, C_err, C_suc, R, X_cmd, X, P, Q)로서 정의되고,
S: I 서브공간들(
)의 데카르트 곱이고(
),

및
,
O: 물리적 객체들의 세트,
C_pre: 전제 조건,
C_err: 에러 조건,
C_suc: 성공 조건,
R: 이상적인 스킬 실행의 공칭 결과,
χ_cmd: 스킬 커맨드들,
X: 물리적 좌표들,
P: 스킬 파라미터들이고, 이때 P는 3 개의 서브세트들(P_t, P_l, P_D)로 이루어지고, P_t는 상기 작업의 선험적 지식으로부터 발생하는 파라미터들이고, P_l은 처음에 알려지지 않고 그리고 상기 작업의 실행 동안 학습 또는 추정될 필요가 있는 파라미터들이고, 그리고 P_D는 파라미터들(P_l)의 제약들이고,
Q: 성능 메트릭이고, Q(t)는 상기 로봇(80)에 의해 수행되는 상기 스킬의 실제 성능을 나타냄 ―,
- 제2 유닛(102)을 포함하고,
상기 제2 유닛(102)은 상기 제1 유닛(101) 및 추가로 학습 유닛(103) 및 적응성 제어기(104)에 연결되고,
상기 적응성 제어기(104)는 스킬 커맨드들(χ_cmd)을 수신하고,
상기 스킬 커맨드들(χ_cmd)은 상기 파라미터들(P_l)을 포함하고,
상기 스킬 커맨드들(χ_cmd)에 기반하여, 상기 제어기(104)는 상기 로봇(80)의 액추에이터들을 제어하고,
상기 로봇(80)의 실제 현황은 개별 센서들에 의해 감지되거나 또는 개별 추정기들에 의해 추정되고 그리고 상기 제어기(104) 및 상기 제2 유닛(102)에 피드백되고,
상기 실제 현황에 기반하여, 상기 제2 유닛(102)은 상기 로봇(80)에 의해 수행되는 상기 스킬의 성능 값(Q(t))을 결정하고, 그리고
상기 학습 유닛(103)은 상기 제2 유닛(102)으로부터 P_D 및 Q(t)를 수신하고, 업데이트된 스킬 파라미터들(P_l(t))을 결정하고 그리고 P_l(t)를 상기 제2 유닛(102)에 제공하여 지금까지의 기존 스킬 파라미터들(P_l)을 대체하는,
시스템.
제1 항에 있어서,
상기 적응성 제어기(104)는
를 통해 피드 포워드 렌치(feed forward wrench) 및 강성을 적응시키는,
시스템.
제1 항에 있어서,
상기 학습 유닛(103)은 베이지안(Bayesian) 또는 HiREPS 최적화/학습을 수행하는,
시스템.
제1 항에 있어서,
상기 시스템은 데이터 네트워크와의 데이터 인터페이스를 포함하고, 그리고 상기 시스템은 상기 데이터 네트워크로부터, 상기 시스템을 셋업 및 제어하기 위한 시스템-프로그램들을 다운로드하도록 설계 및 셋업되는,
시스템.
제4 항에 있어서,
상기 시스템은 상기 데이터 네트워크로부터 상기 시스템-프로그램들에 대한 파라미터들을 다운로드하도록 설계 및 셋업되는,
시스템.
제4 항에 있어서,
상기 시스템은 로컬 입력-인터페이스를 통해 또는 티치-인-프로세스(teach-in-process)를 통해 상기 시스템-프로그램들에 대한 파라미터들을 입력하도록 설계 및 셋업되고, 상기 로봇(80)은 수동으로 안내되는,
시스템.
제4 항에 있어서,
상기 시스템은, 상기 데이터 네트워크로부터 시스템-프로그램들 또는 개별 파라미터들을 다운로드하는 것이 원격 스테이션에 의해 제어되도록 설계 및 셋업되고, 그리고 상기 원격 스테이션은 상기 데이터 네트워크의 일부인,
시스템.
제4 항에 있어서,
상기 시스템은, 상기 시스템에서 로컬적으로 이용가능한 시스템-프로그램들 또는 개별 파라미터들이 상기 데이터 네트워크로부터 수신된 개별 요청에 기반하여 상기 데이터 네트워크의 하나 이상의 참여자들에게 전송되도록 설계 및 셋업되는,
시스템.
제4 항에 있어서,
상기 시스템은, 상기 시스템에서 로컬적으로 이용가능한 개별 파라미터들을 갖는 시스템-프로그램들이 원격 스테이션으로부터 시작될 수 있도록 설계 및 셋업되고, 그리고 상기 원격 스테이션은 상기 데이터 네트워크의 일부인,
시스템.
제1 항에 있어서,
상기 시스템은, 원격 스테이션 또는 로컬 입력-인터페이스가 시스템-프로그램들 및 개별 파라미터들의 입력을 위해 또는 다수의 시스템-프로그램들 및 개별 파라미터들로부터 시스템-프로그램들 및 개별 파라미터들을 선택하기 위해 설계 및 셋업되는 인간-기계-인터페이스(HMI)를 포함하도록, 설계 및 셋업되는,
시스템.
제10 항에 있어서,
상기 인간-기계-인터페이스(HMI)는, 입력들이 터치스크린 상의 "드래그-앤드-드롭(drag-and-drop)", 안내 대화, 키보드, 컴퓨터-마우스, 촉각 인터페이스, 가상-현실-인터페이스, 증강 현실 인터페이스, 음향 인터페이스를 통해, 신체 추적 인터페이스를 통해, 근전도 검사 데이터에 기반하여, 전기 뇌조영술(elektroenzephalographic) 데이터에 기반하여, 신경 인터페이스를 통해, 또는 이의 조합을 통해 가능하도록 설계 및 셋업되는,
시스템.
제10 항에 있어서,
상기 인간-기계-인터페이스(HMI)는 청각적, 시각적, 촉각적, 후각적, 촉감적(tactile), 또는 전기 피드백 또는 이의 조합을 전달하도록 설계 및 셋업되는,
시스템.
제1항 내지 제12 항 중 어느 한 항에 따른 시스템을 갖는 로봇(80).
다관절 로봇(80)의 액추에이터들을 제어하고 로봇(80)이 주어진 작업을 실행하게 할 수 있는 방법으로서,
상기 로봇(80)은 제1 유닛(101), 제2 유닛(102), 학습 유닛(103) 및 적응성 제어기(104)를 포함하고, 상기 제2 유닛(102)은 상기 제1 유닛(101) 및 추가로 상기 학습 유닛(103) 및 상기 적응성 제어기(104)에 연결되고, 상기 방법은:
- 제1 유닛(101)에 의한 작업에 의존하여 스킬 공간으로부터 선택가능한 로봇 스킬들(s)의 사양을 제공하는 단계(S1) ― 로봇 스킬(s)은 튜플(S, O, C_pre, C_err, C_suc, R, X_cmd, X, P, Q)로서 정의되고,
S: I 서브공간들(
)의 데카르트 곱이고(
),

및
,
O: 물리적 객체들의 세트,
C_pre: 전제 조건,
C_err: 에러 조건,
C_suc: 성공 조건,
R: 이상적인 스킬 실행의 공칭 결과,
χ_cmd: 스킬 커맨드들,
X: 물리적 좌표들,
P: 스킬 파라미터들이고, P는 3 개의 서브세트들(P_t, P_l, P_D)로 이루어지고, P_t는 상기 작업의 선험적 지식으로부터 발생하는 파라미터들이고, P_l은 처음에 알려지지 않고 그리고 상기 작업의 실행 동안 학습 또는 추정될 필요가 있는 파라미터들이고, 그리고 P_D는 파라미터들(P_l)의 제약들이고,
Q: 성능 메트릭이지만, Q(t)는 상기 로봇(80)에 의해 수행되는 상기 스킬의 실제 성능을 나타냄 ―,
- 적응성 제어기(104)가 제2 유닛(102)으로부터 스킬 커맨드들(χ_cmd)을 수신하는 단계(S2) ― 상기 제2 유닛(102)은 상기 제1 유닛(101) 및 추가로 상기 학습 유닛(103) 및 상기 적응성 제어기(104)에 연결되고 그리고 상기 스킬 커맨드들(χ_cmd)은 스킬 파라미터들(P_l)을 포함함 ―,
- 상기 제어기(104)에 의해 그리고 상기 스킬 커맨드들(χ_cmd)에 기반하여 상기 로봇(80)의 액추에이터들을 제어하는 단계(S3) ― 상기 로봇(80)의 실제 현황은 개별 센서들에 의해 감지되거나 또는 개별 추정기들에 의해 추정되고 그리고 상기 제어기(104) 및 상기 제2 유닛(102)에 피드백됨 ―,
- 상기 제2 유닛(102)에 의해 그리고 상기 실제 현황에 기반하여, 상기 로봇(80)에 의해 수행되는 상기 스킬의 성능 값(Q(t))을 결정하는 단계(S4),
- 상기 학습 유닛(103)이 상기 제2 유닛(102)으로부터 P_D 및 Q(t)를 수신하는 단계(S5), 및
- 업데이트된 스킬 파라미터들(P_l(t))을 결정하고 P_l(t)를 상기 제2 유닛(102)에 제공하고 그리고 지금까지의 기존 스킬 파라미터들(P_l)을 대체하는 단계(S6)를 포함하는,
방법.
데이터 프로세싱 유닛을 갖는 컴퓨터 시스템으로서,
상기 데이터 프로세싱 유닛은 제14 항에 따른 방법을 수행하도록 설계 및 셋업되는,
컴퓨터 시스템.
전자적으로 판독가능한 제어 신호들을 갖는 디지털 데이터 저장소로서,
상기 제어 신호들은 프로그램가능 컴퓨터 시스템과 협력할 수 있어서, 제14 항에 따른 방법이 수행되는,
디지털 데이터 저장소.
프로그램 코드를 포함하는 컴퓨터-판독가능 저장 매체로서,
상기 프로그램 코드는, 상기 프로그램 코드가 컴퓨터 시스템 상에서 실행되는 경우, 제14 항에 따른 방법을 실행하기 위한 것인,
컴퓨터-판독가능 저장 매체.
매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은, 상기 컴퓨터 프로그램이 컴퓨터 시스템 상에서 실행되면, 제14 항에 따른 방법을 실행하기 위한 프로그램 코드들을 갖는,
매체에 저장된 컴퓨터 프로그램.