KR20010041969A

KR20010041969A - 로봇 장치, 로봇 장치의 본체 유닛 및 로봇 장치의 결합유닛

Info

Publication number: KR20010041969A
Application number: KR1020007010293A
Authority: KR
Inventors: 타카무라세이이치
Original assignee: 이데이 노부유끼; 소니 가부시끼 가이샤
Priority date: 1999-01-18
Filing date: 2000-01-18
Publication date: 2001-05-25
Also published as: EP1103352A1; CN1293605A; US20020143436A1; US20020068993A1; WO2000041853A1; US6421585B1; US6591165B2

Abstract

기억 수단은, 입력 정보와, 상기 입력 정보에 대응하며 로봇 전체의 동작 내력 중 결합 유닛의 동작 내력과 관련 있는 학습 데이터를 저장한다. 상기 결합 유닛에 대한 저장된 학습 데이터를 그 동작들을 결정하는데 사용한다. 그래서 상기 로봇은 종래의 로봇에 비해 사용의 용이성이 향상된다.

Description

로봇 장치, 로봇 장치의 본체 유닛 및 로봇 장치의 결합 유닛{Robot, main unit of robot, and coupling unit of robot}

최근, 외부 제어 장치로부터 공급받는 지시 신호나, 소정 위치에 설치된 센서로부터 입력되는 주위 화상 정보에 근거하여, 자기 자신이 동작을 결정하는 자율형 로봇 장치가 제안되고 있다. 이 자율형 로봇 장치는 제어 장치로부터 지시 신호 및 센서로부터 화상 정보가 입력되면, 처음엔 랜덤하게 동작하지만 이러한 동작을 순차 반복함으로써, 입력된 지시 신호 및 화상 정보에 적합한 동작을 서서히 행하도록 이루어져 있다.

즉, 자율형 로봇 장치는 제어 장치로부터 지시 신호 및 센서로부터 화상 정보가 입력되어, 랜덤하게 동작을 행하면, 그 입력된 지시 신호 및 화상 정보와, 해당 로봇 장치가 행한 동작 내용을 나타내는 동작 정보를 학습 데이터로서 내부 기억 수단에 순차 기억해 간다. 그 후, 자율형 로봇 장치는 기억 수단에 기억되어 있는 과거에 입력된 지시 신호와 동일 지시 신호가 입력되어 동작을 행한 경우에는, 기억 수단에 기억되어 있는 과거의 학습 데이터와 이번 학습 데이터를 소정의 파라미터에 근거하여 각각 평가한다.

그 결과, 자율형 로봇 장치는 이번 학습 데이터가 과거의 학습 데이터에 비해 평가가 높다고 판단한 경우에는, 과거의 학습 데이터를 기억 수단으로부터 삭제하여 이번 학습 데이터를 새롭게 기억하는 한편, 과거의 학습 데이터가 이번 학습 데이터에 비해 평가가 높다고 판단한 경우에는, 과거의 학습 데이터를 기억 수단에 남긴 채로 하여 이번 학습 데이터를 파기한다. 이렇게 자율형 로봇 장치는 서서히 학습 데이터를 기억 수단에 기록하여 축적해 감으로써, 외부로부터 주어지는 명령에 따라서 자율적으로 동작을 결정하는 능력을 획득한다. 그 때, 자율형 로봇 장치는 학습 데이터를 기억하는 방식으로서, 해당 학습 데이터를 단일 기억 수단에 기억하여 관리하는 집중 관리 방식을 채용하고 있다.

그런데, 이러한 자율형 로봇 장치로서는 각 유닛 제거를 필요로 하지 않는 일체형인 것이 존재하지만, 최근에는 복수의 유닛으로 이루어지는 것이 생각되고 있다. 이 복수의 유닛으로 이루어지는 로봇 장치로서는, 예를 들면 동물 머리에 상당하는 머리부 유닛과, 동체에 상당하는 본체부 유닛과, 발에 상당하는 메니퓰레이터부 유닛을 연결함으로써 구축되는 것이 제안되고 있다.

실제 상, 복수의 유닛으로 이루어지는 로봇 장치는 복수의 머리부 유닛으로 이루어지는 머리부 유닛군, 복수의 본체부 유닛으로 이루어지는 본체부 유닛군, 복수의 메니퓰레이터부 유닛으로 이루어지는 메니퓰레이터부 유닛군으로부터 각각 원하는 유닛을 선택하여 조합시킴으로써 구축되어 있다. 이 상태에 있어서, 로봇 장치는 예를 들면 머리부 유닛을 교환할 필요가 생긴 경우, 머리부 유닛군으로부터 원하는 머리부 유닛을 선택하여, 현재 연결되어 있는 머리부 유닛을 머리부 유닛군으로부터 선택된 다른 머리부 유닛과 교환함으로써, 유닛 조합을 변경할 수 있도록 이루어져 있다.

그런데, 복수의 유닛으로 이루어지는 로봇 장치에 있어서는, 학습 데이터를 기억하는 방식으로서 집중 관리 방식을 채용한 경우, 해당 학습 데이터를 예를 들면 본체부 유닛의 기억 수단에 기억하여 관리하도록 이루어져 있다. 이러한 로봇 장치에서는, 자율적으로 행동할 수 있는 정도의 학습 데이터를 획득한 후, 예를 들면 메니퓰레이터부 유닛을 기능이 다른 다른 메니퓰레이터부 유닛과 교환한 경우, 교환 후의 다른 메니퓰레이터부 유닛 기능을 충분히 발휘시키는 학습 데이터가 본체 유닛의 기억 수단에 기억되어 있는 경우는 있을 수 없다. 그 때, 로봇 장치는 교환 후의 메니퓰레이터부 유닛의 학습 데이터를 처음부터 새롭게 획득해야만 하여, 학습 데이터를 획득하는 데 수고나 시간이 걸리는 문제가 있었다.

본 발명은 로봇 장치, 로봇 장치의 본체 유닛 및 로봇 장치의 결합 유닛에 관하며, 예를 들면 외부로부터의 정보를 기초로 스스로 행동을 결정하는 자율형 로봇 장치에 적용하기 적합한 것이다.

도 1은 본 발명에 의한 로봇 장치의 한 실시예를 도시하는 개략선도.

도 2는 로봇 장치를 구성하는 각 유닛의 유닛군을 도시하는 개략선도.

도 3은 제 1 실시예에 의한 로봇 장치의 회로 구성을 도시하는 블록도.

도 4는 제 1 실시예에 있어서의 학습 데이터의 융합 순서를 도시하는 플로 챠트.

도 5는 조합 학습 데이터 생성 순서를 도시하는 플로 챠트.

도 6은 제 2 실시예에 의한 로봇 장치의 회로 구성을 도시하는 블록도.

도 7은 각 유닛의 기억부에 격납되어 있는 각종 테이블 설명에 이바지하는 개념도.

도 8은 상태 변환 테이블 설명에 이바지하는 개념도.

도 9는 행동 결정 테이블 및 평가치 테이블을 도시하는 개념도.

도 10은 행동 변환 테이블 설명에 이바지하는 개념도.

도 11은 제 2 실시예에 있어서의 본체부 유닛의 CPU 처리의 설명에 이바지하는 블록도.

도 12는 제 2 실시예에 있어서의 학습 데이터의 융합 처리 순서 설명에 이바지하는 플로 챠트.

※ 도면의 주요 부분에 대한 부호의 설명※

1, 60: 로봇 장치 2, 62: 머리부 유닛

3, 61: 본체부 유닛 4, 63: 메니퓰레이터부 유닛

10: 마이크 12, 22, 30, 67: CUP

15, 20, 28: 센서 21, 25, 29: 허브

32, 36, 41: 엑추에이터 45, 47, 49, 64 내지 66: 기억부

50: 표시부

본 발명은 이상의 점을 고려하여 이루어진 것으로, 종래에 비해 한층 더 사용 편리성을 향상할 수 있는 로봇 장치를 제안하고자 하는 것이다.

이러한 과제를 해결하기 위해 본 발명에 있어서는, 복수 종류 존재하는 결합 유닛 중 원하는 결합 유닛을 조합시켜 결합시킴으로써 구축되며, 외부로부터 입력되는 입력 정보를 기초로 소정의 동작을 자율적으로 행하는 로봇 장치에 있어서, 결합 유닛에 내장되며, 입력 정보 및 해당 입력 정보에 따른 로봇 장치 전체의 동작 이력 중, 입력 정보 및 해당 입력 정보에 따른 결합 유닛 자체의 동작 이력을 학습 데이터로서 기억하는 기억 수단을 설치하도록 했다.

입력 정보 및 해당 입력 정보에 따른 로봇 장치 전체의 동작 이력 중, 입력 정보 및 해당 입력 정보에 따른 결합 유닛 자체의 동작 이력을 학습 데이터로서 기억 수단에 기억함으로써, 결합 유닛을 교환한 경우라도 해당 교환한 새로운 결합 유닛의 학습 데이터를 그대로 사용하여 결합 유닛 동작을 결정할 수 있으며, 이렇게 하여 교환 후의 새로운 결합 유닛의 학습 데이터를 처음부터 획득할 필요가 없는 만큼, 학습 데이터 획득에 걸리는 수고나 시간을 단축할 수 있다. 이렇게 함으로써 결합 유닛 시트를 교환한 경우라도 해당 교환한 새로운 결합 유닛의 학습 데이터를 그대로 사용하여 결합 유닛 동작을 결정할 수 있으며, 이렇게 하여 종래에 비해 한층 더 사용 편리성을 향상할 수 있는 로봇 장치를 실현할 수 있다.

또, 본 발명에 있어서는, 복수 종류 존재하는 결합 유닛 중 원하는 결합 유닛을 조합시켜 결합시킴으로써 구축되며, 외부로부터 주어지는 입력 정보에 근거하여 소정의 동작을 행하는 로봇 장치에 있어서, 외부로부터 주어진 입력 정보에 근거하여 결합 유닛의 조합에 따른 동작을 행하는 동작 제어 수단과, 결합 유닛 조합과 입력 정보에 근거하는 동작 제어 수단의 동작 이력을 조합 학습 데이터로서 기억하는 기억 수단과, 기억 수단으로부터 필요에 따라서 조합 학습 데이터를 판독하여 외부로 출력하는 출력 수단을 설치하도록 했다.

결합 유닛의 조합과 입력 정보에 근거하는 동작 제어 수단의 동작 이력을 조합 학습 데이터로서 기억 수단에 기억하고, 해당 기억 수단으로부터 필요에 따라 조합 학습 데이터를 판독하여 출력 수단을 개재시켜 외부로 출력함으로써, 사용자는 원하는 동작을 실행시키는 데 적합한 조합을 용이하게 판단할 수 있다. 이렇게 함에 따라 종래에 비해 한층 더 사용 편리성을 향상할 수 있는 로봇 장치를 실현할 수 있다.

이하 도면에 대해서, 본 발명의 한 실시예를 상술한다.

(1) 제 1 실시예

(1-1) 로봇 장치의 구성

도 1에 있어서, 1은 전체적으로 로봇 장치를 나타내며, 동물 머리에 상당하는 머리부 유닛(2A)과, 동체에 상당하는 본체부 유닛(3A)과, 발에 상당하는 메니퓰레이터부 유닛(4A)을 연결함으로써 구축되며, 자율적으로 행동을 결정하기 위한 학습 데이터를 각 유닛에 분산하여 관리하고 있다.

이 로봇 장치(1)는 예를 들면 도 2에 도시하는 바와 같이, 복수 종류의 머리부 유닛(2A 내지 2C)으로 이루어지는 머리부 유닛군(2) 중에서 1개의 머리부 유닛(2A)을 선택하고, 복수 종류의 본체부 유닛(3A 및 3B)으로 이루어지는 본체부 유닛군(3) 중에서 1개의 본체부 유닛(3A)을 선택하며, 복수 종류의 메니퓰레이터부 유닛(4A 내지 4D)으로 이루어지는 메니퓰레이터부 유닛군(4) 중에서 1개의 메니퓰레이터부 유닛(4A)을 선택하여 소정 상태에 연결함으로써 구축된다.

그리고, 이 로봇 장치(1)에 있어서는, 메니퓰레이터부 유닛(4A)을 교환할 필요가 생긴 경우, 메니퓰레이터부 유닛군(4)으로부터 예를 들면 메니퓰레이터부 유닛(4C)을 선택하여, 현재 연결되어 있는 메니퓰레이터부 유닛(4A)과 교환함으로써, 유닛 조합을 변경할 수 있도록 이루어져 있다.

그런데, 메니퓰레이터부 유닛(4A)은 조금씩 동작하는 기능을 갖는 유닛인 한편, 메니퓰레이터부 유닛(4C)은 목적물을 잡는 기능을 갖는 유닛이고, 각 유닛에서 획득되는 학습 데이터는 각각의 기능을 발휘시키는 데이터에 의해 형성되어 있다. 따라서, 로봇 장치(1)에서는, 메니퓰레이터부 유닛(4A)이 메니퓰레이터부 유닛(4C)으로 교환된 후는, 메니퓰레이터부 유닛(4A)에서 획득한 학습 데이터를 메니퓰레이터부 유닛(4C)에 적용해도, 해당 메니퓰레이터부 유닛(4C)의 기능을 충분히 발휘시킬 수 없다. 이로써 로봇 장치(1)에서는, 유닛 교환을 행해도 교환한 유닛 기능을 충분히 발휘할 수 있도록, 학습 데이터를 각 유닛마다 분산하여 관리하도록 이루어져 있다.

(1-2) 로봇 장치의 회로 구성

계속해서 로봇 장치(1)의 회로 구성을 도 3에 도시한다. 본체부 유닛(3)은 우선 사용자가 원하는 음성을 발함으로써 목표 행동을 주면, 해당 음성을 마이크(10)에 의해 집음하고, 그 결과 얻은 음성 신호(S1)를 신호 처리부(11)에 입력한다. 신호 처리부(11)는 이 음성 신호(S1)에 소정의 데이터 처리를 실시하고, 이렇게 하여 얻어진 상술한 목표 행동에 따른 목표 행동 데이터(S2)를 동작 제어 수단으로서의 CPU(Central Processing Unit)(12)에 송출한다.

본체부 유닛(2)은 그 주위 상황을 CCD(Charge Coupled Device) 카메라로 이루어지는 센서(15)에 의해 촬상하고, 이렇게 하여 얻어진 화상 데이터로 이루어지는 관측 데이터(S3)를 버스 관리를 행하는 시리얼 버스 호스트 컨트롤러(16)를 개재시켜 CPU(12)에 송출한다. 그 때, 머리부 유닛(2)은 CCD 카메라로 이루어지는 센서(20)를 개재시켜 얻어지는 화상 데이터로 이루어지는 관측 데이터(S1O)를 허브(21)를 개재시켜 본체부 유닛(3)에 송출함과 동시에 CPU(22)에 송출한다. 그리고, 본체부 유닛(3)은 이 관측 데이터(S10)를 허브(25) 및 시리얼 버스 호스트 컨트롤러(16)를 순차 개재시켜 CPU(12)에 입력한다.

마찬가지로 메니퓰레이터부 유닛(4)은 「CCD 카메라, 전위차계, 센서 등으로 이루어지는 센서(28)를 개재시켜 얻어진 관측 데이터(S13)를 허브(29)를 개재시켜 본체부 유닛(3)에 송출함과 동시에 CPU(30)에 송출하여, 해당 본체부 유닛(3)의 허브(25) 및 시리얼 버스 호스트 컨트롤러(16)를 순차 개재시켜 CPU(12)에 송출한다.

또, CPU(12)는 목표 행동 데이터(S2)가 입력되면, 우선 로봇 장치(1) 전체를 동작시키기 위한 구동 신호(S15)를 생성한 후, 이 구동 신호(S15)를 기초로 본체부 유닛(3)을 구동시키기 위한 본체부 구동 신호(S16)를 생성하고, 이것을 시리얼 버스 호스트 컨트롤러(16)를 개재시켜 액추에이터(32)에 송출함으로써, 해당 액추에이터(32)를 구동하여 예를 들면 꼬리를 흔드는 동작을 본체부 유닛(3)에 행하게 한다. 이와 함께 CPU(12)는 구동 신호(S15)를 시리얼 버스 호스트 컨트롤러(16) 및 허브(25)를 순차 개재시켜 머리부 유닛(2) 및 메니퓰레이터부 유닛(4)에 송출한다.

머리부 유닛(2)은 본체부 유닛(3)으로부터 공급된 구동 신호(S15)를 허브(21)를 개재시켜 CPU(22)에 입력한다. CPU(22)는 이 구동 신호(S15)를 기초로 머리부 유닛(2)을 구동시키기 위한 머리부 구동 신호(S17)를 생성하고, 이것을 허브(21)를 개재시켜 액추에이터(36)에 송출함으로써, 해당 액추에이터(36)를 구동하여 머리부 유닛(2)을 동작시킨다.

마찬가지로 메니퓰레이터부 유닛(4)은 본체부 유닛(3)으로부터 공급된 구동 신호(S15)를 허브(29)를 개재시켜 CPU(30)에 입력한다. CPU(30)는 이 구동 신호(S15)를 기초로 메니퓰레이터부 유닛(4)을 구동시키기 위한 메니퓰레이터부 구동 신호(S18)를 생성하고, 이것을 허브(29)를 개재시켜 액추에이터(41)에 송출함으로써, 해당 액추에이터(41)를 구동하여 메니퓰레이터부 유닛(4)을 동작시킨다.

그 때, 본체부 유닛(3)의 CPU(12)는 마이크(10)를 개재시켜 입력된 목표 행동 데이터(S2)와, 센서(15)를 개재시켜 입력된 관측 데이터(S3)와, 해당 본체부 유닛(3)을 구동시키기 위한 본체부 구동 신호(S16)를 학습 데이터(S2O)로서 기억부(45)에 기억한다.

그런데, CPU(12)는 목표 행동 데이터(S2)를 시리얼 버스 호스트 컨트롤러(16) 및 허브(25)를 순차 개재시켜 머리부 유닛(2) 및 메니퓰레이터부 유닛(4)에 송출하도록 이루어져 있다. 따라서, 머리부 유닛(2)의 CPU(35)는 본체부 유닛(3)으로부터 목표 행동 데이터(S2)가 공급되면, 해당 목표 행동 데이터(S2)와, 센서(20)를 개재시켜 입력된 관측 데이터(S10)와, 해당 머리부 유닛(2)을 구동시키기 위한 머리부 구동 신호(S17)를 학습 데이터(S22)로서 기억부(47)에 기억한다.

또, 메니퓰레이터부 유닛(4)의 CPU(30)는 본체부 유닛(3)으로부터 목표 행동 데이터(S2)가 공급되면, 해당 목표 행동 데이터(S2)와, 센서(28)를 개재시켜 입력된 관측 데이터(S13)와, 해당 메니퓰레이터부 유닛(4)을 구동시키기 위한 메니퓰레이터부 구동 신호(S18)를 학습 데이터(S24)로서 기억부(49)에 기억한다.

로봇 장치(1)는 상술한 바와 같은 동작을 순차 반복함으로써 학습 데이터를 각 유닛의 기억부(45, 47 및 49)에 기억시켜 간다. 그 후, 본체부 유닛(3)의 CPU(12)는 기억부(45)에 기억되어 있는 목표 행동 데이터(S2)와 동일 목표 행동 데이터(S2)가 입력되어 동작을 행한 경우에는, 기억부(45)에 기억되어 있는 과거의 학습 데이터(S20)와 이번의 새로운 학습 데이터(S20)를 소정의 기준에 근거하여 각각 평가한다.

그 결과, 본체부 유닛(3)의 CPU(12)는 이번의 학습 데이터(S20)가 과거의 학습 데이터(S20)에 비해 평가가 높다고 판단한 경우에는, 과거의 학습 데이터(S20)를 기억부(45)로부터 삭제하여 이번 학습 데이터(S20)를 새롭게 기억하는 한편, 과거의 학습 데이터(S20)가 이번 학습 데이터(S20)에 비해 평가가 높을 경우에는, 과거의 학습 데이터(S20)를 기억부(45)에 남겨 이번 획득한 학습 데이터(S20)를 파기한다.

마찬가지로, 머리부 유닛(2)의 CPU(22)는 기억부(47)에 기억되어 있는 학습 데이터(S22)를 갱신하여 해당 학습 데이터(S22)를 축적해 감과 동시에, 메니퓰레이터부 유닛(4)은 기억부(49)에 기억되어 있는 학습 데이터(S24)를 갱신하여 해당 학습 데이터(S24)를 축적해 간다.

이렇게 로봇 장치(1)는 학습 데이터를 서서히 획득해 감으로써, 외부로부터 주어지는 명령에 적합한 동작을 결정하는 능력을 획득하며, 해당 획득한 학습 데이터를 관리하는 방식으로서, 각 유닛마다 분산하여 관리하는 오브젝트 지향형 학습을 채용하고 있다.

(1-3) 학습 데이터의 융합

그런데, 상술한 동작을 반복함으로써 획득된 학습 데이터가 기억되어 있는 메니퓰레이터부 유닛(4A 및 4C)(도 2)에 있어서, 메니퓰레이터부 유닛(4A)에 기억되어 있는 학습 데이터와 메니퓰레이터부 유닛(4C)에 기억되어 있는 학습 데이터를 기초로 새로운 학습 데이터를 생성(이하, 이것을 융합이라 부른다)하여, 해당 융합된 학습 데이터를 메니퓰레이터부 유닛(4C)에 기억할 경우에 대해서 설명한다.

우선 사용자가 메니퓰레이터부 유닛(4A)을 본체부 유닛(2A)에 연결하면, 메니퓰레이터부 유닛(4A)의 CPU(30)는 해당 메니퓰레이터부 유닛(4A)의 기억부(49)로부터 학습 데이터(S24)를 판독하여, 이것을 허브(29) 및 본체부 유닛(3A)의 허브(25) 및 시리얼 버스 호스트 컨트롤러(16)를 순차 개재시켜 기억부(45)에 전송하여 기억한다.

그 후, 사용자는 메니퓰레이터부 유닛(4A)을 본체부 유닛(2A)으로부터 제외하여, 메니퓰레이터부 유닛(4C)을 새롭게 본체부 유닛(2A)에 연결한다. 이것을 받아 메니퓰레이터부 유닛(4C)의 CPU(30)는 해당 메니퓰레이터부 유닛(4C)의 기억부(49)로부터 학습 데이터(S24)를 판독하여, 이것을 허브(29) 및 본체부 유닛(3A)의 허브(25) 및 시리얼 버스 호스트 컨트롤러(16)를 순차 개재시켜 기억부(45)에 전송하여 기억한다.

본체부 유닛(3A)의 학습 데이터 융합 수단으로서의 CPU(12)는 내부에 메모리 등의 워크 에이리어를 가지고, 기억부(45)로부터 메니퓰레이터부 유닛(4A)의 학습 데이터와 메니퓰레이터부 유닛(4C)의 학습 데이터를 판독하여 워크 에이리어에 전송한다. 그리고, CPU(12)는 이 워크 에이리어에 있어서 메니퓰레이터부 유닛(4A)의 학습 데이터와 메니퓰레이터부 유닛(4C)의 학습 데이터를 융합함으로써 새로운 학습 데이터 즉 융합 학습 데이터를 생성하여, 해당 생성한 융합 학습 데이터를 시리얼 버스 호스트 컨트롤러(16) 및 허브(25) 및 메니퓰레이터부 유닛(4C)의 허브(29)를 순차 개재시켜 해당 메니퓰레이터부 유닛(4C)의 기억부(49)에 송출하여 기억한다.

이로써 메니퓰레이터부 유닛(4C)은 자기 자신이 획득한 학습 데이터에 근거하는 행동 능력에 더불어, 메니퓰레이터부 유닛(4A)이 획득한 학습 데이터에 근거하는 행동 능력도 더불어 가질 수 있어, 학습 행동을 필요로 하지 않고 자기 행동 능력을 향상시킬 수 있다.

(1-4) 학습 데이터의 데이터 포맷

여기서 학습 데이터의 데이터 포맷에 대해서 설명한다. 예를 들면, 메니퓰레이터부 유닛(4)에서 획득된 학습 데이터(S24)는 사용자에 의해 지시된 목표 행동 데이터(S2)를 나타내는 커맨드 데이터(T)와, 센서(28)로부터 입력된 관측 데이터(S13) 상태를 나타내는 벡터(g)와, 액추에이터(41)에 공급하는 메니퓰레이터부 구동 신호(S18)를 나타내는 벡터(a)로 이루어지며, (데이터(T), 벡터(g), 벡터(a))로 나타나는 것으로 한다.

구체적으로는 목표 행동 데이터(S2)를 나타내는 커맨드 데이터(T)는 예를 들면 「전진」, 「킥」, 「점프」 등을 나타내는 데이터이다. 센서(28)로부터 입력된 관측 데이터(S13) 상태를 나타내는 상태 벡터(g)는 G^m={g(1), g(2), g(3), …, g(m)}의 m차원 상태 벡터로 나타나며, m은 관측 데이터(S13) 상태 수, 즉 특징량의 종류를 나타내고 있다. 액추에이터(41)에 공급하는 메니퓰레이터부 구동 신호(S18)를 나타내는 행동 벡터(a)는 Aⁿ={a(1), a(2), a(3), …, a(n)}의 n차원 행동 벡터로 나타나며, n은 메니퓰레이터부 유닛(4)의 모터수에 상당하는 것이다.

계속해서 메니퓰레이터부 유닛(4A)의 학습 데이터를 (데이터(T₁), 벡터(g₁), 벡터(a₁)), 메니퓰레이터부 유닛(4B)의 학습 데이터를 (데이터(T₂), 벡터(g₂), 벡터(a₂))로 하여, 이들을 융합하여 메니퓰레이터부 유닛(4B)에 기억하는 경우에 대해서 설명한다. 이 경우, 본체부 유닛(3)의 CPU(12)는 학습 데이터(데이터(T₁), 벡터(g₁), 벡터(a₁))와 학습 데이터(데이터(T₂), 벡터(g₂), 벡터(a₂))가 동일한 경우에는 융합 처리를 행할 필요 없이, 어느 한쪽의 학습 데이터를 융합 학습 데이터로서 기억한다.

또, 본체부 유닛(3)의 CPU(12)는 커맨드 데이터(T₁)와 커맨드 데이터(T₂)가 동일한 경우로, 또한, 상태 벡터(g₁)과 상태 벡터(g₂) 및 또는 행동 벡터(a₁)와 행동 벡터(a₂)가 다른 경우에는, 주어진 명령에 근거하는 행동에 요하는 시간, 소비 전력 등을 파라미터로 하는 평가 함수에 근거하여 각각의 학습 데이터를 평가하여, 평가 결과가 높은 쪽을 융합 학습 데이터로서 선택하여 기억하는 한편, 평가 결과가 낮은 쪽을 파기한다. 또, 본체부 유닛(3)의 CPU(12)는 커맨드 데이터(T₁)와 커맨드 데이터(T₂)가 다를 경우, 즉 목표 행동이 다를 경우에는, 학습 데이터(데이터(T₁), 벡터(g₁), 벡터(a₁)) 및 (데이터(T₂), 벡터(g₂), 벡터(a₂))를 양쪽 모두 융합 학습 데이터로서 기억한다.

예를 들면 본체부 유닛(3)의 CPU(12)는 메니퓰레이터부 유닛(4A)의 학습 데이터 「슛 행동」과 메니퓰레이터부 유닛(4B)의 학습 데이터 「패스 행동」을 융합한 경우, 융합 학습 데이터 「슛 및 패스 행동」을 생성한다. 또, 본체부 유닛(3)의 CPU(12)는 머리부 유닛(4A)의 학습 데이터 「A지점에서 B지점으로의 네비게이션 능력」과 머리부 유닛(4B)의 학습 데이터 「B지점에서 C지점으로의 네비게이션 능력」을 융합한 경우, 융합 학습 데이터 「A지점에서 C지점으로의 네비게이션 능력」을 생성한다. 이렇게 본체부 유닛(3)의 CPU(12)는 각 학습 데이터를 융합함으로써, 각 유닛의 능력을 향상시킨다.

(1-5) 목표 행동에 적합한 유닛 조합의 학습 처리

여기서는, 주어진 목표 행동에 적합한 유닛 조합을 결정하여 조합 학습 데이터를 생성하는 소위 강화 학습 처리에 대해서 설명한다. 우선 사용자는 목표 행동을 본체부 유닛(3A)에 준 후, 예를 들면 머리부 유닛(2A)과 본체부 유닛(3A)과 메니퓰레이터부 유닛(4A)을 결합함으로써 로봇 장치(1)(도 1)를 구축한다.

머리부 유닛(2A)의 CPU(22)는 기억부(47)로부터 해당 머리부 유닛(2A)을 나타내기 위한 식별 정보(S30)를 판독하여, 이것을 허브(21) 및 본체부 유닛(3A)의 허브(25) 및 시리얼 버스 호스트 컨트롤러(16)를 개재시켜 CPU(12)에 송출한다. 또, 메니퓰레이터부 유닛(4A)의 CPU(30)는 기억부(49)로부터 해당 메니퓰레이터부 유닛(4A)을 나타내기 위한 정보(S31)를 판독하여, 이것을 허브(29) 및 본체부 유닛(3A)의 허브(25) 및 시리얼 버스 호스트 컨트롤러(16)를 개재시켜 CPU(12)에 송출한다.

본체부 유닛(3A)의 CPU(12)는 기억부(45)로부터 해당 본체부 유닛(3A)을 식별하기 위한 식별 정보(S35)를 판독하여, 해당 본체부 유닛(3A)의 식별 정보(S35)와 머리부 유닛(2A)의 식별 정보(S30)와 메니퓰레이터부 유닛(4A)의 식별 정보(S31)를 현재의 유닛 조합을 나타내는 결합 정보로서 기억부(45)에 기억함과 동시에, 목표 행동 데이터(S2)에 근거하여 목표를 설정한 후에 행동을 실행한다.

그 때, 본체부 유닛(3A)의 CPU(12)는 설정된 목표를 기준으로 하여, 실행한 행동이 성공했는지의 여부를 판단한다. 그 결과, CPU(12)는 실행한 행동이 성공했다고 판단한 경우에는, 현재의 각 유닛 조합이 목표 행동에 적합하다고 해서, 외부로부터 주어진 목표 행동 데이터(S2)를 기억부(45)에 송출하여 해당 목표 행동 데이터(S2)와 상술한 결합 정보를 조합 학습 데이터로서 기억부(45)에 기억한다.

이에 대해 CPU(12)는 실행한 행동이 실패했다고 판단한 경우에는, 행동이 실패한 것을 나타내는 실행 결과 신호(S40)를 생성하여, 이것을 신호 처리부(11)에 의해 소정의 데이터 처리를 실시한 후, 액정 디스플레이로 이루어지는 출력 수단으로서의 표시부(50)에 송출하여 소정의 메시지 「테스크는 실패했습니다. 유닛을 교환하여 주십시오.」를 표시한다. 사용자가 이 표시에 따라서 예를 들면 메니퓰레이터부 유닛(4A)의 교환을 행하면 본체부 유닛(3A)의 CPU(12)는 기억부(45)의 결합 정보(S37)를 갱신하여 기억한 후에 목표 행동을 다시 실행한다. 이러한 동작을 반복함으로써 로봇 장치는 사용자로부터 주어진 목표 행동에 적합한 유닛 편성으로 이루어지는 조합 학습 데이터를 획득할 수 있다.

(1-6) 본체부 유닛(3)의 CPU(12)에 의한 학습 데이터의 융합 처리 순서 및 조합 학습 데이터 생성 순서

여기서 도 4에 도시하는 플로 챠트를 사용하여 학습 데이터의 융합 처리 순서, 예를 들면 메니퓰레이터부 유닛(4A)(도 2)의 학습 데이터(S24)와 메니퓰레이터부 유닛(4B)(도 2)의 학습 데이터(S24)와의 융합 처리 수순에 대해서 설명한다. 덧붙여, 다른 유닛끼리의 학습 데이터의 융합 처리 순서에 대해서도 동일하기 때문에 여기서는 설명을 생략한다.

우선 스텝(SP1)으로부터 들어온 스텝(SP2)에 있어서, 본체부 유닛(3A)의 CPU(12)는 메니퓰레이터부 유닛(4A)이 해당 본체부 유닛(3A)에 결합되면, 허브(25)를 개재시켜 메니퓰레이터부 유닛(4A)의 기억부(49)로부터 학습 데이터(S24)를 판독하여, 해당 학습 데이터(S24)를 기억부(45)에 전송한다.

스텝(SP3)에 있어서, CPU(12)는 사용자가 메니퓰레이터부 유닛(4A)을 본체부 유닛(3A)으로부터 제외하여, 메니퓰레이터부 유닛(4B)을 새롭게 본체부 유닛(3A)에 설치하여 교환한 것을 인식여, 다음 스텝(SP4)으로 옮긴다. 이것을 받아 스텝(SP4)에 있어서, 본체부 유닛(3A)의 CPU(12)는 새롭게 설치한 메니퓰레이터부 유닛(4B)의 기억부(49)로부터 학습 데이터(S24)를 판독하여 기억부(45)에 전송한 후, 이들 메니퓰레이터부 유닛(4A)의 학습 데이터 및 메니퓰레이터부 유닛(4B)의 학습 데이터를 융합함으로써 융합 학습 데이터를 생성하여 기억부(45)에 기억한다.

계속되는 스텝(SP5)에 있어서, 본체부 유닛(3A)의 CPU(12)는 생성한 융합 학습 데이터를 허브(25)를 개재시켜 메니퓰레이터부 유닛(4B)의 기억부(49)에 송출함으로써, 기억부(49)에 표시하여 기억한다. 스텝(SP6)에 있어서, 본체부 유닛(3A)의 CPU(12)는 기억부(45)에 기억되어 있는 융합 학습 데이터를 삭제한 후, 스텝(SP1)으로 돌아가 동작을 반복한다.

계속해서 도 5에 도시하는 플로 챠트를 사용하여 조합 학습 데이터 생성 순서에 대해서 설명한다. 스텝(SP10)으로부터 들어간 스텝(SP11)에 있어서, 본체부 유닛(3A)의 CPU(12)는 외부로부터 목표 행동 데이터(S2)가 주어지며, 스텝(SP12)에 있어서, 원하는 유닛 예를 들면 머리부 유닛(2A)과 메니퓰레이터부 유닛(4A)이 결합되면, 이 때의 각 유닛 조합을 나타내는 결합 정보를 기억부(45)에 기억한 후, 목표 행동 데이터(S2)에 근거하여 목표를 설정한 후에 목표 행동에 따른 테스크를 실행한다.

스텝(SP13)에 있어서, 본체부 유닛(3A)의 CPU(12)는 설정된 목표를 기준으로 하여, 실행한 테스크가 성공했는지의 여부를 판단한다. 그 결과, 본체부 유닛(3A)의 CPU(12)는 테스크가 성공했다고 판단한 경우에는 스텝(SP14)으로 이행하고, 테스크가 실패했다 판단한 경우에는 스텝(SP15)으로 이행한다.

스텝(SP14)에 있어서, 본체부 유닛(3A)의 CPU(12)는 주어진 목표 행동에 대해 현재의 조합이 적합하다고 해서, 목표 행동과 상술한 적합 정보를 조합 학습 데이터로서 기억부(45)에 기억한다. 이에 대해 스텝(SP15)에 있어서, 본체부 유닛(3A)의 CPU(12)는 표시부(50)에 소정의 메시지를 표시하여 사용자에게 유닛 교환을 재촉한다. CPU(12)는 사용자가 표시부(5O)의 표시에 따라서 유닛 교환을 행하면, 스텝(SP12)으로 돌아가 상술한 동작을 반복한다.

(1-7) 본 실시예의 동작 및 효과

이상의 구성에 있어서, 로봇 장치(1)는 사용자로부터의 명령이나 주위 상황에 따라 자율적으로 행동을 결정하기 위한 학습 데이터를 미리 획득해 두고, 해당 획득된 학습 데이터를 해당 로봇 장치(1)를 구축하는 각 유닛마다의 기억부로 분산하여 관리함으로써, 유닛 교환을 할 경우, 교환 전의 유닛으로 획득한 학습 데이터와 교환 후의 유닛의 학습 데이터를 융합시킬 수 있으며, 이로써 유닛 교환한 후, 교환 전 유닛으로 획득된 학습 데이터에 상당하는 학습 데이터를 다시 처음부터 획득할 필요가 없는 만큼, 학습 데이터 획득에 걸리는 수고나 시간을 단축할 수 있다.

또, 로봇 장치(1)는 사용자로부터 주어진 목표 행동을 실행하는 데 적합한 유닛 조합을 나타내는 조합 학습 데이터를 미리 획득해 두고, 사용자 지시가 있을 경우에는 그 지시가 나타내는 목표 행동에 따른 조합을 사용자에게 통지함으로써, 사용자는 원하는 행동을 달성하는 데 적합한 유닛 조합을 용이하게 판단할 수 있다.

이상의 구성에 의하면, 외부로부터 주어지는 정보에 따라서 자율적으로 행동을 결정하기 위한 학습 데이터를 미리 획득해 두고, 해당 획득된 학습 데이터를 각 유닛마다 분산하여 관리함으로써, 교환 대상의 유닛으로 획득된 학습 데이터와 다른 유닛의 학습 데이터를 융합시킬 수 있으며, 이렇게 하여 학습 데이터 획득에 걸리는 수고나 시간을 단축하여 사용 편리성이 향상한 로봇 장치(1)를 실현할 수 있다.

또, 사용자로부터 주어지는 지시에 따라서 유닛 조합을 결정하기 위한 조합 학습 데이터를 미리 획득해 두고, 사용자 지시가 있을 경우에는 그 지시에 따른 조합을 사용자에게 통지함으로써, 사용자는 원하는 행동을 실행시키는 데 적합한 조합을 용이하게 판단할 수 있으며, 이렇게 하여 사용 편리성이 향상한 로봇 장치(1)를 실현할 수 있다.

(2) 제 2 실시예

(2-1) 본 실시예에 의한 로봇 장치의 구성

도 2와의 대응 부분에 동일 부호를 붙여 도시하는 도 6은 제 2 실시예에 의한 로봇 장치(60)를 도시하며, 본체부 유닛(61), 머리부 유닛(62) 및 메니퓰레이터부 유닛(63)의 각 유닛의 기억부(45, 47, 49) 내에 후술하는 바와 같은 각종 테이블의 데이터가 격납되어 있는 점과, 머리부 유닛(62) 및 각 메뉴필레이터부 유닛(63)에 CPU가 설치되어 있지 않은 점 등을 제외하고 도 1에 도시하는 로봇 장치(1)와 거의 동일하게 구성되어 있다.

즉, 이 로봇 장치의 경우, 본체부 유닛(61), 머리부 유닛(62) 및 메뉴필레이터부 유닛(63)의 각 기억부(64, 66)에는 각각 도 7에 도시하는 바와 같이, 상태 변환 테이블(T_s), 학습 데이터로서의 행동 결정 테이블(T_a)(_w,_s), 평가치 테이블(T_p(w)) 및 행동 변환 테이블(T_a)의 각 데이터가 격납되어 있다.

이 경우, 상태 변환 테이블(T_s)은 그 유닛 내의 각 센서(15, 20, 28)로부터 출력되는 관측 데이터(S3, S10, S13)에 근거하여 예를 들면 「오른쪽 전방 근방에 볼이 있다」 등의 미리 정해진 상태를 인식하기 위한 테이블이다. 그리고, 이 실시예의 경우에는, 도 8에 도시하는 바와 같이, 그 유닛 내의 센서수를 p개, 정해진 상태수를 m개로 하여, 각 상태(s_j)(j=1, 2, …, m)가 각각 다음 식

X₁ _min(S_j)≤X₁〈X_{1 max}(S_j)

X_{2 min}(S_j)≤X₂〈X_{2 min}(S_j)

X_{p min}(S_j)≤X_p〈X_{p max}(S_j) ……(1)

으로 정의되어 있으며, 이산화를 위한 (1)식에 있어서의 각 상태(s_j)에 대한 관측 데이터 값(X₁내지 X_p)의 상한치(X_{1 max}(S_j) 내지 X_{p max}(S_j)) 및 하한치(X_{1 min}(S_j) 내지 X_{p min}(S_j))로 이루어지는 다음 식

2×P×m ……(2)

개의 수치가 상태 변환 테이블(T_s)로서 기억부가 대응하는 영역 내에 기술되어 있다. 덧붙여 이 도 8은 P=2인 경우이고, 다음 식

X₁ _min(S_j)≤X₁〈X_{1 max}(S_j)

또한

X_{p min}(S_j)≤X_p〈X_{p max}(S_j) ……(3)

으로 주어지는 영역(도 8에 있어서 사선을 뺀 영역)에 s_j라는 상태가 대응되어 있는 것을 나타내고 있다.

또, 행동 결정 테이블(T_{a(w, s)})은 상태 변환 테이블(T_s)을 사용하여 인식된 상태(s_j)와, 외부로부터 주어지는 목표 행동(w_i)(i=1, 2, …, 1)에 따라서 출력해야 할 행동을 결정하기 위한 테이블이고, 도 9a에 도시하는 바와 같이, 목표 행동 데이터(S2)(도 6)에 근거하여 얻어지는 사용자가 지정한 목표 행동(w_i)에 대해, 해당 목표 행동(w_i)에 따른 복수의 행동(a_k) 중에서 그 때의 상태(s_j)에 따라서 그때까지의 학습에 의해 얻어진 최적의 출력해야 할 1개의 행동(a_k)(w_i, s_j)(k=1, 2, ……, n)이 대응되어 격납되어 있다.

예를 들면 「오른쪽 전방 근방에 볼이 있다」라는 상태(s_j)가 인식되어 있을 때에, 「앞발로 볼을 차라」라는 목표 행동(w_i)이 주어진 경우, 이에 대한 출력 행동(a_k)으로서는 「오른쪽 앞발로 볼을 찬다」 및 「왼쪽 앞발로 볼을 찬다」의 2개가 있지만, 행동 결정 테이블(T_{a(w, s)})에는 이들 선택지 중, 그때까지의 후술하는 바와 같은 학습에 의해 선택된 예를 들면 「오른쪽 앞발로 볼을 찬다」라는 행동(a_k(w_i, s_j)이 「오른쪽 전방 근방에 볼이 있다」라는 상태(s_j) 및 「앞발로 볼을 차라」라는 목표 행동(w_i)에 대응되어 격납되어 있다.

또, 평가치 테이블(T_p(w))은 도 9b에 도시하는 바와 같이, 행동 결정 테이블(T_{a(w, s)})에 있어서 각 목표 행동(w_i)에 각각 대응된 행동(a_k)(w_i, s_j)에 대해서 해당 행동(a_k)(w_i, s_j)의 성공율이나 수행 시간 등에 근거하여 산출된 평가치(p)(w_i)가 기술된 테이블이다.

더욱이, 행동 변환 테이블(T_a)은 행동 결정 테이블(T_{a(w, s)})을 사용하여 결정된 행동(a_k)(w_i, s_j)을 그 유닛 내의 액추에이터(15, 20, 28)에 대한 지령치로 변환하기 위한 테이블이다. 그리고 이 실시예의 경우에는, 도 10에 도시하는 바와 같이, 그 유닛 내의 액추에이터(32, 36, 41) 수가 q개인 경우에 다음 식

a_k={Y₁(a_k), Y₂(a_k), ……, Y_q(a_k)} ……(4)

와 같이 각 행동(ak)(w_i, s_j)마다의 각 액추에이터(32, 36, 41)에 대한 각 지령치(y₁(a_k) 내지 y_q(a_k))가 격납되어 있다.

덧붙여 이 도 10은 q=2인 경우이고, 예를 들면 행동(a_k)(w_i, s_j)에 대해 그 유닛 내의 제 1 액추에이터(32, 36, 41)에는 y₁(a_k)이라는 지령치가 대응되고, 제 2 액추에이터(32, 36, 41)에는 y_q(a_k)라는 지령치가 대응되어 있는 것을 나타내고 있다.

또, 이 로봇 장치(60)의 경우, 이들 상태 변환 테이블(T_s), 행동 결정 테이블(T_{a(w, s)}) 및 행동 변환 테이블(T_a) 중, 상태 변환 테이블(T_s) 및 행동 변환 테이블(T_a)은 그 유닛 구성에 의존하며, 행동 결정 테이블(T_{a(w, s)})은 그 유닛 구성에 의존하지 않도록 형성되어 있다.

그리고, 로봇 장치(60)에 있어서, 본체부 유닛(61)의 CPU(67)는 초기 때, 머리부 유닛(62)의 기억부(65) 및 매뉴필레이터부 유닛(63)의 기억부(66)에 각각 격납된 상태 변환 테이블(T_s), 행동 결정 테이블(T_{a(w, s)}), 평가치 테이블(T_p(w)) 및 행동 변환 테이블(T_a)의 데이터를 판독하여, 이들을 본체부 유닛(61)의 기억부(64)에 격납한다.

그리고, CPU(67)는 도 11에 도시하는 바와 같이, 각 유닛(본체부 유닛(61), 머리부 유닛(62) 및 메뉴필레이터부 유닛(63))의 각 센서(15, 20, 28)로부터 주어지는 관측 데이터(S3, S10, S13)와, 기억부(64)에 격납한 각 유닛의 상태 변환 테이블(T_s)에 근거하여, 유닛마다 그 유닛 내의 센서(15, 20, 28)의 출력에 근거하여 인식되는 상태(s_j)를 늘 감시한다.

또, CPU(67)는 이 후, 목표 행동 데이터(S2)로서 목표 행동(w_i)이 주어지면, 상술한 바와 같이 하여 인식한 유닛마다의 각 상태(s_j)와, 기억부(64)에 격납한 각 유닛의 행동 결정 테이블(T_{a(w, s)})에 근거하여, 유닛마다 대응하는 행동 결정 테이블(T_{a(w, s)})에 있어서 대응된 행동(a_k)(w_i, s_j)을 그 유닛의 출력 행동으로서 결정한다.

더욱이, CPU(67)는 이 결정 결과와, 대응하는 행동 변환 테이블(T_a)에 근거하여, 유닛마다 그 유닛 내의 각 액추에이터(32, 36, 41)에 대한 지령치(y₁(a_k) 내지 y_q(a_k))를 각각 결정하여, 해당 결정 결과에 근거하는 구동 신호(S50 내지 S52)를 시리얼 버스 호스트 컨트롤러(16)나, 대응하는 버스(21, 29)를 개재시켜 대응하는 액추에이터(32, 36, 41)로 송출하여 이것을 구동함으로써, 각 유닛을 구동시킨다.

한편, CPU(67)는 목표 행동 데이터(S2)로서 목표 행동(w_i)이 주어진 경우, 상술한 바와 같은 처리 대신 소정의 확률로 해당 목표 행동(w_i)에 대응하는 몇개의 행동(a_k) 중에서 행동 결정 테이블(T_{a(w, s)})에 기술되어 있지 않은 1개의 행동(a_k)을 출력 행동으로서 결정한다.

그리고, CPU(67)는 이 결정 결과와, 대응하는 행동 변환 테이블(T_a)에 근거하여, 유닛마다 그 유닛 내의 각 액추에이터(32, 36, 41)에 대한 지령치(y₁(a_k) 내지 y_q(a_k))를 각각 결정하여, 해당 결정 결과에 근거하는 구동 신호(S50 내지 S52)를 시리얼 버스 호스트 컨트롤러(16)나, 대응하는 버스(21, 29)를 개재시켜 대응하는 액추에이터(32, 36, 41)로 송출하여 이것을 구동함으로써, 각 유닛을 구동시킨다.

더욱이, CPU(67)는 이 후, 이 때 출력한 각 유닛의 행동(a_k)에 대해서, 해당 행동(a_k)의 성공율이나 수행 시간 등에 근거하여 이들 행동(a_k)의 평가치(_p(wi))'를 각각 산출한다.

그리고 CPU(67)는 유닛마다 이 산출한 대응하는 평가치(p)(wi)'가 대응하는 평가치 테이블(T_p(w))에 기술된 그 목표 행동(w_i)의 평가치(_p(wi))보다도 높은 경우에만, 대응하는 유닛 내의 기억부(64 내지 66)에 격납되어 있는 행동 결정 테이블(T_{a(w, s)})이 대응하는 행동(a_k)(w_i, s_j)을 이 때 출력한 행동(a_k)으로 재기록하고, 또한 해당 기억부(64 내지 66)에 격납되어 있는 평가치 테이블(T_p(w))이 대응하는 평가치(p(w_i))를 상술한 바와 같이 하여 산출한 해당 행동(a_k)에 대응하는 평가치(p(w_i)')로 재기록한다.

이렇게 하여 이 로봇 장치(60)에 있어서는, 행동 결정 테이블(T_{a(w, s)})에 있어서 그 때의 상태(s_j) 및 외부로부터 주어지는 목표 행동(w_i)에 대응된 행동(a_k)(w_i, s_j)를 순차 평가치(p(w_i))가 높은 행동(a_k)으로 변경해 가도록 이루어지며, 이렇게 하여 항상 최적 행동을 행할 수 있도록 이루어져 있다.

(2-2) 본 실시예에 있어서의 학습 데이터의 융합 처리 순서

다음으로, 유닛을 동일 종류의 다른 유닛으로 교환할 때에 본체부 유닛(61)의 CPU(67)에 의해 행해지는 교환 전 유닛의 학습 데이터(행동 결정 테이블(T_{a(w, s)})의 데이터)와, 교환 후 유닛의 학습 데이터(행동 결정 테이블의 데이터)와의 융합 처리에 대해서 설명한다.

또한, 이하에 있어서는, 교환 전 유닛의 행동 결정 테이블(T_{a(w, s)}) 및 평가치 테이블(T_p(w))을 각각 T_{a(w, s)A}및 T_p(w)A로 나타내고, 교환 후 유닛의 행동 결정 테이블(T_{a(w, s)}) 및 평가치 테이블(T_p(w))을 각각 T_{a(w, s)B}및 T_p(w)B로 나타내는 것으로 한다.

이 실시예의 경우, 본체부 유닛(61)의 CPU(67)는 도 12에 도시하는 학습 데이터의 융합 처리 순서에 따라서 교환 전 유닛의 학습 데이터와, 교환 후 유닛의 학습 데이터를 융합한다.

즉, CPU(67)는 로봇 장치(60)에 설치된 도시하지 않은 일시 정지 버튼이 억압 조작되어 일시 정지 모드가 되면 이 학습 데이터의 융합 처리 순서를 스텝(SP30)에 있어서 개시하고, 계속되는 스텝(SP31)에 있어서 각 유닛의 기억부(64 내지 66)로부터 그 유닛의 평가치 테이블(T_p(w)A) 및 행동 결정 테이블(T_{a(w, s)A})의 각 데이터를 판독하여, 이들을 본체부 유닛(61)의 기억부(64)에 격납한다.

계속해서 CPU(67)는 스텝(SP31)으로 진행하여 어느 한 유닛이 교환되었는지의 여부를 판단한다. 또, CPU(67)는 2의 스텝(SP32)에 있어서 부정 결과를 얻으면, 스텝(SP33)으로 진행하여 상술한 일시 정지 버튼이 다시 억압 조작됨으로써 일시 정지 모드가 해제되었는지의 여부를 판단한다.

그리고, CPU(67)는 이 스텝(SP33)에 있어서 부정 결과를 얻으면 스텝(SP32)으로 돌아가, 이 후, 스텝(SP32 또는 SP33) 중 어느 하나에 있어서 긍정 결과를 얻을 때까지 스텝(SP32-SP33-SP32)의 루프를 반복한다.

그리고, CPU(67)는 이윽고 스텝(SP32)에 있어서 긍정 결과를 얻으면, 스텝(SP34)으로 진행하여 교환된 새로운 유닛의 기억부(65, 66)에 격납되어 있는 평가치 테이블(T_p(w)B) 및 행동 결정 테이블(T_{a(w, s)B})의 각 데이터를 판독하여, 이들을 본체부 유닛(61)의 기억부(64)에 격납한다.

계속해서 CPU(67)는 스텝(SP34)으로 진행하여 교환 전 원래 유닛의 학습 데이터(행동 결정 테이블(T_{a(w, s)A})) 및 교환 후의 새로운 유닛의 학습 데이터(행동 결정 테이블(T_{a(w, s)B}))의 융합 처리를 실행한다.

구체적으로 CPU(67)는 교환 전 원래 유닛의 평가치 테이블(T_p(w)A)과, 교환 후의 새로운 유닛의 평가치 테이블(T_p(w)B)을 비교하여, 원래 유닛의 평가치 테이블(T_p(w)A)에 존재하고, 또한 새로운 유닛의 평가치 테이블(T_p(w)B)에도 존재하는 목표 행동(w_i)에 대한 원래 유닛의 평가치 테이블(T_p(w)A)에서의 평가치(P(wi))와, 새로운 유닛의 평가치 테이블(T_p(w)B)에서의 평가치(P(w_i))를 비교하여, 새로운 유닛 쪽이 큰 것에 대해서는 아무 것도 하지 않는다.

이에 대해 CPU(67)는 원래의 유닛 쪽이 큰 것에 대해서는, 새로운 유닛의 행동 결정 테이블(T_{a(w, s)B})에 있어서의 그 목표 행동(w_i)에 대한 모든 상태(s_j)에서의 행동(a_k)(w_i, s_j)(도 9a에 있어서 대응하는 목표 행동(w_i)의 행의 모든 행동(a_k)(w_i, S_j))를 원래 유닛의 행동 결정 테이블(T_{a(w, s)A})에 있어서의 그 목표 행동(w_i)에 대해 대응하는 상태(s_j)에 대응된 행동(a_k)(w_i, s_j)으로 각각 변경함과 동시에, 새로운 유닛의 평가치 테이블(T_p(w)B)에 있어서의 그 목표 행동(w_i)에 대한 평가치(p(w_i))를 원래 유닛의 평가치 테이블(T_p(w)A)에 있어서의 대응하는 평가치(p(w_i))로 변경한다.

또, CPU(67)는 교환 전의 원래 유닛의 평가치 테이블(T_p(w)A)과, 교환 후의 새로운 유닛의 평가치 테이블(T_p(w)B)을 비교하여, 원래 유닛의 평가치 테이블(T_p(w)A)에 존재하고, 또한 새로운 유닛의 평가치 테이블(T_p(w)B)에 존재하지 않는 목표 행동(w_i)이 있는 경우에는, 이 목표 행동(w_i) 및 해당 목표 행동(w_i)에 대한 원래 유닛의 평가치 테이블(T_p(w)A)에 있어서의 평가치(p(w_i))를 새로운 유닛의 평가치 테이블(T_p(w)B)에 카피한다.

그리고, CPU(67)는 이러한 융합 처리를 종료하면, 이 후, 스텝(SP35)으로 진행하여, 해당 융합 처리에 의해 얻어진 새로운 평가치 테이블(T_p(w)B') 및 새로운 행동 결정 테이블(T_{a(w, s)B}')의 각 데이터를 새로운 유닛에 전송하고, 이것을 해당 유닛 내의 기억부(65, 66)에 격납되어 있는 원래의 평가치 테이블(T_p(w)B) 및 행동 결정 테이블(T_{a(w, s)B})의 데이터로 변해 해당 기억부(65, 66) 내에 격납시킨 후, 스텝(SP36)으로 진행하여 이 융합 처리 순서를 종료한다.

또, CPU(67)는 스텝(SP33)에 있어서 긍정 결과를 얻은 경우에도, 스텝(SP36)으로 진행하여 이 융합 처리 순서를 종료한다.

이렇게 하여 이 로봇 장치(60)에서는, 유닛이 교환된 경우에 있어서, 교환 전의 원래 유닛의 학습 데이터와, 교환 후의 새로운 유닛의 학습 데이터를 융합시킬 수 있도록 이루어지며, 이로써 원래 유닛에 있어서 얻어진 학습 데이터를 새로운 유닛에 있어서도 이용할 수 있도록 이루어져 있다.

(2-3) 본 실시예의 동작 및 효과

이상의 구성에 있어서, 이 로봇 장치(60)에서는, 목표 행동 데이터(S2)로서 목표 행동(w_i)이 주어진 경우, 소정의 확률로 해당 목표 행동(w_i)에 대응하는 몇개의 행동(a_k) 중에서 행동 결정 테이블(T_{a(w, s)})에 기술되어 있지 않은 1개의 행동(a_k)을 출력함과 동시에 이 후, 그 행동(a_k)을 평가하여, 평가 결과가 행동 결정 테이블(T_{a(w, s)})에 기술된 행동(a_k)(w_i, s_j)보다도 높은 경우에는 행동 결정 테이블(T_{a(w, s)})에 있어서의 대응하는 행동(a_k)(w_i, s_j)을 해당 행동(a_k)으로 재기록한다.

또, 이 로봇 장치(60)에서는, 유닛이 교환되면, 이렇게 하여 얻어진 원래 유닛의 행동 결정 테이블(T_{a(w, s)A})의 데이터로 이루어지는 학습 데이터와, 새로운 유닛의 행동 결정 테이블(T_{a(w, s)B})의 데이터로 이루어지는 학습 테이블를 융합하도록 하여 새로운 유닛의 행동 결정 테이블(T_{a(w, s)B})을 갱신한다.

따라서, 이 로봇 장치(60)에 있어서도, 제 1 실시예의 로봇 장치(1)와 마찬가지로, 유닛을 교환한 후, 교환 전 유닛에서 획득된 학습 데이터에 상당하는 학습 데이터를 다시 처음부터 획득할 필요가 없는 만큼, 학습 데이터 획득에 걸리는 수고나 시간을 단축할 수 있다.

이상의 구성에 의하면, 유닛을 교환한 후, 교환 전의 원래 유닛의 행동 결정 테이블(T_{a(w, s)A})의 데이터로 이루어지는 학습 데이터와, 교환 후의 새로운 유닛의 행동 결정 테이블(T_{a(w, s)B})의 데이터로 이루어지는 학습 테이블을 융합하도록 하여 새로운 유닛의 행동 결정 테이블(T_{a(w, s)B})을 갱신하도록 함으로써, 제 1 실시예와 마찬가지로, 학습 데이터 획득에 걸리는 수고나 시간을 단축하여 사용 편리성이 향상한 로봇 장치를 실현할 수 있다.

(3) 다른 실시예

또한, 상술한 제 1 실시예에 있어서는, 도 4에 도시하는 학습 데이터의 융합 처리 순서 스텝(SP6)에 있어서, 기억부(45)에 기억되어 있는 융합 학습 데이터를 삭제한 경우에 대해서 서술했지만, 본 발명은 이에 한하지 않고, 융합 학습 데이터를 삭제하지 않고 기억한 상태에서 보존해 두어도 된다.

또, 상술한 제 1 실시예에 있어서는, 조합 학습 데이터를 본체부 유닛(3)의 기억부(45)에 기억하도록 한 경우에 대해서 서술했지만, 본 발명은 이에 한하지 않고, 조합 학습 데이터를 본체부 유닛(3)의 기억부(45), 머리부 유닛(2)의 기억부(47) 및 메니퓰레이터부 유닛(4)의 기억부(49)에 기억하여 해당 조합 학습 데이터를 분산하여 관리해도 된다.

더욱이, 상술한 제 1 실시예에 있어서는, 외부로부터 공급받는 목표 행동 데이터(S2)에 근거하여 목표를 설정하도록 한 경우에 대해서 서술했지만, 본 발명은 이에 한하지 않고, 센서(15)로부터 공급되는 관측 데이터(S3)를 기초로 자기 자신이 목표를 설정해도 되며, 다른 각종 데이터를 기초로 목표를 설정하면 된다.

더욱이, 상술한 제 1 실시예에 있어서는, 사용자로부터 주어진 목표 행동과 해당 목표 행동에 적합한 유닛 조합을 조합 학습 데이터로서 기억부(45)에 기억한 경우에 대해서 서술했지만, 본 발명은 이에 한하지 않고, 목표 행동과 해당 목표 행동에 적합한 유닛 조합에 더불어, 해당 목표 행동에 적합하지 않은 조합의 데이터에 대해서도 기억부(45)에 기억해도 된다.

더욱이, 상술한 제 1 실시예에 있어서는, 외부로부터 주어진 목표 행동 데이터(S2)와 센서를 개재시켜 입력된 화상 데이터와 유닛을 구동시키기 위한 구동 신호를 학습 데이터로 한 경우에 대해서 서술했지만, 본 발명은 이에 한하지 않으며, 요는, 외부로부터 입력되는 입력 정보 및 해당 입력 정보에 따른 결합 유닛 자체의 동작 이력을 학습 데이터로 하면 된다.

더욱이, 상술한 제 1 실시예에 있어서는, 본 발명을 머리부 유닛(2)과 본체부 유닛(3)과 메니퓰레이터부 유닛(4)을 결합하여 이루어지는 로봇 장치(1)에 적용한 경우에 대해서 서술했지만, 본 발명은 이에 한하지 않고, 본체부 유닛과 메니퓰레이터부 유닛을 결합하여 이루어지는 로봇 장치에 본 발명을 적용해도 되며, 다른 각종 결합 유닛을 조합시켜 이루어지는 로봇 장치에 본 발명을 적용해도 된다.

더욱이, 상술한 제 1 실시예에 있어서는, 도 3에 도시하는 바와 같이, 본체부 유닛(3)에 연결하는 각 머리부 유닛(2A 내지 2C) 및 각 메뉴필레이터부 유닛(4A 내지 4D)에 CPU(22, 30)를 설치하도록 한 경우에 대해서 서술했지만, 본 발명은 이에 한하지 않고, 예를 들면 도 6과 같이 각 머리부 유닛(2A 내지 2C) 및 각 메뉴필레이터부 유닛(4A 내지 4D) 내에 CPU를 설치하지 않고, 기억부(47, 49)에 격납된 학습 데이터의 갱신 처리를 본체부 유닛(4)의 CPU(12)가 행하도록 해도 된다.

더욱이, 상술한 제 1 실시예에 있어서는, 각 유닛 내의 기억부(45, 47, 49)에 그 유닛의 학습 데이터를 격납해 두도록 한 경우에 대해서 서술했지만, 본 발명은 이에 한하지 않고, 예를 들면 센서(15, 20, 28)에 부여된 센서 ID 등과 함께 다른 유닛의 학습 데이터를 격납하도록 해도 된다.

더욱이, 상술한 제 2 실시예에 있어서는, 본 발명을 도 1 및 도 6과 같이 구성된 로봇 장치(1)에 적용하도록 한 경우에 대해서 서술했지만, 본 발명은 이에 한하지 않고, 이 밖에 각종 형태의 로봇 장치에 널리 적용할 수 있다.

더욱이, 상술한 제 2 실시예에 있어서는, 유닛을 교환했을 때에 얻어지는 융합된 학습 데이터(행동 결정 테이블(T_{a(w, s)B}')의 데이터)를 교환 후의 새로운 유닛의 원래 학습 데이터에 표서하도록 한 경우에 대해서 서술했지만, 본 발명은 이에 한하지 않고, 융합된 학습 데이터(행동 결정 테이블(T_{a(w, s)B}')의 데이터)를 교환 후의 새로운 유닛의 원래 학습 데이터와는 별도로 해당 새로운 유닛이 보존하도록 해도 된다.

본 발명은 복수 종류 존재하는 결합 유닛 중 원하는 결합 유닛을 조합시켜 결합시킴으로써 구축되며, 외부로부터 입력되는 입력 정보를 기초로 소정의 동작을 자율적으로 행하는 로봇 장치에 이용할 수 있다.

Claims

복수 종류 존재하는 결합 유닛 중 원하는 결합 유닛을 조합 결합시킴으로써 구축되며, 외부로부터 입력되는 입력 정보를 기초로 소정의 동작을 자율적으로 행하는 로봇 장치에 있어서,

상기 결합 유닛에 내장되며, 상기 입력 정보 및 해당 입력 정보에 따른 상기 로봇 장치 전체의 동작 이력 중, 상기 입력 정보 및 해당 입력 정보에 따른 상기 결합 유닛 자체의 동작 이력을 학습 데이터로서 기억하는 기억 수단을 구비하는 것을 특징으로 하는 로봇 장치.
제 1 항에 있어서,

상기 기억 수단은, 상기 복수 종류 존재하는 결합 유닛 중 상기 입력 정보에 대해 상기 결합 유닛 고유의 동작을 행하기 위한 상기 학습 데이터를 기억하는 것을 특징으로 하는 로봇 장치.
복수 종류 존재하는 본체 유닛 및 복수 종류 존재하는 결합 유닛 중, 각각 원하는 본체 유닛 및 결합 유닛을 선택하여 결합시킴으로써 구축되며, 외부로부터 입력되는 정보를 기초로 원하는 동작을 자율적으로 행하는 로봇 장치의 상기 본체 유닛에 있어서,

현재 결합되어 있는 상기 결합 유닛의 기억 수단으로부터 학습 데이터를 판독하고, 해당 판독한 상기 학습 데이터와 이전 결합되어 있던 결합 유닛의 학습 데이터를 융합함으로써 신규 학습 데이터를 생성하여, 해당 생성된 학습 데이터를 현재 결합되어 있는 상기 결합 유닛의 상기 기억 수단에 기억하는 학습 데이터 융합 수단을 구비하는 것을 특징으로 하는 로봇 장치의 본체 유닛.
복수 종류 존재하는 결합 유닛 중 원하는 결합 유닛을 조합시켜 결합시킴으로써 구축되며, 외부로부터 입력되는 입력 정보를 기초로 소정 동작을 자율적으로 행하는 로봇 장치의 상기 결합 유닛에 있어서,

상기 입력 정보 및 해당 입력 정보에 따른 상기 로봇 장치 전체의 동작 이력 중, 상기 입력 정보 및 해당 입력 정보에 따른 상기 결합 유닛 자체의 동작 이력을 학습 데이터로서 기억하는 기억 수단을 구비하는 것을 특징으로 하는 로봇 장치의 결합 유닛.
제 4 항에 있어서,

상기 기억 수단은, 상기 복수 종류 존재하는 결합 유닛 중 상기 입력 정보에 대해 상기 결합 유닛 고유 동작을 행하기 위한 상기 학습 데이터를 기억하는 것을 특징으로 하는 로봇 장치의 결합 유닛.
복수 종류 존재하는 결합 유닛 중 원하는 결합 유닛을 조합시켜 결합시킴으로써 구축되며, 외부로부터 주어지는 입력 정보에 근거하여 소정 동작을 행하는 로봇 장치에 있어서,

외부로부터 주어진 상기 입력 정보에 근거하여 상기 결합 유닛 조합에 따른 동작을 행하는 동작 제어 수단과,

상기 결합 유닛 조합과 상기 입력 정보에 근거하는 상기 동작 제어 수단의 동작 이력을 조합 학습 데이터로서 기억하는 기억 수단과,

상기 기억 수단으로부터 필요에 따라서 상기 조합 학습 데이터를 판독하여 외부로 출력하는 출력 수단을 구비하는 것을 특징으로 하는 로봇 장치.
제 6 항에 있어서,

상기 기억 수단은, 상기 로봇 장치를 구축하기 위해 조합된 상기 결합 유닛에 각각 설치되어 있는 것을 특징으로 하는 로봇 장치.