KR20070100160A

KR20070100160A - 학습 장치, 학습 방법, 및 프로그램

Info

Publication number: KR20070100160A
Application number: KR1020070033807A
Authority: KR
Inventors: 가쯔끼 미나미노; 마사또 이또; 겐따 가와모또; 유끼꼬 요시이께; 히로따까 스즈끼
Original assignee: 소니 가부시끼 가이샤
Priority date: 2006-04-06
Filing date: 2007-04-05
Publication date: 2007-10-10
Also published as: US20070239644A1; CN101051215A; JP2007280054A; CN100504675C; US7953683B2

Abstract

학습 장치는, 각 노드가 다이나믹스(dynamics)를 유지하는 복수의 노드에 의해 형성된 네트워크를 기억하도록 구성되는 기억부; 관측된 시계열 데이터(time-series data)에 기초하여, 네트워크의 다이나믹스를 자기조직적으로(in self-organizing manner) 학습하도록 구성되는 학습부; 시계열 데이터에 가장 적합한 다이나믹스를 갖는 노드인 승자 노드(winner-node)를 결정하도록 구성되는 승자 노드 결정부; 및 승자 노드로부터 각 개별 노드의 거리에 따라, 개별 노드가 유지하는 다이나믹스에 대한 학습 가중치를 결정하도록 구성되는 가중치 결정부를 포함한다. 학습부는, 학습 가중치에 따른 정도로, 네트워크의 다이나믹스를 자기조직적으로 학습하도록 구성된다.

역학계 근사 모델, 회귀 뉴럴 네트워크, 시계열 데이터, 승자 노드, 학습 가중치, 구배법, 자기조직적 학습

Description

학습 장치, 학습 방법, 및 프로그램 {LEARNING APPARATUS, LEARNING METHOD, AND PROGRAM}

도 １은 본 발명의 일 실시예에 따른 데이터 처리 장치의 구성예를 도시하는 블록도이다.

도 ２는 다이나믹스(dynamics) 기억 네트워크의 일례를 도시하는 도면이다.

도 ３은 노드의 일례를 도시하는 도면이다.

도 ４는 학습부의 상세한 구성예를 도시하는 블록도이다.

도 ５는 승자 노드(winner-node)로부터의 거리와, 학습의 가중치와의 관계를 나타내는 도면이다．

도 ６은 학습 처리를 설명하는 흐름도이다.

도 ７은 인식부와 생성부의 상세 구성예를 도시하는 블록도이다.

도 ８은 본 발명의 일 실시예에 따른 컴퓨터의 구성예를 도시하는 블록도이다.

<주요 도면 부호 설명>

1-4: 학습부

1-5: 네트워크 기억부

7-1: 스코어 계산부

7-2: 승자 노드 결정부

7-3: 학습 가중치 결정부

7-4: 파라미터 갱신부

(특허 문헌1) 일본특허공개공보 제11-126198호

(비특허문헌1) G.Taga,1998, "예측불허 환경에서 뉴럴 발진기에 의한 바이페드형 이동의 자기조직화된 제어(Self-organized　control　of　bipedal　locomotion　by　neural　oscillators　in　unpredictable　environment)", Biological　Cybernetics, 65,147-159

(비특허문헌2) Gentaro Taga, "뇌와 신체의 역학적 디자인 - 운동·지각의 비선형 역학계와 발달(Dynamical design of the brain and the body - Non-linear dynamical system and development of movement and perception)", Kaneko Shobo

(비특허문헌3) T. Kohonen, "자기조직화 지도(Self-organization map)", Springer-Verlag Tokyo

(비특허문헌4) T.M. Martinetz, S. G. Berkovich, K. J. Schulten, "시계열 예측의 벡터 양자화 및 그 어플리케이션을 위한 뉴럴-가스('Neural-Gas' Network　for　Vector　Quantization　and　its　Application　to　Time-Series　Prediction)", IEEE　Trans. Neural Networks, VOL.4, NO.4, p558-569, 1993

본 발명은, 학습 장치 및 학습 방법, 및 프로그램에 관한 것으로서, 특히, 다이나믹스를 효율적으로 학습할 수 있도록 한 학습 장치, 학습 방법, 및 프로그램 에 관한 것이다．

로봇의 행동(운동)은, 시간 발전 법칙(time-evolution rule)에 의해 정해지는 역학계(dynamical　systems)로서 기술할 수가 있어， 여러 가지 행동은 그 역학계가 있는 특정 어트랙터 다이나믹스(attractor　dynamics)에 의해 실현 가능한 것이 알려져 있다.

예를 들면, 인간과 같은 바이페드형(bipedal) 로봇의 보행 운동은, 시스템의 운동 상태가 다양한 초기 상태로부터 특정한 사이클 궤도로 수렴되는 것을 특징으로 하는 리미트 사이클 다이나믹스(limit　cycle　dynamics)로서 기술할 수 있다 (예를 들면, 비특허문헌 1, 2참조). 또한， 암(arm) 로봇이 특정 대상물 쪽으로 그것의 암을 뻗는 뻗기 동작은, 다양한 초기 상태로부터 특정한 고정 점에 수렴되는 것을 특징으로 하는 고정점 다이나믹스(fixed-point　dynamics)로서 기술할 수 있다． 또한， 모든 운동은, 고정점 다이나믹스에서 구현 가능한 이산 운동(discrete　movement)과 리미트 사이클 다이나믹스에 의해 구현 가능한 사이클 운동(cyclic　movement)의 조합에 의해 구현가능하다고 공지되어 있다.

어트랙터 다이나믹스에 따라 로봇의 행동(운동)을 제어하는 경우의 문제로는, 태스크에 따른 어트랙터 다이나믹스의 디자인과, 센서 입력을 통해서 얻은 정보에 기초한 어트랙터 다이나믹스에 따라 적절한 모터 출력의 생성을 포함한다. 이것을 실현하기 위해서는, 어트랙터 다이나믹스가 환경과 연속적으로 상호작용하는 방식으로 로봇의 행동 출력을 생성할 필요가 있다．

이러한 어트랙터 다이나믹스를 인간이 설계하는 것이 아닌, 학습하는 방법이 제안되었다. 그런 방법 중의 하나는, 회귀 뉴럴 네트워크(recurrent　neural　network;RNN)를 이용하는 방법이 있다. RNN은, 네트워크에 피드백 루프로 결합되는 콘텍스트 유닛을 포함하고, 거기에 내부 상태를 유지함으로써, 이론적으로는, 임의의 역학계에 근사가능한 것으로 알려져 있다.

그러나, 밀접하게 결합된(tightly-connected) 1개의 네트워크 모듈로 구성되는 학습 모델에서는, 대규모인 행동 학습에 필요한 다수의 다이나믹스의 학습을 할 때에, 기억되어야 하는 다이나믹스 간의 간섭이 매우 커서, 학습이 어려워지는 문제가 있다.

이 문제의 관점에서, 복수의 네트워크 모듈을 조합해서 1개의 학습 모델을 구성하는 모듈러 아키텍처(modular　architecture)를 채용한 여러 학습 모델이 제안되었다. 이 모듈러 아키텍처에서, 원칙적으로는, 모듈을 늘리는 것에 의해 기억할 수 있는 다이나믹스를 용이하게 늘릴 수 있지만, 공급된 학습 샘플을 어느 모듈에서 학습할지를 결정하는 모듈 선택의 문제가 발생한다.

모듈 선택의 방법에 의해, 학습 방법은, 학습 샘플(학습 데이터)을, 어느 모듈에 할당할지를 인간이 결정하는 지도 학습(supervised　learning)과, 학습 모델이 자율적으로 정하는 자율 학습(unsupervised　learning)의 2개의 방법으로 나눌 수 있지만, 로봇이나 시스템이 자율적으로 학습을 행하기 위해는, 자율 학습에 의 해 모듈을 학습할 필요가 있다．

자율 학습에 의해 모듈을 학습하는 일 방법으로서, RNN 엑스퍼트 혼합(Mixture　of　RNN　Expert)이라는 학습 모델이 제안되어 있다 (예를 들면, 특허 문헌 1 참조). 이 학습 모델에서는， 복수의 RNN 모듈의 출력을 게이트 메커니즘(gate mechanism)에 의해 통합해서 최종적인 출력을 결정하고, 그 최종적인 출력의 성능이 최대화되도록 최대 확률 추정법 (maximum　likelihood　estimation)에 의해 게이트를 조정하면서, 각 RNN의 모듈을 학습한다.

그러나, 이러한 전체 최적화에 기초하는 방법에서는, 모듈의 수가 대규모가 되었을 경우에, 학습이 곤란해지는 문제가 있다.

한편, 벡터 패턴의 카테고리 학습에 이용되는 자기조직화 지도(self-organization　map;SOM)(예를 들면, 비특허문헌 3 참조)이나 뉴럴 가스(neural gas)(예를 들면, 비특허문헌 4 참조) 등의 방법에서는，전체 최적화에 기초하는 학습 규칙이 이용되지 않아서, 최적성이 보장되지 않는다. 하지만, 이들 방법들은, 적절한 카테고리 구조를 자기조직적으로(in self-organizing manner) 자율 학습하는 것이 가능한 것이 알려져 있다. 이들 방법에서는，모듈의 수가 대규모인 경우에도, 실용적으로 학습이 가능하다.

본 출원서의 출원인은, 벡터 패턴 대신에 시계열 패턴을 학습하기 위한 모델을 제안하였다(일본특허출원서 제2004-353832호).

그러나, 다이나믹스의 학습을 효율적으로 행하는 방법은 제안되지 않고 있 다.

본 발명은, 이러한 상황을 감안하여 이루어진 것으로, 다이나믹스를 효율적으로 학습할 수 있도록 하는 것이다.

본 발명의 일 실시예에 따른 학습 장치는, 각 노드가 다이나믹스를 유지하는 복수의 노드에 의해 구성되는 네트워크를 기억하는 기억 수단; 관측되는 시계열 데이터(time-series data)에 기초하여, 네트워크의 다이나믹스를 자기조직적으로 학습하는 학습 수단; 시계열 데이터에 가장 적합한 다이나믹스를 갖는 승자 노드를 결정하는 승자 노드 결정 수단; 승자 노드로부터의 거리에 따라서, 각 노드가 유지하는 다이나믹스의 학습 가중치를 결정하는 가중치 결정 수단을 구비한다. 학습 수단은, 학습의 가중치에 대응하는 정도로, 네트워크의 다이나믹스를 자기조직적으로 학습한다.

상기 다이나믹스는, 내부 상태량을 갖는 역학계 근사 모델(dynamical system approximation model)에 의해 모델화될 수 있다.

상기 다이나믹스는, 회귀 뉴럴 네트워크에 의해 모델화될 수 있다.

상기 학습 수단은, 학습의 가중치에 따른 구배(gradient)의 크기, 또는 반복 계산의 반복 횟수를 결정하는, 반복 계산에 기초하는 구배법에 의해 상기 네트워크의 다이나믹스를 학습할 수 있다．

본 발명의 또 다른 실시예에 따른 학습 방법은, 다이나믹스를 유지하는 노드의 복수에 의해 구성되는 네트워크의 복수의 노드 중，관측되는 시계열 데이터에 가장 적합한 다이나믹스를 갖는 승자 노드를 결정하는 단계; 상기 승자 노드로부터의 거리에 따라서, 각 노드가 유지하는 다이나믹스의 학습의 가중치를 결정하는 단계; 및 상기 학습의 가중치에 대응하는 정도에 의해, 상기 시계열 데이터에 기초하여，상기 네트워크의 다이나믹스를 자기조직적으로 학습하는 단계를 포함한다.

본 발명의 또 다른 실시예의 컴퓨터 프로그램은, 다이나믹스를 유지하는 노드의 복수에 의해 구성되는 네트워크의 복수의 노드 중，관측되는 시계열 데이터에 가장 적합한 다이나믹스를 갖는 승자 노드를 결정하는 단계; 상기 승자 노드로부터의 거리에 따라서, 각 노드가 유지하는 다이나믹스의 학습의 가중치를 결정하는 단계; 및 상기 학습의 가중치에 대응하는 정도로, 상기 시계열 데이터에 기초하여，상기 네트워크의 다이나믹스를 자기조직적으로 학습하는 단계를 포함하는 처리를 컴퓨터에 실행시킨다.

본 발명의 이들 실시예에 따르면，다이나믹스를 유지하는 노드의 복수에 의해 구성되는 네트워크의 복수의 노드 중，관측되는 시계열 데이터에 가장 적합한 다이나믹스를 갖는 승자 노드가 결정되고, 상기 승자 노드로부터의 거리에 따라서, 각 노드가 유지하는 다이나믹스의 학습의 가중치가 결정되고, 상기 학습의 가중치에 대응하는 정도로, 상기 시계열 데이터에 기초하여，상기 네트워크의 다이나믹스가 자기조직적으로 학습된다.

<실시예>

이하에 본 발명의 실시예들을 설명하지만, 본 발명의 특징들과, 명세서 또는 도면에 기재된 실시예와의 대응 관계들의 예가 아래 기재된다. 이 기재는, 본 발 명을 지원하는 실시예가 명세서 또는 도면에 기재되어 있는 것을 확인하기 위한 것이다. 따라서, 명세서에 기재되거나 또는 도면에 도시된 임의의 실시예가 본 발명의 특정한 특징에 대응하는 것으로서 기재되지는 않지만, 그것이 반드시, 그 실시예가 이들 특징에 대응하지 않는다는 것을 의미하지는 않는다. 반대로, 임의의 실시예가 특정 특징에 대응하는 것으로서 본 명세서에 기재되지만, 그것이 반드시, 그 실시예가 그 특징 이외의 특징에는 대응하지 않는 것을 의미하는 것은 아니다.

본 발명의 일 실시예의 학습 장치는, 각각이 다이나믹스를 유지하는 복수의 노드에 의해 구성되는 네트워크(즉, 다이나믹스 기억 네트워크)를 기억하는 기억 수단(즉, 도 1의 네트워크 기억부(1-5)); 관측되는 시계열 데이터에 기초하여，네트워크의 다이나믹스를 자기조직적으로 학습하는 학습 수단(즉, 도 1의 학습부(1-4)); 시계열 데이터에 가장 적합한 다이나믹스를 갖는 승자 노드를 결정하는 승자 노드 결정 수단(즉, 도 4의 승자 노드 결정부(7-2); 승자 노드로부터의 거리에 따라서, 각 노드 마다에 유지되는 다이나믹스의 학습 가중치를 결정하는 가중치 결정 수단(즉, 도 4의 학습 가중치 결정부(7-3))를 구비한다. 상기 학습 수단은, 상기 학습의 가중치에 대응하는 정도에 의해, 상기 네트워크의 다이나믹스를 자기조직적으로 학습한다(즉, 도 6의 단계 S8).

본 발명의 일 실시예의 학습 방법 또는 프로그램은, 다이나믹스를 유지하는 노드의 복수에 의해 구성되는 네트워크(즉, 다이나믹스 기억 네트워크)의 복수의 노드 중, 관측되는 시계열 데이터에 가장 적합하는 다이나믹스를 갖는 승자 노드를 결정하는 단계(즉, 도 6의 단계 S5); 상기 승자 노드로부터의 거리에 따라서, 각 노드 마다에 유지되는 다이나믹스의 학습의 가중치를 결정하는 단계(즉, 도 6의 단계 S6); 상기 학습의 가중치에 대응하는 정도에 의해, 상기 시계열 데이터에 기초하여，상기 네트워크의 다이나믹스를 자기조직적으로 학습하는 단계(즉, 도 6의 단계 S8)를 포함한다.

이하, 본 발명의 특정 실시예들은 도면을 참조하여 상세히 설명될 것이다.

도 1은, 본 발명의 일 실시예에 따른 데이터 처리 장치의 구성예를 도시하는 블록도이다.

도 1의 데이터 처리 장치는, 내부 상태량을 갖는 역학계 근사 모델에 의해 각 노드가 구현된 노드들을 포함하는 다이나믹스 기억 네트워크를 기억하는 네트워크 기억부(1-5)와, 그 다이나믹스 기억 네트워크의 파라미터를 자기조직적으로 갱신하는 학습부(1-4)를 포함한다.

　다이나믹스 기억 네트워크의 각 노드에는, 시계열 데이터의 역학적인 특성을 나타내는 다이나믹스가 유지된다. 학습부(1-4)에 의해 갱신되는 파라미터에 의해 정의되고，다이나믹스 기억 네트워크의 각 노드에 유지되는 다이나믹스는, 시계열 데이터의 인식과 생성을 위해 이용된다.

도 1의 데이터 처리 장치는, 예를 들면, 로봇 등의 제어 신호의 인식이나 생성에 이용된다. 데이터 처리 장치는, 특히, 자동 시스템이나 자동 로봇 등에서, 센서 및 모터의 입출력 신호의 학습, 인식, 또는 생성에 이용된다.

도 1의 데이터 처리 장치에서는, 데이터 처리 장치에 입력되는 신호와, 데이터 처리 장치가 출력하는 신호 모두가, 관측 신호(1-1)로서, 신호 입력부(1-2)에 입력된다. 관측 신호(1-1)는, 예를 들면, 음성이나 화상 신호, LED(Light　Emitting　Diode)의 밝기를 나타내는 신호, 모터의 회전 각도나 각속도를 나타내는 신호 등을 포함한다.

신호 입력부(1-2)는, 입력되는 관측 신호(1-1)에 대응하는 전기 신호를, 특징 추출부(1-3)로 출력한다. 더 구체적으로，관측 신호(1-1)가 음성 신호일 경우, 신호 입력부(1-2)는, 예를 들면, 마이크로폰에 대응하고, 관측 신호(1-1)가 화상 신호일 경우, 신호 입력부(1-2)는, 예를 들면, 카메라에 대응한다. 관측 신호(1-1)가 모터의 회전 각도나 각속도를 나타내는 신호일 경우, 신호입력부(1-2)는, 예를 들면, 모터의 회전 각도나 각속도를 계측하는 계측 장치에 대응한다.

이하에서는，신호 입력부(1-2)에 입력되는 신호뿐만 아니라, 신호 입력부(1-2)가 출력하는 신호도 관측 신호(1-1)로 지칭될 것이다. 관측 신호(1-1)는, 정상 신호이거나 또는 시간적으로 변화되는 비정상신호일 수 있다．

또한，이하 설명에서, 주로 로봇 시스템에 있어서의 센서/모터 신호를, 관측 신호(1-1)의 예로서 사용할 것이다. 이 센서/모터 신호는, 예를 들면, 센서가 출력하는 신호나, 모터에 입력되는 모터를 제어하는 제어 신호를 나타내는 컴포넌트를 갖는 벡터들이다. 물론, 관측 신호(1-1)가, 센서/모터 신호에 한정되는 것은 아니다.

또한， 신호 입력부(1-2)는, 사전결정된 구간에서 구획해서 센서/모터 신호를 출력하는 구간 검출기 등을 포함한다. 적당한 길이에 구획된 센서/모터 신호가 출력되는 한, 구획 방식은 특별히 제한되지 않는다. 따라서, 입력되는 센서/모터 신호에 따라서, 최적 방법으로 적당한 길이에 구획된 센서/모터 신호가, 관측 신호(1-1)로서, 신호 입력부(1-2)로부터 출력된다.

특징 추출부(1-3)는, 신호 입력부(1-2)로부터 출력된 관측 신호(1-1)로부터, 특징량을 시계열로 추출한다. 예를 들면, 특징 추출부(1-3)는, 센서 신호의 일 유형인 음성 신호에 대하여, 일정 시간 간격에 주파수 분석 등의 처리를 실시하여, 멜셉스트럼(melcepstrum) 등의 특징량을 시계열로 추출한다. 여기에서, 멜셉스트럼은 음성 인식 등에서 널리 이용되는 특징량의 일 유형이다.

특징 추출부(1-3)는, 관측 신호(1-1)로부터 특징량을 시계열로 추출하여 얻은 특징량의 시계열 데이터(이하, 단순히, 시계열 데이터라고 지칭함)를, 학습부(1-4), 인식부(1-6), 및 생성부(1-9)에 공급한다.

학습부(1-4)는, 특징 추출부(1-3)로부터 공급되는 시계열 데이터를 이용하여, 사전결정된 정도로, 시계열 데이터의 시간 변화의 특징을 나타내는 다이나믹스를 학습한다. 더 구체적으로는， 학습부(1-4)는, 사전결정된 정도로, 다이나믹스를 유지하는 다이나믹스 기억 네트워크의 파라미터를 갱신한다.

상세 내용은 후술할 것이지만, 학습부(1-4)는, 기본적으로는, 라벨의 부여되지 않고 있는 시계열 데이터가 연속해서 공급되면, 그 시계열 데이터의 특징적인 다이나믹스를 자기조직적으로 획득하도록, 자율 학습을 실행한다. 그 결과, 네트워크 기억부(1-5)에 기억되는 다이나믹스 기억 네트워크에는, 대표적인 다이나믹스가 효율적으로 유지된다. 그 유지된 다이나믹스는, 인식부(1-6)나 생성부(1-9)의 필요에 따라, 언제든지 이용될 수 있다．

다이나믹스는, 시간 변화되는 역학계를 나타내는 것이며, 예를 들면, 구체적인 함수에 의해 표현될 수 있다. 다이나믹스 기억 네트워크에서는, 시계열 데이터의 시간 변화의 특징을 나타내는 다이나믹스가 유지된다.

인식부(1-6)는, 특징 추출부(1-3)로부터 공급되는 시계열 데이터에 가장 근사하는 다이나믹스를, 수행된 학습의 결과 얻을 수 있은 다이나믹스 기억 네트워크에 유지되는 다이나믹스를 참조하여 결정하고, 그 결정의 결과를 인식 결과(1-7)로서 출력한다.

생성부(1-9)는, 다이나믹스 기억 네트워크에 유지된 다이나믹스로부터, 필요에 따라, 시계열 데이터를 생성할 수 있다． 생성부(1-9)는 시계열 데이터를 생성하는 생성 처리를 행한다.

더 구체적으로는， 생성부(1-9)는, 어느 다이나믹스로부터 시계열 데이터를 생성할지를 지정하는 제어 신호(1-8)를 얻는다. 생성부(1-9)는, 제어 신호(1-8), 특징 추출부(1-3)로부터 공급되는 시계열 데이터, 및 다이나믹스 기억 네트워크에 기초하여, 지정된 다이나믹스로부터 시계열 데이터를 생성하여，그 시계열 데이터를 생성 결과(1-10)로서 출력한다.

내부 상태 기억부(1-11)는, 다이나믹스 기억 네트워크의 각 노드의 내부 상태량을 유지한다. 내부 상태 기억부(1-11)에 기억된 내부 상태량은, 예를 들면, 인식부(1-6)에 의해 갱신되어, 생성부(1-9)에 의해 생성 처리에 이용된다.

도 2는, 도 1의 네트워크 기억부(1-5)에 기억되는 다이나믹스 기억 네트워크(5-1)의 일례를 나타내고 있다.

도 2는, 모든 노드(5-2 내지 5-10)를 2차원적으로 배치하고, 세로방향 및 가로방향에 인접하는 노드 간에 링크를 부여한 다이나믹스 기억 네트워크(5-1)를 나타내고 있다.

이하에서는， 노드(5-2 내지 5-10)를 구별하는 필요가 없을 경우, 그것들을 통합해서 노드(5)라고 지칭할 것이다.

링크는, 노드(5)가 공간 배치를 정의하기 위해 이용된다. 즉, 도 ２의 다이나믹스 기억 네트워크(5-1)는, 2차원적인 노드의 배치 구조를 부여한 다이나믹스 기억 네트워크의 일례이다. 도 2에 도시된 바와 같이, 링크에 의해 정의되는 노드(5)의 공간 배치에 따라，노드(5) 간의 공간 거리가 결정된다.

예를 들면, 도 2의 예에서 대상 노드(5)를 주목했을 때, 그 대상 노드(5)와 직접 결합된, 즉, 대상 노드(5)에 인접하는 노드는 그 대상 노드(5)와 가장 짧은 거리에 있고, 그 인접 노드로부터 순서대로 추가 링크를 따라가서 도달할 수 있는 노드(5)는, 대상 노드와의 거리가 조금씩 멀어져 간다.

도 2 이외에도, 링크의 구성의 방법에 따라, 노드(5)의 공간 배치 구조를 변화시킬 수 있어, 공간 배치 구조는 링크를 사용하여 임의로 정의될 수 있다.

도 3은, 노드(5)의 상세 내용을 나타내는 도면이다.

노드(5)는, 내부 상태량을 갖는 역학계 근사 모델(6-1)과, 그 역학계 근사 모델(6-1)의 파라미터의 학습의 정도를 나타내는 정보(이하, 정도 정보라고 지칭함)를 기억하는 학습 정도 기억부(6-2)로 구성된다. 역학계 근사 모델(6-1)로서는, 예를 들면, RNN을 이용할 수 있고, 이 경우, RNN의 출력층으로부터 입력층에 내부 상태량으로서 콘텍스트가 피드백된다. 또한，학습 정도 기억부(6-2)는, 네트워크 기억부(1-5)(도 1)의 기억 영역의 일부이다.

도 3에서는, 역학계 근사 모델(6-1)로서, ３층형 뉴럴 네트워크(neural network;NN)의 출력층으로부터 입력층으로 피드백 루프를 갖는 RNN이 이용되고 있다. 이 RNN을 이용하여, 시계열 데이터에 있어서의 시간 T의 상태 벡터 X_t의 입력에 기초하여, 시간 T+1의 상태 벡터 X_t ₊₁을 예측해서 출력하는 것을 학습, 즉 예측 학습(prediction　learning)함으로써, 시계열 데이터의 시간 발전 법칙을 학습할 수 있다．

RNN과 같은 내부 상태량을 갖는 역학계 근사 모델의 파라미터의 추정 방법에는, 일반적으로, BPTT(Back-Propagation　Through　Time)법이 이용된다. BPTT법은 최급강하법(steepest-descent)에 기초한 학습 방법이다. 이에 대해서는, 예를 들면, D. E. Rumelhart, G. E. Hinton & R. E. Williams, 1986 "오차 전파에 의한 내부 표현 학습(Learning　internal representations　by　error　propagation)", D. E. Rumelhart & J. McClelland, "병렬 분산 처리(Parallel　distributed　processing)",　pp. 318-364, Cambridge, MA: MIT Press, 및 R. J. Williams and D. Zipser, "완전 회귀 뉴럴 네트워크의 연속 실행을 위한 학습 알고리즘(A　learning　algorithm　for　continually running　fully　recurrent　neural　networks)", Neural Computation, 1:270-280, 1989 등에 기재되어 있다.

역학계 근사 모델(6-1)은, 학습 정도 기억부(6-2)에 기억되는 정도 정보가 나타내는 정도에 의해, 학습부(1-4)로부터 공급되는 시계열 데이터인 학습 데이터의 시계열 패턴을 나타내는 다이나믹스를 학습한다.

학습부(1-4)에 의해 수행하는 학습은 온라인 학습이다. 즉, 관측 신호(1-1)가 입력될 때마다, 학습부(1-4)는, 관측 신호(1-1)를 학습 데이터로서 사용하여, 역학계 근사 모델(6-1)의 파라미터를 조금씩 갱신한다.

학습 정도 기억부(6-2)는, 학습부(1-4)로부터 공급되는 정도 정보를 기억한다. 그러므로, 역학계 근사 모델(6-1)의 파라미터가 학습 데이터의 영향을 받는 정도가 조정된다.

이상과 같이, 학습부(1-4)는, 학습 정도 기억부(6-2)에 기억되어 있는 정도 정보에 따라서 학습의 정도를 조정하면서, 학습 데이터의 시계열 패턴을 학습한다.

다음으로， 학습부(1-4)가 행하는 파라미터의 갱신에 대해서 설명한다.

우선, 파라미터의 추정 방법인 BPTT법의 기초가 되는 BP(Back-Propagation)법에 대해서 간단히 설명한다.

역학계 근사 모델(6-1)의 입력층의 유닛 이외의 유닛에는, sigmoid 함수 f(x)가 사용된다고 본 명세서에서 가정된다.

유닛에 입력되는 데이터 Y를, y₀, y₁,..., y_n _-1로 나타내고, 유닛으로부터의 출력으로서 기대되는 기대 데이터 R을, r₀, r₁,..., r_m _-1로 나타낸다. n은, 입력층의 유닛의 수이며, m은 출력층의 유닛의 수를 나타낸다.

우선, 입력층으로부터 출력층으로의 유닛 j의 출력 데이터 o_j가 이하의 수학 식 1에 따라 계산된다.

수학식 1에서，o_j는 유닛 i의 출력 데이터를 나타낸다. 또한，w_ij는, 역학계 근사 모델(6-1)의 파라미터인, 유닛 i로부터 j로의 연결에 지정되는 가중치를 나타낸다.

다음으로, 수학식 1에 의해 계산된 출력 데이터 o_j에 기초하여, 이하의 수학식 2에 따라, 출력층으로부터 입력층으로, 파라미터 w_ij가 갱신된다.

수학식 2에서，w_ij(n)은, n회째에 갱신되는 파라미터 w_ij이며, η은 파라미터w_ij의 변화량을 조정하는 이득 파라미터를 나타낸다. 또한，δ_j는, 유닛 j의 오차 파라미터이다. 이 오차 파라미터 δ_j는, 유닛 j가 출력층의 유닛일 경우, 기대 데이터 r_k(k = 0, 1,...,m-1 중 어느 하나 값)와 출력 데이터 o_j에 기초해서 계산되어, 유닛　j가 숨은층의 유닛일 경우, 숨은층의 상위층인 출력층의 오차를 전파시켜서 계산된다.

파라미터 w_ij는, 출력 o_j가 기대 데이터 r_k에 충분히 근접할 때까지, 수학식 2에 따라서 반복 갱신된다.

BP법에 대해서는, 예를 들면, R. Beale, T. Jackson, "뉴럴 네트워크 컴퓨팅 입문(Introduction to neural computing)", kaibundo에 기재되어 있다.

전술한 BP법은, 최급강하법에 기초하는 학습 방법이며, BP법에서는, 반복 계산에 기초하는 구배법에 의해 학습이 행해진다. BP법이 회귀 뉴럴 네트워크에 대하여 확장된 것이 전술한 BPTT법이다.

BPTT법은, 최급강하법에 기초하는 학습 방법인 점과, 유닛으로부터의 출력이 기대되는 출력에 충분히 근접할 때까지, 파라미터가 반복해서 갱신되는 점, 즉 반복 계산에 기초하는 구배법에 의해 학습이 행해지는 점에서，BP법과 유사하다.

또한，BPTT법에 있어서도, BP법과 유사하게, 파라미터의 갱신시의 수학식에서，파라미터의 변화량을 조정하는 이득 파라미터 η가 이용된다. 이 이득 파라미터 η은, 구배법에 있어서의 변화의 스텝의 폭, 즉 구배법의 구배의 크기를 조정하는 기능을 하고 있다．

BP법이나 BPTT법은, 일반적으로, 학습 결과가 글로벌 최적 해(solution)에 수렴하는 것이 보증되지 않고 있다. 이 때문에, 학습 결과가, 국소 최적 해에 수렴할 위험성이 있다.

이 문제를 피하기 위해, 예를 들어, 이득 파라미터 η을, 최초 큰 값으로 설정하고, 서서히 작게 해가는 방법 등이 제안되었다. 즉, 이득 파라미터 η은, 파 라미터의 변화량을 조정하는 역할뿐만 아니라, 최급강하법에 기초하는 학습에서， 글로벌 최적 해에 안정되게 수렴시키기 위한 역할도 한다. 전자의 역할을 이용하면, 이득 파라미터 η을, 학습 데이터의 영향을 받는 정도를 조정하는 기능으로서 이용할 수 있다．

또한，반복 계산에 있어서의 반복 횟수 N에 주목하면，반복 횟수 N이 클수록, 학습 데이터의 영향을 받는 정도는 커지고, 반복 횟수 N이 작을수록, 그 정도는 작아진다. 따라서, 반복 횟수 N을 이용하여 학습 데이터의 영향을 받는 정도를 조정할 수 있다．

이상과 같이, 이득 파라미터 η 또는 반복 횟수 N을 이용하여, 학습 데이터의 영향을 받는 정도, 즉 학습의 정도를 조정할 수 있다． 따라서, 학습 정도 기억부(6-2)에 기억되는 정도 정보로서는, 이득 파라미터 η 또는 반복 횟수 N이 이용된다.

도 4는, 도 1의 학습부(1-4)의 상세 구성예를 도시하는 블록도이다.

학습부(1-4)는, 스코어 계산부(7-1), 승자 노드 결정부(7-2), 학습 가중치 결정부(7-3), 및 파라미터 갱신부(7-4)로 구성된다. 학습부(1-4)에는, 도 1의 특징 추출부(1-3)로부터 시계열 데이터가 입력되고, 그 시계열 데이터는, 학습 데이터로서, 스코어 계산부(7-1)와 파라미터 갱신부(7-4)에 공급된다.

스코어 계산부(7-1)는, 특징 추출부(1-3)로부터 공급된 학습 데이터에 대해, 네트워크 기억부(1-5)에 기억되어 있는 다이나믹스 기억 네트워크(5-1)에 포함되는 각 노드(5)의 역학계 근사 모델(6-1)의 스코어 계산을, 내부 상태량을 갱신하면서 행한다.

더 구체적으로는， 스코어 계산부(7-1)는, 학습 데이터에 대하여 얻을 수 있는 출력의 실제 값과, 그 학습 데이터에 대하여 역학계 근사 모델(6-1)이 출력하는 출력 값과의 평균 제곱 오차를, 노드(5) 마다의 예측 오차로서 지정하여 스코어로서 계산한다.

스코어 계산부(7-1)는, 사전결정된 기준 값을 연속적으로 갱신해감에 따라 얻을 수 있는 값 중의, 스코어를 가장 작게 하는 값을, 역학계 근사 모델(6-1)의 내부 상태량으로서의 콘텍스트의 초기 값에 결정하고, 콘텍스트를 초기값으로부터 갱신하면서, 스코어 계산을 행한다.

콘텍스트의 초기 값의 결정에 이용하는 사전결정된 값으로서는, 예를 들면, 랜덤한 값이나, 전회의 역학계 근사 모델(6-1)의 학습시에 얻은 최종적인 콘텍스트의 갱신 값을 채용할 수 있다．

예를 들면, 금회의 학습시에 이용되는 학습 데이터와, 전회의 학습시에 이용된 학습 데이터가, 아무런 관계도 없는 것을 알고 있을 경우에는, 콘텍스트의 초기 값의 결정에 이용하는 사전결정된 값으로서, 랜덤한 값을 채용할 수 있다．

한편, 예를 들면, 금회의 학습시에 이용되는 학습 데이터와, 전회의 학습시에 이용된 학습 데이터가, 연속하는 시계열 데이터의 경우와 같이, 특정 관계를 갖는 것을 알고 있을 경우에는, 콘텍스트의 초기 값의 결정에 이용하는 사전결정된 값으로서는, 전회 갱신 값을 채용할 수 있다． 또한，전회 갱신 값을, 콘텍스트의 초기값의 결정에 이용하는 사전결정된 값으로서 채용하는 경우에는, 전회 갱신 값 을, 그대로, 콘텍스트의 초기 값에 결정할 수 있다．

스코어 계산부(7-1)는, 스코어 계산의 결과, 각 노드(5)에 부여된 스코어를 승자 노드 결정부(7-2)에 공급한다. 승자 노드 결정부(7-2)는, 스코어 계산부(7-1)로부터 공급된 각 노드(5)의 스코어를 비교하고, 가장 스코어의 값이 작은 노드(5)를, 학습 데이터에 가장 적합한 노드인 승자 노드로서 결정한다. 승자 노드 결정부(7-2)는, 그 승자 노드를 특정하는 정보를 학습 가중치 결정부(7-3)에 공급한다.

학습 가중치 결정부(7-3)는, 네트워크 기억부(1-5)에 기억되어 있는 다이나믹스 기억 네트워크(5-1)를 참조하고, 승자 노드 결정부(7-2)로부터의 정보에 의해 특정되는 승자 노드로부터의 거리 d를, 노드(5) 마다 계산한다. 그리고， 학습 가중치 결정부(7-3)는, 그 거리 d에 기초하고, 노드(5) 마다 학습의 가중치 α(0 <α≤1)를 결정한다.

또한， 학습 가중치 결정부(7-3)는, 학습의 가중치 α에 기초하여, 각 노드(5)의 정도 정보를 생성한다. 예를 들면, 학습 가중치 결정부(7-3)는, 학습의 가중치 α에 기초하여, 아래 수학식 3에 따라, 이득 파라미터 η 또는 반복 횟수 N를 나타내는 정도 정보를 생성한다.

수학식 3에서，η₀은, 학습의 가중치 α가 1인 경우의 이득 파라미터 η이 며, N₀은, 학습의 가중치 α가 1인 경우의 반복 횟수 N이다. 수학식 3에 따르면, 예를 들면, 반복 횟수 N₀이 100일 경우, α가 1의 때, 반복 횟수 N은 100이 되고, 학습의 가중치 α가 0.1의 때, 반복 횟수 N은 10이 된다.

학습 가중치 결정부(7-3)는, 생성한 정도 정보를 각 노드(5)의 학습 정도 기억부(6-2)에 각각 공급하여, 기억시킨다. 이에 의해，학습의 정도가 조정된다.

파라미터 갱신부(7-4)는, 노드(5) 마다, 학습 정도 기억부(6-2)에 기억되어 있는 정도 정보를 판독하고, 그 정도 정보가 나타내는 정도에 의해, 특징 추출부(1-3)로부터 공급되는 학습 데이터의 시계열 패턴을 나타내는 다이나믹스로서 학습한다. 더 구체적으로는， 파라미터 갱신부(7-4)는, 노드(5) 마다, 학습 데이터와 정도 정보에 기초하여, BPTT법에 있어서의 반복 계산을 행하여, 역학계 근사 모델(6-1)의 파라미터를 갱신한다.

다음으로，도 5를 참조하여, 학습의 가중치 α에 대해서 설명한다.

도 5의 좌측의 참조에서， 노드(8-1 내지 8-6)는 다이나믹스 기억 네트워크를 구성하는 노드들이다. 또한， 노드(8-1 내지 8-6) 중의 노드(8-1)는 승자 노드이며, 노드(8-2 내지 8-6)는 승자 노드(8-1)로부터의 거리가 가까운 순으로 배열되어 있다.

도 5의 우측의 그래프는, 학습의 가중치 α와 승자 노드(8-1)로부터의 거리 d의 관계를 나타내고 있고, 횡축은 학습의 가중치 α를, 종축은 승자 노드(8-1)로부터의 거리 d를, 각각 나타내고 있다.

도 5의 우측의 그래프에 따르면, 승자 노드(8-1)에 대한 학습의 가중치 α는 가장 큰 1의 값을 갖고, 다른 노드(8-2 내지 8-6)에 대한 학습의 가중치 α는, 승자 노드(8-1)로부터의 거리 d가 증가함에 따라 작아지도록 결정된다.

승자 노드로부터의 거리 d는, 다이나믹스 기억 네트워크의 링크에 의해 정의되는 공간상의 노드의 배치 구조에 기초해서 결정된다. 예를 들면, 도 2의 2차원으로 노드(5-2 내지 5-10)가 배치된 다이나믹스 기억 네트워크(5-1)에서， 승자 노드가, 예를 들면 노드(5-7)이면, 그 승자 노드(5-7)에 인접하는 노드(5-4, 5-6, 5-10)가 가장 근접하고, 노드(5-3, 5-5, 5-9)가 그 다음으로 근접하고, 노드(5-2 및 5-8)가 가장 멀리 있게 된다． 이 경우, 노드(5) 사이를 연결하는 최소의 링크 수를 거리로서 이용하면，가까운 순으로 거리 d는 1, 2, 3이 된다.

도 5의 우측의 그래프에 나타내는 승자 노드(8-1)로부터의 거리 d와 학습의 가중치 α의 관계는, 이하의 수학식 4로 나타낼 수 있다.

수학식 4에서，γ(0 <γ <1)는, 감쇠 계수이며, Δ는, 근방에 대한 학습의 가중치 α를 조정하기 위한 변수다.

수학식 4에 따르면, 학습의 가중치 α는, 감쇠 계수 γ의 d/△승으로서 계산될 수 있다. 또한，수학식 4에서，감쇠 계수 γ는, 1 미만의 양의 값이기 때문에, 거리 d가 증가하면, 학습의 가중치 α는 감소한다.

거리 d를, 승자 노드(8-1)로부터의 거리가 가까운 순으로 1, 2, 3...이라고 해서 승자 노드(8-1)의 거리 d를 0이라고 가정하자. 예를 들면, 감쇠 계수 γ가 0.5이며, 변수 Δ가 1일 경우, 학습의 가중치 α는, 승자 노드(8-1)로부터의 거리 d가 증가됨에 따라서, 1, 0.5, 0.25, 0.125...로 변화한다.

변수 Δ를 조금씩 0에 가까이 감소시키면, 학습의 가중치 α는 승자 노드(8-1)로부터 거리가 증가됨에 따라 감소된다. 그리고，변수 Δ가 0에 근접하게 되면, 승자 노드(8-1) 이외의 노드(5)의 학습의 가중치 α는 실제로 0이 된다. 이렇게, 변수 Δ를 조정하는 것으로, 승자 노드의 근방에 대한 학습의 가중치 α를 조정하는 것이 가능하게 된다． 기본적으로는, 변수 Δ는, 학습의 개시시는 큰 수가 되도록 선택되고, 시간의 경과와 함께 감소하도록 조정된다.

도 4의 학습 가중치 결정부(7-3)는, 수학식 4에 따라서，노드(5) 마다 학습의 가중치 α를 결정한다. 그리고，학습 가중치 결정부(7-3)는, 각 노드(5)의 학습의 가중치 α에 기초하여, 수학식 3에 따라서，노드(5) 마다 정도 정보를 생성하고, 파라미터 갱신부(7-4)는, 그 정도 정보가 나타내는 정도에 따라서 노드(5) 마다 학습을 행한다.

이에 의해， 학습부(1-4)는, 학습의 가중치 α에 따라서, 승자 노드(8-1)를 이용한 다이나믹스의 학습의 정도를 가장 높게 해서, 승자 노드(8-1)로부터 거리가 증가함에 따라서，그 정도를 감소시킬 수 있다． 그 결과, 승자 노드(8-1)의 파라미터는, 학습 데이터의 영향을 가장 강하게 받도록 갱신되어, 승자 노드(8-1) 이외의 노드(8-2 내지 8-6)의 파라미터는, 승자 노드(8-1)로부터 그 노드(8-2 내지 8- 6)의 거리가 증가됨에 따라, 그 영향이 감소되도록 갱신된다.

이상과 같이, 학습부(1-4)는, 학습의 가중치 α에 따라서, 효율적으로 학습을 행할 수 있다．

학습의 가중치 α를 학습에 반영시키는 일 방법으로서, 이전의 학습에 이용된 학습 데이터와, 관측된 시계열 데이터의 혼합비를 조정함으로써, 학습의 가중치 α를 간접적으로 학습에 반영시키는 방법이 있다. 그러나, 이 경우, 학습부는, 혼합비가 조정될 때마다, 조정 후의 학습 데이터를 이용하여, 방대한 반복 계산을 행할 필요가 있어, 계산 효율이 나쁘다.

이에 비해, 학습부(1-4)는, 학습의 가중치 α에 따라서, 학습의 정도를 조정 함으로써, 학습의 가중치 α를 직접적으로 학습에 반영시키므로, 학습의 가중치 α에 따라서 효율적으로 학습을 행할 수 있다. 이에 의해，반복 횟수를 삭감하고, 계산 효율을 향상시킬 수 있다. 즉, 학습부(1-4)에 의해 행해지는 학습에서는， 자기조직적 학습과, 반복 계산에 기초하는 구배법에 의한 학습이, 적절하게 융합되어 있다.

다음으로，도 6을 참조하여, 도 1의 데이터 처리 장치가 다이나믹스 기억 네트워크(5-1)를 학습하는 학습 처리에 대해서 설명한다. 이 학습 처리는, 예를 들면, 도 1의 데이터 처리 장치의 전원이 온(on)에 되었을 때, 개시된다.

우선, 단계 S1에서，학습부(1-4)의 파라미터 갱신부(7-4)(도 4)는, 네트워크 기억부(1-5)에 기억된 다이나믹스 기억 네트워크(5-1)의 파라미터를 초기화한다. 더 구체적으로는，다이나믹스 기억 네트워크(5-1)의 각 노드(5)의 역학계 근사 모 델(6-1)의 파라미터에 적당한 값이 초기 값으로서 부여된다.

스텝 S1의 처리 후, 스텝 S2로 진행하고, 도 1의 신호 입력부(1-2)는, 관측 신호(1-1)를 취득하여 특징 추출부(1-3)에 공급하고, 스텝 S3으로 진행한다. 스텝 S3에서，특징 추출부(1-3)는, 그 관측 신호(1-1)의 특징량을 시계열로 추출하고, 그 결과 얻을 수 있는 시계열 데이터를 학습 데이터로서, 학습부(1-4)의 스코어 계산부(7-1)과 파라미터 갱신부(7-4)에 공급한다.

스텝 S3의 처리 후, 스텝 S4로 진행하고, 스코어 계산부(7-1)는, 특징 추출부(1-3)로부터 공급된 학습 데이터에 대한, 네트워크 기억부(1-5)에 기억되어 있는 다이나믹스 기억 네트워크(5-1)에 포함되는 각 노드(5)의 역학계 근사 모델(6-1)의 스코어 계산을, 내부 상태량을 갱신하면서 행한다. 그 다음, 스코어 계산부(7-1)는, 스코어 계산의 결과, 각 노드(5)에 부여한 스코어를, 승자 노드 결정부(7-2)에 공급한다.

스텝 S4의 처리 후는, 스텝 S5로 진행하고, 승자 노드 결정부(7-2)는, 스코어 계산부(7-1)로부터 공급되는 각 노드(5)의 스코어를 비교함으로써, 가장 스코어의 값이 작은 노드를 승자 노드(8-1)로서 결정하고, 그 승자 노드(8-1)를 특정하는 정보를, 학습 가중치 결정부(7-3)에 공급한다.

스텝 S5의 처리 후는, 스텝 S6으로 진행하고, 학습 가중치 결정부(7-3)는, 네트워크 기억부(1-5)에 기억되어 있는 다이나믹스 기억 네트워크(5-1)를 참조하여, 전술한 수학식 4에 따라, 노드(5) 마다 학습의 가중치α를 결정한다.

스텝 S6의 처리 후는, 스텝 S7로 진행하고, 학습 가중치 결정부(7-3)는, 각 노드(5)의 학습의 가중치α에 기초하여, 전술한 수학식 3에 따라, 각 노드(5)의 정도 정보를 생성하고, 그 정도 정보를 각 노드(5)의 학습 정도 기억부(6-2)에 각각 공급해서 기억시킨다.

스텝 S7의 처리 후는, 스텝 S8으로 진행하고, 파라미터 갱신부(7-4)는, 노드(5) 마다, 특징 추출부(1-3)로부터의 학습 데이터와 정도 정보에 기초하여, BPTT법에 있어서의 반복 계산을 행하고, 역학계 근사 모델(6-1)의 파라미터를 갱신한다. 그 후, 스텝 S2로 처리가 복귀하여, 이후의 처리가 반복된다. 이상과 같이 해서, 정도 정보가 나타내는 정도로, 다이나믹스의 학습이 행해진다.

다음으로，도 7를 참조하여, 도 1의 데이터 처리 장치에 의한 시계열 데이터의 인식과 생성의 처리에 대해서 설명한다.

도 7은, 도 1의 데이터 처리 장치의 인식부(1-6)와 생성부(1-9)의 상세 구성예를 나타내고 있다.

시계열 데이터의 인식과 생성은, 입력된 시계열 데이터를 인식하고, 그 인식 결과에 기초하여, 새로운 시계열 데이터를 생성하는 것이다．

인식과 생성에 따르면, 예를 들면, 인간이 로봇에게 음성을 발화했을 경우에, 그 로봇에서, 그 발화에 응답하는 동작을 취하기 위한 모터 신호나, 그 발화에 응답하는 합성음을 생성하기 위한 파라미터 신호 등이 생성된다.

도 7에 도시한 바와 같이, 인식부(1-6)는, 내부 상태량 갱신부(12-1), 스코어 계산부(12-2), 결정부(12-3), 및 출력부(12-4)로 구성된다.

내부 상태량 갱신부(12-1)는, 내부 상태 기억부(1-11)로부터, 전회 갱신되어 서 기억되어 있는 내부 상태량을, 다이나믹스 기억 네트워크(5-1)의 각 노드(5)의 역학계 근사 모델(6-1)에 판독한다. 더 구체적으로는，내부 상태량 갱신부(12-1)는, 내부 상태 기억부(1-11)로부터 내부 상태량을 판독하여, 그 내부 상태량을, 각 노드(5)의 역학계 근사 모델(6-1)의 내부 상태량으로서, 스코어 계산부(12-2)에 공급한다.

이에 의해，역학계 근사 모델(6-1)에서，입력이 되는 시계열 데이터에 기초하여, 내부 상태량 갱신부(12)가 판독한 값을 초기 값으로서, 내부 상태량을 갱신하는 것이 가능하게 된다．

또한，내부 상태량 갱신부(12-1)는, 스코어 계산부(12-2)로부터 공급되는， 결정부(12-3)에 의해 승자 노드가 결정될 때의 각 노드(5)의 내부 상태량의 갱신 값과, 그 승자 노드가 결정될 때의 각 노드(5)의 내부 상태량의 초기 값을, 내부 상태 기억부(1-11)에 기억시킨다.

내부 상태 기억부(1-11)에 기억된 내부 상태량의 갱신 값은, 역학계 근사 모델(6-1)에 판독되어, 차회의 스코어 계산에 이용된다. 또한，내부 상태 기억부(1-11)에 기억된 내부 상태량의 초기 값은, 생성부(1-9)에서，시계열 데이터의 생성시에 이용된다.

스코어 계산부(12-2)는, 스코어 계산부(7-1)와 유사하게，특징 추출부(1-3)로부터의 시계열 데이터에 대한, 네트워크 기억부(1-5)에 기억되어 있는 다이나믹스 기억 네트워크(5-1)에 포함되는 각 노드(5)의 역학계 근사 모델(6-1)의 스코어 계산을, 내부 상태량을 갱신하면서 행한다.

스코어 계산부(12-2)는, 스코어 계산의 결과로서, 각 노드(5)에 부여된 스코어를, 결정부(12-3)에 공급하고，그 스코어가 부여되었을 때의 각 노드(5)의 내부 상태량의 갱신 값과 초기 값을, 승자 노드가 결정될 때의 각 노드(5)의 내부 상태량의 갱신 값과 초기 값으로서, 내부 상태량 갱신부(12-1)에 공급한다.

결정부(12-3)는, 스코어 계산부(12-2)로부터의 스코어에 기초하여, 가장 스코어의 값이 작은 노드를, 승자 노드로서 결정한다. 즉, 결정부(12-3)는, 승자 노드에 대응하는 다이나믹스를, 특징 추출부(1-3)로부터 입력된 시계열 데이터에 가장 적합한 다이나믹스로서 선택한다. 결정부(12-3)는, 입력된 시계열 데이터에 가장 적합한 다이나믹스에 대응하는 승자 노드를 특정하는 신호를, 출력부(12-4)에 공급한다.

출력부(12-4)는, 결정부(12-3)로부터 공급된 승자 노드를 특정하는 신호를, 인식 결과(1-7)로서 출력한다. 이상과 같이 해서, 인식부(1-6)에서，입력된 시계열 데이터가 인식된다. 그리고，인식 결과(1-7)는, 다이나믹스에 대응하는 어느 노드(5)로부터 시계열 데이터를 생성할지를 지정하는 제어 신호(1-8)로서 이용된다.

도 7의 생성부(1-9)는, 생성 노드 결정부(12-5), 내부 상태 판독부(12-6), 시계열 데이터 생성부(12-7), 및 출력부(12-8)로 구성된다.

생성 노드 결정부(12-5)에는, 출력부(12-4)로부터 출력되는 인식 결과(1-7)를, 제어 신호(1-8)로서 입력된다. 생성 노드 결정부(12-5)는, 제어 신호(1-8)에 기초하여, 시계열 데이터를 생성할 노드(5)인 생성 노드를 결정한다. 즉, 결정 부(12-3)에 의해 결정된 승자 노드가, 생성 노드로서 결정된다. 생성 노드 결정부(12-5)는, 결정된 생성 노드를 특정하는 정보를, 내부 상태 판독부(12-6)에 공급한다.

내부 상태 판독부(12-6)는, 생성 노드 결정부(12-5)로부터 공급된 정보에 기초하여, 네트워크 기억부(1-5)에 기억된 다이나믹스 기억 네트워크(5-1)에 포함되는 노드(5) 중의 생성 노드의 역학계 근사 모델(6-1)에, 내부 상태 기억부(1-11)에 기억되어 있는 값을, 내부 상태량의 초기 값으로서 판독한다.

즉, 내부 상태 판독부(12-6)는, 내부 상태 기억부(1-11)에 기억되어 있는 값 중에서, 인식부(1-6)에 의해 승자 노드가 결정되었을 때의 내부 상태량의 초기 값을 판독하고, 그 내부 상태량의 초기 값을, 생성 노드의 역학계 근사 모델(6-1)의 내부 상태량의 초기 값으로서, 시계열 데이터 생성부(12-7)에 공급한다.

시계열 데이터 생성부(12-7)에는, 특징 추출부(1-3)로부터 공급되는 시계열 데이터가 공급된다. 시계열 데이터 생성부(12-7)는, 시계열 데이터, 내부 상태 판독부(12-6)로부터 공급되는 내부 상태량의 초기 값, 및 생성 노드의 역학계 근사 모델(6-1)에 기초하여, 그 내부 상태량을 갱신하면서, 시계열 데이터를 생성한다. 시계열 데이터 생성부(12-7)는, 그 시계열 데이터를 출력부(12-8)에 공급한다.

출력부(12-8)는, 시계열 데이터 생성부(12-7)로부터의 시계열 데이터를, 생성 결과(1-10)로서 출력한다. 이상과 같이 해서, 생성부(1-9)는, 인식부(1-6)에 의한 인식의 처리에 있어서 결정된 승자 노드로부터, 시계열 데이터를 생성하여, 생성 결과(1-10)로서 출력한다.

이상과 같이, 도 1의 데이터 처리 장치에서는， 승자 노드 결정부(7-2)가, 다이나믹스를 유지하는 노드(5)의 복수에 의해 구성되는 다이나믹스 기억 네트워크(5-1)의 복수의 노드(5) 중，관측되는 시계열 데이터에 가장 적합한 다이나믹스에 대응하는 노드(5)인 승자 노드를 결정하고, 학습 가중치 결정부(7-3)가, 승자 노드로부터의 거리에 따라서, 노드(5) 마다, 그 노드(5)가 유지하는 다이나믹스의 학습의 가중치 α를 결정하고, 파라미터 갱신부(7-4)가, 학습의 가중치 α에 대응하는 정도 정보가 나타내는 정도로, 시계열 데이터에 기초하여，다이나믹스 기억 네트워크(5-1)의 각 다이나믹스를 자기조직적으로 학습하도록 했으므로, 다이나믹스를 효율적으로 학습할 수 있다．

전술한 설명에서는，시계열 데이터에 대하여 얻을 수 있는 출력의 실제 값과, 그 시계열 데이터에 대하여 역학계 근사 모델(6-1)이 출력하는 출력 값과의 평균 제곱 오차를, 스코어라고 했지만, 스코어는, 이것에 한정되지 않고, 예를 들면, 거리, 확률 등일 수도 있다． 스코어가 거리일 경우, 평균 제곱 오차일 경우와 유사하게，스코어의 값이 작은 노드가 승자 노드로서 결정되지만, 스코어가 확률일 경우, 스코어의 값이 큰 노드가 승자 노드로서 결정된다.

전술한 일련의 처리는, 하드웨어 또는 소프트웨어에 의해 행할 수 있다. 일련의 처리를 소프트웨어에 의해 행할 경우에는, 그 소프트웨어를 구성하는 프로그램이, 범용의 컴퓨터 등에 설치된다.

도 8은, 전술한 일련의 처리를 실행하는 프로그램이 설치되는 본 발명의 일 실시예에 따른 컴퓨터의 구성예를 나타내고 있다.

프로그램은, 컴퓨터에 내장되고 있는 기록 매체로서의 하드 디스크(105)나 ROM(103)에 미리 기록해 둘 수 있다.

다른 경우，프로그램은, 플렉시블 디스크, CD-ROM(Compact Disc　Read　Only　Memory), MO(Magneto-Optical) 디스크, DVD(Digital　Versatile　Disc), 자기 디스크, 또는 반도체 메모리 등의 탈착형 기록 매체(111)에, 일시적 혹은 영속적으로 기억해 둘 수 있다. 이러한 탈착형 기록 매체(111)는, 소위 팩키지(package) 소프트웨어로서 불리는 형태로 제공될 수 있다．

프로그램은, 전술한 바와 같이 탈착형 기록 매체(111)로부터 컴퓨터에 설치하는 대신에，디지털 위성 방송용의 인공 위성을 통하여, 컴퓨터에 무선으로 전송하거나, LAN(Local　Area　Network), 또는 인터넷과 같은 네트워크를 통하여, 컴퓨터에 유선으로 전송하여서, 컴퓨터에서는，그와 같이 하여 전송되어 오는 프로그램을, 통신부(108)로 수신하여, 내장하는 하드 디스크(105)에 설치할 수 있다．

컴퓨터는, CPU(Central　Processing　Unit)(102)를 내장하고 있다． CPU(102)는, 버스(101)를 통해, 입력/출력 인터페이스(110)에 접속되어 있다. CPU(102)는, 입력/출력 인터페이스(110)을 통하여, 예를 들어, 키보드, 마우스, 또는 마이크 등의 입력부(107)를 사용자가 조작하여 명령이 입력되면， 그것에 따라서, ROM(103)에 기억되어 있는 프로그램을 실행한다. 다른 경우，CPU(102)는, 하드 디스크(105)에 기억되어 있는 프로그램, 위성 혹은 네트워크로부터 전송되어, 통신부(108)로 수신되어서 하드 디스크(105)에 설치된 프로그램, 또는 드라이브(109)에 장착된 탈착형 기록 매체(111)로부터 판독되어서 하드 디스크(105)에 설 치된 프로그램을, RAM(Random　Access　Memory)(104)에 로드해서 실행한다. 이에 의해，CPU(102)는, 전술한 흐름도에 따른 처리, 혹은 전술한 블록도의 구성에 의해 행해지는 처리를 행한다. 그리고，CPU(102)는, 그 처리 결과를, 필요에 따라, 예를 들면, 입력/출력 인터페이스(110)을 통하여, LCD(Liquid　Crystal　Display)나 스피커 등과 같은 출력부(106)로부터 처리 결과를 출력하거나, 또는, 통신부(108)로부터 처리 결과를 송신하거나, 또는, 하드 디스크(105)에 처리 결과를 기록한다.

본 명세서에서，컴퓨터에 각종 처리를 행하도록 하는 프로그램을 기술하는 처리 단계는, 반드시 흐름도에 기재된 순서에 따라 처리할 필요는 없고, 병렬적 혹은 개별적으로 실행되는 처리(예를 들면, 병렬 처리 혹은 오브젝트에 의한 처리)도 포함할 수 있다.

프로그램은, 단일 컴퓨터에 의해 실행되거나, 또는 복수의 컴퓨터에 의해 분산 처리될 수도 있다. 또한， 프로그램은, 원격 컴퓨터에 전송되어서 실행될 수도 있다.

당업자라면, 다양한 수정, 조합, 서브-조합, 및 변경이, 디자인 요구사항과 다른 요인에 따라, 이들이 첨부된 청구항들과 이들의 동격의 범위 내에 있는 한, 발생할 수 있슴을 이해해야 한다.

본 발명에 개시된 학습 장치, 방법, 및 프로그램은, 각 노드가 다이나믹스를 유지하는, 복수의 상기 노드에 의해 구성되는 네트워크를 사용하고, 관측되는 시계열 데이터에 대한 상기 네트워크의 각 다이나믹스에 학습 가중치를 부여하여 자기 조직적이고 효율적으로 학습하도록 하는 효과를 나타낸다.

Claims

각각이 다이나믹스(dynamics)를 유지하는 복수의 노드에 의해 형성되는 네트워크를 기억하는 기억 수단과,

관측되는 시계열 데이터(time-series data)에 기초하여，상기 네트워크의 다이나믹스를 자기조직적으로(in self-organizing manner) 학습하는 학습 수단과,

상기 시계열 데이터에 가장 적합한 다이나믹스를 갖는 노드인 승자 노드(winner-node)를 결정하는 승자 노드 결정 수단과,

개별 노드에 의해 유지된 다이나믹스의 학습의 가중치를, 상기 승자 노드로부터 상기 개별 노드의 거리에 따라서 결정하는 가중치 결정 수단을 포함하고，

상기 학습 수단은, 상기 학습의 가중치에 대응하는 정도로, 상기 네트워크의 다이나믹스를 자기조직적으로 학습하는 학습 장치.
제1항에 있어서, 상기 다이나믹스는, 내부 상태량을 갖는 역학계 근사 모델(dynamical system approximation model)에 의해 모델화되는 학습 장치.
제1항에 있어서, 상기 다이나믹스는, 회귀 뉴럴 네트워크(recurrent neural network)에 의해 모델화되는 학습 장치.
제1항에 있어서, 상기 학습 수단은, 상기 학습의 가중치에 대응하는 구배법(gradient method)의 구배의 크기 또는 반복 계산의 반복 횟수가 결정되는, 상기 반복 계산에 기초하는 상기 구배법에 의해, 상기 네트워크의 다이나믹스를 학습하는 학습 장치.
다이나믹스를 유지하는 복수의 노드에 의해 구성되는 네트워크의 복수의 노드 중，관측되는 시계열 데이터에 가장 적합한 다이나믹스를 갖는 노드인 승자 노드를 결정하는 단계와,

개별 노드에 의해 유지되는 다이나믹스의 학습의 가중치를, 상기 승자 노드로부터 상기 개별 노드의 거리에 따라서 결정하는 단계와,

상기 학습의 가중치에 대응하는 정도로, 상기 시계열 데이터에 기초하여， 상기 네트워크의 다이나믹스를 자기조직적으로 학습하는 단계

를 포함하는 학습 방법.
다이나믹스를 유지하는 복수의 노드에 의해 구성되는 네트워크의 복수의 노드 중，관측되는 시계열 데이터에 가장 적합한 다이나믹스를 갖는 노드인 승자 노드를 결정하는 단계와,

개별 노드에 의해 유지되는 다이나믹스의 학습의 가중치를, 상기 승자 노드로부터 상기 개별 노드의 거리에 따라서, 결정하는 단계와,

상기 학습의 가중치에 대응하는 정도로, 상기 시계열 데이터에 기초하여， 상기 네트워크의 다이나믹스를 자기조직적으로 학습하는 단계

를 포함하는 처리를 컴퓨터에 실행시키는 컴퓨터 프로그램.
각각이 다이나믹스를 유지하는 복수의 노드에 의해 형성된 네트워크를 기억하도록 구성되는 기억부;

관측된 시계열 데이터에 기초하여, 상기 네트워크의 다이나믹스를 자기조직적으로 학습하도록 구성되는 학습부;

상기 시계열 데이터에 가장 적합한 다이나믹스를 갖는 노드인 승자 노드를 결정하도록 구성되는 승자 노드 결정부; 및

개별 노드에 의해 유지되는 상기 다이나믹스에 대한 학습 가중치를, 상기 승자 노드로부터 상기 개별 노드의 거리에 따라, 결정하도록 구성되는 가중치 결정부를 포함하고,

상기 학습부는, 상기 학습 가중치에 따른 정도로, 상기 네트워크의 다이나믹스를 자기조직적으로 학습하도록 구성되는 학습 장치.