KR20220034149A

KR20220034149A - 임바디드 에이전트들 내의 메모리

Info

Publication number: KR20220034149A
Application number: KR1020227003741A
Authority: KR
Inventors: 마크 사가르; 알리스테어 노트; 마틴 타카크; 시아오항 푸
Original assignee: 소울 머신스 리미티드
Priority date: 2019-07-08
Filing date: 2020-07-08
Publication date: 2022-03-17
Also published as: EP3997667A2; WO2021005540A2; US20220358369A1; EP3997667A4; AU2020311058A1; WO2021005540A3; CN114127748A; CA3144622A1; JP2022541883A

Abstract

계산 구조물들은, 경험으로부터 실시간으로 채워질 수 있고/있거나 작성될 수 있는 메모리를 임바디드 에이전트들에 제공한다. 임바디드 에이전트들(이들은, 가상 객체들, 디지털 엔티티들 또는 로봇들일 수 있음)에는, 임바디드 에이전트들의 거동에 영향을 주거나 이를 지시하는 하나 이상의 경험 메모리 저장소들이 제공된다. 경험 메모리 저장소는 수렴-발산 구역(CDZ)을 포함할 수 있는데, 이는, 리콜 동안 재경험될 수 있는 정신 이미지화 또는 시뮬레이션의 형태로 외부 현실을 나타내기 위한 인간 기억의 능력을 시뮬레이션한다. 메모리 데이터베이스는 단순한, 작성가능 방식으로 생성되어, 임바디드 에이전트들의 라이브 동작 동안 경험들이 학습되거나 또는 작성되게 한다. 적격성 기반 학습은, 다중모드 정보의 스트림들로부터 어느 태양들이 경험 메모리 저장소에 저장되는지를 결정한다.

Description

임바디드 에이전트들 내의 메모리

본 명세서에 기술된 실시예들은 인공 지능(Artificial Intelligence, AI)의 분야, 및 임바디드 에이전트들(embodied agent)에서의 메모리를 구현하고 사용하기 위한 시스템들 및 방법들에 관한 것이다. 더 구체적으로 그러나 배타적이지 않게, 실시예들은 무감독 학습(unsupervised learning)에 관한 것이다.

인공 지능(AI)의 목표는 인간 유사 학습(human-like learning) 및 기억을 포함하여 인간과 유사한 능력들을 갖는 컴퓨터 시스템들을 구축하는 것이다. 대부분의 현대의 기계 학습 기법들은 "오프라인(offline)" 학습에 의존하고, 여기서 AI 시스템들에는, 특정 도메인에 제한된, 학습할 준비된 데이터 및 완전한 데이터가 제공된다. 세상의 객체들 및 이벤트들을 인간 유사 방식으로 경험하고, 구현된 상호작용으로부터 학습하는 AI 시스템들을 생성하는 것이 종래 기술에서 중요한 과제로 남아 있다. 그들의 구현과 그들의 환경과의 감각운동 피드백 루프들 덕분에, 그러한 AI 에이전트들은 그들 자체의 학습에 영향을 미치고 그 학습을 안내할 수 있다. 그러한 에이전트들은 세상으로부터의 다중모드 데이터의 스트림들을 이해하고, 의미있는 그리고 유용한 방식으로 정보를 유지할 것이다. 추가의 중요한 과제는, 유연한 AI 임바디드 에이전트를 생성하는 것인데, 이는 그 자체의 경험으로부터 학습할 뿐만 아니라 외부 소스(예컨대, 인간 사용자)에 의해 작성되거나 변경된 그의 메모리들을 가질 수 있다. 계층형 시간적 메모리(Hierarchical Temporal Memory, HTM)는 피질 층들에 대한 유사체로서 다수의 레지스터들을 갖는 계산 구조를 기반으로 하는, 인간 기억을 복제하는 것에 대한 접근법이다. HTM은 대뇌 피질의 패치들을 복제하도록 구성된다. 그럼에도 불구하고, HTM은, 임바디드 에이전트들이 감각운동 경험으로부터 실시간으로 학습하고 전개할 수 있게 하는 임바디드 에이전트들에서의 메모리를 제공하지 못한다.

도 1: 수렴-발산 구역(Convergence Divergence Zone, CDZ) 아키텍처의 개략도.
도 2: 연상 자기 조직화 맵(Associative Self-Organizing Map, ASOM).
도 3: 상이한 양상(modality)들에 대한 적격성 신호들.
도 4: 적격성 트레이스가 적격성 윈도우를 생성하는 방법.
도 5: 학습 이벤트의 단계들.
도 6: 상이한 양상들의 적격성을 설정하기 위한 사용자 인터페이스.
도 7: ASOM 트레이닝의 디스플레이.
도 8: 질의 뷰어 입력 필드.
도 9: 질의 패턴들을 특정하기 위한 사용자 인터페이스.
도 10: LTM 및 STM의 디스플레이.
도 11: 작업 메모리 시스템(Working Memory System, WM System).

계산 구조물들은, 경험으로부터 실시간으로 채워질 수 있고/있거나 작성될 수 있는 메모리를 임바디드 에이전트들에 제공한다. 임바디드 에이전트들(이들은, 가상 객체들, 디지털 엔티티들 또는 로봇들일 수 있음)에는, 임바디드 에이전트들의 거동에 영향을 주거나 이를 지시하는 하나 이상의 경험 메모리 저장소들이 제공된다. 경험 메모리 저장소는 수렴-발산 구역(CDZ)을 포함할 수 있는데, 이는, 리콜 동안 재경험될 수 있는 정신 이미지화 또는 시뮬레이션의 형태로 외부 현실을 나타내기 위한 인간 기억의 능력을 시뮬레이션한다. 메모리 데이터베이스는 단순한, 작성가능 방식으로 생성되어, 임바디드 에이전트들의 라이브 동작 동안 경험들이 학습되거나 또는 작성되게 한다. 적격성 기반 학습(Eligibility-Based Learning)은, 다중모드 정보의 스트림들로부터 어느 태양들이 경험 메모리 저장소에 저장되는지를 결정한다.

경험 메모리 저장소

일 실시예에서, 에이전트에 의해 경험되는 경험들은 하나 이상의 경험 메모리 저장소들에 저장된다. "경험"은, 임바디드 에이전트가 감지하거나 지각할 수 있는 무언가로서, 예컨대 객체들, 이벤트들, 감정들, 관찰들, 액션들 또는 이들의 임의의 조합으로서 광범위하게 해석되어야 한다. 경험 메모리 저장소/저장소들은 경험들의 차원수 감소된 표현들을 신경 네트워크 가중치들로 저장할 수 있다.

수렴-발산 구역 CDZ

일 실시예에서, 경험 메모리 저장소는 수렴-발산 구역(CDZ)으로서 구현된다. CDZ는, 활동이 기록되는 사이트들로부터 수렴 투영(convergent projection)들을 수신하고, 발산 투영(divergent projection)들을 동일한 사이트들로 리턴하는 네트워크이다. CDZ들 내의 패턴들은, 부분적으로 제시된 지각 패턴들을 완성하기 위해, 또는 그러한 패턴들에 응답하여 활동하기 위해 '디스포지션(disposition)들'을 유지한다. 계층적으로 상류의 연관 메모리(associative memory)는 하위 감각 및/또는 운동 맵(motor map)들 활동의 조합들을 연관시켜 내재 메모리(implicit memory)(예를 들어, 객체의 응집 특성들)를 형성하는데, 이는 컴포넌트 특성들의 하류 재구성을 가능하게 한다. 예를 들어, 객체 분류를 위해 사용될 수 있는 객체들의 경험들을 저장하는 경험 메모리 저장소는 다음과 같이 CDZ를 사용하여 구현될 수 있다: 각각의 단일모드 객체 분류 경로는 CDZ들의 계층구조인데, 여기서 객체들의 명시적 맵(explicit map)들이 지각 동안 구성되고, 리콜 동안 재구성된다. 임의의 단일의 하위 레벨 양상에서 패턴을 활성화시키는 것은, 하나가 학습되었다면, 상위 레벨 다중모드 CDZ에서 패턴을 트리거할 수 있다. 이어서, 이러한 활동은 다른 CDZ들로 '하향식(top-down)'으로 흐르는 활동을 트리거하여, 경험 메모리 저장소가 학습되었고 초기 패턴과 연관되어 있는 패턴들을 활성화시킬 수 있다.

도 1은 CDZ 1의 예시를 도시한다. 다중모드 CDZ는 각각의 고 레벨 단일모드 CDZ 위에 있다. 2개의 양상들 X 및 Y 사이의 연관성들은, X로부터 Y까지의 직접 링크들에 의한 것보다는 X 및 Y 둘 모두에 독립적으로 링크되는 별개의 영역("수렴 구역") Z에서 유지된다. 표현들은 다수의 영역들로부터의 영역 Z 영역에 수렴한다. 수렴 구역에서의 선언적 표현들은 자극들 간의 연관성들을 하위 영역들에 저장한다. 연관성을 드러내기 위해 패턴들이 명시적으로 활성화된다. 수렴 구역 표현이 활성화될 때, 그것은 하위 영역들의 세트에서의 연관된 패턴들의 활동을 드러내고, 따라서 활동을 단일 영역으로부터 일정 범위의 영역들로 확산시키는 '발산 구역'으로서 기능한다.

수렴-발산 구역들은 여러 양상들로부터 입력을 수신할 수 있는 맵들을 사용하여 구현될 수 있는데, 이들은 이어서 양상들 중 임의의 것에 의해 활성화될 수 있다. 맵들은 연상 자기 조직화 맵(ASOM)들일 수 있는데, 이들은, 저 레벨 맵들로부터 활성화 맵들을 취하고 동시적 활성화들을 연관시킴으로써 상이한 입력들을 연관시킨다. ASOM은 뉴런 가중치 벡터들에 대응하는 입력 필드들의 크기 및 수를 갖는 입력 벡터를 수신하고, 이때 각각의 입력 필드는 상이한 양상 또는 입력 유형을 나타낸다. 일단 많은 입력들에 대해 트레이닝되면, 맵은 유사한 입력들의 토폴로지 그룹화(topologically grouping)들을 학습한다. ASOM들은 "상향식(Bottom Up)" 구성 방식 및 "하향식" 재구성 방식 둘 모두로 작업할 수 있다. ASOM들은 인입 정보에 대해 비교될 수 있는 예측들을 생성할 수 있다. 최저 레벨(연관되지 않음) 감각, 운동 또는 다른 활동 사이트들은 자기 조직화 맵(Self-Organizing Map, SOM)들과 같은 맵들로서, 또는 임의의 다른 적합한 방식으로 구현될 수 있다.

도 3은 저 레벨 SOM들과 상위 레벨 ASOM 사이의 맵핑을 도시하는데, 여기서 ASOM들은 수렴 구역(CDZ)들의 구조적 구축 입력 필드들이다. 저 레벨 SOM들은 시각 양상, 오디오 양상, 터치 양상, 신경화학(neurochemical, NC) 양상 및 위치 양상에 대응하는 감각운동 입력을 포함한다. CDZ들의 계층적으로 구조화된 세트에서, 하위 차수의 CDZ SOM들은 상위 레벨 CDZ SOM들에 입력을 제공한다. 수렴-발산 구역들로서의 역할을 하는 상위 레벨 ASOM들은 VAT(Visual-Audio-Touch), VM(Visual-Motor), VNC(Visual-Neurochemical)를 포함한다. VAT ASOM 수렴-발산 구역은 상위 레벨 VAT-Activity(활동)-Location(위치) ASOM에서의 위치 양상과 연관된다.

CDZ들은, 실시간 학습 시스템이 다중모드 메모리 및 감정 메모리를 저장할 수 있게 한다. 이것은, 예를 들어, 임바디드 에이전트가 개(dog)를 "상상"하거나 또는 "개"라는 단어를 들을 때, 개를 표현하는 고 레벨 ASOM에서의 하나 이상의 뉴런들이 활성화되는 방법이다. 상위 레벨 ASOM은 시각(개의 이미지를 보여줌), 오디오(개 짖는 소리를 들려줌)의 하위 레벨 감각 맵들, 및 심지어, 임바디드 에이전트가 처음에 개를 경험했을 때 느꼈던 그들이 경험한 감정을 재현하는 감정 상태 맵들에 대한 포인터들을 갖는다.

양상들

"양상"은 존재하는 무언가의 표현, 발현, 또는 경험을 포함하여 그의 일 태양으로서 광범위하게 해석되어야 한다. 객체들 및/또는 이벤트들은 시각, 오디오, 터치, 운동 및 신경화학을 포함하지만 이들로 제한되지 않는 상이한 양상들에서 경험될 수 있다. 일 실시예에서, 각각의 양상 입력은 개별 SOM들에 의해 표현되고/되거나 학습된다. 각각의 양상과 연관된 맵들을 포함하는 아키텍처가 사용되어, 2개 이상의 양상들이 동시에 경험될 때, 그 조합이 그들의 원래의 하위 차수 맵들에서의 2개의 감각들 각각에 대한 포인터로서 상위 레벨(연관) 맵들에 저장되게 할 수 있다. 연관 맵(Associative Map)들은 그것이 연관되는 양상들 중 임의의 것에 대응하는 입력에 의해 활성화될 수 있다. 양상들 중 하나만으로부터 입력이 수신되는 경우, 다른 양상들로부터의 대응하는 표현들이 예측될 수 있다.

시각 입력은 임의의 적합한 방식으로 임바디드 에이전트로 스트리밍될 수 있다. 일 실시예에서, 시각은 실세계 환경을 캡처하는 카메라를 통해 임바디드 에이전트에 제공된다. 화상은 사용자 인터페이스의 스크린캐스트(screencast)로부터, 또는 달리 컴퓨터 시스템으로부터 전달될 수 있다. 임바디드 에이전트의 화상은 따라서, 카메라를 통해 인간 사용자를 보는 것을 포함할 수 있는 실세계, 또는 "가상 세계"나 컴퓨터 표현(예컨대, 스크린 표현 또는 VR/AR 시스템 표현), 또는 이 둘의 임의의 조합에 관한 것일 수 있다. "실세계" 및 "인터페이스" 시야들 둘 모두가 임바디드 에이전트에게 나타내어질 수 있으므로, 임바디드 에이전트는 2개의 별개의 시야들을 갖는다. 각각의 시야는 주의를 제어하는 연관된 중요도 맵(saliency map)을 가질 수 있다. 일 실시예에서, 이들 2개의 맵들 전체에서 단일의 중요 영역(salient region)만이 항상 주의를 위해 선택된다: 따라서 그것이 주의 루틴이 될 때, 2개의 시야들이 2개의 부분들을 갖는 단일 시계로서 취급될 수 있다. 카메라 입력의 서브영역은 가상의 "중심와(fovea)", 즉 임바디드 에이전트의 눈이 지향되는 곳에 대응하는 비디오 입력의 더 작은 영역에 자동으로 맵핑될 수 있다. 중심와 이미지 서브영역은 모듈들, 예를 들어 영향 분류기(affect classifier) 및/또는 객체 분류기에서 추가로 프로세싱될 수 있다. 이것은, 임바디드 에이전트가 카메라 입력의 작은 부분에만 주목하여 차원수를 감소시킬 수 있게 한다. 일 실시예에서, 28 x 28 RGB 중심와 이미지가 제공된다. 주변 이미지가 또한 프로세싱될 수 있지만, 훨씬 더 낮은 해상도로 프로세싱될 수 있다.

오디오 입력은 마이크로폰을 통해 전달되어, 청각 시스템에서 프로세싱되는 파형을 캡처할 수 있다. 일 실시예에서, 음향 특징들은 FFT 및 다른 기법들로 분석되어 스펙트로그램(spectrogram)을 생성하는데, 이는 청각적 SOM에 대한 입력으로서 사용된다(예컨대, 20 x 14 (f x t) 스펙트로그램). 청각적 SOM은 오디오 입력의 음위상 맵(tonotopic map)을 학습한다. 대안적으로 그리고/또는 추가적으로, 오디오 파일로부터의 것과 같은 디지털 오디오 입력, 또는 컴퓨터 시스템으로부터의 스트리밍이 임바디드 에이전트로 전달될 수 있다. 음향 신호들이 심층 신경 네트워크(deep neural network)를 통해 분석될 수 있는데, 이는 인입 단어들에 대응하는 값들의 벡터를 제공한다. 이들은 단어 맵핑들을 학습하는 제2의 독립적인 청각적 SOM으로 공급된다. 음위상 맵 및 단어 맵은, 오디오 양상의 최종 표현인 상위 레벨의 청각적 ASOM에 의해 추가로 통합될 수 있다.

터치 감각들은 임바디드 에이전트와 가상 환경의 상호작용에 기초하여 그 임바디드 에이전트에 제공될 수 있다. 예를 들어, 임바디드 에이전트의 본체의 일부가 임바디드 에이전트의 환경 내의 다른 객체와 "교차"할 때마다, 객체 교차는 임바디드 에이전트에서의 터치 감각을 트리거할 수 있다. 그러한 터치 감각은 임바디드 에이전트의 본체의 자기수용성 맵(proprioceptive map), 임바디드 에이전트의 환경의 맵, 및/또는 임의의 다른 양상과 연관될 수 있다. 임바디드 에이전트가 가상 세계에서 특정 "터치가능" 객체들을 터치하는 경우, 충돌이 검출되고, 임바디드 에이전트의 이펙터(effector)들(예컨대, 손가락들) 상의 기계적수용기(mechanoreceptor)들에서 활동이 트리거된다. 터치 감각들은 마우스, 키보드, 또는 터치스크린과 같은 컴퓨터 입력 디바이스를 통해 임바디드 에이전트에 제공될 수 있다. 예를 들어, 스크린을 "터치하는 것"은 (터치 스크린 상의) 손가락들 또는 마우스 커서가 기계적수용기 맵 위에 "접촉하는" 임바디드 에이전트 본체의 부분 상에 투영된다. 기호 입력들(예컨대, 키보드 입력들)은 임의의 터치 감각들, 예컨대 객체 텍스처들에 맵핑될 수 있다. 예를 들어, 촉각 객체 유형 SOM은 상이한 객체 텍스처들을 맵핑할 수 있다. 객체들의 형상들은 또한, 터치 및 운동 움직임 둘 모두를 수반하는 햅틱 시스템을 통해 등록될 수 있다.

"위치" 양상은 임바디드 에이전트의 중심와의 x 및 y 좌표들을 포함하는 중심와 위치를 나타낼 수 있다. 좌표들은 위치-활동(location-to-activity) SOM을 통해 10 x 10 활성화 맵으로 직접 변환될 수 있다.

내수용성 감각(interoceptive sense)은 임바디드 에이전트의 본체의 내부 상태의 임바디드 에이전트의 지각 감각이다. 내수용성 상태 공간 맵은, 예컨대 배고픔, 갈증, 피로감, 심박수, 통증 및 혐오감과 관련하여, 본체의 순간 상태를 나타내는 신호들로부터의 입력들을 취함으로써 형성된다. 신경화학적 파라미터들은 정서 시스템의 일부인 생리학적 내부 상태 변수들을 표현한다. 내수용성 맵은 임바디드 에이전트의 상태 공간을 표현한다. 모델링될 수 있는 신경조절제(neuromodulator)들의 예들은 운동 기능을 위한 아세틸콜린, 스트레스 표시자로서 코르티솔, 사회적 유대를 위한 옥시토신을 포함한다. 주 감정들의 기본적인 표현은 고차원 신경화학적 공간에 맵핑될 수 있는데, 이는 거동 반응을 조절하고 연속적인 본능적으로 느껴진 상태들로부터 별개의 심리학적 카테고리들로의 맵핑을 제공한다. 내수용성 감각들은, 이벤트들이 본체의 감정 신경화학적 상태들과 연관되어 상상된 이벤트의 리콜된 감정이 결정을 행하는 데 있어서 일정 인자가 되도록 함에 따라, 임바디드 에이전트 결정에 기여할 수 있다.

자기수용성 시스템(proprioceptive system)은 에이전트의 이펙터들(예컨대, 팔다리, 머리, 및 에이전트의 몸통의 구성)의 포지션들을 포함하여, 임바디드 에이전트의 본체의 구성에 관한 자기수용기들을 통한 지각 인식을 임바디드 에이전트에 제공한다. 자기수용성 맵은 임바디드 에이전트의 신체의 골격 모델로부터 전달된 각각의 관절의 각도에 관한 정보를 포함할 수 있다. 임바디드 에이전트의 근육계의 더 상세한 생체역학 모델들에서, 자기수용성 맵들은 또한 근육 신장 및 장력에 관한 정보를 포함할 수 있다. 운동 양상이 동작들의 유형들을 맵핑하는 데 사용될 수 있다.

개별 단어들은 기록된 단어들, 청각 음소 표현들, 및/또는 다른 기호들을 통해 객체들, 동작들, 이벤트들, 또는 개념들의 표현들과 연관될 수 있다. 개념의 표현과 연관된 하나 이상의 기호들은 개념을 나타내는 감각 양상들과 연관될 양상들로서 저장될 수 있다.

맛, 냄새와 같은 임의의 다른 적합한 양상(또는 이와 유사한 것의 가상 표현들)이 구현될 수 있다. 양상들의 특정 태양들은 그들 자체로의 양상들로서 모델링될 수 있다. 예를 들어, 화상 양상은 광 양상, 색상 양상 및 형태 양상을 포함하는 여러 양상들로 분할될 수 있다. 온도, 통증, 배고픔 또는 평정과 같은 내부 감각들이 모델링될 수 있다.

경험 메모리 저장소의 직접 작성

트레이닝된 신경 네트워크(예컨대, SOM)를 그의 트레이닝-후 가중치들과 함께, 가중치들을 직접 경험하지 않은 임바디드 에이전트에 저장하는 것이 가능하다. 이러한 방식으로, "블랭크(blank)" 임바디드 에이전트에는 그의 경험 메모리 저장소/저장소들의 신경 네트워크 가중치들로 내장된 (예를 들어, 객체들의) 지식이 제공될 수 있다.

메모리 데이터베이스(메모리 파일들)

일 실시예에서, 경험들의 표현들은 경험 메모리 저장소에 더하여, 메모리 데이터베이스에 저장될 수 있다. 메모리 데이터베이스는 임바디드 에이전트의 경험을 통해 자동으로 채워지고/지거나, 작성될 수 있다. 사용자 또는 자동화된 시스템은 메모리 데이터베이스에 저장된 메모리들을 취출하고/하거나 새로운 메모리들을 메모리 데이터베이스에 작성하고/하거나 메모리들을 삭제할 수 있다. 각각의 경험된 양상에서의 표현들에 대응하는 원시 데이터(raw data)는 메모리 데이터베이스에 저장되고, 대응하는 경험과 연관될 수 있다. 예를 들어, 시각적 양상과 관련된 메모리의 컴포넌트들은 이미지 파일들(예컨대, JPEG, PNG 등)에 링크될 수 있고, 청각적 양상과 관련된 컴포넌트들은 오디오 파일들(예컨대, MP3)에 링크될 수 있다.

메모리 데이터베이스는 임의의 적합한 방식으로, 예를 들어 파일들의 모음(collection)을 저장하는 폴더 및/또는 데이터베이스로서 구현될 수 있다. 일 실시예에서, 메모리 데이터베이스는 경험들을 저장하는 CSV 파일이다. CSV 엔트리들은 엔트리에 대응하는 경험과 연관된 원시 데이터의 표현들을 포함하거나 이를 가리킬 수 있다. 연관된 이미지들 또는 원시 입력들에 대응하는 다른 원시 데이터로서 메모리들을 저장하는 것은 경험들이 에이전트에 의해 재현/프로세싱될 수 있게 한다. 임바디드 에이전트는, 임바디드 에이전트가 그들 입력들을 경험하고 있는 것처럼 그들을 학습할 수 있다.

일 실시예에서, 임바디드 에이전트의 라이브 동작 동안, 임바디드 에이전트는 경험 메모리 저장소뿐만 아니라 메모리 데이터베이스 둘 모두에 경험의 메모리를 동시에 저장한다. 예를 들어, 개 짖는 소리의 경험은 경험 메모리 저장소에 저장된 다중모드 메모리로서 저장될 수 있고, 또한, 이미지, 사운드, 감정 유의성(emotional valence), 및 텍스트/스피치 발언들을 포함한 다른 관련 다중모드 데이터를 포함하는, 경험에 대응하는 엔트리의 속성들로서 메모리 데이터베이스에 저장될 수 있다.

파일들에 경험을 저장하는 것은 또한, 메타데이터, 또는 이벤트가 발생한 시간(타임스탬프), 이벤트의 GPS 위치, 또는 경험에 관련된 임의의 다른 콘텍스트 정보와 같은, 경험에 관한 추가 데이터를 저장하는 것을 수반할 수 있다.

경험을 통한 메모리들의 채움

일 실시예에서, 메모리 데이터베이스에 저장된 메모리들은 임바디드 에이전트의 라이브 동작의 과정에서 임바디드 에이전트의 실시간 경험들로부터 채워진다. 에이전트는, 발명의 명칭이 "Machine Interaction"이고, 본 발명의 양수인에게 양도되어 있으며, 본 명세서에 참고로 포함되는 뉴질랜드 가특허 출원 NZ744410에 기술된 바와 같이, 실세계 및/또는 가상 세계로부터의 감각 스트림과 상호작용한다.

본 명세서에 기술된 바와 같이, 임바디드 에이전트는 경험을 통해 새로운, 감정적인 또는 사용자 시그널링된 경험들을 선택적으로 학습할 수 있다. 경험 메모리 저장소가 CDZ로서 구현되는 임바디드 에이전트에서, 메모리들은 CDZ에 저장된다. 경험의 새로운 메모리가 CDZ에 저장될 때마다, 하위 레벨 SOM들로부터의 표현들이 메모리 데이터베이스에 대한 새로운 엔트리에 속성들 및/또는 파일들로서 저장된다.

메모리 데이터베이스를 통한 경험 메모리 저장소의 트레이닝

메모리 데이터베이스는 경험 메모리 저장소를 트레이닝하는 데 사용될 수 있다. 메모리 데이터베이스 내의 엔트리들은, 강화(consolidation) 동안 경험 메모리 저장소에 트레이닝 입력들로서 제공된다. 경험 메모리 저장소에서 인코딩된 메모리들은 에이전트가 객체들, 개념들, 이벤트들을 인식하고 예측들을 행할 수 있게 한다. 일례로서, 사용자는 특정 학습 도메인들에 대한 입력 파일들의 세트를 생성할 수 있다. 예를 들어, 에이전트는, 연관된 양상들에 따른 상이한 개 품종들의 이미지들을 갖는 메모리 데이터베이스를 제공받음으로써, 라이브 동작 동안 개들을 경험하지 않고서 "개 전문가"가 될 수 있는데, 그러한 기호들은, 개들의 이름들, 그들의 짖는 소리의 사운드들의 스펙트로그램들, 및 개들이 불러일으키는 감정적 반응들을 포함한다.

CDZ의 일 구현예에서, 메모리 데이터베이스 내의 엔트리들은 CDZ를 재트레이닝시키는 데 사용되어, 기본 수렴/발산 구역들(예컨대, SOM들/ASOM들)의 가중치들을 변경한다. 트레이닝 동안, 엔트리들에 대응하는 원시 파일들/데이터는 경험 메모리 저장소에 의해 한 번에 하나의 경험으로 재판독된다. 객체 학습 이벤트의 예를 취하면, 시각적, 청각적 및 터치 양상들에 대응하는 원시 데이터가 로딩되고, 학습 이벤트들을 트리거한다. 메모리 강화 동안 발생하는 장기 메모리(long term memory, LTM) 학습 이벤트들은 "메모리 강화"라는 제목의 섹션 하에서 논의되는 바와 같이, 실시간 학습보다 훨씬 더 빠른 시간 스케일로 일어날 수 있다. 일 실시예에서, 에이전트를 "트레이닝"시키는 데 사용되고 있는 원시 파일들은, 에이전트가 과거의 경험들을 '다시 체험하거나' 또는 '재상상함'에 따라 에이전트의 "드리밍(dreaming)"을 시뮬레이션하기 위해 디스플레이될 수 있다.

메모리 재구성

메모리 데이터베이스 내의 엔트리들은 메모리들을 재구성하기 위해 재판독될 수 있다: 예를 들어, 그들은 단기 메모리(short-term memory, STM) 경험 메모리 저장소를 트레이닝시켜 "가상 이벤트들"을 생성하거나 또는 메모리 강화 동안 장기 메모리 경험 메모리 저장소를 트레이닝시킬 수 있다. 원시 감각 입력이 저 레벨 맵들의 뉴런들의 가중치들로 저장됨에 따라 경험 메모리 저장소로부터 학습 이벤트를 트리거했던 원시 센서 입력(예컨대, 이미지)을 재구성하는 것이 가능할 수 있다. 그러나, 잠재적으로 여러 상이한 입력 벡터들이 단일 뉴런의 가중치들을 수정할 수 있기 때문에, 신경 네트워크에서의 결과적인 가중치들은 여러 입력 인스턴스들의 혼합일 수 있다. 메모리 데이터베이스가 연관된 속성들을 갖는 별개의 엔트리들로서 개별 입력 벡터들 및 그들의 구성 입력 필드들을 명시적으로 저장함에 따라, 메모리 데이터베이스는 개별 경험들을 정확하게 재구성하기 위한 방식을 제공한다.

메모리들의 수정 또는 삭제

메모리들은, 예를 들어 메모리 데이터베이스 내의 엔트리들을 수정함으로써(명시적 수정, 예컨대 객체의 유의성을 변경함), 또는 전체 엔트리들을 삭제함으로써 사용자에 의해 선택적으로 수정될 수 있다. 모든 엔트리들을 삭제함으로써, 임바디드 에이전트의 전체 메모리는 삭제되고, 블랭크 슬레이트(blank slate)를 남길 수 있다. 일 실시예에서, 각각의 강화에서, 경험 메모리 저장소는 소거되고, 업데이트된 메모리 데이터베이스(이는, 편집되거나 삭제된 엔트리들을 포함할 수 있음)를 사용하여 트레이닝시킴으로써 완전히 다시 채워진다. SOM들인 경험 메모리 저장소들에서, 경험 메모리 저장소의 소거는 모든 뉴런 가중치들을 랜덤화함으로써 달성될 수 있다.

다른 실시예들에서, 전체 경험 메모리 저장소를 소거하기보다는, 업데이트된 또는 수정된 경험들이 경험 메모리 저장소에 위치되고, 특정 데이터 포인트들을 "학습해소(unlearning)"함으로써 경험 메모리 저장소로부터 선택적으로 삭제될 수 있다. "망각(forgetting)"의 모델에서, 경험들은 시간 스탬핑되거나, 또는 달리 메모리의 최신성(recency)을 나타내도록 마킹되고, 더 오래된 이벤트들은 경험 메모리 저장소 및/또는 메모리 데이터베이스로부터 이들을 삭제함으로써 "망각"될 수 있다.

메모리들의 작성

에이전트들이 새로운 메모리들을 생성하기 위해 새로운 경험들을 겪는 것을 필요로 하는 대신에, 경험에 대응하는 메모리 엔트리가 에이전트 메모리 안에 직접 "주입"될 수 있다. 이것은 지시가능한, 인위적으로 조작가능한 임바디드 에이전트를 생성한다. 예를 들어, 에이전트는 경험들에 대한 지시된 자율적 응답들(예컨대, 소정 자극들에 대한 음성 반응)을 갖도록 프로그래밍될 수 있다. 따라서, 메모리 데이터베이스들 내의 엔트리들은 외부 도구들에 의해 "작성"될 뿐만 아니라, 임바디드 에이전트의 실시간 감각운동 경험으로 직접 학습될 수 있다.

텍스트 코퍼스(Text Corpus)를 사용한 작성

메모리의 작성은 텍스트 코퍼스와 관련하여 행해질 수 있다. 이벤트의 메모리를 작성하기 위한 마크업된 텍스트 코퍼스의 일례는 다음과 같다: [타임스탬프] The red car (이미지, 사운드) drove (액션) to the left (장소). I <didn't> like it (감정)

실시간 감각운동 콘텍스트는 단어 선택(좋음, 싫음) 및 임바디드 에이전트의 지시적이고 감정적인 상태를 반영할 수 있다. 이것은, 단어들과 같은 기호들과 연관되는 원시 입력(예컨대, 이미지들/사운드들/느낌들 등)의 룩업 테이블을 제공함으로써 달성될 수 있다. 이것은 문장들을 통해 이벤트들을 학습하기 위해 입력들의 신속한 생성을 허용한다. 룩업 테이블 내의 대응하는 단어들과 매칭되는 데이터가 취출되어 경험 메모리 저장소를 트레이닝시키고/시키거나 메모리 데이터베이스 내의 원시 데이터와 연관된 상세한 엔트리들을 생성한다. 객체들, 동작들 및 감정들에 관한 기존의 지식을 갖는 임바디드 에이전트들에서, 이벤트들은 통사 구조(syntactic structure)를 사용하여 이벤트의 컴포넌트들을 연관시킴으로써 작성될 수 있다.

메모리들은, 개별 메모리들을 쉽게 위치시키고/시키거나 수정하고/하거나 삭제하게 하는 방식으로 분류되거나, 라벨링되거나 태깅될 수 있다. 사용자들이 임바디드 에이전트들의 메모리를 보고 편집하는 것을 용이하게 하기 위해 사용자 인터페이스가 제공될 수 있다.

자기 조직화 맵(SOM)들을 사용한 구현예

자기 조직화 맵들

양상들 및 수렴-발산 구역들 둘 모두는 자기 조직화 맵(SOM)들, 코호넨 맵(Kohonen Map)들로도 알려진, 무감독 학습 기반 메모리 구조물을 사용하여 표현될 수 있다. 이러한 데이터의 이산화된(discretized)/양자화된(quantized) 표현을 제공하기 위해 데이터 세트에 대해 SOM(이는, 1, 2 또는 3... 또는 n차원일 수 있음)이 트레이닝된다. 이어서, 이러한 이산화/양자화를 사용하여 원래의 데이터 세트의 콘텍스트 내에 새로운 데이터를 분류할 수 있다.

가중-거리 함수

종래의 SOM들에서, 입력 벡터와 뉴런의 가중치 벡터 사이의 부동성은 전체 입력 벡터에 걸쳐 단순 거리 함수(예컨대, 유클리드 거리 또는 코사인 유사성)를 사용하여 계산된다. 그러나, 일부 응용예들에서, 입력 벡터의 일부 부분들(상이한 입력 필드들에 대응함)을 다른 부분들보다 더 높게 가중하는 것이 바람직할 수 있다.

일 실시예에서, 연상 자기 조직화 맵(ASOM)이 다중모드 메모리에 대해 제공되고, 여기서 입력 벡터의 서브세트에 대응하는 각각의 입력 필드는 ASOM 알파 가중치(ASOM Alpha Weight)로 불리는 용어에 의해 가중 거리 함수에 기여한다. ASOM은 모놀리식 유클리드 거리로서가 아니라, 우선 입력 벡터를 입력 필드들로 분할함으로써 입력 필드들의 세트와 뉴런의 가중치 벡터 사이의 차이를 계산한다(이는 입력 벡터에 기록된 상이한 속성들에 대응할 수 있음). 상이한 입력 필드들 내의 벡터 컴포넌트들의 차이는 상이한 ASOM 알파 가중치들로 총 거리에 기여한다. ASOM의 단일 생성된 활동은 가중 거리 함수에 기초하여 계산되고, 여기서 입력 벡터의 상이한 부분들은 상이한 의미론 및 그들 자체의 ASOM 알파 가중치 값들을 가질 수 있다. 따라서, ASOM에 대한 전체 입력은 상이한 양상들, 기타 SOM들의 활동들, 또는 그밖에 다른 것들과 같은, 입력들이 연관되는 것들은 무엇이든 포함한다.

도 2는 여러 양상들로부터의 입력들을 통합하는, ASOM의 아키텍처를 도시한다. ASOM에 대한 입력

는

개의 입력 필드들(32)로 이루어진다. 각각의 입력 필드는

에 대한

뉴런들의 벡터

이다. 입력 필드(32)는 다음과 같을 수 있다: 감각 입력의 직접 원 핫 코딩(1-hot coding); 1D 확률 분포, 저 레벨 자기 조직화 맵의 활동들의 2D 매트릭스, 또는 임의의 다른 적합한 표현.

도 2의 ASOM(3)은

개의 뉴런들로 이루어지고, 각각의 뉴런

은 전체 입력에 대응하는 가중치 벡터

를 갖고,

에 대한 부분 가중치 벡터들

의

개의 입력 필드들로 분할된다. 입력

이 제공되는 경우, 각각의 ASOM 뉴런은 우선 입력과 뉴런의 가중치 벡터 사이의 입력 필드식 거리를 계산하고:

여기서

는

번째 입력 필드의 상향식 혼합 계수/이득(ASOM 알파 가중치)이다.

는 입력 필드-특정 거리 함수이다. 다음을 포함하지만, 이에 제한되지 않는 임의의 적합한 거리 함수 또는 함수들이 사용될 수 있다: 유클리드 거리, KL 발산, 코사인 기반 거리.

일 실시예에서, 가중 거리 함수는 다음과 같이 유클리드 거리에 기초한다:

여기서 K는 입력 필드들의 개수이고, α _i 는 각각의 입력 필드에 대한 대응하는 ASOM 알파 가중치이고, D _i 는 i번째 입력 필드의 차원수이고, x _j ⁽ⁱ⁾ 또는 w _j ⁽ⁱ⁾ 는 각각 i번째 입력 필드의 j번째 컴포넌트 또는 대응하는 뉴런 가중치이다.

일부 실시예들에서, ASOM 알파 가중치들은 정규화될 수 있다. 예를 들어, 유클리드 거리 함수가 사용되는 경우, 활동 ASOM 알파 가중치는 보통 합이 1이 되도록 한다. 그러나, 다른 실시예들에서, ASOM 알파 가중치들은 정규화되지 않는다. 정규화하지 않는 것은 소정 애플리케이션들에서 더 안정적인 거리 함수들(예컨대 유클리드 거리들)로 이어질 수 있는데, 예컨대 ASOM들에서 다수의 입력 필드들 또는 고차원 ASOM 알파 가중치 벡터들은 드문 것에서 조밀한 것으로 동적으로 변한다.

메모리를 샘플링하기 위한 방법들: 드리밍 및 회귀 억제(inhibition-of-return, IOR)

SOM에 저장된 항목들을 랜덤으로 재구성하는 것이 바람직할 수 있다. 이것은, 예를 들어 장기 메모리들의 강화 동안 의사 트레이닝 항목들의 구성에서 또는 운동 배블링(motor babbling) 동안 운동 움직임들의 랜덤한 생성에서 일어난다. 이들 경우들에서, SOM의 트레이닝 기록은 재구성할 SOM 뉴런들의 확률적 선택을 유도한다. 샘플링은 회귀 억제(IOR) 프로세스와 조합되어, 트레이닝된 값들의 전체 세트로부터 샘플링할 수 있다.

트레이닝 기록

SOM의 전체 활동으로부터 재구성할 때, 모든 뉴런들은, 이들 뉴런들이 의미있는 가설을 나타내거나 초기 랜덤 노이즈를 포함하도록 트레이닝되었는지 여부에 관계없이, 입력 벡터에 대한 그들의 가중치 벡터들의 유사성에 비례하여 기여한다.

더 완전한 재구성된 출력을 제공하기 위해, 더 많은 트레이닝을 받았던 뉴런들에 더 많은 가중치가 주어질 수 있다(트레이닝되지 않은 뉴런들을 무시함). 각각의 뉴런의 적응량은, SOM 파라미터 "트레이닝 기록"에서 액세스가능한, 0 내지 1의 값으로서 기록될 수 있다.

트레이닝 기록은, 0으로 초기화되고 고정 입력 1에 연결된 각각의 뉴런의 추가 스칼라 가중치이다. 따라서, 이러한 특정 뉴런이 트레이닝될 때마다, 그것이 위너(winner)이거나 또는 위너의 이웃에 있기 때문에, 뉴런의 트레이닝 기록은 현재 학습률에 비례하여 증가한다(매칭의 양호함 때문에 잠재적으로 적응됨). 이것은, 트레이닝의 과정에서 트레이닝 기록이 1을 향해 상승한다는 것을 의미한다.

맵 내의 모든 뉴런들의 트레이닝 기록 값들의 평균("맵 점유도")은 오래된 입력들을 오버라이팅(overwriting)하지 않고서 새로운 입력들을 학습하기 위한 맵의 비어 있는 용량(free capacity)을 나타낸다. 1의 "최대 점유도"는 "가득찬/군집된 맵"(비어 있는 용량이 없음)을 나타내고, 0의 "최대 점유도"는 트레이닝되지 않은 맵을 의미한다.

트레이닝 기록은 SOM의 활동 계산에서 활성화 마스크의 값(항 m _i )으로서 역할을 할 수 있다. 베이지안 항들에서, 균일한 m _i (모든 가설이 동일하게 개연성이 있는 균등한 사전확률)를 사용하는 대신에, 이것은 관찰 빈도에 기초하여 선험적인 것을 채택하는 것과 동일시된다: 즉, 결과적인 확률 분포는, 입력이 SOM을 트레이닝시키기 이전에 보여진 입력들 중 하나라는 가정에 대해 컨디셔닝된다.

트레이닝 기록은 시간이 경과함에 따라 감쇠될 수 있고, 이는 탐색이 최근의 트레이닝의 영역들을 회피하지만, 영역이 오랫동안 재활성화되지 않았다면, 그것은 새로운 메모리들을 위해 재사용될 수 있다는 것을 의미한다. 트레이닝 기록이 트레이닝의 이력을 저장하는 방식은 파라미터 트레이닝 기록 감쇠를 통해 튜닝가능하다. 1의 트레이닝 기록 감쇠 값은 감쇠 없음을 의미한다. 1 미만의 트레이닝 기록 감쇠 값들은, 트레이닝 기록이 가장 최근의 트레이닝(0 내지 1의 값에 의해 결정된 최근성을 가짐)만을 반영할 것임을 의미한다.

가중치들의 하향식 재구성에 의한 콘텐츠 검사

하위 레벨 SOM의 활동이 상위 레벨 SOM에 대한 입력을 제공하는 연결된 SOM들의 계층에서, 활성화의 흐름은 하향식 재구성 동안 반전될 수 있다: 상위 레벨 SOM으로부터의 재구성된 입력은 하향식 신호를 하위 SOM, 즉 예상된 활성화 패턴에 제공한다. 이러한 신호는 하위 SOM의 하향식 바이어스 필드에서 공급될 수 있다. 그것은, 하위 SOM이 그 자신의 입력들로부터 도출되는 활성화의 패턴과 조합될 수 있다.

뉴런들에 저장된 "메모리들"의 원시 콘텐츠가 취출될 수 있는데, 여기서 메모리는 트레이닝 환경들 및 또한 SOM 파라미터들(예컨대, 작은 시그마, 높은 학습률 = "예리한(sharp)" 개별 메모리들이고, 더 큰 시그마 및 더 낮은 학습률은 일반화된 메모리들 및 혼합된 메모리들을 초래함)에 따라 개별 이벤트와 동일하거나, 또는 여러 이벤트들의 혼합일 수 있다.

빠른 학습을 위한 ASOM의 구성

역전파 기반(backpropagation-based) 학습 방법들은 느린 학습을 필요로 하지만, 작은 가중치 업데이트들을 통해, SOM 뉴런 표현들의 국소적 특성은 단일 노출에서도, 그들이 입력 패턴들을 매우 빠르게 학습할 수 있게 한다. 종래의 SOM들에서 입력들을 "빠르게"(단지 몇 개의 프리젠테이션들 후) 학습하는 것에 직면한 문제는 이전에 인코딩된 입력들의 오버라이팅이다. 별개의 트레이닝 항목들(또는 목적을 위해 구별되는 것으로 간주되는 적어도 트레이닝 항목들, 예컨대 상이한 클래스들의 멤버들)은, 별개의 뉴런들 또는 영역들에서 그들을 인코딩함으로써 SOM에서 별개로 유지되어야 한다. 동시에, 서로 충분히 유사한 항목들은 동일한 뉴런 또는 영역에서 인코딩되어야 한다. 천천히 학습하는 SOM들을 사용하여 연관시키기 위한 이전 시도들과 달리, 본 명세서에 기술된 ASOM들은 "빠르게" 학습할 수 있다. ASOM은 높은 학습 상수/학습 빈도 값을 선택함으로써 빠르게 학습하도록 설정되어, 주어진 입력이 단일 노출로 단일 SOM 뉴런(또는 영역)에 의해 인코딩될 수 있게 할 수 있다. 그러나, 대형 세트의 항목들의 실제적 빠른 학습을 허용하기 위해 학습 상수를 변경하는 것은 충분하지 않다.

입력이 "새로운 것"인지 아닌지가 결정될 수 있으며, 매칭이 충분히 가깝지 않은 경우, "위닝 뉴런(winning neuron)"이 오버라이팅되지 않고 대신에 상이한 뉴런이 선택된다. ASOM에 제시된 항목이 '새로운 것'으로 간주되는지 또는 '오래된 것'으로 간주되는지를 제어하는 "최상의 매칭 임계치" 파라미터가 정의될 수 있다. "최상의 매칭 임계치"는 입력 항목에 대해 가장 강하게 응답하는 SOM 뉴런의 (원시 비정규화된) 활동 값에 대한 임계치이다. 이러한 값이 "최상의 매칭 임계치" 미만으로 떨어지는 경우, 항목은 "새로운 것"으로 간주되고, 그렇지 않은 경우, 항목은 "오래된 것"으로 간주된다. 새로운 항목들은 SOM에 별도의 패턴으로서 저장되고; 오래된 항목들은 기존의 패턴들을 업데이트한다.

새로운 항목에 직면할 때, "탐색 방법" 파라미터는, 새로운 입력을 인코딩하기 위해 어느 뉴런을 할당할지를 결정한다. 임의의 적합한 탐색 방법이 사용될 수 있다. 예들은 다음을 포함한다:

입력 탐색에 대한 노이즈: 현재 입력에 랜덤 노이즈를 추가하고, 이러한 수정된 입력까지의 거리에 적용된 가우시안 활성화 함수에 기초하여 새로운 위너를 찾는다.

활성화 탐색에 대한 노이즈: 원래의 활성화 맵과 랜덤 노이즈로 채워진 2차 맵의 혼합물인 복합 활성화 맵으로부터 새로운 위너가 선택된다. 2차 맵에 대한 혼합 계수는 비교_노이즈(compare_noise)라 불리고, 그것은 원래의 맵이 얼마나 많이 왜곡될 것인지를 결정한다. 비교_노이즈의 작은 값들은 원래의 위너 부근에서 국소적 탐색을 야기할 것이다.

활동을 노이즈와 혼합하는 대신, 2차 맵은, SOM의 특정 영역들을 향해 또는 이들로부터 멀리 바이어스, 예를 들어 각각의 뉴런이 최근에 얼마나 자주 그리고 얼마나 활성이었는지를 역으로 반영하는 값들을 인코딩하는 무엇인가로 설정되어, 이전의 위닝 뉴런이 회피됨을 보장하고 SOM을 더 균등하게 채우는 것을 촉진할 수 있다. 특히 유용한 방법은 각각의 뉴런이 (통틀어, 또는 최근에) 받았던 트레이닝의 양 - 소위 트레이닝 기록 - 을 추적하고, 트레이닝된 영역들로부터 위너의 선택을 억제하는 것이다(이전에 트레이닝되지 않은 뉴런들/데드 뉴런(dead Neuron)들을 참여시킴).

각각의 뉴런/맵의 영역, 그것이 행한 트레이닝 정도 및 위닝 뉴런을 위한 경쟁에 대한 기록은 여전히 입력에 대한 유사성에 의존하지만, 수많은 트레이닝을 행했던 영역들로부터 멀리 바이어싱된다. 네트워크는 균등하게 채워지고, "데드 뉴런들"(이들은 불량한 초기 가중치들 때문에 결코 트레이닝되지 않음)이 감소된다. 트레이닝 기록의 역을 활성화 노이즈로서 사용하는 것은, 사용되지 않은 뉴런들이 존재하는 경우 이들이 먼저 할당될 것임을 보장한다.

SOM의 토포그래피 구성(topographical organization)을 유지하고 새로운 위너를 원래의 위너 부근에 두기 위해, "비교-노이즈"는 작은 값들로 설정될 수 있다. 비교 노이즈가 작은 경우, 원래의 활성화는 여전히 강한 영향을 가질 것이고, 따라서 새로운 위너가 오래된 위너의 부근에서 나올 가능성이 있다. 이어서, 그것은 현재 입력으로 트레이닝될 것이고, 원래의 위너는 그것이 이전에 가진 것을 인코딩할 것이고 새로운 입력이 그것을 오버라이팅하지 않고 오히려 근처의 뉴런에 의해 표현될 것이다.

각각의 뉴런이 최근에 얼마나 자주 그리고 얼마나 활성이었는지(이는, 이전에 사용하지 않은 뉴런들을 참여시키고 제1 위너가 선택되지 않음을 확실하게 함으로써, SOM을 더 균등하게 채우도록 촉진함)를 역으로 반영하는 값들의 맵으로 패턴을 설정하는 것은, SOM 동형 벡터들에 대해, 다음과 같이 의사코드를 사용하여 계산할 수 있다:

항목이 "오래된 것"으로 간주되는 경우, 그것은, 일부 학습이 이미 발생한 영역에서 SOM에 저장된다. 표준 SOM에서, 동일한 항목이 반복적으로 제시되는 경우, 이러한 뉴런을 나타내는 영역이 전개될 것이고, 잠재적으로는 크기가 성장하여, 궁극적으로 전체 SOM에서 우위를 차지할 수 있다. 이것은 SOM의 비효율적인 사용이다. 이러한 효과를 제어하기 위해, "최상의 매칭 학습 승수" 파라미터는 위닝 뉴런의 활동에 따라 SOM의 학습 빈도를 조정한다. "최상의 매칭 학습 승수"가 0으로 설정되는 경우, 정확히 반복된 항목은 SOM에서 어떠한 새로운 학습도 유도하지 않을 것이다. 그것이 1로 설정되는 경우, 원래의 SOM의 학습 빈도의 조정은 존재하지 않는다. 학습 빈도에 대한 승수 M은 다음과 같은 방정식을 사용하여 계산될 수 있다: M = 1 - 원시 위너 활동 * (1-최상의 매칭 학습 승수): 완벽한 매칭의 경우에도 약간의 트레이닝이 적절하기 때문에 최상의 매칭 학습 승수에 대해 0보다는, 낮은 넌-제로 값이 바람직할 수 있는데, 그 이유는 완벽한 매칭의 이웃 내의 더 많은 뉴런들이 그의 값을 향해 적응할 수 있고 재구성된 "소프트" 출력이 또한 상이한 값들에 얼마나 자주 직면했는지의 빈도를 반영할 것이기 때문이다.

이전에 논의된 바와 같이, 빠른 학습 SOM들에서 직면하게 되는 문제는 큰 학습 빈도가 뉴런들을 오버라이팅하는 위험을 증가시킨다는 것이다. 작은 학습 빈도들에서, 가중치들은 완전히 오버라이팅되지는 않고 평균화된다. 그의 파라미터들의 값들에 따라, SOM은 느린 학습 또는 빠른 학습을 위해 구성될 수 있다. 느린 학습(표준 코호넨 SOM들에 의해 기술된 바와 같음, 그리고 개별 메모리들이 일반화/혼합될 수 있는 뇌의 피질 학습과 유사함)은 다음에 의해 특징지어진다: 더 작은 학습 빈도, 이웃 크기 시그마의 상위 값들, 예컨대 best_match_threshold=0을 설정하는 것에 의한, 디스에이블된 신규함(novelty) 검출. 빠른 학습은 최대 학습 빈도, 매우 작은 시그마, 하이로 설정된 best_match_threshold에 의해 특징지어지고, 뇌에서의 해마 학습과 유사하며, (개별 경험들을 개별적으로/직교적으로 그리고 정확하게 표현하는 높은 정도를 갖는) 확률론적 룩업 테이블처럼 거동할 수 있다. 상기의 파라미터들의 범위들이 연속적이기 때문에, 빠른 학습 및 느린 학습의 혼합이 SOM에서 달성가능하다. SOM이 (섹션 "트레이닝 기록" 하에서 기술된 바와 같이, 그의 맵 점유도 면에서) 혼잡할 때 학습 빈도를 적응적으로 낮추는 것이 가능하다 - 이어서, SOM은 (전체 맵에서 계속해서 빠르게 학습하는 것이 오래된 지식을 오버라이팅하는 것/망각하는 것을 의미할 것이기 때문에) 표준 느린 학습 SOM으로 자동으로 스위칭한다. 학습 빈도를 감소시킬 때, 새로운 메모리들은 가장 유사한 오래된 것들과 혼합될 것이다. 일 실시예에서, 학습의 "속도"는 SOM 용량에 의존적이다. 충분한 용량을 갖는 SOM에서, SOM은 개별 메모리들에 대해 빠르게(심지어 원-샷) 그리고 아주 정확하게 학습하도록 구성될 수 있다. 더 점진적인 학습으로의 전이는 SOM이 (오래된 메모리들을 새로운 것들로 완전히 대체하지 않고, 오히려 그들을 혼합하기 위해) 그의 전체 용량(full capacity)에 접근함에 따라 발생할 수 있다. 얼마나 많은 용량(즉, 더 오래된 메모리들을 오버라이팅하지 않고서 트레이닝될 수 있는 미사용된 뉴런들)이 남아 있는지를 모니터링하기 위해, 맵 점유도는 뉴런당 트레이닝 기록의 평균 값, 즉 sum_i(Training Record[i])/map_size로서 정의될 수 있다. 값 0은 비어 있는/트레이닝되지 않은 맵을 의미하고, 값 1은 전체 맵(full map)을 의미한다. 빠른 맵 유형으로부터 느린 맵 유형으로 전이시키기 위해, 파라미터들, 즉 학습 빈도, 시그마, 및 최상의 매칭 임계치는 맵 점유도를 증가시키면서 점진적으로 적응될 수 있다. 대안적으로, 맵 점유도가 소정 임계치, 예컨대 90%(0.9)를 초과할 때 별개의 스위치가 발생할 수 있다.

타깃화된 망각

SOM에 의해 학습된 모든 것들을 "망각하는 것"은 모든 뉴런 가중치 벡터들을 랜덤 노이즈로 대체함으로써(SOM들이 초기화되는 동일한 방식에 의해) 달성가능하다. 그러나, "타깃화된 망각"이 유용한 상황들이 존재하는데, 예를 들어:

실수로 학습되었던 가장 최근에 학습된 경험을 "실행취소함"

특정 종류의 모든 메모리들, 즉, 총소리의 사운드와 연관된 모든 이미지들을 망각함

빈번하지 않은 메모리들(그들이 우연히 일어났고 반복적으로 직면하는 경험들로서 그리 양호하지 않은 품질을 갖지 않는다고 가정함)을 망각함.

(시작 시에, 트레이닝이 불안정하였고, 그 때부터의 표현들이 낮은 품질의 것임을 가정하여) 매우 오래된 메모리들을 망각함.

타깃화된 망각은 "리셋 마스크(Reset Mask)"라고 칭하는 마스크(활성화 마스크와 유사함)에 의해 제어된다. 리셋 마스크는 SOM과 동형이다(즉, 각각의 SOM 뉴런에 대해 하나의 마스크 값을 가짐). 뉴런들의 가중치 벡터들을 노이즈로 대체할 때, Reset Mask=1인 그들 뉴런들만이 리셋될 것이고, 다른 것들(Reset Mask=0임)은 유지될 것이다.

대안적으로, 리셋 마스크 값들은 0 내지 1일 수 있는데, 이러한 경우에서 원래의 가중치 벡터는 다음과 같이 리셋 마스크 값에 의해 결정된 혼합 계수를 갖는 랜덤 노이즈와 혼합될 것이다:

리셋 동안, 트레이닝 기록이 업데이트되어, 리셋된 뉴런들의 트레이닝 기록들이 소거되게 할 수 있다(즉, 별개의 리셋 마스크의 경우, Reset Mask=1인 그들 뉴런들에 대해 Training Record:=0). 연속적인 혼합(메모리를 블러링)의 경우:

적절한 리셋 마스크들은 다음과 같은 요건들에 따라 설정될 수 있다:

리셋 마스크는 SOM의 가장 최근의 활성화 맵(원상태로 되돌리기를 원하는 경험에 대해 트레이닝을 받은 직후 전체 SOM의 활동)으로 설정된다. 이것은 활동의 크기에 비례하는 부분적인 망각-블러링을 야기한다. 대안적으로, 별개의 리셋 마스크가 생성될 수 있는데, 예컨대 확률론적 SOM들에 대해, 활성화가 리셋 임계치 초과인 모든 뉴런들에 대해서는 1로 그리고 나머지에 대해서는 0으로 리셋 마스크를 설정한다. 또는, 비확률론적 SOM들에서, 마스크 값들을 위닝 뉴런에 대해서는 1로 설정하고, 모든 다른 뉴런들에 대해서는 0으로 설정한다.

망각될 메모리들을 연관시킨 자극이 입력된다. 상기의 예에서, 총소리가 오디오 입력 필드 상에 제공되고, 비디오에 대한 ASOM 알파 가중치는 (총소리와 연관된 모든 비디오들을 취출하기 위해) 0으로 설정된다. 생성된 활성화 맵이 리셋 마스크로서 직접 사용될 수 있다. 대안적으로, 별개의 리셋 마스크가 생성될 수 있는데, 예컨대 리셋 마스크를 활성화가 설정 임계치 초과인 모든 뉴런들에 대해서는 1로 그리고 나머지에 대해서는 0으로 설정한다. 또는, 그것을 위닝 뉴런에 대해서는 1로 그리고 모든 다른 뉴런들에 대해서는 0으로 설정한다. 리셋 마스크는 1-트레이닝 기록으로, 또는 그의 이산화된 버전으로 설정된다(트레이닝 기록[i] < 임계치인 경우에는 Reset Mask[i]=1이고, 그렇지 않은 경우에는, 0임). 트레이닝 기록 감쇠는 트레이닝 동안 값<1로 설정된다. 이것은, 트레이닝 기록이 새로운 트레이닝에 의해 "리프레시되지" 않는 그들 뉴런들에 대해 시간이 경과함에 따라 0으로 약화되게 할 것이다. 이어서, 리셋 마스크는 1-트레이닝 기록으로, 또는 그의 이산화된 버전으로 설정된다(트레이닝 기록[i] < 리셋 임계치인 경우에는 Reset Mask[i]=1이고, 그렇지 않은 경우에는 0임).

ASOM 시각화

SOM들은 다차원 데이터를 시각화하기 위한 도구로서 사용될 수 있다. 도 7은 ASOM 트레이닝의, 5개의 입력 필드들(digit bitmap, even, less5, mult3, colour)을 연관시키는 ASOM의 디스플레이를 도시한다. 시각화는, 트레이닝 동안 ASOM 가중치들의 구성을, 그리고 질의를 만족시키는 데이터가 질의 상에 표현되는 곳을 디스플레이하기 위해 ASOM들이 어떻게 질의될 수 있는지를 보여준다. 트레이닝 데이터가 특정되는데, 여기서 각각의 데이터는 디지트(digit)에 이어서 (이진) 플래그들을 포함하여 디지트가 (순서대로) 짝수이고 5 미만이고 3의 배수인지 여부 및 (임의의) 색상(colour)을 지정한다. ASOM은 임의의 적합한 방식으로 데이터에 대해 트레이닝된다. 이웃 크기 및 학습률은 점진적으로 강화될 수 있다.

도 7은 입력 패턴(디지트 자체가 20x20 비트맵으로 표현됨), 재구성된 출력 패턴, 네트워크가 가소성인/트레이닝되는 때를 보여주는 플래그 및 가중치들에 대한 정적 뷰들을 도시한다. ASOM이 5개의 입력 필드들(digit bitmap, even, less5, mult3, colour)을 연관시키기 때문에, 가중치 매트릭스는 입력 필드 가중치 매트릭스들로 분해된다. 이진 정보가 표현되는 경우, 색상 백색은 0/거짓(false)을 나타내고 흑색은 1/참(true)을 나타낸다. 비트맵들 및 색상 맵들이 표현되는 경우, 색상들은 그들의 자연적인 의미를 나타낸다.

일단 ASOM이 트레이닝되었으면, 질의들을 공식화하고, 그 질의를 최상으로 만족시키는 영역들이 맵 상의 어디에 있는지를 동적으로 보는 것이 가능하다. 질의 뷰들은 도 8에 도시된 바와 같이 동적 질의 뷰어 입력 필드의 컬럼(column)들에 디스플레이된다. 각각의 질의는 다른 것들과 독립적이고, 도 9의 스크린샷에 도시된 바와 같이 각자의 탭 상의 슬라이더들을 사용하여 조작될 수 있다. 질의들은 나란히 디스플레이되어, 사용자가 상이한 질의들에 대응하는 영역들을 시각적으로 비교할 수 있도록 한다.

질의를 생성하기 위해, 사용자 또는 자동화된 시스템은 (예를 들어, 도 9에 도시된 바와 같이) 하나 이상의 질의 패턴들을 특정할 수 있다. 정의된 패턴들 각각에 대한 영향들의 강도들이 또한 (각각의 입력 필드에 대한 알파/입력 필드 가중치들로서) 특정될 수 있다. 강도들이 이진수(0 또는 1)일 수 있거나, 연속/퍼지 혼합 질의들이 지원될 수 있다.

각자의 뷰의 맵은 질의에 최상으로 대응하는 ASOM의 영역들을 보여줄 수 있고, 출력은 그 질의에 최상으로 근사하는 재구성된 데이터를 보여준다. 패턴들을 조합함으로써, 'what are even multiples of three less than five?' 또는 'which digits are shades of blue?'와 같은 질문들을 요청하는 것이 가능하다.

(도 9의 매칭 엄격도 변수로 도시된 바와 같은) 매칭의 엄격도, 다시 말해 ASOM의 활성화 민감도를 증가시키거나 감소시키는 것이 가능하다. 이러한 예에서, 맵이 완전히 백색이거나 또는 출력 비트맵이 완전히 흑색인 경우, 매칭의 엄격도를 감소시키는 것이 바람직할 수 있고, 맵이 너무 어둡거나 또는 비트맵이 너무 흐릿한 경우, 엄격도를 증가시키는 것이 바람직할 수 있다.

각각의 뷰는 마스터 ASOM의 2개의 사본들을 갖는데, 하나는 그의 활동을 시각화하기 위한 것이고 다른 하나는 출력을 재구성하기 위한 것이다. ASOM이 활동들의 가중된 조합으로서 출력을 계산하는 것은 1로 합산하기 위해 정규화되는 활동들을 필요로 하는 한편, ASOM을 보여주는 활동 맵은 각각의 뉴런의 가중치들이 질의를 만족시키는 실제 범위를 알기 위해 정규화 없이 원시 활동들을 보여주어야 한다.

ASOM들의 예들은 다음을 포함한다: VAT (visual/audio/touch), VM (visual/motor), VNC (visual/NC), VATactivityL (VAT/location), HC 또는 동작-결과 (V1/V2/M/L1/L2/NC)

교차모드 객체 표현 SOM

교차모드 객체 표현들은, 객체의 상이한 감각 양상들을 연관시키는 SOM에서 학습될 수 있다. 일 실시예에서, 시각, 오디오 및 터치 입력을 연관시키고, 객체 유형들의 양상-통합된 표현들을 학습하는 SOM을 표현하는 교차모드 객체로서 역할을 한다. 그것은 객체 유형들의 단일모드 표현들을 학습하는 3개의 SOM들, 즉 시각 객체 유형 SOM, 청각 객체 유형 SOM, 및 촉각 객체 유형 SOM으로부터 입력을 취한다. 신호 검출 프로세스는 CDZ SOM의 각각의 입력 필드를 연관된 신호 검출 프로세스에 제공함으로써 구현될 수 있는데, 이는 그러한 필드에서 신호의 시작을 찾고, 시작이 발생할 때 그러한 필드에 대한 적격성 트레이스를 트리거한다. 교차모드 객체 표현 SOM의 경우, 이들 신호들은 3개의 별개의 양상들에서 주목 시스템들로부터 나올 수 있다. 교차모드 객체 표현 SOM에서, 그리고 그의 입력 SOM들에서 학습하는 것은, 3개의 별개의 양상들에서 주목 시스템들에 의해 검출된, 저 레벨 이벤트들에 의해 주도된다. 예를 들어, 청각 자극에 대한 이벤트는 소정 임계치보다 더 시끄러운 사운드일 수 있다.

학습은 또한, 적격성 트레이스들을 사용하여 구현된 바와 같이, 이들 상이한 신호들 사이의 약간의 일치를 필요로 한다. 적격성 트레이스(누설 통합 및 발사 뉴런(leaky integrate-and-fire neuron)에 의해 인코딩됨)는, 이벤트가 검출될 때 각각의 양상에서 개시된다. 2개의 양상들에 대한 트레이스들이 동시에 활성인 경우에, 이들 양상들에 대한 유형 SOM들에서 그리고 또한 교차모드 객체 표현 SOM에서 학습이 발생한다.

이벤트가 단지 하나의 양상에서 검출되는 경우, 상이한 연결 모드가 트리거된다. 이벤트를 등록하는 양상에서 활성화된 패턴은 교차모드 객체 표현 SOM에 대한 입력으로서 전달되고, 이는 양상 독립적 객체 표현을 활성화시킨다. 이어서, 이러한 표현은 다른 단일모드 유형 SOM들에서 표현들을 재구성하는 데 사용되어, 누락된 양상들에서의 패턴들이 하향식으로 추론되게 한다.

이러한 모델에서, 교차모드 객체 유형 SOM은 단일 양상에서의 자극들에 의해, 그리고 다수의 양상들에서의 자극들(그들이 합동일 때 제공됨)에 의해 활성화된다.

정서적 객체 연관성 SOM

감정 상태들이 입력 자극들과 연관될 수 있다. 예를 들어, 객체를 제시하는 것과 동시에 시끄러운, 갑작스러운, 그리고/또는 두려운 노이즈를 페어링하는 것은 임바디드 에이전트에서 감정 컨디셔닝을 야기할 수 있다. 다음에 그 객체에 직면할 때, 그것은 불안 반응(fear reaction)을 유도할 것이다. 그러한 연관성들은 정서적 객체 연관성들 ASOM으로 불리는 수렴 구역(CDZ) ASOM에서 학습된다. 일 실시예에서, 이것은 신경화학적 양상과 시각적 양상을 연관시키는 ASOM(VNC SOM)에 의해 달성된다. 이러한 ASOM은 시각적 객체 유형 SOM, 및 에이전트의 감정 상태를 보유하는 신경화학적 SOM으로부터의 입력들을 취한다.

정서적 객체 연관성 ASOM의 각각의 입력 필드는 연관된 신호 검출 프로세스를 갖는데, 이는 그러한 필드에서 신호의 시작을 찾고, 시작이 발생할 때 그러한 필드에 대한 적격성 트레이스를 트리거한다. 객체 유형 SOM에 대한 적격성을 트리거하는 신호는 중요도 맵에서의 새로운 중요 영역의 선택인데, 이는 예를 들어 시야 내에서의 상당한 움직임에 의해 트리거될 수 있다. 감정 상태 매체에 대한 적격성을 트리거하는 이벤트는 감정 상태 벡터와 연관된 '국면' 신호(phasic signal)로부터 계산되는데, 이는 이러한 벡터의 급격한 변화를 시그널링한다.

시작 의존적 학습의 원리에 의해, SOM은, 단지, 이들 필드들에 대한 적격성 트레이스들이 그들의 각자의 임계치들을 초과하여 동시에 활성인 경우, 그의 입력 필드들에서의 표현들 사이의 연관성을 학습하도록 허용받는다. 이러한 경우, 이러한 원리는, 주어진 감정의 갑작스러운 시작과 시간적으로 동시에 발생하는 새롭게 중요한 객체가 인식될 때 감정적 연관성들이 학습되는 것을 보장한다. 유형 O의 주어진 객체와의 감정적 연관성들을 학습한 후에, 새롭게 중요한 객체로서의 O의 제시는 연관된 감정을 자동으로 활성화시킨다. 이것은 누락된 입력을 재구성하는 원리를 통해 일어난다.

자발적 학습

자발적 컨디셔닝(operant conditioning)은 주어진 콘텍스트에서 에이전트에 의해 생성된 운동 동작이 그 동작이 실행되고 약간의 시간 후에 도달하는 보상 자극과 연관되게 되는 프로세스이다. 이들 연관성들을 학습하는 회로는 임바디드 에이전트에서 지속적으로 구동되어, 주어진 콘텍스트에서 보상으로 이어질 동작들을 제안할 수 있다. 동작 결과 ASOM은 이전의 수렴 구역들 상에서 계층적으로 구축되는 수렴 구역이다. 동작 결과 ASOM은 약간의 주어진 시간에 발생하는 지각적 맥락 자극(위치 L1에 나타나는 시각적 객체 유형 T1), 짧은 시간 후에 수행된 운동 동작, 및 그 후 약간의 더 긴 시간에 발생하는 보상 자극 사이의 연관성을 학습한다. 보상 자극은 다른 위치 L2에서 나타나는 다른 유형 T2의 객체와 연관된다. 동작 결과 SOM은 지각적 맥락 자극의 표현을 저장할 필요가 있는데, 이는 보상 자극이 나타날 때까지 이것이 사라질 것이기 때문이다. 동작 결과 SOM에 대한 T1 및 L1 입력들은 중요도 맵에서 선택된 이전 위치, 및 객체 유형 SOM에서 인보크될 이전 객체 유형의 사본들을 보유한다. T2 및 L2 입력들은 현재 선택된 중요도 위치, 및 현재 활성 객체 유형이다. 따라서, 동작 결과 SOM은 기억되는 객체와 현재 지각되는 객체 사이의 연관성을 학습한다. 적격성 윈도우들은 상이한 시간들에서 발생하는 연관된 이벤트들을 수용하도록 조정될 수 있다.

재구성 메모리에 기초한 거동들

모든 임바디드 에이전트 거동들은 메모리를 재구성하는 것에 의해 영향을 받을 수 있다. 구현된 에이전트 또는 아바타를 생성하고 애니메이션화하기 위한 신경행동 모델링 프레임워크의 사용은, 또한 본 발명의 양수인에게 양도된 US10181213B2에 개시되어 있고, 본 명세서에 참고로 포함된다. US10181213B2에 기술된 것과 같은 신경행동 모델 내에서, 상이한 양상들로부터의 입력들의 재구성은 임바디드 에이전트의 내부 상태를 변경하고 그에 따라 에이전트의 거동을 수정할 수 있다.

감정 메모리들을 작성하는 것은, 임바디드 에이전트에서 감정적 표현들의 자율 트리거링을 가능하게 한다. 고객 서비스 아바타들에서, 경험 메모리 저장소는 아바타들에서의 반응들을 효율적으로 프로그래밍하는 데 사용될 수 있다. 예를 들어, 브랜드 로얄티 고객 서비스 아바타는 시각적 상표 및 단어 상표를 포함하여, 브랜드와 관련된 모든 상표들에 대해 긍정적인 감정적 반응을 갖도록 프로그래밍될 수 있다. 예를 들어, 브랜드 명칭 "Soul Machines"를 듣는 것은 에이전트의 신경화학적 상태를 그에 따라 변경하는 "행복한" 느낌과 연관될 수 있다. 그 단어를 들을 때, 행복의 신경화학적 상태가 예측되어, 아바타가 미소 짓게 한다.

일 실시예에서, 경험들 또는 이벤트들에 대한 직접 응답들은 작성가능 메모리를 통해 에이전트 내에 "주입"될 수 있다. 예를 들어, 브랜드 "Soul Machines"를 조심성/경계, 눈 부릅뜨기의 상태 - 즉, 시각적 양상이 지속적으로 적격이고, ASOM들을 통해 시각적 양상과 간접적으로 연관되는 다른 양상들이 예측들을 생성하기 위해 하향식 입력들을 수신하는 상태와 연관시키는 메모리가 있다.

장난감 애플리케이션들에서, 아바타들 또는 가상 캐릭터들과 같은 임바디드 에이전트들은 거동을 나타내도록 사용자들에 의해 프로그래밍될 수 있다. 예를 들어, 가상 친구와 놀고 있는 아이는 (가상 친구 앞에 객체를 제시하고 부정적인 얼굴 표정들 및/또는 단어들을 생성하는) 경험에 의해, 또는 인터페이스를 통해 특정 객체가 불쾌하다는 메모리를 가상 친구에게 "주입"할 수 있다.

임바디드 에이전트의 성격 또는 캐릭터는 임바디드 에이전트의 좋아하는 것 및 싫어하는 것을 포함하여, 메모리들을 작성함으로써 작성될 수 있다. 객체들 및/또는 이벤트들과 연관된 감정 상태들을 작성함으로써, 특정 성격을 갖는 에이전트를 개발하는 것이 용이하다: 여러 객체들이 제시되고 감정 상태들과 연관될 수 있다. 예를 들어, 아바타는 여러 상이한 동물들의 파일 기반 메모리들 - 각각 "행복한" 감정과 연관됨 - 을 작성함으로써 동물 애호가의 성격을 갖도록 프로그래밍될 수 있다. 마찬가지로, 객체들은 분노 감정, 슬픔 감정, 또는 중립적인 감정과 연관될 수 있다.

운동 계획들

운동 메모리 시스템은, 운동 동작들, 및/또는 대응하는 운동 동작/동작들을 실행하도록 에이전트가 활성화시킬 수 있는 운동 계획들을 별개로 저장하기 위해 제공될 수 있다. 운동 동작들의 예들은 누르기, 끌기, 및 당기기를 포함하지만, 이들로 제한되지는 않는다. 각각의 동작은 특정 시공간적 패턴, 예컨대 동작들을 나타내는 경우에 자기수용성 조인트 포지션들의 시퀀스, 또는 관찰된 동작들의 경우에 시각적으로 인식되는 조인트 포지션들의 시퀀스에 의해 특징지어진다. 시간적 차원은 반복되는 투영들에 의해 암시적으로 표현될 수 있고, 여기서 ASOM은 현재의 입력을 이전의 계산 시간 단계에서 그 자신의 활동과 연관시킨다.

임바디드 에이전트들은, 임바디드 에이전트들이 팔다리 또는 다른 이펙터들과 같은 신체 부위들을 의도적으로 움직일 수 있게 하는 운동 제어 시스템들을 가질 수 있다. 각각의 조인트의 각도에 관한 정보는 에이전트의 신체의 골격 모델로부터 전달될 수 있다. 에이전트는 시각적 공간에서 특정 지점들에 도달하는 손과 눈의 협업(hand-eye coordination) 능력들을 가질 수 있다. 자기 조직화 맵 모델(ASOM)은 에이전트가 손과 눈의 협업을 학습할 수 있게 하여, 에이전트가 사실적인 눈 움직임들 및 손을 뻗는 모션들로 변화하는 주변 3D 가상(또는 VR/AR의 경우 실제) 공간과 상호작용할 수 있게 할 수 있다. 일단 트레이닝되면, ASOM은 역운동학(inverse kinematic)을 위해 사용되고, 타깃 위치가 제시될 때 관절 각도들을 리턴할 수 있다.

운동 동작들은 개별적인 운동 움직임들(예를 들어, 객체를 터치하기 위해 공간 내의 일정 지점에 도달함), 또는 순차적인 움직임들일 수 있다. 예를 들어, 움켜잡기(grasping), 때리기(slapping), 주먹으로 치기(punching)와 같은 객체 지시형 운동 동작들은, 에이전트의 손(또는 다른 이펙터)이 상이한 궤적들 및/또는 속도들을 따라 타깃 객체로 이동함에 따른 순차적인 움직임들이다. 예를 들어, 때리고 주먹으로 치는 운동 동작들의 경우, 궤적은 도달하기 위한 것보다 더 빠르고; 궤적은 또한 손을 뒤로 끌어당기는 것을 수반할 수 있다. 손의 손가락들의 궤적이 또한 설명될 수 있다. 움켜잡는 것은 손의 손가락을 펴는 것, 및 이어서 그들을 접는 것을 수반한다. 주먹으로 치기 및 때리기는 객체와 접촉하기 전에 손을 특정 형상으로 구성하는 것을 수반한다.

복수의 운동 동작들은 각각 타깃들과 연관되고, 운동 계획을 생성하도록 지시받을 수 있다. 계획들을 생성하기 위한 시스템은, 본 출원인에 의해 또한 소유되고 본 명세서에 참고로 포함된, 발명의 명칭이 "SYSTEM FOR SEQUENCING AND PLANNING"인 가특허 출원 NZ752901에 설명되어 있다.

운동 동작들 및/또는 운동 계획들은 (WM 동작들로서) 에피소드들, (객체들의 어포던스들로서) 객체들 또는 임의의 다른 경험 또는 양상과 연관될 수 있다. 운동 동작들 및/또는 운동 계획들은 경험 메모리 저장소 및/또는 메모리 데이터베이스, 및/또는 작업 메모리에서 운동 동작들 및/또는 운동 계획들을 식별하는 라벨들 또는 다른 기호들과 연관될 수 있다. 운동 계획들의 예들은 다음을 포함한다: 키보드 상에서 곡을 연주하는 것, 터치스크린 상에 이미지를 그리는 것, 문을 여는 것.

발명의 명칭이 "Machine Interaction"이고, 본 명세서에 참고로 포함된 뉴질랜드 가특허 출원 NZ744410에 기술되어 있는 바와 같이, 운동 계획들은 사용자 인터페이스 이벤트들과 연관될 수 있고, 에이전트가 상호작용하고 있는 애플리케이션 또는 컴퓨터 시스템 상의 이벤트들을 트리거할 수 있다. 예를 들어, 타깃을 두 번 터치하는 것은 사용자 인터페이스 상의 "더블 클릭(Double clicking)"으로 변형될 수 있다 (이러한 경우, "버튼"을 두 번 터치하는 운동 동작은 사용자 인터페이스 상의 버튼의 더블 클릭을 트리거함).

메모리들의 지각 및 유지

이벤트 주도 인지(event driven cognition)는 어느 이벤트들이 지각되는지(그리고 따라서, 임바디드 에이전트의 다른 서브시스템들로 통신되는지)와 관련되고, 생물학적으로 현실적인 강화 스킴은 어느 이벤트가 유지되는지를 관리한다.

메모리는 이벤트들로부터 구성되지만; 인간들은 기대들과 상이한 것을 더 강하게 기억한다. 이러한 원리를 임바디드 에이전트들에 적용하는 것은, 임바디드 에이전트들이 감각 입력에 의해 지속적으로 트리거되기보다는 이벤트들에 의해 주도될 수 있게 한다. 이것은, 에이전트들이 "이벤트들"에 반응하는데 필요한 계산을 감소시키는 시간 압축(time-compression)의 형태이다. 이벤트들과 관련되는 시간의 스냅샷(snapshot)들은 중요도, 임계값 초과의 볼륨, 움직임, 신규함, 콘텍스트 정보 또는 임의의 다른 적합한 메트릭에 기초하여 유지될 수 있다. 이벤트들은, 양상이 학습에 적격인 적격성 윈도우들을 생성하는 양상들에서 적격성 트레이스들을 트리거함으로써 메모리 저장에 기여한다.

적격성 기반 학습은 에이전트가 어느 "이벤트들"을 유지하는지를 결정하는 데 사용될 수 있다. 이벤트의 발생은 양상의 적격성 트레이스(19)를 트리거한다. 각각의 입력 채널은 그 자체의 적격성 트레이스를 갖는다. 예를 들어, 상향식 이벤트(예컨대, 충분히 큰 사운드)가 존재하는 경우, "사운드"에 대한 입력 채널이 적격성 윈도우 동안 열리고, 일정 시간 후에 닫힌다. 입력 유형들(양상들)은 고유한 적격성 뉴런들과 연관될 수 있다. 뉴런은, 이벤트가 그의 대응하는 입력 채널에서 발생했다면 그 입력을 수신한다. 입력 채널은 뉴런의 전압이 임계치를 초과할 때 지속기간 동안 적격이다.

누설 통합기(Leaky Integrator, LI) 뉴런들은 적격성 기반 학습을 용이하게 하기 위해 적격성 트레이스들을 구현할 수 있다. LI 뉴런의 활동은 소정 레벨에서 개시되고, 시간 경과에 따라 감쇠된다. "적격성의 윈도우"는 주어진 LI 뉴런의 활동이 소정 임계치를 초과하는 동안 정의된다: 이러한 기간 동안, 일부 연관된 회로는 학습에 적격이다. 도 4는 일정 양상에서의 적격성 트레이스(19)가, 이벤트 트리거링과 누설 통합기 뉴런의 전압 임계치 사이에 적격성 윈도우(18)를 어떻게 생성하는지를 도시한다.

본 발명의 양수인에게 또한 양도되어 있는 US10181213B2에 기술된 바와 같은 신경행동 모델에서, 적격성 트레이스들은 개별 시냅스들보다는 전체 네트워크들 상에서 동작할 수 있다. 각각의 저 레벨 입력에 대한 적격성 트레이스 및 적격성 윈도우를 생성하는 데 수반되는 단계들은 US10181213B2에 기술된 프로그래밍 환경의 "커넥터들"에서 수행될 수 있다.

적격성 윈도우들은, 학습이 일어나는 방법 및 시기를 제어하기 위해, 그리고 수렴 구역들의 시스템을 통해 활동이 어떻게 확산되는지를 제어하기 위해 CDZ 내에서 사용될 수 있다. 예를 들어, 2개의 입력 필드들이 있는, SOM에 의해 구현된 간단한 지각 수렴 구역에서, 각각의 입력 필드는 연관된 신호 검출 프로세스를 갖는데, 이는 그러한 필드에서 신호의 시작을 찾고, 시작이 발생할 때 그러한 필드에 대한 적격성 트레이스를 트리거한다. SOM에서의 학습 및 활동은 이제, 모든 수렴 구역 SOM들을 통해 동작하는 여러 일반적인 원리들에 의해 제어된다.

수렴 구역 SOM의 각각의 입력 필드에 대한 적격성 윈도우는 콘텍스트 파라미터들에 기초하여 조정될 수 있다. 예를 들어, 에이전트의 감정 상태의 소정 파라미터들은 소정 윈도우들로 하여금 길어지거나 짧아지게 할 수 있다: 따라서, 좌절감은 소정 윈도우를 더 짧게 만들 수 있고, 느긋함은 그것을 더 길게 만들 수 있다.

지각 또는 운동 신호들로부터 입력을 직접 취하는 CDZ SOM의 경우, 그의 입력 필드들과 연관된 신호 검출 프로세스들은 감각 또는 운동 자극들의 시작을 캡처한다. CDZ SOM이 다른 CDZ SOM으로부터 그의 입력을 취하는 경우, 신호 검출 프로세스는 하위 CDZ SOM에서 명확한 신호의 시작을 식별할 수 있다. 이것은 하위 SOM의 활동 패턴에서의 변화의 측정치에서 판독되어, 그것이 새로운 무엇인가를 나타내고 있다는 것을 시그널링한다. 이러한 변화 측정치는 하위 SOM의 엔트로피의 측정치와 조합될 수 있다. SOM 패턴이 확률 분포로서 해석가능한 경우, 그의 엔트로피가 측정될 수 있다. 변화는, SOM이 그의 입력 패턴을 확신있게 나타내고 있다는 것을 전달하는 낮은 엔트로피 상태를 초래해야 한다. 하위 SOM이 천천히 학습하도록 구성되는 경우, 상위 SOM은 그 자체의 입력들의 하위 SOM의 인코딩들이 충분히 명확해질 때까지 학습하지 않을 것이다.

활동은, "하향식 활성화" 필드를 통해 상위 CDZ SOM으로부터 하위 CDZ SOM으로 하향식으로 흐를 수 있다. 저 레벨 SOM의 적격성이 높은 경우, 그의 활동은 상위 연관 SOM들을 활성화시키고, 이는 이어서, 다른 연결된 저 레벨 SOM들에 하향식 신호들을 실시간으로 제공한다. 이들은 이러한 입력들을 계산하는 상향식 프로세스들에 대한 실시간 하향식 가이드로서 역할을 할 수 있다.

타이밍 매개 적격성 기반 학습에서, 연관 네트워크에서의 2개의 입력들은 이들 네트워크들 내에서 연관성이 학습되게 하기 위해 서로의 소정 시간 내에 발생해야 한다. 일부 ASOM들은 단지, 이들 필드들에 대한 적격성 트레이스들이 동시에 활성(그들의 각자의 임계치들 초과)인 경우 그들의 입력 필드들에서의 표현들 사이의 연관성들을 학습하도록 허용될 수 있다. 이것은, 새로운 신호들이 동시에 또는 어느 정도의 시간적 일치로 도달할 때만 학습이 일어나고, 랜덤 또는 노이즈 신호들 사이의 연관성들의 학습을 방지하는 것을 보장한다. 따라서 학습은 동시적 적격성 윈도우들을 필요로 한다. 예를 들어, 시각 자극과 촉각 자극 사이의 연관성을 학습하기 위해, 시각 및 촉각 표현들에 대해 동시적 적격성 윈도우들이 존재해야 한다. 이들 동시적 적격성 윈도우는 상이한 저 레벨 다중모드 '이벤트들'의 동시 발생을 모델링한다. 도 3은 상이한 양상들에 대한 적격성 신호들을 도시한다. 도 5는 학습 이벤트의 플래그들 및 페이즈들을 도시한다. 학습 이벤트는 2개의 동시 이벤트들(0 및 1)에 의해 트리거된다. 이벤트가 발생하고 있는 동안, 에이전트는, 예컨대 단속운동(saccading)하거나, 또는 오디오 시퀀스가 완료되기를 기다림으로써 더 많은 정보를 획득할 수 있다. 이러한 지연은 누설 통합기 뉴런들을 사용하여 구현될 수 있다. 누설 뉴런들의 입력 주파수 상수 및/또는 막 주파수 상수(membrane frequency constant)가 변경되어 지연의 길이를 변경할 수 있다. 도시된 모든 기간들은 별도의 누설 뉴런들에 의해 제어된다. 이벤트의 종료 시에, "1 차" SOM들에 대해서는 2, 및 3에서, 그리고 2 차 SOM들에 대해서는 4에서 가소성이 존재한다. 이것은, 계층구조에 CDZ들의 다수의 층들이 존재하는 경우, 학습 페이즈들은 그에 따라 계층구조를 수용하도록 확장될 수 있는 일반적인 학습 이벤트 시퀀스이다.

적격성 트레이스가 단지 하나의 입력 필드에 대해 활성인 경우, SOM은 그의 활동이 이러한 필드에 의해서만 주도되는 모드에 놓인다. (즉, 다른 입력 필드/필드들에 대한 ASOM 알파 가중치는 0으로 설정된다.) 이어서, 다른 입력 필드에서의 활동이 활성 SOM 패턴으로부터 재구성되는데, 이는 "Examining content by top-down reconstruction of weights" 하에서 논의된다. 재구성된 값은, 누락되는 입력 필드가 하위 레벨 분류 프로세스에 의해 전달되는 경우, 유용한 하향식 바이어스를 제공한다. 재구성은 또한, 지각적인 '채워넣기(filling-in)'의 간단한 모델을 제공하고, 그에 의해 누락되는 연관된 정보가 상상된다. 제1 필드에 대한 적격성 트레이스가 여전히 활성인 동안, 재구성된(또는 예측된) 입력이 상향식으로 도달하는 것이 가능하다. 이러한 경우, SOM은 조금 더 많은 학습을 행하여, 예측을 하는 데 사용되는 연관성을 강화할 것이다. 반면에, 제1 필드에 대한 적격성 트레이스가 여전히 활성인 동안, 예측되지 않은 신호가 제2 필드에 도달하는 경우, 새로운 연관성이 SOM에서 학습될 것이다.

일 실시예에서, 임바디드 에이전트에 의해 관찰된 어떤(그리고 어느 정도까지) 이벤트들이 학습되고/유지되는지를 결정하도록 시간 종속 도파민 가소성 모델(dopamine plasticity model)이 구현된다. 발생하는 학습의 양, 즉 관련 시스템의 "가소성(plasticity)"은 여러 인자들에 의해 영향을 받는다. 관련 적격성 신호(들)의 레벨이 하나의 인자이다. 또 다른 중요한 인자는 일치하는 '보상' 신호의 강도이다. 보상 신호들은 신경전달물질(neurotransmitter) 레벨들, 특히 도파민 레벨들로서 구현될 수 있다. ASOM들, 확률론적 SOM들 및 이들의 혼합물들과 같은 맵들은, ASOM의 가중치들이 업데이트될 때를 결정하는 적응성 변수(plasticity variable)와 연관될 수 있다. 과트레이닝(overtraining)을 방지하기 위해, 별개의 순간들 또는 시간 간격들에서(예컨대, 새로운 입력이 도달할 때) 적응성이 동적으로 턴 온될 수 있다. 가중치들을 업데이트하기 전에, 입력과 위닝 뉴런 사이에 양호한 매칭이 존재하는 경우 학습 빈도 상수가 감소되어, 뉴런들이 과학습(overlearning)되는 것을 방지할 수 있다.

메모리 강화

경험 메모리 저장소들은 2개의 독립적인 그리고 경쟁하는 SOM들, 즉 단기 메모리(STM) 및 장기 메모리(LTM)를 포함할 수 있다. STM은 신속한 온라인/빠른 학습을 위해 구성될 수 있는데, 이는 LFC가 높고 데이터의 토포그래피 배열이 열악한 원 샷 학습(1-shot learning) 스타일로 트레이닝될 수 있다. STM은 아직 강화되지 않은 학습을 위해 버퍼링 시스템으로서 작용할 수 있다. STM 메모리는 각각의 강화 후에 소거될 수 있다. LTM은, 낮은 그리고 시간 감쇠의 학습 빈도 상수를 갖는, 느린 오프라인 학습을 위해 구성되어, 양호한 토포그래피 그룹화들을 초래하도록 구성될 수 있다. LTM은 메모리 강화(이는, 아바타에서 "수면중"으로서 표현될 수 있음) 동안 트레이닝된다. STM으로부터의 트레이닝 데이터는 LTM SOM으로 시뮬레이션되거나 또는 재생될 수 있다. 강화 동안, STM은 트레이닝된 유닛들을 랜덤으로 또는 체계적인 방식으로 활성화시켜 객체 유형 및 이미지를 재생성하고, 이것을 LTM에 대한 트레이닝 데이터로 제공할 수 있다. LTM은 재생성된 데이터 쌍들 또는 투플(tuple)들에 대해 트레이닝하고, 새로운 데이터에 대한 트레이닝을 그 자신의 트레이닝 데이터와 인터리빙할 수 있다. 대안적으로, STM SOM을 사용하여 객체들을 재생성하는 대신에, LTM을 트레이닝하기 위해 메모리 데이터베이스 내의 엔트리들로부터의 원시 데이터 파일들이 제공될 수 있다.

예를 들어, LTM 및 STM 객체 분류기들은 시각적 인식을 위해 지속적인 경쟁을 할 수 있다. LTM 및 STM 객체 분류기들 둘 모두는 시각적 공간에서의 표현들(예컨대, 픽셀들)을 객체 유형들의 공통 원 핫 인코딩에 맵핑할 수 있다. LTM에서 충분히 양호한 매칭이 없는 경우, 시스템은 STM에서 일정 매칭을 가정한다. LTM 매칭은, 엔트로피가 임계치 미만이고, 위너 활동(winner activity)이 임계치 초과인 경우 만족된다. 따라서, STM 및 STM 분류기들은 객체 유형들을 집합적으로 그리고 분리적으로 나타낸다(여기서, STM은 마지막 강화 이후의 객체 유형들을 나타내고, LTM은 마지막 강화 전에 학습된 객체 유형들을 나타냄). 새로운 객체에 직면할 때, 먼저 LTM은, 객체가 존재하는지 여부에 대해 체크될 수 있다. 객체가 존재하지 않는 경우, 객체는 STM에서 학습된다.

도 10은 LTM 및 STM의 디스플레이를 도시한다. 최좌측 윈도우는 시각적 시스템에 대한 현재 중심와 입력을 보여준다. 제2 윈도우는, 자주색 직사각형을 통해 입력되는 중심와(상향식)에 대해 어느 시스템(STM/LTM)이 더 충분한 또는 더 양호한 매칭을 갖는지를 나타낸다. 녹색은, 어느 시스템이 하향식 영향을 받고 있는지를 나타낸다. 이러한 윈도우의 상부 절반 및 하부 절반은 각각 STM 및 LTM에 대응한다. 나머지 디스플레이들에 대해, 상부 절반은 STM에 속하고, 하부 절반은 LTM에 속한다. 정사각형으로 배열된 4개의 윈도우들(실선들로 강조됨)은 (시계 방향으로 진행하여) 입력 이미지, 출력 이미지, SOM 가중치들, 및 SOM 위너 오버레이(winner overlay)를 갖는 SOM 트레이닝 기록을 보여준다. 우측의 2개의 윈도우들은 시각적 SOM의 복제물에 대한 것으로, 시퀀스 이미지에서 다음으로 예측된 것을 디스플레이한다.

메모리 데이터베이스로부터의 트레이닝

메모리 데이터베이스로부터의 경험들이 수면 동안 LTM을 트레이닝시키는 데 사용될 수 있다. 메모리 데이터베이스의 많은 반복들이 (랜덤으로 또는 체계적으로) 제공될 수 있다.

언어

본 명세서에 기술된 메모리 시스템들을 어학 시스템(linguistic system)에 연결시키는 것은, 그들이 상호작용할 수 있는 환경들에서 임바디드 에이전트들을 모델링함으로써 임바디드 에이전트들에 대한 의미를 기반으로 할 수 있다. 상징적 지식 기초를 제공하는 대신에, 임바디드 에이전트들은 그들이 수신하는 감각 입력 및 그들이 생성하는 동작들로부터 그들 자체의 의미를 만든다. 본 명세서에 기술된 메모리 시스템을 어학 시스템과 연결함으로써, 특정 언어들로부터 추출되는 관련 통사 구조들은 언어간 일반화(cross-linguistic generalization)들을 캡처할 수 있다.

에피소드들의 메모리

에이전트는 간단한 문장들로 리포트될 수 있는 세상에서의 사건(happening)들을 나타내는 에피소드들을 경험할 수 있다. 에피소드들은 동작 및 그의 참가자들이 중심이 되는 문장 크기의 의미론적 단위들로서 표현된 이벤트들이다. 상이한 객체들은 에피소드들에서 상이한 "의미 역할(semantic role)들"/"테마 역할(thematic role)들"을 재생시킨다. 예를 들어, WM 에이전트는 동작의 원인 또는 개시자이고, WM 환자는 동작의 타깃 또는 경험자이다. 에피소드들은, 에이전트들이 동작하거나, 다른 에이전트들에 의해 행해진 동작들을 인지하거나, 이벤트들을 계획 또는 상상하거나, 또는 과거 이벤트들을 기억하는 것을 수반할 수 있다. 다른 경험들과 같은 에피소드들은 경험 메모리 저장소 및 메모리 데이터베이스에 저장될 수 있다. 에피소드들의 표현들은 작업 메모리 시스템에 저장되고 프로세싱될 수 있는데, 이는 에피소드들을 별개의 동작들로서 인코딩된 준비 시퀀스들/규칙성들로서 프로세싱한다. WM 시스템(40)은 저 레벨 객체/에피소드 지각을 메모리, (고 레벨) 거동 제어 및 언어와 연결시킨다.

도 11은 에피소드들을 프로세싱하고 저장하도록 구성된, 작업 메모리 시스템(WM 시스템)(40)을 도시한다. WM 시스템(40)은 WM 에피소드(42) 및 WM 개체(41)를 포함한다. WM 개체(41)는 에피소드들에 특징되는 개체들을 정의한다. WM 에피소드(42)는 WM 개체 및 동작들을 포함한, 에피소드를 포함하는 모든 요소들을 포함한다. 개별 WM 에이전트 및 WM 환자를 포함하는, WM 에피소드(42)의 단순한 예에서: WM 에이전트, WM 환자 및 WM 동작이 순차적으로 프로세싱되어 WM 에피소드를 채운다.

개별 저장소/매체(46)는 WM 개체들을 저장하고, 개체가 신규한지 또는 재주목된 개체인지를 결정하는 데 사용될 수 있다. 개별 저장소/매체는 SOM 또는 ASOM으로서 구현될 수 있고, 여기서 신규한 개체들은 새롭게 모집된 뉴런들의 가중치들로 저장되고, 재주목된 개체들은 재주목된 개체를 나타내는 뉴런을 업데이트한다. 일 실시예에서, 개별 저장소/매체는 위치, 수 및 특성들과 같은 개체들의 속성들의 고유한 조합들을 별개의 개체들로서 저장하는 CDZ의 수렴 구역이다. ASOM은 바람직하게, 높은 학습률 및 거의 제로의 이웃 크기를 갖고, 개체들을 즉시(원 샷으로) 학습할 수 있고, 토포그래피 구성을 갖지 않는다(따라서, 상이한 개체들의 표현들이 서로 영향을 미치지 않게 함). 상이한 개체들의 특성들은 상이한 뉴런들의 가중치들로 저장된다; 그러한 목적을 위해, 위닝 뉴런의 활동이 신규함 임계치 미만인 경우, 새로운 미사용된 뉴런이 모집되고, 그렇지 않은 경우 위너의 가중치들이 업데이트된다.

위치, 수 및 특성들은 한 번에 하나씩 순차적으로 개별 버퍼(48)에서 도달한다. 개별 저장소/매체(46) 시스템은 이미 채워진 컴포넌트들에 대해 넌-제로 알파들로 매번 질의되고, 따라서 그것은, 예컨대, 일정 위치에서 개체가 최근에 보였다면 그러한 위치에 기초하여 수 및 특성들을 예측할 수 있다. 그러나, 시스템에서의 적응성은 위치-수-특성 시퀀스가 성공적으로 완료되었을 때에만 턴 온된다. 이어서, 개별 저장소/매체(46) 시스템은 그의 학습 사이클을 통과하며, 그것이 완료될 때, 그것은 에피소드 버퍼의 각자의 에이전트/환자 버퍼에 (그의 오래된/신규한 상태와 함께) 개체를 복사할 수 있도록 잠시 동안 거기에서 유지된다.

에피소드 저장소/매체(47)는 WM 에피소드들을 저장한다. 에피소드 저장소/매체는 개체들 및 동작들의 조합들에 대해 트레이닝되는 SOM 또는 ASOM으로서 구현될 수 있다. 일 실시예에서, 에피소드 저장소/매체는 에피소드 요소들의 고유한 조합들을 저장하는 CDZ의 수렴 구역이다. 에피소드 저장소/매체(47)는, 3개의 입력 필드들 - 각자의 WM 에피소드 슬롯들로부터 입력을 취하는 에이전트, 환자 및 동작 - 이 있는 ASOM으로서 구현될 수 있다. 입력 필드에 대한 혼합 계수(알파)는, 입력 필드의 입력이 성공적으로 프로세싱되었을 때에만 넌-제로이다. 이것은, 입력 필드들이 점진적으로 채워짐에 따라, ASOM이 나머지 입력 필드들에 관한 예측들, 예컨대 이러한 에이전트가 전형적으로 어떤 에피소드들에 수반되는지를 전달한다는 것을 의미한다.

개별 버퍼(48)는 개체의 속성들을 순차적으로 획득한다. 시퀀스가 완료될 때(모든 버퍼들의 보유 게이트들이 닫힘), 에피소드 저장소/매체(47)에서의 적응성이 턴 온되고, 에피소드 저장소/매체(47)는 위치, 수 및 특성들의 이러한 특정 조합을 새로운 개체로서 저장할 수 있다(또는 재주목된 것을 업데이트함). 에피소드 저장소/매체(47)가 그의 프로세싱을 완료할 때 전체 사이클이 다시 시작된다.

에피소드 버퍼는 에피소드의 요소들을 순차적으로 획득한다. 에피소드 저장소/매체 시스템에서의 적응성은, 에피소드 시퀀스가 성공적으로 완료될 때에만/완료된 경우에만 턴 온된다. 이것은, 주목 메커니즘들이 잘못된 에피소드 참가자들을 추측하는 경우, 부정확한 표현이 학습되지 않는다는 것을 보장한다.

강화 학습 컴포넌트

지각된 에피소드가 에이전트에게 특정 보상을 가져왔으면, 그것은 추가 입력 필드로서 에피소드 저장소/매체(47)에서의 에피소드와 연관될 수 있다. 에피소드 지각 동안, 보상으로 제로 ASOM 알파 가중치를 갖는 에피소드 저장소/매체(47)는 현재 지각되는 에피소드와 연관된 예상된 보상의 예측을 가져올 것이다. 동작 실행 동안, 보상 입력은 보상의 특정 값과 연관된 에피소드들을 우선적으로 활성화시키기 위해 매체를 준비하는 데 사용될 수 있다.

감정들

지각된 에피소드가 특정의 느껴진 감정 또는 정서적 값과 연결되었다면, 그것은 추가 입력 필드로서 에피소드 저장소/매체(47)에서의 에피소드와 연관될 수 있다. 에피소드 지각 동안, 감정에 대해 제로 ASOM 알파 가중치를 갖는 에피소드 저장소/매체(47)는 예측된 에피소드와 연관된 감정을 가져올 것이다. 동작 실행 동안, 정서적 값은 유사한 감정과 연관된 에피소드들을 우선적으로 활성화시키기 위해 매체를 준비하는 데 사용될 수 있다.

임바디드 에이전트들의 상세사항들 및 변형들

하향식 및 상향식 신경행동 모델링

본 발명의 실시예들은, 창발적(emergent) 거동이 가능한 저 레벨 모델링을, 생물학적으로 덜 기반이 되지만 주어진 태스크들에 대해 더 빠르고 더 효과적인 고 레벨의 추상적 모델들과 조합함으로써 인공 지능을 개선한다. 창발적 거동이 가능한 아키텍처를 갖는 임바디드 에이전트의 일례는 본 발명의 양수인에게 또한 양도되어 있는 US10181213B2에 개시되어 있고, 본 명세서에 참고로 포함된다. 고도의 모듈식 프로그래밍 환경은, 상호연결된 고 레벨 "흑색 박스들"(모듈들(10))을 갖는 하향식 인지적 아키텍처들을 허용한다. 각각의 "흑색 박스"는 이상적으로는 상호연결된 생물학적으로 타당한 저 레벨 모델들의 모음을 포함하지만, 추상적 규칙들 또는 논리적 설명들, 지식 베이스/데이터베이스에 액세스하는 것, 대화 엔진, 전통적인 기계 학습 신경 네트워크를 사용하여 입력을 프로세싱하는 것, 또는 임의의 다른 계산 기법을 그만큼 쉽게 포함할 수 있다. 각각의 모듈(12)의 입력들 및 출력들은, 거동(및 그에 따라 애니메이션 파라미터들)을 주도하는 데 사용될 수 있는 모듈의 "변수들"로서 노출된다. 커넥터들은 모듈들(12) 사이의 변수들을 통신한다. 가장 간단하게, 커넥터는 각각의 시간 단계에서 하나의 변수의 값을 다른 모듈(12)에 복사한다. 이들 고 레벨 기호 프로세스들은 저 레벨 신경 회로들의 모델들로부터 나오는 거동들과 통합된다. 창발적 거동들은 고 레벨 프로세스들과 자연스러운 방식들로 상호작용한다. 계산을 수행하는 회로들은, 임의의 중심 제어 지점 없이 병렬로 연속적으로 실행된다. 프로그래밍 환경은, 임의의 단일 제어 스크립트가 모듈들(12)에 대한 명령어들의 시퀀스를 실행시킬 수 없게 함으로써 이러한 원리를 하드코딩할 수 있다. 프로그래밍 환경은 신경학적으로 타당하고 분산된 메커니즘들의 세트를 통해 인지 및 거동의 제어를 지원한다.

누설 통합기들은 타이밍: IFC, MFC 및 전압 임계치를 제어하는 3개의 주요 파라미터들을 갖는다. 타이밍을 제어하기 위해 파라미터들을 수정할 때, 가장 쉬운 것은 MFC를 조정하는 것이다 - 더 빠른 감쇠를 위해 증가시키고, 그 반대도 마찬가지임. CDZ에서 전형적인 전압 임계치는 0.1일 수 있다.

감정들

감정들은, 경험되거나 느껴진 컴포넌트 및 거동 응답들이 존재하는 조절된 뇌-신체 상태들로서 모델링된다. 거동 회로들이 생리학적 파라미터들에 의해 변조되는 정서적 신경과학 기반 접근법이 모델링된다. 생리학적 조절은 감각, 인지 및 운동 상태들의 상호작용을 변경한다. 가상의 신경전달물질은 자극들에 대한 반응으로 생성되는데, 이는 감정들에 맵핑되고 거동 반응들을 안내할 수 있다. 예를 들어, "위협적인 자극"은, 투쟁 또는 도피 반응을 위한 에너지를 방출하는 가상의 노르에피네프린과 코티솔의 방출을 트리거하고, 공포감을 일으킨다. 웃는 얼굴 또는 부드러운 음성(일부 기능에 의해 평가되는 바와 같음)은 가상의 옥시토신 및 도파민을 트리거할 수 있는데, 이는 긍정적인 원자가 상태들, 및 행복함과 같은 별개의 감정들에 맵핑하고, 웃는 얼굴 표정들을 생성하며, 동요 거동들을 감소시킨다.

이점들

따라서, 실시간 학습 네트워크 아키텍처가 제공된다 - 가장 두드러진 기계 학습 알고리즘들은 오프라인으로 학습하고 많은 양의 데이터를 필요로 한다. 에이전트들은 (그들의 환경과 상호작용함으로써) 스스로 학습할 수 있거나, (사용자가 특정 자극들에 대해 그것을 제시함으로써) 가르침을 받을 수 있거나, 또는 (메모리들을 주입함으로써) 완전히 사용자 제어될 수 있다. 아키텍처는, 상이한 유형들의 사물들을 학습할 수 있는 학습을 위한 일반적인 아키텍처이다.

또한, 실시간 학습 네트워크 아키텍처는 흑색 박스가 아닌데, 이는 창발적 거동의 원인들이 이해될 수 있기 때문이다. 거동을 야기하는 경로들을 통해 다시 추적하는 것이 가능하다. SOM들은 임의의 형태의 입력을, 예를 들어 원 핫 벡터들, RGB 이미지들, 심층 신경 네트워크로부터의 특징 벡터들, 또는 다른 것을 수용할 수 있다. 또한, 아키텍처는 계층적으로 적층가능하다 - 저 레벨 입력들은 통합되고, 다른 연관 영역들과 추가로 통합된다. 이것은 불연속 양상들이 간접적으로 관련될 수 있게 하고, 이는 복잡한 거동들을 일으킬 수 있다.

본 명세서에 개시된 바와 같은 맵들은, 에이전트들이 이벤트들을 유연하게 인코딩하고 라이브 동작 과정에서 저장된 정보를 취출할 수 있게 한다. 세상을 경험하는 과정에서, 기억된 이벤트들을 나타내는 맵에는 인코딩할 새로운 이벤트가 제시된다. 그러나 임바디드 에이전트가 이러한 이벤트를 경험하고 있는 동안, 이러한 동일한 맵이 '질의 모드'에서 사용되는데, 여기서 그것은 지금까지 경험한 이벤트의 부분들을 제시받고, 나머지 부분들을 예측하도록 요청받으므로, 이들 예측들이 감각운동 프로세스들에 대한 하향식 가이드로서 역할을 할 수 있다.

SOM들은 HTM 유형 시스템을 구성하는 대안적인 방식을 제공하지만, 토포그래피로 자체 구성되어 있고 그에 따라 정보를 더 잘 클러스터링한다는 이점들을 갖는다. SOM들은, 천천히 그리고 오프라인으로 트레이닝되어야 하는 종래의 심층 네트워크들과 달리, 빠른, 원 샷 학습을 지원한다. SOM들은, 그들이 수신하는 입력 패턴들에 대한 일반화들의 학습을 용이하게 지원한다. SOM은 그것의 메모리들을 맵 내의 각각의 뉴런의 가중치 벡터에 저장할 수 있다. 이는 이중 표현을 허용한다: SOM의 활동은 다수의 옵션들에 걸친 확률 분포를 나타내지만, 각각의 옵션의 콘텐츠는 각각의 뉴런의 가중치들로 저장되고 하향식으로 재구성될 수 있다.

ASOM들은 상이한 소스들/양상들로부터 나오는 입력들을 유연하게 연관시키고, 그들에게 동적으로 변경가능한 주목/중요도를 제공할 수 있다. 활성화의 흐름은 반전될 수 있다 - ASOM들은 상향식(입력으로부터 활성화로의) 프로세싱 및 하향식(활성화로부터 재구성된 입력으로의) 프로세싱 둘 모두뿐만 아니라 그들의 조합을 지원한다. SOM은 노이즈 입력을 거부하거나 또는 누락되는 부분들을 재구성하거나, 또는 프로토타입(prototype)을 리턴하고, 입력과 프로토타입이 서로 상이한 부분들을 강조할 수 있다. 이러한 모든 것은 SOM들의 계층의 다수의 레벨들에 걸쳐 작업한다.

요약

일 실시예에서: 임바디드 에이전트를 애니메이션화하기 위한 방법은, 제1 양상에서 경험의 제1 표현에 대응하는 감각 입력을 수신하는 단계; 경험 메모리 저장소에 질의하여 제2 양상에서 경험의 제2 표현을 취출하는 단계; 및 제2 양상에서의 제2 표현을 사용하여 임바디드 에이전트를 애니메이션화하는 단계를 포함한다.

또 다른 실시예에서: 임바디드 에이전트를 위한 메모리를 저장하기 위한 시스템은, 임바디드 에이전트의 동작의 과정에서 경험된 경험들로부터 채워진, 경험 메모리 저장소 - 각각의 경험은 상이한 양상들에서의 경험의 복수의 표현들과 연관되고, 경험 메모리 저장소는 경험들의 표현들을 신경 네트워크 가중치들로 저장함 -; 및 경험 메모리 저장소에 저장된 경험들의 사본들을 저장하는 메모리 데이터베이스 - 메모리 데이터베이스는 상이한 양상들에서의 경험의 표현들에 대응하는 원시 데이터를 저장함 - 를 포함한다.

또 다른 실시예에서: 임바디드 에이전트의 라이브 동작의 과정에서 에이전트에 의해 경험된 경험들을 선택적으로 저장하는 방법은, 복수의 양상들에서 입력을 수신하기 위한 복수의 입력 스트림들로부터 입력의 표현들을 수신하는 단계 - 각각의 입력 스트림은 입력 스트림에서 적격성 트레이스를 생성하는 적어도 하나의 조건과 연관됨 -; 2개 이상의 입력 스트림들("적격성" 입력 스트림들)의 동시적 적격성 트레이스들을 검출하는 단계; 및 적격성 입력 스트림들로부터의 입력의 표현들을 저장하고 연관시키는 단계를 포함한다.

또 다른 실시예에서: 복수의 뉴런들을 포함하는 SOM을 트레이닝시키기 위한 방법 - 각각의 뉴런은 가중치 벡터 및 트레이닝 기록과 연관됨 - 은, 입력 벡터를 수신하는 단계; 입력 벡터가 "새로운 것"인지 여부를 결정하는 단계; 입력 벡터가 새로운 것이 아닌 경우: 입력 벡터와 위닝 뉴런(Winning Neuron) 사이의 더 높은 유사도를 선호하는, 제1 위닝 뉴런을 선택하고, 제1 위닝 뉴런의 가중치 벡터를 입력 벡터를 향해 수정하는 단계; 입력 벡터가 새로운 것인 경우: 더 낮은 트레이닝 기록들을 갖는 뉴런들을 선호하는, 제2 위닝 뉴런을 선택하고, 제2 위닝 뉴런의 가중치 벡터를 입력 벡터를 향해 수정하는 단계를 포함한다.

또 다른 실시예에서: 임바디드 에이전트의 동작의 과정에서 에이전트에 의해 경험된 경험들을 선택적으로 저장하기 위한 방법-구현된 시스템으로서, 복수의 양상들에서 입력을 수신하기 위한 복수의 입력 스트림들로부터 입력의 표현들을 수신하는 단계 - 각각의 입력 스트림은 입력 스트림에서 적격성 트레이스를 생성하는 적어도 하나의 조건과 연관됨 -; 2개 이상의 입력 스트림들("적격성" 입력 스트림들)의 동시적 적격성 트레이스들을 검출하는 단계; 및 적격성 입력 스트림들로부터의 입력의 표현들을 저장하고 연관시키는 단계를 포함한다.

Claims

임바디드 에이전트(embodied agent)를 애니메이션화하기 위한 방법으로서,
제1 양상(modality)에서 경험의 제1 표현에 대응하는 감각 입력을 수신하는 단계;
경험 메모리 저장소에 질의하여 제2 양상에서 상기 경험의 제2 표현을 취출하는 단계; 및
상기 제2 양상에서의 상기 제2 표현을 사용하여 상기 임바디드 에이전트를 애니메이션화하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 경험 메모리 저장소는 상기 경험들의 표현들을 신경 네트워크 가중치들로 저장하는, 방법.
제1항에 있어서, 상기 임바디드 에이전트는 신경행동 모델(neurobehavioural model)을 사용하여 애니메이션화되는, 방법.
제1항에 있어서, 상기 경험 메모리 저장소에서의 경험들은 상기 임바디드 에이전트의 라이브 동작의 과정에서 상기 임바디드 에이전트에 의해 이전에 경험된 경험들을 포함하는, 방법.
제1항에 있어서, 복수의 양상들은, 시각, 오디오, 터치, 운동, 신경화학 또는 위치 양상들을 포함하는 그룹 중 하나 이상을 포함하는, 방법.
제1항에 있어서, 상기 경험 메모리 저장소에서의 경험들은 작성된 경험들을 포함하는, 방법.
제1항에 있어서, 상기 제2 양상에서의 상기 제2 표현은 상기 임바디드 에이전트의 내부 상태에 대응하고, 상기 임바디드 에이전트의 애니메이션은 상기 취출된 내부 상태에 따라 그의 현재 내부 상태를 수정함으로써 지시받는, 방법.
제7항에 있어서, 상기 제2 양상에서의 상기 제2 표현은 상기 임바디드 에이전트의 감정 상태에 대응하는, 방법.
제2항에 있어서, 상기 제2 양상에서의 상기 제2 표현은 리콜(recall) 동안 상기 임바디드 에이전트에 의해 재경험되는, 방법.
제1항에 있어서, 상기 경험 메모리 저장소는 자기 조직화 맵(Self Organizing Map, SOM)들의 모음인, 방법.
제10항에 있어서, 상기 SOM들은 수렴-발산 구역(Convergence Divergence Zone, CDZ)으로서 배열되는, 방법.
임바디드 에이전트를 위한 메모리를 저장하기 위한 시스템으로서,
상기 임바디드 에이전트의 동작의 과정에서 경험된 경험들로부터 채워진, 경험 메모리 저장소 - 각각의 경험은 상이한 양상들에서의 상기 경험의 복수의 표현들과 연관되고, 상기 경험 메모리 저장소는 상기 경험들의 표현들을 신경 네트워크 가중치들로 저장함 -; 및
상기 경험 메모리 저장소에 저장된 상기 경험들의 사본들을 저장하는 메모리 데이터베이스 - 상기 메모리 데이터베이스는 상이한 양상들에서의 상기 경험의 표현들에 대응하는 원시 데이터(raw data)를 저장함 - 를 포함하는, 시스템.
임바디드 에이전트의 라이브 동작의 과정에서 상기 에이전트에 의해 경험된 경험들을 선택적으로 저장하는 방법으로서,
복수의 양상들에서 입력을 수신하기 위한 복수의 입력 스트림들로부터 입력의 표현들을 수신하는 단계 - 각각의 입력 스트림은 상기 입력 스트림에서 적격성 트레이스를 생성하는 적어도 하나의 조건과 연관됨 -;
2개 이상의 입력 스트림들("적격성" 입력 스트림들)의 동시적 적격성 트레이스들을 검출하는 단계; 및
상기 적격성 입력 스트림들로부터의 상기 입력의 표현들을 저장하고 연관시키는 단계를 포함하는, 방법.
제13항에 있어서, 적격성 트레이스를 생성하는 조건들은 신규함(novelty), 중요도, 또는 세기(intensity)를 포함하는, 방법.
제13항에 있어서, 상기 복수의 양상들은, 시각, 오디오, 터치, 운동, 신경화학 또는 위치 양상들을 포함하는 그룹 중 하나 이상을 포함하는, 방법.
메모리 시스템으로서,
마지막 강화 이후에 경험된 메모리들을 저장하는 단기 메모리(short-term memory, STM) SOM; 및
상기 마지막 강화 전에 경험되고, 트레이닝된 STM 활성화로부터의 데이터 쌍들에 대한 강화 동안 트레이닝된 메모리들을 저장하는 장기 메모리(long-term memory, LTM) 구조물을 포함하고,
상기 LTM 및 STM은 표현 공간에서의 맵 표현을 카테고리 유형들의 공통 원 핫 인코딩(1-hot encoding)으로 분류하고;
메모리들은 상기 STM 및 상기 LTM에 집합적으로 그리고 분리적으로 저장되는, 메모리 시스템.
제16항에 있어서, 카테고리 유형들은 객체 유형들인, 메모리 시스템.
복수의 뉴런들을 포함하는 SOM을 트레이닝시키기 위한 방법으로서, 각각의 뉴런은 가중치 벡터 및 트레이닝 기록과 연관되고,
입력 벡터를 수신하는 단계;
상기 입력 벡터가 "새로운 것"인지 여부를 결정하는 단계;
상기 입력 벡터가 새로운 것이 아닌 경우:
상기 입력 벡터와 위닝 뉴런(Winning Neuron) 사이의 더 높은 유사도를 선호하는, 제1 위닝 뉴런을 선택하고, 상기 제1 위닝 뉴런의 가중치 벡터를 상기 입력 벡터를 향해 수정하는 단계; 및
상기 입력 벡터가 새로운 것인 경우:
더 낮은 트레이닝 기록들을 갖는 뉴런들을 선호하는, 제2 위닝 뉴런을 선택하고, 상기 제2 위닝 뉴런의 가중치 벡터를 상기 입력 벡터를 향해 수정하는 단계를 포함하는, 방법.
제18항에 있어서, 입력 벡터가 새로운 것인지 여부를 결정하는 단계는,
상기 입력 벡터와 상기 위닝 뉴런 사이의 더 높은 유사도를 선호하는, 제1 위닝 뉴런을 결정하는 단계;
상기 입력 벡터와 상기 제1 위닝 뉴런 사이의 매칭 품질을 결정하는 단계; 및
상기 매칭 품질이 매칭 품질 임계치 미만인 경우, 상기 입력 벡터를 새로운 것으로 결정하는 단계를 포함하는, 방법.
제19항에 있어서, 매칭 품질은 상기 입력 벡터에 응답하여 상기 제1 위닝 뉴런의 활성화로서 결정되는, 방법.
제19항에 있어서, 상기 입력 벡터가 새로운 것이 아닌 경우, 상기 제1 위닝 뉴런의 활동에 따라 상기 SOM의 학습 빈도를 조정하는 단계를 포함하는, 방법.
제19항에 있어서, 제2 위닝 뉴런을 선택하는 단계는 더 낮은 트레이닝 기록들, 및 상기 입력 벡터와 상기 위닝 뉴런 사이의 더 높은 유사도를 갖는 뉴런들을 선호하는 단계를 포함하는, 방법.
제22항에 있어서, 상기 더 낮은 트레이닝 기록들을 갖는 뉴런들을 선호하는 단계는 그들의 각자의 뉴런들에 의해 수신된 트레이닝의 양에 반비례하는 마스크 값들을 포함하는 활성화 마스크를 적용함으로써 달성되는, 방법.
제18항에 있어서, 상기 트레이닝 기록은 가중치이고, 상기 트레이닝 기록의 값은 트레이닝 기록의 연관된 뉴런이 받은 트레이닝의 양에 비례하는, 방법.
제19항에 있어서, 제2 위닝 뉴런을 선택하기 전에, 상기 입력 벡터에 대한 상기 SOM의 활성화 맵에 랜덤 노이즈를 추가하는 단계를 포함하는, 방법.
제19항에 있어서, 뉴런들의 상기 트레이닝 기록은 SOM 트레이닝 및/또는 시간에 따라 감쇠하도록 구성되는, 방법.
복수의 뉴런들을 포함하는 SOM에서 타깃화된 망각(targeted forgetting)을 위한 방법으로서, 각각의 뉴런은 가중치 벡터와 연관되고,
복수의 마스크 값들을 포함하는 리셋 마스크를 생성하는 단계 - 각각의 마스크 값은 상기 SOM의 뉴런과 연관됨 -;
넌-제로(non-zero) 마스크 값과 연관된 상기 SOM의 각각의 뉴런에 리셋 함수를 적용하는 단계 - 상기 리셋 함수는:
상기 뉴런의 가중치들을 트레이닝되지 않은 상태로 리셋하기 위한 망각 컴포넌트(Forgetting Component); 및
상기 리셋 함수의 출력을 상기 망각 컴포넌트 및 상기 마스크 값의 함수로서 수정하기 위한 마스크 컴포넌트를 포함함 -; 및
상기 리셋 함수의 출력에 따라 SOM 뉴런 가중치 벡터들을 수정하는 단계를 포함하는, 방법.
제27항에 있어서, 상기 망각 컴포넌트는 랜덤 노이즈를 생성하는, 방법.
제36항에 있어서, 입력 벡터와 연관된 메모리들의 타깃화된 망각을 위해, 상기 리셋 마스크를 생성하는 단계는, 상기 리셋 마스크의 각각의 마스크 값에 대해:
상기 입력 벡터와 상기 마스크 값의 연관된 뉴런 사이의 유사도를 결정하는 단계;
상기 유사도가 리셋 임계치를 초과하는지 여부를 결정하는 단계; 및
상기 유사도가 상기 리셋 임계치 초과인 경우, 상기 마스크 값을 1로 설정하고; 그렇지 않고, 상기 유사도가 상기 리셋 임계치를 초과하지 않는 경우, 상기 마스크 값을 0으로 설정하는 단계를 포함하는, 방법.
제36항에 있어서, 상기 SOM은 확률론적 SOM이고, 각각의 뉴런의 활동은 확률 공간에 거리를 맵핑하는 활성화 함수를 사용하여 결정되고 뉴런들의 가중치들은 뉴런 활동에 따라 업데이트되는, 방법.
제30항에 있어서, 입력 벡터와 연관된 메모리들의 타깃화된 망각을 위해, 상기 입력 벡터를 상기 SOM에 대한 입력으로서 제공하는 단계; 및 상기 SOM의 활성화 맵에 따라 상기 리셋 마스크를 설정하는 단계를 포함하는, 방법.
제36항에 있어서, 각각의 뉴런은 트레이닝 기록과 연관되는, 방법.
제32항에 있어서, 빈번하지 않은 메모리들의 타깃화된 망각을 위해, 상기 리셋 마스크는 상기 트레이닝 기록의 역으로 설정되는, 방법.
제32항에 있어서, 망각 임계치보다 더 오래된 메모리들의 타깃화된 망각을 위해,
시간이 경과함에 따라 각각의 뉴런의 상기 트레이닝 기록을 약화시키는(eroding) 단계; 및
상기 리셋 마스크를 상기 트레이닝 기록의 역으로 설정하는 단계를 포함하는, 방법.
제32항에 있어서, 상기 리셋 마스크를 생성하는 단계는, 상기 리셋 마스크의 각각의 마스크 값에 대해:
상기 마스크 값의 연관된 뉴런의 트레이닝 기록이 리셋 임계치 미만인지 여부를 결정하는 단계; 및
상기 트레이닝 기록이 상기 리셋 임계치 미만인 경우, 상기 마스크 값을 1로 설정하고; 그렇지 않고, 상기 트레이닝 기록이 상기 리셋 임계치를 초과하지 않는 경우, 상기 마스크 값을 0으로 설정하는 단계를 포함하는, 방법.
임바디드 에이전트의 거동을 지시하기 위한 방법-구현된 시스템으로서, 상기 방법은,
제1 양상에서 경험의 제1 표현에 대응하는 감각 입력을 수신하는 단계;
경험 메모리 저장소에 질의하여 제2 양상에서 상기 경험의 제2 표현을 취출하는 단계; 및
상기 제2 양상에서의 상기 제2 표현을 사용하여 상기 임바디드 에이전트의 거동을 지시하는 단계를 포함하는, 시스템.
임바디드 에이전트의 동작의 과정에서 상기 에이전트에 의해 경험된 경험들을 선택적으로 저장하기 위한 방법-구현된 시스템으로서,
복수의 양상들에서 입력을 수신하기 위한 복수의 입력 스트림들로부터 입력의 표현들을 수신하는 단계 - 각각의 입력 스트림은 상기 입력 스트림에서 적격성 트레이스를 생성하는 적어도 하나의 조건과 연관됨 -;
2개 이상의 입력 스트림들("적격성" 입력 스트림들)의 동시적 적격성 트레이스들을 검출하는 단계; 및
상기 적격성 입력 스트림들로부터의 상기 입력의 표현들을 저장하고 연관시키는 단계를 포함하는, 시스템.