KR20160136364A

KR20160136364A - 콜드 뉴런 스파이크 타이밍 역 전파

Info

Publication number: KR20160136364A
Application number: KR1020167028997A
Authority: KR
Inventors: 데이비드 조나단 줄리안; 사친 수바쉬 탈라티
Original assignee: 퀄컴 인코포레이티드
Priority date: 2014-03-24
Filing date: 2015-03-18
Publication date: 2016-11-29
Also published as: WO2015148224A3; WO2015148224A2; JP2017515205A; EP3123402A2; TW201602807A; US20150269485A1; CN107077636A

Abstract

뉴런 상태 업데이트들은 맵 기반 업데이트들 및 적어도 하나의 리셋 메커니즘을 갖는 스파이킹 모델들로 연산된다. 가중치 업데이트들을 연산하기 위해 역 전파가 스파이크 시간들에 대해 적용된다.

Description

콜드 뉴런 스파이크 타이밍 역 전파{COLD NEURON SPIKE TIMING BACK PROPAGATION}

관련 출원에 대한 상호참조

본 출원은 "COLD NEURON SPIKE TIMING BACK PROPAGATION" 의 명칭으로 2014년 3월 24일자로 출원된 미국 가특허출원 제61/969,752호에 대해 35 U.S.C.§119(e) 하에서 이익을 주장하며, 그 개시는 본 명세서에 참조로 전부 명시적으로 통합된다.

본 개시의 특정 양태들은 일반적으로 뉴럴 시스템 엔지니어링에 관한 것으로서, 더 상세하게는, 뉴럴 네트워크들에서의 역 전파에 관한 것이다.

인공 뉴런들 (즉, 뉴런 모델들) 의 상호연결된 그룹을 포함할 수도 있는 인공 뉴럴 네트워크는 연산 디바이스이거나 또는 연산 디바이스에 의해 수행될 방법을 나타낸다. 인공 뉴럴 네트워크들은 생물학적 뉴럴 네트워크들에 있어서의 대응하는 구조 및/또는 기능을 가질 수도 있다. 하지만, 인공 뉴럴 네트워크들은, 종래의 연산 기법들이 번거롭거나 비실용적이거나 또는 부적절한 특정 애플리케이션들에 혁신적이고 유용한 연산 기법들을 제공할 수도 있다. 인공 뉴럴 네트워크들이 관측들로부터 기능을 추론할 수 있기 때문에, 그러한 네트워크들은, 태스크 또는 데이터의 복잡성이 종래 기법들에 의한 기능의 설계를 부담스럽게 만드는 애플리케이션들에서 특히 유용하다.

뉴럴 네트워크를 트레이닝하는 것은, 입력들을 조작하는 것에 의해 출력이 조작되는 "역으로" 트레이닝하는 것을 포함할 수도 있다. 이러한 트레이닝 방법은, 순방향 전파가 에러들을 가질 수도 있는 경우들을 위해 그리고 카테고리화를 위해 유용하다. 뉴럴 네트워크에서 출력으로부터 입력으로 에러들을 전파함으로써, 네트워크는 네트워크 내의 그룹들 또는 다른 공통 특징들을 분류하고/하거나 식별하기 위해 학습할 수도 있다. 그러한 "에러들의 역방향 전파" 는 "역 전파" 로서 지칭된다. 따라서, 역 전파를 통합할 수 있는 뉴로모픽 수신기를 제공하는 것이 바람직하다.

본 개시의 일 양태에 따른 방법은 맵 기반 업데이트들 및 적어도 하나의 리셋 메커니즘을 갖는 스파이킹 모델들로 뉴런 상태 업데이트들을 연산하는 단계를 포함한다. 그 방법은 가중치 업데이트들을 연산하기 위해 스파이크 시간들에 대한 역 전파를 이용하는 단계를 더 포함한다.

본 개시의 다른 양태에 따른 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치는 맵 기반 업데이트들 및 적어도 하나의 리셋 메커니즘을 갖는 스파이킹 모델들로 뉴런 상태 업데이트들을 연산하는 수단을 포함한다. 그러한 장치는 또한, 가중치 업데이트들을 연산하기 위해 스파이크 시간들에 대한 역 전파를 이용하는 수단을 포함한다.

본 개시의 다른 양태에 따른 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 컴퓨터 프로그램 제품은 프로그램 코드가 인코딩된 비-일시적인 컴퓨터 판독가능 매체를 포함한다. 프로그램 코드는 맵 기반 업데이트들 및 적어도 하나의 리셋 메커니즘을 갖는 스파이킹 모델들로 뉴런 상태 업데이트들을 연산하기 위한 프로그램 코드를 포함한다. 프로그램 코드는 가중치 업데이트들을 연산하기 위해 스파이크 시간들에 대한 역 전파를 이용하기 위한 프로그램 코드를 더 포함한다.

본 개시의 다른 양태에 따른 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치는 메모리 및 메모리에 커플링된 적어도 하나의 프로세서를 포함한다. 프로세서(들)는 맵 기반 업데이트들 및 적어도 하나의 리셋 메커니즘을 갖는 스파이킹 모델들로 뉴런 상태 업데이트들을 연산하도록 구성된다. 프로세서(들)는 또한, 가중치 업데이트들을 연산하기 위해 스파이크 시간들에 대한 역 전파를 이용하도록 구성된다.

이는, 뒤이어지는 상세한 설명이 더 잘 이해될 수 있도록 본 개시의 특징들 및 기술적 이점들을 다소 넓게 서술하였다. 본 개시의 부가적인 특징들 및 이점들이 이하 설명될 것이다. 본 개시는 본 개시의 동일한 목적들을 수행하는 다른 구조들을 수정 또는 설계하기 위한 기반으로서 용이하게 활용될 수도 있음을 당업자에 의해 인식되어야 한다. 또한, 그러한 균등의 구성들은 첨부된 청구항들에 기재된 바와 같은 본 개시의 교시들로부터 일탈하지 않음을 당업자에 의해 인식되어야 한다. 추가의 목적들 및 이점들과 함께 그 구성 및 동작 방법 양자에 관하여 본 개시의 특성인 것으로 사료되는 신규한 특징들은 첨부 도면들과 관련하여 고려될 경우에 다음의 설명으로부터 더 양호하게 이해될 것이다. 하지만, 도면들 각각은 오직 예시 및 설명의 목적으로만 제공되고 본 개시의 한계들의 정의로서 의도되지 않음이 명시적으로 이해되어야 한다.

본 개시의 특징들, 특성, 및 이점들은 도면들과 함께 취해질 경우에 하기에 기재된 상세한 설명으로부터 더 명백하게 될 것이며, 도면들에 있어서 동일한 참조 부호들은 전반에 걸쳐 대응하게 식별한다.
도 1 은 본 개시의 특정 양태들에 따른 뉴런들의 예시적인 네트워크를 도시한다.
도 2 는 본 개시의 특정 양태들에 따른, 연산 네트워크 (뉴럴 시스템 또는 뉴럴 네트워크) 의 프로세싱 유닛 (뉴런) 의 일 예를 도시한다.
도 3 은 본 개시의 특정 양태들에 따른 스파이크 타이밍 의존 가소성 (STDP; spike-timing dependent plasticity) 곡선의 일 예를 도시한다.
도 4a 는 본 개시의 특정 양태들에 따른, 뉴런 모델의 거동을 정의하기 위한 포지티브 레짐 (positive regime) 및 네거티브 레짐의 일 예를 도시한다.
도 4b 는 본 개시의 일 양태에 따른 스파이크 타이밍 다이어그램을 도시한다.
도 5 는 본 개시의 특정 양태들에 따른, 범용 프로세서를 이용하여 뉴럴 네트워크를 설계하는 예시적인 구현을 도시한다.
도 6 은 본 개시의 특정 양태들에 따른, 메모리가 개별 분산 프로세싱 유닛들과 인터페이싱될 수도 있는 뉴럴 네트워크를 설계하는 예시적인 구현을 도시한다.
도 7 은 본 개시의 특정 양태들에 따른, 분산 메모리들 및 분산 프로세싱 유닛들에 기초하여 뉴럴 네트워크를 설계하는 예시적인 구현을 도시한다.
도 8 은 본 개시의 특정 양태들에 따른 뉴럴 네트워크의 예시적인 구현을 도시한다.
도 9 는 본 개시의 일 양태에 따른 역 전파를 도시한 블록 다이어그램이다.

첨부 도면들과 관련하여 하기에 기재된 상세한 설명은 다양한 구성들의 설명으로서 의도되고, 본 명세서에 설명된 개념들이 실시될 수도 있는 유일한 구성들만을 나타내도록 의도되지 않는다. 상세한 설명은 다양한 개념들의 철저한 이해를 제공할 목적으로 특정 상세들을 포함한다. 하지만, 이들 개념들은 이들 특정 상세들없이도 실시될 수도 있음이 당업자에게 명백할 것이다. 일부 경우들에 있어서, 널리 공지된 구조들 및 컴포넌트들은 그러한 개념들을 불명료하게 하는 것을 회피하기 위해 블록 다이어그램 형태로 도시된다.

교시들에 기초하여, 당업자는, 본 개시의 임의의 다른 양태와는 독립적으로 구현되든 임의의 다른 양태와 결합되든, 본 개시의 범위가 본 개시의 임의의 양태를 커버하도록 의도됨을 인식할 것이다. 예를 들어, 설명된 임의의 수의 양태들을 이용하여 일 장치가 구현될 수도 있거나 일 방법이 실시될 수도 있다. 부가적으로, 본 개시의 범위는, 설명된 본 개시의 다양한 양태들에 부가한 또는 그 이외의 구조 및 기능, 또는 다른 구조, 기능을 이용하여 실시되는 그러한 장치 또는 방법을 커버하도록 의도된다. 개시된 본 개시의 임의의 양태는 청구항의 하나 이상의 엘리먼트들에 의해 구현될 수도 있음을 이해해야 한다.

단어 "예시적인" 은 "예, 예증, 또는 예시로서 기능하는" 을 의미하도록 본 명세서에서 사용된다. "예시적인" 것으로서 본 명세서에서 설명되는 임의의 양태는 다른 양태들에 비해 반드시 선호되거나 유리한 것으로서 해석되지는 않는다.

특정 양태들이 본 명세서에서 설명되지만, 이들 양태들의 다수의 변형예들 및 치환예들은 본 개시의 범위 내에 있다. 선호된 양태들의 일부 이익들 및 이점들이 언급되지만, 본 개시의 범위는 특정 이익들, 사용들, 또는 목적들에 한정되도록 의도되지 않는다. 대신, 본 개시의 양태들은 상이한 기술들, 시스템 구성들, 네트워크들 및 프로토콜들에 널리 적용가능하도록 의도되며, 이들 중 일부는 도면들에서, 그리고 선호된 양태들의 다음의 설명에서 예로써 예시된다. 상세한 설명 및 도면들은 한정하는 것보다는 본 개시의 단지 예시일 뿐이며, 본 개시의 범위는 첨부된 청구항들 및 그 균등물들에 의해 정의된다.

예시적인 뉴럴 시스템, 트레이닝 및 동작

도 1 은 본 개시의 특정 양태들에 따른 뉴런들의 다중 레벨들을 갖는 예시적인 인공 뉴럴 시스템 (100) 을 도시한다. 뉴럴 시스템 (100) 은 시냅스 접속들 (즉, 피드-포워드 접속들) 의 네트워크 (104) 를 통해 뉴런들의 다른 레벨 (106) 에 접속되는 뉴런들의 레벨 (102) 을 가질 수도 있다. 단순화를 위해, 비록 뉴런들의 오직 2개 레벨들만이 도 1 에 도시되어 있더라도, 뉴런들의 더 적거나 더 많은 레벨들이 뉴럴 시스템에 존재할 수도 있다. 뉴런들의 일부가 측면 접속들을 통해 동일한 계층의 다른 뉴런들에 접속할 수도 있다는 점을 유의해야 한다. 더욱이, 뉴런들의 일부는 피드백 접속들을 통해 이전 계층의 뉴런에 다시 접속할 수도 있다.

도 1 에 도시된 바와 같이, 레벨 (102) 에서의 각각의 뉴런은, 이전 레벨 (도 1 에 도시 안됨) 의 뉴런들에 의해 생성될 수도 있는 입력 신호 (108) 를 수신할 수도 있다. 입력 신호 (108) 는 레벨 (102) 뉴런의 입력 전류를 나타낼 수도 있다. 이 전류는 멤브레인 전위를 충전하기 위해 뉴런 멤브레인 상에 누적될 수도 있다. 멤브레인 전위가 그 임계 값에 도달할 경우, 뉴런은 발화하고, 뉴런들의 다음 레벨 (예를 들어, 레벨 (106)) 로 전송될 출력 스파이크를 생성할 수도 있다. 일부 모델링 접근법들에 있어서, 뉴런은 신호를 뉴런들의 다음 레벨로 계속 전송할 수도 있다. 이 신호는 통상적으로, 멤브레인 전위의 함수이다. 그러한 거동은, 하기에서 설명되는 바와 같은 아날로그 및 디지털 구현들을 포함한, 하드웨어 및/또는 소프트웨어에서 에뮬레이션되거나 시뮬레이션될 수 있다.

생물학적 뉴런들에 있어서, 뉴런이 발화할 때 생성되는 출력 스파이크는 활동 전위로서 지칭된다. 이러한 전기 신호는 대략 100 mV 의 진폭 및 약 1 ms 의 지속기간을 갖는, 상대적으로 빠른, 일시적인 신경 임펄스이다. 접속된 뉴런들의 시리즈를 갖는 뉴럴 시스템의 특정 실시형태 (예를 들어, 도 1 에서 뉴런들의 일 레벨로부터 다른 레벨로의 스파이크들의 전송) 에 있어서, 모든 활동 전위는 기본적으로 동일한 진폭 및 지속기간을 가지며, 따라서, 신호 내 정보는 진폭에 의해서라기 보다는, 오직 스파이크들의 주파수 및 개수, 또는 스파이크들의 시간에 의해서만 표현될 수도 있다. 활동 전위에 의해 반송되는 정보는 스파이크, 스파이크된 뉴런, 및 다른 스파이크 또는 스파이크들에 대한 그 스파이크의 시간에 의해 결정될 수도 있다. 스파이크의 중요성은, 하기에서 설명되는 바와 같이, 뉴런들 간의 접속에 적용된 가중치에 의해 결정될 수도 있다.

도 1 에 도시된 바와 같이, 뉴런들의 일 레벨로부터 다른 레벨로의 스파이크들의 전송은 시냅스 접속들의 네트워크 (또는 간단히 "시냅스들") (104) 를 통해 달성될 수도 있다. 시냅스들 (104) 에 대해, 레벨 (102) 의 뉴런들은 시냅스전 (presynaptic) 뉴런들로 고려될 수도 있고, 레벨 (106) 의 뉴런들은 시냅스후 (postsynaptic) 뉴런들로 고려될 수도 있다. 시냅스들 (104) 은 레벨 (102) 뉴런들로부터 출력 신호들 (즉, 스파이크들) 을 수신하고, 그 신호들을 조정가능한 시냅스 가중치들 (w₁ ^(i,i+1),..., w_P ^(i,i+1)) 에 따라 스케일할 수도 있으며, 여기서, P 는 레벨들 (102 및 106) 의 뉴런들 간의 시냅스 접속체들의 총 수이고, i 는 뉴런 레벨의 표시자이다. 도 1 의 예에 있어서, i 는 뉴런 레벨 (102) 을 나타내고, i+1 은 뉴런 레벨 (106) 을 나타낸다. 추가로, 스케일링된 신호들은 레벨 (106) 에서의 각각의 뉴런의 입력 신호로서 결합될 수도 있다. 레벨 (106) 에서의 모든 뉴런은 대응하는 결합된 입력 신호에 기초하여 출력 스파이크들 (110) 을 생성할 수도 있다. 출력 스파이크들 (110) 은 시냅스 접속체들의 다른 네트워크 (도 1 에 도시 안됨) 를 이용하여 뉴런들의 다른 레벨들로 전송될 수도 있다.

생물학적 시냅스들은 시냅스후 뉴런들에서의 흥분성 또는 억제성 (과분극하는) 활동들을 중재할 수 있으며, 또한 뉴런 신호들을 증폭하도록 기능할 수 있다. 흥분성 신호들은 멤브레인 전위를 탈분극시킨다 (즉, 휴지 전위에 대해 멤브레인 전위를 증가시킴). 멤브레인 전위를 임계치 초과로 탈분극시키기 위해 충분한 흥분성 신호들이 특정 시간 기간 이내에 수신되면, 활동 전위가 시냅스후 뉴런에서 발생한다. 이에 반하여, 억제성 신호들은 일반적으로 멤브레인 전위를 과분극시킨다 (즉, 감소시킨다). 억제성 신호들은, 충분히 강하면, 흥분성 신호들의 총합을 상쇄시킬 수 있으며 멤브레인 전위가 임계치에 도달하는 것을 방지할 수 있다. 시냅스 흥분을 상쇄시키는 것에 부가하여, 시냅스 억제는 자발적 활성 뉴런들에 걸쳐 강력한 제어를 행할 수 있다. 자발적 활성 뉴런은 추가적인 입력없이, 예를 들어, 그의 역학 또는 피드백으로 인해 스파이크하는 뉴런을 지칭한다. 이들 뉴런들에 있어서 활동 전위들의 자발적 생성을 억제함으로써, 시냅스 억제는 스컬쳐링 (sculpturing) 으로서 일반적으로 지칭되는, 뉴런에서의 발화의 패턴을 형상화할 수 있다. 다양한 시냅스들 (104) 은 원하는 거동에 의존하여, 흥분성 또는 억제성 시냅스들의 임의의 조합으로서 작용할 수도 있다.

뉴럴 시스템 (100) 은 범용 프로세서, 디지털 신호 프로세서 (DSP), 주문형 집적회로 (ASIC), 필드 프로그래밍가능 게이트 어레이 (FPGA) 또는 다른 프로그래밍가능 로직 디바이스 (PLD), 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 프로세서에 의해 실행되는 소프트웨어 모듈, 또는 이들의 임의의 조합에 의해 에뮬레이션될 수도 있다. 뉴럴 시스템 (100) 은 이미지 및 패턴 인식, 머신 학습, 모터 제어 등과 같은 광범위한 어플리케이션들에서 활용될 수도 있다. 뉴럴 시스템 (100) 에서의 각각의 뉴런은 뉴런 회로로서 구현될 수도 있다. 출력 스파이크를 개시하는 임계 값까지 하전되는 뉴런 멤브레인은, 예를 들어, 흐르는 전류를 적분하는 커패시터로서 구현될 수도 있다.

일 양태에 있어서, 캐패시터는 뉴런 회로의 전류 적분 디바이스로서 제거될 수도 있고, 더 작은 멤리스터 엘리먼트가 대신 사용될 수도 있다. 이러한 접근법은 뉴런 회로들에 뿐 아니라, 벌키 커패시터들이 전류 적분기들로서 활용되는 다양한 다른 어플리케이션들에 적용될 수도 있다. 부가적으로, 시냅스들 (104) 각각은 멤리스터 엘리먼트에 기초하여 구현될 수도 있으며, 여기서, 시냅스 가중치 변경들은 멤리스터 저항의 변경들과 관련될 수도 있다. 나노미터 피처 사이징된 멤리스터들을 사용하여, 뉴런 회로 및 시냅스들의 면적이 실질적으로 감소될 수도 있으며, 이는 초고밀도 뉴럴 시스템 하드웨어 구현체의 구현을 더 실용적이게 할 수도 있다.

뉴럴 시스템 (100) 을 에뮬레이션하는 뉴럴 프로세서의 기능은 뉴런들 사이의 접속들의 강도들을 제어할 수도 있는, 시냅스 접속들의 가중치들에 의존할 수도 있다. 시냅스 가중치들은, 파워-다운된 이후 프로세서의 기능을 보존하기 위해 비-휘발성 메모리에 저장될 수도 있다. 일 양태에 있어서, 시냅스 가중치 메모리는 메인 뉴럴 프로세서 칩과는 별개의 외부 칩 상에 구현될 수도 있다. 시냅스 가중치 메모리는 교체가능한 메모리 카드로서 뉴럴 프로세서 칩과는 별개로 패키징될 수도 있다. 이는 뉴럴 프로세서에 다양한 기능들을 제공할 수도 있으며, 여기서, 특정 기능은 뉴럴 프로세서에 현재 부착된 메모리 카드에 저장되는 시냅스 가중치들에 기초할 수도 있다.

도 2 는 본 개시의 특정 양태들에 따른, 연산 네트워크 (예를 들어, 뉴럴 시스템 또는 뉴럴 네트워크) 의 프로세싱 유닛 (예를 들어, 뉴런 또는 뉴런 회로) (202) 의 예시적인 다이어그램 (200) 을 도시한다. 예를 들어, 뉴런 (202) 은 도 1 로부터의 레벨들 (102 및 106) 의 뉴런들 중 임의의 뉴런에 대응할 수도 있다. 뉴런 (202) 은 다중의 입력 신호들 (2041-204N) 을 수신할 수도 있으며, 이 다중의 입력 신호들은 뉴럴 시스템 외부의 신호들, 또는 동일한 뉴럴 시스템의 다른 뉴런들에 의해 생성되는 신호들, 또는 이들 양자일 수도 있다. 입력 신호는 실수 값 및/또는 복소수 값인 전류, 컨덕턴스, 전압일 수도 있다. 입력 신호는 고정-소수점 또는 부동-소수점 표현을 갖는 수치 값을 포함할 수도 있다. 이들 입력 신호들은 조정가능한 시냅스 가중치들 (2061-206N (W1-WN)) 에 따라 신호들을 스케일링하는 시냅스 접속들을 통해서 뉴런 (202) 으로 전달될 수도 있으며, 여기서 N 은 뉴런 (202) 의 입력 접속들의 총 개수일 수도 있다.

뉴런 (202) 은 스케일링된 입력 신호들을 결합하고, 그 결합된 스케일링된 입력들을 이용하여 출력 신호 (208) (즉, 신호 (Y)) 를 생성할 수도 있다. 출력 신호 (208) 는 실수 값 및/또는 복소수 값인 전류, 컨덕턴스, 전압일 수도 있다. 출력 신호는 고정-소수점 또는 부동-소수점 표현을 갖는 수치 값일 수도 있다. 그 후, 출력 신호 (208) 는 동일한 뉴럴 시스템의 다른 뉴런들로의 입력 신호로서, 또는 동일한 뉴런 (202) 으로의 입력 신호로서, 또는 뉴럴 시스템의 출력으로서 전송될 수도 있다.

프로세싱 유닛 (뉴런) (202) 은 전기 회로에 의해 에뮬레이션될 수도 있으며, 그 입력 및 출력 접속들은 시냅스 회로들을 갖는 전기 접속체들에 의해 에뮬레이션될 수도 있다. 프로세싱 유닛 (202) 그리고 그 입력 및 출력 접속들은 또한 소프트웨어 코드에 의해 에뮬레이션될 수도 있다. 프로세싱 유닛 (202) 은 또한 전기 회로에 의해 에뮬레이션될 수도 있지만, 그 입력 및 출력 접속들은 소프트웨어 코드에 의해 에뮬레이션될 수도 있다. 일 양태에 있어서, 연산 네트워크에서의 프로세싱 유닛 (202) 은 아날로그 전기 회로일 수도 있다. 다른 양태에 있어서, 프로세싱 유닛 (202) 은 디지털 전기 회로일 수도 있다. 또다른 양태에 있어서, 프로세싱 유닛 (202) 은 아날로그 및 디지털 컴포넌트들 양자를 갖는 믹싱된 신호 전기 회로일 수도 있다. 연산 네트워크는 프로세싱 유닛들을 전술한 형태들 중 임의의 형태로 포함할 수도 있다. 그러한 프로세싱 유닛들을 이용한 연산 네트워크 (뉴럴 시스템 또는 뉴럴 네트워크) 는, 이미지 및 패턴 인식, 머신 학습, 모터 제어 등과 같은 광범위한 어플리케이션들에서 활용될 수도 있다.

뉴럴 네트워크를 트레이닝하는 과정 동안, 시냅스 가중치들 (예를 들어, 도 1 로부터의 가중치들 (w₁ ^(i,i+1),..., w_P ^(i,i+1)) 및/또는 도 2 로부터의 가중치들 (2061-206N)) 은 랜덤 값들로 초기화되고, 학습 규칙에 따라 증가되거나 감소될 수도 있다. 당업자는, 학습 규칙의 예들이 스파이크 타이밍 의존 가소성 (STDP) 학습 규칙, Hebb 규칙, Oja 규칙, BCM (Bienenstock-Copper-Munro) 규칙 등을 포함하지만 이에 한정되지 않음을 인식할 것이다. 특정 양태들에 있어서, 가중치들은 2개의 값들 (즉, 가중치들의 이봉 (bimodal) 분포) 중 하나로 정하거나 수렴할 수도 있다. 이 효과는 각각의 시냅스 가중치에 대한 비트수를 감소시키고, 시냅스 가중치들을 저장하는 메모리로부터 판독하고 그 메모리에 기입하는 속도를 증가시키고, 그리고 시냅스 메모리의 전력 및/또는 프로세서 소비를 감소시키는데 활용될 수 있다.

시냅스 타입

뉴럴 네트워크들의 하드웨어 및 소프트웨어 모델들에 있어서, 시냅스 관련 기능들의 프로세싱은 시냅스 타입에 기초할 수 있다. 시냅스 타입들은 비가소성 (non-plastic) 시냅스들 (가중치 및 지연의 변화들이 없음), 가소성 시냅스들 (가중치가 변할 수도 있음), 구조적 지연 가소성 시냅스들 (가중치 및 지연이 변할 수도 있음), 완전 가소성 시냅스들 (가중치, 지연 및 접속도가 변할 수도 있음), 및 그 변형예들 (예를 들어, 지연이 변할 수 있지만, 가중치 또는 접속도에서의 변화는 없음) 일 수도 있다. 다중의 타입들의 이점은 프로세싱이 세분될 수 있다는 점이다. 예를 들어, 비가소성 시냅스들은 가소성 기능들이 실행되는 것을 (또는, 그러한 기능들이 완료하기를 대기하는 것을) 이용하지 않을 수도 있다. 유사하게, 지연 및 가중치 가소성은, 함께 또는 별개로, 순차적으로 또는 병렬로, 동작할 수도 있는 동작들로 세분될 수도 있다. 상이한 타입들의 시냅스들은, 적용하는 상이한 가소성 타입들의 각각에 대해 상이한 룩업 테이블들 또는 공식들 및 파라미터들을 가질 수도 있다. 따라서, 그 방법들은 시냅스의 타입에 대한 관련 테이블들, 공식들, 또는 파라미터들에 액세스할 것이다.

스파이크-타이밍 의존 구조적 가소성이 시냅스 가소성과는 독립적으로 실행될 수도 있다는 사실의 추가적인 암시들이 존재한다. 구조적 가소성은, 구조적 가소성 (즉, 지연 변화의 양) 이 사전-사후 스파이크 시간 차이의 직접 함수일 수도 있기 때문에, 가중치 크기에 어떠한 변화도 없더라도 (예를 들어, 가중치가 최소 또는 최대 값에 도달하였거나, 또는 일부 다른 이유로 인해 변화되지 않으면) 실행될 수도 있다. 대안적으로, 구조적 가소성은 가중치 변화량의 함수로서, 또는 가중치들 또는 가중치 변화들의 한계들에 관련된 조건들에 기초하여 설정될 수도 있다. 예를 들어, 시냅스 지연은 오직 가중치 변화가 발생할 때 또는 가중치들이 제로에 도달하면 변할 수도 있지만, 가중치들이 최대값이면 변하지 않을 수도 있다. 하지만, 이들 프로세스들이 병렬화되어 메모리 액세스들의 수 및 중첩을 감소시킬 수 있도록 독립적인 기능들을 갖는 것이 유리할 수도 있다.

시냅스 가소성의 결정

신경가소성 (또는, 간단히 "가소성") 은 새로운 정보, 감각 자극, 발달, 손상, 또는 기능장애에 응답하여, 그 시냅스 접속들 및 거동을 변경하기 위한 뇌에서의 뉴런들 및 뉴럴 네트워크들의 용량이다. 가소성은 생물학에서의 학습 및 기억 뿐만 아니라 연산 신경과학 및 뉴럴 네트워크들에 중요하다. (예를 들어, Hebbian 이론에 따른) 시냅스 가소성, 스파이크 타이밍 의존 가소성 (STDP), 비-시냅스 가소성, 활동 의존 가소성, 구조적 가소성, 및 항상적 가소성과 같은 다양한 형태들의 가소성이 연구되었다.

STDP 는, 뉴런들 사이의 시냅스 접속들의 강도를 조정하는 학습 프로세스이다. 접속 강도들은 특정 뉴런의 출력 및 수신된 입력 스파이크들 (즉, 활동 전위들) 의 상대적인 타이밍에 기초하여 조정된다. STDP 프로세스 하에서, 특정 뉴런으로의 입력 스파이크가, 평균적으로, 그 뉴런의 출력 스파이크 직전에 발생하는 경향이 있으면, 장기 강화 (LTP) 가 발생할 수도 있다. 그 후, 그 특정 입력은 다소 더 강하게 이루어진다. 한편, 입력 스파이크가, 평균적으로, 출력 스파이크 직후에 발생하는 경향이 있으면, 장기 억압 (LTD) 이 발생할 수도 있다. 그 후, 그 특정 입력이 다소 더 약하게 이루어지며, 따라서, "스파이크 타이밍 의존 가소성" 으로 명명한다. 결과적으로, 시냅스후 뉴런의 흥분의 원인일 수도 있는 입력들은 장래에 기여할 가능성이 훨씬 더 많게 이루어지지만, 시냅스후 스파이크의 원인이 아닌 입력들은 장래에 기여할 가능성이 적게 이루어진다. 프로세스는, 접속들의 초기 세트의 서브세트가 유지되는 한편 모든 다른 것들의 영향이 미미한 레벨로 감소될 때까지 계속한다.

뉴런이 일반적으로, 그 입력들 중 다수가 짧은 기간 (즉, 출력을 야기하기에 충분히 누적적임) 내에 발생할 때 출력 스파이크를 생성하기 때문에, 통상적으로 남아 있는 입력들의 서브세트는 시간적으로 상관되려는 경향이 있는 입력들을 포함한다. 부가적으로, 출력 스파이크 전에 발생하는 입력들이 강화되기 때문에, 가장 이른 충분히 누적적인 상관의 표시를 제공하는 입력들이 결국 뉴런으로의 최종 입력이 될 것이다.

STDP 학습 규칙은 시냅스전 뉴런을 시냅스후 뉴런에 접속하는 시냅스의 시냅스 가중치를 시냅스전 뉴런의 스파이크 시간 (t_pre) 과 시냅스후 뉴런의 스파이크 시간 (t_post) 사이의 시간 차이 (즉, t=t_post-t_pre) 의 함수로서 효과적으로 적응시킬 수도 있다. STDP 의 통상적인 공식화 (formulation) 는, 시간 차이가 포지티브이면 (시냅스전 뉴런이 시냅스후 뉴런 이전에 발화하면) 시냅스 가중치를 증가시키고 (즉, 시냅스를 강화하고), 그리고 시간 차이가 네거티브이면 (시냅스후 뉴런이 시냅스전 뉴런 전에 발화하면) 시냅스 가중치를 감소시키는 (즉, 시냅스를 억압하는) 것이다.

STDP 프로세스에 있어서, 시간에 걸친 시냅스 가중치의 변화는 통상적으로, 다음으로 주어진 바와 같이, 지수적 감쇠를 이용하여 달성될 수도 있으며,

여기서, k₊ 및

는 각각 포지티브 및 네거티브 시간 차이에 대한 시상수들이고, α₊ 및 α_- 는 대응하는 스케일링 크기들이고, μ 는 포지티브 시간 차이 및/또는 네거티브 시간 차이에 적용될 수도 있는 오프셋이다.

도 3 은 STDP 에 따른 시냅스전 및 시냅스후 스파이크들의 상대적인 타이밍의 함수로서의 시냅스 가중치 변화의 예시적인 다이어그램 (300) 을 도시한다. 시냅스전 뉴런이 시냅스후 뉴런 이전에 발화하면, 대응하는 시냅스 가중치가, 그래프 (300) 의 부분 (302) 에 도시된 바와 같이, 증가될 수도 있다. 이 가중치 증가는 시냅스의 LTP 로서 지칭될 수 있다. LTP 의 양이 시냅스전 및 시냅스후 스파이크 시간들 사이의 차이의 함수로서 대략 지수적으로 감소할 수도 있다는 것이 그래프 부분 (302) 으로부터 관측될 수 있다. 발화의 역방향 순서는 시냅스 가중치를 감소시켜, 그래프 (300) 의 부분 (304) 에 도시된 바와 같이, 시냅스의 LTD 를 야기할 수도 있다.

도 3 에서의 그래프 (300) 에 도시된 바와 같이, 네거티브 오프셋 (μ) 은 STDP 그래프의 LTP (인과관계) 부분 (302) 에 적용될 수도 있다. x축 (y=0) 의 교차 포인트 (306) 는 계층 i-1 로부터의 인과관계 입력들에 대한 상관을 고려하기 위해 최대 시간 래그와 일치하도록 구성될 수도 있다. 프레임 기반 입력의 경우 (즉, 입력이 스파이크들 또는 펄스들을 포함하는 특정 지속기간의 프레임의 형태인 경우), 오프셋 값 (μ) 은 프레임 경계를 반영하도록 연산될 수 있다. 프레임에 있어서의 제 1 입력 스파이크 (펄스) 는 시냅스후 전위에 의해 직접적으로 모델링될 때와 같이 또는 뉴럴 상태에 대한 효과의 관점에서 시간에 걸쳐서 감쇠하는 것으로 고려될 수도 있다. 프레임에 있어서의 제 2 입력 스파이크 (펄스) 가 특정 시간 프레임과 상관되거나 관련되는 것으로 고려되면, 프레임 전후의 관련 시간들은, 그 관련 시간들에서의 값이 상이할 수 있도록 (예를 들어, 일 프레임보다 큰 것에 대해 네거티브 및 일 프레임보다 작은 것에 대해 포지티브) STDP 곡선의 하나 이상의 부분들을 오프셋함으로써, 그 시간 프레임 경계에서 분리될 수도 있으며, 가소성 항들에서 상이하게 취급될 수도 있다. 예를 들어, 네거티브 오프셋 (μ) 은, 곡선이 실제로 프레임 시간보다 큰 사전-사후 시간에서 제로 아래로 가며 따라서 LTP 대신 LTD 의 부분이도록, LTP 를 오프셋하도록 설정될 수도 있다.

뉴런 모델들 및 동작

유용한 스파이킹 뉴런 모델을 설계하기 위한 일부 일반적인 원리들이 존재한다. 양호한 뉴런 모델은 2개의 연산 레짐들: 즉, 일치 검출 및 함수적 연산의 관점에서, 풍부한 전위 거동을 가질 수도 있다. 더욱이, 양호한 뉴런 모델은 시간 코딩을 허용하기 위해 2개의 엘리먼트들을 가질 것이다: 입력들의 도달 시간은 출력 시간에 영향을 미치며 일치 검출은 좁은 시간 윈도우를 가질 수 있음. 마지막으로, 연산적으로 흥미를 끌기 위해서, 양호한 뉴런 모델은 연속적인 시간에 있어서 닫힌 형태의 솔루션 (closed-form solution) 을 가지며 가까운 어트랙터들 (attractors) 및 새들 (saddle) 포인트들을 포함한 안정적인 거동을 가질 수도 있다. 즉, 유용한 뉴런 모델은, 풍부하고 현실적이고 생물학적으로 일관된 거동들을 모델링하는데 사용될 뿐만 아니라 뉴럴 회로들을 설계하고 역설계하는데 모두 사용될 수 있으며 그리고 실용적인 모델이다.

뉴런 모델은 입력 도달, 출력 스파이크 또는 내부든 또는 외부든 다른 이벤트와 같은 이벤트들에 의존할 수도 있다. 풍부한 거동 레파토리를 획득하기 위해, 복잡한 거동들을 나타낼 수 있는 상태 머신이 소망될 수도 있다. 입력 기여 (있다면) 와는 별개인 이벤트 자체의 발생이 상태 머신에 영향을 미치거나 그 이벤트에 후속하는 역학을 구속할 수 있으면, 시스템의 장래 상태는 오직 상태 및 입력의 함수라기 보다는, 상태, 이벤트, 및 입력의 함수이다.

일 양태에서, 뉴런 (n) 은 다음의 역학에 의해 지배되는 멤브레인 전압 (ν_n(t)) 을 갖는 스파이킹 누설 적분 발화 (spiking leaky-integrate-and-fire) 뉴런으로서 모델링될 수도 있으며,

여기서, α 및 β 는 파라미터들이고, w_m,n 는 시냅스전 뉴런 (m) 을 시냅스후 뉴런 (n) 에 접속하는 시냅스에 대한 시냅스 가중치이고, y_m(t) 는 뉴런 (n) 의 세포체에서의 도달까지 △t_m,n 에 따른 수상 (dendritic) 또는 축삭 (axonal) 지연에 의해 지연될 수도 있는 뉴런 (m) 의 스파이킹 출력이다.

시냅스후 뉴런으로의 충분한 입력이 확립될 때의 시간으로부터 시냅스후 뉴런이 실제로 발화할 때의 시간까지 지연이 존재한다는 점에 유의해야 한다. Izhikevich 의 단순 모델과 같은 동적 스파이킹 뉴런 모델에 있어서, 시간 지연은, 탈분극 임계치 (ν_t) 와 피크 스파이크 전압 (ν_peak) 사이의 차이가 존재하면 초래될 수도 있다. 예를 들어, 단순 모델에 있어서, 뉴런 세포체 역학은, 다음과 같은, 전압 및 복구에 대한 미분 방정식들의 쌍에 의해 지배될 수 있으며, 즉,

여기서, ν 는 멤브레인 전위이고, u 는 멤브레인 복구 변수이고, k 는 멤브레인 전위 (ν) 의 시간 스케일을 기술하는 파라미터이고, α 는 복구 변수 (u) 의 시간 스케일을 기술하는 파라미터이고, b 는 멤브레인 전위 (ν) 의 임계치 아래의 (sub-threshold) 변동들에 대한 복구 변수 (u) 의 감도를 기술하는 파라미터이고, ν_r 은 멤브레인 휴지 전위이고, I 는 시냅스 전류이고, C 는 멤브레인의 커패시턴스이다. 이 모델에 따르면, 뉴런은 ν>ν_peak 일 때 스파이킹하도록 정의된다.

Hunzinger Cold 모델

Hunzinger Cold 뉴런 모델은 뉴럴 거동들의 풍부한 변종을 재현할 수 있는 최소 듀얼-레짐 스파이킹 선형 역학 모델이다. 그 모델의 1차원 또는 2차원 선형 역학은 2개의 레짐들을 가질 수 있으며, 여기서, 시상수 (및 커플링) 는 그 레짐에 의존할 수 있다. 임계치 아래의 레짐에 있어서, 관례에 의해 네거티브인 시상수는, 생물학적으로 일관된 선형 방식으로 셀을 휴지로 복귀시키기 위해 일반적으로 작용하는 누설 채널 역학을 나타낸다. 관례에 의해 포지티브인 임계치 이상의 (supra-threshold) 레짐에 있어서의 시상수는, 스파이크 발생에 있어서 레이턴시를 초래하면서 스파이킹하도록 셀을 일반적으로 구동하는 누설 방지 채널 역학을 반영한다.

도 4 에 도시된 바와 같이, 모델 (400) 의 역학은 2개의 (또는 그 이상의) 레짐들로 분할될 수도 있다. 이들 레짐들은 네거티브 레짐 (402) (누설 적분 발화 (LIF) 뉴런 모델과 혼동되지 않도록, 누설 적분 발화 (LIF) 레짐으로서 상호대체가능하게 또한 지칭됨) 및 포지티브 레짐 (404) (누설 방지 적분 발화 (ALIF) 뉴런 모델과 혼동되지 않도록, 누설 방지 적분 발화 (ALIF) 레짐으로서 상호대체가능하게 또한 지칭됨) 으로 칭해 질 수도 있다. 네거티브 레짐 (402) 에 있어서, 그 상태는 장래 이벤트 시에 휴지 (ν_-) 로 향하는 경향이 있다. 이 네거티브 레짐에 있어서, 모델은 일반적으로, 시간 입력 검출 특성들 및 다른 임계치 아래의 거동을 나타낸다. 포지티브 레짐 (404) 에 있어서, 그 상태는 스파이킹 이벤트 (ν_S) 로 향하는 경향이 있다. 이 포지티브 레짐에 있어서, 모델은 후속 입력 이벤트들에 의존하여 스파이킹하기 위해 레이턴시를 초래하는 것과 같은, 연산 특성들을 나타낸다. 이벤트들의 관점에서의 역학의 공식화 및 이들 2개의 레짐들로의 역학의 분리는 모델의 기본 특성들이다.

(상태들 (ν 및 u) 에 대해) 선형 듀얼-레짐 2차원 역학은 다음과 같이 관례에 의해 정의될 수도 있으며,

여기서, q_ρ 및 r 은 커플링을 위한 선형 변환 변수들이다.

심볼 (ρ) 은, 특정 레짐에 대한 관계를 논의하거나 표현할 때, 네거티브 및 포지티브 레짐들에 대해 심볼 (ρ) 을 부호 "-" 또는 "+" 로 각각 대체하는 관례를 갖는 역학 레짐을 표기하기 위해 본 명세서에서 사용된다.

모델 상태는 멤브레인 전위 (전압) (ν) 및 복구 전류 (u) 에 의해 정의된다. 기본 형태에 있어서, 레짐은 본질적으로 모델 상태에 의해 결정된다. 정확하고 일반적인 정의의 미묘하지만 중요한 양태들이 존재하지만, 지금은, 전압 (ν) 이 임계치 (ν₊) 보다 크면 모델이 포지티브 레짐 (404) 에 있는 것으로, 그렇지 않으면 네거티브 레짐 (402) 에 있는 것으로 간주한다.

레짐 의존적인 시상수들은 네거티브 레짐 시상수인 τ_-, 및 포지티브 레짐 시상수인 τ₊ 을 포함한다. 복구 전류 시상수 (τ_u) 는 통상적으로 레짐과 무관하다. 편의를 위해, 네거티브 레짐 시상수 (τ_-) 는 통상적으로, 감쇠를 반영하기 위해 네거티브 양으로서 명시되어, τ_u 인 바와 같은, 전압 발전 (voltage evolution) 을 위한 동일한 표현이 지수 및 τ₊ 가 일반적으로 포지티브일 포지티브 레짐에 대해 사용될 수도 있다.

2개의 상태 엘리먼트들의 역학은, 이벤트들에서 그 널-클라인(null-cline)들로부터 그 상태들을 오프셋하는 변환들에 의해 커플링될 수도 있으며, 여기서, 변환 변수들은,

이며, 여기서, δ, ε, β 및 ν_-, ν₊ 는 파라미터들이다. ν_ρ 에 대한 2개의 값들은 2개의 레짐들에 대한 참조 전압들을 위한 베이스이다. 파라미터 (ν_-) 는 네거티브 레짐에 대한 베이스 전압이고, 멤브레인 전위는 일반적으로 네거티브 레짐에서 ν_- 를 향해 감쇠할 것이다. 파라미터 (ν₊) 는 포지티브 레짐에 대한 베이스 전압이고, 멤브레인 전위는 일반적으로 포지티브 레짐에서 ν₊ 로부터 이격되는 경향이 있을 것이다.

ν 및 u 에 대한 널-클라인들은 변환 변수들 (q_ρ 및 r) 의 네거티브에 의해 각각 주어진다. 파라미터 (δ) 는 u 널-클라인의 기울기를 제어하는 스케일 팩터이다. 파라미터 (ε) 는 통상적으로 -ν_- 와 동일하게 설정된다. 파라미터 (β) 는 레짐들 양자 모두에서 ν 널-클라인들의 기울기를 제어하는 저항값이다. τ_ρ 시상수 파라미터들은 지수적 감쇠들 뿐만 아니라 널-클라인 기울기들을 각각의 레짐에서 별개로 제어한다.

모델은 전압 (ν) 이 값 ν_S 에 도달할 때 스파이킹하도록 정의될 수도 있다. 후속적으로, 그 상태는 (하나이고 스파이크 이벤트와 동일할 수도 있는) 리셋 이벤트로 리셋될 수도 있으며:

이며, 여기서,

및 △u 는 파라미터들이다. 리셋 전압 (

) 은 통상적으로 ν_- 로 설정된다.

순간적인 커플링의 원리에 의해, 닫힌 형태의 솔루션은 상태 (및 단일 지수 항을 갖는 상태) 에 대해서 뿐만 아니라 특정 상태에 도달하기 위한 시간에 대해서 가능하다. 닫힌 형태의 상태 솔루션들은 다음과 같다.

따라서, 모델 상태는 오직 입력 (시냅스전 스파이크) 또는 출력 (시냅스후 스파이크) 과 같은 이벤트들 시에만 업데이트될 수도 있다. 동작들은 또한 (입력이든 또는 출력이든) 임의의 특정 시간에 수행될 수도 있다.

더욱이, 순간적인 커플링 원리에 의해, 시냅스후 스파이크의 시간은 예상될 수도 있어서, 특정 상태에 도달하기 위한 시간이 반복 기법들 또는 수치 방법들 (예를 들어, Euler 수치 방법) 없이 미리 결정될 수도 있다. 이전 전압 상태 (ν₀) 가 주어지면, 전압 상태 (ν_f) 가 도달되기까지의 시간 지연은 다음과 같이 주어진다.

전압 상태 (ν) 가 ν_S 에 도달하는 시간에서 발생하는 것으로 스파이크가 정의되면, 전압이 주어진 상태 (ν) 에 있는 시간으로부터 측정될 때 스파이크가 발생할 때까지, 시간의 양 또는 상대적인 지연에 대한 닫힌 형태의 솔루션은 다음과 같으며,

여기서,

는 통상적으로, 파라미터 (ν₊) 로 설정되지만, 다른 변경들이 가능할 수도 있다.

모델 역학의 상기 정의들은 모델이 포지티브 레짐에 있는지 또는 네거티브 레짐에 있는지에 의존한다. 언급된 바와 같이, 커플링 및 레짐 (ρ) 은 이벤트들 시에 연산될 수도 있다. 상태 전파의 목적들을 위해, 레짐 및 커플링 (변환) 변수들은 최종 (사전) 이벤트 시의 상태에 기초하여 정의될 수도 있다. 스파이크 출력 시간을 후속적으로 예상하려는 목적을 위해, 레짐 및 커플링 변수는 다음 (현재) 이벤트 시의 상태에 기초하여 정의될 수도 있다.

Cold 모델의 수개의 가능한 구현예들이 존재하며, 시뮬레이션, 에뮬레이션 또는 모델을 시간적으로 실행하고 있다. 이는, 예를 들어, 이벤트-업데이트, 스텝-이벤트 업데이트, 및 스텝-업데이트 모드들을 포함한다. 이벤트 업데이트는, 상태들이 (특정 순간에서) 이벤트들 또는 "이벤트 업데이트" 에 기초하여 업데이팅되는 업데이트이다. 스텝 업데이트는 모델이 간격들 (예컨대, 1ms) 로 업데이팅될 경우의 업데이트이다. 이는 반복 방법들 또는 수치적 방법들을 반드시 활용하지는 않는다. 이벤트 기반 구현은 또한, 오직 스텝들에서 또는 스텝들 사이에서, 또는 "스텝-이벤트" 업데이트에 의해 이벤트가 발생할 경우에만 모델을 업데이팅함으로써, 스텝 기반 시뮬레이터에 있어서, 제한된 시간 해상도에서 가능하다.

뉴럴 네트워크로의 입력들은 다양한 소스들로부터 나올 수도 있다. 예를 들어, 입력들은, 특정 시간 기간 동안 발생하는 이벤트들일 수도 있다. 추가로, 입력들은 정의된 공간에서의 3차원 (3-D) 오브젝트의 2차원 (2-D) 표현들일 수도 있다. 출력 이벤트들 또는 스파이크들이 또한 특정 시간 기간 동안의 이벤트들일 수도 있다. 예를 들어, 상기의 2-D/3-D 예에 있어서, 출력 이벤트들은 정의된 공간에서의 3-D 오브젝트의 제 3 좌표일 수도 있다. 어드레스 이벤트 표현 카메라와 같은 센서는 입력 이벤트들을 공급할 수도 있다.

COLD 뉴런 스파이크 타이밍 역 전파

본 개시의 일 양태는 역 전파를 이용하여 다층 스파이킹 뉴럴 네트워크를 트레이닝하는 것에 관련된다. 부가적으로, 특정 휴리스틱들은, 그래디언트가 미정 (undefined) 인 경우들 (예를 들어, 뉴런들이 발화하고 있지 않거나 너무 약하게 발화하고 있는 경우들) 을 다루도록 정의된다. 이에 따라, 기술된 휴리스틱들과 함께 역 전파를 이용하는 것은 그래디언트가 미정인 영역들을 포함하는 뉴럴 네트워크에서 가중치 변화들을 연산하는 것을 허용하고, 따라서, 뉴럴 네트워크를 트레이닝함에 있어서의 향상들을 제공한다.

본 개시의 일 양태에 있어서, 다층 스파이킹 뉴럴 네트워크는 분류 및 회귀 태스크들을 수행하기 위해 역 전파를 갖는 1-D 연산적으로 효율적인 선형 2차원 (COLD) 뉴런들을 이용한다. LIF 모델, ALIF 모델, 지수적 적분 및 발화 모델, Hodgkin-Huxley 모델, FitzHugh-Nagumo 모델, Morris-Lecar 모델, Hindmarsh-Rose 모델, 및/또는 다른 스파이킹 또는 비-스파이킹 뉴런 모델들과 같은 다른 뉴런 모델이 본 개시와 함께 사용될 수도 있다. 이들 모델들의 집합은 본 명세서에서 "맵 기반" 모델들로서 지칭될 수도 있다. 예를 들어, 맵 기반 업데이트는 차분 방정식, 미분 방정식, 룩업 테이블, 상태 머신 업데이트, 또는 다른 접근법들에 기초할 수도 있다.

역 전파가 스파이킹 뉴럴 네트워크들에서 사용될 경우, 미정이거나 또는 제로일 수도 있는 에러 그래디언트들의 영역들이 존재한다. 다수의 모델들은 이들 에러들 때문에 역 전파 기법들을 회피한다. 본 개시는 에러 그래디언트들의 역 전파의 극소치 (local minimum) 에 점근적으로 접근하기 위한 접근법들을 제공한다.

본 개시의 일 양태에 있어서, 다층 그래디언트 역 전파가 1차원 COLD (모델) 뉴런들과 함께 사용된다. COLD 뉴런 모델의 특정 부분들에 대해, 그래디언트들이 잘 정의되지 않은 휴리스틱들은 역 전파 접근법에 통합된다. 이들 휴리스틱들은 뉴런들이 임의의 트레이닝 케이스들에 대해 발화하고 있지 않거나 너무 약하게 발화하고 있을 경우, 멤브레인 전압 전위가 너무 강하여 에러 그래디언트를 제로로 만드는 경우, 및 COLD 모델에 존재할 수도 있는 에러 그래디언트들의 더 넓은 범위를 설명하는 경우를 포함한다. COLD 모델이 LIF 영역과 ALIF 영역 간에 불연속을 갖기 때문에, 본 개시는 또한 이러한 그래디언트 불연속을 해결하기 위한 방법들을 제공한다.

도 4b 는 본 개시의 일 양태에 따른 스파이크 타이밍 다이어그램을 도시한다. 타이밍 다이어그램 (406) 은 뉴런들의 제 1 계층 (408) 및 제 2 계층 (410) 을 도시한다. 제 1 계층 (408) 은 제 2 계층 (410) 으로의 입력으로서 작용한다. 제 1 계층 (408) 에서의 뉴런들 (412-420) 이 발화함에 따라, 제 2 계층 (410) 에서의 뉴런 (422) 은 뉴런들 (412-420) 로부터 수신된 입력들에 기초하여 발화한다. 제 1 계층 (408) 및 제 2 계층 (410) 은 뉴럴 네트워크에서의 오직 2개의 계층들일 수도 있거나, 또는 뉴럴 네트워크에서의 임의의 2개의 다른 연속적인 계층들일 수도 있다. 이에 따라, 제 2 계층 (410) 을 참조하는 논의는 또한 제 1 계층 (408) 에 적용할 수도 있고, 그 역도 성립한다. 더욱이, 제 1 계층 (408) 및 제 2 계층 (410) 양자는 본 개시의 뉴럴 네트워크에서의 은닉 계층들일 수도 있다.

뉴럴 네트워크가 인과관계 (causal) 일 수도 있기 때문에 (즉, 제 2 계층 (410) 에서의 출력들이 오직 제 1 계층 (408) 으로부터의 이전 입력들에만 의존할 수 있는 시간 의존적 방식으로 뉴럴 네트워크가 작동), 뉴런 (422) 의 출력은 오직 뉴런들 (412, 414, 및 416) 로부터 수신된 입력들에만 의존할 수 있다.

추가로, 시간 t = τ 에서, 뉴런 (422) 의 출력은 원하는 출력 시간에 있지 않을 수도 있다. 원하는 출력 시간이 시간 t =

(

는 (타깃 출력 시간으로서 지칭될 수도 있는) 원하는 출력 시간 (424) 으로서 도시됨) 에 있으면, 뉴런 (422) 의 출력은 원하는 출력 시간 (424) 을 향해 시간적으로 이동한다. 이러한 지연은, 뉴런들 (412-416) 로부터의 입력들이 수신되는 시냅스들에 할당된 가중치들을 증가시킴으로써 또는 뉴런들 (412-416) 로부터의 입력들을 시간적으로 시프트시킴으로써 구현될 수 있다. 이러한 시간적인 시프트 및/또는 가중화는 화살표들 (426-430) 에 의해 표시된다. 이러한 뉴런들 (412-416) 의 입력들의 움직임 및/또는 뉴런들 (412-416) 의 입력들과 연관된 가중치들의 변경은 결과 (432) 로서 도시되고, 이 결과 (432) 는 화살표 (434) 에 의해 표시된 바와 같이 뉴런 (422) 의 출력을 이동시킨다.

뉴런 (422) 의 출력이 원하는 출력 시간 (424) 을 향해 이동함에 따라, 뉴런들 (418 및/또는 420) 로부터의 부가적인 입력들은 뉴런 (422) 의 출력에 반영될 수도 있다. 추가로, 뉴런 (422) 의 출력이 원하는 출력 시간 (424) 을 향해 시간적으로 이동함에 따라, 뉴런 (422) 의 출력의 움직임은 선형적이 아닐 수도 있거나, 원하는 출력 시간 (424) 뒤로 이동할 수도 있거나, 또는 뉴런들 (412-420) 의 출력들의 가중치들 및/또는 시간들이 변경될 때 특정 포지션에서 미정일 수도 있다. 본 개시는 뉴런 (422) 의 출력의 원하는 출력 시간 (424) 을 향한 움직임을 제어하기 위한 방법들을 제공한다.

본 개시의 제 1 양태는, 전혀 발화하고 있지 않거나 너무 약하게 발화하고 있을 경우 뉴런 (422) 의 출력을 수정하기 위한 방법을 제공한다. 그러한 양태에 있어서, 뉴런들 (412-416) 의 출력들과 연관된 가중치들은 상수값, 가변값, 또는 랜덤 값에 의해 변경될 수도 있으며, 뉴런 응답의 출력이 관측된다. 그 후, 가중치들은 뉴런 (422) 의 출력의 타이밍에서의 변경량에 기초하여 조정된다. 타이밍 다이어그램 (406) 으로부터, 뉴런들 (412-416) 의 출력들의 가중치들은 뉴런 (422) 의 출력을 이동시키기 위해 증가되거나 감소될 수도 있다. 추가로, 제 1 계층 (408) 이 뉴럴 네트워크에서의 다른 계층으로부터의 입력들을 수신하고 있을 수도 있기 때문에, 뉴런들 (412-416) 의 출력들은 또한 시간적으로 이동되어 뉴런 (422) 의 출력의 출력 시간에 영향을 줄 수도 있다.

뉴런들 (412-416) 의 출력들의 가중치들 및/또는 시간들을 변경하는 것이 뉴런 (422) 의 출력의 시간에 영향을 주지 않는 일 또한 존재할 것이다. 이는, 에러 그래디언트를 제로로 만드는 멤브레인 전압 전위가 너무 강하다는 징후이다. 본 개시의 일 양태에 있어서, 뉴런들 (412-416) 의 출력들의 가중치들은 고정 상수, 가변 상수, 또는 랜덤 상수일 수도 있는 상수에 의해 변경될 수도 있으며, 뉴런 (422) 의 출력의 타이밍에서의 변경이 관측되었다. 뉴런들 (412-416) 의 출력들은, 뉴런들 (412-416) 로부터의 입력들에 대한 뉴런 (422) 의 출력의 감도를 증가시키도록 감소될 수도 있다.

본 개시의 다른 양태에 있어서, 피크 전압으로부터의 멤브레인 전압 거리가 결정될 수도 있고, 뉴런들 (412-416) 의 출력들의 가중치들을 변경하기 위해 사용된 상수가 결정될 수도 있다. 뉴런들 (412-416) 의 출력들의 가중치들은 뉴런들 (412-416) 의 출력들과 뉴런 (422) 의 출력 간의 발화 시간들에서의 거리의 함수로서 변경될 수도 있다. 본 개시의 다른 양태에 있어서, 장벽 페널티 함수로서 지칭될 수도 있는 상수가 뉴런들 (412-416) 의 출력들에 할당된 가중치들에 대한 그래디언트 연산에 부가될 수도 있다.

뉴럴 네트워크는 또한, 다른 것과 비교하여, 하나의 맵 기반 모델에 대한 그래디언트들의 더 넓은 범위를 고려할 수도 있다. 예를 들어, COLD 모델은 인공 뉴럴 네트워크 (ANN) 네트워크들과 비교하여, 에러 그래디언트들의 더 넓은 범위를 가질 수도 있다. 더 넓은 에러 그래디언트들에 있어서, 에러 그래디언트의 작은 변경은 뉴런 (422) 의 출력의 타이밍을 상당히 이동시키지 않을 수도 있거나 또는 뉴런 (422) 의 출력의 타이밍을 너무 많이 이동시킬 수도 있다. 이에 따라, 그러한 모델의 학습 레이트는 매우 느리거나 극소치를 갖지 않을 수도 있다. 본 개시는 또한, 뉴럴 네트워크의 모델에 대한 합리적인 학습 레이트들을 유지하면서 그래디언트들의 더 넓은 범위를 통합하기 위한 방법들을 제공한다.

에러 그래디언트들이 임계값 (예를 들어, 0.5) 을 초과하면, 에러 그래디언트 가중치들의 일정한 변경은 원하는 출력 시간 (424) 에 점진적으로 접근하지 않을 수도 있다. 그래디언트 에러 값들이 임계치를 초과할 경우 그래디언트들의 정규화는 원하는 출력 시간 (424) 으로의 더 평활한 접근을 제공할 것이다. 추가로, 임계치보다 큰 특정 출력들에 대한 가중치들을 포화시키는 것 (최대화하는 것) 은 또한 뉴런 (422) 의 출력을 원하는 출력 시간 (424) 으로 향하여 더 신속히 이동시킬 수도 있다.

COLD 모델이 누설 적분 및 발화/누설방지 적분 및 발화 (LIF/ALIF) 모델들의 특징들을 통합하기 때문에, 본 개시는 이들 모델들 간의 경계에서의 불연속/미정의 그래디언트들을 핸들링하기 위한 방법들을 제공한다. 본 개시는, 예를 들어, 불연속이 존재하지 않거나 존재하지 않았었던 것처럼 에러 그래디언트들을 연산할 수도 있다. 추가로, 본 개시는 불연속 근처에서 평활하게 변하는 근사치를 사용하고/하거나 연산된 그래디언트가 에러 검출에 기초하는 조건부 그래디언트를 사용할 수도 있다.

역 전파에서의 COLD 모델에 대한 휴리스틱들

Cold 그래디언트는 0 의 값들 및 v+ 에서의 임계 포인트들 (즉, 뉴런 역학들이 COLD 모델에서 변하는 임계치) 을 갖는 큰 영역들을 갖는다. COLD 모델의 LIF/ALIF 부분들 사이의 이들 영역들은 그래디언트가 미정/무한인 곳 (예를 들어, 뉴런 역학들이 뉴런들이 발화하는 것을 방지하거나, 또는 임계값 근처에서 또는 잘못된 시간에서 발화하고 있는 뉴런 ("약하게" 발화하는 뉴런) 을 생성하는 곳) 이다. 이들 전위 그래디언트들은 역 전파로 하여금 적당한 가중치들을 결정하기 위한 유용한 접근법들을 제공하는 것을 불가능하게 되도록 할 수도 있거나, 또는 역 전파가 그래디언트 에러를 점진적으로 감소시키는 것을 방지할 수도 있다.

이에 따라, 본 개시의 일 양태에 따른 휴리스틱들과 함께 역 전파를 이용하는 것은 뉴럴 네트워크에서의 가중치 변경들을 연산하는 것을 허용한다. 가중치 (시냅스 가중화) 는, 그래디언트가 미정인 영역들을 포함할 수도 있고, 따라서 뉴럴 네트워크를 트레이닝함에 있어서 향상들을 제공한다. 본 개시는 또한, 분류 및 회귀 태스크들을 수행하기 위해 역 전파를 갖는 1차원 (1-D) 연산적으로 효율적인 선형 2차원 (COLD) 뉴런들을 이용하여 다층 스파이킹 뉴럴 네트워크를 트레이닝하는 것을 제공한다. 본 개시는 또한, 그래디언트들이 미정이거나 또는 제로이고, 뉴런 역학들이 불연속들을 갖고/갖거나 멤브레인 전압들이 너무 강한 스파이킹 뉴럴 네트워크들에서 역 전파를 구동하기 위한 솔루션들을 제공한다.

COLD 모델 역 전파는, 그래디언트가 제로가 아니거나 정의될 경우에 "그래디언트 하강 (gradient descent)" 을 사용할 수도 있다. 본 개시의 역 전파에 영향을 줄 수도 있는 이벤트들을 기술하는 수개의 휴리스틱들이 존재한다. 그러한 미정의/제로의 그래디언트들에 대한 휴리스틱들은 임의의 순서로 프로세싱될 수도 있다. 본 개시의 일 양태에 있어서, 휴리스틱들은 본 명세서에서 제시된 바와 같이 특정 순서로 프로세싱될 수도 있다.

처음에, 멤브레인 전압 전위 (시냅스 가중치) 는 너무 약할 수도 있다. 어떠한 입력 뉴런들도 스파이킹하고 있지 않으면, 출력 뉴런이 스파이킹하는 것은 가능하지 않다. 그러한 경우, 입력 뉴런 그래디언트는, 무엇에 기초하여 그 가중치 변경들을 가중할 지에 관한 정보가 없을 경우에 계층에 대한 가중치 변경들을 실시하는 것을 회피하기 위해 제로로 설정된다. 하위 계층 가중치 변경들은, 결국 입력 뉴런들이 그들 계층들에 규칙들을 적용하는 것에 기초하여 발화하기 시작하도록 결정될 수도 있다. 그에 따라, 초기 뉴런 그래디언트는 다음과 같이 설정된다:

다음으로, 출력 뉴런이 스파이킹하지 않으면, 이는 "약하게 스파이킹하는" 경우로 지칭되며, 입력 뉴런 그래디언트는 다음과 같이 디폴트, 또는 랜덤량으로 설정될 수도 있다:

출력 뉴런이 전혀 스파이킹하지 않으면, 그래디언트들은 비존재일 수도 있으며, 모든 가중치들은 소량만큼 증가되어야 한다. 가중치들은 v_plus - max_nv_np 에 비례한 양만큼 증가될 수도 있는데, 왜냐하면 이는 멤브레인 전압이 그래디언트들을 다시 활성화하기 위해 증가될 수도 있는 양이기 때문이다.

본 개시의 일 양태에 있어서, 디폴트 또는 랜덤 그래디언트 값은 오직 입력들을 갖는 그 시냅스들에 대해서만 설정될 수도 있거나, 또는 요구된다면 모든 시냅스들에 대해 설정될 수도 있다.

다음으로, 은닉 뉴런은 t_p 및

(각각, 타깃 출력 스파이크 시간 및 최대 타깃 출력 스파이크 시간) 보다 더 나중 시간에 스파이킹할 수도 있으며, 이는 또한 "약하게 발화하는" 뉴런 조건으로 간주된다. 그러한 경우들에 있어서, 은닉 뉴런 그래디언트들 및/또는 입력 뉴런 그래디언트들은 또한 디폴트 또는 랜덤 값으로 설정될 수도 있다.

다음으로, 멤브레인 전위가 너무 강한 조건들이 고려된다. 그러한 조건들에 대해, 발화하는 뉴런들의 시냅스 가중치들은 고정 상수 또는 가변 상수만큼 감소될 수도 있다. 가변 상수는 수개의 방식들로 결정될 수도 있다. 일 양태에 있어서, 가변 상수는 피크 전압에 대한 멤브레인 전압 간의 거리에 의해 결정될 수도 있다. 다른 양태에 있어서, 가변 상수는 발화하는 시간들 간의 거리의 함수로서 결정될 수도 있다.

시냅스 가중치들에 관련된 다른 조건들은, 도달 스파이크들의 타이밍 및 특정 뉴런의 스파이킹 때문에 발생한다. 뉴런이 입력 스파이크 시간에 스파이킹하면, 출력 뉴런이 출력 뉴런으로부터의 스파이크와 관련하여 입력 뉴런의 가중치를 적절하게 부여하는 것이 가능하지 않다. 그러한 조건은 시냅스 가중치의 "너무 강함" 으로 간주되고, 다음과 같이 재정의될 수도 있다:

여기서, V_Np 는 뉴런이 스파이킹할 때의 멤브레인 전위이고, v_peak 는 스파이크를 발생하기 위한 멤브레인 전위이고, △_default 는 그래디언트 연산 및 다른 그래디언트 연산들에 상대적인 가중화를 제공하기 위해 선택된 파라미터이고, t_p 는 뉴런이 스파이킹하였을 때의 시간이고, t_hi 는 i번째 입력의 시간 입력 스파이크 시간이며, τ₊ 는 콜드 뉴런 파라미터이다.

마지막 스파이크가 출력 뉴런을 먼저 발화하게 하면 (

이어서 t_p =

임), 그래디언트들은 비존재이다. 이 경우, 시냅스 가중치들 각각은 소량만큼 감소될 수도 있다. 가중치들은

에 비례한 양만큼 감소될 수도 있는데, 왜냐하면 이는 최종 멤브레인 전압이 그래디언트들을 다시 활성하게 하기 위해 감소될 수도 있는 양이기 때문이다.

문제들을 야기하는 1차 휴리스틱은 출력의 너무 강함일 수도 있으며, 이는 제로 그래디언트 및 모든 가중치들을 감소시키는 휴리스틱을 발생시킨다. 장벽 정규화 함수가 부가되어, 그래디언트가 출력의 너무 강함에 대해 정의될 것이고 그 그래디언트는 역 전파되고 오버슈트에 비례할 수 있다.

그에 따라, 입력들을 갖는 시냅스들 각각에 대한 가중치들은 각각의 시냅스/입력 뉴런에 대한 가중치를 적절히 결정하기 위해 각각 평가된다.

스파이크가 도달할 때 LIF/ALIF 역학 임계 전압 (v+) 근처의 멤브레인 전압을 뉴런이 가질 경우, 본 개시는 역학에서의 이러한 불연속을 무시하는 에러 그래디언트를 연산할 수도 있다. 다른 양태에 있어서, 장벽 페널티 함수가 LIF/ALIF 임계 전압 근처에서의 그래디언트 연산에 부가될 수도 있다.

본 개시의 그러한 양태에 있어서, 일단 이들 휴리스틱들이 뉴럴 네트워크에 대해 평가되고 소진되었으면, 그래디언트가 각각의 시냅스에 대해 존재하고 미정의/무한의 그래디언트 조건들이 COLD 모델의 관점에서 정의되었다. 이에 따라, 본 개시는 평균 제곱 에러의 감소를 수정하고, 출력 스파이크에 대한 원인들에 관한 일부 초기 접근법들 (예를 들어, 가정들) 을 제공한다.

본 개시는 또한, 그래디언트들을 정규화하고 그 후 그 그래디언트들을 원하는 출력 솔루션을 향하는 소정의 방향으로 적용할 수도 있다. 하지만, 이는 뉴럴 네트워크에 대한 학습 레이트를 감소시키지 않고, 그래디언트들이 더 작게 됨에 따라 극소치로의 수렴을 어렵게 할 수도 있다. 그 후, 더 작은 그래디언트들은 점점더 작은 정규화들을 수신하고, 이는 학습 시간을 증가시킬 것이다.

이러한 문제를 극복하기 위해, 본 개시는 임계치보다 큰 그래디언트들을 정규화하거나 큰 크기들 또는 엘리먼트들을 가질 수도 있거나, 또는 큰 방향들에서 그래디언트 가중치 업데이트들을 제한하여 정규화로의 점근적 문제를 감소시키거나 심지어 최소화시킬 수도 있다.

추가로, 본 개시는 또한, 시그모이드 함수를 사용하여 LIF 영역으로부터 ALIF 영역으로의 평활한 천이를 제공한다.

1-D COLD 모델에서의 역 전파에 대한 수학

I-D COLD 모델은 다음의 형태를 따른다:

오직 델타 입력 전류들만이 존재하면, 즉:

닫힌 형태의 이벤트 솔루션은 다음과 같다:

여기서, v_j ₊₁ 은 가중치 w_j ₊₁ 를 갖는 j+1 스파이크 도달 이후의 전압이다.

기대 에러 함수 E = (t_p -

)² (여기서, t_p 는 실제 출력 스파이크 시간이고

는 타깃 출력 스파이크 시간임) 를 최소화하기 위해, 가중치들 (w_ij) 은 최적화될 수도 있다. 그래디언트 하강 (△w_ij =

) 에 대한 그래디언트들은, 다음과 같이, ALIF 역학들이 출력 뉴런들로 하여금 먼저 스파이킹하게 할 경우에 연산될 수도 있다:

여기서,

이고

이다.

은닉 계층들에 대해,

이며, 여기서,

이고

이다.

이는 에러 함수 형태:

을 수학식 (28) 로 교정하는 것을 이끌었다:

여기서, v₀(t_p) 는 스파이크 시간 t_p 에서의 출력 뉴런 멤브레인 전압이고, 그래서 (v₀(t_p) - v_peak)² 는 스파이킹 임계치 (v_peak) 를 얼마나 많이 초과하는지의 제곱이다. 시간 t_N 에서의 마지막 도달 입력 스파이크가 v_peak 아래의 출력 뉴런 멤브레인 전압을 발생하였고 따라서 ALIF 역학들이 스파이크를 야기하였으면, v₀(t_p) = v_peak 이고 에러 항은 제로이다. 그렇지 않고 마지막 스파이크가 임계치를 초과하도록 야기되면 (이는, 원래의 에러 함수 하에서, 작은 가중치 변경들이 일반적으로 스파이크 시간에 영향을 주지 않을 것이기 때문에 제로의 에러 그래디언트를 발생시킬 것임), 장벽이 양 (

) 만큼 에러에 부가될 것이다.

유사하게, 은닉 뉴런들로의 입력에 대한 그래디언트들은 장벽없이 제로일 것이어서,

항은 은닉 뉴런들이 너무 강한 출력들을 갖지 않도록 격려하기 위한 장벽 페널티이다.

장벽 정규화 항들로 에러 함수를 재정의함으로써, 역 전파 알고리즘이 재도출될 수도 있고, 너무 강한 휴리스틱은 이제 역 전파의 부분이다.

역 전파는 다음과 같이 연산된다. 출력 계층에 대해, 제 1 항 ((t_p -

)²) 의 그래디언트는 수학식 (28) 에서와 동일하고, 은닉 노드 스파이크 시간들에 기초하는 제 3 항 (

) 은 출력 가중치들 (w_np) 에 대한 은닉의 함수가 아니며, 따라서 그 그래디언트는 제로이다. 그것은 다음과 같이 연산된 중간항을 남긴다:

만약 t_p ≠ t_N (마지막 스파이크 시간) 이면, v₀(t_p) = v_peak 이고

이다.

그렇지 않으면,

이며, 이는 다음과 같은 체인 규칙을 이용하여 수학식 (23) 에서 연산되었다:

그래서,

을 정의한다.

그리고, 수학식 (28) 의 표기에서, δ_p = (t_p -

) 이고,

이며, 출력 계층 장벽 에러 그래디언트는:

이다.

은닉 계층들에 대해, 에러 그래디언트 (

) 는 3개 부분들, 즉, 첫번째 2개 항들로부터의 역 전파된 에러 및 세번째 항으로부터의 에러 (

) 를 가질 것이다. 세번째 항으로부터의 에러는 출력 계층에 대한 것과 동일한 방식으로 연산된 z_mn 일 것이다. 첫번째 항의 역 전파는 수학식 (23) 에서와 동일하다. 두번째 항의 역 전파는 다음과 같이 연산된다:

수학식 (28) 로부터와 동일한 기법 및 정의를 사용하여:

이다.

그 후, 장벽을 갖는 출력 계층 역 전파 그래디언트들은 다음에 의해 주어지며:

여기서,

이고

이고

이다.

장벽을 갖는 은닉 계층 그래디언트들은

이고, 여기서,

이고

이다.

본 개시는 평균 제곱 에러:

를 감소시키거나 심지어 최소화할 것을 추구하며, 여기서, t_pi 는 입력 시퀀스 (i) 이후의 제 1 출력 스파이크 시간이고

는 시퀀스 (i) 의 클래스 레벨에 기초한 원하는 스파이크 시간이다.

본 개시는, 가중치들 (w_ij) 을 개선시키거나 또는 가능하다면 최적화함으로써 기대 에러 함수 E = (t_p -

)² (여기서, t_p 는 실제 출력 스파이크 시간이고

는 타깃 출력 스파이크 시간임) 를 최소화할 것을 추구한다. 이러한 도출을 위해,

는 마지막 입력 스파이크 시간보다 더 크다. 이것은 필요가 없을 수도 있지만, 인입 스파이크로부터의 그래디언트 불연속을 제거하여 출력 스파이크 시간을 야기한다.

출력 계층

그래디언트 하강:

을 수행하기 위해, 역 전파 그래디언트들은, 요구된다면, ALIF 영역 "드리프트" 가 출력 스파이크들을 야기함을 정의할 수도 있다. "드리프트" 는 ALIF 뉴런 역학들이 스파이크 도달보다는 뉴런이 스파이킹하게 함을 의미한다, 즉, V_Np = v_peak 이다.

그래디언트 하강 (

) 에 대해, 출력 계층은 다음과 같이 은닉 노드 (n) 로부터 출력 노드 (p) 로의 가중치에 관한 에러 함수의 편미분인

를 결정함으로써 연산된다:

여기서,

이다.

다른 역 전파 접근법들에서와 같이 y_np 항은 순방향 패스로 연산될 수도 있고, δ_p 항은 역방향 패스로 연산될 수도 있다.

출력 계층 (δ_p) 은 다음과 같이 연산된다:

유사한 접근법 이후, y_np 항은, 다음과 같이, 스파이크 도달 시간들에 걸친 체인 규칙을 이용하여 연산된다:

여기서,

는 시간 t_p 에서의 출력 뉴런 스파이크들 이전 마지막 스파이크 도달 직후의 멤브레인 전위이다.

콜드 LIF/ALIF 역학들이 주어지면, 뉴런은, 뉴런이 추가적인 스파이크 도달들없이 스파이킹하기 때문에

에 대한 ALIF 레짐에 있어야 한다. 그래서 t_p 는 ρ = +, v_j =

, v_j ₊₁ = V_peak, t_j =

, t_j = t_p 및 w_j ₊₁ = 0 으로 설정하고 t_p 에 대해 풂으로써

의 함수로서 연산될 수도 있다. w_j ₊₁ = 0 이다. 이들 조건들은 뉴런이 발화하였을 시에 스파이크가 도달하지 않았던 이벤트를 시뮬레이션한다. 방정식을 푸는 것은

을 제공한다.

에 관하여 편미분을 취하는 것은

을 제공한다.

추가로,

에 관하여 미분하는 것은

= 1 을 제공하며 이는 방정식을

로 감소시킨다.

다른 y_np 를 연산하기 위해, 값들 (

) 은, v_np 에 관하여 이러한 시간을 미분하여

을 얻음으로써 일반적으로 연산된다.

이들을 함께 대입하는 것은

를 제공한다.

이것은 ALIF 역학들이 멤브레인 전압을 임계치 초과로 취할 경우들에 대한 것이다. 도달하는 스파이크가 멤브레인 전압을 임계치 초과로 취하는 경우,

= 0 인데, 왜냐하면 전압이 엡실론 초과의 양만큼 임계치 초과이기 때문이다. 그러한 경우,

이 그래디언트 항들 모두에 대해 공통이기 때문에 모든 y_np = 0 이다.

유사하게, 하나의 출력 타깃 스파이크 (

) 의 목적들을 위해, 마지막 스파이크 이후에 도달하는 임의의 스파이크들은 제 1 스파이크로 하여금 제 1 스파이킹 시간에 대한 제로 그래디언트를 갖게 할 것이다. 이 조건은 다음을 제공한다:

은닉 계층

은닉 계층 스파이킹은

에 의해 결정될 수도 있으며, 여기서,

이다.

은닉 계층 그래디언트 하강을 위해, 본 개시는

을 연산한다. 상기와 같은 체인 규칙을 이용하여:

이다.

은닉 계층 (δ_n) 에 대해, 체인 규칙을 이용한 추가 확장은

를 제공하고, 여기서, δ_p = (t_p -

) 는 출력 계층에 대해 사전에 연산되었고,

는 출력 계층 스파이킹 시간에 대한 은닉 뉴런 (n) 스파이킹 시간의 변경의 영향이다.

n번째 스파이크가 tp 이전의 시간에 도달할 경우, 이는 제 1 출력 스파이크 시간에 기여하고 이로 하여금 임계치를 초과하게 하지는 않는다. 그러한 경우들에 있어서,

는 다음과 같이 체인 규칙을 이용하여 연산된다:

에 대한 상기 수학식을 y_np 에 대한 체인 규칙 확장과 비교하면,

는 다음과 같이 새로운 항

를 정의함으로써 y_np 의 관점에서 기록될 수도 있다:

여기서:

이다.

ν_j ₊₁ (j = n) 에 대해, t_n 에 관하여 미분을 취하는 것은

를 제공한다.

또한, ν_j ₊₁ (j = n) 에 대해, ν_np 에 관하여 미분을 취하는 것은

를 제공한다.

최종적으로, ν_j ₊₁ (j = n-1) 에 대해 편미분을 취하는 것은

을 제공한다.

이들 3개의 항들을

에 대한 수학식에 대입하는 것은

을 제공한다.

n =

이 마지막 스파이크이고 이것이 전압으로 하여금 임계치를 즉시 초과하게 하면 (

), 마지막 입력 스파이크 시간에서의 작은 시프트는 출력 스파이크로 하여금 출력 스파이크 시간을 야기하였을 때와 동일한 양만큼 시프트하게 할 것이고 다른 스파이크 시간들에서의 작은 시프트들은 출력 스파이크 시간에 영향을 주지 않을 것이기 때문에,

= 1 이고 모든 다른

= 0 이다. 이 경우, y_np = 0 이고, 따라서, 자동적으로

= 0 이고, 따라서, 명시적으로

= 1 이다.

은닉 계층 (y_mn) 은 출력 계층과 동일하여, 스파이크 시간이 은닉 노드 스파이크 시간이고 전압이 은닉 노드 마지막 입력 스파이크 전압인 점을 제외하면, 수학식이 동일하다:

은닉 계층에 대해, 뉴런 스파이킹은 다음에 의해 주어진다:

인공 뉴럴 네트워크 인지 출력 계층 그래디언트는 다음과 같이 주어질 수도 있다:

(y -

)x 는 x 및 y 에 있어서 선형임 (66)

x ∈ {±10} 및 y ∈ {±20} Grad ∈ {±200} 에 대해,

= 10^- ⁴ 의 학습 레이트는 최대 그래디언트들 (200) 에 대해 작은 스텝 사이즈들을 가질 것이고, 작은 그래디언트들 (즉, 1 또는 0.1) 에 대해 여전히 합리적인 스텝 사이즈들을 가질 것이다.

COLD 뉴럴 네트워크 출력 계층 그래디언트는 다음과 같이 주어질 수도 있다:

여기서, tp ~ y,

및

이다.

그에 따라, COLD 그래디언트는 대략

이고, 이는 x 에 있어서 지수적이다.

x ∈ {±10} 및 y ∈ {±20} 및 a = 1 에 대해, 일부 x 에 대해 Grad ∈ {±4×10⁵} 이지만 작은 값들에 대해 대략 1 또는 그 미만일 수도 있어서, 콜드 그래디언트들은 수 크기 차수들을 커버하여, 학습 레이트를 선택하는 것을 어렵게 한다. 이러한 결함을 극복하기 위해, 본 개시는 그래디언트 방향에서 작은 또는 정규화된 그래디언트 변경들 ("스텝들") 을 취함으로써 그래디언트들을 정규화할 수도 있다.

그래디언트 방향에서 작은 스텝들을 취하는 것이 학습 레이트를 감소시키지 않으면, 본 개시는 오직 큰 크기들 또는 엘리먼트들을 갖는 그래디언트들만을 정규화할 수도 있거나 또는 큰 방향들에서 가중화 업데이트들을 제한할 수도 있다. 한정에 의해서가 아닌 예를 들어, 시그모이드 함수를 이용한 LIF 영역과 ALIF 영역 간의 평활한 천이가 다음과 같이 채용될 수도 있다:

도 5 는 본 개시의 특정 양태들에 따른, 범용 프로세서 (502) 를 이용하는 전술한 역 전파의 예시적인 구현 (500) 을 도시한다. 연산 네트워크 (뉴럴 네트워크), 지연들, 및 주파수 빈 (frequency bin) 정보와 연관된 변수들 (뉴럴 신호들), 시냅스 가중치들, 시스템 파라미터들이 메모리 블록 (504) 에 저장될 수도 있는 한편, 범용 프로세서 (502) 에서 실행되는 명령들은 프로그램 메모리 (506) 로부터 로딩될 수도 있다. 본 개시의 일 양태에 있어서, 범용 프로세서 (502) 로 로딩된 명령들은 뉴런 모델이 원형의 (prototypical) 뉴런 역학들에 매칭하도록 원형의 뉴런 역학들에 대한 에러 그래디언트들을 획득하고/하거나 뉴런 모델의 파라미터들을 수정하기 위한 코드를 포함할 수도 있다.

도 6 은, 본 개시의 특정 양태들에 따른, 메모리 (602) 가 상호접속 네트워크 (604) 를 통해 연산 네트워크 (뉴럴 네트워크) 의 개별 (분산된) 프로세싱 유닛들 (뉴럴 프로세서들) (606) 과 인터페이싱될 수 있는 전술한 역 전파의 예시적인 구현 (600) 을 도시한다. 연산 네트워크 (뉴럴 네트워크) 지연들, 주파수 빈 정보, 역 전파 등과 연관된 변수들 (뉴럴 신호들), 시냅스 가중치들, 시스템 파라미터들이 메모리 (602) 에 저장될 수도 있고, 메모리 (602) 로부터 상호접속 네트워크 (604) 의 접속(들)을 통해 각각의 프로세싱 유닛 (뉴럴 프로세서) (606) 으로 로딩될 수도 있다. 본 개시의 일 양태에 있어서, 프로세싱 유닛 (606) 은 원형의 뉴런 역학들에 대한 에러 그래디언트들을 획득하고/하거나 뉴런 모델의 파라미터들을 수정하도록 구성될 수도 있다.

도 7 은 전술한 역 전파의 예시적인 구현 (700) 을 도시한다. 도 7 에 도시된 바와 같이, 일 메모리 뱅크 (702) 는 연산 네트워크 (뉴럴 네트워크) 의 일 프로세싱 유닛 (704) 과 직접 인터페이싱될 수도 있다. 각각의 메모리 뱅크 (702) 는 대응하는 프로세싱 유닛 (뉴럴 프로세서) (704) 지연들, 주파수 빈 정보, 역 전파 등과 연관된 변수들 (뉴럴 신호들), 시냅스 가중치들, 및/또는 시스템 파라미터들을 저장할 수도 있다. 본 개시의 일 양태에 있어서, 프로세싱 유닛 (704) 은 원형의 뉴런 역학들에 대한 에러 그래디언트들을 획득하고/하거나 뉴런 모델의 파라미터들을 수정하도록 구성될 수도 있다.

도 8 은 본 개시의 특정 양태들에 따른 뉴럴 네트워크 (800) 의 예시적인 구현을 도시한다. 도 8 에 도시된 바와 같이, 뉴럴 네트워크 (800) 는 상기 설명된 방법들의 다양한 동작들을 수행할 수도 있는 다수의 로컬 프로세싱 유닛들 (802) 을 가질 수도 있다. 각각의 로컬 프로세싱 유닛 (802) 은 뉴럴 네트워크의 파라미터들을 저장하는 로컬 상태 메모리 (804) 및 로컬 파라미터 메모리 (806) 를 포함할 수도 있다. 부가적으로, 로컬 프로세싱 유닛 (802) 은 로컬 모델 프로그램을 저장하기 위한 로컬 (뉴런) 모델 프로그램 (LMP) 메모리 (808), 로컬 학습 프로그램을 저장하기 위한 로컬 학습 프로그램 (LLP) 메모리 (810), 및 로컬 접속 메모리 (812) 를 가질 수도 있다. 더욱이, 도 8 에 도시된 바와 같이, 각각의 로컬 프로세싱 유닛 (802) 은 로컬 프로세싱 유닛의 로컬 메모리들을 위한 구성들을 제공하는 구성 프로세서 유닛 (814) 과, 그리고 로컬 프로세싱 유닛들 (802) 간의 라우팅을 제공하는 라우팅 접속 프로세싱 유닛 (816) 과 인터페이싱될 수도 있다.

일 구성에 있어서, 뉴런 모델은 원형의 뉴런 역학들에 대한 에러 그래디언트들을 획득하고/하거나 뉴런 모델의 파라미터들을 수정하기 위해 구성된다. 뉴런 모델은 맵 기반 업데이트들 및 적어도 하나의 리셋 메커니즘을 갖는 스파이킹 모델들로 뉴런 상태 업데이트들을 연산하는 수단, 및 가중치 업데이트들을 연산하기 위해 스파이크 시간들에 대한 역 전파를 이용하는 수단을 포함한다. 일 양태에 있어서, 그 연산하는 수단 및/또는 이용하는 수단은, 상술된 기능들을 수행하도록 구성된 범용 프로세서 (502), 프로그램 메모리 (506), 메모리 블록 (504), 메모리 (602), 상호접속 네트워크 (604), 프로세싱 유닛들 (606), 프로세싱 유닛 (704), 로컬 프로세싱 유닛들 (802), 및 또는 라우팅 접속 프로세싱 유닛들 (816) 일 수도 있다. 다른 구성에 있어서, 전술한 수단들은 전술한 수단들에 의해 상술된 기능들을 수행하도록 구성된 임의의 모듈 또는 임의의 장치일 수도 있다.

본 개시의 특정 양태들에 따르면, 각각의 로컬 프로세싱 유닛 (802) 은 뉴럴 네트워크의 소망의 하나 이상의 기능적 특징들에 기초하여 뉴럴 네트워크의 파라미터들을 결정하고, 그리고 결정된 파라미터들이 더 적응되고 튜닝되고 업데이트될 때 소망의 기능적 특징들을 향해 하나 이상의 기능적 특징들을 전개하도록 구성될 수도 있다.

도 9 는 스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법 (900) 을 도시한다. 블록 902 에 있어서, 뉴런 모델은 맵 기반 업데이트들 및 적어도 하나의 리셋 메커니즘을 갖는 스파이킹 모델들로 뉴런 상태 업데이트들을 연산한다. 더욱이, 블록 904 에 있어서, 뉴런 모델은 가중치 업데이트들을 연산하기 위해 스파이크 시간들에 대한 역 전파를 이용한다.

상기 설명된 방법들의 다양한 동작들은 대응하는 기능들을 수행 가능한 임의의 적합한 수단에 의해 수행될 수도 있다. 그 수단은 회로, 주문형 집적회로 (ASIC), 또는 프로세서를 포함하지만 이에 한정되지 않는 다양한 하드웨어 및/또는 소프트웨어 컴포넌트(들) 및/또는 모듈(들)을 포함할 수도 있다. 일반적으로, 도면들에 도시된 동작들이 존재하는 경우, 그 동작들은 유사한 넘버링을 갖는 대응하는 상대의 수단-플러스-기능 컴포넌트들을 가질 수도 있다.

본 명세서에서 사용된 바와 같이, 용어 "결정하는 것" 은 매우 다양한 액션들을 포괄한다. 예를 들어, "결정하는 것" 은 계산하는 것, 연산하는 것, 프로세싱하는 것, 도출하는 것, 조사하는 것, 검색하는 것 (예를 들어, 표, 데이터베이스, 또는 다른 데이터 구조에서 검색하는 것), 확인하는 것 등을 포함할 수도 있다. 부가적으로, "결정하는 것" 은 수신하는 것 (예를 들어, 정보를 수신하는 것), 액세스하는 것 (예를 들어, 메모리 내 데이터에 액세스하는 것) 등을 포함할 수도 있다. 더욱이, "결정하는 것" 은 해결하는 것, 선택하는 것, 선출하는 것, 확립하는 것 등을 포함할 수도 있다.

본 명세서에서 사용된 바와 같이, 아이템들의 리스트 "중 적어도 하나" 를 지칭하는 어구는 단일 멤버들을 포함하여 그 아이템들의 임의의 조합을 지칭한다. 일 예로서, "a, b, 또는 c 중 적어도 하나" 는 a, b, c, a-b, a-c, b-c, 및 a-b-c 를 커버하도록 의도된다.

본 개시와 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 및 회로들은 범용 프로세서, 디지털 신호 프로세서 (DSP), 주문형 집적회로 (ASIC), 필드 프로그래밍가능 게이트 어레이 신호 (FPGA) 또는 다른 프로그래밍가능 로직 디바이스 (PLD), 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본 명세서에서 설명된 기능들을 수행하도록 설계된 이들의 임의의 조합으로 구현 또는 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 그 프로세서는 임의의 상업적으로 입수가능한 프로세서, 제어기, 마이크로 제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한, 컴퓨팅 디바이스들의 조합 (예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로프로세서들, 또는 임의의 기타 다른 구성물) 으로서 구현될 수도 있다.

본 개시와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이들 양자의 조합에서 직접 구현될 수도 있다. 소프트웨어 모듈은, 당업계에 공지된 임의의 형태의 저장 매체에 상주할 수도 있다. 사용될 수도 있는 저장 매체의 일부 예들은 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 플래시 메모리, 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 프로그래밍가능 판독 전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈가능 디스크, CD-ROM 등을 포함한다. 소프트웨어 모듈은 단일 명령 또는 다수의 명령들을 포함할 수도 있으며, 수개의 상이한 코드 세그먼트들에 걸쳐, 상이한 프로그램들 사이에, 및 다중의 저장 매체들에 걸쳐 분산될 수도 있다. 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있도록 프로세서에 커플링될 수도 있다. 대안적으로, 저장 매체는 프로세서에 통합될 수도 있다.

본 명세서에 개시된 방법들은 설명된 방법을 달성하기 위한 하나 이상의 단계들 또는 액션들을 포함한다. 그 방법 단계들 및/또는 액션들은 청구항들의 범위로부터 일탈함없이 서로 대체될 수도 있다. 즉, 단계들 또는 액션들의 특정 순서가 명시되지 않으면, 특정 단계들 및/또는 액션들의 순서 및/또는 그 사용은 청구항들의 범위로부터 일탈함없이 수정될 수도 있다.

설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합에서 구현될 수도 있다. 하드웨어에서 구현되면, 예시적인 하드웨어 구성은 디바이스에 프로세싱 시스템을 포함할 수도 있다. 프로세싱 시스템은 버스 아키텍처로 구현될 수도 있다. 버스는 프로세싱 시스템의 특정 어플리케이션 및 전체 설계 제약들에 의존하는 임의의 수의 상호접속 버스들 및 브리지들을 포함할 수도 있다. 버스는 프로세서, 머신 판독가능 매체들, 및 버스 인터페이스를 포함하는 다양한 회로들을 함께 링크시킬 수도 있다. 버스 인터페이스는, 다른 것들 중에서, 네트워크 어댑터를 버스를 통해 프로세싱 시스템에 접속시키는데 사용될 수도 있다. 네트워크 어댑터는 신호 프로세싱 기능들을 구현하는데 사용될 수도 있다. 특정 양태들에 대해, 사용자 인터페이스 (예를 들어, 키패드, 디스플레이, 마우스, 조이스틱 등) 가 또한 버스에 접속될 수도 있다. 버스는 또한, 당업계에 널리 공지되고 따라서 어떠한 추가로 설명되지 않을 타이밍 소스들, 주변기기들, 전압 레귤레이터들, 전력 관리 회로들 등과 같은 다양한 다른 회로들을 링크시킬 수도 있다.

프로세서는 버스를 관리하는 것, 및 컴퓨터 판독가능 매체들 상에 저장된 소프트웨어의 실행을 포함한 일반 프로세싱을 책임질 수도 있다. 프로세서는 하나 이상의 범용 및/또는 특수목적 프로세서들로 구현될 수도 있다. 예들은 마이크로프로세서들, 마이크로 제어기들, DSP 프로세서들, 및 소프트웨어를 실행할 수 있는 다른 회로부를 포함한다. 소프트웨어는, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 하드웨어 디스크립션 언어, 또는 기타 등등으로서 지칭되든 아니든, 명령들, 데이터, 또는 이들의 임의의 조합을 의미하도록 넓게 해석될 것이다. 머신 판독가능 매체들은, 예로서, 랜덤 액세스 메모리 (RAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그래밍가능 판독 전용 메모리 (PROM), 소거가능한 프로그래밍가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 프로그래밍가능 판독 전용 메모리 (EEPROM), 레지스터들, 자기 디스크들, 광학 디스크들, 하드 드라이브들, 또는 임의의 다른 적합한 저장 매체, 또는 이들의 임의의 조합을 포함할 수도 있다. 컴퓨터 판독가능 매체들은 컴퓨터 프로그램 제품으로 구현될 수도 있다. 컴퓨터 프로그램 제품은 패키징 재료들을 포함할 수도 있다.

하드웨어 구현에 있어서, 머신-판독가능 매체들은 프로세서와는 분리된 프로세싱 시스템의 부분일 수도 있다. 하지만, 당업자들이 용이하게 인식할 바와 같이, 머신-판독가능 매체들 또는 그 임의의 부분은 프로세싱 시스템 외부에 있을 수도 있다. 예로서, 머신-판독가능 매체들은 송신 라인, 데이터에 의해 변조된 캐리어파, 및/또는 디바이스로부터 분리된 컴퓨터 제품을 포함할 수도 있으며, 이들 모두는 버스 인터페이스를 통해 프로세서에 의해 액세스될 수도 있다. 대안적으로 또는 부가적으로, 머신-판독가능 매체들 또는 그 임의의 부분은 프로세서에 통합될 수도 있으며, 예컨대, 그 경우는 캐시 및/또는 일반 레지스터 파일들로 일 수도 있다. 논의된 다양한 컴포넌트들이 로컬 컴포넌트와 같이 특정 위치를 갖는 것으로서 설명될 수도 있지만, 이들은 또한 특정 컴포넌트들이 분산 컴퓨팅 시스템의 부분으로서 구성되는 것과 같이 다양한 방식들로 구성될 수도 있다.

프로세싱 시스템은 프로세서 기능을 제공하는 하나 이상의 마이크로프로세서들 및 머신-판독가능 매체들의 적어도 일부를 제공하는 외부 메모리를 갖는 범용 프로세싱 시스템으로서 구성될 수도 있고, 이들 모두는 외부 버스 아키텍처를 통해 다른 지원 회로부와 함께 링크된다. 대안적으로, 프로세싱 시스템은 본 명세서에서 설명된 뉴럴 시스템들의 모델들 및 뉴런 모델들을 구현하기 위한 하나 이상의 뉴로모픽 프로세서들을 포함할 수도 있다. 다른 대안적으로, 프로세싱 시스템은, 단일 칩으로 집적된 프로세서, 버스 인터페이스, 사용자 인터페이스, 지원 회로부, 및 머신-판독가능 매체들의 적어도 일부를 갖는 주문형 집적회로 (ASIC) 로, 또는 하나 이상의 필드 프로그래밍가능 게이트 어레이들 (FPGA들), 프로그래밍가능 로직 디바이스들 (PLD들), 제어기들, 상태 머신들, 게이트형 로직, 이산 하드웨어 컴포넌트들, 또는 임의의 다른 적합한 회로부, 또는 본 개시 전반에 걸쳐 설명된 다양한 기능을 수행할 수 있는 회로들의 임의의 조합으로 구현될 수도 있다. 당업자는 전체 시스템에 부과된 전체 설계 제약들 및 특정 어플리케이션에 의존하여 프로세싱 시스템에 대한 설명된 기능을 최상으로 구현할 수 있는 방법을 인식할 것이다.

머신 판독가능 매체들은 다수의 소프트웨어 모듈들을 포함할 수도 있다. 소프트웨어 모듈들은, 프로세서에 의해 실행될 경우, 프로세싱 시스템으로 하여금 다양한 기능들을 수행하게 하는 명령들을 포함한다. 소프트웨어 모듈들은 송신 모듈 및 수신 모듈을 포함할 수도 있다. 각각의 소프트웨어 모듈은 단일 저장 디바이스에 상주할 수도 있거나 또는 다수의 저장 디바이스들에 걸쳐 분산될 수도 있다. 예로서, 소프트웨어 모듈은 트리거링 이벤트가 발생할 때 하드 드라이브로부터 RAM 으로 로딩될 수도 있다. 소프트웨어 모듈의 실행 동안, 프로세서는 액세스 속도를 증가시키기 위해 명령들의 일부를 캐시에 로딩할 수도 있다. 그 후, 하나 이상의 캐시 라인들은 프로세서에 의한 실행을 위해 일반 레지스터 파일에 로딩될 수도 있다. 하기에서 소프트웨어 모듈의 기능을 참조할 경우, 그 소프트웨어 모듈로부터의 명령들을 실행할 때 그러한 기능은 프로세서에 의해 구현됨이 이해될 것이다.

소프트웨어에서 구현된다면, 그 기능들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독가능 매체 상으로 저장 또는 전송될 수도 있다. 컴퓨터 판독가능 매체들은, 일 장소로부터 다른 장소로의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하는 통신 매체들 및 컴퓨터 저장 매체들 양자를 포함한다. 저장 매체는, 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수도 있다. 한정이 아닌 예로서, 그러한 컴퓨터 판독가능 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장부, 자기 디스크 저장부 또는 다른 자기 저장 디바이스들, 또는 원하는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 수록 또는 저장하는데 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 커넥션이 컴퓨터 판독가능 매체로 적절히 명명된다. 예를 들어, 동축 케이블, 광섬유 케이블, 꼬임쌍선, 디지털 가입자 라인 (DSL), 또는 적외선 (IR), 무선, 및 마이크로파와 같은 무선 기술들을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 소프트웨어가 송신된다면, 동축 케이블, 광섬유 케이블, 꼬임쌍선, DSL, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 매체의 정의에 포함된다. 본 명세서에서 사용된 바와 같이, 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크 및 블루레이® 디스크를 포함하며, 여기서, 디스크(disk)들은 통상적으로 데이터를 자기적으로 재생하지만 디스크(disc)들은 레이저들을 이용하여 데이터를 광학적으로 재생한다. 따라서, 일부 양태들에 있어서, 컴퓨터 판독가능 매체들은 비-일시적인 컴퓨터 판독가능 매체들 (예를 들어, 유형의 매체들) 을 포함할 수도 있다. 부가적으로, 다른 양태들에 대해, 컴퓨터 판독가능 매체들은 일시적인 컴퓨터 판독가능 매체들 (예를 들어, 신호) 을 포함할 수도 있다. 상기의 조합들이 또한, 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

따라서, 특정 양태들은, 본 명세서에서 제시된 동작들을 수행하기 위한 컴퓨터 프로그램 제품을 포함할 수도 있다. 예를 들어, 그러한 컴퓨터 프로그램 제품은 명령들이 저장된 (및/또는 인코딩된) 컴퓨터 판독가능 매체를 포함할 수도 있으며, 그 명령들은 본 명세서에서 설명된 동작들을 수행하기 위해 하나 이상의 프로세서들에 의해 실행가능하다. 특정 양태들에 있어서, 컴퓨터 프로그램 제품은 패키징 재료를 포함할 수도 있다.

추가로, 본 명세서에서 설명된 방법들 및 기법들을 수행하기 위한 모듈들 및/또는 다른 적절한 수단은, 적용가능할 경우, 사용자 단말기 및/또는 기지국에 의해 다운로드되고/되거나 그렇지 않으면 획득될 수 있음이 인식되어야 한다. 예를 들어, 그러한 디바이스는 서버에 커플링되어, 본 명세서에서 설명된 방법들을 수행하는 수단의 전송을 용이하게 할 수 있다. 대안적으로, 본 명세서에서 설명된 다양한 방법들은 저장 수단 (예를 들어, RAM, ROM, 컴팩트 디스크 (CD) 또는 플로피 디스크와 같은 물리적 저장 매체 등) 을 통해 제공될 수 있어서, 그 저장 수단을 디바이스에 커플링 또는 제공할 시, 사용자 단말기 및/또는 기지국이 다양한 방법들을 획득할 수 있다. 더욱이, 본 명세서에서 설명된 방법들 및 기법들을 디바이스에 제공하기 위한 임의의 다른 적합한 기법이 활용될 수 있다.

청구항들은 상기 예시된 정확한 구성 및 컴포넌트들로 한정되지 않음이 이해되어야 한다. 다양한 수정들, 변경들 및 변이들이 청구항들의 범위로부터 일탈함없이, 상기 설명된 방법들 및 장치의 배열, 동작 및 상세들에서 행해질 수도 있다.

Claims

스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법으로서,
맵 기반 업데이트들 및 적어도 하나의 리셋 메커니즘을 갖는 스파이킹 모델들로 뉴런 상태 업데이트들을 연산하는 단계; 및
가중치 업데이트들을 연산하기 위해 스파이크 시간들에 대한 역 전파를 이용하는 단계를 포함하는, 스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법.
제 1 항에 있어서,
상기 뉴런 상태 업데이트들을 연산하는 단계는 미분 방정식 업데이트들에 적어도 부분적으로 기초하는, 스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법.
제 2 항에 있어서,
상기 뉴런 상태 업데이트들을 연산하는 단계는 콜드 (Cold) 뉴런 모델 업데이트들에 적어도 부분적으로 기초하는, 스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법.
제 1 항에 있어서,
상기 적어도 하나의 리셋 메커니즘은 임계치에 적어도 부분적으로 기초하는 리셋을 트리거링하는, 스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법.
제 1 항에 있어서,
상기 가중치 업데이트들은 출력 스파이크 시간에 적어도 부분적으로 기초하여 적어도 하나의 가중치를 수정하는 것을 포함하는, 스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법.
제 1 항에 있어서,
상기 가중치 업데이트들을 연산하는 것은 상기 스파이킹 뉴럴 네트워크에서 스파이크 시간에서의 뉴런 상태에 적어도 부분적으로 기초하여 에러 항을 부가하는 것을 포함하는, 스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법.
제 6 항에 있어서,
상기 뉴런 상태 및 상기 스파이크 시간은 동일한 뉴런의 것인, 스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법.
제 1 항에 있어서,
상기 가중치 업데이트들은, 뉴런이 스파이킹하지 않을 경우 또는 뉴런이 원하는 출력 스파이크 시간 및 실제 출력 스파이크 시간 후에 스파이킹할 경우 디폴트 업데이트 값들을 포함하는, 스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법.
제 1 항에 있어서,
임계치를 초과하는 경우 연산된 그래디언트를 정규화하는 단계를 더 포함하는, 스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법.
제 1 항에 있어서,
상기 뉴런 상태 업데이트들을 연산하는 단계는 닫힌 형태의 솔루션들에 적어도 부분적으로 기초하여 뉴런 상태 업데이트들을 계산하는 단계를 포함하는, 스파이킹 뉴럴 네트워크를 트레이닝하기 위한 방법.
스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치로서,
맵 기반 업데이트들 및 적어도 하나의 리셋 메커니즘을 갖는 스파이킹 모델들로 뉴런 상태 업데이트들을 연산하는 수단; 및
가중치 업데이트들을 연산하기 위해 스파이크 시간들에 대한 역 전파를 이용하는 수단을 포함하는, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치.
스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 컴퓨터 프로그램 제품으로서,
프로그램 코드가 인코딩된 비일시적인 컴퓨터 판독가능 매체를 포함하고,
상기 프로그램 코드는,
맵 기반 업데이트들 및 적어도 하나의 리셋 메커니즘을 갖는 스파이킹 모델들로 뉴런 상태 업데이트들을 연산하기 위한 프로그램 코드; 및
가중치 업데이트들을 연산하기 위해 스파이크 시간들에 대한 역 전파를 이용하기 위한 프로그램 코드를 포함하는, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 컴퓨터 프로그램 제품.
스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치로서,
메모리; 및
상기 메모리에 커플링된 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
맵 기반 업데이트들 및 적어도 하나의 리셋 메커니즘을 갖는 스파이킹 모델들로 뉴런 상태 업데이트들을 연산하고; 그리고
가중치 업데이트들을 연산하기 위해 스파이크 시간들에 대한 역 전파를 이용하도록
구성되는, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치.
제 13 항에 있어서,
상기 적어도 하나의 프로세서는 추가로, 미분 방정식 업데이트들에 적어도 부분적으로 기초하여 상기 뉴런 상태 업데이트들을 연산하도록 구성되는, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치.
제 14 항에 있어서,
상기 적어도 하나의 프로세서는 추가로, 콜드 뉴런 모델 업데이트들에 적어도 부분적으로 기초하여 상기 뉴런 상태 업데이트들을 연산하도록 구성되는, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치.
제 13 항에 있어서,
상기 적어도 하나의 리셋 메커니즘은 임계치에 적어도 부분적으로 기초하는 리셋을 트리거링하는, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치.
제 13 항에 있어서,
상기 적어도 하나의 프로세서는 추가로, 출력 스파이크 시간에 적어도 부분적으로 기초하여 적어도 하나의 가중치를 수정함으로써 가중치 업데이트들을 연산하도록 구성되는, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치.
제 13 항에 있어서,
상기 적어도 하나의 프로세서는 추가로, 상기 스파이킹 뉴럴 네트워크에서 스파이크 시간에서의 뉴런 상태에 적어도 부분적으로 기초하여 에러 항을 부가함으로써 상기 가중치 업데이트들을 연산하도록 구성되는, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치.
제 18 항에 있어서,
상기 뉴런 상태 및 상기 스파이크 시간은 동일한 뉴런의 것인, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치.
제 13 항에 있어서,
상기 적어도 하나의 프로세서는 추가로, 뉴런이 스파이킹하지 않을 경우 또는 뉴런이 원하는 출력 스파이크 시간 및 실제 출력 스파이크 시간 후에 스파이킹할 경우 디폴트 업데이트 값들로서 가중치 업데이트들을 연산하도록 구성되는, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치.
제 13 항에 있어서,
상기 적어도 하나의 프로세서는 추가로, 임계치를 초과하는 경우 연산된 그래디언트를 정규화하도록 구성되는, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치.
제 13 항에 있어서,
상기 적어도 하나의 프로세서는 추가로, 닫힌 형태의 솔루션들에 적어도 부분적으로 기초하여 뉴런 상태 업데이트들을 계산함으로써 뉴런 상태 업데이트들을 연산하도록 구성되는, 스파이킹 뉴럴 네트워크에서 역 전파를 수행하기 위한 장치.