KR102127524B1 - 신경망 프로세서의 벡터 컴퓨테이션 유닛 - Google Patents

신경망 프로세서의 벡터 컴퓨테이션 유닛 Download PDF

Info

Publication number
KR102127524B1
KR102127524B1 KR1020177028169A KR20177028169A KR102127524B1 KR 102127524 B1 KR102127524 B1 KR 102127524B1 KR 1020177028169 A KR1020177028169 A KR 1020177028169A KR 20177028169 A KR20177028169 A KR 20177028169A KR 102127524 B1 KR102127524 B1 KR 102127524B1
Authority
KR
South Korea
Prior art keywords
normalization
activation
values
neural network
value
Prior art date
Application number
KR1020177028169A
Other languages
English (en)
Other versions
KR20170126997A (ko
Inventor
그레고리 미쉘 토슨
크리스토퍼 아론 클라크
단 루
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Priority to KR1020207018024A priority Critical patent/KR102379700B1/ko
Publication of KR20170126997A publication Critical patent/KR20170126997A/ko
Application granted granted Critical
Publication of KR102127524B1 publication Critical patent/KR102127524B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F5/00Methods or arrangements for data conversion without changing the order or content of the data handled
    • G06F5/06Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor
    • G06F5/08Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor having a sequence of storage locations, the intermediate ones not being accessible for either enqueue or dequeue operations, e.g. using a shift register
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로가 개시되며, 이 회로는, 누산 값들의 벡터를 수신하도록 구성되고, 각각의 누산 값에 함수를 적용하여 활성화 값들의 벡터를 생성하도록 구성되는 활성화 회로; 및 활성화 회로에 커플링되고 각각의 활성화 값으로부터 각각의 정규화 값을 생성하도록 구성되는 정규화 회로를 포함한다.

Description

신경망 프로세서의 벡터 컴퓨테이션 유닛
이 명세서는 하드웨어에서의 신경망 추론들을 컴퓨팅하는 것에 관한 것이다.
신경망들은 수신된 입력에 대한 출력(예를 들어, 분류)을 생성하기 위해 하나 또는 그 초과의 계층들을 활용하는 기계 학습 모델들이다. 일부 신경망들은 출력 계층 이외에도 하나 또는 그 초과의 숨겨진 계층들을 포함한다. 각각의 숨겨진 계층의 출력은 네트워크의 다음 계층, 즉 네트워크의 다음 숨겨진 계층 또는 출력 계층에 대한 입력으로 사용된다. 네트워크의 각각의 계층은 파라미터들의 각각의 세트의 현재 값들에 따라, 수신된 입력으로부터 출력을 생성한다.
일반적으로, 본 명세서는 신경망 추론을 컴퓨팅하는 특수 목적 하드웨어 회로를 설명한다.
일반적으로, 본 명세서에 설명된 요지의 일 혁신적인 양상은 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로에서 구현될 수 있으며, 이 회로는, 누산 값들의 벡터를 수신하도록 구성되고, 각각의 누산 값에 함수를 적용하여 활성화 값들의 벡터를 생성하도록 구성되는 활성화 회로; 및 활성화 회로에 커플링되고 각각의 활성화 값에 대한 각각의 정규화 값을 생성하도록 구성되는 정규화 회로를 포함한다.
구현들은 다음 특징들 중 하나 또는 그 초과의 것을 포함할 수 있다. 활성화 회로는 회로 내의 시스톨릭(systolic) 어레이로부터 누산 값들의 벡터를 수신한다. 정규화 회로는 복수의 정규화 레지스터 컬럼들을 포함하고, 각각의 정규화 레지스터 컬럼은 직렬로 연결된 복수의 정규화 레지스터들을 포함하고, 각각의 정규화 레지스터 컬럼은 각각의 활성화 값을 수신하도록 구성되고, 정규화 레지스터 컬럼 내 각각의 정규화 유닛은 각각의 정규화 값을 계산하도록 구성된다. 각각의 정규화 유닛은 별개의 활성 값을 인접한 정규화 유닛으로 전달하도록 구성된다. 각각의 정규화 유닛은, 각각의 활성화 값을 수신하고; 각각의 활성화 값으로부터 각각의 중간 정규화 값을 생성하고; 그리고 각각의 중간 정규화 값을 하나 또는 그 초과의 이웃 정규화 유닛들에 전송하도록 구성된다. 각각의 중간 정규화 값을 생성하는 것은 각각의 활성화 값의 제곱을 생성하는 것을 포함한다. 각각의 정규화 유닛은, 하나 또는 그 초과의 이웃 정규화 유닛들로부터, 활성화 값들로부터 생성된 하나 또는 그 초과의 중간 정규화 값들을 수신하고; 인덱스를 생성하기 위해 각각의 중간 정규화 값을 합산하고; 룩업 테이블에서 하나 또는 그 초과의 값들에 액세스하기 위해 인덱스를 사용하고; 하나 또는 그 초과의 값들 및 인덱스로부터 스케일링 팩터를 생성하고; 그리고 스케일링 팩터로부터의 각각의 정규화 값 및 각각의 활성화 값을 생성하도록 추가로 구성된다. 풀링 회로(pooling circuitry)는 정규화 값들을 수신하도록 구성되고 그리고 정규화 값들을 풀링하여 풀링 값을 생성하도록 구성된다. 풀링 회로는 복수의 정규화 값들을 복수의 레지스터들 및 복수의 메모리 유닛들에 저장하도록 구성되고, 복수의 레지스터들 및 복수의 메모리 유닛들은 직렬로 연결되고, 각각의 레지스터는 하나의 정규화 값을 저장하고 각각의 메모리 유닛은 복수의 정규화 값들을 저장하고, 풀링 회로는, 모든 각각의 클록 사이클 이후, 주어진 정규화 값을 후속 레지스터 또는 메모리 유닛으로 시프트시키도록 구성되고, 그리고 풀링 회로는 정규화 값들로부터 풀링 값을 생성하도록 구성된다. 풀링 회로는 활성화 값들을 수신하도록 구성되고 그리고 활성화 값들을 풀링하여 풀링 값을 생성하도록 구성된다. 풀링 회로는 복수의 활성화 값들을 복수의 레지스터들 및 복수의 메모리 유닛들에 저장하도록 구성되고, 복수의 레지스터들 및 복수의 메모리 유닛들은 직렬로 연결되고, 각각의 레지스터는 하나의 정규화 값을 저장하고 각각의 메모리 유닛은 복수의 활성화 값들을 저장하고, 풀링 회로는, 모든 각각의 클록 사이클 이후, 주어진 활성화 값을 후속 레지스터 또는 메모리 유닛으로 시프트시키도록 구성되고, 그리고 풀링 회로는 활성화 값들로부터 풀링 값을 생성하도록 구성된다.
본 명세서에 설명된 요지의 특정 실시예들은, 다음의 이점들 중 하나 또는 그 초과의 것을 실현하기 위해서 구현될 수 있다. 신경망의 각각의 신경망 계층에 대한 다수개의 활성 값들이 주어진 클록 사이클 동안 컴퓨팅될 수 있다. 선택적으로, 프로세서는 다른 주어진 클록 사이클 동안 활성화 값들로부터 다수개의 정규화 값들을 생성할 수 있다. 프로세서는 또한 선택적으로, 정규화 값들 또는 활성화 값들로부터 풀링 값들을 생성할 수 있다. 프로세서는, 각각의 클록 사이클에서 새로운 누산 합계를 취하고 각각의 클록 사이클에서 활성화, 정규화, 및 풀링 결과를 생성함으로써, 파이프라이닝 컴퓨테이션들을 할 수 있다.
본 발명은 또한 신경망을 동작시키는 대응하는 방법들을 제공한다.
본 명세서의 요지의 하나 또는 그 초과의 실시예들의 상세들은 첨부된 도면들 및 아래의 설명에 제시된다. 요지의 다른 특징들, 양상들 및 이점들은 설명, 도면들 및 청구항들로부터 명백해질 것이다.
도 1은 신경망의 주어진 계층에 대한 컴퓨테이션을 수행하기 한 예시적인 방법의 흐름도이다.
도 2는 예시적인 신경망 프로세싱 시스템을 도시한다.
도 3은 매트릭스 컴퓨테이션 유닛을 포함하는 예시적인 아키텍처를 도시한다.
도 4는 시스톨릭 어레이 내부의 셀의 예시적인 아키텍처를 도시한다.
도 5은 벡터 컴퓨테이션 유닛의 예시적인 아키텍처를 도시한다.
도 6은 정규화 회로에 대한 예시적인 아키텍처를 도시한다.
도 7은 샘플 활성화 값들을 갖는 정규화 회로에 대한 다른 예시적인 아키텍처를 도시한다.
도 8은 정규화 회로 내부의 정규화 유닛에 대한 예시적인 아키텍처를 도시한다.
도 9는 풀링 회로에 대한 예시적인 아키텍처를 도시한다.
다양한 도면들에서의 동일한 참조 번호들 및 표기들은 동일한 엘리먼트들을 표시한다.
다수개의 계층들을 갖는 신경망은 추론들을 컴퓨팅하기 위해 사용될 수 있다. 예를 들어, 입력이 주어지면, 신경망은 입력에 대한 추론을 컴퓨팅할 수 있다. 신경망은 신경망의 계층들 각각을 통해 입력을 프로세싱함으로써 이 추론을 컴퓨팅한다. 특히, 신경망의 계층들은, 가중치들의 각각의 세트를 각각 가지고 시퀀스로 배열된다. 각각의 계층은 입력을 수신하고 계층에 대한 가중치들의 세트에 따라 입력을 프로세싱하여 출력을 생성한다.
따라서, 수신된 입력으로부터 추론을 컴퓨팅하기 위해서, 신경망이 입력을 수신하고 시퀀스에서 신경망 계층들 각각을 통해 입력을 프로세싱하여 추론을 생성하며, 하나의 신경망 계층으로부터의 출력이 다음 신경망 계층에 대한 입력으로서 제공된다. 신경망 계층에 대한 데이터 입력들, 예를 들어, 신경망으로의 입력, 또는 시퀀스에서 계층 밑의 계층의, 신경망 계층으로의 출력들이 계층에 대한 활성화 입력들로 지칭될 수 있다.
일부 구현들에서, 신경망의 계층들은 방향 그래프로 배열된다. 즉, 임의의 특정 계층은 다수개의 입력들, 다수개의 출력들, 또는 둘 모두를 수신할 수 있다. 신경망의 계층들은 또한, 계층의 출력이 이전 계층에 대한 입력으로서 다시 되돌려 보내질 수 있도록 배열될 수 있다.
일부 신경망들은 하나 또는 그 초과의 신경망 계층들로부터의 출력들을 정규화하여 후속 신경망 계층들에 대한 입력들로서 사용되는 정규화 값들을 생성한다. 출력들을 정규화하는 것은, 정규화 값들이, 후속 신경망 계층들의 입력들을 위한 예상 도메인들 내에 남아있게 보장하는 것을 도울 수 있다. 이는 추론 계산들의 에러들을 감소시킬 수 있다.
일부 신경망들은 하나 또는 그 초과의 신경망 계층들로부터의 출력들을 풀링하여 후속 신경망 계층들에 대한 입력들로서 사용되는 풀링 값들을 생성한다. 일부 구현들에서, 신경망은, 출력들의 그룹의 최대치 또는 평균치를 결정하고 그룹에 대한 풀링된 출력으로서 최대치 또는 평균치를 사용함으로써 출력들의 그룹을 풀링한다. 출력들을 풀링하는 것은 약간의 공간적 불변성을 유지할 수 있으므로 다양한 구성들로 배열된 출력들이 동일한 추론을 갖도록 프로세싱될 수 있다. 출력들을 풀링하는 것은 또한 풀링 전에 출력들의 원하는 특성들을 유지하면서 후속 신경망 계층에서 수신된 입력들의 차원수를 감소시킬 수 있는데, 이는 신경망들에 의해 생성된 추론들의 품질을 크게 손상시키지 않으면서 효율성을 개선할 수 있다.
본 명세서는, 하나 또는 그 초과의 신경 회로망 계층들의 출력들에 관해 정규화, 풀링, 또는 둘 모두를 선택적으로 수행하는 특수 목적 하드웨어 회로를 설명한다.
도 1은 특수 목적 하드웨어 회로를 사용하여 신경망의 주어진 계층에 대한 컴퓨테이션을 수행하기 위한 일 예시적인 프로세스(100)의 흐름도이다. 편의상, 방법(100)은, 방법(100)을 수행하는 하나 또는 그 초과의 회로들을 갖는 시스템과 관련하여 설명될 것이다. 방법(100)은, 수신된 입력으로부터 추론을 컴퓨팅하기 위해 신경망의 각각의 계층에 대해 수행될 수 있다.
시스템은 주어진 계층에 대한 가중치 입력들의 세트들을 수신하고(단계 102) 활성화 입력들의 세트들을 수신한다(단계 104). 가중치 입력들의 세트들 및 활성화 입력들의 세트들은, 특수 목적 하드웨어 회로의 동적 메모리 및 통합 버퍼로부터 각각 수신될 수 있다. 일부 구현들에서, 가중치 입력들의 세트들 및 활성화 입력들의 세트들 둘 모두가 통합 버퍼로부터 수신될 수 있다.
시스템은 특수 목적 하드웨어 회로의 매트릭스 곱셈 유닛을 사용하여 가중치 입력들 및 활성화 입력들로부터 누산 값들을 생성한다(단계 106). 일부 구현들에서, 누산 값들은 가중치 입력들의 세트들 및 활성화 입력들의 세트들의 도트 곱(dot product)들이다. 즉, 계층 내 모든 가중치들의 서브세트인 가중치들의 하나의 세트의 경우, 시스템은 각각의 가중치 입력을 각각의 활성화 입력과 곱셈하고 그 곱들을 함께 합산하여 누산 값을 형성할 수 있다. 그런 다음, 시스템은 가중치들의 다른 세트와 활성화 입력들의 다른 세트들과의 도트 곱을 컴퓨팅할 수 있다.
시스템은 특수 목적 하드웨어 회로의 벡터 계산 유닛을 사용하여 누산 값들로부터 계층 출력을 생성할 수 있다(단계 108). 일부 구현들에서, 벡터 컴퓨테이션 유닛은 누산 값들에 활성화 함수를 적용하며, 이는 도 5와 관련하여 아래에 추가로 설명될 것이다. 계층의 출력은 신경망의 후속 계층에 대한 입력으로 사용하기 위해 통합 버퍼에 저장될 수 있거나 또는 추론을 결정하는데 사용될 수 있다. 시스템은, 수신된 입력이 신경망의 각각의 계층을 통해 프로세싱되었을 경우 신경망의 프로세싱을 종료하여 수신된 입력에 대한 추론을 생성한다.
도 2는 신경망 컴퓨테이션들을 수행하기 위한 예시적인 특수 목적 통합 회로(200)를 도시한다. 시스템(200)은 호스트 인터페이스(202)를 포함한다. 호스트 인터페이스(202)는 신경망 컴퓨테이션에 대한 파라미터들을 포함하는 명령들을 수신할 수 있다. 파라미터들은 얼마나 많은 계층들이 프로세싱되어야하는지, 모델의 각각의 계층에 대한 가중치 입력들의 대응하는 세트들, 활성화 입력들의 초기 세트, 즉, 추론이 컴퓨팅되는 신경망에 대한 입력, 각각의 계층의 대응하는 입력 및 출력 사이즈들, 신경망 컴퓨테이션을 위한 스트라이드 값, 및 프로세싱될 계층의 타입, 예를 들어, 컨벌루셔널 계층 또는 완전 연결된 계층 중 하나 또는 그 초과의 것을 포함할 수 있다.
호스트 인터페이스(202)는, 명령들을 시퀀서(206)로 전송할 수 있으며, 시퀀서(206)는 명령들을, 신경망 컴퓨테이션들을 수행하도록 회로를 제어하는 저 레벨 제어 신호들로 변환한다. 일부 구현들에서, 제어 신호들은 회로에서의 데이터 흐름을 조절하는데, 예를 들어 가중치 입력들의 세트들 및 활성화 입력들의 세트들이 회로를 통해 흐르는 방법을 조절한다. 시퀀서(206)는 제어 신호들을 통합 버퍼(208), 매트릭스 컴퓨테이션 유닛(212), 및 벡터 컴퓨테이션 유닛(214)에 전송할 수 있다. 일부 구현에서, 시퀀서(206)는 또한 직접 메모리 액세스 엔진(204) 및 동적 메모리(210)에 제어 신호들을 전송한다. 일부 구현들에서, 시퀀서(206)는 제어 신호들을 생성하는 프로세서이다. 시퀀서(206)는, 적절한 시간들에, 제어 신호들을 회로(200)의 각각의 컴포넌트에 전송하기 위해 제어 신호들의 타이밍을 사용할 수 있다. 일부 다른 구현들에서, 호스트 인터페이스(202)는 외부 프로세서로부터의 제어 신호를 통과시킨다.
호스트 인터페이스(202)는 가중치 입력들의 세트들 및 활성 입력들의 초기 세트들을 직접 메모리 액세스 엔진(204)에 전송할 수 있다. 직접 메모리 액세스 엔진(204)은 통합 버퍼(208)에 활성화 입력들의 세트들을 저장할 수 있다. 일부 구현들에서, 직접 메모리 액세스는 메모리 유닛일 수 있는 동적 메모리(210)에 가중치들의 세트들을 저장한다. 일부 구현들에서, 동적 메모리는 회로로부터 떨어져 위치된다.
통합 버퍼(208)는 메모리 버퍼이다. 이는, 직접 메모리 액세스 엔진(204)으로부터의 활성화 입력들의 세트 및 벡터 컴퓨테이션 유닛(214)의 출력들을 저장하는데 사용될 수 있다. 벡터 컴퓨테이션 유닛은 도 5와 관련하여 아래에 더욱 상세히 설명될 것이다. 직접 메모리 액세스 엔진(204)은 또한 통합 버퍼(208)로부터 벡터 컴퓨테이션 유닛(214)의 출력들을 판독할 수 있다.
동적 메모리(210) 및 통합 버퍼(208)는, 가중치 입력들의 세트들 및 활성화 입력들의 세트들을 각각 매트릭스 컴퓨테이션 유닛(212)에 전송할 수 있다. 일부 구현들에서, 매트릭스 컴퓨테이션 유닛(212)은 2차원 시스톨릭 어레이이다. 매트릭스 컴퓨테이션 유닛(212)은 또한, 1차원 시스톨릭 어레이이거나 또는 수학적 연산들, 예를 들어, 곱셈 및 덧셈을 수행할 수 있는 다른 회로일 수 있다. 일부 구현들에서, 매트릭스 컴퓨테이션 유닛(212)은 범용 매트릭스 프로세서이다.
매트릭스 컴퓨테이션 유닛(212)은 가중치 입력들 및 활성화 입력들을 프로세싱하고 벡터 컴퓨테이션 유닛(214)에 출력들의 벡터를 제공할 수 있다. 몇몇 구현들에서, 매트릭스 컴퓨테이션 유닛은 출력들의 벡터를 통합 버퍼(208)에 전송하며, 통합 버퍼(208)는 출력들의 벡터를 벡터 컴퓨테이션 유닛(214)으로 전송한다. 벡터 컴퓨테이션 유닛은 출력들의 벡터를 프로세싱하고 프로세싱된 출력들의 벡터를 통합 버퍼(208)에 저장할 수 있다. 프로세싱된 출력들의 벡터는, 예를 들어, 신경망의 후속 계층에서 사용하기 위해, 매트릭스 컴퓨테이션 유닛(212)에 대한 활성화 입력들로서 사용될 수 있다. 매트릭스 컴퓨테이션 유닛(212) 및 벡터 컴퓨테이션 유닛(214)은 도 3 및 도 5를 각각 참조하여 아래에 더욱 상세히 설명될 것이다.
도 3은 매트릭스 컴퓨테이션 유닛을 포함하는 예시적인 아키텍처(300)를 도시한다. 매트릭스 컴퓨테이션 유닛은 2차원 시스톨릭 어레이(306)이다. 어레이(306)는 다수개의 셀들(304)을 포함한다. 일부 구현들에서, 시스톨릭 어레이(306)의 제 1 차원(320)은 셀들의 컬럼들에 대응하고 시스톨릭 어레이(306)의 제 2 차원(322)은 셀들의 로우들에 대응한다. 시스톨릭 어레이는 컬럼들보다 더 많은 로우들을 갖거나, 로우들보다 더 많은 컬럼들을 갖거나, 또는 같은 수의 컬럼들 및 로우들을 가질 수 있다.
예시된 예에서, 값 로더들(302)은 어레이(306)의 로우들에 활성화 입력들을 전송하고, 가중치 페처 인터페이스(308)는 가중치 입력들을 어레이(306)의 컬럼들에 전송한다. 그러나, 다른 구현들에서, 활성화 입력들이 컬럼들로 전달되고 가중치 입력들이 어레이(306)의 로우들로 전달된다.
값 로더들(302)은 통합 버퍼, 예컨대, 도 2의 통합 버퍼(208)로부터 활성화 입력들을 수신할 수 있다. 각각의 값 로더는 대응하는 활성화 입력을 어레이(306)의 별개의 제일 좌측 셀에 전송할 수 있다. 예를 들어, 값 로더(312)는 활성화 입력을 셀(314)에 전송할 수 있다. 또한, 값 로더는 인접한 값 로더에 활성화 입력을 전송할 수 있으며, 활성화 입력은 어레이(306)의 다른 제일 좌측 셀에서 사용될 수 있다. 이는, 활성화 입력들이 어레이(306)의 다른 특정 셀에서의 사용을 위해 시프트되도록 허용한다.
가중치 페처 인터페이스(308)는, 메모리 유닛, 예를 들어, 도 2의 동적 메모리(210)로부터 가중치 입력을 수신할 수 있다. 가중치 페처 인터페이스(308)는 대응하는 가중치 입력을 어레이(306)의 별개의 제일 상부 셀에 전송할 수 있다. 예를 들어, 가중치 페처 인터페이스(308)는 가중치 입력들을 셀들(314 및 316)에 전송할 수 있다.
일부 구현들에서, 호스트 인터페이스, 예를 들어, 도 2의 호스트 인터페이스(202)는 어레이(306) 전체에 걸친 활성화 입력들을 하나의 차원을 따라, 예를 들어, 우측으로 시프트하는 반면, 어레이(306) 전체에 걸친 가중치 입력들을 다른 차원을 따라, 예를 들어, 하부로 시프트한다. 예를 들어, 1 클록 사이클 동안, 셀(314)에서의 활성화 입력이, 셀(314)의 우측에 있는 셀(316)의 활성화 레지스터로 시프트할 수 있다. 유사하게, 셀(316)에서의 가중치 입력은 셀(314) 아래의 셀(318)의 가중치 레지스터로 시프트할 수 있다.
각각의 클록 사이클에서, 각각의 셀은 주어진 가중치 입력, 주어진 활성화 입력, 및 인접 셀로부터의 누산 출력을 프로세싱하여 누산 출력을 생성할 수 있다. 누산 출력은 또한, 주어진 가중치 입력과 동일한 차원을 따라 인접 셀로 전달될 수 있다. 개개의 셀이 도 4를 참조하여 아래에서 추가로 설명된다.
누산 출력이 가중치 입력과 동일한 컬럼을 따라 전달될 수 있는데, 예를 들어, 어레이(306)의 컬럼의 하부를 향하여 전달될 수 있다. 일부 구현들에서, 각각의 컬럼의 하부에서, 어레이(306)는, 로우들보다 더 많은 활성화 입력들을 갖는 계층들과 함께 계산들을 수행할 경우 각각의 컬럼으로부터의 각각의 누산 출력을 저장하고 누산하는 누산기 유닛(310)을 포함할 수 있다. 일부 구현들에서, 각각의 누산기 유닛은 다수개의 병렬 누산들을 저장한다. 이는 도 6을 참조하여 아래에서 추가로 설명될 것이다. 누산기 유닛들(310)은 각각의 누산 출력을 누산하여 최종 누산 값을 생성할 수 있다. 최종 누산 값은 벡터 컴퓨테이션 유닛, 예를 들어, 도 5의 벡터 컴퓨테이션 유닛(502)으로 전달될 수 있다. 일부 다른 구현들에서, 누산기 유닛들(310)은, 로우들보다 더 적은 수의 활성화 입력들을 갖는 계층들과 함께 계층들을 프로세싱할 경우 어떠한 누산들도 수행하지 않고 누산 값들을 벡터 컴퓨테이션 유닛으로 전달한다.
도 4는 시스톨릭 어레이, 예를 들어, 도 3의 시스톨릭 어레이(306) 내부의 셀의 예시적인 아키텍처(400)를 도시한다.
셀은 활성화 입력을 저장하는 활성화 레지스터(406)를 포함할 수 있다. 활성화 레지스터는, 시스톨릭 어레이 내의 셀의 포지션에 따라, 좌측 인접 셀, 즉, 주어진 셀의 좌측에 위치되는 인접 셀로부터, 또는 통합 버퍼로부터 활성화 입력을 수신할 수 있다. 셀은 가중치 입력을 저장하는 가중치 레지스터(402)를 포함할 수 있다. 가중치 입력은, 시스톨릭 어레이 내의 셀의 포지션에 따라, 상부 인접 셀로부터 또는 가중치 페처 인터페이스로부터 전달될 수 있다. 셀은 또한 레지스터의 합(404)을 포함할 수 있다. 레지스터의 합(404)은 상부 인접 셀로부터의 누산 값을 저장할 수 있다. 곱셈 회로(408)는 가중치 레지스터(402)로부터의 가중치 입력을 활성화 레지스터(406)로부터의 활성화 입력과 곱하기 위해 사용될 수 있다. 곱셈 회로(408)는 곱을 합산 회로(410)로 출력할 수 있다.
합산 회로는 레지스터의 합(404)으로부터의 누산 값을 곱과 합산하여 새로운 누산 값을 생성할 수 있다. 그런 다음, 합산 회로(410)는 새로운 누산 값을 하부 인접 셀에 위치된 레지스터 내의 다른 합으로 전송할 수 있다. 새로운 누산 값은 하부 인접 셀에서의 합산을 위한 피연산자로서 사용될 수 있다.
셀은 또한, 프로세싱을 위해 가중치 입력 및 활성화 입력을 인접 셀들로 시프트시킬 수 있다. 예를 들어, 가중치 레지스터(402)는 가중치 입력을 하부 인접 셀 내의 다른 가중치 레지스터에 전송할 수 있다. 활성화 레지스터(406)는 활성화 입력을 우측 인접 셀에 있는 다른 활성화 레지스터에 전송할 수 있다. 따라서, 가중치 입력 및 활성화 입력 둘 모두는, 후속 클록 사이클에서 어레이 내의 다른 셀들에 의해 재사용될 수 있다.
일부 구현들에서, 셀은 또한 제어 레지스터를 포함한다. 제어 레지스터는, 셀이 가중치 입력 또는 활성화 입력을 인접 셀들로 시프트해야 하는지 여부를 결정하는 제어 신호를 저장할 수 있다. 일부 구현들에서, 가중치 입력 또는 활성화 입력을 시프트하는 것은 하나 또는 그 초과의 클록 사이클들이 걸린다. 제어 신호는 또한, 활성화 입력 또는 가중치 입력들이 곱셈 회로(408)로 전달되었는지 여부를 결정할 수 있거나, 또는 곱셈 회로(408)가 활성화 입력 및 가중치 입력에 대해 연산하는지를 여부를 결정할 수 있다. 제어 신호는 또한, 예를 들어, 와이어를 사용하여, 하나 또는 그 초과의 인접 셀들로 전달될 수 있다.
일부 구현들에서, 가중치들은 가중치 경로 레지스터(412)로 프리-시프트된다. 가중치 경로 레지스터(412)는, 예를 들어, 상부 인접 셀로부터 가중치 입력을 수신할 수 있고, 제어 신호에 기초하여 가중치 입력을 가중치 레지스터(402)에 전달할 수 있다. 가중치 레지스터(402)는, 활성화 입력들이, 예를 들어, 활성화 레지스터(406)를 통해 다수개의 클록 사이클들 동안 셀로 전달될 때, 가중치 입력이 셀 내에 유지되고 인접 셀로 전달되지 않도록 가중치 입력을 정적으로 저장할 수 있다. 따라서, 가중치 입력은, 예를 들어, 곱셈 회로(408)를 사용하여 다수개의 활성화 입력들에 적용될 수 있고, 각각의 누산 값들이 인접 셀로 전달될 수 있다.
도 5는 벡터 컴퓨테이션 유닛(502)의 예시적인 아키텍처(500)를 도시한다. 벡터 컴퓨테이션 유닛(502)은 매트릭스 컴퓨테이션 유닛, 예를 들어, 도 2를 참조하여 설명된 매트릭스 컴퓨테이션 유닛으로부터 누산 값들의 벡터를 수신할 수 있다.
벡터 컴퓨테이션 유닛(502)은 활성화 유닛(404)에서 누산 값들의 벡터를 프로세싱할 수 있다. 일부 구현들에서, 활성화 유닛은 각각의 누산 값에 비선형 함수를 적용하여 활성화 값들을 생성하는 회로를 포함한다. 예를 들어, 비선형 함수는 tanh(x)일 수 있으며, 여기서 x는 누산 값이다.
선택적으로, 벡터 컴퓨테이션 유닛(502)은 정규화 회로(506)에서 활성화 값들을 정규화할 수 있으며, 정규화 회로(506)는 활성화 값들로부터 정규화 값들을 생성한다.
또한 선택적으로, 벡터 컴퓨테이션 유닛(502)은 풀링 회로(508)를 사용하여 값들, 즉, 활성화 값들 또는 정규화 값들을 풀링할 수 있다. 풀링 회로(508)는 정규화 값들 중 하나 또는 그 초과의 것에 집계 함수를 적용하여 풀링 값들을 생성할 수 있다. 일부 구현들에서, 집계 함수들은, 정규화 값들의 최대치, 최소치, 또는 평균치 또는 정규화 값들의 서브세트의 최대치, 최소치, 또는 평균치를 리턴하는 함수들이다.
제어 신호들(510)은, 예를 들어, 도 2의 시퀀서(206)에 의해 전달될 수 있고, 벡터 컴퓨테이션 유닛(502)이 누산 값들의 벡터를 프로세싱하는 방법을 조절할 수 있다. 즉, 제어 신호들(510)은, 활성화 값들이 풀링되거나, 정규화되거나, 또는 둘 모두되는지 여부를 조절할 수 있다. 제어 신호들(510)은 또한, 활성화, 정규화 또는 풀링 함수들뿐만 아니라, 정규화 및 풀링을 위한 다른 파라미터들, 예를 들어 스트라이드 값을 지정할 수 있다.
벡터 컴퓨테이션 유닛(502)은, 값들, 예를 들어, 활성화 값들, 정규화 값들, 또는 풀링 값들을 통합 버퍼, 예를 들어, 도 2의 통합 버퍼(208)에 전송할 수 있다.
일부 구현들에서, 풀링 유닛(508)은 정규화 회로(506) 대신에 활성화 값들을 수신하고 풀링 값들을 통합 버퍼에 저장한다. 일부 구현들에서, 풀링 유닛(508)은 정규화 회로(506)에 풀링 값을 전송하며, 정규화 회로(506)는 통합 버퍼에 저장될 정규화 값들을 생성한다.
도 6은 정규화 회로, 예를 들어, 도 5의 정규화 회로(506)에 대한 예시적인 아키텍처(600)를 도시한다. 정규화 회로는, 각각의 클록 사이클 동안, 활성화 회로(602), 예를 들어, 도 5의 활성화 회로(504)로부터 활성화 값들의 벡터를 수신할 수 있다. 시스템 파라미터의 값에 따라, 정규화 회로는, 즉, 활성화 값들을 정규화하지 않고 활성화 값들의 벡터를 풀링 회로에 전달하거나, 또는 활성화 값들의 벡터로부터 정규화 값들의 벡터를 생성할 수 있다. 예를 들어, (예를 들어, 사용자에 의해 제공된) 시스템 파라미터가 활성화 값들의 벡터를 풀링 회로에 전달할 것을 회로에 명령하는 경우, 예를 들어, 사용자가 값들을 정규화하기를 원하지 않는 경우, 시스템 파라미터는 값들을 풀링 회로에 직접 전달하고 정규화 회로를 스킵하라는, 멀티플렉서에 대한 신호일 수 있다.
일부 구현들에서, 활성화 값들의 벡터는 가중치 입력들의 세트에 기초하여 활성화 입력들로부터 생성된 누산 값들에 활성화 함수를 적용함으로써 생성된 활성화 값들을 포함한다.
일부 다른 구현들에서, 가중치 입력들의 세트에 대한 활성화 값들은, 활성화 및 가중치 입력들을 시프트시킬 때 발생되는 지연들로 인해 활성화 값들의 다수개의 벡터들에 걸쳐서 스태거링된다. 예를 들어, 매트릭스 컴퓨테이션 유닛은 커넬(Kernel) A로부터의 가중치 입력들의 세트 및 활성화 입력들의 세트로부터 누산 값들(A0-An), 커넬 B로부터의 가중치 입력들의 세트 및 활성화 입력들의 세트로부터 누산 값들(B0-Bn), 및 커넬 C로부터의 가중치 입력들의 세트 및 활성화 입력들의 세트로부터 누산 값들(C0-Cn)을 생성할 수 있다. 가중치 입력들 및 활성화 입력들이, 도 4를 참조하여 상술된 바와 같이, 대응하는 누산 값들이 컴퓨팅되기 전에 매트릭스 컴퓨테이션 유닛에 걸쳐 시프트되기 때문에, 누산 값들(A0-An 및 B0-Bn)이 후속 클록 사이클을 통해 생성될 수 있다. A0은 클록 사이클 0에서 생성될 수 있고, A1 및 B0은 클록 사이클 1(A2, B1)에서 생성될 수 있고, C0는 클록 사이클 2 (An, Bn-1)에서 생성될 수 있고, Cn-2는 클록 사이클 n에서 생성될 수 있는 식이다. 매트릭스 컴퓨테이션 유닛은 클록 사이클 X의 경우 A0 및 B0을 포함하는 누산 값들의 벡터를 그리고 클록 사이클 X+1 동안 A1 및 B1을 포함하는 누산 값들의 다른 벡터를 생성할 수 있다. 따라서, 주어진 커넬에 대한 누산 값들, 예를 들어, 커넬 A로부터의 A0-An이 스태거 방식(staggered fashion)으로 후속 클록 사이클들을 통해 누산 값들의 다수개의 벡터들에 걸쳐 확산될 수 있다.
그 결과, 누산 값들의 다수개의 벡터들은, 예를 들어, 도 5의 활성화 회로(504)에 의한 프로세싱 후에 활성화 값들의 다수개의 벡터들이 될 수 있고, 활성화 값들의 다수개의 벡터들 각각은 별개의 정규화 레지스터 컬럼으로 전송될 수 있다. 특히, 활성화 회로(602)는 각각의 활성화 값을, 활성화 값들의 벡터로부터 별개의 정규화 레지스터 컬럼(604-610)으로 전송할 수 있다. 특히, 정규화 레지스터들(616 내지 622)은 각각, 각각의 활성화 값을 수신할 수 있다. 정규화 레지스터 컬럼은 직렬로 연결된 정규화 레지스터들의 세트를 포함할 수 있다. 즉, 컬럼 내 제 1 정규화 레지스터의 출력이 컬럼 내 제 2 정규화 레지스터에 대한 입력으로서 전송될 수 있다. 일부 구현들에서, 각각의 정규화 레지스터는 활성화 값을 저장한다. 일부 다른 구현들에서, 각각의 정규화 레지스터는 또한 활성화 값의 제곱을 저장한다. 일부 구현들에서, 정규화 회로는, 활성화 회로 내에 또는 시스톨릭 어레이 내에 존재하는 컬럼들 만큼 많은 수의 정규화 레지스터 컬럼들을 갖는다.
일부 구현들에서, 활성화 값들의 벡터들을 정규화 레지스터 컬럼들에 제공하기 전에, 회로는 벡터들을 제곱 유닛(squaring unit)으로 전송한다. 제곱 유닛은 정규화 값들의 컴퓨팅 시에 사용하기 위해 각각의 활성화 값의 제곱을 계산할 수 있는데, 이는 아래에서 추가로 설명될 것이다. 제곱 유닛은 제곱한 활성화 값들의 벡터들, 즉, 활성화 값들의 각각의 벡터에 대해 하나의 벡터를 생성할 수 있고, 제곱한 활성화 값들의 벡터들을 정규화 레지스터 컬럼들로 전송할 수 있다. 일부 다른 구현들에서, 제곱 유닛은 활성화 값들의 벡터들 및 제곱한 활성화 값들의 벡터들 둘 모두를 정규화 레지스터 컬럼들에 전송한다.
일부 구현들에서, 정규화 회로는, 정규화 반경 파라미터(normalization radius parameter)에 기초하여, 스태거식 그룹(staggered group)들, 예를 들어, 스태거식 그룹들(624 및 628)을 형성한다. 정규화 반경 파라미터는 정규화 값을 계산할 때 사용할 둘러싸고 있는(surrounding) 정규화 레지스터들로부터의 출력들의 수를 나타낼 수 있다. 출력들의 수는 정규화 반경 파라미터의 두 배와 같을 수 있다. 예시로서, 스태거식 그룹(624 및 628)은 1의 정규화 반경 파라미터로부터 형성된다. 스태거식 그룹(624)은 정규화 유닛들(632 및 618)을 포함하고, 또한 제로 레지스터(636)를 포함한다. 제로 레지스터(636)는 항상 0의 값을 출력할 수 있고, 정규화 회로의 에지들에서 정규화 값들을 계산할 때 버퍼로서 역할을 할 수 있다. 제로 레지스터들(635 및 638)은 제로 레지스터들(612)의 컬럼에 포함될 수 있다. 스태거식 그룹들 내부의 값들의 예가 도 7을 참조하여 아래에서 추가로 설명될 것이다.
일부 구현들에서, 정규화 유닛들, 예를 들어, 정규화 유닛들(626, 630)은 스태거식 그룹들로부터의 출력들을 사용하여 대응하는 컴포넌트, 예를 들어, 스태거식 그룹의 레지스터들 내부의 활성화 값들의 제곱(정규화 값을 컴퓨팅하기 위해 사용됨)을 생성한다. 예를 들어, 컴포넌트들은 모든 활성화 값들의 제곱들의 합을 생성하는데 사용될 수 있다. 정규화 유닛들은 정규화 값을 컴퓨팅하기 위해 제곱들의 합을 사용할 수 있으며, 이는 아래에 추가로 설명될 것이다. 일부 구현들에서, 각각의 스태거식 그룹에 대한 대응하는 정규화 유닛이 있다.
정규화 회로는 스태거식 그룹들에 기초하여 활성화 값에 대한 정규화 값을 생성할 수 있다. 예를 들어, 정규화 레지스터(632)에 저장된 활성 값에 대한 정규화 값이 정규화 유닛(626)에 저장될 수 있다. 특히, 스태거식 그룹(624)에 기초하여, 정규화 회로는, 예를 들어 합산 회로를 사용하여, 스태거식 그룹(624) 내부의 정규화 레지스터들에 의해 생성된 제곱들 모두의 합계를 컴퓨팅할 수 있다. 합계들이 정규화 유닛(626)에 저장될 수 있다. 합계는 활성화 값에 대응하는 정규화 값일 수 있다. 정규화 회로는, 정규화 레지스터들(634, 640) 및 제로 레지스터(620)를 포함하는 스태거식 그룹(628)에 대한 다른 대응하는 정규화 값을 계속 생성할 수 있고, 대응하는 정규화 값은 정규화 유닛(630)에 저장될 수 있다.
정규화 회로는, 생성된 정규화 값들로부터 정규화 값들의 벡터를 형성할 수 있으며(이 벡터는 예를 들어, 정규화 유닛들에 저장될 수 있음), 정규화 값들의 벡터를, 신경망 파라미터에 의해 결정되는 경우 풀링 회로에 전송할 수 있거나, 또는 통합 버퍼에 전송할 수 있다.
도 7은 정규화 레지스터들 내부의 샘플 활성화 값들을 갖는 정규화 회로에 대한 다른 예시적인 아키텍처(700)를 도시한다. 정규화 반경 파라미터는, 스태거식 그룹들(724 및 728)에서 예시된 바와 같이, 1일 수 있다. 특히, 스태거식 그룹(724)은 정규화 레지스터들(732 및 718) 및 제로 레지스터(736)를 포함한다. 스태거식 그룹(728)은 제로 레지스터(738) 및 정규화 레지스터들(734 및 740)을 포함한다.
정규화 레지스터들(716-720, 732, 734 및 740)은, 예를 들어, 시스톨릭 어레이로부터의 컬럼들에 대응하는 활성화 값들을 저장할 수 있다. 표기 AX, Y, 예를 들어, 정규화 레지스터(740)의 A0,0은 클록 사이클 Y의 컬럼 X에 대응하는 활성화 값을 나타낸다.
도면에 예시된 바와 같이, 활성화 값들은 스태거식 방식으로 로딩된다. 예를 들어, 클록 사이클 0에서, 활성화 값들(A0,0, A1,0 및 A2,0)이 컴퓨팅될 수 있지만, 정규화 회로는 3개의 클록 사이클들을 통해 3개의 활성화 값들을 로딩한다. 일부 구현들에서, 활성화 값들은 비-스태거식 방식으로 로딩된다. 즉, A0, 0, A1,0 및 A2,0이 1개의 클록 사이클에서 로딩될 수 있다.
N0는 정규화 레지스터(726)에 저장된 A0,1에 대한 정규화 값일 수 있다. N0는 A0,1 및 A1,1 및 0(제로 레지스터(736)로부터의 것)의 제곱들의 합에 기초하여 계산될 수 있으며, 이는 도 8을 참조하여 아래에서 설명될 것이다. 유사하게, N1은, A0,0 및 A1,0 및 A2,0(레지스터(720)로부터의 것)의 제곱들의 합에 기초하여 계산되는 A0,0에 대한 정규화 값일 수 있다.
정규화 회로는 1의 반경을 사용하여 각각의 활성화 값에 대한 정규화 값들을 컴퓨팅할 수 있다. 다른 반경들이 가능하다. 정규화 회로가 아직 정규화 계산에 필요한 활성화 값을 로딩하지 않았다면, 정규화 회로는, 필요한 활성화 값들이 로딩될 때까지 활성화 값을 후속 정규화 레지스터로 시프트시킬 수 있다. 예를 들어, 정규화 레지스터(716)에 저장된 활성화 값(A0,2)에 대한 정규화 값을 계산하는 것은, 1의 반경의 관점에서, 활성화 값(A1,2)이 필요하다. 활성화 값(A1,2)은 후속 클록 사이클에서 정규화 레지스터(718)로 로딩될 수 있으며, 이 지점에서, 정규화 회로가 활성화 값(A0,2)에 대한 정규화 값을 컴퓨팅할 수 있다.
도 8은 정규화 회로 내부의 정규화 유닛에 대한 예시적인 아키텍처(800)를 도시한다. 정규화 유닛이 활성화 값(802)을 수신할 수 있다. 일부 구현들에서, 활성화 값(802)은, 예를 들어, 회로가, 활성화 값(802)이 부정확한 포지션에 있음을 결정할 경우, 즉, 활성화 값이 정규화 계산을 위해 후속 정규화 유닛에 저장될 필요가 있을 경우, 멀티플렉서(814)를 통해 후속 정규화 유닛으로 전달된다. 정규화 회로는, 특정 출력, 예를 들어, 정규화 값 또는 변화가 없는(unaffected) 활성화 값을 통해 통과시키기 위한 제어 신호를 멀티플렉서(814)에 전송할 수 있다.
일부 구현들에서, 활성화 값이 제곱 회로(804)에 전달된다. 제곱 회로(804)는 제곱 활성화 값(808)을 생성할 수 있는데, 즉, 활성화 값을 2 제곱할 수 있다. 제곱 회로(804)는 제곱 활성화 값(808)을 인접한 정규화 유닛들, 예를 들어, 정규화 유닛의 동일한 스태거식 그룹 내의 다른 정규화 유닛에 전송할 수 있다.
일부 구현들에서, 수신된 활성화 값은, 도 6을 참조하여 위에서 설명된 바와 같이, 정규화 레지스터 컬럼들에 제공되기 전에 이미 제곱이 되었다.
정규화 유닛은 또한, 합산 회로(806)에서 이웃 정규화 유닛들로부터 제곱 활성화 값들(810)을 수신할 수 있다. 합산 회로(806)는 제곱 활성화 값(808)과 수신된 제곱 활성화 값(810)의 합을 생성할 수 있다.
합은 메모리 유닛(812)에 전송될 수 있다. 일부 구현들에서, 메모리 유닛(812)은 룩업 테이블 및 보간 유닛을 포함한다. 정규화 유닛은 합계의 부분, 예를 들어, 합계의 상위(high) 비트들의 세트를, 시스템 파라미터에 의해 제공된 하나 또는 그 초과의 계수들을 룩업하기 위한 어드레스로서 사용할 수 있다. 메모리 및 보간 유닛(812)은 계수들 및 제곱 활성화 값들의 합에 기초하여 정규화 스케일링 팩터를 생성할 수 있다. 정규화 스케일링 팩터는 곱셈 유닛(816)으로 전송될 수 있다.
일부 구현들에서, 제곱들의 합은 12 비트 값이다. 정규화 유닛은 룩업 테이블에 대한 인덱스로서 제곱들의 합의 상위 4 비트들을 사용할 수 있다. 상위 4 비트들은, 예를 들어, 사용자에 의해 룩업 테이블로부터 지정되는 계수들에 액세스하는데 사용될 수 있다. 일부 구현들에서, 상위 4 비트들은 2개의 12 비트 계수들: A & B에 액세스한다. 하위 8 비트들은 정규화 스케일링 팩터를 계산하는 방정식에서 사용되는 델타일 수 있다. 예시적인 식이 스케일링 팩터 = 최소치
Figure 112017096381414-pct00001
에 의해 주어지며, 최소치는 2개의 인수들을 프로세싱하고 최소치 값을 갖는 인수를 리턴한다.
정규화 유닛은, 곱셈 유닛(816)을 사용하여, 정규화 스케일링 팩터를 활성화 값(802)으로 곱셈하여 정규화 값을 생성할 수 있다. 일부 구현들에서, 그런 다음, 정규화 값은 풀링 회로, 예를 들어, 도 5의 풀링 회로(508)로 전송된다.
도 9는 풀링 회로에 대한 예시적인 아키텍처(900)를 도시한다. 풀링 회로는 정규화 값들 또는 활성화 값들 중 하나 또는 그 초과의 것에 집계 함수를 적용하여 풀링 값들을 생성할 수 있다. 예시로서, 아키텍처(900)는 활성화 값들 또는 정규화 값들의 4 × 4 세트의 풀링을 수행할 수 있다. 도 9에 도시된 풀링은 정사각형 영역, 즉 4 × 4를 가지며, 직사각형 영역이 가능하다. 예를 들어, 영역이 n × m의 윈도우를 갖는 경우, 아키텍처(900)는 n × m 레지스터들, 즉 n개의 컬럼들 및 m개의 로우들을 가질 수 있다.
풀링 회로는, 정규화 값들의 벡터로부터, 예를 들어, 도 5의 정규화 회로(506)로부터 엘리먼트들의 시퀀스를 수신할 수 있다. 예를 들어, 시퀀스는 이미지의 8 × 8 부분의 픽셀들을 나타낼 수 있으며, 풀링 회로 아키텍처(900)는 8 × 8 부분의 4 × 4 서브세트로부터 값들을 풀링할 수 있다. 일부 구현들에서, 정규화 값들은, 풀링 회로에 커플링된 정규화 회로에 의해 일단 컴퓨팅된 시퀀스에 추가된다. 일부 구현들에서, 신경망 프로세서는 다수의 병렬 풀링 회로들을 포함한다. 각각의 클록 사이클을 통해, 각각의 풀링 회로는 정규화 회로로부터의 정규화 값들의 벡터로부터 각각의 엘리먼트를 수신할 수 있다. 각각의 풀링 회로는 정규화 회로로부터 수신된 엘리먼트들을, 래스터 순서로 도달하는 2 차원 이미지로서 해석할 수 있다.
풀링 회로는 일련의 레지스터들 및 메모리 유닛들을 포함할 수 있다. 각각의 레지스터는 집계 회로(906)에 출력을 전송할 수 있으며, 이 집계 회로(906)는 레지스터들 내부에 저장 값들에 대해 집계 함수를 적용한다. 집계 함수는 값들의 세트로부터 최소치, 최대치 또는 평균치를 리턴할 수 있다.
제 1 정규화 값이 레지스터(902)로 전송되고 레지스터(902) 내부에 저장될 수 있다. 후속 클록 사이클에서, 제 1 정규화 값은 후속 레지스터(908)로 시프트되어 메모리(904)에 저장될 수 있고, 제 2 정규화 값은 레지스터(902)로 전송되어 레지스터(902) 내부에 저장될 수 있다.
4개의 클록 사이클들 후에, 4개의 정규화 값들이 처음 4개의 레지스터들(902, 908-912) 내부에 저장된다. 일부 구현들에서, 메모리 유닛(904)은 FIFO(first-in-first-out)에 따라 동작한다. 각각의 메모리 유닛은 최대 8개의 정규화 값들을 저장할 수 있다. 메모리 유닛(904)이 픽셀의 완전한 로우를 포함한 후, 메모리 유닛(904)은 정규화 값을 레지스터(914)에 전송할 수 있다.
임의의 주어진 시점에서, 집계 회로(906)는 각각의 레지스터로부터 정규화 값들에 액세스할 수 있다. 레지스터들의 정규화 값들은 이미지의 4 × 4 부분에 대한 정규화 값들을 나타내야 한다.
풀링 회로는, 집계 회로(906)를 사용함으로써 액세스된 정규화 값들, 예를 들어, 최대치, 최소치 또는 평균치 정규화 값으로부터 풀링 값을 생성할 수 있다. 풀링 값이 통합 버퍼, 예를 들어, 도 2의 통합 버퍼(208)로 전송될 수 있다.
제 1 풀링 값을 생성한 후, 풀링 회로가, 각각의 레지스터를 통해 정규화 값들을 시프트함으로써 풀링 값들을 계속 생성할 수 있으므로, 새로운 정규화 값들이 레지스터들에 저장되고 집계 회로(906)에 의해 풀링될 수 있다. 예를 들어, 아키텍처(900)에서, 풀링 회로는 정규화 값들을 5개 이상의 클록 사이클들에 걸쳐 시프트시킬 수 있음으로써, 메모리 유닛들 내 정규화 값들을 레지스터들로 시프트시킬 수 있다. 일부 구현들에서, 풀링 회로는, 새로운 정규화 값이 최종 최상위 레지스터, 예를 들어, 레지스터(916)에 저장될 때까지, 새로운 정규화 값들을 시프트시킨다.
그런 다음, 집계 회로(906)는 레지스터들에 저장된 새로운 정규화 값들을 풀링할 수 있다.
일부 구현들에서, 풀링 회로는, 정규화 값들의 벡터를 수신하는 대신, 도 5를 참조하여 상술된 바와 같이 활성화 값들의 벡터를 수신한다.
본 명세서에서 설명한 기능적 동작들 및 요지의 실시예들은 디지털 전자 회로에서, 유형적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어에서, 본 명세서에 개시된 구조들 및 이들의 구조적 등가물들을 포함하는 컴퓨터 하드웨어에서, 또는 이들 중 하나 또는 그 초과의 것의 결합들에서 구현될 수 있다. 본 명세서에서 설명한 요지의 실시예들은 하나 또는 그 초과의 컴퓨터 프로그램들, 즉 데이터 프로세싱 장치에 의한 실행을 위해 또는 데이터 프로세싱 장치의 동작을 제어하기 위해 유형의 비일시적 프로그램 캐리어 상에 인코딩되는 컴퓨터 프로그램 명령들의 하나 또는 그 초과의 모듈들로서 구현될 수 있다. 대안으로 또는 추가로, 프로그램 명령들은 데이터 프로세싱 장치에 의한 실행을 위해 적절한 수신기 장치로의 송신을 위한 정보를 인코딩하기 위해 발생되는 인공적으로 발생한 전파 신호, 예를 들어 기계 발생 전기, 광학 또는 전자기 신호에 대해 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독 가능 저장 디바이스, 기계 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 이들 중 하나 또는 그 초과의 것의 결합일 수 있다.
"데이터 프로세싱 장치"라는 용어는 예로서 프로그래밍 가능 프로세서, 컴퓨터 또는 다수개의 프로세서들이나 컴퓨터들을 포함하여, 데이터를 프로세싱하기 위한 모든 종류들의 장치, 디바이스들 및 기계들을 포괄한다. 장치는 특수 목적 로직 회로, 예를 들어, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)을 포함할 수 있다. 장치는 또한 하드웨어뿐만 아니라, 해당 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 시스템, 또는 이들 중 하나 또는 그 초과의 것에 대한 결합을 구성하는 코드를 포함할 수 있다.
(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 또한 지칭되거나 이로서 설명될 수 있는) 컴퓨터 프로그램은 컴파일링된 또는 해석된 언어들, 또는 서술적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 이는 독립형 프로그램으로서 또는 모듈, 컴포넌트, 서브루틴, 또는 컴퓨팅 환경에 사용하기에 적절한 다른 유닛으로서의 형태를 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템 내의 파일에 대응할 수도 있지만 반드시 그런 것은 아니다. 프로그램은 다른 프로그램들 또는 데이터, 예를 들어 마크업 언어 문서에 저장된 하나 또는 그 초과의 스크립트들을 보유하는 파일의 일부에, 해당 프로그램에 전용된 단일 파일에, 또는 다수개의 조정된 파일들, 예를 들어 하나 또는 그 초과의 모듈들, 하위 프로그램들, 또는 코드의 부분들을 저장하는 파일들에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 상에서 또는 한 사이트에 로케이팅되거나 다수개의 사이트들에 걸쳐 분포되어 통신 네트워크에 의해 상호 접속되는 다수개의 컴퓨터들 상에서 실행되도록 전개될 수 있다.
본 명세서에서 설명한 프로세스들 및 로직 흐름들은 입력 데이터에 대해 동작하여 출력을 발생시킴으로써 기능들을 수행하기 위해 하나 또는 그 초과의 컴퓨터 프로그램들을 실행하는 하나 또는 그 초과의 프로그래밍 가능 컴퓨터들에 의해 수행될 수 있다. 프로세스들 및 로직 흐름들은 또한 특수 목적 로직 회로, 예를 들어 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)에 의해 수행될 수 있으며, 장치가 또한 이로서 구현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터들은 범용 또는 특수 목적 마이크로프로세서들 또는 이 둘 모두, 또는 임의의 다른 종류의 중앙 프로세싱 유닛을 포함하며, 예로서 이에 기반할 수 있다. 일반적으로, 중앙 프로세싱 유닛은 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 이 둘 모두로부터 명령들 및 데이터를 수신할 것이다. 컴퓨터의 필수 엘리먼트들은 명령들을 수행 또는 실행하기 위한 중앙 프로세싱 유닛 그리고 명령들 및 데이터를 저장하기 위한 하나 또는 그 초과의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 또는 그 초과의 대용량 저장 디바이스들, 예를 들어, 자기, 마그네토 광 디스크들, 또는 광 디스크들을 포함하거나, 이들로부터 데이터를 수신하고 또는 이들에 데이터를 전송하도록, 또는 이 둘 모두를 위해 동작 가능하게 연결될 것이다. 그러나 컴퓨터가 이러한 디바이스들을 가질 필요는 없다. 더욱이, 컴퓨터는 다른 디바이스, 몇 가지만 예로 들자면, 예를 들어 모바일 전화, PDA(personal digital assistant), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS(Global Positioning System) 수신기, 또는 휴대용 저장 디바이스, 예를 들어 USB(universal serial bus) 플래시 드라이브에 내장될 수 있다.
컴퓨터 프로그램 명령들 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체들은, 예로서 반도체 메모리 디바이스들, 예를 들어 EPROM, EEPROM, 및 플래시 메모리 디바이스들; 자기 디스크들, 예를 들어 내부 하드 디스크들 또는 착탈식 디스크들; 마그네토 광 디스크들; 그리고 CD ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태들의 비휘발성 메모리, 매체들 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적 로직 회로에 의해 보완되거나 특수 목적 로직 회로에 포함될 수 있다.
사용자와의 상호 작용을 전송하기 위해, 본 명세서에서 설명한 요지의 실시예들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스, 예를 들어 CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터, 및 사용자가 컴퓨터에 입력을 전송할 수 있게 하는 키보드와 포인팅 디바이스, 예를 들어 마우스 또는 트랙볼을 갖는 컴퓨터 상에 구현될 수 있다. 다른 종류들의 디바이스들이 사용자와의 상호 작용을 전송하기 위해 또한 사용될 수 있는데; 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백, 예를 들어 시각 피드백, 청각 피드백 또는 촉각 피드백일 수 있고; 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 문서들을 전송하고 이러한 디바이스로부터 문서들을 수신함으로써; 예를 들어, 웹 브라우저로부터 수신된 요청들에 대한 응답으로 사용자의 클라이언트 디바이스 상의 웹 브라우저에 웹 페이지들을 전송함으로써 사용자와 상호 작용할 수 있다.
본 명세서에서 설명한 요지의 실시예들은 예를 들어, 데이터 서버로서 백엔드 컴포넌트를 포함하는, 또는 미들웨어 컴포넌트, 예를 들어, 애플리케이션 서버를 포함하는, 또는 프론트엔드 컴포넌트, 예를 들어, 본 명세서에서 설명한 요지의 구현과 사용자가 상호 작용할 수 있게 하는 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터를 포함하는 컴퓨팅 시스템으로, 또는 이러한 하나 또는 그 초과의 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 결합으로 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신, 예를 들어 통신 네트워크에 의해 상호 접속될 수 있다. 통신 네트워크들의 예들은 "LAN"(local area network) 및 "WAN"(wide area network), 예를 들어 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로로부터 원거리이며 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터들 상에서 실행되며 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의해 발생한다.
본 명세서는 많은 특정 구현 세부사항들을 포함하지만, 이들은 청구될 수 있는 것의 또는 임의의 발명의 범위에 대한 한정들로서가 아니라, 그보다는 특정 발명들의 특정 실시예들에 특정할 수 있는 특징들의 설명으로서 해석되어야 한다. 개별 실시예들과 관련하여 본 명세서에 설명되는 특정 특징들은 또한 단일 실시예로 결합하여 구현될 수 있다. 반대로, 단일 실시예와 관련하여 설명되는 다양한 특징들은 또한 다수개의 실시예들로 개별적으로 또는 임의의 적절한 하위 결합으로 구현될 수 있다. 더욱이, 특징들이 특정한 결합들로 작용하는 것으로 앞서 설명되고 심지어 초기에 이와 같이 청구될 수 있다 하더라도, 어떤 경우들에는 청구된 결합으로부터의 하나 또는 그 초과의 특징들이 그 결합으로부터 삭제될 수 있고, 청구된 결합은 하위 결합 또는 하위 결합의 변형에 관련될 수 있다.
유사하게, 동작들이 특정 순서로 도면들에 도시되지만, 이는 바람직한 결과들을 달성하기 위해 이러한 동작들이 도시된 특정 순서로 또는 순차적인 순서로 수행될 것을, 또는 예시된 모든 동작들이 수행될 것을 요구하는 것으로 이해되지 않아야 한다. 특정 상황들에서는, 다중 작업 및 병렬 프로세싱이 유리할 수도 있다. 더욱이, 앞서 설명한 실시예들에서 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시예들에서 이러한 분리를 필요로 하는 것으로 이해되지 않아야 하며, 설명한 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수개의 소프트웨어 제품들로 패키지화될 수 있다는 것이 이해되어야 한다.
요지의 특정 실시예들이 설명되었다. 다른 실시예들이 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구항들에서 언급되는 동작들은 다른 순서로 수행되며 여전히 바람직한 결과들을 달성할 수 있다. 일례로, 첨부 도면들에 도시된 프로세스들은 바람직한 결과들을 달성하기 위해 반드시 도시된 특정 순서 또는 순차적인 순서를 필요로 하는 것은 아니다. 특정 구현들에서는, 다중 작업 및 병렬 프로세싱이 유리할 수 있다.

Claims (12)

  1. 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로로서,
    누산 값들의 벡터를 수신하도록 구성되고, 각각의 누산 값에 함수를 적용하여 활성화 값들의 벡터를 생성하도록 구성되는 활성화 회로; 및
    상기 활성화 회로에 커플링되고 각각의 활성화 값에 대한 각각의 정규화 값을 생성하도록 구성되는 정규화 회로를 포함하고,
    상기 정규화 회로는 복수의 정규화 레지스터 컬럼들을 포함하고, 각각의 정규화 레지스터 컬럼은 직렬로 연결된 복수의 정규화 레지스터들을 포함하고, 각각의 정규화 레지스터 컬럼은 각각의 활성화 값을 수신하도록 구성되고, 상기 정규화 회로는 하나 또는 그 초과의 정규화 레지스터들 둘레로 그룹들을 형성하도록 구성되고, 각각의 그룹은 정규화 유닛에 대응하고, 그리고 각각의 정규화 유닛은 상기 각각의 활성화 값에 대한 각각의 정규화 값을 계산하도록 구성되는, 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로.
  2. 제 1 항에 있어서,
    상기 활성화 회로는 상기 회로 내의 시스톨릭 어레이로부터 상기 누산 값들의 벡터를 수신하는, 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로.
  3. 삭제
  4. 제 1 항에 있어서,
    각각의 정규화 레지스터는 별개의 활성 값을 인접한 정규화 컬럼으로 전달하도록 구성되는, 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로.
  5. 제 1 항 또는 제 4 항에 있어서,
    각각의 그룹은 정규화 반경 파라미터를 사용하여 형성되는, 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로.
  6. 제 1 항 또는 제 4 항에 있어서,
    각각의 정규화 유닛은,
    상기 각각의 활성화 값을 수신하고;
    상기 각각의 활성화 값으로부터 각각의 중간 정규화 값을 생성하고; 그리고
    상기 각각의 중간 정규화 값을 하나 또는 그 초과의 이웃 정규화 유닛들에 전송하도록 구성되는, 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로.
  7. 제 6 항에 있어서,
    상기 각각의 중간 정규화 값을 생성하는 것은 상기 각각의 활성화 값의 제곱을 생성하는 것을 포함하는, 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로.
  8. 제 6 항에 있어서,
    각각의 정규화 유닛은,
    하나 또는 그 초과의 이웃 정규화 유닛들로부터, 활성화 값들로부터 생성된 하나 또는 그 초과의 중간 정규화 값들을 수신하고;
    인덱스를 생성하기 위해 각각의 중간 정규화 값을 합산하고;
    룩업 테이블로부터의 하나 또는 그 초과의 값들에 액세스하기 위해 상기 인덱스를 사용하고,
    상기 인덱스 및 상기 하나 또는 그 초과의 값들로부터 스케일링 팩터를 생성하고; 그리고
    상기 각각의 활성화 값 및 상기 스케일링 팩터로부터 상기 각각의 정규화 값을 생성하도록 추가로 구성되는, 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로.
  9. 제 1 항, 제 2 항 및 제 4 항 중 어느 한 항에 있어서,
    정규화 값들을 수신하도록 구성되고 그리고 상기 정규화 값들을 풀링(pool)하여 풀링 값을 생성하도록 구성되는 풀링 회로(pooling circuitry)를 더 포함하는, 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로.
  10. 제 9 항에 있어서,
    상기 풀링 회로는 복수의 정규화 값들을 복수의 레지스터들 및 복수의 메모리 유닛들에 저장하도록 구성되고,
    상기 복수의 레지스터들 및 상기 복수의 메모리 유닛들은 직렬로 연결되고, 각각의 레지스터는 하나의 정규화 값을 저장하고 각각의 메모리 유닛은 복수의 정규화 값들을 저장하고,
    상기 풀링 회로는, 모든 각각의 클록 사이클 이후, 주어진 정규화 값을 후속 레지스터 또는 메모리 유닛으로 시프트시키도록 구성되고, 그리고
    상기 풀링 회로는 상기 정규화 값들로부터 상기 풀링 값을 생성하도록 구성되는, 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로.
  11. 제 1 항, 제 2 항 및 제 4 항 중 어느 한 항에 있어서,
    상기 활성화 값들을 수신하도록 구성되고 그리고 상기 활성화 값들을 풀링하여 풀링 값을 생성하도록 구성되는 풀링 회로를 더 포함하는, 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로.
  12. 제 11 항에 있어서,
    상기 풀링 회로는 복수의 활성화 값들을 복수의 레지스터들 및 복수의 메모리 유닛들에 저장하도록 구성되고,
    상기 복수의 레지스터들 및 상기 복수의 메모리 유닛들은 직렬로 연결되고, 각각의 레지스터는 하나의 정규화 값을 저장하고 각각의 메모리 유닛은 복수의 활성화 값들을 저장하고,
    상기 풀링 회로는, 모든 각각의 클록 사이클 이후, 주어진 활성화 값을 후속 레지스터 또는 메모리 유닛으로 시프트시키도록 구성되고, 그리고
    상기 풀링 회로는 상기 활성화 값들로부터 상기 풀링 값을 생성하도록 구성되는, 복수의 계층들을 포함하는 신경망에 대한 신경망 컴퓨테이션들을 수행하기 위한 회로.
KR1020177028169A 2015-05-21 2016-04-29 신경망 프로세서의 벡터 컴퓨테이션 유닛 KR102127524B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020207018024A KR102379700B1 (ko) 2015-05-21 2016-04-29 신경망 프로세서의 벡터 컴퓨테이션 유닛

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562165022P 2015-05-21 2015-05-21
US62/165,022 2015-05-21
US14/845,117 2015-09-03
US14/845,117 US10192162B2 (en) 2015-05-21 2015-09-03 Vector computation unit in a neural network processor
PCT/US2016/029986 WO2016186813A1 (en) 2015-05-21 2016-04-29 Vector computation unit in a neural network processor

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020207018024A Division KR102379700B1 (ko) 2015-05-21 2016-04-29 신경망 프로세서의 벡터 컴퓨테이션 유닛

Publications (2)

Publication Number Publication Date
KR20170126997A KR20170126997A (ko) 2017-11-20
KR102127524B1 true KR102127524B1 (ko) 2020-06-26

Family

ID=56069218

Family Applications (4)

Application Number Title Priority Date Filing Date
KR1020227009700A KR102516092B1 (ko) 2015-05-21 2016-04-29 신경망 프로세서의 벡터 컴퓨테이션 유닛
KR1020177028169A KR102127524B1 (ko) 2015-05-21 2016-04-29 신경망 프로세서의 벡터 컴퓨테이션 유닛
KR1020237010250A KR20230048449A (ko) 2015-05-21 2016-04-29 신경망 프로세서의 벡터 컴퓨테이션 유닛
KR1020207018024A KR102379700B1 (ko) 2015-05-21 2016-04-29 신경망 프로세서의 벡터 컴퓨테이션 유닛

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020227009700A KR102516092B1 (ko) 2015-05-21 2016-04-29 신경망 프로세서의 벡터 컴퓨테이션 유닛

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020237010250A KR20230048449A (ko) 2015-05-21 2016-04-29 신경망 프로세서의 벡터 컴퓨테이션 유닛
KR1020207018024A KR102379700B1 (ko) 2015-05-21 2016-04-29 신경망 프로세서의 벡터 컴퓨테이션 유닛

Country Status (12)

Country Link
US (4) US10192162B2 (ko)
EP (2) EP4276690A1 (ko)
JP (4) JP6615902B2 (ko)
KR (4) KR102516092B1 (ko)
CN (2) CN107533667B (ko)
DE (2) DE202016107442U1 (ko)
DK (1) DK3298545T3 (ko)
FI (1) FI3298545T3 (ko)
GB (2) GB2600290A (ko)
HK (1) HK1245954A1 (ko)
TW (2) TWI591490B (ko)
WO (1) WO2016186813A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544213B2 (en) 2021-03-04 2023-01-03 Samsung Electronics Co., Ltd. Neural processor

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10192162B2 (en) 2015-05-21 2019-01-29 Google Llc Vector computation unit in a neural network processor
GB201607713D0 (en) * 2016-05-03 2016-06-15 Imagination Tech Ltd Convolutional neural network
KR20180034853A (ko) * 2016-09-28 2018-04-05 에스케이하이닉스 주식회사 합성곱 신경망의 연산 장치 및 방법
US10032110B2 (en) * 2016-12-13 2018-07-24 Google Llc Performing average pooling in hardware
US10037490B2 (en) * 2016-12-13 2018-07-31 Google Llc Performing average pooling in hardware
US10521488B1 (en) 2016-12-30 2019-12-31 X Development Llc Dynamic partitioning
JP6740920B2 (ja) * 2017-02-01 2020-08-19 株式会社デンソー 演算処理装置
US10699189B2 (en) * 2017-02-23 2020-06-30 Cerebras Systems Inc. Accelerated deep learning
US10896367B2 (en) * 2017-03-07 2021-01-19 Google Llc Depth concatenation using a matrix computation unit
US10909447B2 (en) 2017-03-09 2021-02-02 Google Llc Transposing neural network matrices in hardware
US10108581B1 (en) 2017-04-03 2018-10-23 Google Llc Vector reduction processor
WO2018193354A1 (en) * 2017-04-17 2018-10-25 Cerebras Systems Inc. Wavelet representation for accelerated deep learning
US11488004B2 (en) 2017-04-17 2022-11-01 Cerebras Systems Inc. Neuron smearing for accelerated deep learning
WO2018193361A1 (en) 2017-04-17 2018-10-25 Cerebras Systems Inc. Microthreading for accelerated deep learning
US10338919B2 (en) 2017-05-08 2019-07-02 Nvidia Corporation Generalized acceleration of matrix multiply accumulate operations
DE102018110607A1 (de) 2017-05-08 2018-11-08 Nvidia Corporation Verallgemeinerte Beschleunigung von Matrix-Multiplikations-und-Akkumulations-Operationen
TWI689873B (zh) * 2017-05-17 2020-04-01 美商谷歌有限責任公司 用於執行矩陣乘法之方法、硬體電路、運算系統及電腦儲存媒體
KR102661910B1 (ko) * 2017-05-17 2024-04-26 구글 엘엘씨 특수 목적 뉴럴 네트워크 트레이닝 칩
US10698974B2 (en) 2017-05-17 2020-06-30 Google Llc Low latency matrix multiply unit
CN107146616B (zh) * 2017-06-13 2020-05-08 Oppo广东移动通信有限公司 设备控制方法及相关产品
CN109284821B (zh) * 2017-07-19 2022-04-12 华为技术有限公司 一种神经网络运算装置
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157287B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system with variable latency memory access
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
TWI653584B (zh) 2017-09-15 2019-03-11 中原大學 利用非揮發性記憶體完成類神經網路訓練的方法
GB2568230B (en) * 2017-10-20 2020-06-03 Graphcore Ltd Processing in neural networks
KR102586173B1 (ko) 2017-10-31 2023-10-10 삼성전자주식회사 프로세서 및 그 제어 방법
KR102424962B1 (ko) 2017-11-15 2022-07-25 삼성전자주식회사 병렬 연산 처리를 수행하는 메모리 장치 및 이를 포함하는 메모리 모듈
US10599975B2 (en) 2017-12-15 2020-03-24 Uber Technologies, Inc. Scalable parameter encoding of artificial neural networks obtained via an evolutionary process
US11360930B2 (en) 2017-12-19 2022-06-14 Samsung Electronics Co., Ltd. Neural processing accelerator
US20190205738A1 (en) * 2018-01-04 2019-07-04 Tesla, Inc. Systems and methods for hardware-based pooling
KR102637735B1 (ko) * 2018-01-09 2024-02-19 삼성전자주식회사 근사 곱셈기를 구비하는 뉴럴 네트워크 처리 장치 및 이를 포함하는 시스템온 칩
CN108182471B (zh) * 2018-01-24 2022-02-15 上海岳芯电子科技有限公司 一种卷积神经网络推理加速器及方法
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11769042B2 (en) * 2018-02-08 2023-09-26 Western Digital Technologies, Inc. Reconfigurable systolic neural network engine
US11551064B2 (en) 2018-02-08 2023-01-10 Western Digital Technologies, Inc. Systolic neural network engine capable of forward propagation
US11907834B2 (en) 2018-02-14 2024-02-20 Deepmentor Inc Method for establishing data-recognition model
TWI659324B (zh) * 2018-02-14 2019-05-11 倍加科技股份有限公司 電路規劃結果產生方法與系統
SG11202007532TA (en) * 2018-02-16 2020-09-29 Governing Council Univ Toronto Neural network accelerator
CN110415157B (zh) * 2018-04-26 2024-01-30 华为技术有限公司 一种矩阵乘法的计算方法及装置
US11537838B2 (en) * 2018-05-04 2022-12-27 Apple Inc. Scalable neural network processing engine
US11487846B2 (en) 2018-05-04 2022-11-01 Apple Inc. Performing multiply and accumulate operations in neural network processor
US10440341B1 (en) * 2018-06-07 2019-10-08 Micron Technology, Inc. Image processor formed in an array of memory cells
US11501140B2 (en) * 2018-06-19 2022-11-15 International Business Machines Corporation Runtime reconfigurable neural network processor core
DE102018115902A1 (de) 2018-07-01 2020-01-02 Oliver Bartels SIMD-Prozessor mit CAM zur Operandenauswahl nach Mustererkennung
TWI667576B (zh) * 2018-07-09 2019-08-01 國立中央大學 機器學習方法及機器學習裝置
CN109273035B (zh) * 2018-08-02 2020-03-17 北京知存科技有限公司 闪存芯片的控制方法、终端
US11636319B2 (en) * 2018-08-22 2023-04-25 Intel Corporation Iterative normalization for machine learning applications
US11328207B2 (en) 2018-08-28 2022-05-10 Cerebras Systems Inc. Scaled compute fabric for accelerated deep learning
US11321087B2 (en) 2018-08-29 2022-05-03 Cerebras Systems Inc. ISA enhancements for accelerated deep learning
WO2020044238A1 (en) 2018-08-29 2020-03-05 Cerebras Systems Inc. Processor element redundancy for accelerated deep learning
KR102637733B1 (ko) 2018-10-31 2024-02-19 삼성전자주식회사 뉴럴 네트워크 프로세서 및 그것의 컨볼루션 연산 방법
JP7315317B2 (ja) 2018-11-09 2023-07-26 株式会社Preferred Networks プロセッサおよびプロセッサのデータ転送方法
CN111445020B (zh) * 2019-01-16 2023-05-23 阿里巴巴集团控股有限公司 一种基于图的卷积网络训练方法、装置及系统
US11188085B2 (en) * 2019-03-22 2021-11-30 Ford Global Technologies, Llc Vehicle capsule networks
US11783176B2 (en) 2019-03-25 2023-10-10 Western Digital Technologies, Inc. Enhanced storage device memory architecture for machine learning
US10929058B2 (en) 2019-03-25 2021-02-23 Western Digital Technologies, Inc. Enhanced memory device architecture for machine learning
US10733016B1 (en) 2019-04-26 2020-08-04 Google Llc Optimizing hardware FIFO instructions
TWI706337B (zh) * 2019-05-02 2020-10-01 旺宏電子股份有限公司 記憶體裝置及其操作方法
US11233049B2 (en) 2019-06-14 2022-01-25 Macronix International Co., Ltd. Neuromorphic computing device
TWI698810B (zh) * 2019-06-14 2020-07-11 旺宏電子股份有限公司 類神經計算裝置
US11514300B2 (en) 2019-06-14 2022-11-29 Macronix International Co., Ltd. Resistor circuit, artificial intelligence chip and method for manufacturing the same
KR20210014902A (ko) 2019-07-31 2021-02-10 삼성전자주식회사 프로세서 및 그 제어 방법
CN110610235B (zh) * 2019-08-22 2022-05-13 北京时代民芯科技有限公司 一种神经网络激活函数计算电路
US11836624B2 (en) 2019-08-26 2023-12-05 D5Ai Llc Deep learning with judgment
US11829729B2 (en) 2019-09-05 2023-11-28 Micron Technology, Inc. Spatiotemporal fused-multiply-add, and related systems, methods and devices
US11693657B2 (en) 2019-09-05 2023-07-04 Micron Technology, Inc. Methods for performing fused-multiply-add operations on serially allocated data within a processing-in-memory capable memory device, and related memory devices and systems
US11934824B2 (en) 2019-09-05 2024-03-19 Micron Technology, Inc. Methods for performing processing-in-memory operations, and related memory devices and systems
KR20210050243A (ko) * 2019-10-28 2021-05-07 삼성전자주식회사 뉴로모픽 패키지 장치 및 뉴로모픽 컴퓨팅 시스템
KR102139229B1 (ko) * 2019-10-30 2020-07-29 주식회사 뉴로메카 인공신경망을 이용한 로봇 매니퓰레이터의 충돌을 감지하는 방법 및 시스템
KR102357168B1 (ko) * 2019-10-30 2022-02-07 주식회사 뉴로메카 인공신경망을 이용한 로봇 매니퓰레이터의 충돌을 감지하는 방법 및 시스템
KR20210105053A (ko) * 2020-02-18 2021-08-26 에스케이하이닉스 주식회사 연산 회로 및 그것을 포함하는 딥 러닝 시스템
JP7475080B2 (ja) 2020-04-01 2024-04-26 義憲 岡島 曖昧検索回路
US11537861B2 (en) * 2020-06-23 2022-12-27 Micron Technology, Inc. Methods of performing processing-in-memory operations, and related devices and systems
CN114654884B (zh) * 2020-12-22 2023-06-06 精工爱普生株式会社 印刷条件设定方法、印刷条件设定系统
US20220277190A1 (en) * 2021-02-28 2022-09-01 Anaflash Inc. Neural network engine with associated memory array
CN112992248A (zh) * 2021-03-12 2021-06-18 西安交通大学深圳研究院 一种基于fifo的可变长循环移位寄存器的pe计算单元结构
US11714556B2 (en) * 2021-09-14 2023-08-01 quadric.io, Inc. Systems and methods for accelerating memory transfers and computation efficiency using a computation-informed partitioning of an on-chip data buffer and implementing computation-aware data transfer operations to the on-chip data buffer
WO2023080291A1 (ko) * 2021-11-08 2023-05-11 한국전자기술연구원 딥러닝 가속기를 위한 풀링 장치

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3761876A (en) * 1971-07-28 1973-09-25 Recognition Equipment Inc Recognition unit for optical character reading system
US3777132A (en) * 1972-02-23 1973-12-04 Burroughs Corp Method and apparatus for obtaining the reciprocal of a number and the quotient of two numbers
FR2595891B1 (fr) * 1986-03-11 1988-06-10 Labo Electronique Physique Procede de renforcement des contours de signaux numeriques et dispositif de traitement pour la mise en oeuvre dudit procede
JPS63206828A (ja) 1987-02-23 1988-08-26 Mitsubishi Electric Corp 最大値ストレツチ回路
US5014235A (en) 1987-12-15 1991-05-07 Steven G. Morton Convolution memory
US5136717A (en) 1988-11-23 1992-08-04 Flavors Technology Inc. Realtime systolic, multiple-instruction, single-data parallel computer system
EP0411341A3 (en) * 1989-07-10 1992-05-13 Yozan Inc. Neural network
US5138695A (en) 1989-10-10 1992-08-11 Hnc, Inc. Systolic array image processing system
JP2756170B2 (ja) 1990-03-05 1998-05-25 日本電信電話株式会社 ニューラルネットワーク学習回路
US5337395A (en) 1991-04-08 1994-08-09 International Business Machines Corporation SPIN: a sequential pipeline neurocomputer
US5146543A (en) 1990-05-22 1992-09-08 International Business Machines Corp. Scalable neural array processor
JPH04290155A (ja) 1991-03-19 1992-10-14 Fujitsu Ltd 並列データ処理方式
WO1993008538A1 (en) * 1991-10-17 1993-04-29 Kawasaki Steel Corporation Processor for neural network
US5903454A (en) 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
US5799134A (en) 1995-03-13 1998-08-25 Industrial Technology Research Institute One dimensional systolic array architecture for neural network
US5812993A (en) 1996-03-07 1998-09-22 Technion Research And Development Foundation Ltd. Digital hardware architecture for realizing neural network
US6038337A (en) 1996-03-29 2000-03-14 Nec Research Institute, Inc. Method and apparatus for object recognition
JPH11177399A (ja) 1997-12-15 1999-07-02 Mitsubishi Electric Corp クロック遅延回路およびこれを用いた発振回路、位相同期回路、クロック生成回路
GB9902115D0 (en) 1999-02-01 1999-03-24 Axeon Limited Neural networks
US7054850B2 (en) * 2000-06-16 2006-05-30 Canon Kabushiki Kaisha Apparatus and method for detecting or recognizing pattern by employing a plurality of feature detecting elements
JP3613466B2 (ja) * 2001-04-06 2005-01-26 旭化成株式会社 データ演算処理装置及びデータ演算処理プログラム
US7245767B2 (en) 2003-08-21 2007-07-17 Hewlett-Packard Development Company, L.P. Method and apparatus for object identification, classification or verification
US7693585B2 (en) 2004-09-30 2010-04-06 Rockwell Automation Technologies, Inc. Enabling object oriented capabilities in automation systems
US7634137B2 (en) 2005-10-14 2009-12-15 Microsoft Corporation Unfolded convolution for fast feature extraction
EP2122542B1 (en) 2006-12-08 2017-11-01 Medhat Moussa Architecture, system and method for artificial neural network implementation
US8184696B1 (en) 2007-09-11 2012-05-22 Xilinx, Inc. Method and apparatus for an adaptive systolic array structure
JP5376920B2 (ja) 2008-12-04 2013-12-25 キヤノン株式会社 コンボリューション演算回路、階層的コンボリューション演算回路及び物体認識装置
EP2259214B1 (en) * 2009-06-04 2013-02-27 Honda Research Institute Europe GmbH Implementing a neural associative memory based on non-linear learning of discrete synapses
US8442927B2 (en) 2009-07-30 2013-05-14 Nec Laboratories America, Inc. Dynamically configurable, multi-ported co-processor for convolutional neural networks
TWI525558B (zh) 2011-01-17 2016-03-11 Univ Nat Taipei Technology Resilient high - speed hardware reverse transfer and feedback type neural network system
US8924455B1 (en) 2011-02-25 2014-12-30 Xilinx, Inc. Multiplication of matrices using systolic arrays
TW201331855A (zh) 2012-01-19 2013-08-01 Univ Nat Taipei Technology 具自由回饋節點的高速硬體倒傳遞及回饋型類神經網路
KR20130090147A (ko) * 2012-02-03 2013-08-13 안병익 신경망 컴퓨팅 장치 및 시스템과 그 방법
JP5834997B2 (ja) * 2012-02-23 2015-12-24 株式会社ソシオネクスト ベクトルプロセッサ、ベクトルプロセッサの処理方法
CN102665049B (zh) * 2012-03-29 2014-09-17 中国科学院半导体研究所 基于可编程视觉芯片的视觉图像处理系统
US9081608B2 (en) * 2012-05-19 2015-07-14 Digital System Research Inc. Residue number arithmetic logic unit
WO2014009775A1 (en) * 2012-07-12 2014-01-16 Nokia Corporation Vector quantization
US9477925B2 (en) 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
US9811775B2 (en) 2012-12-24 2017-11-07 Google Inc. Parallelizing neural networks during training
US20140280989A1 (en) 2013-03-14 2014-09-18 Thomas J. Borkowski System and method for establishing peer to peer connections through symmetric nats
US9190053B2 (en) 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
KR20150016089A (ko) * 2013-08-02 2015-02-11 안병익 신경망 컴퓨팅 장치 및 시스템과 그 방법
JP6107531B2 (ja) 2013-08-15 2017-04-05 富士ゼロックス株式会社 特徴抽出プログラム及び情報処理装置
US9978014B2 (en) * 2013-12-18 2018-05-22 Intel Corporation Reconfigurable processing unit
JP6314628B2 (ja) * 2014-04-28 2018-04-25 株式会社デンソー 演算処理装置
CN104035751B (zh) 2014-06-20 2016-10-12 深圳市腾讯计算机系统有限公司 基于多图形处理器的数据并行处理方法及装置
US9886948B1 (en) * 2015-01-05 2018-02-06 Amazon Technologies, Inc. Neural network processing of multiple feature streams using max pooling and restricted connectivity
EP3064130A1 (en) 2015-03-02 2016-09-07 MindMaze SA Brain activity measurement and feedback system
US20160267111A1 (en) 2015-03-11 2016-09-15 Microsoft Technology Licensing, Llc Two-stage vector reduction using two-dimensional and one-dimensional systolic arrays
US10102481B2 (en) * 2015-03-16 2018-10-16 Conduent Business Services, Llc Hybrid active learning for non-stationary streaming data with asynchronous labeling
US9552510B2 (en) * 2015-03-18 2017-01-24 Adobe Systems Incorporated Facial expression capture for character animation
CN107430678A (zh) * 2015-03-27 2017-12-01 英特尔公司 使用高斯接收场特征的低成本面部识别
US10192162B2 (en) 2015-05-21 2019-01-29 Google Llc Vector computation unit in a neural network processor
GB2558271B (en) * 2016-12-23 2021-09-08 Imagination Tech Ltd Median determination

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Farabet, Clément, et al. Cnp: An fpga-based processor for convolutional networks. 2009 International Conference on Field Programmable Logic and Applications. IEEE, 2009.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544213B2 (en) 2021-03-04 2023-01-03 Samsung Electronics Co., Ltd. Neural processor

Also Published As

Publication number Publication date
KR20200077614A (ko) 2020-06-30
EP3298545B1 (en) 2023-10-25
TWI638272B (zh) 2018-10-11
JP7346510B2 (ja) 2023-09-19
JP2020017281A (ja) 2020-01-30
GB2600290A (en) 2022-04-27
JP2023169224A (ja) 2023-11-29
HK1245954A1 (zh) 2018-08-31
KR20230048449A (ko) 2023-04-11
CN107533667A (zh) 2018-01-02
FI3298545T3 (fi) 2024-01-11
JP2022000782A (ja) 2022-01-04
US20230206070A1 (en) 2023-06-29
US11620508B2 (en) 2023-04-04
CN107533667B (zh) 2021-07-13
KR102379700B1 (ko) 2022-03-25
US20160342889A1 (en) 2016-11-24
KR20170126997A (ko) 2017-11-20
TW201729124A (zh) 2017-08-16
CN113392964A (zh) 2021-09-14
DK3298545T3 (da) 2024-01-02
GB2553055B (en) 2022-05-11
GB2553055A (en) 2018-02-21
GB201715525D0 (en) 2017-11-08
JP7000387B2 (ja) 2022-01-19
JP6615902B2 (ja) 2019-12-04
WO2016186813A1 (en) 2016-11-24
US10074051B2 (en) 2018-09-11
TWI591490B (zh) 2017-07-11
JP2018518731A (ja) 2018-07-12
DE202016107442U1 (de) 2017-01-18
EP3298545A1 (en) 2018-03-28
US10192162B2 (en) 2019-01-29
US20170103315A1 (en) 2017-04-13
KR20220041962A (ko) 2022-04-01
DE112016002296T5 (de) 2018-02-15
EP4276690A1 (en) 2023-11-15
US20190228301A1 (en) 2019-07-25
TW201706873A (zh) 2017-02-16
KR102516092B1 (ko) 2023-03-29

Similar Documents

Publication Publication Date Title
KR102127524B1 (ko) 신경망 프로세서의 벡터 컴퓨테이션 유닛
US11704547B2 (en) Transposing neural network matrices in hardware
KR102106144B1 (ko) 신경망 프로세서에서의 배치 프로세싱
KR102413522B1 (ko) 신경망 프로세서에서 사용하기 위한 가중치들의 프리페칭

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant