KR20190117712A - 3차원 적층을 통한 신경 네트워크 가속기 타일 아키텍처 - Google Patents

3차원 적층을 통한 신경 네트워크 가속기 타일 아키텍처 Download PDF

Info

Publication number
KR20190117712A
KR20190117712A KR1020197027656A KR20197027656A KR20190117712A KR 20190117712 A KR20190117712 A KR 20190117712A KR 1020197027656 A KR1020197027656 A KR 1020197027656A KR 20197027656 A KR20197027656 A KR 20197027656A KR 20190117712 A KR20190117712 A KR 20190117712A
Authority
KR
South Korea
Prior art keywords
neural network
network accelerator
tile
tci
transmitting coil
Prior art date
Application number
KR1020197027656A
Other languages
English (en)
Other versions
KR102385350B1 (ko
Inventor
안드레아스 조지 노왓직
올리비에 데맘
라비 나라야나스와미
유데이 쿠마 다사리
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20190117712A publication Critical patent/KR20190117712A/ko
Application granted granted Critical
Publication of KR102385350B1 publication Critical patent/KR102385350B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/16Circuits

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Neurology (AREA)
  • Multi Processors (AREA)
  • Advance Control (AREA)
  • Near-Field Transmission Systems (AREA)
  • Radiation-Therapy Devices (AREA)

Abstract

3차원 신경 네트워크 가속기는 제1 전송 코일을 포함하는 제1 신경 네트워크 가속기 타일 및 제2 전송 코일을 포함하는 제2 신경 네트워크 가속기 타일을 포함하며, 상기 제1 신경 네트워크 가속기 타일은 상기 제2 신경 네트워크 가속기 타일에 인접하고 수직으로 정렬되며, 그리고 상기 제1 전송 코일은 유도 결합을 통해 상기 제2 전송 코일과 무선으로 통신하도록 구성된다.

Description

3차원 적층을 통한 신경 네트워크 가속기 타일 아키텍처
본 명세서는 일반적으로 하드웨어의 신경 네트워크 계산 가속화와 관련된다.
신경 네트워크들은 수신된 입력에 대한 출력을 예측하기 위한 비선형 유닛들의 하나 이상의 레이어들을 이용하는 기계 학습 모델들이다. 일부 신경 네트워크들은 출력 레이어에 더하여 하나 이상의 히든 레이어들을 포함한다. 각 히든 레이어의 출력은 네트워크에서 다음 레이어 즉, 다음 히든 레이어 또는 출력 레이어에 대한 입력으로서 사용된다. 네트워크의 각 레이어는 각각의 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.
일반적으로, 본 명세서에 기술된 발명의 일 혁신적 양태는 3차원 신경 네트워크 가속기에 수록될 수 있고, 상기 가속기는: 제1 전송 코일을 포함하는 제1 신경 네트워크 가속기 타일; 및 제2 전송 코일을 포함하는 제2 신경 네트워크 가속기 타일을 포함하며, 상기 제1 신경 네트워크 가속기 타일은 상기 제2 신경 네트워크 가속기 타일에 인접하고 수직으로 정렬되며, 상기 제1 전송 코일은 유도 결합을 통해 상기 제2 전송 코일과 무선 통신을 설정하도록 구성되고, 그리고 상기 제1 신경 네트워크 가속기 타일 및 제2 신경 네트워크 가속기 타일은 상기 설정된 무선 통신을 통해, 데이터의 중단없는 흐름을 제공하는 통신 방식을 포함하는 정적 상호연결 시스템을 형성함으로써, 신경 네트워크의 계산을 가속화하도록 구성된다.
이들 및 다른 구현들은 각각 다음 특징들 중 하나 이상을 선택적으로 포함할 수 있다: 상기 제1 신경 네트워크 가속기 타일은 제1 신경 네트워크 가속기 칩 상의 타일들의 제1 어레이에 포함되고, 상기 제2 신경 네트워크 가속기 타일은 제2 신경 네트워크 가속기 칩 상의 타일들의 제2 어레이에 포함되고, 상기 제1 전송 코일은 근거리 무선 통신(Near Field Wireless Communication)을 통해 상기 제1 신경 네트워크 가속기 타일과 상기 제2 신경 네트워크 가속기 타일 사이에 디지털 논리 상호연결을 제공하도록 더 구성되며, 상기 제1 전송 코일은 ThruChip 인터페이스(TCI) 수신기 및 TCI 전송기를 더 포함하고, 상기 TCI 수신기는 상기 제2 전송 코일로부터 무선 통신을 수신하도록 구성되고, 상기 TCI 전송기는 상기 제2 전송 코일로부터 무선 통신을 전송하도록 구성되고, 상기 제1 신경 네트워크 가속기 타일은 프로세싱 엘리먼트 및 링 버스를 더 포함하고, 상기 프로세싱 엘리먼트, 상기 제1 전송 코일, 상기 TCI 수신기 및 상기 TCI 전송기는 상기 링 버스를 통해 통신가능하게 연결되며, 상기 프로세싱 엘리먼트는 하드웨어에서 신경 네트워크 계산을 수행하는 회로를 포함하고, 상기 제1 전송 코일은 상기 수직 링 버스를 형성하기 위해 상기 제2 전송 코일과의 TCI(ThruChip Interface) 연결을 설정하도록 더 구성되며, 상기 제1 신경 네트워크 가속기 타일은 다른 전송 코일들로부터의 간섭을 방지하기 위해 단락 평면(shorting plane)을 더 포함하고, 상기 제1 신경 네트워크 가속기 타일은 상기 제2 신경 네트워크 가속기 타일에 대해 180도 회전되며, 그리고 상기 제1 신경 네트워크 가속기 타일 및 제2 신경 네트워크 가속기 타일은 동일하게 배향된다.
본 명세서에 기술된 본 발명의 특정한 실시예들은 다음의 이점들을 실현하도록 구현될 수 있다. 예를 들어, 더 큰 모델을 수용하기 위해 온칩 메모리 용량을 증가시킨 3차원 스택형 신경 네트워크 가속기이다. 다른 3차원 적층 솔루션에 비해 추가 이점은 저렴한 비용, 더 높은 대역폭, 더 콤팩트하고 확장성을 포함한다는 것이다.
본 명세서에 기술된 본 발명의 하나 이상의 구현예들의 세부 사항은 첨부 도면과 아래의 설명에서 기술된다. 본 발명의 다른 잠재적 구성들, 양태들 및 이점들은 설명, 도면 및 청구항으로부터 명백해질 것이다.
도 1a 내지 도 1c는 예시적 신경 네트워크 가속기 타일의 블록도이다.
도 2는 2개의 신경 네트워크 가속기 칩들을 갖는 3차원적으로 적층된 신경 네트워크 가속기의 예를 도시한다.
도 3는 2개의 신경 네트워크 가속기 칩들을 갖는 3차원적으로 적층된 신경 네트워크 가속기의 다른 예를 도시한다.
도 4는 2개의 신경 네트워크 가속기 칩들을 갖는 3차원적으로 적층된 신경 네트워크 가속기의 또 다른 예를 도시한다.
도 5는 중간 대역폭 설계를 위한 수직 링 버스 구현을 갖는 예시적 3차원 적층된 신경 네트워크 가속기를 도시한다.
다양한 도면들에서 동일한 참조 번호 및 기호는 동일한 구성요소를 표시한다.
로봇 공학, 사물 인터넷 및 기계 학습 알고리즘을 사용하는 기타 영역에서 기술이 빠르게 발전하고 있다. 예를 들어, 얼굴 인식 및 사용자 선호 결정 기술은 신경 네트워크와 같은 기계 학습 기술을 사용하여 결과 정확도를 높인다. 신경 네트워크 계산은 범용 그래픽 프로세싱 유닛, 필드 프로그래밍 가능 게이트 어레이, 애플리케이션 특정 칩 및 기타 유사한 하드웨어를 사용하여 수행될 수 있다. 신경 네트워크 모델의 크기와 복잡성이 증가함에 따라, 실행을 위해 더 많은 계산 리소스가 필요하다. 계산 리소스의 증가를 처리하기 위해, 대규모 하드웨어 신경 네트워크 가속기가 사용될 수 있다.
신경 네트워크 가속기를 위한 아키텍처가 본 명세서에 기술된다. 신경 네트워크 가속기는 신경 네트워크의 계산, 즉 출력을 생성하기 위해 신경 네트워크를 사용하는 입력의 프로세싱을 가속화하도록 구성된 하드웨어 컴퓨팅 시스템이다. 신경 네트워크 가속기는 상호연결된 신경 네트워크 가속기 타일들의 어레이를 포함하는 신경 네트워크 다이(칩)를 적층함으로써 제조될 수 있다. 일부 구현예에서, 신경 네트워크 칩상의 어레이 내의 각 신경 네트워크 타일은 평면 링 버스 임베딩을 통해 서로 통신 가능하게 연결된다. 일단 절단되면, 신경 네트워크 칩은 신경 네트워크 가속기를 형성하기 위해 3차원 적으로 적층될 수 있다. 적층될 때, 하나의 신경 네트워크 칩 상의 타일들의 어레이 내의 적어도 하나의 신경 네트워크 타일은 제1 칩 바로 위 또는 아래에 적층된 다른 신경 네트워크 칩 상의 각각의 신경 네트워크 타일에 무선으로 통신 가능하게 링크될 수 있다. 링크된 신경 네트워크 타일은 정적 상호연결 시스템을 형성한다. 일부 구현예에서, 형성된 정적 상호연결 시스템은 각각의 신경 네트워크 가속기 타일들을 통한 프로세싱의 선형 시퀀스로서 조직화된다. 선형 시퀀스를 통한 프로세싱 시간의 선형 파이프라인은 언-코어(un-core)라고 하는 특수 제어기에서 시작하고 종료한다. 언-코어는 호스트 컴퓨터에 대한 입출력(I/O), 오프칩 메모리에 대한 인터페이스, I/O 디바이스들에 대한 연결 및/또는 동기화, 조정 및 버퍼 기능을 수행할 수 있는 기능 블록 집합이다.
신경 네트워크 가속기는 웨이퍼들이 다른 것의 위에 적층되고 서로 접합되는 웨이퍼 레벨 적층을 통해 제조될 수 있다. 웨이퍼는 일반적으로 둥글고 직경이 300 내지 450 밀리미터일 수 있는 얇은 반도체 재료 조각(예를 들어, 실리콘, 질화 갈륨 등)이다. 각 웨이퍼는 신경 네트워크 가속기 타일들의 어레이를 각각 포함하는 일련의 다이(또는 칩)를 갖는다. 웨이퍼가 적층되고 접합됨에 따라 다이(및 타일)가 정렬된다. 적층될 때, 상이한 칩 상의 신경 네트워크 가속기 타일들은 무선 통신(즉, TCI 기술을 사용한 유도 결합) 또는 실리콘 비아(TSV, through silicon vias)와 같은 수직 상호연결을 통해 서로 통신 가능하게 결합될 수 있다. 적층된 웨이퍼는 이후 신경 네트워크 가속기인 다이 스택으로 절단된다.
각 신경 네트워크 가속기 타일은 자립적이며, 멀티 레이어 신경 네트워크의 일부에 의해 요구되는 계산을 독립적으로 실행할 수 있다. 신경 네트워크 가속기 타일은 프로세싱 엘리먼트(또는 프로세서, 프로세서 코어), 메모리 및 전송 코일에 연결된 링 버스를 포함한다. 전송 코일은 바로 위 또는 아래에 적층된 인접한 타일의 전송 코일과 유도적으로 통신하도록 구성될 수 있다. 프로세싱 엘리먼트는 하드웨어에서 신경 네트워크 계산을 프로세싱하는데 필요한 계산을 수행하도록 구성된다. 예를 들어, 프로세싱 엘리먼트는 하드웨어에서 하나 이상의 신경 네트워크 빌딩 블록 계산, 예를 들어 행렬 곱, 액티베이션 함수의 계산, 풀링, 소프트맥스 또는 로지스틱 회귀 계산 등을 수행할 수 있다. 신경 네트워크 가속기 타일에 포함된 프로세싱 엘리먼트에 대한 예시적 아키텍처는 미국 특허 출원 번호 15/335,769에 기재되어 있으며, 이는 본원에 참조로 포함된다.
신경 네트워크 가속기의 제조 동안, 신경 네트워크 가속기 칩/다이는 내장된 신경 네트워크 타일을 통해 칩들 사이에 무선 통신을 허용하는 방식으로 적층된다. 신경 네트워크 가속기 타일은 내장된 전송 코일을 통해 적층된 타일들 간에 무선 통신을 가능하게 함으로써 이 3차원 스케일링을 지원한다. 일부 구현에서, 적층된 타일 간의 무선 통신은 ThruChip 무선 상호연결 기술에 기초한다(ThruChip 무선 상호연결 기술은 2014년 8월 11일 Dave Ditzel의“ThruChip 무선 연결을 사용한 저비용 3D 칩 적층”에 자세히 설명되어 있음). 예를 들어, 전송 코일은 TCI를 제공하는 한 쌍의 루프일 수 있다. 일부 구현예에서, 전송 코일들은 상기 로직을 프로세스하는 종래의 금속 산화물 반도체(CMOS) 및/또는 신경 네트워크 가속기 타일의 메모리 영역들로 구성된다. 신경 네트워크 가속기 타일이 다른 타일들 상에 적층된 경우(즉, 각각의 다이/칩들이 적층됨), TCI들(코일들)은 각각의 신경 네트워크 가속기 타일의 위 또는 아래의 신경 네트워크 가속기 타일들로 데이터가 전송 및/또는 그로부터 수신될 수 있게 한다. 일부 구현예에서, 도 2 및 도 3에 도시된 바와 같이, 어레이 내의 적어도 하나의 타일 사이트는 바로 위 또는 바로 아래에 적층된 신경 네트워크 칩 상의 각각의 타일 사이트로부터 무선 전송을 수신하도록 구성되고, 다른 타일 사이트는 동일한 신경 네트워크 칩 상의 각각의 타일 사이트에 무선 전송을 송신하도록 구성된다. 일부 구현예에서, 도 4에 도시된 바와 같이, 어레이 내의 하나의 타일 사이트는 바로 위 또는 바로 아래에 적층되는 신경 네트워크 칩 상의 각각의 타일 사이트로부터/사이트로 무선 전송을 수신 및 송신하도록 구성된다.
신경 네트워크 가속기 칩은 또한 타일의 어레이의 내부 및 외부로 데이터를 연결하는 I/O 인터페이스 회로, 타일들의 프로세싱 엘리먼트에 클럭 신호를 제공하는 클럭 분배 회로 및 기타 인터페이스 및 제어 기능 등과 같은 언-코어 내의 다른 온칩 회로를 포함한다. 예를 들어, 인터페이스는 호스트 컴퓨터에 대한 것일 수 있다. 이러한 인터페이스는 3차원 스택의 모든 칩 상에 복제될 수 있거나, 인터페이스는 TCI를 통해 3차원 스택에 연결된 상이한 프로세싱 노드를 이용하는 제2 칩에 위임될 수 있다.
신경 네트워크 가속기 칩은 정적 상호연결 시스템을 통해 형성된 시퀀스에 따라 각 타일 사이에서 데이터를 라우팅할 수 있다. 예를 들어, 데이터는 정적 상호연결 시스템에서 하나의 컴퓨팅 타일에서 수신되고, 프로세싱되고, 그 다음 타일의 출력이 정적 상호연결 시스템 내의 시퀀스에서 다음 타일에게로 전송되고 그로부터 수신될 수 있다. 그 다음, 다음 타일은 수신된 입력을 프로세싱한다. 이 과정은 시퀀스에서 각 타일에 의해 반복된다.
도 1a는 예시적 신경 네트워크 가속기 타일(100)의 블록도이다. 예시적 타일(100)은 프로세싱 엘리먼트(110), 링-버스(120), 전송 코일(130), TCI 수신기(142) 및 TCI 전송기(140)를 포함한다. 신경 네트워크 가속기 타일(100)은 유사한 신경 네트워크 가속기의 어레이 내의 웨이퍼 상에 제조될 수 있다. 신경 네트워크 가속기의 어레이는 웨이퍼 상에 제조된 다이에 포함될 수 있다. 타일 프로세서 엘리먼트(또는 프로세서 코어(들))(110)는 계산 및 제어 기능을 수행하는데 사용되는 기능 유닛, 메모리, 데이터 경로 및 제어 로직을 포함할 수 있다. 일부 구현예에서, 전송 코일들(130)은 영역 절약을 최대화하기 위해 신경 네트워크 가속기 타일(100)의 프로세싱 엘리먼트(110)(즉, 논리 및/또는 메모리 영역) 위에 제조된다.
링-버스(120)는 프로세싱 엘리먼트(110), 전송 코일(130), TCI 수신기(142) 및 TCI 전송기(140)와 같은 타일(100) 컴포넌트의 상호연결 뿐만 아니라 동일한 다이 내에 제조된 다른 신경 네트워크 가속기들(즉, 동일한 타일 어레이 내의) 간의 상호연결을 표현한다. 일부 구현예에서, 링-버스(120)는 방향성(directed), 이분(bipartite) 그래프에서 해밀턴 회로를 형성하기 위해 어레이 내의 타일들을 연결하는 각각의 신경 네트워크 칩 상의 링-버스에 내장된 평면의 일부이며, 각 프로세싱 타일은 하나의 입력 및 하나의 출력 버텍스에 의해 표현되며, 프로세싱 유닛은 입력을 출력에 연결하는 에지이다. 링-버스(120)의 경우, 가능한 멀티플렉서 구성은 특정 출력을 특정 입력에 연결하는 다수의 에지로 표현될 수 있다. 일부 구현예에서, 평면 임베딩의 일부로서 타일들의 선형 시리즈를 용이하게 하기 위해, 링-버스(120)는 일측에서 타일(100)에 들어가서 반대측에서 나온다.
상기 기술된 바와 같이, 타일(100)은 신경 네트워크 가속기 칩 상의 유사한 타일들의 어레이 내에 포함될 수 있는 개별 컴퓨팅 유닛이다. 일부 구현예에서, 타일(100)은 하나 이상의 인접한 타일들과 통신 가능하게 연결될 수 있으며, 이들은 3차원적으로 적층된 신경 네트워크 가속기 내에 정적 상호연결 시스템을 형성하도록 적층될 수 있다. 적층된 타일들은 3차원적으로 적층된 신경 네트워크 가속기에 걸쳐 신경 네트워크의 계산을 분산시키기 위해 사용된다. 예를 들어, 각 타일(100)은 하나 이상의 인접한 타일(즉, 위 또는 아래에 있고 무선으로 연결된 타일 또는 평면 링 버스를 통해 연결된 신경 네트워크 칩 상의 동일한 타일 어레이 내의 타일)과 통신하여 정적 상호연결 시스템을 형성한다. 상호연결 시스템은 프로세싱 타일이 3차원 스택의 계산 리소스를 포함하는 링-버스(120)와 같은 하나 이상의 링-버스들의 일부가 되도록 구성될 수 있다. 이러한 구성은 칩의 3차원 스택의 타일이 효율적으로 활용될 수 있게 하고, 어플리케이션에 의해 요구되는 경우 계산 리소스를 다수의 링으로 재구성할 수 있는 유연성을 제공한다.
전송 코일(130)은 타일(100)에 내장되고, TCI 연결을 제공하며, 이는 각각의 TCI 수신기(142)에 의해 수신되고, 각각의 TCI 전송기(140)에 의해 전송된다. 전송 코일(130)은 예를 들어 각각의 타일 위 또는 아래에 3차원적으로 적층된 다른 타일(100)의 전송 코일들(130) 사이에서 근거리 무선 통신(Near Field Wireless Communication)을 가능하게 하기 위해 자기장을 사용하는 유도 결합을 사용한다. 활성화된 근거리 무선 통신은 3차원적으로 적층된 신경 네트워크 가속기 칩들 간의 디지털 논리 상호연결을 제공한다. 일부 구현예에서, 타일(100)은 3차원 스택에서 타일(100) 위 또는 아래의 인접 타일과 통신하기 위해 설정된 근거리 무선 통신을 이용할 수 있다. 전송 코일(130)은 2개의 타일이 적층된 경우, 각각의 전송 코일이 다른 코일들 간의 전송을 방해하지 않도록 도 1a에 도시된 바와 같이 서로 오프셋될 수 있다. 전송 코일(130), TCI 수신기(142) 및 TCI 전송기(140)는 함께 TCI를 형성한다. 이러한 TCI는 타일(100)에 비해 작기 때문에, TCI 연결에 필요한 면적이 유사한 TSV의 면적보다 작다. 예를 들어, 피처 크기가 20 나노 미터(nm) 미만인 현대의 프로세스 노드에서, 초당 50 기가비트(Gb/s)를 초과하는 대역폭을 실현할 수 있다. 실제 속도는 전원 및 SERDES(serializer/deserializer) 로직의 복잡성과 같은 엔지니어링 고려사항이 적용된다. 예를 들어, TCI 코일 크기는 적층된 다이의 두께에 따라 달라진다. 현재의 박형화 기술은 측면에서 2.6 mm의 3배 또는 약 8 mm의 코일 크기에 대해 2.6 mm 다이 두께를 보여준다. 보다 보수적인 다이 두께는 코일 크기가 약 12mm일 때 4mm이다.
예를 들어, 타일은 1 x 1mm 정도이고, 대략 6000개의 TCI를 위한 공간을 가질 수 있다. 고 대역폭 설계를 갖는 타일(100)은 이 타일 영역의 상당 부분을 커버하는 다수의 TCI(전송 코일(130), TCI 수신기(142) 및 TCI 전송기(140))를 포함할 수 있다. 예를 들어, 한 그룹의 TCI는 20Gb/s로 동작할 수 있으며, 링 버스(120)로 데이터를 전송하기 위해 대략 50개의 TCI가 필요하고, 링 버스(120)에 대한 데이터를 수신하기 위해 다른 50개의 TCI가 필요하다.
중간 대역폭 설계의 타일은 타일 영역의 작은 부분을 커버하는 많은 TCI를 포함한다. 예를 들어, 다이 두께는 대략 15mm로 증가될 수 있고, 타일(100)은 대략 20 내지 30개의 TCI를 포함할 수 있다. 이러한 예에서, 전송 코일(130)은 45 mm 측면 길이를 갖고, 대략 400개의 가능한 TCI 사이트를 생성할 수 있다. TCI는 1 × 1mm 타일의 에지의 절반에 선형 열로 배치될 수 있으며, 여기서 TCI 전송기(140) 및 TCI 수신기(142)는 타일의 인터페이스 측 근처에 있고, 10Gb/s 미만으로 동작한다. 예시적 중간 대역폭 설계 구성이 도 4에 도시되어 있다.
일부 구현예에서, 타일(100)은 평면 링 버스의 부분(120)을 포함한다. 평면 링 버스는 어레이의 각 타일을 신경 네트워크 칩에 통신가능하게 연결한다. 링-버스는 한 타일에서 다음 타일(즉, 포인트-투-포인트)까지 약 2000개의 전선이 있으며, 각각 0.25에서 0.5 Gb/s 사이의 대역폭을 가진다. 링 버스 폭은 링 버스를 구성하는 전선들의 수이다. 예를 들어, 칩의 각 타일은 약 2000개의 전선으로 데이터를 송신하며, 이전 타일로부터 들어오는 약 2000개의 전선들의 다른 세트를 가진다.
이러한 구현예에서, 타일(100)에 대한 TCI의 신호 레이트는 20 내지 40Gb/s일 수 있다. 일부 구현예에서, TCI들은 일정한 전류 스위칭으로 인해 전송기가 실제 데이터 속도와 독립적으로, 일정한 양의 전력을 끌어들이기 때문에, 전력을 보존하기 위해 높은 속도로 동작할 수 있다. 코일 크기는 개별 다이 두께의 함수이다. 타일(100)은 2.6과 10mm로 얇아질 수 있다. 이는 12-30 mm 또는 칩-칩 거리의 3배인 TCI 코일 에지 길이에 해당한다.
고 대역폭 설계를 위해, 두께의 상위 범위(10 mm)에서의 타일 두께, 빠른 신호 속도 및 낮은 다중화 비율이 사용될 수 있다. 고 대역폭 설계의 일부 구현에서, 타일(100)상의 TCI는 링-버스 속도로 데이터를 전송 또는 수신할 수 있지만, 둘 모두는 아니다. 이러한 구현예에서, 대역폭 가정은 (타일당 사용가능한 대략 6000 TCI의) 더 많은 수의 TCI를 사용할 수 있어서, 하나의 타일 상에 하나의 링-버스 연결과 동등한 대역폭을 전송 또는 수신하기에 충분한 TCI를 위한 충분한 공간이 존재하도록 할 수 있다. 예시적 고 대역폭 설계 구성이 도 2 및 3에 도시되어 있다.
도 1b는 타일(100)의 추상적 표현의 블록도이다. 도 1b의 타일(100)의 추상적 표현은 프로세싱 엘리먼트(110) 및 원(150)으로 표현되는 한 세트의 TCI들을 포함한다. 타일(100)에 대한 TCI들(150)의 세트는 도 1a의 전송 코일(130), TCI 수신기(142) 및 TCI 전송기(140)를 포함한다.
도 1c는 타일(100)의 다른 추상적 표현의 블록도이다. 도 1c의 타일(100)의 추상적 표현은 프로세싱 엘리먼트(110) 및 원(160)으로 표현되는 두 세트의 TCI들 및 멀티플렉서(160)를 포함한다. 타일(100)에 대한 TCI들(150)의 세트는 2개의 별개의 세트로 그룹화된 도 1a의 전송 코일(130), TCI 수신기(142) 및 TCI 전송기(140)를 포함한다. 멀티플렉서(160)는 예를 들어 구성 레지스터에 의해 어느 TCI 세트가 전송하고 있는지 및 수신하고 있는지 정적으로 제어되는 것을 제어한다. 위에서 언급된 바와 같이, 하나의 타일에 대해 가능한 TCI 사이트의 수는 상당히 클 수 있으므로(약 6000개), 두 개의 원 각각은 전송기 또는 수신기로 구성된 TCI들의 그룹을 표현한다(도 1b의 기호와 일관됨). 도 1b 및 1c의 추상 표현은 도 2-5에서 사용된다.
도 2는 2개의 신경 네트워크 가속기 칩들(220 및 222)을 갖는 3차원적으로 적층된 신경 네트워크 가속기(200)의 예를 도시한다. 두 개의 칩들의 스택이 도시되어 있다; 그러나, 임의의 수의 칩(레이어)이 사용될 수 있다. 신경 네트워크 가속기 칩들(220, 222)은 하나의 TCI 세트를 포함하는 신경 네트워크 가속기 타일(100)을 포함한다(도 1b에 도시된 바와 같이). 도시된 예에서, 신경 네트워크 가속기 칩(220, 222)은 각각의 신경 네트워크 가속기 칩(220, 222)에 대한 링-버스(240, 242)가 평행하게 그리고 동일한 배향으로 동작하도록 동일한 방향으로 서로의 상부에 배치된다. TCI 데이터 연결(232)은 상기 기술된 바와 같이 유도 결합을 사용하여 인접한 타일(100)을 통해 가속기 칩들(220, 222) 사이의 통신을 제공한다. 크로스오버 포인트(230)는 네트워크 가속기 칩(220 및 222) 사이에서 링 버스(240 및 242)를 라우팅하기 위해 TCI 데이터 연결(232)이 사용되는 곳이다. 크로스오버 포인트(230)는 링-버스(240 및 242)를 네트워크 가속기 칩들(220 및 222)의 모든 타일(100)을 포함하는 하나의 링으로 스티칭함으로써 생성된다. 하나의 링은 신경 네트워크 가속기 칩(220, 222)의 타일(100)을 통신가능하게 연결한다. 도시된 예에서, 단일 쌍의 TCI 데이터 연결(232)이 도시되어있다; 그러나, 임의의 수의 TCI 데이터 연결(232) 쌍이 신경 네트워크 가속기 칩들(220, 222) 사이에 형성되어 사용될 수 있다. 수직 데이터 교환에 참여할 수 있는 각각의 타일 쌍은 이들 타일을 연결하는 2개의 전선들의 세트(크로스오버 포인트(230))를 가지며, 이는 2배의 양의 전선들(2000 대신 4000)을 요구할 수 있다.
도 3는 2개의 신경 네트워크 가속기 칩들(320 및 322)을 갖는 3차원적으로 적층된 신경 네트워크 가속기(300)의 예를 도시한다. 두 개의 칩들의 스택이 도시되어 있다; 그러나, 임의의 수의 칩(레이어)이 사용될 수 있다. 신경 네트워크 가속기 칩들(320, 322)은 하나의 TCI 세트를 포함하는 신경 네트워크 가속기 타일(100)을 포함한다(도 1b에 도시된 바와 같이). 도시된 예에서, 신경 네트워크 가속기 칩들(320, 322)은 서로의 위에 배치되지만 배향은 서로에 대해 180도 회전된다. 도 2와 유사하게, TCI 데이터 연결(332)은 유도 결합을 사용하여 인접한 타일(100)을 통해 가속기 칩들(320, 322) 사이의 통신을 제공한다.
도시된 예에서, 평면 링 버스(340 및 342) 임베딩에 대한 약간의 제약(예를 들어, 회전 대칭 레이아웃을 피함)으로, 회전된 신경 네트워크 가속기 칩(320 및 322)은 각각의 링 버스(340 및 342)가 크로스오버 사이트(330)에서 반대 방향으로 실행되게 한다. 개시된 구성에서 TCI 사이트의 위치에서의 제약은 두 칩이 적층될 때 180도 회전되는 경우에도 TCI의 수직 정렬을 허용한다. 추가적으로, 도 3에 도시된 레이아웃은 도 2에 도시된 바와 같이, 크로스오버 사이트(330)에서 다른 칩은 어떠한 전선들도 사용하지 않으면서 데이터 트래픽을 전달하기 위해 하나의 칩이 두 세트의 링-버스 전선들을 갖는 것으로부터 완화시킨다. 이러한 구성은 링-버스 크로스오버를 구현하는 멀티플렉서 비용을 초과할 수 있는 배선 비용을 감소시킬 수 있다. 또한, 도 3의 레이아웃은 라우팅 오버헤드를 감소시킬 수 있다. 도시된 예에서, 단일 쌍의 TCI 데이터 연결(332)이 도시되어있다; 그러나, 임의의 수의 TCI 데이터 연결(332) 쌍이 신경 네트워크 가속기 칩들(320, 322) 사이에 형성된다. 이러한 설계는 일부 적용에 필요할 수 있는 다수의 독립적인 링을 형성할 수 있다.
도 4는 2개의 신경 네트워크 가속기 칩들(420 및 422)을 갖는 3차원적으로 적층된 신경 네트워크 가속기(400)의 예를 도시한다. 두 개의 칩들의 스택이 도시되어 있다; 그러나, 임의의 수의 칩(레이어)이 사용될 수 있다. 신경 네트워크 가속기 칩(420 및 422)은 2개의 TCI 세트를 포함하는 신경 네트워크 가속기 타일(100)을 포함한다(도 1c에 도시된 바와 같이). 도시된 예에서, 신경 네트워크 가속기 칩들(420, 422)은 서로의 위에 배치되고 동일한 배향으로 적층된다. TCI 데이터 연결(432)은 한 쌍의 인접한 타일(100)의 TCI 세트들 사이에 설정되고, 상기 기술된 바와 같이 유도 결합을 사용하여, 두 개의 인접한 타일(100)을 통해 가속기 칩들(420 및 422) 사이의 통신을 제공한다. 타일(100)에 2개의 TCI 세트를 사용함으로써, 크로스오버는 단지 하나의 타일 사이트에 로컬화된다. 이 구성은 긴 전선들이 전체 타일에 걸쳐 있어야 할 필요성을 완화시킨다. 대신에, 도시된 가속기(400)는 멀티플렉서를 제어하고 어느 TCI 세트가 전송하고 있고 어떤 TCI 세트가 수신하는지를 제어하는 타일 구성에서 대칭 차단 비트를 사용할 수 있다. 도시된 예에서, 단일의 쌍의 타일들이 TCI 데이터 연결(432)을 형성하기 위해 사용된다; 그러나, 임의의 수의 TCI 데이터 연결(432) 쌍이 신경 네트워크 가속기 칩들(420, 422) 사이에 형성되어 사용될 수 있다.
도 5는 고 대역폭 설계를 위한 수직 링 버스 구현을 갖는 예시적 3차원 적층된 신경 네트워크 가속기(500)를 도시한다. 도시된 예는 칩들 사이에 TCI 연결(542, 544)을 갖는 3개의 적층된 신경 네트워크 가속기 칩(510, 520 및 530)을 도시한다. TCI 연결(542)은 칩(510) 상의 타일 사이트(512)와 칩(520) 상의 타일 사이트(524) 사이에 있다. TCI 연결(544)은 칩(520) 상의 타일 사이트(522)와 칩(530) 상의 타일 사이트(532) 사이에 있다. 도시된 예시적 경우에, 각 타일 사이트(512, 522, 524 및 532)는 동일한 타일 위치를 공유하는 모든 적층된 칩 상의 모든 타일을 상호연결하는 하나의 수직 링-버스를 형성한다(즉, 타일의 각 컬럼은 하나의 링으로서 연결됨). 각 적층된 칩(510, 520 및 530)은 스택 내의 선행 칩에 대해 90도 회전된다. 링-버스 연결은 스택을 통해 이중 나선을 형성한다. 상단(또는 하단)은 링 버스를 반영하여 링을 닫는다. 일부 구현예에서, 2개의 프로세싱 타일들은 이 컬럼의 하나의 가상 타일로 결합되어 적어도 하나의 프로세싱 타일은 위로 그리고 다른 하나는 아래로 이동된다. 스택의 칩 수와 독립적으로 링의 타일 수를 제어하기 위해, 하나의 수직 나선을 구성하는 가상 타일은 더 많은(짝수) 타일 프로세서들을 그룹화할 수 있다. 도시된 예에서, 하부 레이어(510)는 호스트 컴퓨터 및/또는 링-버스 제어기에 대한 인터페이스를 포함할 수 있고, 스택의 나머지를 구성하는 칩은 순수한 타일 어레이이다. 이러한 배열은 제어 신호를 모든 타일들에 동시에 브로드캐스트하는데 사용될 수 있는 추가 TCI 기반 수직 버스들을 제공하여, 칩을 가로 질러 전선을 연결하는 것과 연관된 지연을 피한다. 일부 구현예에서, 더 많은 타일들을 갖는 더 긴 링들을 생성하기 위해, 링들이 제어기 타일(510) 상에 함께 스티칭될 수 있다. 이러한 구성은 컨트롤러 대 타일 비율을 동적으로 변경할 수 있도록 한다. 도시된 예에서, 단락 평면(518, 528 및 538)은 다음 칩을 넘어서 TCI 코일로부터의 간섭을 방지하기 위해 사용된다. 일부 구현예에서, 단락 평면들(518, 528 및 538)은 고체 금속 평면 또는 고밀도 그리드이며, 이는 전체 제조 프로세스에서 상당한 비용 증가를 부과하지 않으면서 TCI의 범위를 단축시키는 역할을 할 수 있다.
본 명세서는 많은 특정 구현 세부내용을 포함하지만, 이들은 임의의 발명의 범위 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정한 발명의 특정한 실시예에 특정적일 수 있는 구성들에 대한 설명으로 해석되어야 한다. 별개의 실시예의 맥락에서 본 명세서에서 기술되는 일정 구성들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 맥락에서 기술된 다양한 구성들은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브 조합으로 구현될 수 있다. 게다가, 구성들은 일정 조합으로 동작하고 심지어 초기적으로 그렇게 청구되는 것으로서 상기에서 기술될 수 있지만, 청구된 조합으로부터의 하나 이상의 구성들은 일부 경우, 조합으로부터 제거될 수 있고, 청구된 조합은 서브 조합 또는 서브 조합의 변형으로 안내될 수 있다.
유사하게, 동작들이 특정한 순서로 도면에서 도시되었지만, 이는 상기 동작들이 도시된 특정한 순서로 또는 시계열적 순서로 수행되어야 함을 요구하는 것으로서 또는 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안된다. 특정 환경에서, 멀티태스킹과 병렬 프로세싱은 이점이 있다. 게다가, 상기 기술된 실시예에서 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시예에서 그러한 분리가 필요한 것으로서 이해되어서는 안되며, 일반적으로 기술된 프로그램 컴포넌트들 및 시스템들은 단일의 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품들에 패키징될 수 있다고 이해되어야 한다.
본 발명의 특정한 실시예들이 기술되었다. 다른 실시예들도 다음의 청구항들의 범위 내에 있다. 예를 들면, 청구항들에서 기재된 액션들은 상이한 순서로 수행되고 여전히 원하는 결과들을 달성할 수 있다. 일 예시로서, 첨부 도면들에 도시된 프로세스들은 원하는 결과들을 달성하기 위해 특정한 도시된 순서, 또는 시계열적 순서를 반드시 필요로 하지 않는다. 특정 구현예에서, 멀티태스킹과 병렬 프로세싱은 이점이 있다.
추가적 구현예들은 다음 예시들에 요약되어 있다.
예시 1: 3차원 신경 네트워크 가속기로서, 제1 전송 코일을 포함하는 제1 신경 네트워크 가속기 타일; 및 제2 전송 코일을 포함하는 제2 신경 네트워크 가속기 타일을 포함하며, 상기 제1 신경 네트워크 가속기 타일은 상기 제2 신경 네트워크 가속기 타일에 인접하고 수직으로 정렬되며, 상기 제1 전송 코일은 유도 결합을 통해 상기 제2 전송 코일과 무선 통신을 설정하도록 구성되고, 그리고 상기 제1 신경 네트워크 가속기 타일 및 제2 신경 네트워크 가속기 타일은 상기 설정된 무선 통신을 통해, 데이터의 중단없는 흐름을 제공하는 통신 방식을 포함하는 정적 상호연결 시스템을 형성함으로써, 신경 네트워크의 계산을 가속화하도록 구성되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
예시 2: 예시 1에 있어서, 상기 제1 신경 네트워크 가속기 타일은 제1 신경 네트워크 가속기 칩 상의 타일들의 제1 어레이에 포함되고, 그리고 상기 제2 신경 네트워크 가속기 타일은 제2 신경 네트워크 가속기 칩 상의 타일들의 제2 어레이에 포함되는 것을 특징으로 3차원 신경 네트워크 가속기.
예시 3: 예시 1 또는 예시 2에 있어서, 상기 제1 전송 코일은 근거리 무선 통신(Near Field Wireless Communication)을 통해 상기 제1 신경 네트워크 가속기 타일과 상기 제2 신경 네트워크 가속기 타일 사이에 디지털 논리 상호연결을 제공하도록 더 구성되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
예시 4: 예시 1 내지 3 중 어느 한 항에 있어서, 상기 제1 전송 코일은 ThruChip 인터페이스(TCI) 수신기 및 TCI 전송기를 더 포함하고, 상기 TCI 수신기는 상기 제2 전송 코일로부터 무선 통신을 수신하도록 구성되고, 그리고 상기 TCI 전송기는 상기 제2 전송 코일로부터 무선 통신을 전송하도록 구성되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
예시 5: 예시 4에 있어서, 상기 제1 신경 네트워크 가속기 타일은 프로세싱 엘리먼트 및 링 버스를 더 포함하고, 상기 프로세싱 엘리먼트, 상기 제1 전송 코일, 상기 TCI 수신기 및 상기 TCI 전송기는 상기 링 버스를 통해 통신가능하게 연결되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
예시 6: 예시 5에 있어서, 상기 프로세싱 엘리먼트는 하드웨어에서 신경 네트워크 계산을 수행하는 회로를 포함하는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
예시 7: 예시 1 내지 6 중 어느 한 항에 있어서, 상기 제1 전송 코일은 상기 수직 링 버스를 형성하기 위해 상기 제2 전송 코일과의 TCI(ThruChip Interface) 연결을 설정하도록 더 구성되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
예시 8: 예시 1 내지 7 중 어느 한 항에 있어서, 상기 제1 신경 네트워크 가속기 타일은 다른 전송 코일들로부터의 간섭을 방지하기 위해 단락 평면(shorting plane)을 더 포함하는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
예시 9: 예시 1 내지 8 중 어느 한 항에 있어서, 상기 제1 신경 네트워크 가속기 타일은 상기 제2 신경 네트워크 가속기 타일에 대해 180도 회전되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
예시 10: 예시 1 내지 9 중 어느 한 항에 있어서, 상기 제1 신경 네트워크 가속기 타일 및 상기 제2 신경 네트워크 가속기 타일은 동일하게 배향되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
예시 11: 신경 네트워크 가속기를 제조하는 방법으로서, 제2 신경 네트워크 가속기 타일에 인접하고 수직으로 정렬되게 제1 신경 네트워크 가속기 타일을 적층(stacking)하는 단계를 포함하며, 제1 신경 네트워크 가속기 타일은 제1 전송 코일을 포함하며, 제2 신경 네트워크 가속기 타일은 제2 전송 코일을 포함하며, 상기 제1 전송 코일은 유도 결합을 통해 상기 제2 전송 코일과 무선으로 통신하도록 구성되고, 그리고 상기 제1 신경 네트워크 가속기 타일 및 제2 신경 네트워크 가속기 타일은 무선 통신을 통해, 데이터의 중단없는 흐름을 제공하는 통신 방식을 포함하는 정적 상호연결 시스템을 형성함으로써, 신경 네트워크의 계산을 가속화하도록 구성되는 것을 특징으로 하는 방법.
예시 12: 예시 11에 있어서, 상기 제1 신경 네트워크 가속기 타일은 제1 신경 네트워크 가속기 칩 상의 타일들의 제1 어레이에 포함되고, 그리고 상기 제2 신경 네트워크 가속기 타일은 제2 신경 네트워크 가속기 칩 상의 타일들의 제2 어레이에 포함되는 것을 특징으로 방법.
예시 13: 예시 11 또는 12에 있어서, 상기 제1 전송 코일은 근거리 무선 통신(Near Field Wireless Communication)을 통해 상기 제1 신경 네트워크 가속기 타일과 상기 제2 신경 네트워크 가속기 타일 사이에 디지털 논리 상호연결을 제공하도록 더 구성되는 것을 특징으로 하는 방법.
예시 14: 예시 11 내지 13에 있어서, 상기 제1 전송 코일은 ThruChip 인터페이스(TCI) 수신기 및 TCI 전송기를 더 포함하고, 상기 TCI 수신기는 상기 제2 전송 코일로부터 무선 통신을 수신하도록 구성되고, 그리고 상기 TCI 전송기는 상기 제2 전송 코일로부터 무선 통신을 전송하도록 구성되는 것을 특징으로 하는 방법.
예시 15: 예시 14에 있어서, 상기 제1 신경 네트워크 가속기 타일은 프로세싱 엘리먼트 및 링 버스를 더 포함하고, 상기 프로세싱 엘리먼트, 상기 제1 전송 코일, 상기 TCI 수신기 및 상기 TCI 전송기는 상기 링 버스를 통해 통신가능하게 연결되는 것을 특징으로 하는 방법.
예시 16: 예시 15에 있어서, 상기 프로세싱 엘리먼트는 하드웨어에서 신경 네트워크 계산을 수행하는 회로를 포함하는 것을 특징으로 하는 방법.
예시 17: 예시 11 내지 16 중 어느 한 항에 있어서, 상기 제1 전송 코일은 상기 수직 링 버스를 형성하기 위해 상기 제2 전송 코일과의 TCI(ThruChip Interface) 연결을 설정하도록 더 구성되는 것을 특징으로 하는 방법.
예시 18: 예시 17에 있어서, 상기 제2 신경 네트워크 가속기 타일은 상기 제1 신경 네트워크 가속기 타일에 대해 90도 회전되고, 상기 수직 링 버스는 상기 스택을 통해 이중 나선(bifilar spiral)을 형성하는 것을 특징으로 하는 방법.
예시 19: 예시 11 내지 18 중 어느 한 항에 있어서, 상기 제1 신경 네트워크 가속기 타일은 다른 전송 코일들로부터의 간섭을 방지하기 위해 단락 평면(shorting plane)을 더 포함하는 것을 특징으로 하는 방법.
예시 20: 예시 11 내지 19 중 어느 한 항에 있어서, 상기 제1 신경 네트워크 가속기 타일은 상기 제2 신경 네트워크 가속기 타일에 대해 180도 회전되는 것을 특징으로 하는 방법.

Claims (20)

  1. 3차원 신경 네트워크 가속기로서,
    제1 전송 코일을 포함하는 제1 신경 네트워크 가속기 타일; 및
    제2 전송 코일을 포함하는 제2 신경 네트워크 가속기 타일을 포함하며,
    상기 제1 신경 네트워크 가속기 타일은 상기 제2 신경 네트워크 가속기 타일에 인접하고 수직으로 정렬되며,
    상기 제1 전송 코일은 유도 결합을 통해 상기 제2 전송 코일과 무선 통신을 설정하도록 구성되고, 그리고
    상기 제1 신경 네트워크 가속기 타일 및 제2 신경 네트워크 가속기 타일은 상기 설정된 무선 통신을 통해, 데이터의 중단없는 흐름을 제공하는 통신 방식을 포함하는 정적 상호연결 시스템을 형성함으로써, 신경 네트워크의 계산을 수행하도록 구성되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
  2. 청구항 1에 있어서,
    상기 제1 신경 네트워크 가속기 타일은 제1 신경 네트워크 가속기 칩 상의 타일들의 제1 어레이에 포함되고, 그리고
    상기 제2 신경 네트워크 가속기 타일은 제2 신경 네트워크 가속기 칩 상의 타일들의 제2 어레이에 포함되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
  3. 청구항 1 또는 2에 있어서, 상기 제1 전송 코일은 근거리 무선 통신(Near Field Wireless Communication)을 통해 상기 제1 신경 네트워크 가속기 타일과 상기 제2 신경 네트워크 가속기 타일 사이에 디지털 논리 상호연결을 제공하도록 더 구성되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
  4. 청구항 1 내지 3 중 어느 한 항에 있어서,
    상기 제1 전송 코일은 ThruChip 인터페이스(TCI) 수신기 및 TCI 전송기를 더 포함하고,
    상기 TCI 수신기는 상기 제2 전송 코일로부터 무선 통신을 수신하도록 구성되고, 그리고
    상기 TCI 전송기는 상기 제2 전송 코일로부터 무선 통신을 전송하도록 구성되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
  5. 청구항 4에 있어서, 상기 제1 신경 네트워크 가속기 타일은 프로세싱 엘리먼트 및 링 버스를 더 포함하고, 상기 프로세싱 엘리먼트, 상기 제1 전송 코일, 상기 TCI 수신기 및 상기 TCI 전송기는 상기 링 버스를 통해 통신가능하게 연결되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
  6. 청구항 5에 있어서, 상기 프로세싱 엘리먼트는 하드웨어에서 신경 네트워크 계산을 수행하는 회로를 포함하는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
  7. 청구항 1 내지 6 중 어느 한 항에 있어서, 상기 제1 전송 코일은 상기 수직 링 버스를 형성하기 위해 상기 제2 전송 코일과의 TCI(ThruChip Interface) 연결을 설정하도록 더 구성되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
  8. 청구항 1 내지 7 중 어느 한 항에 있어서, 상기 제1 신경 네트워크 가속기 타일은 다른 전송 코일들로부터의 간섭을 방지하기 위해 단락 평면(shorting plane)을 더 포함하는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
  9. 청구항 1 내지 8 중 어느 한 항에 있어서, 상기 제1 신경 네트워크 가속기 타일은 상기 제2 신경 네트워크 가속기 타일에 대해 180도 회전되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
  10. 청구항 1 내지 9 중 어느 한 항에 있어서, 상기 제1 신경 네트워크 가속기 타일 및 상기 제2 신경 네트워크 가속기 타일은 동일하게 배향되는 것을 특징으로 하는 3차원 신경 네트워크 가속기.
  11. 신경 네트워크 가속기를 제조하는 방법으로서,
    제2 신경 네트워크 가속기 타일에 인접하고 수직으로 정렬되게 제1 신경 네트워크 가속기 타일을 적층(stacking)하는 단계를 포함하며,
    제1 신경 네트워크 가속기 타일은 제1 전송 코일을 포함하며,
    제2 신경 네트워크 가속기 타일은 제2 전송 코일을 포함하며,
    상기 제1 전송 코일은 유도 결합을 통해 상기 제2 전송 코일과 무선으로 통신하도록 구성되고, 그리고
    상기 제1 신경 네트워크 가속기 타일 및 제2 신경 네트워크 가속기 타일은 무선 통신을 통해, 데이터의 중단없는 흐름을 제공하는 통신 방식을 포함하는 정적 상호연결 시스템을 형성함으로써, 신경 네트워크의 계산을 수행하도록 구성되는 것을 특징으로 하는 방법.
  12. 청구항 11에 있어서,
    상기 제1 신경 네트워크 가속기 타일은 제1 신경 네트워크 가속기 칩 상의 타일들의 제1 어레이에 포함되고, 그리고
    상기 제2 신경 네트워크 가속기 타일은 제2 신경 네트워크 가속기 칩 상의 타일들의 제2 어레이에 포함되는 것을 특징으로 하는 방법.
  13. 청구항 11 또는 12에 있어서, 상기 제1 전송 코일은 근거리 무선 통신(Near Field Wireless Communication)을 통해 상기 제1 신경 네트워크 가속기 타일과 상기 제2 신경 네트워크 가속기 타일 사이에 디지털 논리 상호연결을 제공하도록 더 구성되는 것을 특징으로 하는 방법.
  14. 청구항 11 내지 13에 있어서,
    상기 제1 전송 코일은 ThruChip 인터페이스(TCI) 수신기 및 TCI 전송기를 더 포함하고,
    상기 TCI 수신기는 상기 제2 전송 코일로부터 무선 통신을 수신하도록 구성되고, 그리고
    상기 TCI 전송기는 상기 제2 전송 코일로부터 무선 통신을 전송하도록 구성되는 것을 특징으로 하는 방법.
  15. 청구항 14에 있어서, 상기 제1 신경 네트워크 가속기 타일은 프로세싱 엘리먼트 및 링 버스를 더 포함하고, 상기 프로세싱 엘리먼트, 상기 제1 전송 코일, 상기 TCI 수신기 및 상기 TCI 전송기는 상기 링 버스를 통해 통신가능하게 연결되는 것을 특징으로 하는 방법.
  16. 청구항 15에 있어서, 상기 프로세싱 엘리먼트는 하드웨어에서 신경 네트워크 계산을 수행하는 회로를 포함하는 것을 특징으로 하는 방법.
  17. 청구항 11 내지 16 중 어느 한 항에 있어서, 상기 제1 전송 코일은 상기 수직 링 버스를 형성하기 위해 상기 제2 전송 코일과의 TCI(ThruChip Interface) 연결을 설정하도록 더 구성되는 것을 특징으로 하는 방법.
  18. 청구항 17에 있어서, 상기 제2 신경 네트워크 가속기 타일은 상기 제1 신경 네트워크 가속기 타일에 대해 90도 회전되고, 상기 수직 링 버스는 상기 스택을 통해 이중 나선(bifilar spiral)을 형성하는 것을 특징으로 하는 방법.
  19. 청구항 11 내지 18 중 어느 한 항에 있어서, 상기 제1 신경 네트워크 가속기 타일은 다른 전송 코일들로부터의 간섭을 방지하기 위해 단락 평면(shorting plane)을 더 포함하는 것을 특징으로 하는 방법.
  20. 청구항 11 내지 19 중 어느 한 항에 있어서, 상기 제1 신경 네트워크 가속기 타일은 상기 제2 신경 네트워크 가속기 타일에 대해 180도 회전되는 것을 특징으로 하는 방법.
KR1020197027656A 2017-06-16 2018-05-11 3차원 적층을 통한 신경 네트워크 가속기 타일 아키텍처 KR102385350B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/625,810 2017-06-16
US15/625,810 US9928460B1 (en) 2017-06-16 2017-06-16 Neural network accelerator tile architecture with three-dimensional stacking
PCT/US2018/032259 WO2018231395A1 (en) 2017-06-16 2018-05-11 Neural network accelerator tile architecture with three-dimensional stacking

Publications (2)

Publication Number Publication Date
KR20190117712A true KR20190117712A (ko) 2019-10-16
KR102385350B1 KR102385350B1 (ko) 2022-04-11

Family

ID=61629731

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197027656A KR102385350B1 (ko) 2017-06-16 2018-05-11 3차원 적층을 통한 신경 네트워크 가속기 타일 아키텍처

Country Status (7)

Country Link
US (3) US9928460B1 (ko)
EP (2) EP3574452B1 (ko)
JP (1) JP7058281B2 (ko)
KR (1) KR102385350B1 (ko)
CN (1) CN110462641A (ko)
TW (2) TWI771180B (ko)
WO (1) WO2018231395A1 (ko)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10615850B2 (en) * 2016-02-18 2020-04-07 Ultramemory Inc. Layered semiconductor device and data communication method
US11609623B2 (en) 2017-09-01 2023-03-21 Qualcomm Incorporated Ultra-low power neuromorphic artificial intelligence computing accelerator
US10796198B2 (en) 2018-02-08 2020-10-06 Western Digital Technologies, Inc. Adjusting enhancement coefficients for neural network engine
US11164072B2 (en) 2018-02-08 2021-11-02 Western Digital Technologies, Inc. Convolution engines for systolic neural network processor
US20210125046A1 (en) * 2018-05-08 2021-04-29 The Governing Council Of The University Of Toronto Neural network processing element
CN109146072B (zh) * 2018-08-01 2021-03-23 上海天数智芯半导体有限公司 基于卷积神经网络加速器的数据重用方法
US10877812B2 (en) * 2018-09-06 2020-12-29 International Business Machines Corporation Hardware environment and method of performing matrix multiplication in artificial intelligence applications
KR102663888B1 (ko) 2018-09-18 2024-05-08 삼성전자주식회사 냉장고 및 그의 제어방법
US11353259B2 (en) * 2018-09-18 2022-06-07 Samsung Electronics Co., Ltd. Augmented-reality refrigerator and method of controlling thereof
US10909443B2 (en) 2019-02-25 2021-02-02 Globalfoundries Inc. Neuromorphic circuit structure and method to form same
US10929058B2 (en) 2019-03-25 2021-02-23 Western Digital Technologies, Inc. Enhanced memory device architecture for machine learning
US11783176B2 (en) 2019-03-25 2023-10-10 Western Digital Technologies, Inc. Enhanced storage device memory architecture for machine learning
US20210125040A1 (en) 2019-10-24 2021-04-29 International Business Machines Corporation 3d neural inference processing unit architectures
US11182314B1 (en) * 2019-11-27 2021-11-23 Amazon Techaologies, Inc. Low latency neural network model loading
US11631001B2 (en) 2020-04-10 2023-04-18 SiMa Technologies, Inc. Heterogeneous computing on a system-on-chip, including machine learning inference
US11321607B2 (en) * 2020-04-03 2022-05-03 SiMa Technologies, Inc. Machine learning network implemented by statically scheduled instructions, with compiler
US11989581B2 (en) 2020-04-17 2024-05-21 SiMa Technologies, Inc. Software managed memory hierarchy
US11734549B2 (en) 2020-04-21 2023-08-22 SiMa Technologies, Inc. Avoiding data routing conflicts in a machine learning accelerator
US11586894B2 (en) 2020-05-04 2023-02-21 SiMa Technologies, Inc. Ordering computations of a machine learning network in a machine learning accelerator for efficient memory usage
US11488066B2 (en) * 2020-04-21 2022-11-01 SiMa Technologies, Inc. Efficient convolution of multi-channel input samples with multiple kernels
US11734605B2 (en) 2020-04-29 2023-08-22 SiMa Technologies, Inc. Allocating computations of a machine learning network in a machine learning accelerator
US11886981B2 (en) 2020-05-01 2024-01-30 SiMa Technologies, Inc. Inter-processor data transfer in a machine learning accelerator, using statically scheduled instructions
CN111783376B (zh) * 2020-06-08 2022-06-24 浙江大学 一种基于机器学习的3d芯片信号耦合性分析系统及方法
DE102020211250A1 (de) * 2020-09-08 2022-03-10 Zf Friedrichshafen Ag Computerimplementiertes Verfahren, eingebettetes System und Computerprogramm zum Ausführen einer Regelungs- und/oder Steuerungsvorschrift
US12067465B2 (en) 2020-12-17 2024-08-20 SiMa Technologies, Inc. Instruction streaming for a machine learning accelerator
US11782757B2 (en) 2021-05-07 2023-10-10 SiMa Technologies, Inc. Scheduling off-chip memory access for programs with predictable execution
US12079710B2 (en) 2020-12-31 2024-09-03 Nxp Usa, Inc. Scalable neural network accelerator architecture
CN113065647B (zh) * 2021-03-30 2023-04-25 西安电子科技大学 加速神经网络的计算-存储通信系统及通信方法
WO2024207306A1 (en) * 2023-04-06 2024-10-10 Moffett International Co., Limited Networks on chip (noc) for many-core neural network accelerator

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017057488A1 (ja) * 2015-09-28 2017-04-06 株式会社PEZY Computing 半導体装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991019267A1 (en) 1990-06-06 1991-12-12 Hughes Aircraft Company Neural network processor
US5297232A (en) * 1991-10-30 1994-03-22 Westinghouse Electric Corp. Wireless neural network and a wireless neural processing element
US5627943A (en) * 1993-02-17 1997-05-06 Kawasaki Steel Corporation Neural network processor including systolic array of two-dimensional layers
US7426501B2 (en) 2003-07-18 2008-09-16 Knowntech, Llc Nanotechnology neural network methods and systems
JP2010134863A (ja) * 2008-12-08 2010-06-17 Hitachi Ltd 制御対象の制御入力決定手段
JP5635759B2 (ja) * 2009-10-15 2014-12-03 学校法人慶應義塾 積層半導体集積回路装置
US8386690B2 (en) * 2009-11-13 2013-02-26 International Business Machines Corporation On-chip networks for flexible three-dimensional chip integration
US8515885B2 (en) * 2010-10-29 2013-08-20 International Business Machines Corporation Neuromorphic and synaptronic spiking neural network with synaptic weights learned using simulation
US9177715B2 (en) * 2010-11-23 2015-11-03 Taiwan Semiconductor Manufacturing Co., Ltd. System and method for inductive wireless signaling
US8812414B2 (en) 2011-05-31 2014-08-19 International Business Machines Corporation Low-power event-driven neural computing architecture in neural networks
US8909576B2 (en) 2011-09-16 2014-12-09 International Business Machines Corporation Neuromorphic event-driven neural computing architecture in a scalable neural network
CN106104770B (zh) * 2014-03-12 2019-02-15 株式会社晶磁电子日本 层叠半导体集成电路装置
US20160026912A1 (en) 2014-07-22 2016-01-28 Intel Corporation Weight-shifting mechanism for convolutional neural networks
EP3035249B1 (en) * 2014-12-19 2019-11-27 Intel Corporation Method and apparatus for distributed and cooperative computation in artificial neural networks
US10580401B2 (en) * 2015-01-27 2020-03-03 Google Llc Sub-matrix input for neural network layers
US10262259B2 (en) 2015-05-08 2019-04-16 Qualcomm Incorporated Bit width selection for fixed point neural networks
US10540588B2 (en) * 2015-06-29 2020-01-21 Microsoft Technology Licensing, Llc Deep neural network processing on hardware accelerators with stacked memory
US20160379109A1 (en) * 2015-06-29 2016-12-29 Microsoft Technology Licensing, Llc Convolutional neural networks on hardware accelerators
US11157800B2 (en) * 2015-07-24 2021-10-26 Brainchip, Inc. Neural processor based accelerator system and method
CN105205858B (zh) * 2015-09-18 2018-04-13 天津理工大学 一种基于单个深度视觉传感器的室内场景三维重建方法
JP6570954B2 (ja) * 2015-09-30 2019-09-04 学校法人慶應義塾 半導体チップ及びマルチチップモジュール
US10726328B2 (en) * 2015-10-09 2020-07-28 Altera Corporation Method and apparatus for designing and implementing a convolution neural net accelerator
CN205680247U (zh) * 2016-04-19 2016-11-09 陈进民 细胞/卷积神经网络智能视觉驾驶疲劳监测加速器
CN106485317A (zh) * 2016-09-26 2017-03-08 上海新储集成电路有限公司 一种神经网络加速器以及神经网络模型的实现方法
US10310897B2 (en) * 2016-09-30 2019-06-04 Intel Corporation Hardware accelerators and methods for offload operations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017057488A1 (ja) * 2015-09-28 2017-04-06 株式会社PEZY Computing 半導体装置

Also Published As

Publication number Publication date
US9928460B1 (en) 2018-03-27
CN110462641A (zh) 2019-11-15
TW202201287A (zh) 2022-01-01
US20220147793A1 (en) 2022-05-12
TW201905769A (zh) 2019-02-01
EP3822866B1 (en) 2024-07-03
JP7058281B2 (ja) 2022-04-21
TWI741187B (zh) 2021-10-01
WO2018231395A1 (en) 2018-12-20
KR102385350B1 (ko) 2022-04-11
JP2020521194A (ja) 2020-07-16
EP3574452B1 (en) 2021-02-17
EP3574452A1 (en) 2019-12-04
EP3822866A1 (en) 2021-05-19
US20180365553A1 (en) 2018-12-20
US11948060B2 (en) 2024-04-02
TWI771180B (zh) 2022-07-11

Similar Documents

Publication Publication Date Title
KR102385350B1 (ko) 3차원 적층을 통한 신경 네트워크 가속기 타일 아키텍처
US11836598B2 (en) Yield improvements for three-dimensionally stacked neural network accelerators
CN112913017A (zh) 具有配置成加快人工神经网络(ann)计算的功能块的3d堆叠集成电路
US9886275B1 (en) Multi-core processor using three dimensional integration
US10613754B2 (en) Architecture and implementation of cortical system, and fabricating an architecture using 3D wafer scale integration
CN116992820B (zh) 一种基于芯粒集成的可扩展智能计算芯片结构
JP6410954B2 (ja) 半導体装置
CN107622993B (zh) 在3d集成电路中共享的硅穿孔
Esener et al. 3D optoelectronic stacked processors: design and analysis
EP3324429B1 (en) Semiconductor device
CN113626372B (zh) 一种存算一体的集成芯片
CN210723013U (zh) 神经网络半导体结构和神经网络芯片
Matsutani et al. 3-D NoC on inductive wireless interconnect

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant