KR20240024782A

KR20240024782A - 신경망들에서의 파이프라인형 연산들

Info

Publication number: KR20240024782A
Application number: KR1020237039259A
Authority: KR
Inventors: 마크 애슐리 매슈스
Original assignee: 자이갠토어 테크놀로지스 인크.
Priority date: 2021-04-15
Filing date: 2022-04-05
Publication date: 2024-02-26
Also published as: WO2022221092A1; JP2024514659A; EP4323864A1; IL307304A

Abstract

집적 회로(IC)는 R × C 소스 어레이에 걸쳐 M × N 애퍼처 함수를 구현한다. IC는 독립적인 입력 값들의 순서화된 스트림을 수신하는 입력 포트, 출력 스트림을 생성하는 출력 포트, 입력들에 가중치들을 곱하고, IC 상의 경로들 상에서 곱들의 스트림들을 생성하는 대량 곱셈기 회로, IC 상의 구성기 회로들의 M × N 어레이, 구성기들 사이의 단일 전용 경로들, 지연 회로들, 최종화 회로, 및 카운터들을 동작시키고 제어 신호들을 생성하는 제어 회로를 갖는다. 구성기들은 곱 경로들로부터 수신된 값들을 결합하고, 그 결과를 초기 값에 또는 인접한 구성기 업스트림으로부터의 값에, 또는 지연 회로로부터의 값에 추가로 결합한다. 마지막 다운스트림 구성기가 값들의 완전한 구성을 생성할 때, 그 값은 최종화 회로에 전달되고, 최종화 회로는 결과를 출력 포트에 포스팅한다.

Description

신경망들에서의 파이프라인형 연산들

관련 출원들에 대한 상호 참조

본 출원은 2020년 10월 15일자로 출원된 동시 계류 중인 출원 제17/071,875호의 일부 계속 출원이다. 모출원의 모든 개시내용은 적어도 참조로 포함된다.

본 발명은 행렬 입력들 및 출력들을 수반하는 컴퓨터 연산들(computer operations)의 기술적 영역에 속하고, 더 구체적으로는 행렬 연산들에서의 대량 곱셈(mass multiplication)을 위해 설계된 회로들에 관한 것이다.

행렬 연산들에서의 컴퓨터들의 이용은 본 기술분야에 잘 알려져 있으며, 구체적인 예들은 이미지 처리와 신경망들의 개발 및 이용이다. 신경망들은 인공 지능의 한 부분이자 일부이며, 따라서 본 특허 출원의 출원시에 지적 재산의 개발에 있어서 매우 인기 있는 주제이다. 일반적으로, 이러한 종류의 컴퓨터 연산들에서, 상당한 수의 입력 값들이 규칙적인 패턴으로 처리되며, 그 패턴은 대부분의 경우에 행렬이다. 입력 값들의 처리는 바이어싱 및 개별 입력 값들이 곱해질 수 있는 가중치들의 적용을 수반할 수 있다.

본 발명자는 들어오는 값들이 복수의 가중치 값들 각각에 의해 곱해지는 신경망들의 기술에서의 정교하고 계산 집약적인 연산들이 본 기술에서 뚜렷한 이점들을 제공하기 위한 혁신에 열려 있는 단계라고 믿는다. 본 발명자는 또한 적용될 수학적 프로세스들의 순서를 수정함에 있어서 이점들이 얻어질 것이라고 믿는다.

본 발명자는 이러한 응용들에서 구현될 수학적 프로세스들의 순서 및 방식에서의 일반적인 변경을 결정하였으며, 이는 이러한 연산들에서 시간 및 비용의 매우 큰 감소를 가져올 수 있다고 믿는다.

본 발명의 일 실시예에서, R × C 소스 어레이에 걸쳐 M × N 애퍼처 함수(aperture function)를 구현하여 R × C 목적지 어레이를 생성하는 집적 회로(IC)가 제공되며, IC는, 소스 어레이로부터 독립적인 입력 값들의 순서화된 스트림을 수신하는 입력 포트, 목적지 어레이로의 출력 값들의 순서화된 출력 스트림을 생성하는 출력 포트, 입력 포트에 결합되고, 애퍼처 함수에 의해 요구되는 모든 가중치를 순서대로 각각의 입력 값과 병렬로 곱하고, IC 상의 병렬 수행 곱 경로들(parallel conductive product pathways)의 세트 상에서 곱들의 스트림들을 생성하는 대량 곱셈기 회로(mass multiplier circuit) - 각각의 곱 경로는 입력 × 가중치 값의 단일 곱에 전용됨 -, IC 상의 구성기 회로들(compositor circuits)의 M × N 어레이 - 각각의 구성기 회로는 (m, n) 위치에서의 애퍼처 함수의 부함수와 연관되고, 전용 경로에 의해 부함수와 연관된 가중치 값으로부터 생성된 곱을 운반하는 곱 경로들의 세트 각각에 결합됨 -, 구성기들 사이의 단일 전용 경로들, 구성기들로부터 전용 경로들 상에서 값들을 수신하고 전용 경로들 상에서 후속 시간들에서 지연된 값들을 다른 구성기들 다운스트림에 제공하는 IC 상의 지연 회로들, 최종화 회로, 및 구성기들, 지연 회로들, 및 최종화 회로에 결합된, 카운터들을 동작시키고 제어 신호들을 생성하는 제어 회로를 포함한다. 각각의 소스 간격에서, 구성기들은 병렬 수행 경로들로의 전용 연결들로부터 수신된 값들을 결합하고, 그 결과를 그 구성기에 대한 초기 값에 또는 인접한 구성기 업스트림으로부터의 전용 경로 상의 값에, 또는 지연 회로로부터 수신된 값에 추가로 결합하고, 그 결합된 결과를 인접한 구성기 다운스트림에 대한 전용 경로에 결합된 레지스터에, 또는 지연 회로에, 또는 둘 다에 포스팅하고, 마지막 다운스트림 구성기가 입력들의 R × C 어레이의 특정 위치에서 애퍼처 함수의 출력에 대한 값들의 완전한 구성을 생성할 때, 그 구성된 값은 최종화 회로에 전달되고, 최종화 회로는 그 값을 처리하고 그 결과를 출력 스트림의 하나의 값으로서 출력 포트에 포스팅한다.

일 실시예에서, 애퍼처 함수는 컨볼루션 신경 노드에 대한 것이고, 각각의 소스 간격에서, 구성기들은 입력들과 가중치들의 곱들을 가산하고, 곱들의 그 합을 초기 바이어스에 또는 인접한 구성기 업스트림으로부터의 전용 경로 상의 값에, 또는 지연 회로로부터 수신된 값에 가산하고, 그 합을 출력 레지스터에 포스팅한다. 또한, 일 실시예에서, 애퍼처 함수는 R × C 입력 어레이의 좌측 및 우측 에지들과 M × N 입력 패치들을 오버랩하는 애퍼처의 위치들에 대한 절단된 결과들(truncated results)을 생성하고, 소스 입력 위치가 R × C 입력 어레이의 첫 번째 또는 마지막 열들을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고, 구성기들에 의해 액세스되고 완전한 내부 패치들의 흐름과 통합된다. 그리고, 일 실시예에서, 애퍼처 함수는 R × C 입력 어레이의 최상부 에지와 M × N 입력 패치들을 오버랩하는 이들 특정 위치들에 대한 절단된 결과들을 생성하고, 소스 입력 위치가 R × C 입력 어레이의 첫 번째 행을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고, 구성기들에 의해 액세스되고 완전한 내부 패치들의 흐름과 통합된다.

일 실시예에서, 애퍼처 함수는 R × C 입력 어레이의 최하부 에지와 M × N 입력 패치들을 오버랩하는 이들 특정 위치들에 대한 절단된 결과들을 생성하고, 소스 입력 위치가 R × C 입력 어레이의 첫 번째 행을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고 완전한 내부 패치들의 흐름과 통합된다. 그리고, IC의 일 실시예에서, 애퍼처 함수의 특정 출력들은 고정 또는 가변 스테핑 패턴으로 출력 스트림으로부터 생략된다.

본 발명의 다른 양태에서, R × C 소스 어레이에 걸쳐 M × N 애퍼처 함수를 구현하여 R × C 목적지 어레이를 생성하는 방법이 제공되며, 이 방법은, 소스 어레이로부터의 독립적인 입력 값들의 순서화된 스트림을 집적 회로(IC)의 입력 포트에 제공하는 단계, 입력 포트에 결합된 IC 상의 대량 곱셈기 회로에 의해 애퍼처 함수에 의해 요구되는 모든 가중치 값을 순서대로 각각의 입력 값과 병렬로 곱하는 단계, 대량 곱셈기에 의해, IC 상의 병렬 수행 곱 경로들의 세트 상에서 곱들의 스트림들을 생성하는 단계 - 각각의 곱 경로는 입력 × 가중치 값의 단일 곱에 전용됨 -, 곱들의 스트림들로부터 각각의 구성기 회로로의 전용 연결들에 의해, IC 상의 구성기 회로들의 M × N 어레이 각각에 애퍼처 함수의 부함수와 연관된 각각의 구성기 회로를 제공하는 단계 - 이들 곱들은 부함수와 연관된 가중치 값으로부터 생성됨 -, 카운터들을 실행하고 제어 신호들을 생성하는 제어 회로에 의해, 구성기들, 복수의 지연 회로 및 최종화 회로에 제어 신호들을 제공하는 단계, 구성기들에 의해, 각각의 소스 사이클에서, 곱들의 스트림들로의 전용 연결들로부터 수신된 값들을, 그 구성기에 대한 초기 값 또는 인접한 구성기 업스트림에 대한 전용 경로 상의 값, 또는 복수의 지연 회로 중 하나로부터 수신된 값과 결합하고, 그 결과를 인접한 구성기 다운스트림에 대한 전용 경로에 결합된 레지스터에, 또는 복수의 지연 회로 중 하나에 포스팅하는 단계를 포함한다. 마지막 다운스트림 구성기가 입력들의 R × C 어레이 상의 특정 위치에서 애퍼처 함수의 출력에 대한 값들의 완전한 결합을 생성할 때, 그 완전한 결합을 최종화 회로에 제공하고, 최종화 회로에 의해 완전한 결합을 처리하고 그 결과를 순서화된 출력 스트림 내의 하나의 값으로서 출력 포트에 포스팅하고, 모든 입력 요소들이 수신되고 마지막 출력 값이 출력 스트림으로 생성될 때까지 IC의 연산을 계속한다.

이 방법의 일 실시예에서, 애퍼처 함수는 컨볼루션 신경 노드에 대한 것이고, 각각의 소스 간격에서, 구성기들은 입력들과 가중치들의 곱들을 가산하고, 곱들의 그 합을 초기 바이어스에 또는 인접한 구성기 업스트림으로부터의 전용 경로 상의 값에, 또는 지연 회로로부터 수신된 값에 가산하고, 그 합을 출력 레지스터에 포스팅한다. 또한, 일 실시예에서, 애퍼처 함수는 R × C 입력 어레이의 좌측 및 우측 에지들과 M × N 입력 패치들을 오버랩하는 애퍼처의 위치들에 대한 절단된 결과들을 생성하고, 소스 입력 위치가 R × C 입력 어레이의 첫 번째 또는 마지막 열들을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고, 구성기들에 의해 액세스되고 완전한 내부 패치들의 흐름과 통합된다.

이 방법의 일 실시예에서, 애퍼처 함수는 R × C 입력 어레이의 최상부 에지와 M × N 입력 패치들을 오버랩하는 특정 위치들에 대한 절단된 결과들을 생성하고, 소스 입력 위치가 R × C 입력 어레이의 첫 번째 행을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고, 구성기들에 의해 액세스되고 완전한 내부 패치들의 흐름과 통합된다. 일 실시예에서, 애퍼처 함수는 R × C 입력 어레이의 최하부 에지와 M × N 입력 패치들을 오버랩하는 이들 특정 위치들에 대한 절단된 결과들을 생성하고, 소스 입력 위치가 R × C 입력 어레이의 첫 번째 행을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고 완전한 내부 패치들의 흐름과 통합된다. 그리고, 일 실시예에서, 애퍼처 함수의 특정 출력들은 고정 또는 가변 스테핑 패턴으로 출력 스트림으로부터 생략된다.

도 1은 각각의 공통 소스에 적용된 대량 곱셈기들이 고정되고 처리 회로에 직접 배선되는 실시예를 예시한다.
도 2는 각각의 공통 소스에 적용된 대량 곱셈기들이 동적이고 멀티플렉서들을 통해 처리 회로로 라우팅되는 실시예를 예시한다.
도 3은 각각의 대량 곱셈기에 설정된 비트들에 대응하는 시프트된 항들이 합산되어 곱을 형성하는 간단한 실시예를 예시한다.
도 4는 시프트된 항들의 서로의 가산 및 감산이 혼합되어 더 낮은 복잡도의 등가 솔루션을 형성하는 향상된 실시예를 예시한다.
도 5a는 쌍별 연산들로부터만 하위 구성들을 구축함으로써 클록 주파수를 최대화하는 파이프라인형 실시예를 예시한다.
도 5b는 표준 산술 연산들을 참조하지 않고 고정된 세트의 경우들에 의해 배수들이 직접 형성되는 실시예를 예시한다.
도 6은 4개까지의 연산으로부터 하위 구성들을 구축함으로써 회로 밀도를 최대화하는 파이프라인형 실시예를 예시한다.
도 7은 본 발명의 실시예에서 입력 스트림을 수신하고, 입력 스트림을 전처리하고, 고유 디지털 디바이스를 통해 결과들을 공급하여 출력 스트림을 생성하는 구조 및 연결을 예시하는 도면이다.
도 8a는 소스 채널 곱들을 생성하는 구조 및 연결을 예시하는 도면이다.
도 8b는 본 발명의 실시예에서의 제어 장치 및 기능들의 추가적인 상세를 예시하는 도면이다.
도 9a는 본 발명의 실시예에서의 파이프라인형 연산들의 일반적인 경우의 부분 예시이다.
도 9b는 본 발명의 실시예에서의 파이프라인형 연산들의 일반적인 경우의 다른 부분 예시이다.
도 9c는 본 발명의 실시예에서의 파이프라인형 연산들의 일반적인 경우의 다른 부분 예시이다.
도 10a는 본 발명의 실시예에서의 도 9a 및 도 9b의 구성기들(905a, 905b 및 905c)의 내부 구조를 예시하는 도면이다.
도 10b는 본 발명의 실시예에서의 도 9a 및 도 9b의 구성기(902a, 902b 및 902c)의 내부 구조를 예시하는 도면이다.
도 10c는 본 발명의 실시예에서의 도 9a의 구성기(904)의 내부 구조를 예시하는 도면이다.
도 10d는 본 발명의 실시예에서의 도 9a의 구성기(901)의 내부 구조를 예시하는 도면이다.
도 10e는 본 발명의 실시예에서의 도 9b 및 도 9c의 구성기들(903a, 903b 및 903c)의 내부 구조를 예시하는 도면이다.
도 10f는 본 발명의 실시예에서의 도 9a 및 도 9b의 구성기들(907a, 907b 및 907c)의 내부 구조를 예시하는 도면이다.
도 10g는 본 발명의 실시예에서의 도 9a의 구성기(906)의 내부 구조를 예시하는 도면이다.
도 11은 본 발명의 실시예에서의 도 9c의 지연 스테이지들(908a, 908b, 908c, 908d, 908e 및 908f)의 내부 구조 및 기능을 설명하는 도면이다.
도 12는 본 발명의 실시예에서의 도 9c의 지연 스테이지(909)의 연산을 예시하는 도면이다.
도 13은 본 발명의 실시예에서의 도 9c의 지연 스테이지들(910a 및 910b)의 연산을 예시하는 도면이다.
도 14는 도 9c의 최종화 단계(911)의 연산을 예시하는 도면이다.
도 15는 5 × 5 컨볼루션 노드를 구현하는 본 발명의 실시예에서의 파이프라인형 연산들의 특정 경우를 예시하는 도면이다.
도 16은 4 × 4 애퍼처 함수에 대한 본 발명의 실시예에서의 IC를 예시한다.

매우 다양한 이미지 및 데이터 알고리즘들은 선형 대수의 행렬 형태들을 광범위하게 이용하여 명제들을 증명하고 또한 결과들을 계산한다. 본 출원에서, "알고리즘"은 계산들 또는 다른 문제 해결 연산들에서, 특히 컴퓨터에 의해 따라야 할 규칙들의 프로세스 또는 세트를 의미한다. 알고리즘들은 본 출원에서 소프트웨어로서 보편적으로 해석되지 않아야 한다. 본 출원에서 설명된 바와 같은 알고리즘들은 하드웨어로 구현될 수 있고, 전형적으로 하드웨어로 구현되는 것이 바람직하다.

행렬 연산들은 하나 이상의 차원의 직교 집합들로서 정의되고, 일반적으로 각각의 주어진 차원의 모든 반복에서 동일한 수의 요소들을 갖는 것으로 생각된다. 예로서, M × N 행렬은 다음과 같은 값들의 어레이에 의해 자주 묘사된다:

개념적으로, 행렬은 임의의 수의 차원들을 가질 수 있으며, 행렬들은 각각의 차원에 대한 값들을 나타내는 테이블들의 세트들로서 묘사될 수 있다.

형태들 M × 1 또는 1 × N의 행렬들의 서브세트는 정의된 그들 자신의 특정 특성들 및 연산들을 갖고 2D 및 3D 그래픽 시뮬레이션들에서 광범위하게 이용되는 벡터들로서 지칭될 수 있다.

형태 1 × 1의 행렬들의 축퇴 서브세트는 스칼라들로서 지칭될 수 있고, 통상의 기술자에게 매우 친숙한 수들을 구성한다.

행렬의 값들이 상수들이고, 행렬들이 호환가능한 차원들을 가질 때, 곱셈과 같은 특정 연산들이 잘 정의된다. 3 × 4 행렬 A는 4 × 5 행렬 B로 곱해져 3 × 5 행렬 C를 형성할 수 있고, 이는 종종 다음과 같이 쓰여질 수 있다:

그러나, 내부 차원들이 일치하지 않고(5 ≠ 3), k가 B 및 A의 인덱스들과 호환되는 단일 범위를 갖지 않기 때문에, 연산 B × A는 잘 정의되지 않는다.

그 요소들이 벡터들 또는 다른 행렬들인 행렬은 텐서로서 알려져 있다(이로부터 TensorFlow의 명칭이 도출된다). 익숙한 형태의 텐서는 RGB 이미지일 수 있다. RGB 이미지의 한 형태는 RGB 값들의 1080 × 1920 행렬로서의 HDMI 프레임이며, 그 각각의 픽셀은 컬러 구성성분들의 3 × 1 벡터이다. 픽셀은 진정한 벡터로 고려되는데, 그 이유는 적색 구성성분의 선형 연산이 녹색 또는 청색에 영향을 미치지 않고 그 반대도 마찬가지이기 때문이다.

HDMI 프레임은 일반적으로 5차원 행렬로 고려되지 않는데, 그 이유는 이미지 내의 픽셀들의 위치들의 처리가 컬러들의 처리와 관련되지 않기 때문이다. 관심이 없는 이미지의 부분들을 폐기함으로써 이미지를 크로핑하는 것이 유효하고 상당히 의미가 있지만, 컬러 구성성분들을 크로핑하는 대응하는 연산은 없다. 마찬가지로, 포함하는 어레이의 요소들에 적용되는 경우에 의미 없는 쉽게 이해할 수 있는 효과들을 갖는 컬러들에 대한 많은 연산이 존재할 수 있다. 따라서, HDMI 프레임은 분명히 2,3 텐서이고 5D 어레이가 아니다.

행렬 연산들로서 표현될 수 있는 많은 이미지 처리 알고리즘들이 알려져 있다. 행렬 연산은 반복적 연산들을 표현하는 간결한 방식이고, 행렬 수학의 규칙들은 특정 명제들을 증명하는데 있어서 중요하다.

범용 컴퓨터 프로세서들 상에서의 행렬 기반 알고리즘들의 실행은 일반적으로 루핑 메커니즘들에 의해 달성되며, 컴퓨터 언어들 및 하드웨어 CPU들 양자는 이러한 루프들을 효율적으로 만들기 위한 특징들을 가질 수 있다. 그러나, 정확한 결과들을 계산하기 위해 연산들이 임의의 특정 방법 또는 계획에 의해 실행될 것을 요구하는 행렬 정의들의 수학에 내재하는 것은 없다.

이미지 처리 및 인식의 현대의 혼성은 컨볼루션 신경망(CNN)이다. 이러한 망들을 훈련하는 것은 수년간 상당히 어려웠지만, 훈련된 망들을 실제로 실행하는 것은 비교적 사소하다.

CNN들에서, 각각의 컨볼루션 출력 요소는 입력 텐서에 걸쳐 독립적인 커널을 전달하여 출력 텐서의 각각의 구성성분을 생성함으로써 동작한다. 통상적으로, 신경망이 이미지들을 처리하는데 이용될 때, 망의 제1 계층은 이미지의 RGB 픽셀들의 입력 어레이에 대해 동작하고, 입력 구성성분들의 RGB 벡터와 구조적으로 관련되지 않은 출력 구성성분들의 임의의 벡터를 포함하는 관련 크기의 출력 어레이를 생성한다. 출력 벡터 구성성분들은 일반적으로 특징들 또는 활성화들로서 설명되고 각각의 커널의 응답 강도(인식의 정도)를 나타낸다. CNN 내의 후속 계층들은 선행 계층들로부터의 출력을 그 입력으로서 취하며, 따라서 최초 계층만이 픽셀 값들에 대해 작용하고, 나머지 모두는 더 많은 특징들을 생성하기 위해 특징들에 대해 작용한다. 컨볼루션의 각각의 출력 특징은 관련되지 않고 컬러 구성성분들이 서로 구별되는 것처럼 모든 다른 특징과 구별된다.

CNN 계층의 일반적인 형태는 3 × 3 컨볼루션이다. 연산 중에, 일정한 가중치들의 3 × 3 커널이 입력 텐서(즉, 이미지)의 각각의 특정 위치에 요소별로 적용되며, 즉, 가중치들 각각은 이미지에서의 동일한 상대 위치에 있는 픽셀 구성성분들과 곱해지고, 곱들은 합산되어 그 위치에 대한 출력의 단일 구성성분을 생성한다. 바이어스 상수(이는 제로일 수 있음)는 최적의 가중치 값에 도달하기 위해 모델을 푸는 것을 용이하게 하는 초기 값을 제공한다.

RGB 이미지에 있는 것과 같이, 3개의 입력 구성성분들이 있는 경우, 각각의 구성성분 값(제1 계층의 경우에, 컬러들)에 적용될 3 × 3 가중치들의 3개의 별개의 세트들이 있지만 단일 초기 바이어스만이 있다. 3 × 3 × 3 가중치 + 바이어스의 각각의 컨볼루션은 픽셀들의 3 × 3 패치의 중심에서의 위치에 대응하는 단일 출력 구성성분 값을 형성한다. 각각의 출력 채널은, 주어진 패치에 대한 모든 출력 구성성분들(출력 위치와 동일한 위치에 있고 커널 가중치들의 상대적 위치들에 대응하는 입력 구성성분들의 서브세트)이 계산될 때까지, 그 자신의 27개의 가중치 값들을 차례로 적용한다. 컨볼루션은 64개 내지 256개의 출력 구성성분을 갖는 것이 일반적이고, 출력 구성성분들 각각은 27개의 가중치 + 바이어스의 고유한 특정 세트를 갖는다.

이 예에서, 각각의 커널은 그 27개의 가중치를 3개의 RGB 구성성분의 9개의 픽셀의 동일한 패치와 곱한다. 비교적 작은 세트의 64개의 출력 구성성분에 대해, 각각의 개별 입력 구성성분은 64개의 임의적이고 무관한 가중치와 곱해진다. 각각의 패치에 대한 출력 구성성분들이 계산된 후에, 인접한 패치가 이미지로부터 로딩되고, 커널의 가중치들의 전체 세트가 다시 적용된다. 이 프로세스는 이미지의 우측 에지에 도달할 때까지 계속되고, 그 후 패치는 한 행 아래로 드롭하고 좌측 에지로부터 다시 시작한다.

제1 계층이 처리된 후에, 다음 컨볼루션 계층은 제1 계층의 출력을 제2 계층에 대한 입력으로서 처리한다. 따라서, 3 × 3 컨볼루션은 이제 패치의 3 × 3 × 64개의 입력 구성성분에 적용될 3 × 3 × 64개의 가중치를 갖는다. 이 계층이 256개의 출력을 갖는 경우, 각각의 출력 위치에 대해 3 × 3 × 64 × 256 = 147,456회의 곱셈이 수행되어야 한다. 통상의 기술자는 이것이 40개 초과의 계층들을 포함할 수 있는 심층 신경망 내의 단일 계층을 지칭한다는 것을 이해할 것이다.

패치의 각각의 요소에 적용되는 곱셈들의 수는 계층 내의 채널들의 수와 동일하다. 표준 CPU에서, 이들은 반드시 소정 시퀀스로 수행되어야 한다. 많은 현대의 CPU들은, 특히 데이터 포맷이 작은 경우(즉, 8 비트), 곱셈들의 세트들을 동시에 실행하는 능력을 갖는다. GPU 또는 TPU에서, 이용가능한 곱셈기들의 수는 훨씬 더 많지만, 각각의 곱셈기는 2개의 별개의 비제한 인자로부터 곱을 생성하도록 설계된다.

현재 기술의 프로세서들에서, CPU들, TPU들 또는 GPU들은 CNN 구현들에서 곱셈을 위한 인자들 중 하나가 패치에 대한 처리 동안 입력 채널에 적용되는 모든 가중치들에 공통이라는 간단한 사실을 이용하지 않는다.

본 출원에서의 본 발명자는, 종래에는 달리 순차적으로 행해지는, 모든 곱셈들을 단일 단계에서 수행하는 대량 곱셈기를 제안한다. 곱셈들의 세트의 가중치들이 모두 소정의 작은 정밀도를 가질 때(TPU에 대해 8 비트가 전형적임), 제한된 수(2^8 = 256)의 별개의 가중치들, 및 대응하는 수의 공통 입력의 별개의 배수들(이는 임의의 크기를 가질 수 있고, 공통 인자가 어떤 정밀도인지에 관계없이, 8 비트 가중치들이 적용될 때 단지 256개의 가능한 배수들만이 여전히 존재함)이 존재한다. 이 경우, 동일한 수의 비제한 곱셈기들보다 훨씬 적은 수의 요소들로 모든 요구되는 출력들을 한 번에 생성하는 회로를 구현하는 것에 뚜렷한 이점이 있다.

본 발명의 실시예에서, 등가 대량 곱셈기는 단일 입력 채널에 전용되고 항상 공유되지는 않는다. 따라서, 연산은 여러 클록 사이클들 및 복수의 레지스터 스테이지들을 이용하는 옵션을 갖는다. 이것은 연산이 시스템의 전체 처리량에 영향을 주지 않고 매우 간단하고 효율적인 형태들을 취하게 한다.

단일 동적 값이 많은 상수들과 곱해지는 일반적인 경우들에서, 본 발명의 실시예에서와 같이, 독립적인 단일 스테이지 곱셈기 회로들의 등가 세트를 단일 멀티-스테이지 대량 곱셈기 회로로 대체하면, 실질적으로 더 높은 처리량 및 실질적으로 더 낮은 전력 및 설치 면적으로 동일한 계산들을 수행하는 시스템을 낳는다. 출력들의 세트가 이용되는 실제 배수들의 수보다 작더라도, 전력 및 공간에서 상당한 절감이 여전히 존재할 수 있다.

독립적인 곱셈기들에 비해 본 발명의 실시예에서의 고유 대량 곱셈기의 뚜렷한 이점을 확립하면, 연산들의 시퀀스를 재순서화하는 것은 이점을 더욱 증가시킬 수 있다.

연산들의 임의의 특정 시퀀스를 요구하는 신경망(또는 다른 유사한 이미지 처리) 알고리즘의 수학에는 아무것도 없다. 동일한 연산들이 임의의 순서로 수행되면, 동일한 정확한 계산이 이루어질 것이다.

본 발명자는 CPU, GPU, 또는 TPU 기반 설계에서 실행되는 소프트웨어에 대한 통상의 순서가 가중치들을 입력들과 곱하고 이들을 즉시 합산함으로써 주어진 위치에 대한 모든 출력 채널들을 동시에 생성하는 것임을 관찰하였다. 가중치들을 입력들과 곱하고 이들을 즉시 합산함으로써 주어진 위치에 대한 모든 출력 채널들을 동시에 생성하는 것은 RAM으로부터 입력들이 판독되어야 하는 횟수를 최소화할 뿐만 아니라 RAM으로부터 또한 가중치들이 판독되어야 하는 횟수를 제한한다. 이것은 입력들을 여러 번 판독하는 것을 제거하지 않는데, 왜냐하면 RAM 이외의 아래의 다음 행을 처리할 때 입력들을 유지할 장소가 없기 때문이다.

그러나, 본 발명의 실시예에서, 어레이 입력들의 M × N 패치에 대해 연산하도록 정의된 커널 또는 다른 애퍼처 함수의 연산들의 순서가 반전되면, 즉, 효과적으로 뒤집히면, 각각의 입력 값은 한 번만 이용되고, 어떠한 RAM 버퍼들도 요구되지 않는다. 애퍼처 함수가 각각의 행을 통과할 때 중복적으로 입력들을 판독함으로써 한 번에 하나씩 출력들을 생성하는 대신에, 이 고유 연산은 처음에 제시될 때에만 한 번에 하나씩 입력들을 처리하고 모든 불완전한 출력들에 대한 부분 합들을 유지한다. 부분 합은 하드웨어 시프트 레지스터 또는 표준 하드웨어 선입 선출 레지스터(FIFO)에 유지될 수 있고, 유지된 값을 보유하는데 필요한 레지스터의 수는 커널의 높이 및 입력 행의 폭에 비례한다.

애퍼처 함수를 구현하는 함수가 일련의 부함수들로 분해될 수 있고, 부함수들 각각은 직전의 부함수의 결과에 대해 연산하므로, 커널의 구현은 부함수들을 시간에 걸쳐 순차적으로 구성함으로써 달성될 수 있고, 따라서 각각의 부함수는 수신된 대로 즉시 데이터에 대해 연산하고 커널을 추상적으로 적용하는 것과 동일한 연산들의 시퀀스를 낳는다. 본 발명자들은, 임의의 초기화를 포함한, 이 재구성된 함수를 애퍼처 함수라고 지칭하고, 개별 단계들을 부함수들이라고 지칭한다. 애퍼처 함수는, 본 명세서에서 이용되는 바와 같이, 입력들의 더 큰 R × C 어레이의 M × N 입력들의 슬라이딩 윈도우 또는 패치 상의 복수의 위치들에서 구현될 임의의 M × N 계산을 지칭한다. 전체 CNN 커널의 구현에서와 같이, 애퍼처 함수는 또한 초기화 및 최종화 연산을 포함할 수 있다. CNN의 경우, 초기화는 바이어스 값을 누산기들에 프리로딩하고, 최종화는 임의의 활성화 함수를 통해 커널의 원시 출력을 변환한다.

본 발명의 이 예에서, 각각의 새로운 입력 위치의 구성성분들이 제시될 때, 그 위치의 구성성분들은 아래 및 우측의 패치의 제1 요소를 나타내고, 동시에 위 및 좌측의 패치의 마지막 요소 및 현재 위치와 교차하는 모든 다른 패치들의 중간 요소들을 나타낸다. 이것은 항상 처리 중인 고정된 수의 요소(입력의 에지 근방에서 소정의 가능한 예외를 가짐)를 가지며 입력을 수용하는 것과 동일한 레이트로 출력을 생성하는 계산 회로가 본 발명의 실시예로서 개발될 수 있게 한다.

안내 알고리즘이 입력 어레이의 에지를 지나 확장하는 패치에 걸쳐 애퍼처 함수의 평가를 필요로 하는 경우, 많은 특수한 경우들 및 문제들이 발생하지만, 이들은 극복불가능한 것이 아니다. 오버랩하는 패치의 부분 결과들이 전체 처리량에 영향을 주지 않고 정상 경우와 호환가능하게 되도록 특수한 경우의 로직이 추가될 수 있다.

본 발명의 실시예들에서, 이러한 반전된 형태의 애퍼처 함수 연산들은 입력들을 스트림으로서 수용하고 출력들을 스트림으로서 생성한다. 입력들은 이들이 각각 한 번만 참조되기 때문에 RAM에 버퍼링될 필요가 없다. 출력들은 또한 스트림 내에 있으므로, RAM 버퍼링 없이 후속 계층들에 의해 처리될 수도 있으며, 이는 그렇지 않을 경우의 RAM에 대한 많은 필요한 판독 및 기입 동작들에 비해 처리 속도를 실질적으로 증가시키는 본 발명에 기인하는 결과이다.

본 발명의 실시예에서, 많은 계층들이 순차적으로 다음 계층을 처리하기 위해 결과들을 실행, 저장 및 다시 판독하는 독립적인 곱셈기들의 단일 세트를 공유하는 것 대신에, 파이프라인이 모든 계층들을 동시에 처리하는 전용 대량 곱셈기들을 이용하여 생성되어, 임의의 계층들이 완료되기를 기다리지 않고 다음 계층의 입력으로 각각의 계층의 출력 스트림을 공급할 수 있다.

따라서, 본 발명의 실시예에서의 완전히 구현된 파이프라인은 종래의 출력-중심 순서화 프로세스보다 2자릿수 더 크게 측정된 유효 처리량에 도달할 수 있고, (RAM을 이용하지 않기 때문에) RAM에 대한 경합을 제거한다. GPU 및 TPU 기반 처리에 대한 주요 병목 현상을 형성하는 것은 RAM에 대한 이러한 경합이다.

본 발명의 실시예에서, 이러한 시스템의 레이턴시는 마지막 픽셀의 입력으로부터 마지막 결과의 출력까지의 시간으로 감소된다. 이미지의 마지막 픽셀이, 알고리즘들의 정의에 의해, 반드시 모든 계층들에 대한 모든 최종 계산들을 완료하기 위해 요구되는 마지막 데이터이어야 하기 때문에, 시스템의 레이턴시는 엄격하게 클로킹 레이트 × 최종 출력을 포함하는 파이프라인에서의 별개의 클록 스테이지들의 수이다.

(재이용되고 동적으로 할당되어야 하는 독립적인 곱셈기들의 제한된 세트 대신에) 본 발명의 실시예에서 신경망 전체에 걸쳐 각각의 입력 채널에 대해 단일의 전용 대량 곱셈기를 이용하는 것은 적용된 임의의 수의 가중치를 처리하기 위해 단일의 대량 곱셈기만을 취하기 때문에 모든 곱셈이 병렬로 실행되는 픽셀-동기식 파이프라인을 구축하는 것을 가능하게 한다.

대량 곱셈기들의 혁신의 본질적인 특징들, 및 또한 반전의 이점들을 설명하였으며, 본 발명자는 아래에 특정 예들을 제시한다:

도 1은 101a 내지 101d로 라벨링된 복수의 하나 이상의 소스 채널 1 내지 N 각각이 할당된 전용 대량 곱셈기(102a 내지 102d)를 갖는 본 발명의 실시예를 예시하는 도면이다. 이 예에서 각각의 소스 채널은 그 채널의 값들의 배수들의 세트를 생성하기 위한 전용 대량 곱셈기 회로를 가지므로, 소스 채널 포맷들은 하드웨어로 구현되는 처리 알고리즘에 편리한 임의의 정밀도로 부호, 무부호, 고정 또는 부동 소수점 사이에서 변할 수 있다. 대량 곱셈기 회로(102c)와 같은 각각의 대량 곱셈기 회로의 특정 출력들은 소스 채널들 중 임의의 것 또는 전부의 배수들을 요구하는 계산들을 수행할 수 있는 하나 이상의 계산 유닛(103a 내지 103d)에 직접 공급될 수 있다. 이러한 계산 유닛들은 동일한 소스 채널들 상에서 계산될 단일 알고리즘 또는 비관련 알고리즘들의 독립적인 출력 채널들을 구현하는데 이용될 수 있다. 계산들의 출력들은 하드웨어로 구현되는 알고리즘 또는 알고리즘들에 의해 요구될 수 있는 바와 같은 104로 도시된 바와 같은 추가 처리를 위해 전달될 수 있다. 이 상황은, 예를 들어, 피승수들로서 적용되는 가중치 값들이 변하지 않을 필드 프로그래머블 게이트 어레이(FPGA)에서 신경망을 구현할 때 발생한다.

도 2는, 도 1의 대량 곱셈기(102a)와 같은 각각의 대량 곱셈기의 출력들이 멀티플렉서들(201a 내지 201d)의 세트를 통해 계산 유닛들(203a 내지 203d)로 공급되어, 선택된 배수가 시스템의 초기화 시에 또는 그것이 연산함에 따라 동적으로 선택될 수 있도록 하는 본 발명의 실시예를 예시한다. 이어서, 계산들의 출력들은 이전과 같이 204에서 추가 처리를 위해 전달될 수 있다. 이 상황은 계산의 구조가 커밋되지만 이용되는 가중치 값들이 변경될 필요가 있는 주문형 집적 회로(ASIC)에서 신경망을 구현할 때 발생한다.

도 3은 일 실시예에서 도 1 및 도 2의 대량 곱셈기(102a)의 내부 구조를 예시한다. 이 구조는 본 발명의 다른 실시예들에서 대량 곱셈기들(102b, 102c 및 102d)뿐만 아니라 다른 대량 곱셈기들에 공통일 수 있다. 이 구조에서, B 비트의 모든 가능한 곱셈기에 의한 A 비트의 소스 채널 피승수(101a)의 곱(303a 내지 303f)은 병렬로 생성되어 배수(304)에 전달된다. 이 예에서, 소스 피승수(101a)의 A 비트들은, 0 내지 B-1의 모든 요구되는 시프트된 값들의 전체 세트가 A+B 비트 항들(302a 내지 302d)의 벡터의 형태로 이용가능하도록, 최하위 위치에 0 비트들을 첨부함으로써 복제 및 시프트 업되고, 최상위 위치에 0 비트들을 첨부(prepend)함으로써 패딩된다. 이러한 항들은 회로 연결들을 라우팅함으로써 간단히 형성될 수 있으며, 레지스터 또는 로직 회로가 필요하지 않다. 클록 주기가 A+B 비트들의 최대 B 항들이 단일 주기 내에 구성되게 하기에 충분한 경우, 어떠한 레지스터들 또는 하위 구성도 요구되지 않을 수 있다. 합산된 항들의 개별 곱들(303a 내지 303f)은 로컬로 등록되거나 조합 로직으로서 추가 처리를 위해 전달될 수 있다. 소스 피승수(101a)의 1 내지 2^B-1배의 각각의 곱은 각각의 곱셈기 내의 1 비트가 발생할 때마다 B개의 대응하는 항(302a 내지 302d) 중 임의의 것 또는 전부를 가산함으로써 형성될 수 있다. 임의의 소스 및 모든 소스의 배수 0은 모두 0 비트의 상수이며, 멀티플렉서들을 이용할 때 완전성을 위해 배수들(304)에 포함될 수 있지만, 그렇지 않으면 회로를 요구하지 않는다. 임의의 미이용 곱들(303a 내지 303f)은 이들을 회로 사양들에서 제외하여 합성 도구들이 이들을 삭제할 수 있게 함으로써 또는 임의의 다른 방법에 의해 생략될 수 있다. 미이용 항들(302a 내지 302d)도 생략될 수 있지만, 이들이 로직을 차지하지 않기 때문에, 이는 일반적으로 효과가 없다. 이러한 방식으로, 소스 피승수(101)의 모든 요구되는 배수들(304)은 단일 스테이지 파이프라인으로서 또는 조합 로직으로서 형성될 수 있다.

도 4는 항들(401)의 세트가 A+B+1 비트로 형성된 0 내지 B(포함)의 모든 요구되는 개별 항들(302a 내지 302e)로 구성되는 최적화된 실시예를 보여준다. 이것은 곱들(402a 내지 402f)이 더 작은 항들의 가산 대신에 더 큰 항으로부터의 감산을 포함하는 것을 가능하게 하며, 회로의 전체 크기를 줄이는데 이용될 수 있으며, 이는 또한 최대 허용 클록 주파수를 증가시킬 수 있다. 예를 들어, 임의의 주어진 입력 a 및 곱셈기 15에 대해, 8a+4a+2a+1a = 15a는 4개의 구성성분을 결합하는 반면, 16a-1a = 15a는 2개만을 결합하며, 일반적으로 더 콤팩트하고 효율적일 것으로 예상될 수 있다. 각각의 곱(402a 내지 402f)은 정확한 결과를 산출하는 항들(302a 내지 302e)의 임의의 가산들 및 감산들로 구성될 수 있으며, 각각의 특정 변형은 특정 구현 기술에 대한 최적의 절충들에 기반하여 선택될 수 있다. 예를 들어, 2개의 N 비트 양들의 감산은 2개의 N 비트 양들의 가산보다 더 많은 로직을 요구할 수 있지만, 일반적으로 3개의 N 비트 양들의 가산은 항상 2개의 감산보다 더 많은 로직을 요구할 것이다. 필요한 배수들(304)의 처리는 개별 곱들(402a 내지 402f)을 구성하는 상세들에 의해 변경되지 않는다.

도 5a는 클록 주기가 주기마다 A+B 비트 값들(또는 감산들이 이용되는 경우에는 A+B+1)의 단일 가산만이 가능하도록 하는 대량 곱셈기의 실시예를 예시한다. 이 경우, 2개보다 많은 항들이 이용되는 배수들을 수용하기 위해, 필요한 요소들을 멀티-스테이지 파이프라인으로 배열하는 것이 필요하다. 항들(401)은 이전과 같이 각각의 소스 채널(101)로부터 형성되지만, 나중의 참조를 위해 파이프라인 레지스터들(501a 및 501b)에서 1회 이상 유지된다. 합산된 2개의 항의 쌍들(502)은 계산되고 등록되며, 이어서 필요에 따라 보존된다(503). 트리플(504)은 쌍(502)과 보유된 항(501)의 합으로서 형성된다. 항 값의 쿼드(505)는 쌍(502)의 합으로서 형성된다. 임의의 및 모든 미이용 요소들은 생략될 수 있고, 오버랩을 증가시키기 위해 가수들의 내림차순 시퀀스들만이 지정될 수 있다. 이는 중복 합들, 예를 들어, a+b 및 b+a가 최종 회로에서 이용 및 유지되지 않는 것을 보장한다. 곱들(506a 내지 506f)은 타이밍 제약들을 충족시키는 임의의 쌍의 등록된 하위 구성들의 임의의 가산 또는 감산 연산을 이용할 수 있다. 이용가능한 최대 요소를 일관되게 이용함으로써, 총 크기 및 이에 따른 전력이 감소될 수 있지만, 정확한 결과들을 산출하는 연산들의 임의의 결합이 수용가능하다.

도 5a의 실시예는 B = 8인 모든 필요한 배수들을 생성하기에 충분하다. 더 큰 배수 세트에 대해, 도시된 하위 구성들은 B의 임의의 값에 대한 모든 필요한 배수들(506a 내지 506f)이 이전에 개시된 보유된 항들(501b), 보유된 쌍들(503), 트리플들(504), 및 쿼드들(505)을 포함하는 하위 구성들의 확장된 세트에 대한 단일 클록 연산들로부터 단일 클록 연산들에 의해 배수들(506a 내지 506f)을 형성하기에 충분한 항들의 세트를 형성하기 위해 필요에 따라 이러한 다른 하위 구성들과 함께 구성될 수 있도록 추가 파이프라인 스테이지들에서 재결합될 수 있다.

도 5b는 표준 산술 연산들을 참조하지 않고 고정된 세트의 경우들에 의해 배수들이 직접 형성되는 실시예를 예시한다. 요구되는 배수들 각각에 대해, 출력 값들(a*b)의 세트가 각각의 소스 채널 값(a)에 대해 열거된다. 이것은 하드웨어 회로 합성 도구들이 요구되는 배수들의 전체 세트를 생성하기 위해 최적의 로직 회로(507)를 결정하는 것을 허용한다. 임의의 주어진 입력 값에 대한 요구되는 출력 값의 사양은 통상적으로 Verilog 'case' 또는 'casex' 서술문에서의 열거에 의해 이루어진다. 이것은 출력 값이 저장되고 입력으로부터 형성된 인덱스를 통해 액세스되는 룩업 테이블과 구별되는데, 그 이유는 로직 게이트가 전체 세트의 출력 값을 생성하는데 필요한 최소 서브세트의 연산을 구현하는데 이용되고, 관련 하위 표현을 생성하는데 이용되는 중복 로직이 결합될 것이기 때문이다.

방법들 5a 및 5b 중 어느 것이 공간, 주파수 및 전력의 관점에서 가장 효율적인지는 A 및 B의 특정 값들뿐만 아니라 산술 연산들 대 임의의 로직의 코어 효율에 의존한다. 어느 방법을 이용할지의 선택은 직접 관찰, 시뮬레이션 또는 다른 기준에 기반할 수 있다.

도 6은 클록 주기가 충분한 레벨들의 로직이 각각의 단일 클록 주기 동안에 4개의 요소의 가산 및/또는 감산에 의한 구성을 가능하게 하는 실시예를 예시한다. 하위 구성들의 세트로부터 선택함으로써, 각각의 곱(605a 내지 605f)은 4개 이하의 등록된 요소를 결합함으로써 생성될 수 있다. 이전과 같이, 항들은 레지스터들(501a 및 501b)에 유지되지만, 602에 유지된 트리플들(601)은 항들(401)로부터 직접 구성되고, 쌍들은 이용되지 않는다. 셉텟(603) 및 옥텟(604)은 트리플(601) 및 보유된 항(501a)으로부터 형성된다.

도 6의 예시적인 실시예는 B = 32인 모든 필요한 배수들을 생성하기에 충분하다. 더 큰 곱셈기들에 대해, 도시된 하위 구성들은 B의 임의의 값에 대한 모든 필요한 배수들을 생성하기 위해 추가 파이프라인 스테이지들에서 한 번에 4개씩 재결합될 수 있다. 도시된 요소들의 하위 구성들은 B = 32인 모든 곱들을 생성하기에 필요하고 충분하지만, 다른 하위 구성들(아마도 B의 상이한 값들에 걸친 일관성을 위해 선택됨)이 수용가능하다.

곱셈기들의 세트가 고정될 때, FPGA 응용들에 대해 일반적인 바와 같이, 공통 요소들이 병합되고 미이용 요소들이 생략될 수 있기 때문에, 심지어 크고 희소한 세트의 곱셈기들이 효율적으로 구현될 수 있다. 합성 도구들이 이러한 기능을 자동으로 수행할 때, 회로의 표현은 어느 배수들이 이용되는지를 명시적으로 선언하지 않고 모든 가능한 요소들을 포함할 수 있다.

A+B 또는 A+B+1 비트 값들에 대한 연산들이 단일 클록 사이클에서 완료될 수 없는 경우, 모든 경로들이 동일한 수의 클록 주기들을 갖도록 필요에 따라 여분의 파이프라인 레지스터들이 삽입되는 경우에 임의의 단일 스테이지 구성 로직에 대해 멀티스테이지 파이프라인 가산기가 삽입될 수 있다. 파이프라인 스테이지 주기들은 단일 에지 대 에지 클록 전이, 또는 처리량 제약들이 허용하는 경우 멀티사이클 클록의 인스턴스들일 수 있다. 연산마다의 복수의 클록 스테이지도 멀티사이클 클록킹의 이용도 바로 위에 언급된 문제들 이외의 임의의 실시예에 대한 구조적 변경을 필요로 하지 않는다.

본 발명의 중요한 목적은 집적 회로들에서 구현되는 산업용 대량 곱셈기들이 다양한 응용들에서 이용되도록 제공하는 것이다. 이를 위해, 본 발명자는, 일 실시예에서, 집적 회로로서 구현되는 대량 곱셈기 - 집적 회로는 이산 값의 스트림을 수신하는 포트, 및 포트에서 수신된 각각의 값을 복수의 가중치 값과 동시에 곱하는 회로를 가짐 -, 및 생성된 대량 곱셈기의 곱을 제공하는 출력 채널을 제공한다.

하나의 버전에서, 수신된 이산 값들은 고정된 폭의 무부호 이진 값들일 수 있고, 가중치 값들은 2 이상의 비트의 고정된 폭의 무부호 이진 값들일 수 있고, 각각의 배수는 입력의 비트 시프트된 복제들의 합으로서 구성될 수 있다. 다른 버전에서, 시프트된 복제들의 세트는 감산 연산들의 이용이 회로를 감소시키거나 다른 방식으로 최적화하게 하도록 증가될 수 있다. 그 세트의 미이용 출력들은 명시적으로 또는 암시적으로 생략될 수 있다.

일 실시예에서, 출력 곱들의 세트는 조합 로직에 의해 생성될 수 있다. 다른 실시예에서, 출력 곱들의 세트는 단일 또는 복수의 클록 사이클을 이용하여 단일 스테이지 파이프라인에 의해 생성될 수 있다. 다른 실시예에서, 출력 배수들의 세트는 스테이지마다 2개 이하의 가수를 결합함으로써 멀티-스테이지 파이프라인에 의해 생성될 수 있다. 중간 하위 구성들의 미이용 요소들은 회로로부터 명시적으로 또는 암시적으로 제거될 수 있다.

일 실시예에서, 출력 곱들의 세트는 스테이지마다 3개 이상의 가수를 결합함으로써 멀티-스테이지 파이프라인에 의해 생성될 수 있고, 하위 구성들은 그에 따라 조정될 수 있다. 중간 하위 구성들의 미이용 요소들은 회로로부터 명시적으로 또는 암시적으로 제거될 수 있다.

본 발명의 다른 목적은 심층 학습 및 인공 지능의 진행 중인 진화에서 실질적으로 개선된 컨볼루션 신경망을 구현하기 위해 집적 회로에서 대량 곱셈을 제공하는 것이다. 이러한 노력으로 본 발명자는 집적 회로로서 구현되는 제1 컨볼루션 신경망(CNN) 노드를 제공하며, 이는 어레이의 요소의 제1 구성성분의 이산 값들의 스트림으로서 정의되는 제1 입력 채널을 갖는다.

이 설명에서, 본 발명자는 어레이의 요소의 명명법을 단일 구성성분, 또는 복수의 구성성분들을 가질 수 있는 요소를 의미하도록 의도한다. 양호한 예는 픽셀들을 요소들로서 가질 수 있는 이미지이며, 각각의 픽셀은 이미지가 단색인 경우에는 단일 구성성분을 가질 수 있고, 이미지가 RGB 컬러인 경우에는 일 예에서 3개의 컬러 값을 가질 수 있다. 이 예에서 각각의 컬러 값은 픽셀인 요소의 구성성분이다.

어레이의 요소의 제1 구성성분의 이산 값들의 스트림으로서 정의된 제1 입력 채널을 갖는, 집적 회로로서 구현된 제1 컨볼루션 신경망(CNN) 노드의 위의 설명을 계속하면, 이 CNN에는, 수신된 제1 구성성분의 이산 값들을 복수의 가중치 값과 동시에 곱하는 제1 대량 곱셈기 회로가 추가로 있다. 출력 채널은 이산 값들의 출력 스트림을 제공한다.

CNN 노드의 일 실시예에서, 제1 출력 스트림은 일부 상황들에서는 상수들과 곱들을 결합함으로써 그리고 일부 상황들에서는 활성화 함수를 적용함으로써 제1 대량 곱셈기 회로의 곱들로부터 형성된다.

다른 실시예에서, CNN 노드는 어레이의 요소의 제2 구성성분의 이산 값들의 스트림으로서 정의되는 제2 입력 채널, 및 수신된 제2 구성성분의 이산 값들을 복수의 가중치 값들과 동시에 곱하는 제2 대량 곱셈기 회로를 추가로 포함한다. 다른 실시예에서, 어레이의 요소의 제3 구성성분의 이산 값들의 스트림으로서 정의되는 제3 입력 채널, 및 수신된 제3 구성성분의 이산 값들을 복수의 가중치 값들과 동시에 곱하는 제3 대량 곱셈기 회로가 있을 수 있다.

1개, 2개 또는 3개의 입력 구성성분 스트림 및 전용 대량 곱셈기를 갖는 CNN 노드를 설명하였지만, 본 발명자는 집적 회로로서 구현되는 제1 컨볼루션 신경망(CNN) 노드를 갖는 컨볼루션 신경망(CNN)을 추가로 제공하며, 제1 컨볼루션 신경망(CNN) 노드는 어레이의 요소들의 구성성분들의 이산 값들의 스트림들로서 정의되는 입력 채널들, 개별 입력 채널들에 전용되고, 복수의 가중치 값들과 수신된 구성성분들의 이산 값들을 동시에 곱하는 대량 곱셈기 회로들, 및 이산 값들의 출력 스트림을 제공하는 출력 채널을 포함하고, 제2 CNN 노드는 제1 노드의 출력에 적어도 부분적으로 의존하는 입력을 갖는다. 이 CNN은 연속적인 노드들을 가질 수 있고, 심층 신경망(DNN)으로서 동작할 수 있다. 제1 노드 이후의 연속적인 노드들이 CNN 노드들일 필요는 없다.

파이프라인형 애퍼처 함수 연산들

이제부터 본 명세서에서의 이전의 설명을 다시 참조하여, 순 결과를 생성하기 위해 입력들의 어레이에 걸쳐 계산 부함수들의 어레이를 전달하는 CNN 또는 다른 유사하게 선택된 애퍼처 함수를 처리하는데 있어서의 연산들의 순서를 논의하면, 입력들을 스트림으로서 수용하고 출력들을 스트림으로서 생성하는 본 발명의 실시예에서의 반전된 형태의 애퍼처 함수 연산들에 대한 구체적인 설명이 이제부터 제공된다. 본 발명의 이 실시예에서, 입력들은 RAM에 버퍼링되지 않고, 버퍼링될 필요가 없는데, 그 이유는 각각의 입력이 한 번만 참조되기 때문이다. 출력들은 또한 스트림으로 생성되며, 따라서 출력 스트림은 RAM 버퍼링 없이 후속 계층에 의해 처리될 수 있다. 본 발명자는 이 혁신이 다른 처리 시스템들에서 RAM에 대한 많은 다른 필요한 판독 및 기입 동작들에 비해 처리 속도를 실질적으로 증가시킨다고 믿는다.

본 발명의 실시예에서, 2차원 어레이를 통해 2차원 애퍼처 함수를 전달하는 동작이 입력들의 들어오는 스트림에 작용하는 것에 의해 달성되고, 따라서 모든 입력들이 즉각 처리되고, 모든 요구된 입력들이 수신되고 처리될 때까지 부분적으로 완료된 계산들이 유지되며, 출력이 입력 스트림과 통상적으로 동일하거나 보다 낮은 데이터 레이트들을 갖는 순응적 스트림에서 생성되는 장치 및 방법이 제공된다. 모든 입력들은 제공된 레이트로 수용되고 처리되며, 임의의 순서이지만 제시된 순서로 저장되거나 액세스될 필요가 없다. 입력들보다 더 많은 출력들이 생성되도록 애퍼처 함수의 적용이 정의되면, 회로는 시스템이 제시될 때 입력을 수용하고 처리하는데 결코 실패하지 않도록 충분한 증가로 처리 클록 레이트를 선택함으로써 들어오는 데이터 속도로 여전히 연산할 수 있다.

더 큰 입력 어레이에 대한 커널 또는 더 일반적인 애퍼처 함수의 컨볼루션을 구현하는 종래의 방식은, 요구되는 입력 패치를 수집하고, 그 함수를 입력들에 적용하고, 그 결과를 출력하는 것이다. 애퍼처가 입력 어레이 위를 지나감에 따라, 각각의 후속 패치는 방금 처리된 패치와 오버랩될 것이므로 일부 입력들은 유지되고 재이용될 수 있다. 패치가 각각의 새로운 행으로 진행함에 따라 소스 저장소로부터 입력들을 중복하여 판독하는 것을 피하기 위해 FIFO들과 같은 다양한 메커니즘들이 이용될 수 있지만, 소스 데이터는 여전히 커널 내의 각각의 위치에 차례로 적용되어, 그 입력 패치가 각각의 특정 데이터 입력 위치와 오버랩되는 각각의 출력을 생성할 것이다.

계산될 많은 출력 채널들 및 많은 독립적인 애퍼처 함수들이 있는 경우, 고려 중인 입력 값들의 패치의 곱들을 모든 애퍼처 함수들에 병렬로 제공하기 위해 대량 곱셈기가 이용될 수 있다. 그러나, 이러한 배열 및 연산들의 순서와 더불어, 소스 데이터의 각각의 위치는 커널 내의 각각의 위치에 대한 곱들의 세트를 필요로 할 것인데, 이는 그것이 오버랩되는 다양한 출력 위치들로 결합되기 때문이다.

본 발명의 메커니즘은 주어진 입력 값에 한 번만 적용되는 입력 채널마다 단일 대량 곱셈기를 이용하는 것의 특정 이점을 위해 연산들의 순서를 반전시키는, 즉, 그 순서를 뒤집는 것이다. 나중의 곱들의 계산 형태로 나중의 이용을 위해 소스 값들을 유지하거나 재판독하기보다는, 본 발명의 실시예에서의 프로세스는 제시될 때 각각의 입력의 모든 요구된 곱들을 계산하고, 현재의 입력이 나타나는 지점까지 완료되는 애퍼처 함수의 각각의 요소에 대한 누계를 유지한다.

순차적으로 적용되는 일련의 부함수들로 수학적으로 분해될 수 있는 임의의 애퍼처 함수가 이러한 방식으로 구현될 수 있다. CNN 커널들은 단순히 가중치들 × 입력들의 곱들의 가산들의 시퀀스이고, 연산들의 순서는 좌에서 우로, 위에서 아래로 취해진 소스 입력들의 순서와 호환가능하기 때문에, 메커니즘은 쉽게 적용될 수 있다.

본 발명의 실시예에서, 애퍼처 함수의 부함수 요소들에 대응하는 구성기들의 어레이가 IC 상에 구현되고, 각각은 그것이 입력 스트림을 통해 진행함에 따라 애퍼처 함수의 값의 누계를 유지한다. 어레이 내의 최종 구성기는 함수의 완전한 값을 출력하고, 모든 다른 구성기들은 함수의 부분 값을 출력한다.

3 × 3 커널의 적용의 간단한 경우에, 상부 좌측 구성기의 출력은 현재 입력에 적용된 커널의 제1 요소에 임의의 초기화 상수를 더한 것을 반영하고, 상부 중간 구성기의 출력은 처음 두 단계를 반영하고, 상부 우측 구성기의 출력은 처음 세 단계를 반영한다. 상부 우측 구성기의 출력은 다음 행에 의해 다시 이용될 수 있을 때까지 지연될 필요가 있다. 구성기들의 다음 행은 각각의 새로운 입력의 기여를 더하고 그것을 앞으로 전달하는 부분적으로 완료된 함수 값을 수용하는 패턴을 계속한다. 구성기들의 마지막 행은 함수의 마지막 단계들을 완료하고, 임의의 추가 처리를 위해 완료된 값을 출력한다.

구성기들 사이의 함수의 부분 값들의 진행은 일반적으로 제1 행에서 좌에서 우로, 이어서 후속 행들에서 좌에서 우로, 최종적으로 마지막 행에서 마지막 구성기로 이루어지며, 부분 값들의 흐름은 스트림이라고 고려할 수 있고, 구성기들 및 흐름을 업스트림 또는 다운스트림으로서 지칭할 수 있다는 점에 유의한다.

항상, 각각의 구성기는 현재의 소스 입력을 포함하여 현재의 소스 입력까지 애퍼처 함수의 부분 합을 유지한다. 각각의 구성기는 항상 출력의 상이한 패치 위치, 구체적으로는 현재의 입력이 애퍼처 부함수 어레이에서의 구성기들의 상대적 위치에 나타나는 그 패치에 대해 동작하고 있다.

3 × 3 커널(W)이 입력들(A)의 함수로서 다음과 같이 표현되면,

커널을 구현하는 함수는 등가 부함수들로 분해될 수 있다.

이어서, 이러한 부함수들을 계산하는데 필요한 회로는 대응하는 구성기들의 어레이로 배열되고,

부분적으로 완료된 합들은 구성기들의 출력 값으로서 유지된다.

여기서 a _i 는 입력 스트림으로부터의 현재 값이고, a _i-1 내지 a _i-8 은 각각의 경우에 a _i 가 각각의 개별 구성기의 출력에 대한 위치에 나타나는 특정 패치에 대한 이전에 처리된 입력들이다. 각각의 구성기는 구성기가 애퍼처 어레이에서 대응하는 위치를 포함하여 그 위치까지 애퍼처 함수의 값을 계산할 것이다. 각각의 구성기는 입력 스트림의 현재 값을 취하고 그것을 이전 값들과 결합하여, 현재 입력 값이 애퍼처 함수에서의 각각의 구성기의 위치에 대응하는 그 패치의 상대적 위치에 나타나는 입력 어레이 내의 부분적으로 처리된 패치에 대응하는 상이한 부분 합을 생성한다.

이러한 방식으로, 표준 순서 및 정밀도로 계산되는 애퍼처 함수의 부분 값들은 완료된 값들이 출력될 준비가 될 때까지 입력 스트림 상에서 시간 경과에 따라 유지될 것이다.

이러한 기술은 입력 어레이의 내부 내에서 매우 간단하지만, 모든 입력들이 이용가능하지 않을 때 애퍼처 함수가 상이하게 정의되므로, 입력 어레이의 에지들과 오버랩되는 패치들에 적용될 때 복잡함들이 발생한다. CNN 커널의 경우, 0들을 입력들로서 이용하는 것과 등가인 추가적인 연산들이 드롭된다. 본 발명은 후술하는 바와 같이 이러한 예외들을 처리하면서 구성기들을 통한 부분 합들의 일정한 흐름을 유지하는 것과 관련된다.

도 7은 본 발명의 실시예에서 입력 스트림을 수신하고, 입력 스트림을 전처리하고, 고유 디지털 디바이스를 통해 결과들을 공급하여 출력 스트림을 생성하는 구조 및 연결을 예시하는 도면이다.

입력 채널 세트(701) 및 연관된 제어 신호(702)는 공통 회로(703)에 의해 이용되어 후속 부함수에 대한 가중치와의 입력 채널 세트의 임의의 및 모든 곱을 생성한다. 그 후, 소스 채널 곱들은 부함수 계산 회로들(704a, 704b 및 704c)의 뱅크에 분배되고, 이들 각각은 출력 채널 세트(705)의 단일 채널을 생성한다. 임의의 수의 독립적인 출력 채널들이 공통 회로(703)에 의해 지원될 수 있다.

도 8a는 입력 채널 세트(701)의 각각의 채널을 취하고 정의된 부함수들에 의해 요구되는 바와 같은 희소한 또는 완전한 세트의 배수들을 생성하는, 도 7의 공통 회로(703) 내의 대량 곱셈기들(801a, 801b 및 801c)을 예시하는 도면이다. 유의할 점은, 이 예시가, RGB 이미지들을 처리하는데 있어서 적색, 녹색 및 청색 픽셀 값들과 같은 경우에 있을 수 있는 바와 같이, 입력 채널 세트에서의 3개의 채널들을 가정한다는 것이다. 다른 실시예들에서, 1개, 2개, 또는 3개보다 많은 채널이 있을 수 있다. 임의의 또는 모든 곱(802)(대량 곱셈기에 의해 구성된 소스 입력 어레이 값의 배수)은 이하에서 상세히 설명되는 도 9a, 도 9b, 도 9c에 도시된 바와 같은 구성기에 이용가능하게 될 수 있다. 구성기들은 도 8a의 대량 곱셈기들에 의해 생성되는 소스 채널 곱들에 대해 부함수들을 수행하는 본 발명의 고유 디바이스 내의 하드와이어드 회로의 인스턴스들이다.

도 8b는 모든 출력 채널의 모든 구성기에 정상 및 예외 처리 신호 둘 다를 제공하는 동기화 회로의 구조를 예시하는 도면이다.

제어 회로(803)는 모든 출력 및 제어 카운터들을 소스 입력 스트림에 동기화하고, RST 또는 INIT가 어써팅(assert)될 때마다 출력 및 제어 카운터들을 초기 상태로 설정하는 것을 구현한다.

이 예에서의 colSrc 카운터(805)는 행에 걸쳐 열마다 어레이의 내부 차원을 카운트 아웃하고, 소스 채널 곱들의 각각의 세트가 처리됨에 따라 진행한다. 각각의 행의 끝에서, colSrc 카운터는, 이 예에서, 최좌측 위치(0)로 복귀하고, rowSrc 카운터(804)는 1만큼 진행된다. 소스 어레이 스트림의 끝에서, rowSrc 및 colSrc 카운터들은 초기 상태로 복귀되고 입력들의 새로운 어레이를 수신하도록 준비된다.

이 예에서, colDst 카운터(807) 및 rowDst 카운터(806)는 함께 모든 출력 채널들에 대한 카운터들과 유사한 방식으로 동작한다. colDst 및 rowDst 카운터들은 출력 인에이블 신호(DSTEN)(813)에 의해 인에이블되고, 후처리 인에이블 신호(POSTEN)(812)가 어써팅될 때를 결정한다.

이 예에 도시된 시스템은 애퍼처 함수의 단일 출력을 생성하지만, 통상적으로 소스 입력 스트림의 차원들과 호환되는 채널 출력들의 스트림 세트를 생성하는데 이용될 것이라는 점에 유의해야 한다. 각각의 독립적인 출력 채널은 대량 곱셈기 및 공통 제어 로직을 통해 계산 회로의 적어도 일부를 공유할 것이다.

출력 인에이블(DSTEN) 신호(813)는 최종화 함수가 구성기들로부터의 결과들을 수용하고 처리할 때를 제어한다. 처음 몇 개의 행들이 소스 입력 어레이로부터 수용되지만, 어떤 유효한 결과들도 최종화 함수에 제시되지 않는다(도 9c 참조). 출력 인에이블 신호(813)(DSTEN)는 rowDst 및 colDst 카운터들 중 어느 하나가 유효한 결과들이 이용가능함을 나타낼 때 또는 대안적으로 지연된 절단된 결과들을 처리할 때 어써팅된다. POSTEN 신호(812)는 SRCEN 신호(801)의 타이밍에 순응하도록 연속적으로 또는 주기적으로 어써팅된다. 이러한 신호들은 소스 입력 스트림 어레이의 마지막 행을 처리할 때 모든 절단된 구성기들의 최종 출력들을 시퀀싱하도록 요구된다. 로부터 M-2까지의 구성기들의 각각의 행은 어레이 스트림 포맷에 따르기 위해 모든 전체 패치 출력들 후에 순차적으로 유지되고 방출되어야 하는 마지막 전체 출력들과 동시에 최종 절단된 출력들을 생성할 것이다.

이 예에서, POSTEN 및 DSTEN 신호들, 및 colDst, 및 rowDst 카운터 값들은 SRCEN 신호 및 colSrc 및 rowSrc 카운터 값들과 독립적이고 모든 지연된 결과들이 최종화되어 출력 스트림으로 전송될 때까지 지연된 결과들을 계속 처리한다. 시스템은 이전 출력들이 완료되는 동안 새로운 입력들을 수용할 수 있고, 따라서 시스템이 프레임들 사이에서 일시정지하지 않고 소스 입력 스트림의 복수의 프레임들을 처리할 수 있게 한다. 소스 스트림 데이터가 어레이의 끝에 도달하지 않은 동안, POSTEN은 어써팅되지 않으며, 최종 결과들이 구성기들로부터 취해진다. 소스 어레이의 끝에 도달한 직후에, POSTEN 신호는 각각의 추가 출력에 대해 어써팅되고, rowDst 카운터가 전체 수의 출력 행에 도달할 때까지, 후술되는 도 9c에 도시된 바와 같이 절단된 지연 라인(909, 910a, 및 910b)으로부터 최종 결과가 취해지며, 그 결과 rowDst와 colDst는 다음 데이터 프레임에 대비하여 초기 조건으로 리셋된다.

제1 행 신호(808)(ROWFST)는 rowSrc 카운터가 스트림으로부터의 소스 데이터 세트가 어레이의 제1 행을 나타낸다는 것을 표시할 때 어써팅된다.

rowSrc 카운터가 스트림으로부터의 소스 데이터 세트가 어레이의 마지막 행을 나타낸다는 것을 표시할 때 마지막 행 신호(809)(ROWLST)가 어써팅된다.

제1 열 신호(810)(COLFST)는 colSrc 카운터가 스트림으로부터의 소스 데이터 세트가 어레이의 각각의 행의 제1 열을 나타낸다는 것을 표시할 때 어써팅된다.

마지막 열 신호(811)(COLLST)는 colSrc 카운터가 스트림으로부터의 소스 데이터 세트가 어레이의 각각의 행의 마지막 열을 나타낸다는 것을 표시할 때 어써팅된다.

도 9a, 도 9b 및 도 9c는 애퍼처 함수의 M × N 부함수 요소들이, 에지들을 오버랩하는 것들을 포함하는, R × C 입력들의 어레이의 각각의 오버랩하는 M × N 패치에 적용되는 일반적인 경우의 전술한 고유 디바이스를 예시하며, 입력들은 R × C 출력들의 대응하는 스트림을 생성하기 위해 규칙적 또는 불규칙적 시간 간격들에서 연관된 구성성분들의 스트림으로서 제시되고, 각각의 출력은 애퍼처 함수의 규칙들에 의해 지정된 바와 같이 입력 패치에 적용되는 M × N 함수 요소들의 집계 효과이다. 어레이 내의 각각의 위치에 적용되는 함수 요소들은 이 디바이스에서 도 9a, 도 9b 및 도 9c의 구성체에 도시된 바와 같이 M × N 부함수들 각각에 대한 하드와이어드 구성기이다.

이 회로의 효과는 각각의 패치에 대해 개별적으로 애퍼처 함수를 계산하는데 이용되는 것과 동일한 연산들의 시퀀스로 R × C 입력들의 어레이의 각각의 위치에서 애퍼처 함수의 재구성된 값을 계산하는 것이다. 출력 스트림에서 임의의 위치들이 요망되지 않는 경우, 회로가 추가되어, 완전히 오버랩하는 것이 아니라 타일형 또는 이격된 출력들을 생성하도록 이들을 생략할 수 있다.

소스 채널 곱들(802) 및 소스 제어 신호들(814)은 구성기들(901, 902a, 902b, 902c, 903a, 903b, 903c, 904, 905a, 905b, 905c, 906, 907a, 907b, 및 907c) 각각에 이용가능하게 된다. 소스 제어 신호들은 또한 지연들(908a, 908b, 908c, 908d, 908e, 및 908f)에 연결된다. 출력 채널 제어 및 카운터(815)는 지연(909, 910a, 및 910b)뿐만 아니라 최종화 함수(911)에 이용가능하게 된다. 연산의 순서가 변경되지 않는 경우에만 주어진 클록 주파수에 대해 회로 라우팅을 실현가능하게 하기 위해 수동 또는 자동화된 도구에 의해 추가의 파이프라인 스테이지가 삽입될 수 있다. 타이밍 제어 및 카운터 신호들은 회로의 모든 요소들에 대해 이용가능하며, 개별적으로 도시되지는 않는다.

각각의 구성기는 특정 입력 곱들에 대한, 또는 대안적으로, 세트 내의 각각의 입력 값에 대한 곱들 중 하나를 선택하고 회로의 실행 전에 미리 구성되는 프로그래머블 멀티플렉서에 대한 전용 직접 연결을 가진다. 각각의 전용 연결은 단일 입력 간격에서 요구되는 곱들을 표현하는 비트들을 운반하기에 충분한 복수의 와이어들을 가지는 병렬 경로이다. 각각의 세트 요소에 대한 어느 곱이 각각의 구성기에 전송되는지를 선택하기 위해 선택적인 미리 구성된 멀티플렉서를 이용하는 것은 필드에서의 가중치 값들의 업그레이드를 허용한다. 가중치가 업그레이드되지 않고 디바이스의 수명 동안 고정된 채로 있을 때 고정된 연결이 이용된다. 가중치들의 선택이 연산 동안 변경되지 않으므로, 고정 또는 가변 곱 선택의 선정은 회로들의 연산에 영향을 미치지 않는다.

각각의 구성기는 대량 곱셈기로부터, 입력 채널당 하나씩, 부함수의 가중치들에 대응하는 곱들의 세트를 수신하고, 부함수 계산을 수행하여, 전형적으로 그것들을 모두 함께 단순히 가산하여, 전체 애퍼처 함수의 값에 대한 이 구성기의 기여를 형성한다. 각각의 구성기는, 애퍼처 함수의 좌측 열에 대응하는 것들을 제외하고는, 바로 좌측의 구성기로부터 부분적으로 완료된 결과들을 또한 수신한다. 각각의 구성기는, 애퍼처 함수의 최상부 행에 대응하는 것들을 제외하고는, 위의 행에 있는 구성기로부터 지연된 부분적으로 완료된 결과들을 또한 수신할 수 있다. 각각의 구성기는 기껏해야 좌측으로부터의 하나의 연결 및 위로부터의 하나의 지연된 연결을 가지며, 그 각각의 연결은 부분적으로 완료된 결과들을 구성기에 대한 입력으로서 표현하는 비트들을 운반하기에 충분한 복수의 컨덕터들을 갖는 병렬 경로이다. 입력 어레이의 에지들에 대한 현재 입력 패치의 위치에 관한 부함수의 정의에 따라, 각각의 구성기는 3개의 연산, 즉 존재하는 경우, 이 구성기의 부분 결과와 초기화 값들의 결합, 또는 좌측의 구성기로부터의 부분 결과들과 이 구성기의 부분 결과의 결합, 또는 지연된 부분 결과들과 이 구성기의 부분 결과의 결합 중 하나를 수행한다. 수정된 결과는 그 결과를 포함하고 이를 우측의 구성기 및/또는 지연 및 최종화 회로에 대한 후속 입력 간격에서 이용가능하게 하기에 충분한 복수의 비트의 출력 레지스터에 배치된다. 이러한 수정된 결과는 애퍼처 함수에서의 구성기의 위치 및 입력 스트림 위치의 상태에 따라 부분 결과, 완전한 결과 또는 절단된 결과일 수 있다.

구성기 (0, 0)은 애퍼처 함수에서 좌측 또는 위에 어떠한 구성기들도 존재하지 않고 따라서 수신된 각각의 입력 세트로 계산을 항상 초기화한다는 점에서 고유하다.

구성기 (M-1, N-1)은 생성된 결과가 항상 최종 결과이지만 모든 다른 구성기들(903a, 903b 또는 903c)과 구조적으로 동일하다는 점에서 고유하다.

일부 구성기들의 출력들은 지연 또는 후처리를 위해 탭핑되며, 이 경우에 이러한 지연 또는 후처리를 통한 경로의 폭은 부분, 절단된 또는 완료된 결과를 표현하는 비트들을 전송하기에 충분하다. 일부 구성기의 출력은 우측의 구성기에 의해서만 이용된다. 구성기 및 출력 데이터 포맷 내부의 계산은 출력의 이용에 따라 변경을 요구하지 않는다.

최종화 회로는 수 개의 가능한 소스들로부터의 결과를 취하고 이들을 멀티플렉싱하여 임의의 간격으로 어느 것을 처리할지를 선택한다. 최종화 함수를 적용한 후에, 만약 있다면, 최종 출력의 폭은 감소될 수 있고, 본 발명을 포함하는 시스템의 다음 최종 출력들의 입력 스트림일 수 있거나 또는 추가 처리에서 이용될 수 있는 본 실시예의 출력 스트림을 형성할 것이다.

본 발명의 실시예들에서의 고유 디바이스 상의 데이터 경로들은 도 9a, 도 9b 및 도 9c에서 화살표들로 표시된 방향을 갖는 굵은 선들로 표시되고, 생략 부호는 그 범위 내의 마지막 열 또는 행이 전체적으로 반복되는 곳을 표시한다. 소스 채널 곱들(802)로부터의 데이터 경로 (a)는 병렬 수행 경로들의 세트이고, 하나의 경로는 입력 구성성분의 각각의 곱에 전용되고, 각각의 곱은 입력 구성성분의 값과 애퍼처 함수의 복수의 가중치 값 중 하나를 곱한 것이다. 5 × 5 애퍼처 함수는 각각의 입력 구성성분에 대해 25개의 가중치 값을 갖는다는 것이 명백할 것이다. R, G 및 B 컬러 픽셀들의 R × C 입력 어레이에 대한 애퍼처 함수의 상황에 대해, 75개의 가중치 값이 존재한다. 따라서, 라인 (a)는 이 상황에서 75개의 병렬 경로들을 가지며, 각각의 경로는 정확도를 위해 원하는 수의 비트들을 수용하기 위한 폭의 병렬 컨덕터들의 세트이다. 라인 (a)는, 버스와 달리, 본 기술분야에서 포인트-투-포인트 연결들의 세트라고 한다.

도 9a, 도 9b 및 도 9c의 데이터 경로들 (b)는 라인 (a)의 확장들이 아니라, 라인 (a) 내의 경로들의 특정 서브세트에 대한 전용 연결들이다. 라인들 (b)는 도 9a, 도 9b 및 도 9c의 모든 경우에서 마킹되지 않지만, 라인 (a)로부터 직접 구성기들 중 개별 구성기로의 모든 연결은 전용 라인 (b)이다. 전용은 각각의 구성기가 각각의 입력 구성성분과 그 구성기에 의해 요구되는 가중치 값들의 곱들을 운반하는 경로들의 그 서브세트에 연결된다는 것이다.

도 9a, 도 9b 및 도 9c의 데이터 경로들 (c)는 각각의 구성기 내의 출력 레지스터들과 우측의 다음 구성기 사이의 포인트-투-포인트 경로들이다. 이들은, 본 명세서의 다른 곳에서 상세히 설명되는 바와 같이, 통상적으로 부분 합을 운반하는 정확도 폭의 전용 경로들이다. 모든 경로 (c)가 도면들에 마킹되어 있는 것은 아니지만, 이 예에서, 하나의 구성기로부터 다른 구성기로의 모든 직접 연결이 경로 (c)인 것으로 가정될 수 있다. 출력 경로들 (c)가 대안적인 회로로 분기하는 경우들이 존재한다는 점에 유의한다.

본 발명의 실시예에서 다른 별개의 데이터 경로는 도 9a, 도 9b 및 도 9c에서 (d)로 마킹된다. 이들은 회로들(908A 내지 908f)과 같은 지연 회로들로부터 다시 행 아래의 그리고 좌측의 구성기들로, 또는 직접 다른 지연 회로들로의 전용 데이터 경로들이다. 지연 회로들은 구성기들의 행의 우측 단부에서 부분 합들을 수용하고, 특정 수의 소스 간격들 동안 부분 합들을 지연 전달하고, 그 후 이들 부분 합들을 다른 구성기 및/또는 다른 처리에 적절한 시간에 전달하도록 구성된다. 전체 기능은 본 명세서의 다른 곳에서 상세히 설명된다. 지연 회로 사이의 경로들 (d)는 유사하게 특정 소스 간격들에서 전달될 전형적인 부분 합들에 대한 전용 경로들이다.

범위의 마지막 행들 또는 열들이 요구되지 않도록 M 또는 N 중 어느 하나가 감소되면, 종료 요소들은 생략되고, 범위 내의 제1 행 또는 열의 구현이 유지된다. M 또는 N 중 하나 또는 둘 다가 2로 감소되는 축퇴 경우에, 처음 및 마지막 행들 또는 열들은 유지되고, 중간 행들 또는 열들은 생략된다. M 또는 N 중 하나가 1로 감소되는 축퇴 경우에, 처음 및 마지막 구성기의 구현들이 결합되고, 특별한 초기화가 요구되지 않는다. M과 N 둘 다가 1인 특정한 경우에, 애퍼처 함수의 반전이 요구되지 않지만, 대량 곱셈기의 이용은 여전히 뚜렷한 이점을 제공한다.

소스 채널 곱들(802)은 R × C 어레이의 특정 위치와 동시에 연관되고 소정의 미리 정의된 시퀀스로 제시되는 임의의 이진 값 세트일 수 있다. 입력 스트림의 소스 채널들은 애퍼처 함수의 입력들에 대해 정의되는 성질이 무엇이든 간에 임의의 포맷의 정수 또는 분수 값들의 임의의 결합일 수 있다. 일 예는 CNN 계층들의 출력으로서 생성된 특징 구성성분 값들뿐만 아니라 어레이 크기 R × C를 매칭시키도록 스케일링된 하나 이상의 비디오 프레임 및/또는 임의의 다른 센서 값으로부터의 픽셀 값들이다. 본 발명을 구현하는 각각의 노드는 주요 소스 입력들에 더하여 또는 그 대신에 다른 노드들로부터의 출력을 수용할 수 있다는 것이 강조된다. 본 발명의 실시예에서, 제1 노드 또는 노드들이 이미지 픽셀들을 시스템의 주요 입력으로서 수용하는 것이 통상적이지만, R × C 어레이를 나타내는 스트림으로 포맷팅될 수 있는 경우, 처리되는 데이터의 성질에 대한 제한이 없다.

본 발명의 일 실시예에서, 소스 스트림 요소 세트들은 행 우선 순서로 제시될 수 있으며, 각각의 후속 열은 엄격히 오름차순으로 제시될 수 있다. 본 발명의 일부 실시예들에서, 행들 및 열들은 수평 또는 수직 축들에 대응할 필요는 없지만, 열들을 위 또는 아래로 그리고 우측에서 좌측으로 스캐닝하는 것과 같이 임의적일 수 있다. 행들 R 및 열들 C는 여기서 단순히 스트림 포맷의 장축 및 단축을 지칭한다. 회로는 표준 비디오의 좌측->우측, 최상부->최하부 순서화 이외의 배향들로 입력 스트림을 생성하는 입력 신호들에 대해 조정될 필요가 없다. 애퍼처 부함수들의 배향은 각각의 입력 어레이 위치에 대해 동일한 출력들을 생성하도록 순응하게 될 수 있다.

이 예에서, 애퍼처 함수에 의해 요구되는 바와 같은 소스 값들과 가중치들의 곱들인 소스 입력들은 요소들의 각각의 새로운 세트가 언제 유효한지를 나타내는 신호에 의해 제시된다(도 8b의 SRCEN 참조). 입력은 언제라도 일시정지되고 재개될 수 있다. 일부 경우들에서, 입력들 사이의 최소 간격이 정의될 수 있고, 회로는 크기, 전력을 감소시키거나 다른 방식으로 이용하기 위해 멀티사이클 또는 더 높은 속도의 클록들을 이용할 수 있고, 출력 채널 세트는 동일한 최소 간격을 이용할 수 있다.

공통 제어 및 동기화 회로(803)(도 8b)는 R × C 어레이에서 현재 입력 위치를 설명하는 카운터들 및 제어 신호들을 제공한다. 카운터들은 최종 입력 후에 여분의 행들 및 열들에 대해 계속 실행되어, 최종화 함수(911)(도 9c)가 입력의 마지막 행에 의해 입력 열들을 초과하여 생성된 누산된 출력들을 출력하는 것을 도울 수 있다(도 12, 도 13 및 도 14 그리고 아래의 설명 참조). 제어 신호들은 모든 다른 요소들에 대해 이용가능하며, 도 9a, 도 9b 및 도 9c에 도시되지 않는다.

구성기 회로들(901, 902a, 902b, 902c, 903a, 903b, 903c, 904, 905a, 905b, 905c, 906, 907a, 907b, 및 907c)은 각각 M × N 함수에서 그 위치들에 할당된 애퍼처 함수의 부분을 계산한다. 모든 구성기들은 제어(803)에 의해 제공되는 바와 같이 동일한 소스 채널 세트 및 행 및 열 카운터 상태들에 대해 연산한다. 애퍼처 함수의 데이터 처리의 상세들은 추가적인 도면들을 참조하여 이하에서 추가로 설명된다.

소스 입력 세트들이 입력 스트림으로부터 수신될 때, 입력 스트림 내의 현재 위치와 오버랩되는 모든 패치들에 적용되는 바와 같은 애퍼처 함수의 부분적으로 완료된 계산들은 구성기들의 M × N 어레이 내에서 좌에서 우로 그리고 최상부에서 최하부로 전달된다. 이 연산은 시간 경과에 따른 애퍼처 함수의 전체 계산을 누산하고, 어레이로부터 직접 입력 값들을 판독함으로써 애퍼처 함수가 구현된 경우와 동일한 연산 순서를 통해 동일한 결과를 생성하는 입력 어레이의 각각의 패치에 대한 애퍼처 함수의 정확한 구현을 출력한다. 어레이에 대한 랜덤 액세스를 스트림 액세스로 대체하는 것은 본 발명의 중요한 특징이며, 랜덤 액세스 메모리에 대한 중복 액세스 요건을 제거한다.

최하부 행을 제외한, 구성기들의 우측 열들( 내지 N-1)에서, 부분 출력들은 지연 스테이지들(908a, 908b, 908c, 908d, 908e, 및 908f)로 전달되고, 여기서 이들은 필요한 입력 간격들의 수 동안 유지되어, 이들은 입력들이 패치의 하부 행들에 대응하여 수신될 때 동일한 논리적 패치 위치의 추가 계산들에서 이용될 수 있게 한다.

각각의 입력 행의 마지막 열(C-1)을 처리할 때, 열들( 내지 N-1) 및 행들(0 내지 M-2)로부터의 모든 구성기들은 또한 입력 어레이의 마지막 열을 포함하는 패치들의 그 행에 대한 마지막 계산을 나타내며, 그 값들은 지연 스테이지들(908a, 908b, 908c, 908d, 908e, 및 908f)로 전달되고, 시퀀스 내에 삽입될 특수 처리를 필요로 하며, 따라서 이들은 후속 입력 행들이 수신될 때 애퍼처 함수의 계산을 계속하기 위해 정확한 시간에 이용가능할 것이다. 도 11 및 연관된 설명을 참조한다.

이 예에서, (M-1, N-1) 위치에 있는 구성기(903c)는 항상 M × N 부함수 요소들의 완료된 누산을 생성하지만, 그렇지 않은 경우 그 구성(903c)의 다른 구성기들과 구별가능하지 않다. 상기와 같이, 각각의 입력 행의 마지막 열(C-1)을 처리할 때, 행(M-1) 상의 열들( 내지 N-1)로부터의 모든 구성기는 또한, 애퍼처 함수 요소들의 완료되었지만 절단된 누산을 나타내고, 출력 스트림에 삽입될 처리를 위해 최종화 함수(911)에 직접 전송된다.

이 예에서, 입력들의 마지막 행(R-1)을 처리하는 동안, 행( 내지 M-1)으로부터의 열(N-1)에서의 구성기들은 또한 부함수 요소 계산들의 완료되었지만 절단된 누산들을 나타내고, 절단된 출력 지연 라인들(909, 910a, 및 910b)에 전송되고 행(M-1)으로부터의 주요 출력들이 911에서 최종화될 때까지 유지된다. 도 8b에 도시된 바와 같은 제어 신호들에 의해, 추가적인 M- 행들의 절단된 출력들은 지연 라인들(909, 910a, 및 910b)로부터 전송되고, 최종화되고(911), 궁극적으로 임의의 요구되는 타이밍 간격으로 출력 스트림 싱크(705)에 제공된다.

도 15는 5 × 5 컨볼루션 노드를 구현하는 본 발명의 실시예에서의 파이프라인형 연산들의 특정 경우를 예시하는 도면이다.

소스 채널 곱들(802) 및 소스 제어 신호들(여기에 도시되지 않음)은 구성기들(901, 902a, 902b, 903a, 903b, 904, 905a, 905b, 906, 907a, 및 907b) 각각에 이용가능하게 된다. 소스 제어 신호들은 또한 지연들(908a, 908b, 908c, 및 908d)에 연결된다. 출력 채널 제어 및 카운터는 지연(909, 910a)뿐만 아니라 최종화(911)에 이용가능하게 된다. 연산의 순서가 변경되지 않는 경우에만 주어진 클록 주파수에 대해 회로 라우팅을 실현가능하게 하기 위해 수동 또는 자동화된 도구에 의해 추가의 파이프라인 스테이지가 삽입될 수 있다. 타이밍 제어 및 카운터 신호들은 회로의 모든 요소들에 대해 이용가능하며, 개별적으로 도시되지는 않는다.

소스 채널 곱들의 각각의 세트가 차례로 제시될 때, 각각의 구성기는 애퍼처 함수에서의 위치에 대응하는 부함수를 계산하기 위해 적절한 곱을 선택한다. 입력 어레이 내의 현재 위치와 교차하는 각각의 5 × 5 패치는 그 위치의 곱들에 기반한 계산을 포함하도록 수정된다. 순 효과는 입력들의 단일 소스 스트림이 부분 계산들의 5 × 5 스트림들의 병렬 세트로 변환되는 것이며, 이 부분 계산들은 패치에 대한 모든 연산들이 완료될 때마다까지 구성기들 사이에 전달되며, 이는 통상적으로 구성기(4, 4)에서 그리고 때때로 입력 어레이의 우측 또는 하부 에지들을 처리할 때 다른 것들에서 발생한다.

입력 어레이의 폭만이 지연 요소들의 크기에 영향을 미치는데, 그 이유는 각각이 하나의 열의 입력 및 다음 행 상의 동일 열에서의 입력을 수신하는 것에 대응하는 소스 입력 간격들의 수에 대한 부분 결과들을 지연시켜야 하기 때문이라는 점에 유의한다.

도 16은 본 발명의 IC의 4 × 4 실시예를 예시한다. 커널들은 행 또는 열에서 홀수 개의 부함수들, 또는 짝수 개의 부함수들을 가질 수 있다는 것이 알려져 있다. 이 짝수 버전은 출력 처리의 여분의 라인들이 생략되기 때문에 5 × 5 애퍼처 함수의 특정 경우(행과 열의 홀수)에 대해 도 9c 및 도 15의 일반적인 경우에 도시된 바와 같은 요소(910*)가 전혀 발생하지 않는다는 점에서 축퇴성이다.

커널의 홀수 크기들은, 양 방향들에서, 중심 주위에서 대칭이지만, 짝수 크기들에서 중심은 오프셋된다. 본 발명의 실시예들에서의 IC는 짝수 크기들에 대한 중심을 위치()에서 자연 분할의 우측 및 아래에 배치한다. 본 발명의 대안적인 실시예에서, 회로는 자연 분할의 위와 좌측에 중심을 위치시키도록 수정될 수 있다.

이들 코멘트 이외에, 도 16의 특정 IC의 동작은 설명된 다른 버전들에 대해 설명된 바와 같다.

도 10a는 본 발명의 실시예에서의 도 9a 및 도 9b 또는 도 15의 구성기들(905a, 905b 및 905c)의 내부 구조 및 동작을 예시하는 도면이다. 회로(1004)에 의해 각각의 개별 구성기의 기여를 계산하기 위해, 단일, 또는 애퍼처 함수에 의해 요구되는 데이터 유형들의 혼합일 수 있는 채널 세트(1001) 내의 스트림 값들의 소스 입력 세트가 이용된다.

회로(1005)는 1004의 출력을 이용하여 부함수의 초기 값을 계산한다. 회로(1006)는 1004의 출력 및 1002의 바로 좌측의 구성기에 의해 이전에 계산된 부분 값을 이용하여 부함수의 진행 중인 부분 값을 계산한다. 회로(1007)는 1004의 출력 및 1003의 바로 위의 구성기 행 상의 908a, 908b, 908c, 908d, 908e, 및 908f 중 하나로부터 이전에 계산되고 지연된 부분 값을 이용하여 부함수의 진행 중인 부분 값을 계산한다.

회로(1005, 1006, 및 1007)의 연산은 그 공유된 출력을 이용하여 회로(1004)의 연산과 (동일한 클록 사이클에서) 동시발생적일 수 있거나, 동일한 클록에 의해 동기화된 일련의 파이프라인 스테이지들에 의해 구현될 수 있다.

멀티플렉서(1008)는 부분 결과의 어느 변형이 구성기(1009)의 출력으로서 부함수의 부분 값으로 전달되는지를 선택한다. COLFST(811)가 어써팅되지 않으면, 1006의 출력이 선택되고, 그렇지 않고, ROWFST(808)가 어써팅되지 않으면, 1007의 출력이 선택되고, 그렇지 않으면, 1005의 출력이 선택된다.

이러한 조건부 처리는 M × N 애퍼처 함수가 값 세트들의 R × C 어레이를 나타내는 소스 입력 스트림의 에지들에 걸쳐 확장되게 하는 자연스러운 결과이다. 최좌측 에지 또는 최상부 에지 상의 단일 위치는 이러한 에지들에 접하거나 오버랩되는 여러 패치에 대한 애퍼처 함수의 제1 계산가능한 요소일 것이다. 이와 같이, 오버랩하는 패치의 제1 계산가능한 위치에 있는 각각의 및 모든 구성기가 애퍼처 함수의 기본 값으로 초기화되는 것이 요구된다. 또한, 패치의 후속 행의 제1 계산가능한 위치에 있는 각각의 및 모든 구성기는 직전 행으로부터 계산된 동일한 패치의 부분 값의 이전 값과 결합되어야 한다. 이러한 방식으로, 최상부 및 최좌측 에지들에 오버랩되거나 접하거나 그 내부에 있는 모든 패치들의 정확한 계산이 단일 회로를 이용하여 보장된다.

도 10b 내지 도 10g에서, 도 10a에 도입되고 동일한 요소 번호를 이용하는 모든 요소들은 도 10a를 참조하여 설명된 것들과 기능적으로 동일하다.

도 10b는 본 발명의 실시예에서의 도 9a 및 도 9b 또는 도 15의 구성기들(902a, 902b 및 902c)의 내부 구조 및 동작을 예시하는 도면이다. 스트림 값들의 소스 입력 세트(1001)는 애퍼처 함수에 대한 구성기의 기여를 계산하기 위해 회로(1004)에 의해 이용된다.

회로(1005)는 1004의 출력을 이용하여 부함수의 초기 값을 계산하고, 회로(1006)는 1004의 출력 및 1002의 바로 좌측의 구성기에 의해 이전에 계산된 부분 값을 이용하여 부함수의 진행 중인 부분 값을 계산한다.

멀티플렉서(1010)는 부분 결과의 어느 변형이 구성기(1009)의 출력으로서 부함수의 부분 값으로 전달되는지를 선택한다. COLFST(811)가 어써팅되지 않으면, 1006의 출력이 선택되고, 그렇지 않으면, 1005의 출력이 선택된다.

도 10c는 본 발명의 실시예에서의 도 9a 또는 도 15의 구성기들(904)의 내부 구조 및 동작을 예시하는 도면이다. 스트림 값들의 소스 입력 세트(1001)는 회로(1004)에 의해 각각의 개별 구성기의 기여를 계산하는데 이용된다.

회로(1005)는 1004의 출력을 이용하여 부함수의 초기 값을 계산하고, 회로(1007)는 1004의 출력 및 1003의 바로 위의 구성기 행 상의 908a, 908b, 908c, 908d, 908e, 및 908f 중 하나로부터 이전에 계산되고 지연된 부분 값을 이용하여 부함수의 진행 중인 부분 값을 계산한다.

멀티플렉서(1011)는 부분 결과의 어느 변형이 구성기(1009)의 출력으로서 부함수의 부분 값으로 전달되는지를 선택한다. ROWFST(808)가 어써팅되지 않으면, 1007의 출력이 선택되고, 그렇지 않으면 1005의 출력이 선택된다.

도 10d는 본 발명의 실시예에서의 도 9a 또는 도 15의 구성기(901)의 내부 구조 및 동작을 예시하는 도면이다. 스트림 값들의 소스 입력 세트(1001)는 회로(1004)에 의해 각각의 개별 구성기의 기여를 계산하는데 이용된다.

회로(1005)는 구성기(1009)의 출력으로서 부함수의 부분 값으로 전달되는 1004의 출력을 이용하여 부함수의 초기 값을 계산한다.

셀(901)(도 9a, 도 15)은 이용되는 임의의 전체 또는 절단된 패치에서 항상 제1 값이므로 항상 패치에 대한 초기화 값을 생성한다.

도 10e는 본 발명의 실시예에서의 도 9b 및 도 9c 또는 도 15의 구성기들(903a, 903b 및 903c)의 내부 구조 및 동작을 예시하는 도면이다. 스트림 값들의 소스 입력 세트(1001)는 회로(1004)에 의해 각각의 개별 구성기의 기여를 계산하는데 이용된다.

회로(1006)는 회로(1004)의 출력, 및 구성기(1009)의 출력으로서 부함수의 부분 값으로 전달되는 1002의 바로 좌측의 구성기에 의해 이전에 계산된 부분 값을 이용하여 부함수의 진행 중인 부분 값을 계산한다.

도 10f는 본 발명의 실시예에서의 도 9a 및 도 9b 또는 도 15의 구성기들(907a, 907b 및 907c)의 내부 구조 및 동작을 예시하는 도면이다. 스트림 값들의 소스 입력 세트(1001)는 각각의 개별 구성기(1004)의 기여를 계산하는데 이용된다.

회로(1006)는 회로(1004)의 출력, 및 1002의 바로 좌측의 구성기에 의해 이전에 계산된 부분 값을 이용하여 부함수의 진행 중인 부분 값을 계산한다. 회로(1007)는 1004의 출력, 및 1003의 바로 위의 구성기 행 상의 908a, 908b, 908c, 908d, 908e, 및 908f 중 하나로부터 이전에 계산되고 지연된 부분 값을 이용하여 부함수의 진행 중인 부분 값을 계산한다.

멀티플렉서(1012)는 부분 결과의 어느 변형이 구성기(1009)의 출력으로서 부함수의 부분 값으로 전달되는지를 선택한다. COLFST(811)가 어써팅되지 않으면, 1006의 출력이 선택되고, 그렇지 않으면 1007의 출력이 선택된다.

도 10g는 본 발명의 실시예에서의 도 9a 또는 도 15의 구성기들(906)의 내부 구조 및 동작을 예시하는 도면이다. 스트림 값들의 소스 입력 세트(1001)는 회로(1004)에 의해 각각의 개별 구성기의 기여를 계산하는데 이용된다.

회로(1007)는 회로(1004)의 출력, 및 1003에서 바로 위의 구성기 행 상의 908a, 908b, 908c, 908d, 908e, 및 908f 중 하나로부터 이전에 계산되고 지연된 부분 값을 이용하여 부함수의 진행 중인 부분 값을 계산한다. 회로(1007)의 출력은 부함수의 부분 값으로 구성기(1009)의 출력으로서 전달된다.

도 11은 인트라 행 지연 라인들(908a, 908b, 908c, 908d, 908e, 및 908f)(도 9c)의 내부 구조 및 동작을 예시하는 도면이다. 지연 라인들은 다음 행에서 이용될 구성기들의 각각의 행으로부터의 부분적으로 계산된 결과들을 유지하는데 이용된다.

COLLST가 어써팅될 때, 소스 입력 스트림의 현재 위치는 최우측 에지에 있고, 행들((1101) 내지 (N-2)(1102))의 구성기들의 출력들은 레지스터들(1104 내지 1105)에 의한 미래의 참조를 위해 각각 유지된다.

소스 입력 스트림의 현재 위치(colSrc)가 보다 작으면, 멀티플렉서(1106)는 인덱스 계산((N-2)-colSrc)에 의해 정의된 바와 같이 우측에서 좌측으로 역순으로 유지된 값들로부터 선택하고, 그렇지 않으면 행 m의 마지막 구성기로부터 현재 값을 선택한다(1103).

소스 입력 스트림 열 위치가 보다 작을 때, 그 행의 최우측 구성기는 이들 시간 슬롯들이 유지된 데이터를 삽입하는데 이용가능하게 하는 유효 데이터를 포함하지 않을 것이라는 점에 유의한다.

멀티플렉서(1106)에 의해 선택된 부분 출력들은 C-N 위치들을 갖는 선입 선출(FIFO) 회로(1107)로 공급되고, 이는 정확히 하나의 값이 삽입되고 하나의 값이 삽입된 것과 동일한 순서로 추출되게 소스 입력 스트림 위치가 처리되도록 구성된다. 소스 입력 스트림이 다음 행 상의 동일한 패치 위치로 복귀할 때까지 하나의 위치로부터의 부분적으로 완료된 결과들이 요구되지 않을 것이기 때문에, 이것은 하나의 행에 의해 계산된 부분 결과들이 필요할 때 다음 행에 정확하게 제시될 지연을 가져온다.

멀티플렉서(1106)에 의해 선택된 부분 출력은 또한 동일한 값(1114)을 최종 결과 지연 라인(909, 910a 및 910b)에 공급한다.

FIFO(1107)로부터 추출된 부분 출력들은 1108에서 다음 행(1111) 상의 최좌측 구성기로 그리고 데이터가 레지스터 체인을 통해 전달될 때 하나의 소스 입력 스트림 간격만큼 부분 출력들을 추가로 지연시키는 일련의 병렬 액세스 레지스터들(1109 내지 1110)로 라우팅된다.

소스 입력 스트림의 현재 위치가 최좌측 에지에 있을 때, FIFO는 1108에서 출력 데이터를 지향시키고, 지연된 결과들(1109 내지 1110)은 각각 1111, 1112 내지 1113에서 다음 행의 셀들에 이용가능하게 된다.

멀티플렉서(1106)에 의해 FIFO(1107)로 삽입된 소스 입력 어레이 스트림의 우측으로부터의 여분의 값들은 소스 입력 어레이 스트림 위치가 우측 에지 근처에 있을 때에만 경로(1111)를 통해 액세스되는 반면, 추가적인 병렬 경로들(1112 내지 1113)은 소스 입력 어레이 스트림이 경로(1103)로부터 정상적으로 삽입된 데이터에 액세스하기 위해 최좌측 위치에 있을 때에만 이용된다는 점에 유의한다. 우측 에지 처리와 좌측 에지 처리 사이의 구조 및 요건들에서의 명백한 유사성들은 소스 입력 스트림 어레이의 우측 및 좌측 에지들과의 부함수의 오버랩의 대칭성의 자연스러운 결과이다. N에 대한 값이 짝수일 때, 우측 및 좌측 에지들을 지원하기 위해 처리되는 여분의 셀들의 수는 동일하지 않다.

도 12는 최종 절단된 결과 지연 라인(909)(도 9c)의 내부 구조 및 동작을 예시하는 도면이다.

소스 입력 스트림 어레이의 마지막 행을 처리할 때, 인트라 행 지연 라인(908d)의 보조 출력(1201)으로부터의 부분 결과들은 절단된 패치들의 최종 행의 최종 결과들인 것으로 고려되며, 그 요소 수 C가 소스 입력 스트림 어레이의 폭과 동일한 FIFO(1202)에 유지된다.

절단된 패치들의 최종 결과들을 기록한 직후에, FIFO(1202)의 출력들은 1203을 통해 추가 지연 라인들(910a)로 또는 M의 값이 어떠한 다른 지연 라인들도 개입하지 않도록 하는 경우에는 최종 처리(911)로 직접 전송될 것이다.

도 13은 최종 절단된 결과 지연 라인(910a 및 910b)의 내부 구조 및 동작을 예시하는 도면이다.

소스 입력 스트림 어레이의 마지막 행을 처리할 때, 인트라 행 지연 라인들(908e 내지 908f)의 보조 출력으로부터의 부분 결과들(1301)은 절단된 패치들의 최종 행의 최종 결과들인 것으로 고려되고, 그 요소 수 C가 소스 입력 스트림 어레이의 폭과 동일한 FIFO(1304)에 유지된다.

POSTEN이 어써팅될 때, 멀티플렉서(1303)는 1302로부터의 값들을 취하는 것과 그 위의 행의 최종 절단된 지연 라인으로부터의 값들을 취하는 것 사이에서 스위칭하고, 이것은 모든 이전 출력 결과들의 순서화와 호환되는 행 우선 순서로 최종 절단된 결과들을 제시하는 효과를 가질 것이다.

POSTEN이 처음 어써팅될 때 입력 프레임의 그 사이클 동안, FIFO들(1202 및 1304)의 콘텐츠는 소스 입력 스트림 어레이의 마지막 행과 오버랩되는 절단된 패치들의 최종 값들이라는 점에 유의한다. 그 사이클 전에 FIFO들(1202 및 1304)에 포함된 임의의 데이터는 처리되지 않을 것이므로, 소스 입력 스트림 어레이의 최종 행을 처리하지 않을 때 실행의 임의의 억제는 선택적이다.

절단된 패치들의 최종 결과들을 기록한 직후에, FIFO(1304)의 출력들은 1305를 통해 추가 지연 라인들로 또는 M의 값이 어떠한 다른 지연 라인들도 개입하지 않도록 하는 경우에는 최종 처리(911)로 직접 전송된다.

도 14는 모든 전체 및 절단된 결과들의 최종 처리의 내부 구조 및 동작을 예시하는 도면이다.

도 11에서와 같이, 동일한 구성 및 기능을 가지고, 소스 입력 스트림의 현재 위치가 최우측 에지에 있는 경우, (1101) 내지 N-2(1102)의 행들 M-1의 셀들의 출력들은 레지스터들(1104 내지 1105)에 의한 미래의 참조를 위해 각각 유지된다.

소스 입력 스트림의 현재 위치가 보다 작으면, 멀티플렉서(1106)는 우측에서 좌측으로 역순으로 유지된 값들로부터 선택하고, 그렇지 않으면 행 M-1의 마지막 구성기로부터 현재 값을 선택한다(1103).

소스 입력 스트림 어레이를 처리하는 동안, 멀티플렉서(1402)는 멀티플렉서(1106)에 의해 선택된 결과들을 최종화(1403)에 직접 공급한다. 후처리 단계에서, 절단된 결과 지연 라인들(1401)의 출력들이 대신에 최종화(1403)를 위해 선택된다.

최종화 회로(1403)는, 있다면, 모든 추가 계산을 수행하여 구성된 패치 결과로부터 최종 형태의 출력 스트림(1404)을 생성한다. 이것은 통상적으로 RELU(Rectified Linear Activation) 함수의 형태를 취할 수 있으며, 이에 의해 음의 값들은 0으로 설정되고, 초과 한계 값들은 최대 수용가능한 값으로 설정되거나, 시그모이드(sigmoid) 또는 tanh와 같은 임의의 다른 원하는 조정 함수로 설정된다. 후처리 함수는 단일 소스 입력 스트림 사이클 내에서 완료되도록 요구되지 않지만 소스 입력 스트림 어레이의 레이트에서 각각의 최종 결과를 수용하도록 요구된다.

DSTEN이 어써팅될 때, 최종화 회로(1403)는 최종 결과들을 목적지 출력 스트림의 하나의 값으로서 제시한다. DSTEN이 어써팅되지 않는 임의의 시간에, 최종화 회로(1403)에 의해 생성되는 임의의 부분적 또는 부정확한 값들은 무시되므로, 결과들이 이용되지 않을 때의 연산의 임의의 억제는 선택적이다.

일 구현에서, 목적지 출력 스트림 어레이는 전술한 것과 유사한 회로에 의해 처리된다. 그 경우, 최종 절단된 결과들의 타이밍이 모든 이전의 최종 결과들과 동일한 것이 유리하다. 이를 위해, FIFO들(1202 및 1304)의 제어는 주요 출력 레이트와 동일한 출력 레이트를 유지하도록 제어 회로(702)에 의해 조정된다.

다른 구현에서, 목적지 출력 스트림 어레이는 시스템의 최종 스테이지이고, 추가 처리가 요구되지 않는다. 그 경우, 최종 절단된 결과들의 타이밍이 가능한 빨리 완료되는 것이 유리하다. 이를 위해, FIFO들(1202 및 1304)의 제어는 지원되는 최대 주파수에서 그 결과들을 출력하도록 제어 회로(702)에 의해 조정된다.

전술한 구현은 입력 요소들의 전체 세트로부터 단일 출력 요소를 생성한다는 점에 유의한다. 입력 세트로부터 큰 세트의 출력 요소들을 생성하는 완전한 시스템에서, 설명된 전체 메커니즘은 출력 채널들에 의해 공유될 수 있는 제어 회로(702)의 주목할 만한 예외를 제외하고 모든 출력 채널에 대해 한 번 복제되는데, 왜냐하면 모든 개별 부함수들의 타이밍이 전체 출력 세트에 대해 동일하기 때문이다.

본 발명자는 본 발명의 상세들 및 특징들을 테스트하고 확인하기 위해 본 발명의 실시예에서 IC의 작업 프로토타입을 구축하였고, 프로토타입의 동작은 위의 설명들을 확인한다. 본 발명자는 또한 위의 상세들 및 설명들을 테스트하고 확인하기 위해 본 출원을 출원할 때까지 이용된 소프트웨어 지원 시뮬레이터를 개발하였다.

본 발명의 다른 양태에서, 의료 촬영에서 흔히 제시되는 바와 같이, 3차원 데이터의 입력 스트림을 수용하는 시스템이 제공되고, 여기서, 3차원 애퍼처 함수가 첫 번째 평면 및 마지막 평면에 대한 내부 및 에지 경우들 둘 다를 정확하게 구현하는 대응하는 계산에 의해 3차원 입력 어레이를 통과하는 것을 허용하는 추가 회로 및 버퍼링이 포함된다.

본 발명의 또 다른 양태에서, 심층 신경망(DNN)을 훈련하는 복잡한 프로세스의 경우, 하드웨어 지원형 신경망 훈련 시스템이 제공되고, 여기서, 노력의 대부분은 순방향 추론 엔진에 의해 행해지고, 훈련 알고리즘은 모델을 원하는 상태로 수렴시키기 위해 전체 망에 대한 가중치들 및 바이어스들을 주기적으로 조정하도록 순방향 추론으로부터 수집된 통계들만을 이용할 필요가 있다. 순방향 추론 프로세스가 계산될 때 입력 상태들을 합산하는 적절한 누산기들의 추가에 의해, 본 발명은 하드웨어 지원형 신경망 훈련 시스템을 형성한다.

본 발명의 또 다른 양태에서, 부동 소수점 정확도의 제한들이 DNN 모델들의 수렴을 방해하는 잘 알려진 문제(본 기술분야에서 "사라지는 그래디언트 문제"로 알려짐)에 관하여, 임의의 큰 정밀도의 부동 소수점 곱들을 생성하기 위해 추가적인 가산기들과 캐스케이드될 수 있는, 제한된 비트 폭 정밀도를 갖는 단일 대량 곱셈기가 제공된다. 이러한 혁신은 일반적으로 순방향 추론 계산들에 대해 요구되지 않지만, 계산된 그래디언트들이 측정하기에 너무 작아질 때 발생하는 문제들을 피하는 것이 DNN 트레이너에서 매우 중요할 수 있다.

통상의 기술자는 도면들에 예시되고 전술된 실시예들이 모두 예시적이며, 본 발명이 취할 수 있는 모든 형태를 상술하지 않는다는 것을 이해할 것이다. 본 발명의 범위 내에서 실현될 수 있는 다양한 다른 형태들이 있을 수 있다.

본 발명은 청구항들의 범위에 의해서만 제한된다.

Claims

R × C 소스 어레이에 걸쳐 M × N 애퍼처 함수(aperture function)를 구현하여 R × C 목적지 어레이를 생성하는 집적 회로(IC)로서,
상기 소스 어레이로부터 독립적인 입력 값들의 순서화된 스트림을 수신하는 입력 포트;
상기 목적지 어레이로의 출력 값들의 순서화된 출력 스트림을 생성하는 출력 포트;
상기 입력 포트에 결합되고, 상기 애퍼처 함수에 의해 요구되는 모든 가중치를 순서대로 각각의 입력 값과 병렬로 곱하고, 상기 IC 상의 병렬 수행 곱 경로들(parallel conductive product pathways)의 세트 상에서 곱들의 스트림들을 생성하는 대량 곱셈기 회로(mass multiplier circuit) - 각각의 곱 경로는 입력 × 가중치 값의 단일 곱에 전용됨 -;
상기 IC 상의 구성기 회로들(compositor circuits)의 M × N 어레이 - 각각의 구성기 회로는 (m, n) 위치에서의 상기 애퍼처 함수의 부함수와 연관되고, 전용 경로에 의해 상기 부함수와 연관된 가중치 값으로부터 생성된 곱을 운반하는 상기 곱 경로들의 세트 각각에 결합됨 -;
구성기들 사이의 단일 전용 경로들;
구성기들로부터 전용 경로들 상에서 값들을 수신하고 전용 경로들 상에서 후속 시간들에서 지연된 상기 값들을 다른 구성기들 다운스트림에 제공하는 상기 IC 상의 지연 회로들;
최종화 회로; 및
상기 구성기들, 상기 지연 회로들, 및 상기 최종화 회로에 결합된, 카운터들을 동작시키고 제어 신호들을 생성하는 제어 회로
를 포함하며,
각각의 소스 간격에서, 상기 구성기들은 병렬 수행 경로들로의 전용 연결들로부터 수신된 상기 값들을 결합하고, 그 결과를 그 구성기에 대한 초기 값에 또는 인접한 구성기 업스트림으로부터의 상기 전용 경로 상의 값에, 또는 지연 회로로부터 수신된 값에 추가로 결합하고, 그 결합된 결과를 인접한 구성기 다운스트림에 대한 상기 전용 경로에 결합된 레지스터에, 또는 지연 회로에, 또는 둘 다에 포스팅하고, 마지막 다운스트림 구성기가 입력들의 R × C 어레이의 특정 위치에서 상기 애퍼처 함수의 출력에 대한 값들의 완전한 구성을 생성할 때, 그 구성된 값은 상기 최종화 회로에 전달되고, 상기 최종화 회로는 그 값을 처리하고 그 결과를 출력 스트림의 하나의 값으로서 상기 출력 포트에 포스팅하는 것을 특징으로 하는, 집적 회로(IC).
제1항에 있어서,
상기 애퍼처 함수는 컨볼루션 신경 노드에 대한 것이고, 각각의 소스 간격에서, 상기 구성기들은 입력들과 가중치들의 곱들을 가산하고, 상기 곱들의 그 합을 초기 바이어스에 또는 인접한 구성기 업스트림으로부터의 상기 전용 경로 상의 값에, 또는 지연 회로로부터 수신된 값에 가산하고, 그 합을 출력 레지스터에 포스팅하는, 장치.
제1항에 있어서,
상기 애퍼처 함수는 R × C 입력 어레이의 좌측 및 우측 에지들과 M × N 입력 패치들을 오버랩하는 애퍼처의 위치들에 대한 절단된 결과들(truncated results)을 생성하고, 소스 입력 위치가 상기 R × C 입력 어레이의 첫 번째 또는 마지막 열들을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고, 상기 구성기들에 의해 액세스되고 완전한 내부 패치들의 흐름과 통합되는, 장치.
제1항에 있어서,
상기 애퍼처 함수는 R × C 입력 어레이의 최상부 에지와 M × N 입력 패치들을 오버랩하는 이들 특정 위치들에 대한 절단된 결과들을 생성하고, 소스 입력 위치가 상기 R × C 입력 어레이의 첫 번째 행을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고, 상기 구성기들에 의해 액세스되고 완전한 내부 패치들의 흐름과 통합되는, 장치.
제1항에 있어서,
상기 애퍼처 함수는 R × C 입력 어레이의 최하부 에지와 M × N 입력 패치들을 오버랩하는 이들 특정 위치들에 대한 절단된 결과들을 생성하고, 소스 입력 위치가 상기 R × C 입력 어레이의 첫 번째 행을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고 완전한 내부 패치들의 흐름과 통합되는, 장치.
제1항에 있어서,
상기 애퍼처 함수의 특정 출력들은 고정 또는 가변 스테핑 패턴으로 상기 출력 스트림으로부터 생략되는, 장치.
R × C 소스 어레이에 걸쳐 M × N 애퍼처 함수를 구현하여 R × C 목적지 어레이를 생성하는 방법으로서,
상기 소스 어레이로부터의 독립적인 입력 값들의 순서화된 스트림을 집적 회로(IC)의 입력 포트에 제공하는 단계;
상기 입력 포트에 결합된 상기 IC 상의 대량 곱셈기 회로에 의해 상기 애퍼처 함수에 의해 요구되는 모든 가중치 값을 순서대로 각각의 입력 값과 병렬로 곱하는 단계;
대량 곱셈기에 의해, 상기 IC 상의 병렬 수행 곱 경로들의 세트 상에서 곱들의 스트림들을 생성하는 단계 - 각각의 곱 경로는 입력 × 가중치 값의 단일 곱에 전용됨 -;
상기 곱들의 스트림들로부터 각각의 구성기 회로로의 전용 연결들에 의해, 상기 IC 상의 구성기 회로들의 M × N 어레이 각각에 상기 애퍼처 함수의 부함수와 연관된 각각의 구성기 회로를 제공하는 단계 - 이들 곱들은 상기 부함수와 연관된 가중치 값으로부터 생성됨 -;
카운터들을 실행하고 제어 신호들을 생성하는 제어 회로에 의해, 구성기들, 복수의 지연 회로 및 최종화 회로에 제어 신호들을 제공하는 단계;
상기 구성기들에 의해, 각각의 소스 사이클에서, 상기 곱들의 스트림들로의 상기 전용 연결들로부터 수신된 값들을, 그 구성기에 대한 초기 값 또는 인접한 구성기 업스트림에 대한 전용 경로 상의 값, 또는 복수의 지연 회로 중 하나로부터 수신된 값과 결합하고, 그 결과를 인접한 구성기 다운스트림에 대한 전용 경로에 결합된 레지스터에, 또는 상기 복수의 지연 회로 중 하나에 포스팅하는 단계;
마지막 다운스트림 구성기가 입력들의 R × C 어레이 상의 특정 위치에서 상기 애퍼처 함수의 출력에 대한 값들의 완전한 결합을 생성할 때, 그 완전한 결합을 최종화 회로에 제공하는 단계;
상기 최종화 회로에 의해 상기 완전한 결합을 처리하고 그 결과를 순서화된 출력 스트림 내의 하나의 값으로서 출력 포트에 포스팅하는 단계; 및
모든 입력 요소들이 수신되고 마지막 출력 값이 출력 스트림으로 생성될 때까지 상기 IC의 연산을 계속하는 단계
를 포함하는, 방법.
제7항에 있어서,
상기 애퍼처 함수는 컨볼루션 신경 노드에 대한 것이고, 각각의 소스 간격에서, 상기 구성기들은 입력들과 가중치들의 곱들을 가산하고, 상기 곱들의 그 합을 초기 바이어스에 또는 인접한 구성기 업스트림으로부터의 상기 전용 경로 상의 값에, 또는 지연 회로로부터 수신된 값에 가산하고, 그 합을 출력 레지스터에 포스팅하는, 방법.
제7항에 있어서,
상기 애퍼처 함수는 R × C 입력 어레이의 좌측 및 우측 에지들과 M × N 입력 패치들을 오버랩하는 애퍼처의 위치들에 대한 절단된 결과들을 생성하고, 소스 입력 위치가 상기 R × C 입력 어레이의 첫 번째 또는 마지막 열들을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고, 상기 구성기들에 의해 액세스되고 완전한 내부 패치들의 흐름과 통합되는, 방법.
제7항에 있어서,
상기 애퍼처 함수는 R × C 입력 어레이의 최상부 에지와 M × N 입력 패치들을 오버랩하는 특정 위치들에 대한 절단된 결과들을 생성하고, 소스 입력 위치가 상기 R × C 입력 어레이의 첫 번째 행을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고, 상기 구성기들에 의해 액세스되고 완전한 내부 패치들의 흐름과 통합되는, 방법.
제7항에 있어서,
상기 애퍼처 함수는 R × C 입력 어레이의 최하부 에지와 M × N 입력 패치들을 오버랩하는 이들 특정 위치들에 대한 절단된 결과들을 생성하고, 소스 입력 위치가 상기 R × C 입력 어레이의 첫 번째 행을 나타내는 특정 소스 간격들에 대해, 절단된 패치들의 결과들은 지연되고 완전한 내부 패치들의 흐름과 통합되는, 방법.
제7항에 있어서,
상기 애퍼처 함수의 특정 출력들은 고정 또는 가변 스테핑 패턴으로 상기 출력 스트림으로부터 생략되는, 방법.