KR20200107295A

KR20200107295A - 시스톨릭 어레이 및 프로세싱 시스템

Info

Publication number: KR20200107295A
Application number: KR1020190026198A
Authority: KR
Inventors: 남지훈
Original assignee: 에스케이하이닉스 주식회사
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2020-09-16
Also published as: CN111666255B; CN111666255A; JP7414515B2; US10949380B2; JP2020144843A; US20200285605A1

Abstract

프로세싱 시스템은, M개의 로우와 N개의 컬럼으로 배열된(M과 N은 자연수이며 서로 다른 수임) 다수의 프로세싱 엘리먼트를 포함하는 시스톨릭 어레이; 상기 시스톨릭 어레이에 로우 방향으로 로우 데이터를 전송하되, 제1모드에서 상기 로우 데이터는 입력 데이터이고, 제2모드에서 상기 로우 데이터는 웨이트인 로우 버퍼; 및 상기 시스톨릭 어레이에 컬럼 방향으로 컬럼 데이터를 전송하되, 상기 제1모드에서 상기 컬럼 데이터는 상기 웨이트이고, 제2모드에서 상기 컬럼 데이터는 입력 데이터인 컬럼 버퍼를 포함할 수 있다.

Description

시스톨릭 어레이 및 프로세싱 시스템 {SYSTOLIC ARRAY AND PROCESSING SYSTEM}

본 특허문헌은 시스톨릭 어레이(systolic array) 및 이를 포함하는 프로세싱 시스템에 관한 것이다.

CNN (Convolution Neural Network)은 이미지 인식 및 분석을 위해 주로 사용되는 프로세싱 시스템(processing system)이다. 이 프로세싱 시스템은 특정 필터로 이미지에서 피쳐(feature)를 추출해내는 컨볼루션 연산을 하는데, 이러한 연산에 시스톨릭 어레이(systolic array)가 사용된다.

시스톨릭 어레이는 다수의 로우와 다수의 컬럼으로 배열된 다수의 프로세싱 엘리먼트들(PE: Processing Element)을 포함하는데, 다수의 프로세싱 엘리먼트들 중 일부만을 사용하는 케이스가 다수 존재해 시스톨릭 어레이의 사용 효율(utilization)이 떨어진다.

본 발명의 실시예들은, 시스톨릭 어레이의 사용 효율을 높이는 기술을 제공할 수 있다.

본 발명의 일실시예에 따른 프로세싱 시스템은, M개의 로우와 N개의 컬럼으로 배열된(M과 N은 자연수이며 서로 다른 수임) 다수의 프로세싱 엘리먼트를 포함하는 시스톨릭 어레이; 상기 시스톨릭 어레이에 로우 방향으로 로우 데이터를 전송하되, 제1모드에서 상기 로우 데이터는 입력 데이터이고, 제2모드에서 상기 로우 데이터는 웨이트인 로우 버퍼; 및 상기 시스톨릭 어레이에 컬럼 방향으로 컬럼 데이터를 전송하되, 상기 제1모드에서 상기 컬럼 데이터는 상기 웨이트이고, 제2모드에서 상기 컬럼 데이터는 입력 데이터인 컬럼 버퍼를 포함할 수 있다.

본 발명의 일실시예에 따른 시스톨릭 어레이는, 제1모드에서 입력 데이터를 로우 데이터로 전송하고, 제2모드에서 웨이트를 상기 로우 데이터로 전송하는 M개의(M은 자연수) 로우 입력; 상기 제1모드에서 상기 웨이트를 컬럼 데이터를 전송하고, 상기 제2모드에서 상기 입력 데이터를 컬럼 데이터로 전송하는 N개(N은 M이 아닌 자연수)의 컬럼 입력; 및 상기 M개의 로우 입력 중 자신에 대응하는 로우 입력으로 전달되는 로우 데이터와 상기 N개의 컬럼 입력 중 자신에 대응하는 컬럼 입력으로 전달되는 컬럼 데이터를 곱셈 연산해 이전의 연산 결과와 합산하는 M*N개의 프로세싱 엘리먼트를 포함할 수 있다.

본 발명의 실시예들에 따르면, 시스톨릭 어레이의 사용 효율을 높일 수 있다.

도 1은 본 발명의 일실시예에 따른 시스톨릭 어레이(100)의 구성도.
도 2는 시스톨릭 어레이(100)가 수행할 행렬곱 연산을 나타낸 도면.
도 3은 4X2 배열의 시스톨릭 어레이(300)를 이용해 도 2의 행렬곱 연산을 수행하는 경우에 시스톨릭 어레이(300)에 입력 데이터 행렬(INPUT)과 웨이트 행렬(WEIGHT)이 어떻게 입력되어야 하는지를 나타낸 도면.
도 4는 시스톨릭 어레이(300)의 연산 결과를 나타낸 도면.
도 5는 시스톨릭 어레이(100)가 수행할 행렬곱 연산을 나타낸 도면.
도 6은 4X2 배열의 시스톨릭 어레이(600)를 이용해 도 5의 행렬곱 연산을 수행하는 경우에 시스톨릭 어레이(600)에 입력 데이터 행렬(INPUT)과 웨이트 행렬(WEIGHT)이 어떻게 입력되어야 하는지를 나타낸 도면.
도 7은 시스톨릭 어레이(300)의 연산 결과를 나타낸 도면.
도 8은 본 발명의 일실시예에 따른 프로세싱 시스템(800)의 구성도.
도 9는 프로세싱 시스템(800)이 제2모드로 설정된 경우에, 도 5와 같은 2X3의 입력 데이터 행렬(INPUT)과 3X4의 웨이트 행렬(WEIGHT)을 곱하는 행렬 곱 연산을 수행하는 경우에 시스톨릭 어레이(850)에 입력 데이터 행렬과 웨이트 행렬이 어떻게 입력되어야 하는지를 나타낸 도면.
도 10은 시스톨릭 어레이(850)의 연산 결과를 나타낸 도면.
도 11은 출력 변환기(817)에 의해 변환된 시스톨릭 어레이(850)의 연산결과를 나타낸 도면.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있도록 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 본 발명을 설명함에 있어서, 본 발명의 요지와 무관한 구성은 생략될 수 있다. 각 도면의 구성요소들에 참조 번호를 부가함에 있어서, 동일한 구성요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.

도 1은 본 발명의 일실시예에 따른 시스톨릭 어레이(100)의 구성도이다.

도 1을 참조하면, 시스톨릭 어레이(100)는 다수의 로우(row) 입력(IN_R_1~IN_R_3), 다수의 컬럼 입력(IN_C_1~IN_C_3), 다수의 출력(OUT_1~OUT_3) 및 다수의 프로세싱 엘리먼트들(PE11~PE33)을 포함할 수 있다.

다수의 로우 입력들(IN_R_1~IN_R_3)은 프로세싱 엘리먼트들(PE11~PE33)로 입력 데이터를 전달할 수 있다. 로우 입력들(IN_R_1~IN_R_3)은 자신에 대응하는 로우의 프로세싱 엘리먼트들(PE11~PE33)에 입력 데이터를 전달할 수 있다. 예를 들어, 로우 입력(IN_R_2)은 프로세싱 엘리먼트들(P21, P22, P23)에 입력 데이터를 전달할 수 있다. 여기서 입력 데이터는 예를 들어 이미지 데이터일 수 있다.

다수의 컬럼 입력들(IN_C_1~IN_C_3)은 프로세싱 엘리먼트들(PE11~PE33)로 웨이트(weight)를 전달할 수 있다. 컬럼 입력들(IN_C_1~IN_C_3)은 자신에 대응하는 컬럼의 프로세싱 엘리먼트들(PE11~PE33)에 웨이트를 전달할 수 있다. 예를 들어, 컬럼 입력(IN_C_3)은 프로세싱 엘리먼트들(PE13, PE23, PE33)에 웨이트를 전달할 수 있다.

다수의 출력(OUT_1~OUT_3)은 로우 입력들(IN_R_1~IN_R_3)과 동일한 방향으로 배열되며, 프로세싱 엘리먼트들(PE11~PE33_의 연산 결과를 출력하는데 사용될 수 있다. 출력들(OUT_1~OUT_3)은 자신에 대응하는 로우의 프로세싱 엘리먼트들(PE11~PE33)의 연산 결과를 출력할 수 있다. 예를 들어, 출력(OUT1)은 프로세싱 엘리먼트들(PE11, PE12, PE13)의 연산 결과를 출력할 수 있다.

다수의 프로세싱 엘리먼트들(PE11~PE33)은 로우 입력들(IN_R_1~IN_R_3) 중 자신에 대응하는 로우 입력으로 전달되는 입력 데이터와 컬럼 입력들(IN_C_1~IN_C_3) 중 자신에 대응하는 컬럼 입력으로 전달되는 웨이트를 곱셈 연산해 이전의 연산 결과와 합산할 수 있다. 예를 들어, 프로세싱 엘리먼트(PE23)는 로우 입력(IN_R_2)으로 입력된 입력 데이터와 컬럼 입력(IN_C_3)으로 입력된 웨이트를 곱셈하고 곱셈 결과를 이전의 연산 결과와 합산할 수 있다.

다수의 프로세싱 엘리먼트들(PE11~PE33) 중 프로세싱 엘리먼트(PE12)를 예시해 프로세싱 엘리먼트의 구조에 대해 알아보기로 한다. 프로세싱 엘리먼트(PE12)는 곱셈기(M12), 덧셈기(A12), 제1 내지 제4레지스터들(R12_1, R12_2, R12_3, R12_4) 및 멀티플렉서(MUX12)를 포함할 수 있다. 곱셈기(M12)는 로우 입력(IN_R_1)으로 전달되는 입력 데이터와 컬럼 입력(IN_C_2)으로 전달되는 웨이트를 곱셈 연산할 수 있다. 덧셈기(A12)는 곱셈기(M12)의 곱셈 결과와 제1레지스터(R12_1)에 저장된 값을 덧셈 연산해 제1레지스터(R12_1)에 저장할 수 있다. 제2레지스터(R12_2)는 로우 입력(IN_R_1)으로 전달된 입력 데이터를 다음 컬럼의 프로세싱 엘리먼트(PE13)로 전달하기 위한 레지스터일 수 있다. 또한, 제3레지스터(R12_3)는 컬럼 입력(IN_C_2)으로 전달된 웨이트를 다음 로우의 프로세싱 엘리먼트(PE22)로 전달하기 위한 구성일 수 있다. 멀티 플렉서(MUX12)는 다음 컬럼의 프로세싱 엘리먼트(PE13) 측으로부터 전달되는 연산 결과와 제1레지스터(R12_1)에 저장된 연산 결과 중 하나를 선택할 수 있다. 그리고 제4레지스터(R12_4)는 멀티 플렉서(MUX12)의 출력값을 저장해 이전 컬럼의 프로세싱 엘리먼트(PE11) 측으로 전달해줄 수 있다.

도 2와 같은 4X3의 입력 데이터 행렬(INPUT)과 3X4의 웨이트 행렬(WEIGHT)을 곱하는 행렬 곱 연산을 수행하는 경우를 보자. 도 2에서는 입력 데이터 행렬(INPUT)이 4개의 배치(batch)로 구성된 것을 예시했다. 여기서 배치란 데이터의 개수를 의미할 수 있다. 예를 들어, 도 2의 입력 데이터 행렬(INPUT)에서 4개의 로우 각각의 하나의 이미지일 수 있다. 즉, 입력 데이터 행렬은 4개의 이미지(배치) (I₁₁, I₁₂, I₁₃), (I₂₁, I₂₂, I₂₃), (I₃₁, I₃₂, I₃₃), (I₄₁, I₄₂, I₄₃)를 포함할 수 있다.

도 3은 4X2 배열의 시스톨릭 어레이(300)를 이용해 도 2의 행렬곱 연산을 수행하는 경우에 시스톨릭 어레이(300)에 입력 데이터 행렬(INPUT)과 웨이트 행렬(WEIGHT)이 로우 입력들(IN_R_1~IN_R_4)과 컬럼 입력들(IN_C_1~IN_C_2)에 어떻게 입력되어야 하는지를 나타낸 도면이다.

도 3에서 CLK1은 1번째 싸이클에 시스톨릭 어레이(300)에 입력되는 값들을 나타내고, CLK2는 2번째 싸이클에 시스톨릭 어레이(300)에 입력되는 값들을 나타낼 수 있다. 예를 들어, 1번째 싸이클(CLK1)에 프로세싱 엘리먼트(PE11)에 I11과 W11이 입력되어 연산될 수 있다. 또한, 2번째 싸이클(CLK2)에 프로세싱 엘리먼트(PE11)에 I₁₂와 W₁₂가 입력되고, 프로세싱 엘리먼트(PE12)에 I₁₁과 W₁₂가 입력되고, 프로세싱 엘리먼트(PE21)에 I₂₁과 W₁₁이 입력되어 연산될 수 있다. 즉, 프로세싱 엘리먼트(PE12)는 이전 컬럼의 프로세싱 엘리먼트(PE11)가 1번째 싸이클(CLK1)에 입력받았던 입력 데이터(I₁₁)를 2번째 사이클(CLK2)에 입력받고, 프로세싱 엘리먼트(PE21)는 이전 로우의 프로세싱 엘리먼트(PE11)가 1번째 싸이클(CLK1)에 입력받았던 웨이트(W₁₁)를 2번째 싸이클(CLK2)에 입력받을 수 있다.

도 3에서 바운더리(boundary)(B1, B2)는 연산의 범위를 나타낼 수 있다. 시스톨릭 어레이(300)의 프로세싱 엘리먼트들(PE11, PE12, PE21, PE22, PE31, PE32, PE41, PE42)은 바운더리 단위(B1, B2)로 입력 데이터와 웨이트의 곱셈 값들을 더하고, 그 결과를 출력할 수 있다. 도 3의 바운더리(B1, B2) 단위로 시스톨릭 어레이(300)로부터 연산 결과를 출력하면 도 4와 같은 결과값을 도출할 수 있다. 도 4는 도 2의 입력 데이터 행렬(INPUT)과 웨이트 행렬(WEIGHT)의 행렬 곱 결과임을 확인할 수 있다.

도 2 내지 도 4에서 설명한 연산에서는 시스톨릭 어레이(300) 내의 모든 프로세싱 엘리먼트들(PE11, PE12, PE21, PE22, PE31, PE32, PE41, PE42)이 사용되는데, 이 경우 시스톨릭 어레이(300)의 사용 효율은 100%일 수 있다.

이제, 도 5와 같은 2X3의 입력 데이터 행렬(INPUT)과 3X4의 웨이트 행렬(WEIGHT)을 곱하는 행렬 곱 연산을 수행하는 경우를 생각해보자. 도 5에서는 입력 데이터 행렬(INPUT)이 2개의 배치(batch)로 구성된 것을 예시했다.

도 6은 4X2 배열의 시스톨릭 어레이(600)를 이용해 도 5의 행렬곱 연산을 수행하는 경우에 시스톨릭 어레이(600)에 입력 데이터 행렬(INPUT)과 웨이트 행렬(WEIGHT)이 어떻게 입력되어야 하는지를 나타낸 도면이다. 도 3에서와 마찬가지로 도 6에서 CLK1, CLK2 등은 입력 싸이클을 나타내고 B1, B2는 연산의 바운더리를 나타낼 수 있다. 도 6의 바운더리(B1, B2) 단위로 시스톨릭 어레이(600)로부터 연산 결과를 출력하면 도 7과 같은 결과값을 도출할 수 있다. 도 7은 도 5의 입력 데이터 행렬(INPUT)과 웨이트 행렬(WEIGHT)의 행렬 곱 결과임을 확인할 수 있다.

도 5 내지 도 7에서 설명한 연산에서는 시스톨릭 어레이(600) 내에서 프로세싱 엘리먼트들(PE11, PE12, PE21, PE22)만이 사용되고 프로세싱 엘리먼트들(PE31, PE32, PE41, PE42)이 사용되지 않는다. 이 경우 시스톨릭 어레이(600)의 사용 효율은 50%가 된다. 시스톨릭 어레이(600)의 사용 효율이 50%라는 것은 시스톨릭 어레이(600)의 성능이 최대성능 대비 50% 감소하고 불필요한 전류가 사용된다는 것을 의미할 수 있다.

도 8은 본 발명의 일실시예에 따른 프로세싱 시스템(800)의 구성도이다.

도 8을 참조하면, 프로세싱 시스템(800)은 시스톨릭 어레이(850), 호스트 인터페이스(801), 콘트롤러(803), 메모리(805), 메모리 콘트롤러(807), 데이터 버퍼(809), 로우 버퍼(811), 컬럼 버퍼(813), 모드 스위치 레지스터(815), 출력 변환기(817) 및 후-처리기(819)를 포함할 수 있다. 여기서 프로세싱 시스템(800)은 PCI 익스프레스 슬롯에 삽입되는 카드 형태, 하나의 칩 안에 여러 구성들이 집약된 시스템 온 칩(SoC: System on Chip) 또는 하나의 패키지 안에 다양한 칩들이 집약된 시스템 인 패키지(SiP: System in Package) 등 다양한 형태로 존재할 수 있다. 또한, 프로세싱 시스템(800)은 메모리의 형태로 구성될 수도 있다. 예를 들어, HBM (High Bandwidth Memory)와 같은 적층형 메모리의 로직 다이(logic die)에 프로세싱 시스템(800)에서 메모리(805)를 제외한 구성들이 형성될 수 있다. 이러한 형태의 메모리를 프로세서 인 메모리(PIN: Processor In Memory)라고도 한다.

호스트 인터페이스(801)는 호스트와의 통신을 위한 인터페이스일 수 있다. 호스트 인터페이스(801)를 통해 호스트, 예를 들어 중앙 처리 장치(CPU: Central Processing Unit), 로부터 프로세싱 시스템(800)이 처리할 각종 명령 및 데이터가 전달될 수 있다.

콘트롤러(803)는 호스트(801)의 지시에 따라 프로세싱 시스템(800)이 각종 연산을 수행할 수 있도록 프로세싱 시스템(800) 전반을 제어할 수 있다. 버스(804)는 프로세싱 시스템(800) 내부의 구성들이 각종 신호 및 데이터를 교환하기 위한 버스일 수 있다.

메모리(805)는 프로세싱 시스템(800)이 사용하는 메모리일 수 있다. 메모리(805)에는 시스톨릭 어레이(850)가 수행해야 할 연산과 관련된 데이터, 예를 들어 입력 데이터와 웨이트, 가 저장될 수 있다. 메모리 콘트롤러(807)는 메모리(805)를 억세스하기 위해 사용될 수 있다.

모드 스위치 레지스터(815)는 제1모드와 제2모드 중 하나의 모드를 설정하기 위한 레지스터일 수 있다. 모드 스위치 레지스터(815)에 저장된 설정값에 따라 프로세싱 시스템(800)은 제1모드와 제2모드 중 하나의 모드로 동작할 수 있다. 모드 스위치 레지스터(815)는 호스트 인터페이스(801)를 통해 수신된 호스트의 지시에 의해 수행될 수 있다. 즉, 호스트는 제1모드의 동작이 더욱 효율적이라고 판단되는 경우에는 모드 스위치 레지스터(815)를 제1모드로 설정하고, 제2모드의 동작이 더욱 효율적이라고 판단되는 경우에는 모드 스위치 레지스터(815)를 제2모드로 설정할 수 있다.

데이터 버퍼(809)는 메모리 콘트롤러(807)를 통해 메모리(805)로부터 데이터, 즉 입력 데이터와 웨이트, 를 전송받아 저장할 수 있다. 데이터 버퍼(809)는 로우 버퍼(811)와 컬럼 버퍼(813)에 데이터를 로드할 수 있다. 데이터 버퍼(809)는 제1모드에서는 로우 버퍼(811)에 입력 데이터를 로드하고 컬럼 버퍼(813)에 웨이트를 로드할 수 있다. 그리고 데이터 버퍼(809)는 제2모드에서는 제1모드에서와는 반대로 로우 버퍼(811)에 웨이트를 로드하고 컬럼 버퍼(813)에 입력 데이터를 로드할 수 있다.

로우 버퍼(811)는 시스톨릭 어레이(850)의 로우 입력들(IN_R_1~IN_R_4)에 로우 데이터를 전달할 수 있다. 제1모드에서는 데이터 버퍼(809)가 입력 데이터를 로우 버퍼(811)에 로드하므로, 제1모드에서는 로우 데이터가 입력 데이터일 수 있다. 또한, 제2모드에서는 데이터 버퍼(809)가 웨이트를 로우 버퍼(811)에 로드하므로, 제2모드에서는 로우 데이터가 웨이트일 수 있다. 한편, 로우 버퍼(811)는 시스톨릭 어레이(850)의 출력들(OUT_1~OUT_4)로부터 전달되는 연산 데이터를 데이터 버퍼(809)로 전달하기 위해 사용될 수 있다.

컬럼 버퍼(813)는 시스톨릭 어레이(850)의 컬럼 입력들(IN_C_1, IN_C_2)에 컬럼 데이터를 전달할 수 있다. 제1모드에서는 데이터 버퍼(809)가 웨이트를 컬럼 버퍼(813)에 로드하므로, 제1모드에서는 컬럼 데이터가 웨이트일 수 있다. 또한, 제2모드에서는 데이터 버퍼(809)가 입력 데이터를 컬럼 버퍼(813)에 로드하므로, 제2모드에서는 컬럼 데이터가 입력 데이터일 수 있다.

출력 변환기(817)는 제2모드에서 시스톨릭 어레이(850)에서 출력되는 연산 결과의 형태를 제1모드에서와 동일한 형태로 변환할 수 있다. 제1모드에서는 제2모드에서는 입력 데이터와 웨이트가 시스톨릭 어레이(850)로 입력되는 방향이 변경되므로, 제1모드에서와 제2모드에서 시스톨릭 어레이(850)로부터 출력되는 연산 결과의 형태가 다를 수 있다. 출력 변환기(817)는 제2모드에서 시스톨릭 어레이(850)로부터 출력되는 연산 결과를 제1모드에서와 동일한 형태로 변경할 수 있다. 이는 제1모드를 기준으로 한 것으로, 제2모드가 기준인 경우에는 출력 변환기(817)가 제1모드에서 시스톨릭 어레이(850)로부터 출력되는 연산 결과를 제2모드에서와 동일한 형태로 변경할 수도 있다. 출력 변환기(817)의 변환 동작에 대해서는 도 11과 함께 자세히 알아보기로 한다.

후처리기(819)는 시스톨릭 어레이(850)의 연산 결과를 후-처리(post-processing)할 수 있다. 후처리기(819)는 픽셀(pixel) 별로 평균(average) 또는 최대(max) 값을 찾는 풀링(pooling), 문턱값(threshold) 기반으로 데이터를 필터링하는 ReLU (Rectified Linear Unit) 또는 시그모이드(sigmoid)와 같은 활성함수(activation function), 결과치에서 벗어나는 값을 필터링하는 노멀라이즈(normalize) 등의 기능들(function)을 수행할 수 있다.

시스톨릭 어레이(850)는 로우와 컬럼의 개수가 다르게 배열된 프로세싱 엘리먼트들(PE11, PE12, PE21, PE22, PE31, PE32, PE41, PE42)을 포함할 수 있다(여기서는 4X2로 예시함). 시스톨릭 어레이(850)는 제1모드에서는 로우 입력들(IN_R_1~IN_R_4)로 입력 데이터를 입력받고, 컬럼 입력들(IN_C_1, IN_C_2)로 웨이트를 입력받아 연산할 수 있다. 또한, 시스톨릭 어레이(850)는 제2모드에서는 로우 입력들(IN_R_1~IN_R_4)로 웨이트를 입력받고, 컬럼 입력들(IN_C_1, IN_C_2)로 입력 데이터를 입력받아 연산할 수 있다. 시스톨릭 어레이(850)의 프로세싱 엘리먼트들(PE11, PE12, PE21, PE22, PE31, PE32, PE41, PE42)이 로우와 컬럼의 개수가 다르게 배열되므로, 시스톨릭 어레이(850)가 수행하는 연산의 형태에 따라 제1모드가 유리할 수도 있으며 제2모드가 유리할 수도 있다. 상기 실시예에서는 시스톨릭 어레이(850) 내의 로우와 컬럼의 개수를 4X2로 예시했으나, 로우와 컬럼의 개수가 이와 다를수도 있음은 당연하다.

도 8의 프로세싱 시스템(800)에서 도 2와 같은 4X3의 입력 데이터 행렬(INPUT)과 3X4의 웨이트 행렬(WEIGHT)을 곱하는 행렬 곱 연산을 수행하는 경우에는 프로세싱 시스템(800)을 제1모드로 설정하고, 도 3과 같이 시스톨릭 어레이(850)에 입력 데이터 행렬과 웨이트 행렬을 입력시켜 동작시키면, 시스톨릭 어레이(850)의 사용 효율을 100%로 유지할 수 있다.

도 8의 프로세싱 시스템(800)에서 도 5와 같은 2X3의 입력 데이터 행렬(INPUT)과 3X4의 웨이트 행렬(WEIGHT)을 곱하는 행렬 곱 연산을 수행하는 경우에 프로세싱 시스템(800)을 제1모드로 동작시킨다면, 도 5 내지 도 7에서 알아본 바와 같이 시스톨릭 어레이(850)의 사용 효율은 50%가 될 것이다. 이 경우에는 시스톨릭 어레이(850)를 제2모드로 설정하고 동작시키는 것이 유리할 수 있다.

도 9는 프로세싱 시스템(800)이 제2모드로 설정된 경우에, 도 5와 같은 2X3의 입력 데이터 행렬(INPUT)과 3X4의 웨이트 행렬(WEIGHT)을 곱하는 행렬 곱 연산을 수행하는 경우에 시스톨릭 어레이(850)에 입력 데이터 행렬과 웨이트 행렬이 어떻게 입력되어야 하는지를 나타낸 도면이다. 도 6에서와 마찬가지로 도 9에서 CLK1, CLK2 등은 입력 싸이클을 나타내고 B는 연산의 바운더리를 나타낼 수 있다. 도 9에서는 단 하나의 바운더리(B)로 연산이 가능함을 확인할 수 있다. 도 9의 바운더리(B) 단위로 시스톨릭 어레이(850)로부터 연산 결과를 출력하면 도 10과 같은 결과값을 도출할 수 있다.

도 10은 도 5의 입력 데이터 행렬(INPUT)과 웨이트 행렬(WEIGHT)의 행렬 곱 결과에서 로우와 컬럼이 바뀐 것임을 확인할 수 있다. 출력 변환기(817)는 도 10의 결과값의 형태를 도 11과 같이 변환할 수 있다. 출력 변환기(817)는 단순히 도 10의 결과값에서 로우와 컬럼을 변경하는 것에 의해 변환 동작을 수행할 수 있다. 예를 들어, (1, 2)의 위치의 값을 (2, 1)의 위치로 변경하고, (2, 3)의 위치의 값을 (3, 2)의 위치로 변경하고, (1, 1)의 위치의 값은 그대로 둘 수 있다. 즉, (A, B)의 위치의 값을 (B, A)의 위치로 변경할 수 있다. 도 11은 도 7과 일치하며, 이는 곧 도 5의 입력 데이터 행렬(INPUT)과 웨이트 행렬(WEIGHT)의 행렬 곱 결과임을 확인할 수 있다.

도 9 내지 도 11을 참조하면, 프로세싱 시스템(800)을 제2모드로 동작시키는 것에 의해 시스톨릭 어레이 내의 프로세싱 엘리먼트들(PE11, PE12, PE21, PE22, PE31, PE32, PE41, PE42)을 모두 사용하는 것이 가능하며, 즉 사용 효율을 100%로 올리는 것이 가능하며, 연산에 소요되는 시간을 줄일 수 있다는 것을 확인할 수 있다.

상술한 바와 같이, 프로세싱 시스템(800)이 수행할 행렬 연산의 형태에 따라 프로세싱 시스템(800)을 제1모드와 제2모드 중 하나의 모드로 동작시키는 것에 의해 시스톨릭 어레이의 사용 효율을 높이고, 불필요한 시간 및 불필요한 전류가 낭비되는 것을 막을 수 있다.

본 발명의 기술사상은 상기 바람직한 실시예에 따라 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술분야의 전문가라면 본 발명의 기술사상의 범위 내에서 다양한 실시예가 가능함을 알 수 있을 것이다.

800: 프로세싱 시스템
850: 시스톨릭 어레이 801: 호스트 인터페이스
803: 콘트롤러 805: 메모리
807: 메모리 콘트롤러 809: 데이터 버퍼
811: 로우 버퍼 813: 컬럼 버퍼
815: 모드 스위치 레지스터 817: 출력 변환기
819: 후-처리기

Claims

M개의 로우와 N개의 컬럼으로 배열된(M과 N은 자연수이며 서로 다른 수임) 다수의 프로세싱 엘리먼트를 포함하는 시스톨릭 어레이;
상기 시스톨릭 어레이에 로우 방향으로 로우 데이터를 전송하되, 제1모드에서 상기 로우 데이터는 입력 데이터이고, 제2모드에서 상기 로우 데이터는 웨이트인 로우 버퍼; 및
상기 시스톨릭 어레이에 컬럼 방향으로 컬럼 데이터를 전송하되, 상기 제1모드에서 상기 컬럼 데이터는 상기 웨이트이고, 제2모드에서 상기 컬럼 데이터는 입력 데이터인 컬럼 버퍼
를 포함하는 프로세싱 시스템.
제 1항에 있어서,
상기 제1모드에서는 상기 로우 버퍼에 상기 입력 데이터를 로드하고 상기 컬럼 버퍼에 상기 웨이트를 로드하고, 상기 제2모드에서는 상기 로우 버퍼에 상기 웨이트를 로드하고 상기 컬럼 버퍼에 상기 입력 데이터를 로드하는 데이터 버퍼
를 더 포함하는 프로세싱 시스템.
제 1항에 있어서,
상기 제2모드에서 상기 시스톨릭 어레이로부터 출력되는 연산 결과의 형태를 상기 제1모드에서와 동일한 형태로 변환하는 출력 변환기
를 더 포함하는 프로세싱 시스템.
제 1항에 있어서,
상기 제1모드에서 상기 시스톨릭 어레이로부터 출력되는 연산 결과의 형태를 상기 제2모드에서와 동일한 형태로 변환하는 출력 변환기
를 더 포함하는 프로세싱 시스템.
제 1항에 있어서,
상기 다수의 프로세싱 엘리먼트 각각은
상기 로우 데이터와 상기 컬럼 데이터를 곱셈하기 위한 곱셈기;
결과값의 저장을 위한 제1레지스터; 및
상기 곱셈기의 곱셈 결과와 상기 제1레지스터에 저장된 값을 덧셈 연산해 상기 제1레지스터에 저장하는 덧셈기를 포함하는
프로세싱 시스템.
제 5항에 있어서,
상기 다수의 프로세싱 엘리먼트 각각은
상기 로우 데이터를 다음 컬럼의 프로세싱 엘리먼트로 전달하기 위한 제2레지스터; 및
상기 컬럼 데이터를 다음 로우의 프로세싱 엘리먼트로 전달하기 위한 제3레지스터를 더 포함하는
프로세싱 시스템.
제 6항에 있어서,
상기 다수의 프로세싱 엘리먼트 각각은
상기 다음 컬럼으로부터 전달되는 결과 값과 상기 제1레지스터에 저장된 결과 값 중 하나를 선택하기 위한 멀티플렉서;
상기 멀티플렉서의 출력값을 저장해 이전 컬럼으로 전달하기 위한 제4레지스터를 더 포함하는
프로세싱 시스템.
제 1항에 있어서,
호스트와의 통신을 위한 호스트 인터페이스;
데이터를 저장하는 메모리;
상기 메모리의 데이터를 억세스해 상기 데이터 버퍼에 로드하기 위한 메모리 콘트롤러;
상기 호스트 인터페이스를 통해 전달되는 호스트의 제어에 따라 프로세싱 시스템을 제어하기 위한 콘트롤러;
상기 제1모드 및 상기 제2모드의 설정을 위한 모드 스위치 레지스터; 및
상기 시스톨릭 어레이의 연산 결과를 후-처리(post-processing) 하는 후처리기
를 더 포함하는 프로세싱 시스템.
제 1항에 있어서,
상기 입력 데이터는 이미지 데이터를 포함하는
프로세싱 시스템.
제1모드에서 입력 데이터를 로우 데이터로 전송하고, 제2모드에서 웨이트를 상기 로우 데이터로 전송하는 M개의(M은 자연수) 로우 입력;
상기 제1모드에서 상기 웨이트를 컬럼 데이터를 전송하고, 상기 제2모드에서 상기 입력 데이터를 컬럼 데이터로 전송하는 N개(N은 M이 아닌 자연수)의 컬럼 입력; 및
상기 M개의 로우 입력 중 자신에 대응하는 로우 입력으로 전달되는 로우 데이터와 상기 N개의 컬럼 입력 중 자신에 대응하는 컬럼 입력으로 전달되는 컬럼 데이터를 곱셈 연산해 이전의 연산 결과와 합산하는 M*N개의 프로세싱 엘리먼트
를 포함하는 시스톨릭 어레이.
제 10항에 있어서,
상기 M*N개의 프로세싱 엘리먼트 각각은
상기 로우 데이터와 상기 컬럼 데이터를 곱셈하기 위한 곱셈기;
결과값의 저장을 위한 제1레지스터; 및
상기 곱셈기의 곱셈 결과와 상기 제1레지스터에 저장된 값을 덧셈 연산해 상기 제1레지스터에 저장하는 덧셈기를 포함하는
시스톨릭 어레이.
제 11항에 있어서,
상기 다수의 프로세싱 엘리먼트 각각은
상기 로우 데이터를 다음 컬럼의 프로세싱 엘리먼트로 전달하기 위한 제2레지스터; 및
상기 컬럼 데이터를 다음 로우의 프로세싱 엘리먼트로 전달하기 위한 제3레지스터를 더 포함하는
시스톨릭 어레이.
제 12항에 있어서,
상기 다수의 프로세싱 엘리먼트 각각은
상기 다음 컬럼으로부터 전달되는 결과 값과 상기 제1레지스터에 저장된 결과 값 중 하나를 선택하기 위한 멀티플렉서;
상기 멀티플렉서의 출력값을 저장해 이전 컬럼으로 전달하기 위한 제4레지스터를 더 포함하는
시스톨릭 어레이.