WO2021049828A1

WO2021049828A1 - 복수 개의 코어를 갖는 연산 장치

Info

Publication number: WO2021049828A1
Application number: PCT/KR2020/012023
Authority: WO
Inventors: 신동주
Original assignee: 주식회사 모빌린트
Priority date: 2019-09-10
Filing date: 2020-09-07
Publication date: 2021-03-18
Also published as: KR20210030653A

Abstract

본 발명의 일 태양에 따르면, 복수 개의 코어를 갖는 연산 장치로서, 상기 연산 장치는 n개의 코어를 포함하고, 상기 n개의 코어는 제1 내지 제n 코어가 일방향으로 순환 연결되는 회전 구조로 배치되며, 상기 n개의 코어 각각은 독립적인 메모리부, 연산부 및 누적 레지스터부를 포함하고, 상기 제1 내지 제n-1 코어의 누적 레지스터부의 출력은 상기 제2 내지 제n 코어의 누적 레지스터부의 입력과 각각 연결되고, 상기 제n 코어의 누적 레지스터부의 출력은 상기 제1 코어의 누적 레지스터부의 입력과 연결되는 연산 장치가 제공된다.

Description

복수 개의 코어를 갖는 연산 장치

본 발명은 복수 개의 코어를 갖는 연산 장치에 관한 것이다.

인공 신경망(Artificial Neural Network)은 사람 또는 동물 두뇌의 신경망에 착안하여 구현된 컴퓨팅 시스템을 총칭하는 것으로서, 기계 학습(machine learning)의 세부 방법론 중 하나에 해당한다. 인공 신경망은 두뇌에서 신경 세포인 뉴런(neuron)이 여러 개 연결된 것과 같은 망의 형태를 갖는다. 인공 신경망은 그 구조 및 기능에 따라 여러 종류로 구분되며, 가장 일반적인 인공 신경망으로는 한 개의 입력층과 출력층 사이에 다수의 은닉층(hidden layer)이 있는 다층 퍼셉트론(multilayer perceptron)이 있다. 인공 신경망은 기초 컴퓨팅 단위인 뉴런 여러 개가 가중 링크(weighted link)로 연결된 형태를 가지며, 이때 가중 링크는 주어진 환경에 적응할 수 있도록 그 가중치가 조정될 수 있다. 인공 신경망은 자기 조직화 지도(SOM; Self-Organizing Map), 순환 연결망(RNN; Recurrent Neural Network), 콘볼루션 신경망(CNN; Convolutional Neural Network) 등과 같은 다양한 모델을 망라할 수 있으며, 그 종류는 수십 가지에 이른다. 최근에는 컴퓨터 하드웨어 및 학습 알고리즘의 발달로 수십 개의 은닉층이 있는 심층 신경망(DNN: Deep Neural Network)이 널리 사용되게 되었다. 이는 바둑 대국을 비롯해 이미지 및 자연어 처리, 음성 인식 등의 분야에서 기존의 기계 학습 방법의 성능을 뛰어 넘는 결과를 보이고 있다.

인공 신경망 알고리즘은 연산 장치에서 계산을 수행하는 코어를 다수 필요로 한다. 그 이유는 병렬 연산이 인공 신경망 알고리즘의 수행에 있어서 필수적이기 때문이다. 예컨대, A 코어는 계산을 수행한 후 그 결과를 1번 저장기에 저장한다. 그러면, B 코어가 1번 저장기에 저장된 결과를 바탕으로 계산을 하는 동안 A 코어는 또 다른 계산을 수행한다. B 코어가 계산한 결과가 2번 저장기에 저장될 때, A 코어가 수행한 또 다른 계산의 결과는 1번 저장기에 저장된다. 이런 식으로 복수 개의 코어가 분업을 하여 계산을 수행하는 것이 병렬 연산이다. 위에서는 A 코어가 수행한 계산의 결과가 1번 저장기에, B 코어가 수행한 계산의 결과가 2번 저장기에 저장되는 것으로 예시하였는데, 실제 인공 신경망 알고리즘의 수행에 있어서는 특정 코어의 계산 결과가 특정 저장기에 저장되도록 정해져 있지 않고, 상황에 따라 유연하게 코어와 저장기가 연결될 수 있다.

인공 신경망 알고리즘에 적용하여 상술한 바와 같은 병렬 계산을 수행하는 프로세서의 코어의 수는 많으면 많을수록 좋지만, 무작정 많은 수의 코어를 처음부터 제공하려면 비용의 제약이 있을 수 있다. 한정된 수의 코어를 가지는 연산 장치로 인공 신경망 어플리케이션의 구현을 시작하고, 처음에 제공하였던 코어의 수가 모자라게 되었을 때 추가적인 코어를 제공하는 방식으로 연산 장치의 확장성을 높이는 것이 유리하다.

본 발명자(들)는 이제, 본 명세서를 통하여, 연산 장치의 확장성을 높이도록 배치되고, 특히 상술한 인공 신경망 알고리즘의 수행에 필요한 계산에 최적화된, 복수 개의 코어를 포함하는 연산 장치를 제안하는 바이다.

본 발명은 연산 장치의 확장성을 높이도록 배치된 복수 개의 코어를 포함하는 연산 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 인공 신경망 처리에 동반되는 수많은 데이터 이동에 따른 병목 현상을 최소화할 수 있는 연산 장치를 제공하는 것을 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.

이 외에도, 본 발명의 기술적 사상에 따라 다른 구성이 더 제공될 수도 있다.

본 발명에 따르면, 연산 장치의 확장성을 높이도록 배치된 복수 개의 코어를 포함하는 연산 장치가 제공될 수 있다.

또한, 본 발명에 따르면, 인공 신경망 처리에 동반되는 수많은 데이터 이동에 따른 병목 현상을 최소화할 수 있는 연산 장치가 제공될 수 있다.

도 1은 본 발명과 대비되는 배치 구조를 갖는 복수 개의 코어를 도시하는 도면이다.

도 2는 본 발명의 일 실시예에 따라 회전 구조로 배치된 복수 개의 코어를 도시하는 도면이다.

도 3은 본 발명의 다른 실시예에 따라 회전 구조로 배치된 복수 개의 코어를 도시하는 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신 및 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

본 발명 특유의 코어 배치 구조는 한마디로 회전 구조라 할 수 있다. 이러한 회전 구조가 코어 수의 확장에 유리하다는 점은, 도 1에 도시된 바와 같은 회전 구조가 아닌 코어 배치 구조와의 대비를 통하여 이해될 수 있다. 도 1은 본 발명과 대비되는 배치 구조를 갖는 복수 개의 코어를 도시하는 도면이다. 도 1에 도시된 바와 같이, 예컨대 인공 신경망 관련 계산에 동원되는 연산 장치로서 8개의 코어가 제공된 경우를 상정해 보자. 이 연산 장치에서는 8개의 코어가 2열 종대로 총 4개의 행으로 배열될 수 있다. 이러한 연산 장치로 연산을 수행하다가 코어 수의 확장이 필요하게 된 경우를 가정해 보자. 만일 세 번째 열의 첫 번째 행으로 9번째 코어가 설치되는 경우라면, 이 세 번째 열에 배치되는 코어는 기존 코어와의 거리가 멀어져서 연결성이 떨어지게 되고, 인공 신경망 관련 계산에 있어서 중요한 플랙서빌리티(flexibility)가 떨어지게 된다.

종래의 병렬 계산 방식에서는, 연산 장치 내에서 계산기 역할을 하는 부분과 메모리 역할을 하는 부분(즉, 레지스터)을 논리적으로 또는 물리적으로 연결함으로써 기능 분담이 정해졌다. 즉, 어떤 계산기는 다른 계산기와 메모리를 같이 쓰고, 어떤 계산기는 메모리를 여러 개 쓰는 것과 같이 미리 정해진 방식으로 계산, 로드(메모리로부터 읽어옴) 및 스토어(메모리에 저장함)가 진행되었다. 그런데, 인공지능 연산 장치에서는 계산기와 메모리 간의 매치(match)가 미리 정해진 상태로 알고리즘이 수행되는 대신에, 계산기와 메모리 간의 매치가 알고리즘 수행 중에 바뀔 수 있다. 예컨대, A 코어가 1번 및 2번 메모리만 쓰는 것이 아니라, 1번 및 2번 메모리를 주로 쓰다가도 다른 메모리에 액세스할 필요가 있을 수 있다. 인공지능 계산에서 코어와 메모리의 유연한(flexible) 매치는 소프트웨어에 의해서 구현된다.

이와 같이 소프트웨어적으로 유연한 매치, 즉 플랙서빌리티가 높은 매치를 구현하려면, 계산을 수행하는 특정 코어 주위에 가깝게 배치된 다른 코어들이 많을 확률이 높을수록 유리하다. 상술한 유연한 매치에 의해 발생하는 충돌 문제(예컨대 1번 메모리에 저장된 계산 결과를 B 코어가 쓰고 있는 동안에 1번 메모리에 다른 코어가 저장을 하면 안됨)는 소프트웨어적으로 제어될 수 있다. 그런데, 도 1을 통해 예시한 배치, 즉 2열 종대로 총 4개의 행으로 기존 코어가 배치되어 있는 상태에서 세 번째 열의 첫 번째 행으로 9번째 코어가 설치되는 경우, 9번째 코어가 다른 코어들로부터 멀리 떨어져 배치되어 그 주위에 가깝게 배치된 코어들의 수가 적으므로, 인공 신경망 계산에 유리한 플랙서빌리티가 떨어지게 되는 것이다.

이와 대비하여, 본 발명에서와 같이 회전 구조로 코어를 배치하는 경우를 살펴보자. 도 2는 본 발명의 일 실시예에 따라 회전 구조로 배치된 복수 개의 코어를 도시하는 도면이다. 도 2에는 1번 코어부터 시계 방향으로 회전하면서 배치된 8개의 코어가 이미 보드에 설치되어 있는 상태에서 9번째 코어가 추가되는 경우가 도시되어 있다. 도 2를 참조하면, 9번째 신규 코어는 1번, 2번 및 8번 코어와 매우 가깝게 배치됨을 알 수 있다. 도 1에 따른 배치에서 9번째 신규 코어가 기존의 코어들과 갖는 위치 관계와 대비하여 보면, 도 2에 따른 회전 구조의 배치가 나타내는 특징을 이해할 수 있을 것이다. 이와 같이 회전 구조의 배치를 수행하면, 추가되는 코어와 기존 코어들 간의 플랙서블한 연결이 유리하게 구현될 수 있고, 이에 따라 코어의 확장성이 높아진다.

도 3은 본 발명의 다른 실시예에 따라 회전 구조로 배치된 복수 개의 코어를 도시하는 도면이다. 도 3에 도시된 회전 구조는 도 2에 도시된 회전 구조를 보다 구체화한 형태로서, 바깥쪽 모서리부터 코어의 연결이 시작되어 안쪽으로 말려 들어가는 식으로 연결이 이어지다가, 다시 바깥쪽으로 말려 나가는 식으로 연결이 이어져 처음에 연결이 시작된 코어로 다시 연결되는 형태를 갖는다. 이러한 구조에 따르면, 특히 데이터 이동에서 발생하는 병목 현상을 최소화할 수 있게 된다. 본 실시예에 따라 회전 구조로 배치된 복수 개의 코어를 포함하는 연산 장치는, 인접한 코어들의 누적 레지스터부가 일방향 경로를 통해 연결되도록 함으로써 데이터 누적에 필요한 경로를 대체할 수 있다. 따라서, 데이터 누적을 위한 별도의 코어의 필요성이 사라지게 된다. 본 실시예에서, 각각의 코어는 독립적인 메모리부와 연산부를 포함하고 있으며, 대체로 기존의 인공 신경망 연산 장치들이 입력 메모리부, 연산부 및 출력 메모리부로 크게 구분되어 독립적으로 구성되는 것과는 달리, 메모리부와 연산부가 전 영역에 분배되어 배치된다. 기존 연산 장치의 구조에서는 출력 메모리부에 누적된 데이터들을 입력 메모리부로 이동시킬 필요가 있는데 비해, 본 실시예에 따른 회전 구조에서는 연산이 완료되는 시점에서 회전 경로를 통해 각 코어로 데이터의 전달이 함께 완료되므로, 이러한 과정이 생략될 수 있다. 이를 통해, 데이터의 이동과 연산이 일정 영역에 집중되어 이루어지는 기존의 구조에 비해 데이터 이동에서 발생하는 병목 현상을 최소화할 수 있다. 추후에 코어의 수가 증가하더라도 회전 구조는 동일하게 적용될 수 있으며, 메모리부와 연산부가 전 영역에 분배되어 있는 형태이므로 인공 신경망 연산 장치의 확장성을 높이는데도 유리하다. 한편, 본 발명에 따른 연산 장치는 반드시 인공 신경망과 관련된 연산에 사용되는 것으로 한정되지는 않지만, 인공 신경망과 관련된 방대한 연산에 적용하기에 특히 적합하다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

복수 개의 코어를 갖는 연산 장치로서,

상기 연산 장치는 n개의 코어를 포함하고, 상기 n개의 코어는 제1 내지 제n 코어가 일방향으로 순환 연결되는 회전 구조로 배치되며,

상기 n개의 코어 각각은 독립적인 메모리부, 연산부 및 누적 레지스터부를 포함하고,

상기 제1 내지 제n-1 코어의 누적 레지스터부의 출력은 상기 제2 내지 제n 코어의 누적 레지스터부의 입력과 각각 연결되고, 상기 제n 코어의 누적 레지스터부의 출력은 상기 제1 코어의 누적 레지스터부의 입력과 연결되는 연산 장치.