WO2023195658A1

WO2023195658A1 - 트랜스포머 기반 언어 서비스 가속화를 위한 저비용 다중 fpga 가속 시스템

Info

Publication number: WO2023195658A1
Application number: PCT/KR2023/003620
Authority: WO
Inventors: 김민섭; 이성재; 김주영; 홍성민; 문승재; 김준수
Original assignee: 네이버 주식회사; 한국과학기술원
Priority date: 2022-04-08
Filing date: 2023-03-17
Publication date: 2023-10-12
Also published as: KR20230144891A

Abstract

본 개시는 트랜스포머 기반 언어 서비스 가속화 장치에 관한 것이다. 가속화 장치는 제1 데이터 패스를 구성하는 행렬 처리 유닛 및 제2 데이터 패스를 구성하는 벡터 처리 유닛을 포함한다. 제1 데이터 패스는 행렬 관련 명령과 연관되고, 제2 데이터 패스는 벡터 관련 명령과 연관된다. 제1 데이터 패스와 제2 데이터 패스는 병렬적으로 처리된다.

Description

트랜스포머 기반 언어 서비스 가속화를 위한 저비용 다중 FPGA 가속 시스템

본 개시는 트랜스포머 기반 언어 서비스 가속화를 위한 저비용 다중 FPGA 가속 시스템에 관한 것으로, 구체적으로, 모델 병렬 처리와 효율적인 네트워크를 통하여 트랜스포머 기반의 언어 서비스의 입력 컨텍스트 처리를 가속할 수 있는 장치 및 시스템에 관한 것이다.

트랜스포머(transformer) 모델은 입력 데이터의 각 부분에 다른 가중치를 부여하는 어텐션(attention) 메커니즘을 사용하는 딥 러닝 모델이다. 순환 신경망(Recurrent Neural Network; RNN) 및 장단기 메모리(Long Short-Term Memory; LSTM)의 재귀(recursion) 및 전역 종속성 문제를 해결함으로써 트랜스포머는 자연어 처리(Natural Language Processing; NLP) 응용 프로그램의 사실상 표준이 되고 있다.

트랜스포머 모델 중 GPT(Generative Pre-Trained Transformer) 언어 모델은 특히 데이터센터에서 널리 사용된다. GPT 언어 모델은 미리 훈련되어 있기 때문에 약간의 수정으로 다양한 애플리케이션에 쉽게 적용할 수 있다. 이러한 이점으로 인해 GPT 언어 모델은 언어 서비스에 대한 증가하는 수요를 충족해야 하는 클라우드 데이터센터에 매력적인 솔루션이다. 동시에 GPT 언어 모델은 애플리케이션 성능과 적용 범위 모두의 개선을 위해 모델 크기를 늘리고 있는 추세이다. 예를 들어, 최신 GPT 언어 모델은 매개변수 크기를 83억개의 사이즈로 늘렸다. 매개변수 크기를 늘리는 추세는 메모리 용량과 컴퓨팅 성능 모두에서 상당한 개선을 요구한다. 따라서 데이터센터에서 대규모 GPT 언어 모델을 효율적으로 실행하기 위해서는 기존 플랫폼을 넘어선 새로운 하드웨어 플랫폼이 필요하다.

최근에 트랜스포머를 가속하는 여러 연구가 제안되고 있으나, 이들은 트랜스포머 프로세스의 일부만 가속화하는데 초점을 맞추기 때문에 데이터센터에 적용하기는 적합하지 않다. 특히, 어텐션 과정은 주로 계산 집약적이지만 가속화하기 쉬운 행렬 곱셈으로 구성되어 있기 때문에, 최근 연구들은 어텐션 과정을 가속화하는데 초점을 맞추고 있다. 또한, 기존 가속 시스템의 아키텍처는 각 작업에 대해 전용 컴퓨트 코어를 배치하는 가속기를 설계하기 때문에, GPT 언어 모델의 종단 간(end-to-end) 가속을 지원하는데 최적화되어 있지 않다. 기존 시스템의 아키텍처에서 가속기는 전체 작업을 처리하기 위해 스트림에 추가 컴퓨트 코어를 추가하므로, 큰 영역에서 오버헤드가 발생한다.

상기와 같은 문제를 해결하기 위한 트랜스포머 기반 언어 서비스 가속화 장치 및 다중 FPGA 가속 시스템을 제공한다.

본 개시는 장치 또는 시스템을 포함한 다양한 방식으로 구현될 수 있다.

본 개시의 일 실시예에 따른 트랜스포머 기반 언어 서비스 가속화 장치는, 제1 데이터 패스를 구성하는 행렬 처리 유닛(matrix processing unit) 및 제2 데이터 패스를 구성하는 벡터 처리 유닛(vector processing unit)을 포함한다. 여기서, 제1 데이터 패스는 행렬 관련 명령과 연관되고, 제2 데이터 패스는 벡터 관련 명령과 연관된다. 또한, 제1 데이터 패스와 제2 데이터 패스는 병렬적으로 처리된다.

본 개시의 일 실시예에 따른 트랜스포머 기반 언어 서비스 가속화를 위한 다중 FPGA 가속 시스템은, 제1 호스트 CPU 및 호스트 CPU와 연결된 제1 FPGA 클러스터를 포함한다. 여기서, 각 FPGA는 2개의 컴퓨트 코어(compute core)를 포함한다. 각 컴퓨트 코어는, 제1 데이터 패스를 구성하는 행렬 처리 유닛(matrix processing unit) 및 제2 데이터 패스를 구성하는 벡터 처리 유닛(vector processing unit)을 포함한다. 여기서, 제1 데이터 패스는 행렬 관련 명령과 연관되고, 제2 데이터 패스는 벡터 관련 명령과 연관된다. 제1 데이터 패스와 제2 데이터 패스는 병렬적으로 처리된다.

본 개시의 다양한 실시예에 따르면, 다중 FPGA 가속 시스템 내의 각 컴퓨트 코어에서 병렬 연산을 최대화하기 위해 종속성이 없는 모델 매개변수를 분할함으로써, 다중 FPGA 가속 시스템에 모델 병렬화 및 효율적인 네트워크를 적용할 수 있다.

본 개시의 다양한 실시예에 따르면, 하드웨어 재사용을 최대화할 수 있는 맞춤형 명령과 함께 명령 기반 프로그래밍 가능한 컴퓨트 코어를 사용하여 GPT 언어 모델의 종단 간 가속을 제공할 수 있다.

본 개시의 다양한 실시예에 따르면, 다중 FPGA 가속 시스템은 효율적인 데이터 흐름, 양자화 및 기타 하드웨어 최적화를 활용함으로써, 높은 처리량과 낮은 대기 시간으로 트랜스포머 기반의 언어 서비스를 처리할 수 있다.

본 개시의 다양한 실시예에 따르면, 다중 FPGA 가속 시스템은 초기 비용과 운영 비용이 낮은 다중 FPGA를 구현하여 성능 저하 없이 데이터센터의 비용을 줄일 수 있다.

본 개시의 다양한 실시예에 따르면, 기존 하드웨어 플랫폼보다 향상된 성능과 에너지 효율성을 달성할 수 있는 트랜스포머 기반 언어 서비스를 가속화하기 위한 새로운 하드웨어 플랫폼을 제공할 수 있다.

본 개시의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않은 다른 효과들은 청구범위의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자("통상의 기술자"라 함)에게 명확하게 이해될 수 있을 것이다.

본 개시의 실시예들은, 이하 설명하는 첨부 도면들을 참조하여 설명될 것이며, 여기서 유사한 참조 번호는 유사한 요소들을 나타내지만, 이에 한정되지는 않는다.

도 1은 본 개시의 일 실시예에 따른 토큰 임베딩 레이어, 디코더 레이어 및 LM(Language Model) 헤드를 포함하는 인공 신경망 모델의 구조를 나타내는 도면이다.

도 2는 GPU에서 레이어 정규화, 셀프 어텐션, 레지듀얼 및 피드포워드 네트워크 연산의 비율과 이러한 연산을 수행하는데 소요되는 각 연산의 대기 시간 비율을 도시한 그래프를 나타내는 도면이다.

도 3은 본 개시의 일 실시예에 따른 다중 FPGA 가속 시스템의 상세 구성을 나타내는 도면이다.

도 4는 본 개시의 일 실시예에 따른 컴퓨트 코어의 상세 구조를 나타내는 도면이다.

도 5는 다중 FPGA 가속 시스템이 포함하는 타일링 체계를 나타내는 도면이다.

도 6은 다중 FPGA 가속 시스템 내의 각 가속화 장치의 경량 라우터(lightweight router)를 나타내는 도면이다.

도 7은 다중 FPGA 가속 시스템 내의 각 가속화 장치의 행렬 처리 유닛을 나타내는 도면이다.

도 8은 다중 FPGA 가속 시스템 내의 각 가속화 장치의 벡터 처리 유닛을 나타내는 도면이다.

도 9는 본 개시의 다중 FPGA 가속 시스템을 GPU 어플라이언스와 비교할 때, 다양한 GPT 언어 모델에서의 토큰 생성 처리량 및 속도 향상을 도시한 그래프를 나타내는 도면이다.

도 10은 본 개시의 다중 FPGA 가속 시스템과 GPU 어플라이언스의 에너지 효율을 비교한 그래프를 나타낸다.

도 11은 본 개시의 다중 FPGA 가속 시스템과 GPU 어플라이언스의 확장성을 도시한 그래프를 나타낸다.

이하, 본 개시의 실시를 위한 구체적인 내용을 첨부된 도면을 참조하여 상세히 설명한다. 다만, 이하의 설명에서는 본 개시의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.

첨부된 도면에서, 동일하거나 대응하는 구성요소에는 동일한 참조부호가 부여되어 있다. 또한, 이하의 실시예들의 설명에 있어서, 동일하거나 대응되는 구성요소를 중복하여 기술하는 것이 생략될 수 있다. 그러나, 구성요소에 관한 기술이 생략되어도, 그러한 구성요소가 어떤 실시예에 포함되지 않는 것으로 의도되지는 않는다.

개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 통상의 기술자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다. 본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한, 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다. 명세서 전체에서 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.

또한, 명세서에서 사용되는 '유닛' 또는 '모듈'이라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, '유닛' 또는 '모듈'은 어떤 역할들을 수행한다. 그렇지만, '유닛' 또는 '모듈'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '유닛' 또는 '모듈'은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서, '유닛' 또는 '모듈'은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 또는 변수들 중 적어도 하나를 포함할 수 있다. 구성요소들과 '유닛' 또는 '모듈'들은 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '유닛' 또는 '모듈'들로 결합되거나 추가적인 구성요소들과 '유닛' 또는 '모듈'들로 더 분리될 수 있다.

본 개시의 일 실시예에 따르면, '유닛' 또는 '모듈'은 프로세서 및 메모리로 구현될 수 있다. '프로세서'는 범용 프로세서, 중앙 처리 장치(CPU), 마이크로프로세서, 디지털 신호 프로세서(DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서, '프로세서'는 주문형 반도체(ASIC), 프로그램가능 로직 디바이스(PLD), 필드 프로그램가능 게이트 어레이(FPGA) 등을 지칭할 수도 있다. '프로세서'는, 예를 들어, DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다. 또한, '메모리'는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. '메모리'는 임의 액세스 메모리(RAM), 판독-전용 메모리(ROM), 비-휘발성 임의 액세스 메모리(NVRAM), 프로그램가능 판독-전용 메모리(PROM), 소거-프로그램가능 판독 전용 메모리(EPROM), 전기적으로 소거가능 PROM(EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.

본 개시에서, '시스템'은 서버 장치와 클라우드 장치 중 적어도 하나의 장치를 포함할 수 있으나, 이에 한정되는 것은 아니다. 예를 들어, 시스템은 하나 이상의 서버 장치로 구성될 수 있다. 다른 예로서, 시스템은 하나 이상의 클라우드 장치로 구성될 수 있다. 또 다른 예로서, 시스템은 서버 장치와 클라우드 장치가 함께 구성되어 동작될 수 있다.

트랜스포머 모델(Transformer)은 데이터센터의 자연어 처리(Natural Language Processing; NLP) 애플리케이션에 널리 사용되는 딥 러닝 언어 모델이다. GPT(Generative Pre-trained Transformer)와 같은 텍스트 생성을 대상으로 하는 트랜스포머 모델은 요약 단계(summarization stage)에서 대규모 입력 컨텍스트(context)를 효율적으로 처리한 후 생성 단계(generation stage)에서 순차적인 단일 입력을 요구한다. GPU(Graphic Processing Unit)와 같은 기존 하드웨어 플랫폼은 요약 단계에서 대용량 입력의 병렬 처리에 특화되어 있지만 생성 단계에서는 성능이 크게 저하된다. 더욱이 데이터센터는 트랜스포머 모델 크기의 기하급수적인 증가를 처리하기 위해 확장 가능한 하드웨어 플랫폼이 필요하지만 이러한 장치를 확장하는 것은 높은 초기 비용과 운영 비용으로 인해 많은 비용이 든다.

GPT 언어 모델의 요약 단계에서 여러 토큰을 처리해야 하고, 하드웨어에 대규모 계산을 처리하기에 충분한 로직(logic)이 없을 수 있기 때문에 요약 단계는 컴퓨트 바운드(compute bound)일 수 있다. 생성 단계는 시스템이 단일 토큰을 처리해야 하고 사용 가능한 모든 로직을 활용하기 위해 메모리에서 많은 양의 가중치를 읽을 수 없어 메모리 바운드(memory bound)일 수 있다. 텍스트 생성 워크로드는 긴 출력 토큰을 만드는데 중점을 두고 있으므로 메모리 바운드를 해결하는 것이 우선일 수 있다. 게다가 GPU와 같은 고정된 병렬 하드웨어는 주어진 출력 토큰과 텍스트의 후속 출력 토큰 사이의 종속성을 처리하는데 적합하지 않을 수 있다. 따라서 메모리 병목 현상의 영향을 완화하고 높은 처리량으로 요약 단계 및 생성 단계를 모두 실행하는 최적화된 타일링 체계가 필요하다.

애플리케이션 레벨에서 데이터센터가 다른 사용자의 입력을 일괄 처리하는 경우, 다른 사용자로부터 입력을 수집하는데 소요되는 시간으로 인해 배치 크기에 따라 대기 시간이 증가할 수 있다. 데이터센터에서 입력을 수집하지 않고 배치 크기가 큰 모델을 실행하는 경우, 이용률(utilization)은 지정된 배치에서 부족한 입력 수에 따라 선형적으로 감소할 수 있다. 따라서 짧은 대기 시간으로 단일 입력 토큰을 실행할 수 있는 최적화된 데이터 경로가 필요하다.

GPT 언어 모델은 대규모 모델 매개변수를 사용한 계산이 필요하며, 이는 병렬 계산을 위해 대형 모델을 여러 작업자로 나누는 병렬화 방식이 필요할 수 있다. GPT 언어 모델의 크기가 커질수록 필요한 계산을 수행할 수 있는 메모리 대역폭과 용량이 모두 부족하기 때문에 단일 장치로는 충분하지 않을 수 있다. 따라서 최소한의 동기화 오버헤드로 병렬 계산의 양을 최대화하기 위해서는 모델 병렬 처리와 효율적인 네트워크를 적용한 가속 시스템/장치가 필요하다.

데이터센터는 언어 서비스를 실행하기 위해 서버 솔루션을 설치하는 경우, 하드웨어를 구입하는 초기 비용과 하드웨어를 실행하는 운영 비용으로 인해 총 소유 비용이 높을 수 있다. 따라서 제품 비용이 저렴하고 에너지 효율이 높으면서도 성능이 떨어지지 않는 서버 어플라이언스가 필요하다.

본 개시는 요약 및 생성 단계 모두에서 높은 처리량과 낮은 대기 시간(latency)으로 종단 간(end-to-end) 트랜스포머 모델 추론을 실행하는 저가형 다중 FPGA 가속 시스템(이하 '다중 FPGA 가속 시스템'이라 지칭함)을 제공한다. 다중 FPGA 가속 시스템은 빠른 P2P(peer-to-peer) 통신을 통해 장치 간에 동일한 워크로드(workload) 분산을 위해 경량 라우터(Router)와 함께 모델 병렬 처리(model parallelism)를 사용할 수 있다. 본 개시에 따른 다중 FPGA 가속 시스템 내의 컴퓨트 코어는 효율적인 데이터 흐름을 위해 맞춤형 명령과 최적화된 타일링 체계(tiling scheme)에서 작동할 수 있다. 본 개시에 따른 하드웨어를 4개의 FPGA에 구현하고 높은 하드웨어 효율성을 위해 고대역폭 메모리(High Bandwidth Memory; HBM)의 모든 채널과 최대 하드웨어 리소스를 활용할 수 있다. 다중 FPGA 가속 시스템은 최신 GPT 언어 모델에 대해 4개의 최신 GPU를 사용하는 경우와 비교하여 3.78배의 속도 향상 및 3.99배의 에너지 효율성을 달성하는 동시에 트랜스포머 기반 언어 서비스에 대해 허용 가능한 정확도를 유지할 수 있다. 또한, 다중 FPGA 가속 시스템은 GPU 기반 어플라이언스보다 8.21배 더 비용 효율적일 수 있다.

본 개시는 데이터센터에서 사용될 수 있는 다중 FPGA 가속 시스템을 제공한다. 언어 서비스와 관련된 인공 신경망 모델(예를 들어, GPT 언어 모델)에서 나타나는 메모리 병목 현상을 해결하기 위해, 다중 FPGA 가속 시스템은 최적화된 타일링 체계를 사용할 수 있다. 또한, 다중 FPGA 가속 시스템은 고대역폭 메모리(HBM)의 최대 대역폭을 사용하기 위해 언어 서비스 관련 인공 신경망 모델(예를 들어, GPT 언어 모델)의 특성을 기반으로 효율적인 데이터 흐름을 사용할 수 있다. 본 개시에 따르면, 기본 양자화(basic quantization)를 사용하여 메모리로 및 메모리로부터 데이터 이동 속도를 더욱 향상시킬 수 있다. 다중 FPGA 가속 시스템은 계산 병목 현상을 해결하고, 하드웨어 재사용을 늘리기 위해 명령 기반 프로그래밍 가능한 컴퓨트 코어를 사용하여 사용자 지정 명령에 따라 작동할 수 있다.

그리고, 다중 FPGA 가속 시스템에서 모델 병렬 처리를 사용함으로써, 각 FPGA 장치에 전체 워크로드를 균등하게 할당하면서 병렬로 작동하는 컴퓨트 코어의 물리적인 수를 늘릴 수 있다. 여기서, 모델 병렬 처리는 여러 작업자에 걸쳐 모델 매개변수(model parameters)를 분할하고 동시에 모델 매개변수를 처리하여 짧은 대기 시간을 달성하기 위한 방식이다. 대형 인공 신경망 모델(예를 들어, GPT 언어 모델)에서는 각 작업자에게 할당되는 모델의 크기가 작아지기 때문에 모델 병렬화가 유리할 수 있다. 모델 병렬 처리의 경우, 모든 작업자는 계층을 시작하기 전에 전체 행렬을 가지고 있어야 하므로 적어도 각 계층의 끝에서 동기화(synchronization)가 필요할 수 있다.

또한, 트랜스포머 기반 모델이 데이터센터의 다양한 언어 서비스에 대해 계속 수정 및 확장되기 때문에 FPGA를 활용할 수 있다. 가속 시스템에 FPGA를 사용하는 경우, ASIC 기반 가속기와 비교할 때, 최소의 재설계 비용으로 새로운 작업과 진화하는 트랜스포머의 더 큰 디멘션을 지원하기 위해 완전히 재프로그래밍 가능한 하드웨어를 제공할 수 있다.

본 개시에서는 대표적인 반도체 가속기인 FPGA를 구체적인 실시예로써 설명하고 있으나 이에 한정되지는 않으며, 프로그램 가능한 반도체 내지는 반도체 가속기에 동일한 방법을 적용할 수 있을 것이다.

도 1은 본 개시의 일 실시예에 따른 토큰 임베딩 레이어, 디코더 레이어 및 LM(Language Model) 헤드를 포함하는 인공 신경망 모델(100)의 구조를 나타내는 도면이다. 여기서, 인공 신경망 모델(100)은 GPT 언어 모델일 수 있다. 도시된 바와 같이, 인공 신경망 모델(100)은 요약 단계(110) 및 생성 단계(120)를 포함할 수 있다.

일 실시예에서, 요약 단계(110)는 토큰 임베딩 레이어(112), 복수의 디코더 레이어(114_1 내지 114_N) 및 LM 헤드(116)를 순차적으로 포함할 수 있다. 디코더 레이어는 제1 레이어 정규화(layer normalization) 레이어, 셀프-어텐션(self-attention) 레이어, 제1 레지듀얼(residual) 레이어, 제2 레이어 정규화 레이어, 피드포워드 네트워크(feed-forward network) 레이어 및 제2 레지듀얼 레이어를 순차적으로 포함할 수 있다. LM 헤드(116)는 레이어 정규화(layer normalization) 레이어, FC(Fully Connected) 레이어 및 소프트맥스(SoftMax) 레이어를 순차적으로 포함할 수 있다.

일 실시예에서, 생성 단계(120)는 토큰 임베딩 레이어(122), 복수의 디코더 레이어(124_1 내지 124_N) 및 LM 헤드(126)를 순차적으로 포함할 수 있다. 토큰 임베딩 레이어(122), 복수의 디코더 레이어(124_1 내지 124_N) 및 LM 헤드(126)의 상세 구성은 요약 단계(110)와 동일할 수 있다. 도시된 것과 같이, 생성 단계(120)는 토큰 임베딩 레이어(122), 복수의 디코더 레이어(124_1 내지 124_N) 및 LM 헤드(126)의 구조를 하나 또는 그 이상 더 포함할 수 있다.

도시된 GPT 언어 모델은 NLP에서 최고의 정확도를 달성하는 트랜스포머 모델을 기반으로 한다. 초기의 트랜스포머 모델에는 입력 및 출력 시퀀스를 각각 처리하기 위해 인코더와 디코더가 있었다. 그러나 GPT 언어 모델은 주어진 컨텍스트에 기초하여 토큰을 생성(즉, 다음 단어 시퀀스 생성)하는 것에 초점을 맞추기 때문에, 디코더만 포함할 수 있다. 일 실시예에 따르면, GPT 언어 모델은 인코딩 프로세스 대신 사전 훈련된 행렬을 사용하는 프로세스인 토큰 임베딩이라는 대체 방법을 사용하여 인코더를 제거할 수 있다. 또한 GPT 언어 모델 및 디코더 레이어의 모델 크기는 토큰 생성에서 더 나은 정확도와 정교함을 얻기 위해 더 많은 매개변수와 작업으로 지속적으로 증가할 수 있다. 디코더 레이어는 디코더의 주요 계산을 담당할 수 있다.

디코더의 시작 부분에 있는 토큰 임베딩 레이어(112)는 입력 단어를 임베딩 벡터로 변환할 수 있다. 입력된 단어는 사전을 기반으로 숫자 토큰 ID로 변환될 수 있다. 그런 다음 사전 훈련된 행렬인 단어 토큰 임베딩(Word Token Embedding; WTE) 및 단어 위치 임베딩(Word Position Embedding; WPE)을 토큰 ID로 인덱싱하여 해당 벡터를 얻을 수 있다. WTE에는 토큰 관련 인코딩이 포함될 수 있고, WPE에는 위치 관련 인코딩이 포함될 수 있다. WTE 및 WPE를 토큰 ID로 인덱싱하여 얻은 두 벡터를 추가하여 임베딩 벡터를 얻을 수 있다.

디코더 끝에 위치한 LM 헤드(116)는 마지막 디코더 레이어(114_N)로부터 출력된 임베딩 벡터를 토큰 ID로 변환할 수 있다. LM 헤드(116)는 이 과정에서 WTE의 전치(transpose)와 행렬 곱셈(matrix multiplication)을 필요로 하며 소프트맥스(SoftMax) 함수를 적용하여 가장 높은 확률 값을 가진 토큰 ID를 선택할 수 있다. 선택된 토큰 ID는 생성된 단어를 나타낸다.

토큰 임베딩 레이어(112)와 LM 헤드(116) 사이에 N개의 디코더 레이어(114_1 내지 114_N)가 배치되고, N은 모델 크기에 의해 결정될 수 있다. 하나의 디코더 레이어는 셀프 어텐션(self-attention), 피드포워드 네트워크(feed-forward network), 레이어 정규화(layer normalization), 레지듀얼(residual)의 네 가지 동작으로 나눌 수 있다. 셀프 어텐션 레이어(130)는 어텐션 행렬(attention matrix)을 얻기 위해 Query, Key 및 Value 행렬을 생성할 수 있다. Query는 현재 주어진 단어와 관련이 있으며, Key 및 Value는 전체 컨텍스트의 흐름을 나타낸다.

GPT 언어 모델은 H개의 독립 행렬 연산을 병렬적으로 실행하기 위해 H개의 열에서 어텐션 가중치를 나누는 방법인 다중 헤드(muti-head) 구조를 사용할 수 있다. 여기서, H는 어텐션 헤드의 수를 나타낸다. 하이퍼파라미터(Hyperparameter)의 개수인 H는 모델 크기에 따라 증가할 수 있다.

디코더 레이어(114_1 내지 114_N)에서의 또 다른 작업은 피드포워드 네트워크이다. 피드포워드 네트워크 레이어(140)는 두 개의 FC(Fully Connected) 레이어와 GELU(Gaussian Error Linear Unit) 활성화 함수로 구성될 수 있다. 첫 번째 FC 레이어는 더 높은 해상도를 위해 열 너비의 4배인 벡터를 만들어 GELU 함수로 전송할 수 있다. 두 번째 FC 레이어는 벡터의 차원을 원래 크기로 복원할 수 있다. 디코더 레이어(114_1 내지 114_N)에서의 레이어 정규화 레이어 및 레지듀얼 레이어는 큰 모델을 미세 조정하기 위해 셀프 어텐션 레이어 및 피드포워드 네트워크 레이어(140) 주위에 배치될 수 있다.

주어진 컨텍스트로 토큰을 생성하기 위해 GPT 언어 모델은 요약 단계(110) 및 생성 단계(120)를 포함할 수 있다. 요약 단계(110)는 전체 컨텍스트를 입력으로 사용하므로 토큰 임베딩 레이어(112) 뒤에 배치된 디코더의 입력 디멘션은 nХemb가 될 수 있다. 여기서 n은 토큰의 컨텍스트 길이이고, emb는 임베딩 벡터의 길이다. 디코더를 실행한 후 동일한 디멘션의 출력 행렬이 생성될 수 있다. 출력 행렬의 마지막 행만 LM 헤드(116)에서 처리되고 첫 번째 후속 토큰이 생성될 수 있다. 컨텍스트를 나타내는 Key 및 Value 행렬도 요약 단계(110)에서 생성될 수 있다. 생성 단계(120)에서 이전에 생성된 토큰은 디코더에 들어가므로 입력 차원은 1Хemb가 될 수 있다. 생성된 토큰은 이전 컨텍스트에 의해 결정되므로, 생성 단계(120)에서는 각각의 새로운 입력 컨텍스트를 행으로 추가함으로써 Key 및 Value 행렬을 업데이트할 수 있다.

예를 들어, "Hello, my name"이 입력 토큰 길이가 4인 컨텍스트인 경우, 4Хemb Key 및 Value 행렬이 형성될 수 있고, 요약 단계(110)에서 단어 "is"를 나타내는 첫 번째 토큰이 생성될 수 있다. 구두점은 토큰으로 간주될 수 있다. "Bob" 및 "."를 나타내는 다음 토큰을 생성하려면 Key 및 Value 행렬은 생성 단계(120)에서의 각 반복(iteration) 후에 행 디멘션을 1씩 증가시킨다. 마지막으로 생성된 토큰을 모두 해독하여 "Hello, my name is Bob."이라는 문장을 생성할 수 있다.

주어진 컨텍스트의 길이와 출력 단어의 길이는 각각 요약 단계(110) 및 생성 단계(120)의 계산량에 영향을 미치므로, 각 단계에서 소요되는 시간은 워크로드에 따라 상이할 수 있다. 위의 프로세스를 완료하면, GPT 언어 모델은 입력 컨텍스트에서 단어나 문장을 생성할 수 있다. 따라서 GPT 언어 모델은 텍스트 생성과 관련된 많은 워크로드에 적합할 수 있다.

텍스트 생성 워크로드에는 챗봇(Chatbot) 및 기사 작성 애플리케이션이 포함될 수 있다. 워크로드에 따라 컨텍스트 대비 생성의 비율이 다를 수 있다. 예를 들어, 챗봇 서비스는 길이 50의 평균 입력 토큰 요청을 가지고 1:1의 비율을 갖는 길이 50의 출력 토큰을 생성할 수 있다. 이에 반해, 기사 작성 애플리케이션은 사용자가 최대 50개의 토큰을 입력할 수 있도록 허용하고, 50:1에서 1:150까지 다양한 비율을 가지는 최대 150개의 토큰을 생성할 수 있다. 질문 및 답변과 같이 널리 사용되지 않는 다른 GPT 언어 모델의 응용 프로그램에서는 입력 컨텍스트가 몇 단어 답변을 생성하는데 훨씬 더 오래 걸릴 수 있다. 데이터센터에서 GPT 언어 모델은 요약 단계(110)의 입력 토큰보다 더 많은 생성 단계(120)의 출력 토큰이 필요한 언어 서비스에 적용될 수 있다.

도시된 바와 같이, 기존의 NLP 관련 언어 모델과 비교할 때, GPT 언어 모델은 토큰 임베딩, 레이어 정규화, 레지듀얼 및 LM 헤드와 같은 추가 프로세스를 포함할 수 있다. 본 개시에 따른 다중 FPGA 가속 시스템은 토큰 임베딩 및 LM 헤드와 함께 GPT 언어 모델의 모든 디코더 레이어를 지원하는 가속 시스템을 제공한다. 다중 FPGA 가속 시스템의 상세 구성에 대해서는 도 3 내지 도 8을 참조하여 후술한다.

도 2는 GPU에서 레이어 정규화, 셀프 어텐션, 레지듀얼 및 피드포워드 네트워크 연산의 비율과 이러한 연산을 수행하는데 소요되는 각 연산의 대기 시간 비율을 도시한 그래프(200)를 나타내는 도면이다. 도시된 바와 같이, GPU 기반 가속기의 경우, 레이어 정규화(LayerNorm) 및 레지듀얼과 같은 수학 연산의 수가 전체 연산의 0.11%로 극히 적은 비율을 차지함에도 불구하고, 레이어 정규화 및 레지듀얼을 계산하는데 소요되는 대기 시간이 전체 대기 시간의 22.8%이다. 이러한 결과는 레이어 정규화 및 레지듀얼을 수행하는 낮은 수준의 작업이 GPU에서 비효율적임을 나타낸다. 따라서 모든 GPT 언어 모델에 최적화된 본 개시에 따른 다중 FPGA 가속 시스템을 제공한다.

도 3은 본 개시의 일 실시예에 따른 다중 FPGA 가속 시스템(300)의 상세 구성을 나타내는 도면이다. 도시된 바와 같이, 다중 FPGA 가속 시스템(300)은 2개의 CPU(Central Processing Unit; 중앙처리장치)(310_1, 310_2), 제1 FPGA 클러스터(320_1), 제2 FPGA 클러스터(320_2)를 포함할 수 있다. 제1 CPU(310_1)는 제1 FPGA 클러스터(320_1)와 연결되고, 제2 CPU(310_2)는 제2 FPGA 클러스터(320_2)와 연결될 수 있다. 제1 CPU(310_1)와 제2 CPU(310_2)는 QPI(QuickPath Interconnect)(350)를 통해 서로 연결될 수 있다. 예를 들어, 다중 FPGA 가속 시스템(300)은 듀얼 소켓 CPU와 다중 FPGA로 구성된 서버 어플라이언스 시스템일 수 있다.

일 실시예에 따르면, 제1 CPU(310_1)와 연결된 제1 FPGA 클러스터(320_1)는 4개의 FPGA(322, 324, 326 및 328)를 포함할 수 있다. 제1 FPGA 클러스터(320_1)는 독립적인 워크로드를 계산하는 시스템을 형성할 수 있다. 또한, 각 FPGA는 가속화 장치(360)로서 기능할 수 있다. 각 FPGA(또는 가속화 장치(360))는 2개의 컴퓨트 코어(예를 들어, 362_1, 362_2)를 포함할 수 있다. 즉, 제1 FPGA 클러스터(320_1)는 총 8개의 컴퓨트 코어를 포함할 수 있다.

제1 FPGA 클러스터(320_1)는 16 GB/s의 속도로 데이터를 전송하는 PCIe Gen 3 하위 시스템(330_1)을 통해 호스트인 제1 CPU(310_1)에 연결될 수 있다. 유사하게, 제2 FPGA 클러스터(320_2)는 PCIe Gen 3 하위 시스템(330_2)을 통해 호스트인 제2 CPU(310_2)에 연결될 수 있다. FPGA 사이의 통신은 물리 계층에서 100 Gb/s의 속도로 데이터를 전송하는 QSFP(Quad Small Form Factor Pluggable) 트랜시버(340)에 의해 활성화될 수 있다. 각 FPGA에는 2개의 QSFP 포트가 있으므로 FPGA 클러스터(320_2 내지 320_2)는 더 많은 노드 간 연결이 필요한 다른 네트워크 토폴로지 대신 링 네트워크를 사용할 수 있다. 링 네트워크는 디코더 레이어에서 FPGA 사이에 필요한 데이터 동기화 및 전송을 최소화할 수 있다.

가속화 장치(360) 내부에서 2개의 코어(362_1, 362_2) 사이의 통신은 사용 가능한 리소스에 따라 달라지므로 제한이 없을 수 있다. 가속화 장치(360) 내부에서 2개의 컴퓨트 코어 사이의 통신 속도가 FPGA 사이의 통신 속도와 같도록 라우터를 효율적으로 벨런싱한다. 도 3에는 하나의 FPGA 클러스터 내에 4개의 FPGA가 배치되는 것으로 도시되었으나, 이에 한정되지 않으며, FPGA의 수는 필요에 따라 변경될 수 있다.

다중 FPGA 가속 시스템(300)은 대규모 언어 모델을 효율적으로 처리하기 위해 모델 병렬 처리를 사용할 수 있다. 언어 서비스와 관련된 인공 신경망 모델(예를 들어, GPT 언어 모델)에 포함된 셀프 어텐션(370) 및 피드포워드 네트워크(380)에서 모델 매개변수 또는 가중치 행렬(390)은 코어 수와 동일한 수(예를 들어, 8개)로 열 방향으로 분할될 수 있다. 각 컴퓨트 코어는 각 분할된 부분을 처리하도록 할당될 수 있다. 할당된 컴퓨트 코어가 있는 FPGA의 메모리에 분할된 부분이 저장될 수 있다. 그리고 각 FPGA의 각 컴퓨트 코어는 분할된 모델 매개변수를 사용하여 동일한 작업을 수행할 수 있다. 즉, 언어 서비스와 연관된 인공 신경망에 포함된 셀프 어텐션(370) 및 피드포워드 네트워크(380)에서 모델 매개변수 또는 가중치 행렬이 열 방향으로 복수의 부분으로 분할되고, 복수의 부분 각각이 각 컴퓨트 코어에 입력될 수 있다. 이 경우, 각 컴퓨트 코어는 입력된 부분에 대해 동일한 연산을 처리할 수 있다. 나머지 작업에 대한 모델 매개변수는 각 컴퓨트 코어에 전체적으로 저장되고, 각 컴퓨트 코어에서 수행될 수 있다.

모델 매개변수가 분할되는 경우, 이러한 연산들은 계산적으로 비용이 적기 때문에 동기화는 계산보다 시간이 오래 걸릴 수 있다. 전반적으로 각 FPGA는 동일한 하드웨어에서 동일한 작업을 실행하여 GPT 언어 모델을 종단 간으로 실행하므로 4개의 FPGA가 하나의 클러스터를 형성할 수 있다. 이와 같은 구성에 따르면, FPGA는 HBM과 DDR 메모리의 최대 대역폭을 모두 활용할 수 있다.

GPT 언어 모델은 분할된 모델 매개변수를 자주, 그리고 많은 양으로 필요로 하기 때문에 메모리 대역폭은 전체 성능에 상당한 영향을 미칠 수 있다. 따라서 분할된 모델 매개변수는 HBM에 저장될 수 있다. 반면에 WTE 및 WPE는 전체 디코더 단계당 한 번만 데이터에 액세스하므로 전체 성능에 미미한 영향을 미치기 때문에 DDR 메모리에 저장될 수 있다.

FPGA 내에 2개가 아닌 다른 수의 컴퓨트 코어를 배치하는 경우, 각 컴퓨트 코어는 성능 저하를 겪는다. FPGA 내에 하나의 컴퓨트 코어를 배치하는 경우, 컴퓨트 코어가 커져 배치 및 라우팅의 혼잡 문제가 발생하고 작동 주파수가 감소할 수 있다. FPGA 내에 3개 이상의 컴퓨트 코어를 배치하는 경우, 각 컴퓨트 코어는 작아지지만 동기화 오버헤드는 선형적으로 증가하고 상당한 양의 스톨(stall)이 발생할 수 있다. 따라서 다중 FPGA 가속 시스템(300)은 배치 및 라우팅 문제와 동기화 오버헤드의 균형을 유지하기 위해 최적화된 명령과 데이터 흐름을 구현할 수 있는, 하나의 FPGA 내에 2개의 동일한 컴퓨트 코어 또는 듀얼 컴퓨트 코어를 포함할 수 있다.

다중 FPGA 가속 시스템(300)은 어텐션만을 위해 설계된 기존의 NLP 가속기와 비교할 때, GPT 언어 모델에 대한 종단 간 처리를 지원하는 유연하고 최적화된 명령 세트(Instruction Set Architecture; ISA)를 포함할 수 있다. 여기서, 명령 세트는 compute 명령, dma 명령 및 router 명령을 포함할 수 있다. compute 명령은 주 처리 장치를 실행할 수 있고, 소스 또는 대상 위치가 오프칩 메모리(off-chip memory)인지 온칩 레지스터 파일(on-chip register file)인지 결정하기 위한 추가 비트가 있는 포맷(type, src1, src2, dst)을 포함할 수 있다. dma 명령 및 router 명령은 DMA(Direct Memory Access) 및 네트워크 라우터를 제어하여 주어진 전송 크기의 데이터를 컴퓨트 코어로 또는 컴퓨트 코어로부터 이동할 수 있고, type, src, dst, xfer_size와 같은 포맷을 가질 수 있다.

각 명령은 명령 체이닝(instruction chaining)을 통해 실행될 수 있고, 여기서 종속 명령 시퀀스는 최소 지연으로 작동할 수 있다. 한편 종속성이 없는 명령은 병렬로 작동할 수 있다. 예를 들어, compute 명령은 데이터를 처리하고, dma 명령은 데이터를 가져오고, router 명령은 동시에 피어 장치의 데이터로 버퍼를 채울 수 있다. 명령 체이닝과 병렬 실행을 결합하면 메모리와 통신 대역폭을 지속적으로 사용할 수 있다.

compute 명령은 주요 처리 단위를 제어하는 행렬 명령 및 벡터 명령을 포함할 수 있다. 예를 들어, compute 명령을 사용하는 GPT 언어 모델 디코더 레이어의 수도코드(pseudocode)는 표 1과 같이 표현될 수 있다.

Input: in emb, input embedding vector
Output: out emb, output embedding vector
Parameter: H, number of attention head
1: lnorm1 = LayerNorm(in emb, γi,

i)
2: /* Self-Attention */
3: query = Conv1D(lnorm1, Wq, bq)
4: key = Conv1D(lnorm1, Wk, bk)
5: value = Conv1D(lnorm1, Wv, bv)
6: for h = 0 to H do
7: mat = MaskedMM(query[h], keyT [h])
8: redu max = ReduMax(mat)
9: score = Softmax(mat -redu max)
10: attn[h] = MM(score, value[h])
11: end for
12: attn = attn + in emb
13: lnorm2 = LayerNorm(attn, γp,

p)
14: /* Feed-Forward Network */
15: ffn1 = GELU(Conv1D(lnorm2, Wffn1, bffn1))
16: ffn2 = Conv1D(ffn1, Wffn2, bffn2)
17: out emb = ffn2 + attn

행렬 명령(matrix instruction)은 행렬-벡터 곱셈과 GELU 및 리듀스 맥스(reduce max)와 같은 추가 기능을 수행할 수 있다. 행렬은 타일에 로드될 수 있고, 벡터도 부분적으로 로드될 수 있다. 행렬-행렬 곱셈은 행렬-벡터 곱셈의 시퀀스에 의해 수행될 수 있다. 행렬 명령은 Conv1D, MaskedMM(Masked Matrix Multiplication) 및 MM(Matrix Multiplication)을 포함할 수 있다.

Conv1D 명령은 방정식 Ax+b로 작성된 필수 행렬 명령으로서 Query, Key 및 Value 행렬 생성과 피드포워드 네트워크에 사용될 수 있다. Conv1D 명령은 가중치 행렬 A, 입력 벡터 x 및 편향 벡터(bias vector) b를 포함할 수 있다. Conv1D는 입력이 최대 입력 크기보다 길면, 합성곱(convolution)과 같이 슬라이딩 윈도우(sliding window)를 통해 연산을 수행할 수 있다.

MaskedMM 명령은 방정식 Ax를 포함할 수 있다. MaskedMM은 Score 행렬이라고 하는 QueryХKey^T를 계산할 수 있다. Query 행렬은 벡터로 로드될 수 있다. 마스킹 작업은 현재 토큰이 미래 컨텍스트의 영향을 받지 않음을 나타내기 위해 Score 행렬의 위쪽 대각선 요소에 -∞8 마스크를 배치할 수 있다. MaskedMM 명령은 벡터 명령인 소프트맥스와 결합하여 하삼각 행렬(lower triangular matrix)을 생성하고 각 행의 최대값을 얻을 수 있다.

MM 명령은 마스킹 없는 MaskedMM 명령과 동일할 수 있다. MM 명령은 출력 임베딩 벡터를 토큰 ID로 변환할 때 출력되는 중간 값인 로짓(logit)을 계산하기 위한 LM 헤드와 Score Х Value를 계산하기 위한 어텐션 레이어에서 사용될 수 있다. 또한, MM 명령은 Value를 곱하기 위해 전치 유닛도 포함할 수 있다.

벡터 명령(vector instruction)은 로드(load) 및 저장(store)과 함께 로우레벨 벡터-벡터 및 벡터-스칼라 연산을 실행할 수 있다. 벡터 명령은 add, sub, mul, accum, recip_sqrt, recip, exp를 포함할 수 있다. 따라서 벡터 명령은 하이레벨 연산(예를 들어, 레이어 정규화 연산 및 소프트맥스 연산)을 효과적으로 구현할 수 있다.

레이어 정규화 연산은 아래와 같은 수학식 1을 포함할 수 있고, 여기서 μ와 σ는 평균 및 표준 편차이고, γ 및

는 각각 가중치 및 편향 벡터이다.

평균을 계산하기 위해 accum 및 mul 명령이 필요하고, 표준 편차를 계산하기 위해 recip_sqrt 명령이 추가로 필요하다. 그 후, 수학식 1은 sub, mul 및 add 명령에 의해 수행될 수 있다. 로드 명령을 통해 레지스터 파일로부터 매개변수를 불러올 수 있다.

소프트맥스 연산은 아래와 같은 수학식 2를 포함할 수 있다. 여기서 j는 행 요소의 수를 나타낸다.

수학식 2는 exp, add, accum과 같은 기본 벡터 명령으로 수행될 수 있다. 합산은 레이어 정규화 연산에서 평균을 계산하는 것과 유사할 수 있다. 나누기는 recip 및 mul 명령으로 대체될 수 있다.

다중 FPGA 가속 시스템(300)은 GPT 언어 모델의 추론에서 메모리 병목 현상을 해결하기 위해 모델 매개변수를 반정밀도 부동 소수점(half-precision floating point; 16-bit)에서 더 작은 8-bit로 이루어진 미니플로트(minifloat)로 양자화할 수 있다. 이러한 양자화 방식은 HBM과의 데이터 전송을 2배로 증가시켜 주기당 계산 횟수를 2배로 늘릴 수 있다. 8-bit 미니플로트 데이터는 1-bit 부호(sign), 4-bit 지수(exponent) 및 3-bit 가수(mantissa)를 포함할 수 있으며, 이는 GPT 언어 모델의 추론 시 필요한 범위에 따라 결정할 수 있다. NLP 모델에는 큰 동적 범위를 필요로 하는 레이어 정규화와 같은 프로세스가 있기 때문에, 다중 FPGA 가속 시스템(300)에서 고정 소수점(fixed point)을 더 높은 정밀도로 사용하는 것을 고려하지 않는다. 높은 압축에서 발생하는 상당한 정확도 손실 때문에, 다중 FPGA 가속 시스템(300)에서 더 높은 양자화 비율을 가진 정수 양자화(integer quantization)를 고려하지 않는다.

두 배의 계산을 제공하는 두 배의 로직 수에서도 계산상의 병목 현상이 발생하지 않기 때문에, 다중 FPGA 가속 시스템(300)의 컴퓨트 코어 내에서 값을 표준 반정밀도 부동 소수점(standard half-precision floating point)으로 역양자화(dequantize)할 수 있다. 이러한 구성에 의해, 16-bit 부동 소수점 처리 장치와 온칩 메모리는 버림이나 반올림을 방지하기 때문에 정확도가 더 떨어지는 것을 방지할 수 있다.

도 4는 본 개시의 일 실시예에 따른 컴퓨트 코어(400)의 상세 구조를 나타내는 도면이다. 트랜스포머 기반 언어 서비스 가속화 장치는 다중 FPGA 가속 시스템 내의 복수의 FPGA 중 하나이고, 하나의 FPGA는 2개의 컴퓨트 코어(400)를 포함할 수 있다. 도시된 바와 같이, 컴퓨트 코어(400)는 행렬 처리 유닛(Matrix Processing Unit; MPU)(410), 벡터 처리 유닛(Vector Processing Unit; VPU)(420), 제어 유닛(control unit)(430), DMA(440), 라우터(450) 및 레지스터 파일 매니저(register file manager)(460)를 포함할 수 있다. 도 4에서 별도 표기가 있는 선을 제외하고, 실선은 데이터 흐름을 나타내고, 점선을 컨트롤을 의미한다.

제어 유닛(430)은 컴퓨트 코어(400) 내의 구성 요소들의 동작을 제어할 수 있다. 컴퓨트 코어(400)는 인공 신경망 모델의 종단 간 가속을 위해 필요한 다양한 수학적 연산을 수행하는 행렬 처리 유닛(410) 및 벡터 처리 유닛(420)을 포함할 수 있다. 도시된 바와 같이, 행렬 처리 유닛(410)과 벡터 처리 유닛(420)이 분리되어 각각 제어 유닛(430)의 제어에 따라 연산을 수행함으로써, 행렬 연산과 벡터 연산의 특징이 달라서 생기는 문제를 해결할 수 있다. 예를 들어, GPU에서 행렬 연산은 빠른데 벡터 연산은 느려 GPT 언어 모델의 벡터 연산과 관련된 레이어(Residual, LayerNorm)에서 일어나는 병목 현상을 행렬 처리 유닛(410)과 벡터 처리 유닛(420)을 분리하여 해결할 수 있다.

행렬 처리 유닛(410)은 행렬 기능 유닛(Matrix Function Unit; MFU)(412) 및 제1 특수 기능 유닛(Special Function Unit; SFU)(414)을 포함할 수 있다. 행렬 처리 유닛(410)은 제1 데이터 패스를 구성할 수 있다. 행렬 기능 유닛(412)은 레지스터 파일 매니저(460)의 출력을 수신하여 행렬-벡터 곱을 연산하도록 구성될 수 있다.

제1 특수 기능 유닛(414)은 행렬 기능 유닛(412)과 연결될 수 있다. 일 실시예에서, 제1 특수 기능 유닛(414)은 행렬 기능 유닛(412)의 출력을 수신하여 인공 신경망에서의 비선형 함수를 처리할 수 있다. 구체적으로, 제1 특수 기능 유닛(414)은 행렬 명령에서 요구되는 행렬-벡터 곱 이후의 연산을 수행할 수 있다. 예를 들어, 제1 특수 기능 유닛(414)은 GELU(Gaussian Error Linear Unit)와 같은 활성화 연산을 처리하도록 구성될 수 있다.

벡터 처리 유닛(420)은 벡터 기능 유닛(Vector Function Unit; VFU)(422) 및 제2 특수 기능 유닛(SFU)(424)을 포함할 수 있다. 벡터 처리 유닛(420)은 제1 데이터 패스를 구성할 수 있다. 행렬 처리 유닛(410)의 제1 데이터 패스와 벡터 처리 유닛(420)의 제2 데이터 패스는 서로 상이하고, 병렬적으로 처리될 수 있다. 벡터 기능 유닛(422)은 레지스터 파일 매니저(460)의 출력을 수신하여 벡터 연산을 수행할 수 있다.

제2 특수 기능 유닛(424)은 벡터 기능 유닛(422)과 연결될 수 있다. 일 실시예에서, 제2 특수 기능 유닛(424)은 벡터 기능 유닛(422)의 출력을 수신하여, 인공 신경망에서의 비선형 함수를 처리할 수 있다. 구체적으로, 제2 특수 기능 유닛(424)은 벡터 명령에서 요구되는 벡터 연산 이후의 연산을 수행할 수 있다.

행렬 처리 유닛(410)과 벡터 처리 유닛(420)은 GPT 언어 모델에 대한 병렬 컴퓨팅 및 하드웨어 리소스를 완전히 활용할 수 있다. 또한, 행렬 기능 유닛(412) 및 벡터 기능 유닛(422)은 최대 처리량을 위해 깊고 다양한 파이프라인을 포함할 수 있고, 각 하위 계산에서 바이패스를 활용하여 짧은 대기 시간에 명령을 비동기적으로 실행할 수 있다.

제어 유닛(430)은 행렬 처리 유닛(410), 벡터 처리 유닛(420), DMA(440), 라우터(450) 및 레지스터 파일 매니저(460) 각각의 상태를 추적하고 실행할 모듈을 조정하여, 전체 데이터 흐름을 제어하는 *?*로직을 포함할 수 있다. 도시된 바와 같이, 제어 유닛(430)은 컨트롤러(controller)(432), 명령 버퍼 (instruction buffer)(434), 스케줄러(scheduler)(436) 및 스코어보드(score board)(438)를 포함할 수 있다.

컨트롤러(432)는 AXI(Advanced eXtensible Interface)-Lite 프로토콜을 통해 호스트 CPU로부터 시작 신호와 시스템 구성 정보를 수신하고 디코딩하여 스케줄러(436)로 전달할 수 있다. 여기서, 시스템 구성 정보는 코어 ID, 다중 FPGA 가속 시스템 내의 컴퓨트 코어의 수, 시스템을 실행하는데 필요한 디코더 레이어와 토큰의 수를 포함할 수 있다. 이러한 매개변수는 각 코어의 동작을 결정할 수 있다. 코어 ID와 코어 수는 모델 가중치를 적용할 특정 코어와 수신 및 전송할 피어 장치를 지정하는데 이용될 수 있다. 디코더 레이어의 수에 따라 단일 토큰 처리가 완료되는 시점이 결정될 수 있고, 입출력 토큰의 수에 따라 전체 서비스가 완료되는 시점이 결정될 수 있다.

컨트롤러(432)는 주어진 코어가 처리하고 있는 현재 레이어 번호와 토큰 번호를 추적할 수 있다. 각 레이어에 대해 HBM의 다른 부분에 액세스해야 하므로 레이어 번호는 DMA(440)가 액세스해야 하는 주소를 지정할 수 있다. 토큰 번호는 특히 MaskedMM 명령이 실행되는 동안 마스킹할 위치를 파악하는데 사용될 수 있다. 또한, 컨트롤러(432)는 전체 GPT 언어 모델 작업이 완료되면 완료 신호를 호스트 CPU로 다시 반환할 수 있다.

명령 버퍼(434)는 컨트롤러(432) 및/또는 호스트 CPU로부터 명령을 수신할 수 있다. 또한, 명령 버퍼(434)는 명령을 스케줄러(436)로 전달할 수 있다.

스케줄러(436)는 컨트롤러(432)에서 디코딩된 시스템 구성 정보를 수신하고 명령 버퍼(434)로부터 명령을 수신할 수 있다. 스케줄러(436)는 행렬 처리 유닛(410), 벡터 처리 유닛(420), DMA(440), 라우터(450) 및 레지스터 파일 매니저(460)의 상태를 확인하여 각 명령에 따라 명령을 실행할지 대기할지 결정할 수 있다. 스케줄러(436)는 실행 중인 명령과의 마지막 종속성 검사를 위해 결정된 명령을 스코어보드(438)로 전송할 수 있다.

레지스터 파일 매니저(460) 내의 레지스터 파일은 체이닝 방식(chaining method)을 기반으로 하므로, 스코어보드(438)는 일련의 명령으로 인한 데이터 해저드(data hazard)를 방지하기 위해 출발지 및 목적지 주소를 모니터링할 수 있다. 스코어보드(438)는 RAM을 사용하여 주소 공간을 표시할 수 있다. 또한, 스코어보드(438)는 현재 명령의 주소를 실행 중일 때는 stale 비트로 표시하고, 라이트백(writeback)에서는 valid 비트로 표시할 수 있다. 출발지와 목적지 주소가 겹치거나 다른 위험이 발생하면, 스코어보드(438)는 다음 명령을 현재 계산이 끝날 때까지 지연시킬 수 있다. 따라서 스코어보드(438)를 통과한 명령은 결국 실행된다.

DMA(440)는 고대역폭 메모리(High Bandwidth Memory) 및 DDR 메모리로부터 데이터를 읽고 쓰도록 구성될 수 있다. DMA(440)는 읽기 및 쓰기 인터페이스를 포함할 수 있고, 고대역폭으로 전송되는 데이터를 배포하는데 중요한 역할을 한다. 도시된 바와 같이, DMA(440)는 임베드 버퍼(embed buffer) 유닛, 로드 버퍼(load buffer) 유닛, 가중치 버퍼(weight buffer) 유닛, 역양자화(dequantizer) 유닛, 편향 버퍼(bias buffer) 유닛, 전치(transpose) 유닛, 아비터(arbiter) 유닛 및 저장 버퍼(store buffer) 유닛을 포함할 수 있다. 대역폭을 최대화하기 위해 HBM에서 데이터를 읽는 DMA(440)의 읽기 인터페이스는 컴퓨트 코어당 모든 16개 HBM 채널에 연결될 수 있다. 각 채널의 최대 단일 채널 데이터 비트폭은 256-bit이므로 DMA(440)는 한 번에 16 Х 256 bit를 읽을 수 있다.

DMA(440)는 로드 버퍼 유닛을 이용하여 재사용을 위해 레지스터 파일 매니저(460) 내의 레지스터 파일로 전송되는 입력을 읽을 수 있다. 가중치와 편향은 단일 배치로 인해 행렬 곱셈에서 재사용할 수 없으므로, DMA(440)는 가중치 버퍼 유닛 및 편향 버퍼 유닛을 거쳐 사전 로드된 입력이 있는 처리 장치에서 가중치와 편향을 직접 계산할 수 있다. 특히 가중치는 HBM에서 8-bit 미니플로트(minifoat)로 가져오기 때문에 역양자화 유닛은 가중치를 다시 16-bit 부동 소수점으로 변환할 수 있다. 읽기 인터페이스도 DDR에 연결되어 토큰 임베딩 및 LM 헤드를 위한 내장 버퍼를 통해 WTE 및 WPE에서 토큰을 읽을 수 있다. 이러한 토큰은 가중치에 비해 작기 때문에 하나의 DDR 채널이 데이터 전송에 사용될 수 있다.

DMA(440)의 쓰기 인터페이스는 저장 버퍼 유닛 내의 Key, Value 및 생성된 토큰을 HBM에 기록할 수 있다. 이 프로세스는 드물게 발생하므로 4개의 HBM 채널만 연결될 수 있다. 더 적은 수의 쓰기 채널을 사용하면 성능 저하 없이 하드웨어 오버헤드를 줄일 수 있다. 또한 데이터 흐름에서 출력 값이 기록될 때 출력 값이 전치되어야 하므로 DMA(440)는 버퍼 유닛을 포함할 수 있다. 전치는 채널 비트폭보다 작은 차원에서 발생해야 하므로, AXI 쓰기 스트로브(strobe)는 채널에 데이터 바이트를 쓰는데 사용될 수 있다.

라우터(450)는 다른 가속화 장치 및 동일 가속화 장치 내의 다른 컴퓨트 코어와 통신하기 위해 다중 FPGA 네트워크를 활성화할 수 있다. 다중 FPGA 가속 시스템 내의 각 컴퓨트 코어(400)는 라우터(450)를 사용하여 레지스터 파일의 데이터를 다중 FPGA 가속 시스템 내의 다른 FPGA 클러스터 및 링 네트워크의 다른 가속화 장치(즉, FPGA)와 동기화할 수 있다. 또한, 라우터(450)는 송신 버퍼(TX buffer) 유닛, 수신 버퍼(RX buffer) 유닛 및 아비터 유닛을 포함할 수 있다.

레지스터 파일 매니저(460)는 DMA(440) 및 라우터(450)를 통해 데이터를 수신하고, 수신된 데이터에 기초하여 행렬 처리 유닛(410) 및 벡터 처리 유닛(420)을 위한 명령을 생성하도록 구성될 수 있다. 레지스터 파일 매니저(460)는 행렬 처리 유닛(410) 및 벡터 처리 유닛(420)에서의 계산 전후에 다수의 16-bit 부동 소수점(FP16) 데이터를 저장하기 위한 온칩 메모리 구조 또는 레지스터 파일을 포함할 수 있다. 레지스터 파일 매니저(460)는 벡터 레지스터 파일 및 스칼라 레지스터 파일을 포함할 수 있다. 레지스터 파일은 DMA(440)를 통해 메모리 인터페이스와 통신하고 라우터(450)를 통해 네트워크와 통신하여 조직화된 방식으로 호스트 CPU 및 피어 가속화 장치에서 데이터를 읽고 쓸 수 있다.

레지스터 파일 매니저(460)에는 행렬 처리 유닛(410) 및 벡터 처리 유닛(420)을 위한 명령을 생성 및 수집하고, 명령을 기반으로 액세스할 레지스터 파일 데이터를 결정하는 행렬 피연산자 콜렉터(matrix operand collector) 및 벡터 피연산자 콜렉터(vector operand collector)를 포함할 수 있다.

벡터 레지스터 파일 및 스칼라 레지스터 파일은 GPT 언어 모델의 계산에 필요한 가중치 및 중간 결과의 일부를 저장할 수 있다. 온칩 메모리 용량은 제한되어 있기 때문에 레지스터 파일 매니저(460)는 재사용을 최대화하는 데이터 부분만 레지스터 파일에 저장할 수 있다.

벡터 레지스터 파일 및 스칼라 레지스터 파일은 각각 2 Х 64 Х 16 bit 및 2 Х 16 bit의 비트폭을 포함할 수 있다. 벡터 레지스터 파일 및 스칼라 레지스터 파일은 2개의 뱅크와 2,048의 깊이(depth)를 포함할 수 있다. 각 레지스터 파일에서 2개의 뱅크가 동시에 활성화되어 사이클당 행렬 처리 유닛(410) 및 벡터 처리 유닛(420)으로 2개의 데이터 세트를 읽을 수 있다. 하나의 명령마다 2개의 소스가 필요하기 때문에 최대 처리량을 위해서는 2개의 데이터 세트를 보낼 수 있다. 깊이는 WTE의 전치로 행렬 곱셈을 처리한 후 LM 헤드에서 발생하는 GPT 언어 모델의 프로세스가 수행하는 중에 임의의 지점에서 레지스터 파일이 보유해야 하는 최대 데이터 수를 기반으로 결정될 수 있다.

행렬 피연산자 콜렉터는 런타임 동안 행렬 명령을 생성할 수 있고, 제어 유닛(430)의 스코어보드(438)에서 준비 신호가 제공될 때까지 이러한 명령을 유지할 수 있다. 명령의 런타임 생성은 호스트 CPU에서 전달되는 명령의 양을 줄일 수 있다. 행렬 피연산자 콜렉터는 입력 벡터, 가중치 행렬 및 편향 벡터와 같은 명령 및 피연산자의 실행을 위해, 명령 및 피연산자를 행렬 처리 유닛(410)으로 전달할 수 있다.

행렬 피연산자 콜렉터는 DMA(440)의 가중치 버퍼 유닛과 편향 버퍼 유닛에서 각각 가중치와 편향을 가져오는 동안 벡터 레지스터 파일에서 단일 입력 벡터를 읽을 수 있다. 또한, 타일링 순서를 계산하고 해당 입력과 가중치를 행렬 처리 유닛(410)에 할당할 수 있다. 벡터 레인(vector lane)에는 동일한 입력 벡터가 분포되고 각 벡터 레인에는 서로 다른 가중치와 편향이 분포될 수 있다. 그리고 행렬 피연산자 콜렉터는 모든 피연산자에 경량 이중 버퍼(lightweight double buffer)를 사용하여 대기 시간을 줄이고 높은 처리량을 얻을 수 있다.

벡터 피연산자 콜렉터는 행렬 피연산자 콜렉터와 유사하게 신호를 생성하고 벡터 처리 유닛(420)을 제어하여 벡터 명령을 실행할 수 있다. 벡터 처리 유닛(420)에는 다양한 피연산자 유형이 필요하므로 벡터 피연산자 콜렉터는 벡터 레지스터 파일 및 스칼라 레지스터 파일을 모두 읽을 수 있다. 벡터 피연산자 콜렉터는 DMA(440) 및 라우터(450)의 수신 버퍼(RX buffer) 유닛에 액세스하여 DMA 또는 네트워크 명령(예를 들어, 로드, 저장 및 동기화 명령)을 수행할 수 있다. 또한 벡터 피연산자 콜렉터는 이중 버퍼를 포함할 수 있고, 런타임 중에 벡터 관련 명령을 생성하여 대기 시간을 줄이고 높은 처리량을 얻을 수 있다.

도 5는 다중 FPGA 가속 시스템이 포함하는 타일링 체계를 나타내는 도면이다. 도시된 것과 같이, 레지스터 파일로부터의 벡터(510)와 HBM으로부터의 행렬(520)을 곱하여 출력 벡터(530)를 생성할 수 있다. 이 과정에서, 본 개시의 다중 FPGA 가속 시스템은 인공 신경망 모델의 요약 단계에서 합리적인 성능을 유지하면서 메모리 바운드 생성 단계에서 계산 수와 처리량을 최대화하기 위해 도시된 최적화된 타일링 체계를 사용할 수 있다.

인공 신경망 모델의 생성 단계에서 단일 토큰을 처리하려면 행렬 곱셈을 위해 HBM에서 많은 양의 가중치를 읽어야하므로, 가중치는 HBM에서 타일링되고 DMA는 16Х256 bit의 최대 읽기 대역폭에서 타일링된 가중치를 읽을 수 있다. 이와 같은 차원은 d Х l Х BW_data 가중치 비트로 재배열될 수 있다. 여기서 d는 타일의 차원, l은 레인(lane)의 수, BW_data는 데이터의 비트폭을 지칭할 수 있다. 가중치의 비트폭은 8-bit이므로 DMA에 512개의 가중치를 로드할 수 있다. 다중 FPGA 가속 시스템의 타일링 체계는 최적의 d, l 및 행렬-벡터 계산의 방향을 결정할 수 있다.

d가 크면 d 차원의 큰 입력 벡터를 레지스터 파일에서 로드해야 하므로 큰 레지스터 파일 대역폭이 필요할 수 있다. 레지스터 파일 포트의 비트 폭은 제한되어 있기 때문에 d가 이 비트 폭보다 크면 입력 벡터를 로드하는데 많은 사이클이 필요하고 지연이 발생할 수 있다. 또한, d가 작으면 계산 횟수를 유지하기 위해 레인 수가 이와 비례하여 증가할 수 있다. 추가로, d가 작으면 출력 벡터 차원이 증가하고 중간 데이터(즉, 부분합)의 수가 증가할 수 있다. 이 경우, 중간 데이터를 저장하기 위해 버퍼의 양이 증가하지만 그 양은 미미할 수 있다. 따라서 하드웨어 자원과 모델 크기를 고려하여 d = 64로 결정할 수 있다. 최대 읽기 대역폭을 활용하기 위해 l = 8로 결정될 수 있다.

DMA는 지그재그 방향(540)으로 512개(d*l=512)의 가중치를 로드할 수 있다. 수평 방향은 입력 재사용을 최대화하지만 길이 d의 입력이 가중치 행렬의 전체 너비에 걸쳐 반복될 때, 계산되는 부분 합을 저장하기 위해 상당한 양의 버퍼가 필요할 수 있다. 버퍼는 온칩 메모리로 구성되며, 코어의 딥 파이프라이닝(deep pipelining) 및 기타 버퍼 요구사항으로 인해 온칩 메모리가 부족하므로 DMA가 수평 방향으로 가중치를 로드하는 것은 불가능할 수 있다.

DMA가 수직 방향으로 가중치를 로드하는 것은 버퍼 수를 1로 줄이지만 입력을 재사용하지 못할 수 있다. 입력을 재사용할 수 없으면 레지스터 파일 액세스 양이 증가하여 처리량이 감소할 수 있다. 따라서 도시된 바와 같이, DMA가 지그재그 방향(540)으로 가중치를 로드하는 타일링 체계는 하드웨어 리소스와 데이터 재사용의 균형을 유지하여 최대 성능을 발휘할 수 있다.

도 6은 다중 FPGA 가속 시스템 내의 각 가속화 장치(즉, FPGA)의 경량 라우터(lightweight router)(600)를 나타내는 도면이다. 여기서 라우터(600)는 도 4에 도시된 컴퓨트 코어(400)의 라우터(450)의 상세 구성을 나타낼 수 있다. 예를 들어, 라우터(600)는 64 Х 16 bit 데이터를 송수신하도록 구성될 수 있다. 구체적으로, 라우터(600)는 처리 유닛(예를 들어, 도 4의 410, 420)과 출력 벡터를 송수신할 수 있다. 일 실시예에서, 라우터(600)는 동일 가속화 장치(즉, FPGA) 내의 다른 컴퓨트 코어(intra-device)와 통신하고/통신하거나 다른 가속화 장치 내의 컴퓨트 코어(inter-device)와 통신(P2P 통신)할 수 있다.

라우터(600)에는 네트워크에 연결할 FPGA(또는 가속화 장치)의 컴퓨트 코어를 나타내는 컨트롤 유닛(610), 코어 ID를 사용하여 모든 컴퓨트 코어에서 데이터 주소를 동일하게 구성하는 재정렬(reorder) 유닛(620) 및 송신과 수신된 벡터를 보관하는 버퍼를 포함하는 로컬 인터페이스 유닛(630)을 포함할 수 있다. 또한, 라우터(600)는 왼쪽 인터페이스 유닛(650)에서 오른쪽 인터페이스 유닛(660)으로 및 그 반대 방향으로의 통신을 중재할 수 있는 아비터 유닛(640)을 포함할 수 있다. 아비터 유닛(640)은 로컬 인터페이스 유닛(630)으로부터 신호를 수신하여 통신을 중재할 수 있고, 재정렬 유닛(620)에 신호를 송신할 수 있다. 따라서 각 컴퓨트 코어는 라우터(600)를 사용하여 레지스터 파일의 데이터를 FPGA 내의 다른 컴퓨트 코어 및 링 네트워크의 다른 FPGA와 동기화할 수 있다.

모델 병렬 처리로 인해 각 컴퓨트 코어가 출력 행렬의 행 일부만 계산하고 레이어 정규화 및 레지듀얼과 같은 후속 작업이 전체 행을 필요로 할 수 있다. 따라서 셀프 어텐션 및 피드포워드 네트워크에서 Conv1D 명령을 실행한 후 동기화가 필요할 수 있다.

네트워크의 P2P 통신은 커널 간 스트리밍(K2K)과 Aurora 64b/66b IP의 두 가지 방식을 사용하여 활성화될 수 있다. K2K는 AXI-Stream 인터페이스를 사용하여 두 컴퓨트 코어 사이의 스트리밍을 수행할 수 있고, 통신 오버헤드는 무시할 수 있는 정도 일 수 있다. Aurora IP는 두 FPGA 사이의 고속 직렬 통신을 위한 경량 링크 레이어 프로토콜을 구현할 수 있다. 프로토콜은 64b/66b 인코딩을 사용하므로 전송 오버헤드가 3%에 불과하여 리소스 비용이 저렴하다. 따라서, 라우터(600)는 지원되는 FPGA 사이의 가벼운 통신 인터페이스를 제공하여 데이터 통신 대기 시간을 줄일 수 있다.

도 7은 다중 FPGA 가속 시스템 내의 각 가속화 장치의 행렬 처리 유닛(700)을 나타내는 도면이다. 행렬 처리 유닛(700)은 인공 신경망 모델(예를 들어, GPT 모델)의 종단 간 가속에 필요한 다양한 수학적 연산을 높은 하드웨어 효율성으로 실행할 수 있다.

도시된 것과 같이, 행렬 처리 유닛(700)은 행렬 기능 유닛(710) 및 제1 특수 기능 유닛(720)을 포함할 수 있다. 행렬 기능 유닛(710)은 입력으로 벡터들을 수신하고 병렬적으로 처리할 수 있다. 제1 특수 기능 유닛(720)은 행렬 기능 유닛(710)의 출력을 수신하여 인공 신경망 모델에서의 비선형 함수를 처리할 수 있다.

행렬 기능 유닛(710)은 행렬 명령을 실행할 수 있다. 행렬 기능 유닛(710)의 주요 워크로드는 행렬-벡터 곱셈이다. 행렬 기능 유닛(710)은 입력으로 d 차원(예를 들어, 64 차원)의 벡터를 수신하고, 행렬-벡터 곱셈(multiplication)을 병렬적으로 처리하도록 구성된 복수의 트리 기반 MAC(multiplier-accumulators)(712)을 포함할 수 있다. 또한 행렬 기능 유닛(710)은 l개의 레인(예를 들어, 8개의 레인)을 포함할 수 있다. 이는 l개의 트리 기반 MAC 하드웨어가 병렬로 연결되어 있음을 의미한다. 복수의 트리 기반 MAC 각각에 언어 서비스와 연관된 인공 신경망의 가중치 행렬의 서로 다른 열에서의 승수(multiplicand)가 전달될 수 있다.

행렬 기능 유닛(710)의 입력은 레인 전체에서 일정하게 유지되지만, 가중치 행렬의 서로 다른 열에서의 l개의 서로 다른 승수(multiplicand)가 각 레인으로 전달될 수 있다. 즉, 행렬 기능 유닛(710)에서 dХl 행렬-벡터 곱셈이 병렬로 수행되며 이는 도 5에서 전술한 최적화된 타일링 체계와 동일하다.

그런 다음 각 레인의 곱은 부분합을 계산하기 위해 깊이가 log2(d)의 병렬 가산기 트리(parallel adder tree)로 전달될 수 있다. 이 과정에서 깊은 파이프라이닝으로 인해 새로운 부분합이 매 사이클마다 계산될 수 있다. 행렬 기능 유닛(710)의 버퍼(714)는 부분합을 저장할 수 있고, 새로운 부분합을 로드 및 추가하며 총 합이 계산될 때까지 연산을 반복할 수 있다.

FP16 곱셈기와 가산기는 각각 6 사이클과 11 사이클이 걸리는 DSP(Digital Signal Processing) 슬라이스에 매핑될 수 있다. 타일은 최대 MAC(712) 하드웨어 수, 즉 최대 DSP 수를 사용하도록 최적화될 수 있다. 따라서, 트리 기반 MAC(712)은 총 2 Х d Х l - 1 개의 DSP를 사용할 수 있다. FP16 곱셈기는 d Х l 개의 DSP를 사용할 수 있고, FP16 가산기는 d Х l - 1 개의 DSP를 사용할 수 있다.

행렬 기능 유닛(710)은 스칼라를 추가하기 위해 l개 DSP를 추가로 사용할 수 있다. 예를 들어, d와 l은 각각 64와 8로 설정될 수 있다. GPT 언어 모델은 메모리에 종속되기 때문에, 사용되는 DSP의 수가 증가하는 경우 성능이 선형적으로 증가할 수 있다.

제1 특수 기능 유닛(720)은 GPT 언어 모델의 비선형 함수를 처리할 수 있다. 행렬 기능 유닛(710)의 출력은 제1 특수 기능 유닛(720)으로 전달될 수 있다. 또한, 제1 특수 기능 유닛(720)은 최적의 하드웨어 활용을 위해 DSP, 조합 논리(combinational logic) 및 룩업 테이블(lookup table) 방식의 조합을 사용할 수 있다.

제1 특수 기능 유닛(720)은 행렬 명령에 필요한 행렬-벡터 곱셈 이후의 연산을 수행할 수 있다. 예를 들어, 제1 특수 기능 유닛(414)은 GELU(Gaussian Error Linear Unit)와 같은 활성화 연산을 처리하도록 구성될 수 있다. 도시된 것과 같이, 제1 특수 기능 유닛(720)은 GELU 유닛(722), 마스킹 유닛(724), 벡터라이저(vectorizer) 유닛(728) 및 리듀스 맥스 유닛(730)을 포함하고, 바이패스 경로(726)를 포함할 수 있다.

마스킹 유닛(724)은 현재 계산의 타일 정보를 사용하여 출력 행렬의 대각선 위 요소들이 -∞에 가장 가까운 표현 가능한 값으로 마스킹된 하삼각 행렬(lower triangular matrix)을 생성할 수 있다. 마스킹 된 값은 결국 소프트맥스 연산 이후에 0이 된다. 그 결과를 상수인 어텐션 헤드의 수로 나누는데 필요한 나눗셈의 경우 멀티플라이어(multiplier)를 사용할 수 있다.

GELU 유닛(722)은 수학식 3과 같은 GELU 활성화 함수를 지원할 수 있다. 이를 위해, 룩업 테이블 방식이 선형 근사법(linear approximation)과 함께 사용될 수 있다.

일 실시예에서, 반정밀도 부동 소수점에서 평균 제곱 오차 0을 달성하는 2,048개의 입력을 샘플링하고, [-8, 8]의 범위를 설정할 수 있다. 이는 이 범위에서 기울기가 양쪽에서 수렴하기 때문이다. 선형 근사법은 구간적 선형 특성을 갖는 GELU 활성화 함수에 사용하기에 충분하고, GELU 활성화 함수에서 복잡한 수학 연산을 지원하는 하드웨어 오버헤드를 줄일 수 있다.

제1 특수 기능 유닛(720)은 바이패스 경로(726)를 사용함으로써, 데이터 흐름 내에서 특정 하드웨어를 필요로 하지 않는 작업이 사이클 패널티 없이 하드웨어를 건너 뛰도록 할 수 있다. 구체적으로, 제1 특수 기능 유닛(720)은 입력이 벡터라이저 유닛(728)의 입력 포트로 직접 연결되는 바이패스 경로(726)를 포함할 수 있다. 바이패스 경로(726)를 사용함으로써, 제1 특수 기능 유닛(720)의 입력을 GELU 유닛(722) 및/또는 마스킹 유닛(724)을 거치지 않고 벡터라이저 유닛(728)에 사이클 패널티 없이 바로 전달할 수 있다.

벡터라이저 유닛(728)은 비대칭 버퍼(asymmetric buffer)를 사용하여 타일링과 일치하도록 입력값을 연결할 수 있다. 벡터라이저 유닛(728)은 처리량을 높게 유지하고 필요한 하드웨어 리소스 수를 줄이기 위해 GELU 유닛(722)과 마스킹 유닛(724) 뒤에 위치한다.

리듀스 맥스 유닛(730)은 주어진 벡터의 최대값 또는 argmax 값을 찾도록 구성될 수 있다. 또한, 리듀스 맥스 유닛(730)은 비교기(comparator)의 병렬 트리를 이용하여 구현될 수 있다.

도 8은 다중 FPGA 가속 시스템 내의 각 가속화 장치의 벡터 처리 유닛(800)을 나타내는 도면이다. 벡터 처리 유닛(800)은 인공 신경망 모델(예를 들어, GPT 모델)의 종단 간 가속에 필요한 다양한 수학적 연산을 높은 하드웨어 효율성으로 실행할 수 있다.

도시된 것과 같이, 벡터 처리 유닛(800)은 벡터 기능 유닛(810) 및 제2 특수 기능 유닛(820)을 포함할 수 있다. 벡터 기능 유닛(810)은 레지스터 파일 매니저의 출력을 수신하여 벡터 연산을 수행할 수 있다. 제2 특수 기능 유닛(820)은 벡터 기능 유닛(810)과 연결될 수 있다. 구체적으로, 제2 특수 기능 유닛(820)은 벡터 명령에서 요구되는 벡터 연산 이후의 비선형 연산을 수행할 수 있다.

벡터 기능 유닛(810)은 벡터 명령을 실행할 수 있다. 벡터 기능 유닛(810)은 요소별(element-wise) 벡터 연산을 지원하는 부동 소수점 산술 논리 유닛(Arithmetic Logic Unit; ALU)일 수 있다. 구체적으로, 벡터 기능 유닛(810)은 d 차원의 두 벡터의 덧셈, 뺄셈 및 곱셈을 연산할 수 있다.

행렬 기능 유닛(MFU)과 유사하게, DSP는 모든 벡터 기능 유닛(810)의 작업에 사용될 수 있다. 벡터 기능 유닛(810)의 덧셈기(adder), 뺄셈기(subtractor), 곱셈기(multiplier) 및 지수기(exponential)는 각각 11 사이클, 11 사이클, 6 사이클 및 4 사이클을 사용할 수 있다. 지수기는 2개의 DSP를 사용하고 덧셈기, 뺄셈기 및 곱셈기는 각각 1개의 DSP를 사용할 수 있다. 모든 명령은 둘 이상의 ALU 작업을 요구하지 않으므로, 모든 명령은 동기화 없이 가능한 가장 짧은 사이클로 완료될 수 있다.

벡터 기능 유닛(810)은 불필요한 계산 사이클을 줄이기 위해 바이패스 경로(812)를 포함할 수 있다. 예를 들어, 로드 및 저장 명령은 계산이 필요하지 않으므로, 데이터가 실행 단계를 건너뛸 수 있다. 벡터 기능 유닛(810)은 입력 포트 및 출력 포트를 직접 연결하는 바이패스 경로(812)를 포함하므로, 로드 및 저장 명령은 한 사이클만 소요된다. 이러한 비동기식 데이터 흐름에서 발생하는 데이터 해저드는 스코어보드(예를 들어, 도 4의 428)에서 처리될 수 있다.

제2 특수 기능 유닛(820)은 GPT 언어 모델의 비선형 함수를 처리할 수 있다. 벡터 기능 유닛(810)의 출력은 제2 특수 기능 유닛(820)으로 전달될 수 있다. 또한, 제2 특수 기능 유닛(820)은 최적의 하드웨어 활용을 위해 DSP, 조합 논리(combinational logic) 및 룩업 테이블(lookup table) 방식의 조합을 사용할 수 있다.

제2 특수 기능 유닛(820)은 벡터 명령에 필요한 벡터 기능 유닛(810)의 벡터 연산 이후의 연산을 수행할 수 있다. 제2 특수 기능 유닛(820)은 가산기 트리(adder tree) 유닛(822), 누산기(accumulator) 유닛, 역수(reciprocal) 유닛, 승수(multiplier) 유닛, 스칼라 가산기(scalar adder) 유닛, 역제곱근(reciprocal square root) 유닛 및 멀티플렉서 유닛을 포함할 수 있다. 벡터 기능 유닛(810)은 벡터 출력만 필요한 명령을 지원하기 때문에 가산기 트리 유닛(822)은 벡터 기능 유닛(810) 대신 제2 특수 기능 유닛(820)에 배치될 수 있다. 나머지 기능은 부동 소수점 DSP에 의해 제공될 수 있다. 제1 특수 기능 유닛(예를 들어, 도 7의 720)과 유사하게 제2 특수 기능 유닛(820)은 임베딩 크기의 상수 값을 나누기 위해 디바이더(divider) 대신 멀티플라이어를 사용할 수 있다.

제2 특수 기능 유닛(820)은 바이패스 경로(824, 826)를 사용함으로써, 데이터 흐름 내에서 특정 하드웨어를 필요로 하지 않는 작업이 사이클 패널티 없이 하드웨어를 건너 뛰도록 할 수 있다. 예를 들어, 제2 특수 기능 유닛(820)은 입력 포트와 출력 포트를 바로 연결하는 제1 바이패스 경로(824)를 포함할 수 있다. 또한, 제2 특수 기능 유닛(820)은 가산기 트리 유닛의 출력을 역수 유닛과 역제곱근 유닛을 거치지 않고 멀티플레서 유닛으로 바로 전달하기 위한 제2 바이패스 경로(826)를 포함할 수 있다. 즉, 제2 특수 기능 유닛(820)에서 가산기 트리 유닛(822)의 출력이 인접한 역수 유닛 및 역제곱근 유닛의 대기 시간과 일치하는 파이프라인 단계를 거치지 않고, 멀티플렉서 유닛로 직접 전송될 수 있다.

이러한 비동기식 데이터 흐름은 데이터 해저드를 유발할 가능성이 높으므로 스코어보드(예를 들어, 도 4의 428)가 필요하다. 스코어보드는 GPT 언어 모델의 고유 명령 시퀀스에서 다른 데이터 해저드를 처리하기 위해 필요하므로, 바이패스 경로(824, 826)를 지원하기 위해 무시할 수 있는 제어 오버헤드(control overhead)가 추가될 뿐이다. GPT 언어 모델에서의 연산 순서는 행렬 명령과 벡터 명령의 사용을 번갈아 사용하므로 충돌(conflict)이 최소화되며, 이에 따라 GPT의 순차적인 생성 속도를 높이는데 유리할 수 있다.

도 9는 본 개시의 다중 FPGA 가속 시스템을 GPU 어플라이언스와 비교할 때, 다양한 GPT 언어 모델에서의 토큰 생성 처리량 및 속도 향상을 도시한 그래프(900)를 나타내는 도면이다. 제1 그래프(910)는 단일 FPGA 가속 시스템과 1개의 GPU로 구성된 가속 시스템의 성능을 비교한 결과를 나타낸다. 제2 그래프(920)는 이중 FPGA 가속 시스템과 2개의 GPU로 구성된 가속 시스템의 성능을 비교한 결과를 나타낸다. 제3 그래프(930)는 4중 FPGA 가속 시스템과 4개의 GPU로 구성된 가속 시스템의 성능을 비교한 결과를 나타낸다.

제1 그래프(910)에 따르면 단일 FPGA 가속 시스템은 1개의 GPU로 구성된 가속 시스템에 비해 평균 2.22배의 속도 향상이 확인된다. 또한, 제2 그래프(920)에 따르면 이중 FPGA 가속 시스템은 2개의 GPU로 구성된 가속 시스템에 비해 평균 2.95배의 속도 향상이 확인된다. 추가로, 제3 그래프(930)에 따르면, 4중 FPGA 가속 시스템은 4개의 GPU로 구성된 가속 시스템에 비해 평균 3.78배의 속도 향상이 확인된다. 32:256과 같이 입력 토큰에 비해 출력 토큰이 훨씬 더 많은 워크로드의 경우, 4중 FPGA 가속 시스템의 처리량은 4개의 GPU로 구성된 가속 시스템보다 10.03배 더 높다.

다중 FPGA 가속 시스템의 속도 향상은 더 클 수 있으며 이론적으로 더 작은 입력 및 더 큰 출력 크기에 대한 상한선이 없다. 텍스트 생성 워크로드의 경우와 같이 입력 및 출력 길이의 비율이 4:1 미만이라면, 다중 FPGA 가속 시스템은 GPU 어플라이언스보다 성능이 우수하다.

도 10은 본 개시의 다중 FPGA 가속 시스템과 GPU 어플라이언스의 에너지 효율을 비교한 그래프(1000)를 나타낸다. 구체적으로, 4중 FPGA 가속 시스템과 4개의 GPU로 구성된 가속 시스템을 비교할 때, 4중 FPGA 가속 시스템의 에너지 효율이 평균 3.99배 더 우수하다.

도 11은 본 개시의 다중 FPGA 가속 시스템과 GPU 어플라이언스의 확장성을 도시한 그래프(1100)를 나타낸다. 구체적으로, 다중 FPGA 가속 시스템에서 1개의 FPGA에 대해 초당 93.09토큰을 달성하고, 4개의 FPGA에 대해 초당 207.56토큰을 달성한다. 반면에, GPU 어플라이언스는 1개의 GPU에 대해 초당 27.09토큰, 4개의 GPU에 대해 초당 29.14토큰을 달성한다. 즉, 다중 FPGA 가속 시스템에서 FPGA의 성능은 FPGA의 수에 따라 1.5의 비율로 선형적으로 증가한다.

GPU 어플라이언스는 더 많은 동기화로 인해 확장성이 제한된다. 다중 FPGA 가속 시스템에서 모델 병렬 처리, 최적화된 타일링 방식 및 낮은 동기화 오버헤드가 처리 장치(가속화 장치 또는 컴퓨트 코트)의 활용도를 최대화하기 때문에, 더 많은 FPGA(즉, 더 많은 메모리 대역폭)를 사용할수록 모델 매개변수의 더 많은 병렬 계산을 할 수 있다. 반면, GPU는 단일 장치에서 GPT 언어 모델 작업을 위한 하드웨어를 효과적으로 활용하지 못하는 구조를 가지고 있으므로, GPU가 많을수록 활용도가 낮아져 성능이 악화된다. 따라서 다중 FPGA 가속 시스템은 기존 GPU 어플라이언스와 달리 GPT의 증가하는 모델 크기를 효과적으로 처리하도록 확장될 수 있다.

아래의 표 2는 다중 FPGA 가속 시스템과 GPU 어플라이언스 사이의 정확도 비교한 결과를 나타낸다. 다중 FPGA 가속 시스템은 GPU 어플라이언스와 비교하여 CBT-CN(Childrens' Book Common Noun)과 CBT-NE(Children's Book Named Entities) 데이터 세트에서 2.00% 이내의 정확도 손실(accuracy loss)을 달성할 수 있다. 구체적으로, 다중 FPGA 가속 시스템은 GPU 어플라이언스와 비교하여 CBT-CN 데이터 세트에서 1.02%의 정확도 손실을 보이고, CBT-NE 데이터 세트에서 2%의 정확도 손실을 보인다. 또한, 다중 FPGA 가속 시스템은 GPU 어플라이언스와 비교하여 WSC(Winograd Schema Challenge) 데이터 세트에서 2.33% 향상된 정확도를 보인다.

	WSC	CBT-CN	CBT-NE
GPU 어플라이언스	58.02%	87.28%	69.00%
다중 FPGA 가속 시스템	60.35%	86.26%	67.00%
정확도 손실	-2.33%	1.02%	2.00%

언어 서비스가 대부분 텍스트 생성을 기반으로 하기 때문에 GPT에서 제공하는 언어 서비스의 경우, 2% 미만의 정확도 손실이 허용된다. 텍스트 생성은 특정 단어가 아닌 주어진 컨텍스트에 맞는 합리적인 단어 세트를 생성하는 것이므로, 정밀한 정확도는 분류를 위한 인공 신경망만큼 중요한 것은 아니다. 정확도 손실은 질문과 답변과 같은 몇 가지 워크로드에서 중요할 수 있지만, 일반 대중이 사용하는 경우에는 2% 미만의 손실이 허용된다.

아래의 표 3은 다중 FPGA 가속 시스템 및 GPU 어플라이언스의 비용 분석을 나타낸다. 4중 FPGA 가속 시스템은 4개의 GPU로 구성된 가속 시스템 보다 $14,652만큼 더 낮은 초기 비용을 가진다. 전반적인 비용 효율성(cost-effectiveness)을 측정하기 위해 성능(즉, 처리량)과 초기 비용(즉, 소매 가격)이 고려될 수 있다. 여기서, 비용당 성능(performance per cost)을 측정하기 위해 입력 대 출력 토큰 비율이 64:64인 4중 FPGA 가속 시스템과 4개의 GPU로 구성된 가속 시스템을 비교한다. 그 결과, 4중 FPGA 가속 시스템은 4개의 GPU로 구성된 가속 시스템보다 8.21배 더 비용 효율적이다.

	GPU 어플라이언스	다중 FPGA 가속 시스템
CPUs	2 x Intel Xeon Gold 14-Core @2.2 GHz	2 x Intel Xeon Gold 16-Core @2.9 GHz
메모리	384 GB DDR4	512 GB DDR4
저장소(Storage)	12 TB NVMe	4 TB NVMe
가속기	NVIDIA Tesla V100 32 GB HBM2	XILINX Alveo U280 8 GB HBM2
성능	13.01 tokens/sec (x4 GPU)	72.68 tokens/sec (x4 FPGA)
비용	$45,832 ($11,458 per GPU)	$31,180 ($7,795 per FPGA)
비용당 성능	283.86 tokens/sec/million$	2330.98 tokens/sec/million$

본 개시는 트랜스포머 기반 텍스트 생성 모델을 가속화하기 위한 저가형 다중 FPGA 가속 시스템 및 장치를 제공한다. 다중 FPGA 가속 시스템은 데이터센터 레벨에서 높은 처리량과 짧은 대기 시간, 종단 간 가속 및 병렬 연산을 제공할 수 있다. 4중 FPGA 가속 시스템은 기존 4개의 GPU로 구성된 가속 시스템에 비해 성능, 에너지 효율성 및 비용 효율성에서 각각 3.78배, 3.99배 및 8.21배 개선된다.

본 개시의 동작 또는 기법들은 다양한 수단에 의해 구현될 수도 있다. 예를 들어, 이러한 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 조합으로 구현될 수도 있다. 본원의 개시와 연계하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로 구현될 수도 있음을 통상의 기술자들은 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 대체를 명확하게 설명하기 위해, 다양한 예시적인 구성요소들, 블록들, 모듈들, 회로들, 및 단계들이 그들의 기능적 관점에서 일반적으로 위에서 설명되었다. 그러한 기능이 하드웨어로서 구현되는지 또는 소프트웨어로서 구현되는 지의 여부는, 특정 애플리케이션 및 전체 시스템에 부과되는 설계 요구사항들에 따라 달라진다. 통상의 기술자들은 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능을 구현할 수도 있으나, 그러한 구현들은 본 개시의 범위로부터 벗어나게 하는 것으로 해석되어서는 안된다.

하드웨어 구현에서, 기법들을 수행하는데 이용되는 프로세싱 유닛들은, 하나 이상의 ASIC들, DSP들, 디지털 신호 프로세싱 디바이스들(digital signal processing devices; DSPD들), 프로그램가능 논리 디바이스들(programmable logic devices; PLD들), 필드 프로그램가능 게이트 어레이들(field programmable gate arrays; FPGA들), 프로세서들, 제어기들, 마이크로제어기들, 마이크로프로세서들, 전자 디바이스들, 본 개시에 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 이들의 조합 내에서 구현될 수도 있다.

따라서, 본 개시와 연계하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA나 다른 프로그램 가능 논리 디바이스, 이산 게이트나 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본원에 설명된 기능들을 수행하도록 설계된 것들의 임의의 조합으로 구현되거나 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안으로, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한, 컴퓨팅 디바이스들의 조합, 예를 들면, DSP와 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 구성의 조합으로서 구현될 수도 있다.

펌웨어 및/또는 소프트웨어 구현에 있어서, 기법들은 랜덤 액세스 메모리(random access memory; RAM), 판독 전용 메모리(read-only memory; ROM), 비휘발성 RAM(non-volatile random access memory; NVRAM), PROM(programmable read-only memory), EPROM(erasable programmable read-only memory), EEPROM(electrically erasable PROM), 플래시 메모리, 컴팩트 디스크(compact disc; CD), 자기 또는 광학 데이터 스토리지 디바이스 등과 같은 컴퓨터 판독가능 매체 상에 저장된 명령들로서 구현될 수도 있다. 명령들은 하나 이상의 프로세서들에 의해 실행 가능할 수도 있고, 프로세서(들)로 하여금 본 개시에 설명된 기능의 특정 양태들을 수행하게 할 수도 있다.

소프트웨어로 구현되는 경우, 상기 기법들은 하나 이상의 명령들 또는 코드로서 컴퓨터 판독 가능한 매체 상에 저장되거나 또는 컴퓨터 판독 가능한 매체를 통해 전송될 수도 있다. 컴퓨터 판독가능 매체들은 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하여 컴퓨터 저장 매체들 및 통신 매체들 양자를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 매체들일 수도 있다. 비제한적인 예로서, 이러한 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 소망의 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 이송 또는 저장하기 위해 사용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 컴퓨터 판독가능 매체로 적절히 칭해진다.

예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선 (DSL), 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들을 사용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되면, 동축 케이블, 광섬유 케이블, 연선, 디지털 가입자 회선, 또는 적외선, 무선, 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다. 본원에서 사용된 디스크(disk) 와 디스크(disc)는, CD, 레이저 디스크, 광 디스크, DVD(digital versatile disc), 플로피디스크, 및 블루레이 디스크를 포함하며, 여기서 디스크들(disks)은 보통 자기적으로 데이터를 재생하고, 반면 디스크들(discs) 은 레이저를 이용하여 광학적으로 데이터를 재생한다. 위의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다.

소프트웨어 모듈은, RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 이동식 디스크, CD-ROM, 또는 공지된 임의의 다른 형태의 저장 매체 내에 상주할 수도 있다. 예시적인 저장 매체는, 프로세가 저장 매체로부터 정보를 판독하거나 저장 매체에 정보를 기록할 수 있도록, 프로세서에 연결될 수 있다. 대안으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서와 저장 매체는 ASIC 내에 존재할 수도 있다. ASIC은 유저 단말 내에 존재할 수도 있다. 대안으로, 프로세서와 저장 매체는 유저 단말에서 개별 구성요소들로서 존재할 수도 있다.

이상 설명된 실시예들이 하나 이상의 독립형 컴퓨터 시스템에서 현재 개시된 주제의 양태들을 활용하는 것으로 기술되었으나, 본 개시는 이에 한정되지 않고, 네트워크나 분산 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 연계하여 구현될 수도 있다. 또 나아가, 본 개시에서 주제의 양상들은 복수의 프로세싱 칩들이나 장치들에서 구현될 수도 있고, 스토리지는 복수의 장치들에 걸쳐 유사하게 영향을 받게 될 수도 있다. 이러한 장치들은 PC들, 네트워크 서버들, 및 휴대용 장치들을 포함할 수도 있다.

본 명세서에서는 본 개시가 일부 실시예들과 관련하여 설명되었지만, 본 개시의 발명이 속하는 기술분야의 통상의 기술자가 이해할 수 있는 본 개시의 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.

Claims

트랜스포머 기반 언어 서비스 가속화 장치로서,

제1 데이터 패스를 구성하는 행렬 처리 유닛(matrix processing unit); 및

제2 데이터 패스를 구성하는 벡터 처리 유닛(vector processing unit)

을 포함하고,

상기 제1 데이터 패스는 행렬 관련 명령과 연관되고,

상기 제2 데이터 패스는 벡터 관련 명령과 연관되고,

상기 제1 데이터 패스와 상기 제2 데이터 패스는 병렬적으로 처리되는, 가속화 장치.
제1항에 있어서,

상기 행렬 처리 유닛은,

행렬 관련 명령을 처리하는 행렬 기능 유닛(matrix function unit); 및

상기 행렬 기능 유닛과 연결된 제1 특수 기능 유닛(special function unit)

을 포함하는, 가속화 장치.
제2항에 있어서,

상기 행렬 기능 유닛은 입력으로 벡터를 수신하고, 행렬-벡터 곱셈(multiplication)을 병렬적으로 처리하도록 구성된 복수의 트리 기반 MAC(Multiplier-Accumulator)를 포함하고,

상기 복수의 트리 기반 MAC 각각에 상기 언어 서비스와 연관된 인공 신경망의 가중치 행렬의 서로 다른 열에서의 승수(multiplicand)가 전달되는, 가속화 장치.
제2항에 있어서,

상기 행렬 기능 유닛의 출력이 상기 제1 특수 기능 유닛으로 입력되고,

상기 제1 특수 기능 유닛은 상기 언어 서비스와 연관된 인공 신경망의 비선형 함수를 처리하는, 가속화 장치.
제2항에 있어서,

상기 제1 특수 기능 유닛은 활성화(activation) 연산을 처리하는, 가속화 장치.
제2항에 있어서,

상기 제1 특수 기능 유닛은,

하삼각 행렬(lower triangular matrix)을 생성하도록 구성된 마스킹 유닛;

GELU(Gaussian Error Linear Unit) 활성화 함수를 지원하도록 구성된 GELU 유닛;

비대칭 버퍼를 이용하여 입력값을 연결하도록 구성된 벡터라이저(vectorizer) 유닛; 및

벡터의 최대값 또는 argmax 값을 찾도록 구성된 리듀스 맥스(reduce max) 유닛

을 포함하는, 가속화 장치.
제6항에 있어서,

상기 제1 특수 기능 유닛은 입력을 GELU 유닛 및 마스킹 유닛을 거치지 않고, 벡터라이저(vectorizer) 유닛으로 사이클 패널티 없이 바로 전달하기 위한 바이패스 경로를 포함하는, 가속화 장치.
제1항에 있어서,

상기 벡터 처리 유닛은,

벡터 관련 명령을 처리하는 벡터 기능 유닛(vector function unit); 및

상기 벡터 기능 유닛과 연결된 제2 특수 기능 유닛(special function unit)

을 포함하는, 가속화 장치.
제8항에 있어서,

상기 벡터 기능 유닛은 요소별(element-wise) 벡터 연산을 지원하는 부동 소수점 산술 논리 유닛(Arithmetic Logic Unit)인, 가속화 장치.
제8항에 있어서,

상기 벡터 기능 유닛은 불필요한 계산 사이클을 줄이기 위해 입력 포트와 출력 포트를 바로 연결하는 바이패스 경로를 포함하는, 가속화 장치.
제8항에 있어서,

상기 벡터 기능 유닛의 출력이 상기 제2 특수 기능 유닛으로 입력되고,

상기 제2 특수 기능 유닛은 상기 언어 서비스와 연관된 인공 신경망의 비선형 함수를 처리하는, 가속화 장치.
제8항에 있어서,

상기 벡터 기능 유닛의 출력이 상기 제2 특수 기능 유닛으로 입력되고,

상기 제2 특수 기능 유닛은 가산기 트리(adder tree) 유닛, 역수(reciprocal) 유닛, 역제곱근(reciprocal square root) 유닛 및 멀티플렉서 유닛을 포함하고,

상기 제2 특수 기능 유닛은, 입력 포트와 출력 포트를 바로 연결하는 제1 바이패스 경로, 그리고 상기 가산기 트리 유닛의 출력을 상기 역수 유닛과 상기 역제곱근 유닛을 거치지 않고 멀티플레서 유닛으로 바로 전달하기 위한 제2 바이패스 경로를 포함하는, 가속화 장치.
제1항에 있어서,

고대역폭 메모리(High Bandwidth Memory) 및 DDR 메모리로부터 데이터를 읽고 쓰기 위한 DMA(Direct Memory Access);

다른 가속화 장치와 통신하기 위한 라우터;

상기 DMA 및 상기 라우터를 통해 데이터를 수신하고, 수신된 데이터에 기초하여 상기 행렬 처리 유닛 및 상기 벡터 처리 유닛을 위한 명령을 생성하도록 구성된 레지스터 파일 매니저(Register File Manager); 및

상기 행렬 처리 유닛, 상기 벡터 처리 유닛, 상기 DMA, 상기 라우터 및 상기 레지스터 파일 매니저의 상태를 추적하고 제어함으로써, 전체 데이터 흐름을 제어하도록 구성된 제어 유닛

을 더 포함하는, 가속화 장치.
트랜스포머 기반 언어 서비스 가속화를 위한 다중 FPGA 가속 시스템으로서,

제1 호스트 CPU(Central Processing Unit); 및

상기 제1 호스트 CPU와 연결된 제1 FPGA(Field Programmable Gate Arrary) 클러스터

를 포함하고,

각 FPGA는 2개의 컴퓨트 코어(computer core)를 포함하고,

각 컴퓨트 코어는,

제1 데이터 패스를 구성하는 행렬 처리 유닛(matrix processing unit); 및

제2 데이터 패스를 구성하는 벡터 처리 유닛(vector processing unit)

을 포함하고,

상기 제1 데이터 패스는 행렬 관련 명령과 연관되고,

상기 제2 데이터 패스는 벡터 관련 명령과 연관되고,

상기 제1 데이터 패스와 상기 제2 데이터 패스는 병렬적으로 처리되는, 다중 FPGA 가속 시스템.
제14항에 있어서,

상기 제1 FPGA 클러스터 내의 FPGA들은 QSFP(Quad Small Form Factor Pluggable) 트랜스시버를 이용하여 서로 연결되어 링 네트워크를 형성하는, 다중 FPGA 가속 시스템.
제14항에 있어서,

상기 언어 서비스와 연관된 인공 신경망에 포함된 셀프 어텐션(Self-attention) 및 피드포워드 네트워크에서 모델 매개변수 또는 가중치 행렬이 열 방향으로 복수의 부분으로 분할되고, 상기 복수의 부분 각각이 각 컴퓨트 코어에 입력되고,

각 컴퓨트 코어는 입력된 부분에 대해 동일한 연산을 처리하는, 다중 FPGA 가속 시스템.
제14항에 있어서,

각 FPGA 내의 2개의 컴퓨트 코어 사이의 통신 속도와 각 FPGA 사이의 통신 속도가 동일하도록 밸런싱되는, 다중 FPGA 가속 시스템.
제14항에 있어서,

제2 호스트 CPU; 및

상기 제2 호스트 CPU와 연결된 제2 FPGA 클러스터

를 더 포함하고,

상기 제1 호스트 CPU는 QPI(QuickPath Interconnect)를 통해 상기 제2 호스트 CPU와 연결되는, 다중 FPGA 가속 시스템.