KR20230152828A

KR20230152828A - 메모리 대역폭 활용을 감소시키기 위해 활성화 데이터의 압축 및 압축 해제를 사용하는 신경망 프로세서

Info

Publication number: KR20230152828A
Application number: KR1020237037000A
Authority: KR
Inventors: 조셉 레온 코커리; 벤자민 엘리엇 룬델; 래리 마빈 월; 차드 발링 맥브라이드; 아몰 아쇽 암바르데카르; 조지 페트르; 켄트 디. 세도라; 보리스 밥로브
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2017-04-17
Filing date: 2018-04-16
Publication date: 2023-11-03
Also published as: CN110520846B; US11182667B2; US20180300607A1; CN110546654B; EP3612946B1; EP3612989B1; CN116909985A; US20210232904A1; CN110678843A; US11750212B2; WO2018194851A1; CN110520846A; WO2018194849A1; CL2019002864A1; CN110546610B; WO2018194994A2; EP3612942A1; RU2019136750A3; WO2018194995A1; PH12019550191A1

Abstract

심층 신경망(DNN) 모듈은, 메모리 버스 대역폭의 활용을 감소시키기 위해, 신경 생성 활성화 데이터를 압축 및 압축 해제할 수 있다. 압축 유닛은 DNN 모듈 내의 뉴런에 의해 생성되는 데이터의 압축되지 않은 청크를 수신할 수 있다. 압축 유닛은 압축된 출력 청크의 마스크 부분 및 데이터 부분을 생성한다. 마스크 부분은 데이터의 압축되지 않은 청크에서의 제로 및 넌제로 바이트의 존재 및 위치를 인코딩한다. 데이터 부분은 데이터의 압축되지 않은 청크로부터의 잘려진 넌제로 바이트를 저장한다. 압축 해제 유닛은, DNN 프로세서의 메모리 또는 애플리케이션 호스트의 메모리로부터 데이터의 압축된 청크를 수신할 수 있다. 압축 해제 유닛은, 마스크 부분 및 데이터 부분을 사용하여 데이터의 압축된 청크를 압축 해제한다. 이것은 메모리 버스 활용을 감소시킬 수 있고, DNN 모듈이 프로세싱 동작을 더욱 신속하게 완료하는 것을 허용할 수 있고, 전력 소비를 감소시킬 수 있다.

Description

메모리 대역폭 활용을 감소시키기 위해 활성화 데이터의 압축 및 압축 해제를 사용하는 신경망 프로세서{NEURAL NETWORK PROCESSOR USING COMPRESSION AND DECOMPRESSION OF ACTIVATION DATA TO REDUCE MEMORY BANDWIDTH UTILIZATION}

심층 신경망(deep neural network; "DNN")은, 인간 뇌와 같은 생물학적 신경 시스템에서의 정보 프로세싱 및 통신 패턴을 따라 느슨하게 모델링된다. DNN은, 오브젝트 검출, 시맨틱 라벨링(semantic labeling), 및 피쳐 추출과 같은, 그러나 이들로 제한되지는 않는, 복잡한 분류 문제를 해결하기 위해 활용될 수 있다. 결과적으로, DNN은, 컴퓨터 비전, 음성 인식, 및 기계 번역과 같은 많은 인공 지능(artificial intelligence; "AI") 애플리케이션에 대한 기초를 형성한다. DNN은, 이들 도메인 중 많은 것에서 사람의 정확도와 매치하거나 또는 초과할 수 있다.

DNN의 높은 레벨의 성능은, 큰 데이터 세트에 대한 통계적 학습을 사용한 이후 입력 데이터로부터 높은 레벨의 피쳐를 추출하여 입력 공간의 효과적인 표현을 획득하는 그들의 능력으로부터 기인한다. 그러나, DNN의 우수한 성능은 높은 계산 복잡도를 대가로 한다. 그래픽 프로세싱 유닛(graphics processing unit; "GPU")과 같은 고성능 범용 프로세서는 일반적으로, 많은 DNN 애플리케이션에 의해 필요로 되는 높은 레벨의 계산 성능을 제공하기 위해 활용된다.

GPU와 같은 범용 프로세서가 DNN을 구현하기 위한 높은 레벨의 계산 성능을 제공할 수 있지만, 이들 타입의 프로세서는, 저전력 소비가 중요한 컴퓨팅 디바이스에서 오랜 지속 기간에 걸쳐 DNN 동작을 수행함에 있어서 사용하기에 통상적으로 적합하지 않다. 예를 들면, GPU와 같은 범용 프로세서는, 배터리 수명을 연장하기 위해 감소된 전력 소비가 필요로 되는, 스마트폰 또는 대체/가상 현실(alternate/virtual reality; "AR/VR") 디바이스와 같은, 배터리 구동 휴대용 디바이스에서 장기간 실행하는 DNN 태스크를 수행함에 있어서 사용하기에 적절하지 않을 수 있다.

사람 움직임의 검출과 같은 연속적인 DNN 태스크를 수행하는 동안 감소된 전력 소비는, 예를 들면, 이더넷을 통한 전력(power-over-Ethernet; POE) 보안 카메라와 같은 비배터리 구동 디바이스에서 또한 중요할 수 있다. 이 특정 예에서, POE 스위치는 제한된 양의 전력만을 제공할 수 있으며, 보안 카메라와 같은 POE 디바이스의 전력 소비를 감소시키는 것은, 더 적은 전력을 제공하는 POE 스위치의 사용을 허용한다.

범용 프로세서와 비교하여, 동시에 전력 소비를 감소시키면서, 성능에 맞는 DNN 프로세싱을 제공할 수 있는 주문형 집적 회로(application-specific integrated circuit; "ASIC")가 개발되었다. 그러나, 이 분야에서의 발전에도 불구하고, 특히 저전력 소비가 중요한 컴퓨팅 디바이스에서 사용하기 위한, DN 프로세싱을 수행하는 ASIC의 성능을 향상시키고 전력 소비를 감소시킬 지속적인 필요성이 존재한다.

본원에서 이루어지는 개시는 이들 및 다른 기술적 도전 과제와 관련하여 제시된다.

메모리 버스 대역폭의 활용을 감소시키기 위해 활성화 데이터(activation data)를 압축 및 압축 해제할 수 있는 DNN 모듈, 또는 프로세서가 개시된다. 특히, DNN 모듈은, 압축을 활용하여, 뉴런 출력과 온 보드(on-board) 또는 오프 보드(off-board) 메모리 사이의 버스 대역폭의 활용을 감소시킬 수 있다. DNN 모듈은 또한, 압축 해제를 활용하여, 온 보드 또는 오프 보드 메모리와 뉴런 입력 사이의 메모리 버스 대역폭의 활용을 감소시킬 수 있다. 감소된 대역폭 활용은, 더 빠른 프로세싱을 가능하게 할 수 있고, 결과적으로, 전력 소비도 또한 감소시킬 수 있다. 본원에서 구체적으로 언급되지 않는 다른 기술적 이점은, 개시된 주제의 구현예를 통해 또한 실현될 수 있다.

상기에서 간략하게 언급되는 기술적 이점을 실현하기 위해, 하나 이상의 뉴런 및 압축 유닛을 포함하는 DNN 프로세서가 개시된다. 압축 유닛은, 뉴런 중 하나 이상에 의해 생성되는 데이터의 압축되지 않은 청크를 수신할 수 있다. 데이터의 압축되지 않은 청크는, 몇몇 실시형태에서, 64 바이트와 같은 고정된 수의 바이트를 포함한다.

데이터의 압축되지 않은 청크를 압축하기 위해, 압축 유닛은 압축된 출력 청크의 마스크 부분(mask portion) 및 데이터 부분(data portion)을 생성할 수 있다. 압축된 출력 청크의 마스크 부분은, 데이터의 압축되지 않은 청크에서의 고정된 수의 바이트와 동등한 수의 비트를 포함한다. 예를 들면, 데이터의 압축되지 않은 청크가 64 바이트의 데이터를 포함하면, 마스크 부분은 64 비트(즉, 8 바이트)를 포함할 것이다.

압축된 출력 청크의 마스크 부분에서의 각각의 비트는, 몇몇 실시형태에서 데이터의 압축되지 않은 청크의 바이트에 대응한다. 예를 들면, 마스크 부분 중 비트 1은 데이터의 압축되지 않은 청크에서의 첫 번째 바이트에 대응할 수 있고, 마스크 부분의 비트 2는 데이터의 압축되지 않은 청크에서의 두 번째 바이트에 대응할 수 있고, 계속 그런 식이다. 다른 실시형태에서, 압축된 출력 청크의 마스크 부분에서의 두 개 이상의 비트는, 데이터의 압축되지 않은 청크의 바이트에 대응한다. 이들 실시형태에서, 압축된 출력 청크의 마스크 부분에서의 비트는, 압축되지 않은 청크에서의 대응하는 바이트뿐만 아니라 또한 그것의 근사 크기를 나타낼 수 있다.

마스크 부분의 개개의 비트가 압축되지 않은 청크에서의 바이트에 대응하는 경우, 압축 유닛은 압축된 출력 청크의 마스크 부분에서의 각각의 비트를 논리적 거짓(이것은 본원에서 "논리적 0"으로 또한 칭해질 수도 있을 것임)으로 설정하는데, 데이터의 압축되지 않은 청크에서의 대응하는 바이트는 모두 제로(즉, "제로 바이트")를 포함한다. 압축 유닛은 또한, 압축된 출력 청크의 마스크 부분에서의 각각의 비트를 논리적 참(이것은 본원에서 "논리적 1"로 또한 칭해질 수도 있음)으로 설정하는데, 데이터의 압축되지 않은 청크에서의 대응하는 바이트는 적어도 하나의 넌제로(non-zero) 비트(즉, "넌제로 바이트")를 포함한다. 이러한 방식으로, 압축된 출력 청크의 마스크 부분은 데이터의 압축되지 않은 청크에서 제로 및 넌제로 바이트의 존재 및 위치를 인코딩한다.

압축 유닛은 데이터의 압축되지 않은 청크에서 넌제로 바이트의 수를 결정하는 것에 의해 압축된 출력 청크의 데이터 부분을 생성한다. 그 다음, 압축 유닛은, 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 수 및 압축된 출력 청크의 데이터 부분에서 이용 가능한 바이트의 수에 기초하여, 데이터의 압축되지 않은 청크의 각각의 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크의 데이터 부분에서의 비트의 수를 결정한다. 예를 들면, 데이터의 압축된 청크의 데이터 부분이 24 바이트 폭(즉, 192 비트)이고 데이터의 압축되지 않은 청크에 47 넌제로 바이트가 있는 경우, 데이터의 압축되지 않은 청크로부터 각각의 넌제로 바이트를 저장하는데 4 비트가 데이터 부분에서 이용 가능하다.

몇몇 실시형태에서, 압축 유닛은 또한, 데이터의 압축되지 않은 청크의 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크의 데이터 부분에서의 추가 비트의 수를, 만약 있다면, 결정할 수 있다. 상기에서 주어지는 예에서, 예를 들면, 네 개의 추가 비트가 넌제로 바이트를 저장하는데 이용 가능하다(즉, 192 mod 47 = 4 비트). 압축 유닛은, 넌제로 바이트 중 하나 이상을 잘라내기 이전에 이들 추가 비트를, 데이터의 압축되지 않은 청크에서의 넌제로 바이트 중 하나 이상에 할당할 수 있다. 예를 들면, 압축 유닛은 이들 추가 비트를 압축된 출력 청크의 데이터 부분의 처음 몇 바이트에 할당할 수도 있을 것이다.

그 다음, 압축 유닛은, 데이터의 압축되지 않은 청크에서의 넌제로 바이트를, 각각의 넌제로 바이트를 저장하기 위해 데이터 부분에서 이용 가능한 결정된 비트의 수(즉, 상기에서 주어지는 예에서는 4)로 잘라낸다. 압축 유닛은, 하나의 실시형태에서, 데이터 부분에서 이용 가능한 비트 수 이내로 적합되도록 넌제로 바이트의 최하위 비트(least significant bit; "LSB")를 잘라낸다. 다른 실시형태에서, 압축 유닛은 넌제로 바이트의 최상위 비트(most significant bit; "MSB")를 잘라낸다. 그 다음, 압축 유닛은 잘려진 넌제로 바이트를 압축된 출력 청크의 데이터 부분에 저장한다. 그 다음, 마스크 부분 및 데이터 부분을 포함하는 압축된 출력 청크는, 예를 들면, DNN 프로세서의 온 보드 메모리 또는 DNN 프로세서의 애플리케이션 호스트의 오프 보드 메모리로 출력될 수 있다.

DNN 모듈은 또한, 상기에서 설명되는 방식으로 압축된 데이터의 청크를 압축 해제할 수 있는 압축 해제 유닛(decompression unit)을 포함할 수 있다. 예를 들면, 압축 해제 유닛은, DNN 프로세서 내의 메모리 또는 애플리케이션 호스트의 메모리로부터 데이터의 압축된 청크를 수신할 수 있다. 그 다음, 압축 해제 유닛은, 압축된 출력 청크의 마스크 부분에서의 논리적 참 비트의 수에 기초하여 데이터의 압축되지 않은 청크의 데이터 부분에서의 넌제로 바이트의 수를 결정할 수 있다. 압축 해제 유닛은 또한, 압축된 출력 청크의 마스크 부분에서의 논리적 참 비트의 위치에 기초하여, 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 위치를 결정할 수 있다. 압축 해제 유닛은, 데이터의 압축되지 않은 청크에서의 제로 바이트의 위치를 유사한 방식으로 결정할 수 있다.

압축 해제 유닛은 또한, 압축된 출력 청크의 데이터 부분에 잘려진 넌제로 바이트를 저장하기 위해 압축 유닛에 의해 사용되는 비트의 수를 결정할 수 있다. 압축 해제 유닛은, 데이터의 압축된 청크에서의 넌제로 바이트의 수 및 압축되지 않은 출력 청크의 데이터 부분에서 이용 가능한 바이트의 수에 기초하여 각각의 잘려진 넌제로 바이트를 저장하기 위해 사용되는 비트의 수를 결정할 수 있다.

상기에서 주어지는 예에서, 예를 들면, 데이터의 압축된 청크의 데이터 부분이 24 바이트 폭(즉, 192 비트)이고 데이터의 압축되지 않은 청크에 47 넌제로 바이트가 있는 경우, 압축 유닛은, 데이터의 압축되지 않은 청크의 각각의 잘려진 넌제로 바이트를 데이터 부분에 저장하기 위해 4 비트를 활용하였다. 압축 해제 유닛은 또한, 압축된 출력 청크의 데이터 부분에 저장되는 잘려진 넌제로 바이트의 하나 이상에 압축 유닛이 할당한 추가 비트의 수를, 만약 있다면, 결정할 수 있다.

논리 0인 압축된 출력 청크의 마스크 부분에서의 각각의 비트 위치에 대해, 압축 해제 유닛은 압축 해제된 출력 청크의 대응하는 위치로 제로 바이트를 삽입한다. 논리 1인 마스크 부분에서의 각각의 위치에 대해, 압축 해제 유닛은, 압축된 입력 청크의 대응하는 위치로부터의 잘려진 넌제로 바이트를, 압축된 출력 청크의 압축 동안 잘려지는 비트의 수와 동등한 수의 제로 비트와 함께 압축 해제된 출력 청크의 대응하는 위치 안으로 삽입한다. 압축 동안 어떤 비트가 잘려졌는지에 따라 잘려진 넌제로 바이트의 LSB 또는 MSB 안으로 제로 비트가 삽입될 수 있다.

몇몇 실시형태에서, 압축 해제 유닛은 또한, 압축 해제된 출력 청크에 저장되는 잘려진 넌제로 바이트의 하나 이상에 오프셋(예를 들면, 00000001)을 추가한다. 예를 들면, 압축에 이어 제로 바이트가 되는 데이터의 압축되지 않은 청크의 넌제로 바이트에 오프셋이 추가될 수 있다. 이러한 방식으로, 넌제로 바이트는 압축 및 압축 해제시 제로 바이트가 되지 않을 것이다. 다른 실시형태에서, 압축 해제된 출력 청크에서의 모든 바이트에 오프셋이 추가될 수 있다.

상기에서 간략하게 논의되는 바와 같이, 본원에서 개시되는 기술의 구현예는, DNN 모듈에서의 메모리 버스 대역폭 활용을 감소시킬 수 있고, DNN 모듈이 프로세싱 동작을 더욱 신속하게 완료하는 것을 허용할 수 있고, 전력 소비를 감소시킬 수 있다. 본원에서 구체적으로 식별되지 않는 다른 기술적 이점은, 개시된 기술의 구현예를 통해 또한 실현될 수 있다.

상기에서 설명된 주제는, 컴퓨터 제어 장치, 컴퓨터 구현 방법, 컴퓨팅 디바이스, 또는 컴퓨터 판독 가능 매체와 같은 제조 물품으로서 구현될 수 있다는 것이 인식되어야 한다. 이들 및 다양한 다른 피쳐는, 다음의 상세한 설명의 판독 및 관련 도면의 리뷰로부터 명백해질 것이다.

이 개요는 하기의 상세한 설명에서 추가로 설명되는, 개시된 기술의 몇몇 양태의 간단한 설명을 간략화된 형태로 소개하기 위해 제공된다. 이 개요는 청구된 주제의 주요 피쳐 또는 필수 피쳐를 식별하도록 의도되는 것도 아니고, 이 개요가 청구된 주제의 범위를 제한하기 위해 사용되어야 한다는 것을 의도하는 것도 아니다. 더구나, 청구된 주제는 본 개시의 임의의 부분에서 언급되는 임의의 또는 모든 단점을 해결하는 구현예로 제한되지는 않는다.

도 1은, 하나의 실시형태에 따른, 본원에서 개시되는 기술의 양태를 구현하는 DNN 모듈의 구성 및 동작의 양태를 도시하는 컴퓨팅 아키텍쳐 도면이다;
도 2a 및 도 2b는, 하나의 실시형태에 따른, 활성화 데이터를 압축하기 위한 DNN 모듈의 구성 및 동작의 양태를 도시하는 컴퓨팅 시스템 아키텍쳐 도면이다;
도 3은, 하나의 실시형태에 따른, 압축되지 않은 활성화 데이터의 예시적인 청크를 참조하여 활성화 데이터를 압축하기 위한 DNN 모듈의 동작의 양태를 예시하는 데이터 구조도이다;
도 4는, 본원에서 개시되는 하나의 실시형태에 따른, 활성화 데이터를 압축하기 위한 개시된 DNN 모듈의 동작의 양태를 예시하는 루틴을 도시하는 흐름도이다;
도 5a 및 도 5b는, 하나의 실시형태에 따른, 활성화 데이터를 압축 해제하기 위한 DNN 모듈의 구성 및 동작의 양태를 도시하는 컴퓨팅 시스템 아키텍쳐 도면이다;
도 6은, 하나의 실시형태에 따른, 압축된 활성화 데이터의 예시적인 청크를 참조하여 활성화 데이터를 압축 해제하기 위한 DNN 모듈의 동작의 양태를 예시하는 데이터 구조도이다;
도 7은, 본원에서 개시되는 하나의 실시형태에 따른, 활성화 데이터를 압축 해제하기 위한 개시된 DNN 모듈의 동작의 양태를 예시하는 루틴을 도시하는 흐름도이다;
도 8은, 하나의 실시형태에 따른, 본원에서 제시되는 DNN 모듈에 대한 애플리케이션 호스트로서 작용할 수 있는 컴퓨팅 디바이스에 대한 예시적인 컴퓨터 하드웨어 및 소프트웨어 아키텍쳐를 도시하는 컴퓨터 아키텍쳐 도면이다; 그리고
도 9는, 본원에서 제시되는 다양한 실시형태에 따른, 개시된 기술의 양태가 구현될 수 있는 분산 컴퓨팅 환경을 예시하는 네트워크 도면이다.

다음의 상세한 설명은, 메모리 버스 대역폭의 활용을 감소시키기 위해 활성화 데이터를 압축 및 압축 해제할 수 있는 DNN 모듈에 관한 것이다. 상기에서 간략하게 논의되는 바와 같이, 개시된 기술의 구현예는, DNN 모듈에서의 메모리 버스 대역폭 활용을 감소시킬 수 있고, DNN 모듈이 프로세싱 동작을 더욱 신속하게 완료하는 것을 허용할 수 있고, 전력 소비를 감소시킬 수 있다. 본원에서 구체적으로 언급되지 않는 다른 기술적 이점은, 개시된 주제의 구현예를 통해 또한 실현될 수 있다.

본원에서 설명되는 주제는 하드웨어 DNN 모듈의 일반적인 맥락에서 제시되지만, 기술 분야의 숙련된 자는, 다른 구현예가 다른 타입의 컴퓨팅 시스템 및 모듈과 조합하여 수행될 수 있다는 것을 인식할 것이다. 기술 분야의 숙련된 자는 또한, 본원에서 설명되는 주제가, 핸드헬드 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반의 또는 프로그래머블 소비자 전자장치, 디바이스에 임베딩되는 컴퓨팅 또는 프로세싱 시스템(예컨대, 웨어러블 컴퓨팅 디바이스, 자동차, 홈 오토메이션, 등등), 미니 컴퓨터, 메인프레임 컴퓨터, 및 등등을 비롯한, 다른 컴퓨터 시스템 구성과 함께 실시될 수 있다는 것을 인식할 것이다.

이하에서 더욱 상세히 설명되는 바와 같이, 자신의 뉴런의 출력을 압축하도록 구성되는 DNN 모듈이 개시된다. 압축된 출력은, DNN 모듈 상의 메모리에 또는 DNN 모듈 외부의 메모리, 예컨대 DNN 모듈에 대한 애플리케이션 호스트에 의해 제공되는 메모리에 저장될 수 있다. 나중에, DNN 모듈은, 이전에 압축된 데이터를 압축 해제하고 압축 해제된 데이터를 뉴런에 제공할 수 있다.

하나의 실시형태에 따르면, DNN 프로세서 내의 압축 유닛은, 압축되지 않은 활성화 데이터의 고정된 길이의 청크(예를 들면, 64 바이트)를 고정된 압축 비율(예를 들면, 2: 1)에서 압축한다. 압축 유닛에 의해 생성되는 압축 활성화 데이터는, 고정된 길이의 마스크 부분(예를 들면, 8 바이트) 및 고정된 길이의 데이터 부분(예를 들면, 24 바이트)을 포함하는 고정된 길이(예를 들면, 32 바이트)를 갖는 데이터의 청크를 포함할 수 있다.

압축된 출력 청크의 마스크 부분의 비트는, 하나의 실시형태에서, 압축되지 않은 입력 청크 내에서의 바이트에 대응한다. 예를 들면, 마스크 부분의 제1 비트는 압축되지 않은 입력 청크에서의 첫 번째 바이트에 대응할 수 있고, 마스크 부분의 제2 비트는 압축되지 않은 입력 청크에서의 두 번째 바이트에 대응할 수 있고, 계속 그런 식이다. 압축된 활성화 데이터의 마스크 부분에서의 비트는, 압축되지 않은 입력 청크에서의 대응하는 바이트가 제로인 경우, 논리 0으로 설정될 수 있고, 압축되지 않은 입력 청크에서의 대응하는 바이트가 넌제로인 경우 논리 1로 설정될 수 있다.

상기에서 간략하게 논의되는 바와 같이, 압축된 출력 청크의 마스크 부분에서의 두 개 이상의 비트는, 몇몇 실시형태에서, 데이터의 압축되지 않은 청크에서의 바이트에 대응한다. 이들 실시형태에서, 압축된 출력 청크의 마스크 부분에서의 비트는, 압축되지 않은 청크에서의 대응하는 바이트뿐만 아니라 또한 그것의 근사 크기를 나타낼 수 있다.

압축된 출력 청크의 데이터 부분은, 압축된 데이터 부분에서의 이용 가능한 비트의 수를 사용하여 입력 청크의 넌제로 바이트를 나타내도록 잘려진 압축되지 않은 입력 청크의 넌제로 바이트를 포함한다. 각각의 넌제로 바이트에 대한 압축된 출력 청크의 데이터 부분에서의 이용 가능한 비트의 수는, 몇몇 실시형태에서, 데이터 부분에서의 이용 가능한 비트의 총 수(예를 들면, 192 비트)를, 압축되지 않은 입력 청크에서의 넌제로 바이트의 수로 나누는 것에 의해 결정된다. 이 계산의 결과는, 압축되지 않은 입력 청크에서 넌제로 데이터의 각각의 바이트를 나타내는 데 이용 가능한 압축된 출력 청크의 데이터 부분에서의 비트의 수를 나타낸다. 임의의 나머지 비트는, 압축된 출력 청크의 데이터 부분에서의 넌제로 값 중 일부를 나타내기 위한 추가 비트를 제공하기 위해 사용될 수 있다.

일단 압축되지 않은 입력 청크에서의 각각의 넌제로 바이트를 나타내기 위한 압축된 출력 청크의 데이터 부분에서 이용 가능한 비트의 수가 결정되면, 압축되지 않은 입력 청크에서의 넌제로 값의 LSB은 이용 가능한 비트 수 이내로 적합되도록 잘려진다. 넌제로 값의 MSB는 다른 실시형태에서 잘려질 수도 있을 것이다. 그 다음, 잘려진 넌제로 값은, 압축된 출력 청크의 데이터 부분에 저장될 수 있다. 이 프로세스는, 압축되지 않은 입력 활성화 값의 각각의 청크에 대해 반복될 수 있다. 그 다음, 압축된 출력 청크는, 뉴런에 의한 나중의 압축 해제 및 사용을 위해 모듈 상의 메모리 또는 모듈 밖의 메모리에 저장될 수 있다.

개시된 DNN 모듈은 또한, 상기에서 설명되는 방식으로 압축 유닛에 의해 압축된 활성화 값을 압축 해제하기 위한 압축 해제 유닛을 포함할 수 있다. 압축 해제 유닛은, 마스크 부분 및 데이터 부분을 포함하는 압축된 활성화 데이터의 청크를 수신한다. 압축 해제 유닛은, 마스크 부분의 비트를 활용하여, 압축 해제된 출력 청크에 존재할 넌제로 바이트의 수 및 압축 해제된 출력 청크 내에서의 그들의 위치를 식별할 수 있다. 마스크는 또한, 압축 해제된 출력 청크에서의 제로 바이트의 위치를 나타낸다.

몇몇 실시형태에서, 압축 해제 유닛은, 압축된 청크의 데이터 부분에서의 이용 가능한 비트의 총 수(예를 들면, 192 비트)를, 마스크에 의해 명시되는 바와 같은 압축되지 않은 입력 청크에서의 넌제로 바이트의 수에 의해 나누는 것에 의해, 각각의 넌제로 바이트를 나타내기 위해 압축 유닛에 의해 사용된 비트의 수를 결정한다. 압축 해제 유닛은 또한, 압축 유닛이 압축된 청크의 데이터 부분에서의 넌제로 값 중 일부(예를 들면, 처음 N 개의 값)를 나타내기 위한 추가 비트를 제공하기 위해 임의의 나머지 비트를 사용했다는 것을 가정할 수 있다.

논리 0인 마스크에서의 각각의 비트 위치에 대해, 압축 해제 유닛은, 압축 해제된 출력 청크의 대응하는 위치에서 압축 해제된 출력 청크에 제로 바이트를 삽입할 수 있다. 논리 1인 마스크에서의 각각의 비트 위치에 대해, 압축 해제 유닛은, 압축 해제된 출력 청크에서의 대응하는 위치에서 압축된 입력 청크의 데이터 부분에서의 대응하는 위치로부터 잘려진 넌제로 바이트를 삽입한다. 압축 해제 유닛은 또한 압축 동안 잘려진 비트를 대체하기 위해 넌제로 값의 LSB, 또는 MSB에 적절히 제로를 삽입한다.

몇몇 실시형태에서, 압축 해제 유닛은, 넌제로의 압축 해제된 값이 압축 해제될 때 제로 바이트가 되지 않는 것을 보장하기 위해, 잘려진 넌제로 값에 오프셋 값을 추가한다. 그 다음, 압축 해제된 출력 청크는 뉴런에 의한 사용을 위해 모듈 상의 메모리 또는 모듈 밖의 메모리에 저장될 수 있다. DNN 모듈, 압축 유닛 및 압축 해제 유닛의 동작에 관한 추가적인 세부 사항이 하기에서 제공될 것이다.

다음의 상세한 설명에서, 본원의 일부를 형성하며, 예시 고유의 구성 또는 예를 통해 도시되는 첨부의 도면에 대한 참조가 이루어진다. 이제, 여러 도면 전체에 걸친 동일한 번호가 동일한 엘리먼트를 나타내는 도면을 참조하여, 메모리 버스 대역폭의 활용을 감소시키기 위해 활성화 데이터를 압축 및 압축 해제할 수 있는 DNN 모듈의 양태가 설명될 것이다.

도 1은, 하나의 실시형태에 따른, 본원에서 개시되는 기술을 구현하는 DNN 모듈(105)의 구성 및 동작의 양태를 도시하는 컴퓨팅 아키텍쳐 도면이다. 본원에서 개시되는 DNN 모듈(105)은, 몇몇 실시형태에서, 오브젝트 검출, 시맨틱 라벨링, 및 피쳐 추출과 같은, 그러나 이들로 제한되지는 않는 분류 문제(및 관련 문제)를 해결하도록 구성된다.

이 기능성(functionality)을 제공하기 위해, DNN 모듈(105)은, 리콜 전용 신경망(recall-only neural network)을 구현할 수 있고 다양한 네트워크 구조를 프로그램적으로 지원할 수 있다. DNN 모듈(105)에 의해 구현되는 네트워크에 대한 트레이닝은, 서버 팜, 데이터 센터, 또는 다른 적절한 컴퓨팅 환경에서 오프라인으로 수행될 수 있다. DNN을 트레이닝시키는 결과는, "가중치(weight)" 또는 "커널"로 알려질 수 있는 파라미터의 세트이다. 이들 파라미터는 입력에 적용될 수 있는 변환 함수를 나타내는데, 결과는 분류 또는 의미론적으로 라벨링된 출력이다.

본원에서 개시되는 DNN 모듈(105)은 슈퍼 스칼라 프로세서로 간주될 수 있다. DNN 모듈(105)은 하나 이상의 명령어를 뉴런(105F)으로 칭해지는 다수의 실행 유닛으로 디스패치할 수 있다. 실행 유닛은 "동시 디스패치 동시 완료(simultaneous dispatch simultaneous complete)"일 수 있는데, 여기서 각각의 실행 유닛은 다른 실행 유닛의 각각과 동기화된다. DNN 모듈(105)은 단일의 명령어 스트림, 다수의 데이터 스트림(single instruction stream, multiple data stream; "SIMD") 아키텍쳐로서 분류될 수 있다.

DNN 모듈(105)은 다수의 뉴런(105F)(예를 들면, 2의 거듭 제곱)을 포함한다. 뉴런(105F)은 뇌의 생물학적 뉴런을 모델링하기 위해 사용되는 인공 신경망의 기본 단위이다. 뉴런(105F)의 모델은, 활성화 함수가 적용된, 입력 벡터와 바이어스에 추가되는 가중치 벡터의 내적(inner product)을 포함할 수 있다. 본원에서 설명되는 DNN 모듈(105) 내의 뉴런(105F)에 의해 수행되는 프로세싱은 인공 뉴런에 밀접하게 매핑된다.

DNN 모듈(105) 내의 각각의 뉴런(105F)은, 가중된 합계, 최대 풀링, 우회, 및 잠재적으로 다른 타입의 동작을 수행할 수 있다. 뉴런(105F)은 클록 사이클마다 입력 및 가중치 데이터를 프로세싱한다. 각각의 뉴런(105F)은, DNN 모듈(105) 내에서의 커널 데이터의 흐름을 최소화하기 위해 커널 내에서의 진행의 측면에서 모든 다른 뉴런(105F)에 동기화된다.

각각의 뉴런(105F)은, 승산기, 가산기, 비교기, 및 다수의 누산기를 포함할 수 있다(도 1에서 도시되지 않음). 다수의 누산기를 구비하는 것에 의해, 뉴런(105F)은 한 번에 다수의 상이한 활성 커널에 대한 컨텍스트를 유지할 수 있다. 각각의 누산기는, BaSRAM(150)의 판독으로부터 로딩될 수 있다(하기에서 설명됨). 누산기는 그들 자신을 다른 뉴런(105F)으로부터의 다른 누산기의 내용과 합산할 수 있다.

DNN 모듈(105)은, 이미지 데이터와 같은 평면 데이터를 입력으로서 받아들인다. 그러나, DNN 모듈(105)에 대한 입력은, 이미지 데이터로 제한되지 않는다. 오히려, DNN 모듈(105)은, 균일한 평면 포맷으로 DNN 모듈(105)에 제시되는 임의의 입력 데이터에 대해 동작할 수 있다. 하나의 특정한 실시형태에서, DNN 모듈(105)은 입력으로서 다중 평면 1 바이트 또는 2 바이트 데이터 프레임을 수용할 수 있다.

각각의 입력 프레임은 커널의 N×K×H×W 세트로 컨볼빙될 수 있는데, 여기서 N은 커널 수이고, K는 커널당 채널의 수이고, H는 높이이고, W는 폭이다. 입력 데이터에 걸쳐 중첩하는 간격에 대해 컨볼루션이 수행되는데, 간격은 X 및 Y 방향에서의 보폭에 의해 정의된다. 이들 기능은 뉴런(105F)에 의해 수행되고 DNN 모듈(105) 및 소프트웨어 가시 제어 레지스터(software-visible control register)에 의해 관리된다.

DNN 모듈(105)은 세 가지 주요 데이터 타입을 지원한다: 가중치; 입력 데이터/피쳐 맵; 및 활성화 데이터. 입력 데이터/피쳐 맵 및 활성화 데이터는, 대부분의 경우, 레이어의 출력을 참조할 때 용어 활성화 데이터가 사용된다는 구별을 갖는 동일한 데이터에 대한 두 개의 이름이다. 레이어의 입력을 언급할 때, 용어 입력 데이터/피쳐 맵이 사용된다.

DNN 모듈(105) 내의 뉴런(105F)은 그들의 입력의 가중된 합을 계산하고 가중된 합을 "활성화 함수" 또는 "전달 함수"을 통해 전달한다. 전달 함수는 일반적으로 S자 형상을 가지지만, 그러나, 구분적 선형 함수(piecewise linear function), 단계 함수(step function), 또는 다른 타입의 함수의 형태를 또한 취할 수도 있을 것이다. 활성화 함수는 뉴런(105F)이 입력 및 분류 경계가 비선형적인 소망되는 출력의 더 큰 세트로 트레이닝되는 것을 허용한다.

DNN 모듈(105)은 신경망의 레이어에 대응하는 레이어 디스크립터(layer descriptor)의 목록에 대해 동작한다. 레이어 디스크립터의 목록은 DNN 모듈(105)에 의해 명령어로서 취급될 수 있다. 이들 디스크립터는, 메모리로부터 DNN 모듈(105)로 프리페치되어 순서대로 실행될 수 있다. 디스크립터 목록은 DNN 모듈(105)에 대한 명령어의 세트로서 작용한다. DNN 모듈(105) 상에서 실행되는 디스크립터 목록을 생성하기 위해 소프트웨어 툴 및/또는 컴파일러가 DNN 모듈(105) 외부의 디바이스 상에서 실행될 수 있다.

일반적으로, 두 가지 주요 클래스의 디스크립터가 있을 수 있다: 메모리 대 메모리 이동( memory-to-memory move; "M2M") 디스크립터; 및 동작 디스크립터. M2M 디스크립터는 동작 디스크립터에 의한 소비를 위해 데이터를 메인 메모리로/로부터 로컬 버퍼(즉, 하기에 설명되는 라인 버퍼(125))로/로부터 이동시키기 위해 사용될 수 있다. M2M 디스크립터는, 동작 디스크립터와 상이한 실행 파이프라인을 따른다. M2M 디스크립터에 대한 타겟 파이프라인은, 내부 DMA 엔진(105B) 또는 구성 레지스터(105G)일 수 있고, 반면, 동작 디스크립터에 대한 타겟 파이프라인은 뉴런(105F)일 수 있다.

동작 디스크립터는, 뉴런(105F)이 로컬의 정적 랜덤 액세스 메모리(static random access memory; "SRAM") 메모리에 위치되는 데이터 구조에 대해 수행해야 하는 특정한 동작을 명시한다. 동작 디스크립터는 순서대로 프로세싱되며, 다수의 상이한 레이어 동작이 가능한데, 그 중 적어도 일부는 본원에서 설명된다.

도 1에서 예시되는 바와 같이, DNN 모듈(105)은 고유한 L1 및 L2 버퍼 구조를 갖는 메모리 서브시스템을 구비한다. 도 1에서 도시되는 L1 및 L2 버퍼는 신경망 프로세싱을 위해 특별히 설계된다. 예로서, L2 버퍼(150)는 선택된 주파수에서 동작하는 고속 전용 인터페이스를 사용하여 선택된 저장 용량을 유지할 수 있다. L1 버퍼(125)는 커널과 활성화 데이터 사이에서 분할될 수 있는 선택된 저장 용량을 유지할 수 있다. L1 버퍼(125)는 본원에서 "라인 버퍼(125)"로 지칭될 수도 있을 것이고, L2 버퍼(150)는 본원에서 BaSRAM(150)으로 지칭될 수도 있을 것이다.

몇몇 실시형태에서, 계산 데이터(즉, 입력 데이터, 가중치 및 활성화 데이터)는 BaSRAM(150)에 행 우선으로(row-major) 저장된다. 계산 데이터는 두 개의 라인 버퍼로 편제될(organized) 수 있는데, 하나의 라인 버퍼는 본원에서 "입력 버퍼"로 지칭될 수도 있는 입력 데이터를 포함하고, 본원에서 "가중치 버퍼"로 칭해질 수도 있는 다른 라인 버퍼는 커널 가중치를 포함한다. 라인 버퍼는 로드/저장 유닛(105C)에 의해 BaSRAM(150)으로부터 채워진다. 데이터는, 각각의 라인 버퍼가 자신의 미리 결정된 용량에 도달할 때까지, 각각의 라인 버퍼에 축적된다. 그 다음, 라인 버퍼 데이터는, 몇몇 실시형태에서, 섀도우 버퍼에 복사되고 뉴런(105F)에게 제공된다.

DNN 모듈(105)은 또한, 레지스터 인터페이스(105G), 프리페치 유닛(105A), 저장/복원 유닛(105E), 레이어 컨트롤러(105D), 및 레지스터 인터페이스(105G)를 포함하는, 그러나 이들로 제한되지는 않는 다수의 다른 컴포넌트를 포함할 수 있다. DNN 모듈(105)은, 몇몇 실시형태에서, 추가적인 또는 대안적인 컴포넌트를 포함할 수 있다.

DNN 모듈(105)은, 몇몇 구성에서, 다른 외부 컴퓨팅 컴포넌트와 연계하여 동작한다. 예를 들면, DNN 모듈(105)은, 몇몇 실시형태에서, 호스트 애플리케이션 프로세서 시스템 온 칩(host application processor system on chip)("호스트 SoC")(130)에 연결된다. DNN 모듈(105)은, 예를 들면, PCIe 인터페이스를 통해 호스트 SoC(130)에 연결될 수 있다. PCIe 엔드포인트(135)와 같은 적절한 PCIe 컴포넌트가 활용되어 이들 연결을 가능하게 할 수 있다.

호스트 SoC(130)는 DNN 모듈(105)에 대한 애플리케이션 프로세서로서 역할을 한다. 메인 오퍼레이팅 시스템, 애플리케이션, 및 보조 센서 프로세싱은 호스트 SoC(130)에 의해 수행된다. 호스트 SoC(130)는 또한, 이미지 데이터와 같은 입력 데이터를 DNN 모듈(105)에 제공하는 입력 데이터 소스(102), 예컨대 외부 카메라에 연결될 수 있다.

DDR DRAM(155)은 또한, 메인 시스템 메모리로서 사용될 수 있는 호스트 SoC(130)에 연결될 수 있다. 이 메모리는 메모리 컨트롤러(145)를 통해 고 대역폭 패브릭(120)(예를 들면, PCIe 버스)을 통해 호스트 SoC(130)로부터 액세스 가능하다. 고 대역폭 패브릭(120)은, 양방향 직접 메모리 액세스(direct memory access; "DMA") 작은 메시징 트랜잭션 및 더 큰 DMA 트랜잭션을 제공한다. 브리지(115) 및 저 대역폭 패브릭(110)은 서브 모듈 구성 및 다른 기능을 위해 DNN 모듈(105)을 호스트 SoC(130)에 연결할 수 있다.

DNN 모듈(105)은, 메인 메모리(155)로 그리고 메인 메모리(155)로부터 데이터를 이동시키도록 구성되는 DMA 엔진(105B)을 포함할 수 있다. DMA 엔진(105B)은, 몇몇 실시형태에서, 두 개의 채널을 갖는다. 한 채널은 동작 디스크립터를 페치하는 것에 전용되고 다른 채널은 M2M 동작에 전용된다. DMA 디스크립터는 M2M 디스크립터에 임베딩될 수 있다. 이러한 맥락에서 디스크립터는, 메모리의 콘텐츠를 이동시키기 위해 사용되는 DMA 디스크립터이며, 상기에서 설명되는 동작 디스크립터와 혼동되지 않아야 한다.

로컬의 BaSRAM 메모리(150)를 오프로드하기 위해, 그리고 입력 데이터 및 가중치 데이터를 위한 더 많은 공간을 제공하기 위해, 활성화 출력은 옵션 사항으로(optionally) DDR 메모리(155)로 직접적으로 스트리밍될 수 있다. DDR 메모리(155)로 데이터를 스트리밍할 때, DNN 모듈(105)은 고 대역폭 패브릭(120) 상에서 버스트 트랜잭션을 위한 충분한 데이터를 축적할 것이고, 뉴런(105F)에 대한 백프레셔(backpressure)를 최소화하기에 충분한 트랜잭션을 버퍼링할 것이다. DNN 모듈(105)의 동작에 관한 추가적인 세부 사항은 하기에서 제공될 것이다.

도 2a 및 도 2b는, 하나의 실시형태에 따른, 활성화 데이터를 압축하기 위한 DNN 모듈(105)의 구성 및 동작의 양태를 도시하는 컴퓨팅 시스템 아키텍쳐 도면이다. 도 2a에 도시되고 상기에서 간략히 논의되는 바와 같이, DNN 모듈(105)은 하나 이상의 뉴런(105F) 및 압축 유닛(200)을 포함한다. 압축 유닛(200)은, 몇몇 실시형태에서, 로드/저장 유닛(105C)에 의해 구현되지만, 그러나, 다른 실시형태에서는, 다른 방식으로 구현될 수도 있을 것이다.

압축 유닛(200)은, 뉴런(105F) 중 하나 이상에 의해 생성되는 활성화 데이터의 압축되지 않은 청크(202)를 수신할 수 있다. 데이터의 압축되지 않은 청크(202)는, 몇몇 실시형태에서, 64 바이트와 같은 고정된 수의 바이트를 포함한다.

압축 유닛(200)은 데이터의 압축되지 않은 청크(202)를 압축하여 활성화 데이터의 압축된 청크(204)를 생성할 수 있다. 그 다음, 활성화 데이터의 압축된 청크(204)는 메모리(206)에 저장될 수 있다. 예를 들면, 활성화 데이터의 압축된 청크(204)는 애플리케이션 호스트에 의해 제공되는 LPDDR4 메모리(155)에 저장될 수 있거나 또는 DNN 모듈(105)에 의해 제공되는 BASRAM(150)에 저장될 수 있다. 하기에서 더 상세히 개시되는 바와 같이, 본원에서 개시되는 기술은, LPDDR4 메모리(155) 또는 BASRAM(150)으로부터 압축된 또는 압축 해제된 활성화 데이터를 저장 또는 검색할(retrieving) 때 메모리 버스의 활용을 감소시키기 위해 압축 및 압축 해제를 활용할 수 있다. 이들 기술에 관한 추가적인 세부 사항은 도 2a 내지 도 9와 관련하여 하기에서 논의된다.

도 2b에서 예시되는 바와 같이, 압축 유닛(200)은 데이터의 압축된 출력 청크(204)의 마스크 부분(208) 및 데이터 부분(210)을 생성할 수 있다. 압축된 출력 청크(204)의 마스크 부분(208)은, 데이터의 압축되지 않은 청크(202) 내의 고정된 수의 바이트와 동등한 수의 비트를 포함한다. 예를 들면, 데이터의 압축되지 않은 청크(202)가 64 바이트의 데이터를 포함하면, 압축된 출력 청크(204)의 마스크 부분(208)은 64 비트(즉, 8 바이트)를 포함할 것이다.

압축된 출력 청크(204)의 마스크 부분(208)에서의 각각의 비트는, 몇몇 실시형태에서, 데이터의 압축되지 않은 청크(202)에서의 바이트에 대응한다. 예를 들면, 마스크 부분(208)의 비트 1은 데이터의 압축되지 않은 청크(202)에서의 첫 번째 바이트에 대응할 수 있고, 마스크 부분(208)의 비트 2는 데이터의 압축되지 않은 청크(202)에서의 두 번째 바이트에 대응할 수 있고, 계속 그런 식이다.

압축 유닛(200)은, 압축된 출력 청크(204)의 마스크 부분(208)에서의 각각의 비트를 논리 0으로 설정하는데, 여기서 데이터의 압축되지 않은 청크(202)에서의 대응 바이트는 제로 바이트이다. 압축 유닛(200)은 또한, 압축된 출력 청크(204)의 마스크 부분(208)에서의 각각의 비트를 논리 1로 설정하는데, 여기서 데이터의 압축되지 않은 청크(202)의 대응하는 바이트는 넌제로 바이트이다. 이러한 방식으로, 압축된 출력 청크(204)의 마스크 부분(208)은 데이터의 압축되지 않은 청크(202)에서 제로 및 넌제로 바이트의 존재 및 위치를 인코딩한다.

압축 유닛(200)은, 데이터의 압축되지 않은 청크(202)에서 넌제로 바이트의 수를 결정하는 것에 의해, 압축된 출력 청크(204)의 데이터 부분(210)을 생성한다. 그 다음, 압축 유닛(200)은 데이터의 압축되지 않은 청크(202) 내의 넌제로 바이트의 수 및 압축된 출력 청크(204)의 데이터 부분(210)에서 이용 가능한 바이트의 수에 기초하여, 데이터의 압축되지 않은 청크(202)의 각각의 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크(204)의 데이터 부분(210)에서의 비트의 수를 결정한다. 예를 들면, 데이터의 압축된 청크(204)의 데이터 부분(210)이 24 바이트 폭(즉, 192 비트)이고 데이터의 압축되지 않은 청크(202)에 47 넌제로 바이트가 있는 경우, 데이터의 압축되지 않은 청크(202)로부터 각각의 넌제로 바이트를 저장하는데 4 비트가 데이터 부분(210)에서 이용 가능하다.

몇몇 실시형태에서, 압축 유닛(200)은 또한, 데이터의 압축되지 않은 청크(202)의 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크(204)의 데이터 부분(210)에서의 추가 비트의 수를, 만약 있다면, 결정할 수 있다. 상기에서 주어지는 예에서, 예를 들면, 네 개의 추가 비트가 넌제로 바이트를 저장하는데 이용 가능하다(즉, 192 mod 47 = 4 비트). 압축 유닛(200)은, 넌제로 바이트 중 하나 이상을 잘라내기 이전에 이들 추가 비트를, 데이터의 압축되지 않은 청크(204)에서의 넌제로 바이트 중 하나 이상에 할당할 수 있다. 예를 들면, 압축 유닛(200)은 이들 추가 비트를 압축된 출력 청크(204)의 데이터 부분(210)의 처음 N 개의 바이트에 할당할 수도 있을 것이다.

그 다음, 압축 유닛(200)은, 데이터의 압축되지 않은 청크(202)에서의 넌제로 바이트를, 각각의 넌제로 바이트를 저장하기 위해 데이터 부분(210)에서 이용 가능한 결정된 비트의 수(즉, 상기에서 주어지는 예에서는 4)로 잘라낸다. 압축 유닛(200)은, 하나의 실시형태에서, 데이터 부분(210)에서 이용 가능한 비트 수 이내로 적합되도록 넌제로 바이트의 최하위 비트("LSB")를 잘라낸다. 다른 실시형태에서, 압축 유닛(200)은 넌제로 바이트의 MSB를 잘라낸다. 그 다음, 압축 유닛(200)은 잘려진 넌제로 바이트를 압축된 출력 청크(204)의 데이터 부분(210)에 저장한다. 그 다음, 마스크 부분(208) 및 데이터 부분(210)을 포함하는 압축된 출력 청크(204)는, 예를 들면, DNN 모듈(105)의 온 보드 메모리 또는 DNN 모듈(105)의 애플리케이션 호스트의 오프 보드 메모리로 출력될 수 있다. 상기에서 설명되는 압축 프로세스에 관한 추가적인 세부 사항은 도 3 및 4와 관련하여 하기에서 제공될 것이다.

상기에서 간략하게 논의되는 바와 같이, 압축된 출력 청크(204)의 마스크 부분(208)에서의 두 개 이상의 비트는, 몇몇 실시형태에서, 데이터의 압축되지 않은 청크(202)에서의 바이트에 대응한다. 이들 실시형태에서, 압축된 출력 청크(204)의 마스크 부분(208)에서의 비트는, 압축되지 않은 청크(202)에서의 대응하는 바이트일 뿐만 아니라 또한 그것의 근사 크기를 나타낼 수 있다. 예를 들면, 그리고 제한 없이, 마스크 부분(208)은 데이터의 압축되지 않은 청크(202)에서 바이트당 2 비트를 포함할 수도 있을 것이다. 이 예에서, 00은, 데이터의 압축되지 않은 청크(202)에서의 대응하는 넌제로 값의 MSB가 제로이다는 것을 나타낼 수 있고, 01은 MSB가 64 미만이다는 것을 나타낼 수 있고, 10은 MSB가 128 미만이다는 것을 나타낼 수 있고, 11은 MSB가 128을 초과한다는 것을 나타낼 수 있다. 이들 값은, 데이터의 압축되지 않은 청크(202)에서의 바이트 중 어떤 MSB가 잘려질 수 있는지를 식별하는데 활용될 수 있다. 예를 들면, 특정한 바이트의 MSB가 64 미만이면, 데이터 손실 없이 상위 두 개의 MSB가 잘려질 수 있다.

도 3은, 하나의 실시형태에 따른, 압축되지 않은 활성화 데이터의 예시적인 청크(202)를 참조하여 압축되지 않은 활성화 데이터의 청크(202)를 압축하기 위한 DNN 모듈(105)의 동작의 양태를 예시하는 데이터 구조도이다. 도 3에서 도시되는 예에서, 활성화 데이터의 압축되지 않은 청크(202)는 64 바이트 길이이다. 압축되지 않은 활성화 데이터의 청크(202)의 바이트 0, 1 및 63은 제로 바이트이다. 압축되지 않은 활성화 데이터의 청크(202)의 바이트 2, 3 및 62는 넌제로 바이트인데, 각각, 값 113, 121 및 2를 저장한다. 압축되지 않은 활성화 데이터의 예시적인 청크(202)의 바이트 4 내지 61은 제로 또는 넌제로 바이트를 저장할 수 있다.

상기에서 논의되는 바와 같이, 압축 유닛(200)은, 활성화 데이터의 압축되지 않은 청크(202)에서의 제로 및 넌제로 바이트의 존재 및 위치를 인코딩하는 마스크 부분(208)을 생성할 수 있다. 이 예에서, 예를 들면, 마스크 부분(208)의 비트 0, 1 및 63은, 활성화 데이터의 압축되지 않은 청크(202)에서의 대응하는 위치에서의 제로 바이트의 존재를 나타내기 위해 논리 0으로 설정되었다. 유사하게, 마스크 부분(208)의 비트 2, 3, 및 62는, 활성화 데이터의 압축되지 않은 청크(202)의 바이트 2, 3, 및 62가 넌제로 바이트를 저장한다는 것을 나타내기 위해 논리 1로 설정되었다.

상기에서 논의되는 바와 같이, 압축 유닛(200)은, 데이터의 압축되지 않은 청크(202)에서 넌제로 바이트의 수를 결정하는 것에 의해, 압축된 출력 청크(204)의 데이터 부분(210)을 생성한다. 예를 들면, 도 3에서 도시되는 예에서, 데이터의 압축되지 않은 청크(202)는 47 넌제로 바이트를 포함한다(그들 모두가 도 3에 도시되는 것은 아님). 그 다음, 압축 유닛(200)은 데이터의 압축되지 않은 청크(202) 내의 넌제로 바이트의 수 및 압축된 출력 청크(204)의 데이터 부분(210)에서 이용 가능한 바이트의 수에 기초하여, 데이터의 압축되지 않은 청크(202)의 각각의 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크(204)의 데이터 부분(210)에서의 비트의 수를 결정한다.

도 3에서 도시되는 예에서, 예를 들면, 데이터의 압축된 청크(204)의 데이터 부분(210)은 24 바이트 폭(즉, 192 비트)이고 데이터의 압축되지 않은 청크(202)에는 47 넌제로 바이트가 존재한다. 결과적으로, 데이터의 압축되지 않은 청크(202)로부터 각각의 넌제로 바이트(즉, 192/47 = 4 나머지 4)를 저장하기 위해 네 개의 비트가 데이터 부분(210)에서 이용 가능하다.

상기에서 또한 논의되는 바와 같이, 압축 유닛(200)은 또한, 데이터의 압축되지 않은 청크(202)의 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크(204)의 데이터 부분(210)에서의 추가 비트의 수를, 만약 있다면, 결정할 수 있다. 도 3에서 도시되는 예에서, 예를 들면, 네 개의 추가 비트가 넌제로 바이트를 저장하는데 이용 가능하다(즉, 192 mod 47 = 4 비트). 압축 유닛(200)은, 넌제로 바이트 중 하나 이상을 잘라내기 이전에 이들 추가 비트를, 데이터의 압축되지 않은 청크(204)에서의 넌제로 바이트 중 하나 이상에 할당할 수 있다. 도 3에서 도시되는 예에서, 네 개의 추가 비트 중 하나가 압축되지 않은 활성화 데이터의 청크(202)에서의 처음 네 개의 넌제로 바이트의 각각에 할당되었다. 결과적으로, 활성화 데이터의 압축되지 않은 청크(202)의 처음 네 개의 바이트는 4가 아닌 5 비트로 잘려질 것이다.

그 다음, 압축 유닛(200)은 데이터의 압축되지 않은 청크(202) 내의 넌제로 바이트를, 각각의 넌제로 바이트를 저장하기 위해 데이터 부분(210)에서 이용 가능한 결정된 비트의 수(즉, 처음 4 개의 넌제로 바이트에 대해 5 비트 상기 주어지는 예에서는 4)로 잘라낸다. 도 3에서 도시되는 예에서, 압축 유닛(200)은, 하나의 실시형태에서, 데이터 부분(210)에서 이용 가능한 비트 수(즉, 이 예에서는 4) 이내로 적합되도록 넌제로 바이트의 LSB를 잘라낸다. 다른 실시형태에서, 압축 유닛(200)은 넌제로 바이트의 MSB를 잘라낸다.

도 3에서 도시되는 바와 같이, 활성화 데이터의 압축되지 않은 청크(202)의 두 번째 바이트는 값 113(01110001)을 저장한다. 활성화 데이터의 압축되지 않은 청크(202)에서 처음 네 개의 넌제로 값에 5 비트가 할당되었기 때문에, 이 값의 세 개의 LSB가 잘려져서 활성화 데이터의 압축된 청크(210)에서의 첫 번째 위치에 값 01110이 저장되는 것으로 나타난다. 활성화 데이터의 압축되지 않은 청크(202)의 세 번째 바이트는 값 121(01111001)을 저장한다. 활성화 데이터의 압축되지 않은 청크(202)에서 처음 네 개의 넌제로 값에 5 비트가 할당되었기 때문에, 이 값의 세 개의 LSB가 잘려져서 활성화 데이터의 압축된 청크(210)의 두 번째 위치에 값 01111이 저장되는 것으로 나타난다.

도 3에서 도시되는 예에서, 활성화 데이터의 압축되지 않은 청크(202)의 62 번째 바이트는 값 2(00000010)를 저장한다. 활성화 데이터의 압축되지 않은 청크(202)에서의 5 번째 내지 63 번째 넌제로 값에 4 비트가 할당되었기 때문에, 이 값의 네 개의 LSB가 잘려져서 활성화 데이터의 압축된 청크(210)의 62 번째 위치에 값 0000이 저장되는 것으로 나타난다. 활성화 데이터의 압축되지 않은 청크(202)에서의 다른 넌제로 바이트는 잘려져서 활성화 데이터의 압축된 청크(204)의 데이터 부분(210)에서 유사한 방식으로 저장될 수 있다.

일단 압축되지 않은 활성화 데이터의 청크(202)의 넌제로 바이트의 모두가 데이터 부분(203)에 저장되면, 압축 유닛(200)은, 마스크 부분(208) 및 데이터 부분(210)을 포함하는 압축된 출력 청크(204)를, 예를 들면, DNN 모듈(105)의 온 보드 메모리 또는 DNN 모듈(105)의 애플리케이션 호스트의 오프 보드 메모리에 저장한다. 압축 프로세스에 관한 추가적인 세부 사항은 도 4와 관련하여 하기에서 제공된다.

도 4는, 본원에서 개시되는 하나의 실시형태에 따른, 압축되지 않은 활성화 데이터의 청크(202)를 압축하기 위한 DNN 모듈(105)의 동작의 양태를 나타내는 루틴(400)을 예시하는 루틴(400)을 도시하는 흐름도이다. 도 4, 및 다른 도면과 관련하여 본원에서 설명되는 논리적 동작은, (1) 컴퓨팅 디바이스 상에서 실행되는 일련의 컴퓨터 구현 행위(act) 또는 프로그램 모듈로서 및/또는 (2) 컴퓨팅 디바이스 내의 인터커넥트된 머신 논리 회로 또는 회로 모듈로서 구현될 수 있다는 것이 인식되어야 한다.

본원에서 개시되는 기술의 특정한 구현예는, 컴퓨팅 디바이스의 성능 및 다른 요건에 의존하는 선택의 문제이다. 따라서, 본원에서 설명되는 논리적 동작은, 상태, 동작, 구조적 디바이스, 행위, 또는 모듈로서 다양하게 지칭된다. 이들 상태, 동작, 구조적 디바이스, 행위 및 모듈은 하드웨어, 소프트웨어, 펌웨어, 특수 목적 디지털 논리, 및 이들의 임의의 조합으로 구현될 수 있다. 도면에 도시되고 본원에서 설명되는 것보다 더 많은 또는 더 적은 동작이 수행될 수 있다는 것이 인식되어야 한다. 이들 동작은 또한, 본원에서 설명되는 것과는 상이한 순서로 수행될 수 있다.

루틴(400)은 동작 402에서 시작하는데, 여기서 압축 유닛(200)은 활성화 데이터의 압축되지 않은 청크(202)에서의 넌제로 바이트의 수를 결정한다. 그 다음, 루틴(400)은 동작 404로 진행하는데, 여기서 압축 유닛(200)은, 활성화 데이터의 압축되지 않은 청크(202)에서의 넌제로 바이트의 수가, 활성화 데이터의 압축된 청크(204)의 데이터 부분(210)에서 이용 가능한 바이트의 수보다 더 작거나 또는 동일한지를 결정한다. 활성화 데이터의 압축되지 않은 청크(202)의 넌제로 바이트는, 넌제로 바이트의 수가 활성화 데이터의 압축된 청크(204)의 데이터 부분(210)에서 이용 가능한 바이트의 수보다 더 작거나 또는 동일한 경우 압축될 필요가 없다. 따라서, 이 경우에 루틴(400)은 동작 408로 진행하는데, 여기서 넌제로 바이트는 잘려짐 없이 데이터 부분(210)에 저장된다.

활성화 데이터의 압축되지 않은 청크(202)에서의 넌제로 바이트의 수가, 활성화 데이터의 압축된 청크(204)의 데이터 부분(210)에서 이용 가능한 바이트의 수보다 더 크면, 루틴(400)은 동작 406로부터 동작 412로 진행한다. 동작 412에서, 압축 유닛(200)은 상기에서 설명되는 방식으로 활성화 데이터의 압축되지 않은 청크(202)의 넌제로 바이트를 저장하기 위해 이용 가능한 출력 데이터의 압축된 청크(204)의 데이터 부분(210)의 비트의 수를 결정한다. 그 다음, 루틴(400)은 동작 412로부터 동작 414로 진행한다.

동작 414에서, 압축 유닛(200)은, 데이터의 압축되지 않은 청크(202)의 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크(204)의 데이터 부분(210)에서 추가적인 비트의 수를, 만약 있다면, 결정한다. 상기에서 논의되는 바와 같이, 압축 유닛(200)은, 넌제로 바이트의 하나 이상을 자르기 이전에, 데이터의 압축되지 않은 청크(204)에서의 넌제로 바이트의 하나 이상에 이들 추가적인 비트를 할당할 수 있다. 이것은 동작 416에서 발생한다.

동작 416으로부터, 루틴(400)은 동작 418로 진행하는데, 여기서 압축 유닛(200)은, 활성화 데이터의 압축된 청크(204)의 마스크 부분(208)에서의 비트를, 활성화의 압축되지 않은 청크(202)에서의 대응하는 바이트가 넌제로인 논리 1로 설정한다. 압축 유닛(200)은 또한, 활성화 데이터의 압축된 청크(204)의 마스크 부분(208)에서의 비트를, 활성화의 압축되지 않은 청크(202)에서의 대응하는 바이트가 제로인 논리 0으로 설정한다.

동작 418로부터, 루틴(400)은, 그 다음, 동작 420으로 진행하는데, 여기서 압축 유닛(200)은, 데이터의 압축되지 않은 청크(202)에서의 넌제로 바이트의 LSB 또는 MSB를, 각각의 넌제로 바이트에 대해 데이터 부분(210)에서 이용 가능한 결정된 비트의 수로 잘라낸다. 그 다음, 잘려진 넌제로 바이트는 활성화 데이터의 압축된 청크(204)의 데이터 부분(210)에 저장된다. 그 다음, 압축 유닛(200)은, 마스크 부분(208) 및 데이터 부분(210)을 포함하는 압축된 출력 청크(204)를, DNN 모듈(105)의 온 보드 메모리 또는 DNN 모듈(105)의 애플리케이션 호스트의 오프 보드 메모리에 저장한다. 동작 408 및 420으로부터, 루틴(400)은 동작 410으로 진행하는데, 그곳에서 루틴은 종료된다.

도 5a 및 도 5b는, 하나의 실시형태에 따른, 압축된 활성화 데이터를 압축 해제하기 위한 DNN 모듈(105)의 구성 및 동작의 양태를 도시하는 컴퓨팅 시스템 아키텍쳐 도면이다. 상기에서 간략하게 논의되는 바와 같이, 그리고 도 5a 및 도 5b에서 도시되는 바와 같이, DNN 모듈(105)은 또한, 상기에서 설명되는 방식으로 압축된 활성화 데이터의 청크(204)를 압축 해제할 수 있는 압축 해제 유닛(500)을 포함할 수 있다.

예를 들면, 압축 해제 유닛(500)은, DNN 프로세서 내의 메모리 또는 애플리케이션 호스트의 메모리와 같은 스토리지(206)로부터 활성화 데이터의 압축된 청크(204)를 수신할 수 있다. 그 다음, 압축 해제 유닛(500)은, 압축된 청크(204)의 마스크 부분(208)에서의 논리적 참 비트의 수에 기초하여, 데이터의 압축된 청크(204)의 데이터 부분(210)에서의 넌제로 바이트의 수를 결정할 수 있다. 압축 해제 유닛(500)은 또한, 압축된 출력 청크(204)의 마스크 부분(208)에서의 논리적 참 비트의 위치에 기초하여, 데이터의 압축 해제된 청크(502)에서의 넌제로 바이트의 위치를 결정할 수 있다. 압축 해제 유닛(500)은, 유사한 방식으로, 데이터의 압축 해제된 청크(502)에서의 제로 바이트의 위치를 결정할 수 있다.

압축 해제 유닛(500)은 또한, 압축된 출력 청크(204)의 데이터 부분(210)에 잘려진 넌제로 바이트의 각각을 저장하기 위해 압축 유닛(200)에 의해 사용되는 비트의 수를 결정할 수 있다. 압축 해제 유닛(500)은 (마스크 부분(208)에 의해 나타내어지는 바와 같은) 데이터의 압축된 청크(204)에서의 넌제로 바이트의 수 및 압축 해제된 출력 청크(502)의 타겟 사이즈에 기초하여, 각각의 잘려진 넌제로 바이트를 저장하기 위해 사용되는 비트의 수를 결정할 수 있다.

상기에서 주어지는 예에서, 예를 들면, 데이터의 압축된 청크(204)의 데이터 부분이 24 바이트 폭(즉, 192 비트)이고 데이터의 압축되지 않은 청크(202)에 47 넌제로 바이트가 있는 경우, 이것은, 데이터의 압축되지 않은 청크(202)의 각각의 잘려진 넌제로 바이트를 데이터 부분(210)에 저장하기 위해 압축 유닛(200)이 4 비트를 활용하였다는 것을 의미한다. 압축 해제 유닛(500)은 또한, 압축된 출력 청크(204)의 데이터 부분(210)에 저장되는 잘려진 넌제로 바이트의 하나 이상에 압축 유닛(200)이 할당한 추가 비트의 수를, 만약 있다면, 결정할 수 있다.

논리 0인 압축된 출력 청크(204)의 마스크 부분(208)에서의 각각의 비트 위치에 대해, 압축 해제 유닛(500)은 압축 해제된 출력 청크(502)의 대응하는 위치로 제로 바이트를 삽입한다. 논리 1인 마스크 부분(208)에서의 각각의 위치에 대해, 압축 해제 유닛(500)은, 압축된 입력 청크(204)의 대응하는 위치로부터의 잘려진 넌제로 바이트를, 압축된 출력 청크(204)의 압축 동안 잘려지는 비트의 수와 동등한 수의 제로 비트와 함께 압축 해제된 출력 청크(502)의 대응하는 위치 안으로 삽입한다. 압축 동안 어떤 비트가 잘려졌는지에 따라 잘려진 넌제로 바이트의 LSB 또는 MSB 안으로 제로 비트가 삽입될 수 있다.

상기에서 언급되는 바와 같이, 압축 해제 유닛(500)은 또한, 몇몇 실시형태에서, 압축 해제된 출력 청크(502)에 저장되는 잘려진 넌제로 바이트의 하나 이상에 오프셋(예를 들면, 00000001)을 추가한다. 예를 들면, 압축 이후 제로 바이트가 되는 데이터의 압축되지 않은 청크(202)의 넌제로 바이트에 오프셋이 추가될 수 있다. 이러한 방식으로, 넌제로 바이트는 압축 해제시 제로 바이트가 되지 않을 것이다.

도 6은, 하나의 실시형태에 따른, 압축된 활성화 데이터의 예시적인 청크를 참조하여 활성화 데이터를 압축 해제하기 위한 DNN 모듈(105)의 동작의 양태를 예시하는 데이터 구조도이다. 도 6에서 도시되는 예는, 도 3과 관련하여 상기에서 설명되는 예에서 생성되는 압축 활성화 데이터(204)의 압축 해제를 예시한다. 도 6에서 도시되는 바와 같이, 마스크 부분(208)은 비트 0, 1 및 63에 제로를 저장하고, 비트 2, 3 및 62에 1을 저장한다. 데이터 부분(210)은, 도 6에서 도시되는 방식으로 값 01110, 01111, 및 0000을 저장한다.

압축 해제 유닛(500)이 상기에서 설명되는 프로세싱 동작을 수행함에 따라, 마스크 부분(208)의 첫 번째 비트 위치에서의 논리 0은, 압축 해제 유닛(500)으로 하여금 활성화 데이터의 압축 해제된 청크(502)의 첫 번째 바이트로서 제로 바이트를 저장하게 할 것이다. 유사하게, 마스크 부분(208)의 두 번째 비트 위치에서의 논리 0은 압축 해제 유닛(500)으로 하여금 데이터의 압축 해제된 청크(502)의 두 번째 바이트로서 제로 바이트를 저장하게 할 것이다.

마스크 부분(208)의 세 번째 위치에서의 논리 1은, 압축 해제 유닛(500)으로 하여금, 데이터 부분(210)의 처음 5 비트(즉, 01110)를 검색하게 하고 그리고 세 개의 LSB를 삽입하여, 활성화 데이터의 압축 해제된 청크(502)의 세 번째 바이트로서 값 01110000(112)이 저장되는 것으로 나타나게 할 것이다. 유사하게, 마스크 부분(208)의 네 번째 비트 위치에서의 논리 1은, 압축 해제 유닛(500)으로 하여금, 데이터 부분(210)의 두 번째 5 비트(즉, 01111)를 검색하게 하고 그리고 세 개의 LSB를 삽입하여, 활성화 데이터의 압축 해제된 청크(502)의 네 번째 바이트로서 값 01111000(120)이 저장되는 것으로 나타나게 할 것이다.

마스크 부분(208)의 63 번째 비트 위치에서의 논리 1은, 압축 해제 유닛(500)으로 하여금, 데이터 부분(210)의 마지막 4 비트(즉, 0000)를 검색하게 하고 그리고 네 개의 제로 LSB를 삽입하여, 활성화 데이터의 압축 해제된 청크(502)의 63 번째 바이트 위치에서 제로의 값이 저장되는 것으로 나타나게 할 것이다. 마스크 부분(208)의 마지막 비트 위치에서의 논리 0은, 압축 해제 유닛(500)으로 하여금 데이터의 압축 해제된 청크(502)의 마지막 바이트로서 제로 바이트를 저장하게 할 것이다.

상기에서 논의되는 바와 같이, 압축 해제 유닛(500)은 활성화 데이터의 압축 해제된 청크(502)에서의 소정의 바이트에 오프셋 값을 추가할 수 있다. 예를 들면, 압축 해제 유닛(500)은 00000001과 같은 오프셋 값을, 활성화 데이터의 압축되지 않은 청크(202)에서 넌제로였고 활성화 데이터의 압축된 청크(204)에서 제로 바이트로 압축되었던 바이트에 추가할 수 있다.

도 6에서 도시되는 예에서, 데이터 부분(210)에서의 마지막 바이트는, 활성화 데이터의 압축되지 않은 청크(202)에서 넌제로(즉 2)였지만, 그러나 활성화 데이터의 압축된 청크(504) 제로가 되었다. 따라서, 압축 해제 유닛(500)은 이 바이트에 00000001과 같은 오프셋 값을 추가할 수 있고, 그에 의해, 활성화 데이터의 압축되지 않은 청크(202)에서의 넌제로 바이트가 제로 바이트로 압축되지 않을 것을 보장할 수 있다.

도 7은, 본원에서 개시되는 하나의 실시형태에 따른, 활성화 데이터를 압축 해제하기 위한 DNN 모듈(105)의 동작의 양태를 예시하는 루틴(700)을 도시하는 흐름도이다. 루틴(700)은 동작 702)에서 시작하는데, 여기서, 압축 해제 유닛(500)은 활성화 데이터의 압축 해제된 청크(204)의 마스크 부분(208)을 활용하여 넌제로 바이트의 수 및 활성화 데이터의 압축 해제된 청크(502)에서의 그들의 위치를 결정한다.

루틴(700)은, 동작 702로부터 동작 704로 진행하는데, 여기서 압축 해제 유닛(500)은, 활성화 데이터의 압축된 청크(204)에서의 넌제로 바이트의 수가, 활성화 데이터의 압축 해제된 청크(502)의 바이트 수보다 더 작거나 또는 동일한지를 결정한다. 상기에서 논의되는 바와 같이, 활성화 데이터의 압축된 청크(204)의 넌제로 바이트는, 넌제로 바이트의 수가, 활성화 데이터의 압축 해제된 청크(502)의 바이트의 수보다 더 작거나 또는 동일한 경우, 압축 해제될 필요가 없다. 따라서, 이 경우, 루틴(700)은 동작 708로 진행하는데, 여기서 활성화 데이터의 압축된 청크(204)에서의 넌제로 바이트는, 수정 없이, 활성화 데이터의 압축 해제된 청크(502)에 저장된다.

활성화 데이터의 압축된 청크(504)에서의 넌제로 바이트의 수가 활성화 데이터의 압축 해제된 청크(502)에서의 바이트의 수보다 더 큰 경우, 루틴(700)은 동작 706로부터 동작 712로 진행한다. 동작 712에서, 압축 해제 유닛(500)은, 활성화 데이터의 압축되지 않은 청크(202)의 각각의 잘려진 넌제로 바이트를 저장하기 위해 압축 유닛(200)이 사용한 출력 데이터의 압축된 청크(204)의 데이터 부분(210)의 비트의 수를 결정한다. 그 다음, 루틴(700)은 상기에서 설명되는 방식으로 동작 712로부터 동작 714로 진행한다.

동작 714에서, 압축 해제 유닛(500)은, 데이터의 압축되지 않은 청크(202)의 넌제로 바이트를 저장하기 위해 사용되었던 추가 비트의 수를, 만약 있다면, 결정한다. 압축 해제 유닛(500)은, 상기에서 설명되는 방식으로, 데이터의 압축 해제된 청크(502)에서의 넌제로 바이트의 하나 이상에 이들 추가 비트를 할당할 수 있다. 이것은 동작 716에서 발생한다.

동작 716으로부터, 루틴(700)은 동작 718로 진행하는데, 여기서 압축 해제 유닛(500)은, 논리 0인 압축된 출력 청크(204)의 마스크 부분(208)에서의 각각의 비트 위치에 대한 압축 해제된 출력 청크(502)의 대응하는 위치에 제로 바이트를 삽입한다. 논리 1인 압축된 출력 청크(204)의 마스크 부분(208)에서의 각각의 비트 위치에 대해, 압축 해제 유닛(500)은, 압축된 입력 청크(204)의 대응하는 위치로부터의 잘려진 넌제로 바이트를, 압축된 출력 청크(204)의 압축 동안 잘려지는 비트의 수와 동등한 수의 제로 비트와 함께 압축 해제된 출력 청크(502)의 대응하는 위치 안으로 삽입한다. 압축 동안 어떤 비트가 잘려졌는지에 따라 잘려진 넌제로 바이트의 LSB 또는 MSB 안으로 제로 비트가 삽입될 수 있다. 이것은 동작 720에서 발생한다.

압축 해제 유닛(500)은 또한, 몇몇 실시형태에서, 압축 해제된 출력 청크(502)에 저장되는 잘려진 넌제로 바이트의 하나 이상에 오프셋 값을 추가할 수 있다. 예를 들면, 압축 이후 제로 바이트가 되는 데이터의 압축되지 않은 청크(202)의 넌제로 바이트에 오프셋이 추가될 수 있다. 이러한 방식으로, 넌제로 바이트는 압축 및 압축 해제시 제로 바이트가 되지 않을 것이다. 다른 실시형태에서, 활성화 데이터의 압축 해제된 청크(502)에서의 모든 바이트에 오프셋이 추가될 수 있다.

그 다음, 압축 해제 유닛(500)은, 압축 해제된 출력 청크(502)를, 뉴런(105F)에 의한 사용을 위해DNN 모듈(105)의 애플리케이션 호스트의 오프 보드 메모리 또는 DNN 모듈(105)의 온 보드 메모리에 저장한다. 동작 708 및 720으로부터, 루틴(700)은 동작 710으로 진행하는데, 그곳에서 루틴은 종료된다.

도 8은, 하나의 실시형태에 따른, 본원에서 제시되는 DNN 모듈(105)에 대한 애플리케이션 호스트로서 작용할 수 있는 컴퓨팅 디바이스에 대한 예시적인 컴퓨터 하드웨어 및 소프트웨어 아키텍쳐를 도시하는 컴퓨터 아키텍쳐 도면이다. 특히, 도 8에서 예시되는 아키텍쳐는, 서버 컴퓨터, 이동 전화, 전자 리더기, 스마트폰, 데스크탑 컴퓨터, AR/VR 디바이스, 태블릿 컴퓨터, 랩탑 컴퓨터, 또는 DNN 모듈(105)과 함께 사용하기에 적절한 다른 타입의 컴퓨팅 디바이스를 구현하도록 활용될 수 있다.

도 8에서 예시되는 컴퓨터(800)는, 중앙 프로세싱 유닛(802)(central processing unit; "CPU"), 랜덤 액세스 메모리(806)(random-access memory; "RAM") 및 리드 온리 메모리(read-only memory; "ROM")(808)를 포함하는 시스템 메모리(804), 및 메모리(804)를 CPU(802)에 커플링하는 시스템 버스(810)를 포함한다. 예컨대 기동 동안, 컴퓨터(800) 내의 엘리먼트 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입력/출력 시스템(basic input/output system; "BIOS" 또는 "펌웨어")은 ROM(808)에 저장될 수 있다. 컴퓨터(800)는, 오퍼레이팅 시스템(822), 애플리케이션 프로그램, 및 다른 타입의 프로그램을 저장하기 위한 대용량 스토리지 디바이스(812)를 더 포함한다. 대용량 스토리지 디바이스(812)는, 또한 다른 타입의 프로그램 및 데이터를 저장하도록 구성될 수 있다.

대용량 스토리지 디바이스(812)는, 버스(810)에 연결되는 대용량 스토리지 컨트롤러(도시되지 않음)를 통해 CPU(802)에 연결된다. 대용량 스토리지 디바이스(812) 및 그것의 관련된 컴퓨터 판독 가능 매체는, 컴퓨터(800)에 불휘발성 스토리지를 제공한다. 비록 본원에서 포함되는 컴퓨터 판독 가능 매체의 설명이, 하드 디스크, CD-ROM 드라이브, DVD-ROM 드라이브, 또는 USB 스토리지 키(storage key)와 같은 대용량 스토리지 디바이스를 언급하지만, 컴퓨터 판독 가능 매체는, 컴퓨터(800)에 의해 액세스될 수 있는 임의의 이용 가능한 컴퓨터 저장 매체 또는 통신 매체일 수 있다는 것이 기술 분야의 숙련된 자에 의해 인식되어야 한다.

통신 매체는, 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 다른 전송 메커니즘과 같은 변조된 데이터 신호에서의 다른 데이터를 포함하고 임의의 전달 매체를 포함한다. 용어 "변조된 데이터 신호"는, 신호에 정보를 인코딩하는 방식으로 자신의 특성 중 하나 이상이 변경 또는 설정된 신호를 의미한다. 제한이 아닌 예로서, 통신 매체는, 유선 네트워크 또는 직접 유선 연결과 같은 유선 매체, 및 음향, 무선 주파수, 적외선 및 다른 무선 매체와 같은 무선 매체를 포함한다. 상기의 것 중 임의의 것의 조합이 또한 컴퓨터 판독 가능 매체의 범위 내에 포함되어야 한다.

제한이 아닌 예로서, 컴퓨터 저장 매체는, 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 불휘발성의 착탈식 및 비착탈식 매체를 포함할 수 있다. 예를 들면, 컴퓨터 저장 매체는, RAM, ROM, EPROM, EEPROM, 플래시 메모리 또는 다른 솔리드 스테이트 메모리 기술, CD-ROM, 디지털 다기능 디스크(digital versatile disk; "DVD"), HD-DVD, BLU-RAY, 또는 다른 광학 스토리지, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스, 또는 소망되는 정보를 저장하기 위해 사용될 수 있고 컴퓨터(800)에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만, 그러나 이들로 제한되지는 않는다. 청구범위의 목적을 위해, 어구 "컴퓨터 저장 매체" 및 그 변형어는, 파 또는 신호 그 자체 또는 통신 매체를 포함하지 않는다.

다양한 구성에 따르면, 컴퓨터(800)는, 네트워크(820)와 같은 네트워크를 통한 원격 컴퓨터에 대한 논리적 연결을 사용하여 네트워크 환경에서 동작할 수 있다. 컴퓨터(800)는 버스(810)에 연결되는 네트워크 인터페이스 유닛(816)을 통해 네트워크(820)에 연결될 수 있다. 네트워크 인터페이스 유닛(816)은 또한, 다른 타입의 네트워크 및 원격 컴퓨터 시스템에 연결하기 위해 활용될 수 있다는 것이 인식되어야 한다. 컴퓨터(800)는 또한, 키보드, 마우스, 터치 입력, 전자 스타일러스(도 8에서 도시되지 않음), 또는 물리적 센서 예컨대 비디오 카메라를 비롯한, 같은 다수의 다른 디바이스로부터 입력을 수신하고 프로세싱하기 위한 입력/출력 컨트롤러(818)를 포함할 수 있다. 유사하게, 입력/출력 컨트롤러(818)는 디스플레이 스크린 또는 다른 타입의 출력 디바이스(도 8에서 또한 도시되지 않음)에 출력을 제공할 수 있다.

본원에서 설명되는 소프트웨어 컴포넌트는, CPU(802)에 로딩되어 실행될 때, CPU(802) 및 전체 컴퓨터(800)를 범용 컴퓨팅 디바이스로부터, 본원에서 제시되는 기능성을 용이하게 하도록 커스터마이징되는 특수 목적 컴퓨팅 디바이스로 변환할 수 있다는 것이 인식되어야 한다. CPU(802)는, 임의의 수의 상태를 개별적으로 또는 집합적으로 가정할 수 있는, 임의의 수의 트랜지스터 또는 다른 이산 회로 엘리먼트로부터 구성될 수 있다. 더 구체적으로, CPU(802)는 본원에서 개시되는 소프트웨어 모듈 내에 포함되는 실행 가능 명령어에 응답하여 유한 상태 머신으로서 동작할 수 있다. 이들 컴퓨터 실행 가능 명령어는, CPU(802)가 상태 사이에서 어떻게 전이하는지를 명시하는 것에 의해 CPU(802)를 변환할 수 있고, 그에 의해, CPU(802)를 구성하는 트랜지스터 또는 다른 별개의 하드웨어 엘리먼트를 변환할 수 있다.

본원에서 제시되는 소프트웨어 모듈을 인코딩하는 것은, 또한, 본원에서 제시되는 컴퓨터 판독 가능 매체의 물리적 구조를 변환할 수 있다. 물리적 구조의 특정한 변환은, 이 설명의 상이한 구현예에서, 다양한 요인에 의존한다. 그러한 인자의 예는, 컴퓨터 판독 가능 매체를 구현하기 위해 사용되는 기술, 컴퓨터 판독 가능 매체가 주 스토리지로서 특성 묘사되는지 또는 보조 스토리지로서 특성 묘사되는지의 여부, 및 등등을 포함하지만, 그러나 이들로 제한되지는 않는다. 예를 들면, 컴퓨터 판독 가능 매체가 반도체 기반의 메모리로서 구현되는 경우, 본원에서 개시되는 소프트웨어는, 반도체 메모리의 물리적 상태를 변환하는 것에 의해 컴퓨터 판독 가능 매체 상에 인코딩될 수 있다. 예를 들면, 소프트웨어는 트랜지스터, 커패시터, 또는 반도체 메모리를 구성하는 다른 별개의 회로 엘리먼트의 상태를 변환할 수 있다. 소프트웨어는 또한, 데이터를 그러한 컴포넌트 상에 저장하기 위해 그러한 컴포넌트의 물리적 상태를 변환할 수 있다.

다른 예로서, 본원에서 개시되는 컴퓨터 판독 가능 매체는 자기 또는 광학 기술을 사용하여 구현될 수 있다. 그러한 구현예에서, 본원에서 제시되는 소프트웨어는, 자기 또는 광학 매체 내에서 소프트웨어가 인코딩될 때, 자기 또는 광학 매체의 물리적 상태를 변환할 수 있다. 이들 변환은, 주어진 자기 매체 내에서의 특정한 위치의 자기적 특성을 변경하는 것을 포함할 수 있다. 이들 변환은 또한, 주어진 광학 매체 내에서의 특정 위치의 물리적 피쳐 또는 특성을 변경하여, 그들 위치의 광학적 특성을 변경하는 것을 포함할 수 있다. 본 설명의 범위 및 사상을 벗어나지 않으면서 물리적 매체의 다른 변환도 가능한데, 전술한 예는 본 논의를 용이하게 하기 위해서만 제공된다.

상기의 것에 비추어, 본원에서 제시되는 소프트웨어 컴포넌트를 저장하고 실행하기 위해, 많은 타입의 물리적 변환이 컴퓨터(800)에서 발생한다는 것이 인식되어야 한다. 컴퓨터(800)에 대한 도 8에서 도시되는 아키텍쳐, 또는 유사한 아키텍쳐는, 핸드헬드 컴퓨터, 비디오 게임 디바이스, 임베딩형 컴퓨터 시스템(embedded computer system), 모바일 디바이스 예컨대 스마트폰, 태블릿, 및 AR/VR 디바이스, 및 기술 분야의 숙련된 자에게 알려져 있는 다른 타입의 컴퓨팅 디바이스를 비롯한, 다른 타입의 컴퓨팅 디바이스를 구현하도록 활용될 수 있다는 것이 또한 인식되어야 한다. 컴퓨터(800)는 도 8에서 도시되는 모든 컴포넌트를 포함하지 않을 수도 있거나, 도 8에 명시적으로 도시되지 않는 다른 컴포넌트를 포함할 수 있거나, 또는 도 8에서 도시되는 것과 완전히 상이한 아키텍쳐를 활용할 수 있다는 것이 또한 고려된다.

도 9는, 본원에서 제시되는 다양한 실시형태에 따른, 개시된 기술의 양태가 구현될 수 있는 분산 네트워크 컴퓨팅 환경(900)을 예시하는 네트워크 도면이다. 도 9에서 도시되는 바와 같이, 하나 이상의 서버 컴퓨터(900A)는, 통신 네트워크(820)(이것은, 고정된 유선 또는 무선 LAN, WAN, 인트라넷, 엑스트라넷, 피어 투 피어 네트워크(peer-to-peer network), 가상의 사설 네트워크, 인터넷, 블루투스, 통신 네트워크, 독점적(proprietary) 저전압 통신 네트워크, 또는 다른 통신 네트워크 중 어느 하나일 수도 있거나, 또는 이들의 조합일 수도 있음)를 통해, 태블릿 컴퓨터(900B), 게임 콘솔(900C), 스마트 워치(900D), 스마트폰과 같은 전화기(900E), 개인용 컴퓨터(900F), 및 AR/VR 디바이스(900G)와 같은, 그러나 이들로 제한되지는 않는 다수의 클라이언트 컴퓨팅 디바이스와 인터커넥트될 수 있다.

통신 네트워크(820)가 인터넷인 네트워크 환경에서, 예를 들면, 서버 컴퓨터(900A)는, 하이퍼 텍스트 전송 프로토콜(hypertext transfer protocol; "HTTP"), 파일 전송 프로토콜(file transfer protocol; "FTP"), 또는 단순 객체 접근 프로토콜(simple object access protocol; "SOAP")과 같은 다수의 공지된 프로토콜 중 임의의 것을 통해, 클라이언트 컴퓨팅 디바이스(900B 내지 900G)로 또는 그로부터 데이터를 프로세싱 및 전달하도록 동작 가능한 전용 서버 컴퓨터일 수 있다. 추가적으로, 네트워크화된 컴퓨팅 환경(900)은, 보안 소켓 레이어(secured socket layer; "SSL") 또는 프리티 굿 프라이버시(pretty good privacy; "PGP")와 같은 다양한 데이터 보안 프로토콜을 활용할 수 있다. 클라이언트 컴퓨팅 디바이스(900B 내지 900G)의 각각은, 하나 이상의 컴퓨팅 애플리케이션 또는 단말 세션 예컨대 웹 브라우저(도 9에서 도시되지 않음), 또는 다른 그래픽 유저 인터페이스(도 9에서 도시되지 않음), 또는 모바일 데스크탑 환경(도 9에서 도시되지 않음)을 지원하여 서버 컴퓨터(900A)에 대한 액세스를 획득하도록 동작 가능한 오퍼레이팅 시스템을 구비할 수 있다.

서버 컴퓨터(900A)는 다른 컴퓨팅 환경(도 9에서 도시되지 않음)에 통신 가능하게 커플링될 수 있고 참여하는 유저의 상호 작용/리소스 네트워크에 관한 데이터를 수신할 수 있다. 예시적인 동작에서, 유저(도 9에서 도시되지 않음)는 클라이언트 컴퓨팅 디바이스(900B 내지 900G) 상에서 실행되는 컴퓨팅 애플리케이션과 상호 작용하여, 소망되는 데이터를 획득할 수도 있고 및/또는 다른 컴퓨팅 애플리케이션을 수행할 수도 있다.

데이터 및/또는 컴퓨팅 애플리케이션은, 서버(900A), 또는 서버들(900A) 상에 저장될 수도 있고, 예시적인 통신 네트워크(820)를 통해 클라이언트 컴퓨팅 디바이스(900B 내지 900G)를 통해 협력하는 유저와 통신할 수 있다. 참여하는 유저(도 9에서 도시되지 않음)는 서버 컴퓨터(8800A) 상에서 전체적으로 또는 부분적으로 수용되는 특정한 데이터 및 애플리케이션에 대한 액세스를 요청할 수도 있다. 이들 데이터는 프로세싱 및 저장을 위해 클라이언트 컴퓨팅 디바이스(900B 내지 900G)와 서버 컴퓨터(900A) 사이에서 전달될 수도 있다.

서버 컴퓨터(900A)는, 데이터 및 애플리케이션의 생성, 인증, 암호화 및 통신을 위한 컴퓨팅 애플리케이션, 프로세스 및 애플릿을 호스팅할 수 있고, 다른 서버 컴퓨팅 환경(도 9에서 도시되지 않음), 써드파티 서비스 공급자(도 9에서 도시되지 않음), 네트워크 결합 스토리지(network attached storage; "NAS") 및 스토리지 영역 네트워크(storage area networks; "SAN")와 협력하여 애플리케이션/데이터 트랜잭션을 실현할 수도 있다.

도 8에서 도시되는 컴퓨팅 아키텍쳐 및 도 9에서 도시되는 분산 네트워크 컴퓨팅 환경은 논의의 용이성을 위해 단순화되었다는 것이 인식되어야 한다. 컴퓨팅 아키텍쳐 및 분산 컴퓨팅 네트워크는 더 많은 컴퓨팅 컴포넌트, 디바이스, 소프트웨어 프로그램, 네트워킹 디바이스, 및 본원에서 구체적으로 설명되지 않는 다른 컴포넌트를 포함할 수 있고 활용할 수 있다는 것이 또한 인식되어야 한다.

본원에서 제시되는 개시는 또한, 다음의 조항에서 기술되는 주제를 포괄한다:

조항 1. 신경망 프로세서로서: 하나 이상의 뉴런; 및 압축 유닛을 포함하되, 압축 유닛은, 신경망 프로세서 내의 뉴런 중 적어도 하나에 의해 생성되는 데이터의 압축되지 않은 청크 - 데이터의 압축되지 않은 청크는 고정된 수의 바이트를 포함함 - 를 수신하도록; 압축된 출력 청크의 마스크 부분 - 마스크 부분은 데이터의 압축되지 않은 청크에서의 고정된 수의 바이트와 동등한 수의 비트를 포함하고, 마스크 부분에서의 각각의 비트는 데이터의 압축되지 않은 청크에서의 바이트에 대응하고, 마스크 부분에서의 각각의 비트는, 데이터의 압축되지 않은 청크에서의 대응하는 바이트가 제로인 논리 0으로 설정되고 데이터의 압축되지 않은 청크에서의 대응하는 바이트가 넌제로인 논리 1로 설정됨 - 을 생성하도록; 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 수를 결정하는 것, 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 수에 기초하여, 데이터의 압축되지 않은 청크의 잘려진 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크의 데이터 부분에서의 비트의 수를 결정하는 것, 데이터의 압축되지 않은 청크에서의 넌제로 바이트를, 결정된 비트의 수로 자르는 것, 및 압축된 출력 청크의 데이터 부분에 잘려진 넌제로 바이트를 저장하는 것에 의해, 압축된 출력 청크의 데이터 부분을 생성하도록; 그리고 압축된 출력 청크 - 압축된 출력 청크는 마스크 부분 및 데이터 부분을 포함함 - 를 출력하도록 구성된다.

조항 2. 조항 1의 신경망 프로세서로서, 신경망 프로세서는 압축 해제 유닛을 더 포함하되, 압축 해제 유닛은: 압축된 출력 청크를 수신하도록; 압축된 출력 청크의 마스크 부분에 기초하여 데이터의 압축되지 않은 청크의 데이터 부분에서의 넌제로 바이트의 수를 결정하도록; 압축된 출력 청크의 마스크 부분에 기초하여 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 위치를 결정하도록; 압축된 출력 청크의 데이터 부분에 잘려진 넌제로 바이트를 저장하기 위해 압축 유닛에 의해 사용되는 비트의 수를 결정하도록; 논리 0인 압축된 출력 청크의 마스크 부분에서의 각각의 위치에 대해, 압축 해제된 출력 청크의 대응하는 위치에 제로 바이트를 삽입하도록; 그리고 논리 1인 마스크 부분에서의 각각의 위치에 대해, 압축된 입력 청크의 대응하는 위치로부터의 잘려진 넌제로 바이트를, 압축 해제된 출력 청크의 대응하는 위치 및 압축된 출력 청크의 압축 동안 잘려지는 비트의 수와 동등한 수의 제로 비트에 삽입하도록 구성된다.

조항 3. 조항 1 및 2 중 임의의 것의 신경망 프로세서로서, 압축 유닛은 또한: 데이터의 압축되지 않은 청크의 잘려진 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크의 데이터 부분에서의 추가 비트의 수를 결정하도록; 그리고 넌제로 바이트의 하나 이상을 잘라내기 이전에 데이터의 압축되지 않은 청크의 넌제로 바이트의 하나 이상에 추가 비트를 할당하도록 구성된다.

조항 4. 조항 1 내지 3 중 임의의 것의 신경망 프로세서로서, 압축 해제 유닛은 또한, 압축된 출력 청크의 데이터 부분에 저장되는 넌제로 바이트의 하나 이상에 할당되는 추가 비트의 수를 결정하도록 구성된다.

조항 5. 조항 1 내지 4 중 임의의 것의 신경망 프로세서로서, 압축 해제 유닛은 또한, 압축 해제된 출력 청크에 저장되는 잘려진 넌제로 바이트의 하나 이상에 오프셋을 추가하도록 구성된다.

조항 6. 조항 1 내지 5 중 임의의 것의 신경망 프로세서로서, 넌제로 바이트의 하나 이상의 최하위 비트(LSB)가 잘려진다.

조항 7. 조항 1 내지 6 중 임의의 것의 신경망 프로세서로서, 넌제로 바이트의 하나 이상의 최상위 비트(MSB)가 잘려진다.

조항 8. 신경망 프로세서로서: 하나 이상의 뉴런; 및 압축 해제 유닛을 포함하되, 압축 해제 유닛은, 마스크 부분 및 데이터 부분을 포함하는 데이터의 압축된 청크를 수신하도록; 마스크 부분에서의 비트에 기초하여 데이터의 압축 해제된 청크에서의 넌제로 바이트의 수를 결정하도록; 넌제로 바이트의 수에 적어도 부분적으로 기초하여, 데이터의 압축된 출력 청크의 데이터 부분에 잘려진 넌제로 바이트를 저장하기 위해 사용되는 비트의 수를 결정하도록; 논리 0인 데이터의 압축된 청크의 마스크 부분에서의 각각의 비트 위치에 대해, 데이터의 압축 해제된 청크의 대응하는 위치에 제로 바이트를 삽입하도록; 그리고 논리 1인 데이터의 압축된 청크의 마스크 부분에서의 각각의 위치에 대해, 데이터의 압축된 청크의 데이터 부분에서의 대응하는 위치로부터의 잘려진 넌제로 바이트를, 데이터의 압축 해제된 청크에서의 대응하는 위치 및 데이터의 압축된 청크의 압축 동안 잘려지는 비트의 수와 동등한 수의 제로 비트에 삽입하도록 구성된다.

조항 9. 조항 8의 신경망 프로세서로서, 압축 유닛을 더 포함하되, 압축 유닛은: 신경망 프로세서 내의 뉴런 중 적어도 하나에 의해 생성되는 데이터의 압축되지 않은 청크 - 데이터의 압축되지 않은 청크는 고정된 수의 바이트를 포함함 - 를 수신하도록; 데이터의 압축된 청크의 마스크 부분 - 마스크 부분은 데이터의 압축되지 않은 청크에서의 고정된 수의 바이트와 동등한 수의 비트를 포함하고, 마스크 부분에서의 각각의 비트는 데이터의 압축되지 않은 청크에서의 바이트에 대응하고, 마스크 부분에서의 각각의 비트는, 데이터의 압축되지 않은 청크에서의 대응하는 바이트가 제로인 논리 0을 포함하고 데이터의 압축되지 않은 청크에서의 대응하는 바이트가 넌제로인 논리 1을 포함함 - 을 생성하도록; 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 수를 결정하는 것, 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 수에 기초하여, 데이터의 압축되지 않은 청크의 잘려진 넌제로 바이트를 저장하는데 이용 가능한 데이터의 압축된 청크의 데이터 부분에서의 비트의 수를 결정하는 것, 데이터의 압축되지 않은 청크에서의 넌제로 바이트를, 결정된 비트의 수로 자르는 것, 및 데이터의 압축된 청크의 데이터 부분에 잘려진 넌제로 바이트를 저장하는 것에 의해, 압축된 데이터 청크의 데이터 부분을 생성하도록; 그리고 데이터의 압축된 청크 - 데이터의 압축된 청크는 마스크 부분 및 데이터 부분을 포함함 - 를 출력하도록 구성된다.

조항 10. 조항 8 및 9 중 임의의 것의 신경망 프로세서로서, 압축 유닛은 또한, 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 수가 데이터의 압축된 청크의 데이터 부분에서의 바이트의 수보다 더 작거나 또는 동일한 경우, 잘려짐 없이, 데이터의 압축되지 않은 청크에서의 넌제로 바이트를 데이터의 압축된 청크의 데이터 부분에 저장하도록 구성된다.

조항 11. 조항 8 내지 10 중 임의의 것의 신경망 프로세서로서, 압축 유닛은 또한: 데이터의 압축되지 않은 청크의 잘려진 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크의 데이터 부분에서의 추가 비트의 수를 결정하도록; 그리고 넌제로 바이트의 하나 이상을 잘라내기 이전에 데이터의 압축되지 않은 청크의 넌제로 바이트의 하나 이상에 추가 비트를 할당하도록 구성된다.

조항 12. 조항 8 내지 11 중 임의의 것의 신경망 프로세서로서, 압축 해제 유닛은 또한, 압축된 출력 청크의 데이터 부분에 저장되는 넌제로 바이트의 하나 이상에 할당되는 추가 비트의 수를 결정하도록 구성된다.

조항 13. 조항 8 내지 12 중 임의의 것의 신경망 프로세서로서, 넌제로 바이트의 하나 이상의 최하위 비트(LSB)가 데이터의 압축된 청크의 압축 동안 잘려진다.

조항 14. 제8항 내지 13항 중 임의의 것의 신경망 프로세서로서, 넌제로 바이트의 하나 이상의 최상위 비트(MSB)는 데이터의 압축된 청크의 압축 동안 잘려진다.

조항 15. 컴퓨터 구현 방법으로서: 신경망 프로세서의 압축 유닛에서, 신경망 프로세서 내의 적어도 하나의 뉴런에 의해 생성되는 데이터의 압축되지 않은 청크 - 데이터의 압축되지 않은 청크는 고정된 수의 바이트를 포함함 - 를 수신하는 것; 압축된 출력 청크의 마스크 부분 - 마스크 부분은 데이터의 압축되지 않은 청크에서의 고정된 수의 바이트와 동등한 수의 비트를 포함하고, 마스크 부분에서의 각각의 비트는 데이터의 압축되지 않은 청크에서의 바이트에 대응하고, 마스크 부분에서의 각각의 비트는, 데이터의 압축되지 않은 청크에서의 대응하는 바이트가 제로인 논리 0을 포함하고 데이터의 압축되지 않은 청크에서의 대응하는 바이트가 넌제로인 논리 1을 포함함 - 을 생성하는 것; 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 수를 결정하는 것, 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 수에 기초하여, 데이터의 압축되지 않은 청크의 잘려진 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크의 데이터 부분에서의 비트의 수를 결정하는 것, 데이터의 압축되지 않은 청크에서의 넌제로 바이트를, 결정된 비트의 수로 자르는 것, 및 압축된 출력 청크의 데이터 부분에 잘려진 넌제로 바이트를 저장하는 것에 의해, 압축된 출력 청크의 데이터 부분을 생성하는 것; 및 압축된 출력 청크 - 압축된 출력 청크는 마스크 부분 및 데이터 부분을 포함함 - 를 신경망 프로세서의 메모리에 저장하는 것을 포함한다.

조항 16. 조항 15의 컴퓨터 구현 방법으로서: 데이터의 압축되지 않은 청크의 잘려진 넌제로 바이트를 저장하는데 이용 가능한 압축된 출력 청크의 데이터 부분에서의 추가 비트의 수를 결정하는 것; 및 넌제로 바이트의 하나 이상을 잘라내기 이전에 데이터의 압축되지 않은 청크의 넌제로 바이트의 하나 이상에 추가 비트를 할당하는 것을 더 포함한다.

조항 17. 조항 15 및 16 중 임의의 것의 컴퓨터 구현 방법으로서, 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 수가 데이터의 압축된 청크의 데이터 부분에서의 바이트의 수보다 더 작거나 또는 동일한 경우, 잘려짐 없이, 데이터의 압축되지 않은 청크에서의 넌제로 바이트를 데이터의 압축된 청크의 데이터 부분에 저장하는 것을 더 포함한다.

조항 18. 조항 15 내지 17 중 임의의 것의 컴퓨터 구현 방법으로서: 신경망 프로세서의 압축 해제 유닛에서, 압축된 출력 청크를 수신하는 것; 압축된 출력 청크의 마스크 부분에 기초하여 데이터의 압축되지 않은 청크의 데이터 부분에서의 넌제로 바이트의 수를 결정하는 것; 압축된 출력 청크의 마스크 부분에 기초하여 데이터의 압축되지 않은 청크에서의 넌제로 바이트의 위치를 결정하는 것; 압축된 출력 청크의 데이터 부분에 잘려진 넌제로 바이트를 저장하기 위해 압축 유닛에 의해 사용되는 비트의 수를 결정하는 것; 논리 0인 압축된 출력 청크의 마스크 부분에서의 각각의 비트 위치에 대해, 압축 해제된 출력 청크의 대응하는 위치에 제로 바이트를 삽입하는 것; 및 논리 1인 압축된 출력 청크의 마스크 부분에서의 각각의 위치에 대해, 압축된 출력 청크의 대응하는 위치로부터의 잘려진 넌제로 바이트를, 압축 해제된 출력 청크의 대응하는 위치 및 압축된 출력 청크의 압축 동안 잘려지는 비트의 수와 동등한 수의 제로 비트에 삽입하는 것을 더 포함한다.

조항 19. 조항 15 내지 18 중 임의의 것의 컴퓨터 구현 방법으로서, 압축 해제된 출력 청크에 저장되는 잘려진 넌제로 바이트의 하나 이상에 오프셋을 추가하는 것을 더 포함한다.

조항 20. 조항 15 내지 19 중 임의의 것의 컴퓨터 구현 방법으로서, 오프셋은, 압축 해제된 출력 청크에 저장되는 잘려진 넌제로 바이트의 하나 이상의 최하위 비트(LSB)에 추가된다.

전술한 것에 기초하여, 메모리 버스 대역폭의 활용을 감소시키기 위해 활성화 데이터를 압축 및 압축 해제할 수 있는 DNN 모듈이 본원에서 개시된다는 것이 인식되어야 한다. 비록 본원에서 제시되는 주제가, 컴퓨터 구조적 피쳐, 방법론적 및 변형적 행위, 특정한 컴퓨팅 머신류, 및 컴퓨터 판독 가능 매체에 고유한 언어로 설명되었지만, 첨부된 청구범위에서 기술되는 주제는 본원에서 설명되는 특정한 피쳐, 행위, 또는 매체로 반드시 제한되는 것은 아니다는 것이 이해되어야 한다. 오히려, 특정한 피쳐, 행위 및 매체는, 청구된 주제를 구현하는 예시적인 형태로서 개시된다.

상기에서 설명되는 주제는, 단지 예시를 위해 제공되며, 제한적인 것으로 해석되어서는 안된다. 예시되고 설명되는 예시적인 구성 및 애플리케이션을 따르지 않으면서, 그리고 다음의 청구범위에서 기술되는 본 개시의 범위를 벗어나지 않으면서, 본원에서 설명되는 주제에 대해 다양한 수정 및 변경이 이루어질 수 있다.

Claims

컴퓨터 구현 방법에 있어서,
마스크 부분 및 데이터 부분을 포함하는 데이터의 압축된 청크를 수신하는 단계;
상기 데이터의 압축된 청크의 상기 마스크 부분에서의 비트에 기초하여 데이터의 압축 해제된 청크에서의 넌제로 바이트의 수를 결정하는 단계;
상기 데이터의 압축 해제된 청크에서의 넌제로 바이트의 수에 적어도 부분적으로 기초하여, 상기 데이터의 압축된 청크의 상기 데이터 부분에 잘려진(truncated) 넌제로 바이트를 저장하기 위해 사용되는 비트의 수를 결정하는 단계;
논리 0인 상기 데이터의 압축된 청크의 상기 마스크 부분에서의 각각의 비트 위치에 대해, 상기 데이터의 압축 해제된 청크의 대응하는 위치에 제로 바이트를 삽입하는 단계; 및
논리 1인 상기 데이터의 압축된 청크의 상기 마스크 부분에서의 각각의 위치에 대해, 상기 데이터의 압축된 청크의 상기 데이터 부분에서의 대응하는 위치로부터의 잘려진 넌제로 바이트를, 상기 데이터의 압축 해제된 청크에서의 대응하는 위치 및 상기 데이터의 압축된 청크의 압축 동안 잘려지는 비트의 수와 동등한 수의 제로 비트에 삽입하는 단계
를 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 데이터의 압축된 청크의 상기 데이터 부분에 저장되는 상기 넌제로 바이트 중 하나 이상의 넌제로 바이트에 할당되는 추가 비트의 수를 결정하는 단계; 및
상기 결정된 수의 추가 비트를 상기 데이터의 압축 해제된 청크에서의 상기 넌제로 바이트의 하나 이상에 할당하는 단계
를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 데이터의 압축 해제된 청크에 저장된 상기 잘려진 넌제로 바이트 중 하나 이상의 잘려진 넌제로 바이트에 오프셋을 추가하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 넌제로 바이트의 하나 이상의 최하위 비트(least significant bit; LSB)가 잘려지는 것인, 컴퓨터 구현 방법.
제1항에 있어서,
상기 넌제로 바이트의 하나 이상의 최상위 비트(most significant bit; MSB)가 잘려지는 것인, 컴퓨터 구현 방법.