KR20190108471A

KR20190108471A - 기계 학습 훈련을 위한 슬랩 기반의 메모리 관리

Info

Publication number: KR20190108471A
Application number: KR1020180143982A
Authority: KR
Inventors: 이주환; 기양석
Original assignee: 삼성전자주식회사
Priority date: 2018-03-14
Filing date: 2018-11-20
Publication date: 2019-09-24
Also published as: JP7311981B2; TWI788476B; TW201939515A; US20190286991A1; JP2019160306A; CN110276454A; US11461869B2

Abstract

동작 시스템을 실행하는 처리 회로로 기계 학습을 위한 시스템 및 방법이 제공되며, 처리 회로는 제1 메모리 및 제2 메모리에 연결된다. 일부 실시예들에서, 상기 방법은, 사용자 레벨 프로세스가, 동작 시스템으로부터 제1 메모리로부터의 제1 메모리 할당을 요청하되, 제1 메모리 할당은 복수의 제1 세그먼트들을 포함하고, 복수의 제1 세그먼트들 중 제1 세그먼트는 제1 종류의 데이터 오브젝트를 저장하는데 충분한 사이즈를 갖는 단계; 사용자 레벨 프로세스가, 제1 계산의 결과가 제1 종류의 데이터 오브젝트일 것임을 판단하는 단계; 및 제1 계산의 결과가 제1 종류의 데이터 오브젝트일 것임을 판단함에 응답하여, 사용자 레벨 프로세스가, 복수의 제1 세그먼트들 중 사용되지 않은 세그먼트가 없음을 판단하는 단계를 포함한다.

Description

기계 학습 훈련을 위한 슬랩 기반의 메모리 관리{SLAB BASED MEMORY MANAGEMENT FOR MACHINE LEARNING TRAINING}

본 발명에 따른 실시예들의 하나 이상의 양상들은 기계 학습과 관련되고, 좀 더 구체적으로 기계 학습을 위한 메모리 관리 시스템 및 방법과 관련된다.

데이터 중심형 기계 학습 훈련은 대량의 데이터의 패턴들을 검토하여 모델들을 학습한다. 일부 실시예들에서, 컴퓨팅 유닛들 및 스토리지 유닛들은 분리되고, 대량의 데이터가 솔리드 스테이트 드라이브들(solid state drives, SSDs)에서 중앙 처리 장치들(central processing units, CPUs)로 저속의 인터페이스들을 통하여 전달되며, 이는 성능 및 에너지의 비효율성을 초래한다. 임베디드된 그래픽스 처리 장치들(graphics processing units, GPUs)로 저장 중에 기계 학습 훈련은 데이터를 코드에 더 가깝게 이동시키는 향상된 해결책일 수 있으므로, 일부 관련 분야의 아키텍처들의 비효율성을 감소시킨다.

SSD들 내에 GPU들을 집적하는 것은, 그러나, GPU DRAM(dynamic random access memory) 사이즈와 관련된 새로운 도전을 내놓을 수 있다. SSD의 파워 및 에너지 제약들은 SSD 내의 DRAM 사이즈를 제한하므로, SSD 내에 임베디드된 GPU의 기계 학습 훈련의 효율성을 감소시킨다. 페이지 단위로 메모리를 관리할 수 있는 GPU들을 위한 관련 분야의 이종의 메모리 관리 스킴들은 기계 학습 훈련 동작들에서 제대로 수행되지 않아 메모리 관리 오버헤드를 증가시킬 수 있다.

따라서, 저장 중에 기계 학습 훈련을 가능케 하는 효율적인 메모리 관리 스킴에 대한 요구가 제기된다.

본 발명은 기계 학습 훈련을 위한 슬랩 기반의 메모리 관리를 위한 시스템 및 방법에 대한 것이다.

본 발명의 실시예에 따르면, 동작 시스템을 실행하는 처리 회로로 기계 학습을 위한 방법이 제공되며, 처리 회로는 제1 메모리 및 제2 메모리에 연결된다. 상기 방법은, 처리 회로에서 운용하는 사용자 레벨 프로세스가, 동작 시스템으로부터 제1 메모리로부터의 제1 메모리 할당을 요청하되, 제1 메모리 할당은 복수의 제1 세그먼트들을 포함하고, 복수의 제1 세그먼트들 중 제1 세그먼트는 제1 종류의 데이터 오브젝트를 저장하는데 충분한 사이즈를 갖는 단계; 사용자 레벨 프로세스가, 제1 계산의 결과가 제1 종류의 데이터 오브젝트일 것임을 판단하는 단계; 제1 계산의 결과가 제1 종류의 데이터 오브젝트일 것임을 판단함에 응답하여, 사용자 레벨 프로세스가, 복수의 제1 세그먼트들 모두가 사용 중임을 판단하는 단계; 사용자 레벨 프로세스가, 복수의 제1 세그먼트들 모두가 사용 중임을 판단함에 응답하여, 복수의 제1 세그먼트들 중 물리적 어드레스를 갖는 최소 최근 사용 제1 세그먼트를 식별하는 단계; 사용자 레벨 프로세스가, 최소 최근 사용 제1 세그먼트의 내용들을 제2 메모리로 복사하는 단계; 제1 계산을 수행하는 단계; 및 최소 최근 사용 제1 세그먼트에 상기 제1 계산의 상기 결과를 저장하는 단계를 포함한다.

일례로, 제1 종류의 데이터 오브젝트는 뉴럴 네트워크의 순전파 활성화이다.

일례로, 제1 종류의 데이터 오브젝트는 뉴럴 네트워크의 역전파 활성화이다.

일례로, 상기 방법은 사용자 레벨 프로세스가, 제1 가상의 포인터를 가상의 포인터 클래스의 인스턴스로 인스턴스화하는 단계를 포함하고, 사용자 레벨 프로세스가, 복수의 제1 세그먼트들 모두가 사용 중임을 판단하는 단계는, 복수의 제1 세그먼트들 모두가 사용 중인지 판단하기 위하여, 가상의 포인터 클래스의 멤버 함수를 실행하는 단계를 포함한다.

일례로, 최소 최근 사용 제1 세그먼트에 제1 계산의 결과를 저장하는 단계는, 제1 가상의 포인터의 멤버 변수에 최소 최근 사용 제1 세그먼트의 물리적 어드레스를 할당하는 단계를 포함한다.

일례로, 사용자 레벨 프로세스가, 최소 최근 사용 제1 세그먼트의 내용들을 제2 메모리로 복사하는 단계는, 최소 최근 사용 제1 세그먼트의 물리적 어드레스로부터 제2 메모리의 물리적 어드레스로 제2 가상의 포인터의 멤버 변수의 값을 변경하는 단계를 포함한다.

일례로, 상기 방법은 사용자 레벨 프로세스가, 동작 시스템으로부터 제1 메모리로부터의 제2 메모리 할당을 요청하되, 제2 메모리 할당은 복수의 제2 세그먼트들을 포함하고, 복수의 제2 세그먼트들 중 제2 세그먼트는 제2 종류의 데이터 오브젝트를 저장하는데 충분한 사이즈를 갖는 단계; 사용자 레벨 프로세스가, 제2 계산의 결과가 제2 종류의 데이터 오브젝트일 것임을 판단하는 단계; 제2 계산의 결과가 제2 종류의 데이터 오브젝트일 것임을 판단함에 응답하여, 사용자 레벨 프로세스가, 복수의 제2 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단하는 단계; 사용자 레벨 프로세스가, 복수의 제2 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단함에 응답하여, 복수의 제2 세그먼트들 중 물리적 어드레스를 갖는 최소 최근 사용 제2 세그먼트를 식별하는 단계; 사용자 레벨 프로세스가, 최소 최근 사용 제2 세그먼트의 내용들을 제2 메모리로 복사하는 단계; 제2 계산을 수행하는 단계; 및 최소 최근 사용 제2 세그먼트에 제2 계산의 결과를 저장하는 단계를 포함한다.

일례로, 제2 종류의 데이터 오브젝트들은 뉴럴 네트워크의 가중치들을 포함한다.

일례로, 제2 종류의 데이터 오브젝트들은 뉴럴 네트워크의 가중치들의 기울기들을 더 포함한다.

일례로, 처리 회로는 그래픽스 처리 장치이다.

일례로, 제1 메모리는 그래픽스 처리 장치의 메모리 버스에서의 메모리이다.

일례로, 제2 메모리는 PCIe(peripheral component interconnect express) 연결을 통하여 상기 그래픽스 처리 장치에 연결된다.

본 발명의 실시예에 따르면, 기계 학습을 위한 시스템이 제공된다. 시스템은 처리 회로; 처리 회로에 연결되는 제1 메모리; 처리 회로에 연결되는 제2 메모리; 및 명령어들을 저장하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함하되, 처리 회로에 의하여 명령어들이 실행되는 경우, 명령어들은 처리 회로로 하여금 동작 시스템을 실행하고, 동작 시스템 내의 사용자 레벨 프로세스를 개시하게 하고, 사용자 레벨 프로세스는, 동작 시스템으로부터, 제1 메모리의 제1 메모리 할당을 요청하되, 제1 메모리 할당은 복수의 제1 세그먼트들을 포함하고, 복수의 제1 세그먼트들 각각은 제1 종류의 데이터 오브젝트를 저장하는데 충분한 사이즈를 갖고, 제1 계산의 결과가 제1 종류의 데이터 오브젝트일 것임을 판단하고, 제1 계산의 결과가 제1 종류의 데이터 오브젝트일 것임을 판단함에 응답하여, 복수의 제1 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단하고, 복수의 제1 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단함에 응답하여, 복수의 제1 세그먼트들 중 물리적 어드레스를 갖는 최소 최근 사용 제1 세그먼트를 식별하고, 최소 최근 사용 제1 세그먼트의 내용들을 제2 메모리로 복사하고, 제1 계산을 수행하고, 최소 최근 사용 제1 세그먼트에 제1 계산의 상기 결과를 저장하도록 구성된다.

일례로, 처리 회로는 그래픽스 처리 장치이다.

일례로, 제1 메모리는 메모리 관리 유닛을 통하여 그래픽스 처리 장치에 연결된다.

일례로, 제2 메모리는 PCIe(peripheral component interconnect express) 연결을 통하여 그래픽스 처리 장치에 연결되는 메모리이다.

본 발명의 실시예에 따르면, 시스템이 제공된다. 시스템은 그래픽스 처리 장치; 메모리 관리 유닛을 통하여 그래픽스 처리 장치에 연결되는 제1 메모리; 및 PCIe(peripheral component interconnect express) 연결을 통하여 제1 메모리에 연결되는 호스트를 포함하되, 호스트는, 중앙 처리 장치; 및 제2 메모리를 포함하고, 그래픽스 처리 장치는 명령어들을 저장하는 비일시적 컴퓨터 판독 가능 저장 매체에 연결되고, 그래픽스 처리 장치에 의하여 명령어들이 실행되는 경우, 명령어들은 그래픽스 처리 장치로 하여금 동작 시스템을 실행하고, 동작 시스템 내의 사용자 레벨 프로세스를 개시하게 하고, 사용자 레벨 프로세스는, 동작 시스템으로부터, 제1 메모리의 제1 메모리 할당을 요청하되, 제1 메모리 할당은 복수의 제1 세그먼트들을 포함하고, 복수의 제1 세그먼트들 각각은 제1 종류의 데이터 오브젝트를 저장하는데 충분한 사이즈를 갖고, 제1 계산의 결과가 제1 종류의 데이터 오브젝트일 것임을 판단하고, 제1 계산의 결과가 제1 종류의 데이터 오브젝트일 것임을 판단함에 응답하여, 복수의 제1 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단하고, 복수의 제1 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단함에 응답하여, 복수의 제1 세그먼트들 중 물리적 어드레스를 갖는 최소 최근 사용 제1 세그먼트를 식별하고, 최소 최근 사용 제1 세그먼트의 내용들을 제2 메모리로 복사하고, 제1 계산을 수행하고, 최소 최근 사용 제1 세그먼트에 제1 계산의 상기 결과를 저장하도록 구성된다.

일례로, 제1 종류의 상기 데이터 오브젝트는 뉴럴 네트워크의 순전파 활성화이다.

본 발명에 따르면, 기계 학습 훈련을 위한 슬랩 기반의 메모리 관리를 사용함으로써, 오버헤드 및 메모리 단편화(fragmentation)가 감소하고, 기계 학습 훈련의 효율성이 증가할 수 있다.

도 1은 본 발명의 실시예에 따른 기계 학습을 위한 시스템의 블록도이다.
도 2는 본 발명의 실시예에 따른 그래픽 처리 유닛에서의 메모리 접근에 대한 순서도이다.
도 3은 본 발명의 실시예에 따른 메모리 다이어그램이다.
도 4는 본 발명의 실시예에 따른 슬랩 기반의 메모리 관리에 대한 도면이다.
도 5는 본 발명의 실시예에 따른 메모리 오브젝트 이송에 대한 도면이다.

첨부된 도면들과 관련하여 아래에서 진술되는 상세한 설명은, 본 발명에 따라 제공되는 기계 학습 훈련을 위한 슬랩 기반의 메모리 관리를 위한 시스템 및 방법의 예시적인 실시예들에 대한 설명으로 의도되고, 본 발명이 구성되거나 이용될 수 있는 유일한 형식들을 나타내는 것으로 의도되지 않는다. 상세한 설명은 도시된 실시예들과 관련하여 본 발명의 특징들을 진술한다. 그러나, 동일하거나 동등한 기능들 및 구조들은, 또한 본 발명의 범위 내에 포함되는 것으로 의도되는 다른 실시예들에 의하여 달성될 수 있음이 이해될 것이다. 여기에서 달리 표시되지 않는 한, 같은 도면 부호들은 같은 구성들 또는 특징들을 지시하는 것으로 의도된다.

예를 들어 특정 기계 학습 어플리케이션들과 같은 GPU(graphics processing unit)를 사용하는 일부 어플리케이션들에 대하여, 주요 성능 병목 현상이 GPU 메모리를 제한한다. 고속 GPU 메모리와 결합하여 더 저속이나 더 큰 메모리를 함께 이용하여 큰 메모리 공간을 GPU에 제공하는 이종의 메모리 관리는 성능 병목 현상의 성능 영향을 감소시키는데 사용될 수 있다. 그러나, 이러한 접근법들은 기계 학습 어플리케이션들에 그렇게 적합하지 않을 수 있다. 이와 같이, 일부 실시예들에서, 효율적인 기계 학습 훈련을 위한 기계 학습 훈련의 독특한 특성은 기계 학습 어플리케이션들에 맞추어진 메모리 관리 시스템을 제공하는데 사용된다.

도 1은 일부 실시예들에서 기계 학습 동작들을 수행하기 위한 시스템을 도시한다. 시스템은 MMU(memory management unit, 메모리 관리 유닛)(115)을 통하여 호스트 CPU(110)에 연결되는 시스템 메모리(105)를 포함하는 호스트를 포함한다. GPU(120)는 GPU 메모리(125)로부터 검색된 데이터를 사용하여 계산들을 수행하고, 동작들의 결과들을 GPU 메모리(125)에 저장한다. GPU(120)에 의한 GPU 메모리(125)로의 접근은 IOMMU(input-output memory management unit, 입출력 메모리 관리 유닛)(130)을 통하여 이루어지며, IOMMU(130)는 CPU(110) 및 GPU(120)와 같이, (후술되는) 처리 회로 일 수 있다. PCIe(peripheral component interconnect express) 버스 및 PCIe 스위치는 메모리 관리 유닛(115), 시스템 메모리(105), GPU 메모리(125), 및 입출력 메모리 관리 유닛(130) 사이의 연결들을 형성한다. CPU(110)에 의한 메모리 접근은 가상의 메모리 어드레스(VA)로 수행될 수 있다. 즉, 임의의 주어진 가상의 어드레스는 MMU(115)에 의하여 물리적 메모리 어드레스로 변환된다. GPU(120)에 의한 메모리 접근은, 통합된 가상의 어드레스가 지원되는 경우 가상의 메모리 어드레스를 사용하여 수행되거나, 통합된 어드레스가 지원되지 않는 경우 장치 메모리 어드레스들(DA)을 사용하여 수행될 수 있다. 주어진 어드레스는 GPU(120)에 연결된 입출력 메모리 관리 유닛(130)에 의하여 해당 물리적 메모리 어드레스로 변환된다.

메모리의 데이터 오브젝트를 접근하는데 사용되는 인터커넥트는 컴퓨팅 유닛 및 데이터 오브젝트의 위치에 의존할 수 있다. 시스템 메모리 버스는 CPU(110)에 의한 시스템 메모리(105)에 할당된 데이터 오브젝트로의 접근을 위하여 사용되고, GPU 메모리 버스는 GPU 메모리(125)에 할당된 데이터 오브젝트로의 GPU(120)에 의한 접근을 위하여 사용된다. GPU 메모리(125)의 데이터 오브젝트로의 CPU(110)에 의한 접근을 위하여, 그리고 시스템 메모리(105)의 데이터 오브젝트로의 GPU(120)에 의한 접근을 위하여, 데이터 오브젝트 이송(migration)이 PCIe 버스를 경유하여 수행된다.

도 2는 호스트에서 시스템 메모리(105)를 저속의 메모리로 사용하는 경우의 일부 실시예들의 데이터 오브젝트 이송의 전체 순서를 도시한다. 저속의 메모리는 호스트에서 시스템 메모리일 필요는 없고, 불휘발성 메모리 익스프레스(nonvolatile memory express, NVMe) 솔리드 스테이트 드라이브(SSD), 또는 SSD-내부의 인터커넥트를 경유하여 접근될 수 있는 SSD 장치 내의 내부 플래시 어레이와 같은 임의의 유형의 메모리 장치일 수 있다. SSD 장치 내의 GPU는, 예를 들어 SSD-내부의 인터커넥트를 경유하여 플래시 컨트롤러와 통신함으로써, SSD 장치의 플래시 어레이에 직접 접근할 수 있다. 도 2에 도시된 바와 같이, 데이터 오브젝트를 접근하는 (읽거나 쓰는) GPU 코드를 실행하기 전에, 시스템은 205 단계에서 시작하는 방법을 채택한다. 시스템은 우선, 210 단계에서, 데이터 오브젝트가 GPU 메모리 내에 있는지 검사한다. 데이터 오브젝트가 GPU 메모리에 존재한다면, 시스템은 215 단계로 진행하여 GPU 코드를 실행한다. 데이터 오브젝트가 GPU 메모리에 존재하지 않는다면, 시스템은 220 단계에서, 접근되는 데이터 오브젝트를 위한 GPU 메모리의 공간을 남겨둔다. GPU 메모리에 공간을 남겨두기 전에, 시스템은 225 단계에서, GPU 메모리에 충분한 공간이 있는지 검사하고, 그렇지 않다면, 230 단계에서, 다른 데이터 오브젝트들을 호스트 메모리 (예를 들어, 시스템 메모리(105))로 이송(migrate)한다. 호스트 메모리로 이송 (또는 “축출(eviction)”)은 최소 최근 사용에 기초하여 수행될 수 있다. 즉, GPU 메모리에서 최소 최근 사용(least recently used) 데이터 오브젝트가, GPU 메모리(125)에 공간이 요구되는 경우, 호스트 메모리로 이송될 수 있다. 공간을 남겨둔 후에, 시스템은 235 단계에서, 데이터 오브젝트가 호스트에서 시스템 메모리(105)와 같은 저속의 메모리에 할당되는지 검사한다. 그렇다면, 시스템은 240 단계에서, 저속의 메모리로부터 GPU 메모리로의 데이터 오브젝트의 이송을 수행하고, 215 단계로 진행하여 GPU 코드를 실행한다. 데이터 오브젝트가 예를 들어, 시스템 메모리(105)에 할당되지 않았다면, (접근이 쓰기 접근임을 가정함) 시스템은 215 단계로 진행하여 GPU 코드를 실행한다.

일부 실시예들에서, GPU에서 실행하는 사용자 레벨 프로세스 (예를 들어, 딥 뉴럴 네트워크에 대한 기계 학습 훈련 동작들을 수행하는 사용자 프로세스)는 CPU(110)에서 운용하는 동작 시스템으로부터 (예를 들어, 동작 시스템 레벨 메모리 관리를 수행하는 커널 레벨 프로세스로부터) GPU 메모리(125)에 하나 이상의 메모리 할당들을 요청할 수 있다. 그리고, GPU에서 실행하는 사용자 레벨 프로세스는 동작 시스템을 통하여 개별적인 데이터 오브젝트들을 할당 및 할당 해제하는 대신에, (후술되는 바와 같이) 슬랩(slab) 기반의 메모리 관리를 사용자 프로세스 레벨에서 수행할 수 있다. 이로 인하여, 메모리 할당 및 할당 해제가 동작 시스템에 의하여 수행되는 경우에 초래되는 오버헤드가 방지되고, 메모리 단편화(fragmentation)가 방지 또는 감소될 수 있다.

도 3은 어떻게 사용자 레벨 프로세스가 데이터 오브젝트들에 대한 차후 할당을 위한 동작 시스템에 의하여, 할당되는 메모리를 유지하는지를 도시한다. 단지 GPU 데이터 오브젝트들을 참조하는 포인터를 갖는 기계 학습 프레임워크에서의 각각의 텐서 (즉, 관련된 분야의 구현들의 경우일 수 있는 바와 같이, GPU 메모리(125)의 위치를 직접 가리키는 것) 대신에, 각각의 텐서는 GPU 메모리 세그먼트 (즉, GPU 메모리(125)에 저장된 데이터 오브젝트)를 나타내거나, 저속의 메모리 세그먼트 (즉, 예를 들어 시스템 메모리(105)와 같은 저속의 메모리에 저장된 데이터 오브젝트)를 나타낼 수 있는 가상의 포인터를 유지한다. 여기에서 사용되는 바와 같이, 메모리 “세그먼트(segment)”는 데이터 오브젝트를 저장하기에 충분히 큰 연속 메모리(contiguous memory)의 영역이다. 텐서에 의하여 가리켜지는 GPU 데이터 오브젝트가, 데이터 오브젝트의 재사용이 예상되지 않기 때문에 유지될 필요가 없는 경우, 시스템은, 도 3에 도시된 바와 같이, GPU 메모리의 세그먼트가 다른 텐서들에 의하여 회수(reclaim)될 수 있도록 (즉, 사용자 레벨 프로세스에 의하여 다른 텐서들을 저장하는데 사용될 수 있도록), 데이터 오브젝트가 “프리(free)”로 저장되는 GPU 메모리의 세그먼트를 마크한다. 즉, 사용자 레벨 프로세스가 (GPU 장치 드라이버 API(application programming interface)를 경유하여 데이터 오브젝트를 할당 해제하는 대신에) 메모리 세그먼트의 상태를 변경한다.

일부 실시예들에서, 사용자 레벨 프로세스는 (일부 관련된 분야의 시스템들에 의하여 수행될 수 있는 바와 같이, 페이지 단위로 데이터 오브젝트들을 관리하는 대신에) 슬랩 기반의 메모리 관리를 이용한다. 이는 다수의 데이터 오브젝트들이 공통의 유형 (및 사이즈)를 공유하고, 단일 뉴럴 네트워크 내에서 단지 제한된 개수의 데이터 오브젝트 유형들이 있는, 딥 뉴럴 네트워크들의 특성을 이용한다. 도 4는 어떻게 사용자 레벨 프로세스가 일부 실시예들에서 슬랩 기반의 메모리 관리를 수행하는지를 도시한다. 사용자 레벨 프로세스는 리스트들의 세트를 유지하고, 리스트 각각은 동일한 유형의 GPU 데이터 오브젝트들의 리스트이다. 프리 메모리 세그먼트들은 그것들이 동일한 유형의 오브젝트들의 차후 할당들을 위하여 재사용될 수 있도록 각각의 리스트에서 식별된다.

예를 들어, 데이터 오브젝트 각각은 가상의 포인터에 의하여 식별될 수 있고, 가상의 포인터는 가상의 포인터 클래스의 인스턴스이다. 가상의 포인터는 멤버 변수로써 (i) 딥 뉴럴 네트워크의 텐서 (예를 들어, 가중치, 가중치의 기울기, 순전파 활성화(forward activation), 또는 역전파 활성화(back propagation activation))인 데이터 및 (ii) 예를 들어, GPU 메모리(125) 또는 저속의 메모리 (예를 들어, 시스템 메모리(105)) 중 하나와 같은 물리적 메모리의 위치에 대한 포인터를 포함할 수 있다.

제1 리스트는 (제1 세그먼트 사이즈로 언급될 수 있는) 제1 사이즈의 가상의 포인터들을 위하여 유지될 수 있다. 사용자 레벨 프로세스가 (제1 사이즈와 동일한 사이즈를 갖는 제1 종류의 복수의 데이터 오브젝트들을 수용하도록) 동작 시스템으로부터 제1 할당을 요청한 후, 사용자 레벨 프로세스는 제1 사이즈의 데이터 오브젝트들 중 하나를 저장하기에 충분히 큰 물리적 메모리의 영역 또는 “세그먼트”의 제1 어드레스를 각각 가리키는 “물리적 포인터들”의 리스트를 생성한다. 사용자 레벨 프로세스는 물리적 포인터 각각에, (i) 메모리가 사용 중인지 프리(free)인지, 그리고 세그먼트가 사용 중인지 나타내는 플래그, (ii) 세그먼트를 가리키는 (즉, 남기는) 가상의 포인터로의 포인터, 및 (iii) 가장 최근의 사용 시간을 연관시킨다. 이러한 리스트는 GPU 메모리(125)의 공간을 필요로 하는 임의의 가상의 포인터에 의하여 참조되어, 이미 프리(free)인 메모리의 세그먼트를 남기거나, 최소 최근 사용 데이터 오브젝트를 축출한 후 축출에 의하여 프리가 된 세그먼트를 남길 수 있다. 호스트에서 메모리의 관리는, 예를 들어, GPU 메모리(125)로부터 축출 시에 복수의 데이터 오브젝트들을 저장하는데 사용되는 시스템 메모리(125)의 제1 할당과 같은 사용자 레벨 프로세스 요청과 함께, 동일한 방식으로 수행될 수 있다.

사용자 레벨 프로세스는, 각각이 제2 사이즈를 갖는 제2 종류의 복수의 데이터 오브젝트들을 위한 아날로그 제2 리스트를 구성할 수 있고, 사용자 레벨 프로세스는 다른 사이즈들 및 다른 종류들의 데이터 오브젝트들을 위한 다른 유사한 리스트들을 구성할 수 있다. 예를 들어, 딥 뉴럴 네트워크에서, 가중치들, 가중치들의 기울기들은, 모두 동일한 사이즈, 예를 들어, 제1 사이즈를 가질 수 있다. 순전파 활성화들, 및 역전파 활성화들은 또한 모두 동일한 사이즈, 예를 들어, 제2 사이즈를 가질 수 있다.

가상의 포인터는 예를 들어, 가상의 포인터의 데이터가 최소 최근 사용인 경우, GPU 메모리(125)에서 원하는 세그먼트 사이즈의 시스템 메모리(105)로 데이터를 이송하는 것과 같이, 도 2의 동작들을 수행하기 위한 함수들을 멤버 함수들로써 가질 수 있다. 가상의 포인터들은 데이터 오브젝트들의 사이즈에 대응되는 단위로 메모리 이송을 수행할 수 있다. 도 4는 시스템이 리스트 각각에 대하여 최소 최근 사용(least recently used, LRU) 데이터 오브젝트의 교체 정책을 이용하는 예시를 도시한다. 도 4는 특정 오브젝트 유형의 리스트 내에서 최소 최근 사용 GPU 데이터 오브젝트가, 동일한 유형의 GPU 데이터 오브젝트가 GPU 메모리에 할당될 필요가 있는 경우, 그리고 GPU 메모리에 동일한 유형의 프리 또는 "사용되지 않는(unused)" 세그먼트가 없는 경우, 저속의 메모리로 이송됨을 도시한다.

도 5는 어떻게 LRU 교체 정책이 GPU 메모리가 두 개의 데이터 오브젝트들을 보유할 수 있는 단순화된 예시로 동작할 수 있는지 도시한다. 이러한 예시에서, GPU 계산들에 사용되는 4개의 데이터 오브젝트들이 있으며, 이들은 도 5에서 "1"에서 "4"로 적혀진다. 데이터 오브젝트 "3"을 사용할 GPU 코드를 실행하기 전에, 시스템은 실행될 다음 GPU 계산을 위하여, (510 단계에서) 데이터 오브젝트 "3"을 GPU 메모리로 (즉, 호스트 "H"로부터 장치(GPU) "D"로) 이송한다. GPU 메모리가 두 개의 데이터 오브젝트들을 보유할 수 있으므로, 시스템은 GPU 메모리로부터 저속의 메모리 (호스트에서 시스템 메모리(105))로 데이터 오브젝트 "1"의 이송을 수행한다. 데이터 오브젝트 "1"은 도 5에 도시된 바와 같이 사용되기 전에, GPU 메모리로 다시 이송된다.

일부 실시예들에서, 시스템은 프로파일링에 의하여 슬랩 사이즈를 결정한다. 시스템은 기계 학습 훈련 동안 데이터 오브젝트들의 개수 및 사이즈가 다른 반복 처리들에서 동일한 특성을 이용한다. 기계 학습 훈련의 제1 반복 동안, 시스템은 데이터 오브젝트들의 유형 및 각각의 유형을 갖는 데이터 오브젝트들의 개수와 같은 메모리 이용 패턴을 수집한다. 제2 반복들을 시작하기 전에, 시스템은, 시뮬레이션을 이용하여, 최고의 예측된 성능을 달성하도록 각각의 리스트 내에서 최적의 엔트리들의 개수를 결정한다. 이러한 실시예에서, 슬랩 사이즈는 뉴럴 네트워크 각각에 대하여 기계 학습 훈련을 위한 최적의 성능을 가능케 하는 주문형(application-specific)이다.

“처리 회로” 용어는 데이터 또는 디지털 신호들을 처리하는데 채택되는 하드웨어, 펌웨어, 및 소프트웨어의 임의의 조합을 의미하는 것으로 여기에서 사용된다. 처리 회로 하드웨어는 예를 들어, ASIC(application specific integrated circuit)들, 범용 또는 전용 CPU(central processing unit)들, DSP(digital signal processor)들, GPU(graphics processing unit)들, 및 FPGA(programmable logic devices such as field programmable gate array)들을 포함할 수 있다. 처리 회로에서, 여기에서 사용되는 바와 같이, 각각의 기능은 이러한 기능을 수행하도록 구성되는 하드웨어, 즉, 하드-와이어드에 의하거나 비일시적 저장 매체(non-transitory storage medium)에 저장되는 명령들을 실행하도록 구성되는 CPU와 같은 더욱 범용의 하드웨어에 의하여 수행된다. 처리 회로는 단일 PCB(printed circuit board) 상에 제조되거나 몇몇 상호 연결(인터커넥트)된 PCB 상에 분산될 수 있다. 처리 회로는 다른 처리 회로들을 포함할 수 있으며, 예를 들어, 처리 회로는 PCB 상에 인터커넥트된 두 개의 처리 회로들인 FPGA 및 CPU를 포함할 수 있다.

“제1”, “제2”, “제3”, 등의 용어들이 다양한 성분들, 구성 요소들, 영역들, 레이어들, 및/또는 섹션들을 설명하도록 여기에서 사용될 수 있으나, 이러한 성분들, 구성 요소들, 영역들, 레이어들, 및/또는 섹션들은 이러한 용어들에 제한되지 않아야 함이 이해될 것이다. 이러한 용어들은 단순히, 하나의 성분, 구성 요소, 영역, 레이어, 또는 섹션을 다른 성분, 구성 요소, 영역, 레이어, 또는 섹션과 구별하도록 사용된다. 따라서, 여기에서 설명되는 제1 성분, 구성 요소, 영역, 레이어, 또는 섹션은 본 발명의 사상 및 범위를 벗어나지 않고, 제2 구성 요소, 영역, 레이어, 또는 섹션으로 지칭될 수 있다.

여기에서 사용되는 용어들은 단순히 특정 실시예들을 설명하는 목적을 위한 것이고, 본 발명을 제한하는 것으로 의도되지 않는다. 여기에서 사용되는 “실질적으로”, “대략” 용어들 및 유사한 용어들은 정도에 대한 용어가 아닌, 근사에 대한 용어들로 사용되는 것이고, 당업자에 의하여 인식되는 측정되거나 계산된 값들의 내재된 편차를 설명하는 것으로 의도된다. 여기에서 사용되는, “주요(major) 구성 요소” 용어는 구성 또는 제품의 임의의 다른 단일 구성 요소의 양보다 많은 양의 구성, 중합체, 또는 제품에 존재하는 구성 요소를 나타낸다. 반면에, “기본(primary) 구성 요소” 용어는 구성, 중합체, 또는 제품의 무게 또는 양이 적어도 50%를 이루는 구성 요소를 나타낸다. 여기에서 사용되는 “주요 부(분)” 용어는, 복수의 물품들에 적용될 때, 물품들의 적어도 절반을 의미한다.

여기에서 사용되는 단수 형식들 “a” 및 “an”은, 문맥이 달리 명확하게 지칭하지 않는 한, 복수 형식들을 또한 포함하는 것으로 의도된다. “포함하다” 및/또는 “포함하는” 용어들은, 상세한 설명에 사용될 때, 진술된 특징들, 정수들, 단계들, 동작들, 성분들, 및/또는 구성 요소들의 존재를 구체화하나, 하나 이상의 다른 특징들, 정수들, 단계들, 동작들, 성분들, 구성 요소들, 및/또는 이의 그룹들의 존재 또는 추가를 제외하는 것은 아님이 더 이해될 것이다. 여기에서 사용되는 “및/또는” 용어는 하나 이상의 연관된 열거 물품들의 임의의 모든 조합들을 포함한다. “적어도 하나”와 같은 표현들은, 성분들의 명단에 선행할 때, 성분들의 완전한 명단을 수정하나, 명단에 대한 개개의 성분들을 수정하지 않는다. 나아가, “할 수 있다”의 사용은, 본 발명의 실시예들을 설명할 때, “본 발명의 하나 이상의 실시예들”을 나타낸다. 또한, “예시적인” 용어는 예시 또는 도시를 나타내는 것으로 의도된다. 여기에서 사용되는 “사용하다”, “사용하는”, 및 “사용되는” 용어들은 각각 “이용하다”, “이용하는”, “이용되는” 용어들과 동의어로 고려될 수 있다.

성분 또는 레이어가 다른 성분 또는 레이어 “상에”, “에 연결되는”, “에 결합되는”, “에 인접한” 것으로 나타날 때, 이는 직접적으로 다른 성분 또는 레이어 “상에”, “에 연결되는”, “에 결합되는”, “에 인접한” 것이거나, 하나 이상의 끼워진 성분들 또는 레이어들이 존재할 수 있다. 반면에, 성분 또는 레이어가 다른 성분 또는 레이어 “상에 직접”, “에 직접 연결되는”, “에 직접 결합되는”, “에 직접 인접한”것으로 나타날 때, 끼워진 성분들 또는 레이어들이 존재하지 않는다.

여기에서 열거되는 수치적인 범위는 열거된 범위 이내에 포함되는 동일한 수치적인 정도의 모든 서브-범위들을 포함하는 것으로 의도된다. 예를 들어, “1.0에서 10.0”의 범위는 열거된 최소값 1.0과 열거된 최대값 10.0 사이의 (및 포함하는) 모든 서브-범위들을 포함하는 것으로 의도된다. 즉, 예를 들어, 2.4에서 7.6과 같이, 최소값은 1.0 이상을 갖고, 최대값은 10.0 이하를 갖는다. 여기에서 열거되는 임의의 최대 수치 제한은 그 안에 포함되는 모든 더 낮은 수치 제한들을 포함하는 것으로 의도되고, 열거되는 최소 수치 제한은 그 안에 포함되는 모든 더 높은 수치 제한들을 포함하는 것으로 의도된다.

기계 학습 훈련을 위한 슬랩 기반의 메모리 관리를 위한 시스템 및 방법의 예시적인 실시예들이 여기에서 구체적으로 설명 및 도시되나, 많은 수정들 및 변형들이 당업자에 명백할 것이다. 따라서, 본 발명의 원리들에 따라 해석되는 기계 학습 훈련을 위한 슬랩 기반의 메모리 관리를 위한 시스템 및 메모리는 여기에서 구체적으로 설명되는 바와 달리 실시될 수 있다. 본 발명은 또한 이하의 청구항들 및 이의 균등물들에서 정의된다.

105: 시스템 메모리 110: CPU
115: MMU 120: GPU
125: GPU 메모리 130: IOMMU
135: PCIe 스위치

Claims

제1 메모리 및 제2 메모리에 연결되어 동작 시스템을 실행하는 처리 회로로 기계 학습을 위한 방법에 있어서,
상기 처리 회로에서 운용하는 사용자 레벨 프로세스가, 상기 동작 시스템으로부터 상기 제1 메모리로부터의 제1 메모리 할당을 요청하되, 상기 제1 메모리 할당은 복수의 제1 세그먼트들을 포함하고, 상기 복수의 제1 세그먼트들 중 제1 세그먼트는 제1 종류의 데이터 오브젝트를 저장하는데 충분한 사이즈를 갖는 단계;
상기 사용자 레벨 프로세스가, 제1 계산의 결과가 상기 제1 종류의 데이터 오브젝트일 것임을 판단하는 단계;
상기 제1 계산의 상기 결과가 상기 제1 종류의 데이터 오브젝트일 것임을 판단함에 응답하여, 상기 사용자 레벨 프로세스가, 상기 복수의 제1 세그먼트들 모두가 사용 중임을 판단하는 단계;
상기 사용자 레벨 프로세스가, 상기 복수의 제1 세그먼트들 모두가 사용 중임을 판단함에 응답하여, 상기 복수의 제1 세그먼트들 중 물리적 어드레스를 갖는 최소 최근 사용 제1 세그먼트를 식별하는 단계;
상기 사용자 레벨 프로세스가, 상기 최소 최근 사용 제1 세그먼트의 내용들을 상기 제2 메모리로 복사하는 단계;
상기 제1 계산을 수행하는 단계; 및
상기 최소 최근 사용 제1 세그먼트에 상기 제1 계산의 상기 결과를 저장하는 단계를 포함하는 방법.
제1 항에 있어서,
상기 제1 종류의 상기 데이터 오브젝트는 뉴럴 네트워크의 순전파 활성화인 방법.
제1 항에 있어서,
상기 제1 종류의 상기 데이터 오브젝트는 뉴럴 네트워크의 역전파 활성화인 방법.
제1 항에 있어서,
상기 사용자 레벨 프로세스가, 제1 가상의 포인터를 가상의 포인터 클래스의 인스턴스로 인스턴스화하는 단계를 더 포함하고,
상기 사용자 레벨 프로세스가, 상기 복수의 제1 세그먼트들 모두가 사용 중임을 판단하는 단계는, 상기 복수의 제1 세그먼트들 모두가 사용 중인지 판단하기 위하여, 상기 가상의 포인터 클래스의 멤버 함수를 실행하는 단계를 포함하는 방법.
제4 항에 있어서,
상기 최소 최근 사용 제1 세그먼트에 상기 제1 계산의 상기 결과를 저장하는 단계는, 상기 제1 가상의 포인터의 멤버 변수에 상기 최소 최근 사용 제1 세그먼트의 물리적 어드레스를 할당하는 단계를 포함하는 방법.
제5 항에 있어서,
상기 사용자 레벨 프로세스가, 상기 최소 최근 사용 제1 세그먼트의 내용들을 상기 제2 메모리로 복사하는 단계는, 상기 최소 최근 사용 제1 세그먼트의 상기 물리적 어드레스로부터 상기 제2 메모리의 물리적 어드레스로 제2 가상의 포인터의 멤버 변수의 값을 변경하는 단계를 포함하는 방법.
제1 항에 있어서,
상기 사용자 레벨 프로세스가, 상기 동작 시스템으로부터 상기 제1 메모리로부터의 제2 메모리 할당을 요청하되, 상기 제2 메모리 할당은 복수의 제2 세그먼트들을 포함하고, 상기 복수의 제2 세그먼트들 중 제2 세그먼트는 제2 종류의 데이터 오브젝트를 저장하는데 충분한 사이즈를 갖는 단계;
상기 사용자 레벨 프로세스가, 제2 계산의 결과가 상기 제2 종류의 데이터 오브젝트일 것임을 판단하는 단계;
상기 제2 계산의 상기 결과가 상기 제2 종류의 데이터 오브젝트일 것임을 판단함에 응답하여, 상기 사용자 레벨 프로세스가, 상기 복수의 제2 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단하는 단계;
상기 사용자 레벨 프로세스가, 상기 복수의 제2 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단함에 응답하여, 상기 복수의 제2 세그먼트들 중 물리적 어드레스를 갖는 최소 최근 사용 제2 세그먼트를 식별하는 단계;
상기 사용자 레벨 프로세스가, 상기 최소 최근 사용 제2 세그먼트의 내용들을 상기 제2 메모리로 복사하는 단계;
상기 제2 계산을 수행하는 단계; 및
상기 최소 최근 사용 제2 세그먼트에 상기 제2 계산의 상기 결과를 저장하는 단계를 더 포함하는 방법.
제7 항에 있어서,
상기 제2 종류의 데이터 오브젝트들은 뉴럴 네트워크의 가중치들을 포함하는 방법.
제8 항에 있어서,
상기 제2 종류의 데이터 오브젝트들은 상기 뉴럴 네트워크의 가중치들의 기울기들을 더 포함하는 방법.
제1 항에 있어서,
상기 처리 회로는 그래픽스 처리 장치인 방법.
제10 항에 있어서,
상기 제1 메모리는 상기 그래픽스 처리 장치의 메모리 버스에서의 메모리인 방법.
제11 항에 있어서,
상기 제2 메모리는 PCIe(peripheral component interconnect express) 연결을 통하여 상기 그래픽스 처리 장치에 연결되는 방법.
기계 학습을 위한 시스템에 있어서,
처리 회로;
상기 처리 회로에 연결되는 제1 메모리;
상기 처리 회로에 연결되는 제2 메모리; 및
상기 명령어들을 저장하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함하되,
상기 처리 회로에 의하여 상기 명령어들이 실행되는 경우, 상기 명령어들은 상기 처리 회로로 하여금 상기 동작 시스템을 실행하고, 상기 동작 시스템 내의 사용자 레벨 프로세스를 개시하게 하고,
상기 사용자 레벨 프로세스는,
상기 동작 시스템으로부터, 상기 제1 메모리의 제1 메모리 할당을 요청하되, 상기 제1 메모리 할당은 복수의 제1 세그먼트들을 포함하고, 상기 복수의 제1 세그먼트들 각각은 제1 종류의 데이터 오브젝트를 저장하는데 충분한 사이즈를 갖고,
제1 계산의 결과가 상기 제1 종류의 데이터 오브젝트일 것임을 판단하고,
상기 제1 계산의 상기 결과가 상기 제1 종류의 데이터 오브젝트일 것임을 판단함에 응답하여, 상기 복수의 제1 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단하고,
상기 복수의 제1 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단함에 응답하여, 상기 복수의 제1 세그먼트들 중 물리적 어드레스를 갖는 최소 최근 사용 제1 세그먼트를 식별하고,
상기 최소 최근 사용 제1 세그먼트의 내용들을 상기 제2 메모리로 복사하고,
상기 제1 계산을 수행하고,
상기 최소 최근 사용 제1 세그먼트에 상기 제1 계산의 상기 결과를 저장하도록 구성되는 시스템.
제13 항에 있어서,
상기 제1 종류의 상기 데이터 오브젝트는 뉴럴 네트워크의 순전파 활성화인 시스템.
제13 항에 있어서,
상기 제1 종류의 상기 데이터 오브젝트는 뉴럴 네트워크의 역전파 활성화인 시스템.
제13 항에 있어서,
상기 처리 회로는 그래픽스 처리 장치인 시스템.
제16 항에 있어서,
상기 제1 메모리는 메모리 관리 유닛을 통하여 상기 그래픽스 처리 장치에 연결되는 메모리인 시스템.
제16 항에 있어서,
상기 제2 메모리는 PCIe(peripheral component interconnect express) 연결을 통하여 상기 그래픽스 처리 장치에 연결되는 메모리인 시스템.
그래픽스 처리 장치;
메모리 관리 유닛을 통하여 상기 그래픽스 처리 장치에 연결되는 제1 메모리; 및
PCIe(peripheral component interconnect express) 연결을 통하여 상기 제1 메모리에 연결되는 호스트를 포함하되,
상기 호스트는,
중앙 처리 장치; 및
제2 메모리를 포함하고,
상기 그래픽스 처리 장치는 명령어들을 저장하는 비일시적 컴퓨터 판독 가능 저장 매체에 연결되고,
상기 그래픽스 처리 장치에 의하여 상기 명령어들이 실행되는 경우, 상기 명령어들은 상기 그래픽스 처리 장치로 하여금 상기 동작 시스템을 실행하고, 상기 동작 시스템 내의 사용자 레벨 프로세스를 개시하게 하고,
상기 사용자 레벨 프로세스는,
상기 동작 시스템으로부터, 상기 제1 메모리의 제1 메모리 할당을 요청하되, 상기 제1 메모리 할당은 복수의 제1 세그먼트들을 포함하고, 상기 복수의 제1 세그먼트들 각각은 제1 종류의 데이터 오브젝트를 저장하는데 충분한 사이즈를 갖고,
제1 계산의 결과가 상기 제1 종류의 데이터 오브젝트일 것임을 판단하고,
상기 제1 계산의 상기 결과가 상기 제1 종류의 데이터 오브젝트일 것임을 판단함에 응답하여, 상기 복수의 제1 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단하고,
상기 복수의 제1 세그먼트들 중 사용되지 않는 세그먼트가 없음을 판단함에 응답하여, 상기 복수의 제1 세그먼트들 중 물리적 어드레스를 갖는 최소 최근 사용 제1 세그먼트를 식별하고,
상기 최소 최근 사용 제1 세그먼트의 내용들을 상기 제2 메모리로 복사하고,
상기 제1 계산을 수행하고,
상기 최소 최근 사용 제1 세그먼트에 상기 제1 계산의 상기 결과를 저장하도록 구성되는 시스템.
제19 항에 있어서,
상기 제1 종류의 상기 데이터 오브젝트는 뉴럴 네트워크의 순전파 활성화인 시스템.