KR102081952B1 - 계산 그래프들의 스트림-기반 가속기 프로세싱 - Google Patents
계산 그래프들의 스트림-기반 가속기 프로세싱 Download PDFInfo
- Publication number
- KR102081952B1 KR102081952B1 KR1020187015068A KR20187015068A KR102081952B1 KR 102081952 B1 KR102081952 B1 KR 102081952B1 KR 1020187015068 A KR1020187015068 A KR 1020187015068A KR 20187015068 A KR20187015068 A KR 20187015068A KR 102081952 B1 KR102081952 B1 KR 102081952B1
- Authority
- KR
- South Korea
- Prior art keywords
- node
- subgraph
- stream
- operations
- represented
- Prior art date
Links
- 238000012545 processing Methods 0.000 title description 34
- 238000000034 method Methods 0.000 claims abstract description 72
- 238000004364 calculation method Methods 0.000 claims abstract description 61
- 230000004044 response Effects 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims abstract description 17
- 230000009471 action Effects 0.000 claims description 62
- 238000013528 artificial neural network Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 8
- 239000003550 marker Substances 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 21
- 239000011159 matrix material Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000005192 partition Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 229940050561 matrix product Drugs 0.000 description 4
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000002730 additional effect Effects 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5066—Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G06N3/0454—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H05K999/99—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Neurology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Advance Control (AREA)
- Debugging And Monitoring (AREA)
Abstract
계산 그래프 시스템에 의해, 계산 그래프를 프로세싱하기 위한 요청을 수신하는 단계; 상기 계산 그래프의 서브그래프를 표현하는 데이터를 획득하는 단계, 상기 계산 그래프는 복수의 노드(node)들과 방향 에지(directed edge)들을 포함하며, 각 노드는 각각의 동작을 표현하며, 각 방향 에지는 각각의 제1 노드를 각각의 제2 노드에 연결하며, 계산 그래프 시스템에서 상기 서브그래프는 플레이서에 의해 제1 디바이스에 할당되며; 상기 제1 디바이스가 복수의 스트림들을 가지는 하드웨어 가속기를 포함한다는 것을 결정하는 단계; 상기 결정에 응답하여, 명령어들을 생성하는 단계를 포함하며, 상기 명령어들은 상기 제1 디바이스에 의해 실행될 때 상기 제1 디바이스로 하여금: 상기 서브그래프에서 각 노드에 의해 표현된 상기 동작을 각각의 스트림에 할당하게 하고; 그리고 상기 할당에 따라 상기 서브그래프에서 각 노드에 의해 표현된 상기 동작들을 수행하게 하는 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램을 포함하는 방법, 시스템, 장치.
Description
본 명세서는 서브그래프를 다수의 스트림들을 가지는 가속기 디바이스 예를 들면, 그래픽 프로세싱 유닛(GPU)에 할당함으로써 신경 네트워크를 나타내는 계산 그래프를 프로세싱하는 것 및/또는 상기 프로세싱된 계산 그래프를 모델 입력을 프로세싱하기 위해 사용하는 것과 관련된다.
신경 네트워크들은 모델들의 하나 이상의 레이어들을 이용하여 수신된 입력에 대한 출력 예를 들면, 하나 이상의 분류들을 생성하는 기계 학습 모델들이다. 일부 신경 네트워크들은 출력 레이어에 더하여 하나 이상의 히든 레이어들을 포함한다. 각 히든 레이어의 출력은 네트워크에서 다음 레이어 즉, 다음 히든 레이어 또는 네트워크의 출력 레이어에 대한 입력으로서 사용된다. 네트워크의 각 레이어는 상기 레이어에 대한 각각의 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.
존재하는 시스템들에서, 계산 그래프들의 동작들은 개별적 디바이스에 의해 프로세싱될 수 있다. 일부 구현예들에서, 디바이스는 GPU이다. 디바이스는 동작들 예를 들면, 입력들로부터 레이어에서 출력들을 생성하는 것을 수행하고 상기 동작들로부터의 출력들을 메모리에 저장하는 프로세서를 가질 수 있다. 많은 수와 크기의 동작들이 계산 그래프에서 출력들을 생성하기 위해 일반적으로 요구되기 때문에, 하나의 디바이스가 그래프의 동작들을 프로세싱하기 위해 상당량의 시간을 가질 수 있다.
일반적으로, 본 명세서는 스트림-기반 가속기 디바이스 예를 들면, GPU를 사용하여 계산 그래프의 서브그래프들을 프로세싱하는 시스템 또는 방법을 기술한다.
일반적으로, 본 명세서에서 기술된 주제의 일 혁신적 양태는 방법으로 이용될 수 있으며, 상기 방법은 계산 그래프를 프로세싱하기 위한 요청을 수신하는 단계; 상기 계산 그래프의 서브그래프를 표현하는 데이터를 획득하는 단계, 상기 계산 그래프는 복수의 노드(node)들과 방향 에지(directed edge)들을 포함하며, 각 노드는 각각의 동작을 표현하며, 각 방향 에지는 상기 각각의 제1 노드에 의해 표현된 동작의 출력을 입력으로서 수신하는 동작을 표현하는 각각의 제1 노드를 각각의 제2 노드에 연결하며, 계산 그래프 시스템에서 상기 서브그래프는 플레이서에 의해 제1 디바이스에 할당되며; 상기 제1 디바이스가 복수의 스트림들을 가지는 하드웨어 가속기를 포함한다는 것을 결정하는 단계; 상기 제1 디바이스가 복수의 스트림들을 가지는 하드웨어 가속기를 포함한다는 것을 결정함에 응답하여, 명령어들을 생성하는 단계, 상기 명령어들은 상기 제1 디바이스에 의해 실행될 때 상기 제1 디바이스로 하여금: 상기 서브그래프에서 각 노드에 의해 표현된 상기 동작을 상기 그래픽 프로세싱 유닛의 복수의 스트림들에서의 각각의 스트림에 할당하게 하고; 그리고 상기 할당에 따라 상기 서브그래프에서 각 노드에 의해 표현된 상기 동작들을 수행하게 하며; 및 상기 명령어들 및 상기 데이터를 상기 제1 디자이스에 제공하는 단계의 액션들을 포함한다. 본 양태의 방법은 컴퓨터로 구현되는 방법이다. 본 양태의 방법은 하나 이상의 컴퓨팅 디바이스들, 예를 들면 계산 그래프 시스템을 포함하는 하나 이상의 컴퓨팅 디바이스들에 의해 수행될 수 있다.
구현예들은 다음 구성들 중 하나 이상을 포함할 수 있다. 요청은 상기 서브그래프에서 하나 이상의 각각의 노드들로부터 하나 이상의 특정한 출력들을 식별하는 것을 특정하며, 제1 디바이스로부터, 하나 이상의 특정한 출력들을 수신하는 단계; 및 상기 하나 이상의 특정한 출력들을 클라이언트에 제공하는 단계를 더 포함한다. 명령어들은 제1 디바이스로 하여금 상기 하나 이상의 특정한 출력들을 상기 제1 디바이스의 메모리에 저장하게 한다. 상기 서브그래프에 대한 동작들은 신경 네트워크에 대한 부분적 추론 또는 계산들 트레이닝을 포함한다. 서브그래프의 노드들의 그룹을 식별하기 위해 체인 구조에서 상기 서브그래프를 분석하는 단계를 더 포함하며, 명령어들은 제1 디바이스로 하여금 상기 노드들의 그룹을 하나의 스트림에 할당하게 한다. 상기 할당은: 상기 서브그래프에서 복수의 방향 에지들을 가지는 제1 노드를 출력으로서 식별하기 위해 상기 서브그래프를 분석하는 것을 포함하며; 상기 명령어들은 상기 제1 디바이스로 하여금 상기 방향 에지들 각각에 대해, 상기 방향 에지가 그래픽 프로세싱 유닛의 고유 스트림(unique stream)을 포인팅하는 노드에 할당하게 한다. 상기 명령어들은 상기 제1 디바이스로 하여금 각 노드에 대해, 상기 노드에 대한 상기 방향 에지들에 기초하여, 상기 노드에 의해 표현된 상기 동작에 의해 소비되는 상기 그래픽 프로세싱 유닛의 메모리 리소스들의 각각의 양을 결정하게 하며, 상기 할당은 상기 메모리 리소스들의 상기 각각의 양에 적어도 기초한다. 상기 명령어들은 상기 제1 디바이스로 하여금 노드에 의해 표현된 특정한 동작이 특정한 스트림에서 종료되었다고 결정하게 하며; 상기 특정한 동작이 종료되었다고 결정함에 응답하여: 자유화될 상기 특정한 동작에 의해 소비된 메모리의 제1 양을 결정하게 하며; 비할당 노드들의 그룹 각각에 대해, 상기 비할당 노드에 의해 소비된 메모리의 각각의 예측된 양을 결정하게 하며; 상기 비할당 노드들의 그룹으로부터, 상기 메모리의 제1양의 사용을 최대화하는 상기 메모리의 예측된 양을 가지는 제1 비할당 노드를 결정하게 하며; 그리고 상기 제1 비할당 노드에 의해 표현된 동작을 상기 특정한 스트림에 할당하게 한다.
구현예에서 상기 방법은: 모델 입력을 수신하는 단계; 및 상기 하드웨어 가속기에 의해, 상기 서브그래프의 상기 노드들에 의해 표현된 동작들에 따라 상기 모델 입력을 프로세싱하는 단계를 더 포함한다.
다른 양태에서, 본 명세서에 기술된 본 발명은 상기 제1 양태의 방법에 의해 획득된 프로세싱된 계산 그래프에 대응하는 기계 학습 모델들을 제공하고, 상기 기계 학습 모델을 사용하여 모델 입력을 프로세싱하는 액션들을 포함할 수 있는 방법들에 수록될 수 있다.
다른 양태에서, 본 명세서에 기술된 본 발명은 하드웨어 가속기에 의해 상기 제1 양태의 방법에 의해 획득된 프로세싱된 계산 그래프의 서브그래프를 실행하는 액션들을 포함할 수 있는 방법들에 수록될 수 있다.
이들 양태들에서, 계산 그래프는 기계 학습 모델 예를 들면, 신경 네트워크의 표현일 수 있다.
다른 혁신적 양태는 계산 그래프의 서브그래프를 표현하는 데이터를 수신하는 단계, 상기 계산 그래프는 복수의 노드(node)들과 방향 에지(directed edge)들을 포함하며, 각 노드는 각각의 동작을 표현하며, 각 방향 에지는 각각의 제1 노드를 각각의 제2 노드에 연결하며, 이는 상기 각각의 제1 노드에 의해 표현된 동작의 출력을 입력으로서 수신하는 동작을 표현하며, 상기 서브그래프는 계산 그래프 시스템에서 플레이서(placer)에 의해 그래픽 프로세싱 유닛에 할당되며; 상기 서브그래프에서 각 노드에 의해 표현된 상기 동작을 상기 그래픽 프로세싱 유닛의 상기 복수의 스트림들에서의 각각의 스트림에 할당하는 단계; 및 상기 할당에 따라 상기 서브그래프에서 상기 노드들에 의해 표현된 상기 동작들을 수행하는 단계의 액션들을 포함한다.
구현예들은 다음 구성들 중 하나 이상을 포함할 수 있다. 상기 서브그래프에서 하나 이상의 각각의 노드들로부터 하나 이상의 특정한 출력들을 식별하는 요청을 수신하는 단계; 및 상기 하나 이상의 특정한 출력들을 클라이언트에 제공하는 단계. 체인 구조에서 상기 서브그래프의 노드들의 그룹을 식별하는 데이터를 수신하는 단계; 및 상기 노드들의 그룹을 하나의 스트림에 할당하는 단계. 상기 할당은: 상기 서브그래프에서 복수의 방향 에지들을 가지는 제1 노드를 출력들로서 식별하는 데이터를 수신하는 것; 및 상기 방향 에지들 각각에 대해, 상기 방향 에지가 상기 그래픽 프로세싱 유닛의 고유 스트림(unique stream)을 포인팅하는 노드에 할당하는 것을 포함. 각 노드에 대해, 상기 노드에 대한 상기 방향 에지들에 기초하여, 상기 노드에 의해 표현된 상기 동작에 의해 소비되는 상기 그래픽 프로세싱 유닛의 메모리 리소스들의 각각의 양을 결정하는 단계, 상기 할당은 상기 메모리 리소스들의 상기 각각의 양에 적어도 기초함. 노드에 의해 표현된 특정한 동작이 특정한 스트림에서 종료되었다고 결정하는 단계; 상기 특정한 동작이 종료되었다고 결정함에 응답하여, 자유화될 상기 특정한 동작에 의해 소비된 메모리의 제1 양을 결정하는 단계; 비할당 노드들의 그룹 각각에 대해, 상기 비할당 노드에 의해 소비된 메모리의 각각의 예측된 양을 결정하는 단계; 상기 비할당 노드들의 그룹으로부터, 상기 메모리의 제1양의 사용을 최대화하는 상기 메모리의 예측된 양을 가지는 제1 비할당 노드를 결정하는 단계; 및 상기 제1 비할당 노드에 의해 표현된 동작을 상기 특정한 스트림에 할당하는 단계.
이들 및 다른 양태들의 다른 구현예들은 방법들의 액션들을 수행하도록 구성된 대응하는 시스템, 장치 및 컴퓨터 저장 디바이스들(비일시적 저장 디바이스이거나 일시적 저장 디바이스일 수 있는)에 인코딩된 컴퓨터 프로그램을 포함한다.
본 명세서에 기술된 본 발명의 특정한 실시예들은 다음의 이점들을 실현하도록 구현될 수 있다. 신경 네트워크의 동작들 예를 들면, 입력으로부터 추론을 생성하는 동작은 노드들 및 방향 에지들의 계산 그래프로서 표현될 수 있다. 시스템은 동작들을 효율적으로 수행하기 위해 이 계산 그래프 표현을 프로세싱한다. 계산 그래프가 다수의 스트림들을 가지기 때문에 시스템은 이 효율성을 달성한다. 다수의 스트림들을 사용하는 것은 논리적으로 독립적인 동작들이 재정렬되거나 또는 동시적으로 실행되게 한다. 시스템이 전체 계산을 위해 종단 간 지연을 저하시키는 목표를 가지는 경우, 예시적 시스템은 논리적으로 독립적인 동작들을 재정렬할 수 있다. 시스템이 보다 많은 처리량을 달성하기 위한 목표를 가지는 경우, 예시적 시스템은 동작들을 동시적으로 실행할 수 있다. 계산 그래프는 병렬 동작들에 대해 통상적은 표현보다 더 쉽게 파티션화될 수 있다. 도시로서, 계산 그래프의 서브그래프들은 고유 디바이스들에 할당될 수 있고, 그것들 각각은 각각의 서브그래프에서의 동작들을 수행하여, 신경 네트워크의 동작들을 수행하는데 요구되는 전체 시간을 감소시킨다.
서브그래프가 할당되는 디바이스는 GPU일 수 있다. 서브그래프는 상기 서브그래프의 동작들을 보다 효율적으로 수행하기 위해 GPU의 다수의 스트림들에 파티션화될 수 있다. 본 명세서의 발명의 하나 이상의 실시예들의 세부 사항은 첨부 도면과 아래의 설명에서 기술된다. 본 발명의 다른 구성들, 양태들 및 이점들은 설명, 도면 및 청구항으로부터 명백해질 것이다. 양태들 및 구현예들은 조합될 수 있고, 하나의 양태 또는 구현예의 맥락에서 기술된 구성들은 다른 양태들 또는 구현예들의 맥락에서 구현될 수 있다는 것이 인식될 것이다.
도 1은 계산 그래프들로서 표현된 신경 네트워크들에 대한 동작들을 분배하는 예시적 계산 그래프 시스템을 도시한다.
도 2는 GPU를 사용하여 계산 그래프의 서브그래프를 프로세싱하기 위한 예시적 프로세스의 흐름도이다.
도 3은 GPU에 의해 프로세싱되는 계산 그래프의 예시적 서브그래프를 도시한다.
도 4는 노드들을 스트림들에 할당하기 위한 예시적 프로세스의 흐름도이다.
다양한 도면들에서 동일한 참조 번호 및 기호는 동일한 구성요소를 표시한다.
도 2는 GPU를 사용하여 계산 그래프의 서브그래프를 프로세싱하기 위한 예시적 프로세스의 흐름도이다.
도 3은 GPU에 의해 프로세싱되는 계산 그래프의 예시적 서브그래프를 도시한다.
도 4는 노드들을 스트림들에 할당하기 위한 예시적 프로세스의 흐름도이다.
다양한 도면들에서 동일한 참조 번호 및 기호는 동일한 구성요소를 표시한다.
본 명세서는 일반적으로 분산된 방식으로 계산 그래프에 의해 표현된 동작들을 수행하는 계산 그래프 시스템을 기술한다.
계산 그래프는 방향 에지(directed edge)들에 의해 연결된 노드들을 포함한다. 계산 그래프에서 각 노드는 동작을 표현한다. 노드로 들어오는 에지는 상기 노드로의 입력의 흐름 즉, 노드에 의해 표현된 동작에 대한 입력을 표현한다. 노드로부터 나가는 에지는 다른 노드에 의해 표현된 동작에 대한 입력으로서 사용될 노드에 의해 표현된 동작의 출력의 흐름을 표현한다. 따라서, 그래프에서 제1 노드를 그래프에서 제2 노드에 연결하는 방향 에지는 제1 노드에 의해 표현된 동작에 의해 생성된 출력이 제2 노드에 의해 표현된 동작에 대한 입력으로서 사용된다는 것을 표시한다.
일반적으로, 계산 그래프에서 방향 에지들을 따라 흐르는 입력과 출력들은 텐서(tensor)들이다. 텐서는 어레이(array)의 차원수(dimensionality)에 대응하는 특정 순서(order)를 가지는 수치값 또는 다른 값들 예를 들어, 스트링들의 다차원 어레이이다. 예를 들면, 스칼라 값은 0번째 순서 텐서이며, 수치값들의 벡터는 1번째 순서 텐서이며, 그리고 행렬(matrix)은 2번째 순서 텐서이다.
일부 구현예들에서, 계산 그래프에서 표현되는 동작들은 신경 네트워크 동작들 또는 상이한 종류의 기계 학습 모델을 위한 동작들이다. 신경 네트워크는 수신된 입력의 출력을 예측하기 위한 비선형 유닛들의 하나 이상의 레이어들을 이용하는 기계 학습 모델이다. 일부 신경 네트워크들은 출력 레이어에 더하여 하나 이상의 히든 레이어들을 포함하는 딥 신경 네트워크들이다. 각 히든 레이어의 출력은 네트워크에서 다른 레이어 즉, 다른 히든 레이어, 출력 레이어 또는 둘 모두에 대한 입력으로서 사용된다. 네트워크의 일부 레이어들은 각각의 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성하며, 네트워크의 다른 레이어들은 파라미터들을 가지지 않을 수 있다.
예를 들면, 계산 그래프에 의해 표현된 동작들은 추론을 계산하기 위해 즉, 신경 네트워크의 레이어들을 통한 입력을 프로세싱하여 상기 입력에 대한 신경 네트워크 출력을 생성하이 위해, 신경 네트워크에 필요한 동작들일 수 있다. 다른 예시로서, 계산 그래프에 의해 표현된 동작들은 신경 네트워크의 파라미터들의 값들을 조절하기 위해 예를 들어, 파라미터들의 초기값들로부터 파라미터들의 트레이닝된 값들을 결정하기 위해 신경 네트워크 트레이닝 절차를 수행함으로써, 신경 네트워크를 트레이닝하기 위해 필요한 동작들일 수 있다. 일부 경우들에서, 예를 들어, 신경 네트워크의 트레이닝 동안에, 계산 그래프에 의해 표현된 동작들은 신경 네트워크의 다수의 레플리카(replica)들에 의해 수행된 동작들을 포함할 수 있다.
도시로서, 이전 레이어로부터 입력을 수신하는 신경 네트워크 레이어는 파라미터 행렬과 입력 사이에서 행렬곱(matrix multiplication)을 수행하기 위해 파라미터 행렬을 사용할 수 있다. 일부 경우들에서, 이 행렬곱은 계산 그래프에서 다수의 노드들로서 표현될 수 있다. 예를 들면, 행렬곱은 다수의 곱셈과 추가 동작들로 나누어질 수 있고, 각 동작은 계산 그래프에서 상이한 노드에 의해 표현될 수 있다. 각 노드에 의해 표현된 동작은 방향 에지에서 후속 노드로 흐르는 각각의 출력을 생성할 수 있다. 최종 노드에 의해 표현된 동작이 행렬곱의 결과를 생성한 후에, 결과는 방향에지에서 다른 노드로 흐른다. 결과는 행렬곱을 수행하는 신경 네트워크 레이어의 출력과 동등하다.
일부 경우들에서, 행렬곱은 그래프에서 하나의 노드로서 표현된다. 노드에 의해 표현된 동작들은 입력들로서 제1 방향 에지에서 입력 텐서와 제2 방향 에지에서 가중 텐서(weight tensor) 예를 들어, 파라미터 행렬을 수신할 수 있다. 일부 구현예들에서, 가중 텐서는 모델의 공유된 지속적 상태(persistent state)와 연관된다. 노드는 신경 네트워크 레이어의 출력과 동등한 제3 방향 에지에서 출력 텐서를 출력하기 위해 입력과 가중 텐서를 프로세싱한다(예를 들어, 입력과 가중 텐서의 행렬곱 수행).
계산 그래프에서 노드들에 의해 표현될 수 있는 다른 신경 네트워크 동작들은 기타 수학적 동작들 예를 들어, 뺄셈, 나누기 및 기울기 계산; 어레이 동작들 예를 들어, 연결(concatenate), 결합(splice), 쪼개기(split) 또는 랭킹(rank); 및 신경 네트워크 빌딩 블록 동작 예를 들어, SoftMax, Sigmoid, ReLU(rectified linear unit) 또는 컨벌루션들을 포함한다.
신경 네트워크를 계산 그래프로서 표현하는 것은 특히 신경 네트워크에 대한 동작들이 상이한 하드웨어 프로필을 가지는 다수의 디바이스들에 걸쳐서 분배된 경우, 신경 네트워크를 효율적으로 구현하기 위한 유연하고 세밀한 방식을 위해 제공된다.
도 1은 계산 그래프들로서 표현된 신경 네트워크들에 대한 동작들을 분배하는 예시적 계산 그래프 시스템(100)을 도시한다. 시스템(100)은 이하에 기술된 시스템들, 컴포넌트들 및 기법들이 구현될 수 있는, 하나 이상의 위치들의 하나 이상의 컴퓨터들에서 컴퓨터 프로그램들로서 구현된 시스템의 예시이다.
클라이언트(102)의 사용자는 신경 네트워크를 표현하는 계산 그래프에서 수행되는 액션들을 요청할 수 있다. 예를 들면, 클라이언트는 그래프를 세션 관리자로 등록하고, 데이터 입력을 그래프에 공급하거나 그래프의 출력들 중 하나 이상을 평가할 수 있다. 클라이언트(102)는 컴퓨터에서 실행되는 어플리케이션일 수 있다.
요청의 부분으로서, 클라이언트(102)는 계산 그래프를 식별하는 데이터를 시스템(100)에 제공하고, 계산 그래프에서 수행될 액션들의 유형을 특정한다.
예를 들면, 요청은 특정한 신경 네트워크에 대한 추론을 표현하는 계산 그래프를 식별하고, 추론이 수행되어야 할 입력을 식별할 수 있다.
다른 예시로서, 요청은 특정한 신경 네트워크에 대한 트레이닝 절차를 표현하는 계산 그래프를 식별하고, 트레이닝이 수행되어야 할 트레이닝 데이터와 같은 입력을 식별할 수 있다. 이 예시에서, 트레이닝 절차를 표현하는 계산 그래프를 프로세싱하기 위한 요청을 수신하는 경우, 시스템(100)은 예를 들어, 통상적인 역전파 또는 다른 신경 네트워크 트레이닝 기법들을 사용하여, 계산 그래프의 하나 이상의 노드들에 대한 파라미터들에 대해 수정된 값들을 결정할 수 있다. 시스템(100)은 수정된 파라미터들을 디바이스의 메모리에 저장할 수 있고, 실행자(106)는 시스템(100)에서 수정된 가중치들의 주소들을 검색하고 저장할 수 있다. 추론, 트레이닝 또는 수정된 가중치를 요하는 다른 동작들을 위한 클라이언트(102)로부터 추가적 요청들에 따라, 시스템(100)은 주소들을 사용하여 수정된 가중치들에 엑세스할 수 있다.
일부 경우들에서, 요청은 상기 요청에 대응하여 전송되어야 하는 응답을 특정할 수 있다. 예를 들면, 신경 네트워크 트레이닝 요청에 대해, 클라이언트(102)는 요청된 신경 네트워크 트레이닝 동작들이 완료되었다는 표시와, 선택적으로, 신경 네트워크의 파라미터들의 트레이닝된 값들 또는 상기 트레이닝된 값들이 클라이언트(102)에 의해 엑세스될 수 있는 메모리 위치의 표시를 요청할 수 있다. 다른 예시로서, 신경 네트워크 추론 요청에 대해, 클라이언트(102)는 계산 그래프의 하나 이상의 특정한 노드들로부터 추론 동작을 표현하는 출력값들을 요청할 수 있다.
시스템(100)은 다수의 디바이스들(115-122)에 걸쳐서 계산 그래프에 의해 표현된 동작들을 파티션화함으로써, 특정한 출력을 생성하기 위한 동작들을 수행한다. 시스템(100)은 데이터 통신 네트워크(114) 예를 들어, LAN 또는 WAN을 통해 동작들을 다수의 디바이스들(116-122)로 파티션화한다. 디바이스들(116-122)은 동작들을 수행하며, 적용가능한 경우, 각각의 출력 또는 표시를 시스템(100)에 리턴하며, 이는 요청된 출력 또는 표시를 클라이언트(102)에 리턴할 수 있다.
신경 네트워크 동작들을 수행하는 임의의 디바이스들 예를 들어, 디바이스들(116-122)은 명령어들과 데이터를 저장하기 위한 메모리 예를 들어, RAM과 저장된 명령어들을 실행하기 위한 프로세서를 포함할 수 있다. 일반적으로, 각 디바이스는 다른 디바이스들과 독립적으로 동작들을 수행하는 하드웨어 리소스이다. 예를 들면, 각 디바이스는 그것 고유의 프로세싱 유닛을 가진다. 디바이스들은 GPU(Graphical Processing Unit)들, CPU(Central Processing Unit)들 또는 다른 가속기들일 수 있다. 예시로서, 하나의 기계는 하나 이상의 디바이스들 예를 들어, 다수의 CPU들 및 GPU들을 호스팅할 수 있다.
또한 각 디바이스는 각각의 계산 능력을 가질 수 있다. 즉, 디바이스들은 서로 다른 양의 메모리, 프로세싱 속도 또는 기타 아키텍쳐적 특징들을 가질 수 있다. 따라서, 일부 디바이스들은 다른 디바이스들은 할 수 없는 동작들을 수행할 수 있다. 예를 들면, 일부 동작들은 단지 특정한 디바이스들만 가지는 특정 양의 메모리를 요구하거나 또는 일부 디바이스들은 특정한 유형의 동작 예를 들어, 추론 동작들만 수행하도록 구성된다.
시스템(100)에서 세션 관리자(104)는 클라이언트(102)로부터 요청을 수신하여 계산 그래프의 동작들이 수행되는 세션을 시작한다. 세션 관리자(104)는 계산 그래프의 동작들을 수행할 수 있는 디바이스들의 세트 예를 들어, 디바이스들(116-122)을 관리하며, 플레이서(108)에 동작들을 수행하기 위해 사용가능한 디바이스들의 세트를 제공할 수 있다.
플레이서(108)는 계산 그래프에서 수행될 각 동작에 대해, 상기 동작을 수행하는 각각의 타겟 디바이스 예를 들어, 디바이스(116)과 일부 구현예들에서, 상기 동작을 수행하기 위한 상기 각각의 타겟 디바이스에 대한 시간을 결정한다. 플레이서(108)는 주어진 입력 데이터의 크기에 대해 각 사용가능한 디바이스에서 동작이 얼마나 오래 걸릴 것인지 알고 있음으로써 최적의 디바이스 할당을 수행한다. 플레이서(108)는 측정들 또는 예상 성능 모델들을 사용하여 프로세싱 시간의 예측치를 획득한다. 예를 들어, 다른 동작들은 이전 동작들의 출력들을 입력들로서 프로세싱하여, 다른 동작들은 완료될 계산 그래프에서 이전의 동작들을 요구하지만, 일부 동작들은 병렬로 수행될 수 있다.
디바이스가 출력들을 생성하기 위해 플레이서(108)에 의해 할당된 동작들을 수행한 후에, 실행자(106)는 출력들을 검색할 수 있다. 실행자(106)는 요청에 대한 적절한 응답 예를 들어, 출력 또는 프로세싱이 완료되었다는 표시를 생성할 수 있다. 그 후, 실행자(106)는 상기 응답을 클라이언트(102)에 리턴할 수 있다. 비록 도 1이 하나의 실행자(106)를 도시하였지만, 하나의 구현예에서는, 디바이스마다 실행자가 있다. 이 실행자는 동작들이 실행가능하게 된 경우(즉, 동작들의 모든 입력들이 계산됨) 동작들을 디바이스에 발행한다. 또한, 이 구현예는 플레이서(108)를 호출함으로써 다수의 디바이스들에서 실행하기 위해 그래프를 파티션화하고 필요한 실행자들을 생성하는 그래프 관리자를 가진다.
또한, 세션 관리자(104)는 계산 그래프에서 수행될 동작들의 세트들을 실행자(106)에게 제공한다. 실행자(106)는 디바이스들(116-122)로부터 동작들의 그래프 실행과 관련된 런타임 통계를 주기적으로 검색한다. 실행자(106)는 상기 런타임 통계를 플레이서(108)에 제공하며, 이는 추가적 동작들의 배치(placement) 및 스케쥴을 재-최적화할 수 있다.
도 2는 GPU를 사용하여 계산 그래프의 서브그래프를 프로세싱하기 위한 예시적 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로서 기술될 것이다. 예를 들면, 적절하게 프로그래밍된 계산 그래프 시스템 예를 들어, 도 1의 계산 그래프 시스템(100)은 프로세스(200)를 수행할 수 있다.
시스템은 계산 그래프를 프로세싱하기 위한 요청을 클라이언트로부터 수신한다(단계(202)). 예를 들면, 요청은 도 1을 참조하여 상기 기술된 바와 같이, 특정 입력에 대해 계산 그래프에 의해 표현된 신경 네트워크 추론을 수행하기 위한 요청, 트레이닝 데이터의 특정 세트에 대해 계산 그래프에 의해 표현된 신경 네트워크 트레이닝 동작들을 수행하기 위한 요청 또는 계산 그래프에 의해 표현된 다른 신경 네트워크 동작들을 수행하기 위한 요청일 수 있다.
일부 경우들에서, 계산 그래프는 클라이언트로부터의 요청들로 보내어진다. 다른 경우들에서, 요청은 계산 그래프를 식별하고 시스템은 식별된 그래프를 표현하는 데이터를 메모리로부터 검색한다.
시스템은 계산 그래프를 다수의 서브그래프들로 파티션화할 수 있다. 일부 구현예에서, 서브그래프들을 요청을 보내는 클라이언트에 의해 특정되며, 시스템은 상기 특정에 따라 계산 그래프를 파티션화한다. 일부 다른 구현예에서, 시스템은 계산 그래프를 파티션화하여, 각 서브그래프가 다른 서브그래프들에 비해 동작들을 수행하기 위해 유사한 양의 리소스들을 요구하도록 한다.
시스템은 예를 들어, 도 1의 플레이서(108)를 사용하여 각 서브그래프를 사용가능한 디바이스에 할당할 수 있다.
시스템은 파티션화된 계산 그래프로부터 계산 그래프의 특정한 서브그래프를 표현하는 데이터를 획득한다(단계(204)). 데이터는 데이터베이스 또는 시스템의 메모리로부터 획득될 수 있다. 예시로서, 특정한 서브그래프의 동작들은 부분적 추론 또는 트레이닝 계산들을 표현한다.
시스템은 서브그래프가 할당되는 디바이스는 그래픽 프로세싱 유닛 또는 다수의 스트림들을 가지는 다른 하드웨어 가속기 디바이스임을 결정한다(단계(206)). 예시로서, 시스템은 계산 그래프에 할당될 디바이스들을 관리하는 리소스 관리자로부터 디바이스의 유형을 요청함으로써 디바이스가 다수의 스트림들을 가지는 GPU인지 여부에 엑세스할 수 있다. 각 스트림은 동작들이 순서대로 프로세싱되는 독립적인 하드웨어 큐(queue)이다.
시스템은 디바이스에 의해 실행될 때 디바이스로 하여금 특정한 동작들을 수행하게 하는 명령어들을 생성한다(단계(208)). 특히, 명령어들은 디바이스로 하여금 서브그래프에서 각 노드에 의혀 표현되는 동작을 디바이스의 각각의 스트림에 할당하게 한다.
예시적 시스템은 일부 하드웨어 가속기들의 계산들을 특정한 방식으로 스트림들에 할당할 수 있다(예를 들어, 하나의 동작이 스트림 A에서 실행되면, 그 후에, 관련된 동작 또한 스트림 A에서 실행되어야 함). 예를 들면, 제1 동작은 상태를 추적할 수 있고(stateful), 스트림 A에서 실행된다. 실행함으로써, 제1 동작은 제2 동작이 실행되기 전에 반드시 행해져야 하는 방식으로 하드웨어의 내부적 상태를 변경할 수 있다. 그 후, 제1 동작이 완료된 후에 제2 동작은 스트림 A에서 실행될 수 있다.
일부 구현예에서, 2개의 내부적 하드웨어 리소스들은 동시적으로 사용될 수 없고 따라서 직렬화되어야 한다.
일반적으로, 디바이스는 서로 종속되지 않는 동작들을 상이한 스트림들에 할당한다. 서로 종속되지 않는 동작들을 상이한 스트림들에 할당함으로써, 하드웨어는 동작이 얼마나 오래 걸릴 것인지 알 필요가 없고, 사용가능한 다수의 동작들로부터 선택하여 고비용 호스트 간섭없이 실행하기 위해 준비된 제1 동작을 실행할 수 있다.
또한 명령어들은 디바이스로 하여금 상기 할당에 따라 서브그래프에서 노드들에 의해 표현된 동작들을 수행하게 한다. 동작들이 특정한 스트림에 할당되면, 동작들은 대기행렬에 넣어진다(queued). 디바이스는 동작들을 FIFO(first-in-firtst-out) 방식으로 수행할 수 있다. 따라서, 만약 디바이스가 단 1개의 스트림을 갖는다면, 디바이스에 할당된 동작들은 직렬적으로 수행된다. 만약 디바이스가 다수의 스트림들을 가진다면, 상이한 스트림들에서 동작들은 병렬로 수행될 수 있고, 서로에 대해 재순서화될 수 있지만, 해당 스트림 내의 동작들은 직렬적으로 수행된다. 다수의 스트림들을 사용하여 동작들을 수행하는 것은 서브그래프의 동작들을 수행하기 위한 총 시간을 감소시킨다. 이는 아래에서 도 3 및 4를 참조하여 추가로 기술된다.
시스템은 명령어들 및 데이터를 디바이스에 제공한다(단계(210)). 일부 구현예들에서, 시스템은 디바이스에 요청을 송신하여 동작들을 시작한다. 디바이스는 요청을 수신하고, 응답으로, 시스템으로부터 수신된 명령어들을 실행한다. 예를 들면, 디바이스는 모델 입력을 수신하고, 서브그래프에서 노드들에 의해 표현된 동작들에 따라 모델 입력을 프로세싱한다.
도 3은 가속기(302)에 의해 프로세싱되는 계산 그래프의 예시적 서브그래프(316)를 도시한다. 서브그래프(316)는 노드들(308-314)를 가지며, 각 노드는 가속기(302)에 의해 수행될 동작을 표현한다. 계산 그래프 시스템 예를 들어, 도 1의 시스템(100)은 서브그래프(316)를 가속기(302)에 할당했다.
가속기(302)는 스트림들(304 및 305)을 가진다. 스트림들은 가속기(302)의 활용을 공유한다. GPU에서, 스트림들은 대칭적일 수 있고, 이는 모든 동작들이 임의의 스트림에서 수행될 수 있음을 의미한다. 이 대칭은 모든 가속기 디바이스에서 사용가능하지 않을 수 있다. 예를 들면, 특정 가속기 디바이스들에서 특정 스트림들은 호스트와 디바이스 메모리 사이에 데이터를 복사하는 동작들을 수행하는데 사용되어야만 할 수 있다.
계산 그래프 시스템은 서브그래프(316)를 분석하여 어떻게 서브그래프(316)가 다수의 스트림들(304 및 306)에 할당되었는지 결정할 수 있다. 일부 구현예들에서, 시스템은 명령어들을 생성하며, 상기 명령어들은 가속기(302)로 하여금 서브그래프(316)의 노드들을 방향 에지가 연결되는 횟수를 최소화하는 방식으로 상이한 스트림들에 할당하게 한다. 스트림들 간 종속성들을 강제하는 성능 비용이 있을 수 있다. 순서화 명령어들은 일부 오버헤드 비용을 가진다. 모든 순서화 종속성은 디바이스에서 사용가능한 가능한 순서화 실행의 수를 감소시키며, 스케쥴링 유연성을 감소시킨다. 제1 스트림으로부터 방향 에지가 제2 스트림으로 연결할 때마다, 제2 스트림은 프로세싱을 완료하기 위해 제1 스트림으로부터 제2 스트림으로의 방향 에지를 가지는 동작을 위해 대기한다. 대기하는 것은 제2 스트림이 아이들링 상태에 있게 하며, 이는 GPU가 비효율적으로 활용되게 한다.
일부 구현예들에서, 시스템은 명령어들을 생성하며, 상기 명령어들은 가속기(302)로 하여금 서브그래프(316)의 노드들을 가속기(302)의 특징들에 기초하여 할당하게 한다. 예를 들면, 가속기(302)는 고정된 수의 스트림들 즉, 스트림들(304 및 306)을 가진다. 시스템은 노드들을 할당할 수 있고, 따라서 각 스트림이 가속기(302)에 의해 유사하게 활용될 것이다. GPU들인 가속기들에 대해, 모든 스트림들은 스레드들의 단일의 커다란 풀을 공유한다.
또한 일부 스트림들은 다른 스트림들은 수행하지 않는 특정한 동작들을 수행한다. 예를 들면, 스트림(306)은 DMA(Direct Memory Access) 동작들을 수행할 수 있지만, 스트림(304)는 수행하지 않는다. 따라서, 시스템은 각 노드를 분석하여 상기 노드에 의해 표현된 동작의 유형을 결정할 수 있고, 시스템은 노드를 동작의 상기 유형을 수행할 수 있는 스트림에 할당할 수 있다. GPU들에서, 주요 정체되는 리소스들은 데이터를 호스트들과 디바이스 메모리 간에 복사하는 DMA 엔진들이다. DMA 엔진들은 임의의 스트림에 의해 사용될 수 있다. 만약 하나의 스트림이 DMA 동작을 실행하면, 시스템은 동시적으로 계산을 실행할 수 없다. 그러므로, 예시적 시스템은 적어도 하나의 다른 스트림이 동시에 실행하기 위한 일부 계산 작업을 가지는 것을 보장한다. 시스템은 서브그래프를 식별하기 위해 분석할 수 있고, 따라서, 동작들의 할당을 관리하는 소프트웨어 모듈 또는 드라이버로 하여금 다음의 두가지 일반규칙들에 의해 노드들을 할당하게 하는 명령어들을 생성한다. 첫째, 시스템은 체인 구조에서 배열된 노드들을 동일한 스트림에 할당하려고 시도한다. 체인 구조의 노드들은 노드로부터 노드까지의 하나의 방향 에지에 따라 서로 연결된 노드들이다. 따라서, 체인에서 노드는 그것의 고유 동작을 계산하기 전에 계산을 끝내기 위한 체인에서의 이전 노드에서의 동작들을 대기해야만 한다. 노드들의 체인을 할당하는 것은 그래프에서 가지치기(branching)와 합치기(merging)이 발생하기 때문에(예를 들어, 공유된 입력 변수들 또는 공통 서브표현들로부터) 항상 가능하지는 않다.
둘째, 시스템은 가속기(302)로 하여금 하나의 노드로부터 입력을 각각 수신하는 다수의 노드들을 고유 스트림들에 할당하게 하는 명령어들을 생성하는 것을 선택할 수 있다. 즉, 제1 노드가 다수의 상이한 노드들에 대하 다수의 출력들을 가지면, 시스템은 상기 상이한 노드들 각각을 고유 스트림에 할당한다. 상기 상이한 노드들 각각은 다른 상이한 노드들 중 임의의 노드에 대해 데이터 종속성을 가지지 않으며, 따라서, 디스조인트(disjoint) 스트림들에서 동작할 때 효율성을 개선한다.
예시로서, 가속기(302)는 서브그래프(316)를 수신한다. 시스템에 의해 수신된 명령어들은 가속기(302)로 하여금 개시 노드(308)를 제1 스트림(306)에 할당하게 한다. 개시 노드(308)는 2개의 출력들 노드(310)에 대한 하나의 방향 에지 및 노드(314)에 대한 하나의 방향 에지를 가진다. 그러므로, 제2 규칙을 사용하여, 명령어들은 가속기(302)로 하여금 노드들(310 및 314)을 상이한 스트림들에 할당하게 한다. 또한, 노드(312)는 노드(310)의 출력만을 입력으로서 수신한다. 그러므로, 제1 규칙을 사용하여, 시스템은 노드(312)를 동일한 스트림 즉, 노드(310)과 같은 스트림(304)에 할당한다.
상기 기술된 바와 같이, 스트림들은 동작들이 순서대로 수행되는 하드웨어 큐들이다. 따라서, 가속기(302)가 노드들을 스트림들에 할당하는 순서가 문제이다. 가속기(302)는 노드들을 스트림들에 서브그래프에서 데이터 흐름의 방향의 순서로 할당한다. 즉, 가속기(302)는 서브그래프의 하나 이상의 개시 노드들을 식별하고, 하나 이상의 개시 노드들을 할당한다. 그 후, 가속기(302)는 하나 이상의 개시 노드들의 출력들인 방향 에지들을 따라 후속 노드들을 식별하고, 가속기(302)는 상기 후속 노드들을 각각의 스트림들에 할당한다. 가속기(302)는 노드들의 할당을 서브그래프의 각 노드가 할당될 때까지 계속한다. 이 순서로 노드들을 할당하는 결과로서, 주어진 스트림 내의 동작들 또한 상기 기술된 바와 같이, 동작들이 할당된 순서로 수행될 것이다. 동작 A의 입력들이 상이한 스트림들에서 생산된 경우, 동작 A가 실행되기 전에 그들이 모두 계산되었다는 것을 보장할 필요가 있다. 동작 A 가 할당되는 스트림에서의 실행은 동작 A에 대한 모든 입력이 계산될 때까지 멈춰져야만 한다. 정확한 멈춤 메커니즘은 디바이스에 특정적이다. GPU 디바이스들에 대해, 이벤트는 입력 스트림들 각각에 대해 생성될 수 있고, 명령어들은 상기 이벤트를 신호하기 위해 각 스트림에 추가될 수 있다. 각 입력에 대해, 명령어는 또한, 동작이 실행하기 위한 관련된 이벤트에 대해 대기하게 하기 위해 A가 할당되는 스트림에 추가될 수 있다. 동작 A에 대한 입력들 중 하나 이상이 동일한 스트림에서 동작 A로서 계산되는 경우, 데이터 흐름 종속성 명령어들은 안전하게 삭제될 수 있고, 더 나은 성능으로 이끈다. 주어진 스트림 내에서, 상기 주어진 스트림에 할당된 하나 이상의 다른 노드들에 의해 표현된 동작들에 의한 입력으로서 사용되는 출력을 생성하는 주어진 스트림에 할당된 노드들에 의해 표현되는 동작들은 이미 계산되었을 것이거나 가속기(302)가 상기 하나 이상의 다른 노드들에 의해 표현된 동작들을 수행할 때 계산되도록 스케쥴링되었을 것이다.
상기 예시를 계속하면, 스트림(304)는 데이터가 노드(310)으로부터 노드(312)로 흐르기 때문에 노드(310)에 할당되고, 그 후 노드(312)에 할당된다. 스트림에서 동작들을 실행할 때, 가속기(302)는 노드(310)에 의해 표현된 동작들을 먼저 실행하고, 그 후 노드(312)에 의해 표현된 동작들을 실행한다.
최종 노드들 즉, 노드들(312 및 314)이 동작들을 수행한 이후에, 가속기(302)는 노드들의 출력들 또는 동작들이 완료되었다는 표시를 시스템에 리턴한다. 예시적 시스템에서, 계산 결과를 가속기(302)의 메모리로부터 호스트 메모리로 다시 복사하는 특수한 ‘보내기’ 노드가 있고, 수신 노드에 의해 상이한 디바이스에 넘겨질 수 있거나 또는 원격 프로시저 콜(RPC, remote procedure call) 응답에서 클라이언트에 반환될 수 있다. 그 후, 시스템은, 필요시, 출력 또는 표시를 클라이언트에 리턴한다.
노드들을 스트림들에 할당하는 다른 구현예가 도 4를 참조하여 아래에 기술될 것이다.
도 4는 서브그래프들을 디바이스들에 할당하기 위한 예시적 프로세스(400)의 흐름도이다. 편의상, 프로세스(400)는 시스템 예를 들어 GPU에 의해 수행되는 것으로서 기술될 것이다. 예를 들면, GPU는 계산 그래프 시스템 예를 들어, 도 1의 계산 그래프 시스템(100)에 의해 생성된 명령어들을 수신할 수 있고, 상기 명령어들은 실행될 때, GPU로 하여금 프로세스(400)를 수행하게 한다.
시스템은 노드에 의해 소비된 메모리 리소스의 양에 기초하여 또는 이전에 할당된 노드들에 의해 특정한 노드를 스트림에 할당할 수 있다. 예를 들면, 시스템은 서브그래프의 각 노드를 향하는 그리고 그로부터의 각 방향 에지에서 텐서(tensor)의 규모(dimension)을 계산할 수 있다. 상기 텐서의 규모는 동작을 수행하기 위해 디바이스에 의해 소비되는 메모리의 크기를 표시한다. 시스템은 상기 크기를 결정하기 위해 모든 텐서의 규묘를 계산할 필요가 있을 수 있다. 그 후, 시스템은 특정한 크기의 메모리를 소비하는 텐서들을 가지는 특정한 노드들을 특정한 크기의 메모리를 가지는 디바이스들에 할당할 수 있다.
특히, 디바이스가 동작을 수행할 때, 소프트웨어 드라이버 또는 실행자는 임의의 입력들 뿐만 아니라 동작의 결과로서 계산된 임의의 출력들을 저장하기 위해 메모리를 할당한다. 디바이스 상의 메모리의 양이 제한되기 때문에, 디바이스는 메모리가 더 이상 사용되지 않는 경우 메모리를 자유화한다.
예시로서, 시스템은 노드에 의해 표현된 동작이 특정한 스트림에서 종료되었는지 여부를 결정한다(단계(402)). 예를 들면, 시스템은 특정한 스트림에서 동작이 종료되었는지 여부를 결정하기 위해 주기적으로 스트림들을 폴링(polling)할 수 있다. 시스템은 호스트로 하여금 스트림의 동작들의 리스트를 통해 실행이 얼마나 진행되었는지 결정하게 하는 액션을 지원할 수 있다. 일부 구현예들에서, 이벤트들 또는 마커들(markers)은 실행이 얼마나 진행되었는지 신호할 수 있다. 이벤트가 발생한 경우, 이벤트는 스트림에서 특수한 하드웨어 동작 큐에 추가될 수 있다. 호스트는 어떤 동작들이 발생했는지 결정하기 위해 이 큐를 폴링할 수 있다. 다른 스트림 구현예들은 호스트로 하여금 모든 대기행렬이 넣어진 동작들이 언제 완료되는지만 결정하게 할 수 있다. 대안적으로 또는 추가적으로, 하드웨어는 스트림이 특정 포인트에 다다르면 인터럽트(interrupt) 또는 콜백(callback)을 제공할 수 있다.
동작이 종료된 경우, 시스템은 동작에 대한 입력들에 대해 사용된 메모리를 결정할 수 있고 다른 동작들에서의 사용을 위해 자유화될 수 있다. 시스템은 동작의 출력들을 위해 사용된 메모리를 자유화하지 않는데, 상기 출력들은 후속 노드에서 사용될 수 있기 때문이다.
따라서, 시스템은 자유화될 소비된 메모리의 양을 결정한다(단계(404)). 시스템은 자유화될 메모리의 크기를 식별하기 위해 요청을 소프트웨어 드라이버 또는 실행자에 보낸다.
일부 구현예들에서, 예시적 시스템은 원격 머신이 임의의 포인트의 시간에 데이터를 하드웨어 가속기의 메모리에 직접적으로 전송하는데 사용할 수 있는 RDMA(remote direct memory access) 네트워크 인터페이스들을 사용하게 한다. 이 메모리는 임의의 스트림 상에서 실행되는 임의의 다른 동작에 의해 사용되지 않아야만 한다. 예시적 시스템은 각 스트림에서의 동작들이 얼마나 진행되었는지 정확하게 알 필요가 없을 수 있다. 그러나, 시스템은 임의의 스트림에 의해 사용되지 않을 알려진 메모리를 계속 추적해야 한다. 그 후, 이 자유 메모리는 RDMA을 위해 사용될 수 있다.
시스템은 비할당 노드들의 그룹의 각각에 대해, 상기 비할당 노드에 의해 소비된 메모리의 각각의 예측된 양을 결정한다(단계(406)). 비할당 노드들은 동작이 완료된 노드로부터의 입력들을 수신하는 노드들을 포함할 수 있다. 또한, 비할당 노드들은 동작이 완료되었지만 여전히 가속기에 의해 프로세싱되어야 하는 노드로부터 독립적인 노드들을 포함할 수 있다. 상기 기술된 바와 같이, 메모리의 예측된 양은 비할당 노드들에 대한 각각의 텐서들의 규모들을 평가함으로써 결정될 수 있다.
시스템은 비할당 노드들의 그룹으로부터, 동작을 표현하는, 가속기에 의해 스트림 상에서 실행될 때, 자유화될 메모리의 양의 사용을 최대화하는, 제1 비할당 노드를 결정한다(단계(408)). 비할당 노드에 의해 표현된 동작을 실행하기 위해 자유화될 메모리의 양보다 많은 메모리를 요구하면, 비할당 노드는 스트림에 할당되지 않을 것이다. 제1 및 제2 동작이 자유화될 메모리의 양보다 작거나 동등한 메모리의 각각의 예측된 양을 요구하면, 시스템은 자유화될 메모리의 양의 사용을 최대화하는 동작을 선택한다. 다시 말해서, 이 경우에, 시스템은 선택된 동작을 표현하는 노드를 제1 비할당 노드로서 결정한다. 예시적 시스템은 가속기 메모리의 어떤 지역들이 일시적인 작업 공간과 동작의 출력들을 홀딩하는데 사용될 것인지 결정할 수 있을 때까지 동작을 스트림에서 대기행렬에 넣지 않는다. 메모리가 부족한 이벤트에서, 예시적 시스템은 실행하기 위해 메모리의 보다 작은 양을 요구하는 동작들을 대기행렬에 넣거나 또는 많은 입력 텐서들을 소비하여 그들이 비할당되게 할 동작들을 우선적으로 대기행렬에 넣기 위해 선택할 수 있다.
시스템은 제1 비할당 노드에 의해 표현된 동작을 특정한 스트림에 할당한다(단계(410)). 그 후, 시스템은 특정한 스트림으로 하여금 동작을 수행하게 할 수 있고, 시스템은 도 2-3을 참조하여 상기 기술된 바와 같이 동작하는 것을 계속할 수 있다.
본 발명의 실시예들과 본 명세서에 기술된 기능적 동작들은 본 발명에 개시된 구조들 및 그들의 구조적 균등물들 또는 그들 중 하나 이상의 조합들을 포함하는, 디지털 전자회로에서, 유형적으로 수록된 컴퓨터 소프트웨어 또는 펌웨어에서, 컴퓨터 하드웨어에서 구현될 수 있다. 본 명세서에 기술된 본 발명의 실시예들은 하나 이상의 컴퓨터 프로그램들로서 구현될 수 있다. 즉, 데이터 프로세싱 장치에 의해 실행 또는 데이터 프로세싱 장치의 동작을 제어하기 위한 유형적 비일시적인 프로그램 캐리어에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈들. 대안적으로 또는 추가로, 프로그램 명령어들은 데이터 프로세싱 장치에 의해 실행하기 위한 적절한 수신기 장치에 전송하기 위한 정보를 인코딩하기 위해 생성된 인공적으로 생성된 전파된 신호 즉, 기계-생성 전기, 광학 또느전자기적 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저장 기판, 랜덤 또는 직렬 엑세스 메모리 디바이스 또는 그들 중 하나 이상의 조합일 수 있다. 그러나, 컴퓨터 저장 매체는 전파된 신호는 아니다.
용어 “데이터 프로세싱 장치”는 예시로서 프로그래머블 프로세서, 컴퓨터, 또는 다수의 프로세서들 또는 컴퓨터들을 포함하는 데이터를 프로세싱하기 위한 모든 종류의 장치, 디바이스들 및 기계들을 포함한다. 상기 장치는 특수 목적 논리 회로, 예를 들어 FPGA(field programmable gate array) 또는 ASIC (application specific integrated circuit)을 포함할 수 있다. 또한, 장치는 하드웨어 이외에 문제의 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 그들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로도 참조되거나 기술될 수 있음)은 컴파일된 또는 인터프리트된 언어들, 또는 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램으로서 또는 모듈, 컴포넌트, 서브루틴으로서 또는 컴퓨팅 환경에서 사용하기에 적합한 기타 단위를 포함하는 임의의 형태로 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 대응할 수 있지만, 반드시 그런 것은 아니다. 프로그램은 다른 프로그램들이나 데이터, 예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트들을 가지는 파일의 부분에, 문제되는 프로그램 전용 단일의 파일에 또는 다수의 조정된 파일들, 예를 들어, 하나 이상의 모듈들, 서브프로그램 또는 코드의 일부를 저장하는 파일들에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 하나의 사이트에 위치되어 있거나 다수의 사이트들에 걸쳐서 분산되어 있고 통신 네트워크에 의해 상호연결된 다수의 컴퓨터들에서 실행되도록 배포될 수 있다.
본 명세서에서 사용된 바와 같이, “엔진” 또는 “소프트웨어 엔진”은 입력과 상이한 출력을 제공하는 소프트웨어로 구현되는 입력/출력 시스템을 지칭한다. 엔진은 라이브러리, 플랫폼, SDK(software development kit) 또는 오브젝트와 같은 기능의 인코딩된 블록일 수 있다. 각 엔진은 임의의 적절한 유형의 컴퓨팅 디바이스 예를 들어, 서버들, 모바일폰들, 태블릿 컴퓨터들, 노트북 컴퓨터들, 음악 플레이어들, 전자책 리더, 랩톱 또는 데스크톱 컴퓨터들, PDA들, 스마트폰들 또는 하나 이상의 프로세서들 및 컴퓨터 판독가능 매체를 포함하는 기타 고정식 또는 이동식 디바이스들에서 구현될 수 있다. 추가적으로, 엔진들 중 2개 이상은 동일한 컴퓨팅 디바이스 또는 상이한 컴퓨팅 디바이스들에서 구현될 수 있다.
본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래머블 컴퓨터들에 의해 수행될 수 있다. 프로세스들 및 논리 흐름들은 또한 FPGA 또는 ASIC와 같은 특수 목적 논리 회로에 의해 수행될 수 있고, 장치는 또한 특수 목적 논리 회로로서 구현될 수 있다.
컴퓨터 프로그램의 실행에 적절한 컴퓨터들은 예시로서, 일반적 또는 특수 목적 마이크로프로세서들 또는 둘 모두, 또는 임의의 기타 종류의 중앙 프로세싱 유닛을 포함하거나 이에 기초할 수 있다. 일반적으로, 중앙 프로세싱 유닛은 읽기-전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 엘리먼트들은 명령어들을 수행하거나 실행하기 위한 중앙 프로세싱 유닛 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대형 저장 디바이스들 예를 들면, 자기적, 자기-광학 디스크들 또는 광학적 디스크들 또한 포함하거나 또는 그로부터 데이터를 수신하거나 그에 데이터를 전송하기 위해 동작적으로 결합될 수 있다. 그러나, 컴퓨터는 상기 디바이스들을 반드시 가져야하는 것은 아니다. 추가로, 컴퓨터는 다른 디바이스, 예를 들어, 몇 가지만 나열하면, 모바일 전화, 개인 휴대 정보 단말기(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 휴대용 저장 디바이스 예를 들어, 범용 직렬 버스 (USB) 플래시 드라이브에 내장될 수 있다.
컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스들과 같은 반도체 메모리 디바이스들; 예를 들어, 내부 하드 디스크들 또는 이동식 디스크들과 같은 자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 그 안에 통합될 수 있다.
사용자와의 인터렉션을 제공하기 위해, 본 명세서에서 기술된 본 발명의 실시예들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스 예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 또는 OLED 디스플레이, 및 컴퓨터에 입력을 제공하기 위한 입력 디바이스들 예를 들어, 키보드, 마우스 또는 존제 감응형 디스플레이 또는 기타 표면을 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터렉션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각적 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 리소스들을 송수신함으로써 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여, 사용자의 사용자 디바이스상의 웹 브라우저에 웹 페이지를 전송함으로써 사용자와 인터렉션할 수 있다.
본 명세서에서 기술된 발명의 실시예는 예를 들어 데이터 서버와 같은 백엔드 컴포넌트, 애플리케이션 서버와 같은 미들웨어 컴포넌트 또는 그래픽 사용자 인터페이스를 가지는 사용자 컴퓨터 또는 사용자가 본 명세서에 기술된 본 발명의 구현예와 인터렉션할 수 있는 웹 브라우저와 같은 프론트엔드 컴포넌트 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 LAN(local area network) 및 WAN(wide area network) 예를 들어, 인터넷을 포함한다.
컴퓨팅 시스템은 사용자들 및 서버들을 포함할 수 있다. 사용자와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 인터렉션한다. 사용자와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 사용자-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다.
본 명세서는 많은 특정 구현 세부내용을 포함하지만, 이들은 임의의 발명의 범위 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정한 발명의 특정한 실시예에 특정적일 수 있는 구성들에 대한 설명으로 해석되어야 한다. 별개의 실시예의 맥락에서 본 명세서에서 기술되는 일정 구성들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 맥락에서 기술된 다양한 구성들은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브 조합으로 구현될 수 있다. 게다가, 구성들은 일정 조합으로 동작하고 심지어 초기적으로 그렇게 청구되는 것으로서 상기에서 기술될 수 있지만, 청구된 조합으로부터의 하나 이상의 구성들은 일부 경우, 조합으로부터 제거될 수 있고, 청구된 조합은 서브 조합 또는 서브 조합의 변형으로 안내될 수 있다.
유사하게, 동작들이 특정한 순서로 도면에서 도시되었지만, 이는 상기 동작들이 도시된 특정한 순서로 또는 시계열적 순서로 수행되어야 함을 요구하는 것으로서 또는 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안된다. 특정 환경에서, 멀티태스킹과 병렬 프로세싱은 이점이 있다. 게다가, 상기 기술된 실시예에서 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시예에서 그러한 분리가 필요한 것으로서 이해되어서는 안되며, 일반적으로 기술된 프로그램 컴포넌트들 및 시스템들은 단일의 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품들에 패키징될 수 있다고 이해되어야 한다.
본 발명의 특정한 실시예들이 기술되었다. 다른 실시예들도 다음의 청구항들의 범위 내에 있다. 예를 들면, 청구항들에서 기재된 액션들은 상이한 순서로 수행되고 여전히 원하는 결과들을 달성할 수 있다. 일 예시로서, 첨부 도면들에 도시된 프로세스들은 원하는 결과들을 달성하기 위해 특정한 도시된 순서, 또는 시계열적 순서를 반드시 필요로 하지 않는다. 특정 구현예에서, 멀티태스킹과 병렬 프로세싱은 이점이 있다.
Claims (41)
- 스트림 기반 가속기 디바이스를 포함하는 복수의 디바이스들을 통해 계산 그래프에 의해 표현된 계산을 분산하고, 상기 스트림 기반 가속기 디바이스의 스트림들에서 상기 계산 그래프의 서브그래프에 의해 표현된 계산을 수행하는 것을 포함하여 상기 계산을 수행하기 위한 컴퓨터로 구현되는 방법으로서,
계산 그래프 시스템에 의해, 클라이언트로부터, 계산 그래프에 의해 표현된 계산을 수행하기 위한 요청을 수신하는 단계;
상기 계산 그래프의 다수의 서브그래프들을 표현하는 데이터를 획득하는 단계, 상기 계산 그래프는 복수의 노드(node)들과 방향 에지(directed edge)들을 포함하며, 각 노드는 각각의 동작을 표현하며, 각 방향 에지는 각각의 제1 노드를 각각의 제2 노드에 연결하며, 이는 상기 각각의 제1 노드에 의해 표현된 동작의 출력을 입력으로서 수신하는 동작을 표현하며, 상기 서브그래프는 제1 디바이스에 할당되며;
상기 계산 그래프 시스템의 플레이서에 의해, 제1 서브그래프를 제1 디바이스에 할당하는 것을 포함하여, 상기 다수의 서브그래프들을 복수의 디바이스들 중 각각의 디바이스들에 할당하는 단계;
상기 제1 디바이스가 복수의 스트림들을 가지는 하드웨어 가속기를 포함한다는 것을 결정하는 단계, 각 스트림은 할당된 순서로 상기 스트림에 할당된 동작들을 수행하는 독립적 하드웨어 큐이며;
상기 제1 디바이스가 복수의 스트림들을 가지는 하드웨어 가속기를 포함한다는 것을 결정함에 응답하여, 명령어들을 생성하는 단계, 상기 명령어들은 상기 제1 디바이스에 의해 실행될 때 상기 제1 디바이스로 하여금:
서로 종속되지 않는 2개의 동작들을 식별하는 것, 상기 2개의 동작들을 상이한 스트림들에 할당하는 것, 제2 동작을 실행하기 전에 반드시 수행되어야 하는 방식으로 상기 하드웨어의 내부 상태를 변경하는 제1 동작을 단일 스트림에 할당하는 것 그리고 상기 단일 스트림에서 상기 제1 동작이 완료된 후에 상기 제2 동작이 수행되도록 하는 것을 포함하여, 상기 제1 서브그래프에서 각 노드에 의해 표현된 상기 동작을 상기 하드웨어 가속기의 복수의 스트림들에서의 각각의 스트림에 할당하게 하고; 그리고
상기 할당에 따라 상기 제1 서브그래프에서 각 노드에 의해 표현된 상기 동작들을 수행하게 하며;
상기 명령어들 및 상기 데이터를 상기 제1 디바이스에 제공하는 단계;
상기 제1 디바이스에 상기 제1 디바이스로 하여금 상기 제1 서브그래프에서 상기 노드들에 의해 표현된 상기 동작들을 수행하게 하는 요청을 송신하는 단계;
상기 제1 디바이스로부터, 상기 제1 디바이스에 의해 수행된 동작들의 출력들을 획득하는 단계;
상기 복수의 디바이스들 중 다른 디바이스들로 하여금 상기 다른 디바이스들에 할당된 상기 서브그래프들의 동작들을 수행하게 하는 단계; 및
상기 복수의 디바이스들로부터 획득된 하나 이상의 출력들로 상기 계산을 수행하여 상기 요청에 응답하는 단계를 포함하는 것을 특징으로 하는 방법. - 청구항 1에 있어서, 상기 클라이언트로부터의 상기 요청은 상기 다수의 서브그래프들 중 하나에서 하나 이상의 각각의 노드들로부터 하나 이상의 특정한 출력들을 특정하며, 상기 제1 디바이스로부터, 상기 제1 디바이스에 의해 수행된 동작들의 출력들을 획득하는 단계는:
상기 제1 디바이스로부터, 상기 하나 이상의 특정한 출력들을 수신하는 것; 및
상기 하나 이상의 특정한 출력들을 상기 클라이언트에 제공하는 것을 포함하는 것을 특징으로 하는 방법. - 청구항 2에 있어서, 상기 명령어들은 상기 제1 디바이스로 하여금 상기 하나 이상의 특정한 출력들을 상기 제1 디바이스의 메모리에 저장하게 하는 것을 특징으로 하는 방법.
- 청구항 1에 있어서, 상기 제1 서브그래프에 대한 동작들은 신경 네트워크에 대한 부분적 추론 또는 계산들 트레이닝을 포함하는 것을 특징으로 하는 방법.
- 청구항 1에 있어서, 상기 계산 그래프 시스템의 플레이서에 의해, 제1 서브그래프를 제1 디바이스에 할당하는 것은:
상기 제1 서브그래프의 노드들의 그룹을 식별하기 위해 체인 구조에서 상기 제1 서브그래프를 분석하는 것을 포함하며,
상기 명령어들은 상기 제1 디바이스로 하여금 상기 노드들의 그룹을 하나의 스트림에 할당하게 하는 것을 특징으로 하는 방법. - 청구항 1에 있어서, 상기 계산 그래프 시스템의 플레이서에 의해, 제1 서브그래프를 제1 디바이스에 할당하는 것은:
상기 제1 서브그래프에서 복수의 방향 에지들을 가지는 제1 노드를 출력으로서 식별하기 위해 상기 제1 서브그래프를 분석하는 것을 포함하며;
상기 명령어들은 상기 제1 디바이스로 하여금 상기 방향 에지들 각각에 대해, 상기 방향 에지가 상기 하드웨어 가속기의 디스조인트 스트림(disjoint stream)을 포인팅하는 노드에 할당하게 하는 것을 특징으로 하는 방법. - 청구항 1에 있어서, 상기 명령어들은 상기 제1 디바이스로 하여금 각 노드에 대해, 상기 노드에 대한 상기 방향 에지들에 기초하여, 상기 노드에 의해 표현된 상기 동작에 의해 소비되는 상기 하드웨어 가속기의 메모리 리소스들의 각각의 양을 결정하게 하며, 상기 할당은 상기 메모리 리소스들의 상기 각각의 양에 적어도 기초하는 것을 특징으로 하는 방법.
- 청구항 1에 있어서,
상기 명령어들은 상기 제1 디바이스로 하여금 노드에 의해 표현된 특정한 동작이 특정한 스트림에서 종료되었다고 결정하게 하며;
상기 특정한 동작이 종료되었다고 결정함에 응답하여:
상기 특정한 동작에 의해 소비된 메모리의 제1 양을 결정하게 하며;
비할당 노드들의 그룹 각각에 대해, 상기 비할당 노드에 의해 표현된 동작에 의해 소비된 메모리의 각각의 예측된 양을 결정하게 하며;
상기 비할당 노드들의 그룹으로부터, 상기 하드웨어 가속기의 스트림에서 상기 메모리의 제1양의 사용을 최대화하는 상기 메모리의 예측된 양으로 실행되는, 동작을 표현하는 제1 비할당 노드를 결정하게 하며; 그리고
상기 제1 비할당 노드에 의해 표현된 동작을 상기 특정한 스트림에 할당하게 하는 것을 특징으로 하는 방법. - 청구항 1에 있어서,
상기 명령어들은 상기 제1 디바이스로 하여금 노드에 의해 표현된 특정한 동작이 특정한 스트림에서 종료되었다고 결정하게 하며;
상기 특정한 동작이 종료되었다고 결정함에 응답하여:
상기 특정한 동작의 상기 출력을 입력으로서 사용하는 적어도 하나의 후속 동작을 결정하게 하며; 그리고
상기 적어도 하나의 후속 동작이 실행된 후에 상기 특정한 동작의 상기 출력을 위해 할당된 메모리를 재사용하게 하는 것을 특징으로 하는 방법. - 청구항 9에 있어서, 상기 특정한 동작의 상기 출력을 입력으로서 사용하는 적어도 하나의 후속 동작을 결정하게 하는 것은:
적어도 두개의 후속 동작들이, 제1 스트림에서의 제1 후속 동작 및 제2 스트림에서 제2 후속 동작, 상기 특정한 동작의 상기 출력을 입력으로서 사용함을 결정하는 것;
상기 제1 후속 동작이 상기 특정한 동작을 입력으로서 사용한 경우 표시하는 제1 마커를 제1 스트림에 위치시키는 것;
상기 제2 후속 동작이 상기 특정한 동작을 입력으로서 사용한 경우 표시하는 제2 마커를 제2 스트림에 위치시키는 것;
상기 제1 및 제2 마커들로부터의 표시에 따라 양 동작들이 상기 특정한 동작을 사용했음을 결정하는 것을 포함하는 것을 특징으로 하는 방법. - 삭제
- 스트림 기반 가속기 디바이스를 포함하는 복수의 디바이스들을 통해 계산 그래프에 의해 표현된 계산을 분산하고, 상기 스트림 기반 가속기 디바이스의 스트림들에서 상기 계산 그래프의 서브그래프에 의해 표현된 계산을 수행하는 것을 포함하여 상기 계산을 수행하기 위한 시스템으로서,
하나 이상의 컴퓨터들; 및
상기 하나 이상의 컴퓨터들에 연결된 명령어들이 저장된 컴퓨터 판독가능 매체를 포함하며, 상기 명령어들은 상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
계산 그래프 시스템에 의해, 클라이언트로부터, 계산 그래프에 의해 표현된 계산을 수행하기 위한 요청을 수신하는 동작;
상기 계산 그래프의 다수의 서브그래프를 표현하는 데이터를 획득하는 동작, 상기 계산 그래프는 복수의 노드(node)들과 방향 에지(directed edge)들을 포함하며, 각 노드는 각각의 동작을 표현하며, 각 방향 에지는 각각의 제1 노드를 각각의 제2 노드에 연결하며, 이는 상기 각각의 제1 노드에 의해 표현된 동작의 출력을 입력으로서 수신하는 동작을 표현하며, 상기 서브그래프는 제1 디바이스에 할당되며;
상기 계산 그래프 시스템의 플레이서에 의해, 제1 서브그래프를 제1 디바이스에 할당하는 것을 포함하여, 상기 다수의 서브그래프들을 복수의 디바이스들 중 각각의 디바이스들에 할당하는 동작;
상기 제1 디바이스가 복수의 스트림들을 가지는 하드웨어 가속기를 포함한다는 것을 결정하는 동작, 각 스트림은 할당된 순서로 상기 스트림에 할당된 동작들을 수행하는 독립적 하드웨어 큐이며;
상기 제1 디바이스가 복수의 스트림들을 가지는 하드웨어 가속기를 포함한다는 것을 결정함에 응답하여, 명령어들을 생성하는 동작, 상기 명령어들은 상기 제1 디바이스에 의해 실행될 때 상기 제1 디바이스로 하여금:
서로 종속되지 않는 2개의 동작들을 식별하는 것, 상기 2개의 동작들을 상이한 스트림들에 할당하는 것, 제2 동작을 실행하기 전에 반드시 수행되어야 하는 방식으로 상기 하드웨어의 내부 상태를 변경하는 제1 동작을 단일 스트림에 할당하는 것 그리고 상기 단일 스트림에서 상기 제1 동작이 완료된 후에 상기 제2 동작이 수행되도록 하는 것을 포함하여, 상기 제1 서브그래프에서 각 노드에 의해 표현된 상기 동작을 상기 하드웨어 가속기의 복수의 스트림들에서의 각각의 스트림에 할당하게 하고; 그리고
상기 할당에 따라 상기 제1 서브그래프에서 각 노드에 의해 표현된 상기 동작들을 수행하게 하며;
상기 명령어들 및 상기 데이터를 상기 제1 디바이스에 제공하는 동작;
상기 제1 디바이스에 상기 제1 디바이스로 하여금 상기 제1 서브그래프에서 상기 노드들에 의해 표현된 상기 동작들을 수행하게 하는 요청을 송신하는 동작;
상기 제1 디바이스로부터, 상기 제1 디바이스에 의해 수행된 동작들의 출력들을 획득하는 동작;
상기 복수의 디바이스들 중 다른 디바이스들로 하여금 상기 다른 디바이스들에 할당된 상기 서브그래프들의 동작들을 수행하게 하는 동작; 및
상기 복수의 디바이스들로부터 획득된 하나 이상의 출력들로 상기 계산을 수행하여 상기 요청에 응답하는 동작을 포함하는 것을 특징으로 하는 시스템. - 청구항 12에 있어서, 상기 클라이언트로부터의 상기 요청은 상기 다수의 서브그래프들 중 하나에서 하나 이상의 각각의 노드들로부터 하나 이상의 특정한 출력들을 특정하며, 상기 제1 디바이스로부터, 상기 제1 디바이스에 의해 수행된 동작들의 출력들을 획득하는 동작은:
상기 제1 디바이스로부터, 상기 하나 이상의 특정한 출력들을 수신하는 것; 및
상기 하나 이상의 특정한 출력들을 상기 클라이언트에 제공하는 것을 포함하는 것을 특징으로 하는 시스템. - 청구항 12에 있어서, 상기 계산 그래프 시스템의 플레이서에 의해, 제1 서브그래프를 제1 디바이스에 할당하는 것은:
상기 제1 서브그래프의 노드들의 그룹을 식별하기 위해 체인 구조에서 상기 제1 서브그래프를 분석하는 동작을 더 포함하며,
상기 명령어들은 상기 제1 디바이스로 하여금 상기 노드들의 그룹을 하나의 스트림에 할당하게 하는 것을 특징으로 하는 시스템. - 청구항 12에 있어서, 상기 계산 그래프 시스템의 플레이서에 의해, 제1 서브그래프를 제1 디바이스에 할당하는 것은:
상기 제1 서브그래프에서 복수의 방향 에지들을 가지는 제1 노드를 출력으로서 식별하기 위해 상기 제1 서브그래프를 분석하는 것을 포함하며;
상기 명령어들은 상기 제1 디바이스로 하여금 상기 방향 에지들 각각에 대해, 상기 방향 에지가 상기 하드웨어 가속기의 고유 스트림(unique stream)을 포인팅하는 노드에 할당하게 하는 것을 특징으로 하는 시스템. - 청구항 12에 있어서, 상기 명령어들은 상기 제1 디바이스로 하여금 각 노드에 대해, 상기 노드에 대한 상기 방향 에지들에 기초하여, 상기 노드에 의해 표현된 상기 동작에 의해 소비되는 상기 하드웨어 가속기의 메모리 리소스들의 각각의 양을 결정하게 하며, 상기 할당은 상기 메모리 리소스들의 상기 각각의 양에 적어도 기초하는 것을 특징으로 하는 시스템.
- 청구항 12에 있어서,
상기 명령어들은 상기 제1 디바이스로 하여금 노드에 의해 표현된 특정한 동작이 특정한 스트림에서 종료되었다고 결정하게 하며;
상기 특정한 동작이 종료되었다고 결정함에 응답하여:
상기 특정한 동작에 의해 소비된 메모리의 제1 양을 결정하게 하며;
비할당 노드들의 그룹 각각에 대해, 상기 비할당 노드에 의해 소비된 메모리의 각각의 예측된 양을 결정하게 하며;
상기 비할당 노드들의 그룹으로부터, 상기 메모리의 제1양의 사용을 최대화하는 상기 메모리의 예측된 양을 가지는 제1 비할당 노드를 결정하게 하며; 그리고
상기 제1 비할당 노드에 의해 표현된 동작을 상기 특정한 스트림에 할당하게 하는 것을 특징으로 하는 시스템. - 컴퓨터 프로그램이 저장된 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터 프로그램은 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하는 명령어들을 포함하며, 상기 동작들은:
계산 그래프 시스템에 의해, 클라이언트로부터, 계산 그래프에 의해 표현된 계산을 수행하기 위한 요청을 수신하는 동작;
상기 계산 그래프의 다수의 서브그래프를 표현하는 데이터를 획득하는 동작, 상기 계산 그래프는 복수의 노드(node)들과 방향 에지(directed edge)들을 포함하며, 각 노드는 각각의 동작을 표현하며, 각 방향 에지는 각각의 제1 노드를 각각의 제2 노드에 연결하며, 이는 상기 각각의 제1 노드에 의해 표현된 동작의 출력을 입력으로서 수신하는 동작을 표현하며, 상기 서브그래프는 제1 디바이스에 할당되며;
상기 계산 그래프 시스템의 플레이서에 의해, 제1 서브그래프를 제1 디바이스에 할당하는 것을 포함하여, 상기 다수의 서브그래프들을 복수의 디바이스들 중 각각의 디바이스들에 할당하는 동작;
상기 제1 디바이스가 복수의 스트림들을 가지는 하드웨어 가속기를 포함한다는 것을 결정하는 동작, 각 스트림은 할당된 순서로 상기 스트림에 할당된 동작들을 수행하는 독립적 하드웨어 큐이며;
상기 제1 디바이스가 복수의 스트림들을 가지는 하드웨어 가속기를 포함한다는 것을 결정함에 응답하여, 명령어들을 생성하는 동작, 상기 명령어들은 상기 제1 디바이스에 의해 실행될 때 상기 제1 디바이스로 하여금:
서로 종속되지 않는 2개의 동작들을 식별하는 것, 상기 2개의 동작들을 상이한 스트림들에 할당하는 것, 제2 동작을 실행하기 전에 반드시 수행되어야 하는 방식으로 상기 하드웨어의 내부 상태를 변경하는 제1 동작을 단일 스트림에 할당하는 것 그리고 상기 단일 스트림에서 상기 제1 동작이 완료된 후에 상기 제2 동작이 수행되도록 하는 것을 포함하여, 상기 제1 서브그래프에서 각 노드에 의해 표현된 상기 동작을 상기 하드웨어 가속기의 복수의 스트림들에서의 각각의 스트림에 할당하게 하고; 그리고
상기 할당에 따라 상기 제1 서브그래프에서 각 노드에 의해 표현된 상기 동작들을 수행하게 하며;
상기 명령어들 및 상기 데이터를 상기 제1 디바이스에 제공하는 동작;
상기 제1 디바이스에 상기 제1 디바이스로 하여금 상기 제1 서브그래프에서 상기 노드들에 의해 표현된 상기 동작들을 수행하게 하는 요청을 송신하는 동작;
상기 제1 디바이스로부터, 상기 제1 디바이스에 의해 수행된 동작들의 출력들을 획득하는 동작;
상기 복수의 디바이스들 중 다른 디바이스들로 하여금 상기 다른 디바이스들에 할당된 상기 서브그래프들의 동작들을 수행하게 하는 동작; 및
상기 복수의 디바이스들로부터 획득된 하나 이상의 출력들로 상기 계산을 수행하여 상기 요청에 응답하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체. - 청구항 18에 있어서, 상기 클라이언트로부터의 상기 요청은 상기 다수의 서브그래프들 중 하나에서 하나 이상의 각각의 노드들로부터 하나 이상의 특정한 출력들을 특정하며, 상기 제1 디바이스로부터, 상기 제1 디바이스에 의해 수행된 동작들의 출력들을 획득하는 동작은:
상기 제1 디바이스로부터, 상기 하나 이상의 특정한 출력들을 수신하는 것; 및
상기 하나 이상의 특정한 출력들을 상기 클라이언트에 제공하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체. - 청구항 18에 있어서, 상기 계산 그래프 시스템의 플레이서에 의해, 제1 서브그래프를 제1 디바이스에 할당하는 것은:
상기 제1 서브그래프의 노드들의 그룹을 식별하기 위해 체인 구조에서 상기 제1 서브그래프를 분석하는 동작을 더 포함하며,
상기 명령어들은 상기 제1 디바이스로 하여금 상기 노드들의 그룹을 하나의 스트림에 할당하게 하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체. - 청구항 18에 있어서, 상기 계산 그래프 시스템의 플레이서에 의해, 제1 서브그래프를 제1 디바이스에 할당하는 것은:
상기 제1 서브그래프에서 복수의 방향 에지들을 가지는 제1 노드를 출력으로서 식별하기 위해 상기 제1 서브그래프를 분석하는 것을 포함하며;
상기 명령어들은 상기 제1 디바이스로 하여금 상기 방향 에지들 각각에 대해, 상기 방향 에지가 상기 하드웨어 가속기의 디스조인트 스트림(disjoint stream)을 포인팅하는 노드에 할당하게 하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체. - 청구항 18에 있어서, 상기 명령어들은 상기 제1 디바이스로 하여금 각 노드에 대해, 상기 노드에 대한 상기 방향 에지들에 기초하여, 상기 노드에 의해 표현된 상기 동작에 의해 소비되는 상기 하드웨어 가속기의 메모리 리소스들의 각각의 양을 결정하게 하며, 상기 할당은 상기 메모리 리소스들의 상기 각각의 양에 적어도 기초하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
- 청구항 18에 있어서,
상기 명령어들은 상기 제1 디바이스로 하여금 노드에 의해 표현된 특정한 동작이 특정한 스트림에서 종료되었다고 결정하게 하며;
상기 특정한 동작이 종료되었다고 결정함에 응답하여:
상기 특정한 동작에 의해 소비된 메모리의 제1 양을 결정하게 하며;
비할당 노드들의 그룹 각각에 대해, 상기 비할당 노드에 의해 소비된 메모리의 각각의 예측된 양을 결정하게 하며;
상기 비할당 노드들의 그룹으로부터, 상기 메모리의 제1양의 사용을 최대화하는 상기 메모리의 예측된 양을 가지는 제1 비할당 노드를 결정하게 하며; 그리고
상기 제1 비할당 노드에 의해 표현된 동작을 상기 특정한 스트림에 할당하게 하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체. - 스트림 기반 가속기 디바이스를 포함하는 복수의 디바이스들을 통해 계산 그래프에 의해 표현된 계산을 분산하고, 상기 스트림 기반 가속기 디바이스의 스트림들에서 상기 계산 그래프의 서브그래프에 의해 표현된 계산을 수행하는 것을 포함하여 상기 계산을 수행하기 위한 방법으로서,
복수의 스트림들을 가지는 하드웨어 가속기에 의해, 계산 그래프의 서브그래프를 표현하는 데이터를 수신하는 단계, 상기 계산 그래프는 복수의 노드(node)들과 방향 에지(directed edge)들을 포함하며, 각 노드는 각각의 동작을 표현하며, 각 방향 에지는 각각의 제1 노드를 각각의 제2 노드에 연결하며, 이는 상기 각각의 제1 노드에 의해 표현된 동작의 출력을 입력으로서 수신하는 동작을 표현하며, 상기 서브그래프는 계산 그래프 시스템에서 플레이서(placer)에 의해 하드웨어 가속기에 할당되며, 상기 복수의 스트림들의 각 스트림은 할당된 순서로 상기 스트림에 할당된 동작들을 수행하는 독립적 하드웨어 큐이며;
서로 종속되지 않는 2개의 동작들을 식별하는 것, 상기 2개의 동작들을 상이한 스트림들에 할당하는 것, 제2 동작을 실행하기 전에 반드시 수행되어야 하는 방식으로 상기 하드웨어의 내부 상태를 변경하는 제1 동작을 단일 스트림에 할당하는 것 그리고 상기 단일 스트림에서 상기 제1 동작이 완료된 후에 상기 제2 동작이 수행되도록 하는 것을 포함하여, 상기 하드웨어 가속기에 의해, 상기 서브그래프에서 각 노드에 의해 표현된 상기 동작을 상기 하드웨어 가속기의 상기 복수의 스트림들에서의 각각의 스트림에 할당하는 단계;
상기 하드웨어 가속기에 의해, 상기 할당에 따라 상기 서브그래프에서 상기 노드들에 의해 표현된 상기 동작들을 수행하는 단계;
상기 서브그래프에서 하나 이상의 각각의 노드들로부터 하나 이상의 특정한 출력들을 식별하는 요청을 수신하는 단계; 및
상기 하나 이상의 특정한 출력들을 클라이언트에 제공하는 단계를 포함하는 것을 특징으로 하는 방법. - 삭제
- 청구항 24에 있어서, 상기 할당하는 단계는:
체인 구조에서 상기 서브그래프의 노드들의 그룹을 식별하는 데이터를 수신하는 것; 및
상기 노드들의 그룹을 하나의 스트림에 할당하는 것를 포함하는 것을 특징으로 하는 방법. - 청구항 24에 있어서, 상기 할당하는 단계는:
상기 서브그래프에서 복수의 방향 에지들을 가지는 제1 노드를 출력들로서 식별하는 데이터를 수신하는 것; 및
상기 방향 에지들 각각에 대해, 상기 방향 에지가 상기 하드웨어 가속기의 고유 스트림(unique stream)을 포인팅하는 노드에 할당하는 것을 포함하는 것을 특징으로 하는 방법. - 청구항 24에 있어서, 각 노드에 대해, 상기 노드에 대한 상기 방향 에지들에 기초하여, 상기 노드에 의해 표현된 상기 동작에 의해 소비되는 상기 하드웨어 가속기의 메모리 리소스들의 각각의 양을 결정하는 단계를 더 포함하며, 상기 할당은 메모리 리소스들의 상기 각각의 양에 적어도 기초하는 것을 특징으로 하는 방법.
- 청구항 24에 있어서, 상기 하드웨어 가속기에 의해, 상기 할당에 따라 상기 서브그래프에서 상기 노드들에 의해 표현된 상기 동작들을 수행하는 단계는;
노드에 의해 표현된 특정한 동작이 특정한 스트림에서 종료되었다고 결정하는 것;
상기 특정한 동작이 종료되었다고 결정함에 응답하여, 상기 특정한 동작에 의해 소비된 메모리의 제1 양을 결정하는 것;
비할당 노드들의 그룹 각각에 대해, 상기 비할당 노드에 의해 소비된 메모리의 각각의 예측된 양을 결정하는 것;
상기 비할당 노드들의 그룹으로부터, 상기 메모리의 제1양의 사용을 최대화하는 상기 메모리의 예측된 양을 가지는 제1 비할당 노드를 결정하는 것; 및
상기 제1 비할당 노드에 의해 표현된 동작을 상기 특정한 스트림에 할당하는 것을 포함하는 것을 특징으로 하는 방법. - 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터 프로그램은 복수의 스트림들을 가지는 하드웨어 가속기를 포함하는 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 동작들을 수행하게 하는 명령어들을 포함하며, 상기 동작들은:
계산 그래프의 서브그래프를 표현하는 데이터를 수신하는 동작, 상기 계산 그래프는 복수의 노드(node)들과 방향 에지(directed edge)들을 포함하며, 각 노드는 각각의 동작을 표현하며, 각 방향 에지는 각각의 제1 노드를 각각의 제2 노드에 연결하며, 이는 상기 각각의 제1 노드에 의해 표현된 동작의 출력을 입력으로서 수신하는 동작을 표현하며, 상기 서브그래프는 계산 그래프 시스템에서 플레이서(placer)에 의해 하드웨어 가속기에 할당되며, 상기 복수의 스트림들의 각 스트림은 할당된 순서로 상기 스트림에 할당된 동작들을 수행하는 독립적 하드웨어 큐이며;
서로 종속되지 않는 2개의 동작들을 식별하는 것, 상기 2개의 동작들을 상이한 스트림들에 할당하는 것, 제2 동작을 실행하기 전에 반드시 수행되어야 하는 방식으로 상기 하드웨어의 내부 상태를 변경하는 제1 동작을 단일 스트림에 할당하는 것 그리고 상기 단일 스트림에서 상기 제1 동작이 완료된 후에 상기 제2 동작이 수행되도록 하는 것을 포함하여, 상기 서브그래프에서 각 노드에 의해 표현된 상기 동작을 상기 하드웨어 가속기의 상기 복수의 스트림들에서의 각각의 스트림에 할당하는 동작;
상기 할당에 따라 상기 서브그래프에서 상기 노드들에 의해 표현된 상기 동작들을 수행하는 동작;
상기 서브그래프에서 하나 이상의 각각의 노드들로부터 하나 이상의 특정한 출력들을 식별하는 요청을 수신하는 동작; 및
상기 하나 이상의 특정한 출력들을 클라이언트에 제공하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체. - 삭제
- 청구항 30에 있어서, 상기 할당하는 동작은:
체인 구조에서 상기 서브그래프의 노드들의 그룹을 식별하는 데이터를 수신하는 것; 및
상기 노드들의 그룹을 하나의 스트림에 할당하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체. - 청구항 30에 있어서, 상기 할당하는 동작은:
상기 서브그래프에서 복수의 방향 에지들을 가지는 제1 노드를 출력들로서 식별하는 데이터를 수신하는 것; 및
상기 방향 에지들 각각에 대해, 상기 방향 에지가 상기 하드웨어 가속기의 고유 스트림(unique stream)을 포인팅하는 노드에 할당하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체. - 청구항 30에 있어서, 각 노드에 대해, 상기 노드에 대한 상기 방향 에지들에 기초하여, 상기 노드에 의해 표현된 상기 동작에 의해 소비되는 상기 하드웨어 가속기의 메모리 리소스들의 각각의 양을 결정하는 동작을 더 포함하며, 상기 할당은 메모리 리소스들의 상기 각각의 양에 적어도 기초하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
- 청구항 30에 있어서, 상기 할당에 따라 상기 서브그래프에서 상기 노드들에 의해 표현된 상기 동작들을 수행하는 동작은:
노드에 의해 표현된 특정한 동작이 특정한 스트림에서 종료되었다고 결정하는 것;
상기 특정한 동작이 종료되었다고 결정함에 응답하여, 상기 특정한 동작에 의해 소비된 메모리의 제1 양을 결정하는 것;
비할당 노드들의 그룹 각각에 대해, 상기 비할당 노드에 의해 소비된 메모리의 각각의 예측된 양을 결정하는 것;
상기 비할당 노드들의 그룹으로부터, 상기 메모리의 제1양의 사용을 최대화하는 상기 메모리의 예측된 양을 가지는 제1 비할당 노드를 결정하는 것; 및
상기 제1 비할당 노드에 의해 표현된 동작을 상기 특정한 스트림에 할당하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체. - 하드웨어 가속기를 포함하는 시스템으로서,
상기 하드웨어 가속기는 복수의 스트림들을 포함하며, 상기 시스템은 동작들을 수행하도록 구성되며, 상기 동작들은:
계산 그래프의 서브그래프를 표현하는 데이터를 수신하는 동작, 상기 계산 그래프는 복수의 노드(node)들과 방향 에지(directed edge)들을 포함하며, 각 노드는 각각의 동작을 표현하며, 각 방향 에지는 각각의 제1 노드를 각각의 제2 노드에 연결하며, 이는 상기 각각의 제1 노드에 의해 표현된 동작의 출력을 입력으로서 수신하는 동작을 표현하며, 상기 서브그래프는 계산 그래프 시스템에서 플레이서(placer)에 의해 하드웨어 가속기에 할당되며, 상기 복수의 스트림들의 각 스트림은 할당된 순서로 상기 스트림에 할당된 동작들을 수행하는 독립적 하드웨어 큐이며;
서로 종속되지 않는 2개의 동작들을 식별하는 것, 상기 2개의 동작들을 상이한 스트림들에 할당하는 것, 제2 동작을 실행하기 전에 반드시 수행되어야 하는 방식으로 상기 하드웨어의 내부 상태를 변경하는 제1 동작을 단일 스트림에 할당하는 것 그리고 상기 단일 스트림에서 상기 제1 동작이 완료된 후에 상기 제2 동작이 수행되도록 하는 것을 포함하여, 상기 서브그래프에서 각 노드에 의해 표현된 상기 동작을 상기 하드웨어 가속기의 상기 복수의 스트림들에서의 각각의 스트림에 할당하는 동작;
상기 할당에 따라 상기 서브그래프에서 상기 노드들에 의해 표현된 상기 동작들을 수행하는 동작
상기 서브그래프에서 하나 이상의 각각의 노드들로부터 하나 이상의 특정한 출력들을 식별하는 요청을 수신하는 동작; 및
상기 하나 이상의 특정한 출력들을 클라이언트에 제공하는 동작을 포함하는 것을 특징으로 하는 시스템. - 삭제
- 청구항 36에 있어서, 상기 할당하는 동작은:
체인 구조에서 상기 서브그래프의 노드들의 그룹을 식별하는 데이터를 수신하는 것; 및
상기 노드들의 그룹을 하나의 스트림에 할당하는 것을 포함하는 것을 특징으로 하는 시스템. - 청구항 36에 있어서, 상기 할당하는 동작은:
상기 서브그래프에서 복수의 방향 에지들을 가지는 제1 노드를 출력들로서 식별하는 데이터를 수신하는 것; 및
상기 방향 에지들 각각에 대해, 상기 방향 에지가 상기 하드웨어 가속기의 고유 스트림(unique stream)을 포인팅하는 노드에 할당하는 것을 포함하는 것을 특징으로 하는 시스템. - 청구항 36에 있어서, 각 노드에 대해, 상기 노드에 대한 상기 방향 에지들에 기초하여, 상기 노드에 의해 표현된 상기 동작에 의해 소비되는 상기 하드웨어 가속기의 메모리 리소스들의 각각의 양을 결정하는 동작을 더 포함하며, 상기 할당은 메모리 리소스들의 상기 각각의 양에 적어도 기초하는 것을 특징으로 하는 시스템.
- 청구항 36에 있어서, 상기 할당에 따라 상기 서브그래프에서 상기 노드들에 의해 표현된 상기 동작들을 수행하는 동작은:
노드에 의해 표현된 특정한 동작이 특정한 스트림에서 종료되었다고 결정하는 것;
상기 특정한 동작이 종료되었다고 결정함에 응답하여, 상기 특정한 동작에 의해 소비된 메모리의 제1 양을 결정하는 것;
비할당 노드들의 그룹 각각에 대해, 상기 비할당 노드에 의해 소비된 메모리의 각각의 예측된 양을 결정하는 것;
상기 비할당 노드들의 그룹으로부터, 상기 메모리의 제1양의 사용을 최대화하는 상기 메모리의 예측된 양을 가지는 제1 비할당 노드를 결정하는 것; 및
상기 제1 비할당 노드에 의해 표현된 동작을 상기 특정한 스트림에 할당하는 것을 포함하는 것을 특징으로 하는 시스템.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562247703P | 2015-10-28 | 2015-10-28 | |
US62/247,703 | 2015-10-28 | ||
US201562253046P | 2015-11-09 | 2015-11-09 | |
US62/253,046 | 2015-11-09 | ||
PCT/US2016/059334 WO2017075360A1 (en) | 2015-10-28 | 2016-10-28 | Stream-based accelerator processing of computational graphs |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207004981A Division KR20200021104A (ko) | 2015-10-28 | 2016-10-28 | 계산 그래프들의 스트림-기반 가속기 프로세싱 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180073669A KR20180073669A (ko) | 2018-07-02 |
KR102081952B1 true KR102081952B1 (ko) | 2020-04-23 |
Family
ID=57354431
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187015068A KR102081952B1 (ko) | 2015-10-28 | 2016-10-28 | 계산 그래프들의 스트림-기반 가속기 프로세싱 |
KR1020207004981A KR20200021104A (ko) | 2015-10-28 | 2016-10-28 | 계산 그래프들의 스트림-기반 가속기 프로세싱 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207004981A KR20200021104A (ko) | 2015-10-28 | 2016-10-28 | 계산 그래프들의 스트림-기반 가속기 프로세싱 |
Country Status (6)
Country | Link |
---|---|
US (3) | US11151446B2 (ko) |
EP (1) | EP3353655B1 (ko) |
JP (1) | JP6672456B2 (ko) |
KR (2) | KR102081952B1 (ko) |
CN (2) | CN108351805B (ko) |
WO (1) | WO2017075360A1 (ko) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032568A1 (en) * | 2016-07-29 | 2018-02-01 | Sysomos L.P. | Computing System with Multi-Processor Platform for Accelerating Influence Maximization Computation and Related Methods |
US10241956B2 (en) * | 2016-09-12 | 2019-03-26 | International Business Machines Corporation | Virtualizing coherent hardware accelerators |
EP3559868A1 (en) * | 2017-03-24 | 2019-10-30 | Google LLC | Device placement optimization with reinforcement learning |
US11138494B2 (en) * | 2017-05-02 | 2021-10-05 | International Business Machines Corporation | Storage controller acceleration for neural network training and inference |
US10585703B2 (en) * | 2017-06-03 | 2020-03-10 | Apple Inc. | Dynamic operation allocation for neural networks |
US11138516B2 (en) * | 2017-06-30 | 2021-10-05 | Visa International Service Association | GPU enhanced graph model build and scoring engine |
CN107480080B (zh) * | 2017-07-03 | 2021-03-23 | 深圳致星科技有限公司 | 一种基于rdma的零拷贝数据流 |
US10887235B2 (en) | 2017-08-24 | 2021-01-05 | Google Llc | Method of executing a tuple graph program across a network |
US10642582B2 (en) | 2017-08-24 | 2020-05-05 | Google Llc | System of type inference for tuple graph programs method of executing a tuple graph program across a network |
US10599482B2 (en) * | 2017-08-24 | 2020-03-24 | Google Llc | Method for intra-subgraph optimization in tuple graph programs |
US11568218B2 (en) * | 2017-10-17 | 2023-01-31 | Xilinx, Inc. | Neural network processing system having host controlled kernel acclerators |
US11373088B2 (en) * | 2017-12-30 | 2022-06-28 | Intel Corporation | Machine learning accelerator mechanism |
FI130232B (en) * | 2018-04-18 | 2023-05-03 | Meeshkan Oy | Procedure for distributed processing of information and distributed information processing system |
US11948073B2 (en) * | 2018-04-20 | 2024-04-02 | Advanced Micro Devices, Inc. | Machine learning inference engine scalability |
US10867605B2 (en) * | 2018-04-30 | 2020-12-15 | Avnera Corporation | Earbud having audio recognition neural net processor architecture |
US11615289B2 (en) * | 2018-06-28 | 2023-03-28 | Oracle International Corporation | Configuration price quote with enhanced approval control |
CN111079916B (zh) * | 2018-10-19 | 2021-01-15 | 安徽寒武纪信息科技有限公司 | 运算方法、系统及相关产品 |
CN111079907B (zh) * | 2018-10-19 | 2021-01-26 | 安徽寒武纪信息科技有限公司 | 运算方法、装置及相关产品 |
US11769041B2 (en) | 2018-10-31 | 2023-09-26 | Advanced Micro Devices, Inc. | Low latency long short-term memory inference with sequence interleaving |
CN111353575A (zh) | 2018-12-20 | 2020-06-30 | 超威半导体公司 | 用于卷积神经网络的图块化格式 |
CN111522640A (zh) * | 2018-12-28 | 2020-08-11 | 第四范式(北京)技术有限公司 | 计算图的并行执行方法和设备 |
US11645358B2 (en) * | 2019-01-29 | 2023-05-09 | Hewlett Packard Enterprise Development Lp | Generation of executable files corresponding to neural network models |
US11687795B2 (en) * | 2019-02-19 | 2023-06-27 | International Business Machines Corporation | Machine learning engineering through hybrid knowledge representation |
KR102674475B1 (ko) * | 2019-03-15 | 2024-06-12 | 한국전자통신연구원 | 복수의 뉴럴 네트워크들을 실행하기 위한 전자 장치 |
CN111723918A (zh) | 2019-03-18 | 2020-09-29 | 超威半导体公司 | 用于卷积内核的自动生成和调谐工具 |
US11537939B2 (en) * | 2019-05-03 | 2022-12-27 | Google Llc | Reshape and broadcast optimizations to avoid unnecessary data movement |
CN111915002B (zh) * | 2019-05-09 | 2023-12-19 | 中科寒武纪科技股份有限公司 | 运算方法、装置及相关产品 |
US11521042B2 (en) * | 2019-05-21 | 2022-12-06 | Anil Ravindranath | System and method to dynamically and automatically sharing resources of coprocessor AI accelerators |
CN112070221B (zh) * | 2019-05-31 | 2024-01-16 | 中科寒武纪科技股份有限公司 | 运算方法、装置及相关产品 |
US11836635B2 (en) | 2019-05-31 | 2023-12-05 | Apple Inc. | Mutable parameters for machine learning models during runtime |
CN112016681B (zh) * | 2019-05-31 | 2024-04-30 | 苹果公司 | 机器学习操作的分解 |
US11494237B2 (en) | 2019-06-26 | 2022-11-08 | Microsoft Technology Licensing, Llc | Managing workloads of a deep neural network processor |
WO2021011914A1 (en) * | 2019-07-17 | 2021-01-21 | Google Llc | Scheduling operations on a computation graph |
WO2021012215A1 (zh) * | 2019-07-24 | 2021-01-28 | 华为技术有限公司 | 神经网络切分方法、预测方法及相关装置 |
US10884755B1 (en) * | 2019-07-31 | 2021-01-05 | International Business Machines Corporation | Graph rewriting for large model support using categorized topological sort |
US11544105B2 (en) * | 2019-09-11 | 2023-01-03 | Google Llc | Recommendations for scheduling jobs on distributed computing devices |
US11521062B2 (en) * | 2019-12-05 | 2022-12-06 | International Business Machines Corporation | Neural network training using a data flow graph and dynamic memory management |
US20230080172A1 (en) * | 2020-03-13 | 2023-03-16 | Hewlett-Packard Development Company, L.P. | Transmitting node instructions |
CN111611087B (zh) * | 2020-06-30 | 2023-03-03 | 中国人民解放军国防科技大学 | 一种资源调度方法、装置和系统 |
US20220051085A1 (en) * | 2020-08-11 | 2022-02-17 | Mediatek Inc. | Runtime hyper-heterogeneous optimization for processing circuits executing inference model |
CN114169491A (zh) * | 2020-09-10 | 2022-03-11 | 阿里巴巴集团控股有限公司 | 一种模型处理方法、装置、设备及计算机可读存储介质 |
KR20220064665A (ko) * | 2020-11-12 | 2022-05-19 | 삼성전자주식회사 | 인공지능 모델을 분산 처리하는 전자 장치 및 그 동작 방법 |
CN114565102A (zh) * | 2020-11-27 | 2022-05-31 | 伊姆西Ip控股有限责任公司 | 部署机器学习模型的方法、电子设备和计算机程序产品 |
CN112734011B (zh) * | 2021-01-04 | 2021-12-28 | 北京大学 | 一种基于增量综合的深度神经网络加速器协同设计方法 |
CN115934306A (zh) * | 2021-08-08 | 2023-04-07 | 联发科技股份有限公司 | 一种电子设备、生成输出数据的方法及机器可读存储介质 |
CN114004347A (zh) | 2021-08-30 | 2022-02-01 | 平头哥(上海)半导体技术有限公司 | 用于加速图神经网络属性访问的硬件加速器、系统和方法 |
CN115268936B (zh) * | 2022-09-27 | 2022-12-27 | 之江实验室 | 一种用于计算图编译的优化方法及装置 |
US20240104341A1 (en) * | 2022-09-27 | 2024-03-28 | Zhejiang Lab | Memory optimization method and apparatus for neural network compilation |
CN115759233B (zh) * | 2022-11-24 | 2023-10-20 | 北京百度网讯科技有限公司 | 模型的训练方法、图数据处理方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060095722A1 (en) * | 2004-10-20 | 2006-05-04 | Arm Limited | Program subgraph identification |
US20140215477A1 (en) | 2013-01-31 | 2014-07-31 | International Business Machines Corporation | Realizing graph processing based on the mapreduce architecture |
US20150007182A1 (en) * | 2013-06-27 | 2015-01-01 | Microsoft Corporation | Iteration support in a heterogeneous dataflow engine |
US20150148919A1 (en) | 2013-11-27 | 2015-05-28 | Adept Ai Systems Inc. | Method and apparatus for artificially intelligent model-based control of dynamic processes using probabilistic agents |
JP2015525924A (ja) | 2012-07-09 | 2015-09-07 | トヨタ モーター ヨーロッパ ナームロゼ フェンノートシャップ/ソシエテ アノニム | 計算機を用いて動的挙動と相互作用するための人工記憶システム及び方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317734A (en) | 1989-08-29 | 1994-05-31 | North American Philips Corporation | Method of synchronizing parallel processors employing channels and compiling method minimizing cross-processor data dependencies |
US7350055B2 (en) | 2004-10-20 | 2008-03-25 | Arm Limited | Tightly coupled accelerator |
US7870556B2 (en) | 2006-05-16 | 2011-01-11 | Ab Initio Technology Llc | Managing computing resources in graph-based computations |
AU2007286155B2 (en) | 2006-08-10 | 2013-12-12 | Ab Initio Technology Llc. | Distributing services in graph-based computations |
JP5733860B2 (ja) | 2008-07-10 | 2015-06-10 | ロケティック テクノロジーズ リミテッド | 依存問題の効率的並列計算 |
US8881141B2 (en) * | 2010-12-08 | 2014-11-04 | Intenational Business Machines Corporation | Virtualization of hardware queues in self-virtualizing input/output devices |
CN102609298B (zh) * | 2012-01-11 | 2016-01-13 | 中国科学技术大学苏州研究院 | 基于硬件队列扩展的网卡虚拟化系统及其方法 |
CN102790777B (zh) * | 2012-08-07 | 2016-06-15 | 华为技术有限公司 | 网络接口适配器注册方法及驱动设备、服务器 |
US11061539B2 (en) | 2013-03-15 | 2021-07-13 | The Mathworks, Inc. | Reference nodes in a computational graph |
CN104615488B (zh) * | 2015-01-16 | 2018-01-19 | 华为技术有限公司 | 异构多核可重构计算平台上任务调度的方法和装置 |
-
2016
- 2016-10-27 US US15/336,673 patent/US11151446B2/en active Active
- 2016-10-28 EP EP16798590.2A patent/EP3353655B1/en active Active
- 2016-10-28 KR KR1020187015068A patent/KR102081952B1/ko active IP Right Grant
- 2016-10-28 WO PCT/US2016/059334 patent/WO2017075360A1/en active Application Filing
- 2016-10-28 CN CN201680063365.6A patent/CN108351805B/zh active Active
- 2016-10-28 CN CN202211570829.6A patent/CN115840643A/zh active Pending
- 2016-10-28 JP JP2018522024A patent/JP6672456B2/ja active Active
- 2016-10-28 KR KR1020207004981A patent/KR20200021104A/ko active Application Filing
-
2018
- 2018-04-27 US US15/965,670 patent/US10373053B2/en active Active
-
2021
- 2021-10-12 US US17/499,330 patent/US20220027202A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060095722A1 (en) * | 2004-10-20 | 2006-05-04 | Arm Limited | Program subgraph identification |
JP2015525924A (ja) | 2012-07-09 | 2015-09-07 | トヨタ モーター ヨーロッパ ナームロゼ フェンノートシャップ/ソシエテ アノニム | 計算機を用いて動的挙動と相互作用するための人工記憶システム及び方法 |
US20140215477A1 (en) | 2013-01-31 | 2014-07-31 | International Business Machines Corporation | Realizing graph processing based on the mapreduce architecture |
US20150007182A1 (en) * | 2013-06-27 | 2015-01-01 | Microsoft Corporation | Iteration support in a heterogeneous dataflow engine |
US20150148919A1 (en) | 2013-11-27 | 2015-05-28 | Adept Ai Systems Inc. | Method and apparatus for artificially intelligent model-based control of dynamic processes using probabilistic agents |
Also Published As
Publication number | Publication date |
---|---|
US10373053B2 (en) | 2019-08-06 |
KR20200021104A (ko) | 2020-02-27 |
US20170124451A1 (en) | 2017-05-04 |
CN108351805A (zh) | 2018-07-31 |
KR20180073669A (ko) | 2018-07-02 |
WO2017075360A1 (en) | 2017-05-04 |
EP3353655B1 (en) | 2023-01-11 |
US11151446B2 (en) | 2021-10-19 |
CN115840643A (zh) | 2023-03-24 |
US20220027202A1 (en) | 2022-01-27 |
JP2018533795A (ja) | 2018-11-15 |
EP3353655A1 (en) | 2018-08-01 |
US20180247196A1 (en) | 2018-08-30 |
CN108351805B (zh) | 2022-12-23 |
JP6672456B2 (ja) | 2020-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102081952B1 (ko) | 계산 그래프들의 스트림-기반 가속기 프로세싱 | |
KR102433254B1 (ko) | 계산 그래프들 프로세싱 | |
JP7094262B2 (ja) | 計算グラフの修正 | |
EP4202782A1 (en) | Training neural networks represented as computational graphs | |
US11763146B1 (en) | Processing loops in computational graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |