KR20200015829A

KR20200015829A - 계산 그래프들 프로세싱

Info

Publication number: KR20200015829A
Application number: KR1020207003263A
Authority: KR
Inventors: 파울 에이. 터커; 제프리 에드게이트 딘; 산자이 게마와트; 위안 위
Original assignee: 구글 엘엘씨
Priority date: 2015-10-28
Filing date: 2016-10-28
Publication date: 2020-02-12
Also published as: CN115061810A; EP3353656B1; US20170124452A1; US10860925B2; KR20220116573A; CN108292241B; CN108292241A; WO2017075438A1; KR20180077218A; US20240160948A1; US11769061B2; KR20240014612A; EP3353656A1; KR102628902B1; KR102076257B1; JP6898496B2; JP2018538607A; US10534997B2; EP3705994B1; US20180247197A1

Abstract

컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치들은, 계산 그래프를 프로세싱하기 위해 클라이언트로부터 요청을 수신하고; 상기 계산 그래프를 나타내는 데이터를 획득하고 -상기 계산 그래프는 복수의 노드들 및 방향 에지들을 포함하고, 각 노드는 각각의 오퍼레이션을 나타내고, 각각의 방향 에지는 각각의 제1 노드를 상기 각각의 제1 노드에 의해 표현되는 오퍼레이션의 출력을 입력으로서 수신하는 오퍼레이션을 나타내는 각각의 제2 노드에 연결함-; 요청된 오퍼레이션을 수행하기 위해 복수의 이용 가능한 디바이스들을 식별하고; 상기 계산 그래프를 복수의 서브그래프들로 분할하고 -서브그래프 각각은 상기 계산 그래프 내의 하나 이상의 노드들을 포함함-; 그리고 각각의 서브그래프에 대해, 상기 서브그래프 내의 상기 하나 이상의 노드들에 의해 표현된 오퍼레이션들을 오퍼레이션을 위한 복수의 이용 가능한 디바이스들 내의 각각의 이용 가능한 디바이스에 할당하는 것을 포함한다.

Description

계산 그래프들 프로세싱{PROCESSING COMPUTATIONAL GRAPHS}

본 명세서는 신경망들을 나타내는 계산 그래프들 프로세싱 및/또는 모델 입력을 프로세싱하기 위해 프로세싱된 계산 그래프의 사용에 관한 것이다.

신경망들은 하나 이상의 모델 레이어들을 사용하여 수신된 입력에 대한 출력, 예를 들어, 하나 이상의 분류를 생성하는 기계 학습 모델들이다. 일부 신경망들은 출력층 외에도 하나 이상의 은닉층을 포함한다. 각각의 은닉층의 출력은 네트워크의 다음 레이어, 즉 다음 은닉층 또는 네트워크의 출력층에 대한 입력으로서 사용된다. 네트워크의 각 레이어는 그 레이어에 대한 파라미터들의 각 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.

신경망의 레이어는 개별 디바이스로 프로세싱될 수 있다. 상기 디바이스는 오퍼레이션들을 수행하는 프로세서, 예를 들어, 입력들로부터의 레이어에서 출력을 생성하고, 오퍼레이션들로부터의 출력을 메모리에 저장하는 프로세서를 가질 수 있다. 일반적으로 신경망에서 출력을 생성하는 데 필요한 많은 수와 크기의 오퍼레이션들로 인해 하나의 디바이스는 신경망의 레이어들을 프로세싱하는 데 상당한 시간이 걸릴 수 있다.

일반적으로, 본 명세서는 신경망 또는 다른 기계 학습 모델을 나타내는 계산 그래프를 프로세싱하기 위한 시스템 및 방법을 기술한다.

일반적으로, 본 명세서에 기술된 요지의 하나의 혁신적인 양태는 액션들을 포함하는 방법으로 구현될 수 있으며, 상기 액션들은, 계산 그래프를 프로세싱하기 위해 클라이언트로부터 요청을 수신하는 액션; 상기 계산 그래프를 나타내는 데이터를 획득하는 액션 - 상기 계산 그래프는 복수의 노드들 및 방향 에지들(directed edges)을 포함하고, 각 노드는 각각의 오퍼레이션을 나타내고, 각각의 방향 에지는 각각의 제1 노드를 상기 각각의 제1 노드에 의해 표현되는 오퍼레이션의 출력을 입력으로서 수신하는 오퍼레이션을 나타내는 각각의 제2 노드에 연결함-; 상기 요청된 오퍼레이션을 수행하기 위해 복수의 이용 가능한 디바이스들을 식별하는 액션; 상기 계산 그래프를 복수의 서브그래프들로 분할하는 액션 -서브그래프 각각은 상기 계산 그래프에서 하나 이상의 노드들을 포함함-; 그리고 각각의 서브그래프에 대해, 상기 서브그래프 내의 하나 이상의 노드들에 의해 표현된 오퍼레이션들을 오퍼레이션을 위한 복수의 이용 가능한 디바이스들 내의 각각의 이용 가능한 디바이스에 할당하는 액션을 포함한다. 상기 방법은 컴퓨터로 구형되는 방법일 수 있다.

구현예들은 다음 구성들 중 하나 이상을 포함할 수 있다. 상기 요청은 하나 이상의 개별 노드들로부터의 하나 이상의 특정 출력들을 특정하고, 상기 하나 이상의 개별 노드들이 할당된 디바이스로부터 상기 하나 이상의 특정 출력들을 수신하고; 그리고 상기 하나 이상의 특정 출력들을 클라이언트에 제공하는 것을 더 포함한다. 상기 계산 그래프에 의한 오퍼레이션들은 신경망에 대한 추론(inference) 또는 훈련 오퍼레이션들을 포함한다. 상기 요청은 상기 계산 그래프를 복수의 미리결정된 서브그래프들로 분할하는 라벨들을 포함하고, 상기 계산 그래프를 분할하는 것은 상기 계산 그래프를 상기 복수의 미리결정된 서브그래프들로 분할하는 것을 포함한다. 각각의 디바이스는 복수의 디바이스 내의 다른 디바이스와 독립적인 오퍼레이션들을 수행하는 하드웨어 자원이다. 각각의 서브그래프를 각각의 디바이스에 할당하는 것은 서브그래프 내의 노드들에 의해 표현된 오퍼레이션들을 수행하는데 필요한 계산 능력을 갖는 디바이스에 상기 서브그래프를 할당하는 것을 포함한다. 체인 구조에 배치된 노드 그룹을 식별하기 위해 계산 그래프를 분석하며, 상기 분할하는 것은, 각 식별된 그룹에 대해, 상기 식별된 노드 그룹을 포함하는 각각의 서브그래프를 생성하는 것을 포함한다. 상기 계산 그래프를 분석하여 방향 에지에서 노드 그룹으로 유동하는(flowing) 공유 데이터에 대해 오퍼레이팅하는 노드 그룹을 식별하며, 상기 분할하는 것은 각 식별된 그룹에 대해, 상기 식별된 노드 그룹을 포함하는 각각의 서브그래프를 생성하는 것을 포함한다. 디바이스에 대한 서브그래프의 초기 할당을 결정하고; 상기 디바이스를 모니터링하여 통계를 결정하고; 상기 통계를 사용하여 상기 초기 할당을 조정하고; 그리고 상기 조정된 초기 할당에 기초하여 서브그래프들을 상기 디바이스들에 재할당하는 것을 포함한다. 개선 임계치(threshold amount of improvement)가 달성될 때까지 모니터링, 조정 및 재할당을 반복하는 것을 포함한다. 통계는 각각의 서브그래프에 대한 각각의 아이들 시간 또는 각각의 오퍼레이션 시간을 포함한다.

추가 구현예에서, 상기 방법은 모델 입력을 수신하는 단계; 및 상기 프로세싱된 계산 그래프에 의해 표현된 오퍼레이션들에 따라 상기 모델 입력을 프로세싱하는 단계를 더 포함한다.

본 명세서에 기술된 요지의 또 다른 혁신적인 양태는 액션들을 포함할 수 있는 방법들로 구현될 수 있으며, 상기 액션들은 제1 양태의 방법에 의해 획득된 프로세싱된 계산 그래프에 대응하는 기계 학습 모델을 제공하는 액션; 그리고 기계 학습 모델을 사용하여, 모델 입력을 프로세싱하는 액션을 포함할 수 있다. 상기 모델 입력을 프로세싱하는 액션은 기계 학습 모델을 훈련시키는 액션을 구성할 수 있으며, 이는 모델 입력으로부터 추론을 생성하는 액션을 구성할 수 있다.

다른 양태에서, 본 명세서에서 설명된 요지는 복수의 디바이스에 의해 제1 양태의 방법에 의해 획득된 프로세싱된 계산 그래프를 실행하는 액션들을 포함할 수 있는 방법들로 구현될 수 있다.

이러한 양태들에서, 상기 계산 그래프는 예를 들어 신경망과 같은 기계 학습 모델의 표현일 수 있다.

본 명세서에 기술된 요지의 또 다른 혁신적인 양태는 복수의 디바이스들을 이용하여 계산 그래프에 따른 모델 입력을 프로세싱하는 액션들을 포함하는 방법으로 구현될 수 있으며, 상기 계산 그래프는 복수의 노드들 및 방향 에지들을 포함하며, 각 노드는 각각의 오퍼레이션을 나타내며, 각각의 방향 에지는 각각의 제1 노드를 각각의 제1 노드에 의해 표현된 오퍼레이션의 출력을 입력으로서 수신하는 오퍼레이션을 나타내는 각각의 제2 노드에 연결하며,

상기 방법은, 상기 복수의 디바이스들 각각에 대해, 상기 디바이스에 할당된 상기 계산 그래프의 서브그래프를 나타내는 데이터를 수신하는 단계 -상기 서브그래프는 상기 계산 그래프로부터 복수의 노드들 및 방향 에지들을 포함함-; 그리고 상기 서브그래프에서 상기 노드들에 의해 표현되는 상기 오퍼레이션들을 수행하는 단계를 포함한다.

이 양태의 구현예들은 다음 구성들을 중 하나 이상을 포함할 수 있다. 상기 요청은 하나 이상의 개별 노드들로부터의 하나 이상의 특정 출력들을 특정하고, 상기 서브그래프 내의 하나 이상의 각각의 노드들로부터 하나 이상의 특정 출력들을 식별하는 요청을 수신하는 것; 그리고 하나 이상의 특정 출력들을 클라이언트에 제공하는 것을 포함한다. 상기 방법은 통계를 모니터링하는 단계; 그 통계를 클라이언트에 제공하는 단계를 더 포함한다. 상기 통계는 각각의 서브그래프에 대한 각각의 오퍼레이션 시간 또는 각각의 아이들 시간을 포함한다. 상기 서브그래프 내의 상기 노드들에 의해 표현되는 오퍼레이션들을 수행하는 단계는 비동기적으로 상기 오퍼레이션들을 수행하는 단계를 포함한다. 상기 비동기적으로 오퍼레이션들을 수행하는 단계는 큐들(queues), 논-블로킹 커널들 또는 둘 다를 사용하여 상기 오퍼레이션들을 수행하는 단계를 포함한다.

다른 양태들은 상기 양태들 중 어느 하나에 대응하는 시스템 및 컴퓨터 판독 가능 매체를 제공한다. 상기 컴퓨터 판독 가능 매체는 비 일시적 컴퓨터 판독 가능 매체일 수 있지만, 본 발명은 이에 한정되지 않는다.

본 명세서에 기술된 요지의 특정 실시예들은 다음의 장점들 중 하나 이상을 실현하도록 구현될 수 있다. 신경망의 오퍼레이션들, 예를 들어, 입력으로부터 추론을 생성하는 오퍼레이션은 방향 에지들 및 노드들의 계산 그래프로 표현될 수 있다. 시스템은 이 계산 그래프 표현을 프로세싱하여 신경망의 오퍼레이션들을 효율적으로 수행한다. 상기 시스템은 상기 계산 그래프가 일련의 레이어들로 표현된 기존의 신경망보다 추상화(abstractions)가 적기 때문에 이러한 효율성을 달성한다. 특히, 상기 계산 그래프는 종래의 신경망 표현보다 병렬 오퍼레이션들을 위해보다 쉽게 분할될 수 있다. 예시로서, 상기 계산 그래프의 서브그래프들은 고유 디바이스들에 할당될 수 있으며, 예를 들어, 각각의 서브그래프는 신경망의 오퍼레이션들을 수행하는 데 필요한 전체 시간을 줄이기 위해, 각각의 서브그래프에서 오퍼레이션들을 수행하는 다른 서브그래프들과 다른 디바이스에 할당될 수 있다.

본 명세서의 요지의 하나 이상의 실시예들의 세부사항들은 첨부된 도면들 및 이하의 설명에서 설명된다. 상기 요지의 다른 구성들, 양태들 및 장점들은 상세한 설명, 도면들 및 청구 범위로부터 명백해질 것이다. 양태들 및 구현예들이 결합될 수 있고, 일 양태 또는 구현예의 컨텍스트에서 설명된 구성들이 다른 양태들 또는 구현예들의 컨텍스트에서 구현될 수 있음이 이해될 것이다.

도 1은 계산 그래프로 표현된 신경망에 대한 오퍼레이션들을 분배하기 위한 예시적인 계산 그래프 시스템을 도시한다.
도 2는 계산 그래프들을 프로세싱하기 위한 예시적인 방법의 흐름도이다.
도 3은 예시적인 계산 그래프이다.
도 4는 서브그래프들을 디바이스들에 할당하기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 구성요소들을 나타낸다.

본 명세서는 일반적으로 분산된 방식으로 계산 그래프로 표현된 오퍼레이셔들을 수행하는 계산 그래프 시스템을 기술한다.

상기 계산 그래프는 방향성 에지들로 연결된 노드들을 포함한다. 상기 계산 그래프의 각 노드는 오퍼레이션을 나타낸다. 노드로 들어오는 에지는 노드로의 입력의 흐름, 즉 노드에 의해 표현된 오퍼레이션에 대한 입력을 나타낸다. 노드로부터 나가는 에지는 다른 노드에 의해 표현된 오퍼레이션에 대한 입력으로서 사용될 노드에 의해 표현된 오퍼레이션의 출력 흐름을 나타낸다. 따라서, 상기 그래프의 제1 노드와 상기 그래프의 제2 노드를 연결하는 방향 에지는 제1 노드에 의해 표현된 오퍼레이션에 의해 생성된 출력이 상기 제2 노드에 의해 표현된 오퍼레이션에 대한 입력으로서 사용된다는 것을 나타낸다.

일반적으로, 상기 계산 그래프에서 방향 에지들을 따라 유동하는 입력 및 출력은 텐서들이다. 텐서는 어레이의 차원에 해당하는 특정 순서를 갖는 수(numeric) 또는 다른 값들(예를 들어, 스트링들)의 다차원 어레이이다. 예를 들어, 스칼라 값은 0차 텐서(0th-order tensor)이고, 수치 벡터는 1차 텐서이고, 매트릭스는 2차 텐서이다.

일부 구현예들에서, 계산 그래프에 표현된 오퍼레이션들은 신경망 오퍼레이션들 또는 다른 종류의 기계 학습 모델을 위한 오퍼레이션들이다. 신경망은 수신된 입력에 대한 출력을 예측하기 위해 하나 이상의 비선형 단위 레이어들(layers of nonlinear units)을 사용하는 기계 학습 모델이다. 일부 신경망들은 출력층 외에도 하나 이상의 은닉층을 포함하는 심층 신경망들이다. 각각의 은닉층의 출력은 네트워크의 다른 레이어에 대한 입력으로 사용되며, 즉 다른 은닉층, 출력층 또는 둘 모두에 대한 입력으로 사용된다. 네트워크의 일부 레이어들은 파라미터들의 각 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성하는 반면, 네트워크의 다른 레이어들은 파라미터들을 갖지 않을 수 있다.

예를 들어, 계산 그래프에 의해 표현된 오퍼레이션들은 신경망이 추론을 계산하는데, 즉 입력에 대한 신경망 출력을 생성하기 위해 신경망의 레이어들을 통한 입력을 프로세싱하는데 필요한 오퍼레이션들일 수 있다. 또 다른 예로서, 상기 계산 그래프에 의해 표현되는 오퍼레이션들은 신경망 훈련 절차를 수행하여 신경망의 파라미터들의 값들을 조정함으로써, 예를 들어 상기 파라미터들의 초기값들로부터 그 파라미터들의 훈련된 값들을 결정함으로써 신경망을 훈련시키는 데 필요한 오퍼레이션들일 수 있다. 일부 경우, 예를 들어, 신경망의 훈련 동안, 상기 계산 그래프에 의해 표현된 오퍼레이션들은 신경망의 다수의 레플리카들(replicas)에 의해 수행되는 오퍼레이션들을 포함할 수 있다.

예시로서, 이전 레이어로부터 입력을 수신하는 신경망 레이어는 파라미터 매트릭스와 상기 입력 사이의 매트릭스 곱셈을 수행하도록 파라미터 매트릭스를 사용할 수 있다. 일부 경우, 이 매트릭스 곱셈은 계산 그래프에서 여러 노드들로 나타낼 수 있다. 예를 들어, 매트릭스 곱셈은 다중 곱셈과 덧셈 오퍼레이션들로 나눌 수 있으며, 각 오퍼레이션은 계산 그래프에서 다른 노드로 표현될 수 있다. 각 노드에 의해 표현된 오퍼레이션은 각각의 출력을 생성할 수 있으며, 이 출력은 방향 에지상에서 후속 노드로 흐른다. 마지막 노드에 의해 표현된 오퍼레이션이 매트릭스 곱셈의 결과를 생성한 후, 그 결과는 방향 에지상에서 다른 노드로 흐른다. 상기 결과는 상기 매트릭스 곱셈을 수행하는 신경망 레이어의 출력과 동일하다.

다른 경우, 매트릭스 곱셈이 상기 그래프에서 하나의 노드로 표현된다. 상기 노드에 의해 표현되는 오퍼레이션은 입력으로서 제1 방향 에지상의 입력 텐서 및 제2 방향 에지상의 가중치 텐서(weight tensor), 예를 들어 파라미터 매트릭스를 수신할 수 있다. 상기 노드는 입력 및 가중치 텐서들의 매트릭스 곱셈을 프로세싱하여 예를 들어 수행하여 제3 방향 에지에서 신경망 레이어의 출력과 동등한 출력 텐서를 출력할 수 있다.

상기 계산 그래프에서 노드들에 의해 표현될 수 있는 다른 신경망 오퍼레이션들은, 다른 수학 오퍼레이션들(예를 들어, 감산, 제산 및 그래디언트 계산), 어레이 오퍼레이션들(예를 들어, 연결, 스플라이스, 스플릿 또는 랭크), 신경망 빌딩 블록 오퍼레이션들(예를 들어, 소프트맥스(SoftMax), 시그모이드(Sigmoid), ReLU(rectified linear unit) 또는 컨볼루션(convolutions))을 포함한다.

신경망을 계산 그래프로 나타내면 신경망을 효율적으로 구현할 수 있는 유연하고 세부적인 방법을 제공하는데, 특히 신경망에 대한 오퍼레이션들이 하드웨어 프로필이 다른 여러 디바이스들에 분산되어있는 경우 더욱 그러하다.

도 1은 계산 그래프로 표현된 신경망에 대한 오퍼레이션들을 분산시키기 위한 예시적인 계산 그래프 시스템(100)을 도시한다. 시스템(100)은 후술하는 시스템들, 컴포넌트들 및 기술들이 구현될 수 있는 하나 이상의 위치에서 하나 이상의 컴퓨터상의 컴퓨터 프로그램들로서 구현되는 시스템의 예이다.

클라이언트(102)의 사용자는 신경망을 나타내는 계산 그래프상에서 수행될 오퍼레이션들을 요청할 수 있다. 클라이언트(102)는 컴퓨터상에서 실행되는 애플리케이션일 수 있다.

상기 요청의 일부로서, 클라이언트(102)는 계산 그래프를 식별하는 데이터를 시스템(100)에 제공하고, 그 계산 그래프상에서 수행될 오퍼레이션들의 유형을 특정한다.

예를 들어, 상기 요청은 특정 신경망에 대한 추론을 나타내는 계산 그래프를 식별할 수 있고, 그 추론이 수행되어야하는 입력을 식별할 수 있다.

다른 예로서, 상기 요청은 특정 신경망에 대한 훈련 절차를 나타내는 계산 그래프를 식별할 수 있고, 그 훈련이 수행되어야 하는 훈련 데이터와 같은 입력을 식별할 수 있다. 이 예에서, 훈련 절차를 나타내는 계산 그래프를 프로세싱하도록 하는 요청을 수신할 때면, 시스템(100)은 예를 들어 종래의 역전파(backpropagation) 또는 다른 신경망 훈련 기술들을 사용하여 상기 계산 그래프의 하나 이상의 에지에 대한 파라미터들에 대한 수정된 값들을 결정할 수 있다. 시스템(100)은 수정된 파라미터들을 디바이스의 메모리에 저장할 수 있고, 실행기(106)는 수정된 가중치들의 어드레스를 시스템(100)에서 검색 및 저장할 수 있다. 상기 수정된 가중치들을 요구하는 추론, 훈련 또는 다른 오퍼레이션들에 대한 클라이언트(102)로부터의 추가 요청에 따라, 시스템(100)은 상기 어드레스를 사용하여 상기 수정된 가중치들에 액세스할 수 있다.

일부 경우들에서, 상기 요청은 그 요청에 응답하여 전송되어야 하는 응답을 지정할 수 있다. 예를 들어, 신경망 훈련 요청에 대해, 클라이언트(102)는 상기 요청된 신경망 훈련 오퍼레이션들이 완료되었다는 인디케이션 및 선택적으로, 신경망의 파라미터들의 훈련된 값들 또는 그 훈련된 값들이 클라이언트(102)에 의해 액세스될 수 있는 메모리 위치의 인디케이션을 요청할 수 있다. 다른 예로서, 신경망 추론 요청에 대해, 클라이언트(102)는 계산 그래프의 하나 이상의 특정 노드들로부터 추론 오퍼레이션을 나타내는 출력 값들을 요청할 수 있다.

시스템(100)은 계산 그래프에 의해 표현되는 오퍼레이션들을 다수의 디바이스(116-122)로 분할함으로써 특정 출력을 생성하기 위한 오퍼레이션들을 수행한다. 시스템(100)은 예를 들어 LAN(local area network) 또는 WAN(wide area network)과 같은 데이터 통신 네트워크(114)를 통해 다수의 디바이스(116-122)로 오퍼레이션들을 분할한다. 디바이스들(116-122)은 오퍼레이션들을 수행하고, 적용 가능한 경우, 요청된 출력 또는 인디케이션을 클라이언트(102)로 리턴할 수 있는 각각의 출력 또는 인디케이션을 시스템(100)으로 리턴시킨다.

신경망 오퍼레이션들을 수행하는 임의의 디바이스들, 예를 들어 디바이스들(116-122)은 명령어들 및 데이터를 저장하기 위한 랜덤 액세스 메모리(RAM)와 같은 메모리 및 저장된 명령어들을 실행하기 위한 프로세서를 포함할 수 있다. 일반적으로, 각 디바이스는 다른 디바이스들과 독립적인 오퍼레이션들을 수행하는 하드웨어 자원이다. 예를 들어, 각 디바이스는 자체 프로세싱 유닛을 가질 수 있다. 상기 디바이스는 그래픽 프로세싱 유닛(GPU)들 또는 중앙 프로세싱 장치(CPU)들 일 수 있다. 예시로서, 하나의 머신은 하나 이상의 디바이스, 예를 들어, 다수의 CPU 및 GPU를 호스팅할 수 있다.

각 디바이스는 또한 각각의 계산 능력을 가질 수 있다. 즉, 디바이스는 서로 다른 양의 메모리, 프로세싱 속도 또는 기타 아키텍처 특성들을 가질 수 있다. 따라서, 일부 디바이스들은 다른 디바이스들에서 수행할 수 없는 오퍼레이션들을 수행할 수 있다. 예를 들어, 일부 오퍼레이션들은 특정 디바이스들만 갖는 일정량의 메모리를 필요로 하거나, 일부 디바이스들은 특정 유형의 오퍼레이션만을, 예를 들어 추론 오퍼레이션들만을 수행하도록 구성된다.

시스템(100) 내의 세션 관리자(104)는 계산 그래프의 오퍼레이션들이 수행되는 동안 세션을 시작하기 위한 요청을 클라이언트(102)로부터 수신한다. 세션 관리자(104)는 연산 그래프의 오퍼레이션들을 수행할 수 있는 디바이스 세트, 예컨대 디바이스들(116-122)을 관리하고, 오퍼레이션들을 수행하기 위해 이용 가능한 디바이스들의 세트를 플레이서(placer)(108)에 제공할 수 있다.

플레이서(108)는 계산 그래프에서 수행될 각각의 오퍼레이션에 대해, 오퍼레이션들을 수행하는 각각의 타겟 디바이스, 예를 들어 디바이스(116)를 결정하며, 일부 구현들예에서, 각각의 타겟 디바이스가 오퍼레이션을 수행하는 시간을 결정한다. 일부 오퍼레이션들은 병렬로 수행될 수 있는 반면, 다른 오퍼레이션들은 완료될 계산 그래프의 이전 오퍼레이션들을 필요로 하는데, 예를 들어, 상기 다른 오퍼레이션들은 상기 이전 오퍼레이션들의 출력들을 입력들로서 프로세싱한다.

상기 디바이스들이 플레이서(108)에 의해 할당된 오퍼레이션들을 수행하여 출력들을 생성한 후에, 실행기(106)는 상기 출력들을 검색할 수 있다.

실행기(106)는 상기 요청에 대한 적절한 응답, 예를 들어 출력 또는 상기 프로세싱이 완료되었다는 인디케이션을 생성할 수 있다. 그 다음, 실행기(106)는 상기 응답을 클라이언트(102)에 리턴할 수 있다.

세션 관리자(104)는 또한 계산 그래프에서 실행될 오퍼레이션들의 세트들을 실행기(106)에 제공한다. 실행기(106)는 오퍼레이션들의 그래프 실행에 관련된 디바이스들(116-122)로부터 런타임 통계를 주기적으로 검색한다. 실행기(106)는 상기 런타임 통계를 플레이서(108)에 제공하며, 이는 추가 오퍼레이션들의 배치 및 스케줄링을 재최적화(re-optimize)할 수 있다. 이 재최적화는 도 2를 참조하여 이하에서 더 설명될 것이다.

도 2는 계산 그래프를 프로세싱하기 위한 예시적인 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 계산 그래프 시스템, 예컨대 도 1의 적절하게 프로그래밍된 계산 그래프 시스템(100)은 프로세스(200)를 수행할 수 있다.

상기 시스템은 계산 그래프를 프로세싱하기 위해 클라이언트로부터 요청을 수신한다(단계 202). 예를 들어, 상기 요청은 특정 입력에 대한 계산 그래프에 의해 표현된 신경망 추론을 수행하기 위한 요청, 지정된 훈련 데이터 세트에 대한 계산 그래프에 의해 표현된 신경망 훈련 오퍼레이션들을 수행하기 위한 요청 또는 도 1을 참조하여 전술한 바와 같이, 계산 그래프에 의해 표현되는 다른 신경망 오퍼레이션들을 수행하기 위한 요청일 수 있다.

상기 시스템은 계산 그래프를 나타내는 데이터를 획득한다(단계 204). 일부 경우들에서, 상기 데이터는 클라이언트로부터의 요청과 함께 전송된다. 다른 경우들에서, 상기 요청은 계산 그래프를 식별하고, 상기 시스템은 메모리에서 식별된 그래프를 나타내는 상기 데이터를 검색한다. 예시로서, 상기 그래프를 나타내는 상기 데이터는 그래프 내의 노드들의 어레이일 수 있다. 각 노드는 오퍼레이션 유형, 이름, 노드에 대해 들어가고 나오는 에지들의 리스트를 지정하는 정보를 포함할 수 있다.

상기 시스템은 요청된 오퍼레이션들을 수행하기 위해 다수의 이용 가능한 디바이스를 식별한다(단계 206). 상기 시스템은 예를 들어 데이터 센터와 같은 다수의 디바이스들에 연결할 수 있다. 상기 시스템은 예를 들어 도 1의 실행기(106)를 사용하여 각 디바이스의 상태를 유지할 수 있다. 각 디바이스는 사용 중이거나 사용 가능할 수 있다. 디바이스가 현재 다른 오퍼레이션들을 수행 중이며 추가 오퍼레이션들이 할당될 수 없거나 그렇지 않으면 그래프 프로세싱 오퍼레이션들을 수행할 수 없는 경우 디바이스는 사용 중이다. 상기 디바이스가 추가 오퍼레이션들을 할당받을 수 있는 경우 사용 가능할 수 있으며, 예를 들어 상기 추가 오퍼레이션들이 상기 디바이스에 의한 오퍼레이션들을 위해 대기(queue)될 수 있다.

상기 시스템은 계산 그래프를 다수의 서브그래프들로 분할한다(단계 208). 각 서브그래프는 계산 그래프에 하나 이상의 노드를 포함한다. 일부 구현예들에서, 클라이언트로부터의 상기 요청은 상기 계산 그래프가 미리결정된 서브그래프들로 어떻게 분할되어야 하는지를 지정하는 라벨들(labels)을 포함한다. 예를 들어, 사용자는 계산 그래프의 라벨들을 수동으로 생성하고, 상기 요청에 상기 라벨들을 포함시킬 수 있다. 만약 상기 요청이 그러한 라벨들을 포함하면, 상기 시스템은 상기 계산 그래프를 상기 미리결정된 서브그래프들로 분할한다.

일부 다른 구현예들에서, 상기 시스템은 상기 계산 그래프가 어레이되는 방법에 기초하여 그 계산 그래프를 분할한다. 특히, 상기 시스템은 그래프를 분석하여 체인 구조로 어레이된 계산 그래프의 하나 이상의 노드를 연결하는 방향 에지들을 식별할 수 있다. 체인 구조의 노드는 노드에서 노드로 향하는 하나의 에지를 따라 서로 연결된 노드들이다. 따라서, 체인의 노드는 자체 오퍼레이션을 계산하기 전에 계산을 마치기 위해 체인의 이전 노드들에서 오퍼레이션들을 위해 대기해야 한다. 서브그래프들을 분할하는 것은 도 3을 참조하여 더 설명될 것이다.

또 다른 구현예들에서, 상기 시스템은 상기 그래프의 노드들을 클러스터링 한 다음 동일한 클러스터의 노드들을 동일한 서브그래프에 할당한다. 특히, 상기 시스템은 상기 그래프를 분석하여 방향 에지들에서 유동하는 공유 데이터에 대해 오퍼레이팅하는 노드들을 식별할 수 있다. 예를 들어, 여러 노드들은 이전 노드로부터 동일한 데이터를 입력으로 수신할 수 있다. 상기 시스템은 상기 서브그래프가 특정 디바이스에 할당될 때 상기 디바이스가 상기 노드들에 의해 표현된 다수의 오퍼레이션들에 대해 동일한 데이터를 저장하는 메모리를 재사용할 수 있도록 동일한 서브그래프에서 동일한 데이터를 수신하는 그러한 노드들을 클러스터링할 수 있다. 이는 도 3을 참조하여 더 설명될 것이다.

상기 시스템이 서브그래프들을 생성하는 방법에 대한 자세한 내용은 아래에서 확인될 수 있다.

상기 시스템은 각각의 서브그래프에 대해, 서브그래프 내의 하나 이상의 노드에 의해 표현된 오퍼레이션들을 각각의 이용 가능한 디바이스에 할당한다(단계 210). 일부 구현예들에서, 상기 시스템은 서브그래프 내의 노드들에 의해 표현된 오퍼레이션들을 수행하는데 필요한 연산 능력을 갖는 디바이스에 각각의 서브그래프를 할당한다. 일부 구현예들에서, 클라이언트로부터의 상기 요청은 특정 노드들에 대한 오퍼레이션들을 수행하기 위해 특정 유형의 디바이스를 식별하는 사용자에 의해 지정된 데이터를 포함한다. 예를 들어, 상기 사용자는 수학적으로 대량의 오퍼레이션들을 GPU에 할당해야 하는 특정 노드들을 지정할 수 있다. 상기 시스템은 상기 특정 노드들을 포함하는 서브그래프들을 특정 유형의 디바이스에 할당할 수 있다.

일부 다른 구현예들에서, 상기 시스템은 서브그래프 내의 노드들을 나타내는 오퍼레이션들에 의해 소비될 자원들의 최대량을 추정함으로써 서브그래프가 할당되는 디바이스를 결정한다. 예를 들어, 상기 시스템은 서브그래프의 임의의 노드에 의해 소비될 메모리의 최대량을 계산할 수 있다. 특히, 상기 시스템은 서브그래프를 트래버스(traverse)하여 상기 서브그래프의 각 노드에 대한 각 방향 에지상의 텐서의 차원(dimension of tensor)을 계산할 수 있다. 상기 텐서의 차원은 오퍼레이션을 수행하기 위해 디바이스가 소비하는 메모리의 사이즈를 나타낸다. 상기 시스템은 서브그래프에 유동하는 가장 큰 텐서를 저장할 수 있는 메모리를 가진 디바이스에 서브그래프를 할당할 수 있다.

서브그래프들을 디바이스들에 할당하는 다른 구현예는 도 4를 참조하여 이하에서 더 설명될 것이며, 상기 시스템이 하위그래프를 디바이스들에 할당하는 방법에 대한 자세한 내용은 아래에서 확인될 수 있다.

상기 시스템은 상기 디바이스들로 하여금 그 디바이스들에 할당된 노드들의 오퍼레이션들을 수행하게 한다(단계 212). 일부 구현예들에서, 상기 시스템은 각 디바이스에 오퍼레이션들을 개시하도록 하는 요청을 보낸다. 상기 디바이스는 상기 요청을 수신하고, 이에 응답하여 디바이스에 할당된 노드들의 오퍼레이션들을 수행하기 시작한다. 일부 구현예들에서, 상기 디바이스들은 그 디바이스에 할당된 노드들의 오퍼레이션들을 비동기적으로 수행한다. 예를 들어, 상기 디바이스들은 큐들, 논-블로킹 커널들 또는 둘 다를 사용하여 비동기적으로 오퍼레이션들을 수행할 수 있다. 비동기적으로 오퍼레이션들을 수행하는 방법은 이하에서 설명된다

도 3은 예시적인 계산 그래프를 도시한다. 예를 들어, 계산 그래프 시스템, 예를 들어 도 1의 시스템(100)은 입력들의 세트를 받으면 상기 계산 그래프를 사용하여 추론을 계산하기 위해 클라이언트로부터 요청을 수신할 수 있다. 특히, 클라이언트는 노드(316)의 출력을 요청할 수 있다. 상기 입력들의 세트는 노드(302)에 대한 방향 에지 상에 제공될 수 있다.

상기 시스템은 계산 그래프를 3개의 서브그래프(318-322)로 분할할 수 있다. 서브그래프(318-322)를 생성하기 위해, 상기 시스템은 상기 계산 그래프를 분석하여 노드들의 체인들을 식별할 수 있다. 예를 들어, 상기 시스템은 노드들(304, 316)의 제1 체인, 노드들(302, 306, 310)의 제2 체인 및 노드들(308, 312, 314)의 제3 체인을 식별할 수 있다. 노드들의 다른 가능한 체인들이 가능하지만, 상기 시스템은 서브그래프들의 수를 최소화하는 체인들을 선택할 수 있다. 상기 시스템은 노드들의 체인들을 각각의 서브그래프들로 그룹화할 수 있다.

일부 구현예들에서, 노드(306)의 출력들이 동일하면, 상기 시스템은 노드들(306, 308 및 310)을 하나의 서브그래프로 그룹화한다. 이는 노드들(310 및 308)이 모두 노드(306)로부터 동일한 출력을 수신하기 때문이다. 이 경우, 노드들(310 및 308)에 의해 표현된 오퍼레이션들은 메모리 소비를 최소화하기 위해 동일한 디바이스에서 수행된다. 즉, 상기 디바이스는 노드들(310 및 308) 모두에 대한 오퍼레이션들을 수행할 때 노드(306)로부터의 출력을 저장하는 동일한 메모리 위치에 액세스할 수 있다.

상기 시스템은 3개의 서브 그래프(318-322)를 3개의 이용 가능한 디바이스 각각에 할당할 수 있다. 상기 시스템은 초기 노드(302)를 포함하고 다른 서브그래프들의 출력에 종속되는 노드들이 아니므로 제1 서브 그래프(322)를 할당함으로써 시작할 수 있다. 일단 제1 서브그래프(322)가 할당되면, 상기 시스템은 제2 서브그래프(318)를 할당할 수 있다. 제2 서브그래프(318) 내의 노드(304)는 제1 서브그래프(322)에 할당된 디바이스에 의해 계산될 노드(302)의 출력을 필요로 한다.

일부 구현예들에서, 상기 시스템은 노드(302)에 의해 표현된 오퍼레이션이 완료되었다는 인디케이션을 수신할 때까지 제2 서브그래프(318)를 할당하기를 기다린다. 이를 통해 상기 시스템은 현재 정보(예를 들어: 메모리 또는 디바이스 가용성)를 기반으로 서브그래프들을 동적으로 할당하여 효율성을 향상시킬 수 있다. 상기 인디케이션을 수신하면, 상기 시스템은 제2 서브그래프(318)를 노드(302)의 출력의 사이즈를 핸들링(handling)할 수 있는 디바이스에 할당할 수 있다. 일부 다른 구현예들에서, 상기 시스템은 상기 그래프를 분석하여 노드들(302 및 304)로부터 방향 에지 상에 유동하는 상기 텐서의 차원을 결정한다. 그 다음, 상기 시스템은 제2 서브그래프(318)를 상기 텐서의 차원에 기초하여 할당할 수 있다. 즉, 상기 시스템은 제2 서브그래프(318)를 제2 서브그래프(318)에 대한 텐서의 메모리 요구량을 핸들링할 수 있는 디바이스에 할당한다.

유사하게, 제3 서브그래프(320)의 초기 노드(308)는 노드(306)의 출력을 필요로 한다. 상기 시스템은 제1 서브그래프가 할당된 디바이스가 노드(306)에 의해 표현된 오퍼레이션을 완료할 때까지 제3 서브 그래프(320)를 할당하기 위해 대기할 수 있다. 일단 노드(306)에 의해 표현된 오퍼레이션이 완료되면, 상기 시스템은 노드(306)의 출력을 분석하여 제3 서브그래프(320)를 각각의 이용 가능한 디바이스에 할당할 수 있다.

상기 디바이스는 아직 계산되지 않은 입력을 필요로 하는 노드들에서 오퍼레이션들을 중지(pause)(예를 들어, 아이들 상태로 진입)할 수 있다. 예를 들어, 노드(308)에 대한 오퍼레이션들을 수행한 후에, 제3 서브그래프(320)에 할당된 디바이스는 노드(312)에 대한 오퍼레이션들을 수행할 수 있다. 그 다음, 제3 서브그래프(320)에 할당된 디바이스는 노드(310)로부터의 입력이 수신되었는지의 여부를 결정한다. 상기 디바이스는 노드(310)로부터 입력을 수신할 때까지 노드(312)에 대한 오퍼레이션들을 수행하기 위해 대기할 수 있다.

마지막 노드, 즉 노드(316)가 오퍼레이션들을 수행한 후, 상기 노드가 할당된 디바이스는 노드의 출력 또는 상기 그래프의 프로세싱이 완료되었다는 인디케이션을 상기 시스템에 리턴할 수 있다. 그 다음, 상기 시스템은 필요한 경우 상기 출력을 클라이언트에 리턴할 수 있다.

도 4는 서브그래프들을 디바이스들에 할당하기 위한 예시적인 프로세스(400)의 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 계산 그래프 시스템, 예컨대 도 1의 적절하게 프로그래밍된 계산 그래프 시스템(100)은 프로세스(400)를 수행할 수 있다.

상기 시스템은 디바이스들에 대한 서브그래프들의 초기 할당을 결정한다(단계 402). 상기 시스템은 그리디 알고리즘(greedy algorithm)을 사용하여 디바이스들에 대한 상기 초기 할당을 결정할 수 있다. 즉, 상기 시스템은 서브그래프에서 하나 이상의 초기 노드를 분석함으로써 서브그래프가 할당되는 디바이스를 결정한다. 상기 초기 노드들은 데이터가 상기 서브그래프에서 유동하기 시작하는 노드들이다.

일부 구현예들에서, 상기 시스템은 상기 초기 노드에 의해 표현된 오퍼레이션에 의해 또는 상기 초기 노드에 연결된 노드에 의해 표현된 오퍼레이션에 의해 소비될 메모리의 양을 결정한다. 도 2 및 도 3을 참조하여 전술한 바와 같이, 상기 시스템은 도 2를 참조하여 전술한 바와 같이 소비될 메모리의 양을 결정하기 위해 상기 초기 노드들까지 또는 초기 노드들로부터 텐서의 차원을 분석할 수 있다.

상기 결정된 양에 기초하여, 상기 시스템은 적어도 상기 결정된 메모리의 양을 갖는 디바이스에 상기 서브그래프를 할당한다. 후속 노드들이 아닌 상기 초기 노드를 고려함으로써, 상기 시스템은 서브그래프들을 디바이스에 빠르게 할당할 수 있지만, 상기 후속 노드들이 상기 할당된 디바이스가 효율적으로 프로세싱할 수 없는 자원들을 필요로 할 수 있으므로 상기 할당이 최적이 아닐 수 있는바, 예를 들어, 상기 할당된 디바이스가 충분한 메모리가 없으면 상기 서브그래프에 표현된 후속 오퍼레이션들을 수행하기 위해 페이징(paging)을 구현해야 한다.

상기 시스템은 통계를 결정하기 위해 디바이스에 의한 그래프의 프로세싱을 모니터한다(단계 404). 예를 들어, 상기 시스템은 상기 디바이스들 각각에 대해 오퍼레이션 시간, 아이들 시간 또는 둘 다 모니터링할 수 있다. 상기 오퍼레이션 시간은 디바이스가 클라이언트로부터의 요청을 완료하는 데 걸리는 시간이다. 즉, 상기 시스템은 각 디바이스가 서브그래프들의 할당된 오퍼레이션들을 완료하는 데 걸리는 시간을 측정한다. 상기 시스템은 또한 얼마나 오랫동안 각 디바이스가 그 디바이스에 할당된 서브그래프의 프로세싱을 하는 동안 후속 오퍼레이션을 위해 대기하기 위해 아이들 상태에 있는지를 측정할 수 있다.

상기 시스템은 상기 통계를 사용하여 초기 할당을 조정한다(단계 406). 특히, 상기 시스템은 상기 초기 할당을 조정하여 오퍼레이션 시간 또는 아이들 시간 또는 둘 모두를 최소화할 수 있다. 예시로서, 상기 시스템은 먼저 제1 서브그래프에 대한 오퍼레이션들을 수행하도록 제1 디바이스를 할당하고, 제1 및 제2 서브 그래프의 각각의 초기 노드들에 기초하여 제2 서브그래프에 대한 오퍼레이션들을 수행하도록 제2 디바이스를 할당할 수 있다. 상기 오퍼레이션들을 수행하기 위한 시간을 트랙킹한 후에, 상기 시스템은 제1 디바이스와 제2 디바이스 간의 자원들 이용을 비교할 수 있다. 상기 제1 디바이스가 제2 디바이스보다 더 오랜 시간 동안 아이들 상태이지만 상기 제1 디바이스가 제2 디바이스보다 많은 프로세싱 능력 및 메모리를 갖는다면, 상기 시스템은 상기 제1 및 제2 서브그래프를 사용하는 오퍼레이션들 위한 후속 요청들에 위해 제1 서브그래프를 제2 디바이스에 할당하고 및 제2 서브그래프를 제1 디바이스에 할당하도록 조정할 수 있다.

상기 시스템은 상기 조정된 할당에 따라 상기 서브그래프들을 상기 디바이스들에 재할당한다(단계 408). 즉, 상기 설명을 계속하면, 상기 제1 및 제2 서브그래프를 사용하는 오퍼레이션을 위한 후속 요청에 응답하여, 상기 시스템은 제1 서브그래프를 제2 디바이스에 할당하고, 제2 서브그래프를 제1 디바이스에 할당한다.

상기 시스템은 404-408 단계를 반복하여 상기 할당을 지속적으로 업데이트하여 성능을 향상시킬 수 있다. 예를 들어, 상기 시스템은 아이들 시간을 최소화하기 위해 할당을 조정할 수 있는 여러 가지 가능성이 있는지를 결정할 수 있다. 상기 시스템은 다수의 다양한 디바이스들에 특정 서브그래프를 할당하는 옵션을 가질 수 있다. 상기 특정 서브그래프의 후속 오퍼레이션에서, 상기 시스템은 제1 가능성을 선택하고, 상기 오퍼레이션의 완료에 대한 제1 오퍼레이션 시간을 측정한다. 다른 후속 오퍼레이션에서, 상기 시스템은 제2 반복 동안 제2 가능성을 선택하고, 완료를 위한 제2 오퍼레이션 시간을 측정한다. 또 다른 후속 오퍼레이션에서, 상기 시스템은 가장 짧은 오퍼레이션 시간을 갖는 가능성을 선택하고, 상이한 서브그래프에 대한 할당의 상이한 가능성을 선택할 수 있다. 일부 구현예들에서, 상기 시스템은 개선 임계값이 달성될 때까지 상기 단계들을 반복할 수 있다.

디바이스들이 각각의 서브그래프에 할당된 후에, 상기 디바이스들은 예를 들어 계산 그래프에 의해 표현되는 신경망(또는 다른 기계 학습 모델)을 사용하여 모델 입력을 프로세싱하기 위해 각각의 서브그래프들의 오퍼레이션들을 수행한다. 오퍼레이션들이 완료되면, 상기 디바이스들은 오퍼레이션들이 완료되었음을 시스템에 알리거나 만약 있다면 상기 오퍼레이션들의 출력을 알릴 수 있다. 상기 시스템이 수신한 요청은 경우에 따라 특정 노드들의 하나 이상의 출력을 계산 그래프에 포함하도록 응답을 지정할 수 있다. 상기 시스템은 오퍼레이션들이 완료된 후 특정 디바이스들이 할당된 하나 이상의 디바이스로부터 상기 특정 노드들의 출력들을 수신할 수 있다. 그 다음, 상기 시스템은 도 1을 참조하여 전술한 바와 같이 클라이언트에 상기 출력들을 제공할 수 있다.

일부 구현예들에서, 사용자들은 계산 그래프들의 일부들을 지정할 수 있으며, 예를 들어 다른 계산 그래프의 컴포넌트로서 재사용될 수 있는 함수로서, 계산 그래프의 서브그래프, 계산 그래프의 노드, 또는 계산 그래프 내의 다수의 노드들의 상이한 수집을 지정할 수 있다. 특히, 이러한 구현예들에서, 계산 그래프를 식별하는 시스템 데이터를 제공한 후, 상기 사용자는 재사용 가능한 함수로서 계산 그래프의 특정 부분을 지정하기 위한 요청을 제출할 수 있고, 재사용 가능한 함수를 함수 이름, 예를 들어 시스템이 생성한 식별자 또는 사용자가 지정한 논리 이름과 연관시킬 수 있다. 그 다음, 상기 시스템은 특정 부분의 노드들과 에지들을 식별하는 데이터를 저장하고, 상기 부분을 상기 함수 이름과 연관시킬 수 있다. 나중에, 상기 시스템은 예를 들어, 다른 계산 그래프 내의 특정 노드의 출력이 상기 함수 이름을 갖는 함수에 대한 입력으로서 제공되어야 하고, 그리고 상기 함수의 출력은 다른 계산 그래프의 다른 특정 노드에 대한 입력으로 제공되어야 한다는 인디케이션과 같은, 상기 함수에 대한 레퍼런스를 포함하는 다른 계산 그래프를 프로세싱하라는 요청을 수신할 수 있다. 상기 요청에 응답하여, 상기 시스템은 함수 이름과 연관된 상기 그래프 부분을 식별할 수 있고, 적절한 위치에 상기 그래프 부분을 포함하는 증가된(augmented) 계산 그래프를 생성할 수 있다. 그 다음, 상기 시스템은 전술한 바와 같이 상기 증가된 계산 그래프를 프로세싱할 수 있다. 따라서, 사용자들은 예를 들어, 매번 이러한 오퍼레이션들을 나타내는 그래프의 부분을 재생성해야 할 필요없이 그의 계산 그래프에서 신경망 레이어들의 특정 구성의 오퍼레이션들과 같은 소정의 공통적으로 재사용되는 오퍼레이션들을 쉽게 포함할 수 있다.

본 명세서에서 설명된 요지 및 기능적 동작들의 실시예들은 본 명세서에 개시된 구조들 및 구조적 등가물, 또는 이들 중 하나 이상의 조합을 포함하여, 디지털 전자 회로, 유형적으로 기록된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어에서 구현될 수 있다. 본 명세서에서 설명된 요지의 실시예들은 하나 이상의 컴퓨터 프로그램들로 구현될 수 있으며, 예를 들어 데이터 처리 장치에 의해 실행되거나 또는 데이터 처리 장치의 동작을 제어하기 위한 유형적인 비 일시적 프로그램 캐리어 상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈들로 구현될 수 있다. 선택적으로 또는 부가적으로, 상기 프로그램 명령어들은 예를 들어 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 송신을 위해 정보를 인코딩하도록 생성된 기계-생성 전기, 광학 또는 전자기 신호와 같은 인위적으로 생성된 전파된 신호 상에 인코딩될 수 있다. 상기 컴퓨터 저장 매체는 기계 판독 가능 저장 장치, 기계 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 장치, 또는 이들 중 하나 이상의 조합일 수 있다. 그러나 컴퓨터 저장 매체는 전파된 신호가 아니다.

"데이터 처리 장치"라는 용어는 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터들을 포함하는 데이터 처리를 위한 모든 종류의 장치들, 디바이스들 및 기계들을 포함한다. 상기 장치는 특수 목적 논리 회로, 예를 들어 FPGA(field programmable gate array) 또는 ASIC(application-specific integrated circuit)를 포함할 수 있다. 또한, 상기 장치는 하드웨어 이외에, 문제의 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 설명될 수 있음)은 컴파일된 또는 해석된 언어들 또는 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있으며, 독립 실행형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 단위를 포함하여 임의의 형식으로 배포될 수 있다. 상기 컴퓨터 프로그램은 파일 시스템 내의 파일에 해당할 수 있지만 반드시 그런 것은 아니다. 프로그램은 예를 들어 마크업 언어 문서에 저장된 하나 이상의 스크립트, 문제의 프로그램 전용의 단일 파일, 또는 하나 이상의 모듈을 저장하는 파일과 같은 다수의 조정된 파일, 또는 코드의 일부분들과 같은, 다른 프로그램들 또는 데이터를 보유하는 파일의 일부에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터, 또는 하나의 사이트에 있거나 여러 사이트에 분산되어 있으며 통신 네트워크로 상호 연결된 여러 대의 컴퓨터에서 실행되도록 배포될 수 있다.

본 명세서에서 사용되는 "엔진" 또는 "소프트웨어 엔진"은 입력과 다른 출력을 제공하는 소프트웨어로 구현되는 입력/출력 시스템을 의미한다. 엔진은 라이브러리, 플랫폼, SDK(소프트웨어 개발 키트) 또는 오브젝트와 같이 인코딩된 기능 블록일 수 있다. 각 엔진은 하나 이상의 프로세서 및 컴퓨터 판독 가능 매체를 포함하는, 서버들, 휴대 전화기들, 태블릿 컴퓨터들, 노트북 컴퓨터들, 음악 플레이어들, 전자 책 리더기들, 노트북 또는 데스크톱 컴퓨터들, PDA들, 스마트폰들 또는 다른 고정식 또는 휴대용 디바이스들과 같은 모든 유형의 컴퓨팅 디바이스에서 구현할 수 있다. 또한, 2개 이상의 엔진은 동일한 컴퓨팅 장치 또는 상이한 컴퓨팅 장치들 상에 구현될 수 있다.

본 명세서에서 설명되는 프로세스들 및 로직 흐름은 입력 데이터를 오퍼레이팅하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 상기 프로세스들 및 로직 흐름은 또한 FPGA(field programmable gate array) 또는 ASIC(application-specific integrated circuit)과 같은 특수 목적의 논리 회로에 의해 수행될 수 있고, 장치는 또한 상기 특수 목적의 논리 회로로 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터들은 예를 들어 범용 또는 특수 목적 마이크로프로세서들 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 포함하고, 이들에 기반될 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성요소들은 명령어들을 수행하거나 실행하기 위한 중앙 처리 장치 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 장치이다. 일반적으로, 컴퓨터는 예를 들어, 자기, 광 자기 디스크 또는 광학 디스크와 같은 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치로부터 데이터를 수신하거나 그 하나 이상의 대용량 저장 장치에 데이터를 전송하기 위해 동작 가능하게 결합될 것이다. 그러나, 컴퓨터는 그러한 장치들을 가질 필요가 없다. 또한, 컴퓨터는 다른 장치, 예를 들어, 이동 전화기, 개인 휴대 정보 단말기(PDA), 이동 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 예를 들어 범용 직렬 버스(USB) 플래시 드라이브와 같은 휴대용 저장 장치에 내장될 수 있다.

컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 장치들과 같은 반도체 메모리 장치들; 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크; 광 자기 디스크; 그리고 CD-ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치들을 포함한다. 상기 프로세서 및 메모리는 특수 목적 논리 회로에 의해 통합되거나 그 안에 포함될 수 있다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 설명된 요지의 실시예들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치, 예를 들어 CRT(cathode ray tube) 모니터, LCD(liquid crystal display) 모니터, 또는 OLED 디스플레이뿐만 아니라 키보드, 마우스, 또는 근접 감지 디스플레이나 다른 표면과 같이 입력을 컴퓨터에 제공하기 위한 입력 장치를 갖는 컴퓨터상에서 구현될 수 있다. 다른 종류의 디바이스들이 사용자와의 상호 작용을 제공하는 데 사용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있으며, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 디바이스로부터 자원들을 수신하고 그 자원들을 보냄으로써, 예를 들어, 웹 브라우저로부터 수신된 요청들에 응답하여 사용자의 클라이언트 디바이스상의 웹 브라우저에 웹 페이지들을 전송함으로써 사용자와 상호 작용할 수 있다.

본 명세서에서 설명된 요지의 실시예들은 데이터 서버와 같은 백 엔드 컴포넌트, 또는 예를 들어 애플리케이션 서버와 같은 미들웨어 컴포넌트, 또는 본 명세서에 설명된 요지의 구현예와 사용자가 상호 작용할 수 있는 웹 브라우저를 또는 그래픽 사용자 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트 엔드 컴포넌트, 또는 하나 이상의 백엔드, 미들웨어 또는 프런트 엔드 컴포넌트의 모든 조합을 포함하는 컴퓨팅 시스템으로 구현될 수 있다. 상기 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 접속될 수 있다. 예시적인 통신 네트워크들은 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어 인터넷을 포함한다.

상기 컴퓨팅 시스템은 클라이언트들과 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터들에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의해 발생한다.

본 명세서는 다수의 특정 구현 세부 사항을 포함하지만, 이들은 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 실시예들에 특정 될 수 있는 특징들에 대한 설명으로 해석되어야 한다. 별도의 실시예들과 관련하여 본 명세서에서 설명되는 특정 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 문맥에서 설명된 다양한 특징은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 하위 조합으로 구현될 수 있다. 더욱이, 특징들은 특정 조합으로 동작하는 것으로 상술될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징이 일부 경우에서 그 조합으로부터 제거될 수 있고, 청구된 조합은 하위 조합의 변형 또는 하위조합을 지향할 수 있다.

유사하게, 동작들이 특정 순서로 도면들에 도시되어 있지만, 이는 바람직한 결과들을 달성하기 위해 상기 동작들이 도시된 특정 순서 또는 순차적 순서로 수행되거나 모든 예시된 동작이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 전술한 실시예들에서 다양한 시스템 컴포넌트들의 분리는 모든 실시예들에서 그러한 분리를 요구하는 것으로 이해되어서는 안되며, 서술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다중 소프트웨어 제품들로 패키징될 수 있다는 것을 이해해야 한다.

본 발명의 특정 실시예들이 설명되었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구 범위에 열거된 동작들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과들을 달성한다. 하나의 예로서, 첨부된 도면들에 도시된 프로세스들은 바람직한 결과들을 얻기 위해 나타낸 특정 순서 또는 순차적 순서를 반드시 필요로 하지는 않는다. 특정 구현예들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims

방법으로서,
클라이언트로부터 계산 그래프를 프로세싱하도록 하는 요청을 수신하는 단계;
상기 계산 그래프를 나타내는 데이터를 획득하는 단계 -상기 계산 그래프는 복수의 노드들 및 방향 에지들을 포함하고, 각 노드는 각각의 오퍼레이션을 나타내고, 각각의 방향 에지는 각각의 제1 노드를 각각의 제1 노드에 의해 표현되는 오퍼레이션의 출력을 입력으로서 수신하는 오퍼레이션을 나타내는 각각의 제2 노드에 연결함-;
상기 계산 그래프를 프로세싱하기 위해 복수의 이용 가능한 디바이스들을 식별하는 단계 -상기 복수의 이용 가능한 디바이스들은 상이한 양의 메모리를 갖는 2개의 디바이스들을 포함함-;
상기 계산 그래프를 복수의 서브그래프들로 분할하는 단계 -서브그래프 각각은 상기 계산 그래프 내의 하나 이상의 노드들을 포함함-;
서브그래프에서 임의의 하나의 오퍼레이션을 실행하기 위해 추정된 메모리 량을 나타내는 각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 결정하는 단계; 그리고
각각의 서브그래프에 대해, 상기 서브그래프 내의 상기 하나 이상의 노드들에 의해 표현된 오퍼레이션들을 프로세싱하기 위한 복수의 이용 가능한 디바이스들 내의 각각의 이용 가능한 디바이스에 할당하는 단계를 포함하며,
상기 할당하는 단계는 상기 서브그래프의 각각의 추정된 최대 메모리 요구량과 동일하거나 그 이상인 메모리 량을 갖는 디바이스에 상기 서브그래프를 할당하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 클라이언트로부터의 상기 요청은 상기 계산 그래프의 특정 노드에 의해 표현된 오퍼레이션을 수행하도록 특정 유형의 디바이스를 식별하고,
각각의 서브그래프에 대해, 서브그래프 내의 하나 이상의 노드들에 의해 표현된 오퍼레이션들을 할당하는 단계는, 복수의 서브그래프의 제1 서브그래프를 할당하고 상기 요청에 의해 특정된 특정 유형의 디바이스의 디바이스에 대해 특정 노드를 갖는 단계를 포함하며,
제1 서브그래프에 할당된 디바이스는 제1 서브그래프에 대한 추정된 최대 메모리 요구량 이상인 메모리의 양을 갖는 것을 특징으로 하는 방법.
제1항에 있어서,
각각의 서브그래프에 대해, 서브그래프 내의 하나 이상의 노드들에 의해 표현된 오퍼레이션들을 할당하는 단계는,
복수의 서브그래프들의 제2 서브그래프가 복수의 서브그래프들의 제1 서브그래프의 제1 노드로부터의 출력을 입력으로서 요구하고 그리고 제2 서브그래프와 상이한지를 결정하는 단계; 그리고
제1 서브그래프의 제1 노드에 의해 표현된 오퍼레이션이 완료될 때까지 제2 서브그래프를 디바이스에 할당하기 위해 대기하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 계산 그래프에서 방향 에지들을 따라 유동하는(flowing) 출력들은 텐서들이고, 상기 방법은,
상기 서브그래프의 노드들에 의해 표현된 오퍼레이션들을 수행하기 위해 디바이스에 의해 소비될 메모리의 각 크기를 결정하도록 서브그래프의 각각의 노드로부터 그리고 상기 서브그래프의 각각의 노드로 각각의 방향 에지의 텐서의 차원을 계산하여 각각의 서브그래프를 트래버스하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 계산 그래프의 방향 에지들을 따라 유동하는 출력들은 텐서들이고,
각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 결정하는 단계는,
상기 서브그래프에서 유동하는 가장 큰 차원을 갖는 각각의 텐서를 저장할 수 있는 메모리의 양으로서 각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 추정하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 요청은 상기 계산 그래프에서 하나 이상의 각각의 노드들로부터의 하나 이상의 출력들을 식별하며, 상기 방법은,
서브그래프가 할당된 디바이스들의 각각에 대해, 상기 디바이스가 상기 디바이스에 할당된 서브그래프의 노드들에 의해 표현된 오퍼레이션들을 수행하게 하는 단계; 그리고
하나 이상의 출력들을 클라이언트에 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법.
시스템으로서,
하나 이상의 컴퓨터들; 그리고
하나 이상의 컴퓨터들에 결합되고 명령어들이 저장된 컴퓨터 판독 가능 매체를 포함하며, 상기 명령어들은 상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은,
클라이언트로부터 계산 그래프를 프로세싱하도록 하는 요청을 수신하는 동작;
상기 계산 그래프를 나타내는 데이터를 획득하는 동작 -상기 계산 그래프는 복수의 노드들 및 방향 에지들을 포함하고, 각 노드는 각각의 오퍼레이션을 나타내고, 각각의 방향 에지는 각각의 제1 노드를 각각의 제1 노드에 의해 표현되는 오퍼레이션의 출력을 입력으로서 수신하는 오퍼레이션을 나타내는 각각의 제2 노드에 연결함-;
상기 계산 그래프를 프로세싱하기 위해 복수의 이용 가능한 디바이스들을 식별하는 동작 -상기 복수의 이용 가능한 디바이스들은 상이한 양의 메모리를 갖는 2개의 디바이스들을 포함함-;
상기 계산 그래프를 복수의 서브그래프들로 분할하는 동작 -서브그래프 각각은 상기 계산 그래프 내의 하나 이상의 노드들을 포함함-;
서브그래프에서 임의의 하나의 오퍼레이션을 실행하기 위해 추정된 메모리 량을 나타내는 각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 결정하는 동작; 그리고
각각의 서브그래프에 대해, 상기 서브그래프 내의 상기 하나 이상의 노드들에 의해 표현된 오퍼레이션들을 프로세싱하기 위한 복수의 이용 가능한 디바이스들 내의 각각의 이용 가능한 디바이스에 할당하는 동작을 포함하며,
상기 할당하는 동작은 상기 서브그래프의 각각의 추정된 최대 메모리 요구량과 동일하거나 그 이상인 메모리 량(amount)을 갖는 디바이스에 상기 서브그래프를 할당하는 동작을 포함하는 것을 특징으로 하는 시스템.
제7항에 있어서,
상기 클라이언트로부터의 상기 요청은 상기 계산 그래프의 특정 노드에 의해 표현된 오퍼레이션을 수행하도록 특정 유형의 디바이스를 식별하고,
각각의 서브그래프에 대해, 서브그래프 내의 하나 이상의 노드들에 의해 표현된 오퍼레이션들을 할당하는 동작은, 복수의 서브그래프의 제1 서브그래프를 할당하고 상기 요청에 의해 특정된 특정 유형의 디바이스의 디바이스에 대해 특정 노드를 갖는 동작을 포함하며,
제1 서브그래프에 할당된 디바이스는 제1 서브그래프에 대한 추정된 최대 메모리 요구량 이상인 메모리의 양을 갖는 것을 특징으로 하는 시스템.
제7항에 있어서,
각각의 서브그래프에 대해, 서브그래프 내의 하나 이상의 노드들에 의해 표현된 오퍼레이션들을 할당하는 동작은,
복수의 서브그래프들의 제2 서브그래프가 복수의 서브그래프들의 제1 서브그래프의 제1 노드로부터의 출력을 입력으로서 요구하고 그리고 제2 서브그래프와 상이한지를 결정하는 동작; 그리고
제1 서브그래프의 제1 노드에 의해 표현된 오퍼레이션이 완료될 때까지 제2 서브그래프를 디바이스에 할당하기 위해 대기하는 동작을 포함하는 것을 특징으로 하는 시스템.
제7항에 있어서, 상기 계산 그래프에서 방향 에지들을 따라 유동하는(flowing) 출력들은 텐서들이고, 상기 동작들은,
상기 서브그래프의 노드들에 의해 표현된 오퍼레이션들을 수행하기 위해 디바이스에 의해 소비될 메모리의 각 크기를 결정하도록 서브그래프의 각각의 노드로부터 그리고 상기 서브그래프의 각각의 노드로 각각의 방향 에지의 텐서의 차원을 계산하여 각각의 서브그래프를 트래버스하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
제7항에 있어서,
상기 계산 그래프의 방향 에지들을 따라 유동하는 출력들은 텐서들이고,
각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 결정하는 동작은,
상기 서브그래프에서 유동하는 가장 큰 차원을 갖는 각각의 텐서를 저장할 수 있는 메모리의 양으로서 각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 추정하는 동작을 포함하는 것을 특징으로 하는 시스템.
제7항에 있어서, 상기 요청은 상기 계산 그래프에서 하나 이상의 각각의 노드들로부터의 하나 이상의 출력들을 식별하며, 상기 동작들은,
서브그래프가 할당된 각각의 디바이스에 대해, 상기 디바이스가 상기 디바이스에 할당된 서브그래프의 노드들에 의해 표현된 오퍼레이션들을 수행하게 하는 동작; 그리고
하나 이상의 출력들을 클라이언트에 제공하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
하나 이상의 컴퓨터들에 의해 실행될 때, 하나 이상의 컴퓨터들이 동작들을 수행하게 하는 명령어들이 저장된 컴퓨터 판독 가능 매체로서, 상기 동작들은,
클라이언트로부터 계산 그래프를 프로세싱하도록 하는 요청을 수신하는 동작;
상기 계산 그래프를 나타내는 데이터를 획득하는 동작 -상기 계산 그래프는 복수의 노드들 및 방향 에지들을 포함하고, 각 노드는 각각의 오퍼레이션을 나타내고, 각각의 방향 에지는 각각의 제1 노드를 각각의 제1 노드에 의해 표현되는 오퍼레이션의 출력을 입력으로서 수신하는 오퍼레이션을 나타내는 각각의 제2 노드에 연결함-;
상기 계산 그래프를 프로세싱하기 위해 복수의 이용 가능한 디바이스들을 식별하는 동작 -상기 복수의 이용 가능한 디바이스들은 상이한 양의 메모리를 갖는 2개의 디바이스들을 포함함-;
상기 계산 그래프를 복수의 서브그래프들로 분할하는 동작 -서브그래프 각각은 상기 계산 그래프 내의 하나 이상의 노드들을 포함함-;
서브그래프에서 임의의 하나의 오퍼레이션을 실행하기 위해 추정된 메모리 량을 나타내는 각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 결정하는 동작; 그리고
각각의 서브그래프에 대해, 상기 서브그래프 내의 상기 하나 이상의 노드들에 의해 표현된 오퍼레이션들을 프로세싱하기 위한 복수의 이용 가능한 디바이스들 내의 각각의 이용 가능한 디바이스에 할당하는 동작을 포함하며,
상기 할당하는 동작은 상기 서브그래프의 각각의 추정된 최대 메모리 요구량과 동일하거나 그 이상인 메모리 량(amount)을 갖는 디바이스에 상기 서브그래프를 할당하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 매체.
제13항에 있어서,
상기 클라이언트로부터의 상기 요청은 상기 계산 그래프의 특정 노드에 의해 표현된 오퍼레이션을 수행하도록 특정 유형의 디바이스를 식별하고,
각각의 서브그래프에 대해, 서브그래프 내의 하나 이상의 노드들에 의해 표현된 오퍼레이션들을 할당하는 동작은, 복수의 서브그래프의 제1 서브그래프를 할당하고 상기 요청에 의해 특정된 특정 유형의 디바이스의 디바이스에 대해 특정 노드를 갖는 동작을 포함하며,
제1 서브그래프에 할당된 디바이스는 제1 서브그래프에 대한 추정된 최대 메모리 요구량 이상인 메모리의 양을 갖는 것을 특징으로 하는 컴퓨터 판독 가능 매체.
제13항에 있어서,
각각의 서브그래프에 대해, 서브그래프 내의 하나 이상의 노드들에 의해 표현된 오퍼레이션들을 할당하는 동작은,
복수의 서브그래프들의 제2 서브그래프가 복수의 서브그래프들의 제1 서브그래프의 제1 노드로부터의 출력을 입력으로서 요구하고 그리고 제2 서브그래프와 상이한지를 결정하는 동작; 그리고
제1 서브그래프의 제1 노드에 의해 표현된 오퍼레이션이 완료될 때까지 제2 서브그래프를 디바이스에 할당하기 위해 대기하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 매체.
제13항에 있어서, 상기 계산 그래프에서 방향 에지들을 따라 유동하는(flowing) 출력들은 텐서들이고, 상기 동작들은,
상기 서브그래프의 노드들에 의해 표현된 오퍼레이션들을 수행하기 위해 디바이스에 의해 소비될 메모리의 각 크기를 결정하도록 서브그래프의 각각의 노드로부터 그리고 상기 서브그래프의 각각의 노드로 각각의 방향 에지의 텐서의 차원을 계산하여 각각의 서브그래프를 트래버스하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 매체.
제13항에 있어서,
상기 계산 그래프의 방향 에지들을 따라 유동하는 출력들은 텐서들이고,
각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 결정하는 동작은,
상기 서브그래프에서 유동하는 가장 큰 차원을 갖는 각각의 텐서를 저장할 수 있는 메모리의 양으로서 각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 추정하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 매체.
제13항에 있어서, 상기 요청은 상기 계산 그래프에서 하나 이상의 각각의 노드들로부터의 하나 이상의 출력들을 식별하며, 상기 동작들은,
서브그래프가 할당된 각각의 디바이스에 대해, 상기 디바이스가 상기 디바이스에 할당된 서브그래프의 노드들에 의해 표현된 오퍼레이션들을 수행하게 하는 동작; 그리고
하나 이상의 출력들을 클라이언트에 제공하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 매체.
제1항에 있어서,
상기 계산 그래프에서 상기 방향 에지들을 따라 유동하는 입력들은 텐서들이고, 각 서브그래프는 서브그래프에 대한 입력을 입력으로서 수신하는 초기 노드를 포함하고,
각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 결정하는 단계는,
각각의 서브그래프에 대해, 서브그래프의 초기 노드에 대한 입력의 차원(dimension)을 결정하는 단계를 포함하며, 상기 서브그래프의 초기 노드에 대한 입력의 차원은 서브그래프에 대한 각각의 추정된 최대 메모리 요구량인 것을 특징으로 하는 방법.
제1항에 있어서, 상기 방법은,
각각의 서브그래프에 대해, 서브그래프의 하나 이상의 노드들에 의해 표현되는 오퍼레션들을 할당한 후:
각각의 서브그래프에 대해, 서브그래프의 하나 이상의 노드들에 의해 표현되는 오퍼레이션들의 실행을 모니터링하는 단계,
상기 오퍼레이션들의 실행을 모니터링함으로써, 각각의 서브그래프에 대한 각각의 통계 데이터를 획득하는 단계,
각각의 서브그래프에 대한 각각의 통계 데이터에 기초하여 하나 이상의 서브그래프를 복수의 이용 가능한 디바이스들의 상이한 디바이스들에 재할당하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제7항에 있어서,
상기 계산 그래프에서 상기 방향 에지들을 따라 유동하는 입력들은 텐서들이고, 각 서브그래프는 서브그래프에 대한 입력을 입력으로서 수신하는 초기 노드를 포함하고,
각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 결정하는 동작은,
각각의 서브그래프에 대해, 서브그래프의 초기 노드에 대한 입력의 차원(dimension)을 결정하는 동작을 포함하며, 상기 서브그래프의 초기 노드에 대한 입력의 차원은 서브그래프에 대한 각각의 추정된 최대 메모리 요구량인 것을 특징으로 하는 시스템.
제7항에 있어서, 상기동작들은,
각각의 서브그래프에 대해, 서브그래프의 하나 이상의 노드들에 의해 표현되는 오퍼레션들을 할당한 후:
각각의 서브그래프에 대해, 서브그래프의 하나 이상의 노드들에 의해 표현되는 오퍼레이션들의 실행을 모니터링하는 동작,
상기 오퍼레이션들의 실행을 모니터링함으로써, 각각의 서브그래프에 대한 각각의 통계 데이터를 획득하는 동작,
각각의 서브그래프에 대한 각각의 통계 데이터에 기초하여 하나 이상의 서브그래프를 복수의 이용 가능한 디바이스들의 상이한 디바이스들에 재할당하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
제13항에 있어서,
상기 계산 그래프에서 상기 방향 에지들을 따라 유동하는 입력들은 텐서들이고, 각 서브그래프는 서브그래프에 대한 입력을 입력으로서 수신하는 초기 노드를 포함하고,
각각의 서브그래프에 대한 각각의 추정된 최대 메모리 요구량을 결정하는 동작은,
각각의 서브그래프에 대해, 서브그래프의 초기 노드에 대한 입력의 차원(dimension)을 결정하는 동작을 포함하며, 상기 서브그래프의 초기 노드에 대한 입력의 차원은 서브그래프에 대한 각각의 추정된 최대 메모리 요구량인 것을 특징으로 하는 컴퓨터 판독 가능 매체.
제13항에 있어서, 상기 동작들은,
각각의 서브그래프에 대해, 서브그래프의 하나 이상의 노드들에 의해 표현되는 오퍼레션들을 할당한 후:
각각의 서브그래프에 대해, 서브그래프의 하나 이상의 노드들에 의해 표현되는 오퍼레이션들의 실행을 모니터링하는 동작,
상기 오퍼레이션들의 실행을 모니터링함으로써, 각각의 서브그래프에 대한 각각의 통계 데이터를 획득하는 동작,
각각의 서브그래프에 대한 각각의 통계 데이터에 기초하여 하나 이상의 서브그래프를 복수의 이용 가능한 디바이스들의 상이한 디바이스들에 재할당하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 매체.