KR102327615B1

KR102327615B1 - 연산 그래프 수정

Info

Publication number: KR102327615B1
Application number: KR1020217000978A
Authority: KR
Inventors: 비제이 바슈데반; 제프리 애드게이트 딘; 산제이 게마와트
Original assignee: 구글 엘엘씨
Priority date: 2015-10-28
Filing date: 2016-10-28
Publication date: 2021-11-17
Also published as: US10354186B2; US10783435B2; EP4242845A1; CN108351983A; WO2017075346A1; JP7094262B2; US20200401897A1; US20220019896A1; JP2020057422A; EP3353718B1; KR20180069881A; KR102204887B1; US11087216B2; US20180247198A1; JP6636630B2; US20170124454A1; EP3353718A1; JP2018533792A; KR20210008150A

Abstract

방법, 시스템 및 장치는 송신 및 수신 노드를 포함하도록 연산 그래프를 수정하기 위한, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램을 포함한다. 연산 그래프의 상이한 서브 그래프들의 연산을 수행하는 고유 디바이스들 간의 통신은 송신 및 수신 노드를 각 서브 그래프에 삽입함으로써 효율적으로 처리될 수 있다. 실행시, 이들 송신 및 수신 노드가 나타내는 연산들은 고유 디바이스 쌍이 자립적 방법으로 서로 통신할 수 있게 한다. 이는 백엔드에서 통신을 조정하는 부담을 시프트시켜, 디바이스들이 서브 그래프를 실행하는 동안 이 연산 그래프 표현을 처리하는 시스템이 하나 이상의 다른 프로세스를 수행할 수 있는 기회를 제공한다.

Description

연산 그래프 수정 {MODIFYING COMPUTATIONAL GRAPHS}

본 발명은 신경망을 나타내는 연산 그래프 수정 및/또는 모델 입력을 처리하기 위한 수정된 연산 그래프의 사용에 관한 것이다.

신경망은 하나 이상의 모델 계층(layer)을 이용하여 수신 입력에 대한 출력(예를 들어, 하나 이상의 분류)을 생성하는 기계 학습 모델이다. 일부 신경망은 출력 계층이외에 하나 이상의 히든(hidden) 계층을 포함한다. 각 히든 계층의 출력은 네트워크의 다음 계층, 즉 다음 히든 계층 또는 네트워크의 출력 계층에 대한 입력으로 사용된다.

네트워크의 각 계층은 계층에 대한 파라미터의 각 세트의 현재 값에 따라 수신 입력으로부터 출력을 생성한다. 신경망의 계층들은 개별 디바이스에 의해 처리될 수 있다. 상기 디바이스는 연산들(operations)을 수행하는, 예를 들어, 입력으로부터 계층에서 출력을 생성하고, 연산들로부터의 출력을 메모리에 저장하는 프로세서를 가질 수 있다. 일반적으로 신경망에서 출력을 생성하는데 필요한 많은 수 및 크기의 연산들로 인해 하나의 디바이스는 신경망의 계층들을 처리하는데 상당한 시간이 소요될 수 있다.

일반적으로 본 명세서는 신경망 및 다른 기계 학습 모델을 나타내는 연산 그래프(computational graphs)를 수정하기 위한 시스템을 개시한다.

본 명세서에 기술된 요지(subject matter)의 특정 실시예들은 다음의 이점 들중 하나 이상을 실현하도록 구현될 수 있다. 신경망의 연산들, 예를 들어 입력으로부터 추론을 생성하거나 신경망을 트레이닝시키는 연산들은 노드들 및 지향 (directed) 에지들의 연산 그래프로서 표현(represent)될 수 있다. 시스템은 이 연산 그래프 표현을 처리하여 신경망의 연산들을 효율적으로 수행한다. 예시로서, 연산 그래프의 서브 그래프들은 신경망의 연산들을 수행하는데 필요한 전체 시간을 줄이기 위해, 각각의 서브 그래프에서 연산들을 수행하는 각각의 고유 디바이스에 할당될 수 있다. 연산 그래프의 상이한 서브 그래프들의 연산을 수행하는 고유 디바이스들 간의 통신은 송신 및 수신 노드를 각 서브 그래프에 삽입함으로써 효율적으로 처리될 수 있다. 실행될 때, 이들 송신 및 수신 노드들이 나타내는 연산은 고유 디바이스 쌍으로 하여금 자립적 방법으로 서로 통신할 수 있게 한다. 이것은 백엔드에서 통신을 조정하는 부담을 시프트시켜, 디바이스들이 서브 그래프들을 실행는 동안 이 계산 그래프 표현을 처리하는 시스템에게 하나 이상의 다른 프로세스를 수행할 기회를 제공할 수 있다. 송신 및 수신 노드는 하나의 다비이스상에서 트레이닝되고 나중에 다른 디바이스에 할당되도록 신경망 또는 그러한 서브 그래프들에 의해 표현된 신경망의 일부분을 허용하는 방식으로 서브 그래프들을 구획화하는 역할을 한다. 적어도 이러한 이유로, 송신 및 수신 노드 쌍을 포함하도록 연산 그래프를 수정하는 것은 분산 방식으로 연산 그래프를 처리하는데 필요한 네트워크 통신량과 시간 비용을 줄이는데 도움이 될 수 있다.

일 양태에서, 본 명세서에 기술된 주제는, 연산 그래프를 나타내는 데이터를 획득하는 단계와, 상기 연산 그래프는 복수의 노드 및 지향 에지를 포함하고, 각 노드는 각각의 연산을 나타내며, 각 지향 에지는 각각의 제1 노드를 제1 노드 각각에 의해 표현된 연산의 출력을 입력으로서 수신하는 연산을 나타내는 각각의 제2 노드에 연결하고, 복수의 디바이스에 대한 상기 연산 그래프의 할당을 식별하는 데이터를 획득하는 단계와, 상기 할당은 연산 그래프의 각 노드를 상기 복수의 디바이스의 각각의 디바이스에 할당하고, 상기 연산 그래프에서 하나 이상의 교차 디바이스 지향 에지를 식별하는 단계와, 각 교차 디바이스 지향 에지는 각각의 제1 노드를 상기 할당 내의 각각의 제1 노드와 상이한 디바이스에 할당된 각각의 제2 노드에 연결하는 지향 에지이며, 각 교차 디바이스 지향에 대해, 상기 연산 그래프에서 각각의 제1 노드와 각각의 제2 노드 사이에 송신 노드를 삽입하는 단계와, 상기 연산 그래프에서 상기 송신 노드와 상기 각각의 제2 노드 사이에 수신 노드를 삽입하는 단계와, 상기 송신 노드를 각각의 제1 노드와 동일한 디바이스에 할당하고 상기 수신 노드를 각각의 제2 노드와 동일한 디바이스에 할당하도록 상기 할당을 수정하는 단계와, 그리고 상기 수정된 할당에 따라 연산 그래프의 노드들에 의해 표현된 연산을 복수의 디바이스에 할당하는 단계의 동작들을 포함할 수 있는 방법으로 구현될 수 있다. 이 방법은 컴퓨터 구현 방법일 수 있다.

일 구현 예에서, 상기 방법은 모델 입력을 수신하는 단계 및 상기 수정된 연산 그래프에 의해 표현된 연산들에 따라 모델 입력을 처리하는 단계를 더 포함한다.

다른 양태에서, 본 명세서에 설명된 요지는 제1양태의 방법에 의해 획득된 수정된 연산 그래프에 대응하는 기계 학습 모델을 제공하는 단계 및 상기 기계 학습 모델을 사용하여 모델 입력을 처리하는 단계의 동작들을 포함할 수 있는 방법에서 구현될 수 있다. 상기 처리하는 단계는 기계 학습 모델을 트레이닝하는 단계를구성할 수 있거나 모델 입력으로부터 추론을 생성하는 단계를 구성할 수 있다.

다른 양태에서, 본 명세서에 기술된 요지는 제1 양태의 방법에 의해 획득된 수정된 연산 그래프를 복수의 디바이스에 의해 실행하는 동작(actions)들을 포함할 수 있는 방법으로 구현될 수 있다.

이러한 양태들에서, 연산 그래프는 예를 들어 신경망과 같은 기계 학습 모델의 표현일 수 있다.

또 다른 양태에서, 본 명세서에 기술된 요지는 복수의 디바이스를 사용하여 연산 그래프에 따라 모델 입력을 처리하는 단계를 포함할 수 있는 방법으로 구현될 수 있으며, 상기 연산 그래프는 복수의 노드 및 지향 에지를 포함하고, 각 노드는 각각의 연산을 나타내며, 각 지향 에지는 각각의 제1 노드를 제1 노드 각각에 의해 표현된 연산의 출력을 입력으로서 수신하는 연산을 나타내는 각각의 제2 노드에 연결하고, 상기 방법은 복수의 디바이스의 제1 디바이스에 대해, 상기 제1 디바이스에 할당된 연산 그래프의 서브 그래프를 나타내는 데이터를 수신하는 단계와, 상기 서브 그래프는 연산 그래프로부터 복수의 노드 및 지향 에지들을 포함하고, 그리고 상기 서브 그래프의 노드들로 표현되는 연산을 수행하는 단계를 포함하고, 상기 서브 그래프의 노드들로 표현되는 연산을 수행하는 단계는, (1) 제1출력을 생성하도록 서브 그래프 내의 각각의 제1 노드에 의해 표현되는 연산을 수행하는 단계와, 상기 제1 노드가 지향 노드에 의해 서브 그래프 내의 송신 노드에 연결된 것으로 결정하는 단계와, 그리고 상기 각각의 제1 노드에 의해 표현된 상기 연산의 제1 출력을 상기 복수의 디바이스의 다른 디바이스로 송신하도록 상기 송신 노드에 의해 표현된 연산을 수행하는 단계, 및/또는 (2) 상기 복수의 디바이스 내의 다른 디바이스에 할당된 송신 노드에 의해 표현된 연산으로부터 제2출력을 획득하도록 상기 서브 그래프에서 수신 노드에 의해 표현된 연산을 수행하는 단계와, 상기 수신 노드가 지향 에지에 의해 상기 서브 그래프 내의 제3 노드에 연결된 것으로 결정하는 단계와, 그리고 상기 획득된 제2 출력을 입력으로 사용하여 상기 제3 노드에 의해 표현된 연산을 수행하는 단계를 포함한다. 이 양태에서, 연산 그래프는 본 발명의 다른 양태의 방법에 의해 획득될 수 있다.

이러한 양태 및 다른 양태의 다른 구현 예는 (비 일시적 저장 디바이스들일 수도 있고 아닐 수도 있는) 컴퓨터 저장 디바이스들에 인코딩된, 방법의 동작들을 수행하도록 구성된 대응하는 시스템, 디바이스 및 컴퓨터 프로그램을 포함한다. 하나 이상의 컴퓨터로 이루어진 시스템은 소프트웨어, 펌웨어, 하드웨어 또는 이들이 조합된 시스템에 설치되어 동작 중에 시스템이 동작들을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램은 데이터 처리 장치에 의해 실행될 때 장치로 하여금 동작들을 수행하게 하는 명령을 갖도록 구성될 수 있다.

이러한 다른 버전들은 각각 다음 기능들 중 하나 이상을 선택적으로 포함할 수 있다. 예를 들어, 송신 노드는 (i) 입력으로서 각각의 제1 노드에 의해 표현된 연산의 출력을 수신하고, (ii) 출력으로서 각각의 제1 노드에 의해 표현된 연산의 출력을 수신 노드로 제공하며, 수신 노드는 (i) 입력으로서 상기 송신 노드에 의해 표현된 연산의 출력을 수신하고, (ii) 출력으로서 상기 송신 노드에 의해 표현된 연산의 출력을 각각의 제2 노드로 제공하는 연산을 나타낼 수 있다. 일부 구현예에서, 수신 노드에 의해 표현된 연산은 (iii) 출력으로서 상기 송신 노드에 의해 표현된 연산의 출력에 대한 요청을 송신 노드로 추가로 제공하고, 송신 노드에 의해 표현된 연산은 (ii) 수신 노드로부터 수신된 하나 이상의 요청에 응답하여 출력으로서 상기 각각의 제1 노드에 의해 표현된 연산의 출력을 수신 노드로 추가로 제공할 수 있다. 일부 예들에서, 각각의 제1 노드에 의해 표현된 연산의 출력은 텐서를 포함할 수 있다.

일부 구현예에서, 복수의 디바이스에 대한 연산 그래프의 할당을 식별하는 데이터를 획득하는 단계는 하나 이상의 머신에 포함된 하드웨어 자원들에 대한 연산 그래프의 할당을 식별하는 데이터를 획득하는 단계를 포함할 수 있다. 이러한 구현예들에서, 한 쌍의 송신 및 수신 노드 내의 각 노드는, 예를 들어, 입력으로서, 한 쌍의 송신 및 수신 노드가 할당된 각 하드웨어 자원 및 머신에 대응하는 프로토콜에 따라 통신되는 한 쌍의 다른 노드에 의해 표현된 연산의 출력을 수신하는 연산을 나타낼 수 있다.

일부 예들에서, 연산 그래프에서 각각의 제1 노드와 각각의 제2 노드 사이에 송신 노드를 삽입하는 단계는, 각 교차 디바이스 지향 에지에 대해, 송신 노드와 각각의 제1 노드사이에 지향 에지를 삽입하는 단계를 더 포함할 수 있다. 게다가, 연산 그래프에서 송신 노드와 각각의 제2 노드 사이에 수신 노드를 삽입하는 단계는 각 교차 디바이스 지향 에지에 대해, 수신 노드와 각각의 제2 노드 사이에 지향 에지를 삽입하는 단계를 더 포함할 수 있다.

일부 구현예에서, 복수의 디바이스에 의해 연산 그래프로 표현된 연산들의 실행 중에, 각 송신 및 수신 노드 쌍에 의해 표현되는 연산들은 복수의 디바이스들이 복수의 디바이스 내의 디바이스들에 대한 연산 그래프에서 다른 노드들에 의해 표현된 연산들의 입력 및 출력을 독립적으로 전달(communicate)하도록 허용할 수 있다. 일부 예들에서, 데이터는 송신 및 수신 노드들의 쌍에서 각각의 노드에 의해 표현되는 연산들 사이에서 독립적으로 교환될 수 있다.

본 명세서의 요지의 하나 이상의 실시예의 세부 사항은 첨부된 도면 및 이하의 설명에서 설명된다. 요지의 다른 특징, 양태 및 장점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다. 양태들 및 구현들이 결합될 수 있고, 일 양태 또는 구현의 문맥에서 설명된 특징들이 다른 양태 또는 구현의 문맥에서 구현될 수 있음을 이해할 것이다.

도 1a는 연산 그래프로 표현된 신경망에 대한 연산들을 분배하기 위한 예시적인 연산 그래프 시스템을 도시한다.
도 1b는 시스템에서 연산 그래프로 표현된 신경망에 대한 연산들을 분배하기 위한 예시적인 프레임 워크에 대한 개념도이다.
도 2a 내지 도 2c는 예시적인 연산 그래프이다.
도 3은 연산 그래프에 포함된 예시적인 송신 및 수신 노드들의 실행을 통해 제공되는 예시적인 프로세스의 흐름도이다.
도 4a 및 도 4b는 디바이스들에 할당된 연산 그래프의 예시적인 부분들이다.
도 5는 연산 그래프를 수정하기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.

본 명세서는 일반적으로 분산 방식으로 연산 그래프(computational graphs)로 표현되는 연산들을 수행하는 연산 그래프 시스템을 기술한다. 특히, 본 명세서는 디바이스들간에 원활한(seamless) 통신을 가능하게 하는 방식으로 연산 그래프를 수정하는 기법(techniques)들을 기술한다. 이러한 기법들은 각 연산 그래프가 신속하고 효과적인 방식으로 다수의 디바이스에 의해 일괄적(collectively)으로 실행되도록 하는데 도움이 될 수 있다.

연산 그래프는 지향 에지들(directed edges)로 연결된 노드들을 포함한다. 연산 그래프 내의 각 노드는 연산(operation, 동작)을 나타낸다. 노드로의 인입 에지(incoming edge)는 노드로의 입력의 흐름, 즉 노드로 표현된 연산에 대한 입력을 나타낸다. 노드로부터의 인출 에지(outgoing sdge)는 다른 노드로 표현된 연산에 대한 입력으로 사용될 노드에 의해 표현된 연산의 출력 흐름을 나타낸다. 따라서, 그래프의 제1 노드와 그래프의 제2 노드를 연결하는 지향 에지는 제1 노드로 표현된 연산에 의해 생성된 출력이 제2 노드로 표현된 연산의 입력으로 사용됨을 나타낸다.

일반적으로, 연산 그래프에서 지향 에지들을 따라 흐르는 입력 및 출력들은 텐서들(tensors)이다. 텐서는 어레이의 다차원에 대응하는 특정 순서를 갖는, 수치값(numeric values) 또는 다른 값들(예컨대, 문자열)의 다차원 어레이이다. 예를 들어, 스칼라 값은 0차 텐서이고, 수치값의 벡터는 1차 텐서이며, 행렬은 2차 텐서이다.

일부 구현예에서, 연산 그래프에 표현된 연산은 신경망 연산 또는 다른 종류의 기계 학습 모델을 위한 연산이다. 신경망은 수신 입력에 대한 출력을 예측하기 위해 하나 이상의 계층의 비선형 유닛을 사용하는 기계 학습 모델이다. 일부 신경망은 출력 계층 이외에 하나 이상의 히든(hidden) 계층을 포함하는 심층(deep) 신경망이다. 각 히든 계층의 출력은 네트워크의 다른 계층, 즉 다른 히든 계층, 출력 계층 또는 둘 모두에 대한 입력으로 사용된다. 네트워크의 일부 계층들은 파라미터들의 각 세트의 현재 값에 따라 수신 입력으로부터 출력을 생성하는 반면, 네트워크의 다른 계층들은 파라미터들을 갖지 않을 수 있다.

예를 들어, 연산 그래프로 표현된 연산은 신경망이 추론을 계산하는데 필요한, 즉 입력에 대한 신경망 출력을 생성하기 위해 신경망의 계층들을 통한 입력을 처리하는데 필요한 연산들일 수 있다. 또 다른 예로서, 연산 그래프로 표현된 연산들은 신경망의 파라미터들의 값을 조정하기 위해, 예를 들어 파라미터들의 초기값으로부터 파라미터들의 트레이닝된 값을 결정하기 위해 신경망 트레이닝 절차를 수행함으로써 신경망을 트레이닝하는데 필요한 연산들일 수 있다. 일부 경우, 예를 들어, 신경망의 트레이닝 동안, 연산 그래프로 표현된 연산들은 신경망의 다수의 레플리카(replicas)에 의해 수행되는 연산을 포함할 수 있다.

예시로서, 이전 계층으로부터의 입력을 수신하는 신경망 계층은 파라미터 행렬을 사용하여 파라미터 행렬과 입력 사이의 행렬 곱셈을 수행할 수 있다. 일부 경우, 행렬 곱셈은 연산 그래프에서 다수의 노드로 나타낼 수 있다. 예를 들어, 행렬 곱셈은 다중 곱셈과 덧셈 연산으로 나눌 수 있으며, 각 연산은 연산 그래프에서 상이한 노드로 나타낼 수 있다. 각 노드에 의해 표현되는 연산은 지향 에지에서 후속 노드로 흐르는 각각의 출력을 생성할 수 있다. 최종 노드에 의해 표현된 연산이 행렬 곱셈의 결과를 생성한 후 그 결과는 지향 에지에서 다른 노드로 흐른다. 상기 결과는 행렬 곱셈을 수행하는 신경망 계층의 출력과 동등하다.

일부 다른 경우에서, 행렬 곱셈은 그래프에서 하나의 노드로 표현된다. 노드에 의해 표현되는 연산들은 입력으로서 제1 지향 에지상의 입력 텐서 및 제2 지향 에지상의 가중치 텐서, 예를 들어 파라미터 행렬을 수신할 수 있다. 노드는 입력 및 가중치 텐서들의 행렬 곱셈을 처리하여(예컨대, 수행하여) 제3 지향 에지상에 상기 신경망 계층의 출력과 동등한 출력 텐서를 출력할 수 있다.

연산 그래프에서 노드로 표현될 수 있는 다른 신경망 연산은 감산, 제산 및 그래디언트(gradient) 계산과 같은 다른 수학 연산과, 연결(concatenate), 스플라이스(splice), 스플릿(split) 또는 랭크(rank)와 같은 어레이 연산과, 그리고 소프트맥스(SoftMax), 시그모이드(Sigmoid), 정류 선형 유닛(ReLU) 또는 컨볼루션 (convolutions)과 같은 신경망 빌딩 블록 연산들을 포함한다.

신경망을 연산 그래프로 나타내면 신경망을 효율적으로 구현할 수 있는 유연하고 세부적인 방법을 제공하는데, 특히 신경망에 대한 연산들이 하드웨어 프로필이 다른 다수의 디바이스에 분산되어 있는 경우 더욱 그렇다.

도 1A는 연산 그래프로 표현된 신경망에 대한 연산들을 분배하기 위한 예시적인 연산 그래프 시스템(100)을 도시한다. 시스템(100)은 후술하는 시스템, 구성 요소 및 기술이 구현될 수 있는 하나 이상의 위치에서 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로서 구현되는 시스템의 예이다.

클라이언트(102)의 사용자는 신경망을 나타내는 연산 그래프상에서 수행될 연산들을 요청할 수 있다. 클라이언트(102)는 컴퓨터상에서 실행되는 애플리케이션 일 수 있다.

요청의 일부로서, 클라이언트(102)는 연산 그래프를 식별하는 데이터를 시스템(100)으로 제공하고 연산 그래프에서 수행될 연산들의 타입을 특정한다.

예를 들어, 요청은 특정 신경망에 대한 추론을 나타내는 연산 그래프를 식별할 수 있으며 추론(inference)이 수행되어야 하는 입력을 식별할 수 있다.

다른 예로서, 요청은 특정 신경망에 대한 트레이닝 절차를 나타내는 연산 그래프를 식별할 수 있고, 트레이닝이 수행되어야 하는 트레이닝 데이터와 같은 입력을 식별할 수 있다. 이 예에서, 트레이닝 절차를 나타내는 연산 그래프를 처리하기 위한 요청을 수신하면, 시스템(100)은 예를 들어 종래의 역 전파(backpropagation) 또는 다른 신경망 트레이닝 기술을 사용하여 연산 그래프의 하나 이상의 에지에 대한 파라미터들의 수정된 값을 결정할 수 있다. 시스템(100)은 수정된 파라미터를 디바이스의 메모리에 저장할 수 있고, 실행기(106)는 수정된 가중치의 어드레스를 시스템(100)에서 검색 및 저장할 수 있다. 수정된 가중치를 요구하는 추론, 트레이닝 또는 다른 연산들에 대한 클라이언트(102)로부터의 추가 요청에 따라, 시스템(100)은 어드레스를 사용하여 수정된 가중치를 액세스할 수 있다.

일부의 경우, 요청은 요청에 응답하여 전송되어야 하는 응답을 지정할 수 있다. 예를 들어, 신경망 트레이닝 요청의 경우, 클라이언트(102)는 요청된 신경망 트레이닝 연산이 완료되었다는 표시 및 선택적으로 트레이닝된 신경망 파라미터들의 값 또는 상기 트레이닝된 값이 클라이언트(102)에 의해 액세스될 수 있는 메모리 위치의 표시를 요청할 수 있다. 다른 예로서, 신경망 추론 요청에 대해, 클라이언트(102)는 연산 그래프의 하나 이상의 특정 노드로부터 추론 연산을 나타내는 출력 값들을 요청할 수 있다.

시스템(100)은 다수의 디바이스(116-122)에서 연산 그래프로 표현된 연산들을 분할(partitioning)함으로써 특정 출력을 생성하기 위한 연산들을 수행한다. 시스템(100)은 LAN(local area network) 또는 WAN(wide area network)과 같은 데이터 통신 네트워크(114)를 통해 다수의 디바이스(116-122)에 연산들을 분할한다. 디바이스들(116-122)은 연산들을 수행하여, 적용 가능한 경우, 각각의 출력 또는 표시를 시스템(100)로 리턴하고, 시스템(100)은 요청된 출력 또는 표시를 클라이언트 (102)로 리턴할 수 있다.

신경망 연산들을 수행하는 임의의 디바이스들, 예를 들어 디바이스들(116-122)은 명령들 및 데이터를 저장하기 위한 메모리, 예를 들어 랜덤 액세스 메모리(RAM) 및 저장된 명령들을 실행하기 위한 프로세서를 포함할 수 있다. 일반적으로 각 디바이스는 다른 디바이스들과 독립적인 연산들을 수행하는 하드웨어 리소스이다. 예를 들어, 각 디바이스는 자체 처리 장치(unit)을 가질 수 있다. 디바이스들은 그래픽 처리 장치(GPUs) 또는 중앙 처리장치(CPUs)일 수 있다. 예시로서, 하나의 머신은 하나 이상의 디바이스, 예를 들어, 다수의 CPU 및 GPU를 호스팅할 수 있다. 그러한 디바이스들 및 머신들의 예는 도 1B에서 볼 수 있다.

도 1B는 시스템(100)에서 연산 그래프로 표현된 신경망들에 대한 연산을 분배하기 위한 예시적인 프레임 워크에 대한 개념도이다. 도 1B를 참조하면, 머신의 예는 컴퓨팅 디바이스(126), 퍼스널 컴퓨터(128), 모바일 디바이스(130) 및 서버(132)를 포함할 수 있다. 각각의 머신은 예를 들어 GPU(116) 및 CPU(118)와 같은 하나 이상의 디바이스를 포함할 수 있다.

각 디바이스는 또한 각각의 연산 능력을 가질 수 있다. 즉, 디바이스들은 서로 다른 양의 메모리, 처리 속도 또는 기타 아키텍처 특성을 가질 수 있다. 따라서 일부 디바이스는 다른 디바이스에서 수행할 수 없는 연산을 수행할 수 있다. 예를 들어, 일부 연산은 특정 디바이스만 갖는 일정량의 메모리를 필요로 하거나, 일부 디바이스는 특정 타입의 연산, 예를 들어 추론 연산을 수행하도록 구성된다.

다시 도 1A를 참조하면, 시스템(100) 내의 세션 관리기(104)는 연산 그래프의 연산들이 수행되는 동안 세션을 시작하라는 요청을 클라이언트(102)로부터 수신할 수 있다. 세션 관리기(104)는 연산 그래프의 연산들을 수행할 수 있는 디바이스 세트, 예컨대 디바이스(116-122)를 관리하고, 상기 연산들을 수행하기 위해 이용할 수 있는 디바이스 세트를 플레이서(placer)(108)로 제공할 수 있다.

플레이서(108)는 연산 그래프에서 수행될 각각의 연산에 대해, 연산을 수행하는 각각의 타겟 디바이스(예를 들어, 디바이스(116)) 및 일부 구현예에서, 상기 각각의 타겟 디바이스가 연산을 수행하기 위한 시간을 결정한다. 일부 연산은 병렬로 수행될 수 있는 반면, 다른 연산들은 완료될 연산 그래프의 이전 연산들, 예를 들어 다른 연산들이 이전 연산들의 출력을 입력으로서 처리하는 것을 요구한다.

디바이스들이 플레이서(108)에 의해 할당된 연산들을 수행하여 출력들을 생성한 후에, 실행기(106)는 출력을 검색할 수 있다. 실행기(106)는 요청에 대한 적절한 응답, 예를 들어 출력 또는 처리가 완료되었다는 표시를 생성할 수 있다. 그런 다음, 실행기(106)는 응답을 클라이언트(102)로 리턴할 수 있다.

세션 관리기(104)는 또한 연산 그래프에서 실행될 연산들의 세트를 실행기 (106)로 제공한다. 실행기(106)는 연산들의 그래프 실행에 관련된 디바이스들(116-122)로부터 실행시간(runtime) 통계를 주기적으로 검색한다. 실행기(106)는 실행시간 통계를 플레이서(108)로 제공하고, 플레이서는 추가 연산들의 배치 및 스케줄링을 다시 최적화(re-optimize)할 수 있다.

동작시, 시스템(100)은 연산 그래프를 처리하기 위해 클라이언트(102)로부터 요청을 수신할 수 있다. 예를 들어, 요청은 특정 입력에서 연산 그래프로 표시된 신경망 추론을 수행하기 위한 요청, 지정된 트레이닝 데이터 세트에서 연산 그래프로 표시된 신경망 트레이닝 연산을 수행하기 위한 요청 또는 전술한 바와같이 연산 그래프로 표시된 다른 신경망 연산을 수행하기 위한 요청일 수 있다.

요청을 수신하면, 시스템(100)은 연산 그래프를 나타내는 데이터를 얻을 수 있다. 일부 경우, 데이터는 클라이언트로부터 요청과 함께 전송된다. 다른 경우에, 요청은 연산 그래프를 식별하고, 시스템(100)은 식별된 그래프를 나타내는 데이터를 메모리로부터 검색한다. 예시로서, 그래프를 나타내는 데이터는 그래프 내의 노드들의 어레이일 수 있다. 각 노드는 연산 타입, 이름 및 노드에 대한 인입 및 인출 에지들의 리스트를 포함할 수 있다.

시스템(100)은 요청된 연산을 수행하기 위한 다수의 이용 가능한 디바이스를 식별할 수 있다. 디바이스는 만약 해당 디바이스가 현재 다른 연산들을 수행 중이며 추가 연산이 할당될 수 없거나 또는 그래프 처리 연산을 수행할 수 없으면 사용 중(busy)인 것으로 간주할 수 있다. 디바이스는 만약 해당 디바이스가 추가 연산을 할당받을 수 있으면, 예를 들어 추가 연산이 디바이스에 의한 연산을 위해 큐잉 (queued)될 수 있으면 사용 가능한 것으로 간주할 수 있다.

시스템(100)은 연산 그래프를 다수의 서브 그래프로 분할(partition)할 수 있다. 각 서브 그래프는 연산 그래프에 있는 하나 이상의 노드를 포함한다. 시스템(100)은 일부 예에서, 서로 인접(adjacent)하지만 상이한 디바이스에게 할당되는 연산 그래프 내의 노드들의 쌍을 분리함으로써 서브 그래프를 획득할 수 있다.

시스템(100)은 각 서브 그래프에 대해 서브 그래프에서 하나 이상의 노드로 표현된 연산들을 이용 가능한 디바이스 각각에 할당할 수 있다. 일부 구현예에서, 시스템(100)은 서브 그래프에서 노드로 표현된 연산들을 수행하는데 필요한 연산 능력을 갖는 디바이스에 각 서브 그래프를 할당할 수 있다. 일부 구현예에서, 클라이언트로부터의 요청은 특정 노드에 대한 연산을 수행하기 위해 사용자에 의해 지정된 특정 타입의 디바이스를 식별하는 데이터를 포함한다.

따라서, 시스템(100)은 연산 그래프의 각 노드를 다수의 디바이스의 각각의 디바이스에 할당하는, 다수의 디바이스에 대한 연산 그래프의 할당을 생성한다. 각 서브 그래프는 전술한 바와 같이 동일한 디바이스에 할당될 수 있는 연산 그래프의 하나 이상의 노드들의 그룹을 포함한다. 예시적인 서브 그래프 대 디바이스 맵핑은도 1B에서 볼 수 있다. 이 예에서, 연산 그래프(140)의 예시적인 서브 그래프(140_A 및 140_B)는 각각 GPU(116) 및 CPU(118)에 할당될 수 있다. GPU(116) 및 CPU(118)는 머신들(126-132) 중 상이한 또는 동일한 머신에 상주할 수 있다. 연산 중에, GPU (116)와 CPU(118)는 시스템(100)이 그들에게 할당한 서브 그래프에 포함된 노드들에 의해 표현되는 연산을 수행할 수 있다.

시스템(100)은 디바이스들로 하여금 디바이스들에 각각 할당된 서브 그래프들에 포함된 노드들의 연산을 수행하도록 할 수 있다. 일부 구현예에서, 시스템 (100)은 각각의 디바이스에 할당된 서브 그래프에 포함된 노드들의 연산을 시작하기 위한 요청을 각 디바이스로 전송할 수 있다. 시스템(100)으로부터 그러한 요청을 수신하는 것에 응답하여, 각 디바이스는 디바이스에 할당된 서브 그래프에 포함된 노드들의 연산을 수행하도록 진행할 수 있다.

연산 그래프에서 노드들과 노드 그룹들 사이에 다양한 종속성이 존재할 수 있다고 가정하면, 디바이스들이 연산 그래프를 일괄적으로 실행할 수 있도록 하기 위해 다양한 디바이스들 간의 통신이 조정될 필요가 있다. 예를 들어, 제1 디바이스에서 실행되는 연산을 나타내는 노드는 원격으로 위치된 디바이스인 제2 디바이스에서 실행되는 연산을 나타내는 다른 노드의 출력을 입력으로서 수신할 수 있다. 이 예에서, 제2 디바이스로부터 제1 디바이스로의 다른 노드에 의해 표현된 연산의 출력에 대한 통신은 연산 그래프의 적절한 및 적시의 실행을 보장하기 위해 효과적인 방식으로 조정될 필요가 있을 수 있다.

일부 예에서, 디바이스들은 필요한 경우 입력 및 출력의 교환을 서로 조정할 수 있다. 이러한 예에서, 디바이스 들간의 통신은 시스템(100)과 독립적으로 발생할 수 있다. 즉, 시스템(100)은 각각의 서브 그래프의 연산들을 실행하라는 요청을 각 디바이스에 전송할 수 있고, 상기 요청에 응답하여, 각 디바이스는 시스템(100)의 요청에 응답하여 그의 각각의 서브 그래프의 연산들을 실행하도록 진행할 수 있는데, 이는 시스템(100)에 의한 추가 개입없이 다른 다바이스들과의 통신을 조정하는 것을 포함할 수 있다.

일부 구현예에서, 디바이스가 시스템(100)과 독립적으로 통신할 수 있게 하기 위해, 시스템(100)은 노드들 사이의 통신 연산을 나타내는 추가 노드들을 포함하도록 연산 그래프를 수정한다. 특히, 디바이스의 각각의 서브 그래프는, 디바이스에 의해 실행될 때, 디바이스가 상대방 연산을 실행하는 다른 디바이스와 원활하게 통신할 수 있게 하는 연산을 나타내는 노드를 포함할 수 있다. 수신된 모델 입력은 상기 수정된 연산 그래프에 의해 표현된 연산들에 따라 처리될 수 있다.

특히, 시스템(100)은 "송신" 및 "수신"노드를 연산 그래프에 삽입할 수 있다. 각 송신 노드는 텐서(tensor)와 같은 데이터가 송신 노드의 것과 다른 디바이스에 할당된 수신 노드로 중계되는 연산을 나타낸다. 시스템(100)은 그래프에서 임의의 교차 디바이스 지향 에지들(cross-device directed edges)를 식별함으로써 송신 및 수신 노드 쌍을 삽입할 그래프 내의 위치들을 결정할 수 있다. 교차 디바이스 지향 에지는 두 개의 서로 다른 디바이스에 할당될 연산 그래프 내의 노드들을 연결하는 연산 그래프 내의 지향 에지들이다. 시스템(100)은 연산 그래프의 할당을 결정하는 동안 또는 결정한 후에 그러한 교차 디바이스 지향 에지를 식별할 수 있다. 그래프에 포함된 각 교차 디바이스 지향 에지를 식별하면 시스템(100)은 각 교차 디바이스 지향 에지를 분할(splitting)하여, 교차 디바이스 지향 에지 대신에 한 쌍의 송신 및 수신 노드를 삽입함으로써 연산 그래프를 수정할 수 있다. 이러한 수정 프로세스는 도 2A-C를 참조하여 이하에서 더 설명된다.

도 2A-C는 예시적인 연산 그래프를 도시한다. 예로써, 연산 그래프 시스템은(예를 들어, 도 1A의 시스템(100))은 클라이언트로부터 요청을 수신하여, 입력들의 세트가 주어지면, 연산 그래프(200A)를 사용하여 추론을 계산할 수 있다. 연산 그래프(200A)는 예시적인 소스(201)로부터 입력을 수신하여, 예시적인 싱크(sink) (215)로 출력을 제공할 수 있다. 예시적인 소스(201) 및 싱크(215)는 예를 들어, 연산 그래프의 하나 이상의 다른 노드일 수 있다.

시스템은 예를 들어 3개의 상이한 디바이스에 연산 그래프(200A)를 할당하는 것을 결정할 수 있다. 이러한 결정을 하기 위해, 시스템은 연산 그래프(200A)를 분석하여, 서브 그래프들로 분할될 수 있고 이용 가능 디바이스들에 할당될 수 있는 하나 이상의 노드를 식별할 수 있다. 예를 들어, 시스템은 노드들(204, 212 및 214)에 의해 형성된 제1 체인은 제1 디바이스에 할당하고, 노드들(206, 208 및 210)에 의해 형성된 제2 체인은 제2 디바이스에 할당하며, 노드(202)는 제3 디바이스에 할당하는 것을 결정할 수 있다. 노드들의 다른 가능한 체인들이 가능하지만, 시스템은 서브 그래프의 수를 최소화하는 체인들을 선택할 수 있다.

이러한 특정 할당 하에서, 시스템은 지향 에지(220A 및 230A)를 교차 디바이스 지향 에지로 식별할 수 있다. 즉, 시스템은 지향 에지(220A 및 230A)가 각각 시스템이 상이한 디바이스에 할당하기로 결정한 노드들을 각각 연결한다는 것을 인식할 수 있다. 예를 들어, 지향 에지(220A)는 노드(202)를 시스템이 제3 및 제2 디바이스에 각각 할당하도록 결정한 노드(208)에 연결함을 알 수 있다. 유사하게, 지향 에지(230A)는 제2 디바이스에 대응하는 노드(208)로부터 제1 디바이스에 대응하는 노드(212)까지 연장됨으로써 디바이스 경계들을 교차한다.

연산 그래프(200A)에 포함된 각 교차 디바이스 지향 에지를 식별하는 것에 응답하여, 시스템은 수정된 연산 그래프(예를 들어, 도 2B에 도시된 수정된 연산 그래프(200B))를 생성하기 위해 연산 그래프(200A)를 수정하기 시작할 수 있다. 특히, 시스템은 지향 에지(220A) 대신에 노드들(202 및 208) 사이에 한 쌍의 송신 및 수신 노드를 삽입할 수 있다. 유사한 방식으로, 시스템은 또한 지향 에지(230A) 대신에 노드들(208 및 212) 사이에 한 쌍의 송신 및 수신 노드를 삽입할 수 있다. 지행 에지들은 각 송신 노드 또는 수신 노드와 이러한 송신 노드 또는 수신 노드에 인접한 각 노드 사이에도 삽입되는 것을 볼 수 있다.

도 2B를 참조하면, 시스템에 의해 수정된 연산 그래프(200A)의 버전을 나타내는 수정된 연산 그래프(200B)가 2쌍의 송신 및 수신 노드를 포함함을 알 수 있다. 구체적으로, 제1 송신 노드(S₁)는 노드(202)와 노드(208) 사이에 삽입되고, 대응하는 제1 수신 노드(R₁)는 제1 송신 노드(S₁)와 노드(208) 사이에 삽입된다. 이러한 삽입에 의해, 시스템은 노드(202)(즉, 제3 디바이스)와 동일한 디바이스에 제1 송신 노드(S₁)를 할당하고, 노드(208)(즉, 제2 디바이스)와 동일한 디바이스에 제1 수신 노드(R₁)를 할당한다. 양방향 브리지(bridge)(220B)는 제1 송신 노드(S₁)를 제1 수신 노드(R₁)에 연결한다. 브리지(220B)는 제1 송신 노드(S₁)와 제1 수신 노드(R₁) 사이의 통신 채널을 나타내는 것으로 볼 수 있다.

실행될 때, 제1 송신 노드(S₁) 및 제1 수신 노드(R₁)로 표현된 연산들은 제2 및 제3 디바이스가 미리 결정된 방식으로 통신할 수 있게 한다. 예를 들어, 이러한 연산들의 실행은 특정 통신 프로토콜을 준수하는 제2 및 제3 디바이스를 포함할 수 있다. 각각의 개별 디바이스에 의해 실행되는 각각의 디바이스 및/또는 노드의 어드레스 정보는 또한 이러한 연산들에 내장될 수 있다. 이러한 방식으로, 제1 송신 노드(S₁) 및 제1 수신 노드(R₁)는 각각의 서브 그래프가 만족스럽게 실행되도록 제2 및 제3 디바이스 사이에서 수행될 필요가 있는 모든 통신 프로세스를 캡슐화할 수 있다. 이 통신 프로세스들은 도 3 및 4A-B를 참조하여 이하에서 더 설명된다.

마찬가지로, 제2 송신 노드(S₂)는 노드(208)와 노드(212) 사이에 삽입되고, 대응하는 제2 수신 노드(R₂)는 제2 송신 노드(S₂)와 노드(212) 사이에 삽입된다. 이러한 삽입에 의해, 시스템은 제2 송신 노드(S₂)를 노드(208)(즉, 제2 디바이스)와 동일한 디바이스에 할당하고, 제2 수신 노드(R₂)를 노드(212)(즉, 제1 디바이스)와 동일한 디바이스에 할당한다. 양방향 브리지(230B)는 제2 송신 노드(S₂)를 제2 수신 노드(R²)에 연결하며, 제2 송신 노드(S₂)와 제2 수신 노드(R₂) 사이의 통신 채널을 나타내는 것으로 볼 수 있다. 제1 송신 노드(S₁) 및 제1 수신 노드(R₁)와 매우 유사하게, 제2 송신 노드(S₂) 및 제2 수신 노드(R₂)는 제2 및 제1 디바이스 사이에서 통신이 쉽게 조정될 수 있게 한다.

도 2C의 수정된 연산 그래프(200C)에 의해 입증된 바와 같이, 시스템(100)은 각 송신 노드가 하나의 개별 서브 그래프에 할당되고 각 수신 노드는 다른 개별 서브 그래프에 할당되도록 할당을 수정할 수 있다. 예를 들어, 제1 송신 노드(S₁)는 시스템이 제3 디바이스에 할당한 서브 그래프(240)의 일부로서 노드(202)와 함께 머신(130)에 포함된 제3 디바이스에 할당될 수 있다. 유사하게, 제1 수신 노드(R₁) 및 제2 송신 노드(S₂)는 시스템이 제2 디바이스에 할당한 서브 그래프(246)의 일부로서 노드(206, 208 및 210)와 함께 머신(126)에 포함된 제2 디바이스에 할당될 수 있다. 게다가, 제2 수신 노드(R₂)는 시스템이 제1 디바이스에 할당한 서브 그래프(242)의 일부로서 노드(204, 212 및 214)와 함께 머신(132)에 포함된 제1 디바이스에 할당될 수 있다.

실행시, 제1 송신 노드(S₁)에 의해 표현된 연산은 노드(202)의 출력을 제1 수신 노드(R₁)로 중계하는 것을 포함할 수 있다. 이러한 교환은 예를 들어 머신들 (130 및 126)이 액세스하는 네트워크(215)의 채널(220B)을 통해 발생할 수 있다. 네트워크(215)는 도 1과 관련하여 전술한 바와 같은 네트워크(114)와 유사할 수 있다. 이러한 통신을 수행하기 위해 이용되는 프로토콜은 제1쌍의 송신 및 수신 노드(S₁ 및 R₁)로 표현된 연산들에 반영될 수 있고, 서브 그래프(240 및 246)의 실행과 관련된 디바이스, 머신, 노드 및 네트워크의 하나 이상의 특성에 좌우될 수 있다. 제1 수신 노드(R₁)에 의해 표현된 연산은, 노드(208)에 대한 입력으로서 제1 송신 노드(S₁)로부터 수신하는 노드(202)에 의해 표현된 연산의 출력 전달(passing)을 포함할 수 있다.

유사하게, 제2 송신 노드(S2)에 의해 표현된 연산은 노드(208)에 의해 표현된 연산의 출력을 제2 수신 노드(R₂)로 중계하는 것을 포함할 수 있다. 이 교환은, 예를 들어, 머신(132 및 126)가 액세스할 수 있는 네트워크(215)의 채널(230B)을 통해 발생할 수 있다. 이러한 통신을 수행하기 위해 이용되는 프로토콜은 제2쌍의 송신 및 수신 노드(S₂ 및 R₂)로 표현된 연산에 반영될 수 있으며, 서브 그래프(246 및 242)의 실행과 관련된 디바이스, 머신, 노드 및 네트워크의 하나 이상의 특성에 의존할 수 있다. 제2 수신 노드(R₂)에 의해 표현된 연산은, 노드(212)에 대한 입력으로서 제2 송신 노드(S₂)로부터 수신하는 노드(208)에 의해 표현된 연산의 출력 전달을 포함할 수 있다.

도 3은 연산 그래프에 포함된 예시적인 송신 및 수신 노드들의 실행을 통해 제공되는 예시적인 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 프로세스(300)와 관련하여 설명된 연산 그래프들 및 연산들은 상술한 것들을 수행할 수 있다. 예를 들어, 프로세스(300)는 도 1과 관련하여 상술한 바와 같이 시스템(100)에 의해 제공되는 연산 그래프의 하나 이상의 부분의 실행을 통해 수행될 수 있다.

전술한 바와 같이, 송신 및 수신 노드로 표시되는 연산은 그들이 할당된 디바이스들 사이에서 양방향 통신을 생성할 수 있다. 송신 및 수신 노드(S₃및 R₃)로 각각 표현되는 연산들(330 및 340)은 이러한 양방향 통신(332 및 342)을 위해 사용할 통신 프로토콜의 결정을 초기에 포함할 수 있다. 송신 및 수신 노드의 쌍들에 의해 표현되는 연산들에 의해 이용되는 통신 프로토콜은 서브 그래프들의 실행과 관련된 디바이스, 머신, 노드 및 네트워크의 하나 이상의 특성들에 의존할 수 있다. 이러한 결정 프로세스는 도 4A-B를 참조하여 이하에서 더 설명된다.

그런 다음, 송신 노드(S3)에 의해 표현된 연산들(330)은 업 스트림 노드(310)의 연산의 출력이 제공되었는지 여부를 결정하도록 동작할 수 있다(310). 이러한 출력은 할당된 디바이스에 의해 노드(310) 및 송신 노드(S₃)를 포함하는 서브 그래프의 실행에 의해 생성된 텐서를 포함할 수 있다. 일단 제공되었으면, 송신 노드(S₃)에 의해 표현된 연산들(330)은 수신 노드(R₃)에 의해 표현된 연산들(340)에 대한 입력으로서 노드(310)에 의해 표현된 연산의 출력을 제공하도록 동작할 수 있으며, 이는 노드(320)에 의해 표현된 연산에 대한 입력과 동일한 것을 제공하도록 동작할 수 있다.

수신 노드(R₃)에 의해 표현된 연산들(340)의 실행은 하나 이상의 메시지를 대응하는 송신 노드(S₃)의 메시지로 전송하는 것을 포함할 수 있다(344). 이러한 메시지는 수신 노드(R₃)가 속하는 서브 그래프가, 대응하는 송신 노드(S₃)의 실행에 의해 입력을 수신할 준비가 되었음을 나타내는 표시로서 작용할 수 있다. 이러한 방식으로, 이들 메시지는 하나 이상의 업스트림 연산들에 의해 데이터 출력을 수신하라는 요청으로 볼 수 있다. 도 3의 예에서, 수신 노드(R₃)에 의해 표현된 연산들(340)은 노드(310)에 의해 표현된 연산의 출력을 포함하는 입력을 송신 노드(S₃)로부터 수신할 수 있다.

실행시, 송신 노드(S₃)에 의해 표현된 연산들(330)은 그러한 메시지들의 수신에 응답하여 데이터의 중계를 포함할 수 있다. 일부 예에서, 송신 노드(S₃)에 의해 표현된 연산들(330)은 그러한 메시지가 수신될 때까지 노드(310)에 의해 표현된 연산의 출력을 중계하는 역할을 하지 않을 수 있다(336). 이러한 방식으로, 디바이스들 사이의 정보의 흐름은 텐서들이 성공적으로 교환되는 것을 보장하기 위해 규제될 수 있다. 이러한 예들에서, 노드(310)에 의해 표현되는 연산의 출력은 송신 노드(S₃)를 실행하고 있는 디바이스에 국부적인 하나 이상의 메모리 영역에 캐싱되거나 저장될 수 있다(337). 일부 구현예에서, 연산의 이 출력은 디바이스가 속하는 머신의 다른 곳 또는 하나 이상의 네트워크가 액세스 가능한 디바이스들에 저장될 수 있다. 일단 수신 노드 메시지가 수신되면, 상기 연산의 저장된 출력은 수신 노드(R₃)와 관련된 당사자에게 전달될 수 있고(336 내지 338), 이후 메모리로부터 출력(flushed)되거나 그렇지 않으면 삭제될 수 있다. 송신 노드(S₃)에 의해 표현된 연산으로부터의 출력이 입력으로 수신되었다고 결정하면(346), 수신 노드(R₃)에 의해 표현된 연산은 다운 스트림 노드(320)에 의해 표현된 연산에 대한 입력과 같은 출력을 제공하도록 동작할 수 있다(348).

송신 노드(S₃) 및 수신 노드(R₃)에 의해 각각 표현되는 연산들(330 및 340)의 실행을 통해, 관련 서브 그래프들에 대응하는 신경망 또는 다른 기계 학습 모델의 부분들의 실행(편의상 관련 서브 그래프들의 실행이라고 칭함)에 필요한 모든 데이터 교환이 서브 그래프들을 실행하는 디바이스들에 의해 조정되고 수행될 수 있음을 알 수 있다. 연산들(330 및 340)을 실행하는 디바이스들의 쌍들로 제공된 통신 자율성은 통신을 조정하는 부담을 백 엔드로부터 벗어나게 할 수 있다. 이러한 방식으로, 시스템(100)과 같은 연산 그래프 시스템은 디바이스가 서브 그래프를 실행하는 동안에 하나 이상의 다른 프로세스를 수행할 수 있으며, 그러한 디바이스 들간의 통신을 능동적으로 조정하지는 않는다. 최소한 이런 이유로, 송신 및 수신 노드 쌍을 포함하도록 연산 그래프를 수정하는 것은 분산된 방식으로 연산 그래프를 처리하는데 필요한 네트워크 통신량과 시간 비용을 줄일 수 있다.

일부 구현예에서, 송신 및 수신 노드들(S₃ 및 R₃)에 의해 표현되는 연산들(330 및 340)은 주어진 디바이스의 모든 착신(inconing) 및/또는 발신(outgoing) 통신을 처리하는데 활용될 수 있다. 예를 들어, 수신 노드(R₃)에 의해 표현된 연산들(340)은 하나 이상의 다른 송신 노드들에 의해 표현된 연산들뿐만 아니라 송신 노드(S₃)에 의해 표현된 연산들(330)로부터 착신 통신을 수신하도록 동작할 수 있다. 유사하게, 수신 노드(S₃)에 의해 표현된 연산들(330)은 하나 이상의 다른 수신 노드들에 의해 표현된 연산들뿐만 아니라 수신 노드(R₃)에 의해 표현된 연산들(340)에 대한 입력으로서 발신 통신을 제공하도록 동작할 수 있다. 이러한 방식으로, 송신 및 수신 노드들(S₃ 및 R₃)에 의해 표현된 연산들(330 및 340)은 이들이 할당된 디바이스들로 허브와 유사한 기능들을 제공하도록 동작할 수 있다.

송신 및 수신 노드(S₃ 및 R₃)는, 그러한 서브 그래프들에 의해 표현된 신경망 또는 신경망의 일부가 하나의 디바이스에서 트레이닝되고, 나중에 다른 디바이스에 할당되는 것을 허용하는 방식으로 서브 그래프들을 분류(compartmentalize)하는 역할을 할 수 있다. 송수신 노드(S₃ 및 R₃)는 하나 이상의 서브 그래프에 의해 표현되는 신경망 또는 신경망의 일부가 새로운 방식으로 트레이닝되거나 테스트되도록 할 수 있다. 예를 들어, 수신 노드(R₃)에 의해 표현된 연산들(340)은 수신 노드(R₃)로부터 다운 스트림의 연산 그래프의 하나 이상의 부분들을 트레이닝하기 위해, 노드 (310)에 의해 표현된 연산에 의해 출력되는 텐서를 모의(simulates)하는 노드(320)에 의해 표현된 연산에 대한 입력을 제공할 수 있다. 일부 구현예에서, 도 1을 참조하여 상술한 클라이언트 디바이스(102)와 같은 클라이언트 디바이스는, 그러한 입력을 수신 노드(R₃)에 제공하기 위해 이용될 수 있다. 이러한 구현예에서, 클라이언트 디바이스는 클라이언트 디바이스에서 실행될 수 있는 연산들(330)에 대한 출력으로서 소정의 텐서를 제공하는 특수 노드(specialized node)에 의해 표현된 연산을 또한 실행할 수 있다. 이러한 특수 노드는 수신 노드(R₃) 및 노드(320)의 연산 그래프로에서 업스트림인 노드들에 대한 대체물로 볼 수 있다. 이러한 방식으로, 사용자들은 자신의 클라이언트 디바이스상에서 특수 노드에 의해 표현된 연산 및 연산들(330)을 실행함으로써 하나 이상의 다운스트림 그래프들에 의해 표현되는 신경망 또는 신경망의 일부분을 원격으로 테스트 및/또는 트레이닝 할 수 있다. 이러한 타입의 특수 노드에 의해 표현된 연산에 의한 텐서 출력은 예를 들어 정적, 사용자 정의, 랜덤 생성되거나, 또는 서브 그래프의 실행과 관련된 디바이스, 머신, 노드 및 네트워크의 하나 이상의 특성에 기초하여 결정될 수 있다.

일부 구현예에서, 송수신 노드(S₃ 및 R₃)와 관련하여 디바이스들 사이에 교환되는 데이터는 압축될 수 있다. 즉, 송신 노드(S₃)에 의해 표현된 연산들(330)은 노드(310)에 의해 표현된 연산의 출력에 대해 하나 이상의 압축 프로세스들을 수행하도록 동작할 수 있다. 유사하게, 수신 노드(R₃)에 의해 표현된 연산들(340)은 송신 노드(S₃)에 의해 표현된 연산들(330)의 실행에 의해 출력으로서 제공된 압축 데이터에 대해 하나 이상의 압축 해제 프로세스들을 수행하도록 동작할 수 있다. 수행된 압축 연산들은 두 디바이스간에 데이터를 전송하는데 적합한 모든 종래의 압축 알고리즘을 포함할 수 있다. 예를 들어, 디바이스 들간에 교환되는 데이터는 하향 변환되거나, 절단되거나, 또는 이들의 조합 일 수 있다. 마찬가지로, 그러한 데이터에 의해 전달된 값은 또한 확률적 순환(probabilistic rounding)의 대상이 될 수 있다. 이러한 압축 연산들은 당해 서브 그래프의 실행과 관련된 디바이스, 머신, 노드 및 네트워크의 하나 이상의 특성에 기초하여 선택될 수 있다. 예를 들어, 압축 연산들은 기계 학습 모델의 노이즈 허용 오차(noise tolerance)에 기초하여 선택될 수 있다. 압축이 연산들(330 및 340)과 관련하여 기술되었지만, 그러한 연산들은 다양한 신호 처리 및 컨디셔닝 기술들 중 임의의 것을 이용할 수 있음을 이해해야 한다.

전술한 바와 같이, 송신 및 수신 노드들의 쌍들에 의해 표현되는 연산들이 이용하는 통신 프로토콜은 당해 서브 그래프들의 실행과 관련된 디바이스, 머신, 노드 및 네트워크의 하나 이상의 특성들에 의존할 수 있다. 도 4A-B는 송신 및 수신 노드들을 포함하고 디바이스들에 할당되는 연산 그래프들(400A 및 400B)의 두 부분을 도시한다. 연산 그래프(400A)에 포함된 송신 노드는 이 예에서 GPU인 디바이스(412A)에 할당되었고, 연산 그래프(400A)에 포함된 수신 노드는 이 예에서 또한 GPU인 디바이스(414A)에 할당되었음을 알 수 있다. 이 예에서, GPU(412A) 및 GPU(414A)는 동일한 머신(410A) 내에 상주(reside)한다. 연산 그래프(400A)의 송수신 노드가 모두 GPU이고 모두 동일한 머신(410A) 내에 있기 때문에, 그들의 교환은 원격 프로시저 호출(remote procedure call : RPC) 또는 다른 로컬 요청/응답 프로토콜 하에서 수행되는 것이 바람직할 수 있다.

일부 구현예에서, 사용될 특정 통신 프로토콜은 서브 그래프 할당 후에 송신 및 수신 노드에 의해 표현된 연산들의 실행을 통해 결정될 수 있다. 이러한 결정은 예를 들어, 이러한 연산들에 알려진 어드레스 정보에 기초하여 이루어질 수 있다. 이 예에서, GPU(412A) 및 GPU(414A)는 송신 및 수신 노드와 관련된 연산들을 실행할 수 있으며, 이 연산들은 두 디바이스가 모두 머신(410A) 내에 상주하며 RPC 하에서 통신을 조정한다는 것을 나타낸다. 다른 구현예에서, 통신 프로토콜은 삽입될 때 각 송신 및 수신 노드에 의해 표현된 연산 내에서 미리 결정되고 표시될 수 있다. 이러한 구현예들에서, 각 통신 프로토콜은 상술한 방식과 유사한 방식으로 결정될 수 있다.

연산 그래프(400B)에 포함된 송신 노드는 CPU 또는 GPU일 수 있는 디바이스(422B)에 할당되고, 연산 그래프(400B)에 포함된 수신 노드는 역시 CPU 또는 GPU일 수 있는 디바이스(442B)에 할당되었음을 알 수 있다. 디바이스(422B)는 머신 (420B)과 함께 상주할 수 있고 디바이스(442B)는 머신(440B)과 함께 상주할 수 있다. 통신 프로토콜은 상술된 것과 유사한 기술의 사용을 통해 이 디바이스들에 대해 결정될 수 있다. 이 예에서, 디바이스들(422B 및 442B) 간의 교환은 원격 다이렉트 메모리 액세스(RDMA) 프로토콜 하에서 수행될 수 있다. 이 프로토콜은 각 디바이스와 관련된 운영 체제를 포함하지 않고 통신을 수행할 수 있다는 점에서 서로 다른 두 머신의 디바이스들에 유리할 수 있다. 이 예에서, 디바이스들(422B 및 442B)은 두 디바이스가 상이한 디바이스에 상주하며 RDMA 하에서 통신을 조정할 수 있음을 나타내는 송신 및 수신 노드들과 관련된 연산들을 실행할 수 있다.

도 5는 송신 및 수신 노드를 포함하도록 연산 그래프를 수정하기 위한 예시적인 프로세스(500)의 흐름도이다. 편의상, 프로세스(500)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 적절하게 프로그래밍된 예를 들어 도 1A의 연산 그래프 시스템(100))과 같은 연산 그래프 시스템은 프로세스(500)를 수행할 수 있다.

시스템은 다수의 노드 및 지향 에지를 포함하는 연산 그래프를 나타내는 데이터를 획득할 수 있다(502). 예를 들어, 연산 그래프는 하나 이상의 클라이언트 디바이스로부터 요청을 수신한 후에 연산 그래프 시스템에 의해 획득될 수 있다. 일부 예에서, 연산 그래프의 각 노드는 연산의 인스턴스화(instantiation)이다.

시스템은 다수의 디바이스에 대한 연산 그래프의 할당을 식별하는 데이터를 획득할 수 있다(504). 예를 들어, 연산 그래프 시스템은 획득된 연산 그래프에 포함된 각 노드가 다수의 이용 가능 디바이스에 어떻게 할당될지를 결정할 수 있다. 일부 구현예에서, 이것은 하나 이상의 머신에 포함된 하드웨어 자원들에 대한 연산 그래프의 할당을 식별하는 데이터를 획득하는 것을 포함할 수 있다.

시스템은 상이한 디바이스들에 할당된 노드들을 연결시키는 연산 그래프 내의 하나 이상의 지향 에지를 식별할 수 있다(506). 예를 들어, 연산 그래프 시스템은 하나 이상의 교차 디바이스 지향 에지를 식별할 수 있다.

시스템은 식별된 지향 에지들에 의해 연결된 노드들의 쌍 사이에 송신 및 수신 노드를 삽입할 수 있다(508). 예를 들어, 연산 그래프 시스템은 식별된 각 교차 디바이스 지향 에지를 양방향 브리지로 연결된 한 쌍의 송신 및 수신 노드로 대체할 수 있다. 이 과정에서, 시스템은 송신 노드와 각각의 제1 노드 사이에 지향 에지를 추가로 삽입할 수 있을 뿐만 아니라, 수신 노드와 각각의 제2 노드 사이에 지향 에지를 삽입할 수 있다.

일부 구현 예에서, 데이터는 한 쌍의 송신 및 수신 노드에서 각각의 노드에 의해 표현되는 연산들 사이에서 독립적으로 교환될 수 있다. 일부 경우에, 한 쌍의 송신 및 수신 노드 내의 각각 노드는 입력으로서, 상기 한 쌍의 송신 및 수신 노드가 할당되는 각 하드웨어 자원 및 머신에 대응하는 프로토콜에 따라 통신되는 한 쌍의 다른 노드에 의해 표현되는 연산의 출력을 수신하는 연산을 나타낼 수 있다. 전술한 바와 같이, 이러한 프로토콜은 예를 들어 RPC 및 RDMA를 포함할 수 있다.

각 송신 노드는 입력으로서 예를 들어, 각각의 제1 노드에 의해 표현된 연산의 출력을 수신하고, 출력으로서 각각의 제1 노드에 의해 표현된 연산의 출력을 수신 노드로 제공하는 연산을 나타낼 수 있다. 각각의 제1노드에 의해 표현된 연산의 출력은 예를 들어 텐서일 수 있다. 유사하게, 각 수신 노드는 입력으로서 송신 노드에 의해 표현된 연산의 출력을 수신하는 연산을 나타낼 수 있고, 출력으로서 송신 노드에 의해 표현된 연산의 출력을 각각의 제2 노드로 제공하는 연산을 나타낼 수 있다. 일부 구현예에서, 수신 노드로 표현된 연산은 출력으로서 송신 노드로 표현된 연산의 출력을 송신 노드로 제공하기 위한 요청을 더 제공할 수 있다. 이러한 구현예에서, 송신 노드에 의해 표현된 연산은 수신 노드로부터 수신된 하나 이상의 요청에 응답하여 각각의 제1 노드에 의해 표현된 연산의 출력을 출력으로서 수신 노드에 제공할 수 있다.

시스템은 송신 및 수신 노드를 디바이스에 할당하기 위해 할당을 수정할 수 있다(510). 예를 들어, 연산 그래프 시스템은 각 송신 노드를 송신 노드로부터의 업스트림 노드와 동일한 디바이스에 할당할 수 있고, 유사하게 각 수신 노드를 수신 노드로부터의 다운 스트림 노드와 동일한 디바이스에 할당할 수 있다.

시스템은 수정된 할당에 따라 노드들에 의해 표현된 연산들을 다수의 디바이스에 할당할 수 있다(512). 예를 들어, 연산 그래프 시스템은 다수의 디바이스 각각이 각각의 서브 그래프에 포함된 연산들을 수행하도록 요청할 수 있다. 일부 구현예에서, 시스템은 연산 그래프를 다수의 서브 그래프들로 분할할 수 있다.

본 명세서에서 개시된 요지 및 기능적 연산들의 실시예는 본 명세서에 개시된 구조 및 구조적 등가물 또는 이들 중 하나 이상의 조합을 포함하는, 디지털 전자 회로, 타입적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어에서 구현될 수 있다. 본 명세서에서 개시된 요지의 실시예는 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위한, 하나 이상의 컴퓨터 프로그램 즉, 컴퓨터 판독 가능 프로그램 캐리어(예컨대, 타입의 비 일시적 프로그램 캐리어)에 인코딩된 컴퓨터 프로그램 명령들의 하나 이상의 모듈로서 구현될 수 있다. 대안적으로 또는 부가적으로, 프로그램 명령은 인위적으로 생성된 전파 신호, 예를 들어 데이터 처리 장치에 의한 실행을 위한 적절한 수신기 장치로의 전송을 위해 정보를 인코딩하기 위해 생성된, 기계 생성의 전기적, 광학적 또는 전자기 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독 가능 저장 디바이스, 기계 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다. 그러나, 컴퓨터 저장 매체는 전파 신호가 아니다.

"데이터 처리 장치"라는 용어는 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터를 포함하는 데이터 처리를 위한 모든 종류의 장치, 디바이스 및 머신을 포함한다. 이 장치는 특수 목적 논리 회로, 예를 들어 FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(주문형 집적 회로)를 포함할 수 있다. 또한, 상기 장치는 하드웨어 이외에, 문제의 컴퓨터 프로그램, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 이들의 조합을 구성하는 코드에 대한 실행 환경을 생성하는 코드를 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 설명될 수 있는)은, 컴파일된 또는 해석된 언어, 또는 선언적 또는 절차적 언어를 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있으며, 독립형 프로그램이나 모듈, 구성 요소, 서브 루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하여 모든 형식으로 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있지만 반드시 그런 것은 아니다. 프로그램은 마크업 언어 문서에 저장된 하나 이상의 스크립트와 같은 다른 프로그램 또는 데이터를 보유하고 있는 파일의 일부분에, 문제의 프로그램 전용 단일 파일에 또는 다수의 조정 파일(예컨데, 하나 이상의 모듈, 서브 프로그램 또는 코드의 일부를 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 사이트에 있거나 여러 사이트에 분산되어 있으며 통신 네트워크로 상호 연결된 여러 대의 컴퓨터에서 실행되도록 배포될 수 있다.

본 명세서에서 사용되는 "엔진" 또는 "소프트웨어 엔진"은 입력과 다른 출력을 제공하는 소프트웨어 구현 입출력 시스템을 의미한다. 엔진은 라이브러리, 플랫폼, SDK(소프트웨어 개발 키트) 또는 개체와 같은 인코딩된 기능 블록일 수 있다. 각 엔진은 서버, 모바일 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 음악 재생기, 전자 책 리더, 노트북 또는 데스크탑 컴퓨터, PDA, 스마트 폰 또는 하나 이상의 프로세서 및 컴퓨터 판독 가능 매체를 포함하는 기타 고정식 또는 휴대용 디바이스와 같은 모든 타입의 컴퓨팅 디바이스에 구현될 수 있다. 또한, 2개 이상의 엔진은 동일한 컴퓨팅 디바이스 또는 상이한 컴퓨팅 디바이스 상에 구현될 수 있다.

본 명세서에서 설명되는 프로세스 및 논리 흐름은 입력 데이터를 조작하여 출력을 생성함으로써 기능을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 프로세스 및 로직 흐름은 또한 FPGA 또는 ASIC와 같은 특수 목적의 논리 회로에 의해 수행될 수 있고, 디바이스는 또한 특수 목적의 논리 회로로서 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들어 범용 또는 특수 목적 마이크로 프로세서 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 기반으로 할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성 요소는 명령을 수행하거나 실행하기 위한 중앙 처리 장치와 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 데이터(예를 들어, 자기, 광 자기 디스크 또는 광학 디스크)를 저장하기 위한 하나 이상의 대용량 저장 디바이스로부터 데이터를 수신하거나 전송하기 위해 연산 가능하게 결합될 것이다. 그러나, 컴퓨터에는 그러한 디바이스가 있을 필요가 없다. 게다가, 컴퓨터는 다른 디바이스, 예를 들어, 모바일 전화기, 개인 휴대 정보 단말기(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 휴대용 저장 디바이스(예컨데, 범용 직렬 버스(USB) 플래시 드라이브)에 내장될 수 있다.

컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 디바이스와 같은 반도체 메모리 디바이스; 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크; 광자기 디스크; CD-ROM 및 DVD-ROM디스크를 포함하는, 모든 형태의 비 휘발성 메모리, 매체 및 메모리 디바이스를 포함한다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 설명된 요지의 실시예들은 예를 들어 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스(예컨대, CRT 모니터, LCD모니터 또는 OLED 디스플레이)를 갖는 컴퓨터 상에서 구션될 수 있으며, 컴퓨터에 입력을 제공하기 위한 입력 디바비스(예컨대, 키보드, 마우스 또는 프레즌스 입력 감지 디스플레이 또는 다른 표면)를 포함할 수 있다. 다른 종류의 디바이스가 사용자와의 상호 작용을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백 일 수 있다. 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 디바이스로 자원을 전송하고 디바이스로부터 자원을 수신함으로써 사용자와 상호 작용할 수 있는데, 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 사용자의 클라이언트 디바이스상의 웹 브라우저로 웹 페이지를 전송함으로써 수행될 수 있다.

본 명세서에서 설명된 요지의 실시예는 데이터 서버와 같은 백 엔드 구성 요소를 포함하거나, 애플리케이션 서버와 같은 미들웨어 구성 요소를 포함하거나, 사용자가 본 명세서에 기술된 요지의 구현과 상호작용할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터와 같은 프론트 엔드 구성 요소를 포함하거나, 또는 하나 이상의 백 엔드, 미들웨어 또는 프론트 엔드 구성요소의 모든 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 구성 요소는 통신 네트워크와 같은 디지털 데이터 통신의 임의의 형태 또는 매체에 의해 상호 접속될 수 있다. 통신 네트워크의 예는 근거리 통신망("LAN") 및 인터넷과 같은 광역 통신망("WAN")을 포함한다.

컴퓨팅 시스템은 클라이언트와 서버를 포함될 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다.

본 명세서는 다수의 특정 구현 세부 사항을 포함하지만, 이들은 임의의 발명 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 발명의 특정 실시예에 특정될 수 있는 특징들에 대한 설명으로 해석되어야 한다. 별도의 실시예와 관련하여 본 명세서에서 설명되는 특정 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 문맥에서 설명된 다양한 특징은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브 조합으로 구현될 수 있다. 더욱이, 특징들은 특정 조합으로 작용하고 상술한 바와같이 초기에는 그러한 것으로 주장될 수도 있지만, 청구된 조합으로부터의 하나 이상의 특징이 일부 경우 조합으로부터 제거될 수 있고, 청구된 조합은 특징의 서브 조합 또는 변형으로 유도될 수 있다.

유사하게, 연산들은 특정 순서로 도면에 도시되어 있지만, 이는 바람직한 연산들을 달성하기 위해, 그러한 연산들이 도시된 순서 또는 순차적인 순서로 수행되거나, 도시된 모든 연산들이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서는 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 상술한 실시예에서 다양한 시스템 모듈 및 구성 요소의 분리는 모든 실시예에서 그러한 분리를 필요로 하는 것으로 이해되어서는 안되며, 기술된 프로그램 구성 요소 및 시스템은 일반적으로 단일 소프트웨어 제품 내에 함께 통합되거나 다수의 소프트웨어 제품들로 패키징될 수 있음을 이해해야 한다.

본 발명의 특정 실시예가 설명되었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구 범위에 열거된 동작들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과를 달성한다. 하나의 예로서, 첨부된 도면에 도시된 프로세스는 바람직한 결과를 얻기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 필요로 하지는 않는다. 특정 구현예에서는, 멀티 태스킹 및 병렬 처리가 유리할 수 있다.

Claims

컴퓨터 구현 방법으로서,
시스템의 복수의 구성 요소의 제1 구성 요소에 의해, 연산(computational) 그래프의 제1 서브 그래프에서 둘 이상의 노드에 의해 표현된 연산(operations)을 수행하라는 요청을 수신하는 단계,
상기 연산 그래프는 복수의 노드와 복수의 지향 에지를 포함하고, 복수의 노드의 각 노드는 개별(respective) 연산을 나타내고, 복수의 지향 에지의 각 지향 에지는 개별 제1 노드를 그 개별 제1 노드에 의해 표현된 연산의 출력을 입력으로서 수신하는 연산을 나타내는 개별 제2 노드에 연결하고,
상기 복수의 지향 에지는 연산 그래프에서 하나 이상의 교차-디바이스(cross-device) 지향 에지를 포함하고, 상기 하나 이상의 교차-디바이스 지향 에지의 각 교차-디바이스 지향 에지는 개별 제1 노드를 그 개별 제1 노드가 할당된 구성 요소와 상이한 디바이스에 할당된 개별 제2 노드에 연결하는 지향 에지이고, 상기 하나 이상의 교차-디바이스 지향 에지는 제1 구성 요소에 할당된 제1 서브 그래프의 제1 노드를 시스템의 복수의 구성 요소와 상이한 제2 구성 요소에 할당된 제2 서브 그래프의 제2 노드와 연결하는 제1 교차-디바이스 지향 에지를 포함하고, 그리고
상기 하나 이상의 교차-디바이스 지향 에지의 각 교차-디바이스 지향 에지에 대해, 상기 연산 그래프는 a) 연산 그래프의 개별 제1 노드와 개별 제2 노드 사이의 송신 노드 및 b) 연산 그래프의 송신 노드와 개별 제2 노드사이의 수신 노드를 포함하고, 상기 상이한 제2 구성 요소에 할당된 제2 서브 그래프는 제1 노드와 제2 노드 사이의 제1 교차-디바이스 지향 에지에 제1 송신 노드를 포함하도록 수정되었고, 상기 제1 구성 요소에 대한 제1 서브 그래프는 제1 노드와 제1 수신 노드 사이의 제1 교차-디바이스 지향 에지에 제1 수신 노드를 포함하도록 수정되었으며, 그리고 상기 제1 수신 노드는 제1 송신 노드로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 연산을 표현하고;
제1 수신 노드에 의해 표현된 연산을 사용하여 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 구성 요소로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계; 및
제1 수신 노드에 의해 표현된 연산을 사용하여, 제1 노드에 의해 표현된 연산에 대한 입력으로서 제2 노드에 의해 출력된 데이터를 제공하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 제1 구성 요소는 시스템의 복수의 디바이스의 제1 디바이스를 포함하고;
상기 상이한 제2 구성 요소는 시스템의 복수의 디바이스와 상이한 제2 디바이스를 포함하고;
상기 데이터를 수신하는 단계는 제1 수신 노드에 의해 표현된 연산을 사용하여 제1 디바이스에 의해 상기 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 디바이스로부터, 상이한 제2 디바이스에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계를 포함하고; 그리고
상기 데이터를 제공하는 단계는 제1 수신 노드에 의해 표현된 연산을 사용하여 제1 디바이스에 의해, 제1 노드에 의해 표현된 연산에 대한 입력으로서 제2 노드에 의해 출력된 데이터를 제공하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 제2 노드에 의해 출력된 데이터를 수신하는 단계는,
상이한 제2 구성 요소로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 텐서를 수신하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
제1 수신 노드에 의해 표현된 연산을 사용하여 상이한 제2 구성 요소로, 제1 송신 노드에 의해 표현된 연산의 출력 요청을 전송하는 단계를 포함하고,
상기 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 구성 요소로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계는 상기 제1 송신 노드에 의해 표현된 연산의 출력 요청을 전송하는 단계에 응답하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 제1 구성 요소는 하나 이상의 제1 머신에 포함된 제1 하드웨어 자원을 포함하고;
상기 상이한 제2 구성 요소는 하나 이상의 제2 머신에 포함된 제2 하드웨어 자원을 포함하고; 그리고
상기 제2 노드에 의해 출력된 데이터를 수신하는 단계는 제1 구성 요소에 의해 상이한 제2 구성 요소로부터 제1 하드웨어 자원 및 제2 하드웨어 자원 각각에 대응하는 프로토콜에 따라, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 제2 노드에 의해 출력된 데이터를 수신하는 단계는,
제1 수신 노드에 의해 표현된 연산을 사용하여 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 구성 요소로부터, 제1 교차-디바이스 지향 에지 이외의 교차-디바이스 지향 에지들에 대한 다른 송신 노드 및 다른 수신 노드에 의해 표현된 연산과 독립적으로 상기 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
하나 이상의 위치에 있는 하나 이상의 컴퓨터를 포함하는 시스템으로서, 하나 이상의 컴퓨터는 시스템으로 하여금 동작들(actions)을 수행하도록 동작 가능한 명령들을 저장하고, 상기 동작들은,
시스템의 복수의 구성 요소의 제1 구성 요소에 의해, 연산 그래프의 제1 서브 그래프에서 둘 이상의 노드에 의해 표현된 연산을 수행하라는 요청을 수신하는 단계와,
상기 연산 그래프는 복수의 노드와 복수의 지향 에지를 포함하고, 복수의 노드의 각 노드는 개별 연산을 나타내고, 복수의 지향 에지의 각 지향 에지는 개별 제1 노드를 그 개별 제1 노드에 의해 표현된 연산의 출력을 입력으로서 수신하는 연산을 나타내는 개별 제2 노드에 연결하고,
상기 복수의 지향 에지는 연산 그래프에서 하나 이상의 교차-디바이스 지향 에지를 포함하고, 상기 하나 이상의 교차-디바이스 지향 에지의 각 교차-디바이스 지향 에지는 개별 제1 노드를 그 개별 제1 노드가 할당된 구성 요소와 상이한 디바이스에 할당된 개별 제2 노드에 연결하는 지향 에지이고, 상기 하나 이상의 교차-디바이스 지향 에지는 제1 구성 요소에 할당된 제1 서브 그래프의 제1 노드를 시스템의 복수의 구성 요소와 상이한 제2 구성 요소에 할당된 제2 서브 그래프의 제2 노드와 연결하는 제1 교차-디바이스 지향 에지를 포함하고, 그리고
상기 하나 이상의 교차-디바이스 지향 에지의 각 교차-디바이스 지향 에지에 대해, 상기 연산 그래프는 a) 연산 그래프의 개별 제1 노드와 개별 제2 노드 사이의 송신 노드 및 b) 연산 그래프의 송신 노드와 개별 제2 노드사이의 수신 노드를 포함하고, 상기 상이한 제2 구성 요소에 할당된 제2 서브 그래프는 제1 노드와 제2 노드 사이의 제1 교차-디바이스 지향 에지에 제1 송신 노드를 포함하도록 수정되었고, 상기 제1 구성 요소에 대한 제1 서브 그래프는 제1 노드와 제1 수신 노드 사이의 제1 교차-디바이스 지향 에지에 제1 수신 노드를 포함하도록 수정되었으며, 그리고 상기 제1 수신 노드는 제1 송신 노드로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 연산을 표현하고;
제1 수신 노드에 의해 표현된 연산을 사용하여 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 구성 요소로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계와; 그리고
제1 수신 노드에 의해 표현된 연산을 사용하여, 제1 노드에 의해 표현된 연산에 대한 입력으로서 제2 노드에 의해 출력된 데이터를 제공하는 단계를 포함하는 것을 특징으로 하는 시스템.
제7항에 있어서,
상기 제1 구성 요소는 시스템의 복수의 디바이스의 제1 디바이스를 포함하고;
상기 상이한 제2 구성 요소는 시스템의 복수의 디바이스와 상이한 제2 디바이스를 포함하고;
상기 데이터를 수신하는 단계는 제1 수신 노드에 의해 표현된 연산을 사용하여 제1 디바이스에 의해 상기 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 디바이스로부터, 상이한 제2 디바이스에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계를 포함하고; 그리고
상기 데이터를 제공하는 단계는 제1 수신 노드에 의해 표현된 연산을 사용하여 제1 디바이스에 의해, 제1 노드에 의해 표현된 연산에 대한 입력으로서 제2 노드에 의해 출력된 데이터를 제공하는 단계를 포함하는 것을 특징으로 하는 시스템.
제7항에 있어서,
상기 제2 노드에 의해 출력된 데이터를 수신하는 단계는,
상이한 제2 구성 요소로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 텐서를 수신하는 단계를 포함하는 것을 특징으로 하는 시스템.
제7항에 있어서,
상기 동작들은,
제1 수신 노드에 의해 표현된 연산을 사용하여 상이한 제2 구성 요소로, 제1 송신 노드에 의해 표현된 연산의 출력 요청을 전송하는 단계를 포함하고,
상기 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 구성 요소로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계는 제1 송신 노드에 의해 표현된 연산의 출력 요청을 전송하는 단계에 응답하는 것을 특징으로 하는 시스템.
제7항에 있어서,
상기 제1 구성 요소는 하나 이상의 제1 머신에 포함된 제1 하드웨어 자원을 포함하고;
상기 상이한 제2 구성 요소는 하나 이상의 제2 머신에 포함된 제2 하드웨어 자원을 포함하고; 그리고
상기 제2 노드에 의해 출력된 데이터를 수신하는 단계는 제1 구성 요소에 의해 상이한 제2 구성 요소로부터 제1 하드웨어 자원 및 제2 하드웨어 자원 각각에 대응하는 프로토콜에 따라, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계를 포함하는 것을 특징으로 하는 시스템.
제7항에 있어서,
상기 제2 노드에 의해 출력된 데이터를 수신하는 단계는,
제1 수신 노드에 의해 표현된 연산을 사용하여 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 구성 요소로부터, 제1 교차-디바이스 지향 에지 이외의 교차-디바이스 지향 에지들에 대한 다른 송신 노드 및 다른 수신 노드에 의해 표현된 연산과 독립적으로 상기 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계를 포함하는 것을 특징으로 하는 시스템.
하나 이상의 컴퓨터의 시스템에 의해 실행될 때 시스템으로 하여금 동작들을 수행하게 하는 명령들이 저장된 비-일시적 컴퓨터 판독 가능 저장 디바이스로서, 상기 동작들은,
시스템의 복수의 구성 요소의 제1 구성 요소에 의해, 연산 그래프의 제1 서브 그래프에서 둘 이상의 노드에 의해 표현된 연산을 수행하라는 요청을 수신하는 단계와,
상기 연산 그래프는 복수의 노드와 복수의 지향 에지를 포함하고, 복수의 노드의 각 노드는 개별 연산을 나타내고, 복수의 지향 에지의 각 지향 에지는 개별 제1 노드를 그 개별 제1 노드에 의해 표현된 연산의 출력을 입력으로서 수신하는 연산을 나타내는 개별 제2 노드에 연결하고,
상기 복수의 지향 에지는 연산 그래프에서 하나 이상의 교차-디바이스 지향 에지를 포함하고, 상기 하나 이상의 교차-디바이스 지향 에지의 각 교차-디바이스 지향 에지는 개별 제1 노드를 그 개별 제1 노드가 할당된 구성 요소와 상이한 디바이스에 할당된 개별 제2 노드에 연결하는 지향 에지이고, 상기 하나 이상의 교차-디바이스 지향 에지는 제1 구성 요소에 할당된 제1 서브 그래프의 제1 노드를 시스템의 복수의 구성 요소와 상이한 제2 구성 요소에 할당된 제2 서브 그래프의 제2 노드와 연결하는 제1 교차-디바이스 지향 에지를 포함하고, 그리고
상기 하나 이상의 교차-디바이스 지향 에지의 각 교차-디바이스 지향 에지에 대해, 상기 연산 그래프는 a) 연산 그래프의 개별 제1 노드와 개별 제2 노드 사이의 송신 노드 및 b) 연산 그래프의 송신 노드와 개별 제2 노드사이의 수신 노드를 포함하고, 상기 상이한 제2 구성 요소에 할당된 제2 서브 그래프는 제1 노드와 제2 노드 사이의 제1 교차-디바이스 지향 에지에 제1 송신 노드를 포함하도록 수정되었고, 상기 제1 구성 요소에 대한 제1 서브 그래프는 제1 노드와 제1 수신 노드 사이의 제1 교차-디바이스 지향 에지에 제1 수신 노드를 포함하도록 수정되었으며, 그리고 상기 제1 수신 노드는 제1 송신 노드로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 연산을 표현하고;
제1 수신 노드에 의해 표현된 연산을 사용하여 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 구성 요소로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계와; 그리고
제1 수신 노드에 의해 표현된 연산을 사용하여, 제1 노드에 의해 표현된 연산에 대한 입력으로서 제2 노드에 의해 출력된 데이터를 제공하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 저장 디바이스.
제13항에 있어서,
상기 제1 구성 요소는 시스템의 복수의 디바이스의 제1 디바이스를 포함하고;
상기 상이한 제2 구성 요소는 시스템의 복수의 디바이스와 상이한 제2 디바이스를 포함하고;
상기 데이터를 수신하는 단계는 제1 수신 노드에 의해 표현된 연산을 사용하여 제1 디바이스에 의해 상기 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 디바이스로부터, 상이한 제2 디바이스에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계를 포함하고; 그리고
상기 데이터를 제공하는 단계는 제1 수신 노드에 의해 표현된 연산을 사용하여 제1 디바이스에 의해, 제1 노드에 의해 표현된 연산에 대한 입력으로서 제2 노드에 의해 출력된 데이터를 제공하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 저장 디바이스.
제13항에 있어서,
상기 제2 노드에 의해 출력된 데이터를 수신하는 단계는,
상이한 제2 구성 요소로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 텐서를 수신하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 저장 디바이스.
제13항에 있어서,
상기 동작들은,
상기 동작들은,
제1 수신 노드에 의해 표현된 연산을 사용하여 상이한 제2 구성 요소로, 제1 송신 노드에 의해 표현된 연산의 출력 요청을 전송하는 단계를 포함하고,
상기 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 구성 요소로부터, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계는 제1 송신 노드에 의해 표현된 연산의 출력 요청을 전송하는 단계에 응답하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 저장 디바이스.
제13항에 있어서,
상기 제1 구성 요소는 하나 이상의 제1 머신에 포함된 제1 하드웨어 자원을 포함하고;
상기 상이한 제2 구성 요소는 하나 이상의 제2 머신에 포함된 제2 하드웨어 자원을 포함하고; 그리고
상기 제2 노드에 의해 출력된 데이터를 수신하는 단계는 제1 구성 요소에 의해 상이한 제2 구성 요소로부터 제1 하드웨어 자원 및 제2 하드웨어 자원 각각에 대응하는 프로토콜에 따라, 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 저장 디바이스.
제13항에 있어서,
상기 제2 노드에 의해 출력된 데이터를 수신하는 단계는,
제1 수신 노드에 의해 표현된 연산을 사용하여 제1 송신 노드에 의해 표현된 연산을 사용하는 상이한 제2 구성 요소로부터, 제1 교차-디바이스 지향 에지 이외의 교차-디바이스 지향 에지들에 대한 다른 송신 노드 및 다른 수신 노드에 의해 표현된 연산과 독립적으로 상기 상이한 제2 구성 요소에 할당된 제2 노드에 의해 출력된 데이터를 수신하는 단계를 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 저장 디바이스.