KR20190111810A - 데이터 처리 시스템 및 데이터 처리 방법 - Google Patents

데이터 처리 시스템 및 데이터 처리 방법 Download PDF

Info

Publication number
KR20190111810A
KR20190111810A KR1020190032374A KR20190032374A KR20190111810A KR 20190111810 A KR20190111810 A KR 20190111810A KR 1020190032374 A KR1020190032374 A KR 1020190032374A KR 20190032374 A KR20190032374 A KR 20190032374A KR 20190111810 A KR20190111810 A KR 20190111810A
Authority
KR
South Korea
Prior art keywords
operations
grouped
data
input data
memory unit
Prior art date
Application number
KR1020190032374A
Other languages
English (en)
Inventor
젼지앙 왕
지안준 리
리앙 첸
쿤 링
델린 리
첸 선
Original Assignee
난징 호리존 로보틱스 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 난징 호리존 로보틱스 테크놀로지 코., 엘티디. filed Critical 난징 호리존 로보틱스 테크놀로지 코., 엘티디.
Publication of KR20190111810A publication Critical patent/KR20190111810A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/345Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Debugging And Monitoring (AREA)
  • Image Processing (AREA)
  • Logic Circuits (AREA)

Abstract

데이터 처리 시스템들과 데이터 처리 방법들이 제공된다. 이러한 방법은 일련의 오퍼레이션들에 의해 처리될 입력 데이터를 받는 단계, 상기 일련의 오퍼레이션들로부터 제1 오퍼레이션을 확인하는 단계, 적어도 부분적으로는 그룹화된 오퍼레이션들의 입력 데이터 및 출력 데이터의 양과 메모리 유닛의 용량에 기초하여 제1 오퍼레이션으로 그룹화될 상기 일련의 오퍼레이션들로부터 적어도 하나의 제2 오퍼레이션을 선택하는 단계, 및 그룹화된 오퍼레이션들의 입력 데이터의 부분을 처리하는 단계를 포함한다. 일련의 데이터 오퍼레이션의 효율은 임의의 데이터 오퍼레이션의 입력 데이터와 출력 데이터가 모두 메모리 유닛에 저장되는 것을 보장함으로써 개선될 수 있다.

Description

데이터 처리 시스템 및 데이터 처리 방법{SYSTEMS AND METHODS OF DATA PROCESSING}
CNN(Convolutional Neural Networks)과 같은 딥 컴퓨팅 프레임워크(deep computing framework)들이 많은 응용 영역들에서 사용되고, 이러한 응용 영역들에는 패턴 인식, 신호 처리, 시계열분석(time series analysis) 등이 포함된다. CNN 알고리즘들이 발전함에 따라, CNN들은 그 수가 증가하는 응용예 시나리오들에서 사용될 수 있다. CNN들의 일부 응용예 시나리오들은 파워 소비와 비용에 민감할 수 있다. 예를 들면, 내장 장치(embedded device)의 SRAM(Static Random-Access Memory)의 용량은 내장 장치의 비용을 감소시키기 위해 제한될 수 있다.
하지만, 내장 장치의 출력 정확성을 보장하기 위해, SRAM의 용걍보다 큰 데이터량을 가지는 입력 데이터(예컨대, 고해상도를 갖는 이미지)가 제공될 수 있다. 각각의 분할된 연산에 관한 데이터가 SRAM의 용량보다 작도록 연산을 복수의 분할된 연산들로 분할함으로써 그러한 연산을 구현하는 방법 및 시스템을 가지는 것이 도움이 될 수 있다.
각각의 분할된 연산의 데이터량이 메모리 유닛(예컨대, 내장 장치의 온-칩(on-chip) 메모리)의 용량보다 작도록, 데이터 연산을 분할하기 위한, 데이터 처리를 위한 시스템 및 방법이 제공된다. 일부 경우들에서, 데이터 연산의 입력 데이터와 출력 데이터의 양은, 데이터 처리의 출력 정확성을 보장하기 위해, 메모리 유닛의 용량보다 더 클 수 있다. 데이터 처리의 계산 효율(computing efficiency)을 감소시킬 수 있는 입력 데이터 및/또는 출력 데이터가 외부 메모리 저장소에서 제공되어야 한다. 본 개시물의 시스템들과 방법들은, 입력 데이터 및 출력 데이터의 양이 메모리 유닛의 사이즈를 초과하는 데이터 연산을 분할하기 위한 해결책을 제공한다. 각각의 분할된 연산의 입력 데이터와 출력 데이터가 모두 메모리 유닛 내에 저장되고 처리되도록, 각각의 분할 연산은 메모리 유닛을 초과하지 않는 양의 입력 데이터와 출력 데이터를 가진다.
본 개시물의 시스템들과 방법들은 일련의 연산들이 연속하여 수행되는 데이터 처리의 효율을 개선하기 위해 사용될 수 있고, 하나 이상의 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과한다. 메모리 유닛의 용량을 초과하는 입력 데이터와 출력 데이터의 양을 가지는 연산은, 그룹화되는 연산의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 사이즈를 초과하지 않도록, 하나 이상의 다른 연산들로 그룹화될 수 있다. 그룹화된 연산은 분할될 수 있고, 각각의 분할된 연산은 메모리 유닛의 용량보다 작은 양의 데이터를 가진다. 각각의 분할된 연산은 그룹화된 연산들의 처리 결과의 부분을 생성할 수 있고, 그룹화된 연산들의 처리 결과는 일단 모든 분할된 연산들이 수행되면 얻어질 수 있다.
본 개시물의 일 양태는 데이터 처리의 방법을 제공한다. 이러한 방법은 (a) 일련의 연산들에 의해 처리될 입력 데이터를 수신하는 단계; (b) 일련의 연산들로부터 메모리 유닛의 용량을 초과하는 상당한 양의 입력 데이터와 출력 데이터를 가지는 제1 연산을 식별하는 단계; (c) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양과, 메모리 유닛의 용량에 적어도 부분적으로 기초한 제1 연산으로 그룹화될 일련의 연산들로부터 적어도 하나의 제2 연산을 선택하는 단계; 및 (d) 그룹화된 연산들의 입력 데이터의 일 부분을 처리하는 단계를 포함하고, 이 경우 입력 데이터의 그러한 부분은 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정된다.
일부 실시예들에서, 일련의 연산들은 일련의 콘볼루션 연산들을 포함할 수 있다. 대안적으로, 그러한 일련의 연산들은 일련의 텐서(tensor) 연산들을 포함할 수 있다. 예컨대, 일련의 연산들은 일련의 풀링(pooling), 일련의 업스케일링(upscaling) 또는 일련의 ReLU(Rectified Linear Unit)들을 포함할 수 있다. 일부 실시예들에서는 메모리 유닛이 SRAM(static random access memory)을 포함할 수 있다.
일부 실시예들에서는, 제1 연산의 출력 데이터의 양이 제1 연산의 입력 데이터의 양과 제1 연산의 하나 이상의 파라미터들에 기초하여 결정될 수 있다. 일부 실시예들에서는, 그룹화된 연산들의 출력 데이터의 양이 그룹화된 연산들의 입력 데이터의 양과 그룹화된 연산들의 하나 이상의 파라미터들에 기초하여 결정될 수 있다. 일부 실시예들에서는, 적어도 하나의 제2 연산이 제1 연산에 바로 인접하는 일련의 연산들로부터의 하나의 연산을 포함할 수 있다. 일부 경우에, 그러한 적어도 하나의 제2 연산은 제1 연산의 직전의 일련의 연산들로부터 하나의 연산을 포함할 수 있다. 그러한 적어도 하나의 제2 연산은 제1 연산에 직후에 오는 일련의 연산들로부터의 하나의 연산을 포함할 수 있다. 적어도 하나의 제2 연산은 제1 연산의 직전에 오는 일련의 연산들로부터의 하나의 연산과, 제1 연산의 직후에 오는 일련의 연산들로부터의 하나의 연산을 포함할 수 있다.
일부 실시예들에서, 처리(c)는 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하는지를 결정하는 것을 포함할 수 있다. 일부 경우들에서, 처리(c)는 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않을 때까지, 적어도 하나의 제2 연산에서 연산들의 개수를 증가시키는 것을 포함할 수 있다. 예컨대, 처리(c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들의 개수들의 수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 그룹화된 연산들의 출력 데이터를 외부 메모리에 저장하는 것을 더 포함할 수 있다. 예컨대, 처리(c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들의 개수들의 수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 그룹화된 연산들의 입력 데이터를 외부 메모리에 저장하는 것을 더 포함할 수 있다. 예컨대, 처리(c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 그룹화된 연산들의 입력 데이터와 출력 데이터를 외부 메모리에 저장하는 것을 더 포함할 수 있다.
일부 실시예들에서, 그룹화된 연산들의 입력 데이터의 부분은 입력 데이터와 한계 데이터(marginal data)의 N개의 같은 부분들 중 하나를 포함할 수 있다. 일부 경우들에서, 처리(c)는 N의 값이 최소이도록 적어도 하나의 제2 연산을 결정하는 것을 포함할 수 있다. 처리(d)는 적어도 N번 수행될 수 있다. 그룹화된 연산들의 입력 데이터의 부분은 그룹화된 연산들의 입력 데이터의 또 다른 부분의 적어도 한 부분을 포함할 수 있다. 일부 경우들에서, N은 (1) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양, (2) 메모리 유닛의 용량, 및 (3) 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정될 수 있다.
일부 실시예들에서, 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터가 메모리 유닛의 상이한 슬라이스(slice)들에 저장될 수 있다.
일부 실시예들에서, 처리(c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 출력 데이터를 저장하는 것을 더 포함할 수 있다. 처리(d)는 메모리 유닛에 그룹화된 연산들의 입력 데이터와 중간 데이터 결과를 저장하는 것을 포함할 수 있다.
일부 실시예들에서, 처리(c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터를 저장하는 것을 더 포함할 수 있다. 처리(d)는 외부 메모리로부터 그룹화된 연산들의 입력 데이터의 부분을 수신하는 것을 포함할 수 있다. 처리(d)는 메모리 유닛에 그룹화된 연산들의 중간 데이터 결과와 출력 데이터를 저장하는 것을 포함할 수 있다.
일부 실시예들에서, 처리(d)는 메모리 유닛에 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터를 저장하는 것을 포함할 수 있다. 일부 실시예들에서, 그러한 방법은 (e) 그룹화된 연산의 출력 데이터의 부분을 얻는 단계와, 그룹화된 연산의 출력 데이터를 얻기 위해 그룹화된 연산의 출력 데이터의 각 부분을 어셈블링하는(assemble) 단계를 더 포함할 수 있다.
본 개시물의 또 다른 양태는 데이터 처리의 시스템을 제공한다. 이러한 시스템은 하나 이상의 프로세서들, 즉 적어도 하나의 메모리 유닛과 하나 이상의 메모리들을 포함할 수 있고, 이러한 하나 이상의 메모리들은 하나 이상의 프로세서들에 의해 실행될 때, 하나 이상의 프로세서들로 하여금 (a) 일련의 연산들에 의해 처리될 입력 데이터를 수신하고, (b) 제1 연산이 메모리 유닛의 용량을 초과하는 입력 데이터와 출력 데이터의 양을 가지는, 일련의 연산들로부터 제1 연산을 식별하며, (c) 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양과, 메모리 유닛의 용량에 적어도 부분적으로 기초한 제1 연산으로 그룹화될 일련의 연산들로부터 적어도 제2 연산을 선택하고, (d) 그룹화된 연산들의 입력 데이터의 부분을 처리하게 하는 명령어들을 내부에 저장하고 있으며, 이러한 입력 데이터의 부분은 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정된다.
일부 실시예들에서, 이러한 일련의 연산들은 일련의 콘볼루션 연산들을 포함할 수 있다. 대안적으로, 그러한 일련의 연산들은 일련의 텐서 연산들을 포함할 수 있다. 예컨대, 이러한 일련의 연산들은 일련의 풀링, 일련의 업스케일링 또는 일련의 ReLU들을 포함할 수 있다. 일부 실시예들에서는 메모리 유닛이 SRAM을 포함할 수 있다.
일부 실시예들에서는 제1 연산의 출력 데이터의 양이 제1 연산의 입력 데이터의 양과, 그러한 제1 연산의 하나 이상의 파라미터들에 기초하여 결정될 수 있다. 일부 실시예들에서는, 그룹화된 연산들의 출력 데이터의 양이 그룹화된 연산들의 입력 데이터의 양과 그룹화된 연산들의 하나 이상의 파라미터들에 기초하여 결정될 수 있다. 일부 실시예들에서는, 적어도 하나의 제2 연산이 제1 연산에 바로 인접하는 일련의 연산들로부터의 연산을 포함할 수 있다. 일부 경우들에서, 적어도 하나의 제2 연산은 제1 연산 직전에 오는 일련의 연산들로부터의 연산을 포함할 수 있다. 그러한 적어도 하나의 제2 연산은 제1 연산의 직후에 오는 일련의 연산들로부터의 연산을 포함할 수 있다. 적어도 하나의 제2 연산은 제1 연산 직전에 오는 일련의 연산들로부터의 연산과 제1 연산 직후에 오는 일련의 연산들로부터의 연산을 포함할 수 있다.
일부 실시예들에서, 처리(c)는 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하는지를 결정하는 것을 포함할 수 있다. 일부 경우들에서, 처리(c)는 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않을 때까지 적어도 하나의 제2 연산에서 연산들의 개수가 점진적으로 증가하는 것을 포함할 수 있다. 예컨대, 처리(c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 출력 데이터를 저장하는 것을 더 포함할 수 있다. 예컨대, 처리(c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터를 저장하는 것을 더 포함할 수 있다. 예컨대, 처리(c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 출력 데이터를 저장하는 것을 더 포함할 수 있다.
일부 실시예들에서, 그룹화된 연산들의 입력 데이터의 부분은 입력 데이터와 한계 데이터의 N개의 같은 부분들 중 하나를 포함할 수 있다. 일부 경우들에서, 처리(c)는 N의 값이 최소이도록 적어도 하나의 제2 연산을 결정하는 것을 포함할 수 있다. 처리(d)는 적어도 N번 수행될 수 있다. 그룹화된 연산들의 입력 데이터의 부분은 그룹화된 연산들의 입력 데이터의 또 다른 부분의 적어도 한 부분을 포함할 수 있다. 일부 경우들에서, N은 (1) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양, (2) 메모리 유닛의 용량, 및 (3) 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정될 수 있다.
일부 실시예들에서, 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터가 메모리 유닛의 상이한 슬라이스들에 저장될 수 있다.
일부 실시예들에서, 처리(c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 출력 데이터를 저장하는 것을 더 포함할 수 있다. 처리(d)는 메모리 유닛에 그룹화된 연산들의 입력 데이터와 중간 데이터 결과를 저장하는 것을 포함할 수 있다.
일부 실시예들에서, 처리(c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터를 저장하는 것을 더 포함할 수 있다. 처리(d)는 외부 메모리로부터 그룹화된 연산들의 입력 데이터의 부분을 수신하는 것을 포함할 수 있다. 처리(d)는 메모리 유닛에 그룹화된 연산들의 중간 데이터 결과와 출력 데이터를 저장하는 것을 포함할 수 있다.
일부 실시예들에서, 처리(d)는 메모리 유닛에 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터를 저장하는 것을 포함할 수 있다. 일부 실시예들에서, 하나 이상의 메모리들이 명령어들을 내부에 저장하고 있고, 그러한 명령어들은 하나 이상의 프로세서들에 의해 실행될 때, 또한 그러한 하나 이상의 프로세서들로 하여금 (e) 그룹화된 연산의 출력 데이터를 얻기 위해, 그룹화된 연산의 출력 데이터의 부분을 얻게 하고, 그룹화된 연산의 출력 데이터의 각각의 부분을 어셈블링한다.
본 개시물의 또 다른 양태는 하나 이상의 컴퓨터 프로세서들에 의해 실행될 때, 데이터 처리의 방법을 구현하는 기계 실행 가능한 코드를 포함하는 비일시적(non-transitory) 컴퓨터 판독 가능한 매체를 제공한다. 이러한 비일시적 컴퓨터 판독 가능한 매체는 (a) 일련의 연산들에 의해 처리될 입력 데이터를 수신하기 위한 프로그램 명령어들, (b) 일련의 연산들로부터 메모리 유닛의 용량을 초과하는 입력 데이터와 출력 데이터의 양을 가지는 제1 연산을 식별하기 위한 프로그램 명령어들, (c) 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양과 메모리 유닛의 용량에 적어도 부분적으로 기초한 제1 연산으로 그룹화될 일련의 연산들로부터 적어도 하나의 제2 연산을 선택하기 위한 프로그램 명령어들, 및 (d) 입력 데이터의 부분이 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정되는, 그룹화된 연산들의 입력 데이터의 부분을 처리하기 위한 프로그램 명령어들을 포함할 수 있다.
일부 실시예들에서, 일련의 연산들은 일련의 콘볼루션 연산들을 포함할 수 있다. 대안적으로, 이러한 일련의 연산들은 일련의 텐서 연산들을 포함할 수 있다. 예컨대, 이러한 일련의 연산들은 일련의 풀링, 일련의 업스케일링 또는 일련의 ReLU들을 포함할 수 있다. 일부 실시예들에서는 메모리 유닛이 SRAM을 포함할 수 있다.
일부 실시예들에서는 제1 연산의 출력 데이터의 양이 제1 연산의 입력 데이터의 양과, 그러한 제1 연산의 하나 이상의 파라미터들에 기초하여 결정될 수 있다. 일부 실시예들에서는, 그룹화된 연산들의 출력 데이터의 양이 그룹화된 연산들의 입력 데이터의 양과, 그룹화된 연산들의 하나 이상의 파라미터들에 기초하여 결정될 수 있다. 일부 실시예들에서는, 적어도 하나의 제2 연산이 제1 연산에 바로 인접하는 일련의 연산들로부터의 연산을 포함할 수 있다. 일부 경우들에서, 적어도 하나의 제2 연산은 제1 연산 직전에 오는 일련의 연산들로부터의 연산을 포함할 수 있다. 그러한 적어도 하나의 제2 연산은 제1 연산의 직후에 오는 일련의 연산들로부터의 연산을 포함할 수 있다. 적어도 하나의 제2 연산은 제1 연산 직전에 오는 일련의 연산들로부터의 연산과 제1 연산 직후에 오는 일련의 연산들로부터의 연산을 포함할 수 있다.
일부 실시예들에서는, 처리(c)를 위한 프로그램 명령어들이 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하는지를 결정하기 위한 프로그램 명령어들을 포함할 수 있다. 일부 경우들에서, 처리(c)를 위한 프로그램 명령어들은, 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않을 때까지, 적어도 하나의 제2 연산에서 연산들의 개수가 점진적으로 증가시키기 위한 프로그램 명령어들을 포함할 수 있다. 예컨대, 처리(c)를 위한 프로그램 명령어들은 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 출력 데이터를 저장하기 위한 프로그램 명령어들을 더 포함할 수 있다. 예컨대, 처리(c)를 위한 프로그램 명령어들은 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터를 저장하기 위한 프로그램 명령어들을 더 포함할 수 있다. 예컨대, 처리(c)를 위한 프로그램 명령어들은 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터와 출력 데이터를 저장하기 위한 프로그램 명령어들을 더 포함할 수 있다.
일부 실시예들에서, 그룹화된 연산들의 입력 데이터의 부분은 입력 데이터와 한계 데이터의 N개의 같은 부분들 중 하나를 포함할 수 있고, N은 2 이상인 정수이다. 일부 경우들에서, 처리(c)를 위한 프로그램 명령어들은 N의 값이 최소이도록 적어도 하나의 제2 연산을 결정하기 위한 프로그램 명령어들을 포함할 수 있다. 처리(d)를 위한 프로그램 명령어들은 적어도 N번 수행될 수 있다. 그룹화된 연산들의 입력 데이터의 부분은 그룹화된 연산들의 입력 데이터의 또 다른 부분의 적어도 한 부분을 포함할 수 있다. 일부 경우들에서, N은 (1) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양, (2) 메모리 유닛의 용량, 및 (3) 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정될 수 있다.
일부 실시예들에서, 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터가 메모리 유닛의 상이한 슬라이스들에 저장될 수 있다.
일부 실시예들에서, 처리(c)를 위한 프로그램 명령어들은 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 출력 데이터를 저장하기 위한 프로그램 명령어들을 더 포함할 수 있다. 처리(d)를 위한 프로그램 명령어들은 메모리 유닛에 그룹화된 연산들의 입력 데이터와 중간 데이터 결과를 저장하기 위한 프로그램 명령어들을 포함할 수 있다.
일부 실시예들에서, 처리(c)를 위한 프로그램 명령어들은 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터를 저장하기 위한 프로그램 명령어들을 더 포함할 수 있다. 처리(d)를 위한 프로그램 명령어들은 외부 메모리로부터 그룹화된 연산들의 입력 데이터의 부분을 수신하기 위한 프로그램 명령어들을 포함할 수 있다. 처리(d)를 위한 프로그램 명령어들은 메모리 유닛에 그룹화된 연산들의 중간 데이터 결과와 출력 데이터를 저장하기 위한 프로그램 명령어들을 포함할 수 있다.
일부 실시예들에서, 처리(d)를 위한 프로그램 명령어들은 메모리 유닛에 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터를 저장하기 위한 프로그램 명령어들을 포함할 수 있다. 일부 실시예들에서, 비일시적인 컴퓨터 판독 가능한 매체가 (e) 그룹화된 연산의 출력 데이터를 얻기 위해, 그룹화된 연산의 출력 데이터의 부분을 얻고 그룹화된 연산의 출력 데이터의 각각의 부분을 어셈블링하기 위한 프로그램 명령어들을 더 포함할 수 있다.
또 다른 양태에서는, 본 출원이 하기 내용과 관계된다:
1. 데이터 처리 방법으로서, 상기 방법은:
(a) 일련의 연산들에 의해 처리될 입력 데이터를 수신하는 단계;
(b) 일련의 연산들로부터 제1 연산을 식별하는 단계로서, 상기 제1 연산은 메모리 유닛의 용량을 초과하는 입력 데이터와 출력 데이터의 양을 가지는, 식별 단계;
(c) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양과 메모리 유닛의 용량에 적어도 부분적으로 기초한 제1 연산으로 그룹화될 일련의 연산들로부터 적어도 하나의 제2 연산을 선택하는 단계; 및
(d) 그룹화된 연산들의 입력 데이터의 부분을 처리하는 단계를 포함하고,
상기 입력 데이터의 부분은 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정된다.
2. 아이템(item) 1의 방법으로서, 일련의 연산들은 일련의 콘볼루션 연산들을 포함한다.
3. 아이템 1의 방법으로서, 일련의 연산들은 일련의 텐서 연산들을 포함한다.
4. 아이템 3의 방법으로서, 일련의 연산들은 일련의 풀링을 포함한다.
5. 아이템 3의 방법으로서, 일련의 연산들은 일련의 업스케일링을 포함한다.
6. 아이템 3의 방법으로서, 일련의 연산들은 일련의 ReLU들을 포함한다.
7. 아이템 1의 방법으로서, 메모리 유닛은 SRAM을 포함한다.
8. 아이템 1의 방법으로서, 제1 연산의 출력 데이터의 양은 제1 연산의 입력 데이터의 양과 제1 연산의 하나 이상의 파라미터들에 기초하여 결정된다.
9. 아이템 1의 방법으로서, 그룹화된 연산들의 출력 데이터의 양은 그룹화된 연산들의 입력 데이터의 양과 그룹화된 연산들의 하나 이상의 파라미터들에 기초하여 결정된다.
10. 아이템 1의 방법으로서, 적어도 하나의 제2 연산은 제1 연산에 바로 인접하는 일련의 연산들로부터의 연산을 포함한다.
11. 아이템 10의 방법으로서, 적어도 하나의 제2 연산은 제1 연산의 직전에 오는 일련의 연산들로부터의 연산을 포함한다.
12. 아이템 10의 방법으로서, 적어도 하나의 제2 연산은 제1 연산의 직후에 오는 일련의 연산들로부터의 연산을 포함한다.
13. 아이템 10의 방법으로서, 적어도 하나의 제2 연산은 제1 연산의 직전에 오는 일련의 연산들로부터의 연산과 제1 연산의 직후에 오는 일련의 연산들로부터의 연산을 포함한다.
14. 아이템 1의 방법으로서, 단계 (c)는 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하는지를 결정하는 것을 포함한다.
15. 아이템 14의 방법으로서, 단계 (c)는 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않을 때까지, 적어도 제2 연산에서의 연산들의 개수를 점진적으로 증가시키는 것을 포함한다.
16. 아이템 15의 방법으로서, 단계 (c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 출력 데이터를 저장하는 것을 더 포함한다.
17. 아이템 15의 방법으로서, 단계 (c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터를 저장하는 것을 더 포함한다.
18. 아이템 15의 방법으로서, 단계 (c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터와 출력 데이터를 저장하는 것을 더 포함한다.
19. 아이템 1의 방법으로서, 그룹화된 연산들의 입력 데이터의 부분은 입력 데이터와 한계 데이터의 N개의 같은 부분들 중 하나를 포함하고, N은 2 이상인 정수이다.
20. 아이템 19의 방법으로서, 단계 (c)는 N의 값이 최소이도록 적어도 하나의 제2 연산을 결정하는 것을 포함한다.
21. 아이템 19의 방법으로서, (d) 단계는 적어도 N번 수행된다.
22. 아이템 19의 방법으로서, 그룹화된 연산들의 입력 데이터의 부분은 그룹화된 연산들의 입력 데이터의 또 다른 부분의 적어도 한 부분을 포함한다.
23. 아이템 19의 방법으로서, N은 (1) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양, (2) 메모리 유닛의 용량, 및 (3) 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정된다.
24. 아이템 1의 방법으로서, 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터는 메모리 유닛의 상이한 슬라이스들에 저장된다.
25. 아이템 1의 방법으로서, 단계 (c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들에서의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 출력 데이터를 저장하는 것을 더 포함한다.
26. 아이템 25의 방법으로서, 단계 (d)는 메모리 유닛에 그룹화된 연산들의 입력 데이터와 중간 데이터 결과를 저장하는 것을 포함한다.
27. 아이템 1의 방법으로서, 단계 (c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들에서의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터를 저장하는 것을 더 포함한다.
28. 아이템 27의 방법으로서, 단계 (d)는 외부 메모리로부터 그룹화된 연산들의 입력 데이터의 부분을 수신하는 것을 포함한다.
29. 아이템 27의 방법으로서, 단계 (d)는 메모리 유닛에 그룹화된 연산들의 중간 데이터 결과와 출력 데이터를 저장하는 것을 포함한다.
30. 아이템 1의 방법으로서, 단계 (d)는 메모리 유닛에 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터를 저장하는 것을 포함한다.
31. 아이템 1의 방법으로서, (e) 그룹화된 연산의 출력 데이터를 얻기 위해, 그룹화된 연산의 출력 데이터의 부분을 얻고 그룹화된 연산의 출력 데이터의 각 부분을 어셈블링하는 단계를 더 포함한다.
32. 데이터 처리의 시스템으로서, 상기 시스템은:
하나 이상의 프로세서들;
적어도 하나의 메모리 유닛; 및
하나 이상의 메모리들을 포함하고,
상기 하나 이상의 메모리들은 상기 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금:
(a) 일련의 연산들에 의해 처리될 입력 데이터를 수신하고;
(b) 메모리 유닛의 용량을 초과하는 입력 데이터와 출력 데이터의 양을 가지는 제1 연산을 일련의 연산들로부터 식별하며;
(c) 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양과 메모리 유닛의 용량에 적어도 부분적으로 기초한 제1 연산으로 그룹화될 일련의 연산들로부터 적어도 하나의 제2 연산을 선택하고;
(d) 그룹화된 연산들의 입력 데이터의 한 부분을 처리하게 하는 명령어들을 내부에 저장한다.
33. 아이템 32의 시스템으로서, 일련의 연산들은 일련의 콘볼루션 연산들을 포함한다.
34. 아이템 32의 시스템으로서, 일련의 연산들은 일련의 텐서 연산들을 포함한다.
35. 아이템 34의 시스템으로서, 일련의 연산들은 일련의 풀링을 포함한다.
36. 아이템 34의 시스템으로서, 일련의 연산들은 일련의 업스케일링을 포함한다.
37. 아이템 34의 시스템으로서, 일련의 연산들은 일련의 ReLU들을 포함한다.
38. 아이템 32의 시스템으로서, 메모리 유닛은 SRAM을 포함한다.
39. 아이템 32의 시스템으로서, 제1 연산의 출력 데이터의 양은 제1 연산의 입력 데이터의 양과 제1 연산의 하나 이상의 파라미터들에 기초하여 결정된다.
40. 아이템 32의 시스템으로서, 그룹화된 연산들의 출력 데이터의 양은 그룹화된 연산들의 입력 데이터의 양과 그룹화된 연산들의 하나 이상의 파라미터들에 기초하여 결정된다.
41. 아이템 32의 시스템으로서, 적어도 하나의 제2 연산은 제1 연산에 바로 인접하는 일련의 연산들로부터의 연산을 포함한다.
42. 아이템 41의 시스템으로서, 적어도 하나의 제2 연산은 제1 연산의 직전에 오는 일련의 연산들로부터의 연산을 포함한다.
43. 아이템 41의 시스템으로서, 적어도 하나의 제2 연산은 제1 연산의 직후에 오는 일련의 연산들로부터의 연산을 포함한다.
44. 아이템 41의 시스템으로서, 적어도 하나의 제2 연산은 제1 연산의 직전에 오는 일련의 연산들로부터의 연산과 제1 연산의 직후에 오는 일련의 연산들로부터의 연산을 포함한다.
45. 아이템 32의 시스템으로서, (c)는 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하는지를 결정하는 것을 포함한다.
46. 아이템 45의 시스템으로서, (c)는 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않을 때까지, 적어도 하나의 제2 연산에서 연산들의 개수를 점진적으로 증가시키는 것을 포함한다.
47. 아이템 46의 시스템으로서, (c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 출력 데이터를 저장하는 것을 더 포함한다.
48. 아이템 46의 시스템으로서, (c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터를 저장하는 것을 더 포함한다.
49. 아이템 46의 시스템으로서, (c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터와 출력 데이터를 저장하는 것을 더 포함한다.
50. 아이템 32의 시스템으로서, 그룹화된 연산들의 입력 데이터의 부분은 입력 데이터와 한계 데이터의 N개의 같은 부분들 중 하나를 포함하고, N은 2 이상인 정수이다.
51. 아이템 50의 시스템으로서, (c)는 N의 값이 최소이도록 적어도 하나의 제2 연산을 결정하는 것을 포함한다.
52. 아이템 50의 시스템으로서, (d)는 적어도 N번 수행된다.
53. 아이템 50의 시스템으로서, 그룹화된 연산들의 입력 데이터의 부분은 그룹화된 연산들의 입력 데이터의 또 다른 부분의 적어도 한 부분을 포함한다.
54. 아이템 50의 시스템으로서, N은 (1) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양, (2) 메모리 유닛의 용량, 및 (3) 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정된다.
55. 아이템 32의 시스템으로서, 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터는 메모리 유닛의 상이한 슬라이스들에 저장된다.
56. 아이템 32의 시스템으로서, (c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들에서의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 출력 데이터를 저장하는 것을 더 포함한다.
57. 아이템 56의 시스템으로서, (d)는 메모리 유닛에 그룹화된 연산들의 입력 데이터와 중간 데이터 결과를 저장하는 것을 포함한다.
58. 아이템 32의 시스템으로서, (c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들에서의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 입력 데이터를 저장하는 것을 더 포함한다.
59. 아이템 58의 시스템으로서, (d)는 외부 메모리로부터 그룹화된 연산들의 입력 데이터의 부분을 수신하는 것을 포함한다.
60. 아이템 58의 시스템으로서, (d)는 메모리 유닛에 그룹화된 연산들의 중간 데이터 결과와 출력 데이터를 저장하는 것을 포함한다.
61. 아이템 32의 시스템으로서, (d)는 메모리 유닛에 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터를 저장하는 것을 포함한다.
62. 아이템 32의 시스템으로서, (e) 그룹화된 연산의 출력 데이터를 얻기 위해, 하나 이상의 프로세서들에 의해 실행될 때, 그러한 하나 이상의 프로세서들로 하여금 그룹화된 연산의 출력 데이터의 부분을 얻고 그룹화된 연산의 출력 데이터의 각 부분을 어셈블링하게 하는 명령어들을 하나 이상의 메모리들의 내부에 저장한다.
63. 하나 이상의 컴퓨터 프로세서들에 의해 실행될 때, 데이터 처리의 방법을 구현하는 기계 실행 가능한 코드를 포함하는 비일시적 컴퓨터 판독 가능한 매체로서, 이러한 비일시적 컴퓨터 판독 가능한 매체는:
(a) 일련의 연산들에 의해 처리될 입력 데이터를 수신하기 위한 프로그램 명령어들;
(b) 그러한 일련의 연산들로부터, 메모리 유닛의 용량을 초과하는 입력 데이터와 출력 데이터의 양을 가지는 제1 연산을 식별하기 위한 프로그램 명령어들;
(c) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양과 메모리 유닛의 용량에 적어도 부분적으로 기초한 제1 연산으로 그룹화될 일련의 연산들로부터 적어도 하나의 제2 연산을 선택하기 위한 프로그램 명령어들; 및
(d) 입력 데이터의 부분이 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정되는, 그룹화된 연산들의 입력 데이터의 부분을 처리하기 위한 프로그램 명령어들을 포함한다.
64. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, 그러한 일련의 연산들은 일련의 콘볼루션 연산들을 포함한다.
65. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, 그러한 일련의 연산들은 일련의 텐서 연산들을 포함한다.
66. 아이템 66의 비일시적 컴퓨터 판독 가능한 매체로서, 그러한 일련의 연산들은 일련의 풀링을 포함한다.
67. 아이템 66의 비일시적 컴퓨터 판독 가능한 매체로서, 그러한 일련의 연산들은 일련의 업스케일링을 포함한다.
68. 아이템 66의 비일시적 컴퓨터 판독 가능한 매체로서, 그러한 일련의 연산들은 일련의 ReLU들을 포함할 수 있다.
69. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, 메모리 유닛이 SRAM을 포함한다.
70. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, 제1 연산의 출력 데이터의 양은 제1 연산의 입력 데이터의 양과 제1 연산의 하나 이상의 파라미터들에 기초하여 결정된다.
71. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, 그룹화된 연산들의 출력 데이터의 양은 그룹화된 연산들의 입력 데이터의 양과 그룹화된 연산들의 하나 이상의 파라미터들에 기초하여 결정된다.
72. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, 적어도 하나의 제2 연산은 제1 연산에 바로 인접하는 일련의 연산들로부터의 연산을 포함한다.
73. 아이템 72의 비일시적 컴퓨터 판독 가능한 매체로서, 적어도 하나의 제2 연산은 제1 연산 직전에 오는 일련의 연산들로부터의 연산을 포함한다.
74. 아이템 72의 비일시적 컴퓨터 판독 가능한 매체로서, 적어도 하나의 제2 연산은 제1 연산 직후에 오는 일련의 연산들로부터의 연산을 포함한다.
75. 아이템 72의 비일시적 컴퓨터 판독 가능한 매체로서, 적어도 하나의 제2 연산은 제1 연산 직전에 오는 일련의 연산들로부터의 연산과 제1 연산 직후에 오는 일련의 연산들로부터의 연산을 포함한다.
76. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, (c)를 위한 프로그램 명령어들은 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하는지를 결정하기 위한 프로그램 명령어들을 포함한다.
77. 아이템 76의 비일시적 컴퓨터 판독 가능한 매체로서, (c)를 위한 프로그램 명령어들은 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않을 때까지, 적어도 하나의 제2 연산에서 연산들의 개수가 점진적으로 증가시키기 위한 프로그램 명령어들을 포함한다.
78. 아이템 77의 비일시적 컴퓨터 판독 가능한 매체로서, (c)를 위한 프로그램 명령어들은 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수들의 수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 그룹화된 연산들의 출력 데이터를 외부 메모리에 저장하기 위한 프로그램 명령어들을 더 포함한다.
79. 아이템 77의 비일시적 컴퓨터 판독 가능한 매체로서, (c)를 위한 프로그램 명령어들은 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 그룹화된 연산들의 입력 데이터를 외부 메모리에 저장하기 위한 프로그램 명령어들을 더 포함한다.
80. 아이템 77의 비일시적 컴퓨터 판독 가능한 매체로서, (c)를 위한 프로그램 명령어들은 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 그룹화된 연산들의 입력 데이터와 출력 데이터를 외부 메모리에 저장하기 위한 프로그램 명령어들을 더 포함한다.
81. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, 그룹화된 연산들의 입력 데이터의 부분은 입력 데이터와 한계 데이터의 N개의 같은 부분들 중 하나를 포함하고, N은 2 이상인 정수이다.
82. 아이템 81의 비일시적 컴퓨터 판독 가능한 매체로서, (c)를 위한 프로그램 명령어들은 N의 값이 최소이도록 적어도 하나의 제2 연산을 결정하기 위한 프로그램 명령어들을 포함한다.
83. 아이템 81의 비일시적 컴퓨터 판독 가능한 매체로서, (d)를 위한 프로그램 명령어들은 적어도 N번 실행된다.
84. 아이템 81의 비일시적 컴퓨터 판독 가능한 매체로서, 그룹화된 연산들의 입력 데이터의 부분은 그룹화된 연산들의 입력 데이터의 또 다른 부분의 적어도 일부를 포함한다.
85. 아이템 81의 비일시적 컴퓨터 판독 가능한 매체로서, N은 (1) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양, (2) 메모리 유닛의 용량, 및 (3) 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정된다.
86. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터는 메모리 유닛의 상이한 슬라이스들에서 저장된다.
87. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, (c)를 위한 프로그램 명령어들은 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수들의 수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 그룹화된 연산들의 출력 데이터를 외부 메모리에 저장하기 위한 프로그램 명령어들을 더 포함한다.
88. 아이템 87의 비일시적 컴퓨터 판독 가능한 매체로서, (d)를 위한 프로그램 명령어들은 메모리 유닛에 그룹화된 연산들의 입력 데이터와 중간 데이터 결과를 저장하기 위한 프로그램 명령어들을 포함한다.
89. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, (c)를 위한 프로그램 명령어들은 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수들의 수와 같고, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 그룹화된 연산들의 입력 데이터를 외부 메모리에 저장하기 위한 프로그램 명령어들을 더 포함한다.
90. 아이템 89의 비일시적 컴퓨터 판독 가능한 매체로서, (d)를 위한 프로그램 명령어들은 외부 메모리로부터 그룹화된 연산들의 입력 데이터의 부분을 수신하기 위한 프로그램 명령어들을 포함한다.
91. 아이템 89의 비일시적 컴퓨터 판독 가능한 매체로서, (d)를 위한 프로그램 명령어들은 그룹화된 연산들의 중간 데이터 결과와 출력 데이터를 메모리 유닛에 저장하기 위한 프로그램 명령어들을 포함한다.
92. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, (d)를 위한 프로그램 명령어들은 그룹화된 연산들의 입력 데이터, 중간 데이터 결과, 및 출력 데이터를 메모리 유닛에 저장하기 위한 프로그램 명령어들을 포함한다.
93. 아이템 63의 비일시적 컴퓨터 판독 가능한 매체로서, (e)를 위한 프로그램 명령어들은 그룹화된 연산의 출력 데이터를 얻기 위해, 그룹화된 연산의 출력 데이터의 부분을 얻고 그룹화된 연산의 출력 데이터의 각 부분을 어셈블링하기 위한 프로그램 명령어들을 더 포함한다.
본 발명의 상이한 양태들이 개별적으로, 집합적으로, 또는 각각이 결합된 것으로 평가될 수 있다는 점을 이해하게 된다. 본 명세서에서 묘사된 본 발명의 다양한 양태들은 아래에 제시된 특별한 적용예들 중 임의의 것에 적용될 수 있다.
당업자라면 후속하는 상세한 설명으로부터 본 개시물의 추가 양태들과 장점들을 즉시 알 수 있게 되고, 이 경우 단순히 본 개시물을 실행하기 위해 예측된 최상의 모드의 예시를 통해 본 개시물의 전형적인 실시예들만이 도시되고 설명된다. 실현되는 바와 같이, 본 개시물은 다른 그리고 상이한 실시예로 구현될 수 있고, 그것의 여러 가지의 세부 사항은 모두 본 개시물로부터 벗어나지 않으면서, 다양하고 명료한 점들에서 변경이 이루어질 수 있다. 따라서, 도면들과 설명은 한정적인 것이 아니고 사실상 예시적인 것으로 여겨져야 한다.
참조에 의한 결합
본 명세서에서 언급된 모든 공보들, 특허들, 및 특허 출원들은, 각각의 개별 공보, 특허, 또는 특허 출원들이 참조에 의해 결합되는 것으로 명확히 그리고 개별적으로 나타내어 있을지라도 동일한 정도로 본 명세서에 참조 결합된다.
본 발명의 새로운 특징들은 첨부된 청구항들에서 특이성을 가지고 제시된다. 본 발명의 특징들과 장점들의 더 나은 이해는, 본 발명의 원리들이 활용되는 예시적인 실시예들을 제시하는 후속하는 상세한 설명과 첨부 도면들을 참조하여 얻어진다.
도 1은 하나 이상의 콘볼루션 층들, 하나 이상의 풀링 층들, 및 다양한 다른 연산들을 포함하는 전형적인 CNN 시스템을 예시하는 도면.
도 2는 일련의 데이터 연산을 보여주는 그림을 예시하는 도면.
도 3은 각각의 연산의 데이터 양이 메모리 유닛의 용량을 초과하지 않는 일련의 데이터 연산을 보여주는 그림을 예시하는 도면.
도 4는 연산의 데이터 양이 메모리 유닛의 용량을 초과하는 일련의 데이터 연산을 보여주는 그림을 예시하는 도면.
도 5는 본 발명의 실시예들에 따라서, 메모리 유닛의 용량을 초과하는 데이터 양을 가지는 연산을 또 다른 것과 그룹화하는 스킴(scheme)을 보여주는 그림을 예시하는 도면.
도 6은 본 발명의 실시예들에 따라서, 메모리 유닛의 용량을 초과하는 데이터 양을 가지는 연산을 또 다른 것과 그룹화하는 또 다른 스킴을 보여주는 그림을 예시하는 도면.
도 7은 본 발명의 실시예들에 따른 데이터 연산의 전형적인 방법의 흐름도를 보여주는 도면.
도 8은 본 출원에서 개시된 임의의 컴퓨팅(computing) 시스템을 구현하도록 구성될 수 있는 컴퓨터 시스템을 보여주는 도면.
본 발명의 바람직한 실시예들이 본 명세서에서 도시되고 설명되었지만, 당업자에게는 그러한 실시예들이 오로지 예로서 제공되는 것이라는 점이 명백할 것이다. 이제 본 발명으로부터 벗어나지 않으면서, 다수의 변형예, 변경예, 및 대체예가 당업자의 눈에 띄게 될 것이다. 본 명세서에서 설명된 본 발명의 실시예들에 대한 다양한 대안예들이 본 발명을 실시할 때 사용될 수 있음이 이해되어야 한다.
임의의 데이터 연산의 입력 데이터와 출력 데이터가 모두 메모리 유닛(내장 장치의 온-칩(on-chip) 메모리)에 저장되는 것을 보장함으로써 일련의 데이터 연산의 효율을 개선하기 위한 데이터 처리 시스템 및 방법들이 제공된다. 본 명세서에서 개시된 바와 같은 시스템들과 방법들은, 출력 데이터의 부분을 얻기 위해 입력 데이터의 부분이 처리될 수 있는 콘볼루션 연산들에서 데이터 처리를 위해 특별히 적합하고, 이 경우 전체 출력 데이터는 데이터의 각각의 부분들을 모음으로서 얻어질 수 있다. 메모리 유닛의 용량을 초과하는 입력 데이터와 출력 데이터의 양을 가지는 제1 연산은 일련의 데이터 연산 중에서 식별될 수 있다. 그룹화된 연산의 전반적인 입력 데이터 및 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않도록 제1 연산은 제2 연산과 그룹화될 수 있다. 그룹화된 연산은 중간 데이터 결과의 양에 적어도 부분적으로 기초한 복수의 연산들로 쪼개어질 수 있다. 복수의 연산들은 그룹화된 연산의 출력 데이터를 얻기 위해 순차적으로 수행될 수 있다. 일부 실시예들에서, 일련의 데이터 연산은 일련의 콘불루션 연산들을 포함할 수 있다. 대안적으로, 이러한 일련의 데이터 연산은 풀링, 업스케일링 또는 ReLU(Rectified Linear Unit)과 같은 일련의 텐서 연산들을 포함할 수 있다.
본 명세서에서 제공된 시스템들과 방법은 현재 기술들에 비해 더 낮은 비용이 들고 계산 효율의 개선되었다는 장점을 가질 수 있다. 예를 들면, 심지어 임의의 데이터 연산의 입력 데이터 및 출력 데이터의 양이 내장 장치의 온-칩 메모리 유닛의 용량을 초과할지라도 외부 메모리 저장소의 사용이 회피될 수 있다. 본 명세서에서 설명된 본 발명의 다양한 양태들은 아래에 제시된 특별한 적용예들 중 임의의 것에 적용될 수 있다. 이러한 방법들 및 시스템들은 콘볼루션 신경망(neural network)들과 다른 딥 러닝(deep learning) 적용예들에 적용될 수 있다. 본 발명의 상이한 양태들은 개별적으로, 집합적으로 또는 서로 결합된 방식으로 평가될 수 있다는 점이 이해될 것이다.
도 1은 하나 이상의 콘볼루션 층들, 하나 이상의 풀링 층들, 및 다양한 다른 연산들을 포함하는 전형적인 CNN 시스템(101)(Krizhevsky, A., Sutskever, I.,& Hilton, G.E.(3012), Imagenet classification with deep convolutional neural networks, Advances in neural information processing systems, pp. 1097-1105)을 예시한다. 도 1의 (a) 부분에 예시된 것처럼, CNN 시스템은 상이한 타입의 연산들에 관한 임의의 개수의 층들과 임의의 개수의 층들을 포함할 수 있다. 콘볼루션 신경망들의 가장 간단한 아키텍처는 콘볼루션 층들과 풀링 층들의 시퀀스(sequence)에 후속하는 입력 층(예컨대, 이미지들)으로 시작하고, 완전히 연결된(fully-connected) 층들로 끝난다. 일부 경우들에서, 콘볼루션 층들 다음에는 ReLU 활성화 기능(activation function)의 층이 온다. 예를 들면 포화하는 쌍곡선 탄젠트(saturating hyperbolic tangent), 유사성(identity), 바이너리 스텝(binary step), 로지스틱(logistic), 아크탄(arcTan), 소프트사인(softsign), 파라메테릭 정류된 선형 유닛(parameteric rectified linear unit), 지수 선형 유닛(exponential linear unit), 소프트플러스(softPlus), 벤트 아이덴티니(bent identity), 소프트익스포넨셜(softExponential), 사인 곡선(Sinusoid), 싱크(Sinc), 가우시안(Gaussian), 시그모이드 함수(sigmoid function), 및 다양한 다른 것들과 같은 다른 활성화 함수들이 또한 사용될 수 있다. 콘볼루셔날, 풀링, 및 ReLU 층들이 학습 가능한 특징들 추출기들(learnable features extractors)로서 작용할 수 있고, 완전히 연결된 층들은 기계 학습 분류기(machine learning classifier)로서 작용할 수 있다.
일부 경우들에서, 콘볼루션 층들과 완전히 연결된 층들은 파라미터들 또는 웨이트(weight)들을 포함할 수 있다. 이들 파라미터들 또는 웨이트들은 양성 단계(training phase)에서 학습될 수 있다. 파라미터들은 CNN이 계산하는 클래스 스코어(class score)들이 각 이미지에 관한 트레이닝 세트에서의 라벨들과 일치하도록 경사 하강법(gradient descent)으로 양성될 수 있다. 파라미터들은 제작 또는 적용 과정과 동일한 하드웨어를 사용하여 수행될 수 있거나 수행될 수 없는 백 프로파게이션(back propagation) 신경망 양성 과정으로부터 얻어질 수 있다.
콘볼루션 층은 하나 이상의 필터들을 포함할 수 있다. 이들 필터들은 그것들이 입력 데이터에서 동일한 특정 구조를 볼 때 활성화될 수 있다. 일부 경우들에서, 입력 데이터는 하나 이상의 이미지들일 수 있고, 콘볼루션 층에서는 하나 이상의 필터 연산들이 이미지의 화소들에 적용될 수 있다. 콘볼루션 층은 필터의 엔트리(entry)와 입력 이미지의 엔트리 사이의 벡터의 내적(dot product)들을 공간적으로 계산하는 이미지 위에서 슬라이드(slide)하는 학습 가능한 필터들의 세트(set)를 포함할 수 있다. 필터 연산들은 도 1의 (b) 부분에서 예시적으로 도시된 것처럼 전체 이미지에 걸쳐 커널(kernel)의 콘볼루션으로서 구현될 수 있다. 필터는 본 개시물 전반에 걸쳐 상호 교환 가능하게 커널을 가리킬 수 있다. 커널은 하나 이상의 파라미터들을 포함할 수 있다. 필터 연산들의 결과들은 채널들에 걸쳐 함께 더해질 수 있어 콘볼루션 층으로부터 그 다음 풀링 층으로의 출력을 제공한다. 콘볼루션 층은 고차원(high convolution) 콘볼루션들을 수행할 수 있다. 필터들은 입력 이미지의 전체 깊이까지 연장되어야 한다. 예를 들면, 만약 사이즈가 32×32인 착색된(colored) 이미지에 사이즈가 5×5인 필터를 적용하기를 원한다면, 필터가 그러한 이미지의 모든 3개의 컬러 채널들(적색, 녹색, 청색)을 포함(cover)하기 위해 깊이(3)(5×5×3)를 가져야 한다.
일부 경우들에서, 콘볼루션 층은 뎁스와이즈(depthwise) 분리 가능한 콘볼루션일 수 있다. 그러한 시나리오에서는 콘볼루션 층이 뎁스와이즈 콘볼루션의 출력들을 결합하기 위해 1×1 포인트와이즈(pointwise) 콘볼루션과 뎁스와이즈 콘볼루션으로 인수분해(factorize)될 수 있다. 콘볼루션 층은 필터링을 위한 층(즉, 뎁스와이즈 콘볼루션 층)과 결합을 위한 층(즉, 포인트와이즈 콘볼루션 층)으로 쪼개질 수 있다. 일부 경우들에서, 뎁스와이즈 콘볼루션 층에서는 각각의 입력 채널에 단일 필터가 적용될 수 있고, 포인트와이즈 콘볼루션 층에서는 1×1 콘볼루션이 뎁스와이즈 층의 출력을 결합하기 위해 수행될 수 있다. 일부 경우들에서는, 뎁스와이즈 콘볼루션 층과 포인트와이즈 콘볼루션 층 모두 다음에 활성화 층이 온다. 일부 경우들에서, CNN이 뎁스와이즈 분리 가능한 콘볼루션들에서 확립될 때, 제1 층은 여전히 풀 콘볼루션(full convolution)일 수 있다.
콘볼루션 층에 공급된 입력 데이터는, 1, 2, 3, 4, 5, 6, 7, 및 그 이상의 차원(dimension)일 수 있다. 일부 실시예들에서, 콘볼루션 층과 같은 입력 층에 공급된 입력 데이터는 데이터 특징들에 의존적일 수 있다. 예를 들면, 만약 입력 데이터가 이미지 데이터이라면, 그러한 입력 데이터는 3차원일 수 있다. 도 1에 도시된 것처럼, 입력 데이터는 3개의 채널들 각각에 관한 224×224 화소들 평면을 나타내는 224×224×3의 볼륨 사이즈(volume size)을 갖는 이미지일 수 있다. 층에 의해 생성된 출력 특징 맵(map)이 나중 층(later layer)에 관한 입력 특징 맵으로서 사용될 수 있다. 숨겨진 층들에 관한 입력 특징 맵(즉, 입력 데이터)의 사이즈는 이전 층들에서의 필터들의 개수와 하나 이상의 하이퍼-파라미터들을 포함하는 인자(factor)들의 개수에 의해 결정될 수 있다. 콘볼루션 층은 끼워넣어진 시각적 특징을 추출하고 출력 특징 맵들을 생성하기 위해 입력 특징 맵들에 필터들을 적용한다. 일부 실시예들에서, 그러한 파라미터들의 차원들을 4차원일 수 있고, 입력/출력 특징 맵들은 3차원일 수 있다. 예를 들면, 각각의 특징 맵은 다수의 채널들에 걸친 2차원 평면들이 포함되는 3차원일 수 있고, 그러한 3차원 특징 맵들은 콘볼루션 층에서 3차원 필터들의 그룹에 의해 처리된다. 일부 경우들에서, 콘볼루션 결과들에 추가되는 1차원 바이어스(bias)가 존재할 수 있다. 예를 들면, C개의 채널들에 걸쳐 H×H(즉, 무게와 높이)의 사이즈를 갖는 입력 특징 맵 평면의 모양이 주어지면, N개의 필터들 각각은 R×R(즉, 무게와 높이) 차원의 필터 평면을 갖는 C개의 채널들을 가지고, 그러한 콘볼루션 층의 계산은 다음과 같이 규정될 수 있다:
Figure pat00001
Figure pat00002
여기서, O,I,W, 및 B는 각각 출력 특징들 맵들, 입력 특징들 맵들, 필터들, 및 바이어스들의 행렬(matrix)들을 나타낸다. U는 스트라이드 사이즈(stride size)를 나타낸다.
각각의 콘볼루션 층은 콘볼루션 연산들에 관한 복수의 파라미터들을 포함할 수 있다. 하나 이상의 필터들이 각각의 콘볼루션 층에 포함될 수 있다. 각각의 필터는 하나 이상의 파라미터들이나 웨이트들을 포함할 수 있다. 필터들/커널들의 사이즈와 필터/커널들의 개수는 각각의 콘볼루션 층에 관해 요구된 파라미터들을 함께 결정할 수 있다. 예를 들면, 콘볼루션 층은 각각이 3개의 채널들에 관한 2×2 평면인 4개의 커널들을 포함할 수 있고, 따라서 그 결과로 생긴 층에 관한 웨이트들의 총 개수는 4×2×2×3이다. 일부 실시예들에서, 파라미터들은 또한 바이어스들을 포함할 수 있다.
콘볼루션 층의 출력 부피의 사이즈는 또한 하이퍼 파라미터들에 의존적일 수 있다. 하이퍼 파라미터들은 또한 콘볼루션 층의 출력 부피의 사이즈를 제어할 수 있다. 일부 경우들에서, 하이퍼 파라미터들은 깊이, 스트라이드, 및 제로-패딩(zero-padding)을 포함할 수 있다.
출력 부피의 깊이는 입력 부피의 동일한 구역에 연결하는 층에서 뉴런(neuron)들의 개수를 제어한다. 이들 뉴런들 모두는 입력에서의 상이한 특징들에 관해 활성화하는 것을 학습하게 된다. 예를 들면, 제1 콘볼루션 층이 입력으로서 로 이미지(raw image)를 취하면, 깊이 차원을 따라 상이한 뉴런들이 다양한 배향된 가장자리들, 또는 컬러의 작은 색깔 부분(blob)들이 존재하는 곳에서 활성화할 수 있다.
스트라이드는 공간 차원들(폭과 높이) 주위에서 깊이 컬럼(depth column)들이 어떻게 배치되는지를 제어한다. 스트라이드가 1일 때에는, 뉴런들의 새로운 깊이 컬럼이 오로지 하나의 공간 유닛만큼 떨어져서 공간 위치들에 배치된다. 이는 컬럼들 사이의 많이 중첩하는 수용장(receptive field)들을 생기게 하고, 또한 큰 출력 부피들이 생기게 한다. 반대로, 만약 더 높은 스트라이들이 사용된다면, 그러한 수용장들은 덜 중첩되고, 그로 인해 생기는 출력 부피는 공간적으로 더 작은 차원들을 가지게 된다.
때때로, 입력 부피의 테두리에서 제로(zero)들로 입력을 덧대는 것이 편리하다. 제로 패딩(zero-padding)의 사이즈는 또 다른 하이퍼 파라미터이다. 제로 패딩은 출력 부피 공간 사이즈를 제어하는 것을 제공한다. 특히, 때때로 입력 부피의 공간 사이즈를 정확하게 보존하는 것이 바람직하다.
출력 부피의 공간 사이즈는 입력 부피 사이즈(W), 콘볼루션 층 뉴런들의 커널 필드 사이즈(K), 그것들이 적용되는 스트라이드 폭(stride with)(S), 및 제로 패딩의 양(P)의 함수로서 계산될 수 있다. 얼마나 많은 뉴런들이 주어진 부피에서 맞추어 끼워질지를 계산하기 위한 공식은 (W-K+2P)/S+1에 의해 주어진다. 만약 이 숫자가 정수가 아니라면, 스트라이드들은 올바르지 않게 설정되고, 뉴런들은 대칭 방식으로 입력 부피에 걸쳐 맞추어 끼워지기 위해 경사질 수 없다. 일반적으로, 스트라이드가 S=1일 때 제로 패딩을 P=(K-1)/2로 설정하는 것은 입력 부피와 출력 부피가 공간적으로 동일한 사이즈를 가지게 되는 것을 보장한다. 일부 경우들에서는, 이전 층의 뉴런들 모두를 사용하는 것이 반드시 필요하지는 않다.
도 1의 (b) 부분은 콘볼루션 층의 계산을 예시한다. 이러한 콘볼루션 층은 입력으로서 N개의 특징 맵들을 수신한다. 각각의 입력 특징 맵은 하나의 출력 특징 맵에서 하나의 화소를 생성하기 위해 K×K개의 커널을 갖는 시프팅 윈도우(shifting window)에 의해 감긴다. 시프팅 윈도우의 스트라이드는 S이고, 이러한 S는 보통은 K보다 작다. M개의 출력 특징 맵들 전부는 그 다음 콘볼루션 층에 관한 입력 특징 맵들의 세트를 형성하게 된다.
도 1의 (a) 부분은 CNN 적용예를 보여준다. 이러한 CNN은 8개의 층들로 이루어진다. 처음 5개의 층들은 콘볼루션 층들이고 6번째부터 8번째 층들은 완전히 연결된 인공 신경망이다. 이러한 알고리즘은 최초의 256×256개의 3 채널 RGB 이미지로부터 3개의 224×224 입력 이미지들을 수신한다. 1000개의 요소들의 출력 벡터는 1000개의 카테고리들의 가능성(likelihood)들을 나타낸다. 도 1에 도시된 것처럼, 층 1은 224×224 해상도로 나타난 3개의 입력 특징 맵들과 55×55 해상도로 나타난 96개의 출력 특징 맵들을 수신한다. 층 1의 출력은 2개의 세트들로 분할되고, 이들 세트 각각은 48개의 특징 맵들의 사이즈를 갖는다. 층 1의 커널 사이즈는 11×11이고, 슬라이딩 윈도우는 4개의 화소들의 스트라이드에서 특징 맵들에 걸쳐 이동한다. 후속하는 층들은 또한 비슷한 구조를 가진다. 다른 층들의 콘볼루션 윈도우의 슬라이딩 스트라이드들은 하나의 화소이다.
특징 맵들의 개수는 이전 층에서 사용된 필터들의 개수를 제어함으로써 제어될 수 있다. 입력 층에서의 특징 맵들의 개수는 채널들(예컨대, R, G, B)의 개수에 대응할 수 있다. 필터는 하나 이상의 파라미터들이나 웨이트들을 포함할 수 있다. 콘볼루션 층은 다수의 필터들을 포함할 수 있다. 일부 경우들에서, 필터들의 개수와 필터의 사이즈(즉, 파라미너들의 개수)는 계산 유닛들을 완전히 사용하기 위해 선택될 수 있거나 하드웨어의 계산 용량(capacity)에 따라서 선택될 수 있다. 일부 경우들에서, 필터들의 개수와 필터들의 사이즈는 높은 효율의 하드웨어 구성이 가변적인 입력 데이터에 관해 사용될 수 있도록 선택될 수 있다.
일부 실시예들에서, 콘볼루션 층 및/또는 완전히 연결된 층은 활성화 층이 후속될 수 있고, 이러한 활성화 층은 ReLU와 같은 것이다. 이러한 ReLU는 0에서 max(0,x) 한계점(thresholding)과 같이 원소별(elementwise) 활성화 함수를 적용할 수 있다. 이는 입력 데이터의 부피가 변경되지 않게 할 수 있다. 예를 들면, 포화하는 쌍곡선 탄젠트, 유사성, 바이너리 스텝, 로지스틱, 아크탄, 소프트사인, 파라메테릭 정류된 선형 유닛, 지수 선형 유닛, 소프트플러스, 벤트 아이덴티니, 소프트익스포넨셜, 사인 곡선, 싱크, 가우시안, 시그모이드 함수 등과 같은 다른 활성화 함수들이 또한 사용될 수 있다. 일부 경우들에서, CNN이 뎁스와이즈 분리 가능한 콘볼루션들을 포함할 때에는, 그러한 뎁스와이즈 콘볼루션과 포인트와이즈 콘볼루션 층들 각각에는 ReLU 층이 후속될 수 있다.
도 1의 (A) 부분에서 예시된 바와 같은 예에서는, CNN 시스템이 여러 개의 콘볼루션 층들과 풀링 또는 서브-샘플링(sub-sampling) 층들을 포함할 수 있다. 풀링 층은 비선형 다운-샘플링(down-sampling)의 형태일 수 있다. 하나의 풀링 층은 감소된 특징 맵들이 쌓인 것(stack)으로 주어진 특징 맵들을 감소시키기 위해 다운-샘플링을 수행할 수 있다. 풀링 층은 네트워크에서의 계산과 파라미터들의 양을 감소시키고 따라서 또한 오버피팅(overfitting)을 제어하기 위해 입력 데이터의 공간 사이즈를 점진적으로 감소시킬 수 있다. 맥스 풀링(max pooling), 평균(average) 풀링, 또는 L2-놈(norm) 풀링과 같은 풀링을 구현하기 위한 여러 개의 함수들이 존재한다. 예를 들면, 맥스 풀링 연산들에서는 주어진 특징 맵들이 중첩하지 않는 직사각형들의 세트로 분할될 수 있고, 각각의 그러한 소구역(sub-region)에 관해, 최대 값을 출력한다. 또 다른 예에서는, 평균 풀링에서 소구역의 평균 값이 출력될 수 있다. 주어진 특징 맵들은 임의의 사이즈만큼 분할될 수 있다. 예를 들면, 풀링은 모든 깊이 슬라이스에서 2인 스트라이드로 적용된 2×2 사이즈의 필터들로 적용될 수 있다. 스트라이드가 2인 2×2 사이즈의 풀링 층은 주어진 특징 맵들을 그것의 본래 사이즈의 1/4까지 축소시킨다.
풀링 층의 출력은 패턴 발견을 수행하기 위해 완전히 연결된 층에 공급될 수 있다. 일부 경우들에서는 완전히 연결된 층이, 필터들이 입력 특징 맵들에서 적용될 수 있는 분류 목적을 위한 것일 수 있다. 그러한 필터들은 입력 특징 맵들과 동일한 사이즈를 가질 수 있다. 완전히 연결된 층은 그것의 입력들에서 웨이트들 또는 파라미터들의 세트를 적용할 수 있고, 완전히 연결된 층의 출력으로서 결과를 축적할 수 있다. 일부 경우들에서, 활성화 층은 완전히 연결된 층 바로 다음에 올 수 있고, CNN 시스템의 결과를 출력할 수 있다. 예를 들면, 분류 목적들을 위해 출력 데이터는 분류 스코어들을 보유하는 벡터일 수 있다.
계산 아키텍처는 미리 양성된(pre-trained) 콘볼루션 신경망일 수 있다. CNN 모델은 하나 이상의 콘볼루션 층들을 포함할 수 있다. CNN 모델은 하나로부터 수백개의 콘볼루션 층들을 포함할 수 있다. CNN 모델은 하나 이상의 풀링 층들을 포함할 수 있다. 일부 경우들에서, 풀링 층은 콘볼루션 층의 바로 다음에 올 수 있다. 일부 실시예들에서, ReLU 활성화 연산들은 콘볼루션 결과들이 즉시 활성화 함수들에 의해 처리되도록 콘볼루션 연산들과 결합된다. 일부 실시예들에서, 콘볼루션 및 풀링 층들은 완전히 연결된 층에 데이터가 전송되기 전에 여러 번 입력 데이터에 적용될 수 있다. 완전히 연결된 층은 패턴이 인식되었는지 여부를 결정하기 위해 테스트되는 최종 출력 값을 출력할 수 있다.
개선된 처리 병렬성(processing parallelism)과, 특별히 설계된 집적 회로를 통한 메모리 접근에 의한 선택 알고리즘들의 구현을 촉진하기 위한 시스템이 제공된다. CNN의 적용과 같은 선택 알고리즘들은 다수의 행렬-행렬 곱셈들 및/또는 행렬-벡터 곱셈들을 포함할 수 있다. 집적 회로는 제어 신호들의 감소된 개수에 기초한 병렬 연산들의 다수의 반복들을 수행할 수 있는 계산 유닛과 메모리 유닛을 포함할 수 있다. 일부 경우들에서는, 데이터의 배치가 미리 결정된 하드웨어 구성으로 정렬되도록, 데이터가 배치되고/되거나 제로(zero)들이 덧대어진다. 이러한 데이터는 하드웨어 회로들의 구성에 기초한 미리 결정된 데이터플로우(dataflow) 또는 데이터 패스(data path)에 따르게 배치될 수 있다.
CNN 시스템에서, 관련된 데이터는 CNN 파라미터들과 입력/출력 특징들을 포함한다. 전술한 바와 같은 전형적인 CNN 시스템은 다수 채널 콘볼루션 층, 최대 또는 평균 풀링 층, ReLU, 및 완전히 연결된 층을 포함할 수 있다. 완전히 연결된 층과 다수 채널 콘볼루션 층들 모두 뉴런들 사이의 연결들의 세기(strength)를 나타내는 수치로 나타낸 많은 개수의 웨이트들 또는 파라미터들을 포함한다. 칩 상의 집적 회로에 로드(load)될 데이터는 호스트 프로세서에 의해 준비될 수 있고 주 메모리에 저장될 수 있으며, 그 데이터는 일괄(batch) 방식으로 칩에 전송될 수 있다.
CNN 파라미터들은 전술한 바와 같이, 웨이트들 또는 파라미터들, 바이어스들, 패딩(padding), 스트라이드, 및 깊이와 같은 하이퍼 파라미터들을 포함하지만 이들에 국한되지 않는 콘볼루션 층에 관한 복수의 파라미터들을 포함할 수 있다. CNN 파라미터들은 또한 완전히 연결된 층과 같은 층들의 다른 타입들에서 사용될 파라미터들을 포함할 수 있다.
그러한 파라미터들은 복수의 그룹들로 배치되고 분류될 수 있다. 일부 실시예들에서, 그러한 파라미터들은 층들별로 그룹화될 수 있다. 예를 들면, CNN 시스템의 상이한 층들은 파라미터들의 상이한 그룹들에 대응할 수 있다. 각각의 층에 관한 파라미터들은 큰 치수의 행렬들일 수 있다. 파라미터들의 그룹은 연속된 공간에 저장될 수 있다. 하나의 그룹에 포함되거나 하나의 층에 대응하는 파라미터들은 연속된 공간에서 연속적으로 저장될 수 있다. 하나의 그룹 내의 파라미터들은 CNN의 층에서 수행된 연산들이나 함수들에 따르게 배치될 수 있다.
입력 데이터는 이미지 데이터 또는 샘플된(sampled) 스피치 신호들을 포함할 수 있다. 예를 들면, 이미지 데이터는 복수의 이미지 화소 값들을 포함할 수 있다. 그러한 데이터는 스칼라(scalar) 정수, 스칼라 부동 소수점, 가득한 정수(packed integer), 가득찬 부동 소수점, 벡터 정수, 벡터 부동 소수점 등과 같은 다양한 데이터 타입들일 수 있다.
도 2는 일련의 데이터 연산(2011 내지 2014)을 보여주는 그림을 예시한다. 도 2에 도시된 예에서, 입력 데이터 A(2001)는 출력 데이터 E(2005)를 얻기 위해 일련의 데이터 연산에 의해 처리될 수 있다. 그러한 일련의 데이터 연산은 순차적으로 수행될 수 있다. 선행하는 연산의 출력 데이터는 그 다음 연산의 입력 데이터로서의 역할을 할 수 있다. 예를 들면, 입력 데이터 A(2001)는 제1 중간 데이터 결과 B(2002)를 얻기 위해, 제1 연산 1(2001)에 의해 먼저 처리된다. 그런 다음 제1 중간 데이터 결과인 B(2002)는 제2 중간 데이터 결과인 C(2003)를 얻기 위해, 제2 연산 2(2012)에 공급되어 처리될 수 있다. 제2 중간 데이터 결과인 C(2003)는 제3 중간 데이터 결과인 D(2004)를 얻기 위해 제3 연산인 3(2013)에 의해 처리될 수 있다. 그런 다음 제3 중간 데이터 결과인 D(2004)가 최종 출력 데이터인 E(2005)를 얻기 위해, 제4 연산 4(2014)에 의해 처리될 수 있다.
일련의 데이터 연산은 일련의 콘볼루션 연산들인 텐서 연산들을 포함할 수 있다. 텐서 연산은 풀링, 업스케일링 또는 ReLU를 포함할 수 있다. 연산의 각각의 타입에 관한 하나 이상의 층들이 제공될 수 있다. 입력 데이터 A는 이미지 데이터, 오디오, 비디오 데이터, 및 다양한 다른 것들일 수 있다. 예컨대, 전형적인 CNN 시스템은 하나 이상의 콘볼루션 층들, 하나 이상의 풀링 층들, 및 다양한 다른 연산들을 포함할 수 있다. CNN 시스템은 임의의 개수의 층들과, 연산들의 상이한 타입들에 관한 임의의 개수의 층들을 포함할 수 있다. 선행하는 층의 출력 데이터는 다음에 오는 층의 입력 데이터일 수 있다.
도 3은 각각의 연산의 데이터 양이 메모리 유닛의 용량을 초과하지 않는 일련의 데이터 연산을 보여주는 그림을 예시한다. 도 3의 왼쪽 부분은 일련의 연산들과 데이터를 보여주고, 도 3의 오른쪽 부분은 메모리 유닛에서의 데이터의 저장소를 보여준다. 도 3에서 도시된 예에서, 입력 데이터인 A(3001)는 출력 데이터인 E(3005)를 얻기 위해 일련의 데이터 연산에 의해 처리될 수 있다. 일련의 데이터 연산은 순차적으로 수행되는 연산 1(3001) 내지 연산 4(3014)을 포함할 수 있다. 선행하는 연산의 출력 데이터는 그 다음에 오는 연산의 입력 데이터로서의 역할을 할 수 있다.
메모리 유닛(3000)은 SRAM, DRAM, SDRAM(synchronous dynamic random-access memory), DDR(double data rate), DDR SDRAM(double data rate synchronous dynamic random-access memory), DDR, DDR2, DDR3, T-RAM, Z-RAM 등을 포함하는 임의의 적합한 RAM일 수 있다. 일부 경우들에서는 메모리 유닛이 내장 장치의 온-칩 메모리일 수 있다.
일부 실시예들에서는, 하나의 연산의 전체 입력 데이터와 전체 출력 데이터가 그러한 연산을 수행할 때 동일한 메모리 유닛에 저장될 수 있다 하나의 연산의 출력 데이터의 사이즈는 입력 데이터의 사이즈와 전술한 바와 같이, 그러한 연산의 인자들(예컨대, 파라미터들)의 개수에 적어도 부분적으로 기초하여 결정될 수 있다. 예컨대, 콘볼루션 연산(예컨대, 콘볼루션 층)의 출력 데이터의 사이즈는 콘볼루션의 깊이, 스트라이드, 및 제로-패딩(zero-padding)과 같은 하이퍼 파라미터들에 의존적일 수 있다. 전형적인 예에서는 입력 데이터(A)가 이용 가능할 때 연산(1)의 출력 데이터(B)의 사이즈가 결정될 수 있고, 출력 데이터(B)에 관한 저장 공간은 메모리 유닛에서 확보될 수 있다. 출력 데이터(B)에 관한 저장 공간은 연속적이거나 메모리 유닛에 있을 수 있고, 예를 들면 출력 데이터(B)는 연속적인 메모리 어드레스를 갖는 저장 공간에 저장될 수 있다. 출력 데이터(B)에 관한 저장 공간은 임의로 메모리 유닛에서 연속적이지 않을 수 있는데, 예를 들면 출력 데이터(B)는 복수의 데이터 단편(data fraction)들로서 메모리 유닛에 저장될 수 있다.
도 3에 도시된 바와 같이, 연산(1)이 수행되기 전에, 입력 데이터(A)는 처리될 데이터로서 메모리 유닛(3000)에 저장될 수 있다. 연산(1)을 수행할 때, 연산(1)의 입력 데이터(A)와 출력 데이터(B) 모두 메모리 유닛에 저장될 수 있다. 연산(1)이 완료된 후, 제1 중간 데이터 결과(B)가 연산(1)의 출력으로서 그리고 또한 연산(2)의 입력으로서 메모리 유닛에 저장될 수 있다. 연산(2)을 수행할 때에는, 연산(2)의 입력 데이터(B)와 출력 데이터(C) 모두 메모리 유닛에 저장될 수 있다. 연산(2)이 완료된 후, 제2 중간 데이터 결과(C)가 연산(2)의 출력과 또한 연산(3)의 입력으로서 메모리 유닛에 저장될 수 있다. 출력 데이터(E)는 일단 모든 연산들(1 내지 4)이 완료되면 메모리 유닛에 저장될 수 있다.
도 3에 도시된 예에서, 메모리 유닛의 용량은 연산들(1 내지 4)에 관해 충분히 크고, 이는 연산들 중 임의의 것에 관한 입력 데이터 및 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않는다는 것을 의미한다. 예를 들면, 연산(1)에 관한 입력 데이터(A)와 출력 데이터(B)는 메모리 유닛의 용량을 초과하지 않고, 연산(2)에 관한 입력 데이터(B)와 출력 데이터(C)의 양은 메모리 유닛의 용량을 초과하지 않으며, 연산(3)에 관한 입력 데이터(C)와 출력 데이터(D)의 양은 메모리 유닛의 용량을 초과하지 않고, 연산(4)에 관한 입력 데이터(D)와 출력 데이터(E)의 양은 메모리 유닛의 용량을 초과하지 않는다. 이러한 전형적인 예에서는, 연산들을 수행시 입력 데이터, 중간 데이터, 및 출력 데이터를 저장하기 위해 어떠한 외부 메모리 장치도 반드시 필요한 것은 아니다.
도 4는 연산의 데이터 양이 메모리 유닛의 용량을 초과하는 일련의 데이터 연산을 보여주는 그림을 예시한다. 도 4의 왼쪽 부분은 일련의 연산들과 데이터를 보여주고, 도 4의 오른쪽 부분은 메모리 유닛(4000)에서의 데이터의 저장을 보여준다. 도 4에 도시된 예에서, 입력 데이터인 A(4001)는 출력 데이터인 E(4005)를 얻기 위해, 일련의 데이터 연산에 의해 처리될 수 있다. 그러한 일련의 데이터 연산은 순차적으로 수행되는 연산 1(4011) 내지 연산 4(4014)을 포함할 수 있다. 선행하는 연산의 출력 데이터는 이어지는 연산의 입력 데이터로서의 역할을 할 수 있다. 예를 들면, 입력 데이터 A(4001)는 제1 중간 데이터 결과인 B(4002)를 얻기 위해, 제1 연산 1(4011)에 의해 먼저 처리된다. 그러한 일련의 연산은 콘볼루션 연산들 또는 텐서 연산들을 포함할 수 있다. 일부 경우들에서는, 하나의 연산의 전체 입력 데이터와 전체 출력 데이터가 그러한 연산을 수행할 때 동일한 메모리 유닛에 저장될 수 있다.
도 4에 도시된 전형적인 예에서, 연산 1이 수행되기 전에, 입력 데이터(A)가 처리될 데이터로서 메모리 유닛에 저장될 수 있다. 연산 1을 수행할 때, 연산 1의 입력 데이터(A)와 출력 데이터(B) 모두 메모리 유닛에 저장될 수 있다. 연산 1이 완료된 후, 제1 중간 데이터 결과(B)가 연산 1의 출력과 또한 연산 2의 입력으로서 메모리 유닛에 저장될 수 있다.
도 4에 도시된 전형적인 예에서, 메모리 유닛의 용량은 연산들(1 내지 4)에 관해 충분히 크지 않는데, 이는 연산들(1 내지 4)의 하나 이상에 관한 입력 데이터 및 출력 데이터의 양이 메모리 유닛의 용량을 초과한다는 것을 의미한다. 예를 들면, 연산 3에 관한 입력 데이터 및 출력 데이터의 양이 메모리 유닛의 용량을 초과한다. 이 경우, 연산 3은 그러한 메모리 유닛 내에서 수행될 수 없다. 이러한 시나리오에 대한 한 가지 해결책은 외부 메모리 장치에 연산 3의 입력 데이터 및/또는 출력 데이터를 저장하는 것이다. 하지만, 외부 메모리 장치 및/또는 시스템 버스 점유(occupation)시 더 낮은 판독/기입 속도로 인해 계산 성능이 감소될 수 있다.
이러한 시나리오에 대한 또 다른 해결책은, 그룹화된 연산들의 전체 입력 데이터 및 전체 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않도록, 하나 이상의 다른 연산들로 연산 3을 그룹화하는 것이다. 일부 경우들에서, 연산 3으로 그룹화될 하나 이상의 연산들은 연산 3에 바로 인접하는 적어도 하나의 연산을 포함할 수 있다. 다양한 연산 그룹화 방식들이 가능할 수 있다. 예컨대, 그룹화된 연산들의 전체 입력 데이터(B)와 전체 출력 데이터(D)의 양이 메모리 유닛의 용량을 초과하지 않는다면 연산 3이 연산 2로 그룹화될 수 있다. 예컨대, 그룹화된 연산들의 전체 입력 데이터(C)와 전체 출력 데이터(E)의 양이 메모리 유닛의 용량을 초과하지 않는다면 연산 3이 연산 4로 그룹화될 수 있다. 예컨대, 그룹화된 연산들의 전체 입력 데이터(A)와 전체 출력 데이터(D)의 양이 메모리 유닛의 용량을 초과하지 않는다면 연산 3이 연산 1과 연산 2로 그룹화될 수 있다. 예컨대, 그룹화된 연산들의 전체 입력 데이터(B)와 전체 출력 데이터(E)의 양이 메모리 유닛의 용량을 초과하지 않는다면 연산 3이 연산 2와 연산 4로 그룹화될 수 있다. 다양한 연산 그룹화 방식들이 이후 도 5와 도 6을 참조하여 묘사될 것이다.
도 5는 본 발명의 실시예들에 따라 서로 연산을 그룹화하는 방식을 보여주는 그림을 예시하고, 그러한 연산은 메모리 유닛의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가진다. 도 5의 왼쪽 부분은 일련의 연산들(5011 내지 5014)과 데이터(5001 내지 5005)를 보여주고, 도 5의 오른쪽 부분은 메모리 유닛(4000)에서의 데이터의 저장을 보여준다. 도 5에 도시된 전형적인 예는 도 4에 도시된 바와 같은 연산 3의 데이터 저장 문제(issue)를 다루기 위한 해결책을 제공하고, 그러한 경우 연산 3의 입력 데이터(C)와 출력 데이터(D)의 양은 메모리 유닛의 용량을 초과한다.
도 5에 도시된 예에서, 메모리 유닛(4000)의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가지는 임의의 제1 연산(예컨대, 연산 3(5013))이 그러한 연산의 입력 데이터와 그러한 연산의 하나 이상의 파라미터들에 적어도 부분적으로 기초하여 식별될 수 있다. 예컨대, 콘볼루션 연산(예컨대, 콘볼루션 층)의 출력 데이터의 사이즈는 전술한 바와 같이 그러한 콘볼루션의 깊이, 스트라이드, 및 제로-패딩과 같은 하이퍼 파라미터들에 의존적일 수 있다. 도시된 예에서, 연산 3(5013)의 출력 데이터 D(5004)의 사이즈는 입력 데이터 A(5001)가 이용 가능할 때 결정될 수 있고, 입력 데이터 C(5003)와 출력 데이터 D(5004)의 합이 메모리 유닛에 완전히 저장될 수 있는지에 대한 판단이 이루어질 수 있다.
일련의 연산들 중으로부터 제1 연산이 메모리 유닛의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가진다고 판단될 때 그러한 일련의 연산들로부터 저겅도 하나의 제2 연산이 선택될 수 있다. 제1 연산의 처리는 그룹화된 연산들의 입력 데이터 및 출력 데이터가 메모리 유닛의 용량을 초과하지 않는다면 제2 연산의 처리로 그룹화될 수 있다. 예컨대, 도 5에 도시된 예에서, 연산 3(5013)(예컨대, 제1 연산)과 연산 2(5012)(예컨대, 제2 연산)가 그룹화될 수 있고, 데이터 B(5002)와 데이터 D(5004)의 합이 메모리 유닛(5000)의 용량을 초과하지 않을 때, 전체 입력 데이터 B(5002) 및 전체 출력 데이터 D(5004)로 처리될 수 있다.
제1 연산은 그룹화된 연산들의 입력 데이터 및 출력 데이터가 메모리 유닛의 용량을 초과하지 않는다면 하나 이상의 제2 연산들로 그룹화될 수 있다. 식별된 제1 연산에 관해서는 하나 이상의 그룹화 방식들이 가능할 수 있다. 하나 이상의 제2 연산들은 제1 연산에 바로 인접하는 일련의 연산들로부터의 하나의 연산을 포함할 수 있다. 예컨대, 연산 3은 연산 1(5011) 및 연산 2(5012)로 그룹화될 수 있는데 반해, 연산 3은 연산 1(5011)만으로는 그룹화되지 않을 수 있다. 제1 연산 직전에 오는 일련의 연산들로부터의 하나의 연산을 하나 이상의 제2 연산들이 포함할 수 있다. 임의로, 그러한 하나 이상의 제2 연산들은 제1 연산 직후에 오는 일련의 연산들로부터의 연산을 포함할 수 있다. 임의로, 그러한 하나 이상의 제2 연산들은, 제1 연산 직전에 오는 일련의 연산들로부터의 연산과, 제1 연산 직후에 오는 일련의 연산들로부터의 연산을 포함할 수 있다. 예컨대, 연산 2와 연산 4는 그룹화된 연산의 전체 입력 데이터(B)와 전에 출력 데이터(E)의 양이 메모리 유닛의 용량을 초과하지 않는다면, 연산 3으로 그룹화될 수 있다.
메모리 유닛의 남아 있는 저장 공간은, 그룹화된 연산들의 중간 데이터 결과의 적어도 한 부분을 저장하기 위해 사용될 수 있다. 예를 들면, 메모리 유닛의 남아 있는 저장 공간은 그 안에 중간 데이터 결과의 M개의 같은 부분들을 저장할 수 있고, 이 경우 M은 2 이상인 정수이다. 임의로, 그러한 메모리 유닛의 남아 있는 저장 공간은 그 안에 중간 데이터 결과의 임의의 부분을 저장할 수 있다. 도 5에 도시된 예에서, 가는 선이 그어진(hatched) 영역으로 도시된, 메모리 유닛(5000)의 남아 있는 저장 공간(5050)은, 그룹화된 연산들의 중간 데이터 결과 C(5003)의 적어도 한 부분을 저장하기 위해 사용될 수 있다. 그룹화된 연산들의 입력 데이터의 한 부분은 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 처리될 수 있다. 예컨대, 그룹화된 연산들(2, 3)의 입력 데이터(B)의 한 부분은 그룹화된 연산들의 중간 데이터 결과(C)의 한 부분을 생성하기 위해 처리될 수 있고, 그런 다음 그룹화된 연산들의 중간 데이터 결과(C)의 부분은 그룹화된 연산들의 출력 데이터(D)의 한 부분을 생성하기 위해 처리될 수 있다. 그룹화된 연산들의 입력 데이터(B)의 분리된 부분들에 대한 처리는 입력 데이터(B)의 모든 부분들이 처리될 때까지 복수 회 수행될 수 있다. 그룹화된 연산들의 출력 데이터(D)는, 그룹화된 연산들의 출력 데이터(D)의 모든 부분들이 생성될 때 얻어질 수 있다. 이후 그룹화된 연산들의 입력 데이터의 분리된 부분들에 대한 처리가 묘사될 것이다.
메모리 유닛에 데이터를 저장하기 위한 구역은 데이터 처리 동안에 변경될 수 있다. 예컨대, 도 5에 도시된 예에서, 데이터(B)는 데이터(A)에 계속해서 메모리 유닛에 최초로 저장될 수 있고, 메모리 유닛에 데이터(B)를 저장하기 위한 구역은 데이터(A)보다 큰 사이즈를 갖는 데이터(B)를 수용하기 위해 시프트될 수 있다. 데이터(D)의 사이즈가 데이터(A)의 사이즈 이하이라면 메모리 유닛에 데이터(B)를 저장하기 위한 구역이 시프트되지 않을 수 있다는 점이 당업자에게는 명백하다. 또 다른 전략은 데이터(B)를 시프트할 필요성을 제거하도록 메모리 유닛의 끝 구역(end region)에 데이터(B)를 저장하는 것이다.
도 6은 본 발명의 실시예들에 따라 연산을 서로 그룹화하는 또 다른 방식을 보여주는 그림을 예시하고, 그러한 연산은 메모리 유닛의 용량을 초과하는 데이터 양을 가진다. 도 6의 왼쪽 부분은 일련의 연산들(6011 내지 6014)과 데이터(6001 내지 6005)를 보여주고, 도 6의 오른쪽 부분은 메모리 유닛(6000)에서의 데이터의 저장을 보여준다. 도 6에 도시된 전형적인 예는 도 4에 도시된 바와 같은 연산(3)의 데이터 저장 문제를 다루기 위한 또 다른 해격책을 제공하고, 이 경우 연산 3의 입력 데이터(C)와 출력 데이터(D)의 양은 메모리 유닛의 용량을 초과한다.
도 6에 도시된 예에서, 일단 연산 3(6013)이 메모리 유닛(6000)의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가지는 제1 연산으로서 일련의 연산들(6011 내지 6014)로부터 식별되면, 연산 2(2016)가 일련의 연산들로부터 선택될 수 있고, 데이터(C)와 데이터(E)의 합이 메모리 유닛(6000)의 용량을 초과하지 않을 때, 연산 3(6013)과 연산 2(6012)(예컨대, 제2 연산)가 전체 입력 데이터 C(6003)와 전체 출력 데이터 E(6005)로 그룹화되고 처리될 수 있다. 메모리 유닛의 남아 있는 저장 공간은 그룹화된 연산들의 중간 데이터 결과의 적어도 한 부분을 저장하기 위해 사용될 수 있다. 도 6에 도시된 예에서, 가는 선이 그어진 영역으로 도시된, 메모리 유닛(5000)의 남아 있는 저장 공간(6050)은, 그룹화된 연산들의 중간 데이터 결과 D의 적어도 한 부분을 저장하기 위해 사용될 수 있다. 예를 들면, 메모리 유닛의 남아 있는 저장 공간(6050)은 그 안에 중간 데이터 결과(D)의 M개의 같은 부분들을 저장할 수 있고, 이 경우 M은 2 이상인 정수이다. 임의로, 그러한 메모리 유닛의 남아 있는 저장 공간(6050)은 그 안에 중간 데이터 결과(D)의 임의의 부분을 저장할 수 있다. 그룹화된 연산들의 입력 데이터의 한 부분은 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 처리될 수 있다. 예컨대, 그룹화된 연산들(3 내지 4)의 입력 데이터(C)의 한 부분은 그룹화된 연산들의 중간 데이터 결과(D)의 한 부분을 생성하기 위해 처리될 수 있고, 그런 다음 그룹화된 연산들의 중간 데이터 결과(D)의 부분은 그룹화된 연산들의 출력 데이터(E)의 한 부분을 생성하기 위해 처리될 수 있다. 그룹화된 연산들의 입력 데이터(C)의 분리된 부분들에 대한 처리는 입력 데이터(C)의 모든 부분들이 처리될 때까지 복수 회 수행될 수 있다. 그룹화된 연산들의 출력 데이터(E)는, 그룹화된 연산들의 출력 데이터(E)의 모든 부분들이 생성될 때 얻어질 수 있다.
예 1
도 2를 참조하는 전형적인 예에서는, 데이터(A)가 메모리 유닛의 용량의 40%를 차지하고, 데이터(B)가 메모리 유닛의 용량의 15%를 차지하며, 데이터(C)가 데메모리 유닛의 용량의 40%를 차지하고, 데이터(D)가 메모리 유닛의 용량의 70%를 차지하며, 데이터(E)가 메모리 유닛의 용량의 20%를 차지한다고 가정한다. 이 예에서, 연산 3은 메모리 유닛의 용량을 초과하는 입력 데이터(C) 및 출력 데이터(D)의 양을 가지는 제1 연산으로서 식별될 수 있다(예컨대, 40%+70%>100%).
일부 실시예들에서는, 메모리 유닛의 용량을 초과하는 입력 데이터(C)와 출력 데이터(D)의 양을 가지는 식별된 연산 3이 일련의 연산들 중에서 선택된 적어도 하나의 제2 연산으로 그룹화될 수 있다. 이러한 적어도 하나의 제2 연산은 도 5의 그룹화 방식에 도시된 바와 같은 연산 2일 수 있다. 이러한 그룹화 방식을 가지고, 그룹화된 연산들(2 내지 3)은 전체 입력 데이터(B) 및 전체 출력 데이터(D)를 가질 수 있다. 메모리 유닛(5000)의 남아 있는 저장 공간(5050)(예컨대, 그룹화된 연산들의 입력 데이터와 출력 데이터가 이미 저장되는 메모리 유닛의 남아 있는 저장 공간)은, 그룹화된 연산들의 중간 데이터 결과(C)의 적어도 한 부분을 저장하기 위해 사용될 수 있다. 메모리 유닛의 남아 있는 저장 공간(5050)은 중간 데이터 결과(C)의 부분이 일시적으로 저장되는 저장 공간일 수 있다. 이 예에서, 메모리 유닛의 남아 있는 저장 공간(5050)은 그러한 메모리 유닛의 전체 용량의 15%(100%-15%-70%=15%)인데, 이는 중간 데이터 결과(C)의 부분만이 메모리 유닛에 저장될 수 있다는 것을 의미한다(예컨대, 40%>15%). 메모리 유닛에서 저장될, 중간 데이터 결과(C)의 부분은, 그러한 메모리 유닛의 남아 있는 저장 공간(5050)과 전체 중간 데이터 결과(C)의 양에 기초하여 결정될 수 있다. 일부 경우들에서, 중간 데이터 결과(C)의 M개의 같은 부분들 중 하나가 메모리 유닛에 저장될 수 있고, M은 2 이상인 정수이다. 예컨대, 이러한 전형적인 예에서 중간 데이터 결과(C)의 1/3이 메모리 유닛에 저장될 수 있다(예컨대, 40%/15%=2.667). M의 값은 중간 데이터 결과의 사이즈를 메모리 유닛의 남아 있는 저장 공간의 사아지로 나누고, 나눈 결과를 그 다음 더 큰 정수로 소수점 올림을 행함으로써 결정될 수 있다(예컨대, 나눈 결과 2.667은 정수 3으로 소수점 올림이 이루어질 수 있다). 임의로, 메모리 유닛의 남아 있는 저장 공간(5050)은 중간 데이터 결과(C)의 임의의 부분을 내부에 저장할 수 있다.
그룹화된 연산들의 입력 데이터의 부분은 그룹화된 연산들의 출력 데이터의 부분을 생성하기 위해 한번에 처리될 수 있다. 그룹화된 연산들의 입력 데이터의 부분은 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정될 수 있다. 일부 경우들에서, 그룹화된 연산들의 입력 데이터의 부분은 입력 데이터와 한계 데이터의 N개의 같은 부분들 중 하나를 포함할 수 있고, N은 2 이상인 정수이다. 이러한 정수 N은 정수 M과 동일할 수 있다. 여기서, 한 번에 처리되는 그룹화된 연산들의 입력 데이터의 부분은 메모리 유닛의 남아 있는 저장 공간에 저장되는 중간 데이터 결과의 부분에 의존적일 수 있는데, 이는 그러한 중간 데이터 결과의 부분이 그룹화된 연산들의 입력 데이터의 부분에 대응하기 때문이다.
전형적인 예에서, 그룹화된 연산들의 입력 데이터(B)의 1/3은 중간 데이터 결과(C)의 1/3을 생성하기 위해 한 번에 처리될 수 있고, 그러한 중간 데이터 결과(C)의 1/3은 그룹화된 연산들의 출력 데이터(D)의 1/3을 생성하기 위해 처리될 수 있다. 그러한 처리는 전체 출력 데이터(D)가 얻어질 수 있도록 3회 수행될 수 있다.
일부 경우들에서, 그룹화된 연산들의 입력 데이터의 부분은 그룹화된 연산들의 입력 데이터의 또 다른 부분의 적어도 한 부분을 포함할 수 있고, 이는 처리될 입력 데이터의 부분에서 중첩이 존재한다는 것을 의미한다. 이러한 전형적인 예에서, 그룹화된 연산들의 입력 데이터(B)의 1/3보다 많은 양이 한 번에 처리될 수 있다. 대안적으로, 도 6의 그룹화 방식에서 도시된 것처럼, 메모리 유닛의 용량을 초과하는 입력 데이터와 출력 데이터의 양을 가지는 식별된 연산(3)은 연산(4)으로 그룹화될 수 있다. 그룹화된 연산들은 전체 입력 데이터 C(6003)와 전체 출력 데이터 E(6005)를 가질 수 있다. 메모리 유닛의 남아 있는 저장 공간은 그룹화된 연산들의 중간 데이터 결과 D(6004)의 적어도 한 부분을 저장하기 위해 사용될 수 있다. 그러한 전형적인 예에서, 메모리 유닛의 남아 있는 저장 공간은 그러한 메모리 유닛의 전체 용량의 40%(예컨대, 100%-40%-20%=40%)이고, 이는 중간 데이터 결과(D)의 한 부분만이 메모리 유닛에 저장될 수 있다는 것을 의미한다. 그러한 중간 데이터 결과(D)의 부분은 그러한 메모리 유닛의 남아 있는 저장 공간과 전체 중간 데이터 결과(D)의 양에 기초하여 결정될 수 있다. 일부 경우들에서, 그러한 중간 데이터 결과(D)의 M개의 같은 부분들 중 하나가 메모리 유닛에 저장될 수 있다. 예컨대, 전형적인 예에서는 중간 데이터 결과(D)의 1/2가 메모리 유닛에 저장될 수 있다(예컨대, 70%/40%=1.75). 전형적인 예에서, 그룹화된 연산들의 입력 데이터(C)의 1/2가 중간 데이터 결과(D)의 1/2를 생성하기 위해 한 번에 처리될 수 있고, 그런 다음 그러한 중간 데이터 결과(D)의 1/2가 그룹화된 연산들의 출력 데이터(E)의 1/2를 생성하기 위해 처리될 수 있다. 그러한 처리는 전체 출력 데이터(E)가 얻어질 수 있도록 2회 수행될 수 있다. 임의로, 메모리 유닛의 남아 있는 저장 공간(6050)은 내부에 중간 데이터 결과(D)의 임의의 부분을 저장할 수 있다.
식별된 연산(3)에 관한 2개의 가능한 그룹화 방식들 중에서, 연산 3이 연산 4로 그룹화되는 그룹화 방식이 바람직할 수 있는데, 이는 연산 3이 더 적은 서브-연산(sub-operation)(예컨대, 2개의 서브-연산)으로 수행될 수 있기 때문이다. 다시 말해, 제2 연산의 개수가 동일한 2개 이상의 그룹화 방식들이 가능할 때, 그룹화 방식들 중 어느 것이 바람직할 수 있는지에 대한 판단이 이루어질 수 있다. 그러한 판단의 기준은 식별된 제1 연산을 수행시의 서브-연산들의 개수가 최소인 것이 될 수 있다.
전술한 전형적인 그룹화 방식들은 콘볼루션 연산들의 커널들이 메모리 유닛에 저장되지 않는다고 가정하면서 논의된다. 예를 들면, 그러한 커널들은 ROM과 같은 또 다른 메모리 장치에 저장될 수 있다. 하지만 일부 경우들에서는 그러한 커널들이 데이터가 저장되는 동일한 메모리 유닛에 저장될 수 있다. 예를 들면, 각각의 연산에 관한 커널들은 메모리 유닛의 용량의 1%를 차지할 수 있고, 그룹화된 연산들(2 내지 3)은 그러한 메모리 유닛의 17%(예컨대, 15%+1%+1%=17%)를 차지하는 전체 입력 데이터를 가질 수 있으며. 그러한 메모리 유닛의 남아 있는 저장 공간(5050)은 메모리 유닛의 전체 용량의 13%(예컨대, 100%-17%-70%=13%)이다.
예 2
도 2를 참조하는 또 다른 전형적인 예에서는, 메모리 유닛의 용량의 40%를 데이터 A가 차지하고, 데이터 B가 메모리 유닛의 용량의 40%를 차지하며, 데이터 C가 메모리 유닛의 용량의 80%를 차지하고, 데이터 D가 메모리 유닛의 용량의 80%를 차지하며, 데이터 E가 메모리 유닛의 용량의 10%를 차지한다고 가정한다. 이러한 예에서, 연산 2는 메모리 유닛의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가지는 제1 연산으로서 일련의 연산들(1 내지 4)로부터 식별될 수 있다(예컨대, 40%+80%>100%).
연산 2가 식별될 때 일련의 연산들로부터 하나의 제2 연산이 먼저 선택될 수 있고, 이 경우 제2 연산은 식별된 연산 2로 그룹화되는 것이다. 이 예에서는, 하나의 제2 연산이 연산 2로 그룹화될 때에만 2개의 가능한 그룹화 방식들이 존재한다. 예를 들면, 연산 1이 연산 2로 그룹화될 수 있거나 연산 3이 연산 2로 그룹화될 수 있다. 이러한 제1 그룹화 방식으로, 연산 1이 연산 2로 그룹화될 수 있다. 그런 다음 그룹화된 연산들(1 내지 2)의 입력 데이터 A와 출력 데이터 C의 양이 메모리 유닛의 용량을 초과하는지에 대한 판단이 내려질 수 있다. 여기서, 그러한 판단은 그룹화된 연산들(1 내지 2)의 입력 데이터 A와 출력 데이터 C의 양이 메모리 유닛의 용량을 초과한다는 것이다(예컨대, 40%+80%>100%). 제2 그룹화 방식으로는, 연산 3이 연산 2로 그룹화될 수 있다. 그럴 경우 그룹화된 연산들(2 내지 3)의 입력 데이터 B와 출력 데이터 D의 양이 메모리 유닛의 용량을 초과하는지에 대한 판단이 내려질 수 있다. 여기서, 그러한 판단은 그룹화된 연산들(1 내지 2)의 입력 데이터 B와 출력 데이터 D의 양이 메모리 유닛의 용량을 초과한다는 것이다(예컨대, 40%+80%>100%). 이를 위해, 연산 2를 제2 연산으로 그룹화함으로써 식별된 연산 2를 수행하는 것이 가능하지 않다는 판단이 내려질 수 있다(예컨대, 연산 1은 식별된 연산 2 직전에 오거나 연산 3이 식별된 연산 2 직후에 온다).
이러한 시나리오에서, 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않을 때까지, 식별된 연산 2로 그룹화되어지는 제2 연산의 개수가 점진적으로 증가될 수 있다. 예컨대, 연산 2로 그룹화되어질 일련의 연산들로부터 2개의 제2 연산이 선택될 수 있다. 이 예에서는, 2개의 제2 연산들이 연산 2로 그룹화되어질 때 2개의 가능한 그룹화 방식들이 존재한다. 예를 들면, 연산 1과 연산 3이 연산 2로 그룹화될 수 있거나, 연산 3과 연산 4가 연산 2로 그룹화될 수 있다. 제1 그룹화 방식으로, 그룹화된 연산들은 연산들(1 내지 3)을 포함할 수 있다. 그룹화된 연산들(1 내지 3)의 입력 데이터 A와 출력 데이터 D의 양이 메모리 유닛의 용량을 초과하는지에 대한 판단이 내려질 수 있다. 여기서, 그러한 판단은 그룹화된 연산들(1 내지 3)의 입력 데이터 A와 출력 데이터 D의 양이 메모리 유닛의 용량을 초과한다는 것이다(예컨대, 40%+80%>100%). 제2 그룹화 방식으로, 그룹화된 연산들은 연산들(2 내지 4)을 포함할 수 있다. 그런 다음, 그룹화된 연산들(2 내지 4)의 입력 데이터 B와 출력 데이터 E의 양이 메모리 유닛의 용량을 초과하는지에 대한 판단이 내려질 수 있다. 여기서, 그러한 판단은 그룹화된 연산들(2 내지 4)의 입력 데이터 B와 출력 데이터 E의 양이 메모리 유닛의 용량을 초과한다는 것이다(예컨대, 40%+10%<100%). 이를 위해, 연산 2를 2개의 제2 연산(3, 4)으로 그룹화함으로써 식별된 연산 2를 수행하는 것이 가능하다는 판단이 내려질 수 있다.
이러한 시나리오에서는, 그룹화된 연산들의 2개의 중간 데이터 결과(C와 D)가 그룹화된 연산들(2 내지 4)을 수행할 때 생성될 수 있다. 메모리 유닛의 남아 있는 저장 공간은 그룹화된 연산들(2 내지 4)의 중간 데이터 결과 D의 부분과 중간 데이터 결과 C의 부분을 적어도 저장하기 위해 사용될 수 있다. 이 예에서는, 메모리 유닛의 남아 있는 저장 공간이 그러한 메모리 유닛의 전체 용량의 50%(예컨대, 100%-40%-10%=50%)인데, 이는 중간 데이터 결과 C의 부분과 중간 데이터 결과 D의 부분만이 메모리 유닛에서 저장될 수 있다는 것을 의미한다. 중간 데이터 결과 C와 중간 데이터 결과 D의 부분은 전체 중간 데이터 결과들(C와 D)의 양과 메모리 유닛의 나머지 저장 공간에 기초하여 결정될 수 있다. 일부 경우들에서는, 중간 데이터 결과 C의 N개의 같은 부분들 중 하나와 중간 데이터 결과 D의 N개의 같은 부분들 중 하나가 메모리 유닛에 저장될 수 있다. 예컨대, 이러한 예에서는 중간 데이터 결과 C의 1/4와 중간 데이터 결과 D의 1/4가 메모리 유닛에 저장될 수 있다(예컨대, (80%+80%)/50%=3.2). 이러한 예에서, 그룹화된 연산들의 입력 데이터 B의 1/4가 중간 데이터 결과 C의 1/4를 생성하기 위해 한 번에 처리될 수 있고, 그런 다음 중간 데이터 결과 C의 1/4가 중간 데이터 결과 D의 1/4를 생성하기 위해 처리될 수 있으며, 중간 데이터 결과 D의 1/4가 그룹화된 연산들의 출력 데이터 E의 1/4를 생성하기 위해 처리될 수 있다. 전체 출력 데이터 E가 얻어질 수 있도록 처리는 4회 수행될 수 있다. 임의로, 그러한 메모리 유닛의 남아 있는 저장 공간은 그 내부에 중간 데이터 결과 C의 임의의 부분과 중간 데이터 결과 D의 임의의 부분을 저장할 수 있다.
메모리 유닛의 남아 있는 저장 공간은 중간 데이터 결과들 중에서 데이터 사이즈에서의 관계에 기초하여 2개 이상의 중간 데이터 결과들을 저장하기 위해 배정될 수 있다. 이 예에서는, 중간 데이터 결과들(C와 D) 사이의 데이터 사이즈에 있어서의 관계는 1:1(예컨대, 80%:80%)이고, 그러므로 메모리 유닛의 남아 있는 저장 공간의 50%가 중간 데이터 결과 C를 위해 배정될 수 있고, 메모리 유닛의 남아 있는 저장 공간의 50%가 중간 데이터 결과 D를 위해 배정될 수 있다. 메모리 유닛의 남아 있는 저장 공간의 배정은 그러한 연산의 파라미터들을 고려하여 상이할 수 있다. 예컨대, 패딩, 스트라이드, 및 커널과 같은 파라미터들은 그러한 연산이 콘볼루션일 때 메모리 유닛의 남아 있는 저장 공간의 배정을 결정시 고려될 수 있다. 일부 경우들에서, 메모리 유닛의 남아 있는 저장 공간은 그러한 메모리 유닛의 구조에 기초하여 2개 이상의 중간 데이터 결과들을 저장하기 위해 배정될 수 있다. 예컨대, 그러한 메모리 유닛은 선형일 수 있고, 이는 임의의 어드레스로부터 시작하여 데이터가 메모리 유닛에 저장될 수 있다는 것을 의미한다. 다시 말해, 또 다른 데이터 직후에 메모리 유닛에서 데이터가 저장될 수 있다. 임의로, 그러한 메모리 유닛은 복수의 더 작은 저장 유닛들(예컨대, 슬라이스들)을 포함할 수 있고, 이는 오로지 하나 이상의 저장 유닛들에 데이터가 저장될 수 있다는 것을 의미한다. 다시 말해, 입력 데이터, 출력 데이터, 및 중간 데이터 결과가 상이한 슬라이스들에 저장되는 것을 보장하기 위해서는 데이터 정렬이 필수적일 수 있다.
예 3
도 2를 참조하는 또 다른 전형적인 예에서는, 데이터 A가 메모리 유닛의 용량의 10%를 차지하고, 데이터 B가 메모리 유닛의 용량의 40%를 차지하며, 데이터 C가 메모리 유닛의 용량의 80%를 차지하고, 데이터 D가 메모리 유닛의 용량의 80%를 차지하며, 데이터 E가 메모리 유닛의 용량의 10%를 차지한다고 가정한다. 이러한 예에서는, 메모리 유닛의 용량을 초과하는 연산 2의 입력 데이터 및 출력 데이터의 양을 가지는 제1 연산으로서 연산 2가 일련의 연산들(1 내지 4)로부터 식별될 수 있다(예컨대, 40%+80%>100%).
식별된 연산 2로 그룹화되어지는 연산 2가 식별될 때, 일련의 연산들로부터 하나의 제2 연산이 먼저 선택될 수 있다. 이러한 예에서는, 오로지 하나의 제2 연산이 연산 2로 그룹화되어질 때 2개의 가능한 그룹화 방식들이 존재한다. 예를 들면, 연산 1은 연산 2로 그룹화될 수 있거나 연산 3이 연산 2로 그룹화될 수 있다. 이러한 제1 그룹화 방식으로, 연산 1이 연산 2로 그룹화될 수 있다. 그런 다음 그룹화된 연산들(1 내지 2)의 입력 데이터 A 및 출력 데이터 C의 양이 메모리 유닛의 용량을 초과하는지에 대한 판단이 내려질 수 있다. 여기서, 그러한 판단은 그룹화된 연산들(1 내지 2)의 입력 데이터 A와 출력 데이터 C의 양이 메모리 유닛의 용량을 초과하지 않는다는 것이다(예컨대, 10%+80%<100%). 제2 그룹화 방식으로, 연산 3은 연산 2로 그룹화될 수 있다. 그런 다음 그룹화된 연산들(2 내지 3)의 입력 데이터 B와 출력 데이터 D의 양이 메모리 유닛의 용량을 초과하는지에 대한 판단이 내려질 수 있다. 여기서, 그러한 판단은 그룹화된 연산들(1 내지 2)의 입력 데이터 B와 출력 데이터 D의 양이 메모리 유닛의 용량을 초과한다는 것이다(예컨대, 40%+80%>100%). 이를 위해, 연산 2를 1개의 제2 연산(예컨대, 식별된 연산 2 직전에 오는 연산 1)으로 그룹화함으로써 식별된 연산 2를 수행하는 것이 가능하다는 판단이 내려질 수 있다.
이러한 예에서, 중간 데이터 결과 B의 1/4가 메모리 유닛에 저장될 수 있는데(예컨대, 40%/(100%-10%-80%)=4.0), 이는 그룹화된 연산들이 4개의 서브-연산들에 의해 성공적으로 수행될 수 있다는 것을 의미한다. 예컨대, 그룹화된 연산들(1 내지 2)의 입력 데이터 A의 1/4는 중간 데이터 결과 B의 1/4를 생성하기 위한 한 번에 처리될 수 있고, 중간 데이터 결과 B의 1/4는 중간 데이터 결과 C의 1/4를 생성하기 위해 처리될 수 있다. 그러한 처리는 전체 출력 데이터 C가 얻어질 수 있도록 4회 수행될 수 있다. 하지만 일부 경우들에서는 위 분할 결과가 메모리 유닛의 연산 및/또는 구조의 파라미터들을 고려하여, 그 다음 더 큰 정수로 적어도 소수점 올림이 이루어질 수 있다(예컨대, 나눈 결과 4는 그 다음 더 큰 정수인 5로 소수점 올림이 이루어질 수 있고, 나눔 결과 2.667은 그 다음 더 큰 정수인 3으로의 소수점 올림이 이루어질 수 있으며, 나눔 결과 3.2는 그 다음 더 큰 정수인 4로 소수점 올림이 이루어질 수 있다). 예컨대, 패딩, 스트라이드, 및 커널과 같은 파라미터들은 그 연산이 콘볼루션일 때, 그룹화된 연산들의 입력 데이터의 부분을 결정시 고려될 수 있다.
이러한 예에서는, 식별된 연산 2가 더 작은 개수의 제2 연산으로 그룹화함으로써 성공적으로 수행될 수 있기만 하면, 연산 2를 더 큰 개수의 제2 연산으로 그룹화함으로써 식별된 연산 2를 수행하는 것이 가능한지를 판단할 필요가 없다. 예컨대, 식별된 연산 2가 연산 1로 그룹화함으로써 성공적으로 수행될 수 있기 때문에, 제2 연산의 개수를 점진적으로 증가시키고, 더 많은 다른 연산들을 그룹화함으로써 식별된 연산 2를 수행하는 것이 가능한지를 판단할 필요가 없다. 하지만, 식별된 연산 2가 더 적은 개수의 제2 연산으로 그룹화함으로써 성공적으로 수행되지 않는다면, 제2 연산의 개수는 연산 2가 전술한 바와 같이, 더 많은 제2 연산들을 그룹화함으로써 성공적으로 수행될 수 있을 때까지 점진적으로 증가될 수 있다.
일부 경우들에서, 그룹화된 연산들의 출력 데이터 및/또는 입력 데이터는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 저장될 수 있다. 이러한 시나리오는 제2 연산의 개수가 최대 값까지 점진적으로 증가되고, 식별된 연산(즉, 메모리 유닛의 용량을 초과하는 입력 데이터와 출력 데이터의 양을 가지는 제1 연산)이 여전히 성공적으로 수행될 수 없을 때 일어날 수 있다.
예 4
예컨대, 도 2를 참조하는 또 다른 전형적인 예에서는, 데이터 A가 메모리 유닛의 용량의 60%를 차지하고, 데이터 B가 메모리 유닛의 용량의 60%를 차지하며, 데이터 C가 메모리 유닛의 용량의 80%를 차지하고, 데이터 D가 메모리 유닛의 용량의 80%를 차지하며, 데이터 E가 메모리 유닛의 용량의 60%를 차지한다. 연산 1은 메모리 유닛의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가질 수 있는 연산(즉, 제1 연산)으로서 식별될 수 있다. 그럴 경우, 적어도 하나의 제2 연산이 연산들(2 내지 4)로부터 선택될 수 있고, 그러한 제2 연산은 식별된 연산 1로 그룹화되는 것이다. 바로 인접한 연산 2는 먼저 연산 1로 그룹화되도록 선택된다. 하지만, 그룹화된 연산들(1과 2)은 메모리 유닛에 저장된 입력 데이터 A와 출력 데이터 C 모두를 가지고 수행될 수 없는데, 이는 데이터 A와 데이터 C의 합이 메모리 유닛의 용량을 초과하기 때문이다(예컨대, 60%+80%>100%). 이 경우, 제2 연산들의 개수는 점진적으로 2로 증가될 수 있는데, 이는 연산들(2와 3)이 연산 1로 그룹화된다는 것을 의미한다. 하지만, 그룹화된 연산들(1 내지 3)은 메모리 유닛에 저장된 입력 데이터 A와 출력 데이터 D 모두를 가지고 수행될 수 없는데, 이는 데이터 A와 데이터 B의 합이 메모리 유닛의 용량을 초과하기 때문이다(예컨대, 60%+80%>100%). 그런 다음, 제2 연산들의 개수는 3으로 점진적으로 증가될 수 있는데, 이는 연산들(2 내지 4)이 연산 1로 그룹화된다는 것을 의미한다. 하지만, 그룹화된 연산들(1 내지 4)은 메모리 유닛에 저장된 입력 데이터 A와 출력 데이터 E 모두를 가지고 수행될 수 있고, 이는 데이터 A와 데이터 E의 합이 메모리 유닛의 용량을 초과하기 때문이다(예컨대, 60%+60%>100%).
이를 위해, (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같은지(예컨대, 그룹화된 연산들은 연산들(1 내지 4)를 포함한다)와, (2) 그룹화된 연산들의 입력 데이터와 출력 데이터의 양이 메모리 유닛의 용량을 초과하는지(예컨대, 그룹화된 연산들의 전체 입력 데이터 A와 출력 데이터 E의 양은 메모리 유닛의 용량을 초과한다)에 대한 판단이 내려질 수 있다. 일부 경우들에서는, 메모리 유닛이 전체 출력 데이터 E와 중간 데이터인 B, C, 및 D의 부분을 저장하기 위해 사용될 수 있도록, 입력 데이터 A가 외부 메모리에 저장될 수 있다. 입력 데이터 A의 부분은 각각의 서브-연산을 위해 외부 메모리로부터 판독될 수 있고, 출력 데이터 E의 부분은 계산된 중간 데이터인 B, C, 및 D에 기초하여 생성될 수 있다. 전술한 바와 같이, 입력 데이터 A의 부분은 그룹화된 연산들(1 내지 4)의 중간 데이터인 B, C, 및 D의 양과 출력 데이터 E의 양에 적어도 부분적으로 기초하여 결정될 수 있다. 임의로, 메모리 유닛이 전체 입력 데이터 A와 중간 데이터인 B, C, 및 D의 부분을 저장하기 위해 사용될 수 있도록, 출력 데이터 E는 외부 메모리에 저장될 수 있다. 입력 데이터 A의 부분은 서브-연산을 위해 처리될 수 있고, 출력 데이터 E의 부분은 계산된 중간 데이터인 B, C, 및 D에 기초하여 생성될 수 있고 외부 메모리 내로 저장될 수 있다. 전술한 바와 같이, 입력 데이터 A의 부분은 그룹화된 연산들(1 내지 4)의 중간 데이터인 B, C, 및 D의 양과 입력 데이터 A의 양에 적어도 부분적으로 기초하여 결정될 수 있다. 임의로, 입력 데이터 A와 출력 데이터 E가 모두 외부 메모리에 저장될 수 있고, 오로지 중간 데이터인 B, C, 및 D의 적어도 한 부분을 저장하기 위해 메모리 유닛이 사용될 수 있다.
도 7은 본 발명의 실시예들에 따른 데이터 연산의 전형적인 방법(700)의 흐름도를 보여준다. 방법(700)은 출력 데이터를 얻기 위해 일련의 데이터 연산에 의해 입력 데이터를 처리하기 위해 사용될 수 있다. 이러한 일련의 데이터 연산은 순차적으로 수행되는 복수의 연산들을 포함할 수 있다. 선행하는 연산의 출력 데이터는 후속하는 연산의 입력 데이터로서의 역할을 할 수 있다. 이러한 일련의 데이터 연산은 일련의 콘볼루션 연산들 또는 텐서 연산들을 포함할 수 있다. 이러한 텐서 연산은 풀링, 업스케일링 또는 ReLU를 포함할 수 있다. 각 타입의 연산을 위한 하나 이상의 층들이 제공될 수 있다. 입력 데이터 A는 이미지 데이터, 오디오, 비디오 데이터 및 다양한 다른 것들일 수 있다. 방법(700)은 프로세스들(701 내지 704)을 포함할 수 있다.
프로세스 701에서는 일련의 연산들에 의해 처리되어지는 입력 데이터가 수신될 수 있다.
프로세스 702에서는 일련의 연산들로부터의 제1 연산이 식별될 수 있고, 이러한 제1 연산은 메모리 유닛의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가진다. 일부 실시예들에서는, 그러한 일련의 연산들 중으로부터 하나의 연산의 전체 입력 데이터 및 전체 출력 데이터가 그러한 연산을 수행할 때 동일한 메모리 유닛에 저장될 수 있다. 전술한 바와 같이, 입력 데이터의 사이즈와 연산의 다수의 인자들(예컨대, 파라미터들)에 적어도 부분적으로 기초하여 연산의 출력 데이터의 사이즈가 결정될 수 있다.
프로세스 703에서는 일련의 연산들로부터 적어도 하나의 제2 연산이 선택될 수 있다. 그러한 적어도 하나의 제2 연산은 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양과 메모리 유닛의 용량에 적어도 부분적으로 기초한 제1 연산으로 그룹화될 수 있다.
일련의 연산들 중으로부터 제1 연산이 메모리 유닛의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가진다고 판단될 때, 그러한 일련의 연산들로부터 적어도 하나의 제2 연산이 선택될 수 있다. 그룹화된 처리의 입력 데이터 및 출력 데이터가 메모리 유닛의 용량을 초과하지 않는다고 하면, 제1 연산의 처리는 제2 연산의 처리로 그룹화될 수 있다. 예컨대, 도 5에 도시된 예에서, 연산 3(예컨대, 메모리 유닛의 용량을 초과하는 입력 데이터와 출력 데이터의 합을 가지는 제1 연산)과 연산 2(예컨대, 제2 연산)는, 데이터 B와 데이터 D의 합이 메모리 유닛의 용량을 초과하지 않는다고 하면, 전체 입력 데이터 B와 전체 출력 데이터 D로 그룹화되고 처리될 수 있다.
적어도 하나의 제2 연산은 제1 연산에 바로 인접하는 일련의 연산들로부터 적어도 하나의 연산을 포함할 수 있다. 예컨대, 적어도 하나의 제2 연산은 제1 연산 직전 또는 제1 연산의 직후에 오는 일련의 연산들로부터의 연산을 포함할 수 있다.
일부 실시예들에서는, 프로세스 703이 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양이 메모리의 용량을 초과하는지를 판단하는 것을 포함할 수 있다. 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않을 때까지 적어도 하나의 제2 연산에서의 연산들의 개수는 점진적으로 증가될 수 있다. 그룹화된 연산들의 출력 데이터 및/또는 입력 데이터는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때 외부 메모리에 저장될 수 있다.
프로세스 704에서는, 그룹화된 연산들의 입력 데이터의 한 부분이 그룹화된 연산들의 출력 데이터의 한 부분을 얻기 위해 처리될 수 있다. 다시 말해, 그룹화된 연산들의 전체 입력 데이터는 복수의 서브-프로세스(sub-process)들에 의해 처리될 수 있고, 이러한 복수의 서브-프로세스 각각은 그룹화된 연산들의 입력 데이터의 부분을 처리한다.
각각의 서브-프로세스에서 처리되는 입력 데이터의 부분은 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정될 수 있다. 메모리 유닛은 내부에 그룹화된 연산들의 전체 입력 데이터와 전체 출력 데이터를 저장하도록 구성될 수 있고, 그러한 메모리 유닛의 남아 있는 저장 공간은 그룹화된 연산들의 중간 데이터 결과의 적어도 한 부분을 저장하기 위해 사용될 수 있다. 일부 경우들에서는, 중간 데이터 결과 C의 M개의 동일한 부분들 중 하나가 메모리 유닛에 저장될 수 있고, M은 2 이상인 정수이다. 임의로, 그러한 메모리 유닛은 내부에 중간 데이터 결과 C의 임의의 부분을 저장할 수 있다. 그룹화된 연산들의 입력 데이터의 부분은 입력 데이터와 한계 데이터의 N개의 같은 부분들 중 하나를 포함할 수 있고, N은 2 이상인 정수이다. 정수 N은 정수 M과 같을 수 있다. 여기서, 한 번에 처리되는 그룹화된 연산들의 입력 데이터의 부분은 메모리 유닛의 남아 있는 저장 공간에 저장되는 중간 데이터 결과의 부분에 의존적일 수 있는데, 이는 중간 데이터 결과의 부분이 그룹화된 연산들의 입력 데이터의 부분에 대응하기 때문이다.
일부 실시예들에서는, 방법(700)이 그룹화된 연산의 출력 데이터를 얻기 위해, 그룹화된 연산의 출력 데이터의 각각의 부분을 어셈블링하는 것을 더 포함할 수 있다.
본 개시물은 데이터 처리의 시스템을 또한 제공한다. 이러한 시스템은 하나 이상의 프로세서들, 적어도 하나의 메모리 유닛, 및 내부에 명령어들을 저장하는 하나 이상의 메모리들을 포함할 수 있다. 그러한 메모리 유닛은 SRAM, DRAM, SDRAM, DDR, DDR SDRAM, DDR, DDR2, DDR3, T-RAM, Z-RAM 등을 포함하는 임의의 적합한 RAM일 수 있다. 일부 경우들에서는 메모리 유닛이 내장 장치의 온-칩 메모리일 수 있다.
하나 이상의 메모리에 저장된 명령어들은, 하나 이상의 프로세서들에 의해 실행될 때, 그러한 하나 이상의 프로세서들로 하여금 (a) 일련의 연산들에 의해 처리될 입력 데이터를 수신하고; (b) 메모리 유닛의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가지는 제1 연산을 일련의 연산들로부터 식별하며; (c) 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양과 메모리 유닛의 용량에 적어도 부분적으로 기초한 제1 연산으로 그룹화될 일련의 연산들로부터 적어도 하나의 제2 연산을 선택하고; (d) 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정되는, 그룹화된 연산들의 입력 데이터의 부분을 처리하게 할 수 있다.
일련의 연산들은 일련의 콘볼루션 연산들 및/또는 일련의 텐서 연산들을 포함한다. 일부 경우들에서, 프로세서 (c)는 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양이 메모리 유닛의 용량을 초과하지 않을 때까지 적어도 하나의 제2 연산에서의 연산들의 개수를 점진적으로 증가시키는 것을 포함할 수 있다. 프로세스 (c)는 (1) 그룹화된 연산들에서의 연산들의 개수가 일련의 연산들에서의 연산들의 개수와 같고, (2) 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양이 메모리 유닛의 용량을 초과할 때, 외부 메모리에 그룹화된 연산들의 출력 데이터 및/또는 입력 데이터를 저장하는 것을 더 포함할 수 있다.
도 8은 본 출원에서 개시된 임의의 계산 시스템을 구현하도록 구성될 수 있는 컴퓨터 시스템(801)을 보여준다. 이러한 컴퓨터 시스템(801)은 이동 전화기, 태블릿(tablet), 착용 가능한 장치, 랩톱 컴퓨터, 데스크톱 컴퓨터, 중앙 서버(central server) 등을 포함할 수 있다.
컴퓨터 시스템(801)은 싱글 코어(single core) 또는 멀티 코어 프로세서이거나 병렬 처리(parallel processing)를 위한 복수의 프로세서들일 수 있는 중앙 처리 유닛(CPU, 이 경우에는 "프로세서" 및 "컴퓨터 프로세서"라고도 함)(805)을 포함한다. 이러한 CPU는 전술한 바와 같은 프로세서일 수 있다. 컴퓨터 시스템(801)은 또한 메모리 또는 메모리 위치(810)(예컨대, RAM, ROM, 플래시 메모리), 전자 저장 유닛(815)(예컨대, 하드 디스크), 하나 이상의 다른 시스템들과 통신하기 위한 통신 인터페이스(820)(예컨대, 네트워크 어댑터), 및 캐시, 다른 메모리, 데이터 저장소 및/또는 전자 디스플레이 어댑터들과 같은 주변 장치(825)들을 포함한다. 일부 경우들에서, 통신 인터페이스는 컴퓨터가 이미징 장치 또는 오디오 장치와 같은 또 다른 장치와 통신하는 것을 허용할 수 있다. 컴퓨터는 분석을 위해 결합된 장치들로부터 입력 데이터를 수신할 수 있다. 메모리(810), 저장 유닛(815), 인터페이스(820), 및 주변 장치들(825)은 마더보드(motherboard)와 같은 통신 버스(실선들)를 통해 CPU(805)와 통신을 행한다. 저장 유닛(815)은 데이터를 저장하기 위한 데이터 저장 유닛(또는 데이터 저장소(data repository)일 수 있다. 컴퓨터 시스템(815)은 통신 인터페이스(820)의 도움으로 컴퓨터 네트워크("네트워크")(830)에 작동 가능하게 결합될 수 있다. 네트워크(830)는 인터넷, 인터넷 및/또는 엑스트라넷(extranet), 또는 인터넷과 통신을 행하는 인트라넷 및/또는 엑스트라넷일 수 있다. 일부 경우들에서의 네트워크(830)는 원거리 전기통신 및/또는 데이터 네트워크이다. 네트워크(830)는 클라우드 컴퓨팅(cloud computing)과 같은 분산 컴퓨팅(distributed computing)을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버들을 포함할 수 있다. 일부 경우들에서는 컴퓨터 시스템(801)의 도움으로 네트워크(830)가 피어투피어(peer-to-peer) 네트워크를 구현할 수 있는데, 이는 컴퓨터 시스템(801)에 결합된 장치들이 클라이언트 또는 서버로서 거동하는 것을 가능하게 할 수 있는 것이다.
CPU(805)는 프로그램 또는 소프트웨어로 구현될 수 있는, 기계 판독 가능한(machine-readable) 명령어들의 시퀀스를 실행할 수 있다. 이러한 명령어들은 메모리(810)와 같은 메모리 위치에 저장될 수 있다. 그러한 명령어들은 CPU(805)로 바로 갈 수 있고, 본 개시물의 방법들을 구현하게 CPU(805)를 계속해서 프로그램하거나 구성할 수 있다. CPU(805)에 의해 수행된 연산들의 예들은 페치(fetch), 디코드(decode), 엑시큐트(execute), 및 라이트백(writeback)을 포함할 수 있다.
CPU(805)는 집적 회로와 같은 회로의 부분일 수 있다. 시스템(801)의 하나 이상의 다른 구성 요소들이 그러한 회로에 포함될 수 있다. 일부 경우들에서, 그러한 회로는 ASIC(application specific integrated circuit)이다.
저장 유닛(815)은 드라이버들, 라이브러리들(libraries), 세이브된(saved) 프로그램들과 같은 파일들을 저장할 수 있다. 저장 유닛(815)은, 예컨대 사용자 프레퍼런스(user preference)들과 사용자 프로그램들과 같은 사용자 데이터를 저장할 수 있다. 일부 경우들에서 컴퓨터 시스템(801)은 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(801)과 통신을 행하는 원격 서버에 위치한 것과 같은, 컴퓨터 시스템(801)의 외측에 있는 하나 이상의 추가 데이터 저장 유닛들을 포함할 수 있다.
컴퓨터 시스템(801)은 네트워크(830)를 통해 하나 이상의 원격 컴퓨터 시스템들과 통신을 행할 수 있다. 예컨대, 컴퓨터 시스템(801)은 사용자의 원격 컴퓨터 시스템과 통신을 행할 수 있다. 원격 컴퓨터 시스템들의 예들은 퍼스널 컴퓨터들, 슬레이트(slate) 또는 태블릿 PC들, 스마트폰들, PDA(personal digital assistant)들 등을 포함한다. 사용자는 네트워크(830)를 거쳐 컴퓨터 시스템(801)에 접근할 수 있다.
본 명세서에서 설명된 바와 같은 방법들은, 예를 들면 전자 저장 유닛(815) 이나 메모리(810)에서와 같이, 컴퓨터 시스템(801)의 전자 저장소 위치에 저장된 기계(예컨대, 컴퓨터 프로세서) 실행 가능한 코드에 의해 구현될 수 있다. 이러한 기계 실행 가능한 또는 기계 판독 가능한 코드는 소프트웨어의 형태로 제공될 수 있다. 사용하는 동안에, 그러한 코드는 프로세서(805)에 의해 실행될 수 있다. 일부 경우들에서, 코드는 저장소 유닛(815)으로부터 찾아내질 수 있고 프로세서(805)에 의한 접근 준비를 위해 메모리(710)에 저장될 수 있다. 일부 상황들에서는, 전자 저장소 유닛(815)이 미리 제외될 수 있고, 기계 실행 가능한 명령어들이 메모리(810)에 저장된다.
코드는 그러한 코드를 실행하도록 적합하게 된 프로세서를 가지는 기계를 가지고 사용하기 위해 미리 컴파일(compile)되거나 구성될 수 있거나 런타임(runtime) 동안에 컴파일될 수 있다. 코드는 그것이 미리 컴파일되는 방식 또는 컴파일된 방식으로 실행되는 것을 가능하게 하도록 선택될 수 있는 프로그래밍 언어로 공급될 수 있다.
컴퓨터 시스템(801)과 같은, 본 명세서에서 제공된 시스템들과 방법들의 양태들이 프로그래밍으로 구현될 수 있다. 그러한 기술의 다양한 양태들은 보통 기계(또는 프로세서) 실행 가능한 코드 및/또는 기계 판독 가능한 매체의 타입으로 운반되거나 구현되는 연관된 데이터의 형태로 되어 있는 "프로덕트(product)들" 또는 "제품(article of manufacture)"으로서 생각될 수 있다. 기계 실행 가능한 코드는 메모리(예컨대, ROM, RAM, 플래시 메모리) 또는 하드 디스크와 같은 전자 저장 유닛에 저장될 수 있다. "저장(storage)" 타입 매체는 컴퓨터들, 프로세서들 등의 임의의 또는 모든 실체적인 메모리 또는 소프트웨어 프로그래밍을 위해 임의의 시각에 비일시적 저장소를 제공할 수 있는, 다양한 반도체 메모리들, 테이프 드라이브들, 디스크 드라이브들 등과 같은, 연관된 모듈들을 포함할 수 있다. 그러한 소프트웨어 모두 또는 부분들은 가끔 인터넷이나 다양한 다른 원격 통신 네트워크들을 통해 통신이 이루어질 수 있다. 그러한 통신들은, 예를 들면 관리 서버 또는 호스트 컴퓨터로부터 어플리케이션 서버의 컴퓨터 플랫폼으로와 같이, 하나의 컴퓨터 또는 프로세서로부터 또 다른 컴퓨터 또는 프로세서로의 소프트웨어의 로딩(loading)을 가능하게 할 수 있다. 그러므로 소프트웨어 요소들을 지닐 수 있는 또 다른 타입의 매체는 유선(wired) 및 광학 랜드라인(landline) 네트워크들을 통해 그리고 다양한 에어-링크(air-link)들에 걸쳐 로컬 장치(local device)들 사이의 물리적 경계면(physical interface)들에 걸쳐 사용된 것과 같은 광학, 전기, 및 전자기파들을 포함한다. 유선 또는 무선 링크들, 광학 링크들 등과 같은 파(wave)들을 나르는 물리적 요소들은 또한 소프트웨어를 지니는 매체로서 고려될 수 있다. 본 명세서에서 사용된 것처럼, 비일시적인 실재하는 "저장" 매체로 국한되지 않는 한, 컴퓨터 또는 기계 "판독 가능한 매체"와 같은 용어들은 명령어들을 실행을 위한 프로세서에 제공하는데 참여하는 임의의 매체를 가리킨다.
이런 이유로, 컴퓨터 실행 가능한 코드와 같은 기계 판독 가능한 매체는 실재적인 저장 매체, 반송파(carrier wave) 매체 또는 물리적인 전송 매체를 포함하지만 이들에 국한되지 않는 많은 형태들을 취할 수 있다. 비휘발성 저장 매체는, 예를 들면 도면들에 도시된 데이터베이스들 등을 구현하기 위해 사용될 수 있는 것과 같은, 임의의 컴퓨터(들) 등에서의 저장 장치들 중 임의의 것과 같은 광학 디스크 또는 자기 디스크들을 포함한다. 휘발성 저장 매체는 컴퓨터 플랫폼과 같은 주 메모리와 같은 동적(dynamic) 메모리를 포함할 수 있다. 실재적인 전송 매체는 동축 케이블들; 즉 컴퓨터 시스템 내의 버스를 포함하는 와이어(wire)들을 포함하는, 구리 와이어 또는 광섬유들을 포함한다. 반송파 전송 매체는 전기 신호 또는 전자기 신호들의 형태를 취할 수 있거나 RF(radio frequency) 및 적외선(IR: infrared) 데이터 통신들 동안에 생성된 것들과 같은 음향파 또는 광파의 형태를 취할 수 있다. 그러므로 컴퓨터 판독 가능한 매체의 흔한 형태들에는, 예를 들면 플로피 디스크, 플렉시블(flexible) 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드들 종이 테이프, 홀(hole)들의 패턴들을 갖는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령어들을 운반하는 반송파, 그러한 반송파를 운반하는 케이블들이나 링크(link)들, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 판독 가능한 매체의 이들 형태들 중 많은 것이 실행을 위해 프로세서로 하나 이상의 명령어들의 하나 이상의 시퀀스들을 나르는 것에 관련될 수 있다.
컴퓨터 시스템(801)은 예를 들면 관리 인터페이스(management interface)를 제공하기 위한 사용자 인터페이스(840)를 포함하는 전자 디스플레이(735)를 포함하거나 그러한 전자 디스플레이(735)와 통신을 행할 수 있다. UI의 예들에는 GUI(graphical user interface)와 웹 기반의 사용자 인터페이스(web-based user interface)를 포함하지만 이들에 국한되는 것은 아니다.
본 개시물의 방법들 및 시스템들은 하나 이상의 알고리즘들에 의해 구현될 수 있다. 알고리즘은 중앙 처리 유닛(805)에 의한 실행시 소프트웨어에 의해 구현될 수 있다.
본 명세서에 본 발명의 바람직한 실시예들이 도시되고 설명되었지만, 그러한 실시예들은 오로지 예로서 제공되는 점이 당업자에게는 명백할 것이다. 이제 본 발명으로부터 벗어나지 않으면서 다수의 변형예, 변경예, 및 대체예가 생긴다는 것이 당업자에게 분명해진다. 본 명세서에서 설명된 본 발명의 실시예들에 대한 다양한 대안예들은 본 발명을 실시할 때 사용될 수 있다는 점이 이해되어야 한다. 후속하는 청구항들은 본 발명의 범위를 규정하고, 그것에 의해 이들 청구항의 범위 내의 방법들 및 구조들과 그것들의 등가물들이 포함되게 의도된다.

Claims (15)

  1. 데이터 처리 방법에 있어서:
    (a) 일련의 연산들에 의해 처리될 입력 데이터를 수신하는 단계;
    (b) 상기 일련의 연산들로부터 제1 연산을 식별하는 단계로서, 상기 제1 연산은 메모리 유닛의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가지는, 상기 식별하는 단계;
    (c) 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양과 상기 메모리 유닛의 상기 용량에 적어도 부분적으로 기초하는 상기 제1 연산으로 그룹화되는 상기 일련의 연산들로부터 적어도 하나의 제2 연산을 선택하는 단계; 및
    (d) 상기 그룹화된 연산들의 상기 입력 데이터의 부분을 처리하는 단계로서, 상기 입력 데이터의 상기 부분은 상기 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정되는, 상기 처리하는 단계를 포함하는, 데이터 처리 방법.
  2. 제1 항에 있어서,
    상기 제1 연산의 상기 출력 데이터의 양은 상기 제1 연산의 상기 입력 데이터의 양과 상기 제1 연산의 하나 이상의 파라미터들 또는 상기 그룹화된 연산들의 상기 입력 데이터의 양과 상기 그룹화된 연산들의 하나 이상의 파라미터들에 기초하여 결정되는, 데이터 처리 방법.
  3. 제1 항에 있어서,
    상기 단계 (c)는 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 용량을 초과하는지를 결정하는 단계와, 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과하지 않을 때까지 상기 적어도 제2 연산에서의 연산들의 개수를 점진적으로 증가시키는 단계를 포함하는, 데이터 처리 방법.
  4. 제3 항에 있어서,
    상기 단계 (c)는 (1) 상기 그룹화된 연산들에서의 연산들의 개수가 상기 일련의 연산들에서의 연산들의 개수와 같고, (2) 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과할 때, 외부 메모리에 상기 그룹화된 연산들의 상기 출력 데이터를 저장하는 단계를 더 포함하거나,
    상기 단계 (c)는 (1) 상기 그룹화된 연산들에서의 연산들의 개수가 상기 일련의 연산들에서의 연산들의 개수와 같고, (2) 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과할 때, 외부 메모리에 상기 그룹화된 연산들의 상기 입력 데이터를 저장하는 단계를 더 포함하거나,
    상기 단계 (c)는 (1) 상기 그룹화된 연산들에서의 연산들의 개수가 상기 일련의 연산들에서의 연산들의 개수와 같고, (2) 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과할 때, 외부 메모리에 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터를 저장하는 단계를 더 포함하는, 데이터 처리 방법.
  5. 제1 항에 있어서,
    상기 그룹화된 연산들의 상기 입력 데이터의 상기 부분은 상기 입력 데이터와 한계 데이터(marginal data)의 N개의 같은 부분들 중 하나를 포함하고, N은 2 이상인 정수이며,
    상기 단계 (c)는 상기 N의 값이 최소이도록 상기 적어도 하나의 제2 연산을 결정하는 단계를 포함하거나, 상기 (d) 단계는 적어도 N번 수행되거나, 상기 그룹화된 연산들의 상기 입력 데이터의 상기 부분은 상기 그룹화된 연산들의 상기 입력 데이터의 다른 부분의 적어도 한 부분을 포함하거나, N은 (1) 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양, (2) 상기 메모리 유닛의 상기 용량, 및 (3) 상기 그룹화된 연산들의 중간 데이터 결과의 상기 양에 적어도 부분적으로 기초하여 결정되는, 데이터 처리 방법.
  6. 제1 항에 있어서,
    상기 단계 (c)는 (1) 상기 그룹화된 연산들에서의 연산들의 개수가 상기 일련의 연산들에서의 연산들의 개수와 같고, (2) 상기 그룹화된 연산들에서의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과할 때, 외부 메모리에 상기 그룹화된 연산들의 상기 출력 데이터를 저장하는 단계를 더 포함하고,
    상기 단계 (d)는 상기 메모리 유닛에 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 중간 데이터 결과를 저장하는 단계를 포함하는, 데이터 처리 방법.
  7. 제1 항에 있어서,
    상기 단계 (c)는 (1) 상기 그룹화된 연산들에서의 연산들의 개수가 상기 일련의 연산들에서의 연산들의 개수와 같고, (2) 상기 그룹화된 연산들에서의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과할 때, 외부 메모리에 상기 그룹화된 연산들의 상기 입력 데이터를 저장하는 단계를 더 포함하고,
    상기 단계 (d)는 상기 외부 메모리로부터 상기 그룹화된 연산들의 상기 입력 데이터의 상기 부분을 수신하는 단계를 포함하거나, 상기 메모리 유닛에 상기 그룹화된 연산들의 상기 중간 데이터 결과 및 상기 출력 데이터를 저장하는 단계 또는 상기 메모리 유닛에 상기 그룹화된 연산들의 상기 입력 데이터, 상기 중간 데이터 결과, 및 상기 출력 데이터를 저장하는 단계를 포함하는, 데이터 처리 방법.
  8. 제1 항에 있어서,
    (e) 상기 그룹화된 연산의 상기 출력 데이터의 부분을 얻고, 상기 그룹화된 연산의 상기 출력 데이터를 얻도록, 상기 그룹화된 연산의 상기 출력 데이터의 각 부분을 어셈블링하는 단계를 더 포함하는, 데이터 처리 방법.
  9. 데이터 처리 시스템에 있어서:
    하나 이상의 프로세서들;
    적어도 하나의 메모리 유닛; 및
    하나 이상의 메모리들로서, 상기 하나 이상의 프로세서들에 의해 실행될 때 상기 하나 이상의 프로세서들로 하여금:
    (a) 일련의 연산들에 의해 처리될 입력 데이터를 수신하는 것;
    (b) 상기 메모리 유닛의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가지는 제1 연산을 상기 일련의 연산들로부터 식별하는 것;
    (c) 상기 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양과 상기 메모리 유닛의 상기 용량에 적어도 부분적으로 기초하는 상기 제1 연산으로 그룹화될 상기 일련의 연산들로부터 적어도 하나의 제2 연산을 선택하는 것으로서, 상기 제1 연산의 상기 출력 데이터의 양은 상기 제1 연산의 상기 입력 데이터의 양과 상기 제1 연산의 하나 이상의 파라미터들에 기초하거나, 상기 그룹화된 연산들의 상기 입력 데이터의 양과 상기 그룹화된 연산들의 하나 이상의 파라미터들에 기초하여 결정되는, 상기 적어도 하나의 제2 연산을 선택하는 것;
    (d) 상기 그룹화된 연산들의 상기 입력 데이터의 부분을 처리하는 것을 행하게 하는 명령어들을 내부에 저장하는, 상기 하나 이상의 메모리들을 포함하는, 데이터 처리 시스템.
  10. 제9 항에 있어서,
    상기 (c)는 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과하는지를 결정하고, 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과하지 않을 때까지 상기 적어도 하나의 제2 연산에서의 연산들의 개수를 점진적으로 증가시키는 것을 포함하는, 데이터 처리 시스템.
  11. 제10 항에 있어서,
    상기 (c)는 (1) 상기 그룹화된 연산들에서의 연산들의 개수가 상기 일련의 연산들에서의 연산들의 개수와 같고, (2) 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과할 때, 외부 메모리에 상기 그룹화된 연산들의 상기 출력 데이터를 저장하는 것을 더 포함하거나,
    상기 (c)는 (1) 상기 그룹화된 연산들에서의 연산들의 개수가 상기 일련의 연산들에서의 연산들의 개수와 같고, (2) 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과할 때, 외부 메모리에 상기 그룹화된 연산들의 상기 입력 데이터를 저장하는 것을 더 포함하거나,
    상기 (c)는 (1) 상기 그룹화된 연산들에서의 연산들의 개수가 상기 일련의 연산들에서의 연산들의 개수와 같고, (2) 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과할 때, 외부 메모리에 상기 그룹화된 연산들의 상기 입력 데이터와 상기 출력 데이터를 저장하는 것을 더 포함하는, 데이터 처리 시스템.
  12. 제9 항에 있어서,
    상기 그룹화된 연산들의 상기 입력 데이터의 상기 부분은 상기 입력 데이터와 상기 한계 데이터의 N개의 같은 부분들 중 하나를 포함하고, N은 2 이상인 정수이며,
    상기 (c)는 상기 N의 값이 최소이도록 상기 적어도 하나의 제2 연산을 결정하는 것을 포함하거나, 상기 (d)는 적어도 N번 수행되거나, 상기 그룹화된 연산들의 상기 입력 데이터의 상기 부분은 상기 그룹화된 연산들의 상기 입력 데이터의 다른 부분의 적어도 한 부분을 포함하거나, N은 (1) 상기 그룹화된 연산들의 상기 입력 데이터 및 상기 출력 데이터의 양, (2) 상기 메모리 유닛의 상기 용량, 및 (3) 상기 그룹화된 연산들의 중간 데이터 결과의 상기 양에 적어도 부분적으로 기초하여 결정되는, 데이터 처리 시스템.
  13. 제9 항에 있어서,
    상기 (c)는 (1) 상기 그룹화된 연산들에서의 연산들의 개수가 상기 일련의 연산들에서의 연산들의 개수와 같고, (2) 상기 그룹화된 연산들에서의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과할 때, 외부 메모리에 상기 그룹화된 연산들의 상기 출력 데이터를 저장하는 것을 더 포함하고, 상기 (d)는 상기 메모리 유닛에 상기 그룹화된 연산들의 상기 입력 데이터와 상기 중간 데이터 결과를 저장하는 것을 포함하거나,
    상기 (c)는 (1) 상기 그룹화된 연산들에서의 연산들의 개수가 상기 일련의 연산들에서의 연산들의 개수와 같고, (2) 상기 그룹화된 연산들에서의 상기 입력 데이터 및 상기 출력 데이터의 양이 상기 메모리 유닛의 상기 용량을 초과할 때, 외부 메모리에 상기 그룹화된 연산들의 상기 입력 데이터를 저장하는 것을 더 포함하고, 상기 (d)는 상기 외부 메모리로부터 상기 그룹화된 연산들의 상기 입력 데이터의 상기 부분을 수신하는 것을 포함하거나, 상기 (d)는 상기 메모리 유닛에 상기 그룹화된 연산들의 상기 중간 데이터 결과와 상기 출력 데이터를 저장하는 것을 포함하거나, 상기 (d)는 상기 메모리 유닛에 상기 그룹화된 연산들의 상기 입력 데이터, 상기 중간 데이터 결과, 및 상기 출력 데이터를 저장하는 것을 포함하는, 데이터 처리 시스템.
  14. 제9 항에 있어서,
    상기 하나 이상의 메모리들은, 상기 하나 이상의 프로세서들에 의해 실행될 때, 또한 상기 하나 이상의 프로세서들로 하여금 (e) 상기 그룹화된 연산의 상기 출력 데이터의 부분을 얻고, 상기 그룹화된 연산의 상기 출력 데이터를 얻도록, 상기 그룹화된 연산의 상기 출력 데이터의 각 부분을 어셈블링하게 하는 명령어들을 내부에 저장하는, 데이터 처리 시스템.
  15. 하나 이상의 컴퓨터 프로세서들에 의해 실행될 때, 데이터 처리의 방법을 구현하는 기계 실행 가능한 코드를 포함하는 비일시적 컴퓨터 판독 가능한 매체(non-transitory computer readable medium)에 있어서:
    (a) 일련의 연산들에 의해 처리될 입력 데이터를 수신하기 위한 프로그램 명령어들;
    (b) 상기 일련의 연산들로부터, 메모리 유닛의 용량을 초과하는 입력 데이터 및 출력 데이터의 양을 가지는 제1 연산을 식별하기 위한 프로그램 명령어들;
    (c) 상기 그룹화된 연산들의 입력 데이터 및 출력 데이터의 양과 상기 메모리 유닛의 상기 용량에 적어도 부분적으로 기초하는 상기 제1 연산으로 그룹화될 상기 일련의 연산들로부터 적어도 하나의 제2 연산을 선택하기 위한 프로그램 명령어들; 및
    (d) 상기 그룹화된 연산들의 상기 입력 데이터의 부분을 처리하기 위한 프로그램 명령어들을 포함하고, 상기 입력 데이터의 상기 부분은 상기 그룹화된 연산들의 중간 데이터 결과의 양에 적어도 부분적으로 기초하여 결정되는, 비일시적 컴퓨터 판독 가능한 매체.
KR1020190032374A 2018-03-22 2019-03-21 데이터 처리 시스템 및 데이터 처리 방법 KR20190111810A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNPCT/CN2018/080010 2018-03-22
CN2018080010 2018-03-22

Publications (1)

Publication Number Publication Date
KR20190111810A true KR20190111810A (ko) 2019-10-02

Family

ID=66102857

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190032374A KR20190111810A (ko) 2018-03-22 2019-03-21 데이터 처리 시스템 및 데이터 처리 방법

Country Status (5)

Country Link
US (1) US20190294438A1 (ko)
EP (1) EP3543856A1 (ko)
JP (1) JP6961640B2 (ko)
KR (1) KR20190111810A (ko)
CN (1) CN109918204B (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11620528B2 (en) * 2018-06-12 2023-04-04 Ciena Corporation Pattern detection in time-series data
US11606335B2 (en) * 2019-05-02 2023-03-14 Dell Products L.P. Systems and methods for hierarchical access control across devices in a network environment
US20210097184A1 (en) * 2019-09-27 2021-04-01 Advanced Micro Devices, Inc. Secure buffer for bootloader
CN111506520B (zh) * 2020-07-01 2020-09-22 腾讯科技(深圳)有限公司 一种地址生成的方法、相关装置以及存储介质
JP2022034897A (ja) 2020-08-19 2022-03-04 富士通株式会社 情報処理装置、機械学習方法及び機械学習プログラム
CN114926498B (zh) * 2022-04-26 2023-05-23 电子科技大学 一种基于时空约束与可学习特征匹配的快速目标跟踪方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9122724B2 (en) * 2008-10-28 2015-09-01 Hewlett-Packard Development Company, L.P. Combined join
GB201607713D0 (en) * 2016-05-03 2016-06-15 Imagination Tech Ltd Convolutional neural network
US10387769B2 (en) * 2016-06-30 2019-08-20 Samsung Electronics Co., Ltd. Hybrid memory cell unit and recurrent neural network including hybrid memory cell units
KR20180012439A (ko) * 2016-07-27 2018-02-06 삼성전자주식회사 회선 신경망에서 가속기 및 이의 동작 방법
CN107743246A (zh) * 2017-01-24 2018-02-27 贵州白山云科技有限公司 任务处理方法、系统及数据处理系统
CN106951962B (zh) * 2017-03-22 2020-09-01 南京地平线机器人技术有限公司 用于神经网络的复合运算单元、方法和电子设备
CN107329836B (zh) * 2017-07-13 2021-01-22 北京元心科技有限公司 多系统的内存管理方法、管理装置以及移动终端
CN107798382B (zh) * 2017-11-21 2020-09-01 南京地平线机器人技术有限公司 用于适配卷积神经网络中的特征数据的方法和装置
AU2017279610A1 (en) * 2017-12-19 2019-07-04 Canon Kabushiki Kaisha Memory access optimisation using per-layer computational mapping and memory allocation for CNN application

Also Published As

Publication number Publication date
CN109918204B (zh) 2021-04-23
JP6961640B2 (ja) 2021-11-05
CN109918204A (zh) 2019-06-21
EP3543856A1 (en) 2019-09-25
JP2019169150A (ja) 2019-10-03
US20190294438A1 (en) 2019-09-26

Similar Documents

Publication Publication Date Title
KR20190111810A (ko) 데이터 처리 시스템 및 데이터 처리 방법
US20230153620A1 (en) Dynamic processing element array expansion
JP6961011B2 (ja) データ管理のためのシステム及び方法
US11508146B2 (en) Convolutional neural network processing method and apparatus
US20190138887A1 (en) Systems, methods, and media for gated recurrent neural networks with reduced parameter gating signals and/or memory-cell units
US10185891B1 (en) Systems and methods for compact convolutional neural networks
CN109871936B (zh) 用于处理神经网络中的卷积运算的方法和装置
US20190258925A1 (en) Performing attribute-aware based tasks via an attention-controlled neural network
US20190332925A1 (en) Neural hardware accelerator for parallel and distributed tensor computations
US11586886B2 (en) Neural network apparatus and method with bitwise operation
US11636306B2 (en) Implementing traditional computer vision algorithms as neural networks
KR20160034814A (ko) 뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템
US11763150B2 (en) Method and system for balanced-weight sparse convolution processing
KR102038390B1 (ko) 고효율 병렬 처리를 위한 인공 신경망 모듈 및 이의 스케쥴링 방법
Bhagwat et al. Applied deep learning with keras: Solve complex real-life problems with the simplicity of keras
US11144291B1 (en) Loop-oriented neural network compilation
US20210304010A1 (en) Neural network training under memory restraint
Wolter et al. Neural network compression via learnable wavelet transforms
CN113168555A (zh) 减少卷积神经网络的资源消耗的系统及相关方法
WO2022095984A1 (en) Method and system for convolution with workload-balanced activation sparsity
US20230148319A1 (en) Method and device with calculation for driving neural network model
US20230146493A1 (en) Method and device with neural network model
US20220283778A1 (en) Method and device for encoding
US20210201132A1 (en) Neural network method and apparatus
WO2023020419A1 (en) System and method for bank-balanced sparse activation and joint-activation-weight-sparse training of neural networks

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal