KR20190117713A - 신경망 아키텍처 최적화 - Google Patents
신경망 아키텍처 최적화 Download PDFInfo
- Publication number
- KR20190117713A KR20190117713A KR1020197027657A KR20197027657A KR20190117713A KR 20190117713 A KR20190117713 A KR 20190117713A KR 1020197027657 A KR1020197027657 A KR 1020197027657A KR 20197027657 A KR20197027657 A KR 20197027657A KR 20190117713 A KR20190117713 A KR 20190117713A
- Authority
- KR
- South Korea
- Prior art keywords
- neural network
- compact representation
- compact
- new
- architecture
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3495—Performance evaluation by tracing or monitoring for systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
신경망 아키텍처를 최적화하기 위해 컴퓨터 저장 매체상에 인코딩된 컴퓨터 프로그램을 포함하는 방법, 시스템 및 장치가 개시된다. 방법들 중 하나는 훈련 데이터를 수신하는 단계; 훈련 데이터를 사용하여, 기계 학습 태스크를 수행하기 위한 최적화된 신경망 아키텍처를 결정하는 단계; 및 최적화된 신경망 아키텍처를 갖는 신경망의 파라미터들의 훈련된 값들을 결정하는 단계를 포함한다.
Description
본 명세서는 신경망을 학습시키는 것에 관한 것이다.
신경망은 수신된 입력에 대한 출력을 예측하기 위해 하나 이상의 비선형 유닛 계층들을 사용하는 기계 학습 모델이다. 일부 신경망은 출력층 외에 하나 이상의 은닉층을 포함한다. 각 은닉층의 출력은 네트워크에서 다음 계층, 즉 다음 은닉층 또는 출력층에 대한 입력으로 사용된다. 네트워크의 각 계층은 각 파라미터들의 각 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.
일반적으로, 본 명세서에 설명된 요지의 하나의 혁신적인 양태는 최적의 신경망 아키텍처를 결정하기 위한 방법으로 구현될 수 있다.
이 양태의 다른 실시 예들은 각각이 방법의 동작을 수행하도록 구성된 하나 이상의 컴퓨터 저장 장치에 기록된 해당 컴퓨터 프로그램, 컴퓨터 시스템 및 장치를 함한다. 하나 이상의 컴퓨터의 시스템은 시스템에 설치된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합에 의해 특정 오퍼레이션 또는 동작을 수행하도록 구성될 수 있으며, 이는 오퍼레이션 중에 시스템이 동작을 수행하게 할 수 있다. 하나 이상의 컴퓨터 프로그램은 데이터 처리 장치에 의해 실행될 때 장치로 하여금 동작을 수행하게 하는 명령어들을 포함시킴으로써 특정 오퍼레이션 또는 동작을 수행하도록 구성될 수 있다.
본 명세서에서 설명된 요지는 다음의 장점들 중 하나 이상을 실현하기 위해 특정 실시 예들에서 구현될 수 있다. 본 명세서에 기술된 바와 같이 소정의 기계 학습 태스크에 대한 학습 데이터(훈련 데이터)를 사용하여 신경망 아키텍처를 최적화함으로써, 기계 학습 태스크에서 학습된 최종 신경망의 성능을 향상시킬 수 있다. 특히, 신경망의 아키텍처는 기존의 아키텍처에 의해 제약받지 않고 태스크에 대한 학습 데이터에 맞춰(tailored)질 수 있으며, 학습된 신경망의 성능을 향상시킨다. 여러 워커 컴퓨팅 유닛들에 아키텍처 최적화를 배포함으로써, 검색 및 평가할 수 있는 아키텍처의 검색 공간이 크게 증가하여 최종적으로 최적화된 아키텍처가 기계 학습 태스크의 성능을 향상시킨다. 또한, 신경망을 직접 수정하지 않고 아키텍처의 콤팩트한 표현으로 오퍼레이팅함으로써, 최적화 프로세스의 효율이 향상되어, 최적화된 아키텍처가 더 빨리 결정되고, 더 적은 메모리 및 처리 능력, 또는 더 적은 컴퓨팅 리소스를 사용하면서 결정된다.
본 명세서의 요지의 하나 이상의 실시 예의 세부 사항은 첨부 도면 및 이하의 설명에 기재되어 있다. 본 요지의 다른 특징, 양태 및 장점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.
도 1은 예시적인 신경망 아키텍처 최적화 시스템을 도시한다.
도 2는 신경망 아키텍처를 최적화하기 위한 예시적인 프로세스의 흐름도이다.
도 3은 개체군(population) 저장소의 콤팩트 표현을 업데이트하기 위한 예시적인 프로세스의 흐름도이다.
도 2는 신경망 아키텍처를 최적화하기 위한 예시적인 프로세스의 흐름도이다.
도 3은 개체군(population) 저장소의 콤팩트 표현을 업데이트하기 위한 예시적인 프로세스의 흐름도이다.
도 1은 예시적인 신경망 아키텍처 최적화 시스템(100)을 도시한다. 신경망 아키텍처 최적화 시스템(100)은 하나 이상의 위치에서 하나 이상의 컴퓨터상에서 컴퓨터 프로그램으로서 구현되는 시스템의 예이며, 여기서 후술되는 시스템, 컴포넌트 및 기술이 구현될 수 있다.
신경망 아키텍처 최적화 시스템(100)은 예를 들어, 기계 학습 태스크를 수행하기 위해 신경망을 학습(훈련)시키기 위한 학습(훈련) 데이터(102)를 시스템의 사용자로부터 수신하고, 학습 데이터(102)를 사용하여 기계 학습 태스크를 수행하기 위한 최적의 신경망 아키텍처를 결정하고 그리고 최적의 신경망 아키텍처를 갖는 신경망을 학습시켜 신경의 파라미터들의 학습된 값들을 결정하는 시스템이다.
학습 데이터(102)는 일반적으로 다수의(복수의) 훈련(학습) 예(examples) 및 각각의 훈련 예에 대한 각각의 목표 출력을 포함한다. 소정의 훈련 예에 대한 목표 출력은 소정의 훈련 예를 프로세싱함으로써 훈련된 신경망에 의해 생성되어야 하는 출력이다.
시스템(100)은 임의의 다양한 방식으로 훈련 데이터(102)를 수신할 수 있다. 예를 들어, 시스템(100)은, 예를 들어, 시스템(100)에 의해 이용 가능한 애플리케이션 프로그래밍 인터페이스(API)를 사용하여, 데이터 통신 네트워크를 통해 시스템의 원격 사용자로부터 업로드로서 훈련 데이터를 수신할 수 있다. 다른 예로서, 시스템(100)은 시스템(100)에 의해 이미 유지되고 있는 데이터를 훈련 데이터(102)로서 사용해야 하는 것을 특정하는 입력을 사용자로부터 수신할 수 있다.
신경망 아키텍처 최적화 시스템(100)은 훈련(학습) 데이터(102)를 사용하여 훈련된(학습된) 신경망을 특정하는 데이터(152)를 생성한다. 데이터(152)는 훈련된 신경망의 최적 아키텍처 및 최적의 아키텍처를 갖는 훈련된 신경망의 파라미터의 훈련된 값을 특정한다.
신경망 아키텍처 최적화 시스템(100)이 데이터(152)를 생성하면, 신경망 아키텍처 최적화 시스템(100)은 훈련된 신경망 데이터(152)를 사용하여 훈련된 신경망을 인스턴스화하고 그리고 훈련된 신경망을 사용하여 예를 들어 시스템에 의해 제공된 API를 통해 기계 학습 태스크를 수행하기 위해 새로운 수신된 입력을 프로세싱할 수 있다. 즉, 시스템(100)은 프로세싱될 입력을 수신하고, 훈련된 신경망을 사용하여 입력을 프로세싱하고, 훈련된 신경망에 의해 생성된 출력 또는 수신된 입력에 응답하여 생성된 출력으로부터 도출된 데이터를 제공할 수 있다. 대신에 또는 추가적으로, 시스템(100)은 훈련된 신경망을 인스턴스화하는데 나중에 사용하기 위해 상기 훈련된 신경망 데이터(152)를 저장할 수 있거나, 훈련된 신경망 데이터(152)를 훈련된 신경망을 인스턴스화하는데 사용하기 위한 다른 시스템으로 전송하거나, 훈련 데이터를 제출한 사용자에게 데이터(152)를 출력할 수 있다.
기계 학습 태스크는 훈련 데이터(102)를 시스템(100)에 제출하는 사용자에 의해 특정된 태스크이다.
일부 구현예들에서, 사용자는 훈련 데이터(102)와 함께 태스크를 식별하는 데이터를 신경망 아키텍처 최적화 시스템(100)에 제출함으로써 태스크를 명시적으로 정의한다. 예를 들어, 시스템(100)은 사용자가 시스템(100)에 의해 지원되는 태스크 목록으로부터 태스크를 선택할 수 있게 하는 사용자의 사용자 장치에 사용자 인터페이스를 제공할 수 있다. 즉, 신경망 아키텍처 최적화 시스템(100)은 기계 학습 태스크, 예를 들어 이미지 분류와 같은 이미지 처리 태스크, 음성 인식 태스크, 감정 분석과 같은 자연어 처리 태스크 등의 목록(리스트)을 유지할 수 있다. 시스템(100)은 사용자 인터페이스에서 태스크들 중 하나를 선택함으로써 훈련 데이터를 사용할 태스크로서 상기 유지된 태스크들 중 하나를 선택할 수 있도록 할 수 있다.
일부 다른 구현예들에서, 사용자에 의해 제출된 훈련 데이터(102)는 기계 학습 태스크를 특정한다. 즉, 신경망 아키텍처 최적화 시스템(100)은 훈련 예에 대한 목표 출력과 동일한 포맷(format) 및 구조를 갖는 출력을 생성하기 위해 상기 태스크를 훈련 데이터(102)의 훈련 예와 동일한 포맷 및 구조를 갖는 입력을 프로세싱하는 태스크로서 정의한다. 예를 들어, 훈련 예가 특정 해상도를 갖는 이미지이고 목표 출력이 1000 차원 벡터(one-thousand dimensional vector)인 경우, 시스템(100)은 특정 해상도를 갖는 이미지를 1000 차원 벡터에 매핑하는 태스크로서 상기 태스크를 식별할 수 있다. 예를 들어, 1000 차원 목표 출력 벡터는 0이 아닌 값을 갖는 단일 요소를 가질 수 있다. 0이 아닌 값의 위치는 훈련 예 이미지가 속하는 1000개 클래스 중 어느 클래스에 속하는지 나타낸다. 이 예에서, 시스템(100)은 태스크가 이미지를 1000 차원 확률 벡터에 매핑하는 것임을 식별할 수 있다. 각 요소는 이미지가 해당 클래스에 속할 확률을 나타낸다. 1000개의 가능한 클래스들로부터 선택된 목표 출력 분류와 페어링된 50000개의 훈련 예들로 구성된 CIFAR-1000 데이터세트는 그러한 훈련 데이터(102)의 예이다. CIFAR-10은 분류가 10가지 가능한 클래스 중 하나인 관련 데이터세트이다. 적합한 훈련 데이터(102)의 다른 예는 훈련 예가 필기 숫자(handwritten digits)의 이미지이고 목표 출력이 이를 나타내는 숫자인 MNIST 데이터세트이다. 상기 목표 출력은 0이 아닌 단일 값을 갖는 10 차원 벡터로 표현될 수 있고, 0이 아닌 값의 위치는 각각의 숫자를 나타낸다.
신경망 아키텍처 최적화 시스템(100)은 개체군 저장소(110) 및 개체군 저장소에 저장된 데이터를 업데이트하기 위해 서로 독립적으로 오퍼레이팅하는 다수의 워커 (120A-N)를 포함한다.
훈련 동안 임의의 소정의 시간에, 개체군 저장소(population repository)(110)는 하나 이상의 물리적 위치의 하나 이상의 저장 장치로서 구현되고 현재 후보 신경망 아키텍처의 개체군을 특정하는 데이터를 저장한다.
특히, 개체군 저장소(110)는 현재 개체군의 각 후보 신경망 아키텍처에 대해, 아키텍처를 정의하는 콤팩트 표현(compact representation)을 저장한다. 선택적으로, 개체군 저장소(110)는 또한 각각의 후보 아키텍처에 대해, 아키텍처를 갖는 신경망의 인스턴스(instance), 아키텍처를 갖는 신경망에 대한 파라미터들의 현재 값들, 또는 아키텍처를 특징짓는 추가적인 메타데이터를 저장할 수 있다.
소정의 아키텍처의 콤팩트 표현은 아키텍처의 적어도 일부를 인코딩하는 데이터, 즉 신경망 아키텍처 최적화 시스템(100)에 의해 수정될 수 있는 신경망 아키텍처의 적어도 일부(부분) 또는 아키텍처를 갖는 신경망을 생성하는데 사용될 수 있는 데이터이다. 특히, 소정의 아키텍처의 콤팩트 표현은 아키텍처의 각 계층과 아키텍처의 계층들 간의 연결, 즉 신경망에 의한 입력 프로세싱 동안 계층들 간의 데이터 흐름을 콤팩트하게(compactly) 식별한다.
예를 들어, 상기 콤팩트 표현은 지향된 에지에 의해 연결된 노드들의 그래프를 나타내는 데이터일 수 있다. 일반적으로, 그래프의 각 노드는 신경망 컴포넌트, 예를 들어 신경망 계층, 신경망 모듈, LSTM(Long-Short-Term memory) 셀의 게이트, LSTM 셀 또는 다른 신경망 컴포넌트를 나타내고, 아키텍처에서 그래프의 각 에지는 각각의 송신(outgoing) 노드를 각각의 수신(incoming) 노드에 연결하고, 송신 노드에 의해 표현된 컴포넌트에 의해 생성된 출력의 적어도 일부(부분)가 입력 노드에 의해 표현되는 계층에 입력으로서 제공됨을 나타낸다. 노드와 에지에는 아키텍처의 다양한 컴포넌트가 데이터를 변환하는 방식을 나타내는 라벨(label)이 있다.
컨벌루션 신경망의 예에서, 그래프의 각 노드는 아키텍처의 신경망 계층을 나타내며 노드가 나타내는 계층에 입력의 크기와 노드가 나타내는 계층에 의해 적용되는 활성화 함수의 유형(있는 경우)을 특정하는 라벨이 있으며, 각 에지에 대한 라벨은 수신 노드에 의해 표현된 계층에 의해 송신 노드에 의해 표현된 계층에 의해 생성된 출력에 적용되는 변환을 특정하며, 예를 들어, 완전하게 연결된(fully-connected) 계층에 의해 적용된 컨벌루션 또는 매트릭스 곱셈을 특정한다.
다른 예로서, 콤팩트 표현은 아키텍처에서 컴포넌트들 사이의 연결을 반영하는 순서로 배열된 아키텍처에서 컴포넌트들에 대한 식별자들의 리스트(목록)일 수 있다.
또 다른 예로서, 콤팩트 표현은 상술한 에지 및 노드의 그래프를 구성하기 위한 규칙들의 세트(규칙 세트), 즉 실행될 때 아키텍처를 나타내는 에지 및 노드의 그래프를 생성하는 규칙 세트일 수 있다.
일부 구현들에서, 콤팩트 표현은 또한 인코딩된 아키텍처, 예를 들어 학습 속도, 학습 속도 감소 등을 갖는 신경망의 훈련을 위해 하이퍼파라미터(hyperparameter)들을 특정하는 데이터를 인코딩한다.
훈련 프로세스를 시작하기 위해, 신경망 아키텍처 최적화 시스템(100)은 사용자 지정 기계 학습 태스크(작업)를 수행하기 위한 하나 이상의 초기 신경망 아키텍처의 콤팩트 표현으로 개체군 저장소를 미리 채운다(pre-populate).
각각의 초기 신경망 아키텍처는 기계 학습 태스크에 부합(conform)하는 입력, 즉 훈련 데이터(102)에서 훈련 예의 포맷(형식) 및 구조를 갖는 입력을 수신하는 아키텍처이고, 기계 학습 태스크에 부합하는 출력, 즉 훈련 데이터(102)에서 목표 출력의 포맷 및 구조를 갖는 출력을 생성한다.
특히, 신경망 아키텍처 최적화 시스템(100)은 다수의 기존의 신경망 아키텍처를 식별하는 데이터를 유지(maintain)한다.
기계 학습 태스크가 사용자에 의해 선택 가능한 구현예에서, 시스템(100)은 또한 기존의 신경망 아키텍처 각각을 이들 아키텍처가 수행하도록 구성된 태스크와 연관시키는 데이터를 유지한다. 그 후, 시스템은 사용자 지정 태스크를 수행하도록 구성된 기존 아키텍처로 개체군 저장소(110)를 미리 채울 수 있다.
시스템(100)이 훈련 데이터(102)로부터 태스크를 결정하는 구현예에서, 시스템(100)은 상기 유지된 데이터에서 식별된 아키텍처가 적합한 입력을 수신하고 그리고 적합한 출력을 생성하는지 결정하고, 이러한 아키텍처들을 저장소(100)를 미리 채우는 데 사용될 아키텍처들로서 선택한다.
일부 구현예들에서, 기존의 신경망 아키텍처들은 특정 기계 학습 태스크를 수행하기 위한 기본 아키텍처들이다. 다른 구현예에서, 기존의 신경망 아키텍처는 훈련된 후 특정 기계 학습 태스크에서 잘 수행되는 것으로 밝혀진 아키텍처들이다.
워커(120A-120N) 각각은 각각의 컴퓨팅 유닛에서 실행되도록 배치된 하나 이상의 컴퓨터 프로그램 및 데이터로 구현된다. 컴퓨팅 유닛은 서로 독립적으로 동작할 수 있도록 구성된다. 일부 구현에서, 예를 들어 워커가 일부 리소스를 공유하기 때문에 부분적인 독립 오퍼레이션만 가능하다. 컴퓨팅 유닛은 예를 들어 컴퓨터, 다수의 코어를 갖는 컴퓨터 내의 코어, 또는 워커에 대한 연산을 독립적으로 수행할 수 있는 컴퓨터 내의 다른 하드웨어 또는 소프트웨어 일 수 있다.
워커(120A-120N) 각각은 개체군(population)의 적합성을 향상시키기 위해 개체군 저장소(102)에서 가능한 신경망 아키텍처의 개체군을 반복적으로 업데이트한다.
특히, 각각의 반복에서, 소정의 워커(120A-120N)는 개체군 저장소로부터 부모(parent) 콤팩트 표현(122)을 샘플링하고, 부모 콤팩트 표현(122)으로부터 자식(offspring) 콤팩트 표현(124)을 생성하고, 자식 콤팩트 표현(124)에 의해 정의된 아키텍처를 갖는 신경망을 훈련시키고, 아키텍처를 갖는 훈련된 신경망의 피트니스(fitness) 측정치와 관련하여 자식 콤팩트 표현(124)을 개체군 저장소(110)에 저장한다.
훈련에 대한 종료 기준이 충족된 후, 신경망 아키텍처 최적화 시스템(100)은 개체군에 남아있는 아키텍처들, 또는 어떤 경우에는 훈련 동안 임의의 시점에 개체군에 있었던 모든 아키텍처들로부터 최적의 신경망 아키텍처를 선택한다.
특히, 일부 구현들에서, 신경망 아키텍처 최적화 시스템(100)은 피트니스의 베스트 측정치를 갖는 개체군에서 아키텍처를 선택한다. 다른 구현에서, 신경망 아키텍처 최적화 시스템(100)은 그러한 아키텍처가 개체군으로부터 제거된 후에도 아키텍처에 대한 피트니스의 측정치를 추적하고, 추적된 피트니스 측정치를 사용하여 피트니스의 베스트 측정치를 갖는 아키텍처를 선택한다.
훈련된 신경망을 특정하는 데이터(152)를 생성하기 위해, 신경망 아키텍처 최적화 시스템(100)은 개체군 저장소(110)로부터 최적의 신경망 아키텍처를 갖는 훈련된 신경망의 파라미터에 대한 훈련된 값을 획득하거나 신경망의 파라미터의 훈련된 값을 결정하기 위해 최적의 아키텍처를 갖는 신경망을 훈련시킬 수 있다.
도 2는 기계 학습 태스크를 수행하기 위한 최적의 신경망 아키텍처를 결정하기 위한 예시적인 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그램된 신경망 아키텍처 최적화 시스템, 예를 들어, 도 1의 신경망 아키텍처 최적화 시스템(100)은 프로세스(200)를 수행할 수 있다.
상기 시스템은 사용자 지정(특정) 기계 학습 태스크를 수행하기 위해 신경망을 훈련하는데 사용하기 위한 훈련 데이터를 획득한다(단계 202). 상기 시스템은 수신된 훈련 데이터를 훈련 서브세트, 검증 서브세트, 및 선택적으로 테스트 서브세트로 분할한다.
상기 시스템은 하나 이상의 디폴트(기본) 신경망 아키텍처로 개체군 저장소를 초기화한다(단계 204). 특히, 상기 시스템은 디폴트 신경망 아키텍처들 각각에 대한 콤팩트 표현을 개체군 저장소에 추가하여 개체군 저장소를 초기화한다.
디폴트 신경망 아키텍처들은 기계 학습 태스크를 수행하기 위한 미리 결정된 아키텍처, 즉 훈련 데이터에 의해 지정(특정)된 것과 일치하는 입력을 수신하고 훈련 데이터에 의해 지정된 것과 일치하는 출력을 생성하는 아키텍처이다.
상기 시스템은 다수의 워커를 사용하여 개체군 저장소의 아키텍처를 반복적으로 업데이트한다(단계 206).
특히, 여러 워커들 중 각 워커는 독립적으로 아키텍처 수정 프로세스의 여러 반복을 수행한다. 프로세스가 반복될 때마다 각 워커는 개체군 저장소의 콤팩트 표현을 업데이트하여 후보 신경망 아키텍처의 개체군을 업데이트한다. 워커가 새로운 신경망 아키텍처에 대한 새로운 콤팩트 표현을 추가하기 위해 개체군 저장소를 업데이트할 때마다, 워커는 또한 개체군 저장소의 새로운 콤팩트 표현과 관련하여 신경망 아키텍처를 갖는 훈련된 신경망의 피트니스 측정치를 저장한다. 아키텍처 수정 프로세스의 반복을 수행하는 것은 도 3을 참조하여 아래에 설명된다.
상기 시스템은 기계 학습 태스크를 수행하는 데 사용될 최적화(optimized)된 신경망 아키텍처로서 가장 적합한 후보 신경망 아키텍처를 선택한다(단계 208). 즉, 워커가 반복을 수행하고 종료 기준이 충족되면 (예: 임계 값 이상의 반복 횟수가 수행된 후 또는 개체군 저장소에서 가장 적합한 후보 신경망이 임계 값을 초과하는 피트니스를 보유한 후), 상기 시스템은 기계 학습 태스크를 수행하는 데 사용되는 최종 신경망 아키텍처로서 상기 가장 적합한 후보 신경망 아키텍처를 선택한다.
상기 시스템이 훈련 데이터로부터 테스트 서브세트를 생성하는 구현에서, 상기 시스템은 또한 테스트 서브세트에서 최적화된 신경망 아키텍처를 갖는 훈련된 신경망의 성능을 테스트하여 사용자 지정 기계 학습 태스크에서 훈련된 신경망의 피트니스 측정치를 결정한다. 그 후, 상기 시스템은 훈련 데이터를 제출한 사용자에게 제시하기 위한 피트니스 측정치를 제공하거나 훈련된 신경망의 파라미터의 훈련된 값과 관련하여 피트니스 측정치를 저장할 수 있다.
설명된 방법을 사용하여, 결과적으로 훈련된 신경망은 신경망 설계자의 입력을 거의 또는 전혀 요구하지 않으면서 첨단 수공 설계 모델(state-of-the-art hand-designed model)들과 경쟁하거나 이를 능가하는 기계 학습 태스크에서 성능을 달성할 수 있다. 특히, 설명된 방법은 결과 신경망의 하이퍼파라미터를 자동으로 최적화한다.
도 3은 개체군 저장소에서 콤팩트 표현을 업데이트하기 위한 예시적인 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 신경망 아키텍처 최적화 시스템, 예를 들어, 본 명세서에 따라 적절히 프로그램된 도 1의 신경망 아키텍처 최적화 시스템(100)은 프로세스(300)를 수행할 수 있다.
프로세스(300)는 기계 학습 태스크를 수행하기 위한 최적의 신경망 아키텍처를 결정하는 부분으로서 다수의 워커들의 각 워커에 의해 독립적으로 반복적으로 수행될 수 있다.
상기 워커는 개체군 저장소로부터 다수의 부모 콤팩트 표현을 획득한다(단계 302). 특히, 워커는 서로 랜덤하게 그리고 각 다른 워커와는 독립적으로 개체군 저장소로부터 2개 이상의 콤팩트 표현을 샘플링하고, 각각의 샘플링된 콤팩트 표현은 상이한 후보 신경망 아키텍처를 인코딩한다.
일부 구현들에서, 각각의 워커는 항상 개체군 저장소로부터 동일한 미리 결정된 수의 부모 콤팩트 표현들을 샘플링하고, 예를 들어 항상 2개의 부모 콤팩트 표현들을 샘플링하거나 항상 3개의 콤팩트 표현들을 샘플링한다. 일부 다른 구현에서, 각각의 워커는 개체군 저장소로부터 각각의 미리 결정된 수의 부모 콤팩트 표현을 샘플링하지만, 미리 결정된 수는 상이한 워커에 대해 상이하며, 예를 들어 한 워커는 항상 두 개의 부모 콤팩트 표현을 샘플링할 수 있지만 다른 워커는 항상 세 개의 콤팩트 표현을 샘플링할 수 있다. 또 다른 구현에서, 각각의 워커는 다수의 가능한 수 각각에 대한 가능성을 정의하는 데이터를 유지하고 그리고 그 데이터에 의해 정의된 가능성에 따라 각 반복에서 샘플링할 콤팩트 표현의 수를 선택한다.
상기 워커는 부모 콤팩트 표현으로부터 자식(자손) 콤팩트 표현을 생성한다(단계 304).
특히, 상기 워커는 부모 콤팩트 표현에 의해 인코딩된 각 아키텍처의 피트니스를 평가하고 그리고 가장 적합하지 않은 아키텍처를 인코딩하는 부모 콤팩트 표현, 즉 워스트(worst) 피트니스 측정치를 갖는 아키텍처를 인코딩하는 부모 콤팩트 표현을 결정한다.
즉, 상기 워커는 개체군 저장소의 각 부모 콤팩트 표현과 연관된 피트니스 측정치를 비교하고 그리고 워스트(worst) 피트니스 측정치와 연관된 부모 콤팩트 표현을 식별한다.
부모 콤팩트 표현 중 하나가 상기 저장소에서의 피트니스 측정치와 연관되지 않은 경우, 상기 워커는 아래 설명된 바와 같이 부모 콤팩트 표현에 의해 인코딩된 아키텍처를 갖는 신경망의 피트니스를 평가한다.
그 다음, 상기 워커는 나머지 부모 콤팩트 표현, 즉 더 나은 피트니스 측정치를 갖는 표현으로부터 자식 콤팩트 표현을 생성한다. 소정의 수의 아이템을 샘플링하고 더 나은 성능을 가진 아이템을 선택하는 것을 '토너먼트 선택(tournament selection)'이라고 한다. 상기 워스트 피트니스 측정치를 갖는 부모 콤팩트 표현은 개체군 저장소에서 제거될 수 있다.
상기 워커는 적어도 아래의 이유로 인해 위의 구현에서 비동기식으로 오퍼레이팅할 수 있다. 각 워커가 제한된 수의 부모 콤팩트 표현을 샘플링하기 때문에 소정의 워커는 일반적으로 개체군 저장소에 포함된 다른 부모 콤팩트 표현의 수정에 영향을 받지 않는다. 때때로, 다른 워커는 소정의 워커가 오퍼레이팅하고 있는 부모 콤팩트 표현을 수정할 수 있다. 이 경우, 영향을 받는 워커는 단순히 포기하고 다시 시도할 수 있으며, 예를 들어, 현재 개체군의 새로운 부모 콤팩트 표현을 샘플링할 수 있다. 비동기식으로 오퍼레이팅하는 워커는 대규모 병렬 락-프리(lock-free) 인프라에서 오퍼레이팅할 수 있다.
하나(단일)의 나머지 부모 콤팩트 표현이 있는 경우, 상기 워커는 부모 콤팩트 표현을 변형(돌연변이를 만듬)(mutate)하여 자식 콤팩트 표현을 생성한다.
일부 구현들에서, 상기 워커는 돌연변이 신경망(mutation neural network)을 통해 부모 콤팩트 표현을 프로세싱함으로써 부모 콤팩트 표현을 변형한다. 상기 돌연변이 신경망은 하나의 콤팩트 표현을 포함하는 입력을 수신하고 입력 콤팩트 표현과는 상이한 다른 콤팩트 표현을 정의하는 출력을 생성하도록 훈련된 신경망이다.
일부 다른 구현에서, 상기 워커는 콤팩트 표현에 적용될 수 있는 가능한 돌연변이들의 세트를 식별하는 데이터를 유지한다. 상기 워커는 가능한 돌연변이들 중 하나를 무작위로 선택하고 그 돌연변이를 부모 콤팩트 표현에 적용할 수 있다.
상기 가능한 돌연변이들의 세트는 신경망으로부터 컴포넌트의 추가, 제거 또는 수정(modification) 또는 신경망의 훈련을 위한 하이퍼파라미터의 변화를 나타내는 임의의 다양한 콤팩트 표현 수정을 포함할 수 있다.
예를 들어, 가능한 돌연변이들의 세트는 부모 콤팩트 표현으로부터 노드를 제거하고 따라서 부모 콤팩트 표현에 의해 인코딩된 아키텍처로부터 컴포넌트를 제거하는 돌연변이를 포함할 수 있다.
다른 예로서, 가능한 돌연변이들의 세트는 부모 콤팩트 표현에 노드를 추가하고 따라서 부모 콤팩트 표현에 의해 인코딩된 아키텍처에 컴포넌트를 추가하는 돌연변이를 포함할 수 있다.
다른 예로서, 가능한 돌연변이들의 세트는 콤팩트 표현에서 기존 노드 또는 에지에 대한 라벨을 변경하고 따라서 부모 콤팩트 표현에 의해 인코딩된 아키텍처의 기존 컴포넌트에 의해 수행되는 오퍼레이션을 수정하는 하나 이상의 돌연변이를 포함할 수 있다. 예를 들어, 하나의 돌연변이는 컨벌루션 신경망 계층의 필터 크기를 변경할 수 있다. 다른 예로서, 다른 돌연변이는 컨벌루션 신경망 계층의 출력 채널의 수를 변경할 수 있다.
다른 예로서, 가능한 돌연변이 세트는 아키텍처를 갖는 신경망을 훈련시키는데 사용되는 학습 레이트를 수정하거나 아키텍처를 갖는 신경망을 훈련시키는데 사용되는 학습 레이트 붕괴(decay)를 수정하는 돌연변이를 포함할 수 있다.
이러한 구현들에서, 상기 시스템이 콤팩트 표현에 적용할 돌연변이를 선택하면, 상기 시스템은 콤팩트 표현에서 유효한 위치를 결정하고, 그 유효한 위치 중 하나를 무작위로 선택한 다음 그 무작위로 선택된 유효한 위치에 상기 돌연변이를 적용한다. 유효한 위치는, 상기 돌연변이가 해당 위치에 적용된 경우 콤팩트 표현이 여전히 유효한 아키텍처를 인코딩하는 위치이다. 유효한 아키텍처는 기계 학습 태스크를 여전히 수행하는 즉, 적합한 출력을 프로세싱하여 적합한 출력을 생성하는 아키텍처이다.
남아있는 부모 콤팩트 표현이 여러 개 있는 경우, 상기 워커는 부모 콤팩트 표현을 재결합하여 자식 콤팩트 표현을 생성한다.
일부 구현들에서, 상기 워커는 재결합(recombining) 신경망을 사용하여 부모 콤팩트 표현들을 프로세싱함으로써 부모 콤팩트 표현들을 재결합한다. 재결합 신경망은 부모 콤팩트 표현을 포함하는 입력을 수신하고 그리고 부모 콤팩트 표현의 재결합인 새로운 콤팩트 표현을 정의하는 출력을 생성하도록 훈련된 신경망이다.
일부 다른 구현에서, 시스템은 부모 콤팩트 표현들을 조인(joining)하여 자식 콤팩트 표현을 생성함으로써 부모 콤팩트 표현들을 재결합한다. 예를 들어, 상기 시스템은 수신 에지에 의해 부모 콤팩트 표현의 출력 노드에 연결되고 부모 콤팩트 표현의 출력 노드들에 의해 표현된 컴포넌트들의 출력을 결합하는 컴포넌트를 나타내는 자식 콤팩트 표현에 노드를 추가하여 콤팩트 표현들을 조인할 수 있다. 다른 예로서, 상기 시스템은 부모 콤팩트 표현들 각각에서 출력 노드들을 제거할 수 있고, 부모 콤팩트 표현들에서 해당 노드들에 의해 표현된 컴포넌트들의 출력들을 결합하는 컴포넌트를 나타내고, 부모 콤팩트 표현들의 출력 노드들에 송신 에지들에 의해 연결된 노드들에 수신 에지들에 의해 연결된 자식 콤팩트 표현에 노드를 추가할 수 있다.
일부 구현에서, 상기 워커는 또한 현재 개체군에서 가장 적합하지 않은 아키텍처를 제거한다. 예를 들어, 상기 워커는 콤팩트 표현을 비활성으로 지정하는 아키텍처에 대한 콤팩트 표현과 데이터를 연관시키거나 콤팩트 표현과 관련 데이터를 상기 저장소에서 삭제할 수 있다.
일부 구현들에서, 상기 시스템은 임의의 시간에 개체군에 있을 수 있는 최대 수의 아키텍처를 정의하는 최대 개체군 크기 파라미터 그리고 임의의 소정의 시간에 개체군에 있을 수 있는 최소 수의 아키텍처를 정의하는 최소 개체군 크기 파라미터를 유지한다. 상기 개체군 크기 파라미터들은 사용자에 의해 정의될 수 있거나 또는 예를 들어 시스템에 이용 가능한 저장 리소스에 기초하여 상기 시스템에 의해 자동으로 결정될 수 있다.
상기 개체군의 아키텍처들의 현재 수(현재 아키텍처 수)가 상기 최소 개체군 크기 파라미터 미만인 경우, 상기 워커는 상기 개체군에서 가장 적합하지 않은 아키텍처(least fit architecture)를 제거하지 않을 수 있다.
상기 현재 아키텍처 수가 최대 개체군 크기 파라미터와 동일하거나 이를 초과하는 경우, 상기 워커는 자식 콤팩트 표현을 생성하는 것을 자제할 수 있으며, 즉, 새로운 콤팩트 표현으로 교체하지 않고 프로세스(300)의 단계 306-312를 수행하지 않고도 개체군에서 가장 적합하지 않은 아키텍처를 제거할 수 있다.
상기 워커는 자식 콤팩트 표현을 디코딩함으로써 자식 신경망을 생성한다(단계 306). 즉, 상기 워커는 자식 콤팩트 표현에 의해 인코딩된 아키텍처를 갖는 신경망을 생성한다.
일부 구현들에서, 상기 워커는 자식 신경망의 파라미터들을 임의의 값들 또는 미리 결정된 초기값들로 초기화한다. 다른 구현들에서, 상기 워커는 해당 부모 신경망의 훈련으로부터의 파라미터들의 값들에 대해 자식 콤팩트 표현을 생성하기 위해 사용된 하나 이상의 부모 콤팩트 표현에 포함된 자식 신경망의 컴포넌트들의 파라미터들의 값들 초기화한다. 하나 이상의 부모 콤팩트 표현에 포함된 컴포넌트들을 기반으로 그 컴포넌트들의 파라미터들의 값들을 초기화하는 것을 '웨이트 상속(weight inheritance)'이라고 한다.
상기 워커는 자식 신경망의 파라미터들의 훈련된 값들을 결정하기 위해 자식 신경망을 훈련시킨다(단계 308). 자식 신경망들은 완전히 훈련되는 것이 바람직하다. 그러나, 프로세스(300)의 각각의 반복에서 완료될 수 있도록 자식 신경망들을 훈련시키는 것은 적어도 더 큰(larger) 신경망들에 대해 불합리한 시간 및 컴퓨팅 리소스를 요구할 가능성이 있다. 웨이트 상속은 프로세스(300)의 각 반복에 요구되는 훈련의 양을 제한하면서, 이후 반복에서 자식 네트워크들이 완전히 훈련되거나 적어도 완전히 훈련될 수 있게 함으로써 이러한 딜레마를 해결할 수 있다.
특히, 상기 워커는 기계 학습 태스크에 적합한 신경망 훈련 기술, 예를 들어 역전파를 이용한 확률적 기울기 하강 또는 자식 신경망이 순환 신경망인 경우, 역전파 시간(backpropagation-through-time) 훈련 기술을 사용하여 훈련 데이터의 훈련 서브세트에서 자식 신경망을 훈련시킨다. 훈련하는 동안, 상기 워커는 자식 콤팩트 표현에 의해 인코딩되는 모든 훈련 하이퍼파라미터에 따라 훈련을 수행한다.
일부 구현에서, 상기 워커는 예를 들어, 각 훈련 라운드 전에 훈련 서브세트에서 훈련 예를 무작위로 정렬함으로써, 새로운 신경망을 훈련할 때마다 훈련 서브세트에서 훈련 예의 순서를 수정한다. 따라서, 각 워커는 일반적으로 동일한 훈련 예에서 신경망을 훈련시키지만 워커마다 다르게 정렬된다.
상기 워커는 훈련된 자식 신경망의 피트니스를 평가한다(단계 310).
특히, 상기 시스템은 검증 서브세트(validation subset), 즉 워커가 자식 신경망을 훈련시키기 위해 사용하는 훈련 서브세트와 다른 서브세트상에서 훈련된 자식 신경망의 피트니스를 결정할 수 있다.
상기 워커는 훈련 예의 목표 출력을 사용하여 검증 서브세트의 훈련 예들에서 훈련된 신경망에 의해 생성된 모델 출력들의 피트니스를 평가함으로써 훈련된 자식 신경망의 피트니스를 평가한다.
일부 구현들에서, 사용자는 훈련된 자식 신경망들의 피트니스, 예를 들어, 정확도 측정치, 리콜 측정치, 커브 측정치 영역, 제곱 오차 측정치, 난도 측정치(perplexity measure) 등을 평가하는데 사용될 피트니스 측정치를 특정한다.
다른 구현들에서, 상기 시스템은, 시스템에 의해 지원되는 각각의 기계 학습 태스크들과 각각의 피트니스 측정치를 연관시키는(예를 들어, 사용자에 의해 선택 가능한 각각의 기계 학습 태스크와 각각의 피트니스 측정치를 연관시키는) 데이터를 유지한다. 이러한 구현들에서, 상기 시스템은 사용자가 지정한 기계 학습 태스크와 연관된 피트니스 측정치를 사용하도록 각 워커에게 지시한다.
상기 워커는 자식 콤팩트 표현 및 훈련된 자식 신경망의 피트니스 측정치를 개체군 저장소에 저장한다(단계 312). 일부 구현에서, 상기 워커는 자식 콤팩트 표현과 연관하여 개체군 저장소의 상기 훈련된 신경망의 파라미터들의 훈련된 값들을 저장한다.
본 명세서에서 설명된 요지 및 기능적 동작의 실시 예는 디지털 전자 회로, 유형적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어로 구현될 수 있으며, 본 명세서 및 그 구조적 균등물에 개시된 구조를 포함하거나, 그들 중 하나 이상의 조합을 포함한다. 본 명세서에서 설명된 요지의 실시 예는 하나 이상의 컴퓨터 프로그램, 즉 데이터 프로세싱 장치에 의해 실행되거나 또는 데이터 프로세싱 장치의 동작을 제어하기 위한 유형의 비-일시적인 프로그램 캐리어상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈로서 구현될 수 있다. 선택적으로 또는 부가적으로, 상기 프로그램 명령어들은 데이터 프로세싱 장치에 의한 실행을 위해 적절한 수신기 장치로의 송신을 위한 정보를 인코딩하기 위해 생성된 인위적으로 생성된 전파 신호, 예를 들어, 기계 - 생성 전기, 광학 또는 전자기 신호 상에 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독 가능 저장 장치, 기계 판독 가능 저장 기판, 랜덤 또는 시리얼 액세스 메모리 장치, 또는 이들 중 하나 이상의 조합일 수 있다. 그러나 컴퓨터 저장 매체는 전파된 신호가 아니다.
"데이터 프로세싱(처리) 장치"라는 용어는 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터를 포함하는 데이터 프로세싱을 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 상기 장치는 특수 목적 논리 회로, 예를 들어 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)을 포함할 수 있다. 또한, 상기 장치는 하드웨어 이외에, 해당 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 설명될 수 있음)은 컴파일된 또는 해석된 언어, 또는 선언적 또는 절차적 언어를 포함한 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 장치를 포함하여 어떤 형태로든 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있지만 반드시 그런 것은 아니다. 프로그램은 프로그램 전용 단일 파일, 여러 개의 조정된 파일(예를 들어, 하나 이상의 모듈, 하위 프로그램 또는 코드의 부분들을 저장하는 파일들), 또는 마크업 언어 문서에 저장된 하나 이상의 스크립트와 같은 다른 프로그램들 또는 데이터를 보유하고 있는 파일의 부분에 저장될 수 있다. 컴퓨터 프로그램은 한 사이트에 있거나 여러 사이트에 분산되어 있으며 통신 네트워크로 상호 연결된 여러 대의 컴퓨터 또는 하나의 컴퓨터에서 실행되도록 배포될 수 있다.
본 명세서에서 사용되는 "엔진" 또는 "소프트웨어 엔진"은 입력과 다른 출력을 제공하는 소프트웨어 구현 입력/출력 시스템을 지칭한다. 엔진은 라이브러리, 플랫폼, 소프트웨어 개발 키트("SDK") 또는 객체와 같은 인코딩된 기능 블록일 수 있다. 각 엔진은 서버, 휴대 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 음악 플레이어, 전자 책 리더, 랩톱 또는 데스크톱 컴퓨터, PDA, 스마트폰 또는 기타 고정식 또는 휴대용 장치와 같은 적절한 유형의 컴퓨팅 장치에서 구현될 수 있으며, 이는 하나 이상의 프로세서 및 컴퓨터 판독 가능 매체를 포함한다. 또한, 둘 이상의 엔진이 동일한 컴퓨팅 장치 또는 상이한 컴퓨팅 장치에서 구현될 수 있다.
본 명세서에서 설명되는 프로세스들 및 로직 흐름은 입력 데이터를 오퍼레이팅하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 상기 프로세스들 및 로직 흐름은 또한 FPGA(field programmable gate array) 또는 ASIC(application-specific integrated circuit)과 같은 특수 목적의 논리 회로에 의해 수행될 수 있고, 장치는 또한 상기 특수 목적의 논리 회로로 구현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터들은 예를 들어 범용 또는 특수 목적 마이크로프로세서들 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 포함하고, 이들에 기반될 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성요소들은 명령어들을 수행하거나 실행하기 위한 중앙 처리 장치 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 장치이다. 일반적으로, 컴퓨터는 예를 들어, 자기, 광 자기 디스크 또는 광학 디스크와 같은 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치로부터 데이터를 수신하거나 그 하나 이상의 대용량 저장 장치에 데이터를 전송하기 위해 동작 가능하게 결합될 것이다. 그러나, 컴퓨터는 그러한 장치들을 가질 필요가 없다. 또한, 컴퓨터는 다른 장치, 예를 들어, 이동 전화기, 개인 휴대 정보 단말기(PDA), 이동 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 예를 들어 범용 직렬 버스(USB) 플래시 드라이브와 같은 휴대용 저장 장치에 내장될 수 있다.
컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 장치들과 같은 반도체 메모리 장치들; 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크; 광 자기 디스크; 그리고 CD-ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치들을 포함한다. 상기 프로세서 및 메모리는 특수 목적 논리 회로에 의해 통합되거나 보완될 수 있다.
사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 설명된 요지의 실시예들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어 CRT(cathode ray tube) 모니터, LCD(liquid crystal display) 모니터), 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 장치(예를 들어 마우스 또는 트랙볼)를 갖는 컴퓨터상에서 구현될 수 있다. 다른 종류의 디바이스들이 사용자와의 상호 작용을 제공하는 데 사용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있으며, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 디바이스로부터 자원들을 수신하고 그 자원들을 보냄으로써, 예를 들어, 웹 브라우저로부터 수신된 요청들에 응답하여 사용자의 클라이언트 디바이스상의 웹 브라우저에 웹 페이지들을 전송함으로써 사용자와 상호 작용할 수 있다.
본 명세서에서 설명된 요지의 실시예들은 데이터 서버와 같은 백 엔드 컴포넌트, 또는 예를 들어 애플리케이션 서버와 같은 미들웨어 컴포넌트, 또는 본 명세서에 설명된 요지의 구현예와 사용자가 상호 작용할 수 있는 웹 브라우저를 또는 그래픽 사용자 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트 엔드 컴포넌트, 또는 하나 이상의 백엔드, 미들웨어 또는 프런트 엔드 컴포넌트의 모든 조합을 포함하는 컴퓨팅 시스템으로 구현될 수 있다. 상기 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 접속될 수 있다. 예시적인 통신 네트워크들은 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어 인터넷을 포함한다.
상기 컴퓨팅 시스템은 클라이언트들과 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터들에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의해 발생한다.
본 명세서는 다수의 특정 구현 세부 사항을 포함하지만, 이들은 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 실시예들에 특정 될 수 있는 특징들에 대한 설명으로 해석되어야 한다. 별도의 실시예들과 관련하여 본 명세서에서 설명되는 특정 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 문맥에서 설명된 다양한 특징은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 하위 조합으로 구현될 수 있다. 더욱이, 특징들은 특정 조합으로 동작하는 것으로 상술될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징이 일부 경우에서 그 조합으로부터 제거될 수 있으며, 청구된 조합은 서브 조합 또는 서브 조합의 변형에 관한 것일 수 있다.
유사하게, 동작들이 특정 순서로 도면들에 도시되어 있지만, 이는 바람직한 결과들을 달성하기 위해 상기 동작들이 도시된 특정 순서 또는 순차적 순서로 수행되거나 모든 예시된 동작이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 전술한 실시예들에서 다양한 시스템 컴포넌트들의 분리는 모든 실시예들에서 그러한 분리를 요구하는 것으로 이해되어서는 안되며, 서술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다중 소프트웨어 제품들로 패키징될 수 있다는 것을 이해해야 한다.
본 발명의 특정 실시예들이 설명되었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구 범위에 열거된 동작들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과들을 달성한다. 하나의 예로서, 첨부된 도면들에 도시된 프로세스들은 바람직한 결과들을 얻기 위해 나타낸 특정 순서 또는 순차적 순서를 반드시 필요로 하지는 않는다. 특정 구현예들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.
Claims (16)
- 방법으로서,
기계 학습 태스크를 수행하도록 신경망을 훈련시키기 위한 훈련 데이터를 수신하는 단계-상기 훈련 데이터는 복수의 훈련 예들 및 상기 훈련 예들 각각에 대한 각각의 목표 출력을 포함함-;
상기 훈련 데이터를 사용하여, 상기 기계 학습 태스크를 수행하기 위한 최적화된 신경망 아키텍처를 결정하는 단계를 포함하며, 상기 최적화된 신경망 아키텍처를 결정하는 단계는,
각각 서로 다른 워커 컴퓨팅 유닛으로부터 비동기식으로 오퍼레이팅하는 복수의 워커 컴퓨팅 유닛들 각각을 사용하여 동작들을 반복적으로 수행하는 단계 -상기 동작들은,
워커 컴퓨팅 유닛에 의해, 개체군 저장소 내의 콤팩트 표현들의 현재 개체군으로부터 복수의 콤팩트 표현들을 선택하는 동작 -상기 현재 개체군의 각 콤팩트 표현은 상기 기계 학습 태스크를 수행하기 위해 상이한 후보 신경망 아키텍처를 인코딩함-,
상기 워커 컴퓨팅 유닛에 의해, 상기 선택된 복수의 콤팩트 표현들로부터 새로운 콤팩트 표현을 생성하는 동작,
상기 워커 컴퓨팅 유닛에 의해, 상기 새로운 콤팩트 표현에 의해 인코딩된 아키텍처를 갖는 훈련된 신경망의 피트니스의 측정치를 결정하는 동작, 그리고
상기 워커 컴퓨팅 유닛에 의해, 상기 개체군 저장소의 현재 개체군에 상기 새로운 콤팩트 표현을 추가하고 그리고 상기 새로운 콤팩트 표현을 상기 피트니스의 측정치와 연관시키는 동작을 포함함-; 그리고
상기 최적화된 신경망 아키텍처로서, 피트니스의 베스트 측정치와 연관된 콤팩트 표현에 의해 인코딩된 신경망 아키텍처를 선택하는 단계; 그리고
상기 최적화된 신경망 아키텍처를 갖는 신경망의 파라미터들의 훈련된 값들을 결정하는 단계를 포함하는 것을 특징을 하는 방법. - 제1항에 있어서,
상기 새로운 콤팩트 표현에 의해 인코딩된 아키텍처를 갖는 훈련된 신경망의 피트니스의 측정치를 결정하는 동작은,
상기 새로운 콤팩트 표현에 의해 인코딩된 아키텍처를 갖는 새로운 신경망을 인스턴스화하는 동작;
상기 새로운 신경망의 파라미터들의 훈련된 값들을 결정하도록 상기 훈련 데이터의 훈련 서브세트상에서 상기 새로운 신경망을 훈련시키는 동작; 그리고
상기 훈련 데이터의 검증 서브세트에서 훈련된 새로운 신경망의 성능을 평가함으로써 상기 피트니스의 측정치를 결정하는 동작을 포함하는 것을 특징을 하는 방법. - 제2항에 있어서, 상기 동작들은,
상기 새로운 신경망의 파라미터들의 훈련된 값들을 상기 개체군 저장소의 새로운 콤팩트 표현과 연관시키는 동작을 더 포함하는 것을 특징을 하는 방법. - 제3항에 있어서,
상기 최적화된 신경망 아키텍처를 갖는 신경망의 파라미터들의 훈련된 값들을 결정하는 단계는,
상기 피트니스의 베스트 측정치와 연관된 상기 콤팩트 표현과 연관된 훈련된 값들을 상기 최적화된 신경망 아키텍처를 갖는 상기 신경망의 파라미터들의 훈련된 값들로서 선택하는 단계를 포함하는 것을 특징을 하는 방법. - 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 방법은,
상기 기계 학습 태스크를 수행하기 위해 디폴트 신경망 아키텍처를 인코딩하는 하나 이상의 디폴트 콤팩트 표현들로 상기 개체군 저장소를 초기화하는 단계를 더 포함하는 것을 특징을 하는 방법. - 제1항 내지 제5항 중 어느 한 항에 있어서,
상기 복수의 콤팩트 표현들로부터 새로운 콤팩트 표현을 생성하는 동작은,
워스트 피트니스와 연관된 상기 복수의 콤팩트 표현들 중 하나의 콤팩트 표현을 식별하는 동작; 그리고
상기 복수의 콤팩트 표현들에서 상기 식별된 콤팩트 표현 이외의 상기 하나 이상의 콤팩트 표현들로부터 상기 새로운 콤팩트 표현을 생성하는 동작을 포함하는 것을 특징을 하는 방법. - 제6항에 있어서, 상기 동작들은,
상기 현재 개체군에서 상기 식별된 콤팩트 표현을 제거하는 동작을 더 포함하는 것을 특징을 하는 방법. - 제6항 또는 제7항에 있어서,
상기 복수의 콤팩트 표현들에서 상기 식별된 콤팩트 표현 이외의 하나의 나머지 콤팩트 표현이 존재하며, 상기 새로운 콤팩트 표현을 생성하는 동작은,
상기 새로운 콤팩트 표현을 생성하도록 상기 하나의 나머지 콤팩트 표현을 수정(modifying)하는 동작을 포함하는 것을 특징을 하는 방법. - 제8항에 있어서,
상기 하나의 나머지 콤팩트 표현을 수정하는 동작은,
돌연변이들(mutations)의 미리 결정된 세트로부터 하나의 돌연변이를 무작위로 선택하는 동작; 그리고
상기 무작위로 선택된 돌연변이를 상기 하나의 나머지 콤팩트 표현에 적용하여 상기 새로운 콤팩트 표현을 생성하는 동작을 포함하는 것을 특징을 하는 방법. - 제8항에 있어서,
상기 하나의 나머지 콤팩트 표현을 수정하는 동작은,
돌연변이 신경망을 이용하여 상기 하나의 나머지 콤팩트 표현을 프로세싱하는 동작을 포함하며,
상기 돌연변이 신경망은 상기 새로운 콤팩트 표현을 생성하도록 상기 하나의 나머지 콤팩트 표현을 포함하는 네트워크 입력을 프로세싱하도록 훈련되는 것을 특징을 하는 방법. - 제6항 또는 제7항에 있어서,
상기 복수의 콤팩트 표현들에서 상기 식별된 콤팩트 표현 이외의 복수의 나머지 콤팩트 표현들이 존재하며, 상기 새로운 컴팩트 표현을 생성하는 동작은,
상기 복수의 나머지 콤팩트 표현들을 결합하여 상기 새로운 콤팩트 표현을 생성하는 동작을 포함하는 것을 특징을 하는 방법. - 제11항에 있어서,
상기 복수의 나머지 콤팩트 표현들을 결합하여 상기 새로운 콤팩트 표현을 생성하는 동작은,
상기 나머지 콤팩트 표현들을 조인하여(joining) 상기 새로운 콤팩트 표현을 생성하는 동작을 포함하는 것을 특징을 하는 방법. - 제11항에 있어서,
상기 복수의 나머지 콤팩트 표현들을 결합하여 상기 새로운 콤팩트 표현을 생성하는 동작은,
재결합(recombination) 신경망을 사용하여 상기 나머지 콤팩트 표현들을 프로세싱하는 동작을 포함하며,
상기 재결합 신경망은 상기 새로운 콤팩트 표현을 생성하기 위해 상기 나머지 콤팩트 표현들을 포함하는 네트워크 입력을 프로세싱하도록 훈련되는 것을 특징을 하는 방법. - 제1항 내지 제13항 중 어느 한 항에 있어서, 상기 방법은,
상기 신경망의 파라미터들의 훈련된 값들에 따라 새로운 입력 예들을 프로세싱하기 위해 상기 최적화된 신경망 아키텍처를 갖는 상기 신경망을 사용하는 단계를 더 포함하는 것을 특징을 하는 방법. - 시스템으로서,
하나 이상의 컴퓨터들 및
상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 제1항 내지 제14항 중 어느 한 항의 각각의 방법의 동작들을 수행하도록 동작 가능한 명령어들을 저장하는 하나 이상의 저장 장치들을 포함하는 것을 특징으로 하는 시스템. - 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 제1항 내지 제14항 중 어느 한 항의 각각의 방법의 동작들을 수행하게 하는 명령어들로 인코딩된 컴퓨터 저장 매체.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762462846P | 2017-02-23 | 2017-02-23 | |
US201762462840P | 2017-02-23 | 2017-02-23 | |
US62/462,840 | 2017-02-23 | ||
US62/462,846 | 2017-02-23 | ||
PCT/US2018/019501 WO2018156942A1 (en) | 2017-02-23 | 2018-02-23 | Optimizing neural network architectures |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190117713A true KR20190117713A (ko) | 2019-10-16 |
KR102302609B1 KR102302609B1 (ko) | 2021-09-15 |
Family
ID=61768421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197027657A KR102302609B1 (ko) | 2017-02-23 | 2018-02-23 | 신경망 아키텍처 최적화 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20190370659A1 (ko) |
EP (1) | EP3574453A1 (ko) |
JP (1) | JP6889270B2 (ko) |
KR (1) | KR102302609B1 (ko) |
CN (1) | CN110366734B (ko) |
WO (1) | WO2018156942A1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220072287A (ko) * | 2020-11-25 | 2022-06-02 | 인하대학교 산학협력단 | 새로운 태스크에 적응하며 지속 학습하기 위한 신경망 모델의 분할 및 재결합 학습 방법 |
KR20230039045A (ko) * | 2021-09-13 | 2023-03-21 | 연세대학교 산학협력단 | 인공신경망과 연산 가속기 구조 통합 탐색 장치 및 방법 |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461656B2 (en) * | 2017-03-15 | 2022-10-04 | Rakuten Group Inc. | Genetic programming for partial layers of a deep learning model |
US11276071B2 (en) * | 2017-08-31 | 2022-03-15 | Paypal, Inc. | Unified artificial intelligence model for multiple customer value variable prediction |
KR102607880B1 (ko) * | 2018-06-19 | 2023-11-29 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
GB2578771A (en) * | 2018-11-08 | 2020-05-27 | Robinson Healthcare Ltd | Vaginal speculum |
US11630990B2 (en) | 2019-03-19 | 2023-04-18 | Cisco Technology, Inc. | Systems and methods for auto machine learning and neural architecture search |
CN110175671B (zh) * | 2019-04-28 | 2022-12-27 | 华为技术有限公司 | 神经网络的构建方法、图像处理方法及装置 |
CN110276442B (zh) * | 2019-05-24 | 2022-05-17 | 西安电子科技大学 | 一种神经网络架构的搜索方法及装置 |
CN112215332B (zh) * | 2019-07-12 | 2024-05-14 | 华为技术有限公司 | 神经网络结构的搜索方法、图像处理方法和装置 |
US10685286B1 (en) * | 2019-07-30 | 2020-06-16 | SparkCognition, Inc. | Automated neural network generation using fitness estimation |
US20220383111A1 (en) * | 2019-09-27 | 2022-12-01 | D5Ai Llc | Selective training of deep learning modules |
CN114761183B (zh) * | 2019-12-03 | 2024-07-16 | 西门子股份公司 | 用于为机器人系统开发神经技能的计算机化工程工具和方法 |
US11620487B2 (en) * | 2019-12-31 | 2023-04-04 | X Development Llc | Neural architecture search based on synaptic connectivity graphs |
US11593627B2 (en) | 2019-12-31 | 2023-02-28 | X Development Llc | Artificial neural network architectures based on synaptic connectivity graphs |
US11593617B2 (en) | 2019-12-31 | 2023-02-28 | X Development Llc | Reservoir computing neural networks based on synaptic connectivity graphs |
US11625611B2 (en) | 2019-12-31 | 2023-04-11 | X Development Llc | Training artificial neural networks based on synaptic connectivity graphs |
US11631000B2 (en) | 2019-12-31 | 2023-04-18 | X Development Llc | Training artificial neural networks based on synaptic connectivity graphs |
US11568201B2 (en) | 2019-12-31 | 2023-01-31 | X Development Llc | Predicting neuron types based on synaptic connectivity graphs |
US10970633B1 (en) * | 2020-05-13 | 2021-04-06 | StradVision, Inc. | Method for optimizing on-device neural network model by using sub-kernel searching module and device using the same |
CN111652108B (zh) * | 2020-05-28 | 2020-12-29 | 中国人民解放军32802部队 | 抗干扰的信号识别方法、装置、计算机设备和存储介质 |
US11989656B2 (en) * | 2020-07-22 | 2024-05-21 | International Business Machines Corporation | Search space exploration for deep learning |
BR112023021331A2 (pt) | 2021-04-13 | 2023-12-19 | Nayya Health Inc | Análise de dados em tempo real acionados por aprendizado de máquina |
US12056745B2 (en) | 2021-04-13 | 2024-08-06 | Nayya Health, Inc. | Machine-learning driven data analysis and reminders |
JP2024514329A (ja) | 2021-04-13 | 2024-04-01 | ネイヤ・ヘルス・インコーポレイテッド | デモグラフィックス、リスク、およびニーズに基づく機械学習駆動型のデータ分析 |
US12033193B2 (en) * | 2021-04-13 | 2024-07-09 | Nayya Health, Inc. | Machine-learning driven pricing guidance |
CN113780518B (zh) * | 2021-08-10 | 2024-03-08 | 深圳大学 | 网络架构优化方法、终端设备及计算机可读存储介质 |
US20220035877A1 (en) * | 2021-10-19 | 2022-02-03 | Intel Corporation | Hardware-aware machine learning model search mechanisms |
CN114722751B (zh) * | 2022-06-07 | 2022-09-02 | 深圳鸿芯微纳技术有限公司 | 运算单元的构架选择模型训练方法和构架选择方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020059154A1 (en) * | 2000-04-24 | 2002-05-16 | Rodvold David M. | Method for simultaneously optimizing artificial neural network inputs and architectures using genetic algorithms |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1091676A (ja) * | 1996-07-25 | 1998-04-10 | Toyota Motor Corp | 安定化設計方法及び安定化設計プログラムを記録した記録媒体 |
JPH11353298A (ja) * | 1998-06-05 | 1999-12-24 | Yamaha Motor Co Ltd | 遺伝的アルゴリズムにおける個体のオンライン評価手法 |
JP2003168101A (ja) * | 2001-12-03 | 2003-06-13 | Mitsubishi Heavy Ind Ltd | 遺伝的アルゴリズムを用いた学習装置、学習方法 |
US20040024750A1 (en) * | 2002-07-31 | 2004-02-05 | Ulyanov Sergei V. | Intelligent mechatronic control suspension system based on quantum soft computing |
JP2007504576A (ja) * | 2003-01-17 | 2007-03-01 | アヤラ,フランシスコ,ジェイ | 人工知能を開発するためのシステム及び方法 |
JP4362572B2 (ja) * | 2005-04-06 | 2009-11-11 | 独立行政法人 宇宙航空研究開発機構 | ロバスト最適化問題を解く問題処理方法およびその装置 |
US20090182693A1 (en) * | 2008-01-14 | 2009-07-16 | Halliburton Energy Services, Inc. | Determining stimulation design parameters using artificial neural networks optimized with a genetic algorithm |
US8065243B2 (en) * | 2008-04-18 | 2011-11-22 | Air Liquide Large Industries U.S. Lp | Optimizing operations of a hydrogen pipeline system |
CN105701542A (zh) * | 2016-01-08 | 2016-06-22 | 浙江工业大学 | 一种基于多局部搜索的神经网络进化方法 |
-
2018
- 2018-02-23 CN CN201880013643.6A patent/CN110366734B/zh active Active
- 2018-02-23 KR KR1020197027657A patent/KR102302609B1/ko active IP Right Grant
- 2018-02-23 WO PCT/US2018/019501 patent/WO2018156942A1/en unknown
- 2018-02-23 EP EP18713425.9A patent/EP3574453A1/en not_active Withdrawn
- 2018-02-23 JP JP2019545938A patent/JP6889270B2/ja active Active
-
2019
- 2019-08-14 US US16/540,558 patent/US20190370659A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020059154A1 (en) * | 2000-04-24 | 2002-05-16 | Rodvold David M. | Method for simultaneously optimizing artificial neural network inputs and architectures using genetic algorithms |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220072287A (ko) * | 2020-11-25 | 2022-06-02 | 인하대학교 산학협력단 | 새로운 태스크에 적응하며 지속 학습하기 위한 신경망 모델의 분할 및 재결합 학습 방법 |
KR20230039045A (ko) * | 2021-09-13 | 2023-03-21 | 연세대학교 산학협력단 | 인공신경망과 연산 가속기 구조 통합 탐색 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP2020508521A (ja) | 2020-03-19 |
US20190370659A1 (en) | 2019-12-05 |
JP6889270B2 (ja) | 2021-06-18 |
WO2018156942A1 (en) | 2018-08-30 |
CN110366734B (zh) | 2024-01-26 |
KR102302609B1 (ko) | 2021-09-15 |
EP3574453A1 (en) | 2019-12-04 |
CN110366734A (zh) | 2019-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102302609B1 (ko) | 신경망 아키텍처 최적화 | |
JP7210531B2 (ja) | ニューラルアーキテクチャ検索 | |
US11669744B2 (en) | Regularized neural network architecture search | |
JP7157154B2 (ja) | 性能予測ニューラルネットワークを使用したニューラルアーキテクチャ探索 | |
US11651259B2 (en) | Neural architecture search for convolutional neural networks | |
US10984319B2 (en) | Neural architecture search | |
EP3446260B1 (en) | Memory-efficient backpropagation through time | |
US20190354868A1 (en) | Multi-task neural networks with task-specific paths | |
US20240127058A1 (en) | Training neural networks using priority queues | |
CN110663049A (zh) | 神经网络优化器搜索 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
US20220383185A1 (en) | Faithful and Efficient Sample-Based Model Explanations | |
US20220383096A1 (en) | Explaining Neural Models by Interpretable Sample-Based Explanations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |