KR102055355B1 - 배치 정규화 레이어들 - Google Patents

배치 정규화 레이어들 Download PDF

Info

Publication number
KR102055355B1
KR102055355B1 KR1020177023719A KR20177023719A KR102055355B1 KR 102055355 B1 KR102055355 B1 KR 102055355B1 KR 1020177023719 A KR1020177023719 A KR 1020177023719A KR 20177023719 A KR20177023719 A KR 20177023719A KR 102055355 B1 KR102055355 B1 KR 102055355B1
Authority
KR
South Korea
Prior art keywords
layer
neural network
components
outputs
batch
Prior art date
Application number
KR1020177023719A
Other languages
English (en)
Other versions
KR20170108081A (ko
Inventor
세르게이 이오페
코리나 코테스
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20170108081A publication Critical patent/KR20170108081A/ko
Application granted granted Critical
Publication of KR102055355B1 publication Critical patent/KR102055355B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

배치 정규화 레이어를 포함하는 신경 네트워크 시스템을 사용하여 입력들을 프로세싱하기 위한, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치. 상기 방법들 중 하나는 배치에서 각 트레이닝 예시에 대한 각각의 제1 레이어 출력을 수신하는 단계; 상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하는 단계; 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 각 컴포넌트를 정규화하는 단계; 상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 각각의 배치 정규화 레이어 출력을 생성하는 단계; 및 상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하는 단계를 포함한다.

Description

배치 정규화 레이어들
본 명세서는 출력들을 생성하기 위한 신경 네트워크들의 레이어들을 통한 입력들을 프로세싱하는 것과 관련된다.
신경 네트워크들은 수신된 입력에 대한 출력을 예측하기 위한 비선형 유닛들의 하나 이상의 레이어들을 이용하는 기계 학습 모델들(machine learning models)이다. 일부 신경 네트워크들은 출력 레이어에 더하여 하나 이상의 히든 레이어들(hidden layers)을 포함한다. 각 히든 레이어의 출력은 네트워크에서 다음 레이어 즉, 다음 히든 레이어 또는 출력 레이어에 대한 입력으로서 사용된다. 네트워크의 각 레이어는 파라미터들의 각각의 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.
일반적으로, 본 명세서에 기재된 본 발명의 일 혁신적 양태는 하나 이상의 컴퓨터들에 의해 구현되는 신경 네트워크 시스템에 이용될 수 있으며, 상기 신경 네트워크 시스템은 제1 신경 네트워크 레이어와 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 포함하며, 상기 제1 신경 네트워크 레이어는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며, 상기 배치 정규화 레이어는 트레이닝 예시들의 배치에서 상기 신경 네트워크 시스템의 트레이닝 동안에: 상기 배치에서 각 트레이닝 예시에 대한 각각의 제1 레이어 출력을 수신하고; 상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하고; 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 각 컴포넌트를 정규화하고; 상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 각각의 배치 정규화 레이어 출력을 생성하고; 그리고 상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하도록 구성된다.
특정 동작 또는 액션을 수행하도록 구성된 하나 이상의 컴퓨터들의 시스템은 시스템에 소프트웨어, 펌웨어, 하드웨어 또는 그것들의 조합이 설치되어, 동작될 때 상기 시스템으로 하여금 상기 동작 또는 액션을 수행하게 하는 것을 의미한다. 특정 동작 또는 액션을 수행하도록 구성된 하나 이상의 컴퓨터 프로그램들은 하나 이상의 프로그램들이 명령어들을 포함하며, 상기 명령어들이 데이터 프로세싱 장치에 의해 실행될 때 상기 장치로 하여금 상기 동작 또는 액션을 수행하게 하는 것을 의미한다.
본 명세서에 기재된 본 발명의 특정 실시예들은 하나 이상의 다음의 이점들을 실현하도록 구현될 수 있다. 하나 이상의 배치 정규화 레이어들을 포함하는 신경 네트워크 시스템은 어떠한 배치 정규화 레이어들을 포함하지 않는 다른 동일한 신경 네트워크보다 더 빠르게 트레이닝될 수 있다. 예를 들면, 신경 네트워크 시스템에 하나 이상의 배치 정규화 레이어들을 포함함으로써, 트레이닝 동안 변화되는 주어진 레이어의 입력들의 분배에 의해 야기되는 문제들을 완화할 수 있다. 이는 트레이닝 도중에 더 높은 학습 비율이 효율적으로 사용되게 하며, 트레이닝 동안 이용될 다른 규칙화(regularization) 기법들 예를 들면, 드롭아웃(dropout)의 필요를 감소시킬 수 있다. 하나 이상의 정규화 레이어들을 포함하는 트레이닝된 신경 네트워크 시스템은 다른 동일한 신경 네트워크 시스템에 의해 생성된 신경 네트워크 출력들보다 정확성(더 정확하지 않더라도) 있는 신경 네트워크 출력들을 생성할 수 있다.
본 명세서의 본 발명의 하나 이상의 실시예들의 세부사항들은 첨부 도면과 이하의 설명에서 기술된다. 본 발명의 다른 구성들, 양태들 및 이점들은 설명, 도면들, 청구항들로부터 명확해질 것이다.
도 1은 예시적 신경 네트워크 시스템을 도시한다.
도 2는 신경 네트워크 시스템의 트레이닝 동안에 배치 정규화 레이어를 사용하여 입력을 프로세싱하는 예시적 프로세스의 흐름도이다.
도 3은 신경 네트워크 시스템이 트레이닝된 후 배치 정규화를 사용하여 입력을 프로세싱하는 예시적 프로세스의 흐름도이다.
다양한 도면들에서 동일한 번호 및 기호는 동일한 구성요소를 지칭한다.
본 명세서는 배치 정규화 레이어를 포함하는 하나 이상의 위치들에서 하나 이상의 컴퓨터들 상의 컴퓨터 프로그램들로서 구현되는 신경 네트워크 시스템을 기술한다.
도 1은 예시적 신경 네트워크 시스템(100)을 도시한다. 신경 네트워크 시스템(100)은 하나 이상의 위치들에서 하나 이상의 컴퓨터들 상의 컴퓨터 프로그램들로서 구현되는 시스템의 예시이며, 상기 시스템에서 이하에서 기술되는 시스템들, 컴포넌트들 및 기법들이 구현될 수 있다.
신경 네트워크 시스템(100)은 시퀀스 중 가장 낮은 레이어에서부터 상기 시퀀스 중 가장 높은 레이어까지의 시퀀스로 배열된 다수의 신경 네트워크 레이어들을 포함한다. 신경 네트워크 시스템은 신경 네트워크 입력들을 시퀀스의 각 레이어들을 통해 프로세싱함으로써 신경 네트워크 입력들로부터 신경 네트워크 출력들을 생성한다.
신경 네트워크 시스템(100)은 임의의 종류의 디지털 데이터 입력을 수신하고 상기 입력에 기초하여 임의의 종류의 점수 또는 분류 출력을 생성하도록 구성될 수 있다.
예를 들면, 만약 신경 네트워크 시스템(100)의 입력들이 이미지들 또는 이미지들로부터 추출된 구성들인 경우, 해당 이미지에 대해 신경 네트워크 시스템(100)에 의해 생성되는 출력은 오브젝트 카테고리들의 세트 각각에 대한 점수들일 수 있고, 각 점수는 상기 이미지가 상기 카테고리에 속하는 오브젝트의 이미지를 포함할 추정된 가능성을 나타낼 수 있다.
다른 예시로서, 만약 신경 네트워크 시스템(100)에 대한 입력들이 인터넷 리소스들(예를 들면, 웹 페이지들), 문서들 또는 문서들의 부분들 또는 인터넷 리소스들, 문서들 또는 문서들의 부분들로부터 추출된 구성들인 경우, 해당 인터넷 리소스, 문서 또는 문서의 부분에 대한 신경 네트워크 시스템(100)에 의해 생성되는 출력은 토픽들의 세트 각각에 대한 점수일 수 있고, 각 점수는 상기 인터넷 리소스, 문서 또는 문서 부분이 상기 토픽에 관한 것일 추정된 가능성을 나타낼 수 있다.
다른 예시로서, 신경 네트워크 시스템(100)에 대한 입력들이 특정 광고에 대한 노출 컨텍스트의 구성들인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 상기 특정 광고가 클릭될 추정된 가능성을 나타내는 점수일 수 있다.
다른 예시로서, 신경 네트워크 시스템(100)에 대한 입력들이 사용자를 위한 개인화된 추천의 구성들 예를 들면, 상기 추천에 대한 컨텍스트를 특징짓는 구성들, 예를 들면, 상기 사용자에 의해 취해진 이전의 액션들을 특징짓는 구성들인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 컨텐츠 아이템들의 세트 각각에 대한 점수일 수 있고, 상기 각 점수는 상기 사용자가 추천된 컨텐츠 아이템에 호의적으로 응답할 추정된 가능성을 나타낼 수 있다.
다른 예시로서, 만약 신경 네트워크 시스템(100)에 대한 입력이 하나의 언어로된 텍스트인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 다른 언어로의 텍스트의 조각들의 세트 각각에 대한 점수일 수 있고, 상기 각 점수는 다른 언어로의 텍스트의 조각이 입력 텍스트의 다른 언어로의 적절한 번역일 추정된 가능성을 나타낼 수 있다.
다른 예시로서, 신경 네트워크 시스템(100)에 대한 입력이 발화된 발언, 발화된 발언들의 시퀀스 또는 상기 둘 중 하나로부터 도출된 구성들인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 텍스트의 조각들의 세트 각각에 대한 점수일 수 있고, 상기 각 점수는 상기 테스트의 조각이 상기 발언 또는 발언들의 시퀀스에 대한 올바른 전사(transcript)일 추정된 가능성을 나타낼 수 있다.
다른 예시로서, 신경 네트워크 시스템(100)은 자동완성 시스템의 일부 또는 텍스트 프로세싱 시스템의 일부일 수 있다.
다른 예시로서, 신경 네트워크 시스템(100)은 강화 학습 시스템(reinforcement learning system)의 일부일 수 있고, 환경과 인터렉팅하는 대리인에 의해 수행될 액션들을 선택하기 위해 사용되는 출력들을 생성할 수 있다.
특히, 신경 네트워크의 각 레이어들은 입력을 수신하고 상기 입력으로부터 출력을 생성하도록 구성되며, 신경 네트워크 레이어들은 신경 네트워크 시스템(100)에 의해 수신된 신경 네트워크 입력들을 집합적으로 프로세싱하여 각 수신된 신경 네트워크 입력에 대해 각각의 신경 네트워크 출력을 생성한다. 시퀀스에서의 신경 네트워크 레이어들의 일부 또는 전부는 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 입력들로부터 출력들을 생성한다. 예를 들면, 일부 레이어들은 수신된 입력으로부터 출력을 생성하는 것의 일부로서 현재 파리미터 값들의 매트릭스에 의해 수신된 입력을 곱할 수 있다.
또한, 신경 네트워크 시스템(100)은 신경 네트워크 레이어들의 시퀀스에서 신경 네트워크 레이어 A(104)와 신경 네트워크 레이어B(112) 사이에 배치 정규화 레이어(108)을 포함한다. 배치 정규화 레이어(108)는 신경 네트워크 시스템(100)의 트레이닝 동안에 신경 네트워크 레이어 A(104)로부터 수신된 입력들에 대한 동작들의 한 세트를 및 신경 네트워크 시스템(100)이 트레이닝된 후 신경 네트워크 레이어 A(104)로부터 수신된 입력들에 대한 동작들의 다른 세트를 수행하도록 구성된다.
특히, 신경 네트워크 시스템(100)은 신경 네트워크 레이어들의 파라미터들의 트레이닝된 값들을 결정하기 위해 트레이닝 예시들의 다수의 배치들에 대해 트레이닝될 수 있다. 트레이닝 예시들의 배치는 다수의 트레이닝 예시들의 세트이다. 예를 들면, 트레이닝 동안에, 신경 네트워크 시스템(100)은 트레이닝 예시들(102)의 배치를 프로세싱하고 상기 배치(102)에서 각 트레이닝 에시들에 대해 각각의 신경 네트워크 출력을 생성할 수 있다. 그 후, 신경 네트워크 출력들은 상기 시퀀스에서 신경 네트워크 레이어들의 파라미터들의 값들을 예를 들면, 통상적인 기울기 하강 및 역전파 신경 네트워크 트레이닝 기법들을 통해 조절하는데 사용될 수 있다.
트레이닝 예시들의 해당 배치에서 신경 네트워크 시스템(100)의 트레이닝 동안에, 배치 정규화 레이어(108)는 상기 배치에서 트레이닝 예시들에 대한 신경 네트워크 레이어 A(104)에 의해 생성된 레이어 A 출력들(106)을 수신하고, 상기 배치에서 각 트레이닝 예시에 대한 각각의 배치 정규화 레이어 출력(110)을 생성하기 위해 레이어 A 출력들(106)을 프로세싱하고, 그후 상기 배치 정규화 레이어 출력들(110)을 신경 네트워크 레이어 B(112)에 대한 입력으로서 제공하도록 구성된다. 레이어 A 출력들(106)은 상기 배치에서 각 트레이닝 예시에 대한 신경 네트워크 레이어 A(104)에 의해 생성된 각각의 출력을 포함한다. 유사하게, 배치 정규화 레이어 출력들(110)은 상기 배치에서 각 트레이닝 예시에 대한 배치 정규화 레이어(108)에 의해 생성된 각각의 출력을 포함한다.
일반적으로, 배치 정규화 레이어(108)는 레이어 A 출력들(106)로부터 상기 배치에 대한 정규화 통계의 세트를 연산하고, 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 출력을 생성하기 위해 레이어 A 출력들(106)을 정규화하고, 그리고 선택적으로, 상기 출력들을 신경 네트워크 레이어 B(112)에 대한 입력으로서 제공하기 전에 정규화된 출력들 각각을 변환(transform)한다.
배치 정규화 레이어(108)에 의해 연산된 정규화 통계 및 배치 정규화 레이어(108)가 트레이닝 동안에 레이어 A 출력들(106)을 정규화하는 방식은 레이어 A 출력들(106)을 생성하는 신경 네트워크 레이어 A(104)의 성질에 의존한다.
일부 경우들에서, 신경 네트워크 레이어 A(104)는 차원(dimension)에 의해 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 레이어이다. 예를 들면, 신경 네트워크 레이어 A(104)는 완전히 연결된 신경 네트워크 레이어일 수 있다. 그러나, 일부 다른 경우들에서, 신경 네트워크 레이어 A(104)는 컨벌루션 레이어(convolutional layer)또는 피처 인덱스(feature index) 및 공간 위치 인덱스(spatial location index) 둘다에 의해 각각 인덱싱되는 다수의 컴포넌트들을 포함하는 출력을 생성하는 신경 네트워크 레이어의 다른 종류이다. 이들 두 경우들 각각에서 신경 네트워크 시스템(100)의 트레이닝 동안에 배치 정규화 레이어 출력을 생성하는 것은 도 2를 참조하여 이하에서 더 자세히 기술된다.
일단 신경 네트워크 시스템(100)이 트레이닝 되면, 신경 네트워크 시스템(100)은 프로세싱하기 위한 새로운 신경 네트워크 입력을 수신하고, 신경 네트워크 시스템(100)의 컴포넌트들의 파라미터들의 트레이닝된 값들에 따라 상기 입력에 대한 새로운 신경 네트워크 출력을 생성하기 위해 신경 네트워크 레이어들을 통해 신경 네트워크 입력을 프로세싱할 수 있다. 새로운 신경 네트워크 입력의 프로세싱 동안에 배치 정규화 레이어(108)에 의해 수행되는 동작들 또한 신경 네트워크 레이어 A(104)의 성질에 의존한다. 신경 네트워크 시스템(100)이 트레이닝된 후에 새로운 신경 네트워크 입력을 프로세싱하는 것은 도 3을 참조하여 이하에서 자세히 기술된다.
배치 정규화 레이어(108)는 신경 네트워크 레이어들의 시퀀스에서 다양한 위치들에 포함될 수 있고, 일부 구현예들에서, 다수의 배치 정규화 레이어들이 상기 시퀀스에 포함될 수 있다.
도 1의 예시에서, 일부 구현예들에서, 신경 네트워크 레이어 A(104)는 제1 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 레이어에 대한 입력들을 수정함으로써 예를 들면, 레이어에 대한 입력에 현재 파라미터 값들의 매트릭스를 곱함으로써 출력들을 생성한다. 이들 구현예들에서, 신경 네트워크 레이어 B(112)는 배치 정규화 레이어(108)로부터 출력을 수신하고 비선형 동작 즉, 비선형 작동 함수(non-linear activation function)를 배치 정규화 레이어 출력에 적용함으로써 출력을 생성할 수 있다. 따라서, 이들 구현예들에서, 배치 정규화 레이어(108)는 통상적인 신경 네트워크 레이어 내에 삽입되며, 통상적인 신경 네트워크 레이어의 동작들은 신경 네트워크 레이어 A(104) 및 신경 네트워크 레이어 B(112) 사이에 분할된다.
일부 다른 구현예들에서, 신경 네트워크 레이어 A(104)는 수정된 제1 레이어 입력들을 생성하기 위해 파라미터들의 세트의 현재 값들에 따라 레이어 입력들을 수정하고 배치 정규화 레이어(108)에 대한 출력을 제공하기 전에 상기 수정된 제1 레이어 입력들에 비선형 동작을 적용함으로써 출력들을 생성한다. 따라서, 이들 구현예들에서, 배치 정규화 레이어(108)는 상기 시퀀스에서 통상적인 신경 네트워크 레이어 뒤에 삽입된다.
도 2는 트레이닝 예시들의 배치 상에 신경 네트워크의 트레이닝 동안에 배치 정규화 레이어를 생성하기 위한 예시적 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들면, 신경 네트워크 시스템에 포함된 배치 정규화 레이어 예를 들면, 적절하게 프로그래밍된 도 1의 신경 네트워크 시스템(100)에 포함된 배치 정규화 레이어(108)가 프로세스(200)을 수행할 수 있다.
배치 정규화 레이어는 트레이닝 예시들의 배치에 대한 더 낮은 레이어 출력들을 수신한다(단계(202)). 더 낮은 레이어 출력들은 신경 네트워크 레이어들의 시퀀스에서 배치 정규화 레이어 아래의 레이어에 의해 상기 배치에서 각 트레이닝 예시에 대해 생성된 각각의 출력을 포함한다.
배치 정규화 레이어는 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 출력을 생성한다(단계(204)). 즉, 배치 정규화 레이어는 각 수신된 더 낮은 레이어 출력으로부터 각각의 정규화된 출력을 생성한다.
일부 경우들에서, 배치 정규화 레이어 아래의 레이어는 차원에 의해 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 레이어이다.
이들 경우들에서, 배치 정규화 레이어는 각 차원에 대해 상기 차원에 대응하는 더 낮은 레이어 출력들의 컴포넌트들의 평균 및 표준편차를 연산한다. 그후 배치 정규화 레이어는 상기 배치에서 트레이닝 예시들 각각에 대한 각각의 정규화된 출력을 생성하기 위해 상기 평균들 및 표준편차들을 사용하여 더 낮은 레벨 출력들 각각의 각 컴포넌트를 정규화한다. 특히, 주어진 출력의 주어진 컴포넌트에 대해, 배치 정규화 레이어는 상기 컴포넌트에 대응하는 차원에 대해 연산된 평균 및 표준편차를 사용하여 컴포넌트를 정규화한다. 예를 들면, 일부 구현예들에서, 배치 β로부터 i-번째 낮은 레이어 출력의 k-번째 차원에 대응하는 컴포넌트 x k,i 에 대해, 정규화된 출력
Figure 112017082114581-pct00001
는:
Figure 112017082114581-pct00002
를 만족하며, 여기서 μB는 배치 β 및 σB 에서 더 낮은 레이어 출력들의 k-번째 차원에 대응하는 컴포넌트의 표준편차이다. 일부 구현예들에서, 표준편차는 (σB 2 + ε)1/2와 동일한 수치적으로 안정한 표준편차이며, 여기서 ε는 상수값이고 σB 2는 배치 β에서 더 낮은 레이어 출력들의 k-번째 차원에 대응하는 컴포넌트의 분산이다.
그러나, 일부 다른 경우들에서,배치 정규화 레이어 아래의 신경 네트워크 레이어는 통상적인 레이어 또는 피처 인덱스 및 공간 위치 인덱스 둘다에 의해 각각 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 신경 네트워크 레이어의 다른 종류이다.
이들 경우들 중 일부에서, 배치 정규화 레이어는 각 가능한 피처 인덱스 및 공간 위치 인덱스 조합에 대해, 상기 피처 인덱스 및 공간 위치 인덱스를 가지는 더 낮은 레이어 출력들의 컴포넌트들의 평균 및 분산을 연산한다. 그후 배치 정규화 레이어는 각 피처 인덱스에 대해, 상기 피처 인덱스를 포함하는 피처 인덱스 및 공간 위치 인덱스 조합들에 대한 평균들(means)의 평균값(average)을 연산한다. 또한, 배치 정규화 레이어는 각 피처 인덱스에 대해, 상기 피처 인덱스를 포함하는 피처 인덱스 및 공간 위치 인덱스 조합들에 대한 분산들의 평균값을 연산한다. 따라서, 상기 평균값들을 연산한 후에, 배치 정규화 레이어는 모든 공간 위치들을 가로지르는 각 피처에 대한 평균 통계 및 모든 공간 위치들을 가로지르는 각 피처에 대한 분산 통계를 연산한다.
그 후 배치 정규화 레이어는 상기 배치에서 트레이닝 예시들 각각에 대한 각각의 정규화된 출력을 생성하기 위해 각각의 더 낮은 레벨 출력들의 각 컴포넌트를 평균값 평균들(average means)과 평균값 분산들(average variances)을 사용하여 정규화한다. 특히, 해당 출력의 해당 컴포넌트에 대해 배치 정규화 레이어는 컴포넌트에 대응하는 피처 인덱스에 대한 평균값 평균과 평균값 분산을 사용하여 예를 들면, 배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 출력들을 생성하는 경우 상기 기술된 것과 동일한 방식으로 컴포넌트를 정규화한다.
이들 경우들의 다른 경우에, 배치 정규화 레이어는 각 피처 인덱스에 대해, 상기 피처 인덱스에 대응하는 즉 피처 인덱스를 가지는 더 낮은 레이어 출력들의 컴포넌트들의 평균 및 분산을 연산한다.
그 후 배치 정규화 레이어는 상기 배치에서 트레이닝 예시들 각각에 대한 각각의 정규화된 출력을 생성하기 위해 피처 인덱스들에 대한 평균들 및 분산들을 사용하여 각각의 더 낮은 레벨 출력들의 각 컴포넌트를 정규화한다. 특히, 해당 출력의 해당 컴포넌트에 대해, 배치 정규화 레이어는 컴포넌트에 대응하는 피처 인덱스에 대한 평균 및 분산을 사용하여 예를 들면, 배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 출력들을 생성하는 경우 상기 기술된 것과 동일한 방식으로 컴포넌트를 정규화한다.
선택적으로, 배치 정규화 레이어는 각 정규화된 출력의 각 컴포넌트를 변환한다(단계(206)).
배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 레이어인 경우들에서, 배치 정규화 레이어는 각 차원에 대해, 상기 차원에 대한 파라미터들의 세트의 현재 값들에 따라 차원에서 각 정규화된 출력의 컴포넌트를 변환한다. 즉, 배치 정규화 레이어는 각 차원에 대한 파라미터들의 각각의 세트를 유지하고, 상기 파라미터들을 사용하여 상기 차원에서 정규화된 출력들의 컴포넌트들에 변환(transformation)을 적용한다. 파라미터들의 세트들의 값들은 신경 네트워크 시스템의 트레이닝의 일부로서 조절된다. 예를 들면, 일부 구현예들에서, 정규화된 출력
Figure 112017082114581-pct00003
로부터 생성된 변환된 정규화된 출력 y k,i 는:
Figure 112017082114581-pct00004
를 만족하며, 여기서 γ k A k k-번째 차원에 대한 파라미터들이다.
배치 정규화 레이어 아래의 레이어가 컨벌루션 레이어인 경우들에, 배치 정규화 레이어는 각각의 정규화된 출력들의 각 컴포넌트에 대해, 컴포넌트에 대응하는 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 컴포넌트를 변환한다. 즉, 배치 정규화 레이어는 각 피처 인덱스에 대한 파라미터들의 각각의 세트를 유지하고 상기 파라미터들을 사용하여 예를 들면, 배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 출력들을 생성하는 경우 상기 기술된 것과 동일한 방식으로피처 인덱스를 가지는 정규화된 출력들의 컴포넌트들에 대한 변환에 적용한다. 파라미터들의 세트들의 값들은 신경 네트워크 시스템의 트레이닝의 일부로서 조절된다.
배치 정규화 레이어는 정규화된 출력들 또는 변환된 정규화된 출력들을 상기 시퀀스에서 배치 정규화 레이어 위의 레이어에 대한 입력으로서 제공한다(단계(208)).
신경 네트워크가 상기 배치에서 트레이닝 예시들에 대한 신경 네트워크 출력들을 생성한 후에, 정규화 통계는 신경 네트워크의 파라미터들의 값들을 조절하는 것의 일부로서를 통하여 즉, 역전파 트레이닝 기법을 수행하는 것의 일부로서 역전파된다.
도 3은 신경 네트워크가 트레이닝된 후에 새로운 신경 네트워크 입력에 대한 배치 정규화 레이어 출력을 생성하는 예시적 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)은 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로서 기술될 것이다. 예를 들면, 신경 네트워크 시스템에 포함된 배치 정규화 레이어 예를 들면, 적절하게 프로그래밍된 도 1의 신경 네트워크 시스템(100)에 포함된 배치 정규화 레이어(108)는 프로세스(300)을 수행할 수 있다.
배치 정규화 레이어는 새로운 신경 네트워크에 대한 더 낮은 레이어 출력을 수신한다(단계(302)). 더 낮은 레이어 출력은 신경 네트워크 레이어들의 시퀀스에서 배치 정규화 레이어 아래의 레이어에 의해 새로운 신경 네트워크 입력에 대해 생성된 출력이다.
배치 정규화 레이어는 새로운 신경 네트워크 입력에 대한 정규화된 출력을 생성한다(단계(304)).
만약 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 차원에 의해 인덱싱된 경우, 배치 정규화 레이어는 정규화된 출력을 생성하기 위해 각각의 차원들에 대해 미리 연산된 평균들 및 표준편차들을 사용하여 더 낮은 레이어 출력의 각 컴포넌트를 정규화한다. 일부 경우들에서, 해당 차원에 대한 평균들 및 표준 편차들은 신경 네트워크 시스템의 트레이닝 동안에 배치 정규화 레이어 아래의 레이어에 의해 생성된 모든 출력들의 차원에서의 컴포넌트들로부터 연산된다.
그러나, 다른 일부 경우들에서, 해당 차원에 대한 평균들 및 표준 편차들은 트레이닝 이후 배치 정규화 레이어 아래의 레이어에 의해 생성된 더 낮은 레이어 출력들의 차원에서의 컴포넌트들로부터 예를 들면, 특정 기간의 가장 최근 시간 윈도우 동안에 생성된 더 낮은 레이어 출력들로부터 또는 배치 정규화 레이어 아래의 레이어에 의해 가장 최근에 생성된 더 낮은 레이어 출력들의 특정 숫자로부터 연산된다.
특히, 일부 경우들에서, 예를 들면, 만약 새로운 신경 네트워크 입력들이 트레이닝 예시들과 다른 종류의 입력들인 경우, 네트워크 입력들의 분배 및 따라서 더 낮은 레이어 출력들의 분배는 트레이닝 동안에 사용된 트레이닝 예시들과 신경 네트워크 시스템이 트레이닝된 후에 사용된 새로운 신경 네트워크 입력들 사이에서 변화할 수 있다. 예를 들면, 신경 네트워크 시스템은 사용자 이미지들에 대해 트레이닝될 수 있고, 이제 비디오 프레임들을 프로세싱하기 위해 사용될 수 있다. 사용자 이미지들 및 비디오 프레임들은 찍힌 클래스들, 이미지 속성들, 구성 등의 면에서 다른 분배들(distributions)을 가질 가능성이 크다. 그러므로, 트레이닝으로부터의 통계들을 사용하여 더 낮은 레이어 입력들을 정규화하는 것은 새로운 입력들에 대해 생성되는 더 낮은 레이어 출력들의 통계들을 정확하게 캡처하지 않을 수 있다. 따라서, 이들 경우들에서, 배치 정규화 레이어는 트레이닝 이후에 배치 정규화 레이어 아래의 레이어에 의해 생성된 더 낮은 레이어 출력들로부터 연산된 정규화 통계들을 사용할 수 있다.
배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱된 경우, 배치 정규화 레이어는 정규화된 출력을 생성하기 위해 피처 인덱스들 각각에 대한 미리 연산된 평균값 평균들 및 평균값 분산들을 사용하여 더 낮은 레이어 출력의 각 컴포넌트를 정규화한다. 일부 경우들에서, 상기 기술된 바와 같이, 해당 피처 인덱스에 대한 평균값 평균들 및 평균값 분산들은 트레이닝 동안에 사용된 트레이닝 예시들 전부에 대한 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들로부터 연산된다. 일부 다른 경우들에서, 상기 기술된 것과 같이, 해당 피처 인덱스에 대한 평균들 및 표준 편차들은 트레이닝 이후에 배치 정규화 레이어 아래의 레이어에 의해 생성된 더 낮은 레이어 출력들로부터 연산된다.
선택적으로, 배치 정규화 레이어는 정규화된 출력의 각 컴포넌트를 변환한다(단계(306)).
만약 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 차원에 의해 인덱싱되면, 배치 정규화 레이어는 각 차원에 대해 상기 차원에 대한 파라미터들의 세트의 트레이닝된 값들에 따라 차원에서의 정규화된 출력의 컴포넌트를 변환한다. 만약 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱되면, 배치 정규화 레이어는 컴포넌트에 대응하는 피처 인덱스에 대한 파라미터들의 세트의 트레이닝된 값들에 따라 정규화된 출력의 각 컴포넌트를 변환한다. 배치 정규화 레이어는 정규화된 출력 또는 변환된 정규화된 출력을 시퀀스에서 배치 정규화 레이어 위의 레이어에 대한 입력으로서 제공한다(단계(308)).
본 발명의 실시예들 및 본 명세서에 기술된 기능적 동작들은 본 명세서에서 개시된 구조들 및 그들의 구조적 균등물들을 포함하는 디지털 전자 회로에서, 유형적으로 수록된 컴퓨터 소프트웨어 또는 펌웨어에서, 컴퓨터 하드웨어에서 또는 그들 중 하나 이상의 조합들에서 구현될 수 있다. 본 명세서에 기술된 본 발명의 실시예들은 하나 이상의 컴퓨터 프로그램들 즉, 데이터 프로세싱 장치에 의해 또는 데이터 프로세싱 장치의 동작을 제어하기 위한 실행을 위한 유형적 비 일시적 프로그램 캐리어에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈들로서 구현될 수 있다. 대안적으로 또는 추가로, 프로그램 명령어들은 데이터 프로세싱 장치에 의한 실행을 위한 적절한 리시버 장치에 전송을 위한 정보를 인코딩하기 위해 생성된 인공적으로 생성된 전파 신호 예를 들면, 기계-생성 전기적, 광학적 또는 전자기적 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저작 기판, 랜덤 또는 시리얼 엑세스 메모리 디바이스 또는 그들 중 하나 이상의 조합일 수 있다.
용어 “데이터 프로세싱 장치”는 예시로서 프로그래머블 프로세서, 컴퓨터 도는 다수의 프로세서들 또는 컴퓨터들을 포함하는 데이터를 프로세싱하기 위한 모든 종류의 장치, 디바이스들 및 기계들을 포함한다. 장치는 전용 논리 회로 예를 들면, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)를 포함할 수 있다. 또한, 하드웨어에 추가로, 장치는 문제되는 컴퓨터 프로그램을 위한 실행 환경을 생성하는 코드 예를 들면, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 그들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 모듈, 소프트웨어 모듈 스크립트 또는 코드로도 지칭되거나 기술됨)은 컴파일된 또는 인터프리트된 언어들 또는 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있고, 이는 단독형 프로그램으로서 또는 컴퓨팅 환경에서 사용하기 위해 적절한 모듈, 컴포넌트 서브 루틴 또는 기타 유닛으로서를 포함한다. 컴퓨터 프로그램은 파일 시스템에서 파일에 대응하나, 반드시 대응되지는 않는다. 프로그램은 다른 프로그램들 또는 데이터를 보유하는 파일의 부분 예를 들면, 마크업 언어 문서에, 문제되는 프로그램 전용 단일 파일에 또는 다수의 편성된 파일들 예를 들면, 하나 이상의 모듈들, 서브 프로그램들 또는 코드의 부분들을 저장하는 파일들에 저장된 하나 이상의 스크립트들에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 장소에 위치되거나 다수의 사이트들에 분산되고 통신 네트워크에 의해 상호 연결된 다수의 컴퓨터들에서 실행되도록 배포될 수 있다.
본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작시키고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래머블 컴퓨터들에 의해 수행될 수 있다. 또한, 프로세스들 및 논리 흐름들은 전용 논리 회로 예를 들면, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)에 의해 수행되고, 또한 장치는 전용 논리 회로로서 구현될 수 있다.
예시로서, 컴퓨터 프로그램의 실행을 위해 적절한 컴퓨터들은 전용 또는 범용 마이크로 프로세서들 또는 둘 다, 또는 임의의 다른 종류의 중앙 프로세싱 유닛에 기초할 수 있다. 일반적으로, 중앙 프로세싱 유닛은 명령어들 및 데이터를 리드 온리 메모리 또는 랜덤 엑세스 메모리 또는 둘 다로부터 수신할 것이다. 컴퓨터의 기초적 엘리먼트들은 명령어들을 수행하거나 실행하기 위한 중앙 프로세싱 유닛 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 또한, 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대형 저장 디바이스들 예를 들면, 자기적, 자기광학 디스크들 또는 광학적 디스크들을 포함하거나 그로부터 데이터를 수신하거나 그에 데이터를 전송하기 위해 동작적으로 연결될 것이다. 그러나, 컴퓨터는 상기 디바이스들을 반드시 가질 필요가 없다. 게다가 컴퓨터는 다른 디바이스 몇 가지 예를 들면, 모바일 전화, PDA, 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 이동식 저장 디바이스 예를 들면, USB, 플래시 드라이브에 내장될 수 있다.
컴퓨터 프로그램 명령어들 및 데이터를 저장하기 위해 적절한 컴퓨터 판독가능 미디어는 예시로서, 반도체 메모리 디바이스들 예를 들면, EPROM, EEPROM 및 플래시 메모리 디바이스들; 자기 디스크들 예를 들면, 내장 하드 디스크들 또는 이동식 디스크들; 자기광학 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 미디어 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 전용 논리 회로에 의해 보충되거나 그에 통합될 수 있다.
사용자와의 인터렉션을 제공하기 위해, 본 명세서에 기술된 본 발명의 실시예들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스 예를 들면, CRT 또는 LCD 모니터 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스 예를 들면, 마우스 또는 트랙볼을 가지는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터렉션을 제공하기 위해 사용될 수 있다; 예를 들면, 사용자에게 제공되는 피드백은 임의의 감각적 피드백 예를 들면, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백일 수 있고; 사용자로부터의 입력은 청각, 음성 또는 촉각적 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 문서들을 송신하고 디바이스로부터 문서들을 수신함으로써 사용자와 인터렉션할 수 있다; 예를 들면, 웹 브라우저로부터 수신된 요청들에 응답하여 사용자의 클라이언트 디바이스 상의 웹 브라우저에 웹 페이지들을 송신함으로써.
본 명세서에 기술된 본 발명의 실시예들은 백엔드 컴포넌트 예를 들면, 데이터 서버를 포함하거나, 또는 미들웨어 컴포넌트 예를 들면, 어플리케이션 서버를 포함하거나, 또는 프론트엔드 컴포넌트 예를 들면, 사용자가 본 명세서에 기술된 본 발명의 구현예와 인터렉션할 수 있는 그래픽 사용자 인터페이스 또는 웹브라우저를 가지는 클라이언트 컴퓨터를 포함하는 컴퓨팅 시스템 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 조합에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신 예를 들면, 통신 네트워크의 임의의 형태 또는 매체에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 LAN(local area network) 및 WAN(wide area network) 예를 들면, 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 떨어져 있고, 일반적으로 통신 네트워크를 통해 인터렉션한다. 클라이언트 및 서버의 관계는 각각의 컴퓨터들에서 실행되며 상호 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의해서 발생한다.
본 명세서가 많은 특정 구현예 세부사항들을 포함하고 있지만, 이들은 어떠한 발명의 범위 또는 청구된 것에 대한 제한들로서 여겨져서는 아니되며, 오히려 특정 발명들의 특정 실시예들에 국한된 구성들의 설명들로서 여겨져야 한다. 또한 별개의 실시예들의 맥락에서 본 명세서에 기술된 특정 구성들은 단일의 실시예들에서 조합으로 구현될 수 있다. 또한 반대로, 단일의 실시예의 맥락에서 기술된 다양한 구성들은 다수의 실시예들에서 별개로 또는 임의의 적절한 서브컴비네이션으로 구현될 수 있다. 게다가, 비록 구성들이 특정 조합들에서 동작하는 것으로 상기 기술되고 심지어 상기와 같이 초기적으로 청구되었지만, 일부 경우들에서, 청구된 조합으로부터 하나 이상의 구성들이 조합으로부터 실행될 수 있고, 청구된 조합은 서브컴비네이션 또는 서브 컴비네이션의 변화를 지시할 수 있다.
유사하게, 동작들이 특정 순서로 도면들에서 도시되었지만, 이는 상기 동작들이 도시된 특정 순서 또는 순차적 순서로 수행되거나 또는 모든 도시된 동작들이 원하는 결과들을 달성하기 위해 수행되어야 할 것을 요구하는 것으로서 이해되어서는 아니된다. 특정 환경들에서, 멀티태스킹 및 병렬 프로세싱은 이점이 있다. 게다가, 상기 기술된 실시예들에서 다양한 시스템 모듈들 및 컴포넌트들의 분리도 모든 실시예들에서 상기 분리를 요구하는 것으로서 이해되어서는 아니되며, 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일의 소프트웨어 제품에 함께 통합되거나 또는 다수의 소프트웨어 제품들에 패키징될 수 있다.
본 발명의 특정 실시예들이 기술되었다. 다른 실시예들도 다음의 청구항들의 범위 내에 있다. 예를 들면, 청구항들에 기재된 액션들은 다른 순서로 수행될 수 있고 여전히 원하는 결과를 달성한다. 일 예시로서, 첨부 도면들에서 도시된 프로세스들은 원하는 결과들을 달성하기 위해 도시된 특정 순서 또는 순차적 순서를 필수적으로 요구하지 않는다. 특정 구현예들에서, 멀티태스킹 및 병렬 프로세싱은 이점이 있다.

Claims (34)

  1. 하나 이상의 컴퓨터들에 의해 구현되는 신경 네트워크 시스템으로서,
    신경 네트워크에서 제1 신경 네트워크 레이어와 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 구현하기 위한 명령어들을 포함하며, 상기 제1 신경 네트워크 레이어는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며, 상기 명령어들은 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
    트레이닝 데이터의 복수의 배치(batch)들에 대한 상기 신경 네트워크의 트레이닝 동안에, 각 배치는 각각의 복수의 트레이닝 예시들을 포함하며, 상기 배치들 각각에 대해:
    상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대한 각각의 제1 레이어 출력을 수신하는 동작;
    상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하는 동작, 상기 연산하는 동작은:
    상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 결정하는 것, 그리고
    상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준 편차(standard deviation)를 결정하는 것을 포함하며;
    상기 배치 내 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작, 상기 정규화하는 동작은:
    각 제1 레이어 출력에 대해, 그리고 상기 복수의 서브셋들 각각에 대해, 상기 서브셋에 대한 상기 평균 및 상기 각각의 서브셋에 대한 상기 표준 편차를 사용하여 상기 각각의 서브셋에 있는 상기 제1 레이어 출력의 상기 컴포넌트들을 정규화하는 것을 포함하며;
    상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들에 각각에 대한 각각의 배치 정규화 레이어 출력을 생성하는 동작; 및
    상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하는 동작을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  2. 청구항 1에 있어서,
    상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 차원(dimension)에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대한 복수의 정규화 통계를 연산하는 동작은:
    상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 연산하는 것; 및
    상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준편차(standard deviation)을 연산하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  3. 청구항 2에 있어서,
    각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작은:
    상기 컴포넌트에 대응하는 상기 차원에 대해 상기 연산된 평균 및 연산된 표준편차를 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  4. 청구항 2에 있어서,
    상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 상기 각각의 배치 정규화 레이어 출력을 생성하는 동작은:
    상기 차원 각각에 대해, 상기 차원에 대한 파라미터들의 세트의 현재 값들에 따라 상기 차원에서 상기 트레이닝 예시에 대한 상기 정규화된 레이어 출력의 상기 컴포넌트를 변환(transforming)하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  5. 청구항 4에 있어서,
    상기 신경 네트워크 시스템이 상기 각 차원들에 대한 파라미터들의 트레이닝된 값들을 결정하기 위해 트레이닝된 후에, 상기 동작들은:
    새로운 신경 네트워크 입력에 대한 상기 제1 신경 네트워크 레이어에 의해 생성된 새로운 제1 레이어 출력을 수신하는 동작;
    새로운 정규화된 레이어 출력을 생성하기 위해 상기 차원들에 대한 미리 연산된 평균 및 표준편차 통계를 사용하여 상기 새로운 제1 레이어 출력의 각 컴포넌트를 정규화하는 동작;
    각 차원에 대해, 상기 차원에 대한 파라미터들의 세트의 트레이닝된 값들에 따라 상기 차원에서 상기 트레이닝 예시에 대한 상기 새로운 정규화된 레이어 출력의 컴포넌트를 변환함으로써, 새로운 배치 정규화 레이어 출력을 생성하는 동작; 및
    상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 새로운 레이어 입력으로서 제공하는 동작을 더 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  6. 청구항 5에 있어서,
    상기 차원들에 대한 상기 미리 연산된 평균 및 표준 편차 통계는 상기 신경 네트워크의 트레이닝 동안에 상기 제1 신경 네트워크 레이어에 의해 생성된 제1 레이어 출력들로부터 연산되는 것을 특징으로 하는 신경 네트워크 시스템.
  7. 청구항 5에 있어서,
    상기 차원들에 대한 상기 미리 연산된 평균 및 표준 편차 통계는 상기 신경 네트워크가 트레이닝된 후에 상기 제1 신경 네트워크 레이어에 의해 생성된 새로운 제1 레이어 출력들로부터 연산되는 것을 특징으로 하는 신경 네트워크 시스템.
  8. 청구항 7에 있어서,
    상기 신경 네트워크가 트레이닝된 후에 상기 신경 네트워크에 의해 프로세싱된 새로운 신경 네트워크 입력들은 상기 신경 네트워크를 트레이닝하는데 사용된 상기 트레이닝 예시들과 서로 다른 타입의 입력인 것을 특징으로 하는 신경 네트워크 시스템.
  9. 청구항 1에 있어서,
    상기 제1 신경 네트워크 레이어는 컨벌루션 레이어(convolutional layer)이며, 상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 피처 인덱스(feature index) 및 공간 위치 인덱스(spatial location index)에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대한 복수의 정규화 통계를 연산하는 동작은:
    피처 인덱스와 공간 위치 인덱스의 각 조합에 대해, 상기 피처 인덱스와 공간 위치 인덱스를 가지는 상기 제1 레이어 출력들의 컴포넌트들의 평균을 연산하는 것;
    각 피처 인덱스에 대해, 상기 피처 인덱스를 포함하는 조합들에 대한 평균들(means)의 평균값(average)을 연산하는 것;
    피처 인덱스와 공간 위치 인덱스의 각 조합에 대해, 상기 피처 인덱스와 공간 위치 인덱스를 가지는 상기 제1 레이어 출력들의 컴포넌트들의 분산(variance)을 연산하는 것; 및
    각 피처 인덱스에 대해, 상기 피처 인덱스를 포함하는 조합들에 대한 상기 분산들의 평균값을 연산하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  10. 청구항 9에 있어서,
    각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작은:
    상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 상기 평균들의 평균값 및 상기 분산들의 평균값을 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  11. 청구항 9에 있어서,
    상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 상기 각각의 배치 정규화 레이어 출력을 생성하는 동작은:
    상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  12. 청구항 11에 있어서,
    상기 신경 네트워크가 상기 각 차원들에 대한 상기 파라미터들의 트레이닝된 값들을 결정하기 위해 트레이닝된 후에, 상기 동작들은:
    새로운 신경 네트워크 입력으로부터 생성된 새로운 제1 레이어 입력을 수신하는 동작;
    새로운 정규화된 레이어 출력을 생성하기 위해 상기 피처 인덱스들에 대한 미리 연산된 평균 및 표준 편차 통계를 사용하여 상기 새로운 제1 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작;
    상기 컴포넌트에 대응하는 상기 피처 인덱스의 파라미터들의 세트의 트레이닝된 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환함으로써, 새로운 배치 정규화 레이어 출력을 생성하는 동작; 그리고
    상기 새로운 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 새로운 레이어 입력으로서 제공하는 동작을 더 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  13. 청구항 1에 있어서,
    상기 제1 신경 네트워크 레이어는 컨볼루션 레이어이며, 상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대해 복수의 정규화 통계를 연산하는 동작은, 각 피처 인덱스들에 대해:
    상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 평균을 연산하는 것; 및
    상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 분산을 연산하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  14. 청구항 13에 있어서,
    각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작은:
    상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 평균 및 분산을 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  15. 청구항 13에 있어서,
    상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대해 상기 각각의 배치 정규화 레이어 출력을 생성하는 동작은:
    상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  16. 청구항 15에 있어서,
    상기 신경 네트워크가 트레이닝된 후에, 상기 동작들은:
    새로운 신경 네트워크 입력으로부터 생성된 새로운 제1 레이어 입력을 수신하는 동작;
    새로운 정규화된 레이어 출력을 생성하기 위해 상기 피처 인덱스들에 대한 미리 연산된 평균 및 표준 편차 통계를 사용하여 상기 새로운 제1 레이어 출력의 각 컴포넌트를 정규화하는 동작;
    상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 트레이닝된 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환함으로써 새로운 배치 정규화 레이어를 생성하는 동작;
    상기 새로운 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 새로운 레이어 입력으로서 제공하는 동작을 더 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
  17. 청구항 1에 있어서,
    상기 제1 신경 네트워크 레이어는 상기 제1 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 제1 레이어 입력들을 수정함으로써 상기 제1 레이어 출력들을 생성하는 것을 특징으로 하는 신경 네트워크 시스템.
  18. 청구항 17에 있어서,
    상기 제2 신경 네트워크 레이어는 비-선형 동작(non-linear operation)을 상기 배치 정규화 레이어 출력들을 적용함으로써 제2 레이어 출력들을 생성하는 것을 특징으로 하는 신경 네트워크 시스템.
  19. 청구항 1에 있어서,
    상기 제1 신경 네트워크 레이어는 수정된 제1 레이어 입력들을 생성하기 위해 파라미터들의 세트의 현재 값들에 따라 제1 레이어 입력들을 수정하고 그 후 상기 수정된 제1 레이어 입력들에 비-선형 동작을 적용함으로써 상기 제1 레이어 출력들을 생성하는 것을 특징으로 하는 신경 네트워크 시스템.
  20. 청구항 1에 있어서,
    상기 신경 네트워크의 트레이닝 동안에, 상기 신경 네트워크 시스템은 상기 신경 네트워크의 파라미터들의 값들을 조절하는 것의 일부로서 상기 정규화 통계를 역전파(backpropagate)하도록 구성되는 것을 특징으로 하는 신경 네트워크 시스템.
  21. 신경 네트워크에서 제1 신경 네트워크 레이어와 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 구현하기 위한 하나 이상의 컴퓨터들에 의해 수행되는 방법으로서, 상기 제1 신경 네트워크 레이어는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며:
    트레이닝 데이터의 복수의 배치들에 대한 상기 신경 네트워크의 트레이닝 동안에, 각 배치는 각각의 복수의 트레이닝 예시들을 포함하며, 상기 배치들 각각에 대해:
    상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대한 각각의 제1 레이어 출력을 수신하는 단계;
    상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하는 단계, 상기 연산하는 단계는:
    상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 결정하는 것, 그리고
    상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준 편차(standard deviation)를 결정하는 것을 포함하며;
    상기 배치 내 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 단계, 상기 정규화하는 단계는:
    각 제1 레이어 출력에 대해, 그리고 상기 복수의 서브셋들 각각에 대해, 상기 서브셋에 대한 상기 평균 및 상기 각각의 서브셋에 대한 상기 표준 편차를 사용하여 상기 각각의 서브셋에 있는 상기 제1 레이어 출력의 상기 컴포넌트들을 정규화하는 것을 포함하며;
    상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들에 각각에 대한 각각의 배치 정규화 레이어 출력을 생성하는 단계; 및
    상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
  22. 컴퓨터 프로그램이 인코딩된 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터 프로그램은 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 신경 네트워크 시스템을 구현하게 하는 명령어들을 포함하며, 상기 신경 네트워크 시스템은:
    신경 네트워크에서 제1 신경 네트워크 레이어와 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 구현하기 위한 배치 정규화 명령어들을 포함하며, 상기 제1 신경 네트워크 레이어는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며, 상기 배치 정규화 명령어들은 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
    트레이닝 데이터의 복수의 배치들에 대한 상기 신경 네트워크의 트레이닝 동안에, 각 배치는 각각의 복수의 트레이닝 예시들을 포함하며, 상기 배치들 각각에 대해:
    상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대한 각각의 제1 레이어 출력을 수신하는 동작;
    상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하는 동작, 상기 연산하는 동작은:
    상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 결정하는 것, 그리고
    상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준 편차(standard deviation)를 결정하는 것을 포함하며;
    상기 배치 내 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작, 상기 정규화하는 동작은:
    각 제1 레이어 출력에 대해, 그리고 상기 복수의 서브셋들 각각에 대해, 상기 서브셋에 대한 상기 평균 및 상기 각각의 서브셋에 대한 상기 표준 편차를 사용하여 상기 각각의 서브셋에 있는 상기 제1 레이어 출력의 상기 컴포넌트들을 정규화하는 것을 포함하며;
    상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들에 각각에 대한 각각의 배치 정규화 레이어 출력을 생성하는 동작; 및
    상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하는 동작을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
  23. 청구항 22에 있어서,
    상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 차원(dimension)에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대한 복수의 정규화 통계를 연산하는 동작은:
    상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 연산하는 것; 및
    상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준편차(standard deviation)을 연산하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
  24. 청구항 23에 있어서,
    각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작은:
    상기 컴포넌트에 대응하는 상기 차원에 대해 상기 연산된 평균 및 연산된 표준편차를 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
  25. 청구항 23에 있어서,
    상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 상기 각각의 배치 정규화 레이어 출력을 생성하는 동작은:
    상기 차원 각각에 대해, 상기 차원에 대한 파라미터들의 세트의 현재 값들에 따라 상기 차원에서 상기 트레이닝 예시에 대한 상기 정규화된 레이어 출력의 상기 컴포넌트를 변환(transforming)하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
  26. 청구항 22에 있어서,
    상기 제1 신경 네트워크 레이어는 컨볼루션 레이어이며, 상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대해 복수의 정규화 통계를 연산하는 동작은, 각 피처 인덱스들에 대해:
    상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 평균을 연산하는 것; 및
    상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 분산을 연산하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
  27. 청구항 26에 있어서,
    각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작은:
    상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 평균 및 분산을 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
  28. 청구항 26에 있어서,
    상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대해 상기 각각의 배치 정규화 레이어 출력을 생성하는 동작은:
    상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
  29. 청구항 21에 있어서,
    상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 차원(dimension)에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대한 복수의 정규화 통계를 연산하는 단계는:
    상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 연산하는 것; 및
    상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준편차(standard deviation)을 연산하는 것을 포함하는 것을 특징으로 하는 방법.
  30. 청구항 29에 있어서,
    각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 단계는:
    상기 컴포넌트에 대응하는 상기 차원에 대해 상기 연산된 평균 및 연산된 표준편차를 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 방법.
  31. 청구항 29에 있어서,
    상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 상기 각각의 배치 정규화 레이어 출력을 생성하는 단계는:
    상기 차원 각각에 대해, 상기 차원에 대한 파라미터들의 세트의 현재 값들에 따라 상기 차원에서 상기 트레이닝 예시에 대한 상기 정규화된 레이어 출력의 상기 컴포넌트를 변환(transforming)하는 것을 포함하는 것을 특징으로 하는 방법.
  32. 청구항 21에 있어서,
    상기 제1 신경 네트워크 레이어는 컨볼루션 레이어이며, 상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대해 복수의 정규화 통계를 연산하는 단계는, 각 피처 인덱스들에 대해:
    상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 평균을 연산하는 것; 및
    상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 분산을 연산하는 것을 포함하는 것을 특징으로 하는 방법.
  33. 청구항 32에 있어서,
    각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 단계는:
    상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 평균 및 분산을 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 방법.
  34. 청구항 32에 있어서,
    상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대해 상기 각각의 배치 정규화 레이어 출력을 생성하는 단계는:
    상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환하는 것을 포함하는 것을 특징으로 하는 방법.
KR1020177023719A 2015-01-28 2016-01-28 배치 정규화 레이어들 KR102055355B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562108984P 2015-01-28 2015-01-28
US62/108,984 2015-01-28
PCT/US2016/015476 WO2016123409A1 (en) 2015-01-28 2016-01-28 Batch normalization layers

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020197036115A Division KR102204286B1 (ko) 2015-01-28 2016-01-28 배치 정규화 레이어들

Publications (2)

Publication Number Publication Date
KR20170108081A KR20170108081A (ko) 2017-09-26
KR102055355B1 true KR102055355B1 (ko) 2019-12-12

Family

ID=55349983

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020197036115A KR102204286B1 (ko) 2015-01-28 2016-01-28 배치 정규화 레이어들
KR1020177023719A KR102055355B1 (ko) 2015-01-28 2016-01-28 배치 정규화 레이어들

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020197036115A KR102204286B1 (ko) 2015-01-28 2016-01-28 배치 정규화 레이어들

Country Status (17)

Country Link
US (8) US10417562B2 (ko)
EP (3) EP3872716A1 (ko)
JP (5) JP6453477B2 (ko)
KR (2) KR102204286B1 (ko)
CN (1) CN107278310A (ko)
AU (5) AU2016211333B2 (ko)
CA (1) CA2975251C (ko)
DE (1) DE112016000509T5 (ko)
DK (1) DK3251059T3 (ko)
ES (1) ES2714152T3 (ko)
IL (1) IL253676A0 (ko)
MX (1) MX2017009879A (ko)
PL (1) PL3251059T3 (ko)
RU (1) RU2666308C1 (ko)
SG (1) SG11201706127RA (ko)
TR (1) TR201902908T4 (ko)
WO (1) WO2016123409A1 (ko)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2714152T3 (es) 2015-01-28 2019-05-27 Google Llc Capas de normalización por lotes
US10614339B2 (en) * 2015-07-29 2020-04-07 Nokia Technologies Oy Object detection with neural network
EP3500911B1 (en) 2016-08-22 2023-09-27 Magic Leap, Inc. Augmented reality display device with deep learning sensors
WO2018148526A1 (en) * 2017-02-10 2018-08-16 Google Llc Batch renormalization layers
US10255681B2 (en) * 2017-03-02 2019-04-09 Adobe Inc. Image matting using deep learning
CN110366733A (zh) * 2017-03-06 2019-10-22 索尼公司 信息处理装置
US11308391B2 (en) * 2017-03-06 2022-04-19 Baidu Usa Llc Offline combination of convolutional/deconvolutional and batch-norm layers of convolutional neural network models for autonomous driving vehicles
EP3602419B1 (en) * 2017-04-28 2023-09-20 Google LLC Neural network optimizer search
CN109034384B (zh) * 2017-06-12 2021-06-22 浙江宇视科技有限公司 一种数据处理方法和装置
US10635813B2 (en) 2017-10-06 2020-04-28 Sophos Limited Methods and apparatus for using machine learning on multiple file fragments to identify malware
US11586905B2 (en) * 2017-10-11 2023-02-21 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for customizing kernel machines with deep neural networks
WO2019084556A1 (en) * 2017-10-27 2019-05-02 Google Llc INCREASING THE SECURITY OF NEURAL NETWORKS BY DISCRETEMENT OF NEURAL NETWORK ENTRANCES
WO2019123544A1 (ja) 2017-12-19 2019-06-27 オリンパス株式会社 データ処理方法およびデータ処理装置
CN108009634B (zh) * 2017-12-21 2021-05-25 美的集团股份有限公司 一种卷积神经网络的优化方法、装置及计算机存储介质
EP3511872A1 (en) 2018-01-12 2019-07-17 Sony Corporation Artificial neural network
US11003774B2 (en) 2018-01-26 2021-05-11 Sophos Limited Methods and apparatus for detection of malicious documents using machine learning
US11941491B2 (en) 2018-01-31 2024-03-26 Sophos Limited Methods and apparatus for identifying an impact of a portion of a file on machine learning classification of malicious content
WO2019149375A1 (en) * 2018-02-02 2019-08-08 Toyota Motor Europe Method and system for processing input data and propagating variance in a neural network
WO2019149376A1 (en) 2018-02-02 2019-08-08 Toyota Motor Europe Method and system for processing input data using a neural network and normalizations
US20190251429A1 (en) * 2018-02-12 2019-08-15 Kneron, Inc. Convolution operation device and method of scaling convolution input for convolution neural network
CN108875787B (zh) 2018-05-23 2020-07-14 北京市商汤科技开发有限公司 一种图像识别方法及装置、计算机设备和存储介质
CN108921283A (zh) * 2018-06-13 2018-11-30 深圳市商汤科技有限公司 深度神经网络的归一化方法和装置、设备、存储介质
CN112771541A (zh) * 2018-09-27 2021-05-07 谷歌有限责任公司 使用整数神经网络的数据压缩
US11947668B2 (en) * 2018-10-12 2024-04-02 Sophos Limited Methods and apparatus for preserving information between layers within a neural network
KR20200051278A (ko) 2018-11-05 2020-05-13 삼성전자주식회사 인공 신경망에서의 작업 관리 방법 및 이를 포함하는 시스템
US11687761B2 (en) * 2018-12-11 2023-06-27 Amazon Technologies, Inc. Improper neural network input detection and handling
US10789510B2 (en) * 2019-01-11 2020-09-29 Google Llc Dynamic minibatch sizes
US10325185B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
US11574052B2 (en) 2019-01-31 2023-02-07 Sophos Limited Methods and apparatus for using machine learning to detect potentially malicious obfuscated scripts
JP2020135011A (ja) 2019-02-13 2020-08-31 キオクシア株式会社 情報処理装置及び方法
CN109886392B (zh) * 2019-02-25 2021-04-27 深圳市商汤科技有限公司 数据处理方法和装置、电子设备和存储介质
KR102046113B1 (ko) 2019-03-19 2019-11-18 주식회사 루닛 신경망 학습 방법 및 그 장치
KR102046133B1 (ko) * 2019-03-20 2019-11-18 주식회사 루닛 특징 데이터 리캘리브레이션 방법 및 그 장치
DE102019204136A1 (de) * 2019-03-26 2020-10-01 Robert Bosch Gmbh Verfahren und Vorrichtung für Training und Herstellung eines künstlichen neuronalen Netzes
KR102037483B1 (ko) 2019-04-02 2019-11-15 주식회사 루닛 신경망 데이터 정규화 방법 및 그 장치
US11853890B2 (en) * 2019-05-02 2023-12-26 Macronix International Co., Ltd. Memory device and operation method thereof
US11361218B2 (en) * 2019-05-31 2022-06-14 International Business Machines Corporation Noise and signal management for RPU array
CN111967570B (zh) * 2019-07-01 2024-04-05 北京砥脊科技有限公司 可视化神经网络系统的实现方法、装置和机器设备
KR102461732B1 (ko) * 2019-07-16 2022-11-01 한국전자통신연구원 강화 학습 방법 및 장치
KR20190098106A (ko) 2019-08-02 2019-08-21 엘지전자 주식회사 배치 정규화 레이어 트레이닝 방법
CN110598852A (zh) * 2019-08-29 2019-12-20 北京小米移动软件有限公司 子网络采样方法、构建超网络拓扑结构的方法及装置
DE102019213898A1 (de) * 2019-09-11 2021-03-11 Robert Bosch Gmbh Robustes und besser trainierbares künstliches neuronales Netzwerk
US11568259B2 (en) * 2019-10-15 2023-01-31 Zoox, Inc. Cross batch normalization
KR102127913B1 (ko) 2019-10-29 2020-06-29 주식회사 루닛 신경망 학습 방법 및 그 장치
US11868855B2 (en) * 2019-11-04 2024-01-09 Hewlett Packard Enterprise Development Lp Resiliency for machine learning workloads
KR102143191B1 (ko) * 2019-11-12 2020-08-10 주식회사 루닛 특징 데이터 리캘리브레이션 방법 및 그 장치
KR102143192B1 (ko) 2019-11-12 2020-08-10 주식회사 루닛 신경망 학습 방법 및 그 장치
CN111144556B (zh) * 2019-12-31 2023-07-07 中国人民解放军国防科技大学 面向深度神经网络训练和推理的范围批处理归一化算法的硬件电路
US11610303B2 (en) 2020-03-03 2023-03-21 The University Court Of The University Of Edinburgh Data processing apparatus and method
JP7297705B2 (ja) 2020-03-18 2023-06-26 株式会社東芝 処理装置、処理方法、学習装置およびプログラム
US11915419B1 (en) 2020-06-25 2024-02-27 Verily Life Sciences Llc Auto-normalization for machine learning
EP4193304A4 (en) * 2020-09-08 2023-07-26 Huawei Technologies Co., Ltd. NORMALIZATION IN DEEP CONVOLUTIONAL NEURAL NETWORKS
KR102441442B1 (ko) * 2021-01-11 2022-09-08 성균관대학교산학협력단 그래프 컨볼루션 네트워크 학습 방법 및 장치
JP7211556B1 (ja) 2021-06-09 2023-01-24 コニカミノルタ株式会社 ニューラル・ネットワーク・システム
US20230119791A1 (en) * 2021-10-04 2023-04-20 Qualcomm Incorporated Relaxed instance frequency normalization for neural-network-based audio processing
WO2023085852A1 (ko) * 2021-11-11 2023-05-19 서울대학교산학협력단 통계 기반 정규화를 시행하는 딥 뉴럴 네트워크 학습 장치 및 그 방법

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2057078C (en) 1990-03-12 2000-04-11 Nobuo Watanabe Neuro-fuzzy fusion data processing system
JPH05346915A (ja) * 1992-01-30 1993-12-27 Ricoh Co Ltd 学習機械並びにニューラルネットワークおよびデータ分析装置並びにデータ分析方法
JPH0785280B2 (ja) * 1992-08-04 1995-09-13 タカタ株式会社 神経回路網による衝突予測判定システム
US5729662A (en) * 1995-06-07 1998-03-17 Rozmus; J. Michael Neural network for classification of patterns with improved method and apparatus for ordering vectors
US5790758A (en) * 1995-07-07 1998-08-04 The United States Of America As Represented By The Secretary Of The Navy Neural network architecture for gaussian components of a mixture density function
US6134537A (en) * 1995-09-29 2000-10-17 Ai Ware, Inc. Visualization and self organization of multidimensional data through equalized orthogonal mapping
US6539267B1 (en) * 1996-03-28 2003-03-25 Rosemount Inc. Device in a process system for determining statistical parameter
US6650779B2 (en) * 1999-03-26 2003-11-18 Georgia Tech Research Corp. Method and apparatus for analyzing an image to detect and identify patterns
US6418378B1 (en) * 2000-06-26 2002-07-09 Westerngeco, L.L.C. Neural net prediction of seismic streamer shape
MXPA03005942A (es) * 2000-11-30 2005-02-14 Pok Yang Ming Corteza neural.
US7107207B2 (en) * 2002-06-19 2006-09-12 Microsoft Corporation Training machine learning by sequential conditional generalized iterative scaling
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
US7496546B2 (en) 2003-03-24 2009-02-24 Riken Interconnecting neural network system, interconnecting neural network structure construction method, self-organizing neural network structure construction method, and construction programs therefor
US7219085B2 (en) 2003-12-09 2007-05-15 Microsoft Corporation System and method for accelerating and optimizing the processing of machine learning techniques using a graphics processing unit
JP2005352900A (ja) 2004-06-11 2005-12-22 Canon Inc 情報処理装置、情報処理方法、パターン認識装置、及びパターン認識方法
US7747070B2 (en) * 2005-08-31 2010-06-29 Microsoft Corporation Training convolutional neural networks on graphics processing units
CN100367300C (zh) 2006-07-07 2008-02-06 华中科技大学 一种基于人工神经网络的特征选择方法
US7606777B2 (en) 2006-09-01 2009-10-20 Massachusetts Institute Of Technology High-performance vision system exploiting key features of visual cortex
ATE549697T1 (de) * 2010-01-19 2012-03-15 Honda Res Inst Europe Gmbh Online-lernen von gegründeten kategorien mithilfe adaptiver merkmalsräume
JP5772442B2 (ja) * 2011-09-22 2015-09-02 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US10127475B1 (en) 2013-05-31 2018-11-13 Google Llc Classifying images
TWI648609B (zh) 2013-06-07 2019-01-21 美商科學設計股份有限公司 程序監控系統及方法
CN103824055B (zh) * 2014-02-17 2018-03-02 北京旷视科技有限公司 一种基于级联神经网络的人脸识别方法
US9058517B1 (en) 2014-04-16 2015-06-16 I.R.I.S. Pattern recognition system and method using Gabor functions
EP3029606A3 (en) 2014-11-14 2016-09-14 Thomson Licensing Method and apparatus for image classification with joint feature adaptation and classifier learning
ES2714152T3 (es) 2015-01-28 2019-05-27 Google Llc Capas de normalización por lotes
US11151449B2 (en) * 2018-01-24 2021-10-19 International Business Machines Corporation Adaptation of a trained neural network
KR102046113B1 (ko) * 2019-03-19 2019-11-18 주식회사 루닛 신경망 학습 방법 및 그 장치
US11367163B2 (en) * 2019-05-31 2022-06-21 Apple Inc. Enhanced image processing techniques for deep neural networks
US11568259B2 (en) * 2019-10-15 2023-01-31 Zoox, Inc. Cross batch normalization
US20210150306A1 (en) * 2019-11-14 2021-05-20 Qualcomm Incorporated Phase selective convolution with dynamic weight selection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kavukcuoglu, Koray, et al. Learning convolutional feature hierarchies for visual recognition. Advances in neural information processing systems. 2010.*

Also Published As

Publication number Publication date
CA2975251C (en) 2021-01-26
JP6935542B2 (ja) 2021-09-15
EP3251059B1 (en) 2018-12-05
AU2016211333A1 (en) 2017-08-17
EP3483795B1 (en) 2021-03-10
US11853885B2 (en) 2023-12-26
US11281973B2 (en) 2022-03-22
AU2019200309B2 (en) 2020-07-09
JP6710745B2 (ja) 2020-06-17
DK3251059T3 (en) 2019-04-01
IL253676A0 (en) 2017-09-28
US20210357756A1 (en) 2021-11-18
AU2016211333B2 (en) 2018-11-15
BR112017016306A8 (pt) 2018-08-14
AU2022201819B2 (en) 2023-09-28
US20200057924A1 (en) 2020-02-20
US10417562B2 (en) 2019-09-17
PL3251059T3 (pl) 2019-05-31
US20160217368A1 (en) 2016-07-28
US20210224653A1 (en) 2021-07-22
JP6453477B2 (ja) 2019-01-16
AU2019200309A1 (en) 2019-02-07
BR112017016306A2 (pt) 2018-07-10
US20200234127A1 (en) 2020-07-23
US20210216870A1 (en) 2021-07-15
JP2023029845A (ja) 2023-03-07
ES2714152T3 (es) 2019-05-27
US10902319B2 (en) 2021-01-26
TR201902908T4 (tr) 2019-03-21
MX2017009879A (es) 2018-05-28
US20200012942A1 (en) 2020-01-09
US11893485B2 (en) 2024-02-06
US20220237462A1 (en) 2022-07-28
AU2023285952A1 (en) 2024-01-25
JP2020149719A (ja) 2020-09-17
US11308394B2 (en) 2022-04-19
CN107278310A (zh) 2017-10-20
KR102204286B1 (ko) 2021-01-18
KR20190138712A (ko) 2019-12-13
KR20170108081A (ko) 2017-09-26
WO2016123409A1 (en) 2016-08-04
JP2021192251A (ja) 2021-12-16
EP3872716A1 (en) 2021-09-01
US10628710B2 (en) 2020-04-21
JP2018508879A (ja) 2018-03-29
DE112016000509T5 (de) 2018-03-22
EP3483795A1 (en) 2019-05-15
JP7179935B2 (ja) 2022-11-29
EP3251059A1 (en) 2017-12-06
SG11201706127RA (en) 2017-08-30
RU2666308C1 (ru) 2018-09-06
CA2975251A1 (en) 2016-08-04
AU2020250312A1 (en) 2020-11-12
AU2022201819A1 (en) 2022-04-07
AU2020250312B2 (en) 2021-12-16
JP2019071080A (ja) 2019-05-09

Similar Documents

Publication Publication Date Title
KR102055355B1 (ko) 배치 정규화 레이어들
US20210049298A1 (en) Privacy preserving machine learning model training
EP3563306A1 (en) Batch renormalization layers
US20190294967A1 (en) Circulant neural networks

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right