KR102055355B1

KR102055355B1 - 배치 정규화 레이어들

Info

Publication number: KR102055355B1
Application number: KR1020177023719A
Authority: KR
Inventors: 세르게이 이오페; 코리나 코테스
Original assignee: 구글 엘엘씨
Priority date: 2015-01-28
Filing date: 2016-01-28
Publication date: 2019-12-12
Also published as: CA2975251C; JP6935542B2; EP3251059B1; AU2016211333A1; EP3483795B1; US11853885B2; US11281973B2; AU2019200309B2; JP6710745B2; DK3251059T3; IL253676A0; US20210357756A1; AU2016211333B2; BR112017016306A8; AU2022201819B2; US20200057924A1; US10417562B2; PL3251059T3; US20160217368A1; US20210224653A1

Abstract

배치 정규화 레이어를 포함하는 신경 네트워크 시스템을 사용하여 입력들을 프로세싱하기 위한, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들, 시스템들 및 장치. 상기 방법들 중 하나는 배치에서 각 트레이닝 예시에 대한 각각의 제1 레이어 출력을 수신하는 단계; 상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하는 단계; 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 각 컴포넌트를 정규화하는 단계; 상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 각각의 배치 정규화 레이어 출력을 생성하는 단계; 및 상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하는 단계를 포함한다.

Description

배치 정규화 레이어들

본 명세서는 출력들을 생성하기 위한 신경 네트워크들의 레이어들을 통한 입력들을 프로세싱하는 것과 관련된다.

신경 네트워크들은 수신된 입력에 대한 출력을 예측하기 위한 비선형 유닛들의 하나 이상의 레이어들을 이용하는 기계 학습 모델들(machine learning models)이다. 일부 신경 네트워크들은 출력 레이어에 더하여 하나 이상의 히든 레이어들(hidden layers)을 포함한다. 각 히든 레이어의 출력은 네트워크에서 다음 레이어 즉, 다음 히든 레이어 또는 출력 레이어에 대한 입력으로서 사용된다. 네트워크의 각 레이어는 파라미터들의 각각의 세트의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.

일반적으로, 본 명세서에 기재된 본 발명의 일 혁신적 양태는 하나 이상의 컴퓨터들에 의해 구현되는 신경 네트워크 시스템에 이용될 수 있으며, 상기 신경 네트워크 시스템은 제1 신경 네트워크 레이어와 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 포함하며, 상기 제1 신경 네트워크 레이어는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며, 상기 배치 정규화 레이어는 트레이닝 예시들의 배치에서 상기 신경 네트워크 시스템의 트레이닝 동안에: 상기 배치에서 각 트레이닝 예시에 대한 각각의 제1 레이어 출력을 수신하고; 상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하고; 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 각 컴포넌트를 정규화하고; 상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 각각의 배치 정규화 레이어 출력을 생성하고; 그리고 상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하도록 구성된다.

특정 동작 또는 액션을 수행하도록 구성된 하나 이상의 컴퓨터들의 시스템은 시스템에 소프트웨어, 펌웨어, 하드웨어 또는 그것들의 조합이 설치되어, 동작될 때 상기 시스템으로 하여금 상기 동작 또는 액션을 수행하게 하는 것을 의미한다. 특정 동작 또는 액션을 수행하도록 구성된 하나 이상의 컴퓨터 프로그램들은 하나 이상의 프로그램들이 명령어들을 포함하며, 상기 명령어들이 데이터 프로세싱 장치에 의해 실행될 때 상기 장치로 하여금 상기 동작 또는 액션을 수행하게 하는 것을 의미한다.

본 명세서에 기재된 본 발명의 특정 실시예들은 하나 이상의 다음의 이점들을 실현하도록 구현될 수 있다. 하나 이상의 배치 정규화 레이어들을 포함하는 신경 네트워크 시스템은 어떠한 배치 정규화 레이어들을 포함하지 않는 다른 동일한 신경 네트워크보다 더 빠르게 트레이닝될 수 있다. 예를 들면, 신경 네트워크 시스템에 하나 이상의 배치 정규화 레이어들을 포함함으로써, 트레이닝 동안 변화되는 주어진 레이어의 입력들의 분배에 의해 야기되는 문제들을 완화할 수 있다. 이는 트레이닝 도중에 더 높은 학습 비율이 효율적으로 사용되게 하며, 트레이닝 동안 이용될 다른 규칙화(regularization) 기법들 예를 들면, 드롭아웃(dropout)의 필요를 감소시킬 수 있다. 하나 이상의 정규화 레이어들을 포함하는 트레이닝된 신경 네트워크 시스템은 다른 동일한 신경 네트워크 시스템에 의해 생성된 신경 네트워크 출력들보다 정확성(더 정확하지 않더라도) 있는 신경 네트워크 출력들을 생성할 수 있다.

본 명세서의 본 발명의 하나 이상의 실시예들의 세부사항들은 첨부 도면과 이하의 설명에서 기술된다. 본 발명의 다른 구성들, 양태들 및 이점들은 설명, 도면들, 청구항들로부터 명확해질 것이다.

도 1은 예시적 신경 네트워크 시스템을 도시한다.
도 2는 신경 네트워크 시스템의 트레이닝 동안에 배치 정규화 레이어를 사용하여 입력을 프로세싱하는 예시적 프로세스의 흐름도이다.
도 3은 신경 네트워크 시스템이 트레이닝된 후 배치 정규화를 사용하여 입력을 프로세싱하는 예시적 프로세스의 흐름도이다.
다양한 도면들에서 동일한 번호 및 기호는 동일한 구성요소를 지칭한다.

본 명세서는 배치 정규화 레이어를 포함하는 하나 이상의 위치들에서 하나 이상의 컴퓨터들 상의 컴퓨터 프로그램들로서 구현되는 신경 네트워크 시스템을 기술한다.

도 1은 예시적 신경 네트워크 시스템(100)을 도시한다. 신경 네트워크 시스템(100)은 하나 이상의 위치들에서 하나 이상의 컴퓨터들 상의 컴퓨터 프로그램들로서 구현되는 시스템의 예시이며, 상기 시스템에서 이하에서 기술되는 시스템들, 컴포넌트들 및 기법들이 구현될 수 있다.

신경 네트워크 시스템(100)은 시퀀스 중 가장 낮은 레이어에서부터 상기 시퀀스 중 가장 높은 레이어까지의 시퀀스로 배열된 다수의 신경 네트워크 레이어들을 포함한다. 신경 네트워크 시스템은 신경 네트워크 입력들을 시퀀스의 각 레이어들을 통해 프로세싱함으로써 신경 네트워크 입력들로부터 신경 네트워크 출력들을 생성한다.

신경 네트워크 시스템(100)은 임의의 종류의 디지털 데이터 입력을 수신하고 상기 입력에 기초하여 임의의 종류의 점수 또는 분류 출력을 생성하도록 구성될 수 있다.

예를 들면, 만약 신경 네트워크 시스템(100)의 입력들이 이미지들 또는 이미지들로부터 추출된 구성들인 경우, 해당 이미지에 대해 신경 네트워크 시스템(100)에 의해 생성되는 출력은 오브젝트 카테고리들의 세트 각각에 대한 점수들일 수 있고, 각 점수는 상기 이미지가 상기 카테고리에 속하는 오브젝트의 이미지를 포함할 추정된 가능성을 나타낼 수 있다.

다른 예시로서, 만약 신경 네트워크 시스템(100)에 대한 입력들이 인터넷 리소스들(예를 들면, 웹 페이지들), 문서들 또는 문서들의 부분들 또는 인터넷 리소스들, 문서들 또는 문서들의 부분들로부터 추출된 구성들인 경우, 해당 인터넷 리소스, 문서 또는 문서의 부분에 대한 신경 네트워크 시스템(100)에 의해 생성되는 출력은 토픽들의 세트 각각에 대한 점수일 수 있고, 각 점수는 상기 인터넷 리소스, 문서 또는 문서 부분이 상기 토픽에 관한 것일 추정된 가능성을 나타낼 수 있다.

다른 예시로서, 신경 네트워크 시스템(100)에 대한 입력들이 특정 광고에 대한 노출 컨텍스트의 구성들인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 상기 특정 광고가 클릭될 추정된 가능성을 나타내는 점수일 수 있다.

다른 예시로서, 신경 네트워크 시스템(100)에 대한 입력들이 사용자를 위한 개인화된 추천의 구성들 예를 들면, 상기 추천에 대한 컨텍스트를 특징짓는 구성들, 예를 들면, 상기 사용자에 의해 취해진 이전의 액션들을 특징짓는 구성들인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 컨텐츠 아이템들의 세트 각각에 대한 점수일 수 있고, 상기 각 점수는 상기 사용자가 추천된 컨텐츠 아이템에 호의적으로 응답할 추정된 가능성을 나타낼 수 있다.

다른 예시로서, 만약 신경 네트워크 시스템(100)에 대한 입력이 하나의 언어로된 텍스트인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 다른 언어로의 텍스트의 조각들의 세트 각각에 대한 점수일 수 있고, 상기 각 점수는 다른 언어로의 텍스트의 조각이 입력 텍스트의 다른 언어로의 적절한 번역일 추정된 가능성을 나타낼 수 있다.

다른 예시로서, 신경 네트워크 시스템(100)에 대한 입력이 발화된 발언, 발화된 발언들의 시퀀스 또는 상기 둘 중 하나로부터 도출된 구성들인 경우, 신경 네트워크 시스템(100)에 의해 생성되는 출력은 텍스트의 조각들의 세트 각각에 대한 점수일 수 있고, 상기 각 점수는 상기 테스트의 조각이 상기 발언 또는 발언들의 시퀀스에 대한 올바른 전사(transcript)일 추정된 가능성을 나타낼 수 있다.

다른 예시로서, 신경 네트워크 시스템(100)은 자동완성 시스템의 일부 또는 텍스트 프로세싱 시스템의 일부일 수 있다.

다른 예시로서, 신경 네트워크 시스템(100)은 강화 학습 시스템(reinforcement learning system)의 일부일 수 있고, 환경과 인터렉팅하는 대리인에 의해 수행될 액션들을 선택하기 위해 사용되는 출력들을 생성할 수 있다.

특히, 신경 네트워크의 각 레이어들은 입력을 수신하고 상기 입력으로부터 출력을 생성하도록 구성되며, 신경 네트워크 레이어들은 신경 네트워크 시스템(100)에 의해 수신된 신경 네트워크 입력들을 집합적으로 프로세싱하여 각 수신된 신경 네트워크 입력에 대해 각각의 신경 네트워크 출력을 생성한다. 시퀀스에서의 신경 네트워크 레이어들의 일부 또는 전부는 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 입력들로부터 출력들을 생성한다. 예를 들면, 일부 레이어들은 수신된 입력으로부터 출력을 생성하는 것의 일부로서 현재 파리미터 값들의 매트릭스에 의해 수신된 입력을 곱할 수 있다.

또한, 신경 네트워크 시스템(100)은 신경 네트워크 레이어들의 시퀀스에서 신경 네트워크 레이어 A(104)와 신경 네트워크 레이어B(112) 사이에 배치 정규화 레이어(108)을 포함한다. 배치 정규화 레이어(108)는 신경 네트워크 시스템(100)의 트레이닝 동안에 신경 네트워크 레이어 A(104)로부터 수신된 입력들에 대한 동작들의 한 세트를 및 신경 네트워크 시스템(100)이 트레이닝된 후 신경 네트워크 레이어 A(104)로부터 수신된 입력들에 대한 동작들의 다른 세트를 수행하도록 구성된다.

특히, 신경 네트워크 시스템(100)은 신경 네트워크 레이어들의 파라미터들의 트레이닝된 값들을 결정하기 위해 트레이닝 예시들의 다수의 배치들에 대해 트레이닝될 수 있다. 트레이닝 예시들의 배치는 다수의 트레이닝 예시들의 세트이다. 예를 들면, 트레이닝 동안에, 신경 네트워크 시스템(100)은 트레이닝 예시들(102)의 배치를 프로세싱하고 상기 배치(102)에서 각 트레이닝 에시들에 대해 각각의 신경 네트워크 출력을 생성할 수 있다. 그 후, 신경 네트워크 출력들은 상기 시퀀스에서 신경 네트워크 레이어들의 파라미터들의 값들을 예를 들면, 통상적인 기울기 하강 및 역전파 신경 네트워크 트레이닝 기법들을 통해 조절하는데 사용될 수 있다.

트레이닝 예시들의 해당 배치에서 신경 네트워크 시스템(100)의 트레이닝 동안에, 배치 정규화 레이어(108)는 상기 배치에서 트레이닝 예시들에 대한 신경 네트워크 레이어 A(104)에 의해 생성된 레이어 A 출력들(106)을 수신하고, 상기 배치에서 각 트레이닝 예시에 대한 각각의 배치 정규화 레이어 출력(110)을 생성하기 위해 레이어 A 출력들(106)을 프로세싱하고, 그후 상기 배치 정규화 레이어 출력들(110)을 신경 네트워크 레이어 B(112)에 대한 입력으로서 제공하도록 구성된다. 레이어 A 출력들(106)은 상기 배치에서 각 트레이닝 예시에 대한 신경 네트워크 레이어 A(104)에 의해 생성된 각각의 출력을 포함한다. 유사하게, 배치 정규화 레이어 출력들(110)은 상기 배치에서 각 트레이닝 예시에 대한 배치 정규화 레이어(108)에 의해 생성된 각각의 출력을 포함한다.

일반적으로, 배치 정규화 레이어(108)는 레이어 A 출력들(106)로부터 상기 배치에 대한 정규화 통계의 세트를 연산하고, 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 출력을 생성하기 위해 레이어 A 출력들(106)을 정규화하고, 그리고 선택적으로, 상기 출력들을 신경 네트워크 레이어 B(112)에 대한 입력으로서 제공하기 전에 정규화된 출력들 각각을 변환(transform)한다.

배치 정규화 레이어(108)에 의해 연산된 정규화 통계 및 배치 정규화 레이어(108)가 트레이닝 동안에 레이어 A 출력들(106)을 정규화하는 방식은 레이어 A 출력들(106)을 생성하는 신경 네트워크 레이어 A(104)의 성질에 의존한다.

일부 경우들에서, 신경 네트워크 레이어 A(104)는 차원(dimension)에 의해 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 레이어이다. 예를 들면, 신경 네트워크 레이어 A(104)는 완전히 연결된 신경 네트워크 레이어일 수 있다. 그러나, 일부 다른 경우들에서, 신경 네트워크 레이어 A(104)는 컨벌루션 레이어(convolutional layer)또는 피처 인덱스(feature index) 및 공간 위치 인덱스(spatial location index) 둘다에 의해 각각 인덱싱되는 다수의 컴포넌트들을 포함하는 출력을 생성하는 신경 네트워크 레이어의 다른 종류이다. 이들 두 경우들 각각에서 신경 네트워크 시스템(100)의 트레이닝 동안에 배치 정규화 레이어 출력을 생성하는 것은 도 2를 참조하여 이하에서 더 자세히 기술된다.

일단 신경 네트워크 시스템(100)이 트레이닝 되면, 신경 네트워크 시스템(100)은 프로세싱하기 위한 새로운 신경 네트워크 입력을 수신하고, 신경 네트워크 시스템(100)의 컴포넌트들의 파라미터들의 트레이닝된 값들에 따라 상기 입력에 대한 새로운 신경 네트워크 출력을 생성하기 위해 신경 네트워크 레이어들을 통해 신경 네트워크 입력을 프로세싱할 수 있다. 새로운 신경 네트워크 입력의 프로세싱 동안에 배치 정규화 레이어(108)에 의해 수행되는 동작들 또한 신경 네트워크 레이어 A(104)의 성질에 의존한다. 신경 네트워크 시스템(100)이 트레이닝된 후에 새로운 신경 네트워크 입력을 프로세싱하는 것은 도 3을 참조하여 이하에서 자세히 기술된다.

배치 정규화 레이어(108)는 신경 네트워크 레이어들의 시퀀스에서 다양한 위치들에 포함될 수 있고, 일부 구현예들에서, 다수의 배치 정규화 레이어들이 상기 시퀀스에 포함될 수 있다.

도 1의 예시에서, 일부 구현예들에서, 신경 네트워크 레이어 A(104)는 제1 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 레이어에 대한 입력들을 수정함으로써 예를 들면, 레이어에 대한 입력에 현재 파라미터 값들의 매트릭스를 곱함으로써 출력들을 생성한다. 이들 구현예들에서, 신경 네트워크 레이어 B(112)는 배치 정규화 레이어(108)로부터 출력을 수신하고 비선형 동작 즉, 비선형 작동 함수(non-linear activation function)를 배치 정규화 레이어 출력에 적용함으로써 출력을 생성할 수 있다. 따라서, 이들 구현예들에서, 배치 정규화 레이어(108)는 통상적인 신경 네트워크 레이어 내에 삽입되며, 통상적인 신경 네트워크 레이어의 동작들은 신경 네트워크 레이어 A(104) 및 신경 네트워크 레이어 B(112) 사이에 분할된다.

일부 다른 구현예들에서, 신경 네트워크 레이어 A(104)는 수정된 제1 레이어 입력들을 생성하기 위해 파라미터들의 세트의 현재 값들에 따라 레이어 입력들을 수정하고 배치 정규화 레이어(108)에 대한 출력을 제공하기 전에 상기 수정된 제1 레이어 입력들에 비선형 동작을 적용함으로써 출력들을 생성한다. 따라서, 이들 구현예들에서, 배치 정규화 레이어(108)는 상기 시퀀스에서 통상적인 신경 네트워크 레이어 뒤에 삽입된다.

도 2는 트레이닝 예시들의 배치 상에 신경 네트워크의 트레이닝 동안에 배치 정규화 레이어를 생성하기 위한 예시적 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들면, 신경 네트워크 시스템에 포함된 배치 정규화 레이어 예를 들면, 적절하게 프로그래밍된 도 1의 신경 네트워크 시스템(100)에 포함된 배치 정규화 레이어(108)가 프로세스(200)을 수행할 수 있다.

배치 정규화 레이어는 트레이닝 예시들의 배치에 대한 더 낮은 레이어 출력들을 수신한다(단계(202)). 더 낮은 레이어 출력들은 신경 네트워크 레이어들의 시퀀스에서 배치 정규화 레이어 아래의 레이어에 의해 상기 배치에서 각 트레이닝 예시에 대해 생성된 각각의 출력을 포함한다.

배치 정규화 레이어는 상기 배치에서 각 트레이닝 예시에 대한 각각의 정규화된 출력을 생성한다(단계(204)). 즉, 배치 정규화 레이어는 각 수신된 더 낮은 레이어 출력으로부터 각각의 정규화된 출력을 생성한다.

일부 경우들에서, 배치 정규화 레이어 아래의 레이어는 차원에 의해 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 레이어이다.

이들 경우들에서, 배치 정규화 레이어는 각 차원에 대해 상기 차원에 대응하는 더 낮은 레이어 출력들의 컴포넌트들의 평균 및 표준편차를 연산한다. 그후 배치 정규화 레이어는 상기 배치에서 트레이닝 예시들 각각에 대한 각각의 정규화된 출력을 생성하기 위해 상기 평균들 및 표준편차들을 사용하여 더 낮은 레벨 출력들 각각의 각 컴포넌트를 정규화한다. 특히, 주어진 출력의 주어진 컴포넌트에 대해, 배치 정규화 레이어는 상기 컴포넌트에 대응하는 차원에 대해 연산된 평균 및 표준편차를 사용하여 컴포넌트를 정규화한다. 예를 들면, 일부 구현예들에서, 배치 β로부터 i-번째 낮은 레이어 출력의 k-번째 차원에 대응하는 컴포넌트 x _k,i 에 대해, 정규화된 출력

는:

를 만족하며, 여기서 μ_B는 배치 β 및 σ_B 에서 더 낮은 레이어 출력들의 k-번째 차원에 대응하는 컴포넌트의 표준편차이다. 일부 구현예들에서, 표준편차는 (σ_B ²+ ε)^1/2와 동일한 수치적으로 안정한 표준편차이며, 여기서 ε는 상수값이고 σ_B ²는 배치 β에서 더 낮은 레이어 출력들의 k-번째 차원에 대응하는 컴포넌트의 분산이다.

그러나, 일부 다른 경우들에서,배치 정규화 레이어 아래의 신경 네트워크 레이어는 통상적인 레이어 또는 피처 인덱스 및 공간 위치 인덱스 둘다에 의해 각각 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 신경 네트워크 레이어의 다른 종류이다.

이들 경우들 중 일부에서, 배치 정규화 레이어는 각 가능한 피처 인덱스 및 공간 위치 인덱스 조합에 대해, 상기 피처 인덱스 및 공간 위치 인덱스를 가지는 더 낮은 레이어 출력들의 컴포넌트들의 평균 및 분산을 연산한다. 그후 배치 정규화 레이어는 각 피처 인덱스에 대해, 상기 피처 인덱스를 포함하는 피처 인덱스 및 공간 위치 인덱스 조합들에 대한 평균들(means)의 평균값(average)을 연산한다. 또한, 배치 정규화 레이어는 각 피처 인덱스에 대해, 상기 피처 인덱스를 포함하는 피처 인덱스 및 공간 위치 인덱스 조합들에 대한 분산들의 평균값을 연산한다. 따라서, 상기 평균값들을 연산한 후에, 배치 정규화 레이어는 모든 공간 위치들을 가로지르는 각 피처에 대한 평균 통계 및 모든 공간 위치들을 가로지르는 각 피처에 대한 분산 통계를 연산한다.

그 후 배치 정규화 레이어는 상기 배치에서 트레이닝 예시들 각각에 대한 각각의 정규화된 출력을 생성하기 위해 각각의 더 낮은 레벨 출력들의 각 컴포넌트를 평균값 평균들(average means)과 평균값 분산들(average variances)을 사용하여 정규화한다. 특히, 해당 출력의 해당 컴포넌트에 대해 배치 정규화 레이어는 컴포넌트에 대응하는 피처 인덱스에 대한 평균값 평균과 평균값 분산을 사용하여 예를 들면, 배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 출력들을 생성하는 경우 상기 기술된 것과 동일한 방식으로 컴포넌트를 정규화한다.

이들 경우들의 다른 경우에, 배치 정규화 레이어는 각 피처 인덱스에 대해, 상기 피처 인덱스에 대응하는 즉 피처 인덱스를 가지는 더 낮은 레이어 출력들의 컴포넌트들의 평균 및 분산을 연산한다.

그 후 배치 정규화 레이어는 상기 배치에서 트레이닝 예시들 각각에 대한 각각의 정규화된 출력을 생성하기 위해 피처 인덱스들에 대한 평균들 및 분산들을 사용하여 각각의 더 낮은 레벨 출력들의 각 컴포넌트를 정규화한다. 특히, 해당 출력의 해당 컴포넌트에 대해, 배치 정규화 레이어는 컴포넌트에 대응하는 피처 인덱스에 대한 평균 및 분산을 사용하여 예를 들면, 배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 출력들을 생성하는 경우 상기 기술된 것과 동일한 방식으로 컴포넌트를 정규화한다.

선택적으로, 배치 정규화 레이어는 각 정규화된 출력의 각 컴포넌트를 변환한다(단계(206)).

배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 다수의 컴포넌트들을 포함하는 출력을 생성하는 레이어인 경우들에서, 배치 정규화 레이어는 각 차원에 대해, 상기 차원에 대한 파라미터들의 세트의 현재 값들에 따라 차원에서 각 정규화된 출력의 컴포넌트를 변환한다. 즉, 배치 정규화 레이어는 각 차원에 대한 파라미터들의 각각의 세트를 유지하고, 상기 파라미터들을 사용하여 상기 차원에서 정규화된 출력들의 컴포넌트들에 변환(transformation)을 적용한다. 파라미터들의 세트들의 값들은 신경 네트워크 시스템의 트레이닝의 일부로서 조절된다. 예를 들면, 일부 구현예들에서, 정규화된 출력

로부터 생성된 변환된 정규화된 출력 y _k,i 는:

를 만족하며, 여기서 γ _k 및 A _k 는 k-번째 차원에 대한 파라미터들이다.

배치 정규화 레이어 아래의 레이어가 컨벌루션 레이어인 경우들에, 배치 정규화 레이어는 각각의 정규화된 출력들의 각 컴포넌트에 대해, 컴포넌트에 대응하는 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 컴포넌트를 변환한다. 즉, 배치 정규화 레이어는 각 피처 인덱스에 대한 파라미터들의 각각의 세트를 유지하고 상기 파라미터들을 사용하여 예를 들면, 배치 정규화 레이어 아래의 레이어가 차원에 의해 인덱싱된 출력들을 생성하는 경우 상기 기술된 것과 동일한 방식으로피처 인덱스를 가지는 정규화된 출력들의 컴포넌트들에 대한 변환에 적용한다. 파라미터들의 세트들의 값들은 신경 네트워크 시스템의 트레이닝의 일부로서 조절된다.

배치 정규화 레이어는 정규화된 출력들 또는 변환된 정규화된 출력들을 상기 시퀀스에서 배치 정규화 레이어 위의 레이어에 대한 입력으로서 제공한다(단계(208)).

신경 네트워크가 상기 배치에서 트레이닝 예시들에 대한 신경 네트워크 출력들을 생성한 후에, 정규화 통계는 신경 네트워크의 파라미터들의 값들을 조절하는 것의 일부로서를 통하여 즉, 역전파 트레이닝 기법을 수행하는 것의 일부로서 역전파된다.

도 3은 신경 네트워크가 트레이닝된 후에 새로운 신경 네트워크 입력에 대한 배치 정규화 레이어 출력을 생성하는 예시적 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)은 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로서 기술될 것이다. 예를 들면, 신경 네트워크 시스템에 포함된 배치 정규화 레이어 예를 들면, 적절하게 프로그래밍된 도 1의 신경 네트워크 시스템(100)에 포함된 배치 정규화 레이어(108)는 프로세스(300)을 수행할 수 있다.

배치 정규화 레이어는 새로운 신경 네트워크에 대한 더 낮은 레이어 출력을 수신한다(단계(302)). 더 낮은 레이어 출력은 신경 네트워크 레이어들의 시퀀스에서 배치 정규화 레이어 아래의 레이어에 의해 새로운 신경 네트워크 입력에 대해 생성된 출력이다.

배치 정규화 레이어는 새로운 신경 네트워크 입력에 대한 정규화된 출력을 생성한다(단계(304)).

만약 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 차원에 의해 인덱싱된 경우, 배치 정규화 레이어는 정규화된 출력을 생성하기 위해 각각의 차원들에 대해 미리 연산된 평균들 및 표준편차들을 사용하여 더 낮은 레이어 출력의 각 컴포넌트를 정규화한다. 일부 경우들에서, 해당 차원에 대한 평균들 및 표준 편차들은 신경 네트워크 시스템의 트레이닝 동안에 배치 정규화 레이어 아래의 레이어에 의해 생성된 모든 출력들의 차원에서의 컴포넌트들로부터 연산된다.

그러나, 다른 일부 경우들에서, 해당 차원에 대한 평균들 및 표준 편차들은 트레이닝 이후 배치 정규화 레이어 아래의 레이어에 의해 생성된 더 낮은 레이어 출력들의 차원에서의 컴포넌트들로부터 예를 들면, 특정 기간의 가장 최근 시간 윈도우 동안에 생성된 더 낮은 레이어 출력들로부터 또는 배치 정규화 레이어 아래의 레이어에 의해 가장 최근에 생성된 더 낮은 레이어 출력들의 특정 숫자로부터 연산된다.

특히, 일부 경우들에서, 예를 들면, 만약 새로운 신경 네트워크 입력들이 트레이닝 예시들과 다른 종류의 입력들인 경우, 네트워크 입력들의 분배 및 따라서 더 낮은 레이어 출력들의 분배는 트레이닝 동안에 사용된 트레이닝 예시들과 신경 네트워크 시스템이 트레이닝된 후에 사용된 새로운 신경 네트워크 입력들 사이에서 변화할 수 있다. 예를 들면, 신경 네트워크 시스템은 사용자 이미지들에 대해 트레이닝될 수 있고, 이제 비디오 프레임들을 프로세싱하기 위해 사용될 수 있다. 사용자 이미지들 및 비디오 프레임들은 찍힌 클래스들, 이미지 속성들, 구성 등의 면에서 다른 분배들(distributions)을 가질 가능성이 크다. 그러므로, 트레이닝으로부터의 통계들을 사용하여 더 낮은 레이어 입력들을 정규화하는 것은 새로운 입력들에 대해 생성되는 더 낮은 레이어 출력들의 통계들을 정확하게 캡처하지 않을 수 있다. 따라서, 이들 경우들에서, 배치 정규화 레이어는 트레이닝 이후에 배치 정규화 레이어 아래의 레이어에 의해 생성된 더 낮은 레이어 출력들로부터 연산된 정규화 통계들을 사용할 수 있다.

배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱된 경우, 배치 정규화 레이어는 정규화된 출력을 생성하기 위해 피처 인덱스들 각각에 대한 미리 연산된 평균값 평균들 및 평균값 분산들을 사용하여 더 낮은 레이어 출력의 각 컴포넌트를 정규화한다. 일부 경우들에서, 상기 기술된 바와 같이, 해당 피처 인덱스에 대한 평균값 평균들 및 평균값 분산들은 트레이닝 동안에 사용된 트레이닝 예시들 전부에 대한 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들로부터 연산된다. 일부 다른 경우들에서, 상기 기술된 것과 같이, 해당 피처 인덱스에 대한 평균들 및 표준 편차들은 트레이닝 이후에 배치 정규화 레이어 아래의 레이어에 의해 생성된 더 낮은 레이어 출력들로부터 연산된다.

선택적으로, 배치 정규화 레이어는 정규화된 출력의 각 컴포넌트를 변환한다(단계(306)).

만약 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 차원에 의해 인덱싱되면, 배치 정규화 레이어는 각 차원에 대해 상기 차원에 대한 파라미터들의 세트의 트레이닝된 값들에 따라 차원에서의 정규화된 출력의 컴포넌트를 변환한다. 만약 배치 정규화 레이어 아래의 레이어에 의해 생성된 출력들이 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱되면, 배치 정규화 레이어는 컴포넌트에 대응하는 피처 인덱스에 대한 파라미터들의 세트의 트레이닝된 값들에 따라 정규화된 출력의 각 컴포넌트를 변환한다. 배치 정규화 레이어는 정규화된 출력 또는 변환된 정규화된 출력을 시퀀스에서 배치 정규화 레이어 위의 레이어에 대한 입력으로서 제공한다(단계(308)).

본 발명의 실시예들 및 본 명세서에 기술된 기능적 동작들은 본 명세서에서 개시된 구조들 및 그들의 구조적 균등물들을 포함하는 디지털 전자 회로에서, 유형적으로 수록된 컴퓨터 소프트웨어 또는 펌웨어에서, 컴퓨터 하드웨어에서 또는 그들 중 하나 이상의 조합들에서 구현될 수 있다. 본 명세서에 기술된 본 발명의 실시예들은 하나 이상의 컴퓨터 프로그램들 즉, 데이터 프로세싱 장치에 의해 또는 데이터 프로세싱 장치의 동작을 제어하기 위한 실행을 위한 유형적 비 일시적 프로그램 캐리어에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈들로서 구현될 수 있다. 대안적으로 또는 추가로, 프로그램 명령어들은 데이터 프로세싱 장치에 의한 실행을 위한 적절한 리시버 장치에 전송을 위한 정보를 인코딩하기 위해 생성된 인공적으로 생성된 전파 신호 예를 들면, 기계-생성 전기적, 광학적 또는 전자기적 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저작 기판, 랜덤 또는 시리얼 엑세스 메모리 디바이스 또는 그들 중 하나 이상의 조합일 수 있다.

용어 “데이터 프로세싱 장치”는 예시로서 프로그래머블 프로세서, 컴퓨터 도는 다수의 프로세서들 또는 컴퓨터들을 포함하는 데이터를 프로세싱하기 위한 모든 종류의 장치, 디바이스들 및 기계들을 포함한다. 장치는 전용 논리 회로 예를 들면, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)를 포함할 수 있다. 또한, 하드웨어에 추가로, 장치는 문제되는 컴퓨터 프로그램을 위한 실행 환경을 생성하는 코드 예를 들면, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 그들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 모듈, 소프트웨어 모듈 스크립트 또는 코드로도 지칭되거나 기술됨)은 컴파일된 또는 인터프리트된 언어들 또는 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있고, 이는 단독형 프로그램으로서 또는 컴퓨팅 환경에서 사용하기 위해 적절한 모듈, 컴포넌트 서브 루틴 또는 기타 유닛으로서를 포함한다. 컴퓨터 프로그램은 파일 시스템에서 파일에 대응하나, 반드시 대응되지는 않는다. 프로그램은 다른 프로그램들 또는 데이터를 보유하는 파일의 부분 예를 들면, 마크업 언어 문서에, 문제되는 프로그램 전용 단일 파일에 또는 다수의 편성된 파일들 예를 들면, 하나 이상의 모듈들, 서브 프로그램들 또는 코드의 부분들을 저장하는 파일들에 저장된 하나 이상의 스크립트들에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 장소에 위치되거나 다수의 사이트들에 분산되고 통신 네트워크에 의해 상호 연결된 다수의 컴퓨터들에서 실행되도록 배포될 수 있다.

본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작시키고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래머블 컴퓨터들에 의해 수행될 수 있다. 또한, 프로세스들 및 논리 흐름들은 전용 논리 회로 예를 들면, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)에 의해 수행되고, 또한 장치는 전용 논리 회로로서 구현될 수 있다.

예시로서, 컴퓨터 프로그램의 실행을 위해 적절한 컴퓨터들은 전용 또는 범용 마이크로 프로세서들 또는 둘 다, 또는 임의의 다른 종류의 중앙 프로세싱 유닛에 기초할 수 있다. 일반적으로, 중앙 프로세싱 유닛은 명령어들 및 데이터를 리드 온리 메모리 또는 랜덤 엑세스 메모리 또는 둘 다로부터 수신할 것이다. 컴퓨터의 기초적 엘리먼트들은 명령어들을 수행하거나 실행하기 위한 중앙 프로세싱 유닛 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 또한, 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대형 저장 디바이스들 예를 들면, 자기적, 자기광학 디스크들 또는 광학적 디스크들을 포함하거나 그로부터 데이터를 수신하거나 그에 데이터를 전송하기 위해 동작적으로 연결될 것이다. 그러나, 컴퓨터는 상기 디바이스들을 반드시 가질 필요가 없다. 게다가 컴퓨터는 다른 디바이스 몇 가지 예를 들면, 모바일 전화, PDA, 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 이동식 저장 디바이스 예를 들면, USB, 플래시 드라이브에 내장될 수 있다.

컴퓨터 프로그램 명령어들 및 데이터를 저장하기 위해 적절한 컴퓨터 판독가능 미디어는 예시로서, 반도체 메모리 디바이스들 예를 들면, EPROM, EEPROM 및 플래시 메모리 디바이스들; 자기 디스크들 예를 들면, 내장 하드 디스크들 또는 이동식 디스크들; 자기광학 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 미디어 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 전용 논리 회로에 의해 보충되거나 그에 통합될 수 있다.

사용자와의 인터렉션을 제공하기 위해, 본 명세서에 기술된 본 발명의 실시예들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스 예를 들면, CRT 또는 LCD 모니터 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스 예를 들면, 마우스 또는 트랙볼을 가지는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터렉션을 제공하기 위해 사용될 수 있다; 예를 들면, 사용자에게 제공되는 피드백은 임의의 감각적 피드백 예를 들면, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백일 수 있고; 사용자로부터의 입력은 청각, 음성 또는 촉각적 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 문서들을 송신하고 디바이스로부터 문서들을 수신함으로써 사용자와 인터렉션할 수 있다; 예를 들면, 웹 브라우저로부터 수신된 요청들에 응답하여 사용자의 클라이언트 디바이스 상의 웹 브라우저에 웹 페이지들을 송신함으로써.

본 명세서에 기술된 본 발명의 실시예들은 백엔드 컴포넌트 예를 들면, 데이터 서버를 포함하거나, 또는 미들웨어 컴포넌트 예를 들면, 어플리케이션 서버를 포함하거나, 또는 프론트엔드 컴포넌트 예를 들면, 사용자가 본 명세서에 기술된 본 발명의 구현예와 인터렉션할 수 있는 그래픽 사용자 인터페이스 또는 웹브라우저를 가지는 클라이언트 컴퓨터를 포함하는 컴퓨팅 시스템 또는 하나 이상의 상기 백엔드, 미들웨어 또는 프론트엔드 컴포넌트들의 임의의 조합에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신 예를 들면, 통신 네트워크의 임의의 형태 또는 매체에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 LAN(local area network) 및 WAN(wide area network) 예를 들면, 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 떨어져 있고, 일반적으로 통신 네트워크를 통해 인터렉션한다. 클라이언트 및 서버의 관계는 각각의 컴퓨터들에서 실행되며 상호 클라이언트-서버 관계를 가지는 컴퓨터 프로그램들에 의해서 발생한다.

본 명세서가 많은 특정 구현예 세부사항들을 포함하고 있지만, 이들은 어떠한 발명의 범위 또는 청구된 것에 대한 제한들로서 여겨져서는 아니되며, 오히려 특정 발명들의 특정 실시예들에 국한된 구성들의 설명들로서 여겨져야 한다. 또한 별개의 실시예들의 맥락에서 본 명세서에 기술된 특정 구성들은 단일의 실시예들에서 조합으로 구현될 수 있다. 또한 반대로, 단일의 실시예의 맥락에서 기술된 다양한 구성들은 다수의 실시예들에서 별개로 또는 임의의 적절한 서브컴비네이션으로 구현될 수 있다. 게다가, 비록 구성들이 특정 조합들에서 동작하는 것으로 상기 기술되고 심지어 상기와 같이 초기적으로 청구되었지만, 일부 경우들에서, 청구된 조합으로부터 하나 이상의 구성들이 조합으로부터 실행될 수 있고, 청구된 조합은 서브컴비네이션 또는 서브 컴비네이션의 변화를 지시할 수 있다.

유사하게, 동작들이 특정 순서로 도면들에서 도시되었지만, 이는 상기 동작들이 도시된 특정 순서 또는 순차적 순서로 수행되거나 또는 모든 도시된 동작들이 원하는 결과들을 달성하기 위해 수행되어야 할 것을 요구하는 것으로서 이해되어서는 아니된다. 특정 환경들에서, 멀티태스킹 및 병렬 프로세싱은 이점이 있다. 게다가, 상기 기술된 실시예들에서 다양한 시스템 모듈들 및 컴포넌트들의 분리도 모든 실시예들에서 상기 분리를 요구하는 것으로서 이해되어서는 아니되며, 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일의 소프트웨어 제품에 함께 통합되거나 또는 다수의 소프트웨어 제품들에 패키징될 수 있다.

본 발명의 특정 실시예들이 기술되었다. 다른 실시예들도 다음의 청구항들의 범위 내에 있다. 예를 들면, 청구항들에 기재된 액션들은 다른 순서로 수행될 수 있고 여전히 원하는 결과를 달성한다. 일 예시로서, 첨부 도면들에서 도시된 프로세스들은 원하는 결과들을 달성하기 위해 도시된 특정 순서 또는 순차적 순서를 필수적으로 요구하지 않는다. 특정 구현예들에서, 멀티태스킹 및 병렬 프로세싱은 이점이 있다.

Claims

하나 이상의 컴퓨터들에 의해 구현되는 신경 네트워크 시스템으로서,
신경 네트워크에서 제1 신경 네트워크 레이어와 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 구현하기 위한 명령어들을 포함하며, 상기 제1 신경 네트워크 레이어는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며, 상기 명령어들은 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
트레이닝 데이터의 복수의 배치(batch)들에 대한 상기 신경 네트워크의 트레이닝 동안에, 각 배치는 각각의 복수의 트레이닝 예시들을 포함하며, 상기 배치들 각각에 대해:
상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대한 각각의 제1 레이어 출력을 수신하는 동작;
상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하는 동작, 상기 연산하는 동작은:
상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 결정하는 것, 그리고
상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준 편차(standard deviation)를 결정하는 것을 포함하며;
상기 배치 내 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작, 상기 정규화하는 동작은:
각 제1 레이어 출력에 대해, 그리고 상기 복수의 서브셋들 각각에 대해, 상기 서브셋에 대한 상기 평균 및 상기 각각의 서브셋에 대한 상기 표준 편차를 사용하여 상기 각각의 서브셋에 있는 상기 제1 레이어 출력의 상기 컴포넌트들을 정규화하는 것을 포함하며;
상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들에 각각에 대한 각각의 배치 정규화 레이어 출력을 생성하는 동작; 및
상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하는 동작을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 1에 있어서,
상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 차원(dimension)에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대한 복수의 정규화 통계를 연산하는 동작은:
상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 연산하는 것; 및
상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준편차(standard deviation)을 연산하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 2에 있어서,
각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작은:
상기 컴포넌트에 대응하는 상기 차원에 대해 상기 연산된 평균 및 연산된 표준편차를 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 2에 있어서,
상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 상기 각각의 배치 정규화 레이어 출력을 생성하는 동작은:
상기 차원 각각에 대해, 상기 차원에 대한 파라미터들의 세트의 현재 값들에 따라 상기 차원에서 상기 트레이닝 예시에 대한 상기 정규화된 레이어 출력의 상기 컴포넌트를 변환(transforming)하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 4에 있어서,
상기 신경 네트워크 시스템이 상기 각 차원들에 대한 파라미터들의 트레이닝된 값들을 결정하기 위해 트레이닝된 후에, 상기 동작들은:
새로운 신경 네트워크 입력에 대한 상기 제1 신경 네트워크 레이어에 의해 생성된 새로운 제1 레이어 출력을 수신하는 동작;
새로운 정규화된 레이어 출력을 생성하기 위해 상기 차원들에 대한 미리 연산된 평균 및 표준편차 통계를 사용하여 상기 새로운 제1 레이어 출력의 각 컴포넌트를 정규화하는 동작;
각 차원에 대해, 상기 차원에 대한 파라미터들의 세트의 트레이닝된 값들에 따라 상기 차원에서 상기 트레이닝 예시에 대한 상기 새로운 정규화된 레이어 출력의 컴포넌트를 변환함으로써, 새로운 배치 정규화 레이어 출력을 생성하는 동작; 및
상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 새로운 레이어 입력으로서 제공하는 동작을 더 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 5에 있어서,
상기 차원들에 대한 상기 미리 연산된 평균 및 표준 편차 통계는 상기 신경 네트워크의 트레이닝 동안에 상기 제1 신경 네트워크 레이어에 의해 생성된 제1 레이어 출력들로부터 연산되는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 5에 있어서,
상기 차원들에 대한 상기 미리 연산된 평균 및 표준 편차 통계는 상기 신경 네트워크가 트레이닝된 후에 상기 제1 신경 네트워크 레이어에 의해 생성된 새로운 제1 레이어 출력들로부터 연산되는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 7에 있어서,
상기 신경 네트워크가 트레이닝된 후에 상기 신경 네트워크에 의해 프로세싱된 새로운 신경 네트워크 입력들은 상기 신경 네트워크를 트레이닝하는데 사용된 상기 트레이닝 예시들과 서로 다른 타입의 입력인 것을 특징으로 하는 신경 네트워크 시스템.
청구항 1에 있어서,
상기 제1 신경 네트워크 레이어는 컨벌루션 레이어(convolutional layer)이며, 상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 피처 인덱스(feature index) 및 공간 위치 인덱스(spatial location index)에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대한 복수의 정규화 통계를 연산하는 동작은:
피처 인덱스와 공간 위치 인덱스의 각 조합에 대해, 상기 피처 인덱스와 공간 위치 인덱스를 가지는 상기 제1 레이어 출력들의 컴포넌트들의 평균을 연산하는 것;
각 피처 인덱스에 대해, 상기 피처 인덱스를 포함하는 조합들에 대한 평균들(means)의 평균값(average)을 연산하는 것;
피처 인덱스와 공간 위치 인덱스의 각 조합에 대해, 상기 피처 인덱스와 공간 위치 인덱스를 가지는 상기 제1 레이어 출력들의 컴포넌트들의 분산(variance)을 연산하는 것; 및
각 피처 인덱스에 대해, 상기 피처 인덱스를 포함하는 조합들에 대한 상기 분산들의 평균값을 연산하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 9에 있어서,
각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 상기 평균들의 평균값 및 상기 분산들의 평균값을 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 9에 있어서,
상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 상기 각각의 배치 정규화 레이어 출력을 생성하는 동작은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 11에 있어서,
상기 신경 네트워크가 상기 각 차원들에 대한 상기 파라미터들의 트레이닝된 값들을 결정하기 위해 트레이닝된 후에, 상기 동작들은:
새로운 신경 네트워크 입력으로부터 생성된 새로운 제1 레이어 입력을 수신하는 동작;
새로운 정규화된 레이어 출력을 생성하기 위해 상기 피처 인덱스들에 대한 미리 연산된 평균 및 표준 편차 통계를 사용하여 상기 새로운 제1 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작;
상기 컴포넌트에 대응하는 상기 피처 인덱스의 파라미터들의 세트의 트레이닝된 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환함으로써, 새로운 배치 정규화 레이어 출력을 생성하는 동작; 그리고
상기 새로운 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 새로운 레이어 입력으로서 제공하는 동작을 더 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 1에 있어서,
상기 제1 신경 네트워크 레이어는 컨볼루션 레이어이며, 상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대해 복수의 정규화 통계를 연산하는 동작은, 각 피처 인덱스들에 대해:
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 평균을 연산하는 것; 및
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 분산을 연산하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 13에 있어서,
각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 평균 및 분산을 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 13에 있어서,
상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대해 상기 각각의 배치 정규화 레이어 출력을 생성하는 동작은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환하는 것을 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 15에 있어서,
상기 신경 네트워크가 트레이닝된 후에, 상기 동작들은:
새로운 신경 네트워크 입력으로부터 생성된 새로운 제1 레이어 입력을 수신하는 동작;
새로운 정규화된 레이어 출력을 생성하기 위해 상기 피처 인덱스들에 대한 미리 연산된 평균 및 표준 편차 통계를 사용하여 상기 새로운 제1 레이어 출력의 각 컴포넌트를 정규화하는 동작;
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 트레이닝된 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환함으로써 새로운 배치 정규화 레이어를 생성하는 동작;
상기 새로운 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 새로운 레이어 입력으로서 제공하는 동작을 더 포함하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 1에 있어서,
상기 제1 신경 네트워크 레이어는 상기 제1 신경 네트워크 레이어에 대한 파라미터들의 세트의 현재 값들에 따라 제1 레이어 입력들을 수정함으로써 상기 제1 레이어 출력들을 생성하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 17에 있어서,
상기 제2 신경 네트워크 레이어는 비-선형 동작(non-linear operation)을 상기 배치 정규화 레이어 출력들을 적용함으로써 제2 레이어 출력들을 생성하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 1에 있어서,
상기 제1 신경 네트워크 레이어는 수정된 제1 레이어 입력들을 생성하기 위해 파라미터들의 세트의 현재 값들에 따라 제1 레이어 입력들을 수정하고 그 후 상기 수정된 제1 레이어 입력들에 비-선형 동작을 적용함으로써 상기 제1 레이어 출력들을 생성하는 것을 특징으로 하는 신경 네트워크 시스템.
청구항 1에 있어서,
상기 신경 네트워크의 트레이닝 동안에, 상기 신경 네트워크 시스템은 상기 신경 네트워크의 파라미터들의 값들을 조절하는 것의 일부로서 상기 정규화 통계를 역전파(backpropagate)하도록 구성되는 것을 특징으로 하는 신경 네트워크 시스템.
신경 네트워크에서 제1 신경 네트워크 레이어와 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 구현하기 위한 하나 이상의 컴퓨터들에 의해 수행되는 방법으로서, 상기 제1 신경 네트워크 레이어는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며:
트레이닝 데이터의 복수의 배치들에 대한 상기 신경 네트워크의 트레이닝 동안에, 각 배치는 각각의 복수의 트레이닝 예시들을 포함하며, 상기 배치들 각각에 대해:
상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대한 각각의 제1 레이어 출력을 수신하는 단계;
상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하는 단계, 상기 연산하는 단계는:
상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 결정하는 것, 그리고
상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준 편차(standard deviation)를 결정하는 것을 포함하며;
상기 배치 내 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 단계, 상기 정규화하는 단계는:
각 제1 레이어 출력에 대해, 그리고 상기 복수의 서브셋들 각각에 대해, 상기 서브셋에 대한 상기 평균 및 상기 각각의 서브셋에 대한 상기 표준 편차를 사용하여 상기 각각의 서브셋에 있는 상기 제1 레이어 출력의 상기 컴포넌트들을 정규화하는 것을 포함하며;
상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들에 각각에 대한 각각의 배치 정규화 레이어 출력을 생성하는 단계; 및
상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하는 단계를 포함하는 것을 특징으로 하는 방법.
컴퓨터 프로그램이 인코딩된 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터 프로그램은 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 신경 네트워크 시스템을 구현하게 하는 명령어들을 포함하며, 상기 신경 네트워크 시스템은:
신경 네트워크에서 제1 신경 네트워크 레이어와 제2 신경 네트워크 레이어 사이에 배치 정규화 레이어(batch normalization layer)를 구현하기 위한 배치 정규화 명령어들을 포함하며, 상기 제1 신경 네트워크 레이어는 복수의 컴포넌트들을 가지는 제1 레이어 출력들을 생성하며, 상기 배치 정규화 명령어들은 상기 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
트레이닝 데이터의 복수의 배치들에 대한 상기 신경 네트워크의 트레이닝 동안에, 각 배치는 각각의 복수의 트레이닝 예시들을 포함하며, 상기 배치들 각각에 대해:
상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대한 각각의 제1 레이어 출력을 수신하는 동작;
상기 제1 레이어 출력들로부터 상기 배치에 대한 복수의 정규화 통계를 연산하는 동작, 상기 연산하는 동작은:
상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 결정하는 것, 그리고
상기 제1 레이어 출력들의 상기 복수의 컴포넌트들의 복수의 서브셋들 각각에 대해, 상기 각각의 서브셋에 있는 상기 배치 내 상기 복수의 트레이닝 예시들 각각에 대해 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준 편차(standard deviation)를 결정하는 것을 포함하며;
상기 배치 내 각 트레이닝 예시에 대한 각각의 정규화된 레이어 출력을 생성하기 위해 상기 정규화 통계를 사용하여 각 제1 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작, 상기 정규화하는 동작은:
각 제1 레이어 출력에 대해, 그리고 상기 복수의 서브셋들 각각에 대해, 상기 서브셋에 대한 상기 평균 및 상기 각각의 서브셋에 대한 상기 표준 편차를 사용하여 상기 각각의 서브셋에 있는 상기 제1 레이어 출력의 상기 컴포넌트들을 정규화하는 것을 포함하며;
상기 정규화된 레이어 출력들로부터 상기 트레이닝 예시들에 각각에 대한 각각의 배치 정규화 레이어 출력을 생성하는 동작; 및
상기 배치 정규화 레이어 출력을 상기 제2 신경 네트워크 레이어에 대한 입력으로서 제공하는 동작을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
청구항 22에 있어서,
상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 차원(dimension)에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대한 복수의 정규화 통계를 연산하는 동작은:
상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 연산하는 것; 및
상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준편차(standard deviation)을 연산하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
청구항 23에 있어서,
각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작은:
상기 컴포넌트에 대응하는 상기 차원에 대해 상기 연산된 평균 및 연산된 표준편차를 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
청구항 23에 있어서,
상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 상기 각각의 배치 정규화 레이어 출력을 생성하는 동작은:
상기 차원 각각에 대해, 상기 차원에 대한 파라미터들의 세트의 현재 값들에 따라 상기 차원에서 상기 트레이닝 예시에 대한 상기 정규화된 레이어 출력의 상기 컴포넌트를 변환(transforming)하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
청구항 22에 있어서,
상기 제1 신경 네트워크 레이어는 컨볼루션 레이어이며, 상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대해 복수의 정규화 통계를 연산하는 동작은, 각 피처 인덱스들에 대해:
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 평균을 연산하는 것; 및
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 분산을 연산하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
청구항 26에 있어서,
각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 동작은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 평균 및 분산을 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
청구항 26에 있어서,
상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대해 상기 각각의 배치 정규화 레이어 출력을 생성하는 동작은:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환하는 것을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.
청구항 21에 있어서,
상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 차원(dimension)에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대한 복수의 정규화 통계를 연산하는 단계는:
상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 평균(mean)을 연산하는 것; 및
상기 각 차원들에 대해, 상기 차원에서 상기 제1 레이어 출력들의 상기 컴포넌트들의 표준편차(standard deviation)을 연산하는 것을 포함하는 것을 특징으로 하는 방법.
청구항 29에 있어서,
각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 단계는:
상기 컴포넌트에 대응하는 상기 차원에 대해 상기 연산된 평균 및 연산된 표준편차를 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 방법.
청구항 29에 있어서,
상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대한 상기 각각의 배치 정규화 레이어 출력을 생성하는 단계는:
상기 차원 각각에 대해, 상기 차원에 대한 파라미터들의 세트의 현재 값들에 따라 상기 차원에서 상기 트레이닝 예시에 대한 상기 정규화된 레이어 출력의 상기 컴포넌트를 변환(transforming)하는 것을 포함하는 것을 특징으로 하는 방법.
청구항 21에 있어서,
상기 제1 신경 네트워크 레이어는 컨볼루션 레이어이며, 상기 제1 레이어 출력의 상기 복수의 컴포넌트들은 피처 인덱스 및 공간 위치 인덱스에 의해 인덱싱되며, 상기 제1 레이어 출력들에 대해 복수의 정규화 통계를 연산하는 단계는, 각 피처 인덱스들에 대해:
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 평균을 연산하는 것; 및
상기 피처 인덱스에 대응하는 상기 제1 레이어 출력들의 컴포넌트들의 분산을 연산하는 것을 포함하는 것을 특징으로 하는 방법.
청구항 32에 있어서,
각 레이어 출력의 상기 복수의 컴포넌트들 각각을 정규화하는 단계는:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대해 상기 평균 및 분산을 사용하여 상기 컴포넌트를 정규화하는 것을 포함하는 것을 특징으로 하는 방법.
청구항 32에 있어서,
상기 정규화된 레이어 출력들로부터 상기 각 트레이닝 예시들에 대해 상기 각각의 배치 정규화 레이어 출력을 생성하는 단계는:
상기 컴포넌트에 대응하는 상기 피처 인덱스에 대한 파라미터들의 세트의 현재 값들에 따라 상기 정규화된 레이어 출력의 상기 복수의 컴포넌트들 각각을 변환하는 것을 포함하는 것을 특징으로 하는 방법.