KR20210099149A

KR20210099149A - 신경망 훈련 방법

Info

Publication number: KR20210099149A
Application number: KR1020217022763A
Authority: KR
Inventors: 프랭크 슈밋; 토어스텐 작세
Original assignee: 로베르트 보쉬 게엠베하
Priority date: 2018-12-19
Filing date: 2019-11-28
Publication date: 2021-08-11
Also published as: TW202105261A; JP2022514886A; DE102018222347A1; EP3899808A1; CN113243021A; WO2020126378A1; JP7137018B2; US20210406684A1

Abstract

본 발명은, 특히 물리적 측정 변수의 분류를 위해 구성된 신경망(60)의 컴퓨터 구현식 훈련 방법에 관한 것이며, 신경망(60)은 훈련 데이터 세트(X)를 사용하여 훈련되고, 훈련을 위해 입력 신호(x) 및 원하는 관련 출력 신호(y_T)를 포함하는 쌍들이 훈련 데이터 세트(X)로부터 추출되며, 입력 신호(x)가 공급될 때, 그리고 원하는 출력 신호(y_T)에 따라서 신경망(60)의 출력 신호(y)에 따른 신경망(60)의 파라미터(θ)들의 매칭이 실행되고, 이러한 신경망 훈련 방법은 쌍들의 추출이 항상 전체 훈련 데이터 세트(X)로부터 실행되는 것을 특징으로 한다.

Description

신경망 훈련 방법

본 발명은 신경망 훈련 방법, 훈련 시스템, 이와 같이 훈련된 신경망의 사용, 컴퓨터 프로그램 및 머신 판독 가능한 저장 매체에 관한 것이다.

논문, "Improving neural networks by preventing co-adaptation of feature detectors"[arXiv preprint arXiv:1207.0580vl, Geoffrey E. Hinton, Nitish Srivastava, Alex Krizhevsky, llya Sutskever, Ruslan R. Salakhutdinov (2012)]에는, 훈련 중에 특징 감지기들이 무작위로 제외되는 신경망 훈련 방법이 공지되어 있다. 이러한 방법은 "드롭아웃(dropout)"이라는 명칭으로도 공지되어 있다.

논문, "Batch Normalization : Accelerating Deep Network Training by Reducing Internal Covariate Shift"[arXiv preprint arXiv : 1502.03167v3, Sergey loffe, Christian Szegedy(2015)]에는, 레이어 내로의 입력 변수가 훈련 예제의 미니 배치(mini-batch)에 대해 정규화되는 신경망 훈련 방법이 공지되어 있다.

반면, 독립 청구항 제1항의 특징을 갖는 방법은 훈련된 시스템의 신뢰성이 보장 가능하다는 장점을 갖는데, 이는 특히 안전이 중요한 적용예에 필수적이다. 놀랍게도, 이러한 장점은 훈련 종료 시에 달성 가능한 (예를 들어, 이미지 분류 시의) 성능의 저하를 감수할 필요없이 얻어진다.

개선예들은 종속 청구항들의 대상이다.

충분한 수의 훈련 데이터에 의하여, 소위 "딥 러닝" 방법, 즉 (심층) 인공 신경망이, 입력 공간(V₀)과 출력 공간(V_k) 사이의 맵핑을 효율적으로 결정하기 위해 사용될 수 있다. 이는 예를 들어 센서 데이터, 특히 이미지 데이터의 분류, 즉 센서 데이터 또는 이미지 데이터로부터 클래스로의 맵핑일 수 있다. 이는 k-1개의 숨겨진 공간(V₁,..., V_k-1)들을 제공하는 접근법을 기반으로 한다. 또한, k개의 맵핑[

(i = 1...k)]들이 이러한 공간들 사이에 제공된다. 이러한 각각의 맵핑(

)은 일반적으로 레이어(layer)로 불린다. 일반적으로, 이러한 레이어(

)는 적절하게 선택된 공간(

)에 대한 가중치(

)들을 통해 파라미터화된다. k개의 레이어(

)들의 가중치(w₁,..., w_k)들은 요약하면, 가중치(w ∈

)들로도 불리며, 입력 공간(V₀)으로부터 출력 공간(V_k)으로의 맵핑은

라고 하고, 이는 [아래 첨자로 명시적으로 표시된 가중치(w_i)들에 대한] 개별 맵핑(

)으로부터,

로서 얻어진다.

V₀ x V_k로 정의된 주어진 확률 분포(D)에 의하여, 신경망 훈련의 과제는 비용 함수(L)의 기대값(Ф)이

와 같이 최소화되도록 가중치(w ∈ W)들을 결정하는 것이다. 이 경우, 비용 함수(L)는, 출력 공간(V_k) 내의 변수[

(x_D)]에 대한 입력 변수(x_D)의, 함수(

)에 의해 결정된 맵핑과, 출력 공간(V_k) 내의 실제 출력 변수(y_D) 사이의 간격에 대한 척도를 나타낸다.

"심층 신경망"이란 2개 이상의 숨겨진 레이어(hidden layer)들을 갖는 신경망을 의미할 수 있다.

이러한 기대값(Φ)을 최소화하기 위해, 가중치(w)들에 대한 기울기(

)를 결정하는 기울기 기반 방법이 사용될 수 있다. 일반적으로, 이러한 기울기(

)는 훈련 데이터(x_j, y_j), 즉

을 통해 근사화되고, 인덱스(j)는 소위 에포크로부터 선택된다. 이 경우, 에포크는 사용 가능한 훈련 데이터 포인트의 라벨{1,..., N}들의 순열이다.

훈련 데이터 세트를 확장하기 위해, 소위 데이터 증강(증강이라고도 불림)이 사용될 수 있다. 이 경우, 에포크로부터의 각각의 인덱스(j)에 대해, 쌍(x_j, y_j) 대신에 증강된 쌍(x_a, y_j)이 선택될 수 있으며, 여기서 입력 신호(x_j)는 증강된 입력값[x_a ∈ α(x_j)]으로 대체된다. 이 경우, α(x_j)는, 입력 신호(x_j)의 분류, 즉 신경망의 출력 신호를 변화하지 않도록 두는, 입력 신호(x_j)의 통상적인 변동들의 집합일 수 있다[입력 신호(x_j) 자체 포함].

그러나, 이러한 에포크 기반 샘플링은 각각의 데이터 포인트가 에포크 과정에서 정확히 한번 선택되기 때문에 수학식(1)의 정의와 완전히 일치하지는 않는다. 반면, 수학식(1)의 정의는 독립적으로 추출된 데이터 포인트들을 기반으로 한다. 즉, 수학식(1)은 데이터 포인트의 "복원" 추출을 가정하는 반면, 에포크 기반 샘플링은 데이터 포인트의 "비복원" 추출을 실행한다. 이는 수학적 수렴 증명의 전제 조건이 주어지지 않도록 유도할 수 있다[N개의 데이터 포인트의 집합으로부터 N개의 예시가 추출되면, 이러한 데이터 포인트들 각각을 정확히 한번 추출할 확률은

(N>2 인 경우)보다 낮은 반면, 에포크 기반 샘플링에서의 이러한 확률은 항상 1과 같기 때문이다].

데이터 증강이 사용되면, 각각의 에포크 내에 집합[α(x_j)]의 요소가 존재하게 되고, 증강 함수(α)에 따라서는,

(

인 경우)라는 것이 배제될 수 없기 때문에, 이러한 통계적 효과는 더 보강될 수 있다. 이 경우, 이러한 효과가 각각의 입력 데이터(x_j)에 대해 동일하게 나타날 필요가 없으므로, 집합 α(x_j)에 의한 증강의 통계적으로 정확한 맵핑이 어렵다. 이와 같이, 예를 들어 회전은 원형 대상물에는 영향을 미칠 수 없지만, 일반적인 물체에는 매우 강력한 영향을 미칠 수 있다. 따라서, 집합[α(x_j)]의 변수는 입력 일자(x_j)에 따를 수 있는데, 이는 적대적 훈련 방법에 문제가 될 수 있다.

결국, 훈련 데이터 포인트의 수(N)는 대개, 설정하기 복잡한 변수이다. N이 너무 크게 선택되면, 훈련 방법의 실행 시간이 과도하게 연장될 수 있으며, N이 너무 작게 선택되면, 수렴이 보장될 수 없는데, 이는 수렴의 수학적 증명이 일반적으로, 이때 충족되지 않는 가정에 기인하기 때문이다. 또한, 어느 시점에 훈련이 신뢰 가능하게 종료되어야 하는지가 명확하지 않다. 평가 데이터 세트로서 데이터 포인트의 일부를 취하고, 이러한 평가 데이터 세트를 사용하여 수렴의 품질을 결정하면, 이는 평가 데이터 세트의 데이터 포인트와 관련하여 가중치(w)의 과적합(over-fitting)이 발생하도록 유도할 수 있는데, 이는 데이터 효율을 저하시킬 뿐만 아니라, 훈련 데이터 이외의 것에 적용될 때 네트워크 성능을 저하시킬 수도 있다. 이는 소위 "일반화 가능도(generalizability)"의 감소를 유도할 수 있다.

과적합을 감소시키기 위해, 도입부에 언급한 "드롭아웃" 방법을 사용하여, 숨겨진 레이어에 저장된 정보가 무작위로 솎아내어질 수 있다.

훈련 과정의 무작위화를 개선하기 위해, 소위 배치 정규화 레이어(batch normalization layer)의 사용을 통해, 훈련 과정 중에 확률적으로 업데이트되는 소위 미니 배치(mini batch)에 대한 통계 파라미터(μ 및 σ)들이 도입될 수 있다. 추론에서, 이러한 파라미터(μ 및 σ)들의 값들은 고정적으로 사전 결정 가능한 값들로서, 예를 들어 지수 감쇠 거동의 외삽을 통한 훈련으로부터의 추정값들로서 선택된다.

인덱스(i)를 갖는 레이어가 배치 정규화 레이어인 경우, 관련 가중치[w_i = (μ_i, σ_i)]들은 기울기 하강 시에 업데이트되지 않고, 즉 이에 따라 이러한 가중치(w_i)들은 다른 레이어(k)들의 가중치(w_k)들과는 다르게 처리된다. 이는 구현의 복잡성을 증가시킨다.

또한, 미니 배치의 크기는, 일반적으로 훈련 결과에 영향을 미치는 파라미터이고, 이에 따라 예를 들어 (경우에 따라서는 복잡한) 아키텍처 검색의 범주에서 추가의 하이퍼 파라미터로서 가능한 양호하게 설정되어야 한다.

따라서, 제1 양태에서, 본 발명은 특히 물리적 측정 변수의 분류를 위해 구성된 신경망 훈련 방법에 관한 것이며, 이러한 신경망은 훈련 데이터 세트(X)를 사용하여 훈련되고, 훈련을 위해 입력 신호 및 원하는 관련 출력 신호를 포함하는 쌍들이 훈련 데이터 세트로부터 (무작위로) 추출되며, 입력 신호 및 원하는 출력 신호가 공급될 때 신경망의 출력 신호에 따른 신경망의 파라미터들의 매칭이 실행되고, 이러한 쌍들의 추출은 항상 전체 훈련 데이터 세트로부터 실행된다.

이러한 양태의 바람직한 일 개선예에서, 쌍들의 추출은, 훈련 과정에서 이전에 어떤 쌍들이 추출되었는지와는 관계없이 실행된다.

환언하면, 훈련 데이터 세트로부터의 쌍들, 즉 데이터 포인트들의 샘플링은 "복원 추출"에 상응한다. 이는, 훈련 데이터 세트의 훈련 예제가 "비복원 추출"에 의해 추출되는 기존의 패러다임을 깨뜨린다. 이러한 "복원 추출"은, 주어진 수의 훈련 예제 내에서 각각의 데이터 포인트가 훈련 데이터 세트로부터 실제로 사용되도록 보장될 수 없기 때문에 처음에는 불리한 것으로 나타날 수 있다.

그 결과, 훈련된 시스템의 신뢰성이 보장 가능한데, 이는 특히 안전이 중요한 적용예에 필수적이다. 놀랍게도, 이러한 장점은 훈련 종료 시에 달성 가능한 (예를 들어, 이미지 분류 시의) 성능의 저하를 감수할 필요없이 얻어진다. 또한, 신경망이 훈련 가능하게 하는 훈련 시스템의 다른 하위 블록에 대한 인터페이스가 매우 단순화된다.

이 경우, 추출된 쌍들은 선택적으로 추가로 증강될 수 있다. 즉, (쌍의 구성 요소로서) 훈련 데이터 세트에 포함된 입력 신호의 일부 또는 전부에 대해, 입력 신호가 적용될 수 있는 증강 함수의 집합이 제공될 수 있다. 상응하는 증강 함수의 선택은 마찬가지로 무작위로, 바람직하게는 어떤 쌍 및/또는 어떤 증강 함수가 훈련 과정에서 이전에 추출되었는지와는 무관하게 실행될 수 있다.

일 개선예에서는, 이 경우 추출된 쌍의 입력 신호가 증강 함수(α_i)에 의해 증강될 수 있고, 즉 입력 신호가 증강 함수 하에 자신의 이미지로 대체될 수 있다.

이 경우 바람직하게, 증강 함수(α_i)는 가능한 증강 함수의 집합(α)으로부터 특히 무작위로 선택되고, 이러한 집합은 입력 신호에 따른다.

이 경우, 훈련 데이터 세트로부터 쌍을 무작위로 추출할 때는, 사전 결정 가능한 쌍이 추출될 확률이, 이러한 사전 결정 가능한 쌍의 입력 신호의 가능한 증강 함수(α)의 수에 따를 수 있다.

예를 들어 확률은 사전 결정 가능한 변수일 수 있다. 특히, 확률은 바람직하게는 가능한 증강 함수의 수에 비례하도록 선택된다. 이는, 몇몇 증강 함수가 입력 신호를 변화하지 않도록 두는 것을 적절하게 고려함으로써, 증강 함수의 집합의 기수(즉, 집합의 요소들의 수)가 입력 신호들 사이에서 매우 상이할 수 있는 것을 가능하게 한다. 이러한 적절한 고려를 통해, 적대적 훈련 방법에서의 발생 가능한 문제가 방지될 수 있다. 이는 하기와 같은 의미를 가질 수 있다. 입력 신호가 주어질 때, 적대적 훈련 방법에서는 적절한 증강 함수를 사용하여, 최대 간격(r)보다 더 작은 충분히 작은 간격을 주어진 입력 신호로부터 갖게되는 적대적 입력 신호가 생성될 수 있다. 서로 작은 간격(최대 간격의 두 배 미만)을 갖는 2개의 입력 신호들이 허용되는 경우, 적대적 입력 신호들의 집합들이 중첩될 수 있으므로, 이러한 중첩이 적절히 고려되지 않는다면 적대적 훈련 방법이 과대 대표될 수 있다. 이는 언급한 방법을 실행한다.

개선예들의 추가의 일 양태에서, 파라미터의 매칭은 결정된 기울기에 따라 실행되고, 기울기의 결정을 위해 기울기의 추정값(m₁)이, 훈련 데이터 세트로부터 추출된 쌍들의 연속적으로 증가하는 수의 고려를 통해, 기울기의 추정값(m₁)에 따르는 사전 결정 가능한 중단 조건이 충족될 때까지 정제된다.

이는 특히, 사전 결정 가능한 중단 조건이 충족된 이후에야 파라미터의 매칭이 실행됨을 의미한다.

이는, 예를 들어 항상 기울기의 평균화가 사전 결정 가능한 미니 배치를 통해 발생하는 확률적 기울기 하강(stochastic gradient descent)과 같은 종래 기술로부터의 일반적인 방법과는 대조적이다. 이러한 미니 배치는 하이퍼 파라미터로서 설정될 수 있는 사전 결정 가능한 크기를 갖는다. 훈련 데이터 세트로부터 쌍들을 연속적으로 추가함으로써, 제안된 방법에서는 기울기가 확실히 상승 방향을 가리킬 때까지 결정을 실행하는 것이 가능하다.

또한, 미니 배치의 크기는 최적화될 하이퍼 파라미터이다. 이러한 최적화가 생략될 수 있음으로써, 과적합이 더 효과적으로 억제될 수 있고 하이퍼 파라미터로서의 배치 크기가 생략되기 때문에 이러한 방법은 더 효율적이고 더 신뢰 가능하다.

특히, 사전 결정 가능한 중단 조건은 기울기의 추정값(m₁)의 공분산 행렬(C)에도 따를 수 있다.

이를 통해, 기울기가 확실히 상승 방향을 가리키는 것을 특히 간단하게 보장할 수 있다.

예를 들어, 사전 결정 가능한 중단 조건은, 사전 결정 가능한 신뢰도 값(λ)에 대한 추정값(m₁) 및 공분산 행렬(C)이 조건

을 충족하는지 여부에 대한 조건을 포함할 수 있다.

즉, 이러한 조건에 의해서는 확률적 중단 기준이 도입된다. 이로 인해, 신뢰도 값(λ)을 갖는 기울기가 상승 방향을 가리키는 것을, 사전 결정 가능한 신뢰도로 보장하는 것도 가능하다.

개선예들의 다른 일 양태에서는, 결정된 기울기의 구성 요소가, 이러한 구성 요소에 상응하는 파라미터가 신경망의 어느 레이어에 속하는지에 따라 스케일링될 수 있다.

이러한 맥락에서, "스케일링"은, 결정된 기울기의 구성 요소들에, 레이어에 따른 계수가 곱해지는 것을 의미할 수 있다.

특히, 스케일링은 신경망 내에서의 이러한 레이어의 위치, 즉 깊이에 따라 실행될 수 있다.

예를 들어, 이러한 깊이는, 신경망의 입력 레이어에 공급된 신호가 처음으로 입력 신호로서 이러한 레이어에 위치하기 이전에 전파되어야 하는 레이어들의 수를 통해 특성화되고, 특히 주어질 수 있다.

일 개선예에서, 스케일링은 결정된 기울기의 상응하는 구성 요소가 특징 맵의 어느 특징에 속하는지에 따라서도 실행될 수 있다.

특히, 이러한 스케일링은 이러한 특징의 수용장의 크기에 따라 실행될 수 있다.

특히 컨볼루션 네트워크에서 특징 맵의 가중치들에 수용장의 특징의 정보가 누적식으로 곱해지므로, 이러한 가중치들에 대해 과적합이 발생할 수 있는 것으로 나타난다. 이는 제안된 방법으로 효과적으로 방지된다.

특히 간단하고 효율적인 대안에서, 스케일링은 이러한 레이어의 해상도에 따라 실행될 수 있다. 특히, 스케일링은 이러한 레이어의 해상도와 입력 레이어의 해상도의 비율에 따라 실행된다.

이로 인해 수용장의 크기가 매우 간단하고 효율적으로 근사화될 수 있는 것으로 나타난다.

개선예들의 다른 일 양태에서, 신경망은 스케일링 레이어를 포함하고, 스케일링 레이어는 스케일링 레이어의 입력에 위치하는 입력 신호를 스케일링 레이어의 출력에 위치하는 출력 신호로 맵핑함으로써, 출력에 위치하는 출력 신호가 입력 신호의 리스케일링된 신호를 나타내도록 하고, 리스케일링을 특성화하는 파라미터는 고정적으로 사전 결정 가능하다.

이 경우 바람직하게, 스케일링 레이어는 스케일링 레이어의 입력에 위치하는 입력 신호를 스케일링 레이어의 출력에 위치하는 출력 신호로 맵핑함으로써, 이러한 맵핑이 구(ball)에 대한 투영에 상응하도록 하고, 이러한 구의 중심(c) 및/또는 반경(ρ)은 고정적으로 사전 결정될 수 있다. 대안적으로, 이러한 파라미터가 훈련 동안 신경망의 다른 파라미터와 마찬가지로 매칭되는 것도 가능하다.

이 경우, 맵핑은 제1 노름(N₁) 및 제2 노름(N₂)에 의해 수학식

를 통하여 제공될 수 있다. 이 경우, 용어 "노름(norm)"은 수학적 의미를 갖는다.

특히 효율적으로 연산될 개선예에서는 제1 노름(N₁)과 제2 노름(N₂)이 동일하게 선택될 수 있다.

대안적으로 또는 추가적으로, 제1 노름(N₁)은 L^∞노름일 수 있다. 이러한 노름은 특히 제1 노름(N₁)과 제2 노름(N₂)이 동일하지 않게 선택되지 않은 경우에도 마찬가지로 특히 효율적으로 연산될 수 있다.

대안적으로, 제1 노름(N₁)은 L¹ 노름일 수 있다. 이러한 제1 노름의 선택은 스케일링 레이어의 출력 신호의 희소성(sparsity)에 유리하게 작용한다. 예를 들어, 이는 0의 값을 갖는 가중치들이 자신의 레이어의 출력값에 기여하지 않으므로, 신경망의 압축을 위해 바람직하다.

따라서, 이러한 유형의 레이어를 갖는 신경망은 특히 압축 방법과 관련하여 특히 메모리 측면에서 효율적으로 사용될 수 있다.

제1 노름(N₁)에 대해 설명된 변형예에서 바람직하게는 제2 노름(N₂)이 L² 노름일 수 있다. 따라서, 방법이 특히 쉽게 구현될 수 있다.

이 경우, 수학식 y =

의 해가 결정론적 뉴턴 방법을 사용하여 구해지는 경우가 특히 바람직하다.

즉, 놀랍게도, 이러한 방법은 중요한, 즉 높은 가중치가 부여된 복수의 특징들을 갖는 입력 신호가 스케일링 레이어의 입력에 위치하는 경우에 특히 효율적인 것으로 나타난다.

본 발명의 실시예는 첨부 도면들을 참조하여 하기에 더 구체적으로 설명된다.

도 1은 제어 시스템의 일 실시예의 구조를 개략적으로 도시하고,
도 2는 적어도 부분 자율형인 로봇을 제어하기 위한 일 실시예를 개략적으로 도시하고,
도 3은 제조 시스템을 제어하기 위한 일 실시예를 개략적으로 도시하고,
도 4는 개인용 어시스턴트를 제어하기 위한 일 실시예를 개략적으로 도시하고,
도 5는 액세스 시스템을 제어하기 위한 일 실시예를 개략적으로 도시하고,
도 6은 모니터링 시스템을 제어하기 위한 일 실시예를 개략적으로 도시하고,
도 7은 의료 영상 시스템을 제어하기 위한 일 실시예를 개략적으로 도시하고,
도 8은 훈련 시스템을 개략적으로 도시하고,
도 9는 신경망의 구조를 개략적으로 도시하고,
도 10은 신경망 내부의 정보 전달을 개략적으로 도시하고,
도 11은 훈련 방법의 일 실시예를 흐름도로 도시하고,
도 12는 기울기를 추정하기 위한 방법의 일 실시예를 흐름도로 도시하고,
도 13은 기울기를 추정하기 위한 방법의 대안적인 일 실시예를 흐름도로 도시하고,
도 14는 추정된 기울기를 스케일링하기 위한 방법의 일 실시예를 흐름도로 도시하고,
도 15는 신경망 내부의 스케일링 레이어를 구현하기 위한 실시예를 흐름도로 도시하고,
도 16은 훈련된 신경망을 작동하기 위한 방법을 흐름도로 도시한다.

도 1은 제어 시스템(40)과 상호 작용하는 작동기(10)의 주변부(20)를 도시한다. 작동기(10) 및 주변부(20)는 공동으로 작동기 시스템이라고도 불린다. 바람직하게는 일정한 시간 간격으로, 작동기 시스템의 상태가 센서(30)에 의해 감지되며, 이러한 상태는 복수의 센서들에 의해 제공될 수도 있다. 센서(30)의 센서 신호(S)[또는 복수의 센서들의 경우 각각 하나의 센서 신호(S)]가 제어 시스템(40)으로 전송된다. 이에 따라, 제어 시스템(40)은 일련의 센서 신호(S)들을 수신한다. 이로부터, 제어 시스템(40)은 작동기(10)로 전달되는 제어 신호(A)를 결정한다.

센서(30)는, 주변부(20)의 상태를 감지하여 센서 신호(S)로서 전송하는 임의의 센서이다. 이는 예를 들어 영상 센서, 특히 이미지 센서 또는 비디오 센서와 같은 광학 센서이거나, 레이더 센서 또는 초음파 센서 또는 LiDAR 센서일 수 있다. 이는, 예를 들어 고체 음파 또는 음성 신호를 수신하는 음향 센서일 수도 있다. 마찬가지로, 이러한 센서는 (예를 들어 GPS와 같은) 위치 센서이거나, 운동 센서(예를 들어 단축형 또는 다축형 가속도 센서)일 수도 있다. 주변부(20) 내의 작동기(10)의 배향을 특성화하는 센서(예를 들어 나침반)도 가능하다. 주변부(20)의 화학적 조성을 감지하는 센서, 예를 들어 람다 센서도 가능하다. 대안적으로 또는 추가적으로, 센서(30)는, 예를 들어 주변부(20) 내의 날씨의 현재 또는 미래 상태를 결정하는 기상 정보 시스템과 같은 작동기 시스템의 상태에 대한 정보를 결정하는 정보 시스템도 포함할 수 있다.

제어 시스템(40)은 일련의 센서 신호(S)들을 일련의 입력 신호(x)들로 변환하는 선택적 수신 유닛(50) 내에서 센서(30)의 일련의 센서 신호(S)들을 수신한다[대안적으로는, 직접적으로 각각 센서 신호(S)가 입력 신호(x)로서 채택될 수도 있다]. 입력 신호(x)는 예를 들어 센서 신호(S)의 일부이거나 추가 처리물일 수 있다. 입력 신호(x)는 예를 들어 이미지 데이터 또는 이미지를 포함하거나, 비디오 기록의 개별 프레임들을 포함할 수 있다. 환언하면, 입력 신호(x)는 센서 신호(S)에 따라 결정된다. 입력 신호(x)는 신경망(60)에 공급된다.

바람직하게, 신경망(60)은, 예를 들어 파라미터 메모리(P)에 저장되고 이로부터 제공되는 가중치(w)들을 포함하는 파라미터(θ)에 의해 파라미터화된다.

신경망(60)은 입력 신호(x)로부터 출력 신호(y)를 결정한다. 일반적으로, 출력 신호(y)는 입력 신호(x)의 분류 정보를 인코딩한다. 출력 신호(y)는 선택적 변환 유닛(80)에 공급되고, 이러한 선택적 변환 유닛은, 작동기(10)를 상응하게 제어하기 위하여 작동기(10)에 공급되는 제어 신호(A)를 이로부터 결정한다.

예를 들어, 신경망(60)은, 입력 신호 내에서 사람 및/또는 거리 표지판 및/또는 신호등 및/또는 차량을 감지하도록(즉, 그들이 존재하는지 아닌지를 분류하도록) 그리고/또는 그들의 유형에 따라 분류하도록(이는 의미론적인 세그먼트화의 형태로서 영역별로, 특히 픽셀별로 실행될 수 있다) 구성될 수 있다.

작동기(10)는 제어 신호(A)를 수신하고, 그에 상응하게 제어되며, 상응하는 작용을 실행한다. 이 경우, 작동기(10)는 (구조적으로 통합될 필요는 없는) 제어 로직을 포함할 수 있으며, 이러한 제어 로직은 제어 신호(A)로부터 제2 제어 신호를 결정하고, 이후 제2 제어 신호에 의해 작동기(10)가 제어된다.

다른 실시예에서, 제어 시스템(40)은 센서(30)를 포함한다. 또 다른 실시예에서, 제어 시스템(40)은 대안적으로 또는 추가적으로 작동기(10)도 포함한다.

다른 바람직한 실시예에서, 제어 시스템(40)은 하나 또는 복수의 프로세서(45)와; 프로세서(45)에서 실행될 때 제어 시스템(40)으로 하여금 제어 시스템(40)의 작동 방법을 실행하도록 하는 명령이 저장되는 하나 이상의 머신 판독 가능한 저장 매체(46);를 포함한다.

대안적인 실시예에서는, 작동기(10)에 대안적으로 또는 추가적으로 디스플레이 유닛(10a)이 제공된다.

도 2는 제어 시스템(40)이, 적어도 부분 자율형인 로봇, 여기서는 적어도 부분적으로 자동화된 자동차(100)를 제어하는데 사용되는 일 실시예를 도시한다.

센서(30)는 도 1과 관련하여 언급된 센서들 중 하나의 센서일 수 있으며, 바람직하게는 바람직하게 자동차(100) 내에 배열된 하나 또는 복수의 비디오 센서 및/또는 하나 또는 복수의 레이더 센서 및/또는 하나 또는 복수의 초음파 센서 및/또는 하나 또는 복수의 LiDAR 센서 및/또는 하나 또는 복수의 위치 센서(예를 들어 GPS)일 수 있다.

신경망(60)은 입력 데이터(x)로부터, 예를 들어 적어도 부분 자율형인 로봇의 주변부의 대상물을 검출할 수 있다. 출력 신호(y)는, 적어도 부분 자율형인 로봇의 주변부에서 대상물이 존재하는 위치를 특성화하는 정보일 수 있다. 이때, 출력 신호(A)는 이러한 정보에 따라 그리고/또는 이러한 정보에 상응하게 결정될 수 있다.

바람직하게 자동차(100) 내에 배열된 작동기(10)는 예를 들어 자동차(100)의 브레이크, 구동 장치 또는 조향 장치일 수 있다. 이때, 제어 신호(A)는, 자동차(100)가 예를 들어, 신경망(60)에 의해 식별된 대상물이 특히 특정 클래스의 대상물, 예를 들어 보행자인 경우, 이러한 대상물과의 충돌을 방지하는 방식으로 작동기(들)(10)가 제어되도록 결정될 수 있다. 환언하면, 제어 신호(A)는 결정된 클래스에 따라 그리고/또는 결정된 클래스에 상응하게 결정될 수 있다.

대안적으로, 적어도 부분 자율형인 로봇은 다른 이동형 로봇(도시되지 않음), 예를 들어 비행, 수영, 잠수 또는 보행에 의해 이동하는 이동형 로봇일 수도 있다. 이동형 로봇은 예를 들어 적어도 부분 자율형인 잔디 깎이 또는 적어도 부분 자율형인 청소 로봇일 수 있다. 이러한 경우에도, 제어 신호(A)는, 적어도 부분 자율형인 로봇이 예를 들어 신경망(60)에 의해 식별된 대상물과의 충돌을 방지하는 방식으로 이동형 로봇의 구동 장치 및/또는 조향 장치가 제어되도록 결정될 수 있다.

다른 대안에서, 적어도 부분 자율형인 로봇은, 영상 센서(30) 및 신경망(60)에 의해 주변부(20) 내의 식물의 유형 또는 상태를 결정하는 원예 로봇(도시되지 않음)일 수도 있다. 이때, 작동기(10)는 예를 들어 화학 약품 도포기일 수 있다. 제어 신호(A)는, 식물의 결정된 유형 또는 결정된 상태에 상응하는 화학 약품량이 제공되는 방식으로, 이러한 결정된 유형 또는 결정된 상태에 따라 결정될 수 있다.

또 다른 대안에서, 적어도 부분 자율형인 로봇은 가전 기기(도시되지 않음), 특히 세탁기, 레인지, 오븐, 전자 레인지 또는 식기 세척기일 수도 있다. 센서(30), 예를 들어 광학 센서에 의해, 가전 기기에 의해 처리된 물체의 상태가, 예를 들어 세탁기의 경우에는 세탁기 내에 위치한 세탁물의 상태가 감지될 수 있다. 이때, 신경망(60)에 의해 이러한 물체의 유형 또는 상태가 결정될 수 있고, 출력 신호(y)에 의해 특성화될 수 있다. 이때, 제어 신호(A)는, 가전 기기가 물체의 결정된 유형 또는 결정된 상태에 따라 제어되는 방식으로 결정될 수 있다. 예를 들어, 세탁기의 경우, 이는 내부에 위치한 세탁물이 어떤 재료로 이루어져 있는지에 따라 제어될 수 있다. 이때, 제어 신호(A)는 어떤 재료의 세탁물이 결정되었는지에 따라 선택될 수 있다.

도 3은, 제조 기계(11)를 제어하는 작동기(10)가 제어됨으로써 제어 시스템(40)이 제조 시스템(200)의 제조 기계(11)를 제어하는데 사용되는 일 실시예를 도시한다. 제조 기계(11)는 예를 들어 펀칭, 소잉, 드릴링 및/또는 절단을 위한 기계일 수 있다.

센서(30)는 도 1과 관련하여 언급된 센서들 중 하나의 센서, 바람직하게는 예를 들어 제조 생산품(12)의 특성을 감지하는 광학 센서일 수 있다. 제조 기계(11)가 상응하게 제조 생산품(12)의 후속 처리 단계를 실행하도록, 제조 기계(11)를 제어하는 작동기(10)가 이러한 제조 생산품(12)의 결정된 특성에 따라 제어되는 것이 가능하다. 센서(30)가 제조 기계(11)에 의해 처리된 제조 생산품(12)의 특성을 결정하고, 그에 따라 후속 제조 생산품에 대한 제조 기계(11)의 제어를 매칭시키는 것도 가능하다.

도 4는 제어 시스템(40)이 개인용 어시스턴트(250)를 제어하는데 사용되는 일 실시예를 도시한다. 센서(30)는 도 1과 관련하여 언급된 센서들 중 하나의 센서일 수 있다. 센서(30)는 바람직하게는 사용자(249)의 음성 신호를 수신하는 음향 센서이다. 대안적으로 또는 추가적으로, 센서(30)는 광학 신호, 예를 들어 사용자(249)의 제스처의 비디오 이미지를 수신하도록 구성될 수도 있다.

센서(30)의 신호에 따라, 예를 들어 신경망이 제스처 인식을 실행함으로써, 제어 시스템(40)은 개인용 어시스턴트(250)의 제어 신호(A)를 결정한다. 이때, 개인용 어시스턴트(250)에는 이러한 결정된 제어 신호(A)가 전송되고, 이에 따라 개인용 어시스턴트는 상응하게 제어된다. 이러한 결정된 제어 신호(A)는 특히, 사용자(249)를 통한 원하는 추정된 제어에 상응하도록 선택될 수 있다. 이러한 원하는 추정된 제어는 신경망(60)에 의해 인식되는 제스처에 따라 결정될 수 있다. 이때, 제어 시스템(40)은 원하는 추정된 제어에 따라, 개인용 어시스턴트(250)로의 전송을 위한 제어 신호(A)를 선택할 수 있고 그리고/또는 개인용 어시스턴트로의 전송을 위한 제어 신호(A)를, 원하는 추정된 제어(250)에 상응하게 선택할 수 있다.

예를 들어, 이러한 상응하는 제어는, 개인용 어시스턴트(250)가 데이터 베이스로부터 정보를 호출하고 이를 사용자(249)가 이해 가능하도록 재현하는 것을 포함할 수 있다.

개인용 어시스턴트(250) 대신에, 가전 기기(도시되지 않음), 특히 세탁기, 레인지, 오븐, 전자 레인지 또는 식기 세척기가 상응하게 제어되도록 제공될 수도 있다.

도 5는 제어 시스템(40)이 액세스 시스템(300)을 제어하는데 사용되는 일 실시예를 도시한다. 액세스 시스템(300)은 물리적 액세스 제어, 예를 들어 도어(401)를 포함할 수 있다. 센서(30)는 도 1과 관련하여 언급된 센서들 중 하나의 센서, 바람직하게는 안면을 감지하도록 구성된 (예를 들어, 이미지 데이터 또는 비디오 데이터를 감지하기 위한) 광학 센서일 수 있다. 신경망(60)에 의해, 이러한 감지된 이미지는 해석될 수 있다. 예를 들어, 사람의 신원이 결정될 수 있다. 작동기(10)는, 제어 신호(A)에 따라 액세스 제어를 해제하거나 해제하지 않는, 예를 들어 도어(401)를 개방하거나 개방하지 않는 로킹 장치일 수 있다. 이를 위해, 제어 신호(A)는 신경망(60)의 해석에 따라, 예를 들어 사람의 결정된 신원에 따라 선택될 수 있다. 물리적 액세스 제어 대신 논리적 액세스 제어가 제공될 수도 있다.

도 6은 제어 시스템(40)이 모니터링 시스템(400)을 제어하는데 사용되는 일 실시예를 도시한다. 이러한 실시예는, 제어 시스템(40)에 의해 제어되는 디스플레이 유닛(10a)이 작동기(10) 대신 제공된다는 점에서 도 5에 도시된 실시예와는 상이하다. 예를 들어, 신경망(60)에 의해서는, 광학 센서에 의해 포착된 대상물이 의심스러운지 여부가 결정될 수 있고, 이때 제어 신호(A)는 이러한 대상물이 디스플레이 유닛(10a)에 의해 색상으로 강조 표시되도록 선택될 수 있다.

도 7은 제어 시스템(40)이 의료 영상 시스템(500), 예를 들어 MRT 장치, X레이 장치 또는 초음파 장치를 제어하는데 사용되는 일 실시예를 도시한다. 센서(30)는 예를 들어 영상 센서를 통해 제공될 수 있으며, 디스플레이 유닛(10a)은 제어 시스템(40)에 의해 제어된다. 예를 들어, 신경망(60)에 의해서는 영상 센서에 의해 포착된 영역이 눈에 띄는지 여부가 결정될 수 있고, 이때 제어 신호(A)는 이러한 영역이 디스플레이 유닛(10a)에 의해 색상으로 강조 표시되도록 선택될 수 있다.

도 8은 훈련 방법에 의해 신경망(60)을 훈련하기 위한 훈련 시스템(140)의 일 실시예를 개략적으로 도시한다. 훈련 데이터 유닛(150)은 신경망(60)에 공급되는 적절한 입력 신호(x)를 결정한다. 예를 들어, 훈련 데이터 유닛(150)은 훈련 데이터 세트가 저장된 컴퓨터 구현식 데이터 베이스에 액세스하고, 예를 들어 훈련 데이터 세트로부터 입력 신호(x)를 무작위로 선택한다. 선택적으로, 훈련 데이터 유닛(150)은 입력 신호(x)에 할당된 원하는 또는 "실제의" 출력 신호(y_T)도 결정하고, 이러한 출력 신호는 평가 유닛(180)에 공급된다.

인공 신경망(x)은 자신에게 공급된 입력 신호(x)로부터 관련 출력 신호(y)를 결정하도록 구성된다. 이러한 출력 신호(y)는 평가 유닛(180)에 공급된다.

평가 유닛(180)은 예를 들어, 출력 신호(y) 및 원하는 출력 신호(y_T)에 따른 손실 함수(loss function)(

)에 의해 신경망(60)의 성능을 특성화할 수 있다. 파라미터(θ)는 손실 함수(

)에 따라 최적화될 수 있다.

다른 바람직한 실시예에서, 훈련 시스템(140)은 하나 또는 복수의 프로세서(145)와; 프로세서(145)에서 실행될 때 제어 시스템(140)으로 하여금 훈련 방법을 실행하도록 하는 명령이 저장되는 하나 이상의 머신 판독 가능한 저장 매체(146);를 포함한다.

도 9는 본 실시예에서 신경망으로서 제공되는 신경망(60)의 가능한 구조를 예시적으로 도시한다. 입력 레이어(S₁)의 입력에 공급되는 입력 신호(x)로부터, 출력 레이어(S₅)의 출력에 위치하는 출력 신호(y)를 결정하기 위해, 신경망은 복수의 레이어(S₁, S₂, S₃, S₄, S₅)들을 포함한다. 이 경우, 레이어(S₁, S₂, S₃, S₄, S₅)들 각각은, 각각의 레이어(S₁, S₂, S₃, S₄, S₅)의 입력에 위치하는 (경우에 따라서는 다차원의) 입력 신호(x, z₁, z₃, z₄, z₆)로부터, 각각의 레이어(S₁, S₂, S₃, S₄, S₅)의 출력에 위치하는 (경우에 따라서는 다차원의) 출력 신호(z₁, z₂, z₄, z₅, y)를 결정하도록 구성된다. 이러한 출력 신호는 특히 이미지 처리에서 특징 맵(feature map)으로도 불린다. 이 경우에는, 입력 신호로서 추가 레이어들 내로 입력되는 모든 출력 신호들이 각각 이전 레이어로부터 바로 후속하는 레이어 내로 입력되도록 레이어(S₁, S₂, S₃, S₄, S₅)들이 배열될 필요가 없다. 대신, 가교형 연결(Skip Connections) 또는 순환형 연결도 가능하다. 마찬가지로, 입력 신호(x)가 복수의 레이어들 내로 입력되거나 신경망(60)의 출력 신호(y)가 복수의 레이어의 출력 신호들로 구성되는 것도 물론 가능하다.

출력 레이어(S₅)는 예를 들어 Argmax 레이어(즉, 각각 할당된 입력값들을 갖는 복수의 입력들로부터, 이들 입력값들 중에서 가장 큰 입력값이 할당된 입력의 식별자를 선택하는 레이어)를 통해 제공될 수 있고, 하나 또는 복수의 레이어(S₁, S₂, S₃)는 예를 들어 컨볼루션 레이어를 통해 제공될 수 있다.

바람직하게, 레이어(S₄)는, 출력에 위치하는 출력 신호(y)가 입력 신호(x)의 리스케일링인 방식으로, 스케일링 레이어(S₄)의 입력에 위치하는 입력 신호(x)가 스케일링 레이어(S₄)의 출력에 위치하는 출력 신호(y)로 맵핑되도록 형성된 스케일링 레이어로서 형성되며, 리스케일링을 특성화하는 파라미터는 고정적으로 사전 결정 가능하다. 스케일링 레이어(S₄)가 실행할 수 있는 방법의 실시예는 하기에 도 15와 관련하여 설명된다.

도 10은 신경망(60) 내부의 정보 전달을 개략적으로 도시한다. 여기서, 신경망(60) 내부의 3개의 다차원 신호들, 즉 입력 신호(x) 및 이후의 특징 맵(z₁, z₂)들이 개략적으로 도시된다. 본 실시예에서, 입력 신호(x)는

픽셀들의 공간 해상도,

픽셀들의 제1 특징 맵(z₁),

픽셀들의 제2 특징 맵(z₂)을 갖는다. 본 실시예에서 제2 특징 맵(z₂)의 해상도는 입력 신호(x)의 해상도보다 낮지만, 반드시 그러한 것은 아니다.

또한, 특징, 예를 들어 픽셀, 즉 제2 특징 맵(z₂)의 (i, j)₃가 도시된다. 제1 특징 맵(z₁)으로부터 제2 특징 맵(z₂)을 결정하는 함수가 예를 들어 컨볼루션 레이어 또는 완전 연결 레이어(fully connected layer)를 통해 나타난다면, 제1 특징 맵(z₁)의 복수의 특징들이 이러한 특징[(i, j)₃]의 값의 결정 내로 입력되는 것도 가능하다. 그러나, 제1 특징 맵(z₁)의 단 하나의 특징만이 이러한 특징[(i, j)₃]의 값의 결정 내로 입력되는 것도 물론 가능하다.

이 경우, "입력된다"는 것은 바람직하게는, 입력되는 특징의 값에 특징[(i, j)₃]의 값이 따르는 방식으로, 제2 특징 맵(z₂)이 제1 특징 맵(z₁)으로부터 결정되도록 하는 함수를 특성화하는 파라미터의 값과 제1 특징 맵(z₁) 값의 조합이 존재하는 것을 의미한다. 이러한 입력되는 특징 전체가 도 10에서 영역(Be)으로 불린다.

영역(Be)의 각각의 특징[(i, j)₂]의 결정 내에는, 입력 신호(x)의 하나 또는 복수의 특징이 입력된다. 영역(Be)의 특징[(i, j)₂]들 중 하나 이상의 특징의 결정 내에 입력되는 입력 신호(x)의 모든 특징들의 집합은 특징[(i, j)₃]의 수용장(rF)으로 불린다. 환언하면, 특징[(i, j)₃]의 수용장(rF)은, 특징[(i, j)₃]의 결정 내에 직접적으로 또는 간접적으로(환언하면, 적어도 간접적으로) 입력되는, 즉 그 값이 특징[(i, j)₃]의 값에 영향을 미칠 수 있는 입력 신호(x)의 모든 특징들을 포함한다.

도 11은 일 실시예에 따른 신경망(60)을 훈련하기 위한 방법의 시퀀스를 흐름도로 도시한다.

우선, 입력 신호(x_i) 및 각각 관련된 출력 신호(y_i)의 쌍(xi, yi)들을 포함하는 훈련 데이터 세트(X)가 제공된다(1000). 학습률(η)은 예를 들어 η = 1로 초기화된다.

또한, 예를 들어 본 방법의 이러한 부분의, 도 12에 도시된 실시예가 단계(1100)에서 사용되는 경우, 선택적으로 제1 집합(G) 및 제2 집합(N)이 초기화된다. 본 방법의 이러한 부분의, 도 13에 도시된 실시예가 단계(1100)에서 사용되어야 하는 경우, 제1 집합(G) 및 제2 집합(N)의 초기화는 생략될 수 있다.

제1 집합(G) 및 제2 집합(N)의 초기화는 하기와 같이 실행될 수 있다. 훈련 방법의 현재 에포크 동안 이미 추출된 훈련 데이터 세트(X)의 쌍(x_i, y_i)들을 포함하는 제1 집합(G)은 공집합으로서 초기화된다. 현재 에포크 동안 아직 추출되지 않은 훈련 데이터 세트(X)의 쌍(x_i, y_i)들을 포함하는 제2 집합(N)은, 자신에게 훈련 데이터 세트(X)의 모든 쌍(x_i, y_i)들이 할당됨으로써 초기화된다.

이제, 훈련 데이터 세트(X)의 입력 신호(x_i) 및 각각 관련된 출력 신호(y_i)의 쌍(x_i, y_i)들에 의하여 파라미터(θ)에 대한 특성값(

)의 기울기(g)가 추정되고(1100), 즉

이 적용된다. 이러한 방법의 실시예들은 도 12 및 도 13과 관련하여 설명된다.

이후, 선택적으로 기울기(g)의 스케일링이 실행된다(1200). 이러한 방법의 실시예들은 도 14와 관련하여 설명된다.

이어서, 선택적으로 학습률(η)의 매칭이 실행된다(1300). 여기서, 통과한 에포크의 수가 사전 결정 가능한 에포크 수, 예를 들어 5로 나눠질 수 있는 경우에, 학습률(η)은 예를 들어, 사전 결정 가능한 학습률 감소 계수(Dη)(예를 들어, Dη = 1/10)만큼 감소될 수 있다(즉, η ← η·Dη).

이후, 파라미터(θ)는, 결정된, 그리고 경우에 따라서는 스케일링된 기울기(g) 및 학습률(η)에 의해 업데이트된다(1400). 예를 들어, 파라미터(θ)는 θ - η·g로 대체된다.

이제, 사전 결정 가능한 수렴 기준에 의해, 방법이 수렴되었는지 여부가 검사된다(1500). 예를 들어, (예를 들어, 마지막 두 에포크들 사이에서의) 파라미터(θ)들의 절대적인 변화에 따라, 수렴 기준이 충족되는지 여부가 결정될 수 있다. 예를 들어, 수렴 기준은 마지막 두 에포크들 사이의 모든 파라미터(θ)들의 변화에 대한 L² 노름이, 사전 결정 가능한 수렴 임계값보다 작을 때 정확하게 충족될 수 있다.

수렴 기준이 충족된다고 결정되면, 파라미터(θ)들은 학습된 파라미터로서 채택되고, 방법은 종료된다. 그렇지 않은 경우, 단계(1100)로 돌아가도록 분기된다.

도 12는 단계(1100)에서의 기울기(g)를 결정하기 위한 예시적인 방법을 흐름도로 도시한다.

우선, 훈련 데이터 세트(X)의 쌍(x_i, y_i)의 사전 결정 가능한 수(bs)가 (비복원) 추출되고(1110), 즉 선택되어 배치(batch)(B)에 할당된다. 사전 결정 가능한 수(bs)는 배치 크기(batch size)라고도 불린다. 배치(B)는 공집합으로서 초기화된다.

이를 위해, 배치 크기(bs)가, 제2 집합(N) 내에 존재하는 쌍(x_i, y_i)들의 수보다 큰지 여부가 검사된다(1120).

배치 크기(bs)가, 제2 집합(N) 내에 존재하는 쌍(x_i, y_i)들의 수보다 크지 않을 때, bs개의 쌍(x_i, y_i)들이 제2 집합(N)으로부터 무작위로 추출되고(1130), 즉 선택되고, 배치(B)에 추가된다.

배치 크기(bs)가, 제2 집합(N) 내에 존재하는 쌍(x_i, y_i)들의 수보다 클 때, 그 수가 s로 나타나는 제2 집합(N)의 전체 쌍들이 추출되고(1140), 즉 선택되고, 배치(B)에 추가되며, 나머지의, 즉 bs - s개의 쌍들이 제1 집합(G)으로부터 추출되고, 즉 선택되고, 배치(B)에 추가된다.

모든 파라미터(θ)들에 대하여, 단계(1130) 또는 단계(1140)에 이어서, 이러한 파라미터(θ)가 이러한 훈련 실행에서 제외되어야 하는지 여부가 선택적으로 결정된다(1150). 이를 위해, 예를 들어 각각의 레이어(S₁, S₂,..., S₆)에 대해 별도로, 이러한 레이어의 파라미터(θ)가 제외되는 확률이 지정된다. 예를 들어, 이러한 확률은 제1 레이어(S₁)에 대해서는 50%가 될 수 있으며, 각각의 후속 레이어에서 10%만큼 감소될 수 있다.

이후, 이러한 지정된 각각의 확률에 의해, 파라미터(θ)가 제외될지 여부가 각각의 파라미터에 대해 결정될 수 있다.

배치(B)의 각각의 쌍(x_i, y_i)에 대하여, 이제, 각각의 입력 신호(x_i)가 증강되는지 여부가 선택적으로 결정된다(1155). 증강되어야 할 각각의 상응하는 입력 신호(x_i)에 대해, 바람직하게는 무작위로 증강 함수가 선택되고 입력 신호(x_i)에 적용된다. 이때, 이와 같이 증강된 입력 신호(x_i)는 최초의 입력 신호(x_i)를 대체한다. 입력 신호(x_i)가 이미지 신호인 경우, 증강 기능은 예를 들어 시전 결정 가능한 각도만큼의 회전을 통해 제공될 수 있다.

이어서, 배치(B)의 각 쌍(x_i, y_i)에 대해, 상응하는(그리고 경우에 따라서는 증강된) 입력 신호(x_i)가 선택되고, 신경망(60)에 공급된다(1160). 이 경우, 신경망(60)의 제외될 파라미터(θ)는, 예를 들어 일시적으로 0의 값으로 세팅됨으로써, 상응하는 출력 신호의 결정 동안 비활성화된다. 신경망(60)의 상응하는 출력 신호[y(x_i)]는 상응하는 쌍(x_i, y_i)에 할당된다. 원하는 출력 신호(y_T)로서의 출력 신호[y(x_i)]들 및 쌍(x_i, y_i)의 각각의 출력 신호(y_i)들에 따라, 비용 함수(

)가 각각 결정된다.

이후, 배치(B)의 모든 쌍(x_i, y_i)들에 대해 전체 비용 함수(

)가 공동으로 결정되고, 제외되지 않을 파라미터(θ)들 각각은 기울기(g)의 상응하는 구성 요소를 예를 들어 역전파(backpropagation)에 의해 결정한다(1165). 제외될 각각의 파라미터(θ)들 각각에 대하여, 기울기(g)의 상응하는 구성 요소는 0으로 세팅된다.

이제, 단계(1000) 내의 검사에서, 배치 크기(bs)가, 제2 집합(N) 내에 존재하는 쌍(x_i, y_i)들의 수보다 크다고 확인되었는지 여부가 검사된다(1170).

배치 크기(bs)가, 제2 집합(N) 내에 존재하는 쌍(x_i, y_i)들의 수보다 크지 않다고 확인되면, 배치(B)의 모든 쌍(x_i, y_i)들은 제1 집합(G)에 추가되고, 제2 집합(N)으로부터 제거된다(1180). 이제, 제2 집합(N)이 공집합인지 여부가 검사된다(1185). 제2 집합(N)이 공집합이면, 새로운 에포크가 시작된다(1186). 이를 위해, 제1 집합(G)은 새로이 공집합으로서 초기화되고, 제2 집합(N)은, 자신에게 새로이 훈련 데이터 세트(X)의 모든 쌍(x_i, y_i)들이 할당됨으로써 새로이 초기화되며, 단계(1200)로 분기된다. 제2 집합(N)이 공집합이 아니면, 단계(1200)로 바로 분기된다.

배치 크기(bs)가, 제2 집합(N) 내에 존재하는 쌍(x_i, y_i)들의 수보다 크다고 확인되면, 제1 집합(G)은, 자신에게 배치(B)의 모든 쌍(x_i, y_i)들이 할당됨으로써 새로이 초기화되며(1190), 제2 집합(N)은, 자신에게 새로이 훈련 데이터 세트(X)의 모든 쌍(x_i, y_i)들이 할당되고, 이어서, 배치(B) 내에도 존재하는 쌍(x_i, y_i)들이 제거됨으로써 새로이 초기화된다. 이어서, 새로운 에포크가 시작되고, 단계(1200)로 분기된다. 이에 따라, 본 방법의 이러한 부분은 종료된다.

도 13은, 단계(1100)에서 기울기(g)를 결정하기 위한 다른 예시적인 방법을 흐름도로 도시한다. 우선, 본 방법의 파라미터가 초기화된다(1111). 이어서, 파라미터(θ)의 수학적 공간은 W로 나타난다. 즉, 파라미터(θ)가 np개의 개별 파라미터를 포함하는 경우, 공간(W)은 np 차원의 공간, 예를 들어 W =

이다. 반복 카운터(n)는 값 n = 0으로 초기화되고, 이때 제1 변수(m₁)는 m₁ = 0 ∈ W로서(즉, np 차원 벡터로서) 세팅되고, 제2 변수는

로서(즉, np x np 차원 행렬로서) 세팅된다.

이어서, 하나의 쌍(x_i, y_i)이 훈련 데이터 세트(X)로부터 무작위로 선택되고, 필요한 경우에는 증강된다(1121). 이는, 예를 들어, 훈련 데이터 세트(X)의 쌍(x_i, y_i)들의 각각의 입력 신호(x_i)에 대해, 가능한 증강[α(x_i))]의 수[μ(a(x_i))]가 결정되고, 각각의 쌍(x_i, y_i)에는 위치 변수, 즉

가 할당된다. 이때, 난수

가 균등 분포되어 추출되면, 연립 부등식, 즉

을 충족하는 위치 변수(p_i)가 선택될 수 있다. 이때, 관련 지수(i)는 선택된 쌍(x_i, y_i)을 나타내며, 입력 변수(x_i)의 증강(α_i)은 가능한 증강의 집합[α(x_i)]으로부터 무작위로 추출될 수 있고, 입력 변수(x_i)에 적용될 수 있으며, 즉 선택된 쌍(x_i, y_i)은 (α_i(x_i),y_i)로 대체된다.

입력 신호(x_i)는 신경망(60)에 공급된다. 원하는 출력 신호(y_T)로서의 상응하는 출력 신호[y(x_i)] 및 쌍(x_i, y_i)의 출력 신호(y_i)에 따라, 상응하는 비용 함수(

)가 결정된다. 파라미터(θ)에 대하여, 이와 관련한 기울기(d)가, 예를 들어 역전파에 의해 결정되며, 즉

이 적용된다.

이후, 반복 카운터(n), 제1 변수(m₁) 및 제2 변수(m₂)가 하기와 같이 업데이트된다(1131).

이어서, 공분산 행렬(C)의 구성 요소(C_a,b)들이

로서 제공된다(1141).

이로부터, (벡터 값) 제1 변수(m₁)에 의해 스칼라 곱(S)이 구해지고, 즉

이 적용된다.

스칼라 곱(S)의 충분히 정확한 결정을 위하여, 수학식(8)에 의해 공분산 행렬(C) 또는 역(C^-1)의 모든 성분들이 동시에 존재할 필요는 없음이 자명하다. 수학식(8)을 평가하는 동안 공분산 행렬(C)의 이때 필요한 성분(C_a,b)들을 결정하는 것이 메모리 측면에서 더 효율적이다.

이후, 이러한 스칼라 곱(S)이 하기 부등식을 충족하는지 여부가 확인된다(1151).

여기서 λ는 신뢰 수준에 상응하는 사전 결정 가능한 임계값이다.

부등식이 충족되면, 제1 변수(m₁)의 현재 값은 추정된 기울기(g)로서 채택되고 단계(1200)로 돌아가도록 분기된다.

부등식이 충족되지 않으면, 단계(1121)로 돌아가도록 분기될 수 있다. 대안적으로는, 반복 카운터(n)가 사전 결정 가능한 최대 반복값(n_max)에 도달했는지 여부가 확인될 수도 있다(1171). 그렇지 않은 경우에는, 단계(1121)로 돌아가도록 분기되고, 그렇지 않으면 추정된 기울기(g)로서 제로 벡터(0 ∈ W)가 채택되고(1181), 단계(1200)로 돌아가도록 분기된다. 이에 따라, 본 방법의 이러한 부분은 종료된다.

이러한 방법을 통해, m₁은 추출된 쌍(x_i, y_i)들에 대한 결정된 기울기(d)들의 산술 평균값에 상응하고, m₂는 추출된 쌍(x_i, y_i)들에 대한 결정된 기울기(d)들의 행렬 곱(d·d^T)의 산술 평균값에 상응한다.

도 14는 단계(1200)에서의 기울기(g)를 스케일링하기 위한 방법의 일 실시예를 도시한다. 하기에서 기울기(g)의 각각의 구성 요소들은 쌍(

)으로 나타나며, 여기서

는 상응하는 파라미터(θ)의 레이어를 나타내고,

은 제

레이어 내부의 상응하는 파라미터(θ)의 넘버링을 나타낸다. 도 10에 도시된 바와 같이, 신경망이 제

레이어 내의 상응하는 특징 맵(

)에 의한 다차원 입력 데이터(x)의 처리를 위해 형성되면, 넘버링(

)은 바람직하게는 특징 맵(

)내의, 상응하는 파라미터(Q)가 연관되도록 하는 특징의 위치를 통해 제공된다.

이제, 기울기(g)의 각각의 구성 요소(

)들에 대해 스케일링 계수(

)가 결정된다(1220). 예를 들어, 이러한 스케일링 계수(

)는 제

레이어의 특징 맵의

에 상응하는 특징의 수용장(rF)의 크기를 통해 제공될 수 있다. 대안적으로, 스케일링 계수(

)는 입력 레이어에 대한 제

레이어의 해상도, 즉 특징 수의 비율을 통해서도 제공될 수 있다.

이후, 기울기(g)의 각각의 구성 요소(

)들이 스케일링 계수(

)에 의해 스케일링되며(1220), 즉

이 적용된다.

스케일링 계수(

)가 수용장(rF)의 크기를 통해 제공되면, 파라미터(θ)의 과적합이 특히 효과적으로 방지될 수 있다. 스케일링 계수(

)가 해상도의 비율을 통해 제공되면, 이는 수용장(rF)의 크기의 특히 효율적인 근사 추정치이다.

도 15는 스케일링 레이어(S₄)에 의해 실행되는 방법의 실시예들을 도시한다.

스케일링 레이어(S₄)는, 반경(ρ) 및 중심점(c)를 갖는 구에 대한, 스케일링 레이어(S₄)의 입력에 위치하는 입력 신호(x)의 투영을 달성하도록 구성된다. 이는, 스케일링 레이어(S₄)의 출력에 위치하는 출력 신호(y)에 대한 중심점(c)의 간격을 측정하는 제1 노름[N₁(y-c)]과, 스케일링 레이어(S₄)의 출력에 위치하는 출력 신호(y)에 대한 스케일링 레이어(S₄)의 입력에 위치하는 입력 신호(x)의 간격을 측정하는 제2 노름[N₂(x-y)]을 특징으로 한다. 환언하면, 스케일링 레이어(S₄)의 출력에 위치하는 출력 신호(y)는 하기 수학식, 즉

의 해를 구한다.

도 15a)는 제1 노름(N₁) 및 제2 노름(N₂)이 동일한 경우를 위한 특히 효율적인 제1 실시예를 도시한다. 이들은 하기에 ||·||로 나타난다.

우선, 스케일링 레이어(S₄)의 입력에 위치하는 입력 신호(x), 중심 파라미터(c) 및 반경 파라미터(ρ)가 제공된다(2000).

이후, 스케일링 레이어(S₄)의 출력에 위치하는 출력 신호(y)가

으로 결정된다(2100).

이에 따라, 본 방법의 이러한 부분은 종료된다.

도 15b) 및 도 15c)는 제1 노름(N₁) 및 제2 노름(N₂)의 특히 바람직하게 선택된 조합에 대한 실시예를 도시한다.

도 15b)는 충족될 조건(12) 내에서 최대 노름[||·||_∞을 통해 제1 노름[N₁(·)]이 제공되고, 2-노름[||·||₂]을 통해 제2 노름[N₂(·)]이 제공되는 경우를 위한 제2 실시예를 도시한다. 이러한 노름들의 조합은 특히 효율적으로 연산될 수 있다.

우선, 단계(2000)와 유사하게, 스케일링 레이어(S₄)의 입력에 위치하는 입력 신호(x), 중심 파라미터(c) 및 반경 파라미터(ρ)가 제공된다(3000).

이후, 스케일링 레이어(S₄)의 출력에 위치하는 출력 신호(y)의 구성 요소(y_i)들이

으로 결정되고(3100),

여기서 i는 구성 요소들을 나타낸다.

이러한 방법은 특히 연산에 있어 효율적이다. 이에 따라, 본 방법의 이러한 부분은 종료된다.

도 15c)는 충족될 조건(12) 내에서 제1 노름[||·||₁]을 통해 제1 노름[N₁(·)]이 제공되고, 2-노름[||·||₂]을 통해 제2 노름[N₂(·)]이 제공되는 경우를 위한 제3 실시예를 도시한다. 이러한 노름들의 조합은, 스케일링 레이어(S₄)의 입력에 위치하는 입력 신호(x) 내에서 가능한 많은 작은 구성 요소들이 0의 값으로 세팅되도록 유도한다.

우선, 단계(2000)와 유사하게, 스케일링 레이어(S₄)의 입력에 위치하는 입력 신호(x), 중심 파라미터(c) 및 반경 파라미터(ρ)가 제공된다(4000).

이후, 부호 크기(

)가

로 결정되고(4100),

스케일링 레이어(S₄)의 입력에 위치하는 입력 신호(x)의 구성 요소(x_i)들은

으로 대체된다.

보조 파라미터(

)는 0의 값으로 초기화된다.

이후, 집합(N)이

로서 결정되고, 간격

이 결정된다(4200).

이후, 부등식이 충족되는지 여부가 확인된다(4300).

충족되는 경우(4400), 보조 파라미터(

)는

로 대체되고,

단계(4200)로 돌아가도록 분기된다.

부등식(16)이 충족되지 않으면(4500), 스케일링 레이어(S₄)의 출력에 위치하는 출력 신호(y)의 구성 요소(y_i)들은

으로 결정된다.

이 경우, 표기

는 일반적으로

를 의미한다.

이에 따라, 본 방법의 이러한 부분은 종료된다. 이러한 방법은 뉴턴 방법에 상응하며, 특히 스케일링 레이어(S₄)의 입력에 위치하는 입력 신호(x)의 복수의 구성 요소들이 중요한 경우, 특히 연산에 있어 효율적이다.

도 16은 신경망(60)을 작동시키기 위한 방법의 일 실시예를 도시한다. 우선, 신경망은 설명된 방법들 중 하나의 방법에 의해 훈련된다(5000). 이후, 상술한 바와 같이, 제어 시스템(40)은 이와 같이 훈련된 신경망(60)에 의해 작동된다(5100). 이에 따라, 본 방법은 종료된다.

신경망이 순방향 신경망(feedforward neural network)으로 제한되지 않고, 본 발명이 모든 유형의 신경망, 특히 순환 신경망, 컨볼루션 신경망(convolutional neural network), 오토인코더, 볼츠만 머신, 퍼셉트론 또는 캡슐 신경망(Capsule Neural Network)에 동일한 방식으로 적용될 수 있음이 자명하다.

"컴퓨터"라는 용어는 사전 결정 가능한 연산 규칙을 처리하기 위한 임의의 장치들을 포함한다. 이러한 연산 규칙은 소프트웨어 형태로, 하드웨어 형태로 또는 소프트웨어와 하드웨어의 혼합 형태로도 존재할 수 있다.

또한, 본원의 방법이 설명된 바와 같이 완전히 소프트웨어만으로 구현될 수 있는 것이 아님이 자명하다. 이는 하드웨어로도 구현될 수 있거나, 소프트웨어와 하드웨어의 혼합 형태로 구현될 수 있다.

Claims

특히 물리적 측정 변수의 분류를 위해 구성된 신경망(60)의 컴퓨터 구현식 훈련 방법으로서, 신경망(60)은 훈련 데이터 세트(X)를 사용하여 훈련되고, 훈련을 위해 입력 신호(x) 및 원하는 관련 출력 신호(y_T)를 포함하는 쌍들이 훈련 데이터 세트(X)로부터 추출되며, 입력 신호(x)가 공급될 때, 그리고 원하는 출력 신호(y_T)에 따라서 신경망(60)의 출력 신호(y)에 따른 신경망(60)의 파라미터(θ)들의 매칭이 실행되는, 신경망 훈련 방법에 있어서,
쌍들의 추출은 항상 전체 훈련 데이터 세트(X)로부터 실행되는 것을 특징으로 하는, 신경망 훈련 방법.
제1항에 있어서, 쌍들의 추출은, 훈련 과정에서 이전에 어떤 쌍들이 추출되었는지와는 관계없이 실행되는, 신경망 훈련 방법.
제1항 또는 제2항에 있어서, 추출된 쌍의 입력 신호(x)는 증강 함수(α_i)에 의해 증강되는, 신경망 훈련 방법.
제3항에 있어서, 증강 함수(α_i)는 입력 신호(x)에 따르는 제공된 증강 함수(α)의 집합으로부터 선택되는, 신경망 훈련 방법.
제4항에 있어서, 훈련 데이터 세트(X)로부터 쌍들을 무작위로 추출할 때는, 사전 결정 가능한 쌍이 추출될 확률이, 이러한 사전 결정 가능한 쌍의 입력 신호(x)의 제공된 증강 함수(α)의 수(μ(α))에 따르는, 신경망 훈련 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 파라미터(θ)의 매칭은 결정된 기울기(g)에 따라 실행되고, 기울기(g)의 결정을 위해 기울기(g)의 추정값(m₁)이, 훈련 데이터 세트(X)로부터 추출된 쌍(x_i, y_i)들의 연속적으로 증가하는 수(n)의 고려를 통해, 기울기(g)의 추정값(m₁)에 따르는 사전 결정 가능한 중단 조건이 충족될 때까지 정제되는, 신경망 훈련 방법.
제6항에 있어서, 사전 결정 가능한 중단 조건은 기울기(g)의 추정값(m₁)의 공분산 행렬(C)에도 따르는, 신경망 훈련 방법.
제7항에 있어서, 사전 결정 가능한 중단 조건은, 사전 결정 가능한 신뢰도 값(λ)에 대한 추정값(m₁) 및 공분산 행렬(C)이 조건
을 충족하는지 여부에 대한 조건을 포함하는, 신경망 훈련 방법.
제1항 내지 제8항 중 어느 한 항에 따른 방법을 실행하도록 구성된 훈련 시스템(140).
신경망의 입력에 위치하는, 센서(30)의 출력 신호(S)에 따라 결정된 입력 신호(x)를 분류하기 위해, 제1항 내지 제8항 중 어느 한 항에 따른 방법으로 훈련된 신경망(60)의 사용.
신경망(60)의 출력에 위치하는 신경망(60)의 출력 신호(y)에 따라 작동기(10)의 제어를 위한 제어 신호(A)를 제공하기 위해, 제1항 내지 제8항 중 어느 한 항에 따른 방법으로 훈련된 신경망(60)의 사용.
제11항에 따른, 제1항 내지 제8항 중 어느 한 항에 따른 방법으로 훈련된 신경망(60)의 사용으로서, 제어 신호(A)에 따라 작동기(10)가 제어되는, 신경망의 사용.
제1항 내지 제8항 또는 제10항 내지 제12항 중 어느 한 항에 따른 방법을 실행하도록 구성된 컴퓨터 프로그램.
제13항에 따른 컴퓨터 프로그램이 저장되는 머신 판독 가능한 저장 매체(46, 146).
신경망(60)을 사용하기 위한 방법으로서, 제1 단계에서 신경망(60)은 제1항 내지 제8항 중 어느 한 항에 따른 방법으로 훈련된 후, 제10항 내지 제12항 중 어느 한 항에 따라 사용되는, 신경망의 사용 방법.