KR102483639B1

KR102483639B1 - 뉴럴 네트워크 구조 확장 방법, 디멘션 리덕션 방법, 및 그 방법을 이용한 장치

Info

Publication number: KR102483639B1
Application number: KR1020150102852A
Authority: KR
Inventors: 최희열
Original assignee: 삼성전자주식회사
Priority date: 2014-11-27
Filing date: 2015-07-21
Publication date: 2023-01-03
Also published as: KR20160063965A; CN106203623A; US10832138B2; JP2016103262A; JP6605259B2; US20160155049A1

Abstract

뉴럴 네트워크 확장 방법이 개시된다. 일 실시예에 따른 뉴럴 네트워크 학습 장치는 뉴럴 네트워크에 포함된 노드들 중 적어도 하나의 노드를 선택하고, 선택된 노드가 속한 레이어에 새로운 노드를 생성하며, 선택된 노드의 연결 가중치들에 기초하여 새로운 노드의 연결 가중치들을 설정한다.

Description

뉴럴 네트워크 구조 확장 방법, 디멘션 리덕션 방법, 및 그 방법을 이용한 장치{METHOD FOR EXTENDING STRUCTURE OF NEURAL NETWORK, METHOD OF DIMENSION REDUCTION, AND APPARATUS THEREOF}

아래 실시예들은 뉴럴 네트워크 구조 확장 방법, 디멘션 리덕션 방법, 및 그 방법을 이용한 장치에 관한 것이다.

최근 들어, 입력 패턴을 특정 그룹으로 분류하는 문제를 해결하기 위하여, 인간이 지니고 있는 효율적인 패턴 인식 방법을 실제 컴퓨터에 적용시키려는 연구가 활발히 진행되고 있다. 이러한 연구 중 하나로, 인간의 생물학적 신경 세포의 특성을 수학적 표현에 의해 모델링 한 인공 뉴럴 네트워크(artificial neural network)에 대한 연구가 있다. 입력 패턴을 특정 그룹으로 분류하는 문제를 해결하기 위해, 인공 뉴럴 네트워크는 인간이 가지고 있는 학습이라는 능력을 모방한 알고리즘을 이용한다. 이 알고리즘을 통하여 인공 뉴럴 네트워크는 입력 패턴과 출력 패턴들 사이의 사상(mapping)을 생성할 수 있고, 이러한 사상을 생성하는 능력은 인공 뉴럴 네트워크의 학습 능력이라고 표현된다. 또한, 인공 뉴럴 네트워크는 학습된 결과에 기초하여 학습에 이용되지 않았던 입력 패턴에 대하여 비교적 올바른 출력을 생성할 수 있는 일반화 능력을 가진다.

일 측에 따른 뉴럴 네트워크 확장 방법은 상기 뉴럴 네트워크에 포함된 노드들 중 적어도 하나의 노드를 선택하는 단계; 상기 선택된 노드가 속한 레이어에 새로운 노드를 생성하는 단계; 및 상기 새로운 노드의 연결 가중치들을 설정하는 단계를 포함한다.

상기 뉴럴 네트워크 확장 방법은 상기 뉴럴 네트워크의 확장이 필요한지 여부를 판단하는 단계를 더 포함할 수 있다.

상기 판단하는 단계는 상기 뉴럴 네트워크의 성능을 모니터링 하는 단계; 및 상기 뉴럴 네트워크의 성능이 향상되는 정도가 미리 정해진 제1 임계치보다 작은 경우, 상기 뉴럴 네트워크의 확장이 필요하다고 판단하는 단계를 포함할 수 있다.

상기 판단하는 단계는 상기 뉴럴 네트워크의 성능을 모니터링 하는 단계; 및 상기 뉴럴 네트워크의 성능이 향상되는 정도가 미리 정해진 제1 임계치보다 작고, 상기 뉴럴 네트워크의 이전(previous) 확장 이후 상기 뉴럴 네트워크의 성능이 향상된 정도가 미리 정해진 제2 임계치보다 작은 경우, 상기 뉴럴 네트워크의 학습을 종료시키는 단계를 더 포함할 수 있다.

상기 선택하는 단계는 상기 노드들의 활성화 빈도수 정보 및 활성화 엔트로피 정보 중 적어도 하나에 기초하여 상기 적어도 하나의 노드를 선택하는 단계를 포함할 수 있다.

상기 노드들 중 미리 정해진 시간 구간에서 활성화 빈도수가 가장 큰 노드가 선택될 수 있다. 상기 노드들 중 미리 정해진 시간 구간에서 활성화 엔트로피가 미리 정해진 제3 임계치보다 작고, 활성화 빈도수가 미리 정해진 제4 임계치보다 큰 노드가 선택될 수 있다.

상기 활성화 빈도수 정보는 미리 정해진 시간 구간 내, 상기 노드들 각각이 활성화되는 빈도수를 포함할 수 있다. 상기 활성화 엔트로피 정보는 미리 정해진 시간 구간 내, 상기 노드들 각각이 활성화 상태와 비활성화 상태 사이에서 천이되는 횟수를 포함할 수 있다.

상기 생성하는 단계는 상기 레이어의 이전 레이어에 포함된 노드들과 상기 새로운 노드 사이를 연결하는 단계; 및 상기 레이어의 다음 레이어에 포함된 노드들과 상기 새로운 노드 사이를 연결하는 단계를 포함할 수 있다.

상기 뉴럴 네트워크 확장 방법은 상기 새로운 노드의 연결 가중치들을 미리 정해진 초기값으로 설정하는 단계를 더 포함할 수 있다.

상기 선택된 노드의 연결 가중치들은 상기 선택된 노드와 연결된 연결선들에 대응하는 가중치들이고, 상기 새로운 노드의 연결 가중치들은 상기 새로운 노드와 연결된 연결선들에 대응하는 가중치들일 수 있다.

상기 설정하는 단계는 상기 선택된 노드의 연결 가중치들 중 적어도 일부를 선택하는 단계; 및 상기 새로운 노드에서 상기 선택된 적어도 일부의 연결 가중치들에 대응하는 연결 가중치들을 상기 선택된 일부의 연결 가중치들로 설정하는 단계를 포함할 수 있다. 상기 설정하는 단계는 상기 선택된 노드에서 상기 선택된 적어도 일부의 연결 가중치들을 미리 정해진 초기값으로 설정하는 단계를 더 포함할 수 있다.

상기 선택된 노드의 연결 가중치들 중 적어도 일부를 선택하는 단계는 상기 선택된 노드의 연결 가중치들을 제1 그룹 및 제2 그룹으로 분할하는 단계; 및 상기 제1 그룹 및 상기 제2 그룹 중 어느 하나의 그룹에 속한 연결 가중치들을 선택하는 단계를 포함할 수 있다.

상기 선택된 노드의 연결 가중치들은 상기 제1 그룹에 속한 연결 가중치들의 합과 상기 제2 그룹에 속한 연결 가중치들의 합 사이의 차이가 미리 정해진 제5 임계치 이하가 되도록, 상기 제1 그룹 및 상기 제2 그룹으로 분할될 수 있다.

상기 설정하는 단계는 상기 새로운 노드의 입력 연결 가중치들을 상기 선택된 노드의 입력 연결 가중치들로 설정하는 단계; 상기 선택된 노드의 출력 연결 가중치들 중 일부를 선택하는 단계; 상기 새로운 노드에서 상기 선택된 일부의 출력 연결 가중치들에 대응하는 연결 가중치들을 상기 선택된 일부의 출력 연결 가중치들로 설정하는 단계; 및 상기 선택된 노드에서 상기 선택된 일부의 출력 연결 가중치들을 미리 정해진 초기값으로 설정하는 단계를 포함할 수 있다.

상기 뉴럴 네트워크 확장 방법은 상기 선택된 노드의 활성화 특성에 기초하여 상기 새로운 노드의 활성화 특성을 설정하는 단계를 더 포함할 수 있다.

상기 뉴럴 네트워크 확장 방법은 상기 새로운 노드를 포함하도록 확장된 뉴럴 네트워크를 학습시키는 단계를 더 포함할 수 있다.

초기 뉴럴 네트워크는 미리 정해진 수 이하의 노드들을 포함하는 복수의 히든 레이어들을 포함할 수 있다. 상기 선택하는 단계는 상기 복수의 히든 레이어들에 포함된 노드들 중 적어도 하나의 노드를 선택하는 단계를 포함할 수 있다.

다른 일 측에 따른 디멘션 리덕션(dimension reduction) 방법은 입력 레이어, 하나 또는 그 이상의 히든 레이어, 및 출력 레이어를 포함하는 뉴럴 네트워크를 학습시키는 단계; 상기 뉴럴 네트워크를 학습시키는 동안, 상기 히든 레이어의 확장이 필요한지 여부를 판단하는 단계; 및 상기 히든 레이어의 확장이 필요하다는 판단에 따라, 상기 히든 레이어를 확장시키는 단계를 포함한다.

상기 디멘션 리덕션 방법은 상기 뉴럴 네트워크를 학습시키기 이전에, 상기 뉴럴 네트워크를 초기화하는 단계를 더 포함할 수 있다. 상기 초기화하는 단계는 상기 입력 레이어에서 상기 입력 디멘션에 해당하는 수의 노드들을 생성하는 단계; 상기 히든 레이어에서 미리 정해진 초기값에 해당하는 적어도 하나의 노드를 생성하는 단계; 상기 출력 레이어에서 상기 입력 디멘션에 해당하는 수의 노드들을 생성하는 단계를 포함할 수 있다.

상기 판단하는 단계는 상기 입력 레이어에 입력되는 값들과 상기 출력 레이어에서 출력되는 값들 사이의 차이에 기초하여, 상기 뉴럴 네트워크의 성능을 모니터링 하는 단계; 및 상기 뉴럴 네트워크의 성능이 향상되는 정도가 미리 정해진 임계치보다 작은 경우, 상기 뉴럴 네트워크의 확장이 필요하다고 판단하는 단계를 포함할 수 있다.

상기 히든 레이어를 확장시키는 단계는 상기 히든 레이어에 포함된 노드들 중 적어도 하나의 노드를 선택하는 단계; 상기 히든 레이어에 새로운 노드를 생성하는 단계; 및 상기 선택된 노드의 연결 가중치들에 기초하여 상기 새로운 노드의 연결 가중치들을 설정하는 단계를 포함할 수 있다.

상기 디멘션 리덕션 방법은 상기 확장된 히든 레이어를 포함하는 뉴럴 네트워크를 학습시키는 단계를 더 포함할 수 있다.

또 다른 일 측에 따른 뉴럴 네트워크 확장 장치는 뉴럴 네트워크를 저장하는 메모리; 및 활성화 정보에 기초하여 상기 뉴럴 네트워크의 노드를 선택하고, 상기 선택된 노드를 포함하는 레이어에 새로운 노드를 추가함으로써 상기 뉴럴 네트워크를 확장하는 프로세서를 포함한다.

상기 프로세서는 상기 선택된 노드의 연결 가중치들에 기초하여 상기 새로운 노드의 연결 가중치들을 설정할 수 있다. 상기 프로세서는 트레이닝 데이터를 이용하여 상기 확장된 뉴럴 네트워크를 학습시킴으로써 상기 새로운 노드의 연결 가중치들을 조정할 수 있다.

상기 프로세서는 트레이닝 데이터 메모리 스토리지의 트레이닝 데이터를 상기 확장된 뉴럴 네트워크에 적용하고, 상기 확장된 뉴럴 네트워크의 활성화 패턴에 기초하여 히든 레이어의 확장이 요구되는지 여부를 결정하며, 상기 히든 레이어의 확장이 요구된다는 판단에 기초하여 상기 뉴럴 네트워크의 히든 레이어 내 노드들의 수를 증가시킬 수 있다.

상기 뉴럴 네트워크 확장 장치는 입력 장치를 더 포함하고, 상기 프로세서는 출력 데이터를 획득하기 위하여, 상기 입력 장치를 이용하여 획득된 입력 데이터를 상기 뉴럴 네트워크에 적용할 수 있다.

상기 선택된 노드를 포함하는 레이어는 상기 뉴럴 네트워크의 히든 레이어를 포함할 수 있다.

도 1은 일 실시예에 따른 뉴럴 네트워크(neural network)를 설명하는 도면.
도 2는 일 실시예에 따른 뉴럴 네트워크 확장 방법을 나타낸 동작 흐름도.
도 3은 일 실시예에 따른 노드의 선택을 설명하는 도면.
도 4a 및 도 4b는 실시예들에 따른 활성화 패턴에 기초한 동작을 설명하는 도면들.
도 5는 일 실시예에 따른 새로운 노드의 생성을 설명하는 도면.
도 6 내지 도 8은 일 실시예에 따른 연결 가중치들의 설정을 설명하는 도면들.
도 9는 일 실시예에 따른 뉴럴 네트워크의 확장 이후 추가적인 학습을 설명하는 도면.
도 10은 일 실시예에 따른 뉴럴 네트워크가 확장된 이후 추가적인 학습이 수행되는 방법을 설명하는 도면.
도 11a는 일 실시예에 따른 뉴럴 네트워크를 확장하는 방법을 도시하는 동작 흐름도.
도 11b는 일 실시예에 따른 뉴럴 네트워크 확장 방법을 이용한 복수의 이터레이션들을 통한 뉴럴 네트워크의 점진적인 변화를 도시하는 도면.
도 12 및 도 13은 일 실시예에 따른 뉴럴 네트워크 확장 방법에 의하여 학습되는 뉴럴 네트워크를 설명하는 도면들.
도 14 및 도 15는 일 실시예에 따른 뉴럴 네트워크 확장 방법에 의하여 학습되는 오토 인코더를 설명하는 도면들.
도 16은 일 실시예에 따른 뉴럴 네트워크 학습 장치를 나타낸 블록도.
도 17은 일 실시예에 따른 디멘션 리덕션 장치를 나타낸 블록도.
도 18은 일 실시예에 따른 인공 뉴런을 도시한 도면.
도 19는 일 실시예에 따른 뉴럴 네트워크 확장 장치를 나타낸 블록도.
도 20은 일 실시예에 따른 확장된 뉴럴 네트워크를 이용하여 입력 데이터를 분석하는 장치를 나타낸 블록도.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일 실시예에 따른 뉴럴 네트워크(neural network)를 설명하는 도면이다. 도 1을 참조하면, 일 실시예에 따른 뉴럴 네트워크(100)는 연결선(edge)으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 인식 모델이다. 뉴럴 네트워크(100)는 소프트웨어, 하드웨어, 또는 이들의 조합으로 구현될 수 있다. 뉴럴 네트워크(100)는 인공(artificial) 뉴럴 네트워크라고 지칭될 수 있다.

뉴럴 네트워크(100)는 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런들을 이용한다. 인공 뉴런은 노드(node)라고 지칭될 수 있다. 인공 뉴런들은 연결 가중치(connection weight)를 가지는 연결선을 통해 상호 연결될 수 있다. 연결 가중치는 연결선이 갖는 특정한 값으로, 시냅스 가중치(synapse weight) 또는 연결 강도라고 지칭될 수 있다. 뉴럴 네트워크(100)는 인공 뉴런들을 통해 인간의 인지 작용이나 학습 과정을 수행할 수 있다.

도 18은 일 실시예에 따른 인공 뉴런을 설명하는 도면이다. 도 18을 참조하면, 인공 뉴런은 몸체(body)에 해당하는 노드, 노드의 입력 벡터, 및 노드와 이전 노드 사이의 에지를 형성하는 이전 인공 뉴런의 출력 벡터를 이용하여 구현될 수 있다. 하지만, 인공 뉴런의 데이터 구조에 다양한 변형이 가해질 수 있으며, 이러한 변형들은 실시예들의 범위에 속한다.

인공 뉴런은 n개의 입력 소스들로부터 입력 X₁ 부터 X_N을 수신할 수 있다. 예를 들어, n개의 입력 소스들은 다른 인공 뉴런의 시냅스들, 센서들, 입력 데이터 스토리지, 또는 다른 데이터 소스들일 수 있다. 인공 뉴런의 몸체와 입력 X₁ 부터 X_N을 연결하는 입력 벡터들은 개별 시냅스 가중치 W₁ 부터 W_N을 이용하여 스케일 될 수 있다. 시냅스 가중치들은 인공 뉴런의 몸체에 의하여 수신되는 입력의 강도에 영향을 줄 수 있다. 예를 들어, 시냅스 가중치 W₁이 0.8인 경우, 입력 X₁은 인공 뉴런의 몸체에 도달할 때 80%로 감소될 수 있다. 수신된 입력들은 선형 합산에 의하여 결합되거나, 활성화 함수 AF(x₁, x₂, ..., x_n)에 기초하여 수신된 입력들을 결합하기 위하여 추가적인 함수들이 적용될 수 있다. 예를 들어, 특정 입력 벡터들을 통하여 수신된 입력들은 인공 뉴런을 활성화시키는 대신 비활성화시킬 수도 있다. 활성화 함수 AF(x₁, x₂, ..., x_n)에 기초하여, 인공 뉴런의 몸체는 결합된 입력들을 조절함으로써, 출력 "Y"를 생성할 수 있다. 일 예시에 따르면, 다음 인공 뉴런으로 출력 "Y"를 발화하기 위하여, 활성화 함수 AF(x₁, x₂, ..., x_n)의 결과는 인공 뉴런의 임계 값을 초과해야 한다. 이 경우, 인공 뉴런은 입력 벡터들을 통하여 특정 임계 활성화 강도에 도달하기 전에는 다음 인공 뉴런으로 신호를 발화하지 않고, 비활성화 상태를 유지할 수 있다.

다시 도 1을 참조하면, 뉴럴 네트워크(100)는 복수의 레이어들을 포함할 수 있다. 예를 들어, 뉴럴 네트워크(100)는 입력 레이어(input layer)(110), 히든 레이어(hidden layer)(120), 출력 레이어(output layer)(130)을 포함한다. 입력 레이어(110)는 학습을 수행하기 위한 입력을 수신하여 히든 레이어(120)에 전달할 수 있고, 출력 레이어(130)는 히든 레이어(120)로부터 수신한 신호에 기초하여 뉴럴 네트워크(100)의 출력을 생성할 수 있다. 히든 레이어(120)는 입력 레이어(110)와 출력 레이어(130) 사이에 위치하고, 입력 레이어(110)를 통해 전달된 학습 데이터를 예측하기 쉬운 값으로 변화시킬 수 있다.

입력 레이어(110), 히든 레이어(120) 및 출력 레이어(130)는 복수 개의 노드들을 포함할 수 있다. 입력 레이어(110)에 포함된 노드는 입력 노드(input node)라고 지칭되고, 히든 레이어(120)에 포함된 노드는 히든 노드(hidden node)라고 지칭되며, 출력 레이어(130)에 포함된 노드는 출력 노드(output node)라고 지칭될 수 있다.

입력 레이어(110)에 포함된 입력 노드들과 히든 레이어(120)에 포함된 히든 노드들은 연결 가중치를 가지는 연결선들을 통해 서로 연결될 수 있다. 히든 레이어(120)에 포함된 히든 노드들과 출력 레이어(130)에 포함된 출력 노드들은 연결 가중치를 가지는 연결선들을 통해 서로 연결될 수 있다.

도면에 도시하지 않았으나, 뉴럴 네트워크는 복수 개의 히든 레이어들을 포함할 수 있다. 복수 개의 히든 레이어들을 포함하는 뉴럴 네트워크는 깊은 뉴럴 네트워크(deep neural network)라고 지칭될 수 있다. 깊은 뉴럴 네트워크를 학습시키는 것은 깊은 학습(deep learning)이라고 지칭될 수 있다.

히든 레이어(120)에 제1 히든 레이어, 제2 히든 레이어, 및 제3 히든 레이어가 포함되는 경우를 가정하면, 제1 히든 레이어에 속한 히든 노드의 출력은 제2 히든 레이어에 속한 히든 노드들에 연결될 수 있다. 제2 히든 레이어에 속한 히든 노드의 출력은 제3 히든 레이어에 속한 히든 노드들에 연결될 수 있다.

일 실시예에 따르면, 서로 다른 히든 레이어들에 속한 히든 노드들 간에 재귀적(recurrent)으로 연결될 수 있다. 이처럼 서로 다른 히든 레이어들에 속한 히든 노드들 간에 재귀적인 연결이 있는 뉴럴 네트워크(100)는 회귀 뉴럴 네트워크 (recurrent neural network)라고 지칭될 수 있다.

일 실시예에 따른 뉴럴 네트워크 학습 장치는 감독 학습(supervised learning)을 통해 뉴럴 네트워크(100)를 학습시킬 수 있다. 뉴럴 네트워크 학습 장치는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다. 감독 학습은 학습 데이터와 그에 대응하는 출력 데이터를 함께 뉴럴 네트워크(100)에 입력하고, 학습 데이터에 대응하는 출력 데이터가 출력되도록 연결선들의 연결 가중치를 업데이트하는 기법이다. 일 예시에 따르면, 뉴럴 네트워크 학습 장치는 새로운 노드를 추가하거나, 새로운 레이어를 추가함으로써 뉴럴 네트워크를 확장할 수 있다. 뉴럴 네트워크 학습 장치는 트레이닝 데이터에 기초하여 뉴럴 네트워크의 구조를 변경할 수 있다. 도 1은 뉴럴 네트워크의 구조를 노드 구조로 표현하였으나, 실시예들은 이러한 노드 구조에 국한되지 않는다. 메모리 스토리지에 뉴럴 네트워크를 저장하기 위하여 다양한 데이터 구조가 이용될 수 있다.

뉴럴 네트워크 학습 장치는 오류 역 전파 학습(back-propagation learning)을 통해 인공 뉴런들 사이의 연결 가중치를 업데이트할 수 있다. 오류 역 전파 학습은, 주어진 학습 데이터에 대해 포워드 계산(forward computation)을 통하여 오류를 추정한 후, 출력 레이어(130)에서 시작하여 히든 레이어(120) 및 입력 레이어(110)를 향하는 역 방향으로 추정한 오류를 전파하면서, 오류를 줄이는 방향으로 연결 가중치를 업데이트하는 방법이다. 뉴럴 네트워크(100)의 처리는 입력 레이어(110) -> 히든 레이어(120) -> 출력 레이어(130)의 방향으로 진행되지만, 오류 역 전파 학습에서 연결 가중치의 업데이트 방향은 출력 레이어(130) -> 히든 레이어(120) -> 입력 레이어(110)의 방향으로 진행될 수 있다. 하나 또는 그 이상의 프로세서는 뉴럴 네트워크를 원하는 방향으로 처리하기 위하여, 레이어 또는 일련의 계산 데이터를 저장하는 버퍼 메모리를 이용할 수 있다.

뉴럴 네트워크 학습 장치는 현재 설정된 연결 가중치들이 얼마나 최적에 가까운지를 측정하기 위한 목적 함수(objective function)를 정의하고, 목적 함수의 결과에 기초하여 연결 가중치들을 계속 변경하고, 학습을 반복적으로 수행할 수 있다. 예를 들어, 목적 함수는 뉴럴 네트워크(100)가 학습 데이터에 기초하여 실제 출력한 출력 값과 출력되기로 원하는 기대 값 사이의 오류를 계산하기 위한 오류 함수일 수 있다. 뉴럴 네트워크 학습 장치는 오류 함수의 값을 줄이는 방향으로 연결 가중치들을 업데이트할 수 있다.

아래에서 상세하게 설명하겠으나, 일 실시예에 따른 뉴럴 네트워크 학습 장치는 뉴럴 네트워크를 확장시킴으로써, 뉴럴 네트워크의 인식 성능을 향상시킬 수 있다. 이하, 뉴럴 네트워크를 확장시킨다는 표현은 뉴럴 네트워크의 구조를 확장시킨다는 표현과 동일하게 사용된다. 예를 들어, 목적 함수의 결과가 일정 수준 이상으로 좋아지지 않는 경우, 뉴럴 네트워크 학습 장치는 히든 레이어에 포함된 노드의 개수를 증가시키면서 뉴럴 네트워크를 학습시킬 수 있다.

도 2는 일 실시예에 따른 뉴럴 네트워크 구조 확장 방법을 나타낸 동작 흐름도이다. 뉴럴 네트워크는 학습 기반 인식, 학습 기반 인증, 학습 기반 분류 등 다양한 분야에서 활용될 수 있다. 뉴럴 네트워크의 구조가 복잡해질수록 (또는, 뉴럴 네트워크의 규모가 커질수록) 뉴럴 네트워크의 성능은 향상될 수 있다. 하지만, 뉴럴 네트워크의 구조가 복잡해질수록 (또는, 뉴럴 네트워크의 규모가 커질수록) 해당 뉴럴 네트워크를 학습하기 위해 필요한 연산 복잡도도 함께 증가된다. 정교한 학습을 위해서는 일정 수준 이상으로 복잡한 구조를 가지는 (또는, 일정 수준 이상으로 큰 규모를 가지는) 뉴럴 네트워크가 필요하나, 일반적인 학습 방식으로는 해당 뉴럴 네트워크의 성능을 최적화(optimization)하는 데 한계가 있다.

아래에서 설명할 실시예들은 소규모 뉴럴 네트워크를 우선 학습시키고 해당 뉴럴 네트워크의 구조를 점진적으로 확장 및 학습시키는 기술을 제공할 수 있다. 이 경우, 뉴럴 네트워크는 구조 확장 이전에 학습되었던 결과를 유지하면서, 점진적으로 더 정교하게 학습될 수 있다. 뉴럴 네트워크의 구조 확장 및 학습이 반복됨에 따라, 일정 수준 이상으로 복잡한 복잡도 또는 일정 수준 이상으로 큰 규모의 뉴럴 네트워크가 최적으로(optimally) 학습될 수 있다. 이하, 뉴럴 네트워크의 구조 확장에 대하여 상세하게 설명한다.

도 2를 참조하면, 일 실시예에 따른 뉴럴 네트워크 구조 확장 방법은 노드를 선택하는 단계(210), 새로운 노드를 생성하는 단계(220), 새로운 노드를 뉴럴 네트워크에 연결하는 단계(230), 연결 가중치를 설정하는 단계(240), 및 확장된 뉴럴 네트워크를 학습시킴으로써 새로운 노드의 연결 가중치를 조정하는 단계(250)를 포함한다.

단계(210)에서 뉴럴 네트워크에 포함된 노드들 중 적어도 하나의 노드가 선택된다. 노드의 선택을 위하여 다양한 정보가 고려될 수 있다. 예를 들어, 노드의 선택을 위하여, 노드들의 활성화 빈도수 정보 및 노드들의 활성화 엔트로피 정보 등이 고려될 수 있다. 활성화 빈도수 정보는 미리 정해진 시간 구간 내 노드들 각각이 활성화되는 빈도수를 포함할 수 있다. 활성화 엔트로피 정보는 미리 정해진 시간 구간 내 노드들 각각이 활성화 상태와 비활성화 상태 사이에서 천이되는 횟수를 포함할 수 있다.

단계(220)에서 새로운 노드가 생성된다. 새로운 노드는 단계(210)에서 선택된 노드(이하, '선택된 노드'라고 함)가 속한 레이어에 생성될 수 있다. 예를 들어, 뉴럴 네트워크에 제1 히든 레이어, 제2 히든 레이어, 및 제3 히든 레이어가 포함되고, 제2 히든 레이어에 포함된 노드가 선택될 수 있다. 이 경우, 새로운 노드는 제2 히든 레이어에 생성될 수 있다.

새로운 노드는 이전 레이어에 포함된 노드들 및 다음 레이어에 포함된 노드들과 연결된다. 예를 들어, 새로운 노드가 제2 히든 레이어에 생성되는 경우, 새로운 노드는 제1 히든 레이어에 포함된 노드들 및 제3 히든 레이어에 포함된 노드들과 연결될 수 있다.

단계(230)에서, 새로운 노드와 뉴럴 네트워크 내 노드들 사이를 연결하는 에지들이 형성됨으로써, 새로운 노드는 뉴럴 네트워크와 연결될 수 있다.

단계(240)에서 새로운 노드의 연결 가중치들이 설정된다. 새로운 노드의 연결 가중치들은 이전 레이어에 포함된 노드들과 새로운 노드를 연결하는 연결선들의 연결 가중치들 및 새로운 노드와 다음 레이어에 포함된 노드들을 연결하는 연결선들의 연결 가중치들을 포함할 수 있다.

새로운 노드의 연결 가중치들은 선택된 노드의 연결 가중치들에 기초하여 설정될 수 있다. 예를 들어, 새로운 노드의 연결 가중치들 중 일부는 선택된 노드의 연결 가중치들 중 일부와 동일하게 설정될 수 있다. 새로운 노드의 나머지 연결 가중치들은 미리 정해진 초기 값으로 설정될 수 있다. 또한, 선택된 노드의 연결 가중치들 중 새로운 노드의 연결 가중치들을 설정하는데 활용된 연결 가중치들도 미리 정해진 초기 값으로 설정될 수 있다.

단계(220)에서 새로운 노드가 생성되고 단계(230)에서 연결 가중치들이 설정되는 동작은 단계(210)에서 선택된 노드가 복사되는 것으로 이해될 수 있다. 이 때, 선택된 노드의 연결 가중치들 중 일부만 새로운 노드로 복사될 수 있다. 선택된 노드에서 복사된 연결 가중치들은 미리 정해진 초기 값으로 초기화될 수 있다. 또한, 새로운 노드에서 설정되지 않은 연결 가중치들도 미리 정해진 초기 값으로 초기화될 수 있다.

단계(250)에서 뉴럴 네트워크의 구조 확장이 이루어진 뒤 추가적으로 학습이 이루어지면서, 전술한 방식에 따라 설정된 연결 가중치들이 추가적으로 업데이트될 수 있다. 단계(210) 내지 단계(230)과 관련된 보다 상세한 사항들은 도 3 내지 도 8을 통하여 후술한다.

도 3은 일 실시예에 따른 노드의 선택을 설명하는 도면이다. 도 3을 참조하면, 일 실시예에 따른 뉴럴 네트워크 학습 장치는 뉴럴 네트워크의 구조 확장을 위하여, 히든 레이어(120)에 포함된 노드들 중 어느 하나를 선택한다.

뉴럴 네트워크 학습 장치는 히든 레이어(120)에 포함된 히든 노드들의 활성화 패턴을 모니터링 할 수 있다. 일 예로, 도 4a를 참조하면, 제1 히든 노드(121)의 활성화 패턴은 off-on-off-off-off 이고, 제2 히든 노드(122)의 활성화 패턴은 on-on-off-on-off 일 수 있다. 뉴럴 네트워크 학습 장치는 히든 노드들의 활성화 패턴들에 기초하여 활성화 빈도수 정보를 생성할 수 있다. 활성화 빈도수 정보는 모니터링 된 활성화 패턴 내 히든 노드들 각각이 활성화된 빈도수를 나타내는 정보이다. 도 4a의 예시에서, 제1 히든 노드(121)의 활성화 빈도수는 1이고, 제2 히든 노드(122)의 활성화 빈도수는 3이다.

뉴럴 네트워크 학습 장치는 미리 정해진 시간 구간에서 활성화 빈도수가 가장 큰 노드를 선택할 수 있다. 활성화 빈도수가 가장 큰 노드를 선택하는 이유는 활성화 빈도수가 가장 큰 노드가 뉴럴 네트워크 내에서 가장 부하가 많은 노드일 수 있기 때문이다. 가장 부하가 많은 노드의 부하를 경감시킴으로써 뉴럴 네트워크의 인식 성능이 향상될 수 있다. 도 4a의 예시에 따르면, 제2 히든 노드(122)의 활성화 빈도수(예를 들어, 3)가 제1 히든 노드(121)의 활성화 빈도수(예를 들어, 1)보다 크므로, 제2 히든 노드(122)가 선택될 수 있다.

다른 예로, 도 4b를 참조하면, 제1 히든 노드(121)의 활성화 패턴은 on-off-on-off-on 이고, 제2 히든 노드(122)의 활성화 패턴은 on-on-on-off-off 일 수 있다. 뉴럴 네트워크 학습 장치는 히든 노드들의 활성화 패턴들에 기초하여 활성화 빈도수 정보를 생성할 수 있다. 도 4b의 예시에서, 제1 히든 노드(121)의 활성화 빈도수와 제2 히든 노드(122)의 활성화 빈도수는 모두 3이다.

또한, 뉴럴 네트워크 학습 장치는 히든 노드들의 활성화 패턴들에 기초하여 활성화 엔트로피 정보를 생성할 수 있다. 활성화 엔트로피 정보는 모니터링 된 활성화 패턴 내 히든 노드들 각각이 활성화 상태와 비활성화 상태 사이에서 천이된 횟수를 나타내는 정보이다. 도 4b의 예시에서, 제1 히든 노드(121)의 활성화 엔트로피는 4이고, 제2 히든 노드(122)의 활성화 엔트로피는 1이다.

뉴럴 네트워크 학습 장치는 미리 정해진 시간 구간에서 활성화 엔트로피가 미리 정해진 제3 임계치보다 작고, 활성화 빈도수가 미리 정해진 제4 임계치보다 큰 노드를 선택할 수 있다. 활성화 빈도수가 일정 수준 이상이면서 활성화 엔트로피가 큰 노드는 미리 정해진 시간 구간 내에서 고른 분포로 활성화되었을 확률이 높다. 또한, 활성화 빈도수가 일정 수준 이상이면서 활성화 엔트로피가 작은 노드는 미리 정해진 시간 구간 내 특정 시간 구간에 집중적으로 활성화되었을 확률이 높다.

특정 시간 구간에 집중되는 활성화를 분산시켜 뉴럴 네트워크의 인식 성능을 향상시키기 위하여, 활성화 엔트로피가 미리 정해진 제3 임계치보다 작고 활성화 빈도수가 미리 정해진 제4 임계치보다 큰 노드가 선택될 수 있다. 예를 들어, 제3 임계치와 제4 임계치가 모두 2인 경우를 가정하면, 도 4a의 예시에서 제2 히든 노드(122)의 활성화 엔트로피(예를 들어, 1)는 제3 임계치(예를 들어, 2)보다 작고, 제2 히든 노드(122)의 활성화 빈도수(예를 들어, 3)는 제4 임계치(예를 들어, 2)보다 크므로, 제2 히든 노드(122)가 선택될 수 있다.

도 5는 일 실시예에 따른 새로운 노드의 생성을 설명하는 도면이다. 도 5를 참조하면, 일 실시예에 따른 뉴럴 네트워크 학습 장치는 선택된 노드가 속한 레이어에 새로운 노드를 생성한다. 예를 들어, 제2 히든 노드(122)가 선택된 경우를 가정하면, 뉴럴 네트워크 학습 장치는 선택된 제2 히든 노드(122)가 포함된 히든 레이어(120)에 새로운 제3 히든 노드(123)를 생성할 수 있다.

뉴럴 네트워크 학습 장치는 선택된 노드의 활성화 특성에 기초하여 새로운 노드의 활성화 특성을 설정할 수 있다. 예를 들어, 뉴럴 네트워크 학습 장치는 선택된 노드의 활성화 임계치에 기초하여 새로운 노드의 활성화 임계치를 설정할 수 있다. 또는, 뉴럴 네트워크 학습 장치는 선택된 노드의 활성화 함수에 기초하여 새로운 노드의 활성화 함수를 설정할 수 있다.

도 6 내지 도 8은 일 실시예에 따른 연결 가중치들의 설정을 설명하는 도면들이다. 일 실시예에 따른 뉴럴 네트워크 학습 장치는 선택된 노드의 연결 가중치들에 기초하여 새로운 노드의 연결 가중치들을 설정할 수 있다. 이하, 선택된 노드의 연결 가중치들 중 일부를 새로운 노드로 이동시키는 실시예를 설명하나, 선택된 노드의 연결 가중치들에 기초하여 새로운 노드의 연결 가중치들을 설정하는 방법은 다양하게 변형될 수 있다. 예를 들어, 뉴럴 네트워크 학습 장치는 선택된 노드의 연결 가중치들의 다양한 통계(statistics)에 기초하여, 새로운 노드의 연결 가중치들을 설정할 수도 있다.

도 6을 참조하면, 일 실시예에 따른 뉴럴 네트워크 학습 장치는 선택된 노드(122)의 연결 가중치들 중 일부를 선택할 수 있다. 선택된 노드(122)의 연결 가중치들은 입력 연결 가중치들과 출력 연결 가중치들을 포함한다. 뉴럴 네트워크 학습 장치는 선택된 노드(122)의 입력 연결 가중치들(611, 612, 613)을 선택할 수 있다.

다른 예로, 도면에 도시하지 않았으나, 뉴럴 네트워크 학습 장치는 입력 연결 가중치들을 복수의 입력 그룹들로 분할하고, 출력 연결 가중치들을 복수의 출력 그룹들로 분할할 수 있다. 뉴럴 네트워크 학습 장치는 복수의 입력 그룹들 중 어느 하나의 그룹을 선택하고, 복수의 출력 그룹들 중 어느 하나의 그룹을 선택할 수 있다.

예를 들어, 뉴럴 네트워크 학습 장치는 제1 입력 연결선의 제1 입력 연결 가중치(611), 제2 입력 연결선의 제2 입력 연결 가중치(612), 및 제3 입력 연결선의 제3 입력 연결 가중치(613)를 2개의 입력 그룹들로 분할할 수 있다. 2개의 입력 그룹들은 {제1 입력 연결 가중치(611), 제2 입력 연결 가중치(612)}와 {제3 입력 연결 가중치(613)}일 수 있다. 뉴럴 네트워크 학습 장치는 2개의 입력 그룹들 중 어느 하나의 입력 그룹, 예를 들어 {제3 입력 연결 가중치(613)}를 선택할 수 있다.

뉴럴 네트워크 학습 장치는 다양한 방식을 통하여 입력 연결 가중치들을 복수의 그룹들로 분할할 수 있다. 일 예로, 뉴럴 네트워크 학습 장치는 제1 그룹에 속한 연결 가중치들의 합과 제2 그룹에 속한 연결 가중치들의 합 사이의 차이가 미리 정해진 제5 임계치 이하가 되도록, 선택된 노드(122)의 연결 가중치들을 제1 그룹 및 제2 그룹으로 분할할 수 있다.

다른 예로, 뉴럴 네트워크 학습 장치는 선택된 노드(122)의 연결 가중치들을 크기 순으로 정렬할 수 있다. 선택된 노드(122)의 연결 가중치들이 총 n개인 경우, 연결 가중치들이 정렬된 정렬 리스트에 포함된 연결 가중치들은 각각 1 ~ n으로 인덱스 될 수 있다. 뉴럴 네트워크 학습 장치는 정렬 리스트 내 양 끝에 위치한 연결 가중치들(인덱스 1, 인덱스 n)을 제1 그룹으로 분류하고, 정렬 리스트 내 분류되지 않은 연결 가중치들 중 양 끝에 위치한 연결 가중치들(인덱스 2, 인덱스 n-1)을 제2 그룹으로 분류할 수 있다. 뉴럴 네트워크 학습 장치는 정렬 리스트 내 모든 원소들이 분류될 때까지 전술한 과정을 반복함으로써, 선택된 노드(122)의 연결 가중치들을 제1 그룹 및 제2 그룹으로 분할할 수 있다.

전술한 방식들은 예시적인 사항에 불과하고, 선택된 노드(122)의 연결 가중치들을 제1 그룹 및 제2 그룹으로 분할하는 방식은 다양하게 변형될 수 있다. 뿐만 아니라, 실시예들은 선택된 노드(122)의 연결 가중치들을 3개 이상의 그룹들로 분할하는 방식으로도 확장될 수 있다.

또한, 뉴럴 네트워크 학습 장치는 출력 연결 가중치들을 복수의 그룹들로 분할할 수 있다. 예를 들어, 뉴럴 네트워크 학습 장치는 제1 출력 연결선의 제1 출력 연결 가중치(621), 제2 출력 연결선의 제2 출력 연결 가중치(622), 및 제3 출력 연결선의 제3 출력 연결 가중치(623)를 2개의 출력 그룹들로 분할할 수 있다. 2개의 출력 그룹들은 {제1 출력 연결 가중치(621)}와 {제2 출력 연결 가중치(622), 제3 출력 연결 가중치(623)}일 수 있다. 뉴럴 네트워크 학습 장치는 2개의 출력 그룹들 중 어느 하나의 출력 그룹, 예를 들어 {제2 출력 연결 가중치(622), 제3 출력 연결 가중치(623)}를 선택할 수 있다.

뉴럴 네트워크 학습 장치는 분할된 그룹들 중 어느 하나의 그룹에 속한 연결 가중치들을 선택할 수 있다. 예를 들어, 뉴럴 네트워크 학습 장치는 분할된 그룹들 중 어느 하나의 그룹을 미리 정해진 방식(예를 들어, 랜덤 선택 방식 등)에 따라 선택하고, 선택된 그룹에 속한 연결 가중치들을 선택할 수 있다.

도 7을 참조하면, 일 실시예에 따른 뉴럴 네트워크 학습 장치는 새로운 노드(123)의 연결 가중치들을 설정하기 위하여, 선택된 노드(122)로부터 선택된 일부의 연결 가중치들을 새로운 노드(123)로 이용할 수 있다. 예를 들어, 뉴럴 네트워크 학습 장치는 선택된 노드(122)의 입력 연결 가중치들(611, 612, 613) 모두를 선택할 수 있다. 선택된 노드(122)의 입력 연결 가중치들(611, 612, 613)는 입력 노드들(701, 702, 703)와 선택된 노드(122)를 연결하는 연결선들의 연결 가중치들이다. 뉴럴 네트워크 학습 장치는 선택된 입력 연결 가중치들(611, 612, 613)을 새로운 노드(123)로 복사(copy)할 수 있다. 뉴럴 네트워크 학습 장치는 입력 노드들(701, 702, 703)와 새로운 노드(123)를 연결하는 연결선의 연결 가중치들(711, 712, 713)를 입력 연결 가중치들(611, 612, 613)와 동일하게 설정할 수 있다.

뉴럴 네트워크 학습 장치는 선택된 노드(122)의 출력 연결 가중치들(621, 622, 623) 중 일부를 선택할 수 있다. 예를 들어, 뉴럴 네트워크 학습 장치는 선택된 노드(122)의 출력 연결 가중치들(621, 622, 623) 중 출력 연결 가중치들(622, 623)을 선택할 수 있다. 뉴럴 네트워크 학습 장치는 선택된 출력 연결 가중치들(622, 623)을 새로운 노드(123)로 이동(move)시킬 수 있다. 뉴럴 네트워크 학습 장치는 연결 가중치(722)를 출력 연결 가중치(622)와 동일하게 설정하고, 연결 가중치(723)을 출력 연결 가중치(623)과 동일하게 설정할 수 있다. 뉴럴 네트워크 학습 장치는 연결 가중치(722)와 연결 가중치(723)을 설정한 이후, 출력 연결 가중치(622)와 출력 연결 가중치(623)을 초기화할 수 있다. 예를 들어, 뉴럴 네트워크 학습 장치는 출력 연결 가중치(622)와 출력 연결 가중치(623)을 미리 정해진 초기값으로 설정할 수 있다.

실시예들은 출력 연결 가중치들을 인덱스 단위로 이동시킴으로써, 깊은 학습에서 발생 가능한 공동 적응(co-adaptation) 문제를 회피할 수 있다. 공동 적응 문제는 복수 개의 노드들이 비슷한 출력 연결 가중치들을 가질 경우 하나의 노드처럼 학습되고 출력되어 노드의 낭비를 초래하는 문제이다. 실시예들은 출력 연결 가중치들을 인덱스 단위로 새로운 노드로 분산시킴으로써 공동 적응 문제를 회피할 수 있다.

도 8을 참조하면, 일 실시예에 따른 뉴럴 네트워크 학습 장치는 새로운 노드(123)의 나머지 연결 가중치들을 초기화할 수 있다. 나머지 연결 가중치들은 새로운 노드(123)의 연결 가중치들 중 아직 설정되지 않은 연결 가중치를 포함할 수 있다. 예를 들어, 새로운 노드(123)의 연결 가중치(721)은 나머지 연결 가중치일 수 있다. 뉴럴 네트워크 학습 장치는 연결 가중치(721)를 나머지 연결 가중치로 검출하고, 연결 가중치(721)을 미리 정해진 초기값으로 설정할 수 있다.

이상에서 설명의 편의를 위하여, 하나의 노드가 선택되고 하나의 새로운 노드가 생성되는 경우를 설명하였으나, 실시예들은 복수의 노드들이 선택되고 복수의 새로운 노드들이 생성되는 경우에도 그대로 적용될 수 있다.

선택된 노드의 연결 가중치들에 기초하여 새로운 노드의 연결 가중치들을 설정하는 방식은 다양하게 변형될 수 있다. 일 예로, 선택된 노드의 입력 연결 가중치들 중 일부와 출력 연결 가중치들 중 일부만 새로운 노드로 이동될 수 있다. 다른 예로, 선택된 노드의 출력 연결 가중치들이 전부 새로운 노드로 복사되고, 입력 연결 가중치들 중 일부만 새로운 노드로 이동될 수도 있다.

도 9는 일 실시예에 따른 뉴럴 네트워크의 구조 확장 이후 추가적인 학습을 설명하는 도면이다. 도 9를 참조하면, 일 실시예에 따른 뉴럴 네트워크 학습 장치는 새로운 노드를 포함하도록 확장된 구조의 뉴럴 네트워크(900)를 학습시킴으로써, 연결 가중치들을 업데이트할 수 있다.

뉴럴 네트워크 학습 장치는 기 학습된 뉴럴 네트워크를 재활용함으로써, 학습 시간을 감축하는 기술을 제공할 수 있다. 또한, 뉴럴 네트워크 학습 장치는 기 학습된 뉴럴 네트워크의 구조를 점진적으로 확장시켜 학습시킴으로써, 뉴럴 네트워크의 인식 성능을 점진적으로 향상시키는 기술을 제공할 수 있다.

뉴럴 네트워크 학습 장치는 레이어 별 프리 트레이닝(pre-training) 없이 깊은 학습을 수행하는 기술을 제공할 수 있다. 뉴럴 네트워크 학습 장치는 전술한 방식을 통하여 학습의 전 과정(예를 들어, 뉴럴 네트워크 내 모든 레이어)에서 분류(classification)의 목적 함수를 공유하면서, 깊은 뉴럴 네트워크를 최적화(optimize)하는 깊은 학습을 수행할 수 있다.

도 10, 도 11a, 및 도 11b는 일 실시예에 따른 뉴럴 네트워크 구조 확장 방법의 응용들을 설명하는 도면들이다. 도 10을 참조하면, 단계(1010)에서 뉴럴 네트워크가 초기화된다. 예를 들어, 뉴럴 네트워크의 초기 구조, 뉴럴 네트워크 내 초기 연결 가중치들 등이 설정될 수 있다. 단계(1020)에서 뉴럴 네트워크가 학습된다. 트레이닝 데이터는 트레이닝 데이터 스토리지로부터 획득될 수 있다. 연산들은 뉴럴 네트워크를 통하여 활성화 패턴들이 모니터 되는 동안 프로세서에 의하여 수행될 수 있다. 예를 들어, 뉴럴 네트워크는 감독 학습, 오류 역 전파 학습 등을 통하여 학습될 수 있다.

단계(1030)에서 뉴럴 네트워크의 구조 확장이 필요한지 여부가 판단될 수 있다. 일 예로, 현재까지 학습된 뉴럴 네트워크의 성능이 평가될 수 있다. 성능은 뉴럴 네트워크에 의하여 수행된 분석이 정확한지 여부를 지칭할 수 있다. 만약 현재까지 학습된 뉴럴 네트워크의 성능이 미리 정해진 임계치보다 작은 경우, 뉴럴 네트워크의 구조 확장이 필요하다고 판단될 수 있다. 뉴럴 네트워크에게 주어진 태스크(예를 들어, 인식, 인증, 분류 등)의 성능을 향상시키기 위하여, 뉴럴 네트워크 내 노드의 개수가 증가될 필요가 있기 때문이다.

다른 예로, 외부 입력에 의하여 뉴럴 네트워크의 구조 확장이 필요한지 여부가 판단될 수 있다. 만약 단계(1030)에서 구조 확장을 지시하는 입력이 수신되는 경우, 뉴럴 네트워크의 구조 확장이 필요하다고 판단될 수 있다. 구조 확장을 지시하는 입력은 사용자 인터페이스를 통하여 수신되는 등 다양한 방식으로 수신될 수 있다.

단계(1030)에서 뉴럴 네트워크의 구조 확장이 필요하다고 판단되는 경우, 단계(1040)에서 뉴럴 네트워크의 구조가 확장된다. 단계(1040)에는 도 2 내지 도 8을 통하여 전술한 사항들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다. 단계(1050)에서 확장된 구조의 뉴럴 네트워크가 추가적으로 학습된다. 단계(1030)에서 뉴럴 네트워크의 구조 확장이 필요하지 않다고 판단되는 경우, 구조 확장이나 추가 학습 없이 뉴럴 네트워크의 학습이 종료될 수 있다.

도 11a를 참조하면, 단계(1110)에서 뉴럴 네트워크가 초기화된다. 단계(1120)에서 뉴럴 네트워크가 학습되고, 단계(1130)에서 뉴럴 네트워크의 구조 확장이 필요한지 여부가 판단된다. 단계(1120) 및 단계(1130)는 학습 에폭(epoch)을 구성할 수 있다. 단계(1120)에서 단일 학습 에폭을 위한 미리 정해진 수의 트레이닝 데이터들을 이용하여 뉴럴 네트워크가 학습될 수 있다. 단계(1130)에서 해당 학습 에폭에서의 성능 향상 정도가 평가되고, 평가 결과에 기초하여 뉴럴 네트워크의 구조 확장이 필요한지 여부가 판단될 수 있다.

예를 들어, 해당 학습 에폭에서의 성능 향상이 미리 정해진 제1 임계치보다 큰 경우 현재 구조의 뉴럴 네트워크가 더 학습될 여지가 있으므로, 뉴럴 네트워크의 구조 확장이 필요하지 않다고 판단될 수 있다. 반면, 해당 학습 에폭에서의 성능 향상이 미리 정해진 제1 임계치보다 작은 경우 현재 구조의 뉴럴 네트워크의 성능이 포화된 것이므로, 뉴럴 네트워크의 구조 확장이 필요하다고 판단될 수 있다.

뉴럴 네트워크의 구조 확장이 필요하다고 판단되면, 단계(1140)에서 뉴럴 네트워크의 학습 종료 조건이 만족되는지 여부가 판단된다. 이 때, 현재 구조의 뉴럴 네트워크의 성능과 이전(previous) 구조의 뉴럴 네트워크의 성능이 비교되고, 비교 결과에 기초하여 뉴럴 네트워크의 학습 종료 조건이 만족되는지 여부가 판단될 수 있다. 이전 구조의 뉴럴 네트워크는 현재 구조의 뉴럴 네트워크로 구조 확장되기 이전의 뉴럴 네트워크를 의미한다.

예를 들어, 현재 구조의 뉴럴 네트워크의 성능과 이전 구조의 뉴럴 네트워크의 성능 사이의 차이가 미리 정해진 제2 임계치보다 큰 경우, 추가적인 구조 확장으로 인한 성능 향상을 기대할 수 있으므로, 뉴럴 네트워크의 학습 종료 조건이 만족되지 않는다고 판단될 수 있다. 반면, 현재 구조의 뉴럴 네트워크의 성능과 이전 구조의 뉴럴 네트워크의 성능 사이의 차이가 미리 정해진 제2 임계치보다 작은 경우 추가적인 구조 확장으로 인한 성능 향상을 기대할 수 없으므로, 뉴럴 네트워크의 학습 종료 조건이 만족된다고 판단될 수 있다.

뉴럴 네트워크의 학습 종료 조건이 만족되지 않은 경우, 단계(1150)에서 뉴럴 네트워크의 구조가 확장될 수 있다. 단계(1120) 내지 단계(1150)은 뉴럴 네트워크의 학습 종료 조건이 만족될 때까지 반복될 수 있다.

도 11b를 참조하면, 제1 뉴럴 네트워크(1160)가 초기화될 수 있다. 제1 학습 에폭(1161)에서 제1 뉴럴 네트워크(1160)가 학습되고, 성능 향상 정도가 평가될 수 있다. 제1 학습 에폭(1161)에서 제1 뉴럴 네트워크(1160)가 학습된 결과, 성능 향상 정도가 제1 임계치보다 클 수 있다. 이 경우, 성능 향상 평가의 결과는 'Pass'이고, 아직 구조 확장이 필요하지 않다고 판단될 수 있다. 제2 학습 에폭(1162)에서도 학습 및 성능 향상 평가가 수행될 수 있다. 제3 학습 에폭(1163)에서 제1 뉴럴 네트워크(1160)가 학습된 결과, 성능 향상 정도가 제1 임계치보다 작을 수 있다. 이 경우, 성능 향상 평가의 결과는 'Fail'이고, 구조 확장이 필요하다고 판단될 수 있다.

단계(1171)에서 제1 뉴럴 네트워크(1160)가 구조 확장 됨으로써 제2 뉴럴 네트워크(1170)가 생성된다. 복수의 학습 에폭들 각각에서 제2 뉴럴 네트워크(1170)는 학습되고, 해당 학습 에폭에서의 성능 향상 정도가 평가된다. 제4 학습 에폭(1172)에서 제2 뉴럴 네트워크(1170)가 학습된 결과, 성능 향상 정도가 제1 임계치보다 작을 수 있다. 이 경우, 성능 향상 평가의 결과는 'Fail'이고, 구조 확장이 필요하다고 판단될 수 있다.

뉴럴 네트워크의 구조 확장이 수행되기 전, 현재 구조의 뉴럴 네트워크의 성능과 이전 구조의 뉴럴 네트워크의 성능을 비교함으로써 뉴럴 네트워크의 학습 종료 조건이 만족되는지 여부가 판단될 수 있다. 뉴럴 네트워크의 구조가 충분히 커진 경우, 추가적인 구조 확장으로 인하여 뉴럴 네트워크의 성능 향상을 기대하기 어렵기 때문이다.

단계(1173)에서 제2 뉴럴 네트워크(1170)의 성능과 제1 뉴럴 네트워크(1160)의 성능이 비교된다. 비교 결과, 제2 뉴럴 네트워크(1170)의 성능과 제1 뉴럴 네트워크(1160)의 성능 사이의 차이가 제2 임계치보다 클 수 있다. 이 경우, 성능 비교의 결과는 'Pass'이고, 뉴럴 네트워크의 학습 종료 조건이 만족되지 않는다고 판단될 수 있다.

단계(1181)에서 제2 뉴럴 네트워크(1170)가 구조 확장 됨으로써 제3 뉴럴 네트워크(1180)가 생성된다. 제5 학습 에폭(1182)에서 제3 뉴럴 네트워크(1180)가 학습된 결과, 성능 향상 정도가 제1 임계치보다 작을 수 있다. 이 경우, 성능 향상 평가의 결과는 'Fail'이고, 구조 확장이 필요하다고 판단될 수 있다. 단계(1183)에서 제3 뉴럴 네트워크(1180)의 성능과 제2 뉴럴 네트워크(1170)의 성능이 비교된다. 비교 결과, 제3 뉴럴 네트워크(1180)의 성능과 제2 뉴럴 네트워크(1170)의 성능 사이의 차이가 제2 임계치보다 작을 수 있다. 다시 말해, 구조 확장을 통한 성능 향상 정도가 제2 임계치보다 작을 수 있다. 이 경우, 성능 비교의 결과는 'Fail'이고, 뉴럴 네트워크의 학습 종료 조건이 만족된다고 판단될 수 있다.

도 12 및 도 13은 일 실시예에 따른 뉴럴 네트워크 구조 확장 방법에 의하여 학습되는 뉴럴 네트워크를 설명하는 도면들이다. 도 12를 참조하면, 일 실시예에 따른 뉴럴 네트워크(1200)는 입력 레이어(1210), 복수의 히든 레이어들(1220), 및 출력 레이어(1230)를 포함한다. 복수의 히든 레이어들(1220) 각각은 미리 정해진 수 이하의 노드들을 포함하도록 초기화될 수 있다. 이러한 초기화 동작은 도 10의 단계(1010) 또는 도 11의 단계(1110)에서 수행될 수 있다.

뉴럴 네트워크(1200)는 도 10의 단계(1020) 내지 단계(1050) 또는 도 11의 단계(1120) 내지 단계(1150)을 통하여, 구조 확장되면서 학습될 수 있다. 도 10의 단계(1040) 또는 도 11의 단계(1150)에서 뉴럴 네트워크(1200)의 히든 레이어들(1220)에서 새로운 노드가 생성될 수 있다. 도 13을 참조하면, 일 실시예에 따른 학습된 뉴럴 네트워크(1300)는 구조 확장된 히든 레이어들(1320)을 포함한다.

도 14 및 도 15는 일 실시예에 따른 뉴럴 네트워크 구조 확장 방법에 의하여 학습되는 오토 인코더를 설명하는 도면들이다. 오토 인코더(auto encoder)는 디멘션 리덕션(dimension reduction)을 목적으로 하는 뉴럴 네트워크이다. 도 14를 참조하면, 일 실시예에 따른 오토 인코더(1400)는 입력 레이어(1410), 히든 레이어(1420), 및 출력 레이어(1430)를 포함한다.

입력 레이어(1410), 히든 레이어(1420), 및 출력 레이어(1430)는 오토 인코더의 입력 디멘션(input dimension)에 기초하여 초기화될 수 있다. 예를 들어, 입력 레이어(1410)에 포함되는 노드의 수는 입력 디멘션에 기초하여 결정될 수 있다. 출력 레이어(1430)에 포함되는 노드의 수는 입력 레이어(1410)에 포함되는 노드의 수와 동일하게 결정될 수 있다. 히든 레이어(1420)에 포함되는 노드의 수는 미리 정해진 초기 값(예를 들어, 2)으로 결정될 수 있다.

오토 인코더(1400) 내에서 입력 레이어(1410) -> 히든 레이어(1420)의 구조와 히든 레이어(1420) -> 출력 레이어(1430)의 구조는 서로 대칭이다. 오토 인코더(1400) 내에서 입력 레이어(1410) -> 히든 레이어(1420)는 인코딩(encoding)에 해당하고, 히든 레이어(1420) -> 출력 레이어(1430)는 디코딩(decoding)에 해당한다.

오토 인코더(1400)는 인코딩을 통하여 입력 디멘션을 리덕션 한 뒤, 디코딩을 통하여 리덕션 된 입력 디멘션을 복구하는 동작을 수행한다. 오토 인코더(1400)의 목적 함수는 입력 값들과 출력 값들이 동일할 것을 요구한다. 오토 인코더는 디멘션 리덕션을 목적으로 하므로, 히든 레이어(1420)를 위한 미리 정해진 초기 값은 입력 디멘션보다 작아야 한다. 전술한 초기화 동작은 도 10의 단계(1010) 또는 도 11의 단계(1110)에서 수행될 수 있다.

오토 인코더(1400)는 도 10의 단계(1020) 내지 단계(1050) 또는 도 11의 단계(1120) 내지 단계(1150)을 통하여, 구조 확장되면서 학습될 수 있다. 도 10의 단계(1040) 또는 도 11의 단계(1150)에서 오토 인코더(1400)의 히든 레이어들(1420)에서 새로운 노드가 생성될 수 있다.

일 실시예에 따른 디멘션 리덕션 장치는 히든 레이어(1420)에 포함된 노드의 수를 가능한 작은 수로 초기화한 뒤, 히든 레이어(1420)를 확장시켜 가면서 오토 인코더(1400)를 학습시킬 수 있다. 디멘션 리덕션 장치는 소프트웨어 모듈, 하드웨어 모듈, 또는 이들의 조합으로 구현될 수 있다.

도 15를 참조하면, 오토 인코더(1500)의 성능이 일정 수준 이상이 되면, 오토 인코더(1500)의 학습을 종료할 수 있다. 오토 인코더(1500)는 구조 확장된 히든 레이어(1520)를 포함할 수 있다. 히든 레이어(1520)에 포함된 노드의 수는 입력 디멘션이 리덕션 된 결과일 수 있다.

도면에 도시하지 않았으나, 오토 인코더도 복수의 히든 레이어들을 포함할 수 있다. 예를 들어, 오토 인코더는 입력 레이어, 제1 히든 레이어들, 중앙 히든 레이어, 제2 히든 레이어들, 및 출력 레이어를 포함할 수 있다. 오토 인코더의 기본 동작을 유지하기 위하여, 입력 레이어 -> 제1 히든 레이어들 -> 중앙 히든 레이어의 구조는 중앙 히든 레이어 -> 제2 히든 레이어들 -> 출력 레이어의 구조와 대칭을 이루어야 한다. 히든 레이어의 구조가 확장될 때, 제1 히든 레이어들과 제3 히든 레이어들은 서로 대칭을 유지할 수 있다.

도 16은 일 실시예에 따른 뉴럴 네트워크 학습 장치를 나타낸 블록도이다. 도 16을 참조하면, 일 실시예에 따른 뉴럴 네트워크 학습 장치(1600)는 선택부(1610), 생성부(1620), 연결부(1630), 설정부(1640), 및 학습부(1650)를 포함한다. 선택부(1610), 생성부(1620), 연결부(1630), 설정부(1640), 및 학습부(1650)는 하나 또는 그 이상의 프로세서와 메모리를 포함할 수 있다. 선택부(1610)는 뉴럴 네트워크의 구조 확장을 위하여, 뉴럴 네트워크에 포함된 노드들 중 적어도 하나의 노드를 선택할 수 있다. 생성부(1620)는 선택된 노드가 속한 레이어에 새로운 노드를 생성할 수 있다. 연결부(1630)는 새로운 노드를 기존 노드들로 연결할 수 있다. 설정부(1640)는 선택된 노드의 연결 가중치들에 기초하여 새로운 노드의 연결 가중치들을 설정할 수 있다. 학습부(1650)는 트레이닝 데이터를 이용하여 뉴럴 네트워크를 학습시킴으로써 새로운 노드와 기존 노드들 사이의 연결 가중치들을 조정할 수 있다. 트레이닝 데이터는 메모리 스토리지로부터 획득될 수 있다.

도 17은 일 실시예에 따른 디멘션 리덕션 장치를 나타낸 블록도이다. 도 17을 참조하면, 일 실시예에 따른 디멘션 리덕션 장치(1700)는 초기화부(1710), 판단부(1720), 및 확장부(1730)를 포함한다. 초기화부(1710), 판단부(1720), 및 확장부(1730)는 하나 또는 그 이상의 프로세서 및 메모리를 포함할 수 있다. 초기화부(1710)는 입력 디멘션에 기초하여, 뉴럴 네트워크의 입력 레이어, 히든 레이어, 및 출력 레이어를 초기화할 수 있다. 판단부(1720)는 뉴럴 네트워크를 학습시키면서, 히든 레이어의 확장이 필요한지 여부를 판단할 수 있다. 확장부(1730)는 히든 레이어의 확장이 필요하다는 판단에 따라, 히든 레이어를 확장시킬 수 있다.

도 16 및 도 17에 도시된 각 모듈들에는 도 1 내지 도 15를 통하여 전술한 사항들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 생략한다.

도 19는 일 실시예에 따른 뉴럴 네트워크를 확장하는 장치를 도시한 블록도이다. 도 1 내지 도 18을 참조하여 기술한 사항들은 도 19의 실시예에 그대로 적용될 수 있다. 따라서, 중복적인 기술은 생략한다.

도 19를 참조하면, 뉴럴 네트워크 확장 장치(1910)는 프로세서(1910), 뉴럴 네트워크 스토리지(1920), 계산 값들을 저장하는 메모리(1930), 및 트레이닝 데이터 스토리지(1940)를 포함한다. 프로세서(1910)는 단수 형태로 기재되었으나, 프로세서(1910)는 복수의 프로세서들 또는 코어들을 포함할 수 있다. 예를 들어, 프로세서(1910)는 복수의 멀티 코어 프로세서들을 포함하는 컴퓨팅 장치 내에서 동작할 수 있다. 일 예로, 멀티 코어 프로세서는 GPGPU(general purpose graphic processing unit)일 수 있다. 다른 예로, 멀티 코어 프로세서들 각각은 FPGA(field-programmable gate array)이거나, 맞춤형(customizable) 멀티 코어 프로세서일 수 있다. 또 다른 예로, 프로세서(1910)는 PCI-E(peripheral component interconnect express) 버스와 같은 내부 버스를 통하여 데이터를 교환할 수 있다. 또 다른 예로, 프로세서는 단일 코어 프로세서일 수 있다.

일 실시예에 따르면, 프로세서(1910)는 뉴럴 네트워크 스토리지(1920)에 저장된 뉴럴 네트워크를 레이어 별로 처리하기 위하여 파이프라인 알고리즘을 이용할 수 있다. 뉴럴 네트워크 스토리지(1920)는 복수의 레이어들을 포함하는 뉴럴 네트워크를 저장할 수 있다. 예를 들어, 뉴럴 네트워크는 세 개 이상의 레이어들을 포함할 수 있다. 트레이닝 데이터 스토리지(1940)에 저장된 트레이닝 데이터는 뉴럴 네트워크 스토리지(1920)에 저장된 뉴럴 네트워크의 입력 레이어에 입력을 제공할 수 있다. 예를 들어, 뉴럴 네트워크가 영어 손 글씨(hand-written English)의 패턴을 인식하도록 학습시키기 위하여, 트레이닝 데이터는 손 글씨들의 디지털 이미지들 및 그 이미지들로부터 인식되어야 하는 텍스트 문자들을 포함할 수 있다. 텍스트 문자들은 뉴럴 네트워크의 성능을 결정하는 데 이용될 수 있다. 뉴럴 네트워크가 음성을 인식하도록 학습시키기 위하여, 트레이닝 데이터는 오디오 레코딩 샘플들 또는 스피치 코퍼스(speech corpus)를 포함할 수 있다.

뉴럴 네트워크의 노드 활성화 패턴들, 및 에지들에 할당되는 연결 가중치들 등 프로세서(1910)에 의하여 수행되는 연산들은 뉴럴 네트워크가 학습되는 동안 메모리(1930)에 저장될 수 있다. 일 예에 따르면, 뉴럴 네트워크 스토리지(1920)에 저장된 뉴럴 네트워크는, 학습되는 동안, 프로세서(1910)에 의하여 새로운 노드가 추가되거나 새로운 히든 레이어가 추가됨으로써 지속적으로 업데이트 될 수 있다.

도 20은 일 실시예에 따른 확장된 뉴럴 네트워크를 이용하여 입력 데이터를 분석하는 장치를 나타낸 블록도이다. 도 1 내지 도 19를 참조하여 기술한 사항들은 도 20의 실시예에 그대로 적용될 수 있다. 따라서, 중복적인 기술은 생략한다.

뉴럴 네트워크가 충분히 학습된 이후, 확장된 뉴럴 네트워크는 입력 데이터를 처리하는 데 이용될 수 있다. 예를 들어, 프로세서(2010)는 메모리 또는 입출력 장치로부터 디지털 손 글씨와 같은 입력 데이터를 획득할 수 있다. 입출력 장치는 키보드, 디스플레이 장치, 터치 스크린, 프린터 등을 포함할 수 있고, 이들 예시에 국한되지 않는다. 프로세서(2010)는 입력 데이터를 뉴럴 네트워크 스토리지(2220)에 저장된 확장된 뉴럴 네트워크의 입력 레이어로 제공할 수 있다. 확장된 뉴럴 네트워크를 이용하여, 프로세서(2010)는 입력 데이터를 인식된 텍스트들을 포함하는 출력 데이터로 변환하는 문자 인식을 수행할 수 있다.

일 실시예에 따르면, 프로세서(2010)는 도 20에서와 같이 입력을 분석할 뿐 아니라, 뉴럴 네트워크의 디멘션을 학습시키거나, 확장하거나, 변경할 수 있다. 다른 실시예에 따르면, 뉴럴 네트워크 확장 및 데이터 분석은 두 개의 분리된 장치들에 의하여 수행될 수도 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 비록 한정된 도면에 의해 실시예들이 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨팅 장치에 의해 각 단계가 수행되는 뉴럴 네트워크 확장 방법에 있어서,
뉴럴 네트워크를 구현하는 단계;
상기 뉴럴 네트워크에 포함된 노드들의 활성화 패턴에 기초하여 활성화 빈도수 정보를 생성하는 단계;
상기 활성화 빈도수 정보에 기초하여 상기 노드들 중 확장을 위한 노드를 선택하는 단계;
상기 선택된 노드가 속한 레이어에 새로운 노드를 생성하여 상기 뉴럴 네트워크를 확장하는 단계;
상기 선택된 노드의 연결 가중치의 선택된 부분을 사용하여, 상기 새로운 노드의 연결 가중치들을 설정하는 단계;
미리 정해진 초기값을 이용하여 상기 새로운 노드의 연결 가중치 중 적어도 일부를 설정하는 단계; 및
상기 설정된 새로운 노드의 가중치로 상기 확장된 뉴럴 네트워크를 구현하는 단계
를 포함하고,
상기 확장을 위한 노드를 선택하는 단계는,
상기 노드들의 활성화 빈도수 정보 및 활성화 엔트로피 정보에 기초하여 상기 확장을 위한 노드를 선택하는 단계
를 포함하고,
상기 노드들 중 미리 정해진 시간 구간에서 활성화 엔트로피가 미리 정해진 제3 임계치보다 작고, 활성화 빈도수가 미리 정해진 제4 임계치보다 큰 노드가 선택되는,
뉴럴 네트워크 확장 방법.
제1항에 있어서,
상기 뉴럴 네트워크의 확장이 필요한지 여부를 판단하는 단계
를 더 포함하는, 뉴럴 네트워크 확장 방법.
제2항에 있어서,
상기 판단하는 단계는
상기 뉴럴 네트워크의 성능을 모니터링 하는 단계; 및
상기 뉴럴 네트워크의 성능이 향상되는 정도가 미리 정해진 제1 임계치보다 작은 경우, 상기 뉴럴 네트워크의 확장이 필요하다고 판단하는 단계
를 포함하는, 뉴럴 네트워크 확장 방법.
제2항에 있어서,
상기 판단하는 단계는
상기 뉴럴 네트워크의 성능을 모니터링 하는 단계; 및
상기 뉴럴 네트워크의 성능이 향상되는 정도가 미리 정해진 제1 임계치보다 작고, 상기 뉴럴 네트워크의 이전(previous) 확장 이후 상기 뉴럴 네트워크의 성능이 향상된 정도가 미리 정해진 제2 임계치보다 작은 경우, 상기 뉴럴 네트워크의 학습을 종료시키는 단계
를 더 포함하는, 뉴럴 네트워크 확장 방법.
삭제
제1항에 있어서,
상기 활성화 빈도수 정보는
미리 정해진 시간 구간 내, 상기 노드들 각각이 활성화되는 빈도수를 포함하는, 뉴럴 네트워크 확장 방법.
제1항에 있어서,
상기 활성화 엔트로피 정보는
미리 정해진 시간 구간 내, 상기 노드들 각각이 활성화 상태와 비활성화 상태 사이에서 천이되는 횟수를 포함하는, 뉴럴 네트워크 확장 방법.
제1항에 있어서,
상기 노드들 중 미리 정해진 시간 구간에서 활성화 빈도수가 가장 큰 노드가 선택되는, 뉴럴 네트워크 확장 방법.
삭제
제1항에 있어서,
상기 생성하는 단계는
상기 레이어의 이전 레이어에 포함된 노드들과 상기 새로운 노드 사이를 연결하는 단계; 및
상기 레이어의 다음 레이어에 포함된 노드들과 상기 새로운 노드 사이를 연결하는 단계
를 포함하는, 뉴럴 네트워크 확장 방법.
제10항에 있어서,
상기 새로운 노드의 연결 가중치들을 미리 정해진 초기값으로 설정하는 단계
를 더 포함하는, 뉴럴 네트워크 확장 방법.
제1항에 있어서,
상기 선택된 노드를 포함하는 레이어는 상기 뉴럴 네트워크의 히든 레이어를 포함하는, 뉴럴 네트워크 확장 방법.
제1항에 있어서,
상기 설정하는 단계는
상기 선택된 노드의 연결 가중치들 중 적어도 일부를 선택하는 단계; 및
상기 새로운 노드에서 상기 선택된 적어도 일부의 연결 가중치들에 대응하는 연결 가중치들을 상기 선택된 적어도 일부의 연결 가중치들로 설정하는 단계
를 포함하는, 뉴럴 네트워크 확장 방법.
제13항에 있어서,
상기 설정하는 단계는
상기 선택된 노드에서 상기 선택된 적어도 일부의 연결 가중치들을 미리 정해진 초기값으로 설정하는 단계
를 더 포함하는, 뉴럴 네트워크 확장 방법.
제13항에 있어서,
상기 선택된 노드의 연결 가중치들 중 적어도 일부를 선택하는 단계는
상기 선택된 노드의 연결 가중치들을 제1 그룹 및 제2 그룹으로 분할하는 단계; 및
상기 제1 그룹 및 상기 제2 그룹 중 어느 하나의 그룹에 속한 연결 가중치들을 선택하는 단계
를 포함하는, 뉴럴 네트워크 확장 방법.
제15항에 있어서,
상기 선택된 노드의 연결 가중치들은
상기 제1 그룹에 속한 연결 가중치들의 합과 상기 제2 그룹에 속한 연결 가중치들의 합 사이의 차이가 미리 정해진 제5 임계치 이하가 되도록, 상기 제1 그룹 및 상기 제2 그룹으로 분할되는, 뉴럴 네트워크 확장 방법.
제1항에 있어서,
상기 설정하는 단계는
상기 새로운 노드의 입력 연결 가중치들을 상기 선택된 노드의 입력 연결 가중치들로 설정하는 단계;
상기 선택된 노드의 출력 연결 가중치들 중 일부를 선택하는 단계;
상기 새로운 노드에서 상기 선택된 일부의 출력 연결 가중치들에 대응하는 연결 가중치들을 상기 선택된 일부의 출력 연결 가중치들로 설정하는 단계; 및
상기 선택된 노드에서 상기 선택된 일부의 출력 연결 가중치들을 미리 정해진 초기값으로 설정하는 단계
를 포함하는, 뉴럴 네트워크 확장 방법.
제1항에 있어서,
상기 선택된 노드의 활성화 특성에 기초하여 상기 새로운 노드의 활성화 특성을 설정하는 단계
를 더 포함하는, 뉴럴 네트워크 확장 방법.
제1항에 있어서,
상기 새로운 노드를 포함하도록 확장된 뉴럴 네트워크를 학습시키는 단계
를 더 포함하는, 뉴럴 네트워크 확장 방법.
제1항에 있어서,
초기 뉴럴 네트워크는
미리 정해진 수 이하의 노드들을 포함하는 복수의 히든 레이어들을 포함하는, 뉴럴 네트워크 확장 방법.
제20항에 있어서,
상기 선택하는 단계는
상기 복수의 히든 레이어들에 포함된 노드들 중 적어도 하나의 노드를 선택하는 단계
를 포함하는, 뉴럴 네트워크 확장 방법.
컴퓨팅 장치에 의해 각 단계가 수행되는 디멘션 리덕션 방법에 있어서,
입력 레이어, 하나 또는 그 이상의 히든 레이어, 및 출력 레이어를 포함하는 뉴럴 네트워크를 학습시키는 단계;
상기 뉴럴 네트워크를 학습시키는 동안, 상기 히든 레이어의 확장이 필요한지 여부를 판단하는 단계;
상기 히든 레이어의 노드들의 결정된 활성화 패턴에 기초하여 활성화 빈도 정보를 생성하는 단계; 및
상기 히든 레이어의 확장이 필요하다는 판단에 따라, 디멘션 리덕션을 수행하는 단계
를 포함하고,
상기 디멘션 리덕션을 수행하는 단계는,
상기 활성화 빈도 정보를 이용하여 상기 히든 레이어의 노드들 중 확장을 위한 노드를 선택하는 단계;
상기 선택된 노드를 포함하는 히든 레이어에 새로운 노드를 추가하여 상기 히든 레이어를 확장하는 단계;
상기 선택된 노드의 연결 가중치의 선택된 부분을 사용하여, 상기 새로운 노드의 연결 가중치의 선택된 부분을 설정하는 단계; 및
미리 정해진 초기 값을 이용하여 상기 새로운 노드의 연결 가중치 중 적어도 일부를 구성하는 단계
를 포함하고,
상기 활성화 빈도 정보를 이용하여 상기 히든 레이어의 노드들 중 확장을 위한 노드를 선택하는 단계는,
상기 활성화 빈도 정보 및 생성된 상기 뉴럴 네트워크의 노드들의 활성화 엔트로피 정보에 기초하여 결정하는 단계
를 포함하고,
상기 확장된 히든 레이어의 디멘션은 상기 입력 레이어의 디멘션보다 작은,
디멘션 리덕션(dimension reduction) 방법.
제22항에 있어서,
상기 뉴럴 네트워크를 학습시키기 이전에, 상기 뉴럴 네트워크를 초기화하는 단계
를 더 포함하고,
상기 초기화하는 단계는
상기 입력 레이어에서 입력 디멘션에 해당하는 수의 노드들을 생성하는 단계;
상기 히든 레이어에서 미리 정해진 초기값에 해당하는 적어도 하나의 노드를 생성하는 단계;
상기 출력 레이어에서 상기 입력 디멘션에 해당하는 수의 노드들을 생성하는 단계
를 포함하는, 디멘션 리덕션 방법.
제22항에 있어서,
상기 판단하는 단계는
상기 입력 레이어에 입력되는 값들과 상기 출력 레이어에서 출력되는 값들 사이의 차이에 기초하여, 상기 뉴럴 네트워크의 성능을 모니터링 하는 단계; 및
상기 뉴럴 네트워크의 성능이 향상되는 정도가 미리 정해진 임계치보다 작은 경우, 상기 뉴럴 네트워크의 확장이 필요하다고 판단하는 단계
를 포함하는, 디멘션 리덕션 방법.
삭제
삭제
제22항에 있어서,
상기 생성하는 단계는
상기 선택된 노드를 포함하는 히든 레이어의 선행 레이어에 포함된 노드들과 상기 새로운 노드 사이를 연결하는 단계; 및
상기 선택된 노드를 포함하는 히든 레이어의 후행 레이어에 포함된 노드들과 상기 새로운 노드 사이를 연결하는 단계
를 포함하는, 디멘션 리덕션 방법.
제22항에 있어서,
상기 설정하는 단계는
상기 선택된 노드의 연결 가중치들 중 적어도 일부를 선택하는 단계; 및
상기 새로운 노드에서 상기 선택된 적어도 일부의 연결 가중치들에 대응하는 연결 가중치들을 상기 선택된 적어도 일부의 연결 가중치들로 설정하는 단계
를 포함하는, 디멘션 리덕션 방법.
제28항에 있어서,
상기 설정하는 단계는
상기 선택된 노드에서 상기 선택된 적어도 일부의 연결 가중치들을 미리 정해진 초기값으로 설정하는 단계
를 더 포함하는, 디멘션 리덕션 방법.
제22항에 있어서,
상기 확장된 히든 레이어를 포함하는 뉴럴 네트워크를 학습시키는 단계
를 더 포함하는, 디멘션 리덕션 방법.
하드웨어와 결합되어 제1항 내지 제4항, 제6항 내지 제8항, 제10항 내지 제24항 및 제27항 내지 제30항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 판독 가능 기록 컴퓨터 프로그램.
뉴럴 네트워크를 저장하는 메모리; 및
뉴럴 네트워크에 포함된 노드들의 활성화 빈도 정보에 기초하여 상기 뉴럴 네트워크의 확장을 위한 노드를 선택하고, 상기 선택된 노드를 포함하는 레이어에 새로운 노드를 추가함으로써 상기 뉴럴 네트워크를 확장하고,
선택된 노드의 연결 가중치의 선택된 부분을 사용하여, 상기 새로운 노드의 연결 가중치들을 설정하고, 미리 정해진 초기값을 이용하여 상기 새로운 노드의 연결 가중치 중 적어도 일부를 설정하여, 상기 설정된 새로운 노드의 가중치로 상기 확장된 뉴럴 네트워크를 구현하는 프로세서
를 포함하고,
상기 확장을 위한 노드는, 상기 노드들의 활성화 빈도수 정보 및 활성화 엔트로피 정보에 기초하여 선택되고,
상기 노드들 중 미리 정해진 시간 구간에서 활성화 엔트로피가 미리 정해진 제3 임계치보다 작고, 활성화 빈도수가 미리 정해진 제4 임계치보다 큰 노드가 선택되는,
뉴럴 네트워크 확장 장치.
제32항에 있어서,
상기 프로세서는
상기 선택된 노드의 연결 가중치들에 기초하여 상기 새로운 노드의 연결 가중치들을 설정하는, 뉴럴 네트워크 확장 장치.
제32항에 있어서,
상기 프로세서는
트레이닝 데이터를 이용하여 상기 확장된 뉴럴 네트워크를 학습시킴으로써 상기 새로운 노드의 연결 가중치들을 조정하는, 뉴럴 네트워크 확장 장치.
제32항에 있어서,
상기 프로세서는
트레이닝 데이터 메모리 스토리지의 트레이닝 데이터를 상기 확장된 뉴럴 네트워크에 적용하고, 상기 확장된 뉴럴 네트워크의 활성화 패턴에 기초하여 히든 레이어의 확장이 요구되는지 여부를 결정하며, 상기 히든 레이어의 확장이 요구된다는 판단에 기초하여 상기 뉴럴 네트워크의 히든 레이어 내 노드들의 수를 증가시키는, 뉴럴 네트워크 확장 장치.
제32항에 있어서,
입력 장치를 더 포함하고,
상기 프로세서는
출력 데이터를 획득하기 위하여, 상기 입력 장치를 이용하여 획득된 입력 데이터를 상기 뉴럴 네트워크에 적용하는, 뉴럴 네트워크 확장 장치.