KR20200031163A

KR20200031163A - 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체

Info

Publication number: KR20200031163A
Application number: KR1020207005617A
Authority: KR
Inventors: 자오 종; 준지에 얀; 쳉린 리우
Original assignee: 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date: 2017-08-18
Filing date: 2018-08-17
Publication date: 2020-03-23
Also published as: KR102170105B1; US11270190B2; WO2019034129A1; JP6811894B2; SG11201912129TA; CN108229647A; US20190095780A1; JP2020526855A

Abstract

신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체로서, 신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하는 단계(101) - 네트워크 블록은 적어도 하나의 네트워크 계층을 포함함 - ; 네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성하는 단계(102); 샘플 데이터에 기반하여 샘플링 신경 네트워크에 대해 훈련을 진행하고, 샘플링 신경 네트워크에 대응되는 정확도를 얻는 단계(103); 및 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지, 정확도에 따라 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하는 단계(104)를 포함한다. 샘플 데이터에 기반하고 강화 학습을 통해 신경 네트워크에서의 네트워크 블록을 생성하여, 생성된 네트워크 블록에 의해 형성된 신경 네트워크가 샘플 데이터에 대응되는 작업 및 데이터 중 적어도 하나에 대한 정확도가 기대치에 도달하도록 함으로써, 네트워크 구조 설계의 비용 및 시간을 감소시킨다.

Description

신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체

본 출원은 2017년 8월 18일에 중국 특허청에 제출된, 출원 번호가 CN201710718042.2이고, 발명의 명칭이 "신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체"인 중국 특허 신청의 우선권을 주장하는 바, 그 전부 내용은 본 출원에 원용된다.

본 출원은 인공 지능 기술에 관한 것으로서, 특히 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체에 관한 것이다.

신경 네트워크는 동물 신경 네트워크의 행위 특징을 모방하여 분산식 병행 정보 처리를 진행하는 알고리즘 수학적 모델이다. 컴퓨터 시각 기술의 발전에 따라, 신경 네트워크는 이미지 식별 시스템에서의 핵심 기술에 속하기 때문에, 신경 네트워크는 보안 모니터링, 금융, 심지어 자율 주행 등 기술분야에 이미 광범위하게 적용되었다. 상이한 작업 또는 상이한 응용 시나리오에 있어서, 필요한 신경 네트워크의 구조 및 파라미터는 상이하다.

본 출원 실시예는 신경 네트워크 구조를 생성하는 기술방안을 제공한다.

본 출원 실시예의 제1 측면에 있어서, 신경 네트워크 구조의 생성 방법을 제공하고, 상기 방법은,

신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하는 단계 - 상기 네트워크 블록은 적어도 하나의 네트워크 계층을 포함함 - ;

상기 네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성하는 단계;

샘플 데이터에 기반하여 상기 샘플링 신경 네트워크에 대해 훈련을 진행하고, 상기 샘플링 신경 네트워크에 대응되는 정확도를 얻는 단계; 및

상기 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지, 상기 정확도에 따라 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하는 단계를 포함한다.

본 출원 실시예의 제2 측면에 따라, 신경 네트워크 구조의 생성 장치를 제공하고, 상기 장치는,

신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하기 위한 샘플링 유닛 - 상기 네트워크 블록은 적어도 하나의 네트워크 계층을 포함함 - ;

상기 네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성하기 위한 네트워크 형성 유닛;

샘플 데이터에 기반하여 상기 샘플링 신경 네트워크에 대해 훈련을 진행하고, 상기 샘플링 신경 네트워크에 대응되는 정확도를 얻기 위한 훈련 유닛; 및

상기 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지, 상기 정확도에 따라 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하기 위한 네트워크 출력 유닛을 포함한다.

본 출원 실시예의 제3 측면에 따라, 프로세서를 포함하는 전자 기기를 제공하고, 상기 프로세서는 전술한 신경 네트워크 구조의 생성 장치를 포함한다.

본 출원 실시예의 제4 측면에 따라, 전자 기기를 제공하고, 상기 전자 기기는 실행 가능한 명령어를 저장하기 위한 메모리; 및

상기 메모리와 통신하여 상기 실행 가능한 명령어를 실행함으로써 전술한 신경 네트워크 구조의 생성 방법의 조작을 완료하기 위한 프로세서를 포함한다.

본 출원 실시예의 제5 측면에 따라, 컴퓨터 판독 가능한 명령어를 저장하기 위한 컴퓨터 저장 매체를 제공하고, 상기 명령어는 실행될 때 전술한 신경 네트워크 구조의 생성 방법의 조작을 실행한다.

본 출원의 상기 실시예에서 제공한 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 컴퓨터 저장 매체에 기반하여, 신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하며; 네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성하며; 샘플링을 통해 샘플링 신경 네트워크를 형성하여 인공적으로 네트워크 구조를 설정하는 것을 방지하며; 샘플 데이터에 기반하여 샘플링 신경 네트워크에 대해 훈련을 진행하고, 샘플링 신경 네트워크에 대응되는 정확도를 얻을 수 있으며; 훈련을 통해 샘플링 신경 네트워크에서의 파라미터를 현재 구조의 최적에 도달하도록 하고, 상기 샘플링 신경 네트워크에 대응되는 최적 정확도를 얻을 수 있으며; 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 정확도에 따라 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하며; 샘플 데이터에 기반하고 강화 학습을 통해 샘플링 신경 네트워크를 생성하며, 상기 샘플링 신경 네트워크가 샘플 데이터에 대응되는 작업 및 데이터 중 적어도 하나에 대한 정확도가 기대치에 도달할 수 있음으로써, 네트워크 구조 설계의 비용 및 시간을 감소시킨다.

아래에 첨부 도면 및 실시예를 통해, 본 출원의 기술방안에 대해 추가로 상세하게 설명하고자 한다.

본 명세서의 일부를 형성하는 첨부 도면은 본 출원의 실시예를 설명하여, 설명과 함께 본 출원의 원리를 해석하기 위한 것이다.
도면을 참조하고, 이하의 상세한 설명을 통해 본 출원을 더욱 명확히 이해할 것이다.
도 1은 본 출원의 신경 네트워크 구조의 생성 방법에 따른 실시예의 흐름도이다.
도 2는 본 출원의 실시예에서 네트워크 계층에 기반하여 형성된 네트워크 블록 구조 예시도이다.
도 3은 본 출원 실시예에서 네트워크 계층에 기반하여 형성된 다른 하나의 네트워크 블록 구조 예시도이다.
도 4는 본 출원의 방법에 따라 형성된 분산식 시스템 구조 예시도이다.
도 5는 본 출원의 신경 네트워크 구조의 생성 장치에 따른 실시예의 구조 예시도이다.
도 6은 본 출원 전자 기기에 따른 실시예의 구조 예시도이다.

현재 첨부 도면을 참조하여 본 출원의 다양한 예시적 실시예를 상세하게 설명하고자 한다. 다른 구체적인 설명이 없는 한, 이러한 실시예에서 반복적으로 설명한 부재 및 단계의 상대적인 배치, 숫자 공식 및 수치는 본 출원의 범위를 한정하지 않음을 유의해야 한다.

이와 동시에, 설명의 용이함을 위해, 첨부 도면에서 도시된 각 부분의 크기는 실제 비례 관계에 따라 그려진 것이 아님을 알 수 있을 것이다.

아래에 적어도 하나의 예시적 실시예에 대한 설명은 실제로 설명하기 위한 것일 뿐, 본 출원 및 그 응용 또는 사용함에 있어서 어떠한 한정도 하지 않는다.

관련 분야의 통상적인 기술자에게 공지된 기술, 방법 및 기기는 상세하게 논의되지 않을 수 있지만, 적절한 경우에서, 상기 기술, 방법 및 기기는 본 명세서의 일부로 간주되어야 한다.

유사한 번호 및 문자는 아래의 첨부 도면에서 유사한 항목을 나타내므로, 한 항목이 하나의 도면에서 정의될 경우, 후속 도면에서 이에 대해 추가로 논의할 필요가 없음을 유의해야 한다.

본 출원 실시예는 컴퓨터 시스템/서버에 적용될 수 있으며, 이는 다양한 다른 범용 또는 전용 컴퓨팅 시스템 환경 또는 구성과 함게 조작할 수 있다. 컴퓨터 시스템/서버와 함께 사용하는 공지된 환경 및 구성 중 적어도 하나, 컴퓨팅 시스템에 적용되는 예는 개인 컴퓨터 시스템, 서버 컴퓨터 시스템, 씬 클라이언트, 씨크 클라이언트, 핸드헬드 또는 랩톱 기기, 마이크로 프로세서 기반 시스템, 셋톱 박스, 프로그래머블 가전 제품, 네트워크 개인용 컴퓨터, 소형 컴퓨터 시스템, 대형 컴퓨터 시스템 및 상기 임의의 시스템을 포함한 분산식 클라우드 컴퓨팅 기술 환경 등을 포함하지만 이에 한정되는 것은 아니다.

컴퓨터 시스템/서버는 컴퓨터 시스템에 의해 실행되는 컴퓨터 시스템 실행 가능한 명령어(예를 들어 컴퓨터 모듈)의 일반적인 맥락에서 설명될 수 있다. 통상적으로, 컴퓨터 모듈은 루틴, 프로그램, 타겟 프로그램, 컴포넌트, 논리, 데이터 구조 등을 포함할 수 있고, 이들은 특정된 작업을 실행하거나 특정된 추상적인 데이터 타입을 구현한다. 컴퓨터 시스템/서버는 분산식 클라우드 컴퓨팅 환경에서 실시될 수 있고, 분산식 클라우드 컴퓨팅 환경에서, 작업은 통신 네트워크 링크의 원격 처리 기기에 의해 실행된다. 분산식 클라우드 컴퓨팅 환경에서, 프로그램 모듈은 저장 기기를 포함한 로컬 또는 원격 컴퓨팅 시스템 저장 매체에 위치할 수 있다.

도 1은 본 출원의 신경 네트워크 구조의 생성 방법에 따른 실시예의 흐름도이다. 도 1에 도시된 바와 같이, 상기 실시예의 방법은 아래와 같은 단계를 포함한다.

단계 101에 있어서, 신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하며, 네트워크 블록은 적어도 하나의 네트워크 계층을 포함한다.

여기서, 신경 네트워크 구조는 네트워크 계층, 네트워크 계층에 대응되는 네트워크 파라미터, 네트워크 계층 사이의 설정된 연결 방식 등을 포함하고, 여기서, 네트워크 계층은 기존 기술의 일부 또는 전부 타입의 네트워크 계층을 포함할 수 있으며, 본 출원은 네트워크 블록을 형성하는 네트워크 계층의 타입 및 수량을 제한하지 않으며, 본 출원의 네트워크 계층은 신경 네트워크를 형성하기 위한 어떤 기능을 단독으로 구현 가능한 예를 들어, 컨볼루션 계층, 풀링 계층, 완전 연결층 등과 같은 유닛을 가리킨다.

하나의 선택 가능한 예시에 있어서, 상기 단계 101은 프로세서에 의해 메모리에 저장된 해당 명령어를 호출하여 실행될 수 있거나, 프로세서에 의해 동작되는 샘플링 유닛(51)에 의해 실행될 수 있다.

단계 102에 있어서, 네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성한다.

여기서, 신경 네트워크는 적어도 한 가지의 네트워크 블록을 포함하고; 네트워크 블록을 하나의 네트워크 서브 구조로서 사용하며, 본 출원에서, 훈련된 샘플링 신경 네트워크는 K 개의 네트워크 블록에 의해 형성된 것으로 미리 설정될 수 있으며, 이 K 개의 네트워크 블록의 구조는 동일하거나 상이할 수 있으며, K는 1보다 크거나 같은 자연수이다. K의 값은 실제 응용에서 훈련 효율 및 정밀도 사이의 균형에 따라 정해진다.

하나의 선택 가능한 예시에 있어서, 상기 단계 102는 프로세서에 의해 메모리에 저장된 해당 명령어를 호출하여 실행될 수 있고, 프로세서에 의해 작동되는 네트워크 형성 유닛(52)에 의해 실행될 수도 있다.

단계 103에 있어서, 샘플 데이터에 기반하여 샘플링 신경 네트워크에 대해 훈련을 진행하고, 샘플링 신경 네트워크에 대응되는 정확도를 얻는다.

하나의 선택 가능한 예시에 있어서, 상기 단계 103은 프로세서에 의해 메모리에 저장된 해당 명령어를 호출하여 실행될 수 있고, 프로세서에 의해 작동되는 훈련 유닛(53)에 의해 실행될 수도 있다.

단계 104에 있어서, 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지, 정확도에 따라 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용한다.

훈련으로 인해 정확도가 기설정된 조건을 충족시키는 타겟 신경 네트워크를 얻게 될 것이고, 상기 타겟 신경 네트워크에서의 파라미터는 상기 샘플 데이터에 대한 더 좋은 파라미터가 되도록 훈련되므로, 출력된 타겟 신경 네트워크의 구조 및 파라미터는 모두 상기 샘플 데이터에 적용되는 것으로서, 특정된 작업에 대해 구조 및 더 좋은 파라미터를 자동으로 설정하는 타겟 신경 네트워크를 구현한다.

하나의 선택 가능한 예시에 있어서, 상기 단계 104는 프로세서에 의해 메모리에 저장된 해당 명령어를 호출하여 실행될 수 있고, 프로세서에 의해 작동되는 네트워크 출력 유닛(54)에 의해 실행될 수도 있다.

본 출원의 상기 실시예에서 제공한 네트워크 훈련 방법에 기반하여, 신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하며; 네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성하며; 샘플링을 통해 샘플링 신경 네트워크를 형성하여 네트워크 구조를 인공적으로 설정하는 것을 방지하며; 샘플 데이터에 기반하여 샘플링 신경 네트워크에 대해 훈련을 진행하고, 샘플링 신경 네트워크에 대응되는 정확도를 얻으며; 훈련을 통해 샘플링 신경 네트워크에서의 파라미터를 현재 구조의 최적에 도달하도록 하고, 상기 샘플링 신경 네트워크에 대응되는 최적 정확도를 얻을 수 있으며; 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 정확도에 따라 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하며; 샘플 데이터에 기반하고 강화 학습을 통해 샘플링 신경 네트워크를 생성하며, 상기 샘플링 신경 네트워크가 샘플 데이터에 대응되는 작업 및 데이터 중 적어도 하나에 대한 정확도가 기대치에 도달할 수 있음으로써, 네트워크 구조 설계의 비용 및 시간을 감소시킨다.

본 출원의 신경 네트워크 구조의 생성 방법의 다른 하나의 실시예에 있어서, 상기 실시예의 기초상에서, 단계 101은,

하나의 확률 벡터에 기반하여 신경 네트워크 구조에 대해 샘플링을 진행하고, 적어도 한 가지의 네트워크 계층, 적어도 한 가지의 네트워크 계층에 대응되는 네트워크 파라미터 및 적어도 한 가지의 네트워크 계층 사이의 연결 방식을 획득하고, 적어도 한 가지의 네트워크 계층을 스태킹하여 네트워크 블록을 형성하는 단계를 포함한다.

본 실시예에 있어서, 네트워크 계층의 데이터베이스는 적어도 한 가지의 네트워크 계층을 포함하기 때문에, 네트워크 계층 타입 수량에 대응되는 확률 벡터를 통해 샘플링을 진행하면, 적어도 한 가지의 네트워크 계층이 샘플링될 수 있다. 네트워크 계층에는 대응되는 네트워크 파라미터가 존재하며, 샘플링하는 과정에서 대응되는 네트워크 계층의 네트워크 파라미터가 동시에 획득된다. 상이한 네트워크 계층에 있어서, 기설정된 연결 방식을 갖는다. 선택 가능하게, 네트워크 계층을 획득하는 동시에, 네트워크 계층 사이의 연결 방식을 획득할 수도 있으며, 여기서 확률 벡터에서의 각 확률값은 하나의 네트워크 계층에 대응되고, 어느 하나의 네트워크 계층에 대응되는 확률값이 0일 경우, 샘플링에 의해 형성된 네트워크 블록은 상기 네트워크 계층을 포함하지 않고, 확률 벡터에서의 확률값에 따라 또한 샘플링에 의해 획득된 각 네트워크 계층의 수량을 결정할 수 있고, 각 네트워크 계층에서 하나를 샘플링하는 것에 한정되지 않는다.

본 출원의 신경 네트워크 구조의 생성 방법에 따른 상기 각 실시예의 하나의 선택 가능한 예시에 있어서, 네트워크 계층은,

컨볼루션(Convolution) 계층, 최대 풀링(Max Pooling) 계층, 평균 풀링(Average Pooling) 계층, 아이덴티티(Identity) 계층, 특징 추가(Elemental Add) 계층 및 연결(concat) 계층 등 중 임의의 하나 또는 복수 개를 포함한다.

본 실시예에서 예를 든 이상의 네트워크 계층은 본 분야의 기술자가 이해 및 구현하는데 용이하도록 하기 위한 것이고, 본 출원을 한정하는 것이 아니며, 컨볼루션에 의해 구현된 것은 두 개의 벡터가 어떠한 범위 내에서 곱한 후의 합의 결과이며, 컨볼루션 계층은 몇 개의 컨볼루션 유닛에 의해 조성될수 있으며, 컨볼루션 유닛의 파라미터는 역 전파 알고리즘을 통해 최적화하여 얻은 것이며; 컨볼루션 알고리즘의 목적은 입력된 상이한 특징을 추출하기 위한 것이고, 제1 계층의 컨볼루션 계층은 예를 들어 변두리, 라인 및 모서리 등 계층 등급과 같은 일부 하급 레벨의 특징만 추출할 수 있으며, 더 많은 계층의 네트워크는 하급 레벨의 특징에서 더 복잡한 특징을 반복적으로 추출할 수 있다. 최대 풀링(Max pooling) 계층의 메인 기능은 주변 영역 내의 특징 포인트를 통해 최대값을 취하여, 식별 결과를 손상하지 않고 다운샘플링(downsampling)을 구현하는 것이며; 평균 풀링(Average Pooling) 계층의 메인 기능은 주변 영역 내의 특징 포인트의 평균값을 취하는 것을 통해 식별 결과를 손상하지 않고 다운샘플링(downsampling)을 구현하는 것이며; 아이덴티티(Identity) 계층의 출력이 그 입력과 동일한 것은, 주로 상이한 네트워크 계층을 용히하게 결합하기 위한 것이며; 특징 추가(Elemental Add) 계층은 수신된 상이한 네트워크 계층의 특징을 통합하는 것이며; 연결(concat) 계층의 메인 기능은 수신된 상이한 네트워크 계층의 특징을 연결하는 것이다. 도 2는 본 출원 실시예에서 네트워크 계층에 기반하여 형성된 네트워크 블록 구조 예시도이다. 여기서, 아이덴티티(Identity) 계층, 컨볼루션(Convolution) 계층, 특징 추가(Elemental Add) 계층, 최대 풀링(Max Pooling) 계층, 평균 풀링(Average Pooling) 계층 및 연결(concat) 계층을 포함한다. 도 3은 본 출원의 실시예에서 네트워크 계층에 기반하여 형성된 다른 하나의 네트워크 블록 구조 예시도이다. 여기서, 아이덴티티(Identity) 계층, 컨볼루션(Convolution) 계층, 특징 추가(Elemental Add) 계층, 평균 풀링(Average Pooling) 계층 및 연결(concat) 계층을 포함한다. 도 2 및 도 3에 도시된 바와 같은 네트워크 블록 구조로부터 알다시피, 네트워크 블록의 형성에는 일부 또는 전부 타입의 네트워크 계층이 포함될 수 있고, 각 네트워크 계층의 수량은 일정한 것이 아니다.

본 출원의 신경 네트워크 구조의 생성 방법에 따른 상기 각 실시예의 하나의 선택 가능한 예시에 있어서, 적어도 한 가지의 네트워크 계층을 스태킹하여 한 가지의 네트워크 블록을 획득하는 단계는,

샘플링에 의해 획득된 네트워크 계층을 분석하고, 적어도 한 가지의 네트워크 계층의 타입, 적어도 한 가지의 타입의 네트워크 계층의 수량 및 적어도 한 가지의 네트워크 계층의 연결 순서를 얻는 단계; 및

획득된 네트워크 계층을 적어도 한 가지의 네트워크 계층에 대응되는 연결 순서에 따라, 적어도 한 가지의 네트워크 계층 사이의 연결 관계를 통해 하나의 한 가지의 네트워크 블록을 획득하는 단계를 포함한다.

본 실시예에서 네트워크 블록을 형성하기 위해, 먼저 이에 포함된 구성 요소(네트워크 계층), 네트워크 계층에 포함된 타입 및 수량을 결정해야 하고, 네트워크 계층의 타입 및 수량을 알면 네트워크 계층의 연결 순서 및 연결 관계를 결정해야 한다. 선택적으로, 각 네트워크 계층이 어느 네트워크 계층을 이전 네트워크 계층으로서 설정하는 것을 통해, 네트워크 계층의 이전 네트워크 계층을 결정한 후 획득된 네트워크 계층을 스태킹할 수 있어, 네트워크 블록을 형성하며; 동일한 타입 및 수량의 네트워크 계층은 상이한 스태킹 방식을 통해 복수 개의 네트워크 블록을 형성할 수 있다.

본 출원의 신경 네트워크 구조의 생성 방법에 따른 다른 하나의 실시예에 있어서, 상기 각 실시예의 기초상에서, 단계 104는,

샘플링 신경 네트워크에 대응되는 정확도에 따라 신경 네트워크 구조에 대해 샘플링을 진행하는 확률 벡터를 조정하고, 조정된 확률 벡터를 통해 신경 네트워크에 대해 샘플링을 진행하여, 새로운 네트워크 블록을 생성하는 단계를 포함한다.

본 실시예에 있어서, 선택적으로, 강화 학습의 방식을 사용하여 네트워크 블록의 구조를 조정하고, 신경 네트워크의 정확도가 설정값을 충족시키지 못할 경우, 이 신경 네트워크의 구조가 좋지 못함을 설명하기 때문에, 비교적 낮은 보상(reward)이 반환되며, 샘플링을 다시 진행하여 새로운 네트워크 블록을 형성하며, 정확도가 기준을 충족시키는 신경 네트워크를 얻을 때까지 다시 새로운 네트워크 블록으로 신경 네트워크를 형성한다.

정확도에 따라 신경 네트워크가 기준을 충족시키는지 여부를 결정하고, 상기 신경 네트워크의 정확도가 설정값을 충족시키지 못할 경우, 이 신경 네트워크의 구조가 현재 샘플 데이터에 적용되지 않음을 설명하며, 이때 신경 네트워크에서의 파라미터는 이미 충분히 훈련된 것이므로, 이때 네트워크 구조에 대해 조정을 진행해야 하고, 네트워크 구조에서 조정 가능한 것은 주로 네트워크 블록이다. 따라서 네트워크 블록의 구조에 대해 조정을 진행해야 하고, 네트워크 블록의 구조는 네트워크 블록에서 네트워크 계층의 수량을 조정하거나 네트워크 블록에서 네트워크 계층의 연결 관계를 조정하는 것으로 구현될 수 있으며, 매 번 샘플링된 네트워크 계층은 이미 상이한 연결 관계를 통해 적어도 한 가지의 네트워크 블록(적어도 한 가지의 네트워크 블록 사이는 네트워크 계층의 타입 및 수량이 동일하고, 네트워크 계층의 위치 및 네트워크 계층 사이의 연결 관계는 상이함)을 형성하였으므로, 샘플링 확률 벡터를 변화시키는 것을 통해, 네트워크 블록을 형성하는 네트워크 계층의 수량이 변화되도록 하여, 네트워크 블록의 구조를 변화하는 것을 구현한다.

본 출원의 신경 네트워크 구조의 생성 방법의 또 다른 실시예에 있어서, 상기 각 실시예의 기초상에서, 샘플 데이터에 기반하여 샘플링 신경 네트워크에 대해 훈련을 진행하는 단계 103은,

샘플링 신경 네트워크를 이용하여 샘플 데이터에 대해 처리를 진행하여, 처리 결과를 획득하는 단계;

손실 함수를 이용하여, 샘플 데이터의 태깅된 감독 정보와 처리 결과 사이의 오차값을 계산하는 단계 - 샘플 데이터는 감독 정보가 태깅되어 있음 - ; 및

샘플링 신경 네트워크가 수렴 조건을 충족시킬 때까지, 오차값에 기반하여 샘플링 신경 네트워크에 대해 훈련을 진행하는 단계를 포함한다.

여기서, 샘플 데이터는 감독 정보가 태깅되어 있고, 상기 감독 정보는 샘플 데이터가 공지된 상기 샘플링 신경 네트워크에 대응되게 처리해야 하는 타겟 결과이며, 감독 정보의 내용은 훈련으로 얻은 신경 네트워크의 기능을 결정한다.

본 실시예에 있어서, 형성된 신경 네트워크의 구조가 특정된 작업 데이터에 적용시키도록 확보하기 위해, 상기 작업 데이터에 대응되는 샘플 데이터를 사용하여 신경 네트워크에 대해 훈련을 진행함으로써, 상기 신경 네트워크가 상기 작업 데이터에 대해 정확하게 처리를 진행할 수 있는지 여부를 식별하며, 신경 네트워크를 훈련하는 과정은 기존 기술에서 흔히 사용되는 역 기울기 알고리즘을 사용하여 구현할 수 있으며, 훈련하는 결과는 신경 네트워크에서의 파라미터가 더 좋아지며, 이 때 얻은 감독 정보와 처리 결과 사이의 오차값으로 상기 신경 네트워크의 정확도를 결정할 수 있으며, 정확도는 오차값과 반비례이며, 오차값이 클수록 정확도가 작으며, 상기 신경 네트워크가 상기 샘플 데이터에 대한 처리 효과가 더욱 나쁘다는 것을 설명하며; 오차값이 작을수록 정확도가 더욱 크며, 상기 신경 네트워크가 상기 샘플 데이터에 대한 처리 효과가 더욱 좋다는 것을 설명한다.

본 출원의 신경 네트워크 구조의 생성 방법에 따른 상기 각 실시예의 하나의 선택 가능한 예시에 있어서, 오차값에 기반하여 샘플링 신경 네트워크가 수렴 조건을 충족시킬 때까지 샘플링 신경 네트워크에 대해 훈련을 진행하는 단계는,

손실 함수의 수렴 속도가 기설정된 값보다 크거나 같은 것에 응답하여, 획득된 오차값에 따라, 역 기울기 알고리즘을 통해 샘플링 신경 네트워크에서의 파라미터를 조정하고, 조정된 샘플링 신경 네트워크를 얻는 단계 - 조정된 신경 네트워크에 대응된 손실 함수의 수렴 속도가 기설정된 값보다 작음 - 를 포함한다.

본 실시예에 있어서, 신경 네트워크가 상기 샘플 데이터를 처리하는데 적용될 수 있는지 여부를 결정할 수 없으므로, 수렴 조건은 오차값의 크기를 설정하는 것으로 구현될 수 없으며(신경 네트워크가 아무리 훈련해도 오차값이 요구를 충족시킬 수 없는 경우가 있을 수 있음), 신경 네트워크에서의 파라미터가 더 좋아지도록 하기 위해, 손실 함수의 수렴 속도를 통해 평가를 진행해야 하며, 손실 함수의 수렴 속도가 기설정된 값 이하로 떨어지면, 계속되는 반복 과정이 오차값에 대한 영향이 크지 않음을 설명하며, 이때 즉시로 훈련을 종료할 수 있으며, 대응되는 오차값을 출력하며, 상기 신경 네트워크가 상기 샘플 데이터에 대한 정확도를 추가로 계산한다.

손실 함수가 오차값을 계산하는 횟수가 기설정된 값보다 작은 것에 응답하여, 조정된 신경 네트워크에 대응되는 손실 함수가 오차값을 계산하는 횟수가 기설정된 값보다 크거나 같을 때까지, 획득된 오차값에 따라, 역 기울기 알고리즘을 통해 샘플링 신경 네트워크에서의 파라미터를 조정하고, 조정된 샘플링 신경 네트워크를 얻으며, 손실 함수에 따라 오차값을 계산하는 횟수를 1 추가하는 단계를 포함한다.

본 실시예에 있어서, 신경 네트워크에 대한 쾌속 훈련을 완료하기 위해, 하나의 기설정된 값을 설정하여 반복 횟수를 제어하며, 반복 훈련의 횟수가 상기 기설정된 값에 도달하면, 즉시 훈련을 중지하여, 신경 네트워크 구조의 생성 속도가 빨라지도록 한다.

본 출원의 신경 네트워크 구조의 생성 방법에 따른 상기 각 실시예의 하나의 선택 가능한 예시에 있어서, 단계 103은,

훈련 완료한 샘플링 신경 네트워크의 오차값에 따라 계산하여 샘플링 신경 네트워크의 예측 정확도를 얻는 단계; 및

예측 정확도에 기반하여, 기설정된 비례의 네트워크 계산 복잡도 및 기설정된 비례의 네트워크 밀도를 감소시켜, 대응되는 샘플링 신경 네트워크의 정확도를 얻는 단계 - 네트워크 계산 복잡도 및 네트워크 밀도는 샘플링 신경 네트워크에 대응됨 - 를 포함한다.

상기 실시예에서 제기한 반복 횟수가 설정된 횟수를 도달하면 훈련을 종료하기 때문에, 이때 훈련을 종료하면, 얻은 정확도는 상기 샘플링 신경 네트워크의 더 좋은 정확도가 무조건 아니기 때문에, 정확도의 문제에 대해, 본 실시예를 통해 수정을 진행하며, 선택 가능한 수정 방식은 공식(1)을 사용하여 구현할 수 있다.

공식(1)

여기서, reward는 정확도이고, accuracy는 예측 정확도이며, FLOPs는 초당 부동 소수점 연산 횟수(초당 최고 속도로도 지칭됨)(Floating-point operations per second, FLOPs)로서, 컴퓨터 효능을 추정하기 위한 것이며, 특히 대량의 부동 연산의 과학적 계산 영역에 사용되며, FLOPs가 신경 네트워크의 네트워크로서 복잡도를 계산할 경우, 그 이론적인 추정 공식은 공식 (2)를 포함하지만 이에 한정되지 않는다.

공식 (2)

여기서, n_l-1은 이 계층의 샘플링 신경 네트워크의 입력 채널 수이고, n_l은 이 계층의 샘플링 신경 네트워크의 출력 채널 수이며, s_l은 컨볼루션 커널 크기(kernel size)이며, m_l은 이 계층의 출력된 특징 맵(feature map)의 크기이다. 공식(1)의 수정을 통해, 얻은 정확도는 즉 상기 샘플링 신경 네트워크가 상기 샘플 데이터에 대응되는 정확도로서 사용되는 동시에, 수정된 정확도를 사용하면 샘플링 신경 네트워크의 정확도를 기설정된 조건까지 신속하게 수렴할 수 있음으로써, 네트워크의 훈련 속도를 향상시킨다.

본 출원의 신경 네트워크 구조의 생성 방법에 따른 또 다른 실시예에 있어서, 상기 각 실시예의 기초상에서,

단계 101은, 신경 네트워크 구조에 대해 샘플링을 진행하여, n 가지의 네트워크 블록을 생성하는 단계 - n은 0보다 큰 자연수임 - 를 포함할 수 있다.

예시적으로, 샘플링 과정은 하나의 에이전트(agent)를 이용하여 구현할 수 있으며, n 가지의 네트워크 블록을 네트워크 제어기에 송신한다.

하나의 선택 가능한 예시에 있어서, 상기 단계 101은 프로세서에 의해 메모리에 저장된 해당 명령어를 호출하여 실행될 수 있고, 프로세서에 의해 작동되는 샘플링 유닛(51)에 의해 실행될 수도 있다.

단계 102는, 각각 n 가지의 네트워크 블록에 각각 기반하여 n 개의 샘플링 신경 네트워크를 형성하는 단계를 포함할 수 있다.

예시적으로, 샘플링 신경 네트워크를 형성하는 과정은 네트워크 구조 제어기(Network structure controller)를 통해 구현할 수 있으며, 네트워크 제어기는 n 개의 샘플링 신경 네트워크를 n 개의 훈련 노드(환경 벡터, env)에 각각 분할한다. 여기서, env는 하나의 외부 명령, 프로그램 파일, 열거된 모든 환경 벡터 및 그 값을 나타낸다.

하나의 선택 가능한 예시에 있어서, 상기 단계 102는 프로세서에 의해 메모리에 저장된 해당 명령어를 호출하여 실행될 수 있고, 프로세서에 의해 동작되는 네트워크 형성 유닛(52)에 의해 실행될 수도 있다.

단계 103은, 샘플 데이터에 기반하여 n 개의 샘플링 신경 네트워크에 대해 각각 훈련을 진행하고, n 개의 샘플링 신경 네트워크에 대응되는 n 개의 정확도를 얻는 단계를 포함할 수 있다.

예시적으로, n 개의 훈련 노드(환경 벡터, env)를 통해 n 개의 샘플링 신경 네트워크에 대해 각각 훈련을 진행하고, 이러한 훈련 노드에 의해 수신된 샘플 데이터는 동일하거나 유사할 수 있다(동일한 훈련 타겟의 샘플 데이터 세트로부터 추출된 것에 기반한 것임).

하나의 선택 가능한 예시에 있어서, 상기 단계 103은 프로세서에 의해 메모리에 저장된 해당 명령어를 호출하여 실행될 수 있고, 프로세서에 의해 동작되는 훈련 유닛(53)에 의해 실행될 수도 있다.

단계 104는, n 개의 정확도에 기설정된 조건을 충족시키는 정확도가 존재하지 않는 것에 응답하여, 새로운 n 가지의 네트워크 블록에 의해 각각 형성된 n 개의 샘플링 신경 네트워크에 기설정된 조건을 충족시키는 신경 네트워크가 존재할 때까지, 각각 n 개의 정확도에 따라 새로운 n 가지의 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하는 단계를 포함할 수 있다.

예시적으로, 네트워크 제어기를 통해 n 개의 훈련 노드에 기반하여 획득한 n 개의 정확도를 에이전트(agent)에 전송하고, 에이전트는 정확도에 따라 상기 샘플링 신경 네트워크가 타겟 신경 네트워크인지 여부를 판단하며, 상기 샘플링 신경 네트워크가 타겟 신경 네트워크가 아닐 경우, 샘플링 확률을 수정하고, 새로운 한 가지의 네트워크 블록을 획득하며, 새로운 샘플링 신경 네트워크를 다시 형성한다.

하나의 선택 가능한 예시에 있어서, 상기 단계 104는 프로세서에 의해 메모리에 저장된 해당 명령어를 호출하여 실행될 수 있고, 프로세서에 의해 동작되는 네트워크 출력 유닛(54)에 의해 실행될 수도 있다.

본 실시예에 있어서, 도 4는 본 출원의 방법에 따라 형성된 분산식 시스템 구조 예시도이다. 도 4에 도시된 바와 같이, 에이전트(agent), 네트워크 구조 제어기(Network structure controller) 및 적어도 한 가지의 훈련 노드(환경 벡터, env, 도면에서의 환경 1, 환경 2... 환경 n에 대응되게, 즉 도면에서 각 환경은 하나의 훈련 노드를 대표함)를 포함하는 분산식 시스템을 형성하는 것을 통해 복수개의 상이한 신경 네트워크를 동시에 훈련하는 것을 구현함으로써, 신경 네트워크 구조의 생성 속도를 향상시키고, 훈련 시간을 절약하며, 신경 네트워크 훈련의 효율을 향상시킨다.

신경 네트워트에 대응되는 정확도를 통해 신경 네트워크의 좋고 나쁨을 평가하고, 정확도가 설정된 조건을 도달할 경우, 상기 신경 네트워크가 요구에 부합되는 것으로 간주할 수 있으며, 샘플 데이터에 대응되는 작업 데이터에 대해 처리를 진행하고, 좋은 결과를 얻을 수 있다. 물론 정확도가 높을수록 신경 네트워크가 작업 데이터 처리에 대한 결과가 더욱 정확함을 설명한다. 기설정된 조건은, x 번 순환한 후, n 개의 "샘플링 신경 네트워크"에서 정확도가 높은 y 개의 샘플링 신경 네트워크를 출력된 타겟 신경 네트워크로서 선택하며, 여기서, x, n 및 y는 각각 1보다 크거나 같은 자연수이다.

본 출원의 신경 네트워크 구조의 생성 방법에 따른 상기 각 실시예의 선택 가능한 예시에 있어서, 단계 103 이후,

정확도가 기설정된 조건을 충족시키는 것에 응답하여, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하는 단계; 또는

정확도가 기설정된 조건을 충족시키지 못하고, 신경 네트워크 구조에 대해 샘플링을 진행하는 횟수가 기설정된 횟수에 이미 도달한 것에 응답하여, 현재의 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하는 단계를 포함한다.

본 실시예에 있어서, 네트워크 블록을 통해 형성된 샘플링 신경 네트워크가 기설정된 조건을 처음으로 충족시킬 경우, 상기 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하는 단계; 또는 샘플링이 기설정된 횟수에 도달할 경우, 획득될 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하여, 신경 네트워크 구조의 생성 속도를 향상시키는 단계를 제기한다.

본 분야의 통상적인 기술자는, 상기 방법 실시예를 구현하는 전부 또는 일부 단계는 프로그램 명령어에 관련된 하드웨어를 통해 완료될 수 있고, 전술한 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 상기 프로그램이 실행될 경우, 상기 방법 실시예를 포함하는 단계를 실행하는 것을 이해할 수 있을 것이다. 전술한 저장 매체는 롬(Read-Only Memory, ROM), 램(Random Access Memory, RAM), 자기 테이프 또는 광 디스크 등 다양한 프로그램 코드를 저장 가능한 매체를 포함한다.

도 5는 본 출원의 신경 네트워크 구조의 생성 장치에 따른 실시예의 구조 예시도이다. 상기 실시예의 장치는 본 출원의 상기 각 방법 실시예를 구현하기 위한 것이다. 도 5에 도시된 바와 같이, 상기 실시예의 장치는,

신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하기 위한 샘플링 유닛(51) - 네트워크 블록은 적어도 하나의 네트워크 계층을 포함함 - ;

네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성하기 위한 네트워크 형성 유닛(52);

샘플 데이터에 기반하여 샘플링 신경 네트워크에 대해 훈련을 진행하고, 샘플링 신경 네트워크에 대응되는 정확도를 얻기 위한 훈련 유닛(53); 및

정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 정확도에 따라 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하기 위한 네트워크 출력 유닛(54)을 포함한다.

본 출원의 상기 실시예에서 제공한 신경 네트워크 구조의 생성 장치에 기반하여, 신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하며; 네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성하며; 샘플링을 통해 샘플링 신경 네트워크를 형성하여 인공적으로 네트워크 구조를 설정하는 것을 방지하며; 샘플 데이터에 기반하여 샘플링 신경 네트워크에 대해 훈련을 진행하고, 상기 샘플링 신경 네트워크에 대응되는 정확도를 얻을 수 있으며; 훈련을 통해 샘플링 신경 네트워크에서의 파라미터를 현재 구조의 최적에 도달하도록 하고, 상기 샘플링 신경 네트워크에 대응되는 최적 정확도를 얻을 수 있으며; 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 정확도에 따라 새로운 네트워크에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하며; 샘플 데이터에 기반하고 강화 학습을 통해 샘플링 신경 네트워크를 생성하며, 상기 샘플링 신경 네트워크가 샘플 데이터에 대응되는 작업 및 데이터 중 적어도 하나에 대한 정확도가 기대치에 도달할 수 있음으로써, 네트워크 구조 설계의 비용 및 시간을 감소시킨다.

본 출원의 신경 네트워크 구조의 생성 장치의 다른 하나의 실시예에 있어서, 상기 실시예의 기초상에서, 샘플링 유닛(51)은,

하나의 확률 벡터에 기반하여 신경 네트워크 구조에 대해 샘플링을 진행하여, 적어도 한 가지의 네트워크 계층, 적어도 한 가지의 네트워크 계층에 대응되는 네트워크 파라미터 및 적어도 한 가지의 네트워크 계층 사이의 연결 방식을 획득하기 위한 확률 샘플링 모듈; 및

적어도 한 가지의 네트워크 계층을 스태킹하여 네트워크 블록을 형성하기 위한 네트워크 블록 생성 모듈을 포함한다.

본 실시예에 있어서, 네트워크 계층의 데이터베이스는 적어도 한 가지의 네트워크 계층을 포함하기 때문에, 네트워크 계층 타입 수량에 대응되는 확률 벡터를 통해 샘플링을 진행하면, 적어도 한 가지의 네트워크 계층이 샘플링될 수 있다. 네트워크 계층에는 대응되는 네트워크 파라미터가 존재하며, 샘플링하는 과정에서 대응되는 네트워크 계층의 네트워크 파라미터가 동시에 획득된다. 상이한 네트워크 계층에 있어서, 기설정된 연결 방식을 갖는다. 선택 가능하게, 네트워크 계층을 획득하는 동시에, 네트워크 계층 사이의 연결 방식을 획득할 수도 있으며, 여기서 확률 벡터에서의 각 확률값은 하나의 네트워크 계층에 대응되고, 어느 하나의 네트워크 계층에 대응되는 확률값이 0일 경우, 샘플링에 의해 형성된 네트워크 블록은 상기 네트워크 계층을 포함하지 않지만, 확률 벡터에서의 확률값에 따라 또한 샘플링에 의해 획득된 각 네트워크 계층의 수량을 결정할 수 있고, 각 네트워크 계층이 하나를 샘플링하는 것으로 한정하지 않는다.

본 출원의 신경 네트워크 구조의 생성 장치에 따른 상기 각 실시예의 하나의 선택 가능한 예시에 있어서, 네트워크 계층은,

컨볼루션 계층, 최대 풀링 계층, 평균 풀링 계층, 아이덴티티 계층, 특징 추가 계층 및 연결 계층 등 중 임의의 하나 또는 복수 개를 포함한다.

본 출원의 신경 네트워크 구조의 생성 장치에 따른 상기 각 실시예의 하나의 선택 가능한 예시에 있어서, 네트워크 블록 생성 모듈은 샘플링으로 획득된 네트워크 계층을 분석하여, 적어도 한 가지의 네트워크 계층의 타입, 적어도 한 타입의 네트워크 계층의 수량 및 적어도 한 가지의 네트워크 계층의 연결 순서를 얻기 위한 것이며; 획득된 네트워크 계층을 적어도 한 가지의 네트워크 계층에 대응되는 연결 순서에 따라, 적어도 한 가지의 네트워크 계층 사이의 연결 관계를 통해 한 가지의 네트워크 블록을 획득한다.

본 출원의 신경 네트워크 구조의 생성 장치의 또 다른 하나의 실시예에 있어서, 상기 각 실시예의 기초상에서, 네트워크 출력 유닛(54)은 샘플링 신경 네트워크에 대응되는 정확도에 따라 신경 네트워크 구조에 대해 샘플링을 진행하는 확률 벡터를 조정하고, 조정된 확률 벡터를 통해 신경 네트워크 구조에 대해 샘플링을 진행하여, 새로운 네트워크 블록을 생성하기 위한 것이다.

본 실시예에 있어서, 선택적으로, 강화 학습의 방식을 사용하여 네트워크 블록의 구조를 조정하고, 신경 네트워크의 정확도가 설정값을 충족시키지 못할 경우, 이 신경 네트워크의 구조가 좋지 못함을 설명하기 때문에, 비교적 낮은 보상(reward)이 반환되며, 정확도가 기준을 충족시키는 신경 네트워크를 얻을 때까지 샘플링을 다시 진행하여 새로운 네트워크 블록을 형성하며, 다시 새로운 네트워크 블록으로 신경 네트워크를 형성한다.

본 출원의 신경 네트워크 구조의 생성 장치의 또 다른 하나의 실시예에 있어서, 상기 각 실시예의 기초상에서, 훈련 유닛(53)은,

샘플링 신경 네트워크를 이용하여 샘플 데이터에 대해 처리를 진행하여, 처리 결과를 얻기 위한 네트워크 처리 모듈;

손실 함수를 이용하여, 샘플 데이터의 태깅된 감독 정보와 처리 결과 사이의 오차값을 계산하기 위한 오차 계산 모듈 - 샘플 데이터는 감독 정보가 태깅되어 있음 - ; 및

오차값에 기반하여 샘플링 신경 네트워크가 수렴 조건을 충족시킬 때까지 샘플링 신경 네트워크에 대해 훈련을 진행하기 위한 네트워크 훈련 모듈을 포함한다.

본 실시예에 있어서, 형성된 신경 네트워크의 구조가 특정된 작업 데이터에 적용시키도록 확보하기 위해, 상기 작업 데이터에 대응되는 샘플 데이터를 사용하여 신경 네트워크에 대해 훈련을 진행함으로써, 상기 신경 네트워크가 상기 작업 데이터에 대해 정확하게 처리를 진행할 수 있는지 여부를 식별하며, 신경 네트워크를 훈련하는 과정은 기존 기술에서 흔히 사용되는 역 기울기 알고리즘을 사용하여 구현될 수 있으며, 훈련하는 결과는 신경 네트워크에서의 파라미터가 더 좋아지며, 이 때 얻은 감독 정보와 처리 결과 사이의 오차값으로 상기 신경 네트워크의 정확도를 결정할 수 있으며, 정확도는 오차값과 반비례이며, 오차값이 클수록 정확도가 작으며, 상기 신경 네트워크가 상기 샘플 데이터에 대한 처리 효과가 더욱 나쁘다는 것을 설명하며; 오차값이 작을수록 정확도가 더욱 크며, 상기 신경 네트워크가 상기 샘플 데이터에 대한 처리 효과가 더욱 좋다는 것을 설명한다.

본 출원의 신경 네트워크 구조의 생성 장치에 따른 상기 각 실시예의 하나의 선택 가능한 예시에 있어서, 네트워크 훈련 모듈은,

손실 함수의 수렴 속도가 기설정된 값보다 크거나 같은 것에 응답하여, 획득된 오차값에 따라, 조정된 신경 네트워크에 대응된 손실 함수의 수렴 속도가 기설정된 값보다 작을 때까지, 역 기울기 알고리즘을 통해 샘플링 신경 네트워크에서의 파라미터를 조정하고, 조정된 샘플링 신경 네트워크를 얻기 위한 것이다.

본 출원 신경 네트워크 구조의 생성 장치에 따른 상기 각 실시예의 하나의 선택 가능한 예시에 있어서, 네트워크 훈련 모듈은,

손실 함수가 오차값을 계산하는 횟수가 기설정된 값보다 작은 것에 응답하여, 조정된 신경 네트워크에 대응되는 손실 함수가 오차값을 계산하는 횟수가 기설정된 값보다 크거나 같을 때까지, 획득된 오차값에 따라, 역 기울기 알고리즘을 통해 샘플링 신경 네트워크에서의 파라미터를 조정하고, 조정된 샘플링 신경 네트워크를 얻으며, 손실 함수에 따라 오차값을 계산하는 횟수를 1 추가하기 위한 것이다.

본 출원의 신경 네트워크 구조의 생성 장치에 따른 상기 각 실시예의 하나의 선택 가능한 예시에 있어서, 훈련 유닛(53)은,

훈련 완료한 샘플링 신경 네트워크의 오차값에 따라 샘플링 신경 네트워크의 예측 정확도를 계산하기 위한 정확도 예측 모듈; 및

예측 정확도에 기반하여, 기설정된 비례의 네트워크 계산 복잡도 및 기설정된 비례의 네트워크 밀도를 감소시키고, 샘플링 신경 네트워크에 대응되는 정확도를 얻기 위한 정확도 조정 모듈 - 네트워크 계산 복잡도 및 네트워크 밀도는 상기 샘플링 신경 네트워크에 대응됨 - 을 더 포함할 수 있다.

본 출원의 신경 네트워크 구조의 생성 장치에 따른 또 다른 하나의 실시예에 있어서, 상기 각 실시예의 기초상에서,

샘플링 유닛(51)은 신경 네트워크 구조에 대해 샘플링을 진행하여, n 가지의 네트워크 블록을 생성하기 위한 것이고, n은 0보다 큰 자연수이다.

네트워크 형성 유닛(52)은 n 가지의 네트워크 블록에 각각 기반하여 n 개의 샘플링 신경 네트워크를 형성하기 위한 것이다.

훈련 유닛(53)은 샘플 데이터에 기반하여 n 개의 샘플링 신경 네트워크에 대해 각각 훈련을 진행하고, n 개의 샘플링 신경 네트워크에 대응되는 n 개의 정확도를 얻기 위한 것이다.

네트워크 출력 유닛(54)은 n 개의 정확도가 기설정된 조건을 충족시키는 정확도가 존재하지 않는 것에 응답하여, 새로운 n 가지의 네트워크 블록에 의해 각각 형성된 n 개의 샘플링 신경 네트워크에 기설정된 조건을 충족시키는 신경 네트워크가 존재할 때까지, 각각 n 개의 정확도에 따라 새로운 n 가지의 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하기 위한 것이다.

본 실시예에 있어서, 에이전트(agent), 네트워크 구조 제어기(Network structure controller) 및 적어도 한 가지의 훈련 노드(환경 벡터, env)를 포함하는 분산식 시스템을 형성하는 것을 통해 복수 개의 상이한 신경 네트워크를 동시에 훈련하는 것을 구현함으로써, 신경 네트워크 구조의 생성 속도를 향상시키고, 훈련 시간을 절약하며, 신경 네트워크 훈련의 효율을 향상시킨다.

본 출원의 신경 네트워크 구조의 생성 장치에 따른 상기 각 실시예의 하나의 선택 가능한 예시에 있어서,

정확도가 기설정된 조건을 충족시키는 것에 응답하여, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하거나;

정확도가 기설정된 조건을 충족시키지 못하고, 신경 네트워크 구조에 대해 샘플링한 횟수가 기설정된 횟수에 이미 도달한 것에 응답하여, 현재의 샘플링 네트워크를 타겟 신경 네트워크로서 사용하기 위한 타겟 판단 유닛을 더 포함한다.

본 출원의 실시예의 한 측면에 따라, 프로세서를 포함하는 전자 기기를 제공하고, 프로세서는 본 출원의 신경 네트워크 구조의 생성 장치에 따른 각 실시예에서의 임의의 하나를 포함한다.

본 출원의 실시예의 한 측면에 따라, 전자 기기를 제공하고, 상기 전자 기기는 실행 가능한 명령어를 저장하기 위한 메모리; 및

메모리와 통신하여 명령어를 실행함으로써 본 출원의 신경 네트워크 구조의 생성 방법의 각 실시예에서의 임의의 하나의 조작을 완료하기 위한 프로세서를 포함한다.

본 출원의 실시예의 한 측면에 따라, 컴퓨터 판독 가능한 명령어를 저장하기 위한 컴퓨터 저장 매체를 제공하고, 상기 명령어가 실행될 경우 본 출원의 신경 네트워크 구조의 생성 방법에 따른 각 실시예에서의 임의의 하나의 조작을 실행한다.

본 출원의 실시예는 또한 모바일 단말, 개인용 컴퓨터(Personal Computer, PC), 태블릿 컴퓨터, 서버 등과 같은 전자 기기를 제공한다. 아래에 도 6을 참조하면, 이는 본 출원의 실시예를 구현하는 단말 기기 또는 서버에 적용되는 전자 기기(600)를 도시하는 구조 예시도 이다. 도 6에 도시된 바와 같이, 컴퓨터 시스템(600)은 하나 또는 복수 개의 프로세서, 통신 부분 등을 포함하고, 상기 하나 또는 복수 개의 프로세서는, 예를 들어 하나 또는 복수 개의 중앙처리장치(Central Processing Unit, CPU)(601) 및 하나 또는 복수 개의 그래픽스 처리장치(Graphics Processing Unit, GPU)(613) 중 적어도 하나일 수 있으며, 프로세서는 롬(ROM)(602)에 저장된 실행 가능한 명령어 또는 저장 부분(608)으로부터 램(RAM)에 로딩된 실행 가능한 명령어에 따라 다양한 적절한 동작 및 처리를 실행한다. 통신부(612)는 랜 카드를 포함할 수 있지만 이에 한정되지 않으며, 상기 랜 카드는 IB(InfiniBand) 랜 카드를 포함할 수 있지만 이에 한정되지 않으며, 프로세서는 롬(602) 및 램(603) 중 적어도 한 가지와 통신하여 실행 가능한 명령어를 실행하며, 버스(604)를 통해 통신부(612)에 연결되고, 통신부(612)을 통해 다른 타겟 기기와 통신을 함으로써, 본 출원의 실시예에서 제공한 임의의 한 항의 방법에 대응되는 조작을 완료한다. 예를 들어, 신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하고, 네트워크 블록은 적어도 하나의 네트워크 계층을 포함하며; 네트워크 계층에 기반하여 샘플링 신경 네트워크를 형성하며; 샘플 데이터에 기반하여 샘플링 신경 네트워크에 대해 훈련을 진행하여, 샘플링 신경 네트워크에 대응되는 정확도를 얻으며; 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지, 정확도에 따라 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용한다.

또한, RAM(603)에 있어서, 장치 조작에 필요한 다양한 프로그램 및 데이터를 저장할 수 있다. CPU(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 연결된다. RAM(603)이 있는 경우에서, ROM(602)은 선택 가능한 모듈이다. RAM(603)은 실행 가능한 명령어를 저장하거나, 동작시 ROM(602)에 실행 가능한 명령어를 입력하며, 실행 가능한 명령어는 프로세서(601)가 상기 통신 방법에 대응되는 조작을 실행하도록 한다. 입력/출력(I/O) 인터페이스(605)도 버스(604)에 연결된다. 통신부(612)는 통합되어 설정될 수 있고, 복수 개의 서브 모듈(예를 들어 복수 개의 IB 랜 카드)을 갖도록 설정될 수도 있으며, 버스에 연결된다.

키보드, 마우스 등을 포함하는 입력 부분(606), 음극선관(Cathode Ray Tube, CRT), 액정 디스플레이(Liquid Crystal Display, LCD) 등 및 스피커 등과 같은 출력 부분(607), 하드 디스크 등을 포함하는 저장 부분(608) 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신 부분(609) 등 부재는 I/O 인터페이스(605)에 연결된다. 통신 부분(609)은 인터넷과 같은 인터넷에 의해 통신 처리된다. 드라이버(610)도 수요에 따라 I/O 인터페이스(605)에 연결된다. 자기 디스크, 광 디스크, 자기 광 디스크, 반도체 메모리 등과 같은 착탈 가능한 매체(611)는, 수요에 따라 드라이버(610)에 설치되어, 이로부터 판독한 컴퓨터 프로그램이 수요에 따라 저장 부분(608)에 설치되는데 용이하도록 한다.

설명해야 할 것은, 도 6에 도시된 바와 같은 아키텍처는 다만 선택 가능한 구현형태일 뿐이고, 선택 가능한 실천 과정에서, 실제 수요에 따라 상기 도 6의 부재 수량 및 타입에 대해 선택, 제거, 추가 또는 대체를 할 수 있으며; 상이한 기능 부재의 설정에서, 분리 설정 또는 통합 설정 등 구현형태를 사용할 수 있으며, 예를 들어 GPU 및 CPU는 분리되어 설정되거나 GPU를 CPU에 통합하고, 통신 부분은 분리되어 설정되거나, CPU 또는 GPU에 통합되어 설정될 수도 있는 등이다. 이러한 대체 가능한 실시형태는 모두 본 출원에서 개시한 청구범위에 속해야 한다.

특히, 본 출원의 실시예에 따라, 전술한 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 출원의 실시예는 컴퓨터 판독 가능 매체에 유형적으로 포함된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 프로그램은 흐름도에서 도시된 방법을 실행하기 위한 프로그램 코드를 포함하며, 프로그램 코드는 본 출원의 실시예에서 제공하는 방법 단계를 대응되게 실행하는 명령어를 포함하며, 예를 들어, 신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하며, 네트워크 블록은 적어도 하나의 네트워크 계층을 포함하며; 네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성하며; 샘플 데이터에 기반하여 샘플링 신경 네트워크에 대해 훈련을 진행하고, 샘플링 신경 네트워크에 대응되는 정확도를 얻으며; 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지, 정확도에 따라 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용한다. 이러한 실시예에 있어서, 상기 컴퓨터 프로그램은 통신 부분(609)을 통해 네트워크로부터 다운로드 및 설치, 및/또는 착탈 가능한 매체(611)에 의해 설치될 수 있다. 상기 컴퓨터 프로그램이 중앙처리장치(CPU)(601)에 의해 실행될 경우, 본 출원의 방법에서 한정한 상기 기능을 실행한다.

본 명세서에서 각 실시예는 모두 점진적인 방식을 사용하여 설명하며, 각 실시예에서 주로 설명한 것은 모두 다른 실시예와 상이한 부분이며, 각 실시예 사이의 동일하거나 유사한 부분은 서로 참조하면 된다. 시스템 실시예에 있어서, 이는 방법 실시예에 대응되기 때문에, 간단하게 설명되었고, 관련 부분은 방법 실시예의 부분적인 설명을 참조하면 된다.

다양한 방식으로 본 출원의 방법 및 장치를 구현할 수 있다. 예를 들어, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 조합으로 본 출원의 방법 및 장치를 구현할 수 있다. 상기 방법의 단계에 따른 상기 순서는 다만 설명을 진행하기 위한 것일 뿐, 다른 방식으로 특별하게 설명하지 않는 한, 본 출원의 방법의 단계는 전술한 순서에 한정되지 않는다. 또한, 일부 실시예에 있어서, 본 출원의 실시예를 기록 매체에서의 프로그램에 기록할 수 있고, 이러한 프로그램은 본 출원에 따른 방법을 구현하기 위한 컴퓨터 판독 가능 명령어를 포함한다. 따라서, 본 출원은 또한 본 출원에 따른 방법의 프로그램을 실행하기 위한 기록 매체를 저장하도록 커버한다.

본 출원의 설명은 예시적이고 설명을 하기 위한 것이며, 본 출원을 개시된 형태로 한정하거나 제한하려는 것은 아니다. 수많은 수정 및 변화는 본 분야의 통상적인 기술자에게 자명한 것이다. 실시예를 선택하고 설명하는 것은 본 출원의 원리 및 실제 응용을 더욱 상세히 설명하기 위한 것이고, 본 분야의 통상적인 기술자가 본 출원을 이해함으로써 특정 용도에 적용되는 다양한 수정을 갖는 다양한 실시예를 설계하도록 한다.

Claims

신경 네트워크 구조의 생성 방법으로서,
신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하는 단계 - 상기 네트워크 블록은 적어도 하나의 네트워크 계층을 포함함 - ;
상기 네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성하는 단계;
샘플 데이터에 기반하여 상기 샘플링 신경 네트워크에 대해 훈련을 진행하고, 상기 샘플링 신경 네트워크에 대응되는 정확도를 얻는 단계; 및
상기 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지, 상기 정확도에 따라 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 방법.
제1항에 있어서,
상기 신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하는 단계는,
하나의 확률 벡터에 기반하여 신경 네트워크 구조에 대해 샘플링을 진행하여, 적어도 한 가지의 네트워크 계층, 상기 적어도 한 가지의 네트워크 계층에 대응되는 네트워크 파라미터 및 상기 적어도 한 가지의 네트워크 사이의 연결 방식을 획득하고, 상기 적어도 한 가지의 네트워크 계층을 스태킹하여 한 가지의 네트워크 블록을 획득하는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 방법.
제1항 또는 제2항에 있어서,
상기 네트워크 계층은,
컨볼루션 계층, 최대 풀링 계층, 평균 풀링 계층, 아이덴티티 계층, 특징 추가 계층 및 연결 계층 중 적어도 하나 또는 복수 개를 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 방법.
제2항 또는 제3항에 있어서,
상기 적어도 한 가지의 네트워크 계층을 스태킹하여 한 가지의 네트워크 블록을 획득하는 단계는,
샘플링으로 획득된 네트워크 계층을 분석하여, 적어도 한 가지의 상기 네트워크 계층의 타입, 적어도 한 타입의 상기 네트워크 계층의 수량 및 적어도 한 가지의 상기 네트워크 계층의 연결 순서를 얻는 단계; 및
획득된 상기 네트워크 계층을 상기 적어도 한 가지의 네트워크 계층에 대응되는 연결 순서에 따라, 상기 적어도 한 가지의 네트워크 계층 사이의 연결 관계를 통해 연결하여 한 가지의 네트워크 블록을 획득하는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 정확도에 따라 새로운 네트워크를 재차 생성하는 단계는,
상기 샘플링 신경 네트워크에 대응되는 정확도에 따라 신경 네트워크 구조에 대해 샘플링을 진행하는 확률 벡터를 조정하고, 조정된 확률 벡터를 통해 신경 네트워크 구조에 대해 샘플링을 진행하여, 새로운 한 가지의 네트워크 블록을 생성하는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 샘플 데이터에 기반하여 상기 샘플링 신경 네트워크에 대해 훈련을 진행하는 단계는,
상기 샘플링 신경 네트워크를 이용하여 상기 샘플 데이터에 대해 처리를 진행하여, 처리 결과를 획득하는 단계;
손실 함수를 이용하여, 상기 샘플 데이터의 태깅된 감독 정보와 상기 처리 결과 사이의 오차값을 계산하는 단계 - 상기 샘플 데이터는 감독 정보가 태깅되어 있음 - ; 및
상기 오차값에 기반하여 상기 샘플링 신경 네트워크가 수렴 조건을 충족시킬 때까지 상기 샘플링 신경 네트워크에 대해 훈련을 진행하는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 방법.
제6항에 있어서,
상기 오차값에 기반하여 상기 샘플링 신경 네트워크가 수렴 조건을 충족시킬 때까지 상기 샘플링 신경 네트워크에 대해 훈련을 진행하는 단계는,
상기 손실 함수의 수렴 속도가 기설정된 값보다 크거나 같은 것에 응답하여, 획득된 오차값에 따라, 조정된 신경 네트워크에 대응되는 손실 함수의 수렴 속도가 기설정된 값보다 작을 때까지, 역 기울기 알고리즘을 통해 상기 샘플링 신경 네트워크에서의 파라미터를 조정하여, 조정된 샘플링 신경 네트워크를 얻는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 방법.
제6항에 있어서,
상기 오차값에 기반하여 상기 샘플링 신경 네트워크가 수렴 조건을 만족시킬 때까지 상기 샘플링 신경 네트워크에 대해 훈련을 진행하는 단계는,
상기 손실 함수가 오차값을 계산하는 횟수가 기설정된 값보다 작은 것에 응답하여, 획득된 오차값에 따라, 조정된 신경 네트워크에 대응되는 손실 함수가 오차값을 계산하는 횟수가 기설정된 값보다 크거나 같을 때까지 역 기울기 알고리즘을 통해 상기 샘플링 신경 네트워크에서의 파라미터를 조정하여, 조정된 샘플링 신경 네트워크를 얻고, 상기 손실 함수가 오차값을 계산하는 횟수를 1추가하는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 방법.
제6항 내지 제8항 중 어느 한 항에 있어서,
상기 샘플링 신경 네트워크에 대응되는 정확도를 얻는 단계는,
훈련 완료한 상기 샘플링 신경 네트워크의 오차값에 따라 상기 샘플링 신경 네트워크의 예측 정확도를 계산하는 단계; 및
상기 예측 정확도에 기반하여, 기설정된 비례의 네트워크 계산 복잡도 및 기설정된 비례의 네트워크 밀도를 감소시켜, 상기 샘플링 신경 네트워크에 대응되는 정확도를 얻는 단계 - 상기 네트워크 계산 복잡도 및 상기 네트워크 밀도는 상기 샘플링 신경 네트워크에 대응됨 - 를 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
상기 신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하는 단계는,
신경 네트워크 구조에 대해 샘플링을 진행하여, n 가지의 네트워크 블록을 생성하는 단계 - 상기 n은 0보다 큰 자연수임 - 를 포함하며,
상응되게, 상기 네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성하는 단계는,
상기 n 가지의 네트워크 블록에 각각 기반하여 n 개의 샘플링 신경 네트워크를 형성하는 단계를 포함하며,
상응되게, 상기 샘플 데이터에 기반하여 상기 샘플링 신경 네트워크에 대해 훈련을 진행하고, 상기 샘플링 신경 네트워크에 대응되는 정확도를 얻는 단계는,
샘플 데이터에 기반하여 각각 상기 n 개의 샘플링 신경 네트워크에 대해 훈련을 진행하고, 상기 n 개의 샘플링 신경 네트워크에 대응되는 n 개의 정확도를 얻는 단계를 포함하며,
상응되게, 상기 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지, 상기 정확도에 따라 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하는 단계는,
상기 n 개의 정확도에 기설정된 조건을 충족시키는 정확도가 존재하지 않는 것에 응답하여, 새로운 n 가지의 네트워크 블록에 의해 각각 형성된 n 개의 샘플링 신경 네트워크가 기설정된 조건을 충족시키는 신경 네트워크가 존재할 때까지, 각각 상기 n 개의 정확도에 따라 새로운 n 가지의 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 방법.
제1항에 있어서,
상기 샘플링 신경 네트워크에 대응되는 정확도를 얻은 후, 상기 방법은,
상기 정확도가 기설정된 조건을 충족시키는 것에 응답하여, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하는 단계; 또는
상기 정확도가 기설정된 조건을 충족시키지 못하고, 상기 신경 네트워크 구조에 대해 샘플링하는 횟수가 이미 기설정된 횟수에 도달한 것에 응답하여, 현재의 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하는 단계를 더 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 방법.
신경 네트워크 구조의 생성 장치로서,
신경 네트워크 구조에 대해 샘플링을 진행하여, 네트워크 블록을 생성하기 위한 샘플링 유닛 - 상기 네트워크 블록은 적어도 하나의 네트워크 계층을 포함함 - ;
상기 네트워크 블록에 기반하여 샘플링 신경 네트워크를 형성하기 위한 네트워크 형성 유닛;
샘플 데이터에 기반하여 상기 샘플링 신경 네트워크에 대해 훈련을 진행하고, 상기 샘플링 신경 네트워크에 대응되는 정확도를 얻기 위한 훈련 유닛; 및
상기 정확도가 기설정된 조건을 충족시키지 못하는 것에 응답하여, 새로운 네트워크 블록에 의해 형성된 샘플링 신경 네트워크가 기설정된 조건을 충족시킬 때까지, 상기 정확도에 따라 새로운 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하기 위한 네트워크 출력 유닛을 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 장치.
제12항에 있어서,
상기 샘플링 유닛은,
하나의 확률 벡터에 기반하여 신경 네트워크 구조에 대해 샘플링을 진행하여, 적어도 한 가지의 네트워크 계층, 상기 적어도 한 가지의 네트워크 계층에 대응되는 네트워크 파라미터 및 상기 적어도 한 가지의 네트워크 계층 사이의 연결 방식을 획득하기 위한 확률 샘플링 모듈; 및
상기 적어도 한 가지의 네트워크 계층을 스태킹하여 한 가지의 네트워크 블록을 획득하기 위한 네트워크 블록 생성 모듈을 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 장치.
제12항 또는 제13항에 있어서,
상기 네트워크 계층은,
컨볼루션 계층, 최대 풀링 계층, 평균 풀링 계층, 아이덴티티 계층, 특징 추가 계층 및 연결 계층 중 임의의 하나 또는 복수 개를 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 장치.
제13항 또는 제14항에 있어서,
상기 네트워크 블록 생성 모듈은, 구체적으로 샘플링으로 획득된 네트워크 계층을 분석하여, 적어도 한 가지의 상기 네트워크 계층의 타입, 적어도 한 타입의 상기 네트워크 계층의 수량 및 적어도 한 가지의 상기 네트워크 계층의 연결 순서를 얻고; 획득된 상기 네트워크 계층을 상기 적어도 한 가지의 네트워크 계층에 대응되는 연결 순서에 따라, 상기 적어도 한 가지의 네트워크 계층 사이의 연결 관계를 통해 연결하여 한 가지의 네트워크 블록을 획득하기 위한 것임을 특징으로 하는 신경 네트워크 구조의 생성 장치.
제12항 내지 제15항 중 어느 한 항에 있어서,
상기 네트워크 출력 유닛은, 상기 샘플링 신경 네트워크에 대응되는 정확도에 따라 신경 네트워크 구조에 대해 샘플링을 진행하는 확률 벡터를 조정하고, 조정된 확률 벡터를 통해 신경 네트워크 구조에 대해 샘플링하여, 새로운 한 가지의 네트워크 블록을 생성하기 위한 것임을 특징으로 하는 신경 네트워크 구조의 생성 장치.
제12항 내지 제16항 중 어느 한 항의 장치에 있어서,
상기 훈련 유닛은,
상기 샘플링 신경 네트워크를 이용하여 상기 샘플 데이터에 대해 처리를 진행하여, 처리 결과를 획득하기 위한 네트워크 처리 모듈;
손실 함수를 이용하여, 상기 샘플 데이터의 태깅된 감독 정보와 상기 처리 결과 사이의 오차값을 계산하기 위한 오차 계산 모듈 - 상기 샘플 데이터는 감독 정보가 태깅되어 있음 - ; 및
상기 오차값에 기반하여 상기 샘플링 신경 네트워크가 수렴 조건을 충족시킬 때까지 상기 샘플링 신경 네트워크에 대해 훈련을 진행하기 위한 네트워크 훈련 모듈을 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 장치.
제17항에 있어서,
상기 네트워크 훈련 모듈은 구체적으로,
상기 손실 함수의 수렴 속도가 기설정된 값보다 크거나 같은 것에 응답하여, 획득된 오차값에 따라, 조정된 신경 네트워크에 대응되는 손실 함수의 수렴 속도가 기설정된 값보다 작을 때까지, 역 기울기 알고리즘을 통해 상기 샘플링 신경 네트워크에서의 파라미터를 조정하여, 조정된 샘플링 신경 네트워크를 얻기 위한 것임을 특징으로 하는 신경 네트워크 구조의 생성 장치.
제17항에 있어서,
상기 네트워크 훈련 모듈은 구체적으로,
상기 손실 함수가 오차값을 계산하는 횟수가 기설정된 값보다 작은 것에 응답하여, 획득된 오차값에 따라, 조정된 신경 네트워크에 대응되는 손실 함수가 오차값을 계산하는 횟수가 기설정된 값보다 크거나 같아질 때까지, 역 기울기 알고리즘을 통해 상기 샘플링 신경 네트워크에서의 파라미터를 조정하여, 조정된 샘플링 신경 네트워크를 얻고, 상기 손실 함수가 오차값을 계산하는 횟수를 1 추가하기 위한 것임을 특징으로 하는 신경 네트워크 구조의 생성 장치.
제17항 내지 제19항 중 어느 한 항에 있어서,
상기 훈련 유닛은,
훈련 완료한 상기 샘플링 신경 네트워크의 오차값에 따라 상기 샘플링 신경 네트워크의 예측 정확도를 계산하기 위한 정확도 예측 모듈; 및
상기 예측 정확도에 기반하여, 기설정된 비례의 네트워크 계산 복잡도 및 기설정된 비례의 네트워크 밀도를 감소시켜, 상기 샘플링 신경 네트워크에 대응되는 정확도를 얻기 위한 정확도 조정 모듈 - 상기 네트워크 계산 복잡도 및 상기 네트워크 밀도는 상기 샘플링 신경 네트워크에 대응됨 - 을 더 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 장치.
제12항 내지 제20항 중 어느 한 항에 있어서,
상기 샘플링 유닛은, 구체적으로 신경 네트워크 구조에 대해 샘플링을 진행하여, n 가지의 네트워크 블록을 생성하기 위한 것이며, 상기 n은 0보다 큰 자연수이며,
상기 네트워크 형성 유닛은, 구체적으로 상기 n 가지의 네트워크 블록에 각각 기반하여 n 개의 샘플링 신경 네트워크를 형성하기 위한 것이며,
상기 훈련 유닛은, 구체적으로 샘플 데이터에 기반하여 상기 n 개의 샘플링 신경 네트워크에 대해 각각 훈련을 진행하고, 상기 n 개의 샘플링 신경 네트워크에 대응되는 n 개의 정확도를 얻기 위한 것이며,
상기 네트워크 출력 유닛은, 상기 n 개의 정확도에 기설정된 조건을 충족시키는 정확도가 존재하지 않는 것에 응답하여, 새로운 n 가지의 네트워크 블록에 의해 각각 형성된 n 개의 샘플링 신경 네트워크에 기설정된 조건을 충족시키는 신경 네트워크가 존재할 때까지, 각각 상기 n 개의 정확도에 따라 새로운 n 가지의 네트워크 블록을 재차 생성하고, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하기 위한 것임을 특징으로 하는 신경 네트워크 구조의 생성 장치.
제12항에 있어서,
상기 신경 네트워크 구조의 생성 장치는,
상기 정확도가 기설정된 조건을 충족시키는 것에 응답하여, 기설정된 조건을 충족시키는 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하거나;
상기 정확도가 기설정된 조건을 충족시키지 못하고, 상기 신경 네트워크 구조에 대해 샘플링을 진행한 횟수가 이미 기설정된 횟수에 도달한 것에 응답하여, 현재의 샘플링 신경 네트워크를 타겟 신경 네트워크로서 사용하기 위한 타겟 판단 유닛을 더 포함하는 것을 특징으로 하는 신경 네트워크 구조의 생성 장치.
전자 기기로서,
프로세서를 포함하고, 상기 프로세서는 제12항 내지 제22항 중 어느 한 항에 따른 신경 네트워크 구조의 생성 장치를 포함하는 것을 특징으로 하는 전자 기기.
전자 기기로서,
실행 가능한 명령어를 저장하기 위한 메모리; 및
상기 메모리와 통신하여 상기 실행 가능한 명령어를 실행함으로써 제1항 내지 제11항 중 어느 한 항에 따른 상기 신경 네트워크 구조의 생성 방법의 조작을 완료하기 위한 프로세서를 포함하는 것을 특징으로 하는 전자 기기.
컴퓨터 저장 매체로서,
컴퓨터 판독 가능한 명령어를 저장하고, 상기 명령어가 실행될 경우 제1항 내지 제11항 중 어느 한 항에 따른 상기 신경 네트워크 구조의 생성 방법의 조작을 실행하는 것을 특징으로 하는 컴퓨터 저장 매체.