KR20210045274A - 신경망 구조 모델을 검색하는 방법, 장치 및 기록매체 - Google Patents

신경망 구조 모델을 검색하는 방법, 장치 및 기록매체 Download PDF

Info

Publication number
KR20210045274A
KR20210045274A KR1020200004723A KR20200004723A KR20210045274A KR 20210045274 A KR20210045274 A KR 20210045274A KR 1020200004723 A KR1020200004723 A KR 1020200004723A KR 20200004723 A KR20200004723 A KR 20200004723A KR 20210045274 A KR20210045274 A KR 20210045274A
Authority
KR
South Korea
Prior art keywords
network model
model structure
population
searching
neural network
Prior art date
Application number
KR1020200004723A
Other languages
English (en)
Other versions
KR102378395B1 (ko
Inventor
시앙시앙 추
루이준 수
보 장
지시앙 리
칭위안 리
Original Assignee
베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20210045274A publication Critical patent/KR20210045274A/ko
Application granted granted Critical
Publication of KR102378395B1 publication Critical patent/KR102378395B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Physiology (AREA)
  • Fuzzy Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Algebra (AREA)

Abstract

본 발명은 신경망 구조 모델을 검색하는 방법, 장치 및 기록매체에 관한 것이다. 상기 방법은, 다목적 최적화 하이퍼 파라미터에 따라 초기 세대 네트워크 모델 구조 모집단을 생성하는 단계; 현 세대 네트워크 모델 구조 모집단에 대해 선택 및 교차를 진행하는 단계; 강화 학습 변이에 따라 일부 네트워크 모델 구조를 생성하고 선택 및 교차된 네트워크 모델 구조를 랜덤으로 변이시켜 나머지 부분의 네트워크 모델 구조를 생성하는 단계; 강화 학습 변이가 생성한 네트워크 모델 구조 및 랜덤 변이에 의해 생성된 네트워크 모델 구조에 따라 네트워크 모델 구조 새 모집단을 생성하는 단계; 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 단계; 차세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하여 다목적 최적화 상태가 최적이 될 때까지 상기 프로세스를 반복 실행하고, 최종 세대 네트워크 모델 구조 모집단에서 부동한 시나리오에 적합한 신경망 구조 모델을 선택하는 단계; 를 포함한다.

Description

신경망 구조 모델을 검색하는 방법, 장치 및 기록매체{METHOD AND APPARATUS FOR SEARCHING NEURAL NETWORK STRUCTURE MODEL AND RECORDING MEDIUM}
본 발명은 심층 학습(Deep Learning) 기술 분야에 관한 것으로, 특히 신경망 구조 모델을 검색하는 방법, 장치 및 기록매체에 관한 것이다.
심층 학습 신경망은 엔드 투 엔드(end-to-end)의 특징 추출을 실현하여 수동 특징 추출에 비해 크게 개선되었으며, 이와 동시에 인공적으로 설계된 신경망 아키텍처는 신경망의 복잡도를 증가시켰다.
기술의 발전과 함께, 신경망 아키텍처 검색(Neural Architecture Search, NAS)은 신경망을 사용하여 신경망을 설계하는 것을 실현하였으며, 이는 기계 학습의 미래의 방향을 나타내고 있다. NAS 기술에서는 검색 전략으로서 진화 알고리즘 또는 강화 학습 알고리즘을 사용하여 신경망 구조 모델을 검색한다.
본 발명은 관련 기술에 존재하는 문제를 극복하기 위한 신경망 구조 모델을 검색하는 방법, 장치 및 기록매체를 제공한다.
본 발명 실시예의 제 1 양태에 따르면, 신경망 구조 모델을 검색하는 방법이 제공되고, 상기 방법은,
다목적 최적화 하이퍼 파라미터(hyper parameter)에 따라 초기 세대 네트워크 모델 구조 모집단을 생성하고, 상기 초기 세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하는 단계; 현 세대 네트워크 모델 구조 모집단에 대해 선택 및 교차를 진행하는 단계; 강화 학습 변이에 따라 일부 네트워크 모델 구조를 생성하고 선택 및 교차된 네트워크 모델 구조를 랜덤으로 변이시켜 나머지 부분의 네트워크 모델 구조를 생성하는 단계; 강화 학습 변이가 생성한 네트워크 모델 구조 및 랜덤 변이에 의해 생성된 네트워크 모델 구조에 따라 네트워크 모델 구조 새 모집단을 생성하는 단계; 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 단계; 상기 차세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하여 다목적 최적화 상태가 최적이 될 때까지 상기 프로세스를 반복 실행하고, 최종 세대 네트워크 모델 구조 모집단에서 부동한 시나리오에 적합한 신경망 구조 모델을 선택하는 단계; 를 포함한다.
일 예에서, 상기 다목적 최적화 파라미터에는 네트워크 모델 구조를 실행하는 데 사용한 추론 시간이 포함된다.
네트워크 모델 구조 새 모집단을 생성한 후 상기 신경망 구조 모델을 검색하는 방법은,
상기 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 상기 각 네트워크 모델 구조를 실행하는 기기 측으로 송신하고 기기 측 신경망 엔진에 의해 상기 네트워크 모델 구조를 실행하는 단계; 기기 측 신경망 엔진이 상기 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 실행하는 추론 시간을 획득하는 단계; 를 더 포함한다.
현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 단계는,
상기 추론 시간, 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 단계를 포함한다.
일 예에서, 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 단계는,
예측 평가 지표를 사용하여 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 단계를 포함하고,
상기 예측 평가 지표는 자기 부호화 리그레서(regressor)에 의해 결정되며, 상기 자기 부호화 리그레서는 네트워크 모델 구조 및 평가 지표를 사전에 훈련하여 얻어진 평가 지표를 예측 가능한 자기 부호화 리그레서이다.
일 예에서, 강화 학습 변이에 따라 생성된 네트워크 모델 구조와 랜덤 변이에 의해 생성된 네트워크 모델 구조는 소정의 난수 비율을 만족한다.
본 발명 실시예의 제 2 양태에 따르면, 신경망 구조 모델을 검색하는 장치가 제공되며, 상기 장치는,
다목적 최적화 하이퍼 파라미터에 따라 초기 세대 네트워크 모델 구조 모집단을 생성하도록 구성된 모집단 생성 유닛;
상기 초기 세대 네트워크 모델 구조 모집단 또는 검색된 차세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하여 현 세대 네트워크 모델 구조 모집단에 대해 선택 및 교차를 진행하도록 구성된 선택 및 교차 유닛;
강화 학습 변이에 따라 일부 네트워크 모델 구조를 생성하고 선택 및 교차된 네트워크 모델 구조를 랜덤으로 변이시켜 나머지 부분의 네트워크 모델 구조를 생성하도록 구성된 변이 유닛;
강화 학습 변이된 네트워크 모델 구조 및 랜덤 변이된 네트워크 모델 구조에 따라 네트워크 모델 구조 새 모집단을 생성하도록 구성된 새 모집단 생성 유닛;
현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하고, 상기 차세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하여 다목적 최적화 상태가 최적이 될 때까지 선택, 교차 및 변이의 프로세스를 반복 실행하며, 최종 세대 네트워크 모델 구조 모집단에서 부동한 시나리오에 적합한 신경망 구조 모델을 선택하도록 구성된 검색 유닛; 을 구비한다.
일 예에서, 상기 다목적 최적화 파라미터에는 네트워크 모델 구조를 실행하는 데 사용한 추론 시간이 포함된다.
상기 신경망 구조 모델을 검색하는 장치는 송수신 유닛을 더 구비하고, 상기 송수신 유닛은,
새 모집단 생성 유닛이 네트워크 모델 구조 새 모집단을 생성한 후, 상기 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 상기 각 네트워크 모델 구조를 실행하는 기기 측으로 송신하고 기기 측 신경망 엔진에 의해 상기 네트워크 모델 구조를 실행하며, 기기 측 신경망 엔진이 상기 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 실행하는 추론 시간을 획득하도록 구성되고,
상기 검색 유닛은 아래의 방식을 사용하여 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하도록 구성되며,
상기 추론 시간, 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색한다.
일 예에서, 상기 신경망 구조 모델을 검색하는 장치는 훈련 유닛을 더 구비하고, 상기 훈련 유닛은,
자기 부호화 리그레서를 사용하여 네트워크 모델 구조 및 평가 지표를 훈련하여 평가 지표를 예측 가능한 자기 부호화 리그레서가 얻어지도록 구성된다.
상기 검색 유닛은 아래의 방식을 사용하여 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하도록 구성되며,
예측 평가 지표를 사용하여 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하고,
상기 예측 평가 지표는 자기 부호화 리그레서에 의해 결정되며, 상기 자기 부호화 리그레서는 네트워크 모델 구조 및 평가 지표를 사전에 훈련하여 얻어진 평가 지표를 예측 가능한 자기 부호화 리그레서이다.
일 예에서, 강화 학습 변이가 진행되는 일부 네트워크 모델 구조는 소정의 난수 비율을 만족하는 일부 네트워크 모델 구조이다.
본 발명 실시예의 제 3 양태에 따르면, 신경망 구조 모델을 검색하는 장치가 제공되며, 상기 장치는,
프로세서와,
프로세서에서 실행 가능한 명령을 저장하기 위한 메모리를 구비하며,
여기서, 상기 프로세서는 제 1 양태 또는 제 1 양태의 임의의 일 예에 기재된 신경망 구조 모델을 검색하는 방법을 실행하도록 구성된다.
본 발명 실시예의 제 4 양태에 따르면, 비일시적인 컴퓨터 판독 가능한 기록매체가 제공되며, 상기 기록매체 내의 명령이 모바일 단말기의 프로세서에 의해 실행되면, 모바일 단말기로 하여금 제 1 양태 또는 제 1 양태의 임의의 일 예에 기재된 신경망 구조 모델을 검색하는 방법을 실행하게 한다.
본 발명이 제공한 기술 방안에 따르면 하기와 같은 기술효과를 가져올 수 있다.
강화 학습 변이에 따라 기학습된 네트워크 모델 구조를 사용할 수 있다. 선택 및 교차된 네트워크 모델 구조 모집단 내의 네트워크 모델 구조를 랜덤으로 변이시킴으로써 진화 프로세스에서의 모델의 저하를 어느 정도 피할 수 있다. 본 발명은 강화 학습 변이 및 랜덤 변이를 결합시킴으로써 진화 알고리즘에서 강화 학습 알고리즘을 사용하여 랜덤 변이 프로세스를 조정하고 랜덤성의 탐색과 기학습된 정보의 사용 간의 균형을 실현하였다.
상기 일반적인 서술 및 하기 세부적인 서술은 단지 예시적이고 해석적이며, 본 발명을 한정하려는 것이 아님이 이해되어야 한다.
하기의 도면은 명세서에 병합되어 본 명세서의 일부를 구성하고 본 발명에 부합하는 실시예를 표시하며 명세서와 함께 본 발명의 원리를 해석한다.
도 1은 일 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 아키텍처를 나타내는 모식도이다.
도 2는 일 예시적인 실시예에 따른 강화 학습 알고리즘을 실현하는 프로세스를 나타내는 모식도이다.
도 3은 일 예시적인 실시예에 따른 진화 알고리즘을 실현하는 프로세스를 나타내는 모식도이다.
도 4는 일 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 방법을 나타내는 흐름도이다.
도 5는 일 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 프로세스를 나타내는 모식도이다.
도 6은 일 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 방법을 나타내는 흐름도이다.
도 7은 일 예시적인 실시예에 따른 추론 시간을 결정하는 프로세스를 나타내는 모식도이다.
도 8은 일 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 방법을 나타내는 흐름도이다.
도 9는 일 예시적인 실시예에 따른 추론 시간을 훈련하는 프로세스를 나타내는 모식도이다.
도 10은 일 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 장치를 나타내는 블록도이다.
도 11은 일 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 장치를 나타내는 블록도이다.
여기서, 예시적인 실시예에 대하여 상세하게 설명하고, 그 사례를 도면에 표시한다. 하기의 서술이 도면에 관련될 때, 달리 명시하지 않는 경우, 서로 다른 도면에서의 동일한 부호는 동일한 구성 요소 또는 유사한 구성 요소를 나타낸다. 하기의 예시적인 실시예에서 서술한 실시방식은 본 발명에 부합되는 모든 실시 방식을 대표하는 것이 아니며, 실시방식들은 다만 첨부된 특허청구의 범위에 기재한 본 발명의 일측면에 부합되는 장치 및 방법의 예이다.
본 발명 실시예에 제공되는 신경망 구조 모델을 검색하는 방법은 도 1에 나타낸 신경망 구조 모델을 검색하는 시나리오에 적용될 수 있다. 도 1은 일부 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 프로세스를 나타내는 모식도이다. 도 1을 참조하면, 신경망 구조 모델을 검색하는 프로세스는 검색 공간, 검색 전략 및 성능 평가 전략에 관여한다. 신경망 구조 모델을 검색하는 프로세스에서는 검색 전략을 사용하여 검색 공간 내에서 네트워크 구조를 검색하고 검색된 네트워크 구조에 대해 성능 평가를 진행하며 평가 결과에 따라 검색 전략을 갱신하고 상기 네트워크 구조를 검색, 평가하는 프로세스를 반복 실행하여 평가 요구를 충족하는 신경망 구조 모델을 최종적으로 검색한다.
관련 기술에서, 신경망 구조 모델을 검색할 때 사용되는 검색 전략은 컨트롤러 내의 진화 알고리즘(예를 들어, NSGA-II 다목적 최적화 진화 알고리즘) 또는 강화 학습 알고리즘에 의해 생성된 네트워크 모델 구조에 따라 얻어진다. 예를 들어, 도 2를 참조하면, 컨트롤러는 강화 학습 알고리즘을 사용하여 신경망 구조를 생성한다. 여기서, 컨트롤러 파라미터를 사용하여 신경망 구조를 샘플링 생성하고 샘플링된 신경망 구조의 수렴을 훈련함으로써 모델 평가 지표가 얻어진다. 모델 평가 지표를 사용하여 제어 파라미터를 조정하고 강화 학습의 프로세스를 재개한다. 평가 요구를 충족하는 신경망 구조가 생성될 때까지 상기 프로세스를 반복 실행한다. 도 3을 참조하면, 컨트롤러는 NSGA-II 다목적 최적화 진화 알고리즘을 사용하여 신경망 구조를 생성한다. 여기서, 추론 시간, 평가 지표, 네트워크 성능 지표, 네트워크 계산량 및 네트워크 파라미터 등의 다목적 최적화 하이퍼 파라미터에 따라 네트워크 모델 구조 모집단을 랜덤으로 생성한다. 랜덤 생성된 네트워크 모델 구조 모집단 내에서 요구를 충족하는 네트워크 모델 구조를 예비 선택한다. 예비 선택된 네트워크 모델 구조에 대해 교차 알고리즘을 더 실행하여 표준에 도달한 네트워크 모델 구조의 선별을 실현한다. 선택 및 교차된 네트워크 모델 구조 랜덤 모집단에 대해 랜덤 변이를 진행하여 네트워크 모델 구조 새 모집단을 생성한다. 네트워크 모델 구조 새 모집단 내의 네트워크 모델 구조에 대해 성능 평가를 진행하고 차세대 네트워크 모델 구조를 검색하며 검색된 차세대 네트워크 모델 구조에 대해 선택, 교차, 랜덤 변이 등의 프로세스를 실행한다. 평가 결과를 만족하는 네트워크 모델 구조가 얻어지고 요구를 충족하는 검색 전략이 얻어지며 신경망 구조 모델의 검색이 완료될 때까지 상기 프로세스를 반복 실행한다.
현재의 신경망 구조 모델을 검색하는 방법에서는 검색 전략으로서 진화 알고리즘 또는 강화 학습 전략 구배 알고리즘이 단독으로 사용되고 있다.
본 발명은 다목적 최적화에 대한 진화 알고리즘 NSGA-II의 지원 및 생성된 모델이 폴백(fallback)하지 않는 것을 보증하는 장점을 조합한 신경망 아키텍처 패턴을 검색하는 방법을 제공한다. 진화 알고리즘에서는 강화 학습 알고리즘을 사용하여 랜덤 변이 프로세스를 조정하고 랜덤성의 탐색과 기학습된 정보의 사용 간에서 균형을 잡는다.
도 4는 일 예시적인 실시예에 따른 신경망 아키텍처 패턴을 검색하는 방법을 나타내는 흐름도이고, 도 4에 나타낸 바와 같이, 신경망 아키텍처 패턴을 검색하는 방법은 단말기에 사용되며, 하기의 단계 S11 내지 단계 S16을 포함한다.
단계 S11에 있어서, 다목적 최적화 하이퍼 파라미터에 따라 초기 세대 네트워크 모델 구조 모집단을 생성한다.
단계 S12에 있어서, 현 세대 네트워크 모델 구조 모집단에 대해 선택 및 교차를 진행한다.
본 발명에 있어서, 초기 단계에서 현 세대 네트워크 모델 구조 모집단은 다목적 최적화 하이퍼 파라미터에 따라 생성된 초기 세대 네트워크 모델 구조 모집단이다. 검색 단계에서 현 세대 네트워크 모델 구조 모집단은 검색된 네트워크 모델 구조 모집단이다.
단계 S13에 있어서, 강화 학습 변이에 따라 일부 네트워크 모델 구조를 생성한다.
단계 S14에 있어서, 선택 및 교차된 네트워크 모델 구조 모집단 내의 네트워크 모델 구조를 랜덤으로 변이시켜 나머지 부분의 네트워크 모델 구조를 생성한다.
단계 S15에 있어서, 강화 학습 변이가 생성한 네트워크 모델 구조 및 랜덤 변이에 의해 생성된 네트워크 모델 구조에 따라 네트워크 모델 구조 새 모집단을 생성한다.
단계 S16에 있어서, 현 세대 네트워크 모델 구조 모집단 및 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색한다.
본 발명에서, 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 프로세스는, 네트워크 모델 구조 새 모집단 내의 네트워크 모델 구조에 대해 성능 평가를 진행하고 다목적 최적화 상태가 최적에 도달하지 않은 경우 검색된 차세대 네트워크 모델 구조 모집단에 대해 본 발명 실시예에 따른 선택, 교차, 변이(강화 학습 변이 및 랜덤 변이) 등의 프로세스를 실행하여 차세대 네트워크 모델 구조 새 모집단을 검색하는 것으로 이해할 수 있다.
단계 S17에 있어서, 차세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하여 다목적 최적화 상태가 최적이 될 때까지 상기 프로세스를 반복 실행하고, 최종 세대 네트워크 모델 구조 모집단에서 부동한 시나리오에 적합한 신경망 구조 모델을 선택한다.
본 발명에서는 강화 학습 변이에 따라 기학습된 네트워크 모델 구조를 사용할 수 있다. 선택 및 교차된 네트워크 모델 구조 모집단 내의 일부 네트워크 모델 구조를 랜덤으로 변이시킴으로써 진화 프로세스에서의 모델의 저하를 어느 정도 피할 수 있다. 본 발명은 강화 학습 변이 및 랜덤 변이를 결합시킴으로써 진화 알고리즘에서 강화 학습 알고리즘을 사용하여 랜덤 변이 프로세스를 조정하고 랜덤성의 탐색과 기학습된 정보의 사용 간의 균형을 실현하였다.
본 발명의 일 실시형태에서는 진화 알고리즘에서 강화 학습 알고리즘을 사용하여 랜덤 변이 프로세스를 조정할 때 강화 학습 변이가 진행되는 부분의 비율을 사전 설정할 수 있다. 이 비율은 난수 비율일 수 있다. 여기서, 난수 비율은 실제 수요에 따라 설정된 경험치일 수 있다. 여기서, 주로 랜덤성의 탐색과 기학습된 정보의 사용 간의 균형의 수요에 따라 설정된다. 진화 알고리즘에서 강화 학습 알고리즘을 사용하여 랜덤 변이 프로세스를 조정할 때 부분적으로 강화 학습 기반의 변이를 진행한다. 나머지 부분에 대해서는 선택 및 교차된 네트워크 모델 구조를 랜덤으로 변이시킨다. 강화 학습 변이된 네트워크 모델 구조 및 랜덤 변이된 네트워크 모델 구조에 따라 네트워크 모델 구조 새 모집단을 생성한다. 네트워크 모델 구조 새 모집단을 평가하여 상기 네트워크 모델 구조 새 모집단에 따라 신경망 구조 모델을 검색한다. 본 발명의 일 실시형태에서는 소정의 난수 비율을 만족하는 것은 소정의 난수 비율 이상인 것으로 이해할 수 있다. 본 발명의 상기 진화 알고리즘에서 강화 학습 알고리즘을 사용하여 랜덤 변이 프로세스를 조정하여 네트워크 모델 구조의 생성을 실현하는 프로세스는 도 5를 참조할 수 있다.
본 발명의 상기 진화 알고리즘 및 강화 학습 알고리즘을 결합시킴으로써 다목적 최적화 프로세스에서 랜덤성의 탐색과 기학습된 정보의 사용 간의 균형을 실현할 수 있다.
본 발명의 일 실시형태에서는 상기에 언급된 신경망 구조 모델을 검색하는 방법에 따라, 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 각 네트워크 모델 구조를 실행하는 기기 측으로 송신하고 기기 측 신경망 엔진에 의해 네트워크 모델 구조를 실행하며 기기 측 신경망 엔진이 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 실행하는 추론 시간을 획득할 수 있다. 기기 측 신경망 엔진이 네트워크 모델 구조를 실행한 실제 추론 시간에 따라 네트워크 모델 구조 새 모집단 내에서 신경망 구조 모델을 검색하여 대응하는 기기의 사용 가능한 신경망 구조 모델의 생성을 용이하게 한다.
도 6은 일 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 방법을 나타내는 흐름도이다. 도 6에 나타낸 바와 같이, 신경망 아키텍처 패턴을 검색하는 방법은 단말기에 사용되며, 하기의 단계 S21 내지 단계 S28을 포함한다.
도 6에 나타낸 신경망 구조 모델을 검색하는 방법에 따른 단계 S21 내지 단계 S25 및 단계 S29는 도 4에 나타낸 방법에서의 단계 S11 내지 단계 S15 및 단계 S17과 동일하며, 본 발명은 여기서 자세한 설명을 생략한다.
단계 S26에 있어서, 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 각 네트워크 모델 구조를 실행하는 기기 측으로 송신하고, 기기 측 신경망 엔진에 의해 네트워크 모델 구조를 실행한다.
단계 S27에 있어서, 기기 측 신경망 엔진이 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 실행하는 추론 시간을 획득한다.
본 발명에서는 도 7에 나타낸 바와 같은 방식을 사용하여 기기 측 신경망 엔진이 네트워크 모델 구조를 실행하는 추론 시간을 결정할 수 있다. 도 7을 참조하면, 네트워크 모델 구조 새 모집단 내의 네트워크 모델 구조가 NAS 측 에이전트에 송신되며, NAS 측 에이전트에 의해 네트워크 모델 구조를 네트워크 모델 구조를 실행하는 기기 측으로 송신한다. 기기 측에서는 기기 측 에이전트가 네트워크 모델 구조를 수신한 후에 기기 측 신경망 엔진으로 송신하며, 기기 측 신경망 엔진에 의해 네트워크 모델 구조를 실행한다. 기기 측은 기기 측 신경망 엔진이 네트워크 모델 구조를 실행하는 데 사용한 실제 추론 시간을 기록하고, 기기 측 에이전트에 의해 NAS 측 에이전트로 피드백된다. NAS 측 에이전트는 기기 측 에이전트에 의해 송신된 기기 측 신경망 엔진이 네트워크 모델 구조를 실행하는 데 사용한 실제 추론 시간을 획득한 후, 컨트롤러에서 신경망 구조 모델 검색을 실행한다.
단계 S28에 있어서, 기기 측 신경망 엔진이 네트워크 모델 구조를 실행한 실제 추론 시간, 현 세대 네트워크 모델 구조 모집단 및 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색한다.
본 발명에서는 기기 측 신경망 엔진이 네트워크 모델 구조를 실행한 실제 추론 시간을 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조의 다목적 최적화 파라미터의 하나로 하며, 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조의 평가에 참여한다. 여기서, 구체적인 평가 프로세스에는 종래의 평가 프로세스에서 네트워크 모델 구조를 갱신하는 프로세스가 포함될 수 있으며, 예를 들어, 네트워크 모델 구조의 평가 요구를 충족하지 않는 네트워크 모델 구조의 추론 시간을 기기 측 신경망 엔진이 네트워크 모델 구조를 실행한 실제 추론 시간으로 갱신한 후, 선택, 교차, 강화 학습 변이 및 랜덤 변이, 새 모집단을 생성하는 프로세스 등을 진행한다.
본 발명에서는 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 기기 측으로 송신하고 기기 측 신경망 엔진이 네트워크 모델 구조를 실행한 실제 추론 시간에 따라 신경망 구조 모델을 검색함으로써, 대응하는 기기 측에서 사용 가능한 신경망 구조 모델의 생성에 보다 유리하다.
본 발명의 또 다른 실시형태에서는 대량의 네트워크 모델 구조를 랜덤으로 생성하고 네트워크 모델 구조를 순차적으로 훈련하여 진정한 평가 지표가 얻어지며, 자기 부호화 리그레서를 사용하여 네트워크 모델 구조의 평가 지표를 훈련하여 네트워크 모델 구조의 평가 지표를 예측 가능한 자기 부호화 리그레서가 얻어진다. 예측 평가 지표를 사용하여 차세대 네트워크 모델 구조를 검색함으로써 모델 평가 시간을 단축하고 검색 효율을 향상시킬 수 있다.
도 8은 일 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 방법을 나타내는 흐름도이다. 도 8에 나타낸 바와 같이, 신경망 아키텍처 패턴을 검색하는 방법은 단말기에 사용되며, 하기의 단계 S31 내지 단계 S39을 포함한다.
도 8에 나타낸 신경망 구조 모델을 검색하는 방법에 따른 단계 S31 내지 단계 S35는 도 6에 나타낸 방법에서의 단계 S21 내지 단계 S25와 동일하며, 본 발명은 여기서 자세한 설명을 생략한다.
단계 S36에 있어서, 대량의 네트워크 모델 구조를 랜덤으로 생성하고, 랜덤으로 생성된 대량의 네트워크 모델 구조를 순차적으로 훈련하여 각 네트워크 모델 구조의 평가 지표가 얻어진다.
단계 S37에 있어서, 자기 부호 복호화 리그레서에 따라 네트워크 모델 구조 및 평가 지표를 훈련하여 네트워크 모델 구조의 평가 지표를 예측 가능한 자기 부호화 리그레서가 얻어진다.
단계 S38에 있어서, 상기 자기 부호화 리그레서에 따라 입력 네트워크 모델 구조를 예측하여 이 네트워크 모델 구조의 예측 평가 지표가 얻어진다.
도 9는 자기 부호화 리그레서를 사용하여 네트워크 모델 구조의 평가 지표를 훈련하여 예측 평가 지표가 얻어지는 프로세스를 나타내는 모식도이다. 도 9를 참조하면, 평가 지표는 다목적 최적화 하이퍼 파라미터의 하나로서, 생성된 네트워크 모델 구조 A는 입력 파라미터로서 자기 부호화기 내에 입력된다. 자기 부호화기는 추론 시간의 중간 표징을 생성하며, 이 중간 징표에 따라 예측 평가 지표가 얻어진다. 여기서, 리그레서는 네트워크 모델 구조 A를 부호화하여 중간 표징을 생성하고 복호화하여 네트워크 모델 구조 B가 얻어지며, 리그레서의 파라미터는 loss(B = A)를 최소화하기 위해 역 전파 훈련(BP)에 의해 얻어진다. 훈련이 완료된 후, 네트워크 모델 구조에 따라 평가 지표를 예측하며, 훈련 평가 지표 및 예측 평가 지표에 따른 손실(Loss) 함수를 최소화하기 위해, 역 전파 알고리즘에 따라 훈련하여 갱신된 예측 평가 지표를 얻을 수 있다.
단계 S39에 있어서, 예측 평가 지표를 사용하여 현 세대 네트워크 모델 구조 및 네트워크 모델 구조 새 모집단에 따라 신경망 구조 모델을 검색한다.
단계 S310에 있어서, 다목적 최적화 상태가 최적이 될 때까지 상기 프로세스를 반복 실행하고, 최종 세대 네트워크 모델 구조 모집단에서 부동한 시나리오에 적합한 신경망 구조 모델을 선택한다.
본 발명에서는 자기 부호화 리그레서를 사용하여 네트워크 모델 구조의 평가 지표를 훈련하여 평가 지표를 예측 가능한 자기 부호화 리그레서가 얻어지며, 예측 평가 지표를 사용하여 신경망 구조 모델을 검색함으로써 모델 평가 시간을 단축하고 검색 효율을 향상시킬 수 있다.
동일한 개념에 기초하여, 본 발명 실시예는 신경망 구조 모델을 검색하는 장치를 더 제공한다.
상기 기능을 실현하기 위해, 본 발명 실시예에 제공되는 신경망 구조 모델을 검색하는 장치는 각 기능을 실행하는 해당 하드웨어 구조 및/또는 소프트웨어 모듈을 구비하는 것을 이해할 수 있다. 본 발명 실시예에 개시된 각 예의 유닛 및 알고리즘 단계에 관련하여, 본 발명 실시예는 하드웨어 또는 하드웨어와 컴퓨터 소프트웨어의 조합의 형식으로 실현될 수 있다. 어떤 기능이 하드웨어에서 실행되는지, 또는 컴퓨터 소프트웨어에 의해 하드웨어를 구동하는 방식으로 실행되는지는 기술 방안의 특정 애플리케이션 및 설계 상의 제약 조건에 따라 다르다. 당업자는 각각의 특정 애플리케이션에 대해 부동한 방법을 사용하여 설명된 기능을 실현할 수 있으나, 그러한 실현이 본 발명 실시예의 기술 방안의 범위를 넘어서는 것으로 간주되어서는 아니된다.
도 10은 일 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 장치를 나타내는 블록도이다. 도 10을 참조하면, 신경망 구조 모델을 검색하는 장치(100)는 모집단 생성 유닛(101), 선택 및 교차 유닛(102), 변이 유닛(103), 새 모집단 생성 유닛(104) 및 검색 유닛(105)을 구비한다.
모집단 생성 유닛(101)은 다목적 최적화 하이퍼 파라미터에 따라 초기 세대 네트워크 모델 구조 모집단을 생성하도록 구성된다. 선택 및 교차 유닛(102)은 상기 초기 세대 네트워크 모델 구조 모집단 또는 검색된 차세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하여 현 세대 네트워크 모델 구조 모집단에 대해 선택 및 교차를 진행하도록 구성된다. 변이 유닛(103)은 강화 학습 변이에 따라 일부 네트워크 모델 구조를 생성하고 선택 및 교차된 네트워크 모델 구조 모집단을 랜덤으로 변이시켜 나머지 부분의 네트워크 모델 구조를 생성하도록 구성된다. 새 모집단 생성 유닛(104)은 강화 학습 변이가 생성한 네트워크 모델 구조 및 랜덤 변이에 의해 생성된 네트워크 모델 구조에 따라 네트워크 모델 구조 새 모집단을 생성하도록 구성된다. 검색 유닛(105)은 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하고, 차세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하여 다목적 최적화 상태가 최적이 될 때까지 선택, 교차 및 변이의 프로세스를 반복 실행하며, 최종 세대 네트워크 모델 구조 모집단에서 부동한 시나리오에 적합한 신경망 구조 모델을 선택하도록 구성된다.
일 예에서, 변이 유닛(103)은 소정의 난수 비율을 만족하는 일부 네트워크 모델 구조가 강화 학습 변이에 의해 생성되고 기타 부분의 네트워크 모델 구조가 선택 및 교차된 네트워크 모델 구조의 랜덤 변이에 의해 생성되도록 구성된다.
일 예에서, 다목적 최적화 파라미터에는 네트워크 모델 구조를 실행하는 데 사용한 추론 시간이 포함된다. 신경망 구조 모델을 검색하는 장치(100)는 송수신 유닛(106)을 더 구비한다. 송수신 유닛(106)은 새 모집단 생성 유닛이 네트워크 모델 구조 새 모집단을 생성한 후, 상기 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 상기 각 네트워크 모델 구조를 실행하는 기기 측으로 송신하고 기기 측 신경망 엔진에 의해 상기 네트워크 모델 구조를 실행하며, 기기 측 신경망 엔진이 상기 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 실행하는 추론 시간을 획득하도록 구성된다. 검색 유닛(105)은 아래의 방식을 사용하여 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하도록 구성되며, 추론 시간, 현 세대 네트워크 모델 구조 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색한다.
일 예에서, 신경망 구조 모델을 검색하는 장치는 훈련 유닛(107)을 더 구비한다. 훈련 유닛(107)은 자기 부호화 리그레서를 사용하여 네트워크 모델 구조 및 평가 지표를 훈련하여 평가 지표를 예측 가능한 자기 부호화 리그레서가 얻어지도록 구성된다.
검색 유닛(105)은 아래의 방식을 사용하여 현 세대 네트워크 모델 구조 모집단 및 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하도록 구성되며, 예측 평가 지표를 사용하여 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색한다. 여기서, 예측 평가 지표는 자기 부호화 리그레서에 의해 결정된다. 자기 부호화 리그레서는 네트워크 모델 구조 및 평가 지표를 사전에 훈련하여 얻어진 평가 지표를 예측 가능한 자기 부호화 리그레서이다.
상기 실시예의 장치에 있어서, 각각의 모듈이 조작을 실시하는 구체적인 방식은 이미 관련 방법의 실시예에서 상세히 설명하였기에 여기서, 자세한 설명을 생략한다.
도 11은 일 예시적인 실시예에 따른 신경망 구조 모델을 검색하는 장치(200)를 나타내는 블록도이다. 예를 들어, 신경망 구조 모델을 검색하는 장치(200)는 휴대폰, 컴퓨터, 디지털 브로드캐스팅 단말기, 메시지 송수신 장치, 게임 콘솔, 태블릿 장치, 의료 설비, 헬스 기기, PDA 등일 수 있다.
도 11을 참조하면, 신경망 구조 모델을 검색하는 장치(200)는 프로세싱 유닛(202), 메모리(204), 전원 유닛(206), 멀티미디어 유닛(208), 오디오 유닛(210), 입출력(I/O) 인터페이스(212), 센서 유닛(214) 및 통신 유닛(216) 중의 임의의 적어도 하나 이상을 포함할 수 있다.
프로세싱 유닛(202)은 일반적으로 신경망 구조 모델을 검색하는 장치(200)의 전체 조작,예를 들어, 디스플레이,전화 호출,데이터 통신,카메라 조작 및 기록 조작에 관련된 조작을 제어할 수 있다. 프로세싱 유닛(202)은 임의의 적어도 하나 이상의 프로세서(220)를 구비하여 명령어를 실행함으로써 상기 방법의 전부 또는 일부 단계를 완성할 수 있다. 또한, 프로세싱 유닛(202)은 기타 유닛과의 인터랙션을 편리하게 하도록 임의의 적어도 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 프로세싱 유닛(202)은 멀티미디어 유닛(208)과의 인터랙션을 편리하게 할 수 있도록 멀티미디어 모듈을 포함할 수 있다.
메모리(204)는 신경망 구조 모델을 검색하는 장치(200)의 조작을 서포트 하기 위하여 각종 유형의 데이터를 저장하도록 설치된다. 이러한 데이터는 예를 들어 신경망 구조 모델을 검색하는 장치(200)에서 임의의 애플리케이션이나 방법을 조작하기 위한 명령어, 연락처 데이터, 전화 번호부 데이터, 메시지, 사진, 동영상 등을 포함할 수 있다. 메모리(204)는 임의의 유형의 휘발성 또는 비휘발성 메모리 예를 들어 SRAM(Static Random Access Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), EPROM(Erasable Programmable Read Only Memory), PROM(Programmable ROM), ROM(Read Only Memory), 자기 메모리, 플래시 메모리, 자기 디스크 또는 콤팩트 디스크에 의해 또는 이들의 조합에 의해 실현될 수 있다.
전원 유닛(206)은 신경망 구조 모델을 검색하는 장치(200)의 각 유닛에 전력을 공급하기 위한 것이며, 전원 관리 시스템, 임의의 적어도 하나 이상의 전원 및 신경망 구조 모델을 검색하는 장치(200)를 위하여 전력을 생성, 관리 및 분배하는데 관련된 기타 유닛을 포함할 수 있다.
멀티미디어 유닛(208)은 신경망 구조 모델을 검색하는 장치(200)와 사용자 사이에 출력 인터페이스를 제공하는 스크린을 포함할 수 있다. 일 실시예에 있어서, 스크린은 액정 디스플레이(LCD) 또는 터치 패널(TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자의 입력 신호를 수신하도록 터치 스크린으로 실현될 수 있다. 또한 터치 패널은 터치, 슬라이딩 및 터치 패널 위에서의 제스처(gesture)를 감지하도록 임의의 적어도 하나 이상의 터치 센서를 포함할 수 있다. 상기 터치 센서는 터치 또는 슬라이딩 동작의 경계위치를 감지할 수 있을 뿐만 아니라, 터치 또는 슬라이딩 조작에 관련되는 지속시간 및 압력을 검출할 수 있다. 일 실시예에 있어서, 멀티미디어 유닛(208)은 전면 카메라 및/또는 후면 카메라를 포함할 수 있다. 신경망 구조 모델을 검색하는 장치(200)가 예를 들어 촬영 모드 또는 동영상 모드 등 조작 모드 상태에 있을 때, 전면 카메라 및/또는 후면 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 전면 카메라 및 후면 카메라 각각은 고정된 광학 렌즈 시스템 또는 가변 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 유닛(210)은 오디오 신호를 출력 및/또는 입력하도록 설치될 수 있다. 예를 들어, 오디오 유닛(210)은 마이크(MIC)를 포함할 수 있다. 신경망 구조 모델을 검색하는 장치(200)가 예를 들어 호출 모드, 기록 모드 또는 음성 인식 모드 등 조작 모드 상태에 있을 때, 마이크는 외부의 오디오 신호를 수신하도록 설치될 수 있다. 수신된 오디오 신호는 메모리(204)에 저장되거나 또는 통신 유닛(216)을 통해 송신될 수 있다. 일 실시예에 있어서, 오디오 유닛(210)은 오디오 신호를 출력하는 스피커를 더 포함할 수 있다.
I/O 인터페이스(212)는 프로세싱 유닛(202)과 주변 인터페이스 모듈 사이에 인터페이스를 제공하기 위한 것이다. 상기 주변 인터페이스 모듈은 키보드,클릭 휠,버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 작동 버튼 및 잠금 버튼 등을 포함하되 이에 한정되지 않는다.
센서 유닛(214)은 신경망 구조 모델을 검색하는 장치(200)를 위해 각 방면의 상태를 평가하는 임의의 적어도 하나 이상의 센서를 포함할 수 있다. 예를 들어, 센서 유닛(214)은 신경망 구조 모델을 검색하는 장치(200)의 온/오프 상태, 유닛의 상대적인 포지셔닝을 검출할 수 있다. 예를 들어, 상기 유닛은 신경망 구조 모델을 검색하는 장치(200)의 디스플레이 및 작은 키패드일 수 있다. 센서 유닛(214)은 신경망 구조 모델을 검색하는 장치(200) 또는 신경망 구조 모델을 검색하는 장치(200)의 유닛의 위치 변경, 사용자와 신경망 구조 모델을 검색하는 장치(200)사이의 접촉여부, 신경망 구조 모델을 검색하는 장치(200)의 방위 또는 가속/감속 및 신경망 구조 모델을 검색하는 장치(200)의 온도 변화를 검출할 수 있다. 센서 유닛(214)은 어떠한 물리적 접촉도 없는 상황에서 근처의 물체를 검출하도록 구성되는 근접 센서를 포함할 수 있다. 센서 유닛(214)은 이미지 형성 응용에 이용하기 위한 광 센서 예를 들어 CMOS 또는 CCD 이미지 센서를 포함할 수 있다. 일 실시예에 있어서, 상기 센서 유닛(214)은 가속도 센서, 자이로 스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 유닛(216)은 신경망 구조 모델을 검색하는 장치(200)와 기타 기기 사이의 무선 또는 유선 통신을 편리하게 진행하게 하도록 설치될 수 있다. 신경망 구조 모델을 검색하는 장치(200)는 통신 표준을 기반으로 하는 무선 네트워크 예를 들어 WiFi, 2G 또는 3G, 또는 이들의 조합에 액세스할 수 있다. 일 예시적인 실시예에 있어서, 통신 유닛(216)은 브로드캐스팅 채널을 통해 외부의 브로드캐스팅 관리 시스템에서의 브로드캐스팅 신호 또는 브로드캐스팅 관련 정보를 수신할 수 있다. 일 예시적인 실시예에 있어서, 상기 통신 유닛(216)은 근거리 통신을 촉진하기 위한 근거리 무선 통신(NFC) 모듈을 더 포함할 수 있다. 예를 들어, NFC 모듈은 RFID기술, IrDA기술, UWB기술, 블루투스(BT) 기술 및 기타 기술에 의해 실현될 수 있다.
일 예시적인 실시예에 있어서, 신경망 구조 모델을 검색하는 장치(200)는 상술한 방법을 실행하기 위하여 임의의 적어도 하나 이상의 ASIC(Application Specific Integrated Circuit), DSP(Digital Signal Processor), DSPD(Digital Signal Processing Device), PLD(Programmable Logic Device), FPGA(Field-Programmable Gate Array), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서, 또는 기타 전자 소자에 의해 실현될 수 있다.
일 예시적인 실시예에서 명령어를 포함한 비일시적인 컴퓨터 판독 가능한 기록매체 예를 들어 명령어를 포함한 메모리(204)을 더 제공한다. 상기 명령어는 신경망 구조 모델을 검색하는 장치(200)의 프로세서(220)에 의해 실행되어 상술한 방법을 완성할 수 있다. 예를 들어, 상기 비일시적인 컴퓨터 판독 가능한 기록매체는, ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크 및 광 데이터 메모리 등일 수 있다.
본 발명에 있어서 단수 표현인 "일종" "상기" 및 "해당"은 아래위 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현도 포함하는 것을 이해할 수 있다.
본 발명 실시예에서, 도면에 있어서 특정 순서로 조작을 설명하고 있으나, 도시된 특정 순서 또는 연속적인 순서로 이들 조작이 실행되거나, 또는 원하는 결과를 얻기 위해 도시된 모든 조작이 실행되는 것을 요구하는 것으로 해석되어서는 아니 된다는 것을 더 이해할 수 있다. 특정 환경에서는 멀티 태스킹 및 병렬 처리가 유리할 수 있다.
통상의 지식을 가진 자는 명세서에 대한 이해 및 명세서에 기재된 발명에 대한 실시를 통해 본 발명의 다른 실시방안을 용이하게 얻을 수 있다. 당해 출원의 취지는 본 발명에 대한 임의의 변형, 용도 또는 적응적인 변화를 포함하고, 이러한 변형, 용도 또는 적응적 변화는 본 발명의 일반적인 원리에 따르고, 당해 출원이 공개하지 않은 본 기술 분야의 공지기술 또는 통상의 기술수단을 포함한다. 명세서 및 실시예는 단지 예시적인 것으로서, 본 발명의 진정한 범위와 취지는 다음의 특허청구 범위에 의해 결정된다.
본 발명은 상기에 서술되고 도면에 도시된 특정 구성에 한정되지 않고 그 범위를 이탈하지 않는 상황에서 다양한 수정 및 변경을 실시할 수 있음에 이해되어야 한다. 본 발명의 범위는 단지 첨부된 특허청구 범위에 의해서만 한정된다.

Claims (10)

  1. 다목적 최적화 하이퍼 파라미터에 따라 초기 세대 네트워크 모델 구조 모집단을 생성하고, 상기 초기 세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하는 단계;
    현 세대 네트워크 모델 구조 모집단에 대해 선택 및 교차를 진행하는 단계;
    강화 학습 변이에 따라 일부 네트워크 모델 구조를 생성하고 선택 및 교차된 네트워크 모델 구조를 랜덤으로 변이시켜 나머지 부분의 네트워크 모델 구조를 생성하는 단계;
    강화 학습 변이가 생성한 네트워크 모델 구조 및 랜덤 변이에 의해 생성된 네트워크 모델 구조에 따라 네트워크 모델 구조 새 모집단을 생성하는 단계;
    현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 단계;
    상기 차세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하여 다목적 최적화 상태가 최적이 될 때까지 상기 프로세스를 반복 실행하고, 최종 세대 네트워크 모델 구조 모집단에서 부동한 시나리오에 적합한 신경망 구조 모델을 선택하는 단계; 를 포함하는
    것을 특징으로 하는 신경망 구조 모델을 검색하는 방법.
  2. 제1항에 있어서,
    상기 다목적 최적화 파라미터에는 네트워크 모델 구조를 실행하는 데 사용한 추론 시간이 포함되며,
    네트워크 모델 구조 새 모집단을 생성한 후,
    상기 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 상기 각 네트워크 모델 구조를 실행하는 기기 측으로 송신하고 기기 측 신경망 엔진에 의해 상기 네트워크 모델 구조를 실행하는 단계;
    기기 측 신경망 엔진이 상기 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 실행하는 추론 시간을 획득하는 단계; 를 더 포함하고,
    현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 단계는,
    상기 추론 시간, 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 단계를 포함하는
    것을 특징으로 하는 신경망 구조 모델을 검색하는 방법.
  3. 제1항에 있어서,
    현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 단계는,
    예측 평가 지표를 사용하여 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는 단계를 포함하고,
    상기 예측 평가 지표는 자기 부호화 리그레서에 의해 결정되며, 상기 자기 부호화 리그레서는 네트워크 모델 구조 및 평가 지표를 사전에 훈련하여 얻어진, 평가 지표를 예측 가능한 자기 부호화 리그레서인
    것을 특징으로 하는 신경망 구조 모델을 검색하는 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    강화 학습 변이에 따라 생성된 네트워크 모델 구조와 랜덤 변이에 의해 생성된 네트워크 모델 구조는 소정의 난수 비율을 만족하는
    것을 특징으로 하는 신경망 구조 모델을 검색하는 방법.
  5. 다목적 최적화 하이퍼 파라미터에 따라 초기 세대 네트워크 모델 구조 모집단을 생성하도록 구성된 모집단 생성 유닛;
    상기 초기 세대 네트워크 모델 구조 모집단 또는 검색된 차세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하여 현 세대 네트워크 모델 구조 모집단에 대해 선택 및 교차를 진행하도록 구성된 선택 및 교차 유닛;
    강화 학습 변이에 따라 일부 네트워크 모델 구조를 생성하고 선택 및 교차된 네트워크 모델 구조를 랜덤으로 변이시켜 나머지 부분의 네트워크 모델 구조를 생성하도록 구성된 변이 유닛;
    강화 학습 변이된 네트워크 모델 구조 및 랜덤 변이된 네트워크 모델 구조에 따라 네트워크 모델 구조 새 모집단을 생성하도록 구성된 새 모집단 생성 유닛;
    현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하고, 상기 차세대 네트워크 모델 구조 모집단을 현 세대 네트워크 모델 구조 모집단으로 하여 다목적 최적화 상태가 최적이 될 때까지 선택, 교차 및 변이의 프로세스를 반복 실행하며, 최종 세대 네트워크 모델 구조 모집단에서 부동한 시나리오에 적합한 신경망 구조 모델을 선택하도록 구성된 검색 유닛; 을 구비하는
    것을 특징으로 하는 신경망 구조 모델을 검색하는 장치.
  6. 제5항에 있어서,
    상기 다목적 최적화 파라미터에는 네트워크 모델 구조를 실행하는 데 사용한 추론 시간이 포함되며,
    송수신 유닛을 더 구비하고, 상기 송수신 유닛은,
    새 모집단 생성 유닛이 네트워크 모델 구조 새 모집단을 생성한 후, 상기 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 상기 각 네트워크 모델 구조를 실행하는 기기 측으로 송신하고 기기 측 신경망 엔진에 의해 상기 네트워크 모델 구조를 실행하며, 기기 측 신경망 엔진이 상기 네트워크 모델 구조 새 모집단 내의 각 네트워크 모델 구조를 실행하는 추론 시간을 획득하도록 구성되고,
    상기 검색 유닛은 아래의 방식을 사용하여 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하도록 구성되며,
    상기 추론 시간, 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하는
    것을 특징으로 하는 신경망 구조 모델을 검색하는 장치.
  7. 제5항에 있어서,
    훈련 유닛을 더 구비하고, 상기 훈련 유닛은,
    자기 부호화 리그레서를 사용하여 네트워크 모델 구조 및 평가 지표를 훈련하여 평가 지표를 예측 가능한 자기 부호화 리그레서가 얻어지도록 구성되며,
    상기 검색 유닛은 아래의 방식을 사용하여 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하도록 구성되며,
    예측 평가 지표를 사용하여 현 세대 네트워크 모델 구조 모집단 및 상기 네트워크 모델 구조 새 모집단에 따라 차세대 네트워크 모델 구조 모집단을 검색하고,
    상기 예측 평가 지표는 자기 부호화 리그레서에 의해 결정되며, 상기 자기 부호화 리그레서는 네트워크 모델 구조 및 평가 지표를 사전에 훈련하여 얻어진, 평가 지표를 예측 가능한 자기 부호화 리그레서인
    것을 특징으로 하는 신경망 구조 모델을 검색하는 장치.
  8. 제5항 내지 제7항 중 어느 한 항에 있어서,
    강화 학습 변이에 따라 생성된 네트워크 모델 구조와 랜덤 변이에 의해 생성된 네트워크 모델 구조는 소정의 난수 비율을 만족하는
    것을 특징으로 하는 신경망 구조 모델을 검색하는 장치.
  9. 프로세서와,
    프로세서에서 실행 가능한 명령을 저장하기 위한 메모리를 구비하며,
    여기서, 상기 프로세서는 제1항 내지 제3항 중 어느 한 항에 기재된 신경망 구조 모델을 검색하는 방법을 실행하도록 구성되는
    것을 특징으로 하는 신경망 구조 모델을 검색하는 장치.
  10. 기록매체 내의 명령이 모바일 단말기의 프로세서에 의해 실행되면, 모바일 단말기로 하여금 제1항 내지 제3항 중 어느 한 항에 기재된 신경망 구조 모델을 검색하는 방법을 실행하게 하는
    비일시적인 컴퓨터 판독 가능한 기록매체.
KR1020200004723A 2019-10-15 2020-01-14 신경망 구조 모델을 검색하는 방법, 장치 및 기록매체 KR102378395B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910979571.7A CN110689127B (zh) 2019-10-15 2019-10-15 神经网络结构模型搜索方法、装置及存储介质
CN201910979571.7 2019-10-15

Publications (2)

Publication Number Publication Date
KR20210045274A true KR20210045274A (ko) 2021-04-26
KR102378395B1 KR102378395B1 (ko) 2022-03-24

Family

ID=69112790

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200004723A KR102378395B1 (ko) 2019-10-15 2020-01-14 신경망 구조 모델을 검색하는 방법, 장치 및 기록매체

Country Status (5)

Country Link
US (1) US11580408B2 (ko)
EP (1) EP3809333A1 (ko)
JP (1) JP6889786B2 (ko)
KR (1) KR102378395B1 (ko)
CN (1) CN110689127B (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102500341B1 (ko) * 2022-02-10 2023-02-16 주식회사 노타 신경망 모델에 대한 정보를 제공하는 방법 및 이를 수행하는 전자 장치
WO2023153820A1 (en) * 2022-02-10 2023-08-17 Nota, Inc. Method of providing information on neural network model and electronic apparatus for performing the same
WO2023171930A1 (ko) * 2022-03-07 2023-09-14 주식회사 에너자이 신경망 모델 경량화 방법, 및 신경망 모델 경량화 장치

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325328B (zh) * 2020-03-06 2023-10-24 上海商汤临港智能科技有限公司 神经网络的生成方法、数据处理方法及装置
US11556684B2 (en) * 2020-04-09 2023-01-17 Google Llc Architecture exploration and compiler optimization using neural networks
CN111612134B (zh) * 2020-05-20 2024-04-12 鼎富智能科技有限公司 神经网络结构搜索方法、装置、电子设备及存储介质
CN111967491A (zh) * 2020-06-29 2020-11-20 北京百度网讯科技有限公司 模型的离线量化方法、装置、电子设备以及存储介质
WO2022141840A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 网络架构搜索方法、装置、电子设备及介质
CN113128432B (zh) * 2021-04-25 2022-09-06 四川大学 基于演化计算的机器视觉多任务神经网络架构搜索方法
CN117501279A (zh) * 2021-06-14 2024-02-02 三菱电机株式会社 神经网络构建装置、神经网络构建方法、图像处理装置和图像处理方法
CN113743605A (zh) * 2021-06-16 2021-12-03 温州大学 基于进化方法搜索烟、火检测网络架构的方法
CN113705628B (zh) * 2021-08-06 2024-02-06 北京百度网讯科技有限公司 预训练模型的确定方法、装置、电子设备以及存储介质
CN114943866B (zh) * 2022-06-17 2024-04-02 之江实验室 基于进化神经网络结构搜索的图像分类方法
CN115130483B (zh) * 2022-07-13 2023-07-18 湘潭大学 一种基于多目标群体智能算法的神经架构搜索方法及用途
CN115099393B (zh) * 2022-08-22 2023-04-07 荣耀终端有限公司 神经网络结构搜索方法及相关装置
CN116046018B (zh) * 2023-01-31 2023-11-14 无锡凌思科技有限公司 一种应用于mems陀螺仪的温度补偿方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9753959B2 (en) * 2013-10-16 2017-09-05 University Of Tennessee Research Foundation Method and apparatus for constructing a neuroscience-inspired artificial neural network with visualization of neural pathways
CN110210609A (zh) * 2019-06-12 2019-09-06 北京百度网讯科技有限公司 基于神经框架搜索的模型训练方法、装置以及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chu, Xiangxiang, et al. "Multi-Objective Reinforced Evolution in Mobile Neural Architecture Search." arXiv preprint arXiv:1901.01074 (2019.01.04. 공개).* *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102500341B1 (ko) * 2022-02-10 2023-02-16 주식회사 노타 신경망 모델에 대한 정보를 제공하는 방법 및 이를 수행하는 전자 장치
WO2023153820A1 (en) * 2022-02-10 2023-08-17 Nota, Inc. Method of providing information on neural network model and electronic apparatus for performing the same
WO2023153818A1 (en) * 2022-02-10 2023-08-17 Nota, Inc. Method of providing neural network model and electronic apparatus for performing the same
KR20230121531A (ko) * 2022-02-10 2023-08-18 주식회사 노타 신경망 모델을 획득하는 방법 및 이를 수행하는 전자 장치
US11775806B2 (en) 2022-02-10 2023-10-03 Nota, Inc. Method of compressing neural network model and electronic apparatus for performing the same
WO2023171930A1 (ko) * 2022-03-07 2023-09-14 주식회사 에너자이 신경망 모델 경량화 방법, 및 신경망 모델 경량화 장치

Also Published As

Publication number Publication date
KR102378395B1 (ko) 2022-03-24
US11580408B2 (en) 2023-02-14
CN110689127A (zh) 2020-01-14
EP3809333A1 (en) 2021-04-21
JP6889786B2 (ja) 2021-06-18
US20210110276A1 (en) 2021-04-15
CN110689127B (zh) 2022-05-06
JP2021064342A (ja) 2021-04-22

Similar Documents

Publication Publication Date Title
KR102378395B1 (ko) 신경망 구조 모델을 검색하는 방법, 장치 및 기록매체
JP7029476B2 (ja) スーパーネットワークトレーニング方法、及び装置、プログラム、及び記録媒体
KR102365890B1 (ko) 신경망의 훈련 방법, 장치 및 저장 매체
US10930304B2 (en) Processing voice
TWI720598B (zh) 關鍵點檢測方法及裝置、電子設備和儲存介質
KR20210050485A (ko) 신경망 모델을 압축하는 방법 및 장치, 코퍼스 번역 방법 및 장치, 전자 장치, 프로그램 및 기록 매체
AU2016204455B2 (en) System and method of controlling external apparatus connected with device
JP2021514499A (ja) ターゲットオブジェクト処理方法、装置、電子機器及び記憶媒体
CN112385267B (zh) Ue的目标小区确定方法、装置、通信设备及存储介质
CN110209385A (zh) 项目创建方法及装置
CN110782010A (zh) 一种神经网络的构建方法及装置、存储介质
KR102568810B1 (ko) 슈퍼 네트워크의 구축 방법, 사용 방법, 장치 및 저장 매체
CN116187438A (zh) 智能体探索策略的确定方法、装置、智能体及存储介质
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN109214175B (zh) 基于样本特征训练分类器的方法、装置及存储介质
CN112116095A (zh) 一种多任务学习模型训练的方法及相关装置
CN110262746B (zh) 一种金融数据输入方法、装置及介质
CN114840761B (zh) 推送模型的训练方法、装置、设备、存储介质及程序产品
CN113486978A (zh) 文本分类模型的训练方法、装置、电子设备及存储介质
CN107870931B (zh) 一种优化用户词库的方法、装置及电子设备
CN111898727A (zh) 基于短时访问机制的强化学习方法、装置及存储介质
US20240066716A1 (en) Interactive method, electronic device, and storage medium
CN108549570A (zh) 用户界面的更新方法及装置
CN114626706A (zh) 基于遗传算法的卤锅调度方法、装置和设备
CN115134233A (zh) 场景升级方法及装置、介质及终端

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant