KR20220116395A - 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20220116395A
KR20220116395A KR1020220097212A KR20220097212A KR20220116395A KR 20220116395 A KR20220116395 A KR 20220116395A KR 1020220097212 A KR1020220097212 A KR 1020220097212A KR 20220097212 A KR20220097212 A KR 20220097212A KR 20220116395 A KR20220116395 A KR 20220116395A
Authority
KR
South Korea
Prior art keywords
model
encoding
training
candidate
candidate models
Prior art date
Application number
KR1020220097212A
Other languages
English (en)
Inventor
텅 시
칸 차오
강 장
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220116395A publication Critical patent/KR20220116395A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체를 제공하고, 컴퓨터 비전 및 딥러닝 기술 분야에 관한 것이고, 이미지 처리, 이미지 인식 등 장면에 적용될 수 있다. 구체적인 구현 수단은, 복수의 후보 모델을 획득하는 단계; 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 후보 모델의 구조 인코딩을 획득하는 단계; 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하는 단계; 각 후보 모델의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측하는 단계; 및 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정하는 단계; 를 포함한다. 이로하여, 복수의 후보 모델의 주파수 영역 인코딩에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정함으로, 후속에서 사전 훈련 모델을 훈련하는 훈련 원가를 감소하고, 훈련 효율을 향상시킬 수 있다.

Description

사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체{ METHOD AND APPARATUS FOR DETERMINING PRE-TRAINING MODEL, ELECTRONIC DEVICE AND STORAGE MEDIUM}
본 발명은 인공지능 기술 분야에 관한 것으로, 구체적으로 컴퓨터 비전 및 딥러닝 기술 분야에 관한 것이고, 이미지 처리, 이미지 인식 등 장면에 적용될 수 있고, 특히 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.
사전 훈련 모델은 상위 인공지능 태스크의 효과를 개진하는데 널리 응용되어 있고, 업 스트림 태스크에서, 대량의 데이터를 통해 훈련함으로, 다운 스트림 태스크에서, 소량의 데이터 훈련을 이용하여 모델을 훈련할 경우, 비교적 좋은 결과를 획득하도록 구현할 수 있다. 그러나 어떻게 사전 훈련 모델의 훈련 원가를 저하하고, 훈련 효율을 향상시키는 것은 매우 중요한 것이다.
본 발명은 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체를 제공한다.
본 발명의 일 측면에 따르면, 사전 훈련 모델의 결정 방법을 제공하고, 상기 방법은, 복수의 후보 모델을 획득하는 단계; 상기 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 상기 후보 모델의 구조 인코딩을 획득하는 단계; 훈련된 인코더를 사용하여 각 상기 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하는 단계; 각 상기 후보 모델의 주파수 영역 인코딩에 따라, 각 상기 후보 모델의 모델 성능 파라미터를 예측하는 단계; 및 각 상기 후보 모델의 모델 성능 파라미터에 따라, 복수의 상기 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정하는 단계; 를 포함한다.
본 발명의 다른 측면에 따르면, 사전 훈련 모델의 결정 장치를 제공하고, 상기 장치는, 복수의 후보 모델을 획득하는데 사용되는 획득 모듈; 상기 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 상기 후보 모델의 구조 인코딩을 획득하는데 사용되는 인코딩 모듈; 훈련된 인코더를 사용하여 각 상기 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하는데 사용되는 매핑 모듈; 각 상기 후보 모델의 주파수 영역 인코딩에 따라, 각 상기 후보 모델의 모델 성능 파라미터를 예측하는데 사용되는 예측 모듈; 및 각 상기 후보 모델의 모델 성능 파라미터에 따라, 복수의 상기 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정하는 결정 모듈; 을 포함한다.
본 발명의 다른 측면에 따르면, 전자 기기를 제공하고, 상기 전자 기기는, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 상기 사전 훈련 모델의 결정 방법을 수행한다.
본 발명의 다른 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 명령은 컴퓨터가 상기 사전 훈련 모델의 결정 방법을 수행하도록 한다.
본 발명의 다른 측면에 따르면, 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우 상기 사전 훈련 모델의 결정 방법이 구현된다.
이해해야 할 것은, 본 발명의 내용 부분에서 설명하는 내용은 본 발명 실시예의 관건 또는 중요한 특징을 식별하기 위한 것이 아니고, 본 발명의 범위를 한정하기 위한 것도 아니다. 본 발명의 기타 특징은 이하의 명세서를 통해 용이하게 이해된다.
도면은 본 기술적 수단을 더 잘 이해하는데 사용되고, 본 발명을 한정하려는 것은 아니다.
도1은 본 발명의 제1 실시예에 따른 사전 훈련 모델의 결정 방법의 흐름도이다.
도2는 본 발명의 제2 실시예에 따른 사전 훈련 모델의 결정 방법의 흐름도이다.
도3은 본 발명의 제3 실시예에 따른 사전 훈련 모델의 결정 방법의 흐름도이다.
도4는 본 발명의 제4 실시예에 따른 사전 훈련 모델의 결정 장치의 구조 개략도이다.
도5는 본 발명의 제5 실시예에 따른 사전 훈련 모델의 결정 장치의 구조 개략도이다.
도6은 본 발명 실시예의 사전 훈련 모델의 결정 방법을 구현하는 전자 기기의 블록도이다.
이하 도면과 결합하여 본 발명의 예시적인 실시예를 설명한다. 여기에는 이해를 돕기 위해 본 발명의 실시예의 다양한 세부 사항을 포함하고, 실시예들은 단지 예시적인 것으로 간주되어야 한다. 때문에 본 발명에 속하는 기술 분야의 통상의 기술자는 본 발명의 범위 및 사상을 벗어나지 않고 실시예에 여러가지 변경과 수정을 할 수 있다는 것을 인식해야 한다. 동시에 정확성과 간결성을 위해 하기의 설명에서 공지 기능과 구조에 대한 설명은 생략한다.
현재, 사전 훈련 모델은 상위 인공지능 태스크의 효과를 개진하는데 널리 응용되어 있고, 업 스트림 태스크에서, 대량의 데이터를 통해 훈련함으로, 다운 스트림 태스크에서, 소량의 데이터 훈련을 이용하여 모델을 훈련할 경우, 비교적 좋은 결과를 획득하도록 구현할 수 있다. 그러나 어떻게 사전 훈련 모델의 훈련 원가를 저하하고, 훈련 효율을 향상시키는 것은 매우 중요한 것이다.
본 발명은 사전 훈련 모델의 훈련 원가를 저하하고, 훈련 효율을 향상시키기 위해, 사전 훈련 모델의 결정 방법을 제공하고, 당해 방법에서, 복수의 후보 모델을 획득한 후, 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 후보 모델의 구조 인코딩을 획득하고, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하며, 각 후보 모델의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측함으로, 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정한다. 이로하여, 복수의 후보 모델의 주파수 영역 인코딩에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정함으로, 후속에서 사전 훈련 모델을 훈련하는 훈련 원가를 감소하고, 훈련 효율을 향상시킬 수 있다.
아래는 도면을 참조하여 본 발명 실시예의 사전 훈련 모델의 결정 방법, 장치, 전자 기기, 비일시적 컴퓨터 판독 가능 저장 매체 및 컴퓨터 프로그램을 설명한다.
우선 도1과 결합하여, 본 발명에서 제공된 사전 훈련 모델의 결정 방법에 대해 상세한 설명을 한다.
도1은 본 발명의 제1 실시예에 따른 사전 훈련 모델의 결정 방법의 흐름도이다.
설명해야 할 것은, 본 발명의 실시예에 제공된 사전 훈련 모델의 결정 방법에서, 수행 본체는 사전 훈련 모델의 결정 장치이고, 아래는 결정 장치로 약칭한다. 당해 결정 장치는 전자 기기일 수 있고, 전자 기기에 구성될 수도 있어, 복수의 후보 모델의 주파수 영역 인코딩에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정하도록 구현함으로, 후속에서 사전 훈련 모델을 훈련하는 훈련 원가을 감소하고, 훈련 효율을 향상시킨다. 본 발명의 실시예는 결정 장치가 전자 기기에 구성된 것을 예를 들어 설명한다.
전자 기기는, 데이터 처리 가능한 임의의 정지 또는 모바일 컴퓨팅 기기일 수 있다. 예를 들면, 노트북, 스마트폰, 웨어러블 기기 등 모바일 컴퓨팅 기기, 또는 데스크톱 컴퓨터 등 정지 컴퓨팅 기기, 또는 서버, 또는 기타 유형의 컴퓨팅 기기일 수 있고, 본 발명은 이에 대해 한정하지 않는다.
도1에 도시된 바와 같이, 사전 훈련 모델의 결정 방법은 단계101 내지 단계105를 포함한다.
단계101에서, 복수의 후보 모델을 획득한다.
각 후보 모델은, 훈련된 복수의 서브 모델로 구성된 것이다. 훈련된 복수의 서브 모델은, 신경망 모델, 또는 기타 유형의 모델일 수 있고, 본 발명은 이에 대해 한정하지 않는다.
단계102에서, 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 후보 모델의 구조 인코딩을 획득한다.
예시적인 실시예에서, 복수의 후보 모델의 각 후보 모델에 대해, 당해 후보 모델의 모델 구조에 따라 구조 인코딩을 함으로, 각 후보 모델의 구조 인코딩을 획득할 수 있다.
후보 모델의 구조 인코딩에서, 각 항은 후보 모델의 한 층에 대응되고, 한 층은 후보 모델을 구성하는 복수의 서브 모델의 1개의 서브 모델로 이해할 수 있고, 각 항의 값은, 당해 항에 대응되는 한 층의 서브 모델의 모델 유형이다.
예를 들면, 후보 모델을 구성하는 각 서브 모델이 모델 세트에서 선택된 것일 경우, 모델 세트는 10000개 종류의 서브 모델을 포함하고, 후보 모델 A는 모두 6층을 포함하고, 각 층은 후보 모델 A의 구조 인코딩 항에 대응된다. 상응하게, 후보 모델 A의 구조 인코딩은 6항을 포함하고, 각 항은 10000개의 가능한 값을 포함한다. 모델 세트에서 후보 모델 A의 제1 층 서브 모델의 모델 유형의 번호가 5이고, 모델 세트에서 제2 층 서브 모델의 모델 유형의 번호가 2이고, 모델 세트에서 제3 층 서브 모델의 모델 유형의 번호가 9이며, 모델 세트에서 제4 층 서브 모델의 모델 유형의 번호가 8이고, 모델 세트에서 제5 층 서브 모델의 모델 유형의 번호가 7이고, 모델 세트에서 제6 층 서브 모델의 모델 유형의 번호가 4일 경우, 후보 모델 A의 모델 구조에 따라 구조 인코딩을 수행하여, [5,2,9,8,7,4]인 후보 모델 A의 구조 인코딩을 획득할 수 있다.
단계103에서, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득한다.
예시적인 실시예에서, 인코더을 사전 훈련할 수 있고, 인코더의 입력은 구조 인코딩이고, 출력은 대응하는주파수 영역 인코딩임으로, 각 후보 모델의 구조 인코딩을 각각 훈련된 인코더에 입력하여, 각 후보 모델의 구조 인코딩에 대응되는 주파수 영역 인코딩을 획득할 수 있음으로, 각 후보 모델의 구조 인코딩을 대응하는주파수 영역 인코딩로 매핑하도록 구현할 수 있다.
단계104에서, 각 후보 모델의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측한다.
모델 성능 파라미터는, 후보 모델 성능의 좋고 나쁨을 나타낼 수 있다. 모델 성능 파라미터는, 후보 모델의 정밀도를 나타내는 파라미터 및 후보 모델의 처리 속도를 나타내는 파라미터 등을 포함할 수 있다.
예시적인 실시예에서, 사전 통계하여 주파수 영역 인코딩과 대응하는후보 모델의 모델 성능 파라미터 사이의 상관성을 설명하는 상관관계 함수를 획득할 수 있고, 상관관계 함수의 파라미터는 주파수 영역의 최대 우도 추정을 통해 획득될 수 있다. 따라서 각 후보 모델의 주파수 영역 인코딩을 획득한 후, 주파수 영역 인코딩과 대응하는후보 모델의 모델 성능 파라미터 사이의 상관성 상관관계 함수를 획득하고, 각 후보 모델의 모델 성능 파라미터를 예측할 수 있다. 구체적으로, 통계하여 상관관계 함수를 획득하는 방법은, 관련 기술을 참조할 수 있고, 여기서 더는 설명하지 않는다.
단계105에서, 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정한다.
복수의 후보 모델에서 결정된 사전 훈련 모델의 개수는, 수요에 따라 사전 설정될 수 있다. 예를 들면, 하나 또는 다수를 사전 설정할 수 있고, 본 발명은 이에 대해 한정하지 않는다.
예시적인 실시예에서, 예측하여 각 후보 모델의 모델 성능 파라미터를 획득한 후, 모델 성능 파라미터에 따라, 각 후보 모델을 성능의 좋은 데서 나쁜 데까지의 순서로 정렬하고, 복수의 후보 모델에서 앞에 정렬되고 사전 설정된 수량의 타겟 모델을 사전 훈련 모델로 결정할 수 있음으로, 사전 훈련 모델을 훈련하여, 사전 훈련 모델이 안면 인식, 이미지 처리, 상품 분류 등 각 종 태스크에 적응되도록 한다.
복수의 후보 모델을 획득한 후, 복수의 후보 모델의 주파수 영역 인코딩에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정하므로, 후속에서 각 후보 모델을 모두 훈련할 필요 없고, 결정되고 사전 훈련 모델만 훈련하면 됨으로, 사전 훈련 모델을 훈련하는 훈련 원가를 감소하고, 훈련 효율을 향상시킬 수 있다. 또한, 각 후보 모델의 모델 성능 파라미터에 따라 사전 훈련 모델을 선별하므로, 각 후보 모델에서, 같은 정밀도일 경우 처리 속도가 가장 빠른 후보 모델을 선별하고 사전 훈련 모델로 할 수 있어, 사전 훈련 모델을 훈련한 후, 이미지 처리, 이미지 인식 등 태스크를 수행할 경우, 특정 하드웨어에서 모델이 이미지을 처리 또는 인식하는 속도를 향상시킬 수 있고 또는 저원가의 하드웨어에서 고원가 하드웨어와 같은 속도 및 정밀도에 도달할 수 있고; 또는, 각 후보 모델에서, 같은 속도 조건에서 정밀도가 가장 높은 후보 모델을 선별하고 사전 훈련 모델로 함으로, 사전 훈련 모델을 훈련한 후, 이미지 처리, 이미지 인식 등 태스크를 수행할 경우, 같은 하드웨어 조건에서 모델의 정밀도를 향상시킬 수 있다.
본 발명의 실시예에 제공된 사전 훈련 모델의 결정 방법은, 복수의 후보 모델을 획득한 후, 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 후보 모델의 구조 인코딩을 획득하고, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하며, 각 후보 모델의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측함으로, 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정한다. 이로하여, 복수의 후보 모델의 주파수 영역 인코딩에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정함으로, 후속에서 사전 훈련 모델을 훈련하는 훈련 원가를 감소하고, 훈련 효율을 향상시킬 수 있다.
상기 분석을 통해 알 수 있는바, 본 발명의 실시예에서, 인코더를 사전 훈령할 수 있음으로, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득한다. 아래는 도2와 결합하고, 본 발명에서 제공된 사전 훈련 모델의 결정 방법에서 인코더를 훈련하는 프로세스를 더 설명한다.
도2는 본 발명의 제2 실시예에 따른 사전 훈련 모델의 결정 방법의 흐름도이다. 도2에 도시된 바와 같이, 사전 훈련 모델의 결정 방법은 단계201 내지 단계208을 포함한다.
단계201에서, 훈련 샘플로서의 샘플 구조 인코딩을 인코더에 입력하여, 인코더에 의해 출력된 예측 주파수 영역 인코딩을 획득한다.
샘플 구조 인코딩은, 샘플 모델의 모델 구조에 따라 샘플 모델에 대해 구조 인코딩하여 획득될 수 있다. 샘플 모델에 대해 구조 인코딩을 수행하는 프로세스는, 상기 실시예의 설명을 참조할 수 있고, 여기서 더는 설명하지 않는다.
단계202에서, 예측 주파수 영역 인코딩을 디코더에 입력한다.
단계203에서, 디코더의 출력과 샘플 구조 인코딩 사이의 차이에 따라, 인코더 및 디코더를 훈련한다.
인코더 및 디코더는, 각각 신경망 모델 또는 기타 유형의 모델일 수 있고, 본 발명은 이에 대해 한정하지 않는다. 인코더의 입력은 구조 인코딩이고, 출력은 구조 인코딩에 대응되는 주파수 영역 인코딩이고; 디코더의 입력은 주파수 영역 인코딩이며, 출력은 주파수 영역 인코딩에 대응되는 구조 인코딩이다.
예시적인 실시예에서, 인코더 및 디코더를 훈련할 경우, 예를 들면 딥 러닝의 방식을 통해 훈련할 수 있고, 기타 기계 학습 방법에 대비해, 빅데이터 세트에서 딥 러닝의 표현이 더 좋다.
딥 러닝 방식을 통해 인코더 및 디코더를 훈련할 경우, 먼저 훈련 샘플의 하나 또는 복수의 샘플 구조 인코딩을 입력으로 하고, 인코더에 입력하여, 인코더에 의해 출력된 당해 샘플 구조 인코딩에 대응되는 예측 주파수 영역 인코딩을 획득하며, 인코더에 의해 출력된 예측 주파수 영역 인코딩을 입력으로 하고, 디코더에 입력하여, 디코더에 의해 출력된 예측 주파수 영역 인코딩에 대응되는 예측 구조 인코딩를 획득하며, 당해 샘플 구조 인코딩을 결합하여, 디코더의 출력과 당해 샘플 구조 인코딩 사이의 차이를 획득함으로, 디코더의 출력과 당해 샘플 구조 인코딩 사이의 차이에 따라 인코더 및 디코더의 파라미터를 조정하고, 조정 후의 인코더 및 디코더를 획득할 수 있다.
훈련 데이터의 다른 하나 또는 복수의 샘플 구조 인코딩을 입력으로 하고, 조정된 인코더에 입력하여, 조정된 인코더에 의해 출력된 당해 샘플 구조 인코딩에 대응되는 예측 주파수 영역 인코딩을 획득하며, 조정된 인코더에 의해 출력된 예측 주파수 영역 인코딩을 입력으로 하고, 조정된 디코더에 입력하여, 조정된 디코더에 의해 출력된 예측 주파수 영역 인코딩에 대응되는 예측 구조 인코딩을 획득하고, 당해 샘플 구조 인코딩을 결합하여, 조정된 디코더의 출력과 당해 샘플 구조 인코딩 사이의 차이를 획득함으로, 조정된 디코더의 출력과 당해 샘플 구조 인코딩 사이의 차이에 따라 조정된 인코더 및 디코더의 파라미터를 조정하고, 더 조정된 인코더 및 디코더를 획득한다.
이로하여, 인코더 및 디코더의 파라미터를 끊임없이 조정하여 디코더에 의해 출력된 예측 구조 인코딩의 정확률이 사전 설정된 역치에 만족될 때까지 인코더 및 디코더에 대해 반복 훈련을 하고, 훈련이 끝나고, 훈련된 인코더 및 디코더를 획득한다.
상기 프로세스를 통해, 훈련된 인코더 및 디코더를 획득할 수 있고, 여기서 훈련된 인코더는 어느 하나의 모델의 구조 인코딩을 주파수 영역 인코딩으로 매핑할 수 있고, 훈련된 디코더는 어느 하나의 모델의 주파수 영역 인코딩을 구조 인코딩으로 매핑할 수 있고, 후속에서 훈련된 인코더을 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하는데 기초를 마련한다.
단계204에서, 복수의 후보 모델을 획득한다.
단계205에서, 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 후보 모델의 구조 인코딩을 획득한다.
단계206에서, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득한다.
예시적인 실시예에서, 상기 훈련 프로세스를 사용하여, 인코더 및 디코더를 훈련한 후, 복수의 후보 모델을 획득하고, 각 후보 모델의 구조 인코딩을 획득할 경우, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득한다.
단계207에서, 각 후보 모델의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측한다.
설명해야 할 것은, 본 발명의 실시예에서, 각 후보 모델의 구조 인코딩을 대응하는주파수 영역 인코딩으로 매핑할 경우, 구조 인코딩을 적어도 2차원의 주파수 영역 인코딩으로 매핑할 수 있고, 적어도 2차원의 주파수 영역 인코딩을, 예를 들면 적어도 시간 차원 및 정밀도 차원을 포함할 수 있음으로, 각 후보 모델의 적어도 2차원의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측할 경우, 예측의 정확성을 향상시킬 수 있다.
상응하게, 인코더 및 디코더를 훈련할 경우, 훈련 샘플로서의 샘플 구조 인코딩을 인코더에 입력한 후, 인코더를 통해 적어도 2차원의 인코딩을 수행하여, 인코더에 의해 출력된 적어도 2차원의 예측 주파수 영역 인코딩을 획득함으로, 적어도 2차원의 예측 주파수 영역 인코딩을 디코더에 입력하여, 디코더에 의해 출력된 예측 구조 인코딩과 샘플 구조 인코딩 사이의 차이에 따라, 인코더 및 디코더를 훈련할 수 있다. 이로하여, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는적어도 2차원의 주파수 영역 인코딩을 획득함으로, 각 후보 모델의 적어도 2차원의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측함으로, 예측의 정확성을 향상시킬 수 있다.
단계208에서, 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정한다.
단계204 내지 208의 구체적인 구현 프로세스 및 원리는, 상기 실시예의 설명을 참조할 수 있고, 여기서 더는 설명하지 않는다.
본 발명 실시예의 사전 훈련 모델의 결정 방법은, 훈련 샘플로서의 샘플 구조 인코딩을 인코더에 입력하여, 인코더에 의해 출력된 예측 주파수 영역 인코딩을 획득하고, 예측 주파수 영역 인코딩을 디코더에 입력하여, 디코더의 출력과 샘플 구조 인코딩 사이의 차이에 따라, 인코더 및 디코더를 훈련함으로, 인코더 및 디코더에 대한 훈련을 구현한다. 복수의 후보 모델을 획득한 후, 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 후보 모델의 구조 인코딩을 획득하고, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하며, 각 후보 모델의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측함으로, 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정한다. 이로하여, 복수의 후보 모델의 주파수 영역 인코딩에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정함으로, 후속에서 사전 훈련 모델을 훈련하는 훈련 원가를 감소하고, 훈련 효율을 향상시킬 수 있다.
상기 분석을 통해 알 수 있는바, 본 발명의 실시예에서, 각 후보 모델의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측함으로, 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정할 수 있다. 아래는 도3과 결합하여, 본 발명에서 제공된 사전 훈련 모델의 결정 방법에서 각 후보 모델의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측하는 프로세스에 대해 더 설명한다.
도3은 본 발명의 제3 실시예에 따른 사전 훈련 모델의 결정 방법의 흐름도이다. 도3에 도시된 바와 같이, 사전 훈련 모델의 결정 방법은 단계301 내지 단계306을 포함한다.
단계301에서, 모델 세트의 특징 추출 모델을 조합하여, 복수의 후보 모델을 획득한다.
특징 추출 모델은 컴퓨터 비전 및 이미지 처리 분야에서 이미지 특징을 추출하는 기능을 가진 임의의 모델일 수 있다.
예시적인 실시예에서, 모델 세트는 이미 훈련된 복수의 특징 추출 모델(즉, 상기 실시예의 서브 모델)이 포함되어 있고, 복수의 특징 추출 모델은 신경망의 모델일 수 있고, 또는 기타 유형의 모델일 수도 있고, 본 발명은 이에 대해 한정하지 않는다. 예시적인 실시예에서, 무작위 선택 방식을 통해 모델 세트에서 복수의 특징 추출 모델을 선택하여 조합함으로, 복수의 후보 모델을 획득할 수 있고; 또는 먼저 결정 모델 세트의 복수의 특징 추출 모델 각각의 성능을 결정하고, 모델 세트에서 복수의 성능이 비교적 우수한 특징 추출 모델을 선택하고 무작위로 조합하여, 복수의 후보 모델을 획득할 수도 있고; 또는, 기타 방식을 통해 복수의 후보 모델을 획득할 수도 있다. 본 발명의 실시예에서 복수의 후보 모델을 획득하는 방식에 대해 한정하지 않는다.
모델 세트의 특징 추출 모델을 조합함으로, 복수의 고정밀도의 후보 모델을 획득할 수 있다.
단계302에서, 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 후보 모델의 구조 인코딩을 획득한다.
단계303에서, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득한다.
단계302 내지 303의 구체적인 구현 프로세스 및 원리는, 상기 실시예의 설명을 참조할 수 있고, 여기서 더는 설명하지 않는다.
단계304에서, 수행할 태스크에 따라, 타겟 상관관계 함수를 결정한다.
수행할 태스크는, 사전 훈련 모델이 훈련된 후 수행해야 할 태스크이다. 예를 들면 안면 인식 태스크 또는 상품 분류 태스크 등일 수 있다.
예시적인 실시예에서, 각 종 태스크 각각에 대응되는 상관관계 함수를 사전 결정할 수 있고, 각 태스크에 대응되는 상관관계 함수는, 주파수 영역 인코딩과 대응하는후보 모델이 당해 태스크를 수행할 경우의 모델 성능 파라미터 사이의 상관성을 설명하고, 상관관계 함수의 파라미터는 주파수 영역의 최대 우도 추정을 통해 획득될 수 있다. 따라서 수행할 태스크 및 사전 결정된 각 종의 태스크 각각에 대응되는 상관관계 함수에 따라, 수행할 태스크에 대응되는 타겟 상관관계 함수를 결정할 수 있다.
단계305에서, 후보 모델의 주파수 영역 인코딩을 각각 타겟 상관관계 함수에 대입하여, 각 후보 모델의 모델 성능 파라미터를 획득한다.
예시적인 실시예에서, 타겟 상관관계 함수가 주파수 영역 인코딩과 대응하는후보 모델이 태스크를 수행할 경우의 모델 성능 파라미터 사이의 상관성을 설명하므로, 각 후보 모델의 주파수 영역 인코딩을 각각 타겟 상관관계 함수에 입입하여, 각 후보 모델의 모델 성능 파라미터를 획득할 수 있다.
수행할 태스크에 따라, 타겟 상관관계 함수를 결정하고, 각 후보 모델의 주파수 영역 인코딩을 각각 타겟 상관관계 함수에 대입하여, 각 후보 모델의 모델 성능 파라미터를 획득하고, 수행할 태스크에 대응되는 타겟 상관관계 함수에 따라, 각 후보 모델이 태스크를 수행할 경우의 모델 성능 파라미터를 정확하게 예측하도록 구현한다.
단계306에서, 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정한다.
단계306의 구체적인 구현 프로세스 및 원리는, 상기 실시예의 설명을 참조할 수 있고, 여기서 더는 설명하지 않는다.
본 발명 실시예의 사전 훈련 모델의 결정 방법은, 먼저 모델 세트의 특징 추출 모델을 조합하여, 복수의 후보 모델을 획득하고, 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 후보 모델의 구조 인코딩을 획득하고, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하며, 수행할 태스크에 따라, 타겟 상관관계 함수를 결정하고, 각 후보 모델의 주파수 영역 인코딩을 각각 타겟 상관관계 함수에 대입하여, 각 후보 모델의 모델 성능 파라미터를 획득함으로, 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정한다. 이로하여, 복수의 후보 모델의 주파수 영역 인코딩에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정함으로, 후속에서 사전 훈련 모델을 훈련하는 훈련 원가를 감소하고, 훈련 효율을 향상시킬 수 있다.
아래는 도4와 결합하여, 본 발명에서 제공된 사전 훈련 모델의 결정 장치에 대해 설명한다.
도4는 본 발명의 제4 실시예에 따른 사전 훈련 모델의 결정 장치의 구조 개략도이다.
도4에 도시된 바와 같이, 본 발명에서 제공된 사전 훈련 모델의 결정 장치(400)는, 획득 모듈(401), 인코딩 모듈(402), 매핑 모듈(403), 예측 모듈(404)및 결정 모듈(405)을 포함한다.
획득 모듈(401)은, 복수의 후보 모델을 획득하는데 사용되고;
인코딩 모듈(402)은, 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 후보 모델의 구조 인코딩을 획득하는데 사용되고;
매핑 모듈(403)은, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하는데 사용되고;
예측 모듈(404)은, 각 후보 모델의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측하는데 사용되며;
결정 모듈(405), 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정하는데 사용된다.
설명해야 할 것은, 본 실시예에 제공된 사전 훈련 모델의 결정 장치는, 상기 실시예의 사전 훈련 모델의 결정 방법을 수행할 수 있다. 사전 훈련 모델의 결정 장치는 당해 결정 장치는 전자 기기일 수 있고, 전자 기기에 구성될 수도 있어, 복수의 후보 모델의 주파수 영역 인코딩에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정하도록 구현함으로, 후속에서 사전 훈련 모델을 훈련하는 훈련 원가을 감소하고, 훈련 효율을 향상시킨다.
전자 기기는, 데이터 처리 가능한 임의의 정지 또는 모바일 컴퓨팅 기기일 수 있다. 예를 들면, 노트북, 스마트폰, 웨어러블 기기 등 모바일 컴퓨팅 기기, 또는 데스크톱 컴퓨터 등 정지 컴퓨팅 기기, 또는 서버, 또는 기타 유형의 컴퓨팅 기기일 수 있고, 본 발명은 이에 대해 한정하지 않는다.
설명해야 할 것은, 상기 사전 훈련 모델의 결정 방법의 실시예에 대한 설명은, 본 발명에서 제공된 사전 훈련 모델의 결정 장치에도 적용되고, 여기서 더는 설명하지 않는다.
본 발명의 실시예에 제공된 사전 훈련 모델의 결정 장치는, 복수의 후보 모델을 획득한 후, 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 후보 모델의 구조 인코딩을 획득하고, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하며, 각 후보 모델의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측함으로, 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정한다. 이로하여, 복수의 후보 모델의 주파수 영역 인코딩에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정함으로, 후속에서 사전 훈련 모델을 훈련하는 훈련 원가를 감소하고, 훈련 효율을 향상시킬 수 있다.
아래는 도5와 결합하여, 본 발명에서 제공된 사전 훈련 모델의 결정 장치에 대해 설명한다.
도5는 본 발명의 제5 실시예에 따른 사전 훈련 모델의 결정 장치의 구조 개략도이다.
도5에 도시된 바와 같이, 사전 훈련 모델의 결정 장치(500)는, 구체적으로 획득 모듈(501), 인코딩 모듈(502), 매핑 모듈(503), 예측 모듈(504) 및 결정 모듈(505)을 포함한다. 도5의 획득 모듈(501), 인코딩 모듈(502), 매핑 모듈(503), 예측 모듈(504) 및 결정 모듈(505)은 도4의 획득 모듈(401), 인코딩 모듈(402), 매핑 모듈(403), 예측 모듈(404) 및 결정 모듈(405)과 같은 기능 및 구조를 구비한다.
예시적인 실시예에서, 사전 훈련 모델의 결정 장치(500)는,
훈련 샘플로서의 샘플 구조 인코딩을 인코더에 입력하여, 인코더에 의해 출력된 예측 주파수 영역 인코딩을 획득하는데 사용되는 제1 처리 모듈(506);
예측 주파수 영역 인코딩을 디코더에 입력하는데 사용되는 제2 처리 모듈(507); 및
디코더의 출력과 샘플 구조 인코딩 사이의 차이에 따라, 인코더 및 디코더를 훈련하는데 사용되는 훈련 모듈(508); 을 더 포함한다.
예시적인 실시예에서, 제1 처리 모듈(506)은,
훈련 샘플로서의 샘플 구조 인코딩을 인코더에 입력하여 적어도 2차원의 인코딩을 수행하여, 인코더에 의해 출력된 적어도 2차원의 예측 주파수 영역 인코딩을 획득하는데 사용되는 처리 유닛을 포함한다.
예시적인 실시예에서, 획득 모듈(501)은,
모델 세트의 특징 추출 모델을 조합하여, 복수의 후보 모델을 획득하는데 사용되는 조합 유닛을 포함한다.
예시적인 실시예에서, 예측 모듈(504)은,
수행할 태스크에 따라, 타겟 상관관계 함수를 결정하는데 사용되는 결정 유닛;
후보 모델의 주파수 영역 인코딩을 각각 타겟 상관관계 함수에 대입하여, 각 후보 모델의 모델 성능 파라미터를 획득하는데 사용되는 획득 유닛; 을 포함한다.
설명해야 할 것은, 상기 사전 훈련 모델의 결정 방법의 실시예에 대한 설명은, 본 발명에서 제공된 사전 훈련 모델의 결정 장치에도 적용되고, 여기서 더는 설명하지 않는다.
본 발명의 실시예에 제공된 사전 훈련 모델의 결정 장치는, 복수의 후보 모델을 획득한 후, 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 후보 모델의 구조 인코딩을 획득하고, 훈련된 인코더를 사용하여 각 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하며, 각 후보 모델의 주파수 영역 인코딩에 따라, 각 후보 모델의 모델 성능 파라미터를 예측함으로, 각 후보 모델의 모델 성능 파라미터에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정한다. 이로하여, 복수의 후보 모델의 주파수 영역 인코딩에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정함으로, 후속에서 사전 훈련 모델을 훈련하는 훈련 원가를 감소하고, 훈련 효율을 향상시킬 수 있다.
본 발명의 실시예에 따르면, 본 발명은 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램을 더 제공한다.
도6에 도시된 바와 같이, 도6은 본 발명 실시예를 구현하는데 사용되는 전자 기기(600)의 개략적인 블록도이다. 전자 기기는 다양한 형식의 디지털 컴퓨터를 표시한다. 예를 들면, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 정보 단말(PAD), 서버, 블레이드 서버, 메인 프레임 및 기타 적합한 컴퓨터일 수 있다. 전자 기기는 다양한 형식의 모바일 장치를 표시한다. 예를 들면 개인 정보 단말(PAD), 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치일 수 있다. 본 발명에 개시된 컴포넌트, 이들의 연결과 관계, 및 기능은 단지 예시적인 것 뿐이며, 본 발명에서 설명 및/또는 요구한 본 발명의 구현을 한정하려는 것은 아니다.
도6에 도시한 바와 같이, 전자 기기(600)는 컴퓨팅 유닛(601)을 포함하고, 읽기 전용 메모리(ROM)(602)에 저장된 컴퓨터 프로그램 또는 저장 유닛(608)에서 랜덤 액세스 메모리(RAM)(603)에 로딩된 컴퓨터 프로그램에 따라, 각 적당한 동작 및 처리를 수행한다. RAM(603)에서, 전자 기기(600) 동작에 수요되는 각 프로그램 및 데이터를 저장할 수도 있다. 컴퓨팅 유닛(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 연결된다. 입력/출력I/O 인터페이스(605)도 버스(604)에 연결된다.
전자 기기(600)의 복수의 컴포넌트는 I/O인터페이스(605)에 연결되고, 복수의 컴포넌트는, 키보드, 마우스 등과 같은 입력 유닛(606); 다양한 유형의 모니터, 스피커 등과 같은 출력 유닛(607); 자기 디스크, 광 디스크 등과 같은 저장 유닛(608); 및 네트워크 카드, 모뎀 또는 무선 통신 송수신기 등과 같은 통신 유닛(609)을 포함한다. 통신 유닛(609)은 전자 기기(600)가 인터넷과 같은 컴퓨터 네트워크 및/또는 각 전신 네트워크를 통해 기타 기기와 정보/데이터를 교환할 수 있도록 허용한다.
컴퓨팅 유닛(601)은 각 처리 및 계산 기능을 구비한 범용/전용 처리 컴포넌트일 수 있다. 컴퓨팅 유닛(601)의 일부 예시는 중앙 처리 장치(CPU), 그래프 처리 장치(GPU), 각 전용 인공지능 계산 칩, 각 기계 학습 모델 알고리즘을 운행하는 컴퓨팅 유닛, 디지털 신호 처리 장치(DSP), 임의의 적합한 프로세서, 제어기 및 마이크로 제어기 등을 포함하나 이에 한정되지 않는다. 컴퓨팅 유닛(601)은 상기 설명한 각 방법 및 처리를 수행한다. 예를 들면 사전 훈련 모델의 결정 방법을 수행한다. 예를 들면, 일 실시예에서, 사전 훈련 모델의 결정 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 유형적으로 저장 유닛(605)과 같은 기계 판독 가능 매체에 포함된다. 일 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(602) 및/또는 통신 유닛(609)에 의해 전자 기기(600)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(603)에 로딩되고 컴퓨팅 유닛(601)에 의해 수행될 경우, 상기 설명한 사전 훈련 모델의 결정 방법의 하나 또는 복수의 단계를 수행할 수 있다. 대안적으로, 기타 실시예에서, 컴퓨팅 유닛(601)은 기타 임의의 적합한 방식(예를 들면, 펌웨어)으로 본 발명의 실시예에 따른 사전 훈련 모델의 결정 방법을 수행할 수 있도록 구성된다.
여기서 설명하는 시스템과 기술의 여러 가지 실시형태는 디지털 전자회로 시스템, 집적회로 시스템, 프로그래밍 가능 게이트 어레이(FPGA), 주문형 직접 회로(ASIC), 전용 표준 제품(ASSP), 칩상 시스템(SOC), 복합 프로그래머블 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 여러 가지 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석되며, 당해 프로그래밍 가능 프로세서는 전용 또는 일반 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에서 데이터와 명령을 수신할 수 있고, 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 수행하는데 사용되는 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 당해 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능한 데이터 처리 장치의 프로세서 또는 제어기에 제공하여, 프로그램 코드가 프로세서 또는 제어기에 의해 수행될 경우 흐름도 및/또는 블록도에서 규정한 기능/동작을 실시하게 된다. 프로그램 코드는 완전히 또는 부분적으로 기계에서 수행되고, 독립 소프트웨어 패키지로서 부분적으로 기계에서 수행하고 부분적으로 또는 완전히 원거리 기계 또는 서버에서 수행된다.
본 발명의 콘텍스트에서, 기계 판독 가능 매체는 유형적인 매체일 수 있고, 명령 수행 시스템, 장치 또는 기기가 사용하거나 명령 수행 시스템, 장치 또는 기기와 결합하여 사용하도록 제공하는 프로그램을 포함 또는 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 및 기기, 또는 상기 내용의 임의의 적합한 조합을 포함하나 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는 하나 또는 복수의 선을 기반으로 하는 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 엑세스 메모리(RAM), 읽기 전용 메모리(ROM), 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EPROM또는 플래시 메모리), 광섬유, 시디롬(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상기 내용의 임의의 적합한 조합을 포함할 수 있다.
사용자와의 인터랙션을 제공하기 위해, 여기서 설명된 시스템 및 기술은 컴퓨터에서 구현할 수 있으며, 당해 컴퓨터는 사용자에게 정보를 디스플레이하는 디스플레이 장치(예를 들면, CRT음극선관) 또는 LCD(액정 디스플레이)모니터); 및 키보드와 지향 장치(예를 들면, 마우스 또는 트랙볼)를 구비하고, 사용자는 당해 키보드와 당해 지향 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 유형의 장치도 사용자와의 인터랙션에 사용될 수 있는 바, 예를 들면 사용자에게 제공된 피드백은 임의의 형식의 감각 피드백(예를 들면, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고, 임의의 형식(음향 입력, 음성 입력 또는 촉각 입력)에 의해 사용자로부터의 입력을 수신할 수 있다.
여기서 설명한 시스템과 기술을, 백그라운드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면, 애플리케이션 서버), 또는 프론트 엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비한 사용자 컴퓨터에서 실시될 수 있고, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통해 여기서 설명한 시스템과 기술의 실시형태와 인터랙션할 수 있다), 또는 이러한 백그라운드 컴포넌트, 미들웨어 컴포넌트 또는 프론트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)을 통해 시스템의 컴포넌트를 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망 (LAN), 광역 통신망 (WAN), 인터넷 및 블록 체인 네트워크를 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며, 통신 네트워크를 통해 서로 인터랙션한다. 대응하는 컴퓨터에서 운행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램에 의해 클라이언트와 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 클라우드 계산 서버라고도 하고, 클라우드 계산 서비스 시스템의 호스트 제품이고, 전통적인 물리 호스트와 VPS서비스("Virtual Private Server", 또는 "VPS")에서, 관리가 어렵고, 업무 확장성이 약한 결함을 해결한다. 서버는 분산식 시스템의 서버 또는 블록 체인을 결합한 서버일 수도 있다.
본 발명은 인공지능 기술 분야에 관한 것으로, 구체적으로 컴퓨터 비전 및 딥러닝 기술 분야에 관한 것이고, 이미지 처리, 이미지 인식 등 장면에 적용될 수 있다.
여기서 설명해야 할 것은, 인공지은, 컴퓨터로 사람의 일부 사고 프로세스 및 지능 행위(예를들면, 학습, 추리, 사고, 계획등)를 시뮬레이션하는 학과이고, 하드웨어 차원의 기술이 있고, 소프트웨어 차원의 기술도 있다. 인공지능 하드웨어 기술은 통상적으로, 센서, 전용 인공지능 칩, 클라우드 컴퓨팅, 분산 메모리 및 빅데이터 처리 등 기술을 포함하고; 인공지능 소프트웨어 기술은 주로, 컴퓨터 비전 기술, 음성 인식 기술, 자연 언어 처리 기술 및 기계 학습/딥 러닝, 빅데이터 프로세싱 기술, 지식 그래프 기술 등 몇 가지 방향을 포함한다.
본 발명 실시예의 기술 수단에 따르면, 복수의 후보 모델의 주파수 영역 인코딩에 따라, 복수의 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정함으로, 후속에서 사전 훈련 모델을 훈련하는 훈련 원가를 감소하고, 훈련 효율을 향상시킨다.
이해해야 할 것은, 상기 복수 형식의 흐름에 의해, 단계를 재정열, 추가 또는 삭제할 수 있다. 예를 들면, 본 발명에 기재한 각 단계는 병행하여 또는 순차적으로 실행할 수도 있고, 서로 다른 순서로 실행할 수도 있다. 본 발명에서 개시한 기술적 수단이 원하는 결과만 구현할 수 있으면 본 발명에서는 이에 대해 한정하지 않는다.
상기 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 본 발명이 속하는 기술 분야의 통상의 기술자는 설계 요구 및 기타 요소에 의해 여러가지 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 모두 본 발명 보호 범위에 포함된다.

Claims (13)

  1. 사전 훈련 모델의 결정 방법에 있어서,
    복수의 후보 모델을 획득하는 단계;
    상기 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 상기 후보 모델의 구조 인코딩을 획득하는 단계;
    훈련된 인코더를 사용하여 각 상기 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하는 단계;
    각 상기 후보 모델의 주파수 영역 인코딩에 따라, 각 상기 후보 모델의 모델 성능 파라미터를 예측하는 단계; 및
    각 상기 후보 모델의 모델 성능 파라미터에 따라, 복수의 상기 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정하는 단계; 를 포함하는,
    것을 특징으로 하는 사전 훈련 모델의 결정 방법.
  2. 제1항에 있어서,
    훈련 샘플로서의 샘플 구조 인코딩을 상기 인코더에 입력하여, 상기 인코더에 의해 출력된 예측 주파수 영역 인코딩을 획득하는 단계;
    상기 예측 주파수 영역 인코딩을 상기 디코더에 입력하는 단계; 및
    상기 디코더의 출력과 상기 샘플 구조 인코딩 사이의 차이에 따라, 상기 인코더 및 상기 디코더를 훈련하는 단계; 를 더 포함하는,
    것을 특징으로 하는 사전 훈련 모델의 결정 방법.
  3. 제2항에 있어서,
    훈련 샘플로서의 샘플 구조 인코딩을 상기 인코더에 입력하여, 상기 인코더에 의해 출력된 예측 주파수 영역 인코딩을 획득하는 단계는,
    훈련 샘플로서의 샘플 구조 인코딩을 인코더에 입력하여 적어도 2차원의 인코딩을 수행하여, 인코더에 의해 출력된 적어도 2차원의 예측 주파수 영역 인코딩을 획득하는 단계를 포함하는,
    것을 특징으로 하는 사전 훈련 모델의 결정 방법.
  4. 제1항에 있어서,
    상기 복수의 후보 모델을 획득하는 단계는,
    모델 세트의 특징 추출 모델을 조합하여, 상기 복수의 후보 모델을 획득하는 단계를 포함하는,
    것을 특징으로 하는 사전 훈련 모델의 결정 방법.
  5. 제1항에 있어서,
    각 상기 후보 모델의 주파수 영역 인코딩에 따라, 각 상기 후보 모델의 모델 성능 파라미터를 예측하는 단계는,
    수행할 태스크에 따라, 타겟 상관관계 함수를 결정하는 단계;
    각 상기 후보 모델의 주파수 영역 인코딩을 각각 상기 타겟 상관관계 함수에 대입하여, 각 상기 후보 모델의 모델 성능 파라미터를 획득하는 단계를 포함하는,
    것을 특징으로 하는 사전 훈련 모델의 결정 방법.
  6. 사전 훈련 모델의 결정 장치에 있어서,
    복수의 후보 모델을 획득하는데 사용되는 획득 모듈;
    상기 복수의 후보 모델의 모델 구조에 따라 구조 인코딩을 수행하여, 각 상기 후보 모델의 구조 인코딩을 획득하는데 사용되는 인코딩 모듈;
    훈련된 인코더를 사용하여 각 상기 후보 모델의 구조 인코딩을 매핑하여 대응하는주파수 영역 인코딩을 획득하는데 사용되는 매핑 모듈;
    각 상기 후보 모델의 주파수 영역 인코딩에 따라, 각 상기 후보 모델의 모델 성능 파라미터를 예측하는데 사용되는 예측 모듈; 및
    각 상기 후보 모델의 모델 성능 파라미터에 따라, 복수의 상기 후보 모델에서 타겟 모델을 사전 훈련 모델로 결정하는 결정 모듈; 을 포함하는,
    것을 특징으로 하는 사전 훈련 모델의 결정 장치.
  7. 제6항에 있어서,
    훈련 샘플로서의 샘플 구조 인코딩을 상기 인코더에 입력하여, 상기 인코더에 의해 출력된 예측 주파수 영역 인코딩을 획득하는데 사용되는 제1 처리 모듈;
    상기 예측 주파수 영역 인코딩을 상기 디코더에 입력하는데 사용되는 제2 처리 모듈; 및
    상기 디코더의 출력과 상기 샘플 구조 인코딩 사이의 차이에 따라, 상기 인코더 및 상기 디코더를 훈련하는데 사용되는 훈련 모듈; 을 더 포함하는,
    것을 특징으로 하는 사전 훈련 모델의 결정 장치.
  8. 제7항에 있어서,
    상기 제1 처리 모듈은,
    훈련 샘플로서의 샘플 구조 인코딩을 인코더에 입력하여 적어도 2차원의 인코딩을 수행하여, 인코더에 의해 출력된 적어도 2차원의 예측 주파수 영역 인코딩을 획득하는데 사용되는 처리 유닛을 포함하는,
    것을 특징으로 하는 사전 훈련 모델의 결정 장치.
  9. 제6항 내지 제8항에 중 어느 한 항에 있어서,
    상기 획득 모듈은,
    모델 세트의 특징 추출 모델을 조합하여, 상기 복수의 후보 모델을 획득하는데 사용되는 조합 유닛을 포함하는,
    것을 특징으로 하는 사전 훈련 모델의 결정 장치.
  10. 제6항 내지 제8항에 중 어느 한 항에 있어서,
    상기 예측 모듈은,
    수행할 태스크에 따라, 타겟 상관관계 함수를 결정하는데 사용되는 결정 유닛;
    각 상기 후보 모델의 주파수 영역 인코딩을 각각 상기 타겟 상관관계 함수에 대입하여, 각 상기 후보 모델의 모델 성능 파라미터를 획득하는데 사용되는 획득 유닛; 을 포함하는,
    것을 특징으로 하는 사전 훈련 모델의 결정 장치.
  11. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제5항 중 어느 한 항의 방법을 수행하도록 하는,
    것을 특징으로 하는 전자 기기.
  12. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제5항 중 어느 한 항의 방법을 수행하도록 하는,
    것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.
  13. 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램이 프로세서에 의해 수행될 경우 제1항 내지 제5항 중 어느 한 항의 방법이 구현되는,
    것을 특징으로 하는 컴퓨터 프로그램.
KR1020220097212A 2021-08-06 2022-08-04 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체 KR20220116395A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110903956.2A CN113705628B (zh) 2021-08-06 2021-08-06 预训练模型的确定方法、装置、电子设备以及存储介质
CN202110903956.2 2021-08-06

Publications (1)

Publication Number Publication Date
KR20220116395A true KR20220116395A (ko) 2022-08-23

Family

ID=78651846

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220097212A KR20220116395A (ko) 2021-08-06 2022-08-04 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체

Country Status (4)

Country Link
US (1) US20220374678A1 (ko)
JP (1) JP7414907B2 (ko)
KR (1) KR20220116395A (ko)
CN (1) CN113705628B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297946B (zh) * 2022-02-08 2023-03-24 无锡雪浪数制科技有限公司 一种实现多学科仿真模型降阶的工业互联网平台
CN114757630B (zh) * 2022-06-16 2022-10-14 阿里健康科技(杭州)有限公司 仓储管理模型确定方法、装置及计算机设备
CN116109914B (zh) * 2023-04-07 2023-06-27 平安银行股份有限公司 银行流水图像的鉴别真伪方法、装置、电子设备及介质
CN118608902A (zh) * 2024-08-09 2024-09-06 东北大学 图像预测方法、图像预测模型的训练方法、装置及设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019108923A1 (en) * 2017-11-30 2019-06-06 Google Llc Neural architecture search using a performance prediction neural network
CN109286825B (zh) * 2018-12-14 2021-04-30 北京百度网讯科技有限公司 用于处理视频的方法和装置
CN110457545B (zh) * 2019-08-16 2022-12-27 第四范式(北京)技术有限公司 一种确定推荐系统中排序模型的参数的方法及装置
CN110689127B (zh) * 2019-10-15 2022-05-06 北京小米智能科技有限公司 神经网络结构模型搜索方法、装置及存储介质
JP7493323B2 (ja) * 2019-11-14 2024-05-31 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム
CN111079938B (zh) * 2019-11-28 2020-11-03 百度在线网络技术(北京)有限公司 问答阅读理解模型获取方法、装置、电子设备及存储介质
CN111625635B (zh) * 2020-05-27 2023-09-29 北京百度网讯科技有限公司 问答处理方法、装置、设备及存储介质
CN111859995B (zh) * 2020-06-16 2024-01-23 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN112559885B (zh) * 2020-12-25 2024-01-12 北京百度网讯科技有限公司 地图兴趣点的训练模型确定方法、装置及电子设备
CN112784778B (zh) * 2021-01-28 2024-04-09 北京百度网讯科技有限公司 生成模型并识别年龄和性别的方法、装置、设备和介质
CN112766288B (zh) * 2021-03-03 2024-01-23 重庆赛迪奇智人工智能科技有限公司 图像处理模型构建方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
JP7414907B2 (ja) 2024-01-16
JP2022160590A (ja) 2022-10-19
US20220374678A1 (en) 2022-11-24
CN113705628B (zh) 2024-02-06
CN113705628A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
KR20220113881A (ko) 사전 훈련 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
JP7331975B2 (ja) クロスモーダル検索モデルのトレーニング方法、装置、機器、および記憶媒体
KR20220116395A (ko) 사전 훈련 모델의 결정 방법, 장치, 전자 기기 및 저장 매체
CN113361578B (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
CN113807440A (zh) 利用神经网络处理多模态数据的方法、设备和介质
US20230306081A1 (en) Method for training a point cloud processing model, method for performing instance segmentation on point cloud, and electronic device
CN112949433B (zh) 视频分类模型的生成方法、装置、设备和存储介质
US20220414474A1 (en) Search method, electronic device and storage medium based on neural network model
CN114187459A (zh) 目标检测模型的训练方法、装置、电子设备以及存储介质
CN114282670A (zh) 神经网络模型的压缩方法、设备和存储介质
JP2022173453A (ja) ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム
JP2023025126A (ja) 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
JP7446359B2 (ja) 交通データ予測方法、交通データ予測装置、電子機器、記憶媒体、コンピュータプログラム製品及びコンピュータプログラム
CN112949818A (zh) 模型蒸馏方法、装置、设备以及存储介质
CN115631381A (zh) 分类模型训练方法、图像分类方法、装置及电子设备
CN114186681A (zh) 用于生成模型簇的方法、装置及计算机程序产品
KR20230133808A (ko) Roi 검출 모델 훈련 방법, 검출 방법, 장치, 설비 및 매체
CN114495977B (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
CN113657468A (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN114067099A (zh) 学生图像识别网络的训练方法及图像识别方法
CN115170887A (zh) 目标检测模型训练方法、目标检测方法及其装置
CN114842541A (zh) 模型的训练及人脸识别方法、装置、设备以及存储介质
CN114998649A (zh) 图像分类模型的训练方法、图像分类方法及装置
CN114881227A (zh) 模型压缩方法、图像处理方法、装置和电子设备
CN114707638A (zh) 模型训练、对象识别方法及装置、设备、介质和产品