KR102420715B1 - 시스템 강화 학습 방법 및 장치, 전자 기기, 컴퓨터 저장 매체 - Google Patents

시스템 강화 학습 방법 및 장치, 전자 기기, 컴퓨터 저장 매체 Download PDF

Info

Publication number
KR102420715B1
KR102420715B1 KR1020207026754A KR20207026754A KR102420715B1 KR 102420715 B1 KR102420715 B1 KR 102420715B1 KR 1020207026754 A KR1020207026754 A KR 1020207026754A KR 20207026754 A KR20207026754 A KR 20207026754A KR 102420715 B1 KR102420715 B1 KR 102420715B1
Authority
KR
South Korea
Prior art keywords
result
network
reinforcement
sample
prediction
Prior art date
Application number
KR1020207026754A
Other languages
English (en)
Other versions
KR20200119873A (ko
Inventor
쉬친 씨에
지티안 천
차오 쑤
처우 루
Original Assignee
상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20200119873A publication Critical patent/KR20200119873A/ko
Application granted granted Critical
Publication of KR102420715B1 publication Critical patent/KR102420715B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • G06N3/0472
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

본 개시의 실시예는 시스템 강화 학습 방법 및 장치, 전자 기기, 컴퓨터 저장 매체를 개시한다. 시스템 강화 학습 방법은, 시스템의 제1 네트워크에 기반하여 입력 이미지를 처리하여 제1 결과를 획득하는 단계(110); 상기 제1 결과를 상기 시스템의 제2 네트워크에 입력하여 제2 결과를 획득하는 단계(120); 및 강화 네트워크를 통해 상기 제2 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 결과를 조정하며, 조정된 제1 결과에 기반하여 타겟 결과를 획득하는 단계(130)를 포함한다. 본 방법은 강화 네트워크를 통해 정보를 다운스트림 계층으로부터 업스트림 계층으로 피드백함으로써, 시스템의 출력 결과를 최적화한다.

Description

시스템 강화 학습 방법 및 장치, 전자 기기, 컴퓨터 저장 매체
관련 출원의 상호 참조
본 개시는 2018년 5월 7일에 중국 특허청에 제출한, 출원번호가 CN201810428099.3이고 발명의 명칭이 "시스템 강화 학습 방법 및 장치, 전자 기기, 컴퓨터 저장 매체"인 중국 특허 출원의 우선권을 주장하는 바, 이의 모든 내용은 참조로서 본 개시에 인용된다.
본 개시는 컴퓨터 시각 기술에 관한 것으로, 특히 시스템 강화 학습 방법 및 장치, 전자 기기, 컴퓨터 저장 매체에 관한 것이다.
현재 다계층 시스템은 우수한 효과를 거두었으며, 예를 들어, 다중 사용자 자세 검출 태스크에서, 다계층 시스템에 기반하여 설계된 알고리즘(물체 검출기 + 단일 사용자 자세 검출기)은 많은 데이터베이스에서 모두 가장 좋은 결과를 얻었다. 동시에, 다계층 구조의 알고리즘은 또한 상이한 모듈에 대한 조정 및 교체를 허용하고, 모델의 유연성이 아주 강하다. 따라서, 매우 강한 잠재력과 광범위한 전망을 구비하고 있다.
본 개시의 실시예는 시스템 강화 학습 기술을 제공한다.
본 개시의 실시예의 일 양태에 따르면,
시스템의 제1 네트워크에 기반하여 입력 이미지를 처리하여 제1 결과를 획득하는 단계;
상기 제1 결과를 상기 시스템의 제2 네트워크에 입력하여 제2 결과를 획득하는 단계; 및
강화 네트워크를 통해 상기 제2 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 결과를 조정하여 타겟 결과를 획득하는 단계를 포함하는 시스템 강화 학습 방법을 제공한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 상기 강화 네트워크를 통해 상기 제2 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 결과를 조정하며, 상기 조정된 제1 결과에 기반하여 타겟 결과를 획득하는 단계는,
상기 강화 네트워크를 통해 상기 제2 네트워크에 의해 출력된 상기 제2 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계;
상기 제1 중간 결과를 상기 제2 네트워크에 입력하고, 상기 제1 중간 결과에 기반하여 제2 결과를 획득하며, 상기 제2 결과를 상기 강화 네트워크에 입력하는 단계; 및
기설정 조건을 충족하면, 상기 타겟 결과로서 상기 제2 결과를 출력하는 단계를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 상기 강화 동작은 적어도 하나의 조정 동작을 포함하고;
상기 강화 네트워크를 통해 상기 제2 네트워크에 의해 출력된 제2 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계는,
상기 제2 결과에 기반하여 강화 네트워크를 통해 적어도 하나의 조정 동작 확률을 획득하고, 상기 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하는 단계; 및
상기 적어도 하나의 조정 동작에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 상기 강화 네트워크를 통해 상기 제2 네트워크에 의해 출력된 제2 결과에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계는,
상기 제2 결과 및 상기 제1 결과에 기반하여, 강화 네트워크를 통해 적어도 하나의 조정 동작 확률을 획득하고, 상기 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하는 단계; 및
상기 적어도 하나의 조정 동작에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 상기 제2 결과 및 상기 제1 결과에 기반하여, 강화 네트워크를 통해 적어도 하나의 조정 동작 확률을 획득하고, 상기 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하는 단계는,
상기 제2 결과 및 상기 제1 결과에 기반하여 연결 결과를 획득하는 단계; 및
상기 연결 결과에 기반하여 강화 네트워크를 통해 적어도 하나의 조정 동작 확률을 획득하고, 상기 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하는 단계를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 상기 제1 네트워크는 검출 뉴럴 네트워크, 인식 뉴럴 네트워크, 분류 뉴럴 네트워크 중 하나 또는 다수의 네트워크를 포함하고;
상기 제2 네트워크는, 검출 뉴럴 네트워크, 인식 뉴럴 네트워크, 분류 뉴럴 네트워크 중 하나 또는 다수의 네트워크를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 샘플 이미지에 기반하여 상기 시스템을 트레이닝하는 단계를 더 포함하고, 상기 샘플 이미지는 주석이 달린 샘플 타겟 결과를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 상기 샘플 이미지에 기반하여 상기 시스템을 트레이닝하는 단계는,
상기 시스템의 제1 네트워크에 기반하여 상기 샘플 이미지를 처리하여 제1 샘플 결과를 획득하는 단계;
상기 제1 샘플 결과를 상기 시스템의 제2 네트워크에 입력하여 제2 샘플 결과를 획득하는 단계;
강화 네트워크를 통해 상기 제2 샘플 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 샘플 결과를 조정하며, 조정된 제1 샘플 결과에 기반하여 예측 타겟 결과를 획득하는 단계; 및
상기 예측 타겟 결과 및 상기 샘플 타겟 결과에 기반하여 상기 제2 네트워크 및 상기 강화 네트워크의 파라미터를 각각 조정하는 단계를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 상기 강화 네트워크를 통해 상기 제2 샘플 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 샘플 결과를 조정하며, 조정된 제1 샘플 결과에 기반하여 예측 타겟 결과를 획득하는 단계는,
강화 네트워크를 통해 상기 제2 샘플 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 샘플 결과를 조정하여 제2 중간 샘플 결과를 획득하는 단계;
상기 제2 중간 샘플 결과에 기반하여 상기 제2 네트워크를 통해 중간 예측 결과를 획득하고, 상기 중간 예측 결과를 상기 강화 네트워크에 입력하는 단계; 및
기설정 조건을 충족하면, 상기 예측 타겟 결과로서 상기 중간 예측 결과를 출력하는 단계를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 상기 예측 타겟 결과 및 상기 샘플 타겟 결과에 기반하여 상기 강화 네트워크의 파라미터를 조정하는 단계는,
상기 중간 예측 결과 및 샘플 타겟 결과에 기반하여 제1 손실을 결정하는 단계; 및
적어도 하나의 상기 제1 손실에 기반하여 상기 강화 네트워크의 파라미터를 조정하는 단계를 포함한다.
선택 가능하게, 상기 적어도 하나의 상기 제1 손실에 기반하여 상기 강화 네트워크의 파라미터를 조정하는 단계는,
적어도 하나의 상기 제1 손실을 획득하는 순서에 따라, 적어도 하나의 상기 제1 손실에 기반하여 상기 강화 네트워크의 파라미터를 순차적으로 조정하는 단계를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 상기 중간 예측 결과 및 샘플 타겟 결과에 기반하여 제1 손실을 결정하는 단계는,
상기 중간 예측 결과 및 샘플 타겟 결과에 기반하여 현재 중간 보상을 결정하는 단계;
상기 중간 예측 결과에 기반하여, 상기 강화 네트워크와 일부분 네트워크 구조를 공유하는 득점 네트워크를 통해 현재 예측 보상을 결정하는 단계;
상기 중간 예측 결과에 기반하여 상기 강화 네트워크 및 상기 제2 네트워크를 통해 다음 중간 예측 결과를 결정하고, 상기 다음 중간 예측 결과에 기반하여 상기 득점 네트워크를 통해 다음 예측 보상을 결정하는 단계; 및
상기 현재 중간 보상, 상기 현재 예측 보상 및 상기 다음 예측 보상에 기반하여 상기 제1 손실을 결정하는 단계를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 상기 현재 중간 보상, 상기 현재 예측 보상 및 상기 다음 예측 보상에 기반하여 상기 제1 손실을 결정하는 단계는,
상기 현재 중간 보상에 상기 다음 예측 보상을 더하고 상기 현재 예측 보상을 감한 값에 기반하여 상기 제1 손실을 획득하는 단계를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 방법 실시예에서 상기 예측 타겟 결과 및 상기 샘플 타겟 결과에 기반하여 상기 제2 네트워크의 파라미터를 조정하는 단계는,
상기 예측 타겟 결과 및 상기 샘플 타겟 결과에 기반하여 제2 손실을 결정하고, 상기 제2 손실에 기반하여 상기 제2 네트워크의 파라미터를 조정하는 단계를 포함한다.
본 개시의 실시예의 다른 양태에 따르면,
입력 이미지를 처리하여 제1 결과를 획득하는 제1 네트워크 모듈;
상기 제1 결과를 처리하여 제2 결과를 획득하는 제2 네트워크 모듈;
상기 제2 결과에 기반하여 강화 동작을 획득하는 강화 네트워크 모듈; 및
상기 강화 동작에 기반하여 상기 제1 결과를 조정하며, 조정된 제1 결과에 기반하여 타겟 결과를 획득하는 실행기를 포함하는 시스템 강화 학습 장치를 제공한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 강화 네트워크 모듈은,
상기 제2 네트워크 모듈에 의해 출력된 제2 결과에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득하는 조정 모듈; 및
상기 제1 중간 결과를 상기 제2 네트워크 모듈에 입력하고, 상기 제1 중간 결과에 기반하여 제2 결과를 획득하며, 상기 제2 결과를 상기 조정 모듈에 입력하고, 기설정 조건을 충족하면, 상기 타겟 결과로서 상기 제2 결과를 출력하는 결과 출력 모듈을 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 조정 모듈은, 상기 제2 결과에 기반하여 강화 네트워크 모듈을 통해 적어도 하나의 조정 동작 확률을 획득하고, 상기 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하며; 상기 적어도 하나의 조정 동작에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 강화 네트워크 모듈은, 상기 제2 결과 및 상기 제1 결과에 기반하여 조정 동작 확률을 획득하고, 상기 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하며;
상기 실행기는, 상기 적어도 하나의 조정 동작에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 강화 네트워크 모듈은, 상기 제2 결과 및 상기 제1 결과에 기반하여 연결 결과를 획득하고; 상기 연결 결과에 기반하여 강화 네트워크를 통해 조정 동작 확률을 획득하며, 상기 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 샘플 이미지에 기반하여 제1 네트워크, 제2 네트워크 및 강화 네트워크를 포함하는 상기 시스템을 트레이닝하는 트레이닝 모듈을 더 포함하고, 상기 샘플 이미지는 주석이 달린 샘플 타겟 결과를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 제1 네트워크는 검출 뉴럴 네트워크, 인식 뉴럴 네트워크, 분류 뉴럴 네트워크 중 하나 또는 다수의 네트워크를 포함하고;
상기 제2 네트워크는 검출 뉴럴 네트워크, 인식 뉴럴 네트워크, 분류 뉴럴 네트워크 중 하나 또는 다수의 네트워크를 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 트레이닝 모듈은, 샘플 이미지를 상기 제1 네트워크 모듈, 상기 제2 네트워크 모듈, 상기 강화 네트워크 모듈 및 상기 실행기에 입력하여 예측 타겟 결과를 획득하고; 상기 예측 타겟 결과 및 상기 샘플 타겟 결과에 기반하여 상기 제2 네트워크 및 상기 강화 네트워크의 파라미터를 각각 조정한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 강화 모듈은, 상기 제2 네트워크 모듈에 의해 획득된 제2 샘플 결과에 기반하여 강화 동작을 획득하고;
상기 실행기는, 상기 강화 동작에 기반하여 상기 제1 네트워크 모듈에 의해 획득된 제1 샘플 결과를 조정하여 제2 중간 샘플 결과를 획득하며;
상기 제2 네트워크 모듈은, 상기 제2 중간 샘플 결과에 기반하여 중간 예측 결과를 획득하고, 중간 예측 결과를 강화 모듈에 입력하며, 기설정 조건을 충족하면, 상기 예측 타겟 결과로서 상기 중간 예측 결과를 출력한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 트레이닝 모듈은,
상기 중간 예측 결과 및 샘플 타겟 결과에 기반하여 제1 손실을 결정하는 제1 손실 모듈; 및
적어도 하나의 상기 제1 손실에 기반하여 상기 강화 네트워크의 파라미터를 조정하는 제1 파라미터 조정 모듈을 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 제1 파라미터 조정 모듈은, 적어도 하나의 상기 제1 손실을 획득하는 순서에 따라, 적어도 하나의 상기 제1 손실에 기반하여 상기 강화 네트워크의 파라미터를 순차적으로 조정한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 제1 손실 모듈은,
상기 중간 예측 결과 및 샘플 타겟 결과에 기반하여 현재 중간 보상을 결정하고; 상기 중간 예측 결과에 기반하여, 상기 강화 네트워크와 일부분 네트워크 구조를 공유하는 득점 네트워크를 통해 현재 예측 보상을 결정하며; 상기 중간 예측 결과에 기반하여 상기 강화 네트워크 및 상기 제2 네트워크를 통해 다음 중간 예측 결과를 결정하고; 상기 다음 중간 예측 결과에 기반하여 상기 득점 네트워크를 통해 다음 예측 보상을 결정하는 보상 결정 모듈; 및
상기 현재 중간 보상, 상기 현재 예측 보상 및 상기 다음 예측 보상에 기반하여 상기 제1 손실을 결정하는 손실 결정 모듈을 포함한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 손실 결정 모듈은, 상기 현재 중간 보상에 상기 다음 예측 보상을 더하고 상기 현재 예측 보상을 감한 값에 기반하여 상기 제1 손실을 획득한다.
선택 가능하게, 본 개시의 상기 어느 하나의 장치 실시예에서 상기 제2 네트워크 조정 모듈은, 상기 예측 타겟 결과 및 상기 샘플 타겟 결과에 기반하여 제2 손실을 결정하고, 상기 제2 손실에 기반하여 상기 제2 네트워크의 파라미터를 조정한다.
본 개시의 실시예의 또 다른 양태에 따르면,
실행 가능한 명령을 저장하는 메모리; 및
상기 실행 가능한 명령을 실행하여 상기 어느 한 양태에 따른 시스템 강화 학습 방법의 단계를 완성하도록 상기 메모리와 통신하는 프로세서를 포함하는 전자 기기를 제공한다.
본 개시의 실시예의 또 다른 양태에 따르면, 컴퓨터 판독 가능한 명령을 저장하고, 상기 명령이 실행될 경우 상기 어느 한 양태에 따른 시스템 강화 학습 방법의 단계를 수행하는 컴퓨터 저장 매체를 제공한다.
본 개시의 실시예의 또 다른 양태에 따르면, 컴퓨터 판독 가능한 코드를 포함하고, 상기 컴퓨터 판독 가능한 코드가 기기에서 실행될 경우, 상기 기기 중의 프로세서가 상기 어느 한 양태에 따른 시스템 강화 학습 방법을 구현하기 위한 명령을 실행하는 컴퓨터 프로그램 제품을 제공한다.
본 개시의 상기 실시예에 의해 제공되는 시스템 강화 학습 방법 및 장치, 전자 기기, 컴퓨터 저장 매체에 기초하여, 시스템의 제1 네트워크에 기반하여 입력 이미지를 처리하여 제1 결과를 획득하고; 제1 결과를 시스템의 제2 네트워크에 입력하여 제2 결과를 획득하며; 제2 결과에 기반하여 강화 동작을 획득하고, 강화 동작에 기반하여 제1 결과를 조정하여 타겟 결과를 획득하며, 네트워크를 통해 정보를 다운스트림 계층으로부터 업스트림 계층으로 피드백함으로써, 시스템의 출력 결과를 최적화한다.
아래, 도면 및 실시예를 통해 본 개시의 기술적 해결수단을 더 상세하게 설명한다.
명세서의 일부분을 구성하는 도면은 본 개시의 실시예를 설명하였고, 설명과 함께 본 개시의 원리를 해석하기 위한 것이다.
도면을 참조하고 아래의 상세한 설명에 따라 본 개시를 더 명확하게 이해할 수 있다.
도 1은 본 개시의 실시예에 의해 제공되는 시스템 강화 학습 방법의 하나의 흐름 모식도이다.
도 2는 본 개시의 실시예에 의해 제공되는 시스템 강화 학습 방법의 다른 흐름 모식도이다.
도 3은 본 개시의 실시예에 의해 제공되는 시스템 강화 학습 방법의 하나의 트레이닝 예시도이다.
도 4는 본 개시의 실시예에 의해 제공되는 시스템 강화 학습 장치의 하나의 구성 모식도이다.
도 5는 본 개시의 실시예의 단말 기기 또는 서버를 구현하기 위한 전자 기기에 적용되는 구성 모식도이다.
아래, 도면을 참조하여 본 개시의 다양한 예시적 실시예를 상세하게 설명한다. 달리 구체적으로 설명되지 않은 한, 이들 실시예에서 설명된 부재 및 단계의 상대적 배치, 숫자 표현식 및 수치는 본 개시의 범위를 한정하지 않음을 유의해야 한다.
동시에, 설명의 편의를 위해, 도면에 도시된 각 부재의 사이즈는 실제 비율 관계에 따라 제작된 것이 아님을 이해해야 한다.
이하, 적어도 하나의 예시적 실시예에 대한 설명은 실제적으로 설명적일 뿐, 본 개시 및 이의 응용 또는 사용에 대해 어떠한 한정도 진행하지 않는다.
관련 분야의 통상의 기술자가 고지하고 있는 기술, 방법 및 기기에 대해 상세하게 토론하지 않지만, 적절한 경우, 상기 기술, 방법 및 기기는 명세서의 일부분으로 간주되어야 한다.
유사한 부호 및 알파벳은 아래 도면에서 유사한 내용을 나타내므로, 어느 한 내용이 하나의 도면에서 정의되면 그 다음 도면에서 이에 대해 추가적으로 토론할 필요가 없음을 유의해야 한다.
본 개시의 실시예는 다른 수많은 통용 또는 전용 컴퓨팅 시스템 환경 또는 구성과 함께 작동될 수 있는 컴퓨터 시스템/서버에 응용될 수 있다. 컴퓨터 시스템/서버와 함께 사용되는 수많은 공지된 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 개인용 컴퓨터 시스템, 서버 컴퓨터 시스템, 신 클라이언트(thin client), 팻 클라이언트(fat client), 핸드 또는 랩톱 기기, 마이크로프로세서 기반의 시스템, 셋톱박스, 프로그램 가능 소비자 전자제품, 네트워크 개인용 컴퓨터, 소형 컴퓨터 시스템, 대형 컴퓨터 시스템, 및 상기 임의의 시스템을 포함하는 분포식 클라우드 컴퓨팅 기술 환경 등을 포함하지만 이에 한정되지 않는다.
컴퓨터 시스템/서버는 컴퓨터 시스템에 의해 실행되는 컴퓨터 시스템 실행 가능한 명령(예를 들어, 프로그램 모듈)의 일반 언어 환경에서 기술될 수 있다. 일반적으로, 특정된 태스크를 실행하거나 특정된 추상적 데이터 타입을 구현하는 프로그램 모듈은 예제 프로그램, 프로그램, 타겟 프로그램, 컴포넌트, 로직, 데이터 구조 등을 포함할 수 있다. 컴퓨터 시스템/서버는 분포식 클라우드 컴퓨팅 환경에서 실행될 수 있고, 분포식 클라우드 컴퓨팅 환경에서, 태스크는 통신 네트워크를 통해 연결된 원격 처리 기기에 의해 실행된다. 분포식 클라우드 컴퓨팅 환경에서, 프로그램 모듈은 저장 기기를 포함하는 로컬 또는 원격 컴퓨팅 시스템 저장 매체에 위치할 수 있다.
다계층 시스템은 상이한 계층의 연결에서 흔히 미분 불가능함으로써, 전체 시스템을 공동으로 최적화할 수 없으므로, 가장 좋은 효과를 달성할 수 없다. 여기서, 미분 불가능(non-differentiable)이란 구배를 구할 수 없음을 의미한다. 예를 들어, 경계 박스(bounding box) 시스템에 있어서, 경계 박스 내의 이미지를 자르기(cropping)하는 동작을 실행할 경우, 경계 박스 좌표에 대한 해당 동작의 구배를 산출할 수 없다.
도 1은 본 개시의 실시예에 의해 제공되는 시스템 강화 학습 방법의 하나의 흐름 모식도이다. 도 1에 도시된 바와 같이, 상기 실시예에 따른 방법은 하기와 같은 단계를 포함한다.
단계110에서, 시스템의 제1 네트워크에 기반하여 입력 이미지를 처리하여 제1 결과를 획득한다.
선택 가능하게, 시스템의 제1 네트워크는 하나의 구체적인 기능을 구현하는 뉴럴 네트워크, 또는 뉴럴 네트워크의 일부분 네트워크 계층일 수 있고, 다수의 뉴럴 네트워크를 포함할 수도 있다. 선택 가능하게, 시스템 중의 제1 네트워크와 제2 네트워크에는 상관관계가 존재하는데, 예를 들어, 제1 네트워크가 안면 검출 네트워크이고, 제2 네트워크가 안면 인식 네트워크이면, 이때 제2 네트워크는 제1 네트워크에 의해 출력된 검출 결과를 입력으로 하고, 제2 네트워크는 제1 네트워크의 출력에 기반하여 인식 결과를 획득한다. 일반적으로, 제1 네트워크와 제2 네트워크의 관계에는 순방향 전파의 검출 결과만 존재하고, 상이한 계층 사이의 출력에는 강한 관련성이 존재하며, 틀린 검출 결과(제1 네트워크의 출력)는 틀린 인식 결과(제2 네트워크의 출력)를 야기한다.
예를 들어, 제1 네트워크는 검출 뉴럴 네트워크, 인식 뉴럴 네트워크, 분류 뉴럴 네트워크 중 하나 또는 다수의 네트워크를 포함할 수 있지만 이에 한정되지 않는다.
또한 제2 네트워크는 검출 뉴럴 네트워크, 인식 뉴럴 네트워크, 분류 뉴럴 네트워크 중 하나 또는 다수의 네트워크를 포함할 수 있지만 이에 한정되지 않는다.
하나의 선택 가능한 예에서, 상기 단계S110은 프로세서에 의해 메모리에 저장된 대응되는 명령이 호출되어 수행될 수 있고, 프로세서에 의해 실행되는 제1 네트워크 모듈(41)에 의해 수행될 수도 있다.
단계120에서, 제1 결과를 시스템의 제2 네트워크에 입력하여 제2 결과를 획득한다.
하나의 선택 가능한 예에서, 상기 단계S120은 프로세서에 의해 메모리에 저장된 대응되는 명령이 호출되어 수행될 수 있고, 프로세서에 의해 실행되는 제2 네트워크 모듈(42)에 의해 수행될 수도 있다.
단계130에서, 강화 네트워크를 통해 제2 결과에 기반하여 강화 동작을 획득하고, 강화 동작에 기반하여 제1 결과를 조정하며, 조정된 제1 결과에 기반하여 타겟 결과를 획득한다.
더욱 좋은 제2 결과를 획득하기 위하여, 선택 가능하게, 시스템에 강화 네트워크를 추가하되, 상기 강화 네트워크는 제2 네트워크에 의해 출력된 제2 결과를 입력으로 하며, 출력된 강화 동작으로 제1 결과를 조정하여 다운스트림 계층으로부터 업스트림 계층으로의 정보 피드백을 구현하고, 정보 피드백을 통해 타겟 결과를 획득한다.
하나의 선택 가능한 예에서, 상기 단계S130은 프로세서에 의해 메모리에 저장된 대응되는 명령이 호출되어 수행될 수 있고, 프로세서에 의해 실행되는 강화 네트워크 모듈(43)에 의해 수행될 수도 있다.
본 개시 상기 실시예에 의해 제공되는 시스템 강화 학습 방법에 기반하여, 시스템의 제1 네트워크에 기반하여 입력 이미지를 처리하여 제1 결과를 획득하고; 제1 결과를 시스템의 제2 네트워크에 입력하여 제2 결과를 획득하며; 강화 네트워크를 통해 제2 결과에 기반하여 강화 동작을 획득하고, 강화 동작에 기반하여 제1 결과를 조정하여 타겟 결과를 획득하며, 네트워크를 통해 정보를 다운스트림 계층으로부터 업스트림 계층으로 피드백함으로써, 시스템의 출력 결과를 최적화한다.
하나 또는 다수의 선택 가능한 실시예에서, 단계130은,
강화 네트워크를 통해 제2 네트워크에 의해 출력된 제2 결과에 기반하여 강화 동작을 획득하고, 강화 동작에 기반하여 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계;
제1 중간 결과를 제2 네트워크에 입력하고, 제1 중간 결과에 기반하여 제2 결과를 획득하며, 제2 결과를 강화 네트워크에 입력하는 단계; 및
상기 과정을 반복 수행하고, 기설정 조건을 충족하면, 타겟 결과로서 제2 결과를 출력하는 단계를 포함할 수 있다.
선택 가능하게, 기설정 조건은, 반복 조정 횟수가 기설정 횟수에 도달하거나, 또는 제2 결과의 효과가 기대치를 충족하는 등을 포함할 수 있지만, 본 개시의 실시예는 기설정 조건의 구체적인 형태를 한정하지 않는다.
선택 가능하게, 강화 네트워크는 제2 결과에 기반하여 제1 결과에 대한 조정 동작을 획득하고, 하나 또는 비교적 적은 조정 동작이 조정된 후 획득된 제1 중간 결과는 비교적 좋은 타겟 결과를 획득할 수 없으므로, 반복 수행을 통해, 매번 이전의 조정된 제1 중간 결과에 따라 획득된 제2 결과를 강화 네트워크의 입력으로 하여 기설정 조건에 도달할 때까지 새로운 조정 동작을 획득한다.
선택 가능하게, 강화 동작은 적어도 하나의 조정 동작을 포함할 수 있고,
강화 네트워크를 통해 제2 네트워크에 의해 출력된 제2 결과에 기반하여 강화 동작을 획득하고, 강화 동작에 기반하여 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계는,
제2 결과에 기반하여 강화 네트워크를 통해 적어도 하나의 조정 동작 확률을 획득하고, 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하는 단계; 및
적어도 하나의 조정 동작에 기반하여 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계를 포함한다.
선택 가능하게, 강화 네트워크는 하나의 분류 뉴럴 네트워크일 수 있고, 제2 결과에 기반하여 다수의 조정 동작으로부터 하나 또는 다수의 확률이 비교적 높은(예를 들어, 최대 확률) 조정 동작을 결정하며, 제1 결과를 조정한다. 선택 가능하게, 하나의 예에서, 시스템에 의해 입력된 것이 RGB 이미지이고 출력하고자 하는 타겟 결과가 이미지 인식 결과(예를 들어, 시맨틱 분할(Semantic Segmentation) 또는 인체 자세 검출)이면, 시스템 처리 과정은 하기와 같은 단계를 포함할 수 있다.
a. 제1 네트워크를 이용하여, 입력된 RGB 이미지를 처리하여 제1 결과 Ω을 획득한다. 여기서, Ω는 하나의 추상적인 파라미터이고, 상이한 인식 태스크에 대한 Ω은 상이할 수 있다. 이해의 편의를 위해, 아래, 상기 예에 대해 다계층 다중 사용자 자세 예측 시스템을 예로 들어 설명하기로 한다. 첫 번째 단계의 네트워크(제1 네트워크에 대응됨)는 하나의 물체 검출 네트워크이고, 출력된 Ω는 물체의 경계 박스 좌표이다.
b. 제1 결과 Ω을 제2 네트워크의 입력으로 사용하거나, 또는 제1 결과 Ω에 따라 제2 네트워크의 입력을 산출하고, 제2 네트워크를 통해 제2 결과를 출력한다. 일반적으로, 제2 네트워크의 입력과 제1 네트워크의 출력은 연관된다. Ω이 경계 박스의 좌표이면, 제2 네트워크의 출력은 경계 박스 내에서의 원본 이미지의 일부분이다. 제2 네트워크의 출력은, 도면에서 인체의 각 키 포인트 분포에 대한 열역학 차트와 같은 물체 인식의 결과이다.
c. 강화 네트워크(예를 들어, 강화 네트워크로서 하나의 분류 네트워크 및 하나의 18계층의 잔류 오차 네트워크(ResNet-18)를 사용함)는 제2 네트워크의 출력에 따라, 하나의 동작 조정 제1 결과 Ω을 선택하고, 단계b에 돌아가 기설정 조건에 도달할 때가지 단계c 및 단계b를 반복 수행한다. 본 예에서는 기설정 조건을 반복 횟수로 설정할 수 있는데, 즉 기설정 반복 횟수에 도달하도록 설정할 수 있으며, 또한 이 기설정 반복 횟수는 필요에 따라 설정할 수 있다(예를 들어, 기설정 반복 횟수를 20회로 설정함). 강화 네트워크는 제2 네트워크의 출력을 입력으로 사용하여 다수의 동작에 대한 하나의 확률 분포를 생성하고, 확률이 비교적 높은 동작 중 적어도 하나를 결정의 결과로서 선택한다. 여기서, 제1 네트워크의 출력이 경계 박스인 것을 예로 들면, 다수의 동작은, 경계 박스를 조정할 수 있는 일련의 동작인 동작 집합을 포함할 수 있는데, 예를 들어, 경계 박스의 높이 및/또는 폭에 대한 확대 또는 축소 동작, 상/하/좌/우 평행 이동 동작, 및 하나의 비 조정(un-adjustment) 동작 등 다수의 동작을 포함할 수 있다.
선택 가능하게, 실행기를 이용하여, 선택된 동작에 따라 제1 결과 Ω을 조정한다. 실행기는 일반적인 용어이며, 강화 네트워크에 의해 결정되는 것은 한 동작의 번호(분류 네트워크의 분류 결과)이므로, 한 기능을 통해 이 번호를 동작(예를 들어, 경계 박스를 조정하는 구체적인 동작)으로 전환시켜야 한다. 하나의 함수를 통해 직접 구현할 수 있는데, 일반적으로 이러한 구현 함수를 실행기(executor)라고 한다.
제2 네트워크에 의해 출력된 결과 편차가 지나치게 커지는 것을 방지하기 위하여, 제1 네트워크에 의해 출력된 제1 결과를 강화 네트워크의 파라미터 입력으로 사용하고, 선택 가능하게, 강화 네트워크를 통해 제2 네트워크에 의해 출력된 제2 결과에 기반하여 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계는 하기와 같은 단계를 포함한다.
제2 결과 및 제1 결과에 기반하여, 강화 네트워크를 통해 적어도 하나의 조정 동작 확률을 획득하고, 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정한다.
선택 가능하게, 제2 결과 및 제1 결과에 기반하여 연결 결과를 획득하고, 연결 결과에 기반하여 강화 네트워크를 통해 조정 동작 확률을 획득할 수 있거나, 또는 제1 결과 및 제2 결과가 모두 이미지일 경우, 이미지 채널을 기반으로 제1 결과와 제2 결과를 케스케이딩하고, 케스케이딩된 제1 결과와 제2 결과에 기반하여 조정 동작 확률을 획득한다. 본 개시의 실시예는 조정 동작 확률을 획득할 때 제1 결과를 참조하는 한, 제1 결과와 제2 결과 사이의 구체적인 연결 방법을 한정하지 않는다.
적어도 하나의 조정 동작에 기반하여 제1 결과를 조정하여 제1 중간 결과를 획득한다.
하나 또는 다수의 선택 가능한 실시예에서, 샘플 이미지에 기반하여 시스템을 트레이닝하는 단계를 더 포함하고, 샘플 이미지는 주석이 달린 샘플 타겟 결과를 포함한다.
더욱 좋은 강화 학습 효과를 구현하기 위하여, 제1 결과를 조정하는 조정 동작이 비교적 정확해야 하므로, 강화 학습 전에, 이미 주석이 달린 샘플 타겟 결과를 포함하는 샘플 이미지에 기반하여 시스템 중의 적어도 하나의 네트워크를 트레이닝할 수도 있다. 선택 가능하게, 제2 네트워크 및 강화 네트워크만 트레이닝할 수 있으며, 강화 네트워크는 트레이닝을 통해 더욱 정확한 조정 동작을 획득할 수 있고, 제2 네트워크는 트레이닝을 통해 더욱 좋은 타겟 결과를 획득할 수 있다.
선택 가능하게, 샘플 이미지에 기반하여 시스템을 트레이닝하는 단계는,
시스템의 제1 네트워크에 기반하여 샘플 이미지를 처리하여 제1 샘플 결과를 획득하는 단계;
제1 샘플 결과를 시스템의 제2 네트워크에 입력하여 제2 샘플 결과를 획득하는 단계;
강화 네트워크를 통해 제2 샘플 결과에 기반하여 강화 동작을 획득하고, 강화 동작에 기반하여 제1 샘플 결과를 조정하며, 조정된 제1 샘플 결과에 기반하여 예측 타겟 결과를 획득하는 단계; 및
예측 타겟 결과 및 샘플 타겟 결과에 기반하여 제2 네트워크 및 강화 네트워크의 파라미터를 각각 조정하는 단계를 포함한다.
하나의 선택 가능한 예로서, 도 2는 본 개시의 실시예에 의해 제공되는 시스템 강화 학습 방법의 다른 흐름 모식도이다. 도 2에 도시된 바와 같이, 제2 네트워크와 강화 네트워크는 서로의 결과를 입력으로 사용할 수 있으므로, 트레이닝 과정에서, 제2 네트워크와 강화 네트워크를 공동으로 트레이닝해야 한다. 트레이닝 과정에서 시스템에 포함된 네트워크는 예측 과정과 마찬가지로, 샘플 이미지를 처리하여, 예측 타겟 결과를 획득하고, 예측 타겟 결과 및 샘플 타겟 결과에 기반하여 제2 네트워크 및 강화 네트워크의 파라미터를 조정해야 한다. 선택 가능하게, 강화 네트워크를 통해 제2 샘플 결과에 기반하여 강화 동작을 획득하고, 강화 동작에 기반하여 제1 샘플 결과를 조정하며, 조정된 제1 샘플 결과에 기반하여 예측 타겟 결과를 획득하는 단계는,
강화 네트워크를 통해 제2 샘플 결과에 기반하여 강화 동작을 획득하고, 강화 동작에 기반하여 제1 샘플 결과를 조정하여 제2 중간 샘플 결과를 획득하는 단계;
제2 중간 샘플 결과에 기반하여 제2 네트워크를 통해 중간 예측 결과를 획득하고, 중간 예측 결과를 강화 네트워크에 입력하는 단계; 및
상기 과정을 반복 수행하고, 기설정 조건을 충족하면, 예측 타겟 결과로서 중간 예측 결과를 출력하는 단계를 포함한다.
선택 가능하게, 기설정 조건은, 반복 조정 횟수가 기설정 횟수에 도달하거나, 또는 제2 결과의 효과가 기대치를 충족하는 등을 포함할 수 있지만, 본 개시의 실시예는 기설정 조건의 구체적인 형태를 한정하지 않는다.
본 개시의 실시예에서, 강화 네트워크와 제2 네트워크를 평등하게 처리하고, 각각 최종 출력된 예측 타겟 결과 및 샘플 타겟 결과를 이용하여 강화 네트워크 및 제2 네트워크의 파라미터를 조정한다. 하지만, 강화 학습(강화 네트워크)에 필요한 데이터 양이 지도 학습(supervised learning)에 필요한 데이터 양보다 훨씬 많고, 강화 학습의 구배 분산도 지도 학습(제2 네트워크)의 구배 분산보다 훨씬 크다. 따라서, 강화 네트워크와 제2 네트워크를 직접 공동 트레이닝하면, 지도 학습의 네트워크에 큰 영향을 미치게 되어 정확도가 떨어지게 된다. 이러한 문제를 해결하기 위하여, 본 개시의 실시예는 강화 학습과 지도 학습을 위한 서로 다른 트레이닝 요구 사항의 균형을 맞추는 방법을 제공한다.
선택 가능하게, 예측 타겟 결과 및 샘플 타겟 결과에 기반하여 강화 네트워크의 파라미터를 조정하는 단계는,
중간 예측 결과 및 샘플 타겟 결과에 기반하여 제1 손실을 결정하는 단계; 및
적어도 하나의 제1 손실에 기반하여 강화 네트워크의 파라미터를 조정하는 단계를 포함한다.
선택 가능하게, 트레이닝 과정에서, 입력에 있어서, 강화 네트워크는 제1 결과를 끊임없이 조정하되, 대응되는 다수의 동작을 여러 번 조정하고, 반복 수행을 완성한 후, 하나의 동작 시퀀스(다수의 동작을 포함)을 획득한다. 제1 샘플 결과를 한 번 조정할 경우, 제2 네트워크는 하나의 새로운 대응되는 예측 중간 샘플 결과(예를 들어, 열역학 차트)를 생성한다. 강화 네트워크에 있어서, 본 실시예는 전체적인 동작 시퀀스의 예측 중간 샘플 결과를 통해 이를 트레이닝하고, 제2 네트워크의 지도 학습에 있어서, 최종적인 예측 타겟 결과만 선택하여 이를 트레이닝할 수 있다. 상이한 트레이닝 동작을 통해 지도 학습과 강화 학습에 대한 상이한 트레이닝 요구 사항은 균형을 이룰 수 있다.
선택 가능하게, 적어도 하나의 제1 손실에 기반하여 강화 네트워크의 파라미터를 조정하는 단계는,
적어도 하나의 제1 손실을 획득하는 순서에 따라, 적어도 하나의 제1 손실에 기반하여 강화 네트워크의 파라미터를 순차적으로 조정하는 단계를 포함한다.
획득된 중간 예측 결과와 샘플 타겟 결과에 기반하여 손실을 결정할 수 있고, 적어도 하나의 손실을 획득할 수 있으며, 획득된 적어도 하나의 손실에 기반하여 강화 네트워크의 파라미터를 조정할 수 있다.
선택 가능하게, 중간 예측 결과 및 샘플 타겟 결과에 기반하여 제1 손실을 결정하는 단계는 하기와 같은 단계를 포함한다.
중간 예측 결과 및 샘플 타겟 결과에 기반하여 현재 중간 보상을 결정한다.
중간 예측 결과에 기반하여 득점 네트워크를 통해 현재 예측 보상을 결정한다.
여기서, 득점 네트워크는 강화 네트워크와 일부분 네트워크 구조를 공유하고; 선택 가능하게, 득점 네트워크와 강화 네트워크는 마지막 계층만 상이하며, 강화 네트워크의 마지막 계층은 완전 연결 계층이고, 1차원 특징 벡터를 획득하며, 상기 1차원 특징 벡터에 기반하여 동작을 선택하는 확률을 결정하고; 득점 네트워크의 마지막 계층은 완전 연결 계층이며, 득점인 하나의 특징 값을 획득한다.
중간 예측 결과에 기반하여 강화 네트워크 및 제2 네트워크를 통해 다음 중간 예측 결과를 결정하고; 다음 중간 예측 결과에 기반하여 득점 네트워크를 통해 다음 예측 보상을 결정한다.
현재 중간 보상, 현재 예측 보상 및 다음 예측 보상에 기반하여 제1 손실을 결정한다.
중간 예측 결과에 기반하여 적어도 하나의 제1 손실을 획득하는데, 예를 들어, 각각의 중간 예측 결과는 하나의 제1 손실에 대응된다.
본 실시예에서, 도 3은 본 개시의 실시예에 의해 제공되는 시스템 강화 학습 방법의 하나의 트레이닝 예시도이다. 도 3에 도시된 바와 같이, 하나의 득점 네트워크, 강화 네트워크 및 득점 네트워크를 추가하여 구성된 강화 학습 대리 모델은 실행자-평점자(강화 네트워크와 득점 네트워크의 결합, Actor Critic) 알고리즘을 적용하였고, 시간 시퀀스가 상이한 학습 방법(예를 들어, 시간차 학습(TD-Learning))을 사용하였으며; 여기서, Actor Critic 방법은 정책 경사(Policy Gradient, 실행자)와 함수 근사(Function Approximation, 평점자)를 결합한 방법을 사용하였고, Actor는 강화 네트워크가 확률에 기반하여 동작을 결정하도록 하며, Critic는 Actor의 행위에 기반하여, 확률에 기반하여 동작을 결정하는 득점을 판정하고, Actor는 Critic의 평점에 따라, 동작을 결정하는 확률을 수정하는데, Actor Critic 방법의 장점은, 원스텝 업데이트를 진행할 수 있는 것이므로 기존의 방법보다 더욱 빠르다(라운드 종료 업데이트). TD-learning 알고리즘도 이미 알고 있는 알고리즘이다. 강화 학습의 역방향 전파(back-propagation) 알고리즘에는 대체적으로 2가지 사고 방향이 있는데, 한 가지는, 전체 시퀀스를 모두 한 번에 실행한 다음 전체 시퀀스의 보상(reward)을 산출하고 다시 한 단계씩 뒤로 최적화하여 역방향 전파(back-propagation) 알고리즘을 실행하는 것이다. 다른 한 가지는, 매번 한 번의 동작만 실행한 다음 바로 한 번 최적화하는 것이다. 이것이 바로 TD-learning 알고리즘의 사상이다. TD-learning 알고리즘의 장점은, 네트워크가 더욱 빨리 수렴되고 트레이닝 시간을 단축시킬 수 있으며 성능에 큰 영향을 주지 않는 것이다.
선택 가능하게, 현재 중간 보상, 현재 예측 보상 및 다음 예측 보상에 기반하여 제1 손실을 결정하는 단계는,
현재 중간 보상에 다음 예측 보상을 더하고 현재 예측 보상을 감한 값에 기반하여 제1 손실을 획득하는 단계를 포함한다.
현재 예측 보상 및 다음 예측 보상의 추가를 통해 손실 함수의 분산을 감소시킬 수 있고, 트레이닝을 더욱 안정시킬 수 있다.
선택 가능하게, 예측 타겟 결과 및 샘플 타겟 결과에 기반하여 제2 네트워크의 파라미터를 조정하는 단계는,
예측 타겟 결과 및 샘플 타겟 결과에 기반하여 제2 손실을 결정하고, 제2 손실에 기반하여 제2 네트워크의 파라미터를 조정하는 단계를 포함한다.
본 기술분야의 통상의 기술자는, 상기 방법 실시예를 구현하는 모든 또는 일부 단계는 프로그램 명령 관련 하드웨어를 통해 완성될 수 있고, 전술한 프로그램은 컴퓨터 판독 가능한 저장 매체에 저장될 수 있으며, 상기 프로그램이 실행될 경우, 상기 방법 실시예를 포함하는 단계를 수행하고, 전술한 저장 매체는 ROM, RAM, 자기 디스크 또는 광 디스크 등 프로그램 코드를 저장할 수 있는 다양한 매체를 포함함을 이해할 수 있다.
도 4는 본 개시의 실시예에 의해 제공되는 시스템 강화 학습 장치의 하나의 구성 모식도이다. 상기 실시예에 따른 장치는 본 개시의 각 방법 실시예를 구현할 수 있다. 도 4에 도시된 바와 같이, 상기 실시예에 따른 장치는,
입력 이미지를 처리하여 제1 결과를 획득하는 제1 네트워크 모듈(41);
제1 결과를 처리하여 제2 결과를 획득하는 제2 네트워크 모듈(42);
제2 결과에 기반하여 강화 동작을 획득하는 강화 네트워크 모듈(43); 및
강화 동작에 기반하여 제1 결과를 조정하며, 조정된 제1 결과에 기반하여 타겟 결과를 획득하는 실행기(44)를 포함한다.
본 개시의 상기 실시예에 의해 제공되는 시스템 강화 학습 장치에 기반하여, 시스템의 제1 네트워크에 기반하여 입력 이미지를 처리하여 제1 결과를 획득하고; 제1 결과를 시스템의 제2 네트워크에 입력하여 제2 결과를 획득하며; 강화 네트워크를 통해 제2 결과에 기반하여 강화 동작을 획득하고, 강화 동작에 기반하여 제1 결과를 조정하여 타겟 결과를 획득하며, 네트워크를 통해 정보를 다운스트림 계층으로부터 업스트림 계층으로 피드백함으로써, 시스템의 출력 결과를 최적화한다.
하나 또는 다수의 선택 가능한 실시예에서, 강화 네트워크 모듈(43)은,
제2 네트워크 모듈에 의해 출력된 제2 결과에 기반하여 제1 결과를 조정하여 제1 중간 결과를 획득하는 조정 모듈;
제1 중간 결과를 제2 네트워크 모듈에 입력하고, 제1 중간 결과에 기반하여 제2 결과를 획득하며, 제2 결과를 조정 모듈에 입력하고; 기설정 조건을 충족하면, 타겟 결과로서 제2 결과를 출력하는 결과 출력 모듈을 포함한다.
선택 가능하게, 기설정 조건은, 조정 횟수가 기설정 횟수에 도달하거나, 또는 제2 결과의 효과가 기대치를 충족하는 등을 포함할 수 있지만, 본 개시의 실시예는 기설정 조건의 구체적인 형태를 한정하지 않는다.
선택 가능하게, 강화 네트워크는 제2 결과에 기반하여 제1 결과에 대한 조정 동작을 획득하고, 하나 또는 비교적 적은 조정 동작이 조정된 후 획득된 제1 중간 결과는 비교적 좋은 타겟 결과를 획득할 수 없으므로, 반복 수행을 통해, 매번 이전의 조정된 제1 중간 결과에 따라 획득된 제2 결과를 강화 네트워크의 입력으로 하여 기설정 조건에 도달할 때까지 새로운 조정 동작을 획득한다.
선택 가능하게, 조정 모듈은, 제2 결과에 기반하여 강화 네트워크 모듈을 통해 적어도 하나의 조정 동작 확률을 획득하고, 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하며; 적어도 하나의 조정 동작에 기반하여 제1 결과를 조정하여 제1 중간 결과를 획득한다.
선택 가능하게, 강화 네트워크 모듈은, 제2 결과 및 제1 결과에 기반하여 조정 동작 확률을 획득하고, 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하고;
상기 실행기는, 적어도 하나의 조정 동작에 기반하여 제1 결과를 조정하여 제1 중간 결과를 획득한다.
선택 가능하게, 강화 네트워크 모듈은, 제2 결과 및 제1 결과에 기반하여 연결 결과를 획득하고;
연결 결과에 기반하여 강화 네트워크를 통해 적어도 하나의 조정 동작 확률을 획득하고, 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정한다.
하나 또는 다수의 선택 가능한 실시예에서, 샘플 이미지에 기반하여 제1 네트워크、제2 네트워크 및 강화 네트워크를 포함하는 시스템을 트레이닝하는 트레이닝 모듈을 더 포함한다.
여기서, 샘플 이미지는 주석이 달린 샘플 타겟 결과를 포함한다.
더욱 좋은 강화 학습 효과를 구현하기 위하여, 제1 결과를 조정하는 조정 동작이 비교적 정확해야 하므로, 강화 학습 전에, 이미 주석이 달린 샘플 타겟 결과를 포함하는 샘플 이미지에 기반하여 시스템 중의 적어도 하나의 네트워크를 트레이닝할 수도 있고; 선택 가능하게, 제2 네트워크 및 강화 네트워크만 트레이닝할 수 있으며, 강화 네트워크는 트레이닝을 통해 더욱 정확한 조정 동작을 획득할 수 있고, 제2 네트워크는 트레이닝을 통해 더욱 좋은 타겟 결과를 획득할 수 있다.
선택 가능하게, 제1 네트워크는 검출 뉴럴 네트워크, 인식 뉴럴 네트워크, 분류 뉴럴 네트워크 중 하나 또는 다수의 네트워크를 포함하고;
제2 네트워크는 검출 뉴럴 네트워크, 인식 뉴럴 네트워크, 분류 뉴럴 네트워크 중 하나 또는 다수의 네트워크를 포함한다.
선택 가능하게, 트레이닝 모듈은, 샘플 이미지를 제1 네트워크 모듈, 제2 네트워크 모듈, 강화 네트워크 모듈 및 실행기에 입력하여 예측 타겟 결과를 획득하고; 예측 타겟 결과 및 샘플 타겟 결과에 기반하여 제2 네트워크 및 강화 네트워크의 파라미터를 각각 조정한다.
선택 가능하게, 강화 모듈은, 제2 네트워크 모듈에 의해 획득된 제2 샘플 결과에 기반하여 강화 동작을 획득하고;
실행기는, 강화 동작에 기반하여 제1 네트워크 모듈에 의해 획득된 제1 샘플 결과를 조정하여 제2 중간 샘플 결과를 획득하며;
제2 네트워크 모듈은, 제2 중간 샘플 결과에 기반하여 중간 예측 결과를 획득하고, 중간 예측 결과를 강화 모듈에 입력하며, 기설정 조건을 충족하면, 예측 타겟 결과로서 중간 예측 결과를 출력한다.
선택 가능하게, 트레이닝 모듈은,
중간 예측 결과 및 샘플 타겟 결과에 기반하여 제1 손실을 결정하는 제1 손실 모듈; 및
적어도 하나의 제1 손실에 기반하여 강화 네트워크의 파라미터를 조정하는 제1 파라미터 조정 모듈을 포함한다.
선택 가능하게, 제1 파라미터 조정 모듈은, 적어도 하나의 제1 손실을 획득하는 순서에 따라, 적어도 하나의 제1 손실에 기반하여 강화 네트워크의 파라미터를 순차적으로 조정한다.
선택 가능하게, 제1 손실 모듈은,
중간 예측 결과 및 샘플 타겟 결과에 기반하여 현재 중간 보상을 결정하고; 중간 예측 결과에 기반하여, 강화 네트워크와 일부분 네트워크 구조를 공유하는 득점 네트워크를 통해 현재 예측 보상을 결정하며; 중간 예측 결과에 기반하여 강화 네트워크 및 제2 네트워크를 통해 다음 중간 예측 결과를 결정하고; 다음 중간 예측 결과에 기반하여 득점 네트워크를 통해 다음 예측 보상을 결정하는 보상 결정 모듈; 및
현재 중간 보상, 현재 예측 보상 및 다음 예측 보상에 기반하여 제1 손실을 결정하는 손실 결정 모듈을 포함한다.
선택 가능하게, 손실 결정 모듈은, 현재 중간 보상에 다음 예측 보상을 더하고 현재 예측 보상을 감한 값에 기반하여 제1 손실을 획득한다.
선택 가능하게, 제2 네트워크 조정 모듈은, 예측 타겟 결과 및 샘플 타겟 결과에 기반하여 제2 손실을 결정하고, 제2 손실에 기반하여 제2 네트워크의 파라미터를 조정한다.
본 개시의 실시예의 다른 양태에 따르면,
실행 가능한 명령을 저장하는 메모리; 및
실행 가능한 명령을 실행하여 본 개시의 상기 어느 한 실시예에 따른 시스템 강화 학습 방법의 단계를 완성하도록 메모리와 통신하는 프로세서를 포함하는 전자 기기를 제공한다.
본 개시의 실시예의 또 다른 양태에 따르면, 컴퓨터 판독 가능한 명령을 저장하고, 명령이 실행될 경우 상기 프로세서가 본 개시의 상기 어느 한 실시예에 의해 제공되는 시스템 강화 학습 방법을 수행하는 컴퓨터 저장 매체를 제공한다.
본 개시의 실시예의 또 다른 양태에 따르면, 컴퓨터 판독 가능한 코드를 포함하고, 컴퓨터 판독 가능한 코드가 기기에서 실행될 경우, 기기 중의 프로세서가 본 개시의 상기 어느 한 실시예에 의해 제공되는 시스템 강화 학습 방법의 단계를 수행하는 컴퓨터 프로그램 제품을 제공한다.
본 개시의 실시예의 또 다른 양태에 따르면, 컴퓨터 판독 가능한 명령을 저장하고, 상기 명령이 실행될 경우 컴퓨터가 상기 어느 하나의 가능한 구현 방식에 의해 제공되는 시스템 강화 학습 방법의 단계를 수행하도록 하는 다른 컴퓨터 프로그램 제품을 제공한다.
하나 또는 다수의 선택 가능한 실시형태에서, 본 개시의 실시예는, 컴퓨터 판독 가능한 명령을 저장하고, 상기 명령이 실행될 경우 컴퓨터가 상기 어느 하나의 실시예에 따른 시스템 강화 학습 방법의 단계를 수행하도록 하는 컴퓨터 프로그램 제품을 더 제공한다.
상기 컴퓨터 프로그램 제품은 구체적으로 하드웨어, 소프트웨어 또는 이들의 결합 방식을 통해 구현될 수 있다. 하나의 선택 가능한 예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 컴퓨터 저장 매체로 구현되고, 다른 하나의 선택 가능한 예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 예컨대 소프트웨어 개발 키트(Software Development Kit, SDK) 등 소프트웨어 제품으로 구현된다.
본 개시의 실시예는 다른 시스템 강화 학습 방법 및 이에 대응되는 장치 및 전자 기기, 컴퓨터 저장 매체 및 컴퓨터 프로그램 제품을 더 제공하고, 여기서, 상기 방법은, 시스템의 제1 네트워크에 기반하여 입력 이미지를 처리하여 제1 결과를 획득하는 단계; 제1 결과를 시스템의 제2 네트워크에 입력하여 제2 결과를 획득하는 단계; 및 강화 네트워크를 통해 제2 결과에 기반하여 제1 결과를 조정하여 타겟 결과를 획득하는 단계를 포함한다.
일부 실시예에서, 상기 타겟 추적 지시는 구체적으로 호출 명령일 수 있고, 제1 장치는 호출 방식을 통해 제2 장치가 타겟 추적을 실행하도록 지시할 수 있고, 대응되게, 호출 명령의 수신에 응답하여, 제2 장치는 상기 타겟 추적 방법 중 임의의 실시예의 단계 및/또는 프로세스를 수행할 수 있다.
본 개시의 실시예에서의 “제1”, “제2” 등 용어는 단지 구분하기 위한 것일 뿐, 본 개시의 실시예에 대한 한정으로 이해해서는 안됨을 이해해야 한다.
또한, 본 개시에서, “다수의”는 2개 또는 2개 이상을 의미할 수 있고, “적어도 하나의”는 1개, 2개 또는 2개 이상을 의미할 수 있음을 이해해야 한다.
또한, 본 개시에서 언급된 어느 하나의 부재, 데이터 또는 구조에 있어서, 명확한 한정 또는 전후 문장에서 반대로 시사하지 않은 한, 일반적으로 하나 또는 다수로 이해될 수 있음을 이해해야 한다.
또한, 각 실시예에 대한 본 개시의 설명은 각 실시예 사이의 상이한 부분을 중점적으로 강조하였고, 이와 동일하거나 유사한 부분은 서로 참조할 수 있으므로, 간결함을 위해 더 이상 설명하지 일일이 않는다.
본 개시의 실시예는 예컨대 이동 단말기, 개인용 컴퓨터(PC), 태블릿 PC, 서버 등일 수 있는 전자 기기를 더 제공한다. 아래, 도 5를 참조하면, 이는 본 개시의 실시예를 구현하기 위한 단말 기기 또는 서버에 적용되는 전자 기기(500)의 구성 모식도를 나타낸다. 도 5에 도시된 바와 같이, 전자 기기(500)는 하나 또는 다수의 프로세서, 통신부 등을 포함하고, 상기 하나 또는 다수의 프로세서는 예컨대 하나 또는 다수의 중앙 처리 장치(CPU)(501), 및/또는 하나 또는 다수의 그래픽 프로세서(GPU)(513) 등이며, 프로세서는 판독 전용 메모리(ROM)(502)에 저장된 실행 가능한 명령 또는 저장 부분(508)으로부터 랜덤 액세스 메모리(RAM)(503)에 로딩된 실행 가능한 명령에 따라 다양한 적절한 동작 및 프로세스를 실행할 수 있다. 통신부(512)는 네트워크 카드를 포함할 수 있지만 이에 한정되지 않고, 상기 네트워크 카드는 IB(Infiniband) 네트워크 카드를 포함할 수 있지만 이에 한정되지 않는다.
프로세서는 판독 전용 메모리 (502) 및/또는 랜덤 액세스 메모리(503)와 통신하여 실행 가능한 명령을 실행하고, 버스(504)를 통해 통신부(512)와 연결되어 통신부(512)를 통해 다른 타겟 기기와 통신할 수 있음으로써, 본 개시의 실시예에 의해 제공되는 어느 하나의 방법에 대응되는 동작을 완성할 수 있는데, 예를 들어, 시스템의 제1 네트워크에 기반하여 입력 이미지를 처리하여 제1 결과를 획득하고; 제1 결과를 시스템의 제2 네트워크에 입력하여 제2 결과를 획득하며; 강화 네트워크를 통해 제2 결과에 기반하여 강화 동작을 획득하고, 강화 동작에 기반하여 제1 결과를 조정하여 타겟 결과를 획득한다.
이 밖에, RAM(503)에 장치 조작에 필요한 다양한 프로그램과 데이터가 저장될 수 있다. CPU(501), ROM(502) 및 RAM(503)은 버스(504)를 통해 서로 연결된다. RAM(503)이 존재할 경우, ROM(502)은 선택 가능한 모듈이다. RAM(503)은 실행 가능한 명령을 저장하거나, 또는 실행 시 ROM(502)에 실행 가능한 명령을 라이팅하고, 실행 가능한 명령은 중앙 처리 장치 (501)가 상기 통신 방법에 대응되는 동작을 실행하도록 한다. 입력/출력(I/O) 인터페이스(505)도 버스(504)에 연결된다. 통신부(512)는 집적되어 설치될 수 있고, 다수의 서브 모듈(예를 들어, 다수의 IB 네트워크 카드)을 구비하고 버스에 연결되도록 설치될 수도 있다.
키보드, 마우스 등을 포함하는 입력 부분(506); 음극선관(CRT), 액정 표시 장치(LCD) 및 스피커 등을 포함하는 출력 부분(507); 하드 디스크 등을 포함하는 저장 부분(508); 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신 부분(509)은 I/O 인터페이스(505)에 연결된다. 통신 부분(509)은 예컨대 인터넷 등 네트워크에 의해 통신 처리를 수행한다. 드라이버(510)도 필요에 따라 I/O 인터페이스(505)에 연결된다. 예컨대 자기 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 등 탈착 가능한 매체(511)는 필요에 따라 드라이버(510)에 장착되어, 이들로부터 판독된 컴퓨터 프로그램이 필요에 따라 저장 부분(508)에 장착되도록 한다.
도 5에 도시된 구조는 하나의 선택 가능한 실시형태일 뿐, 구체적인 구현 과정에서, 실제 필요에 따라 상기 도 5의 부재 개수 및 타입을 선택, 삭감, 추가 또는 대체할 수 있고, 상이한 기능 부재의 설치에서, 분리 설치 또는 집적 설치 등 실시형태를 사용할 수도 있는데, 예를 들어, GPU(513)와 CPU(501)는 분리되어 설치될 수 있거나 GPU(513)를 CPU(501)에 집적시킬 수 있고, 통신부는 분리되어 설치될 수 있으며, CPU(501) 또는 GPU(513)에 집적될 수도 있음을 유의해야 한다. 이러한 대체적인 실시형태는 모두 본 개시가 공개한 보호범위에 속한다.
특히, 본 개시의 실시예에 따르면, 위에서 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 개시의 실시예는 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함하며, 프로그램 코드는 본 개시의 실시예에 의해 제공되는 방법의 단계를 대응되게 수행하는 대응되는 명령을 포함할 수 있는데, 예를 들어, 시스템의 제1 네트워크에 기반하여 입력 이미지를 처리하여 제1 결과를 획득하고; 제1 결과를 시스템의 제2 네트워크에 입력하여 제2 결과를 획득하며; 강화 네트워크를 통해 제2 결과에 기반하여 강화 동작을 획득하고, 강화 동작에 기반하여 제1 결과를 조정하여 타겟 결과를 획득한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 부분(509)을 통해 네트워크로부터 다운로드되거나 네트워크에 설치될 수 있거나, 및/또는 탈착 가능한 매체(511)에 설치될 수 있다. 상기 컴퓨터 프로그램이 중앙 처리 장치(CPU)(501)에 의해 실행될 경우, 본 개시의 방법에서 한정된 상기 기능을 수행한다.
본 명세서의 각 실시예는 모두 차례로 설명되었고, 각 실시예에서 중점적으로 설명된 것은 모두 다른 실시예와 상이한 부분이며, 각 실시예 사이의 동일하거나 유사한 부분은 서로 참조할 수 있다. 시스템 실시예는 방법 실시예와 기본적으로 대응되므로, 비교적 간단하게 설명되었고, 관련 부분은 방법 실시예의 부분적 설명을 참조할 수 있다.
아주 다양한 방식으로 본 개시의 방법 및 장치를 구현할 수 있다. 예를 들어, 소프트웨어, 하드웨어, 펌웨어, 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합으로 본 개시의 방법 및 장치를 구현할 수 있다. 상기 방법의 단계에 사용되는 상기 순서는 설명하기 위한 것일 뿐, 다른 방식으로 특별히 설명되지 않은 한, 본 개시의 방법의 단계는 이상의 설명 순서에 한정되지 않는다. 이 밖에, 일부 실시예에서, 본 개시를 기록 매체에 기록되는 프로그램으로 실시할 수 있고, 이러한 프로그램은 본 개시에 따른 방법을 구현하기 위한 기계 판독 가능 명령을 포함한다. 따라서, 본 개시는 또한 본 개시에 따른 방법을 수행하기 위한 프로그램을 저장하는 기록 매체를 커버리징한다.
본 개시의 설명은 예시 및 설명을 위한 것이고, 누락이 없거나 본 개시를 공개된 형태에 한정하는 것이 아니다. 많은 수정 및 변경은 본 기술분야의 통상의 기술자에게 있어서 자명한 것이다. 실시예를 선택하고 설명하는 것은 본 개시의 원리 및 실제 응용을 보다 명확하게 설명하기 위한 것이고, 본 기술분야의 통상의 기술자가 본 개시를 이해할 수 있도록 함으로써 설계가 특정된 용도의 다양하게 수정되는 다양한 실시예에 적용되도록 한다.

Claims (31)

  1. 시스템 강화 학습 방법으로서,
    시스템의 제1 네트워크에 기반하여 입력 이미지를 처리하여 제1 결과를 획득하는 단계;
    상기 제1 결과를 상기 시스템의 제2 네트워크에 입력하여 제2 결과를 획득하는 단계; 및
    강화 네트워크를 통해 상기 제2 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 결과를 조정하며, 조정된 제1 결과에 기반하여 타겟 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 시스템 강화 학습 방법.
  2. 제1항에 있어서,
    상기 강화 네트워크를 통해 상기 제2 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 결과를 조정하며, 상기 조정된 제1 결과에 기반하여 타겟 결과를 획득하는 단계는,
    상기 강화 네트워크를 통해 상기 제2 네트워크에 의해 출력된 상기 제2 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계;
    상기 제1 중간 결과를 상기 제2 네트워크에 입력하고, 상기 제1 중간 결과에 기반하여 제2 결과를 획득하며, 상기 제2 결과를 상기 강화 네트워크에 입력하는 단계; 및
    기설정 조건을 충족하면, 상기 타겟 결과로서 상기 제2 결과를 출력하는 단계를 포함하는 것을 특징으로 하는 시스템 강화 학습 방법.
  3. 제2항에 있어서,
    상기 강화 동작은 적어도 하나의 조정 동작을 포함하고;
    상기 강화 네트워크를 통해 상기 제2 네트워크에 의해 출력된 제2 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계는,
    상기 제2 결과에 기반하여 강화 네트워크를 통해 적어도 하나의 조정 동작 확률을 획득하고, 상기 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하는 단계; 및
    상기 적어도 하나의 조정 동작에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 시스템 강화 학습 방법.
  4. 제2항에 있어서,
    상기 강화 네트워크를 통해 상기 제2 네트워크에 의해 출력된 제2 결과에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계는,
    상기 제2 결과 및 상기 제1 결과에 기반하여, 강화 네트워크를 통해 적어도 하나의 조정 동작 확률을 획득하고, 상기 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하는 단계; 및
    상기 적어도 하나의 조정 동작에 기반하여 상기 제1 결과를 조정하여 제1 중간 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 시스템 강화 학습 방법.
  5. 제4항에 있어서,
    상기 제2 결과 및 상기 제1 결과에 기반하여, 강화 네트워크를 통해 적어도 하나의 조정 동작 확률을 획득하고, 상기 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하는 단계는,
    상기 제2 결과 및 상기 제1 결과에 기반하여 연결 결과를 획득하는 단계; 및
    상기 연결 결과에 기반하여 강화 네트워크를 통해 적어도 하나의 조정 동작 확률을 획득하고, 상기 적어도 하나의 조정 동작 확률에 기반하여 적어도 하나의 조정 동작을 결정하는 단계를 포함하는 것을 특징으로 하는 시스템 강화 학습 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    샘플 이미지에 기반하여 상기 시스템을 트레이닝하는 단계를 더 포함하고, 상기 샘플 이미지는 주석이 달린 샘플 타겟 결과를 포함하며,
    상기 샘플 이미지에 기반하여 상기 시스템을 트레이닝하는 단계는,
    상기 시스템의 제1 네트워크에 기반하여 상기 샘플 이미지를 처리하여 제1 샘플 결과를 획득하는 단계;
    상기 제1 샘플 결과를 상기 시스템의 제2 네트워크에 입력하여 제2 샘플 결과를 획득하는 단계;
    강화 네트워크를 통해 상기 제2 샘플 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 샘플 결과를 조정하며, 조정된 제1 샘플 결과에 기반하여 예측 타겟 결과를 획득하는 단계; 및
    상기 예측 타겟 결과 및 상기 샘플 타겟 결과에 기반하여 상기 제2 네트워크 및 상기 강화 네트워크의 파라미터를 각각 조정하는 단계를 포함하는 것을 특징으로 하는 시스템 강화 학습 방법.
  7. 제6항에 있어서,
    상기 강화 네트워크를 통해 상기 제2 샘플 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 샘플 결과를 조정하며, 조정된 제1 샘플 결과에 기반하여 예측 타겟 결과를 획득하는 단계는,
    강화 네트워크를 통해 상기 제2 샘플 결과에 기반하여 강화 동작을 획득하고, 상기 강화 동작에 기반하여 상기 제1 샘플 결과를 조정하여 제2 중간 샘플 결과를 획득하는 단계;
    상기 제2 중간 샘플 결과에 기반하여 상기 제2 네트워크를 통해 중간 예측 결과를 획득하고, 상기 중간 예측 결과를 상기 강화 네트워크에 입력하는 단계; 및
    기설정 조건을 충족하면, 상기 예측 타겟 결과로서 상기 중간 예측 결과를 출력하는 단계를 포함하며,
    상기 예측 타겟 결과 및 상기 샘플 타겟 결과에 기반하여 상기 강화 네트워크의 파라미터를 조정하는 단계는,
    상기 중간 예측 결과 및 샘플 타겟 결과에 기반하여 제1 손실을 결정하는 단계; 및
    적어도 하나의 상기 제1 손실에 기반하여 상기 강화 네트워크의 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 시스템 강화 학습 방법.
  8. 제7항에 있어서,
    상기 적어도 하나의 상기 제1 손실에 기반하여 상기 강화 네트워크의 파라미터를 조정하는 단계는,
    적어도 하나의 상기 제1 손실을 획득하는 순서에 따라, 적어도 하나의 상기 제1 손실에 기반하여 상기 강화 네트워크의 파라미터를 순차적으로 조정하는 단계를 포함하는 것을 특징으로 하는 시스템 강화 학습 방법.
  9. 제7항에 있어서,
    상기 중간 예측 결과 및 샘플 타겟 결과에 기반하여 제1 손실을 결정하는 단계는,
    상기 중간 예측 결과 및 샘플 타겟 결과에 기반하여 현재 중간 보상을 결정하는 단계;
    상기 중간 예측 결과에 기반하여, 상기 강화 네트워크와 일부분 네트워크 구조를 공유하는 득점 네트워크를 통해 현재 예측 보상을 결정하는 단계;
    상기 중간 예측 결과에 기반하여 상기 강화 네트워크 및 상기 제2 네트워크를 통해 다음 중간 예측 결과를 결정하고, 상기 다음 중간 예측 결과에 기반하여 상기 득점 네트워크를 통해 다음 예측 보상을 결정하는 단계; 및
    상기 현재 중간 보상, 상기 현재 예측 보상 및 상기 다음 예측 보상에 기반하여 상기 제1 손실을 결정하는 단계를 포함하는 것을 특징으로 하는 시스템 강화 학습 방법.
  10. 제9항에 있어서,
    상기 현재 중간 보상, 상기 현재 예측 보상 및 상기 다음 예측 보상에 기반하여 상기 제1 손실을 결정하는 단계는,
    상기 현재 중간 보상에 상기 다음 예측 보상을 더하고 상기 현재 예측 보상을 감한 값에 기반하여 상기 제1 손실을 획득하는 단계를 포함하는 것을 특징으로 하는 시스템 강화 학습 방법.
  11. 제6항에 있어서,
    상기 예측 타겟 결과 및 상기 샘플 타겟 결과에 기반하여 상기 제2 네트워크의 파라미터를 조정하는 단계는,
    상기 예측 타겟 결과 및 상기 샘플 타겟 결과에 기반하여 제2 손실을 결정하고, 상기 제2 손실에 기반하여 상기 제2 네트워크의 파라미터를 조정하는 단계를 포함하는 것을 특징으로 하는 시스템 강화 학습 방법.
  12. 시스템 강화 학습 장치로서,
    입력 이미지를 처리하여 제1 결과를 획득하는 제1 네트워크 모듈;
    상기 제1 결과를 처리하여 제2 결과를 획득하는 제2 네트워크 모듈;
    상기 제2 결과에 기반하여 강화 동작을 획득하는 강화 네트워크 모듈; 및
    상기 강화 동작에 기반하여 상기 제1 결과를 조정하며, 조정된 제1 결과에 기반하여 타겟 결과를 획득하는 실행기를 포함하는 것을 특징으로 하는 시스템 강화 학습 장치.
  13. 전자 기기로서,
    실행 가능한 명령을 저장하는 메모리; 및
    상기 실행 가능한 명령을 실행하여 제1항 내지 제5항 중 어느 한 항에 따른 시스템 강화 학습 방법의 단계를 완성하도록 상기 메모리와 통신하는 프로세서를 포함하는 것을 특징으로 하는 전자 기기.
  14. 컴퓨터 판독 가능한 명령을 저장하는 컴퓨터 저장 매체로서,
    상기 명령이 실행될 경우 제1항 내지 제5항 중 어느 한 항에 따른 시스템 강화 학습 방법의 단계를 수행하는 것을 특징으로 하는 컴퓨터 저장 매체.
  15. 컴퓨터에 제1항 내지 제5항 중 어느 한 항에 따른 시스템 강화 학습 방법을 실행시키기 위하여 매체에 저장된 것을 특징으로 하는 컴퓨터 프로그램.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
KR1020207026754A 2018-05-07 2019-03-18 시스템 강화 학습 방법 및 장치, 전자 기기, 컴퓨터 저장 매체 KR102420715B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810428099.3A CN108776834B (zh) 2018-05-07 2018-05-07 系统增强学习方法和装置、电子设备、计算机存储介质
CN201810428099.3 2018-05-07
PCT/CN2019/078520 WO2019214344A1 (zh) 2018-05-07 2019-03-18 系统增强学习方法和装置、电子设备、计算机存储介质

Publications (2)

Publication Number Publication Date
KR20200119873A KR20200119873A (ko) 2020-10-20
KR102420715B1 true KR102420715B1 (ko) 2022-07-14

Family

ID=64026991

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207026754A KR102420715B1 (ko) 2018-05-07 2019-03-18 시스템 강화 학습 방법 및 장치, 전자 기기, 컴퓨터 저장 매체

Country Status (6)

Country Link
US (1) US11669711B2 (ko)
JP (1) JP6896176B2 (ko)
KR (1) KR102420715B1 (ko)
CN (1) CN108776834B (ko)
SG (1) SG11202006017SA (ko)
WO (1) WO2019214344A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776834B (zh) * 2018-05-07 2021-08-06 上海商汤智能科技有限公司 系统增强学习方法和装置、电子设备、计算机存储介质
CN110211122A (zh) * 2019-06-12 2019-09-06 京东方科技集团股份有限公司 一种检测图像处理方法及装置
CN110472029B (zh) * 2019-08-01 2024-03-19 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质
CN110610534B (zh) * 2019-09-19 2023-04-07 电子科技大学 基于Actor-Critic算法的口型动画自动生成方法
CN111488806A (zh) * 2020-03-25 2020-08-04 天津大学 一种基于并行分支神经网络的多尺度人脸识别方法
CN111766782B (zh) * 2020-06-28 2021-07-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法
US20220253724A1 (en) * 2021-02-10 2022-08-11 Ford Global Technologies, Llc Variance of gradient based active learning framework for training perception algorithms
CN116997913A (zh) * 2021-03-18 2023-11-03 株式会社日本制钢所 强化学习方法、计算机程序、强化学习装置以及成型机
CN114494081B (zh) * 2022-04-01 2022-07-05 武汉大学 一种无人机遥感测绘图像增强方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016143351A (ja) * 2015-02-04 2016-08-08 エヌ・ティ・ティ・コムウェア株式会社 学習装置、学習方法、およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7001243B1 (en) * 2003-06-27 2006-02-21 Lam Research Corporation Neural network control of chemical mechanical planarization
EP2360629A3 (en) 2005-05-07 2012-04-11 Stephen L. Thaler Device for the autonomous bootstrapping of useful information
CN103020602B (zh) * 2012-10-12 2015-10-14 北京建筑工程学院 基于神经网络的人脸识别方法
US9749188B2 (en) * 2014-05-13 2017-08-29 Cisco Technology, Inc. Predictive networking architecture for next-generation multiservice, multicarrier WANs
CN105279555B (zh) * 2015-10-28 2017-10-17 清华大学 一种基于进化算法的自适应学习神经网络实现方法
CN106709565A (zh) * 2016-11-16 2017-05-24 广州视源电子科技股份有限公司 一种神经网络的优化方法及装置
CN108154222B (zh) * 2016-12-02 2020-08-11 北京市商汤科技开发有限公司 深度神经网络训练方法和系统、电子设备
CN106651774B (zh) * 2016-12-27 2020-12-04 深圳市捷顺科技实业股份有限公司 一种车牌超分辨率模型重建方法及装置
CN106934346B (zh) * 2017-01-24 2019-03-15 北京大学 一种目标检测性能优化的方法
CN106941602B (zh) * 2017-03-07 2020-10-13 中国铁路总公司 机车司机行为识别方法及装置
CN107301383B (zh) * 2017-06-07 2020-11-24 华南理工大学 一种基于Fast R-CNN的路面交通标志识别方法
CN107704857B (zh) * 2017-09-25 2020-07-24 北京邮电大学 一种端到端的轻量级车牌识别方法及装置
TWI699816B (zh) * 2017-12-26 2020-07-21 雲象科技股份有限公司 自動化顯微鏡系統之控制方法、顯微鏡系統及電腦可讀取記錄媒體
CN108073910B (zh) * 2017-12-29 2021-05-07 百度在线网络技术(北京)有限公司 用于生成人脸特征的方法和装置
CN108776834B (zh) * 2018-05-07 2021-08-06 上海商汤智能科技有限公司 系统增强学习方法和装置、电子设备、计算机存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016143351A (ja) * 2015-02-04 2016-08-08 エヌ・ティ・ティ・コムウェア株式会社 学習装置、学習方法、およびプログラム

Also Published As

Publication number Publication date
KR20200119873A (ko) 2020-10-20
WO2019214344A1 (zh) 2019-11-14
US11669711B2 (en) 2023-06-06
JP2021507421A (ja) 2021-02-22
JP6896176B2 (ja) 2021-06-30
SG11202006017SA (en) 2020-07-29
CN108776834B (zh) 2021-08-06
US20200349431A1 (en) 2020-11-05
CN108776834A (zh) 2018-11-09

Similar Documents

Publication Publication Date Title
KR102420715B1 (ko) 시스템 강화 학습 방법 및 장치, 전자 기기, 컴퓨터 저장 매체
KR20200031163A (ko) 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체
CN111738025B (zh) 基于人工智能的翻译方法、装置、电子设备和存储介质
CN108280451B (zh) 语义分割及网络训练方法和装置、设备、介质
CN108230346B (zh) 用于分割图像语义特征的方法和装置、电子设备
JP6872044B2 (ja) 対象物の外接枠を決定するための方法、装置、媒体及び機器
KR20210040316A (ko) 사용자 상호작용 정보 처리모델 생성방법, 사용자 상호작용 정보 처리방법 및 프로그램
JP2017224027A (ja) データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム
CN111989696A (zh) 具有顺序学习任务的域中的可扩展持续学习的神经网络
JP2023541752A (ja) ニューラルネットワークモデルのトレーニング方法、画像検索方法、機器及び媒体
CN108229652B (zh) 神经网络模型迁移方法和系统、电子设备、程序和介质
CN112541124A (zh) 生成多任务模型的方法、装置、设备、介质及程序产品
KR102502985B1 (ko) 대상 추천 방법, 신경망 및 그 훈련 방법, 장치 및 매체
CN113792526A (zh) 字符生成模型的训练方法、字符生成方法、装置和设备和介质
US20220398834A1 (en) Method and apparatus for transfer learning
CN111667069A (zh) 预训练模型压缩方法、装置和电子设备
CN111291563A (zh) 词向量对齐方法和词向量对齐模型训练方法
CN108234195B (zh) 预测网络性能的方法和装置、设备、介质
CN114445826A (zh) 视觉问答方法、装置、电子设备以及存储介质
WO2024051707A1 (zh) 训练推荐模型的方法、推荐资源的方法及其装置
US10530387B1 (en) Estimating an optimal ordering for data compression
CN117539975A (zh) 大语言模型的提示词信息的生成方法、装置、设备及介质
CN115880506B (zh) 图像生成方法、模型的训练方法、装置及电子设备
CN113642654B (zh) 图像特征的融合方法、装置、电子设备和存储介质
CN112784967B (zh) 信息处理方法、装置以及电子设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant